CN110600024A

CN110600024A - 操作终端、语音输入方法以及计算机可读取的记录介质

Info

Publication number: CN110600024A
Application number: CN201910498853.5A
Authority: CN
Inventors: 田原康平; 太田雄策; 杉本博子
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-06-13
Filing date: 2019-06-10
Publication date: 2019-12-20
Also published as: US11195525B2; US20190385602A1

Abstract

本发明提供一种操作终端，包括：拍摄空间的摄像部；从所拍摄的所述空间的信息检测用户的人检测部；受理用户的讲话声音的输入的语音输入部；在通过人检测部检测到用户的情况下，基于通过规定的方法获得的信息，检测用户的上肢包含的规定的第一部位的第一坐标和除了用户的上肢以外的上半身包含的规定的第二部位的第二坐标的坐标检测部；以及，比较第一坐标和第二坐标之间的位置关系，在位置关系至少满足了一次规定的第一条件的情况下，使语音输入部处于可受理语音输入的状态的条件判断部。

Description

操作终端、语音输入方法以及计算机可读取的记录介质

技术领域

本发明涉及一种由用户的讲话声音而操作的操作终端、该操作终端的语音输入方法以及存储用于让计算机执行该语音输入方法的程序的计算机可读取的记录介质。

背景技术

在用户通过语音操作特定的终端的情况下，终端需要收音用户的语音，收音方式大体分为两类。一类是根据用户的操作来判断用户的语音输入的开始，并开始收音的方式。另一类是始终进行收音，从收音的声音中提取语音的方式。在后者的方式中，由于会感觉到始终让终端收集语音，用户可能会有隐私被泄露等的担忧。为此，如前者的方式所述仅在用户表示想要进行语音输入的意思表示的情况下才进行语音的收音的方式比较有效。

而且，近年来，通过检测用户的手势来指示机器人的技术已为公知。例如，专利第4149213号公开了一种指示位置检测装置，为了能在自然状态下进行指示动作，并且，进行高精度的指示位置检测，从用多个摄像机拍摄的图像中检测出人物的头部的位置和手的位置以及手的朝向，基于这些检测结果检测人物指示的方向，根据所检测的方向检测人物指示的位置。

而且，专利第6303918号公开了一种手势管理系统，为了能正确地识别在任意位置进行的使用了手臂的手势，从多个距离图像传感器之中确定可以正确地识别出使用了手臂的手势的距离图像传感器，并登记利用所确定的距离图像传感器识别的手势。

然而，在上述专利第4149213号、专利第6303918号中，因为要求用户进行将手腕正确地朝向空间内的特定方向这样比较麻烦的手势，需要进一步的改善。

发明内容

本发明的目的在于提供一种不会给用户带来麻烦，使操作终端处于可受理语音输入的状态的操作装置等。

本发明的一方面涉及的操作终端，是由用户的讲话声音而操作的操作终端，包括：拍摄空间的摄像部；从所拍摄的所述空间的信息检测所述用户的人检测部；受理所述用户的讲话声音的输入的语音输入部；在通过所述人检测部检测到所述用户的情况下，基于通过规定的方法获得的信息，检测所述用户的上肢包含的规定的第一部位的第一坐标和除了所述用户的上肢以外的上半身包含的规定的第二部位的第二坐标的坐标检测部：以及，比较所述第一坐标和所述第二坐标之间的位置关系，在所述位置关系至少满足了一次规定的第一条件的情况下，使所述语音输入部处于语音输入的可受理状态的条件判断部。

根据本发明，不会给用户带来麻烦，即可以将操作终端设定为可受理语音输入的状态。

附图说明

图1是表示本发明的第1实施方式涉及的操作终端与用户的位置关系的一个例子的示意图。

图2是表示操作终端的外观构成的一个例子的示意图。

图3是表示通过摄像装置测量的用户的骨骼信息的一个例子的示意图。

图4是表示本发明的第1实施方式涉及的操作终端的构成的一个例子的方框图。

图5是表示本发明第1实施方式涉及的开始条件判断部的处理的一个例子的流程图。

图6是表示本发明的实施方式中的管理部的处理的一个例子的流程图。

图7是为了说明开始条件而示例的用户的骨骼信息的示意图。

图8是表示手势可能范围的一个例子的示意图。

图9是表示多个用户对操作终端进行手势时的示意图。

图10是表示状态通知的第1例子的示意图。

图11是表示状态通知的第2例子的示意图。

图12是表示状态通知的第3例子的示意图。

图13是表示状态通知的第4例子的示意图。

图14是表示状态通知的第5例子的示意图。

图15是对图4所示的操作终端的方框图添加了图10至图14所示的显示装置以及再生装置的情况下的操作终端的方框图。

图16是表示第2实施方式涉及的操作终端的构成的一个例子的方框图。

图17是表示本发明第2实施方式涉及的结束条件判断部的处理的一个例子的流程图。

图18是为了说明结束条件而示例的用户的骨骼信息的示意图。

图19是表示本发明第2实施方式涉及的超时判断部的处理的一个例子的流程图。

图20是表示本发明第2实施方式涉及的管理部的处理的一个例子的流程图。

图21是表示独立于摄像装置、再生装置以及显示装置而另外构成操作终端1时的构成的一个例子的示意图。

具体实施方式

(本发明的基础知识)

本发明的发明人，对例如悬挂在房间内的墙壁上、通过识别来自用户的语音来操作设置在房间的各种家用电器的操作终端进行了研究。对这样的操作终端，需要识别用户是否正在进行语音输入或者正在尝试进行语音输入。能够进行语音操作的终端的大多数一般具备以下构成，即，始终收音语音以便始终可以语音识别特定的短语，将识别了特定的短语作为触发开始特定的短语之外的短语的语音识别。然而，这样的构成，因为需要始终收音语音，存在用户担心隐私被侵犯的担忧。因此，需要这样的一种构成，即，不是始终收音语音，而是判断用户开始语音输入的意思表示。

而且，如果将使用户发出特定的短语的构成直接适用到上述操作终端，除了每次操作家用电器时用户都需要发出特定的短语之外，尽管是面向操作终端一方用户也需要发出特定的短语，会给用户带来麻烦和不自然。

另一方面，还存在一种如上述的专利第4149213号所示，将用户进行的某些手势作为触发机器人等的设备的操作的方法。

但是，专利第4149213号作为检测对象的手势是用户让机器人拾物或使机器人移动的手势，并不是用于使语音识别开始的意思表示的手势。为此，在专利第4149213号中，需要用户将手臂朝向空间内的特定的方向的手势。因此，如果将专利第4149213号的技术适用于上述操作终端，为了使语音识别开始，用户需要特意地进行将手臂朝向特定的方向的手势，从而给用户带来麻烦。

而且，专利第6303918号，是在购物中心、博物馆、会展中心等空间内，管理在任意的位置进行的用户使用了手臂的手势的技术，不是管理用于开始语音识别的意思表示的手势的技术。而且，由于专利第6303918号作为管理对象的手势，是让手臂朝向展示物等物体的手势，手臂的方向变得很重要，如果该方向不同就判断是不同的手势。因此，在将专利第6303918号的技术原封不动地应用到所述操作终端的情况下，用户需要进行将手臂朝向与所管理的手势相同方向的手势，从而给用户带来麻烦。而且，在专利第6303918号，当想以无需严格的手臂方向的简单的手势开始语音识别的情况下，用户需要事先登记想要开始语音识别所利用的多种多样的手臂方向不同的手势，还是会给用户带来麻烦。

在此，为了不给用户带来麻烦而使语音识别开始，本发明的发明人发现不需要要求缜密的手腕的朝向用简单的手势就有效从而想到了本发明。

本发明的一实施方式涉及的操作终端，是由用户的讲话声音而操作的操作终端，包括：拍摄空间的摄像部；从所拍摄的所述空间的信息检测所述用户的人检测部；受理所述用户的讲话声音的输入的语音输入部；在通过所述人检测部检测到所述用户的情况下，基于通过规定的方法获得的信息，检测所述用户的上肢包含的规定的第一部位的第一坐标和除了所述用户的上肢以外的上半身包含的规定的第二部位的第二坐标的坐标检测部；以及，比较所述第一坐标和所述第二坐标之间的位置关系，在所述位置关系至少满足了一次规定的第一条件的情况下，使所述语音输入部处于语音输入的可受理状态的条件判断部。

根据本构成，在用户的上肢包含的第一部位的第一坐标和除了用户的上肢以外的上半身包含的第二部位的第二坐标之间的位置关系满足第一条件的情况下，语音输入部处于语音输入的可受理状态。因此，本构成，例如通过让用户进行使手腕抬高到略高于颈部这样不用考虑手腕的朝向的简单的手势，可以使语音输入部处于可受理语音输入的状态。其结果，不会给用户带来麻烦，可以将操作终端设定为可受理语音输入的状态。

在上述实施方式，还可以是，还包括：从所述空间的信息提取所述用户的骨骼信息的骨骼信息提取部，其中，通过所述规定的方法获得的信息是所述骨骼信息。

根据本构成，因为基于用户的骨骼信息检测第一坐标和第二坐标，可以正确地检测第一坐标和第二坐标。

在上述实施方式，所述摄像部还可以是可见光摄像机、红外线摄像机、TOF传感器、超声波传感器或电波传感器。

根据本构成，因为摄像部由可见光摄像机、红外线摄像机、TOF传感器、超声波传感器或电波传感器构成，在空间信息中包含距离信息，可以正确地检测存在于周围的空间的用户。

在上述实施方式，所述位置关系还可以是在垂直方向上所述第一坐标与所述第二坐标之间的位置关系。

因为在第一坐标与第二坐标在垂直方向上的位置关系满足第一条件的情况下为可受理语音输入的状态，用户例如只需进行使上肢在垂直方向上抬高这样简单的手势，可以处于所述可受理状态。

在上述实施方式，所述位置关系还可以是在所述用户的躯干轴方向上所述第一坐标与所述第二坐标之间的位置关系。

根据此构成，因为在第一坐标与第二坐标的位置关系满足第一条件的情况下为可受理状态，用户例如只需进行使上肢在躯干轴方向上抬高这样简单的手势，可以处于所述可受理状态。而且，因为是以躯干轴方向为基准判断位置关系，用户不必考虑当前的姿势是躺下状态还是起立状态，只需沿着躯于轴方向举起上肢，就可以处于可受理状态。

在上述实施方式，还可以是，所述坐标检测部，进一步检测所述上半身的第三部位的第三坐标，所述第一条件是所述第一坐标、所述第二坐标以及所述第三坐标之间的角度超过规定的阈值、低于所述规定的阈值或被限定在规定的范围。

根据此构成，因为还检测上半身的第三部位的第三坐标，在第一坐标、第二坐标以及第三坐标之间的角度超过规定的阀值、低于规定的阈值或被限定在规定的范围的情况下，判断位置关系满足第一条件。因此，用户例如通过进行让上肢相对于躯干轴方向成规定角度的手势，就可以处于所述可受理状态。

在上述实施方式，还可以是，所述第一部位包含所述上肢包含的多个部位，所述第一坐标基于所述多个部位的任意一个以上的坐标来决定。

根据此构成，因为基于构成第一部位的多个部位的各自的坐标来决定第一坐标，可以灵活地决定第一坐标。

在上述实施方式，还可以是，所述第二部位包含除了所述上肢以外所述上半身包含的多个部位，所述第二坐标基于所述多个部位的任意一个以上的坐标而决定。

根据此构成，因为基于构成第二部位的多个部位的各自的坐标来决定第二坐标，可以灵活地决定第二坐标。

在上述实施方式，还可以是，所述第一条件包含多个第二条件，所述条件判断部，在所述位置关系满足所述多个第二条件的至少其中之一或组合了所述多个第二条件的一部分的第三条件的情况下，为所述可受理状态。

根据此构成，可以灵活地进行位置关系是否满足第一条件的判断。

在上述实施方式，还可以包括：输出表示所述语音输入部是否处于所述可受理状态的信息的显示部或再生部。

根据此构成，可以通过视觉或听觉通知用户表示语音输入部是否处于可受理状态的信息。

在上述实施方式，所述显示部还可以是显示器。

根据此构成，可以利用显示器通知用户表示语音输入部是否处于可受理状态的信息。

在上述实施方式，表示所述语音输入部是否处于所述可受理状态的信息还可以是颜色、文本或图标。

根据此构成，可以利用颜色、文本或图标通知用户语音输入部是否处于可受理状态。

在上述实施方式，所述显示部还可以是发光表示所述语音输入部处于所述可受理状态的光的发光装置。

根据此构成，可以通过发光装置发光的光通知用户语音输入部是否处于可受理状态。

在上述实施方式，所述再生部还可以输出表示所述语音输入部是否处于所述可受理状态的语音。

根据此构成，可以通过语音通知用户语音输入部是否处于可受理状态。

在上述实施方式，所述再生部还可以输出表示所述语音输入部是否处于所述可受理状态的声音。

根据此构成，可以通过声音通知用户语音输入部是否处于所述可受理状态。

在上述实施方式，所述条件判断部，还可以仅在所述操作终端与所述用户之间的距离满足规定的第四条件时，比较所述位置关系。

根据此构成，因为仅在操作终端与用户之间的距离满足规定的第四条件时比较第一坐标和第一坐标的位置关系，可以防止对于没有操作操作终端意图的用户执行比较所述位置关系的处理，可以降低成本。

在上述实施方式，所述条件判断部，还可以在所述可受理状态下无声区间持续一定时间的情况下，结束所述可受理状态。

根据此构成，因为在可受理状态下无声区间持续一定时间的情况下结束可受理状态，可以防止尽管用户没有操作操作终端的意图但可受理状态还继续的情况的发生。其结果，能够确保用户的隐私。

在上述实施方式，所述条件判断部，还可以在所述可受理状态下只要所述位置关系满足所述第一条件，就继续所述可受理状态。

根据此构成，因为在可受理状态下只要位置关系满足第一条件就继续可受理状态，用户通过继续进行让位置关系满足第一条件的手势，就可以表现出通过声音对操作终端进行操作的意思表示。

在上述实施方式，所述条件判断部，还可以在所述可受理状态下所述位置关系没有满足所述第一条件的状态持续了规定的超时期间的情况下，结束所述可受理状态。

根据此构成，因为在可受理状态下位置关系没有满足第一条件的状态持续了超时期间的情况下就结束可受理状态，可以防止尽管用户没有操作操作终端的意图但可受理状态还继续的情况的发生。其结果，能够确保用户的隐私。

在上述实施方式，所述条件判断部，在所述超时期间，在判断所述位置关系满足所述第一条件的情况下，还可以延长所述超时期间。

根据此构成，在超时期间，通过再次进行让位置关系满足第一条件的手势，可以使语音输入的可受理状态持续。

在上述实施方式，所述条件判断部，如果在所述超时期间结束时检测到语音输入，还可以继续所述可受理状态。

根据此构成，即使位置关系没有满足第一条件的状态持续了超时期间但在超时期间结束时如果检测到语音输入就可以继续可受理状态，可以防止尽管进行了用于操作操作终端的讲话但可受理状态还是被结束的情况的发生。

在上述实施方式，所述条件判断部，在所述位置关系满足与所述第一条件不同的规定的第五条件的情况下，还可以结束所述可受理状态。

根据此构成，用户通过进行让位置关系满足第五条件的手势，可以使可受理状态结束。

在上述实施方式，所述条件判断部，在所述人检测部检测到多个用户的情况下，还可以将特定的一个人作为所述操作终端的操作者来识别。

根据此构成，因为在人检测部检测到多个用户的情况下，将特定的一个人作为操作终端的操作者来识别，所以，在操作终端的周围存在多个用户的情况下，可以赋予一个操作者操作操作终端的权利。其结果，可以正确地识别有关操作者的操作的讲话。

在上述实施方式，所述操作者还可以是所述多个用户之中最接近所述操作终端的用户。

根据此构成，因为在人检测部检测到多个用户的情况下，将最接近操作终端的用户作为操作者来确定，能够通过简单的处理确定多个用户之中的一个操作者。

本发明还可以实现让计算机执行这样的操作终端所包含的各特征性构成的程序，或者，通过程序而工作的语音输入方法。而且，不用说，这样的程序可以存储在CD-ROM等计算机可读取的非暂时性记录介质中或通过英特网等通信网络而流通。

另外，在以下说明的实施方式，均表示本发明的一个具体例子。以下的实施方式所示的数值、形状、构成要素、步骤、步骤的顺序等仅仅是一个例子而已，不用于限制本发明。而且，以下的实施方式中的构成要素中，关于表示最上位概念的独立权利要求中没有记载的构成要素，作为任意的构成要素而被说明。而且，在所有的实施方式中，可以组合各自的内容。

(第1实施方式)

图1是表示本发明的第1实施方式涉及的操作终端1与用户U1的位置关系的一个例子的示意图。操作终端1，例如，是被设置在用户U1居住的家等建筑物内，收音用户U1讲话的声音，通过语音识别来受理来自用户U1的操作的装置。操作终端1受理的操作，例如，是对设置在建筑物内的电器设备的操作以及对操作终端1的操作等。电器设备，例如，是诸如洗衣机、冰箱、微波炉、空调机等家用电器设备，以及诸如电视、音频设备、录音机等AV(Audio/Visual)设备等。用户U1，在操作某个电器设备时，接近操作终端1，进行用于操作该电器设备的讲话。这样，操作终端1，语音识别讲话的声音，决定成为操作对象的电器设备以及对该电器设备的操作内容，向成为操作对象的电器设备发送与操作内容对应的控制指令。另外，操作终端1，通过经由网络与电器设备无线或有线可通信地连接。网络，例如，是无线LAN、有线LAN等。另外，网络也可以包含英特网。

图2是表示操作终端1的外观构成的一个例子的示意图。如图2所示，操作终端1具备摄像装置301(摄像部的一个例子)以及收音装置307(语音输入部的一个例子)。摄像装置301也可以具备检测用户U1是否存在于操作终端1的周围的人检测功能、检测用户U1在空间内的位置的位置检测功能、检测如图3所示的用户U1的骨骼信息201的骨骼检测功能。收音装置307具有收音用户U1对操作终端1讲话的声音的功能。

图3是表示通过摄像装置301测量的用户U1的骨骼信息201的一个例子的示意图。骨骼信息201具备包含用户U1的多个部位各自在空间的三维坐标的部位坐标202、沿着用户U1的躯干连接每个部位坐标202的链接203。部位坐标包含手腕、肘部、肩部等关节的坐标和指尖、脚尖以及头部等躯干的末端的坐标。另外，部位坐标也可以包含胸口的中心、肚脐等关节以及尖端以外的躯干的特征部位的坐标。

在图3的例子中，从上到下依次采用头顶、头和脸的连接处(颈部上部)、头和躯干的连接处(颈部基部)、左右肘部、左右手腕、腰、左右膝盖、左右脚踝作为部位坐标202。

表示部位坐标202的三维坐标，例如，用以操作终端1为基准而设定的正交坐标系、以用户U1为基准而设定的正交坐标系、以操作终端1为基准而设定的极坐标系、或者以用户U1为基准而设定的极坐标系来定义。但是，这些只是一个例子，定义三维坐标的坐标系，不仅限于这些坐标系。链接203，例如，是连接部位坐标202的三维矢量。

如果摄像装置301具有能够获取周围的空间信息的功能，其构成不作特别地限定。例如，摄像装置301可以由可见光摄像机、红外线摄像机、TOF传感器、超声波传感器以及电波传感器等测量表示操作终端1的周围的空间的三维信息的空间信息的传感器构成。另外，摄像装置301也可以组合可见光摄像机、红外线摄像机、TOF传感器、超声波传感器以及电波传感器中的任意两个以上来实现人检测功能以及骨骼信息检测功能。

可见光摄像机例如可以是彩色或黑白摄像机。红外线摄像机，对多个像素分别测量照射了红外光的反射时间。TOF(Time of flight)传感器，对多个像素分别测量照射了脉冲光的反射时间。超声波传感器，例如，是超声波传感器阵列。电波传感器，例如，是电波传感器阵列。

图4是表示本发明的第1实施方式涉及的操作终端1的构成的一个例子的方框图。

操作终端1具备处理器300、摄像装置301、收音装置307以及存储器309。处理器300，由CPU等电子电路构成，具备人检测部302、骨骼信息提取部303、手势提取部304、开始条件判断部305以及管理部306。存储器309包含收录声音记录部308。

摄像装置301，例如，以规定的帧速率获取空间信息，并将空间信息输出到人检测部302以及骨骼信息提取部303。空间信息，例如，是由包含RGB的颜色成分和深度成分的多个像素数据以矩阵状排列的数据。另外，构成空间信息的像素数据只需具备深度成分以及颜色成分之中的至少其中一方即可，代替颜色成分也可以具备亮度成分。

人检测部302，从摄像装置301获取空间信息，检测在操作终端1的周围的空间内是否存在用户，将表示用户是否存在的检测结果输出到手势提取部304。在此，人检测部302可以利用各种人检测方法从空间信息检测出用户。例如，人检测部302，从空间信息提取一个以上的物体，如果一个以上物体之中的任意一个是表示人的物体的话，就判断用户存在。

骨骼信息提取部303，从摄像装置301获取空间信息，并从所获取的空间信息提取用户的骨骼信息201，并将其输出到手势提取部304。骨骼信息提取部303，即可以在每次获取空间信息时提取骨骼信息，也可以如后所述将从手势提取部304获取骨骼信息的提取请求作为触发提取用户的骨骼信息。在这种情况下，骨骼信息提取部303，例如，从手势提取部304获取包含在空间信息内的用户的人数以及在空间信息内用户所在的区域的提取请求。据此，骨骼信息提取部303，可以从用户所在的区域内的空间信息提取骨骼信息201，与从整个空间信息提取骨骼信息201的情况相比较，能够削减处理负荷。而且，骨骼信息提取部303，在人检测部302检测出多个用户的情况下，也可以从手势提取部304获取各用户所在的区域。

骨骼信息提取部303，例如，利用骨骼跟踪或动作捕捉等手法实时地提取骨骼信息。骨骼信息提取部303，在空间内存在多个用户的情况下，也可以实时地提取每个用户的骨骼信息201。

手势提取部304(坐标检测部的一个例子)，基于从人检测部302获取的检测结果以及从骨骼信息提取部303获取的骨骼信息201，提取第一坐标以及第二坐标，并将包含第一坐标以及第二坐标的手势提取信息输出到开始条件判断部305。

例如，手势提取部304，在从人检测部302获取了表示检测到了用户的检测结果的情况下，从骨骼信息提取部303获取骨骼信息。或者，手势提取部304，在从人检测部302获取了表示检测到人的检测结果的情况下，也可以将骨骼信息的提取请求输出到骨骼信息提取部303，从而从骨骼信息提取部303获取骨骼信息。在这种情况下，手势提取部304，也可以将人检测部302的检测结果所示的在空间信息内的用户的人数以及用户所在的区域等包含到提取请求中并输出到骨骼信息提取部303。

第一坐标是构成上肢的第一部位的坐标。第二坐标是构成除了上肢以外的上半身的第二部位的坐标。上肢是指从肩关节到指尖。下肢是指从腰到脚尖。上半身是指从腰到头顶。因此，第二部位是除了上肢以外的上半身，即，躯体、头部以及脸内的特定的部位。例如，第二部位是颈部上部、颈部基部、头顶等。第一部位，例如，是手腕、肘部以及肩部等。

在本实施方式，手势提取部304，例如，采用手腕、肘部以及肩部之中的任意一个部位(例如，手腕)作为第一部位。而且，手势提取部304，例如，采用颈部上部、颈部基部、头顶之中的任意一个部位(例如，颈部基部)作为第二部位。

但是，这些只是一个例子，手势提取部304，例如，也可以采用手腕、肘部以及肩部之中的两个以上作为第一部位，例如，也可以采用颈部基部、颈部上部、头顶的任意两个以上作为第二部位。在这种情况下，手势提取部304，也可以将两个以上的第一部位的全部或一部分的平均值或者相加值作为第一坐标来计算。此外，在这种情况下，手势提取部304也可以将两个以上的第二部位的全部或一部分的平均值或者相加值作为第二坐标来计算。

进一步，手势提取部304，也可以在上半身提取第一部位以及第二部位以外的第三部位。第三部位，例如，是腰部、肚脐、胸口等。在这种情况下，手势提取部304，也可以除了第一坐标和第二坐标之外还将第三部位的第三坐标包含在手势提取信息中。

开始条件判断部305，将从手势提取部304获取的手势提取信息中包含的第一坐标以及第二坐标的位置关系进行比较，将位置关系是否满足语音输入的开始条件(第一条件的一个例子)的判断结果输出到管理部306。开始条件，例如，是表示诸如用户举起上肢这样的表示用户开始语音输入的意思表示的规定的手势的条件。具体而言，如果第一坐标是手腕，第二坐标是颈部基部，可以例举将在垂直方向上第一坐标位于第二坐标之上的条件作为开始条件的一个例子。

管理部306，在从开始条件判定部305获取了表示满足开始条件的判定结果的情况下，通过使存储在存储器309中的状态旗竖起向收音装置307输出开始指令，使收音装置307成为可受理语音输入的状态。另一方面，管理部306，在从开始条件判断部305获取了表示没有满足开始条件的判断结果的情况下，通过将结束指令输出到收音装置307，可以结束可受理状态。此时，管理部306，通过使存储在存储器309中的状态旗降下，管理已结束了可受理状态。据此，只要用户做出满足开始条件的手势，可受理状态就可以继续。另外，将状态旗竖起是指状态旗的状态处于可受理状态，降下状态旗是指状态旗的状态处于不可受理状态的状态(待机状态)。

收音装置307包含获取周围的声音的麦克风以及控制麦克风的电路。收音装置307，在从管理部306获取了开始指令的情况下，让麦克风收录周围的声音，将表示被收录到的声音的声音信号记录到收录声音记录部308。据此，收音装置307变为可受理状态。另一方面，收音装置307，在从管理部306获取了结束指令的情况下，结束收音。据此，收音装置307变为待机状态。

收录声音记录部308，通过记录从收音装置307获取的声音信号，实现操作终端1的声音记录功能。收录声音记录部308，例如，即可以由非易失性存储器构成，也可以由易失性存储器构成。

图5是表示本发明第1实施方式涉及的开始条件判断部305的处理的一个例子的流程图。

在步骤S401，开始条件判断部305从手势提取部304获取手势提取信息。

在步骤S402，开始条件判断部305，基于在步骤S401获取的手势提取信息，判断用户是否存在于操作终端1的周围的手势可能范围内。在判断用户不存于手势可能范围内的情况下(在步骤S402为否)，开始条件判断部305，使处理返回到步骤S401，获取手势提取信息。另一方面，在判断用户存在于手势可能范围内的情况下(在步骤S402为是)，执行步骤S403。手势可能范围的详细情况，将利用图8在后详述。在此，开始条件判断部305，如果在手势提取信息中包含的第一坐标、第二坐标以及第三坐标等表示用户的位置的坐标在手势可能范围内，就判断用户位于手势可能范围内，如果上述坐标不在手势可能范围内，就判断用户不在手势可能范围内。

在步骤S403，开始条件判断部305，判断手势提取信息中包含的第一坐标、第二坐标以及第三坐标的位置关系是否满足开始条件(步骤S403)。而且，在判断满足开始条件的情况下(在步骤S403为是)，开始条件判断部305，由于用户已经进行了表示开始语音输入的意思表示的手势，使处理前往步骤S404。另一方面，在判断没有满足开始条件的情况下(在步骤S403为否)，开始条件判断部305，使处理返回到步骤S401，获取手势提取信息。

在步骤S404，开始条件判断部305，将表示满足开始条件的判断结果输出到管理部306。如果步骤S404结束，开始条件判断部305，使处理返回到步骤S401，获取手势提取信息。

图6是表示本发明的实施方式中的管理部306的处理的一个例子的流程图。在步骤S601，管理部306判断收音装置307是否处于可受理语音输入的状态。在这种情况下，管理部306，如果存储在存储器309中的状态旗竖起，就判断为处于可受理状态，如果存储在存储器309中的状态旗未竖起，就判断为处于不可受理状态。

在判断为处于可受理状态的情况下(在步骤S601为是)，管理部306使处理返回到步骤S601。另一方面，在判断为不可受理状态的情况下(在步骤S601为否)，管理部306使处理前往步骤S602。

在步骤S602，管理部306，在从开始条件判断部305获取了表示满足开始条件的判断结果的情况下(在步骤S602为是)，使处理前往S603，在没有获取到表示满足开始条件的判断结果的情况下(在步骤S602为否)，管理部306，使处理返回到步骤S601。

在步骤S603，管理部306，通过将开始指令输出到收音装置307，使收音装置307处于可受理状态并使存储在存储器309中的状态旗竖起。如果步骤S603的处理结束，管理部306，使处理返回到步骤S601。

其次，对开始条件进行说明。图7是为了说明开始条件而例示的用户U1的骨骼信息201的示意图。图7例示了在步骤S403作为开始条件的比较对象的第一坐标、第二坐标以及第三坐标。在图7的例子中，采用手腕坐标H作为第一坐标，采用颈部基部坐标N作为第二坐标，采用腰部坐标W作为第三坐标。

开始条件的第1例子是手腕坐标H与颈部基部坐标N相比在垂直方向为第1阈值(例如，20cm)以上较大(高)的条件。垂直方向是指与地面正交的方向。在这种情况下，用户U1，通过进行举起上肢的手势使手腕坐标H与颈部基部坐标N相比在垂直方向为第1阈值以上较高，可以使收音装置307成为可受理状态。另外，上肢既可以是右腕也可以是左腕。

开始条件的第2例子是手腕坐标H和颈部基部坐标N在垂直方向被限制在规定范围内的条件。例如，可以采用让手腕坐标H位于以颈部基部坐标N为中心在垂直方向上下的规定范围内(例如，±10cm左右)的条件作为开始条件的第2例子。在这种情况下，用户U1，通过进行弯曲肘部将手腕坐标H抬到胸口附近的手势或者不弯曲肘部而是将上肢整体向躯体的外侧转动将手腕坐标H抬到胸口附近的手势，可以处于可受理状态。

开始条件的第3例子是在连接颈部基部坐标N和腰部坐标W的躯干轴方向上，手腕坐标H与颈部基部坐标N相比为第1阈值(例如，10cm)以上较大的条件。在这种情况下，用户U1，可以通过进行举起上肢的手势使手腕坐标H与颈部基部坐标N相比为第1阈值以上较高，可以处于可受理状态。在这种情况下，用户U1，不管当前的姿势是躺下还是起立，不必考虑垂直方向，通过沿着躯干轴方向举起上肢，可以处于可受理状态。

开始条件的第4例子是手腕坐标H和颈部基部坐标N在躯干轴方向被限制在规定范围内的条件。例如，可以采用让手腕坐标H位于以颈部基部坐标N为中心在躯干轴方向上下的规定范围内(例如，±10cm左右)的条件作为开始条件的第4例子。在这种情况下，用户U1，例如，通过在躺下的状态进行弯曲肘部将手腕坐标H抬到胸口附近的手势或者不弯曲肘部将上肢整体向躯体的外侧转动使手腕坐标H抬到胸口附近的手势，可以处于可受理状态。

开始条件的第5例子是让连接了手腕坐标H以及颈部基部坐标N的表示上肢方向的直线和连接了腰部坐标W以及颈部基部坐标N的表示躯干轴方向的直线之间的角度在规定的第2阈值(例如100度、80度等)以上的条件。在这种情况下，用户U1，不管当前的姿势是处于起立状态还是躺下状态等，不用考虑垂直方向通过进行在躯干轴方向抬起手的手势，可以处于上述可受理状态。

开始条件的第6例子是连接了手腕坐标H以及颈部基部坐标N的表示上肢方向的直线和连接了腰部坐标W以及颈部基部坐标N的表示躯干轴方向的直线之间的角度被限制在规定的角度范围内的条件。规定的角度范围，例如，以100度为中心为±10度、±20度等。在这种情况下，用户U1，不管当前的姿势是处于起立状态还是躺下状态等，不用考虑垂直方向，通过进行举起上肢的手势使上肢方向和躯干轴方向之间的角度在规定的角度范围内，可以处于可受理状态。

开始条件，也可以组合开始条件的第1例子至第6例子之中的任意两个以上的条件。例如，开始条件，可以采用第1例子至第6例子之中的任意两个以上的条件都成立的条件(第三条件的一个例子)。或者，开始条件也可以是第1例子至第6例子之中的任意一个或至少两个成立的条件(第二条件的一个例子)。在此，虽然第1例子至第6例子都是举起上肢的手势，但这只是一个例子而已。例如，可以采用放下上肢的手势、伸展左右的上肢的手势等各种手势作为开始条件，作为检测对象的手势没有特别地限定。伸展左右的上肢的手势，例如，可以是向上抬起左右的上肢的手势、向下放下左右的上肢的手势以及抬起一只上肢另一只上肢放下的手势等。

其次，对步骤S402的处理的一个例子进行说明。图8是表示手势可能范图901的一个例子的示意图。如图8所示，手势可能范围901被夹在手势不可用范围902和手势不可用范围903之间。

开始条件判断部305，通过比较手势可能范围901以及手势不可用范围902、903以及用户U1的位置，使检测用户U1的手势的范围被用户U1和操作终端1之间的距离而限制。

手势不可用范围902是以手势可能范围901的下限值D1为半径以操作终端1为中心的圆形或扇形的区域。手势可能范围901是从以上限值D2为半径的圆形或扇形的区域中除去手势不可用范围902的圆环形区域。手势不可用范围903是远离操作终端1上限值D2的区域。

因此，开始条件判断部305，在用户U1的位置满足位于相对于操作终端1的下限值D1至上限值D2的范围，即，位于手势可能范围901的条件(第四条件的一个例子)的情况下，检测用户U1的手势。另一方面，开始条件判断部305，在用户U1的位置位于相对于操作终端1的下限值D1以下的情况下，或者，在用户U1的位置位于相对于操作终端1的上限值D2以上的范围的情况下，不检测用户U1的手势。

在用户U1的位置太靠近操作终端1的情况下，有可能不能很好地检测出用户U1的手势，此外，也可能是用户U1偶尔在操作终端1的附近进行某一操作等但并没有操作终端1.的意思。而且，在用户U1的位置远离操作终端1的情况下，用户U1不操作操作终端1的意思的可能性较高。因此，在本实施方式，开始条件判断部305，仅在用户U1位于手势可能范围901时实施检测用户U1的手势的处理，即，判断是否满足开始条件的处理。据此，可以防止手势的检测精度的降低并在用户U1没有对操作终端1进行操作的意思的情况下，可以防止检测手势的处理进行工作，能够削减操作终端1的处理负荷。

在上述说明中，对手势提取部304将一个第一坐标和一个第二坐标包含在手势提取信息中并将其输出到开始条件判断部305进行了说明，但是，本发明并不局限于此。手势提取部304，也可以将一个或多个第一坐标和一个或多个第二坐标包含在手势提取信息中并将其输出到开始条件判断部305。

例如，在手势提取信息中包含多个第一坐标和一个第二坐标的情况下，开始条件判断部305，如果多个第一坐标(例如，手腕坐标H、肘部坐标以及肩部坐标)之中的至少其中之一的第一坐标相对于一个第二坐标(例如，颈部基部坐标N)在垂直方向或躯干轴方向为第1阈值以上较大，就判断满足开始条件。而且，在手势提取信息中包含一个第一坐标和多个第二坐标的情况下，开始条件判断部305，如果一个第一坐标(例如，手腕坐标H)相对于多个第二坐标(例如，躯体坐标、颈部基部坐标N、头部坐标)之中的至少其中之一的第二坐标在垂直方向或躯干轴方向为第1阈值以上较大，就判断满足开始条件。

图9是表示多个用户对操作终端1进行手势的情况下的示意图。如图9所示的用户U1和用户U2，在多个用户对操作终端1进行手势的情况下，手势提取部304也可以确定一个操作者，将对于所确定的操作者的手势提取信息输出到开始条件判断部305。在这种情况下，手势提取部304也可以将多个用户之中位于最接近操作终端1的用户确定为操作者。

而且，手势提取部304，也可以将多个用户之中最初检测到的用户出现在手势可能范围901为止最初检测到的用户继续确定为操作者。例如，在用户U1先进入手势可能范围901，之后，用户U2进入手势可能范围901的情况下，手势提取部304，只要用户U1位于手势可能范围901，就将用户U1确定为操作者。而且，当用户U1从手势可能范围901离开时，手势提取部304，如果用户U2位于手势可能范围901，就将用户U2确定为操作者。此时，如果在手势可能范围901内除了用户U2以外还有用户U3，手势提取部304也可以将用户U2、用户U3之中相对于操作终端1的距离较近一方的用户确定为操作者。

但是，这些只是一个例子，从多个用户中确定一个操作者的方法不仅限于上述方法。

其次，对第1实施方式的变形例进行说明。第1实施方式的变形例输出表示是否处于可受理状态的状态通知。

图10是表示状态通知的第1例子的示意图。在第1例子中，操作终端1在前面具备显示器501，例如，安装在室内的墙壁上等。摄像装置301设置在显示器501的外框的例如上侧。收音装置307设置在显示器501的外框的上侧位于摄像装置301的两侧有两个。这种情况，图11和图12也相同。

在状态通知的第1例子中，显示器501通过文本502显示状态通知。在该例子中，由于收音装置307处于可受理语音输入的状态，作为文本502采用“语音输入受理中”。据此，进行了手势的用户可以识别操作终端1处于可受理语音输入的状态。另外，在可受理状态结束的情况下，显示器501也可以不显示文本502，可以显示表示“语音输入等待中”等操作终端1未处于可受理状态的文本502。另外，图10所示的文本502是一个例子，只要是用户可以识别操作终端1处于可受理状态的消息，也可以采用其它的消息。而且，图10所示的摄像装置301以及收音装置307的各自的配置场所、个数仅为一个例子。这种情况，图11和图12也相同。

图11是表示状态通知的第2例子的示意图。在状态通知的第2例子中，显示器501通过图标503显示状态通知。在该例子中，由于收音装置307处于可受理语音输入的状态，作为图标503采用模拟了麦克风的图标。据此，进行了手势的用户可以识别操作终端1处于可受理语音输入的状态。另外，在可受理状态结束的情况下，显示器501也可以不显示图标503，可以显示表示语音输入处于待机状态的图标等。或者，显示器501，在处于可受理状态的情况下，可以用规定的第1颜色显示图标503，在语音输入处于待机状态的情况下，也可以用与第1颜色不同的规定的第2颜色显示图标503。另外，图11所示的图标503是一个例子，只要是用户可以识别处于可受理状态的图标，也可以采用其它的图标。

图12是表示状态通知的第3例子的示意图。在状态通知的第3例子中，显示器501通过显示区域整体的颜色504来显示状态通知。颜色504是在显示区域整体显示的背景的颜色。在该例子中，由于收音装置307处于可受理语音输入的状态，作为颜色504可以采用表示处于可受理状态的第1颜色(例如，红、蓝、黄色等)。据此，进行了手势的用户可以识别操作终端1处于可受理语音输入的状态。另外，在可受理状态结束的情况下，显示器501，只需显示表示处于待机状态的与第1颜色不同的第2颜色即可。例如，作为第2颜色，可以采用显示在显示器501的默认的背景颜色，例如，白色、黑色等。另外，图12所示的颜色504是一个例子，只要是用户可以识别可受理状态的颜色，可以采用任意的颜色。

图13是表示状态通知的第4例子的示意图。在第4例子中，操作终端1，在其前面配置例如两个收音装置307和例如一个摄像装置301，在上面配置例如四个发光装置505。另外，在第4例子中，操作终端1例如采用智能扬声器等放置在桌子或地板等上的固定型装置。发光装置505例如是发光二极管等。

在第4例子中，通过发光装置505显示状态通知。例如，在操作终端1处于可受理状态的情况下，发光装置505发光。另一方面，在操作终端1处于待机状态的情况下，发光装置505熄灭。据此，进行了手势的用户可以识别处于可受理状态。但是，这些只是一个例子而已，只要是用户可以识别处于可受理状态，作为发光装置505的显示方式，可以采用任意的方式。例如，作为处于可受理状态时的发光装置505的显示方式，例如，可以列举出始终点亮的方式、闪烁的方式、使发光的颜色随着时间的流逝而变化的方式等。而且，作为发光装置505的显示方式，例如，可以采用始终点亮，在处于可受理状态时采用闪烁的方式，也可以采用相反的方式。或者，作为发光装置505的显示方式，例如，也可以采用在处于可受理状态时和处于待机状态时改变发光颜色的种类的方式。

在图13中，发光装置505的个数为四个，但使，这只是一个例子，也可以是三个以下或五个以上。而且，发光装置505配置在上面，但是，这也不过是一个例子而已，也可以配置在前面、侧面、背面等。此外，摄像装置301以及收音装置307的个数以及配置场所也没有特别地限定。

图14是表示状态通知的第5例子的示意图。第5例子的操作终端1与第4例子的操作终端1相比在前面还设置有扬声器506。在第5例子中，通过从扬声器506输出的声音来输出状态通知。在图14中，只要用户可以识别为处于可受理状态，扬声器506的个数以及配置没有特别地限定。在第5例子中，扬声器506，在处于可受理状态的情况下，输出例如表示处于“请进行语音输入”的可受理状态的语音消息。或者，扬声器506，在处于可受理状态的情况下，即可以输出效果音，也可以输出蜂鸣音。如上所述，来自扬声器506的声音的输出模式不限于特定的模式。另外，扬声器506，在待机状态的情况下，可以停止声音的输出。

用于向用户通知是否为图10至图14例示的可受理状态的操作终端1所具备的构成可以任意地组合显示器501以及发光装置505等的显示装置和扬声器506等的再生装置。例如，也可以通过任意地组合一个或多个种类的显示装置以及一个或多个种类的再生装置来构成操作终端1。

图15是对图4所示的操作终端1的方框图添加了图10至图14所示的显示装置602以及再生装置603的情况下的操作终端1的方框图。

图15所示的操作终端1与图4相比，还进一步具备再生装置603以及显示装置602。另外，图15的操作终端1只需具备再生装置603以及显示装置602的至少其中之一即可。

另外，在图15中，对与图4相同的构成要素赋予相同的符号，并省略其说明。但是，在图15中，对管理部赋予601的参照符号来代替306的参照符号。

开始条件判断部305，与图4相同，判断从手势提取部304获取的手势提取信息中包含的第一坐标、第二坐标以及第三坐标的位置关系是否满足开始条件，并将判断结果输出到管理部601。该处理的详细情况与图5所示的流程相同。但是，在步骤S404，判断结果被输出到管理部601来代替管理部306。

管理部601，除了管理部306的功能之外还具备以下功能。即，管理部601，在从开始条件判断部305获取了满足开始条件的判断结果的情况下，将图10至图14例示的状态通知的输出指令输出到再生装置603以及显示装置602。

收音装置307，在从管理部601获取了开始指令的情况下，让麦克风收音周围的声音，将表示被收音的声音的声音信号记录到收录声音记录部308。

再生装置603具备图14例示的扬声器506、再生再生音的再生电路等，在从管理部306获取了状态通知的输出指令的情况下，从存储器309读出规定的再生音进行再生。在此，从扬声器506再生的再生音是图14例示的效果音、蜂鸣音或语音消息等。据此，通过听觉向用户通知上述状态通知。

显示装置602由图10至图14例示的显示器501以及图13例示的发光装置505的至少其中之一构成，在从管理部601获取了状态通知的输出指令的情况下，输出图10至图14例示的状态通知。据此，利用消息、颜色、图标等通过视觉向用户通知状态通知。

如此，根据本实施方式，不用将上肢面向空间内的特定的位置这样烦琐的手势，通过对操作终端1举起手或张开双手这样的简单的手势就可以处于可受理状态。

(第2实施方式)

在第1实施方式中，主要对用户通过手势使可受理状态开始的方式进行了例示。第2实施方式，在第1实施方式的基础上，进一步地示意了收音装置307结束可受理状态的方式的详细情况。

图16是表示第2实施方式涉及的操作终端1的构成的一个例子的方框图。另外，在本实施方式中，对与第1实施方式相同的构成要素赋予相同的符号，并省略其说明。

图16的操作终端1除了图15的结构之外，还具备超时判断部702、结束条件判断部703以及无声区间检测部705。而且，由于手势提取部、开始条件判断部以及管理部对第1实施方式追加了功能，分别赋予700、701以及704的参照符号。另外，在图16中，操作终端1不需要具有再生装置603以及显示装置602。

手势提取部700，基于从人检测部302获取的检测结果和从骨骼信息提取部303获取的骨骼信息，提取第一坐标、第二坐标以及第三坐标，并将包含第一坐标、第二坐标以及第三坐标的手势提取信息除去输出到开始条件判断部701以外还输出到结束条件判断部703。另外，手势提取部700的处理的详细情况与第1实施方式相同。

开始条件判断部701，判断从手势提取部700获取的手势提取信息中包含的第一坐标、第二坐标以及第三坐标的位置关系是否满足开始条件，在判断满足开始条件的情况下，将表示满足开始条件的判断结果输出到管理部704以及超时判断部702。另外，在第2实施方式中，位置关系是否满足开始条件的判断处理的详细情况与图5的流程相同。

超时判断部702，在从开始条件判断部701获取到表示满足开始条件的判断结果的情况下，开始规定的超时期间(例如，10秒)的倒计时，在倒计时完成时，将表示经过了超时期间的判断结果输出到管理部704。但是，超时判断部702，在倒计时过程中，即，在超时期间内从开始条件判断部701获取了表示满足开始条件的判断结果的情况下，初始化超时期间，并从最初开始执行超时期间的倒计时。据此，在可受理状态下，即使用户不进行表示结束语音输入的意思表示的手势，离开手势可能范围901，也可以防止可受理状态被继续。因此，在用户忘记了表示结束语音输入的意思表示的手势的情况下，也可以防止可受理状态被继续。其结果，可以确保用户的隐私。

结束条件判断部703，判断从手势提取部700获取的手势提取信息中包含的第一坐标、第二坐标以及第三坐标的位置关系是否满足结束条件(第五条件的一个例子)，在判断满足结束条件的情况下，将表示满足结束条件的判断结果输出到管理部704。结束条件判断部703的处理的详细情况，利用图17的流程在以后详述。

管理部704，在处于待机状态的情况下，在从开始条件判断部701获取了表示满足开始条件的判断结果的情况下，通过使存储在存储器309中的状态旗竖起并向收音装置307输出开始指令，使收音装置307处于可受理状态。

而且，管理部704，在处于可受理状态的情况下，在从超时判断部702获取了表示已经过了超时期间的判断结果的情况下，通过使存储在存储器309中的状态旗降下并向收音装置307输出结束指令，可结束可受理状态变成待机状态。

而且，管理部704，在处于可受理状态的情况下，从结束条件判断部703获取了表示满足结束条件的判断结果的情况下，通过使存储在存储器309中的状态旗降下并向收音装置307输出结束指令，可结束可受理状态变成待机状态。据此，用户通过进行表示结束语音输入的意思表示的手势，可以结束可受理状态。另外，在第1实施方式中，管理部306，在从开始条件判断部305获取了表示没有满足开始条件的判断结果的情况下，结束可受理状态，但是，在第2实施方式中，管理部704，基本上，在从结束条件判断部703获取了表示满足结束条件的判断结果的情况下，结束可受理状态。

另外，管理部704，在处于可受理状态的情况下，在从超时判断部702获取了表示已经过了超时期间的判断结果的情况下，如果进一步通过无声区间检测部705检测出有声区间的话，也可以使可受理状态被继续。据此，可以避免，尽管用户正在进行操作操作终端1的讲话，以经过了超时期间为条件，可受理状态自动地结束的情况的发生。

另一方面，管理部704，在处于可受理状态的情况下，在从超时判断部702获取了表示已经过了超时期间的判断结果的情况下，如果进一步通过无声区间检测部705检测到无声区间的话，就结束可受理状态。

无声区间检测部705，检测记录在收录声音记录部308中的最新的声音信号中是否包含无声区间。在此，无声区间检测部705，在输入电平(level)变为规定的阈值以下的时间持续了规定时间(例如，300毫秒)的情况下，判断在声音信号中存在无声区间，无声区间的检测方式不局限于特定的方法。无声区间检测部705，如果检测到无声区间，将当前的收音状态设定为无声，并将其输出到管理部704。另一方面，无声区间检测部705，如果检测到有声区间，将当前的收音状态设定为有声，并将其输出到管理部704。

在第2实施方式中，手势提取部700、开始条件判断部701、超时判断部702、结束条件判断部703以及管理部704相当于条件判断部的一个例子。

在图16中，操作终端1不需要全部具备超时判断部702、结束条件判断部703以及无声区间检测部705，只要具备至少其中之一即可。

图17是表示本发明的第2实施方式涉及的结束条件判断部703的处理的一个例子的流程图。

在步骤S801，结束条件判断部703从手势提取部700获取手势提取信息。

在步骤S802，结束条件判断部703，基于在步骤S801获取的手势提取信息，判断用户是否存在于操作终端1的周围的手势可能范围901内。在判断用户不存在于手势可能范围901内的情况下(在步骤S802为否)，处理就返回到步骤S801，获取手势提取信息。另一方面，结束条件判断部703，在判断用户存在于手势可能范围内的情况下(在步骤S802为是)，执行步骤S803。在此，结束条件判断部703，如果手势提取信息中包含的第一坐标以及第二坐标等表示用户的位置的坐标在手势可能范围901内时，就判断用户存在予手势可能范围901内，如果上述坐标不在手势可能范围901内，就判断用户不存在于手势可能范围901内。

在步骤S803，结束条件判断部703，判断手势提取信息中包含的第一坐标、第二坐标以及第三坐标的位置关系是否满足规定的结束条件(第五条件的一个例子)。而且，在判断位置关系满足结束条件的情况下(在步骤S803为是)，结束条件判断部703，由于用户进行了表示结束语音输入的意思表示的手势，使处理前往步骤S804。另一方面，在判断位置关系没有满足结束条件的情况下(在步骤S803为否)，结束条件判断部703使处理返回到步骤S801，获取手势提取信息。

在步骤S804，结束条件判断部703将表示满足结束条件的判断结果输出到管理部704。如果结束步骤S804，结束条件判断部703使处理返回到步骤S801，获取手势提取信息。

其次，对结束条件进行说明。图18是为了说明结束条件例示了用户U1的骨骼信息201的示意图。图18例示了在步骤S803作为开始条件的比较对象的第一坐标、第二坐标以及第三坐标。在图18的例子中，采用手腕坐标H作为第一坐标，采用颈部基部坐标N作为第二坐标，采用腰部坐标W作为第三坐标。

结束条件的第1例子对应于开始条件的第1例子，其条件是手腕坐标H与颈部基部坐标N相比在垂直方向为第1阈值以上(例如，20cm)较小(低)。在这种情况下，用户U1通过进行放下上肢的手势使手腕坐标H与颈部基部坐标N相比在垂直方向为第1阈值以上较低，可以结束可受理状态。另外，上肢既可以是右腕也可以是左腕。

结束条件的第2例子对应于开始条件的第2例子，其条件是手腕坐标H和颈部基部坐标N在垂直方向没有被限定在规定范围内。在这种情况下，用户U1通过进行使抬高至胸口附近的手腕坐标H沿垂直方向下降或上升至阈值范围外的某个位置的手势，可以结束可受理状态。

结束条件的第3例子对应于开始条件的第3例子，其条件是在连接颈部基部坐标N和腰部坐标W的躯干轴方向，手腕坐标H与颈部基部坐标N相比为第1阈值以上较小。在这种情况下，用户U1通过进行放下上肢的手势使手腕坐标H与颈部基部坐标N相比为第1阈值以上较低，可以结束可受理状态。

结束条件的第4例子对应于开始条件的第4例子，其条件是手腕坐标H和颈部基部坐标N在躯干轴方向没有被限定在规定范围内。在这种情况下，用户U1通过进行使抬高至胸口附近的手腕坐标H沿躯干轴方向上升或下降至阈值范围外的某个位置的手势，可以结束可受理状态。

结束条件的第5例子对应于开始条件的第5例子，其条件是表示连接了手腕坐标H以及颈部基部坐标N的上肢方向的直线和表示连接了腰部坐标W以及颈部基部坐标N的躯干轴方向的直线之间的角度未达到规定的第2阈值(100度、80度等)。在这种情况下，用户U1，不管当前的姿势是处于起立状态还是躺下状态，不用考虑垂直方向，通过进行在躯干轴方向放下手的手势，就可以结束可受理状态。

结束条件的第6例子对应于开始条件的第6例子，其条件是表示连接了手腕坐标H和颈部基部坐标N的上肢方向的直线和表示连接了腰部坐标W和颈部基部坐标N的躯干轴方向的直线之间的角度没有落入规定的角度范围内。在这种情况下，用户U1，不管当前的姿势是处于起立状态还是躺下状态，不用考虑垂直方向，通过进行在躯干轴方向放下手的手势，就可以结束可受理状态。

结束条件也可以是组合了第1例子至第6例子之中的任意两个以上的条件。例如，结束条件可以采用第1例子至第6例子之中任意两个以上的条件共同成立的条件。或者，结束条件也可以是第1例子至第6例子之中的任意一个成立的条件。在此，结束条件的第1例子至第6例子都是放下上肢的手势，但是，这只是一个例子而已。例如，作为开始条件如果采用了放下上肢或放下双手的手势，作为结束条件，也可以采用举起上肢或抬起双手的手势作为结束条件。即，结束条件，只要满足不与开始条件重复的限制，可以采用任意的条件。

其次，利用图8对步骤S802的处理的一个例子进行说明。结束条件判断部703与开始条件判断部701相同，在用户U1的位置位于相对于操作终端1从下限值D1到上限值D2的范围内，即，用户位于手势可能范围901的情况下，检测手势。另一方面，结束条件判断部703，在用户U1的位置位于相对于操作终端在下限值D1以下的情况下，或者，在用户U1的位置位于相对于操作终端1在上限值D2以上的范围的情况下，不检测用户U1的手势。

在用户U1的位置太靠近操作终端1的情况下，除了有可能不能很好地检测出用户U1的手势之外，还存在用户U1忘记了进行表示结束语音输入的意思表示的手势而离开手势可能范围901的可能性。而且，在用户U1的位置离操作终端1太远的情况下，也存在用户U1忘记了进行表示结束语音输入的意思表示的手势而离开手势可能范围901的可能性。因此，在本实施方式，结束条件判断部703，在用户U1位于手势可能范围901的情况下实施检测用户U1的手势的处理，即，判断是否满足结束条件的处理。据此，可以防止手势的检测精度的降低并在用户U1忘记了进行表示结束语音输入的意思表示的手势的情况下，可以防止可受理状态被继续。

而且，结束条件判断部703与开始条件判断部701相同，在手势提取信息中包含一个或多个第一坐标和一个或多个第二坐标的情况下，也可以利用这些坐标来判断结束条件。

例如，在手势提取信息中包含多个第一坐标和一个第二坐标的情况下，结束条件判断部703，如果多个第一坐标(例如，手腕坐标H、肘部坐标以及肩部坐标)之中的至少其中之一的第一坐标与一个第二坐标(例如，颈部基部坐标N)相比在垂直方向或躯干轴方向为第1阈值以上较小，就判断满足结束条件。而且，在手势提取信息中包含一个第一坐标和多个第二坐标的情况下，结束条件判断部703，如果一个第一坐标(例如手腕坐标H)与多个第二坐标(例如躯体坐标、颈部基部坐标N、头顶坐标)之中的至少其中之一的第二坐标相比在垂直方向或躯干轴方向为第1阈值以上较小，就判断满足结束条件。但是，开始条件和结束条件不能重复。

其次，对延长超时期间的处理的详细情况进行说明。图19是表示本发明第2实施方式涉及的超时判断部702的处理的一个例子的流程图。

在步骤S1601，超时判断部702判断是否处于超时期间的倒计时过程中。如果处于倒计时过程中(在步骤S1601为是)，超时判断部702，使处理前往S1602，如果不在倒计时过程中(在步骤S1601为否)，使处理返回到步骤S1601。

在步骤S1602，超时判断部702判断是否从开始条件判断部701获取了表示满足开始条件的判断结果。在获取了该判断结果的情况下(在步骤S1602为是)，超时判断部702，使处理前往步骤S1603，在未获取到该判断结果的情况下(在步骤S1602为否)，使处理返回到步骤S1601。

在步骤S1603，超时判断部702将超时期间返回到初始值，通过开始再次倒计时，延长超时期间。如果步骤S1603的处理结束，处理就返回到步骤S1601。

据此，只要用户在手势可能范围901内进行表示语音输入的意思表示的手势，超时期间就被延长，可以避免操作操作终端1的会话未被收音的事态的发生。

其次，对管理部704的处理进行说明。图20是表示本发明的第2实施方式涉及的管理部704使可受理状态结束时的处理的一个例子的流程图。另外，由于管理部704使可受理状态开始时的处理与图6相同，在此，省略其说明。在步骤S1701，管理部704，通过参照存储在存储器309的状态旗来判断是否处于可受理状态。如果处于可受理状态(在步骤S1701为是)，处理前往步骤S1702，如果不是可受理状态(在步骤S1701为否)，处理就返回到步骤S1701。

在步骤S1702，管理部704判断是否从结束条件判断部703获取了表示满足结束条件的判断结果。在获取了该判断结果的情况下(在步骤S1702为是)，处理前往步骤S1705，在未获取到该判断结果的情况下(在步骤S1702为否)，处理前往步骤S1703。

在步骤S1703，管理部704判断是否从超时判断部702获取了表示已经过了超时期间的判断结果。在获取了该判断结果的情况下(在步骤S1703为是)，处理前往步骤S1704，在未获取到该判断结果的情况下(在步骤S1703为否)，处理就返回到步骤S1701。

在步骤S1704，管理部704判断从无声区间检测部705输出的收音状态是否表示为无声。如果收音状态表示为无声(在步骤S1704为是)，处理前往步骤S1705，如果收音状态表示为有声(在步骤S1704为否)，处理就返回到步骤S1701。据此，只要在超时期间的经过时期检测到无声区间，可受理状态就结束，如果检测到有声区间，可受理状态就继续。

在步骤S1705，管理部704结束可受理状态，使处理返回到步骤S1701。

如上所述，根据第2实施方式，用户通过对操作终端1进行例如抬起手这样的简单的手势可以使可受理状态开始，通过进行放下手这样的简单的手势可以使可受理状态结束。

其次，对第2实施方式的变形例进行说明。第2实施方式与第1实施方式相同，如图9所示，在多个用户对操作终端1进行手势的情况下，手势提取部700可以确定1个操作者。在这种情况下，手势提取部700，与第1实施方式相同，即可以将最近的用户确定为操作者，也可以将最初检测到的用户持续地确定为操作者直到该用户离开手势可能范围901为止。

在图16的例子中，操作终端1具备摄像装置301、收音装置307、再生装置603以及显示设备602，但是，本发明并不局限于此。例如，如图21所示，也可以采用与操作终端1不同的装置来构成摄像装置301、再生装置603以及显示装置602。

图21是表示采用与操作终端1不同的装置来构成摄像装置301、再生装置603以及显示装置602时的构成的一个例子的示意图。在图21中，摄像装置301、再生装置603以及显示设备602经由诸如LAN等的网络相互可通信地连接。

在图21的例子中，用户U1对具有收音装置307的操作终端1进行的手势，通过独立于操作终端1的摄像装置301摄像，摄像装置301从获得的空间信息检测表示开始语音输入的意思表示的手势或表示结束语音输入的意思表示的手势，并将检测结果发送到操作终端1。操作终端1，根据由摄像装置301检测的检测结果，使收音装置307处于可受理状态或待机状态。而且，操作终端1向显示装置602以及再生装置603发送状态通知，让显示装置602以及再生装置603输出如图10至图14所示的状态通知。

而且，在图21中，操作终端1、摄像装置301、显示装置602以及再生装置603各自即可以由多个装置构成也可以由一个装置一体化地构成。而且，在图21的例子中，操作终端1具备收音装置307，但是，收音装置307也可以由与操作终端1不同的装置来构成。

此外，在第2实施方式中，管理部704，在可受理状态检测到无声区间的情况下，无论用户是否位于手势可能范围901，无论用户是否进行了表示结束语音输入的意思表示的手势，或者，无论是否经过了超时期间，都可以使可受理状态结束。

产业上的可利用性

由本发明实现的通过用户的手势判断开始或结束操作终端的语音输入的技术，没有必要要求用户记住缜密的手势，作为通过手势实现开始或结束简单的语音输入的方法有其实用价信。

Claims

1.一种操作终端，是由用户的讲话语音而操作的操作终端，其特征在于包括：

摄像部，拍摄空间；

人检测部，从所拍摄的所述空间的信息检测所述用户；

语音输入部，受理所述用户的讲话声音的输入；

坐标检测部，在通过所述人检测部检测到所述用户的情况下，基于通过规定的方法获得的信息，检测所述用户的上肢包含的规定的第一部位的第一坐标和除了所述用户的上肢以外的上半身包含的规定的第二部位的第二坐标；以及，

条件判断部，比较所述第一坐标和所述第二坐标之间的位置关系，在所述位置关系至少满足了一次规定的第一条件的情况下，使所述语音输入部处于可受理语音输入的状态。

2.根据权利要求1所述的操作终端，其特征在于还包括：

骨骼信息提取部，从所述空间的信息提取所述用户的骨骼信息，其中，

通过所述规定的方法获得的信息是所述骨骼信息。

3.根据权利要求1所述的操作终端，其特征在于，

所述摄像部是可见光摄像机、红外线摄像机、TOF传感器、超声波传感器或电波传感器。

4.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述位置关系是在垂直方向上所述第一坐标与所述第二坐标之间的位置关系。

5.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述位置关系是在所述用户的躯干轴方向上所述第一坐标与所述第二坐标之间的位置关系。

6.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述坐标检测部进一步检测所述上半身的第三部位的第三坐标，

所述第一条件是所述第一坐标、所述第二坐标以及所述第三坐标之间的角度超过规定的阈值、低于所述规定的阈值或被限定在规定的范围。

7.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述第一部位包含所述上肢包含的多个部位，

所述第一坐标基于所述多个部位的任意一个以上的坐标而决定。

8.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述第二部位包含除了所述上肢以外所述上半身包含的多个部位，

所述第二坐标基于所述多个部位的任意一个以上的坐标而决定。

9.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述第一条件包含多个第二条件，

所述条件判断部，在所述位置关系满足所述多个第二条件的至少其中之一或组合了所述多个第二条件的一部分的第三条件的情况下，为所述可受理状态。

10.根据权利要求1至3中任一项所述的操作终端，其特征在于还包括：

显示部或再生部，输出表示所述语音输入部是否处于所述可受理状态的信息。

11.根据权利要求10所述的操作终端，其特征在于，

所述显示部是显示器。

12.根据权利要求11所述的操作终端，其特征在于，

表示所述语音输入部是否处于所述可受理状态的信息是颜色、文本或图标。

13.根据权利要求10所述的操作终端，其特征在于，

所述显示部是发光表示所述语音输入部处于所述可受理状态的光的发光装置。

14.根据权利要求10所述的操作终端，其特征在于，

所述再生部输出表示所述语音输入部是否处于所述可受理状态的语音。

15.根据权利要求10所述的操作终端，其特征在于，

所述再生部输出表示所述语音输入部是否处于所述可受理状态的声音。

16.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述条件判断部，仅在所述操作终端与所述用户之间的距离满足规定的第四条件时，比较所述位置关系。

17.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述条件判断部，在所述可受理状态下无声区间持续一定时间的情况下，结束所述可受理状态。

18.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述条件判断部，在所述可受理状态下只要所述位置关系满足所述第一条件，就继续所述可受理状态。

19.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述条件判断部，在所述可受理状态下所述位置关系没有满足所述第一条件的状态持续了规定的超时期间的情况下，结束所述可受理状态。

20.根据权利要求19所述的操作终端，其特征在于，

所述条件判断部，在所述超时期间，在判断所述位置关系满足所述第一条件的情况下，延长所述超时期间。

21.根据权利要求18所述的操作终端，其特征在于，

所述条件判断部，如果在所述超时期间结束时检测到语音输入，就继续所述可受理状态。

22.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述条件判断部，在所述位置关系满足与所述第一条件不同的规定的第五条件的情况下，结束所述可受理状态。

23.根据权利要求1至3中任一项所述的操作终端，其特征在于，

所述条件判断部，在所述人检测部检测到多个用户的情况下，将特定的一个人作为所述操作终端的操作者来识别。

24.根据权利要求23所述的操作终端，其特征在于，

所述操作者是所述多个用户之中最接近所述操作终端的用户。

25.一种语音输入方法，是由用户的讲话语音而操作的操作终端的语音输入方法，其特征在于包括以下步骤：

获取通过摄像装置拍摄的空间的信息；

从所述空间的信息检测所述用户：

在检测到所述用户的情况下，基于通过规定的方法获得的信息，检测所述用户的上肢包含的规定的第一部位的第一坐标和除了所述用户的上肢以外的上半身包含的规定的第二部位的第二坐标；以及，

比较所述第一坐标和所述第二坐标之间自的位置关系，在所述位置关系至少满足了一次规定的第一条件的情况下，将语音输入部设定为可受理语音输入的状态。

26.一种计算机可读取的记录介质，其特征在于，存储让计算机执行权利要求25所述的语音输入方法的程序。