CN111667822A

CN111667822A - 语音处理装置、会议系统以及语音处理方法

Info

Publication number: CN111667822A
Application number: CN202010110772.6A
Authority: CN
Inventors: 蛭川庆子; 寺田智
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2019-03-06
Filing date: 2020-02-24
Publication date: 2020-09-15
Anticipated expiration: 2040-02-24
Also published as: US11322145B2; US20200286478A1; CN111667822B; JP2023103287A; JP2020144209A; JP7553645B2

Abstract

本发明的目的在于提供一种不会妨碍用户的会话且能够防止执行用户不期望的命令的语音处理装置、会议系统、以及语音处理方法。语音处理装置具备：语音接收部，其接收语音；图像获取部，其获取由拍摄部拍摄的拍摄图像；说话者确定部，其基于由所述语音接收部接收的所述语音、和由所述图像获取部获取的所述拍摄图像，对说话者进行确定；语音判定部，其基于由所述语音接收部接收的所述语音、和所述拍摄图像中包含的由所述说话者确定部确定出的所述说话者的图像，判定该语音是否是特定单词；以及语音发送部，其基于所述语音判定部的判定结果，对由所述语音接收部接收的所述语音的发送目的地进行切换。

Description

语音处理装置、会议系统以及语音处理方法

技术领域

本发明涉及一种语音处理装置、会议系统、以及语音处理方法。

背景技术

提出了一种对用户的语音进行识别并执行与该语音对应的信息处理的语音处理装置。例如，用户在欲知晓当前的天气的情况下，朝向语音处理装置说出预先设定的特定单词。语音处理装置当接收所述特定单词时，开始与信息处理对应的命令的接受。之后，当用户说出“告诉我天气”等询问(命令语音)时，语音处理装置接收所述命令语音，并执行命令。例如语音处理装置利用英特网获取天气信息，并语音输出与所述询问对应的回答。

在现有的所述语音处理装置中，当多个用户在通常的会话中说出所述特定单词的情况下，语音处理装置感测所述特定单词，并向开始命令的接受的待机状态转移。在该情况下，会产生如下问题，即，向外部通知语音处理装置成为待机状态的情况从而会防碍用户的会话或用户不得不解除待机状态。此外，在用户未发觉语音处理装置成为待机状态而继续会话的情况下，也会产生语音处理装置识别用户的会话的一部分以作为命令语音并执行命令的问题。

发明内容

本发明的目的在于提供一种不会防碍用户的会话且能够防止执行用户不期望的命令的语音处理装置、会议系统、以及语音处理方法。

本发明的一个方式所涉及的语音处理装置具备：语音接收部，其接收语音；图像获取部，其获取由拍摄部拍摄的拍摄图像；说话者确定部，其基于由所述语音接收部接收的所述语音、和由所述图像获取部获取的所述拍摄图像，对说话者进行确定；语音判定部，其基于由所述语音接收部接收的所述语音、和所述拍摄图像中包含的由所述说话者确定部特定的所述说话者的图像，判定该语音是否是用于开始接受规定的命令的特定单词；以及语音发送部，其基于所述语音判定部的判定结果，对由所述语音接收部接收的所述语音的发送目的地进行切换。

本发明的另一方式所涉及的会议系统，包含经由网络相互连接的第一语音处理装置以及第二语音处理装置，并能够将由所述第一语音处理装置接收的语音发送至所述第二语音处理装置，将由所述第二语音处理装置接收的语音发送至所述第一语音处理装置，其中，所述第一语音处理装置具备：语音接收部，其接收语音；图像获取部，其获取由拍摄部拍摄的拍摄图像；说话者确定部，其基于由所述语音接收部接收的所述语音、和由所述图像获取部获取的所述拍摄图像，对说话者进行确定；语音判定部，其基于由所述语音接收部接收的所述语音、和所述拍摄图像中包含的由所述说话者确定部确定出的所述说话者的图像，判定该语音是否是用于开始接受规定的命令的特定单词；以及语音发送部，其基于所述语音判定部的判定结果，对由所述语音接收部接收的所述语音的发送目的地进行切换，在由所述语音判定部判定为由所述语音接收部接收的所述语音为所述特定单词的情况下，所述语音发送部将由所述语音接收部在所述特定单词之后接收的语音作为命令语音，并发送至执行所述规定的命令的服务器装置，在由所述语音判定部判定为由所述语音接收部接收的所述语音不是所述特定单词的情况下，所述语音发送部将该语音发送至所述第二语音处理装置。

本发明的其另一方式所涉及的语音处理方法，通过一个或多个处理器执行如下步骤：语音接收步骤，接收语音；图像处理步骤，获取由拍摄部拍摄的拍摄图像；说话者确定步骤，基于由所述语音接收步骤接收的所述语音、和通过所述图像处理步骤获取的所述拍摄图像，对说话者进行确定；语音判定步骤，基于由所述语音接收步骤接收的所述语音、和所述拍摄图像中包含的通过所述说话者确定步骤确定出的所述说话者的图像，判定该语音是否是用于开始接受规定的命令的特定单词；以及语音发送步骤，基于所述语音判定步骤的判定结果，对通过所述语音接收步骤接收的所述语音的发送目的地进行切换。

根据本发明，可提供一种不会防碍用户的会话且能够防止执行用户不期望的命令的语音处理装置、会议系统、以及语音处理方法。

本说明书适当地参照附图，通过使对以下详细说明中记载的概念进行总结的内容简略化的方式来进行介绍。本说明书的意图并不是限定权利要求中记载的主题的重要特征和本质特征，此外，意图也不是限定权利要求中记载的主题的范围。此外，在权利要求中记载的对象，并不限定于解决本发明中任意部分中记载的一部分或全部缺点的实施方式。

附图说明

图1为表示本公开的实施方式所涉及的会议系统的概要构成的图。

图2为表示本公开的实施方式所涉及的会议系统的结构的功能框图。

图3为表示本公开的实施方式所涉及的会议系统中使用的用户信息的一个示例的图。

图4为用于对本公开的实施方式所涉及的语音处理装置中的语音处理的过程的一个示例进行说明的流程图。

图5为用于对本公开的实施方式所涉及的语音处理装置中的语音判定处理的过程的一个示例进行说明的流程图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。另外，以下的实施方式为将本发明具体化的一个示例，且不具有限定本发明的技术范围的性质。

本发明所涉及的语音处理装置能够应用于多个用户参加的会议、对远程位置进行网络连接而使多个用户参加的远程会议等。此外，所述语音处理装置也可以被一位用户利用。例如，语音处理装置也可以设置于通常家庭，并与家庭内的设备连接而基于用户的指示来执行各种命令。此外，语音处理装置1也可以具备执行命令的功能和能够在用户间进行通话的通话功能。在以下的实施方式中，以语音处理装置应用于远程会议的情况为例进行说明。即，本发明所涉及的语音处理装置构成本发明所涉及的会议系统。在远程会议中，在各个远程位置(会议室)设置有语音处理装置，一方的会议室的语音处理装置接收用户说出的语音，并发送至另一方的会议室的语音处理装置，从而各会议室的用户彼此能够进行会话。此外，语音处理装置在各会议室中从用户接收命令语音，并发送至执行规定的命令的云服务器。

图1为表示本发明的实施方式所涉及的会议系统的概要构成的图。会议系统100包含一个或多个语音处理装置1和云服务器2。语音处理装置1A、1B分别为具备麦克风以及扬声器的麦克风扬声器装置，例如AI扬声器、智能扬声器等。在此，示出设置于会议室A的语音处理装置1A和设置于会议室B的语音处理装置1B。语音处理装置1A、语音处理装置1B、云服务器2经由网络N1相互连接。网络N1为英特网、LAN、WAN、或公用电话线路等通信网。云服务器2例如由多台数据服务器(假想服务器)构建而成。语音处理装置1A、1B分别为本发明的语音处理装置的一个示例。此外，语音处理装置1A为本发明的第一语音处理装置的一个示例，语音处理装置1B为本发明的第二语音处理装置的一个示例。云服务器2为本发明的服务器装置的一个示例。

以下，对会议系统100的具体的构成进行说明。另外，在以下的说明中，在不对语音处理装置1A、1B进行区别的情况下称作语音处理装置1。此外，将云服务器2作为一台假想服务器进行说明。另外，云服务器2也可以置换为一台物理服务器。

[语音处理装置1]

如图2所示，语音处理装置1具备控制部11、存储部12、扬声器13、麦克风14、相机15、以及通信接口16等。语音处理装置1也可以例如为AI扬声器、智能扬声器等设备。语音处理装置1例如配置于会议室的桌子的中央附近，并经由麦克风14获取参加会议的用户的语音、或从扬声器13相对于该用户输出(通知)语音。

相机15为对被摄体的图像进行拍摄并作为数字图像数据进行输出的数码相机。例如相机15设置于语音处理装置1的上表面，并能够对语音处理装置1的周围360度的范围进行拍摄，在此能够对会议室的室内整体进行拍摄。相机15为本发明的拍摄部的一个示例。

通信接口16为通过有线方式或无线方式将语音处理装置1连接于网络N1，并用于经由网络N1在其他设备(例如语音处理装置1、云服务器2)之间执行按照规定的通信协议的数据通信的通信接口。

存储部12为对各种信息进行存储的闪存等非易失性的存储部。

具体而言，在存储部12存储有利用语音处理装置1的用户的信息(用户信息D1)等数据。图3为表示用户信息D1的一个示例的图。在用户信息D1中，按每个用户相关联并注册有用户ID和图像数据。用户ID为用户的识别信息。图像数据为对用户进行了拍摄的拍摄图像的图像数据。在所述拍摄图像中包含用户的面部图像。图3所示的示例表示设置于会议室A的语音处理装置1A的存储部12中存储的用户信息D1，在该用户信息D1中注册有处于会议室A的四位用户(参照图1)的用户信息。另外，也可以通过在用户进入会议室A时将ID卡等覆盖于语音处理装置1A等设备，从而从预先注册有多个用户信息的数据服务器(未图示)，在存储部12的用户信息D1中注册所述用户的用户ID以及图像数据。

而且，在存储部12中存储有用于使控制部11执行后述的语音处理(参照图4)的语音处理程序等控制程序。例如，从云服务器2传送并存储所述语音处理程序。此外所述语音处理程序也可以非临时性地记录于CD或DVD等计算机可读取的记录介质，并被语音处理装置1所具备的CD驱动器或DVD驱动器等读取装置(未图示)读取并存储于存储部12。

控制部11具有CPU、ROM、以及RAM等控制设备。所述CPU为执行各种运算处理的处理器。所述ROM预先存储用于使所述CPU执行各种处理的BIOS以及OS等控制程序。所述RAM存储各种信息，并用作所述CPU执行的各种处理的临时存储器(操作区域)。并且，控制部11通过使所述CPU执行所述ROM或存储部12中预先存储的各种控制程序从而对语音处理装置1进行控制。

具体而言，控制部11包含语音接收部111、图像获取部112、说话者确定部113、语音判定部114、语音发送部115、显示处理部116、调节处理部117、以及响应处理部118等各种处理部。另外，控制部11通过使所述CPU执行按照所述控制程序的各种处理从而作为所述各种处理部发挥功能。此外，控制部11中包含的一部分或全部处理部也可以由电子电路构成。另外，所述语音处理程序也可以是，用于使多个处理器作为所述各种处理部发挥功能的程序。

语音接收部111接收利用语音处理装置1的用户所说出的语音。语音接收部111为本发明的语音接收部的一个示例。用户说出例如与会议相关的语音、用于语音处理装置1开始命令的接受的特定单词(也称作启动单词、唤醒单词)的语音、以及对语音处理装置1进行指示的各种命令的语音(命令语音)等。语音接收部111接收由用户说出的各种语音。

图像获取部112获取由相机15拍摄到的拍摄图像。图像获取部112为本发明的图像获取部的一个示例。例如，在通过相机15拍摄处于会议室A的四位用户的情况下，图像获取部112获取包含四位用户的拍摄图像。

说话者确定部113基于由语音接收部111接收到的所述语音和由图像获取部112获取的所述拍摄图像，对进行了发言的用户(说话者)进行确定确定。说话者确定部113为本发明的说话者确定部的一个示例。例如，说话者确定部113基于麦克风14的集音方向对接收到所述语音的方向(说话者的方向)进行确定，基于该方向上包含的所述拍摄图像对说话者进行确定。例如，在所述方向上包含的所述拍摄图像中包含有用户的情况下，说话者确定部113将该用户确定为说话者。

在此，在语音接收部111接收到语音的方向上包含的所述拍摄图像中包含有至少一位用户的情况下，说话者确定部113也可以通过以下的方法确定出说话者。

作为第一方法，说话者确定部113从所述拍摄图像中提取一位用户以作为说话者的候选。说话者确定部113对提取的用户是否处于规定范围内进行判定，在处于规定范围内的情况下将该用户确定为说话者。所述规定范围例如设定在以语音处理装置1为中心而半径几米的范围内。由此，能够防止处于远离语音处理装置1的位置的用户被确定为所述说话者。

作为第二方法，说话者确定部113对提取的用户是否朝向正面、即该用户的面部的方向或视线是否朝向相机15进行判定，在该用户朝向正面的情况下将该用户确定为说话者。由此，能够防止朝向与正面不同的方向进行发言的用户被确定为所述说话者。

作为第三方法，说话者确定部113对提取的用户是否被注册于用户信息D1进行判定，在该用户被注册于用户信息D1的情况下将该用户确定为说话者。由此，能够防止在未注册于用户信息D1的用户进行了发言的情况下，该用户被确定为所述说话者。

作为第四方法，说话者确定部113对提取的用户的嘴部的动作与语音接收部111接收到语音的时机是否一致进行判定，在该嘴部的动作与进行了该接收的时机一致的情况下，将该用户确定为说话者。由此，能够防止所述嘴部的动作与进行了所述接收的时机不一致的用户被确定为所述说话者。

说话者确定部113使用所述第一方法至所述第四方法中的至少任一方法对说话者进行确定。此外，说话者确定部113也可以对所述第一方法至所述第四方法中的任意的多个方法进行组合来确定说话者，也可以使用所有的方法对说话者进行确定。

在此，在语音接收部111接收到语音的方向上所包含的所述拍摄图像中包含的多个用户中的任意被提取出的第一用户没有通过所述第一方法至所述第四方法中的任意方法被确定为所述说话者的情况下，说话者确定部113提取其他第二用户，通过所述第一方法至所述第四方法中的至少任一方法进行说话者的判定。如此，说话者确定部113相对于各个所述多个用户进行所述判定处理，直至确定出所述说话者。

另外，在会议系统100构成为远程位置(会议室B)的用户所说出的语音从设置于会议室A的、与语音处理装置1A不同的扬声器装置(未图示)输出的的情况下，在语音处理装置1A的语音接收部111接收到所述语音的方向上包含的拍摄图像不包含用户，而包含所述扬声器。在该情况下，说话者确定部113没有确定出说话者，并判断为不是处于会议室A的用户的语音。

语音判定部114基于由语音接收部111接收到的所述语音和所述拍摄图像中包含的由说话者确定部113确定出的所述说话者的图像，判定该语音是否是所述特定单词。语音判定部114为本发明的语音判定部的一个示例。例如，语音判定部114对由语音接收部111接收到的所述语音是否与所述特定单词一致进行判定。此外，语音判定部114对所述拍摄图像中包含的所述说话者是否朝向正面、即所述说话者的面部的方向或视线是否朝向相机15进行判定。并且，在由语音接收部111接收到的所述语音与所述特定单词一致且所述拍摄图像中包含的所述说话者的面部的方向或视线朝向相机15的情况下，语音判定部114判定为由语音接收部111接收的所述语音为所述特定单词。另一方面，在由语音接收部111接收到的所述语音与所述特定单词不一致的情况下、或所述拍摄图像中包含的所述说话者的面部的方向或视线未朝向相机15的情况下，语音判定部114判定为由语音接收部111接收的所述语音不是所述特定单词。

语音发送部115基于语音判定部114的判定结果，对由语音接收部111接收的所述语音的发送目的地进行切换。语音发送部115为本发明的语音发送部的一个示例。具体而言，在由语音判定部114判定为由语音接收部111接收到的所述语音是所述特定单词的情况下，语音发送部115将由语音接收部111在所述特定单词之后接收的语音作为命令语音，仅发送至云服务器2。此外，在由语音判定部114判定为由语音接收部111接收到的所述语音不是所述特定单词的情况下，语音发送部115将该语音发送至其他语音处理装置1。例如，语音处理装置1A的语音发送部115将不是所述特定单词的语音发送至语音处理装置1B。语音处理装置1B为本发明的外部设备的一个示例。

在此，语音发送部115也可以具备切换命令发送模式(与本发明的第一发送模式对应)和语音发送模式(与本发明的第二发送模式对应)，其中，上述命令发送模式基于语音判定部114的判定结果将由语音接收部111接收到的所述语音向云服务器2发送，上述语音发送模式将由语音接收部111接收到的所述语音向其他语音处理装置1发送。例如，在由语音判定部114判定为由语音接收部111接收到的所述语音为所述特定单词的情况下，语音发送部115将发送模式设定(切换)为命令发送模式。在发送模式被设定为命令发送模式的情况下，语音发送部115将所述命令语音向云服务器2发送。此外，语音发送部115在将所述命令语音发送至云服务器2后，将发送模式设定(切换)为语音发送模式。在发送模式被设定为语音发送模式的情况下，语音发送部115将由语音接收部111接收到的所述语音向其他语音处理装置1发送。

显示处理部116显示表示所述发送模式的识别信息。显示处理部116为本发明的显示处理部的一个示例。例如，显示处理部116在发送模式为命令发送模式的情况下，使红色LED发光，在发送模式为语音发送模式的情况下，使蓝色LED发光。另外，表示所述发送模式的识别信息也可以是文本信息，也可以是语音信息。在语音处理装置1具备显示部的情况下，显示处理部116也可以使所述显示部显示所述文本信息。

调节处理部117对收集语音的麦克风14的指向性进行调节。调节处理部117为本发明的调节处理部的一个示例。具体而言，在由语音发送部115从语音发送模式设定为命令发送模式的情况下，调节处理部117将麦克风14的指向性调节为由说话者确定部113确定出的所述说话者的方向。由此，语音接收部111能够可靠地获取由说话者说出的所述命令语音。

响应处理部118从云服务器2获取与云服务器2中执行的所述命令对应的响应(命令响应)，并从扬声器13输出该命令响应。另外，在语音处理装置1具备显示部的情况下，响应处理部118也可以使所述显示部显示所述命令响应。响应处理部118为本发明的响应处理部的一个示例。

[云服务器2]

如图2所示，云服务器2具备控制部21、存储部22、以及通信接口23等。

通信接口23为通过有线方式或无线方式将云服务器2连接于网络N1，并用于经由网络N1在与其他设备(例如语音处理装置1A、1B)之间执行按照规定的通信协议的数据通信的通信接口。

存储部22为对各种信息进行存储的闪存等非易失性的存储部。例如，在存储部22存储有由控制部21执行的控制程序。此外，在存储部22存储有从语音处理装置1接收的与语音数据(命令语音)对应的命令的信息(命令信息)。

控制部21具有CPU、ROM、以及RAM等控制设备。所述CPU为执行各种运算处理的处理器。所述ROM预先存储用于使所述CPU执行各种处理的BIOS以及OS等控制程序。所述RAM存储各种信息，并用作所述CPU执行的各种处理的临时存储器(操作区域)。并且，控制部21通过使所述CPU执行所述ROM或存储部22中预先存储的各种控制程序从而对云服务器2进行控制。

具体而言，控制部21包含语音接收部211、命令判定部212、以及命令处理部213等各种处理部。另外，控制部21通过使所述CPU执行按照所述控制程序的各种处理从而作为所述各种处理部发挥功能。此外，控制部21所包含的一部分或全部的处理部也可以由电子电路构成。另外，所述控制程序也可以是用于使多个处理器作为所述各种处理部发挥功能的程序。

语音接收部211接收从语音处理装置1发送的命令语音。具体而言，语音处理装置1在感测出所述特定单词而转移至开始接受命令的待机状态(命令发送模式)后获取命令语音，当将该命令语音发送至云服务器2时，云服务器2接收该命令语音。即，在语音处理装置1处于向待机状态转移前的休眠状态(语音发送模式)的情况下，语音数据不向云服务器2发送，因此能够抑制无用的数据通信。

命令判定部212基于由语音接收部211接收到的命令语音对命令进行判定。具体而言，命令判定部212相对于由语音接收部211接收到的命令语音执行语音识别处理，并将语音数据转换为文本数据。并且，命令判定部212参照存储部22中存储的命令信息，对与所述文本数据对应的命令进行判定。

命令处理部213执行与由命令判定部212判定的所述命令对应的处理。例如，在所述命令为对规定的信息进行搜索的搜索命令的情况下，命令处理部213执行搜索处理。此外，命令处理部213将相对于所述命令语音的响应结果(命令响应)向该命令语音的发送源的语音处理装置1发送。另外，命令处理部213也可以向与所述命令语音的发送源不同的设备发送命令响应。例如，命令处理部213也可以在会议室A中从语音处理装置1A接收到所述命令语音的情况下，将所述命令响应向设置于会议室A的显示装置(未图示)发送。在该情况下，所述命令响应的信息显示于所述显示装置。

另外，作为语音处理装置1的其他实施方式，各语音处理装置1也可以具备云服务器2的功能、即命令判定部212以及命令处理部213的功能。

[语音处理]

以下，参照图4以及图5对由语音处理装置1的控制部11执行的语音处理的过程的一个示例进行说明。在此，在图1所示的会议系统100中，着眼于语音处理装置1A对所述语音处理进行说明。例如，语音处理装置1A的控制部11通过接收用户的语音来开始所述语音处理程序的执行，从而开始所述语音处理的执行。另外，所述语音处理在各个语音处理装置1A、1B中，单独且并行地执行。

另外，本发明能够作为执行所述语音处理中包含的一个或多个步骤的语音处理方法的发明。此外，在此说明的所述语音处理中包含的一个或多个步骤也可以适当省略。此外，所述语音处理中的各步骤也可以在产生同样的作用效果的范围内执行顺序不同。而且，在此列举通过控制部11执行所述语音处理中的各步骤的情况为例进行说明，但也可以在其他实施方式中，通过多个处理器分散地执行所述语音处理中的各步骤。

在步骤S101中，控制部11对语音处理装置1A是否从云服务器2接收到所述命令响应进行判定。在语音处理装置1A从云服务器2接收到所述命令响应的情况(S101：是)下，处理向步骤S116转移。另一方面，在语音处理装置1A未从云服务器2接收到所述命令响应的情况(S101：否)下，处理向步骤S102转移。

在步骤S102中，控制部11对是否开始了麦克风14的语音的输入进行判定。例如，在会议室A的用户开始发话而开始语音的输入的情况(S102：是)下，处理向步骤S103转移。在未开始语音的输入的情况(S102：否)下，处理返回步骤S101。

在步骤S103中，控制部11对发送模式是否是命令发送模式进行判定。在发送模式为命令发送模式的情况(S103：是)下，处理向步骤S112转移。另一方面，在发送模式不是命令发送模式的情况(S103：否)下，处理向步骤S104转移。

在步骤S104中，控制部11获取由相机15拍摄到的拍摄图像，并进行图像识别来识别用户。在此，控制部11基于拍摄图像对处于会议室A(参照图1)的四位用户进行识别。

接着，在步骤S105中，控制部11对输入的语音进行识别。例如，控制部11执行将语音数据转换为文本数据的语音识别处理。

接着，在步骤S106中，控制部11执行对识别到的语音是否是所述特定单词进行判定的语音判定处理。图5为表示所述语音判定处理的过程的一个示例的流程图。

在图5所示的步骤S21中，控制部11对所述语音是否与所述特定单词一致进行判定。例如，控制部11对所述语音的文本数据和所述特定单词进行比较而对两者是否一致进行判定。在所述语音与所述特定单词一致的情况(S21：是)下，处理向步骤S22转移。另一方面，在所述语音与所述特定单词不一致的情况(S21：否)下，处理向步骤S30转移。

在步骤S22中，控制部11对拍摄图像中用户是否处于接收到所述语音的方向进行判定。在用户处于接收到所述语音的方向的情况(S22：是)下，处理向步骤S23转移。另一方面，在用户未处于接收到所述语音的方向的情况(S22：否)下，处理向步骤S30转移。

在步骤S23中，控制部11对未提取的说话者候选是否为一人以上进行判定。在未提取的说话者候选为一人以上的情况(S23：是)下，处理向步骤S24转移。在未提取的说话者候选不是一人以上的情况(S23：否)下，处理向步骤S30转移。

在步骤S24中，控制部11提取拍摄图像中包含的说话者候选中的任意一位用户。

在步骤S25中，控制部11对提取的用户是否处于所述规定范围内进行判定。步骤S25与所述第一方法对应。在提取的用户处于所述规定范围内的情况(S25：是)下，处理向步骤S26转移。另一方面，在提取的用户未处于所述规定范围内的情况(S25：否)下，处理返回步骤S23。

在步骤S26中，控制部11对提取的用户是否朝向正面、即该用户的面部的方向或视线是否朝向相机15进行判定。步骤S26与所述第二方法对应。在提取的用户朝向正面的情况(S26：是)下，处理向步骤S27转移。另一方面，在提取的用户未朝向正面的情况(S26：否)下，处理返回步骤S23。

在步骤S27中，控制部11对提取的用户是否被注册于用户信息D1(参照图3)进行判定。步骤S27与所述第三方法对应。在提取的用户注册于用户信息D1的情况(S27：是)下，处理向步骤S28转移。另一方面，在提取的用户未被注册于用户信息D1的情况(S27：否)下，处理返回步骤S23。

在步骤S28中，控制部11对提取的用户的嘴部的动作与接收到所述语音的时机是否一致进行判定。步骤S28与所述第四方法对应。在提取到用户的嘴部的动作与接收到所述语音的时机一致的情况(S28：是)下，处理向步骤S29转移。另一方面，在提取的用户的嘴部的动作与接收到所述语音的时机不一致的情况(S28：否)下，处理返回步骤S23。

在步骤S29中，控制部11将所述用户确定为说话者，并判定为所述语音为所述特定单词。另一方面，在步骤S30中，控制部11判定为所述语音不是所述特定单词。控制部11如以上所述执行所述语音判定处理。另外，在上述的处理中，使用所述第一方法至所述第四方法的所有方法执行语音判定处理，但本发明并不限定于此，也可以使用所述第一方法至所述第四方法中的至少任意一个方法来执行语音判定处理。

当所述语音判定处理结束时，控制部11在图4所示的步骤S107中，对所述语音是否是所述特定单词进行判定。在所述语音为所述特定单词的情况(S107：是)下，处理向步骤S109转移。另一方面，在所述语音不是所述特定单词的情况(S107：否)下，处理向步骤S108转移。

在步骤S108中，控制部11将所述语音向语音处理装置1B发送。在此，所述语音例如为相对于会议的议题的会话的语音。在步骤S108后，结束所述语音处理。

在步骤S109中，控制部11将发送模式设定为命令发送模式。

在步骤S110中，控制部11将麦克风14的指向性调节为所述说话者的方向。

在步骤S111中，控制部11将表示命令发送模式的信息(LED)显示于语音处理装置1A。在步骤S111后，结束所述语音处理。

在此，在步骤S103中发送模式为命令发送模式的情况(S103：是)下，在步骤S112中，控制部11接受语音输入。在此的语音为命令语音。

接着，在步骤S113中，控制部11将所述命令语音向云服务器2发送。如此，所述命令语音不向语音处理装置1B发送，而向云服务器2发送。

接着，在步骤S114中，控制部11将发送模式从命令发送模式切换为语音发送模式。

接着，在步骤S115中，控制部11将表示语音发送模式的信息(LED)显示于语音处理装置1A。在步骤S115后，结束所述语音处理。

此外，在步骤S101中语音处理装置1A从云服务器2接收到所述命令响应的情况(S101：是)下，在步骤S116中，控制部11从扬声器13输出所述命令响应。在步骤S116后，结束所述语音处理。另外，语音处理装置1A也可以构成为能够连续地接受命令语音。例如，在所述命令响应中包含允许连续接受的信息的情况下，控制部11在步骤S116后，将发送模式设定为命令发送模式，并持续从用户接受命令语音。在该情况下，控制部11将表示命令发送模式的信息持续显示于语音处理装置1A。

如以上所述，执行所述语音处理。如以上所述，本发明的实施方式所涉及的语音处理装置1在用户说出的语音为特定单词(启动单词)的情况下，开始命令的接受，将接受到的命令语音向云服务器2发送。此外语音处理装置1不将所述命令语音向其他语音处理装置1等外部设备发送。另一方面，语音处理装置1在用户说出的语音不是特定单词的情况下，将该语音向外部设备发送。此外，在即便在用户说出的语音与特定单词一致时也在该用户的拍摄图像中判断为不是该用户为了指示命令的执行而说出的语音的情况(例如面部图像未朝向正面的情况)下，语音处理装置1判定为该用户说出的语音不是特定单词，并将该语音向外部设备发送。由此，不会防碍用户的会话且能够防止执行用户不期望的命令。此外，根据本实施方式所涉及的会议系统100，在远程会议中，能够将会话的语音适当地传递至远程位置，且能够适当地执行用户意图的命令。

本发明的范围并不限于上述内容，而是由权利要求的记载来定义，所以可以认为本说明书记载的实施方式只是举例说明，而并非进行限定。因此，所有不脱离权利要求的范围、界限的更改以及等同于权利要求的范围、界限的内容都包含在权利要求的范围内。

Claims

1.一种语音处理装置，其特征在于，具备：

语音接收部，其接收语音；

图像获取部，其获取由拍摄部拍摄的拍摄图像；

说话者确定部，其基于由所述语音接收部接收的所述语音和由所述图像获取部获取的所述拍摄图像，对说话者进行确定；

语音判定部，其基于由所述语音接收部接收的所述语音和所述拍摄图像中包含的由所述说话者确定部确定出的所述说话者的图像，判定所述语音是否是用于开始接受规定的命令的特定单词；以及

语音发送部，其基于所述语音判定部的判定结果，对由所述语音接收部接收的所述语音的发送目的地进行切换。

2.根据权利要求1所述的语音处理装置，其特征在于，

在由所述语音判定部判定为由所述语音接收部接收的所述语音为所述特定单词的情况下，所述语音发送部将由所述语音接收部在所述特定单词之后接收的语音作为命令语音，并发送至执行所述规定的命令的服务器装置。

3.根据权利要求1或2所述的语音处理装置，其特征在于，

在由所述语音判定部判定为由所述语音接收部接收的所述语音不是所述特定单词的情况下，所述语音发送部将所述语音发送至规定的外部设备。

4.根据权利要求1至3中任一项所述的语音处理装置，其特征在于，

在由所述语音接收部接收的所述语音与所述特定单词一致且所述拍摄图像中包含的所述说话者的面部的方向或视线朝向所述拍摄部的情况下，所述语音判定部判定为由所述语音接收部接收的所述语音为所述特定单词。

5.根据权利要求1至4中任一项所述的语音处理装置，其特征在于，

所述语音发送部基于所述语音判定部的判定结果切换第一发送模式和第二发送模式，其中，所述第一发送模式将由所述语音接收部接收的所述语音发送至执行所述规定的命令的服务器装置，所述第二发送模式将由所述语音接收部接收的所述语音发送至规定的外部设备。

6.根据权利要求5所述的语音处理装置，其特征在于，

还具备显示处理部，所述显示处理部显示表示所述第一发送模式或所述第二发送模式的识别信息。

7.根据权利要求5或6所述的语音处理装置，其特征在于，

还具备调节处理部，在由所述语音发送部从所述第二发送模式切换为所述第一发送模式的情况下，所述调节处理部将收集所述语音的麦克风的指向性调节为由所述说话者确定部确定出的所述说话者的方向。

8.根据权利要求2所述的语音处理装置，其特征在于，

还具备响应处理部，所述响应处理部从所述服务器装置获取与在所述服务器装置中执行的所述命令对应的响应，并输出所述响应。

9.一种会议系统，包含经由网络相互连接的第一语音处理装置以及第二语音处理装置，并能够将由所述第一语音处理装置接收的语音发送至所述第二语音处理装置，将由所述第二语音处理装置接收的语音发送至所述第一语音处理装置，

所述会议系统的特征在于，

所述第一语音处理装置具备：

语音接收部，其接收语音；

图像获取部，其获取由拍摄部拍摄的拍摄图像；

说话者确定部，其基于由所述语音接收部接收的所述语音、和由所述图像获取部获取的所述拍摄图像，对说话者进行确定；

语音判定部，其基于由所述语音接收部接收的所述语音、和所述拍摄图像中包含的由所述说话者确定部确定出的所述说话者的图像，判定所述语音是否是用于开始接受规定的命令的特定单词；以及

语音发送部，其基于所述语音判定部的判定结果，对由所述语音接收部接收的所述语音的发送目的地进行切换，

在由所述语音判定部判定为由所述语音接收部接收的所述语音为所述特定单词的情况下，所述语音发送部将由所述语音接收部在所述特定单词之后接收的语音作为命令语音，并发送至执行所述规定的命令的服务器装置，

在由所述语音判定部判定为由所述语音接收部接收的所述语音不是所述特定单词的情况下，所述语音发送部将所述语音发送至所述第二语音处理装置。

10.根据权利要求9所述的会议系统，其特征在于，

所述第二语音处理装置输出从所述第一语音处理装置接收的所述语音。

11.一种语音处理方法，其特征在于，通过一个或多个处理器执行如下步骤：

语音接收步骤，接收语音；

图像处理步骤，获取由拍摄部拍摄的拍摄图像；

说话者确定步骤，基于由所述语音接收步骤接收的所述语音、和通过所述图像处理步骤获取的所述拍摄图像，对说话者进行确定；

语音判定步骤，基于由所述语音接收步骤接收的所述语音、和所述拍摄图像中包含的通过所述说话者确定步骤确定出的所述说话者的图像，判定所述语音是否是用于开始接受规定的命令的特定单词；以及

语音发送步骤，基于所述语音判定步骤的判定结果，对通过所述语音接收步骤接收的所述语音的发送目的地进行切换。