CN111251307B

CN111251307B - 应用于机器人的语音采集方法和装置、一种机器人

Info

Publication number: CN111251307B
Application number: CN202010212590.XA
Authority: CN
Inventors: 许哲涛
Original assignee: Beijing Haiyi Tongzhan Information Technology Co Ltd
Current assignee: Jingdong Shuke Haiyi Information Technology Co Ltd; Jingdong Technology Information Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-11-02
Anticipated expiration: 2040-03-24
Also published as: CN111251307A

Abstract

本公开的实施例公开了应用于机器人的语音采集方法和装置。该方法的一具体实施方式包括：响应于接收到用户发送的、用于指示语音识别的指令，调整机器人包括的摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；根据姿态信息，确定机器人包括的至少两个在竖直方向上的位置不用的语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置；利用目标语音采集装置采集用户的语音。该实施方式有助于提升采集到的语音的质量。

Description

应用于机器人的语音采集方法和装置、一种机器人

技术领域

本公开的实施例涉及计算机技术领域，具体涉及应用于机器人的语音采集方法和装置。

背景技术

随着人工智能的快速发展，语音识别技术已逐渐应用于各种场景中，也成为许多电子设备的标配。例如，移动终端(如手机、手表等)提供的语音助手、电销机器人、支持语音交互的智能家居(如电视、家用机器人等)、早教机、支持语音交互的地图应用等等。

目前，在一些线下的场所(如医院、银行等)中也逐渐出现了许多服务型的机器人。用户可以与这些机器人进行语音交互，并获取相应的服务。一般地，这些机器人都设置有麦克风等语音采集设备，并通过语音采集设备采集用户的语音，然后对采集的语音进行识别，并根据识别结果向用户反馈。

发明内容

本公开的实施例提出了应用于机器人的语音采集方法和装置，以及一种机器人。

第一方面，本公开的实施例提供了一种应用于机器人的语音采集方法，其中，机器人包括摄像装置和至少两个在竖直方向上的位置不同的语音采集装置；该方法包括：响应于接收到用户发送的、用于指示语音识别的指令，调整摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；根据姿态信息，确定至少两个语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置；利用目标语音采集装置采集用户的语音。

在一些实施例中，上述方法还包括：对目标语音采集装置采集的语音进行语音识别，得到识别结果。

在一些实施例中，上述根据姿态信息，确定至少两个语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置，包括：确定至少两个语音采集装置中预设的与姿态信息对应的语音采集装置作为目标语音采集装置。

在一些实施例中，上述姿态信息包括用于表征调整后的摄像装置的姿态角。

在一些实施例中，上述用于指示语音识别的指令包括预设唤醒词对应的语音指令。

在一些实施例中，响应于接收到用户发送的、用于指示语音识别的指令，调整摄像装置的姿态，包括：确定用于表征语音指令对应的声源方向的方向信息；根据方向信息，调整摄像装置的姿态。

第二方面，本公开的实施例提供了一种应用于机器人的语音采集装置，该装置包括：调整单元，被配置成响应于接收到用户发送的、用于指示语音识别的指令，调整摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；确定单元，被配置成根据姿态信息，确定至少两个语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置；采集单元，被配置成利用目标语音采集装置采集用户的语音。

在一些实施例中，上述装置还包括：识别单元，被配置成对目标语音采集装置采集的语音进行语音识别，得到识别结果。

在一些实施例中，上述确定单元进一步被配置成：确定至少两个语音采集装置中预设的与姿态信息对应的语音采集装置作为目标语音采集装置。

在一些实施例中，上述确定单元进一步被配置成：确定用于表征语音指令对应的声源方向的方向信息；根据方向信息，调整摄像装置的姿态。

第三方面，本公开的实施例提供了一种机器人，该机器人包括：摄像装置；至少两个在竖直方向上的位置不同的语音采集装置；一个或多个处理器；存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器执行如下处理步骤：响应于接收到用户发送的、用于指示语音识别的指令，调整摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；根据姿态信息，确定至少两个语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置；利用目标语音采集装置采集用户的语音。

在一些实施例中，上述语音采集装置为麦克风阵列。

在一些实施例中，机器人还包括单片机和用于切换麦克风阵列的切换电路；以及上述处理步骤包括：响应于接收到用户发送的、用于指示语音识别的指令，向单片机发送控制指令，以使单片机：调整摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；根据姿态信息，确定至少两个麦克风阵列中与用户的面部距离最近的麦克风阵列作为目标麦克风阵列；向切换电路发送切换指令，以控制切换电路切换到目标麦克风阵列，以及利用目标麦克风阵列采集用户的语音。

第四方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开的实施例提供的应用于机器人的语音采集方法和装置，通过在接收到用户发送的语音识别指令时，调整摄像装置的姿态使得用户的面部位于摄像装置的拍摄区域的中心，并根据当前调整后的摄像装置的姿态信息，从机器人包括的至少两个在竖直方向上的位置不同的语音采集装置中选取距离与用户的面部距离最近的麦克风阵列，并利用所选取的麦克风阵列采集用户的语音。由此，针对不同的用户，可以在竖直方向上设置的多个语音采集装置中切换距离用户的面部最近的语音采集装置，从而可以尽量降低用户周围的背景噪声的干扰，提升采集的用户语音的质量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的应用于机器人的语音采集方法的一个实施例的流程图；

图3是根据本公开的应用于机器人的语音采集方法的又一个实施例的流程图；

图4是根据本公开的实施例的应用于机器人的语音采集方法的一个应用场景的示意图；

图5是根据本公开的应用于机器人的语音采集装置的一个实施例的结构示意图；

图6是适于用来实现本公开的实施例的机器人的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的应用于机器人的语音采集方法或应用于机器人的语音采集装置的实施例的示例性架构100。

如图1所示，系统架构100可以包括机器人101。机器人101中可以设置有用于摄像的摄像装置和至少两个在竖直方向上的位置不同的、用于采集语音的语音采集装置。机器人101可以通过其中的摄像装置拍摄用户的图像，同时可以利用其中的语音采集装置采集用户的语音。

摄像装置可以是各种具有摄像功能的设备。例如，摄像装置可以是各种类型的摄像头、摄像机等。语音采集装置可以是各种具有语音采集功能的设备。例如，语音采集装置可以是各种类型的麦克风阵列、拾音头等。其中，机器人包括各个语音采集装置可以是同一类型的语音采集装置，也可以是不同类型的语音采集装置。

竖直方向可以指垂直于地平面的方向。例如，机器人101可以包括两个语音采集装置。以机器人101靠近地平面的一端为底部，远离地平面的另一端为顶部，则其中一个语音采集装置设置在机器人101的顶部，另一个语音采集装置设置在机器人的中间部位。机器人101包括的摄像装置的数目可以是任意的，对此不作限定。

机器人101可以是支持摄像和语音采集的各种机器人。例如，机器人可以是各种形象、各种类别的机器人。举例来说，机器人101可以是家用机器人、医用机器人、服务型机器人、教育教学机器人、农业机器人、娱乐机器人等等。

应当可以理解，不同类型的机器人中还可以设置有其它各种各样的用于实现不同的功能或服务的硬件或软件。例如，机器人还可以设置有各种传感器(如图像传感器、压力传感器等等)、舵机、单片机、电路等硬件。又例如，机器人还可以设置有图像处理模块、语音处理模块等软件模块。此时，机器人还可以利用图像处理模块对摄像装置拍摄到的图像进行人脸识别等处理，也可以利用语音处理模块对语音采集装置采集到的语音进行语音识别等处理。

需要说明的是，本公开的实施例所提供的应用于机器人的语音采集方法一般由机器人101执行，相应地，应用于机器人的语音采集装置一般设置于机器人101中。

继续参考图2，其示出了根据本公开的应用于机器人的语音采集方法的一个实施例的流程200。该应用于机器人的语音采集方法包括以下步骤：

步骤201，响应于接收到用户发送的、用于指示语音识别的指令，调整包括的摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息。

在本实施例中，应用于机器人的语音采集方法的执行主体(如图1所示的机器人101)可以包括摄像装置。其中，摄像装置可以是各种具有摄像功能的设备。例如，摄像装置可以是各种类型的摄像头、摄像机等。

摄像装置可以根据实际的应用需求设置在机器人的任意位置处。例如，以机器人靠近地平面的一端为底部，远离地平面的另一端为顶部，摄像装置可以设置于机器人的顶部。应当可以理解，摄像装置的数目可以是一个，也可以是两个以上。当摄像装置的数目为两个以上时，各个摄像装置的位置同样可以根据实际的应用需求灵活设置。例如，各个摄像装置可以相邻设置，也可以间隔设置，还可以部分相邻设置，另一部分间隔设置等等。

在本实施例中，用于指示语音识别的指令可以是机器人可以接收并识别的各种形式的指令。用于指示语音识别的指令可以根据实际的应用场景进行设置。

例如，用于指示语音识别的指令可以是预设的手势。此时，机器人可以检测用户的手势是否与预设的手势匹配。若匹配，可以认为接收到了该用户发送的用于指示语音识别的指令。

又例如，用于指示语音识别的指令可以是针对机器人包括的预设按键的点击操作。此时，机器人在检测到用于针对预设按键的点击操作时，可以认为接收到了该用户发送的用于指示语音识别的指令。

可选地，用于指示语音识别的指令可以包括预设唤醒词对应的语音指令。此时，机器人在检测到用户说出唤醒词时，可以认为接收到了用户发送的用于指示语音识别的指令。其中，唤醒词可以根据实际应用需求灵活设置。

在本实施例中，机器人可以包括至少两个在竖直方向上的位置不同的语音采集装置。其中，语音采集装置可以是各种具有语音采集功能的设备。例如，语音采集装置可以是各种类型的麦克风阵列、拾音头等。语音采集装置的具体数目可以根据实际的应用需求进行设置。

其中，竖直方向可以指垂直于地平面的方向。由于各个语音采集装置都设置于机器人上，因此，各个语音采集装置可以分别设置在机器人所在的竖直方向上的不同位置。

以机器人包括两个麦克风阵列作为示例，并且以机器人靠近地平面的一端为底部，远离地平面的另一端为顶部，则其中一个麦克风阵列可以设置在机器人的顶部，另一个麦克风阵列可以设置在机器人的中间部位。

机器人在未被上述唤醒词唤醒之前，可以保持各个语音采集装置都处于开启状态。此时，可以利用各个语音采集装置都采集用户的语音指令，并判断语音指令是否与上述预设唤醒词匹配，也可以只利用各个语音采集装置中的一个语音采集装置采集用户的语音指令，并判断语音指令是否与上述预设唤醒词匹配。

机器人在未被上述唤醒词唤醒之前，也可以只保持一个语音采集装置处于开启状态，其它语音采集装置处于关闭状态。此时，可以利用处于开启状态的语音采集装置采集用户的语音指令，并判断语音指令是否与上述预设唤醒词匹配。

应当可以理解，上述只是两个示例，接收用户的语音指令的语音采集装置的数目和方式可以根据实际的应用需求灵活设置。

摄像装置的姿态可以指摄像装置的空间姿态，具体可以表征摄像装置的空间位置。摄像装置的拍摄区域的中心可以指摄像装置拍摄区域的几何中心。即摄像装置的拍摄区域的中心可以指摄像装置对应的靶标中心。

需要说明的是，用户的面部可以指用户的面部的所有区域，也可以指用户的面部的部分区域，具体可以根据实际的应用需求灵活设置。

在本实施例中，机器人可以利用控制系统控制摄像装置的姿态调整，并基于人脸识别技术确定用户的面部是否位于摄像装置的拍摄区域的中心。当用户的面部位于摄像装置的拍摄区域的中心时，可以利用控制系统的调整参数获取用于指示经过姿态调整后的摄像装置的当前姿态的姿态信息。

可选地，机器人在接收到用户发送的用于指示语音识别的语音指令时，可以先确定用于表征语音指令对应的声源方向的方向信息，然后根据确定的方向信息，调整摄像装置的姿态。

其中，机器人可以利用现有的各种声源定位技术(如可控波束形成技术、延时定位技术等)确定用于表征语音指令对应的声源方向的方向信息。在确定出语音指令对应的声源方向后，摄像装置可以有目的地调整摄像装置的姿态，以尽快使得用户的面部位于摄像装置的拍摄区域的中心，从而提升语音采集速度。

可选地，在确定出语音指令对应的声源方向后，机器人还可以先转动其自身以使面对用户，然后再控制摄像装置的姿态调整，以加快对摄像装置的姿态调整速度。

在本实施例中，用于指示调整后的摄像装置的姿态的姿态信息可以根据实际的应用需求灵活采用各种表示方式。例如，用于指示调整后的摄像装置的姿态的姿态信息可以为调整后的摄像装置的镜头中心与用户的面部之间的距离。作为示例，摄像装置可以为深度摄像头。此时，可以根据深度信息确定调整后的摄像装置的镜头中心与用户的面部之间的距离。

可选地，用于指示调整后的摄像装置的姿态的姿态信息可以包括用于表征调整后的摄像装置的姿态角。其中，姿态角可以包括以下至少一项：俯仰角(pitch)、偏航角(yaw)、翻滚角(roll)。此时，可以利用现有的各种姿态估计方法确定用于表征调整后的摄像装置的姿态角。

可选地，用于指示调整后的摄像装置的姿态的姿态信息可以包括用于表征调整后的摄像装置的姿态角的正弦值和余弦值。

由此，可以通过快速地获取用于表征调整后的摄像装置的姿态角，以快速地了解调整后的摄像装置的姿态，进而有助于提升后续的语音采集速度。

步骤202，根据姿态信息，确定包括的至少两个在竖直方向上的位置不同的语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置。

在本实施例中，根据姿态信息的不同表示方式，可以灵活采用各种不同的方法从各个语音采集装置中选取与用户的面部距离最近的语音采集装置。

例如，摄像装置可以为深度摄像头。此时，可以利用深度摄像头确定调整后的摄像装置的镜头中心与用户的面部之间的距离，同时可以由用于控制深度摄像头的姿态调整到的控制单元确定深度摄像头的光轴方向与竖直方向之间的夹角。此时，可以将上述调整后的摄像装置的镜头中心与用户的面部之间的距离和深度摄像头的光轴方向与竖直方向之间的夹角作为用于指示调整后的深度摄像头的姿态信息。

然后，可以根据调整后的摄像装置的镜头中心与用户的面部之间的距离和深度摄像头的光轴方向与竖直方向之间的夹角，以及各个语音采集装置分别与深度摄像头之间的距离确定各个语音采集装置分别与用户的面部之间的距离，进而可以从中选取出距离用户的面部最近的语音采集装置。

步骤203，利用目标语音采集装置采集用户的语音。

在本实施例中，机器人可以利用选取出的距离用户的面部的距离最近的语音采集装置采集用户的语音，从而尽可能提升了采集到的用户的语音的质量。

可选地，在利用目标语音采集装置采集到用户的语音之后，可以进一步对采集到的语音进行各种处理，从而也可以提升后续对用户的语音的处理结果的准确性。

例如，可以对目标语音采集装置采集到的用户的语音进行语音识别，以得到识别结果。由于利用目标语音采集装置采集到的用户的语音的质量较高，因此，也可以提升后续语音识别的准确性，进而提升与用户之间的语音交互的准确性。

现有技术中，机器人中通常只设置一个语音采集装置，并且利用这一个语音采集装置采集所有用户的语音。这种情况就容易出现有部分用户的面部可能距离这一个语音采集装置较远，因此，采集到的这部分用户的语音的背景噪声较大，语音的质量较差，进而也会导致后续对采集到的语音的处理效果。

举例来说，现有的一些服务型机器人的服务对象通常是成人，因此，这些机器人中的语音采集装置设置的位置比较靠近成人的面部。这样一来，在出现儿童使用这些机器人时，由于儿童的身高有限，通常儿童的面部距离语音采集装置较远，因此，采集到的儿童的语音就会具有较大的背景噪声，进而也会导致后续对儿童的语音的语音识别结果的准确度较低。

本公开的上述实施例提供的方法通过在机器人中设置至少两个在竖直方向上的位置不同的语音采集装置，并在接收到用于指示语音识别的指令时，调整摄像装置的姿态使得用户的面部位于摄像装置的拍摄区域的中心，并利用此时调整后的摄像装置的姿态信息，从各个语音采集装置中选取出距离用户的面部最近的语音采集装置对用户的语音进行采集，从而可以全面地考虑到各种身高的用户群体，针对不同的用户，都可以利用距离用户最近的语音采集装置采集用户的语音，和只使用一个语音采集装置相比，有助于提升采集到的语音的质量，降低采集到的语音中的背景噪声，进而也有助于提升后续对采集到的语音的处理效果。

进一步参考图3，其示出了应用于机器人的语音采集方法的又一个实施例的流程300。该应用于机器人的语音采集方法的流程300，包括以下步骤：

步骤301，响应于接收到用户发送的、用于指示语音识别的指令，调整包括的摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息。

上述步骤301的具体的执行过程可参考图2对应实施例中的步骤201的相关说明，在此不再赘述。

步骤302，确定至少两个语音采集装置中预设的与姿态信息对应的、与用户的面部距离最近的语音采集装置作为目标语音采集装置。

在本实施例中，可以预先构建与用户的面部距离最近的语音采集装置与摄像装置的姿态信息之间的对应关系。此时，可以根据调整后的摄像装置的姿态信息，通过查找预先构建的对应关系，确定预设的与调整后的摄像装置的姿态信息对应的语音采集装置。

其中，与用户的面部距离最近的语音采集装置与摄像装置的姿态信息之间的对应关系可以通过如下步骤构建：先确定摄像装置的姿态信息的取值范围，然后对于姿态信息的取值范围中的每个取值，分别确定该取值对应的姿态信息下，与用户的面部距离最近的语音采集装置，并记录两者的对应关系。

由此，通过预先设置与用户的面部距离最近的语音采集装置与摄像装置的姿态信息之间的对应关系，可以在根据调整后的摄像装置的姿态信息，快速地确定距离用户最近的语音采集装置，从而减少了语音采集过程中计算量，并且节省了确定目标语音采集装置的时间。

步骤303，利用目标语音采集装置采集用户的语音。

步骤304，对目标语音采集装置采集的语音进行语音识别，得到识别结果。

上述步骤303和304的具体的执行过程可参考图2对应实施例中的步骤203的相关说明，在此不再赘述。

继续参见图4，图4是根据本实施例的应用于机器人的语音采集方法的应用场景的一个示意图400。在图4的应用场景中，儿童401可以对机器人402说出唤醒词“你好”，机器人在接收到该唤醒词之后，可以调整摄像头4021的位置使得用户的嘴部位于摄像头4021的拍摄区域的中心，并获取调整后的摄像头4021的光轴方向与竖直方向之间的夹角θ。

如图中标号4022和4023所示，机器人402在竖直方向设置有两个不同位置的麦克风阵列，分别为麦克风阵列A和麦克风阵列B。机器人402在获取到调整后的摄像头4021的光轴方向与竖直方向之间的夹角θ之后，可以查找预设的摄像头4021的光轴方向与竖直方向之间的夹角和距离用户最近的麦克风阵列之间的对应关系403，确定与夹角θ对应的麦克风阵列。

如图中标号403所示，若调整后的摄像头4021的光轴方向与竖直方向之间的夹角位于第一角度区间，则此时用户距离麦克风阵列A较近，可以采用麦克风阵列A采集用户的语音。若调整后的摄像头4021的光轴方向与竖直方向之间的夹角位于第二角度区间，则此时用户距离麦克风阵列B较近，可以采用麦克风阵列B采集用户的语音。

如图中所示，夹角θ对应于麦克风阵列B。因此，可以启动麦克风阵列B采集儿童401到的语音，并对采集到的语音进行识别，根据识别结果向用户进行语音或文本等反馈。

本公开的上述实施例提供的方法通过预先设置摄像装置的姿态信息与距离用户最近的麦克风阵列之间的对应关系，从而在根据用户的语音识别指令调整摄像装置之后，可以直接根据调整后的摄像装置的姿态信息，查找与该姿态信息对应的麦克风阵列，并使用对应的麦克风阵列采集用户的语音。由此，可以省去语音采集过程中的一部分计算量。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了应用于机器人的语音采集装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例提供的应用于机器人的语音采集装置500包括调整单元501、确定单元502和采集单元503。其中，调整单元501被配置成响应于接收到用户发送的、用于指示语音识别的指令，调整机器人包括的摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；确定单元502被配置成根据姿态信息，确定机器人包括的至少两个在竖直方向上的位置不用的语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置；采集单元503被配置成利用目标语音采集装置采集用户的语音。

在本实施例中，应用于机器人的语音采集装置500中：调整单元501、确定单元502和采集单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述应用于机器人的语音采集装置500还包括：识别单元(图中未示出)被配置成对目标语音采集装置采集的语音进行语音识别，得到识别结果。

在本实施例的一些可选的实现方式中，上述确定单元502进一步被配置成：确定至少两个语音采集装置中预设的与姿态信息对应的语音采集装置作为目标语音采集装置。

在本实施例的一些可选的实现方式中，上述姿态信息包括用于表征调整后的摄像装置的姿态角。

在本实施例的一些可选的实现方式中，上述用于指示语音识别的指令包括预设唤醒词对应的语音指令。

在本实施例的一些可选的实现方式中，上述确定单元502进一步被配置成：确定用于表征语音指令对应的声源方向的方向信息；根据方向信息，调整摄像装置的姿态。

本公开的上述实施例提供的装置，通过调整单元响应于接收到用户发送的、用于指示语音识别的指令，调整摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；确定单元根据姿态信息，确定至少两个语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置；采集单元利用目标语音采集装置采集用户的语音。由此，针对不同的用户，可以在竖直方向上设置的多个语音采集装置中切换距离用户的面部最近的语音采集装置，从而可以尽量降低用户周围的背景噪声的干扰，提升采集的用户语音的质量。

下面参考图6，其示出了适于用来实现本公开的实施例的机器人(例如图1中的机器人101)600的结构示意图。图6示出的机器人仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

机器人可以是支持摄像和语音采集的各种机器人。例如，机器人可以包括但不限于家用机器人、医用机器人、服务型机器人、教育教学机器人、农业机器人、娱乐机器人等等。

如图6所示，机器人600可以包括摄像装置(如摄像头、摄像机等)601，其可以用于拍摄周围的图像。例如，可以拍摄用户的面部。机器人600还可以包括至少两个在竖直方向上位于不同位置的语音采集装置(如麦克风阵列、拾音器等)602，其可以用于采集用户的语音。机器人600还可以包括控制装置(如中央处理器、图形处理器等)603，其可以通过指令对其他如摄像装置601、语音采集装置602、存储装置604、处理装置605进行控制。例如，控制装置603可以控制摄像装置601的姿态调整、还可以控制语音采集装置602进行语音采集、还可以控制处理装置605对摄像装置601拍摄到的图像、语音采集装置602采集到的语音等进行处理等等。存储装置(如只读存储器ROM、随机访问存储器RAM等)604可以存储各种信息。例如，可以存储摄像装置601拍摄到的图像、语音采集装置602采集到的语音、也可以存储控制程序等等。处理装置605可以对存储装置604中存储的各种信息进行处理。例如，可以对摄像装置601拍摄到的图像进行图像识别、对语音采集装置602采集到的语音进行语音识别、执行控制程序等等。

通常，机器人600为了提供各种不同的功能，还可以具备其它各种装置。例如，机器人600还可以包括触摸屏、传感器、单片机、舵机等装置。虽然图6示出了具有各种装置的机器人600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

根据本公开的一个或多个实施例，本公开提供的机器人600包括的控制装置603可以控制执行存储装置604中的一个或多个程序，以实现如下处理步骤：响应于接收到用户发送的、用于指示语音识别的指令，调整摄像装置601的姿态，以使用户的面部位于摄像装置601的拍摄区域的中心，以及获取用于指示调整后的摄像装置601的姿态的姿态信息；根据姿态信息，确定至少两个语音采集装置602中与用户的面部距离最近的语音采集装置作为目标语音采集装置；利用目标语音采集装置采集用户的语音。

根据本公开的一个或多个实施例，本公开提供的机器人600中还可以包括单片机和用于切换语音采集装置(如麦克风阵列)的切换电路。此时，控制装置603可以执行如下处理步骤：响应于接收到用户发送的、用于指示语音识别的指令，向单片机发送控制指令，以使单片机：调整摄像装置601的姿态，以使用户的面部位于摄像装置601的拍摄区域的中心，以及获取用于指示调整后的摄像装置601的姿态的姿态信息；根据姿态信息，确定至少两个语音采集装置(如麦克风阵列)602中与用户的面部距离最近的麦克风阵列作为目标麦克风阵列；向切换电路发送切换指令，以控制切换电路切换到目标麦克风阵列，以及利用目标麦克风阵列采集用户的语音。

通常，当用户进入到机器人600的摄像装置601拍摄范围内时，摄像装置60可以将采集到的用户的面部图像传输到控制装置603，控制装置603会控制处理装置604对面部图像进行人脸识别，并向单片机发送针对摄像装置601到的姿态调整指令，以使单片机驱动舵机等旋转调整摄像装置601到的姿态使得用户的面部位于摄像装置601的拍摄区域的中心。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过机器人与其它设备到之间的通信从网络上被下载和安装，或者从存储装置604被安装。在该计算机程序被处理装置605执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述机器人中所包含的；也可以是单独存在，而未装配入该机器人中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该机器人执行时，使得该机器人：响应于接收到用户发送的、用于指示语音识别的指令，调整机器人包括的摄像装置的姿态，以使用户的面部位于摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；根据姿态信息，确定机器人包括的至少两个在竖直方向上的位置不同的语音采集装置中与用户的面部距离最近的语音采集装置作为目标语音采集装置；利用目标语音采集装置采集用户的语音。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括调整单元、确定单元和采集单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，采集单元还可以被描述为“利用目标语音采集装置采集用户的语音的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种应用于机器人的语音采集方法，其中，所述机器人包括摄像装置和至少两个在竖直方向上的位置不同的语音采集装置；所述方法包括：

响应于接收到用户发送的、用于指示语音识别的指令，调整所述摄像装置的姿态，以使所述用户的面部位于所述摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；

根据所述姿态信息，确定至少两个语音采集装置中与所述用户的面部距离最近的语音采集装置作为目标语音采集装置；

利用所述目标语音采集装置采集所述用户的语音；

其中，所述根据所述姿态信息，确定至少两个语音采集装置中与所述用户的面部距离最近的语音采集装置作为目标语音采集装置，包括：根据预先构建的与用户的面部距离最近的语音采集装置与摄像装置的姿态信息之间的对应关系，查找与调整后的摄像装置的姿态的姿态信息对应的语音采集装置作为目标语音采集装置。

2.根据权利要求1所述的方法，其中，所述方法还包括：

对所述目标语音采集装置采集的语音进行语音识别，得到识别结果。

3.根据权利要求1所述的方法，其中，所述姿态信息包括用于表征所述调整后的摄像装置的姿态角。

4.根据权利要求1所述的方法，其中，所述用于指示语音识别的指令包括预设唤醒词对应的语音指令。

5.根据权利要求4所述的方法，其中，所述响应于接收到用户发送的、用于指示语音识别的指令，调整所述摄像装置的姿态，包括：

确定用于表征所述语音指令对应的声源方向的方向信息；

根据所述方向信息，调整所述摄像装置的姿态。

6.一种应用于机器人的语音采集装置，其中，所述机器人包括摄像装置和至少两个在竖直方向上的位置不同的语音采集装置；所述装置包括：

调整单元，被配置成响应于接收到用户发送的、用于指示语音识别的指令，调整所述摄像装置的姿态，以使所述用户的面部位于所述摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；

确定单元，被配置成根据所述姿态信息，确定至少两个语音采集装置中与所述用户的面部距离最近的语音采集装置作为目标语音采集装置；

采集单元，被配置成利用所述目标语音采集装置采集所述用户的语音；

所述确定单元进一步被配置成：根据预先构建的与用户的面部距离最近的语音采集装置与摄像装置的姿态信息之间的对应关系，查找与调整后的摄像装置的姿态的姿态信息对应的语音采集装置作为目标语音采集装置。

7.一种机器人，包括：

摄像装置；

至少两个在竖直方向上的位置不同的语音采集装置；

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器执行如下处理步骤：

利用所述目标语音采集装置采集所述用户的语音；

8.根据权利要求7所述的机器人，其中，所述语音采集装置为麦克风阵列。

9.根据权利要求8所述的机器人，其中，所述机器人还包括单片机和用于切换麦克风阵列的切换电路；以及

所述处理步骤包括：

响应于接收到用户发送的、用于指示语音识别的指令，向所述单片机发送控制指令，以使所述单片机：

调整所述摄像装置的姿态，以使所述用户的面部位于所述摄像装置的拍摄区域的中心，以及获取用于指示调整后的摄像装置的姿态的姿态信息；

根据所述姿态信息，确定至少两个麦克风阵列中与所述用户的面部距离最近的麦克风阵列作为目标麦克风阵列；

向所述切换电路发送切换指令，以控制所述切换电路切换到所述目标麦克风阵列，以及利用所述目标麦克风阵列采集所述用户的语音。

10.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。