CN112578338A

CN112578338A - 声源定位方法、装置、设备及存储介质

Info

Publication number: CN112578338A
Application number: CN201910926241.1A
Authority: CN
Inventors: 吴淑明; 陈永波; 王思杰; 朱熠博; 周芷慧
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2021-03-30

Abstract

本发明实施例提供一种声源定位方法、装置、设备及存储介质，其中，声源定位方法可以包括：利用拍摄设备与麦克风阵列的距离以及拍摄设备与发声部位的深度距离，确定麦克风阵列与发声部位的第一目标距离；并通过第一目标距离以及麦克风阵列与发声部位的水平角度，定位目标用户的声源位置。这样，可以利用第一目标距离和水平角度的双重保证，准确定位声源位置，用以解决相关技术中，声源定位准确率低的问题。

Description

声源定位方法、装置、设备及存储介质

技术领域

本发明是涉及语音处理领域，尤其涉及一种声源定位方法、装置、设备及存储介质。

背景技术

随着人工智能语音技术的发展，很多场景中对人机语音交互的需求愈加强烈，例如：地图导航、景点介绍、购票机、零售智能导购等。然而，人机语音交互技术要在上述场景中成功应用，就需要在高度嘈杂的噪声环境中准确拾音。

目前，这些噪声主要有：人群说话噪声的泡沫噪声、购票人周围说话人造成的干扰噪声、人群移动产生的噪声、机器运动的机械噪声、高音喇叭的干扰音等等。这些高度嘈杂的噪声给语音识别带来了极大的挑战，严重影响了声源定位的准确率，从而降低了人机语言交互的准确性和体验感。

发明内容

本发明一个或多个实施例描述了一种声源定位方法、装置、设备及存储介质，用以解决相关技术中，声源定位准确率低的问题。

为了解决上述技术问题，本发明是这样实现的：

根据第一方面，提供了一种声源定位方法，该方法可以包括：

在拍摄设备获取的图像数据中，得到目标用户的发声部位；

根据发声部位与拍摄设备的深度距离以及预设距离，确定麦克风阵列与发声部位的第一目标距离；其中，预设距离为拍摄设备与麦克风阵列之间的距离；

基于第一目标距离和水平角度，得到目标用户的声源位置；其中，水平角度由目标用户与测距设备在水平方向上的第二目标距离和第一目标距离获得。

根据第二方面，提供了一种语音交互设备的交互实现方法，该方法包括：

利用语音交互设备的摄像头采集用户的人脸信息；

基于人脸信息分析得到的用户嘴型变化，确定用户为目标用户；

与目标用户进行交互。

根据第三方面，提供了一种声源定位装置，该装置可以包括：

获取模块，用于在拍摄设备获取的图像数据中，得到目标用户的发声部位；

确定模块，用于根据发声部位与拍摄设备的深度距离以及预设距离，确定麦克风阵列与发声部位的第一目标距离；其中，预设距离为拍摄设备与麦克风阵列之间的距离；

定位模块，用于基于第一目标距离和水平角度，得到目标用户的声源位置；其中，水平角度由目标用户与测距设备在水平方向上的第二目标距离和第一目标距离获得。

根据第四方面，提供了一种具有交互功能的大屏设备，其中，大屏设备包括摄像头、麦克风阵列和处理器；处理器用于控制摄像头和麦克风阵列实现第二方面所示的交互实现方法。

根据第五方面，提供了一种计算设备，设备包括至少一个处理器和存储器，存储器用于存储有计算机程序指令，处理器用于执行存储器的程序，以控制计算设备实现第一方面的声源定位方法和/或第二方面的语音交互设备的交互实现方法。

根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，若计算机程序在计算机中执行，则令计算机执行第一方面的声源定位方法和/或第二方面的语音交互设备的交互实现方法。

本发明实施例的方案中，利用拍摄设备与麦克风阵列的距离以及拍摄设备与发声部位的深度距离，确定麦克风阵列与发声部位的第一目标距离；并根据第一目标距离以及麦克风阵列与发声部位的水平角度，定位目标用户的声源位置。这样，可以利用第一目标距离和水平角度的双重保证，准确定位声源位置。其次，可以根据声源位置利用麦克风阵列定向接收声源位置的音频信号。这样，仅对目标用户的声源位置进行拾音，避免接收环境中的噪声信号，以得到更为准确的音频信号，从而保证人机语言交互的准确性，提高在人机语言交互过程中的用户体验感。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1示出根据一个实施例的声源定位方法的应用场景示意图；

图2示出根据一个实施例的声源定位方法的流程图；

图3示出根据一个实施例的一种确定发声部位的结构示意图；

图4示出根据一个实施例的一种确定第一目标距离的结构示意图；

图5示出根据一个实施例的一种确定水平角度的结构示意图；

图6为示出根据一个实施例的一种基于声源位置的声源信号获取方法的流程图；

图7为示出根据一个实施例的一种基于声源位置的声源信号追踪方法的流程图；

图8为示出根据一个实施例的基于声源位置的人机交互方法的流程图；

图9示出根据一个实施例的交互设备的交互实现方法的流程图；

图10示出根据一个实施例的声源定位装置的框图；

图11示出根据一个实施例的具有交互功能的大屏设备结构示意图；

图12示出根据一个实施例的计算设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种测量的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本发明实施例提供了一种声源定位方法、装置、设备及存储介质，具体如下所示。

第一：结合图1介绍一下本发明实施例提供声源定位方法的应用场景。

图1示出根据一个实施例的声源定位方法的应用场景示意图。

如图1所示，在用户想要了解某地区的相关介绍或者地图导航的情况时，可以通过该地区的志愿者或者园区工作人员进行问询。但是，有些地区会出现没有志愿者或者园区工作人员，以及问询人数较多的情况，此时，用户可以通过包含本发明实施例提供的声源定位系统10的服务设备20进行自主查询。在进行自主查询的过程中的关键点在于，如何通过声源定位系统10在相对嘈杂环境下对用户的声音进行准确拾音，以便服务设备根据接收到的音频信号进行语音识别，从而准确回复用户的问询。

由此，结合该应用场景，利用本发明实施例提供的声源定位系统10确定用户的声源位置以及基于声源位置进行准确拾音做进一步说明。

声源定位系统10可以包括：设置有拍摄设备11、麦克风阵列12和测距设备13的设备，例如包括拍摄设备11、麦克风阵列12和测距设备13的大屏设备、机器人、残疾人的辅助定位设备、对话服务器等。这里，仅以图1中示出拍摄设备11、麦克风阵列12和测距设备13之间的位置关系进行举例说明，并不对三者位置关系进行限定。

基于该声源定位系统10当用户出现在拍摄设备11的监控范围内时，通过拍摄设备11获取至少一个用户的图像数据，通过声源定位系统10对图像数据进行识别，得到目标用户(即至少一个用户中的用户1)的发声部位；接着，根据发声部位与拍摄设备11的深度距离以及拍摄设备11与麦克风阵列12之间的预设距离，确定麦克风阵列12与发声部位的第一目标距离；再者，基于第一目标距离以及声源定位系统10与用户之间的水平角度，得到与用户对应的准确声源位置。然后，利用麦克风阵列12定向接收声源位置的音频信号，以便服务设备根据接收到的音频信号进行语音识别，从而准确回复用户的问询。

其中，本发明实施例中拍摄设备11可以包括下述中的至少一种：3D摄像头、红外摄像头、实感3D摄像头、模拟高清摄像头。本发明实施例中测距设备13可以包括下述中的至少一种：红外水平测距感应器、激光测距仪、电磁波测距仪。

由此，利用拍摄设备与麦克风阵列的距离以及拍摄设备与发声部位的深度距离，确定麦克风阵列与发声部位的第一目标距离；并根据第一目标距离以及麦克风阵列与发声部位的水平角度，定位目标用户的声源位置。这样，可以利用第一目标距离和水平角度的双重保证，准确定位声源位置。

其次，可以根据声源位置利用麦克风阵列定向接收声源位置的音频信号。这样，仅对目标用户的声源位置进行拾音，避免接收环境中的噪声信号，以得到更为准确的音频信号，从而保证人机语言交互的准确性，提高在人机语言交互过程中的用户体验感。

另外，将准确定位声源位置以及对目标用户的声源位置进行准确拾音的方法应用到人机语言交互的场景中，可以替代人工，以减少人工成本。

需要提示的是，本发明实施例提供的声源定位系统10除了应用于上述的场景之外，还可以应用于用户通过取票机取票的场景、智能零售导购的场景、一些地区的残疾人的辅助定位的场景、交通工具枢纽站的查询交通信息的场景或者涉及人工智能语音技术应用的场景等。

这里，在声源定位系统10具体为对话服务器时，该对话服务器可以应用在教育、医疗等领域，可以通过对话服务器上的虚拟机器人与用户进行交流。在交流对象为多个时，可以通过终端设备以文本信息、音频信息的方式与多个对象同时进行交互。其中，本发明实施例中的交互方式包括但不限于通过语音、文字、视频等方式。

第二：基于上述涉及到的场景，本发明实施例提供了一种声源定位方法。下面结合附图2至附图5对本发明实施例提供的声源定位方法进行详细描述。

图2示出根据一个实施例的声源定位方法的流程图。

如图2所示，该方法可以包括步骤210至步骤230：首先，步骤210，在拍摄设备获取的图像数据中，得到目标用户的发声部位；其次，步骤220：根据发声部位与拍摄设备的深度距离以及预设距离，确定麦克风阵列与发声部位的第一目标距离；然后，步骤230：基于第一目标距离和水平角度，得到目标用户的声源位置。

下面分别对上述步骤进行详细说明：

首先，涉及步骤210：图像数据中可能会包括至少一个用户。

其中，一种可能的实例，在图像数据中仅包括一个用户时，将该用户确定为目标用户。

另一种可能的实例，在图像数据中包括多个用户时，可以采用如下方式在多个用户中确定目标用户：

分别确定多个用户的声源位置；分别接收多个声源位置的音频信号，并分析多个音频信号的关键信息；根据关键信息，在多个用户中确定目标用户。

在确定目标用户之后，为了确定目标用户的发声部位，本发明实施例提供以下方式。

接收拍摄设备拍摄的图像数据；根据图像数据通过人脸检测识别目标用户的嘴部区域，获得与嘴部区域对应的至少一个关键点；在获得的关键点为多个的情况下，根据多个关键点之间的位置关系，确定嘴部区域的中心点，将以中心点为中心的圆形区域作为目标用户的发声部位。

在一种可能的实施例中，通过人脸检测识别该图像数据中与目标用户的面部对应的至少一个关键点；根据面部对应的至少一个关键点，识别目标用户的嘴部区域。

这里，在根据面部对应的至少一个关键点中只有一个嘴部关键点代表嘴部区域时，将以嘴部关键点作为圆心，预设长度为半径的圆形区域作为目标用户的发声部位。

然而，为了确定更为精确的发声部位，本发明实施例还提供了在根据面部对应的至少一个关键点有多个嘴部关键点代表嘴部区域时，通过多个关键点确定目标用户的发声部位，现以4个关键点为例对该步骤进行详细说明，具体方式如下：

如图3所示，在拍摄设备为3D摄像头的情况下，读取3D摄像头拍摄的图像数据，并通过人脸检测识别获取图像数据中106个目标用户的面部关键点。在面部关键点中识别到与嘴部区域对应的4个关键点(本即图3中上嘴唇A点、右嘴角B点、下嘴唇C点和左嘴角D点)；在获得的关键点为4个的情况下，分别获取A与C点的第一连线以及B与D点的第二连线，计算第一连线和第二连线的交点X，将交点X确定为嘴部区域的中心点，将以X为圆心、X与A(或者X与B；或者X与C；或者X与D)的距离为半径的圆形区域作为目标用户的发声部位。

以上是本发明实施例提供的如何确定目标用户的发声部位的方式，下面介绍一下如何根据发声部位与拍摄设备的深度距离和预设距离，确定发声部位与麦克风阵列的第一目标距离。

涉及步骤220：本发明实施例中确定发声部位与拍摄设备的深度距离的方式可以如下所示。

在一种可能的实施例中，确定发声部位与拍摄设备的深度距离：

利用立体匹配算法和/或图像光度特征，分别计算发声部位中每个像素点与拍摄设备的距离；将多个像素点与拍摄设备的平均距离作为发声部位与拍摄设备的深度距离。在另一种可能的实施例中，预设距离为拍摄设备与麦克风阵列之间的距离。

由此，基于上述深度距离和预设距离，本发明实施例中确定麦克风阵列与发声部位的第一目标距离的方式可以如下所示：

如图4所示，接图3所示的例子，在拍摄设备和麦克风阵列的第一连线即预设距离A、麦克风阵列和发声部位的中心点X的第二连线即第一目标距离C、以及拍摄设备和中心点X的第三连线即深度距离B在同一平面形成直角三角形的情况下，根据深度距离B以及预设距离A，利用勾股定理确定第一目标距离C。

这里，本发明实施例为了清楚说明深度距离、预设距离以及第一目标距离之间的关系，采用了上述的例子进行说明。但是，在实际场景中，第一连线、第二连线以及第三连线不一定在一个平面上，此时，可以采用投影的方式将第一连线、第二连线以及第三连线转换为上述情况，再通过上述方式确定第一目标距离。

然后，涉及步骤230：水平角度由目标用户与测距设备在水平方向上的第二目标距离和第一目标距离获得。

在一种可能的实施例中，可以通过如下方式确定水平角度：利用测距设备测量目标用户与测距设备在水平方向上的第二目标距离；根据第一目标距离、第二目标距离和发声部位，确定发声部位与麦克风阵列的水平角度。这里，测距设备可以为红外水平测距感应器，该红外水平测距感应器的感应范围很小,通过红外水平测距感应器的红外测距阵列,实时感应目标用户所在水平位置及水平距离。

在另一种可能的实施例中，为了更为精确的获取发声部位与麦克风阵列的水平角度，可以结合嘴部区域进行详细说明，具体如下所示：

获取嘴部区域中上嘴唇的第一关键点和下嘴唇的第二关键点；其中，第一关键点、第二关键点和中心点的连线为发声部位的直径；根据第一关键点与中心点的距离以及第一目标距离，确定麦克风阵列与第一关键点之间的第三目标距离；根据第二关键点与中心点的距离以及第一目标距离，确定麦克风阵列与第二关键点之间的第四目标距离；第三目标距离、第四目标距离、发声部位以及第二目标距离，确定发声部位与麦克风阵列的水平角度。

举例说明：如图5所示，接图4所示的例子，上嘴唇的第一关键点为A，下嘴唇的第二关键点为C。这里，以发声部位为圆锥体的底面,将A、C和中心点X的连线确定为发声部位的直径；以麦克风阵列的位置作为圆锥体的顶点N；以第一目标距离为圆锥体的高度H。

这里，N到A的连线为麦克风阵列与A之间的第三目标距离，根据X到A的距离以及高度H，利用勾股定理确定N到A的距离。同理，N到C的连线为麦克风阵列与C之间的第四目标距离，根据X到C的距离以及高度H，利用勾股定理确定N到C的距离。通过N到A的距离、N到C的距离和发声部位，得到圆锥体侧面与底面之间的角度；根据该角度、发声部位以及第二目标距离，确定发声部位与麦克风阵列的水平角度。

本发明实施例通过步骤220中确定的第一目标距离以及步骤230中确定的水平角度，定位目标用户的声源信息。这样，可以利用第一目标距离和水平角度的双重保证，准确定位声源位置。

基于上述涉及到的声源定位方法，可以应用于下述应用场景中的至少一种场景中：声源信号获取的场景、声源信号追踪的场景、人机交互的场景。由此，本发明实施例结合附图6至附图8所示的三个实施例逐一对本发明实施例提供的声源定位方法进行详细描述。实施例1：将声源定位方法应用于声源信号获取的场景中。

图6为示出根据一个实施例的一种基于声源位置的声源信号获取方法的流程图。

如图6所示，该方法可以包括步骤610至步骤640：首先，步骤610，在拍摄设备获取的图像数据中，得到目标用户的发声部位；其次，步骤620：根据发声部位与拍摄设备的深度距离以及预设距离，确定麦克风阵列与发声部位的第一目标距离；接着，步骤630：基于第一目标距离和水平角度，得到目标用户的声源位置；然后，步骤640：根据声源位置利用麦克风阵列定向接收声源位置的音频信号。

下面分别对上述步骤进行详细说明：

步骤610至步骤630与上述图2中步骤210-步骤230所示的声源定位方法相同，在此不再赘述。

然后，涉及步骤640：通过步骤610至步骤630确定的声源位置，定向接收该声源位置的音频信号。这里，在一种实例中，定向接收可以表征针对声源位置接收音频信号，不接收声源位置之外的其他音频信号。

由此，可以根据声源位置利用麦克风阵列定向接收声源位置的音频信号。这样，仅对目标用户的声源位置进行拾音，避免接收环境中的噪声信号，以得到更为准确的音频信号，从而保证人机语言交互的准确性，提高在人机语言交互过程中的用户体验感。

实施例2：将声源定位方法应用于声源信号追踪的场景中。

图7为示出根据一个实施例的一种基于声源位置的声源信号追踪方法的流程图。

如图7所示，该方法可以包括步骤710至步骤750：步骤710，在拍摄设备获取的图像数据中，得到目标用户的发声部位；其次，步骤720，根据发声部位与拍摄设备的深度距离以及预设距离，确定麦克风阵列与发声部位的第一目标距离；接着，步骤730，基于第一目标距离和水平角度，得到目标用户的声源位置；再者，步骤740，根据声源位置利用麦克风阵列定向接收声源位置的音频信号；然后，步骤750，在目标用户发生位移，且目标用户在拍摄设备的监控范围内的情况下，通过拍摄设备对目标用户的声源位置进行实时追踪，并通过麦克风阵列持续定向接收声源位置的音频信号；直至目标用户移动出监控范围，停止接收声源位置的音频信号。

下面分别对上述步骤进行详细说明：

涉及步骤710至步骤740与上述图6中步骤610-步骤640所示的基于声源位置的声源信号获取方法相同，在此不再赘述。

然后，涉及步骤750：在一种可能的实施例中，目标用户可以在拍摄设备的监控范围内进行移动，由此，可以通过麦克风阵列持续定向接收目标用户的声源位置的音频信号；直至目标用户移动出监控范围或者无法对声源位置进行准确定位时，停止接收声源位置的音频信号。

进一步地，该步骤750可能会出现下述可能，对此分别进行说明：

(1)在目标用户移动出监控范围时，可以停止或者终止接收声源位置的音频信号；或者，暂停接收声源位置的音频信号，但在获取到目标用户的发声部位时，继续接收声源位置的音频信号。

(2)在目标用户在拍摄设备的监控范围内，且无法获取发声部位的情况下，暂停接收声源位置的音频信号，在获取到目标用户的发声部位时，继续接收声源位置的音频信号；或者，在未获取到目标用户的发声部位时，终止声源位置的音频信号。

由此，可以通过麦克风阵列实现持续定向接收目标用户的声源位置的音频信号，这样，目标用户无需在预设的固定位置才能进行人机语言交互，有效提高了目标用户在人机语言交互过程中的体验感。

实施例3：将声源定位方法应用于人机交互的场景中。

图8为示出根据一个实施例的基于声源位置的人机交互方法的流程图。

如图8所示，该方法可以包括步骤810至步骤840：首先，步骤810，在拍摄设备获取的图像数据中，获取目标用户的发声部位；其次，步骤820，根据发声部位与拍摄设备的深度距离以及预设距离，确定麦克风阵列与发声部位的第一目标距离；接着，步骤830，基于第一目标距离和水平角度，得到目标用户的声源位置；再者，步骤840，根据声源位置利用麦克风阵列定向接收声源位置的音频信号；接着，步骤850，在拍摄设备获取的图像数据中，确定人脸数据库中包括目标用户的图像数据；然后，步骤860，获取预设时间段内目标用户的声源位置的音频信号，并根据预设时间段内的音频信号中的交互信息与目标用户进行语音交互。

下面分别对上述步骤进行详细说明：

涉及步骤810至步骤840与上述图6中步骤610-步骤640所示的基于声源位置的声源信号获取方法相同，在此不再赘述。

在一种可能的是实施例中，在步骤850之前，还可以包括：建立人脸数据库。其中，可以根据拍摄设备多次获取的图像数据，得到多个用户的图像数据(例如：用户的人脸数据)，基于多个用户的图像数据构建人脸数据库。

接着，涉及步骤850：这里，通过拍摄设备获取当前图像数据，将图像数据中目标用户的图像数据与人脸数据库中存储的图像数据进行匹配。

在人脸数据库中包括目标用户的图像数据的情况下，获取预设时间段内目标用户的声源位置的音频信号。

举例说明：在目标用户发生位移，且从不在拍摄设备的监控范围到重新出现在拍摄范围的时间段在预设时间内(例如：10分钟)的情况下，在确定声源位置之后，可以获取目标用户与服务设备20(图1中所示)在历史人机交互过程中的历史交互信息，并基于历史交互信息与目标用户进行语音交互。

由此，对于同一个目标用户来说，无需对相同问题进行重复询问，服务设备20可以通过历史交互信息显示针对同一个目标用户询问的历史问题，在保护目标用户隐私的同时，提高了人机语音交互的效率，从而增强用户体验感。

这里，本发明实施例还提供了一种交互设备的交互实现方法，如图9所示，首先910，利用交互设备的摄像头采集用户的人脸信息；接着，步骤920，基于人脸信息分析得到的用户嘴型变化，确定用户为目标用户；然后，步骤930，与目标用户进行交互。

下面分别对上述步骤进行详细说明：

涉及步骤920，在一种可能的实施例中，基于至少一个用户中每个用户的人脸信息分析得到每个用户的嘴型变化；利用交互设备的麦克风阵列获取每个用户的音频信息；在用户的嘴型变化与音频信息相匹配时，确定用户为目标用户。

涉及步骤930，在一种可能的实施例中，根据目标用户与交互设备的第一目标距离，以及目标用户与交互设备中测距设备的水平角度，得到目标用户的声源位置；根据目标用户的声源位置与目标用户进行交互。

这里，在另一种可能的实施例中，在目标用户发生位移，且目标用户在摄像头的监控范围内的情况下，对目标用户进行实时追踪，且与目标用户进行交互。

另外，在又一种可能的实施例中，在步骤920中确定用户为目标用户之后，还可以包括，基于历史记录的用户图像信息，确定目标用户为历史交互的对象。基于此，根据历史交互信息继续与目标用户进行交互。

第三，本发明实施例还提供了与上述声源定位方法对应的声源定位装置的结构。下面结合图10进行详细说明。

图10示出根据一个实施例的声源定位装置的框图。

如图10所示，声源定位装置100可以具体包括：

获取模块1001，用于在拍摄设备获取的图像数据中，得到目标用户的发声部位；

确定模块1002，用于根据发声部位与拍摄设备的深度距离以及预设距离，确定麦克风阵列与发声部位的第一目标距离；其中，预设距离为拍摄设备与麦克风阵列之间的距离；

定位模块1003，用于基于第一目标距离和水平角度，得到目标用户的声源位置；其中，水平角度由目标用户与测距设备在水平方向上的第二目标距离和发声部位获得。

其中，该获取模块1001具体可以用于，通过人脸检测识别目标用户的嘴部区域，获得与嘴部区域对应的至少一个关键点；在获得的关键点为多个的情况下，根据多个关键点之间的位置关系，确定嘴部区域的中心点，将以中心点为中心的圆形区域作为目标用户的发声部位。

以及，该获取模块1001还可以用于，在图像数据包括多个用户的情况下，分别确定多个用户的声源位置；分别接收多个声源位置的音频信号，并分析多个音频信号的关键信息；根据关键信息，在多个用户中确定目标用户。

在一种可能的实例中，该确定模块1002还可以用于，利用测距设备测量目标用户与测距设备在水平方向上的第二目标距离；根据第一目标距离、第二目标距离和发声部位，确定发声部位与麦克风阵列的水平角度。进一步地，获取嘴部区域中上嘴唇的第一关键点和下嘴唇的第二关键点；其中，第一关键点、第二关键点和中心点的连线为发声部位的直径；根据第一关键点与中心点的距离以及第一目标距离，确定麦克风阵列与第一关键点之间的第三目标距离；根据第二关键点与中心点的距离以及第一目标距离，确定麦克风阵列与第二关键点之间的第四目标距离；第三目标距离、第四目标距离、以及第二目标给距离，确定发声部位与麦克风阵列的水平角度。

以及，该确定模块1002还可以用于，利用立体匹配算法和/或图像光度特征，分别计算发声部位中每个像素点与拍摄设备的距离；将多个像素点与拍摄设备的平均距离作为发声部位与拍摄设备的深度距离。

以及，该确定模块1002还可以用于，在拍摄设备和麦克风阵列的第一连线、麦克风阵列和发声部位的中心点的第二连线、以及拍摄设备和中心点的第三连线在同一平面形成直角三角形的情况下，根据深度距离以及预设距离，利用勾股定理确定第一目标距离。

另外，本发明实施例的声源定位装置100还可以包括追踪模块1004，用于根据声源位置利用麦克风阵列定向接收声源位置的音频信号。

以及，追踪模块1004还可以用于，在目标用户发生位移，且目标用户在拍摄设备的监控范围内的情况下，通过拍摄设备对目标用户的声源位置进行实时追踪，并通过麦克风阵列持续定向接收声源位置的音频信号；直至目标用户移动出监控范围，停止接收声源位置的音频信号。

本发明实施例的声源定位装置100还可以包括识别模块1005，用于在拍摄设备获取的图像数据中，确定人脸数据库中包括目标用户的图像数据；其中，人脸数据库由多个对象的图像数据获得，多个对象包括目标用户；获取预设时间段内目标用户的声源位置的音频信号，以根据预设时间段内的音频信号中的交互信息与目标用户进行语音交互。

由此，在本发明实施例的方案中，利用拍摄设备与麦克风阵列的距离以及拍摄设备与发声部位的深度距离，确定麦克风阵列与发声部位的第一目标距离；并根据第一目标距离以及麦克风阵列与发声部位的水平角度，定位目标用户的声源位置。这样，可以利用第一目标距离和水平角度的双重保证，准确定位声源位置。其次，可以根据声源位置利用麦克风阵列定向接收声源位置的音频信号。这样，仅对目标用户的声源位置进行拾音，避免接收环境中的噪声信号，以得到更为准确的音频信号，从而保证人机语言交互的准确性，提高在人机语言交互过程中的用户体验感。

基于上述一种交互设备的交互实现方法，本发明实施例提供了一种具有交互功能的大屏设备110，如图10所示，其中，该大屏设备包括摄像头1101、处理器1102和麦克风阵列1103；处理器1102用于控制摄像头1101和麦克风阵列1103实现如图9所示的交互实现方法。

第四，本发明实施例还提供了与上述声源定位方法对应计算设备的结构。下面结合图12进行详细说明。

图12示出根据一个实施例的计算设备的结构示意图。

如图12所示，能够实现根据本发明实施例声源定位方法和装置的计算设备的示例性硬件架构的结构图。

该设备可以包括处理器1201以及存储有计算机程序指令的存储器1202。

具体地，上述处理器1201可以包括中央处理器(CPU)，或者特定集成电路(application specific integrated circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器1202可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器1202可包括硬盘驱动器(hard disk drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，USB)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器1202可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器1202可在综合网关设备的内部或外部。在特定实施例中，存储器1202是非易失性固态存储器。在特定实施例中，存储器1202包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存，或者两个或及其以上这些的组合。

处理器1201通过读取并执行存储器1202中存储的计算机程序指令，以实现上述实施例中的任意一种声源定位方法。

收发器1203，主要用于实现本发明实施例中各装置或者与其他设备中的通信。

在一个示例中，该设备还可包括总线1204。其中，如图12所示，处理器1201、存储器1202和收发器1203通过总线1204连接并完成相互间的通信。

总线1204包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线1203可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

第五，本发明实施例还提供了与上述声源定位方法对应的计算机可读存储介质。在一种可能的实施例中，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行本发明实施例的声源定位方法的步骤。

需要明确的是，本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域的技术人员可以清楚地了解到，本发明的方法过程并不限于所描述和示出的具体步骤，任何熟悉本技术领域的技术人员在领会本发明的精神后，在本发明揭露的技术范围内作出各种改变、修改和添加，或者等效替换以及改变步骤之间的顺序，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种声源定位方法，其中，包括：

在拍摄设备获取的图像数据中，得到目标用户的发声部位；

根据所述发声部位与所述拍摄设备的深度距离以及预设距离，确定麦克风阵列与所述发声部位的第一目标距离；其中，所述预设距离为所述拍摄设备与所述麦克风阵列之间的距离；

基于所述第一目标距离和水平角度，得到所述目标用户的声源位置；其中，所述水平角度由所述目标用户与测距设备在水平方向上的第二目标距离和所述第一目标距离获得。

2.根据权利要求1所述的方法，其中，所述方法还包括：

利用所述测距设备测量所述目标用户与所述测距设备在水平方向上的第二目标距离；

根据所述第一目标距离、所述第二目标距离和所述发声部位，确定所述发声部位与所述麦克风阵列的水平角度。

3.根据权利要求2所述的方法，其中，所述得到目标用户的发声部位，包括：

通过人脸检测识别所述目标用户的嘴部区域，获得与所述嘴部区域对应的至少一个关键点；

在获得的关键点为多个的情况下，根据多个所述关键点之间的位置关系，确定所述嘴部区域的中心点，将以所述中心点为中心的圆形区域作为所述目标用户的发声部位。

4.根据权利要求3所述的方法，其中，根据所述第一目标距离、所述第二目标距离和所述发声部位，确定所述发声部位与所述麦克风阵列的水平角度，包括：

获取所述嘴部区域中上嘴唇的第一关键点和下嘴唇的第二关键点；其中，所述第一关键点、所述第二关键点和所述中心点的连线为所述发声部位的直径；

根据所述第一关键点与所述中心点的距离以及所述第一目标距离，确定所述麦克风阵列与所述第一关键点之间的第三目标距离；

根据所述第二关键点与所述中心点的距离以及所述第一目标距离，确定所述麦克风阵列与所述第二关键点之间的第四目标距离；

所述第三目标距离、所述第四目标距离、所述发声部位以及所述第二目标距离，确定所述发声部位与所述麦克风阵列的水平角度。

5.根据权利要求1所述的方法，其中，所述方法还包括：

在所述目标用户发生位移，且所述目标用户在所述拍摄设备的监控范围内的情况下，

通过所述拍摄设备对所述目标用户的声源位置进行实时追踪，并通过所述麦克风阵列持续定向接收所述声源位置的音频信号；直至所述目标用户移动出所述监控范围，停止接收所述声源位置的音频信号。

6.根据权利要求5所述的方法，其中，所述方法还包括：

在所述拍摄设备获取的图像数据中，确定人脸数据库中包括所述目标用户的图像数据；其中，所述人脸数据库由多个对象的图像数据获得，所述多个对象包括所述目标用户；

获取预设时间段内所述目标用户的声源位置的音频信号，以根据所述预设时间段内的音频信号中的交互信息与所述目标用户进行语音交互。

7.根据权利要求1所述的方法，其中，所述方法还包括：

在所述图像数据包括多个对象的情况下，分别确定所述多个对象的声源位置；

分别接收多个声源位置的音频信号，并分析多个音频信号的关键信息；

根据所述关键信息，在所述多个对象中确定所述目标用户。

8.根据权利要求1所述的方法，其中，所述方法还包括：

利用立体匹配算法和/或图像光度特征，分别计算所述发声部位中每个像素点与所述拍摄设备的距离；

将多个像素点与所述拍摄设备的平均距离作为所述发声部位与所述拍摄设备的深度距离。

9.根据权利要求1所述的方法，其中，所述确定麦克风阵列与所述发声部位的第一目标距离，包括：

在所述拍摄设备和所述麦克风阵列的第一连线、所述麦克风阵列和所述发声部位的中心点的第二连线、以及所述拍摄设备和所述中心点的第三连线在同一平面形成直角三角形的情况下，

根据所述深度距离以及所述预设距离，利用勾股定理确定所述第一目标距离。

10.根据权利要求1所述的方法，其中，还包括：

根据所述声源位置利用所述麦克风阵列定向接收所述声源位置的音频信号。

11.一种交互设备的交互实现方法，其中，包括：

利用所述交互设备的摄像头采集用户的人脸信息；

基于所述人脸信息分析得到的用户嘴型变化，确定所述用户为目标用户；

与所述目标用户进行交互。

12.根据权利要求11所述的方法，其中，基于所述人脸信息分析得到的用户嘴型变化，确定所述用户为目标用户，包括：

基于至少一个用户中每个用户的人脸信息分析得到每个用户的嘴型变化；

利用所述交互设备的麦克风阵列获取所述每个用户的音频信息；

在所述用户的嘴型变化与所述音频信息相匹配时，确定所述用户为目标用户。

13.根据权利要求11或12所述的方法，其中，与所述目标用户进行交互，包括：

根据所述目标用户与所述交互设备的第一目标距离，以及所述目标用户与所述交互设备中测距设备的水平角度，得到目标用户的声源位置；

根据所述目标用户的声源位置与所述目标用户进行交互。

14.根据权利要求11所述的方法，其中，与所述目标用户进行交互，包括：

在所述目标用户发生位移，且所述目标用户在所述摄像头的监控范围内的情况下，

对所述目标用户进行实时追踪，且与所述目标用户进行交互。

15.根据权利要求11或14所述的方法，其中，与所述目标用户进行交互，包括：

在基于历史记录的用户图像信息，确定所述目标用户为历史交互的对象时，根据历史交互信息继续与所述目标用户进行交互。

16.一种具有交互功能的大屏设备，其中，所述大屏设备包括摄像头、麦克风阵列和处理器；所述处理器用于控制所述摄像头和所述麦克风阵列实现如权利要求11-15任意一项所述的交互实现方法。

17.一种声源定位装置，其中，包括：

确定模块，用于根据所述发声部位与所述拍摄设备的深度距离以及预设距离，确定麦克风阵列与所述发声部位的第一目标距离；其中，所述预设距离为所述拍摄设备与所述麦克风阵列之间的距离；

定位模块，用于基于所述第一目标距离和水平角度，得到所述目标用户的声源位置；其中，所述水平角度由所述目标用户与测距设备在水平方向上的第二目标距离和所述第一目标距离获得。

18.一种计算设备，其中，所述设备包括至少一个处理器和存储器，所述存储器用于存储有计算机程序指令，所述处理器用于执行所述存储器的所述程序，以控制所述计算机设备实现如权利要求1-10或11-15任意一项所述的声源定位方法。

19.一种计算机可读存储介质，其上存储有计算机程序，其中，若所述计算机程序在计算机中执行，则令计算机执行权利要求1-10或11-15任意一项所述的声源定位方法。