CN110082723A

CN110082723A - 一种声源定位方法、装置、设备及存储介质

Info

Publication number: CN110082723A
Application number: CN201910406107.9A
Authority: CN
Inventors: 陈烈
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-08-02
Anticipated expiration: 2039-05-16
Also published as: CN110082723B

Abstract

本发明提供了一种声源定位方法、装置、设备及存储介质，属于音视频信号处理技术领域。本发明提供的声源定位方法、装置、设备及存储介质，在根据接收到的语音信号初步判定当前发言对象所在的方位之后，可以根据从图像采集器采集的图像中提取的对象的外貌特征或动作信息，进一步确定当前发言对象所在的确切方位，实现精准定位，提高定位的准确性，以便更准确地将发言对象置于播放画面的中间位置，使观众能够更清楚地观看到发言对象。

Description

一种声源定位方法、装置、设备及存储介质

技术领域

本发明涉及音视频信号处理技术领域，尤其涉及一种声源定位方法、装置、设备及存储介质。

背景技术

目前，声源定位技术在安全部门的监控识别系统、视频会议系统、多媒体系统以及机器人等领域的应用非常广泛。例如，在视频会议系统中，可以通过声源定位技术对确定发言对象的位置，以控制摄像头转向发言对象，对发言对象进行跟踪，并实时显示发言对象的发言视频。

现有的声源定位的基本流程一般如下：首先利用一定的接收器检测并采集声音信号，对采集的声音信号进行预处理，以改善声音信号的质量。从处理后的声音信号中提取可以利用的方位特征，然后进行比较和分析，最终确定声源所在方位，控制摄像头采集声源所在方位的图像，即可捕捉到发言对象的图像。

但是，依赖对声音信号的分析来确定声源方位的方式，在低信噪比和高混响环境下容易发生误判。

发明内容

本发明实施例提供一种声源定位方法、装置、设备及存储介质，用以解决现有技术中存在的仅依赖对声音信号的分析来确定声源方位容易发生误判的问题。

本发明实施例提供的具体技术方案如下：

第一方面，本发明实施例提供了一种声源定位方法，包括：

根据接收到的语音信号初步判定当前发言对象所在的方位；

从图像采集器采集的所述初步判定的方位对应的图像中提取对象的外貌特征和/或动作信息；

根据提取的所述外貌特征和/或所述动作信息，确定所述当前发言对象所在的确切方位。

上述声源定位方法，在根据接收到的语音信号初步判定当前发言对象所在的方位之后，可以根据从图像采集器采集的图像中提取的对象的外貌特征和/或动作信息，进一步确定当前发言对象所在的确切方位。该方法即使在低信噪比和高混响环境下也可以实现精准定位，提高定位的准确性。

在一种可能的实现方式中，根据提取的所述外貌特征确定所述当前发言对象所在的确切方位的步骤，包括：

若所述图像包含多个对象的外貌特征，从所述多个对象中确定目标对象，其中，所述目标对象为对应的外貌特征与所述当前发言对象绑定的外貌特征匹配的对象；

根据所述目标对象在图像中的位置确定所述当前发言对象所在的确切方位。

上述方法中，可以预存一个或多个对象的外貌特征，每个对象均与对应的外貌特征绑定。在已知当前发言对象的身份的情况下，获取与当前发言对象绑定的外貌特征，从图像中包含的多个对象的外貌特征中选择与当前发言对象绑定的外貌特征匹配的外貌特征对应的对象确定为目标对象，根据目标对象在图像中的位置确定当前发言对象所在的确切方位，从而根据对象的外貌特征进行识别，从多个对象中确定当前发言对象，实现进一步地精确定位。

在一种可能的实现方式中，可以通过下列方式确定与当前发言对象绑定的外貌特征：

对接收到的语音信号进行声纹识别，确定所述当前发言对象的身份；

根据所述当前发言对象的身份，确定与所述当前发言对象绑定的外貌特征。

上述方法中，可以根据接收到的语音信号，确定当前发言对象的身份，根据当前发言对象的身份，从预存的多个外貌特征中提取出与当前发言对象绑定的外貌特征，然后与图像中包含的多个对象的外貌特征进行比对，从多个对象中确定当前发言对象，该方法可以准确地确定当前发言对象，从而进行精确定位。

在一种可能的实现方式中，若所述外貌特征为人脸特征，则所述动作信息为通过所述人脸特征确定的唇部行为信息；或

若所述外貌特征为体形特征，则所述动作信息为通过所述体形特征确定的姿态信息。

上述方法中，可以先对图像进行人脸检测，如果检测到图像中包含多个对象的人脸特征时，根据人脸特征获取每个对象的唇部行为信息，通过唇部行为信息确定当前发言对象；或者，先对图像进行人体检测，如果检测到图像中包含多个对象的体形特征时，根据体形特征获取每个对象的姿态信息，通过姿态信息确定当前发言对象，从而进行精确定位。

在一种可能的实现方式中，从图像采集器采集的所述初步判定的方位对应的图像中提取对象的外貌特征和/或动作信息的步骤，包括：

通过预先训练好的神经网络模型从图像中提取对象的外貌特征和/或动作信息；所述神经网络模型包括以下至少之一：人脸检测模型、人体检测模型、唇部行为检测模型、姿态检测模型。

上述方法中，通过预先训练好的神经网络模型从图像中提取对象的外貌特征和/或动作信息，可以准确地从图像中提取对象的外貌特征和/或动作信息。

在一种可能的实现方式中，所述外貌特征包括人脸特征和体形特征；

根据提取的所述外貌特征和所述动作信息，确定所述当前发言对象所在的确切方位的步骤，包括：

通过所述图像包含的多个对象的人脸特征确定每个对象的唇部行为信息，以及通过所述图像包含的体形特征确定每个对象的姿态信息；

针对任意一个所述图像包含的对象，根据所述对象的人脸特征、所述对象的体形特征、所述对象的唇部行为信息和所述对象的姿态信息以及各自对应的权重系数，确定所述对象对应的发言概率值；

将最大的所述发言概率值对应的对象或所述发言概率值大于设定阈值的对象作为当前发言对象。

上述方法中，综合考虑了各个对象的人脸特征、体形特征、唇部行为信息和姿态信息，预先为各类特征或信息配置了不同的权重系数，根据对象的人脸特征、体形特征、唇部行为信息和姿态信息以及各自对应的权重系数，确定该对象对应的发言概率值，可以更准确地确定当前发言对象。

在一种可能的实现方式中，根据接收到的语音信号初步判定当前发言对象所在的方位的步骤，包括：

确定麦克风阵列中每两个麦克风接收到相同语音信号的时间差信息，并根据确定的所述时间差信息生成时间差信息集合；

根据时间差信息集合与声源方位信息的对应关系，确定生成的所述时间差信息集合对应的声源方位信息；

根据确定的声源方位信息初步判定当前发言对象所在的方位。

上述方法中，根据麦克风阵列中每两个麦克风接收到相同语音信号的时间差信息生成的时间差信息集合，确定声源方位信息，根据声源方位信息初步判定当前发言对象所在的方位，可以节约程序，快速地完成初步判定当前发言对象所在的方位的步骤。

第二方面，本发明实施例提供了一种声源定位设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

根据接收到的语音信号初步判定当前发言对象所在的方位；

从所述图像采集器采集的所述初步判定的方位对应的图像中提取对象的外貌特征和/或动作信息；

进一步地，所述处理器具体用于：

进一步地，若所述外貌特征为人脸特征，则所述动作信息为通过所述人脸特征确定的唇部行为信息；或

进一步地，所述处理器具体用于：

进一步地，所述外貌特征包括人脸特征和体形特征；

所述处理器具体用于：

进一步地，所述处理器具体用于：

第三方面，本发明实施例提供了一种声源定位装置，包括：

第一定位模块，用于根据接收到的语音信号初步判定当前发言对象所在的方位；

特征提取模块，用于从所述图像采集器采集的所述初步判定的方位对应的图像中提取对象的外貌特征和/或动作信息；

第二定位模块，用于根据提取的所述外貌特征和/或所述动作信息，确定所述当前发言对象所在的确切方位。

进一步地，所述第二定位模块还用于：

进一步地，所述特征提取模块还用于：通过预先训练好的神经网络模型从图像中提取对象的外貌特征和/或动作信息；所述神经网络模型包括以下至少之一：人脸检测模型、人体检测模型、唇部行为检测模型、姿态检测模型。

进一步地，所述外貌特征包括人脸特征和体形特征；所述第二定位模块还用于：

进一步地，所述第一定位模块还用于：

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面中任意一种声源定位方法的步骤。

第二方面至第四方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种声源定位方法的流程示意图；

图2为本发明实施例中一种图像采集器采集的图像的示意图；

图3为本发明实施例中另一种图像采集器采集的图像的示意图；

图4为本发明实施例提供的另一种声源定位方法的流程示意图；

图5为本发明实施例提供的另一种声源定位方法的流程示意图；

图6为本发明实施例提供的另一种声源定位方法的流程示意图；

图7为本发明实施例提供的一种声源定位设备的结构框图；

图8为本发明实施例提供的另一种声源定位装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，下述本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

为了解决现有技术中单纯依靠声音进行定位，定位准确度较低的技术问题，本发明实施例提供了一种声源定位方法、装置、设备及存储介质。该声源定位方法可以应用于监控识别系统、视频会议系统或者多媒体系统中。下述各实施例主要以视频会议系统为例进行说明，视频会议系统可以包括设置在会场中的声音采集器、图像采集器、显示屏以及用于协调所述声音采集器、图像采集器和显示屏工作的声源定位装置。其中，声音采集器用于采集会场的声音，主要是发言对象的语音信号，声音采集器可以采用麦克风阵列，也可以是设置在会场不同位置的多个麦克风。图像采集器用于采集会场中的图像，主要是包含发言对象的图像。通过本发明实施例提供的声源定位方法，声源定位装置可以控制图像采集器将发言对象置于显示屏的显示画面的中间位置，以便观众可以清楚地观看发言对象的发言情况。

在一个实施例中，提供了一种声源定位方法，如图1所示，该方法包括如下步骤：

步骤S100，根据接收到的语音信号初步判定当前发言对象所在的方位。

接收到声音采集器采集的语音信号，可以基于接收到的语音信号，采用声源定位算法初步判定当前发言对象所在的方位。

其中，声音采集器可以是麦克风阵列或安装在不同位置的多个麦克风。例如，可以根据语音信号到达各个麦克风的时间延迟和各个麦克风的位置信息初步判定当前发言对象所在的方位。

步骤S101，从图像采集器采集的初步判定的方位对应的图像中提取对象的外貌特征和/或动作信息。

可选地，可以控制图像采集器转向初步判定的方位，获取图像采集器采集的图像；或者，图像采集器采集的是广角图像，可以从图像采集器采集的广角图像中截取初步判定的方位对应的图像，从图像中提取对象的外貌特征和/或动作信息。可以通过预先训练好的神经网络模型从图像中提取对象的外貌特征和/或动作信息。所述外貌特征可以包括人脸特征和/或体形特征。可以通过人脸检测模型从图像中提取对象的人脸特征，可以通过人体检测模型从图像中提取对象的体形特征。所述动作信息可以包括唇部行为信息和/或姿态信息。可以通过唇部行为检测模型基于对象的人脸特征确定对象的唇部行为信息，可以通过姿态检测模型基于对象的体形特征确定对象的姿态信息。

上述的“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

步骤S102，根据提取的外貌特征和/或动作信息，确定当前发言对象所在的确切方位。

本发明实施例提供的声源定位方法，在根据接收到的语音信号初步判定当前发言对象所在的方位之后，可以根据从图像采集器采集的图像中提取的对象的外貌特征和/或动作信息，进一步确定当前发言对象所在的确切方位。该方法即使在低信噪比和高混响环境下也可以实现精准定位，提高定位的准确性，以便更准确地将发言对象置于播放画面的中间位置，使观众能够更清楚地观看到发言对象。

在一种可选的实施例中，可以通过预先训练好的人脸检测模型从图像中提取对象的人脸特征。人脸检测模型可以采用如下方法训练：获取训练人脸检测模型使用的训练样本集；所述训练样本集包括多张包含人脸的训练图像，每张训练图像中均包含预先经过人工标注的人脸特征标注。采用训练样本集对人脸检测模型进行训练，从训练样本集中随机选择训练图像，将训练图像输入人脸检测模型，得到人脸检测模型输出的人脸特征，将人脸检测模型输出的人脸特征与训练图像中的人脸特征标注进行对比，确定损失值。基于损失值对人脸检测模型进行训练。通常，损失值是判定实际的输出与期望的输出的接近程度。损失值越小，说明实际的输出越接近期望的输出。可以采用反向传播算法，根据损失值调整人脸检测模型的参数，直至损失值收敛至预设的期望值时，完成对人脸检测模型的训练，获得训练好的人脸检测模型。

在一种可选的实施例中，可以通过预先训练好的人体检测模型从图像中提取对象的体形特征。人体检测模型可以采用如下方法训练：获取训练人体检测模型使用的训练样本集；所述训练样本集包括多张包含人体的训练图像，每张训练图像中均包含预先经过人工标注的人体特征标注。采用训练样本集对人体检测模型进行训练，从训练样本集中随机选择训练图像，将训练图像输入人体检测模型，得到人体检测模型输出的体形特征，将人体检测模型输出的体形特征与训练图像中的人体特征标注进行对比，确定损失值。基于损失值对人体检测模型进行训练。具体地，可以采用反向传播算法，根据损失值调整人体检测模型的参数，直至损失值收敛至预设的期望值时，完成对人体检测模型的训练，获得训练好的人体检测模型。

在一种可选的实施例中，可以通过唇部行为检测模型确定图像中包含的对象的唇部行为信息。唇部行为检测模型可以采用如下方法训练：获取训练唇部行为检测模型使用的训练样本集；所述训练样本集包括多张包含人脸的视频图像，通过人工标注的方式在每段视频图像中生成唇部行为信息标注。采用训练样本集对唇部行为检测模型进行训练，从训练样本集中随机选择视频图像，将视频图像输入唇部行为检测模型，得到唇部行为检测模型输出的唇部行为信息，将唇部行为检测模型输出的唇部行为信息与视频图像中的唇部行为信息标注进行对比，确定损失值。基于损失值对唇部行为检测模型进行训练。具体地，可以采用反向传播算法，根据损失值调整唇部行为检测模型的参数，直至损失值收敛至预设的期望值时，完成对唇部行为检测模型的训练，获得训练好的唇部行为检测模型。

在一种可选的实施例中，可以通过姿态检测模型确定图像中包含的对象的姿态信息。姿态检测模型可以采用如下方法训练：获取训练姿态检测模型使用的训练样本集；所述训练样本集包括多张包含人体的视频图像，通过人工标注的方式在每段视频图像中生成姿态信息标注。采用训练样本集对姿态检测模型进行训练，从训练样本集中随机选择视频图像，将视频图像输入姿态检测模型，得到姿态检测输出的姿态信息，将姿态检测模型输出的姿态信息与视频图像中的姿态信息标注进行对比，确定损失值。基于损失值对姿态检测模型进行训练。具体地，可以采用反向传播算法，根据损失值调整姿态检测模型的参数，直至损失值收敛至预设的期望值时，完成对姿态检测的训练，获得训练好的姿态检测模型。

在一些实施例中，如果图像中包含多个对象的外貌特征，可以根据外貌特征确定当前发言对象所在的确切方位。譬如，可以根据外貌特征从该图像包含的多个对象中确定目标对象，其中，目标对象为对应的外貌特征与当前发言对象绑定的外貌特征匹配的对象。根据目标对象在图像中的位置确定当前发言对象所在的确切方位。具体地说，可以预存一个或多个对象的外貌特征，每个对象均与对应的外貌特征绑定。在已知当前发言对象的身份的情况下，可以获取与当前发言对象绑定的外貌特征，从图像中包含的多个对象的外貌特征中选择与当前发言对象绑定的外貌特征匹配的外貌特征对应的对象确定为目标对象，该目标对象即为当前发言对象。根据目标对象在图像中的位置确定当前发言对象所在的确切方位，实现进一步地精确定位。

例如，可以预存一个或多个对象的人脸特征，每个对象均与对应的人脸特征绑定。在一场会议中，用户可以预先获知发言对象的身份，将发言对象的身份输入声源定位装置中。在已知当前发言对象的身份的情况下，声源定位装置可以获取与当前发言对象绑定的人脸特征，将图像中包含的多个对象的人脸特征与从底库中获取的人脸特征进行比对，从图像中包含的多个对象的人脸特征中选择与当前发言对象绑定的人脸特征匹配的人脸特征对应的对象确定为目标对象，该目标对象即为当前发言对象。

在一种可选的实施例中，还可以对接收到的语音信号进行声纹识别，确定当前发言对象的身份。根据当前发言对象的身份，确定与当前发言对象绑定的外貌特征。例如，根据当前发言对象的身份，从预存的多个外貌特征中提取出与当前发言对象绑定的外貌特征。然后与图像中包含的多个对象的外貌特征进行比对，从多个对象中确定当前发言对象。

在另一些实施例中，如果图像中包含多个对象的外貌特征，可以根据图像中对象的动作信息确定当前发言对象所在的确切方位。譬如，可以根据图像中多个对象的动作信息，从多个对象中确定当前发言对象；根据当前发言对象在图像中的位置确定当前发言对象所在的确切方位。其中，若外貌特征为人脸特征，则动作信息可以是通过人脸特征确定的唇部行为信息；若外貌特征为体形特征，则动作信息可以是通过体形特征确定的姿态信息。

第一种可实现方式为：先对图像进行人脸检测，如果检测到图像中包含多个对象的人脸特征时，根据人脸特征获取每个对象的唇部行为信息，通过唇部行为信息确定当前发言对象，根据当前发言对象在图像中的位置确定当前发言对象所在的确切方位。例如，如图2所示，在图像采集器采集的图像中，会议桌边坐着多个人，此时可以检测到图像中包含多个人的人脸特征，根据人脸特征可以获取每个人的唇部行为信息，通过唇部行为信息确定当前发言对象。

可选地，可以根据某个对象的唇部行为信息确定该对象是否正在发言的发言概率值，将发言概率值最大的对象作为当前发言对象。进一步地说，唇部行为信息可以显示唇部是否具有开合动作，如果某个对象的唇部具有开合动作，说明该对象正在发言。例如，对于一张人脸的图像，嘴唇的颜色与脸部其它部位的颜色会有明显区别。对于任意一个对象，根据对象的人脸特征中嘴唇颜色与脸部其它部位颜色之间的差异可以获取嘴唇轮廓，并确定上下唇的位置和上下唇之间的间隙的面积，根据上下唇之间的间隙的面积在视频的连续帧中的差异超过设定阈值时，可以认为该对象的唇部具有开合动作；或者，根据上下唇之间的间隙的面积在视频的连续帧中的差异可以计算出该对象的发言概率值，将发言概率值最大的对象或发言概率值大于设定阈值的对象作为当前发言对象。

第二种可实现方式为：先对图像进行人体检测，如果检测到图像中包含多个对象的体形特征时，根据体形特征获取每个对象的姿态信息，通过姿态信息确定当前发言对象，根据当前发言对象在图像中的位置确定当前发言对象所在的确切方位。

可选地，可以根据某个对象的姿态信息确定该对象是否正在发言的发言概率值，将发言概率值最大的对象作为当前发言对象。例如，姿态信息可以包括对象的手臂是否动作等，一般情况下，如图3所示，发言者都会通过手臂动作配合其讲话的内容和节奏。如果某个对象的手臂动作，说明该对象正在发言。对于任意一个对象，根据对象的体形特征获取其手臂的位置和姿态，根据手臂的位置和姿态在视频的连续帧中的差异可以计算出该对象的发言概率值，将发言概率值最大的对象或发言概率值大于设定阈值的对象作为当前发言对象。

第三种可实现方式为：若从图像获取的外貌特征包括人脸特征和体形特征，则根据图像中多个对象的动作信息，从多个对象中确定当前发言对象的步骤，可以包括：通过图像包含的多个对象的人脸特征确定每个对象的唇部行为信息，以及通过图像包含的体形特征确定每个对象的姿态信息；针对任意一个所述图像包含的对象，根据该对象的人脸特征、该对象的体形特征、该对象的唇部行为信息和该对象的姿态信息以及各自对应的权重系数，确定该对象对应的发言概率值；将最大的发言概率值对应的对象或发言概率值大于设定阈值的对象作为当前发言对象。该实施方式综合考虑了人脸特征、体形特征、唇部行为信息和姿态信息四个因素的影响，可以更准确地确定当前发言对象。

在上述实施例的基础上，本发明实施例还提供了一种声源定位方法的具体实施例，在该实施例中，声音采集器可以采用图2所示的麦克风阵列1。如图4所示，该方法包括如下步骤：

步骤S400，接收麦克风阵列中的多个麦克风采集的声音信号。

步骤S401，分别对每个声音信号进行预处理和端点检测，得到每个声音信号对应的语音信号。

其中，对声音信号进行的预处理可以包括分帧处理、加窗处理和傅里叶变换(FFT)。通常语音信号具有短时平稳性，因此可以将接收到的声音信号分为短段来进行处理，即分帧处理。每一个短段可以称为一帧，每一帧的长度可以在20ms～30ms之间。为了避免在加窗处理时出现信号失真，在进行分帧处理时，相邻两帧之间可以相互重叠一部分。加窗处理指将每一帧声音信号与窗函数相乘，使原来没有周期性的声音信号呈现出周期函数的部分特征。对加窗处理后的声音信号进行傅里叶变换，可以得到所述声音信号对应的频域特性。

在声音信号处理过程中，端点检测用于在包含噪声的声音信号中确定出语音信号的起始点和终止点，从而可以从声音信号中提取出有效的语音信号，得到声音信号对应的语音信号。例如，可以采用通用的短时能量法或过零率法进行端点检测。

步骤S402，根据得到的语音信号初步判定当前发言对象所在的方位。

为了在程序执行过程中可以更快速地得到初步判定的方位，可以在会场中安装好麦克风阵列后，预先进行测试，确定每组时间差信息集合与声源所在方位之间的对应关系，其中，每组时间差信息集合中包括多个时间差信息，每个时间差信息为语音信号到达麦克风阵列中指定的两个麦克风接收到相同语音信号的时间差。例如，假设麦克风阵列包括四个麦克风，四个麦克风任意两两组合共有六种组合方式，因此，每组时间差信息集合中包括六个时间差信息，每组时间差信息集合对应一个声源方位信息。可以将经测试确定的时间差信息集合与声源方位信息的对应关系存储至对应关系列表中。

表1时间差信息集合与声源方位信息的对应关系列表

在一种可选的实施例中，对应关系列表如表1所示。麦克风阵列包括四个麦克风分别为麦克风a、麦克风b、麦克风c和麦克风d。每组时间差信息集合中包括六个时间差信息，每组时间差信息集合中的六个时间差信息的排列顺序相同，均按预先指定的顺序排列。其中，第一个时间差信息为麦克风a与麦克风b接收到相同语音信号的时间差信息，第二个时间差信息为麦克风a与麦克风c接收到相同语音信号的时间差信息，第三个时间差信息为麦克风a与麦克风d接收到相同语音信号的时间差信息，第四个时间差信息为麦克风b与麦克风c接收到相同语音信号的时间差信息，第五个时间差信息为麦克风b与麦克风d接收到相同语音信号的时间差信息，第六个时间差信息为麦克风c与麦克风d接收到相同语音信号的时间差信息。在对应关系列表中，每个声源方位信息可以包括在0°～360°范围内的方向角和在0°～90°范围内的俯仰角。

在根据语音信号初步判定当前发言对象所在的方位时，可以确定麦克风阵列中每两个麦克风接收到相同语音信号的时间差信息，并根据确定的所述时间差信息生成时间差信息集合；根据时间差信息集合与声源方位信息的对应关系，确定生成的时间差信息集合对应的声源方位信息，根据确定的声源方位信息初步判定当前发言对象所在的方位。

例如，对于上述的麦克风阵列，确定麦克风阵列中每两个麦克风接收到相同语音信号的时间差信息，共得到六个时间差信息。根据六个时间差信息生成时间差信息集合，具体地，可以按照预定的顺序生成时间差信息集合，该预定的顺序与表1所示的各组时间差信息集合中时间差信息的顺序相同。假设生成的时间差信息集合为{1us,1us,3us,5us,3us,2us,1us}，在预存的时间差信息集合与声源方位信息的对应关系中，查找与生成的时间差信息集合相匹配的时间差信息集合。在表1中可以查找到集合2与生成的时间差信息集合相匹配，从而将集合2对应的声源方位信息—方位2确定为初步判定的当前发言对象所在的方位。

在上述举例中，检测到的六个时间差信息生成的时间差信息集合与预存的对应关系列表中的集合2完全一致，因此可以将集合2对应的声源方位信息初步判定为当前发言对象所在的方位。如果检测到的六个时间差信息生成的时间差信息集合与预存的对应关系列表中的时间差信息集合并不是完全一致，例如，生成的时间差信息集合的六个时间差信息中有五个时间差信息与预存的对应关系列表中的某个集合中对应的时间差信息一致，剩余的一个时间差信息与该集合中对应的时间差信息的差值在设定阈值之内，也可以认为生成的时间差信息集合与预存的对应关系列表中的该集合相匹配。即如果生成的时间差信息集合与预存的对应关系列表中的任意一个时间差信息集合相比，两者所包含的时间差信息中对应一致的时间差信息的比例大于等于设定比例，并且对应不一致的时间差信息之间的差值在设定阈值之内，则可以认为两者相匹配。其中，对应一致的时间差信息指生成的时间差信息集合与预存的时间差信息集合处于相同位置的时间差信息的大小相同。对应不一致的时间差信息生成的时间差信息集合与预存的时间差信息集合处于相同位置的时间差信息的大小不同。

如果根据上述规则判断得到生成的时间差信息集合与预存的对应关系列表中的多组时间差信息集合相匹配，则从所述多组时间差信息集合中选择与生成的时间差信息集合包含对应一致的时间差信息的数量最多的一组时间差信息集合作为与生成的时间差信息集合相匹配的时间差信息集合。

表2时间差信息集合与声源方位信息的对应关系列表

在另一种可选的实施例中，对应关系列表如表2所示。麦克风阵列包括三个麦克风分别为麦克风a、麦克风b和麦克风c。对应关系列表中包括多组时间差信息集合，每组时间差信息集合对应一个声源方位信息。每组时间差信息集合中包括三组时间差信息，每组时间差信息包括两个麦克风接收到相同语音信号的时间差和所述两个麦克风的标识。

在根据语音信号初步判定当前发言对象所在的方位时，确定麦克风阵列中每两个麦克风接收到相同语音信号的时间差信息，共得到三组时间差信息。根据得到的三组时间差信息生成时间差信息集合。假设生成的时间差信息集合为{(ac,3us),(ab,2us),(cb,1us)}，在预存的时间差信息集合与声源方位信息的对应关系中，查找与生成的时间差信息集合相匹配的时间差信息集合。在表2中可以查找到集合1与生成的时间差信息集合相匹配，从而将集合1对应的声源方位信息—方位1确定为初步判定的当前发言对象所在的方位。由于每组时间差信息中包含了麦克风的标识，因此时间差信息集合中的时间差信息的排列顺序可以相互调换。如上述举例中，虽然生成的时间差信息集合中时间差信息的排列顺序与预存的对应关系列表中的集合1的顺序并不相同，但由时间差信息中的麦克风标识可以确定，生成的时间差信息集合与对应关系列表中的集合1完全一致，因此集合1与生成的时间差信息集合相匹配。

在表2对应的实施例中，判断预存的对应关系列表中的任一时间差信息集合与生成的时间差信息集合是否匹配的判断规则可以参照上述表1对应的实施例执行，在此不再赘述。

通过上述方法，在根据语音信号初步判定当前发言对象所在的方位时，可以根据检测到的时间差信息集合，通过查询的方式确定声源方位信息，进而初步判定当前发言对象所在的方位。该方法减少了根据时间差信息计算声源方位信息的步骤，可以节约程序；通过查找预先存储的对应关系，可以快速准确地完成初步判定当前发言对象所在的方位的步骤。

步骤S403，获取图像采集器采集的初步判定的方位对应的图像。

步骤S404，检测图像中是否包含对象的外貌特征；如果是，执行步骤S405；如果否，返回执行步骤S400。

可选地，上述外貌特征可以是人脸特征或体形特征。例如，对获取的图像进行人脸检测，如果检测到图像中包含人脸特征，则说明图像中包含对象的外貌特征，如果在图像中没有检测到人脸特征，则说明图像中不包含对象的外貌特征；或者，对获取的图像进行人体检测，如果检测到图像中包含人体的体形特征，则说明图像中包含对象的外貌特征，如果在图像中没有检测到人体的体形特征，则说明图像中不包含对象的外貌特征。如果图像中不包含对象的外貌特征，说明初步判定的当前发言对象所在的方位可能是错误的，或者图像采集器没有对准初步判定的方位，则返回步骤S400重新采集语音信号进行初步定位。

步骤S405，判断图像中是否包含多个对象的外貌特征；如果是，执行步骤S406；如果否，执行步骤S407。

步骤S406，根据外貌特征或图像中对象的动作信息，确定当前发言对象所在的确切方位。

如果图像中是否包含多个对象的外貌特征，可以根据外貌特征确定当前发言对象所在的确切方位；或者，可以根据图像中对象的动作信息确定当前发言对象所在的确切方位。该步骤可以参照实施例一中的步骤S102执行，在此不再赘述。

步骤S407，根据对象在图像中的位置确定当前发言对象所在的确切方位。

如图3所示，如果图像中仅包含一个对象的外貌特征，基本可以确定该对象即为当前发言对象，可以根据该对象在图像中的位置确定当前发言对象所在的确切方位。例如，声源定位装置可以获知图像采集器当前对准的方位，根据该对象在图像中的位置和图像采集器当前对准的方位即可确定当前发言对象所在的确切方位。

在本实施例所提供的声源定位方法中，首先获取每个麦克风接收到相同语音信号的时间差信息，然后通过查找预存的时间差信息与声源方位信息的对应关系，可以快速准确地初步判定当前发言对象所在的方位。基于初步判定的方位，根据从图像采集器采集的图像中提取的对象的外貌特征或动作信息，可以进一步确定当前发言对象所在的确切方位，实现精准定位，提高定位的准确性。

本发明实施例还提供了另一种声源定位方法的具体实施例，在该实施例中，声音采集器可以采用图2所示的麦克风阵列1。如图5所示，该方法包括如下步骤：

步骤S500，从麦克风阵列采集的声音信号中提取语音信号。

步骤S501，根据得到的语音信号初步判定当前发言对象所在的方位。

步骤S502，控制图像采集器转向初步判定的方位。

步骤S503，检测图像采集器采集的图像中是否包含人脸特征；如果是，执行步骤S504；如果否，返回执行步骤S500。

步骤S504，判断图像中是否包含多个对象的人脸特征；如果是，执行步骤S505；如果否，执行步骤S508。

步骤S505，通过多个对象的人脸特征确定每个对象的唇部行为信息。

步骤S506，根据每个对象的唇部行为信息确定当前发言对象。

步骤S507，根据当前发言对象在图像中的位置确定当前发言对象所在的确切方位。

步骤S508，根据对象在图像中的位置确定当前发言对象所在的确切方位。

本发明实施例还提供了另一种声源定位方法的具体实施例。在该实施例中，在根据语音信号初步判定当前发言对象所在的方位之后，采用了类似决策树的方式来确定当前发言对象的确切方位。如图6所示，该方法包括如下步骤：

步骤S600，通过声音采集器接收语音信号，根据接收到的语音信号初步判定当前发言对象所在的方位，并获取初步判定的方位的图像。

步骤S601，检测图像中是否包含人脸特征；如果是，执行步骤S602；如果否，执行步骤S607。

获取图像采集器采集的初步判定的方位的图像之后，可以采用人脸检测模型对获取的图像进行人脸检测，判断图像中是否包含人脸特征。如果图像中不包含人脸特征，说明发言对象可能是背对图像采集器，此时可以执行步骤S607，对图像进行人体检测。

步骤S602，判断图像中是否包含多个对象的人脸特征；如果是，执行步骤S603；如果否，执行步骤S612。

步骤S603，根据人脸特征获取每个对象的唇部行为信息，通过唇部行为信息确定当前发言对象。

步骤S604，如果通过唇部行为信息未检测到当前发言对象，根据人脸特征进行身份识别。

步骤S605，判断多个对象中是否包含设定的当前发言对象；如果是，执行步骤S606；如果否，返回执行步骤S600。

对于图像中的任意一个对象，通过该对象的人脸特征可以获取该对象的唇部行为信息，根据唇部行为信息可以确定该对象的发言概率值，如果该对象的发言概率值大于设定阈值，则可以认定该对象为当前发言对象；否则可以认为该对象不是当前发言对象。通过上述方法，如果确定图像中的每个对象都不是当前发言对象，即未检测到当前发言对象，则可以根据人脸特征进行身份识别。

根据人脸特征进行身份识别的步骤，可以通过如下方式实现：将图像中包含的多个对象的人脸特征逐一与预存的发言对象的人脸特征进行比对，选择与预存的发言对象的人脸特征匹配的人脸特征对应的对象，将该对象确定为当前发言对象。如果图像中没有与预存的发言对象的人脸特征匹配的人脸特征对应的对象，则可以认为多个对象中不包含设定的当前发言对象，此时，可以返回步骤S600重新采集语音信号进行初步定位。

步骤S606，根据当前发言对象在图像中的位置确定当前发言对象所在的确切方位。

步骤S607，检测图像中是否包含体形特征；如果是，执行步骤S608；如果否，执行步骤S613。

可以采用人体检测模型对获取的图像进行人体检测，判断图像中是否包含体形特征。如果图像中不包含体形特征，说明发言对象可能被障碍物遮挡，图像采集器无法采集到发言对象的有效影像，此时可以执行步骤S613，通过声纹识别确定采集到的语音信号是否为设定的发言对象的语音。

步骤S608，判断图像中是否包含多个对象的体形特征；如果是，执行步骤S609；如果否，执行步骤S612。

步骤S609，根据体形特征获取每个对象的姿态信息，通过姿态信息确定当前发言对象。

步骤S610，如果通过姿态信息未检测到当前发言对象，根据体形特征进行身份识别。

步骤S611，判断多个对象中是否包含设定的当前发言对象；如果是，执行步骤S606；如果否，返回执行步骤S600。

对于图像中的任意一个对象，通过该对象的体形特征可以获取该对象的姿态信息，根据姿态信息可以确定该对象的发言概率值，如果该对象的发言概率值大于设定阈值，则可以认定该对象为当前发言对象；否则可以认为该对象不是当前发言对象。通过上述方法，如果确定图像中的每个对象都不是当前发言对象，即未检测到当前发言对象，则可以根据体形特征进行身份识别。

根据体形特征进行身份识别的步骤与上述根据人脸特征进行身份识别的步骤原理相同，在此不再赘述。如果图像中没有与预存的发言对象的体形特征匹配的体形特征对应的对象，则可以认为多个对象中不包含设定的当前发言对象，此时可以返回步骤S600重新采集语音信号进行初步定位。

步骤S612，根据对象在图像中的位置确定当前发言对象所在的确切方位。

如果图像中仅包含一个对象的人脸特征或体形特征，即图像中仅包含一个对象，则可以直接根据该对象在图像中的位置确定当前发言对象所在的确切方位。

步骤S613，判断语音信号与设定的发言对象的语音是否匹配；如果是，执行步骤S614；如果否，返回执行步骤S600。

步骤S614，显示设定的发言对象的姓名。

预先采集并保存发言对象的语音，当图像采集器拍摄的图像中既不包括人脸特征，也不包括体形特征时，判断接收到的语音信号与设定的发言对象的语音是否匹配。如果匹配，则说明初步判定的方位基本正确，可能是当前发言对象被障碍物遮挡，致使图像采集器无法采集到图像，此时无需调整图像采集器的角度，可以在显示屏的显示画面中显示设定的发言对象的姓名。如果接收到的语音信号与设定的发言对象的语音不匹配，说明采集的语音信号和初步判定的方位可能不正确，返回步骤S600重新采集语音信号进行初步定位。

上述各个流程图对应的方法实施例采用递进的方式描述，每个流程图对应的实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分可以互相参见。

与上述声源定位方法基于同一发明构思，本发明实施例中还提供了一种声源定位设备，由于该设备解决问题的原理与上述声源定位方法相似，因此该设备可以参见上述方法实施例进行实施，重复之处不再赘述。

如图7所示，本发明实施例提供的一种声源定位设备包括处理器700、存储器701和数据传输接口702。处理器700、存储器701和数据传输接口702可以通过总线703连接。

处理器700可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述声源定位方法的各步骤可以通过处理器700中的硬件的集成逻辑电路或者软件形式的指令完成。

存储器701可以是随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器等。存储器701用于存储实现上述声源定位方法的程序和处理器700在执行程序时所使用的数据。

数据传输接口702用于连接声音采集器、图像采集器等外部器件，接收声音采集器采集的声音信号或图像采集器采集的图像，并向声音采集器或图像采集器传输声源定位装置发出的控制信号。

总线703可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

本发明实施例揭示的流程，可以应用于处理器700中，或者由处理器700实现。在实现过程中，信号处理流程的各步骤可以通过处理器700中的硬件的集成逻辑电路或者软件形式的指令完成。处理器700可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器701，处理器700读取存储器701中的信息，结合其硬件完成信号处理流程的步骤。具体地，处理器700用于读取存储器701中的程序并执行上述方法实施例的各步骤，在根据接收到的语音信号初步判定当前发言对象所在的方位之后，根据从图像采集器采集的图像中提取的对象的外貌特征或动作信息，进一步确定当前发言对象所在的确切方位，实现精准定位，提高定位的准确性，以便更准确地将发言对象置于播放画面的中间位置，使观众能够更清楚地观看到发言对象。

与上述声源定位方法基于同一发明构思，本发明实施例中还提供了一种声源定位装置，由于该装置解决问题的原理与上述声源定位方法相似，因此该装置可以参见上述方法实施例实施，重复之处不再赘述。

如图8所示，本发明实施例提供的一种声源定位装置，包括如下模块：

第一定位模块81，用于根据接收到的语音信号初步判定当前发言对象所在的方位；

特征提取模块82，用于从所述图像采集器采集的所述初步判定的方位对应的图像中提取对象的外貌特征和/或动作信息；

第二定位模块83，用于根据提取的所述外貌特征和/或所述动作信息，确定所述当前发言对象所在的确切方位。

可选地，第二定位模块83还可以用于：若所述图像包含多个对象的外貌特征，从所述多个对象中确定目标对象，其中，所述目标对象为对应的外貌特征与当前发言对象绑定的外貌特征匹配的对象；根据所述目标对象在图像中的位置确定所述当前发言对象所在的确切方位。

可选地，第二定位模块83还可以用于：对接收到的语音信号进行声纹识别，确定当前发言对象的身份；根据所述当前发言对象的身份，确定与当前发言对象绑定的外貌特征。

可选地，第二定位模块83还可以用于：根据所述图像中多个对象的动作信息，从所述多个对象中确定当前发言对象；根据所述当前发言对象在图像中的位置确定所述当前发言对象所在的确切方位。

可选地，若所述外貌特征为人脸特征，则所述动作信息为通过所述人脸特征确定的唇部行为信息；或，若所述外貌特征为体形特征，则所述动作信息为通过所述体形特征确定的姿态信息。

可选地，所述特征提取模块82还可以用于：通过预先训练好的神经网络模型从图像中提取对象的外貌特征和/或动作信息；所述神经网络模型包括以下至少之一：人脸检测模型、人体检测模型、唇部行为检测模型、姿态检测模型。

可选地，所述外貌特征包括人脸特征和体形特征；可选地，第二定位模块83还可以用于：通过所述图像包含的多个对象的人脸特征确定每个对象的唇部行为信息，以及通过所述图像包含的体形特征确定每个对象的姿态信息；针对任意一个所述图像包含的对象，根据所述对象的人脸特征、所述对象的体形特征、所述对象的唇部行为信息和所述对象的姿态信息以及各自对应的权重系数，确定所述对象对应的发言概率值；将最大的所述发言概率值对应的对象作为当前发言对象。

可选地，第二定位模块83还可以用于：如果所述图像中仅包含一个对象的外貌特征，根据所述对象在图像中的位置确定当前发言对象所在的确切方位。

可选地，第一定位模块81还可以用于：获取每个麦克风接收到相同语音信号的第一时间差信息；从预存的第二时间差信息与声源方位信息的对应关系中，查找与所述第一时间差信息相匹配的第二时间差信息所对应的声源方位信息；根据查找到的声源方位信息初步判定当前发言对象所在的方位。

本发明实施例提供的声源定位装置，在根据接收到的语音信号初步判定当前发言对象所在的方位之后，可以根据从图像采集器采集的图像中提取的对象的外貌特征或动作信息，进一步确定当前发言对象所在的确切方位，实现精准定位，提高定位的准确性，以便更准确地将发言对象置于播放画面的中间位置，使观众能够更清楚地观看到发言对象。

本发明实施例针对声源定位方法还提供一种计算设备可读存储介质，即断电后内容不丢失。该存储介质中存储软件程序，包括程序代码，当程序代码在计算设备上运行时，该软件程序在被一个或多个处理器读取并执行时可实现本发明实施例上面任何一种声源定位方法的方案。

以上参照示出根据本发明实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本发明实施例。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声源定位方法，其特征在于，包括：

根据接收到的语音信号初步判定当前发言对象所在的方位；

2.根据权利要求1所述的方法，其特征在于，根据提取的所述外貌特征确定所述当前发言对象所在的确切方位的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，通过下列方式确定与当前发言对象绑定的外貌特征：

4.根据权利要求1所述的方法，其特征在于，若所述外貌特征为人脸特征，则所述动作信息为通过所述人脸特征确定的唇部行为信息；或

5.根据权利要求1所述的方法，其特征在于，从图像采集器采集的所述初步判定的方位对应的图像中提取对象的外貌特征和/或动作信息的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述外貌特征包括人脸特征和体形特征；

7.根据权利要求1～6中任一项所述的方法，其特征在于，根据接收到的语音信号初步判定当前发言对象所在的方位的步骤，包括：

8.一种声源定位设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现所述权利要求1～7任一项中所述的方法。

9.一种声源定位装置，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～7任一项中所述的方法。