CN113406567A

CN113406567A - 一种声源定位方法、装置、设备及存储介质

Info

Publication number: CN113406567A
Application number: CN202110711790.4A
Authority: CN
Inventors: 王浩; 李守毅; 王晓斐
Original assignee: Anhui Toycloud Technology Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-17
Anticipated expiration: 2041-06-25
Also published as: CN113406567B

Abstract

本申请提出一种声源定位方法、装置、设备及存储介质，该方法包括：获取声音信号，并从该声音信号中提取发声对象声学特征；确定与所述发声对象声学特征相匹配的发声对象视觉特征，所述发声对象视觉特征包括通过发声对象的图像而提取的发声对象的特征；根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置。上述的定位方法能够提高声源定位精度。

Description

一种声源定位方法、装置、设备及存储介质

技术领域

本申请涉及声源定位技术领域，尤其涉及一种声源定位方法、装置、设备及存储介质。

背景技术

随着智能设备的智能化水平的不断提升，声源定位已逐渐成为大多数智能设备的必备功能。比如对于智能机器人来说，其需要通过声源定位来确定呼唤机器人的用户的位置，从而能够向用户移动或转身朝向用户，以便于准确理解用户指示。

常规的声源定位是通过麦克风阵列采集声音信号实现声源定位，但是在嘈杂的环境中，声源发出的声音信号可能受到噪声干扰，同时麦克风精度有限，依靠麦克风来定位的定位结果往往不可靠。

发明内容

基于上述技术现状，本申请提出一种声源定位方法、装置、设备及存储介质，能够提高声源定位精度。

为了达到上述目的，本申请提出如下技术方案：

一种声源定位方法，包括：

获取声音信号，并从该声音信号中提取发声对象声学特征；

确定与所述发声对象声学特征相匹配的发声对象视觉特征，所述发声对象视觉特征包括通过发声对象的图像而提取的发声对象的特征；

根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置。

可选的，所述确定与所述发声对象声学特征相匹配的发声对象视觉特征，包括：

从预先构建的特征数据集合中，确定出与所述发声对象声学特征相匹配的发声对象视觉特征；

其中，所述特征数据集合中存储发声对象声学特征，以及与发声对象声学特征相对应的发声对象视觉特征。

可选的，所述方法还包括实时采集场景图像，并从采集的场景图像中识别发声对象的视觉特征，以及存储识别到的发声对象的视觉特征；

在获取声音信号，并从该声音信号中提取发声对象声学特征之后，所述方法还包括：

获取在目标时间段内获取到的发声对象的视觉特征，所述目标时间段为获取到该声音信号之前的设定时长的时间段；

将该目标时间段内获取到的发声对象的视觉特征，以及该发声对象声学特征，对应存储至所述特征数据集合中。

可选的，所述将该目标时间段内获取到的发声对象的视觉特征，以及该发声对象声学特征，对应存储至所述特征数据集合中，包括：

检测在所述特征数据集合中，是否存储有该发声对象声学特征，并且检测与该发声对象声学特征相对应的发声对象的视觉特征的数量是否达到设定数量；

如果在所述特征数据集合中存储有该发声对象声学特征，并且与该发声对象声学特征相对应的发声对象的视觉特征的数量达到设定数量，则利用该目标时间段内获取到的发声对象的视觉特征，对所述特征数据集合中存储的该发声对象声学特征相对应的发声对象的视觉特征进行更新；

如果在所述特征数据集合中存储有该发声对象声学特征，并且与该发声对象声学特征相对应的发声对象的视觉特征的数量未达到设定数量，则将该目标时间段内获取到的发声对象的视觉特征作为与该发声对象声学特征相对应的发声对象的视觉特征，存储至所述特征数据集合中；

如果在所述特征数据集合中未存储该发声对象声学特征，则将该目标时间段内获取到的发声对象的视觉特征，以及该发声对象声学特征，对应存储至所述特征数据集合中。

可选的，当所述特征数据集合中，存储有多个与所述发声对象声学特征对应的发声对象视觉特征时，所述从预先构建的特征数据集合中，确定出与所述发声对象声学特征相匹配的发声对象视觉特征，包括：

从预先构建的特征数据集合中存储的与所述发声对象声学特征相对应的发声对象视觉特征中，选择出现次数最多或者最新存入的发声对象视觉特征，作为与所述发声对象声学特征相匹配的发声对象视觉特征。

可选的，所述从预先构建的特征数据集合中存储的与所述发声对象声学特征相对应的发声对象视觉特征中，选择出现次数最多或者最新存入的发声对象视觉特征，包括：

如果在预先构建的特征数据集合中存储有至少三个与所述发声对象声学特征相对应的发声对象视觉特征，则从与所述发声对象声学特征相对应的各个发声对象视觉特征中，选取出现次数最多的发声对象视觉特征；

如果在预先构建的特征数据集合中存储有三个以下的与所述发声对象声学特征相对应的发声对象视觉特征，则从与所述发声对象声学特征相对应的各个发声对象视觉特征中，选取最新存入的发声对象视觉特征。

可选的，所述根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置，包括：

根据与所述发声对象声学特征相匹配的发声对象视觉特征，从摄像头采集的场景图像中，检测发出所述声音信号的发声对象；

根据检测到的发出所述声音信号的发声对象在摄像头采集的场景图像中的位置，确定该发声对象的位置。

可选的，所述根据与所述发声对象声学特征相匹配的发声对象视觉特征，从摄像头采集的场景图像中，检测发出所述声音信号的发声对象，包括：

从摄像头采集的场景图像中，检测目标发声对象；其中，所述目标发声对象满足以下特点：与所述发声对象声学特征相匹配的发声对象视觉特征，与所述目标发声对象的视觉特征之间的相似度大于设定的相似度阈值；

如果检测到目标发声对象，则将该目标发声对象确定为发出所述声音信号的发声对象；

如果未检测到目标发声对象，则控制摄像头向声源位置转动，所述声源位置根据所述声音信号而确定；

从摄像头向声源方向转动的过程中采集的场景图像中，检测目标发声对象；

如果检测到目标发声对象，则将该目标发声对象确定为发出所述声音信号的发声对象。

可选的，所述目标发声对象还满足以下特点：所述目标发声对象的位置，与根据所述声音信号而确定的声源位置的偏差在预设的偏差范围内。

可选的，所述方法还包括：

如果未能确定与所述发声对象声学特征相匹配的发声对象视觉特征，则根据所述声音信号确定声源位置。

可选的，所述发声对象视觉特征包括通过发声对象的图像而获取的该发声对象的面部特征。

一种声源定位装置，包括：

信号获取单元，用于获取声音信号，并从该声音信号中提取发声对象声学特征；

特征确定单元，用于确定与所述发声对象声学特征相匹配的发声对象视觉特征，所述发声对象视觉特征包括通过发声对象的图像而提取的发声对象的特征；

声源定位单元，用于根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置。

一种声源定位设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的声源定位方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的声源定位方法。

本申请提出的声源定位方法，借助声音和图像对发声对象进行定位，在该声源定位过程中，借助从声音信号中提取的发声对象声学特征，以及发声对象声学特征和视觉特征的对应关系经验数据，通过从场景图像中检测与发声对象声学特征相匹配的发声对象，来实现发声对象的识别和定位。该声源定位过程丰富了用于声源定位的数据依据，因此具有更高的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提出的一种声源定位方法的流程示意图；

图2是本申请实施例提供的另一种声源定位方法的流程示意图；

图3是本申请实施例提供的特征数据集合中的数据存储形式示意图；

图4是本申请实施例提供的又一种声源定位方法的流程示意图；

图5是本申请实施例提供的根据图像计算物体位置的原理示意图；

图6是本申请实施例提供的一种声源定位装置的结构示意图；

图7是本申请实施例提供的一种声源定位设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于声源定位应用场景，采用本申请实施例技术方案，能够借助声音和图像，实现对发声对象的准确定位。

常规的声源定位方案是借助麦克风采集的声音信号进行声源定位。例如，在同一设备或不同设备上安装两个以上的麦克风，利用各个麦克风同时采集声音信号，通过声程差以及各个麦克风之间的位置，计算声源的具体位置。

上述的声源定位方案在安静环境或实验室等理想环境中的效果较好，但是在嘈杂环境中，声源可能受到噪声干扰，同时，麦克风精度有限，单纯利用麦克风进行声源定位的定位结果往往是不可靠的。

为了提高声源定位准确度，本申请实施例提出一种声源定位方法，该方法将场景中的声音和图像同时应用于声源定位，能够解决单一地利用声音进行声源定位容易受到噪声干扰的问题，从而提高声源定位的稳定性。同时，将声音和图像同时应用于声源定位，能够更加丰富声源定位的数据依据，从而提高声源定位精度。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种声源定位方法，该方法可应用于具有数据处理功能的智能设备，尤其是能够处理声音数据和图像数据的电子设备。例如，其可以应用于智能机器人、智能终端等设备，也可以应用于由声音处理装置、图像处理装置等数据处理装置构成的智能系统。作为优选的实现方式，本申请实施例提出的声源定位方法，应用于具有音频采集及处理功能和图像采集及处理功能的电子设备，该电子设备通过执行本申请实施例技术方案，能够采集声音信号和图像，并基于采集的声音信号和图像，对采集的声音信号的声源进行定位。

在本申请后续实施例中，以用户呼唤智能机器人这一场景为例，通过介绍智能机器人实施本申请实施例技术方案实现对用户的识别和定位，来介绍本申请实施例所提出的声源定位方法的具体处理过程。

参见图1所示，本申请实施例提出的声源定位方法，包括：

S101、获取声音信号，并从该声音信号中提取发声对象声学特征。

上述的声音信号，可以是任意的发声对象所发出的声音信号。例如可以是某人说话的声音信号，或者是某些物品振动、碰撞、摩擦等发出的声音信号。可以理解，当任何物体由于任何原因发出声音时，该物体均可以被认定为是发声对象。

该声音信号可以通过麦克风采集得到，作为优选的实现方式，该声音信号由麦克风阵列采集得到，以使得通过麦克风阵列采集的该声音信号，能够定位发出该声音信号的声源位置，也就是定位发出该声音信号的发声对象的位置。

例如，在智能机器人上设置有麦克风阵列，通过该麦克风阵列，实时采集其所处场景中的声音信号。由于在智能机器人所处的场景中可能出现各种各样的声音，而智能机器人不能对所有声音都进行回应，因此，此时可以限定，上述的声音信号是特定的声音信号，例如可以是对该智能机器人进行唤醒的唤醒音。则，智能机器人获取声音信号，具体是获取唤醒音声音信号，也就是，当智能机器人从其所处场景中采集到唤醒音声音信号时，从该唤醒音声音信号中提取发声对象声学特征。

可以理解的是，上述的获取声音信号这一处理步骤所获取的具体声音信号类型或内容等，都可以根据实际场景或业务需求而灵活设定，也就是可以针对某种或某些特定类型或特定内容的声音信号进行采集及处理。例如对于上述的智能机器人，可以设置其获取唤醒音声音信号，并进行后续处理，以便实现对唤醒者的定位；或者，也可以设置其获取脚步声，并进行后续处理，以便实现对步行者的定位或跟随等。

上述的发声对象声学特征，具体是发出上述声音信号的发声对象的声学特征。发声对象的声学特征，是发声对象发出的声音在声学方面的特征。例如，假设上述声音信号是用户说话的声音，则从该声音信号中提取的发声对象的声学特征，可以是从该声音信号中提取的声纹特征，该声纹特征能够体现该用户的音色等特征信息。

可以理解，不同的发声对象发出的声音都具有其独特的声学特征，例如，不同用户说同样的话时的声纹特征是不同的，每个用户的声纹特征均能够体现用户独特的音色。又如，不同的动物，比如鸟、狗等发出的叫声，都具有各不相同的声学特征。同一物体因为不同原因发出的声音也可以具有不同的声学特征，比如纸张摩擦的声音和纸张被撕碎的声音，具有明显不同的特点。

所以，从声音信号中提取发声对象声学特征，有利于借助该发声对象声学特征，判断发声对象。例如，如果从声音信号中提取的发声对象声学特征符合鸟叫声的声学特征，则可以推断发出该声音信号的发声对象极有可能是鸟。由此可见，从获取的声音信号中提取发声对象声学特征，有利于借助该发声对象声学特征确定发出该声音信号的发声对象。

作为可选的实现方式，上述的从声音信号中提取发声对象声学特征，可以借助现有的或未来出现的声学特征提取方法提取得到，本申请实施例不再详述也不限定具体的提取方式。

S102、确定与所述发声对象声学特征相匹配的发声对象视觉特征。

其中，上述的发声对象视觉特征，是指发声对象所具备的、通过视觉可见的特征，也就是发声对象的表象特征。例如假设发声对象是人，则这个人的身高、体重、肤色、性别、人脸等等可以通过视觉获取的特征信息，都可以作为这个人的视觉特征。

由于本申请实施例技术方案应用于电子处理设备，以使电子处理设备能够实现自动化的声源定位。因此，对于设备来说，其视觉功能通过其摄像头实现，其通过视觉获取信息的功能，实际上是从其摄像头采集的图像中获取信息而实现。因此，其获取发声对象视觉特征时，需要通过发声对象的图像来提取与发声对象相关的特征。因此，在本申请实施例中，上述的发声对象视觉特征，具体是通过发声对象的图像而提取的发声对象的特征。

该发声对象视觉特征，可以是发声对象的通过视觉可见的一项或多项特征，即可以是通过发声对象的图像而提取的发声对象的一项或多项特征，例如假设发声对象是人，则可以将其面部特征、肤色特征、肢体特征等通过表象可见的特征中的一项或多项，作为该发声对象的视觉特征。

作为优选的实现方式，本申请实施例将通过发声对象的图像而获取的发声对象的面部特征，作为发声对象视觉特征。

通常情况下，每一个发声对象均具有独特的声学特征，以及独特的视觉特征。例如对于张三这个人来说，其说话声音的声纹特征是独特的，同时其脸部特征也是独特的。因此，可以预先建立张三的声纹特征和人脸特征的对应匹配关系。当从某一语音信号中提取得到张三的声纹特征时，根据预先建立的张三的声纹特征和人脸特征的对应匹配关系可以确定，与该语音信号的声纹特征相匹配的是张三的人脸特征，从而可以确定该语音信号是张三发出的。

基于上述思想，作为一种可选的实现方式，可以预先确定各个发声对象的声学特征，以及各个发声对象的视觉特征，并建立特征数据集合，在该特征数据集合中，存储每个发声对象的声学特征和视觉特征的对应匹配关系，也就是，在该特征数据集合中，存储发声对象声学特征，以及与发声对象声学特征相对应的发声对象视觉特征。则，当从获取的声音信号中提取得到发声对象声学特征时，可以通过查询上述的特征数据集合，确定与提取得到的发声对象声学特征相匹配的发声对象视觉特征。

例如，对于智能机器人来说，为了便于多个用户均可以唤醒该机器人，可以预先在该智能机器人中录制多个用户的唤醒音，以便机器人从用户唤醒音中提取用户声纹特征，以及录制各个用户的人脸，以便机器人提取用户人脸特征，则该智能机器人可以将每个用户的声纹特征和人脸特征对应匹配存储至内存中。当智能机器人采集到某个用户的唤醒音时，可以从中提取到该用户的声纹特征，如果在其内存中存储有该用户的声纹特征，则可以进一步从内存中查询确定与该声纹特征对应匹配的用户人脸特征。

上述的特征数据集合，可以在执行本申请实施例技术方案之前构建完成，也可以在执行本申请实施例技术方案之中或之后实时更新，即实时地记录已经明确的发声对象的声学特征和视觉特征的对应匹配关系并存储至上述的特征数据集合，以实现不断扩充发声对象的声学特征和视觉特征的对应匹配关系的数据量，为后续进行声源定位提供数据支持。

需要说明的是，随着发声对象声学特征和发声对象视觉特征的数据量的不断增加，以及处理设备对声纹特征和图像特征的识别误差，可能出现不同发声对象发出的声音的声学特征相同的情况，或者，对应同一个发声对象声学特征的，是该发声对象的多种不同的视觉特征。此时，可能有多个发声对象视觉特征对应同一个发声对象声学特征。则在执行步骤S102时，可能确定出多个与提取得到的发声对象声学特征相匹配的发声对象视觉特征。此时，可以将多个发声对象视觉特征同时用于后续处理，或者从中选择一个或多个发声对象视觉特征用于后续处理。

S103、根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置。

具体的，当确定了与发声对象声学特征相匹配的发声对象视觉特征时，也就是相当于确定了发出上述的声音信号的发声对象的视觉特征。此时，通过摄像头采集场景图像，并从采集的场景图像中，检测、识别符合该发声对象视觉特征的发声对象，即可达到识别发出该声音信号的发声对象的目的，进而可以定位该发声对象的位置。

例如，当智能机器人采集到唤醒音信号，并且经过上述步骤S101和S102的处理，确定与从该唤醒音信号中提取到的声纹特征相匹配的是张三的人脸特征时，利用摄像头采集场景图像，并从采集的场景图像中检测张三的人脸特征，当检测到张三的人脸特征时，可以确定场景图像中的符合张三的人脸特征的人，就是发出该唤醒音信号的人，即智能机器人可以从采集的场景图像中确定出唤醒者，进而可以根据采集场景图像的角度、方向等，确定张三的位置。

上述的基于图像的声源定位方案，也符合实际生活场景中的发声对象定位过程。比如，当一个人甲被另一个人乙语音呼叫时，如果乙在甲的视线范围内，那么甲根据乙呼叫声音和乙的嘴巴动作的一致性，很容易找到乙的位置，并且将乙的声纹特征与乙的视觉特征进行关联记忆。当甲下一次被乙呼叫时，由于甲已经记住了乙的声纹特征与视觉特征，甲根据听到的呼喊声可以确定是乙在呼叫，因此如果乙不在甲的视线范围内，甲通常会环顾四周，当甲看到乙时，即找到了发声对象，进而可以朝乙走去或者面向乙进行交谈。

可见，本申请实施例提出的声源定位方法，具有仿生特性，其模拟了生物声源定位过程。在该过程中，将声音与图像相结合应用于对发声对象的识别和定位，由于定位依据的多样化，使得声源定位更准确。

通过上述介绍可见，本申请实施例提出的声源定位方法，借助声音和图像对发声对象进行定位，在该声源定位过程中，借助从声音信号中提取的发声对象声学特征，以及发声对象声学特征和视觉特征的对应关系经验数据，通过从场景图像中检测与发声对象声学特征相匹配的发声对象，来实现发声对象的识别和定位。该过程模拟了生物定位声源对象的过程，具有仿生特性，而且丰富了用于声源定位的数据依据，因此具有更高的准确性。

作为一种可能的情况，在获取声音信号，并且从该声音信号中提取发声对象声学特征后，如果未能确定与该发声对象声学特征相匹配的发声对象视觉特征，例如在上述特征数据集合中未查询到与该发声对象声学特征相对应的发声对象视觉特征，则根据获取的声音信号确定声源位置。

具体的，由于上述的声音信号是通过麦克风阵列采集得到的，因此通过可控波束响应算法或者时间差算法等，可以利用该声音信号进行声源定位，确定声源位置。

可以理解，本申请实施例提出的声源定位方法的关键，是确定与发声对象声学特征相匹配的发声对象视觉特征，因此，上述的特征数据集合中的数据，对于本申请实施例提出的声源定位方法的实现具有重要作用。如果特征数据集合中的数据较少，则可能无法从中查询确定与从发声对象声学特征相匹配的发声对象视觉特征。而在方案执行前在该特征数据集合中存储任何可能出现的发声对象的声学特征和视觉特征，基本是不可能实现的。因此，本申请实施例对上述的声源定位方案增加实时采集发声对象视觉特征，并且对特征数据集合进行更新的处理，具体方案如下：

参见图2所示，在声源定位方法实施过程中，同步地执行步骤S211、实时采集场景图像，并从采集到的场景图像中识别发声对象的视觉特征，以及存储识别到的发声对象的视觉特征。

上文介绍到，本申请实施例技术方案应用于具有音频采集及处理功能和图像采集及处理功能的电子设备，则可以控制电子设备的摄像头实时采集场景图像，并从采集的场景图像中识别发声对象的视觉特征，当识别到发声对象视觉特征时，存储识别到的发声对象视觉特征。

具体的，通过摄像头采集发声对象的视觉特征，以及，从摄像头采集的场景图像中，检测具有发声动作的对象，并且提取该对象的视觉特征。

例如，智能机器人的摄像头实时采集场景图像，并且从场景图像中识别具有嘴部动作，也就是识别具有说话动作的人，然后提取具有说话动作的人的视觉特征，例如提取面部、身体、肤色等特征中的一项或多项，作为说话人的视觉特征。

考虑到设备存储空间不是无限制的，因此，距离当前时间设定时长的发声对象视觉特征可以删除。例如，在存储空间存储当前时刻前2秒内的发声对象视觉特征，当存储空间中存储的发声对象视觉特征存储时长超过2秒时，就将其删除。这样，设备存储的永远是距离当前时刻之前2秒内的发声对象视觉特征。

基于上述实时采集发声对象视觉特征的处理，当执行步骤S201、获取声音信号，并且从该声音信号中提取发声对象声学特征之后，执行步骤S212、获取在目标时间段内获取到的发声对象的视觉特征，该目标时间段，即为获取到该声音信号之前的设定时长的时间段，在本申请实施例中，该目标时间段为获取到声音信号之前的2秒。

也就是，当获取声音信号，并且从获取的声音信号中提取得到发声对象声学特征后，获取在获取该声音信号之前2秒内获取的发声对象的视觉特征。

然后，执行步骤S213、将该目标时间段内获取到的发声对象的视觉特征，以及该发声对象声学特征，对应存储至特征数据集合中。

通常情况下，当设备采集到声音信号时，发出该声音信号的发声对象已经发声完毕，所以，当采集到声音信号时，发出该声音信号的发声对象的图像实际上是存在于采集到声音信号之前的场景图像中，因此，发出该声音信号的发声对象的视觉特征，只可能从采集到该声音信号之前的场景图像中提取得到。

因此，为了能够获取与采集到的声音信号的声学特征相对应的发声对象视觉特征，本申请实施例在采集到声音信号，并且从该声音信号中提取得到发声对象声学特征后，将采集到该声音信号之前的目标时间段内获取到的发声对象的视觉特征，以及上述提取到的发声对象声学特征，对应存储到特征数据集合中。

例如，智能机器人的摄像头实时采集场景图像，并且从场景图像中提取发声对象视觉特征进行存储。当该智能机器人采集到唤醒音时，将采集到该唤醒音之前的2秒内存储的发声对象视觉特征，以及从该唤醒音中提取得到的发声对象声学特征，对应存储至特征数据集合中。

基于上述处理，即便在最开始时特征数据集合中的数据量少甚至是没有数据，但是随着设备的不断运行，通过不断执行本申请上述实施例的处理，可以不断扩充特征数据集合的数据量，从而形成设备“越用越聪明”的效果。

图2所示的实施例中的步骤S201、S202、S203分别与图1所示的方法实施例中的步骤S101、S102、S103相对应，其具体内容请参见图1所示的方法实施例的内容，此处不再赘述。

可以理解，从同一场景图像中，可能同时提取到多个发声对象视觉特征，因此在存储时，可能有一个发声对象声学特征，对应多个发声对象视觉特征。此时，为了便于发声对象声学特征与发声对象视觉特征的对应存储，本申请实施例按照以发声对象声学特征为键，以与发声对象声学特征对应的发声对象视觉特征为值，进行存储。此时，一个发声对象声学特征键，可以对应设定数量的发声对象视觉特征值。

例如图3所示，假设智能机器人按照上述方案运行过程中，获取了对应“张三的声音”这一声纹特征的多个发声对象人脸特征，如表示“张三的脸”、“李四的脸”的人脸特征。则以表示“张三的声音”的声纹特征为键，以多个表示“张三的脸”、“李四的脸”的人脸特征为值，对应进行存储。

基于上述设置，当将目标时间段内获取到的发声对象的视觉特征，以及发声对象声学特征，对应存储至特征数据集合中时，可以按照如下A1-A4所示的处理过程处理：

A1、检测在特征数据集合中，是否存储有该发声对象声学特征，并且检测与该发声对象声学特征相对应的发声对象的视觉特征的数量是否达到设定数量。

具体的，本申请实施例为发声对象声学特征对应的发声对象视觉特征设置数量上限，即设置一个发声对象声学特征最多可以对应存储设定数量个发声对象视觉特征。该设定数量可以根据实际场景灵活设定。

当获取到发声对象声学特征和发声对象视觉特征后，先对特征数据集合进行检测，判断在该特征数据集合中是否已经存储获取的发声对象声学特征，以及检测在该特征数据集合中存储的与该发声对象声学特征相对应的发声对象视觉特征的数量是否达到设定数量。

如果在该特征数据集合中存储有该发声对象声学特征，并且与该发声对象声学特征相对应的发声对象的视觉特征的数量达到设定数量，则可以确定在该特征数据集合中已经存储该发声对象声学特征，并且与该发声对象声学特征对应的发声对象视觉特征的数量已经达到最大数量。此时，为了将目标时间段内获取的发声对象视觉特征存入该特征数据集合，执行步骤A2、利用该目标时间段内获取到的发声对象的视觉特征，对所述特征数据集合中存储的该发声对象声学特征相对应的发声对象的视觉特征进行更新。

具体的，从特征数据集合中，删除与上述目标时间段内获取到的发声对象的视觉特征相同数量的、最早存入的与该发声对象声学特征相对应的发声对象视觉特征，以从特征数据集合中腾出存储空间。然后，将在上述目标时间段内获取到的发声对象的视觉特征，作为与该发声对象声学特征对应的发声对象视觉特征，存入该特征数据集合。

例如，假设智能机器人在从采集的声音信号中提取到声纹特征，并且从采集到声音信号之前2秒内采集的场景图像中提取到3个人脸特征，则需要将该声纹特征，以及这3个人脸特征，对应存入特征数据集合。如果智能机器人发现特征数据集合中已存储该声纹特征，并且与该声纹特征对应的人脸特征的数量已经达到最大数量，则，智能机器人从与该声纹特征对应的人脸特征中，删除3个最早存入的人脸特征，然后将新获取的3个人脸特征作为与该声纹特征对应的人脸特征，存储该特征数据集合。此时，与该声纹特征对应的人脸特征依然是最大数量，不过实现了对人脸特征的更新。

如果在特征数据集合中存储有该发声对象声学特征，并且与该发声对象声学特征相对应的发声对象的视觉特征的数量未达到设定数量，则执行步骤A3、将该目标时间段内获取到的发声对象的视觉特征作为与该发声对象声学特征相对应的发声对象的视觉特征，存储至特征数据集合中。

可以理解，如果在特征数据集合中已经存储该发声对象声学特征，并且与该发声对象声学特征相对应的发声对象视觉特征的数量未达到设定数量，则直接将上述目标时间段内获取到的发声对象视觉特征，作为与该发声对象声学特征相对应的发声对象视觉特征，存储至特征数据集合中即可。

如果在特征数据集合中未存储该发声对象声学特征，则执行步骤A4、将该目标时间段内获取到的发声对象的视觉特征，以及该发声对象声学特征，对应存储至特征数据集合中。

具体的，如果在特征数据集合中未存储该发声对象声学特征，则将目标时间段内获取到的发声对象视觉特征，作为与该发声对象声学特征相对应的发声对象声学特征，与该发声对象声学特征一起，对应存储至特征数据集合中。当在目标时间段内获取到的发声对象视觉特征有多个时，将该多个发声对象视觉特征与该发声对象声学特征，按照图3所示的方式进行存储。

基于上述的特征数据集合构建原理可知，在特征数据集合中，对应一个发声对象声学特征，可能存在多个发声对象视觉特征。则，当通过查询该特征数据集合，确定与从获取的声音信号中提取的发声对象声学特征相匹配的发声对象视觉特征时，如果发现在该特征数据集合中，存储有多个与该发声对象声学特征相对应的发声对象视觉特征，则从该特征数据集合中存储的与该发声对象声学特征相对应的发声对象视觉特征中，选择出现次数最多，或者最新存入的发声对象视觉特征，作为与该发声对象声学特征相匹配的发声对象视觉特征。

具体的，当对应同一发声对象声学特征有多种不同的发声对象视觉特征时，可以将该多种不同的发声对象视觉特征同时作为与该发声对象声学特征相匹配的发声对象视觉特征，也可以从中选择一种或多种，作为与发声对象声学特征相匹配的发声对象视觉特征。

或者，当对应同一发声对象声学特征有多个不同时刻获取的同一种发声对象视觉特征时，应当从中选择某一个发声对象视觉特征，作为与发声对象声学特征相匹配的发声对象视觉特征。

作为一种较优的选择方式，从对应同一发声对象声学特征的多个发声对象视觉特征中，选择出现次数最多的，或者是最新存入的发声对象视觉特征，作为与发声对象声学特征相匹配的发声对象视觉特征。

具体的，如果在特征数据集合中存储有至少三个与发声对象声学特征相对应的发声对象视觉特征，则从与发声对象相对应的各个发声对象视觉特征中，选取出现次数最多的发声对象视觉特征。

即，如果在特征数据集合中，如果有多个发声对象视觉特征对应同一个发声对象声学特征，那么按照多数原则，与该同一个发声对象声学特征对应的多个发声对象视觉特征中，哪个视觉特征出现次数最多，就把该视觉特征与该发声对象声学特征相匹配的发声对象视觉特征。

例如，假设在特征数据集合中，有多个人脸特征对应同一声纹特征，则当智能机器人从该特征数据集合中确定与该声纹特征相匹配的人脸特征时，从该多个人脸特征中，选择出现次数最多的人脸特征，作为与该声纹特征相匹配的人脸特征。

示例性的，可以采用k-means聚类算法对对应同一声纹特征的多个人脸特征进行聚类，从中选出出现次数最多的人脸特征。比如，根据人脸特征的余弦距离或者欧式距离，通过k-means算法，把对应同一声纹特征的多个人脸特征分成2类或者以上。假设对图3所示的对应“张三的声音”的声纹特征的各个人脸特征分为2类，分别为“张三的脸”和“李四的脸”，然后从分类后的各个类别中，选择样本数量最多的类别，即为出现次数最多的人脸特征。比如，在“张三的脸”和“李四的脸”这两类别中，“张三的脸”的样本数量最多，因此将“张三的脸”的人脸特征，作为与“张三的声音”这一声纹特征相匹配的人脸特征。

如果在特征数据集合中存储有三个以下的与发声对象声学特征相对应的发声对象视觉特征，比如存在1个或2个，则从与该发声对象声学特征相对应的各个发声对象视觉特征中，选取最新存入的发声对象视觉特征，作为与该发声对象声学特征相匹配的发声对象视觉特征。

具体的，如果只有一个发声对象视觉特征与发声对象声学特征相对应，则可以直接将该发声对象视觉特征作为与该发声对象声学特征相匹配的发声对象视觉特征。

如果有2个发声对象视觉特征与同一个发声对象声学特征相对应，则从这2个发声对象视觉特征中，选择最新存入的发声对象视觉特征，作为与该发声对象声学特征相匹配的发声对象视觉特征。

相反，如果在特征数据集合没有存储与该发声对象声学特征相对应的发声对象视觉特征，则按照前述实施例介绍，此时无法通过查询特征数据集合确定与该发声对象声学特征相匹配的发声对象视觉特征，因此只能通过采集到的声音信号确定声源位置。

按照上述处理，当确定与从获取的声音信号中提取的发声对象声学特征相匹配的发声对象视觉特征后，参见图4所示，上述的根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置，包括：

S403、根据与所述发声对象声学特征相匹配的发声对象视觉特征，从摄像头采集的场景图像中，检测发出所述声音信号的发声对象。

具体的，从摄像头采集的场景图像中，检测具备与上述发声对象声学特征相匹配的发声对象视觉特征的发声对象，当检测到时，将检测到的发声对象作为发出上述声音信号的发声对象。

当确定与上述发声对象声学特征相匹配的发声对象视觉特征时，先从摄像头当前采集的场景图像中，检测目标发声对象。该目标发声对象满足以下特点：与所述发声对象声学特征相匹配的发声对象视觉特征，与所述目标发声对象的视觉特征之间的相似度大于设定的相似度阈值，也就是，该目标发声对象，是指其视觉特征与上述的发声对象声学特征相匹配的发声对象视觉特征的相似度大于设定的相似度阈值的发声对象。

如果检测到目标发声对象，则将该目标发声对象确定为发出上述声音信号的发声对象。

例如，当智能机器人从采集的唤醒音中提取到声纹特征，并且确定与该声纹特征相匹配的人脸特征后，从其摄像头采集的场景图像中，检测该人脸特征，当检测到该人脸特征时，就将具有该人脸特征的用户，确定为发出上述唤醒音的用户。

如果从摄像头采集的场景图像中，没有检测到目标发声对象，则控制摄像头向根据获取的声音信号而确定的声源位置转动，并且在摄像头转动的过程中，从该摄像头采集的场景图像中，检测目标发声对象。

在摄像头转动过程中，如果从其采集的场景图像中检测到了目标发声对象，则控制摄像头停止转动，并将检测到的目标发声对象，确定为发出上述声音信号的发声对象。

如果在摄像头转动至正面朝向上述声源位置的过程中，一直没有从摄像头采集的场景图像中检测到目标发声对象，则说明在摄像头采集的场景中没有检测到发声对象，此时直接将上述的根据采集的声音信号确定的声源位置，作为发出上述声音信号的发声对象的位置。

例如，智能机器人在采集到唤醒音，并且从唤醒音中提取到声纹特征，以及确定与该声纹特征相匹配的人脸特征后，开始从其摄像头采集的场景图像中检测具有该人脸特征的用户，如果检测到，则将检测到的用户确定为发出该唤醒音的用户。如果没有检测到，则根据采集的唤醒音定位声源位置，并控制其摄像头向声源位置转动。在摄像头转动过程中，从摄像头采集的场景图像中实时检测具有上述人脸特征的用户，如果检测到，则控制摄像头停止转动，并且将检测到的用户确定为发出上述唤醒音的用户。如果在摄像头转动至朝向声源位置的过程中，均没有从摄像头采集的场景图像中检测到具有上述人脸特征的用户，则将根据唤醒音确定的声源位置确定为发出该唤醒音的用户的位置。

作为一种优选的实现方式，在上述的检测目标发声对象的过程中，当检测到其视觉特征与上述的发声对象声学特征相匹配的发声对象视觉特征的相似度大于设定的相似度阈值的发声对象时，还进一步根据该发声对象在场景图像中的位置，推算出该发声对象在实际场景中的位置，进而，判断该发声对象的位置与根据上述声音信号而确定的声源位置的偏差是否在预设的偏差范围内，如果在预设的偏差范围内，则将该发声对象确定为目标发声对象；否则，不可以将该发声对象确定为目标发声对象。

也就是，还可以限定上述的目标发声对象还满足以下特点：目标发声对象的位置，与根据所述声音信号而确定的声源位置的偏差在预设的偏差范围内。

上述的目标发声对象检测过程，结合了目标发声对象的位置进行检测。使得检测出的目标发声对象既具备与上述的发声对象声学特征相匹配的发声对象视觉特征，又与声源定位结果相近，因此具有更高的可信度。

S404、根据检测到的发出所述声音信号的发声对象在摄像头采集的场景图像中的位置，确定该发声对象的位置。

具体的，当从场景图像中检测到发出上述声音信号的发声对象后，根据该发声对象在该场景图像中的位置、摄像头视角等，确定该发声对象在实际场景中的位置。

如图5所示，由于摄像头和设备本身的特性，摄像头视角θ和屏幕大小L通常是固定的。摄像头视角内看到的物体，将会完整的绘制在屏幕之上，假设人脸中心点在Q点，那么

再根据图片中PQ的大小，配合正弦余弦定理，∠POQ的大小很容易得出，从而再得到物体离摄像头正中心的偏角。进而，根据摄像头朝向，可以确定物体真实方向。进一步的，结合摄像头焦距和坐标系，能够推算出物体真实位置。

图4所示的实施例中的步骤S401、S402分别与图1所示的方法实施例中的步骤S101、S102相对应，其具体内容请参见图1所示的方法实施例的内容，此处不再赘述。

与上述的方法实施例相对应的，本申请实施例还提出一种声源定制装置，参见图6所示，该装置包括：

信号获取单元100，用于获取声音信号，并从该声音信号中提取发声对象声学特征；

特征确定单元110，用于确定与所述发声对象声学特征相匹配的发声对象视觉特征，所述发声对象视觉特征包括通过发声对象的图像而提取的发声对象的特征；

声源定位单元120，用于根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置。

本申请实施例提出的声源定位装置，借助声音和图像对发声对象进行定位，在该声源定位过程中，借助从声音信号中提取的发声对象声学特征，以及发声对象声学特征和视觉特征的对应关系经验数据，通过从场景图像中检测与发声对象声学特征相匹配的发声对象，来实现发声对象的识别和定位。该过程模拟了生物定位声源对象的过程，具有仿生特性，而且丰富了用于声源定位的数据依据，因此具有更高的准确性。

可选的，所述信号获取单元100还用于实时采集场景图像，并从采集的场景图像中识别发声对象的视觉特征，以及存储识别到的发声对象的视觉特征；

在获取声音信号，并从该声音信号中提取发声对象声学特征之后，所述信号获取单元100还用于：

可选的，所述声源定位单元120还用于：

上述的声源定位装置的各个单元的具体工作内容，请参见上述方法实施例中的相应内容，此处不再重复。

本申请另一实施例还提出一种声源定位设备，参见图7所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的声源定位方法。

具体的，上述声源定位设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccess memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的声源定位方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的声源定位方法的各个步骤。

具体的，上述的声源定位设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的声源定位方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声源定位方法，其特征在于，包括：

获取声音信号，并从该声音信号中提取发声对象声学特征；

2.根据权利要求1所述的方法，其特征在于，所述确定与所述发声对象声学特征相匹配的发声对象视觉特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括实时采集场景图像，并从采集的场景图像中识别发声对象的视觉特征，以及存储识别到的发声对象的视觉特征；

4.根据权利要求3所述的方法，其特征在于，所述将该目标时间段内获取到的发声对象的视觉特征，以及该发声对象声学特征，对应存储至所述特征数据集合中，包括：

5.根据权利要求2所述的方法，其特征在于，当所述特征数据集合中，存储有多个与所述发声对象声学特征对应的发声对象视觉特征时，所述从预先构建的特征数据集合中，确定出与所述发声对象声学特征相匹配的发声对象视觉特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述从预先构建的特征数据集合中存储的与所述发声对象声学特征相对应的发声对象视觉特征中，选择出现次数最多或者最新存入的发声对象视觉特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据与所述发声对象声学特征相匹配的发声对象视觉特征，以及采集的场景图像，确定发出所述声音信号的发声对象，并确定该发声对象的位置，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据与所述发声对象声学特征相匹配的发声对象视觉特征，从摄像头采集的场景图像中，检测发出所述声音信号的发声对象，包括：

9.根据权利要求8所述的方法，其特征在于，所述目标发声对象还满足以下特点：所述目标发声对象的位置，与根据所述声音信号而确定的声源位置的偏差在预设的偏差范围内。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述发声对象视觉特征包括通过发声对象的图像而获取的该发声对象的面部特征。

12.一种声源定位装置，其特征在于，包括：

13.一种声源定位设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至11中任意一项所述的声源定位方法。

14.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至11中任意一项所述的声源定位方法。