CN116299179B

CN116299179B - 一种声源定位方法、声源定位装置和可读存储介质

Info

Publication number: CN116299179B
Application number: CN202310579704.8A
Authority: CN
Inventors: 钟雨崎; 艾国; 杨作兴
Original assignee: Beijing Bianfeng Information Technology Co ltd
Current assignee: Beijing Bianfeng Information Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-09-12
Anticipated expiration: 2043-05-22
Also published as: CN116299179A

Abstract

本发明实施例提供了一种声源定位方法、装置和可读存储介质。所述方法应用于终端设备，所述终端设备配置有多个麦克风，所述方法包括：获取目标声纹特征；将所述终端设备的每个麦克风采集的语音数据分别与所述目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据；所述目标语音数据为所述目标声纹特征对应的语音数据；将所述每个麦克风对应的目标语音数据输入声源定位模型，通过所述声源定位模型输出定位结果。本发明实施例可以实现对包含多人说话声音的语音数据中的指定声音进行方向追踪，并且可以提高声源定位的准确性。

Description

一种声源定位方法、声源定位装置和可读存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种声源定位方法、声源定位装置和可读存储介质。

背景技术

随着智能终端的发展，能够与用户进行人机交互的智能设备越来越普遍。例如，智能音箱、手机、智能机器人等智能设备可以获取用户的指令与用户进行人机交互。

在具体应用中，智能终端还可以对声音进行方向定位，从而向用户提供更多的服务，以提升智能交互的体验。然而，当环境中有噪音或者有多个人说话时，将影响智能终端对声音进行方向定位的准确性。

发明内容

本发明实施例提供一种声源定位方法、声源定位装置和可读存储介质，可以实现对包含多人说话声音的语音数据中的指定声音进行方向追踪，并且可以提高声源定位的准确性。

第一方面，本发明实施例公开了一种声源定位方法，应用于终端设备，所述终端设备配置有多个麦克风，所述方法包括：

获取目标声纹特征；

将所述终端设备的每个麦克风采集的语音数据分别与所述目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据；所述目标语音数据为所述目标声纹特征对应的语音数据；

将所述每个麦克风对应的目标语音数据输入声源定位模型，通过所述声源定位模型输出定位结果。

第二方面，本发明实施例公开了一种声源定位装置，应用于终端设备，所述终端设备配置有多个麦克风，所述装置包括：

目标声纹获取模块，用于获取目标声纹特征；

声源分离模块，用于将所述终端设备的每个麦克风采集的语音数据分别与所述目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据；所述目标语音数据为所述目标声纹特征对应的语音数据；

声源定位模块，用于将所述每个麦克风对应的目标语音数据输入声源定位模型，通过所述声源定位模型输出定位结果。

第三方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如前述一个或多个所述的声源定位方法。

本发明实施例包括以下优点：

本发明实施例提供了一种声源定位方法，将终端设备的每个麦克风采集的语音数据分别与指定的目标声纹特征组成数据对，依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据。由此可以基于目标声纹特征从包含多人说话声音的语音数据中分离出该目标声纹特征对应的语音数据，消除掉其它声音，得到目标语音数据。再通过声源定位模型对目标语音数据进行声源定位，可以实现对包含多人说话声音的语音数据中的指定声音进行方向追踪。此外，由于本发明实施例通过声源分离得到目标声纹特对应的语音数据（目标语音数据），输入声源定位模型的是不包含其他杂音的目标语音数据，可以提高声源定位的准确性，在嘈杂以及多人说话的场景下，也可以准确实现对指定声音进行方向追踪。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种声源定位方法实施例的步骤流程图；

图2是本发明实施例一个示例中的声源定位方法的流程示意图；

图3是本发明实施例一个示例中的唤醒识别模型的结构示意图；

图4是本发明实施例一个示例中的声纹提取模型的结构示意图；

图5是本发明实施例一个示例中的声源分离模型的结构示意图；

图6是本发明实施例一个示例中声源分离模型的一轮迭代训练示意图；

图7是本发明实施例一个示例中声源定位模型进行声源定位的示意图；

图8是本发明实施例的一种声源定位装置实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

参照图1，示出了本发明的一种声源定位方法实施例的步骤流程图，所述方法可应用于终端设备，所述终端设备配置有多个麦克风，所述方法可以包括如下步骤：

步骤101、获取目标声纹特征；

步骤102、将所述终端设备的每个麦克风采集的语音数据分别与所述目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据；所述目标语音数据为所述目标声纹特征对应的语音数据；

步骤103、将所述每个麦克风对应的目标语音数据输入声源定位模型，通过所述声源定位模型输出定位结果。

本发明实施例提供的声源定位方法可应用于终端设备。本发明实施例对所述终端设备的具体形式不做限制。示例性地，所述终端设备可以为用户设备（User Equipment，UE）、移动设备、用户终端、蜂窝电话、无绳电话、个人数字助理（Personal DigitalAssistant，PDA）、手持设备、计算设备、车载设备、可穿戴设备等。

所述终端设备配置有多个麦克风，多个指两个或两个以上，每个麦克风可用于采集语音数据。所述多个麦克风可以采集相同的语音数据，但是每个麦克风采集的语音数据的音量和相位不同，根据多个麦克风采集的语音数据可以实现对语音数据进行声源定位的功能，也即确定发出该语音数据的声源所在的位置信息。所述位置信息可以包括但不限于声源相对于终端设备的相对位置、方向、坐标信息等。

本发明实施例提供的声源定位方法可以对指定声音（具有目标声纹特征的声音）进行声源定位。具体地，首先获取目标声纹特征，目标声纹特征即指定声音具有的声纹特征。本发明实施例可以对包含多人说话声音的语音数据中的指定声音（具有所述目标声纹特征的声音）的声源进行定位，从而可以实现对指定声音进行方向追踪。

本发明实施例对获取目标声纹特征的方式不做限制。例如，可以预先录入不同用户标识对应的声纹特征，在使用时可以通过选择目标用户的标识，得到该目标用户对应的目标声纹特征，从而可以对选定的目标用户的声音进行方向追踪。又如，可以将唤醒终端设备的用户声音的声纹特征作为目标声纹特征；等等。

在本发明的一种可选实施例中，所述获取目标声纹特征，可以包括：

步骤S11、在所述终端设备未唤醒的情况下，获取任意一个麦克风采集的语音数据作为待识别语音数据；

步骤S12、在确定所述待识别语音数据包含唤醒词时，唤醒所述终端设备，并将所述待识别语音数据输入声纹提取模型，通过所述声纹提取模型输出目标声纹特征。

在所述终端设备未唤醒的情况下，本发明实施例获取任意一个麦克风采集的语音数据作为待识别语音数据，并识别该待识别语音数据中是否包含唤醒词。

在具体实施中，所述终端设备可以通过语音交互实现相应的功能，语音交互的起始可以是接收到相应的唤醒词，当终端设备接收到包含唤醒词的语音数据时，终端设备可以与用户进行语音交互从而实现相应的功能。

在所述终端设备未唤醒的情况下，可以获取任意一个麦克风采集的语音数据作为待识别语音数据，并识别所述待识别语音数据是否包含唤醒词。若确定所述待识别语音数据包含唤醒词，则唤醒所述终端设备，并将所述待识别语音数据输入声纹提取模型，通过所述声纹提取模型输出目标声纹特征。所述目标声纹特征即为唤醒所述终端设备的用户声音的声纹特征。

需要说明的是，本发明实施例中的待识别语音数据指的是包含唤醒词的语音数据。进一步地，为了提高声纹提取模型提取目标声纹特征的准确性，可以对所述待识别语音数据进行截取，仅将包含唤醒词的一段语音数据输入所述声纹提取模型进行声纹提取，得到唤醒所述终端设备的用户声音的声纹特征（目标声纹特征）。

进一步地，由于多个麦克风可以采集相同的语音数据，只是采集的语音数据的音量和相位不同。因此，本发明实施例在提取目标声纹特征时，仅使用其中一个麦克风采集的语音数据即可，由此可以节省计算资源。

在获取目标声纹特征之后，将所述终端设备的每个麦克风采集的语音数据分别与所述目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据；所述目标语音数据为所述目标声纹特征对应的语音数据。

所述声源分离模型是预先训练好的神经网络模型，可用于对输入的包含多人说话声音的语音数据基于输入的目标声纹特征进行声源分离，仅输出所述目标声纹特征对应的语音数据，而消除掉除其他声音。

所述声源分离模型可以为根据大量的训练数据和机器学习方法，对现有的神经网络进行有监督或者无监督训练而得到的。需要说明的是，本发明实施例对所述声源分离模型的结构以及训练方法不加以限制。所述声源分离模型可以融合多种神经网络。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN（ConvolutionalNeural Network，卷积神经网络）、LSTM（Long Short-Term Memory，长短时记忆）网络、RNN（Simple Recurrent Neural Network，循环神经网络）、注意力神经网络等。

最后，将所述每个麦克风对应的目标语音数据分别输入声源定位模型，通过所述声源定位模型输出定位结果。所述定位结果包括所述目标语音数据的声源的位置信息。

所述声源定位模型是预先训练好的神经网络模型，可以根据输入的多个麦克风对应的目标语音数据，得到定位结果。所述定位结果包括所述目标语音数据的声源的位置信息，也即可以得到指定声音的声源的位置信息。

本发明实施例对所述位置信息的内容不做限制。示例性地，所述位置信息可以包括方向信息和距离信息。所述方向信息可以为所述目标语音数据的声源相对于终端设备的角度；所述距离信息可以为所述目标语音数据的声源相对于终端设备的距离。又如，所述位置信息可以为所述目标语音数据的声源相对于终端设备的相对位置坐标，在此基础上，可以结合该相对位置坐标以及所述终端设备的位置坐标，计算得到所述目标语音数据的声源的位置坐标。

所述声源定位模型可以为根据大量的训练数据和机器学习方法，对现有的神经网络进行有监督或者无监督训练而得到的。需要说明的是，本发明实施例对所述声源定位模型的结构以及训练方法不加以限制。所述声源定位模型可以融合多种神经网络。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN、LSTM网络、RNN、注意力神经网络等。

参照图2，示出了本发明一个示例中的声源定位方法的流程示意图。如图2所示，终端设备通过多个麦克风采集语音数据，所述方法包括如下步骤：

步骤201、判断终端设备是否已唤醒；若未唤醒，则获取其中一个麦克风的语音数据作为待识别语音数据，执行步骤202；若已唤醒，则获取所有麦克风的语音数据，执行步骤204；

步骤202、识别所述待识别语音数据是否包含唤醒词；若未包含唤醒词，则返回步骤201；若包含唤醒词，执行步骤203；

步骤203、将包含唤醒词的待识别语音数据输入声纹提取模型，得到目标声纹特征，唤醒终端设备；

步骤204、将每个麦克风采集的语音数据分别与所述目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型进行声源分离，得到每个麦克风对应的目标语音数据；

步骤205、将每个麦克风对应的目标语音数据输入声源定位模型，得到定位结果。

本发明实施例利用声源分离模型对每个麦克风采集的语音数据基于所述目标声纹特征进行声源分离，可以得到每个麦克风对应的目标语音数据，所述目标语音数据为所述目标声纹特征对应的语音数据。

例如，假设终端设备配置有mic1、mic2、mic3和mic4这4个麦克风。将mic1采集的语音数据与所述目标声纹特征组成数据对，输入所述声源分离模型，通过所述声源分离模型输出mic1对应的目标语音数据，如记为data1，data1为从mic1采集的语音数据中分离出来的所述目标声纹特征对应的语音数据。将mic2采集的语音数据与所述目标声纹特征组成数据对，输入所述声源分离模型，通过所述声源分离模型输出mic2对应的目标语音数据，如记为data2，data2为从mic2采集的语音数据中分离出来的所述目标声纹特征对应的语音数据。以此类推，可以得到mic1、mic2、mic3和mic4分别对应的目标语音数据，如记为data1、data2、data3和data4。

将每个麦克风对应的目标语音数据（如data1、data2、data3和data4）共同输入声源定位模型，声源定位模型根据多个麦克风对应的目标语音数据，可以得到目标语音数据的定位结果。例如，可以得到所述目标语音数据的声源的位置信息，也即得到指定声音（目标声纹特征对应的语音数据）的声源的位置信息。

进一步地，所述方法还可以包括：将所述定位结果输入目标功能模块，以使所述目标功能模块基于所述定位结果实现目标功能。

所述目标功能模块可以是所述终端设备中的功能模块，或者，所述目标功能模块还可以是其他设备中的功能模块，本发明实施例对此不做限制。所述目标功能模块可以基于所述定位结果实现相应的功能。示例性地，所述目标功能模块可以设置在摄像头中。如果该摄像头具有转向功能，则该摄像头可以实现如下目标功能：自动转向所述定位结果指示的位置信息所在的方向。由此，该摄像头可以根据指定声音所在的方向自动转向，对指定声音的方向进行实时追踪。可以理解的是，所述目标功能模块可以设置在例如，陪护机器人、大厅引导机器人、巡逻机器人、无人机、车载交互系统、智能家电等任意设备中，也就是使用声音位置信息的设备都可以通过该目标功能模块使用上述定位结果，以实现指定的功能。

本发明实施例可以将唤醒终端设备的用户声音作为声源分离模型的依据，得到唤醒终端设备的用户声音对应的目标声纹特征。基于该目标声纹特征可以从包含多人说话声音的语音数据中分离出该目标声纹特征对应的语音数据，消除掉其它声音，得到目标语音数据。最后通过声源定位模型对目标语音数据进行声源定位，由此可以实现对包含多人说话声音的语音数据中的指定声音进行方向追踪。此外，由于本发明实施例通过声源分离得到目标声纹特对应的语音数据（目标语音数据），输入声源定位模型的是不包含其他杂音的目标语音数据，可以提高声源定位的准确性，在嘈杂以及多人说话的场景下，也可以准确实现对指定声音进行方向追踪。

在本发明的一种可选实施例中，步骤S12中可以使用唤醒识别模型来识别所述待识别语音数据是否包含唤醒词。

所述唤醒识别模型是预先训练好的神经网络模型，可以识别输入的待识别语音数据中是否包含指定的唤醒词。

所述唤醒识别模型可以为根据大量的训练数据和机器学习方法，对现有的神经网络进行有监督或者无监督训练而得到的。需要说明的是，本发明实施例对所述唤醒识别模型的结构以及训练方法不加以限制。所述唤醒识别模型可以融合多种神经网络。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN、LSTM网络、RNN、注意力神经网络等。

在本发明的一种可选实施例中，可以通过如下步骤训练唤醒识别模型：

步骤S21、设定唤醒词，并获取正样本和负样本；

步骤S22、构建唤醒识别模型；

步骤S23、利用所述正样本和负样本迭代训练唤醒识别模型，在满足迭代停止条件时，得到训练完成的唤醒识别模型。

所述唤醒词可以通过自定义设定。进一步地，为保证语音唤醒的成功率，设定的唤醒词应满足预设长度，例如，设定的唤醒词的长度可以在4~8个字之间。

正样本指包含唤醒词的语音数据，负样本指不包含唤醒词的语音数据。

接下来构建唤醒识别模型，唤醒识别模型的任务类型为语音分类。本发明实施例对唤醒识别模型的模型结构不做限制。示例性地，唤醒识别模型可以包括一个编码器（encoder）和分类器。参照图3，示出了本发明一个示例中的唤醒识别模型的结构示意图。如图3所示，该唤醒识别模型包括一个编码器（encoder）和一个分类器。其中，编码器（encoder）使用Resnet50结构，分类器使用一层全连接层（Dense）。可以理解的是，本发明实施例对编码器和分类器采用的网络结构不做限制。

将步骤S21获取的正样本和负样本作为训练数据迭代训练唤醒识别模型，在满足迭代停止条件时，得到训练完成的唤醒识别模型。

假设正样本的标签记为1，负样本的标签记为0。在当前一轮的迭代训练中，选取一个训练数据输入唤醒识别模型。假设选取的是一个正样本，通过唤醒识别模型的encoder对输入的该正样本进行特征提取，将encoder输出的特征输入分类器，分类器得到是否包含唤醒词的分类结果。例如，该分类结果可以为包含唤醒词的概率值。将该分类结果与正样本的标签进行对比，根据二者的差异可以计算损失函数的损失值，根据损失值更新所述唤醒识别模型的参数，并进入下一轮迭代训练。在满足迭代停止条件时，停止迭代训练，得到训练完成的唤醒识别模型。

所述迭代停止条件可以包括：损失函数的损失值小于预设值，或者，迭代次数到达预设次数。

在机器学习模型中，对于每一个样本的预测值与真实值的差值称为损失，差值越小，则损失值越小，该学习模型越好。损失函数是用来计算损失值的函数，是一个非负实值函数。本发明实施例对训练唤醒识别模型采用的损失函数不做限制。例如可以使用交叉熵、KL散度、L2loss、MGDloss、FGDloss等任意一种损失函数。

在本发明的一种可选实施例中，可以通过如下步骤训练声纹提取模型：

步骤S31、收集不同目标对象的单一语音样本；

步骤S32、在当前迭代训练中，选取当前的训练数据，所述当前的训练数据包括至少三条单一语音样本，所述至少三条单一语音样本中有至少两条来自同一个目标对象，其余至少一条来自不同的目标对象；

步骤S33、将所述当前的训练数据中每一条单一语音样本分别输入声纹提取模型，通过所述声纹提取模型分别输出所述每一条单一语音样本对应的样本声纹特征；

步骤S34、根据所述样本声纹特征之间的差异，更新所述声纹提取模型的参数，并进入下一轮迭代训练；

步骤S35、在满足迭代停止条件时，得到训练完成的声纹提取模型。

所述不同目标对象的单一语音样本可以为不同人的说话语音。进一步地，为了提高声纹提取模型的精准度，所述单一语音样本可以是在安静环境下录制的。一个示例中，目标对象包括用户A、用户B和用户C，录制用户A在安静环境下的说话语音，得到用户A的单一语音样本；录制用户B在安静环境下的说话语音，得到用户B的单一语音样本；录制用户C在安静环境下的说话语音，得到用户C的单一语音样本。

接下来构建声纹提取模型，声纹提取模型的任务类型为特征提取。本发明实施例对声纹提取模型的模型结构不做限制。示例性地，声纹提取模型可以仅包括一个编码器（encoder）。参照图4，示出了本发明一个示例中的声纹提取模型的结构示意图。如图4所示，该声纹提取模型仅包括一个编码器（encoder），且该编码器使用ResNet50结构。可以理解的是，本发明实施例对编码器采用的网络结构不做限制。

利用步骤S31收集的不同目标对象的单一语音样本生成训练数据，迭代训练声纹提取模型，在满足迭代停止条件时，得到训练完成的声纹提取模型。

在当前一轮的迭代训练中，选取当前的训练数据，所述当前的训练数据包括至少三条单一语音样本，所述至少三条单一语音样本中有至少两条来自同一个目标对象，其余至少一条来自不同的目标对象。

需要说明的是，本发明实施例中以当前的训练数据包括三条单一语音样本为例进行说明。也即，当前的训练数据包括三条单一语音样本，所述三条单一语音样本中有两条来自同一个目标对象，其余一条来自不同的目标对象。当前的训练数据包括四条或四条以上单一语音样本的情况相似，相互参照即可。

例如，在当前一轮的迭代训练中，选取三条单一语音样本分别记为sample1、sample2和sample3。其中，sample1为用户A说话的语音片段，sample2和sample3为用户B说话的两个语音片段。将sample1、sample2和sample3作为当前一轮迭代训练的训练数据。

将sample1、sample2和sample3这三条单一语音样本分别输入声纹提取模型，通过所述声纹提取模型的encoder进行特征提取，分别得到三个样本声纹特征，如记为vector1、vector2和vector3。需要说明的是，本发明实施例对声纹特征的形式不做限制，例如，声纹特征可以是一个多维向量。

根据所述三个样本声纹特征之间的差异，可以计算损失函数的损失值，根据损失值更新所述声纹提取模型的参数，并进入下一轮迭代训练。在满足迭代停止条件时，停止迭代训练，得到训练完成的声纹提取模型。

本发明实施例对训练声纹提取模型采用的损失函数不做限制。例如可以使用交叉熵、KL散度、L2loss、MGDloss、FGDloss等任意一种损失函数。

在本发明实施例中，当前的训练数据包括三条单一语音样本，在这三条单一语音样本中，期望来自同一用户声音（也即来自同一个目标对象）的两条单一语音样本提取的声纹特征尽可能相似，而期望来自不同用户声音（也即来自不同目标对象）的两条单一语音样本提取的声纹特征尽可能不相似。例如，在上述示例中，由于sample2和sample3来自同一个人的声音，因此期望vector2和vector3尽可能相似；由于sample1和sample3来自不同人的声音，因此期望vector1和vector3尽可能不相似。由此，训练声纹提取模型采用的损失函数可以如下：

（1）

其中，L为声纹提取模型的损失函数的损失值，L表示sim(v1,v3)和sim(v2,v3)之间的差异。sim(v1,v3)和sim(v2,v3)采用余弦相似度的取值区间为[-1,1]。sim(v1,v3)的值越大表示vector1和vector3越相似；sim(v1,v3)的值越小表示vector1和vector3越不相似。sim(v2,v3)的值越大表示vector2和vector3越相似；sim(v2,v3)的值越小表示vector2和vector3越不相似。α为预设的sim(v1,v3)和sim(v2,v3)之间的最小距离，α可以根据经验设定，在sim(v1,v3)和sim(v2,v3)采用余弦相似度的情况下，α可以设置为0.2。

当L的值降低到预设值或者迭代次数到达预设次数时，停止迭代训练，得到训练完成的声纹提取模型。

可以理解的是，由于sample1和sample2也来自不同人的声音，期望vector1和vector2尽可能不相似。因此，上式（1）所示的损失函数中，可以将sim(v1,v3)替换为sim(v1,v2)，则α为预设的sim(v1,v2)和sim(v2,v3)之间的最小距离。由此，训练声纹提取模型采用的损失函数可以如下：

（2）

在具体实施中，训练声纹提取模型可以采用上式（1）或（2）任意一种损失函数。

本发明实施例利用上述训练完成的声纹提取模型对待识别语音数据提取声纹特征，可以得到更加精准的目标声纹特征，该目标声纹特征为声源定位所用到的指定的声纹特征，从而可以更加准确的对指定的声音进行方向追踪。

在本发明的一种可选实施例中，可以通过如下步骤训练声源分离模型：

步骤S41、根据收集的不同目标对象的单一语音样本，生成混合语音样本；

步骤S42、将每个所述单一语音样本分别与所述混合语音样本的时长对齐，得到每个目标对象的对齐语音样本；

步骤S43、对每个所述单一语音样本分别提取声纹特征，得到每个目标对象对应的声纹特征；

步骤S44、在当前迭代训练中，选取一个目标对象对应的声纹特征与所述混合语音样本组成数据对输入声源分离模型，通过所述声源分离模型输出生成语音；

步骤S45、基于所述生成语音与当前输入的声纹特征对应的目标对象的对齐语音样本之间的差异，更新所述声源分离模型的参数，并进入下一轮迭代训练；

步骤S46、在满足迭代停止条件时，得到训练完成的声源分离模型。

在具体实施中，训练声源分离模型可以复用训练声纹提取模型时收集的不同目标对象的单一语音样本。

根据收集的不同目标对象的单一语音样本，生成混合语音样本。所述混合语音样本指包含至少两个不同目标对象的声音的语音片段。例如，所述混合语音样本可以包含2~5个不同目标对象的声音。本发明实施例中以所述混合语音样本包含3个不同目标对象的声音为例。

本发明实施例对生成混合语音样本的方式不做限制。一个示例中，随机选取3个不同目标对象的单一语音样本，假设选取了用户A、用户B和用户C的单一语音样本，如分别记为voc1、voc2和voc3。假设voc1的时长为30秒，voc2的时长为20秒，voc3的时长为25秒。利用三个扬声器分别播放voc1、voc2和voc3，同时利用一个麦克风进行录制，由此，该麦克风可以录制得到一个包含voc1、voc2和voc3三个声音的混合语音样本，如记为混合语音样本1。基于上述方法，每次随机选取3个不同目标对象的单一语音样本进行录制，可以得到大量的混合语音样本。

由于不同目标对象的单一语音样本的时长可能不同，因此，在利用当前选取的3个不同目标对象的单一语音样本生成混合语音样本之后，将这3个单一语音样本分别与生成的该混合语音样本的时长对齐，可以得到3个对齐语音样本。

例如，在上述示例中，假设生成的混合语音样本1的时长为50秒。在该混合语音样本1中，voc1的声音是从第11秒开始的。对于单一语音样本voc1，可以在voc1前面添加10秒的静音，并且在voc1末尾添加10秒的静音，由此可以得到一个与混合语音样本1时长一致的对齐语音样本，如记为voc1'。voc1是目标对象用户A的单一语音样本，voc1'称为目标对象用户A对应的对齐语音样本。同样地，将voc2和voc3分别与该混合语音样本1的时长对齐，可以得到对齐语音样本voc2'和voc3'。

需要说明的是，在录制混合语音样本时，通常需要先打开麦克风，再分别打开用于播放单一语音样本的扬声器。因此，打开麦克风和打开扬声器之间会存在一定的空隙时间，使得录制得到的混合语音样本最前面会有一段静音，如上述示例中混合语音样本1的前10秒为静音。在将每个单一语音样本分别与该混合语音样本的时长对齐时，可以在混合语音样本中确定单一语音样本的起点和终点，在单一语音样本的起点位置之前以及终点位置之后添加静音，由此得到对齐语音数据。例如，对于单一语音样本voc1，先在混合语音样本1中找到voc1的起点和终点，假设起点为第11秒，终点为第40秒，则在voc1中起点位置之前以及终点位置之后添加静音，使得对齐后的时长与混合语音样本1的时长相等，得到对齐语音样本voc1'。voc1'的前10秒为静音，第11秒到第40秒为voc1的声音，第41秒到第50秒为静音。由此，对齐语音样本voc1'与混合语音样本1的时长相等，并且voc1'中voc1的声音与混合语音样本1中voc1的声音位于相同的时间段。

然后，对每个所述单一语音样本分别提取声纹特征，得到每个目标对象对应的声纹特征。该步骤可以利用训练完成的声纹提取模型提取每个单一语音样本的声纹特征。例如，提取voc1得到声纹特征A，提取voc2得到声纹特征B，提取voc3得到声纹特征C。

接下来构建声源分离模型，声源分离模型的任务类型为生成语音。本发明实施例对声源分离模型的模型结构不做限制。示例性地，声源分离模型可以包括vector encoder（声纹特征编码器）、audio encoder（语音特征编码器）和decoder（解码器）。vectorencoder用于对输入的目标对象对应的声纹特征进行编码，得到声纹特征编码。audioencoder用于对输入的混合语音样本进行编码，得到语音特征编码。decoder用于对vectorencoder得到的声纹特征编码和audio encoder得到的语音特征编码进行解码，得到生成语音，该生成语音为从该混合语音样本中分离出的该目标对象对应的声纹特征的语音数据。

参照图5，示出了本发明一个示例中的声源分离模型的结构示意图。如图5所示，该声源分离模型使用3层全连接层（Dense）作为 vector encoder（声纹特征编码器），audioencoder（语音特征编码器）使用Transformer结构中的Encoder，以及decoder（解码器）使用Transformer结构中的Decoder。可以理解的是，本发明实施例对vector encoder（声纹特征编码器）、audio encoder（语音特征编码器）、以及decoder（解码器）的网络结构不做限制。

在声源分离模型的一轮迭代训练中，一条训练数据可以包括：混合语音样本、一个目标对象对应的声纹特征、以及该目标对象对应的对齐语音样本。例如，在上述示例中，训练声源分离模型的训练数据可以包括：混合语音样本1+声纹特征A+voc1'，混合语音样本1+声纹特征B+voc2'，混合语音样本1+声纹特征C+voc3'。

可以理解的是，按照生成上述3条训练数据的方法，可以生成若干条训练数据。例如，训练数据还可以包括：混合语音样本2+声纹特征D+voc4'，混合语音样本2+声纹特征E+voc5'，混合语音样本2+声纹特征F+voc6'；等等。其中，混合语音样本2为对用户D、用户E和用户F的单一语音样本voc4、voc5和voc6进行录制得到。对voc4、voc5和voc6分别提取的声纹特征为声纹特征D、声纹特征E和声纹特征F。将voc4、voc5和voc6分别与混合语音样本2的时长对齐，得到对齐语音样本voc4'、voc5'和voc6'。

利用生成的若干条训练数据，迭代训练声源分离模型，在满足迭代停止条件时，得到训练完成的声源分离模型。

在当前迭代训练中，选取一个目标对象对应的声纹特征与所述混合语音样本组成数据对输入声源分离模型，通过所述声源分离模型输出生成语音。

参照图6，示出了本发明一个示例中声源分离模型的一轮迭代训练示意图。例如，在当前迭代训练中，将生成的混合语音样本1和声纹特征A输入声源分离模型。如图6所示，将混合语音样本1输入audio encoder（语音特征编码器），通过audio encoder（语音特征编码器）输出语音编码特征；将声纹特征A输入vector encoder（声纹特征编码器），通过vector encoder（声纹特征编码器）输出声纹特征编码。将vector encoder（声纹特征编码器）输出的声纹特征编码和audio encoder（语音特征编码器）输出的语音编码特征输入decoder（解码器），通过decoder（解码器）输出生成语音，如记为voc1''。基于该生成语音voc1''与当前输入的声纹特征（即声纹特征A）对应的目标对象的对齐语音样本（即voc1'）之间的差异，即voc1''与voc1'之间的差异，可以计算损失函数的损失值。根据损失值更新所述声源分离模型的参数，并进入下一轮迭代训练。

例如，在下一轮迭代训练中，将生成的混合语音样本1和声纹特征B输入声源分离模型，声源分离模型输出生成语音，如记为voc2''。基于voc2''与voc2'之间的差异，可以计算损失函数的损失值，根据损失值更新所述声源分离模型的参数，并进入下一轮迭代训练。以此类推，在满足迭代停止条件时，停止迭代训练，得到训练完成的声源分离模型。

本发明实施例对训练声源分离模型采用的损失函数不做限制。例如可以使用交叉熵、KL散度、L2loss、MGDloss、FGDloss等任意一种损失函数。

本发明实施例通过复用训练声纹提取模型时收集的不同目标对象的单一语音样本，生成用于训练声源分离模型的训练数据，可以减少数据收集的成本。

在声源分离模型训练完成后，可以利用训练完成的声源分离模型进行声源分离。例如，在步骤102中，将终端设备的每个麦克风采集的语音数据分别与目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据。

假设终端设备配置有mic1、mic2、mic3和mic4这4个麦克风。mic1、mic2、mic3和mic4采集的语音数据分别记为sound1、sound2、sound3和sound4。将sound1与目标声纹特征组成数据对，输入声源分离模型。具体地，将目标声纹特征输入vector encoder，通过vector encoder输出声纹特征编码；将sound1输入audio encoder，通过audio encoder输出语音编码特征；将vector encoder输出的声纹特征编码和audio encoder输出的语音编码特征输入decoder，通过decoder输出mic1对应的目标语音数据，如记为data1，data1为从sound1中分离出来的目标声纹特征对应的语音数据。同样地，将sound2与目标声纹特征组成数据对，输入声源分离模型，得到mic2对应的目标语音数据，如记为data2，data2为从sound2中分离出来的目标声纹特征对应的语音数据。以此类推。

最后，将每个麦克风对应的目标语音数据（如data1、data2、data3和data4）共同输入声源定位模型，声源定位模型根据多个麦克风对应的目标语音数据，可以得到目标语音数据的定位结果。

在本发明的一种可选实施例中，可以通过如下步骤训练声源定位模型：

步骤S51、利用多个麦克风录制训练语音样本，并记录每个训练语音样本在录制时对应的第一位置信息；

步骤S52、在当前迭代训练中，选取所述多个麦克风一次录制的训练语音样本，并输入声源定位模型，通过所述声源定位模型输出第二位置信息；

步骤S53、根据所述第二位置信息与所述第一位置信息之间的差异，更新所述声源定位模型的参数，并进入下一轮迭代训练；

步骤S54、在满足迭代停止条件时，得到训练完成的声源定位模型。

本发明实施例利用多个麦克风录制用于训练声源定位模型的训练数据，也称为训练语音样本，并记录每个训练语音样本在录制时对应的第一位置信息，第一位置信息可以作为所述训练语音样本的标签信息。

通过重复执行多次步骤S51，可以得到大量的训练语音样本和对应的第一位置信息，可以作为训练声源定位模型的训练数据。

接下来构建声源定位模型，声源定位模型的任务类型为逻辑回归任务。本发明实施例对声源定位模型的模型结构不做限制。示例性地，声源定位模型可以为Transformer模型。

利用生成的大量的训练语音样本迭代训练声源分离模型，在满足迭代停止条件时，得到训练完成的声源分离模型。

在当前迭代训练中，选取所述多个麦克风一次录制的训练语音样本，并输入声源定位模型，通过所述声源定位模型输出第二位置信息。例如，通过所述多个麦克风录制多次，得到多次录制的多个训练语音样本。在当前迭代训练中，从所述多个麦克风多次录制的多个训练语音样本，选取某一次录制的一个训练语音样本，输入声源定位模型，得到该训练语音样本对应的第二位置信息。基于声源定位模型对该训练语音样本预测得到的第二位置信息与记录的该训练语音样本的第一位置信息之间的差异，可以计算损失函数的损失值，根据损失值更新所述声源定位模型的参数，并进入下一轮迭代训练。在满足迭代停止条件时，停止迭代训练，得到训练完成的声源定位模型。

本发明实施例对训练声源定位模型采用的损失函数不做限制。例如可以使用MSE（平均绝对误差）、交叉熵、KL散度、L2loss、MGDloss、FGDloss等任意一种损失函数。

在本发明的一种可选实施例中，所述定位结果可以包括所述目标语音数据中各采样点对应的定位结果，所述采样点为基于预设采样频率采集的语音数据。本发明实施例对所述预设采样频率不做限制。例如，预设采样频率为16khz，则一个麦克风1秒钟产生16000个采样点。

在实际应用中，在声源定位过程中，目标语音数据的声源的位置可能会发生变化。例如，目标声纹特征的说话人走动等。

本发明实施例的声源定位模型可以根据多个麦克风针对所述目标语音数据的同一时间的采样点进行声源定位，得到所述目标语音数据中各采样点对应的定位结果，以更加准确的实现对指定声音进行方向追踪。

参照图7，示出了本发明一个示例中声源定位模型进行声源定位的示意图。如图7所示，每个圆点表示一个采样点。如图7所示，将mic1~mic4这4个麦克风分别采集的语音数据共同输入声源定位模型。每个麦克风采集的语音数据是由若干个采样点组成。对于某个采样点，如该采样点为在时间16:30:02采样的语音数据，声源定位模型结合这4个麦克风在该时间的采样点分别对应的音量及相位进行分类，得到该采样点的定位结果。该采样点的定位结果可以表示在时间16:30:02时，指定声音所在的位置信息。由此，根据所述目标语音数据中各采样点对应的定位结果，可以对指定声音实时进行方向追踪。

综上，本发明实施例提供了一种声源定位方法，将终端设备的每个麦克风采集的语音数据分别与指定的目标声纹特征组成数据对，依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据。由此可以基于目标声纹特征从包含多人说话声音的语音数据中分离出该目标声纹特征对应的语音数据，消除掉其它声音，得到目标语音数据。再通过声源定位模型对目标语音数据进行声源定位，可以实现对包含多人说话声音的语音数据中的指定声音进行方向追踪。此外，由于本发明实施例通过声源分离得到目标声纹特对应的语音数据（目标语音数据），输入声源定位模型的是不包含其他杂音的目标语音数据，可以提高声源定位的准确性，在嘈杂以及多人说话的场景下，也可以准确实现对指定声音进行方向追踪。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图8，示出了本发明的一种声源定位装置实施例的结构框图，所述装置可应用于终端设备，所述终端设备配置有多个麦克风，所述装置包括：

目标声纹获取模块801，用于获取目标声纹特征；

声源分离模块802，用于将所述终端设备的每个麦克风采集的语音数据分别与所述目标声纹特征组成数据对，并将所述数据对依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据；所述目标语音数据为所述目标声纹特征对应的语音数据；

声源定位模块803，用于将所述每个麦克风对应的目标语音数据输入声源定位模型，通过所述声源定位模型输出定位结果。

可选地，所述目标声纹获取模块，包括：

语音获取子模块，用于在所述终端设备未唤醒的情况下，获取任意一个麦克风采集的语音数据作为待识别语音数据；

声纹提取子模块，用于在确定所述待识别语音数据包含唤醒词时，唤醒所述终端设备，并将所述待识别语音数据输入声纹提取模型，通过所述声纹提取模型输出目标声纹特征。

可选地，所述装置还包括声纹提取模型训练模块，所述声纹提取模型训练模块，包括：

第一收集子模块，用于收集不同目标对象的单一语音样本；

第一选取子模块，用于在当前迭代训练中，选取当前的训练数据，所述当前的训练数据包括至少三条单一语音样本，所述至少三条单一语音样本中有至少两条来自同一个目标对象，其余至少一条来自不同的目标对象；

第一训练子模块，用于将所述当前的训练数据中每一条单一语音样本分别输入声纹提取模型，通过所述声纹提取模型分别输出所述每一条单一语音样本对应的样本声纹特征；根据所述样本声纹特征之间的差异，更新所述声纹提取模型的参数，并进入下一轮迭代训练；在满足迭代停止条件时，得到训练完成的声纹提取模型。

可选地，所述装置还包括声源分离模型训练模块，所述声源分离模型训练模块，包括：

数据处理子模块，用于根据收集的不同目标对象的单一语音样本，生成混合语音样本；将每个所述单一语音样本分别与所述混合语音样本的时长对齐，得到每个目标对象的对齐语音样本；对每个所述单一语音样本分别提取声纹特征，得到每个目标对象对应的声纹特征；

第二训练子模块，用于在当前迭代训练中，选取一个目标对象对应的声纹特征与所述混合语音样本组成数据对输入声源分离模型，通过所述声源分离模型输出生成语音；基于所述生成语音与当前输入的声纹特征对应的目标对象的对齐语音样本之间的差异，更新所述声源分离模型的参数，并进入下一轮迭代训练；在满足迭代停止条件时，得到训练完成的声源分离模型。

可选地，所述装置还包括声源定位模型训练模块，所述声源定位模型训练模块，包括：

第二收集子模块，用于利用多个麦克风录制训练语音样本，并记录每个训练语音样本在录制时对应的第一位置信息；

第三训练子模块，用于在当前迭代训练中，选取所述多个麦克风一次录制的训练语音样本，并输入声源定位模型，通过所述声源定位模型输出第二位置信息；根据所述第二位置信息与所述第一位置信息之间的差异，更新所述声源定位模型的参数，并进入下一轮迭代训练；在满足迭代停止条件时，得到训练完成的声源定位模型。

可选地，所述定位结果包括所述目标语音数据中各采样点对应的定位结果，所述采样点为基于预设采样频率采集的语音数据。

本发明实施例提供了一种声源定位装置，将终端设备的每个麦克风采集的语音数据分别与指定的目标声纹特征组成数据对，依次输入声源分离模型，通过所述声源分离模型输出所述每个麦克风对应的目标语音数据。由此可以基于目标声纹特征从包含多人说话声音的语音数据中分离出该目标声纹特征对应的语音数据，消除掉其它声音，得到目标语音数据。再通过声源定位模型对目标语音数据进行声源定位，可以实现对包含多人说话声音的语音数据中的指定声音进行方向追踪。此外，由于本发明实施例通过声源分离得到目标声纹特对应的语音数据（目标语音数据），输入声源定位模型的是不包含其他杂音的目标语音数据，可以提高声源定位的准确性，在嘈杂以及多人说话的场景下，也可以准确实现对指定声音进行方向追踪。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行前文图1所对应实施例中声源定位方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种声源定位方法、声源定位装置和机器可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声源定位方法，其特征在于，应用于终端设备，所述终端设备配置有多个麦克风，所述方法包括：

获取目标声纹特征；

将所述每个麦克风对应的目标语音数据输入声源定位模型，通过所述声源定位模型输出定位结果；

所述获取目标声纹特征，包括：

在所述终端设备未唤醒的情况下，获取任意一个麦克风采集的语音数据作为待识别语音数据；

在确定所述待识别语音数据包含唤醒词时，唤醒所述终端设备，并将所述待识别语音数据输入声纹提取模型，通过所述声纹提取模型输出目标声纹特征；

所述方法还包括：

收集不同目标对象的单一语音样本；

在当前迭代训练中，选取当前的训练数据，所述当前的训练数据包括至少三条单一语音样本，所述至少三条单一语音样本中有至少两条来自同一个目标对象，其余至少一条来自不同的目标对象；

将所述当前的训练数据中每一条单一语音样本分别输入声纹提取模型，通过所述声纹提取模型分别输出所述每一条单一语音样本对应的样本声纹特征；

根据所述样本声纹特征之间的差异，更新所述声纹提取模型的参数，并进入下一轮迭代训练；

在满足迭代停止条件时，得到训练完成的声纹提取模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据收集的不同目标对象的单一语音样本，生成混合语音样本；

将每个所述单一语音样本分别与所述混合语音样本的时长对齐，得到每个目标对象的对齐语音样本；

对每个所述单一语音样本分别提取声纹特征，得到每个目标对象对应的声纹特征；

在当前迭代训练中，选取一个目标对象对应的声纹特征与所述混合语音样本组成数据对输入声源分离模型，通过所述声源分离模型输出生成语音；

基于所述生成语音与当前输入的声纹特征对应的目标对象的对齐语音样本之间的差异，更新所述声源分离模型的参数，并进入下一轮迭代训练；

在满足迭代停止条件时，得到训练完成的声源分离模型。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用多个麦克风录制训练语音样本，并记录每个训练语音样本在录制时对应的第一位置信息；

在当前迭代训练中，选取所述多个麦克风一次录制的训练语音样本，并输入声源定位模型，通过所述声源定位模型输出第二位置信息；

根据所述第二位置信息与所述第一位置信息之间的差异，更新所述声源定位模型的参数，并进入下一轮迭代训练；

在满足迭代停止条件时，得到训练完成的声源定位模型。

4.根据权利要求1所述的方法，其特征在于，所述定位结果包括所述目标语音数据中各采样点对应的定位结果，所述采样点为基于预设采样频率采集的语音数据。

5.一种声源定位装置，其特征在于，应用于终端设备，所述终端设备配置有多个麦克风，所述装置包括：

目标声纹获取模块，用于获取目标声纹特征；

声源定位模块，用于将所述每个麦克风对应的目标语音数据输入声源定位模型，通过所述声源定位模型输出定位结果；

所述目标声纹获取模块，包括：

声纹提取子模块，用于在确定所述待识别语音数据包含唤醒词时，唤醒所述终端设备，并将所述待识别语音数据输入声纹提取模型，通过所述声纹提取模型输出目标声纹特征；

所述装置还包括声纹提取模型训练模块，所述声纹提取模型训练模块，包括：

第一收集子模块，用于收集不同目标对象的单一语音样本；

6.一种机器可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至4中任一所述的声源定位方法。