CN115132221A

CN115132221A - 一种人声分离的方法、电子设备和可读存储介质

Info

Publication number: CN115132221A
Application number: CN202110327998.6A
Authority: CN
Inventors: 柯胜强; 耿杰; 金洪宾; 邓淇天; 王剑桥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-09-30

Abstract

本申请提出一种人声分离的方法，应用于执行设备，该方法包括：接收在指定空间中的用户的语音；指定空间为具有多个成员的有限空间；根据多个成员的已注册声纹，利用用户的语音确定主说话人；确定除主说话人以外的多个成员均为噪声说话人；获取指定空间中的混合音频对应的混合频谱，混合音频为主说话人的音频和至少一个噪声说话人的音频混叠的语音信息；通过声纹过滤网络对混合频谱和多个成员的已注册声纹进行处理，得到混合音频中主说话人的频谱；其中，声纹过滤网络用于将已注册声纹中主说话人的声纹作为正向激励，将已注册声纹中多个噪声说话人的声纹作为负向激励，从混合频谱中分离出主说话人的频谱；根据主说话人的频谱得到主说话人的音频。

Description

一种人声分离的方法、电子设备和可读存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种人声分离的方法、电子设备和可读存储介质。

背景技术

人工智能(Artificial Intelligence,AI)是利用计算机或者计算机控制的机器模拟、延伸和扩展人的智能，感知环境，获取知识，并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人、自然语言处理、计算机视觉、决策与推理、人机交互、推荐与搜索和AI基础理论等。

语音识别(automatic speech recognition，ASR)技术作为人机交互的一种重要技术，识别准确率是交互体验的重要指标；当前语音识别技术的发展在安静场景下识别准确率比较高，但是在噪声场景，特别是人群噪声场景，识别准确率容易受到其他人声的干扰而降低。

语音识别技术作为智能电视、智能音箱等智能设备的主要交互方式，在家庭、住所和办公室等人员固定的室内场所噪声主要来自其他人员的声音干扰。如何抑制其他人员的声音以提高主说话人语音识别的准确率是当前需要解决的问题。

发明内容

为了解决上述的问题，本申请的实施例提供了人声分离的方法、电子设备和可读存储介质。

第一方面，本申请的实施例提供了一种人声分离的方法，应用于执行设备，所述方法包括：接收在指定空间中的用户的语音；所述指定空间为具有多个成员的有限空间；根据所述多个成员的已注册声纹，利用所述用户的语音确定主说话人；确定除主说话人以外的多个成员均为噪声说话人；获取所述指定空间中的混合音频对应的混合频谱，所述混合音频为主说话人的音频和至少一个噪声说话人的音频混叠的语音信息；通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱；其中，所述声纹过滤网络用于将所述已注册声纹中所述主说话人的声纹作为正向激励，将所述已注册声纹中多个所述噪声说话人的声纹作为负向激励，从所述混合频谱中分离出所述主说话人的频谱；根据所述主说话人的频谱得到所述主说话人的音频。如此，能够结合多个成员的声纹信息，在不同的成员使用智能设备时进行人声分离，得到成员的干净的人声分离音频。

在一种可能的实施方式中，所述根据所述多个成员的已注册声纹，利用所述用户的语音确定主说话人，包括：通过声纹网络提取所述用户的语音的声纹；所述声纹网络为深度神经网络模型或长短期记忆网络；计算所述用户的语音的声纹与所述多个成员的已注册声纹中的每一个成员的注册声纹的相似度值；将所述相似度值排序；根据排序结果确定与所述用户的语音的声纹相似度最高的所述注册声纹对应的说话人为主说话人。如此，能够在不同的成员使用智能设备时分辨说话人的身份，并获得与其身份一致的注册声纹。

在一种可能的实施方式中，所述声纹过滤网络包括第一子网络、第二子网络和第三子网络；所述第一子网络用于在所述主说话人的声纹中嵌入第一编码以获取正向增强声纹，在所述至少一个噪声说话人声纹中的每一个噪声说话人声纹嵌入第二编码以获得至少一个负向抑制声纹；所述第二子网络用于根据所述正向增强声纹对所述混合频谱进行正向激励，得到对应的一条正向增强频谱，根据所述至少一负向抑制声纹分别对所述混合频谱进行负向激励，得到对应的至少一条负向抑制频谱；所述第三子网络用于将所述一条正向增强频谱和至少一条负向抑制频谱进行融合处理，得到一条融合频谱掩码，以便将所述融合频谱掩码和所述混合频谱逐点相乘，得到主说话人的频谱。如此，所述声纹过滤网络能够将主说话人的声纹和噪声说话人的声纹以及智能设备获得的多人声混叠的混合音频数据的频谱进行处理，增强主说话人的声音，抑制噪声说话人的声音，将主说话人的音频信息从多人声混叠的混合语音音频中分离出来。

在一种可能的实施方式中，所述通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱，包括：将所述多个成员的已注册声纹输入所述第一子网络，将所述多个成员的已注册声纹中的主说话人的声纹中嵌入所述第一编码，得到正向增强声纹；将所述至少一个噪声说话人声纹中的每一个噪声说话人声纹中嵌入所述第二编码，得到至少一个负向抑制声纹。如此，所述第一子网络能够区别处理主说话人的声纹和噪声说话人声纹。

在一种可能的实施方式中，所述通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱，包括：将所述混合频谱输入第二子网络进行卷积，输出卷积结果；将所述卷积的结果与所述正向增强声纹经过拼接模块逐帧拼接，拼接的结果依次通过长短时记忆网络、全连接网络和软掩码预测网络进行正向激励，得到一条正向增强频谱；将所述卷积的结果与所述至少一个负向抑制声纹经过拼接模块逐帧拼接，拼接的结果依次通过长短时记忆网络、全连接网络和软掩码预测网络进行负向激励，得到至少一条负向抑制频谱。如此，所述第二子网络能够增强混合频谱中的主说话人的频谱和抑制混合频谱中的噪声说话人频谱。

在一种可能的实施方式中，所述通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱，包括：将所述正向增强频谱和所述至少一条负向抑制频谱输入所述第三子网络进行融合，获得一条融合频谱掩码；将所述融合频谱掩码与所述混合频谱逐点相乘，计算得到所述主说话人的频谱。如此，所述第三子网络能够将主说话人的频谱从混合频谱中分离出来。

在一种可能的实施方式中，所述第一编码和第二编码是由正负向编码生成器生成的。如此可以得到不同的编码，以便分别嵌入到主说话人的声纹和噪声说话人声纹中。

在一种可能的实施方式中，所述第三子网络使用Sigmoid函数对所述全连接网络输出的结果进行掩码计算处理，得到一条融合频谱掩码。如此可以从混合频谱中得到抑制了噪声说话人声纹频谱的融合频谱掩码。

在一种可能的实施方式中，在所述接收在指定空间中的用户的语音之前包括：通过声纹网络预先获取至少两个成员的声纹进行注册；所述声纹网络为深度神经网络模型或长短期记忆网络模型。如此可以得到指定空间中的多个用户的注册声纹。

在一种可能的实施方式中，在所述接收在指定空间中的用户的语音之后，还包括：根据所述用户的语音中包含唤醒词确定所述语音为唤醒音频。如此可以得到指定空间中的智能设备的唤醒音频。

在一种可能的实施方式中，所述根据所述多个成员的已注册声纹，利用所述用户的语音确定主说话人，包括：通过声纹网络提取所述唤醒音频的声纹；所述声纹网络为深度神经网络模型或长短期记忆网络；计算所述唤醒音频的声纹与所述多个成员的已注册声纹中的每一个成员的注册声纹的相似度值；将所述相似度值排序；根据排序结果确定与所述唤醒音频的声纹相似度最高的所述注册声纹对应的说话人为主说话人。如此可以根据唤醒音频的声纹确定说话人的身份。

第二方面，本申请的实施例提供了一种声纹过滤网络的训练方法，应用于训练设备，所述声纹过滤网络包括第一子网络、所述第二子网络和第三子网络；以目标人声纹和第一、第二编码为所述第一子网络的输入；以所述第一子网络的输出以及目标人音频、其它人音频和噪声的混合音频对应的混合频谱为所述第二子网络的输入；以正向增强频谱和负向抑制频谱为所述第二子网络的输出，使用联合训练的方式训练第一子网络与所述第二子网络；以所述第二子网络的输出为所述第三子网络的输入，以掩码后的频谱为输出训练所述第三子网络；获得训练好的所述声纹过滤网络。其有益效果如上，不再赘述。

在一种可能的实施方式中，根据权利要求12所述的声纹过滤网络的训练方法，所述使用联合训练的方式训练第一子网络与所述第二子网络，包括：计算所述目标人音频对应的频谱与所述正向增强频谱之间的第一损失函数；计算所述其它人音频对应的频谱与所述负向抑制频谱之间的第二损失函数；以所述第一损失函数和所述第二损失函数分别收敛于某个阈值为目标进行迭代训练，获得训练好的第一子网络与所述第二子网络。

在一种可能的实施方式中，所述以所述第二子网络的输出为所述第三子网络的输入，以掩码后的频谱为输出训练所述第三子网络，包括：计算所述掩码后的频谱与所述目标人声频谱之间的第三误差损失函数；以所述第三误差损失函数收敛于某个阈值为目标进行迭代训练，获得训练好的第三子网络。

在一种可能的实施方式中，所述以所述第二子网络的输出为所述第三子网络的输入，以掩码后的频谱为输出训练所述第三子网络包括：在每次迭代时将所述第一子网络与所述第二子网络的参数冻结住，更新所述第三子网络的参数；或在每次迭代时同时更新所述第一子网络与所述第二子网络及所述第三子网络的参数。

第三方面，本申请的实施例提供了一种电子设备，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述电子设备执行上述任一项所述的人声分离的方法；或者，当所述程序或指令被所述处理器执行时，使得所述电子设备执行上述任一项所述声纹过滤网络的训练方法。

第四方面，本申请的实施例提供了一种计算机程序产品，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码被计算机执行时，使得计算机实现上述任一项所述的人声分离的方法；或者，当所述计算机程序代码被计算机执行时，使得计算机实现上述任一项所述声纹过滤网络的训练方法。

第五方面，本申请的实施例提供了一种计算机可读存储介质，用于储存计算机程序或指令，所述计算机程序或指令被执行时使得计算机执行上述任一项所述的人声分离的方法；或者，所述计算机程序或指令被执行时使得计算机执行上述任一项所述声纹过滤网络的训练方法。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

下面对实施例或现有技术描述中所需使用的附图作简单地介绍。

图1为本申请实施例提出的一种人工智能主体框架示意图；

图2为本申请实施例提出的一种人声分离的方法的系统架构示意图；

图3为本申请实施例提出的一种人声分离的方法流程图；

图4A为本申请实施例提出的一种人声分离的方法的注册声纹的手机UI界面交互图；

图4B为本申请实施例提出的一种人声分离的方法的多个成员声纹注册过程示意图；

图5为本申请实施例提出的一种人声分离的方法的唤醒语音的声纹识别逻辑功能流程框图；

图6为本申请实施例提出的一种人声分离的方法的声纹过滤网络的功能原理图；

图7为本申请实施例提出的一种人声分离的方法的应用声纹过滤网络进行声纹过滤的流程图；

图8为本申请实施例提出的一种人声分离的方法的正负向声纹嵌入网络和声纹过滤网络联合训练的示意图；

图9为本申请实施例提出的一种人声分离的方法的掩码融合网络训练的示意图；

图10为本申请实施例提出的一种人声分离的方法的正负向声纹嵌入网络与声纹过滤网络的部署态示意图；

图11为本申请实施例提出的一种人声分离的方法的应用场景示意图。

具体实施方式

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三等”或模块A、模块B、模块C等，仅用于区别类似的对象，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的表示步骤的标号，如S110、S120……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在一种可能的方案中，采用了基于单个目标人声纹特征的人声分离方法，通过单个目标人声纹特征过滤通用的多人噪声音频，分离出目标人声的音频。具体步骤为：计算单个目标人音频功率谱；将目标人音频功率谱输入卷积时序相关卷积神经网络(convolutional neural network，CNN)，得到目标人对应的声纹特征；通过短时傅里叶变换(short time fourier transform，STFT)计算包含目标人声的混合噪声音频的功率谱；将功率谱输入音频过滤神经网络，该网络由8个卷积层，1个LSTM层，2个全连接层组成，声纹特征在时间维度进行重复，然后与卷积层的输出进行拼接。将拼接的结果作为长短时记忆网络(Long Short-Term Memory，LSTM)层的输入，通过激活函数(sigmoid)输出软掩码。软掩码乘以目标人音频功率谱计算得到目标人的增强功率谱，最后通过逆STFT得到目标人的音频。

上述方案由于只使用了目标人的声纹特征，在获取软掩码时只获取了目标人的增强掩码，因此在多人噪声的音频增强时，会保留其他人声的少量信息，无法将其他人声的噪音剔除干净。

在多人混叠说话的情况下，成员普遍希望智能终端能够识别出主说话人的声音，将其他人声的噪音剔除，因此在成员固定的室内场所内针对多个正在说话的成员需要分离出不同的目标人声音。本申请实施例提出一种人声分离的方法，能够结合多个成员的声纹信息，在不同的成员使用智能设备时进行人声分离，得到成员的干净的人声分离音频。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。下面基于图1示出的人工智能主体框架从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对本申请提供的一种人声分离的方法进行说明。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施10：

基础设施10为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。

(2)数据11

基础设施10的上一层的数据11用于表示人工智能领域的数据来源。

在本申请实施例提出的一种人声分离的方法、装置和电子设备中，基础设施10的上一层的数据11来源于人员固定的室内的场所中多人声混叠的混合音频数据。

(3)数据处理12

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

在本申请实施例提出的一种人声分离的方法中，进行人声分离的数据处理过程至少包括混合音频数据的数据训练，机器学习，深度学习等。

(4)通用能力13

数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统。

在本申请实施例提出的一种人声分离的方法中，混合音频数据经过上述数据处理后，基于数据处理的结果可以在多人场景下进行人声分离，参考多个目标人的声纹能够定向分离出主说话人的声音。

(5)智能产品及行业应用14

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。本申请实施例提出的一种人声分离的方法，可应用于智能终端、智能家居、智能安防、自动驾驶等领域智能设备的人机交互技术中，主要应用场景为在一些成员固定的室内场所内，当存在多个成员同时说话时，智能设备能够进行特定目标人的人声分离。

示例性地，成员固定的室内场所包括家庭、住所、办公室或驾驶室等。

示例性地，智能设备包括智能电视、智能音箱、机器人、智能空调、智能烟雾警报器、智能灭火器、智能车载终端(electronic control unit,ECU)、手机、平板、笔记本电脑、台式电脑、一体机等。

上述智能设备的使用成员基本固定，由成员的声纹所构成的声纹特征数据库相对稳定，同时智能设备所采集的多人声混叠场景中的声源在有限空间范围内，在这些条件下，根据本申请实施例提供的一种人声分离的方法能够增强主说话人的声音，抑制噪声说话人的声音，将主说话人的音频信息从多人声混叠的混合语音音频中分离出来。

图2示出本申请实施例实施例提出的一种人声分离的方法的系统架构示意图。如图2所示，在系统示意图200中，数据采集设备260用于采集一个成员固定的室内场所多个成员的声纹特征数据并存入数据库230，训练设备220基于数据库230中维护的多个成员的声纹特征数据训练声纹过滤网络201。声纹过滤网络201能够在室内场所多个成员说话的场景下进行人声分离，根据每个成员声纹特征分离出每个成员的声音。

下面将更详细地描述训练设备220如何基于多个成员的声纹特征数据训练声纹过滤网络201。

因为希望声纹过滤网络201的输出的音频尽可能的接近真正说话人的音频，所以可以通过比较当前声纹过滤网络201输出的音频和真正说话人的音频，再根据两者之间的差异情况来更新每一层网络的权重向量。当然，在第一次更新之前通常会有初始化的过程，即为网络中的各层预先配置参数，比如，如果网络的输出的音频值高了，就调整权重向量让它输出低一些，不断的调整，直到网络能够输出真正说话人的音频。因此，就需要预先定义“如何比较输出的音频和真正说话人的音频之间的差异”，这便是损失函数(lossfunction)，它们是用于衡量输出的音频和真正说话人的音频的差异的重要方程。其中，以均方误差损失(mse loss)函数举例，均方误差损失函数的输出值越高表示差异越大，那么网络的训练就变成了尽可能缩小mse loss的过程。

训练设备220得到的成员声纹过滤网络201可以应用不同的系统或设备中。

在图2中，执行设备210配置有I/O接口212，与外部设备进行语音数据交互，成员可以通过客户设备240向I/O接口212输入语音数据。该语音数据可以是一个室内场所的多个成员同时说话的多人声混叠的混合音频数据。

示例性地，客户设备240用于收集用户的语音数据，可以是收音设备，包括集成的麦克风、与智能设备相连的麦克风或者麦克风阵列、或通过短距离连接技术与智能设备通信连接的麦克风或者麦克风阵列等。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

声纹提取模块213处理输入的语音数据，提取语音数据中的说话人声纹，将该声纹与已注册的声纹进行相似度计算并排序，相似度最高的已注册的声纹对应的说话人为主说话人，其他已注册的声纹对应的说话人为噪声说话人。

计算模块211用于使用短时傅里叶变换(short-time Fourier transform，STFT)计算该多人声混叠的混合音频数据的频谱。再结合声纹提取模块213确定的主说话人和噪声说话人，经过声纹过滤网络201，得到主说话人的干净频谱。最后使用逆短时傅里叶变换(inverse short-time Fourier transform，ISTFT)，得到主说话人的干净音频。

最后，I/O接口212将处理语音识别结果返回给客户设备240，提供给成员。

更深层地，训练设备220以输出多个成员的音频为训练目标，基于多个成员的音频训练数据生成相应的声纹过滤网络201，以给成员提供更佳的结果。

在附图2中所示情况下，成员可以手动指定输入执行设备210中的多人声混叠的混合音频数据，例如，在I/O接口212提供的界面中操作。另一种情况下，客户设备240可以自动地向I/O接口212输入多人声混叠的混合音频数据并获得结果，如果客户设备240自动输入多人声混叠的混合音频数据需要获得成员的授权，成员可以在客户设备240中设置相应权限。成员可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为语音数据采集端将采集到语音数据存入数据库230。

值得注意的，附图2仅是本申请实施例实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图2中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。

本申请实施例提出的一种人声分离的方法，在成员固定的室内场所内，根据智能设备获得的说话人音频对多个成员已注册的声纹进行声纹排序，确定主说话人的声纹和噪声说话人的声纹，将主说话人的声纹和噪声说话人的声纹以及智能设备获得的多人声混叠的混合音频数据的频谱进行处理，增强主说话人的声音，抑制噪声说话人的声音，将主说话人的音频信息从多人声混叠的混合语音音频中分离出来。

图3为本申请实施例提出的一种人声分离的方法流程图。如图3所示，基于已注册的每个成员的声纹信息，执行设备210执行以下步骤实现本申请实施例提出的一种人声分离的方法：

S300，注册每个成员的声纹。

在家庭、住所、办公室或驾驶室等室内场所，由于其成员通常是固定的，可以先在智能设备上注册每个成员的声纹信息。

图4A为注册声纹的手机UI界面交互图。如图4A所示，手机中安装的智能家居APP提醒用户依次录入家庭成员的声纹，用户按照操作指引依次录入了爸爸、妈妈、妹妹和自己的四段语音，录入完成后APP提醒用户，家庭成员声纹已经提取完成。

音频录制完成后，手机将音频发送给云端执行设备210，执行设备210调用声纹网络41，处理音频得到声纹，然后将声纹存储在执行设备210，和/或将声纹发送给手机，和/或将已成功获得声纹的标识发送给手机。

图4B为多个成员声纹注册过程示意图。如图4B所示，执行设备210将每个成员如成员A、成员B、……成员N的语音音频分别输入声纹网络41，声纹网络41分别从每个成员的语音音频中提取声纹特征(d-vector)，注册每个成员的声纹。

示例性地，在一个家庭中有多个成员，在注册各自的声纹信息时，每个成员可以通过图2中的客户设备240向I/O接口212分别输入各自的语音信号。在声纹提取模块213中，由声纹网络41获得I/O接口212输入的每个成员的语音信号后，分别提取每个成员的声纹特征，执行设备210可以将每个成员的声纹特征存入数据存储系统250中，完成注册。

示例性地，声纹网络41可以为基于深度神经网络(DNN)的背景模型，用于直接对说话人的语音音频进行建模提取声纹。提取每一帧语音的过滤器组能量(filterbankenergy)特征作为训练好的DNN输入，从训练好的最后一个隐藏层(last hidden layer)提取语音特征，进行正则化，然后将其累加起来，得到声纹特征，该声纹特征也被称为深向量或“d向量”(d-vector)。

示例性地，声纹网络41还可以基于长短期记忆网络的背景模型，采用声纹识别编码器提取目标说话人的声纹特征。具体地，声纹识别编码器将说话人的语音音频转换为一定宽度(例如25ms)和一定步长(例如10ms)的帧，经过梅尔滤波器(mel)对每帧进行滤波，并且从结果中提取一定尺寸(例如为40)的能量谱作为网络输入，在这些帧上构建固定长度的滑动窗口，并在每个窗口上运行长短期记忆网络，然后将长短期记忆网络的最后帧输出作为该滑动窗口的声纹特征，该声纹特征也可以用深向量或“d向量”(d-vector)表示。

S301，获取用户的语音信息，提取该用户的语音信息的声纹。

在一种可能实现的方式中，图2中的与智能设备相连的客户设备240采集正在说话的用户的语音信息，客户设备240向I/O接口212输入语音信息。声纹提取模块213中的声纹网络41获得I/O接口212输入的语音信息后，提取该语音信息的声纹。其中用户的语音信息可能是同时混叠其他成员声音的混合音频。

其中客户设备240可以是任何收音设备，包括集成的麦克风、与智能设备相连的麦克风或者麦克风阵列、或通过短距离连接技术与智能设备通信连接的麦克风或者麦克风阵列等。

可选地，在声纹提取模块213中还可以包括一个语音唤醒模块51，唤醒模块51获取输入的语音信息，通过声学特征提取、唤醒词检测、唤醒词确认等唤醒算法进行语音唤醒处理后，将处理结果输出，在该语音是唤醒词对应的唤醒音频的条件下，执行设备210唤醒智能设备。

其中唤醒模块51是业界通用技术，此处不再赘述。

S302，根据多个成员的已注册声纹，利用该用户的语音确定主说话人；确定除主说话人以外的多个成员均为噪声说话人。

在一种可能实现的方式中，可以将该用户的语音信息的声纹与已注册的声纹进行相似度匹配和排序，确定主说话人的声纹和噪声说话人的声纹，从而确定主说话人和噪声说话人。

具体地，执行设备210将该语音信息的声纹与已注册的声纹进行相似度计算并排序，根据排序结果确定与该语音信息的声纹相似度最高的注册声纹对应的说话人为主说话人，其他注册声纹对应的说话人为噪声说话人。

图5提供了用户的语音信息的声纹识别逻辑功能流程框图，如图5所示，唤醒模块51可以先判断收到的语音信息是否为本设备的唤醒词对应的唤醒音频，在该语音信号是唤醒音频的条件下，启动设备，并将该语音信息输入声纹网络41，声纹网络41提取并输出该语音信息的声纹。将唤醒音频的声纹与已注册的声纹进行相似度匹配和排序，确定主说话人的声纹和噪声说话人的声纹。

S303，获取主说话人音频和噪声说话人音频混叠的混合音频，对所述混合音频进行短时傅里叶变换处理，得到混合频谱。

在一种可能实现的方式中，结合图2，在其他成员正在说话的情况下，主说话人可以通过客户设备240向I/O接口212输入语音，由于混杂了其他成员的声音，执行设备210获得的语音为多人声混叠的混合音频数据，计算模块211对该多人声混叠的混合音频数据进行短时傅里叶变换获得混合频谱。

S304，将该混合频谱、主说话人的声纹和多个噪声说话人的声纹输入声纹过滤网络201进行处理，得到主说话人的频谱。

声纹过滤网络201用于将已注册声纹中主说话人的声纹作为正向激励，将已注册声纹中多个噪声说话人的声纹作为负向激励，从所述混合频谱中分离出主说话人的频谱。

在一种可能实现的方式中，声纹过滤网络201包括：正负向声纹嵌入网络61、多通道掩码过滤网络62和掩码融合网络63。其中，正负向声纹嵌入网络61记为第一子网络，用于将一条主说话人的声纹嵌入正向编码，得到一条正向增强声纹，将多条噪声说话人的声纹分别嵌入负向编码处理，得到多条负向抑制声纹；将正向增强声纹、负向抑制声纹以及混合频谱输入多通道掩码过滤网络62；多通道掩码过滤网络62记做第二子网络，用于进行特征提取、拼接、长短时记忆、全连接和掩码处理，获得一条正向增强频谱和多条负向抑制频谱；掩码融合网络63记做第三子网络，用于将一条正向增强频谱和多条负向抑制频谱进行融合，得到融合频谱掩码；融合频谱掩码和原始的混合频谱逐点相乘，得到过滤后的干净频谱，该过滤后的干净频谱为主说话人的频谱。

S305，对主说话人的频谱做逆短时傅里叶变换计算，得到主说话人的音频。

下面结合图6和图7对声纹过滤网络201进行详细描述。

图6为本申请实施例提出的一种人声分离的方法中声纹过滤网络的功能原理图，如图6所示，声纹过滤网络201包括以下子网络：正负向声纹嵌入网络61，多通道掩码过滤网络62和掩码融合网络63。声纹过滤网络201输入为一条正向声纹、多条负向声纹和多人声混叠的混合音频对应的混合频谱；输出为过滤后的干净频谱。其中，正向声纹为主说话人的声纹，例如当主说话人为成员A时，正向声纹为成员A的声纹。负向声纹包括噪声说话人的声纹，例如当噪声说话人包括成员B、成员C和成员N时，负向声纹为成员B的声纹、成员C的声纹和成员N的声纹。

具体地，执行设备210将一条主说话人声纹和多条噪声说话人声纹分别输入正负向声纹嵌入网络61。

正负向声纹嵌入网络61将正向声纹进行正向编码的嵌入，将多条负向声纹分别进行负向编码的嵌入，输出对应的一条正向增强声纹和多条负向抑制声纹。

示例性地，正向声纹嵌入的编码为[1,0]时，[1,0]为正向编码；此时负向声纹嵌入的编码可以为[0,1]，[0,1]为负向编码。正向编码可以增强正向声纹中第一时点的强度，减弱正向声纹中第二时点的强度；负向编码则可以减弱负向声纹对应第一时点的强度，增强负向声纹对应第二时点的强度。

多通道掩码过滤网络62提取混合频谱的频谱特征，将频谱特征与一条正向增强声纹进行拼接、长短时记忆、全连接和掩码处理，输出对应的一条正向增强频谱；将将频谱特征与多条负向抑制声纹进行拼接、长短时记忆、全连接和掩码处理，输出对应的多条负向抑制频谱。

掩码融合网络63对一条正向增强频谱和多条负向抑制频谱进行融合处理，得到一条融合频谱掩码，融合频谱掩码和混合频谱逐点相乘，得到过滤后的干净频谱，该过滤后的干净频谱为主说话人频谱。

图7为应用声纹过滤网络201进行声纹过滤的流程图。如图7所示，执行设备210执行以下步骤进行声纹过滤：

S701，将一条主说话人声纹嵌入正向编码和多条噪声说话人声纹分别嵌入负向编码，得到对应的一条正向增强声纹和多条负向抑制声纹。

在一种可能的实现方式中，将正向声纹嵌入正向编码[1,0]，输出对应的一条正向增强声纹；将多条负向声纹分别嵌入负向编码[0,1]，输出对应的多条负向抑制声纹。

在一种可能的实现方式中，可以采用正负向编码生成器87输出[1,0]，作为正向编码；采用正负向编码生成器87输出[0,1]，作为负向编码。

S702，将一条正向增强声纹和多条负向抑制声纹分别结合混合频谱的频谱特征，进行多通道掩码过滤处理，输出对应的一条正向增强频谱和多条负向抑制频谱。

示例性地，通过多通道掩码过滤网络62提取混合频谱的频谱特征，将频谱特征与一条正向增强声纹进行拼接、长短时记忆、全连接和掩码处理，输出对应的一条正向增强频谱；将频谱特征与多条负向抑制声纹进行拼接、长短时记忆、全连接和掩码处理，输出对应的多条负向抑制频谱。

S703，将一条正向增强频谱和多条负向抑制频谱进行掩码融合处理，得到一条融合频谱掩码。

S704，将融合频谱掩码和输入的混合频谱逐点相乘，得到主说话人的频谱。

本申请实施例提出的一种声纹过滤网络201的训练方法，训练的过程在图2所示的训练设备220中实现。该方法以目标人声纹和第一、第二编码为正负向声纹嵌入网络61的输入；以正负向声纹嵌入网络61的输出以及目标人音频、其它人音频和噪声混叠的混合音频对应的混合频谱为多通道掩码过滤网络62的输入；以正向增强频谱和负向抑制频谱为多通道掩码过滤网络62的输出，使用联合训练的方式训练正负向声纹嵌入网络61与多通道掩码过滤网络62；以多通道掩码过滤网络62的输出为掩码融合网络63的输入，以掩码后的频谱为输出训练掩码融合网络63；经过迭代训练后获得训练好的所述声纹过滤网络。

图8为本申请实施例提出的声纹过滤网络201的训练方法中正负向声纹嵌入网络61和多通道掩码过滤网络62联合训练的示意图。

如图8所示，正负向声纹嵌入网络61采用了网络结构变换器Transformer 81。Transformer81用于使用注意力(attention)结构构建目标人声纹向量中每个元素的特征，从而找出声纹中所有其他元素对上述每个元素的重要性。

注意力结构的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分；当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。

因此注意力结构常常用于计算相关程度，其原理为根据依赖程度不同，将源数据中的查询(query)看做是一系列的<键(key),值(value)>数据对的映射，通过计算query和各个key的相似性或者相关性，得到每个key对应value的权重系数，然后对value进行加权求和，得到最终的attention的输出值。

示例性地，在计算attention时，首先将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention。

Transformer 81还可以采用自关注(self-attention)结构，自关注结构即query＝key＝value，例如输入一个句子，句子里面的每个词都要和该句子中的所有词进行attention计算，目的是学习句子内部的词的依赖关系，捕获句子的内部结构。

在一种可能的实现方式中，正负向声纹嵌入网络61采用自关注结构，以目标人声纹输入向量和正负向编码为输入，以正向增强声纹和负向抑制声纹为输出目标，进行训练，在训练过程中，将目标人的声纹进行正、负向嵌入重新编码，编码后获得的目标人声纹正负编码向量为源数据中的query，目标人声纹输入向量中的每一个元素为key，将query和每个key进行相似度计算得到权重，然后使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention。输出目标特征的维度始终与目标人声纹的维度保持一致。

示例性地，正负向编码可以采用one-hot编码方式，长度为2。当编码为[1,0]时，表示正向增强，其作用是增加目标人的声纹中第一时点的强度，减弱目标人的声纹中第二时点的强度，正负向声纹嵌入网络61的训练目标为输出正向增强声纹；当编码为[0,1]时，表示负向抑制，其作用与正向增强的编码规则相反，减弱目标人的声纹中第一时点的强度，增加目标人的声纹中第二时点的强度，正负向声纹嵌入网络61的训练目标为输出负向抑制声纹。正负向编码的目的是使目标人的声纹能够在混合频谱中过滤出来。[0,0]和[1,1]为非法输入。

其中，One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

继续如图8所示，正负向声纹嵌入网络61将训练态输出的正向增强声纹和负向抑制声纹输入多通道掩码过滤网络62。

多通道掩码过滤网络62采用卷积神经网络82(convolutional neuron nrtwork，CNN)-拼接模块83(concat)-长短时记忆网络84(long short-term memory，LSTM)-全连接网络85(full connected，FC)，-软掩码预测86(soft mask prediction)级联结构，对正向增强声纹和负向抑制声纹进行训练。

其中，卷积神经网络82是一种带有卷积结构的深度神经网络，其结构为一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，卷积神经网络是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的混合频谱中的重叠区域作出响应。

在训练时，将包含有目标人声、其他人声、噪声等多人声混叠的混合频谱作为卷积神经网络82的输入，该卷积神经网络82中的各个神经元对输入的混合频谱中的重叠区域进行卷积运算，输出结果为特征矩阵，记为第一矩阵。

将卷积神经网络82输出的特征矩阵与正负向声纹嵌入网络61输出的正向增强声纹和负向抑制声纹通过拼接模块83(concat)进行逐帧拼接，得到拼接矩阵，将拼接矩阵输入长短时记忆网络84。将拼接矩阵记为第二矩阵。

长短时记忆网络84是用于处理时间序列的常用的网络，长短时记忆网络84中的计算单元，例如神经元，可以记忆以前的信息，并将以前的信息作为之后的输入。由于其时间递归的特性，长短时记忆网络84常常被用于处理具有时序特性的序列，例如文本(由字或词按先后顺序排列)、音频(时域信号)等按顺序发生的行为序列。

在一个可行的实现方式中，长短时记忆网络84首先根据初始权重进行训练，在神经元中记忆本次训练得到的参数信息，并将其作为之后训练的参数信息，每次训练调整自循环的权重。

在一个可行的实现方式中，以拼接模块83输出的拼接矩阵作为输入，在拼接矩阵每一帧上运行长短期记忆网络84，然后将长短期记忆网络84的最后帧输出的频谱矩阵至全连接网络85。其中频谱矩阵的维度与长短时记忆网络84的神经元维度相同。将频谱矩阵记为第三矩阵。

全连接网络85用于从输入到输出的计算。训练全连接网络85中的参数，使得输出和输入存在某种对应关系，比如输入1、1，输出1、0来实现一个类似于加法器模型。在训练过程中需要将数据归一化，因为前一层网络的计算结果很有可能不在0～1之间，而数据的范围需要统一，因此常用激活函数把数据范围给限定住。

在一个可行的实现方式中，全连接网络85将频谱矩阵维度降维至目标人声频谱的维度，记为第四矩阵，将第四矩阵输出至软掩码预测86。

软掩码预测86为训练期间或现场试验中可以纠正错误并可以修改的程序。

掩码是一串二进制代码，用于对目标字段进行位运算以屏蔽当前的输入位。通常的方法是将源码与掩码经过按位运算或逻辑运算得出新的操作数，其中要用到按位运算如OR运算和AND运算。如采用掩码将ASCII码中大写字母改作小写字母。

在本申请实施例中，软掩码预测86中的“掩码”是可变的，或者说是“软”的，通过程序代码可以改变掩码的取值。

在一个可行的实现方式中，软掩码预测使用Sigmoid函数对第四矩阵的每一个元素进行掩码运算，软掩码预测86输出结果为频谱掩码mask，维度与第四矩阵维度相同，包括正向增强频谱和负向抑制频谱。

最后，将频谱掩码mask与输入的混合频谱逐点相乘，得到掩码频谱，将掩码频谱与真值计算均方误差损失函数(mse loss)。根据正负向编码值的不同，采用的不同的真值计算均方误差损失函数。

在一种可能的实现方式中，采用正向训练的方式训练目标人声频谱，计算目标人音频对应的频谱与正向增强频谱之间的均方误差损失函数，记为第一损失函数mse loss1；mse loss1的值在迭代训练过程中应当越来越小，直到达到预设的某个阈值或预设的迭代次数时，停止训练。

采用负向训练方式训练非目标人声频谱，即其他人声和噪声的混叠频谱，计算其它人音频对应的频谱与负向抑制频谱之间的均方误差损失函数，记为第二损失函数mseloss2；mse loss2的值在迭代训练过程中应当越来越小，直到达到预设的某个阈值或预设的迭代次数时，停止训练。

需要说明的是，当正负向声纹嵌入网络61输入的编码的值为[1,0]时，正负向声纹嵌入网络61与多通道掩码过滤网络62的联合训练过程称为正向训练，多通道掩码过滤网络62的输入为正向增强声纹，对应的掩码称为正向增强频谱，掩码后的频谱称为正向增强频谱，训练目标为目标人声频谱，损失函数为目标人声频谱与正向增强频谱之间的均方误差损失函数。

当正负向声纹嵌入网络61输入的编码的值为[0,1]时，正负向声纹嵌入网络61与多通道掩码过滤网络62的联合训练过程训练过程称为负向训练，多通道掩码过滤网络62的输入为负向抑制声纹，对应的掩码称为负向抑制频谱，掩码后的频谱称为负向抑制频谱，训练目标为非目标人声频谱，即其他人声和噪声的混叠频谱，损失函数的取值为非目标人声频谱与负向抑制频谱之间的均方误差损失函数的值。

评价误差大小的“损失函数”，也叫做“代价函数”。损失函数越小，就代表模型拟合的越好。如果损失函数的值比较大，证明该权重对误差的影响大，那么需要对权重调整的步伐(stride)也就大。反之，则采用较小的步伐、稍微调整一下权重即可。

需要理解的是，在训练过程中需要改变权重的取值，可以通过预先设置的学习速率(learning rate)确定具体每次训练权重要改变多少，即预先设置步伐的大小；采用梯度下降的方法去评估权重每改变一次，引起总体误差的变化的大小。如果学习速率设置得太大，有可能怎么训练都无法取得最优值，使得损失函数无法收敛；如果学习速率设置得太小，训练速度又非常的慢，且很容易就会陷入局部最优而得不到最优解/更优解。

可以理解的是，上述神经网络的训练是有监督的学习，也就是输入X有着与之对应的真值Y，神经网络的输出Y'与真值Y之间的损失函数值就是网络反向传播的对象。整个网络的训练过程就是不断缩小损失函数值的过程。经过不断地迭代，每次权重更新的程度越来越小，损失函数值也越来越小，直到损失函数值达到某个预设阈值或训练迭代次数达到某个预设迭代次数时，停止训练。获得训练好的正负向声纹嵌入网络61和多通道掩码过滤网络62。

在一个可能的实现方式中，假设训练数据集包含干净的人声语料数据集和噪声数据集，人声语料数据集中包含n个说话人，每个说话人有m条语料，n和m为任意自然数，上述正负向声纹嵌入网络61和多通道掩码过滤网络62的联合训练过程的实例如下：

S801，从n个说话人中随机选出两个说话人a和b，将a作为本次训练的目标人，从a的语料中随机选出两条语料，wav_a1和wav_a2；从b的语料中随机选出一条语料wav_b；从噪声数据集中随机选出一条语料wav_n。

S802，计算语料wav_a1的声纹，获得目标人声纹a1，目标人声纹a1的维度为[1,C]，其中，1表示[1,C]为一维向量，C为一维向量的元素数量，代数式为1×C；比如C的值为128，表示一维的声纹包括128个特征数据，其代数式为1×128。

S8031，将a的语料wav_a2，b的语料wav_b和噪声语料wav_n的长度对齐，对齐后的语料音频分别用wav_a2_align，wav_b_align，wav_n_align表示。

示例性地，可以通过补零的方式对齐长度。例如，wav_a2，wav_b，wav_n的长度分别为2帧、3帧和5帧，向最长的wav_n对齐，则采用补零的方式，在wav_a2后面添加3帧0得到对齐的目标人声wav_a2_align，在wav_b后面添加2帧0得到对齐的其它人声wav_b_align，使得wav_a2，wav_b，wav_n的长度对齐，wav_n_align与wav_n相同。

可选地，可以通过截取的方式对齐长度。例如，wav_a2，wav_b，wav_n的长度分别为2帧、3帧和5帧，向最短的wav_a2对齐，在wav_b中和wav_n任意截取2帧得到wav_b_align和wav_n_align，使得wav_a2，wav_b，wav_n的长度对齐，wav_a2_align与wav_a2相同。在截取时，应选择截取有声音的音频帧。

S8032，将wav_a2_align，wav_b_align，wav_n_align直接相加或者采用混响方式混合成一条音频wav_mix，记为第一混叠音频，并按相同的方式将wav_b_align和wav_n_align直接相加或者采用混响方式混合成一条音频wav_b_n_align，记为第二混叠音频。

S8033，分别计算wav_mix的频谱矩阵spec_mix，wav_a2_align的频谱矩阵spec_a2，wav_b_n_align的频谱矩阵spec_b_n。频谱矩阵spec_mix，spec_a2和spec_b_n的维度均为[1,T,F]，其中，1表示[1,T,F]为一维矩阵，T为音频的频谱帧数，F为每帧频谱特征数据，对应代数式为1×T×F。示例性地，矩阵维度取值为1，表示一维矩阵；T取值为10，表示频谱长度为10帧；F取值为256，表示每帧频谱特征用256个数字进行表示；则[1,10,256]表示频谱矩阵为一维矩阵，频谱长度为10帧，每帧频谱特征数据有256个，其代数式为1×10×256。

S804，将S802中语料wav_a1的声纹复制一份，将wav_a1的声纹与复制的声纹一起作为目标人声纹输入向量，目标人声纹输入向量的维度为[2,C]，2表示[2,C]为二维向量，C为二维向量每一维的元素数量，代数式为2×C；比如C的值为128，表示二维的声纹向量每一维包括128个特征数据。

对应的正负向编码输入同样为二维向量：[[1,0]，[0,1]]，其中[1,0]对应正向增强，[0,1]对应负向抑制。

将目标人声纹输入向量和正负向编码输入送入正负向声纹嵌入网络61进行训练。使得正负向声纹嵌入网络61输出结果为嵌入声纹embedding_a1，维度同样为二维向量：[2,C]，代表两条声纹，分别为正向增强声纹和负向抑制声纹。其中正向增强声纹维度为[1,C]，代数式为1×C；负向抑制声纹维度为[1,C]，对应代数式为1×C；与wav_a1的声纹的维度保持一致。

S805，将S8033得到的频谱矩阵spec_mix复制一份，得到频谱矩阵输入，维度为[2,T,F]，对应代数式为2×T×F；将频谱矩阵输入送入多通道掩码过滤网络62的卷积神经网络82部分，通过训练，输出的结果用特征矩阵feature_cnn表示，维度为[2,T,F_cnn]，对应代数式为2×T×F_cnn；其中F_cnn为经过卷积神经网络82训练后的维度。

S806，将S804得到的嵌入声纹embedding_a1扩展一个维度，由二维向量[2,C]变为二维矩阵[2,1,C]，并复制T份，维度变为[2,T,C]，表示嵌入声纹扩展为二维矩阵，长度为T帧，每帧的元素数量为C个，对应代数式为2×T×C，。并与S805得到的特征矩阵feature_cnn[2,T,F_cnn]通过拼接模块83进行拼接，获得拼接矩阵的维度为[2,T,C+F_cnn]，表示拼接矩阵为二维矩阵，长度为T帧，每帧的元素数量为C+F_cnn个，对应代数式为2×T×C+F_cnn；再送入后续长短时记忆网络84。

长短时记忆网络84以拼接矩阵[2,T,C+F_cnn]为输入，首先根据初始权重进行训练，记忆本次次训练得到的参数信息，并将其作为下次训练的参数信息，调整自循环的权重，输出频谱矩阵，频谱矩阵的维度与长短时记忆网络84的神经元维度相同。

示例性地，长短时记忆网络84的神经元维度为长短时记忆网络84的神经元维度，则频谱矩阵维度为[2,T,F_lstm]，对应代数式为2×T×F_lstm。将频谱矩阵[2,T,F_lstm]至全连接网络85。

全连接网络85将频谱矩阵维度由[2,T,F_lstm]降维至目标人声频谱spec_a2的维度[2,T,F]，输出至软掩码预测86。

软掩码预测86输出结果为掩码mask，维度为[2,T,F]。

S807，将S806得到的mask与S803得到的spec_mix进行逐点相乘，得到掩码后的掩码频谱spec_masked，维度为[2,T,F]。其中，spec_masked[0]为正向增强频谱，表示对应正负向编码[1,0]的输出结果；根据正向增强频谱spec_masked[0]与S803得到的spec_a2计算第一损失函数mse loss1；spec_masked[1]为负向抑制频谱，表示对应正负向编码[0,1]的输出结果，根据负向抑制频谱spec_masked[1]与S803得到的spec_b_n计算第二损失函数mse loss2。

S808，根据S807得到的mse loss1和mse loss2进行梯度计算与反向传播，并更新整个模型参数。mse loss1和mse loss2的值在迭代训练过程中应当越来越小，直到达到预设的某个阈值或预设的迭代次数时，停止训练。

可选地，也可以使用只包含人声语料、没有噪声数据的数据集训练联合模型。此时，在S803中，只使用wav_a2_align和wav_b_align混合成wav_mix，并用wav_b_align的频谱代替wav_b_n_align的频谱。

上述训练方法将正向增强和负向抑制成对训练，也可以根据需求调整正向增强和负向抑制的比例。此时，S804中不再需要把输入的声纹复制一份，正负向编码按照需要设定；S805中也不再需要把spec_mix复制一份；S807中计算均方误差损失函数的真值根据输入的正负向编码决定。

图9为本申请实施例提供的声纹过滤网络201的训练方法中掩码融合网络63的训练流程图。掩码融合网络63可以独立训练，将正负向声纹嵌入网络61与多通道掩码过滤网络62的参数冻结住，参数更新时只更新掩码融合网络63的参数。

可选地，掩码融合网络63也可以和正负向声纹嵌入网络61与多通道掩码过滤网络62联合训练，同时更新正负向声纹嵌入网络61、多通道掩码过滤网络62及掩码融合网络63所有的参数。

如图9所示，掩码融合网络63的网络结构使用变换器92(transformer)，其中的attention结构使用普通attention结构。正向增强频谱作为attention的查询query，正向增强频谱和所有的负向抑制频谱在拼接器91中做拼接(concat)，拼接的结果作为attention的键值keys和价值values，训练变换器92，拼接器91输出的掩码与混合频谱进行逐点相乘，得到掩码后的频谱。计算掩码后的频谱与目标人声频谱之间的均方误差损失函数，记为第三误差损失函数mse loss3；以mse loss3收敛于某个预设的阈值或为目标进行迭代训练，获得训练好的第三子网络。

假设训练数据集包含干净的人声语料数据集和噪声数据集，人声语料数据集中包含n个说话人，每个说话人有m条语料，掩码融合网络63的训练流程的实例如下。

S901，从n个说话人中随机选出多个说话人a,b,…，按照一般的家庭人数，选择人数控制在2～5个人。将a作为本次训练的目标人。

S902，基于正负向声纹嵌入网络61与多通道掩码过滤网络62的训练过程，以目标人声纹、其他说话人声纹、多人声混叠的混合频谱和目标人的干净频谱为输入，训练掩码融合网络63。

S903，设目标人的正负向编码为[1,0]，其他说话人的正负向编码为[0,1]，使用正负向声纹嵌入网络61和多通道掩码过滤网络62得到正向增强频谱和负向抑制频谱，每个掩码的维度均为[1,T,F]，训练过程与多通道掩码过滤网络62训练过程相同。

S904，将正向增强频谱作为变换器92的query输入，正向增强频谱和所有的负向抑制频谱在拼接器91(concat)中做拼接，拼接的结果作为变换器92的keys和values输入，训练变换器92。网络输出结果为掩码，维度为[1,T,F]。

S905，将S904得到的掩码与S902的混合频谱进行逐点相乘，得到掩码后的频谱，再与S902得到的目标人的干净频谱计算第三损失函数mse loss3。

S906，根据S905得到mse loss3进行梯度计算与反向传播，并更新模型参数。mseloss3的值在迭代训练过程中应当越来越小，直到达到预设的某个阈值或预设的迭代次数时，停止训练。

图10为正负向声纹嵌入网络61与多通道掩码过滤网络62的联合部署态示意图。如图10所示，部署态的多通道掩码过滤网络62与训练态的多通道掩码过滤网络62相同；部署态的正负向声纹嵌入网络61中增加了正负向编码生成器87，正负向编码生成器87用于生成正向编码和负向编码。

在一个可能的实现方式中，如果当前输入的注册声纹为主说话人声纹，则使正负向编码生成器87输出[1,0]，多通道掩码过滤网络62输出的掩码为正向增强频谱；如果当前输入的注册声纹为噪声说话人声纹，则使正负向编码生成器87输出[0,1]，多通道掩码过滤网络62输出的掩码为负向抑制频谱。

在一个可能的实现方式中，在声纹注册完毕后，可以根据已经注册的声纹的数量，设置多通道掩码过滤网络62的批处理能力，即多通道掩码过滤网络62运行一次能处理的输入声纹的数量。多通道掩码过滤网络62同时处理声纹的数量为多个。

当只有一条注册声纹时，该注册声纹为主说话人声纹；当有多条注册声纹时，根据唤醒音频确定主说话人声纹和噪声说话人声纹。

在一个可能的实现方式中，可以在声纹注册阶段完成后，根据注册声纹的数量，确定需要拼接的正、负向抑制频谱的数量。在运行时，根据多通道掩码过滤网络62的输出结果，生成最终的频谱掩码。

掩码融合网络63的部署态与图6中的相关部分相同，不再赘述。

本申请实施例可以根据唤醒确定主说话人，其他说话人作为噪声说话人，实现有限范围内的多个目标人的定向人声分离，还根据多个说话人的声纹特征，增强对主说话人语音音频，抑制噪声说话人语音音频，从而得到主说话人的干净音频。

本申请实施例提供了一种电子设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被所述处理器执行时，使得电子设备执行上述任一项所述的声纹过滤网络的训练方法；或者，当所述程序或指令被所述处理器执行时，使得所述电子设备执行上述任一实施例所述的人声分离的方法。

参见附图11，本申请实施例提供了一种电子设备300。执行设备210由一个或多个处理器实现，可选的，处理器与其它计算设备耦合，例如：数据存储、路由器、负载均衡器等设备；执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以使用数据存储系统250中的数据，和/或调用数据存储系统250中的程序代码实现本申请实施例提出的一种人声分离的方法，在多人说话场景下的特定目标人的人声分离，调用数据存储系统250中的程序代码能够实现上述任意实施例的方法。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在另一种实现中，执行设备210的一个方面或多个方面可以由每个本地设备实现，例如，本地设备301可以为执行设备210提供本地数据或反馈计算结果。

需要注意的，执行设备210的所有功能也可以由本地设备实现。例如，本地设备301实现执行设备210的的功能并为自己的用户提供服务，或者为本地设备302的用户提供服务。

本申请实施例提供了一种计算机可读介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机执行上述方法实施例中训练设备所执行的方法；或者，当计算机程序在计算机上运行时，使得计算机执行上述方法实施例中执行设备所执行的方法。

本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口例如是输入/输出接口、管脚或电路等。处理器用于读取指令以执行上述方法实施例中训练设备所执行的方法；或者，处理器用于读取指令以执行上述方法实施例中执行设备所执行的方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品被计算机执行时实现上述方法实施例中训练设备所执行的方法；或者，该计算机程序产品被计算机执行时实现上述方法实施例中执行设备所执行的方法。

其中，可选地，上述任一处提到的处理器，是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

此外，本申请实施例的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于:磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatiledisc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasableprogrammable read-only memory，EPROM)、卡、棒或钥匙驱动器等)。另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

应当理解的是，在本申请实施例的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者接入网设备等)执行本申请实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种人声分离的方法，应用于执行设备，其特征在于，所述方法包括：

接收在指定空间中的用户的语音；所述指定空间为具有多个成员的有限空间；

根据所述多个成员的已注册声纹，利用所述用户的语音确定主说话人；确定除主说话人以外的多个成员均为噪声说话人；

获取所述指定空间中的混合音频对应的混合频谱，所述混合音频为主说话人的音频和至少一个噪声说话人的音频混叠的语音信息；

通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱；其中，所述声纹过滤网络用于将所述已注册声纹中所述主说话人的声纹作为正向激励，将所述已注册声纹中多个所述噪声说话人的声纹作为负向激励，从所述混合频谱中分离出所述主说话人的频谱；

根据所述主说话人的频谱得到所述主说话人的音频。

2.根据权利要求1所述的人声分离的方法，其特征在于，所述根据所述多个成员的已注册声纹，利用所述用户的语音确定主说话人，包括：

通过声纹网络提取所述用户的语音的声纹；所述声纹网络为深度神经网络模型或长短期记忆网络；

计算所述用户的语音的声纹与所述多个成员的已注册声纹中的每一个成员的注册声纹的相似度值；

将所述相似度值排序；

根据排序结果确定与所述用户的语音的声纹相似度最高的所述注册声纹对应的说话人为主说话人。

3.根据权利要求1所述的人声分离的方法，其特征在于，所述声纹过滤网络包括第一子网络、第二子网络和第三子网络；

所述第一子网络用于在所述主说话人的声纹中嵌入第一编码以获取正向增强声纹，在所述至少一个噪声说话人声纹中的每一个噪声说话人声纹中嵌入第二编码以获得至少一个负向抑制声纹；所述第二子网络用于根据所述正向增强声纹对所述混合频谱进行正向激励，得到对应的一条正向增强频谱，根据所述至少一负向抑制声纹分别对所述混合频谱进行负向激励，得到对应的至少一条负向抑制频谱；所述第三子网络用于将所述一条正向增强频谱和至少一条负向抑制频谱进行融合处理，得到一条融合频谱掩码，以便将所述融合频谱掩码和所述混合频谱逐点相乘，得到主说话人的频谱。

4.根据权利要求3所述的人声分离的方法，其特征在于，所述通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱，包括：

将所述多个成员的已注册声纹输入所述第一子网络，将所述多个成员的已注册声纹中的主说话人的声纹中嵌入所述第一编码，得到正向增强声纹；将所述至少一个噪声说话人声纹中的每一个噪声说话人声纹中嵌入所述第二编码，得到至少一个负向抑制声纹。

5.根据权利要求3所述的人声分离的方法，其特征在于，所述通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱，包括：

将所述混合频谱输入第二子网络进行卷积，输出卷积结果；

将所述卷积的结果与所述正向增强声纹经过拼接模块逐帧拼接，拼接的结果依次通过长短时记忆网络、全连接网络和软掩码预测网络进行正向激励，得到一条正向增强频谱；

将所述卷积的结果与所述至少一个负向抑制声纹经过拼接模块逐帧拼接，拼接的结果依次通过长短时记忆网络、全连接网络和软掩码预测网络进行负向激励，得到至少一条负向抑制频谱。

6.根据权利要求3所述的人声分离的方法，其特征在于，所述通过声纹过滤网络对所述混合频谱和所述多个成员的已注册声纹进行处理，得到所述混合音频中主说话人的频谱，包括：

将所述正向增强频谱和所述至少一条负向抑制频谱输入所述第三子网络进行融合，获得一条融合频谱掩码；

将所述融合频谱掩码与所述混合频谱逐点相乘，计算得到所述主说话人的频谱。

7.根据权利要求3或4所述的人声分离的方法，其特征在于，所述第一编码和第二编码是由正负向编码生成器生成的。

8.根据权利要求3或5所述的人声分离的方法，其特征在于，所述第三子网络使用Sigmoid函数对所述全连接网络输出的结果进行掩码计算处理，得到一条融合频谱掩码。

9.根据权利要求1所述的人声分离的方法，其特征在于，在所述接收在指定空间中的用户的语音之前包括：通过声纹网络预先获取至少两个成员的声纹进行注册；所述声纹网络为深度神经网络模型或长短期记忆网络模型。

10.根据权利要求1所述的人声分离的方法，其特征在于，在所述接收在指定空间中的用户的语音之后，还包括：

根据所述用户的语音中包含唤醒词确定所述语音为唤醒音频。

11.根据权利要求10所述的人声分离的方法，其特征在于，所述根据所述多个成员的已注册声纹，利用所述用户的语音确定主说话人，包括：

通过声纹网络提取所述唤醒音频的声纹；所述声纹网络为深度神经网络模型或长短期记忆网络；

计算所述唤醒音频的声纹与所述多个成员的已注册声纹中的每一个成员的注册声纹的相似度值；

将所述相似度值排序；

根据排序结果确定与所述唤醒音频的声纹相似度最高的所述注册声纹对应的说话人为主说话人。

12.一种声纹过滤网络的训练方法，应用于训练设备，其特征在于，所述声纹过滤网络包括第一子网络、所述第二子网络和第三子网络；

以目标人声纹和第一、第二编码为所述第一子网络的输入；

以所述第一子网络的输出以及目标人音频、其它人音频和噪声的混合音频对应的混合频谱为所述第二子网络的输入；

以正向增强频谱和负向抑制频谱为所述第二子网络的输出，使用联合训练的方式训练第一子网络与所述第二子网络；

以所述第二子网络的输出为所述第三子网络的输入，以掩码后的频谱为输出训练所述第三子网络；

获得训练好的所述声纹过滤网络。

13.根据权利要求12所述的声纹过滤网络的训练方法，其特征在于，所述使用联合训练的方式训练第一子网络与所述第二子网络，包括：

计算所述目标人音频对应的频谱与所述正向增强频谱之间的第一损失函数；

计算所述其它人音频对应的频谱与所述负向抑制频谱之间的第二损失函数；

以所述第一损失函数和所述第二损失函数分别收敛于某个阈值为目标进行迭代训练，获得训练好的第一子网络与所述第二子网络。

14.根据权利要求12或13所述的声纹过滤网络的训练方法，其特征在于，所述以所述第二子网络的输出为所述第三子网络的输入，以掩码后的频谱为输出训练所述第三子网络，包括：

计算所述掩码后的频谱与所述目标人声频谱之间的第三误差损失函数；

以所述第三误差损失函数收敛于某个阈值为目标进行迭代训练，获得训练好的第三子网络。

15.根据权利要求14所述的声纹过滤网络的训练方法，其特征在于，所述以所述第二子网络的输出为所述第三子网络的输入，以掩码后的频谱为输出训练所述第三子网络包括：

在每次迭代时将所述第一子网络与所述第二子网络的参数冻结住，更新所述第三子网络的参数；或

在每次迭代时同时更新所述第一子网络与所述第二子网络及所述第三子网络的参数。

16.一种电子设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述电子设备执行如权利要求1至11中任一项所述的人声分离的方法；或者，当所述程序或指令被所述处理器执行时，使得所述电子设备执行如权利要求12至15中任一项所述声纹过滤网络的训练方法。

17.一种计算机程序产品，所述计算机程序产品中包括计算机程序代码，其特征在于，当所述计算机程序代码被计算机执行时，使得计算机实现上述如权利要求1至11中任一项所述的人声分离的方法；或者，当所述计算机程序代码被计算机执行时，使得计算机实现上述如权利要求12至15中任一项所述声纹过滤网络的训练方法。

18.一种计算机可读存储介质，其特征在于，用于储存计算机程序或指令，所述计算机程序或指令被执行时使得计算机执行如权利要求1至11中任一项所述的人声分离的方法；或者，所述计算机程序或指令被执行时使得计算机执行如权利要求12至15中任一项所述声纹过滤网络的训练方法。