CN117711420A

CN117711420A - 目标人声提取方法、电子设备及存储介质

Info

Publication number: CN117711420A
Application number: CN202310871867.3A
Authority: CN
Inventors: 董智源; 吴彪; 刘兢本
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2024-03-15

Abstract

本申请实施例提供了一种目标人声提取方法、电子设备及存储介质。在该方法中，针对一帧混合语音，首先对其进行声源分离，得到多路语音信号，然后将多路语音信号的整合特征和目标人的声纹特征输入到PVAD深度神经网络模型中，以确定与该帧混合语音的目标人声提取结果对应的目标标签。当目标标签指示多路语音信号中存在一路为目标人声时，根据目标标签获取相应的一路语音信号作为目标人声提取结果。这样能够实现在多说话人语音混合场景中提取出目标人声，提高通话质量，进而提升远端用户的听觉体验。

Description

目标人声提取方法、电子设备及存储介质

技术领域

本申请涉及智能终端技术领域，尤其涉及一种目标人声提取方法、电子设备及存储介质。

背景技术

近年来，VoIP(Voice over Internet Protocol，基于IP的语音传输)通话、语音会议等被广泛应用。然而，在日常的VoIP通话、语音会议等场景中，目标人声在被设备麦克风接收的同时，其他声音(如非目标人声、非人声等)也会被该设备的麦克风收录，导致设备麦克风接收的声音为混合语音，影响了通话质量，降低了用户的听觉体验。

因此，如何在混合语音中提取到目标人声，以提升通话质量是亟待解决的问题。

发明内容

本申请实施例提供一种目标人声提取方法、电子设备及存储介质。针对多说话人语音混合场景，该方法能够实现在混合语音中提取出目标人声，以此提高通话质量，进而提升远端用户的听觉体验。

第一方面，本申请实施例提供一种目标人声提取方法。该方法应用于第一电子设备中，包括：第一电子设备获取当前帧混合语音；第一电子设备对当前帧混合语音进行声源分离，得到分离后的多路语音信号；第一电子设备将多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中，确定与当前帧混合语音对应的目标标签；其中，目标标签用于指示在多路语音信号中是否存在一路语音信号为目标人声，以及在多路语音信号中存在一路语音信号为目标人声时，目标标签还用于指示目标人声所在的语音信号分离通道；当目标标签指示在多路语音信号中存在一路语音信号为目标人声时，根据目标标签获取一路语音信号，作为与当前帧混合语音对应的目标人声提取结果。

在本实施例中，第一电子设备可以在帧级别上对混合语音进行目标人声提取操作。示例性的，第一电子设备可以是手机、平板电脑等。

在本实施例中，目标人的声纹特征可以是通过声纹提取模块对目标人的注册声音进行提取而得到的。

在本实施方式中，PVAD深度神经网络模型的输入为多路语音信号的整合特征以及目标人的声纹特征，输出可以为与当前帧混合语音对应的标签。示例性的，若PVAD深度神经网络模型输出标签0，则表示表明当前帧混合语音非目标人声；若PVAD深度神经网络模型输出标签1～N中的任意一个，则表明目标人声在与该标签对应的分离语音通道上。

这样，针对多说话人语音混合场景，该方法能够实现在混合语音中提取出目标人声，以此提高通话质量，进而提升远端用户的听觉体验。

根据第一方面，第一电子设备将多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中之后，该方法还包括：

第一电子设备通过PVAD深度神经网络模型输出与当前帧混合语音对应的标签特征向量；其中，标签特征向量中的各个元素值分别为与各个标签分别对应的概率值；第一电子设备将概率值最大的一个标签作为与当前帧混合语音对应的目标标签。

若一帧混合语音通过声源分离得到N路语音信号，则标签特征向量的维度为1×(N+1)，在标签特征向量中各个元素值为与各个标签分别对应的概率值。也即，标签特征向量包括N+1个元素，这N+1个元素的值为与N+1个标签(如标签0、标签1、标签2、……、标签N)分别对应的概率。

这样，PVAD深度神经网络模型基于多路语音信号的整合特征以及目标人的声纹特征对目标人声和非目标人声进行区分，并计算与各个标签分别对应的概率值，将概率值最大一个标签作为输出，以此标识对当前帧混合语音的目标人声提取结果。

根据第一方面，或者以上第一方面的任意一种实现方式，第一电子设备将多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中，确定与当前帧混合语音对应的目标标签，包括：

第一电子设备通过PVAD深度神经网络模型输出与当前帧混合语音对应的标签特征向量；其中，标签特征向量中的各个元素值分别为与各个标签分别对应的概率值；

第一电子设备通过预设的有限状态机模型根据标签特征向量，确定与当前帧混合语音对应的目标标签；

其中，在有限状态机模型中，标签初始状态为与当前帧混合语音的前一帧混合语音对应的目标标签；有限状态机模型的状态转移条件用于减少目标标签序列中标签0的数量，标签0用于指示在多路语音信号中任意一路语音信号均非目标人声。

考虑到基于PVAD深度神经网络模型的目标人声提取结果可能存在有误的情形，例如，针对一帧包含目标人声的混合语音，PVAD深度神经网络模型得到与目标人声提取结果对应的标签为标签0(指示当前帧混合语音分离后的多路语音信号均非目标人声)，使得与该帧混合语音对应的目标人声无法被成功提取。这样，在对连续的多帧混合语音进行目标人声提取时，可能会导致提取到的目标人声存在漏字的问题，从而影响用户的听觉体验。

在本实施方式中，为了减少提取到的目标人声的漏字问题，在有限状态机模型中，除了根据最大标签概率值进行标签状态转移，还对标签0到其他标签的状态转移条件进行了限定，以及对其他标签到标签0的状态转移条件进行了限定。其中，标签0到其他标签(标签1～标签N)的状态转移条件相对容易，而其他标签到标签0的状态转移条件相对更难。

根据第一方面，或者以上第一方面的任意一种实现方式，在有限状态机模型中：由标签0至标签x的状态转移条件为：且/>由标签x至标签0的状态转移条件为：/>且/>其中，标签特征向量为与标签x对应的概率值；m1、m2、m3为预设的阈值；m1＞m2，m1＞m3，标签x用于指示在多路语音信号中第x路语音信号为目标人声，1≤x≤N，x为整数，N为分离得到的语音信号总路数。

示例性的，当N＝2时，阈值m1可以设置为0.9，阈值m2可以设置为0.5，阈值m3可以设置为0.1。

在本实施例中，在第一电子设备的有限状态机模型中，不仅根据最大标签概率值进行标签状态转移，标签0到标签x(标签1～标签N)的状态转移条件以及标签x(标签1～标签N)到标签0的状态转移条件还被进行了特殊限制，由标签0向标签x的状态转移条件相对容易，由标签x向标签0的状态转移条件相对较难，以通过有限状态机模型的处理来尽量减少最终输出标签序列中标签0的数量，进而使得在目标人声存在的时候能够尽量缓解提取到的目标人声的掉字问题。

根据第一方面，或者以上第一方面的任意一种实现方式，PVAD深度神经网络模型包括卷积神经网络层、长短期记忆网络层和全连接层；

第一电子设备将多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中，包括：在PVAD深度神经网络模型中，将多路语音信号的整合特征输入到卷积神经网络层中，得到多路语音信号的高维整合特征；将多路语音信号的高维整合特征和目标人的声纹特征输入到长短期记忆网络层中，得到综合特征；将综合特征输入到全连接层中，得到标签特征向量。

其中，卷积神经网络层可以将多路语音信号的整合特征抽象到更高维度后，输入到长短期记忆网络层。在长短期记忆网络层，抽象到更高维度的多路语音信号的整合特征与注册声纹特征进行拼接，得到用于区分目标人声和干扰声音的综合特征。长短期记忆网络层可以有效利用历史信息，结合注册声纹所抽象出来的全局特征以及每帧混合语音提取到的局部特征，实现对目标人声和干扰声音的区分。进而，全连接层可以将长短期记忆网络层输出的特征映射成决策结果，输出标签特征向量。

根据第一方面，或者以上第一方面的任意一种实现方式，第一电子设备根据目标标签获取一路语音信号，作为与当前帧混合语音对应的目标人声提取结果，包括：如果根据目标标签确定当前目标人声提取稳定，则第一电子设备根据目标标签获取一路语音信号，作为与当前帧混合语音对应的目标人声提取结果。

根据第一方面，或者以上第一方面的任意一种实现方式，该方法还包括：如果根据目标标签确定当前目标人声提取不稳定，则第一电子设备将当前帧混合语音直接作为目标人声提取结果。

在本实施方式中，引入了突变平滑策略，第一电子设备根据输出标签突变情况判断当前目标人声提取情况是否稳定，进而根据判断结果指示输出模块选用目标人声提取结果进行输出，或者指示输出模块选用原混合语音进行输出。这样，针对输出标签较为平稳的连续多帧混合语音，输出模块选用目标人声提取结果进行输出，而针对输出标签突变过多的连续多帧混合语音，输出模块选用原混合语音进行输出，以此避免由于输出标签突变过多过快而导致用户对提取到的目标人声听觉体验不佳的问题。

根据第一方面，或者以上第一方面的任意一种实现方式，该方法还包括：第一电子设备根据与当前帧混合语音对应的目标标签统计当前标签突变数量；若当前标签突变数量不大于预设阈值，则第一电子设备确定当前目标人声提取稳定，否则第一电子设备确定当前目标人声提取不稳定。

其中，标签突变数量，用于指示与目标人声提取结果对应的标签突变情况；

例如，若与连续多帧语音信号对应的目标人声提取结果标签依次为“22222222221”，则该标签序列的最后两个标签“21”表示标签突变了一次，此时统计到的当前标签突变数量为1。

根据第一方面，或者以上第一方面的任意一种实现方式，在得到分离后的多路语音信号之后，该方法还包括：第一电子设备分别提取分离后的每路语音信号的Log-Mel频谱特征；第一电子设备将每路语音信号的Log-Mel频谱特征进行拼接，得到多路语音信号的整合特征。

假设，语音信号1的Log-Mel频谱特征1为[a1,a2,…,an]，语音信号2的Log-Mel频谱特征2为[b1,b2,…,bn]，……，语音信号N的Log-Mel频谱特征N为[n1,n2,…,nn]，则这N个Log-Mel频谱特征拼接后，得到N路语音信号的整合特征为[a1,a2,…,an,b1,b2,…,bn,…,n1,n2,…,nn]。也即，若每路语音信号的Log-Mel频谱特征均为1×n向量，则N路语音信号的整合特征为1×Nn向量。

根据第一方面，或者以上第一方面的任意一种实现方式，第一电子设备对当前帧混合语音进行声源分离，得到分离后的多路语音信号，包括：第一电子设备实时确定与当前帧混合语音对应的解混矩阵；第一电子设备基于解混矩阵对当前帧混合语音进行声源分离，得到分离后的多路语音信号。

为了实时地估计出解混矩阵，需要在每一帧混合语音信号被获取到时，对解混矩阵进行更新。在实时估计出解混矩阵之后，即可基于下文中的式(2)将获取到的当前帧混合语音信号分离为N路语音信号。

根据第一方面，或者以上第一方面的任意一种实现方式，该方法还包括：当目标标签指示在多路语音信号中任意一路语音信号均非目标人声时，第一电子设备将当前帧混合语音直接作为目标人声提取结果。

根据第一方面，或者以上第一方面的任意一种实现方式，第一电子设备获取当前帧混合语音，包括：第一电子设备获取由第一电子设备的一个或多个麦克风采集到的当前帧混合语音；

相应的，在第一电子设备根据目标标签获取一路语音信号，作为与当前帧混合语音对应的目标人声提取结果之后，该方法还包括：按照混合语音的帧序，第一电子设备将与当前帧混合语音对应的目标人声提取结果发送至第二电子设备；其中，第二电子设备与第一电子设备已建立通信连接。

这样，针对多说话人语音混合场景，第一电子设备首先对混合语音进行目标人声提取，再将提取到的目标人声向第二电子设备发送，以此提高了通话质量，进而提升了第二电子设备侧用户的听觉体验。

第二方面，本申请实施例提供一种电子设备。该电子设备包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得电子设备执行第一方面以及第一方面中任意一项的目标人声提取方法。

第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第三方面，本申请实施例提供一种计算机可读存储介质。该计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行第一方面以及第一方面中任意一项的目标人声提取方法。

第三方面以及第三方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第三方面以及第三方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第四方面，本申请实施例提供一种计算机程序产品，包括计算机程序，当计算机程序被运行时，使得计算机执行如第一方面或第一方面中任意一项的目标人声提取方法。

第四方面以及第四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第四方面以及第四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第五方面，本申请提供了一种芯片，该芯片包括处理电路、收发管脚。其中，该收发管脚和该处理电路通过内部连接通路互相通信，该处理电路执行如第一方面或第一方面中任意一项的目标人声提取方法，以控制接收管脚接收信号，以控制发送管脚发送信号。

第五方面以及第五方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第五方面以及第五方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

附图说明

图1为示例性示出的应用场景示意图；

图2为示例性示出的应用场景示意图；

图3为示例性示出的目标人声提取流程的示意图；

图4为示例性示出的声源分离示意图；

图5为示例性示出的分离语音特征整合示意图；

图6为示例性示出的PVAD深度神经网络模型的结构示意图；

图7为示例性示出的PVAD深度神经网络模型的输出示意图；

图8为示例性示出的目标人声提取的示例图；

图9为示例性示出的目标人声提取流程的示意图；

图10a为示例性示出的一种有限状态机策略示意图；

图10b为示例性示出的一种有限状态机策略示意图；

图11为示例性示出的目标人声提取流程的示意图；

图12为示例性示出的对目标人声提取结果标签进行平滑处理的流程图；

图13为示例性示出的目标人声提取流程的示意图；

图14为示例性示出的电子设备的硬件结构示意图；

图15为示例性示出的电子设备的软件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一目标对象和第二目标对象等是用于区别不同的目标对象，而不是用于描述目标对象的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个系统是指两个或两个以上的系统。

近年来，VoIP通话、语音会议等被广泛应用。然而，在日常的VoIP通话、语音会议等场景中，目标人声(或称目标语音等)在被设备麦克风接收的同时，其他声音(包括其他说话人的声音和非人声等，可以统称为非目标人声)也会被该设备的麦克风收录，导致设备麦克风接收的声音为混合语音。

图1示例性的示出了一个多人网络会议场景。参照图1中(1)所示，假设目标用户(或称目标说话人)为用户Target，当用户Target说话时，用户Target发出的声音会被电子设备100_1的麦克风收录。与此同时，用户Target周围距离较近的其他用户发出的声音或者环境噪声也会被电子设备100_1的麦克风收录，使得电子设备100_1的麦克风接收到的声音为混合语音。继续参照图1中(2)，电子设备100_1将其麦克风接收到的混合语音通过服务器传输至电子设备100_2(也即多人网络会议的对端设备)，使得电子设备100_2侧用户听到的声音也为混合语音，严重影响了语音通话质量，导致用户的听觉体验不佳。

示例性的，电子设备100_1在接收到混合语音之后，可以利用其背景降噪功能消除环境噪声，并将去噪后的语音信号发送至电子设备100_2，以此提升通话语音的质量。然而，电子设备100_1的背景降噪功能对非平稳噪声(如除目标用户以外其他用户的说话声)的抑制能力较弱。也即，当目标用户讲话时，若周围环境中存在其他说话人语音等babble噪声(多路重合噪声)，电子设备100_1的去噪表现能力会下降。

如图2中(1)所示，在混合语音中提取出目标人声(或称特定人声)，对提升语音通话质量尤为重要。其中，混合语音可以是多声源场景中电子设备采集到的包括目标人声的语音，也可以是存在背景干扰场景中电子设备采集到的包括目标人声的语音。

由此，在多人会议应用场景中，或者在通话人声增强场景中等，如图2中(2)所示，在电子设备100_1通过其麦克风采集到混合语音后，首先在混合语音中提取出目标人声，再将提取得到的目标人声通过服务器传输至电子设备100_2(也即多人网络会议的对端设备)。这样，电子设备100_2播放的声音不再是混合语音，而是目标人声，极大地提升了语音通话质量。

鉴于此，本申请实施例提供了一种目标人声提取方法。在该方法中，电子设备可以通过声源分离算法对麦克风接收到的混合语音进行多路分离，并通过PVAD(PersonalizedVoice Activity Detection，个性化声音检测)深度神经网络模型根据注册语音对这多路分离语音进行分析，从而在混合语音中提取出目标人声。

本申请实施例提供的目标人声提取方法可以应用于手机、平板电脑、可穿戴设备、车载设备、笔记本电脑、上网本等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

在一种可选的实施方式中，图3示例性的示出了一种目标人声提取方法的处理流程。以一帧混合语音为例，如图3所示，将由一个或多个麦克风采集到的一帧混合语音输入到声源分离模块中，经声源分离模块的处理，得到多路语音信号(或称多路声音信号)；将多路语音信号输入至特征提取及整合模块中，特征提取及整合模块分别对每路语音信号进行语谱特征提取，并将这多路语音信号的语谱特征进行整合，得到多路语音信号的整合特征。针对提前注册的语音，可以通过声纹提取模块提取到注册声音特征，进而PVAD深度神经网络模型可以基于注册声音特征以及多路语音信号的整合特征分析得到与目标人声提取结果对应的标签。这样，输出模块可以基于该标签获取对应的一路语音信号进行输出，以此达到从一帧混合语音中提取一帧目标人声的效果。

下述分别对目标人声提取方法涉及的各个处理流程进行解释说明。

(一)声源分离

在本实施例中，声源分离模块用于对输入的混合语音进行声源分离得到多路分离语音。其中，声源分离，是指在先验知识未知时，对由一个或多麦克风采集到的混合不同声源的音频进行处理，以得到多个声源的音频信号(或称声音信号、语音信号等)。

假设每个麦克风的输入语音为多人混合语音，本实施例采用基于辅助函数的在线独立向量分析法(Independent Vector Analysis，IVA)，在帧级别层面上在线地将多个麦克风采集到的音频数据分离为N个声源，也即将一帧多人混合语音分离为N路语音信号。

假设，目标场景下声源数量为N，电子设备通过M个麦克风来接收声源语音数据，则第m个麦克风接收到的语音信号与第n个声源之间的关系可以表示为：

其中，m＝1,2,...,M,h_mn(i)为冲击响应，s_n(j-i)为第n个声源信号，i为时域延迟，I为冲击响应h_mn(i)的长度。

假设分别对h_mn(i)、s_n(j-i)进行短时傅里叶变换，得到频域内的冲击响应为h_nm,f，声源信号为s_n,f,t，h_n,f＝[h_n1,f,h_n2,f,...,h_nM,f]为导向矢量，则对式(1)进行短时傅里叶变换处理，可以得到：

x_f,t＝H_fs_f,t。

其中，H_f＝[h_1,f,h_2,f,...,h_N,f]为混合矩阵，s_f,t＝[s_1,f,t,s_2,f,t,...,s_N,f,t]^T。

在正定的条件下，假设混合矩阵H_f可逆，则分离得到的语音信号可以表示为混合语音信号的线性滤波，如下所示：

y_f,t＝W_fH_fs_f,t； (2)

其中，W_f＝[w_1,f,w_2,f,...,w_N,f]^H为解混矩阵，y_f,t＝[y_f,t,1,y_f,t,2,...,y_f,t,N]^T表示分离得到的N个语音信号。

为了实时地估计出解混矩阵W_f，需要在每一帧混合语音信号被获取到时，对解混矩阵W_f进行更新。因此，本实施例在解混矩阵W_f中引入时间变量，也即在t时刻估计出的解混矩阵W_f,t＝[w_1,f,t,w_2,f,t,...,w_N,f,t]^H。在本实施例中，可以利用极大似然估计等优化方法使代价函数J_t最小化，以此得到所需要的解混矩阵W_f。

在本实施例中，代价函数J_t的计算公式可以如下所示：

其中，G(y_τ,n)＝-logp(y_τ,n)为信任函数，y_τ,n＝[y_1τ,n,y_2τ,n,...,y_Fτ,n]^T，t为某个时刻，N为声源数量，F为离散的频点数。

这样，在实时估计出解混矩阵W_f之后，即可基于式(2)将获取到一帧混合语音信号分离为N路语音信号(每路语音信号的长度为一帧)。可以理解的，每路语音信号对应一个语音分离通道，也即一帧混合语音信号被分离为N个通道上的语音信号。

图4示例性的示出了一种声源分离示例。如图4所示，针对一段混合语音，可以依据上述声音分离算法将其分离为两路语音信号，分别为语音信号1和语音信号2。

(二)特征提取与整合

在本实施例中，特征提取与整合模块用于对分离后的每路语音信号进行语谱特征提取操作，并将多路语音信号的语谱特征进行整合，得到多路语音信号的整合特征(或称综合语谱特征)。

在一种可选的实施方式中，如图5所示，针对分离后的每路语音信号，特征提取与整合模块可以分别提取其Log-Mel频谱特征，并将这多个Log-Mel频谱特征进行拼接，得到多路语音信号的整合特征。其中，提取语音信号的Log-Mel频谱特征的流程主要包括：对分离后的每路语音信号进行短时傅里叶变换(short-time Fourier transform，STFT)，得到其频域信息；使用一组Mel滤波器对频域信息进行加权，得到每个Mel频率段的能量；将每个Mel频率段的能量取对数，以得到语音信号的Log-Mel频谱图，也就得到的语音信号的Log-Mel频谱特征。

假设，语音信号1的Log-Mel频谱特征1为[a1,a2,…,an]，语音信号2的Log-Mel频谱特征2为[b1,b2,…,bn]，……，语音信号N的Log-Mel频谱特征N为[n1,n2,…,nn]，则这N个Log-Mel频谱特征拼接后，得到N路语音信号的整合特征为[a1,a2,…,an,b1,b2,…,bn,…,n1,n2,…,nn]。也即，若每路语音信号的Log-Mel频谱特征均为1×n向量，则N路语音信号的整合特征为1×Nn向量。示例性的，n可以为40。

在本实施例中，声纹提取模块用于对目标说话人预先注册的语音信号进行声纹特征提取，例如可以提取注册语音信号的x-vector特征，作为注册声音特征。其中，将不定长的说话者语音映射成固定维度的嵌入矢量(embeddings)，称为x-vector。可选的，声纹提取模块可以基于预先训练的深度神经网络来提取注册语音信号的x-vector特征。示例性的，x-vector的维度可以为1×192。

(三)PVAD深度神经网络模型的处理

在本实施例中，PVAD深度神经网络模型可以用于对混合语音信号进行高维特征的提取以及语音信号的分类。

如图6所示，PVAD深度神经网络模型可以包括卷积神经网络(ConvolutionalNeural Network，CNN)层、长短期记忆(Long Short-Term Memory，LSTM)网络层以及全连接层。示例性的，PVAD深度神经网络可以包括4层CNN层，2层LSTM网络层，以及3层全连接层。

其中，CNN层可以将多路语音信号的整合特征抽象到更高维度后，输入到LSTM网络层。在LSTM网络层，抽象到更高维度的多路语音信号的整合特征(如Log-Mel频谱整合特征)与注册声纹特征(如x-vector特征)进行拼接，得到用于区分目标人声和干扰声音的综合特征。LSTM网络层可以有效利用历史信息，结合注册声纹所抽象出来的全局特征以及每帧混合语音提取到的局部特征，实现对目标人声和干扰声音的区分。进而，全连接层可以将LSTM网络层输出的特征映射成决策结果，输出标签特征向量。

在本实施例中，PVAD深度神经网络模型的参数量较小，为轻量级模型，采用LSTM网络层提取输入特征的时序关系，并在LSTM网络层前搭建CNN层提取语音数据的空间信息，实现了时序信息和空间信息的联合提取。

针对每一帧混合语音，经声源分离模块分离为N路语音信号，在得到这N路语音信号的整合特征后，可以将这N路语音信号的整合特征与注册声纹特征输入值PVAD深度神经网络模型中，通过PVAD深度神经网络模型进行分析，可以输出标签特征向量。

其中，标签特征向量的维度为1×(N+1)，在标签特征向量中各个元素值为与各个标签分别对应的概率值。也即，标签特征向量包括N+1个元素，这N+1个元素的值为与N+1个标签(如标签0、标签1、标签2、……、标签N)分别对应的概率。

示例性的，与标签0对应的概率表示当前帧混合语音为非目标人声的概率，也即分离得到的N路语音信号均非目标人声的概率；与标签1对应的概率表示分离得到的语音信号1(即分离得到的在通道1上的语音信号)为目标人声的概率；与标签2对应的概率表示分离得到的语音信号2(即分离得到的在通道2上的语音信号)为目标人声的概率；以此类推，与标签N对应的概率表示分离得到的语音信号N(即分离得到的在通道N上的语音信号)为目标人声的概率。

如图7所示，PVAD深度神经网络模型还可以对标签特征向量中的各个元素值进行大小判断，也即对与每个标签对应的概率值进行大小判断，确定出与最大概率值对应的标签，也作为PVAD深度神经网络模型的输出。示例性的，若标签0对应的概率值最大，则PVAD深度神经网络模型针对当前帧混合语音输出标签0，表明当前帧混合语音非目标人声；若标签1对应的概率值最大，则PVAD深度神经网络模型针对当前帧混合语音输出标签1，表明目标人声为分离得到的语音信号1(即分离得到的在通道1上的语音信号)；若标签2对应的概率值最大，则PVAD深度神经网络模型针对当前帧混合语音输出标签2，表明目标人声为分离得到的语音信号2(即分离得到的在通道2上的语音信号)；以此类推，若标签N对应的概率值最大，则PVAD深度神经网络模型针对当前帧混合语音输出标签N，表明目标人声为分离得到的语音信号N(即分离得到的在通道N上的语音信号)。

在本实施例中，训练PVAD深度神经网络模型时，可以利用注册声音(也即目标人声)的x-vector特征，以及混合语音样本分离后的多路语音信号的整合特征对PVAD深度神经网络模型进行训练，并通过最小化损失函数来更新PVAD深度神经网络模型的参数以使PVAD深度神经网络模型收敛。其中，PVAD深度神经网络模型可以输出标签特征向量，也可以输出概率值最大的标签。进而，输出模块可以将概率值最大的标签作为与当前帧混合语音对应的目标人声提取结果，从而获得目标人声所在的分离语音通道，以此提取到一帧目标人声。

在本实施例中，训练PVAD深度神经网络模型时，可以采用加权成对损失优化模型，增加目标人声和非目标人声之间的差异权重，减少不同分离语音通道上目标人声之间的差异的影响，以进一步提高模型的识别性能。

在本实施例中，加权成对损失公式可以表示为：

其中，y为一类真实标签，y∈{0,1,2,…,N}；z为PVAD深度神经网络前向计算的输出，z^k表示第k类标签的非归一化概率，z^y表示第y类标签的非归一化概率；ω＜k_,y＞表示第k类标签和第y类标签之间的权重；表示对中括号中的内容求数学期望。

在加权成对损失公式中，中括号内的对数形式参考了交叉熵损失的形式：

在本实施例中，设置目标人声所在通道类别之间的权重，低于目标人声所在通道类别与非目标人声所在通道类别之间的权重，以使PVAD深度神经网络模型能够专注于区分目标人声和非目标人声。

由此，针对每一帧混合语音，将其对应的分离语音的整合特征输入PVAD深度神经网络模型中，PVAD深度神经网络模型即可结合目标说话人的注册声纹特征输出标签特征向量，还可以根据标签特征向量中各概率值的大小确定与目标人声提取结果对应的标签。

示例性的，PVAD深度神经网络模型的输入可以表示为PVAD深度神经网络模型的处理过程可以表示为/>其中。x_t表示与一帧混合语音对应的分离语音的整合特征，e^target表示目标说话人的注册声纹特征，z_t表示标签特征向量，/>表示与标签0对应的概率值，/>表示与标签1对应的概率值，以此类推，/>表示与标签N对应的概率值。

在PVAD深度神经网络模型得出与一帧混合语音对应的标签特征向量后，即可对标签特征向量中包括的各个概率值进行判断，以得到与目标人声提取结果对应的标签。若标签0对应的概率值最大，则PVAD深度神经网络模型针对当前帧混合语音输出标签0，表明当前帧混合语音非目标人声；若标签1至标签N中任一标签所对应的概率值最大，则PVAD深度神经网络模型针对当前帧混合语音输出标签1至标签N中对应的一个标签值，表明待提取的目标人声在相应的分离语音通道上，以此就可以获取到目标人声所在的通道信息，进而可以提取到相应的目标人声。

继续参照图3，在PVAD深度神经网络模型输出与目标人声提取结果对应的标签之后，输出模块即可根据该标签输出目标人声提取结果。其中，若PVAD深度神经网络模型针对当前帧混合语音输出的标签为标签0，则表明当前帧混合语音非目标人声，此时输出模块可以直接将当前帧混合语音作为目标人声提取结果进行输出。若PVAD深度神经网络模型针对当前帧混合语音输出的标签为标签1至标签N中任一标签，则表明目标人声在与该标签对应的分离语音通道上，此时输出模块可以直接将相应的分离语音作为当前帧混合语音作为目标人声提取结果进行输出。

图8示例性的示出了一帧目标人声的提取示例。如图8所示，对一帧混合语音进行声源分离，得到分离语音1和分离语音2。假设，分离语音1为对该帧混合语音分离得到的通道1上的语音信号，分离语音2为对该帧混合语音分离得到的通道2上的语音信号。分别对分离语音1和分离语音2进行特征提取并整合，得到与该帧混合语音对应的整合特征，PVAD深度神经网络模型根据该整合特征以及目标说话人的注册声纹特征，得到与该帧混合语音对应的标签特征向量若/>则根据标签特征向量/>中各概率值的大小可以确定出与目标人声提取结果对应的标签为2。也即，PVAD深度神经网络模型可以识别出目标人声在分离语音通道2上，进而可以将分离语音2作为在混合语音中提取到的目标人声进行输出。

这样，PVAD深度神经网络模型可以在帧级别上处理混合语音(或称混合语音经声源分离后得到的各个分离语音)，得到与目标人声提取结果对应的标签，以此达到在混合语音中提取目标人声的目的。

在一种可选的实施方式中，图9示例性的示出了一种目标人声提取方法的处理流程。以一帧混合语音为例，如图9所示，将由一个或多个麦克风采集到的一帧混合语音输入到声源分离模块中，经声源分离模块的处理，得到分离后的多路语音信号(或称多路声音信号)；将分离后的多路语音信号输入至特征提取及整合模块中，特征提取及整合模块分别对每路语音信号进行语谱特征提取，并将这多路语音信号的语谱特征进行整合，得到多路语音信号的整合特征。针对提前注册的语音，可以通过声纹提取模块提取到注册声音特征，进而PVAD深度神经网络模型可以基于注册声音特征以及多路语音信号的整合特征分析得到与该帧混合语音对应的标签特征向量。在此基础上，后处理模块1基于有限状态机策略(或称有限状态机模型)对PVAD深度神经网络模型输出的标签特征向量进行后处理，以确定与该帧混合语音的目标人声提取结果对应的标签。继而，输出模块可以基于该标签获取对应的一路语音信号进行输出，以此达到从一帧混合语音中提取一帧目标人声的效果。

关于声源分离模块、特征提取及整合模块、PVAD深度神经网络模型、声纹提取模块以及输出模块的处理流程可以参照前文，在此不再赘述。

在本实施方式中，在对当前帧混合语音进行处理时，有限状态机模型的标签初始状态为有限状态机模型针对前一帧混合语音输出的标签。

需要指出的是，在对首帧混合语音进行处理时，有限状态机模型的标签初始状态为PVAD深度神经网络模型针对首帧混合语音输出的标签。

下述以有限状态机模型对第m帧混合语音进行处理为例，进行解释说明。

若仅根据最大标签概率值进行标签状态转移，且不对标签状态转移进行特殊限制，有限状态机模型的标签状态转移情形可以参照图10a所示。如图10a所示，当初始状态为标签0(也即有限状态机模型针对第m-1帧混合语音输出的标签为标签0)时：根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定则状态转移路径为标签0到标签0，此时有限状态机模型确定与第m帧混合语音对应的标签为标签0；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签0到标签1，此时有限状态机模型确定与第m帧混合语音对应的标签为标签1；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定则状态转移路径为标签0到标签2，此时有限状态机模型确定与第m帧混合语音对应的标签为标签2；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签0到标签N，此时有限状态机模型确定与第m帧混合语音对应的标签为标签N。当初始状态为标签1(也即有限状态机模型针对第m-1帧混合语音输出的标签为标签1)时：根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签1到标签0，此时有限状态机模型确定与第m帧混合语音对应的标签为标签0；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签1到标签1，此时有限状态机模型确定与第m帧混合语音对应的标签为标签1；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签1到标签2，此时有限状态机模型确定与第m帧混合语音对应的标签为标签2；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签1到标签N(图10a中未示出)，此时有限状态机模型确定与第m帧混合语音对应的标签为标签N。当初始状态为标签2(也即有限状态机模型针对第m-1帧混合语音输出的标签为标签2)时：根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定则状态转移路径为标签2到标签0，此时有限状态机模型确定与第m帧混合语音对应的标签为标签0；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签2到标签1，此时有限状态机模型确定与第m帧混合语音对应的标签为标签1；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签2到标签2，此时有限状态机模型确定与第m帧混合语音对应的标签为标签2；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签2到标签N，此时有限状态机模型确定与第m帧混合语音对应的标签为标签N。关于其他标签(标签3～标签N-1)，图10a中未详细示出，其他标签状态与标签0、标签1、标签2、标签N之间的状态转移依旧是根据最大标签概率值确定的，与图10a中示出的标签状态转移路径类似，在此不再赘述。

在本实施方式中，为了减少提取到的目标人声的漏字问题，在后处理模块1所采用的有限状态机模型中，除了根据最大标签概率值进行标签状态转移，还对标签0到其他标签的状态转移条件进行了限定，以及对其他标签到标签0的状态转移条件进行了限定。

其中，标签0到其他标签(标签1～标签N)的状态转移条件相对容易，而其他标签到标签0的状态转移条件更加严格。

在本实施例中，标签0到标签x(标签1～标签N)的状态转移条件可以是：且/>标签x到标签0的状态转移条件可以是：且/>其中，m1>m2，m1>m3。在本实施例中，可以通过提高阈值m1，降低阈值m2，降低阈值m3的方式来调整“标签0到标签x”的状态转移条件以及“标签x到标签0”的状态转移条件，使得有限状态机模型的输出结果可以尽可能容易地由标签0向标签x转移，并可以尽量避免由标签x向标签0转移，进而通过有限状态机模型的处理可以减少最终输出标签序列中标签0的数量。

另外，标签0～标签N转移到各自本身的状态转移路径所对应的条件，以及标签1～标签N之间的状态转移路径所对应的条件，均仅依据最大标签概率值确定的，不做其他限制。例如，由标签0指向标签0的状态转移路径所对应的条件为由标签1～标签N中任意标签指向标签x(标签1～标签N)的状态转移路径所对应的条件为

下述依旧以有限状态机模型对第m帧混合语音进行处理为例，进行解释说明。

如图10b所示，当初始状态为标签0(也即有限状态机模型针对第m-1帧混合语音输出的标签为标签0)时：根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定则状态转移路径为标签0到标签0，此时有限状态机模型确定与第m帧混合语音对应的标签为标签0；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>且/>则状态转移路径为标签0到标签1，此时有限状态机模型确定与第m帧混合语音对应的标签为标签1；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>且则状态转移路径为标签0到标签2，此时有限状态机模型确定与第m帧混合语音对应的标签为标签2；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>且/>则状态转移路径为标签0到标签N，此时有限状态机模型确定与第m帧混合语音对应的标签为标签N。当初始状态为标签1(也即有限状态机模型针对第m-1帧混合语音输出的标签为标签1)时：根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>且/>则状态转移路径为标签1到标签0，此时有限状态机模型确定与第m帧混合语音对应的标签为标签0；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定则状态转移路径为标签1到标签1，此时有限状态机模型确定与第m帧混合语音对应的标签为标签1；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签1到标签2，此时有限状态机模型确定与第m帧混合语音对应的标签为标签2；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签1到标签N(图10b中未示出)，此时有限状态机模型确定与第m帧混合语音对应的标签为标签N。当初始状态为标签2(也即有限状态机模型针对第m-1帧混合语音输出的标签为标签2)时：根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>且/>则状态转移路径为标签2到标签0，此时有限状态机模型确定与第m帧混合语音对应的标签为标签0；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定则状态转移路径为标签2到标签1，此时有限状态机模型确定与第m帧混合语音对应的标签为标签1；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签2到标签2，此时有限状态机模型确定与第m帧混合语音对应的标签为标签2；根据PVAD神经网络模型针对第m帧混合语音输出的标签特征向量，若确定/>则状态转移路径为标签2到标签N，此时有限状态机模型确定与第m帧混合语音对应的标签为标签N。关于其他标签(标签3～标签N-1)，图10b中未详细示出，其他标签状态与标签0之间的状态转移条件可以参照标签1和标签2，依旧是使得有限状态机可以尽可能容易地从标签0状态转移到其他标签状态，同时使得有限状态机模型尽量避免从其他标签状态转移到标签0状态，在此不再赘述。另外，其他标签(标签3～标签N-1)与标签1、标签2、标签N之间的状态转换条件依旧是仅依据最大概率值确定(不做其他限制)，在此不再赘述。

对比图10a和图10b可知，在本实施例中，后处理模块1不仅根据最大标签概率值进行标签状态转移，而且还对标签0到标签x(标签1～标签N)的状态转移条件以及标签x(标签1～标签N)到标签0的状态转移条件进行了特殊限制，使得由标签0向标签x转移相对容易，由标签x向标签0转移相对较难，进而通过有限状态机模型的处理可以减少最终输出标签序列中标签0的数量，使得在目标人声存在的时候尽量缓解提取到的目标人声的掉字问题。

在本实施方式中，在PVAD深度神经网络模型针对当前帧混合语音输出标签特征向量之后，后处理模块1可以基于有限状态机策略以及标签特征向量，确定与当前帧混合语音对应的标签。进而，输出模块即可根据与当前帧混合语音对应的标签输出目标人声提取结果。其中，与当前帧混合语音对应的标签为标签0，则表明当前帧混合语音非目标人声，此时输出模块可以直接将当前帧混合语音作为目标人声提取结果进行输出。若与当前帧混合语音对应的标签为标签1至标签N中任一标签，则表明目标人声在与该标签对应的分离语音通道上，此时输出模块可以直接将相应的分离语音作为当前帧混合语音作为目标人声提取结果进行输出。

这样，PVAD深度神经网络模型可以在帧级别上处理混合语音(或称混合语音经声源分离后得到的各个分离语音)，得到与各帧混合语音对应的标签特征向量，随后处理模块1基于有限状态机策略以及标签特征向量，确定与各帧混合语音对应的标签，以此尽量避免提取到的目标人声存在漏字的问题。

需要指出的是，在本实施方式中，PVAD深度神经网络模型除了输出与各帧混合语音对应的标签特征向量之外，也可以同时输出与各帧混合语音对应的标签，相对于后处理模块1输出的标签，PVAD深度神经网络模输出的标签可以理解为与各帧混合语音对应的初始标签(或称待修正标签)。进而，后处理模块1的作用可以理解为对PVAD深度神经网络模型输出的初始标签(或称待修正标签)进行修正，进而后处理模块1输出的标签为与各帧混合语音对应的最终标签。

在一种可选的实施方式中，图11示例性的示出了一种目标人声提取方法的处理流程。以一帧混合语音为例，如图11所示，将由一个或多个麦克风采集到的一帧混合语音输入到声源分离模块中，经声源分离模块的处理，得到分离后的多路语音信号(或称多路声音信号)；将分离后的多路语音信号输入至特征提取及整合模块中，特征提取及整合模块分别对每路语音信号进行语谱特征提取，并将这多路语音信号的语谱特征进行整合，得到多路语音信号的整合特征。针对提前注册的语音，可以通过声纹提取模块提取到注册声音特征，进而PVAD深度神经网络模型可以基于注册声音特征以及多路语音信号的整合特征分析得到与该帧混合语音对应的标签特征向量。在此基础上，后处理模块1对PVAD深度神经网络模型输出的标签特征向量进行后处理，以确定与该帧混合语音的目标人声提取结果对应的标签，并将确定的与目标人声提取结果对应的标签发送至后处理模块2。在本实施方式中，后处理模块2根据接收到的标签对目标人声提取是否稳定进行判断，并根据判断结果指示输出模块如何进行语音输出。

关于声源分离模块、特征提取及整合模块、PVAD深度神经网络模型、后处理模块1以及声纹提取模块的处理流程可以参照前文，在此不再赘述。

在本实施例中，如图12所示，后处理模块2接收到后处理模块1确定的与目标人声提取结果对应的标签，并根据该标签判断目标人声提取情况是否稳定。如果后处理模块判断出当前目标人声提取情况稳定，则指示输出模块选用目标人声提取结果进行输出。示例性的，后处理模块2可以向输出模块指示当前目标人声提取结果稳定，并将与目标人声提取结果对应的标签发送至输出模块。进而，输出模块将与该标签对应的一路分离语音信号作为输出。如果后处理模块判断出当前目标人声提取情况不稳定，则指示输出模块选用原混合语音进行输出。示例性的，后处理模块2可以向输出模块指示当前目标人声提取结果不稳定。进而，在输出模块接收到当前目标人声提取结果不稳定的指示后，输出模块可以获取当前帧混合语音替代与目标人声提取结果对应的一路分离语音信号进行输出。

例如，在针对第1帧～第19帧混合语音进行目标人声提取时，后处理模块2判断出当前目标人声提取情况稳定，则输出模块分别根据与第1帧～第19帧混合语音对应的目标人声提取结果标签获取相应的分离语音信号，并合并多帧目标人声提取结果后进行输出。假设，在针对第20帧混合语音进行目标人声提取时，后处理模块2判断出当前目标人声提取情况不稳定，此时虽然已经对第20帧混合语音进行了目标人声提取，但输出模块不再采用与第20帧混合语音对应的目标人声提取结果，而是直接选用第20帧混合语音，也即获取第20帧原混合语音，并将其拼接至第19帧目标人声提取结果(也即第19帧分离语音信号)后进行输出。

可选的，后处理模块2可以根据后处理模块1确定的与目标人声提取结果对应的标签，统计标签突变数量(标签突变数量的初始值可以为0)，并根据标签突变数量判断当前目标人声提取情况是否稳定。其中，若连续接收到的两个标签不相同，则表明与目标人声提取结果对应的标签发生了突变，标签突变数量累加1。示例性的，若后处理模块2当前统计得到的标签突变数量大于预设的阈值1，则判断当前目标人声提取情况不稳定；若后处理模块2当前统计得到的标签突变数量不大于阈值1，则判断当前目标人声提取情况稳定。

例如，若后处理模块1确定的与连续多帧语音信号对应的目标人声提取结果标签依次为“22222222221”，则该标签序列的最后两个标签“21”表示标签突变了一次，此时后处理模块2统计到的标签突变数量为1。当后处理模块2接收到与下一帧对应的标签时，假设标签序列为“222222222212”，则该标签序列的最后两个标签“12”表示标签又突变了一次，此时后处理模块2统计到的标签突变数量累加1，也即标签突变数量变为2。

在本实施方式中，后处理模块2还可以在标签突变数量每次发生变化后，重新开始统计标签稳定数量(标签稳定数量的初始值可以为0)，并在标签稳定数量达到预设的阈值2时，将当前的标签突变数量清零。若标签稳定数量未达到预设的阈值2，后处理模块2不对当前的标签突变数量进行清零处理。其中，若连续接收到的两个输出标签相同，标签稳定数量可以累加1。

例如，若后处理模块1确定的与连续多帧语音信号对应的目标人声提取结果标签依次为“22222222221”，则该标签序列的最后两个标签“21”表示标签突变了一次，此时后处理模块2统计到的标签突变数量为1。也即，此时标签突变数量发生了变化，后处理模块2开始统计标签稳定数量。当后处理模块2后续接收到其他标签时，假设标签序列为“2222222222111111”，后处理模块2统计得到的标签稳定数量为5，若预设的阈值2为5，则后处理模块2此时可以将标签突变数量清零。若后处理模块2统计得到的标签稳定数量未达到阈值2，则后处理模块2不对标签突变数量进行清零。当后处理模块2后续接收到其他标签时，假设标签序列为“22222222221111112”，后处理模块2统计到的标签突变数量为1，标签突变数量再次发生了变化，后处理模块2重新开始统计标签稳定数量。当后处理模块2后续再接收到其他标签时，假设标签序列为“222222222211111121”，后处理模块2统计到的标签突变数量为2，标签突变数量再次发生了变化，后处理模块2重新开始统计标签稳定数量。其中，后处理模块2重新开始统计标签稳定数量，可以理解为后处理模块2先将标签稳定数量清零后再开始计数。

需要指出的是，无论在标签突变数量清零之前，还是在标签突变数量清零之后，标签突变数量的统计方法不会发生改变。

这样，后处理模块2在标签稳定数量达到阈值2时将标签突变数量清零，在标签稳定数量未达到阈值2时不对标签突变数量进行清零处理，不仅能够避免标签突变数量持续累加而导致后处理模块2对当前目标人声提取情况是否稳定判断不准确的问题，也不会影响后处理模块2对当前目标人声提取情况是否稳定的判断。

在本实施方式中，引入了突变平滑策略，后处理模块2根据标签突变情况判断当前目标人声提取情况是否稳定，进而根据判断结果指示输出模块选用目标人声提取结果进行输出，或者指示输出模块选用原混合语音进行输出。这样，针对标签较为平稳的连续多帧混合语音，输出模块选用目标人声提取结果进行输出，而针对标签突变过多的连续多帧混合语音，输出模块选用原混合语音进行输出，以此避免由于标签突变过多过快而导致用户对提取到的目标人声听觉体验不佳的问题。

在一种可选的实施方式中，图13示例性的示出了一种目标人声提取方法的处理流程。以一帧混合语音为例，如图13所示，将由一个或多个麦克风采集到的一帧混合语音输入到声源分离模块中，经声源分离模块的处理，得到分离后的多路语音信号(或称多路声音信号)；将分离后的多路语音信号输入至特征提取及整合模块中，特征提取及整合模块分别对每路语音信号进行语谱特征提取，并将这多路语音信号的语谱特征进行整合，得到多路语音信号的整合特征。针对提前注册的语音，可以通过声纹提取模块提取到注册声音特征，进而PVAD深度神经网络模型可以基于注册声音特征以及多路语音信号的整合特征分析得到与目标人声提取结果对应的标签。在此基础上，后处理模块2获取PVAD深度神经网络模型输出的标签，并根据PVAD深度神经网络模型输出的标签对当前目标人声结果的提取情况是否稳定进行判断，并根据判断结果指示输出模块如何进行语音输出。

关于声源分离模块、特征提取及整合模块、PVAD深度神经网络模型、后处理模块2以及声纹提取模块的处理流程可以参照前文，在此不再赘述。

综上所述，本申请实施例针对多说话人语音混合场景下提取目标说话人语音的问题，提供了一种目标人声的提取方法。该方法以PVAD深度神经网络模型为核心，通过声源分离算法和声纹注册，得到注册的目标说话人语音声纹信息以及分离语音的语谱特征，并利用PVAD深度神经网络模型进行高维特征提取和分类，获得目标说话人的语音所在的通道标签信息，以此来提取目标说话人的语音，削弱了其他说话人和非人语音对目标人声的影响。另外，在该方法中，还可以通过有限状态机策略和/或突变平滑策略对PVAD深度神经网络模型的输出通道标签进行后处理，以此提升输出的目标人声的语音质量，进一步提升用户对目标人声的听觉体验。

如图14所示为电子设备100的结构示意图。可选地，电子设备100可以为终端，也可以称为终端设备，终端可以为蜂窝电话(cellular phone)或平板电脑(pad)等电子设备，本申请不做限定。需要说明的是，电子设备100的结构示意图可以适用于图1～图2中的电子设备100_1和电子设备100_2(如手机)。应该理解的是，图14所示的电子设备100仅是电子设备的一个范例，并且电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图14中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器，陀螺仪传感器，加速度传感器，温度传感器，运动传感器，气压传感器，磁传感器，距离传感器，接近光传感器，指纹传感器，触摸传感器，环境光传感器，骨传导传感器等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理，例如使得电子设备100实现本申请实施例中的目标人声提取方法。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。在一些实施例中，电子设备100可以设置多个扬声器170A。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图15是本申请实施例的电子设备100的软件结构框图。

电子设备100的分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，硬件抽象层(hardware abstraction layer，HAL)，以及内核层。

另外，在一些实施例中，Android系统的分层还可以包括安卓运行时(Androidruntime)和系统库。其中，Android Runtime包括核心库和虚拟机。Android Runtime负责安卓系统的调度和管理。系统库可以包括多个功能模块。例如：表面管理器(surfacemanager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

应用程序层可以包括一系列应用程序包。

如图15所示，应用程序包可以包括视频应用、会议应用、图库、蓝牙等。应用程序包还可以包括相机、WLAN、蓝牙、通话、日历、地图、导航、音乐、短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图15所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，资源管理器，通知管理器，音频服务等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。

音频服务用于响应于应用的请求，调用音频相关部件，例如麦克风、扬声器等。

HAL层为位于操作系统内核与硬件电路之间的接口层。HAL层包括但不限于：音频硬件抽象层(Audio HAL)和摄像头硬件抽象层(Camera HAL)。其中，Audio HAL用于对音频流进行处理，例如，对音频流进行降噪、定向增强等处理，Camera HAL用于对图像流进行处理。

在本申请实施例中，音频HAL中还包括目标人声提取模块，用于实现在麦克风接收到的混合语音中提取目标人声。其中，目标人声提取模块可以包括如图3所示的各个模块，或者可以包括如图9所示的各个模块，或者可以包括如图11所示的各个模块，或者可以包括如图13所示的各个模块。关于图中各个模块的详细解释以及处理流程可以参照前文，在此不再赘述。

在一种应用场景下，视频应用或会议应用中设置“语音增强”选项。当用户开启“语音增强”选项之后，电子设备的麦克风接收到的语音信号被通过音频HAL中的目标人声提取模块进行处理，从而实现在混合语音中提取目标人声。进而，经目标人声提取模块处理后的语音信号经编码等处理后再通过无线通信模块(如Wi-Fi模块)被传输至对端电子设备。在此情形下，关于音频未尽详细解释的处理流程可以参照已有技术，在此不再赘述。当用户关闭“语音增强”选项之后，电子设备的麦克风接收到的语音信息可以按照已有的音频信号处理流程进行处理，也即不通过目标人声提取模块的处理。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，音频驱动，Wi-Fi驱动，传感器驱动等。其中，硬件至少包括处理器、显示屏、Wi-Fi模块、传感器等。

可以理解的是，图15示出的软件结构中的层以及各层中包含的部件，并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的层，以及每个层中可以包括更多或更少的部件，本申请不做限定。

可以理解的是，电子设备为了实现本申请实施例中的目标人声提取方法，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的目标人声提取方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的目标人声提取方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的目标人声提取方法。

其中，本实施例提供的电子设备(如手机等)、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种目标人声提取方法，其特征在于，应用于第一电子设备中，包括：

获取当前帧混合语音；

对所述当前帧混合语音进行声源分离，得到分离后的多路语音信号；

将所述多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中，确定与所述当前帧混合语音对应的目标标签；其中，所述目标标签用于指示在所述多路语音信号中是否存在一路语音信号为目标人声，以及在所述多路语音信号中存在一路语音信号为目标人声时，所述目标标签还用于指示目标人声所在的语音信号分离通道；

当所述目标标签指示在所述多路语音信号中存在一路语音信号为目标人声时，根据所述目标标签获取一路语音信号，作为与所述当前帧混合语音对应的目标人声提取结果。

2.根据权利要求1所述的方法，其特征在于，将所述多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中之后，还包括：

通过所述PVAD深度神经网络模型输出与所述当前帧混合语音对应的标签特征向量；其中，所述标签特征向量中的各个元素值分别为与各个标签分别对应的概率值；

将概率值最大的一个标签作为与所述当前帧混合语音对应的目标标签。

3.根据权利要求1所述的方法，其特征在于，将所述多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中，确定与所述当前帧混合语音对应的目标标签，包括：

通过预设的有限状态机模型根据所述标签特征向量，确定与所述当前帧混合语音对应的目标标签；

其中，在所述有限状态机模型中，标签初始状态为与所述当前帧混合语音的前一帧混合语音对应的目标标签；所述有限状态机模型的状态转移条件用于减少目标标签序列中标签0的数量，所述标签0用于指示在所述多路语音信号中任意一路语音信号均非目标人声。

4.根据权利要求3所述的方法，其特征在于，在所述有限状态机模型中：

由标签0至标签x的状态转移条件为：且/>

由标签x至标签0的状态转移条件为：且/>

其中，标签特征向量为与标签x对应的概率值；m1、m2、m3为预设的阈值；m1＞m2，m1＞m3，所述标签x用于指示在所述多路语音信号中第x路语音信号为目标人声，1≤x≤N，x为整数，N为分离得到的语音信号总路数。

5.根据权利要求2或3所述的方法，其特征在于，所述PVAD深度神经网络模型包括卷积神经网络层、长短期记忆网络层和全连接层；

将所述多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中，包括：

将所述多路语音信号的整合特征输入到所述卷积神经网络层中，得到所述多路语音信号的高维整合特征；

将所述多路语音信号的高维整合特征和所述目标人的声纹特征输入到所述长短期记忆网络层中，得到综合特征；

将所述综合特征输入到所述全连接层中，得到所述标签特征向量。

6.根据权利要求1-5任一项所述的方法，其特征在于，根据所述目标标签获取一路语音信号，作为与所述当前帧混合语音对应的目标人声提取结果，包括：

如果根据所述目标标签确定当前目标人声提取稳定，则根据所述目标标签获取一路语音信号，作为与所述当前帧混合语音对应的目标人声提取结果。

7.根据权利要求6所述的方法，其特征在于，还包括：

如果根据所述目标标签确定当前目标人声提取不稳定，则将所述当前帧混合语音直接作为目标人声提取结果。

8.根据权利要求6所述的方法，其特征在于，还包括：

根据与所述当前帧混合语音对应的目标标签统计当前标签突变数量；其中，所述标签突变数量用于指示与目标人声提取结果对应的标签突变情况；

若所述当前标签突变数量不大于预设阈值，则确定当前目标人声提取稳定，否则确定当前目标人声提取不稳定。

9.根据权利要求1所述的方法，其特征在于，在得到分离后的多路语音信号之后，还包括：

分别提取分离后的每路语音信号的Log-Mel频谱特征；

将每路语音信号的Log-Mel频谱特征进行拼接，得到所述多路语音信号的整合特征。

10.根据权利要求1所述的方法，其特征在于，对所述当前帧混合语音进行声源分离，得到分离后的多路语音信号，包括：

实时确定与所述当前帧混合语音对应的解混矩阵；

基于所述解混矩阵对所述当前帧混合语音进行声源分离，得到分离后的多路语音信号。

11.根据权利要求1所述的方法，其特征在于，还包括：

当所述目标标签指示在所述多路语音信号中任意一路语音信号均非目标人声时，将所述当前帧混合语音直接作为目标人声提取结果。

12.根据权利要求1-11任一项所述的方法，其特征在于，获取当前帧混合语音，包括：

获取由所述第一电子设备的一个或多个麦克风采集到的当前帧混合语音；

在根据所述目标标签获取一路语音信号，作为与所述当前帧混合语音对应的目标人声提取结果之后，还包括：

按照混合语音的帧序，将与所述当前帧混合语音对应的目标人声提取结果发送至第二电子设备；其中，所述第二电子设备与所述第一电子设备已建立通信连接。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序存储在所述存储器上，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-12中任一项所述的目标人声提取方法。

14.一种计算机可读存储介质，包括计算机程序，其特征在于，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-12中任一项所述的目标人声提取方法。