CN110459237B

CN110459237B - 语音分离方法、语音识别方法及相关设备

Info

Publication number: CN110459237B
Application number: CN201910745682.1A
Authority: CN
Inventors: 陈联武; 于蒙; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2020-11-20
Anticipated expiration: 2039-04-12
Also published as: CN110459238A; CN110070882B; CN110459237A; CN110459238B; CN110491410A; CN110070882A; CN110491410B

Abstract

本发明实施例提供了一种语音分离方法、语音识别方法及相关设备。该语音分离方法包括：获取包括至少两个目标对象的语音信号的混合语音信号；获取所述混合语音信号对应的单通道频谱特征和多通道方位特征；通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠；根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。

Description

语音分离方法、语音识别方法及相关设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种语音分离方法、语音识别方法、语音分离装置、计算机可读介质及电子设备。

背景技术

在嘈杂的声学环境中，比如在鸡尾酒会中，往往同时存在着许多不同的声源：多个人同时说话的声音、餐具的碰撞声、音乐声等杂音，以及这些声音经墙壁和室内的物体反射所产生的反射声等。在声波的传递过程中，不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。

因此，在达到听者外耳道的混合声波中已经不存在独立的与多个声源相对应的声波了。然而，在这种声学环境下，人类的听觉系统却能在一定程度上听清楚其所注意的目标语音，而机器在这方面的能力还不如人类。

因此，在语音信号处理领域，如何能够实现在嘈杂环境中分离出目标语音的功能是目前亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种语音分离方法、语音识别方法及相关设备，进而至少在一定程度上实现在嘈杂环境中分离出目标语音。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种语音分离方法，所述方法包括：获取包括至少两个目标对象的语音信号的混合语音信号；获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征，所述全语音频段包括K个子频段，K为大于等于2的正整数；从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征；通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量；根据所述K个第一特征向量生成合并特征向量；通过第一预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

在本发明的一些示例性实施例中，所述方法还包括：根据各目标对象的第一语音频谱掩码矩阵和所述混合语音信号，获得各目标对象的第一语音频谱。

在本发明的一些示例性实施例中，K的取值范围为[2,8]之间的正整数。

在本发明的一些示例性实施例中，所述单通道频谱特征包括对数功率谱；所述多通道方位特征包括多通道相位差特征和/或多通道幅度差特征。

在本发明的一些示例性实施例中，K个第一神经网络中的各第一神经网络包括LSTM、DNN、CNN中的任意一个或者多个。

根据本发明实施例的一个方面，提供了一种语音分离方法，所述方法包括：获取包括至少两个目标对象的语音信号的混合语音信号；获取所述混合语音信号对应的单通道频谱特征和多通道方位特征；通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠；根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。

在本发明的一些示例性实施例中，根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵，包括：若所述判断结果为目标对象之间不存在重叠，则通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述目标语音频谱掩码矩阵。

在本发明的一些示例性实施例中，根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵，包括：若所述判断结果为目标对象之间存在重叠，则通过单通道分离网络对所述单通道频谱特征进行处理，获得所述目标语音频谱掩码矩阵。

在本发明的一些示例性实施例中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，包括：根据所述单通道频谱特征和多通道方位特征确定各目标对象的空间位置；将采集所述混合语音信号的麦克风阵列作为参照点，根据各目标对象的空间位置获得任意两个目标对象之间的夹角；获取任意两个目标对象之间的夹角的最小值；若所述夹角的最小值超过门限值，则所述判断结果为目标对象之间存在重叠；若所述夹角的最小值未超过所述门限值，则所述判断结果为目标对象之间不存在重叠。

在本发明的一些示例性实施例中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，包括：通过所述重叠判断模型对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述判断结果。

根据本发明实施例的一个方面，提供了一种语音识别方法，所述方法包括：获取包括至少两个目标对象的语音信号的混合语音信号；获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征，所述全语音频段包括K个子频段，K为大于等于2的正整数；从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征；通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道频谱特征进行处理，获得K个第一特征向量；根据所述K个第一特征向量生成合并特征向量；通过第一预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵；根据各目标对象的第一语音频谱掩码矩阵识别出各目标对象的语音信号。

根据本发明实施例的一个方面，提供了一种语音识别方法，所述方法包括：获取包括至少两个目标对象的语音信号的混合语音信号；获取所述混合语音信号对应的单通道频谱特征和多通道方位特征；通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠；根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵；根据各目标对象的目标语音频谱掩码矩阵识别出各目标对象的语音信号。

根据本发明实施例的一个方面，提供了一种语音分离装置，所述装置包括：混合语音信号获取模块，配置为获取包括至少两个目标对象的语音信号的混合语音信号；全频段特征获取模块，配置为获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征，所述全语音频段包括K个子频段，K为大于等于2的正整数；子频段特征提取模块，配置为从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征；子特征向量获得模块，配置为通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量；子频段特征融合模块，配置为根据所述K个第一特征向量生成合并特征向量；第一掩码矩阵输出模块，配置为通过第一预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

根据本发明实施例的一个方面，提供了一种语音分离装置，所述装置包括：混合语音信号获取模块，配置为获取包括至少两个目标对象的语音信号的混合语音信号；混合特征获取模块，配置为获取所述混合语音信号对应的单通道频谱特征和多通道方位特征；重叠判断获得模块，配置为通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠；目标掩码确定模块，配置为根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。

根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的语音分离方法。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的语音分离方法。

在本发明的一些实施例所提供的技术方案中，构建了包括K(K为大于等于2的正整数)个第一神经网络和第一预测网络的基于多频段学习的多通道分离网络，可以从当前获取到的混合语音信号的全语音频段的单通道频谱特征和多通道方位特征中提取出相应的K个子频段的单通道频谱特征和多通道方位特征，并将提取的K个子频段的单通道频谱特征和多通道方位特征分别输入至K个第一神经网络，K个第一神经网络可以输出K个第一特征向量；将该K个第一特征向量融合生成合并特征向量以输入至第一预测网络，从而可以分离出该混合语音信号中的不同目标对象的第一语音频谱掩码矩阵，即通过训练好的该基于多频段学习的多通道分离网络，使得各个第一神经网络可以在不同频段上各自学习到单通道频谱特征和多通道方位特征的相关关系，再将不同频段学习的结果进行融合，可以提升多通道语音分离的效果和性能。

在本发明的另一些实施例所提供的技术方案中，构建用于判断混合语音信号中的各目标对象之间是否存在空间上的重叠的重叠判断模型，并根据该重叠判断模型输出的判断结果，来确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵，从而可以解决相关技术中由于目标对象之间位置重叠而导致的多通道语音分离效果变差的技术问题。例如，若目标对象之间不存在位置重叠，则可以选择多通道分离网络的输出作为目标语音频谱掩码矩阵，使得在目标对象之间没有重叠的场景下，利用多通道分离网络获得更好的分类效果。再例如，若目标对象之间存在位置重叠，则可以选择单通道分离网络的输出作为该目标语音频谱掩码矩阵，使得在目标对象之间存在重叠的场景下，使用单通道分离网络来避免多通道分离网络分离性能的下降，从而可以提升系统的整体鲁棒性。

本发明实施例公开的语音分离方案，可以应用于复杂声学场景下的语音交互，例如多人会议的语音识别、party(聚会)中的语音识别、智能音箱、智能电视等场景的语音识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了相关技术中的一种语音分离方法的示意图。

图2示意性示出了根据本发明的一个实施例的语音分离方法的流程图。

图3示意性示出了根据本发明的一个实施例的基于多频段学习的多通道分离网络的示意图。

图4示意性示出了根据本发明的一个实施例的基于PIT训练的基于多频段学习的多通道分离网络的示意图。

图5示意性示出了根据本发明的另一个实施例的语音分离方法的流程图。

图6示意性示出了根据本发明的一个实施例的单通道分离网络和多通道分离网络融合的示意图。

图7示意性示出了根据本发明的一个实施例的单通道分离网络和基于多频段学习的多通道分离网络融合的示意图。

图8示意性示出了根据本发明的一个实施例的说话人之间的夹角的示意图。

图9示意性示出了根据本发明的又一个实施例的语音分离方法的流程图。

图10示意性示出了根据本发明的再一个实施例的语音分离方法的流程图。

图11示意性示出了根据本发明的再一个实施例的语音分离方法的流程图。

图12示意性示出了根据本发明的另一个实施例的单通道分离网络和多通道分离网络融合的示意图。

图13示意性示出了根据本发明的一个实施例的语音识别方法的流程图。

图14示意性示出了根据本发明的另一个实施例的语音识别方法的流程图。

图15示意性示出了根据本发明的一个实施例的语音分离装置的框图。

图16示意性示出了根据本发明的另一个实施例的语音分离装置的框图。

图17示意性示出了根据本发明的一个实施例的电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text-To-Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本发明实施例提供的方案涉及人工智能的语音、机器学习/深度学习等技术，具体通过如下实施例进行说明。

本发明实施例中，语音分离(speech separation)是指有多个说话人同时说话而导致语音有重叠的情况下，如何把目标说话人的声音和其它干扰(这里为除目标说话人以外的其他说话人的声音)分开，也可以称之为“多说话人分离(Speaker Separation)”。

相关技术中的语音分离技术包括最小化均方误差(Minimum Mean SquaredError，MMSE)、听觉场景分析(Computation Audio Scene Analysis，CASA)、非负矩阵因子化(Nonnegative Matrix Factorization，NMF)等。随着深度学习技术的发展，出现了基于神经网络的语音分离技术。相关技术中神经网络技术已经能较好地将语音和噪声分离，至于如何将语音与语音分离也取得了一些进展。

此外，随着实际应用的需求，语音分离的相关技术研究，也开始从近场单通道任务向远场多通道任务发展，例如将麦克风阵列增强算法与神经网络相结合，以及从多通道分离网络中提取方位特征来提升网络分离效果。

其中，单通道分离网络，一般是输入单通道频谱特征(例如，Log Power Spectrum，LPS，对数功率谱)，输出目标说话人的频谱或者频谱掩蔽矩阵(mask)。而在多通道分离网络中，由于通道间的方位特征(例如，Inter-channel Phase Difference，IPD，通道间相位差)能反映说话人的空间位置信息，所以可以将单通道频谱特征和多通道方位特征拼接在一起，作为多通道分离网络的输入。

图1示出了相关技术中的一种语音分离方法的示意图。

如图1所示，其可以是单通道分离网络，也可以是多通道分离网络。在图1为单通道分离网络时，其输入的J(J为大于等于1的正整数)帧特征可以是单通道频谱特征；在图1为多通道分离网络时，其输入的J帧特征可以为单通道频谱特征与多通道方位特征的组合。

参考图1，输入J帧特征至神经网络(例如DNN(Deep Neural Network，深度神经网络)，CNN(Convolutional Neural Networks，卷积神经网络)，LSTM(Long Short-TermMemory，长短期记忆网络))中，这里假设混合语音信号中有两个目标说话人，分别对应语音1和语音2，则神经网络分别输出语音1对应的时频点掩码矩阵M1(M帧，M为大于等于1的正整数，M1为mask1的简写)和语音2对应的掩码矩阵M2(M帧，M2为mask2的简写)，之后分别将掩码矩阵M1和掩码矩阵M2与输入的混合语音(mixed speech)(M帧)频谱相乘，可得到分离出的输出1即干净语音1(M帧)对应的频谱和输出2即干净语音2(M帧)对应的频谱。

然而，在上述图1的多通道语音分离方案中，只是简单地将全语音频段的频谱特征与方位特征拼接在一起输入到神经网络中，并没有很好的利用到不同频道上频谱特征和方位特征之间的相关关系。

图2示意性示出了根据本发明的一个实施例的语音分离方法的流程图。本发明实施例提供的语音分离方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器。

如图2所述，本发明实施例提供的语音分离方法可以包括以下步骤。

在步骤S210中，获取包括至少两个目标对象的语音信号的混合语音信号。

本发明实施例中，所述混合语音信号是指其中包括两个或者两个以上说话人(即目标对象)的语音信号的混合声波。

在步骤S220中，获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征，所述全语音频段包括K个子频段，K为大于等于2的正整数。

这里的全语音频段可以是针对人类的语音频率范围而言的，例如可以为0-8KHz(即采样率为16KHz)，但本发明并不限定于此。

本发明实施例中，所述单通道频谱特征可以包括对数功率谱(LPS)。对数功率谱可以压缩参数的动态范围并考虑到了人耳的听觉效应。但本发明并不限定于此，例如还可以是Gammatone功率谱、频谱幅度、梅尔(Mel)倒谱系数等，其中Gammatone是模拟人耳耳蜗滤波后的特征。

本发明实施例中，所述多通道方位特征可以包括多通道相位差特征(IPD)和/或多通道幅度差特征(Interchannel Level Difference，ILD)，但本发明并不限定于此，例如还可以是基于IPD变化的特征，例如cosIPD，sinIPD等。

在下面的举例说明中，以所述单通道频谱特征为LPS，所述多通道方位特征为IPD为例进行举例说明，但本发明的保护范围并不受此限制。

在步骤S230中，从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征。

在示例性实施例中，K的取值范围可以为[2,8]之间的正整数，在下面的实施例中，以K等于2为例进行举例说明，但可以理解的是，本发明并不对K的取值范围和具体取值进行限定。

例如，可以将0-8KHz的全语音频段划分成2个子频段，假设频段1为0-2KHz，频段2为2-8KHz。需要说明的是，关于频段的切分，可以将全语音频段在K个子频段上进行均分，也可以分成不均匀的几个频段，本发明对此不作限定。

在步骤S240中，通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量。

例如，将频段1对应的单通道频谱特征和多通道方位特征输入至训练好的第一个第一神经网络以输出第一个第一特征向量(embedding 1)，将频段2对应的单通道频谱特征和多通道方位特征输入至训练好的第二个第一神经网络以输出第二个第一特征向量(embedding 2)，…，将频段K对应的单通道频谱特征和多通道方位特征输入至训练好的第K个第一神经网络以输出第K个第一特征向量(embedding K)。

在示例性实施例中，K个第一神经网络中的各第一神经网络可以包括LSTM、DNN、CNN等中的任意一个或者多个。

需要说明的是，K个第一神经网络中的各个第一神经网络可以分别采用不同的神经网络，例如第一个第一神经网络采用LSTM，第二个第一神经网络采用DNN，第三个第一神经网络采用CNN，等等。或者，K个第一神经网络中的各个第一神经网络也可以采用相同的神经网络，例如第一个至第K个神经网络均采用LSTM。或者，K个第一神经网络中可以部分第一神经网络采用相同的神经网络，部分第一神经网络采用不同的神经网络。或者，K个第一神经网络中的各个第一神经网络可以包括一个或者多个神经网络的组合，例如第一个第一神经网络采用LSTM+DNN的组合，第二个第一神经网络采用CNN+LSTM的组合，第三个第一神经网络采用CNN，第四个第一神经网络采用多个LSTM(LSTMs)的组合，等等。本发明对此不作限定。在下面的举例说明中，以K个第一神经网络均为LSTM为例进行举例说明，但并不用于限定本发明的保护范围。

其中，LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于RNN的地方，在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。可以在反复运算下解决神经网络中长期存在的长序依赖问题。

在步骤S250中，根据所述K个第一特征向量生成合并特征向量。

本发明实施例中，例如，可以将embedding 1、embedding 2、…、embedding K进行向量相加，生成所述合并特征向量。

在步骤S260中，通过第一预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

本发明实施例中，所述第一预测网络可以为MLP(Multi-Layer Perception，多层感知器)、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。在下面的举例说明中，以所述第一预测网络为MLP为例进行举例说明，但本发明并不限定于此。

其中，MLP是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。MLP克服了感知器无法实现对线性不可分数据识别的缺点。

在示例性实施例中，所述方法还可以包括：根据各目标对象的第一语音频谱掩码矩阵和所述混合语音信号，获得各目标对象的第一语音频谱。

例如，假设所述混合语音信号(mixed speech)中包括两个目标对象即两个目标说话人，分别对应语音1和语音2，则第一预测网络分别输出语音1对应的第一语音频谱掩码矩阵(mask1，简写为M1)和语音2对应的第一语音频谱掩码矩阵(mask2，简写为M2)，之后通过M1和M2分别与所述混合语音信号的频谱相乘，可得到分离出的语音1对应的第一语音频谱和语音2对应的第一语音频谱。

本发明实施方式提供的语音分离方法，构建了包括K(K为大于等于2的正整数)个第一神经网络和第一预测网络的基于多频段学习的多通道分离网络，可以从当前获取到的混合语音信号的全语音频段的单通道频谱特征和多通道方位特征中提取出相应的K个子频段的单通道频谱特征和多通道方位特征，并将提取的K个子频段的单通道频谱特征和多通道方位特征分别输入至K个第一神经网络，K个第一神经网络可以输出K个第一特征向量；将该K个第一特征向量融合生成合并特征向量以输入至第一预测网络，从而可以分离出该混合语音信号中的不同目标对象的第一语音频谱掩码矩阵，即通过训练好的该基于多频段学习的多通道分离网络，使得各个第一神经网络可以在不同频段上各自学习到单通道频谱特征和多通道方位特征的相关关系，再将不同频段学习的结果进行融合，可以提升多通道语音分离的效果和性能。

本发明实施例提供的基于多频段学习的多通道分离网络的框架如图3所示，假设频段1对应的LPS+IPD特征输入至LSTM 1，LSTM 1输出第一特征向量1(embedding1)，频段2对应的LPS+IPD特征输入至LSTM 2，LSTM 2输出第一特征向量2(embedding2)，…，频段K对应的LPS+IPD特征输入至LSTM K，LSTM K输出第一特征向量K(embeddingK)，将embedding1、embedding 2、…embedding K相加进行融合，获得合并特征向量，并将合并特征向量输入至MLP，预测输出混合语音信号中的各个目标对象的第一语音频谱掩码矩阵。

由图3可知，与图1所示的相关技术中将全语音频段的LPS与IPD拼接在一起输入至神经网络不同，本发明实施例提出先将全语音频段划分成K个子频段，构建K个对应的子网络(K个第一神经网络)，每个子网络输入其对应频段范围内的单通道频谱特征和多通道方位特征(例如LPS+IPD)，输出该频段对应的embedding，之后将所有频段学习到的embedding特征进行合并，再通过MLP网络估计每个目标说话人的掩码矩阵。随着频段的不同，单通道频谱特征和多通道方位特征之间的关系，以及它们各自对于分离效果的贡献都会不同，因此，本发明实施例通过将全语音频段分成多个子频段，有利于网络更好地对各个频段的特征进行拟合，从而能够提高系统的分离性能和效果。

图4示意性示出了根据本发明的一个实施例的基于PIT(permutation invarianttraining，具有置换不变性的训练方法)训练的基于多频段学习的多通道分离网络的示意图。

本发明实施例中，首先进行训练数据的生成，这里可以通过生成混合语音和干净语音对，分别作为输入和输出(有标注数据)，对模型进行训练。混合语音可以是随机的将多个干净语音进行混合生成的。然后从训练数据中的混合语音中提取出K个子频段的单通道频谱特征如LPS和多通道频谱特征如IPD。

本发明实施例中，网络训练过程中，可以采用基于PIT的训练准则，根据输出语音(output 1，output 2)与输入语音(Input 1，Input 2)误差最小的配对来计算网络的估计误差，进而优化网络参数。

如图4所示，训练数据中的混合语音的频段1对应的LPS+IPD特征输入至LSTM 1，LSTM 1输出embedding 1，频段2对应的LPS+IPD特征输入至LSTM 2，LSTM 2输出embedding2，…，频段K对应的LPS+IPD特征输入至LSTM K，LSTM K输出embedding K，将embedding 1、embedding 2、…、embedding K相加进行融合，获得合并特征向量，并将合并特征向量输入至MLP，获得分离的各个目标对象的第一语音频谱掩码矩阵，这里假设为M1(M帧)和M2(M帧)。然后将M1和M2分别与训练数据中对应的混合语音(M帧)相乘，获得输出1即干净语音1(output 1)和输出2即干净语音2(output 2)，将分离输出的干净语音1、干净语音2与输入的即真实标注的干净语音1(M帧)、干净语音2(M帧)分别求取配对分数(pairwise scores)，然后根据配对分数求取误差分配1(error assignment 1)和误差分配2(error assignment2)，求得最小误差(minimum error)。即在误差回传的时候，分别计算输出序列和标注序列间各种组合的均方误差，然后从这些均方误差中找到最小的那个作为回传误差，也就是根据自动找到的声源间的最佳匹配进行优化，避免出现序列模糊的问题。

需要说明的是，本发明实施例中的神经网络可以采用任意合适的方法进行训练，并不限于上述例举的PIT准则。此外，上述给出的2个声源例子只是为了更好地阐述本发明，本发明实施例提供的方案可以直接拓展到N声源的应用，N为大于等于2的正整数。

如图5所述，本发明实施例提供的语音分离方法与上述图2的实施例相比，除了包括上述步骤S210-S260以外，还可以包括以下步骤。

在步骤S510中，通过第二神经网络对所述全语音频段的单通道频谱特征进行处理，获得第二特征向量。

例如，在下面的实施例中，以所述全语音频段的单通道频谱特征为LPS为例进行举例说明，但本发明并不限定于此。

本发明实施例中，所述第二神经网络可以为MLP、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。在下面的举例说明中，以所述第二神经网络也为LSMT为例进行举例说明，但本发明并不限定于此。

在步骤S520中，通过第二预测网络对所述第二特征向量进行处理，获得所述混合语音信号中各目标对象的第二语音频谱掩码矩阵。

本发明实施例中，所述第二预测网络可以为MLP(Multi-Layer Perception，多层感知器)、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。在下面的举例说明中，以所述第二预测网络也为MLP为例进行举例说明，但本发明并不限定于此。

在步骤S530中，判断目标对象之间是否存在重叠；若不存在重叠，则进入步骤S540；若存在重叠，则进入步骤S550。

在步骤S540中，选择所述第一语音频谱掩码矩阵作为所述混合语音信号的目标语音频谱掩码矩阵。

在步骤S550中，选择所述第二语音频谱掩码矩阵作为所述混合语音信号的目标语音频谱掩码矩阵。

本发明实施例中，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果；若所述判断结果为目标对象之间不存在重叠，则可以选择所述第一语音频谱掩码矩阵作为目标语音频谱掩码矩阵；若所述判断结果为目标对象之间存在重叠，则选择所述第二语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵。

在一些实施例中，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，可以包括：通过第三预测网络对所述混合语音信号的合并特征向量进行处理，获得所述判断结果。

本发明实施例中，所述第三预测网络可以为MLP(Multi-Layer Perception，多层感知器)、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。在下面的举例说明中，以所述第三预测网络也为MLP为例进行举例说明，但本发明并不限定于此。

在另一些实施例中，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，可以包括：通过第三神经网络对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述判断结果。

本发明实施例中，所述第三神经网络可以为MLP、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。

如图6所示，可以将单通道分离网络、多通道分离网络和用于目标说话人之间是否存在空间上的重叠的重叠判断模型融合组成一个系统，其中重叠判断判断模型用于根据其输出的判断结果控制单通道分离网络和多通道分离网络的切换。

在图6的实施例中，将单通道频谱特征输入至单通道分离网络，还是以两个目标说话人为例，单通道分离网络分别输出对应的第二语音频谱掩码矩阵M1和M2。将多通道频谱特征与多通道方位特征分别输入至重叠判断模型和多通道分离网络，多通道分离网络分别输出对应的第一语音频谱掩码矩阵M1和M2。当重叠判断模型输出的判断结果为存在重叠时，模型切换至单通道分离网络输出的第二语音频谱掩码矩阵M1和M2；当重叠判断模型输出的判断结果为不存在重叠时，模型切换至多通道分离网络输出的第一语音频谱掩码矩阵M1和M2。

在图6的实施例中，系统的具体工作流程是，对于一句输入的混合语音信号，利用单通道分离网络和多通道分离网络同时生成目标说话人的语音频谱掩码矩阵，并且通过重叠判断模型来确认目标说话人是否存在空间上的重叠。如果存在至少两个目标说话人之间重叠，则系统选择单通道分离网络的结果作为最后输出；如果不存在任意两个目标说话人之间重叠，则系统选择多通道分离网络的结果作为最后输出。本发明实施例中，为了保证最终系统输出结果的连续性，切换可以在句子级别上进行，即对于某一句话，模型切换只做出一个决策。

如图7所示，首先从混合语音信号中提取出K个子频段的LPS+IPD，将频段1对应的LPS+IPD特征输入至LSTM 1，LSTM 1输出embedding 1，频段2对应的LPS+IPD特征输入至LSTM 2输出embedding 2，…，频段K对应的LPS+IPD特征输入至LSTM K，LSTM K输出embedding K，将embedding 1、embedding 2、…、embedding K相加进行融合，获得合并特征向量，然后将合并特征向量分别输入至中间的MLP和右侧的MLP，中间的MLP输出判断结果，右侧的MLP输出第一语音频谱掩码矩阵，这里假设为M1(M帧)和M2(M帧)。

继续参考图7，将全语音频段的LPS特征输入至LSTM K+1，输出embedding K+1，再将embedding K+1输入至左侧的MLP，输出第二语音频谱掩码矩阵，这里假设M1与M2。

然后根据中间MLP输出的判断结果进行第一语音频谱掩码矩阵和第二语音频谱掩码矩阵之间的输出切换。

本发明实施方式提供的语音分离方法，可以将多频段学习的多通道分离网络与全语音频段的单通道分离网络合并到一起使用，即单通道分离网络、多通道分离网络和重叠判断模型组合形成的融合系统中的多通道分离网络可以采用多频段学习的多通道分离方案。在这里，为了减少运算量，还可以将基于多频段学习的多通道分离网络中的合并特征向量，直接用来作为重叠判断模型的输入。但本发明并不限定于此，在其他实施例中，也可以将全语音频段的单通道频谱特征与多通道方位特征作为重叠判断模型的输入。

在示例性实施例中，输出所述判断结果，可以包括：确定各目标对象的空间位置；将采集所述混合语音信号的麦克风阵列作为参照点，根据各目标对象的空间位置获得任意两个目标对象之间的夹角；获取任意两个目标对象之间的夹角的最小值；若所述夹角的最小值超过门限值，则所述判断结果为目标对象之间存在重叠；若所述夹角的最小值未超过所述门限值，则所述判断结果为目标对象之间不存在重叠。

如图8所示，这里假设麦克风阵列包括四个麦克风(预先圆里面的小黑圆点)，以混合语音信号的说话人1和说话人2为例，举例说明如何计算两者之间的夹角。

具体地，判断说话人即目标对象之间是否存在空间上的重叠，是指以麦克风阵列为参照点(这里假设麦克风阵列中的麦克风之间的距离远远小于各个目标对象与麦克风阵列之间的距离，从而可以近似麦克风阵列为一个整体的参照点，图8中仅是为了清楚示意，放大了麦克风阵列中的麦克风之间的距离)，若说话人1和说话人2之间的夹角小于某个门限值(例如，可以设置为15度，但本发明并不限定于此，可以根据具体应用场景进行自主调节)，则可以判定说话人1和说话人2之间存在空间上的重叠。对于包括三个或者三个以上目标对象的分离系统，可以判断该混合语音信号中所有目标对象中每两个目标对象之间的夹角的最小值是否小于所述门限值，从而来判断该混合语音信号中的目标对象之间是否存在空间上的重叠。

需要说明的是，本发明实施例中麦克风阵列是指放置在空间中不同位置的多个麦克风，根据声波传导理论，利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法，麦克风阵列可以将噪声环境中特定声音信号有效的增强。麦克风阵列技术具有很好的抑制噪声和语音增强的能力，又不需要麦克风时刻指向声源方向。虽然图8中示出了4个麦克风组成的麦克风阵列，但本发明并不限定于此，例如还可以采用环形6+1麦克风阵列、双麦克、六麦克、八麦克线性阵列和环形阵列等中的任意一种。

经过发明人研究发现，上述实施例中，由于多通道分离网络利用了说话人的空间位置差异来分离语音，在说话人之间的距离较远的场景下，相对于单通道分离网络有明显的性能提升，但是，若混合语音信号中的说话人之间存在空间上的重叠，此时多通道分离网络的分离性能明显差于单通道分离网络。

图9示意性示出了根据本发明的又一个实施例的语音分离方法的流程图。本发明实施例提供的语音分离方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器。

如图9所示，本发明实施例提供了的语音分离方法可以包括以下步骤。

在步骤S910中，获取包括至少两个目标对象的语音信号的混合语音信号。

在步骤S920中，获取所述混合语音信号对应的单通道频谱特征和多通道方位特征。

在一些实施例中，所述混合语音信号对应的单通道频谱特征和多通道方位特征可以包括全语音频段的单通道频谱特征和多通道方位特征。其中，所述全语音频段包括K个子频段，K为大于等于2的正整数。

在另一些实施例中，获取所述混合语音信号对应的单通道频谱特征和多通道方位特征，可以包括：获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征；从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征。

在步骤S930中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果。其中，所述重叠判断模型可以用于判断目标对象之间是否存在空间上的重叠。

在示例性实施例中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，可以包括：根据所述单通道频谱特征和多通道方位特征确定各目标对象的空间位置；将采集所述混合语音信号的麦克风阵列作为参照点，根据各目标对象的空间位置获得任意两个目标对象之间的夹角；获取任意两个目标对象之间的夹角的最小值；若所述夹角的最小值超过门限值，则所述判断结果为目标对象之间存在重叠；若所述夹角的最小值未超过所述门限值，则所述判断结果为目标对象之间不存在重叠。

在示例性实施例中，所述重叠判断模型可以包括K个第一神经网络和第四预测网络。其中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，可以包括：通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量；根据所述K个第一特征向量生成合并特征向量；通过第四预测网络对所述合并特征向量进行处理，获得所述判断结果。

在示例性实施例中，K个第一神经网络中的各第一神经网络可以包括LSTM、DNN、CNN等中的任意一个或者多个。需要说明的是，K个第一神经网络中的各个第一神经网络可以分别采用不同的神经网络。在下面的举例说明中，以K个第一神经网络均为LSTM为例进行举例说明，但并不用于限定本发明的保护范围。

本发明实施例中，所述第四预测网络可以为MLP(Multi-Layer Perception，多层感知器)、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。在下面的举例说明中，以所述第四预测网络为MLP为例进行举例说明，但本发明并不限定于此。

例如，可以参照上述图7的实施例，即本发明实施例的重叠判断模型可以采用多频段学习的融合后的合并特征向量作为第四预测网络的输入，即复用基于多频段学习的多通道分离网络的合并特征向量，一方面可以降低运算量，另一方面可以学习到不同频段上单通道频谱特征与多通道方位特征之间的相关关系。

在示例性实施例中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，可以包括：通过所述重叠判断模型对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述判断结果。即不同于上述图7的实施例，也可以直接将全语音频段的单通道频谱特征和多通道方位特征输入至所述重叠判断模型，用于进行目标对象之间是否存在重叠的判断。

在步骤S940中，根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。

本发明实施例中未展开说明的内容，可以参照上述其他实施例。

本发明实施方式提供的语音分离方法，构建用于判断混合语音信号中的各目标对象之间是否存在空间上的重叠的重叠判断模型，并根据该重叠判断模型输出的判断结果，来确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵，从而可以解决相关技术中由于目标对象之间位置重叠而导致的多通道语音分离效果变差的技术问题。例如，若目标对象之间不存在位置重叠，则可以选择多通道分离网络的输出作为目标语音频谱掩码矩阵，使得在目标对象之间没有重叠的场景下，利用多通道分离网络获得更好的分类效果。再例如，若目标对象之间存在位置重叠，则可以选择单通道分离网络的输出作为该目标语音频谱掩码矩阵，使得在目标对象之间存在重叠的场景下，使用单通道分离网络来避免多通道分离网络分离性能的下降，从而可以提升系统的整体鲁棒性。

图10示意性示出了根据本发明的再一个实施例的语音分离方法的流程图。本发明实施例提供的语音分离方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器。

如图10所示，本发明实施例提供了的语音分离方法可以包括以下步骤。

这里的步骤S910-S930可以参照上述实施例的描述。

在步骤S1010中，通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

在一些实施例中，可以将上述合并特征向量输入第五预测网络，输出所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。例如，可以参照图7的实施例，即这里的多通道分离网络可以采用基于多频段学习的多通道分离网络，以提升分离性能和效果。

本发明实施例中，所述第五预测网络可以为MLP(Multi-Layer Perception，多层感知器)、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。在下面的举例说明中，以所述第五预测网络为MLP为例进行举例说明，但本发明并不限定于此。

在另一些实施例中，所述方法还可以包括：通过第四神经网络对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。即本发明实施例中，也可以采用基于全语音频段的多通道分离网络。

在示例性实施例中，第四神经网络可以包括LSTM、DNN、CNN等中的任意一个或者多个。

在步骤S1020中，通过单通道分离网络对所述单通道频谱特征进行处理，获得所述混合语音信号中各目标对象的第二语音频谱掩码矩阵。

本发明实施例中，可以将全语音频段的单通道频谱特征输入至单通道分离网络，以分离所述混合语音信号中的各目标对象的语音信号的第二语音频谱掩码矩阵。

在步骤S941中，判断目标对象之间是否存在重叠；若不存在重叠，则进入步骤S942；若存在重叠，则进入步骤S943。

具体的判断重叠逻辑可以参照上述其他实施例。

在步骤S942中，选择上述步骤S1010的第一语音频谱掩码矩阵作为所述混合语音信号的目标语音频谱掩码矩阵。

在步骤S943中，选择上述步骤S1020的第二语音频谱掩码矩阵作为所述混合语音信号的目标语音频谱掩码矩阵。

图10的实施例中，单通道分离网络、多通道分离网络和重叠判断模型是并行工作的，例如可以参照上述图6的实施例，此时，重叠判断模型输出判断结果后，可以实时的选取单通道分离网络或者多通道分离网络其中之一的输出作为最终的输出，从而可以保证语音交互的实时性。

图11示意性示出了根据本发明的再一个实施例的语音分离方法的流程图。本发明实施例提供的语音分离方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器。

如图11所示，本发明实施例提供了的语音分离方法可以包括以下步骤。

这里的步骤S910-S930可以参照上述实施例的描述。

在步骤S1110中，判断目标对象之间是否存在重叠；若不存在重叠，则进入步骤S1120；若存在重叠，则进入步骤S1130。

在步骤S1120中，通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述目标语音频谱掩码矩阵。

在步骤S1130中，通过单通道分离网络对所述单通道频谱特征进行处理，获得所述目标语音频谱掩码矩阵。

本发明实施例中，若所述重叠判断模型输出的判断结果为目标对象之间不存在重叠，则将所述单通道频谱特征和多通道方位特征输入至训练完成的多通道分离网络；并利用所述多通道分离网络输出所述目标语音频谱掩码矩阵；若所述判断结果为目标对象之间存在重叠，则将所述单通道频谱特征输入至训练完成的单通道分离网络；利用所述单通道分离网络输出所述目标语音频谱掩码矩阵。即图11的实施例不同与上述图10的实施例，是先让重叠判断模型工作，再根据其输出的判断结果来选择让单通道分离网络开始工作，还是多通道分离网络开始工作，这样可以减少整体的运算量。

如图12所示，还是以两个目标说话人为例进行举例说明，首先将单通道频谱特征与多通道方位特征(可以是全语音频段的，也可以是融合K个子频段的合并特征向量)输入至重叠判断模型，获得判断结果，再根据判断结果进行模型切换。若判断结果为存在重叠，则将单通道频谱特征输入至单通道分离网络，单通道分离网络输出M1和M2。若判断结果为不存在重叠，则将单通道频谱特征与多通道方位特征(可以是全语音频段的，也可以是融合K个子频段的合并特征向量)输入至多通道分离网络，多通道分离网络输出M1和M2。

图13示意性示出了根据本发明的一个实施例的语音识别方法的流程图。本发明实施例提供的语音识别方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器。

如图13所示，本发明实施例提供的语音识别方法可以包括以下步骤。

在步骤S1310中，获取包括至少两个目标对象的语音信号的混合语音信号。

在步骤S1320中，获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征，所述全语音频段包括K个子频段，K为大于等于2的正整数。

在步骤S1330中，从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征。

在步骤S1340中，通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道频谱特征进行处理，获得K个第一特征向量。

在步骤S1350中，根据所述K个第一特征向量生成合并特征向量。

在步骤S1360中，通过第一预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

这里的步骤S1310-S1360的实现具体可以参照上述实施例中的步骤S210-S260。

在步骤S1370中，根据各目标对象的第一语音频谱掩码矩阵识别出各目标对象的语音信号。

例如，还是以混合语音信号中存在说话人1和说话人2为例，当采用上述实施例中的方法将说话人1和说话人2的第一语音频谱掩码矩阵从所述混合语音信号中分离出来以后，即可将说话人1和说话人2的第一语音频谱掩码矩阵分别与所述混合语音信号的频谱进行相乘，获得说话人1和说话人2各自的第一语音频谱，根据说话人1和说话人2各自的第一语音频谱即可识别出说话人1和说话人2的语音信号，例如生成各自的文本数据。

图14示意性示出了根据本发明的另一个实施例的语音识别方法的流程图。本发明实施例提供的语音识别方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器。

如图14所示，本发明实施例提供的语音识别方法可以包括以下步骤。

在步骤S1410中，获取包括至少两个目标对象的语音信号的混合语音信号。

在步骤S1420中，获取所述混合语音信号对应的单通道频谱特征和多通道方位特征。

在步骤S1430中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠。

在步骤S1440中，根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。

这里的步骤S1410-S1440的实现具体可以参照上述实施例中的步骤S910-S940。

在步骤S1450中，根据各目标对象的目标语音频谱掩码矩阵识别出各目标对象的语音信号。

例如，还是以混合语音信号中存在说话人1和说话人2为例，当采用上述实施例中的方法将说话人1和说话人2的目标语音频谱掩码矩阵从所述混合语音信号中分离出来以后，即可将说话人1和说话人2的目标语音频谱掩码矩阵分别与所述混合语音信号的频谱进行相乘，获得说话人1和说话人2各自的目标语音频谱，根据说话人1和说话人2各自的目标语音频谱即可识别出说话人1和说话人2的语音信号，例如生成各自的文本数据。

如图15所示，本发明实施例提供的语音分离装置1500可以包括混合语音信号获取模块1510、全频段特征获取模块1520、子频段特征提取模块1530、子特征向量获得模块1540、子频段特征融合模块1550以及第一掩码矩阵输出模块1560。

其中，混合语音信号获取模块1510可以配置为获取包括至少两个目标对象的语音信号的混合语音信号。全频段特征获取模块1520可以配置为获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征，所述全语音频段包括K个子频段，K为大于等于2的正整数。子频段特征提取模块1530可以配置为从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征。子特征向量获得模块1540可以配置为通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量。子频段特征融合模块1550可以配置为根据所述K个第一特征向量生成合并特征向量。第一掩码矩阵输出模块1560可以配置为通过第一预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

在示例性实施例中，语音分离装置1500还可以包括：单通道分离模块，可以配置为通过第二神经网络对所述全语音频段的单通道频谱特征进行处理，获得第二特征向量；通过第二预测网络对所述第二特征向量进行处理，获得所述混合语音信号中各目标对象的第二语音频谱掩码矩阵。

在示例性实施例中，语音分离装置1500还可以包括：重叠判断模块，可以配置为获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果；若所述判断结果为目标对象之间不存在重叠，则选择所述第一语音频谱掩码矩阵作为目标语音频谱掩码矩阵；若所述判断结果为目标对象之间存在重叠，则选择所述第二语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵。

在示例性实施例中，所述重叠判断模块可以包括：第一判断单元，可以配置为通过第三预测网络对所述合并特征向量进行处理，获得所述判断结果。

在示例性实施例中，所述重叠判断模块可以包括：第二判断单元，可以配置为通过第三神经网络对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述判断结果。

在示例性实施例中，所述第一判断单元和所述第二判断单元可以包括：空间位置确定子单元，可以配置为确定各目标对象的空间位置；夹角获得子单元，可以配置为将采集所述混合语音信号的麦克风阵列作为参照点，根据各目标对象的空间位置获得任意两个目标对象之间的夹角；最小夹角获取子单元，可以配置为获取任意两个目标对象之间的夹角的最小值；第一判定子单元，可以配置为若所述夹角的最小值超过门限值，则所述判断结果为目标对象之间存在重叠；第二判定子单元，可以配置为若所述夹角的最小值未超过所述门限值，则所述判断结果为目标对象之间不存在重叠。

在示例性实施例中，语音分离装置1500还可以包括：第一语音频谱获得模块，可以配置为根据各目标对象的第一语音频谱掩码矩阵和所述混合语音信号，获得各目标对象的第一语音频谱。

在示例性实施例中，K的取值范围可以为[2,8]之间的正整数。

在示例性实施例中，所述单通道频谱特征可以包括对数功率谱；所述多通道方位特征可以包括多通道相位差特征和/或多通道幅度差特征。

在示例性实施例中，K个第一神经网络中的各第一神经网络可以包括LSTM、DNN、CNN中的任意一个或者多个。

本发明实施例的其他内容和具体实现可以参照上述实施例，在此不再赘述。

本发明实施方式提供的语音分离装置，构建了包括K(K为大于等于2的正整数)个第一神经网络和第一预测网络的基于多频段学习的多通道分离网络，可以从当前获取到的混合语音信号的全语音频段的单通道频谱特征和多通道方位特征中提取出相应的K个子频段的单通道频谱特征和多通道方位特征，并将提取的K个子频段的单通道频谱特征和多通道方位特征分别输入至K个第一神经网络，K个第一神经网络可以输出K个第一特征向量；将该K个第一特征向量融合生成合并特征向量以输入至第一预测网络，从而可以分离出该混合语音信号中的不同目标对象的第一语音频谱掩码矩阵，即通过训练好的该基于多频段学习的多通道分离网络，使得各个第一神经网络可以在不同频段上各自学习到单通道频谱特征和多通道方位特征的相关关系，再将不同频段学习的结果进行融合，可以提升多通道语音分离的效果和性能。

如图16所示，本发明实施例提供的语音分离装置1600可以包括混合语音信号获取模块1610、混合特征获取模块1620、重叠判断获得模块1630以及目标掩码确定模块1640。

其中，混合语音信号获取模块1610可以配置为获取包括至少两个目标对象的语音信号的混合语音信号。混合特征获取模块1620可以配置为获取所述混合语音信号对应的单通道频谱特征和多通道方位特征。重叠判断获得模块1630可以配置为通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠。目标掩码确定模块1640可以配置为根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。

在示例性实施例中，语音分离装置1600还可以包括：多通道语音分离模块，可以配置为通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

在示例性实施例中，语音分离装置1600还可以包括：单通道语音分离模块，可以配置为通过单通道分离网络对所述单通道频谱特征进行处理，获得所述混合语音信号中各目标对象的第二语音频谱掩码矩阵。

在示例性实施例中，目标掩码确定模块1640可以配置为：若所述判断结果为目标对象之间不存在重叠，则选择所述第一语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵；若所述判断结果为目标对象之间存在重叠，则选择所述第二语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵。

在示例性实施例中，目标掩码确定模块1640可以配置为：若所述判断结果为目标对象之间不存在重叠，则通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述目标语音频谱掩码矩阵。

在示例性实施例中，目标掩码确定模块1640可以配置为：若所述判断结果为目标对象之间存在重叠，则通过单通道分离网络对所述单通道频谱特征进行处理，获得所述目标语音频谱掩码矩阵。

在示例性实施例中，重叠判断获得模块1630可以包括：空间位置确定单元，可以配置为根据所述单通道频谱特征和多通道方位特征确定各目标对象的空间位置；夹角获得单元，可以配置为将采集所述混合语音信号的麦克风阵列作为参照点，根据各目标对象的空间位置获得任意两个目标对象之间的夹角；最小夹角获取单元，可以配置为获取任意两个目标对象之间的夹角的最小值；第一判定单元，可以配置为若所述夹角的最小值超过门限值，则所述判断结果为目标对象之间存在重叠；第二判定单元，可以配置为若所述夹角的最小值未超过所述门限值，则所述判断结果为目标对象之间不存在重叠。

在示例性实施例中，混合特征获取模块1620可以包括：全频段特征获取单元，可以配置为获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征，所述全语音频段包括K个子频段，K为大于等于2的正整数；子频段特征提取单元，可以配置为从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征。

在示例性实施例中，所述重叠判断模型可以包括K个第一神经网络和第四预测网络。其中，重叠判断获得模块1630可以配置为：通过所述K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量；根据所述K个第一特征向量生成合并特征向量；通过所述第四预测网络对所述合并特征向量进行处理，获得所述判断结果。

在示例性实施例中，重叠判断获得模块1630可以配置为：通过所述重叠判断模型对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述判断结果。

在示例性实施例中，语音分离装置1600还可以包括：基于多频段的第一掩码输出模块，可以配置为通过第五预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

在示例性实施例中，语音分离装置1600还可以包括：基于全频段的第一掩码输出模块，可以配置为通过第四神经网络对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

本发明实施方式提供的语音分离装置，构建用于判断混合语音信号中的各目标对象之间是否存在空间上的重叠的重叠判断模型，并根据该重叠判断模型输出的判断结果，来确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵，从而可以解决相关技术中由于目标对象之间位置重叠而导致的多通道语音分离效果变差的技术问题。例如，若目标对象之间不存在位置重叠，则可以选择多通道分离网络的输出作为目标语音频谱掩码矩阵，使得在目标对象之间没有重叠的场景下，利用多通道分离网络获得更好的分类效果。再例如，若目标对象之间存在位置重叠，则可以选择单通道分离网络的输出作为该目标语音频谱掩码矩阵，使得在目标对象之间存在重叠的场景下，使用单通道分离网络来避免多通道分离网络分离性能的下降，从而可以提升系统的整体鲁棒性。

应当注意，尽管在上文详细描述中提及了语音分离装置的若干模块或者单元或者子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元或者子单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之，上文描述的一个模块或者单元或者子单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。作为模块或单元或者子单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序包括可执行指令，该可执行指令被例如处理器执行时可以实现上述任意一个实施例中所述语音分离方法的步骤。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书的语音分离方法中描述的根据本公开各种示例性实施例的步骤。

根据本公开的实施例的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供一种电子设备，该电子设备可以包括处理器，以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中的语音分离方法的步骤。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图17来描述根据本公开的这种实施方式的电子设备1700。图17显示的电子设备1700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图17所示，电子设备1700以通用计算设备的形式表现。电子设备1700的组件可以包括但不限于：至少一个处理单元1710、至少一个存储单元1720、连接不同系统组件(包括存储单元1720和处理单元1710)的总线1730、显示单元1740等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1710执行，使得所述处理单元1710执行本说明书的语音分离方法中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1710可以执行如图2、图5、图9至图11中所示的步骤。

所述存储单元1720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)17201和/或高速缓存存储单元17202，还可以进一步包括只读存储单元(ROM)17203。

所述存储单元1720还可以包括具有一组(至少一个)程序模块17205的程序/实用工具17204，这样的程序模块17205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1700也可以与一个或多个外部设备1800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1700交互的设备通信，和/或与使得该电子设备1700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1750进行。并且，电子设备1700还可以通过网络适配器1760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1760可以通过总线1730与电子设备1700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的语音分离方法。

本公开已由上述相关实施例加以描述，然而上述实施例仅为实施本公开的范例。必需指出的是，已揭露的实施例并未限制本公开的范围。相反，在不脱离本公开的精神和范围内所作的变动与润饰，均属本公开的专利保护范围。

Claims

1.一种语音分离方法，其特征在于，包括：

获取包括至少两个目标对象的语音信号的混合语音信号；

获取所述混合语音信号对应的单通道频谱特征和多通道方位特征；

通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵；

通过单通道分离网络对所述单通道频谱特征进行处理，获得所述混合语音信号中各目标对象的第二语音频谱掩码矩阵；

通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠；

根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵；

其中，根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵，包括：

若所述判断结果为目标对象之间不存在重叠，则选择所述第一语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵；

若所述判断结果为目标对象之间存在重叠，则选择所述第二语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵。

2.根据权利要求1所述的语音分离方法，其特征在于，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，包括：

确定各目标对象的空间位置；

将采集所述混合语音信号的麦克风阵列作为参照点，根据各目标对象的空间位置获得任意两个目标对象之间的夹角；

获取任意两个目标对象之间的夹角的最小值；

若所述夹角的最小值小于门限值，则所述判断结果为目标对象之间存在重叠；

若所述夹角的最小值不小于所述门限值，则所述判断结果为目标对象之间不存在重叠。

3.根据权利要求1所述的语音分离方法，其特征在于，获取所述混合语音信号对应的单通道频谱特征和多通道方位特征，包括：

获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征。

4.根据权利要求3所述的语音分离方法，其特征在于，所述全语音频段包括K个子频段，K为大于等于2的正整数；其中，获取所述混合语音信号对应的单通道频谱特征和多通道方位特征，还包括：

从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征。

5.根据权利要求4所述的语音分离方法，其特征在于，所述重叠判断模型包括K个第一神经网络和第四预测网络；其中，通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，包括：

通过所述K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量；

根据所述K个第一特征向量生成合并特征向量；

将所述合并特征向量输入所述第四预测网络，输出所述判断结果。

6.根据权利要求5所述的语音分离方法，其特征在于，所述多通道分离网络包括第五预测网络；其中，通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵，包括：

通过所述第五预测网络对所述合并特征向量进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

7.根据权利要求3所述的语音分离方法，其特征在于，所述多通道分离网络包括第四神经网络；其中，通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵，包括：

通过所述第四神经网络对所述全语音频段的单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。

8.一种语音识别方法，其特征在于，包括：

获取包括至少两个目标对象的语音信号的混合语音信号；

根据各目标对象的目标语音频谱掩码矩阵识别出各目标对象的语音信号；

9.一种语音分离装置，其特征在于，包括：

混合语音信号获取模块，配置为获取包括至少两个目标对象的语音信号的混合语音信号；

混合特征获取模块，配置为获取所述混合语音信号对应的单通道频谱特征和多通道方位特征；

多通道语音分离模块，配置为通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵；

单通道语音分离模块，配置为通过单通道分离网络对所述单通道频谱特征进行处理，获得所述混合语音信号中各目标对象的第二语音频谱掩码矩阵；

重叠判断获得模块，配置为通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠；

目标掩码确定模块，配置为根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵；

其中，所述目标掩码确定模块配置为：若所述判断结果为目标对象之间不存在重叠，则选择所述第一语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵；若所述判断结果为目标对象之间存在重叠，则选择所述第二语音频谱掩码矩阵作为所述目标语音频谱掩码矩阵。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音分离方法。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的语音分离方法。