CN113345465B

CN113345465B - 语音分离方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113345465B
Application number: CN202110727225.7A
Authority: CN
Inventors: 周易
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-11-04
Anticipated expiration: 2041-06-29
Also published as: CN113345465A

Abstract

本申请提供一种语音分离方法、装置、设备及计算机可读存储介质，该方法包括：基于频域ICA算法，对语音混合信号进行计算，得到初始分离信号，再将初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，并基于ICA求解方法，获得各子带的分离信号，再重建获得各声源的语音信号。也就是说，本申请的方法，将第一初始分离信号均匀划分为多个子带，只需对每个子带进行ICA处理，因此能够准确确定各子带的分离信号的分离次序，改善了次序不确定性问题，进而有效提升了语音分离的准确性。此外，本申请在处理过程中仅需使用与子带数量相同的ICA网络进行计算，提升了语音分离的效率。

Description

语音分离方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及语音信号处理技术领域，尤其涉及一种语音分离方法、装置、设备及计算机可读存储介质。

背景技术

随着信息技术的发展，语音信号处理技术不断融入到各个领域。其中，语音信号的盲源分离技术在日常生活中的应用非常广泛。语音信号的盲源分离技术指的是，从获取到的语音混合信号中，分离出各声源的原始语音信号。

目前，常见的盲源分离方法为频域独立成分分析(Independent ComponentAnalysis，简称ICA)方法。频域ICA需要对初始分离信号的每个频点均进行ICA处理，也就是说，在语音分离的过程中需要使用与频点数相同数量的ICA分离网络，并且在分离结束后，为了得到各声源完整的语音信号，需要确定每个频点的ICA分离结果的分离次序，再根据该次序进行语音信号的重建处理。

但是，采用上述方法进行语音分离，由于频点数量通常非常多，很难准确确定出分离次序，也即，存在次序不确定性问题，从而导致语音分离的准确性不高。此外，由于ICA分离网络的计算复杂度高，因此在处理过程中使用大量的ICA分离网络，导致语音分离的效率不高。

发明内容

本申请提供一种语音分离方法、装置、设备及计算机可读存储介质，用以解决语音分离的效果不佳的技术问题。

第一方面，本申请实施例提供一种语音分离方法，包括：

根据多个语音输入设备采集的语音信号，混合获得语音混合信号；其中，所述语音输入设备的数量与预设的各声源的数量一致；

基于频域独立成分分析算法，对所述语音混合信号进行计算，得到初始分离矩阵和初始分离信号；

采用回射投影法，将所述初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，所述第一初始分离信号与所述各声源的数量相同；

将所述初始分离矩阵拆分获得多个解混矩阵，所述解混矩阵的个数为第一初始分离信号个数的平方；

根据所述多个子带和所述多个解混矩阵，基于独立成分分析求解方法，获得各子带的分离信号，每个子带的分离信号包括所述各声源的分离信号；

对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号。

进一步地，如上所述的方法，将所述语音混合信号进行短时傅里叶变换转换为频域信号，并采用均值聚类算法，基于时频点对所述频域信号进行分类；

根据聚类后的类中心，计算获得所述各声源到所述各语音输入设备的时延参数和衰减参数；

针对每个语音输入设备，根据各声源到该语音输入设备的时延参数和衰减参数，计算获得混合矩阵中的各向量，以获得混合矩阵；

对所述混合矩阵进行求逆处理，获得所述初始分离矩阵；

根据所述频域信号和所述初始分离矩阵，基于频域独立成分分析求解方法，求解获得所述初始分离信号。

进一步地，如上所述的方法，所述采用均值聚类算法，基于时频点对所述频域信号进行分类之前，还包括：

对所述频域信号的所有时频点进行归一化处理。

进一步地，如上所述的方法，所述对每个第一初始分离信号进行均匀划分，获得多个子带，包括：

采用正交镜像滤波器组的分析滤波器组，对每个第一初始分离信号进行均匀划分，获得多个子带。

进一步地，如上所述的方法，所述对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号，包括：

采用综合滤波器组，对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号。

进一步地，如上所述的方法，所述对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号之后，还包括：

从所述各声源的语音信号中，提取出目标声源的语音信号；

将所述目标声源的语音信号输出至对应的目标扬声器。

第二方面，本申请实施例提供一种语音分离装置，包括：

获取模块，用于根据多个语音输入设备采集的语音信号，混合获得语音混合信号；其中，所述语音输入设备的数量与预设的各声源的数量一致；

计算模块，用于基于频域独立成分分析算法，对所述语音混合信号进行计算，得到初始分离矩阵和初始分离信号；

拆分模块，用于采用回射投影法，将所述初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，所述第一初始分离信号与所述各声源的数量相同；

所述拆分模块，还用于将所述初始分离矩阵拆分获得多个解混矩阵，所述解混矩阵的个数为第一初始分离信号个数的平方；

所述计算模块，还用于根据所述多个子带和所述多个解混矩阵，基于独立成分分析求解方法，获得各子带的分离信号，每个子带的分离信号包括所述各声源的分离信号；

重建模块，用于对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号。

第三方面，本申请实施例提供一种电子设备，包括：存储器，处理器；

存储器：用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于调用所述存储器中的程序指令执行如第一方面所述的语音分离方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的语音分离方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音分离方法。

本申请提供一种语音分离方法、装置、设备及计算机可读存储介质，基于频域ICA算法，对语音混合信号进行计算，得到初始分离矩阵和初始分离信号，再将初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，同时将初始分离矩阵拆分获得多个解混矩阵，根据多个子带和多个解混矩阵，基于ICA求解方法，获得各子带的分离信号，对每个声源在各子带中的分离信号进行重建处理，获得各声源的语音信号。也就是说，本申请将第一初始分离信号均匀划分为多个子带，只需对每个子带进行ICA处理。故相比于针对每个频点做ICA处理的方案，由于子带的数量相较于频点数量明显减少，因此能够准确确定各子带的分离信号的分离次序，也即改善了次序不确定性问题，进而有效提升了语音分离的准确性。此外，本申请在处理过程中仅需使用与子带数量相同的ICA网络进行计算，从而大大减少了计算量，进而提升了语音分离的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为ICA处理的原理示意图；

图2为本申请提供的一种应用场景的示意图；

图3为本申请提供的语音分离方法的流程图；

图4为本申请提供的基于子带的独立成分分析语音分离的示意图；

图5为本申请提供的语音分离方法的流程图；

图6为本申请提供的语音分离装置的结构示意图；

图7为本申请的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

随着语音信号处理技术的发展，语音信号的分离技术广泛应用到各个领域。语音分离可以根据语音采集设备(比如麦克风)的数量分类，可分为单通道、多通道语音分离。其中，多通道语音分离应用广泛，包括例如新型助听器、电话会议、语音交互等。

结合银行柜台业务场景对多通道语音分离的应用场景进行举例介绍，该场景下通常针对柜员与客户间的语音交流，具体采用窗口双向对讲机设备。简单来说，该设备包括主机、分机、适配器三个部分。主机设置在服务窗口内，供银行职员使用，通常包括一个金属软管360°收音麦克风和一个扬声器，分机附着于窗口外部玻璃，供客户使用，通常包括一个外机收音麦克风和一个外机扬声器。对于窗口内语音输入，柜台人员对准主机的软管麦克风说话，声音信号经过信号处理后传输到外机扬声器扩出。对于窗口外语音输入，客户对准外机的收音麦克风说话，声音信号经过信号处理后传输到主机扬声器扩出。

但窗口双向对讲机设备实际上是一种简单的双向扩声设备组合，不具备语音降噪功能，仅能消除部分电磁噪声、解决回音啸叫问题，无法处理客户人数较多、环境噪声复杂的场景。例如，在银行柜台办理业务时，由于客户人数较多、环境噪声复杂，柜员与客户之间的业务交流受到了很大影响，因此，需要采用盲源分离技术对目标声源与噪声声源进行分离，从而提取出目标声源的语音信号，并通过扬声器扩声传送。

目前，常见的盲源分离方法为频域ICA方法，其中，在信号的混合模型和源信号(或称为声源)信息无法获取的情况下，仅根据混合信号(或称为语音混合信号)估算出混合矩阵并分离出各源信号的过程称为盲源分离。通过该方法，对主机和分机两个麦克风对窗口内外语音信号进行收音，进行盲源分离处理后提取出目标声源(比如客户/银行职员)的声音信号，通过内/外扬声器进行扩声输出。

作为示例，图1为ICA处理的原理示意图。通常，各声源之间满足线性混合情况，且声源之间是独立的。如图1所示，在对声源S和混合矩阵A未知的条件下，仅通过语音混合信号X，解出分离矩阵W，使得分离出的各信号(即Y中各向量)无限逼近声源S。其中，声源S和语音混合信号X均为N维向量，A为N×N的混合矩阵。此外，分离矩阵的求解通常需要选取一个合适的初始分离矩阵，对它进行梯度寻优得到W。相应地，通过初始分离矩阵可以求解出一个初始分离信号。

频域ICA需要对初始分离信号的每个频点均进行ICA处理，也就是说，在语音分离的过程中需要使用与频点数相同数量的ICA分离网络，并且在分离结束后，为了得到各声源完整的语音信号，需要确定每个频点的ICA分离结果的分离次序，再根据该次序进行语音信号的重建处理。

本申请提供的语音分离方法、装置、设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请提供的一种应用场景的示意图，如图2所示，该图2所示的应用场景具体可以包括语音输入设备1、服务器2以及扬声器3，其中服务器2中设置有语音分离装置。

其中，语音输入设备1为能够采集包含各声源的语音混合信号的装置，且该语音输入设备的数量为多个，具体可以为多个麦克风，或是其他合适的装置，本申请对此不做限定。

语音分离装置可搭载于服务器2中，用于获取语音输入设备采集的，包含各声源的语音混合信号，并采用本申请提供的语音分离方法，对该混合信号进行分离处理，并将分离出的目标声源的语音信号输出至对应的扬声器3，通过扬声器3进行扩声传送。

实施例一

图3为本申请提供的语音分离方法的流程图，如图3所示，本实施例提供的语音分离方法包括以下步骤：

步骤101、根据多个语音输入设备采集的语音信号，混合获得语音混合信号；其中，所述语音输入设备的数量与预设的各声源的数量一致。

步骤102、基于频域独立成分分析算法，对所述语音混合信号进行计算，得到初始分离矩阵和初始分离信号。

步骤103、采用回射投影法，将所述初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，所述第一初始分离信号与所述各声源的数量相同。

步骤104、将所述初始分离矩阵拆分获得多个解混矩阵，所述解混矩阵的个数为第一初始分离信号个数的平方。

步骤105、根据所述多个子带和所述多个解混矩阵，基于独立成分分析求解方法，获得各子带的分离信号，每个子带的分离信号包括所述各声源的分离信号。

步骤106、对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号。

需要说明的是，本实施例提供的语音分离方法的执行主体可以为语音分离装置。在实际应用中，该语音分离装置可以通过计算机程序实现，例如应用软件，计算机程序等，也可以通过存储有相关计算机程序的介质，例如，U盘、光盘等实现；或者，还可以通过集成或安装有相关计算机程序的实体装置实现，例如，芯片等。

在本实施例中，将子带滤波技术应用于ICA中来代替频域ICA，实现语音分离处理。具体地，语音分离装置首先可以根据多个语音输入设备采集的语音信号，混合获得语音混合信号。其中，语音输入设备的数量与预设的各声源的数量一致。

其中，声源的类型包括但不限于希望提取出的目标声源以及环境噪声。所述的各声源可以根据同一时刻下发出声音的对象确定。比如，针对用户A和用户B两人进行语音对话的场景，若同一时刻下只有一个用户在说话，且没有环境噪声，则确定声源即为当前正在说话的用户的声音，此时无需进行语音分离。在另一种情况下，若同一时刻下只有一个用户在说话，但存在环境噪声，则确定各声源包括当前正在说话的用户的声音和环境噪声，相应的，需要设置两个语音采集设备。在又一种情况下，若同一时刻下用户A和用户B均在说话，且存在环境噪声，则确定各声源包括用户A说话的声音，用户B说话的声音和环境噪声，相应地，需要设置三个语音采集设备。

确定声源的个数后，设置相同数量的语音输入设备，后续基于语音输入设备采集的信号，执行本方案的语音分离处理技术，获得分离得到的各声源。

接下来，由于ICA是通过迭代运算来寻找目标函数最优解，因此需要找到一个合适的初始点，从而加快ICA的收敛速度。因此，为了获得一个合适的初始分离矩阵，进而获得初始分离信号，语音分离装置可以基于频域ICA算法，对语音混合信号进行计算，得到初始分离矩阵和初始分离信号，具体计算方法将在本申请其他实施例中进行详细说明，在此不做赘述。

然后，为了解决幅度不确定问题，语音分离装置可以采用回射投影法，将初始分离信号拆分为多个第一初始分离信号，第一初始分离信号与各声源的数量相同。

接下来，由于语音信号的能量分布较为集中，呈现出稀疏特性，因此有的初始分离矩阵不能对初始分离信号进行很好的分离，因此，为了提高语音分离效果，语音分离装置可以对每个第一初始分离信号进行均匀划分，获得多个子带。具体划分方法本实施例中不做限定。

相应地，再将初始分离矩阵拆分获得多个解混矩阵。其中，解混矩阵的个数为第一初始分离信号个数的平方。

然后，语音分离装置可以根据多个子带和多个解混矩阵，基于ICA求解方法，获得各子带的分离信号，每个子带的分离信号包括各声源的分离信号，ICA的求解公式为：

其中，s₁(k；n)和s₂(k；n)分别表示第k级子带分离的声源1的分离信号和声源2的分离信号，y₁(k；n)和y₂(k；n)分别表示每个第一初始分离信号中，第k级子带信号，w₁₁(k)、w₁₂(k)、w₂₁(k)、w₂₂(k)表示第k级子带的解混矩阵。

最后，为了得到分离后的各声源的完整语音信号，语音分离装置可以对每个声源在各子带中的分离信号进行重建处理，具体处理方法本实施例中不做限定。

在一个示例中，图4为本申请提供的基于子带的独立成分分析语音分离的示意图，如图4所示，y₁(n)混合信号1和y₂(n)混合信号2，为两个第一初始分离信号，H₀(z)-H_L-1(z)和F₀(z)-F_L-1(z)均为滤波器，M为滤波器进行的相应处理，如改变采样频率等，ICA Network W₀(z)-ICA Network W_L-1(z)均为ICA网络，每个ICA网络均使用上述ICA的求解公式进行迭代寻优运算，S₁(n)估计源1和S₂(n)估计源2，为分离后的两个声源的完整语音信号。

具体处理流程为，将两个第一初始分离信号分别输入到两组H₀(z)-H_L-1(z)滤波器中，从而可以将两个第一初始分离信号，分别均匀划分为8个子带。实际应用中，图4中的H₀(z)-H_L-1(z)滤波器可为正交镜像滤波器组的分析滤波器组。

接下来，将两个第一初始分离信号划分出的同级子带，输入同一个ICA网络，采用相应的ICA的求解公式进行迭代寻优运算，举例来说，将两个第一初始分离信号分别划分出的1级子带，共同输入ICA Network W₀(z)网络进行迭代寻优运算，将两个第一初始分离信号分别划分出的2级子带，共同输入ICA Network W₁(z)网络进行迭代寻优运算，以此类推，将两个第一初始分离信号分别划分出的8级子带，共同输入ICA Network W₇(z)网络进行迭代寻优运算。

最后，将各ICA网络进行迭代寻优运算后获得的分离信号，分别输入两组F₀(z)-F_L-1(z)滤波器，举例来说，将ICA Network W₀(z)获得的两个分离信号，分别输入两组滤波器中的F₀(z)滤波器，以此类推，将ICA Network W₇(z)获得的两个分离信号，分别输入两组滤波器中的F₇(z)滤波器，经各滤波器共同进行信号的重建处理后，即可得到分离后的两个声源的完整语音信号。实际应用中，图4中的F₀(z)-F_L-1(z)滤波器可为综合滤波器组。

在上述实施例一的基础上，步骤103中，所述对每个第一初始分离信号进行均匀划分，获得多个子带，具体包括：采用正交镜像滤波器组的分析滤波器组，对每个第一初始分离信号进行均匀划分，获得多个子带。步骤106，具体包括：采用综合滤波器组，对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号。

由于正交镜像滤波器组和综合滤波器组能够很好地实现无混叠失真，包括无幅度失真、无相位失真，因此有效避免了最终获得的各声源的语音信号的失真问题。

在上述实施例一的基础上，步骤106之后，还包括：从所述各声源的语音信号中，提取出目标声源的语音信号；将所述目标声源的语音信号输出至对应的目标扬声器。

在本实施例中，在得到分离后的各声源的完整语音信号后，语音分离装置可以从各声源的完整语音信号中，提取出目标声源的语音信号，具体提取方式本实施例中不做限定。然后，将目标声源的语音信号输出至对应的目标扬声器，进行扩声传送。

举例来说，在银行柜台办理业务的场景中，若提取出的目标声源的语音信号为柜员的语音信号，则将该语音信号输出至柜台窗口外面的外机扬声器，以使外机扬声器对柜员的声音进行扩音传送。相应地，若提取出的目标声源的语音信号为客户的语音信号，则将该语音信号输出至柜台窗口里面的主机扬声器，以使主机扬声器对客户的声音进行扩音传送。

通过上述方式，可以将提取出的没有噪声干扰的目标声源，通过扬声器扩声传送，提高了用户体验。

本实施例提供的语音分离方法，基于频域ICA算法，对语音混合信号进行计算，得到初始分离矩阵和初始分离信号，再将初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，同时将初始分离矩阵拆分获得多个解混矩阵，根据多个子带和多个解混矩阵，基于ICA求解方法，获得各子带的分离信号，对每个声源在各子带中的分离信号进行重建处理，获得各声源的语音信号。也就是说，在本申请实施例中，将第一初始分离信号均匀划分为多个子带，只需对每个子带进行ICA处理。故相比于针对每个频点做ICA处理的方案，由于子带的数量相较于频点数量明显减少，因此能够准确确定各子带的分离信号的分离次序，也即改善了次序不确定性问题，进而有效提升了语音分离的准确性。此外，本申请在处理过程中仅需使用与子带数量相同的ICA网络进行计算，从而大大减少了计算量，进而提升了语音分离的效率。

实施例二

图5为本申请提供的语音分离方法的流程图，如图5所示，本实施例提供的语音分离方法，在上述实施例一的基础上，步骤102，具体包括以下步骤：

步骤201、将所述语音混合信号进行短时傅里叶变换转换为频域信号，并采用均值聚类算法，基于时频点对所述频域信号进行分类。

步骤202、根据聚类后的类中心，计算获得所述各声源到所述各语音输入设备的时延参数和衰减参数。

步骤203、针对每个语音输入设备，根据各声源到该语音输入设备的时延参数和衰减参数，计算获得混合矩阵中的各向量，以获得混合矩阵。

步骤204、对所述混合矩阵进行求逆处理，获得所述初始分离矩阵。

步骤205、根据所述频域信号和所述初始分离矩阵，基于频域独立成分分析求解方法，求解获得所述初始分离信号。

在本实施例中，为了得到初始分离矩阵和初始分离信号，可以基于频域独立成分分析算法，对语音混合信号进行计算。具体地，语音分离装置首先可以将语音混合信号进行短时傅里叶变换转换为频域信号，并采用均值聚类算法，基于时频点对频域信号进行分类。

在一个示例中，声源和语音输入设备的个数均为两个。由于频域ICA的基本原理为将时域上的卷积转化到频域上的乘积，将卷积混合问题转换成瞬时混合问题求解。因此，可以将语音混合信号进行短时傅里叶变换转换为频域信号。

接下来，根据语音信号的稀疏特性，信号的能量分布集中在较少的时频点上，对于不同的声源信号而言，能量分布集中的点在时频域上重合的几率极小。基于这种假设，可以认为在每一个时频点上只存在一个声源信号。由于语音混合信号经过短时傅里叶变换处理之后的所有时频点为一个总体，假设没有混响干扰，则两个语音输入设备采集到的语音混合信号的比值，近似等于这个时频点上的声源到两个语音输入设备的衰减参数的比值。因此，为了便于后续处理，可将所有时频点分为两类，每一类中语音输入设备采集到的信号向量来自同一个声源。

接下来，由于初始分离矩阵需要根据时延参数和衰减参数获得，因此语音分离装置可以根据聚类后的类中心，计算获得各声源到各语音输入设备的时延参数和衰减参数，针对每个语音输入设备，语音分离装置可以根据各声源到该语音输入设备的时延参数和衰减参数，计算获得混合矩阵中各个频带的无回声模型向量，以获得混合矩阵。

然后，由于初始分离矩阵为混合矩阵的逆矩阵，因此语音分离装置可以对混合矩阵进行求逆处理，获得初始分离矩阵。相应地，语音分离装置可以根据频域信号和初始分离矩阵，基于频域独立成分分析求解方法，求解获得初始分离信号。

本实施例提供的语音分离方法，将语音混合信号转换为频域信号，并基于时频点进行分类，根据聚类后的类中心，计算获得时延参数和衰减参数，从而计算获得混合矩阵，对混合矩阵进行求逆处理，获得初始分离矩阵，进而根据频域信号和初始分离矩阵，基于ICA求解获得初始分离信号，从而为后续基于子带的ICA进行语音信号分离奠定基础。

在上述实施例二的基础上，步骤201中，所述采用均值聚类算法，基于时频点对所述频域信号进行分类之前，还包括：对所述频域信号的所有时频点进行归一化处理。

在实际应用中，为了消除幅度以及相位失真，在基于时频点对频域信号进行分类之前，需要对频域信号的所有时频点进行归一化处理，从而可以更好地进行语音信号分离。

实施例三

在上述实施例一的基础上，为了进一步说明本申请的语音分离方法，现结合具体公式进行详细说明：

在一个示例中，声源和麦克风(语音输入设备)的个数均为两个，两个声源相互独立，经过各自传播途径后被两个麦克风接收，那么第j个麦克风接收到的信号可表示为：

其中，x_j(t)为第j个麦克风接收到的信号，p为时延参数，d为幅度参数，t为第j个麦克风接收到当前信号的时刻，A_ji为第j个麦克风接收到第i个声源信号处的混合矩阵，s_i为第i个声源。p取1时为瞬间混合模型，p取大于1的常数时为卷积混合模型。

由于频域ICA的基本原理为时域上的卷积转化到频域上的乘积，将卷积混合问题转换成瞬时混合问题求解，因此，可以根据语音信号的短时平稳性，将麦克风接收到的信号进行L点短时傅里叶变换。相应地，可以将上式转化为频域表达式：

x(f，τ)＝A(f)s(f，τ)

其中，x(f，τ)为麦克风接收到的频域信号，A(f)表示频带f处的混合矩阵，A中各元素均为复数值，a₁₁(f)、a₁₂(f)、a₂₁(f)、a₂₂(f)为混合矩阵中各元素，s(f，τ)为声源频域信号，f为频带，τ为帧。

由于频域ICA对每个频带进行盲信号分离处理，每个频带处理之后的分离信号的幅度及次序具有不确定性，会对重建的整体时域分离信号产生影响。因此，需要采用回射投影法解决幅度不确定性问题，再结合子带滤波器组来解决次序不确定性问题，方法如下：

将上述频域表达式写成求和形式：

其中，x(f，τ)为麦克风接收到的频域信号，s_k(f，τ)为第k个声源的频域信号，a_k(f)为第k个声源到麦克风的频率响应，估计出该频率响应即可得出分离信号，也即声源，但是，该频率响应在没有声源位置等先验条件的情况下很难被估计出来。此处估计的目的是估计初始分离矩阵，所以假设没有回声的影响，即只考虑传输时延与衰减的情况。在这一假设下，上述混合矩阵A(f)中各元素可以用近似替代，公式如下：

c_jk(f)＝λ_jk·exp(-i2πfτ_jk)

其中，τ_jk和λ_jk均为正数，分别表示第k个声源到第j个语音输入设备的传输时延参数和衰减参数，c_jk(f)为各频带的无回声模型向量，也即混合矩阵A(f)中各元素a₁₁(f)、a₁₂(f)、a₂₁(f)、a₂₂(f)，λ1k为第k个声源到第1个语音输入设备的传输衰减参数，λ_2k为第k个声源到第2个语音输入设备的传输衰减参数，τ_1k为第k个声源到第1个语音输入设备的传输时延参数，τ_2k为第k个声源到第2个语音输入设备的传输时延参数。

根据语音信号的稀疏特性，信号的能量分布集中在较少的时频点上，对于不同的声源信号而言，能量分布集中的点在时频域上重合的几率极小。基于这种假设，可以认为在每一个时频点上只存在一个声源信号。由于麦克风接收到的信号经过短时傅里叶变换处理之后的所有时频点为一个总体，假设没有混响干扰，则两个麦克风接收到的信号的比值，近似等于这个时频点上的声源到两个麦克风的衰减参数的比值。因此，为了便于后续处理，可将所有时频点分为两类，每一类中麦克风接收到的信号向量来自同一个声源。

此外，为了消除幅度以及相位失真，在基于时频点对频域信号进行分类之前，需要对频域信号的所有时频点进行归一化处理，公式如下：

再进行频率归一化以消除相位影响：

再对上述无回声模型向量也进行归一化处理：

其中，麦克风接收到的信号经过相位归一化后的第一个向量相位是0。β为常量，取值由实验确定，通过合理取值来调节相位和幅度衰减在聚类中的相对重要程度。麦克风接收信号的所有时频点都经过上述两步归一化处理之后，可以采用均值聚类算法进行分类，公式如下：

其中，argmin为求使目标函数取最小值时的变量值的函数，C(f，τ)为聚类后的类中心，

为全称量化符号，x(f，τ)为麦克风接收到的频域信号，

为归一化处理后的无回声模型向量，N_k为第k个声源的时频点个数，与频率无关，k为声源的个数，f为频带，τ为帧。

由此可以计算出第k个声源到第j个语音输入设备的传输时延参数和衰减参数，公式如下：

其中，τ_jk为第k个声源到第j个语音输入设备的传输时延参数，λ_jk为第k个声源到第j个语音输入设备的传输衰减参数，k为声源的个数，j为语音输入设备的个数，c_jk为聚类后的类中心，β为常量，arg为求参数的函数。

然后，将该时延参数和衰减参数代入上述混合矩阵A(f)的无回声模型向量的计算公式中，得到各频带的无回声模型向量，也即混合矩阵A(f)中的各元素，从而获得混合矩阵A(f)，再对混合矩阵A(f)求逆，获得初始分离矩阵，公式如下：

W_{_initial}(f)＝A^-1＝[c₁(f)，c₂(f)]^-1

其中，W_{_initial}(f)为初始分离矩阵，A为混合矩阵，c₁(f)和c₂(f)为混合矩阵中的各元素。

最后，根据麦克风接收到的频域信号和初始分离矩阵，采用频域ICA求解公式，求解获得初始分离信号，公式如下：

Y(f，τ)＝W(f)X(f，τ)

其中，Y(f，τ)为初始分离信号，W(f)为初始分离矩阵，X(f，τ)为麦克风接收到的频域信号。

初始分离矩阵的得出为ICA迭代找到了一个合适的初始点，可以加快ICA的收敛速度。应用聚类算法把麦克风接收到的信号的时频点按声源的不同进行分类，可以解决输出分离信号的次序不确定性问题。但此时仍有幅度不确定问题，因此可以采用回射投影法将初始分离信号拆成两部分，回射投影法的具体公式为：

其中，

为投影后的第一初始分离信号向量，m表示第m个声源传输到两个麦克风的信号成分，f为频带，τ为帧，

为初始分离矩阵的逆矩阵，U_m(f，τ)为第一初始分离信号。

获得的第一初始分离信号具体为：

U₁(f，τ)＝[y₁(f，τ)，0]^T

U₂(f，τ)＝[0，y₂(f，τ)]^T

其中，U₁(f，τ)和U₂(f，τ)为第一初始分离信号，y₁(f，τ)和y₂(f，τ)为第一初始分离信号向量，f为频带，τ为帧，[]^T为转置矩阵。

以上算法得到了每个频带的初始分离矩阵，有的初始分离矩阵不能对频带信号进行很好的分离，一方面，是因为无回声模型的假设，没有考虑反射、回声的影响。另一方面，语音信号的能量分布较为集中，呈现出稀疏特性，这就决定了有的频带ICA处理的效果不会很理想，由此接下来会对第一初始分离信号进行划分。

利用正交镜像滤波器组的分析滤波器组将第一初始分离信号均匀划分为8个子带。在每个子带内，利用基于稀疏分析的频域ICA算法得到各子带的分离信号，再将各子带的分离信号通过一组综合滤波器组处理，重建出完整的时域分离信号，这就是子带ICA的基本原理。ICA的求解公式为：

其中，s₁(k；n)和s₂(k；n)分别表示第k级子带分离的声源1的分离信号和声源2的分离信号，y₁(k；n)和y₂(k；n)分别表示每个第一初始分离信号中，第k级子带信号，w₁₁(k)、w₁₂(k)、w₂₁(k)、w₂₂(k)表示第k级子带的解混矩阵，该解混矩阵由初始分离矩阵拆分获得。

由于语音信号的能量分布相对集中，由此合理地把第一初始分离信号划分为8个子带信号，只需对每个子带进行ICA处理。故相比于针对每个频点做ICA处理的方案，由于子带的数量相较于频点数量明显减少，因此能够准确确定各子带的分离信号的分离次序，也即改善了次序不确定性问题，进而有效提升了语音分离的准确性。此外，本申请在处理过程中仅需使用与子带数量相同的ICA网络进行计算，从而大大减少了计算量，进而提升了语音分离的效率。

实施例四

图6为本申请提供的语音分离装置的结构示意图，如图6所示，本实施例提供的语音分离装置包括：获取模块41、计算模块42、拆分模块43以及重建模块44。其中，获取模块41，用于根据多个语音输入设备采集的语音信号，混合获得语音混合信号；其中，所述语音输入设备的数量与预设的各声源的数量一致。计算模块42，用于基于频域独立成分分析算法，对所述语音混合信号进行计算，得到初始分离矩阵和初始分离信号。拆分模块43，用于采用回射投影法，将所述初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，所述第一初始分离信号与所述各声源的数量相同。所述拆分模块43，还用于将所述初始分离矩阵拆分获得多个解混矩阵，所述解混矩阵的个数为第一初始分离信号个数的平方。所述计算模块42，还用于根据所述多个子带和所述多个解混矩阵，基于独立成分分析求解方法，获得各子带的分离信号，每个子带的分离信号包括所述各声源的分离信号。重建模块44，用于对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号。

本实施例提供的语音分离装置，基于频域ICA算法，对语音混合信号进行计算，得到初始分离矩阵和初始分离信号，再将初始分离信号拆分为多个第一初始分离信号，并对每个第一初始分离信号进行均匀划分，获得多个子带，同时将初始分离矩阵拆分获得多个解混矩阵，根据多个子带和多个解混矩阵，基于ICA求解方法，获得各子带的分离信号，对每个声源在各子带中的分离信号进行重建处理，获得各声源的语音信号。也就是说，在本申请实施例中，将第一初始分离信号均匀划分为多个子带，只需对每个子带进行ICA处理。故相比于针对每个频点做ICA处理的方案，由于子带的数量相较于频点数量明显减少，因此能够准确确定各子带的分离信号的分离次序，也即改善了次序不确定性问题，进而有效提升了语音分离的准确性。此外，本申请在处理过程中仅需使用与子带数量相同的ICA网络进行计算，从而大大减少了计算量，进而提升了语音分离的效率。

可选实施方式中，所述计算模块42，还用于将所述语音混合信号进行短时傅里叶变换转换为频域信号，并采用均值聚类算法，基于时频点对所述频域信号进行分类。根据聚类后的类中心，计算获得所述各声源到所述各语音输入设备的时延参数和衰减参数。针对每个语音输入设备，根据各声源到该语音输入设备的时延参数和衰减参数，计算获得混合矩阵中的各向量，以获得混合矩阵。对所述混合矩阵进行求逆处理，获得所述初始分离矩阵。根据所述频域信号和所述初始分离矩阵，基于频域独立成分分析求解方法，求解获得所述初始分离信号。

可选实施方式中，所述语音分离装置，还包括：处理模块45，用于对所述频域信号的所有时频点进行归一化处理。

可选实施方式中，所述拆分模块43，还用于采用正交镜像滤波器组的分析滤波器组，对每个第一初始分离信号进行均匀划分，获得多个子带。

可选实施方式中，所述重建模块44，还用于采用综合滤波器组，对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号。

可选实施方式中，所述语音分离装置，还包括：提取模块46以及输出模块47。其中，提取模块46，用于从所述各声源的语音信号中，提取出目标声源的语音信号。输出模块47，用于将所述目标声源的语音信号输出至对应的目标扬声器。

需要说明的是，本实施例提供的语音分离装置执行的技术方案和效果可以参见前述方法实施例的相关内容，在此不再赘述。

实施例五

图7为本申请的电子设备的结构示意图，如图7所示，本申请还提供了一种电子设备500，包括：存储器501和处理器502。

存储器501，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机执行指令。存储器501可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器502，用于执行存储器501存放的程序。

其中，计算机程序存储在存储器501中，并被配置为由处理器502执行以实现本申请任意一个实施例提供的语音分离方法。相关说明可以对应参见附图中的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

其中，本实施例中，存储器501和处理器502通过总线连接。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

实施例六

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现本申请任意一个实施例提供的语音分离方法。

实施例七

本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例提供语音分离方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程语音分离装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种语音分离方法，其特征在于，包括：

对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号；

所述基于频域独立成分分析算法，对所述语音混合信号进行计算，得到初始分离矩阵和初始分离信号，包括：

将所述语音混合信号进行短时傅里叶变换转换为频域信号，并采用均值聚类算法，基于时频点对所述频域信号进行分类；

对所述混合矩阵进行求逆处理，获得所述初始分离矩阵；

2.根据权利要求1所述的方法，其特征在于，所述采用均值聚类算法，基于时频点对所述频域信号进行分类之前，还包括：

对所述频域信号的所有时频点进行归一化处理。

3.根据权利要求1所述的方法，其特征在于，所述对每个第一初始分离信号进行均匀划分，获得多个子带，包括：

4.根据权利要求1所述的方法，其特征在于，所述对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号之后，还包括：

从所述各声源的语音信号中，提取出目标声源的语音信号；

将所述目标声源的语音信号输出至对应的目标扬声器。

6.一种语音分离装置，其特征在于，包括：

重建模块，用于对每个声源在各子带中的分离信号进行重建处理，获得所述各声源的语音信号；

所述计算模块，还用于将所述语音混合信号进行短时傅里叶变换转换为频域信号，并采用均值聚类算法，基于时频点对所述频域信号进行分类；根据聚类后的类中心，计算获得所述各声源到所述各语音输入设备的时延参数和衰减参数；针对每个语音输入设备，根据各声源到该语音输入设备的时延参数和衰减参数，计算获得混合矩阵中的各向量，以获得混合矩阵；对所述混合矩阵进行求逆处理，获得所述初始分离矩阵；根据所述频域信号和所述初始分离矩阵，基于频域独立成分分析求解方法，求解获得所述初始分离信号。

7.一种电子设备，其特征在于，包括：存储器，处理器；

存储器：用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于调用所述存储器中的程序指令执行如权利要求1-5任一项所述的语音分离方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-5任一项所述的语音分离方法。

9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的语音分离方法。