CN113707172A

CN113707172A - 稀疏正交网络的单通道语音分离方法、系统、计算机设备

Info

Publication number: CN113707172A
Application number: CN202110616925.9A
Authority: CN
Inventors: 张军英; 王洋; 李军锋; 夏日升
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-11-26
Anticipated expiration: 2041-06-02
Also published as: CN113707172B

Abstract

本发明属于语音信号处理技术领域，公开了一种稀疏正交网络的单通道语音分离方法、系统、计算机设备；设混合语音信号由n个源语音信号混合而成，采集源语音信号，并将源语音信号、混合语音信号划分为训练集、验证集和测试集；对混合语音信号进行短时傅里叶变换STFT，得到复频表示SR并提取其幅度谱矩阵M；构建稀疏正交网络ONN‑SCSS模型；对ONN‑SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，使混合语音中不同的源语音在分离层中能映射到不同的子空间；训练ONN‑SCSS模型；利用已训练好的ONN‑SCSS模型实现语音分离。实验结果表明，正交稀疏神经网络在广泛应用于语音分离的评价指标上，性能有较大提升。

Description

稀疏正交网络的单通道语音分离方法、系统、计算机设备

技术领域

本发明属于语音信号处理技术领域，尤其涉及一种稀疏正交网络的单通道语音分离方法、系统、计算机设备。

背景技术

目前，语音分离算法通常可以分为传统的分离算法和基于神经网络的分离算法。传统的分离算法，主要指基于信号处理的算法、基于矩阵分解的算法、基于规则的算法，其中，基于信号处理的算法从信号角度分析混合语音，认为背景语音是平稳信号，从而估计出背景语音的功率谱或者利用滤波器实现语音分离，常用的有谱减法、维纳滤波及自适应滤波等；基于矩阵分解的算法，是建立在语音频谱具有低秩结构假设上的，从而可用少量的基表示语音谱空间，且认为不同的源语音会表达在不同的语音谱空间上；基于规则的方法主要基于听觉场景分析，根据语音的不同属性提取出语音特征并分组，利用分组信息实现语音分离。

近年来发展出的基于深度学习的算法，大多将语音分离任务转化为监督学习问题。监督语音分离的最初形式受到CASA中时频(T-F)掩蔽概念的启发。利用声音的时域掩蔽效应得到理想的二值掩模作为标签，在此基础上，利用深度学习模型学习混合语音到标签的映射函数，并利用标签信息提取出感兴趣的语音所在的时频单元。基于此，研究者提出了各种各样的掩模(如IBM：Ideal Binary Mask，IRM：Ideal Ratio Mask，SMM：spectralmagnitude mask，PSM： phase-sensitive mask等)，以及各种网络结构(如深度神经网络(DNN)、卷积网络(CNN)、循环网络(RNN)等)应用于语音分离。典型的深度学习算法包括深度聚类算法(Deep Clustering，DPCL)以及排列不变训练的算法 (Permutation InvariantTraining，PIT)。DPCL算法主要目的是逼近IBM(Ideal BinaryMask)，先将混合语音的幅度谱映射到一个特定的高维空间，该空间有如下特点：隶属于不同说话人语音(以下简称说话人)的单元差异较大，隶属于相同说话人的单元相似度高；再采用聚类是的算法对该高维空间划分；最后根据聚类的结果对混合语音进行分离。PIT算法的主要贡献为：提供一种计算损失函数的方法，解决基于掩模估计的语音分离的排列问题。其特点是计算网络输出与目标输出之间所有的排列，选择所有排列中最小的损失用于更新网络参数。

通过上述分析，现有技术存在的问题及缺陷为：

(1)基于信号处理的方法在语音分离任务中，存在源语音无法满足平稳性、源语音不是高斯白噪声，导致谱减法及滤波算法在语音分离中性能较低的问题。

(2)计算听觉场景分析算法，分离的效率依赖于规则的设计，而规则本身容易受到信噪比、清浊音、混合说话人性别等影响，导致在复杂场景下CASA 不能取得较好的分离效果。

(3)基于矩阵分解的方法，是建立在语音信息具有低秩结构的假设上，当源语音谱的基不正交时，会导致混合语音不能准确的分离到对应的源。

(4)深度聚类算法，是通过聚类的方式估计掩模，不能采用估计掩模与理想掩模的误差作为训练目标，而是优化通过嵌入向量得到的说话源仿射矩阵，因此在训练效果上并不完美。

(5)排列不变训练的算法，虽能该算法直接目标上是解决了深度聚类的缺陷，但是却没有利用不同源语音之间的差异性，增加了模型训练的难度，导致其性能还不够理想。

解决以上问题及缺陷的难度和意义为：语音分离是语音信号处理的基础问题，作为语音处理的前端处理，在语音识别、声纹识别、唤醒词识别等领域有重要应用。在实际应用中，受到资源与环境的限制，采集混合语音往往只有一个麦克风，即使存在多个麦克风，但是由于环境限制，这些麦克分采集的信号相近，几乎等效一个麦克风，所以针对单通道的语音分离研究更具有应用价值。

总体而言，虽能深度学习这种基于数据驱动的算法比传统的算法具有较好的分离性能，但是深度聚类算法与排列不变训练算法分别存在，训练目标不能反映分离性能和没有利用不同源语音之间的差异性模型训练的难度大等问题。于是，本发明在排列不变训练算法的基础上采用在一种稀疏正交神经网络策略，充分的挖掘不同源语音之间的差异性，提升模型的分离效果。

发明内容

针对现有技术存在的问题，本发明提供了一种稀疏正交网络的单通道语音分离方法、系统、计算机设备，尤其涉及一种基于稀疏正交神经网络的稀疏正交网络的单通道语音分离方法、系统、计算机设备。

本发明是这样实现的，一种稀疏正交网络的单通道语音分离方法，所述稀疏正交网络的单通道语音分离方法包括：

训练时，将源语音信号和混合语音信号划分为训练集和验证集，对其中信号进行STFT，得到时频表示及幅度谱；将幅度谱输稀疏正交神经网络模型入 ONN-SCSS，根据定义的损失函数计算损失，并以损失最小为目标，利用梯度下降算法训练网络，直到模型的损失函数收敛、同时在验证集上的损失达到最小时停止训练；测试时，掩蔽ONN-SCSS中分离层的所有其它通道，只允许其中一个通道有数据通过，获得网络输出，并据此估计该通道的mask，结合混合语音的时频表示，得到源语音的时频表示；最后进行短时傅里叶变换的逆变换，获得混合语音中该通道的源语音信号。

进一步，所述稀疏正交网络的单通道语音分离方法包括以下步骤：

步骤一，设混合语音信号由n个源语音信号混合而成，采集源语音信号，并将源语音信号、混合语音信号划分为训练集、验证集和测试集；

步骤二，对混合语音信号进行短时傅里叶变换STFT，得到复频表示SR并提取其幅度谱矩阵M；

步骤三，构建稀疏正交网络ONN-SCSS模型；

步骤四，对ONN-SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，使混合语音中不同的源语音在分离层中能映射到不同的子空间；

步骤五，训练ONN-SCSS模型；

步骤六，利用已训练好的ONN-SCSS模型实现语音分离。

本发明是实现语音分离(简单来讲就是将含有两个说话人的语音提取出来，例如张三与李四再同一个房间说话，我现在要张三的声音，即可采用本发明)

步骤一，该步骤是生成训练数据，目的是生成数据，为训练模型提供训练数据

步骤二，该步骤为模型提供特征。幅度谱是特征，STFT是提取特征的方法为公开技术，特征是模型的输入。

步骤三.该步骤是本文模型，神经网络的结构。

步骤四.该步骤的意义是实现不同源的语音使得他们分布不同空间，达到分离的目的。

步骤五，该步骤为训练神经网络(ONN-SCSS)参数，使得本文设计的loss 达到最小，即提升分离性能。

步骤六，该步骤为应用训练好的ONN-SCSS模型去分离真实场景中的语音分离问题。

进一步，步骤一中，n事先已知，采集源语音信号，混合语音信号为所述源语音信号的线性叠加，混合的信噪比SNR在[-5,5]dB范围内。

进一步，步骤三中，所述稀疏正交网络ONN-SCSS模型，包括编码层、分离层、汇集操作和解码层，所述构建稀疏正交网络ONN-SCSS模型，包括：

(1)幅度谱矩阵M经编码层，采用LSTM映射到特征空间，获得混合语音的特征表示：

F＝LSTM(M)；

其中，F是编码层的输出；

(2)利用分离层对F进行分离，分离层有n个通道，第i个通道的输出S_i＝[s_i,1,s_i,2...s_i,r]^T为该分离层的连接权W_i乘F：

S_i＝W_i F, i＝1,2...n；

其中，r为用户选择参数，所获得的S_i是第i个源语音的特征表示；

(3)对所有通道的输出进行汇集操作：

(4)用解码层对汇集操作的结果C进行解码：

DM＝decode(C)；

其中，DM是解码层的输出。

进一步，步骤四中，所述对ONN-SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，包括：

(1)正交性约束：即源语音i与源语音j的特征子空间的基尽可能正交，即对于i≠j中的每个元素都尽可能小：

Orth_i,j＝|W_i ^TW_j| i≠j；

其中，W_i表示分离层第i通道的连接权矩阵，乘法是矩阵乘法，绝对值是对应元素的绝对值；Orth_i,j中的每个元素都尽可能小，意味着源语音j的特征子空间每一个基尽可能不被源语音i的特征子空间的基线性表达；

(2)稀疏性约束：同一源语音尽可能只在一个通道上有表达，即对于i≠j中的每个元素都尽可能小，这里所有运算均对元素进行：

进一步，步骤五中，所述训练ONN-SCSS模型，包括：

(1)训练样本集为源语音信号和混合语音信号的幅度谱矩阵M；

(2)构建ONN-SCSS，随机初始化ONN-SCSS的参数，包括分离层的连接权矩阵W＝{W₁,W₂,...,W_n}、编码层和解码层的所有连接权参数W'；

(3)将M输入给ONN-SCSS，得到其分离层的输出为S＝{S₁,S₂...S_n}、解码层输出为DM；

(4)设计损失Loss(W,W')如下：

其中，Loss中包含三项，第一项为输入语音的幅度谱矩阵M与ONN-SCSS 网络对其重构结果DM的重构误差，第二项为所述正交性约束公式给出的正交约束，第三项为所述稀疏性约束公式给出的稀疏约束，其中sum(·)表示对矩阵中每个元素的求和；

(5)用训练集训练网络，运用梯度下降算法，获得使Loss最小的ONN-SCSS 参数(W,W')，期间计算验证集上的Loss数值从而适时终止训练过程。

进一步，步骤六中，所述利用已训练好的ONN-SCSS模型实现语音分离，包括：

(1)将待分离的混合语音的幅度谱矩阵M输入训练好的ONN-SCSS模型，得到模型分离层的输出S＝{S₁,S₂...S_n}；

(2)设置计数器m＝1；

(3)将S_m输入解码层，得到解码层的输出，记为DM_m；

(4)计算第m个源语音的掩模值mask_m：

其中，所述运算为对元素进行运算；

(5)根据混合语音的复频表示SR，结合mask_m计算第m个源语音的复频表示，记为ESR_m：

ESR_m＝SR×mask_m；

其中，所述运算为对应元素的运算；

(6)对ESR_m做逆短时傅里叶变换iSTFT获得第m个源语音的估计，作为从混合语音中分离出来的第m个源语音信号；

(7)计数器m＝m+1；若计数器m>n，结束；否则转步骤(3)。

本发明的另一目的在于提供一种应用所述的稀疏正交网络的单通道语音分离方法的稀疏正交网络的单通道语音分离系统，所述稀疏正交网络的单通道语音分离系统包括：

语音信号采集模块，设混合语音信号由n个源语音信号混合而成，采集源语音信号；

语音信号划分模块，用于将源语音信号、混合语音信号划分为训练集、验证集和测试集；

语音信号变换模块，用于对混合语音信号进行短时傅里叶变换STFT，得到复频表示SR并提取其幅度谱矩阵M；

网络模型构建模块，用于构建稀疏正交网络ONN-SCSS模型；

参数约束模块，用于对ONN-SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，使混合语音中不同的源语音在分离层中能映射到不同的子空间；

模型训练模块，用于训练ONN-SCSS模型；

语音分离模块，用于利用已训练好的ONN-SCSS模型实现语音分离。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的稀疏正交网络的单通道语音分离系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的稀疏正交网络的单通道语音分离方法，主要在于提出一种含有多通道分离层的正交神经网络结构并结合一种特殊的稀疏性策略实现语音分离。

本发明从多源语音信号混合得到的混合语音中，分离出参与混合的各源语音信号；通过设计和训练稀疏正交神经网络ONN-SCSS(ONN-SCSS，An orthogonal neuralnetwork for single-channel speech separation)，尤其是在其中引入分离层，并约束分离层的连接权矩阵同时拥有正交特性和稀疏特性，其正交特性将混合语音中各源语音成分映射到不同的子空间中，其稀疏策略导致混合语音中的各源语音可通过分离层映射到不同的通道上(不同空间)，以此实现分离。实验结果表明，正交稀疏神经网络相对主流频域语音分离算法，在广泛应用于语音分离的评价指标上，性能都有较大提升。

本发明提出了一种全新的神经网络设计方案，其中包含分离层，分离层的每个通道使语音特征可以表征在不同的空间中，增加了神经网络的表达能力。本发明提出了一种全新的分离层输出的稀疏化策略，从而用分离层中的单一通道实现源语音的分离。本发明不再像已有分离方法中直接在频域上进行掩膜，而是在语音特征空间中通过神经网络的训练自适应地获得掩膜。本发明的语音分离的性能优于现有主流方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的稀疏正交网络的单通道语音分离方法流程图。

图2是本发明实施例提供的稀疏正交网络的单通道语音分离方法原理图。

图3是本发明实施例提供的稀疏正交网络的单通道语音分离系统结构框图；

图中：1、语音信号采集模块；2、语音信号划分模块；3、语音信号变换模块；4、网络模型构建模块；5、参数约束模块；6、模型训练模块；7、语音分离模块。

图4是本发明实施例提供的模型数据流向结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种稀疏正交网络的单通道语音分离方法、系统、计算机设备，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的稀疏正交网络的单通道语音分离方法包括以下步骤：

S101，设混合语音信号由n个源语音信号混合而成，采集源语音信号，并将源语音信号、混合语音信号划分为训练集、验证集和测试集；

S102，对混合语音信号进行短时傅里叶变换STFT，得到复频表示SR并提取其幅度谱矩阵M；

S103，构建稀疏正交网络ONN-SCSS模型；

S104，对ONN-SCSS模型的分离层参数W进行正交性与稀疏性约束，使混合语音中不同的源语音在分离层中能映射到不同的子空间；

S105，训练ONN-SCSS模型，并利用已训练好的ONN-SCSS模型实现语音分离。

本发明实施例提供的稀疏正交网络的单通道语音分离方法原理图如图2所示。

如图3所示，本发明实施例提供的稀疏正交网络的单通道语音分离系统包括：

语音信号采集模块1，设混合语音信号由n个源语音信号混合而成，采集源语音信号；

语音信号划分模块2，用于将源语音信号、混合语音信号划分为训练集、验证集和测试集；

语音信号变换模块3，用于对混合语音信号进行短时傅里叶变换STFT，得到复频表示SR并提取其幅度谱矩阵M；

网络模型构建模块4，用于构建稀疏正交网络ONN-SCSS模型；

参数约束模块5，用于对ONN-SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，使混合语音中不同的源语音在分离层中能映射到不同的子空间；

模型训练模块6，用于训练ONN-SCSS模型；

语音分离模块7，用于利用已训练好的ONN-SCSS模型实现语音分离。

下面结合术语解释对本发明作进一步描述。

稀疏正交网络的单通道语音分离技术是一种在多语音情况下由单麦克风采集到的混合语音中分离出各个源语音的技术。

下面结合实施例对本发明的技术方案作进一步描述。

本发明是这样实现的。训练时，将源语音信号和混合语音信号划分为训练集和验证集，对其中信号进行STFT，得到其时频表示及幅度谱；将幅度谱输入 ONN-SCSS(稀疏正交神经网络)模型，根据本发明定义的损失函数计算损失，并以损失最小为目标，利用梯度下降算法训练网络，直到模型的损失函数收敛、同时在验证集上的损失达到最小时停止训练。测试时，掩蔽ONN-SCSS中分离层的所有其它通道，只允许其中一个通道有数据通过，获得网络输出，并据此估计该通道的mask，结合混合语音的时频表示，得到源语音的时频表示；最后对其进行短时傅里叶变换的逆变换，获得混合语音中该通道的源语音信号。

本发明实施例提供的稀疏正交网络的单通道语音分离方法包括如下步骤：

步骤1.设混合语音信号由n个源语音信号混合而成，n事先已知。采集这些源语音信号，混合语音信号为这些源语音信号的线性叠加，混合的SNR(信噪比)在[-5,5]dB范围内；将源语音信号、混合语音信号划分为训练集、验证集和测试集。

步骤2.对混合语音信号进行STFT(短时傅里叶变换)，得到其复频表示SR并提取其幅度谱矩阵M。

步骤3.构建稀疏正交网络(ONN-SCSS)模型，该模型包含编码层、分离层、汇集操作和解码层，具体如下：

步骤3.1.幅度谱矩阵M经编码层(采用LSTM)映射到特征空间，获得混合语音的特征表示：

F＝LSTM(M) (1)

其中，F是编码层的输出。

步骤3.2.利用分离层对F进行分离。分离层有n个通道，第i个通道的输出 S_i＝[s_i,1,s_i,2...s_i,r]^T为该分离层的连接权W_i乘F：

S_i＝W_i F, i＝1,2...n (2)

其中，r为用户选择参数，所获得的S_i是第i个源语音的特征表示。

步骤3.3.对所有通道的输出进行汇集操作：

步骤3.4.用解码层对汇集操作的结果C进行解码：

DM＝decode(C) (4)

其中，DM是解码层的输出。

步骤4.为使混合语音中不同的源语音在分离层中能映射到不同的子空间中，对ONN-SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，具体如下：

步骤4.1.正交性约束：即源语音i与源语音j的特征子空间的基尽可能正交，即对于i≠j，

Orth_i,j＝|W_i ^TW_j|i≠j (5)

其中，W_i表示分离层第i通道的连接权矩阵，乘法是矩阵乘法，绝对值是对应元素的绝对值；Orth_i,j中的每个元素都尽可能小，这里W_i表示分离层第i通道的连接权矩阵，乘法是矩阵乘法，绝对值是对应元素的绝对值。Orth_i,j中的每个元素都尽可能小，意味着源语音j的特征子空间每一个基尽可能不被源语音i的特征子空间的基线性表达。

步骤4.2.稀疏性约束：同一源语音尽可能只在一个通道上有表达，即对于 i≠j，

对于i≠j中的每个元素都尽可能小，这里所有运算均对元素进行。

步骤5.训练ONN-SCSS模型，具体如下：

步骤5.1.训练样本集为源语音信号和混合语音信号的幅度谱矩阵M。

步骤5.2.构建ONN-SCSS，随机初始化ONN-SCSS的参数，包括分离层的连接权矩阵W＝{W₁,W₂,...,W_n}、编码层和解码层的所有连接权参数W'。

步骤5.3.将M输入给ONN-SCSS，得到其分离层的输出为S＝{S₁,S₂...S_n}、解码层输出为DM。

步骤5.4.设计损失Loss(W,W')如下：

Loss中包含三项：第一项为输入语音的幅度谱矩阵M与ONN-SCSS网络对其重构结果DM的重构误差、第二项为公式(5)给出的正交约束、第三项为公式(6) 给出的稀疏约束，其中sum(·)表示对矩阵中每个元素的求和。

步骤5.5.用训练集训练网络，运用梯度下降算法，获得使Loss最小的 ONN-SCSS参数(W,W')，期间计算验证集上的Loss数值从而适时终止训练过程以避免过学习。

步骤6.利用已训练好的ONN-SCSS模型实现语音分离，其步骤如下：

步骤6.1.将待分离的混合语音的幅度谱矩阵M输入训练好的ONN-SCSS模型，得到模型分离层的输出S＝{S₁,S₂...S_n}；

步骤6.2.设置计数器m＝1；

步骤6.3.将S_m输入解码层，得到解码层的输出，记为DM_m；

步骤6.4.计算第m个源语音的掩模值mask_m：

这里的运算为对元素进行运算；

步骤6.5.根据混合语音的复频表示SR，结合mask_m计算第m个源语音的复频表示，记为ESR_m：

ESR_m＝SR×mask_m (9)

这里的运算为对应元素的运算。

步骤6.6.对ESR_m做iSTFT(逆短时傅里叶变换)获得第m个源语音的估计，作为从混合语音中分离出来的第m个源语音信号；

步骤6.7.计数器m＝m+1；若计数器m>n，结束；否则转步骤6.3.

下面以对由两源语音混合后的混合语音进行分离为例说明本发明的效果。

步骤1设混合语音信号由2个源语音信号混合而成。将其进行混合形成混合语音信号，混合语音的SNR(信噪比)取值范围为[-5,5]dB；将源语音信号、混合语音信号划分为训练集、验证集和测试集。

步骤2对混合语音信号进行STFT(短时傅里叶变换)，得到其复频表示矩阵SR并提取其幅度谱矩阵M，其中STFT参数为窗长为256的汉明窗，步长为 128。

步骤3构建稀疏正交网络(ONN-SCSS)模型，该模型包含编码层、分离层、汇集操作和解码层，具体如下：

步骤3.1幅度谱矩阵M经编码层映射到特征空间，获得混合语音的特征表示：

F＝LSTM(M) (1)

其中，F是编码层的输出，编码层的输入是129维，输出是256维，激活函数为Relu；

步骤3.2利用分离层对F进行分离，分离层有n个通道，第i个通道的输出 S_i＝[s_i,1,s_i,2...s_i,r]为该分离层的连接权W_i乘F：

S_i＝W_iF i＝1,2...n (2)

其中r＝512，S_i是第i个源语音的特征表示，W_i表示分离层中S_i对应连接权是一个行为256，列为512的矩阵；

步骤3.3对所有通道的输出进行汇集操作：

步骤3.4利用解码层对汇集操作的结果C进行解码：

DM＝decode(C) (4)

其中DM是解码层的输出，解码层为三层的全连接层，输出维度分别为512、 256、129，激活函数都是Relu。

步骤4为使混合语音中不同的源语音在分离层中能映射到不同的子空间中，对ONN-SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，具体如下：

步骤4.1正交性约束：即源语音1与源语音2的特征子空间的基尽可能正交，即对于i≠j：

Orth＝|W₁ ^TW₂| (5)

其中，W_i表示分离层第i通道的连接权矩阵，乘法是矩阵乘法，绝对值是对应元素的绝对值；Orth_i,j中的每个元素都尽可能小，这里W_i表示分离层第i通道的连接权矩阵，乘法是矩阵乘法，绝对值是对应元素的绝对值。Orth_i,j中的每个元素都尽可能小，意味着源语音1的特征子空间每一个基尽可能不被源语音2 的特征子空间的基线性表达。

步骤4.2稀疏性约束：同一源语音尽可能只在一个通道上有表达：

这里的所有运算均为对应元素的运算。

步骤5训练ONN-SCSS模型，其具体细节如下：

步骤5.1构建ONN-SCSS模型

步骤5.2ONN-SCSS模型的训练样本和期望输出为源语音信号和混合语音信号的幅度谱矩阵M。

步骤5.3随机初始化ONN-SCSS的参数，包括分离层的连接权矩阵为 W＝{W₁,W₂,...,W_n}、分离层的输出为S＝{S₁,S₂...S_n}、解码层输出为DM、网络中编码层和解码层的参数统记为W'。

步骤5.4设计损失Loss(W,W')：

其中M为网络的输入样本和期望输出，DM为M输入到网络所获得sLoss中包含三项：第一项为输入语音的幅度谱矩阵M与ONN-SCSS网络对其重构结果 DM的重构误差、第二项为公式(5)给出的正交约束、第三项为公式(6)给出的稀疏约束，其中sum(·)表示对矩阵中每个元素的求和。

步骤5.5用训练集训练网络，运用梯度下降算法，获得使Loss最小的 ONN-SCSS参数(W,W')，期间计算验证集上的Loss数值从而适时终止训练过程以避免过学习。

步骤6利用已训练好的ONN-SCSS模型实现语音分离，其步骤如下：

步骤6.1将待分离的混合语音的幅度谱矩阵M输入训练好的ONN-SCSS模型，得到模型分离层的输出S＝{S₁,S₂}；

步骤6.2设置计数器m＝1；

步骤6.3将S_m输入解码层，得到解码层的输出，记为SDM_m；

步骤6.4计算第m个源语音的掩模值mask_m；

这里的运算为对元素进行运算；

步骤6.5根据混合语音的复频表示SR，结合mask_m计算第m个源语音的复频表示，记为ESR_m：

ESR_m＝SR×mask_m (9)

这里的运算为对应元素的运算。

步骤6.6对ESRm做iSTFT(逆短时傅里叶变换)获得第m个源语音的估计，作为从混合语音中分离出来的第m个源语音信号；

步骤6.7计数器m＝m+1；若计数器m>2，结束；否则转步骤6.3。

下面结合仿真实验对本发明的技术效果作进一步描述。

为了更好地展示本发明所提出的算法相对于其他算法的优势，本发明在华尔街(Wall StreetJournal)两说话人混合数据集(WSJ0-2mix)上进行实验，其中30小时作为训练数据，10小时作为验证数据，5小时作为测试数据，实现了 ONN-SCSS模型，同时复现了排列不变训练的算法，包括PIT-LSTM和PIT-BLSTM 算法，并采用信号相干比(Signal toDistortion Ratio,SDR)、信号推测比(Signal to Interference Ratio,SIR)、短时目标可懂度(Short-Time Objective Intelligibility， STOI)、语音感知质量评价(PerceptualEvaluation of Speech Quality，PESQ) [Venkataramani S,Higa R,SmaragdisP.Performance Based Cost Functions for End-to-End Speech Separation[C]//2018Asia-Pacific Signal and Information ProcessingAssociationAnnual Summitand Conference(APSIPAASC).2018.]，其结果见表1。

表1本发明方法与复现的PIT算法比较

Method	SDR	SIR	STOI	PESQ
					PIT-LSTM[10]	5.59	10.24	0.54	1.65
PIT-BLSTM[10]	7.58	15.25	0.47	1.65
					ONN-SCSS	11.65	18.25	0.78	2.57

在语音分离中还有一种不以估计掩模与理想掩模的误差作为训练目标的算法，而是采用尺度不变的信噪比(Scale Invariant Signal to Noise Ratio，SI-SNR) 作为训练目标的算法。本发明采用文献给出的性能评价指标包括：尺度不变的信噪比提升值(ScaleInvariant Signal to Noise Ratio improvement，SI-SNRi)和信号相干比提升值(Signalto Distortion Ratio improvement，SDRi)其结果见表2。

表2 SI-SNR为目标的方法的性能比较

Method	SI-SNRi	SDRi
			TasNet[9]	7.7	8.0
DPCL++[13]	10.8	-
			DANet[14]	10.5	-
ADANet[15]	10.4	10.8
			BLSTM-TasNet[16]	10.8	11.1
ONN-SCSS	11.6	11.9

表中的算法本发明没有复现，而是采用文献中给出的实验结果，从文献给出的信息可以了解到，上述文献采用的数据集和生成混合语音的方法与本发明一致。

从表1，表2可以看到，本发明算法在华尔街(Wall Street Journal)两说话人混合数据集上的分离性能在上述6个指标上都由提升。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种疏正交网络的语音单通道分离方法，其特征在于，所述稀疏正交网络的单通道语音分离方法包括：

训练时，将源语音信号和混合语音信号划分为训练集和验证集，对其中信号进行STFT，得到时频表示及幅度谱；将幅度谱输稀疏正交神经网络模型入ONN-SCSS，根据定义的损失函数计算损失，并以损失最小为目标，利用梯度下降算法训练网络，直到模型的损失函数收敛、同时在验证集上的损失达到最小时停止训练；测试时，掩蔽ONN-SCSS中分离层的所有其它通道，只允许其中一个通道有数据通过，获得网络输出，并据此估计该通道的mask，结合混合语音的时频表示，得到源语音的时频表示；最后进行短时傅里叶变换的逆变换，获得混合语音中该通道的源语音信号。

2.如权利要求1所述的稀疏正交网络的单通道语音分离方法，其特征在于，所述稀疏正交网络的单通道语音分离方法包括以下步骤：

步骤三，构建稀疏正交网络ONN-SCSS模型；

步骤五，训练ONN-SCSS模型；

步骤六，利用已训练好的ONN-SCSS模型实现语音分离。

3.如权利要求2所述的稀疏正交网络的单通道语音分离方法，其特征在于，步骤一中，n事先已知，采集源语音信号，混合语音信号为所述源语音信号的线性叠加，混合的信噪比SNR在[-5,5]dB范围内。

4.如权利要求2所述的稀疏正交网络的单通道语音分离方法，其特征在于，步骤三中，所述稀疏正交网络ONN-SCSS模型，包括编码层、分离层、汇集操作和解码层，所述构建稀疏正交网络ONN-SCSS模型，包括：

F＝LSTM(M)；

其中，F是编码层的输出；

(2)利用分离层对F进行分离，分离层有n个通道，第i个通道的输出S_i＝[s_i,1,s_i, ₂...s_i,r]^T为该分离层的连接权W_i乘F：

S_i＝W_i F,i＝1,2...n；

(3)对所有通道的输出进行汇集操作：

(4)用解码层对汇集操作的结果C进行解码：

DM＝decode(C)；

其中，DM是解码层的输出。

5.如权利要求2所述的稀疏正交网络的单通道语音分离方法，其特征在于，步骤四中，所述对ONN-SCSS模型的分离层参数W＝{W₁,W₂...W_n}进行正交性与稀疏性约束，包括：

Orth_i,j＝|W_i ^TW_j i≠j；

6.如权利要求2所述的稀疏正交网络的单通道语音分离方法，其特征在于，步骤五中，所述训练ONN-SCSS模型，包括：

(1)训练样本集为源语音信号和混合语音信号的幅度谱矩阵M；

(4)设计损失Loss(W,W')如下：

其中，Loss中包含三项，第一项为输入语音的幅度谱矩阵M与ONN-SCSS网络对其重构结果DM的重构误差，第二项为所述正交性约束公式给出的正交约束，第三项为所述稀疏性约束公式给出的稀疏约束，其中sum(·)表示对矩阵中每个元素的求和；

(5)用训练集训练网络，运用梯度下降算法，获得使Loss最小的ONN-SCSS参数(W,W')，期间计算验证集上的Loss数值从而适时终止训练过程。

7.如权利要求2所述的稀疏正交网络的单通道语音分离方法，其特征在于，步骤六中，所述利用已训练好的ONN-SCSS模型实现语音分离，包括：

(2)设置计数器m＝1；

(3)将S_m输入解码层，得到解码层的输出，记为DM_m；

(4)计算第m个源语音的掩模值mask_m：

其中，所述运算为对元素进行运算；

ESR_m＝SR×mask_m；

其中，所述运算为对应元素的运算；

(7)计数器m＝m+1；若计数器m>n，结束；否则转步骤(3)。

8.一种应用如权利要求1～7任意一项所述的稀疏正交网络的单通道语音分离方法的单通道语音分离系统，其特征在于，所述稀疏正交网络的单通道语音分离系统包括：

网络模型构建模块，用于构建稀疏正交网络ONN-SCSS模型；

模型训练模块，用于训练ONN-SCSS模型；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求8所述的稀疏正交网络的单通道语音分离系统。