CN110428848B

CN110428848B - 一种基于公共空间语音模型预测的语音增强方法

Info

Publication number: CN110428848B
Application number: CN201910539327.9A
Authority: CN
Inventors: 张军英; 刘建东; 王洋
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2021-10-29
Anticipated expiration: 2039-06-20
Also published as: CN110428848A

Abstract

本发明属于语音信号处理技术领域，公开了一种基于公共空间语音模型预测的语音增强方法。所述基于公共空间语音模型预测的语音增强方法包括：通过声源字典间相互进行非负矩阵分解(NMF,Non‑negative Matrix Factorization)，判定出字典内容间是否可以互相表达，形成公共空间；将相互表达的成分，从两字典中分离出来，使用一个公共空间字典额外保存，并通过机器学习工具对公共空间部分的成分进行预测。本发明在没有明显提升算法复杂度的前提下，以修改字典为手段，解决了两个声源字典之间公共空间内数据点无法准确处理的问题，提高了输出语音的质量。

Description

一种基于公共空间语音模型预测的语音增强方法

技术领域

本发明属于语音信号处理技术领域，尤其涉及一种公共空间语音模型预测的语音增强方法。

背景技术

国内外众多研究者经过研究，针对非负矩阵分解(NMF,Non-negative MatrixFactorization)的相关理论，结合语音信号处理的相关知识，提出了多种有监督单通道语音增强算法。为了解决基于NMF方法中语音与噪声字典之间的互表达问题，研究者主要通过设计联合训练的方式，将互相干系数等参数加入矩阵分解的目标函数。使用联合训练的思路处理字典间互表达问题，将会降低方法实施的灵活性，提高计算成本。

目前，最接近的现有技术为基于非负矩阵分解的单通道音频有监督语音增强方法，具体流程如下：在训练阶段中，需要对纯净噪声与纯净语音信号的同种训练数据进行拼接整理，得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time Fourier Transform)并取幅度值，可以得到两段音频的幅度谱矩阵。将两幅度谱矩阵送入NMF工具进行迭代，可以得到代表声源发声常见模式的字典矩阵作为声源特征。将两个字典矩阵合并保存为一个联合字典，即W＝[W_sW_n]。

在进入增强阶段之后，对要处理的输入数据执行预处理，获得幅度谱矩阵V。随后使用训练过程中得到的联合字典W，对V进行分解，获得系数矩阵H＝[H_sH_n]^T。其中，H_s为语音部分对应的系数，H_n为噪声部分对应的系数。可以利用W_sH_s估计得到纯净语音的幅度谱。将待处理语音STFT获得时频谱的相位信息加入估计的幅度谱，执行STFT逆变换以获得增强后的语音时域信号。

NMF分解方法的结果中，认为分解得到两个矩阵是满秩的。因此在使用合并后的字典W对获得带噪语音的谱进行处理时也使用了这一性质。在严格的数学讨论中，字典间的互表达能力十分有限，因此众多算法并没有针对这一问题进行改进。但在具体的工程条件下，由于多种误差的影响下，字典间的互表达问题被明显放大。使用非满秩字典对输入幅度谱进行分解时，会导致解的唯一性与合法性出现问题，导致语音增强结果的随机性。分解结果的随机性反应在一段输出语音中，就体现为降噪不彻底或者语音失真等问题。本发明首先以数据空间的角度，将字典相互表达的非满秩问题以公共空间的形式进行处理。综上所述，现有技术存在的问题是：

(1)大部分现有算法从数学角度认为语音与噪声合并形成的字典具有满秩性质，并没有以实际工程角度进行检查。

(2)现有方法解决字典互表达问题的联合训练思路约束了算法实施的灵活性，受限于数据采集以及工程实施时的种种限制，难以联合处理这两部分数据。

解决上述技术问题的难度：

本问题主要涉及语音字典与噪声字典，两字典间可互表达的内容极大影响了语音增强的效果。直接去除导致互表达问题的部分内容，将会导致现有方法无法准确判断某些数据是否属于噪声。因此，需要引入一个额外的模型对公共空间内的内容成分进行预测。

解决上述技术问题的意义：

本发明NMF分解提取字典作为声源特性，通过对字典间的互表达问题进行检查，可以在少量提升运算量的情况下避免由字典内容互表达产生的一系列问题。同时这一解决思路，在不使用已有的联合训练解决方案的前提下，可以保证训练语音与训练噪声的采集分解过程相互独立，保障了实施时的灵活性。该专利工作是在混响环境下双耳声源定位的研究及应用，项目批准号：11674352的支持下完成的。

发明内容

针对现有技术存在的问题，本发明提供了一种基于公共空间语音模型预测的语音增强方法。

本发明是这样实现的：通过两个字典间相互进行非负矩阵分解，判定出字典内容间是否可以互相表达，形成公共空间；将相互表达的成分，从两字典中分离出来，使用一个公共空间字典额外保存，并通过机器学习工具对公共空间部分的成分进行预测。

进一步，所述基于公共空间语音模型预测的语音增强方法包括：

第一步，对纯净噪声与纯净语音信号两种训练数据分别进行拼接整理，得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time FourierTransform)，得到分别对应噪声与语音的两个时频域谱矩阵；随后将每一个声源的复数时频谱矩阵数据取幅度值，将复数数据转换为实数数据；将两实数矩阵送入NMF工具进行迭代，经过迭代分解之后，得到两个代表声源发声常见模式的字典矩阵W_s与W_n作为声源的个性特征；

第二步，对第一步中得到的语音与噪声字典W_s与W_n，先使用字典W_s对W_n字典进行NMF分解。通过判断每一个列向量的重构误差是否大于接受阈值0.03，将重构误差小于阈值的内容从W_n字典中移入公共空间字典W_cs；

第三步，训练公共空间内容预测模型，将现有的所有系数进行汇总，作为范例保存；在使用时，以一个最近邻算法选择需要模仿的系数对；

第四步，对输入的带噪语音进行STFT工具变换，并取幅度值得到待处理非负矩阵V；随后使用联合字典W＝[W_sW_n]，对V进行分解，获得系数矩阵H。将H中噪声字典部分内容送入模型对相应公共空间内容进行预测，得到一个完整的系数矩阵，估计出全部的噪声部分即W_nH_n，并将其在混合语音的幅度谱中进行去除，得到估计的纯净语音谱V_s；

第五步，将待处理语音谱的相位信息加入谱V_s，得到复数的时频谱。对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。

进一步，第二步的提取公共空间字典对得到的两个字典W_s与W_n；先使用字典W_s与W_n进行分解，并重构一个字典

通过计算求一个误差矩阵

对E中的每一个列向量，取2-范数，生成一个误差向量；通过判断每一个误差是否大于接受阈值0.03，将误差向量转换为布尔类型变量形成的向量；通过向量，标记出字典内部哪些向量导致了公共空间，需要划分进入W_cs字典。

进一步，所述第三步的训练公共空间内容预测模型具体包括：训练阶段，使用字典W＝[W_csW_n]对噪声数据的幅度谱进行分解，得到两个部分的系数H_cs与H_n。将这两部分系数对应保存，作为模型。

对于输入的一组待处理特征空间系数h_x，通过搜索查表，在H_n找到一个余弦距离最近的最相似系数h_y；由表中记录的对应关系，在H_cs中获得h_y所对应的公共空间内部成分系数h_yc，放缩系数计算如下：

求得用于放缩的比例α后，与待输出的结果系数h_yc计算得到一个声源公共空间内成分的系数预测h_res＝αh_yc。

综上所述，本发明的优点及积极效果为：通过两个字典间相互进行非负矩阵分解，可以判定出字典内容间是否可以互相表达，形成公共空间；将可以相互表达的成分，从两字典中分离出来，使用一个公共空间字典额外保存，并通过机器学习工具对公共空间部分的成分进行预测。本发明在技术上首先从数据空间的角度，完善了传统算法中空间所产生的误差，使用机器学习工具预测公共空间内的内容，实现了纯净语音的预测。对一段语音的时域信号序列，使用本发明进行处理后，可以得到估计的纯净语音序列。通过一段实测数据使用本发明处理前后的波形图可以看到，图4中的带噪信号包含了大量的噪声。而下图所展示的由本发明处理后的语音信号，包含噪声内容明显减少，已经可以明显的辨认语音波形。

为了客观的评价本发明对带噪语音质量的提升。通过相同数据集训练测试，统计输出音频的PESQ评分指标(-0.5到4.5，越高越好)如图5所示。可以看到相较于输入带噪语音的PESQ评分，现有相关方法与本发明均能有效提高其语音质量，而本发明在去除字典互表达情况后，获得了高于现有相关方法的语音质量。

本发明在保证算法复杂度上限的前提下，以对字典的修改为手段，解决了传统算法中声源直接字典内容互表达的问题，提高了输入带噪语音的质量。

附图说明

图1是本发明实施例提供的基于公共空间语音模型预测的语音增强方法流程图。

图2是本发明实施例提供的基于公共空间语音模型预测的语音增强方法实现流程图。

图3是本发明实施例提供的布尔向量与字典内容对应关系示意图。

图4是本发明实施例提供的处理前后的波形图。

图5是本发明实施例提供的统计输出音频的PESQ评分指标示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有相关算法认为语音与噪声合并形成的字典具有满秩性质，但未进行检查，导致了两字典直接内容相互表达的问题；以数据成分所属于的字典划分噪声成分时，字典的非满秩性质导致了两个数据空间之间具有公共成分，导致语音处理去噪不彻底以及语音失真的问题。本发明能够解决现有技术无法处理字典间互表达导致的语音增强效果差的问题，并避免使用联合训练处理字典互表达问题所带来的复杂度提升。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于公共空间语音模型预测的语音增强方法包括以下步骤：

S101：对纯净噪声与纯净语音信号两种训练数据分别进行拼接整理，得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time FourierTransform)，得到分别对应噪声与语音的两个时频域谱矩阵；随后将每一个声源的复数时频谱矩阵数据取幅度值，将复数数据转换为实数数据；将两实数矩阵送入NMF工具进行迭代，经过迭代分解之后，得到两个代表声源发声常见模式的字典矩阵W_s与W_n作为声源的个性特征；

S102：对第一步中得到的语音与噪声字典W_s与W_n，先使用字典W_s对W_n字典进行NMF分解。通过判断每一个列向量的重构误差是否大于接受阈值0.03，将重构误差小于阈值的内容从W_n字典中移入公共空间字典W_cs；

S103：训练公共空间内容预测模型，将现有的所有系数进行汇总，作为范例保存；在使用时，以一个最近邻算法选择需要模仿的系数对；

S104：对输入带噪音频进行STFT工具变换，并取幅度值得到待处理非负矩阵V；随后使用联合字典W＝[W_sW_n]，对V进行分解，获得系数矩阵H。将H中噪声字典部分内容送入模型对相应公共空间内容进行预测，得到一个完整的系数矩阵，估计出全部的噪声部分即W_nH_n，并将其在混合语音的幅度谱中进行去除，得到估计的纯净语音谱V_s；

S105：将待处理语音谱的相位信息加入谱V_s，得到复数的时频谱。对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的基于公共空间语音模型预测的语音增强方法包括以下步骤：

(1)训练环节

对纯净噪声与纯净语音信号两种训练数据分别进行拼接整理，得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time FourierTransform)，得到分别对应噪声与语音的两个时频域谱矩阵；随后将每一个声源的复数时频谱矩阵数据取幅度值，将复数数据转换为实数数据；将两实数矩阵送入NMF工具进行迭代，经过迭代分解之后，得到两个代表声源发声常见模式的字典矩阵W_s与W_n作为声源的个性特征；

(2)提取公共空间字典

对第二步的提取公共空间字典对得到的两个字典W_s与W_n；先使用字典W_s与W_n字典进行分解，并重构一个字典

通过计算求一个误差矩阵

对E中的每一个列向量，取2-范数，生成一个误差向量；通过判断每一个误差是否大于接受阈值0.03，将误差向量转换为布尔类型变量形成的向量；通过向量，标记出字典内部哪些向量导致了公共空间，该部分向量需要划分进入W_cs字典。

(3)训练公共空间内容预测模型

使用字典W＝[W_csW_n]对噪声数据的幅度谱进行分解，得到两个部分的系数H_cs与H_n。将这两部分系数对应保存，作为模型。

(4)去除噪声

对待输入带噪音频进行STFT工具变换，并取幅度值得到待处理非负矩阵V；随后使用联合字典W＝[W_sW_n]，对V进行分解，获得系数矩阵H。将H中噪声字典部分内容送入模型对相应公共空间内容进行预测。

求得用于放缩的比例α后，与输出的结果系数h_yc计算得到一个声源公共空间内成分的系数预测h_res＝αh_yc。

估计出全部的噪声部分即W_nH_n，并将其在混合语音的幅度谱中进行去除，得到估计的纯净语音谱V_s；

(5)还原输出语音

将待处理语音谱的相位信息加入谱V_s，得到复数的时频谱。对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于公共空间语音模型预测的语音增强方法，其特征在于：通过声源特征字典间相互进行非负矩阵分解NMF，判定出字典内容间是否可以互相表达，形成公共空间；将字典中相互表达的成分，从两字典中分离出来，使用一个公共空间字典额外保存，并通过机器学习工具对公共空间部分的成分进行预测，完善噪声的去除流程；

所述基于公共空间语音模型预测的语音增强方法包括：

第一步，对纯净噪声与纯净语音信号两种训练数据分别进行整理拼接，得到两条包含所有类数据的长音频；对长音频进行短时傅里叶变换STFT，得到分别对应噪声与语音的两个时频域谱矩阵；随后将每一个声源的复数时频谱矩阵数据取幅度值，将复数数据转换为实数数据；将两实数矩阵送入NMF工具进行迭代，经过迭代分解之后，得到两个代表声源发声常见模式的字典矩阵，语音字典W_s、噪声字典W_n作为声源的个性特征；

第二步，对第一步中得到的语音字典W_s、噪声字典W_n，先使用字典W_s对W_n字典进行NMF分解；通过判断每一个列向量的重构误差是否大于接受阈值0.03，将重构误差小于阈值的内容从W_n字典中移入公共空间字典W_cs；具体包括：

先使用字典W_s对字典W_n进行分解，并重构一个字典

通过计算求一个误差矩阵

对E中的每一个列向量，取2-范数，生成一个误差向量；通过判断每一个误差是否大于接受阈值0.03，将误差向量转换为布尔类型变量形成的向量；通过向量，标记出字典内部哪些向量导致了公共空间，该部分向量需要划分进入W_cs字典；

训练公共空间内容预测模型具体包括：

训练阶段，使用字典W＝[W_csW_n]对噪声数据的幅度谱进行分解，得到两个部分的系数H_cs与H_n，将这两部分系数对应保存，作为模型；

求得用于放缩的比例α后，与待输出的结果系数h_yc求得一个声源公共空间内成分的系数预测h_res＝ah_yc；

第四步，对输入的带噪音频进行STFT工具变换，并取幅度值得到待处理非负矩阵V；随后使用联合字典w＝[W_sW_n]，对V进行分解，获得系数矩阵H；将H中噪声字典部分内容送入模型对相应公共空间内容进行预测，得到一个完整的系数矩阵，估计出全部的噪声部分，并将其从混合语音的幅度谱中进行去除，得到估计的纯净语音谱V_s；对H中噪声字典部分内容，使用模型对其对应的公共空间内容进行预测，得到一个系数矩阵H_cs；利用W_nH_n+W_csH_cs可以估计出噪声部分的幅度谱，在混合语音幅度谱中进行去除；

第五步，将待处理语音谱的相位信息加入谱V_s，得到复数的时频谱；对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。