CN116665693A

CN116665693A - 一种基于人工智能的语音增强方法

Info

Publication number: CN116665693A
Application number: CN202310934524.7A
Authority: CN
Inventors: 黄碧娣
Original assignee: Hefei Langyong Intelligent Technology Co ltd
Current assignee: Hefei Langyong Intelligent Technology Co ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-08-29
Anticipated expiration: 2043-07-28
Also published as: CN116665693B

Abstract

本发明涉及语音增强技术领域，公开了一种基于人工智能的语音增强方法，获取纯净语音样本和噪声语音样本，将纯净语音样本和噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱；分别对纯净语音幅度谱和带噪语音幅度谱进行第一特征提取，得到纯净语音特征和带噪语音特征；将纯净语音特征和带噪语音特征输入神经网络模型中进行训练，得到语音增强模型；获取含噪的待增强语音，对待增强语音进行第二特征提取，得到噪声测试集；将噪声测试集输入语音增强模型中，进行波形重构，并基于含噪的待增强语音的混合相位，得到目标增强语音；本发明达到降噪的效果，有效提升用户体验，同时提高了语音的可懂度及识别准确度。

Description

一种基于人工智能的语音增强方法

技术领域

本发明涉及语音增强技术领域，具体涉及一种基于人工智能的语音增强方法。

背景技术

语言是实现人与人之间便捷交流的信息工具，而语音信号是实现这种工具功能的介质。然而在现实生活中，语音信号经常会被各种类型的背景噪声或其他干扰说话人语音，甚至混响、回声等干扰信号所污染。这样的语音，由于添加了干扰成分，一方面会导致人类主观听觉感受质量的下降，另一方面严重影响目标语音内容的可懂度。语音增强的主要目的就是消除语音信号中可能存在的干扰分量，恢复出干净的目标语音信号从而提高语音的质量和可懂度。语音增强在通信领域有重要意义，普通用户的电话通信或视频通信，通常都含有现实生活场景中的各种噪声或干扰说话人语音，此时就需要语音增强技术消除干扰分量，从而保证说话者所说的内容能被远端的听者准确无误地理解；目前语音增强方式降噪效果较差，用户体验差。

发明内容

本发明的目的是为了解决上述问题，设计了一种基于人工智能的语音增强方法。

本发明第一方面提供一种基于人工智能的语音增强方法，该方法包括以下步骤：

获取纯净语音样本和噪声语音样本，将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱；

分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取，得到纯净语音特征和带噪语音特征；

将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练，得到语音增强模型；

获取含噪的待增强语音，对所述待增强语音进行第二特征提取，得到噪声测试集；

将所述噪声测试集输入所述语音增强模型中，进行波形重构，并基于含噪的待增强语音的混合相位，得到目标增强语音。

可选的，在本发明第一方面的第一种实现方式中，所述获取纯净语音样本和噪声语音样本，将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱，包括：

获取纯净语音样本和噪声语音样本，选择窗函数，根据所述窗函数的重叠因子，对所述噪声语音样本和所述纯净语音样本进行拆分，分别得到多段噪声语音信号和纯净语音信号；

将每段噪声语音信号和纯净语音信号与所述窗函数相乘进行窗口长度点傅里叶，得到初始纯净语音频谱和初始带噪语音频谱；

分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类，得到纯净语音簇中心和带噪语音簇中心；

基于所述纯净语音簇中心和所述带噪语音簇中心，得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱。

可选的，在本发明第一方面的第二种实现方式中，所述分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类，得到纯净语音簇中心和带噪语音簇中心，包括：

获取所述初始纯净语音频谱和所述初始带噪语音频谱中的元素，得到纯净语音元素集合和带噪语音集合，将所述纯净语音元素集合和所述带噪语音集合中的每个元素分别确定为簇；

计算所述纯净语音元素集合和所述带噪语音集合中每两个簇之间的簇间距离，并根据簇间距离，得到第一簇间距离矩阵和第二簇间距离矩阵；

基于所述第一簇间距离矩阵和所述第二簇间距离矩阵，分别选取出第一最小元素和第二最小元素；

基于所述第一最小元素和第二最小元素，分别更新所述第一簇间距离矩阵和所述第二簇间距离矩阵；

响应于预先设置的聚类簇数，根据所述聚类簇数，进行下一次聚类，直至不满足聚类条件，分别得到纯净语音簇中心和带噪语音簇中心。

可选的，在本发明第一方面的第三种实现方式中，所述第一簇间距离矩阵与所述纯净语音元素集合对应，所述第二簇间距离矩阵与所述带噪语音集合对应。

可选的，在本发明第一方面的第四种实现方式中，所述分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取，得到纯净语音特征和带噪语音特征，包括：

获取所述纯净语音幅度谱和所述带噪语音幅度谱，将所述纯净语音幅度谱和所述带噪语音幅度谱划分为多个节点；

对所有节点信息素初值和蚂蚁数量进行初始化，蚂蚁开始游走，对所有蚂蚁进行构建解，得到对应的特征数和识别率；

采用适应度函数对所述特征数和识别率的质量进行评估，得到评估结果，并基于所述评估结果，对路径上的信息素值进行更新，计算出各个路径上新的信息素浓度值；

重新构建解，直到到达最大迭代次数后，得到纯净语音特征和带噪语音特征。

可选的，在本发明第一方面的第五种实现方式中，所述将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练，得到语音增强模型，包括：

将所述纯净语音特征和所述带噪语音特征作为输入，得到输入特征数据，建立编码器-解码器网络结构；

采用编码器-解码器网络结构对所述输入特征数据进行处理，得到样本特征数据，并将所述样本特征数据传输至并行循环模块；

采用所述并行循环模块的两个双向门控循环单元层分别对所述输入特征数据和所述样本特征数据进行特征建模，得到神经网络模型；

通过特征融合模块进行后处理，采用均方误差作为损失函数训练神经网络模型，进行参数调整，以构建语音增强模型。

可选的，在本发明第一方面的第六种实现方式中，所述编码器-解码器网络结构中编码器和解码器采用对称方式设置有归一化门控线性单元模块，特征映射的维度在编码器部分逐层加倍，在解码器部分逐层减半，相对应的归一化门控线性单元模块之间通过跳跃连接进行特征共享。

可选的，在本发明第一方面的第七种实现方式中，所述特征融合模块由一个全连接层、两个BiGRU层和一个输出层组成；

采用所述全连接层进行相似度计算，使用softmax函数对相似度权重进行归一化，将归一化处理后的相似度权重和神经网络模型的输出层相乘，得到注意力得分，根据所述注意力得分将相连的两种特征进行融合，得到融合特征数据，将所述融合特征数据传输至所述BiGRU层，提取局部特征，并由所述输出层进行输出。

可选的，在本发明第一方面的第八种实现方式中，所述将所述噪声测试集输入所述语音增强模型中，进行波形重构，包括：

获取所述噪声测试集，确定当前采样样本，并根据所述当前采样样本确定重构的起始点和接收点；

计算所述重构的起始点和接收点之间的距离，得到重构路径，并基于所述重构路径，构建扩展路径；

将所述当前采样样本分别经过所述重构路径和所述扩展路径，并进行合并，完成所述当前采样样本的输出；

对下一个采样样本进行重构并输出，直至所述噪声测试集重构序列完成。

可选的，在本发明第一方面的第九种实现方式中，所述重构路径和所述扩展路径均至少包括三个有效卷积和一个最大池化降采样，所述重构路径每次降采样之后大小降低为原来的1/2，所述扩展路径开始之前通过反卷积将尺寸乘以2，并将个数减少为原来的1/2。

本发明提供的技术方案中，通过获取纯净语音样本和噪声语音样本，将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱；分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取，得到纯净语音特征和带噪语音特征；将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练，得到语音增强模型；获取含噪的待增强语音，对所述待增强语音进行第二特征提取，得到噪声测试集；将所述噪声测试集输入所述语音增强模型中，进行波形重构，并基于含噪的待增强语音的混合相位，得到目标增强语音；本发明通过人工智能方法对含噪语音进行增强，使目标语音清晰化，从而达到降噪的效果，有效提升用户体验，同时提高了语音的可懂度及识别准确度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明实施例提供的基于人工智能的语音增强方法的第一个实施例示意图；

图2为本发明实施例提供的基于人工智能的语音增强方法的第二个实施例示意图；

图3为本发明实施例提供的基于人工智能的语音增强方法的第三个实施例示意图；

图4为本发明实施例提供的基于人工智能的语音增强方法的第四个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、设备、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1本发明实施例提供的基于人工智能的语音增强方法的第一个实施例示意图，该方法具体包括以下步骤：

步骤101、获取纯净语音样本和噪声语音样本，将纯净语音样本和噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱；

本实施例中，短时傅里叶变换是线性时频分析中的一种。实现方式是：在时域用窗函数截断，对窗信号做傅里叶变换，即得到该时刻的傅里叶变换，不断地移动窗口的中心位置，即可得到不同时刻的傅里叶变换，这些傅里叶变换的集合就是短时傅里叶变换，得到的图形叫时频图，横坐标是时间，纵坐标是频率，z轴是信号能量/功率。短时傅里叶变换选用短窗口，会有较高的时间分辨率，但频率分辨率较差；选用长窗口，会有较高的频率分辨率，但时间分辨率就差。所以，在应用中要注意时窗和频窗宽度的折衷；短时傅里叶变换就是通过窗内的一段信号来表示某一时刻的信号特征，傅里叶变换就是先把一个函数和窗函数进行相乘，然后再进行一维的傅里叶变换，并通过窗函数的滑动得到一系列的频谱函数，所以最终得到一个二维的时频图。

步骤102、分别对纯净语音幅度谱和带噪语音幅度谱进行第一特征提取，得到纯净语音特征和带噪语音特征；

步骤103、将纯净语音特征和带噪语音特征输入神经网络模型中进行训练，得到语音增强模型；

步骤104、获取含噪的待增强语音，对待增强语音进行第二特征提取，得到噪声测试集；

步骤105、将噪声测试集输入语音增强模型中，进行波形重构，并基于含噪的待增强语音的混合相位，得到目标增强语音。

本实施例中，获取噪声测试集，确定当前采样样本，并根据当前采样样本确定重构的起始点和接收点；计算重构的起始点和接收点之间的距离，得到重构路径，并基于重构路径，构建扩展路径；将当前采样样本分别经过重构路径和扩展路径，并进行合并，完成当前采样样本的输出；对下一个采样样本进行重构并输出，直至噪声测试集重构序列完成。

本实施例中，重构路径和扩展路径均至少包括三个有效卷积和一个最大池化降采样，重构路径每次降采样之后大小降低为原来的1/2，扩展路径开始之前通过反卷积将尺寸乘以2，并将个数减少为原来的1/2。

本发明实施例中，通过获取纯净语音样本和噪声语音样本，将纯净语音样本和噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱；分别对纯净语音幅度谱和带噪语音幅度谱进行第一特征提取，得到纯净语音特征和带噪语音特征；将纯净语音特征和带噪语音特征输入神经网络模型中进行训练，得到语音增强模型；获取含噪的待增强语音，对待增强语音进行第二特征提取，得到噪声测试集；将噪声测试集输入语音增强模型中，进行波形重构，并基于含噪的待增强语音的混合相位，得到目标增强语音；本发明通过人工智能方法对含噪语音进行增强，使目标语音清晰化，从而达到降噪的效果，有效提升用户体验，同时提高了语音的可懂度及识别准确度。

请参阅图2，本发明实施例提供的基于人工智能的语音增强方法的第二个实施例示意图，该方法包括：

步骤201、获取纯净语音样本和噪声语音样本，选择窗函数，根据窗函数的重叠因子，对噪声语音样本和纯净语音样本进行拆分，分别得到多段噪声语音信号和纯净语音信号；

步骤202、将每段噪声语音信号和纯净语音信号与窗函数相乘进行窗口长度点傅里叶，得到初始纯净语音频谱和初始带噪语音频谱；

步骤203、分别对初始纯净语音频谱和初始带噪语音频谱进行层次聚类，得到纯净语音簇中心和带噪语音簇中心；

本实施例中，获取初始纯净语音频谱和初始带噪语音频谱中的元素，得到纯净语音元素集合和带噪语音集合，将纯净语音元素集合和带噪语音集合中的每个元素分别确定为簇；计算纯净语音元素集合和带噪语音集合中每两个簇之间的簇间距离，并根据簇间距离，得到第一簇间距离矩阵和第二簇间距离矩阵；基于第一簇间距离矩阵和第二簇间距离矩阵，分别选取出第一最小元素和第二最小元素；基于第一最小元素和第二最小元素，分别更新第一簇间距离矩阵和第二簇间距离矩阵；响应于预先设置的聚类簇数，根据聚类簇数，进行下一次聚类，直至不满足聚类条件，分别得到纯净语音簇中心和带噪语音簇中心。

本实施例中，第一簇间距离矩阵与纯净语音元素集合对应，第二簇间距离矩阵与带噪语音集合对应。

步骤204、基于纯净语音簇中心和带噪语音簇中心，得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱。

本发明实施例中，通过获取纯净语音样本和噪声语音样本，选择窗函数，根据窗函数的重叠因子，对噪声语音样本和纯净语音样本进行拆分，分别得到多段噪声语音信号和纯净语音信号，将每段噪声语音信号和纯净语音信号与窗函数相乘进行窗口长度点傅里叶，得到初始纯净语音频谱和初始带噪语音频谱，分别对初始纯净语音频谱和初始带噪语音频谱进行层次聚类，得到纯净语音簇中心和带噪语音簇中心，基于纯净语音簇中心和带噪语音簇中心，得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱；本发明提高了纯净语音样本和噪声语音样本进行变换，有利于提高后续语音增强的效率。

请参阅图3，本发明实施例提供的基于人工智能的语音增强方法的第三个实施例示意图，该方法包括：

步骤301、获取纯净语音幅度谱和带噪语音幅度谱，将纯净语音幅度谱和带噪语音幅度谱划分为多个节点；

步骤302、对所有节点信息素初值和蚂蚁数量进行初始化，蚂蚁开始游走，对所有蚂蚁进行构建解，得到对应的特征数和识别率；

步骤303、采用适应度函数对特征数和识别率的质量进行评估，得到评估结果，并基于评估结果，对路径上的信息素值进行更新，计算出各个路径上新的信息素浓度值；

步骤304、重新构建解，直到到达最大迭代次数后，得到纯净语音特征和带噪语音特征。

本实施例中，蚁群算法，又称蚂蚁算法，是一种用来在图中寻找优化路径的机率型算法，蚁群算法是一种模拟进化算法，初步的研究表明该算法具有许多优良的性质；蚂蚁会持续游走直到都构建出一条稳定的路径，这个过程就是解的构建。对路径上的信息素值进行更新，计算出各个路径上新的信息素浓度值，这个时候各个路径上的信息素浓度已经出现了明显的不均匀分布。更新的信息素会指引着后续的蚂蚁选择新的道路，这是从个体到整体的连接；信息素既要有增加也要有减少，不然信息素浓度会持续增大，达到极限值。一方面，蚂蚁在行走的过程中，会自动释放固定值大小的单位信息素浓度，这条路上的信息素会增加，这是信息素的释放。另一方面每次迭代后，路径上的信息素会减少一定量的信息素，这是信息素的蒸发。

本发明实施例中，通过取纯净语音幅度谱和带噪语音幅度谱，将纯净语音幅度谱和带噪语音幅度谱划分为多个节点，对所有节点信息素初值和蚂蚁数量进行初始化，蚂蚁开始游走，对所有蚂蚁进行构建解，得到对应的特征数和识别率；采用适应度函数对特征数和识别率的质量进行评估，得到评估结果，并基于评估结果，对路径上的信息素值进行更新，计算出各个路径上新的信息素浓度值；重新构建解，直到到达最大迭代次数后，得到纯净语音特征和带噪语音特征；本发明采用蚂蚁算法进行特征提取，增加了算法的搜索能力，提高了寻找到全局最优解的可能性，具有很强的鲁棒性。

请参阅图4，本发明实施例提供的基于人工智能的语音增强方法的第四个实施例示意图，该方法包括：

步骤401、将纯净语音特征和带噪语音特征作为输入，得到输入特征数据，建立编码器-解码器网络结构；

本实施例中，编码器-解码器网络结构中编码器和解码器采用对称方式设置有归一化门控线性单元模块，特征映射的维度在编码器部分逐层加倍，在解码器部分逐层减半，相对应的归一化门控线性单元模块之间通过跳跃连接进行特征共享。

步骤402、采用编码器-解码器网络结构对输入特征数据进行处理，得到样本特征数据，并将样本特征数据传输至并行循环模块；

步骤403、采用并行循环模块的两个双向门控循环单元层分别对输入特征数据和样本特征数据进行特征建模，得到神经网络模型；

本实施例中，LSTM通过门控机制使循环神经网络不仅能记忆过去的信息，同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模，而 GRU 基于这样的想法在保留长期序列信息下减少梯度消失问题。相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率；并行循环模块可以对时域上下文信息进行有效建模，传统的循环层只由简单的循环连接和激活函数构成，会带来梯度消失问题。LSTM 层由输入门、遗忘门、输出门构成，通过控制进出单元的信息流来有效解决RNN 中的梯度消失问题但相比普通的循环层，ISTM 层的参数数量提高了约 3倍，计算代价和内存消耗大幅提升，不利于实际应用GRU3作为 LSTM 的替代品，将 LSTM的3 个门简化为重置门和更新门，同时舍弃了二阶非线性输出。

步骤404、通过特征融合模块进行后处理，采用均方误差作为损失函数训练神经网络模型，进行参数调整，以构建语音增强模型。

本实施例中，特征融合模块由一个全连接层、两个BiGRU层和一个输出层组成；采用全连接层进行相似度计算，使用softmax函数对相似度权重进行归一化，将归一化处理后的相似度权重和神经网络模型的输出层相乘，得到注意力得分，根据注意力得分将相连的两种特征进行融合，得到融合特征数据，将融合特征数据传输至BiGRU层，提取局部特征，并由输出层进行输出。

本实施例中，均方误差MSE通过计算预测值和实际值之间距离，即误差的平方来衡量模型优劣。即预测值和真实值越接近，两者的均方差就越小。MSE的值越小，说明预测模型描述实验数据具有更好的精确度。均方误差损失又称为二次损失、L2损失，常用于回归预测任务中；均方误差和方差是高度一致的，只是参与计算的变量（项）不同，所以度量的角度也就不同，方差是用来衡量一组数自身的离散程度，而均方误差是用来衡量观测值（真值）与预测值之间的偏差。

本发明实施例中，通过将纯净语音特征和带噪语音特征作为输入，得到输入特征数据，建立编码器-解码器网络结构，采用编码器-解码器网络结构对输入特征数据进行处理，得到样本特征数据，并将样本特征数据传输至并行循环模块，采用并行循环模块的两个双向门控循环单元层分别对输入特征数据和样本特征数据进行特征建模，得到神经网络模型，通过特征融合模块进行后处理，采用均方误差作为损失函数训练神经网络模型，进行参数调整，以构建语音增强模型；本发明构建语音增强模型，通过语音增强模型进行语音增强，对含噪语音进行增强，使目标语音清晰化，从而达到降噪的效果，有效提升用户体验，同时提高了语音的可懂度及识别准确度。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于人工智能的语音增强方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种基于人工智能的语音增强方法，其特征在于，所述获取纯净语音样本和噪声语音样本，将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱，包括：

3.如权利要求2所述的一种基于人工智能的语音增强方法，其特征在于，所述分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类，得到纯净语音簇中心和带噪语音簇中心，包括：

4.如权利要求3所述的一种基于人工智能的语音增强方法，其特征在于，所述第一簇间距离矩阵与所述纯净语音元素集合对应，所述第二簇间距离矩阵与所述带噪语音集合对应。

5.如权利要求1所述的一种基于人工智能的语音增强方法，其特征在于，所述分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取，得到纯净语音特征和带噪语音特征，包括：

6.如权利要求1所述的一种基于人工智能的语音增强方法，其特征在于，所述将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练，得到语音增强模型，包括：

7.如权利要求6所述的一种基于人工智能的语音增强方法，其特征在于，所述编码器-解码器网络结构中编码器和解码器采用对称方式设置有归一化门控线性单元模块，特征映射的维度在编码器部分逐层加倍，在解码器部分逐层减半，相对应的归一化门控线性单元模块之间通过跳跃连接进行特征共享。

8.如权利要求6所述的一种基于人工智能的语音增强方法，其特征在于，所述特征融合模块由一个全连接层、两个BiGRU层和一个输出层组成；

9.如权利要求1所述的一种基于人工智能的语音增强方法，其特征在于，所述将所述噪声测试集输入所述语音增强模型中，进行波形重构，包括：

10.如权利要求9所述的一种基于人工智能的语音增强方法，其特征在于，所述重构路径和所述扩展路径均至少包括三个有效卷积和一个最大池化降采样，所述重构路径每次降采样之后大小降低为原来的1/2，所述扩展路径开始之前通过反卷积将尺寸乘以2，并将个数减少为原来的1/2。