CN111341331A

CN111341331A - 基于局部注意力机制的语音增强方法、装置及介质

Info

Publication number: CN111341331A
Application number: CN202010117498.5A
Authority: CN
Inventors: 方泽煌; 康元勋
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-26
Anticipated expiration: 2040-02-25
Also published as: CN111341331B

Abstract

本发明公开了一种基于局部注意力机制的语音增强方法，包括：采集待处理语音，对待处理语音进行语音合成处理，得到待增强语音；对待增强语音进行特征提取，得到待增强语音的多维特征；建立基于局部注意力机制的RNN模型，并将多维特征输入至RNN模型；对RNN模型进行训练，得到语音增强模型；根据语音增强模型对多维特征进行计算得到时频掩蔽因子，根据时频掩蔽因子以及待增强语音的频谱，得到待增强语音的增强语音频谱；根据增强语音频谱得到语音增强波形。本发明提供的一种基于局部注意力机制的语音增强方法及系统，能够有效提高语音增强的效果，且能够有效提高语音增强的稳定性和可靠性。

Description

基于局部注意力机制的语音增强方法、装置及介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于局部注意力机制的语音增强方法、装置及介质。

背景技术

语音增强是语音处理领域的一个重要课题，是指当语音信号被各种各样的噪声干扰、甚至覆盖后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。随着智能音箱和人机交互等相关应用的发展，在理想环境下，语音识别和说话人识别等算法已经具有较高的准确率，但是在实际场景中，噪声的存在使得这些语音应用的准确度极大降低，因此降低噪声对语音信号的干扰和增强语音信号是亟待解决的问题。

目前，现有的语音增强方法主要有谱减法、维纳滤波和基于最小均方误差的短时谱幅增强方法。

使用现有的语音增强方法，存在以下问题：

在很大程度上取决于噪声的估计，且这些方法适用场景少，未能充分考虑各个场景下的语音特性，不可避免地引入失真，造成语音增强效果不佳。

发明内容

本发明实施例提供的一种基于局部注意力机制的语音增强方法、装置及介质，能够有效提高语音增强的效果，且能够有效提高语音增强的稳定性和可靠性。

为解决上述问题，一方面，本发明的一个实施例提供了一种基于局部注意力机制的语音增强方法，包括：

采集待处理语音，对所述待处理语音进行语音合成处理，得到待增强语音；

对所述待增强语音进行特征提取，得到所述待增强语音的多维特征；

建立基于局部注意力机制的RNN模型，并将所述多维特征输入至所述RNN模型；

对所述RNN模型进行训练，得到语音增强模型；

根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子，根据所述时频掩蔽因子以及所述待增强语音的频谱，得到所述待增强语音的增强语音频谱；

根据所述增强语音频谱得到语音增强波形。

进一步地，所述待处理语音包括纯净语音和噪声；所述采集待处理语音，对所述待处理语音进行语音合成处理，得到待增强语音，具体为：

采集纯净语音以及不同场景的原始噪声，根据预设的筛选规则对所述原始噪声进行筛选，得到常规噪声；对所述纯净语音和所述常规噪声进行语音合成处理，得到待增强语音。

进一步地，所述对所述待增强语音进行特征提取，得到所述待增强语音的多维特征，具体为：

对所述待增强语音进行加窗分帧处理并进行短傅里叶变换，并计算每帧待增强语音的频域对数谱；

对所述每帧待增强语音的频域对数谱进行特征提取，得到所述待增强语音的62维特征。

进一步地，所述对所述每帧待增强语音的频域对数谱进行特征提取，得到所述待增强语音的62维特征，具体为：

将所述每帧待增强语音的频域对数谱均分为22个子频带，对每一子频带进行DCT变换得到22维特征；

将所述22维特征中的每一当前帧与所述当前帧的前两帧和所述当前帧的后两帧分别进行差异比较，并根据所述当前帧的特征得到36维特征；

将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征；

将所述22维特征、所述36维特征和所述4维特征进行累加，得到所述待增强语音的62维特征。

进一步地，所述对所述RNN模型进行训练，得到语音增强模型，具体为：

采用Adam训练策略和loss函数对所述RNN模型进行训练，得到语音增强模型。

进一步地，所述根据所述时频掩蔽因子以及所述待增强语音的频谱，得到所述待增强语音的增强语音频谱，具体为：

将所述时频掩蔽因子与所述待增强语音的频谱进行相乘运算，得到所述待增强语音的增强语音频谱。

进一步地，所述根据所述增强语音频谱得到语音增强波形，具体为：

对所述增强语音频谱进行逆傅里叶变换，得到所述待增强语音的语音增强波形。

另一方面，本发明的另一实施例提供了一种基于局部注意力机制的语音增强系统，包括语音合成模块、特征提取模块、特征输入模块、训练模块、计算模块和语音增强模块；

所述语音合成模块，用于采集待处理语音，对所述待处理语音进行语音合成处理，得到待增强语音；

所述特征提取模块，用于对所述待增强语音进行特征提取，得到所述待增强语音的多维特征；

所述特征输入模块，用于基于局部注意力机制建立RNN模型，并将所述多维特征输入至所述RNN模型；

所述训练模块，用于对所述RNN模型进行训练，得到语音增强模型；

所述计算模块，用于根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子，根据所述时频掩蔽因子以及所述待增强语音的频谱，得到所述待增强语音的增强语音频谱；

所述语音增强模块，用于根据所述增强语音频谱得到语音增强波形。

又一方面，本发明的又一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于局部注意力机制的语音增强方法。

本发明实施例提供的一种基于局部注意力机制的语音增强方法、装置及介质，通过对待处理语音进行语音合成处理得到待增强语音，并将所述待增强语音进行特征提取得到多维特征，能够有效避免噪声对待增强语音的影响，能够有效提高语音增强的效果；通过对RNN模型进行模型训练得到语音增强模型，并将所述多维特征输入到语音增强模型中计算时频掩蔽因子，以进行语音增强。本发明实施例采用较小的模型实现语音增强，能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题，且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。

附图说明

图1是本发明实施例提供的一种基于局部注意力机制的语音增强方法的流程示意图；

图2是本发明实施例提供的一种基于局部注意力机制的语音增强方法步骤S2的流程示意图；

图3是本发明实施例提供的一种基于局部注意力机制的语音增强方法步骤S22的流程示意图；

图4是本发明实施例提供的一种基于局部注意力机制的语音增强方法的RNN模型结构示意图；

图5是本发明实施例提供的一种基于局部注意力机制的语音增强方法的另一流程示意图；

图6是本发明实施例提供的一种基于局部注意力机制的语音增强系统的结构示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-5：

本发明的第一实施例。

本发明实施例提供了一种基于局部注意力机制的语音增强方法，包括：

S1、采集待处理语音，对待处理语音进行语音合成处理，得到待增强语音；

在本发明实施例中，待处理语音包括纯净的语音和原始噪声，其中纯净的语音可以通过声音采集设备在消音室进行采集，噪声可以通过声音采集设备在不同的场景进行采集，不同的场景包括火车站、街道、公园、篮球场、体育场、办公室和铃声等，且在噪声采集完成后对采集到的噪声根据预设的筛选条件进行筛选，得到符合场景的常见噪声数据，能够有效提高语音合成处理的效率，从而能够得到更准确的待增强语音，进而能够有效提高语音增强的效果。

S2、对待增强语音进行特征提取，得到待增强语音的多维特征；

S3、建立基于局部注意力机制的RNN(Recurrent Neural Networks，循环神经网络)模型，并将多维特征输入至RNN模型；

S4、对RNN模型进行训练，得到语音增强模型；

S5、根据语音增强模型对多维特征进行计算得到时频掩蔽因子，根据时频掩蔽因子以及待增强语音的频谱，得到待增强语音的增强语音频谱；

S6、根据增强语音频谱得到语音增强波形。

在本发明实施例中，可以理解的是，本发明实施例的声音采集设备包括麦克风和ADC硬件芯片，用于将不同场景环境中的声学信号转换成适合计算的数字信号；采用单片机或带有操作系统的计算芯片进行参数的计算；采用可传发数据的网络系统对计算数据进行传输，并采用任意网络接入的存储设备对语音模型参数进行存储。本发明实施例通过对待处理语音进行语音合成处理得到待增强语音，并将待增强语音进行特征提取得到多维特征，能够有效避免噪声对待增强语音的影响，能够有效提高语音增强的效果；建立基于局部注意力机制的RNN模型，通过对RNN模型进行模型训练得到语音增强模型，将多维特征输入到语音增强模型中计算时频掩蔽因子，以进行语音增强，引入局部注意力机制能够快速准确地提取语音之间的上下文信息，使得计算得到的时频掩蔽因子更精确；本发明实施例通过采用较小的模型实现语音增强，能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题，且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。

作为本发明实施例的一种具体实施方式，待处理语音包括纯净语音和噪声；采集待处理语音，对待处理语音进行语音合成处理，得到待增强语音，具体为：

采集纯净语音以及不同场景的原始噪声，根据预设的筛选规则对原始噪声进行筛选，得到常规噪声；对纯净语音和常规噪声进行语音合成处理，得到待增强语音。

在本发明实施例中，待处理语音包括纯净的语音和原始噪声，其中纯净的语音可以通过声音采集设备在消音室进行采集，噪声可以通过声音采集设备在不同的场景进行采集，不同的场景包括火车站、街道、公园、篮球场、体育场、办公室和铃声等，且在噪声采集完成后对采集到的噪声根据预设的筛选条件进行筛选，得到符合场景的常见噪声数据，能够有效提高语音合成处理的效率，从而能够得到更准确的待增强语音，进而能够有效提高语音增强的效果。本发明实施例语音合成公式如下：

S_mix＝α×S_clean+β×N

其中，S_mix为合成的待增强语音，S_clean为纯净语音，N为噪声，α为纯净语音的衰减系数，0.3≤α≤1；β为噪声的衰减系数，0.3≤β≤1；本实施例中α＝0.8，β＝0.5。

请参阅图2，在本发明实施例中，对待增强语音进行特征提取，得到待增强语音的多维特征，具体为：

S21、对待增强语音进行加窗分帧处理并进行短傅里叶变换，并计算每帧待增强语音的频域对数谱；

S22、对每帧待增强语音的频域对数谱进行特征提取，得到待增强语音的62维特征。

请参阅图3，在本发明实施例中，对每帧待增强语音的频域对数谱进行特征提取，得到待增强语音的62维特征，具体为：

S221、将每帧待增强语音的频域对数谱均分为22个子频带，对每一子频带进行DCT变换得到22维特征；

在本发明实施例中，22维特征为22个子频带进行DCT变换得到的系数，DCT变换公式如下：

其中，N为数据的总长度，u为补偿因子。本发明实施例中u取值为1，c(u)系数使得DCT变换矩阵成为正交矩阵，f(i)为子频带数据，i为数据的索引。

S222、将22维特征中的每一当前帧与当前帧的前两帧和当前帧的后两帧分别进行差异比较，并根据当前帧的特征得到36维特征；

在本发明实施例中，差异比较的具体过程为：将前6个子频带的系数作为6维特征进行差异比较，差异比较的计算公式如下：

F1＝(f_current(i)+f_current+1(i)+f_current+2(i))/3

F2＝f_current(i)-f_current+2(i)

F3＝f_current(i)-2×f_current+1(i)+f_current+2(i)

F4＝f_current(i)-f_current-1(i)

F5＝f_current(i)-f_current-2(i)

F6＝f_current(i)

其中，f_current为当前帧，f_current+1为当前帧的后一帧，f_current+2为f_current+1的后一帧，f_current-1为当前帧的前一帧，f_current-2为fc_urrent-1的前一帧，i为22维特征对应的索引，1≤i≤6，F1～F5为5种差异比较方式，F6为当前帧特征。

S223、将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征；

S224、将22维特征、36维特征和4维特征进行累加，得到待增强语音的62维特征。

作为本发明实施例的一种具体实施方式，对RNN模型进行训练，得到语音增强模型，具体为：

采用Adam训练策略和loss函数对RNN模型进行训练，得到语音增强模型。

在本发明实施例中，请参阅图4，为本发明实施例提供的RNN模型结构图。其中，Atttention层的计算公式如下：

其中h_k和h_q分别为GRU(hk)以及GRU(hq)的输出，score(.)为相关性得分，表达式如下：

score(h_k,h_q)＝h_k ^TWh_q

其中，W为h_k和h_q的权重。

本发明实施例通过将62维特征输入至基于局部注意力机制的RNN模型，再采用Adam训练策略和loss函数进行训练得到语音增强模型；其中，模型学习率为0.0001。本发明实施例中的loss函数的公式如下：

ATH＝[0.034562,0.052215,0.064565,0.073990,0.081568,0.087900,0.093366,0.098233,0.102706,0.106952,0.111125,0.115369,0.119833,0.124679,0.130085,0.136260,0.143450,0.151957,0.162159,0.174534,0.189704,0.208485,0.231961,0.261580,0.299273,0.347572,0.409641,0.488996,0.588361,0.706682,0.833519,0.943348,1.000000,0.979554,0.891890,0.771077,0.648798,0.541757,0.454490,0.385603,0.331854,0.289955,0.257153,0.231303,0.210786,0.194387,0.181194,0.170519,0.161836,0.154737,0.148904,0.144085,0.140076,0.136713,0.133861,0.131410,0.129268,0.127362,0.125629,0.124022,0.122499,0.121031,0.119593,0.118166,0.116737,0.115296,0.113838,0.112356,0.110851,0.109319,0.107762,0.106181,0.104577,0.102952,0.101307,0.099646,0.097970,0.096282,0.094585,0.092880,0.091171,0.089459,0.087747,0.086037,0.084332,0.082632,0.080941,0.079259,0.077589,0.075933,0.074291,0.072666,0.071059,0.069471,0.067902,0.066355,0.064830,0.063328,0.061849,0.060395,0.058965,0.057560,0.056182,0.054829,0.053502,0.052202,0.050929,0.049681,0.048461,0.047267,0.046099,0.044958,0.043843,0.042753,0.041690,0.040651,0.039638,0.038649,0.037684,0.036744,0.035827,0.034933,0.034062,0.033213,0.032386,0.031580,0.030796,0.030032,0.029288,0.028564,0.027858,0.027172,0.026504,0.025854,0.025221,0.024605,0.024006,0.023422,0.022855,0.022303,0.021765,0.021243,0.020734,0.020239,0.019757,0.019289,0.018833,0.018389,0.017957,0.017537,0.017128,0.016730,0.016343,0.015966,0.015599,0.015242,0.014894,0.014556,0.014226,0.013906,0.013906]。

其中N为样本总数，x_i为真实标签，

为预测标签，ATH为心理声学模型阈值参数。

本发明实施例语音增强模型的参数主要包括Input层(输入层)与Dense层(全连接层)的权重和偏置、Dense层与GRU(Gated Recurrent Unit，门控循环单元)(hk)层的权重和偏置、GRU(hk)层与GRU(hq)层的权重和偏置，GRU(hk)层串联GRU(hq)层和Attention层(注意力层)的权重和偏置、GRU(hq)层联合Attention层和Dense层的权重和偏置、Dense层和Output层(输出层)的权重和偏置；根据模型结构设计并优化前向算法，具体为根据权重数量与各个层之间的连接情况定义同等大小的数组，并根据Dense层、GRU层和Attentin层的神经元的输入输出设计对应数据结构储存参数，从而可以存储至存储器中，进而可以部署在系统中。

作为本发明实施例的一种具体实施方式，根据时频掩蔽因子以及待增强语音的频谱，得到待增强语音的增强语音频谱，具体为：

将时频掩蔽因子与待增强语音的频谱进行相乘运算，得到待增强语音的增强语音频谱。

作为本发明实施例的一种具体实施方式，根据增强语音频谱得到语音增强波形，具体为：

对增强语音频谱进行逆傅里叶变换，得到待增强语音的语音增强波形。

在本发明实施例中，采用hanning窗窗函数进行逆傅里叶变换，能够将频谱变现复杂的增强语音频谱进行逆傅里叶变换得到语音增强波形，从而能够有效提高语音增强的效果。请参阅图5，为本发明实施例提供的一种基于局部注意力机制的语音增强方法的另一流程示意图。

实施本发明实施例，具有以下有益效果。

在本发明实施例中，通过对待处理语音进行语音合成处理得到待增强语音，并将待增强语音进行特征提取得到多维特征，能够有效避免噪声对待增强语音的影响，能够有效提高语音增强的效果；建立基于局部注意力机制的RNN模型，通过对RNN模型进行模型训练得到语音增强模型，将多维特征输入到语音增强模型中计算时频掩蔽因子，以进行语音增强，引入局部注意力机制能够快速准确地提取语音之间的上下文信息，使得计算得到的时频掩蔽因子更精确；本发明实施例采用较小的模型实现语音增强，能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题，且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。

请参阅图6：

本发明的第二实施例。

本发明实施例提供了一种基于局部注意力机制的语音增强系统，包括语音合成模块10、特征提取模块20、特征输入模块30、训练模块40、计算模块50和语音增强模块60；

语音合成模块10，用于采集待处理语音，对待处理语音进行语音合成处理，得到待增强语音；

特征提取模块20，用于对待增强语音进行特征提取，得到待增强语音的多维特征；

特征输入模块30，用于基于局部注意力机制建立RNN模型，并将多维特征输入至RNN模型；

训练模块40，用于对RNN模型进行训练，得到语音增强模型；

计算模块50，用于根据语音增强模型对多维特征进行计算得到时频掩蔽因子，根据时频掩蔽因子以及待增强语音的频谱，得到待增强语音的增强语音频谱；

语音增强模块60，用于根据增强语音频谱得到语音增强波形。

实施本发明实施例，具有以下有益效果：

在本发明实施例中，可以理解的是，本发明实施例的声音采集设备包括麦克风和ADC硬件芯片，用于将不同场景环境中的声学信号转换成适合计算的数字信号；采用单片机或带有操作系统的计算芯片进行参数的计算；采用可传发数据的网络系统对计算数据进行传输，并采用任意网络接入的存储设备对语音模型参数进行存储。本发明实施例通过语音合成模块10对待处理语音进行语音合成处理得到待增强语音，并通过特征提取模块20将待增强语音进行特征提取得到多维特征，能够有效避免噪声对待增强语音的影响，能够有效提高语音增强的效果；建立基于局部注意力机制的RNN模型，通过训练模块40对RNN模型进行模型训练得到语音增强模型，通过特征输入模块30将多维特征输入到语音增强模型中并通过计算模块50计算时频掩蔽因子，以进行语音增强.本发明实施例引入局部注意力机制，能够快速准确地提取语音之间的上下文信息，使得计算得到的时频掩蔽因子更精确；本发明实施例采用较小的模型实现语音增强，能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题，且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。

本发明的第三实施例提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于局部注意力机制的语音增强方法。

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于局部注意力机制的语音增强方法，其特征在于，包括：

对所述RNN模型进行训练，得到语音增强模型；

根据所述增强语音频谱得到语音增强波形。

2.如权利要求1所述的基于局部注意力机制的语音增强方法，其特征在于，所述待处理语音包括纯净语音和噪声；所述采集待处理语音，对所述待处理语音进行语音合成处理，得到待增强语音，具体为：

3.如权利要求1所述的基于局部注意力机制的语音增强方法，其特征在于，所述对所述待增强语音进行特征提取，得到所述待增强语音的多维特征，具体为：

4.如权利要求3所述的基于局部注意力机制的语音增强方法，其特征在于，所述对所述每帧待增强语音的频域对数谱进行特征提取，得到所述待增强语音的62维特征，具体为：

5.如权利要求1所述的基于局部注意力机制的语音增强方法，其特征在于，所述对所述RNN模型进行训练，得到语音增强模型，具体为：

6.如权利要求1所述的基于局部注意力机制的语音增强方法，其特征在于，所述根据所述时频掩蔽因子以及所述待增强语音的频谱，得到所述待增强语音的增强语音频谱，具体为：

7.如权利要求1所述的基于局部注意力机制的语音增强方法，其特征在于，所述根据所述增强语音频谱得到语音增强波形，具体为：

8.一种基于局部注意力机制的语音增强系统，其特征在于，包括语音合成模块、特征提取模块、特征输入模块、训练模块、计算模块和语音增强模块；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于局部注意力机制的语音增强方法。