CN111341331A - 基于局部注意力机制的语音增强方法、装置及介质 - Google Patents

基于局部注意力机制的语音增强方法、装置及介质 Download PDF

Info

Publication number
CN111341331A
CN111341331A CN202010117498.5A CN202010117498A CN111341331A CN 111341331 A CN111341331 A CN 111341331A CN 202010117498 A CN202010117498 A CN 202010117498A CN 111341331 A CN111341331 A CN 111341331A
Authority
CN
China
Prior art keywords
voice
enhanced
speech
enhancement
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010117498.5A
Other languages
English (en)
Other versions
CN111341331B (zh
Inventor
方泽煌
康元勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN202010117498.5A priority Critical patent/CN111341331B/zh
Publication of CN111341331A publication Critical patent/CN111341331A/zh
Application granted granted Critical
Publication of CN111341331B publication Critical patent/CN111341331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于局部注意力机制的语音增强方法,包括:采集待处理语音,对待处理语音进行语音合成处理,得到待增强语音;对待增强语音进行特征提取,得到待增强语音的多维特征;建立基于局部注意力机制的RNN模型,并将多维特征输入至RNN模型;对RNN模型进行训练,得到语音增强模型;根据语音增强模型对多维特征进行计算得到时频掩蔽因子,根据时频掩蔽因子以及待增强语音的频谱,得到待增强语音的增强语音频谱;根据增强语音频谱得到语音增强波形。本发明提供的一种基于局部注意力机制的语音增强方法及系统,能够有效提高语音增强的效果,且能够有效提高语音增强的稳定性和可靠性。

Description

基于局部注意力机制的语音增强方法、装置及介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于局部注意力机制的语音增强方法、装置及介质。
背景技术
语音增强是语音处理领域的一个重要课题,是指当语音信号被各种各样的噪声干扰、甚至覆盖后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。随着智能音箱和人机交互等相关应用的发展,在理想环境下,语音识别和说话人识别等算法已经具有较高的准确率,但是在实际场景中,噪声的存在使得这些语音应用的准确度极大降低,因此降低噪声对语音信号的干扰和增强语音信号是亟待解决的问题。
目前,现有的语音增强方法主要有谱减法、维纳滤波和基于最小均方误差的短时谱幅增强方法。
使用现有的语音增强方法,存在以下问题:
在很大程度上取决于噪声的估计,且这些方法适用场景少,未能充分考虑各个场景下的语音特性,不可避免地引入失真,造成语音增强效果不佳。
发明内容
本发明实施例提供的一种基于局部注意力机制的语音增强方法、装置及介质,能够有效提高语音增强的效果,且能够有效提高语音增强的稳定性和可靠性。
为解决上述问题,一方面,本发明的一个实施例提供了一种基于局部注意力机制的语音增强方法,包括:
采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;
建立基于局部注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
对所述RNN模型进行训练,得到语音增强模型;
根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
根据所述增强语音频谱得到语音增强波形。
进一步地,所述待处理语音包括纯净语音和噪声;所述采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对所述原始噪声进行筛选,得到常规噪声;对所述纯净语音和所述常规噪声进行语音合成处理,得到待增强语音。
进一步地,所述对所述待增强语音进行特征提取,得到所述待增强语音的多维特征,具体为:
对所述待增强语音进行加窗分帧处理并进行短傅里叶变换,并计算每帧待增强语音的频域对数谱;
对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征。
进一步地,所述对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征,具体为:
将所述每帧待增强语音的频域对数谱均分为22个子频带,对每一子频带进行DCT变换得到22维特征;
将所述22维特征中的每一当前帧与所述当前帧的前两帧和所述当前帧的后两帧分别进行差异比较,并根据所述当前帧的特征得到36维特征;
将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征;
将所述22维特征、所述36维特征和所述4维特征进行累加,得到所述待增强语音的62维特征。
进一步地,所述对所述RNN模型进行训练,得到语音增强模型,具体为:
采用Adam训练策略和loss函数对所述RNN模型进行训练,得到语音增强模型。
进一步地,所述根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱,具体为:
将所述时频掩蔽因子与所述待增强语音的频谱进行相乘运算,得到所述待增强语音的增强语音频谱。
进一步地,所述根据所述增强语音频谱得到语音增强波形,具体为:
对所述增强语音频谱进行逆傅里叶变换,得到所述待增强语音的语音增强波形。
另一方面,本发明的另一实施例提供了一种基于局部注意力机制的语音增强系统,包括语音合成模块、特征提取模块、特征输入模块、训练模块、计算模块和语音增强模块;
所述语音合成模块,用于采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
所述特征提取模块,用于对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;
所述特征输入模块,用于基于局部注意力机制建立RNN模型,并将所述多维特征输入至所述RNN模型;
所述训练模块,用于对所述RNN模型进行训练,得到语音增强模型;
所述计算模块,用于根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
所述语音增强模块,用于根据所述增强语音频谱得到语音增强波形。
又一方面,本发明的又一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于局部注意力机制的语音增强方法。
本发明实施例提供的一种基于局部注意力机制的语音增强方法、装置及介质,通过对待处理语音进行语音合成处理得到待增强语音,并将所述待增强语音进行特征提取得到多维特征,能够有效避免噪声对待增强语音的影响,能够有效提高语音增强的效果;通过对RNN模型进行模型训练得到语音增强模型,并将所述多维特征输入到语音增强模型中计算时频掩蔽因子,以进行语音增强。本发明实施例采用较小的模型实现语音增强,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。
附图说明
图1是本发明实施例提供的一种基于局部注意力机制的语音增强方法的流程示意图;
图2是本发明实施例提供的一种基于局部注意力机制的语音增强方法步骤S2的流程示意图;
图3是本发明实施例提供的一种基于局部注意力机制的语音增强方法步骤S22的流程示意图;
图4是本发明实施例提供的一种基于局部注意力机制的语音增强方法的RNN模型结构示意图;
图5是本发明实施例提供的一种基于局部注意力机制的语音增强方法的另一流程示意图;
图6是本发明实施例提供的一种基于局部注意力机制的语音增强系统的结构示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5:
本发明的第一实施例。
本发明实施例提供了一种基于局部注意力机制的语音增强方法,包括:
S1、采集待处理语音,对待处理语音进行语音合成处理,得到待增强语音;
在本发明实施例中,待处理语音包括纯净的语音和原始噪声,其中纯净的语音可以通过声音采集设备在消音室进行采集,噪声可以通过声音采集设备在不同的场景进行采集,不同的场景包括火车站、街道、公园、篮球场、体育场、办公室和铃声等,且在噪声采集完成后对采集到的噪声根据预设的筛选条件进行筛选,得到符合场景的常见噪声数据,能够有效提高语音合成处理的效率,从而能够得到更准确的待增强语音,进而能够有效提高语音增强的效果。
S2、对待增强语音进行特征提取,得到待增强语音的多维特征;
S3、建立基于局部注意力机制的RNN(Recurrent Neural Networks,循环神经网络)模型,并将多维特征输入至RNN模型;
S4、对RNN模型进行训练,得到语音增强模型;
S5、根据语音增强模型对多维特征进行计算得到时频掩蔽因子,根据时频掩蔽因子以及待增强语音的频谱,得到待增强语音的增强语音频谱;
S6、根据增强语音频谱得到语音增强波形。
在本发明实施例中,可以理解的是,本发明实施例的声音采集设备包括麦克风和ADC硬件芯片,用于将不同场景环境中的声学信号转换成适合计算的数字信号;采用单片机或带有操作系统的计算芯片进行参数的计算;采用可传发数据的网络系统对计算数据进行传输,并采用任意网络接入的存储设备对语音模型参数进行存储。本发明实施例通过对待处理语音进行语音合成处理得到待增强语音,并将待增强语音进行特征提取得到多维特征,能够有效避免噪声对待增强语音的影响,能够有效提高语音增强的效果;建立基于局部注意力机制的RNN模型,通过对RNN模型进行模型训练得到语音增强模型,将多维特征输入到语音增强模型中计算时频掩蔽因子,以进行语音增强,引入局部注意力机制能够快速准确地提取语音之间的上下文信息,使得计算得到的时频掩蔽因子更精确;本发明实施例通过采用较小的模型实现语音增强,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。
作为本发明实施例的一种具体实施方式,待处理语音包括纯净语音和噪声;采集待处理语音,对待处理语音进行语音合成处理,得到待增强语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对原始噪声进行筛选,得到常规噪声;对纯净语音和常规噪声进行语音合成处理,得到待增强语音。
在本发明实施例中,待处理语音包括纯净的语音和原始噪声,其中纯净的语音可以通过声音采集设备在消音室进行采集,噪声可以通过声音采集设备在不同的场景进行采集,不同的场景包括火车站、街道、公园、篮球场、体育场、办公室和铃声等,且在噪声采集完成后对采集到的噪声根据预设的筛选条件进行筛选,得到符合场景的常见噪声数据,能够有效提高语音合成处理的效率,从而能够得到更准确的待增强语音,进而能够有效提高语音增强的效果。本发明实施例语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的待增强语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1;本实施例中α=0.8,β=0.5。
请参阅图2,在本发明实施例中,对待增强语音进行特征提取,得到待增强语音的多维特征,具体为:
S21、对待增强语音进行加窗分帧处理并进行短傅里叶变换,并计算每帧待增强语音的频域对数谱;
S22、对每帧待增强语音的频域对数谱进行特征提取,得到待增强语音的62维特征。
请参阅图3,在本发明实施例中,对每帧待增强语音的频域对数谱进行特征提取,得到待增强语音的62维特征,具体为:
S221、将每帧待增强语音的频域对数谱均分为22个子频带,对每一子频带进行DCT变换得到22维特征;
在本发明实施例中,22维特征为22个子频带进行DCT变换得到的系数,DCT变换公式如下:
Figure BDA0002391944690000081
Figure BDA0002391944690000082
其中,N为数据的总长度,u为补偿因子。本发明实施例中u取值为1,c(u)系数使得DCT变换矩阵成为正交矩阵,f(i)为子频带数据,i为数据的索引。
S222、将22维特征中的每一当前帧与当前帧的前两帧和当前帧的后两帧分别进行差异比较,并根据当前帧的特征得到36维特征;
在本发明实施例中,差异比较的具体过程为:将前6个子频带的系数作为6维特征进行差异比较,差异比较的计算公式如下:
F1=(fcurrent(i)+fcurrent+1(i)+fcurrent+2(i))/3
F2=fcurrent(i)-fcurrent+2(i)
F3=fcurrent(i)-2×fcurrent+1(i)+fcurrent+2(i)
F4=fcurrent(i)-fcurrent-1(i)
F5=fcurrent(i)-fcurrent-2(i)
F6=fcurrent(i)
其中,fcurrent为当前帧,fcurrent+1为当前帧的后一帧,fcurrent+2为fcurrent+1的后一帧,fcurrent-1为当前帧的前一帧,fcurrent-2为fcurrent-1的前一帧,i为22维特征对应的索引,1≤i≤6,F1~F5为5种差异比较方式,F6为当前帧特征。
S223、将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征;
S224、将22维特征、36维特征和4维特征进行累加,得到待增强语音的62维特征。
作为本发明实施例的一种具体实施方式,对RNN模型进行训练,得到语音增强模型,具体为:
采用Adam训练策略和loss函数对RNN模型进行训练,得到语音增强模型。
在本发明实施例中,请参阅图4,为本发明实施例提供的RNN模型结构图。其中,Atttention层的计算公式如下:
Figure BDA0002391944690000091
其中hk和hq分别为GRU(hk)以及GRU(hq)的输出,score(.)为相关性得分,表达式如下:
score(hk,hq)=hk TWhq
其中,W为hk和hq的权重。
本发明实施例通过将62维特征输入至基于局部注意力机制的RNN模型,再采用Adam训练策略和loss函数进行训练得到语音增强模型;其中,模型学习率为0.0001。本发明实施例中的loss函数的公式如下:
Figure BDA0002391944690000092
ATH=[0.034562,0.052215,0.064565,0.073990,0.081568,0.087900,0.093366,0.098233,0.102706,0.106952,0.111125,0.115369,0.119833,0.124679,0.130085,0.136260,0.143450,0.151957,0.162159,0.174534,0.189704,0.208485,0.231961,0.261580,0.299273,0.347572,0.409641,0.488996,0.588361,0.706682,0.833519,0.943348,1.000000,0.979554,0.891890,0.771077,0.648798,0.541757,0.454490,0.385603,0.331854,0.289955,0.257153,0.231303,0.210786,0.194387,0.181194,0.170519,0.161836,0.154737,0.148904,0.144085,0.140076,0.136713,0.133861,0.131410,0.129268,0.127362,0.125629,0.124022,0.122499,0.121031,0.119593,0.118166,0.116737,0.115296,0.113838,0.112356,0.110851,0.109319,0.107762,0.106181,0.104577,0.102952,0.101307,0.099646,0.097970,0.096282,0.094585,0.092880,0.091171,0.089459,0.087747,0.086037,0.084332,0.082632,0.080941,0.079259,0.077589,0.075933,0.074291,0.072666,0.071059,0.069471,0.067902,0.066355,0.064830,0.063328,0.061849,0.060395,0.058965,0.057560,0.056182,0.054829,0.053502,0.052202,0.050929,0.049681,0.048461,0.047267,0.046099,0.044958,0.043843,0.042753,0.041690,0.040651,0.039638,0.038649,0.037684,0.036744,0.035827,0.034933,0.034062,0.033213,0.032386,0.031580,0.030796,0.030032,0.029288,0.028564,0.027858,0.027172,0.026504,0.025854,0.025221,0.024605,0.024006,0.023422,0.022855,0.022303,0.021765,0.021243,0.020734,0.020239,0.019757,0.019289,0.018833,0.018389,0.017957,0.017537,0.017128,0.016730,0.016343,0.015966,0.015599,0.015242,0.014894,0.014556,0.014226,0.013906,0.013906]。
其中N为样本总数,xi为真实标签,
Figure BDA0002391944690000111
为预测标签,ATH为心理声学模型阈值参数。
本发明实施例语音增强模型的参数主要包括Input层(输入层)与Dense层(全连接层)的权重和偏置、Dense层与GRU(Gated Recurrent Unit,门控循环单元)(hk)层的权重和偏置、GRU(hk)层与GRU(hq)层的权重和偏置,GRU(hk)层串联GRU(hq)层和Attention层(注意力层)的权重和偏置、GRU(hq)层联合Attention层和Dense层的权重和偏置、Dense层和Output层(输出层)的权重和偏置;根据模型结构设计并优化前向算法,具体为根据权重数量与各个层之间的连接情况定义同等大小的数组,并根据Dense层、GRU层和Attentin层的神经元的输入输出设计对应数据结构储存参数,从而可以存储至存储器中,进而可以部署在系统中。
作为本发明实施例的一种具体实施方式,根据时频掩蔽因子以及待增强语音的频谱,得到待增强语音的增强语音频谱,具体为:
将时频掩蔽因子与待增强语音的频谱进行相乘运算,得到待增强语音的增强语音频谱。
作为本发明实施例的一种具体实施方式,根据增强语音频谱得到语音增强波形,具体为:
对增强语音频谱进行逆傅里叶变换,得到待增强语音的语音增强波形。
在本发明实施例中,采用hanning窗窗函数进行逆傅里叶变换,能够将频谱变现复杂的增强语音频谱进行逆傅里叶变换得到语音增强波形,从而能够有效提高语音增强的效果。请参阅图5,为本发明实施例提供的一种基于局部注意力机制的语音增强方法的另一流程示意图。
实施本发明实施例,具有以下有益效果。
在本发明实施例中,通过对待处理语音进行语音合成处理得到待增强语音,并将待增强语音进行特征提取得到多维特征,能够有效避免噪声对待增强语音的影响,能够有效提高语音增强的效果;建立基于局部注意力机制的RNN模型,通过对RNN模型进行模型训练得到语音增强模型,将多维特征输入到语音增强模型中计算时频掩蔽因子,以进行语音增强,引入局部注意力机制能够快速准确地提取语音之间的上下文信息,使得计算得到的时频掩蔽因子更精确;本发明实施例采用较小的模型实现语音增强,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。
请参阅图6:
本发明的第二实施例。
本发明实施例提供了一种基于局部注意力机制的语音增强系统,包括语音合成模块10、特征提取模块20、特征输入模块30、训练模块40、计算模块50和语音增强模块60;
语音合成模块10,用于采集待处理语音,对待处理语音进行语音合成处理,得到待增强语音;
在本发明实施例中,待处理语音包括纯净的语音和原始噪声,其中纯净的语音可以通过声音采集设备在消音室进行采集,噪声可以通过声音采集设备在不同的场景进行采集,不同的场景包括火车站、街道、公园、篮球场、体育场、办公室和铃声等,且在噪声采集完成后对采集到的噪声根据预设的筛选条件进行筛选,得到符合场景的常见噪声数据,能够有效提高语音合成处理的效率,从而能够得到更准确的待增强语音,进而能够有效提高语音增强的效果。
特征提取模块20,用于对待增强语音进行特征提取,得到待增强语音的多维特征;
特征输入模块30,用于基于局部注意力机制建立RNN模型,并将多维特征输入至RNN模型;
训练模块40,用于对RNN模型进行训练,得到语音增强模型;
计算模块50,用于根据语音增强模型对多维特征进行计算得到时频掩蔽因子,根据时频掩蔽因子以及待增强语音的频谱,得到待增强语音的增强语音频谱;
语音增强模块60,用于根据增强语音频谱得到语音增强波形。
实施本发明实施例,具有以下有益效果:
在本发明实施例中,可以理解的是,本发明实施例的声音采集设备包括麦克风和ADC硬件芯片,用于将不同场景环境中的声学信号转换成适合计算的数字信号;采用单片机或带有操作系统的计算芯片进行参数的计算;采用可传发数据的网络系统对计算数据进行传输,并采用任意网络接入的存储设备对语音模型参数进行存储。本发明实施例通过语音合成模块10对待处理语音进行语音合成处理得到待增强语音,并通过特征提取模块20将待增强语音进行特征提取得到多维特征,能够有效避免噪声对待增强语音的影响,能够有效提高语音增强的效果;建立基于局部注意力机制的RNN模型,通过训练模块40对RNN模型进行模型训练得到语音增强模型,通过特征输入模块30将多维特征输入到语音增强模型中并通过计算模块50计算时频掩蔽因子,以进行语音增强.本发明实施例引入局部注意力机制,能够快速准确地提取语音之间的上下文信息,使得计算得到的时频掩蔽因子更精确;本发明实施例采用较小的模型实现语音增强,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用局部注意力机制能够有效提高语音增强的稳定性和可靠性。
本发明的第三实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于局部注意力机制的语音增强方法。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种基于局部注意力机制的语音增强方法,其特征在于,包括:
采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;
建立基于局部注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
对所述RNN模型进行训练,得到语音增强模型;
根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
根据所述增强语音频谱得到语音增强波形。
2.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述待处理语音包括纯净语音和噪声;所述采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对所述原始噪声进行筛选,得到常规噪声;对所述纯净语音和所述常规噪声进行语音合成处理,得到待增强语音。
3.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述对所述待增强语音进行特征提取,得到所述待增强语音的多维特征,具体为:
对所述待增强语音进行加窗分帧处理并进行短傅里叶变换,并计算每帧待增强语音的频域对数谱;
对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征。
4.如权利要求3所述的基于局部注意力机制的语音增强方法,其特征在于,所述对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征,具体为:
将所述每帧待增强语音的频域对数谱均分为22个子频带,对每一子频带进行DCT变换得到22维特征;
将所述22维特征中的每一当前帧与所述当前帧的前两帧和所述当前帧的后两帧分别进行差异比较,并根据所述当前帧的特征得到36维特征;
将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征;
将所述22维特征、所述36维特征和所述4维特征进行累加,得到所述待增强语音的62维特征。
5.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述对所述RNN模型进行训练,得到语音增强模型,具体为:
采用Adam训练策略和loss函数对所述RNN模型进行训练,得到语音增强模型。
6.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱,具体为:
将所述时频掩蔽因子与所述待增强语音的频谱进行相乘运算,得到所述待增强语音的增强语音频谱。
7.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述根据所述增强语音频谱得到语音增强波形,具体为:
对所述增强语音频谱进行逆傅里叶变换,得到所述待增强语音的语音增强波形。
8.一种基于局部注意力机制的语音增强系统,其特征在于,包括语音合成模块、特征提取模块、特征输入模块、训练模块、计算模块和语音增强模块;
所述语音合成模块,用于采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
所述特征提取模块,用于对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;
所述特征输入模块,用于基于局部注意力机制建立RNN模型,并将所述多维特征输入至所述RNN模型;
所述训练模块,用于对所述RNN模型进行训练,得到语音增强模型;
所述计算模块,用于根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
所述语音增强模块,用于根据所述增强语音频谱得到语音增强波形。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于局部注意力机制的语音增强方法。
CN202010117498.5A 2020-02-25 2020-02-25 基于局部注意力机制的语音增强方法、装置及介质 Active CN111341331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010117498.5A CN111341331B (zh) 2020-02-25 2020-02-25 基于局部注意力机制的语音增强方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117498.5A CN111341331B (zh) 2020-02-25 2020-02-25 基于局部注意力机制的语音增强方法、装置及介质

Publications (2)

Publication Number Publication Date
CN111341331A true CN111341331A (zh) 2020-06-26
CN111341331B CN111341331B (zh) 2023-04-18

Family

ID=71187903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117498.5A Active CN111341331B (zh) 2020-02-25 2020-02-25 基于局部注意力机制的语音增强方法、装置及介质

Country Status (1)

Country Link
CN (1) CN111341331B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967730A (zh) * 2021-01-29 2021-06-15 北京达佳互联信息技术有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967730A (zh) * 2021-01-29 2021-06-15 北京达佳互联信息技术有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111341331B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
US11024324B2 (en) Methods and devices for RNN-based noise reduction in real-time conferences
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
JP5127754B2 (ja) 信号処理装置
CN108831499A (zh) 利用语音存在概率的语音增强方法
KR101327895B1 (ko) 오디오 신호 분류를 위한 방법 및 장치
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN111341331B (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
CN113782044B (zh) 一种语音增强方法及装置
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、系统及设备
CN114245266B (zh) 小型麦克风阵列设备的区域拾音方法及系统
CN116106826A (zh) 声源定位方法、相关装置和介质
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Heitkaemper et al. Neural Network Based Carrier Frequency Offset Estimation From Speech Transmitted Over High Frequency Channels
CN112669877B (zh) 噪声检测及压制方法、装置、终端设备和系统、芯片
CN116665681A (zh) 一种基于组合滤波的雷声识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant