CN111445919A - 结合ai模型的语音增强方法、系统、电子设备和介质 - Google Patents
结合ai模型的语音增强方法、系统、电子设备和介质 Download PDFInfo
- Publication number
- CN111445919A CN111445919A CN202010173740.0A CN202010173740A CN111445919A CN 111445919 A CN111445919 A CN 111445919A CN 202010173740 A CN202010173740 A CN 202010173740A CN 111445919 A CN111445919 A CN 111445919A
- Authority
- CN
- China
- Prior art keywords
- model
- voice
- signal
- noise
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims description 82
- 238000001228 spectrum Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 description 80
- 238000004364 calculation method Methods 0.000 description 13
- 238000009499 grossing Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种结合AI模型的语音增强方法、系统、电子设备和介质,其中结合AI模型的语音增强方法包括以下步骤:根据目标AI模型获取语音存在概率;根据语音存在概率得到噪声功率;根据噪声功率得到先验信噪比;根据先验信噪比得到语音增强增益。本发明可以在复杂嘈杂场景下改善语音的可懂度,也能提高关键词唤醒和语音识别功能的性能。
Description
技术领域
本发明属于语音增强技术领域,尤其涉及一种结合AI模型的语音增强方法、系统、电子设备和介质。
背景技术
当人处于嘈杂的环境中进行通话时,比如汽车,街道或咖啡馆中,环境中的噪声使得远端处的用户分心,理解困难,使得交流不顺利。类似场景下,如果使用虚拟助手(Virtual Assistant),其关键词唤醒(voice trigger detection)功能和自动语音识别(Automatic speech detection)功能都会出现误识率增加,识别率降低的现象,造成使用困难。
语音增强的目的是从带噪语音中分离出干净语音信号。得到的语音信号能够使得通话更清晰,可懂度更高,使得人与人之间交流更高效。也能帮助虚拟助手更好地理解用户的目的,提高用户体验。语音增强已经进行了数十年的研究,广泛用于通信,安防,家居等场景。相较于麦克风阵列技术,单通道的语音增强具有非常广泛的应用场景。一方面,单通道语音增强成本低,使用更加灵活便捷。另一方面,单通道语音增强无法利用到达角等空间信息,对于复杂场景,尤其是非平稳噪声场景,处理起来非常困难。
传统的语音增强的处理方法是建立在语音信号和噪声信号的统计分析之上的。一旦遇到不符合预期的统计特征,则语音增强的效果会减弱,或者降噪性能下降,或者语音失真增多。
传统的单通道语音增强技术基于两个假设,一是噪声信号的非平稳性比语音信号要弱,二是噪声信号和语音信号,其幅度都满足高斯分布。基于这些假设,参照图1,传统的单通道语音增强的方法分为两个步骤,一是噪声功率谱估计,二是语音增强增益计算。噪声功率谱估计根据当前带噪语音信号估计出当中可能包含的噪声,更新噪声功率谱。增益计算部分根据噪声功率谱估计先验信噪比,并计算增益。输入的带噪语音信号乘以计算出来的增益,就得到了增强后的语音信号。
传统方法在计算语音存在概率时,假设噪声信号和语音信号符合高斯分布。基于这个假设,然后使用贝叶斯后验概率公式能够计算出语音存在概率,是一个后验概率。然后使用语音存在概率估计噪声功率谱。这样就完成了噪声估计。
在增益计算部分,可以利用这个噪声功率估计先验信噪比和计算增益。先验信噪比的估计有判决引导法(DD),倒谱平滑,改进型的判决引导法,等等。增益计算有多种方法,分别是维纳(Wiener)滤波,最小均方误差估计(MMSE-STSA),对数域最小均方误差估计(MMSE-LogSTSA),以及最优对数幅度谱估计(OMLSA)。
最后将输入带噪语音信号乘以这个增益,就可以得到增强后的语音信号。传统的语音增强的处理方法是建立在语音信号和噪声信号的统计分析的基础之上。这些统计分析主要用于语音存在概率的估计。一旦遇到不符合预期的统计特征,比如一些非平稳噪声,则语音增强的效果会下降。
发明内容
本发明要解决的技术问题是为了克服现有技术中语音增强效果不佳的缺陷,提供一种结合AI模型的语音增强方法、系统、电子设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种结合AI模型的语音增强方法,包括以下步骤:
根据目标AI(人工智能)模型获取语音存在概率;
根据语音存在概率得到噪声功率;
根据噪声功率得到先验信噪比;
根据先验信噪比得到语音增强增益。
较佳地,在根据目标AI模型获取语音存在概率的步骤之前,结合AI模型的语音增强方法还包括以下步骤:
构建目标AI模型。
较佳地,构建目标AI模型的步骤包括:
将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号,并构建训练集,训练集的输入为带噪语音信号,训练集的输出为带噪语音信号的实际信噪比;
根据训练集对AI模型进行训练以得到目标AI模型,以均方误差作为AI模型训练的评价指标,均方误差为训练后验信噪比与实际信噪比的均方误差,训练后验信噪比根据训练噪声功率谱得到,训练噪声功率谱根据训练语音存在概率得到,训练语音存在概率为AI模型的输出。
较佳地,得到语音增强增益的步骤包括:
根据预设算法得到语音增强增益,预设算法包括Wiener(一种语音增强算法)、MMSE-STSA(一种语音增强算法)或MMSE-LogSTSA(一种语音增强算法)、OMLSA。
较佳地,AI模型包括LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(一种神经网络)。
本发明还提供一种语音增强系统,包括概率获取单元、噪声功率获取单元、信噪比获取单元、增益获取单元;
概率获取单元用于根据目标AI模型获取语音存在概率;
噪声功率获取单元用于根据语音存在概率得到噪声功率;
信噪比获取单元用于根据噪声功率得到先验信噪比;
增益获取单元用于根据先验信噪比得到语音增强增益。
较佳地,语音增强系统还包括模型构建单元;
模型构建单元用于构建目标AI模型。
较佳地,模型构建单元还用于:
将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号,并构建训练集,训练集的输入为带噪语音信号,训练集的输出为带噪语音信号的实际信噪比;
根据训练集对AI模型进行训练以得到目标AI模型,以均方误差作为AI模型训练的评价指标,均方误差为训练后验信噪比与实际信噪比的均方误差,训练后验信噪比根据训练噪声功率谱得到,训练噪声功率谱根据训练语音存在概率得到,训练语音存在概率为AI模型的输出。
较佳地,增益获取单元还用于:
根据预设算法得到语音增强增益,预设算法包括Wiener、MMSE-STSA、MMSE-LogSTSA、OMLSA。
较佳地,AI模型包括LSTM、GRU。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本发明的结合AI模型的语音增强方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的结合AI模型的语音增强方法的步骤。
本发明的积极进步效果在于:本发明可以在复杂嘈杂场景下改善语音的可懂度,也能提高关键词唤醒和语音识别功能的性能。
附图说明
图1为现有技术的语音增强的方法的流程图。
图2为本发明的实施例1的结合AI模型的语音增强方法的流程图。
图3为本发明的实施例2的结合AI模型的语音增强方法的流程图。
图4为本发明的实施例2的结合AI模型的语音增强方法的一种可选的实施方式的流程图。
图5为本发明的实施例3的结合AI模型的语音增强方法的系统的结构示意图。
图6为本发明的实施例4的结合AI模型的语音增强方法的系统的结构示意图。
图7为本发明的实施例5的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种结合AI模型的语音增强方法,包括以下步骤:
步骤S11、根据目标AI模型获取语音存在概率。
步骤S12、根据语音存在概率得到噪声功率。
步骤S13、根据噪声功率得到先验信噪比。
步骤S14、根据先验信噪比得到语音增强增益。
本实施例的结合AI模型的语音增强方法可以在复杂嘈杂场景下改善语音的可懂度,也能提高关键词唤醒和语音识别功能的性能。
实施例2
在实施例1的基础上,本实施例提供一种结合AI模型的语音增强方法,参照图3,在步骤S11之前,该结合AI模型的语音增强方法还包括以下步骤:
步骤S10、构建目标AI模型。
在步骤S10中,首先,将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号,并构建训练集,训练集的输入为带噪语音信号,训练集的输出为带噪语音信号的实际信噪比。然后,根据训练集对AI模型进行训练以得到目标AI模型,以均方误差作为AI模型训练的评价指标,均方误差为训练后验信噪比与实际信噪比的均方误差,训练后验信噪比根据训练噪声功率谱得到,训练噪声功率谱根据训练语音存在概率得到,训练语音存在概率为AI模型的输出。
将纯净语音信号和纯噪声信号,根据不同的比例混合,可以得到具有不同信噪比的带噪语音信号。混合得到的带噪语音信号作为训练集的输入,实际信噪比作为训练集的目标输出。AI模型的输出是语音存在概率,根据语音存在概率估计噪声功率谱并进一步估计后验信噪比。将估计的后验信噪比与计算的实际信噪比进行比较,计算均方误差,作为AI模型训练的评价指标。
具体实施时,在步骤S10中,信号是在频域进行处理的。在一种可选的实施方式中,参照图4,对于输入纯净语音信号s[t]和纯噪声信号n[t],都需要通过分帧加窗,然后使用傅里叶变换转换到频域。此时分别得到纯净语音信号的频谱S[k,n]和纯噪声信号的频谱N[k,n],其中k表示频点索引,n表示帧索引。根据不同的比例混合,可以得到具有不同信噪比的带噪语音信号X[k,n],信号混合的公式如下:
X[k,n]=a S[k,n]+(1-a)N[k,n],
其中系数a的范围为[0,1]。
信号混合之后,其实际信噪比为:
其中σx=E{|X[k,n]|2}是带噪语音信号方差,σn=E{|N[k,n]|2}是噪声信号方差。混合得到的带噪语音信号X[k,n]作为训练集的输入,实际信噪比γtruth[k,n]作为训练集的目标输出。
AI模型的输入是带噪语音的幅度谱,输出是语音存在概率P[k,n]。得到语音存在概率后,先计算平滑因子an[k,n],
an[k,n]=a0+(1-a0)P[k,n],
其中a0是一个固定值,取值范围[0.7,0.95]。
将估计的后验信噪比与计算的实际信噪比进行比较,计算均方误差MSE,作为AI模型训练的评价指标:
然后在步骤S11中,先将训练得到的目标AI模型参数导入。目标AI模型的输入是带噪语音的幅度谱,输出是语音存在概率P[k,n]。带噪语音的幅度谱由输入带噪声语音信号经过分帧加窗FFT之后计算得到。语音信号得到语音存在概率后,先计算平滑因子an[k,n],其中a0是一个固定值,取值范围[0.7,0.95],
an[k,n]=a0+(1-a0)P[k,n]。
使用判决引导法得到先验信噪比:
其中add是判决引导法的平滑因子,取值范围[0.9,0.98]。
在一种可选的实施方式中,增益计算采用Wiener(维纳增益)算法,其运算量最少,公式如下:
在第二中可选的实施方式中,增益计算采用结合语音存在概率的MMSE-LogSTSA增益估计,其降噪性能最优,其公式如下:
在第三种可选的实施方式种,采用GOMLSA[k,n]增益,其的噪声抑制和语音保真效果最好,其公式如下:
其中GLSA代表MMSE-LogSTSA增益:
在其他可选的实施方式中,增益的计算可采用MMSE-STSA等。
然后,输入的带噪语音信号经过分帧加窗FFT后乘以增益得到增强后的语音信号Y[k,n]:
Y[k,n]=X[k,n]*G[k,n]。该过程中,信号幅度乘增益,信号相位不变。
最后需要经过逆傅里叶变换(IFFT重叠相加),然后合成到时域信号y[t](增强语音信号)。
作为一种可选的实施方式,AI模型包括LSTM、GRU,但不限于LSTM、GRU。
本实施例的结合AI模型的语音增强方法是单通道的结合AI模型的语音增强方法,仅需要一个通道的语音幅度谱信息。本实施例的结合AI模型的语音增强方法既可以用在单麦克风的场景,也可以用在多麦克风阵列的后处理。因为其硬件条件限制较少,应用场景更加广泛。
本实施例的结合AI模型的语音增强方法使用神经网络对语音存在概率进行估计,得到语音存在概率之后,可以估计出噪声功率,先验信噪比,然后再计算输出增益。这样为后续的计算提供了更多的灵活性。比如在计算增益时,可以是维纳增益,也可以是OMLSA增益。而且还可以根据应用场景设置响应的参数,比如维纳增益和OMLSA增益都有参数可以设置降噪的程度。
本实施例的结合AI模型的语音增强方法使用LSTM和GRU作为AI模型的结构更适合语音增强这一类的时间序列问题,但并不仅限于LSTM和GRU。
本实施例的结合AI模型的语音增强方法是单通道语音增强,既可以用于单麦克风语音增强,也可以用于麦克风阵列后处理部分。除麦克风外,其他声电传感器也可以。比如骨传导技术,以及骨传导和麦克风的结合。
本实施例的结合AI模型的语音增强方法用于先验信噪比计算,使用的是判决引导法(DD),但并不仅限于判决引导法。其他方法,包括可变的判决引导法,倒谱平滑估计也是可以用的。
本实施例的结合AI模型的语音增强方法用于增益计算,使用的是GOMLSA,但并不限于GOMLSA。其他方法,包括维纳增益,MMSE-STSA增益,MMSE-LogSTSA增益,以及结合语音存在概率的MMSE-STSA增益都是可用的。
本实施例的结合AI模型的语音增强方法提出的参考值范围是得出实践得出的经验值,实际应用中并不以这些值作为限制。
本实施例的结合AI模型的语音增强方法使用的AI模型,是LSTM和GRU,但是并不局限这两种模型,其他DNN(一种神经网络),CNN(一种神经网络),CRNN(一种神经网络),GMM-HMM(一种神经网络),凡是基于机器学习,深度学习,为了得到语音存在概率的模型均可以作为本实施例的结合AI模型的语音增强方法种的AI模型。
实施例3
本实施例提供一种语音增强系统。参照图5,该语音增强系统包括概率获取单元21、噪声功率获取单元22、信噪比获取单元23、增益获取单元24。
概率获取单元21用于根据目标AI模型获取语音存在概率。噪声功率获取单元22用于根据语音存在概率得到噪声功率。信噪比获取单元23用于根据噪声功率得到先验信噪比。增益获取单元24用于根据先验信噪比得到语音增强增益。
本实施例的语音增强系统可以在复杂嘈杂场景下改善语音的可懂度,也能提高关键词唤醒和语音识别功能的性能。
实施例4
在实施例3的基础上,本实施例提供一种语音增强系统。参照图6,该语音增强系统还包括模型构建单元25;模型构建单元25用于构建目标AI模型。
具体实施时,模型构建单元25将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号,并构建训练集,训练集的输入为带噪语音信号,训练集的输出为带噪语音信号的实际信噪比;然后根据训练集对AI模型进行训练以得到目标AI模型,以均方误差作为AI模型训练的评价指标,均方误差为训练后验信噪比与实际信噪比的均方误差,训练后验信噪比根据训练噪声功率谱得到,训练噪声功率谱根据训练语音存在概率得到,训练语音存在概率为AI模型的输出。
作为一种可选的实施方式,模型构建单元25用于构建目标AI模型时,信号是在频域进行处理的。对于输入纯净语音信号s[t]和纯噪声信号n[t],都需要通过分帧加窗,然后使用傅里叶变换转换到频域。此时分别得到纯净语音信号的频谱S[k,n]和纯噪声信号的频谱N[k,n],其中k表示频点索引,n表示帧索引。根据不同的比例混合,可以得到具有不同信噪比的带噪语音信号X[k,n],信号混合的公式如下:
X[k,n]=a S[k,n]+(1-a)N[k,n],
其中系数a的范围为[0,1]。
信号混合之后,其实际信噪比为:
其中σx=E{|X[k,n]|2}是带噪语音信号方差,σn=E{|N[k,n]|2}是噪声信号方差。混合得到的带噪语音信号X[k,n]作为训练集的输入,实际信噪比γtruth[k,n]作为训练集的目标输出。
AI模型的输入是带噪语音的幅度谱,输出是语音存在概率P[k,n]。得到语音存在概率后,先计算平滑因子an[k,n],
an[k,n]=a0+(1-a0)P[k,n],
其中a0是一个固定值,取值范围[0.7,0.95]。
将估计的后验信噪比与计算的实际信噪比进行比较,计算均方误差,作为AI模型训练的评价指标:
然后,概率获取单元21根据目标AI模型获取语音存在概率。先将训练得到的目标AI模型参数导入。目标AI模型的输入是带噪语音的幅度谱,输出是语音存在概率P[k,n]。带噪语音的幅度谱由输入带噪声语音信号经过分帧加窗FFT之后计算得到。得到语音存在概率后,先计算平滑因子an[k,n],其中a0是一个固定值,取值范围[0.7,0.95],
an[k,n]=a0+(1-a0)P[k,n]。
使用判决引导法得到先验信噪比:
其中add是判决引导法的平滑因子,取值范围[0.9,0.98]。
在一种可选的实施方式中,增益计算采用Wiener(维纳增益)算法,其运算量最少,公式如下:
在第二中可选的实施方式中,增益计算采用结合语音存在概率的MMSE-LogSTSA增益估计,其降噪性能最优,其公式如下:
在第三种可选的实施方式种,采用GOMLSA[k,n]增益,其的噪声抑制和语音保真效果最好,其公式如下:
其中GLSA代表MMSE-LogSTSA增益:
在其他可选的实施方式中,增益的计算可采用MMSE-STSA等。
然后,输入的带噪语音信号经过分帧加窗FFT后乘以增益得到增强后的语音信号Y[k,n]:
Y[k,n]=X[k,n]*G[k,n]。该过程中,信号幅度乘增益,信号相位不变。
最后需要经过逆傅里叶变换(IFFT重叠相加),然后合成到时域信号y[t](增强语音信号)。
作为一种可选的实施方式,AI模型包括LSTM、GRU,但不限于LSTM、GRU。
本实施例的语音增强系统是单通道的语音增强系统,仅需要一个通道的语音幅度谱信息。本实施例的语音增强系统既可以用在单麦克风的场景,也可以用在多麦克风阵列的后处理。因为其硬件条件限制较少,应用场景更加广泛。
本实施例的语音增强系统使用神经网络对语音存在概率进行估计,得到语音存在概率之后,可以估计出噪声功率,先验信噪比,然后再计算输出增益。这样为后续的计算提供了更多的灵活性。比如在计算增益时,可以是维纳增益,也可以是OMLSA增益。而且还可以根据应用场景设置响应的参数,比如维纳增益和OMLSA增益都有参数可以设置降噪的程度。
本实施例的语音增强系统使用LSTM和GRU作为AI模型的结构更适合语音增强这一类的时间序列问题,但并不仅限于LSTM和GRU。
本实施例的语音增强系统是单通道语音增强,既可以用于单麦克风语音增强,也可以用于麦克风阵列后处理部分。除麦克风外,其他声电传感器也可以。比如骨传导技术,以及骨传导和麦克风的结合。
本实施例的语音增强系统用于先验信噪比计算,使用的是判决引导法(DD),但并不仅限于判决引导法。其他方法,包括可变的判决引导法,倒谱平滑估计也是可以用的。
本实施例的语音增强系统用于增益计算,使用的是GOMLSA,但并不限于GOMLSA。其他方法,包括维纳增益,MMSE-STSA增益,MMSE-LogSTSA增益,以及结合语音存在概率的MMSE-STSA增益都是可用的。
本实施例的语音增强系统提出的参考值范围是得出实践得出的经验值,实际应用中并不以这些值作为限制。
本实施例的语音增强系统使用的AI模型,是LSTM和GRU,但是并不局限这两种模型,其他DNN,CNN,CRNN,GMM-HMM,凡是基于机器学习,深度学习,为了得到语音存在概率的模型均可以作为本实施例的语音增强系统中的AI模型。
实施例5
图7为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。在一种可选的实施方式中,所述处理器执行所述程序时实现实施例1或实施例2的结合AI模型的语音增强方法。图7显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的结合AI模型的语音增强方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1或实施例2的结合AI模型的语音增强方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1或实施例2的结合AI模型的语音增强方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种结合AI模型的语音增强方法,其特征在于,包括以下步骤:
根据目标AI模型获取语音存在概率;
根据所述语音存在概率得到噪声功率;
根据所述噪声功率得到先验信噪比;
根据所述先验信噪比得到语音增强增益。
2.如权利要求1所述的结合AI模型的语音增强方法,其特征在于,在所述根据目标AI模型获取语音存在概率的步骤之前,所述结合AI模型的语音增强方法还包括以下步骤:
构建所述目标AI模型。
3.如权利要求2所述的结合AI模型的语音增强方法,其特征在于,所述构建所述目标AI模型的步骤包括:
将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号,并构建训练集,所述训练集的输入为所述带噪语音信号,所述训练集的输出为所述带噪语音信号的实际信噪比;
根据所述训练集对AI模型进行训练以得到所述目标AI模型,以均方误差作为所述AI模型训练的评价指标,所述均方误差为训练后验信噪比与所述实际信噪比的均方误差,所述训练后验信噪比根据训练噪声功率谱得到,所述训练噪声功率谱根据训练语音存在概率得到,所述训练语音存在概率为所述AI模型的输出。
4.如权利要求2所述的结合AI模型的语音增强方法,其特征在于,得到语音增强增益的步骤包括:
根据预设算法得到所述语音增强增益,所述预设算法包括Wiener、MMSE-STSA、MMSE-LogSTSA、OMLSA。
5.如权利要求3所述的结合AI模型的语音增强方法,其特征在于,所述AI模型包括LSTM、GRU。
6.一种语音增强系统,其特征在于,包括概率获取单元、噪声功率获取单元、信噪比获取单元、增益获取单元;
所述概率获取单元用于根据目标AI模型获取语音存在概率;
所述噪声功率获取单元用于根据所述语音存在概率得到噪声功率;
所述信噪比获取单元用于根据所述噪声功率得到先验信噪比;
所述增益获取单元用于根据所述先验信噪比得到语音增强增益。
7.如权利要求6所述的语音增强系统,其特征在于,所述语音增强系统还包括模型构建单元;
所述模型构建单元用于构建所述目标AI模型。
8.如权利要求7所述的语音增强系统,其特征在于,所述模型构建单元还用于:
将纯净语音信号和纯噪声信号根据若干预设比例混合以得到若干带噪语音信号,并构建训练集,所述训练集的输入为所述带噪语音信号,所述训练集的输出为所述带噪语音信号的实际信噪比;
根据所述训练集对AI模型进行训练以得到所述目标AI模型,以均方误差作为所述AI模型训练的评价指标,所述均方误差为训练后验信噪比与所述实际信噪比的均方误差,所述训练后验信噪比根据训练噪声功率谱得到,所述训练噪声功率谱根据训练语音存在概率得到,所述训练语音存在概率为所述AI模型的输出。
9.如权利要求7所述的语音增强系统,其特征在于,所述增益获取单元还用于:
根据预设算法得到所述语音增强增益,所述预设算法包括Wiener、MMSE-STSA、MMSE-LogSTSA、OMLSA。
10.如权利要求8所述的语音增强系统,其特征在于,所述AI模型包括LSTM、GRU。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的结合AI模型的语音增强方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的结合AI模型的语音增强方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173740.0A CN111445919B (zh) | 2020-03-13 | 2020-03-13 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
PCT/CN2020/088399 WO2021179424A1 (zh) | 2020-03-13 | 2020-04-30 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173740.0A CN111445919B (zh) | 2020-03-13 | 2020-03-13 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111445919A true CN111445919A (zh) | 2020-07-24 |
CN111445919B CN111445919B (zh) | 2023-01-20 |
Family
ID=71650507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010173740.0A Active CN111445919B (zh) | 2020-03-13 | 2020-03-13 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111445919B (zh) |
WO (1) | WO2021179424A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112289337A (zh) * | 2020-11-03 | 2021-01-29 | 北京声加科技有限公司 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
CN112349277A (zh) * | 2020-09-28 | 2021-02-09 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
CN113205824A (zh) * | 2021-04-30 | 2021-08-03 | 紫光展锐(重庆)科技有限公司 | 声音信号处理方法、装置、存储介质、芯片及相关设备 |
CN113823312A (zh) * | 2021-02-19 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
CN115294983A (zh) * | 2022-09-28 | 2022-11-04 | 科大讯飞股份有限公司 | 一种自主移动设备唤醒方法、系统及基站 |
CN116403594A (zh) * | 2023-06-08 | 2023-07-07 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559887A (zh) * | 2013-11-04 | 2014-02-05 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN109473118A (zh) * | 2018-12-24 | 2019-03-15 | 苏州思必驰信息科技有限公司 | 双通道语音增强方法及装置 |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN110164467A (zh) * | 2018-12-18 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音降噪的方法和装置、计算设备和计算机可读存储介质 |
CN110335619A (zh) * | 2019-04-30 | 2019-10-15 | 同方电子科技有限公司 | 一种基于机通平台的语音增强算法 |
EP3866165A1 (en) * | 2020-02-14 | 2021-08-18 | System One Noc & Development Solutions, S.A. | Method for enhancing telephone speech signals based on convolutional neural networks |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6782362B1 (en) * | 2000-04-27 | 2004-08-24 | Microsoft Corporation | Speech recognition method and apparatus utilizing segment models |
CN109979478A (zh) * | 2019-04-08 | 2019-07-05 | 网易(杭州)网络有限公司 | 语音降噪方法及装置、存储介质及电子设备 |
CN110390950B (zh) * | 2019-08-17 | 2021-04-09 | 浙江树人学院(浙江树人大学) | 一种基于生成对抗网络的端到端语音增强方法 |
CN110634500B (zh) * | 2019-10-14 | 2022-05-31 | 达闼机器人股份有限公司 | 一种先验信噪比的计算方法、电子设备及存储介质 |
CN110739005B (zh) * | 2019-10-28 | 2022-02-01 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
-
2020
- 2020-03-13 CN CN202010173740.0A patent/CN111445919B/zh active Active
- 2020-04-30 WO PCT/CN2020/088399 patent/WO2021179424A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559887A (zh) * | 2013-11-04 | 2014-02-05 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN110164467A (zh) * | 2018-12-18 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音降噪的方法和装置、计算设备和计算机可读存储介质 |
CN109473118A (zh) * | 2018-12-24 | 2019-03-15 | 苏州思必驰信息科技有限公司 | 双通道语音增强方法及装置 |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN110335619A (zh) * | 2019-04-30 | 2019-10-15 | 同方电子科技有限公司 | 一种基于机通平台的语音增强算法 |
EP3866165A1 (en) * | 2020-02-14 | 2021-08-18 | System One Noc & Development Solutions, S.A. | Method for enhancing telephone speech signals based on convolutional neural networks |
Non-Patent Citations (2)
Title |
---|
SHLOMO E. CHAZAN等: "A PHONEME-BASED PRE-TRAINING APPROACH FOR DEEP NEURAL NETWORK WITH APPLICATION TO SPEECH ENHANCEMENT", 《2016 IEEE INTERNATIONAL WORKSHOP ON ACOUSTIC SIGNAL ENHANCEMENT (IWAENC)》 * |
何鑫 等: "一种语音增强中新的噪声预估计算法", 《通信技术》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112349277A (zh) * | 2020-09-28 | 2021-02-09 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
WO2022063215A1 (zh) * | 2020-09-28 | 2022-03-31 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
CN112349277B (zh) * | 2020-09-28 | 2023-07-04 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
CN112289337B (zh) * | 2020-11-03 | 2023-09-01 | 北京声加科技有限公司 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
CN112289337A (zh) * | 2020-11-03 | 2021-01-29 | 北京声加科技有限公司 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
CN113823312A (zh) * | 2021-02-19 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
CN113823312B (zh) * | 2021-02-19 | 2023-11-07 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
CN113205824A (zh) * | 2021-04-30 | 2021-08-03 | 紫光展锐(重庆)科技有限公司 | 声音信号处理方法、装置、存储介质、芯片及相关设备 |
CN113205824B (zh) * | 2021-04-30 | 2022-11-11 | 紫光展锐(重庆)科技有限公司 | 声音信号处理方法、装置、存储介质、芯片及相关设备 |
CN115294983A (zh) * | 2022-09-28 | 2022-11-04 | 科大讯飞股份有限公司 | 一种自主移动设备唤醒方法、系统及基站 |
CN116403594B (zh) * | 2023-06-08 | 2023-08-18 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
CN116403594A (zh) * | 2023-06-08 | 2023-07-07 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111445919B (zh) | 2023-01-20 |
WO2021179424A1 (zh) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445919B (zh) | 结合ai模型的语音增强方法、系统、电子设备和介质 | |
CN107393550B (zh) | 语音处理方法及装置 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
CN110634497B (zh) | 降噪方法、装置、终端设备及存储介质 | |
US11024324B2 (en) | Methods and devices for RNN-based noise reduction in real-time conferences | |
US7103541B2 (en) | Microphone array signal enhancement using mixture models | |
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
WO2020125376A1 (zh) | 语音降噪的方法和装置、计算设备和计算机可读存储介质 | |
US9536538B2 (en) | Method and device for reconstructing a target signal from a noisy input signal | |
US20040230428A1 (en) | Method and apparatus for blind source separation using two sensors | |
US9548064B2 (en) | Noise estimation apparatus of obtaining suitable estimated value about sub-band noise power and noise estimating method | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
US10839820B2 (en) | Voice processing method, apparatus, device and storage medium | |
CN107360497B (zh) | 估算混响分量的计算方法及装置 | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
EP4189677B1 (en) | Noise reduction using machine learning | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
CN107346658B (zh) | 混响抑制方法及装置 | |
CN107393553B (zh) | 用于语音活动检测的听觉特征提取方法 | |
CN112712818A (zh) | 语音增强方法、装置、设备 | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
Techini et al. | Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |