CN111696567B - 用于远场通话的噪声估计方法及系统 - Google Patents
用于远场通话的噪声估计方法及系统 Download PDFInfo
- Publication number
- CN111696567B CN111696567B CN202010537069.3A CN202010537069A CN111696567B CN 111696567 B CN111696567 B CN 111696567B CN 202010537069 A CN202010537069 A CN 202010537069A CN 111696567 B CN111696567 B CN 111696567B
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- speech
- noisy
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims abstract description 187
- 238000012549 training Methods 0.000 claims abstract description 82
- 230000009467 reduction Effects 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 58
- 238000013135 deep learning Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims description 60
- 238000010606 normalization Methods 0.000 claims description 32
- 230000000873 masking effect Effects 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 238000012805 post-processing Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供一种用于远场通话的噪声估计和语音降噪方法。该方法包括:通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及带噪训练语音集合内各带噪训练语音的基准噪声频谱;基于设备的性能,选择噪声频谱估计模型的类型;提取各带噪训练语音的语音特征,将语音特征作为噪声频谱估计模型的输入;将语音特征进行特征处理后,对噪声频谱估计模型进行深度学习训练,直至噪声频谱估计模型输出的估计噪声频谱向基准噪声频谱收敛,以用于估计远场通话的噪声。本发明实施例还提供一种用于远场通话的噪声估计和语音降噪系统。本发明实施例将深度学习和信号处理相结合,显著提升通话质量,如语音清晰度、可懂度等。
Description
技术领域
本发明涉及语音降噪领域,尤其涉及一种用于远场通话的噪声估计方法及系统和用于远场通话的语音降噪方法及系统。
背景技术
为了提高耳机、手机、会议设备的通话效果,通常会进行通话降噪。例如:单麦克风方案(常见于耳机/手机):通过噪声频谱估计,求得后验/先验信噪比,随后进行谱减、维纳、统计模型等方法求得降噪结果。麦克风阵列方案(常见于耳机/手机/会议系统):1、求得DOA(direction of arrival,波达方向)后,利用得到的角度信息进行特定方向的波束形成语音增强,如FB(fixed beamforming,固定波束形成)、GSC(generalized sidelobecancellation,广义旁瓣抑制器)等;2、不需要直接的DOA角度信息,利用BSS(blind sourceseparation,盲源分离)、MWF(multichannel wiener filter,多通道维纳滤波)、MVDR(minimum variance distortionless response,最小方差无失真响应)等多通道信号处理。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
单麦克风方案、MWF、MVDR等麦克风阵列方案均需要噪声估计模块,但传统的噪声估计算法存在估计不准的情况,无法准确和及时地估得突变的非平稳噪声。因为传统的噪声估计算法,如最小值跟踪算法、时间递归平均算法、基于直方图算法等,均基于假设:分析时间段内的噪声比语音更为平稳,即噪声变化速率比语音慢,因此无法准确和及时地估得突变的非平稳噪声。
存在单点/多点/散射噪声干扰的情况下,DOA角度可能偏离真实的说话人方向,导致波束形成算法的增强效果不佳。因为噪声情况下,语音信噪比降低影响相关矩阵,从而求得的信号和噪声子空间与准确值存在偏差,导致计算出的DOA角度发生偏差。
发明内容
为了至少解决现有技术中传统的噪声估计算法无法准确和及时地估得突变的非平稳噪声,存在噪声干扰的情况下,角度发生偏差,降噪效果较差的问题。
第一方面,本发明实施例提供一种用于远场通话的噪声估计方法,包括:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。
第二方面,本发明实施例提供一种用于远场通话的语音降噪方法,包括:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。
第三方面,本发明实施例提供一种用于远场通话的噪声估计系统,包括:模型优化模块,用于:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。
第四方面,本发明实施例提供一种用于远场通话的语音降噪系统,包括:
模型优化模块,用于:
-通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
-基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
-提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
-将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
客户端:用于:
-接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
-将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。
本发明实施例的有益效果在于:深度学习和信号处理相结合,利用深度学习进行模型训练,模型用来进行噪声频谱估计,深度学习模型估计噪声的准确性优于传统的噪声估计算法,再结合传统多通道信号处理,得到增强后语音,显著提升通话质量,如语音清晰度、可懂度等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于远场通话的噪声估计方法的流程图;
图2是本发明一实施例提供的一种用于远场通话的语音降噪方法的流程图;
图3是本发明一实施例提供的一种用于远场通话的语音降噪方法的结构图;
图4是本发明一实施例提供的一种用于远场通话的噪声估计系统的结构示意图;
图5是本发明一实施例提供的一种用于远场通话的语音降噪系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于远场通话的噪声估计方法的流程图,包括如下步骤:
S11:通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
S12:基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
S13:提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
S14:将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。
对于步骤S11,收集近场纯净语音(如专业录音棚录制)和各种噪声场景下的纯噪声(不包含语音)数据。然后,将近场纯净语音通过大量不同的空间冲激响应、空间频率响应调制,将其调整为远场纯净语音。
再通过设定的信噪比范围,与各种噪声进行叠加处理得到带噪语音。在加噪处理的同时可以得到噪声频谱的分布情况,通常选用噪声掩蔽值G或者幅度谱Anoise,作为模型训练的标签。
对于步骤S12,由于一些设备比如可便携设备(耳机、手表等)的运算能力和存储空间相对有限,需要结合实际情况确定模型类型和大小。模型的类型可选择的比较多,例如,
DNN(deep neural networks,深度神经网络)、CNN(convolutional neuralnetworks,卷积神经网络)、LSTM(long short term memory,长短时记忆神经网络)、FSMN(feedforward sequential memory networks,前馈序列神经网络)、RNN(reccurrentneural networks,递归神经网络)等一种或多种的组合。
对于步骤S13,通过提取带噪语音的语音特征,如FFT频点/子带、梅尔域/Bark域Fbank、MFCC、LPC、基音等一种特征或多种特征的组合,可以根据不同需求提取不同的语音特征,语音特征也不限于上述这几种,作为模型训练的输入。
对于步骤S14,因为语音存在时间上的连续性,所以对语音特征做前后拼帧处理后模型效果会有提升。但向后拼帧会带来延时问题,在通话场景中延时希望越小越好,因此可以向前拼的帧数多一些,向后拼的少一些。比如在人耳无法感知的范围内,可适当存在一定的延时,通常在几十毫秒以内。比如帧移10ms,向前拼5帧,当前1帧,向后拼1帧,得到共计7帧的特征输入。此时的通话延时为信号处理重叠相加的1帧以及向后拼的1帧,共计2帧20ms,该延时较小,不会造成听感上的明显差异或者影响双讲情况。
此外,模型还可选择对输入特征是否做CMVN(cepstral mean and variancenormalization,特征均值方差归一化),开启后模型对输入数据的绝对幅度不敏感,有利于模型收敛,也有利于远场小幅度的语音。
通常,在前后拼帧后进行均值方差归一化处理,可以显著提高模型效果。
最后,经过各种深度学习工具,进行大量数据(通常1000~2000小时以上)的模型训练,多轮迭代后模型达到收敛。收敛后的模型对各种场景/类型的噪声频谱具有准确的估计能力,估出的噪声频谱可供后面的降噪算法使用。
通过该实施方式可以看出,利用前后拼帧、均值方差归一化等处理提升模型噪声估计,利用深度模型进一步提高噪声估计的效果。
如图2所示为本发明一实施例提供的一种用于远场通话的语音降噪方法的流程图,包括如下步骤:
S21:通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
S22:基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
S23:提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
S24:将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
S25:接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
S26:将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。
在本实施方式中,由于步骤S21-S24与S11-S14相同,再此不再赘述。
对于步骤S25,考虑到DOA相关方案与DOA准确度密切相关,噪声场景DOA准确度明显下降,因此采用MWF、MVDR等这类非直接DOA的多通道降噪方案。多通道降噪算法需要计算每个通道的噪声频谱、带噪语谱,求得协方差矩阵后通过相应计算得到每个通道的权值/滤波器系数,最终卷积带噪语音得到降噪语音。其中,带噪语谱是已知的,关键的是要得到准确的噪声频谱。相比传统的噪声估计算法(如最小值跟踪算法、时间递归平均算法、基于直方图算法等均基于假设:分析时间段内的噪声比语音更为平稳,即噪声变化速率比语音慢),深度学习模型可以更为准确和实时地得到噪声频谱,尤其针对突变非平稳类的噪声,如乐器/音乐、键盘敲击声、开关门等。
例如有一个m个麦克风设备,其可以抓取m个通道原始带噪音频。计算这m个通道每一帧的特征(该特征和模型训练时保持完全一致,如频率范围、维数、预加重等处理),然后根据模型训练时是否拼帧、具体拼帧方法、是否开启CMVN等,对特征进行处理后输入模型,模型前向计算得到每一帧每一个频点上的噪声掩蔽值Gtif或幅度谱Atif,比如t=10,20…ms;i=1,2…m;f=0,50,100…8000Hz。
作为一种实施方式,所述噪声频谱估计模型输出所述多通道带噪对话语音中各个通道的噪声频谱;
基于预设规则从所述各个通道的噪声频谱中选取有效噪声频谱,其中,所述预设规则包括最大值max()、最小值min()、平均值avg(),其中,基于所述最小值min()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的语音失真度,优于所述最大值max()、所述平均值avg()。
基于所述最大值max()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的噪声抑制程度,优于所述最小值min()、所述平均值avg()。
在本实施方式中,对于同一时刻(如t=10ms时),m个通道每一个频点上的噪声掩蔽值或者幅度谱可以做取最大值max(Gtif或Atif)、最小值min(Gtif或Atif)、平均值、不做处理(即每个通道可能有所差异)等操作。通常,取最小值操作最终降噪语音的可懂度略好于其他方式,因为远场语音信噪比较低,取最小值可以保证语音最大程度被保留,降噪后的语音失真度最小。
将每个通道带噪语谱及模型前向求得的噪声频谱(如果是噪声掩蔽值Gtif,Gtif乘以带噪语谱即为噪声频谱;如果是噪声幅度Atif,Atif乘以带噪语谱的相位谱即为噪声频谱)传给多通道降噪模块,即可得到最终的降噪音频。简易结构图如图3所示,其中,前端处理模块,是指回声消除、去混响、盲源分离、波束形成等这些操作,前面涉及的拼帧、归一化等特征处理包含在“深度学习模块”里。
通过该实施方式可以看出,深度学习和信号处理相结合,利用深度学习进行模型训练,模型用来进行噪声频谱估计,深度学习模型估计噪声的准确性优于传统的噪声估计算法,再结合传统多通道信号处理,得到增强后语音,显著提升通话质量,如语音清晰度、可懂度等。
作为一种实施方式,在本实施例中,在所述获得降噪对话语音之后,所述方法还包括:
基于所述降噪对话语音以及所述多通道带噪对话语音确定各个通道的后验信噪比;
选取所述后验信噪比最大的通道对应的掩蔽值,确定为后处理掩蔽值;
基于所述后处理掩蔽值对所述降噪对话语音进行二次降噪,以确保降噪效果和语音失真的平衡。
在本实施方式中,在多通道降噪模块后,通过降噪音频和多通道的原始带噪音频可以求得每一帧每个通道的后验信噪比(比如全/部分频段信噪比求和),然后选取后验信噪比最大的那一通道对应的掩蔽值作为后处理掩蔽值Gpost。该后处理掩蔽值乘在降噪音频上可以得到二次降噪的音频。通常,对后处理掩蔽值加一个下限值能够保证降噪和语音失真度之间的相对平衡。下限值指:低于下限值的后处理掩蔽值将赋值为下限值,如下限值为0.3,则小于0.3的频点掩蔽值令其等于0.3。通常,下限值设为0.1~0.5之间效果较好,下限值过小可能引起语音失真,下限值过大则相当于没有后处理效果,增加了计算量却没带来效果提升。
通过该实施方式可以看出,对获得的降噪对话语音二次降噪后,进一步提升降噪效果,确保降噪和语音失真度之间的相对平衡。
作为一种实施方式,在所述接收用户输入的多通道带噪对话语音之后,所述方法还包括:
对所述多通道带噪对话语音进行回声消除、去混响、盲源分离、波束形成等,用于提高所述多通道带噪对话语音的信噪比。
在本实施方式中,带噪音频在输入深度学习模型前,可以做一些前端处理以提升语音信噪比,最终提升整体效果。比如m通道带噪音频可以先经过BSS或GSC得到n(1<n≤m且为正整数)通道输出,然后对n通道输出提取特征后分别输入模型做前向计算得到n通道每一帧的噪声掩蔽值Gtif或幅度谱Atif,比如t=10,20…ms;i=1,2…n;f=0,50,100…8000Hz。同样的,可以做取最大值、最小值等操作。这里,推荐采用取最小值的操作,因为BSS会将噪声和语音分离到不同输出通道上,GSC能够提升说话方向的语音信噪比,为保证语音失真度尽可能小,通常采用最小值效果较好。然后将得到的噪声频谱(如果是噪声掩蔽值Gtif,Gtif乘以带噪语谱即为噪声频谱;如果是噪声幅度Atif,Atif乘以带噪语谱的相位谱即为噪声频谱)输入后续的多通道降噪模块。通常,在设备运算能力允许的情况下,选用BSS或GSC能够提升送模型前音频的信噪比,从而提升模型输出结果的准确性,有利于最终降噪音频语音的失真度,提升语音清晰度和可懂度。
如图4所示为本发明一实施例提供的一种用于远场通话的噪声估计系统的结构示意图,该系统可执行上述任意实施例所述的用于远场通话的噪声估计方法,并配置在终端中。
本实施例提供的一种用于远场通话的噪声估计系统包括:模型优化模块11,用于:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于远场通话的噪声估计方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。
如图5所示为本发明一实施例提供的一种用于远场通话的语音降噪系统的结构示意图,该系统可执行上述任意实施例所述的用于远场通话的语音降噪方法,并配置在终端中。
本实施例提供的一种用于远场通话的语音降噪系统包括:
模型优化模块21,用于:
-通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
-基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
-提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
-将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
客户端22:用于:
-接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
-将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于远场通话的语音降噪方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于远场通话的噪声估计方法以及用于远场通话的语音降噪方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于远场通话的噪声估计方法以及用于远场通话的语音降噪方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用于远场通话的噪声估计方法,包括:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。
2.一种用于远场通话的语音降噪方法,包括:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。
3.根据权利要求2所述的方法,其中,所述提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型包括:
所述噪声频谱估计模型输出所述多通道带噪对话语音中各个通道的噪声频谱;
基于预设规则从所述各个通道的噪声频谱中选取有效噪声频谱,其中,所述预设规则包括最大值max()、最小值min()、平均值avg(),其中,基于所述最小值min()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的语音失真度,优于所述最大值max()、所述平均值avg();
基于所述最大值max()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的噪声抑制程度,优于所述最小值min()、所述平均值avg()。
4.根据权利要求2所述的方法,其中,在所述获得降噪对话语音之后,所述方法还包括:
基于所述降噪对话语音以及所述多通道带噪对话语音确定各个通道的后验信噪比;
选取所述后验信噪比最大的通道对应的掩蔽值,确定为后处理掩蔽值;
基于所述后处理掩蔽值对所述降噪对话语音进行二次降噪,以确保降噪效果和语音失真的平衡。
5.根据权利要求2所述的方法,其中,在所述接收用户输入的多通道带噪对话语音之后,所述方法还包括:
对所述多通道带噪对话语音进行回声消除、去混响、盲源分离、波束形成处理,用于提高所述多通道带噪对话语音的信噪比。
6.一种用于远场通话的噪声估计系统,包括:模型优化模块,用于:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。
7.一种用于远场通话的语音降噪系统,包括:
模型优化模块,用于:
-通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
-基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
-提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种之一或至少两种的组合;
-将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
客户端:用于:
-接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
-将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。
8.根据权利要求7所述的系统,其中,所述客户端还用于:
所述噪声频谱估计模型输出所述多通道带噪对话语音中各个通道的噪声频谱;
基于预设规则从所述各个通道的噪声频谱中选取有效噪声频谱,其中,所述预设规则包括最大值max()、最小值min()、平均值avg(),其中,基于所述最小值min()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的语音失真度,优于所述最大值max()、所述平均值avg();
基于所述最大值max()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的噪声抑制程度,优于所述最小值min()、所述平均值avg()。
9.根据权利要求7所述的系统,其中,所述客户端还用于:
基于所述降噪对话语音以及所述多通道带噪对话语音确定各个通道的后验信噪比;
选取所述后验信噪比最大的通道对应的掩蔽值,确定为后处理掩蔽值;
基于所述后处理掩蔽值对所述降噪对话语音进行二次降噪,以确保降噪效果和语音失真的平衡。
10.根据权利要求7所述的系统,其中,所述客户端还用于:
对所述多通道带噪对话语音进行回声消除、去混响、盲源分离、波束形成处理,用于提高所述多通道带噪对话语音的信噪比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537069.3A CN111696567B (zh) | 2020-06-12 | 2020-06-12 | 用于远场通话的噪声估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537069.3A CN111696567B (zh) | 2020-06-12 | 2020-06-12 | 用于远场通话的噪声估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696567A CN111696567A (zh) | 2020-09-22 |
CN111696567B true CN111696567B (zh) | 2022-04-01 |
Family
ID=72480822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010537069.3A Active CN111696567B (zh) | 2020-06-12 | 2020-06-12 | 用于远场通话的噪声估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696567B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185408B (zh) * | 2020-10-10 | 2024-05-03 | Oppo广东移动通信有限公司 | 音频降噪方法、装置、电子设备以及存储介质 |
CN112992170B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN113270097B (zh) * | 2021-05-18 | 2022-05-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN117711417B (zh) * | 2024-02-05 | 2024-04-30 | 武汉大学 | 一种基于频域自注意力网络的语音质量增强方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100861653B1 (ko) * | 2007-05-25 | 2008-10-02 | 주식회사 케이티 | 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법 |
CN103167197A (zh) * | 2011-12-19 | 2013-06-19 | 中兴通讯股份有限公司 | 一种共享音频降噪和消回音功能的方法和终端 |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN109087664A (zh) * | 2018-08-22 | 2018-12-25 | 中国科学技术大学 | 语音增强方法 |
CN110012331A (zh) * | 2019-04-11 | 2019-07-12 | 杭州微纳科技股份有限公司 | 一种红外触发的远场双麦远场语音识别方法 |
CN110148420A (zh) * | 2019-06-30 | 2019-08-20 | 桂林电子科技大学 | 一种适用于噪声环境下的语音识别方法 |
CN110544485A (zh) * | 2019-09-27 | 2019-12-06 | 慧言科技(天津)有限公司 | 一种利用cnn的se-ed网络进行远场语音去混响的方法 |
CN110782884A (zh) * | 2019-10-28 | 2020-02-11 | 歌尔股份有限公司 | 远场拾音噪声处理方法、装置、设备及存储介质 |
CN110875054A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种远场噪声抑制方法、装置和系统 |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9866955B2 (en) * | 2013-08-23 | 2018-01-09 | Google Llc | Enhancement of intelligibility in noisy environment |
US20180366127A1 (en) * | 2017-06-14 | 2018-12-20 | Intel Corporation | Speaker recognition based on discriminant analysis |
-
2020
- 2020-06-12 CN CN202010537069.3A patent/CN111696567B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100861653B1 (ko) * | 2007-05-25 | 2008-10-02 | 주식회사 케이티 | 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법 |
CN103167197A (zh) * | 2011-12-19 | 2013-06-19 | 中兴通讯股份有限公司 | 一种共享音频降噪和消回音功能的方法和终端 |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN109087664A (zh) * | 2018-08-22 | 2018-12-25 | 中国科学技术大学 | 语音增强方法 |
CN110875054A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种远场噪声抑制方法、装置和系统 |
CN110012331A (zh) * | 2019-04-11 | 2019-07-12 | 杭州微纳科技股份有限公司 | 一种红外触发的远场双麦远场语音识别方法 |
CN110148420A (zh) * | 2019-06-30 | 2019-08-20 | 桂林电子科技大学 | 一种适用于噪声环境下的语音识别方法 |
CN110544485A (zh) * | 2019-09-27 | 2019-12-06 | 慧言科技(天津)有限公司 | 一种利用cnn的se-ed网络进行远场语音去混响的方法 |
CN110782884A (zh) * | 2019-10-28 | 2020-02-11 | 歌尔股份有限公司 | 远场拾音噪声处理方法、装置、设备及存储介质 |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
Non-Patent Citations (2)
Title |
---|
一种远场语音信号去噪算法研究与实现;唐军华 等;《电子科技》;20140815;第27卷(第8期);第144-146页 * |
基于语音增强的远场说话人识别技术;覃晓逸 等;《网络新媒体技术》;20190731;第8卷(第4期);第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111696567A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696567B (zh) | 用于远场通话的噪声估计方法及系统 | |
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
CN109686381B (zh) | 用于信号增强的信号处理器和相关方法 | |
CN111489760B (zh) | 语音信号去混响处理方法、装置、计算机设备和存储介质 | |
CN112017681B (zh) | 定向语音的增强方法及系统 | |
US9438992B2 (en) | Multi-microphone robust noise suppression | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
US7383178B2 (en) | System and method for speech processing using independent component analysis under stability constraints | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
US8606573B2 (en) | Voice recognition improved accuracy in mobile environments | |
US20160240210A1 (en) | Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition | |
US20100217590A1 (en) | Speaker localization system and method | |
Xiao et al. | The NTU-ADSC systems for reverberation challenge 2014 | |
US20090248411A1 (en) | Front-End Noise Reduction for Speech Recognition Engine | |
US8761410B1 (en) | Systems and methods for multi-channel dereverberation | |
EP3275208B1 (en) | Sub-band mixing of multiple microphones | |
Sadjadi et al. | Blind spectral weighting for robust speaker identification under reverberation mismatch | |
US10937418B1 (en) | Echo cancellation by acoustic playback estimation | |
KR102316712B1 (ko) | 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
Koldovský et al. | Noise reduction in dual-microphone mobile phones using a bank of pre-measured target-cancellation filters | |
Yu et al. | NeuralEcho: A self-attentive recurrent neural network for unified acoustic echo suppression and speech enhancement | |
Bando et al. | Weakly-Supervised Neural Full-Rank Spatial Covariance Analysis for a Front-End System of Distant Speech Recognition. | |
CN115620739A (zh) | 指定方向的语音增强方法及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |