CN113450816A - 一种基于深度神经网络的语音主动降噪方法 - Google Patents

一种基于深度神经网络的语音主动降噪方法 Download PDF

Info

Publication number
CN113450816A
CN113450816A CN202110666518.9A CN202110666518A CN113450816A CN 113450816 A CN113450816 A CN 113450816A CN 202110666518 A CN202110666518 A CN 202110666518A CN 113450816 A CN113450816 A CN 113450816A
Authority
CN
China
Prior art keywords
voice data
training
noise reduction
rnn
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110666518.9A
Other languages
English (en)
Inventor
胡程远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Sanen Information Technology Co ltd
Original Assignee
Hefei Sanen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Sanen Information Technology Co ltd filed Critical Hefei Sanen Information Technology Co ltd
Priority to CN202110666518.9A priority Critical patent/CN113450816A/zh
Publication of CN113450816A publication Critical patent/CN113450816A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供一种基于深度神经网络的语音主动降噪方法,包括如下步骤:步骤1:采集待降噪的语音数据,并对语音数据进行预处理;步骤2:构建初始RNN音频降噪模型;步骤3:获取训练语音数据,并通过训练语音数据训练初始RNN音频降噪模型;步骤4:通过训练完成的RNN音频降噪模型对待降噪的语音数据进行降噪,得到降噪后的语音数据;本发明使得训练数量将会大大减少,加快了训练速度,既保持了良好的降噪性能,又可以进行实时降噪。

Description

一种基于深度神经网络的语音主动降噪方法
技术领域
本发明涉及语音降噪技术领域,具体为一种基于深度神经网络的语音主动降噪方法。
背景技术
深度神经网络是机器学习(ML,Machine Learning)领域中一种技术。
在监督学习中,以前的多层神经网络的问题是容易陷入局部极值点。如果训练样本足够充分覆盖未来的样本,那么学到的多层权重可以很好的用来预测新的测试样本。但是很多任务难以得到足够多的标记样本,在这种情况下,简单的模型,比如线性回归或者决策树往往能得到比多层神经网络更好的结果(更好的泛化性,更差的训练误差)。非监督学习中,以往没有有效的方法构造多层网络。多层神经网络的顶层是底层特征的高级表示,比如底层是像素点,上一层的结点可能表示横线,三角;而顶层可能有一个结点表示人脸。一个成功的算法应该能让生成的顶层特征最大化的代表底层的样例。如果对所有层同时训练,时间复杂度会太高;如果每次训练一层,偏差就会逐层传递。这会面临跟上面监督学习中相反的问题,会严重欠拟合。
现有的基于深度神经网络降噪的方法中降噪实现途径多样,但是困难的部分大多数是为了应对各种噪音就需要仔细的调整算法中的各个系数,针对各种场景进行大量和特殊情形的测试,使其始终保持良好的性能,导致降噪不能进行实时降噪。
发明内容
本发明要解决的技术问题是克服现有的缺陷,提供一种基于深度神经网络的语音主动降噪方法,以解决上述技术背景中困难的部分大多数是为了应对各种噪音就需要仔细的调整算法中的各个系数,针对各种场景进行大量和特殊情形的测试,使其始终保持良好的性能,导致降噪不能进行实时降噪的缺点。
为实现上述目的,本发明提供如下技术方案:一种基于深度神经网络的语音主动降噪方法,包括如下步骤:
步骤1:采集待降噪的语音数据,并对语音数据进行预处理;
步骤2:构建初始RNN音频降噪模型;
步骤3:获取训练语音数据,并通过训练语音数据训练初始RNN音频降噪模型;
步骤4:通过训练完成的RNN音频降噪模型对待降噪的语音数据进行降噪,得到降噪后的语音数据。
所述步骤1中,所述预处理包括语音的采样、量化、反混叠滤波、预加重及分帧加窗处理。
所述训练语音数据采用在CASIA语音库获取纯净语音数据和NoiseX-92数据库内获取噪声,并将纯净的语音和噪音按照不同的信噪比相互混合,同时在该数据内插入纯净的语音数据和噪音数据形成训练语音数据。
所述构建RNN音频降噪模型包括:
将训练语音数据进行傅里叶变换,得到训练语音帧频谱;
通过训练语音帧频谱训练RNN神经网络模型,再对RNN神经网络模型进行测试,当测试结果的合格率符合预设的合格率阀值时则测试合格,得到RNN降噪模型。
所述步骤1中,所述步骤3中,训练语音数据需要进行特征提取,所述特征提取将训练语音数据转换到bark域上,将其分成bark子带,减少模型需要的输入。
所述bark域的形式进行频域划分中使用三角窗来压缩信号频谱,通过三角窗作为bark域上的带通滤波器,划分出每个子带。
通过bark子带进行计算的数据还需要使用基于基音周期的梳状滤波器进行语音增强,从而掩蔽掉噪音。
与现有技术相比,本发明提供了一种基于深度神经网络的语音主动降噪方法,具备以下有益效果:
本发明中使用了RNN降噪处理模型,将训练语音数据采用bark域的形式进行频域划分,最多可以产生24个bark子带,使得训练数量将会大大减少,加快了训练速度,以便于既保持了良好的降噪性能,又可以进行实时降噪,其中在bark子带的计算中还使用了基于基音周期的梳状滤波器进行语音增强,及避免了语音失真是出现,也便于掩蔽掉噪声。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制,在附图中:
图1为本发明提出的基于深度神经网络的语音主动降噪方法流程图结构示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例和附图,进一步阐述本发明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本发明的保护范围。
请参阅图1,一种基于深度神经网络的语音主动降噪方法,包括如下步骤:
步骤1:采集待降噪的语音数据,并对语音数据进行预处理;预处理包括语音的采样、量化、反混叠滤波、预加重及分帧加窗处理;语音数据的预加重是将语音信号s(n)通过一个预加重滤波器:H(z)=1-α*z-1,其中α介于0.9和1.0之间,以时域的运算式来表示,预加重后的语音信号S2(n)=s(n)-α*s(n-1),目的是为了消除发音过程中声带和嘴唇的效应(减少吉布斯效应),提高高频部分、滤除低频干扰,消除直流漂移、抑制随机噪声,还可以提高清音部分的能量;分帧:将训练数据中的N个取样点集合为一个观测目标,及为分帧,通常N的值是256或512,涵盖的时间约为20-30ms左右。为了避免了相邻两帧的变化过大,量相邻帧之间允许有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约是N的一半或1/3;便于保证语音信号特征提取的正确性;加窗:通常是用一个长度有限的床函数来截取语音信号形成分析帧的,床函数将需要处理区域之外的样点置零来获得当前的语音帧。
步骤2:构建初始RNN音频降噪模型;构建RNN音频降噪模型包括:将训练语音数据进行傅里叶变换,得到训练语音帧频谱;通过训练语音帧频谱训练RNN神经网络模型,再对RNN神经网络模型进行测试,当测试结果的合格率符合预设的合格率阀值时则测试合格,得到RNN降噪模型。
步骤3:获取训练语音数据,并通过训练语音数据训练初始RNN音频降噪模型;训练语音数据采用在CASIA语音库获取纯净语音数据和NoiseX-92数据库内获取噪声,并将纯净的语音和噪音按照不同的信噪比相互混合,同时在该数据内插入纯净的语音数据和噪音数据形成训练语音数据;训练语音数据需要进行特征提取,特征提取将训练语音数据转换到bark域上,将其分成bark子带,减少模型需要的输入;bark域的形式进行频域划分中使用三角窗来压缩信号频谱,通过三角窗作为bark域上的带通滤波器,划分出每个子带;通过bark子带进行计算的数据还需要使用基于基音周期的梳状滤波器进行语音增强,从而掩蔽掉噪音,在对语音进行增强时假设基音周期为T,含噪信号为x(n),加窗傅里叶为X(k),将含噪信号延迟一个基音周期得x(n-T),则加窗之后傅里叶变换得p(k),那么梳状滤波等同于X(k)+αbp(k),那么,便于通过增强基音信号来掩蔽掉噪声的干扰;其中αb提高相关性进行求值,第一步求单个子带的基音相关性:
Figure BDA0003117024150000051
式中
Figure BDA0003117024150000052
为取复数实数,.*表示取复共轭;第二步根据Pb和gb的值更新αb
Figure BDA0003117024150000053
其中如果任意的Pb≥gb,说明该bark子带语音含量很小,需要增强,则αb=1;如果gb=1,说明模型预测出该bark子带为纯语音,不需要增强则αb=0;如果Pb=0,说明当前bark子带为纯噪声,则更加不需要增强所述αb=0;第三步,最后计算每个频点增益并进行语音增强,此处,将
Figure BDA0003117024150000054
替换为αb计算出频点增益rb(k),公式为:
Figure BDA0003117024150000055
最后对每一个巴bark子带的每一个频点进行语音增强:
Figure BDA0003117024150000056
步骤4:通过训练完成的RNN音频降噪模型对待降噪的语音数据进行降噪,得到降噪后的语音数据,避免了应对各种噪音就需要仔细的调整算法中的各个系数,针对各种场景进行大量和特殊情形的测试,使其始终保持良好的性能,使降噪能进行实时降噪。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于深度神经网络的语音主动降噪方法,其特征在于,包括如下步骤:
步骤1:采集待降噪的语音数据,并对语音数据进行预处理;
步骤2:构建初始RNN音频降噪模型;
步骤3:获取训练语音数据,并通过训练语音数据训练初始RNN音频降噪模型;
步骤4:通过训练完成的RNN音频降噪模型对待降噪的语音数据进行降噪,得到降噪后的语音数据。
2.根据权利要求1所述的一种基于深度神经网络的语音主动降噪方法,其特征在于:所述步骤1中,所述预处理包括语音的采样、量化、反混叠滤波、预加重及分帧加窗处理。
3.根据权利要求1所述的一种基于深度神经网络的语音主动降噪方法,其特征在于:所述训练语音数据采用在CASIA语音库获取纯净语音数据和NoiseX-92数据库内获取噪声,并将纯净的语音和噪音按照不同的信噪比相互混合,同时在该数据内插入纯净的语音数据和噪音数据形成训练语音数据。
4.根据权利要求3所述的一种基于深度神经网络的语音主动降噪方法,其特征在于:所述构建RNN音频降噪模型包括:
将训练语音数据进行傅里叶变换,得到训练语音帧频谱;
通过训练语音帧频谱训练RNN神经网络模型,再对RNN神经网络模型进行测试,当测试结果的合格率符合预设的合格率阀值时则测试合格,得到RNN降噪模型。
5.根据权利要求1所述的一种基于深度神经网络的语音主动降噪方法,其特征在于:所述步骤3中,训练语音数据需要进行特征提取,所述特征提取将训练语音数据转换到bark域上,将其分成bark子带,减少模型需要的输入。
6.根据权利要求5所述的一种基于深度神经网络的语音主动降噪方法,其特征在于:所述bark域的形式进行频域划分中使用三角窗来压缩信号频谱,通过三角窗作为bark域上的带通滤波器,划分出每个子带。
7.根据权利要求6所述的一种基于深度神经网络的语音主动降噪方法,其特征在于:通过bark子带进行计算的数据还需要使用基于基音周期的梳状滤波器进行语音增强,从而掩蔽掉噪音。
CN202110666518.9A 2021-06-16 2021-06-16 一种基于深度神经网络的语音主动降噪方法 Withdrawn CN113450816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110666518.9A CN113450816A (zh) 2021-06-16 2021-06-16 一种基于深度神经网络的语音主动降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110666518.9A CN113450816A (zh) 2021-06-16 2021-06-16 一种基于深度神经网络的语音主动降噪方法

Publications (1)

Publication Number Publication Date
CN113450816A true CN113450816A (zh) 2021-09-28

Family

ID=77811521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110666518.9A Withdrawn CN113450816A (zh) 2021-06-16 2021-06-16 一种基于深度神经网络的语音主动降噪方法

Country Status (1)

Country Link
CN (1) CN113450816A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114271818A (zh) * 2021-12-22 2022-04-05 中国人民解放军海军特色医学中心 听力天赋的训练系统、方法、存储介质及电子设备
CN115223583A (zh) * 2022-07-26 2022-10-21 宸芯科技有限公司 一种语音增强方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114271818A (zh) * 2021-12-22 2022-04-05 中国人民解放军海军特色医学中心 听力天赋的训练系统、方法、存储介质及电子设备
CN114271818B (zh) * 2021-12-22 2023-07-25 中国人民解放军海军特色医学中心 听力天赋的训练系统、方法、存储介质及电子设备
CN115223583A (zh) * 2022-07-26 2022-10-21 宸芯科技有限公司 一种语音增强方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
Xia et al. Speech enhancement with weighted denoising auto-encoder.
Ghanbari et al. A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets
CN108831499A (zh) 利用语音存在概率的语音增强方法
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN103544961B (zh) 语音信号处理方法及装置
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN113450816A (zh) 一种基于深度神经网络的语音主动降噪方法
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
CN113823308A (zh) 一种使用单个带噪语音样本进行语音去噪的方法
CN113782044B (zh) 一种语音增强方法及装置
Sanam et al. Enhancement of noisy speech based on a custom thresholding function with a statistically determined threshold
Ram et al. Deep neural network based speech enhancement
CN111341331B (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN116913307A (zh) 语音处理方法、装置、通信设备及可读存储介质
Rani et al. Significance of phase in DNN based speech enhancement algorithms
CN115497492A (zh) 一种基于全卷积神经网络的实时语音增强方法
CN113571074B (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
CN113393852B (zh) 语音增强模型的构建方法及系统、语音增强方法及系统
CN115312073A (zh) 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210928

WW01 Invention patent application withdrawn after publication