CN111524530A - 一种基于膨胀因果卷积的语音降噪方法 - Google Patents
一种基于膨胀因果卷积的语音降噪方法 Download PDFInfo
- Publication number
- CN111524530A CN111524530A CN202010324373.XA CN202010324373A CN111524530A CN 111524530 A CN111524530 A CN 111524530A CN 202010324373 A CN202010324373 A CN 202010324373A CN 111524530 A CN111524530 A CN 111524530A
- Authority
- CN
- China
- Prior art keywords
- convolution
- noise reduction
- noise
- audio
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000001364 causal effect Effects 0.000 title claims abstract description 24
- 230000005236 sound signal Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001308 synthesis method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 claims 2
- 239000000203 mixture Substances 0.000 claims 1
- 230000010339 dilation Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于膨胀因果卷积的语音降噪方法,该方法包括构建网络训练的音频训练集;基于膨胀因果卷积,构建语音降噪网络模型并训练网络模型;使用训练后的模型进行降噪。本发明利用膨胀因果卷积来处理音频时序信息,将感受范围增大,使模型的能力更加优秀。本发明提出的基于膨胀因果卷积的语音降噪方法,在去噪问题上,具有较好的解决能力,对噪声种类的泛化能力也较强。
Description
技术领域
本发明涉及语音降噪技术领域,尤其涉及一种基于膨胀因果卷积的语音降噪方法。
背景技术
对于音频信号的降噪技术一直是语音领域的一个收到极大关注的研究方向,并且具有很大的实用性。通过降噪技术,可以增强原始音频的质量,提高收听的效果。迄今,正在被使用的语音降噪方法主要有谱减法和基于统计模型的方法等。诸如此类的无监督方法,在慢变得噪声条件下,才能取得较好的降噪效果。随着机器学习和深度学习的广泛研究,将深度学习的有监督方法也被成功地应用到语音降噪问题上,并且取得了不错的效果。
基于深度学习的语音降噪方法中的深度神经网络,结构分为输入层,输出层和隐藏层。在语音降噪问题中,我们将带噪的音频信息作为网络的输入信息传到输入层,用纯净不带噪声的音频信息作为输出目标数据去做一个有监督的训练。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于膨胀因果卷积的语音降噪方法。
本发明的目的通过以下的技术方案来实现:
一种基于膨胀因果卷积的语音降噪方法,包括:
S1构建网络训练的音频训练集;
S2基于膨胀因果卷积,构建语音降噪网络模型并训练网络模型;
S3使用训练后的模型进行降噪。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本发明与传统的语音降噪方法不同,采用了深度学习训练神经网络来完成语音降噪任务。通过膨胀因果卷积,提升了卷积效果,扩大了感受范围,最后训练出来的模型能更好地进行语音降噪工作,较好地去除带噪声音频文件中的噪声;
基于膨胀因果卷积的语音降噪方法,在去噪问题上,具有较好的解决能力,对噪声种类的泛化能力也较强。
附图说明
图1为本发明实施例提供的一种基于膨胀因果卷积的语音降噪方法的整体流程图;
图2为本发明实施例提供的一种基于膨胀因果卷积的语音降噪方法的示意图;
图3为膨胀因果卷积的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1和图2所示,为基于膨胀因果卷积的语音降噪方法的整体流程,包括以下步骤:
S1构建网络训练的音频训练集;
S2基于膨胀因果卷积,构建语音降噪网络模型并训练模型;
S3使用训练后的模型进行降噪。
上述S1中所述的音频训练集包括如下音频数据:带噪音频数据以及与之对应的用于监督的纯净音频数据。所述的数据集构建方法为:
S11采集纯净的音频信号和噪声信号。纯净的音频信号采集自TIMIT数据库以及与录音室中录制的纯净不带噪声的语音音频信号,噪声信号同样采集自TIMIT数据库以及录制的噪声音频信号。
S12将纯净的语音音频信号和噪声信号混合,得到带噪声的语音音频信号。合成的方法有单噪声和多噪声的合成方法,有效地丰富了数据集。
上述步骤S2中,语音降噪网络构建的具体方法如下:
S21.基于膨胀因果卷积,设计卷积层。为了使每个样本的预测仅受到先前样本的影响,采用了因果卷积,使每个样本的预测只会基于该样本之前的样本数值。为了有效扩大感受范围,采用膨胀卷积。通过膨胀卷积,改变普通卷积的感受范围。通过膨胀系数逐层翻倍,使得卷积的感受范围指数型增加。
S22.使用了门激活单元,替代了深度神经网络中常见的单一激活函数,进行非线性转换,门激活单元的公式如下式:
z=tanh(Wf,k*x)·σ(Wg,k*x)
*代表卷积操作。σ(·)是sigmoid函数,k是层数索引,f和g是滤波器和门,W是可学习的卷积核。
S23.网络的隐含层层由一个个膨胀卷积模块组成。每个模块中将会由膨胀卷积层、门激活单元和1*1卷积层组成。在隐含层的模块中,数据先进行膨胀卷积,再经过门单元激活,最后1*1的卷积核完成维度的调整。此外,每一个模块中运用了残差学习。每个模块处理完后的数据会送到下个模块。
S24.所有模块的输出会加和之后输入到输出层中,经过RuLU函数的激活,以及softmax的运算,得到预测概率。预测概率最大的即为预测值,预测值与纯净音频信号中对应的监督值计算交叉熵,更新网络的参数。
膨胀因果卷积的示意图见图3。本实例中,各层膨胀因果卷积层的膨胀因子随层数的增加,分别设置为1,2,4,8,……512,1,2,4,8,……512,1,2,4,8,……512。
上述步骤S2中,我们可以训练出一个基于膨胀因果卷积的语音降噪模型。步骤S3中,使用模型进行降噪的具体方法如下:
S31.对待处理的音频信息进行预处理。本发明中,步骤S1构建的数据集的音频数据的目标采样率为16k。对于不同采样率的音频信息,需要先重采样至目标采样率,才能使模型正常起作用。
S32.预处理后的音频信息通过模型的运算,得到降噪后的音频信息。
上述实施可以获得较好的语音降噪效果。该方法具有失真小,泛化能力强,降噪效果好的优点。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (8)
1.一种基于膨胀因果卷积的语音降噪方法,其特征在于,所述方法包括以下步骤:
S1构建网络训练的音频训练集;
S2基于膨胀因果卷积,构建语音降噪网络模型并训练网络模型;
S3使用训练后的模型进行降噪。
2.如权利要求1所述的基于膨胀因果卷积的语音降噪方法,其特征在于,所述步骤S1中音频训练集包括以下音频数据:带噪音频数据以及与带噪音频数据对应的用于监督的纯净音频数据;所述音频数据的构建方法为:
S11采集纯净的音频信号和噪声信号;
S12将纯净的语音音频信号和噪声信号混合,得到带噪声的语音音频信号。
3.如权利要求1所述的基于膨胀因果卷积的语音降噪方法,其特征在于,所述步骤S2中语音降噪网络模型的构建具体包括:
S21基于膨胀因果卷积,设计卷积层;
S22通过门激活单元替代深度神经网络中常见的单一激活函数,进行非线性转换;
S23将多个膨胀卷积模块组成网络隐含层,其中,每个膨胀卷积模块由膨胀卷积层、门激活单元和1*1卷积层组成;在膨胀卷积模块中,数据进行膨胀卷积后经过门单元激活,最后1*1的卷积核完成维度的调整;
S24每个膨胀卷积模块的输出加和后输入到输出层中,经过RuLU函数的激活,以及softmax的运算,得到预测概率,预测概率最大的即为预测值。
4.如权利要求1所述的基于膨胀因果卷积的语音降噪方法,其特征在于,所述步骤S3具体包括:
S31对待处理的音频信息进行预处理;
S32预处理后的音频信息通过模型的运算,得到降噪后的音频信息。
5.如权利要求2所述的基于膨胀因果卷积的语音降噪方法,其特征在于,所述纯净的音频信号采集于TIMIT数据库以及与录音室中录制的纯净不带噪声的语音音频信号,噪声信号同样采集于TIMIT数据库以及录制的噪声音频信号。
6.如权利要求2所述的基于膨胀因果卷积的语音降噪方法,其特征在于,所述纯净的语音音频信号和噪声信号混合的合成方法包括单噪声合成和多噪声合成。
7.如权利要求3所述的基于膨胀因果卷积的语音降噪方法,其特征在于,所述每个膨胀卷积模块运用了残差学习,且每个膨胀卷积模块将处理完后的数据输送到下一膨胀卷积模块。
8.如权利要求3所述的基于膨胀因果卷积的语音降噪方法,其特征在于,所述预测值与纯净音频信号中对应的监督值计算交叉熵,更新网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010324373.XA CN111524530A (zh) | 2020-04-23 | 2020-04-23 | 一种基于膨胀因果卷积的语音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010324373.XA CN111524530A (zh) | 2020-04-23 | 2020-04-23 | 一种基于膨胀因果卷积的语音降噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111524530A true CN111524530A (zh) | 2020-08-11 |
Family
ID=71910951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010324373.XA Pending CN111524530A (zh) | 2020-04-23 | 2020-04-23 | 一种基于膨胀因果卷积的语音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111524530A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989107A (zh) * | 2021-05-18 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 音频分类和分离方法、装置、电子设备以及存储介质 |
CN113299300A (zh) * | 2021-05-18 | 2021-08-24 | 广州大学 | 一种语音增强方法、装置及存储介质 |
WO2023030017A1 (zh) * | 2021-09-03 | 2023-03-09 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、设备以及介质 |
CN115810364A (zh) * | 2023-02-07 | 2023-03-17 | 海纳科德(湖北)科技有限公司 | 混音环境中的端到端目标声信号提取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299705A (zh) * | 2018-10-24 | 2019-02-01 | 电子科技大学 | 基于一维深度残差卷积神经网络的旋转机械故障诊断方法 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110751957A (zh) * | 2019-09-25 | 2020-02-04 | 电子科技大学 | 一种使用堆叠多尺度模块的语音增强方法 |
CN110867181A (zh) * | 2019-09-29 | 2020-03-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
-
2020
- 2020-04-23 CN CN202010324373.XA patent/CN111524530A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299705A (zh) * | 2018-10-24 | 2019-02-01 | 电子科技大学 | 基于一维深度残差卷积神经网络的旋转机械故障诊断方法 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110751957A (zh) * | 2019-09-25 | 2020-02-04 | 电子科技大学 | 一种使用堆叠多尺度模块的语音增强方法 |
CN110867181A (zh) * | 2019-09-29 | 2020-03-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
Non-Patent Citations (1)
Title |
---|
ASHUTOSH PANDEY等: ""TCNN: Temporal Convolutional Neural Network for Real-time Speech Enhancement in the Time Domain"", 《IEEE EXPLORE》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989107A (zh) * | 2021-05-18 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 音频分类和分离方法、装置、电子设备以及存储介质 |
CN112989107B (zh) * | 2021-05-18 | 2021-07-30 | 北京世纪好未来教育科技有限公司 | 音频分类和分离方法、装置、电子设备以及存储介质 |
CN113299300A (zh) * | 2021-05-18 | 2021-08-24 | 广州大学 | 一种语音增强方法、装置及存储介质 |
CN113299300B (zh) * | 2021-05-18 | 2023-09-26 | 广州大学 | 一种语音增强方法、装置及存储介质 |
WO2023030017A1 (zh) * | 2021-09-03 | 2023-03-09 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、设备以及介质 |
CN115810364A (zh) * | 2023-02-07 | 2023-03-17 | 海纳科德(湖北)科技有限公司 | 混音环境中的端到端目标声信号提取方法及系统 |
CN115810364B (zh) * | 2023-02-07 | 2023-04-28 | 海纳科德(湖北)科技有限公司 | 混音环境中的端到端目标声信号提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111524530A (zh) | 一种基于膨胀因果卷积的语音降噪方法 | |
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN109215674A (zh) | 实时语音增强方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112802491B (zh) | 一种基于时频域生成对抗网络的语音增强方法 | |
CN113191178B (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN108335702A (zh) | 一种基于深度神经网络的音频降噪方法 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN113936681A (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
Zhu et al. | FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions | |
CN114283829B (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
CN115602152A (zh) | 一种基于多阶段注意力网络的语音增强方法 | |
Takeuchi et al. | Invertible DNN-based nonlinear time-frequency transform for speech enhancement | |
Agrawal et al. | Unsupervised Raw Waveform Representation Learning for ASR. | |
CN113421581B (zh) | 一种跳跃网络的实时语音降噪方法 | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN | |
Wu et al. | Self-supervised speech denoising using only noisy audio signals | |
CN115331690B (zh) | 一种用于通话语音的噪声实时消除的方法 | |
CN113436640B (zh) | 一种音频降噪方法、装置、系统及计算机可读存储介质 | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
CN115295002A (zh) | 一种基于交互性时频注意力机制的单通道语音增强方法 | |
CN115240702A (zh) | 基于声纹特征的语音分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |