CN112992121B - 基于注意力残差学习的语音增强方法 - Google Patents

基于注意力残差学习的语音增强方法 Download PDF

Info

Publication number
CN112992121B
CN112992121B CN202110224862.2A CN202110224862A CN112992121B CN 112992121 B CN112992121 B CN 112992121B CN 202110224862 A CN202110224862 A CN 202110224862A CN 112992121 B CN112992121 B CN 112992121B
Authority
CN
China
Prior art keywords
voice
block2
attention
block4
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110224862.2A
Other languages
English (en)
Other versions
CN112992121A (zh
Inventor
李学生
李晨
朱麒宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delu Power Technology Chengdu Co ltd
Original Assignee
Delu Power Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delu Power Technology Chengdu Co ltd filed Critical Delu Power Technology Chengdu Co ltd
Priority to CN202110224862.2A priority Critical patent/CN112992121B/zh
Publication of CN112992121A publication Critical patent/CN112992121A/zh
Application granted granted Critical
Publication of CN112992121B publication Critical patent/CN112992121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于注意力残差学习的语音增强方法,包括:S1,模型训练:S1.1,收集噪声数据;S1.2,对数据进行特征提取;S1.3,用提取的音频特征对残差注意力卷积神经网络进行训练,获得训练好的残差神经网络;S2,语音增强:S2.1,对目标语音数据进行特征提取;S2.2,将提取的音频特征输入训练好的残差注意力卷积神经网络;S2.3,语音波形重构:将预测得到的语音特征转换成语音波形,得到非噪音语音。本发明引入残差网络的方法解决了层数特别大的CNN或者DNN模型的梯度消失的问题,引入注意力机制去使得残差模型可以更加注重能表达非噪声的特征上,使用监督学习来训练神经网络可以从带噪语音中估计出干净语音,让网络直接去预测语音增强的目标,语音增强性能优异。

Description

基于注意力残差学习的语音增强方法
技术领域
本发明涉及语音识别技术领域,尤其涉及基于注意力残差学习的语音增强方法。
背景技术
现有的四足机器人在语音识别过程中,远场语音识别系统能很大程度受到周围环境的影响,特别是家庭陪伴狗使用场景中,语音交互是更加方便,快捷的交流方式。然而在实际环境中,语音在传输的过程里,背景噪声和人声干扰会对语音造成很大的影响,会对语音信号造成严重的影响,这样在后续的交互过程中,语音识别的准确率会严重下降。所以在实际的应用环境,语音信号预处理是非常重要的环节,而语音信号预处理分为对噪声的抑制也就是语音增强,还有就是处理人声干扰的语音分离。
传统的语音增强技术多是无监督的,需要对语音信号和噪声信号做出一定的假设,传统的语音增强算法在处理平稳噪声中表现优异,但是难以处理非平稳噪声。
在含有不稳定噪声的实际环境中,如果仅使用单一或者过少的特征,会严重导致识别率过低;但是采用复杂特征的模型中,深层的CNN网络模型会有潜在的梯度消失问题。
发明内容
本发明为了解决上述技术问题提供基于注意力残差学习的语音增强方法。
本发明通过下述技术方案实现:
基于注意力残差学习的语音增强方法,包括以下步骤:
S1,模型训练:
S1.1,收集噪声数据;
S1.2,对数据进行特征提取;
S1.3,用S1.2提取的音频特征对残差注意力卷积神经网络进行训练,获得训练好的残差神经网络;
S2,语音增强:
S2.1,对目标语音数据进行特征提取;
S2.2,将S2.1提取的音频特征输入训练好的残差注意力卷积神经网络,得到预测的语音特征;
S2.3,语音波形重构:将S2.2预测得到的语音特征转换成语音波形,得到非噪音语音。
进一步的,所述残差注意力卷积神经网络包括依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5;所述Block1的输出通过跳跃连接单元连接所述第二Block2的输入,所述第二Block2的输入通过跳跃连接单元连接第一Block4的输入;
所述第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5中均引入了混合注意力机制。
进一步的,所述Block1包括用于实现2倍下采样的二维卷积层;
所述第一Block4、第二Block4、第三Block4均包括第三Block2和第四Block2;所述第三Block2与第四Block2串联;
所述第一Block2、第二Block2、第三Block2和第四Block2均包括两个二维卷积层,其第二个二维卷积层后方引入了混合注意力机制;
所述Block5包括两个二维卷积层和sigmoid层,其第一个二维卷积层的前方引入了混合注意力机制。
进一步的,所述第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接;
所述Block3包括两个并行的二维池化层和用于将所述两个二维池化层的输出在最后一个张量维度上进行组合并输出的Concatenate层。
进一步的,第三Block4中所包含的block3中的二维池化层的池化区域用来实现2倍下采样,padding用来使得输入图像面积和输入图像面积相等,concatenate层用于将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。
进一步的,所述混合注意力机制的公式为:
S=σ((Fup(Fres(Fres(Fdn(U))+Fup(Fres(Fres(Fdn(Fres(Fdn(U))))))))*
W1+b1)*W2+b2 (1)
式(1)中,Fdn表示最大池化,Fup表示双线值插值,S为得到的注意力机制权重,Fres表示残差机制计算流程,σ表示sigmoid函数;w1、w2为卷积核权重;b1、b2为卷积核偏差。
优选地,所述S1.2提取的音频特征包括短时过零率、短时平均能量、短时平均幅度、能量熵、频谱质心、谱熵、频谱通量、梅尔频率倒谱系数、色谱图中的至少一种。
与现有技术相比,本发明具有以下有益效果:
本发明引入残差网络的方法解决了层数特别大的CNN或者DNN模型的梯度消失的问题,引入注意力机制去使得残差模型可以更加注重能表达非噪声的特征上,使用有监督学习来训练神经网络可以从带噪语音中估计出干净语音,让网络直接去预测语音增强的目标;本发明提优于传统语音增强的性能表现。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。
图1是模型训练的流程图;
图2是语音增强的流程图;
图3是音频数据加噪前的数据图像;
图4是音频数据加噪后的数据图像;
图5是残差块的原理图;
图6是基于注意力机制的残差神经网络的结构图;
图7是Block1的结构图;
图8是Block2的结构图;
图9是Block3的结构图;
图10是Block5的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
如图1所示,本发明公开的基于注意力残差学习的语音增强方法,包括以下步骤:
S1,模型训练:
S1.1,收集噪声数据;
S1.2,对数据进行特征提取;
S1.3,用S1.2提取的音频特征对残差注意力卷积神经网络进行训练,获得训练好的残差神经网络;
S2,语音增强:
S2.1,对目标语音数据进行特征提取;
S2.2,将S2.1提取的音频特征输入S1.3训练好的残差注意力卷积神经网络,得到预测的语音特征;
S2.3,语音波形重构:将S2.2预测得到的语音特征转换成语音波形,得到非噪音语音。
基于上述方法,本发明公开一实施例。
实施例1
如图1所示,本实施例中模型训练包括以下步骤:
步骤1,收集噪声数据样本。
本实施例中数据集来源主要有两个:
(1)从Free ST Chinese Mandarin Corpus数据集上收集了102653条人声朗读数据;
(2)从UrbanSound8k中选取常见室内噪声。
Free ST Chinese Mandarin Corpus数据是由855人用手机在室内安静的环境中录制的音频数据,可以认为是去噪语音。
从UrbanSound8K中选取了家庭室内常见的室内环境噪声,例如空调声音等,由于需要模仿实际生活环境中的现实状况,本实施例选取极低的信噪比对干净语音进行随机选取噪声语音进行加噪,最终选择信噪比为5dB进行加噪。
信噪比指一段语音信号中有用语音信号和信号掺杂的噪声信号功率的比值。可采用公式(1)计算信噪比:
Figure BDA0002956855320000041
式(1)中,s(n)为语音信号,r(n)为噪声信号。
本实施例最终有102653条加噪语音。其中一条音频数据加噪前的频率图如图3(a)所示,加噪前的波形图如图3(b)所示;该条音频数据加噪后的频率图如图4(a)所示,加噪前的波形图如图4(b)所示。
步骤2,对数据进行特征提取与特征组合。
虽然神经网络具备自信提取数据中所含信息的能力,但是对原始的音频信号直接进行处理是非常困难的,所以特征工程是非常必须的,良好的特征提取可以大大提升神经网络的识别性能,提高训练准确度与效率,语音的特征提取是非常成熟的,常用的声音特征有以下几种:
1,短时过零率:定义在单位时间内信号过零的次数为过零率,短时过零率可以直观对应到信号波形穿过时间轴的次数。
2,短时平均能量:短时平均能量这一特征参数可以辅助区分清音和浊音,在信噪比较高,信号较为纯净、所含噪声成分少的情况下,短时平均能量还可以用于划分有声和无声片段,从而将静默片段剪除。
短时平均能量的数学定义为一帧之内信号幅值的加权平方和,其数学表示为:
Figure BDA0002956855320000051
式(7)中,X(m)代表声音信号,w(.)代表窗函数。
3,短时平均幅度:短时平均能量需要计算信号采样值的平方和,平方计算对信号平直过于敏感,在具体计算时如果遇到有高电平,短时平均能量很容易急剧增大,甚至产生溢出。为克服这一缺陷,短时平均幅度用绝对值之和代替了平方和,同样可以衡量声音强度的变化。其数学表示为:
Figure BDA0002956855320000052
式(8)中,X(m)代表声音信号,w(.)代表窗函数。
4,能量熵:能量熵可以描述音频信号在时间变化程度,可作为音频特征。如果信号的能量包络中存在突然变化,则该特征具有较高的值。
5,频谱质心:频谱质心代表声音能量集中在哪一频率段。频谱质心的值越高,表示信号的能量越集中在更高的频率内。低频成分较多的声音听感较为低沉压抑,频谱质心相对较低,高频成分较多的声音听感较为高亢欢快,频谱质心相对较高。
6,谱熵:谱熵可以检测音频信号所含有的复杂性,复杂性越大,谱熵越大。其数学表示为:
Figure BDA0002956855320000053
式(9)中,f(w)为一帧信号内的谱密度函数。
7,频谱通量:频谱通量可以量化频谱随时间产生的变化,频谱稳定或接近恒定的信号具有低的频谱通量,例如高斯白噪声,而具有突变的频谱变化,则有高的频谱通量。
8,梅尔频率倒谱系数:梅尔频率倒谱系数是语音处理中非常重要的特征,是信号的对数功率在非线性梅尔频率刻度上进行线性余弦变化,梅尔频率倒谱系数又称MFCC,MFCC可以反映人耳听觉频率的非线性特征。其数学表示为:
Figure BDA0002956855320000061
式(10)中,f是线性频率,单位是HZ。
9,色谱图:色谱图是将整个频谱划分到12个频段上,对应音乐八度的音节,可以根据不同的色度进行划分。
本实施例最终选取MFCC作为特征,以及目标特征也是采用干净噪音的MFCC。
步骤3,设计基于注意力机制的残差神经网络,并对该残差神经网络进行训练。
卷积神经网络的性能表现是与网络深度强相关的,越深的网络结构可以使得识别效果提高,然而在实践中,当卷积网络深度到达一定深度之后,模型表现会不再提高,甚至表现会变得更差,这种现象被称作梯度消失。在卷积网络中加入残差块,而残差单元可以跳层连接,使得在深度卷积网络中,可以将某些层的输出跨越中间层直接传递到后面的层。
如图5所示,残差块通过函数R(x)将输入传递到输出,并与输出F(x)相加,此时网络的学习目标也随之改变,不再是整体输出H(x),变为输出与输入的差异。
本实施例设计了如图6所示的基于注意力机制的残差神经网络,其包括:依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5。
Block1的输出通过跳跃连接单元连接第二Block2的输入,第二Block2的输入通过跳跃连接单元连接第一Block4的输入;所述第一Block4、第二Block4、第三Block4均包括第三Block2、第四Block2和Block3。所述第三Block2与第四Block2串联,第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接。
如图7所示,Block1包括Batch Normalization层和为了实现2倍下采样的二维卷积层(Conv2D)。二维卷积层卷积核大小为3×3,个数为24,步幅为(1,2),实现2倍的下采样。
如图8所示,Block2包括两个二维卷积层,其第二个二维卷积层后方引入了混合注意力机制(Interpolated-attn)。混合注意力机制的公式为:
S=σ((Fup(Fres(Fres(Fdn(U))+Fup(Fres(Fres(Fdn(Fres(Fdn(U))))))))*
W1+b1)*W2+b2 (11)
式(11)中,Fdn表示最大池化,Fup表示双线值插值,S为得到的注意力机制权重,Fres表示残差机制计算流程,σ表示sigmoid函数;w1、w2为卷积核权重;b1、b2为卷积核偏差。
这里引入混合注意力机制,通道数目从输入到输出的网络各层不变,该模块利用下采样对空间维度进行缩小维度,以此增加卷积提取特征的感受野,这样能够更有效的推断输入图像中高频特征所在的区域,然后利用插值进行上采样,这样在扩大维度的同时,更好的定位特征区域。
如图9所示,Block3包括两个并行的二维池化层和用于将两个二维池化层的输出在最后一个张量维度上进行组合并输出的Concatenate层。
第三block4中所包含的block3中,maxpooling2d的池化区域用来实现2倍下采样,padding用来使得输入图像面积和输入图像面积相等,concatenate将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。
如图10所示,Block5包括两个二维卷积层和sigmoid层,其第一个二维卷积层的前方也引入了混合注意力机制,其公式如式(11)所示。
预设所有的干净语音和噪声被重采样到16kHz。帧长和帧移分布被设置成32ms和16ms,257维的MFCC特征被用来作为训练网络模型的输入,为了评价语音增强的网络性能,采用了感知语音质量谱评估(PESQ),最后模型的结果如表1所示:
表1:本发明与不使用注意力机制的残差网络的对比表
模型(5dB) PESQ
不带attention机制的ResNet 1.918
带attention机制的ResNet 2.012
从表1可知,本发明加入注意力机制之后,残差网络表现的更加出色,同时残差网络本身也解决CNN深度过深可能导致的梯度消失问题,同时实施例的网络框架性能也表现极其优越。
本实施例采用相同的特征提取方法对目标语音数据进行特征提取,具体参见步骤2。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于注意力残差学习的语音增强方法,其特征在于:包括以下步骤:
S1,模型训练:
S1.1,收集带噪语音数据;
S1.2,对带噪语音进行特征提取;
S1.3,用S1.2提取的音频特征对残差注意力卷积神经网络进行训练,获得训练好的残差神经网络;
S2,语音增强:
S2.1,对目标语音数据进行特征提取;
S2.2,将S2.1提取的音频特征输入S1.3中训练好的残差注意力卷积神经网络,得到预测的语音特征;
S2.3,语音波形重构:将S2.2预测得到的语音特征转换成语音波形,得到非噪音语音;
所述残差注意力卷积神经网络包括依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5;所述Block1的输出通过跳跃连接单元连接所述第二Block2的输入,所述第二Block2的输入通过跳跃连接单元连接第一Block4的输入;
所述第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5中均引入了混合注意力机制;
所述Block1包括用于实现2倍下采样的二维卷积层;
所述第一Block4、第二Block4、第三Block4均包括第三Block2和第四Block2;所述第三Block2与第四Block2串联;
所述第一Block2、第二Block2、第三Block2和第四Block2均包括两个二维卷积层,其第二个二维卷积层后方引入了混合注意力机制;
所述Block5包括两个二维卷积层和sigmoid层,其第一个二维卷积层的前方引入了混合注意力机制;
所述第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接;
所述Block3包括两个并行的二维池化层和用于将所述两个二维池化层的输出在最后一个张量维度上进行组合并输出的Concatenate层。
2.根据权利要求1所述的基于注意力残差学习的语音增强方法,其特征在于:第三Block4中所包含的block3中的二维池化层的池化区域用来实现2倍下采样,padding用来使得输入图像面积和输入图像面积相等,concatenate层用于将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。
3.根据权利要求1或2所述的基于注意力残差学习的语音增强方法,其特征在于:所述混合注意力机制的公式为:
Figure DEST_PATH_IMAGE002
(1)
式(1)中,
Figure DEST_PATH_IMAGE004
表示最大池化,
Figure DEST_PATH_IMAGE006
表示双线值插值,S为得到的注意力机制权重,
Figure DEST_PATH_IMAGE008
表示sigmoid函数;
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
为卷积核权重;
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
为卷积核偏差。
4.根据权利要求1或2所述的基于注意力残差学习的语音增强方法,其特征在于:所述S1.2提取的音频特征包括短时过零率、短时平均能量、短时平均幅度、能量熵、频谱质心、谱熵、频谱通量、梅尔频率倒谱系数、色谱图中的至少一种。
CN202110224862.2A 2021-03-01 2021-03-01 基于注意力残差学习的语音增强方法 Active CN112992121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110224862.2A CN112992121B (zh) 2021-03-01 2021-03-01 基于注意力残差学习的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110224862.2A CN112992121B (zh) 2021-03-01 2021-03-01 基于注意力残差学习的语音增强方法

Publications (2)

Publication Number Publication Date
CN112992121A CN112992121A (zh) 2021-06-18
CN112992121B true CN112992121B (zh) 2022-07-12

Family

ID=76351523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110224862.2A Active CN112992121B (zh) 2021-03-01 2021-03-01 基于注意力残差学习的语音增强方法

Country Status (1)

Country Link
CN (1) CN112992121B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863550B (zh) * 2021-03-01 2022-08-16 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统
CN114842864B (zh) * 2022-04-19 2023-05-23 电子科技大学 一种基于神经网络的短波信道信号分集合并方法
CN115153588B (zh) * 2022-07-25 2023-06-06 陕西师范大学 融合密集残差和注意力机制的脑电时空去噪方法
CN116164751B (zh) * 2023-02-21 2024-04-16 浙江德清知路导航科技有限公司 一种室内音频指纹定位方法、系统、介质、设备及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备
CN111816205A (zh) * 2020-07-09 2020-10-23 中国人民解放军战略支援部队航天工程大学 一种基于飞机音频的机型智能识别方法
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020231209A1 (en) * 2019-05-14 2020-11-19 Samsung Electronics Co., Ltd. Method, apparatus, electronic device, and computer readable storage medium for voice translation
CN110992978B (zh) * 2019-12-18 2022-03-29 思必驰科技股份有限公司 音视频分离模型的训练方法及系统
CN112289337B (zh) * 2020-11-03 2023-09-01 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备
CN111816205A (zh) * 2020-07-09 2020-10-23 中国人民解放军战略支援部队航天工程大学 一种基于飞机音频的机型智能识别方法
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Interactive Speech and Noise Modeling for Speech Enhancement;Chengyu Zheng,等;《https://arxiv.org/abs/2012.09408v1》;20201207;全文 *
NAAGN: Noise-aware Attention-gated Network for Speech Enhancement;Feng Deng,等;《INTERSPEECH 2020》;20201029;全文 *
一种融合残差机制和注意力机制的深度语音去噪方法;李蕊,等;《光电子·激光》;20210515;全文 *
基于残差神经网络的端到端语音增强技术研究;王杜娟;《中国优秀硕士学位论文全文数据库》;20210615;全文 *

Also Published As

Publication number Publication date
CN112992121A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112992121B (zh) 基于注意力残差学习的语音增强方法
Braun et al. Data augmentation and loss normalization for deep noise suppression
Das et al. Fundamentals, present and future perspectives of speech enhancement
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN102792374B (zh) 多通道音频中语音相关通道的缩放回避的方法和系统
CN103531205B (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN105957537B (zh) 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN112863550B (zh) 基于注意力残差学习的哭声检测方法及系统
Su et al. Bandwidth extension is all you need
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
Adiga et al. Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN.
CN113744749A (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
Singh et al. Spectral modification based data augmentation for improving end-to-end ASR for children's speech
He et al. Stress and emotion recognition using log-Gabor filter analysis of speech spectrograms
Jokinen et al. Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network
Soni et al. Generative Noise Modeling and Channel Simulation for Robust Speech Recognition in Unseen Conditions.
CN116013343A (zh) 语音增强方法、电子设备和存储介质
Liu et al. Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments
Shahrul Azmi An improved feature extraction method for Malay vowel recognition based on spectrum delta
Shahnawazuddin Developing children's ASR system under low-resource conditions using end-to-end architecture
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Doumanidis et al. Rnnoise-ex: Hybrid speech enhancement system based on rnn and spectral features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant