CN110111803A - 基于自注意多核最大均值差异的迁移学习语音增强方法 - Google Patents

基于自注意多核最大均值差异的迁移学习语音增强方法 Download PDF

Info

Publication number
CN110111803A
CN110111803A CN201910385769.2A CN201910385769A CN110111803A CN 110111803 A CN110111803 A CN 110111803A CN 201910385769 A CN201910385769 A CN 201910385769A CN 110111803 A CN110111803 A CN 110111803A
Authority
CN
China
Prior art keywords
attention
multicore
feature
mean difference
transfer learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910385769.2A
Other languages
English (en)
Other versions
CN110111803B (zh
Inventor
梁瑞宇
程佳鸣
梁镇麟
谢跃
王青云
包永强
赵力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201910385769.2A priority Critical patent/CN110111803B/zh
Publication of CN110111803A publication Critical patent/CN110111803A/zh
Application granted granted Critical
Publication of CN110111803B publication Critical patent/CN110111803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,包括从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;构建基于深层神经网络的语音增强模型;构建自注意多核最大均值差异的迁移学习语音增强模型;训练自注意多核最大均值差异的迁移学习语音增强模型;输入目标域带噪语音的帧级特征,重建增强语音波形。本发明在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习,提高语音增强性能,具有良好的应用前景。

Description

基于自注意多核最大均值差异的迁移学习语音增强方法
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于自注意多核最大均值差异的迁移学习语音增强方法。
背景技术
语音增强在语音处理的各领域都有重要应用。语音增强的目的就是提升受到噪声污染的语音的质量和可懂度。早期的单通道语音增强算法研究的重点在于如何从含噪语音中有效估计噪声谱,从而对其进行抑制。典型算法包括谱减法、维纳滤波法、最小均方误差法、最小控制的迭代平均的噪声估计算法及其改进算法等。这些算法主要研究加性背景噪声,并基于噪声和纯净语音间的复杂的统计特性进行设计。但是,语音信号和噪声信号间纷繁复杂统计特性的相互作用,以及算法中很多不合理的假设限制了算法性能上限。因此,这些算法常常难以处理未知语音环境下真实场景中的非平稳噪声。
在语音增强应用方面,监督学习通常有三个方面的泛化:噪声,说话人和SNR。解决泛化问题最常用的方法是扩充数据集,进行大规模的噪音训练,即将不同的信噪比,不同说话人,不同类型噪声尽可能的包含在训练集中。此外,增加网络的复杂度也是一个方法,如采用更多的隐藏层进行渐进式训练、采用多段网络等。但是,由于现实情况的复杂性,一个数据集很难包括所有情况,比如,各种平稳或非平稳的噪声都可能干扰语音信号。即使数据集可以包含所有情况,比如噪声类型可以达到10000种,这对于模型训练来说是庞大的工作。如果数据集的标注存在问题,那么训练的结果也就不能保证。
目前,在语音增强研究方面,基于SEGAN的语音增强的研究展示了如何通过迁移学习技术来改进基于DNN的跨语言的语音增强效果。其中,顶层针对新语言进行细调,而较低的层是固定,是基于充足的原始语言样本进行训练的。迁移学习还被用来实现基于DNN的谱增强算法的模型压缩,在不造成性能损失和加深网络的情况下,减小了语音增强模型的尺寸。结果表明,转移学习对于生成对抗网络的语言间语音增强是非常有效的。经过英语培训的SEGAN即使在加泰罗尼亚语和朝鲜语(24秒)的短培训时间内也能获得高性能,并且在说话人和噪声未知的情况下,能够适应低资源环境。研究还发现,训练中噪声类型的数量对语音增强的效果并不是决定性的因素。虽然训练SEGAN是一项困难的任务,但可以通过使用预先训练的网络进行转移学习来绕开问题。
通过上述的描述,如何建立一种适合环境变化快速训练的语音(单通道)增强模型,是提高语音增强鲁棒性和性能的关键,是当前需要解决的问题。
发明内容
本发明的目的是克服现有的语音(单通道)增强方法,面对环境变化时出现模型不匹配的问题。本发明的基于自注意多核最大均值差异的迁移学习语音增强方法,通过在深层神经网络的架构上引入自注意层和多核最大均值差异域混淆损失,并在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习,提高语音增强性能,方法巧妙新颖,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于自注意多核最大均值差异的迁移学习语音增强方法,包括以下步骤,
步骤(A),从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;
步骤(B),利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;
步骤(C),构建基于深层神经网络的语音增强模型,作为基线模型;
步骤(D),根据基线模型,构建自注意多核最大均值差异的迁移学习语音增强模型;
步骤(E),训练阶段,训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型;
步骤(F),增加阶段,根据训练后的自注意多核最大均值差异的迁移学习语音增强模型,输入目标域带噪语音的帧级特征,重建增强语音波形。
前述的基于自注意多核最大均值差异的迁移学习语音增强方法,步骤(C),构建基于深层神经网络的语音增强模型,作为基线模型,所述基线模型为4层DNN语音增强模型,前两层为特征编码器,后两层为重建解码器。
前述的基于自注意多核最大均值差异的迁移学习语音增强方法,步骤(D),构建自注意多核最大均值差异的迁移学习语音增强模型,是在特征编码器、重建解码器之间增加一层自注意力层,其中不带标签的目标域数据的GFCC特征通过特征编码器后,进行自注意力加权,加权后的特征经过重建解码器进行理想浮值掩蔽的重构。
前述的基于自注意多核最大均值差异的迁移学习语音增强方法,所述自注意力层的自注意力加权过程如下,
(D1),设通过特征编码器的输出是Xfeature_encoder,根据公式(1),计算其的对齐向量align,
align=tanh(Xfeature_encoder×W)×V (1)
其中,W,V∈RN×N是注意力机制中的待训练参数,N是自注意力层内编码器最后一层隐层单元数,也代表了新的特征空间维度;tanh函数为双曲正切函数,对齐向量的对应分数,如公式(2)所示,
score=sigmod(align+ε) (2)
其中,ε为可调因子,对齐向量的对应分数score取值在0到1之间;
(D2),根据公式(3),获得新的加权特征
其中,表示hardarm相乘,对于单个样本而言,即是对其各个特征进行加权。
前述的基于自注意多核最大均值差异的迁移学习语音增强方法,步骤(E),训练阶段,训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型,包括两条训练数据流向,分别为训练带标签的源域数据的GFCC特征和训练不带标签的目标域数据的GFCC特征,具体如下:
(E1),两个训练数据流向的数据同时通过两层的特征编码器,通过隐层神经元将输入特征延展到更高维度;
(E2),通过自注意力层后,两条训练数据流向的数据,即源域的自注意特征Asrc与目标域的自注意特征Atar汇集在适应层中计算源域和目标域自注意特征的多核最大均值差异的平方作为整个神经网络损失函数的一部分lD,该lD如公式(4)所示,
其中,MMD2[X,Y]为多核最大均值差异的平方;高斯核函数X和Y分别表示Asrc与Atar,m和n分别表示Asrc和Atar的维度,所使用的高斯核函数总数M为19,其系数σ2分别为:1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1,5,10,15,20,25,30,35,100,1e3,1e4,1e5,1e6;
(E3),带标签的源域自注意特征Asrc在经过适应层后会继续输入重建解码器中进行理想浮值掩蔽的重构,如公式(5)所示,
其中,θIRM_en为重建解码器层对应的网络参数,利用重构的理想浮值掩蔽和源域标签信息Y,计算平均绝对误差mae,作为整个神经网络损失函数的另一部分lG,如公式(6)所示,
其中,mae为平均绝对误差计算函数;
(E4),整个神经网络损失函数l,如公式(7)所示,
l=lG+ω*lD (7)
其中,ω为权重,用来调节二者对抗程度的参数。
前述的基于自注意多核最大均值差异的迁移学习语音增强方法,步骤(F),增加阶段,根据训练后的自注意多核最大均值差异的迁移学习语音增强模型,输入目标域带噪语音的帧级特征,重建增强语音波形,是利用目标域带噪语音中的相位信息通过反向傅里叶变换得到增强语音的时域波形,并通过重叠相加算法合成得到整个增强语音波形。
本发明的有益效果是:本发明的基于自注意多核最大均值差异的迁移学习语音增强方法,通过将特征编码器输出的特征进行自注意力加权,提升了特征有效性;为了综合利用源域和目标域的有效信息,算法引入对抗因子来构建损失函数综合利用源域和目标标域特征信息;针对源域,模型通过最小化源域数据重建理想幅值掩蔽的平均绝对误差,使自注意力输出的特征尽可能为源域重要的私有特征;针对目标域,模型联合源域自注意特征,通过最小化源域自注意特征与目标域自注意特征之间的最大均值差异,使自注意特征尽可能为源域和目标域的公共特征。因此,本发明的方法能够提高语音增强鲁棒性和性能,方法巧妙新颖,具有良好的应用前景。
附图说明
图1是本发明的基于自注意多核最大均值差异的迁移学习语音增强方法的流程图;
图2是本发明的训练阶段和增增加阶段的示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于自注意多核最大均值差异的迁移学习语音增强方法,包括以下步骤,
步骤(A),从原始语音中提取(伽马通频率倒谱系数)GFCC特征,并作为深度神经网络的输入特征;
步骤(B),利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;
步骤(C),构建基于深层神经网络的语音增强模型,作为基线模型,所述基线模型为4层DNN语音增强模型,前两层为特征编码器,后两层为重建解码器;
步骤(D),根据基线模型,构建自注意多核最大均值差异的迁移学习语音增强模型,在特征编码器、重建解码器之间增加一层自注意力层,其中不带标签的目标域数据的GFCC特征通过特征编码器后,进行自注意力加权,加权后的特征经过重建解码器进行理想浮值掩蔽的重构,所述自注意力层的自注意力加权过程如下,
(D1),设通过特征编码器的输出是Xfeature_encoder,根据公式(1),计算其的对齐向量align,
align=tanh(Xfeature_encoder×W)×V (8)
其中,W,V∈RN×N是注意力机制中的待训练参数,N是自注意力层内编码器最后一层隐层单元数,也代表了新的特征空间维度;tanh函数为双曲正切函数,对齐向量的对应分数,如公式(2)所示,
score=sigmod(align+ε) (9)
其中,对齐向量的对应分数score取值在0到1之间;为了避免过小分数使得其加权的特征能力被过度弱化,本发明在分数计算中添加了可调因子ε,此处,ε为元素全为1的矩阵,score在每一个新的特征维度上都有不同的值,代表了特征之间的相对差异;
(D2),根据公式(3),获得新的加权特征
其中,表示hardarm相乘,对于单个样本而言,即是对其各个特征进行加权;
步骤(E),训练阶段,训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型,如图2所示,在训练阶段,分别提取干净语音、源域的带噪语音(有标签)以及目标域的带噪语音(无标签)的伽马通频率倒谱系数(GFCC)特征,然后训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型,包括两条训练数据流向,分别为训练带标签的源域数据的GFCC特征和训练不带标签的目标域数据的GFCC特征,具体如下:
(E1),两个训练数据流向的数据同时通过两层的特征编码器,通过隐层神经元将输入特征延展到更高维度;
(E2),通过自注意力层后,两条训练数据流向的数据,即源域的自注意特征Asrc与目标域的自注意特征Atar汇集在适应层中计算源域和目标域自注意特征的多核最大均值差异的平方作为整个神经网络损失函数的一部分lD,该lD如公式(4)所示,
其中,MMD2[X,Y]为多核最大均值差异的平方;高斯核函数X和Y分别表示Asrc与Atar,m和n分别表示Asrc和Atar的维度,所使用的高斯核函数总数M为19,其系数σ2分别为:1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1,5,10,15,20,25,30,35,100,1e3,1e4,1e5,1e6;
(E3),带标签的源域自注意特征Asrc在经过适应层后会继续输入重建解码器中进行理想浮值掩蔽的重构,如公式(5)所示,
其中,θIRM_en为重建解码器层对应的网络参数,利用重构的理想浮值掩蔽和源域标签信息Y,计算平均绝对误差mae,作为整个神经网络损失函数的另一部分lG,如公式(6)所示,
其中,mae为平均绝对误差计算函数;
(E4),整个神经网络损失函数l,如公式(7)所示,
l=lG+ω*lD (14)
其中,ω为权重,用来调节二者对抗程度的参数;
步骤(F),增加阶段,根据训练后的自注意多核最大均值差异的迁移学习语音增强模型,输入目标域带噪语音的帧级特征,重建增强语音波形,具体过程为将目标域的带噪语音信号提取帧级GFCC特征并输入到结合改进的多核最大值差异的深度神经网络模型中,模型输出得到估计的目标域理想浮值掩蔽,经计算得到目标语音的离散傅里叶变换幅度谱,考虑到人耳对相位的微小变化不敏感,利用带噪语音信号中的相位信息通过反向傅里叶变换得到增强语音的时域波形,最后整个句子的语音波形可以通过重叠相加算法合成得到。
为了充分比较算法的迁移性能,实验设置对不同的噪声和不同的信噪比进行语音增强的迁移。实验主要比较了两种情况:1)源域10dB的Pink噪声迁移到目标域的SpeechBabble噪声,信噪比分别为5db,0db和-5db;2)源域10dB的White噪声迁移到目标域的DestroyerEngine噪声,信噪比分别为5db,0db和-5db。目标域测试集下的loss曲线,对应的性能指标如表1(其中,S代表SpeechBabble噪声,D代表DestroyerEngine噪声,F代表FactoryFloor1噪声,P代表Pink噪声)所示。从损失曲线上可知,三种模型变化趋势基本相同。从算法性能指标看,提出模型的指标是最高的。相比于多核最大值平均差异模型,三种指标fwSNRseg,PESQ和STOI分别提升0.649,0.02和0.005。
表1混合迁移下的算法性能对比
综上所述,本发明的基于自注意多核最大均值差异的迁移学习语音增强方法,通过将特征编码器输出的特征进行自注意力加权,提升了特征有效性;为了综合利用源域和目标域的有效信息,算法引入对抗因子来构建损失函数综合利用源域和目标标域特征信息;针对源域,模型通过最小化源域数据重建理想幅值掩蔽的平均绝对误差,使自注意力输出的特征尽可能为源域重要的私有特征;针对目标域,模型联合源域自注意特征,通过最小化源域自注意特征与目标域自注意特征之间的最大均值差异,使自注意特征尽可能为源域和目标域的公共特征。因此,本发明的方法能够提高语音增强鲁棒性和性能,方法巧妙新颖,具有良好的应用前景。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.基于自注意多核最大均值差异的迁移学习语音增强方法,其特征在于:包括以下步骤,
步骤(A),从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;
步骤(B),利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;
步骤(C),构建基于深层神经网络的语音增强模型,作为基线模型;
步骤(D),根据基线模型,构建自注意多核最大均值差异的迁移学习语音增强模型;
步骤(E),训练阶段,训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型;
步骤(F),增加阶段,根据训练后的自注意多核最大均值差异的迁移学习语音增强模型,输入目标域带噪语音的帧级特征,重建增强语音波形。
2.根据权利要求1所述的基于自注意多核最大均值差异的迁移学习语音增强方法,其特征在于:步骤(C),构建基于深层神经网络的语音增强模型,作为基线模型,所述基线模型为4层DNN语音增强模型,前两层为特征编码器,后两层为重建解码器。
3.根据权利要求2所述的基于自注意多核最大均值差异的迁移学习语音增强方法,其特征在于:步骤(D),构建自注意多核最大均值差异的迁移学习语音增强模型,是在特征编码器、重建解码器之间增加一层自注意力层,其中不带标签的目标域数据的GFCC特征通过特征编码器后,进行自注意力加权,加权后的特征经过重建解码器请进行理想浮值掩蔽的重构。
4.根据权利要求3所述的基于自注意多核最大均值差异的迁移学习语音增强方法,其特征在于:所述自注意力层的自注意力加权过程如下,
(D1),设通过特征编码器的输出是Xfeature_encoder,根据公式(1),计算其的对齐向量align,
align=tanh(Xfeature_encoder×W)×V (1)
其中,W,V∈RN×N是注意力机制中的待训练参数,N是自注意力层内编码器最后一层隐层单元数,也代表了新的特征空间维度;tanh函数为双曲正切函数,对齐向量的对应分数,如公式(2)所示,
score=sigmod(align+ε) (2)
其中,ε为可调因子,对齐向量的对应分数score取值在0到1之间;
(D2),根据公式(3),获得新的加权特征
其中,ο表示hardarm相乘,对于单个样本而言,即是对其各个特征进行加权。
5.根据权利要求1所述的基于自注意多核最大均值差异的迁移学习语音增强方法,其特征在于:步骤(E),训练阶段,训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型,包括两条训练数据流向,分别为训练带标签的源域数据的GFCC特征和训练不带标签的目标域数据的GFCC特征,具体如下:
(E1),两个训练数据流向的数据同时通过两层的特征编码器,通过隐层神经元将输入特征延展到更高维度;
(E2),通过自注意力层后,两条训练数据流向的数据,即源域的自注意特征Asrc与目标域的自注意特征Atar汇集在适应层中计算源域和目标域自注意特征的多核最大均值差异的平方作为整个神经网络损失函数的一部分lD,该lD如公式(4)所示,
其中,MMD2[X,Y]为多核最大均值差异的平方;高斯核函数X和Y分别表示Asrc与Atar,m和n分别表示Asrc和Atar的维度,所使用的高斯核函数总数M为19,其系数σ2分别为:1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1,5,10,15,20,25,30,35,100,1e3,1e4,1e5,1e6;
(E3),带标签的源域自注意特征Asrc在经过适应层后会继续输入重建解码器中进行理想浮值掩蔽的重构,如公式(5)所示,
其中,θIRM_en为重建解码器层对应的网络参数,利用重构的理想浮值掩蔽和源域标签信息Y,计算平均绝对误差mae,作为整个神经网络损失函数的另一部分lG,如公式(6)所示,
其中,mae为平均绝对误差计算函数;
(E4),整个神经网络损失函数l,如公式(7)所示,
l=lG+ω*lD (7)
其中,ω为权重,用来调节二者对抗程度的参数。
6.根据权利要求1所述的基于自注意多核最大均值差异的迁移学习语音增强方法,其特征在于:步骤(F),增加阶段,根据训练后的自注意多核最大均值差异的迁移学习语音增强模型,输入目标域带噪语音的帧级特征,重建增强语音波形,是利用目标域带噪语音中的相位信息通过反向傅里叶变换得到增强语音的时域波形,并通过重叠相加算法合成得到整个增强语音波形。
CN201910385769.2A 2019-05-09 2019-05-09 基于自注意多核最大均值差异的迁移学习语音增强方法 Active CN110111803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910385769.2A CN110111803B (zh) 2019-05-09 2019-05-09 基于自注意多核最大均值差异的迁移学习语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910385769.2A CN110111803B (zh) 2019-05-09 2019-05-09 基于自注意多核最大均值差异的迁移学习语音增强方法

Publications (2)

Publication Number Publication Date
CN110111803A true CN110111803A (zh) 2019-08-09
CN110111803B CN110111803B (zh) 2021-02-19

Family

ID=67489188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910385769.2A Active CN110111803B (zh) 2019-05-09 2019-05-09 基于自注意多核最大均值差异的迁移学习语音增强方法

Country Status (1)

Country Link
CN (1) CN110111803B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619886A (zh) * 2019-10-11 2019-12-27 北京工商大学 一种针对低资源土家语的端到端语音增强方法
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN110853653A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于自注意力和迁移学习的声纹识别方法
CN111063365A (zh) * 2019-12-13 2020-04-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111145772A (zh) * 2019-12-28 2020-05-12 广州国音智能科技有限公司 一种语音增强方法、系统及设备
CN111327790A (zh) * 2020-03-27 2020-06-23 武汉烛照科技有限公司 一种视频处理芯片
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN111968666A (zh) * 2020-08-20 2020-11-20 南京工程学院 基于深度域自适应网络的助听器语音增强方法
CN112652321A (zh) * 2020-09-30 2021-04-13 北京清微智能科技有限公司 一种基于深度学习相位更加友好的语音降噪系统及方法
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
CN112820301A (zh) * 2021-03-15 2021-05-18 中国科学院声学研究所 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法
CN113762303A (zh) * 2020-11-23 2021-12-07 北京沃东天骏信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN113902104A (zh) * 2021-11-01 2022-01-07 南京工程学院 联合无监督域自适应策略和注意力机制的非侵入式负荷监测方法
CN114067819A (zh) * 2021-11-22 2022-02-18 南京工程学院 基于跨层相似性知识蒸馏的语音增强方法
WO2022196955A1 (ko) * 2021-03-15 2022-09-22 (주)뤼이드 인공지능 모델을 사전 학습시키는 방법 및 장치
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180024968A1 (en) * 2016-07-22 2018-01-25 Xerox Corporation System and method for domain adaptation using marginalized stacked denoising autoencoders with domain prediction regularization
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN108133702A (zh) * 2017-12-20 2018-06-08 重庆邮电大学 一种基于mee优化准则的深度神经网络语音增强模型
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN108875918A (zh) * 2018-08-14 2018-11-23 西安交通大学 一种基于适配共享深度残差网络的机械故障迁移诊断方法
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN108985378A (zh) * 2018-07-20 2018-12-11 天津师范大学 一种基于混合交叉深度网络的域自适应方法
CN109376578A (zh) * 2018-08-27 2019-02-22 杭州电子科技大学 一种基于深度迁移度量学习的小样本目标识别方法
CN109600627A (zh) * 2018-12-11 2019-04-09 国信优易数据有限公司 一种视频识别方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180024968A1 (en) * 2016-07-22 2018-01-25 Xerox Corporation System and method for domain adaptation using marginalized stacked denoising autoencoders with domain prediction regularization
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN108133702A (zh) * 2017-12-20 2018-06-08 重庆邮电大学 一种基于mee优化准则的深度神经网络语音增强模型
CN108985378A (zh) * 2018-07-20 2018-12-11 天津师范大学 一种基于混合交叉深度网络的域自适应方法
CN108875918A (zh) * 2018-08-14 2018-11-23 西安交通大学 一种基于适配共享深度残差网络的机械故障迁移诊断方法
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN109376578A (zh) * 2018-08-27 2019-02-22 杭州电子科技大学 一种基于深度迁移度量学习的小样本目标识别方法
CN109600627A (zh) * 2018-12-11 2019-04-09 国信优易数据有限公司 一种视频识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAMING CHENG ET AL: "A Deep Adaptation Network for Speech Enhancement Combining a Relativistic Discriminator with Multi-Kernel Maximum Mean Discrepancy", 《JOURNAL OF LATEX CLASS FILES》 *
RUIYU LIANG ET AL: "Transfer Learning Algorithm for Enhancing the Unlabeled Speech", 《IEEE ACCESS》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619886A (zh) * 2019-10-11 2019-12-27 北京工商大学 一种针对低资源土家语的端到端语音增强方法
CN110619886B (zh) * 2019-10-11 2022-03-22 北京工商大学 一种针对低资源土家语的端到端语音增强方法
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN110739002B (zh) * 2019-10-16 2022-02-22 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN110739003B (zh) * 2019-10-23 2022-10-28 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN110853653A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于自注意力和迁移学习的声纹识别方法
CN111063365A (zh) * 2019-12-13 2020-04-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111063365B (zh) * 2019-12-13 2022-06-07 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111145772A (zh) * 2019-12-28 2020-05-12 广州国音智能科技有限公司 一种语音增强方法、系统及设备
CN111327790A (zh) * 2020-03-27 2020-06-23 武汉烛照科技有限公司 一种视频处理芯片
CN111883166B (zh) * 2020-07-17 2024-05-10 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN111968666A (zh) * 2020-08-20 2020-11-20 南京工程学院 基于深度域自适应网络的助听器语音增强方法
CN112652321A (zh) * 2020-09-30 2021-04-13 北京清微智能科技有限公司 一种基于深度学习相位更加友好的语音降噪系统及方法
CN112652321B (zh) * 2020-09-30 2023-05-02 北京清微智能科技有限公司 一种基于深度学习相位更加友好的语音降噪系统及方法
CN113762303A (zh) * 2020-11-23 2021-12-07 北京沃东天骏信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN113762303B (zh) * 2020-11-23 2024-05-24 北京沃东天骏信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN112767959B (zh) * 2020-12-31 2023-10-17 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
WO2022196955A1 (ko) * 2021-03-15 2022-09-22 (주)뤼이드 인공지능 모델을 사전 학습시키는 방법 및 장치
CN112820301B (zh) * 2021-03-15 2023-01-20 中国科学院声学研究所 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法
CN112820301A (zh) * 2021-03-15 2021-05-18 中国科学院声学研究所 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法
CN113902104A (zh) * 2021-11-01 2022-01-07 南京工程学院 联合无监督域自适应策略和注意力机制的非侵入式负荷监测方法
CN114067819A (zh) * 2021-11-22 2022-02-18 南京工程学院 基于跨层相似性知识蒸馏的语音增强方法
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN115359784B (zh) * 2022-10-21 2023-01-17 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统

Also Published As

Publication number Publication date
CN110111803B (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN110111803A (zh) 基于自注意多核最大均值差异的迁移学习语音增强方法
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Xu et al. A regression approach to speech enhancement based on deep neural networks
CN109524020B (zh) 一种语音增强处理方法
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN111429947B (zh) 一种基于多级残差卷积神经网络的语音情感识别方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN103345923A (zh) 一种基于稀疏表示的短语音说话人识别方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN105023580A (zh) 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
Daqrouq et al. Average framing linear prediction coding with wavelet transform for text-independent speaker identification system
Shi et al. Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation.
CN105488466A (zh) 一种深层神经网络和水声目标声纹特征提取方法
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN114428234A (zh) 基于gan和自注意力的雷达高分辨距离像降噪识别方法
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
Khatatneh A novel Arabic Speech Recognition method using neural networks and Gaussian Filtering.
CN111816187A (zh) 复杂环境下基于深层神经网络的语音特征映射方法
Li et al. Speech Recognition Approach Based on Speech Feature Clustering and HMM.
CN111920390A (zh) 一种基于嵌入式终端的鼾声检测方法
CN113066483A (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
Alex et al. Performance analysis of SOFM based reduced complexity feature extraction methods with back propagation neural network for multilingual digit recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant