CN110739003A - 基于多头自注意力机制的语音增强方法 - Google Patents

基于多头自注意力机制的语音增强方法 Download PDF

Info

Publication number
CN110739003A
CN110739003A CN201911012632.9A CN201911012632A CN110739003A CN 110739003 A CN110739003 A CN 110739003A CN 201911012632 A CN201911012632 A CN 201911012632A CN 110739003 A CN110739003 A CN 110739003A
Authority
CN
China
Prior art keywords
feature
speech
attention
voice
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911012632.9A
Other languages
English (en)
Other versions
CN110739003B (zh
Inventor
常新旭
袁晓光
张杨
寇金桥
杨林
吴敏
王昕�
徐冬冬
赵晓燕
闫帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201911012632.9A priority Critical patent/CN110739003B/zh
Publication of CN110739003A publication Critical patent/CN110739003A/zh
Application granted granted Critical
Publication of CN110739003B publication Critical patent/CN110739003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于多头自注意力机制的语音增强方法,涉及语音增强技术领域。本发明本发明针对现有基于注意力机制的语音增强方法无法在注意力计算过程中明显抑制噪声的问题,基于对人类在听觉感知的过程中存在掩蔽效应的研究及利用,提出了一种基于多头自注意力机制的语音增强方法,该方法实现了在注意力机制运算的过程中抑制噪声部分,提高了语音增强性能。

Description

基于多头自注意力机制的语音增强方法
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于多头自注意力机制的语音增强方法。
背景技术
语音增强技术作为信号处理过程当中一个基本环节,在语音识别、移动通信和人工听觉等诸多领域有着广泛的应用前景。其主要目的是提高被噪声污染语音的质量和可懂度。最近,随着深度学习技术的兴起,基于深度神经网络(Deep NeuralNetwork,DNN)的有监督语音增强方法取得了巨大的成功,特别是在低信噪比和非平稳噪声的情况下,相较于传统方法表现出了更强大的优势。
与机器相比,人类可以在吵闹的环境中与他人聊天时,忽略背景噪声的干扰而听到对方说话的声音。这是由于人类可以轻易地将注意力放在感兴趣的声音上从而忽略其他声音。这一现象也被称为鸡尾酒会效应。这一效应表明,听觉注意在人类处理复杂听觉场景时是至关重要的。因此,在语音增强任务中融入注意力机制应该能够有效提高增强语音的质量与可懂度。
目前,注意力机制已经被应用在语音增强领域并取得成功。基于注意力机制的语音增强方法,利用注意力机制计算当前待增强帧与过去多帧之间的相似度并为过去帧赋权,相较LSTM-RNN方法提升了增强语音的质量和可懂度。但是,由于输入模型的语音特征在每个时频单元上既包含干净语音的信息也包含噪声信息,该方法在赋权时相当于同时放大了干净语音信息和噪声信息,并没有明显地抑制噪声部分。
因此,如何在注意力机制运算的过程中抑制噪声部分,是提高语音增强性能的一个突破口,是当前需要解决的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何在注意力机制运算的过程中抑制噪声部分,提高语音增强性能。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于多头自注意力机制的语音增强方法,包括以下步骤:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:构建基于多头自注意力机制的语音增强模型;
步骤三:将步骤一提取的数据对所述语音增强模型进行训练;
步骤四:将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型,输出得到相应的干净语音特征估计;
步骤五:将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构,恢复语音信号。
优选地,步骤一具体为:
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建用于训练网络的干净语音特征和含噪语音特征的数据对,其中,计算对数功率谱时的帧长为512个点,帧移为256点,所计算出的特征维度为257。
优选地,步骤二构建的基于多头自注意力机制的语音增强模型包含两个部分:编码器和解码器,模型输入为以第n帧为中心的相邻多帧对数功率谱特征,即:X=(xn-m,xn-m+1,...,xn,...,xn+m-1,xn+m),m为整数,编码器将输入的所述相邻多帧对数功率谱特征重新编码得到高层特征表示序列Z=(zn-N,zn-N+1,...,zn,...,zn-N+1,zn+N),N为整数,解码器最终根据编码器生成的所述高层特征表示序列生成当前待增强语音的干净语音特征估计
Figure BDA0002244649310000033
优选地,所述编码器由独立的网络层组成,称其为transformer层,每个网络层由两个子层组成,第一层为多头自注意力层用于执行多头自注意力运算,第二层为以帧为单位的全连接前馈神经网络用于在多头自注意力运算之后抑制语音信号中的噪声干扰,两个子层采用残差连接,为了将在输入特征中增加时序信息,采用三角函数来编码时序信息,得到编码后的时序信息:
Figure BDA0002244649310000031
Figure BDA0002244649310000032
其中,pos表示时序信息,i表示特征维数,dmodel表示编码器每一层的输出维数。
优选地,多头自注意力层中计算注意力的打分函数使用缩放点击模型。
优选地,多头自注意力运算定义如下:
Multi-Head(Q,K,V)=concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
Figure BDA0002244649310000041
其中,Q,K,V分别表示计算的注意力相关查询、键和值,dk表示键的维数。为线性映射的参数矩阵,h为子空间的个数,concat为向量拼接操作。
优选地,所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计,采用的方法是使用GRU-RNN对编码器生成的高层特征表示序列Z进行解码,将其最后一步的输出作为当前待增强语音的干净特征估计。
优选地,所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计,采用的方法是自注意力解码方法,在解码阶段对编码器生成的高层特征表示序列Z再次施加多头自注意力运算,将当前帧的输出作为待增强语音的干净特征估计。
优选地,步骤三中,含噪语音特征为训练特征,干净语音特征为训练目标。
优选地,步骤五中,将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱,通过逆傅里叶变换重构时域波形信号,最终得到增强的语音信号。
(三)有益效果
本发明本发明针对现有基于注意力机制的语音增强方法无法在注意力计算过程中明显抑制噪声的问题,基于对人类在听觉感知的过程中存在掩蔽效应的研究及利用,提出了一种基于多头自注意力机制的语音增强方法,该方法实现了在注意力机制运算的过程中抑制噪声部分,提高了语音增强性能。
附图说明
图1为本发明设计的编码器-解码器架构原理图;
图2为本发明中的transformer网络层结构原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
当前基于注意力机制的语音增强方法在应用注意力机制的过程中,同时放大了干净语音信息和噪声信息,并没有明显抑制噪声部分。针对此问题,本发明提出一种基于多头自注意力机制的语音增强方法。由于,人类在听觉感知的过程中存在掩蔽效应,能量较弱的信号会被能量较高的信号所掩蔽。根据这一效应,通过在连续输入的相邻多帧语音特征上施加多头自注意力运算,计算输入的每一帧语音特征与其他语音特征的相似度并且为每一帧语音信号赋权,得到输入特征的高层抽象特征表示序列,可以使得输入特征的干净语音部分和噪声部分有较为明显的区分,换言之,如果某一帧信号以干净语音为主导,则经过自注意力运算之后会包含更多的语音信息,反之如果以噪声为主导,则会包含更多的噪声信息,从而使后续基于独立帧运算的全连接网络可以更有效地抑制语音中的噪声部分。具体流程如下:
步骤一:混合实验数据,提取对数功率谱特征
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建用于训练网络的干净语音特征和含噪语音特征的数据对,其中,计算对数功率谱时的帧长为512个点,帧移为256点,所计算出的特征维度为257;
步骤二:搭建基于多头自注意力机制的语音增强模型
本发明中基于门控循环神经网络的语音增强模型主要包含两个部分:编码器和解码器,整体结构如图1所示,网络输入为以第n帧为中心的相邻多帧对数功率谱特征,即:X=(xn-m,xn-m+1,...,xn,...,xn+m-1,xn+m),m为整数,编码器将输入的所述相邻多帧对数功率谱特征重新编码得到高层特征表示序列Z=(zn-N,zn-N+1,...,zn,...,zn-N+1,zn+N),N为整数,解码器最终根据编码器生成的所述高层特征表示序列生成当前待增强语音的干净语音特征估计S~n,这一过程用公式表示如下:
Z=Encoder(X)
Figure BDA0002244649310000061
其中,编码器由独立的网络层组成,称其为transformer层,每个网络层由两个子层组成,第一层为多头自注意力层用于执行多头自注意力运算,第二层为以帧为单位的全连接前馈神经网络用于在多头自注意力运算之后抑制语音信号中的噪声干扰,两个子层采用残差连接,并且施加层标准化。编码器结构如图2所示。同时,由于以上结构在注意力计算时是以帧为单位运算没有利用到序列位置信息,而语音信号具有时序特性,因此为充分利用相邻帧之间的上下文关系,需要为编码器输入添加时序信息。为了将在输入特征中增加时序信息,采用三角函数来编码时序信息,得到编码后的时序信息:
Figure BDA0002244649310000071
Figure BDA0002244649310000072
其中,pos表示时序信息(位置),i表示特征维数,dmodel表示编码器每一层的输出维数。
其中的多头自注意力层是本发明的关键所在,自注意力是指计算注意力所需要的查询和键值对来自同一个地方。多头注意力是注意力机制的一种变体,利用多次查询并行地从输入信息中提取到多组不同信息进行拼接,其优点在于可以从不同的子空间中获取到相关信息。多头注意力先将查询矩阵、键矩阵和值矩阵映射到多个不同的子空间中,分别计算各个子空间中的注意力,最后将各子空间的输出拼接在一起。对于语音增强任务而言,能量高的语音信号会掩盖能量低的语音信号,通过对输入语音特征序列施加多头自注意力运算,可以使得输入序列中的特征以干净语音信息或者噪声信息为主导,从而区分干净语音和噪声。本发明计算注意力的打分函数使用缩放点击模型。多头自注意力层执行的多头自注意力运算定义如下:
Multi-Head(Q,K,V)=concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
Figure BDA0002244649310000081
其中,Q,K,V分别表示计算的注意力相关查询、键和值,dk表示键的维数。为线性映射的参数矩阵,h为子空间的个数,concat为向量拼接操作。
解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计。本发明设计了两种不同的解码方法。第一种方法是GRU解码方法,由于RNN及其变体网络擅长处理序列数据,并且其性能已经在语音增强领域得到了验证,因此本发明使用GRU-RNN对编码器生成的高层特征表示序列Z进行解码,将其最后一步的输出作为当前待增强语音的干净特征估计:
Figure BDA0002244649310000083
第二种方法是自注意力解码方法,在解码阶段对编码器生成的高层特征表示序列Z再次施加多头自注意力运算,将当前帧的输出作为待增强语音的干净特征估计。解码器的网络结构和编码器的网络结构相同,实际上相当于额外叠加了transformer层:
Figure BDA0002244649310000084
Figure BDA0002244649310000085
步骤三:训练语音增强模型
将步骤一所提取的含噪语音特征和干净语音特征数据对输入网络进行训练。其中,含噪语音特征为训练特征,干净语音特征为训练目标。
步骤四:估计待增强语音的干净语音特征
将所提取的对数功率谱特征作为待增强语音特征送入训练好的网络,输出得到相应的干净语音特征估计。
步骤五:波形重构,恢复语音信号
将步骤四所得到的待增强语音的干净语音特征估计,结合待增强语音的相位谱,通过逆傅里叶变换(ISTFT)重构时域波形信号,最终得到增强的语音信号。
本发明实施例所使用的干净语音全部来自中文语音数据集Free ST ChineseMandarin Corpus,训练集所使用的噪声来自俄亥俄州立大学语音实验室的100种噪声,测试集使用的噪声来自noisex-92数据库。按照步骤一的方法,首先将所使用的语音数据均重采样为16000hz。对于训练集,本发明从中文数据集中随机选取7000条语音数据,包含700位不同的说话人,每人10条语音。从-10db,-5db,0db,5db,10db五种信噪比中随机选取一种信噪比,按照该信噪比将干净语音与从训练集噪声中随机选取的两种噪声进行混合,构成14000(7000*2)条数据。对于测试集,实施例从中文数据集中选取与训练集语音数据完全不同的150条语音,包含30位不同的说话人,每人5条语音。测试集噪声选取了noisex92数据集中的五种不同噪声,分别是babble、leopard、m109、machinegun和volvo。按照-6db、0db和6db三种不同信噪比,将150条干净语音和5种噪声进行匹配混合,得到2250(150*4*3)条含噪语音。
为了验证本发明的性能,选取了DNN自回归语音增强方法(简记为DNN)和基于GRU的语音增强方法(简记为GRU)作为基线方法,对比本发明所提出的基于多头自注意力机制语音增强方法。其中,使用GRU解码器的方法简记为self-attention-gru,使用自注意力解码器的方法简记为self-attention,加入时序信息的方法简记为time-xx。DNN网络层数为4,激活函数为ReLU,每个隐藏层包含2048个节点,并且每个隐藏层之后接一个dropout层,dropout层的比例为0.2,网络输入为相邻连续7帧对数功率谱特征。GRU网络层数为2,每层包含1024个节点,网络输入为相邻连续15帧对数功率谱特征。
对语音增强效果的评估采用感知语音质量(Perceptual Evaluation of SpeechQuality,PESQ)和短时客观可懂度(Short time objective intelligibility,STOI)两种评价指标。
由表1可以看出,在三种不同信噪比、不同说话人,六种不同噪声类型的环境下,本文提出的三种利用多头自注意力机制的语音增强方法的语音增强效果明显优于两种基线方法。这表明,在语音增强任务中加入多头自注意力机制,可以有效提升增强语音的语音质量和可懂度。
Figure BDA0002244649310000111
表1不同方法的语音增强性能比较
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于多头自注意力机制的语音增强方法,其特征在于,包括以下步骤:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:构建基于多头自注意力机制的语音增强模型;
步骤三:将步骤一提取的数据对所述语音增强模型进行训练;
步骤四:将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型,输出得到相应的干净语音特征估计;
步骤五:将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构,恢复语音信号。
2.如权利要求1所述的方法,其特征在于,步骤一具体为:
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建用于训练网络的干净语音特征和含噪语音特征的数据对,其中,计算对数功率谱时的帧长为512个点,帧移为256点,所计算出的特征维度为257。
3.如权利要求2所述的方法,其特征在于,步骤二构建的基于多头自注意力机制的语音增强模型包含两个部分:编码器和解码器,模型输入为以第n帧为中心的相邻多帧对数功率谱特征,即:X=(xn-m,xn-m+1,...,xn,...,xn+m-1,xn+m),m为整数,编码器将输入的所述相邻多帧对数功率谱特征重新编码得到高层特征表示序列Z=(zn-N,zn-N+1,...,zn,...,zn-N+1,zn+N),N为整数,解码器最终根据编码器生成的所述高层特征表示序列生成当前待增强语音的干净语音特征估计
Figure FDA0002244649300000024
4.如权利要求3所述的方法,其特征在于,所述编码器由独立的网络层组成,称其为transformer层,每个网络层由两个子层组成,第一层为多头自注意力层用于执行多头自注意力运算,第二层为以帧为单位的全连接前馈神经网络用于在多头自注意力运算之后抑制语音信号中的噪声干扰,两个子层采用残差连接,为了将在输入特征中增加时序信息,采用三角函数来编码时序信息,得到编码后的时序信息:
Figure FDA0002244649300000021
Figure FDA0002244649300000022
其中,pos表示时序信息,i表示特征维数,dmodel表示编码器每一层的输出维数。
5.如权利要求4所述的方法,其特征在于,多头自注意力层中计算注意力的打分函数使用缩放点击模型。
6.如权利要求5所述的方法,其特征在于,多头自注意力运算定义如下:
Multi-Head(Q,K,V)=concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
Figure FDA0002244649300000023
其中,Q,K,V分别表示计算的注意力相关查询、键和值,dk表示键的维数。
Figure FDA0002244649300000031
为线性映射的参数矩阵,h为子空间的个数,concat为向量拼接操作。
7.如权利要求3所述的方法,其特征在于,所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计,采用的方法是使用GRU-RNN对编码器生成的高层特征表示序列Z进行解码,将其最后一步的输出作为当前待增强语音的干净特征估计。
8.如权利要求3所述的方法,其特征在于,所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计,采用的方法是自注意力解码方法,在解码阶段对编码器生成的高层特征表示序列Z再次施加多头自注意力运算,将当前帧的输出作为待增强语音的干净特征估计。
9.如权利要求8所述的方法,其特征在于,步骤三中,含噪语音特征为训练特征,干净语音特征为训练目标。
10.如权利要求9所述的方法,其特征在于,步骤五中,将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱,通过逆傅里叶变换重构时域波形信号,最终得到增强的语音信号。
CN201911012632.9A 2019-10-23 2019-10-23 基于多头自注意力机制的语音增强方法 Active CN110739003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911012632.9A CN110739003B (zh) 2019-10-23 2019-10-23 基于多头自注意力机制的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911012632.9A CN110739003B (zh) 2019-10-23 2019-10-23 基于多头自注意力机制的语音增强方法

Publications (2)

Publication Number Publication Date
CN110739003A true CN110739003A (zh) 2020-01-31
CN110739003B CN110739003B (zh) 2022-10-28

Family

ID=69270991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911012632.9A Active CN110739003B (zh) 2019-10-23 2019-10-23 基于多头自注意力机制的语音增强方法

Country Status (1)

Country Link
CN (1) CN110739003B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341331A (zh) * 2020-02-25 2020-06-26 厦门亿联网络技术股份有限公司 基于局部注意力机制的语音增强方法、装置及介质
CN111553821A (zh) * 2020-05-13 2020-08-18 电子科技大学 基于教师学生网络和多头解码器的应用题自动解题方法
CN111968666A (zh) * 2020-08-20 2020-11-20 南京工程学院 基于深度域自适应网络的助听器语音增强方法
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
CN112992121A (zh) * 2021-03-01 2021-06-18 德鲁动力科技(成都)有限公司 基于注意力残差学习的语音增强方法
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN113744753A (zh) * 2021-08-11 2021-12-03 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法
CN116189703A (zh) * 2023-04-24 2023-05-30 苏州大学 一种全局多头注意力语音增强方法
CN117351983A (zh) * 2023-12-06 2024-01-05 深圳市龙芯威半导体科技有限公司 一种基于Transformer的语音降噪方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324322B1 (en) * 2013-06-18 2016-04-26 Amazon Technologies, Inc. Automatic volume attenuation for speech enabled devices
WO2018168509A1 (en) * 2017-03-13 2018-09-20 Mitsubishi Electric Corporation Speech recognition system
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
CN109256144A (zh) * 2018-11-20 2019-01-22 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN109389990A (zh) * 2017-08-09 2019-02-26 2236008安大略有限公司 加强语音的方法、系统、车辆和介质
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324322B1 (en) * 2013-06-18 2016-04-26 Amazon Technologies, Inc. Automatic volume attenuation for speech enabled devices
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
WO2018168509A1 (en) * 2017-03-13 2018-09-20 Mitsubishi Electric Corporation Speech recognition system
CN109389990A (zh) * 2017-08-09 2019-02-26 2236008安大略有限公司 加强语音的方法、系统、车辆和介质
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
CN109256144A (zh) * 2018-11-20 2019-01-22 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: "Attention is all you need", 《NIPS》 *
CHIEN-FENG LIAO 等: "Incorporating Symbolic Sequential Modeling for Speech Enhancement", 《ARXIV》 *
JAEYOUNG KIM等: "Transformer with gaussian weighted self-attention for speech enhancement", 《ARXIV》 *
XIANG HAO: "An Attention-based Neural Network Approach for Single Channel Speech Enhancement", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
龙星延 等: "采用最少门单元结构的改进注意力声学模型", 《信号处理》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341331A (zh) * 2020-02-25 2020-06-26 厦门亿联网络技术股份有限公司 基于局部注意力机制的语音增强方法、装置及介质
CN111553821A (zh) * 2020-05-13 2020-08-18 电子科技大学 基于教师学生网络和多头解码器的应用题自动解题方法
CN111553821B (zh) * 2020-05-13 2021-04-27 电子科技大学 基于教师学生网络和多头解码器的应用题自动解题方法
CN111968666A (zh) * 2020-08-20 2020-11-20 南京工程学院 基于深度域自适应网络的助听器语音增强方法
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
CN112767959B (zh) * 2020-12-31 2023-10-17 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
CN112992121B (zh) * 2021-03-01 2022-07-12 德鲁动力科技(成都)有限公司 基于注意力残差学习的语音增强方法
CN112992121A (zh) * 2021-03-01 2021-06-18 德鲁动力科技(成都)有限公司 基于注意力残差学习的语音增强方法
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN113611323B (zh) * 2021-05-07 2024-02-20 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN113744753A (zh) * 2021-08-11 2021-12-03 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
CN113744753B (zh) * 2021-08-11 2023-09-08 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法
CN116189703A (zh) * 2023-04-24 2023-05-30 苏州大学 一种全局多头注意力语音增强方法
CN117351983A (zh) * 2023-12-06 2024-01-05 深圳市龙芯威半导体科技有限公司 一种基于Transformer的语音降噪方法及系统
CN117351983B (zh) * 2023-12-06 2024-04-19 深圳市龙芯威半导体科技有限公司 一种基于Transformer的语音降噪方法及系统

Also Published As

Publication number Publication date
CN110739003B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN110739003B (zh) 基于多头自注意力机制的语音增强方法
JP7258182B2 (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN111223493A (zh) 语音信号降噪处理方法、传声器和电子设备
CN110867192A (zh) 基于门控循环编解码网络的语音增强方法
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
Zezario et al. Self-supervised denoising autoencoder with linear regression decoder for speech enhancement
Li et al. Real-time monaural speech enhancement with short-time discrete cosine transform
CN113539232B (zh) 一种基于慕课语音数据集的语音合成方法
CN111508519A (zh) 一种音频信号人声增强的方法及装置
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
CN113808602A (zh) 语音增强方法、模型训练方法以及相关设备
Wang et al. Caunet: Context-aware u-net for speech enhancement in time domain
Fu et al. Boosting objective scores of a speech enhancement model by metricgan post-processing
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
CN110675888A (zh) 一种基于RefineNet和评价损失的语音增强方法
JP2023548707A (ja) 音声強調方法、装置、機器及びコンピュータプログラム
CN114360571A (zh) 基于参考的语音增强方法
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
Ma et al. Multi-scale attention neural network for acoustic echo cancellation
Hou et al. A real-time speech enhancement algorithm based on convolutional recurrent network and Wiener filter
Yu et al. Group Multi-Scale Convolutional Network for Monaural Speech Enhancement in Time-domain
Jannu et al. DCT based densely connected convolutional GRU for real-time speech enhancement
CN117711417B (zh) 一种基于频域自注意力网络的语音质量增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant