CN115602152B - 一种基于多阶段注意力网络的语音增强方法 - Google Patents

一种基于多阶段注意力网络的语音增强方法 Download PDF

Info

Publication number
CN115602152B
CN115602152B CN202211599500.2A CN202211599500A CN115602152B CN 115602152 B CN115602152 B CN 115602152B CN 202211599500 A CN202211599500 A CN 202211599500A CN 115602152 B CN115602152 B CN 115602152B
Authority
CN
China
Prior art keywords
matrix
attention
representing
encoder
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211599500.2A
Other languages
English (en)
Other versions
CN115602152A (zh
Inventor
刘鹏
曾帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202211599500.2A priority Critical patent/CN115602152B/zh
Publication of CN115602152A publication Critical patent/CN115602152A/zh
Application granted granted Critical
Publication of CN115602152B publication Critical patent/CN115602152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Abstract

一种基于多阶段注意力网络的语音增强方法,包括如下步骤:S1.构建语音样本数据集,对其进行预处理,得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵;S2.构建基于全局上下文感知和局部注意力的语音增强模型,所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器;S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理,S22.编码器输出矩阵X输入增强网络进行数据处理,S23.输入到解码器当中,得到解码器输出矩阵,重构出增强语音。本发明能够在语音特征建模阶段兼顾全局上下文信息和局部细节特征,有效提升模型的语音增强性能,改善语音质量及提高可懂度。

Description

一种基于多阶段注意力网络的语音增强方法
技术领域
本发明属于语音信号前端处理技术领域,具体涉及一种基于多阶段注意力网络的语音增强方法。
背景技术
语音增强作为一种前端信号处理技术,能够将带噪语音中的噪声消除,提取纯净语音,该技术在语音识别,人工耳蜗和通信等领域具有广泛应用前景。
近年来,得益于人工智能技术的快速发展,相比于依赖假设的传统语音增强方法,基于深度学习的有监督语音增强方法能够更好解决低信噪比条件中非平稳噪声的降噪问题。在基于深度学习的增强中,通过构建深度神经网络提取样本语音数据特征,自动学习数据中含噪语音和纯净语音之间的非线性映射关系,避免传统方法的固有缺陷,取得更好的降噪效果。
而目前的基于深度学习的语音增强中,循环神经网络(RNN)作为一种具有记忆功能并适合处理和预测时间序列的神经网络,常被应用于对音频序列数据建模。但由于RNN本身计算的特性,其输出只受当前帧和上一帧输出的影响,对于距离较远的信息无法关注。而语音作为一种时间序列,当前时刻的信息与序列中其他时刻的信息是相关的,即上下文信息对于语音建模非常重要。而Transformer网络(一种神经网络模型)由于其自身的多头自注意力机制,在对序列建模时会将当前帧的信息和所有帧的信息进行加权计算,从而捕捉数据的长时依赖特性,对于语音的全局上下文信息建模更有帮助。此外,只在单个阶段对语音序列全局信息建模时,会容易忽略其中的局部细节信息,使得模型提取特征不完整,进而可能导致模型性能下降。
发明内容
针对现有技术存在的不足,本发明提供一种基于全局上下文感知和局部注意力的语音增强方法,该方法旨在:(1)构建一种双路并行Transformer结构,该结构包含两个支路模块,两个支路模块以并联的方式连接到一起处理输入数据,达到降低不同支路模块输出性能的差异的目的;同时支路模块都是有Transformer网络组成,通过Transformer擅长捕捉序列信息中长时依赖特性的特性,使模型具备全局上下文感知的能力。(2)进一步的,为避免语音中的局部信息被忽略,通过加入通道注意力和空间注意力模块,利用卷积神经网络中擅长捕捉数据局部特征的能力,对语音的局部细节信息进行建模,捕捉重要的音节、音素等特征信息。
本发明所述基于多阶段注意力网络的语音增强方法,包括如下步骤:
S1.构建语音样本数据集,对其进行预处理,得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵;
S2.构建基于全局上下文感知和局部注意力的语音增强模型,所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器;所述增强网络由两个相互连接的模块构成,包括与编码器连接的全局上下文感知模块和与解码器连接的局部注意力模块;
其中所述全局上下文感知模块由多个双路并行转换模块组成,所述局部注意力模块由通道注意力模块和空间注意力模块组成;
S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理,得到编码器输出矩阵X:
X=fencoder(E)
其中,
Figure 910748DEST_PATH_IMAGE001
,表示X为维度大小为[C,N,I]的三维矩阵,C表示编码器的输出卷积通道数,I表示输出矩阵X最后一维的维数,fencoder()表示编码器的特征映射;
S22. 编码器输出矩阵X输入增强网络进行数据处理,具体为:
S221. 四个双路并行转换模块分别为两个块内转换模块(Trasnformer)和两个块间转换模块,
编码器输出矩阵X直接输入块内转换模块,同时并转换维度为 [C,I,N]后再输入到块间转换模块;
所述转换模块中的对输入的矩阵X进行加权计算,得到注意力加权后的自注意力矩阵,其计算方式如下:
Figure 359047DEST_PATH_IMAGE002
其中,Q,K,V是由编码器输出矩阵X分别经过线性变换得到的三个矩阵,其维度与X相同,下标i表示第i个线性变换矩阵,head表示自注意力矩阵,Attention()表示自注意力计算函数,T表示矩阵转置操作, softmax()表示激活函数,d表示键向量K的维度大小;
Q表示查询向量,K表示键向量,V表示值向量,
Q=X*WQ, K=X*WK,V=X*WV,
其中,WQ表示查询向量Q的线性变换权重矩阵,WK表示键向量K的线性变换权重矩阵,WV表示值向量V的线性变换权重矩阵,输出矩阵X分别乘以各个权重矩阵,得到Q,K,V,各个权重矩阵都来源于深度神经网络线性层中的参数;
在计算得到每一个自注意力矩阵headi后,进行拼接操作和线性变换,形成多头自注意力函数,过程如下:
Figure 545308DEST_PATH_IMAGE003
其中,Multihead()表示多头自注意力函数,Concat()表示矩阵拼接操作, WH表示线性变换操作,上标H表示注意力的个数;
通过将编码器输出矩阵X输入到双路并行转换模块中处理,通过双路径并行处理的结构,并结合多头自注意力机制,去处理矩阵中全局上下文信息;
经过全局上下文感知转换模块的多头自注意力加权处理后得到一个加权矩阵XT
XT =fTFM(X)
其中, 加权矩阵
Figure 143780DEST_PATH_IMAGE004
,表示XT为维度大小为[C,N,I]的三维矩阵,fTFM()表示转换模块的特征映射,即表示经过全部多个双路并行转换模块(Trasnformer)的加权过程;
S222.将加权矩阵XT输入通道注意力模块中,通过平均池化和最大池化操作分别生成最大池化输出矩阵
Figure 489311DEST_PATH_IMAGE005
和平均池化输出矩阵
Figure 216833DEST_PATH_IMAGE006
,将二者输入到通道注意力模块中的同一卷积层中进行处理,再将两个对应的输出相加后送入到sigmoid函数中,得到通道注意力矩阵;
Figure 15025DEST_PATH_IMAGE007
其中,MC表示通道注意力矩阵,Conv()表示卷积层操作;
然后将 XT与通道注意力矩阵MC相乘再与其本身相加,得到通道注意力模块输出矩阵XC,表示如下:
XC =fCAM(XT,MC)= XT⊙MC⊕XT
空心圆中心加点的符号⊙为哈达玛积的符号,表示相同维度的矩阵各元素对应相乘,⊕表示残差连接;
其中,
Figure 620450DEST_PATH_IMAGE008
,表示XC为维度大小为[C,N,I]的三维矩阵,fCAM()表示通道注意力模块的特征映射;
S223. 将加权矩阵XT同时输入所述空间注意力模块,对加权矩阵XT进行基于全局最大池化和全局平均池化的操作,分别产生全局最大池化矩阵
Figure 820487DEST_PATH_IMAGE009
和全局平均池化矩阵
Figure 220375DEST_PATH_IMAGE010
,再将二者拼接并送入卷积层进行特征融合,最终得到空间注意力函数Ms,
Figure 709125DEST_PATH_IMAGE012
其中,MS表示空间注意力,Concat()表示矩阵拼接操作, Conv()表示卷积层操作,sigmoid表示sigmoid函数;
将S222步骤得到的通道注意力模块输出矩阵XC与本步骤得到的空间注意力函数MS相乘并使用残差连接,得到空间注意力输出矩阵XS
表示如下:
Xs=fSAM(Xc,MS)=Xc⊙MS⊕Xc
其中,XS表示空间注意力输出矩阵,
Figure 977296DEST_PATH_IMAGE013
,表示XS为维度大小为[C,N,I]的三维矩阵, fSAM()表示空间注意力模块的特征映射;
S224.将空间注意力输出矩阵XS输入到掩蔽层当中,提取特征得到掩蔽矩阵M,所述掩蔽层由一个二维卷积层和PReLU函数组成,特征映射为先进行卷积操作后再输入PReLU函数:
M= fmask(XS)
其中,M表示掩蔽矩阵,
Figure 907206DEST_PATH_IMAGE014
,fmask()表示掩蔽层的特征映射;
S23.将编码器输出矩阵X与掩蔽矩阵M相乘,然后输入到解码器当中,得到解码器输出矩阵Y:
Y=fdecoder(X⊙M)
其中,
Figure 868208DEST_PATH_IMAGE015
,表示Y为维度大小为[1,N,I]的三维矩阵,fdecoder()表示解码器的特征映射;
将解码器输出矩阵Y进行重叠相加操作,即将三维的解码器输出矩阵Y拆分为长度为F的N帧数据,再把每帧数据重新拼接形成长度为L的一维语音序列,最终重构出所需的增强语音y,
Figure 17823DEST_PATH_IMAGE016
优选的,所述S1步骤中的预处理为:
S11.将语音数据降频采样;
S12.对降频采样后的数据进行分段处理,将一维语音序列按帧进行分割,然后将每一帧的数据重新拼接到一起,得到一个三维矩阵数据。
其中输入语音序列记为
Figure 824105DEST_PATH_IMAGE017
,L是一维语音序列长度,对序列进行分帧处理,帧移大小记为P,将每一帧的数据进行拼接操作,形成维度大小为[1,N,F]的输入语音三维矩阵,其中F代表每帧的长度,N代表帧数
Figure 874101DEST_PATH_IMAGE018
优选的,所述S2 步骤中构建的语音增强模型在构建完成后采用以下方法进一步训练:
S31.将语音样本数据分批输入进语音增强模型;
S32.输出增强语音;
S33.将增强语音和输入的语音样本数据进行误差计算;
S34.误差反向传播,更新语音增强模型参数;
S35.重复过程S31至S34,直至满足收敛条件。
优选的,所述S33步骤中通过时域均方差损失函数和频域均方差损失函数进行误差计算。
优选的,所述全局上下文感知模块由四个双路并行转换模块组成。
本发明所述的基于多阶段注意力网络的语音增强方法,使用不同的模块去兼顾语音中的全局上下文信息和局部细节信息,通过构建双路并行Transformer模块,将当前帧的信息和其他每一帧的信息进行加权计算,达到对语音的全局上下文信息进行建模的效果;引入通道注意力和空间注意力模块,对语音高维特征中的通道信息和空间信息进行建模,在保证模型关注全局上下文信息的基础上进一步加强模型捕捉局部细节特征的能力。
本发明能够在语音特征建模阶段兼顾全局上下文信息和局部细节特征,有效提升模型的语音增强性能,改善语音质量及提高可懂度。
附图说明
图1是本发明所述语音增强模型的一个具体实施方式示意图;
图2是本发明所述双路并行Transformer模块的具体工作方式示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述的基于多阶段注意力网络的语音增强方法,采用以下步骤实现:
S1.构建语音样本数据集,对其进行预处理,步骤如下:
S11.将原本采样率为48000HZ的纯净语音数据和含噪语音数据降采样到16000Hz,目的是为了降低频率,减少数据量;
S12.对降频后的数据进行分段处理,将输入语音序列按帧进行分割,然后将每一帧的数据重新拼接到一起,得到一个三维矩阵数据。
其中输入语音序列记为
Figure 740426DEST_PATH_IMAGE017
,L是输入语音序列长度,对输入语音序列进行分帧处理,帧移大小记为P,分帧后得到N帧,每一帧语音数据是一个大小为[1,F]的二维矩阵,将每一帧的数据进行拼接操作,即将N个大小为[1,F]的二维矩阵重叠拼接到一起,形成一个维度大小为[1,N,F]的输入语音三维矩阵,记为
Figure 875872DEST_PATH_IMAGE019
,其中,F代表每帧的长度, N的计算过程如下:
Figure 485845DEST_PATH_IMAGE020
S2.构建基于全局上下文感知和局部注意力的语音增强模型并处理语音样本数据集,具体示意图如附图1 所示。
其中语音增强模型包括:编码器、增强网络和解码器;所述增强网络由两个模块构成,包括全局上下文感知模块和局部注意力模块;其中所述全局上下文感知模块由四个双路并行Transformer组成,所述局部注意力模块由通道注意力模块和空间注意力模块组成;
采用上述语音增强模型处理语音样本数据集的具体步骤如下:
S21.把步骤S1处理后得到的输入语音三维矩阵E送入编码器,编码器由二维卷积层组成,对矩阵信息进行特征编码,然后输入到增强网络中进行特征提取;输入语音三维矩阵E输入到编码器中通过二维卷积层进行编码处理,得到编码器输出矩阵,过程表示如下:
X=fencoder(E)
其中,X是编码器输出矩阵,
Figure 390347DEST_PATH_IMAGE021
,C表示编码器的输出卷积通道数,I表示输出矩阵X最后一维的维数,fencoder()表示编码器的特征映射,其中C和I由卷积神经网络的配置决定。
S22.在增强网络中,使用双路并行Transformer网络作为全局上下文感知模块,使用通道注意力和空间注意力网络作为局部注意力模块,达到兼顾语音的全局上下文信息和局部细节特征的目的,各注意力模块具体如下所示:
S221.如图1和2所示,四个双路并行Transformer模块结构相同,每一个双路并行Transformer模块由一个块内Transformer模块和一个块间Transformer模块组成,通过使用块内和块间两种Transformer模块并联的方式,利用Transformer网络中的多头自注意力机制,对语音特征序列中不同维度信息交替建模,在保证提取丰富的语音序列特征的前提下,又尽量避免原始输入特征的丢失,并且通过并联输入的方式能够减少两个子模块输出性能的差异,从而达到有效关注全局上下文信息的目的。
使用Transformer模块的数量过少,会由于网络层数不够深,特征提取能力下降,难以获取所需的高维全局特征信息,而该模块若使用过多,会使模型参数、计算消耗显著增加,所以经综合考量和参考其他相关增强方案的配置,选择使用四个双路并行Transformer模块作为全局上下文感知模块 ,即能保证模型性能,又不会使模型参数增加过多。
进一步地,所述两种Transformer模块分别为块内Transformer模块和块间Transformer模块,其组成结构相同,但输入到两个模块中的数据维度排列不同,其中输入到块内Transformer模块的矩阵维度为[C,N,I],并通过转置操作将维度变换为[C,I,N]后再输入到块间Transformer模块,其目的在于使矩阵不同维度的信息都能得到关注,获取一个更完整的全局上下文特征;当每批训练数据较小时,其中的组归一化模块能够减少数据归一化的误差。
所述Transformer模块中的多头自注意力机制采用的是一种缩放点积形式进行计算,通过点乘的方式对输入序列不同位置的信息计算权重,对当前帧数据与所有帧数据的相关性进行加权计算,最终得到一个经过注意力加权后的输出序列,其计算方式如下:
Figure 693152DEST_PATH_IMAGE002
其中,下标i表示第i个线性变换矩阵,head表示自注意力矩阵,Attention()表示自注意力计算函数,T表示矩阵转置操作,Q表示查询向量,K表示键向量,V表示值向量,softmax()表示激活函数,d表示键向量K的维度大小, Q,K,V是由编码器输出矩阵X分别经过线性变换得到的三个矩阵,其维度与X相同。
其中Q表示查询向量,K表示键向量,V表示值向量,
Q=X*WQ,K=X*WK,V=X*WV
WQ表示查询向量Q的线性变换权重矩阵,WK表示键向量K的线性变换权重矩阵,WV表示值向量V的线性变换权重矩阵,输出矩阵X分别乘以各个权重矩阵,得到Q,K,V,各个权重矩阵来源于深度神经网络线性层中的设定参数。
在计算得到每一个自注意力的矩阵后,将这些矩阵进行拼接操作,经过一个线性变换,最终形成多头自注意力,过程如下:
MuletiHead(Qi, Ki, Vi)=Concat(head1,... , headi)WH
其中,其中,MultiHead()表示多头自注意力函数,Concat()表示矩阵拼接操作,WH表示线性变换操作,上标H表示注意力的个数。
进一步地,将编码器输出矩阵X输入到双路并行Transformer模块中处理,通过双路径并行处理的结构,并结合多头自注意力机制,去处理矩阵中全局上下文信息,处理后得到一个加权后矩阵XT,过程如下表示:
经过Transformer模块的上述处理后得到一个加权矩阵XT
XT =fTFM(X)
其中,加权矩阵
Figure 689796DEST_PATH_IMAGE022
,表示XT为维度大小为[C,N,I]的三维矩阵,fTFM()表示Transformer模块的特征映射。
Multihead()表示单个Transformer模块的输出,而fTFM()表示整个全局上下文感知模块的处理过程,即fTFM()表示经过多个Transformer模块输出的用于加权的过程。
S222.所述通道注意力模块中,加权矩阵XT通过平均池化和最大池化操作分别生成最大池化输出矩阵
Figure 103460DEST_PATH_IMAGE005
和平均池化输出矩阵
Figure 190365DEST_PATH_IMAGE006
,将二者输入到同一个卷积层中进行处理,再将两个对应的输出相加后送入到sigmoid函数中,得到通道注意力矩阵;
Figure 576654DEST_PATH_IMAGE007
其中,MC表示通道注意力矩阵,Conv()表示卷积层操作;
然后将 XT与通道注意力矩阵MC相乘再与其本身相加,相当于对特征矩阵进行加权,得到通道注意力模块输出矩阵XC,表示如下:
XC=fCAM(XT,MC)=XT⊙MC⊕XT
其中,
Figure 919648DEST_PATH_IMAGE008
,表示XC为维度大小为[C,N,I]的三维矩阵,fCAM()表示通道注意力模块的特征映射。
S223. 将加权矩阵XT同时输入所述空间注意力模块,所述空间注意力模块是对矩 阵中的空间维度进行建模,将输入特征对其进行基于全局最大池化
Figure 871423DEST_PATH_IMAGE023
和全局平均池化的 操作
Figure 750518DEST_PATH_IMAGE024
,分别产生全局最大池化矩阵和全局平均池化矩阵,再将二者进行拼接形成一个新 的矩阵,送入卷积层进行特征融合,最终得到空间注意力函数,过程如下:
Figure 332809DEST_PATH_IMAGE025
其中,MS表示空间注意力函数,Conv()表示卷积操作,sigmoid表示sigmoid函数。
然后将通道注意力模块输出矩阵XC与空间注意力MS相乘并使用一个残差连接,最终得到空间注意力输出矩阵XS,表示如下:
Xs=fSAM(Xc,MS)=Xc⊙MS⊕Xc
其中,XS表示空间注意力模块输出矩阵,同时也表示经过多个注意力模块加权后得到的输出矩阵,
Figure 664564DEST_PATH_IMAGE013
,fSAM()表示空间注意力模块的特征映射。此处采用残差连接可以防止训练时模型过拟合,梯度消失等问题。
S224.进一步地,将XS输入到掩蔽层,提取特征得到掩蔽矩阵,所述掩蔽层是由一个二维卷积和PReLU函数组成,过程如下表示:
M= fmask(XS)
其中,M表示掩蔽矩阵,
Figure 420031DEST_PATH_IMAGE014
,fmask()表示掩蔽层的特征映射,掩蔽层的作用是生成一个特征掩蔽矩阵,该特征掩蔽矩阵矩阵包含所有的特征信息,类似于一个权重矩阵,将输入的矩阵与该特征掩蔽矩阵相乘,就能够对输入矩阵内部的数据进行加权,增强重要的语音特征信息,削弱不重要的噪声特征信息,以此达到降噪目的。
S23.进一步地,将编码器输出X与特征掩蔽M相乘,然后输入到解码器当中,得到解码器的输出矩阵,所述解码器依然由二维卷积组成,过程如下表示:
Y=fdecoder(X⊙M)
其中,Y是解码器输出矩阵,
Figure 389517DEST_PATH_IMAGE015
,fdecoder()表示解码器的特征映射。
进一步地,将解码器输出矩阵Y进行重叠相加操作,即将三维矩阵拆分为长度为L的N帧数据,再把每帧数据重新加起来形成一维语音序列,最终重构出所需的增强语音记为y,记为
Figure 205026DEST_PATH_IMAGE016
S3.对本发明所提出模型进行迭代训练,具体如下:
S31.将语音样本数据分批输入进语音增强模型;
S32.输出增强语音;
S33.将增强语音和输入的语音样本数据进行误差计算;可通过时域均方差损失函数和频域均方差损失函数进行误差计算。
S34.误差反向传播,更新语音增强模型参数;
S35.重复过程S31至S34,直至满足收敛条件。
为验证本发明提出方法的有效性,将所提出方法与其他语音增强方法进行实验对比,对比方法包括对比方法1:基于生成对抗网络的语音增强方法(SEGAN)、对比方法2:基于Wave-U-Net的语音增强方法、对比方法3:基于最小均方误差及生成对抗网络的语音增强方法(MMSE-GAN)、对比方法4:基于评价方式及生成对抗网络的语音增强方法(MetrciGAN)和对比方法5:基于双路Transformer的语音增强方法(TSTNN)。
实验数据集采用的是爱丁堡大学的开源标准语音数据集,该数据集的语音来自已公开的语料库Voice Bank,该数据集的噪声来自已公开的噪声数据集DEMAND。
实验中使用的评价方法包括:
语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ),用于评价语音质量,分数范围为-0.5到4.5,得分越高,说明语音质量越好;
综合客观测量(Composite objective measures),该评价方法包括三个指标,信号失真综合测量(Composite measure for signal distortion,CSIG)、噪声失真综合测量(Composite measure for noise distortion,CBAK),以及整体语音质量综合测量(Composite measure for overall speech quality,COVL),这三个指标分数范围都是1到5,得分越高,说明模型的性能越好。
对于不同语音增强方法的性能评估实验结果如表1所示。
表1: 不同语音增强方法性能评估结果
Figure 24078DEST_PATH_IMAGE026
表中PESQ,CSIG,CBAK,COVL分别表示语音质量感知评估分,信号失真综合测量分,噪声失真综合测量分和整体语音质量综合测量分。
在实验中分别对时域语音增强方法和频域的语音增强方法进行对比,保证实验结果的充分性。从表1结果来看,本发明所提出的方法在PESQ、CSIG、CBAK和COVL指标上均高于其他对比算法,可验证本发明所提出方法在语音增强方面具有一定的优越性。
本发明在语音增强阶段通过构建一种双路并行Transformer网络,利用擅长捕捉序列信息中长时依赖的特性,使模型具备全局上下文感知的能力,同时通过并行处理数据方式,降低不同支路模块输出性能的差异;并且在保证全局信息建模后,局部信息可能被忽略的情况,加入通道注意力和空间注意力机制,利用卷积神经网络中擅长捕捉数据局部特征的能力,对语音的局部细节信息进行建模。经实验验证,该方法在语音增强的性能表现方面,相比原始噪音PESQ提升1.09,CSIG提升1.01,CBAK提升1.16,COVL提升1.10,具备有效的增强性能。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (4)

1.一种基于多阶段注意力网络的语音增强方法,其特征在于,包括如下步骤:
S1.构建语音样本数据集,对其进行预处理,得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵;
S2.构建基于全局上下文感知和局部注意力的语音增强模型,所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器;所述增强网络由两个相互连接的模块构成,包括与编码器连接的全局上下文感知模块和与解码器连接的局部注意力模块;
其中所述全局上下文感知模块由多个双路并行转换模块组成,所述局部注意力模块由通道注意力模块和空间注意力模块组成;
S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理,得到编码器输出矩阵X:
X=fencoder(E)
其中,
Figure QLYQS_1
,表示X为维度大小为[C,N,I]的三维矩阵,C表示编码器的输出卷积通道数,I表示输出矩阵X最后一维的维数,fencoder()表示编码器的特征映射;
S22. 编码器输出矩阵X输入增强网络进行数据处理,具体为:
S221. 四个双路并行转换模块分别为两个块内转换模块和两个块间转换模块,
编码器输出矩阵X直接输入块内转换模块,同时并转换维度为 [C,I,N]后再输入到块间转换模块;
所述转换模块中的对输入的矩阵X进行加权计算,得到注意力加权后的自注意力矩阵,其计算方式如下:
Figure QLYQS_2
其中,Q,K,V是由编码器输出矩阵X分别经过线性变换得到的三个矩阵,其维度与X相同,下标i表示第i个线性变换矩阵,head表示自注意力矩阵,Attention()表示自注意力计算函数,T表示矩阵转置操作, softmax()表示激活函数,d表示键向量K的维度大小;
Q表示查询向量,K表示键向量,V表示值向量,
Q=X*WQ, K=X*WK,V=X*WV,
其中,WQ表示查询向量Q的线性变换权重矩阵,WK表示键向量K的线性变换权重矩阵,WV表示值向量V的线性变换权重矩阵,输出矩阵X分别乘以各个权重矩阵,得到Q,K,V,各个权重矩阵都来源于深度神经网络线性层中的参数;
在计算得到每一个自注意力矩阵headi后,进行拼接操作和线性变换,形成多头自注意力函数,过程如下:
Figure QLYQS_3
其中,Multihead()表示多头自注意力函数,Concat()表示矩阵拼接操作, WH表示线性变换操作,上标H表示注意力的个数;
通过将编码器输出矩阵X输入到双路并行转换模块中处理,通过双路径并行处理的结构,并结合多头自注意力机制,去处理矩阵中全局上下文信息;
经过全局上下文感知转换模块的多头自注意力加权处理后得到一个加权矩阵XT
XT =fTFM(X)
其中, 加权矩阵
Figure QLYQS_4
,表示XT为维度大小为[C,N,I]的三维矩阵,fTFM()表示转换模块的特征映射,即表示经过全部多个双路并行Trasnformer模块的加权过程;
S222.将加权矩阵XT输入通道注意力模块中,通过平均池化和最大池化操作分别生成最大池化输出矩阵
Figure QLYQS_5
和平均池化输出矩阵
Figure QLYQS_6
,将二者输入到通道注意力模块中的同一卷积层中进行处理,再将两个对应的输出相加后送入到sigmoid函数中,得到通道注意力矩阵;
Figure QLYQS_7
其中,MC表示通道注意力矩阵,Conv()表示卷积层操作;
然后将 XT与通道注意力矩阵MC相乘再与其本身相加,得到通道注意力模块输出矩阵XC,表示如下:
XC =fCAM(XT,MC)= XT⊙MC⊕XT
空心圆中心加点的符号⊙为哈达玛积的符号,表示相同维度的矩阵各元素对应相乘,⊕表示残差连接;
其中,
Figure QLYQS_8
,表示XC为维度大小为[C,N,I]的三维矩阵,fCAM()表示通道注意力模块的特征映射;
S223. 将加权矩阵XT同时输入所述空间注意力模块,对加权矩阵XT进行基于全局最大池化和全局平均池化的操作,分别产生全局最大池化矩阵
Figure QLYQS_9
和全局平均池化矩阵
Figure QLYQS_10
,再将二者拼接并送入卷积层进行特征融合,最终得到空间注意力函数Ms,
Figure QLYQS_11
其中,MS表示空间注意力,Concat()表示矩阵拼接操作, Conv()表示卷积层操作,sigmoid表示sigmoid函数;
将S222步骤得到的通道注意力模块输出矩阵XC与本步骤得到的空间注意力函数MS相乘并使用残差连接,得到空间注意力输出矩阵XS
表示如下:
Xs=fSAM(Xc,MS)=Xc⊙MS⊕Xc
其中,XS表示空间注意力输出矩阵,
Figure QLYQS_12
,表示XS为维度大小为[C,N,I]的三维矩阵, fSAM()表示空间注意力模块的特征映射;
S224.将空间注意力输出矩阵XS输入到掩蔽层当中,提取特征得到掩蔽矩阵M,所述掩蔽层由一个二维卷积层和PReLU函数组成,特征映射为先进行卷积操作后再输入PReLU函数:
M= fmask(XS)
其中,M表示掩蔽矩阵,
Figure QLYQS_13
,fmask()表示掩蔽层的特征映射;
S23.将编码器输出矩阵X与掩蔽矩阵M相乘,然后输入到解码器当中,得到解码器输出矩阵Y:
Y=fdecoder(X⊙M)
其中,
Figure QLYQS_14
,表示Y为维度大小为[1,N,I]的三维矩阵,fdecoder()表示解码器的特征映射;
将解码器输出矩阵Y进行重叠相加操作,即将三维的解码器输出矩阵Y拆分为长度为F的N帧数据,再把每帧数据重新拼接形成长度为L的一维语音序列,最终重构出所需的增强语音y,
Figure QLYQS_15
所述S1步骤中的预处理为:
S11.将语音数据降频采样;
S12.对降频采样后的数据进行分段处理,将一维语音序列按帧进行分割,然后将每一帧的数据重新拼接到一起,得到一个三维矩阵数据;
其中输入语音序列记为
Figure QLYQS_16
,L是一维语音序列长度,对序列进行分帧处理,帧移大小记为P,将每一帧的数据进行拼接操作,形成维度大小为[1,N,F]的输入语音三维矩阵,其中F代表每帧的长度,N代表帧数;
Figure QLYQS_17
2.如权利要求1所述的语音增强方法,其特征在于,所述S2 步骤中构建的语音增强模型在构建完成后采用以下方法进一步训练:
S31.将语音样本数据分批输入进语音增强模型;
S32.输出增强语音;
S33.将增强语音和输入的语音样本数据进行误差计算;
S34.误差反向传播,更新语音增强模型参数;
S35.重复过程S31至S34,直至满足收敛条件。
3.如权利要求2所述的语音增强方法,其特征在于,所述S33步骤中通过时域均方差损失函数和频域均方差损失函数进行误差计算。
4.如权利要求1所述的语音增强方法,其特征在于,所述全局上下文感知模块由四个双路并行转换模块组成。
CN202211599500.2A 2022-12-14 2022-12-14 一种基于多阶段注意力网络的语音增强方法 Active CN115602152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211599500.2A CN115602152B (zh) 2022-12-14 2022-12-14 一种基于多阶段注意力网络的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211599500.2A CN115602152B (zh) 2022-12-14 2022-12-14 一种基于多阶段注意力网络的语音增强方法

Publications (2)

Publication Number Publication Date
CN115602152A CN115602152A (zh) 2023-01-13
CN115602152B true CN115602152B (zh) 2023-02-28

Family

ID=84853854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211599500.2A Active CN115602152B (zh) 2022-12-14 2022-12-14 一种基于多阶段注意力网络的语音增强方法

Country Status (1)

Country Link
CN (1) CN115602152B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072125B (zh) * 2023-04-07 2023-10-17 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统
CN116189703B (zh) * 2023-04-24 2023-07-14 苏州大学 一种全局多头注意力语音增强方法
CN116994564B (zh) * 2023-09-26 2023-12-19 深圳市龙芯威半导体科技有限公司 一种语音数据的处理方法及处理装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003048711A2 (fr) * 2001-12-05 2003-06-12 France Telecom System de detection de parole dans un signal audio en environnement bruite
EP3433857A1 (en) * 2016-03-24 2019-01-30 Nokia Technologies Oy Methods, apparatus and computer programs for noise reduction
CN110299149A (zh) * 2019-06-18 2019-10-01 电子科技大学 一种基于注意力机制的语音增强算法
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN111916097A (zh) * 2019-05-08 2020-11-10 三星电子株式会社 用于语音增强的高斯加权自注意力的方法和系统
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN114664318A (zh) * 2022-03-25 2022-06-24 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音增强方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11393487B2 (en) * 2019-03-28 2022-07-19 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003048711A2 (fr) * 2001-12-05 2003-06-12 France Telecom System de detection de parole dans un signal audio en environnement bruite
EP3433857A1 (en) * 2016-03-24 2019-01-30 Nokia Technologies Oy Methods, apparatus and computer programs for noise reduction
CN111916097A (zh) * 2019-05-08 2020-11-10 三星电子株式会社 用于语音增强的高斯加权自注意力的方法和系统
CN110299149A (zh) * 2019-06-18 2019-10-01 电子科技大学 一种基于注意力机制的语音增强算法
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN114664318A (zh) * 2022-03-25 2022-06-24 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音增强方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cross-Attention Conformer for Context Modeling in Speech Enhancement for ASR;Arun Narayanan;《2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)》;全文 *
基于双通道卷积注意力网络的语音增强方法;李辉;《河南理工大学学报》;全文 *

Also Published As

Publication number Publication date
CN115602152A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN109410917B (zh) 基于改进型胶囊网络的语音数据分类方法
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN113707176B (zh) 一种基于声信号及深度学习技术的变压器故障检测方法
CN111627419B (zh) 一种基于水下目标及环境信息特征的声音生成方法
Shi et al. Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation.
CN111968666B (zh) 基于深度域自适应网络的助听器语音增强方法
CN110349588A (zh) 一种基于词嵌入的lstm网络声纹识别方法
CN113763965B (zh) 一种多重注意力特征融合的说话人识别方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
Qiu et al. Adversarial multi-task learning with inverse mapping for speech enhancement
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN114067819A (zh) 基于跨层相似性知识蒸馏的语音增强方法
CN117174105A (zh) 一种基于改进型深度卷积网络的语音降噪与去混响方法
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN116013339A (zh) 一种基于改进crn的单通道语音增强方法
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN113035217A (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN111816187A (zh) 复杂环境下基于深层神经网络的语音特征映射方法
Hu et al. A deep learning method for ship-radiated noise recognition based on mfcc feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant