CN113611323A - 一种基于双通道卷积注意力网络的语音增强方法及系统 - Google Patents

一种基于双通道卷积注意力网络的语音增强方法及系统 Download PDF

Info

Publication number
CN113611323A
CN113611323A CN202110999879.5A CN202110999879A CN113611323A CN 113611323 A CN113611323 A CN 113611323A CN 202110999879 A CN202110999879 A CN 202110999879A CN 113611323 A CN113611323 A CN 113611323A
Authority
CN
China
Prior art keywords
channel
feature
input
voice
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110999879.5A
Other languages
English (en)
Other versions
CN113611323B (zh
Inventor
雷斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhixin Kaiyuan Technology Co ltd
Original Assignee
Beijing Zhixin Kaiyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhixin Kaiyuan Technology Co ltd filed Critical Beijing Zhixin Kaiyuan Technology Co ltd
Publication of CN113611323A publication Critical patent/CN113611323A/zh
Application granted granted Critical
Publication of CN113611323B publication Critical patent/CN113611323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于双通道卷积注意力网络的语音增强方法,包括以下步骤:首先对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征作为模型的输入特征;然后将输入特征分别送入卷积神经网络通道和长短时记忆网络通道中进行深层特征提取,并在两个通道中分别添加卷积注意力模块和空间注意力模块,用于对两个通道中产生的特征图自适应调整;进一步完成增强语音对数幅度谱特征的预测;最后将预测结果和带噪语音相位结合得到增强语音的频域表示,并通过逆傅里叶变换转换回时域,再利用重叠相加的方法完成增强语音的整体合成。本发明能够有效提高了增强语音的质量和可懂度。

Description

一种基于双通道卷积注意力网络的语音增强方法及系统
技术领域
本发明涉及语音信号处理领域,特别是涉及一种基于双通道卷积注意力网 络的语音增强方法及系统。
背景技术
随着经济水平以及科技能力的不断进步,越来越多的智能设备在各个领域 逐步应用起来,新型智能设备的使用正不断改善人们的生活质量。现如今人机 交互的方式正逐步摆脱传统的键盘式方法,而开始使用语音交互方式,并逐步 应用在各种平台,如:微软的语音助手小娜;小米的语音助手小爱同学;苹果 的语音助手Siri以及讯飞的语音输入法等。这些语音助手的出现极大方便了人 们的生产生活,然而这些交互方式都存在一定的问题,如在环境嘈杂时,设备 的唤醒率低的现象,严重情况下也会导致语音信号的失真,如何降低由于周围 环境带来的不良影响是当前的首要的任务。因此,对包含环境噪声的语音信号 进行增强是对现实生活都有益的一项工作。
语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可 懂度的技术。目前语音增强的方法主要有两种,基于统计学的传统语音增强方 法和基于深度学习的语音增强方法。其中基于统计学的传统方法是通过一些假 设来进行语音增强任务,在平稳噪声和高信噪比的前提下,增强语音取得了比 较好的效果。但是实际应用中,这些假设很难得到满足,尤其是在低信噪比和 非平稳噪声的环境中,增强效果往往不尽人意。基于深度学习技术的出现是为 解决传统算法在实际应用中性能较差的问题,研究表明,使用全连接层堆叠的 深度神经网络(Deep neural network,DNN)模型与传统算法相比,增强后的语 音性能得到大幅度提升。依靠DNN强大的学习能力和非线性映射能力,越来越 多的深度学习方法被使用,并且也取得了很好的效果,尤其是在非平稳噪声以 及低信噪比的环境中。
使用传统方法进行语音增强的时候,都是对语音信号进行不合理的假设, 但是这些假设并不满足现实条件。而如今的深度学习方法中大多是通过构建单 独使用CNN或者LSTM等单通道的网络模型进行语音增强,这些方法在不可见 噪声中的性能受到一定的约束,同时随着网络层数的增加,其性能也将受到影 响,无法充分提取语音信号的深层特征。另外常见的卷积操作对训练中产生的 特征图处理方式是一致的,并没有在通道以及空间维度对有益的特征信息进行 区分,无法分辨带噪语音中关键信息,从而导致增强结果中受噪声等非关键信 息的影响很大。
发明内容
针对上述问题,本发明提供了一种可提高增强语音的质量的基于双通道卷 积注意力网络的语音增强方法及系统。
为了解决上述技术问题,本发明第一方面提供的技术方案为:一种基于双 通道卷积注意力网络的语音增强方法,所述语音增强方法包括以下步骤:
将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输 入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度 信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述 输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出 特征图在空间维度的重构,得到第二输出结果;
将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全 连接层的输入,进行增强语音的对数幅度谱特征预测;
将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里 叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出。
优选的,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带 噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪 语音的对数幅度谱特征向量。
优选的,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变 换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:
对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉 明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128 个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;
对得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:
Yt=ln(|X(t,d))
其中,Yt代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征; 对带噪语音的对数幅度谱特征进行帧扩展,表示如下:
Y=[Yt-n,Yt-n+1…Yt-1,Yt,Yt+1…,Yt+n-1…Yt+n
其中,Y代表对数幅度谱特征进行帧扩展值,t-n,t-n+1,…,t+n代表 时间帧(t,n=1,2,…,N,且t≠n,),Y∈R(2n+1)×d,R代表特征图集合,2n+1 代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
对经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如 下:
Figure BDA0003231590600000031
其中,Y′代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ 代表输入数据Y的均值,σ代表输入数据Y的方差。
优选的,所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征, 学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷积注意力模块, 完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括:
对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操作表示如 下:
Mi=f(W·Yi+b)
上式中,Yi代表第i个输入的特征图,b为对应的偏置项,W为相应的局部 权值矩阵,卷积核的大小依次为16、32,其中大小为1×3,步长为1×1,f为ReLU 激活函数,公式表示如下:
f(x)=max(0,x)
再经过两次连续的卷积操作后生成特征图为M∈RC*H*W,其中,R代表特征 图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;
生成的特征图M,作为卷积注意力模块的输入,所述卷积注意力模块包括 通道和空间两种注意力模块;首先进行通道维度的特征图计算,采用全局平均 池化和全局最大池化两种池化方式,将输入特征图M维度压缩成一维,分别为
Figure BDA0003231590600000041
Figure BDA0003231590600000042
之后使用两个卷积核大小为3×3,步长为1×1的卷积层 对池化结果进行调整,这里卷积核的个数分别为C/8和C,其中C为通道数;然 后对输出结果进行逐点相加生成通道注意力权重,同时使用Sigmoid激活函数对 通道注意力权重进行归一化;最后将通道注意力权重与该模块输入特征图M进行 逐元素相乘完成通道维度的特征图重构,其计算过程为:
Figure BDA0003231590600000043
其中,
Figure BDA0003231590600000044
表示逐元素相乘,σ代表Sigmoid激活函数,Mchan代表通道注意力 权重,Mout1代表通道注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·) 分别对应全局平均池化和全局最大池化;
生成的特征图Mout1,作为空间注意力模块的输入;首先通道注意力特征图 Mout1分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为
Figure BDA0003231590600000051
以及
Figure BDA0003231590600000052
之后在通道维度对池化输出结果进行拼接,拼接后 的特征图通道数为2;然后采用卷积核大小为3×3,步长为1×1的卷积操作生成空 间注意力权重,同时使用Sigmoid激活函数对空间注意力权重进行归一化处理; 最后将空间注意力权重与该模块输入Mout1进行逐元素相乘完成空间维度的特征 图重构,其计算过程为:
Mspat=σ(fconv[Avgpool(Mout1);Maxpool(Mout1)])
Figure BDA0003231590600000053
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,Mout1代表 通道注意力特征图,
Figure BDA0003231590600000054
表示逐元素相乘,Mspat代表空间注意力权重,Mout2代表 空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均 池化和最大池化;
将重构后的空间注意力特征图Mout2送入最大池化层来降低特征维度,最大 池化函数表示为:
Mp=max(Mout2)
其中,Mp代表最大池化的特征图,Mout2代表空间注意力特征图,池化层的 大小和步长依次为1×3和1×2;
连续重复两次上述操作。
优选的,所述将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特 征,学习所述输入特征的序列信息,并在该通道中添加空间注意力模块,完成 序列信息输出特征图的空间维度的重构的步骤包括:
将带噪语音的特征向量作为LSTM通道的输入,经过连续两个LSTM层的 训练,最终得到LSTM网络的隐层状态输出ht,其计算过程为:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
Figure BDA0003231590600000061
Figure BDA0003231590600000062
ot=σ(Wxoxt+Whoht-1+bo)
Figure BDA0003231590600000063
其中,σ表示Sigmoid激活函数,
Figure BDA0003231590600000064
表示元素乘积,it代表输入门,ft代表 遗忘门,
Figure BDA0003231590600000065
代表节点更新状态,ct代表单元状态,ot代表输出门,ht代表隐层状 态输出,xt为当前时刻的输入值,ht-1代表上一时刻的输出值,[ht-1,xt]表示将当 前时刻输入xt和上一时刻的输出ht-1进行拼接,W代表权重,b代表偏置,bi、bf、 bc、bo分别代表it、ft
Figure BDA0003231590600000066
ot对应的偏置项;Wxi、Wxf、Wxc Wxo分别代表it、ft
Figure BDA0003231590600000067
ot对应的权重,其中输入门it控制当前时刻输入xt有多少信息保存到单元状 态ct;遗忘门ft控制上一时刻单元状态ct-1中有多少信息保留到ct;输出门ot则是 控制当前时刻单元状态ct有多少信息需要输出到ht中;
对输出ht进行空间维度的计算;首先分别经过最大池化和平均池化,完成通 道维度的压缩,池化输出结果依次为
Figure BDA0003231590600000068
以及
Figure BDA0003231590600000069
之后对池化结 果沿着通道维度进行拼接;然后对拼接结果进行二维的卷积操作生成空间注意 力权重,同时使用Sigmoid激活函数对生成结果进行归一化处理;最后将空间注 意力权重与输入ht进行逐元素相乘完成空间维度的重构,其计算过程为:
hspat=σ(fconv[Avgpool(ht);Maxpool(ht)])
Figure BDA00032315906000000610
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,ht代表通 道注意力特征图,
Figure BDA00032315906000000611
表示逐元素相乘,hspat代表空间注意力权重,hout代表空间注 意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和 最大池化。
优选的,所述将第一输出结果和第二输出结果进行特征融合,融合后的增 强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测的步骤包括:
将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度进行重构, 重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点相加,并将 融合结果展开为一维,作为全连接层的输入,公式如下:
Figure BDA0003231590600000071
其中,
Figure BDA0003231590600000072
表示逐元素相加,Flatten代表对融合结果的展开操作,OutC代表CNN 通道重构后的输出结果,OutL代表LSTM通道输出结果,OutD代表全连接层的 输入;
对融合结果依次送入两层神经元个数分别为1024、1024的全连接层中,并 使用Dropout技术进行模型训练,得到输出结果,其中,设定Dropout率为0.2;
对输出结果送入神经元个数为129的全连接层中,并使用Linear线性激活函 数进行增强语音的对数幅度谱特征的预测。
优选的,所述将预测结果和带噪语音的相位结合得到增强语音的频域表示, 并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增强语音的步骤 包括:
对增强语音对数幅度谱特征的预测结果进行标准化还原;
将增强语音的第t帧的对数幅度谱特征yt与带噪语音的第t帧的相位分量αt进行结合,并使用傅里叶逆变换将其转换为时域,表示如下:
Yt=ISTFT(exp(yt/2)exp(jαt))
其中,Yt代表增强语音第t帧的时域表示;ISTFT代表傅里叶逆变换;exp代 表自然常数e为底的指数函数;jαt代表带噪语音的第t帧的相位分量;
采用重叠相加的方法完成增强语音的重构,过程如下所示:
Figure BDA0003231590600000081
其中,Y表示增强语音的整体时域表示,w(k)表示对应的汉明窗,其参数与 预处理一致,窗函数的表达式为:
Figure BDA0003231590600000082
其中,L代表帧长,其长度与窗长一致。
本发明第二方面提供了一种基于双通道卷积注意力网络的语音增强系统, 包括:
卷积神经网络模块:所述的卷积神经网络模块用于将带噪语音的对数幅度 谱特征向量作为CNN通道的输入,学习输入特征不同粒度的深层信息,同时在 该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个 维度的重构,得到第一输出结果;
长短时记忆网络模块:所述的长短时记忆网络模块用于将带噪语音的对数 幅度谱特征向量作为LSTM通道的输入,学习输入特征的序列信息,并在该通 道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到 第二输出结果;
特征融合模块:所述的特征融合模块用于将将第一输出结果和第二输出结 果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对 数幅度谱特征预测;
增强语音模块:所述的增强语音模块用于将将预测结果和带噪语音的相位 结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠 相加的方法合成增强语音并输出。
与现有技术相比,本发明具有的有益效果为:本发明构建了一种双通道卷 积注意力神经网络(Dual-Channel Convolution Attention Neural Network, DC_CANN)模型。首先对一维时域带噪语音使用短时傅里叶变换(Short-time Fourier transform,STFT)的方法转换到二维时频域,同时提取带噪语音的对数幅 度谱特征作为模型的输入特征;然后将输入特征分别送入卷积神经网络(CNN) 通道和长短时记忆(LSTM)网络通道中进行深层特征提取,并在两个通道中分别 添加卷积注意力模块和空间注意力模块,用于对卷积操作后产生的特征图自适 应调整;之后将两个通道的输出特征进行融合,融合后的增强特征作为全连接 层的输入,完成增强语音的对数幅度谱特征的预测;最后将预测结果和带噪语 音相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利 用重叠相加的方法完成增强语音的整体合成。该方法主要将CNN和LSTM网络 的各自优势进行结合,即提取了语音的局部特征,也考虑了语音的时间序列信 息,除此之外,注意力模块的使用能够加大特征图内的关键特征信息的权重, 进而增强重要信息的影响力,减少噪声的特征信息的干扰,从而提高增强语音 的质量以及可懂度。
附图说明
图1为本发明实施例提供的一种基于双通道卷积注意力网络的语音增强方 法的流程图。
图2本发明实施例提供的对带噪语音进行对数幅度谱特征向量的提取,并 依次进行帧扩展的流程示意图。
图3为本发明实施例提供的CNN特征提取通道的流程示意图。
图4为本发明实施例提供的LSTM特征提取通道的流程示意图。
图5为本发明实施例提供的两个通道的输出结果进行特征融合,并进行增 强语音的对数幅度谱特征预测的流程示意图。
图6为本发明实施例提供的使用本发明得到的增强语音的语谱图。
图7为本发明实施例提供的一种基于双通道卷积注意力网络的语音增强系 统结构示意图。
图8为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述, 显然,所举实例用于解释说明,并非限定本发明的实施方式,本发明也可以通 过其它不同的具体实施方式实施。本领域普通技术人员在没有作出创造性劳动 前提下所获得的所有其他实施例,都属于本发明保护的范围。
语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可 懂度的技术。目前语音增强的方法主要有两种,基于统计学的传统语音增强方 法和基于深度学习的语音增强方法。使用传统方法进行语音增强的时候,都是 对语音信号进行不合理的假设,但是这些假设并不满足现实条件。而如今的深 度学习方法中大多是通过构建单独使用CNN或者LSTM等单通道的网络模型进 行语音增强,这些方法在不可见噪声中的性能受到一定的约束,同时随着网络 层数的增加,其性能也将受到影响,无法充分提取语音信号的深层特征。另外 常见的卷积操作对训练中产生的特征图处理方式是一致的,并没有在通道以及 空间维度对有益的特征信息进行区分,无法分辨带噪语音中关键信息,从而导 致增强结果中受噪声等非关键信息的影响很大。
请参阅图1,本发明提供了一种基于双通道卷积注意力网络的语音增强方 法,所述语音增强方法包括以下步骤:
步骤S1、将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学 习所述输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块, 完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
在本发明实施例步骤S1中,所述带噪语音的对数幅度谱特征向量的提取方 式包括:对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到 时频域,提取带噪语音的对数幅度谱特征向量。
图2为对带噪语音进行对数幅度谱特征向量的提取,并依次进行帧扩展的 流程示意图,如图2所示,在本发明实施例中,所述对时域带噪语音进行加窗 分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度 谱特征的步骤具体包括:
步骤S11、对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位 256个的汉明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采 样点位128个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换 到频域;
步骤S12、对步骤S11得到的每一帧的频域信号依次进行取模、取对数操作, 表示如下:
Yt=ln(|X(t,d)|)
其中,Yt代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征;
步骤S13、为了充分利用带噪语音在时间和频率两个维度的相关性,需要对 带噪语音的对数幅度谱特征进行帧扩展,表示如下:
Y=[Yt-n,Yt-n+1…Yt-1,Yt,Yt+1…,Yt+n-1…Yt+n
其中,Y代表对数幅度谱特征进行帧扩展值,t-n,t-n+1,…,t+n代表 时间帧(t,n=1,2,…,N,且t≠n,),Y∈R(2n+1)×d,R代表特征图集合,2n+1 代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
步骤S14、对步骤S13中经过帧扩展的特征向量按照均值为0,方差为1进 行归一化处理,表示如下:
Figure BDA0003231590600000121
其中,Y′代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ 代表输入数据Y的均值,σ代表输入数据Y的方差。
图3为CNN特征提取通道的流程示意图,如图3所示,在本发明实施例中, 将带噪语音数据进行降采样、分帧加窗、傅里叶变换及帧的拓展为输入的语音 特征提供更多的语音数据。
步骤S2、将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征, 学习所述输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列 信息输出特征图在空间维度的重构,得到第二输出结果;
在本发明实施例中,所述将带噪语音的对数幅度谱特征向量作为CNN通道 的输入特征,学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷 积注意力模块,完成深层信息输出特征图的通道和空间两个维度的重构的步骤 包括:
步骤S21、对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操 作表示如下:
Mi=f(W·Yi+b)
上式中,Yi代表第i个输入的特征图,b为对应的偏置项,W为相应的局部 权值矩阵,卷积核的大小依次为16、32,其中大小为1×3,步长为1×1,f为ReLU 激活函数,公式表示如下:
f(x)=max(0,x)
再经过两次连续的卷积操作后生成特征图为M∈RC*H*W,其中,R代表特征 图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;
步骤S22、将步骤S21中生成的特征图M,作为卷积注意力模块的输入, 所述卷积注意力模块包括通道和空间两种注意力模块;首先进行通道维度的特 征图计算,采用全局平均池化和全局最大池化两种池化方式,将输入特征图M维 度压缩成一维,分别为
Figure BDA0003231590600000131
Figure BDA0003231590600000132
之后使用两个卷积核大小为3×3, 步长为1×1的卷积层对池化结果进行调整,这里卷积核的个数分别为C/8和C,其 中C为通道数;然后对输出结果进行逐点相加生成通道注意力权重,同时使用 Sigmoid激活函数对通道注意力权重进行归一化;最后将通道注意力权重与该模 块输入特征图M进行逐元素相乘完成通道维度的特征图重构,其计算过程为:
Mchan=σ(fconv×ReLU(fconv×Avgpool(M))+fconv×ReLU(fconv×Maxpool(M)))
Figure BDA0003231590600000133
其中,
Figure BDA0003231590600000134
表示逐元素相乘,σ代表Sigmoid激活函数,Mchan代表通道注意力 权重,Mout1代表通道注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·) 分别对应全局平均池化和全局最大池化;
步骤S23、将步骤S22中生成的特征图Mout1,作为空间注意力模块的输入; 首先通道注意力特征图Mout1分别经过最大池化和平均池化,完成通道维度的压 缩,池化输出结果依次为
Figure BDA0003231590600000135
以及
Figure BDA0003231590600000136
之后在通道维度对池化输 出结果进行拼接,拼接后的特征图通道数为2;然后采用卷积核大小为3×3,步 长为1×1的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对空间注意 力权重进行归一化处理;最后将空间注意力权重与该模块输入Mout1进行逐元素 相乘完成空间维度的特征图重构,其计算过程为:
Mspat=σ(fconv[Avgpool(Mout1);Maxpool(Mout1)])
Figure BDA0003231590600000137
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,Mout1代表 通道注意力特征图,
Figure BDA0003231590600000138
表示逐元素相乘,Mspat代表空间注意力权重,Mout2代表 空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均 池化和最大池化;
步骤S24、完成步骤S22、S23后,将重构后的空间注意力特征图Mout2送入 最大池化层来降低特征维度,最大池化函数表示为:
Mp=max(Mout2)
其中,Mp代表最大池化的特征图,Mout2代表空间注意力特征图,池化层的 大小和步长依次为1×3和1×2;
步骤S25、连续重复两次上述步骤S21至步骤S24的操作。两次重复过程 中步骤S21的卷积核个数依次设置为64,128,128,128,其大小均为1×3,步 长均为1×1,步骤S22至步骤S23中卷积注意力模块参数设置保持不变,步骤 S24最大池化层除最后一次的步长设置为1×3,其余参数均保持不变,至此完成 CNN通道的整体计算。
在本发明实施例中,CNN通道通过添加卷积注意力模块,实现通道维度的 特征图重构。
步骤S3、将第一输出结果和第二输出结果进行特征融合,融合后的增强特 征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
图4为LSTM通道提取特征流程示意图,如图4所示,步骤S3中将带噪 语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的 序列信息,并在该通道中添加空间注意力模块,完成序列信息输出特征图的空 间维度的重构的步骤包括:
步骤S31、将带噪语音的特征向量作为LSTM通道的输入,经过连续两个 LSTM层的训练,最终得到LSTM网络的隐层状态输出ht,其计算过程为:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
Figure BDA0003231590600000151
Figure BDA0003231590600000152
ot=σ(Wxoxt+Whoht-1+bo)
Figure BDA0003231590600000153
其中,σ表示Sigmoid激活函数,
Figure BDA0003231590600000154
表示元素乘积,it代表输入门,ft代表 遗忘门,
Figure BDA0003231590600000155
代表节点更新状态,ct代表单元状态,ot代表输出门,ht代表隐层状 态输出,xt为当前时刻的输入值,ht-1代表上一时刻的输出值,[ht-1,xt]表示将当 前时刻输入xt和上一时刻的输出ht-1进行拼接,W代表权重,b代表偏置,bi、bf、 bc、bo分别代表it、ft
Figure BDA0003231590600000156
ot对应的偏置项;Wxi、Wxf、Wxc Wxo分别代表it、ft
Figure BDA0003231590600000157
ot对应的权重,其中输入门it控制当前时刻输入xt有多少信息保存到单元状 态ct;遗忘门ft控制上一时刻单元状态ct-1中有多少信息保留到ct;输出门ot则是 控制当前时刻单元状态ct有多少信息需要输出到ht中;
步骤S32、对步骤S31中的输出ht进行空间维度的计算;首先分别经过最大 池化和平均池化,完成通道维度的压缩,池化输出结果依次为
Figure BDA0003231590600000158
以及
Figure BDA0003231590600000159
之后对池化结果沿着通道维度进行拼接;然后对拼接结果进行二维 的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对生成结果进行归 一化处理;最后将空间注意力权重与输入ht进行逐元素相乘完成空间维度的重 构,其计算过程为:
hspat=σ(fconv[Avgpool(ht);Maxpool(ht)])
Figure BDA00032315906000001510
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,ht代表通 道注意力特征图,
Figure BDA00032315906000001511
表示逐元素相乘,hspat代表空间注意力权重,hout代表空间注 意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和 最大池化。
在本发明实施例中,LSTM通道可以充分利用上下文信息,可以提升语音信 号识别的准确度,所述注意力模块的使用能够加大特征图内的关键特征信息的 权重,进而增强重要信息的影响力,减少噪声的特征信息的干扰。
步骤S4、将预测结果和带噪语音的相位结合得到增强语音的频域表示,并 通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输 出。
图5为两个通道的输出结果进行特征融合,并进行增强语音的对数幅度谱 特征预测的流程示意图,如图5所示,在本发明实施例中,将步骤S2和步骤S3 的第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接 层的输入,进行增强语音的对数幅度谱特征预测的步骤包括:
步骤S41、将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度 进行重构,重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点 相加,并将融合结果展开为一维,作为全连接层的输入,公式如下:
Figure BDA0003231590600000161
其中,
Figure BDA0003231590600000162
表示逐元素相加,Flatten代表对融合结果的展开操作,OutC代表CNN 通道重构后的输出结果,OutL代表LSTM通道输出结果,OutD代表全连接层的 输入;
步骤S42、对步骤S41的融合结果依次送入两层神经元个数分别为1024, 1024,的全连接层中,并使用Dropout技术,防止训练过程中容易出现的过拟合 问题,Dropout的主要思想是在模型训练时,随机地选择一部分将其从网络中暂 时的丢弃,即这些神经单元暂时失活,不再参与参数的更新运算,设定Dropout 率为0.2(只在训练时起作用),即每次迭代有20%的神经元不参与计算;
步骤S43、对步骤S42的输出结果送入神经元个数为129的全连接层中,并 使用Linear线性激活函数进行增强语音的对数幅度谱特征的预测。
在本发明实施例中,所述将预测结果和带噪语音的相位结合得到增强语音 的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增 强语音的步骤包括:
对增强语音对数幅度谱特征的预测结果进行标准化还原;
将增强语音的第t帧的对数幅度谱特征yt与带噪语音的第t帧的相位分量αt进行结合,并使用傅里叶逆变换将其转换为时域,表示如下:
Yt=ISTFT(exp(yt/2)exp(jαt))
其中,Yt代表增强语音第t帧的时域表示;ISTFT代表傅里叶逆变换;exp代 表自然常数e为底的指数函数;jαt代表带噪语音的第t帧的相位分量;
采用重叠相加的方法完成增强语音的重构,过程如下所示:
Figure BDA0003231590600000171
其中,Y表示增强语音的整体时域表示,w(k)表示对应的汉明窗,其参数与 预处理一致,窗函数的表达式为:
Figure BDA0003231590600000172
其中,L代表帧长,其长度与窗长一致。
在本发明实施例中,通过傅里叶逆变换和重叠相加的方法精确的计算,使 得两个通道能够进行融合,并增强了语音信号。
本发明实施例构建了一种双通道卷积注意力神经网络(Dual-ChannelConvolution Attention Neural Network,DC_CANN)模型。首先对一维时域带噪语 音使用短时傅里叶变换(Short-time Fourier transform,STFT)的方法转换到二维时 频域,同时提取带噪语音的对数幅度谱特征作为模型的输入特征;然后将输入 特征分别送入卷积神经网络(CNN)通道和长短时记忆(LSTM)网络通道中进行深 层特征提取,并在两个通道中分别添加卷积注意力模块和空间注意力模块,用 于对卷积操作后产生的特征图自适应调整;之后将两个通道的输出特征进行融 合,融合后的增强特征作为全连接层的输入,完成增强语音的对数幅度谱特征 的预测;最后将预测结果和带噪语音相位结合得到增强语音的频域表示,并通 过傅里叶逆变换转换回时域,再利用重叠相加的方法完成增强语音的整体合成。 该方法主要将CNN和LSTM网络的各自优势进行结合,即提取了语音的局部特 征,也考虑了语音的时间序列信息,除此之外,注意力模块的使用能够加大特 征图内的关键特征信息的权重,进而增强重要信息的影响力,减少噪声的特征 信息的干扰,从而提高增强语音的质量以及可懂度。
实施例2
请参阅图7,本发明实施例2提供了一种基于双通道卷积注意力网络的语音 增强系统,包括:
提取带噪语音特征模块201:所述的提取带噪语音特征模块用于对时域带噪 语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,进一步提取 带噪语音的对数幅度谱特征作为模型的输入特征;
卷积神经网络模块202:所述的卷积神经网络模块用于将带噪语音的对数幅 度谱特征向量作为CNN通道的输入,学习输入特征不同粒度的深层信息,同时 在该通道内添加卷积注意力模块完成特征图在通道以及空间两个维度的重构;
长短时记忆网络模块203:所述的长短时记忆网络模块用于将带噪语音的对 数幅度谱特征向量作为LSTM通道的输入,学习输入特征的序列信息,并在该 通道内添加空间注意力模块完成输出特征图在空间维度的重构;
特征融合模块204:所述的特征融合模块用于将两个通道的输出结果进行特 征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱 特征预测;
增强语音模块205:所述的增强语音模块用于将预测结果和带噪语音的相位 结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠 相加的方法完成增强语音的合成。
实施例3
本发明实施例3提供了一种基于双通道卷积注意力网络的语音增强方法, 其利用干净语音和噪声按照不同信噪比进行合成的带噪语音,使用基于双通道 卷积注意力网络的语音增强方法对带噪语音进行降噪,具体步骤如下所示:
(1-1)对数据集进行预处理,使用窗长为32ms(256个采样点)的汉明窗 对语音信号进行分帧,帧与帧之间有50%的重叠,即帧移为16ms(128个采样 点),然后对每一帧信号进行256点的傅里叶变换,最终得到特征维度为129。
(1-2)获得语音信号的幅度谱特征之后,需要依次对其进行取对数和帧扩 展操作,即以当前帧为中心的相邻7帧的带噪语音对数幅度谱特征作为输入特 征。
(1-3)将帧扩展之后的带噪语音对数特征向量作为CNN通道以及LSTM 通道的输入特征。对于CNN通道,卷积核个数依次为16,32,64,128,128, 128,每个卷积层的卷积核大小均为1×3,步长均为1×1,激活函数为ELU函数, 除最后一个最大池化层步长为1×3,其余池化层的大小均为1×3,步长均为1×2。 对于LSTM通道其隐层神经元个数设置为1024,激活函数为Tanh函数。
(1-4)分别在CNN和LSTM通道中添加卷积注意力模块以及空间注意力 模块,注意力模块的输出大小与该通道所提取特征大小一致。
(1-5)将两个通道的输出进行特征融合后接入全连接层完成干净语音的对 数幅度谱特征预测,全连接层的神经元设置依次是1024,1024,129,并且设定 Dropout率为0.2,除最后一层使用的线性激活函数外,前两层均使用ReLU激活 函数。
(1-6)得到增强语音的对数幅度谱估计,之后结合带噪语音的相位进行傅 里叶逆变换得到增强语音的时域表示,最后经过重叠相加的方法进行增强语音 的合成。
在本发明实施例中,图6是信噪比为0dB,且被machinegun(机枪噪声) 噪声污染后的带噪语音,使用不同方法进行语音增强后的语谱图。其中图(a)为 干净语音的语谱图,图(b)为带噪语音的语谱图,图(c)、(d)、(e)依次为单独使用 DNN,LSTM,CNN结构的增强语音语谱图,图(f)为不包含注意力模块的双通 道模型增强语音语谱图,图(g)是将LSTM层替换为GRU层的增强语音语谱图, 图(h)为提出的DC_CANN模型的增强语音语谱图。从语谱图上可以看出,带噪 语音的能量主要集中在低频部分,双通道卷积注意力网络的方法较其他方法增 强效果显著,尤其是低频部分。
实施例4
请参阅图8,在本发明实施例4提供了一种计算机设备600,本发明实施例 提供的计算机设备600可以执行基于双通道卷积注意力网络的语音增强方法实 施例提供的处理流程,如图8所示,计算机设备600包括存储器601、处理器 602、计算机程序;其中,计算机程序存储在存储器601中,并被配置为由处理 器602执行上述实施例中基于双通道卷积注意力网络的语音增强方法。
此外,计算机设备600可具有通讯接口603,用于接收控制指令。
实施例5
本发明实施例5还提供一种计算机可读存储介质,采用了如下所述的技术 方案:所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指 令被处理器执行时实现上述基于双通道卷积注意力网络的语音增强方法的步 骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可 以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例 如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特 征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合 或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是 电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能 单元的形式实现。
在本发明实施例的一个典型的配置中,终端、服务网络的设备和计算设备 包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM) 和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计 算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取 存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆 体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或 其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非 传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算 机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和 载波。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功 能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由 不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以 上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述 方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (8)

1.一种基于双通道卷积注意力网络的语音增强方法,其特征在于,所述语音增强方法包括以下步骤:
将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;
将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出。
2.根据权利要求1所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征向量。
3.根据权利要求2所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:
对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;
对得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:
Yt=ln(|X(t,d)|)
其中,Yt代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征;
对带噪语音的对数幅度谱特征进行帧扩展,表示如下:
Y=[Yt-n,Yt-n+1…Yt-1,Yt,Yt+1…Yt+n-1,Yt+n]
其中,Y代表对数幅度谱特征进行帧扩展值,t-n,t-n+1,…,t+n代表时间帧(t,n=1,2,…,N,且t≠n,),Y∈R(2n+1)×d,R代表特征图集合,2n+1代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
对经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如下:
Figure FDA0003231590590000021
其中,Y′代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ代表输入数据Y的均值,σ代表输入数据Y的方差。
4.根据权利要求1-3任一所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷积注意力模块,完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括:
对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操作表示如下:
Mi=f(W·Yi+b)
上式中,Yi代表第i个输入的特征图,b为对应的偏置项,W为相应的局部权值矩阵,卷积核的大小依次为16、32,其中大小为1×3,步长为1×1,f为ReLU激活函数,公式表示如下:
f(x)=max(0,x)
再经过两次连续的卷积操作后生成特征图为M∈RC*H*W,其中,R代表特征图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;
生成的特征图M,作为卷积注意力模块的输入,所述卷积注意力模块包括通道和空间两种注意力模块;首先进行通道维度的特征图计算,采用全局平均池化和全局最大池化两种池化方式,将输入特征图M维度压缩成一维,分别为
Figure FDA0003231590590000031
Figure FDA0003231590590000032
之后使用两个卷积核大小为3×3,步长为1×1的卷积层对池化结果进行调整,这里卷积核的个数分别为C/8和C,其中C为通道数;然后对输出结果进行逐点相加生成通道注意力权重,同时使用Sigmoid激活函数对通道注意力权重进行归一化;最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构,其计算过程为:
Mchan=σ(fconv×ReLU(fconv×Avgpool(M))+fconv×ReLU(fconv×Maxpool(M)))
Figure FDA0003231590590000033
其中,
Figure FDA0003231590590000034
表示逐元素相乘,σ代表Sigmoid激活函数,Mchan代表通道注意力权重,Mout1代表通道注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应全局平均池化和全局最大池化;
生成的特征图Mout1,作为空间注意力模块的输入;首先通道注意力特征图Mout1分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为
Figure FDA0003231590590000035
以及
Figure FDA0003231590590000036
之后在通道维度对池化输出结果进行拼接,拼接后的特征图通道数为2;然后采用卷积核大小为3×3,步长为1×1的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对空间注意力权重进行归一化处理;最后将空间注意力权重与该模块输入Mout1进行逐元素相乘完成空间维度的特征图重构,其计算过程为:
Mspat=σ(fconv[Avgpool(Mout1);Maxpool(Mout1)])
Figure FDA0003231590590000037
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,Mout1代表通道注意力特征图,
Figure FDA0003231590590000041
表示逐元素相乘,Mspat代表空间注意力权重,Mout2代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化;
将重构后的空间注意力特征图Mout2送入最大池化层来降低特征维度,最大池化函数表示为:
Mp=max(Mout2)
其中,Mp代表最大池化的特征图,Mout2代表空间注意力特征图,池化层的大小和步长依次为1×3和1×2;
连续重复两次上述操作。
5.根据权利要求4所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道中添加空间注意力模块,完成序列信息输出特征图的空间维度的重构的步骤包括:
将带噪语音的特征向量作为LSTM通道的输入,经过连续两个LSTM层的训练,最终得到LSTM网络的隐层状态输出ht,其计算过程为:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
Figure FDA0003231590590000042
Figure FDA0003231590590000043
ot=σ(Wxoxt+Whoht-1+bo)
Figure FDA0003231590590000044
其中,σ表示Sigmoid激活函数,
Figure FDA0003231590590000045
表示元素乘积,it代表输入门,ft代表遗忘门,
Figure FDA0003231590590000046
代表节点更新状态,ct代表单元状态,ot代表输出门,ht代表隐层状态输出,xt为当前时刻的输入值,ht-1代表上一时刻的输出值,[ht-1,xt]表示将当前时刻输入xt和上一时刻的输出ht-1进行拼接,W代表权重,b代表偏置,bi、bf、bc、bo分别代表it、ft
Figure FDA0003231590590000051
ot对应的偏置项;Wxi、Wxf、WxcWxo分别代表it、ft
Figure FDA0003231590590000052
ot对应的权重,其中输入门it控制当前时刻输入xt有多少信息保存到单元状态ct;遗忘门ft控制上一时刻单元状态ct-1中有多少信息保留到ct;输出门ot则是控制当前时刻单元状态ct有多少信息需要输出到ht中;
对输出ht进行空间维度的计算;首先分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为
Figure FDA0003231590590000053
以及
Figure FDA0003231590590000054
之后对池化结果沿着通道维度进行拼接;然后对拼接结果进行二维的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对生成结果进行归一化处理;最后将空间注意力权重与输入ht进行逐元素相乘完成空间维度的重构,其计算过程为:
hspat=σ(fconv[Avgpool(ht);Maxpool(ht)])
Figure FDA0003231590590000055
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,ht代表通道注意力特征图,
Figure FDA0003231590590000056
表示逐元素相乘,hspat代表空间注意力权重,hout代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化。
6.根据权利要求5所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测的步骤包括:
将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度进行重构,重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点相加,并将融合结果展开为一维,作为全连接层的输入,公式如下:
Figure FDA0003231590590000057
其中,
Figure FDA0003231590590000058
表示逐元素相加,Flatten代表对融合结果的展开操作,OutC代表CNN通道重构后的输出结果,OutL代表LSTM通道输出结果,OutD代表全连接层的输入;
对融合结果依次送入两层神经元个数分别为1024、1024的全连接层中,并使用Dropout技术进行模型训练,得到输出结果,其中,设定Dropout率为0.2;
对输出结果送入神经元个数为129的全连接层中,并使用Linear线性激活函数进行增强语音的对数幅度谱特征的预测。
7.根据权利要求6所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增强语音的步骤包括:
对增强语音对数幅度谱特征的预测结果进行标准化还原;
将增强语音的第t帧的对数幅度谱特征yt与带噪语音的第t帧的相位分量αt进行结合,并使用傅里叶逆变换将其转换为时域,表示如下:
Yt=ISTFT(exp(yt/2)exp(jαt))
其中,Yt代表增强语音第t帧的时域表示;ISTFT代表傅里叶逆变换;exp代表自然常数e为底的指数函数;jαt代表带噪语音的第t帧的相位分量;
采用重叠相加的方法完成增强语音的重构,过程如下所示:
Figure FDA0003231590590000061
其中,Y表示增强语音的整体时域表示,w(k)表示对应的汉明窗,其参数与预处理一致,窗函数的表达式为:
Figure FDA0003231590590000062
其中,L代表帧长,其长度与窗长一致。
8.一种基于双通道卷积注意力网络的语音增强系统,其特征在于,包括:
卷积神经网络模块:所述的卷积神经网络模块用于将带噪语音的对数幅度谱特征向量作为CNN通道的输入,学习输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
长短时记忆网络模块:所述的长短时记忆网络模块用于将带噪语音的对数幅度谱特征向量作为LSTM通道的输入,学习输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;
特征融合模块:所述的特征融合模块用于将将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
增强语音模块:所述的增强语音模块用于将将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增强语音并输出。
CN202110999879.5A 2021-05-07 2021-08-26 一种基于双通道卷积注意力网络的语音增强方法及系统 Active CN113611323B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021104945611 2021-05-07
CN202110494561 2021-05-07

Publications (2)

Publication Number Publication Date
CN113611323A true CN113611323A (zh) 2021-11-05
CN113611323B CN113611323B (zh) 2024-02-20

Family

ID=78342224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110999879.5A Active CN113611323B (zh) 2021-05-07 2021-08-26 一种基于双通道卷积注意力网络的语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN113611323B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114326639A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 基于混合注意力卷积神经网络的工业过程性能评估方法
CN115295001A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
CN115295002A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于交互性时频注意力机制的单通道语音增强方法
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法
CN115648215A (zh) * 2022-11-04 2023-01-31 北京能创科技有限公司 基于注意力机制和孪生反卷积的服务机器人抓取检测方法
CN116504259A (zh) * 2023-06-30 2023-07-28 中汇丰(北京)科技有限公司 一种基于自然语言处理的语义识别方法
CN116584902A (zh) * 2023-07-18 2023-08-15 山东大学 基于特征选优及可视化的心音分类装置
CN116741202A (zh) * 2023-08-10 2023-09-12 北京边锋信息技术有限公司 一种语音信号处理方法、装置和可读存储介质
CN117237749A (zh) * 2023-09-15 2023-12-15 上海谱希和光基因科技有限公司 一种眼轴长度预测方法、系统、设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070135952A1 (en) * 2005-12-06 2007-06-14 Dts, Inc. Audio channel extraction using inter-channel amplitude spectra
CN101175122A (zh) * 2006-11-01 2008-05-07 中兴通讯股份有限公司 通信网语音增强通道的选配方法
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN111179920A (zh) * 2019-12-31 2020-05-19 中国科学院声学研究所 一种端到端远场语音识别方法及系统
US20200175961A1 (en) * 2018-12-04 2020-06-04 Sorenson Ip Holdings, Llc Training of speech recognition systems
CN111524519A (zh) * 2020-05-28 2020-08-11 中国科学技术大学 采用高级特征融合的端到端多通道语音识别方法
WO2020232180A1 (en) * 2019-05-14 2020-11-19 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
CN112116920A (zh) * 2020-08-10 2020-12-22 北京大学 一种说话人数未知的多通道语音分离方法
CN112151059A (zh) * 2020-09-25 2020-12-29 南京工程学院 面向麦克风阵列的通道注意力加权的语音增强方法
CN112331224A (zh) * 2020-11-24 2021-02-05 深圳信息职业技术学院 轻量级时域卷积网络语音增强方法与系统
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070135952A1 (en) * 2005-12-06 2007-06-14 Dts, Inc. Audio channel extraction using inter-channel amplitude spectra
CN101175122A (zh) * 2006-11-01 2008-05-07 中兴通讯股份有限公司 通信网语音增强通道的选配方法
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN110383377A (zh) * 2017-03-13 2019-10-25 三菱电机株式会社 语音识别系统
US20200175961A1 (en) * 2018-12-04 2020-06-04 Sorenson Ip Holdings, Llc Training of speech recognition systems
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
WO2020232180A1 (en) * 2019-05-14 2020-11-19 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN111179920A (zh) * 2019-12-31 2020-05-19 中国科学院声学研究所 一种端到端远场语音识别方法及系统
CN111524519A (zh) * 2020-05-28 2020-08-11 中国科学技术大学 采用高级特征融合的端到端多通道语音识别方法
CN112116920A (zh) * 2020-08-10 2020-12-22 北京大学 一种说话人数未知的多通道语音分离方法
CN112151059A (zh) * 2020-09-25 2020-12-29 南京工程学院 面向麦克风阵列的通道注意力加权的语音增强方法
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN112331224A (zh) * 2020-11-24 2021-02-05 深圳信息职业技术学院 轻量级时域卷积网络语音增强方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SANGHYUN WOO ETAL.: "CBAM Convolutional Block Attention Module", 《PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》, pages 3 - 19 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114326639A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 基于混合注意力卷积神经网络的工业过程性能评估方法
CN115295001A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
CN115295002A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于交互性时频注意力机制的单通道语音增强方法
CN115295002B (zh) * 2022-07-26 2024-05-14 中国科学技术大学 一种基于交互性时频注意力机制的单通道语音增强方法
CN115295001B (zh) * 2022-07-26 2024-05-10 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
CN115648215B (zh) * 2022-11-04 2024-01-26 北京能创科技有限公司 基于注意力机制和孪生反卷积的服务机器人抓取检测方法
CN115648215A (zh) * 2022-11-04 2023-01-31 北京能创科技有限公司 基于注意力机制和孪生反卷积的服务机器人抓取检测方法
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法
CN116504259A (zh) * 2023-06-30 2023-07-28 中汇丰(北京)科技有限公司 一种基于自然语言处理的语义识别方法
CN116504259B (zh) * 2023-06-30 2023-08-29 中汇丰(北京)科技有限公司 一种基于自然语言处理的语义识别方法
CN116584902A (zh) * 2023-07-18 2023-08-15 山东大学 基于特征选优及可视化的心音分类装置
CN116584902B (zh) * 2023-07-18 2024-05-07 山东大学 基于特征选优及可视化的心音分类装置
CN116741202A (zh) * 2023-08-10 2023-09-12 北京边锋信息技术有限公司 一种语音信号处理方法、装置和可读存储介质
CN116741202B (zh) * 2023-08-10 2023-11-10 北京边锋信息技术有限公司 一种语音信号处理方法、装置和可读存储介质
CN117237749A (zh) * 2023-09-15 2023-12-15 上海谱希和光基因科技有限公司 一种眼轴长度预测方法、系统、设备

Also Published As

Publication number Publication date
CN113611323B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN113611323B (zh) 一种基于双通道卷积注意力网络的语音增强方法及系统
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
Lluis et al. Sound field reconstruction in rooms: Inpainting meets super-resolution
CN111954904A (zh) 用于转换输入音频信号的音频信号处理系统及方法
CN107452389A (zh) 一种通用的单声道实时降噪方法
Takeuchi et al. Real-time speech enhancement using equilibriated RNN
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN108777146A (zh) 语音模型训练方法、说话人识别方法、装置、设备及介质
Mundodu Krishna et al. Single channel speech separation based on empirical mode decomposition and Hilbert transform
Sun et al. A model compression method with matrix product operators for speech enhancement
CN113808602A (zh) 语音增强方法、模型训练方法以及相关设备
WO2019014890A1 (zh) 一种通用的单声道实时降噪方法
Hao et al. A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments.
US20220262386A1 (en) Speech enhancement method and apparatus, electronic device, and computer- readable storage medium
Li et al. A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN
Pfeifenberger et al. Deep complex-valued neural beamformers
Kantamaneni et al. Speech enhancement with noise estimation and filtration using deep learning models
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
Haruta et al. A low-computational DNN-based speech enhancement for hearing aids based on element selection
CN111462770A (zh) 一种基于lstm的后期混响抑制方法及系统
US11404055B2 (en) Simultaneous dereverberation and denoising via low latency deep learning
Radha et al. Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework
Chan et al. Equalization of speech and audio signals using a nonlinear dynamical approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant