CN114495958A - 一种基于时间建模生成对抗网络的语音增强系统 - Google Patents

一种基于时间建模生成对抗网络的语音增强系统 Download PDF

Info

Publication number
CN114495958A
CN114495958A CN202210387623.3A CN202210387623A CN114495958A CN 114495958 A CN114495958 A CN 114495958A CN 202210387623 A CN202210387623 A CN 202210387623A CN 114495958 A CN114495958 A CN 114495958A
Authority
CN
China
Prior art keywords
layer
voice signal
time
voice
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210387623.3A
Other languages
English (en)
Other versions
CN114495958B (zh
Inventor
董安明
张德辉
禹继国
韩玉冰
李素芳
张丽
邱静
刘洋
张滕
刘宗银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210387623.3A priority Critical patent/CN114495958B/zh
Publication of CN114495958A publication Critical patent/CN114495958A/zh
Application granted granted Critical
Publication of CN114495958B publication Critical patent/CN114495958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种基于时间建模生成对抗网络的语音增强系统,属于语音信号处理技术领域,包括:数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号。本发明解决了语音时域特征的时间依赖性和全局性考虑不足的问题,降低语音信号中的噪声影响,从而提高了增强后语音的听觉质量。

Description

一种基于时间建模生成对抗网络的语音增强系统
技术领域
本发明属于语音信号处理技术领域,具体涉及一种基于时间建模生成对抗网络的语音增强系统。
背景技术
语音增强是一种提高语音质量与可懂度的关键技术,即利用音频信号处理技术从一段含有噪声的观测信号中,消除噪声并提取纯净语音信号的技术,目前不降低语音可懂度或者不引入明显语音失真仍然是一个艰巨的挑战。
近年来,随着人工智能技术以及计算机处理能力的快速发展,深度学习成为了诸多研究领域的热点技术并且取得了很多显著的研究成果。因为维纳滤波,谱减法等传统的语音增强算法性能有限,深度学习技术被引入语音增强领域。如今,基于深度学习的有监督学习方法已经成为当今语音增强的主流方法。这类方法在实现语音增强时,一般分为两个阶段。第一阶段,运用有监督学习的训练方式,得到观测信号和纯净语音特征的映射关系。之后,第二阶段运用该映射关系进行语音增强。生成对抗网络因其在学习映射关系方面的优良性能,在语音增强领域取得了显著的成果,语音增强生成对抗网络利用生成对抗网络对语音在时域进行端到端的增强映射,均优于传统的语音增强算法,但是对于语音时域特征的时间依赖性和全局方面考虑不足。
发明内容
针对现有技术的上述不足,本发明提供一种基于时间建模生成对抗网络的语音增强系统,以解决生成对抗网络语音时域特征的时间依赖性和全局方面考虑不足问题。
第一方面,本发明提供一种基于时间建模生成对抗网络的语音增强系统,包括:
数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;
信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号;
所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;
所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;
所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。
进一步的,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。
进一步的,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;
所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;
所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;
所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。
进一步的,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;
所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;
所述第一卷积层与所述反卷积层之间采用残差链接连接。
进一步的,所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,0为假。
进一步的,还包括:
训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;
网络构建获取单元,用于构建基于时间建模的生成对抗网络;
网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;
语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;
损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。
本发明的有益效果在于,本发明提供的基于时间建模生成对抗网络的语音增强系统,针对高噪声环境中的低信噪比语音进行增强时,将带噪语音信号输入预先完成训练的生成对抗网络的生成器,通过生成器的第一卷积层和第一时间建模模块提取综合高语义特征,时间相关性特征和全局信息特征的语音时域特征,通过生成器的解码器将时域特征解码得到增强后的语音信号。本发明提供的融合时间建模的生成对抗网络能够更深层次的提取到目标语音特征,更准确的带噪语音信号与纯净语音信号之间映射关系,解决了生成对抗网络提取的语音时域特征缺少时间依赖性和全局性的问题,降低语音信号中的噪声影响,从而提高了增强后语音的听觉质量。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的系统的结构示意图。
图2为本发明一个实施例的生成对抗网络的生成器示意图。
图3为本发明一个实施例的生成器的第一时间建模模块示意图。
图4为本发明一个实施例的门控循环单元示意图。
图5为本发明一个实施例的自注意力机制示意图。
图6为本发明一个实施例的鉴别器的结构示意图。
图7为本发明一个实施例的生成对抗网络训练流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
GRU:Gated Recurrent Unit,门控循环单元,用门控机制控制输入、记忆等信息,而在当前时间做出预测。
图1示出为本申请实施例提供的一种基于时间建模生成对抗网络的语音增强系统,该系统包括:
数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;
通常语音数据集内包括纯净语音信号和带噪语音信号,语音数据集内信号的采样率通常为48kHz,以16kHz的目标采样率降低带噪语音信号的采样率。
信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号。
如图2所示,将带噪语音信号输入预先完成训练的生成对抗网络提取具有高语义、时间相关性和全局性的语音时域特征,并将时域特征解码得到增强后的纯净语音信号。
所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。
向编码器的第一卷积层输入带噪语音信号,第一卷积层从带噪语音信号中提取局部特征,送入第一时间建模模块,在局部特征进一步提取出时域特征,输入解码器,反卷积层用于将语音时域特征恢复语音信号,在恢复过程中第二时间建模模块考虑时间建模。
本实施例提供的融合时间建模的生成对抗网络能够更深层次地提取到语音特征,解决了生成对抗网络对于语音时域特征的时间相关性、全局特征考虑不周全的问题,能够将提取的带噪语音特征表示恢复为更好的增强纯净语音,找到带噪语音与纯净语音之间的映射关系,从而提高了增强后语音的听觉质量,进而有效降低语音信号中的噪声影响。
可选地,作为本发明一个实施例,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;所述第一卷积层与所述反卷积层之间采用残差链接连接。
本实施例中,编码器的特征提取网络结构为11个一维跨步的第一卷积层依次相连,且每两个第一卷积层中间嵌入一个第一时间建模模块。编码层输入的带噪语音信号的维度为16384×1,11个第一卷积层的输出维度分别为8192×16,4096×32,2048×32,1024×64,512×64,256×128,128×128,64×256,32×256,16×512,8×1024。每个第一卷积层采用的激活函数为参数修正线性单元PReLU(Parametric Rectified Linear Unit),每个第一卷积层提取并压缩语音的时域特征输入到下一个第一卷积层,第一时间建模模块接收上一个第一卷积层的输出为输入,输出作为下一个第一卷积层的输入,其中,第一时间建模模块输入维度与输出维度相同。在本实施例中,第一时间建模模块可以与任意数量甚至所有的第一卷积层组合使用。
解码器结构与编码器相似,反卷积层也是11层,将编码器的输出C∈R8×1024与随机噪声Z∈R8×1024的链接为一个特征向量F∈R8×2048,作为解码器的输入。11个反卷积层的输出维度分别为:16×1024,32×512,64×512,8×256,256×256,512×128,1024×128,2048×64,4096×64,8192×32,16384×1。所述解码器的多个反卷积层将输入的F∈R8×2048进行多次反卷积,且在每次反卷积前输入都需要利用残差链接和编码器对应第一卷积层的输出进行特征融合,以防止信息的丢失,并避免梯度消失的问题,最终输出增强语音信号的时域信息。
本实施例中,所述第一卷积层的卷积核大小为k=31,卷积步长为s=2,采用的PReLU激活函数的公式为:
Figure 609658DEST_PATH_IMAGE001
;其中,xi为第i个神经元的值,ai为参数。所述反卷积层的结构与所述第一卷积层相同,可参考前述,此处不再赘述。
可选地,作为本发明一个实施例,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。
如图3所示,时间建模模块输入的局部特征为F∈RL×C,该局部特征F∈RL×C为第一卷积层卷积激活之后的输出,其中,L表示时间维度,C表示特征的通道数。GRU层接收局部特征F∈RL×C提取特征的时间相关性特征,GRU层的输出维度也为C,所述门控循环单元GRU层的输出G∈RL×C为。所述自注意力机制层接收GRU层的输出G∈RL×C作为输入,提取特征的全局相关性特征,所述自注意力机制层的输出为S∈RL×C
GRU层内包括多个单元,t为序列时间长度,第t单元在时序建模时t,时刻的输入特征xt和t-1时刻的单元状态特征ht-1通过门控结构更新本单元的状态特征ht,因此门控循环单元GRU层能够通过迭代来捕获时间序列特征的时间依赖性。
如图4所示,GRU层包括重置门rt和更新门zt,两个门控机制的计算过程为:
rt=σ(Wr*[ ht-1, xt]+ bt);
zt=σ(Wz*[ ht-1, xt]+ br);
其中,“σ”是激活函数Sigmoid,“[]”为张量拼接操作,W#为权重,b#为偏置。
利用计算得到的重置门rt和更新门zt,同时结合输入特征xt和单元状态特征ht-1来更新本单元状态,单元状态更新过程为:
Figure 372209DEST_PATH_IMAGE002
Figure 195808DEST_PATH_IMAGE003
其中,“tanh()”为tanh激活函数,Wh为权重,bh为偏置,
Figure 584064DEST_PATH_IMAGE004
为包含时间相关性特征的记忆项。
可选地,作为本发明一个实施例,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。
在本实施例中,所述自注意力机制层包括四个1×1的第二卷积层、两个最大池化层和一个第一softmax层GRU层的输出G∈RL×C进行1×1卷积操作得到自注意力机制的查询矩阵
Figure 543930DEST_PATH_IMAGE005
,其中L为时间维度,
Figure 726650DEST_PATH_IMAGE006
为降低K倍的通道数。
考虑到运行内存的减少,自注意力机制的键矩阵K和值矩阵V由GRU层的输出G∈RL ×C进行1×1卷积操作后送入最大池化层降低特征数量,得到自注意力机制的键矩阵
Figure 558252DEST_PATH_IMAGE007
和值矩阵
Figure 219040DEST_PATH_IMAGE008
,其中
Figure 298992DEST_PATH_IMAGE009
为降低P倍的时间维度,
Figure 918192DEST_PATH_IMAGE006
为降低K倍的通道数。本实施例P设置为4,K设置为8。
如图5所示,将查询矩阵Q和键矩阵K进行矩阵相乘,得到特征向量之间的相似度权重,然后利用softmax操作对相似度权重归一化得到注意力机制的权重矩阵A,权重矩阵A与值矩阵V相乘得到注意力矩阵AV。此外,对注意力矩阵AV应用由C个卷积核实现的1×1卷积操作,得到和原来特征形状相同的注意力矩阵O。为防止特征丢失,对注意力矩阵O加权并融合原来的特征矩阵G∈RL×C,得到最终的自注意力机制层的输出S∈RL×C。计算流程公式表示如下:
A=softmax(QKT);
O=(AV)WO;
S=β*O+G;
其中KT为K矩阵的转置,β为一种可学习的参数。
可选地,作为本发明一个实施例,还包括:
所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,0为假。
如图6所示,所述鉴别器的结构与生成器的编码器类似。不同的是,除了11层第三卷积层和第三时间建模模块,最后还有一层卷积核大小为1,数量为1的一维卷积层以及一个全连接层和第二softmax层来进行判别真假。第12层卷积层用于降低提取的语音特征向量大小,将尺寸为8×1024的语音特征映射到尺寸为8×1大小,全连接层将8×1的特征向量线性变化为1×1,最终第二softmax层将全连接层的输出转化为取值为0~1的概率,用于判断输入语音的真假。第三卷积层的卷积核大小为k=31,卷积步长均为s=2,每一层第三卷积层采用的LeakyReLU激活函数:
Figure 467116DEST_PATH_IMAGE010
其中,xi为第i个神经元的值,ai为负斜率,设置为0.3。
可选地,作为本发明一个实施例,如图7所示,还包括:训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;网络构建获取单元,用于构建基于时间建模的生成对抗网络;网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。
训练集的采样率,同样降低到16kHz;构建的生成对抗网络如前述,通过生成器的编码器中的第一卷积层、GRU层、自注意力机制层将语音的时域波形编码为具有高语义特征、时间依赖性特征、全局相关性特征的语音时域特征;将语音时域特征与随机噪声链接为一个特征向量;通过带有时间建模模块的解码器将特征向量解码,得到增强后的语音时域信息;将纯净语音信号和增强语音时域信号分别联合带噪语音信号后,输入给鉴别器,通过鉴别器判定真假。
本实施例,损失函数采用最小二乘损失函数,并用RMSProp优化器来训练网络模型。生成器损失L(G)和鉴别器损失L(D)如以下公式所示:
Figure 197175DEST_PATH_IMAGE011
其中,Z为随机噪声,
Figure 131633DEST_PATH_IMAGE012
为带噪语音信号,X为纯净语音信号,
Figure 656155DEST_PATH_IMAGE013
为增强语音信号;
Figure 941643DEST_PATH_IMAGE014
为增强语音信号和带噪语音信号共同送入鉴别器的输出;λ为范数系数,设置为100。
Figure 459080DEST_PATH_IMAGE015
其中, Z为随机噪声,
Figure 513624DEST_PATH_IMAGE012
为带噪语音信号,X为纯净语音信号,
Figure 209048DEST_PATH_IMAGE013
为增强语音信号;
Figure 716252DEST_PATH_IMAGE016
为纯净语音信号和带噪语音信号共同送入鉴别器的输出;
Figure 522534DEST_PATH_IMAGE014
为增强语音信号和带噪语音信号共同送入鉴别器的输出。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种基于时间建模生成对抗网络的语音增强系统,其特征在于,包括:
数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;
信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号;
所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;
所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;
所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。
2.根据权利要求1所述的系统,其特征在于,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。
3.根据权利要求2所述的系统,其特征在于,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;
所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;
所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;
所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。
4.根据权利要求1所述的系统,其特征在于,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;
所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;
所述第一卷积层与所述反卷积层之间采用残差链接连接。
5.根据权利要求1所述的系统,其特征在于,所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,0为假。
6.根据权利要求5所述的系统,其特征在于,还包括:
训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;
网络构建获取单元,用于构建基于时间建模的生成对抗网络;
网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;
语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;
损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。
CN202210387623.3A 2022-04-14 2022-04-14 一种基于时间建模生成对抗网络的语音增强系统 Active CN114495958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210387623.3A CN114495958B (zh) 2022-04-14 2022-04-14 一种基于时间建模生成对抗网络的语音增强系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210387623.3A CN114495958B (zh) 2022-04-14 2022-04-14 一种基于时间建模生成对抗网络的语音增强系统

Publications (2)

Publication Number Publication Date
CN114495958A true CN114495958A (zh) 2022-05-13
CN114495958B CN114495958B (zh) 2022-07-05

Family

ID=81488126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210387623.3A Active CN114495958B (zh) 2022-04-14 2022-04-14 一种基于时间建模生成对抗网络的语音增强系统

Country Status (1)

Country Link
CN (1) CN114495958B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US20200134804A1 (en) * 2018-10-26 2020-04-30 Nec Laboratories America, Inc. Fully convolutional transformer based generative adversarial networks
CN111243572A (zh) * 2020-01-14 2020-06-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于说话人博弈的多人语音转换方法与系统
US20200243094A1 (en) * 2018-12-04 2020-07-30 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法
WO2021068338A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 基于人工智能的语音增强方法、服务器及存储介质
CN112802491A (zh) * 2021-02-07 2021-05-14 武汉大学 一种基于时频域生成对抗网络的语音增强方法
US20210327445A1 (en) * 2018-08-30 2021-10-21 Dolby International Ab Method and apparatus for controlling enhancement of low-bitrate coded audio
KR20210146089A (ko) * 2020-05-26 2021-12-03 주식회사 케이티 대화 스타일링 서비스를 위한 다중 페르소나 모델 생성 방법 및 이를 이용한 대화 스타일링 방법
CN113870888A (zh) * 2021-09-24 2021-12-31 武汉大学 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置
CN114283835A (zh) * 2021-12-31 2022-04-05 中国人民解放军陆军工程大学 一种适用于实际通信条件下的语音增强与检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210327445A1 (en) * 2018-08-30 2021-10-21 Dolby International Ab Method and apparatus for controlling enhancement of low-bitrate coded audio
US20200134804A1 (en) * 2018-10-26 2020-04-30 Nec Laboratories America, Inc. Fully convolutional transformer based generative adversarial networks
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US20200243094A1 (en) * 2018-12-04 2020-07-30 Sorenson Ip Holdings, Llc Switching between speech recognition systems
WO2021068338A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 基于人工智能的语音增强方法、服务器及存储介质
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN111243572A (zh) * 2020-01-14 2020-06-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于说话人博弈的多人语音转换方法与系统
KR20210146089A (ko) * 2020-05-26 2021-12-03 주식회사 케이티 대화 스타일링 서비스를 위한 다중 페르소나 모델 생성 방법 및 이를 이용한 대화 스타일링 방법
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法
CN112802491A (zh) * 2021-02-07 2021-05-14 武汉大学 一种基于时频域生成对抗网络的语音增强方法
CN113870888A (zh) * 2021-09-24 2021-12-31 武汉大学 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置
CN114283835A (zh) * 2021-12-31 2022-04-05 中国人民解放军陆军工程大学 一种适用于实际通信条件下的语音增强与检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
F. XU ET AL.: "Classification of Left-Versus Right-Hand Motor Imagery in Stroke Patients Using Supplementary Data Generated by CycleGAN", 《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING》 *
SANTIAGO PASCUAL ET AL.: "SEGAN: Speech enhancement generative adversarial network", 《ARXIV》 *
SANTIAGO PASCUAL ET AL.: "Time-domain speech enhancement using generative adversarial networks", 《SPEECH COMMUNICATION》 *
杨帆 等: "基于时域和时频域联合优化的语音增强算法", 《网络新媒体技术》 *
柯健 等: "基于生成对抗网络的语音增强算法研究", 《信息技术与网络安全》 *

Also Published As

Publication number Publication date
CN114495958B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
Tian et al. Designing and training of a dual CNN for image denoising
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN112258526B (zh) 一种基于对偶注意力机制的ct肾脏区域级联分割方法
CN109255381B (zh) 一种基于二阶vlad稀疏自适应深度网络的图像分类方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111653275B (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN114581965B (zh) 指静脉识别模型训练方法及识别方法、系统和终端
CN116863944A (zh) 基于非稳态音频增强和多尺度注意力的声纹识别方法及系统
Zhang et al. High order recurrent neural networks for acoustic modelling
CN112949481A (zh) 一种用于说话人无关的唇语识别方法及系统
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN115147931A (zh) 基于detr的人物成对解码交互的人与物交互检测方法
Zhang et al. Lossless-constraint denoising based auto-encoders
CN113807232B (zh) 基于双流网络的伪造人脸检测方法、系统及存储介质
CN111680602A (zh) 基于双流分级特征修正的行人重识别方法及模型架构
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN114495163A (zh) 基于类别激活映射的行人重识别生成学习方法
CN113901758A (zh) 一种面向知识图谱自动构建系统的关系抽取方法
Shi et al. Self-guided autoencoders for unsupervised change detection in heterogeneous remote sensing images
CN117522674A (zh) 一种联合局部和全局信息的图像重建系统及方法
CN114495958B (zh) 一种基于时间建模生成对抗网络的语音增强系统
CN113158901A (zh) 一种域自适应行人重识别方法
CN113673323A (zh) 一种基于多深度学习模型联合判决体制的水中目标识别方法
CN111933123A (zh) 一种基于门控循环单元的声学建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501

Patentee after: Qilu University of Technology (Shandong Academy of Sciences)

Country or region after: China

Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501

Patentee before: Qilu University of Technology

Country or region before: China