CN114495958A - 一种基于时间建模生成对抗网络的语音增强系统 - Google Patents
一种基于时间建模生成对抗网络的语音增强系统 Download PDFInfo
- Publication number
- CN114495958A CN114495958A CN202210387623.3A CN202210387623A CN114495958A CN 114495958 A CN114495958 A CN 114495958A CN 202210387623 A CN202210387623 A CN 202210387623A CN 114495958 A CN114495958 A CN 114495958A
- Authority
- CN
- China
- Prior art keywords
- layer
- voice signal
- time
- voice
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 34
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种基于时间建模生成对抗网络的语音增强系统,属于语音信号处理技术领域,包括:数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号。本发明解决了语音时域特征的时间依赖性和全局性考虑不足的问题,降低语音信号中的噪声影响,从而提高了增强后语音的听觉质量。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及一种基于时间建模生成对抗网络的语音增强系统。
背景技术
语音增强是一种提高语音质量与可懂度的关键技术,即利用音频信号处理技术从一段含有噪声的观测信号中,消除噪声并提取纯净语音信号的技术,目前不降低语音可懂度或者不引入明显语音失真仍然是一个艰巨的挑战。
近年来,随着人工智能技术以及计算机处理能力的快速发展,深度学习成为了诸多研究领域的热点技术并且取得了很多显著的研究成果。因为维纳滤波,谱减法等传统的语音增强算法性能有限,深度学习技术被引入语音增强领域。如今,基于深度学习的有监督学习方法已经成为当今语音增强的主流方法。这类方法在实现语音增强时,一般分为两个阶段。第一阶段,运用有监督学习的训练方式,得到观测信号和纯净语音特征的映射关系。之后,第二阶段运用该映射关系进行语音增强。生成对抗网络因其在学习映射关系方面的优良性能,在语音增强领域取得了显著的成果,语音增强生成对抗网络利用生成对抗网络对语音在时域进行端到端的增强映射,均优于传统的语音增强算法,但是对于语音时域特征的时间依赖性和全局方面考虑不足。
发明内容
针对现有技术的上述不足,本发明提供一种基于时间建模生成对抗网络的语音增强系统,以解决生成对抗网络语音时域特征的时间依赖性和全局方面考虑不足问题。
第一方面,本发明提供一种基于时间建模生成对抗网络的语音增强系统,包括:
数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;
信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号;
所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;
所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;
所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。
进一步的,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。
进一步的,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;
所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;
所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;
所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。
进一步的,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;
所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;
所述第一卷积层与所述反卷积层之间采用残差链接连接。
进一步的,所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,0为假。
进一步的,还包括:
训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;
网络构建获取单元,用于构建基于时间建模的生成对抗网络;
网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;
语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;
损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。
本发明的有益效果在于,本发明提供的基于时间建模生成对抗网络的语音增强系统,针对高噪声环境中的低信噪比语音进行增强时,将带噪语音信号输入预先完成训练的生成对抗网络的生成器,通过生成器的第一卷积层和第一时间建模模块提取综合高语义特征,时间相关性特征和全局信息特征的语音时域特征,通过生成器的解码器将时域特征解码得到增强后的语音信号。本发明提供的融合时间建模的生成对抗网络能够更深层次的提取到目标语音特征,更准确的带噪语音信号与纯净语音信号之间映射关系,解决了生成对抗网络提取的语音时域特征缺少时间依赖性和全局性的问题,降低语音信号中的噪声影响,从而提高了增强后语音的听觉质量。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的系统的结构示意图。
图2为本发明一个实施例的生成对抗网络的生成器示意图。
图3为本发明一个实施例的生成器的第一时间建模模块示意图。
图4为本发明一个实施例的门控循环单元示意图。
图5为本发明一个实施例的自注意力机制示意图。
图6为本发明一个实施例的鉴别器的结构示意图。
图7为本发明一个实施例的生成对抗网络训练流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
GRU:Gated Recurrent Unit,门控循环单元,用门控机制控制输入、记忆等信息,而在当前时间做出预测。
图1示出为本申请实施例提供的一种基于时间建模生成对抗网络的语音增强系统,该系统包括:
数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;
通常语音数据集内包括纯净语音信号和带噪语音信号,语音数据集内信号的采样率通常为48kHz,以16kHz的目标采样率降低带噪语音信号的采样率。
信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号。
如图2所示,将带噪语音信号输入预先完成训练的生成对抗网络提取具有高语义、时间相关性和全局性的语音时域特征,并将时域特征解码得到增强后的纯净语音信号。
所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。
向编码器的第一卷积层输入带噪语音信号,第一卷积层从带噪语音信号中提取局部特征,送入第一时间建模模块,在局部特征进一步提取出时域特征,输入解码器,反卷积层用于将语音时域特征恢复语音信号,在恢复过程中第二时间建模模块考虑时间建模。
本实施例提供的融合时间建模的生成对抗网络能够更深层次地提取到语音特征,解决了生成对抗网络对于语音时域特征的时间相关性、全局特征考虑不周全的问题,能够将提取的带噪语音特征表示恢复为更好的增强纯净语音,找到带噪语音与纯净语音之间的映射关系,从而提高了增强后语音的听觉质量,进而有效降低语音信号中的噪声影响。
可选地,作为本发明一个实施例,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;所述第一卷积层与所述反卷积层之间采用残差链接连接。
本实施例中,编码器的特征提取网络结构为11个一维跨步的第一卷积层依次相连,且每两个第一卷积层中间嵌入一个第一时间建模模块。编码层输入的带噪语音信号的维度为16384×1,11个第一卷积层的输出维度分别为8192×16,4096×32,2048×32,1024×64,512×64,256×128,128×128,64×256,32×256,16×512,8×1024。每个第一卷积层采用的激活函数为参数修正线性单元PReLU(Parametric Rectified Linear Unit),每个第一卷积层提取并压缩语音的时域特征输入到下一个第一卷积层,第一时间建模模块接收上一个第一卷积层的输出为输入,输出作为下一个第一卷积层的输入,其中,第一时间建模模块输入维度与输出维度相同。在本实施例中,第一时间建模模块可以与任意数量甚至所有的第一卷积层组合使用。
解码器结构与编码器相似,反卷积层也是11层,将编码器的输出C∈R8×1024与随机噪声Z∈R8×1024的链接为一个特征向量F∈R8×2048,作为解码器的输入。11个反卷积层的输出维度分别为:16×1024,32×512,64×512,8×256,256×256,512×128,1024×128,2048×64,4096×64,8192×32,16384×1。所述解码器的多个反卷积层将输入的F∈R8×2048进行多次反卷积,且在每次反卷积前输入都需要利用残差链接和编码器对应第一卷积层的输出进行特征融合,以防止信息的丢失,并避免梯度消失的问题,最终输出增强语音信号的时域信息。
本实施例中,所述第一卷积层的卷积核大小为k=31,卷积步长为s=2,采用的PReLU激活函数的公式为:;其中,xi为第i个神经元的值,ai为参数。所述反卷积层的结构与所述第一卷积层相同,可参考前述,此处不再赘述。
可选地,作为本发明一个实施例,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。
如图3所示,时间建模模块输入的局部特征为F∈RL×C,该局部特征F∈RL×C为第一卷积层卷积激活之后的输出,其中,L表示时间维度,C表示特征的通道数。GRU层接收局部特征F∈RL×C提取特征的时间相关性特征,GRU层的输出维度也为C,所述门控循环单元GRU层的输出G∈RL×C为。所述自注意力机制层接收GRU层的输出G∈RL×C作为输入,提取特征的全局相关性特征,所述自注意力机制层的输出为S∈RL×C。
GRU层内包括多个单元,t为序列时间长度,第t单元在时序建模时t,时刻的输入特征xt和t-1时刻的单元状态特征ht-1通过门控结构更新本单元的状态特征ht,因此门控循环单元GRU层能够通过迭代来捕获时间序列特征的时间依赖性。
如图4所示,GRU层包括重置门rt和更新门zt,两个门控机制的计算过程为:
rt=σ(Wr*[ ht-1, xt]+ bt);
zt=σ(Wz*[ ht-1, xt]+ br);
其中,“σ”是激活函数Sigmoid,“[]”为张量拼接操作,W#为权重,b#为偏置。
利用计算得到的重置门rt和更新门zt,同时结合输入特征xt和单元状态特征ht-1来更新本单元状态,单元状态更新过程为:
可选地,作为本发明一个实施例,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。
在本实施例中,所述自注意力机制层包括四个1×1的第二卷积层、两个最大池化层和一个第一softmax层GRU层的输出G∈RL×C进行1×1卷积操作得到自注意力机制的查询矩阵,其中L为时间维度,为降低K倍的通道数。
考虑到运行内存的减少,自注意力机制的键矩阵K和值矩阵V由GRU层的输出G∈RL ×C进行1×1卷积操作后送入最大池化层降低特征数量,得到自注意力机制的键矩阵和值矩阵,其中为降低P倍的时间维度,为降低K倍的通道数。本实施例P设置为4,K设置为8。
如图5所示,将查询矩阵Q和键矩阵K进行矩阵相乘,得到特征向量之间的相似度权重,然后利用softmax操作对相似度权重归一化得到注意力机制的权重矩阵A,权重矩阵A与值矩阵V相乘得到注意力矩阵AV。此外,对注意力矩阵AV应用由C个卷积核实现的1×1卷积操作,得到和原来特征形状相同的注意力矩阵O。为防止特征丢失,对注意力矩阵O加权并融合原来的特征矩阵G∈RL×C,得到最终的自注意力机制层的输出S∈RL×C。计算流程公式表示如下:
A=softmax(QKT);
O=(AV)WO;
S=β*O+G;
其中KT为K矩阵的转置,β为一种可学习的参数。
可选地,作为本发明一个实施例,还包括:
所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,0为假。
如图6所示,所述鉴别器的结构与生成器的编码器类似。不同的是,除了11层第三卷积层和第三时间建模模块,最后还有一层卷积核大小为1,数量为1的一维卷积层以及一个全连接层和第二softmax层来进行判别真假。第12层卷积层用于降低提取的语音特征向量大小,将尺寸为8×1024的语音特征映射到尺寸为8×1大小,全连接层将8×1的特征向量线性变化为1×1,最终第二softmax层将全连接层的输出转化为取值为0~1的概率,用于判断输入语音的真假。第三卷积层的卷积核大小为k=31,卷积步长均为s=2,每一层第三卷积层采用的LeakyReLU激活函数:;
其中,xi为第i个神经元的值,ai为负斜率,设置为0.3。
可选地,作为本发明一个实施例,如图7所示,还包括:训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;网络构建获取单元,用于构建基于时间建模的生成对抗网络;网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。
训练集的采样率,同样降低到16kHz;构建的生成对抗网络如前述,通过生成器的编码器中的第一卷积层、GRU层、自注意力机制层将语音的时域波形编码为具有高语义特征、时间依赖性特征、全局相关性特征的语音时域特征;将语音时域特征与随机噪声链接为一个特征向量;通过带有时间建模模块的解码器将特征向量解码,得到增强后的语音时域信息;将纯净语音信号和增强语音时域信号分别联合带噪语音信号后,输入给鉴别器,通过鉴别器判定真假。
本实施例,损失函数采用最小二乘损失函数,并用RMSProp优化器来训练网络模型。生成器损失L(G)和鉴别器损失L(D)如以下公式所示:
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (6)
1.一种基于时间建模生成对抗网络的语音增强系统,其特征在于,包括:
数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;
信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号;
所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;
所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;
所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。
2.根据权利要求1所述的系统,其特征在于,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。
3.根据权利要求2所述的系统,其特征在于,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;
所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;
所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;
所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。
4.根据权利要求1所述的系统,其特征在于,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;
所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;
所述第一卷积层与所述反卷积层之间采用残差链接连接。
5.根据权利要求1所述的系统,其特征在于,所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,0为假。
6.根据权利要求5所述的系统,其特征在于,还包括:
训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;
网络构建获取单元,用于构建基于时间建模的生成对抗网络;
网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;
语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;
损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210387623.3A CN114495958B (zh) | 2022-04-14 | 2022-04-14 | 一种基于时间建模生成对抗网络的语音增强系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210387623.3A CN114495958B (zh) | 2022-04-14 | 2022-04-14 | 一种基于时间建模生成对抗网络的语音增强系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114495958A true CN114495958A (zh) | 2022-05-13 |
CN114495958B CN114495958B (zh) | 2022-07-05 |
Family
ID=81488126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210387623.3A Active CN114495958B (zh) | 2022-04-14 | 2022-04-14 | 一种基于时间建模生成对抗网络的语音增强系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495958B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110739002A (zh) * | 2019-10-16 | 2020-01-31 | 中山大学 | 基于生成对抗网络的复数域语音增强方法、系统及介质 |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US20200134804A1 (en) * | 2018-10-26 | 2020-04-30 | Nec Laboratories America, Inc. | Fully convolutional transformer based generative adversarial networks |
CN111243572A (zh) * | 2020-01-14 | 2020-06-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于说话人博弈的多人语音转换方法与系统 |
US20200243094A1 (en) * | 2018-12-04 | 2020-07-30 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
CN112599145A (zh) * | 2020-12-07 | 2021-04-02 | 天津大学 | 基于生成对抗网络的骨传导语音增强方法 |
WO2021068338A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN112802491A (zh) * | 2021-02-07 | 2021-05-14 | 武汉大学 | 一种基于时频域生成对抗网络的语音增强方法 |
US20210327445A1 (en) * | 2018-08-30 | 2021-10-21 | Dolby International Ab | Method and apparatus for controlling enhancement of low-bitrate coded audio |
KR20210146089A (ko) * | 2020-05-26 | 2021-12-03 | 주식회사 케이티 | 대화 스타일링 서비스를 위한 다중 페르소나 모델 생성 방법 및 이를 이용한 대화 스타일링 방법 |
CN113870888A (zh) * | 2021-09-24 | 2021-12-31 | 武汉大学 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
CN114283835A (zh) * | 2021-12-31 | 2022-04-05 | 中国人民解放军陆军工程大学 | 一种适用于实际通信条件下的语音增强与检测方法 |
-
2022
- 2022-04-14 CN CN202210387623.3A patent/CN114495958B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210327445A1 (en) * | 2018-08-30 | 2021-10-21 | Dolby International Ab | Method and apparatus for controlling enhancement of low-bitrate coded audio |
US20200134804A1 (en) * | 2018-10-26 | 2020-04-30 | Nec Laboratories America, Inc. | Fully convolutional transformer based generative adversarial networks |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US20200243094A1 (en) * | 2018-12-04 | 2020-07-30 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
WO2021068338A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN110739002A (zh) * | 2019-10-16 | 2020-01-31 | 中山大学 | 基于生成对抗网络的复数域语音增强方法、系统及介质 |
CN111243572A (zh) * | 2020-01-14 | 2020-06-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于说话人博弈的多人语音转换方法与系统 |
KR20210146089A (ko) * | 2020-05-26 | 2021-12-03 | 주식회사 케이티 | 대화 스타일링 서비스를 위한 다중 페르소나 모델 생성 방법 및 이를 이용한 대화 스타일링 방법 |
CN112599145A (zh) * | 2020-12-07 | 2021-04-02 | 天津大学 | 基于生成对抗网络的骨传导语音增强方法 |
CN112802491A (zh) * | 2021-02-07 | 2021-05-14 | 武汉大学 | 一种基于时频域生成对抗网络的语音增强方法 |
CN113870888A (zh) * | 2021-09-24 | 2021-12-31 | 武汉大学 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
CN114283835A (zh) * | 2021-12-31 | 2022-04-05 | 中国人民解放军陆军工程大学 | 一种适用于实际通信条件下的语音增强与检测方法 |
Non-Patent Citations (5)
Title |
---|
F. XU ET AL.: "Classification of Left-Versus Right-Hand Motor Imagery in Stroke Patients Using Supplementary Data Generated by CycleGAN", 《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING》 * |
SANTIAGO PASCUAL ET AL.: "SEGAN: Speech enhancement generative adversarial network", 《ARXIV》 * |
SANTIAGO PASCUAL ET AL.: "Time-domain speech enhancement using generative adversarial networks", 《SPEECH COMMUNICATION》 * |
杨帆 等: "基于时域和时频域联合优化的语音增强算法", 《网络新媒体技术》 * |
柯健 等: "基于生成对抗网络的语音增强算法研究", 《信息技术与网络安全》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114495958B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tian et al. | Designing and training of a dual CNN for image denoising | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN112258526B (zh) | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 | |
CN109255381B (zh) | 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN114581965B (zh) | 指静脉识别模型训练方法及识别方法、系统和终端 | |
CN116863944A (zh) | 基于非稳态音频增强和多尺度注意力的声纹识别方法及系统 | |
Zhang et al. | High order recurrent neural networks for acoustic modelling | |
CN112949481A (zh) | 一种用于说话人无关的唇语识别方法及系统 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN115147931A (zh) | 基于detr的人物成对解码交互的人与物交互检测方法 | |
Zhang et al. | Lossless-constraint denoising based auto-encoders | |
CN113807232B (zh) | 基于双流网络的伪造人脸检测方法、系统及存储介质 | |
CN111680602A (zh) | 基于双流分级特征修正的行人重识别方法及模型架构 | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames | |
CN114495163A (zh) | 基于类别激活映射的行人重识别生成学习方法 | |
CN113901758A (zh) | 一种面向知识图谱自动构建系统的关系抽取方法 | |
Shi et al. | Self-guided autoencoders for unsupervised change detection in heterogeneous remote sensing images | |
CN117522674A (zh) | 一种联合局部和全局信息的图像重建系统及方法 | |
CN114495958B (zh) | 一种基于时间建模生成对抗网络的语音增强系统 | |
CN113158901A (zh) | 一种域自适应行人重识别方法 | |
CN113673323A (zh) | 一种基于多深度学习模型联合判决体制的水中目标识别方法 | |
CN111933123A (zh) | 一种基于门控循环单元的声学建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee after: Qilu University of Technology (Shandong Academy of Sciences) Country or region after: China Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee before: Qilu University of Technology Country or region before: China |