CN109326302B - 一种基于声纹比对和生成对抗网络的语音增强方法 - Google Patents
一种基于声纹比对和生成对抗网络的语音增强方法 Download PDFInfo
- Publication number
- CN109326302B CN109326302B CN201811353760.5A CN201811353760A CN109326302B CN 109326302 B CN109326302 B CN 109326302B CN 201811353760 A CN201811353760 A CN 201811353760A CN 109326302 B CN109326302 B CN 109326302B
- Authority
- CN
- China
- Prior art keywords
- discriminator
- audio
- spectrogram
- generator
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000926 separation method Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000004913 activation Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000002054 transplantation Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种基于声纹比对和生成对抗网络的语音增强方法,1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;2)训练声纹识别编码器提取目标说话者的声纹特征,得目标声纹特征;3)将带噪音频转化成语谱图送入噪声分离系统中的生成器中,得预测干净音频;4)将预测干净音频和真实干净音频送入噪声分离系统中的鉴别器训练;5)调整鉴别器权重参数,使鉴别器更好地分辨出真实干净音频和预测干净音频的区别,得到产生近乎真实的干净音频的生成器;6)将说话者的声音送入已经训练好的生成器中,生成预测干净语谱图,得到增强的语音信号。该方法规模小、计算低、易于移植、保持一定的空间不变性且去噪效果好。
Description
技术领域
本发明涉及语音增强技术领域,具体是一种基于声纹比对和生成对抗网络的语音增强方法。
背景技术
随着社会的发展,电子产品的普及,人们对语音质量的要求越来越高。如何提高电子产品在嘈杂环境下的移动通信质量已经成为当下最热门的研究方向。而语音增强可以提高噪声环境下语音的质量和可理解性,语音增强不仅在助听器和人工耳蜗领域有着重要的应用,而且已成功应用于语音识别和说话人识别系统中的预处理阶段。
经典的语音增强的方法有谱减法、维纳滤波、基于统计模型的方法和子空间算法。自80年代以来,神经网络也被应用于语音增强。近些年,去噪自编码架构已被广泛采用。例如,循环去噪自编码在对音频信号上下文信息的处理上表现良好。最近长短期记忆网络也被应用于去噪任务。尽管上述这些方法都可以取得不错的效果,但是却需要大量的数据和计算量,难以移植到嵌入式设备。而且,这些方法往往依赖于训练集,输出的干净音频是基于训练集输出干净音频的平均值,会比较模糊,对细节的处理并不尽如人意。
发明内容
本发明的目的在于克服现有技术的不足,而提供一种基于声纹比对和生成对抗网络的语音增强方法,该方法规模小、计算更低、易于移植、保持一定的空间不变性且去噪效果好。
实现本发明目的的技术方案是:
一种基于声纹比对和生成对抗网络的语音增强方法,包括如下步骤:
1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;
2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;
3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话者的声音,得到预测干净音频;
4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;
5)调整鉴别器权重参数,使鉴别器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;
6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生成器中,生成预测干净语谱图,再通过反短时傅里叶变换转化成语音模拟信号,语音模拟信号经扬声器播放出来,即得到增强的语音信号。
所述的声纹识别编码器为2000NISI Speaker Recongnition Evaluation语音库的声纹识别编码器;所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统;所述的语音分离系统为TIMIT语音库的语音分离系统。
步骤2)中,所述的声纹识别编码器提取目标说话人的声纹特征,具体是:将音频信号转换为宽度为25ms和步长为10ms的帧,经过mel滤波器对每帧进行滤波,并且从结果中提取尺寸为40的能量谱作为网络输入,在这些帧上构建固定长度的滑动窗口,并在每个窗口上运行长短期记忆网络,然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征(d-vector)表示。
所述的生成器,是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,输入信号的语谱图经过卷积层后,参考音频的声纹特征(d-vector)会被逐帧拼接到卷积层的输出上,一同输入长短期记忆层,最终,网络的输出是一段与输入语谱图维度相同的掩码(mask),将输出掩码与输入语谱图相乘,即可得到输出音频的预测干净音频谱图
所述的鉴别器,是由一个2层的卷积网络和一个2层的全连接神经网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,生成器将生成的预测干净音频谱图送入鉴别器,再将步骤1)中真实干净音频X送入鉴别器,训练鉴别器神经网络,鉴别器对生成器产生的预测干净音频谱图判定为虚假数据给予低分(接近0),对步骤1)中真实干净音频X判定为真实数据给予高分(接近1),以此学习真实数据和预测数据的分布,使鉴别器分辨出步骤6)中说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布。
所述的调整鉴别器权重参数,具体是将真实虚假的消息传递给生成器,生成器调整网络模型的参数,修正其输出的语谱图,使其更接近于真实的分布,消除被鉴别器判定为虚假的噪音信号,即使生成器产生的预测干净语谱图可以“骗过”鉴别器,鉴别器判定生成器产生的预测干净语谱图是从TIMIT语音库中得到的真实干净音频的语谱图X,在神经网络反向传播的过程中,鉴别器能够更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,也就是更好地找到真实干净音频的特征;同样的,生成器也会随着不断更新的鉴别器,调整其参数,使其产生的预测语谱图向着真实干净音频语谱图移动。
所述的生成器、鉴别器,相互博弈,相互对抗,生成对抗网络算法,算法公式如下:
为解决经典方法面临梯度消失的问题,采用最小二乘生成对抗网络the least-squares GAN代替交叉熵损失the cross-entropy loss,则:
上述公式中,G表示生成器(Generator),D表示鉴别器(Discriminator),V代表损失值,data表示步骤1)语音分离系统中真实干净音频的语音库,x表示data中抽取出的真实干净语音音频,noise表示步骤1)语音分离系统中的带噪音频语音库,n表示从noise中抽取与x对应的带噪音频,G(n)表示生成器对带噪语音进行去噪处理,得到预测干净音频D(G(n))表示鉴别器对预测干净音频进行判定为虚假数给予低分(接近0),对真实干净音频X判定为真实数据给予高分(接近1)。
本发明提供的一种基于声纹比对和生成对抗网络的语音增强方法,该方法规模小、计算更低、易于移植、保持一定的空间不变性且去噪效果好。
附图说明
图1为本发明方法的流程图;
图2为本发明中的声纹识别编码器示意图;
图3为本发明中的生成器示意图;
图4为本发明中的鉴别器示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步阐述,但不是对本发明的限定。
实施例:
如图1所示,一种基于声纹比对和生成对抗网络的语音增强方法,包括如下步骤:
1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;
2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;
3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话者的声音,得到预测干净音频;
4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;
5)调整鉴别器权重参数,使鉴别器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;
6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生成器中,生成预测干净语谱图,再通过反短时傅里叶变换转化成语音模拟信号,语音模拟信号经扬声器播放出来,即得到增强的语音信号。
所述的声纹识别编码器为2000NISI Speaker Recongnition Evaluation语音库的声纹识别编码器;所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统;所述的语音分离系统为TIMIT语音库的语音分离系统。
2000NISI Speaker Recongnition Evaluation语音库是声纹特征提取论文中最常用的数据集通常在文献中直接称为“CALLHOME”,它包含500中方言,分布在6中语言中:阿拉伯语、英语、德语、日语、普通话、西班牙语;
TIMIT语音库是由德州仪器(TI)、麻省理工学院(MIT)和斯坦福研究院(SRI)共同采集的声学-音素连续语音语料库,包含6300个句子,由来自美国8个主要方言地区630人每人说出给定10个句子,所有句子都在音素级别上进行了手动分割、标记,并按照7:3的比例将数据集划分为训练集(70%)和测试集(30%);
100-nonspeech噪音库是由郭宁虎团队收集的100中非人声噪音。
使用2000NISI Speaker Recongnition Evaluation作为第一个数据库训练声纹识别编码器,使它可以很好的提取说话者的声纹特征(d-vector)。其次,需要三元组数据库来训练整个噪声分离系统,输入:①来自目标说话者的干净音频②带噪音频③来自目标说话者的参考音频;从TIMIT语音库中挑选干净音频并与噪音按照不同信噪比(SNR)合成带噪音频,最后在目标说话者除已使用的干净音频中随机选取一句参考音频组成三元组数据,作为第二数据库。
步骤2)中,所述的声纹识别编码器提取目标说话人的声纹特征,如图2所示,具体是:将音频信号转换为宽度为25ms和步长为10ms的帧,经过mel滤波器对每帧进行滤波,并且从结果中提取尺寸为40的能量谱作为网络输入,在这些帧上构建固定长度的滑动窗口,并在每个窗口上运行长短期记忆网络,然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征(d-vector)表示。
如图3所示,所述的生成器,是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,输入信号的语谱图经过卷积层后,参考音频的声纹特征(d-vector)会被逐帧拼接到卷积层的输出上,一同输入长短期记忆层,最终,网络的输出是一段与输入语谱图维度相同的掩码(mask),将输出掩码与输入语谱图相乘,即可得到输出音频的预测干净音频谱图
如图4所示,所述的鉴别器,是由一个2层的卷积网络和一个2层的全连接神经网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,生成器将生成的预测干净音频谱图送入鉴别器,再将步骤1)中真实干净音频X送入鉴别器,训练鉴别器神经网络,鉴别器对生成器产生的预测干净音频谱图判定为虚假数据给予低分(接近0),对步骤1)中真实干净音频X判定为真实数据给予高分(接近1),以此学习真实数据和预测数据的分布,使鉴别器分辨出步骤6)中说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布。
所述的调整鉴别器权重参数,具体是将真实虚假的消息传递给生成器,生成器调整网络模型的参数,修正其输出的语谱图,使其更接近于真实的分布,消除被鉴别器判定为虚假的噪音信号,即使生成器产生的预测干净语谱图可以“骗过”鉴别器,鉴别器判定生成器产生的预测干净语谱图是从TIMIT语音库中得到的真实干净音频的语谱图X,在神经网络反向传播的过程中,鉴别器能够更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,也就是更好地找到真实干净音频的特征;同样的,生成器也会随着不断更新的鉴别器,调整其参数,使其产生的预测语谱图向着真实干净音频语谱图移动。
所述的生成器、鉴别器,相互博弈,相互对抗,生成对抗网络算法,算法公式如下:
为解决经典方法面临梯度消失的问题,采用最小二乘生成对抗网络the least-squares GAN代替交叉熵损失the cross-entropy loss,则:
Claims (7)
1.一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,包括如下步骤:
1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;
2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;
3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话者的声音,得到预测干净音频;
4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;
5)调整鉴别器权重参数,使鉴别器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;
6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生成器中,生成预测干净语谱图,再通过反短时傅里叶变换转化成语音模拟信号,语音模拟信号经扬声器播放出来,即得到增强的语音信号。
2.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的声纹识别编码器为2000 NISI Speaker Recongnition Evaluation语音库的声纹识别编码器;所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统;所述的语音分离系统为TIMIT语音库的语音分离系统。
3.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,步骤2)中,所述的声纹识别编码器提取目标说话人的声纹特征,具体是:将音频信号转换为宽度为25ms和步长为10ms的帧,经过mel滤波器对每帧进行滤波,并且从结果中提取尺寸为40的能量谱作为网络输入,在这些帧上构建固定长度的滑动窗口,并在每个窗口上运行长短期记忆网络,然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征d-vector表示。
6.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的调整鉴别器权重参数,具体是将真实虚假的消息传递给生成器,生成器调整网络模型的参数,修正其输出的语谱图,使其更接近于真实的分布,消除被鉴别器判定为虚假的噪音信号,即使生成器产生的预测干净语谱图可以“骗过”鉴别器,鉴别器判定生成器产生的预测干净语谱图是从TIMIT语音库中得到的真实干净音频的语谱图X,在神经网络反向传播的过程中,鉴别器能够更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,也就是更好地找到真实干净音频的特征;同样的,生成器也会随着不断更新的鉴别器,调整其参数,使其产生的预测语谱图向着真实干净音频语谱图移动。
7.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的生成器、鉴别器,相互博弈,相互对抗,生成对抗网络算法,算法公式如下:
为解决经典方法面临梯度消失的问题,采用最小二乘生成对抗网络the least-squares GAN代替交叉熵损失the cross-entropy loss,则:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353760.5A CN109326302B (zh) | 2018-11-14 | 2018-11-14 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353760.5A CN109326302B (zh) | 2018-11-14 | 2018-11-14 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109326302A CN109326302A (zh) | 2019-02-12 |
CN109326302B true CN109326302B (zh) | 2022-11-08 |
Family
ID=65257213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811353760.5A Active CN109326302B (zh) | 2018-11-14 | 2018-11-14 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326302B (zh) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020242078A1 (en) * | 2019-03-20 | 2021-11-04 | Research Foundation Of The City University Of New York | Method for extracting speech from degraded signals by predicting the inputs to a speech vocoder |
CN110164470A (zh) * | 2019-06-12 | 2019-08-23 | 成都嗨翻屋科技有限公司 | 人声分离方法、装置、用户终端及存储介质 |
CN110289004B (zh) * | 2019-06-18 | 2021-09-07 | 暨南大学 | 一种基于深度学习的人工合成声纹检测系统及方法 |
CN110211591B (zh) * | 2019-06-24 | 2021-12-21 | 卓尔智联(武汉)研究院有限公司 | 基于情感分类的面试数据分析方法、计算机装置及介质 |
CN110619885B (zh) * | 2019-08-15 | 2022-02-11 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110718232B (zh) * | 2019-09-23 | 2020-08-18 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN110675891B (zh) * | 2019-09-25 | 2020-09-18 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN110619886B (zh) * | 2019-10-11 | 2022-03-22 | 北京工商大学 | 一种针对低资源土家语的端到端语音增强方法 |
CN110853663B (zh) * | 2019-10-12 | 2023-04-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN111128197B (zh) * | 2019-12-25 | 2022-05-13 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
CN111261147B (zh) * | 2020-01-20 | 2022-10-11 | 浙江工业大学 | 一种面向语音识别系统的音乐嵌入攻击防御方法 |
CN111276132A (zh) * | 2020-02-04 | 2020-06-12 | 北京声智科技有限公司 | 一种语音处理方法、电子设备及计算机可读存储介质 |
CN111243569B (zh) * | 2020-02-24 | 2022-03-08 | 浙江工业大学 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
CN111341304A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于gan的说话人语音特征训练方法、装置和设备 |
CN113516990B (zh) * | 2020-04-10 | 2024-08-13 | 华为技术有限公司 | 一种语音增强方法、训练神经网络的方法以及相关设备 |
CN111524524B (zh) * | 2020-04-28 | 2021-10-22 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
US11514925B2 (en) * | 2020-04-30 | 2022-11-29 | Adobe Inc. | Using a predictive model to automatically enhance audio having various audio quality issues |
CN111524526B (zh) * | 2020-05-14 | 2023-11-17 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
CN111862989B (zh) * | 2020-06-01 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种声学特征处理方法和装置 |
CN111785281A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于信道补偿的声纹识别方法及系统 |
CN111883091B (zh) * | 2020-07-09 | 2024-07-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
CN112216300A (zh) * | 2020-09-25 | 2021-01-12 | 三一专用汽车有限责任公司 | 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车 |
CN112259112A (zh) * | 2020-09-28 | 2021-01-22 | 上海声瀚信息科技有限公司 | 一种结合声纹识别和深度学习的回声消除方法 |
WO2022077305A1 (en) * | 2020-10-15 | 2022-04-21 | Beijing Didi Infinity Technology And Development Co., Ltd. | Method and system for acoustic echo cancellation |
CN112687275A (zh) * | 2020-12-25 | 2021-04-20 | 北京中科深智科技有限公司 | 一种语音过滤方法和过滤系统 |
CN112802491B (zh) * | 2021-02-07 | 2022-06-14 | 武汉大学 | 一种基于时频域生成对抗网络的语音增强方法 |
CN112989108B (zh) * | 2021-02-24 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的语种检测方法、装置及电子设备 |
CN113035217B (zh) * | 2021-03-01 | 2023-11-10 | 武汉大学 | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 |
CN113571084B (zh) * | 2021-07-08 | 2024-03-22 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
CN115938385A (zh) * | 2021-08-17 | 2023-04-07 | 中移(苏州)软件技术有限公司 | 一种语音分离方法、装置及存储介质 |
CN113707168A (zh) * | 2021-09-03 | 2021-11-26 | 合肥讯飞数码科技有限公司 | 一种语音增强方法、装置、设备及存储介质 |
CN113724713B (zh) * | 2021-09-07 | 2024-07-05 | 中国科学技术大学 | 一种语音识别方法、装置、设备及存储介质 |
CN113870836A (zh) * | 2021-09-27 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于深度学习的音频生成方法、装置、设备及存储介质 |
CN113823293B (zh) * | 2021-09-28 | 2024-04-26 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
CN118369715A (zh) * | 2021-12-10 | 2024-07-19 | 清华大学深圳国际研究生院 | 语音增强方法、电子设备、程序产品及存储介质 |
CN114255782B (zh) * | 2021-12-21 | 2024-08-23 | 思必驰科技股份有限公司 | 说话人语音增强方法、电子设备和存储介质 |
CN114609493B (zh) * | 2022-05-09 | 2022-08-12 | 杭州兆华电子股份有限公司 | 一种信号数据增强的局部放电信号识别方法 |
CN114974261A (zh) * | 2022-05-12 | 2022-08-30 | 厦门快商通科技股份有限公司 | 一种语音验证方法、终端设备及存储介质 |
CN114882888A (zh) * | 2022-05-20 | 2022-08-09 | 武汉博特智能科技有限公司 | 基于变分自编码和对抗生成网络的声纹识别方法及系统 |
CN116458894B (zh) * | 2023-04-21 | 2024-01-26 | 山东省人工智能研究院 | 基于复合型生成对抗网络的心电信号增强与分类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1327976B1 (en) * | 2001-12-21 | 2004-10-27 | Dietmar Dr. Ruwisch | Method and system for recognition of speech in a noisy environment |
EP3438972B1 (en) * | 2016-03-28 | 2022-01-26 | Sony Group Corporation | Information processing system and method for generating speech |
CN108074244B (zh) * | 2017-09-07 | 2021-05-25 | 汉鼎宇佑互联网股份有限公司 | 一种融合深度学习与背景差法的平安城市车流统计方法 |
CN108597496B (zh) * | 2018-05-07 | 2020-08-28 | 广州势必可赢网络科技有限公司 | 一种基于生成式对抗网络的语音生成方法及装置 |
CN108682418B (zh) * | 2018-06-26 | 2022-03-04 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
-
2018
- 2018-11-14 CN CN201811353760.5A patent/CN109326302B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109326302A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326302B (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN111243576B (zh) | 语音识别以及模型训练方法、装置、设备和存储介质 | |
US11948552B2 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
KR101415534B1 (ko) | 다단계 음성인식장치 및 방법 | |
CN108172218B (zh) | 一种语音建模方法及装置 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN113053407B (zh) | 一种针对多说话人的单通道语音分离方法及系统 | |
CN110827801A (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN113889090A (zh) | 一种基于多任务学习的多语种识别模型的构建和训练方法 | |
CN111862934A (zh) | 语音合成模型的改进方法和语音合成方法及装置 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
DE60107072T2 (de) | Robuste merkmale für die erkennung von verrauschten sprachsignalen | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Hamsa et al. | Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG | |
Beritelli et al. | A pattern recognition system for environmental sound classification based on MFCCs and neural networks | |
Samui et al. | Tensor-train long short-term memory for monaural speech enhancement | |
CN111833869B (zh) | 一种应用于城市大脑的语音交互方法及系统 | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |