CN113393854B - 一种语音处理方法、装置、电子设备和计算机存储介质 - Google Patents

一种语音处理方法、装置、电子设备和计算机存储介质 Download PDF

Info

Publication number
CN113393854B
CN113393854B CN202110546236.5A CN202110546236A CN113393854B CN 113393854 B CN113393854 B CN 113393854B CN 202110546236 A CN202110546236 A CN 202110546236A CN 113393854 B CN113393854 B CN 113393854B
Authority
CN
China
Prior art keywords
data
model
embedded
voice
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110546236.5A
Other languages
English (en)
Other versions
CN113393854A (zh
Inventor
汪剑
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Innovation Technology Co Ltd
Original Assignee
Mobvoi Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Innovation Technology Co Ltd filed Critical Mobvoi Innovation Technology Co Ltd
Priority to CN202110546236.5A priority Critical patent/CN113393854B/zh
Publication of CN113393854A publication Critical patent/CN113393854A/zh
Application granted granted Critical
Publication of CN113393854B publication Critical patent/CN113393854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种语音处理方法,包括:构建第一语音数据和第二语音数据的训练对;将第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与第一语音数据对应的第一嵌入数据、及与第二语音数据对应的第二嵌入数据;将第一嵌入数据和第二嵌入数据输入判别模型进行训练,获得判别结果;根据判别模型,用随机梯度下降的方式进行对抗模型学习,获得语音降噪模型;根据语音降噪模型对目标语音数据进行降噪处理。本发明在保证其鲁棒性、在对先验知识依赖比较少的前提下,利用深度学习网络自适应的去充分学习正常信号和噪音信号之间的关联性和差异性,实现较好的语音降噪效果。

Description

一种语音处理方法、装置、电子设备和计算机存储介质
技术领域
本发明涉及语音处理技术领域,特别涉及一种语音处理方法、装置、电子设备和计算机存储介质。
背景技术
随着语音通信系统的发展,语音已经进入了各个方面,如手机音视频通话、车载通话等,外界环境通常会对语音的可懂度与清晰度造成影响,也会给倾听者造成听觉疲劳。传统的语音降噪方法是基于各种信号过滤算法来构建模型,如卡尔曼滤波器算法,构建正常信号和噪音信号的线性组合模型来达到噪音分离的目的,存在的缺陷在于其无法深层次去挖掘正常信号和噪音信号之间的相关性和差异性,从而影响噪音分离效果,并且需要由模型构建者加入一定的先验知识来保证模型的鲁棒性。
发明内容
本发明的主要目的在于提供一种语音处理方法、装置、电子设备和计算机存储介质,以至少解决现有技术中存在的以上技术问题。
为实现上述目的,本发明采取的技术方案为:
本发明一方面提供一种语音处理方法,所述方法包括:
构建第一语音数据和第二语音数据的训练对;
将所述第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据;
将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练,获得判别结果;
根据所述判别模型,用随机梯度下降的方式进行对抗模型学习,获得语音降噪模型;
根据所述语音降噪模型对目标语音数据进行降噪处理。
在一可实施方式中,所述构建第一语音数据和第二语音数据的训练对,包括:
对所述第一语音数据进行数据增强处理,获得对应的第二语音数据;所述第一语音数据及其对应的第二语音数据组成所述训练对。
在一可实施方式中,所述数据增强包括以下方式至少之一:相同类别增强、噪声增强、时移增强、音高变换增强。
在一可实施方式中,所述生成模型由多层卷积网络和全连接网络叠加而成;
所述将第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与第一语音数据对应的第一嵌入数据、及与第二语音数据对应的第二嵌入数据,包括:
将所述第一语音数据的频谱特征输入所述生成模型,生成第一嵌入向量,所述第一嵌入向量通过所述多层卷积网络和全连接网络后生成低维度的第一语音特征嵌入向量,所述低维度的第一语音特征嵌入向量作为所述第一嵌入数据;
将所述第二语音数据的频谱特征输入所述生成模型,生成第二嵌入向量,所述第二嵌入向量通过所述多层卷积网络和全连接网络后生成低维度的第二语音特征嵌入向量,所述低维度的第二语音特征嵌入向量作为所述第二嵌入数据。
在一可实施方式中,所述判别模型由多层卷积网络和全连接网络构成;
所述将第一嵌入数据和第二嵌入数据输入判别模型,获得判别结果,包括:
将所述第一嵌入数据和第二嵌入数据输入判别模型,经过多层卷积网络和全连接网络后生成判别结果;所述第一嵌入数据和第二嵌入数据输入判别模型执行以0和1为分类目标的分类判别。
在一可实施方式中,所述根据所述判别模型,用随机梯度下降的方式进行对抗模型学习,包括:
对所述生成模型按以下生成模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000031
对所述判别模型按以下判别模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000032
其中,E表示数学期望,Pg表示第二嵌入数据,Pr表示第一嵌入数据,fw表示判别模型。
本发明另一方面提供一种语音处理装置,包括:
构建模块,用于构建第一语音数据和第二语音数据的训练对;
生成模块,用于将所述第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据;
判别模块,用于将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练,获得判别结果;
学习模块,用于根据所述判别模型,用随机梯度下降的方式进行对抗模型学习,获得语音降噪模型;
处理模块,用于根据所述语音降噪模型对目标语音数据进行降噪处理。
在一可实施方式中,所述处理模块进一步用于,
对所述生成模型按以下生成模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000041
对所述判别模型按以下判别模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000042
其中,E表示数学期望,Pg表示第二嵌入数据,Pr表示第一嵌入数据,fw表示判别模型。
本发明再一方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现本发明实施例所述的方法步骤。
本发明还一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例所述的方法步骤。
与现有技术相比,本发明具有如下有益效果:
通过本发明提供的方法,能够在保证其鲁棒性、在对先验知识依赖比较少的前提下,利用深度学习网络自适应的去充分学习正常信号和噪音信号之间的关联性和差异性,实现较好的语音降噪效果。
附图说明
图1为本发明实施例的一种语音处理方法的流程示意图;
图2为本发明实施例的一种语音处理装置的结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例一提供一种语音处理方法,如图1所示,包括:
步骤101,构建第一语音数据和第二语音数据的训练对。
其中,第一语音数据可以是干净的语音数据,简称clean audio,即没有噪音的语音数据;第二语音数据可以是在第一语音数据基础上增加噪音后的语音数据,简称noisyaudio。
构建第一语音数据和第二语音数据的训练对,可以包括:
对第一语音数据进行数据增强处理,获得对应的第二语音数据;第一语音数据及其对应的第二语音数据组成训练对。数据增强包括以下方式至少之一:相同类别增强、噪声增强、时移增强、音高变换增强。
noisy audio数据是其对应的clean audio通过数据增强方式生成的,通过数据增强,能够增加其数据集中相关的数据量,clean audio数据能够通过如下几种方法进行增强,例如:
相同类别增强:将两个或者多个声音片段进行叠加,其在叠加的过程中按照一定的比例;
噪声增强:在增强信号之上随机的增加一个噪声段;
时移增强:通过沿着时间轴将信号进行滚动用来随机的对信号进行移位;
音高变换增强:对频率轴的±5%范围内的随机滚动用来调节音高的变化增量,环绕式转换以便于最大程度的对信息进行保存;
在通过clean audio进行增强时可以随机的对上述增强方法进行排列组合,能够获得大量的noisy audio数据。
步骤102,将第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与第一语音数据对应的第一嵌入数据、及与第二语音数据对应的第二嵌入数据。
原始特征可以是语音数据的频谱特征。
生成模型由多层卷积网络和全连接网络叠加而成,步骤102 具体为:将第一语音数据的频谱特征输入生成模型,生成第一嵌入向量,第一嵌入向量通过多层卷积网络和全连接网络后生成低维度的第一语音特征嵌入向量,低维度的第一语音特征嵌入向量作为第一嵌入数据;将第二语音数据的频谱特征输入生成模型,生成第二嵌入向量,第二嵌入向量通过多层卷积网络和全连接网络后生成低维度的第二语音特征嵌入向量,低维度的第二语音特征嵌入向量作为第二嵌入数据。
步骤103,将第一嵌入数据和第二嵌入数据输入判别模型进行训练,获得判别结果。
判别模型由多层卷积网络和全连接网络构成,步骤103具体为:将第一嵌入数据和第二嵌入数据输入判别模型,经过多层卷积网络和全连接网络后生成判别结果;第一嵌入数据和第二嵌入数据输入判别模型执行以0和1为分类目标的分类判别。
判别模型的判别方式为:将第一嵌入数据和第二嵌入数据输入判别模型,输入第一嵌入数据时判别结果为0,输入第二嵌入数据时判别结果为1,其中判别模型Discriminator是一个二分类的分类器。
步骤104,根据判别模型,用随机梯度下降的方式进行对抗模型学习,获得语音降噪模型。
为了避免基于分类器的对抗模型可能出现的梯度消失和缺乏多样性问题,采用WassersteinGAN函数进行后续对抗模型学习。
具体的,对生成模型按以下生成模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000081
对判别模型按以下判别模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000082
其中,E表示数学期望,Pg表示第二嵌入数据,Pr表示第一嵌入数据,fw表示判别模型。
步骤105,根据语音降噪模型对目标语音数据进行降噪处理。
本发明实施例提出的一种基于对抗网络的语音降噪处理方法,能够在保证其鲁棒性、在对先验知识依赖比较少的前提下,利用深度学习网络自适应的去充分学习正常信号和噪音信号之间的关联性和差异性,实现较好的语音降噪效果。
人们在对声音进行感知的过程中,不是一下对声音信息进行同步识别,而是将声音中的各个特征局部进行感知,然后更高层次的对声音进行综合操作,从而得到全局信息,当对声音信号进行多次卷积,模型能够学到一个高质量的特征声音的全连接层,在全连接层之前,若声音数目过大,学习能力强,可能会出现过拟合,在其中可以随机的对数据进行删除解决这一问题。
WassersteinGAN的损失函数如下:
生成模型损失函数为
Figure RE-GDA0003210198390000091
判别模型损失函数为
Figure RE-GDA0003210198390000092
其中,E表示数学期望,Pg表示第二嵌入数据,Pr表示第一嵌入数据,fw表示判别模型。
GAN作为生产模型的一种,能够通过观察来自特定分布的训练数据,进而尝试对这个分布进行预测,GAN的工作方式包括生成器(Generator)和判别器(Discriminator),其中生成器能够将噪声作为自己的随机输出,尝试生成一个新的样本,主要目的是为了让判别器无法对样本数据进行判断,判断其是来字训练数据还是来自生成器;在判断器里,让其以监督学习的方式进行工作,让其观察真实样本哈生成器生成的样本,并且同时用标签告诉它这些样本来自何处,在某些意义上,判别器能够对固定的损失函数进行代替,并且尝试学习与训练分布相关的模式,传统的GAN中判别器D并不会当模拟与真实的分布重叠不够时提供足够的信息用来底这个差异度进行估计,这会使生成器得不到有效的反馈信息,生成器的稳定性普遍不足,尤其处于训练之初这一阶段,WassersteinGAN在上述基础上,能够让判别器D去拟合模型于真实分布之间的Wasserstein距离,该距离能够大致估计出调整一个分布至另一个分布还需要多少工作。
实施例二
本发明实施例提供一种语音处理装置,如图2所示,包括:
构建模块10,用于构建第一语音数据和第二语音数据的训练对;
生成模块20,用于将所述第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据;
判别模块30,用于将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练,获得判别结果;
学习模块40,用于根据所述判别模型,用随机梯度下降的方式进行对抗模型学习,获得语音降噪模型;
处理模块50,用于根据所述语音降噪模型对目标语音数据进行降噪处理。
其中,构建模块10进一步用于,对第一语音数据进行数据增强处理,获得对应的第二语音数据;第一语音数据及其对应的第二语音数据组成训练对。
在一可实施方式中,数据增强包括以下方式至少之一:相同类别增强、噪声增强、时移增强、音高变换增强。
在一可实施方式中,生成模型由多层卷积网络和全连接网络叠加而成;生成模块20进一步用于,将第一语音数据的频谱特征输入生成模型,生成第一嵌入向量,第一嵌入向量通过多层卷积网络和全连接网络后生成低维度的第一语音特征嵌入向量,低维度的第一语音特征嵌入向量作为第一嵌入数据;将第二语音数据的频谱特征输入生成模型,生成第二嵌入向量,第二嵌入向量通过多层卷积网络和全连接网络后生成低维度的第二语音特征嵌入向量,低维度的第二语音特征嵌入向量作为第二嵌入数据。
在一可实施方式中,判别模型由多层卷积网络和全连接网络构成;判别模块30进一步用于,将第一嵌入数据和第二嵌入数据输入判别模型,经过多层卷积网络和全连接网络后生成判别结果;第一嵌入数据和第二嵌入数据输入判别模型执行以0和1为分类目标的分类判别。
在一可实施方式中,学习模块40进一步用于,对生成模型按以下生成模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000111
对判别模型按以下判别模型损失函数进行梯度训练:
Figure RE-GDA0003210198390000112
其中,E表示数学期望,Pg表示第二嵌入数据,Pr表示第一嵌入数据,fw表示判别模型。
实施例三
本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现本发明实施例所述的方法步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例所述的方法步骤。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种语音处理方法,其特征在于,所述方法包括:
构建第一语音数据和第二语音数据的训练对,所述第一语音数据为没有噪音的语音数据,所述第二语音数据为在所述第一语音数据基础上增加噪音后的语音数据;
将所述第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据,所述生成模型由多层卷积网络和全连接网络叠加而成;
所述第一嵌入数据为所述第一语音数据的频谱特征输入所述生成模型生成第一嵌入向量,所述第一嵌入向量通过所述多层卷积网络和全连接网络后所生成的低纬度的第一语音特征嵌入向量,所述第二嵌入数据为所述第二语音数据的频谱特征输入所述生成模型生成第二嵌入向量,所述第二嵌入向量通过所述多层卷积网络和全连接网络后所生成的低纬度的第二语音特征嵌入向量;
将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练,获得判别结果;
根据所述判别模型,用随机梯度下降的方式进行对抗模型学习,获得语音降噪模型;
根据所述语音降噪模型对目标语音数据进行降噪处理。
2.根据权利要求1所述的语音处理方法,其特征在于,所述构建第一语音数据和第二语音数据的训练对,包括:
对所述第一语音数据进行数据增强处理,获得对应的第二语音数据;所述第一语音数据及其对应的第二语音数据组成所述训练对。
3.根据权利要求2所述的语音处理方法,其特征在于,所述数据增强包括以下方式至少之一:相同类别增强、噪声增强、时移增强、音高变换增强。
4.根据权利要求1所述的语音处理方法,其特征在于,所述判别模型由多层卷积网络和全连接网络构成;
所述将第一嵌入数据和第二嵌入数据输入判别模型,获得判别结果,包括:
将所述第一嵌入数据和第二嵌入数据输入判别模型,经过多层卷积网络和全连接网络后生成判别结果;所述第一嵌入数据和第二嵌入数据输入判别模型执行以0和1为分类目标的分类判别。
5.根据权利要求1所述的语音处理方法,其特征在于,所述根据所述判别模型,用随机梯度下降的方式进行对抗模型学习,包括:
对所述生成模型按以下生成模型损失函数进行梯度训练:
Figure 210196DEST_PATH_IMAGE001
对所述判别模型按以下判别模型损失函数进行梯度训练:
Figure 817895DEST_PATH_IMAGE002
其中,E表示数学期望,
Figure 260377DEST_PATH_IMAGE003
表示第二嵌入数据,
Figure 978935DEST_PATH_IMAGE004
表示第一嵌入数据,
Figure 698629DEST_PATH_IMAGE005
表示判别模型。
6.一种语音处理装置,其特征在于,包括:
构建模块,用于构建第一语音数据和第二语音数据的训练对,所述第一语音数据为没有噪音的语音数据,所述第二语音数据为在所述第一语音数据基础上增加噪音后的语音数据;
生成模块,用于将所述第一语音数据和第二语音数据的原始特征分别输入生成模型,生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据,所述生成模型由多层卷积网络和全连接网络叠加而成;
所述第一嵌入数据为所述第一语音数据的频谱特征输入所述生成模型生成第一嵌入向量,所述第一嵌入向量通过所述多层卷积网络和全连接网络后所生成的低纬度的第一语音特征嵌入向量,所述第二嵌入数据为所述第二语音数据的频谱特征输入所述生成模型生成第二嵌入向量,所述第二嵌入向量通过所述多层卷积网络和全连接网络后所生成的低纬度的第二语音特征嵌入向量;
判别模块,用于将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练,获得判别结果;
学习模块,用于根据所述判别模型,用随机梯度下降的方式进行对抗模型学习,获得语音降噪模型;
处理模块,用于根据所述语音降噪模型对目标语音数据进行降噪处理。
7.根据权利要求6所述语音处理装置,其特征在于,所述处理模块进一步用于,
对所述生成模型按以下生成模型损失函数进行梯度训练:
Figure 601863DEST_PATH_IMAGE001
对所述判别模型按以下判别模型损失函数进行梯度训练:
Figure 407008DEST_PATH_IMAGE002
其中,E表示数学期望,
Figure 53890DEST_PATH_IMAGE003
表示第二嵌入数据,
Figure 362512DEST_PATH_IMAGE004
表示第一嵌入数据,
Figure 577592DEST_PATH_IMAGE005
表示判别模型。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一项所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。
CN202110546236.5A 2021-05-19 2021-05-19 一种语音处理方法、装置、电子设备和计算机存储介质 Active CN113393854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110546236.5A CN113393854B (zh) 2021-05-19 2021-05-19 一种语音处理方法、装置、电子设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110546236.5A CN113393854B (zh) 2021-05-19 2021-05-19 一种语音处理方法、装置、电子设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN113393854A CN113393854A (zh) 2021-09-14
CN113393854B true CN113393854B (zh) 2022-11-11

Family

ID=77618085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110546236.5A Active CN113393854B (zh) 2021-05-19 2021-05-19 一种语音处理方法、装置、电子设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN113393854B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235435B (zh) * 2023-11-15 2024-02-20 世优(北京)科技有限公司 确定音频信号损失函数的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN110619885A (zh) * 2019-08-15 2019-12-27 西北工业大学 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN111383651A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 一种语音降噪方法、装置及终端设备
CN111863003A (zh) * 2020-07-24 2020-10-30 苏州思必驰信息科技有限公司 语音数据增强方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10971142B2 (en) * 2017-10-27 2021-04-06 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks
US20210065731A1 (en) * 2019-08-29 2021-03-04 Sony Interactive Entertainment Inc. Noise cancellation using artificial intelligence (ai)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN111383651A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 一种语音降噪方法、装置及终端设备
CN110619885A (zh) * 2019-08-15 2019-12-27 西北工业大学 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN111863003A (zh) * 2020-07-24 2020-10-30 苏州思必驰信息科技有限公司 语音数据增强方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种用于语音增强的卷积门控循环网络;袁文浩等;《电子学报》;20200715(第07期);第35-42页 *
基于生成对抗网络的语音增强算法研究;柯健等;《信息技术与网络安全》;20180510(第05期);第58-61页 *
高噪声环境下的生成对抗网络人机语音增强技术;张敬敏 等;《移动通信·"人工智能"专题》;20190904;第14-20页 *

Also Published As

Publication number Publication date
CN113393854A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN111310802B (zh) 一种基于生成对抗网络的对抗攻击防御训练方法
Yang et al. A control chart pattern recognition system using a statistical correlation coefficient method
CN111800811B (zh) 一种频谱异常的无监督检测方法、装置、设备及存储介质
CN111325258B (zh) 特征信息获取方法、装置、设备及存储介质
CN108242234A (zh) 语音识别模型生成方法及其设备、存储介质、电子设备
CN111260620B (zh) 图像异常检测方法、装置和电子设备
CN112949820B (zh) 基于生成对抗网络的认知抗干扰目标检测方法
CN110991568A (zh) 目标识别方法、装置、设备和存储介质
CN114092764A (zh) 一种加入注意力机制的YOLOv5神经网络车辆检测方法
CN114282003A (zh) 基于知识图谱的金融风险预警方法及装置
CN113254927B (zh) 一种基于网络防御的模型处理方法、装置及存储介质
CN114503191A (zh) 利用对抗网络的高保真度语音合成
CN113205820B (zh) 一种用于声音事件检测的声音编码器的生成方法
CN113393854B (zh) 一种语音处理方法、装置、电子设备和计算机存储介质
CN115643115B (zh) 基于大数据的工控网络安全态势预测方法及系统
CN112037800A (zh) 声纹核身模型训练方法、装置、介质及电子设备
CN111222583B (zh) 一种基于对抗训练与关键路径提取的图像隐写分析方法
CN113344470B (zh) 一种基于区块链的供电系统智能管理方法
CN116129888A (zh) 一种音频数据分类方法、装置、设备及介质
CN113743317A (zh) 基于生成对抗网络的车牌图片生成方法、介质和设备
CN115423780A (zh) 基于图像质量的关键帧提取方法、装置、电子设备及介质
CN115270891A (zh) 一种信号对抗样本的生成方法、装置、设备及存储介质
CN114648075A (zh) 信息处理方法、装置、存储介质及电子设备
CN113344065A (zh) 图像处理方法、装置及设备
CN113851113A (zh) 模型训练方法及装置、语音唤醒方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221019

Address after: Floor 10, Building D11, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, 210000 Jiangsu Province

Applicant after: New Technology Co.,Ltd.

Address before: 100044 floor 1-101, building 1, courtyard 42, gaoliangqiaoxie street, Haidian District, Beijing

Applicant before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant