CN108597496B - 一种基于生成式对抗网络的语音生成方法及装置 - Google Patents

一种基于生成式对抗网络的语音生成方法及装置 Download PDF

Info

Publication number
CN108597496B
CN108597496B CN201810428470.6A CN201810428470A CN108597496B CN 108597496 B CN108597496 B CN 108597496B CN 201810428470 A CN201810428470 A CN 201810428470A CN 108597496 B CN108597496 B CN 108597496B
Authority
CN
China
Prior art keywords
model
voice
data
generative
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810428470.6A
Other languages
English (en)
Other versions
CN108597496A (zh
Inventor
高永裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SPEAKIN INTELLIGENT TECHNOLOGY Co.,Ltd.
Original Assignee
Speakin Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speakin Technologies Co ltd filed Critical Speakin Technologies Co ltd
Priority to CN201810428470.6A priority Critical patent/CN108597496B/zh
Publication of CN108597496A publication Critical patent/CN108597496A/zh
Application granted granted Critical
Publication of CN108597496B publication Critical patent/CN108597496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

本发明公开了一种基于生成式对抗网络的语音生成方法,该方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本,由于该模拟样本不具备语言内容,故当生成模型和判别模型在循环更新时,生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多,由此提高了生成模型的生成能力和判别模型判别能力,当训练样本和模拟样本的对比值不大于预设的阈值时,即认为生成模型已具备生成真实数据的能力,那么通过该生成模型生成的语音数据库则具有足够的真实性,应用其进行身份识别可以提高识别率。相应地,本发明公开的一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质,也同样具有上述技术效果。

Description

一种基于生成式对抗网络的语音生成方法及装置
技术领域
本发明涉及音频技术领域,更具体地说,涉及一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的不断发展,音频处理技术也已经相当成熟,其中的声纹识别技术是用于识别用户身份的常用技术。声纹识别技术的关键在于语音特征的提取和语音数据库的构建。
目前现有技术基于生成式对抗网络构建语音数据库的方法为:采集不同人物所说的同一语句的语音,用其中一个人物的语音作为训练样本,其余人物的语音作为模拟样本;基于生成式对抗网络循环更新生成模型和判别模型,直至生成模型可以生成最接近于训练样本的模拟样本,此时则认为生成模型生成的模拟样本的分布与训练样本的分布一致,即认为该生成模型可以生成真实语音数据,那么可以通过该生成模型构建语音数据库。其中,生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模型:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生较为理想的输出。
由于现有技术采用的训练样本和模拟样本的语音内容相同,其在频谱上具有类似的语音特征,故判别模型的作用仅是简单的区分训练样本和模拟样本的音质与音色,从而导致判别模型在循环更新过程中需要学习的判别能力较少,进而使得判别效果不理想,也限制了生成模型的模拟生成能力,从而降低了生成模型生成的语音数据的真实性和用于识别用户身份时的识别能力。
因此,如何基于生成式对抗网络生成理想且真实的语音数据库,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质,以实现基于生成式对抗网络生成理想且真实的语音数据库。
为实现上述目的,本发明实施例提供了如下技术方案:
一种基于生成式对抗网络的语音生成方法,包括:
获取目标语音数据包含的MFCC特征数据,并将所述MFCC特征数据转换为训练样本;
按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将所述噪音数据转换为模拟样本;
通过判别模型对比所述训练样本和所述模拟样本,得到所述训练样本和所述模拟样本的对比值,将所述对比值反馈至所述生成模型,以使所述生成模型和所述判别模型基于互相对抗过程循环更新;
当所述对比值不大于预设的阈值时,通过所述生成模型生成目标人物对应的语音数据库。
其中,所述获取目标语音数据包含的MFCC特征数据之前,还包括:
获取所述目标人物的语音数据,并对所述语音数据进行预处理,得到所述目标语音数据,所述预处理包括:预加重、分帧、加窗、傅里叶变换、梅尔刻度滤波器、对数转换、离散余弦变换。
其中,所述将所述MFCC特征数据转换为训练样本之前,还包括:
对所述MFCC特征数据进行VAD语音检测。
其中,所述按照预设的生成规则随机生成符合高斯分布的噪音数据,包括:
按照随机函数生成符合高斯分布的噪音数据。
其中,循环更新所述生成模型包括:
采用第一目标函数和随机梯度下降法循环更新所述生成模型,所述第一目标函数为:
Figure BDA0001652783710000021
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。
其中,循环更新所述判别模型包括:
采用第二目标函数和随机梯度上升法循环更新所述判别模型,所述第二目标函数为:
Figure BDA0001652783710000031
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。
其中,还包括:
通过所述语音数据库识别所述目标人物的身份,所述语音数据库符合高斯混合模型。
一种基于生成式对抗网络的语音生成装置,包括:
获取模块,用于获取目标语音数据包含的MFCC特征数据,并将所述MFCC特征数据转换为训练样本;
转换模块,用于按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将所述噪音数据转换为模拟样本;
对比模块,用于通过判别模型对比所述训练样本和所述模拟样本,得到所述训练样本和所述模拟样本的对比值,将所述对比值反馈至所述生成模型,以使所述生成模型和所述判别模型基于互相对抗过程循环更新;
生成模块,用于当所述对比值不大于预设的阈值时,通过所述生成模型生成目标人物对应的语音数据库。
一种基于生成式对抗网络的语音生成设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任意一项所述的基于生成式对抗网络的语音生成方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的基于生成式对抗网络的语音生成方法的步骤。
通过以上方案可知,本发明实施例提供的一种基于生成式对抗网络的语音生成方法,包括:获取目标语音数据包含的MFCC特征数据,并将所述MFCC特征数据转换为训练样本;按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将所述噪音数据转换为模拟样本;通过判别模型对比所述训练样本和所述模拟样本,得到所述训练样本和所述模拟样本的对比值,将所述对比值反馈至所述生成模型,以使所述生成模型和所述判别模型基于互相对抗过程循环更新;当所述对比值不大于预设的阈值时,通过所述生成模型生成目标人物对应的语音数据库。
可见,所述方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本,由于该模拟样本不具有任何语言内容,故在生成模型和判别模型的循环更新过程中,生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多,由此提高了生成模型的生成能力和判别模型判别能力,因而当训练样本和模拟样本的对比值不大于预设的阈值时,即认为此时的生成模型已具备生成真实数据的能力,那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性,应用其进行身份识别可以提高识别率。
相应地,本发明实施例提供的一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于生成式对抗网络的语音生成方法流程图;
图2为本发明实施例公开的另一种基于生成式对抗网络的语音生成方法流程图;
图3为本发明实施例公开的一种基于生成式对抗网络的语音生成装置示意图;
图4为本发明实施例公开的一种基于生成式对抗网络的语音生成设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质,以实现基于生成式对抗网络生成理想且真实的语音数据库。
参见图1,本发明实施例提供的一种基于生成式对抗网络的语音生成方法,包括:
S101、获取目标语音数据包含的MFCC特征数据,并将MFCC特征数据转换为训练样本,并执行S102;
具体的,本实施例提供的训练样本为某个人物的、具有特定内容的语音,获取该语音的MFCC特征数据,并转换MCFF特征数据,可以使语音转换为计算机能够识别的训练样本,该训练样本一般为维度为39维的向量。
S102、按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将噪音数据转换为模拟样本,并执行S103;
在本实施例中,噪音数据为计算机随机产生的、不携带任何语言内容的、无意义的噪音数据,将该噪音数据输入至预设的生成模型,可将该噪音数据转换为模拟样本,该模拟样本一般为维度大于39维的向量。其中,生成模型为可迭代更新的深度神经网络模型,其生成能力随着一次次的迭代更新逐渐增强。
S103、通过判别模型对比训练样本和模拟样本,得到训练样本和模拟样本的对比值,将对比值反馈至生成模型并更新判别模型,并执行S104;
需要说明的是,训练样本和模拟样本的对比值为:训练样本的数据分布与训练样本的数据分布和模拟样本的数据分布的和的比值,该比值可以代表训练样本的数据分布和模拟样本的数据分布的差别。
具体的,判别模型为可迭代更新的深度神经网络模型,其判别能力随着一次次的迭代更新逐渐增强。将训练样本和模拟样本输入至该判别模型,可计算出训练样本的数据分布和模拟样本的数据分布的差别,即得到训练样本和模拟样本的对比值。
S104、判断训练样本和模拟样本的对比值是否不大于预设的阈值;若是,则执行S105;若否,则执行S106;
S105、根据训练样本和模拟样本的对比值更新生成模型,并通过更新后的生成模型生成模拟样本,并执行S103;
需要说明的是,当得到训练样本和模拟样本的对比值时,该对比值会反馈至生成模型,使生成模型根据该对比值进行更新,更新后的生成模型可重新生成新的模拟样本;同时判别模型也会及时更新,提高其判别能力。更新后的判别模型会对比训练样本与新的模拟样本之间的差别,得到新的对比值,进而将新的对比值反馈至生成模型。生成模型和判别模型依照上述过程循环更新,直至训练样本与模拟样本之间的差别不大于预设的阈值时,便认为此时的生成模型已具备生成真实数据的能力,那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性,应用其进行身份识别可以提高识别率。
S106、通过生成模型生成目标人物对应的语音数据库。
具体的,当训练样本和模拟样本的对比值不大于预设的阈值时,即认为生成模型生成的模拟样本与原有的训练样本毫无差别,那么通过生成模型便可以生成真实的语音数据。故通过生成模型生成的语音数据库中包含了目标人物的众多真实语音数据,一定程度上解决了语音数据难以采集的问题。
可见,本实施例提供的一种基于生成式对抗网络的语音生成方法,该方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本,由于该模拟样本不具有任何语言内容,故在生成模型和判别模型的循环更新过程中,生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多,由此提高了生成模型的生成能力和判别模型判别能力,因而当训练样本和模拟样本的对比值不大于预设的阈值时,即认为此时的生成模型已具备生成真实数据的能力,那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性,应用其进行身份识别可以提高识别率。
本发明实施例公开了另一种基于生成式对抗网络的语音生成方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。
参见图2,本发明实施例提供的另一种基于生成式对抗网络的语音生成方法,包括:
S201、获取目标人物的语音数据,并对语音数据进行预处理,得到目标语音数据,预处理包括:预加重、分帧、加窗、傅里叶变换、梅尔刻度滤波器、对数转换、离散余弦变换,并执行S202;
具体的,将目标人物的语音数据作为训练样本,训练完成的生成模型的生成能力更接近于目标人物的特征,故生成的语音数据库更具真实性。相应地,可以采集多个人物的语音,将每个人物的语音作为训练样本,可生成每个人物对应的语音数据库。
在本实施例中,按照预处理的处理顺序,其具体处理过程为:
(1)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分,并且能突显高频的共振峰。即在频域上都乘以一个系数,这个系数跟频率成正相关,所以高频的幅值会有所提升。实际上就是将语音数据输入高通滤波器H(Z)=1-kz-1,实现的公式为S′n-Sn-k*Sn-1
(2)分帧:因为语音信号是快速变化的,而傅里叶变换适用于分析平稳的信号,利用语音的短时平稳性(在每一时刻所有阶差分都是一样的),在语音识别中一般取帧长为20ms~50ms(一般取25ms),这样一帧内既有足够多的周期,又不会变化很剧烈,一般帧移取10ms,也就是说帧与帧之间有15ms是重复的,即(S-15)/10等于帧数,其中,S为一段语音的毫秒数。
(3)加窗:用于平滑信号,使用汉明窗加以平滑,可以减弱FFT以后旁瓣大小以及频谱泄露,实现的公式为:
Figure BDA0001652783710000071
其中,Sn为加窗前的信号,S'n为经过加窗后的信号。
(4)快速傅里叶变换:将时域信号转化为频域信号,以便于进行频率分析,其中幅度谱为:
Figure BDA0001652783710000072
其中,1≤k≤K,N为时间序列长度,k为信号的周期数。
(5)梅尔滤波器过滤:因为频域信号存在较多冗余,滤波器组可以对频域的幅值进行精简,每一个频段用一个值来表示。对于FFT得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值。如果滤波器的个数为22,那么此时应该得到22个能量值。
(6)对数转换:由于人耳对声音的感知并不是线性的,对数可更精确的描述语音信号的非线性关系,也便于对语音信号进行倒谱分析。
(7)离散余弦变换:倒谱分析仍然使用傅里叶变换。计算MFCC时使用的离散余弦变 换(discrete cosine transform,DCT),其为傅里叶变换的一种,结果为实数,没有虚部。 DCT还有一个特点是,对于一般的语音信号,其结果的前几个系数较大,后面的系数较小,可 以忽略。若DCT的结果为40个点,可以仅保留前13~20个,使数据进一步压缩,得到梅尔倒 谱。具体转换公式为:
Figure BDA0001652783710000081
其中,Ci为第i个梅尔倒谱的值,N为梅尔倒谱长度。
需要说明的是,由于语音信号是时域连续的,分帧提取的特征信息只反应了本帧语音数据的特征,为了使语音特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度。常用的计算方式为一阶差分和二阶差分,计算公式如下:
Figure BDA0001652783710000082
其中,dt表示第t个一阶差分,θ表示一阶倒谱的时间差,可取1或2,ct+θ表示第ct+θ个倒谱系数,ct-θ表示第ct-θ个倒谱系数。
S202、获取目标语音数据包含的MFCC特征数据,并将MFCC特征数据转换为训练样本,并执行S203;
S203按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将噪音数据转换为模拟样本,并执行S204;
S204、通过判别模型对比训练样本和模拟样本,得到训练样本和模拟样本的对比值,将对比值反馈至生成模型并更新判别模型,并执行S205;
S205、判断训练样本和模拟样本的对比值是否不大于预设的阈值;若是,则执行S206;若否,则执行S207;
S206、根据训练样本和模拟样本的对比值更新生成模型,并通过更新后的生成模型生成模拟样本,并执行S204;
S207、通过生成模型生成目标人物对应的语音数据库。
可见,本实施例提供的另一种基于生成式对抗网络的语音生成方法,该方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本,由于该模拟样本不具有任何语言内容,故在生成模型和判别模型的循环更新过程中,生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多,由此提高了生成模型的生成能力和判别模型判别能力,因而当训练样本和模拟样本的对比值不大于预设的阈值时,即认为此时的生成模型已具备生成真实数据的能力,那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性,应用其进行身份识别可以提高识别率。
基于上述任意实施例,需要说明的是,所述将所述MFCC特征数据转换为训练样本之前,还包括:对所述MFCC特征数据进行VAD语音检测。
具体的,VAD语音检测(Voice Activity Detection,VAD)又称语音端点检测、语音边界检测,是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,能够降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率。其主要作用为:可以区别出噪音数据和语音数据,例如:预设区别值点,大于该区别值的为语音数据,小于则为噪音数据,对MFCC特征数据可以起到降低噪音以及去除噪音的作用。
基于上述任意实施例,需要说明的是,所述按照预设的生成规则随机生成符合高斯分布的噪音数据,包括:按照随机函数生成符合高斯分布的噪音数据。该噪音数据可以在Python中用numpy模块中的np.random.normal()生成,或者从一组符合高斯分布的向量中随机选取多个向量作为噪音数据。
基于上述任意实施例,需要说明的是,循环更新所述生成模型包括:采用第一目标函数和随机梯度下降法循环更新所述生成模型,所述第一目标函数为:
Figure BDA0001652783710000091
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。其中,可以采用第一目标函数和小批量随机梯度下降法循环更新所述生成模型。
基于上述任意实施例,需要说明的是,循环更新所述判别模型包括:采用第二目标函数和随机梯度上升法循环更新所述判别模型,所述第二目标函数为:
Figure BDA0001652783710000101
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。其中,可以采用第二目标函数和小批量随机梯度上升法循环更新所述判别模型。
基于上述任意实施例,需要说明的是,还包括:通过所述语音数据库识别所述目标人物的身份,所述语音数据库符合高斯混合模型。
具体的,传统的声纹识别数据库为UBM,其本质为高斯混合模型,但是其中的数据是通过非特定注册人的大量语音数据训练而得,用来表征普遍人类的发音特征,概括性较强,故识别率有待提高。而本说明书提供的符合高斯混合模型的语音数据库,其与不同人物一一对应,所以识别率比传统的声纹识别数据库更高。在进行声纹识别时,可首先将语音数据库通过高斯混合模型进行拟合,并提取低纬度向量。
基于上述任意实施例,需要说明的是,当训练样本和模拟样本的对比值不大于预设的阈值时,判别模型停止更新,但生成模型依然保持循环更新状态。当然,也可以为生成模型设置停止更新的阈值,使其在满足预设条件时停止更新。
具体的,训练样本和模拟样本的对比值为:训练样本数据分布Pdata(x)与训练样本数据分布Pdata(x)和模拟样本数据分布Pg(x)的和的比值,可用下述公式进行表示:
Figure BDA0001652783710000102
其中,
Figure BDA0001652783710000103
为训练样本和模拟样本的对比值,当
Figure BDA0001652783710000104
等于预设的阈值时,即判别模型已判别不出训练样本数据分布Pdata(x)和模拟样本数据分布Pg(x)的区别,即认为训练样本数据分布Pdata(x)和模拟样本数据分布Pg(x)一致,即生成模型可生成真实数据。其中,一般将该阈值设置为0.5,故当
Figure BDA0001652783710000105
不大于0.5时,即认为训练样本数据分布Pdata(x)和模拟样本数据分布Pg(x)一致,当
Figure BDA0001652783710000106
大于0.5时,即认为训练样本数据分布Pdata(x)和模拟样本数据分布Pg(x)还存在区别,那么需要继续循环更新,直至
Figure BDA0001652783710000111
不大于0.5时
下面对本发明实施例提供的一种基于生成式对抗网络的语音生成装置进行介绍,下文描述的一种基于生成式对抗网络的语音生成装置与上文描述的一种基于生成式对抗网络的语音生成方法可以相互参照。
参见图3,本发明实施例提供的一种基于生成式对抗网络的语音生成装置,包括:
获取模块301,用于获取目标语音数据包含的MFCC特征数据,并将所述MFCC特征数据转换为训练样本;
转换模块302,用于按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将所述噪音数据转换为模拟样本;
对比模块303,用于通过判别模型对比所述训练样本和所述模拟样本,得到所述训练样本和所述模拟样本的对比值,将所述对比值反馈至所述生成模型,以使所述生成模型和所述判别模型基于互相对抗过程循环更新;
生成模块304,用于当所述对比值不大于预设的阈值时,通过所述生成模型生成目标人物对应的语音数据库。
其中,还包括:
预处理模块,用于获取所述目标人物的语音数据,并对所述语音数据进行预处理,得到所述目标语音数据,所述预处理包括:预加重、分帧、加窗、傅里叶变换、梅尔刻度滤波器、对数转换、离散余弦变换。
其中,还包括:
检测模块,用于对所述MFCC特征数据进行VAD语音检测。
所述转换模块包括:
生成单元,用于按照随机函数生成符合高斯分布的噪音数据。
其中,还包括:
生成模型循环更新模块,用于采用第一目标函数和随机梯度下降法循环更新所述生成模型,所述第一目标函数为:
Figure BDA0001652783710000112
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。
其中,还包括:
生成模型循环更新模块,用于采用第二目标函数和随机梯度上升法循环更新所述判别模型,所述第二目标函数为:
Figure BDA0001652783710000121
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。
其中,还包括:
识别模块,用于通过所述语音数据库识别所述目标人物的身份,所述语音数据库符合高斯混合模型。
下面对本发明实施例提供的一种基于生成式对抗网络的语音生成设备进行介绍,下文描述的一种基于生成式对抗网络的语音生成设备与上文描述的一种基于生成式对抗网络的语音生成方法及装置可以相互参照。
参见图4,本发明实施例提供的一种基于生成式对抗网络的语音生成设备,包括:
存储器401,用于存储计算机程序;
处理器402,用于执行所述计算机程序时实现上述任意实施例所述的基于生成式对抗网络的语音生成方法的步骤。
下面对本发明实施例提供的一种计算机可读存储介质进行介绍,下文描述的一种计算机可读存储介质与上文描述的一种基于生成式对抗网络的语音生成方法、装置及设备可以相互参照。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意实施例所述的基于生成式对抗网络的语音生成方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于生成式对抗网络的语音生成方法,其特征在于,包括:
获取目标语音数据包含的MFCC特征数据,并将所述MFCC特征数据转换为训练样本;
按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将所述噪音数据转换为模拟样本;
通过判别模型对比所述训练样本和所述模拟样本,得到所述训练样本和所述模拟样本的对比值,将所述对比值反馈至所述生成模型,以使所述生成模型和所述判别模型基于互相对抗过程循环更新;
当所述对比值不大于预设的阈值时,通过所述生成模型生成目标人物对应的语音数据库;
其中,还包括:
通过所述语音数据库识别所述目标人物的身份,所述语音数据库符合高斯混合模型。
2.根据权利要求1所述的基于生成式对抗网络的语音生成方法,其特征在于,所述获取目标语音数据包含的MFCC特征数据之前,还包括:
获取所述目标人物的语音数据,并对所述语音数据进行预处理,得到所述目标语音数据,所述预处理包括:预加重、分帧、加窗、傅里叶变换、梅尔刻度滤波器、对数转换、离散余弦变换。
3.根据权利要求1所述的基于生成式对抗网络的语音生成方法,其特征在于,所述将所述MFCC特征数据转换为训练样本之前,还包括:
对所述MFCC特征数据进行VAD语音检测。
4.根据权利要求1所述的基于生成式对抗网络的语音生成方法,其特征在于,所述按照预设的生成规则随机生成符合高斯分布的噪音数据,包括:
按照随机函数生成符合高斯分布的噪音数据。
5.根据权利要求1所述的基于生成式对抗网络的语音生成方法,其特征在于,循环更新所述生成模型包括:
采用第一目标函数和随机梯度下降法循环更新所述生成模型,所述第一目标函数为:
Figure FDA0002534669200000021
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。
6.根据权利要求1所述的基于生成式对抗网络的语音生成方法,其特征在于,循环更新所述判别模型包括:
采用第二目标函数和随机梯度上升法循环更新所述判别模型,所述第二目标函数为:
Figure FDA0002534669200000022
其中,θ表示所述生成模型的参数,D表示所述判别模型,Z表示所述模拟样本,m表示采样容量,i表示采样点。
7.一种基于生成式对抗网络的语音生成装置,其特征在于,包括:
获取模块,用于获取目标语音数据包含的MFCC特征数据,并将所述MFCC特征数据转换为训练样本;
转换模块,用于按照预设的生成规则随机生成符合高斯分布的噪音数据,并通过生成模型将所述噪音数据转换为模拟样本;
对比模块,用于通过判别模型对比所述训练样本和所述模拟样本,得到所述训练样本和所述模拟样本的对比值,将所述对比值反馈至所述生成模型,以使所述生成模型和所述判别模型基于互相对抗过程循环更新;
生成模块,用于当所述对比值不大于预设的阈值时,通过所述生成模型生成目标人物对应的语音数据库;
其中,还包括:
识别模块,用于通过所述语音数据库识别所述目标人物的身份,所述语音数据库符合高斯混合模型。
8.一种基于生成式对抗网络的语音生成设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-6任意一项所述的基于生成式对抗网络的语音生成方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的基于生成式对抗网络的语音生成方法的步骤。
CN201810428470.6A 2018-05-07 2018-05-07 一种基于生成式对抗网络的语音生成方法及装置 Active CN108597496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810428470.6A CN108597496B (zh) 2018-05-07 2018-05-07 一种基于生成式对抗网络的语音生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810428470.6A CN108597496B (zh) 2018-05-07 2018-05-07 一种基于生成式对抗网络的语音生成方法及装置

Publications (2)

Publication Number Publication Date
CN108597496A CN108597496A (zh) 2018-09-28
CN108597496B true CN108597496B (zh) 2020-08-28

Family

ID=63635672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810428470.6A Active CN108597496B (zh) 2018-05-07 2018-05-07 一种基于生成式对抗网络的语音生成方法及装置

Country Status (1)

Country Link
CN (1) CN108597496B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346043B (zh) * 2018-10-26 2023-09-19 平安科技(深圳)有限公司 一种基于生成对抗网络的音乐生成方法及装置
CN109119090A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN109326302B (zh) * 2018-11-14 2022-11-08 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109326283B (zh) * 2018-11-23 2021-01-26 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109584846B (zh) * 2018-12-21 2023-04-14 成都潜在人工智能科技有限公司 一种基于生成对抗网络的旋律生成方法
CN109473091B (zh) * 2018-12-25 2021-08-10 四川虹微技术有限公司 一种语音样本生成方法及装置
CN111768784A (zh) * 2019-03-15 2020-10-13 上海火商智能科技有限公司 一种基于生成式对抗网络的语音生成方法
CN109977401A (zh) * 2019-03-15 2019-07-05 上海火商智能科技有限公司 一种基于神经网络的语义识别方法
CN110246488B (zh) * 2019-06-14 2021-06-25 思必驰科技股份有限公司 半优化CycleGAN模型的语音转换方法及装置
CN112133293A (zh) * 2019-11-04 2020-12-25 重庆邮电大学 基于生成对抗网络的短语音样本补偿方法及存储介质
CN110897634A (zh) * 2019-12-17 2020-03-24 安徽心之声医疗科技有限公司 一种基于生成对抗网络的心电信号生成方法
CN111292766B (zh) * 2020-02-07 2023-08-08 抖音视界有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN111477247B (zh) * 2020-04-01 2023-08-11 宁波大学 基于gan的语音对抗样本生成方法
CN112037760B (zh) * 2020-08-24 2022-01-07 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112289324A (zh) * 2020-10-27 2021-01-29 湖南华威金安企业管理有限公司 声纹身份识别的方法、装置和电子设备
CN112466314A (zh) * 2020-11-27 2021-03-09 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质
CN113113023B (zh) * 2021-04-16 2023-09-26 中国人民解放军陆军工程大学 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统
CN114362859B (zh) * 2021-12-28 2024-03-29 杭州电子科技大学 增强条件生成对抗网络的自适应信道建模方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253797A (ja) * 1989-03-28 1990-10-12 Mitsubishi Electric Corp 音響機器
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080144640A1 (en) * 2006-12-19 2008-06-19 Motorola, Inc. Method and system for managing communication in communication networks
CN105787428A (zh) * 2016-01-08 2016-07-20 上海交通大学 基于稀疏编码的唇语特征身份认证方法
CN106847294B (zh) * 2017-01-17 2018-11-30 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN106803082A (zh) * 2017-01-23 2017-06-06 重庆邮电大学 一种基于条件式生成对抗网络的在线笔迹识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253797A (ja) * 1989-03-28 1990-10-12 Mitsubishi Electric Corp 音響機器
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MTGAN:Speaker Verification through Multitasking Triplet Generative Adversarial Networks;Wenhao Ding, Liang He;《Interspeech》;20180331 *

Also Published As

Publication number Publication date
CN108597496A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN109817246B (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
WO1996013828A1 (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN111179910A (zh) 语速识别方法和装置、服务器、计算机可读存储介质
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
Shabani et al. Speech recognition using principal components analysis and neural networks
CN112489625A (zh) 语音情绪识别方法、系统、移动终端及存储介质
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
CN113851136A (zh) 基于聚类的说话人识别方法、装置、设备及存储介质
Brucal et al. Female voice recognition using artificial neural networks and MATLAB voicebox toolbox
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN113327616A (zh) 声纹识别方法、装置、电子设备及存储介质
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
Kulkarni et al. Comparison between SVM and other classifiers for SER
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 510700 room a401-1, zone a, Guangzhou International Business Incubator, No. 3, Juquan Road, Science City, Huangpu District, Guangzhou, Guangdong Province (office only)

Patentee after: GUANGZHOU SPEAKIN INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 510000 Building 1, No.12 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province (Location: 705)

Patentee before: SPEAKIN TECHNOLOGIES Co.,Ltd.

CP03 Change of name, title or address