CN111243569B - 基于生成式对抗网络的情感语音自动生成方法及装置 - Google Patents
基于生成式对抗网络的情感语音自动生成方法及装置 Download PDFInfo
- Publication number
- CN111243569B CN111243569B CN202010111434.4A CN202010111434A CN111243569B CN 111243569 B CN111243569 B CN 111243569B CN 202010111434 A CN202010111434 A CN 202010111434A CN 111243569 B CN111243569 B CN 111243569B
- Authority
- CN
- China
- Prior art keywords
- voice
- emotion
- data set
- recognition model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002996 emotional effect Effects 0.000 title claims abstract description 9
- 230000008451 emotion Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 58
- 230000008909 emotion recognition Effects 0.000 claims abstract description 54
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 238000012805 post-processing Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 241000288105 Grus Species 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 11
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种生成式对抗网络的情感语音自动生成方法,包括:(1)准备语音数据集、语音情感数据集以及语言数据集;(2)利用语音数据集训练基于ResCNN构建的声纹识别模型,利用语音情感数据集训练基于CNN构建的语音情感识别模型,利用语言数据集训练语音生成模型;(3)以多个语音生成模型作为生成器,以声纹识别模型和语音情感识别模型作为判别器,构成生成式对抗网络,利用语音数据集、语音情感数据集以及语言数据集对生成式对抗网络进行再训练,获得能够生成特定身份特定情感语音的语音生成模型。(4)利用该语音生成模型自动生成情感语音。该方法可以使生成的语音更加自然且带有情感色彩身份信息。
Description
技术领域
本发明属于情感识别领域,具体涉及一种生成式对抗网络的情感语音自动生成方法及装置。
背景技术
随着人机交互方式的日益更新和发展,人机交互方式已经从机械时代进入多媒体用户界面时代。近些年来,由于语音识别技术,语音生成技术的发展,人们逐渐抛弃了键盘,鼠标,触摸屏等传统的与机器的交互方式。而计算机也有了具备像人一样的具有“听”和“说”的能力。“听”实际上就是语音识别技术,这一方面已经有了迅速的发展,使计算机“听”的能力有了大幅度的提高。“说”指的就是语音生成技术。语音生成技术在自然处理、信号处理和随机过程处理等方法的推动下获得很大的发展。语音生成技术的应用广泛,如随着书籍无纸化的不断发展,在电子书的基础上出现了网络听书的方式,网络听说因为其方便、节省时间并且声优的声音会随书籍情节的改变进行语调、情感的改变,更有代入感的优点,迅速受到大家的欢迎。但是因为目前市场上已出版书籍数量巨大,而聘请声优为整本书进行配音成本较高,因此导致能够进行网络听书的书籍类型和数量较少,不能够满足大多数使用者的需要。使用语音生成技术可以给有声书的合成带来巨大的便利,可以节省成本,而使用传统语音生成技术合成的声音存在情感表现力弱,语音的表达比较僵硬,不自然,不存在身份信息等缺点。
在语音领域,语音识别技术,语音生成技术发展的同时,声纹识别和语音情感识别技术也有了巨大的发展。目前,声纹识别技术已经应用到人们日常生活的各个角落。比如银行、证券等行业利用声纹识别技术对电话,远程炒股等业务中对用户身份进行确认,提高了商业领域交易的安全性;在公安司法领域,对于各种电话勒索,绑架,电话人身攻击等案件,利用声纹识别技术可以在一段录音中查找出嫌疑人或缩小侦查范围。语音情感识别技术也在生活中得到了广泛的应用,比如在电话服务中心,通过语音情感识别技术,识别顾客的情绪,合理地进行反馈可以很大的提高顾客的满意度;在汽车驾驶领域,利用语音情感识别,结合图像识别,可以有效的观测驾驶员的精神状态,可以有效防止驾驶疲劳,路怒症等情况的发生;在安全监控系统中加入语音情感识别技术,可以对公共场所因为情绪失控而发生暴力的情况进行监控,从而有效避免暴力事件的发生。
由于声纹识别和语音情感识别的广泛应用以及优异的性能,使用声纹识别模型和语音情感识别模型指导语音生成模型生成带有情感的,更加自然的语音成为可能。
发明内容
针对目前语音生成技术所合成的语音表现力差,不自然,不带有情感色彩,不能按指定身份合成语音的缺陷,本发明提供了一种基于生成式对抗网络的情感语音自动生成方法及装置,该方法可以使生成的语音更加自然,使生成的语音带有情感色彩身份信息等,扩大语音生成技术的应用场景。
本发明的技术方案为:
一种生成式对抗网络的情感语音自动生成方法,包括以下步骤:
(1)准备语音数据集、语音情感数据集以及语言数据集;
(2)利用语音数据集训练基于ResCNN构建的声纹识别模型,利用语音情感数据集训练基于CNN构建的语音情感识别模型,利用语言数据集训练语音生成模型;
(3)以多个语音生成模型作为生成器,以声纹识别模型和语音情感识别模型作为判别器,构成生成式对抗网络,利用语音数据集、语音情感数据集以及语言数据集对生成式对抗网络进行再训练,获得能够生成特定身份特定情感语音的语音生成模型。
(4)利用该语音生成模型自动生成情感语音。
优选地,所述语音数据集为Librispeech语音数据集,所述语音情感数据集为EMO-DB语音情感数据集,所述语言数据集为North American English数据集。
优选地,利用语音数据集训练基于ResCNN构建的声纹识别模型包括以下步骤:
对语音音频进行分帧,并对每帧语音信号加窗处理后进行短时傅里叶变换,获得语音信号的频谱,计算语音信号的频谱的功率谱后,对功率谱通过一组梅尔尺度的三角形滤波器组后计算梅尔倒普系数,计算倒普系数的一阶和二阶差分值,最终得到64维的fbank系数作为声纹识别模型的输入;
根据ResCNN构建声纹识别模型,在语音数据集随机选择一条语音当做anchor,再从同一个说话者的语音中随机选择一条语音当做positive,再从不同的说话者的语音中随机选择一条语音当做negative,组成ancho r-positive-negative对;
以Triplet loss作为损失函数L,以损失函数最小为目标,利用anchor-positive-negative对对声纹识别模型进行训练;
优选地,利用语音情感数据集训练基于CNN构建的语音情感识别模型包括以下步骤:
对音频进行分帧,并对每帧语音信号加窗处理后进行短时傅里叶变换,计算短时傅里叶变换结果的功率谱,并对功率谱进行归一化处理,获得声谱图;
根据CNN构建语音情感识别模型,以交叉熵作为损失函数L(xi),以损失函数最小为目标,利用声谱图对语音情感识别模型进行训练,
L(xi)=-[yilogyipre+(1-yi)log(1-yipre)]
其中,yi表示真实标签,yipre为声谱图样本xi经过语音情感识别模型输出的置信度。
优选地,利用语言数据集训练语音生成模型包括以下步骤:
构建语音生成模型,该语音生成模型主要包括依次连接的CBHG模块、编码器、解码器、后处理单元和语音生成单元,其中,
所述CBHG模块由维卷积滤波器组、高速公路网络(highway network)以及双向门控循环单元的循环神经网络组成;
所述编码器由第一pre-net模块组成,该第一pre-net模块包括两个隐藏层以及两个隐藏层之间的全连接层;
所述解码器由同依次连接的第二pre-net模块,Attention-RNN,Decoder-RNN组成,该第二pre-net模块的结构与第一pre-net模块相同,该Attention-RNN的结构为一层包含256个GRU的RNN,该Decode-RNN为两层residual GRU,其输出为输入与经过residual GRU的输出之和;
所述后处理单元采用CBHG模块,该CBHG模块的结构与上述CBHG模块的结构相同。
所述语音生成单元采用Griffin-Lim算法将后处理网单元的输出合成为语音;
以交叉熵作为损失函数,以损失函数最小为目标,利用语言数据集声对语音生成模型进行训练。
优选地,利用语音数据集、语音情感数据集以及语言数据集对生成式对抗网络进行再训练包括以下步骤:
(a)利用步骤(3)训练得到的语音生成模型生成大量的语音数据,更改声纹识别模型结构使声纹识别模型从k分类变成k+1分类,第k+1类表示输入的语音数据为语音生成模型合成的语音数据,该语音数据对应假说话者;
(b)固定声纹识别模型和语音情感识别模型的参数,训练多个语音生成模型的参数,使得第i个语音生成模型能够生成第i个说话者的第i类情感的语音;
(c)当所有语音生成模型训练好后,固定语音生成模型参数,将语音生成模型生成的语音打上第k+1类语音的类标,使用生成的语音数据训练声纹识别模型和语音情感识别模型,使声纹识别模型和语音情感识别模型的识别真实样本和虚假样本的能力提高;
(d)重复步骤(b)和(c),直到语音生成模型、声纹识别模型和语音情感识别模型实现纳什均衡为止,得到能够生成特定身份特定情感语音的语音生成模型。
一种基于生成式对抗网络的情感语音自动生成装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于生成式对抗网络的情感语音自动生成方法。
本发明的有益效果主要表现在:
利用声纹识别模型和语音情感识别模型指导训练多个语音生成模型,使这些语音生成模型可以分别生成不同身份信息和不同情感类别的语音,利用训练好的语音生成模型生成的语音训练分别声纹识别模型和语音情感识别模型,在提高声纹识别模型和语音情感识别模型的识别精度后,再训练语音生成模型,使整个网络达到纳什均衡,最后获得的多个语音生成模型可以分别生成特定情感特定身份的语音。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的生成式对抗网络的结构示意图;
图2是实施例提供的基于生成式对抗网络的情感语音自动生成方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
下面对本发明提供的一种基于生成式对抗网络的情感语音自动生成方法实施例进行介绍,参见图1,2,具体包括以下步骤:
1)数据集准备:准备用于训练声纹识别模型的Librispeech语音数据集,取该Librispeech语音数据集中的train-clean-100数据集训练声纹识别模型;准备用于训练语音情感识别模型的EMO-DB语音情感数据集,准备用于训练语音生成模型的North AmericanEnglish数据集。
2)训练声纹识别模型:利用步骤1)中的train-clean-100数据集训练声纹识别模型,该数据集中的各个文件夹中存放的就是不同说话人的语音,其文件名就是类标。在训练完后用测试集进行测试,使识别精度达到要求,若达不到要求,则修改模型的结构参数,继续训练模型,直到模型精度达到要求,使模型能识别出某一语音的说话人。其具体步骤如下:
Step1:提取数据集语音中的特征向量:将语音以25ms为帧长进行分帧处理,在该时间段内,语音信号视作稳定状态。对分帧之后的语音信号加窗函数避免高频部分信号泄露。在分帧加窗后,对语音信号进行短时傅里叶变换,获得语音信号的频谱;
Step2:对语音信号的频谱取模平方,获得语音信号的功率谱;
Step3:将语音信号的功率谱通过一组梅尔尺度的三角形滤波器组后计算梅尔倒普系数,计算倒普系数的一阶和二阶差分值,最终得到64维的fbank系数作为声纹识别模型的输入。
Step4:搭建基于ResCNN的声纹识别模型。该声纹识别模型的结构由ResBlock残差块和卷积神经网络组成。
Step5:设置声纹识别模型的相关参数并进行训练。声纹识别模型在训练阶段首先在数据集中随机选择一条语音当做anchor,再从同一个说话人的语音中随机选择一条语音当做positive,再从不同的说话人的语音中随机选择一条语音当做negative,组成anchor-positive-negative对,使用Triplet loss作为损失函数L训练网络。
其中,表示语音anchor与语音negative的余弦相似度,表示语音anchor与语音positive的余弦相似度,α是设定的阈值,式中[]+=max(x,0)。通过随机梯度下降,使得来自同一个人的语音向量相似度尽可能大,不是同一个说话者的向量相似度尽可能小。
Step6:用测试集测试声纹识别模型的准确率,确保达到预设的识别准确率,否则修改模型的结构参数重新进行训练。
3)训练语音情感识别模型:利用1)中的EMO-DB语音情感数据集训练语音情感识别模型。该EMO-DB语音情感数据集中的语音文件按照后缀名前的两个字母划分为不同情感,如03a01Fa.wav中的Fa表示一类情感,03b01Lb.wav中的Lb表示另一种情感。将该EMO-DB语音情感数据集按一定比例划分为训练集和测试集,利用训练集训练语音情感识别模型,用测试集测试语音情感识别模型的识别精度,使其能够达到预设的识别精度,并能使其识别某一语音的情感类别。其具体步骤如下:
Step1:对于EMO-DB语音情感数据集中的语音进行分帧加窗后进行傅里叶变换获得原始语音信号的频谱,根据所获得的频谱求信号的功率谱,对功率谱进行最大最小归一化后可以获得原始语音信号的声谱图。
Step2:搭建基于CNN的语音情感识别模型。该语音情感识别模型的结构有13个卷积层,3个全连接层
Step3:设置语音情感识别模型的相关参数并进行训练,设声谱图样本xi经过语音情感识别模型输出的置信度为yipre,用交叉熵作损失函数:
L(xi)=-[yilogyipre+(1-yi)log(1-yipre)] (2)
其中yi表示真实标签。
Step4:用测试数据集测试语音情感识别模型的识别准确率,确保达到预设的识别准确率,否则修改模型的结构和参数重新进行训练。
4)预训练语音生成模型:利用1)中的North American English数据集训练多个语音生成模型。将该数据集按一定比例划分为训练集和测试集,利用训练集训练多个语音生成模型,使之能根据输入的文本正确生成对应的语音。利用测试集测试语音生成模型的合成效果,若达不到理想的效果,则修改这些模型的参数重新训练,使之达到理想的效果。其具体步骤如下:
Step1:搭建多个语音生成模型。这些语音生成模型主要由CBHG模块、编码器、解码器、后处理单元和语音生成单元组成。
Step2:搭建CHBG模块由一维卷积滤波器组,一个高速公路网络,和双向门控循环单元的循环神经网络组成;
Step3:构建编码器,该编码器主要由第一pre-net模块组成,该第一pre-net模块两个隐藏层,层与层之间的连接均是全连接。第一层的隐藏单元数目与输入单元数目一致,第二层的隐藏单元数目为第一层的一半;两个隐藏层采用的激活函数均为ReLu;
Step4:构建解码器,该解码器主要由第二pre-net,Attention-RNN,Decoder-RNN组成,该第二pre-net模块与编码器的第一pre-net结构相同,Attention-RNN的结构为一层包含256个GRU的RNN,将第二pre-net的输出作为输入,经过GRU单元后输出到decoder-RNN中。Decode-RNN为两层residual GRU,它的输出为输入与经过GRU单元的输出之和;
Step5:后处理单元采用CBHG结构;
Step6:语音生成单元采用Griffin-Lim算法将后处理单元的输出合成为语音。使用交叉熵作为损失函数,用North American English数据集初步训练多个语音生成模型G,使G能够根据文本生成对应的语音;
5)预训练生成对抗网络,将步骤2)中的声纹识别模型作为判别器D1,将步骤3)中的语音情感识别模型作为判别器D2;将步骤4)中的语音生成模型作为Gi,利用如图1所式的模型训练体系训练整个网络。其具体步骤如下:
Step1:利用预训练好的语音生成模型生成大量语音数据,形成数据集,加到步骤1)中的声纹识别数据集中,更改声纹识别模型的结构,重新训练声纹识别模型,使声纹识别模型从k分类变成k+1分类;其中第k+1类表示假的说话人,即这个语音是合成的;对语音情感识别模型进行相同操作。
Step2:固定声纹识别模型D1和语音情感识别模型D2的参数,训练语音生成模型Gi的参数。由于声纹识别模型D1和语音情感模型D2实际上是一个多分类器,而对于语音生成模型G来说,之所以设置多个语音生成模型Gi,其主要目的是为了避免生成式对抗网络中存在的模式崩溃的问题。对于第i个语音生成模型Gi,通过声纹识别模型D1和语音情感识别模型D2对其进行训练,使其生成第i个说话人,第i类情感的语音。在训练过程中,由于声纹识别模型的输出是置信度,因此在训练第i个语音生成模型时,只关注声纹识别模型输出置信度矩阵中的第i个置信度值,使其尽可能的高,即使生成的语音尽可能的接近第i个说话人的特征,使第k+1个置信度尽可能的底。在训练过程中,由于语音情感识别模型的输出是置信度,因此在训练第i个语音生成模型时,只关注语音情感识别模型输出置信度矩阵中的第i个置信度值,使其尽可能高,即使生成的语音尽可能的接近第i类情感,使第k+1个置信度尽可能的低。
Step3:当所有语音生成模型Gi的生成效果均比较理想时,固定Gi参数,将Gi生成的语音打上第k+1类语音的类标,使用生成的语音训练声纹识别模型和语音情感识别模型,使声纹识别模型和语音情感识别模型的识别真实样本和虚假样本的能力提高。
Step4:重复Step2,Step3,直到语音生成网络Gi和声纹识别模型D1,语音情感识别模型D2实现纳什均衡,即语音生成网络Gi与声纹识别模型D1和语音情感识别模型D2之间进行博弈,趋于均衡,也即声纹识别模型对于语音生成网络生成的语音无法准确判断其指定的说话人,语音情感识别模型对于语音生成网络生成的语音无法准确判断其指定的情感类别,每个Gi可以生成特定身份特定情感的语音。整个过程的损失函数为:
其中,表示第i个语音生成模型Gi生成的语音,表示第i个语音生成模型生成的音频属于第i个说话人的概率。表示第i个语音生成模型生成的音频属于第i类情感的概率。D1i(xi)表示对于说话人音频xi属于第i个说话人的概率。D2i(xi)表示对于音频xi属于第i类情感的概率。xi~p1data表示xi属于正常的声纹识别数据集中的第i个说话人的音频,xi~p2data表示xi属于正常的语音情感数据集中第i类的音频。对于公式(3),各个语音生成模型的目的就是为了让第i个语音生成模型生成的语音更加接近第i个说话人,在情感上更加接近第i类情感。公式(4)和公式(5)是为了让模型对真实数据集的识别精度更高,让模型对生成器生成的语音的鉴别能力更高。
实施例还提供了一种基于生成式对抗网络的情感语音自动生成装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于生成式对抗网络的情感语音自动生成方法。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种生成式对抗网络的情感语音自动生成方法,其特征在于,包括以下步骤:
(1)准备语音数据集、语音情感数据集以及语言数据集;
(2)利用语音数据集训练基于ResCNN构建的声纹识别模型,利用语音情感数据集训练基于CNN构建的语音情感识别模型,利用语言数据集训练语音生成模型;
(3)以多个语音生成模型作为生成器,以声纹识别模型和语音情感识别模型作为判别器,构成生成式对抗网络,利用语音数据集、语音情感数据集以及语言数据集对生成式对抗网络进行再训练,获得能够生成特定身份特定情感语音的语音生成模型;
(4)利用该语音生成模型自动生成情感语音。
2.如权利要求1所述的生成式对抗网络的情感语音自动生成方法,其特征在于,所述语音数据集为Librispeech语音数据集,所述语音情感数据集为EMO-DB语音情感数据集,所述语言数据集为North American English数据集。
3.如权利要求1所述的生成式对抗网络的情感语音自动生成方法,其特征在于,利用语音数据集训练基于ResCNN构建的声纹识别模型包括以下步骤:
对语音音频进行分帧,并对每帧语音信号加窗处理后进行短时傅里叶变换,获得语音信号的频谱,计算语音信号的频谱的功率谱后,对功率谱通过一组梅尔尺度的三角形滤波器组后计算梅尔倒谱系数,计算倒谱系数的一阶和二阶差分值,最终得到64维的fbank系数作为声纹识别模型的输入;
根据ResCNN构建声纹识别模型,在语音数据集随机选择一条语音当做anchor,再从同一个说话者的语音中随机选择一条语音当做positive,再从不同的说话者的语音中随机选择一条语音当做negative,组成ancho r-positive-negative对;
以Triplet loss作为损失函数L,以损失函数最小为目标,利用ancho r-positive-negative对对声纹识别模型进行训练;
4.如权利要求1所述的生成式对抗网络的情感语音自动生成方法,其特征在于,利用语音情感数据集训练基于CNN构建的语音情感识别模型包括以下步骤:
对音频进行分帧,并对每帧语音信号加窗处理后进行短时傅里叶变换,计算短时傅里叶变换结果的功率谱,并对功率谱进行归一化处理,获得声谱图;
根据CNN构建语音情感识别模型,以交叉熵作为损失函数L(xi),以损失函数最小为目标,利用声谱图对语音情感识别模型进行训练,
L(xi)=-[yilogyipre+(1-yi)log(1-yipre)]
其中,yi表示真实标签,yipre为声谱图样本xi经过语音情感识别模型输出的置信度。
5.如权利要求1所述的生成式对抗网络的情感语音自动生成方法,其特征在于,利用语言数据集训练语音生成模型包括以下步骤:
构建语音生成模型,该语音生成模型主要包括依次连接的CBHG模块、编码器、解码器、后处理单元和语音生成单元,其中,
所述CBHG模块由一维卷积滤波器组、高速公路网络以及双向门控循环单元的循环神经网络组成;
所述编码器由第一pre-net模块组成,该第一pre-net模块包括两个隐藏层以及两个隐藏层之间的全连接层;
所述解码器由同依次连接的第二pre-net模块,Attention-RNN,Decoder-RNN组成,该第二pre-net模块的结构与第一pre-net模块相同,该Attention-RNN的结构为一层包含256个GRU的RNN,该Decoder-RNN为两层residual GRU,其输出为输入与经过residual GRU的输出之和;
所述后处理单元采用CBHG模块;
所述语音生成单元采用Griffin-Lim算法将后处理网单元的输出合成为语音;
以交叉熵作为损失函数,以损失函数最小为目标,利用语言数据集声对语音生成模型进行训练。
6.如权利要求1所述的生成式对抗网络的情感语音自动生成方法,其特征在于,利用语音数据集、语音情感数据集以及语言数据集对生成式对抗网络进行再训练包括以下步骤:
(a)利用步骤(3)训练得到的语音生成模型生成大量的语音数据,更改声纹识别模型结构使声纹识别模型从k分类变成k+1分类,第k+1类表示输入的语音数据为语音生成模型合成的语音数据,该语音数据对应假说话者;
(b)固定声纹识别模型和语音情感识别模型的参数,训练多个语音生成模型的参数,使得第i个语音生成模型能够生成第i个说话者的第i类情感的语音;
(c)当所有语音生成模型训练好后,固定语音生成模型参数,将语音生成模型生成的语音打上第k+1类语音的类标,使用生成的语音数据训练声纹识别模型和语音情感识别模型,使声纹识别模型和语音情感识别模型的识别真实样本和虚假样本的能力提高;
(d)重复步骤(b)和(c),直到语音生成模型、声纹识别模型和语音情感识别模型实现纳什均衡为止,得到能够生成特定身份特定情感语音的语音生成模型。
7.一种基于生成式对抗网络的情感语音自动生成装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现权利要求1-6任一项所述的生成式对抗网络的情感语音自动生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111434.4A CN111243569B (zh) | 2020-02-24 | 2020-02-24 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111434.4A CN111243569B (zh) | 2020-02-24 | 2020-02-24 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243569A CN111243569A (zh) | 2020-06-05 |
CN111243569B true CN111243569B (zh) | 2022-03-08 |
Family
ID=70864595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010111434.4A Active CN111243569B (zh) | 2020-02-24 | 2020-02-24 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243569B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933187B (zh) * | 2020-09-21 | 2021-02-05 | 深圳追一科技有限公司 | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
CN112364779B (zh) * | 2020-11-12 | 2022-10-21 | 中国电子科技集团公司第五十四研究所 | 信号处理与深-浅网络多模型融合的水声目标识别方法 |
CN112735431B (zh) * | 2020-12-29 | 2023-12-22 | 三星电子(中国)研发中心 | 模型训练方法和装置及人工智能对话的识别方法和装置 |
CN112863529B (zh) * | 2020-12-31 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于对抗学习的说话人语音转换方法及相关设备 |
CN113066475B (zh) * | 2021-06-03 | 2021-08-06 | 成都启英泰伦科技有限公司 | 一种基于生成式对抗网络的语音合成方法 |
CN113440107A (zh) * | 2021-07-06 | 2021-09-28 | 浙江大学 | 基于语音信号分析的阿尔茨海默症状诊断设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN110085263A (zh) * | 2019-04-28 | 2019-08-02 | 东华大学 | 一种音乐情感分类和机器作曲方法 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110491416A (zh) * | 2019-07-26 | 2019-11-22 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
KR20190142056A (ko) * | 2018-06-15 | 2019-12-26 | 서울대학교산학협력단 | 기계학습을 이용한 음성 인식 OTP(One Time Password)인증 방법 및 시스템 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568864B2 (en) * | 2018-08-13 | 2023-01-31 | Carnegie Mellon University | Processing speech signals of a user to generate a visual representation of the user |
-
2020
- 2020-02-24 CN CN202010111434.4A patent/CN111243569B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190142056A (ko) * | 2018-06-15 | 2019-12-26 | 서울대학교산학협력단 | 기계학습을 이용한 음성 인식 OTP(One Time Password)인증 방법 및 시스템 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN110085263A (zh) * | 2019-04-28 | 2019-08-02 | 东华大学 | 一种音乐情感分类和机器作曲方法 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110491416A (zh) * | 2019-07-26 | 2019-11-22 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
Non-Patent Citations (3)
Title |
---|
A Model of Emotional Speech Generation Based on Conditional Generative Adversarial Networks;Ning JIA;《2019 11th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC)》;20191231;全文 * |
Generation_of_Artificial_FO-contours_of_Emotional_Speech_with_Generative_Adversarial_Networks;Shumpei Matsuoka;《2019 IEEE Symposium series on Computational Intelligence(SSCI)》;20191231;全文 * |
基于生成对抗网络的音乐标签自动标注;陈培培;《南京信息工程大学学报(自然科学版)》;20181231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111243569A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243569B (zh) | 基于生成式对抗网络的情感语音自动生成方法及装置 | |
Hanifa et al. | A review on speaker recognition: Technology and challenges | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN102231278B (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
Li et al. | Automatic speaker age and gender recognition using acoustic and prosodic level information fusion | |
US20190266998A1 (en) | Speech recognition method and device, computer device and storage medium | |
Tran et al. | Sound event recognition with probabilistic distance SVMs | |
Huang et al. | Audio replay spoof attack detection by joint segment-based linear filter bank feature extraction and attention-enhanced DenseNet-BiLSTM network | |
Deshwal et al. | Feature extraction methods in language identification: a survey | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
Zhang et al. | Durian-sc: Duration informed attention network based singing voice conversion system | |
Lataifeh et al. | Arabic audio clips: Identification and discrimination of authentic cantillations from imitations | |
Yücesoy et al. | A new approach with score-level fusion for the classification of a speaker age and gender | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
Tsai et al. | Self-defined text-dependent wake-up-words speaker recognition system | |
Chittaragi et al. | Dialect identification using chroma-spectral shape features with ensemble technique | |
Alex et al. | Variational autoencoder for prosody‐based speaker recognition | |
Tawaqal et al. | Recognizing five major dialects in Indonesia based on MFCC and DRNN | |
CN115512692A (zh) | 语音识别方法、装置、设备及存储介质 | |
Williams | Learning disentangled speech representations | |
Jayamaha et al. | Voizlock-human voice authentication system using hidden markov model | |
Shah et al. | Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach | |
Tzudir et al. | Under-resourced dialect identification in Ao using source information | |
CN113763992A (zh) | 语音测评方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |