CN111341294A - 将文本转换为指定风格语音的方法 - Google Patents

将文本转换为指定风格语音的方法 Download PDF

Info

Publication number
CN111341294A
CN111341294A CN202010128298.XA CN202010128298A CN111341294A CN 111341294 A CN111341294 A CN 111341294A CN 202010128298 A CN202010128298 A CN 202010128298A CN 111341294 A CN111341294 A CN 111341294A
Authority
CN
China
Prior art keywords
layer
image
output
convolution
frequency image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010128298.XA
Other languages
English (en)
Other versions
CN111341294B (zh
Inventor
姬艳丽
顾天成
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010128298.XA priority Critical patent/CN111341294B/zh
Publication of CN111341294A publication Critical patent/CN111341294A/zh
Application granted granted Critical
Publication of CN111341294B publication Critical patent/CN111341294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种将文本转换为指定风格语音的方法,首先获得不同风格的训练样本,对训练样本中的每幅语音时频图像进行字符标注,获取字符的位置框序列和文本字符序列对双向长短期记忆网络进行训练,构建生成对抗网络,将训练样本中的语音时频图像作为原始语音时频图像,掩码图像作为其对应的掩码图像,文本字符序列作为真实文本字符序列,对生成对抗网络进行训练;将需要生成语音信号的文本通过双向长短期记忆网络预测得到字符位置框序列,进而得到掩码图像,将该掩码图像与指定风格的原始语音时频图像级联后作为生成器模块的输入并得到生成语音时频图像,最后转换得到语音信号。采用本发明可以实现单一文本到多种指定风格语音的转换。

Description

将文本转换为指定风格语音的方法
技术领域
本发明属于语音合成技术领域,更为具体地讲,涉及一种将文本转换为指定风格语音的方法。
背景技术
随着深度学习在语音合成领域的不断深入,语音生成技术逐渐缩小了生成语音与人类语音的差距。语音生成通常是将一个文本通过特定的合成系统转换为一种特定风格的语音。此过程需要经过多个步骤的处理,比如前端文本分析,声学模型,以及音频合成模块。
传统的语音生成方法是拼接式语音合成:先录制单一说话者的大量语音片段,建立一个大型语料库,然后简单地从中进行选择并合成完整的大段音频、词语和句子。这种“机械式”方法使得计算机输出音频经常产生语音毛刺、语调的诡异变化、甚至结巴,并且无法调整语音的语调,强调性音节或情绪。
发明内容
本发明的目的在于克服现有技术的不足,提供一种将文本转换为指定风格语音的方法,实现单一文本到多种指定风格语音的转换。
为了实现上述发明目的,本发明将文本转换为指定风格语音的方法包括以下步骤:
S1:获取若干不同风格的语音信号,按照预定时间间隔对语音信号进行分割,记分割得到的语音信号数量为N,记第n个语音信号为Sn,其中n=1,2,…,N,获取语音信号Sn的文本Tn以及语音时频图像In,将语音信号按照风格进行分类,记语音信号Sn对应的风格分类标签Fn
S2:对于每幅语音时频图像In,标注图中每个字符的信息,字符信息包含该字符的字符类别和字符位置框;记每幅语音时频图像In中所有的位置框信息为该语音时频图像对应的位置框序列Cn
S3:对于每幅语音时频图像In,根据位置框序列Cn中每个字符位置框位置,将字符位置框内的像素值置为1,其余像素值置为0,得到语音时频图像In对应的掩码图像
Figure BDA0002395086610000021
S4:构建双向长短期记忆网络,将各个文本Tn转换化文本字符序列,文本字符序列中包含各个字符及其类型,将文本字符序列作为双向长短期记忆网络的输入,将对应的位置框序列Cn作为双向长短期记忆网络的输出,对双向长短期记忆网络进行训练;
S5:构建生成对抗网络,包括生成器模块、内容判别器模块,图像来源判别器模块和风格判别器模块,其中生成器模块的输入为掩码图像和原始语音时频图像的级联图像,输出为生成语音时频图像;内容判别器模块的功能是对生成语音信号的文本内容真伪判别,其输入为生成语音信号时频图像经过目标检测识别出来的文本字符序列和真实文本字符序列,输出对预测数据的真否判断结果;图像来源判别器的功能是对语音时频图像的来源进行判别,其输入为生成语音时频图像和原始语音时频图像,其输出为图像来源的预测结果;风格判别器模块的功能是对原始语音时频图和生成语音时频图的语音风格判别,其输入为生成语音时频图像和原始语音时频图像,输出为语音风格分类的预测结果;
将训练样本中的语音时频图像In作为原始语音时频图像,步骤S3所得到的掩码图像
Figure BDA0002395086610000022
作为其对应的掩码图像,文本Tn转化得到的文本字符序列作为真实文本字符序列,对生成对抗网络进行训练;
S6:将需要生成语音信号的文本T′的文本字符序列按最大可输入长度切片,将切片后的文本字符序列依次输入到步骤S104训练好的双向长短期记忆网络中,得到相应的字符位置框序列信息并转化为掩码图像,将该掩码图像与指定风格的原始语音时频图像级联后作为生成器模块的输入并生成具有频谱信息的生成语音时频图像,最后将生成语音时频图像转换为语音信号;最后将各个文本字符序列所对应的语音信息按照切片顺序进行整合,即可得到文本T′的语音信号。
本发明将文本转换为指定风格语音的方法,首先获得不同风格的训练样本,对训练样本中的每幅语音时频图像进行字符标注,获取字符的位置框序列和文本字符序列对双向长短期记忆网络进行训练,构建生成对抗网络,将训练样本中的语音时频图像作为原始语音时频图像,掩码图像作为其对应的掩码图像,文本字符序列作为真实文本字符序列,对生成对抗网络进行训练;将需要生成语音信号的文本通过双向长短期记忆网络预测得到字符位置框序列,进而得到掩码图像,将该掩码图像与指定风格的原始语音时频图像级联后作为生成器模块的输入并得到生成语音时频图像,最后转换得到语音信号。采用本发明可以实现单一文本到多种指定风格语音的转换。
附图说明
图1是本发明将文本转换为指定风格语音的方法的具体实施方式流程图;
图2是本实施例中双向长短期记忆网络的时序结构图;
图3是本发明中生成器模块的结构示意图;
图4是本发明中内容判别器模块的结构示意图;
图5是本发明中图像来源判别器模块和风格判别器模块的结构示意图;
图6是本实施例中生成器模块的网络结构图;
图7是本实施例中风格判别器模块的网络结构图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明将文本转换为指定风格语音的方法的具体实施方式流程图。如图1所示,本发明将文本转换为指定风格语音的方法的具体步骤包括:
S101:获取训练样本:
获取若干不同风格的语音信号,按照预定时间间隔对语音信号进行分割,记分割得到的语音信号数量为N,记第n个语音信号为Sn,其中n=1,2,…,N,获取语音信号Sn的文本Tn以及语音时频图像In,将语音信号按照风格进行分类,记语音信号Sn对应的风格分类标签Fn。一般来说风格分类标签可以设置为网络的序号,例如Fn=1,2,…,K,K表示风格类型数量。
语音信号到语音时频图像的转换方法一般有短时傅里叶变换,小波变换和梅尔倒频谱等,由于短时傅里叶变换,不会损失信号的有效信息,且性能优越,因此本实施例中选用短时傅里叶变换。
S102:训练样本字符信息标注:
对于每幅语音时频图像In,标注图中每个字符的信息,字符信息包含该字符的类别和字符位置框。记每幅语音时频图像In中所有字符的字符框位置为该语音时频图像对应的位置框序列Cn。本实施例中字符框位置包含每个字符框的左上角坐标、字符的宽度和高度,假设某语音时频图像In中有Dn个字符,那么位置框序列可以表示为
Figure BDA0002395086610000042
其中(xn,d,yn,d)表示第d个字符框的左上角坐标,widthn,d、heightn,d表示第d个字符框的宽和高,d=1,2,…,Dn
S103:生成训练样本掩码图像:
对于每幅语音时频图像In,根据位置框序列Cn中每个字符位置框位置,将字符位置框内的像素值置为1,其余像素值置为0,得到语音时频图像In对应的掩码图像
Figure BDA0002395086610000041
S104:双向长短期记忆网络训练:
构建双向长短期记忆网络,将各个文本Tn转换化字符序列,文本字符序列中包含各个字符及其类型,将文本字符序列作为双向长短期记忆网络的输入,将对应的位置框序列Cn作为双向长短期记忆网络的输出,对双向长短期记忆网络进行训练。
长短期记忆网络(LSTM,Long Short-Term Memory)是RNN(Recurrent NeuralNetwork,循环神经网络)的一种。长短期记忆网络由于其设计的特点,非常适合用于对时序数据的建模,如文本数据,在自然语言处理任务中常被用来建模上下文信息。双向长短期记忆网络,是由前向长短期记忆网络与后向长短期记忆网络组合而成,并且将前向和后向长短期网络连接着同一个输出层。使用长短期记忆网络对文本序列进行建模存在无法编码从后到前的信息的问题,而通过双向长短期记忆网络可以更好的捕捉双向的语义依赖。
图2是本实施例中双向长短期记忆网络的时序结构图。如图2所示,本实施例中双向长短期记忆网络采用前向和后向均为128个单元的长短期记忆网络构成双向长短期记忆网络。该结构通过前向长短期记忆网络和后向长短期记忆网络分别给输出层提供输入序列中每一个点的完整的未来和过去的上下文信息。六个权值矩阵在每一个步时被重复的利用,六个权值矩阵分别对应:输入序列到前向和后向隐含层权值矩阵(w1,w3),前向和后向隐含层到隐含层自己的权值矩阵(w2,w5),前向和后向隐含层到输出层的权值矩阵(w4,w6)。在双向长短期记忆网络中向前和向后隐含层之间没有信息流,这保证了展开的网络图结构是非循环的。
在实际训练过程中,计算双向长短期记忆网络所预测的字符框序列和真实字符框序列之间的均方误差作为损失函数,其计算公式如下:
Figure BDA0002395086610000051
其中,[x′n,d,y′n,d,width′n,d,height′n,d]表示输入文本Tn的字符序列所预测得到的字符框序列中第d个字符框的左上角坐标、宽和高。
双向长短期记忆网络需要预先训练,输入文本序列batch size为1,learningrate的初始值为0.1,优化器使用随机梯度下降法(SGD),训练epoch为2000,根据训练loss和测试loss选取泛化性能最好的双向长短期记忆网络模型用于将文本字符序列转换为字符框序列信息。
S104:训练生成对抗网络:
生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型,包括生成器模块(Generative Model)和判别器模块组(Discriminative Model)。本发明中生成对抗网络包括生成器模块、内容判别器模块、图像来源判别器模块和风格判别器模块,下面分别进行说明。
图3是本发明中生成器模块的结构示意图。如图3所示,本发明中生成器模块的输入为掩码图像和原始语音时频图像的级联图像,输出为生成语音时频图像。生成器模块的目的是学到原始语音时频图像中语音信号的频率漂移,纹理细节等语音信号风格以及掩码图像内容的表征。
图4是本发明中内容判别器模块的结构示意图。如图4所示,本发明中内容判别器模块的功能是对生成语音信号的文本内容进行判别,其输入为两个,一个是生成语音信号时频图像经过目标检测识别出来的文本字符序列,另一个是真实文本字符序列,输出为内容一致性的预测结果。本实施例中选用Faster-RCNN作为内容判别器模块,内容真伪损失即为faster-rcnn的分类损失和位置回归损失的和。
图5是本发明中图像来源判别器模块和风格判别器模块的结构示意图。如图5左半部分所示,本发明中图像来源判别器的功能是对语音时频图像的来源进行判别,即判断语音时频图是生成的还是原始的,其输入为生成语音时频图像和原始语音时频图像,输出图像来源的预测结果。如图5右半部分所示,本发明中所指的风格判别器的功能是对原始语音时频图和生成语音时频图的语音风格判别,其输入为生成语音时频图像和原始语音时频图像,目的是判断此对图片所属的风格种类,进而可知此对图片风格是否一致,输出语音风格预测数据。应当注意的是,图像来源判别器模块和风格判别器模块共享预测前的卷积层参数。
将训练样本中的语音时频图像In作为原始语音时频图像,将步骤S103根所得到的掩码图像
Figure BDA0002395086610000061
作为其对应的掩码图像,文本Tn转化得到的文本字符序列作为真实文本字符序列,对生成对抗网络进行训练。为了使生成对抗网络所生成的语音时频图像更加接近真实图像,需要对生成对抗网络中各个模块的具体结构进行研究,以优化生成对抗网络的结构。图6是本实施例中生成器模块的网络结构图。表1是本实施例中生成器模块的网络结构参数表。
Figure BDA0002395086610000062
表1
表1中W、H分别表示语音时频图像的宽和高。
如图6和表1所示,本实施例中生成器模块采用类u-net结构,其具体结构如下:
第1层为卷积层,记为Conv1层,使用64个大小为4×4、步长为2的卷积核,对输入的级联后的成对图像进行卷积操作后输出;
第2层为卷积层,记为Conv2层,使用128个大小为4×4、步长为2的卷积核,对Conv1层输出的特征图进行卷积操作,再进行实例归一化(Instance Normalization,IN)后输出;实例归一化用于对特征图的长宽维度做归一化,可以加快模型收敛速度,并保持每个图像实例之间的独立。
第3层为卷积层,记为Conv3层,使用256个大小为4×4、步长为2的卷积核,对Conv2层输出的特征图进行卷积操作,再进行实例归一化后输出;
第4层为卷积层,记为Conv4层,使用512个大小为4×4、步长为2的卷积核,对Conv3层输出的特征图进行卷积操作,再进行实例归一化后输出;
以上4层卷积层均采用lrelu激活函数,其斜率(leak)为0.2;
第5层为反卷积层,记为DeConv1层,使用256个大小为4×4、步长为2的卷积核,对Conv4层输出的特征图进行反卷积操作,再进行实例归一化后输出;
第6层为反卷积层,记为DeConv2层,使用128个大小为4×4、步长为2的卷积核,对Conv3层输出的特征图和DeConv1层输出的特征图所构成的级联图像进行反卷积操作,再进行实例归一化后输出;
第7层为反卷积层,记为DeConv3层,使用64个大小为4×4、步长为2的卷积核,对Conv2层输出的特征图和DeConv2层输出的特征图所构成的级联图像进行反卷积操作,再进行实例归一化后输出;
第8层为反卷积层,记为DeConv4层,使用3个大小为4×4、步长为2的卷积核,对Conv1层输出的特征图和DeConv3层输出的特征图所构成的级联图像进行反卷积操作后输出,DeConv4层采用tanh函数作为激活函数。
本实施例中以上所有卷积层与反卷积层在卷积和反卷积时均使用SAME Padding的填充操作,其具体操作为:在卷积操作的特征图填充0,使得卷积操作输出的特征图大小等于输入特征图大小除以卷积步长并向上取整,对于反卷积则是通过填充0使得反卷积后的特征图的边长变为输入特征图边长的2倍。
本发明中内容判别器模块用于进行文本字符序列的比对,作内容序列真伪判别。内容判别器模块不涉及图像操作,实现复杂度低,其具体实现方式不再赘述。
图7是本实施例中图像来源判别器模块和风格判别器模块的网络结构图。表2是本实施例中图像来源判别器模块和风格判别器模块的网络结构参数表。需要注意的是,图像来源判别器模块与风格判别器模块的Conv1,Conv2,Conv3,Conv4参数共享。
Figure BDA0002395086610000081
表2
如图7和表2所示,本实施例中图像来源判别器模块和风格判别器模块的具体结构如下:
第1层为卷积层,记为Conv1层,使用64个大小为4×4、步长为2的卷积核,对输入的级联后的成对图像进行卷积操作后输出;
第2层为卷积层,记为Conv2层,使用128个大小为4×4、步长为2的卷积核,对Conv1层输出的特征图进行卷积操作;
第3层为卷积层,记为Conv3层,使用256个大小为4×4、步长为2的卷积核,对Conv2层输出的特征图进行卷积操作,再进行实例归一化后输出;
第4层为卷积层,记为Conv4层,使用512个大小为4×4、步长为2的卷积核,对Conv3层输出的特征图进行卷积操作,再进行实例归一化后输出;
第5层为卷积层,记为Conv_r层,使用1个大小为3×3的卷积核,对Conv4层输出的特征图进行卷积操作,得到一个图像来源判别矩阵,矩阵中每个元素表示局部图像来源的预测概率,该矩阵与图像来源标签作图像来源判别。图像来源标签不用手动标记,利用代码实现即可得到。在实际情况中,来自生成器图像的来源标签是一个矩阵元素全为1且与图像来源判别矩阵维度一致的矩阵,来自原始数据的图像来源标签维度则是矩阵元素全为0。
第6层为卷积层,记为Conv_s层,使用K个大小为(H/16)x(W/16)步长为1的卷积核,对Conv4层输出的特征图进行卷积操作,输出K维向量,每个维度的值表示输入在预设K种风格上每一种的概率,与风格标签作风格判别。
对于本实施例中的生成对抗网络,其损失函数包括3个方面,分别是图像来源损失、风格分类损失、判别内容真伪损失,而判别内容真伪损失又包括faster-rcnn里面的字符框的位置损失以及识别出的文本字符序列的字符类别损失,各类损失的具体计算公式可以根据实际情况进行设置。基于以上损失设置,将图像来源判别器模块和风格判别器模块一起作为判别器模块组,和生成器模块进行交替训练。本实施例中的训练策略分为两个阶段,第一阶段基于图像来源损失和风格分类损失对判别器模块组和生成器模块进行交替训练,其中判别器模块组训练5次,生成器训练1次,优化器使用Adam,批次大小为32,学习率初始为0.0001,共训练60个周期,一个周期指以特定批次遍历一次训练样本。训练过程中,在30个周期后,每个周期的学习率为上一周期学习率减去0.000003。第二阶段加入内容判别器模块的内容真伪判别损失,对网络参数进行微调,此时批次大小为1,学习率为0.00001,训练周期为30。
S106:文本转换为语音:
将需要生成语音信号的文本T′的文本字符序列按最大可输入长度切片,最大可输入长度一般来说可采用如下方法设置:计算步骤S101中N个文本Tn的平均长度L,将L+ΔL作为最大可输入长度,其中ΔL为预设的长度余量参数。将切片后的文本字符序列依次输入到步骤S104训练好的双向长短期记忆网络中,得到相应的字符框位置序列信息并转化为掩码图像,将该掩码图像与指定风格的原始语音时频图像联后作为生成器模块的输入并生成具有频谱信息的生成语音时频图像,最后将生成语音时频图像转换为语音信号,在转换时采用与步骤S101中获取语音时频图像的逆方法即可,本实施例中为短时傅里叶变换的逆变换。最后将各个文本字符序列所对应的语音信息按照切片顺序进行整合,即可得到文本T′的语音信号。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种将文本转换为指定风格语音的方法,其特征在于,包括以下步骤:
S1:获取若干不同风格的语音信号,按照预定时间间隔对语音信号进行分割,记分割得到的语音信号数量为N,记第n个语音信号为Sn,其中n=1,2,…,N,获取语音信号Sn的文本Tn以及语音时频图像In,将语音信号按照风格进行分类,记语音信号Sn对应的风格分类标签Fn
S2:对于每幅语音时频图像In,标注图中每个字符的信息,字符信息包含该字符的字符类别和字符位置框;记每幅语音时频图像In中所有的位置框信息为该语音时频图像对应的位置框序列Cn
S3:对于每幅语音时频图像In,根据位置框序列Cn中每个字符位置框位置,将字符位置框内的像素值置为1,其余像素值置为0,得到语音时频图像In对应的掩码图像
Figure FDA0002395086600000011
S4:构建双向长短期记忆网络,将各个文本Tn转换化文本字符序列,文本字符序列中包含各个字符及其类型,将文本字符序列作为双向长短期记忆网络的输入,将对应的位置框序列Cn作为双向长短期记忆网络的输出,对双向长短期记忆网络进行训练;
S5:构建生成对抗网络,包括生成器模块、内容判别器模块,图像来源判别器模块和风格判别器模块,其中生成器模块的输入为掩码图像和原始语音时频图像的级联图像,输出为生成语音时频图像;内容判别器模块的功能是对生成语音信号的文本内容真伪判别,其输入为生成语音信号时频图像经过目标检测识别出来的文本字符序列和真实文本字符序列,输出对预测数据的真否判断结果;图像来源判别器的功能是对语音时频图像的来源进行判别,其输入为生成语音时频图像和原始语音时频图像,其输出为图像来源的预测结果;风格判别器模块的功能是对原始语音时频图和生成语音时频图的语音风格判别,其输入为生成语音时频图像和原始语音时频图像,输出为语音风格分类的预测结果;
将训练样本中的语音时频图像In作为原始语音时频图像,步骤S3所得到的掩码图像
Figure FDA0002395086600000012
作为其对应的掩码图像,文本Tn转化得到的文本字符序列作为真实文本字符序列,对生成网络进行训练;
S6:将需要生成语音信号的文本T′的文本字符序列按最大可输入长度切片,将切片后的文本字符序列依次输入到步骤S104训练好的双向长短期记忆网络中,得到相应的字符位置框序列信息并转化为掩码图像,将该掩码图像与指定风格的原始语音时频图像级联后作为生成器模块的输入并生成具有频谱信息的生成语音时频图像,最后将生成语音时频图像转换为语音信号;最后将各个文本字符序列所对应的语音信息按照切片顺序进行整合,即可得到文本T′的语音信号。。
2.根据权利要求1所述的将文本转换为指定风格语音的方法,其特征在于,所述的生成器模块的具体结构如下:
第1层为卷积层,记为Conv1层,使用64个大小为4×4、步长为2的卷积核,对输入的级联后的成对图像进行卷积操作后输出;
第2层为卷积层,记为Conv2层,使用128个大小为4×4、步长为2的卷积核,对Conv1层输出的特征图进行卷积操作,再进行实例归一化后输出;
第3层为卷积层,记为Conv3层,使用256个大小为4×4、步长为2的卷积核,对Conv2层输出的特征图进行卷积操作,再进行实例归一化后输出;
第4层为卷积层,记为Conv4层,使用512个大小为4×4、步长为2的卷积核,对Conv3层输出的特征图进行卷积操作,再进行实例归一化后输出;
以上4层卷积层均采用lrelu激活函数,其斜率为0.2;
第5层为反卷积层,记为DeConv1层,使用256个大小为4×4、步长为2的卷积核,对Conv4层输出的特征图进行反卷积操作,再进行实例归一化后输出;
第6层为反卷积层,记为DeConv2层,使用128个大小为4×4、步长为2的卷积核,对Conv3层输出的特征图和DeConv1层输出的特征图所构成的级联图像进行反卷积操作,再进行实例归一化后输出;
第7层为反卷积层,记为DeConv3层,使用64个大小为4×4、步长为2的卷积核,对Conv2层输出的特征图和DeConv2层输出的特征图所构成的级联图像进行反卷积操作,再进行实例归一化后输出;
第8层为反卷积层,记为DeConv4层,使用3个大小为4×4、步长为2的卷积核,对Conv1层输出的特征图和DeConv3层输出的特征图所构成的级联图像进行反卷积操作后输出,DeConv4层采用tanh函数作为激活函数。
以上所有卷积层与反卷积层在卷积和反卷积时均使用SAME Padding的填充操作。
3.根据权利要求1所述的将文本转换为指定风格语音的方法,其特征在于,所述的图像来源判别器模块与风格判别器模块的具体结构如下:
第1层为卷积层,记为Conv1层,使用64个大小为4×4、步长为2的卷积核,对输入的级联后的成对图像进行卷积操作后输出;
第2层为卷积层,记为Conv2层,使用128个大小为4×4、步长为2的卷积核,对Conv1层输出的特征图进行卷积操作;
第3层为卷积层,记为Conv3层,使用256个大小为4×4、步长为2的卷积核,对Conv2层输出的特征图进行卷积操作,再进行实例归一化后输出;
第4层为卷积层,记为Conv4层,使用512个大小为4×4、步长为2的卷积核,对Conv3层输出的特征图进行卷积操作,再进行实例归一化后输出;
第5层为卷积层,记为Conv_r层,使用1个大小为3×3的卷积核,对Conv4层输出的特征图进行卷积操作,得到图像来源判别矩阵,矩阵中每个元素表示局部图像来源的预测概率。
第6层为卷积层,记为Conv_s层,使用K个大小为(H/16)x(W/16)、步长为1的卷积核,对Conv4层输出的特征图进行卷积操作,输出K维向量,每个维度的值表示输入在预设K种风格上每一种的概率。
4.根据权利要求1所述的将文本转换为指定风格语音的方法,其特征在于,所述的最大可输入长度采用如下方法设置:计算步骤S101中N个文本Tn的平均长度L,将L+ΔL作为最大可输入长度,其中ΔL为预设的长度余量参数。
CN202010128298.XA 2020-02-28 2020-02-28 将文本转换为指定风格语音的方法 Active CN111341294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010128298.XA CN111341294B (zh) 2020-02-28 2020-02-28 将文本转换为指定风格语音的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010128298.XA CN111341294B (zh) 2020-02-28 2020-02-28 将文本转换为指定风格语音的方法

Publications (2)

Publication Number Publication Date
CN111341294A true CN111341294A (zh) 2020-06-26
CN111341294B CN111341294B (zh) 2023-04-18

Family

ID=71180573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010128298.XA Active CN111341294B (zh) 2020-02-28 2020-02-28 将文本转换为指定风格语音的方法

Country Status (1)

Country Link
CN (1) CN111341294B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112966685A (zh) * 2021-03-23 2021-06-15 平安国际智慧城市科技股份有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN113095038A (zh) * 2021-05-08 2021-07-09 杭州王道控股有限公司 基于多任务辨别器生成对抗网络的字体生成方法及装置
WO2022105545A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302845A1 (en) * 2012-08-01 2015-10-22 National Institute Of Advanced Industrial Science And Technology Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
CN109147759A (zh) * 2018-10-09 2019-01-04 电子科技大学 一种基于打分算法的短波话音信号分集合并接收方法
CN110189766A (zh) * 2019-06-14 2019-08-30 西南科技大学 一种基于神经网络的语音风格转移方法
WO2019182346A1 (ko) * 2018-03-22 2019-09-26 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US20200051583A1 (en) * 2018-08-08 2020-02-13 Google Llc Synthesizing speech from text using neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302845A1 (en) * 2012-08-01 2015-10-22 National Institute Of Advanced Industrial Science And Technology Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
WO2019182346A1 (ko) * 2018-03-22 2019-09-26 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US20200051583A1 (en) * 2018-08-08 2020-02-13 Google Llc Synthesizing speech from text using neural networks
CN109147759A (zh) * 2018-10-09 2019-01-04 电子科技大学 一种基于打分算法的短波话音信号分集合并接收方法
CN110189766A (zh) * 2019-06-14 2019-08-30 西南科技大学 一种基于神经网络的语音风格转移方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIEFU CHEN ET AL.: "Learning one-to many sytlised Chinese character transformation and generation by generative adversarial networks" *
YANG YANG ET AL.: "Video Captioning by Adversarial LSTM" *
YUKI SATIO ET AL.: "Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks" *
任强: "基于生成对抗网络的语音风格转移技术的研究及应用" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105545A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112966685A (zh) * 2021-03-23 2021-06-15 平安国际智慧城市科技股份有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112966685B (zh) * 2021-03-23 2024-04-19 深圳赛安特技术服务有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN113095038A (zh) * 2021-05-08 2021-07-09 杭州王道控股有限公司 基于多任务辨别器生成对抗网络的字体生成方法及装置
CN113095038B (zh) * 2021-05-08 2024-04-16 杭州王道控股有限公司 基于多任务辨别器生成对抗网络的字体生成方法及装置

Also Published As

Publication number Publication date
CN111341294B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111341294B (zh) 将文本转换为指定风格语音的方法
US20170358306A1 (en) Neural network-based voiceprint information extraction method and apparatus
EP4006902B1 (en) Inter-channel feature extraction for audio separation
CN110600047A (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN110942502B (zh) 语音唇形拟合方法、系统及存储介质
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
CN110148408A (zh) 一种基于深度残差的中文语音识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
Maheswari et al. A hybrid model of neural network approach for speaker independent word recognition
CN109461441A (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
US6131089A (en) Pattern classifier with training system and methods of operation therefor
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN116110405A (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
WO2020175530A1 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
Soliman et al. Isolated word speech recognition using convolutional neural network
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
CN111488486A (zh) 一种基于多音源分离的电子音乐分类方法及系统
CN111222854A (zh) 基于面试机器人的面试方法、装置、设备及存储介质
CN112735442B (zh) 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
Gombos Acoustic recognition with deep learning; experimenting with data augmentation and neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant