CN113345412A - 语音合成方法、装置、设备以及存储介质 - Google Patents

语音合成方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN113345412A
CN113345412A CN202110605207.1A CN202110605207A CN113345412A CN 113345412 A CN113345412 A CN 113345412A CN 202110605207 A CN202110605207 A CN 202110605207A CN 113345412 A CN113345412 A CN 113345412A
Authority
CN
China
Prior art keywords
voice
prosody
analysis
target
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110605207.1A
Other languages
English (en)
Inventor
张旭龙
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110605207.1A priority Critical patent/CN113345412A/zh
Publication of CN113345412A publication Critical patent/CN113345412A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

本发明公开了一种语音合成方法,包括:将目标文本序列转换为目标unicode编码;将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。可见,本发明能够使合成的语音即使是在不同语言之间进行切换时仍像是同一说话人发出的,提升合成的语音在不同语言之间进行切换时的效果。本发明还涉及区块链技术领域。

Description

语音合成方法、装置、设备以及存储介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、计算机设备以及存储介质。
背景技术
近年,多语言语音合成技术正逐渐成为语音合成领域中热门的研究课题。多语言语音合成技术能够用同一个系统生成不同说话人、不同语言的合成语音,其可以广泛应用于人机交互、双语教学、口语对话等场景中,对促进多语言地区的语言交流有着重要的意义。
实际应用中,多语言语音合成技术的实现的一个难点在于用于进行人工神经网络的训练的数据的收集,要寻找一个能同时精通多种语言的人进行语音数据的收集显然是不现实的,所以实际收集到的数据通常会包括不同的说话人以及不同语言的语音,例如,a精通中文和英文,则收集a的中文语音和英文语音,b精通日文,则收集b的日文语音。这样,人工神经网络在训练时拟合的将会是不同的说话人以及不同语言的语音,导致多语言语音合成技术最终合成的语音在不同语言之间进行切换时的效果并不理想,具体表现为同一个文本序列转换成的不同语言的语音像是不同的说话人发出的。
发明内容
本发明所要解决的技术问题在于,多语言语音合成技术最终合成的语音在不同语言之间进行切换时的效果不佳,像是不同的说话人发出的。
为了解决上述技术问题,本发明第一方面公开了一种语音合成方法,所述方法包括:
将目标文本序列转换为目标unicode编码;
将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;
将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;
将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;
其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
本发明第二方面公开了一种语音合成装置,所述装置包括:
转换模块,用于将目标文本序列转换为目标unicode编码;
语音特征分析模块,用于将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;
语音编码分析模块,用于将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;
语音合成模块,用于将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;
其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的语音合成方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的语音合成方法中的部分或全部步骤。
本发明实施例中,首先将目标文本序列转换为目标unicode编码,然后使用语言特征分析模型对目标unicode编码进行分析以得到目标unicode编码对应的语音特征信息,使用语音编码器对参考语音进行分析以得到参考语音对应的语音编码信息,最后将语音特征信息和语音编码信息输入至语音声码器进行分析以得到目标文本序列对应的合成语音,从而能够在合成语音时,引入参考语音这一变量,通过语音编码器从参考语音中提取出语音编码信息,然后基于语音编码信息进行语音的合成,从而能够合成以参考语音为基准的语音,使得合成的语音即使是在不同语言之间进行切换时仍像是同一说话人发出的,提升合成的语音在不同语言之间进行切换时的效果,提高多语言语音合成技术的用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音合成方法的流程示意图;
图2是本发明实施例公开的一种语音合成装置的结构示意图;
图3是本发明实施例公开的一种计算机设备的结构示意图;
图4是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种语音合成方法、装置、计算机设备以及存储介质,首先将目标文本序列转换为目标unicode编码,然后使用语言特征分析模型对目标unicode编码进行分析以得到目标unicode编码对应的语音特征信息,使用语音编码器对参考语音进行分析以得到参考语音对应的语音编码信息,最后将语音特征信息和语音编码信息输入至语音声码器进行分析以得到目标文本序列对应的合成语音,从而能够在合成语音时,引入参考语音这一变量,通过语音编码器从参考语音中提取出语音编码信息,然后基于语音编码信息进行语音的合成,从而能够合成以参考语音为基准的语音,使得合成的语音即使是在不同语言之间进行切换时仍像是同一说话人发出的,提升合成的语音在不同语言之间进行切换时的效果,提高多语言语音合成技术的用户体验。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种语音合成方法的流程示意图。如图1所示,该语音合成方法可以包括以下操作:
101、将目标文本序列转换为目标unicode编码。
在上述步骤101中,unicode编码又称为统一码、万国码、单一码,是国际组织制定的旨在容纳全球所有字符的编码方案,包括字符集、编码方案等,其为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台的要求。将目标文本序列转换为unicode编码,然后基于unicode编码进行后续的处理,这样,即能够使目标文本序列支持多语言的文本的输入,为语言合成技术能够支持多种语言的语音合成提供基础。例如,用户想要合成中文语音,则可以将中文作为目标文本序列,用户想要合成英文语音,则可以将英文作为目标文本序列。由于任何一种语言在unicode编码中都存在有唯一对应的编码,所以无论是使用中文作为目标文本序列还是使用英文作为目标文本序列,都能够将目标文本序列转换为相应的unicode编码,后续用于合成中文语音或者英文语音。
102、将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息。
在上述步骤102中,语音特征分析模型可以是任意一种TTS模型,如,Tacotron2模型、FastSpeech2模型。将目标unicode编码输入至Tacotron2模型进行分析之后,即能够得到相应的梅尔频谱(即目标unicode编码对应的语音特征信息),后续即可以根据梅尔频谱进行语音的合成。
103、将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息。
在上述步骤103中,语音编码器能够将参考语音的声音波形进行编码,以得到相应的比特数据(即参考语音对应的语音编码信息)。参考语音对应的语音编码信息经过声码器的转换之后,即能够重现参考语音的声音波形,从而可以发出与参考语音一样的声音。参考语音可以是用户根据实际需要选择的,例如,用户想要使最终合成的语音像是人类A说出的语音,则可以将一段人类A的真实的说话语音作为参考语音,用户想要使最终合成的语音像是人类B说出的语音,则可以将一段人类B的真实的说话语音作为参考语音。
104、将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音,其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
在传统的语音的合成方法中,通常是在得到输入文本对应的语音特征信息之后,直接使用语音声码器将语音特征信息转换成相应的语音,从而完成语音的合成。例如,在将unicode编码输入至Tacotron2模型得到相应的梅尔频谱之后,Griffin-Lim声码器可以直接使用Griffin-Lim算法将梅尔频谱转换为相应的声音波形,从而完成语音的合成。但是,这种语音的合成方法在多语言的场景下的表现并不理想。由于在进行模型训练的训练数据中,通常不同的语言的语音本就是由不同的说话人发出的,如,中文的语音是由人类A发出的,英文的语音是由人类B发出的,所以训练完成的模型拟合的不同种类语言的语音的说话人本就不同,从而使得最终合成的语音在不同语言之间进行切换时的效果不佳,像是不同的说话人发出的,如,最终合成的语音在中文和英文之间进行切换时,由于所拟合的中文语音是由人类A发出的,所拟合的英文语音是由人类B发出的,所以最终合成的语音在说中文时,像是人类A在说中文,在说英文时,像是人类B在说英文,最终使得合成的语音在中文和英文之间进行切换时,像是人类A和人类B在交替着说话。
本发明实施例中,在语音合成时,引入参考语音这一变量,在得到输入文本对应的语音特征信息之后,先通过语音编码器从参考语音中提取出语音编码信息,然后使用语音声码器基于语音特征信息和语音编码信息生成最终合成的语音。例如,在将unicode编码输入至Tacotron2模型得到相应的梅尔频谱之后,通过语音编码器从人类A的语音(即参考语音)中提取出语音编码信息,最后Griffin-Lim声码器使用Griffin-Lim算法将梅尔频谱转换为相应的声音波形时还可以结合人类A的语音编码信息进行转换,从而使合成的语音都像是人类A发出的。虽然在进行模型训练的训练数据中,不同的语言的语音是由不同的说话人发出的,但是在最终合成语音的时候引入了参考语音,所以最终合成的语音无论是在说那种语言,都像是参考语音的人类发出的。如,最终合成的语音在中文和英文之间进行切换时,虽然所拟合的中文语音是由人类A发出的,所拟合的英文语音是由人类B发出的,但是参考语音是人类A的语音,所以最终合成的语音无论是在说中文还是在说英文,都像是人类A在说话。
可选地,语音声码器也可以为WaveRNN声码器。
可见,实施图1所描述的语音合成方法,首先将目标文本序列转换为目标unicode编码,然后使用语言特征分析模型对目标unicode编码进行分析以得到目标unicode编码对应的语音特征信息,使用语音编码器对参考语音进行分析以得到参考语音对应的语音编码信息,最后将语音特征信息和语音编码信息输入至语音声码器进行分析以得到目标文本序列对应的合成语音,从而能够在合成语音时,引入参考语音这一变量,通过语音编码器从参考语音中提取出语音编码信息,然后基于语音编码信息进行语音的合成,从而能够合成以参考语音为基准的语音,使得合成的语音即使是在不同语言之间进行切换时仍像是同一说话人发出的,提升合成的语音在不同语言之间进行切换时的效果,提高多语言语音合成技术的用户体验。
在一个可选的实施例中,所述语音合成信息还包括所述目标文本序列对应的韵律情感信息;
以及,所述将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音之前,所述方法还包括:
对所述目标文本序列进行预设的韵律情感分析,得到所述目标文本序列对应的韵律情感信息。
在该可选的实施例中,目前的多语言语音合成技术(如,Google提出的Byte-to-Audio)大多并未考虑语音的韵律、情感等因素,使得合成的语音未能很好地贴合人类发出的真实语音。所以在合成语音之前,对目标文本序列进行韵律情感分析(具体的分析过程,稍后进行描述),以得到目标文本序列对应的韵律情感信息。最后,将语音特征信息、语音编码信息和韵律情感信息一同输入至语音声码器以合成声音,从而使得最终合成的声音能够体现目标文本序列的韵律、情感等因素,使得最终合成的声音能够更好地贴合人类发出的真实语音。
可见,实施该可选的实施例,在合成语音之前,对目标文本序列进行韵律情感分析以得到目标文本序列对应的韵律情感信息,最后将语音特征信息、语音编码信息和韵律情感信息一同输入至语音声码器以合成语音,从而使得最终合成的语音能够体现目标文本序列的韵律、情感等因素,使得最终合成的语音能够更好地贴合人类发出的真实语音,提高多语言语音合成技术的用户体验。
在一个可选的实施例中,所述目标文本序列对应的韵律情感信息包括所述目标文本序列对应的文本韵律信息和所述目标文本序列对应的文本语义信息;
以及,所述对所述目标文本序列进行预设的韵律情感分析,得到所述目标文本序列对应的韵律情感信息,包括:
将所述目标文本序列输入至预设的文本韵律分析模型进行分析,得到所述目标文本序列对应的文本韵律信息;
将所述目标文本序列输入至预设的文本语义分析模型进行分析,得到所述目标文本序列对应的文本语义信息。
在该可选的实施例中,文本韵律分析模型和文本语义分析模型所使用的BERT模型可以均为模型层数为12,隐藏层单元数为768,自注意力头数为12的BERT模型。其中,BERT模型是一个预训练的模型,是一个已经利用大数据集完成训练的模型,能够适用于较多的数据集,在此基础之上,使用自身的数据集对BERT模型进行进一步的训练以实现对BERT模型的参数微调,从而能够使BERT模型具有从目标文本序列中提取出文本韵律信息或者文本语义信息的能力。文本语义信息可以用于记录目标文本序列所包含的文本所体现出来的情感,如,目标文本序列所包含的文本为“我今天因为塞车迟到,被扣了全勤奖金,想起来就很生气”,通过文本语义分析模型分析目标文本序列的语义得到目标文本序列所包含的情感为“生气”,则在最终合成语音时可以提高提高所合成的语音的声调,以体现生气的情感。
可见,实施该可选的实施例,在对目标文本序列进行韵律情感分析时,使用文本韵律分析模型对目标文本序列进行分析得到文本韵律信息,使用文本语义分析模型对目标文本序列进行分析得到文本语义信息,最后将文本韵律信息和文本语义信息作为韵律情感信息来合成语音,从而能够根据目标文本序列的文本韵律和文本语义这两个维度的信息合成语音,使得最终合成的语音能够更好地贴合人类发出的真实语音,提高多语言语音合成技术的用户体验。
在一个可选的实施例中,所述文本韵律分析模型由BERT模型和预设的各个韵律层级对应的输出层构成,其中,每个韵律层级对应的输出层用于输出该韵律层级的韵律边界,所述文本韵律分析模型输出的文本韵律信息包括各个韵律层级的韵律边界。
在该可选的实施例中,语音的韵律包括音强、音高、音长等特征,其在语音中表现为声调、语调、重音、节奏等。目标文本序列的韵律层级可以分为字层级、词语层级、句子层级等。分析得到目标文本序列的各个韵律层级的韵律边界,有利于使最终合成的语音的韵律更加准确。当韵律层级不同时,对应的韵律边界通常会有所不同,所以在文本韵律分析模型中,可以为每个韵律层级设置对应的输出层,其中,每个输出层连接在BERT模型之后,用于输出该韵律层级对应的韵律边界。如,对于词语层级的韵律边界,目标文本序列为“我想起来了”,则根据文本韵律分析模型输出的词语层级的韵律边界可以将目标文本序列划分为“我”、“想”、“起来”、“了”,其中,每个分词将会对应一种韵律,这样在合成目标文本序列的语音时即可以按照每个分词对应的韵律对合成语音的韵律进行控制,从而使得合成的语音具有良好的韵律,能够更好地贴合人类发出的真实语音。在文本韵律分析模型中,可以增加分词任务,并基于各个韵律层级之间的关系以及韵律和词语之间的关系进行建模,通过多任务学习的方法实现对目标文本序列的各个韵律层级的韵律边界的预测。在多任务学习的过程中,对于每个任务,以交叉熵作为每个任务的损失函数,整个文本韵律分析模型以最小化韵律边界预测任务的损失函数和分词任务的损失函数的和作为训练目标,对BERT模型和各个韵律层级对应的输出层的参数一起进行更新。
可见,实施该可选的实施例,通过使用BERT模型和各个韵律层级对应的输出层构成文本韵律分析模型,从而使文本韵律分析模型能够输出包括各个韵律层级的韵律边界的文本韵律信息,使得最终合成的语音的韵律更加准确,提高多语言语音合成技术的用户体验。
可选地,还可以:将所述语音合成方法的语音合成信息上传至区块链中。
具体来说,语音合成信息是通过运行所述语音合成方法后得到的,用于记录语音合成情况,例如,转换得到的目标unicode编码、目标unicode编码对应的语音特征信息、参考语音对应的语音编码信息等等。将语音合成信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该语音合成信息,以便查证所述语音合成方法的语音合成信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
可见,实施本发明实施例,首先将目标文本序列转换为目标unicode编码,然后使用语言特征分析模型对目标unicode编码进行分析以得到目标unicode编码对应的语音特征信息,使用语音编码器对参考语音进行分析以得到参考语音对应的语音编码信息,最后将语音特征信息和语音编码信息输入至语音声码器进行分析以得到目标文本序列对应的合成语音,从而能够在合成语音时,引入参考语音这一变量,通过语音编码器从参考语音中提取出语音编码信息,然后基于语音编码信息进行语音的合成,从而能够合成以参考语音为基准的语音,使得合成的语音即使是在不同语言之间进行切换时仍像是同一说话人发出的,提升合成的语音在不同语言之间进行切换时的效果,提高多语言语音合成技术的用户体验。还在合成语音之前,对目标文本序列进行韵律情感分析以得到目标文本序列对应的韵律情感信息,最后将语音特征信息、语音编码信息和韵律情感信息一同输入至语音声码器以合成语音,从而使得最终合成的语音能够体现目标文本序列的韵律、情感等因素,使得最终合成的语音能够更好地贴合人类发出的真实语音,提高多语言语音合成技术的用户体验。还在对目标文本序列进行韵律情感分析时,使用文本韵律分析模型对目标文本序列进行分析得到文本韵律信息,使用文本语义分析模型对目标文本序列进行分析得到文本语义信息,最后将文本韵律信息和文本语义信息作为韵律情感信息来合成语音,从而能够根据目标文本序列的文本韵律和文本语义这两个维度的信息合成语音,使得最终合成的语音能够更好地贴合人类发出的真实语音,提高多语言语音合成技术的用户体验。还通过使用BERT模型和各个韵律层级对应的输出层构成文本韵律分析模型,从而使文本韵律分析模型能够输出包括各个韵律层级的韵律边界的文本韵律信息,使得最终合成的语音的韵律更加准确,提高多语言语音合成技术的用户体验。
实施例二
请参阅图2,图2是本发明实施例公开的一种语音合成装置的结构示意图。如图2所示,该语音合成装置可以包括:
转换模块201,用于将目标文本序列转换为目标unicode编码;
语音特征分析模块202,用于将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;
语音编码分析模块203,用于将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;
语音合成模块204,用于将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;
其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
在一个可选的实施例中,所述语音合成信息还包括所述目标文本序列对应的韵律情感信息;
以及,所述装置还包括:
韵律情感分析模块,用于在语音合成模块204将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音之前,对所述目标文本序列进行预设的韵律情感分析,得到所述目标文本序列对应的韵律情感信息。
在一个可选的实施例中,所述目标文本序列对应的韵律情感信息包括所述目标文本序列对应的文本韵律信息和所述目标文本序列对应的文本语义信息;
以及,所述韵律情感分析模块对所述目标文本序列进行预设的韵律情感分析,得到所述目标文本序列对应的韵律情感信息的具体方式为:
将所述目标文本序列输入至预设的文本韵律分析模型进行分析,得到所述目标文本序列对应的文本韵律信息;
将所述目标文本序列输入至预设的文本语义分析模型进行分析,得到所述目标文本序列对应的文本语义信息。
在一个可选的实施例中,所述文本韵律分析模型由BERT模型和预设的各个韵律层级对应的输出层构成,其中,每个韵律层级对应的输出层用于输出该韵律层级的韵律边界,所述文本韵律分析模型输出的文本韵律信息包括各个韵律层级的韵律边界。
在一个可选的实施例中,所述文本韵律分析模型和所述文本语义分析模型所使用的BERT模型均为模型层数为12,隐藏层单元数为768,自注意力头数为12的BERT模型。
在一个可选的实施例中,所述语音特征模型为Tacotron2模型或者FastSpeech2模型。
在一个可选的实施例中,所述语音声码器为WaveRNN声码器。
对于上述语音合成装置的具体描述可以参照上述语音合成方法的具体描述,为避免重复,在此不再一一赘述。
实施例三
请参阅图3,图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示,该计算机设备可以包括:
存储有可执行程序代码的存储器301;
与存储器301连接的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的语音合成方法中的步骤。
实施例四
请参阅图4,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的语音合成方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种语音合成方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
将目标文本序列转换为目标unicode编码;
将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;
将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;
将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;
其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
2.根据权利要求1所述的语音合成方法,其特征在于,所述语音合成信息还包括所述目标文本序列对应的韵律情感信息;
以及,所述将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音之前,所述方法还包括:
对所述目标文本序列进行预设的韵律情感分析,得到所述目标文本序列对应的韵律情感信息。
3.根据权利要求2所述的语音合成方法,其特征在于,所述目标文本序列对应的韵律情感信息包括所述目标文本序列对应的文本韵律信息和所述目标文本序列对应的文本语义信息;
以及,所述对所述目标文本序列进行预设的韵律情感分析,得到所述目标文本序列对应的韵律情感信息,包括:
将所述目标文本序列输入至预设的文本韵律分析模型进行分析,得到所述目标文本序列对应的文本韵律信息;
将所述目标文本序列输入至预设的文本语义分析模型进行分析,得到所述目标文本序列对应的文本语义信息。
4.根据权利要求3所述的语音合成方法,其特征在于,所述文本韵律分析模型由BERT模型和预设的各个韵律层级对应的输出层构成,其中,每个韵律层级对应的输出层用于输出该韵律层级的韵律边界,所述文本韵律分析模型输出的文本韵律信息包括各个韵律层级的韵律边界。
5.根据权利要求3所述的语音合成方法,其特征在于,所述文本韵律分析模型和所述文本语义分析模型所使用的BERT模型均为模型层数为12,隐藏层单元数为768,自注意力头数为12的BERT模型。
6.根据权利要求4所述的语音合成方法,其特征在于,所述文本韵律分析模型是基于多任务学习的方法进行训练的。
7.根据权利要求6所述的语音合成方法,其特征在于,在对所述文本韵律分析模型进行多任务学习的训练过程中,以交叉熵作为每个任务的损失函数。
8.一种语音合成装置,其特征在于,所述装置包括:
转换模块,用于将目标文本序列转换为目标unicode编码;
语音特征分析模块,用于将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;
语音编码分析模块,用于将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;
语音合成模块,用于将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;
其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的语音合成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音合成方法。
CN202110605207.1A 2021-05-31 2021-05-31 语音合成方法、装置、设备以及存储介质 Pending CN113345412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110605207.1A CN113345412A (zh) 2021-05-31 2021-05-31 语音合成方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110605207.1A CN113345412A (zh) 2021-05-31 2021-05-31 语音合成方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113345412A true CN113345412A (zh) 2021-09-03

Family

ID=77473608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110605207.1A Pending CN113345412A (zh) 2021-05-31 2021-05-31 语音合成方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113345412A (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101665882B1 (ko) * 2015-08-20 2016-10-13 한국과학기술원 음색변환과 음성dna를 이용한 음성합성 기술 및 장치
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及系统
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN111326138A (zh) * 2020-02-24 2020-06-23 北京达佳互联信息技术有限公司 语音生成方法及装置
CN111798832A (zh) * 2019-04-03 2020-10-20 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN111951780A (zh) * 2020-08-19 2020-11-17 广州华多网络科技有限公司 语音合成的多任务模型训练方法及相关设备
US20200380949A1 (en) * 2018-07-25 2020-12-03 Tencent Technology (Shenzhen) Company Limited Voice synthesis method, model training method, device and computer device
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN112086086A (zh) * 2020-10-22 2020-12-15 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN112182151A (zh) * 2020-09-23 2021-01-05 清华大学 基于多语言的阅读理解任务识别方法及装置
CN112349269A (zh) * 2020-12-11 2021-02-09 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
US20210151029A1 (en) * 2019-11-15 2021-05-20 Electronic Arts Inc. Generating Expressive Speech Audio From Text Data
KR20210059586A (ko) * 2019-11-15 2021-05-25 한국과학기술원 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101665882B1 (ko) * 2015-08-20 2016-10-13 한국과학기술원 음색변환과 음성dna를 이용한 음성합성 기술 및 장치
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及系统
US20200380949A1 (en) * 2018-07-25 2020-12-03 Tencent Technology (Shenzhen) Company Limited Voice synthesis method, model training method, device and computer device
CN111798832A (zh) * 2019-04-03 2020-10-20 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
US20210151029A1 (en) * 2019-11-15 2021-05-20 Electronic Arts Inc. Generating Expressive Speech Audio From Text Data
KR20210059586A (ko) * 2019-11-15 2021-05-25 한국과학기술원 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치
CN111326138A (zh) * 2020-02-24 2020-06-23 北京达佳互联信息技术有限公司 语音生成方法及装置
CN111951780A (zh) * 2020-08-19 2020-11-17 广州华多网络科技有限公司 语音合成的多任务模型训练方法及相关设备
CN112182151A (zh) * 2020-09-23 2021-01-05 清华大学 基于多语言的阅读理解任务识别方法及装置
CN112086086A (zh) * 2020-10-22 2020-12-15 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112349269A (zh) * 2020-12-11 2021-02-09 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈小东: "基于深度学习的语音合成技术研究及应用", 中国优秀硕士学位论文全文数据库信息科技辑, no. 09, 15 September 2020 (2020-09-15), pages 136 - 17 *

Similar Documents

Publication Publication Date Title
KR102057927B1 (ko) 음성 합성 장치 및 그 방법
JP2022527970A (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
JP2021511536A (ja) 多言語テキスト音声合成方法
Wang et al. A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN116034424A (zh) 两级语音韵律迁移
CN115485766A (zh) 使用bert模型的语音合成韵律
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
KR20230133362A (ko) 다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성
CN112242134A (zh) 语音合成方法及装置
CN115762471A (zh) 一种语音合成方法、装置、设备及存储介质
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN115359780A (zh) 语音合成方法、装置、计算机设备及存储介质
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
CN113345412A (zh) 语音合成方法、装置、设备以及存储介质
CN114822490A (zh) 语音拼接方法和语音拼接装置
CN114708848A (zh) 音视频文件大小的获取方法和装置
Zhang et al. Chinese speech synthesis system based on end to end
KR102639322B1 (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
Janyoi et al. Isarn Dialect Speech Synthesis using HMM with syllable-context features
CN114999447B (zh) 一种基于对抗生成网络的语音合成模型及语音合成方法
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
Kannojia et al. A text to speech synthesizer using acoustic unit based concatenation for any Indian language of Devanagari script

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination