CN114242035A - 语音合成方法、装置、介质以及电子设备 - Google Patents

语音合成方法、装置、介质以及电子设备 Download PDF

Info

Publication number
CN114242035A
CN114242035A CN202210108033.2A CN202210108033A CN114242035A CN 114242035 A CN114242035 A CN 114242035A CN 202210108033 A CN202210108033 A CN 202210108033A CN 114242035 A CN114242035 A CN 114242035A
Authority
CN
China
Prior art keywords
text
target
language
sample
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210108033.2A
Other languages
English (en)
Inventor
林浩鹏
刘世超
邹雨巷
马泽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202210108033.2A priority Critical patent/CN114242035A/zh
Publication of CN114242035A publication Critical patent/CN114242035A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种语音合成方法、装置、介质以及电子设备,所述方法包括:获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;根据所述音素序列、所述目标韵律信息、第一说话人在所述第一语种下的说话向量以及第二说话人的音色向量,合成目标语音,所述目标语音表征所述第二说话人根据所述第一语种说出所述待合成文本的语音。本公开的语音合成方法可以有效解决跨语种语音合成的问题,且合成的语音发音准确率高及韵律自然。

Description

语音合成方法、装置、介质以及电子设备
技术领域
本公开涉及人工智能技术领域,具体地,涉及一种语音合成方法、装置、介质以及电子设备。
背景技术
随着人工智能技术的发展,语音合成技术越来越受到人们的重视,语音合成技术可以将文本转化成语音输出。相关技术中,通常采用单语言模型对已获得用户授权使用的说话人的数据所属语种文本合成发音准确且听感真实的语音,如,中文发音人语音合成模型合成中文文本,或者英文发音人语音合成模型合成英文文本。然而,其对已获得用户授权使用的非说话人的数据所属语种文本或者混语语种文本,合成的语音发音不准确及表现自然度差。
发明内容
提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种语音合成方法,包括:
获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;
根据所述音素序列、所述目标韵律信息、第一说话人在所述第一语种下的说话向量以及第二说话人的音色向量,合成目标语音,所述目标语音表征所述第二说话人根据所述第一语种说出所述待合成文本的语音。
第二方面,本公开提供一种语音合成装置,包括:
获取模块,被配置为获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;
合成模块,被配置为根据所述音素序列、所述目标韵律信息、第一说话人在所述第一语种下的说话向量以及第二说话人的音色向量,合成目标语音,所述目标语音表征所述第二说话人根据所述第一语种说出所述待合成文本的语音。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有至少一个计算机程序;
至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现第一方面所述方法的步骤。
通过上述技术方案,通过给定第一说话人在第一语种下的说话向量和第二说话人的发音向量,使得合成的目标语音的节奏信息参考第一说话人在第一语种下的语音的节奏信息,及音色信息参考第二说话人本身的音色信息,使得即使第一语种不是第二说话人的语言,也可以合成出第二说话人根据第一语种说出的语音,可以有效解决跨语种语音合成的问题。同时,通过音素序列和目标韵律信息合成目标语音,合成出的目标语音发音准确率高且韵律自然。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据本公开一示例性实施例示出的一种实施环境的示意图。
图2是根据本公开一示例性实施例示出的一种语音合成的方法的流程图。
图3是根据本公开一示例性实施例示出的合成目标语音的方法的流程图。
图4是根据本公开一示例性实施例示出的训练语音合成模型的方法的流程图。
图5是根据本公开一示例性实施例示出的得到目标韵律信息的方法的流程图。
图6是根据本公开一示例性实施例示出的训练目标韵律预测模型的方法的流程图。
图7是根据本公开一示例性实施例示出的语音合成装置的框图。
图8是根据本公开一示例性实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
相关技术中,通常采用单语言模型对已获得用户授权使用的说话人的数据所属语种文本合成发音准确且听感真实的语音,如,中文说话人语音合成模型合成中文文本,或者英文说话人语音合成模型合成英文文本。然而,单语言模型对已获得用户授权使用的非说话人的数据所属语种文本(即已获得用户授权使用的说话人的非母语文本)或者混语语种文本,合成的语音发音不准确及表现自然度差,例如,中文说话人语音合成模型合成英文或中英混文本、或者英文说话人语音合成模型合成中文或中英混文本,合成的语音发音不准确及表现自然度差。
且,合成的语音发音不准确及表现自然度差可以导致以下缺陷:句子的发音准确度差,严重影响语音的合成可懂度;句子的韵律不自然,与已获得用户授权使用的母语说话人的发音存在较大差距,主要体现在语调、重音以及时长,以及在混语文本上衔接不自然。由此可知,相关技术并不能有效实现跨语种语音合成的问题。
图1是根据本公开一示例性实施例示出的一种实施环境的示意图。如图1所示,该实施环境可以包括:模型训练设备110和模型使用设备120。在一些实施例中,模型训练设备110可以是诸如电脑、服务器等计算机设备,用于训练得到语音合成模型。模型训练设备110可以采用机器学习的方式训练得到语音合成模型,关于语音合成模型的训练过程可以参见下述图4及其相关描述,在此不再赘述。
训练得到的语音合成模型可以部署在模型使用设备120中使用。模型使用设备120可以是诸如手机、平板电脑,个人计算机、多媒体播放设备等终端设备,也可以是服务器。模型使用设备120可以通过语音合成模型对待合成文本合成目标语音。关于合成目标语音的具体细节可以参见下述图3及其相关描述,在此不再赘述。
图2是根据本公开一示例性实施例示出的一种语音合成的方法的流程图。如图2所示,该方法可以包括以下步骤。
步骤210,获取待合成文本的音素序列以及音素序列对应的目标韵律信息,目标韵律信息是在待合成文本所属的第一语种下的韵律信息。
在一些实施例中,待合成文本可以是需合成语音的文本,待合成文本包括所属第一语种的文本。在一些实施例中,第一语种可以是一个或多个,在第一语种为一个的情况下,待合成文本为单语文本,例如,第一语种为中文或英文,则待合成文本为中文文本或英文文本。在第一语种为多个的情况下,待合成文本为混语文本,例如,第一语种为中文和英文,则待合成文本为包括中文文本和英语文本的混语文本。
值得说明的是,前述第一语种的类型仅为示意性举例,其并不仅限于中文、英文或者中英文,例如,还可以是德文、法文或者两者的混语语种等,本公开对此不作任何限制。
在一些实施例中,音素序列可以是由待合成文本包括的第一语种文本的音素组成的序列,音素是根据语音的自然属性划分出来的最小语音单位。针对不同第一语种的文本,其划分音素的方法可以不同。示例地,以第一语种文本为中文文本“你好”为例,则音素序列为{N,I,H,A,O};以第一语种文本为英文文本“seattle”为例,则音素序列为{S,IY,AE,T,AX,L};以第一语种文本为中英混文本“你好seattle”为例,则音素序列为{N,I,H,A,O,S,IY,AE,T,AX,L}。
在一些实施例中,可以通过人工根据统计知识标注待合成文本的音素,得到待合成文本的音素序列。在一些实施例中,还可以通过在预设字典中查询待合成文本中各个字或词的音素,得到待合成文本的音素序列,预设字典预先存储有多个字或词的音素。
在一些实施例中,目标韵律信息是在待合成文本所属的第一语种下的韵律信息,目标韵律信息由待合成文本包括的第一语种文本的韵律信息构成。针对不同第一语种的文本,其韵律信息的确定方式可以不同,例如,若第一语种文本为中文文本,则韵律信息可以包括韵律词、韵律短语、语调短语以及焦点重音,其中,韵律词、韵律短语以及语调短语可以表征意群等级,体现声学上的停顿;焦点重音可以表征声学上的重音强调。又例如,若第一语种文本为英文文本,则韵律信息可以包括ToBI(Tonesand Break Indices)特征,ToBI特征可以包括短语重音、边界调以及音高重音,英文文本的韵律信息可以根据ToBI标注系统对英文文本的韵律进行标注得到。
在一些实施例中,目标韵律信息与音素序列对应,即目标韵律信息是将第一语种文本的韵律信息扩展至音素级别后得到的。第一语种文本的韵律信息为文本级别,通过将文本级别的韵律信息扩展至音素级别得到目标韵律信息,实现目标韵律信息与音素序列的粒度对齐,使得目标韵律信息和音素序列属于同一层级,即均属于音素级别,便于后续处理。示例地,以第一语种文本为“一个”为例,假设其韵律信息为{04},其音素序列为{YIGE},其中,0表征字“一”的韵律,4表征字“个”的韵律,则将韵律信息扩展至音素级别可以得到目标韵律信息{0044},扩展后,“00”表征音素Y和I的韵律,“44”表征音素G和E的韵律,由此可知,目标韵律信息和音素序列的粒度相同。
在一些实施例中,可以根据训练好的目标韵律预测模型得到待合成文本的初始韵律信息;对待合成文本的初始韵律信息扩展至音素级别得到目标韵律信息。关于得到该目标韵律信息的具体细节可以参见下述图5及其相关描述,在此不再赘述。
步骤220,根据音素序列、目标韵律信息、已获得用户授权使用的第一说话人在第一语种下的说话向量以及已获得用户授权使用的第二说话人的音色向量,合成目标语音,目标语音表征已获得用户授权使用的第二说话人根据第一语种说出待合成文本的语音。
关于音素序列和目标韵律信息的具体细节可以参见上述步骤210及其相关描述,在此不再赘述。如前所述,音素序列是由待合成文本的发音音素构成的,由于目标语音为待合成文本的语音,因此,音素序列可以反映目标语音的发音信息。目标韵律信息是待合成文本的韵律信息,因此,目标韵律信息可以反映目标语音的韵律信息。
在一些实施例中,已获得用户授权使用的第一说话人在第一语种下的说话向量可以是已获得用户授权使用的第一说话人在第一语种下的语音数据的编码向量,该语音数据可以是一条或多条。在语音数据为多条的情况下,可以对多条语音数据中的每条进行编码得到多个编码向量,对该多个编码向量求平均得到已获得用户授权使用的第一说话人在第一语种下的说话向量。
在一些实施例中,已获得用户授权使用的第一说话人在第一语种下的说话向量可以反映已获得用户授权使用的第一说话人在对与第一语种下的语音数据对应的文本进行发音时,其对该文本的各个音素的发音时长,也即反映该语音数据的发音节奏。在一些实施例中,第一语种可以是已获得用户授权使用的第一说话人的语言(或母语),以及不是已获得用户授权使用的第二说话人的语言(或母语)。
在一些实施例中,可以通过已获得用户授权使用的第一说话人在第一语种下的说话向量确定音素序列中每个音素的时长,得到目标时长序列,即可以通过已获得用户授权使用的第一说话人对第一语种的语音数据的文本中各个音素的发音时长,预测待合成文本中各个音素的时长。因此,已获得用户授权使用的第一说话人在第一语种下的说话向量可以间接反映目标语音的发音节奏(即待合成文本的各音素的发音时长),也即间接反映了已获得用户授权使用的第二说话人根据第一语种说出的语音的发音节奏。关于得到目标时长序列的具体细节可以参见下述图3及其相关描述,在此不再赘述。
在一些实施例中,已获得用户授权使用的第二说话人的音色向量可以是已获得用户授权使用的第二说话人的语音数据的编码向量,已获得用户授权使用的第二说话人的音色向量可以是已获得用户授权使用的第二说话人的语音数据的编码向量,关于该语音数据的编码向量的获取方式与已获得用户授权使用的第一说话人在第一语种下的语音数据的编码向量的获取方式相同,具体请参见前述相关描述,在此不再赘述。
在一些实施例中,已获得用户授权使用的第二说话人的音色向量可以反映已获得用户授权使用的第二说话人在说话时的音色信息,音色是听觉感到的声音的特色。由于目标语音是已获得用户授权使用的第二说话人说出的语音,因此,通过已获得用户授权使用的第二说话人的音色向量可以反映目标语音的音色信息。
在一些实施例中,已获得用户授权使用的第一说话人在第一语种下的说话向量和已获得用户授权使用的第二说话人的发音向量可以通过预先训练好的说话人编码模型分别对已获得用户授权使用的第一说话人在第一语种下的语音数据和已获得用户授权使用的第二说话人的语音数据进行处理得到,已获得用户授权使用的第二说话人的语音数据可以是已获得用户授权使用的第二说话人的语言(例如,第二语言)的语言数据。说话人编码模型可以通过端到端的训练方式得到,具体训练方式可参见相关技术,在此不再赘述。
在一些实施例中,可以根据已获得用户授权使用的第一说话人的标识和已获得用户授权使用的第二说话人的标识,例如,已获得用户授权使用的第一说话人ID和已获得用户授权使用的第二说话人ID,在预设数据库中分别查询得到已获得用户授权使用的第一说话人在第一语种下的说话向量和已获得用户授权使用的第二说话人的发音向量。预设数据库中存储有多个已获得用户授权使用的说话人在不同语种下的说话向量以及多个已获得用户授权使用的说话人的发音向量。
在本公开实施例中,通过音素序列可以反映目标语音的发音信息、目标韵律信息可以反映目标语音的韵律信息、已获得用户授权使用的第一说话人在第一语种下的说话向量可以反映目标语音的节奏信息、已获得用户授权使用的第二说话人的音色向量可以反映目标语音的音色信息。由此可知,本公开将语音从多个维度进行分解,得到表征发音信息、韵律信息、节奏信息以及音色信息的标签解耦信息。
从而,通过给定已获得用户授权使用的第一说话人在第一语种下的说话向量和已获得用户授权使用的第二说话人的发音向量,使得合成的目标语音的节奏信息参考已获得用户授权使用的第一说话人在第一语种下的语音的节奏信息,以及合成的目标语音的音色信息参考已获得用户授权使用的第二说话人本身的音色信息,使得即使第一语种不是已获得用户授权使用的第二说话人的语言(或第一语种不是已获得用户授权使用的第二说话人的母语),也可以合成出已获得用户授权使用的第二说话人根据第一语种说出的待合成文本的语音,可以有效解决跨语种语音合成的问题。且即使得单语言模型的训练数据没有已获得用户授权使用的非说话人所属语言的数据,单语言模型也可以对已获得用户授权使用的非说话人所属语言的文本进行语音合成。例如,中文说话人语音合成模型可以合成英文或混语文本,或者英文说话人语音合成模型可以合成中文或混语文本。
同时,通过音素序列和目标韵律信息合成目标语音,利用发音信息和韵律信息可以合成发音准确度高和韵律自然的语音,最终合成出的目标语音可懂度高且韵律自然。
图3是根据本公开一示例性实施例示出的合成目标语音的方法的流程图。如图3所示,该方法可以包括以下步骤。
步骤310,根据已获得用户授权使用的第一说话人在第一语种下的说话向量,确定音素序列中每个音素的时长,得到目标时长序列。
步骤320,根据目标时长序列和已获得用户授权使用的第二说话人的音色向量,得到音频特征。
步骤330,根据声学模型对音频特征进行处理,合成目标语音。
在一些实施例中,可以根据训练好的语音合成模型执行根据已获得用户授权使用的第一说话人在第一语种下的说话向量,确定音素序列中每个音素的时长,得到目标时长序列至得到音频特征的步骤,即可以根据训练好的语音合成模型执行上述步骤310和320。关于语音合成模型的训练过程可以参见下述图4及其相关描述,在此不再赘述。
在一些实施例中,训练好的语音合成模型可以包括编码模型和音长预测模型,根据已获得用户授权使用的第一说话人在第一语种下的说话向量,确定音素序列中每个音素的时长,得到目标时长序列,包括:融合音素序列和目标韵律信息,得到目标音素序列;根据编码模型对目标音素序列进行编码,得到第一向量;根据音长预测模型对说话向量和第一向量进行处理,得到目标时长序列。
在一些实施例中,目标韵律信息可以通过序列表示,融合音素序列和目标韵律信息可以是指拼接音素序列和目标韵律信息的序列,得到目标音素序列。在一些实施例中,编码模型可以根据实际情况具体确定,例如,编码模型可以采用BERT模型或Transformer模型等,本公开对编码模型的具体类型不做任何限制。
在一些实施例中,音长预测模型可以由多个卷积层和一个线性层构成。在一些实施例中,目标时长序列可以用于表征音素序列中各个音素的发音时长,发音时长可以通过音频帧进行表征。示例地,仍以前述音素序列{YIGE}为例,则目标时长序列可以是{4,12,10,8},该目标时长序列可以反映音素Y、I、G、E的发音时长分别为4帧、12帧、10帧以及8帧。
在本公开实施例中,目标时长序列由对目标音素序列的向量和已获得用户授权使用的第一说话人在第一语种下的说话向量的处理得到,目标音素序列融合了目标韵律信息和音素序列。如前所述,目标韵律信息和音素序列分别反映目标语音的韵律信息和发音信息,且已获得用户授权使用的第一说话人在第一语种下的说话向量反映目标语音的节奏信息,由此可知,目标时长序列中各个音素的时长参考韵律信息、发音信息以及节奏信息得到,提升了基于目标时长序列合成的目标语音(即已获得用户授权使用的第二说话人根据第一语种说出的语音)的语种自然度和地道性,以及提升了目标语音的韵律自然度。
在一些实施例中,训练好的语音合成模型还包括解码模型,根据目标时长序列和已获得用户授权使用的第二说话人的音色向量,得到音频特征,包括:根据解码模型对目标时长序列和音色向量进行解码,得到音频特征。在一些实施例中,解码模型可以是循环神经网络。音频特征可以是梅尔谱特征。
在一些实施例中,声学模型可以根据实际情况具体确定,例如,声学模型可以采用Griffin-Lim模型、WaveRNN模型或者LPCNet模型等,本公开对声学模型的具体类型不做任何限制。在一些实施例中,声学模型可以作为语音合成模型中的网络层,也可以作为语音合成模型的后处理层。
图4是根据本公开一示例性实施例示出的训练语音合成模型的方法的流程图。如图4所示,该方法可以包括以下步骤。
步骤410,获取与第一语种对应的多个训练样本,每个训练样本包括第二训练文本和第二训练文本的样本音频。
示例地,以第一语种为中文为例,则多个训练样本与中文对应,此时,每个训练样本可以包括中文文本和中文文本的音频,其中,中文文本可以是该训练样本中的第二训练文本,中文文本的音频可以是该训练样本中的第二训练文本的样本音频。在一些实施例中,中文文本的音频可以是已获得用户授权使用的中文说话人根据中文说出的该中文文本的语音,已获得用户授权使用的中文说话人可以是母语为中文的说话人,或者是能将中文作为语言的说话人。
以第一语种为中文和英文为例,则多个训练样本与中文和英文对应,此时,每个训练样本可以包括中文文本和中文文本的音频、或者英文文本和英文文本的音频,其中,中文文本和英文文本可以是训练样本中的第二训练文本,中文文本的音频和英文文本的音频可以是训练样本中的第二训练文本的样本音频。在一些实施例中,英文文本的音频可以是已获得用户授权使用的英文说话人根据英文说出的英文文本的语音,已获得用户授权使用的英文说话人可以是母语为英文的说话人,或者是能够将英文作为语言的说话人。关于中文文本的音频的具体细节可以参见前述相关描述,在此不再赘述。
步骤420,针对每个训练样本,获取第二训练文本的样本音素序列和样本音素序列对应的样本目标韵律信息,以及样本音频的样本音频特征。
在一些实施例中,样本音素序列可以是第二训练文本的音素组成的序列,第二训练文本的样本音素序列与待合成文本的音素序列的确定方式相同,具体可参见上述步骤210及其相关描述。
在一些实施例中,样本目标韵律信息是第二训练文本所属第一语种下的韵律信息,样本音素序列对应的样本目标韵律信息与音素序列对应的目标韵律信息的确定方式相同,具体可参见上述步骤210及其相关描述,在此不再赘述。
在一些实施例中,针对每个训练样本,可以通过人工根据该训练样本中的第二训练文本的样本音频,结合听感以及该样本音频的波形图和频谱,对第二训练文本进行音素标注和韵律标注,得到样本音素序列和样本目标韵律信息。在一些实施例中,样本音频特征可以是样本音频的真实特征,样本音频特征可以是梅尔谱特征。
步骤430,根据语音合成模型针对每个训练样本执行以下处理,以得到该训练样本对应的预测音频特征,处理包括:根据已获得用户授权使用的样本说话人在第一语种下的样本说话向量,确定样本音素序列中各个音素的发音时长,得到第一样本时长序列;对第一样本时长序列和样本说话向量进行处理,得到预测音频特征。
在一些实施例中,已获得用户授权使用的样本说话人在第一语种下的样本说话向量可以是该训练样本中的第二训练文本的样本音频的编码向量。例如,第二训练文本的样本音频为英文文本的音频,则已获得用户授权使用的样本说话人在英文语种下的样本说话向量为该英文文本的音频的编码向量。此时,已获得用户授权使用的样本说话人为已获得用户授权使用的英文说话人,语音合成模型通过该训练样本合成的是已获得用户授权使用的英文说话人根据英文说出的英文文本的语音,由此可知,该已获得用户授权使用的样本说话人为合成的语音同时提供节奏信息和音色信息。因此,在一些实施例中,已获得用户授权使用的样本说话人在第一语种下的样本说话向量可以反映已获得用户授权使用的样本说话人的音色信息。
如前所述,语音合成模型可以包括编码模型、音长预测模型以及解码模型。在一些实施例中,根据已获得用户授权使用的样本说话人在第一语种下的样本说话向量,确定样本音素序列中各个音素的发音时长,得到第一样本时长序列,包括:融合样本音素序列和样本目标韵律信息,得到样本目标音素序列;根据编码模型对样本目标音素序列进行编码,得到样本第一向量;根据音长预测模型对样本说话向量和样本第一向量进行处理,得到第一样本时长序列。关于得到第一样本时长序列的具体细节与得到目标时长序列相同,具体可参见上述步骤310和320及其相关描述,在此不再赘述。
在一些实施例中,对第一样本时长序列和样本说话向量进行处理,得到预测音频特征,包括:根据解码模型对第一样本时长序列和样本说话向量进行解码,得到预测音频特征。在一些实施例中,预测音频特征可以是预测得到的梅尔谱特征。
步骤440,根据第一样本时长序列和第二样本时长序列之间的差异,以及预测音频特征和样本音频特征之间的差异,得到语音合成模型的第二目标损失函数值;第二样本时长序列是样本音素序列中各个音素在样本音频中的发音时长。
在一些实施例中,第二样本时长序列可以是样本音素序列中各个音素在样本音频中的真实发音时长。在一些实施例中,可以通过强制对齐工具对样本音频和样本音素序列进行处理,得到样本音素序列中各个音素在样本音频中的发音时长,即得到第二样本时长序列。强制对齐工具可以根据实际情况具体确定,例如,强制对齐工具可以是语音识别工具包kaldi,本公开对此不作任何限制。
如前所述,发音时长为帧级别,音素序列为音素级别,则第一样本时长序列为帧级别,样本音素序列为音素级别,通过强制对齐工具为音素级别的样本音素序列中各个音素生成帧级别的发音时长,可以实现音素级别与帧级别的对齐。
在一些实施例中,可以根据第一样本时长序列和第二样本时长序列之间的差异,以及根据预测音频特征和样本音频特征之间的差异分别确定对应的损失函数值,例如,分别确定交叉熵损失函数值,并融合两者的损失函数值得到语音合成模型的第二目标损失函数值,该融合可以是指加权求平均处理。
步骤450,基于第二目标损失函数值迭代更新语音合成模型的参数,以减小第二目标损失函数值,直至得到训练好的语音合成模型。
在语音合成模型的训练过程中,可以不断地基于多个训练样本更新语音合成模型的参数。示例地,可以不断地调整语音合成模型的参数,以减小各个训练样本对应的第二目标损失函数值,使得第二目标损失函数值满足预设条件。例如,损失函数值收敛,或损失函数值小于预设值。当第二目标损失函数值满足预设条件时,模型训练完成,得到训练好的语音合成模型。在一些实施例中,可以通过Adam优化器对语音合成模型的训练过程进行优化,关于Adam优化器可以参见相关技术,在此不再赘述。
在本公开实施例中,语音合成模型采用与第一语种对应的多个训练样本进行训练得到,例如,语音合成模型采用已获得用户授权使用的中文说话人的音频和该音频的中文文本、以及已获得用户授权使用的英文说话人的音频及该音频的英文文本构成的训练样本进行训练得到,由此可知,语音合成模型的训练数据并没有已获得用户授权使用的非说话人所属语种的数据。在语音合成模型的应用阶段,通过将语音从多个维度进行分解,得到表征发音信息、韵律信息、节奏信息以及音色信息的标签解耦信息,并通过该标签解耦信息有效解决了跨语种语音合成的问题。
在一些实施例中,待合成文本所属的第一语种包括多个,在第一语种为多个的情况下,可以通过目标韵律预测模型得到该待合成文本的目标韵律信息。参考图5,图5是根据本公开一示例性实施例示出的得到目标韵律信息的方法的流程图。如图5所示,该方法可以包括以下步骤。
步骤510,提取待合成文本中每个第一语种的文本的音素,得到音素序列。
示例地,以待合成文本为前述“你好seattle”为例,则第一语种包括多个,第一语种的文本包括中文文本“你好”和英文文本“seattle”,进而可以分别提取“你好”和“seattle”的音素,并拼接各自的音素得到音素序列,关于提取对应第一语种的文本的音素的方式与前述步骤210类似,具体可参见前述步骤210及其相关描述,在此不再赘述。
步骤520,根据训练好的目标韵律预测模型对待合成文本进行处理,得到与每个第一语种对应的韵律预测模型输出的在该第一语种下的待合成文本的韵律信息;目标韵律预测模型包括与每个第一语种对应的韵律预测模型。
示例地,仍以前述待合成文本为“你好seattle”为例,则目标韵律预测模型可以包括中文韵律预测模型和英文韵律预测模型,根据目标韵律预测模型对待合成文本“你好seattle”进行处理,可以得到中文韵律预测模型对该待合成文本输出的中文语种下的韵律信息,以及英文韵律预测模型对该待合成文本输出的英文语种下的韵律信息。关于目标韵律预测模型的训练方法的具体细节可以参见下述图6及其相关描述,在此不再赘述。
步骤530,在每个第一语种下的待合成文本的韵律信息中,提取待合成文本中每个第一语种的文本的韵律信息,得到待合成文本的初始韵律信息。
示例地,仍以前述示例为例,则待合成文本中的第一语种的文本包括中文文本“你好”和英文文本“seattle”,可以在中文韵律预测模型对待合成文本输出的中文语种下的韵律信息中提取“你好”的韵律信息,在英文韵律预测模型对该待合成文本输出的英文语种下的韵律信息中提取“seattle”的韵律信息,拼接得到待合成文本的初始韵律信息。
在一些实施例中,第一语种的文本包括中文文本和非中文文本,在得到待合成文本的初始韵律信息之后,所述语音合成方法还包括:在非中文文本后为中文文本的情况下,将待合成文本的初始韵律信息中与该非中文文本对应的边界调确定为降调。可以理解的,当第一语种的文本包括中文文本和非中文文本,待合成文本为混语文本。
示例地,以非中文为英文为例,则在待合成文本中的英文文本后为中文文本的情况下,将初始韵律信息中与该英文文本对应的边界调确定为降调,在待合成文本中的英文文本后仍为英文文本的情况下,不对初始韵律信息进行调整。通过在非中文文本后为中文文本的情况下,将待合成文本的初始韵律信息中与该非中文文本对应的边界调确定为降调,使得混语文本中不同语种文本的韵律衔接的更自然,进而在待合成文本为混语文本的情况下,使得待合成文本合成的语音的韵律更自然。
步骤540,基于音素序列将初始韵律信息扩展至对应的音素级别,得到音素序列对应的目标韵律信息。
在一些实施例中,初始韵律信息为文本级别,基于音素序列将初始韵律信息扩展至对应的音素级别可以是指将初始韵律信息和音素序列进行粒度对齐。在一些实施例中,可以将相同的语种文本的初始韵律信息与音素序列中该语种文本对应的音素进行粒度对齐。例如,将中文文本“你好”对应的初始韵律信息与中文文本“你好”在音素序列中对应的音素进行粒度对齐。关于扩展至音素级别的具体细节可以参见上述步骤210及其相关描述,在此不再赘述。
在一些实施例中,在第一语种为一个的情况下,可以通过目标韵律预测模型中与该第一语种对应的韵律预测模型对待合成文本进行处理,输出待合成文本的初始韵律信息。例如,待合成文本为中文文本,则可以通过目标韵律预测模型中的中文韵律预测模型得到该中文文本的初始韵律信息。
图6是根据本公开一示例性实施例示出的训练目标韵律预测模型的方法的流程图。如图6所示,该方法可以包括以下步骤。
步骤610,获取多个第一语种中每个对应的第一训练文本,第一训练文本包括用于表征第一训练文本的韵律信息的标签。
在一些实施例中,标签可以用于表征第一训练文本的某种真实信息。在一些实施例中,标签可以用于表征第一训练文本的韵律信息,关于韵律信息的具体细节可以参见上述步骤210及其相关描述,在此不再赘述。示例地,仍以第一语种为中文和英文为例,则多个第一训练文本可以包括中文文本和英文文本,该中文文本和英文文本分别包括用于表征各自的文本的韵律信息的标签。
步骤620,针对每个第一语种对应的第一训练文本,根据该第一语种对应的韵律预测模型对第一训练文本的向量进行处理,得到第一训练文本的预测韵律信息;以及根据预测韵律信息和第一标签的差异,得到与该第一语种对应的韵律预测模型的损失函数值。
在一些实施例中,第一训练文本的向量可以通过文本编码模型对第一训练文本进行编码得到,文本编码模型可以包括BERT模型或Transformer模型等。在一些实施例中,韵律预测模型可以是卷积神经网络或长短期记忆模型等。
在一些实施例中,与第一语种对应的韵律预测模型的损失函数值可以根据实际情况具体确定,例如,可以是基于预测韵律信息和第一标签得到的交叉熵损失函数值。示例地,仍以前述第一语种为中文和英文为例,则针对中文文本,可以根据中文韵律预测模型对中文文本的向量进行处理,得到该中文文本的预测韵律信息,以及根据该中文文本的预测韵律信息和该中文文本的第一标签,得到中文韵律预测模型的损失函数值;针对英文文本,根据英文韵律预测模型对英文文本的向量进行处理,得到该英文文本的预测韵律信息,以及根据该英文文本的预测韵律信息和该英文文本的第一标签,得到英文韵律预测模型的损失函数值。
步骤630,根据每个第一语种对应的韵律预测模型的损失函数值,确定目标韵律预测模型的第一目标损失函数值。
在一些实施例中,可以融合每个第一语种对应的韵律预测模型的损失函数值得到第一目标损失函数值,融合可以是指加权求平均处理。示例地,仍以前述示例为例,则可以对中文韵律预测模型的损失函数值和英文韵律预测模型的损失函数值进行加权求平均,得到第一目标损失函数值。
步骤640,基于第一目标损失函数值迭代更新目标韵律预测模型的参数,以减小第一目标损失函数值,直至得到训练好的目标韵律预测模型。
在目标韵律预测模型的训练过程中,可以不断地基于多个第一训练文本更新目标韵律预测模型的参数。示例地,可以不断地调整目标韵律预测模型的参数(即调整与每个第一语种对应的韵律预测模型的参数),以减小各个第一训练文本对应的第一目标损失函数值,使得第一目标损失函数值满足预设条件。例如,损失函数值收敛,或损失函数值小于预设值。当第一目标损失函数值满足预设条件时,模型训练完成,得到训练好的目标韵律预测模型。在一些实施例中,可以通过Adam优化器对目标韵律预测模型的训练过程进行优化,关于Adam优化器可以参见相关技术,在此不再赘述。
在本公开实施例中,针对不同第一语种分别构建韵律预测模型,使得最终生成的目标韵律模型可以实现不同语种文本的韵律预测,保证预测的韵律信息的准确性,进一步提高合成的语音的韵律自然度。
图7是根据本公开一示例性实施例示出的语音合成装置的框图。如图7所示,该装置700包括:
获取模块710,被配置为获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;
合成模块720,被配置为根据所述音素序列、所述目标韵律信息、已获得用户授权使用的第一说话人在所述第一语种下的说话向量以及已获得用户授权使用的第二说话人的音色向量,合成目标语音,所述目标语音表征所述已获得用户授权使用的第二说话人根据所述第一语种说出所述待合成文本的语音。
在一些实施例中,合成模块720进一步被配置为:
根据所述已获得用户授权使用的第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列;
根据所述目标时长序列和所述已获得用户授权使用的第二说话人的所述音色向量,得到音频特征;
根据声学模型对所述音频特征进行处理,合成所述目标语音。
在一些实施例中,所述第一语种包括多个,所述获取模块710进一步被配置为:
提取所述待合成文本中每个所述第一语种的文本的音素,得到所述音素序列;
根据训练好的目标韵律预测模型对所述待合成文本进行处理,得到与每个所述第一语种对应的韵律预测模型输出的在该第一语种下的所述待合成文本的韵律信息;所述目标韵律预测模型包括与每个所述第一语种对应的韵律预测模型;
在每个所述第一语种下的所述待合成文本的韵律信息中,提取所述待合成文本中每个所述第一语种的文本的韵律信息,得到所述待合成文本的初始韵律信息;
基于所述音素序列将所述初始韵律信息扩展至对应的音素级别,得到所述音素序列对应的所述目标韵律信息。
在一些实施例中,所述目标韵律预测模型基于如下方式训练得到:
获取多个所述第一语种中每个对应的第一训练文本,所述第一训练文本包括用于表征所述第一训练文本的韵律信息的标签;
针对每个所述第一语种对应的所述第一训练文本,根据该第一语种对应的韵律预测模型对所述第一训练文本的向量进行处理,得到所述第一训练文本的预测韵律信息;以及根据所述预测韵律信息和所述第一标签的差异,得到与该第一语种对应的韵律预测模型的损失函数值;
根据每个所述第一语种对应的所述韵律预测模型的所述损失函数值,确定所述目标韵律预测模型的第一目标损失函数值;
基于所述第一目标损失函数值迭代更新所述目标韵律预测模型的参数,以减小所述第一目标损失函数值,直至得到训练好的所述目标韵律预测模型。
在一些实施例中,所述第一语种的文本包括中文文本和非中文文本,所述合成模块720进一步被配置为:在所述非中文文本后为所述中文文本的情况下,将所述待合成文本的初始韵律信息中与该非中文文本对应的边界调确定为降调。
在一些实施例中,所述合成模块720进一步被配置为:根据训练好的语音合成模型执行所述根据所述已获得用户授权使用的第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列至得到音频特征的步骤;
训练好的所述语音合成模型包括编码模型和音长预测模型,所述合成模块720进一步被配置为:
融合所述音素序列和所述目标韵律信息,得到目标音素序列;
根据所述编码模型对所述目标音素序列进行编码,得到第一向量;
根据所述音长预测模型对所述说话向量和所述第一向量进行处理,得到所述目标时长序列。
在一些实施例中,训练好的所述语音合成模型还包括解码模型,所述合成模块720进一步被配置为:
根据所述解码模型对所述目标时长序列和所述音色向量进行解码,得到所述音频特征。
在一些实施例中,训练好的所述语音合成模型基于如下方法得到:
获取与所述第一语种对应的多个训练样本,每个所述训练样本包括第二训练文本和所述第二训练文本的样本音频;
针对每个所述训练样本,获取所述第二训练文本的样本音素序列和所述样本音素序列对应的样本目标韵律信息,以及所述样本音频的样本音频特征;
根据语音合成模型针对每个所述训练样本执行以下处理,以得到该训练样本对应的预测音频特征,所述处理包括:
根据已获得用户授权使用的样本说话人在所述第一语种下的样本说话向量,确定所述样本音素序列中各个音素的发音时长,得到第一样本时长序列;
对所述第一样本时长序列和所述样本说话向量进行处理,得到所述预测音频特征;
根据所述第一样本时长序列和所述第二样本时长序列之间的差异,以及所述预测音频特征和所述样本音频特征之间的差异,得到语音合成模型的第二目标损失函数值;所述第二样本时长序列是所述样本音素序列中各个音素在所述样本音频中的发音时长;
基于所述第二目标损失函数值迭代更新所述语音合成模型的参数,以减小所述第二目标损失函数值,直至得到训练好的语音合成模型。
下面参考图8,其示出了适于用来实现本公开实施例的电子设备(例如图1中的终端设备或服务器)800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;根据所述音素序列、所述目标韵律信息、已获得用户授权使用的第一说话人在所述第一语种下的说话向量以及已获得用户授权使用的第二说话人的音色向量,合成目标语音,所述目标语音表征所述已获得用户授权使用的第二说话人根据所述第一语种说出所述待合成文本的语音。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种语音合成方法,包括:
获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;
根据所述音素序列、所述目标韵律信息、已获得用户授权使用的第一说话人在所述第一语种下的说话向量以及已获得用户授权使用的第二说话人的音色向量,合成目标语音,所述目标语音表征所述已获得用户授权使用的第二说话人根据所述第一语种说出所述待合成文本的语音。
根据本公开的一个或多个实施例,示例2提供了示例1的语音合成方法,所述根据所述音素序列、所述目标韵律信息、已获得用户授权使用的第一说话人在所述第一语种下的说话向量以及已获得用户授权使用的第二说话人的音色向量,合成目标语音,包括:
根据所述已获得用户授权使用的第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列;
根据所述目标时长序列和所述已获得用户授权使用的第二说话人的所述音色向量,得到音频特征;
根据声学模型对所述音频特征进行处理,合成所述目标语音。
根据本公开的一个或多个实施例,示例3提供了示例1的语音合成方法,所述第一语种包括多个,所述获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,包括:
提取所述待合成文本中每个所述第一语种的文本的音素,得到所述音素序列;
根据训练好的目标韵律预测模型对所述待合成文本进行处理,得到与每个所述第一语种对应的韵律预测模型输出的在该第一语种下的所述待合成文本的韵律信息;所述目标韵律预测模型包括与每个所述第一语种对应的韵律预测模型;
在每个所述第一语种下的所述待合成文本的韵律信息中,提取所述待合成文本中每个所述第一语种的文本的韵律信息,得到所述待合成文本的初始韵律信息;
基于所述音素序列将所述初始韵律信息扩展至对应的音素级别,得到所述音素序列对应的所述目标韵律信息。
根据本公开的一个或多个实施例,示例4提供了示例3的语音合成方法,所述目标韵律预测模型基于如下方式训练得到:
获取多个所述第一语种中每个对应的第一训练文本,所述第一训练文本包括用于表征所述第一训练文本的韵律信息的标签;
针对每个所述第一语种对应的所述第一训练文本,根据该第一语种对应的韵律预测模型对所述第一训练文本的向量进行处理,得到所述第一训练文本的预测韵律信息;以及根据所述预测韵律信息和所述第一标签的差异,得到与该第一语种对应的韵律预测模型的损失函数值;
根据每个所述第一语种对应的所述韵律预测模型的所述损失函数值,确定所述目标韵律预测模型的第一目标损失函数值;
基于所述第一目标损失函数值迭代更新所述目标韵律预测模型的参数,以减小所述第一目标损失函数值,直至得到训练好的所述目标韵律预测模型。
根据本公开的一个或多个实施例,示例5提供了示例3的语音合成方法,所述第一语种的文本包括中文文本和非中文文本,在所述得到所述待合成文本的初始韵律信息之后,所述方法还包括:
在所述非中文文本后为所述中文文本的情况下,将所述待合成文本的初始韵律信息中与该非中文文本对应的边界调确定为降调。
根据本公开的一个或多个实施例,示例6提供了示例2的语音合成方法,根据训练好的语音合成模型执行所述根据所述已获得用户授权使用的第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列至得到音频特征的步骤;
训练好的所述语音合成模型包括编码模型和音长预测模型,所述根据所述已获得用户授权使用的第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列,包括:
融合所述音素序列和所述目标韵律信息,得到目标音素序列;
根据所述编码模型对所述目标音素序列进行编码,得到第一向量;
根据所述音长预测模型对所述说话向量和所述第一向量进行处理,得到所述目标时长序列。
根据本公开的一个或多个实施例,示例7提供了示例6的语音合成方法,训练好的所述语音合成模型还包括解码模型,所述根据所述目标时长序列和所述已获得用户授权使用的第二说话人的所述音色向量,得到音频特征,包括:
根据所述解码模型对所述目标时长序列和所述音色向量进行解码,得到所述音频特征。
根据本公开的一个或多个实施例,示例8提供了示例6的语音合成方法,训练好的所述语音合成模型基于如下方法得到:
获取与所述第一语种对应的多个训练样本,每个所述训练样本包括第二训练文本和所述第二训练文本的样本音频;
针对每个所述训练样本,获取所述第二训练文本的样本音素序列和所述样本音素序列对应的样本目标韵律信息,以及所述样本音频的样本音频特征;
根据语音合成模型针对每个所述训练样本执行以下处理,以得到该训练样本对应的预测音频特征,所述处理包括:
根据已获得用户授权使用的样本说话人在所述第一语种下的样本说话向量,确定所述样本音素序列中各个音素的发音时长,得到第一样本时长序列;
对所述第一样本时长序列和所述样本说话向量进行处理,得到所述预测音频特征;
根据所述第一样本时长序列和所述第二样本时长序列之间的差异,以及所述预测音频特征和所述样本音频特征之间的差异,得到语音合成模型的第二目标损失函数值;所述第二样本时长序列是所述样本音素序列中各个音素在所述样本音频中的发音时长;
基于所述第二目标损失函数值迭代更新所述语音合成模型的参数,以减小所述第二目标损失函数值,直至得到训练好的语音合成模型。
根据本公开的一个或多个实施例,示例9提供了一种语音合成装置,包括:
获取模块,被配置为获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;
合成模块,被配置为根据所述音素序列、所述目标韵律信息、已获得用户授权使用的第一说话人在所述第一语种下的说话向量以及已获得用户授权使用的第二说话人的音色向量,合成目标语音,所述目标语音表征所述已获得用户授权使用的第二说话人根据所述第一语种说出所述待合成文本的语音。
根据本公开的一个或多个实施例,示例10提供了示例9的语音合成装置,所述合成模块进一步被配置为:
根据所述已获得用户授权使用的第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列;
根据所述目标时长序列和所述已获得用户授权使用的第二说话人的所述音色向量,得到音频特征;
根据声学模型对所述音频特征进行处理,合成所述目标语音。
根据本公开的一个或多个实施例,示例11提供了示例9的语音合成装置,所述第一语种包括多个,所述获取模块进一步被配置为:
提取所述待合成文本中每个所述第一语种的文本的音素,得到所述音素序列;
根据训练好的目标韵律预测模型对所述待合成文本进行处理,得到与每个所述第一语种对应的韵律预测模型输出的在该第一语种下的所述待合成文本的韵律信息;所述目标韵律预测模型包括与每个所述第一语种对应的韵律预测模型;
在每个所述第一语种下的所述待合成文本的韵律信息中,提取所述待合成文本中每个所述第一语种的文本的韵律信息,得到所述待合成文本的初始韵律信息;
基于所述音素序列将所述初始韵律信息扩展至对应的音素级别,得到所述音素序列对应的所述目标韵律信息。
根据本公开的一个或多个实施例,示例12提供了示例11的语音合成装置,所述目标韵律预测模型基于如下方式训练得到:
获取多个所述第一语种中每个对应的第一训练文本,所述第一训练文本包括用于表征所述第一训练文本的韵律信息的标签;
针对每个所述第一语种对应的所述第一训练文本,根据该第一语种对应的韵律预测模型对所述第一训练文本的向量进行处理,得到所述第一训练文本的预测韵律信息;以及根据所述预测韵律信息和所述第一标签的差异,得到与该第一语种对应的韵律预测模型的损失函数值;
根据每个所述第一语种对应的所述韵律预测模型的所述损失函数值,确定所述目标韵律预测模型的第一目标损失函数值;
基于所述第一目标损失函数值迭代更新所述目标韵律预测模型的参数,以减小所述第一目标损失函数值,直至得到训练好的所述目标韵律预测模型。
根据本公开的一个或多个实施例,示例13提供了示例11的语音合成装置,所述第一语种的文本包括中文文本和非中文文本,所述合成模块进一步被配置为:在所述非中文文本后为所述中文文本的情况下,将所述待合成文本的初始韵律信息中与该非中文文本对应的边界调确定为降调。
根据本公开的一个或多个实施例,示例14提供了示例10的语音合成装置,所述合成模块进一步被配置为:根据训练好的语音合成模型执行所述根据所述已获得用户授权使用的第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列至得到音频特征的步骤;
训练好的所述语音合成模型包括编码模型和音长预测模型,所述合成模块进一步被配置为:
融合所述音素序列和所述目标韵律信息,得到目标音素序列;
根据所述编码模型对所述目标音素序列进行编码,得到第一向量;
根据所述音长预测模型对所述说话向量和所述第一向量进行处理,得到所述目标时长序列。
根据本公开的一个或多个实施例,示例15提供了示例14的语音合成装置,训练好的所述语音合成模型还包括解码模型,所述合成模块进一步被配置为:
根据所述解码模型对所述目标时长序列和所述音色向量进行解码,得到所述音频特征。
根据本公开的一个或多个实施例,示例16提供了示例14的语音合成装置,训练好的所述语音合成模型基于如下方法得到:
获取与所述第一语种对应的多个训练样本,每个所述训练样本包括第二训练文本和所述第二训练文本的样本音频;
针对每个所述训练样本,获取所述第二训练文本的样本音素序列和所述样本音素序列对应的样本目标韵律信息,以及所述样本音频的样本音频特征;
根据语音合成模型针对每个所述训练样本执行以下处理,以得到该训练样本对应的预测音频特征,所述处理包括:
根据已获得用户授权使用的样本说话人在所述第一语种下的样本说话向量,确定所述样本音素序列中各个音素的发音时长,得到第一样本时长序列;
对所述第一样本时长序列和所述样本说话向量进行处理,得到所述预测音频特征;
根据所述第一样本时长序列和所述第二样本时长序列之间的差异,以及所述预测音频特征和所述样本音频特征之间的差异,得到语音合成模型的第二目标损失函数值;所述第二样本时长序列是所述样本音素序列中各个音素在所述样本音频中的发音时长;
基于所述第二目标损失函数值迭代更新所述语音合成模型的参数,以减小所述第二目标损失函数值,直至得到训练好的语音合成模型。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (11)

1.一种语音合成方法,其特征在于,包括:
获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;
根据所述音素序列、所述目标韵律信息、第一说话人在所述第一语种下的说话向量以及第二说话人的音色向量,合成目标语音,所述目标语音表征所述第二说话人根据所述第一语种说出所述待合成文本的语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述音素序列、所述目标韵律信息、第一说话人在所述第一语种下的说话向量以及第二说话人的音色向量,合成目标语音,包括:
根据所述第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列;
根据所述目标时长序列和所述第二说话人的所述音色向量,得到音频特征;
根据声学模型对所述音频特征进行处理,合成所述目标语音。
3.根据权利要求1所述的语音合成方法,其特征在于,所述第一语种包括多个,所述获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,包括:
提取所述待合成文本中每个所述第一语种的文本的音素,得到所述音素序列;
根据训练好的目标韵律预测模型对所述待合成文本进行处理,得到与每个所述第一语种对应的韵律预测模型输出的在该第一语种下的所述待合成文本的韵律信息;所述目标韵律预测模型包括与每个所述第一语种对应的韵律预测模型;
在每个所述第一语种下的所述待合成文本的韵律信息中,提取所述待合成文本中每个所述第一语种的文本的韵律信息,得到所述待合成文本的初始韵律信息;
基于所述音素序列将所述初始韵律信息扩展至对应的音素级别,得到所述音素序列对应的所述目标韵律信息。
4.根据权利要求3所述的语音合成方法,其特征在于,所述目标韵律预测模型基于如下方式训练得到:
获取多个所述第一语种中每个对应的第一训练文本,所述第一训练文本包括用于表征所述第一训练文本的韵律信息的标签;
针对每个所述第一语种对应的所述第一训练文本,根据该第一语种对应的韵律预测模型对所述第一训练文本的向量进行处理,得到所述第一训练文本的预测韵律信息;以及根据所述预测韵律信息和所述第一标签的差异,得到与该第一语种对应的韵律预测模型的损失函数值;
根据每个所述第一语种对应的所述韵律预测模型的所述损失函数值,确定所述目标韵律预测模型的第一目标损失函数值;
基于所述第一目标损失函数值迭代更新所述目标韵律预测模型的参数,以减小所述第一目标损失函数值,直至得到训练好的所述目标韵律预测模型。
5.根据权利要求3所述的语音合成方法,其特征在于,所述第一语种的文本包括中文文本和非中文文本,在所述得到所述待合成文本的初始韵律信息之后,所述方法还包括:
在所述非中文文本后为所述中文文本的情况下,将所述待合成文本的初始韵律信息中与该非中文文本对应的边界调确定为降调。
6.根据权利要求2所述的语音合成方法,其特征在于,根据训练好的语音合成模型执行所述根据所述第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列至得到音频特征的步骤;
训练好的所述语音合成模型包括编码模型和音长预测模型,所述根据所述第一说话人在所述第一语种下的所述说话向量,确定所述音素序列中每个音素的时长,得到目标时长序列,包括:
融合所述音素序列和所述目标韵律信息,得到目标音素序列;
根据所述编码模型对所述目标音素序列进行编码,得到第一向量;
根据所述音长预测模型对所述说话向量和所述第一向量进行处理,得到所述目标时长序列。
7.根据权利要求6所述的语音合成方法,其特征在于,训练好的所述语音合成模型还包括解码模型,所述根据所述目标时长序列和所述第二说话人的所述音色向量,得到音频特征,包括:
根据所述解码模型对所述目标时长序列和所述音色向量进行解码,得到所述音频特征。
8.根据权利要求6所述的语音合成方法,其特征在于,训练好的所述语音合成模型基于如下方法得到:
获取与所述第一语种对应的多个训练样本,每个所述训练样本包括第二训练文本和所述第二训练文本的样本音频;
针对每个所述训练样本,获取所述第二训练文本的样本音素序列和所述样本音素序列对应的样本目标韵律信息,以及所述样本音频的样本音频特征;
根据语音合成模型针对每个所述训练样本执行以下处理,以得到该训练样本对应的预测音频特征,所述处理包括:
根据样本说话人在所述第一语种下的样本说话向量,确定所述样本音素序列中各个音素的发音时长,得到第一样本时长序列;
对所述第一样本时长序列和所述样本说话向量进行处理,得到所述预测音频特征;
根据所述第一样本时长序列和所述第二样本时长序列之间的差异,以及所述预测音频特征和所述样本音频特征之间的差异,得到语音合成模型的第二目标损失函数值;所述第二样本时长序列是所述样本音素序列中各个音素在所述样本音频中的发音时长;
基于所述第二目标损失函数值迭代更新所述语音合成模型的参数,以减小所述第二目标损失函数值,直至得到训练好的语音合成模型。
9.一种语音合成装置,其特征在于,包括:
获取模块,被配置为获取待合成文本的音素序列以及所述音素序列对应的目标韵律信息,所述目标韵律信息是在所述待合成文本所属的第一语种下的韵律信息;
合成模块,被配置为根据所述音素序列、所述目标韵律信息、第一说话人在所述第一语种下的说话向量以及第二说话人的音色向量,合成目标语音,所述目标语音表征所述第二说话人根据所述第一语种说出所述待合成文本的语音。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储装置,其上存储有至少一个计算机程序;
至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202210108033.2A 2022-01-28 2022-01-28 语音合成方法、装置、介质以及电子设备 Pending CN114242035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210108033.2A CN114242035A (zh) 2022-01-28 2022-01-28 语音合成方法、装置、介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210108033.2A CN114242035A (zh) 2022-01-28 2022-01-28 语音合成方法、装置、介质以及电子设备

Publications (1)

Publication Number Publication Date
CN114242035A true CN114242035A (zh) 2022-03-25

Family

ID=80747436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210108033.2A Pending CN114242035A (zh) 2022-01-28 2022-01-28 语音合成方法、装置、介质以及电子设备

Country Status (1)

Country Link
CN (1) CN114242035A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117995209A (zh) * 2024-03-28 2024-05-07 荣耀终端有限公司 一种语音转换方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117995209A (zh) * 2024-03-28 2024-05-07 荣耀终端有限公司 一种语音转换方法及相关设备

Similar Documents

Publication Publication Date Title
CN111402855B (zh) 语音合成方法、装置、存储介质和电子设备
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
CN111583900B (zh) 歌曲合成方法、装置、可读介质及电子设备
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN112786006B (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
JP2022534764A (ja) 多言語音声合成およびクロスランゲージボイスクローニング
CN111369971B (zh) 语音合成方法、装置、存储介质和电子设备
CN111292720A (zh) 语音合成方法、装置、计算机可读介质及电子设备
CN112309366B (zh) 语音合成方法、装置、存储介质及电子设备
CN112331176B (zh) 语音合成方法、装置、存储介质及电子设备
CN112786007A (zh) 语音合成方法、装置、可读介质及电子设备
GB2557714A (en) Determining phonetic relationships
CN111292719A (zh) 语音合成方法、装置、计算机可读介质及电子设备
CN112771607A (zh) 电子设备及其控制方法
CN112786011A (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
CN111916053B (zh) 语音生成方法、装置、设备和计算机可读介质
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
CN113327580A (zh) 语音合成方法、装置、可读介质及电子设备
CN112786008A (zh) 语音合成方法、装置、可读介质及电子设备
CN112309367B (zh) 语音合成方法、装置、存储介质及电子设备
CN112927674A (zh) 语音风格的迁移方法、装置、可读介质和电子设备
WO2023160553A1 (zh) 语音合成方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination