CN115938341A - 语音合成方法、装置、电子设备及存储介质 - Google Patents

语音合成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115938341A
CN115938341A CN202211713844.1A CN202211713844A CN115938341A CN 115938341 A CN115938341 A CN 115938341A CN 202211713844 A CN202211713844 A CN 202211713844A CN 115938341 A CN115938341 A CN 115938341A
Authority
CN
China
Prior art keywords
dialect
prosodic
continuous reading
boundary
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211713844.1A
Other languages
English (en)
Inventor
袁钦为
张校
高丽
祖漪清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202211713844.1A priority Critical patent/CN115938341A/zh
Publication of CN115938341A publication Critical patent/CN115938341A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取目标文本;对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;获取所述目标文本对应的方言声韵调,并基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音。本发明实施例提供的语音合成方法、装置、电子设备及存储介质可以提高语音合成的准确性和可懂度。

Description

语音合成方法、装置、电子设备及存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音合成方法、装置、电子设备及存储介质。
背景技术
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。其中,方言语音合成属于一种特殊的语音合成技术。
目前,方言语音合成系统中主要是以方言文本作为输入进行语音合成。然而,由于大部分南方方言,如上海话、闽南话等缺少统一的文字系统,使得方言语音合成系统的推广变得困难。并且普通话文本与方言文本之间又存在一定的差异,使得使用普通话文本合成的方言语音的可懂度和自然度大大降低。因此,在以普通话文本作为输入的方言语音合成系统中,韵律自然度和发音准确性成为了两个主要瓶颈。基于此,为了提高方言语音合成的准确性,在现有方言语音合成系统中,通常将普通话韵律词作为方言连读变调边界进行预测,以此通过分词算法来构建其连读变调边界预测模型,从而得到更加准确的方言语音。
然而,上述将普通话韵律词边界与方言连读变调边界定义为相同语义单元会造成部分特例词的连读变调边界判断错误,如常见的普通话韵律词“我是”,其上海话对应文本“吾是”的连读变调边界为“吾/是”,而在当前的技术方案中会将“我是”二字划分为同一连读变调单元,由此造成了前端文本的声调错误,进而降低了该方言语音合成的准确性和可懂度。
发明内容
本发明提供一种语音合成方法、装置、电子设备及存储介质,用以解决现有技术中方言语音合成的准确性较低的缺陷,实现了提高方言语音合成的准确性以及可懂度的目的。
本发明提供一种语音合成方法,包括:
获取目标文本;
对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;
基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;
获取所述目标文本对应的方言声韵调,并基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;
基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音。
根据本发明提供的一种语音合成方法,所述对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息,包括:
将所述目标文本输入韵律预测模型的编码层,得到所述目标文本中每个字符的第一特征信息;
将所述每个字符的第一特征信息输入所述韵律预测模型的解码层,得到每个所述字符的边界为韵律边界的第一概率;
基于每个所述字符的边界为韵律边界的第一概率,确定所述目标文本的韵律边界信息。
根据本发明提供的一种语音合成方法,所述基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,包括:
基于所述方言声韵调,确定各所述韵律词对应的方言音节数量;
基于所述方言声韵调、所述目标文本中每个字符的第一特征信息、各所述韵律词对应的方言音节数量和各所述韵律词对应的普通话音节数量,确定各所述韵律词的方言连读变调模式。
根据本发明提供的一种语音合成方法,所述基于所述方言声韵调、所述目标文本中每个字符的第一特征信息、各所述韵律词对应的方言音节数量和各所述韵律词对应的普通话音节数量,确定各所述韵律词的方言连读变调模式,包括:
将所述各字符的第一特征信息和各所述韵律词对应的普通话音节数量输入连读变调模式预测模型的编码层,得到各所述韵律词的语义特征信息;
将所述方言声韵调输入所述编码层,得到方言中各字符对应的第二特征信息,并基于各所述第二特征信息和各所述韵律词对应的方言音节数量,确定各所述韵律词的方言声韵调特征信息;
基于各所述韵律词的语义特征信息和对应的方言声韵调特征信息,确定目标特征信息;
将所述目标特征信息输入所述连读变调模式预测模型的解码层,得到各所述韵律词为每个连读变调模式的第二概率;
基于各所述韵律词为每个连读变调模式的第二概率,确定各所述韵律词的方言连读变调模式。
根据本发明提供的一种语音合成方法,所述韵律预测模型为基于如下方式训练得到的:
获取至少两个文本样本,各所述文本样本中包括韵律层级标注信息;
基于所述韵律层级标注信息,确定韵律边界标签;
将各所述文本样本输入初始韵律预测模型中,得到各所述文本样本对应的预测韵律边界;
基于所述预测韵律边界和所述韵律边界标签,对所述初始韵律预测模型进行迭代训练,得到所述韵律预测模型。
根据本发明提供的一种语音合成方法,所述连读变调模式预测模型为基于如下方式训练得到的:
获取各所述文本样本对应的方言音频,所述方言音频中包括方言的声韵调标注信息;
针对各方言音频对应的声韵调标注信息,基于所述声韵调标注信息,确定各所述韵律词样本的连读变调模式标签,所述连读变调模式标签用于指示每个韵律词样本中的连读变调边界;
针对每个文本样本,获取所述文本样本中每个字符的第三特征信息;
将每个字符的第三特征信息、所述文本样本中各韵律词样本对应的方言音节数量、所述文本样本中各韵律词样本对应的普通话音节数量和所述文本样本对应的方言的声韵调标注信息输入所述初始连读变调模式预测模型中,得到所述文本样本中各所述韵律词样本的预测连读变调模式;
基于所述预测连读变调模式和所述连读变调模式标签,对所述初始连读变调模式预测模型进行迭代训练,得到所述连读变调模式预测模型。
根据本发明提供的一种语音合成方法,所述基于所述声韵调标注信息,确定各所述韵律词样本的连读变调模式标签,包括:
基于所述声韵调标注信息,确定方言对应的连读变调边界,以及对应文本样本中各韵律词样本对应的方言音节数量;
基于所述连读变调边界和各所述韵律词样本对应的方言音节数量,确定各所述韵律词样本的连读变调模式标签。
本发明还提供一种语音合成装置,包括:
获取模块,用于获取目标文本;
预测模块,用于对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;
确定模块,用于基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;
所述获取模块,还用于获取所述目标文本对应的方言声韵调;
所述确定模块,还用于基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;
合成模块,用于基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音合成方法。
本发明还提供一种电子设备,包括扬声器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于获取目标文本;对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;获取所述目标文本对应的方言声韵调,并基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音;
所述扬声器用于播放所述方言语音。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音合成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法。
本发明提供的语音合成方法、装置、电子设备及存储介质,通过对获取的目标文本进行韵律层级预测,得到目标文本的韵律边界信息,并基于该韵律边界信息中的韵律词边界,确定目标文本中的各韵律词。然后,再获取目标文本对应的方言声韵调,以基于该方言声韵调确定各韵律词对应的方言连读变调模式,并基于韵律边界信息和方言连读变调模式,合成目标文本对应的方言语音。其中,方言连读变调模式用于指示各韵律词中的连读变调边界。由此可见,本发明实施例以目标文本中单个韵律词为单位,通过目标文本对应的方言声韵调,确定出每个韵律词所对应的方言连读变调模式,以此来避免将普通话韵律词边界与方言连读变调边界定义为相同语义单元而导致的部分特例词的连读变调边界错误的问题,提高了目标文本对应的方言连读变调的准确性,进而提高了方言语音合成的准确性和可懂度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音合成方法的流程示意图之一;
图2是本发明实施例提供的语音合成方法的流程示意图之二;
图3是本发明实施例提供的韵律预测模型的结构示意图;
图4是本发明实施例提供的语音合成方法的流程示意图之三;
图5是本发明实施例提供的连读变调模式预测模型的结构示意图;
图6是本发明实施例提供的语音合成装置的结构示意图;
图7是本发明提供的电子设备的结构示意图之一;
图8是本发明提供的电子设备的结构示意图之二。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着科技的不断发展,用户对语音合成质量的要求也越来越高。其中,语音的连读变调是影响语音合成质量高低的重要因素之一,该连读变调是指在方言语流中两个及以上的音节受到前后音节的影响而产生声调的变化。这种现象在汉语南方方言中较为常见,如上海话、闽南语等,其对于合成后的方言语音的自然度以及可懂度都有着极其重要的影响。
具体地,在对普通话文本进行连读变调边界预测时,需要先构建韵律词分词模型,即首先收集大量的普通话文本,以人工标注的方式获取到普通话文本的韵律词边界,并将该人工标注的韵律词边界作为普通话文本的标注数据,以在确定该标注韵律词没有歧义的情况下,将该韵律词计入发音词典中该词的频率中,进而通过方言单字字典,查找出该韵律词的单字发音,并按照已知的变调规则进行声调变换,以便将该韵律词收入发音词典中。基于此,利用该构建的发音词典中的词条以及词频率信息,构建出以词频率为边的权重的有向无环图,即简单算法模型的韵律词分词模型。
由此,在构建出韵律词分词模型的基础上,再通过最短路径算法等贪心算法,对输入的普通话文本进行韵律词边界预测,并按照规则在输入的普通话文本中的标点符号等特殊字符处标注语调短语标签,从而得到该普通话文本的韵律词边界(同时也为连读变调边界)以及语调短语边界。由此可见,该现有技术中需要人工对大量普通话文本进行韵律词标注,以便从标注数据中提取词频信息来构建韵律词分词模型,其人工耗时长,且成本昂贵。另外,该现有技术中运用的分词算法为浅层学习模型,其学习能力较为有限,无法通过大量文本样本的训练得到准确率较高的韵律词分词模型。
另外,该现有技术中采取将普通话韵律词边界作为方言连读变调边界进行预测的方式,无法覆盖部分不符合变调规则的特例词,例如普通话韵律词“很好”对应的上海话为“交关好”,其连读变调边界为“交关/好”。其中,“/”代表了连读变调边界,所以该普通话韵律词“很好”对应的方言连读变调模式为“2+1”,该连读变调模式表示各连读变调单元中包括的方言音节数量。但在当前的技术方案中会将“很好”二字划分为同一连读变调单元,也即方言连读变调边界为“交关好/”,导致方言连读变调模式成为了“3”,即错误判断了其连读变调边界,从而使得合成的方言语音的准确性大大降低,可懂度不高,而且合成的方言语音不够自然。
基于此,本发明实施例提出了一种语音合成方法,该方法中以目标文本中单个韵律词为单位,通过目标文本对应的方言声韵调,确定出每个韵律词所对应的方言连读变调模式,也即将韵律词边界和方言连读变调边界区分开,以此来避免将普通话韵律词边界与方言连读变调边界定义为相同语义单元而导致的部分特例词的连读变调边界错误的问题,提高了目标文本对应的方言连读变调的准确性,进而提高了方言语音合成的准确性,提高了方言语音的可懂度及自然度。
下面结合图1-图5对本发明实施例提供的语音合成方法进行描述。该方法可应用于语音合成场景中,尤其应用在方言语音合成场景中。另外,该方法的执行主体可以是语音合成装置,例如手机、电脑、计算机或者其他任何能够进行语音合成的电子设备。
图1为本发明实施例提供的语音合成方法的流程示意图之一,如图1所示,该方法包括:
步骤101:获取目标文本。
其中,目标文本为普通话文本。
具体地,可以通过诸如网络爬虫搜集、纸质文本扫描或者拍照等方式获取到目标文本。
步骤102:对目标文本进行韵律层级预测,得到目标文本的韵律边界信息。
其中,韵律层级包括韵律词、韵律短语和语调短语三个不同层级,三者在自然语言交流中分别对应着不同长度的停顿。在语音合成中,对目标文本进行准确的韵律层级预测,可以提高其合成语音的自然度和可懂度。
具体地,针对韵律词边界、韵律短语边界和语调短语边界的预测,可以作为不同的预测任务进行。例如,可以将目标文本输入韵律层级预测模型中的不同预测模块中,得到目标文本的不同韵律边界,如韵律词边界、韵律短语边界和语调短语边界,进而再基于较大层级的边界同时也为较小层级边界的方式,将该不同韵律边界进行整合。以韵律词边界为最小层级,语调短语边界为最大层级为例,假设目标文本“没有听清楚,对着麦克风说比较好。”对应的韵律层级为“没有#1听清楚#3,对着#1麦克风#1说#2比较#1好#3。”,则其中“#1”为韵律词边界,“#2”为韵律短语边界也为韵律词边界,“#3”为语调短语边界,同时也为韵律词以及韵律短语边界。
步骤103:基于韵律边界信息中的韵律词边界,确定目标文本中的各韵律词。
具体地,利用上述获取到的韵律边界信息中的韵律词边界,确定目标文本中的每个韵律词。继续以上述目标文本“没有听清楚,对着麦克风说比较好。”对应的韵律层级为“没有#1听清楚#3,对着#1麦克风#1说#2比较#1好#3。”为例,其中“#1”、“#2”、“#3”都代表着目标文本的韵律词边界。以该韵律词边界为界进行分割,可以得到在该目标文本中的所有韵律词,也即“没有”、“听清楚”、“对着”、“麦克风”、“说”、“比较”和“好”。
步骤104:获取目标文本对应的方言声韵调,并基于方言声韵调确定各韵律词对应的方言连读变调模式,方言连读变调模式用于指示各韵律词中的连读变调边界。
其中,方言声韵调包括方言发音以及发音对应的声调,例如目标文本“没有听清楚,对着麦克风说比较好。”对应的上海话声韵调为“[m a6][t in0]…[j ioa9][h oa9]”,其中“[]”为一个音节,该音节中第一个字符为上海话发音对应的声母;第二部分的字符为上海话发音对应的韵母;数字部分为上海话发音对应的声调。
具体地,可以先通过发音词典查询到目标文本对应的方言声韵调,然后,再将得到的方言声韵调输入连读变调模式预测模型中,以得到目标文本中每个韵律词对应的方言连读变调模式。其中,方言连读变调模式是指普通话韵律词对应的方言连读变调边界的切分模式,也可以理解为在连续方言语流中若干个字组成的语言单位所控制着的发音的声调变化模式。
以上海话为例,目标文本“没有听清楚,对着麦克风说比较好。”对应的方言声韵调为“[m a6][t in0][ts in5][s ang7]…[j ioa9][h oa9]”,结合上海话连读变调规则可知,该目标文本对应的连读变调边界为“[m a6]/[t in0]/[ts in5][s ang7]/…[b i3][jioa4]/[h oa9]”。其中,韵律词“没有”对应的方言声韵调为“[m a6]/”;“听清楚”对应的方言声韵调为“[t in0]/[ts in5][s ang7]/”;“比较好”对应的方言声韵调为“[bi3][jioa4]/[h oa9]/”,由此韵律词“没有”、“听清楚”、“比较好”对应的方言连读变调模式分别为“1”、“1+2”、“2+1”,该方言连读变调模式指示了各韵律词中的连读变调边界。
步骤105:基于韵律边界信息和方言连读变调模式,合成目标文本对应的方言语音。
具体地,在获取到目标文本对应的韵律边界信息和方言连读变调模式后,先基于该韵律边界信息中的韵律词边界,得到目标文本中的韵律词边界、韵律短语边界以及语调短语边界,并基于各韵律词对应的方言连读变调模式,生成符合方言声调变化规则的目标文本对应的方言语音,从而可以提高方言语音的可懂度和自然度。
本发明实施例提供的语音合成方法,以目标文本中单个韵律词为单位,通过目标文本对应的方言声韵调,确定出每个韵律词所对应的方言连读变调模式,以此来避免将普通话韵律词边界与方言连读变调边界定义为相同语义单元而导致的部分特例词的连读变调边界错误的问题,提高了目标文本对应的方言连读变调的准确性,进而提高了方言语音合成的准确性,提高了方言语音的可懂度及自然度。
图2为本发明实施例提供的语音合成方法的流程示意图之二,本发明实施例在上述实施例的基础上,对目标文本进行韵律层级预测,得到目标文本的韵律边界信息的具体实现过程进行详细说明。如图2所示,该方法包括:
步骤201:将目标文本输入韵律预测模型的编码层,得到目标文本中每个字符的第一特征信息。
图3为本发明实施例提供的韵律预测模型的结构示意图,如图3所示,该韵律预测模型包括编码层、解码层和输出层三个部分。其中,编码层对目标文本进行第一特征信息提取;解码层则利用编码层输出的第一特征信息按照不同任务进行解码和转化;输出层使用解码层输出的不同韵律层级边界进行韵律边界标签的预测。
具体地,在获取到目标文本后,将目标文本输入韵律预测模型的编码层中,以使该编码层对目标文本进行编码操作,得到目标文本中的每个字符的第一特征信息。如图3所示,将目标文本输入韵律预测模型的编码层后,会通过BERT(Bidirectional EncoderRepresentation from Transformers,来自变压器的双向编码器表示)分词得到目标文本中每个普通话字符,并将该每个普通话字符输入编码器中,得到各字符对应的编码,再将该编码输入字符特征提取器中,得到该字符对应的第一特征信息。举例来说,假设目标文本的长度为Lt,那么经过编码器编码后将会得到长度为Lt的数字编码串,该数字编码串中的每一位数字都代表着对应位置的普通话字符的编码;进一步地,在将该长度为Lt的数字编码串输入字符特征提取器后,每个普通话字符都将得到一个长度为Dt的第一特征信息,由此,可以得到目标文本对应的维度为(Dt,Lt)的第一特征信息Ft。其中,第一特征信息Ft中融合了目标文本的语义特征信息。
步骤202:将每个字符的第一特征信息输入韵律预测模型的解码层,得到每个字符的边界为韵律边界的第一概率。
具体地,如图3所示,解码层中将目标文本对应的韵律词边界、韵律短语边界、语调短语边界分别作为单独的任务进行预测。每一项预测任务都会对编码层输出的第一特征信息进行单独特征转化,特征的转化方式采用传统的Seq2Seq+Attention方法。通过解码层的解码处理,可以使得韵律预测模型能够结合字符特征信息以及上下文语义环境,学习到不同韵律层级标签的特征。
以当前预测任务为预测韵律词边界为例,假设解码层输入的第一特征信息Ft的维度为(Dt,Lt),则解码层会对每一维度长度为Dt的第一特征信息都进行学习,以输出各字符的边界为韵律词边界的第一概率Pi。其中,Pi数值越大表示当前位置为韵律词边界的概率越大。在此基础上,解码层最终会输出一个长度为Lt的韵律层级概率向量Pt,即各字符的第一概率Pi的集合。举例来说,假设目标文本“没有听清楚,对着麦克风说比较好。”通过编码层得到维度为(Dt,16)的第一特征信息后,再通过解码层得到一个长度为16的韵律层级概率向量[0.1,0.8,0.2,0.1,…,0.9,0.05]。其中,每一个位置都代表着对应位置的字符为韵律词边界的第一概率Pi
步骤203:基于每个字符的边界为韵律边界的第一概率,确定目标文本的韵律边界信息。
具体地,如图3所示,输出层将针对解码层输出的每个韵律层级概率向量Pt进行韵律边界转化,即将每个字符对应的第一概率与概率阈值进行比较,得到长度为Lt的韵律边界标签It[0,1,…,1,0]。其中,0代表该位置不为韵律边界,1代表该位置为韵律边界。
进一步地,将所有韵律层级产生的韵律边界标签进行整合,整合逻辑为采用最高层级的韵律边界标签,例如某位置同时被预测为韵律词和韵律短语边界时,将该位置判定为韵律短语边界。最终将合并后的韵律边界标签与目标文本进行整合,以得到最终的带韵律边界标签的目标文本。以韵律词边界为最小层级、语调短语边界为最大层级为例,假设目标文本“对着麦克风说比较好。”的韵律词边界标签为[0,1,0,0,1,1,0,0,1,0];韵律短语边界标签为[0,0,0,0,0,1,0,0,1,0];语调短语边界标签为[0,0,0,0,0,0,0,0,1,0],则整合后的目标文本为“对着#1麦克风#1说#2比较好#3。”。其中,“#1”为韵律词边界,“#2”为韵律短语边界,“#3”为语调短语边界。
在本实施例中,通过将目标文本输入韵律预测模型的编码层中,以得到目标文本中每个字符的第一特征信息,并将该每个字符的第一特征信息输入韵律预测模型的解码层中,得到每个字符的边界为韵律边界的第一概率,进而可以基于每个字符的边界为韵律边界的第一概率,确定出在目标文本中更多的韵律边界信息,以此在进一步确定出目标文本中每个韵律词的基础上,为后续获得更加准确的方言连读变调模式提供了基础。
在一种可能的实现方式中,上述韵律预测模型可以通过如下方式训练得到:获取至少两个文本样本,各文本样本中包括韵律层级标注信息;基于韵律层级标注信息,确定韵律边界标签;将各文本样本输入初始韵律预测模型中,得到各文本样本对应的预测韵律边界;基于预测韵律边界和韵律边界标签,对初始韵律预测模型进行迭代训练,得到韵律预测模型。
具体地,先通过人工标注的方式,对获取的至少两个文本样本进行韵律层级标注,例如普通话文本样本“没有听清楚,对着麦克风说比较好。”对应的韵律层级标注为“没有#1听清楚#3,对着#1麦克风#1说#2比较#1好#3。”。其中,“#1”为韵律词标记,“#2”为韵律短语标记,“#3”为语调短语标记。
其次,在基于该标注的韵律层级标注信息,确定出各文本样本的韵律边界标签,例如普通话文本对应的韵律层级标注“没有#1听清楚#3,对着#1麦克风#1说#2比较好#3。”,对应的韵律边界标签为:“0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0”。其中,0代表该字符的位置为非韵律边界,1代表该字符的位置为韵律边界。另外,此处的标签将文本样本中的标点符号等特殊字符作为单独字符进行处理。
进一步地,在将各文本样本输入初始韵律预测模型中,得到各文本样本对应的韵律边界后,根据对应的韵律边界标签,通过如下公式(1)所示的损失函数计算方式,计算出预测的韵律边界与真实的韵律边界之间的损失值Losst
Losst = CrossEntropy(Pt,Gt)             (1)
其中,Pt为韵律边界的预测值,Gt为韵律边界的真实值。
基于此,再根据该计算出的预测韵律边界与真实韵律边界之间的损失值,对初始韵律预测模型进行迭代训练,即采用反向传播算法来更新初始韵律预测模型中的相关参数,以使该模型重建后的损失值越来越小,直至达到收敛条件或者损失阈值,从而得到韵律预测模型。
进一步地,针对各文本样本中包括的三种不同韵律层级边界标签,即韵律词边界标签、韵律短语边界标签以及语调短语边界标签,结合初始韵律预测模型预测的韵律边界,通过如上公式(1)所示的损失函数计算方式,计算出不同韵律层级边界的损失值,以再通过如下公式(2),计算出总的损失值Lossprosodic
Lossprosodic = alphaL1 * lossL1 + alphaL2 * lossL2 + alphaL3 * lossL3(2)
其中,lossL1为韵律词边界的损失值,lossL2为韵律短语边界的损失值,lossL3为语调短语边界的损失值;alphaL1为韵律词边界的损失权重,alphaL2为韵律短语边界的损失权重,alphaL3为语调短语边界的损失权重。
进一步地,基于该计算出的总的损失值,对初始韵律预测模型进行迭代训练,直至达到收敛条件或者损失阈值,从而得到更加准确的韵律预测模型。
在本实施例中,通过获取的至少两个文本样本中包括的韵律层级标注信息,确定出韵律边界标签,并将该文本样本输入初始韵律预测模型中,以预测得到各文本样本对应的韵律边界,进而基于该预测的韵律边界和韵律边界标签,对初始韵律预测模型进行迭代训练,得到更加准确的韵律预测模型,由此在以更为准确的韵律预测模型为目标文本的韵律边界的预测模型的情况下,可以提高该目标文本的韵律边界的预测的准确性。
在上述任一实施例的基础上,在基于方言声韵调,确定各韵律词对应的方言连读变调模式时,可以采取如下方式进行:基于方言声韵调,确定各韵律词对应的方言音节数量;基于方言声韵调、目标文本中每个字符的第一特征信息、各韵律词对应的方言音节数量和各韵律词对应的普通话音节数量,确定各韵律词的方言连读变调模式。
具体地,需要先通过韵律预测模型预测出目标文本的韵律边界;然后,再统计得到该目标文本中每个韵律词对应的普通话音节数量。同时,通过发音字典获取到目标文本中每个韵律词对应的方言声韵调,以便统计得到该目标文本中每个韵律词对应的方言音节数量。以方言为上海话、目标文本为“没有听清楚”为例,假设韵律预测模型输出的韵律边界标签为“没有#1听清楚#3”,则对应的方言声韵调分别为[m a6]和[t in0][ts in5][s ang7]。由此,可以得到该目标文本中每个韵律词对应的普通话音节数量分别为2和3,以及该目标文本中每个韵律词对应的方言音节数量分别为1和3。
基于此,在获取到方言声韵调、目标文本中每个字符的第一特征信息、各韵律词对应的方言音节数量和各韵律词对应的普通话音节数量的基础上,再根据相应的方言连读变调规则,对该目标文本中每个韵律词对应的方言声韵调进行连读变调单元划分,以得到每个韵律词的方言连读变调模式。继续以方言为上海话、目标文本为“没有听清楚”为例,结合上海话连读变调规则,得到“没有”对应的方言声韵调为“[m a6]/”;“听清楚”对应的声韵调为“[t in0]/[ts in5][s ang7]/”。其中,“没有”对应的方言有一个连读变调单元;“听清楚”对应的方言有两个连读变调单元。由此可进一步得到,韵律词“没有”、“听清楚”对应的方言连读变调模式分别为“1”和“1+2”。
在本实施例中,通过方言声韵调,确定出各韵律词对应的方言音节数量,以可以再通过方言声韵调、目标文本中每个字符的第一特征信息、各韵律词对应的方言音节数量以及各韵律词对应的普通话音节数量,确定出目标文本中各韵律词对应的方言声韵调的连读变调单元,以及该对应的连读变调单元中包含的方言音节数量,从而可以进一步确定出更加准确的各韵律词的方言连读变调模式。
图4为本发明实施例提供的语音合成方法的流程示意图之三,本发明实施例在上述实施例的基础上,对如何基于方言声韵调、目标文本中每个字符的第一特征信息、各韵律词对应的方言音节数量和各韵律词对应的普通话音节数量,确定各韵律词的方言连读变调模式的具体实现过程进行详细说明。如图4所示,该方法包括:
步骤401:将各字符的第一特征信息和各韵律词对应的普通话音节数量输入连读变调模式预测模型的编码层,得到各韵律词的语义特征信息。
图5为本发明实施例提供的连读变调模式预测模型的结构示意图,如图5所示,该连读变调模式预测模型包括编码层、解码层和输出层三个部分。其中,编码层用于对目标文本进行目标特征信息的提取;解码层则利用编码层输出的目标特征信息进行解码,以生成代表每个连读变调模式的第二概率;输出层使用解码层输出的第二概率进行各韵律词的连读变调模式标签的预测。
具体地,在通过前述实施方式获取到各字符的第一特征信息和各韵律词对应的普通话音节数量后,将其输入连读变调模式预测模型的编码层中,以便基于该各韵律词对应的普通话音节数量,对各字符的第一特征信息进行平均池化,得到各韵律词的语义特征信息。
以方言为上海话、目标文本为“没有听清楚”为例,其中,目标文本中韵律词“没有”和“听清楚”对应的普通话音节数量为[2,3]。进一步地,在将各字符的第一特征信息和各韵律词对应的普通话音节数量输入连读变调模式预测模型的编码层后,编码层会将维度为(Dt,5)的第一特征信息按照[2,3]的形式进行平均池化,以得到维度为(Dt,2)的语义特征信息Fsemantic
步骤402:将方言声韵调输入编码层,得到方言中各字符对应的第二特征信息,并基于各第二特征信息和各韵律词对应的方言音节数量,确定各韵律词的方言声韵调特征信息。
具体地,如图5所示,将通过发音词典获取到的方言声韵调输入连读变调模式预测模型的编码层后,再通过embedding层得到方言中各字符对应的第二特征信息;然后,再基于各韵律词对应的方言音节数量,对该方言中各字符对应的第二特征信息进行平均池化,得到各韵律词的方言声韵调特征信息。
继续以方言为上海话、目标文本为“没有听清楚”为例,其中,韵律词“没有”和“听清楚”对应的方言声韵调“[m a6]”和“[t in0][ts in5][s ang7]”的方言音节数量为[1,3]。进一步地,在将方言声韵调输入连读变调模式预测模型的编码层后,编码层会将方言声韵调通过embedding层后得到的维度为(Ddialect,4)的第二特征信息按照[1,3]的形式进行平均池化,以得到维度为(Ddialect,2)的方言声韵调特征信息Fdialect
步骤403:基于各韵律词的语义特征信息和对应的方言声韵调特征信息,确定目标特征信息。
具体地,如图5所示,在获取到目标文本中各韵律词的语义特征信息和对应的方言声韵调特征信息后,将语义特征信息与方言声韵调特征信息进行拼接,得到目标文本的目标特征信息。
继续以方言为上海话、目标文本为“没有听清楚”为例,将上述获取到的语义特征信息Fsemantic与方言声韵调特征信息Fdialect进行拼接,得到维度为(Dt+Ddialect,2)的目标特征信息Fsandhi。其中,目标特征信息Fsandhi中融合了韵律词“没有”和“听清楚”对应的语义特征信息与方言声韵调特征信息。
步骤404:将目标特征信息输入连读变调模式预测模型的解码层,得到各韵律词为每个连读变调模式的第二概率。
具体地,如图5所示,连读变调模式预测模型的解码层也采用Seq2Seq+Attention的方法,其与韵律预测模型唯一不同之处在于输出的预测概率不再是当前位置字符的边界为韵律边界的第一概率,而是当前位置的韵律词为每个连读变调模式的第二概率。举例来说,假设目标文本共有Lsandhi个韵律词,连读变调模式共有Csandhi种,则该目标文本通过编码层得到目标特征信息后,再通过解码层后会得到一个维度为(Csandhi,Lsandhi)的第二概率向量。其中,每行代表着每个连读变调模式,每列代表着每个韵律词,数值则代表着对应位置的韵律词为每种连读变调模式的第二概率。
步骤405:基于各韵律词为每个连读变调模式的第二概率,确定各韵律词的方言连读变调模式。
具体地,针对解码层输出的维度为(Csandhi,Lsandhi)的第二概率向量,输出层会选取各列中最大第二概率对应的方言连读变调模式作为每个韵律词的方言连读变调模式标签,以并输出该方言连读变调模式在Csandhi种方言连读变调模式中所处的位置。以“没有”、“听清楚”两个韵律词和“1”、“2”、“3”、“1+1”、“1+2”、“2+1”六种方言连读变调模式为例,输出层会对解码层输出的维度为(6,2)的第二概率向量取各列中最大第二概率作为对应位置的韵律词的方言连读变调模式标签,以并输出该方言连读变调模式在6种方言连读变调模式中所处的位置,即输出的方言连读变调模式标签为[1,5]。其中,1代表“没有”为第一个连读变调模式,即“1”;5代表“听清楚”为第五个连读变调模式,即“1+2”。
在本实施例中,通过将各字符的第一特征信息和各韵律词对应的普通话音节数量输入连读变调模式预测模型的编码层中,得到各韵律词的语义特征信息;将方言声韵调输入编码层中,得到方言中各字符对应的第二特征信息,并基于各第二特征信息和各韵律词对应的方言音节数量,确定出各韵律词的方言声韵调特征信息,以再基于各韵律词的语义特征信息和对应的方言声韵调特征信息,确定出目标特征信息;进而将该目标特征信息输入连读变调模式预测模型的解码层中,得到各韵律词为每个连读变调模式的第二概率,以可以基于该各韵律词为每个连读变调模式的第二概率,确定出在目标文本中每个韵律词的更加匹配的连读变调模式,以此来进一步确定出更加准确的各韵律词的方言连读变调模式。由此提高了方言语音合成的准确度。
进一步地,上述连读变调模式预测模型可以通过如下方式训练得到:获取各文本样本对应的方言音频,方言音频中包括方言的声韵调标注信息;针对各方言音频对应的声韵调标注信息,基于声韵调标注信息,确定各韵律词样本的连读变调模式标签,连读变调模式标签用于指示每个韵律词样本中的连读变调边界;针对每个文本样本,获取文本样本中每个字符的第三特征信息;将每个字符的第三特征信息、文本样本中各韵律词样本对应的方言音节数量、文本样本中各韵律词样本对应的普通话音节数量和文本样本对应的方言的声韵调标注信息输入初始连读变调模式预测模型中,得到文本样本中各韵律词样本的预测连读变调模式;基于预测连读变调模式和连读变调模式标签,对初始连读变调模式预测模型进行迭代训练,得到连读变调模式预测模型。
具体地,先对获取到的每个文本样本对应的方言音频进行相应的方言声韵调标注,例如文本样本“没有听清楚,对着麦克风说比较好。”对应的上海话音频标注为“[m a6][t in0]…[j ioa9][h oa9]”。
其次,在基于该方言音频上标注的声韵调标注信息,通过对应的方言连读变调规则,确定出该方言对应的连读变调边界,并统计对应文本样本中每个韵律词样本对应的方言音节数量,以基于该连读变调边界和各韵律词样本对应的方言音节数量,确定出每个韵律词样本的连读变调模式标签。以方言音频为上海话、文本样本为“没有听清楚,对着麦克风说比较好。”为例,该方言音频对应的声韵调标注信息为“[m a6][t in0][ts in5][sang7]…[j ioa9][h oa9]”,并结合上海话连读变调规则,得到该方言对应的连读变调边界为“[m a6]/[t in0]/[ts in5][sang7]/…[b i3][j ioa4]/[h oa9]”。其中,韵律词样本“没有”对应的方言声韵调为“[m a6]/”;韵律词样本“听清楚”对应的声韵调为“[tin0]/[tsin5][s ang7]/”;韵律词样本“比较好”对应的声韵调为“[b i3][jioa4]/[h oa9]/”。由此可知,韵律词样本“没有”、“听清楚”、“比较好”各自对应的方言音节数量分别为1、3、3。与此同时,结合各韵律词样本内音节的连读变调边界可知,韵律词样本“没有”对应的方言有一个连读变调单元,对应的音节数量为1;韵律词样本“听清楚”对应的方言有两个连读变调单元,对应的音节数量分别为1和2;韵律词样本“比较好”对应的方言有两个连读变调单元,对应的音节个数分别为2和1。基于此,韵律词样本“没有”、“听清楚”、“比较好”对应的连读变调模式标签分别为“1”、“1+2”、“2+1”。在上述方式中,由于是针对每个韵律词样本,均确定其对应的连读变调模式标签,这样可以得到更有针对性的标签信息,使得确定出的连读变调模式标签更加准确。
然后,将每个文本样本输入到训练好的韵律预测模型的编码层中,以利用BERT分词得到各文本样本中每个普通话字符,并将该普通话字符输入编码器中得到各字符对应的编码,以再将该编码输入字符特征提取器中,得到每个字符的第三特征信息。
进一步地,在将获取到的每个字符的第三特征信息、文本样本中各韵律词样本对应的方言音节数量、文本样本中各韵律词样本对应的普通话音节数量和文本样本对应的方言的声韵调标注信息输入初始连读变调模式预测模型中,得到文本样本中各韵律词样本的预测连读变调模式后,结合韵律词样本的连读变调模式标签,通过如下公式(3)所示的损失函数计算方式,计算出预测的连读变调模式与真实的连读变调模式之间的损失值Losssandhi
Losssandhi = CrossEntropy(Psandhi,Gsandhi)       (3)
其中,Psandhi为连读变调模式的预测值,Gsandhi为连读变调模式的真实值。
基于此,根据该计算出的预测连读变调模式与真实连读变调模式之间的损失值,对初始连读变调模式预测模型进行迭代训练,即采用反向传播算法来更新初始连读变调模式预测模型中的相关参数,以使该模型重建后的损失值越来越小,直至达到收敛条件或者损失阈值,从而得到连读变调模式预测模型。
在本实施例中,通过获取的各文本样本对应的方言音频中包括的方言的声韵调标注信息,确定出各韵律词样本的连读变调模式标签,其中,连读变调模式标签用于指示每个韵律词样本中的连读变调边界;在此基础上,针对每个文本样本,获取文本样本中每个字符的第三特征信息,以将该每个字符的第三特征信息、文本样本中各韵律词样本对应的方言音节数量、文本样本中各韵律词样本对应的普通话音节数量和文本样本对应的方言的声韵调标注信息输入初始连读变调模式预测模型中,得到文本样本中各韵律词样本的预测连读变调模式,以再基于该预测的连读变调模式和连读变调模式标签,对初始连读变调模式预测模型进行迭代训练,得到更加准确的连读变调模式预测模型,由此在以更为准确的连读变调模式预测模型为目标文本的连读变调模式的预测模型的情况下,可以提高该目标文本的方言连读变调模式的预测的准确性,从而为后续合成更加准确的方言语音提供了基础。
下面对本发明实施例提供的语音合成装置进行描述,下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。
图6为本发明实施例提供的语音合成装置的结构示意图,如图6所示,该装置包括:
获取模块610,用于获取目标文本;
预测模块620,用于对目标文本进行韵律层级预测,得到目标文本的韵律边界信息;
确定模块630,用于基于韵律边界信息中的韵律词边界,确定目标文本中的各韵律词;
所述获取模块610,还用于获取目标文本对应的方言声韵调;
所述确定模块630,还用于基于方言声韵调确定各韵律词对应的方言连读变调模式,方言连读变调模式用于指示各韵律词中的连读变调边界;
合成模块640,用于基于韵律边界信息和方言连读变调模式,合成目标文本对应的方言语音。
本发明实施例提供的语音合成装置,以目标文本中单个韵律词为单位,通过目标文本对应的方言声韵调,确定出每个韵律词所对应的方言连读变调模式,以此来避免将普通话韵律词边界与方言连读变调边界定义为相同语义单元而导致的部分特例词的连读变调边界错误的问题,提高了目标文本对应的方言连读变调的准确性,进而提高了方言语音合成的准确性,提高了方言语音的可懂度及自然度。
可选地,所述预测模块620,具体用于:
将目标文本输入韵律预测模型的编码层,得到目标文本中每个字符的第一特征信息;
将每个字符的第一特征信息输入韵律预测模型的解码层,得到每个字符的边界为韵律边界的第一概率;
基于每个字符的边界为韵律边界的第一概率,确定目标文本的韵律边界信息。
可选地,所述确定模块630,具体用于:
基于方言声韵调,确定各韵律词对应的方言音节数量;
基于方言声韵调、目标文本中每个字符的第一特征信息、各韵律词对应的方言音节数量和各韵律词对应的普通话音节数量,确定各韵律词的方言连读变调模式。
可选地,所述确定模块630,具体用于:
将各字符的第一特征信息和各韵律词对应的普通话音节数量输入连读变调模式预测模型的编码层,得到各韵律词的语义特征信息;
将方言声韵调输入编码层,得到方言中各字符对应的第二特征信息,并基于各第二特征信息和各韵律词对应的方言音节数量,确定各韵律词的方言声韵调特征信息;
基于各韵律词的语义特征信息和对应的方言声韵调特征信息,确定目标特征信息;
将目标特征信息输入连读变调模式预测模型的解码层,得到各韵律词为每个连读变调模式的第二概率;
基于各韵律词为每个连读变调模式的第二概率,确定各韵律词的方言连读变调模式。
可选地,韵律预测模型为基于如下方式训练得到的;
所述获取模块610,还用于获取至少两个文本样本,各文本样本中包括韵律层级标注信息;
所述确定模块630,还用于基于韵律层级标注信息,确定韵律边界标签;
输入模块,用于将各文本样本输入初始韵律预测模型中,得到各文本样本对应的预测韵律边界;
训练模块,用于基于预测韵律边界和韵律边界标签,对初始韵律预测模型进行迭代训练,得到韵律预测模型。
可选地,连读变调模式预测模型为基于如下方式训练得到的;
所述获取模块610,还用于获取各文本样本对应的方言音频,方言音频中包括方言的声韵调标注信息;
所述确定模块630,还用于针对各方言音频对应的声韵调标注信息,基于声韵调标注信息,确定各韵律词样本的连读变调模式标签,连读变调模式标签用于指示每个韵律词样本中的连读变调边界;
所述获取模块610,还用于针对每个文本样本,获取文本样本中每个字符的第三特征信息;
所述输入模块,还用于将每个字符的第三特征信息、文本样本中各韵律词样本对应的方言音节数量、文本样本中各韵律词样本对应的普通话音节数量和文本样本对应的方言的声韵调标注信息输入初始连读变调模式预测模型中,得到文本样本中各韵律词样本的预测连读变调模式;
所述训练模块,还用于基于预测连读变调模式和连读变调模式标签,对初始连读变调模式预测模型进行迭代训练,得到连读变调模式预测模型。
可选地,所述确定模块630,具体用于:
基于声韵调标注信息,确定方言对应的连读变调边界,以及对应文本样本中各韵律词样本对应的方言音节数量;
基于连读变调边界和各韵律词样本对应的方言音节数量,确定各韵律词样本的连读变调模式标签。
本实施例的装置,可以用于执行上述语音合成装置侧方法实施例中任一实施例的方法,其具体实现过程与技术效果与上述语音合成装置侧方法实施例中类似,具体可以参见上述语音合成装置侧方法实施例中的详细介绍,此处不再赘述。
图7示例了一种电子设备的实体结构示意图之一,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行语音合成方法,包括:获取目标文本;对目标文本进行韵律层级预测,得到目标文本的韵律边界信息;基于韵律边界信息中的韵律词边界,确定目标文本中的各韵律词;获取目标文本对应的方言声韵调,并基于方言声韵调确定各韵律词对应的方言连读变调模式,方言连读变调模式用于指示各韵律词中的连读变调边界;基于韵律边界信息和方言连读变调模式,合成目标文本对应的方言语音。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
图8示例了一种电子设备的实体结构示意图之二,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,还包括扬声器850,其中,处理器810,通信接口820,存储器830,扬声器850通过通信总线840完成相互间的通信。扬声器850用于播放方言语音,处理器810可以调用存储器830中的逻辑指令,以执行语音合成方法,包括:获取目标文本;对目标文本进行韵律层级预测,得到目标文本的韵律边界信息;基于韵律边界信息中的韵律词边界,确定目标文本中的各韵律词;获取目标文本对应的方言声韵调,并基于方言声韵调确定各韵律词对应的方言连读变调模式,方言连读变调模式用于指示各韵律词中的连读变调边界;基于韵律边界信息和方言连读变调模式,合成目标文本对应的方言语音。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语音合成方法,包括:获取目标文本;对目标文本进行韵律层级预测,得到目标文本的韵律边界信息;基于韵律边界信息中的韵律词边界,确定目标文本中的各韵律词;获取目标文本对应的方言声韵调,并基于方言声韵调确定各韵律词对应的方言连读变调模式,方言连读变调模式用于指示各韵律词中的连读变调边界;基于韵律边界信息和方言连读变调模式,合成目标文本对应的方言语音。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音合成方法,包括:获取目标文本;对目标文本进行韵律层级预测,得到目标文本的韵律边界信息;基于韵律边界信息中的韵律词边界,确定目标文本中的各韵律词;获取目标文本对应的方言声韵调,并基于方言声韵调确定各韵律词对应的方言连读变调模式,方言连读变调模式用于指示各韵律词中的连读变调边界;基于韵律边界信息和方言连读变调模式,合成目标文本对应的方言语音。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种语音合成方法,其特征在于,包括:
获取目标文本;
对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;
基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;
获取所述目标文本对应的方言声韵调,并基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;
基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息,包括:
将所述目标文本输入韵律预测模型的编码层,得到所述目标文本中每个字符的第一特征信息;
将所述每个字符的第一特征信息输入所述韵律预测模型的解码层,得到每个所述字符的边界为韵律边界的第一概率;
基于每个所述字符的边界为韵律边界的第一概率,确定所述目标文本的韵律边界信息。
3.根据权利要求1或2所述的语音合成方法,其特征在于,所述基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,包括:
基于所述方言声韵调,确定各所述韵律词对应的方言音节数量;
基于所述方言声韵调、所述目标文本中每个字符的第一特征信息、各所述韵律词对应的方言音节数量和各所述韵律词对应的普通话音节数量,确定各所述韵律词的方言连读变调模式。
4.根据权利要求3所述的语音合成方法,其特征在于,所述基于所述方言声韵调、所述目标文本中每个字符的第一特征信息、各所述韵律词对应的方言音节数量和各所述韵律词对应的普通话音节数量,确定各所述韵律词的方言连读变调模式,包括:
将所述各字符的第一特征信息和各所述韵律词对应的普通话音节数量输入连读变调模式预测模型的编码层,得到各所述韵律词的语义特征信息;
将所述方言声韵调输入所述编码层,得到方言中各字符对应的第二特征信息,并基于各所述第二特征信息和各所述韵律词对应的方言音节数量,确定各所述韵律词的方言声韵调特征信息;
基于各所述韵律词的语义特征信息和对应的方言声韵调特征信息,确定目标特征信息;
将所述目标特征信息输入所述连读变调模式预测模型的解码层,得到各所述韵律词为每个连读变调模式的第二概率;
基于各所述韵律词为每个连读变调模式的第二概率,确定各所述韵律词的方言连读变调模式。
5.根据权利要求2所述的语音合成方法,其特征在于,所述韵律预测模型为基于如下方式训练得到的:
获取至少两个文本样本,各所述文本样本中包括韵律层级标注信息;
基于所述韵律层级标注信息,确定韵律边界标签;
将各所述文本样本输入初始韵律预测模型中,得到各所述文本样本对应的预测韵律边界;
基于所述预测韵律边界和所述韵律边界标签,对所述初始韵律预测模型进行迭代训练,得到所述韵律预测模型。
6.根据权利要求5所述的语音合成方法,其特征在于,所述连读变调模式预测模型为基于如下方式训练得到的:
获取各所述文本样本对应的方言音频,所述方言音频中包括方言的声韵调标注信息;
针对各方言音频对应的声韵调标注信息,基于所述声韵调标注信息,确定各所述韵律词样本的连读变调模式标签,所述连读变调模式标签用于指示每个韵律词样本中的连读变调边界;
针对每个文本样本,获取所述文本样本中每个字符的第三特征信息;
将每个字符的第三特征信息、所述文本样本中各韵律词样本对应的方言音节数量、所述文本样本中各韵律词样本对应的普通话音节数量和所述文本样本对应的方言的声韵调标注信息输入所述初始连读变调模式预测模型中,得到所述文本样本中各所述韵律词样本的预测连读变调模式;
基于所述预测连读变调模式和所述连读变调模式标签,对所述初始连读变调模式预测模型进行迭代训练,得到所述连读变调模式预测模型。
7.根据权利要求6所述的语音合成方法,其特征在于,所述基于所述声韵调标注信息,确定各所述韵律词样本的连读变调模式标签,包括:
基于所述声韵调标注信息,确定方言对应的连读变调边界,以及对应文本样本中各韵律词样本对应的方言音节数量;
基于所述连读变调边界和各所述韵律词样本对应的方言音节数量,确定各所述韵律词样本的连读变调模式标签。
8.一种语音合成装置,其特征在于,包括:
获取模块,用于获取目标文本;
预测模块,用于对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;
确定模块,用于基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;
所述获取模块,还用于获取所述目标文本对应的方言声韵调;
所述确定模块,还用于基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;
合成模块,用于基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音合成方法。
10.一种电子设备,包括扬声器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器用于获取目标文本;对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;获取所述目标文本对应的方言声韵调,并基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音;
所述扬声器用于播放所述方言语音。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音合成方法。
CN202211713844.1A 2022-12-29 2022-12-29 语音合成方法、装置、电子设备及存储介质 Pending CN115938341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211713844.1A CN115938341A (zh) 2022-12-29 2022-12-29 语音合成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211713844.1A CN115938341A (zh) 2022-12-29 2022-12-29 语音合成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115938341A true CN115938341A (zh) 2023-04-07

Family

ID=86550458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211713844.1A Pending CN115938341A (zh) 2022-12-29 2022-12-29 语音合成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115938341A (zh)

Similar Documents

Publication Publication Date Title
WO2020200178A1 (zh) 语音合成方法、装置和计算机可读存储介质
CN108899009B (zh) 一种基于音素的中文语音合成系统
CN112420016B (zh) 一种合成语音与文本对齐的方法、装置及计算机储存介质
CN112002308A (zh) 一种语音识别方法及装置
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
CN110767213A (zh) 一种韵律预测方法及装置
CN111899716A (zh) 一种语音合成方法和系统
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
KR20090061920A (ko) 음성 합성 방법 및 장치
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JPH05197398A (ja) 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
CN114708848A (zh) 音视频文件大小的获取方法和装置
JP7357518B2 (ja) 音声合成装置及びプログラム
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
CN114822489A (zh) 文本转写方法和文本转写装置
CN115938341A (zh) 语音合成方法、装置、电子设备及存储介质
CN115206281A (zh) 一种语音合成模型训练方法、装置、电子设备及介质
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
Zhang et al. Chinese speech synthesis system based on end to end
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination