CN112951204A

CN112951204A - 语音合成方法和装置

Info

Publication number: CN112951204A
Application number: CN202110336221.6A
Authority: CN
Inventors: 杨惠; 吴雨璇; 梁光; 周鼎皓; 陈昌儒
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-11
Anticipated expiration: 2041-03-29
Also published as: CN112951204B

Abstract

本发明实施例公开了一种语音合成方法和装置，通过确定文本信息以及用于表征文本信息拼读方式的拼读规则，根据拼读规则确定文本信息对应的音素向量序列，其中素向量分别用于表征文本信息中对应的单词。以进一步根据音素向量序列进行语音合成，以确定对应的语音信息。本发明实施例可以通过文本信息的拼读规则直接确定音素向量序列进行语音合成，提高了语音合成效率。

Description

语音合成方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音合成方法和装置。

背景技术

目前语音合成技术广泛应用在各个领域，现有的语音合成主要是合成字级别的音频，无法根据已有单词的音标和对应的拼读规则直接合成拼读的音频。因此，需要建立模型合成单词的音标对应的发音，若以音标为建模单元为基础，新模型花费时间成本较高。

发明内容

有鉴于此，本发明实施例提供一种语音合成方法和装置，旨在直接基于拼读规则进行语音合成，提高语音合成效率。

第一方面，本发明实施例提供了一种语音合成方法，所述方法包括：

确定文本信息；

确定所述文本信息对应的拼读规则，所述拼读规则用于表征所述文本信息的拼读方式；

根据所述拼读规则确定所述文本信息对应的音素向量序列，所述音素向量序列中各所述音素向量分别用于表征文本信息中对应的单词；

根据所述音素向量序列进行语音合成，以确定对应的语音信息。

进一步地，所述确定所述文本信息对应的拼读规则包括：

确定所述文本信息中各单词对应的至少一个音标；

根据各所述单词对应的至少一个音标和各所述音标的拼读顺序确定拼读规则。

进一步地，所述根据所述拼读规则确定所述文本信息对应的音素向量序列包括：

根据所述拼读规则确定所述文本信息对应的音标向量序列；

确定所述文本信息对应音素序列，所述音素序列中依次包括所述文本信息时间维度上各单词对应的音素；

根据所述音标向量序列和音素序列确定音素向量序列。

进一步地，所述根据所述拼读规则确定所述文本信息对应的音标向量序列包括：

根据所述拼读规则中各单词对应的至少一个音标和各音标的拼读顺序确定对应的音标向量；

根据各所述音标向量确定音标向量序列，各所述音标向量在所述音标向量序列中的位置根据对应单词在所述文本信息中的位置确定。

进一步地，所述根据所述音标向量序列和音素序列确定音素向量序列具体为：

基于最大匹配算法匹配所述音标向量序列和音素序列，以确定包括多个音素向量的音素向量序列，其中，所述音素向量序列中的各所述音素向量依次对应于所述音标向量序列中的各所述音标向量。

进一步地，所述根据所述音素向量序列进行语音合成，以确定对应的语音信息具体为：

将所述音素向量序列输入训练得到的语音合成模型，以输出对应的语音信息。

第二方面，本发明实施例提供了一种语音合成装置，所述装置包括：

第一信息确定模块，用于确定文本信息；

第二信息确定模块，用于确定所述文本信息对应的拼读规则；

序列确定模块，用于根据所述拼读规则确定所述文本信息对应的音素向量序列，所述音素向量序列中各所述音素向量分别用于表征文本信息中对应的单词；

语音合成模块，用于根据所述音素向量序列进行语音合成，以确定对应的语音信息。

第三方面，本发明实施例提供了一种计算机可读存储介质，用于存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

第五方面，本发明实施例提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例通过确定文本信息以及用于表征文本信息拼读方式的拼读规则，根据拼读规则确定文本信息对应的音素向量序列，其中素向量分别用于表征文本信息中对应的单词。以进一步根据音素向量序列进行语音合成，以确定对应的语音信息。本发明实施例可以通过文本信息的拼读规则直接确定音素向量序列进行语音合成，提高了语音合成效率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本发明实施例的语音合成方法的流程图；

图2为本发明实施例的语音合成方法的示意图；

图3为本发明实施例的语音合成装置的示意图；

图4为本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明实施例可以应用于任意语音合成场景，能够通过服务器或终端设备实现。其中，服务器可以为单个的服务器或多个服务器组成的服务器集群，终端设备为具有语音合成功能的固定终端或移动终端。

图1为本发明实施例的语音合成方法的流程图。如图1所示，本发明实施例的语音合成方法包括以下步骤：

步骤S100、确定文本信息。

具体地，本发明实施例的文本信息通过实现语音合成方法的终端设备或服务器确定，确定方式可以为通过信息传输接口接收用户输入的文本信息，或通过通信装置接收其他设备发送的文本信息。其中，文本信息为以文本格式存储的信息，记载的内容为需要进行语音合成的信息。可选地，文本格式可以为任意能够确定拼读规则，以及具有对应音素的语言，例如英语、中文和日语等。以本发明实施例需要进行语音合成的信息内容为“你好吗”为例进行说明。当文本格式为中文格式时，文本信息为“你好吗”，当文本格式为英文格式时，文本信息为“how are you”。

进一步地，文本信息中包括至少一个单词，单词即为单字词。也就是说，当文本信息格式为中文格式时，其中包括至少一个中文文字，当文本信息格式为英文格式时，其中包括至少一个英文单词。

步骤S200、确定所述文本信息对应的拼读规则。

具体地，在确定待进行语音合成的文本信息后，根据文本信息的发音方式确定对应的拼读规则，该拼读规则用于表征文本信息的拼读方式。拼读规则中包括了文本信息中各单词的拼读方式，可以根据文本信息中各单词对应的音标确定。

进一步地，本发明实施例确定拼读规则的过程为先根据文本信息中各单词的发音确定对应至少一个音标，再根据各单词对应的至少一个音标和各音标在对应单词中的拼读顺序确定拼读规则。也就是说，文本信息对应的拼读规则中包括其中各单词和至少一个音标的对应关系，以及各单词对应音标的发音顺序。其中，音标为语音学上用来记录语音的符号，一个单词可以对应一个音标或多个按发音顺序排序的音标。不同语言可以对应不同的音标，例如，中文对应的音标为拼音，英文对应的音标为国际音标。

以本发明实施例的文本信息为英文格式，即需要合成的语音为英文为例进行说明。当文本信息为“how are you”时，其中包括的单词为“how”、“are”和“you”。单词“how”对应三个音标，各音标按拼读顺序依次为“/h/”、“/a/”和

单词“are”对应两个音标，各音标按拼读顺序依次为“/ɑ:/”和“/r/”，单词“you”对应两个音标，各音标按拼读顺序依次为“/j/”和“/u/”。因此，文本信息“how are you”对应的拼读规则可以表示为{

“/ɑ:r/”，“ju”}。

步骤S300、根据所述拼读规则确定所述文本信息对应的音素向量序列。

具体地，本发明实施例在确定文本信息对应的拼读规则后，直接根据文本信息的拼读规则确定音素向量序列。即在当前文本信息中建立音素-音标映射关系，使得能够直接根据文本信息的拼读规则将文本信息对应的音素向量对齐，得到对齐后的音素向量序列。在本发明实施例中，根据拼读规则确定音素向量序列的过程还可以包括以下步骤：

步骤S310、根据所述拼读规则确定所述文本信息对应的音标向量序列。

具体地，由于拼读规则中包括文本信息中各词对应的音标，以及各音标在对应单词中的拼读顺序。可以直接根据拼读规则中各单词对应的至少一个音标和各音标的拼读顺序确定对应的音标向量，再根据各音标向量确定音标向量序列。其中各音标向量在所述音标向量序列中的位置根据对应单词在所述文本信息中的位置确定。也就是说，音标向量序列中各音标的顺序对应于其对应的单词在文本信息时间维度上的顺序。

仍以本发明实施例的文本信息为“how are you”为例进行说明。文本信息“howare you”对应的拼读规则为{

“/ɑ:r/”，“ju”}。由此可知，文本信息中的单词“how”对应的音标向量为(h，a，

)，单词“are”对应的音标向量为(ɑ:，r)，单词“you”对应的音标向量为(j，u)。进一步根据各音标向量对应单词在文本信息时间维度上的顺序为{(h，a，

)，(ɑ:，r)，(j，u)}。

步骤S320、确定所述文本信息对应音素序列。

具体地，音素序列通过将文本信息中各单词转换成对应的音素确定，其中依次包括文本信息时间维度上各单词对应的音素。其中，音素是构成音节的最小单位或最小的语音片段。可选地，确定音素序列的过程可以为先确定文本信息中包括的各文字对应音节，再获取各音节中最小单位的音素以确定音素序列。音素序列中各音素所在位置可以根据各音节对应文字在文本信息时间维度上的位置、以及各音素在对应音节时间维度上的位置确定。

例如，当文本信息为中文“普通话”，时，文字“普”对应的音节为“pu”，文字“通”对应的音节为“tong”，文字“话”对应的音节为“hua”。同时，音节“pu”对应的音素依次为“p”和“u”，音节“tong”对应的音素依次为“t”、“o”和“ng”，音节“hua”对应的音素依次为“h”、“u”和“a”。因此，根据文本信息中各文字在文本信息时间维度上的位置、以及各音素在对应音节时间维度上的位置确定音素序列为{“p”，“u”，“t”，“o”，“ng”，“h”，“u”，“a”}。

步骤S330、根据所述音标向量序列和音素序列确定音素向量序列。

具体地，在确定文本信息对应的音标向量序列和音素序列后，根据音标向量序列和音素序列确定对应的音素向量序列。可选地，确定音素向量序列的方式可以为基于最大匹配算法匹配音标向量序列和音素序列，得到包括多个音素向量的音素向量序列。其中，音素向量序列中的各音素向量依次对应于音标向量序列中的各音标向量。进一步地，各音标向量中音标与对应音素向量中的至少一个音素具有对应关系。

本发明实施例应用的最大匹配算法为一种分词算法，包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串，然后和词库进行比对，如果是一个词就记录下来，否则通过增加或者减少一个单字，继续比较，一直还剩下一个单字则终止。在本发明实施例中，可以通过正向最大匹配算法确定音素向量序列，正向最大匹配算法的原理为从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上则切分出一个词。在匹配过程中，将文本信息对应的音标向量序列作为词表，将文本信息对应的音素序列作为待分词文本，当从音素序列中匹配的多个音素对应于音标向量序列中的音标时进行切分，并根据切分得到的多个音素确定对应的音素向量。

例如，当本发明实施例的文本信息为中文文本“普通话”时，对应的音标向量序列为{(p，u)，(t，ong)，(h，ua)}，对应的音素序列为{“p”，“u”，“t”，“o”，“ng”，“h”，“u”，“a”}。通过最大匹配算法匹配后得到对应于音标向量(p，u)的音素向量为(p，u)，对应于音标向量(t，ong)的音素向量为(t，o，ng)，对应于音标向量(h，ua)的音素向量为(h，u，a)，进一步根据各音标向量在音标向量序列中的位置确定音素向量序列为{(p，u)，(t，o，ng)，(h，u，a)}。

现有技术在进行语音合成时，需要录制文本信息对应的语音信息，以在提取语音信息的语音特征和文本信息的音素序列后进行强制对齐，得到音素向量序列。而本发明实施例仅需要确定文本信息对应的拼读规则，直接根据拼读规则和音素序列匹配即可得到音素向量序列，简化了语音合成过程的步骤，提高了语音合成过程的效率。

步骤S400、根据所述音素向量序列进行语音合成，以确定对应的语音信息。

具体地，在确定文本信息对应的音素向量序列后，直接基于该音素向量序列进行语音合成得到对应的语音信息。本发明实施例基于音素向量序列进行语音合成的方法可以为任意语音合成方法，在此不做限制。可选地，可以将文本信息对应的音素向量序列输入训练得到的语音合成模型，输出对应的语音信息。

图2为本发明实施例的语音合成方法的示意图。如图2所示，本发明实施例在进行语音合成过程时，先确定用于表征待合成语音内容的文本信息20，并确定文本信息20对应的拼读规则21。进一步地，基于文本信息20的拼读规则21确定对应的音标向量序列22，同时获取本文信息对应的音素序列23。基于最大匹配算法匹配音标向量序列22和音素序列23，得到对齐后的音素向量序列24。将音素向量序列24输入预先训练得到的语音合成模型24中进行语音合成，即可直接生成并输出与文本信息20内容相对于的语音信息26。

本发明实施例的语音合成方法通过确定文本信息以及用于表征文本信息拼读方式的拼读规则，根据拼读规则确定文本信息对应的音素向量序列，其中素向量分别用于表征文本信息中对应的单词。以进一步根据音素向量序列进行语音合成，以确定对应的语音信息。本发明实施例可以通过文本信息的拼读规则直接确定音素向量序列进行语音合成，提高了语音合成效率。

图3为本发明实施例的语音合成装置的示意图。如图3所示，本发明实施例的语音合成装置包括第一信息确定模块30、第二信息确定模块31、序列确定模块32和语音合成模块33。

具体地，第一信息确定模块30用于确定文本信息。第二信息确定模块31用于确定所述文本信息对应的拼读规则。序列确定模块32用于根据所述拼读规则确定所述文本信息对应的音素向量序列，所述音素向量序列中各所述音素向量分别用于表征文本信息中对应的单词。语音合成模块33用于根据所述音素向量序列进行语音合成，以确定对应的语音信息。

本发明实施例的语音合成装置通过确定文本信息以及用于表征文本信息拼读方式的拼读规则，根据拼读规则确定文本信息对应的音素向量序列，其中素向量分别用于表征文本信息中对应的单词。以进一步根据音素向量序列进行语音合成，以确定对应的语音信息。本发明实施例可以通过文本信息的拼读规则直接确定音素向量序列进行语音合成，提高了语音合成效率。

图4是本发明实施例的电子设备的示意图。如图4所示，图4所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器40和存储器41。处理器40和存储器41通过总线42连接。存储器41适于存储处理器40可执行的指令或程序。处理器40可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器40通过执行存储器41所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线42将上述多个组件连接在一起，同时将上述组件连接到显示控制器43和显示装置以及输入/输出(I/O)装置44。输入/输出(I/O)装置44可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置44通过输入/输出(I/O)控制器45与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

确定文本信息；

2.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息对应的拼读规则包括：

确定所述文本信息中各单词对应的至少一个音标；

3.根据权利要求1所述的方法，其特征在于，所述根据所述拼读规则确定所述文本信息对应的音素向量序列包括：

根据所述拼读规则确定所述文本信息对应的音标向量序列；

根据所述音标向量序列和音素序列确定音素向量序列。

4.根据权利要求3所述的方法，其特征在于，所述根据所述拼读规则确定所述文本信息对应的音标向量序列包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述音标向量序列和音素序列确定音素向量序列具体为：

6.根据权利要求1所述的方法，其特征在于，所述根据所述音素向量序列进行语音合成，以确定对应的语音信息具体为：

7.一种语音合成装置，其特征在于，所述装置包括：

第一信息确定模块，用于确定文本信息；

8.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行以实现如权利要求1-6中任一项所述的方法。