CN113948058A

CN113948058A - 语音合成方法、系统、存储介质及其计算机设备

Info

Publication number: CN113948058A
Application number: CN202010617792.2A
Authority: CN
Inventors: 杜国威
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-01-18

Abstract

本发明适用于语音合成技术领域，提供了一种语音合成方法，包括：采集语音输入信号并转化成文本数据；分析所述文本数据所对应的领域和意图信息，并根据所述领域和所述意图信息以生成对应的反馈信息；根据所述意图信息和/或所述语音输入信号的韵律，以分析评估所述反馈信息的流畅度和音频质量；根据所述流畅度和所述音频质量的评估结果，通过预制的处理策略选择对应的语音合成后端策略，以将所述反馈信息合成为反馈语音。还提供了一种语音合成系统、用于存储执行所述方法的计算机程序的存储介质以及实现所述方法的计算机设备。借此，本发明能够适应于不同场景的语音合成，提升用户体验。

Description

语音合成方法、系统、存储介质及其计算机设备

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、系统、存储介质及其计算机设备。

背景技术

TTS(Text To Speech，从文本到语音)技术本质上解决的是“从文本转化为语音的问题”，通过这种方式让机器开口说话。但这个过程并不容易，为了降低机器理解的难度，将这个转化过程拆分成了两个部分——前端系统和后端系统；如图1，前端负责把输入的文本转化为一个中间结果，然后把这个中间结果送给后端，由后端生成声音。前端系统生成的中间结果叫做“语言学规格书”。

目前主流的后端系统有两种方法：一种是基于波形拼接的方法，一种是基于参数生成的方法。基于波形拼接的方法是从事先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等；为了追求合成语音的连贯性，也常常用使用双音子(从一个音素的中央到下一个音素的中央)作为单位。优点是语音质量较高。缺点是数据库要求太大；一般需要几十个小时的成品预料。企业级商用的话，需要至少5万句，费用成本在几百万元。基于参数生成的方法是根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等)，然后把这些参数转化为波形。优点是数据库要求相对较小一些。缺点是质量比拼接法差一些。

拼接法需要在得到声学模型后才能够进行在线的拼接合成，正因有了拼接的操作，所以它虽然在TTS播报质量上比参数法优秀，但是在流畅度相对于参数法较差，特别是在一些对流量特别敏感的场景下，因为参数法最终是可以在本地的进行离线的TTS的合成，但是拼接法是必须要在云端依赖大语音库的情况下进行拼接合成，所以是比较依赖网络的环境的。

由此，在面临着生活中的语音控制终端设备的场景，在不同的领域或者意图下应该选用什么样的TTS合成方法，现有技术并未能提供相应解决方案，所以有必要加以改进。

发明内容

针对上述的缺陷，本发明的目的在于提供一种语音合成方法，系统、存储介质及其计算机设备，能够适应于不同场景的语音合成，提升用户体验。

为了实现上述目的，本发明提供一种语音合成方法，包括有：

采集转化步骤，采集语音输入信号并转化成文本数据；

分析反馈步骤，分析所述文本数据所对应的领域和意图信息，并根据所述领域和所述意图信息以生成对应的反馈信息；

分析评估步骤，根据所述意图信息和/或所述语音输入信号的韵律，以分析评估所述反馈信息的流畅度和音频质量；

处理结果步骤，根据所述流畅度和所述音频质量的评估结果，通过预制的处理策略选择对应的语音合成后端策略，以将所述反馈信息合成为反馈语音。

可选的，所述分析评估步骤包括：

根据所述意图信息和/或所述语音输入信号的韵律，以通过预制的评估机制分析评估所述反馈信息的流畅度和音频质量。

可选的，所述分析评估步骤包括：

根据所述意图信息和/或所述语音输入信号的韵律，以通过大数据分析技术分析评估所述反馈信息的流畅度和音频质量。

根据所述的语音合成方法，所述采集转化步骤包括：

采集步骤，采集外部输入的语音输入信号；

第一转化步骤，通过语音识别技术以将所述语音输入信号转化成所述文本数据。

还提供了一种语音合成系统，包括有：

采集转化单元，用于采集语音输入信号并转化成文本数据；

分析反馈单元，用于分析所述文本数据所对应的领域和意图信息，并根据所述领域和所述意图信息以生成对应的反馈信息；

分析评估单元，用于根据所述意图信息和/或所述语音输入信号的韵律，以分析评估所述反馈信息的流畅度和音频质量；

处理结果单元，用于根据所述流畅度和所述音频质量的评估结果，通过预制的处理策略选择对应的语音合成后端策略，以将所述反馈信息合成为反馈语音。

可选的，所述分析评估单元用于：

根据所述的语音合成系统，所述采集转化单元包括有：

采集子单元，用于采集外部输入的语音输入信号；

第一转化子单元，用于通过语音识别技术以将所述语音输入信号转化成所述文本数据。

另外，还提供了一种存储介质和计算机设备，所述存储介质用于存储一种用于执行上述语音合成方法的计算机程序。

所述计算机设备包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的语音合成方法。

本发明所述的语音合成方法及其系统，围绕着流畅度和音频质量两个维度结合不同领域、意图及结合，语音指令特征的大数据与流畅度、音频质量的关联的判断考虑综合选用TTS的合成方案。面对复杂的语音场景，提供一种更优的、能够适应不同场景的语音合成方案，语音合成不再是死板的只选用拼接法或者参数法其中一种。针对拼接法和参数法的特性使得语音合成在不同场景下体验更好。解决了在面临着生活中的语音控制终端设备的场景，在不同的领域或者意图下应该选用什么样的TTS合成方法的问题。

附图说明

图1为语音合成技术的前端和后端系统示意图；

图2为语音合成技术的波形拼接的语音合成示意图；

图3为本发明优选实施例所述语音合成方法的步骤流程图；

图4为本发明优选实施例所述语音合成方法的所述采集转化步骤的具体步骤示意图；

图5为本发明优选实施例所述语音合成方法的所述分析反馈步骤的具体步骤示意图；

图6为本发明优选实施例所述语音合成系统的结构框图；

图7为本发明优选实施例所述语音合成系统的所述采集转化单元的具体结构示意图；

图8为本发明优选实施例所述语音合成系统的所述分析反馈单元的具体结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的，本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用，指的是描述的该实施例可包括特定的特征、结构或特性，但是不是每个实施例必须包含这些特定特征、结构或特性。此外，这样的表述并非指的是同一个实施例。进一步，在结合实施例描述特定的特征、结构或特性时，不管有没有明确的描述，已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。

此外，在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件，所属领域中具有通常知识者应可理解，制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式，而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语，故应解释成“包含但不限定于”。以外，“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。

图3示出本发明优选实施例所述的语音合成方法，包括步骤有：

S101：采集语音输入信号并转化成文本数据；采集的语音输入信号为录入音频，具体可以是用户跟机器交互所输入的语音或用户对机器的命令语音等。

S102：分析所述文本数据所对应的领域和意图信息，并根据所述领域和意图信息以生成对应的反馈信息；在实际的语音交互场景中，领域和意图往往能反馈绝大多数的交互场景或者人们的需求；本实施例通过分析该文本数据的内容，获取该内容所对应的领域和意图；例如，文本数据为：通过歌曲哄孩子入睡；则经分析获得对应的领域为：音乐；意图信息为：播放安眠儿歌。进而根据对应的领域和意图信息生成对应的反馈信息，在上述例子中，对应的反馈信息即为开启音乐播放功能以播放哄儿童的安眠曲。

S103：根据意图信息和/或语音输入信号的韵律，以分析评估所述反馈信息的流畅度和音频质量；可根据所述意图信息来分析评估出反馈信息所对应的流畅度和音频质量，例如：意图信息为拨打报警电话、导航等，则对应评估的流畅度的要求大于音频质量；若意图信息是播放儿歌等对时间要求低但是对音频输出质量要求高的场景，即评估结果为音频质量的要求大于流畅度。或者可根据语音输入信号的韵律进行分析评估，如拨打报警电话时，说拨打报警电话时的语速要明显快于在说播放儿歌的相关指令，检测到语速、韵律越快则分析评估的反馈信息对于流畅度的要求大于音频质量，反之亦反。当然，也可以结合所述意图信息和所述语音输入信号的韵律来分析评估。对应的分析评估结果可以是流畅度和音频质量对应于所述反馈信息的权重值。

S104：根据所述流畅度和音频质量的评估结果，通过预制的处理策略选择对应的语音合成后端策略，以将反馈信息合成为反馈语音。本实施例采用的语音合成后端策略设为波形拼接的语音合成策略或基于统计参数建模的语音合成策略。波形拼接的方法就是把事先录制好的音频存储在电脑上，当要合成声音的时候，就可以根据前端开出的“规格书”，来从这些音频里去寻找那些最适合规格书的音频片段，然后把片段一个一个的拼接起来，最后就形成了最终的合成语音。如图2所示：我们想要合成“你真好看”这句话，我们就会从数据库里去寻找“你、真、好、看”这四个字的音频片段，然后把这四个片段拼接起来。参数生成法和波形拼接法的原理很不相同，使用参数生成法的系统直接使用数学的方法，先从音频里总结出音频最明显的特征，然后使用学习算法来学习一个如何把前端语言学规格书映射到这些音频特征的转换器。一但我们有了这个从语言学规格书到音频特征的转换器，在同样合成“你真好看”这四个字的时候，我们先使用这个转换器转换出音频特征，然后用另一个组件，把这些音频特征还原成我们可以听到的声音。拼接法和参数法在效果上的主要区别在于流畅度和音频质量，因此本实施例的预制的所述处理策略是：当评估结果的流畅度要求大于音频质量时，则选择基于统计参数建模的语音合成策略作为语音合成的后端执行方法；反之，当评估结果的音频质量要求大于流畅度时，则选择波形拼接的语音合成策略作为语音合成的后端执行方法。从而面对复杂的语音场景，提供一种更优的、能够适应不同场景的语音合成方案，语音合成不再是死板的只选用拼接法或者参数法其中一种，本实施例针对拼接法和参数法的特性使得语音合成在不同场景下体验更好。

可选的，步骤S103包括：

根据所述意图信息和/或所述语音输入信号的韵律，以通过预制的评估机制分析评估所述反馈信息的流畅度和音频质量。所述评估机制为事先定义的评估规则，可由语音技术方案提供商对于特定的意图和/或语音输入信号的韵律进行事先定义；例如，对于领域和意图如拨打报警电话、导航等进行限定，默认使用参数法，而如果是播放儿歌等对时间要求低但是对音频输出质量要求高的场景，则默认使用拼接法。

可选的，步骤S103还可以包括：

根据所述意图信息和/或所述语音输入信号的韵律，以通过大数据分析技术分析评估所述反馈信息的流畅度和音频质量。通过大数据分析对这类领域、意图和/或语音输入信号的韵律、语速等与流畅度、音频质量进行关联，生成对应的模型，进而分析评估出反馈信息对应的流畅度和音频质量的权重，以便于后续根据评估结果选择相应的后端策略合成反馈语音。当然，在其他实施例中，还可以采用其他用于将意图信息和/或所述语音输入信号进行关联评估的技术方案。

参见图4，可选的，步骤S101包括有：

S1011：采集外部输入的语音输入信号；具体通过上述的语音合成的前端收集语音输入信号。

S1012：通过语音识别技术以将所述语音输入信号转化成所述文本数据。

进一步的，步骤S101之后包括有：

发送步骤，将所述文本数据发送至NLP引擎；

步骤S102包括：通过所述NLP引擎分析文本数据以获得对应的领域以及意图信息，并根据所述领域和意图信息以生成对应的反馈信息。

参见图5，可选的，步骤S102包括：

S1021：将所述文本数据转化为机器语言；

S1022：分析所述机器语言中对应的领域和意图信息；

S1023：根据所述领域和所述意图信息以生成对应的反馈信息。

在另一实施例中，步骤S102还包括有：

槽位填充步骤，根据机器语言以填充所述意图信息对应的意图槽位；

S1023：根据所述领域、意图信息以及意图槽位以匹配生成对应的反馈信息。

首先NLU(Natural Language Understanding，自然语言理解)需要去理解传入文本的意图；例如，NLU服务器将该文本转化为机器可以理解的语言并分析出对话A的意图为播放儿歌，同时填充该意图槽位歌手、歌曲名称为贝瓦儿歌、小兔子乖乖等。将以上领域、意图及相关槽位发送至对话管理系统和语言生成系统，找到与对应意图相关的信息再发送到TTS训练集对应的服务器。

进一步的，所述步骤S103包括：根据所述领域、意图信息、意图槽位和/或语音输入信号的韵律，以分析评估出反馈信息的流畅度和音频质量。

图6示出本发明优选实施例所述的语音合成系统100，包括有采集转化单元10、分析反馈单元20、分析评估单元30以及处理结果单元40，其中：

采集转化单元10用于采集语音输入信号并转化成文本数据；分析反馈单元20用于分析文本数据所对应的领域和意图信息，并根据所述领域和意图信息以生成对应的反馈信息；分析评估单元30用于根据所述意图信息和/或语音输入信号的韵律，以分析评估反馈信息的流畅度和音频质量；处理结果单元40用于根据所述流畅度和音频质量的评估结果，通过预制的处理策略选择对应的语音合成后端策略，以将反馈信息合成为反馈语音。本实施例采用的语音合成后端策略设为波形拼接的语音合成策略或基于统计参数建模的语音合成策略。拼接法和参数法在效果上的主要区别在于流畅度和音频质量，因此本实施例的预制的所述处理策略是：当评估结果的流畅度要求大于音频质量时，则选择基于统计参数建模的语音合成策略作为语音合成的后端执行方法；反之，当评估结果的音频质量要求大于流畅度时，则选择波形拼接的语音合成策略作为语音合成的后端执行方法。从而面对复杂的语音场景，提供一种更优的、能够适应不同场景的语音合成方案，语音合成不再是死板的只选用拼接法或者参数法其中一种，本实施例针对拼接法和参数法的特性使得语音合成在不同场景下体验更好。

可选的，分析评估单元30用于：根据所述意图信息和/或语音输入信号的韵律，以通过预制的评估机制分析评估反馈信息的流畅度和音频质量。可由语音技术方案提供商对于特定的意图和/或语音输入信号的韵律进行事先定义；例如，对于领域和意图如拨打报警电话、导航等进行限定，默认使用参数法，而如果是播放儿歌等对时间要求低但是对音频输出质量要求高的场景，则默认使用拼接法。

可选的，分析评估单元30用于：根据所述意图信息和/或语音输入信号的韵律，以通过大数据分析技术分析评估反馈信息的流畅度和音频质量。通过大数据分析对这类领域、意图和/或语音输入信号的韵律、语速等与流畅度、音频质量进行关联，生成对应的模型，进而分析评估出反馈信息对应的流畅度和音频质量的权重，以便于后续根据评估结果选择相应的后端策略合成反馈语音。当然，在其他实施例中，还可以采用其他用于将意图信息和/或所述语音输入信号进行关联评估的技术方案。

参见图7，可选的，采集转化单元10包括有采集子单元11和第一转化子单元12，其中：

采集子单元11用于采集外部输入的语音输入信号；第一转化子单元12用于通过语音识别技术以将语音输入信号转化为文本数据。

可选的，还包括有发送单元，所述发送单元用于将文本数据发送给NLP引擎；分析反馈单元20用于通过所述NLP引擎分析文本数据以获得对应的领域以及意图信息，并根据所述领域和意图信息以生成对应的反馈信息。

参见图8，分析反馈单元20包括有第二转化子单元21、领域意图分析子单元22以及反馈生成子单元23，其中：

第二转化子单元21用于将文本数据转化为机器语言；领域意图分析子单元22用于分析机器语言中对应的领域和意图信息；反馈生成子单元23用于根据所述领域和意图信息以生成对应的反馈信息。

可选的，在另一实施例中，分析反馈单元20还包括有槽位填充子单元，用于根据所述机器语言以填充所述意图信息对应的意图槽位；所述反馈生成子单元23用于根据所述领域、意图信息以及意图槽位以匹配生成对应的反馈信息。

进一步的，分析评估单元30用于根据所述领域、意图信息、意图槽位和/或语音输入信号的韵律，以分析评估出反馈信息的流畅度和音频质量。

本发明还提供一种存储介质，用于存储如图1～图6所述语音合成方法的计算机程序。例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的存储介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此，根据本申请的一个实施例包括如图7所示语音合成系统的计算机设备，所述计算机设备优选包括用于存储计算机程序的存储介质和用于执行计算机程序的处理器，其中，当该计算机程序被该处理器执行时，触发该计算机设备执行基于前述多个实施例中的方法和/或技术方案。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地，计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。

在优选实施例中，计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地，在计算机可读介质上体现计算机程序。

综上所述，本发明所述的语音合成方法及其系统，围绕着流畅度和音频质量两个维度结合不同领域、意图及结合，语音指令特征的大数据与流畅度、音频质量的关联的判断考虑综合选用TTS的合成方案。面对复杂的语音场景，提供一种更优的、能够适应不同场景的语音合成方案，语音合成不再是死板的只选用拼接法或者参数法其中一种。针对拼接法和参数法的特性使得语音合成在不同场景下体验更好。解决了在面临着生活中的语音控制终端设备的场景，在不同的领域或者意图下应该选用什么样的TTS合成方法的问题。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

本发明还提出了A1、一种语音合成方法，包括有：

采集转化步骤，采集语音输入信号并转化成文本数据；

A2、根据A1所述的语音合成方法，所述分析评估步骤包括：

A3、根据A1所述的语音合成方法，所述分析评估步骤包括：

A4、根据A1所述的语音合成方法，所述采集转化步骤包括：

采集步骤，采集外部输入的语音输入信号；

A5、根据A1所述的语音合成方法，所述采集转化步骤之后包括：

发送步骤，将所述文本数据发送至NLP引擎；

所述分析反馈步骤包括：

通过所述NLP引擎分析所述文本数据以获得对应的领域以及意图信息，并根据所述领域和所述意图信息以生成对应的反馈信息。

A6、根据A1所述的语音合成方法，所述分析反馈步骤包括：

第二转化步骤，将所述文本数据转化为机器语言；

领域意图分析步骤，分析所述机器语言中对应的领域和意图信息；

反馈生成步骤，根据所述领域和所述意图信息以生成对应的反馈信息。

A7、根据A6所述的语音合成方法，所述分析反馈步骤还包括：

槽位填充步骤，根据所述机器语言以填充所述意图信息对应的意图槽位；

所述反馈生成步骤，根据所述领域、所述意图信息以及所述意图槽位以匹配生成对应的反馈信息。

A8、根据A7所述的语音合成方法，所述分析评估步骤进一步包括：

根据所述领域、所述意图信息、所述意图槽位和/或所述语音输入信号的韵律，以分析评估出所述反馈信息的流畅度和音频质量。

A9、根据A1～A8任一项所述的语音合成方法，所述语音合成后端策略设为波形拼接的语音合成策略或基于统计参数建模的语音合成策略。

还提出了B10、一种语音合成系统，包括有：

采集转化单元，用于采集语音输入信号并转化成文本数据；

B11、根据B10所述的语音合成系统，所述分析评估单元用于：

B12、根据B10所述的语音合成系统，所述分析评估单元用于：

B13、根据B10所述的语音合成系统，所述采集转化单元包括有：

采集子单元，用于采集外部输入的语音输入信号；

B14、根据B10所述的语音合成系统，所述还包括：

发送单元，用于将所述文本数据发送至NLP引擎；

所述分析反馈单元用于：

B15、根据B10所述的语音合成系统，所述分析反馈单元包括有：

第二转化子单元，用于将所述文本数据转化为机器语言；

领域意图分析子单元，用于分析所述机器语言中对应的领域和意图信息；

反馈生成子单元，用于根据所述领域和所述意图信息以生成对应的反馈信息。

B16、根据B15所述的语音合成系统，所述分析反馈单元还包括有：

槽位填充子单元，用于根据所述机器语言以填充所述意图信息对应的意图槽位；

所述反馈生成子单元，用于根据所述领域、所述意图信息以及所述意图槽位以匹配生成对应的反馈信息。

B17、根据B16所述的语音合成系统，所述分析评估单元进一步用于：

B18、根据B10～B17任一项所述的语音合成系统，所述语音合成后端策略设为波形拼接的语音合成策略或基于统计参数建模的语音合成策略。

还提出了C19、一种存储介质，用于存储一种用于执行A1～A9中任意一种所述语音合成方法的计算机程序。

还提出了D20、一种计算机设备，包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现A1～A9任一项所述的语音合成方法。

Claims

1.一种语音合成方法，其特征在于，包括有：

采集转化步骤，采集语音输入信号并转化成文本数据；

2.根据权利要求1所述的语音合成方法，其特征在于，所述分析评估步骤包括：

3.根据权利要求1所述的语音合成方法，其特征在于，所述分析评估步骤包括：

4.根据权利要求1所述的语音合成方法，其特征在于，所述采集转化步骤包括：

采集步骤，采集外部输入的语音输入信号；

5.一种语音合成系统，其特征在于，包括有：

采集转化单元，用于采集语音输入信号并转化成文本数据；

6.根据权利要求5所述的语音合成系统，其特征在于，所述分析评估单元用于：

7.根据权利要求5所述的语音合成系统，其特征在于，所述分析评估单元用于：

8.根据权利要求5所述的语音合成系统，其特征在于，所述采集转化单元包括有：

采集子单元，用于采集外部输入的语音输入信号；

9.一种存储介质，其特征在于，用于存储一种用于执行权利要求1～4中任意一种所述语音合成方法的计算机程序。

10.一种计算机设备，包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～4任一项所述的语音合成方法。