CN110808028B

CN110808028B - 嵌入式语音合成方法、装置以及控制器和介质

Info

Publication number: CN110808028B
Application number: CN201911157037.4A
Authority: CN
Inventors: 郑杰文
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2022-05-17
Anticipated expiration: 2039-11-22
Also published as: CN110808028A

Abstract

本发明涉及一种嵌入式语音合成方法、装置以及控制器和介质，所述方法包括获取嵌入式设备的待播放文本信息；从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树；根据所述待播放文本信息的文本排序将所述多个语言学特征树合并为一个目标语言学特征树；将所述目标语言学特征树合成为语音。本发明减小了在嵌入式设备上所需占用的存储空间，提高了嵌入式语音合成的质量。

Description

嵌入式语音合成方法、装置以及控制器和介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种嵌入式语音合成方法、装置以及控制器和介质。

背景技术

嵌入式设备合成在很多场景下不需要任意文字的合成，通常只需要做相关领域文本的合成，嵌入式系统计算资源和存储资源相较云端要少很多，在少量资源下，必须要妥协文本转语音(也称为语音合成，英文简称TTS)的质量才可以做到完全离线。由此可知，现有技术中，在没有网络的情况下，若要在嵌入式设备上实现一套高质量的TTS依然较为困难。

语音合成引擎通常可分为前端引擎和后端引擎，前端可以理解为将字符映射为音素等一些人工的语言学特征，后端将这些特征转化为原始波形输出。

现有的嵌入式语音合成技术中，为了减少占用嵌入式设备的计算资源和存储资源，通常把合成引擎压缩到嵌入式设备中，压缩后的合成引擎由于对算法和存储数据的裁剪，将导致声音合成的质量下降。此外，为了合成领域内的声音，会把预先录制好的声音片段放到嵌入式设备之中，合成时使用算法挑选出相关声音片段再拼接到一起。由此可知，现有嵌入式语音合成技术至少具有以下缺点：第一、嵌入式设备上存储声音片段依然要占用较多存储空间，第二、拼接出的声音不够自然。

发明内容

本发明目的在于，提供一种嵌入式语音合成方法、装置以及控制器和介质，减小了在嵌入式设备上所需占用的存储空间，提高了嵌入式语音合成的质量。

为了解决上述技术问题，根据本发明的一方面，提供了一种嵌入式语音合成方法，包括:

获取嵌入式设备的待播放文本信息；

从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树；

根据所述待播放文本信息的文本排序将所述多个语言学特征树合并为一个目标语言学特征树；

将所述目标语言学特征树合成为语音。

进一步的，所述方法还包括：

编写业务场景对应的话术模板，所述话术模板包括至少一个固定部分和/或至少一个变化部分，每一所述固定部分对应一个固定的文本信息，每一所述变化部分对应多个可选的文本信息中的其中一个；

将每一所述固定部分和变化部分对应生成一个语言学特征树，并存储至数据库中；

将所述数据库导入嵌入式设备中。

进一步的，所述将每一所述固定部分和变化部分对应生成一个语言学特征树的过程在云端进行。

进一步的，所述生成一个语言学特征树，包括：

将文本信息中的罗马数字转换为汉字；

对转换后的文本信息的汉字做分词处理，并为每个词预测词性；

预测所述转换后的文本信息中发音停顿的位置；

为所述转换后的文本信息的每个汉字注上拼音；

采用树的结构将所述转换后的文本信息的汉字、每个词的词性、发音停顿的位置以及每个汉字的拼音保存起来，生成语言学特征树。

进一步的，从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树，包括：

根据所述待播放文本信息确定对应的目标话术模板；

指定所述目标话术模板的变化部分对应的文本信息；

从所述数据库中获取所述目标话术模板的固定部分以及所指定的变化部分所对应的语言学特征树。

根据本发明的另一方面，提供了一种嵌入式语音合成装置，包括:

文本信息获取模块，配置为获取嵌入式设备的待播放文本信息；

特征树获取模块，配置为从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树；

特征树合并模块，配置为根据所述待播放文本信息的文本排序将所述多个语言学特征树合并为一个目标语言学特征树；

语音合成模块，配置为将所述目标语言学特征树合成为语音。

进一步的，所述装置还包括：

模板编写模块，配置为编写业务场景对应的话术模板，所述话术模板包括至少一个固定部分和/或至少一个变化部分，每一所述固定部分对应一个固定的文本信息，每一所述变化部分对应多个可选的文本信息中的其中一个；

特征树生成模块，配置为将每一所述固定部分和变化部分对应生成一个语言学特征树，并存储至数据库中；

数据库导入模块，配置为将所述数据库导入嵌入式设备中。

进一步的，所述特征树生成模块设置在云端。

进一步的，所述特征树生成模块包括：

转换单元，配置为将文本信息中的罗马数字转换为汉字；

分词单元，配置为对转换后的文本信息的汉字做分词处理，并为每个词预测词性；

发音预测单元，配置为预测所述转换后的文本信息中发音停顿的位置；

拼音标注单元，配置为所述转换后的文本信息的每个汉字注上拼音；

特征树生成单元，配置为采用树的结构将所述转换后的文本信息的汉字、每个词的词性、发音停顿的位置以及每个汉字的拼音保存起来，生成语言学特征树。

进一步的，所述特征树获取模块包括：

模板确定单元，配置为根据所述待播放文本信息确定对应的目标话术模板；

信息指定单元，配置为指定所述目标话术模板的变化部分对应的文本信息；

特征树获取单元，配置为从所述数据库中获取所述目标话术模板的固定部分以及所指定的变化部分所对应的语言学特征树。

根据本发明又一方面，提供一种控制器，其包括存储器与处理器，所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现所述方法的步骤。

根据本发明又一方面，提供一种计算机可读存储介质，用于存储计算机指令，所述指令在由一计算机或处理器执行时实现所述方法的步骤。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明一种嵌入式语音合成方法、装置以及控制器和介质可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明在嵌入式设备上只存储语言学特征树文本，不需要存储预先录制的语音，可以大幅度降低对嵌入式设备的存储空间需求；此外，本发明不在声音领域做拼接，而是在语言学特征树层面做拼接，通过后端声学模型生成语音，有效解决了拼接算法带来的语音不自然的问题，提高语音合成质量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供嵌入式语音合成方法流程图；

图2为本发明一实施例提供的嵌入式语音合成装置示意图。

【符号说明】

1：文本信息获取模块 2：特征树获取模块

3：电特征树合并模块 4：语音合成模块

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种嵌入式语音合成方法、装置以及控制器和介质的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种嵌入式语音合成方法，如图1所示，包括:

步骤S1、获取嵌入式设备的待播放文本信息；

其中，所述待播放的文本信息为待合成语音的文本信息，待播放的文本信息可以为用户通过嵌入式设备直接输入的文本信息，也可以是用户通过与嵌入式设备进行语音交互所转换来的文本信息等。

步骤S2、从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树；

步骤S3、根据所述待播放文本信息的文本排序将所述多个语言学特征树合并为一个目标语言学特征树；

步骤S4、将所述目标语言学特征树合成为语音。

其中，可直接使用现有的TTS后端引擎中的声学模型将目标语言学特征树合成为语音。

本发明实施例所述方法在嵌入式设备上只存储语言学特征树文本，不需要存储预先录制的语音，可以大幅度降低对嵌入式设备的存储空间需求；此外，本发明实施例不在声音领域做拼接，而是在语言学特征树层面做拼接，通过后端声学模型生成语音，合成语音自然且质量高。

作为一种示例，所述方法还包括：

步骤S101、编写业务场景对应的话术模板，所述话术模板包括至少一个固定部分和/或至少一个变化部分，每一所述固定部分对应一个固定的文本信息，每一所述变化部分对应多个可选的文本信息中的其中一个；

其中，业务场景有多种，例如天气播报业务场景、银行柜台叫号业务场景、饭店播报菜单及菜价业务场景等等。每种业务场景有其对应的话术模板，话术模板是一句一句的话，话中可包括固定部分和变化部分，例如话术模板可为“{xx}天气很好。”{xx}为变化部分，具体可为“昨天”，“今天”,“明天”中的一个，“天气很好”为话术模板的固定部分，需要说明的是，变化部分可穷举所有可能变化的值。

步骤S102、将每一所述固定部分和变化部分对应生成一个语言学特征树，并存储至数据库中；

步骤S103、将所述数据库导入嵌入式设备中。

作为示例，步骤S102中，将每一所述固定部分和变化部分对应生成一个语言学特征树的过程不在嵌入式设备上进行，可直接在云端进行。前端文字处理的部分交给云端一次性生成，在嵌入式设备上只用很小的存储资源就可以完成合成，可以大幅度降低对嵌入式设备的存储空间需求。

所述步骤S102中，所述生成一个语言学特征树，包括：

步骤S1021、将文本信息中的罗马数字转换为汉字；

其中，可采用正则处理，将将文本信息中的罗马数字转换为汉字。

步骤S1022、对转换后的文本信息的汉字做分词处理，并为每个词预测词性；

其中，可采用现有的分词技术对转换后的文本信息的汉字做分词处理，采用现有的词性预测技术为每个词预测词性，在此不再赘述。

步骤S1023、预测所述转换后的文本信息中发音停顿的位置；

其中，可采用现有的韵律模型预测出文本信息句子中发音停顿的位置。

步骤S1024、为所述转换后的文本信息的每个汉字注上拼音；

步骤S1025、采用树的结构将所述转换后的文本信息的汉字、每个词的词性、发音停顿的位置以及每个汉字的拼音保存起来，生成语言学特征树。

需要说明的是，上述示例是以中文文本为例进行说明，本发明所述方法同样适用于其他语言，如英文、日文、韩文等等，但可以理解的是，本发明适用于其他语言过程中，所涉及的相应的语法规则为该语言所对应的语法规则。

作为一种示例，所述步骤S2包括：

步骤S21、根据所述待播放文本信息确定对应的目标话术模板；

步骤S22、指定所述目标话术模板的变化部分对应的文本信息；

步骤S23、从所述数据库中获取所述目标话术模板的固定部分以及所指定的变化部分所对应的语言学特征树。

以下通过语音控制的空调产品的使用场景，对本发明实施例所述方法进行进一步说明：

本实施例中所涉及产品为带语音控制的空调产品，该空调内置语音识别，语意理解，以及本发明实施例所述的嵌入式语音合成技术，在没有网络的情况下，用户可以用语音指令让空调调整温度，询问当前温度。

例如：用户问：“现在几度？”

空调回答：“现在温度是26度。”

用户问：“把温度调到28度。”

空调回答：“好的，已经为你调整到28度。”

此场景下嵌入式语音合成技术如何自作：

通过计算机(PC)软件制作话术模板。本实施例中有两个话术模板：

“把温度调到{xx}度。”、“好的，已经为你调整到{xx}度。”

其中{xx}为变量，假定可以取值为：一，二，三，四…二十九，三十，三十一，三十二，三十三。

PC软件收到用户输入到模板信息后，把用户模板拆解成如下小句子：

“把温度调到”、“度”、“好的，已经为你调整到”以及从“一”到“三十三”这33个数字。

PC软件调用TTS前端引擎，对每一个小句子提取出语言学特征树，并把这些特征树以及话术模板保存在一个目标数据库中。

把目标数据库以及嵌入式TTS后端引擎放到空调内的嵌入式系统之中。用户合成时，先选择一个话术模板，如：“好的，已经为你调整到{xx}度”。然后选择{xx}的值，如选择“二十六”。

分别从嵌入式设备的数据库中找到：“已经为你调整到”，“二十六”，“度”三个语言学特征树，并把这三个特征树拼接成目标语言学特征树。

把目标语言学特征树送给后端合成引擎，合成出声音。

本发明实施例所述方法在嵌入式设备上只存储语言学特征树文本，不需要存储预先录制的语音，可以大幅度降低对嵌入式设备的存储空间需求；此外，本发明实施例所述方法不在声音领域做拼接，而是在语言学特征树层面做拼接，通过后端声学模型生成语音，有可效解决拼接算法带来的语音不自然的问题，提高语音合成质量。

本发明实施例还提供了一种嵌入式语音合成装置，如图2所示，包括文本信息获取模块1、特征树获取模块2、特征树合并模块3和语音合成模块4，其中，文本信息获取模块1配置为获取嵌入式设备的待播放文本信息，所述待播放的文本信息为待合成语音的文本信息，待播放的文本信息可以为用户通过嵌入式设备直接输入的文本信息，也可以是用户通过与嵌入式设备进行语音交互所转换来的文本信息等。特征树获取模块2配置为从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树；特征树合并模块3配置为根据所述待播放文本信息的文本排序将所述多个语言学特征树合并为一个目标语言学特征树；语音合成模块4配置为将所述目标语言学特征树合成为语音，例如可直接使用现有的TTS后端引擎中的声学模型将目标语言学特征树合成为语音。

本发明实施例所述装置在嵌入式设备上只存储语言学特征树文本，不需要存储预先录制的语音，可以大幅度降低对嵌入式设备的存储空间需求；此外，本发明实施例不在声音领域做拼接，而是在语言学特征树层面做拼接，通过后端声学模型生成语音，合成语音自然且质量高。

作为一种示例，所述装置还包括模板编写模块、特征树生成模块和数据库导入模块，其中，模板编写模块配置为编写业务场景对应的话术模板，所述话术模板包括至少一个固定部分和/或至少一个变化部分，每一所述固定部分对应一个固定的文本信息，每一所述变化部分对应多个可选的文本信息中的其中一个，其中，业务场景有多种，例如天气播报业务场景、银行柜台叫号业务场景、饭店播报菜单及菜价业务场景等等。每种业务场景有其对应的话术模板，话术模板是一句一句的话，话中可包括固定部分和变化部分，例如话术模板可为“{xx}天气很好。”{xx}为变化部分，具体可为“昨天”，“今天”,“明天”中的一个，“天气很好”为话术模板的固定部分，需要说明的是，变化部分可穷举所有可能变化的值。特征树生成模块配置为将每一所述固定部分和变化部分对应生成一个语言学特征树，并存储至数据库中；数据库导入模块配置为将所述数据库导入嵌入式设备中。所述特征树生成模块可设置在云端，前端文字处理的部分交给云端一次性生成，在嵌入式设备上只用很小的存储资源就可以完成合成，可以大幅度降低对嵌入式设备的存储空间需求。云端通常指设置于远程的、与所述嵌入式设备通信连接的、具有较强运算能力的服务器(又称为云服务器)。

作为一种示例，所述特征树生成模块包括转换单元、分词单元、发音预测单元、拼音标注单元和特征树生成单元，其中，转换单元配置为将文本信息中的罗马数字转换为汉字，例如，可采用正则处理，将将文本信息中的罗马数字转换为汉字。分词单元配置为对转换后的文本信息的汉字做分词处理，并为每个词预测词性，具体可采用现有的分词技术对转换后的文本信息的汉字做分词处理，采用现有的词性预测技术为每个词预测词性，在此不再赘述。发音预测单元配置为预测所述转换后的文本信息中发音停顿的位置，具体可采用现有的韵律模型预测出文本信息句子中发音停顿的位置。拼音标注单元配置为所述转换后的文本信息的每个汉字注上拼音；特征树生成单元配置为采用树的结构将所述转换后的文本信息的汉字、每个词的词性、发音停顿的位置以及每个汉字的拼音保存起来，生成语言学特征树。需要说明的是，上述示例是以中文文本为例进行说明，本发明所述装置同样适用于其他语言，如英文、日文、韩文等等，但可以理解的是，本发明适用于其他语言过程中，所涉及的相应的语法规则为该语言所对应的语法规则。

作为一种示例，所述特征树获取模块2包括模板确定单元、信息指定单元和特征树获取单元，其中，模板确定单元配置为根据所述待播放文本信息确定对应的目标话术模板；信息指定单元配置为指定所述目标话术模板的变化部分对应的文本信息；特征树获取单元配置为从所述数据库中获取所述目标话术模板的固定部分以及所指定的变化部分所对应的语言学特征树。

本发明实施例所述装置在嵌入式设备上只存储语言学特征树文本，不需要存储预先录制的语音，可以大幅度降低对嵌入式设备的存储空间需求；此外，本发明实施例所述装置不在声音领域做拼接，而是在语言学特征树层面做拼接，通过后端声学模型生成语音，有可效解决拼接算法带来的语音不自然的问题，提高语音合成质量。

本发明实施例还提供一种控制器，其包括存储器与处理器，所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现所述嵌入式语音合成方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储计算机指令，所述指令在由一计算机或处理器执行时实现所述嵌入式语音合成方法的步骤。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种嵌入式语音合成方法，其特征在于，包括:

获取嵌入式设备的待播放文本信息；

将所述目标语言学特征树合成为语音；

所述方法还包括：

将所述数据库导入嵌入式设备中；

所述将每一所述固定部分和变化部分对应生成一个语言学特征树的过程在云端进行。

2.根据权利要求1所述的嵌入式语音合成方法，其特征在于，

所述生成一个语言学特征树，包括：

将文本信息中的罗马数字转换为汉字；

预测所述转换后的文本信息中发音停顿的位置；

为所述转换后的文本信息的每个汉字注上拼音；

3.根据权利要求1所述的嵌入式语音合成方法，其特征在于，

从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树，包括：

根据所述待播放文本信息确定对应的目标话术模板；

指定所述目标话术模板的变化部分对应的文本信息；

4.一种嵌入式语音合成装置，其特征在于，包括:

语音合成模块，配置为将所述目标语言学特征树合成为语音；

所述装置还包括：

数据库导入模块，配置为将所述数据库导入嵌入式设备中；

所述特征树生成模块设置在云端。

5.根据权利要求4所述的嵌入式语音合成装置，其特征在于，

所述特征树生成模块包括：

转换单元，配置为将文本信息中的罗马数字转换为汉字；

6.根据权利要求4所述的嵌入式语音合成装置，其特征在于，

所述特征树获取模块包括：

7.一种控制器，其包括存储器与处理器，其特征在于,所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现权利要求1至3中任意一项权利要求所述的方法的步骤。

8.一种计算机可读存储介质，用于存储计算机指令，其特征在于,所述指令在由一计算机或处理器执行时实现如权利要求1至3中任意一项权利要求所述的方法的步骤。