CN109584859A

CN109584859A - 语音合成方法及装置

Info

Publication number: CN109584859A
Application number: CN201811318970.0A
Authority: CN
Inventors: 周广益
Original assignee: Shanghai Jian Wang Mdt Infotech Ltd
Current assignee: Shanghai Jian Wang Mdt Infotech Ltd
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-04-05

Abstract

本申请公开了一种语音合成方法及装置，涉及音频处理领域，该方法包括：获取用于语音播放的目标文字信息；根据所述目标文字信息中的固定文字，得到第一音频文件；识别并提取所述目标文字信息中的特征文字，得到特征文字信息；对所述特征文字信息进行音频录制，得到第二音频文件；将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件。本申请采用识别并提取目标文字信息中的特征文字的方式，通过对特征文字信息进行针对性的音频录制，达到了最终的目标音频文件都是由人来录制的目的，从而实现了高度拟人化的技术效果，进而解决了相关技术中机器人合成的语音文件在播放时生硬僵化，缺乏拟人感的问题。

Description

语音合成方法及装置

技术领域

本申请涉及音频处理领域，具体而言，涉及一种语音合成方法及装置。

背景技术

相关技术中机器人根据目标文本信息生成对应的语音文件并播放时，由于目标文本信息的多变性，机器人往往采用固定的电子声音播放，用户听到时能明显感觉到是机器人在讲话，而不是真实的人类在讲话，沟通过程生硬僵化，缺乏拟人感。

针对相关技术中机器人合成的语音文件在播放时生硬僵化，缺乏拟人感的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种语音合成方法及装置，以解决相关技术中机器人合成的语音文件在播放时生硬僵化，缺乏拟人感的问题。

为了实现上述目的，根据本申请的第一方面，本申请实施例提供了一种语音合成方法，所述方法包括：获取用于语音播放的目标文字信息；根据所述目标文字信息中的固定文字，得到第一音频文件；识别并提取所述目标文字信息中的特征文字，得到特征文字信息；对所述特征文字信息进行音频录制，得到第二音频文件；将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述特征文字信息包括：姓名信息、金额信息和日期信息中的至少一种。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述对特征文字信息进行音频录制，得到第二音频文件包括：提取所述第一音频文件中的音频特征信息；通过训练语料对预设机器学习模型进行特征训练，得到所述第二音频文件，其中，所述训练语料包括所述音频特征信息和所述特征文字信息。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述对特征文字信息进行音频录制，得到第二音频文件包括：对所述特征文字信息中的每个特征文字进行拼音拆解，得到每个所述特征文字的拼音字母和拼音声调；根据所述特征文字的拼音字母和拼音声调，生成对应的所述第二音频文件。

结合第一方面，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述根据目标文字信息中的固定文字，得到第一音频文件包括：识别并提取所述目标文字信息中的固定文字，并将所述固定文字划分为多个固定文字编组；判断预设音频数据库中是否包含每个所述固定文字编组所对应的第三音频文件；如果判定所述预设音频数据库中包含有每个所述固定文字编组所对应的第三音频文件，则提取并合并所述第三音频文件，得到所述第一音频文件。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述将第一音频文件和所述第二音频文件进行拼接，得到目标音频文件包括：根据所述目标文字信息和预设划分规则，得到所述第一音频文件和所述第二音频文件的拼接位置；根据所述拼接位置拼接所述第一音频文件和所述第二音频文件，得到目标音频文件。

为了实现上述目的，根据本申请的第二方面，本申请实施例提供了一种语音合成装置，获取用于语音播放的目标文字信息，包括：第一音频文件获取单元，用于根据所述目标文字信息中的固定文字，得到第一音频文件；特征文字信息提取单元，用于识别并提取所述目标文字信息中的特征文字，得到特征文字信息；第二音频文件获取单元，用于对所述特征文字信息提取单元提取得到的特征文字信息进行音频录制，得到第二音频文件；音频合成单元，用于将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述第二音频文件获取单元包括：音频特征信息提取模块，用于提取所述第一音频文件中的音频特征信息；模型训练模块，用于通过训练语料对预设机器学习模型进行特征训练，得到所述第二音频文件，其中，所述训练语料包括所述音频特征信息提取模块提取得到的音频特征信息和所述特征文字信息提取单元提取得到的特征文字信息。

结合第二方面，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述第二音频文件获取单元包括：固定文字编组模块，用于识别并提取所述目标文字信息中的固定文字，并将所述固定文字划分为多个固定文字编组；判断模块，用于判断预设音频数据库中是否包含每个所述固定文字编组所对应的第三音频文件；第二音频文件合成模块，用于如果判定所述预设音频数据库中包含有每个所述固定文字编组所对应的第三音频文件，则提取并合并所述第三音频文件，得到所述第一音频文件。

结合第二方面，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述音频合成单元包括：拼接位置确定模块，用于根据所述目标文字信息和预设划分规则，得到所述第一音频文件和所述第二音频文件的拼接位置；音频拼接模块，用于根据所述拼接位置拼接所述第一音频文件和所述第二音频文件，得到目标音频文件。

在本申请实施例中，采用识别并提取目标文字信息中的特征文字的方式，通过对特征文字信息进行针对性的音频录制，达到了最终的目标音频文件都是由人来录制的目的，从而实现了高度拟人化的技术效果，进而解决了相关技术中机器人合成的语音文件在播放时生硬僵化，缺乏拟人感的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请所述一种语音合成方法的流程图；

图2是本申请图1中步骤S103的详细流程图；

图3是本申请图1中步骤S103的另一实施例的详细流程图；

图4是本申请图1中步骤S101的详细流程图；

图5是本申请图1中步骤S104的详细流程图；

图6是根据本申请提供的一种语音合成装置的示意图；

图7是本申请图6中第二音频文件获取单元20的详细框图示意图；

图8是本申请图6中第二音频文件获取单元20的另一实施例的详细框图示意图；以及

图9是本申请图7中音频合成单元40的详细框图示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

考虑到相关技术中机器人根据目标文本信息生成对应的语音文件并播放时，由于目标文本信息的多变性，机器人往往采用固定的电子声音播放，用户听到时能明显感觉到是机器人在讲话，而不是真实的人类在讲话，沟通过程生硬僵化，缺乏拟人感，本申请提供了一种语音合成方法及装置。

如图1所示，该方法包括如下的步骤S101至步骤S104：

首先，获取用于语音播放的目标文字信息，具体的，根据服务器数据库中采集得到的用户的个人信息和欠款信息，以及对应的催收模板，生成用于语音播放的目标文字信息，所述个人信息包括但不限于：姓名信息和性别信息，所述欠款信息包括但不限于：欠款金额和缴纳截止日期。

实施例一：

通过电话进行贷款催收工作时，可以采用本发明所述的语音合成方法来合成用于电话播放的音频文件，具体的，根据服务器数据库中采集得到的用户的个人信息和欠款信息，以及对应的催收模板，生成用于语音播放的目标文字信息，比如所述用户的个人信息中的姓名信息为“张三”，性别信息为“男”，所述用户的欠款信息中的欠款金额为“10000元”，缴纳截止日期为“2018年10月1日”，将上述信息与预设催收模块结合，得到最终的目标文字信息，可以为“张三先生您好，您的欠款金额为10000元，请您于2018年10月1日前及时缴纳，谢谢”。

步骤S101，根据所述目标文字信息中的固定文字，得到第一音频文件；

优选的，所述目标文字信息中的固定文字为上述催收模板中的预设文字，不包含所述用户的个人信息和欠款信息，比如“您好”、“您的欠款金额为”、“请您于xxx前及时缴纳”和“谢谢”，从所述目标文字信息中将所述固定文字识别并提取出来，根据所述固定文字去预设音频数据库中匹配对应的第一音频文件，具体的，所述第一音频文件可以为一个文字的音频，也可以为一个词语的音频，还可以为一段文字的音频。

实施例二：

假如所述目标文字信息为“张三先生您好，您的欠款金额为10000元，请您于2018年10月1日前及时缴纳，谢谢”，则识别并提取其中的固定文字“您好”、“您的欠款金额为”、“请您于”、“前及时缴纳”和“谢谢”，然后根据所述固定文字去预设音频数据库中匹配对应的音频文件，找到发音为“您好”、“您的欠款金额为”、“请您于”、“前及时缴纳”和“谢谢”的五段音频文件，即为所述第一音频文件。

步骤S102，识别并提取所述目标文字信息中的特征文字，得到特征文字信息；

优选的，所述目标文字信息中的包含有所述用户个人信息和/或欠款信息，比如“张三”、“先生”、“10000元”和“2018年10月1日”，从所述目标文字信息中将所述特征文字识别并提取出来，得到特征文字信息。

步骤S103，对所述特征文字信息进行音频录制，得到第二音频文件；

优选的，根据所述特征文字去预设音频数据库中匹配对应的第二音频文件，也可以通过机器学习，动态生成所述特征文字对应的第二音频文件，具体的，所述第二音频文件可以为一个文字的音频，也可以为一个词语的音频，还可以为一段文字的音频。

实施例三：

假如所述目标文字信息为“张三先生您好，您的欠款金额为10000元，请您于2018年10月1日前及时缴纳，谢谢”，则识别并提取其中的特征文字“张三”、“先生”、“10000元”和“2018年10月1日”，然后根据所述特征文字去预设音频数据库中匹配对应的音频文件，找到发音为“张三”、“先生”、“10000元”和“2018年10月1日”的四段音频文件，即为所述第二音频文件。

实施例四：

假如所述目标文字信息为“张三先生您好，您的欠款金额为10000元，请您于2018年10月1日前及时缴纳，谢谢”，则识别并提取其中的特征文字“张三”、“先生”、“10000元”和“2018年10月1日”，然后将所述特征文字和步骤S101中得到的第一音频文件的音色音调作为机器学习的训练语料，训练预设机器学习模型，得到发音为“张三”、“先生”、“10000元”和“2018年10月1日”的四段音频文件，即为所述第二音频文件。

步骤S104，将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件。

优选的，通过获取得到的所述目标文字信息，即可得知每个所述固定文字和每个所述特征文字在整段话中各自的拼接位置，将步骤S101得到的所述第一音频文件和步骤S103得到的所述第二音频文件按照所述拼接位置，拼接为一段完整的音频文件，即所述目标音频文件。

从以上的描述中，可以看出，本发明实现了如下技术效果：

根据本发明实施例，作为本申请实施例中的优选，所述特征文字信息包括：姓名信息、金额信息和日期信息中的至少一种，比如，所述姓名信息为“张三”，所述金额信息为“10000元”，所述日期信息为“2018年10月1日”，在本申请的其他实施例中，所述特征文字信息还可以为其他与贷后催收相关的变量信息。

根据本发明实施例，作为本申请实施例中的优选，如图2所示，所述对特征文字信息进行音频录制，得到第二音频文件包括如下的步骤S201至步骤S202：

步骤S201，提取所述第一音频文件中的音频特征信息；

优选的，所述第一音频文件由同一录音员录制，并存储于音频数据库中，所述录音员的音频特征信息包括但不限于：响度(人主观上感觉声音的大小，俗称音量，由“振幅”决定，振幅越大响度越)、音调(声音的高低，即高音低音，由“频率”决定，频率越高音调越高)和音色(声音的特性，由发声物体本身材料、结构决定，又称音品)。

步骤S202，通过训练语料对预设机器学习模型进行特征训练，得到所述第二音频文件，其中，所述训练语料包括所述音频特征信息和所述特征文字信息。

优选的，将上述步骤S201得到的所述录音员的音频特征信息(响度、音调和音色)和上述步骤S102得到的所述特征文字信息作为机器学习模型用于模型训练的训练语料，对所述机器学习模型进行模型训练，得到符合所述录音员的音频特征信息(响度、音调和音色)的、内容为所述特征文字信息的音频文件，即所述第二音频文件。

实施例五：

假如所述录音员的音频特征信息为：响度100dB、音调200Hz和音色圆润，所述特征文字信息为“张三”、“先生”、“10000元”和“2018年10月1日”，则将上述录音员的音频特征信息和特征文字信息作为机器学习模型用于模型训练的训练语料，对所述机器学习模型进行模型训练，得到响度100dB、音调200Hz、音色圆润的“张三”、“先生”、“10000元”和“2018年10月1日”四段音频文件，即为所述第二音频文件。

根据本发明实施例，作为本申请实施例中的优选，如图3所示，所述对特征文字信息进行音频录制，得到第二音频文件包括如下的步骤S301至步骤S302：

步骤S301，对所述特征文字信息中的每个特征文字进行拼音拆解，得到每个所述特征文字的拼音字母和拼音声调；

优选的，所述拼音拆解具体为将每个特征文字所对应的拼音拆分为至少一个拼音字母和对应的拼音声调，比如，所述特征文字为“张”，则拆解后的拼音字母为：“z”、“h”、“a”、“n”和“g”，拼音声调为“一声”。

步骤S302，根据所述特征文字的拼音字母和拼音声调，生成对应的所述第二音频文件。

优选的，根据上述步骤S301得到的拼音字母和拼音声调，匹配预设音频数据库中的音频文件，得到发音为“zhang”、声调为“一声”的音频文件，即所述第二音频文件。

根据本发明实施例，作为本申请实施例中的优选，如图4所示，所述根据目标文字信息中的固定文字，得到第一音频文件包括如下的步骤S401至步骤S403：

步骤S401，识别并提取所述目标文字信息中的固定文字，并将所述固定文字划分为多个固定文字编组；

优选的，所述目标文字信息中的固定文字为上述催收模板中的预设文字，不包含所述用户的个人信息和欠款信息，比如“您好”、“您的欠款金额为”、“请您于xxx前及时缴纳”和“谢谢”，从所述目标文字信息中将所述固定文字识别并提取出来，并按照预设规则进行编组，比如将两个固定文字“您”和“好”设定为第一编组，内容为“您好”；将一个固定文字“的”设定为第二编组，内容为“的”；将多个固定文字“前”、“及”、“时”、“缴”和“纳”设置为第三编组，内容为“前及时缴纳”。

步骤S402，判断预设音频数据库中是否包含每个所述固定文字编组所对应的第三音频文件；

优选的，根据上述步骤S401得到的固定文字编组，判断预设音频数据库中是否能够匹配到对应的第三音频文件，具体的，所述第三音频文件可以为一个文字的音频，也可以为一个词语的音频，还可以为一段文字的音频。

步骤S403，如果判定所述预设音频数据库中包含有每个所述固定文字编组所对应的第三音频文件，则提取并合并所述第三音频文件，得到所述第一音频文件。

优选的，如果判断预设音频数据库中能够匹配到对应的第三音频文件，则从预设音频数据库中提取所述第三音频文件，并合并为所述第一音频文件。

根据本发明实施例，作为本申请实施例中的优选，如图5所示，所述将第一音频文件和所述第二音频文件进行拼接，得到目标音频文件包括如下的步骤S501至步骤S502：

步骤S501，根据所述目标文字信息和预设划分规则，得到所述第一音频文件和所述第二音频文件的拼接位置；

优选的，通过获取得到的所述目标文字信息，即可得知每个所述固定文字和每个所述特征文字在整段话中各自的拼接位置。

步骤S502，根据所述拼接位置拼接所述第一音频文件和所述第二音频文件，得到目标音频文件。

优选的，将步骤S101得到的所述第一音频文件和步骤S103得到的所述第二音频文件按照所述拼接位置，拼接为一段完整的音频文件，即所述目标音频文件。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述语音合成方法的装置，如图6所示，该装置包括：第一音频文件获取单元10，用于根据所述目标文字信息中的固定文字，得到第一音频文件；特征文字信息提取单元20，用于识别并提取所述目标文字信息中的特征文字，得到特征文字信息；第二音频文件获取单元30，用于对所述特征文字信息提取单元提取得到的特征文字信息进行音频录制，得到第二音频文件；音频合成单元40，用于将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件。

根据本申请实施例所述的第一音频文件获取单元10用于根据所述目标文字信息中的固定文字，得到第一音频文件，优选的，所述目标文字信息中的固定文字为上述催收模板中的预设文字，不包含所述用户的个人信息和欠款信息，比如“您好”、“您的欠款金额为”、“请您于xxx前及时缴纳”和“谢谢”，从所述目标文字信息中将所述固定文字识别并提取出来，根据所述固定文字去预设音频数据库中匹配对应的第一音频文件，具体的，所述第一音频文件可以为一个文字的音频，也可以为一个词语的音频，还可以为一段文字的音频。

根据本申请实施例所述的特征文字信息提取单元20用于识别并提取所述目标文字信息中的特征文字，得到特征文字信息，优选的，所述目标文字信息中的包含有所述用户个人信息和/或欠款信息，比如“张三”、“先生”、“10000元”和“2018年10月1日”，从所述目标文字信息中将所述特征文字识别并提取出来，得到特征文字信息。

根据本申请实施例所述的第二音频文件获取单元30用于对所述特征文字信息提取单元提取得到的特征文字信息进行音频录制，得到第二音频文件，优选的，根据所述特征文字去预设音频数据库中匹配对应的第二音频文件，也可以通过机器学习，动态生成所述特征文字对应的第二音频文件，具体的，所述第二音频文件可以为一个文字的音频，也可以为一个词语的音频，还可以为一段文字的音频。

根据本申请实施例所述的音频合成单元40用于将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件，优选的，通过获取得到的所述目标文字信息，即可得知每个所述固定文字和每个所述特征文字在整段话中各自的拼接位置，将第一音频文件获取单元10得到的所述第一音频文件和第二音频文件获取单元30得到的所述第二音频文件按照所述拼接位置，拼接为一段完整的音频文件，即所述目标音频文件。

根据本发明实施例，作为本申请实施例中的优选，如图7所示，所述第二音频文件获取单元30包括：音频特征信息提取模块31，用于提取所述第一音频文件中的音频特征信息；模型训练模块32，用于通过训练语料对预设机器学习模型进行特征训练，得到所述第二音频文件，其中，所述训练语料包括所述音频特征信息提取模块提取得到的音频特征信息和所述特征文字信息提取单元提取得到的特征文字信息。

根据本申请实施例所述的音频特征信息提取模块31用于提取所述第一音频文件中的音频特征信息，优选的，所述第一音频文件由同一录音员录制，并存储于音频数据库中，所述录音员的音频特征信息包括但不限于：响度(人主观上感觉声音的大小，俗称音量，由“振幅”决定，振幅越大响度越)、音调(声音的高低，即高音低音，由“频率”决定，频率越高音调越高)和音色(声音的特性，由发声物体本身材料、结构决定，又称音品)。

根据本申请实施例所述的模型训练模块32用于通过训练语料对预设机器学习模型进行特征训练，得到所述第二音频文件，优选的，将上述音频特征信息提取模块31得到的所述录音员的音频特征信息(响度、音调和音色)和上述特征文字信息提取单元20得到的所述特征文字信息作为机器学习模型用于模型训练的训练语料，对所述机器学习模型进行模型训练，得到符合所述录音员的音频特征信息(响度、音调和音色)的、内容为所述特征文字信息的音频文件，即所述第二音频文件。

根据本发明实施例，作为本申请实施例中的优选，如图8所示，所述第二音频文件获取单元30还包括：固定文字编组模块33，用于识别并提取所述目标文字信息中的固定文字，并将所述固定文字划分为多个固定文字编组；判断模块34，用于判断预设音频数据库中是否包含每个所述固定文字编组所对应的第三音频文件；第二音频文件合成模块35，用于如果判定所述预设音频数据库中包含有每个所述固定文字编组所对应的第三音频文件，则提取并合并所述第三音频文件，得到所述第一音频文件。

根据本申请实施例所述的固定文字编组模块33用于识别并提取所述目标文字信息中的固定文字，并将所述固定文字划分为多个固定文字编组，优选的，所述目标文字信息中的固定文字为上述催收模板中的预设文字，不包含所述用户的个人信息和欠款信息，比如“您好”、“您的欠款金额为”、“请您于xxx前及时缴纳”和“谢谢”，从所述目标文字信息中将所述固定文字识别并提取出来，并按照预设规则进行编组，比如将两个固定文字“您”和“好”设定为第一编组，内容为“您好”；将一个固定文字“的”设定为第二编组，内容为“的”；将多个固定文字“前”、“及”、“时”、“缴”和“纳”设置为第三编组，内容为“前及时缴纳”。

根据本申请实施例所述的判断模块34用于判断预设音频数据库中是否包含每个所述固定文字编组所对应的第三音频文件，优选的，根据上述固定文字编组模块33得到的固定文字编组，判断预设音频数据库中是否能够匹配到对应的第三音频文件，具体的，所述第三音频文件可以为一个文字的音频，也可以为一个词语的音频，还可以为一段文字的音频。

根据本申请实施例所述的第二音频文件合成模块35用于如果判定所述预设音频数据库中包含有每个所述固定文字编组所对应的第三音频文件，则提取并合并所述第三音频文件，得到所述第一音频文件，优选的，如果判断预设音频数据库中能够匹配到对应的第三音频文件，则从预设音频数据库中提取所述第三音频文件，并合并为所述第一音频文件。

根据本发明实施例，作为本申请实施例中的优选，如图9所示，所述音频合成单元40包括：拼接位置确定模块41，用于根据所述目标文字信息和预设划分规则，得到所述第一音频文件和所述第二音频文件的拼接位置；音频拼接模块42，用于根据所述拼接位置拼接所述第一音频文件和所述第二音频文件，得到目标音频文件。

根据本申请实施例所述的拼接位置确定模块41用于根据所述目标文字信息和预设划分规则，得到所述第一音频文件和所述第二音频文件的拼接位置，优选的，通过获取得到的所述目标文字信息，即可得知每个所述固定文字和每个所述特征文字在整段话中各自的拼接位置。

根据本申请实施例所述的音频拼接模块42用于根据所述拼接位置拼接所述第一音频文件和所述第二音频文件，得到目标音频文件，优选的，将第一音频文件获取单元10得到的所述第一音频文件和第二音频文件获取单元30得到的所述第二音频文件按照所述拼接位置，拼接为一段完整的音频文件，即所述目标音频文件。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，获取用于语音播放的目标文字信息，其特征在于，所述方法包括：

根据所述目标文字信息中的固定文字，得到第一音频文件；

识别并提取所述目标文字信息中的特征文字，得到特征文字信息；

对所述特征文字信息进行音频录制，得到第二音频文件；以及

将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件。

2.根据权利要求1所述的语音合成方法，其特征在于，所述特征文字信息包括：姓名信息、金额信息和日期信息中的至少一种。

3.根据权利要求1所述的语音合成方法，其特征在于，所述对特征文字信息进行音频录制，得到第二音频文件包括：

提取所述第一音频文件中的音频特征信息；

通过训练语料对预设机器学习模型进行特征训练，得到所述第二音频文件，其中，所述训练语料包括所述音频特征信息和所述特征文字信息。

4.根据权利要求1所述的语音合成方法，其特征在于，所述对特征文字信息进行音频录制，得到第二音频文件包括：

对所述特征文字信息中的每个特征文字进行拼音拆解，得到每个所述特征文字的拼音字母和拼音声调；

根据所述特征文字的拼音字母和拼音声调，生成对应的所述第二音频文件。

5.根据权利要求1所述的语音合成方法，其特征在于，所述根据目标文字信息中的固定文字，得到第一音频文件包括：

识别并提取所述目标文字信息中的固定文字，并将所述固定文字划分为多个固定文字编组；

判断预设音频数据库中是否包含每个所述固定文字编组所对应的第三音频文件；以及

如果判定所述预设音频数据库中包含有每个所述固定文字编组所对应的第三音频文件，则提取并合并所述第三音频文件，得到所述第一音频文件。

6.根据权利要求1所述的语音合成方法，其特征在于，所述将第一音频文件和所述第二音频文件进行拼接，得到目标音频文件包括：

根据所述目标文字信息和预设划分规则，得到所述第一音频文件和所述第二音频文件的拼接位置；

根据所述拼接位置拼接所述第一音频文件和所述第二音频文件，得到目标音频文件。

7.一种语音合成装置，获取用于语音播放的目标文字信息，包括：

第一音频文件获取单元，用于根据所述目标文字信息中的固定文字，得到第一音频文件；

特征文字信息提取单元，用于识别并提取所述目标文字信息中的特征文字，得到特征文字信息；

第二音频文件获取单元，用于对所述特征文字信息提取单元提取得到的特征文字信息进行音频录制，得到第二音频文件；以及

音频合成单元，用于将所述第一音频文件和所述第二音频文件进行拼接，得到目标音频文件。

8.根据权利要求7所述的语音合成装置，其特征在于，所述第二音频文件获取单元包括：

音频特征信息提取模块，用于提取所述第一音频文件中的音频特征信息；

模型训练模块，用于通过训练语料对预设机器学习模型进行特征训练，得到所述第二音频文件，其中，所述训练语料包括所述音频特征信息提取模块提取得到的音频特征信息和所述特征文字信息提取单元提取得到的特征文字信息。

9.根据权利要求7所述的语音合成装置，其特征在于，所述第二音频文件获取单元包括：

固定文字编组模块，用于识别并提取所述目标文字信息中的固定文字，并将所述固定文字划分为多个固定文字编组；

判断模块，用于判断预设音频数据库中是否包含每个所述固定文字编组所对应的第三音频文件；以及

第二音频文件合成模块，用于如果判定所述预设音频数据库中包含有每个所述固定文字编组所对应的第三音频文件，则提取并合并所述第三音频文件，得到所述第一音频文件。

10.根据权利要求7所述的语音合成装置，其特征在于，所述音频合成单元包括：

拼接位置确定模块，用于根据所述目标文字信息和预设划分规则，得到所述第一音频文件和所述第二音频文件的拼接位置；

音频拼接模块，用于根据所述拼接位置拼接所述第一音频文件和所述第二音频文件，得到目标音频文件。