CN111883103B

CN111883103B - 语音合成的方法及装置

Info

Publication number: CN111883103B
Application number: CN202010563888.5A
Authority: CN
Inventors: 黄磊; 蒋宁; 杨春勇; 靳丁南; 权圣
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2021-12-24
Anticipated expiration: 2040-06-19
Also published as: CN111883103A

Abstract

本发明实施例提供一种语音合成的方法及装置，该方法包括：获取交互式问答结果的文本，所述文本包括：常量文本和变量文本；从常量录音库获取与所述常量文本对应的常量语音；根据所述变量文本，获取变量语音；根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整经过拼接的所述常量语音和变量语音的语音合成自然度。

Description

语音合成的方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种语音合成的方法及装置。

背景技术

随着科技的发展，机器已经可以通过语音合成技术进行说话。所谓的语音合成技术，也被称为从文本到语音(Text to Speech，TTS)，其目标是让机器通过识别和理解，把文本信息变成人造语音输出，是现代人工智能发展的重要分支。语音合成能够在质量检测、机器问答、残障辅助等领域发挥极大作用，方便人们的生活。

然而，现有的机器所能合成语音往往具有固定的模式，生成的语音在韵律方面较为生硬，与真人具有明显的差异，因此在某些对合成语音的拟人度要求比较高的场景下，终端用户往往不能接受如此生硬的韵律。

发明内容

本发明实施例的一个目的在于提供一种语音合成的方法及装置，解决语音合成自然度较差的问题。

第一方面，本发明实施例提供一种语音合成的方法，包括：

获取交互式问答结果的文本，所述文本包括：常量文本和变量文本；

从常量录音库获取与所述常量文本对应的常量语音；

根据所述变量文本，获取变量语音；

根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整经过拼接的所述常量语音和变量语音的语音合成自然度。

可选地，所述根据所述变量文本，获取变量语音，包括：

判断变量录音库中是否有与所述变量文本对应的变量语音；

如果有，则从变量录音库获取与所述变量文本对应的变量语音，根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音的语音合成自然度；

如果没有，则通过端到端模型获取目标变量语音。

可选地，所述调整所述常量语音和变量语音的语音合成自然度，包括：

对所述常量语音和变量语音的音量和/或语速进行调整；

和/或，

对所述常量语音和变量语音中信号能量值小于预设数值的语音信号进行切除；

和/或，

对所述常量语音和变量语音中信号能量值小于预设数值，但具有预设清辅音发音的语音信号进行保留。

可选地，所述调整所述常量语音和变量语音拼接处的语音合成自然度，包括：

对变量语音进行语音信号衰减处理；

对与所述变量语音进行拼接的常量语音进行语音信号衰减处理。

可选地，所述对变量语音进行语音信号衰减处理，包括：

根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值；

根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置；

根据所述语音信号衰减的位置和预设衰减系数，进行语音信号衰减处理；

所述对与所述变量语音进行拼接的常量语音进行语音信号衰减处理，包括：

根据所述语音信号衰减度，对与所述变量语音进行拼接的常量语音进行语音信号衰减处理。

可选地，所述根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值，包括：

根据所述变量语音的语音信号的能量值的长度和所述变量语音的时长，得到步长；

计算两个相邻步长的语音信号的能量值的最大值；

根据所述两个相邻步长的语音信号的能量值的最大值，得到数组，所述数组的长度为所述变量语音的时长；

对所述数组进行归一化，得到所述变量语音的语音信号的平均能量值；

可选地，所述根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置，包括：

按照从前向后的顺序遍历所述数组，确定所述数组中第一个大于所述平均能量值的第一位置；

如果所述第一位置大于第二位置，则确定语音信号衰减的位置为第二位置；否则，确定语音信号衰减的位置为所述第一位置，所述第二位置是按照第一衰减比例和所述变量语音的时长确定的位置；

或者，

按照从后向前的顺序遍历所述数组，确定所述数组中第一个大于平均能量值的第三位置；

如果所述第三位置大于第四位置，则确定语音信号衰减的位置为第三位置；否则，确定语音信号衰减的位置为所述第四位置，所述第四位置是按照第二衰减比例和所述变量语音的时长确定的位置。

第二方面，本发明实施例提供一种语音合成的装置，包括：

第一获取模块，用于获取交互式问答结果的文本，所述文本包括：常量文本和变量文本；

第二获取模块，用于从常量录音库获取与所述常量文本对应的常量语音；

第三获取模块，用于根据所述变量文本，获取变量语音；

合成模块，用于根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音拼接处的语音合成自然度。

可选地，所述第二获取模块包括：

判断单元，用于判断变量录音库中是否有与所述变量文本对应的变量语音；

获取单元，用于如果变量录音库中有与所述变量文本对应的变量语音，则从变量录音库获取与所述变量文本对应的变量语音；如果没有，则触发所述第三获取模块通过端到端模型获取目标变量语音

调整单元，用于根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音拼接处的语音合成自然度。

可选地，所述调整单元进一步用于：对所述常量语音和变量语音的音量和/或语速进行调整；和/或，对所述常量语音和变量语音中信号能量值小于预设数值的语音信号进行切除；和/或，对所述常量语音和变量语音中信号能量值小于预设数值，但具有预设清辅音发音的语音信号进行保留。

对变量语音进行语音信号衰减处理；

可选地，所述对变量语音进行语音信号衰减处理，包括：

根据所述平均能量值，确定语音信号衰减的位置和语音信号衰减度；

根据所述语音信号衰减的位置和语音信号衰减度，进行语音信号衰减处理。

计算两个相邻步长的语音信号的能量值的最大值；

相应地，所述根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置，包括：

或者，

第三方面，本发明实施例提供一种交互式系统，包括如第二方面所述的语音合成的装置。

第四方面，本发明实施例提供一种可读存储介质，所述可读存储介质上存储有程序，所述程序被处理器执行时实现包括如第一方面所述的语音合成的方法的步骤。

在本发明实施例中，采用半合成技术，能够减少变量录制成本，同时进行变量话术全覆盖，自然度效果也跟真人录音相近。而且，合成录音速度较快，当使用拼接合成时，语音合成对硬件需求较低，合成速度较快，同时端到端合成变量长度较短，合成速度较快，能够对合成文本进行快速响应。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例的语音合成的方法的流程图之一；

图2为本发明实施例的语音合成的方法的流程图之二；

图3为本发明实施例的语音合成的装置示意图。

具体实施方式

目前的语音合成技术有参数合成、拼接合成和端到端语音生成。目前业界使用较多的是使用拼接合成与端到端语音合成，拼接合成主要是录音人员依照文本进行录音生成一个较大的录音库，当有语音合成需求的时候，依据文本在录音库寻找相应录音进行录音拼接，供用户使用。端到端语音合成，主要是通过深度学习技术，引入注意力机制，通过录音人员的大量录音，进行文本标注，训练出一个编码-解码(Encoder–Decoder)结构的网络模型，然后传入文本通过训练好的模型进行语音合成，供用户使用。然而，拼接合成的人工成本较大，拼接处自然度较低。而端到端合成的合成速度慢，整体自然度与拼接合成整体自然度有差异。

目前，关于语音合成TTS的自然度的评估，业内普遍采用一些比较单一的评估评估指标来实现评估，如平均意见得分(Mean Opinion Score，MOS)或AB测试(Test)的方法，这些评估方法仅仅会得到合成语音的平均意见值或总体满意度。其中MOS主要使用5分制来评估用户对语音合成TTS的整体感受，如5分表示优、4分表示良、3分表示尚可、2分表示差、1分表示劣。而AB Test则是通过在多个合成声音中进行两两对比来选择相对较好的合成声音。

本文中的语音合成自然度的评估指标可以包括声音自然、情感相符、长时间疲劳、舒适度、音色喜好、交流意愿以及友好度中的至少一种。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书中的术语“包括”以及它的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，说明书以及权利要求中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B，表示包含单独A，单独B，以及A和B都存在三种情况。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

参见图1，本发明实施例提供一种语音合成的方法，该方法的执行主体可以是交互式系统，该方法包括：步骤101、步骤102、步骤103和步骤104。

步骤101：获取交互式问答结果的文本，所述文本包括：常量文本和变量文本；

交互问答(或者称为交互式对话)是一种对话式、连续的、前后关联的信息交互形式。其中，交互式问答结果可以是人机交互式的自动应答系统的问答结果。

在一些实施方式中，基于匹配模型获取交互式问答结果的文本，该匹配模型的输入信息为语音合成装置(比如服务器)接收到的用户输入的第一信息(可以是文本信息，也可以是语音信息)，该匹配模型输出的可以是交互式问答结果的文本。可选地，该匹配模型可以是卷积神经网络的语句匹配模型，当然并不限于此。

以自动应答系统为例，比如语音机器人，该语音机器人可以根据其从用户接收到的内容从本地或网络中获取对应的文本，该文本的内容是语音机器人需要通过语音或文字反馈给用户的，其中该语音机器人获取的内容可以语音内容或者文本内容，以内容为语音内容为例。

示例性地，语音机器人接收用户发送的语音内容包括“你好”，该语音机器人可以根据该语音内容和用户的个人信息(比如电话号码等)，从本地获取与该语音内容对应的文本为“你好，请问你是张三先生么”，其中常量文本为“你好，请问你是”，“先生么”，变量文本为“张三”。

示例性地，语音机器人接收用户发送的语音内容包括“今天的天气怎么样”，该语音机器人可以根据该语音内容，从本地获取与该语音内容对应的文本为“你好，今天的气温是15-29度”，其中常量文本为“你好，今天的气温是”，变量文本为“15-29度”。

步骤102：从常量录音库获取与所述常量文本对应的常量语音；

比如，预先进行录音库的录制，依据常量文本录制常量录音库，常量主要指的是固定话术，变量指的是话术中可以进行变化的话术，常量录音库的录制，主要录制全部固定话术。

步骤103：根据所述变量文本，获取变量语音；

比如，预先进行端到端模型(end-to-end learning)训练，首先准备端到端语料，如果端到端模型是生成中文，则语料要包含所有中文拼音，通过拼音组合成多条(比如10000条)文本，进行录制，然后通过Encoder–Decoder结构的网络模型，再引入注意力机制，训练得到端到端模型，其中，注意力机制(Attention Mechanism)是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。

步骤104：根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音拼接处的语音合成自然度。

比如，对变量语音进行语音信号衰减处理，对与所述变量语音进行拼接的常量语音进行语音信号衰减处理。

进一步地，根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值；根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置；根据所述语音信号衰减的位置和预设衰减系数，进行语音信号衰减处理。

具体地，根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值，包括：根据所述变量语音的语音信号的能量值的长度和所述变量语音的时长，得到步长；计算两个相邻步长的语音信号的能量值的最大值；根据所述两个相邻步长的语音信号的能量值的最大值，得到数组，所述数组的长度为所述变量语音的时长；对所述数组进行归一化，得到所述变量语音的语音信号的平均能量值；

具体地，根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置，包括：按照从前向后的顺序遍历所述数组，确定所述数组中第一个大于所述平均能量值的第一位置；如果所述第一位置大于第二位置，则确定语音信号衰减的位置为第二位置；否则，确定语音信号衰减的位置为所述第一位置，所述第二位置是按照第一衰减比例(比如1/3)和所述变量语音的时长确定的位置；或者，按照从后向前的顺序遍历所述数组，确定所述数组中第一个大于平均能量值的第三位置；如果所述第三位置大于第四位置，则确定语音信号衰减的位置为第三位置；否则，确定语音信号衰减的位置为所述第四位置，所述第四位置是按照第二衰减比例(比如2/3)和所述变量语音的时长确定的位置。

可以理解的是，第一衰减比例与第二衰减比例之和为1。

进一步地，对变量语音中的端点语音信号进行语音信号衰减处理，以及对与变量语音进行拼接的常量语音进行语音信号衰减处理。

在本发明实施例中，衰减可以根据语音信号的能量大小权重进行衰减，比如设置一个步长，该步长主要是通过语音信号的能量值数组的大小与语音信号的时长相除所得到，比如语音信号的能量值长度为5000，语音信号的时长为500毫秒，则步长为10，然后得到两个相邻步长长度的能量值的最大值，将这些值组成一个数组(list)，数组的长度为语音信号的时长(s)，对list进行归一化然后求出平均能量值b，然后从前向后遍历list输出第一个大于平均能量值b的位置fi，然后从后向前遍历list输出第一个大于平均能量值b的位置bi，然后通过位置fi与前后衰减比例进行对比，比如语音信号衰减度为1/3，则需要对音频前s/3处进行衰减，和后s/3处进行衰减，此时对比位置fi与s/3，如果位置fi大于s/3，则衰减位置为s/3，否则衰减位置为位置fi，同理，如果位置bi大于2s/3，则衰减位置为位置bi，否则衰减位置为2s/3，此时确定衰减位置，然后进行衰减。

比如，在进行衰减时，预设衰减系数可以通过衰减的长度来生成，比如衰减的长度为L，则可以生成一个从0.01到1长度为L的步长均等序列M，然后使用M与衰减的能量值进行相乘，进行相应位置的衰减，此衰减会对能衰减的信号进行最大衰减，对不能衰减的信号进行很好的保护，使信号保存完整。

衰减完成后，语音信号前后端信号波动较为平滑，同时两个一样的发音的信号波形图相近，此时进行常量与生成变量的拼接，消除常量最后一个字的最后1/3信号，消除掉生成常量的第一个字的2/3的信号长度，然后进行两个信号的拼接，此时拼接自然度较高，听不出有拼接处的感觉，使得自然度达到最大。

参见图2，本发明实施例提供一种语音合成的方法，该方法的执行主体可以是交互式系统，包括：步骤201、步骤202、步骤203、步骤204、步骤205和步骤206。

步骤201：获取交互式问答结果的文本，所述文本包括：常量文本和变量文本；

上述常量文本也可以称为固定话术文本。

步骤202：从常量录音库获取与所述常量文本对应的常量语音；

上述常量语音也可以称为固定话术语音。

步骤203：判断变量录音库中是否有与所述变量文本对应的变量语音，若没有，则执行步骤204；否则，执行步骤206；

步骤204：通过端到端模型获取目标变量语音。

步骤205：根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音拼接处的语音合成自然度。

步骤206：从变量录音库获取与所述变量文本对应的变量语音，根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音拼接处的语音合成自然度；

可选地，通过传入固定话术语音与变量语音进行拼接合成，固定话术语音可以从常量录音库中查找，变量语音可以优先从变量录音库中查找，如果变量录音库里没有，则使用端到端模型生成的变量语音，进一步地，端到端合成时为了提升合成自然度，需要合成变量语音中端点语音信号前后一个字。

可选地，在步骤206中，调整所述常量语音和变量语音拼接处的语音合成自然度包括：对所述常量语音和变量语音的音量和/或语速进行调整；和/或，对所述常量语音和变量语音中信号能量值小于预设数值的语音信号进行切除；和/或，对所述常量语音和变量语音中信号能量值小于预设数值，但具有预设清辅音发音的语音信号进行保留。具体地，对得到录音进行声音分贝大小调整，调整到一个统一值附近，避免合成录音忽大忽小，和/或，调整常量话术语音与变量话术语音的语速，使前后话术语音语速变成一致，避免因语速不一致造成的合成自然度下降。再进一步地，还可以使用静音段切除技术，主要是对信号能量值小于一定数值的信号进行切除。

比如，设置一些切除规则，主要有拼音轻音辅音，比如“福”字的拼音为“fu”，“f”发音比较轻，能量信号值比较低此时如果统一切除的话则会出错，这里需要进行规则设定，对这种轻音的部分进行人工干预的切除，对这些有拼音轻音辅音的内容进行保留，切除拼接处的静音段达到拼接自然度的提升。

下面结合具体示例介绍图2中的流程，用户输入‘你好’，交互式系统识别为‘你好’场景后，系统会对流程中的话术进行提前生成，首先通过常量录音库得到固定话术常量为‘你好，请问你是’，‘先生么’，此时变量为‘张三’，如果录音库里有‘张三’，则选取变量‘张三’进行拼接，‘张三’拼接到‘你好，请问你是’，‘先生么’中间，然后进行拼接音频的音量，速度优化处理，如果录音库中没有‘张三’，则通过端到端模型提前生成‘是张三先’，然后对‘你好，请问你是’，‘先生么’，‘是张三先’进行信号衰减，衰减完成后，进行拼接得到‘你好，请问你是张三先生么’语音文件。

参见图3，本发明实施例提供一种语音合成的装置，该装置300包括：

第一获取模块301，用于获取文本，所述文本包括：常量文本和变量文本；

第二获取模块302，用于从常量录音库获取与所述常量文本对应的常量语音；

第三获取模块303，根据所述变量文本，获取变量语音；

合成模块304，用于根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音拼接处的语音合成自然度。

可选地，所述第二获取模块302包括：

对变量语音进行语音信号衰减处理；

可选地，所述对变量语音进行语音信号衰减处理，包括：根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值；根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置；根据所述语音信号衰减的位置和预设衰减系数，进行语音信号衰减处理。

可选地，所述根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值，包括：根据所述变量语音的语音信号的能量值的长度和所述变量语音的时长，得到步长；计算两个相邻步长的语音信号的能量值的最大值；根据所述两个相邻步长的语音信号的能量值的最大值，得到数组，所述数组的长度为所述变量语音的时长；对所述数组进行归一化，得到所述变量语音的语音信号的平均能量值；

相应地，所述根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置，包括：按照从前向后的顺序遍历所述数组，确定所述数组中第一个大于所述平均能量值的第一位置；如果所述第一位置大于第二位置，则确定语音信号衰减的位置为第二位置；否则，确定语音信号衰减的位置为所述第一位置，所述第二位置是按照第一衰减比例和所述变量语音的时长确定的位置；或者，按照从后向前的顺序遍历所述数组，确定所述数组中第一个大于平均能量值的第三位置；如果所述第三位置大于第四位置，则确定语音信号衰减的位置为第三位置；否则，确定语音信号衰减的位置为所述第四位置，所述第四位置是按照第二衰减比例和所述变量语音的时长确定的位置。

本发明实施例提供的语音合成的装置，可以执行上述图1或2所示方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

第三方面，本发明实施例提供一种交互式系统，包括如图3所述的语音合成的装置。

结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、移动硬盘、只读光盘或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于核心网接口设备中。当然，处理器和存储介质也可以作为分立组件存在于核心网接口设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

本领域内的技术人员应明白，本发明实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音合成的方法，其特征在于，包括：

从常量录音库获取与所述常量文本对应的常量语音；

根据所述变量文本，通过端到端模型获取变量语音；

根据所述文本中的内容，对所述常量语音和变量语音中端点语音信号前后一个字进行拼接，并调整经过拼接的所述常量语音和变量语音的语音合成自然度；

其中，所述调整经过拼接的所述常量语音和变量语音的语音合成自然度，包括：

对变量语音进行语音信号衰减处理；

对与所述变量语音进行拼接的常量语音进行语音信号衰减处理；

其中，所述对变量语音进行语音信号衰减处理，包括：

根据预设的语音信号衰减度，对与所述变量语音进行拼接的常量语音进行语音信号衰减处理；

所述根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置，包括：

按照从前向后的顺序遍历数组，确定所述数组中第一个大于所述平均能量值的第一位置；

或者，

按照从后向前的顺序遍历数组，确定所述数组中第一个大于平均能量值的第三位置；

如果所述第三位置大于第四位置，则确定语音信号衰减的位置为第三位置；否则，确定语音信号衰减的位置为所述第四位置，所述第四位置是按照第二衰减比例和所述变量语音的时长确定的位置；

其中，所述数组的长度为所述变量语音的时长，所述数组是根据两个相邻步长的语音信号的能量值的最大值确定的，所述步长是根据所述变量语音的语音信号的能量值的长度和所述变量语音的时长确定的。

2.根据权利要求1所述的方法，其特征在于，所述根据所述变量文本，通过端到端模型获取变量语音，包括：

判断变量录音库中是否有与所述变量文本对应的变量语音；

如果没有，则通过端到端模型获取目标变量语音。

3.根据权利要求2所述的方法，其特征在于，所述调整所述常量语音和变量语音的语音合成自然度，包括：

对所述常量语音和变量语音的音量和/或语速进行调整；

和/或，

4.根据权利要求1所述的方法，其特征在于，所述根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值，包括：

计算两个相邻步长的语音信号的能量值的最大值；

对所述数组进行归一化，得到所述变量语音的语音信号的平均能量值。

5.一种语音合成的装置，其特征在于，包括：

第三获取模块，用于根据所述变量文本，通过端到端模型获取变量语音；

合成模块，用于根据所述文本中的内容，对所述常量语音和变量语音进行拼接，并调整所述常量语音和变量语音拼接处的语音合成自然度；

其中，所述调整经过拼接的所述常量语音和变量语音中端点语音信号前后一个字的语音合成自然度，包括：

对变量语音进行语音信号衰减处理；

其中，所述对变量语音进行语音信号衰减处理，包括：根据所述变量语音中的每个语音信号的能量值，确定所述变量语音的语音信号的平均能量值；根据所述平均能量值和预设的语音信号衰减度，确定语音信号衰减的位置；根据所述语音信号衰减的位置和预设衰减系数，进行语音信号衰减处理；

或者，

6.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序，所述程序被处理器执行时实现包括如权利要求1至4中任一项所述的语音合成的方法的步骤。

7.一种服务器，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音合成的方法的步骤。