CN113421549A

CN113421549A - 语音合成方法、装置、计算机设备及存储介质

Info

Publication number: CN113421549A
Application number: CN202110742575.0A
Authority: CN
Inventors: 陈小建; 陈闽川; 马骏; 王少军; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-21

Abstract

本发明公开了一种语音合成方法、装置、计算机设备及存储介质，其中方法包括：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，且第一话术短句对应的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。本发明能够缩短固定话术和变量话术之间的停顿时间，使得语音效果更好。

Description

语音合成方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

TTTS(Text-To-Speech)系统是语音合成系统，主要功能是将文本转换成将文字转换为语音，为用户提供语音合成服务。目前，市面上主流的TTS系统是基于参数式方式合成，拟人化程度差，效果机械。

为了解决拟人化程度差，效果机械的问题，目前业界提出了一些使用深度神经网络的TTS系统以提升拟人效果。但是，对于使用深度神经网络的TTS系统而言，其每次合成语音均是将所有文本内容合成为音频内容后再一次性输出，合成时间比较长，在使用GPU合成的情况下一般合成15个字符需要1秒左右，合成100个字符需要3秒左右。而针对于合成时长过长的问题，业界常用的方法是将固定的话术文本的语音提前离线合成好并放至客户端的后台，每次只需要实时合成变量部分的语音，以减少合成字符数从而缩短实时合成时间，播报话术时，如果是固定话术则直接播报后台预先存储的离线音频文件，而碰到变量则实时通过TTS合成后再进行播报，但是，通常情况下，变量长度一般在5-20个字符之间，合成需要0.5-1.2秒左右的时间，按照上述的语音合成方法则会导致固定话术和变量之间存在0.5-1.2秒的停顿，导致合成的语音效果不佳，进而还可能影响到句子的韵律，导致用户理解错句子的意思。

发明内容

本申请提供一种语音合成方法、装置、计算机设备及存储介质，以解决现有的语音合成方法合成的语音效果不佳的技术问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音合成方法，包括：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。

作为本申请的进一步改进，预设话术库还存储了预先配置的寒暄话术短句，寒暄话术短句的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务之前，还包括：判断待输出文本是以第一话术短句开头还是以第二话术短句开头；若是以第一话术短句开头，则执行根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务及后续步骤；若是以第二话术短句开头，则在待输出文本之前添加一个寒暄话术短句。

作为本申请的进一步改进，其还包括预先构建预设话术库，预先构建预设话术库包括：获取预先准备的话术；解析话术的语义，并根据语义利用标点符号将话术划分为第一话术短句和第二话术短句模板。

作为本申请的进一步改进，执行语音合成任务，包括：获取第二话术短句中的标点符号；根据标点符号的类型设定停顿时间并确认语音播放语气；结合停顿时间和语音播放语气将第二话术短句转换为语音信息。

作为本申请的进一步改进，结合停顿时间和语音播放语气将第二话术短句转换为语音信息之后，还包括：将第二话术短句对应的语音信息存储至缓存后，设定有效时长并计时；当计时时长达到有效时长时，从缓存删除第二话术短句对应的语音信息。

作为本申请的进一步改进，获取第二话术短句中的标点符号之前，还包括：判断缓存中是否存在与第二话术短句对应的语音信息；若存在，则重置第二话术短句对应的语音信息的有效时长，并重新开始计时。

作为本申请的进一步改进，第一话术短句、第二话术短句模板和寒暄话术短句的长度预先设置，以致合成一个第二话术短句的语音信息所需的时间短于播放第一话术短句或寒暄话术短句对应的语音信息所需的时间。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种语音合成装置，包括：分析模块，用于分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成；构建模块，用于根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；语音合成模块，用于依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机设备，计算机设备包括处理器、与处理器耦接的存储器，存储器中存储有程序指令，程序指令被处理器执行时，使得处理器执行如上述中任一项的语音合成方法的步骤。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储介质存储有能够实现上述任一项的语音合成方法的程序指令。

本申请的有益效果是：本申请的语音合成方法通过将待输出文本划分为固定不变的第一话术短句和包含变量的第二话术短句，再为第二话术短句创建对应的语音合成任务，在按照顺序播放待输出文本的每个话术短句的同时，开始按照顺序依次执行语音合成任务，使得第二话术短句的语音合成过程与整个待输出文本的语音播放过程异步进行，达到提前开始合成第二话术短句对应的语音信息的目的，而不需要等到即将播放第二话术短句对应的语音信息才开始合成语音信息，从而缩短或消除了第一话术短句与第二话术短句之间的时间停顿，使得最终合成的语音拟人化程度高，且效果更佳。

附图说明

图1是本发明第一实施例的语音合成方法的流程示意图；

图2是本发明第二实施例的语音合成方法的流程示意图；

图3是本发明实施例的语音合成装置的功能模块示意图；

图4是本发明实施例的计算机设备的结构示意图；

图5是本发明实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的语音合成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该语音合成方法应用于语音合成装置，所述语音合成方法具体包括步骤：

步骤S101：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成。

需要说明的是，现有的语音对话系统通常包括有语音识别模块(ASR)、语义解析模块(NLU)、对话管理模块(DM)和语音合成模块(TTS)等，在进行语音对话时，首先由语音识别模块(ASR)识别用户输入的语音，并将语音转换为文本，再由语义解析模块(NLU)解析文本中的语义，并将解析结果发送至对话管理模块(DM)，对话管理模块(DM)根据解析结果生成对应的回应文本，最后由语音合成模块(TTS)将回应文本合成为语音并输出，从而实现人机语音对话。

在步骤S101中，该分析用户输入的语音信息以确认待输出文本的步骤即由语音识别模块(ASR)识别用户输入的语音信息并转换为文本信息，再由语义解析模块(NLU)解析文本信息得到语义，最后由对话管理模块(DM)根据语义设定相应的变量，再从预设话术库中选取合适的第一话术短句和第二话术短句模板，并将变量填入至第二话术短句模板中，再将选取的第一话术短句和已填入变量的第二话术短句进行排序，从而生成对应的待输入文本。其中，该生成的待输入文本可以单独由第一话术短句构成，也可单独由第二话术短句构成，或者是由第一话术短句和第二话术短句共同构成。

需要理解的是，固定不变的第一话术短句是指不包括变量的短句，其意义明确，而第二话术短句模板是包括变量的短句，其由变量和固定文本组成，其中的变量是根据用户输入的语音信息来设定。鉴于第一话术短句是固定不变的，因此，为了缩短合成语音所需时间，可预先合成每个第一话术短句对应的语音信息并保存，后续在播放第一话术短句时直接查找对应的语音信息进行播放即可，而不再需要实时合成第一话术短句，大大降低了合成语音所需的时间。

例如，以中国移动消费查询的语音对话系统为例进行说明，当用户打通对应的查询电话后，其自动播放如下语音：“欢迎致电中国移动，请选择需要办理的业务或说出需要办理的业务，话费查询请按1，业务办理请按2···”，当用户通过语音输入“查询话费”时，自动播放如下语音：“好的，请稍等，您当月已消费500元”。其中，“欢迎致电中国移动”、“请选择需要办理的业务或说出需要办理的业务”、“话费查询请按1”、“业务办理请按2···”为第一话术短句，这些第一话术短句均是预先设定的，且其对应的语音信息预先合成；而“您当月已消费500元”为第二话术短句，其中的“您当月已消费”为第二话术短句中的固定文本，而“500元”为变量，其根据查询用户的话费消费情况而得到的，而“您当月已消费XXX”为该第二话术短句对应的第二话术短句模板，当用户输入了“查询话费”的语音后，则会查询到该“您当月已消费XXX”的第二话术短句模板，再根据查询到的用户的话费消费情况，设定变量“XXX”为“500元”，从而得到第二话术短句“您当月已消费500元”。

本实施例中，该预设话术库预先构建，该预先构建预设话术库的步骤具体包括：获取预先准备的话术；解析话术的语义，并根据语义利用标点符号将话术划分为第一话术短句和第二话术短句模板。

具体地，在获取到用户预先准备的多条话术后，通过NLU技术解析话术中的语义，然后根据解析出的语义对话术采用标点符号分隔为多个话术短句。其中，标点符号包括逗号、分号、句号、问号、感叹号等，以标点符号分割后，话术短句在组成句子后，使得句子转换的语音在相应的标点符号处有短暂的停顿，更符合人说话时的韵律，短句与短句之间的衔接更为自然。

需要理解的是，为了提高划分的第一话术短句和第二话术短句的准确性，其还可通过人工采用标点符号分割预先准备的话术。

步骤S102：根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务。

在步骤S102中，在得到待输出文本后，依据每个第二话术短句在待输出文本中的先后排列顺序，依次构建语音合成任务，再将语音合成任务按序发送给语音合成模块，以供语音合成模块进行语音信息预合成。具体地，语音合成模块合成语音的具体操作包括两部分，首先是分析输入的文本句子，识别出短语、词、专用名称、缩略语、特殊符号等语言单位，将文本句子转换为注音符号表示形式并添加控制符，然后是对于每一个注音符号在语音语料库中查找它的一个合适实例,然后将文本句子对应的所有注音符号的实例拼接起来,在拼接过程中根据控制符的语义对语音实例的音长、韵律特征和停顿时间等进行调整，最后输出一个句子的完整的语音数据流。

步骤S103：依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。

在步骤S103中，在创建好第二话术短句的语音合成任务后，在开始输出待输出文本的语音信息时，从待输出文本的第一个话术短句开始，假设该第一个话术短句为第一话术短句，第二个话术短句为第二话术短句，此时，根据第一个话术短句的文本信息查询到与该第一话术短句对应的预先合成好的语音信息，在查询到后播放该语音信息，而在查询和播放该第一话术短句对应的语音信息时，语音合成模块开始执行第一个语音合成任务，得到第一个第二话术短句对应的语音信息并保存，在第一个话术短句对应的语音信息播放完后，根据第二个话术短句的文本信息向语音合成模块查询该第二话术短句对应的语音信息(已在执行第一个语音合成任务时合成并保存)并进行播放，而在播放第二个话术短句对应的语音信息时，继续执行后续的语音合成任务，从而使得能够在播放第二话术短句的语音信息之前提前合成该语音信息，而不需要等到播放到第二话术短句时才进行语音合成，依次循环，直至播放完最后一个话术短句的语音信息时为止。

需要说明的是，第一话术短句和第二话术短句模板的长度预先设置，以致合成一个第二话术短句的语音信息所需的时间短于播放第一话术短句对应的语音信息所需的时间，从而保证第二话术短句的语音信息有充分的时间进行合成。

进一步的，为了进一步提高合成的语音的拟人化程度，步骤S103中执行语音合成任务的步骤，具体包括：获取第二话术短句中的标点符号；根据标点符号的类型设定停顿时间并确认语音播放语气；结合停顿时间和语音播放语气将第二话术短句转换为语音信息。

具体地，该第二话术短句中的标点符号在构建第二话术短句模板时设定，在合成第二话术短句的语音信息时，获取每个第二话术短句中的标点符合，然后根据标点符号确认该第二话术短句中标点符号出的停顿时间以及语音播放语气。例如，当标点符号为逗号或分号时，其对应的停顿时间为100-200ms，句号、问号、感叹号对应的停顿时间为250-400ms，问号对应的语音播放语气为疑问语气，感叹号对应的语音播放语气为感叹语气。本实施例通过根据第二话术短句中的标点符号来设定第二话术短句在标点符号处的停顿时间和语音播放语气，再根据该停顿时间和语音播放语气将第二话术短句转换为语音信息，使得合成的语音拟人化程度更高。

进一步的，预先合成的第一话术短句的语音信息同样参照上述方式合成，以提高第一话术短句对应的语音信息的拟人化程度。

进一步的，待输出文本中可能会出现第二话术短句重复出现的情况，为了避免重复合成相同的语音而增加语音合成所需时间，本实施例中，在结合停顿时间和语音播放语气将第二话术短句转换为语音信息之后，还包括：将第二话术短句对应的语音信息存储至缓存后，设定有效时长并计时；当计时时长达到有效时长时，从缓存删除第二话术短句对应的语音信息。

具体地，在生成第二话术短句对应的语音信息后，将该语音信息存储至缓存中，同时生成该语音信息的有效时长并开始计时，该有效时长可由用户预先指定，如120秒，当计时时长达到有效时长后，将该语音信息从缓存中删除。本实施例通过存储第二话术短句对应的语音信息，从而使得当该第二话术短句重复出现时，不需要重复合成其对应的语音信息，而有效时长的设置能够使得缓存中存储的语音信息不会长时间占用缓存资源，及时释放缓存资源以提高资源利用率，降低了对硬件设备的要求。

进一步的，本实施例中，获取第二话术短句中的标点符号之前，还包括：判断缓存中是否存在与第二话术短句对应的语音信息；若存在，则重置第二话术短句对应的语音信息的有效时长，并重新开始计时。若不存在，则执行获取第二话术短句中的标点符号及后续步骤。

具体地，每当查询到第二话术短句对应的语音信息时，及时将该语音信息的有效时长进行重置，避免出现该语音信息还未播放就因有效时长到期而被删除的情况。

本发明第一实施例的语音合成方法通过将待输出文本划分为固定不变的第一话术短句和包含变量的第二话术短句，再为第二话术短句创建对应的语音合成任务，在按照顺序播放待输出文本的每个话术短句的同时，开始按照顺序依次执行语音合成任务，使得第二话术短句的语音合成过程与整个待输出文本的语音播放过程异步进行，达到提前开始合成第二话术短句对应的语音信息的目的，而不需要等到即将播放第二话术短句对应的语音信息才开始合成语音信息，从而缩短或消除了第一话术短句与第二话术短句之间的时间停顿，使得最终合成的语音拟人化程度高，且效果更佳。

图2是本发明第二实施例的语音合成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该方法包括步骤：

步骤S201：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成。

在本实施例中，图2中的步骤S201和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S202：判断待输出文本是以第一话术短句开头还是以第二话术短句开头。若是以第一话术短句开头，则执行步骤S204；若是以第二话术短句开头，则执行步骤S203。

需要理解的是，待输出文本可以包括多个第一话术短句和多个第二话术短句，而排在首位的话术短句可以为第一话术短句也可以为第二话术短句，例如，以A表示第一话术短句、B表示第二话术短句，待输出文本可以为A1，B1，A2，B2，即以第一话术短句开头，也可以为B1、A1、B2、A2，即以第二话术短句开头。

步骤S203：在待输出文本之前添加一个寒暄话术短句。

其中，预设话术库还存储了预先配置的寒暄话术短句，寒暄话术短句的语音信息预先合成。该寒暄话术短句通常为5-6个字符，例如：“好的，我帮您查一下”、“好的，请稍等”、“是的，您说的对”、“不好意思，久等了”等。

需要说明的是，当待输出文本以第二话术短句开头时，即其第一个话术短句就需要进行语音合成，需要等待一段时间才能完成第一个话术短句的语音合成和播放，会导致用户感觉两段对话之间的时间间隔延长了。

为了解决上述问题，在步骤S203中，当第一个话术短句为第二话术短句时，在该第一个话术短句之前添加一个预设的寒暄话术短句，得到添加了寒暄话术短句的待输出文本，从而，在播放该添加了寒暄话术短句的待输出文本的语音信息时，首先播放的是该寒暄话术短句的语音信息，而寒暄话术短句的语音信息预先合成，其不需要实时合成，因此不会产生语音合成时间，而在输出寒暄话术短句的语音信息时，即可完成下一个第二话术短句的语音合成任务，在输出完寒暄话术短句的语音信息后，能够及时播放后续话术短句的语音信息。虽然增加了寒暄话术短句的播放，但其填补了两段对话之间的空白时间，能够避免用户产生两段对话之间的时间间隔被延长的感觉，从而进一步提升拟人化程度和用户体验。

需要说明的是，第一话术短句、第二话术短句模板和寒暄话术短句的长度预先设置，以致合成一个第二话术短句的语音信息所需的时间短于播放第一话术短句或寒暄话术短句对应的语音所需的时间。

步骤S204：根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务。

在本实施例中，图2中的步骤S204和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S205：依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。

在本实施例中，图2中的步骤S205和图1中的步骤S103类似，为简约起见，在此不再赘述。

本发明第二实施例的语音合成方法在第一实施例的基础上，通过当第一个话术短句为第二话术短句时，在该第一个话术短句之前添加一个预设的寒暄话术短句，利用播放寒暄话术短句对应的语音的时间来填补两段对话之间的空白时间，能够避免用户产生两段对话之间的时间间隔被延长的感觉，从而进一步提升拟人化程度和用户体验。

图3是本发明实施例的语音合成装置的功能模块示意图。如图3所示，该语音合成装置30包括分析模块31、任务构建模块32和语音合成模块33。

分析模块31，用于分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成。

构建模块32，用于根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务。

语音合成模块33，用于依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。

优选地，预设话术库还存储了预先配置的寒暄话术短句，寒暄话术短句的语音信息预先合成；构建模块32执行根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务的操作之前，还用于：判断待输出文本是以第一话术短句开头还是以第二话术短句开头；若是以第一话术短句开头，则执行根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务及后续步骤；若是以第二话术短句开头，则在待输出文本之前添加一个寒暄话术短句。

优选地，该语音合成装置30还包括话术库构建模块(图中未示出)，用于预先构建预设话术库。话术库构建模块执行预先构建预设话术库的操作还可以为：获取预先准备的话术；解析话术的语义，并根据语义利用标点符号将话术划分为第一话术短句和第二话术短句模板。

优选地，语音合成模块33执行语音合成任务的操作还可以为：获取第二话术短句中的标点符号；根据标点符号的类型设定停顿时间并确认语音播放语气；结合停顿时间和语音播放语气将第二话术短句转换为语音信息。

优选地，语音合成模块33执行结合停顿时间和语音播放语气将第二话术短句转换为语音信息的操作之后，还用于：将第二话术短句对应的语音信息存储至缓存后，设定有效时长并计时；当计时时长达到有效时长时，从缓存删除第二话术短句对应的语音信息。

优选地，语音合成模块33执行获取第二话术短句中的标点符号的操作之前，还用于：判断缓存中是否存在与第二话术短句对应的语音信息；若存在，则重置第二话术短句对应的语音信息的有效时长，并重新开始计时。

优选地，第一话术短句、第二话术短句模板和寒暄话术短句的长度预先设置，以致合成一个第二话术短句的语音信息所需的时间短于播放第一话术短句或寒暄话术短句对应的语音信息所需的时间。

关于上述实施例语音合成装置中各模块实现技术方案的其他细节，可参见上述实施例中的语音合成方法中的描述，此处不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

请参阅图4，图4为本发明实施例的计算机设备的结构示意图。如图4所示，该计算机设备40包括处理器41及和处理器41耦接的存储器42，存储器42中存储有程序指令，程序指令被处理器41执行时，使得处理器41执行如下语音合成方法的步骤：

分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成；

根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；

依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。

其中，处理器41还可以称为CPU(Central Processing Unit，中央处理单元)。处理器41可能是一种集成电路芯片，具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图5，图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现语音合成方法的程序指令51，该程序指令51被执行时，执行如下所述的语音合成方法：

其中，该程序指令51可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等计算机设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的计算机设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音合成方法，其特征在于，包括：

分析用户输入的语音信息以确认待输出文本，所述待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，所述第二话术短句由变量填入预先设定的第二话术短句模板得到，所述变量根据所述语音信息设定，所述第一话术短句、所述第二话术短句模板均存储于预设话术库，且所述第一话术短句对应的语音信息预先合成；

根据所述第二话术短句在所述待输出文本中的排列顺序依次构建所述第二话术短句的语音合成任务；

依次播放所述待输出文本的每个话术短句对应的语音，同时开始依次执行所述语音合成任务；并且，若当前待播放话术短句是所述第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是所述第二话术短句，则查询对应的所述语音合成任务合成的语音信息并播放。

2.根据权利要求1所述的语音合成方法，其特征在于，所述预设话术库还存储了预先配置的寒暄话术短句，所述寒暄话术短句的语音信息预先合成；

所述根据所述第二话术短句在所述待输出文本中的排列顺序依次构建所述第二话术短句的语音合成任务之前，还包括：

判断所述待输出文本是以所述第一话术短句开头还是以所述第二话术短句开头；

若是以所述第一话术短句开头，则执行根据所述第二话术短句在所述待输出文本中的排列顺序依次构建所述第二话术短句的语音合成任务及后续步骤；

若是以所述第二话术短句开头，则在所述待输出文本之前添加一个所述寒暄话术短句。

3.根据权利要求1所述的语音合成方法，其特征在于，其还包括预先构建所述预设话术库，所述预先构建所述预设话术库包括：

获取预先准备的话术；

解析所述话术的语义，并根据所述语义利用标点符号将所述话术划分为所述第一话术短句和所述第二话术短句模板。

4.根据权利要求3所述的语音合成方法，其特征在于，所述执行所述语音合成任务，包括：

获取所述第二话术短句中的标点符号；

根据所述标点符号的类型设定停顿时间并确认语音播放语气；

结合所述停顿时间和所述语音播放语气将所述第二话术短句转换为语音信息。

5.根据权利要求4所述的语音合成方法，其特征在于，所述结合所述停顿时间和所述语音播放语气将所述第二话术短句转换为语音信息之后，还包括：

将所述第二话术短句对应的语音信息存储至缓存后，设定有效时长并计时；

当计时时长达到所述有效时长时，从所述缓存删除所述第二话术短句对应的语音信息。

6.根据权利要求5所述的语音合成方法，其特征在于，所述获取所述第二话术短句中的标点符号之前，还包括：

判断所述缓存中是否存在与所述第二话术短句对应的语音信息；

若存在，则重置所述第二话术短句对应的语音信息的有效时长，并重新开始计时。

7.根据权利要求2所述的语音合成方法，其特征在于，所述第一话术短句、所述第二话术短句模板和所述寒暄话术短句的长度预先设置，以致合成一个所述第二话术短句的语音信息所需的时间短于播放所述第一话术短句或所述寒暄话术短句对应的语音信息所需的时间。

8.一种语音合成装置，其特征在于，包括：

分析模块，用于分析用户输入的语音信息以确认待输出文本，所述待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，所述第二话术短句由变量填入预先设定的第二话术短句模板得到，所述变量根据所述语音信息设定，所述第一话术短句、所述第二话术短句模板均存储于预设话术库，且所述第一话术短句对应的语音信息预先合成；

构建模块，用于根据所述第二话术短句在所述待输出文本中的排列顺序依次构建所述第二话术短句的语音合成任务；

语音合成模块，用于依次播放所述待输出文本的每个话术短句对应的语音，同时开始依次执行所述语音合成任务；并且，若当前待播放话术短句是所述第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是所述第二话术短句，则查询对应的所述语音合成任务合成的语音信息并播放。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如权利要求1-7中任一项权利要求所述的语音合成方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有能够实现如权利要求1-7中任一项所述的语音合成方法的程序指令。