CN113271381A

CN113271381A - 一种ai语音通信方法、系统及合成服务器

Info

Publication number: CN113271381A
Application number: CN202110360254.4A
Authority: CN
Inventors: 曹阳
Original assignee: Zhejiang Baiying Technology Co Ltd
Current assignee: Zhejiang Baiying Technology Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-08-17
Anticipated expiration: 2041-04-02
Also published as: CN113271381B

Abstract

本公开披露一种AI语音通信方法、系统及合成服务器，属于AI语音通信技术领域，该AI语音通信方法包括：在执行当前的通信任务时，或者在预设的闲时时段内从未执行的通信任务中，获取通信内容中待合成语音的文本请求信息；遍历所述文本请求信息，从所述文本请求信息中选出最大暂停时长；根据所述最大暂停时长设置拆合标识符，并在相邻两个所述文本请求信息之间设置所述拆合标识符；根据预设通信规则，将所述文本请求信息进行合并，生成合并请求语句；基于所述合并请求语句发送语音合成服务请求，获取对应的合成语音信息。通过实施例本公开的技术方案，能够有效提升语音合成服务效率及外呼效率。

Description

一种AI语音通信方法、系统及合成服务器

技术领域

本公开涉及AI语音通信技术，尤其涉及一种AI语音通信方法、系统及合成服务器。

背景技术

当前AI外呼过程中，AI通话前需要合成AI需要播报的所有话术的语音文件，有些语音文件由于需要用户导入数据达到动态播报的效果，故在通话前需要对用户导入变量进行语音合成。

然而，如果每一个变量都要合成，这样会造成大量的请求，对语音合成服务造成很大的压力，同时也造成了通话效率慢的问题。

发明内容

有鉴于此，本公开实施例披露一种AI语音通信方法、系统及合成服务器，可提升语音合成服务效率及外呼效率，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，披露一种AI语音通信方法，该方法包括：

在执行当前的通信任务时，或者在预设的闲时时段内从未执行的通信任务中，获取通信内容中待合成语音的文本请求信息；

遍历所述文本请求信息，从所述文本请求信息中选出最大暂停时长；

根据所述最大暂停时长设置拆合标识符，并在相邻两个所述文本请求信息之间设置所述拆合标识符；

根据预设通信规则，将所述文本请求信息进行合并，生成合并请求语句；

基于所述合并请求语句发送语音合成服务请求，获取对应的合成语音信息。

作为本公开的一种实施方式，上述AI语音通信方法中，所述通信内容包括均未语音合成的固定信息和变量信息，则所述文本请求信息包括固定文本信息和变量文本信息；根据所述拆合标识符，拆分所述合成语音信息，得到与所述文本请求信息对应的AI语音信息，根据所述AI语音信息，执行并完成对应的AI语音通信任务。

作为本公开的一种实施方式，上述AI语音通信方法中，所述通信内容包括已合成为AI语音的固定信息和未语音合成的变量信息，所述文本请求信息包括变量文本信息；提取语音通信任务中的所述变量信息，形成所述变量文本信息；根据所述拆合标识符，拆分所述合成语音信息，得到与所述变量文本信息对应的变量语音信息，并将所述变量语音信息对应回填到通信内容中所述变量信息的对应位置处，得到完整合成为AI语音的通信内容，进而据此执行并完成对应的语音通信任务。

作为本公开的一种实施方式，上述AI语音通信方法中，所述根据预设通信规则，将所述文本请求信息进行合并，生成合并请求语句进一步包括：

计算N+1个所述文本请求信息合并得到的所述合并请求语句的字数与预设的单次合并字数阈值的字数差；其中N为大于或等于零的整数；

判断第N+2个所述文本请求信息的字数是否超过所述字数差，若没有超过，则继续将所述第N+2个所述文本请求信息合并至当前的合并请求语句中；

若所述第N+2个所述文本请求信息的字数超过所述字数差，则新增一个以所述第N+2个所述文本请求信息为起始的合并请求语句，直到所有所述文本请求信息全部完成合并。

作为本公开的一种实施方式，上述AI语音通信方法还可包括：

执行所述当前的AI语音通信任务时，根据预设的数据收集模板，收集与所述变量文本信息对应的反馈数据；

根据收集到的所述反馈数据，生成采集数据表单，并输出。

作为本公开的一种实施方式，上述AI语音通信方法中，所述根据所述最大暂停时长设置拆合标识符，进一步包括：

遍历N个所述文本请求信息，判断所述文本请求信息中是否包含有暂停节点，在遍历到所述暂停节点时，提取所述暂停节点对应的暂停空白音时长，并在所遍历到的暂停空白音时长中选出最大暂停时长；

根据所述最大暂停时长MaxDefine，设置所述拆合标识符<s,spliter>的分割间隔阈值spliter；其中，spliter＝MaxDefine+Space，Space为增设的分割间隔时长。

根据本公开的第二方面，披露一种AI语音通信系统，该系统包括：

提取模块，用于在执行当前的AI语音通信任务时，或者在预设的闲时时段内从未执行的AI语音通信任务中，获取AI语音通信任务中待合成语音的文本请求信息；

处理模块，用于遍历所述文本请求信息，从所述文本请求信息中选出最大暂停时长；以及，用于根据所述最大暂停时长设置拆合标识符，并在相邻两个所述文本请求信息之间设置所述拆合标识符；

合并模块，用于根据预设通信规则，将所述文本请求信息进行合并，生成合并请求语句；

请求模块，用于基于所述合并请求语句发送语音合成服务请求，获取对应的合成语音信息；

拆分模块，用于根据所述拆合标识符，拆分所述合成语音信息，得到与所述文本请求信息对应的AI语音信息；

数据库，用于存储通信语料的AI语音信息。

作为本公开的一种实施方式，上述AI语音通信系统还可包括：

触发模块，用于根据预设条件，触发所述提取模块，所述预设条件包括所述在执行当前的AI语音通信任务时触发，或者在预设的闲时时段触发。

外呼模块，用于根据所述AI语音信息，执行并完成对应的AI语音通信任务；

收集模块，用于执行所述当前的AI语音通信任务时，根据预设的数据收集模板，收集与所述变量文本信息对应的反馈数据；以及，根据收集到的所述反馈数据，生成采集数据表单，并存储至所述数据库。

根据本公开的第三方面，披露一种AI语音合成服务器，该AI语音合成服务器包括：

收发模块，用于接收语音合成服务请求，发送合成语音信息；

合成模块，用于解析所述语音合成服务请求，并将所述合并请求语句对应的转换为AI语音信息；

语料数据库，用于存储合成为AI语音数据的通信语料。

与现有技术相比，本公开披露的AI语音通信方法、系统及合成服务器具有以下有益的技术效果：

通过实施本公开的技术方案，将多个文本请求信息进行合并，形成合并请求语句，可通过一次或多次合并，请求获取合成语音信息，有效减少了语音合成请求量，减轻语音服务器负载，提升语音服务器的服务量。

并且，多个语音请求合并可以减少请求量，从而提升外呼效率。此外，通过利用闲时时段完成语音合成，不仅可提高语音合成的资源利用率，还能够减少AI外呼通话过程中的合成需要语料的时间，从而提高外呼效率，有效减少了AI语音外呼任务过程中语音合成服务的压力。

此外，通过实施本公开的技术方案，还可以减少语音合成服务的请求数量，减少语音合成服务的负载压力，同时还可以提升服务合成的效率，减少合成时间。

需要理解的是，本公开的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本公开的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本公开实施例披露的一种AI语音通信方法流程示意图；

图2为本公开实施例披露的一种AI语音通信系统的组成框图；以及

图3为本公开实施例披露的一种AI语音合成服务器的组成框图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本公开的技术方案进一步详细阐述。

方法实施例：

为提升AI语音通信任务中AI语音合成效率，本实施例披露一种AI语音通信方法，该方法包括以下步骤：

S100：在执行当前的通信任务时，或者在预设的闲时时段内从未执行的通信任务中，获取通信内容中待合成语音的文本请求信息；

S110：遍历文本请求信息，从文本请求信息中选出最大暂停时长；

S120：根据最大暂停时长设置拆合标识符，并在相邻两个文本请求信息之间设置拆合标识符；

S130：根据预设通信规则，将文本请求信息进行合并，生成合并请求语句；

S140：基于合并请求语句发送语音合成服务请求，获取对应的合成语音信息。

本实施例中，通过将多个文本请求信息进行合并，形成合并请求语句，可通过一次或多次合并，请求获取合成语音信息，有效减少了语音合成请求量，减轻语音服务器负载，提升语音服务器的服务量。

同时，多个语音请求合并可以减少请求量，从而提升外呼效率。此外，通过利用闲时时段完成语音合成，不仅可提高语音合成的资源利用率，还能够减少AI外呼通话过程中的合成需要语料的时间，从而提高外呼效率，有效减少了AI语音外呼任务过程中语音合成服务的压力。

作为一种可选的实现方式，在上述实施例中，当通信内容包括：均未语音合成的固定信息和变量信息时，文本请求信息包括固定文本信息和变量文本信息。这种情况下，本实施例的AI语音通信方法可进一步包括：

S150：根据拆合标识符，拆分合成语音信息，得到与文本请求信息对应的AI语音信息；

S160：根据AI语音信息，执行并完成对应的AI语音通信任务。

作为一种可选的实现方式，在上述实施例中，当通信内容包括已合成为AI语音的固定信息和未语音合成的变量信息时，文本请求信息包括变量文本信息。这种情况下，本实施例的AI语音通信方法可进一步包括：

S170：提取语音通信任务中的变量信息，形成变量文本信息；

S180：根据拆合标识符，拆分合成语音信息，得到与变量文本信息对应的变量语音信息；

S190：将变量语音信息对应回填到通信内容中变量信息的对应位置处，得到完整合成为AI语音的通信内容；

S160：根据AI语音信息，执行并完成对应的AI语音通信任务。

作为一种可选的实现方式，在上述实施例S130中，根据预设通信规则，将文本请求信息进行合并，生成合并请求语句，可进一步包括：

S131：计算N+1个文本请求信息合并得到的合并请求语句的字数与预设的单次合并字数阈值的字数差；其中N为大于或等于零的整数；

S132：判断第N+2个文本请求信息的字数是否超过字数差；

若没有超过，则执行S133：继续将第N+2个文本请求信息合并至当前的合并请求语句中；

若第N+2个文本请求信息的字数超过字数差，则执行S134：新增一个以第N+2个文本请求信息为起始的合并请求语句；

如此迭代N值，执行S131，直到所有文本请求信息全部完成合并。

作为一种可选的实现方式，AI语音通信方法还可包括：

S200：执行当前的AI语音通信任务时，根据预设的数据收集模板，收集与变量文本信息对应的反馈数据；

S210：根据收集到的反馈数据，生成采集数据表单，并输出。

作为一种可选的实现方式，上述实施例S120中，根据最大暂停时长设置拆合标识符，可进一步包括以下步骤：

S121：遍历N个文本请求信息，判断文本请求信息中是否包含有暂停节点；

S122：在遍历到暂停节点时，提取暂停节点对应的暂停空白音时长，并在所遍历到的暂停空白音时长中选出最大暂停时长；

S123：根据最大暂停时长MaxDefine，设置拆合标识符<s,spliter>的分割间隔阈值spliter。其中，spliter＝MaxDefine+Space，Space为增设的分割间隔时长。

本步骤中，当前扫描到的最大空白音，记为MaxDefine，单位为ms，则空白音分割间隔可以设为spliter＝MaxDefine+1000ms，此处，Space为1000ms，也可以根据需求设置为其他时长的空白音作为分隔符。

本实施例中，通过将多个请求变量进行合并成单句话进行合成，中间利用空白音作为分割符，考虑到语音服务器单次合成有最长字数限制，可以将合并超长的字数进行拆分，多次合并。即使考虑到单次合成的字数限制，多次合并请求语音合成的效果，也比之前单个变量信息分别请求合成的效果好。

这里，结合图1所示的一示例，对上述实施例做进一步说明：

S300：遍历所有需要合成节点中含暂停节点，获取最大值，记为MaxDefine，单位为ms；

S301：取间隔符为空白间隔，记为spliter，spliter＝MaxDefine+1000ms；

S302：将多个请求变量合并成单句，中间利用空白音作为分割符，增加文本<s,spliter>；

例如：将所有变量间增加文本<s,spliter>，其中<s,spliter>对语音合成服务而言，可以增加对应时间的空白音。

S303：判断是否超过单次合成最大字数，单次合成最大字数记为MaxWordCount；

S304：若超过，则增加一条请求语音合成记录；若未超过单次合成最大字数，则返回执行S302；判断合成文本是否超过语音服务的最长合并文本阈值，单次合成阈值记为MaxWordCount，新增一条合并文本，请求语音合成记录。

S305：语音合成服务请求，将所有的合并后文本请求信息，提交给语音服务后进行合成；

S306：返回所有的合成长音；

S307：按照当前<s,spliter>，拆分回填到各单个请求数据中。

其中，合成返回后的AI语音，按照spliter进行拆分，与合成的顺序一致进行一一对应。

因此，上述实施例通过获取当前AI外呼任务需要合成的所有的变量信息，遍历所有变量信息中是否包含有空白音，防止设置的空白音阈值因为变量包含有空白音导致文件拆分有问题。通过上述的方案，可以减少语音合成服务的请求数量，减少语音合成服务的负载压力，同时还可以提升服务合成的效率，减少合成时间。

产品实施例：

为实现上述方法，本实施例披露一种AI语音通信系统，如图2所示，该系统包括以下组成：

处理模块，用于遍历文本请求信息，从文本请求信息中选出最大暂停时长；以及，用于根据最大暂停时长设置拆合标识符，并在相邻两个文本请求信息之间设置拆合标识符；

合并模块，用于根据预设通信规则，将文本请求信息进行合并，生成合并请求语句；

请求模块，用于基于合并请求语句发送语音合成服务请求，获取对应的合成语音信息；

拆分模块，用于根据拆合标识符，拆分合成语音信息，得到与文本请求信息对应的AI语音信息；

数据库，用于存储通信语料的AI语音信息。

本实施例中，通过将多个文本请求信息进行合并，形成合并请求语句，可通过一次或多次合并，请求获取合成语音信息，有效减少了语音合成请求量，减轻语音服务器负载，从而提升外呼效率。

作为一种可选的实现方式，上述AI语音通信系统还可包括：触发模块，触发模块用于根据预设条件，触发提取模块，预设条件包括在执行当前的AI语音通信任务时触发，或者在预设的闲时时段触发。

本实施例通过利用闲时时段完成语音合成，不仅可提高语音合成的资源利用率，还能够减少AI外呼通话过程中的合成需要语料的时间，从而提高外呼效率，有效减少了AI语音外呼任务过程中语音合成服务的压力。

作为一种可选的实现方式，上述AI语音通信系统还可包括：

通信模块，用于根据AI语音信息，执行并完成对应的AI语音通信任务；

收集模块，用于执行当前的AI语音通信任务时，根据预设的数据收集模板，收集与变量文本信息对应的反馈数据；以及，根据收集到的反馈数据，生成采集数据表单，并存储至数据库。

需要说明的是，产品实施例与方法实施例相对应，其具体技术效果分析，可参加前述方法实施例，此处不再赘述。

参照图3所示，本实施例披露一种AI语音合成服务器，该AI语音合成服务器包括以下组成：

合成模块，用于解析语音合成服务请求，并将合并请求语句对应的转换为AI语音信息；

语料数据库，用于存储合成为AI语音数据的通信语料。

本实施例中，语音合成服务器对单次合成有最长字数限制，通信设备将合并超长的字数进行拆分，多次合并，减少语音合成请求，从而提升语音服务器的服务量。

因此，通过上述实施例披露的技术方案，可以减少语音合成服务的请求数量，减少语音合成服务的负载压力，同时还可以提升服务合成的效率，减少合成时间。

这里需要指出的是：以上实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本公开实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种AI语音通信方法，其特征在于，包括：

2.根据权利要求1所述的AI语音通信方法，其特征在于：

所述通信内容包括均未语音合成的固定信息和变量信息，则所述文本请求信息包括固定文本信息和变量文本信息；

根据所述拆合标识符，拆分所述合成语音信息，得到与所述文本请求信息对应的AI语音信息，根据所述AI语音信息，执行并完成对应的AI语音通信任务。

3.根据权利要求1所述的AI语音通信方法，其特征在于：

所述通信内容包括已合成为AI语音的固定信息和未语音合成的变量信息，所述文本请求信息包括变量文本信息；

提取语音通信任务中的所述变量信息，形成所述变量文本信息；

根据所述拆合标识符，拆分所述合成语音信息，得到与所述变量文本信息对应的变量语音信息，并将所述变量语音信息对应回填到通信内容中所述变量信息的对应位置处，得到完整合成为AI语音的通信内容，进而据此执行并完成对应的语音通信任务。

4.根据权利要求1至3任一项所述的AI语音通信方法，其特征在于，所述根据预设通信规则，将所述文本请求信息进行合并，生成合并请求语句进一步包括：

5.根据权利要求4所述的AI语音通信方法，其特征在于，还包括：

根据收集到的所述反馈数据，生成采集数据表单，并输出。

6.根据权利要求5所述的AI语音通信方法，其特征在于，所述根据所述最大暂停时长设置拆合标识符，进一步包括：

7.一种AI语音通信系统，其特征在于，包括：

数据库，用于存储通信语料的AI语音信息。

8.根据权利要求7所述的AI语音通信系统，其特征在于，还包括：

9.根据权利要求7或8所述的AI语音通信系统，其特征在于，还包括：

10.一种AI语音合成服务器，其特征在于，包括：

语料数据库，用于存储合成为AI语音数据的通信语料。