CN113257224A

CN113257224A - 用于多轮对话的tts优化方法及系统

Info

Publication number: CN113257224A
Application number: CN202110519058.7A
Authority: CN
Inventors: 史彤; 董鑫; 初敏
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-13

Abstract

本发明实施例提供一种用于多轮对话的TTS优化方法。该方法包括：创建多个对话节点；在每个对话节点的配置页面中提供个性化TTS配置选项，供对话定制人员编辑，个性化TTS配置选项至少包括：数字串和/或字母串朗读方式；在每个对话节点的配置页面中提供了合成播放的按钮，以供对话定制人员试听并调整各配置选项。本发明实施例还提供一种用于多轮对话的TTS优化系统。本发明实施例在多轮对话的TTS配置中，利用SSML功能与业务场景紧密结合，让机器人在多轮对话过程中的话术根据业务需要进行不同方式的语音合成，使得人机对话更加贴近自然语言，提升用户体验。使得机器对话形式、内容更加丰富、更具有个性化。

Description

用于多轮对话的TTS优化方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种用于多轮对话的TTS优化方法及系统。

背景技术

智能语音对话系统中广泛应用了语音合成技术，语音合成使得机器具备类似人类的说话能力，将文字信息可以实时转化为标准流畅的语音读出来，以与人类进行自然语言对话。目前市面上的智能语音对话机器人可以根据业务场景选择整个对话机器人的发音人、设置语速和音量，语音合成时应用通用的TTS算法，较为自然流畅的将汉字、字母、数字等文本信息合成语音播报出来。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

智能语音对话机器人的TTS语音合成在针对同一场景下多轮对话的不同节点，往往存在以下缺陷：

1、单纯的场景TTS配置不能支持多轮对话不同的节点对不同的语速、音量或音色的需求，应用于全场景的配置是通用配置。当多轮对话对不同节点有不同的业务需求时，不能个性化的配置。

如第二次重复话术时，音量变大、语速减慢，面向不同声音的用户采用不同的音色来回复，某些节点采取录音文件播放的方式同时某些节点使用TTS合成，以上使用通用配置均无法实现，会影响智能对话产品的易用性及用户体验。

2、任务型对话机器人经常会有信息收集相关任务，收集到的数字串、字母串等在不同节点代表不同的含义，如手机号码、车牌号码、订单号码等。不同的号码对于发音的连续及停顿的习惯不同，通用配置也无法满足不同文本的发音方式，连读或不正确间断会使用户疑惑，导致不友好的用户体验。

发明内容

为了至少解决现有技术中无法对多轮对话个性化TTS优化，使得用户体验不友好的问题。

第一方面，本发明实施例提供一种用于多轮对话的TTS优化方法，应用于对话定制平台，包括：

创建多个对话节点；

在每个对话节点的配置页面中提供个性化TTS配置选项，供对话定制人员编辑，所述个性化TTS配置选项至少包括：数字串和/或字母串朗读方式；

在每个对话节点的配置页面中提供了合成播放的按钮，以供对话定制人员试听并调整各配置选项。

第二方面，本发明实施例提供一种用于多轮对话的TTS优化系统，包括：

对话节点创建程序模块，用于创建多个对话节点；

个性化TTS配置程序模块，用于在每个对话节点的配置页面中提供个性化TTS配置选项，供对话定制人员编辑，所述个性化TTS配置选项至少包括：数字串和/或字母串朗读方式；

试听配置程序模块，用于在每个对话节点的配置页面中提供了合成播放的按钮，以供对话定制人员试听并调整各配置选项。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于多轮对话的TTS优化方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于多轮对话的TTS优化方法的步骤。

本发明实施例的有益效果在于：在多轮对话的TTS配置中，利用SSML功能与业务场景紧密结合，让机器人在多轮对话过程中的话术根据业务需要进行不同方式的语音合成，使得人机对话更加贴近自然语言，提升用户体验。使得机器对话形式、内容更加丰富、更具有个性化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于多轮对话的TTS优化方法的流程图；

图2是本发明一实施例提供的一种用于多轮对话的TTS优化方法的创建开场白节点示意图；

图3是本发明一实施例提供的一种用于多轮对话的TTS优化方法的创建二次开场白节点示意图；

图4是本发明一实施例提供的一种用于多轮对话的TTS优化方法的创建通知领奖节点示意图；

图5是本发明一实施例提供的一种用于多轮对话的TTS优化方法的NLG编辑操作示意图；

图6是本发明一实施例提供的一种用于多轮对话的TTS优化方法SSML编辑器操作-数字串读法连读、停顿示意图；

图7是本发明一实施例提供的一种用于多轮对话的SSML编辑器合成试听示意图；

图8是本发明一实施例提供的一种用于多轮对话的TTS优化方法的SSML编辑器修改声调示意图；

图9是本发明一实施例提供的一种用于多轮对话的TTS优化方法的线上线下整体架构图；

图10是本发明一实施例提供的一种用于多轮对话的TTS优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于多轮对话的TTS优化方法的流程图，包括如下步骤：

S11：创建多个对话节点；

S12：在每个对话节点的配置页面中提供个性化TTS配置选项，供对话定制人员编辑，所述个性化TTS配置选项至少包括：数字串和/或字母串朗读方式；

S13：在每个对话节点的配置页面中提供了合成播放的按钮，以供对话定制人员试听并调整各配置选项。

在本实施方式中，总的结构分为两部分，线上AI对话的应用以及线下对话节点层面的对话定制。基于线下对话节点层面的对话定制来实现线上AI对话的应用。

在线上AI对话中，用户与机器人对话至某节点时，用户等待机器人播报。此时DM(对话管理)引擎根据用户上一轮的意图，进行节点跳转，对于目标节点，将由DM引擎从数据库读取对话的话术即NLG(Natural Language Generation，自然语言生成)。同时，会调用TTS(Text To Speech，从文本到语音)引擎来实现语音合成操作，当读取的NLG话术为SSML(Speech Synthesis Markup Language，语音合成标记语言)编辑过的标签格式文本时，TTS引擎会解析标签，并根据标签指令合成语音，最后播报给用户。

在线下对话节点层面对话定制主要包含了节点创建、话术编辑和SSML编辑。对话定制人员根据语音机器人的定制需求创建对话节点，并在对话节点中添加对应的机器人话术，当话术的语音合成通用的TTS满足不了或者效果不够好时，可选择进行SSML的合成方式，在图形化界面进行编辑。系统会将NLG文本存在数据库中。线下定制时，还可以进行试听以不断调试，试听时会用SSML编辑过的标签格式文本请求TTS引擎，实时听到合成声音。

对于步骤S11，由于上文说到，线下AI对话的应用基于线下对话节点层面的对话定制实现。就需要给对话定制人员操作的平台，在实际使用中，可以使用思必驰的语音对话平台来进行定制。

例如，对话定制人员针对商场环境来定制多轮对话的TTS进而达到对话优化。

背景：

某商场通知机主进行积分兑换，确认接听者是否为机主。要求在对话过程中出现的积分以数量形式播报、手机号播报按人类习惯短停顿，商场电话五位数每位数字直接播报。根据接听者表示未听清，放慢语速解释一遍。

首先要创建多个对话节点，如图2所示，创建开场白节点，对应话术“${userName}您好，我是某商场智能助手。您目前已在我商场积分33445分，可以兑换奖品一份。请确认您是133****1234的机主吗？”，配置意图“确认”“否认”“用户没听清”。

如图3，创建二次开场白节点，对应话术“我是某商场智能助手。您已经在我商场积分33445分，可以兑换奖品一份了。请确认您是张三先生吗？”，配置意图“确认”“否认”“用户没听清”。

如图4，创建通知领奖节点，对应话术“好的，请您与近期来我商场兑换奖品，详情咨询77889，再见！”，播报后操作设置为“对话完成”，即机器人播报完成这句话会挂机。

对于步骤S12，在平台的配置页面中，会提供NLG高级编辑界面，如图5所示，在这其中可以配置单一化NLG或多样化NLG，可以修改对话节点内对应的话术、超时时间、停顿时间、是否支持用户语音打断、TTS播放方式。对应下轮ASR三路资源，声音文件路径、序列、合成文本类型，生成录音等。其中，在合成文本类型中，可以针对性的使用SSML编辑器进行深度编辑。

进入SSML编辑器后，弹出对话节点的合成编辑配置界面，可以从界面中看到多种个性化TTS配置选项，来供对话定制人员来编辑，正如背景中说到：“要求在对话过程中出现的积分以数量形式播报、手机号播报按人类习惯短停顿，商场电话五位数每位数字直接播报。”在TTS配置选项中就提供了数字串和/或字母串朗读方式。

作为一种实施方式，在本实施例中，所述个性化TTS配置选项至少还包括：停顿和/或连读；

在所述停顿和/或连读选项中，接收对话定制人员在所述配置页面中的图形化界面上对话术的停顿和/或连读的设置，在所述配置页面中的语言编辑界面中生成对应的语音合成标记语言的标签格式文本，以支持所述对话定制人员以不编程的方式对所述对话节点个性化TTS配置。

如图6所示，“某商场”设置连读，“33445”设置数字串朗读方式为按数值朗读，手机号码133后添加短停顿，1234后添加短停顿，全部手机号设置数字串朗读方式为数字逐个朗读。点击SSML文本，可以实时看到添加了SSML配置的xml格式的的文本标签。

对于步骤S13，如图7所示，当话定制人员配置完毕后，在合成编辑配置界面中可以看到合成播放按钮，点击“合成播放”后，平台会按照对话定制人员配置的信息对话术文本进行播放供对话定制人员试听。这样如果哪里有问题，对话定制人员直接就可以进行修改，提高对话定制人员的多轮对话的TTS配置效率。

通过该实施方式可以看出，在多轮对话的TTS配置中，利用SSML功能与业务场景紧密结合，让机器人在多轮对话过程中的话术根据业务需要进行不同方式的语音合成，使得人机对话更加贴近自然语言，提升用户体验。

例如播报手机号码时，数字“1”读作“幺”，播报间断为前三位一断、中间四位一断、最后四位一断(如:幺三三、幺二三四、幺二三四)，避免了一股脑将手机号码念给用户，让用户疑惑。本方法能对智能语音机器人带来强有力的支撑，使得机器人对话形式、内容更加丰富、更具有个性化。

作为一种实施方式，在本实施例中，所述个性化TTS配置选项至少还包括：发音配置；

在所述发音配置选项中，响应于对话定制人员在图形化界面上对话术中词语的选中，生成被选中词语的发音配置框，接收所述对话定制人员在所述发音配置框输入的发音配置信息。

在本实施方式中，如图8所示，为了使语音合成更加自然，“一份”中的“一”修改发音为二声。例如在修改发音配置下，用户在界面中滑动选中“一”就会生成发音修改提示框，对话定制人员可以在这个提示框中修改发音，改成“yi2”代表二声类似于“咦”的发音。用户点击修改后，进而接收对话定制人员在所述发音配置框输入的发音配置信息。

通过该实施方式可以看出，在多轮对话的TTS配置中，进一步的提供配置发音功能，扩大对话的场景，使得人机对话更加贴近自然语言，进一步提升用户体验。

作为一种实施方式，在本实施例中，所述图形化界面还包括：音量、语速滑动条；

接收对话定制人员在所述音量、语速滑动条的拖拽或滑动的位置，确定所述发音配置的音量、语速。

在本实施方式中，在图形化界面中的左下角还有音量和语速的滑动条，话定制人员可以直接拖拽或滑动该滑动条，这样便于对话定制人员快速便捷的为TTS配置相应的语速和音量，例如将语速调整为0.9，使得播放速度更慢，更利于用户听清。

作为一种实施方式，在本实施例中，所述图形化界面还包括：音色配置列表；

接收对话定制人员在所述音色配置列表选择的音色，确定所述发音配置的音色。

在本实施方式中，如果对话定制人员希望可以以更丰富的音色向用户播报话术，图形化界面中配备了大量的音色配置列表，具体如“合成播放、试听”部分的图7可以看到，有：标准清亮女声、传统平和女声、标准高冷女声、标准商务女声、标准鬼故事绝音、客服女声、娱报女声等，同样的还提供了男声、童声，例如，关于一些技术性的话术可以使用男声播放，又或者，节日祝贺类的话术可以使用童声。这样对话定制人员可以根据不同话术的需要来选择对应的音色配置。

通过该实施方式可以看出，在多轮对话的TTS配置中，进一步的提供音色配置功能，扩大对话的场景，使得人机对话更加贴近自然语言，进一步提升用户体验。

作为一种实施方式，在本实施例中，所述配置页面包括：声纹配置界面；

在所述声纹配置界面中，接收对话定制人员对不同类型的声纹与不同类型的预设个性化TTS配置的匹配，以实现在等待用户说话的过程中，识别所述用户的声纹特征，匹配对应的预设个性化TTS配置，优先使用所述预设个性化TTS配置与所述用户进行对话。

在本实施方式中，还可以将TTS优化与声纹识别紧密结合，例如智能语音营销机器人，在听到客户说话识别出情绪、年龄及性别等生物特征时，采用不同的发音人及发音速度进行回复。例如：接电话的客户是老人时，推销介绍产品的节点设置为更有亲和力、语速更慢的语音合成方式。

也就是说，在多轮对话的TTS配置可能是发音轻快的男声，但是在第一轮识别到用户的声纹特征，与内置的预设声纹区间相吻合，例如，识别到用户的声纹是老年人，此时，优先使用预设定好的清楚的、缓慢的发音TTS配置来与用户进行对话。这样进一步提升用户的体验。通过声纹判断年龄的实现，可以收集65岁以上的老年人的声音，通过提取对应的音色声纹，得到大致的区间。当用户的声纹正好处于这一区间中，即可判定用户是否为老年人。

这样完成了线上AI对话与线下对话节点层面对话定制的整体架构，如图9所示，对话定制人员在线下对话节点层面进行定制，用户在对话中与配置好的TTS进行对话。

如图10所示为本发明一实施例提供的一种用于多轮对话的TTS优化系统的结构示意图，该系统可执行上述任意实施例所述的用于多轮对话的TTS优化方法，并配置在终端中。

本实施例提供的一种用于多轮对话的TTS优化系统10包括：对话节点创建程序模块11，个性化TTS配置程序模块12和试听配置程序模块13。

其中，对话节点创建程序模块11用于创建多个对话节点；个性化TTS配置程序模块12用于在每个对话节点的配置页面中提供个性化TTS配置选项，供对话定制人员编辑，所述个性化TTS配置选项至少包括：数字串和/或字母串朗读方式；试听配置程序模块13用于在每个对话节点的配置页面中提供了合成播放的按钮，以供对话定制人员试听并调整各配置选项。

进一步地，所述个性化TTS配置程序模块用于：

在停顿和/或连读选项中，接收对话定制人员在所述配置页面中的图形化界面上对话术的停顿和/或连读的设置，在所述配置页面中的语言编辑界面中生成对应的语音合成标记语言的标签格式文本，以支持所述对话定制人员以不编程的方式对所述对话节点个性化TTS配置。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于多轮对话的TTS优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

创建多个对话节点；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于多轮对话的TTS优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于多轮对话的TTS优化方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于多轮对话的TTS优化方法，应用于对话定制平台，包括：

创建多个对话节点；

2.根据权利要求1所述的方法，其中，所述个性化TTS配置选项至少还包括：停顿和/或连读；

3.根据权利要求2所述的方法，其中，所述个性化TTS配置选项至少还包括：发音配置；

4.根据权利要求3所述的方法，其中，所述图形化界面还包括：音量、语速滑动条；

5.根据权利要求3所述的方法，其中，所述图形化界面还包括：音色配置列表；

6.根据权利要求1所述的方法，其中，所述配置页面包括：声纹配置界面；

7.一种用于多轮对话的TTS优化系统，包括：

对话节点创建程序模块，用于创建多个对话节点；

8.根据权利要求7所述的系统，其中，所述个性化TTS配置程序模块用于：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。