CN110349563B

CN110349563B - 用于语音对话平台的对话人设配置方法及系统

Info

Publication number: CN110349563B
Application number: CN201910598473.9A
Authority: CN
Inventors: 周召文
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-11-16
Anticipated expiration: 2039-07-04
Also published as: CN110349563A

Abstract

本发明实施例提供一种用于语音对话平台的对话人设配置方法。该方法包括：在语音对话平台的前端，响应于人设语音创建按钮的点击提供用于创建对话人设的合成音以及风格属性的输入框，根据开发者输入的合成音以及风格属性，在TTS人设配置界面生成TTS人设名称‑风格；还提供有人设风格对话管理配置页面；在语音对话平台的后台，将TTS人设的调用判断策略配置成：响应于用户终端发送的技能请求确定用户终端设定的TTS人设名称‑风格，根据引用参数确定专属于TTS人设名称‑风格的回复文本，以生成向用户终端反馈的TTS播报音频。本发明实施例还提供一种用于语音对话平台的对话人设配置系统。本发明实施例提供人设风格配置，提高开发者的效率，提高用户的体验。

Description

用于语音对话平台的对话人设配置方法及系统

技术领域

本发明涉及智能语音对话领域，尤其涉及一种用于语音对话平台的对话人设配置方法及系统。

背景技术

为了让智能语音交互更加富有趣味，会使用合成音切换，例如，在与用户语音交互时，上一句的语音回复还是成熟稳重的男子音，下一句就变成了温柔嗲嗲的萌妹音，在适当的场景下这样操作，会给用户带来不一样惊喜感受。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

切换合成音是相对容易实现的方案，只需要客户端将设定的合成音传给服务端，即可实现合成音的切换，但通常不同的合成音会对应不同的人设，而不同的人设针对不同条件下的回复内容是不尽相同的，比如稳重男声，性感女声，对于同一个意思的表达，由于说话风格导致内容会有一定差别。

也就是说，如果都使用同一套回复内容，而说话的合成音不同，例如，同样是“小拳拳捶你胸口”，由萌妹声音发出的话，用户会有嬉闹的感觉；如果这句话是由一个声音粗犷的壮男音发出，虽然对用户会有着不一样的体验，但这种体验还是稍有违和；又如宋小宝的“一巴掌踢死你”，如果换成一本正经的沉稳声音发出的话，就体现不出这句话原有的笑点，使得用户体验不够友好；

另外，就算是同一人设，也可以区分多种风格，在不同的风格下，例如幽默、正常、精简等不同的说话风格，所说出的话语也会各有特色，更需要针对不同合成音配置不同的回复内容。现有的语音对话平台虽然可以实现合成音的转换，但是对于不同人设下不同风格，还未能实现不同合成音配置有不同回复内容的功能。如果这些对于不同的人设风格专属的回复内容通通交由开发者通过代码的方式开发，这样无疑增加了开发者的使用门槛，降低开发者的使用体验。

发明内容

为了至少解决现有技术中由于语音对话平台不能针对不同合成音配置不同的回复内容，使得对用户的回复内容单调，用户的体验较差，同时对于开发者来说，想要实现这种功能自身又需要一定的开发门槛，较难实现的问题。

第一方面，本发明实施例提供一种用于语音对话平台的对话人设配置方法，包括：

在语音对话平台的前端，在技能开发页面下提供TTS人设配置界面，所述TTS人设配置界面包括人设语音创建按钮，响应于所述人设语音创建按钮的点击，提供用于创建对话人设的合成音以及风格属性的输入框，根据开发者输入的合成音以及风格属性，在所述TTS人设配置界面生成TTS人设名称-风格，其中，所述TTS人设名称对应至少一种风格；

响应于所述TTS人设名称-风格的点击，提供人设风格对话管理配置页面，所述人设风格对话管理配置页面包括：命中条件对应的引用参数编辑框，以及在所述各TTS人设名称-风格下的与所述引用参数对应的回复文本的编辑框，用于获取开发者对各TTS人设名称各自风格下对应的回复文本；

在语音对话平台的后台，将TTS人设的调用判断策略配置成：响应于用户终端发送的技能请求，确定所述用户终端设定的TTS人设名称-风格，在确定的TTS人设名称-风格下查询所述技能请求命中条件对应的引用参数，根据所述引用参数，确定专属于所述TTS人设名称-风格的回复文本，根据所述TTS人设名称-风格对应的合成音以及所述回复文本，生成向用户终端反馈的TTS播报音频。

第二方面，本发明实施例提供一种用于语音对话平台的对话人设配置系统，包括：

TTS人设配置程序模块，用于在语音对话平台的前端，在技能开发页面下提供TTS人设配置界面，所述TTS人设配置界面包括人设语音创建按钮，响应于所述人设语音创建按钮的点击，提供用于创建对话人设的合成音以及风格属性的输入框，根据开发者输入的合成音以及风格属性，在所述TTS人设配置界面生成TTS人设名称-风格，其中，所述TTS人设名称对应至少一种风格；

回复文本确定程序模块，用于响应于所述TTS人设名称-风格的点击，提供人设风格对话管理配置页面，所述人设风格对话管理配置页面包括：命中条件对应的引用参数编辑框，以及在所述各TTS人设名称-风格下的与所述引用参数对应的回复文本的编辑框，用于获取开发者对各TTS人设名称各自风格下对应的回复文本；

TTS人设调用配置程序模块，在语音对话平台的后台，将TTS人设的调用判断策略配置成：响应于用户终端发送的技能请求，确定所述用户终端设定的TTS人设名称-风格，在确定的TTS人设名称-风格下查询所述技能请求命中条件对应的引用参数，根据所述引用参数，确定专属于所述TTS人设名称-风格的回复文本，根据所述TTS人设名称-风格对应的合成音以及所述回复文本，生成向用户终端反馈的TTS播报音频。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的对话人设配置方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音对话平台的对话人设配置方法的步骤。

本发明实施例的有益效果在于：为不同的人设，配置符合其风格的回复内容，当用户使用了支持该功能的产品，在切换合成音时，不仅仅是播报音色的切换，更是整个人设的切换；试想，幽默男声配合幽默的回复内容，性感女声配合嗲嗲的回复内容，这个体验比同一套回复内容好太多；在产品同质化越来越严重的今天，差异化竞争的优势凸显，在功能覆盖相同的情况下，好的用户体验无疑更能打动用户，降低开发者的配置难度，也可以帮助开发者提高开发效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音对话平台的对话人设配置方法的流程图；

图2是本发明一实施例提供的一种用于语音对话平台的对话人设配置系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音对话平台的对话人设配置方法的流程图，包括如下步骤：

S11：在语音对话平台的前端，在技能开发页面下提供TTS人设配置界面，所述TTS人设配置界面包括人设语音创建按钮，响应于所述人设语音创建按钮的点击，提供用于创建对话人设的合成音以及风格属性的输入框，根据开发者输入的合成音以及风格属性，在所述TTS人设配置界面生成TTS人设名称-风格，其中，所述TTS人设名称对应至少一种风格；

S12：响应于所述TTS人设名称-风格的点击，提供人设风格对话管理配置页面，所述人设风格对话管理配置页面包括：命中条件对应的引用参数编辑框，以及在所述各TTS人设名称-风格下的与所述引用参数对应的回复文本的编辑框，用于获取开发者对各TTS人设名称各自风格下对应的回复文本；

S13：在语音对话平台的后台，将TTS人设的调用判断策略配置成：响应于用户终端发送的技能请求，确定所述用户终端设定的TTS人设名称-风格，在确定的TTS人设名称-风格下查询所述技能请求命中条件对应的引用参数，根据所述引用参数，确定专属于所述TTS人设名称-风格的回复文本，根据所述TTS人设名称-风格对应的合成音以及所述回复文本，生成向用户终端反馈的TTS播报音频。

现有的方式中，一个语音产品会包含很多技能，比如音乐技能、天气技能等，而每个技能又有多个意图，每个意图下又有不同条件，且每个条件的回复内容也不相同，比如：导航意图下，找一个结果和找到多个结果，回复的内容是有区别的；同样，查找附近加油站的意图下，也有找到一个结果和找到多个结果的情况，且回复内容与导航意图下也不相同；整个产品的回复内容基本都由技能来决定，技能又根据不同意图、不同条件，回复内容都有区别，如果再加上人设，甚至于人设的说法风格，整个结构和逻辑会非常复杂；所以，大部分的语音平台出于可实现的角度考虑，均未实现不同合成音配置不同回复内容的功能。

在本实施方式中，重新设计了语音对话平台的架构，为每个技能增加人设的属性，进而通过语音对话平台的前端和后端帮助开发者在语音对话平台配置对话人设。

对于步骤S11，在语音对话平台的网页web前端，开发者选择好语音技能后，语音对话平台在语音技能开发页面下提供TTS人设配置界面，开发者点击TTS人设配置界面中的人设创建按钮，语音对话平台提供用于创建对话人设的合成音以及风格属性的输入框。其中，合成音是开发者自行准备，或者从语音对话平台下载，例如，郭德纲的合成音、林志玲的合成音等等。风格属性是指例如，郭德纲在“幽默”风格和“普通”风格下，对同样的内容，表述的对话可能会不一样。根据开发者的输入，在TTS人设配置界面生成TTS人设名称-风格，例如，郭德纲-幽默、郭德纲-普通、郭德纲-简短、林志玲-普通。

对于步骤S12，例如，开发者点击了郭德纲-幽默，提供“幽默”风格下的对话管理配置页面，包括命中条件对应的引用参数编辑框，例如，在导航技能中，当用户在使用导航技能时，用户使用导航技能，但是缺没有输入目的地，那么，缺少目的地“queshaomudidi”就是引用参数。还包括有在该技能“幽默”下的引用参数对应的回复文本编辑框，来获取开发者输入的“幽默”风格下的回复文本，例如，在郭德纲-幽默下，“queshaomudidi”的回复文本输入为“请告诉老夫你要去哪里”。

对于步骤S13，在语音对话平台的后台，在开发者配置完语音技能的TTS人设后，搭载到相应的智能设备中，用户在使用所述智能设备时，可以自行调配想要的语音人设，例如，选择了“郭德纲-幽默”这一人设，确定的TTS人设名称-风格为：“郭德纲-幽默”。在“郭德纲-幽默”这一人设下，确定专属于“郭德纲-幽默”人设下的回复文本，例如，用户调用导航技能，却没有输入目的地时，这时就会在“郭德纲-幽默”人设下查询相应的回复文本“请告诉老夫你要去哪里”。如果用户在使用电子设备时，使用了“林志玲-普通”的人设时，查询到相应的回复文本，例如，“告诉人家～你要去哪”。也就是说，用户的输入语音触发了相同的条件，但是如果，用户设定的人设-风格不同，所回答的内容也会不相同。在确定回复文本后，在与相应的合成音来生成向用户终端反馈的TTS播报音频。

通过该实施方式可以看出，为不同的人设，配置符合其风格的回复内容，当用户使用了支持该功能的产品，在切换合成音时，不仅仅是播报音色的切换，更是整个人设的切换；试想，幽默男声配合幽默的回复内容，性感女声配合嗲嗲的回复内容，这个体验比同一套回复内容好太多；在产品同质化越来越严重的今天，差异化竞争的优势凸显，在功能覆盖相同的情况下，好的用户体验无疑更能打动用户，同样的，降低开发者的开发难度，也可以帮助开发者提高开发效率。

作为一种实施方式，在本实施例中，在语音对话平台的前端，所述人设风格对话管理配置页面还包括：文本编辑按钮，用于为各命中条件对应的引用参数添加至少一条TTS人设名称-风格下对应的回复文本；

在语音对话平台的后台，所述根据所述引用参数，确定专属于所述TTS人设名称-风格的回复文本包括：

当在所述TTS人设名称-风格下的引用参数对应多条回复文本时，随机选取一条回复文本确定为专属于所述TTS人设名称-风格的回复文本。

在本实施方式中，语音对话平台的人设风格对话管理配置页面还具有文本编辑按钮，通过文本编辑按钮来为不同的引用参数来添加TTS人设名称-风格下的对应的回复文本。例如，为引用参数“queshaomudidi”添加“请问你要去哪里”、“请告诉老夫你要去的地方”。同样的，前端可以配置更多的回复文本，在后台中，当在所述TTS人设名称-风格下的引用参数对应多条回复文本时，随机选取一条回复文本，例如回复文本内容有：“请告诉老夫你要去哪里”、“请问你要去哪里”、“请告诉老夫你要去的地方”，此时，随机选取一条回复文本确定为专属于“郭德纲-幽默”的回复文本。

通过该实施方式可以看出，有了更多回复文本，在回复用户的时候选择性更多，使其更加人性化，提高用户的使用体验。

作为一种实施方式，在本实施例中，在语音对话平台的前端，所述根据开发者输入的合成音以及风格属性，在所述TTS人设配置界面生成TTS人设名称-风格包括：

当开发者对任一合成音输入了多种风格属性时，为同一合成音的多种风格属性提供默认选项；

在语音对话平台的后台，所述确定所述用户终端设定的TTS人设名称-风格包括：

当用户终端设定TTS人设名称而没有指定风格属性时，选用TTS人设名称默认的风格属性，在确定的默认风格属性下，查询所述技能请求命中条件对应的引用参数。

在本实施方式中，有时候，用户在使用时，并不一定会配置特定的TTS人设。因此，开发者会在语音对话平台的前端选取一种TTS人设作为默认人设。这样在用户使用语音技能时，选用默认的人设进行回复。也可以提醒用户选取自己喜爱的人设。

通过该实施方式可以看出，即便缺少了用户的人设配置，也会有特定的人设回复，保证了用户的使用体验。

作为一种实施方式，在本实施例中，在语音对话平台的前端，所述TTS人设配置界面还包括：TTS人设名称-风格的导入按钮和导出按钮；

响应于导入按钮的点击，生成TTS人设导入界面，接收开发者在所述TTS人设导入界面上传的新的TTS人设名称-风格，将所述新的TTS人设名称-风格配置在语音技能中；

响应于导出按钮的点击，将开发者在TTS人设配置界面选中的TTS人设名称-风格生成文件包进行导出。

在本实施方式中，通过提供导入和导出按钮，帮助开发者将一些技能中已经配置好的TTS人设导出，也可以帮助开发者将在一些新技能中加入一些已经配置好的TTS人设。

通过该实施方式可以看出，开放了导入和导出按钮，帮助开发者进行人设复用，提高了开发者的开发效率。

如图2所示为本发明一实施例提供的一种用于语音对话平台的对话人设配置系统的结构示意图，该系统可执行上述任意实施例所述的用于语音对话平台的对话人设配置方法，并配置在终端中。

本实施例提供的一种用于语音对话平台的对话人设配置系统包括：TTS人设配置程序模块11，回复文本确定程序模块12和TTS人设调用配置程序模块13。

其中，TTS人设配置程序模块11用于在语音对话平台的前端，在技能开发页面下提供TTS人设配置界面，所述TTS人设配置界面包括人设语音创建按钮，响应于所述人设语音创建按钮的点击，提供用于创建对话人设的合成音以及风格属性的输入框，根据开发者输入的合成音以及风格属性，在所述TTS人设配置界面生成TTS人设名称-风格，其中，所述TTS人设名称对应至少一种风格；回复文本确定程序模块12用于响应于所述TTS人设名称-风格的点击，提供人设风格对话管理配置页面，所述人设风格对话管理配置页面包括：命中条件对应的引用参数编辑框，以及在所述各TTS人设名称-风格下的与所述引用参数对应的回复文本的编辑框，用于获取开发者对各TTS人设名称各自风格下对应的回复文本；TTS人设调用配置程序模块13在语音对话平台的后台，将TTS人设的调用判断策略配置成：响应于用户终端发送的技能请求，确定所述用户终端设定的TTS人设名称-风格，在确定的TTS人设名称-风格下查询所述技能请求命中条件对应的引用参数，根据所述引用参数，确定专属于所述TTS人设名称-风格的回复文本，根据所述TTS人设名称-风格对应的合成音以及所述回复文本，生成向用户终端反馈的TTS播报音频。

进一步地，在语音对话平台的前端，所述人设风格对话管理配置页面还包括：文本编辑按钮，用于为各命中条件对应的引用参数添加至少一条TTS人设名称-风格下对应的回复文本；

进一步地，在语音对话平台的前端，所述TTS人设配置程序模块用于：

在语音对话平台的后台，所述TTS人设调用配置程序模块用于：

进一步地，在语音对话平台的前端，所述TTS人设配置界面还包括：TTS人设名称-风格的导入按钮和导出按钮；

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音对话平台的对话人设配置方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音对话平台的对话人设配置方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的对话人设配置方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有智能语音功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音对话平台的对话人设配置方法，包括：

2.根据权利要求1所述的方法，其中，在语音对话平台的前端，所述人设风格对话管理配置页面还包括：文本编辑按钮，用于为各命中条件对应的引用参数添加至少一条TTS人设名称-风格下对应的回复文本；

3.根据权利要求1所述的方法，其中，在语音对话平台的前端，所述根据开发者输入的合成音以及风格属性，在所述TTS人设配置界面生成TTS人设名称-风格包括：

4.根据权利要求1所述的方法，其中，在语音对话平台的前端，所述TTS人设配置界面还包括：TTS人设名称-风格的导入按钮和导出按钮；

5.一种用于语音对话平台的对话人设配置系统，包括：

6.根据权利要求5所述的系统，其中，在语音对话平台的前端，所述人设风格对话管理配置页面还包括：文本编辑按钮，用于为各命中条件对应的引用参数添加至少一条TTS人设名称-风格下对应的回复文本；

7.根据权利要求5所述的系统，其中，在语音对话平台的前端，所述TTS人设配置程序模块用于：

8.根据权利要求5所述的系统，其中，在语音对话平台的前端，所述TTS人设配置界面还包括：TTS人设名称-风格的导入按钮和导出按钮；

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。