CN106486111B

CN106486111B - 基于智能机器人的多tts引擎输出语速调节方法及系统

Info

Publication number: CN106486111B
Application number: CN201610898765.0A
Authority: CN
Inventors: 王合心
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-10-14
Filing date: 2016-10-14
Publication date: 2020-02-07
Anticipated expiration: 2036-10-14
Also published as: CN106486111A

Abstract

一种基于智能机器人的多TTS引擎输出语速调节方法及系统，其中，该方法包括：朗读速度确定步骤，接收多模态交互数据，对多模态交互数据进行解析，确定出需调用的TTS引擎的类型和朗读速度；输出语速确定步骤，基于语速调整模型及需调用的TTS引擎的类型和朗读速度计算需调用的TTS引擎的输出语速；语音输出步骤，调用需调用的TTS引擎以输出语速进行语音输出。相较于现有的多TTS引擎输出语速调节方法，本方法不再需要用户来对各个TTS引擎分别进行相关参数的设置，而是能够使用同一套语速调节方案来实现对不同的TTS引擎的速度设置，从而提高了多TTS引擎输出语速调节的高效性和便捷性。

Description

基于智能机器人的多TTS引擎输出语速调节方法及系统

技术领域

本发明涉及智能机器人技术领域，具体地说，涉及一种基于智能机器人的多TTS引擎输出语速调节方法及系统。

背景技术

随着智能机器人技术的发展，智能机器人的应用已经逐渐深入到人们生活的各个方面。从辅助教学、医疗卫生到公共服务的各个方面，都能见到智能机器人忙碌的身影。

智能机器人可以通过TTS引擎实现文本到语音的转换。为了使语音输出的效果更好，往往需要对语音输出的语速进行调整。但是智能机器人面对的用户多种多样，不同用户使用的交互语言可能有所不同，而智能机器人本身的输出语言，在不同的场景下，也需要不同的语言输出，有时在同一场景下需要使用两种或者两种以上的语言的进行输出。而不同语言可能使用不同的TTS引擎，对于使用多TTS引擎的智能机器人，如何在交互过程中快速有效的实现语速调节，是本领域技术人员亟需解决的一个问题。

发明内容

为解决上述问题，本发明提供了一种基于智能机器人的多TTS引擎输出语速调节方法，其包括：

朗读速度确定步骤，接收多模态交互数据，对所述多模态交互数据进行解析，确定出需调用的TTS引擎的类型和朗读速度；

输出语速确定步骤，基于语速调整模型及所述需调用的TTS引擎的类型和朗读速度计算需调用的TTS引擎的输出语速；

语音输出步骤，调用所述需调用的TTS引擎以所述输出语速进行语音输出。

根据本发明的一个实施例，在基于语速调整模型及所述TTS引擎的类型和朗读速度获取需调用的TTS引擎的输出语速的步骤包括：

将所述朗读速度输入到引擎语速接口；

利用所述引擎语速接口调用所述需调用的TTS引擎对应的语速调整模型生成所述TTS引擎的输出语速。

根据本发明的一个实施例，所述语速调整模型如下式所示：

其中，v_s表示需调用的TTS引擎的输出语速，v_in表示朗读速度，v_max表示能够实现的朗读速度的最大值，v_c表示所述需调用的TTS引擎的输出语速的最大值。

根据本发明的一个实施例，所述对多模态交互数据进行解析以确定需调用的TTS引擎的类型和朗读速度的步骤包括：

结合多模态交互数据，根据当前用户使用的语言类型，确定需调用的TTS引擎类型，以及根据多模态交互数据生成语言输出内容后，结合语言输出内容，确定朗读速度；或者，

对多模态交互数据进行解析，当解析到语速调整指令或通过特定语言类型进行交互的指令时，根据所述语速调整指令确定朗读速度或将所述特定语言类型对应的TTS引擎作为需调用的TTS引擎；

或者，

对多模态交互数据进行解析，当解析到当前需要调用语言教学应用时，根据需要进行语言教学的语言类型，确定需调用的TTS引擎类型，根据当前用户对该语言的听力，确定朗读速度。

根据本发明的一个实施例，所述多TTS引擎至少包括中文TTS引擎和英文TTS引擎。

本发明还提供了一种基于智能机器人的多TTS引擎输出语速调节系统，其包括：

朗读速度确定模块，其用于接收多模态交互数据，对所述多模态交互数据进行解析，确定出需调用的TTS引擎的类型和朗读速度；

输出语速确定模块，其用于基于语速调整模型及所述需调用的TTS引擎的类型和朗读速度计算需调用的TTS引擎的输出语速；

语音输出模块，其用于调用所述需调用的TTS引擎以所述输出语速进行语音输出。

根据本发明的一个实施例，所述输出语速确定模块配置为：

将所述朗读速度输入到引擎语速接口；

根据本发明的一个实施例，所述语速调整模型如下式所示：

根据本发明的一个实施例，所述朗读速度确定模块配置为：

或者，

本发明所提供的基于智能机器人的多TTS引擎输出语速调节方法能够使用同一套语速调节方案来实现对不同的TTS引擎的速度设置。相较于现有的多TTS引擎输出语速调节方法，本方法不再需要用户来对各个TTS引擎分别进行相关参数的设置，从而提高了多TTS引擎输出语速调节的高效性和便捷性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的基于智能机器人的多TTS引擎输出语速调节方法的实现流程图；

图2是根据本发明一个实施例的确定需调用的TTS引擎的类型和朗读速度的流程图；

图3是根据本发明另一个实施例的确定需调用的TTS引擎的类型和朗读速度的流程图；

图4是根据本发明再一个实施例的确定需调用的TTS引擎的类型和朗读速度的流程图；

图5是根据本发明一个实施例的基于智能机器人的多TTS引擎输出语速调节装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

不同的TTS引擎会存在使用方法上的不统一性，这种不统一性尤其表现在TTS引擎的输出语速控制方面。例如，中文TTS引擎的输出语速范围为0～10，最小调整幅度为1，其中，数值越大表示输出语速越快，其默认输出语速(即正常语速)通常为5。而英文TTS引擎的输出语速范围为0～2，最小调整幅度同样为1，其中，数值越大表示输出语速越快，其默认输出语速(即正常语速)通常为1。

如果当前场景需要对输出语速进行调整的话，由于中文TTS引擎与英文TTS引擎在设置方面的不同，因此对相关参数的调整也将存在不同。例如，如果当前场景需要将输出语速调整为正常语速的2倍，那么对于中文TTS引擎来说，就需要将中文TTS引擎的输出语速设置为9，而对于英文TTS引擎来说，就需要将英文TTS引擎的输出语速设置为2。这显然不利于多TTS引擎输出速度的快速有效调节，从而影响人机交互效率。

针对现有技术中所存在的上述问题，本实施例提供了一种新的基于智能机器人的多TTS引擎输出语速调节方法。该方法能够实现对多个TTS引擎输出语速的统一调节，从而实现了在交互过程中对TTS引擎输出速度的快速有效的调节，提高了人机交互的便利性。

图1示出了本实施例所提供的基于智能机器人的多TTS引擎输出语速调节方法的实现流程图。

如图1所示，本实施例所提供的方法首先在步骤S101中接收用户输入的多模态交互数据，并在步骤S102中对上述多模态交互数据进行解析，从而确定出需调用的TTS引擎的类型和朗读速度。

需要指出的是，在本发明的不同实施例中，该方法可以采用不同的合理方式来根据接收到的多模态交互数据解析得到需调用的TTS引擎的类型和朗读速度，本发明不限于此。

具体地，在本发明的一个实施例中，该方法可以采用如图2所示的方式来解析得到需调用的TTS引擎的类型和朗读速度。如图2所示，在该实施例中，本方法会在步骤S201中根据当前用户使用的语言类型，确定需要调用的TTS引擎类型。

该方法在步骤S201中会对用户输入的多模态交互数据中的语音信息和/或文本信息进行解析，从而得到该语音信息或文本信息所使用的语言类型，这样也就得到了当前用户使用的语言类型。根据当前用户所使用的语言类型，也就可以确定出需调用的TTS引擎类型。

例如，如果当前用户所输入的为中文语音，那么该方法也就可以在步骤S201中确定出当前用户使用的语言类型为中文，而在通常状态下，智能机器人与当前用户进行交互显然也应该使用中文，因此该方法也就将需调用的TTS引擎类型确定为中文TTS引擎。

在图2所示的实施例中，该方法还会在步骤S202中根据所获取到的多模态交互数据生成语言输出内容，并在步骤S203中根据步骤S202中所得到的语言输出内容确定朗读速度。

例如，如果所生成的语言输出内容所表征的情绪信息为“欢快”，那么该方法也就会将朗读速度适应地调快(例如将朗读速度调整为“70”)。需要指出的是，本实施例中，各类情绪信息所对应的朗读速度可以根据实际需要事先确定，在此并不对各类情绪信息与朗读速度的具体取值之间的对应关系进行限定。

而在本发明的另一个实施例中，该方法还可以采用如图3所示的方式来解析得到需调用的TTS引擎的类型和朗读速度。如图3所示，在该实施例中，本方法会在步骤S301中对获取到的多模态输入数据进行解析，从而得到语速调整指令和通过特定语言类型进行交互的指令。随后，该方法也就可以在步骤S302中根据步骤S301中所得到的语速调整指令来确定朗读速度，并在步骤S303中将特定语言类型所对应的TTS引擎作为需调用的TTS引擎。

例如，通过对获取到的多模态交互数据进行解析，得到诸如“通过英文进行交互”指令以及“语速设定为60”的语速调整指令，那么该方法也就可以在步骤S302中将朗读速度确定为“60”，并在步骤S303中将需调用的TTS引擎确定为“英文TTS引擎”。

而在本发明的另一个实施例中，该方法还可以采用如图4所示的方式来解析得到需调用的TTS引擎的类型和朗读速度。如图4所示，在该实施例中，本方法会在步骤S401中对获取到的多模态交互数据进行解析，并在步骤S402中根据步骤S401中的解析结果判断是否需要调用语言教学应用。如果该步骤S402中判断出此时需要调用语言教学应用，那么该方法则可以在步骤S403中根据需要进行语言教学的语言类型，来确定需调用的TTS引擎类型。同时，该方法还可以在步骤S404中根据该语言教学环境下用户的听力来确定朗读速度。

例如，如果某一用户的母语为中文，此时该用户需要通过英文进行学习时，该方法也就可以在步骤S403中确定出此时需调用的TTS引擎为中文TTS引擎和英文TTS引擎。如果该用户的历史交互记录显示该用户的英语听力较强，那么该方法也就可以在步骤S404中将英文TTS引擎的朗读速度确定为一较高值(例如80等)。

再次如图1所示，在得到需调用的TTS引擎的类型和朗读速度后，该方法将在步骤S103中基于预设的语速调节模型来根据步骤S102中所确定出的TTS引擎类型和朗读速度计算需调用的TTS引擎的输出语速。

具体地，本实施例中，该方法在步骤S103中根据如下语速调节模型来计算需调调用的TTS引擎的输出语速：

其中，v_s表示需调用的TTS引擎的输出语速，v_in表示朗读速度，v_max表示能够实现的朗读速度的最大值，v_c表示需调用的TTS引擎的输出语速的最大值。

例如，假设提供给用户的TTS引擎的语速接口的范围统一为0-100。如果用户需要调用中文TTS引擎，并且将朗读速度设定为60，那么利用上述语速调节模型可以计算得到中文TTS引擎的输出语速v_s为：

即确定出的该中文TTS引擎的输出语速需要为6。

而如果用户需要调用英文TTS引擎，并且将朗读速度设定为60，那么利用上述语速调节模型可以计算出英文TTS引擎的输出语速v_s为：

即确定出的该中文TTS引擎的输出语速需要为1.2。

如图1所示，在确定出需调用的TTS引擎的输出语速后，该方法便可以在步骤S104中利用需调用的TTS引擎来以特定的输出语速来进行语音输出。

从上述描述中可以看出，本发明所提供的基于智能机器人的多TTS引擎输出语速调节方法能够使用同一套语速调节方案来实现对不同的TTS引擎的速度设置。相较于现有的多TTS引擎输出语速调节方法，本方法不再需要用户来对各个TTS引擎分别进行相关参数的设置，从而提高了多TTS引擎输出语速调节的高效性和便捷性。

本发明还提供了一种基于智能机器人的多TTS引擎输出语速调节系统，图5示出了本实施例中该系统的结构示意图。

如图5所示，本实施例所提供的基于智能机器人的多TTS引擎输出语速调节系统优选地包括：朗读速度确定模块501、输出语速确定模块502以及语音输出模块503。其中，朗读速度确定模块501用于接收用户输入的多模态交互数据，并对上述多模态交互数据进行解析，从而确定出需调用的TTS引擎的类型和朗读速度。

需要指出的是，在本发明的不同实施例中，朗读速度确定模块501可以采用不同的合理方式来根据接收到的多模态交互数据来解析得到需调用的TTS引擎的类型和朗读速度，本发明不限于此。

例如，在本发明的一个实施例中，朗读速度确定模块501既可以采用如图2所示的方式来确定需调用的TTS引擎的类型和朗读速度，也可以采用如图3所示的方式来确定需调用的TTS引擎的类型和朗读速度，还可以采用如图4所示的方式来需调用的TTS引擎的类型和朗读速度。

在确定出需调用的TTS引擎的类型和朗读速度后，朗读速度确定模块501会将需调用的TTS引擎的类型和朗读速度传输至输出语速确定模块502。输出语速确定模块502则会基于语速调节模型以及上述需调用的TTS引擎的类型和朗读速度，来计算需调用的TTS引擎的输出语速。

需要指出的是，本实施例中，输出语速确定模块502基于语速调节模型需调用的TTS引擎的输出语速的具体实现原理以及实现过程与上述步骤S103所涉及的内容类似，故在此不再对输出语速确定模块502的相关内容进行赘述。

输出语速确定模块502会将确定出的需调用的TTS引擎的输出语速传输至语音输出模块503。语音输出模块502则会条用该TTS引擎来以上述输出语速来进行语音输出。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

Claims

1.一种基于智能机器人的多TTS引擎输出语速调节方法，其特征在于，包括：

朗读速度确定步骤，接收多模态交互数据，对所述多模态交互数据进行解析，从配置的多个TTS引擎中确定出需调用的TTS引擎的类型和朗读速度，其中，所配置的多个TTS引擎对应的输出语速范围不完全相同，所述朗读速度具有一统一的取值范围；

输出语速确定步骤，将所述朗读速度输入到引擎语速接口，利用所述引擎语速接口调用所述需调用的TTS引擎对应的语速调整模型生成所述TTS引擎的输出语速；

语音输出步骤，调用所述需调用的TTS引擎以所述输出语速进行语音输出；

其中，所述语速调整模型如下式所示：

2.根据权利要求1所述的方法，其特征在于，所述对多模态交互数据进行解析以确定需调用的TTS引擎的类型和朗读速度的步骤包括：

或者，

3.根据权利要求1所述的方法，其特征在于，所述多TTS引擎至少包括中文TTS引擎和英文TTS引擎。

4.一种基于智能机器人的多TTS引擎输出语速调节系统，其特征在于，包括：

朗读速度确定模块，其用于接收多模态交互数据，对所述多模态交互数据进行解析，从配置的多个TTS引擎中确定出需调用的TTS引擎的类型和朗读速度，其中，所配置的多个TTS引擎对应的输出语速范围不完全相同，所述朗读速度具有一统一的取值范围；

输出语速确定模块，其用于将所述朗读速度输入到引擎语速接口，利用所述引擎语速接口调用所述需调用的TTS引擎对应的语速调整模型生成所述TTS引擎的输出语速；

语音输出模块，其用于调用所述需调用的TTS引擎以所述输出语速进行语音输出；

其中，所述语速调整模型如下式所示：

5.根据权利要求4所述的系统，其特征在于，所述朗读速度确定模块配置为：

或者，

6.根据权利要求4所述的系统，其特征在于，所述多TTS引擎至少包括中文TTS引擎和英文TTS引擎。