CN110085225A

CN110085225A - 语音交互方法、装置、智能机器人及计算机可读存储介质

Info

Publication number: CN110085225A
Application number: CN201910333028.XA
Authority: CN
Inventors: 李财瑜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-02
Anticipated expiration: 2039-04-24
Also published as: JP6914377B2; US20200342854A1; CN110085225B; JP2020181183A; KR102360062B1; KR20200124595A

Abstract

本发明实施例提供一种语音交互方法、装置、智能机器人及计算机可读存储介质。该方法应用于智能机器人，该方法包括：在语音交互场景下，获得交互对象的对象特征信息；按照与对象特征信息匹配的语音播报参数，与交互对象进行语音交互。可见，本发明实施例中，智能机器人可以根据交互对象的实际情况，对所使用的语音播报参数进行灵活地调整，也就是说，智能机器人使用的语音交互策略是多样化和个性化的，因此，与现有技术中使用固定的语音交互策略的情况相比，本发明实施例中，智能机器人能够提供更为人性化的服务，语音交互效果能够得到有效地提升。

Description

语音交互方法、装置、智能机器人及计算机可读存储介质

技术领域

本发明实施例涉及机器人技术领域，尤其涉及一种语音交互方法、装置、智能机器人及计算机可读存储介质。

背景技术

随着语音识别的准确度和语义理解能力的不断提升，智能机器人越来越受到市场的青睐，智能机器人的使用越来越普遍。

在智能机器人为用户服务的过程中，智能机器人往往会与用户进行语音交互。一般而言，在各种情况下，智能机器人均使用固定的语音交互策略，那么，智能机器人进行语音交互时使用的策略非常单一，这样会导致语音交互效果较差。

发明内容

本发明实施例提供一种语音交互方法、装置、智能机器人及计算机可读存储介质，以解决智能机器人进行语音交互时使用的策略单一，导致语音交互效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供一种语音交互方法，应用于智能机器人，所述方法包括：

在语音交互场景下，获得交互对象的对象特征信息；

按照与所述对象特征信息匹配的语音播报参数，与所述交互对象进行语音交互。

第二方面，本发明实施例提供一种语音交互装置，应用于智能机器人，所述装置包括：

获得模块，用于在语音交互场景下，获得交互对象的对象特征信息；

交互模块，用于按照与所述对象特征信息匹配的语音播报参数，与所述交互对象进行语音交互。

第三方面，本发明实施例提供一种智能机器人，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音交互方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音交互方法的步骤。

本发明实施例中，在语音交互场景下，智能机器人可以获得交互对象的对象特征信息，并按照与对象特征信息匹配的语音播报参数，与交互对象进行语音交互。可见，本发明实施例中，智能机器人可以根据交互对象的实际情况，对所使用的语音播报参数进行灵活地调整，也就是说，智能机器人使用的语音交互策略是多样化和个性化的，因此，与现有技术中使用固定的语音交互策略的情况相比，本发明实施例中，智能机器人能够提供更为人性化的服务，语音交互效果能够得到有效地提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的语音交互方法的流程图之一；

图2是本发明实施例提供的语音交互方法的流程图之二；

图3是本发明实施例提供的语音交互方法的流程图之三；

图4是本发明实施例提供的语音交互方法的流程图之四；

图5是本发明实施例提供的语音交互装置的结构框图；

图6是本发明实施例提供的智能机器人的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

参见图1，图中示出了本发明实施例提供的语音交互方法的流程图之一。如图1所示，该方法应用于智能机器人，该方法包括如下步骤：

步骤101，在语音交互场景下，获得交互对象的对象特征信息。

这里，交互对象也可以称之为智能机器人的服务对象。

可选地，对象特征信息中可以包括以下至少一项：

对象语音输出参数、对象情绪和对象属性；

其中，对象语音输出参数中包括对象语速、对象音量和对象音色中的至少一项，对象属性中包括对象年龄属性、对象性别属性和对象肤色属性中的至少一项。

这里，对象年龄属性可以包括儿童属性、青年属性、中年属性、老年属性等；对象性别属性可以包括男性属性、女性属性等；对象肤色属性可以包括黄皮肤属性、白皮肤属性、黑皮肤属性等。

步骤102，按照与对象特征信息匹配的语音播报参数，与交互对象进行语音交互。

这里，语音播报参数包括但不限于语音播报速度、语音播报音量、语音播报音色等。

在获得交互对象的对象特征信息之后，智能机器人可以确定与所获得的对象特征信息匹配的语音播报参数；其中，与任一对象特征信息匹配的语音播报参数是指：能够给具有该对象特征信息的对象带来较好的交互体验的语音播报参数。这样，在智能机器按照所确定的语音播报参数，与交互对象进行语音交互的情况下，交互对象的交互体验能够得到保证，相应地，语音交互效果也能够得到保证。

可选地，获得交互对象的对象特征信息，包括：

统计交互对象在目标时长内的语音输出字数，并根据目标时长和语音输出字数，计算交互对象的对象语速。

这里，目标时长可以为一设定的时长；或者，目标时长可以为智能机器人随机确定的一时长。具体地，目标时长可以为1分钟、2分钟、5分钟或者其他时长，在此不再一一列举。

具体地，在统计出交互对象在目标时长(例如2分钟)内的语音输出字数之后，根据目标时长和统计出的语音输出字数，可以计算得到交互对象在单位时间内的语音输出字数，例如，可以将统计出的语音输出字数与2分钟相除，以得到交互对象在1分钟内的语音输出字数。之后，智能机器人可以将交互对象在单位时间内的语音输出字数作为交互对象的对象语速。

可见，得到交互对象的对象语速的操作实施起来非常便捷。

可选地，智能机器人包括摄像头；

获得交互对象的对象特征信息，包括：

调用摄像头采集交互对象的面部图像，并根据面部图像，获得交互对象的对象情绪。

这里，智能机器人包括的摄像头具体可以为前置摄像头。

具体地，在调用摄像头采集交互对象的面部图像之后，智能机器人可以对所采集的面部图像进行分析，以确定面部图像中是否存在能够体现焦虑情绪的面部特征，例如皱眉，面部绷紧、表情紧张等。在确定结果为存在的情况下，智能机器人可以判定交互对象的对象情绪为焦虑情绪；在确定结果为不存在的情况下，智能机器人可以判定交互对象的对象情绪为非焦虑情绪。

需要说明的是，对象属性也可以通过对调用摄像头采集的面部图像进行分析得到。

可见，得到交互对象的对象情绪的操作实施起来非常便捷。

参见图2，图中示出了本发明实施例提供的语音交互方法的流程图之二。如图2所示，该方法应用于智能机器人，该方法包括如下步骤：

步骤201，在语音交互场景下，获得交互对象的对象特征信息；其中，对象特征信息中包括对象语音输出参数，对象语音输出参数中包括对象语速。

这里，交互对象也可以称之为智能机器人的服务对象。

需要说明的是，对象语音输出参数中除了包括对象语速之外，还可以包括对象音量和对象音色中的至少一项；对象特征信息中除了包括对象语音输出参数之外，还可以包括对象情绪和对象属性中的至少一项，对象属性中可以包括对象年龄属性、对象性别属性和对象肤色属性中的至少一项。

步骤202，确定对象语速对应的语音播报速度；

步骤203，以语音播报速度，与交互对象进行语音交互。

这里，智能机器人中可以预先存储有对象语速范围与语音播报速度之间的对应关系(为了与下文中出现的对应关系进行区分，后续将其称为第一对应关系；其中，任一对象语速范围对应的语音播报速度与该对象语速范围内的对象语速非常接近。

需要说明的是，由于交互对象的对象特征信息中包括对象语速，智能机器人可以先得到对象特征信息中的对象语速所属的对象语速范围；接下来，根据第一对应关系，可以确定所得到的对象语速范围所对应的语音播报速度；最后，智能机器人可以以所确定的语音播报速度，与交互对象进行语音交互。

具体地，假设本发明实施例中的智能机器人为机场内的咨询服务机器人，在智能机器人为用户提高咨询服务时，如果用户以正常语速提问，智能机器人可以以正常语音播报速度回答用户问题；如果用户以较快的语速提问，智能机器人可以以较快的语音播报速度回答用户问题；如果用户以较慢的语速提问，智能机器人可以以较慢的语音播报速度回答用户问题。

需要指出的是，智能机器人中也可以不预先存储第一对应关系，在确定对象语速对应的语音播报速度时，智能机器人可以直接将对象语速本身作为其对应的语音播放速度，这也是可行的。

本发明实施例中，在语音交互场景下，智能机器人可以获得交互对象的对象特征信息，并以对象特征信息中的对象语速对应的语音播报速度，与交互对象进行语音交互。可见，本发明实施例中，智能机器人可以根据交互对象的对象语速，对所使用的语音播报速度进行灵活地调整，在交互对象的对象语速较快的情况下，智能机器人的语音播报速度会较快，在交互对象的对象语速较慢的情况下，智能机器人的语音播报速度会较慢，这样能够避免固定的语音播报速度引起交互对象的不适应，从而提高交互对象的交互体验，并提高语音交互效果。

参见图3，图中示出了本发明实施例提供的语音交互方法的流程图之三。如图3所示，该方法应用于智能机器人，该方法包括如下步骤：

步骤301，在语音交互场景下，获得交互对象的对象特征信息；其中，对象特征信息中包括对象情绪。

这里，交互对象也可以称之为智能机器人的服务对象。

需要说明的是，对象特征信息除了包括对象情绪，还可以包括对象语音输出参数和对象属性中的至少一项；其中，对象语音输出参数中包括对象语速、对象音量和对象音色中的至少一项，对象属性中包括对象年龄属性、对象性别属性和对象肤色属性中的至少一项。

步骤302，在对象情绪为焦急情绪的情况下，以第一语音播报速度与交互对象进行语音交互；否则，以第二语音播报速度与交互对象进行语音交互；其中，第一语音播报速度快于第二语音播报速度。

这里，智能机器人中可以预先存储有第二对应关系，在第二对应关系中，焦急情绪与第一语音播报速度对应，非焦急情绪与第二语音播报速度对应，且第一语音播报速度快于第二语音播报速度。

需要说明的是，由于交互对象的对象特征信息中包括对象情绪，智能机器人可以判断对象特征信息中的对象情绪是否为焦急情绪。无论确定结果为是还是否，根据第二对应关系，智能机器人均能够确定对象特征信息中的对象情绪所对应的语音播报速度，之后，智能机器人可以以所确定的语音播报速度，与交互对象进行语音交互。

具体地，假设本发明实施例中的智能机器人为机场内的咨询服务机器人，在智能机器人为用户提高咨询服务时，如果用户急于登机但找不到登机口，用户会表现出焦急情绪，此时，智能机器人会以较快的语音播报速度回答用户问题，从而便于用户尽快找到登机口。

需要指出的是，智能机器人也可以不预先存储第二对应关系，智能机器人也可以通过其他方式确定与对象情绪对应的语音播报速度，只需保证智能机器人在交互对象处于焦急情绪下的语速播报速度相比于非焦急情绪下的语音播报速度更快即可。

本发明实施例中，在语音交互场景下，智能机器人可以获得交互对象的对象特征信息，并以对象特征信息中的对象情绪对应的语音播报速度，与交互对象进行语音交互。可见，本发明实施例中，智能机器人可以根据交互对象的对象情绪，对所使用的语音播报速度进行灵活地调整，在交互对象的对象情绪为焦急情绪的情况下，智能机器人的语音播报速度会较快，在交互对象的对象情绪为非焦急情绪的情况下，智能机器人的语音播报速度会较慢，这样能够避免固定的语音播报速度给交互对象带来不便，从而提高交互对象的交互体验，并提高语音交互效果。

参见图4，图中示出了本发明实施例提供的语音交互方法的流程图之四。如图4所示，该方法应用于智能机器人，该方法包括如下步骤：

步骤401，在语音交互场景下，获得交互对象的对象特征信息；其中，对象特征信息中包括对象属性，对象属性中包括对象年龄属性。

这里，交互对象也可以称之为智能机器人的服务对象。

需要说明的是，对象属性中除了包括对象年龄属性之外，还可以包括对象性别属性和对象肤色属性中的至少一项；对象特征信息中除了包括对象属性之外，还可以包括对象语音输出参数和对象情绪中的至少一项，对象语音输出参数中包括对象语速、对象音量和对象音色中的至少一项。

步骤402，确定年龄属性对应的语音播报音色。

步骤403，以语音播报音色，与交互对象进行语音交互。

这里，智能机器人中可以预先存储有年龄属性与语音播报音色之间的对应关系(为了与上文中出现的对应关系进行区分，后续将其称为第三对应关系)。具体地，在第三对应关系中，儿童属性对应的语音播报音色可以为儿童稚嫩而可爱的音色，中年属性对应的语音播报音色可以为中年人浑厚而成熟的音色，老年属性对应的语音播报音色可以为老年人沉稳而温暖的音色。这样，在交互对象的对象特征信息中包括年龄属性的情况下，智能机器人可以根据第三对应关系，确定对象特征信息中的年龄属性对应的语音播报音色，并根据所确定的语音播报音色，与交互对象进行语音交互。

具体地，假设本发明实施例中的智能机器人为机场内的咨询服务机器人，在智能机器人为用户提高咨询服务时，如果提问的用户为儿童，智能机器人会以稚嫩而可爱的音色回答用户问题；如果提问的用户为中年人，智能机器人会以浑厚而成熟的音色回答用户问题；如果提问的用户为老年人，智能机器人会以沉稳而温暖的音色回答用户问题。

本发明实施例中，在语音交互场景下，智能机器人可以获得交互对象的对象特征信息，并以对象特征信息中的对象年龄属性对应的语音播报音色，与交互对象进行语音交互。可见，本发明实施例中，智能机器人可以根据交互对象的对象年龄属性，对所使用的语音播报音色进行灵活地调整，以增加交互过程的趣味性，从而提高交互对象的交互体验，并提高语音交互效果。

综上，与现有技术相比，本发明实施例中，智能机器人能够提供更为人性化的服务，语音交互效果能够得到有效地提升。

参见图5，图中示出了本发明实施例提供的语音交互装置500的结构框图。如图5所示，语音交互装置500包括：

获得模块501，用于在语音交互场景下，获得交互对象的对象特征信息；

交互模块502，用于按照与对象特征信息匹配的语音播报参数，与交互对象进行语音交互。

可选地，对象特征信息中包括以下至少一项：

对象语音输出参数、对象情绪和对象属性；

可选地，对象特征信息中包括对象语音输出参数，对象语音输出参数中包括对象语速；

交互模块502，包括：

第一确定单元，用于确定对象语速对应的语音播报速度；

第一交互单元，用于以语音播报速度，与交互对象进行语音交互。

可选地，对象特征信息中包括对象情绪；

交互模块502，具体用于：

在对象情绪为焦急情绪的情况下，以第一语音播报速度与交互对象进行语音交互；否则，以第二语音播报速度与交互对象进行语音交互；

其中，第一语音播报速度快于第二语音播报速度。

可选地，对象特征信息中包括对象属性，对象属性中包括对象年龄属性；

交互模块502，包括：

第二确定单元，用于确定年龄属性对应的语音播报音色；

第二交互单元，用于以语音播报音色，与交互对象进行语音交互。

可选地，获得模块501，具体用于：

可选地，智能机器人包括摄像头；

获得模块501，具体用于：

参见图6，图中示出了本发明实施例提供的智能机器人600的结构示意图。如图6所示，智能机器人600包括：处理器601、存储器603、用户接口604和总线接口。

处理器601，用于读取存储器603中的程序，执行下列过程：

在语音交互场景下，获得交互对象的对象特征信息；

按照与对象特征信息匹配的语音播报参数，与交互对象进行语音交互。

在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器601代表的一个或多个处理器和存储器603代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备，用户接口604还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器601负责管理总线架构和通常的处理，存储器603可以存储处理器601在执行操作时所使用的数据。

可选地，对象特征信息中包括以下至少一项：

对象语音输出参数、对象情绪和对象属性；

处理器601，具体用于：

确定对象语速对应的语音播报速度；

以语音播报速度，与交互对象进行语音交互。

可选地，对象特征信息中包括对象情绪；

可选地，任一第二输出结果中还包括其所包括的每个子特征序列中的每个子特征对应的权重；

处理器601，具体用于：

其中，第一语音播报速度快于第二语音播报速度。

处理器601，具体用于：

确定年龄属性对应的语音播报音色；

以语音播报音色，与交互对象进行语音交互。

可选地，处理器601，具体用于：

可选地，智能机器人包括摄像头；

处理器601，具体用于：

本发明实施例中，在语音交互场景下，智能机器人600可以获得交互对象的对象特征信息，并按照与对象特征信息匹配的语音播报参数，与交互对象进行语音交互。可见，本发明实施例中，智能机器人600可以根据交互对象的实际情况，对所使用的语音播报参数进行灵活地调整，也就是说，智能机器人600使用的语音交互策略是多样化和个性化的，因此，与现有技术中使用固定的语音交互策略的情况相比，本发明实施例中，智能机器人600能够提供更为人性化的服务，语音交互效果能够得到有效地提升。

优选地，本发明实施例还提供一种智能机器人，包括处理器601，存储器603，存储在存储器603上并可在处理器601上运行的计算机程序，该计算机程序被处理器601执行时实现上述语音交互方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音交互方法，其特征在于，应用于智能机器人，所述方法包括：

在语音交互场景下，获得交互对象的对象特征信息；

2.根据权利要求1所述的方法，其特征在于，所述对象特征信息中包括以下至少一项：

对象语音输出参数、对象情绪和对象属性；

其中，所述对象语音输出参数中包括对象语速、对象音量和对象音色中的至少一项，所述对象属性中包括对象年龄属性、对象性别属性和对象肤色属性中的至少一项。

3.根据权利要求2所述的方法，其特征在于，所述对象特征信息中包括对象语音输出参数，所述对象语音输出参数中包括对象语速；

所述按照与所述对象特征信息匹配的语音播报参数，与所述交互对象进行语音交互，包括：

确定所述对象语速对应的语音播报速度；

以所述语音播报速度，与所述交互对象进行语音交互。

4.根据权利要求2所述的方法，其特征在于，所述对象特征信息中包括对象情绪；

在所述对象情绪为焦急情绪的情况下，以第一语音播报速度与所述交互对象进行语音交互；否则，以第二语音播报速度与所述交互对象进行语音交互；

其中，所述第一语音播报速度快于所述第二语音播报速度。

5.根据权利要求2所述的方法，其特征在于，所述对象特征信息中包括对象属性，所述对象属性中包括对象年龄属性；

确定所述年龄属性对应的语音播报音色；

以所述语音播报音色，与所述交互对象进行语音交互。

6.根据权利要求2所述的方法，其特征在于，

所述获得交互对象的对象特征信息，包括：

统计交互对象在目标时长内的语音输出字数，并根据所述目标时长和所述语音输出字数，计算所述交互对象的对象语速；

和/或，

所述智能机器人包括摄像头；

所述获得交互对象的对象特征信息，包括：

调用所述摄像头采集交互对象的面部图像，并根据所述面部图像，获得所述交互对象的对象情绪。

7.一种语音交互装置，其特征在于，应用于智能机器人，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述对象特征信息中包括以下至少一项：

对象语音输出参数、对象情绪和对象属性；

9.根据权利要求8所述的装置，其特征在于，所述对象特征信息中包括对象语音输出参数，所述对象语音输出参数中包括对象语速；

所述交互模块，包括：

第一确定单元，用于确定所述对象语速对应的语音播报速度；

第一交互单元，用于以所述语音播报速度，与所述交互对象进行语音交互。

10.根据权利要求8所述的装置，其特征在于，所述对象特征信息中包括对象情绪；

所述交互模块，具体用于：

其中，所述第一语音播报速度快于所述第二语音播报速度。

11.根据权利要求8所述的装置，其特征在于，所述对象特征信息中包括对象属性，所述对象属性中包括对象年龄属性；

所述交互模块，包括：

第二确定单元，用于确定所述年龄属性对应的语音播报音色；

第二交互单元，用于以所述语音播报音色，与所述交互对象进行语音交互。

12.根据权利要求8所述的装置，其特征在于，

所述获得模块，具体用于：

和/或，

所述智能机器人包括摄像头；

所述获得模块，具体用于：

13.一种智能机器人，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音交互方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音交互方法的步骤。