CN110737335A

CN110737335A - 机器人的交互方法、装置、电子设备及存储介质

Info

Publication number: CN110737335A
Application number: CN201910965048.9A
Authority: CN
Inventors: 王婷
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-01-31
Anticipated expiration: 2039-10-11
Also published as: CN110737335B

Abstract

本申请实施例公开了一种机器人的交互方法、装置、电子设备及存储介质。该方法包括：在多轮交互模式下，每次检测到用户的语音数据时，检测所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式；当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互；当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。本申请实施例适用于多轮交互场景，可在免唤醒词唤醒机器人的情况下，降低交互的误触发概率，提高人机交互的流畅感和自然度。

Description

机器人的交互方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及人机交互技术领域，更具体地，涉及一种机器人的交互方法、装置、电子设备及存储介质。

背景技术

随着人工智能相关技术的发展，机器人客服或机器人管家的交互功能越来越强，能够适用的场景也越来越多，大大提高了交互效率，节省了人工资源。而目前比较流行的人机交互方式通常是文字对话和语音对话。然而，当人机交互方式为语音对话时，机器人通常不是一直处于监听用户说话的状态，需要唤醒词将其唤醒，才能进行语音识别、语音交互等操作。

发明内容

鉴于上述问题，本申请实施例提供一种机器人的交互方法、装置、电子设备及存储介质，可以免唤醒词唤醒机器人，优化人机交互体验，

第一方面，本申请实施例提供了一种机器人的交互方法，该机器人的交互方法可包括：在多轮交互模式下，每次检测到用户的语音数据时，检测所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式；当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互；当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。

可选地，所述确定所述用户的视线焦点是否位于所述机器人上，包括：获取所述用户的左眼球图像以及右眼球图像；根据所述左眼球图像的第一变化信息以及所述右眼球图像的第二变化信息，确定所述用户的视线焦点的位置信息；根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配；当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

可选地，所述机器人的交互方法还包括：当仅获取到单眼球图像时，根据所述单眼球图像，判断所述用户是否处于侧视状态，其中，所述单眼球图像为所述左眼球图像或者所述右眼球图像；当所述用户处于侧视状态时，根据所述单眼球图像的变化信息，确定所述用户的视线焦点的位置信息；根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配；当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

可选地，所述当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，包括：当所述视线焦点位于所述机器人上时，获取包含所述用户的用户图像；根据所述用户图像，确定所述用户的当前肢体动作；检测所述用户的当前肢体动作是否为指定肢体动作；当检测到所述当前肢体动作为所述指定肢体动作时，确定获取到所述用户的姿态确认指令。

可选地，所述检测所述用户的当前肢体动作是否为指定肢体动作，包括：检测所述用户的当前肢体动作是否为指定头部动作，所述指定头部动作的动作参数包括第一类型参数、第一幅度参数以及第一频率参数中的至少一种。

可选地，所述检测所述用户的当前肢体动作是否为指定肢体动作，包括：检测所述用户的当前肢体动作是否为指定手部动作，所述指定手部动作的动作参数包括第二类型参数、第二幅度参数以及第二频率参数中的至少一种。

可选地，所述机器人包括提示灯，所述机器人的交互方法还包括：当所述视线焦点位于所述机器人上时，控制所述提示灯处于亮灯状态，所述亮灯状态用于提示所述用户确认是否与所述机器人进行交互。

可选地，所述检测是否获取到所述用户的姿态确认指令，包括：检测预设时间段内是否获取到所述用户的姿态确认指令，所述预设时间段为所述提示灯的最大亮灯时长；当预设时间段内获取到所述用户的姿态确认指令时，执行所述根据所述语音数据，确定所述机器人的回复内容的步骤，并控制所述提示灯处于灭灯状态。

可选地，所述根据所述语音数据，确定所述机器人的回复内容，包括：对所述语音数据进行语音识别，得到与所述语音数据对应的文本内容；在问答库中查询并获取与所述文本内容对应的回复内容，作为所述机器人的回复内容，所述回复内容包括所述机器人的回复文本以及表现行为参数，所述表现行为参数包括音色参数、音调参数以及行为参数；

所述机器人的交互方法还包括：根据所述回复文本、音色参数以及音调参数，生成与所述回复文本对应的特定音频内容；基于所述行为参数，对所述机器人的行为进行驱动，并对应输出所述特定音频内容。

第二方面，本申请实施例提供了一种机器人的交互装置，该机器人的交互装置可包括：视线确认模块、姿态确认模块以及回复确认模块。其中，视线确认模块用于在多轮交互模式下，每次检测到用户的语音数据时，确定所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式；姿态确认模块用于当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互；回复确认模块用于当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。

可选地，所述视线确认模块包括：眼球图像获取单元、焦点确定单元、位置判断单元以及结果确定单元。其中，眼球图像获取单元用于获取所述用户的左眼球图像以及右眼球图像；焦点确定单元用于根据所述左眼球图像的第一变化信息以及所述右眼球图像的第二变化信息，确定所述用户的视线焦点的位置信息；位置判断单元用于根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配；结果确定单元用于当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

可选地，所述机器人的交互装置还包括：侧视判断模块、位置获取模块、位置匹配模块以及位置确定模块。其中，侧视判断模块用于当仅获取到单眼球图像时，根据所述单眼球图像，判断所述用户是否处于侧视状态，其中，所述单眼球图像为所述左眼球图像或者所述右眼球图像；位置获取模块用于当所述用户处于侧视状态时，根据所述单眼球图像的变化信息，确定所述用户的视线焦点的位置信息；位置匹配模块用于根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配；位置确定模块用于当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

可选地，姿态确认模块包括：图像获取单元、肢体确定单元、肢体判断单元以及结果确定单元。其中，图像获取单元用于当所述视线焦点位于所述机器人上时，获取包含所述用户的用户图像；肢体确定单元用于根据所述用户图像，确定所述用户的当前肢体动作；肢体判断单元用于检测所述用户的当前肢体动作是否为指定肢体动作；结果确定单元用于当检测到所述当前肢体动作为所述指定肢体动作时，确定获取到所述用户的姿态确认指令。

可选地，肢体判断单元包括：头部判断子单元，用于检测所述用户的当前肢体动作是否为指定头部动作，所述指定头部动作的动作参数包括第一类型参数、第一幅度参数以及第一频率参数中的至少一种。

可选地，肢体判断单元包括：手部判断子单元，用于检测所述用户的当前肢体动作是否为指定手部动作，所述指定手部动作的动作参数包括第二类型参数、第二幅度参数以及第二频率参数中的至少一种。

可选地，所述机器人包括提示灯，所述机器人的交互装置还包括：亮灯模块，用于当所述视线焦点位于所述机器人上时，控制所述提示灯处于亮灯状态，所述亮灯状态用于提示所述用户确认是否与所述机器人进行交互。

可选地，姿态确认模块包括：时间检测单元以及执行确定单元。其中，时间检测单元，用于检测预设时间段内是否获取到所述用户的姿态确认指令，所述预设时间段为所述提示灯的最大亮灯时长；执行确定单元，用于当预设时间段内获取到所述用户的姿态确认指令时，执行所述根据所述语音数据，确定所述机器人的回复内容的步骤，并控制所述提示灯处于灭灯状态

可选地，回复确认模块包括：语音识别单元以及内容确定单元。其中，语音识别单元用于对所述语音数据进行语音识别，得到与所述语音数据对应的文本内容；内容确定单元用于在问答库中查询并获取与所述文本内容对应的回复内容，作为所述机器人的回复内容，所述回复内容包括所述机器人的回复文本以及表现行为参数，所述表现行为参数包括音色参数、音调参数以及行为参数。所述机器人的交互装置还包括：音频转换模块以及多态回复模块。其中，音频转换模块用于根据所述回复文本、音色参数以及音调参数，生成与所述回复文本对应的特定音频内容；多态回复模块用于基于所述行为参数，对所述机器人的行为进行驱动，并对应输出所述特定音频内容。

第三方面，本申请实施例提供了一种电子设备，该电子设备可包括：存储器；一个或多个处理器，与存储器连接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行如上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序代码，程序代码可被处理器调用执行如上述第一方面的方法。

本申请实施例提供了一种机器人的交互方法、装置、电子设备及存储介质，在多轮交互模式下，每次检测到用户的语音数据时，通过检测用户的视线焦点是否位于机器人上，其中，多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式，以及当视线焦点位于机器人上时，通过检测是否获取到用户的姿态确认指令，该姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互，以当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。本申请实施例适用于多轮交互场景，可在免唤醒词唤醒机器人的情况下，直接与机器人进行语音交互，同时为避免语音交互的误触发，可以通过用户的视线焦点以及姿态进一步确认用户是否在与自身进行交互，且该确认方式并不影响用户当前的语音对话，实现用户对话的同时也可以执行确认方式，提高人机交互的流畅感和自然度，优化了人机交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一个实施例提供的机器人的交互方法的流程示意图。

图3示出了本申请实施例提供的机器人的交互方法的交互示意图。

图4示出了本申请另一个实施例提供的机器人的交互方法的流程示意图。

图5示出了图4中的步骤S310的一种方法流程图。

图6示出了图4中的步骤S310的另一种方法流程图。

图7示出了图4中的步骤S320的方法流程图。

图8示出了图4中的步骤S330的方法流程图。

图9示出了本申请一个实施例提供的机器人的交互装置的模块框图；

图10示出了本申请实施例用于执行根据本申请实施例的机器人的交互方法的电子设备的结构框图；

图11示出了本申请实施例用于执行根据本申请实施例的机器人的交互方法的计算机可读存储介质的模块框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处描述的具体实施例仅用于解释本申请，并不用于限定本申请。

随着人工智能相关技术的发展，交互机器人的功能也越来越强。交互机器人作为物联网的一个重要指令传输入口，如何准确地对用户指令进行识别与反馈是非常关键的。然而，现有的机器人系统主要是对用户输入的文本指令或者语音指令进行识别与反馈，指令接口较为单一。而且，当指令接口为语音指令时，现有的机器人并不能有效的区分有意语音命令与无意语音命令，这使得用户的每一次说话都会触发一条命令，从而机器人都会进行识别与反馈。对于用户日常的随意交互而无意触发命令的情况，造成了极大地困扰，也阻碍了此种交互方式的广泛应用。

为了避免上述问题，现有的一种解决方式是通过设定唤醒词，当检测到用户说出唤醒词时，机器人才可对用户接下来说的话进行识别与反馈，使机器人可以区分出有意语音指令。但是，当用户需要与机器人进行多次语音交互时，这使得每一次的语音交互都需要用户说出唤醒词，才能实现后续机器人的反馈，人机交互体验不佳。

发明人研究了目前机器人与用户进行交互的困难点，更是综合考虑实际场景的使用需求，提出了本申请实施例的机器人的交互方法、装置、电子设备及存储介质，应用于多轮交互场景，可在免唤醒词唤醒机器人的情况下，直接与机器人进行语音交互，优化人机交互体验。

为了更好理解本申请实施例提供的一种机器人的交互方法、装置、电子设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的机器人的交互方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括电子设备101以及服务器102，服务器102与电子设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

在一些实施例中，电子设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像、视频输入模块输入视频等，还可以是基于电子设备101上安装有的手势识别模块，使得用户可以实现手势输入等交互方式。

其中，电子设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信，具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音信息、图像信息或视频信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至电子设备101。

在一些实施方式中，客户端应用程序可以用于向用户提供客户服务，与用户进行客服沟通，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息作出应答。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形态建立的形似真人的机器人，也可以是动漫效果式的机器人，例如动物形态或卡通人物形态的机器人。

在一些实施方式中，电子设备101在获取与用户输入的信息对应的回复信息后，可以在电子设备101的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像。作为一种方式，在播放虚拟机器人图像的同时，可以通过电子设备101的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在电子设备101的显示屏上显示与该回复信息对应的文字或图形，实现在图像、语音、文字等多个方面上与用户的多态交互。

在一些实施例中，电子设备101也可以是实体机器人。其中，实体机器人支持多种数据输入，包括但不限于文字、语音、手势、动作等。具体的，实体机器人可以安装有语音模块使得用户可以输入语音，安装有字符输入模块使得用户可以输入文本、字符等，还可以安装有手势识别模块、动作识别模块等，使得用户可以通过手势输入或动作输入的方式输入信息，并且实体机器人可以接收用户输入的信息。

其中，实体机器人可以接收用户输入的信息，并将该信息发送至服务器，使得服务器可以接收该信息并存储，服务器还可以接收该信息并根据该信息返回一个对应的输出信息至实体机器人，实体机器人基于输出信息可以执行相应的指令，使得用户可以通过实体机器人的表现来获取机器人的应答，实现用户与机器人之间的交互。其中，实体机器人为可以模拟人类或其他生物面部表情的机器人，例如类人机器人等，实体机器人的表现可以包括但不限于依赖于硬件结果进行呈现的机器人的表情、语音或动作等。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于电子设备101上，使得电子设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时多态交互系统100可以只包括电子设备101。

上述应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的机器人的交互方法、装置、电子设备及存储介质进行详细说明。

请参阅图2，图2示出了本申请一个实施例提供的机器人的交互方法的流程示意图，本实施例提供的机器人的交互方法可以应用于上述电子设备，也可以应用于上述服务器。在具体的实施例中，机器人的交互方法可应用于如图9所示的机器人的交互装置900以及图10所示的电子设备600。下面将针对图2所示的流程进行详细的阐述，所示机器人的交互方法具体可以包括以下步骤：

步骤S210：在多轮交互模式下，每次检测到用户的语音数据时，检测所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式。

在本申请实施例中，当用户需要与机器人进行多次交互时，可以开启机器人的多轮交互模式，使机器人一直保持唤醒状态，无需多次唤醒。当机器人处于多轮交互模式下时，电子设备可持续检测用户的语音数据，以便电子设备可对用户的多次语音指令进行识别和反馈。然而，在多轮交互模式期间，由于用户可能也会发出一些无意语音指令(如与其他用户的谈话)，导致语音交互的误触发。因此，在多轮交互模式下时，电子设备需要对用户当前发出的语音数据进行有意语音命令与无意语音命令的区分。

在本申请实施例中，电子设备可以通过用户的视线焦点以及姿态，对用户当前发出的语音数据进行有意语音命令与无意语音命令的区分，从而多重确认用户是否在与机器人进行交互，解决了多轮交互模式下的语音交互的误触发问题。同时该确认方式并不影响用户当前的说话状态，实现用户说话的同时也可以执行确认方式。

具体地，机器人处于多轮交互模式下时，电子设备每次检测到用户的语音数据时，可以检测用户的视线焦点是否位于机器人上，以确定是否要对用户的姿态进行识别，从而确定是否对用户的语音数据进行识别和反馈。

在一些实施例中，电子设备检测用户的视线焦点是否位于机器人上，可以是通过实时获取用户的视线焦点的所在位置，并实时判断该位置是否与机器人的位置对应，从而在得到视线焦点的所在位置与机器人的位置对应的判断结果后，电子设备可以确定用户的视线焦点落于机器人上，从而可以判断出用户的眼睛当前有看向机器人。可以理解的是，当视线焦点的所在位置与机器人的位置不对应时，电子设备可以确认用户的视线焦点并未落于机器人上，从而电子设备可以判断出用户当前发出的语音数据为无意语音命令，即用户当前并未与机器人进行交互，从而电子设备可以确定机器人无需对用户当前发出的语音数据进行回复。

需要说明的是，在本申请实施例中，并不对视线焦点的追踪方式进行限定，例如，电子设备可采用红外测距传感器对人眼所在位置进行测距，还通过其红外发射器实时地向人体眼睛所在位置发射出红外光，以此作为辅助的红外光源，并借助红外光在人眼角膜上反射而形成角膜反射光斑，相应地采用微型红外摄像头有效的拍摄人体眼睛所在位置的原始红外图像，用以进行人眼识别和视线追踪，避免了可见光环境阴暗等情况引起的干扰。然后通过角膜反射光斑对角膜反射光斑中心所在位置进行定位，进而结合瞳孔中心所在位置，辅助实现对人眼的视线方向加以捕捉。

在一些实施例中，在与机器人进行当前轮次的语音交互过程中，用户的视线焦点可以是一直位于机器人上，即用户的眼睛一直注视着机器人；在另一些实施例中，用户的视线焦点也可以仅在当前轮次的语音交互的一开始位于机器人上。例如，用户在说“我想……”时，可以看一眼机器人，从而电子设备在检测到用户的语音数据时，可以检测到用户的视线焦点有位于机器人上。这样，用户在当前轮次的语音交互过程中，可以无需一直保持注视机器人的状态，提高用户体验。

步骤S220：当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互。

在本申请实施例中，电子设备检测到用户的视线焦点位于机器人上时，可以检测是否获取到该用户的姿态确认指令，以确定出用户当前发出的语音数据是否为有意语音命令，从而电子设备可以确定机器人是否对用户当前发出的语音数据进行回复。

具体地，当电子设备检测到用户的视线焦点位于机器人上时，如果获取到该用户的姿态确认指令，则可以确认出该用户当前发出的语音数据为有意语音命令，即用户当前在与机器人进行语音交互，从而电子设备可以确定机器人可以对用户当前发出的语音数据进行回复。当电子设备检测到用户的视线焦点位于机器人上时，如果未获取到该用户的姿态确认指令，则可以确认出该用户当前发出的语音数据为无意语音命令，即用户当前并未在与机器人进行交互，从而电子设备可以确定机器人无需对用户当前发出的语音数据进行回复。从而，当用户无意间看向机器人时，需要获取到该用户的姿态确认指令时，机器人才对用户的语音数据进行识别和反馈，避免了用户只要看向机器人，机器人就对用户的语音数据进行回复而造成的语音识别模块和反馈模块的持续开启功耗，提升了机器人的智能化水平，优化了人机交互体验。

在一些实施例中，上述姿态确认指令可以是根据用户的当前姿态生成，从而电子设备可以根据用户的当前姿态，确定是否获取到该用户的姿态确认指令。作为一种方式，可以是电子设备在检测到用户的当前姿态与预设姿态匹配时，生成该姿态确认指令，从而电子设备可以获取到该用户的姿态确认指令。其中，预设姿态可以预先存储于电子设备，可以由用户根据自身喜好或习惯进行设定，例如，可以是点头，做“OK”手势等，在此并不做限定。

步骤S230：当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。

在本申请实施例中，当电子设备检测到用户的视线焦点位于机器人上时，如果获取到该用户的所述姿态确认指令，则可以确定用户当前在与机器人交互，因此，电子设备可以根据用户的语音数据，确定机器人的回复内容，以实现人机交互。

在一些实施例中，机器人的回复内容可以包括文本内容、肢体动作内容、表情内容、嘴型内容中的至少一种，在此并不作限定。例如，还可以包括文本内容对应音频内容等。以向用户呈现出外形、声音以及行为均形似真人的机器人形象。

在一些实施例中，电子设备可以对用户发出的语音数据进行语音识别，以确定出用户意图，从而电子设备可根据用户意图，确定出机器人的回复内容。其中，用户意图可以是查询意图(如天气查询)，也可以是操作意图(如播放音乐)，在此并不作限定。作为一种方式，电子设备可以通过深度学习技术，确定出用户的意图。具体地，可以通过将用户的语音数据输入已训练的意图识别模型，得到该意图识别模型输出的意图信息，再根据该意图信息，生成对应的回复内容。其中，意图识别模型可以预先基于大量语音数据的输入样本，和在该语音数据下所对应的意图信息的输出样本，通过神经网络训练得到的。

在一些实施方式中，意图识别模型可以采用RNN(Recurrent Neural Network，循环神经网络)模型、CNN(Convolutional Neural Networks，卷积神经网络)模型、VAE(Variational Autoencoder，变分自编码器)模型、BERT(Bidirectional EncoderRepresentations from Transformers，变压器的双向编码器表示)、支持向量机(SupportVector Machine，SVM)等机器学习模型，在此不做限定。例如，意图识别模型还可以是采用上述机器学习模型的变体或组合等。

在一些实施方式中，意图识别模型可以运行于服务器中，由服务器基于用户的语音数据通过意图识别模型将其转换为对应的意图信息。作为一种方式，电子设备在获取到用户的姿态确认指令后，可以将获取到的用户的语音数据发送至服务器，由服务器对其进行识别并转换为对应的意图信息，即转换意图信息的数据处理过程可由服务器完成。通过将意图识别模型部署于服务器中，可减少对电子设备存储容量及运算资源的占用。

在一种具体的应用场景中，如图3所示，用户可以通过电子设备打开应用程序客户端(例如微信小程序或独立的APP)进入与虚拟机器人的交互界面，用户可以直接与交互界面显示的虚拟机器人进行面对面对话。同时电子设备可以通过调用摄像头、话筒等各个硬件模块来采集到用户的视线焦点信息、姿态信息和说话音频，然后对该视线焦点信息进行位置确认，对用户的姿态进行确认，以确定是否生成针对该说话音频的回复内容。例如，当确定用户的视线焦点位于虚拟机器人上，同时检测到用户点头时，可根据用户当前的语音数据“现在天气如何？”，生成对应的回复内容音频“当前的天气为……”。

在另一种具体的应用场景中，电子设备为实体机器人时，实体机器人可以通过摄像头、麦克风等各个硬件模块来采集到用户的视线焦点信息、姿态信息和说话音频，然后对该视线焦点信息进行位置确认，对用户的姿态进行确认，以确定是否生成针对该说话音频的回复内容。例如，当确定用户的视线焦点位于实体机器人上，同时检测到用户点头时，可根据用户当前的语音数据“现在天气如何？”，生成对应的回复内容音频“当前的天气为……”。

可以理解的是，本实施例中上述的各个步骤，可以均由电子设备在本地进行，也可以均在服务器中进行，还可以由电子设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的拟真机器人交互体验，在此并不作限定。

本申请实施例提供的机器人的交互方法，在多轮交互模式下，每次检测到用户的语音数据时，通过检测用户的视线焦点是否位于机器人上，其中，多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式，以及当视线焦点位于机器人上时，通过检测是否获取到用户的姿态确认指令，该姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互，以当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。本申请实施例适用于多轮交互场景，可在免唤醒词唤醒机器人的情况下，直接与机器人进行语音交互，同时为避免语音交互的误触发，机器人可以通过用户的视线焦点以及姿态进一步确认用户是否在与自身进行交互，且该确认方式并不影响用户当前的语音对话，实现用户对话的同时也可以执行确认方式，提高人机交互的流畅感和自然度，优化了人机交互体验。

请参阅图4，图4示出了本申请另一个实施例提供的机器人的交互方法的流程示意图。下面将针对图4所示的流程进行详细的阐述，所示机器人的交互方法具体可以包括以下步骤：

步骤S310：在多轮交互模式下，每次检测到用户的语音数据时，检测所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式。

在一些实施例中，机器人的多轮交互模式可以是根据用户的语音指令触发(如检测到用户说“多轮交互”)，也可以根据具体的设置按键触发(如检测到“多轮交互”按键被按下)，在此并不作限定，仅需机器人处于多轮交互模式下即可。

在一些实施例中，电子设备每次检测到用户的语音数据时，可以将该语音数据暂时存储至本地，并在确定该语音数据为无意语音命令时，再将该语音数据进行删除，可以避免电子设备的存储数据冗余带来的运算速度减慢。例如，当检测到用户的语音数据A时，暂存A，如果未检测到用户的视线焦点有落于机器人上，可认为A为无意语音命令，并删除A。

在一些实施例中，可以根据人眼图像确定用户的视线焦点。具体地，请参阅图5，上述检测所述用户的视线焦点是否位于所述机器人上，可以包括：

步骤S311：获取所述用户的左眼球图像以及右眼球图像。

电子设备每次检测到用户的语音数据时，可以实时获取该用户的左眼球图像以及右眼球图像，以通过左眼球图像和右眼球图像确定用户的视线焦点位置。

在一些实施例中，电子设备可以通过多个摄像头采集用户的左眼球图像以及右眼球图像，以准确得到用户的眼球运动信息，从而进行视线焦点的精准定位。作为一种方式，多个摄像头可以处于不同的角度，电子设备可以通过不同角度的左眼球图像以及右眼球图像，重建得到三维的左眼模型和右眼模型，根据三维空间中的左眼模型和右眼模型确定用户的视线焦点位置。

步骤S312：根据所述左眼球图像的第一变化信息以及所述右眼球图像的第二变化信息，确定所述用户的视线焦点的位置信息。

在一些实施例中，电子设备在获取到用户的左眼球图像以及右眼球图像后，可根据左眼球图像的第一变化信息以及右眼球图像的第二变化信息，确定出左眼的视线方向以及右眼的视线方向，从而根据左眼的视线方向和右眼的视线方向的交点，确定用户的视线焦点的位置信息。

在一些实施例中，当获取到多个角度的左眼球图像以及右眼球图像时，电子设备也可以根据多个角度的左眼球图像的第一变化信息以及多个角度右眼球图像的第二变化信息，确定左眼和右眼的瞳孔位置和虹膜边缘，并重建得到三维的左眼模型和右眼模型，在三维空间中确定左眼虹膜的中心点和视线方向以及右眼虹膜的中心点和视线方向。电子设备可根据多个摄像头的位置，将左眼虹膜的中心点和视线方向与右眼虹膜的中心点和视线方向转换到同一世界坐标系中，从而可以根据左眼虹膜的视线方向与右眼虹膜的视线方向的交点确定用户的视线焦点的位置信息。

步骤S313：根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配。

在本申请实施例中，当电子设备获取到用户的视线焦点的位置信息后，可以根据用户与机器人的相对位置信息，判断该位置信息是否与相对位置信息匹配，以判断用户的视线焦点是否落于机器人上。具体地，当位置信息与相对位置信息匹配时，电子设备可以判断出用户的视线焦点落于机器人上，当位置信息与相对位置信息不匹配时，电子设备可以判断出用户的视线焦点未落于机器人上。

在一些实施例中，上述根据用户与机器人的相对位置信息，判断该位置信息是否与相对位置信息匹配，可以是电子设备在得到用户的视线焦点的位置信息后，根据用户与机器人的相对位置信息，确定出机器人的位置信息，从而可以以用户为参照基准，判断用户视线焦点的位置信息是否与机器人的位置信息对应，从而可以确定出用户视线焦点的位置信息是否与相对位置信息匹配。

在一些实施方式中，上述相对位置信息可以通过深度摄像头确定，电子设备可以通过深度摄像头采集包含用户的用户图像，获取该用户图像中用户的深度信息，从而可根据该深度信息，确定用户与机器人的相对位置信息。

步骤S314：当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

基于上述内容可知，当电子设备得到位置信息与相对位置信息匹配的判断结果时，电子设备可以判断出用户的视线焦点落于机器人上，从而可进一步进行用户的姿态确认。

进一步地，如果在用户的说话期间，电子设备一直未检测到用户的视线焦点落于机器人上，则可以确定用户在该期间内的语音数据都为无意语音指令，即机器人无需进行识别和反馈。

进一步地，当用户头部偏转到一定角度处于侧视状态时，电子设备可能仅能获取到单眼球图像，因此，电子设备也可根据单眼球图像确定用户的视线焦点。具体地，请参阅图6，该机器人的交互方法还可以包括：

步骤S315：当仅获取到单眼球图像时，根据所述单眼球图像，判断所述用户是否处于侧视状态，其中，所述单眼球图像为所述左眼球图像或者所述右眼球图像。

由于用户与机器人之间的距离存在不确定性，导致摄像头可能未采集到正视状态时的某一眼球图像，或者采集的图像模糊、无法确认等，从而电子设备也只能获取到单眼球图像。因此，当获取到的单眼球图像时，需要判断用户是处于正视状态还是处于侧视状态，从而确定是否根据单眼球图像确定用户的视线焦点。又由于侧视状态时的眼球图像与正视状态时的眼球图像在形状和轮廓上差异较大，因此，本申请实施例中，电子设备可根据获取到的单眼球图像的形状和轮廓，判断用户是否处于侧视状态。

具体地，当获取到的单眼球图像为左眼球图像时，即获取到左眼球图像而未获取到右眼球图像时，电子设备可根据左眼球图像，判断用户是否处于侧视状态。作为一种方式，可以将获取到的左眼球图像与预设图像进行比对，预设图像可以是预先存储的左眼球在各种侧视状态时图像，且该侧视状态下无法采集到右眼球图像。从而电子设备可判断出获取到的左眼球图像是否处于侧视状态。

步骤S316：当所述用户处于侧视状态时，根据所述单眼球图像的变化信息，确定所述用户的视线焦点的位置信息。

在一些实施例中，当获取到的单眼球图像为左眼球图像时，若电子设备得到用户处于侧视状态的判断结果，则可以仅根据左眼球图像的第一变化信息，确定该用户的视线焦点的位置信息。

在一些实施例中，电子设备可根据左眼球图像的第一变化信息，确定左眼的视线方向，并直接将左眼的视线方向作为该用户的视线焦点所在的方向，从而根据该方向确定视线焦点的位置信息。

在一些实施例中，电子设备也可以通过深度学习技术，确定出用户的视线焦点的位置信息。具体地，可以通过将左眼球图像的第一变化信息输入已训练的视线识别模型，得到该视线识别模型输出的视线焦点的位置信息。其中，视线识别模型可以预先基于大量左眼球图像的输入样本，和在该左眼球图像下所对应的视线焦点的位置信息的输出样本，通过神经网络训练得到的，可以采用上述机器学习模型，在此并不做限定。

在一些实施方式中，视线识别模型可以运行于服务器中，由服务器基于左眼球图像的第一变化信息通过视线识别模型将其转换为对应的视线焦点的位置信息。也可以运行于电子设备本地，使得机器人可以在离线环境下提供服务。

步骤S317：根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配。

步骤S318：当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

在本申请实施例中，步骤S317以及步骤S318可以参阅前述实施例的内容，在此不再赘述。

同理，当获取到的单眼球图像为右眼球图像时，即获取到右眼球图像而未获取到左眼球图像时，电子设备也可根据右眼球图像，判断用户是否处于侧视状态。当电子设备确定用户处于侧视状态时，也可根据右眼球图像的第二变化信息，确定用户的视线焦点的位置信息。然后根据用户与机器人的相对位置信息，判断该位置信息是否与相对位置信息匹配，当该位置信息与相对位置信息匹配时，确定用户的视线焦点位于所述机器人上。具体的实施过程可参阅前述左眼球图像确定视线焦点的实施过程。

步骤S320：当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互。

在一些实施例中，用户的姿态确认指令可根据用户的肢体动作生成，具体地，请参阅图7，上述检测所述用户的视线焦点是否位于所述机器人上，可以包括：

步骤S321：当所述视线焦点位于所述机器人上时，获取包含所述用户的用户图像。

在一些实施例中，电子设备在确定用户的视线焦点位于机器人上时，可以通过摄像头采集包含所述用户的用户图像。其中，摄像头可以设置于电子设备，也可以是外设设备，在此并不作限定。

步骤S322：根据所述用户图像，确定所述用户的当前肢体动作。

在一些实施例中，电子设备在获取到用户图像后，可以对该用户图像中的用户姿态进行识别，以确定该用户的当前肢体动作。作为一种方式，可以对用户图像中用户身体的各个特征位置进行识别，以获取用户的身体关键点集合，根据该身体关键点集合确定用户的当前肢体动作。

步骤S323：检测所述用户的当前肢体动作是否为指定肢体动作。

在一些实施例中，电子设备在确定用户的当前肢体动作后，可判断用户的当前肢体动作是否为指定肢体动作。其中，指定肢体动作可以预先存储于电子设备，可由用户进行设定。

作为一种方式，指定肢体动作可以对应存储有指定关键点集合，电子设备可将当前肢体动作对应的身体关键点集合，与指定关键点集合进行匹配，其中，关键点可以是人体骨骼关键点，也可以是人体的各个部位的关键点。从而检测出用户的当前肢体动作是否为指定肢体动作。其中，可以是完全匹配时，才能确定当前肢体动作为指定肢体动作，也可以是匹配指数达到一定阈值，才能确定当前肢体动作为指定肢体动作，在此并不作限定。

进一步地，在一些实施例中，指定肢体动作可以为指定头部动作。具体地，上述检测所述用户的当前肢体动作是否为指定肢体动作，可以包括：检测所述用户的当前肢体动作是否为指定头部动作，所述指定头部动作的动作参数包括第一类型参数、第一幅度参数以及第一频率参数中的至少一种。其中，电子设备可以获取用户的当前头部动作的头部关键点集合，并将该头部关键点集合与指定头部动作对应指定关键点集合进行对应匹配，从而检测用户的当前肢体动作是否为指定头部动作。

在一些实施方式中，上述第一类型参数可以是头部动作类型，如点头、偏头、摇头等，第一幅度参数可以是头部动作的方向和幅度大小，如左偏头45°、向下点头45°等，第一频率参数可以是头部动作次数，如点头2次等。可以理解的是，上述第一类型参数、第一幅度参数以及第一频率参数仅为举例，并不作限定。

在另一些实施例中，指定肢体动作可以为指定手部动作。具体地，上述检测所述用户的当前肢体动作是否为指定肢体动作，也可以包括：检测所述用户的当前肢体动作是否为指定手部动作，所述指定手部动作的动作参数包括第二类型参数、第二幅度参数以及第二频率参数中的至少一种。其中，电子设备可以获取用户的当前手部动作的手部关键点集合，并将该手部关键点集合与指定手部动作对应指定关键点集合进行对应匹配，从而检测用户的当前肢体动作是否为指定手部动作。

在一些实施方式中，上述第二类型参数可以是手部动作类型，如挥手、比手势等，第二幅度参数可以是手部动作的方向和幅度大小，如上下挥手30°、左右挥手30°等，第二频率参数可以是手部动作次数，如挥手2次等。可以理解的是，上述第二类型参数、第二幅度参数以及第二频率参数仅为举例，并不作限定。

步骤S324：当检测到所述当前肢体动作为所述指定肢体动作时，确定获取到所述用户的姿态确认指令。

在一些实施例中，当检测到用户的当前肢体动作为指定肢体动作时，电子设备可以确定获取到用户的姿态确认指令，从而可以对用户的语音数据进行识别和反馈。可以理解的是，当检测到用户的当前肢体动不为指定肢体动作时，电子设备可以确定未获取到该用户的姿态确认指令。

其中，作为一种方式，姿态确认指令可以是指定肢体动作，当用户做出了指定肢体动作，电子设备即可获取到姿态确认指令。作为另一种方式，姿态确认指令也可以是在检测到用户的当前肢体动作为指定肢体动作时对应生成的指令，用于指示电子设备对用户的语音数据进行识别和反馈，在此并不作限定。

步骤S330：当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。

在一些实施例中，请参阅图8，上述根据所述语音数据，确定所述机器人的回复内容，可以包括：

步骤S331：对所述语音数据进行语音识别，得到与所述语音数据对应的文本内容。

在一些实施例中，对语音数据进行语音识别，可以是将语音数据进行语音转文本处理，以得到该语音数据对应的文本内容。其中，可通过多种方式将语音数据进行语音转文本处理。作为一种方式，可通过深度学习技术，将语音数据转换为文本内容。具体地，可将语音数据输入已训练的语音识别模型，以得到该语音识别模型输出的与语音数据对应的文本内容。其中，语音识别模型可以是预先基于大量真人说话时的音频信息以及音频信息对应的文本内容的训练样本，通过神经网络训练得到的，可以采用上述机器学习模型，在此并不做限定。

步骤S332：在问答库中查询并获取与所述文本内容对应的回复内容，作为所述机器人的回复内容，所述回复内容包括所述机器人的回复文本以及表现行为参数，所述表现行为参数包括音色参数、音调参数以及行为参数。

在一些实施例中，可以将语音识别得到的文本内容输入问答库，可以在问答库中查询并获取到对应的回复内容，电子设备可以将该回复内容作为所述机器人的回复内容。其中，该回复内容可以包括机器人的回复文本以及表现行为参数，表现行为参数可以包括机器人说话时的音色参数、音调参数以及行为参数。行为参数可以是表情参数、嘴型参数以及肢体动作参数中的至少一种。例如，电子设备接收到用户输入的一段语音数据，基于语音识别模型识别该语音数据后可以得到文本内容“你是谁”，然后在问答库中查找对应的回复内容为：“回复文本＝你好，我是客服机器人小一，音色＝磁性，音调＝4，机器人表情＝微笑，表情参数＝(a0,a1,…)，嘴型参数＝(b0,b1,…)，机器人动作＝手放于胸前，动作驱动参数＝(c0,c1,…)”，

在一些实施方式中，问答库可以是人工预先设计的包含了多个问答对的问答库，问答对包括预存的问句以及和问句对应的回复。在另一些实施方式中，也可以根据文本内容和回复内容建立问答库模型(可以是机器学习模型)，问答库模型可以基于大量的文本内容和对应的回复内容训练得到，例如可以将从海量人工客服的沟通记录得到的海量文本内容和对应的回复内容作为训练样本，将用户方的信息作为输入，将客服方的答复作为期望输出，基于机器学习的方法训练得到问答库模型，从而通过问答库模型获取与文本内容对应的回复内容。

进一步地，在确定了机器人的回复内容后，可以根据该回复内容驱动机器人。具体地，请再次参阅图8，在上述根据所述语音数据，确定所述机器人的回复内容之后，该机器人的交互方法还可以包括：

步骤S333：根据所述回复文本、音色参数以及音调参数，生成与所述回复文本对应的特定音频内容。

在一些实施例中，电子设备可以将回复内容中的机器人的回复文本、音色参数以及音调参数输入语音合成模型，生成与该回复文本对应的特定音频信息，其中，回复文本是文本类型的信息，特定音频信息是音频类型的信息。

步骤S334：基于所述行为参数，对所述机器人的行为进行驱动，并对应输出所述特定音频内容。

在一些实施例中，电子设备可以根据回复内容中的机器人的表现行为参数，对所述机器人的行为进行驱动，并根据表现行为参数和特定音频内容的时间戳对应输出上述特定音频内容。从而，可以得到机器人与该特定音频内容对应的呈现，使得机器人可以实现行为与音频对应的更自然的说话效果。其中，该呈现可以包括以视频动画的形式进行呈现，例如以在电子设备上显示虚拟机器人的视频动画进行呈现，还可以包括以依赖于硬件结构的形式进行呈现，例如将行为与音频基于实体机器人进行呈现。

其中，虚拟机器人的视频动画呈现，可以是将各个行为参数进行对齐，例如，将虚拟机器人的表情参数＝(a0,a1,…)，嘴型参数＝(b0,b1,…)，动作驱动参数＝(c0,c1,…)进行对齐，使得各个行为参数对应的视频时长一致，然后根据对齐后的各个行为参数分别生成虚拟机器人的脸部细节序列A＝(a1,a2,…,an)嘴型图片序列B＝(b0,b1,…)和肢体动作序列C＝(c1,c2,…,cn)，以将一一对应的脸部细节、嘴型图片和肢体动作，生成对应的视频图像序列D＝(d1,d2,…,dn)，其中，f(a1,b1,c1)＝d1,f(a2,b2,c2)＝d2,…。从而电子设备可根据视频图像序列生成针对对应的虚拟机器人的视频动画，并将该视频动画进行输出。其中，视频图像序列与特定音频内容对应播放。从而向用户呈现出模拟的外形、声音以及行为均形似真人的客服机器人形象，以照顾用户的情绪，提升用户体验。

在一些实施例中，为了保证电子设备能够获取到用户的姿态确认指令，机器人可以包括提示灯，可以在进行姿态确认时，向用户进行提示，以提示用户做出预设姿态进行姿态确认。具体地，该机器人的交互方法还可以包括：当所述视线焦点位于所述机器人上时，控制所述提示灯处于亮灯状态，所述亮灯状态用于提示所述用户确认是否与所述机器人进行交互。这样，当用户需要与机器人进行交互时，在机器人的提示灯的亮灯期间做出预设姿态，以便电子设备进行确认，从而实现人机交互。

可以理解的是，当机器人检测到用户的当前肢体动作为指定肢体动作时，可以控制提示灯处于灭灯状态，不仅节省功耗，用户也能知晓动作确认已完成。

进一步地，还可以通过设定提示灯的最大亮灯时长，避免提示灯长时间处于亮灯状态。其中，该最大亮灯时长也是电子设备获取用户图像的最大时长。具体地，上述检测所述用户的视线焦点是否位于所述机器人上，可以包括：

检测预设时间段内是否获取到所述用户的姿态确认指令，所述预设时间段为所述提示灯的最大亮灯时长；当预设时间段内获取到所述用户的姿态确认指令时，执行所述根据所述语音数据，确定所述机器人的回复内容的步骤，并控制所述提示灯处于灭灯状态。

在一些实施例中，若在预设时间段内，电子设备一直未获取到所述用户的姿态确认指令，则电子设备可以确认用户当前并未与机器人进行交互，从而电子设备可以确定机器人无需对用户当前发出的语音数据进行回复。若在预设时间段内，获取到该用户的姿态确认指令时，则电子设备可以确认用户当前在与机器人进行交互，可以执行上述根据所述语音数据，确定所述机器人的回复内容的步骤，并控制所述提示灯处于灭灯状态。

可以理解的是，本实施例中上述的各个步骤，可以均由电子设备在本地进行，也可以均在服务器中进行，还可以由电子设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的拟真机器人客服体验，在此并不作限定。

本申请实施例提供的机器人的交互方法，在多轮交互模式下，每次检测到用户的语音数据时，通过用户的眼球图像判断用户的视线焦点是否位于机器人上，当视线焦点位于机器人上时，通过检测用户当前的肢体动作确定是否获取到用户的姿态确认指令，以当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容，其中，回复内容可包括机器人的回复文本以及表现行为参数。本申请实施例适用于多轮交互场景，可在免唤醒词唤醒机器人的情况下，直接与机器人进行语音交互，同时为避免语音交互的误触发，机器人可以通过用户的视线焦点以及姿态进一步确认用户是否在与自身进行交互，且该确认方式并不影响用户当前的语音对话，实现用户对话的同时也可以执行确认方式，提高人机交互的流畅感和自然度，优化了人机交互体验。

应该理解的是，虽然图2、图4、图5、图6、图7、以及图8的流程示意图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4、图5、图6、图7、以及图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图9，图9示出了本申请一个实施例提供的一种机器人的交互装置的模块框图。下面将针对图9所示的模块框图进行阐述，该机器人的交互装置900包括：视线确认模块910、姿态确认模块920以及回复确认模块930。

其中：

视线确认模块910，用于在多轮交互模式下，每次检测到用户的语音数据时，确定所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式；

姿态确认模块920，用于当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互；

回复确认模块930，用于当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。

在一些实施方式中，视线确认模块910可以包括：眼球图像获取单元、焦点确定单元、位置判断单元以及结果确定单元。其中，眼球图像获取单元用于获取所述用户的左眼球图像以及右眼球图像；焦点确定单元用于根据所述左眼球图像的第一变化信息以及所述右眼球图像的第二变化信息，确定所述用户的视线焦点的位置信息；位置判断单元用于根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配；结果确定单元用于当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

在一些实施方式中，机器人的交互装置900还可以包括：侧视判断模块、位置获取模块、位置匹配模块以及位置确定模块。其中，侧视判断模块用于当仅获取到单眼球图像时，根据所述单眼球图像，判断所述用户是否处于侧视状态，其中，所述单眼球图像为所述左眼球图像或者所述右眼球图像；位置获取模块用于当所述用户处于侧视状态时，根据所述单眼球图像的变化信息，确定所述用户的视线焦点的位置信息；位置匹配模块用于根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配；位置确定模块用于当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

在一些实施方式中，姿态确认模块920可以包括：图像获取单元、肢体确定单元、肢体判断单元以及结果确定单元。其中，图像获取单元用于当所述视线焦点位于所述机器人上时，获取包含所述用户的用户图像；肢体确定单元用于根据所述用户图像，确定所述用户的当前肢体动作；肢体判断单元用于检测所述用户的当前肢体动作是否为指定肢体动作；结果确定单元用于当检测到所述当前肢体动作为所述指定肢体动作时，确定获取到所述用户的姿态确认指令。

在一些实施方式中，上述肢体判断单元可以包括：头部判断子单元，用于检测所述用户的当前肢体动作是否为指定头部动作，所述指定头部动作的动作参数包括第一类型参数、第一幅度参数以及第一频率参数中的至少一种。

在另一些实施方式中，上述肢体判断单元可以包括：手部判断子单元，用于检测所述用户的当前肢体动作是否为指定手部动作，所述指定手部动作的动作参数包括第二类型参数、第二幅度参数以及第二频率参数中的至少一种。

在一些实施方式中，上述机器人可以包括提示灯，该机器人的交互装置900还可以包括：亮灯模块，用于当所述视线焦点位于所述机器人上时，控制所述提示灯处于亮灯状态，所述亮灯状态用于提示所述用户确认是否与所述机器人进行交互。

进一步地，在一些实施方式中，姿态确认模块920可以包括：时间检测单元以及执行确定单元。其中，时间检测单元，用于检测预设时间段内是否获取到所述用户的姿态确认指令，所述预设时间段为所述提示灯的最大亮灯时长；执行确定单元，用于当预设时间段内获取到所述用户的姿态确认指令时，执行所述根据所述语音数据，确定所述机器人的回复内容的步骤，并控制所述提示灯处于灭灯状态。

在一些实施方式中，回复确认模块930可以包括：语音识别单元以及内容确定单元。其中，语音识别单元用于对所述语音数据进行语音识别，得到与所述语音数据对应的文本内容；内容确定单元用于在问答库中查询并获取与所述文本内容对应的回复内容，作为所述机器人的回复内容，所述回复内容包括所述机器人的回复文本以及表现行为参数，所述表现行为参数包括音色参数、音调参数以及行为参数。

进一步地，该机器人的交互装置900还可以包括：音频转换模块以及多态回复模块。其中，音频转换模块用于根据所述回复文本、音色参数以及音调参数，生成与所述回复文本对应的特定音频内容；多态回复模块用于基于所述行为参数，对所述机器人的行为进行驱动，并对应输出所述特定音频内容。

本申请实施例提供的机器人的交互装置用于实现前述方法实施例中相应的机器人的交互方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的机器人的交互装置能够实现上述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图10，其示出了本申请实施例提供的一种电子设备600(即前述电子设备101)的结构框图。该电子设备600可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备，也可是实体机器人。本申请中的电子设备600可以包括一个或多个如下部件：处理器610、存储器620以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器620中并被配置为由一个或多个处理器610执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行电子设备600的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

进一步地，电子设备600还可以包括可折叠的显示屏，所述显示屏可以为液晶显示屏(Liquid Crystal Display，LCD)，可以为有机发光二极管(Organic Light-EmittingDiode，OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图10中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图11，其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1100中存储有程序代码1110，所述程序代码1110可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是智能网关，手机，计算机，服务器，空调器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请各实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护范围之内。

Claims

1.一种机器人的交互方法，其特征在于，所述方法包括：

在多轮交互模式下，每次检测到用户的语音数据时，检测所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式；

当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互；

当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。

2.根据权利要求1所述的方法，其特征在于，所述确定所述用户的视线焦点是否位于所述机器人上，包括：

获取所述用户的左眼球图像以及右眼球图像；

根据所述左眼球图像的第一变化信息以及所述右眼球图像的第二变化信息，确定所述用户的视线焦点的位置信息；

根据所述用户与所述机器人的相对位置信息，判断所述位置信息是否与所述相对位置信息匹配；

当所述位置信息与所述相对位置信息匹配时，确定所述用户的视线焦点位于所述机器人上。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当仅获取到单眼球图像时，根据所述单眼球图像，判断所述用户是否处于侧视状态，其中，所述单眼球图像为所述左眼球图像或者所述右眼球图像；

当所述用户处于侧视状态时，根据所述单眼球图像的变化信息，确定所述用户的视线焦点的位置信息；

4.根据权利要求1所述的方法，其特征在于，所述当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，包括：

当所述视线焦点位于所述机器人上时，获取包含所述用户的用户图像；

根据所述用户图像，确定所述用户的当前肢体动作；

检测所述用户的当前肢体动作是否为指定肢体动作；

当检测到所述当前肢体动作为所述指定肢体动作时，确定获取到所述用户的姿态确认指令。

5.根据权利要求4所述的方法，其特征在于，所述检测所述用户的当前肢体动作是否为指定肢体动作，包括：

检测所述用户的当前肢体动作是否为指定头部动作，所述指定头部动作的动作参数包括第一类型参数、第一幅度参数以及第一频率参数中的至少一种。

6.根据权利要求4所述的方法，其特征在于，所述检测所述用户的当前肢体动作是否为指定肢体动作，包括：

检测所述用户的当前肢体动作是否为指定手部动作，所述指定手部动作的动作参数包括第二类型参数、第二幅度参数以及第二频率参数中的至少一种。

7.根据权利要求1所述的方法，其特征在于，所述机器人包括提示灯，所述方法还包括：

当所述视线焦点位于所述机器人上时，控制所述提示灯处于亮灯状态，所述亮灯状态用于提示所述用户确认是否与所述机器人进行交互。

8.根据权利要求7所述的方法，其特征在于，所述检测是否获取到所述用户的姿态确认指令，包括：

检测预设时间段内是否获取到所述用户的姿态确认指令，所述预设时间段为所述提示灯的最大亮灯时长；

当预设时间段内获取到所述用户的姿态确认指令时，执行所述根据所述语音数据，确定所述机器人的回复内容的步骤，并控制所述提示灯处于灭灯状态。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述根据所述语音数据，确定所述机器人的回复内容，包括：

对所述语音数据进行语音识别，得到与所述语音数据对应的文本内容；

在问答库中查询并获取与所述文本内容对应的回复内容，作为所述机器人的回复内容，所述回复内容包括所述机器人的回复文本以及表现行为参数，所述表现行为参数包括音色参数、音调参数以及行为参数；

在所述根据所述语音数据，确定所述机器人的回复内容之后，所述方法还包括：

根据所述回复文本、音色参数以及音调参数，生成与所述回复文本对应的特定音频内容；

基于所述行为参数，对所述机器人的行为进行驱动，并对应输出所述特定音频内容。

10.一种机器人的交互装置，其特征在于，所述装置包括：

视线确认模块，用于在多轮交互模式下，每次检测到用户的语音数据时，确定所述用户的视线焦点是否位于所述机器人上，所述多轮交互模式用于表征所述用户多次与所述机器人进行交互的模式；

姿态确认模块，用于当所述视线焦点位于所述机器人上时，检测是否获取到所述用户的姿态确认指令，所述姿态确认指令用于根据所述用户的当前姿态确认所述用户是否与所述机器人进行交互；

回复确认模块，用于当获取到所述姿态确认指令时，根据所述语音数据，确定所述机器人的回复内容。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-9任一项所述的方法。

12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。