CN117765952A

CN117765952A - 人机交互的方法、装置和设备

Info

Publication number: CN117765952A
Application number: CN202311828369.7A
Authority: CN
Inventors: 程楠; 杨健勃; 金德昌; 拱伟
Original assignee: Beijing Keyi Technology Co Ltd
Current assignee: Beijing Keyi Technology Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-26

Abstract

本申请提供一种人机交互的方法、装置和设备，所述方法用于机器人与用户之间的互动，包括：检测所述用户是否朝向所述机器人；在所述用户朝向所述机器人的情况下，获取所述用户的语音信息；根据所述语音信息确定所述用户的语音是否针对所述机器人；在所述用户的语音是针对所述机器人的情况下，确定所述用户有与所述机器人进行语言交互的意愿。相比于通过用户说出唤醒词来表达其语言意图的方式，提升了语音交互的连贯性，并且由于在理解用户的语意之前，先检测用户是否朝向机器人，并在用户朝向机器人的情况下才对用户的语音信息进行收集分析，在一定程度上避免了对用户语音的过度解析。

Description

人机交互的方法、装置和设备

技术领域

本申请实施例涉及人工智能技术领域，并且更具体地，涉及一种人机交互的方法、装置和设备。

背景技术

随着人工智能技术的不断地发展，机器人的种类越来越多。其中，家庭机器人是比较常见的一种机器人，其可以通过与用户之间的交互，来增加用户的幸福感，减轻用户的压力。例如，在家庭生活中，父母不能陪伴儿童时，儿童可以与机器人进行交互，比如进行对话、娱乐或者学习等。为此，如何提升用户与机器人之间的交互体验，成为需要解决的问题。

发明内容

本申请实施例提供一种人机交互的方法、装置和设备，能够提升用户与机器人之间的交互体验。

第一方面，提供一种人机交互的方法，用于机器人与用户之间的互动，所述方法包括：检测所述用户是否朝向所述机器人；在所述用户朝向所述机器人的情况下，获取所述用户的语音信息；根据所述语音信息确定所述用户的语音是否针对所述机器人；在所述用户的语音是针对所述机器人的情况下，确定所述用户有与所述机器人进行语言交互的意愿。

本申请实施例中，通过检测用户的语言意图信息，确定用户是否有与机器人进行语言交互的意愿，该语言意图信息包括至少两种触发条件，例如分别为用户的朝向、以及用户的语意理解。相比于通过用户说出唤醒词来表达其语言意图的方式，提升了语音交互的连贯性，并且由于在理解用户的语意之前，先检测用户是否朝向机器人，并在用户朝向机器人的情况下才会对用户的语音信息进行收集分析，在一定程度上避免了对用户语音的过度解析，保护了用户的语言隐私。

在一些可能的实现方式中，所述检测所述用户是否朝向所述机器人包括：检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人。

在该实现方式中，检测用户的脸部和/或眼神的方向，能够更准确地判断用户是否朝向机器人。

在一些可能的实现方式中，所述检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人，包括：检测所述用户的脸部是否朝向所述机器人，并在所述用户的脸部的方向朝向所述机器人的情况下，检测所述用户的眼神是否朝向所述机器人；其中，所述检测所述用户是否朝向所述机器人，包括：在所述用户的眼神朝向所述机器人的情况下，确定所述用户朝向所述机器人。

在该实现方式中，检测用户的脸部是否朝向机器人，并在脸部朝向机器人的情况下，检测用户的眼神是否朝向机器人，从而在脸部和眼神均朝向机器人的情况下，再通过分析用户的语意判断用户是否有与机器人进行语言交互意愿。由于同时考虑了脸部和眼神的方向，使得判断用户是否朝向机器人的条件更加严格，对用户是否有语言交互意愿的判断也更加准确。

在一些可能的实现方式中，所述检测所述用户的脸部是否朝向所述机器人，包括：获取所述用户的脸部图像、以及脸部的关键点的坐标信息；将所述脸部图像和所述关键点的坐标信息输入预设的深度学习模型，并获取所述深度学习模型输出的脸部的方向角信息，所述方向角信息包括分别沿X轴、Y轴和Z轴的旋转角度，X轴、Y轴和Z轴相互垂直；根据所述方向角信息，确定所述用户的脸部是否朝向所述机器人。

在该实现方式中，可以预先训练用于检测用户脸部方向的深度学习模型，将用户的脸部图像和脸部的关键点的坐标信息输入该深度学习模型，该深度学习模型可以输出脸部的方向角信息，包括沿自身坐标系的X轴、Y轴和Z轴的旋转角度。根据脸部的方向角信息可以确定用户的脸部是否朝向机器人。

在一些可能的实现方式中，所述检测所述用户的眼神是否朝向所述机器人，包括：获取所述用户的眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息；根据所述眼眶的关键点的坐标信息、以及所述瞳孔的关键点的坐标信息，确定所述眼眶与所述瞳孔之间的相对位置；根据所述相对位置，确定所述用户的眼神是否朝向所述机器人。

在该实现方式中，利用眼眶的关键点的坐标信息和瞳孔的关键点的坐标信息判断二者的相对位置，便能够确定用户的眼神是否朝向机器人。例如，瞳孔位于眼眶的中心区域的情况下，可以认为用户的眼神朝向机器人，即用户正在注视机器人。

在一些可能的实现方式中，所述根据所述语音信息确定所述用户的语音是否针对所述机器人，包括：基于ASR技术，将所述语音信息转换为文本信息；基于NLP技术，对所述文本信息进行分析，确定所述文本信息的内容是否有意义；在所述文本信息的内容有意义的情况下，确定所述用户的语音是否针对所述机器人。

在该实现方式中，利用ASR技术将用户的语音转换为文本信息，并基于NLP技术对其进行分析，确定其内容是否有意义，并在内容有意义的情况下判断这段文本信息是否针对机器人，能够准确且高效地获取判断用户说的话是否是对机器人说的。

在一些可能的实现方式中，所述在所述用户朝向所述机器人的情况下，获取所述用户的语音信息，包括：在所述用户朝向所述机器人的情况下，识别所述用户的嘴部动作；在识别到所述用户的嘴部动作的情况下，获取所述用户的语音信息。

在该实现方式中，语言意图信息还可以包括另一种触发条件，其包括用户的嘴部动作和/或语音。在用户朝向机器人的情况下，接着判断是否识别到用户的嘴部动作和/或语音，在识别到用户的嘴部动作和/或语音的情况下，分析用户的语意，以判断用户是否是在对机器人说话。通过三层触发条件，进一步提升了分析用户语意的门槛，更有效地避免了对用户语音的过度解析，保护了用户的语言隐私。

在一些可能的实现方式中，所述方法还包括：在确定用户有与所述机器人进行语言交互的意愿的情况下，根据所述语音信息，获取回复内容、以及与所述回复内容相匹配的情绪信息，其中，所述情绪信息包括以下中的至少一种：与所述回复内容相匹配的语言情绪、与所述回复内容相匹配的肢体动作、以及与所述回复内容相匹配的微动作；根据所述回复内容和所述情绪信息，对所述用户进行语音回复。

本申请还提供一种交互方式，在机器人与用户互动的过程中赋予了机器人更多的情绪，以增强机器人的生命感。通过获取与回复内容相匹配的情绪信息，例如与回复内容相匹配的语言情绪、肢体动作、微动作等，并基于该情绪信息对用户进行语音回复，从而提升交互体验。

在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的语言情绪，所述根据所述回复内容和所述情绪信息，对所述用户进行语音回复，包括：按照与所述回复内容相匹配的语言情绪，以所述回复内容对所述用户进行语音回复。该语言情绪是指机器人的整段回答的情绪，机器人可以带着情绪向用户输出语音。

在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的肢体动作，所述根据所述回复内容和所述情绪信息对所述用户进行语音回复，包括：在以所述回复内容对所述用户进行语音回复的过程中停顿的时刻，执行所述肢体动作。

例如，所述执行所述肢体动作，包括：调用与所述回复内容相匹配的表情动画；执行与所述表情动画中呈现的所述肢体动作。

机器人在与用户对话过程中还可以附加肢体动作，从而提升互动效果。肢体动作可以是离散的，不一定每段对话都附加肢体动作。

在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的微动作，所述根据所述回复内容和所述情绪信息，对所述用户进行语音回复，包括：在以所述回复内容对所述用户进行语音回复的同时，执行所述微动作。

微动作例如可以指机器人在与用户对话的过程中所做出的微小的动作，比如包括微笑、眼神交流、肢体姿势、动作的速度等。这些微小的动作可以使机器人在对话中更好地表达当前对话内容所含有的情感和态度，从而提升交互体验。

在一些可能的实现方式中，所述方法还包括：获取所述用户的性格参数，所述性格参数用于表示所述用户的性格特征；根据所述性格参数，确定用于与所述用户进行互动的互动策略。

本申请还提供一种交互方式，机器人能够根据用户的性格参数，确定与用户进行互动的互动策略，从而进行个性化的互动，提升了交互体验。该互动策略例如可以包括与用户之间的语音交互的策略、肢体交互的策略等等。

在一些可能的实现方式中，所述获取所述用户的性格参数，包括：获取所述用户的历史互动信息，其中，所述历史互动信息包括所述用户与所述机器人的聊天记录和/或互动内容的信息；根据所述历史互动信息，确定所述性格参数。

在该实现方式中，可以收集用户的历史互动信息，例如聊天记录和/或互动内容的信息，从而确定用户的性格参数，该性格参数可以反映用户的性格例如外向或者内向、感性或者理性等。

在一些可能的实现方式中，所述根据所述性格参数，确定用于与所述用户进行互动的互动策略，包括：向LLM输入所述性格参数；接收所述LLM输出的与互动内容相关的互动参数，所述互动参数包括所述互动内容的触发频次和/或持续时间；所述方法还包括：根据所述触发频次和/或持续时间，执行所述互动内容。

第二方面，提供一种人机交互的装置，用于机器人与用户之间的互动，所述装置包括：检测模块，用于检测所述用户是否朝向所述机器人；在所述用户朝向所述机器人的情况下，获取所述用户的语音信息；以及，根据所述语音信息确定所述用户的语音是否针对所述机器人；处理模块，用于在所述用户的语音是针对所述机器人的情况下，确定所述用户有与所述机器人进行语言交互的意愿。

在一些可能的实现方式中，所述检测模块具体用于，检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人。

在一些可能的实现方式中，所述检测模块具体用于，检测所述用户的脸部是否朝向所述机器人，并在所述用户的脸部的方向朝向所述机器人的情况下，检测所述用户的眼神是否朝向所述机器人；在所述用户的眼神朝向所述机器人的情况下，确定所述用户朝向所述机器人。

在一些可能的实现方式中，所述检测模块具体用于，获取所述用户的脸部图像、以及脸部的关键点的坐标信息；将所述脸部图像和所述关键点的坐标信息输入预设的深度学习模型，并获取所述深度学习模型输出的脸部的方向角信息，所述方向角信息包括分别沿X轴、Y轴和Z轴的旋转角度，X轴、Y轴和Z轴相互垂直；根据所述方向角信息，确定所述用户的脸部是否朝向所述机器人。

在一些可能的实现方式中，所述检测模块具体用于，获取所述用户的眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息；根据所述眼眶的关键点的坐标信息、以及所述瞳孔的关键点的坐标信息，确定所述眼眶与所述瞳孔之间的相对位置；根据所述相对位置，确定所述用户的眼神是否朝向所述机器人。

在一些可能的实现方式中，所述检测模块具体用于，基于ASR技术，将所述用户的语音信息转换为文本信息；基于NLP技术，对所述文本信息进行分析，确定所述文本信息的内容是否有意义；在所述文本信息的内容有意义的情况下，确定所述用户的语音是否针对所述机器人。

在一些可能的实现方式中，所述检测模块具体用于，在所述用户朝向所述机器人的情况下，识别所述用户的嘴部动作；在识别到所述用户的嘴部动作的情况下，获取所述用户的语音信息。

在一些可能的实现方式中，所述处理模块还用于，在确定用户有与所述机器人进行语言交互的意愿的情况下，根据所述语音信息，获取回复内容、以及与所述回复内容相匹配的情绪信息，并根据所述回复内容和所述情绪信息，对所述用户进行语音回复，其中，所述情绪信息包括以下中的至少一种：与所述回复内容相匹配的语言情绪、与所述回复内容相匹配的肢体动作、以及与所述回复内容相匹配的微动作。

在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的语言情绪，所述处理模块具体用于，按照与所述回复内容相匹配的语言情绪，以所述回复内容对所述用户进行语音回复。

在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的肢体动作，所述处理模块具体用于，在以所述回复内容对所述用户进行语音回复的过程中停顿的时刻，执行所述肢体动作。

在一些可能的实现方式中，所述处理模块具体用于，调用与所述回复内容相匹配的表情动画；执行所述表情动画相匹配的所述肢体动作。

在一些可能的实现方式中，所述情绪信息包括与所述回复内容相匹配的微动作，所述处理模块具体用于，在以所述回复内容对所述用户进行语音回复的同时，执行所述微动作。

在一些可能的实现方式中，所述处理模块还用于，获取所述用户的性格参数，所述性格参数用于表示所述用户的性格特征；根据所述性格参数，确定用于与所述用户进行互动的互动策略。

在一些可能的实现方式中，所述处理模块具体用于，获取所述用户的历史互动信息，其中，所述历史互动信息包括所述用户与所述机器人的聊天记录和/或互动内容的信息；根据所述历史互动信息，确定所述性格参数。

在一些可能的实现方式中，所述处理模块具体用于，向LLM输入所述性格参数；接收所述LLM输出的与互动内容相关的互动参数，所述互动参数包括所述互动内容的触发频次和/或持续时间；根据所述触发频次和/或持续时间，执行所述互动内容。

第三方面，提供一种人机交互的设备，包括处理器，所述处理器用于执行存储器中存储的指令，以使所述设备执行上述第一方面或第一方面的任一可能的实现方式中所述的人机交互的方法。

第四方面，提供一种计算机可读存储介质，包括计算机指令，当所述计算机指令在人机交互的设备上运行时，使得所述设备执行上述第一方面或第一方面的任一可能的实现方式中所述的人机交互的方法。

附图说明

图1是本申请实施例提供的一种可能的机器人的结构示意图。

图2是本申请一个实施例提供的人机交互的方法的示意性流程图。

图3是图2所示的方法的一种可能的具体实现方式的示意性流程图。

图4是人脸方向角的示意图。

图5是本申请另一个实施例提供的人机交互的方法的示意性流程图。

图6是图5所述的方法中的语音分割和合并的示意图。

图7是agent与LLM之间的交互过程的示意图。

图8是本申请另一个实施例提供的人机交互的方法的示意性流程图。

图9是本申请另一个实施例提供的人机交互的方法的示意性流程图。

图10是本申请实施例的人机交互的装置的示意性框图。

图11本申请实施例的人机交互的设备的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“复数个”或者“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

示例性的，图1示出了本申请实施例提供的人机交互装置，例如机器人100的结构示意图。

如图1所示，机器人100包括处理器110、执行器111、外部存储器接口120，内部存储器121、通用串行总线(universal serial bus，USB)接口130、充电管理模块140、电源管理模块141、电池142、天线、无线通信模块150，传感器模块160、音频模块170、扬声器170A、麦克风170B、摄像头180、显示屏190等。

处理器110例如包括图形处理器(graphics processing unit，GPU)、控制器、存储器等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或者多个处理器中。其中，控制器可以是机器人100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号等，产生操作控制信号，完成取指令和执行指令的控制。

存储器用于存储指令和数据。处理器110中的存储器例如可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或者数据。如果处理器110需要再次使用该指令或者数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括至少一个接口。该接口可以包括集成电路(inter-integrated circuit，I2C)接口、集成电路内置音频(inter-integratedcircuitsound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、通用输入输出(general-purposeinput/output，GPIO)接口和USB接口等中的一种或者几种。

可以理解，本申请实施例示意的各模块间的接口连接关系，仅为示例，并不构成对机器人100的结构限定。在另一些实施例中，机器人100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

执行器111用于控制机器人100的移动、转动、跳跃等。可选地，在一些实施例中，若机器人100包括头部、躯干和腿部，执行器111还用于控制躯干相对于腿部转动、腿部相对于躯干转动、躯干摇晃、或者头部沿躯干转动等。在一些实施例中，执行器111可以包括至少一个电机。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，以扩展机器人100的存储能力。

内部存储器121用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，执行机器人100的各种功能应用和数据处理。内部存储器121包括存储程序区和存储数据区。其中，存储程序区用于存储操作系统、至少一个功能所需的应用程序例如声音播放功能，图像播放功能等等。存储数据区用于存储机器人100使用过程中所创建的数据例如音频数据等等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、通用闪存存储器(universal flash storage，UFS)等。

USB接口130是符合USB标准规范的接口，例如是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口130可以用于连接充电器，以对机器人100充电，机也可以用于机器人100与外围设备之间的传输数据。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过机器人100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。电源管理模块141用于连接电池142，充电管理模块140与处理器110。

无线通信模块150可以提供应用在机器人100上的无线通信的解决方案，例如无线局域网(wireless local area networks，WLAN)、无线保真(wirelessfidelity，Wi-Fi)网络、蓝牙(bluetooth，BT)网络等。

在一些实施例中，机器人100的天线和无线通信模块150耦合，使得机器人100可以通过无线通信技术与网络及其他设备之间进行通信。

传感器模块160可以包括至少一个传感器。例如，传感器模块160包括触摸传感器、距离传感器、姿态传感器等。在一些实施例中，触摸传感器为电容传感器，可以设置于机器人100的头顶、颈部、背部、腹部等位置，用于感知用户的抚摸、轻拍等交互动作。距离传感器用于测量机器人100与外界环境物体或者用户之间的距离。姿态传感器为陀螺仪，用于感知机器人100的姿态变化。

音频模块170用于将数字音频信息转换成模拟音频信号输出，和/或将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。扬声器170A也称“喇叭”，用于将音频电信号转换为声音信号。麦克风170B也称“话筒”或者“传声器”，用于将声音信号转换为电信号。

机器人100可以通过音频模块170、扬声器170A、麦克风170B、以及处理器110等实现音频功能，例如语音播放、录音等。

摄像头180用于捕获静态图像或视频，以便处理器110可以根据摄像头180获取的图像或视频进行事件的检测，从而可以对事件进行反馈等，摄像头180的拍摄方向可以和机器人100的正面面向的方向一致，从而能够实现机器人100模拟“人眼看到”所处的环境。摄像头180可以将采集到的图像存储于存储器121中，还可以将采集到的图像直接传输给处理器110。

显示屏190用于显示由用户输入的信息，或者用于提供给用户信息、以及机器人100的各种菜单功能。显示屏190可采用液晶显示器、有机发光二极管等形式进行配置。进一步地，在机器人100的头部区域包括用于显示模拟眼睛的显示屏190，该眼睛可以包含有模拟的瞳孔和底色部分(虹膜巩膜)。需要说明的是，显示屏190中的模拟眼睛可以包括左眼和右眼，也可以只包含一只眼睛，可以在显示屏190上移动，以看向不同的方向和位置。应理解，眼睛在移动过程中，双眼同时进行移动。

在本申请实施例中，机器人100可以为具有模拟人形形态的机器人，或者为具有非人形形态的机器人例如模拟动物形态的机器人，或者为非生物形态的机器人。即，机器人100为人和具备运动功能的设备，所述的运动包括移动、旋转等。

为了更好地提升用户与机器人之间的交互体验，本申请实施例分别从机器人与用户之间的对话开启、多轮对话、对话的应答策略、以及机器人于用户之间的互动策略等方面出发，改善用户的交互体验。

本申请实施例的人机交互的方法可以由机器人执行，例如，可以由机器人的代理(agent)例如云端agent来执行。该机器人可以是陪伴式机器人，其结构例如图1所示。

可以理解，agent可以看作是运行于机器人内部的计算机程序，其可以通过各种传感器和执行器与机器人的硬件进行交互，从而根据机器人所处的环境和任务要求，自主地感知环境信息、理解任务需求，并通过推理、学习、规划等技术来做出决策和执行动作。这样，便能够帮助机器人更加高效、准确地完成任务，提高机器人的智能水平和自主能力。

首先，描述如何识别用户的交互意愿从而开启对话。

图2示出了本申请实施例提供的人机交互的方法200的示意性流程图。如图2所示，方法200可以包括以下步骤中的部分或者全部。

在步骤210中，检测用户的语言意图信息。

其中，语言意图信息包括以下信息中的至少一种：用户的脸部和/或眼神的方向、用户的嘴部动作和/或语音、以及用户的语意。

在步骤220中，根据该语言意图信息，确定用户是否有与机器人进行语言交互的意愿，即用户是否想对机器人说话。

通常，机器人判断对话开启时通过用户说出唤醒词，例如“hello loona”，但是这会导致语音交互的不连贯性，使得用户体验较差。

而在方法200中，通过检测用户的语言意图信息，确定用户是否有与机器人进行语言交互的意愿。相比于通过用户说出唤醒词来表达其语言意图的方式，提升了语音交互的连贯性。

其中，该语言意图信息包括以下三层触发条件种的至少一种：第一层触发条件为用户朝向机器人；第二层触发条件为用户的嘴部动作；第三层触发条件为用户的语意理解，即用户的语音是针对机器人的。

本申请实施例中，可以选择上述三种触发条件中的一种或者几种作为触发条件，来判断用户是否有交互意愿。

在一些实施例中，可以将第一层触发条件作为基础的触发条件，并结合第三层触发条件作为附加的触发条件，共同用判断用户的交互意愿。也就是说，在用户朝向机器人，且用户的语意与互动内容相关联的情况下，确定用户有与机器人进行语言交互的意愿。

例如，如图3所示，上述的步骤210可以包括步骤211和步骤212，这时，步骤220可以包括步骤221。

在步骤211中，检测用户是否朝向机器人。

在步骤212中，在用户朝向机器人的情况下，获取用户的语音信息，并根据该语音信息确定用户的语音是否针对机器人。

在步骤221中，在用户的语音是针对机器人的情况下，确定用户有与机器人进行语言交互的意愿。

由于在用户没有朝向机器人的情况下，大概率不是在对机器人说话，因此，在理解用户的语意之前先检测用户是否朝向机器人，并在用户朝向机器人的情况下才会对用户的语音信息进行收集分析，能够在一定程度上避免对用户语音的过度解析，保护了用户的语言隐私。

在另一些实施例中，可以将第二层触发条件作为基础的触发条件，并结合第三层触发条件作为附加的触发条件，共同用来判定用户的交互意愿。也就是说，在用户朝向机器人，且识别到用户的嘴部动作的情况下，确定用户有与机器人进行语言交互的意愿。

在用户朝向机器人的情况下，通过识别用户嘴部动作，能够过滤掉大部分的无意的动作，避免过度的意图解析。可选地，为了提高准确性，除了识别用户的嘴部动作，还可以进一步检测用户语音与机器人之间的距离，从而判断用户是否是对该机器人说话。

通常，可以利用语音活动检测(voice activity detection，VAD)技术检测语音信号的存在，并采用计算机视觉识别技术检测用户的嘴部动作，为语音识别提供辅助信息。

在其他实施例中，还可以结合第一层触发条件、第二层触发条件和第三层触发条件，共同来判定用户的交互意愿。也就是说，在用户朝向机器人，且识别到用户的嘴部动作，并且根据用户的语意确定用户是在对机器人说话的情况下，确定用户有与机器人进行语言交互的意愿。

例如，在上述的步骤212中，在用户朝向机器人的情况下，可以接着判断是否识别到用户的嘴部动作，在识别到用户的嘴部动作的情况下获取用户的语音信息，并根据该语音信息确定用户的语音是否针对机器人。

通过三层触发条件，进一步提升了分析用户语意的门槛，更有效地避免了对用户语音的过度解析，保护了用户的语言隐私。

这里，根据接收到的语音信息的语意确定用户是否对机器人说话，例如可以通过判断用户的语意是否与互动过程中对话的上下文的关联性、或者与当前的互动场景和互动内容之间的关联性、或者符合对机器人设定的相关指令等，来判断用户是否是对机器人说话。如果用户当前的语音内容与之前的语音内容之间有关联性，或者用户当前的语音内容与当前的互动场景比如学习、游戏等场景相关联，或者用户说出某些特定指令，则可以判断用户当前是在对机器人说话。

本申请实施例中，检测用户是否朝向机器人，例如可以通过检测用户的脸部和/或眼神的方向来实现，即检测用户的脸部和/或眼神是否朝向机器人。当然，其他检测用户是否朝向机器人的方法也可以应用在本申请实施例中，例如检测用户语音的方向，即用户声音的方向是否朝向机器人。

在一些实施例中，可以先检测用户的脸部是否朝向机器人，并在脸部朝向机器人的情况下，检测用户的眼神是否朝向机器人，从而在脸部和眼神均朝向机器人的情况下，再通过分析用户的语意判断用户是否有与机器人进行语言交互意愿。由于同时考虑了脸部和眼神的方向，使得判断用户是否朝向机器人的条件更加严格，对用户是否有语言交互意愿的判断也更加准确。

本申请实施例可以利用机器学习和计算机视觉技术，检测用户的脸部是否朝向机器人。例如，在检测用户的脸部是否朝向机器人的过程中，可以获取用户的脸部图像、以及脸部的关键点的坐标信息，并将该脸部图像和关键点的坐标信息输入预设的深度学习模型，以获取深度学习模型输出的脸部的方向角信息，进而根据该方向角信息，确定用户的脸部是否朝向机器人。

这里，脸部的关键点例如可以是脸部图像中具有比较明显且稳定的特征，且能够用于描述脸部图像的整体特征和内容的点。

首先，需要基于深度学习技术，对脸部的关键点的数据进行训练，得到脸部关键点的检测模型。在获取脸部的关键点的坐标信息时，可以向该检测模型中输入人脸图像，并获取该检测模型输出的关键点的坐标信息。

其次，还需要训练另一深度学习模型，其用于根据脸部的关键点的坐标信息预测脸部的朝向角。向该深度学习模型输入脸部的关键点的左边，该深度学习模型可以输出脸部的方向角。

这样，预先训练用于检测用户脸部方向的深度学习模型，将用户的脸部图像和脸部的关键点的坐标信息输入该深度学习模型，该深度学习模型可以输出脸部的方向角信息，包括沿自身坐标系的X轴、Y轴和Z轴的旋转角度。根据脸部的方向角信息，便能够确定用户的脸部是否朝向机器人。

其中，该方向角信息可以包括分别沿X轴、Y轴和Z轴的旋转角度(yaw，pitch，roll)。例如，如图4所示，X轴、Y轴和Z轴相互垂直，X轴可以看作是重力方向，Y轴可以看作是左右方向，Z轴可以看作是前后方向，围绕X轴旋转的角度、围绕Y轴旋转的角度、以及围绕Z轴旋转的角度记作(yaw，pitch，roll)。可以将脸部正对机器人时的方向角作为初始方向角(yaw0，pitch0，roll0)，在检测脸部的方向时，将脸部的关键点的坐标数据输入预设的深度学习模型，以获取深度学习模型输出的测量方向角(yaw，pitch，roll)，并根据测量方向角(yaw，pitch，roll)与初始方向角(yaw0，pitch0，roll0)之间的差异，确定用户的脸部是否朝向机器人，例如，该差异在预定范围内的情况下，可以认为用户的脸部朝向机器人。

在确定用户的脸部朝向机器人的情况下，可以根据用户的语意判断用户是否在对机器人说话；或者，为了过滤用户脸部朝向机器人但眼睛看向别处情况，在确定用户的脸部朝向机器人的情况下，可以进一步判断用户的眼神是否朝向机器人，并在用户的眼神也朝向机器人的情况下，根据用户的语意判断用户是否在对机器人说话。

在一些实施例中，本申请可以根据用户的眼眶和瞳孔之间的相对位置，确定用户的眼神是否朝向机器人。例如，获取用户的眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息，并根据眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息，确定眼眶与瞳孔之间的相对位置，进而根据眼眶与瞳孔之间的相对位置，确定用户的眼神是否朝向机器人。

这样，利用眼眶的关键点的坐标信息和瞳孔的关键点的坐标信息判断二者的相对位置，便能够确定用户的眼神是否朝向机器人。例如，瞳孔位于眼眶的中心区域的情况下，可以认为用户的眼神朝向机器人，即用户正在注视机器人。

与脸部的关键点相类似，对于眼眶的关键点和瞳孔的关键点的坐标信息，也可以基于深度学习技术对眼眶和瞳孔的关键点的数据进行训练，得到相应的训练模型，从而基于眼眶和瞳孔的图像，利用相应的模型获取眼眶和瞳孔关键点的坐标信息。

此外，为了提高在不同环境下的识别准确率，可选地，在采集人脸图像、眼眶图像或者瞳孔图像后，采用特殊的图像处理算法对采集到的图像进行图像处理，然后输入相应的机器学习模型，以获取图像关键点的坐标信息。

对眼神方向的识别能够更加准确地判断用户的交互意愿，在对准确性要求较高的场景下，可以选择识别眼神方向来判断用户是否朝向机器人，或者结合脸部方向和眼神方向来判断用户是否朝向机器人。但是，对于眼神方向的识别具有一定难度，为了降低复杂度，在对准确性要求不高的场景下，也可以仅检测用户的脸部方向，以此来判断用户是否朝向机器人。

在判断用户朝向机器人的情况下，对用户的语音进行语意理解，确定用户的语音是否针对机器人。

在一些实施例中，可以采用本地或者云端的自动语音识别(AutomaticSpeechRecognition，ASR)技术和自然语言处理NLP(Natural LanguageProcessing，NLP)技术，来理解用户的话是否是针对机器人说的。

例如，基于ASR技术将用户的语音信息转换为文本信息，并基于NLP技术对文本信息进行分析，以确定文本信息的内容是否有意义，并在该文本信息的内容有意义的情况下，确定用户的语音是否针对机器人。从而准确且高效地获取判断用户的话是否是对机器人说的。

NLP技术是与自然语言相关的理解、生成和处理的技术和方法，其涵盖了广泛的任务和应用，包括但不限于文本分类、情感分析、命名实体识别、机器翻译、问答系统、对话系统、文本摘要、信息提取、语音识别等。

以大语言模型(large language model，LLM)为例，其中，LLM是NLP技术中一种特定类型的语言模型，其通常是基于深度学习技术的大规模预训练模型，能够理解和生成自然语言文本。在基于ASR技术将用户的语音信息转换为文本信息后，可以将该文本信息发送给LLM中，并通过LLM判断该文本信息的内容是否是针对机器人的。

例如，发送给LLM的部分提示词可以如下：“你是一款机器人的语言分析系统，你每收到一段话，结合之前的所有内容判断我的话是否有意义，如果有意义，则判断该句话是对你说的还是对其他人说的。如果你确定这句话是无意义的，返回字符串A；如果你确定这句话有意义，且目标对话对象就是你，返回字符串B；如果你确定这句话有意义，但是目标对话对象不是你，返回字符串C；如果你无法判断，默认回答字符串A”。

这时，如果向LLM输入文本“我不吃饭了”，LLM可能会输出字符串C；如果向LLM输入文本“你看起来好可爱呀”，LLM可能会输出字符串B；如果向LLM输入文本“给我表演个节目”，LLM可能会输出字符串B；如果向LLM输入文本“等一会儿”，LLM可能会输出字符串C；如果向LLM输入文本“啊的股骨头”，LLM可能会输出字符串A。

如果LLM输出的是字符串B，那么可以认为用户现在有与机器人进行语言交互的意愿。

在通过方法200判断用户有与机器人进行语言交互的意愿的情况下，可以开始检测用户的语音信息并进行语音回复。

机器人与用户之间可以进行多轮对话。因此，机器人需要判断用户是否已经说完一段话，并确定在什么时刻回复用户。

用户的相邻两句话之间具有间隔，通常可以利用VAD技术识别该间隔。以下，也将该间隔称为VAD间隔。VAD技术可以用于检测语音信号的存在，其主要是在语音信号中识别出包含语音的部分和不包含语音的部分。

因此，可以基于固定的VAD间隔对用户的语音进行判停，并对用户进行回复。例如，在用户说完一句话之后，如果在固定的时间间隔内没有再检测到用户的语音，那么就认为用户说完了这句话，从而对用户进行回复。那么，如果该VAD间隔设置的较长，那么较长的延迟会让用户感到沮丧；如果该VAD间隔设置的较短，那么很可能用户还没有说完这段话就会被打断。

为此，本申请实施例还提供一种人机交互的方法300，能够使机器人与用户之间更顺畅和高效地进行多轮对话。如图5所示，方法300包括以下步骤中的部分或者全部。

在步骤310中，基于预设的VAD间隔，接收用户的语音分段。

在步骤320中，将当前时刻接收到的语音分段合并至第一语音信息中，得到第二语音信息。

其中，该第一语音信息是由当前时刻之前接收到的语音分段合并形成的语音信息。

在步骤330中，根据第二语音信息的语意的完整性，确定是否针对第二语音信息对用户进行语音回复。

在该实施例中，基于预设的VAD间隔接收用户的语音分段，并在接收过程中不断将新的语音分段合并至前面的语音信息中，并根据合并后的语音信息的语意完整性，确定是否判停用户语音并进行回复。相比于基于固定的VAD间隔的判停，能够减少对用户语音的打断，提升了交互体验。

该预设的VAD间隔例如可以是连续两个语音分段之间的时间间隔的最小值。

Claims

1.一种人机交互的方法，其特征在于，用于机器人与用户之间的互动，所述方法包括：

检测所述用户是否朝向所述机器人；

在所述用户朝向所述机器人的情况下，获取所述用户的语音信息；

根据所述语音信息确定所述用户的语音是否针对所述机器人；

在所述用户的语音是针对所述机器人的情况下，确定所述用户有与所述机器人进行语言交互的意愿。

2.根据权利要求1所述的方法，其特征在于，所述检测所述用户是否朝向所述机器人包括：

检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人。

3.根据权利要求2所述的方法，其特征在于，所述检测所述用户的脸部是否朝向所述机器人，和/或检测所述用户的眼神是否朝向所述机器人，包括：

检测所述用户的脸部是否朝向所述机器人，并在所述用户的脸部的方向朝向所述机器人的情况下，检测所述用户的眼神是否朝向所述机器人；

其中，所述检测所述用户是否朝向所述机器人，包括：

在所述用户的眼神朝向所述机器人的情况下，确定所述用户朝向所述机器人。

4.根据权利要求2或3所述的方法，其特征在于，所述检测所述用户的脸部是否朝向所述机器人，包括：

获取所述用户的脸部图像、以及脸部的关键点的坐标信息；

将所述脸部图像和所述关键点的坐标信息输入预设的深度学习模型，并获取所述深度学习模型输出的脸部的方向角信息，所述方向角信息包括分别沿X轴、Y轴和Z轴的旋转角度，X轴、Y轴和Z轴相互垂直；

根据所述方向角信息，确定所述用户的脸部是否朝向所述机器人。

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述检测所述用户的眼神是否朝向所述机器人，包括：

获取所述用户的眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息；

根据所述眼眶的关键点的坐标信息、以及所述瞳孔的关键点的坐标信息，确定所述眼眶与所述瞳孔之间的相对位置；

根据所述相对位置，确定所述用户的眼神是否朝向所述机器人。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述根据所述语音信息确定所述用户的语音是否针对所述机器人，包括：

基于自动语音识别ASR技术，将所述语音信息转换为文本信息；

基于自然语言处理NLP技术，对所述文本信息进行分析，确定所述文本信息的内容是否有意义；

在所述文本信息的内容有意义的情况下，确定所述用户的语音是否针对所述机器人。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述在所述用户朝向所述机器人的情况下，获取所述用户的语音信息，包括：

在所述用户朝向所述机器人的情况下，识别所述用户的嘴部动作；

在识别到所述用户的嘴部动作的情况下，获取所述用户的语音信息。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

在确定用户有与所述机器人进行语言交互的意愿的情况下，根据所述语音信息，获取回复内容、以及与所述回复内容相匹配的情绪信息，其中，所述情绪信息包括以下中的至少一种：与所述回复内容相匹配的语言情绪、与所述回复内容相匹配的肢体动作、以及与所述回复内容相匹配的微动作；

根据所述回复内容和所述情绪信息，对所述用户进行语音回复。

9.根据权利要求8所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的语言情绪，所述根据所述回复内容和所述情绪信息，对所述用户进行语音回复，包括：

按照与所述回复内容相匹配的语言情绪，以所述回复内容对所述用户进行语音回复。

10.根据权利要求8或9所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的肢体动作，所述根据所述回复内容和所述情绪信息对所述用户进行语音回复，包括：

在以所述回复内容对所述用户进行语音回复的过程中停顿的时刻，执行所述肢体动作。

11.根据权利要求10所述的方法，其特征在于，所述执行所述肢体动作，包括：

调用与所述回复内容相匹配的表情动画；

执行与所述表情动画相匹配的所述肢体动作。

12.根据权利要求8至11中任一项所述的方法，其特征在于，所述情绪信息包括与所述回复内容相匹配的微动作，所述根据所述回复内容和所述情绪信息，对所述用户进行语音回复，包括：

在以所述回复内容对所述用户进行语音回复的同时，执行所述微动作。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述方法还包括：

获取所述用户的性格参数，所述性格参数用于表示所述用户的性格特征；

根据所述性格参数，确定用于与所述用户进行互动的互动策略。

14.根据权利要求13所述的方法，其特征在于，所述获取所述用户的性格参数，包括：

获取所述用户的历史互动信息，其中，所述历史互动信息包括所述用户与所述机器人的聊天记录和/或互动内容的信息；

根据所述历史互动信息，确定所述性格参数。

15.根据权利要求14所述的方法，其特征在于，所述根据所述性格参数，确定用于与所述用户进行互动的互动策略，包括：

向大语言模型LLM输入所述性格参数；

接收所述LLM输出的与互动内容相关的互动参数，所述互动参数包括所述互动内容的触发频次和/或持续时间；

所述方法还包括：

根据所述触发频次和/或持续时间，执行所述互动内容。

16.一种人机交互的装置，其特征在于，用于机器人与用户之间的互动，所述装置包括：

检测模块，用于：检测所述用户是否朝向所述机器人；在所述用户朝向所述机器人的情况下，获取所述用户的语音信息；以及，根据所述语音信息确定所述用户的语音是否针对所述机器人；

处理模块，用于在所述用户的语音是针对所述机器人的情况下，确定所述用户有与所述机器人进行语言交互的意愿。

17.根据权利要求16所述的装置，其特征在于，所述检测模块具体用于，

18.根据权利要求17所述的装置，其特征在于，所述检测模块具体用于，

19.根据权利要求17或18所述的装置，其特征在于，所述检测模块具体用于，

获取所述用户的脸部图像、以及脸部的关键点的坐标信息；

20.根据权利要求17至19中任一项所述的装置，其特征在于，所述检测模块具体用于，

21.根据权利要求17至20中任一项所述的装置，其特征在于，所述检测模块具体用于，

基于自动语音识别ASR技术，将所述用户的语音信息转换为文本信息；

22.根据权利要求16至21中任一项所述的装置，其特征在于，所述检测模块具体用于，

23.根据权利要求16至22中任一项所述的装置，其特征在于，所述处理模块还用于，

在确定用户有与所述机器人进行语言交互的意愿的情况下，

根据所述语音信息，获取回复内容、以及与所述回复内容相匹配的情绪信息，并根据所述回复内容和所述情绪信息，对所述用户进行语音回复，其中，所述情绪信息包括以下中的至少一种：与所述回复内容相匹配的语言情绪、与所述回复内容相匹配的肢体动作、以及与所述回复内容相匹配的微动作。

24.根据权利要求16至23中任一项所述的装置，其特征在于，所述处理模块还用于，

25.一种人机交互的设备，其特征在于，包括处理器，所述处理器用于执行存储器中存储的指令，以使所述设备执行根据权利要求1至15中任一项所述的人机交互的方法。

26.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在人机交互的设备上运行时，使得所述设备执行根据权利要求1至15中任一项所述的人机交互的方法。