CN108833941A

CN108833941A - 人机交互处理方法、装置、用户终端、处理服务器及系统

Info

Publication number: CN108833941A
Application number: CN201810695300.4A
Authority: CN
Inventors: 乔爽爽; 刘昆; 梁阳; 林湘粤; 韩超; 朱名发; 郭江亮; 李旭; 刘俊; 李硕; 尹世明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-16
Also published as: US11282516B2; US20200005781A1

Abstract

本发明实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统，用户终端侧方法包括：接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的；向所述用户输出所述交互应答语音。该方法使得交互应答语音带有与用户当前的情绪匹配的感情色彩，使得人机交互过程不再单调，极大提升用户的使用体验。

Description

人机交互处理方法、装置、用户终端、处理服务器及系统

技术领域

本发明实施例涉及人工智能技术，尤其涉及一种人机交互处理方法、装置、用户终端、处理服务器及系统。

背景技术

随着机器人技术的不断发展，机器人的智能程度越来越高，机器人不仅能根据用户的指令完成相应的操作，同时，还能够模拟真人同用户进行交互。其中，基于语音的人机交互是重要的交互手段。在基于语音的人机交互中，用户发出语音指令，机器人根据用户的语音执行相应的操作，并向用户播放回答语音。

现有的基于语音的人机交互场景中，仅支持对回答语音的音色或分贝等进行修改，而在回答语音的感情色彩上，仅支持一种固定的不体现感情色彩的回答语音。

但是，现有技术的这种回答方式过于单调，用户体验不佳。

发明内容

本发明实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统，用于解决现有技术中人机交互的回答语音不带有感情色彩所导致的用户体验不佳的问题。

本发明实施例第一方面提供一种人机交互处理方法，包括：

接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；

获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的；

向所述用户输出所述交互应答语音。

进一步的，所述采集获取所述用户输入的交互请求语音时的视频数据，包括：

通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。

进一步的，所述获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的，包括：

向处理服务器发送所述交互请求语音以及所述视频数据，以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息，并根据所述表情信息以及所述交互请求语音得到所述交互应答语音；

接收所述处理服务器反馈的所述交互应答语音。

进一步的，所述交互应答语音的语音内容与所述表情信息对应，和/或，所述交互应答语音的音频特性与所述表情信息对应。

本发明实施例第二方面提供一种人机交互处理方法，包括:

接收用户终端发送的交互请求语音以及视频数据，所述交互请求语音为用户在所述用户终端上输入的，所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的；

从所述视频数据中分析得到所述用户的表情信息；

根据所述表情信息以及所述交互请求语音得到交互应答语音；

向所述用户终端发送所述交互应答语音，以使所述用户终端向所述用户播放所述交互应答语音。

进一步的，所述从所述视频数据中分析得到所述用户的表情信息，包括：

从所述视频数据中获取关键人脸图像；

对所述关键人脸图像进行表情识别，得到所述用户的表情信息。

进一步的，所述对所述关键人脸图像进行表情识别，得到所述用户的表情信息，包括：

向预测模型服务器发送包含所述关键人脸图像的表情分类请求，以使所述预测模型服务器对所述关键人脸图像进行表情识别，得到所述用户的表情信息；

接收所述预测模型服务器发送的所述用户的表情信息。

进一步的，所述向预测模型服务器发送包含所述关键人脸图像的表情分类请求，包括：

根据负载均衡策略，向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。

将每一幅关键人脸图像输入到人脸表情识别模型中，得到与每一幅关键人脸图像对应的表情信息；

对全部关键人脸图像对应的表情信息进行加权处理，得到所述用户的表情信息。

进一步的，所述根据所述表情信息以及所述交互请求语音得到交互应答语音，包括：

对所述交互请求语音进行语音识别，得到请求语音文本；

根据所述请求语音文本以及所述表情信息，得到交互应答语音；

其中，所述交互应答语音的语音内容与所述表情信息对应，和/或，所述交互应答语音的音频特性与所述表情信息对应。

本发明实施例第三方面提供一种人机交互装置，包括：

接收模块，用于接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；

获取模块，用于获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的；

输出模块，用于向所述用户输出所述交互应答语音。

进一步的，所述接收模块具体用于：

进一步的，所述获取模块包括：

发送单元，用于向处理服务器发送所述交互请求语音以及所述视频数据，以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息，并根据所述表情信息以及所述交互请求语音得到所述交互应答语音；

接收单元，用于接收所述处理服务器反馈的所述交互应答语音。

本发明实施例第四方面提供一种人机交互装置，包括：

接收模块，用于接收用户终端发送的交互请求语音以及视频数据，所述交互请求语音为用户在所述用户终端上输入的，所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的；

分析模块，用于从所述视频数据中分析得到所述用户的表情信息；

处理模块，用于根据所述表情信息以及所述交互请求语音得到交互应答语音；

发送模块，用于向所述用户终端发送所述交互应答语音，以使所述用户终端向所述用户播放所述交互应答语音。

进一步的，所述分析模块包括：

获取单元，用于从所述视频数据中获取关键人脸图像；

第一识别单元，用于对所述关键人脸图像进行表情识别，得到所述用户的表情信息。

进一步的，所述第一识别单元具体用于：

接收所述预测模型服务器发送的所述用户的表情信息。

进一步的，所述第一识别单元具体用于：

进一步的，所述处理模块包括：

第二识别单元，用于对所述交互请求语音进行语音识别，得到请求语音文本；

处理单元，用于根据所述请求语音文本以及所述表情信息，得到交互应答语音；

本发明实施例第五方面提供一种用户终端，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行上述第一方面所述的方法步骤。

本发明实施例第六方面提供一种处理服务器，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行上述第二方面所述的方法步骤。

本发明实施例第七方面提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序用于执行上述第一方面或者上述第二方面所述的方法步骤。

本发明实施例第八方面提供一种人机交互处理系统，其特征在于，包括上述第五方面所述的用户终端以及上述第六方面所述的处理服务器。

本发明实施例所提供的人机交互处理方法、装置、用户终端、处理服务器及系统，根据用户向用户终端输入交互请求语音时的视频数据，从视频数据中分析出用户的表情信息，进而根据表情信息以及用户输入的交互请求语音生成交互应答语音，从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩，使得人机交互过程不再单调，极大提升用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人机交互处理方法的应用场景图；

图2为本发明实施例提供的人机交互处理方法涉及的系统架构图；

图3为本发明实施例提供的人机交互处理方法实施例一的流程示意图；

图4为本发明实施例提供的人机交互处理方法实施例二的流程示意图；

图5为本发明实施例提供的人机交互处理方法实施例三的流程示意图；

图6为本发明实施例提供的人机交互处理方法实施例四的流程示意图；

图7为本发明实施例提供的人机交互处理方法实施例五的流程示意图；

图8为本发明实施例提供的人机交互处理方法实施例六五的流程示意图；

图9为本发明实施例提供的一种人机交互处理装置实施例一的模块结构图；

图10为本发明实施例提供的一种人机交互处理装置实施例二的模块结构图；

图11为本发明实施例提供的另一种人机交互处理装置实施例一的模块结构图；

图12为本发明实施例提供的另一种人机交互处理装置实施例二的模块结构图；

图13为本发明实施例提供的另一种人机交互处理装置实施例三的模块结构图；

图14为本发明实施例提供的一种用户终端的实体框图；

图15为本发明实施例提供的一种处理服务器的实体框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有的基于语音的人机交互场景中，机器人的回答语音都是不带有感情色彩的，而人是一种感情动物，因此，真人用户在与机器人交互时，可能带有不同的情绪，在不同的情绪下，用户的表情不尽仅相同。而无论用户以何种表情同机器人交互，机器人的回答语音都不带有感情色彩，这样的处理方式过于单调，导致用户的体验不佳。

本发明实施例基于上述问题，提出一种人机交互处理方法，通过采集用户向机器人输入交互请求语音时的视频数据，从视频数据中分析出用户的表情信息，再根据表情信息以及用户的输入的语音生成交互应答语音，从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩，使得人机交互过程不再单调，极大提升用户的使用体验。

图1为本发明实施例提供的人机交互处理方法的应用场景图，如图1所示，该方法应用于人机交互场景中，该交互场景涉及用户、用户终端以及处理服务器。其中，该用户为真实的人，该用户终端具体可以为上述的机器人，该用户终端具有采集用户发出的语音以及采集用户的人脸视频功能。当用户向用户终端发出交互请求语音后，由用户终端将采集到的交互请求语音以及用户当前的人脸视频发送给处理服务器，处理服务器再根据交互请求语音以及用户当前的人脸视频确定并向用户终端返回交互应答语音，用户终端再将交互应答语音向用户播放。

图2为本发明实施例提供的人机交互处理方法涉及的系统架构图，如图2所示，该方法涉及用户终端、处理服务器以及预测模型服务器，其中，用户终端与处理服务器的功能以及交互关系如上述图1所述，此处不再赘述。预测模型服务器中加载了预测模型，利用该预测模型，可以根据处理服务器所发送的表情分类请求，得到表情信息并向处理服务器返回表情信息。具体交互过程将在下述实施例中详细说明。

需要说明的是，本发明实施例的处理服务器和预测模型服务器是逻辑上的划分，在具体实施过程中，处理服务器和预测模型服务器也可以部署在同一台物理服务器上，或者部署在不同的物理服务器上，本发明实施例对此不作限制。

本发明实施例以下分别从用户终端以及处理服务器的角度说明本发明实施例的技术方案。

以下为用户终端侧的处理过程。

图3为本发明实施例提供的人机交互处理方法实施例一的流程示意图，该方法的执行主体为上述的用户终端，该用户终端具体可以为机器人，如图3所示，该方法包括：

S301、接收用户输入的交互请求语音，并采集获取该用户输入该交互请求语音时的视频数据。

可选的，用户终端上可以设置麦克风等语音输入装置以及摄像头，用户终端可以通过语音输入装置接收到用户的交互请求语音，并通过摄像头采集用户在输入交互请求语音时的视频数据。

可选的，该视频数据可以是用户的人脸视频，用户终端可以通过调整摄像头角度等方法使得摄像头可以采集到清晰完整的人脸画面。

可选的，上述视频数据可以为持续预设时长的视频。

S302、获取与上述交互请求语音对应的交互应答语音，该交互应答语音是根据上述视频数据中所包含的用户在输入上述交互请求语音时的表情信息得到的。

在一种可选的方式中，用户终端可以通过与处理服务器进行交互，由处理服务器向用户终端提供交互请求语音对应的交互应答语音。

在另一种可选的方式中，也可以由用户终端对交互请求语音进行音色、分贝等特征的分析，确定用户当前的情绪状态，进而选择对应的交互应答语音。

S303、向上述用户输出上述交互应答语音。

可选的，用户终端可以向用户播放所获取到的交互应答语音。

本实施例中，用户终端接收用户输入的交互请求语音，并采集用户在输入教书请求语音时的视频数据，进而，用户终端获取并输出交互应答语音，该交互应答语音是根据视频数据中所包含的用户表情信息得到的，从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩，使得人机交互过程不再单调，极大提升用户的使用体验。

在一种可选的实施方式中，用户终端在采集用户输入交互请求语音时的视频数据时，可以通过双目摄像头采集获取用户在输入所述交互请求语音时的视频数据。

在上述实施例的基础上，本实施例涉及用户终端通过与处理服务器交互获取交互应答语音的具体过程。

图4为本发明实施例提供的人机交互处理方法实施例二的流程示意图，如图4所示，上述步骤S302包括：

S401、向处理服务器发送上述交互请求语音以及上述视频数据，以使处理服务器从上述视频数据中分析得到上述用户的表情信息，并根据上述表情信息以及上述交互请求语音得到上述交互应答语音。

S402、接收上述处理服务器反馈的上述交互应答语音。

可选的，用户终端可以通过同一条消息将上述交互请求语音和上述视频数据一同发送给处理服务器，或者，用户终端也可以通过不同的消息分别向处理服务器发送上述交互请求语音和上述视频数据。处理服务器接收到用户终端发送的交互请求语音和视频数据后，会根据视频数据分析出用户当前的表情信息，并根据表情信息生成与交互请求语音对应的交互应答语音，再将交互应答语音发送给用户终端。处理服务器的具体处理过程将在下述实施例中详细说明。

以下为处理服务器侧的处理过程。

图5为本发明实施例提供的人机交互处理方法实施例三的流程示意图，该方法的执行主体为上述的处理服务器，如图5所示，该方法包括：

S501、接收用户终端发送的交互请求语音以及视频数据，该交互请求语音为用户在该用户终端上输入的，该视频数据为该用户终端在用户输入该交互请求语音时采集的。

S502、从上述视频数据中分析得到用户的表情信息。

其中，上述用户的表情信息用于标识用户的情绪。

可选的，上述用户的表情信息可以为用户的表情类型，用户的表情类型例如可以包括喜、怒、哀、乐以及无表情，其中，无表情表示用户当前没有表现出某一种特定的情绪，即没有感情色彩。

S503、根据上述表情信息以及上述交互请求语音得到交互应答语音。

作为一种可选的方式，处理服务器可以根据上述交互请求语音的内容确定交互应答语音的内容，再根据上述表情信息确定交互应答语音的音频特性。

示例性的，用户在用户终端输入的交互请求语音的内容为“谢谢”，则处理服务器根据该内容，确定交互应答语音的内容“不客气”。进而，处理服务器再根据上述表情信息确定“不客气”的音频特性，即具体使用哪一种语调来表达“不客气”这个内容。

作为另一种可选的方式，处理服务器可以同时根据上述表情信息以及上述交互请求语音确定交互应答语音的内容，并根据上述表情信息确定交互应答语音的音频特性。

具体的，针对相同的交互请求语音，在不同的表情信息下所要反馈的交互应答语音的内容并不相同。示例性的，假设用户的交互请求语音为“谢谢”，如果用户在输入该语音时的表情为“喜”，则交互应答语音的内容可以为“感谢您的认可”，如果用户在输入该语音时的表情为“怒”，则交互应答语音的内容可以为“您是否对服务不满意”。进而再继续根据表情信息确定交互应答语音的音频特性。

S504、向上述用户终端发送上述交互应答语音，以使上述用户终端向上述用户播放上述交互应答语音。

本实施例中，处理服务器根据用户向用户终端输入交互请求语音时的视频数据，从视频数据中分析出用户的表情信息，进而根据表情信息以及用户输入的交互请求语音生成交互应答语音，从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩，使得人机交互过程不再单调，极大提升用户的使用体验。

在上述实施例的基础上，本实施例涉及处理服务器从视频数据中分析得到用户的表情信息的具体方法。

图6为本发明实施例提供的人机交互处理方法实施例四的流程示意图，如图6所示，上述步骤S502包括：

S601、从上述视频数据中获取关键人脸图像。

其中，上述关键人脸图像可以为图像质量较好、清晰度较高以及包含了完整人脸轮廓的图像。

可选的，上述关键人脸图像可以为一幅，也可以为多幅。

S602、对上述关键人脸图像进行表情识别，得到上述用户的表情信息。

在一种可选的方式中，处理服务器可以通过特定的预测模型服务器来进行表情识别。

在另一种可选的方式中，处理服务器也可以通过对关键人脸图像中的关键像素点进行判断来识别表情信息。其中，该关键像素点可以指嘴部或眼部等关键部位所对应的像素点，通过对这些关键像素点的分析可以得出用户当前的表情信息。

在上述实施例的基础上，本实施例涉及通过预测模型服务器进行表情识别的过程。

图7为本发明实施例提供的人机交互处理方法实施例五的流程示意图，如图7所示，上述步骤S602包括：

S701、向预测模型服务器发送包含上述关键人脸图像的表情分类请求，以使该预测模型服务器对上述关键人脸图像进行表情识别，得到上述用户的表情信息。

S702、接收上述预测模型服务器发送的所述用户的表情信息。

可选的，上述预测模型服务器中加载了一个或多个人脸表情识别模型的实例，该人脸表情识别模型可以为卷积神经网络模型，该人脸表情识别模型预先经过大量的全网训练数据进行了训练。并且持续通过新的训练数据进行模型更新。

可选的，上述人脸表情识别模型的输入可以为上述的关键人脸图像，输出可以为该关键人脸图像对应的表情类型信息。示例性的，上述人脸表情识别模型输出的表情类型可以为0，1，2，3，4，5。其中，0代表无感情色彩，1代表喜，2代表怒，3代表哀，4代表乐。

可选的，上述人脸表情识别模型可以由卷积层、池化层、全连层接等组成。其中，卷积层利用权值不同的卷积核对原始的人脸图像或特征图进行扫描卷积，从中提取各种意义的特征，并输出至特征图中。池化层对特征图进行降维操作，保留特征图中的主要特征，从而可以对人脸图像的变形、模糊、光照变化等具有较高的鲁棒性，另外对于分类任务具有更高的可泛化性。

如前所述，上述预测模型服务器中加载了一个或多个人脸表情识别模型的实例。在具体实施过程中，根据实际需要，可以对预测模型服务器的数量以及预测模型服务器上的人脸表情识别模型的数量进行灵活设置。

一种示例中，可以设置一个预测模型服务器，在该预测模型服务器上部署多个人脸表情识别模型的实例。

另一种示例中，可以设置多个预测模型服务器，在每个预测模型服务器上部署一个人脸表情识别模型的实例。

再一种示例中，可以设置多个预测模型服务器，在每个预测模型服务器上部署多个人脸表情识别模型的实例。

可选的，无论采用上述哪一种部署方式，处理服务器在向预测模型服务器发送表情分类请求时，都可以根据负载均衡策略，向存在处理资源的预测模型服务器发送包含上述关键人脸图像的表情分类请求。

示例性的，假设上述第三种示例中的部署方式，则处理服务器首先获取每个预测模型服务器上的每个人脸表情识别模型实例的负载状态，进而，处理服务器选择当前资源占用率最低的预测模型服务器上的状态为空闲的人脸表情识别模型实例。

如前所述，处理服务器从视频数据中获取的关键人脸图像可以为一幅，也可以为多幅。当获取的关键人脸图像为一幅时，直接将该关键人脸图像发送给预测模型服务器以确定该关键人脸图像对应的表情信息。当获取的关键人脸图像为多幅时，可选的，可以将每一幅关键人脸图像输入到人脸表情识别模型中，得到与每一幅关键人脸图像对应的表情信息，进而，对全部关键人脸图像对应的表情信息进行加权处理，得到用户的表情信息。

示例性的，处理服务器根据每幅关键人脸图像的图像质量等确定每幅关键人脸图像的权值，进而，针对每幅关键人脸图像获取其对应的表情信息，进而，将每幅关键人脸图像对应的表情信息与其对应的权值相乘，并将结果相加，从而得到用户的表情信息。

在上述实施例的基础上，本实施例涉及处理服务器根据表情信息以及交互请求语音得到交互应答语音的过程。

图8为本发明实施例提供的人机交互处理方法实施例六的流程示意图，如图8所示，上述步骤S503包括：

S801、对上述交互请求语音进行语音识别，得到请求语音文本。

S802、根据上述请求语音文本以及上述表情信息，得到交互应答语音。

其中，上述交互应答语音的语音内容与上述表情信息对应，和/或，上述交互应答语音的音频特性与上述表情信息对应。

可选的，处理服务器在接收到上述交互请求语音后，对上述交互请求语音进行转化，得到该交互请求语音对应的请求语音文本。进而，根据得到的请求语音文本以及由上述过程所得到的表情信息，确定交互应答语音。

可选的，可以参照上述步骤S503所述的方式确定交互应答语音，即，一种可选方式下，交互应答语音的音频特性可以与上述表情信息对应，即可以根据表情信息确定交互应答语音的音频特性。另一种可选方式下，交互应答语音的语音内容以及交互应答语音的音频特性都与上述表情信息对应，即可以同时根据上述表情信息以及上述交互请求语音所转化的请求语音文本确定交互应答语音的内容，并根据上述表情信息确定交互应答语音的音频特性。

可选的，处理服务器可以通过预先训练好的表情语音模型确定交互应答语音。示例性的，将上述表情信息以及应答文本输入到该表情语音模型中，其中，应答文本可以根据交互请求文本得到，进而，表情语音模型会输出带有感情色彩的交互应答语音。

图9为本发明实施例提供的一种人机交互处理装置实施例一的模块结构图，如图9所示，该装置包括：

接收模块901，用于接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据。

获取模块902，用于获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的。

输出模块903，用于向所述用户输出所述交互应答语音。

该装置用于实现前述用户终端对应的方法实施例，其实现原理和技术效果类似，此处不再赘述。

进一步的，接收模块901具体用于：

图10为本发明实施例提供的一种人机交互处理装置实施例二的模块结构图，如图10所示，获取模块902包括：

发送单元9021，用于向处理服务器发送所述交互请求语音以及所述视频数据，以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息，并根据所述表情信息以及所述交互请求语音得到所述交互应答语音。

接收单元9022，用于接收所述处理服务器反馈的所述交互应答语音。

图11为本发明实施例提供的另一种人机交互处理装置实施例一的模块结构图，如图11所示，该装置包括：

接收模块1101，用于接收用户终端发送的交互请求语音以及视频数据，所述交互请求语音为用户在所述用户终端上输入的，所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的。

分析模块1102，用于从所述视频数据中分析得到所述用户的表情信息。

处理模块1103，用于根据所述表情信息以及所述交互请求语音得到交互应答语音。

发送模块1104，用于向所述用户终端发送所述交互应答语音，以使所述用户终端向所述用户播放所述交互应答语音。

该装置用于实现前述处理服务器对应的方法实施例，其实现原理和技术效果类似，此处不再赘述。

图12为本发明实施例提供的另一种人机交互处理装置实施例二的模块结构图，如图12所示，分析模块1102包括：

获取单元11021，用于从所述视频数据中获取关键人脸图像。

第一识别单元11022，用于对所述关键人脸图像进行表情识别，得到所述用户的表情信息。

进一步的，第一识别单元11022具体用于：

接收所述预测模型服务器发送的所述用户的表情信息。

进一步的，第一识别单元11022具体用于：

图13为本发明实施例提供的另一种人机交互处理装置实施例三的模块结构图，如图13所示，处理模块1103包括：

第二识别单元11031，用于对所述交互请求语音进行语音识别，得到请求语音文本。

处理单元11032，用于根据所述请求语音文本以及所述表情信息，得到交互应答语音。

图14为本发明实施例提供的一种用户终端的实体框图，如图14所示，该用户终端包括：

存储器1401，用于存储程序指令。

处理器1402，用于调用并执行存储器1401中的程序指令，执行上述方法实施例中用户终端所涉及的方法步骤。

图15为本发明实施例提供的一种处理服务器的实体框图，如图15所示，该处理服务器包括：

存储器1501，用于存储程序指令。

处理器1502，用于调用并执行存储器1501中的程序指令，执行上述方法实施例中处理服务器所涉及的方法步骤。

本发明实施例还提供一种人机交互处理系统，该系统包括上述的用户终端以及上述的处理服务器。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种人机交互处理方法，其特征在于，包括：

向所述用户输出所述交互应答语音。

2.根据权利要求1所述的方法，其特征在于，所述采集获取所述用户输入的交互请求语音时的视频数据，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的，包括：

接收所述处理服务器反馈的所述交互应答语音。

4.根据权利要求1或2所述的方法，其特征在于，所述交互应答语音的语音内容与所述表情信息对应，和/或，所述交互应答语音的音频特性与所述表情信息对应。

5.一种人机交互处理方法，其特征在于，包括:

从所述视频数据中分析得到所述用户的表情信息；

6.根据权利要求5所述的方法，其特征在于，所述从所述视频数据中分析得到所述用户的表情信息，包括：

从所述视频数据中获取关键人脸图像；

7.根据权利要求6所述的方法，其特征在于，所述对所述关键人脸图像进行表情识别，得到所述用户的表情信息，包括：

接收所述预测模型服务器发送的所述用户的表情信息。

8.根据权利要求7所述的方法，其特征在于，所述向预测模型服务器发送包含所述关键人脸图像的表情分类请求，包括：

9.根据权利要求6-8中任一项所述的方法，其特征在于，所述对所述关键人脸图像进行表情识别，得到所述用户的表情信息，包括：

10.根据权利要求6-8中任一项所述的方法，其特征在于，所述根据所述表情信息以及所述交互请求语音得到交互应答语音，包括：

对所述交互请求语音进行语音识别，得到请求语音文本；

11.一种人机交互处理装置，其特征在于，包括：

输出模块，用于向所述用户输出所述交互应答语音。

12.根据权利要求11所述的装置，其特征在于，所述接收模块具体用于：

13.根据权利要求11或12所述的装置，其特征在于，所述获取模块包括：

14.根据权利要求11或12所述的装置，其特征在于，所述交互应答语音的语音内容与所述表情信息对应，和/或，所述交互应答语音的音频特性与所述表情信息对应。

15.一种人机交互处理装置，其特征在于，包括：

16.根据权利要求15所述的装置，其特征在于，所述分析模块包括：

获取单元，用于从所述视频数据中获取关键人脸图像；

17.根据权利要求16所述的装置，其特征在于，所述第一识别单元具体用于：

接收所述预测模型服务器发送的所述用户的表情信息。

18.根据权利要求17所述的装置，其特征在于，所述第一识别单元具体用于：

19.根据权利要求16-18任一项所述的装置，其特征在于，所述第一识别单元具体用于：

20.根据权利要求16-18任一项所述的装置，其特征在于，所述处理模块包括：

21.一种用户终端，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行权利要求1-4任一项所述的方法步骤。

22.一种处理服务器，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行权利要求5-10任一项所述的方法步骤。

23.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序用于执行权利要求1-4任一项或者权利要求5-10任一项所述的方法步骤。

24.一种人机交互处理系统，其特征在于，包括权利要求21所述的用户终端以及权利要求22所述的处理服务器。