CN113434647B

CN113434647B - 一种人机交互方法、系统及存储介质

Info

Publication number: CN113434647B
Application number: CN202110679528.6A
Authority: CN
Inventors: 简仁贤; 李冠兴
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2024-01-12
Anticipated expiration: 2041-06-18
Also published as: CN113434647A

Abstract

本发明实施例公开了一种人机交互方法、系统及存储介质，方法包括：获取用户的人脸图像和语音输入；对所述人脸图像和语音输入分别进行处理，以获取用户面部情绪、用户语音情绪、用户文字情绪和语意意图；根据所述用户面部情绪、用户语音情绪、用户文字情绪确认用户情绪；根据所述用户情绪和语意意图生成回复文本。实施本申请的人机交互方法，机器人在与用户进行对话交流时，利用不同的模态组合进行互动，多方面考虑了用户面部情绪、用户语音情绪、用户文字情绪，最终确认出用户在进行当前对话时的用户情绪，根据用户情绪生成有情感的回覆文本对用户进行答复，进而从整体上提高人机互动的自然度与真实度，提高用户体验度。

Description

一种人机交互方法、系统及存储介质

技术领域

本发明涉及计算机软件技术领域，具体涉及一种人机交互方法、系统及存储介质。

背景技术

在现有的人工智能对话系统中，利用语料库以及模板来判断用户的对话内容，并生成回复文本进行回答。但对话系统该在与用户进行对话的过程中，没有结合用户表达的情绪来调整回答策略，给出符合用户当前情绪的回答。

在人与人的自然对话上，情绪是一个重要因素，人类会根据对方表达时的情绪来调整自己的回答策略，达到沟通的效果。

因此，现有技术中的缺陷是，在人工智能对话过程中，机器人不能结合用户情绪与用户进行交互，使机器人不能根据用户情绪给出符合该情绪下的回答，容易造成机器人与用户交流不自然，使用户体验度低。

发明内容

针对现有技术中的技术缺陷，本发明实施例的目的在于提供一种人机交互方法、系统及存储介质，以解决背景技术中所提出的技术问题。

为实现上述目的，第一方面，本发明实施例提供了一种人机交互方法，包括：

获取用户的人脸图像和语音输入；

对所述人脸图像和语音输入分别进行处理，以获取用户面部情绪、用户语音情绪、用户文字情绪和语意意图；

根据所述用户面部情绪、用户语音情绪、用户文字情绪确认用户情绪；

根据所述用户情绪和语意意图生成回复文本。

可选的，所述对所述人脸图像和语音输入分别进行处理，以获取用户面部情绪、用户语音情绪、用户文字情绪和语意意图，具体包括：

调用预设的面部情绪识别模型对所述人脸图像进行处理，获取所述用户面部情绪；

调用预设的语音特征提取模型提取所述语音输入的语音特征；

调用预设的语音情绪识别模型对所述语音特征进行处理，获取所述用户语音情绪；

调用预设的语音识别模型将所述语音输入转换为文本文字；

调用预设的文字情绪识别模型对所述文本文字进行处理，获取所述用户文字情绪；

调用预设的自然语言理解模型对所述文本文字进行处理，获取所述语意意图。

可选的，所述调用预设的面部情绪识别模型对所述人脸图像进行处理，获取所述用户面部情绪，具体包括：

所述面部情绪识别模型对所述人脸图像进行处理，对预设的各种面部情绪进行打分，其中，预设的面部情绪包括“中性”、“幸福”、“悲伤”、“惊讶”、“恐惧”、“厌恶”、“愤怒”、“轻蔑”、“困惑”；

将分值最高的面部情绪作为所述用户面部情绪。

可选的，所述调用预设的语音情绪识别模型对所述语音特征进行处理，获取所述用户语音情绪，具体包括：

所述语音情绪识别模型对所述语音特征进行处理，对预设的各种语音情绪进行打分，其中，预设的语音情绪包括：“中性”、“愤怒”；

将分值最高的语音情绪作为所述用户语音情绪。

可选的，所述调用预设的文字情绪识别模型对所述文本文字进行处理，获取所述用户文字情绪，具体包括：

所述文字情绪识别模型对所述文本文字进行处理，对预设的各种文字情绪进行打分，其中，预设的文字情绪包括：“中性”、“愤怒”、“幸福”、“悲伤”、“困惑”、“疲惫”、“焦虑”、“冷漠”；

将分值最高的文字情绪作为所述用户文字情绪。

可选的，每种面部情绪的分值取值范围为[0,1]；

每种语音情绪的分值取值范围为[0,1]；

每种文字情绪的分值取值范围为[0,1]。

可选的，根据所述用户面部情绪、用户语音情绪、用户文字情绪确认用户情绪，具体包括：

若用户面部情绪、用户语音情绪和用户文字情绪均为第一情绪，则将所述第一情绪作为所述用户情绪；或者，

若用户面部情绪、用户语音情绪和用户文字情绪中有两个是第二情绪、另一个是第三情绪，且所述第二情绪为“愤怒”、“幸福”或“悲伤”中的一种，则将所述第二情绪作为所述用户情绪；或者，

若用户面部情绪、用户语音情绪和用户文字情绪中有两个是第二情绪、另一个是第三情绪，且所述第二情绪为“中性”，则将所述第三情绪作为所述用户情绪；或者，

若用户面部情绪、用户语音情绪和用户文字情绪均不相同，且所述用户面部情绪不是“中性”，则将所述用户面部情绪作为所述用户情绪；或者，

若用户面部情绪、用户语音情绪和用户文字情绪均不相同，且所述用户面部情绪为“中性”，则比较所述用户语音情绪和用户文字情绪的分值大小，若所述用户语音情绪和用户文字情绪的分值大小相等，则将所述用户语音情绪作为所述用户情绪；若所述用户语音情绪和用户文字情绪的分值大小不同，将分值大的情绪作为所述用户情绪。

可选的，在获取用户的人脸图像和语音输入之后，所述方法还包括：

调用预设的声纹辨识模型对所述语音输入进行处理，获取用户身份特征；

响应符合用户身份特征的语音输入。

第二方面，本申请还提供了一种人机互动系统，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面所述的方法。

第三方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。

本发明的有益效果体现在：

实施本申请的人机交互方法，机器人在与用户进行对话交流时，利用不同的模态组合进行互动，多方面考虑了用户面部情绪、用户语音情绪、用户文字情绪，最终确认出用户在进行当前对话时的用户情绪，根据用户情绪生成有情感的回覆文本对用户进行答复，进而从整体上提高人机互动的自然度与真实度，提高用户体验度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的人机交互方法的流程示意图；

图2是本发明实施例提供的人机交互装置的结构示意图；

图3是本发明实施例提供的人机交互系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

请参见图1，其示出了一种人机交互方法的方法流程图，该方法可以运行在机器人的处理器或者后台服务器中，使机器人能够更加自然地与用户进行人机交互对话，本实施例中，机器人可以是利用虚拟技术合成的虚拟机器人，也可以是具有实体的实物机器人。该机互动方法可以包括如下步骤：

S100：获取用户的人脸图像和语音输入。

用户想要与机器人进行对话时，会向机器人进行语言输入，或者机器人可以提示引导用户开始对话。本实施例中，可以通过麦克风采集用户的语音输入，通过摄像头采集用户的人脸图像并采集面部特征点。

S200：对所述人脸图像和语音输入分别进行处理，以获取用户面部情绪、用户语音情绪、用户文字情绪和语意意图。

在获取到用户的人脸图像和语音输入后，机器人的处理器或者后台服务器中会对采集的人脸图像和语音输入分别进行处理，具体包括：

S201：调用预设的面部情绪识别模型对所述人脸图像进行处理，获取所述用户面部情绪。

所述面部情绪识别模型由卷积神经网络模型训练得到。将人脸图像输入到所述面部情绪识别模型中，所述面部情绪识别模型对所述人脸图像进行处理后，对预设的各种面部情绪进行打分，其中，预设的面部情绪包括“中性”、“幸福”、“悲伤”、“惊讶”、“恐惧”、“厌恶”、“愤怒”、“轻蔑”、“困惑”，将分值最高的面部情绪作为所述用户面部情绪。

每种面部情绪的分值实质是用户为该种面部情绪的几率。本实施例中，每种面部情绪的分值取值范围为[0,1]。在一次面部情绪判断中，所有种类的面部情绪的分值之和为1，每种面部情绪的分值精确到小数点后5位，使判断更加精准。S202：调用预设的语音特征提取模型提取所述语音输入的语音特征。

所述语音特征提取模型由卷积神经网络模型训练得到。将语音输入输入到所述语音特征提取模型中，所述语音特征提取模型对所述语音输入进行处理后提取出语音特征。

S203：调用预设的语音情绪识别模型对所述语音特征进行处理，获取所述用户语音情绪。

所述语音情绪识别模型由卷积神经网络模型训练得到。将语音特征输入到所述语音情绪识别模型中，所述语音情绪识别模型对所述语音特征进行处理后，对预设的各种语音情绪进行打分，其中，预设的语音情绪包括：“中性”、“愤怒”；将分值最高的语音情绪作为所述用户语音情绪。

每种语音情绪的分值实质是用户为该种语音情绪的几率。本实施例中，每种语音情绪的分值取值范围为[0,1]。在一次语音情绪判断中，所有种类的语音情绪的分值之和为1，每种语音情绪的分值精确到小数点后5位，使判断更加精准。

S204：调用预设的语音识别模型将所述语音输入转换为文本文字。

语音识别模型利用语音识别技术将语音输入转换为文本文字，供后续处理。

S205：调用预设的文字情绪识别模型对所述文本文字进行处理，获取所述用户文字情绪。

所述文字情绪识别模型由卷积神经网络模型训练得到。将文本文字输入到所述文字情绪识别模型，所述文字情绪识别模型对输入的文本文字进行处理后，对预设的各种文字情绪进行打分，其中，预设的文字情绪包括：“中性”、“愤怒”、“幸福”、“悲伤”、“困惑”、“疲惫”、“焦虑”、“冷漠”；将分值最高的文字情绪作为所述用户文字情绪。

每种文字情绪的分值实质是用户为该种文字情绪的几率。本实施例中，每种文字情绪的分值取值范围为[0,1]。在一次文字情绪判断中，所有种类的文字情绪的分值之和为1，每种文字情绪的分值精确到小数点后5位，使判断更加精准。

S206：调用预设的自然语言理解模型对所述文本文字进行处理，获取所述语意意图。

自然语言理解模型利用自然语音理解技术对输入的文本文字进行处理，获取用户的语意意图。

S300：根据所述用户面部情绪、用户语音情绪、用户文字情绪确认用户情绪。

由于户面部情绪、用户语音情绪、用户文字情绪三种情绪可以相同也可以各不相同，或者其中有两种情绪相同，需要根据这三种情绪对用户情绪做出判断。

具体的，根据所述用户面部情绪、用户语音情绪、用户文字情绪确认用户情绪，可以包括以下几种情况：

第一种：若用户面部情绪、用户语音情绪和用户文字情绪均为第一情绪，则将所述第一情绪作为所述用户情绪。

例如，若用户面部情绪、用户语音情绪和用户文字情绪这三种情绪均为“中性”，或者这三种情绪均为“愤怒”，那么可以确定用户情绪也为“中性”或者“愤怒”。

第二种：若用户面部情绪、用户语音情绪和用户文字情绪中有两个是第二情绪、另一个是第三情绪，且所述第二情绪为“愤怒”、“幸福”或“悲伤”中的一种，则将所述第二情绪作为所述用户情绪。

第三种：若用户面部情绪、用户语音情绪和用户文字情绪中有两个是第二情绪、另一个是第三情绪，且所述第二情绪为“中性”，则将所述第三情绪作为所述用户情绪。

例如，用户面部情绪、用户语音情绪均为“中性”，用户文字情绪为“幸福”，则将“幸福”作为用户情绪。

第四种：若用户面部情绪、用户语音情绪和用户文字情绪均不相同，且所述用户面部情绪不是“中性”，则将所述用户面部情绪作为所述用户情绪。

第五种：若用户面部情绪、用户语音情绪和用户文字情绪均不相同，且所述用户面部情绪为“中性”，则比较所述用户语音情绪和用户文字情绪的分值大小，若所述用户语音情绪和用户文字情绪的分值大小相等，则将所述用户语音情绪作为所述用户情绪；若所述用户语音情绪和用户文字情绪的分值大小不同，将分值大的情绪作为所述用户情绪。

S400：根据所述用户情绪和语意意图生成回复文本。

在确认用户情绪和语意意图后，调用对话管理模块，对话管理模块根据对话历史信息、用户情绪和语意意图生成有情感的回覆文本对用户进行答复。

由于在用户与机器人进行交互的过程中，有可能会有其他人发出的杂音干扰人机对话的正常进行，因此，机器人在与用户进行语音交互的过程中，需要确认用户的身份，避免其他人的声音对语音交互造成干扰。

因此，可选的，在获取用户的人脸图像和语音输入之后，所述方法还包括：

响应符合用户身份特征的语音输入。

由于每个人的声纹特征不同，通过声纹辨识模型识别出用户的声纹特征后，将该声纹特征作为用户的身份特征，确保对话管理模块每次回复的都是用户的语音输入，这样就能保住机器人在嘈杂的环境中也能与用户进行正常语音沟通和交互。

基于相同的发明构思，本申请实施例还提供了一种人机交互装置。如图2所示，该人机交互装置可以包括：

获取模块301，用于获取用户的人脸图像和语音输入；

处理模块302，用于对所述人脸图像和语音输入分别进行处理，以获取用户面部情绪、用户语音情绪、用户文字情绪和语意意图；

情绪确认模块303，用于根据所述用户面部情绪、用户语音情绪、用户文字情绪确认用户情绪；以及，

回复模块304，用于根据所述用户情绪和语意意图生成回复文本。

本申请的人机交互装置在与用户进行对话交流时，利用不同的模态组合进行互动，多方面考虑了用户面部情绪、用户语音情绪、用户文字情绪，最终确认出用户在进行当前对话时的用户情绪，根据用户情绪生成有情感的回覆文本对用户进行答复，进而从整体上提高人机互动的自然度与真实度，提高用户体验度。

基于相同的发明构思，本发明实施例提供一种人机交互系统。如图3所示，该系统可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行人机交互方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的人机交互方法的实施例中所描述的实现方式，在此不再赘述。

需要说明的是，关于人机交互系统的具体工作流程，可参考前述方法实施例部分，在此不再赘述。

进一步地，本发明实施例还提供了一种可读存储介质，存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：上述人机交互方法。

所述计算机可读存储介质可以是前述实施例所述的后台服务器的内部存储单元，例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备，例如所述系统上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种人机交互方法，其特征在于，包括：

获取用户的人脸图像和语音输入；

根据所述用户情绪和语意意图生成回复文本；

其中，根据所述用户面部情绪、用户语音情绪、用户文字情绪确认用户情绪，具体包括：

若用户面部情绪、用户语音情绪和用户文字情绪均不相同，且所述用户面部情绪为“中性”，则比较所述用户语音情绪和用户文字情绪的分值大小，若所述用户语音情绪和用户文字情绪的分值大小相等，则将所述用户语音情绪作为所述用户情绪；若所述用户语音情绪和用户文字情绪的分值大小不同，将分值大的情绪作为所述用户情绪；

所述对所述人脸图像和语音输入分别进行处理，以获取用户面部情绪、用户语音情绪、用户文字情绪和语意意图，具体包括：

调用预设的语音识别模型将所述语音输入转换为文本文字；

调用预设的自然语言理解模型对所述文本文字进行处理，获取所述语意意图；

所述调用预设的面部情绪识别模型对所述人脸图像进行处理，获取所述用户面部情绪，具体包括：

将分值最高的面部情绪作为所述用户面部情绪；

每种面部情绪的分值取值范围为[0,1]；在一次面部情绪判断中，所有种类的面部情绪的分值之和为1，每种面部情绪的分值精确到小数点后5位；

所述调用预设的语音情绪识别模型对所述语音特征进行处理，获取所述用户语音情绪，具体包括：

将分值最高的语音情绪作为所述用户语音情绪；

每种语音情绪的分值取值范围为[0,1]；在一次语音情绪判断中，所有种类的语音情绪的分值之和为1，每种语音情绪的分值精确到小数点后5位；

所述调用预设的文字情绪识别模型对所述文本文字进行处理，获取所述用户文字情绪，具体包括：

将分值最高的文字情绪作为所述用户文字情绪；

每种文字情绪的分值取值范围为[0,1]；在一次文字情绪判断中，所有种类的文字情绪的分值之和为1，每种文字情绪的分值精确到小数点后5位。

2.根据权利要求1所述的一种人机交互方法，其特征在于，在获取用户的人脸图像和语音输入之后，所述方法还包括：

响应符合用户身份特征的语音输入。

3.一种人机互动系统，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-2任一项所述的方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-2任一项所述的方法。