CN108255307A

CN108255307A - 基于多模态情绪与脸部属性识别的人机交互方法、系统

Info

Publication number: CN108255307A
Application number: CN201810130305.2A
Authority: CN
Inventors: 简仁贤; 许世焕; 卞雅雯; 杨闵淳
Original assignee: Intelligent Technology (shanghai) Co Ltd
Current assignee: Intelligent Technology (shanghai) Co Ltd
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2018-07-06
Also published as: TW201935272A

Abstract

本发明属于人机交互技术领域，提供了一种基于多模态情绪与脸部属性识别的人机交互方法、系统。该方法包括获取用户的人脸图像和声音信息，将声音信息转换为文字信息，根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量，根据人脸图像，确定人脸属性特征，根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字。本发明基于多模态情绪与脸部属性识别的人机交互方法、系统，能够全面识别人脸属性，提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，提供更加自然与智能的人机交互体验。

Description

基于多模态情绪与脸部属性识别的人机交互方法、系统

技术领域

本发明涉及人机交互技术领域，具体涉及一种基于多模态情绪与脸部属性识别的人机交互方法、系统。

背景技术

现有技术中主要通过实时检测与机器交互的用户脸部情绪、脸部属性等，根据交互原则触发与该用户属性特征、情绪状态匹配的引导式回话策略，让机器能实时、主动提供与用户当前状态相符的对话反馈与服务内容。其中，脸部属性包括人脸客户物理特性和主观物理特性，人脸客户物理特性可以是性别、用户身份、是否戴眼镜、是否有无胡子、有无痘痘等，主观物理特性可以是年纪、颜值、情绪表现等。

但是，在实际应用过程中，现有技术也存在诸多弊端，具体如下：

第一，在传统人机交互系统中，通过两种不同的算法并决策机器视觉技术识别和自然语言交互的识别，在中枢控制系统中没有运算模组，能够将两种交互识别结果进行结合并作出决策；

第二，在传统人机交互系统中，机器对参与交互的用户必须借助外部操作唤醒，例如定制词汇的语音唤醒，而非主动交互的，并没有通过机器视觉技术实时而主动的侦测结果，定制令机器主动与用户交互的解决方案。

如何全面识别人脸属性，提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，提供更加自然与智能的人机交互体验，是本领域技术人员亟需解决的问题。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于多模态情绪与脸部属性识别的人机交互方法、系统，能够全面识别人脸属性，提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，提供更加自然与智能的人机交互体验。

第一方面，本发明提供一种基于多模态情绪与脸部属性识别的人机交互方法，该方法包括：获取用户的人脸图像和声音信息；

将声音信息转换为文字信息；

根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量；

根据人脸图像，确定人脸属性特征；

根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字。

进一步地，输出回馈文字之后，该方法还包括：

将回馈文字转换为语音信息。

基于上述任意基于多模态情绪与脸部属性识别的人机交互方法实施例，进一步地，分析情绪向量、人脸属性特征和文字信息之前，该方法还包括：

根据情绪向量的时间顺序和人脸属性特征，在语料库中确定对应的语料数据，进行输出。

基于上述任意基于多模态情绪与脸部属性识别的人机交互方法实施例，进一步地，根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量，具体包括：

根据人脸图像、声音信息和文字信息，采用机器/深度学习算法，对情绪进行判别，确定情绪向量。

进一步地，情绪向量为四个。

基于上述任意基于多模态情绪与脸部属性识别的人机交互方法实施例，进一步地，将声音信息转换为文字信息之后，根据人脸图像、声音信息和文字信息，对情绪进行判别之前，该方法还包括：

校正检验文字信息；

根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量，具体包括：

根据人脸图像、声音信息和校正检验后的文字信息，对情绪进行判别，确定情绪向量；

根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字，具体包括：

根据回话策略，分析情绪向量、人脸属性特征和校正检验后的文字信息，输出回馈文字。

基于上述任意基于多模态情绪与脸部属性识别的人机交互方法实施例，进一步地，输出回馈文字之前，该方法还包括：

搜索用户的用户体验数据；

根据回话策略，分析情绪向量、人脸属性特征、文字信息和用户体验数据，从语料库中匹配目标语料数据，作为回馈文字，进行输出。

第二方面，本发明提供一种基于多模态情绪与脸部属性识别的人机交互系统，该系统包括输入模块、ASR模块、情绪模块、人脸属性识别模块和对话模块，输入模块用于获取用户的人脸图像和声音信息；ASR模块用于将声音信息转换为文字信息；情绪模块用于根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量；人脸属性识别模块用于根据人脸图像，确定人脸属性特征；对话模块用于根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字。

进一步地，该系统还包括：语音TTS模块，用于将回馈文字转换为语音信息。

基于上述任意基于多模态情绪与脸部属性识别的人机交互系统实施例，进一步地，该系统还包括：观察模块，用于根据情绪向量的时间顺序和人脸属性特征，在语料库中确定对应的语料数据，进行输出。

由上述技术方案可知，本实施例提供的基于多模态情绪与脸部属性识别的人机交互方法、系统，能够对人脸属性进行全面识别，并且，通过声音和图像两个方面的信息，提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，针对人脸多模态情感、人脸属性识别与人机交互应对规则的逻辑判断输出适切的回话内容，在多轮对话当中，提供使用者良好的体验功能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明所提供的一种基于多模态情绪与脸部属性识别的人机交互方法的方法流程图；

图2示出了本发明所提供的一种基于多模态情绪与脸部属性识别的人机交互系统的连接示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

本发明实施例所提供的基于多模态情绪与脸部属性识别的人机交互方法、系统，透过设计交互平台，如网页、APP程序等，整合自然语言理解与语音辨识系统，针对人脸多模态情感、人脸属性识别与人机交互应对规则的逻辑判断输出适切的回话内容，在多轮对话当中，提供使用者良好的体验功能。在线下客服、导购等应用场景中提供更高的服务价值。

第一方面，本发明实施例所提供的一种基于多模态情绪与脸部属性识别的人机交互方法，结合图1，该方法包括：

步骤S1，获取用户的人脸图像和声音信息。在实际应用过程中，使用者以主动或被动方式，向机器发出实时影像及声音，机器主动收集用户人脸与声音讯息，具体透过摄像头接收影像信息，通过麦克风接收声音信息。

步骤S2，将声音信息转换为文字信息。

步骤S3，根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量。通过图像技术与自然语言交互技术，构建人机交互中用户情绪理解的多模态情感反馈模型，实现人机交互的情感模式。

步骤S4，根据人脸图像，确定人脸属性特征。在此，提供22种人脸一般属性特征、15种肤质属性特征，属性的种类与应用不限于本发明所提的37种属性特征。

步骤S5，根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字。

由上述技术方案可知，本实施例提供的基于多模态情绪与脸部属性识别的人机交互方法，能够对人脸属性进行全面识别，并且，通过声音和图像两个方面的信息，提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，针对人脸多模态情感、人脸属性识别与人机交互应对规则的逻辑判断输出适切的回话内容，在多轮对话当中，提供使用者良好的体验功能。

为了进一步提高本实施例基于多模态情绪与脸部属性识别的人机交互方法的用户体验，输出回馈文字之后，该方法还包括：将回馈文字转换为语音信息，例如，将回馈文字转换为语音讯号，并由语音播放装置输出语音回馈，提高人机交互效率和使用者的用户体验。

本实施例基于多模态情绪与脸部属性识别的人机交互方法还具备开启新对话的功能，即分析情绪向量、人脸属性特征和文字信息之前，该方法还包括：根据情绪向量的时间顺序和人脸属性特征，在语料库中确定对应的语料数据，进行输出。

例如，在预设时间内无主动响应的情况时，该方法会根据先前收集到时间序的情绪数据与人脸属性数据选择对应的语料数据，主动式的提问使用者。而当使用者打断机器的响应时，机器会随时中断进入聆听模式，以提高用户的交互体验。通过摄像头捕捉到用户的特殊属性，进行主动交互服务，缩短交互流程与沟通成本，优化多轮对话的交互体验，减少常态下导购流程及步骤，缩减人力成本与资源，缩短信息鸿沟，提高交互效率。

例如，在零售场景中，智能的机器销售助理通过摄像头检测到用户的属性为：女，26岁，长发，金色头发，则推荐其适合柔顺修复型洗发产品，若检测到情绪为正面情绪，机器人将继续推荐并介绍该品类相关商品，如护发素或促销活动礼盒等。

若机器人通过摄像头检测到用户的属性为：男，47岁，有络腮胡，且线上购买过某品牌剃须刀，则推荐其使用润肤功能的须后水，若检测到情绪为负面情绪，则机器人通过该用户其他购买信息或通过主动安慰询问的方式，与用户作进一步沟通与分析。

通过用户的情感理解、人脸属性识别与自然语言理解等综合功能的智能交互系统能为商业应用带来更高的价值。

为了进一步提高本实施例基于多模态情绪与脸部属性识别的人机交互方法的准确性，在确定情绪向量时，根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量，具体采用的算法为机器/深度学习算法，即根据人脸图像、声音信息和文字信息，采用机器/深度学习算法，对情绪进行判别，确定情绪向量，其中，情绪向量为四个。

本发明实施例基于多模态情绪与脸部属性识别的人机交互方法提供九种情绪的机率预测向量输出，但情绪识别种类不限于本发明实施例基于多模态情绪与脸部属性识别的人机交互方法所提的九种。另外，亦根据三个模态的模型输出的向量特征做融合，以达到综合多模态情感的预测。因此在本发明实施例基于多模态情绪与脸部属性识别的人机交互方法中，我们一共有四个输出的情绪向量。

具体地，本发明实施例基于多模态情绪与脸部属性识别的人机交互方法还具备错字校正检验的功能，将声音信息转换为文字信息之后，根据人脸图像、声音信息和文字信息，对情绪进行判别之前，该方法还能够校正检验文字信息，维持输出信号的准确性，以提高情绪判断和对话回馈的预测效果。

根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量时，具体实现过程为：根据人脸图像、声音信息和校正检验后的文字信息，对情绪进行判别，确定情绪向量。

根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字时，具体实现过程为：根据回话策略，分析情绪向量、人脸属性特征和校正检验后的文字信息，输出回馈文字。

具体地，本发明实施例基于多模态情绪与脸部属性识别的人机交互方法能够结合用户体验数据，输出回馈文字，例如，根据情绪向量、人脸属性特征与文字信息，并根据特定场景下预先搜集的用户体验数据与统计，归纳分析选择语料库中适切的回话内容输出，具体实现过程如下：

输出回馈文字之前，该方法还包括：搜索用户的用户体验数据。

根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字时，具体实现过程如下：根据回话策略，分析情绪向量、人脸属性特征、文字信息和用户体验数据，从语料库中匹配目标语料数据，作为回馈文字，进行输出。

第二方面，本发明实施例所提供的一种基于多模态情绪与脸部属性识别的人机交互系统，结合图2，该系统包括输入模块1、ASR模块2、情绪模块3、人脸属性识别模块4和对话模块5。输入模块1用于获取用户的人脸图像和声音信息。ASR模块2用于将声音信息转换为文字信息。情绪模块3用于根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量。人脸属性识别模块4用于根据人脸图像，确定人脸属性特征。

机器通过检测用户人脸，对人脸情绪、人脸属性进行数据获取并记录，简化人机交互过程中用户可视化特征的信息获取过程。

机器将用户的人脸属性与拟定场景的商品信息进行智能映射匹配，触发根据人脸可视化特征的推荐回馈，主动引导参与交互者更便捷的与机器进行对话交互。

机器通过对用户的累积数据联结运算，结合用户与机器当前交互数据，建立包含图像信息、文字与语音信息的多维度用户画像。

对话模块5用于根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字。

由上述技术方案可知，本实施例提供的基于多模态情绪与脸部属性识别的人机交互系统，能够对人脸属性进行全面识别，并且，通过声音和图像两个方面的信息，提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，针对人脸多模态情感、人脸属性识别与人机交互应对规则的逻辑判断输出适切的回话内容，在多轮对话当中，提供使用者良好的体验功能。

为了进一步提高本实施例基于多模态情绪与脸部属性识别的人机交互系统的用户体验，该系统还包括语音TTS模块6，语音TTS模块6用于将回馈文字转换为语音信息，例如，将回馈文字转换为语音讯号，并由语音播放装置输出语音回馈，提高人机交互效率和使用者的用户体验。

本发明实施例基于多模态情绪与脸部属性识别的人机交互系统还包括观察模块7，观察模块7用于根据情绪向量的时间顺序和人脸属性特征，在语料库中确定对应的语料数据，进行输出。

例如，在预设时间内无主动响应的情况时，该系统会根据先前收集到时间序的情绪数据与人脸属性数据选择对应的语料数据，主动式的提问使用者。而当使用者打断机器的响应时，机器会随时中断进入聆听模式，以提高用户的交互体验。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于多模态情绪与脸部属性识别的人机交互方法，其特征在于，包括：获取用户的人脸图像和声音信息；

将所述声音信息转换为文字信息；

根据所述人脸图像、所述声音信息和所述文字信息，对情绪进行判别，确定情绪向量；

根据所述人脸图像，确定人脸属性特征；

根据回话策略，分析所述情绪向量、所述人脸属性特征和所述文字信息，输出回馈文字。

2.根据权利要求1所述基于多模态情绪与脸部属性识别的人机交互方法，其特征在于，输出回馈文字之后，该方法还包括：

将所述回馈文字转换为语音信息。

3.根据权利要求1所述基于多模态情绪与脸部属性识别的人机交互方法，其特征在于，分析所述情绪向量、所述人脸属性特征和所述文字信息之前，该方法还包括：

根据所述情绪向量的时间顺序和所述人脸属性特征，在语料库中确定对应的语料数据，进行输出。

4.根据权利要求1所述基于多模态情绪与脸部属性识别的人机交互方法，其特征在于，

根据所述人脸图像、所述声音信息和所述文字信息，对情绪进行判别，确定情绪向量，具体包括：

根据所述人脸图像、所述声音信息和所述文字信息，采用机器/深度学习算法，对情绪进行判别，确定情绪向量。

5.根据权利要求4所述基于多模态情绪与脸部属性识别的人机交互方法，其特征在于，所述情绪向量为四个。

6.根据权利要求1所述基于多模态情绪与脸部属性识别的人机交互方法，其特征在于，

将所述声音信息转换为文字信息之后，根据所述人脸图像、所述声音信息和所述文字信息，对情绪进行判别之前，该方法还包括：

校正检验所述文字信息；

根据所述人脸图像、所述声音信息和校正检验后的文字信息，对情绪进行判别，确定情绪向量；

根据回话策略，分析所述情绪向量、所述人脸属性特征和所述文字信息，输出回馈文字，具体包括：

根据回话策略，分析所述情绪向量、所述人脸属性特征和校正检验后的文字信息，输出回馈文字。

7.根据权利要求1所述基于多模态情绪与脸部属性识别的人机交互方法，其特征在于，输出回馈文字之前，该方法还包括：

搜索所述用户的用户体验数据；

根据回话策略，分析所述情绪向量、所述人脸属性特征、所述文字信息和所述用户体验数据，从语料库中匹配目标语料数据，作为回馈文字，进行输出。

8.一种基于多模态情绪与脸部属性识别的人机交互系统，其特征在于，包括：

输入模块，用于获取用户的人脸图像和声音信息；

ASR模块，用于将所述声音信息转换为文字信息；

情绪模块，用于根据所述人脸图像、所述声音信息和所述文字信息，对情绪进行判别，确定情绪向量；

人脸属性识别模块，用于根据所述人脸图像，确定人脸属性特征；

对话模块，用于根据回话策略，分析所述情绪向量、所述人脸属性特征和所述文字信息，输出回馈文字。

9.根据权利要求8所述基于多模态情绪与脸部属性识别的人机交互系统，其特征在于，该系统还包括：语音TTS模块，用于将所述回馈文字转换为语音信息。

10.根据权利要求8所述基于多模态情绪与脸部属性识别的人机交互系统，其特征在于，该系统还包括：观察模块，用于根据所述情绪向量的时间顺序和所述人脸属性特征，在语料库中确定对应的语料数据，进行输出。