CN111027425A

CN111027425A - 一种智能化表情合成反馈交互系统及方法

Info

Publication number: CN111027425A
Application number: CN201911193321.7A
Authority: CN
Inventors: 黄元忠; 卢庆华; 欧阳诗康
Original assignee: Shenzhen Muyu Technology Co ltd
Current assignee: Shenzhen Muyu Technology Co ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-17

Abstract

本发明实施例公开了一种智能化表情合成反馈交互系统及方法，包括：用户信息识别模块，用于实时识别与虚拟人物进行交互的用户的当前状态；智能分析模块，用于分析所述用户的当前状态，并据此提供用于虚拟人像应答的表情反馈信息；智能化表情合成反馈模块，用于将智能分析模块提供的表情反馈信息与虚拟人像的人脸图片作为依据，合成适合当前交互场景的虚拟人物表情；展示模块，用于将所述适合当前交互场景的虚拟人物表情输出至终端平台展示。由上，本申请的系统可以在教育、医疗等领域更好的服务用户，使用户有更好的体验感。

Description

一种智能化表情合成反馈交互系统及方法

技术领域

本发明实施例涉及交互领域，特别涉及一种智能化表情合成反馈交互系统及方法。

背景技术

目前，传统的交互系统一般在很多时候会出现误判指令和错误唤醒，充满了不确定性，缺乏主动服务的能力，用户体验并没有得到本质的提升，这给大众用户对于交互系统带来了比较刻板的影响。现有技术的缺点是，很少能通过观察用户的情感状态去给出人性化的回复，缺少真实的交流感，往往用户面对的是一个机器人外形或者显示器。因此，会有用户在交互媒介和交互方式上希望追求更佳个性化、更佳拟人化的交互体验。

因此，目前亟需一种智能化表情合成反馈交互系统及方法，满足人机交互过程中用户对于个性化、拟人化的强烈需求，以改善大众用户对于人机交互的刻板影响，促进人机交互系统在各领域中的使用。。

发明内容

有鉴于此，本发明的主要目的在于提供一种智能化表情合成反馈交互系统，可以与用户之间进行更人性化的交互，在教育、医疗等领域更好的服务用户，使用户有更好的体验感。

本申请提供一种智能化表情合成反馈交互系统，包括：

用户信息识别模块，用于实时识别与虚拟人物进行交互的用户的当前状态；

智能分析模块，用于分析所述用户的当前状态，并据此提供用于虚拟人像应答的表情反馈信息；

智能化表情合成反馈模块，用于将智能分析模块提供的表情反馈信息与虚拟人像的人脸图片作为依据，合成适合当前交互场景的虚拟人物表情；

展示模块，用于将所述适合当前交互场景的虚拟人物表情输出至终端平台展示。

由上，本申请可以根据用户的当前状态，合成适合场景的虚拟人物的反馈表情，这种更人性化的交互能更好的提升用户体验，推动交互技术在不同领域中的应用。

优选地，所述用户信息识别模块，包括：

语音识别子模块，用于实时识别在与虚拟人物交互过程中的用户的音频信息；

表情识别子模块，用于调用摄像头实时识别在与虚拟人物交互过程中的用户的表情信息；

手势识别子模块，用于调用摄像头对在与虚拟人物交互过程中的用户的指定手势进行识别。

由上，本申请有利于实时地获取用户的语音、表情及手势信息。

优选地，所述系统，还包括语音合成模块，用于根据所述表情反馈信息，合成用于虚拟人物对用户进行引导的语音信息。

由上，本申请有利于根据用户的表情信息，对用户进行语音引导，以提高用户体验。

优选地，所述智能分析模块，具体用于：

通过获取指定数量的真实交互过程的表情信息，预先训练构建分析模型；

并通过所述分析模型实时分析用户向虚拟人物提问时的音频信息对应的语料信息，以及用户的指定手势；同时实时分析用户在整个交互过程中的面部表情信息和面部表情变化，以提供用于虚拟人像应答的表情反馈信息。

由上，本申请能较好的分析用户在交互过程中的接受、理解状况，从而为合成更好的表情做铺垫。

优选地，所述虚拟人物表情包括：微笑，高兴，悲伤，忧郁，生气。

由上，所述虚拟人物的表情包括但不限于上述表情。

优选地，所述智能化表情合成反馈模块，具体用于：将智能分析模块提供的表情反馈信息与虚拟人像的人脸图片输入至生成式对抗网络模型，合成适合当前交互场景的虚拟人物表情；

其中，所述生成式对抗网络模型的获取方式为：获取指定数量的真实人物与用户的交互表情信息；将所述交互表情信息作为训练集进行网络训练，以训练获取可生成连续的表情动画的生成式对抗网络模型。

由上，有利于更好的生成虚拟形象人物的人脸表情图片，以使得在与用户交互的过程中为用户带来更好的体验。

基于上述系统，本申请还提供一种智能化表情合成反馈交互方法，包括：

A、实时识别与虚拟人物进行交互的用户的当前状态；

B、分析所述用户的当前状态，并据此提供用于虚拟人像应答的表情反馈信息；

C、将所述表情反馈信息与虚拟人像的人脸图片作为依据，合成适合当前交互场景的虚拟人物表情；

D、将所述适合当前交互场景的虚拟人物表情输出至终端平台展示。

优选地，所述步骤C，还包括：所述表情反馈信息，合成用于虚拟人物对用户进行引导的语音信息；

所述步骤D，还包括：将所述虚拟人物对用户进行引导的语音信息结合所述虚拟人物表情输出至终端平台展示。

优选地，所述步骤A，包括：

实时识别在与虚拟人物交互过程中的用户的音频信息；调用摄像头实时识别在与虚拟人物交互过程中的用户的表情信息；以及调用摄像头对在与虚拟人物交互过程中的用户的指定手势进行识别。

综上所述，本申请可以根据用户的当前状态(例如语音，表情和手势)，合成适合场景的虚拟人物的反馈表情，这种更人性化的交互能更好的提升用户体验，推动交互技术在不同领域中的应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的提供的一种智能化表情合成反馈交互系统的结构示意图；

图2为本发明实施例的提供的一种智能化表情合成反馈交互方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的区间。

实施例一

本申请提供一种智能化表情合成反馈交互系统，包括：

用户信息识别模块101，包括：语音识别子模块，在交互的过程中模块需要实时采集用户的音频信息，后智能分析模块对其音频分析；表情识别子模块，模块调用摄像头对用户实时检测，并识别用户的表情，其主要步骤分为：人脸检测、人脸对齐、数据增强、人脸面部表情识别。手势识别子模块，模块调用摄像头对于用于一些特别的手势进行识别。所述指定手势包括：拳头、OK、比心、祈祷、我爱你、点赞等。其主要步骤手势检测、特征点定位、多手势匹配、手势识别。

智能分析模块102，通过视频和音频获取模块收集的真实人物与用户过程中的音频信息，训练一个情感分析模型以及完善相应的问答库；针对音频中间会涉及到先转化为文本，再进行词法分析、句法分析、语义分析，得到较完善的分析模型；通过大量学习用户的状态变化而带来的真实人物的表情变化；在交互的过程中用户的反馈信息与不断完善的问答库，分析模块能较准确的给出相应的表情反馈信息；通过视频和音频获取模块收集的真实人物与用户过程中的视频信息，获得用户在面部表情状态变化的同时真实人物是怎样通过自己的表情变化，去调节用户在交互过程中的积极性；同时真实人物可能还会用一些言语去引导用户进入一个积极交互的状态；通过前期收集的大量数据的学习，分析模块能准确的给出相应的表情反馈信息，同时还可以通过语音合成模块106，根据所述表情反馈信息，合成用于虚拟人物对用户进行引导的语音信息。使用户有更好的交互体验；当真实人物提出某个问题的时候，用户可能会有一些手势的反馈。针对这样的特殊情况，需要更加完善的问答库，通过大量的素材学习，在问答交互的过程中，用户给出的手势信息，分析模块也能准确的给出相应的表情反馈。

智能化表情合成反馈模块103，通过视频和音频获取模块收集的真实人物与用户过程中的视频信息，我们能收集到真实人物表情变化的图片。通过收集的真实人物在与用户交互的过程中不同表情的图片，进行大量的学习，训练一个生成对抗网络模型。该生成对抗网络模型可以通过单张图片和表情编码生成连续的表情动画，生成的图片具有连续性、真实性和鲁棒性；同时该网络还需要学习到不同表情的力度对应的α值，在训练好的对抗生成网络模型中可以通过α值的大小去调节表情的力度，该值在0-1之间。在实际的交互过程中，通过视频和音频获取模块采集到的虚拟形象人物的人脸图片作为对抗生成网络的输入，采集的虚拟形象人物的人脸表情图片表情尽量是中立的，然后通过智能分析模块将反馈的信息映射到一个数值，其对应α值，将两者同时作为对抗生成网络的输入，可以完成对虚拟形象人物的面部的表情进行连续的变化，最终智能生成适合场景的表情。具体地，智能化表情合成反馈模块实现方法包括：

通过调节表情向量输出不同程度的表情，如公式(1)所示，向量长度为N，表示脸部N个区域，每个值的范围0到1，表示运动程度。

y_r＝(y₁,y₂,...,y_N)^T (1)

y_N表示动作信息,，向量长度为N，表示脸部N个区域，每个值的范围从0到1表示运动程度。该模型的损失函数共有四项，第一项是图像对抗损失，如公式(2)所示；它的作用是使生成图像的分布趋向于训练数据的真实分布，让生成的图像看起来更真实；其中G表示生成器，D表示判别器，

表示输入的表情图片，y_f表示期望表情的n维向量，λ_gp表示惩罚系数。

第二个损失是注意力机制的损失，如公式(3)所示；因为数据集没有注意力掩膜的真实值，注意力掩膜就很容易过饱和，就是所有值趋向于1。注意力损失的第一项是全差分损失，全差分损失本来是用于图像的平滑，第二项是一个L2的惩罚项；A表示注意力掩码；

第三个损失是表情的损失，如公式(4)所示；分别把原始图像和生成图像输入判别器，得到的表情和表情向量的真实值计算损失；其中G表示生成器，D表示判别器，

表示输入的表情图片，y_f表示期望表情的n维向量，y₀表示输入表情的n维向量。

最后一项是身份损失，如公式(5)所示；让第二个生成器的输出和原始图像尽可能的接；保证生成的人脸和原始图像是同一个人；其中G表示生成器，

展示模块104，用于将所述适合当前交互场景的虚拟人物表情输出至终端平台展示。

视频和音频获取模块105。用于收集真实人物与用户在交互的过程中的音频，视频，为后期训练分析模块、合成反馈模块提供训练数据；用于实时采集用户的面部表情及手势信息，用于采集虚拟形象人物的人脸信息，以及用户的音频信息，作为分析模块、合成反馈模块的输入。

实施例二

基于实施例一中的系统，本申请还提供一种智能化表情合成反馈交互方法，包括：

S201，实时识别与虚拟人物进行交互的用户的当前状态；具体地，包括：实时识别在与虚拟人物交互过程中的用户音频信息；调用摄像头实时识别在与虚拟人物交互过程中的用户表情信息；以及调用摄像头对在与虚拟人物交互过程中的用户的指定手势进行识别。

S202，分析所述用户的当前状态，并据此提供用于虚拟人像应答的表情反馈信息；

S203，将所述表情反馈信息与虚拟人像的人脸图片作为依据，合成适合当前交互场景的虚拟人物表情；

S204，将所述适合当前交互场景的虚拟人物表情输出至终端平台展示。

其中所述步骤S203，还包括：所述表情反馈信息，合成用于虚拟人物对用户进行引导的语音信息；

所述S204，还包括：将所述虚拟人物对用户进行引导的语音信息结合所述虚拟人物表情输出至终端平台展示。

综上所述，本申请提供一种智能化表情合成反馈交互系统及方法，可以与用户之间进行更人性化的交互，在教育、医疗等领域更好的服务用户，使用户有更好的体验感。

以上所述仅为本发明的(较佳)典型实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。