CN107578015B

CN107578015B - 一种基于深度学习的第一印象识别与回馈系统及方法

Info

Publication number: CN107578015B
Application number: CN201710795320.4A
Authority: CN
Inventors: 简仁贤; 杨闵淳; 何芳琳; 潘一汉
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2020-06-30
Anticipated expiration: 2037-09-06
Also published as: CN107578015A

Abstract

本发明提供的一种基于深度学习的第一印象识别与回馈系统及方法，采集模块用于采集视频样本，并从视频样本中筛选目标影像进行数据清洗；还用于对数据清洗后的目标影像进行标注，并根据标注结果计算第一印象数值；模型建立模块用于检测视频样本中脸部动作、手部动作和身体动作，根据检测结果建立影像特征学习模型和集成学习模型；检测模块用于利用影像特征学习模型和集成学习模型对待检测视频进行识别；反馈模块用于根据第一印象数值和预设的特定任务对经过检测模块识别得到的结果进行分析，输出反馈信息，这样能够客观地判断得到初见之人带给人的第一印象。

Description

一种基于深度学习的第一印象识别与回馈系统及方法

技术领域

本发明属于电脑视觉与深度学习技术领域，具体涉及一种基于深度学习的第一印象识别与回馈系统及方法。

背景技术

现有的第一印象识别方法主要透过人在互动时观察对方的脸部特性、表情变化与身体仪态的表现，并根据社会风俗文化等教育来判断初见之人带给人的第一印象为何。且该方法是由人给予的文字回馈或经验判断得到，容易受判断人主观因素的影响，无法成为一个客观量化的标准。且该方法不能给用户提供可以透过演绎的方式(如需工作面试、演讲、相亲等)来达到良好第一印象的目的。

发明内容

针对现有技术中的缺陷，本发明提供一种基于深度学习的第一印象识别与回馈系统及方法，能够客观地判断得到初见之人带给人的第一印象。

一种基于深度学习的第一印象识别与回馈系统，包括采集模块、模型建立模块、检测模块和反馈模块；

所述采集模块用于采集视频样本，并从视频样本中筛选目标影像进行数据清洗；还用于对数据清洗后的目标影像进行标注，并根据标注结果计算第一印象数值；

所述模型建立模块用于检测视频样本中脸部动作、手部动作和身体动作，根据检测结果建立影像特征学习模型和集成学习模型；

所述检测模块用于利用影像特征学习模型和集成学习模型对待检测视频进行识别；

所述反馈模块用于根据第一印象数值和预设的特定任务对经过检测模块识别得到的结果进行分析，输出反馈信息。

优选地，所述采集模块中的视频样本包括从网络上下载的视频以及录制的视频。

优选地，所述采集模块分别对目标影像中的每一帧影像进行多次标注，每个标注内容包括第一印象和印象分值；按照预设的分值过滤范围对标注内容进行头尾过滤，保留印象分值处于分值过滤范围内的标注；按照第一印象对过滤后的标注进行分类，并分别对每一类标注的印象分值求平均，得到每一类标注对应的所述第一印象数值。

优选地，所述第一印象包括富有责任感、聪明、老实、自信、不好相处和情绪性。

优选地，所述模型建立模块用于检测视频样本中脸部动作、手部动作和身体动作，根据检测结果与标注进行影像特征学习，建立多个模态各自独立的基于深度模型的影像特征学习模型，根据影像特征学习结果进行集成学习，建立集成学习模型。

优选地，所述模型建立模块中影像特征学习失败时，其影像特征学习结果设置为零向量。

一种基于深度学习的第一印象识别与回馈方法，包括

采集步骤：采集视频样本，并从视频样本中筛选目标影像进行数据清洗；

标注步骤：对数据清洗后的目标影像进行标注，并根据标注结果计算第一印象数值；

模型建立步骤：检测视频样本中脸部动作、手部动作和身体动作，根据检测结果建立影像特征学习模型和集成学习模型；

识别步骤：利用影像特征学习模型和集成学习模型对待检测视频进行识别；

反馈步骤：根据第一印象数值和预设的特定任务对识别得到的结果进行分析，输出反馈信息。

优选地，所述标注步骤中，分别对目标影像中的每一帧影像进行多次标注，每个标注内容包括第一印象和印象分值；按照预设的分值过滤范围对标注内容进行头尾过滤，保留印象分值处于分值过滤范围内的标注；按照第一印象对过滤后的标注进行分类，并分别对每一类标注的印象分值求平均，得到每一类标注对应的所述第一印象数值。

优选地，所述模型建立步骤中，检测视频样本中脸部动作、手部动作和身体动作，根据检测结果与标注进行影像特征学习，建立多个模态各自独立的基于深度模型的影像特征学习模型，根据影像特征学习结果进行集成学习，建立集成学习模型。

优选地，所述模型建立步骤中，影像特征学习失败时，其影像特征学习结果设置为零向量。

由上述技术方案可知，本发明提供的一种基于深度学习的第一印象识别与回馈系统及方法，能够客观地判断得到初见之人带给人的第一印象。该方法配合分析数据的反馈，可协助用户在与人交互的过程当中表现出更多令人感到正面的印象与情绪感受。并且进一步可以将此分析数据应用在人机交互场景中，学习人与人良好交互时脸部肌肉变化、面部反应与手部与身体的表现，借以提升与用户互动中的自然体验效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为第一印象识别与回馈系统的结构框图。

图2为第一印象识别与回馈方法的流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例：

一种基于深度学习的第一印象识别与回馈系统，如图1所示，包括采集模块、模型建立模块、检测模块和反馈模块；

所述采集模块中的视频样本包括从网络上下载的视频以及录制的视频(例如演讲视频、戏剧视频等)。所述第一印象包括富有责任感、聪明、老实、自信、不好相处和情绪性等。例如第一印象为富有责任感时，其印象分值越高说明视频中表现责任感越强，反之，其印象分值越低说明视频中表现责任感越弱。

所述采集模块分别对目标影像中的每一帧影像进行多次标注(同一个目标影像可通过多个人员人工进行多次标注)，每个标注内容包括第一印象和印象分值；按照预设的分值过滤范围对标注内容进行头尾过滤(例如去掉印象分值中10％的最高分和10％最低分)，保留印象分值处于分值过滤范围内的标注；分值过滤范围用户可自行设定。按照第一印象对过滤后的标注进行分类，按照第一印象进行分类，例如富有责任感分一类，聪明分一类等。并分别对每一类标注的印象分值求平均，得到每一类标注对应的所述第一印象数值。

所述模型建立模块用于检测视频样本中脸部动作、手部动作和身体动作(此三种类别的检测分别通过脸部、手部与身体的标注资料与深度学习技术训练而得的检测模型得到)，根据检测结果与标注进行影像特征学习，建立多个模态各自独立的基于深度模型的影像特征学习模型(如针对脸部的影像作学习或者针对手部影像等)，而针对每个独立部位做模型架构与参数的调优，并且通过多个模态的输出结果(可以是每个模态的输出结果或者是输出特征)据影像特征学习结果进行集成学习，建立集成学习模型(EnsembleLearning)。以提升整体的识别效能(如将各个模态的输出特征向量做接合并使用多标签线性分类器做学习)。在此说明，所述模型建立模块中影像特征学习失败时，其影像特征学习结果设置为零向量。如果有部分的模态未被成功侦测出，那么只访问成功被侦测出结果的模型的预测值，并且在进行全体学习输入前将未侦测出模态的输出结果直接指定为零向量即可(表示在多标签数值上没有任何的贡献)。即在训练过程，如手部无法正确检测，则只单单考虑面部与身体的模型输出结果。

根据第一印象多标签的输出(如责任感、开心程度、悲伤程度、专注度等)，以及任务的指定(如面试工作)，则根据面试需要的特质以及相对需要强化的第一印象给予文字上的反馈，用户可以根据这些重点特征反馈进行改善特定第一印象类别的训练。如面试时需要有自信、笑容程度高、专注度高、有责任感等。

此发明主要透过图像视觉技术与深度学习的方法来解决两个问题。一、透过大数据标注针对图像中每个表达方带给接收方其脸部特性、情感表征与专注度、身体姿态等综合的第一印象分数。透过深度学习技术为用户带来更加客观与准确的回馈，进而提升用互表达的自信度。二、这些良好第一印象与图像分析数据更可以提供机器人(代理人)在人机交互时的互动反应与肢体表达的应对策略，可增加用户与机器人(代理人)在互动时良好的自然体验。

本发明在第一印象识别透过人工智能的方式作客观有效率的学习，在应用上与传统透过文字说明、与人的经验分享相比之下更能够达到更有效率与客观的即时反馈。同时，获取的第一印象数据也能够提供人群社交行为分析并且能进一步从反馈之中学习改进。再者，透过人群社交的资料收集与分析亦可进一步帮助机器代理人于人机交互应用中的反应更能贴近自然交互的用户体验。

以下提供该系统的两个应用场景：

应用场景一：以手机荧幕为载体，需要在进行工作面试前的用户可以透过手机APP方式并且在开起摄像头之下进行面试的预演。手机APP访问第一印象识别的模型(主要识别主体在人脸与手部)并将视屏流的访问结果做一个统计分析，将结果给到用户端，提供用户修正的建议。

应用场景二：以摄影机为载体，分析演讲时手势、身体的移动与面部表情的第一印象，并可以进一步透过这些第一印象数值分析演讲的过程是否会吸引人的目光，增加用户在演讲时的魅力。

一种基于深度学习的第一印象识别与回馈方法，如图2所示，包括

所述标注步骤中，分别对目标影像中的每一帧影像进行多次标注，每个标注内容包括第一印象和印象分值；按照预设的分值过滤范围对标注内容进行头尾过滤，保留印象分值处于分值过滤范围内的标注；按照第一印象对过滤后的标注进行分类，并分别对每一类标注的印象分值求平均，得到每一类标注对应的所述第一印象数值。

所述模型建立步骤中，检测视频样本中脸部动作、手部动作和身体动作，根据检测结果与标注进行影像特征学习，建立多个模态各自独立的基于深度模型的影像特征学习模型，根据影像特征学习结果进行集成学习，建立集成学习模型。

所述模型建立步骤中，影像特征学习失败时，其影像特征学习结果设置为零向量。

该方法配合分析数据的反馈，可协助用户在与人交互的过程当中表现出更多令人感到正面的印象与情绪感受。并且进一步可以将此分析数据应用在人机交互场景中，学习人与人良好交互时脸部肌肉变化、面部反应与手部与身体的表现，借以提升与用户互动中的自然体验效果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度学习的第一印象识别与回馈系统，其特征在于，包括采集模块、模型建立模块、检测模块和反馈模块；

所述反馈模块用于根据第一印象数值和预设的特定任务对经过检测模块识别得到的结果进行分析，输出反馈信息；

所述采集模块分别对目标影像中的每一帧影像进行多次标注，每个标注内容包括第一印象和印象分值；按照预设的分值过滤范围对标注内容进行头尾过滤，保留印象分值处于分值过滤范围内的标注；按照第一印象对过滤后的标注进行分类，并分别对每一类标注的印象分值求平均，得到每一类标注对应的所述第一印象数值；

所述第一印象包括富有责任感、聪明、老实、自信、不好相处和情绪性。

2.根据权利要求1所述基于深度学习的第一印象识别与回馈系统，其特征在于，所述采集模块中的视频样本包括从网络上下载的视频以及录制的视频。

3.根据权利要求1所述基于深度学习的第一印象识别与回馈系统，其特征在于，所述模型建立模块用于检测视频样本中脸部动作、手部动作和身体动作，根据检测结果与标注进行影像特征学习，建立多个模态各自独立的基于深度模型的影像特征学习模型，根据影像特征学习结果进行集成学习，建立集成学习模型。

4.根据权利要求3所述基于深度学习的第一印象识别与回馈系统，其特征在于，所述模型建立模块中影像特征学习失败时，其影像特征学习结果设置为零向量。

5.一种基于深度学习的第一印象识别与回馈方法，其特征在于，包括

反馈步骤：根据第一印象数值和预设的特定任务对识别得到的结果进行分析，输出反馈信息；

所述标注步骤中，分别对目标影像中的每一帧影像进行多次标注，每个标注内容包括第一印象和印象分值；按照预设的分值过滤范围对标注内容进行头尾过滤，保留印象分值处于分值过滤范围内的标注；按照第一印象对过滤后的标注进行分类，并分别对每一类标注的印象分值求平均，得到每一类标注对应的所述第一印象数值；

6.根据权利要求5所述基于深度学习的第一印象识别与回馈方法，其特征在于，所述模型建立步骤中，检测视频样本中脸部动作、手部动作和身体动作，根据检测结果与标注进行影像特征学习，建立多个模态各自独立的基于深度模型的影像特征学习模型，根据影像特征学习结果进行集成学习，建立集成学习模型。

7.根据权利要求6所述基于深度学习的第一印象识别与回馈方法，其特征在于，所述模型建立步骤中，影像特征学习失败时，其影像特征学习结果设置为零向量。