CN111386531A

CN111386531A - 利用人工智能的多模式情绪识别装置、方法以及存储介质

Info

Publication number: CN111386531A
Application number: CN201880075873.5A
Authority: CN
Inventors: 刘大勳; 李永福
Original assignee: Zenith Sais Leibo Co ltd
Current assignee: Zenith Sais Leibo Co ltd
Priority date: 2017-11-24
Filing date: 2018-11-22
Publication date: 2020-07-07
Also published as: KR20190060630A; KR102133728B1; EP3716159A1; EP3716159A4

Abstract

本发明涉及一种利用人工智能的多模式情绪识别装置、方法以及存储介质。本记载中的利用人工智能的多模式情绪识别装置，包括：数据输入部，接收用户的影像数据以及语音数据；数据预处理部，包括语音预处理部以及影像预处理部，所述语音预处理部从所述语音数据生成语音特征数据，所述影像预处理部从所述影像数据生成一个以上的面部特征数据；初步推断部，基于所述影像数据来生成与用户的状况根据时间顺序的变化与否相关的状况判断数据；以及主推断部，基于所述语音特征数据或者所述面部特征数据来生成至少一个子特征图，并基于所述子特征图以及所述状况判断数据来推断用户的情绪状态。

Description

利用人工智能的多模式情绪识别装置、方法以及存储介质

技术领域

本发明涉及一种利用人工智能的多模式情绪识别装置、方法以及存储介质。

背景技术

现有技术中识别遮蔽(Occlusion)并处理为错误。用手遮住嘴是一种重要的信息，可以得知情绪状态的强度程度。单纯地的静态图像可能由于遮蔽(Occlusion)问题而导致识别信息不足。

并且，当通过面部表情识别情绪时，若对象者说话，则导出错误的情绪识别结果。虽然在通过表情识别的情绪识别中嘴形是非常重要的信息，然而由于在说话时嘴形会随时变化，因此可能会出现诸如惊吓、生气、微笑等的嘴形，从而会导致错误的识别结果。

如此，在现有技术中仅利用面部表情识别情绪的情况下，几乎没有用于解决上述问题的对策，而在多模式的情况下，为了使这样的噪声最小化，正在以混用面部表情和语音信息而使错误最小化的方法接近。本专利中可以以如下的方法导出准确的情绪识别结果：跟踪面部或者嘴形而判断当前是否为说话的状态后，如果是说话的状态，则最小化嘴形信息并扩大语音特征信息的比重。

发明内容

技术问题

本发明的实施例提供一种与手的移动以及识别信息、关于嘴形的信息、语音信息、部分表情信息一同利用时间信息而执行更加准确的情绪识别的多模式情绪识别装置、方法以及存储介质。

技术方案

根据本发明的实施例的一侧面的利用人工智能的多模式情绪识别装置，作为利用人工智能的多模式情绪识别装置，包括：数据输入部，接收用户的影像数据以及语音数据；数据预处理部，包括语音预处理部以及影像预处理部，所述语音预处理部从所述语音数据生成语音特征数据，所述影像预处理部从所述影像数据生成一个以上的面部特征数据；初步推断部，基于所述影像数据来生成与用户的状况根据时间顺序的变化与否相关的状况判断数据；以及主推断部，基于所述语音特征数据或者所述面部特征数据来生成至少一个子特征图，并基于所述子特征图以及所述状况判断数据来推断用户的情绪状态。

并且，所述状况判断数据可以包括对话判断数据或者重叠判断数据，所述对话判断数据是针对用户是否处于对话状态的数据，所述重叠判断数据是针对作为影像数据的整体影像区域中的一部分的跟踪对象区域和与所述跟踪对象区域不同的识别对象区域是否重叠的数据，所述初步推断部可以基于所述面部特征数据来生成判断用户是否处于对话状态的对话判断数据，其中，所述初步推断部可以基于所述影像数据来生成用于推断所述跟踪对象区域的位置的位置推断数据，并可以基于所述面部特征数据以及所述位置推断数据来生成针对所述跟踪对象区域和所述识别对象区域是否重叠的重叠判断数据。

并且，所述初步推断部可以包括：对话状态推断模块，利用第一学习模型，并且基于所述面部特征数据生成所述对话判断数据。

并且，所述面部特征数据可以包括：嘴影像数据，所述嘴影像数据是针对在所述识别对象区域中对应于用户的嘴的部分的数据，所述对话状态推断模块可以利用所述第一学习模型而从所述嘴影像数据生成针对用户是否处于对话状态的所述对话判断数据。

并且，所述初步推断部可以包括：手检测推断模块，从所述影像数据检测出针对所述跟踪对象区域的手影像数据，并利用第二学习模型而生成基于所述手影像数据的所述位置推断数据；以及面部重叠检查模块，基于所述面部特征数据以及所述位置推断数据来判断所述识别对象区域和所述跟踪对象区域是否重叠，并根据重叠与否判断结果而生成所述重叠判断数据。

并且，所述手检测推断模块可以生成针对所述位置推断数据的位置推断特征图，并且，可以基于所述子特征图、所述状况判断数据以及所述位置推断特征图来推断用户的情绪状态。

并且，所述状况判断数据还可以包括针对所述识别对象区域的变化的识别对象区域变化数据，随着所述识别对象区域的变化量越大，所述识别对象区域变化数据的权重增加。

并且，按多个用户分别可以形成所述跟踪对象区域以及所述识别对象区域，所述初步推断部可以基于所述跟踪对象区域以及所述识别对象区域来生成针对各用户的所述状况判断数据，并可以对多个用户的对话状态分别进行判断而生成各用户的固有声音信息，从而将所述固有声音信息应用于各用户的情绪识别。

并且，所述主推断部可以包括：多个子特征图生成部，利用第三学习模型而基于所述语音特征数据以及所述面部特征数据来生成针对所述语音特征数据以及所述面部特征数据的所述多个子特征图；多模式特征图生成部，参照所述状况判断数据而从所述多个子特征图生成多模式特征图；以及情绪识别推断部，利用第四学习模型而基于所述多模式特征图来推断所述情绪状态。

并且，所述状况判断数据可以具有根据所述用户的状况而预设的状况判断值，所述多模式特征图生成部可以将所述状况判断值应用于所述多个子特征图中的至少一个而生成所述多模式特征图。

并且，所述语音预处理部可以包括：语音校正模块，对所述语音数据进行校正；以及语音特征数据提取模块，提取经过所述语音校正模块的语音数据的特征而生成所述语音特征数据。

并且，所述影像预处理部可以包括：面部检测器，从所述影像数据的整体区域检测出识别对象区域，所述识别对象区域是对应于用户的面部的区域；图像预处理器，对所述识别对象区域进行校正；以及面部要素提取器，设定位于所述识别对象区域内且比所述识别对象区域小的子识别对象区域，并生成所述子识别对象区域的所述面部特征数据。

并且，所述影像预处理部还可以包括：关键点检测模块，提取所述识别对象区域的面部要素位置信息。

并且，所述影像预处理部可以包括：位置调整器，基于所述识别对象区域的所述面部要素位置信息来调整位置。

并且，还可以包括：输出部，利用激活函数而输出所述情绪状态的结果。

并且，所述影像数据可以包括多个帧，在无法基于所述多个帧中的任意预定的帧来形成特征图的情况下，对于无法形成所述特征图的全部帧排除应用时间学习模型，并且可以将无法形成所述特征图的帧之前的能够形成特征图的最后一个帧设定为代替帧，并对所述代替帧应用所述时间学习模型来识别用户的所述情绪状态，与无法形成所述特征图的全部帧对应的时间是特征图非检测时间，且在所述特征图非检测时间期间内对所述代替帧应用所述时间学习模型。

根据本发明的实施例的另一侧面的利用人工智能的多模式情绪识别方法，作为利用人工智能的多模式情绪识别方法，包括如下：数据数据步骤，接收用户的影像数据以及语音数据；数据预处理步骤，包括语音预处理步骤以及影像预处理步骤，在所述语音预处理步骤中，从所述语音数据生成语音特征数据，在所述影像预处理步骤中，从所述影像数据生成一个以上的面部特征数据；初步推断步骤，基于所述影像数据来生成与用户的状况根据时间顺序的变化与否相关的状况判断数据；以及主推断步骤，基于所述语音特征数据或者所述面部特征数据来生成至少一个子特征图，并基于所述子特征图以及所述状况判断数据来推断用户的情绪状态。

并且，所述状况判断数据可以包括对话判断数据或者重叠判断数据：所述对话判断数据是针对用户是否处于对话状态的数据，所述重叠判断数据是针对作为影像数据的整体影像区域中的一部分的跟踪对象区域和与所述跟踪对象区域不同的识别对象区域是否重叠的数据，所述初步推断步骤可以基于所述面部特征数据来生成判断用户是否处于对话状态的对话判断数据，其中，所述初步推断步骤可以基于所述影像数据来生成用于推断所述跟踪对象区域的位置的位置推断数据，并可以基于所述面部特征数据以及所述位置推断数据来生成针对所述跟踪对象区域和所述识别对象区域是否重叠的重叠判断数据。

并且，所述初步推断步骤可以包括：对话状态推断步骤，利用第一学习模型，并且基于所述面部特征数据生成所述对话判断数据，所述面部特征数据可以包括：嘴影像数据，所述嘴影像数据是针对在所述识别对象区域中对应于用户的嘴的部分的影像数据，所述对话状态推断步骤可以利用所述第一学习模型而从所述嘴影像数据生成针对用户是否处于对话状态的所述对话判断数据。

并且，所述初步推断步骤可以包括：手检测推断步骤，从所述影像数据检测出针对所述跟踪对象区域的手影像数据，并利用第二学习模型而生成基于所述手影像数据的所述位置推断数据；以及面部重叠检查步骤，基于所述面部特征数据以及所述位置推断数据来判断所述识别对象区域和所述跟踪对象区域是否重叠，并根据重叠与否判断结果而生成所述重叠判断数据。

并且，所述手检测推断步骤可以生成针对所述位置推断数据的位置推断特征图，并可以基于所述子特征图、所述状况判断数据以及所述位置推断特征图来推断用户的情绪状态。

并且，所述主推断步骤可以包括：多个子特征图生成步骤，利用第三学习模型而基于所述语音特征数据以及所述面部特征数据来生成针对所述语音特征数据以及所述面部特征数据的所述多个子特征图；多模式特征图生成步骤，参照所述状况判断数据而从所述多个子特征图生成多模式特征图；以及情绪识别推断步骤，利用第四学习模型而基于所述多模式特征图来推断所述情绪状态。

并且，所述状况判断数据可以具有根据所述用户的状况而预设的状况判断值，所述多模式特征图生成步骤可以将所述状况判断值应用于所述多个子特征图中的至少一个而生成所述多模式特征图。

并且，所述语音预处理步骤可以包括：语音校正步骤，对所述语音数据进行校正；以及语音特征数据提取步骤，提取经过所述语音校正模块的语音数据的特征而生成所述语音特征数据。

并且，所述影像预处理步骤可以包括：面部检测步骤，从所述影像数据的整体区域检测出识别对象区域，所述识别对象区域是对应于用户的面部的区域；图像预处理步骤，对所述识别对象区域进行校正；以及面部要素提取步骤，设定位于所述识别对象区域内且比所述识别对象区域小的子识别对象区域，并生成所述子识别对象区域的所述面部特征数据。

并且，所述影像预处理步骤还可以包括：关键点检测步骤，提取所述识别对象区域的面部要素位置信息。

并且，所述影像预处理步骤还可以包括：位置调整步骤，基于所述识别对象区域的所述面部要素位置信息来调整位置。

对根据本发明的又一侧面的存储利用人工智能执行多模式情绪识别方法的计算机程序代码的计算机可读存储介质而言，作为存储执行多模式情绪识别方法的计算机程序代码的计算机可读存储介质，其中，所述利用人工智能的多模式情绪识别方法包括如下：数据数据步骤，接收用户的影像数据以及语音数据；数据预处理步骤，包括语音预处理步骤以及影像预处理步骤，在所述语音预处理步骤中，从所述语音数据生成语音特征数据，在所述影像预处理步骤中，从所述影像数据生成一个以上的面部特征数据；初步推断步骤，基于所述影像数据来生成与用户的状况根据时间顺序的变化与否相关的状况判断数据；以及主推断步骤，基于所述语音特征数据或者所述面部特征数据来生成至少一个子特征图，并基于所述子特征图以及所述状况判断数据来推断用户的情绪状态。

即，根据本发明的一侧面，提供一种利用视频分析而从人的面部识别情绪的系统以及方法。此系统分析包括一个人的面部的视频，识别针对各面部的一个以上的要素(鼻子、嘴、额头、眼睛)，并对识别的要素进行监控。在实施例中，系统为了获取表示在视频中出现的人的一个以上的面部要素的特性的索引(面部特征数据)的第一组而分析视频的一个以上的视频帧。而且，系统分析一个以上的视频帧的音频数据而获取表示人的语音特征的第二指标组(语音特征数据)。系统使用表示面部要素特性的索引的第一组以及表示语音特性的索引的第二组，确定针对一个以上视频帧的人的至少一种情绪。

在实施例中，为了使用第一指标组以及第二索引组而确定至少一个情绪，系统对第一索引组适用第一权重，并对第二索引组适用第二权重。在实施例中，系统基于从一个以上的视频帧识别出的时间来调整第一权重以及第二权重。

例性地，参照图12a至12g，系统分析包括第一部分(帧F1、F2)、第一部分之后的第二部分(帧F3、F4、F5)以及第二部分之后的第三部分(帧F6、F7)的视频。在实施例中，系统对于第一部分使用作为第一权重(针对面部成分特征索引)的1.0(默认值)且使用作为第二权重(针对声音特性)的0.2(默认值)而分析第一部分(帧F1、F2)。当系统在第二部分无法识别面部A的一个以上要素时(因非正常的操作或者由于手的识别限制)，系统将第一权重由1.0变为0.8、0.6、0.4而适用于帧F3、F4、F5，并且维持在系统能够从视频帧中利用面部A的一个以上的要素时比系统针对第一索引组(面部要素特性)依赖程度更少的第二权重的0.2。在特定实施例中，系统也可以将第一权重从1.0逐渐降低至0.8、0.6、0.4而调整针对第二部分的第二权重。在实施例中，系统对第二部分将第二权重从0.2增加至0.5，从而相比于系统针对第一部分执行的情形，使系统更加依赖于第二索引组(声音特性)。在特定实施例中，当无法从视频帧中利用面部A的一个以上的要素时，对于第二部分，为了增加第一权重的比率，系统可以调整第一权重以及第二权重中的一个以上。在实施例中，对于第三部分，系统可以使用与作为非正常操作(或者由于手而阻碍)的第一部分被处理的情形下的第二部分相同的加权值。

技术效果

根据如上所述的本发明的实施例，多模式情绪识别装置可以准确地确认对话的情形以及在通过手进行的遮住的表情时的情绪状态。

附图说明

图1是示意性地图示根据本发明的实施例的多模式情绪识别装置的构成的图。

图2是示意性地图示在图1的多模式情绪识别装置中的数据预处理部的构成的图。

图3是示意性地图示在图1的多模式情绪识别装置中的初步推断部的构成的图。

图4是示意性地图示在图1的多模式情绪识别装置中的主推断部的构成的图。

图5是示出借助图1的多模式情绪识别装置的多模式情绪识别方法的流程图。

图6是详细地示出在图5的多模式情绪识别方法中的数据预处理步骤的流程图。

图7是详细地示出在图5的多模式情绪识别方法中的初步推断步骤的流程图。

图8是详细地示出在图5的多模式情绪识别方法中的主推断步骤的流程图。

图9是示出利用图1的多模式情绪识别装置的根据状况变化与否的情绪识别过程的示例性的图。

图10是示出利用根据本发明的另一实施例的多模式情绪识别装置的根据状况变化的情绪识别过程的示例性的图。

图11是示出利用根据本发明的又一实施例的多模式情绪识别装置的根据状况变化的情绪识别过程的示例性的图。

图12是示出利用根据本发明的又一实施例的多模式情绪识别装置的根据状况变化的情绪识别过程的示例性的图。

最优实施方式

以下，以附图作为参考而对本发明的实施例进行详细地说明，以使本发明所属的技术领域中具有基本知识的人员可以较容易地实施。

本发明可以实现为各种相异的形态，且并不局限于在此说明的实施例。在附图中为了准确地说明本发明而省略了与说明无关的部分，通过整体说明书，对相同或者类似的构成要素赋予相同的参照符号。并且，在附图中所示出的构成的尺寸以及厚度是为了便于说明而示出的，因此本发明并不是局限于附图所示。

对于本发明而言，“～上”是表示着位于对象部件的上或者下，并不是必须表示以重力方向为基准位于上部的情形。并且，在说明书整体中，当某一部分“包括”某一构成要素时，在没有特别的相反的记载的情况下，这并不表示排除其他构成要素，而是表示还可以包括其他构成要素。

以下，参照附图针对本发明的实施例进行详细的说明，当参照附图而进行说明时，对相同或者对应的构成要素赋予相同的附图标记，并省略对此的重复说明。

本发明利用基于对象者的视频和语音数据来考虑面部表情、说话状态、手、语音的人工智能而导出更加准确的情绪识别结果。

参照图1，多模式情绪识别装置10可以包括数据输入部100、数据预处理部200、初步推断部300、主推断部400以及输出部500。

数据输入部100可以接收用户的影像数据DV以及语音数据DS。

数据输入部100可以包括接收用于识别用户的情绪的影像数据DV的影像输入部110以及接收用户的语音数据DS的语音输入部120。

并且，数据预处理部200可以包括：语音预处理部220，从语音数据DS生成语音特征数据DF₂；以及影像预处理部210，从影像数据DV生成一个以上的面部特征数据DF₁。

此时，面部特征数据DF₁可以包括图像、位置信息、尺寸信息、面部比率信息、深度信息(Depth Information)中的至少一个，而语音特征数据DF₂可以包括语调、音调信息、发音强度、语速等可以表示语音的特征的信息。

影像预处理部210执行用于从影像数据DV提取用户的面部特征数据DF₁的影像预处理。

所述影像预处理可以将用于使用面部整体或者局部识别、噪声去除、用户面部特征以及图像提取等学习模型的影像数据DV变换为合适的样态。

语音预处理部220执行用于从语音数据DS提取用户的语音特征数据DF₂的语音预处理。

所述语音预处理可以将语音数据DS变换为用于使用外部噪音去除、噪声去除、用户语音特征提取等学习模型的合适的样态。

初步推断部300可以基于影像数据DV来生成与用户的状况根据时间顺序的变化与否的状况判断数据P。

此时，状况判断数据P可以包括对话判断数据P₁或者重叠判断数据P₂，所述对话判断数据P₁是针对用户是否处于对话状态的判断数据，所述重叠判断数据P₂是针对作为影像数据DV的整体影像区域中的一部分的跟踪对象区域B和另一识别对象区域A的是否重叠的判断数据。

详细地，初步推断部300可以基于影像数据DV来生成用于推断出跟踪对象区域B的位置的位置推断数据DM₁，并且可以基于面部特征数据DF₁以及位置推断数据DM₁来生成针对推断对象区域B和识别对象区域的重叠与否的重叠判断数据P₂。

并且，初步推断部300可以基于面部特征数据DF1来生成判断用户是否处于对话状态的对话判断数据P1。

主推断部400可以基于语音特征数据DF₂或者面部特征数据DF₁来生成至少一个子特征图FM，并且基于子特征图FM以及状况判断数据P来推断出用户的情绪状态。

输出部500可以输出由主推断部400推断出的情绪状态的结果。

此时，输出部500可以利用S型函数(Sigmoid Function)、阶跃函数(StepFunction)、Softmax函数、修正线性单元(ReLU：Rectified Linear Unit)等激活函数而以多种形态输出。

参照图2，数据预处理部200可以包括影像预处理部210以及语音预处理部220。

影像预处理部210可以包括面部检测器211、图像预处理模块212、关键点检测模块213、位置调整模块214以及面部要素提取模块215。

面部检测器211可以从影像数据DV的整体区域中检测出作为与用户的面部对应的区域的识别对象区域A。

图像预处理模块212可以对识别对象区域A进行校正。

详细地，图像预处理模块212可以执行图像的亮度、模糊(Blur)的校正以及影像数据DV的噪声去除。

键点检测模块213可以提取识别对象区域A的面部要素位置信息AL。

详细地，可以确认在识别对象区域A中的面部重要要素(面部、眼睛、嘴、鼻子、额头等)的位置信息，以能够执行面部识别。

位置调整模块214可以基于识别对象区域A的面部要素位置信息AL来调整位置。

详细地，位置调整模块214可以将从关键点检测模块213提取的面部要素位置信息AL作为基准而对应水平或者垂直地将图像对齐。

面部要素提取模块215可以设定位于识别对象区域A内且比识别对象区域A小的子识别对象区域AA，并且可以生成子识别对象区域AA的面部特征数据DF₁。

子识别对象区域AA可以是判别出至少一个面部要素(面部、眼睛、嘴、鼻子、额头等)的多个区域或者一个区域。

例如，在识别对象区域A中提取出提取面部要素位置信息AL的眼睛、鼻子、嘴的情况下，面部要素提取模块215可以设定作为子识别对象区域AA的眼睛识别区域A1、鼻子识别区域A2、嘴识别区域A3，并且可以针对设定的子识别对象区域AA生成至少一个面部特征数据DF1。

并且，在并未设定子识别对象区域AA的情况下，面部要素提取模块215可以基于识别对象区域A来生成面部特征数据DF1。

语音预处理部220可以包括语音校正模块221、语音特征数据提取模块222。

语音校正模块221可以对语音数据DS进行校正。

详细地，语音校正模块221可以执行去除包含在语音数据DS的多种噪声以及外部噪音、音量调节、频率校正等多种校正方法，从而可以生成进行校正的语音数据。

语音特征数据提取模块222可以提取经过语音校正模块221的语音数据DS，从而可以生成语音特征数据DF₂。

详细地，语音特征数据提取模块222可以通过诸如梅尔频率倒谱系数(MFCC：Mel-frequency CepstralCoefficients)、日内瓦极简声学参数集(eGeMAPS：GenevaMinimalistic Acoustic Parameter Set)、日志库(Logbank)等的语音数据、频率以及频谱分析模块中的一个以上的模块而生成用户的语音特征数据DF₂。

此时，语音特征数据提取模块222可以使用所述校正的语音数据，或者也可以使用语音数据DS。

图3是示意性地图示图1的多模式情绪识别装置中的初步推断部的构成的图。

参照图3，初步推断部300可以包括手检测推断模块310、对话状态推断模块320以及面部重叠检查模块330。

对话状态推断模块320可以利用第一学习模型LM₁，并且基于面部特征数据DF1来生成对话判断数据P₁。

详细地，对话状态推断模块320可以使用用户的面部特征数据DF₁的整体或者一部分，并利用能够判断用户是否处于对话状态的第一学习模型LM₁而生成作为判断是否处于对话的对话判断数据P₁。

面部特征数据DF₁可以包括嘴影像数据DV₂，所述嘴影像数据DV₂是针对与识别对象区域A中的用户的嘴对应的部分的影像数据DV，并且可以利用第一学习模型LM₁而从嘴影像数据DV₂生成针对用户是否处于对话状态的对话判断数据P₁。

第一学习模型LM₁可以是长短期记忆网络(LSTM：Long Short-Term Memory)、深度神经网络(DNN：Deep NeuralNetworks)、卷积神经网络(CNN：ConvolutionalNeuralNetwork)等的能够推断出时间特征或者空间特征的人工智能模型、机器学习、深度学习方法中的至少一个方法。

手检测推断模块310可以从影像数据DV检测出针对跟踪对象区域B的手影像数据DV₁，并可以利用第二学习模型LM₂而生成基于手影像数据DV₁的位置推断数据DM₁。

在此，第二学习模型LM₂可以是长短期记忆网络(LSTM：Long Short-TermMemory)、深度神经网络(DNN：Deep NeuralNetworks)、卷积神经网络(CNN：ConvolutionalNeural Network)等能够推断出时间特征或者空间特征的人工智能模型、机器学习、深度学习方法中的至少一个方法，并可以通过此而生成针对手的位置推断数据DM₁。

并且，手检测推断模块310可以生成针对位置推断数据DM₁的位置推断特征图FM₁，并且可以基于子特征图FM、状况判断数据P以及位置推断特征图FM₁来推断出用户的情绪状态。

此时，位置推断特征图FM₁可以包括针对手的特征信息，即，可以包括手的移动中的有意义的信息(针对手的手势以及针对手的位置的信息等)。

面部重叠检查模块330可以基于面部特征数据DF₁以及位置推断数据DM₁来判断识别对象区域A和跟踪对象区域B的重叠与否，并根据重叠与否判断结果而生成重叠判断数据P₂。

详细地，重叠判断数据P₂可以判断识别对象区域A和跟踪对象区域B的重叠与否，从而生成决定识别对象区域A中的相应的面部特征数据DF₁和语音特征数据DF₂的重要度以及使用与否的一个以上的参数。

参照图4，主推断部400可以包括多个子特征图生成部410:411、412、413、414、多模式特征图生成部420以及情绪识别推断部430。

多个子特征图生成部410:411、412、413、414可以利用第三学习模型LM₃而基于语音特征数据DF₂以及面部特征数据DF₁来生成针对语音特征数据DF₂以及面部特征数据DF₁的多个子特征图FM。

详细地，第三学习模型LM₃可以是深度神经网络(DNN：Deep Neural Networks)、卷积神经网络(CNN：Convolutional Neural Network)等能够推断出至少一个空间特征的人工智能模型、机器学习、深度学习方法中的至少一个方法，并可以利用第三学习模型LM₃而生成含有语音特征数据DF₂以及面部特征信息DF₁的多个子特征图FM。

多模式特征图生成部420可以参照状况判断数据P而从多个子特征图FM生成多模式特征图M。

状况判断数据P可以具有根据用户的状况而预设的状况判断值PV，多模式特征图生成部420可以将至少一个状况判断值PV应用于多个子特征图FM中，从而生成多模式特征图M。

详细地，状况判断值PV可以是表示各个子特征图FM所具有的重要度以及使用与否的参数。

可以通过状况判断数据P与子特征图FM之间的运算而生成应用将状况判断数据P中的状况判断值PV的子特征图FM，并可以整合多个子特征图FM而生成多模式特征图M。

例如，在用户的眼睛被遮住的情况下，将针对眼睛的状况判断值输出为0，并通过针对所述眼睛的状况判断值和针对眼睛的子特征图FM的乘法运算而输出0，以使主推断部400可以将除了针对所述眼睛的子特征图以外的其他子特征图作为基准而生成多模式特征图M。

并且，可以从手检测推断模块320生成位置推断特征图FM₁，并可以基于子特征图FM、状况判断数据P以及位置推断特征图FM₁来生成推断用户的情绪状态的多模式特征图M。

多模式特征图M可以通过利用Concat、Merge以及深层网络(Deep Network)等将子特征图FM以及位置推断特征图FM₁中的至少一个合并而生成。

情绪识别推断部430可以使用第四学习模型LM₄而基于多模式特征图M来推断出情绪状态。

此时，第四学习模型LM₄可以是如同诸如长短期记忆网络(LSTM：Long Short-TermMemory)、循环神经网络(RNNs：Recurrent Neural Network)、门控循环单元(GRU：GatedRecurrent Unit)等循环神经网的时间学习模型，并且可以是能够推断或者分析时间特征和空间特征的人工智能模型、机器学习、深度学习方法中的至少一个方法。

图5是示出借由图1的多模式情绪识别装置的多模式情绪识别方法的流程图。

参照图5，执行接收用户的影像数据DV以及语音数据DS的数据输入步骤(S100)。

此后，可以执行包括如下步骤的数据预处理步骤(S200)：从语音数据DS生成语音特征数据DF₂的语音预处理步骤；以及从影像数据DV生成一个以上的面部特征数据DF₁的影像预处理步骤。

此时，数据预处理步骤(S200)可以生成用于使用学习模型的面部特征数据DF₁和语音特征数据DF₂。

所述学习模型可以是人工智能、机器学习以及深度学习方法。

此后，基于影像数据DV，可以执行生成与用户的状况根据时间顺序的变化与否相关的状况判断数据P的初步推断步骤(S300)。

此时，所述时间顺序可以是对话状态与否，并且可以是用于确认针对身体部分的移动的特征的数据。

并且，状况判断数据P可以包括表示从影像数据DV判断重叠与否和对话状态与否而一个以上的面部特征数据DF₁或者语音特征数据DF₂的重要度或者使用与否的参数。

并且，可以提取并生成除了在数据预处理步骤(S200)中生成的一个以上的面部特征数据DF₁以外的针对用户的身体部位的特征信息。

此后，可以执行如下主推断步骤(S400)：基于语音特征数据DF₂或者面部特征数据DF₁来生成至少一个子特征图FM，并基于子特征图FM以及状况判断数据来推断出用户的情绪状态。

此时，可以运算包括由用户提取的特征信息的子特征图FM和包括针对特征信息的重要度或者关于使用与否的参数的状况判断数据P，并且使子特征图FM包含针对重要度或者使用与否的信息而推断出用户的情绪状态。

此后，执行输出在主推断步骤(S400)中的情绪状态的推断结果的结果导出步骤(S500)。

参照图6，数据预处理步骤(S200)包括影像预处理步骤(S210)和语音预处理步骤(S200)。

在影像预处理步骤(S210)中执行从影像数据DV的整体区域中检测出识别对象影像区域A的面部检测步骤，其中，识别对象区域A为对应于用户的面部的区域。

此后，执行校正识别对象区域A的图像预处理步骤。

详细地，在所述图像预处理步骤中可以执行对图像的亮度、模糊(Blur)的校正以及影像数据DV的噪声去除。

此后，执行提取识别对象区域A的面部要素位置信息AL的关键点检测步骤。

详细地，可以以如下方式执行：在识别对象区域A中确认面部、眼睛、鼻子、嘴、额头等面部重要要素的位置信息，从而能够实现面部识别。

此后，可以执行基于识别对象区域A的面部要素位置信息AL来调整位置的位置调整步骤。

详细地，可以将从关键点检测模块213提取的面部要素位置信息AL作为基准而对应水平或者垂直地将图像对齐。

此后，可以执行如下面部要素提取步骤：在识别对象区域A中，基于面部要素位置信息AL来设定位于识别对象区域A内且比识别对象区域A小的子识别对象区域AA，并生成子识别对象区域AA的面部特征数据DF₁。

此时，子识别对象区域AA可以是面部整体、眼睛、嘴、鼻子、额头等判别出至少一个面部要素的多个区域或者一个区域。

例如，在识别对象区域A中将提取提取出面部要素位置信息AL的眼睛、鼻子、嘴的情况下，面部要素提取模块215可以设定作为子识别对象区域AA的眼睛识别区域A₁、鼻子识别区域A₂、嘴识别区域A₃，并且可以针对所述设定的子识别对象区域AA生成至少一个面部特征数据DF₁。

并且，在所述面部要素提取步骤中，在并未设定子识别对象区域AA的情况下，可以基于识别对象区域A来生成面部特征数据DF₁。

语音预处理步骤(S220)包括语音校正步骤以及语音特征数据提取步骤。

首先，执行对语音数据DS进行校正的所述语音校正步骤。

详细地，在所述语音校正步骤中，执行去除包含在语音数据DS的多种噪声以及外部噪音、调节音量、校正频率等多种校正方法，从而可以生成校正后的语音数据。

执行提取经过所述语音校正步骤的语音数据DS的特征而生成语音特征数据DF₂的所述语音特征数据提取步骤。

详细地，可以通过诸如梅尔频率倒谱系数(MFCC：Mel-frequency CepstralCoefficients)、日内瓦极简声学参数集(eGeMAPS：Geneva Minimalistic AcousticParameter Set)、日志库(Logbank)等的语音数据、频率以及频谱分析模块中的一个以上的模块而生成用户的语音特征数据DF₂。

此时，在所述语音特征数据提取步骤中，可以使用所述校正的语音数据，或者也可以不执行所述语音校正步骤而使用语音数据DS，从而生成语音特征数据DF₂。

并且，这是示例性的，至少一部分步骤可以与前后步骤同时执行，或者也可以调换顺序而执行。

可以执行利用第一学习模型LM₁，并基于面部特征数据DF₁生成对话判断数据P₁的对话状态推断步骤(S130)。

在对话状态推断步骤(S130)中，可以利用第一学习模型LM₁感测在之前状况中的对话与否，并且可以从面部特征数据DF₁中感测面部要素的特征以及移动，从而可以感测是否处于对话状态。

详细地，对话状态推断模块320可以使用用户的面部特征数据DF₁的全部或者一部分，并利用用户是否处于对话状态的第一学习模型LM₁来生成作为判断是否处于对话中的对话判断数据P₁。

此时，面部特征数据DF₁可以包括针对与识别对象区域A中的用户的嘴对应的部分的嘴影像数据DV₂。

并且，可以利用第一学习模型LM₁而从嘴影像数据DV₂生成针对用户是否处于对话状态的对话判断数据P₁。

此后，执行如下手检测推断步骤(S320)：由影像数据DV检测出针对跟踪对象区域B的手影像数据DV₁，并利用第二学习模型LM₂生成基于手影像数据DV₁的位置推断数据DM₁。

此时，可以实现使用第二学习模型LM₂而针对手的位置的之前状况进行时间推断。例如，可以判断手是否暂时与面部重叠。

并且，在手检测推断步骤(S320)中，可以生成针对位置推断数据DM₁的位置推断特征图FM₁，并可以基于子特征图FM、状况判断数据P以及位置推断特征图FM₁来推断出用户的情绪状态。

详细地，位置推断特征图FM₁可以包括手的移动中的有意义的信息(能够确认针对手的手势的特征以及针对手的位置的信息等)。

此后，执行如下面部重叠检查步骤(S330)：基于面部特征数据DF₁以及位置推断数据DM₁来判断识别对象区域A和跟踪对象区域B是否重叠，并根据重叠与否的判断结果而生成重叠判断数据P₂。

详细地，重叠判断数据P₂可以包括判断识别对象区域A和跟踪对象区域B的重叠与否而决定识别对象区域A中的相应的面部特征数据DF₁和语音特征数据DF₂的重要度以及使用与否的一个以上的参数。

参照图8，主推断步骤(S400)包括多个子特征图生成步骤(S410)、多模式特征图生成步骤(S420)以及情绪识别推断步骤(S430)。

首先，执行如下的多个子特征图生成步骤(S410)：利用第三学习模型LM₃，基于语音特征数据DF₂以及面部特征数据DF₁来生成针对语音特征数据DF₂以及面部特征数据DF₁的多个子特征图FM。

此后，执行如下的多模式特征图生成步骤(S420)：第三学习模型LM3参照状况判断数据P而从多个子特征图FM生成多模式特征图M。

此时，状况判断数据P可以具有根据用户的状况而预设的状况判断值PV，并且，在多模式特征图生成步骤(S420)中，将状况判断值PV应用于多个子特征图FM中的至少一个，从而可以包括多模式特征图M。

并且，在多模式特征图生成步骤(S420)中，可以从手检测推断模块320生成位置推断特征图FM₁，并且可以基于子特征图FM、状况判断数据P以及位置推断特征图FM₁来生成对用户的情形状态进行推断的多模式特征图M。

此后，执行使用第四学习模型LM₄而基于多模式特征图M来推断出情绪状态的情绪识别推断步骤(S430)。

此时，第四学习模型LM₄可以是如同诸如长短期记忆网络(LSTM：Long Short-TermMemory)、循环神经网络(RNNs：Recurrent Neural Network)、门控循环单元(GRU：GatedRecurrent Unit)等的循环神经网的时间学习模型，并且可以是能够推断或者分析时间特征和空间特征的人工智能模型、机器学习、深度学习方法中的至少一个方法。

参照图9，在(A)阶段中，表示用户将手贴在面部，并且表示手并未遮住嘴和鼻子的状况。

通过影像输入部110输入用户的影像数据DV，并且通过语音输入部120输入用户的语音数据DS。

此后，影像预处理部210生成经过影像预处理的面部特征数据DF₁，并且，通过语音预处理部220生成经过语音预处理的语音特征数据DF₂，影像预处理部210基于可识别的用户的眼睛、鼻子、嘴的面部要素位置信息AL来设定包含眼睛识别区域A₁、鼻子识别区域A₂、嘴识别区域A₃的识别对象区域A，并将识别对象区域A传送至初步推断部300。

此后，初步推断部300生成针对从影像数据DV检测出的跟踪对象区域B₁的手影像数据DV₁。

此时，初步推断部300通过手影像数据DV₁生成确认手的移动的位置推断数据DM₁，并基于将位置推断数据DM₁作为基础的跟踪对象区域B₁与识别对象区域A的重叠与否的判断来生成重叠判断数据P₂。

在此，重叠判断数据P₂可以包括表示使用眼睛识别区域A₁、鼻子识别区域A₂、嘴识别区域A₃的参数。

并且，对话状态推断模块310通过基于嘴影像数据DV₂的嘴识别区域A₃来判断是否处于对话状态，从而生成对话判断数据P₁。

此后，子特征图生成部410使用第三学习模型LM₃而针对与眼睛、鼻子、嘴对应的面部特征数据DF₁生成多个子特征图FM。

此后，多模式特征图生成部420将多个子特征图FM和相当于手的位置跟踪特征图FM₁整合而生成多模式特征图M。

此后，可以通过第四学习模型LM₄而考虑之前的用户的动作来推断出情绪识别，并将其表示为情绪识别结果。

((B)阶段)(B)阶段表示与(A)阶段连续的动作。

例如，可以将(B)阶段假设为继(A)阶段而以30FPS的速度连续拍摄的影像。

与(A)阶段相同地，通过影像输入部110输入用户的影像数据DV，并且通过语音输入部120输入用户的语音数据DS。

此后通过语音预处理部220生成经过语音预处理的语音特征数据DF₂，影像预处理部210生成面部特征数据DF₁以及面部要素位置信息AL，基于面部要素位置信息AL来设定包含眼睛识别区域A₁、鼻子识别区域A₂、嘴识别区域A₃的识别对象区域A，并将识别对象区域A传送至初步推断部300。

此时，识别对象区域A的大小可以根据用户的动作而变化。

相比于(A)阶段，(B)阶段表示识别对象区域A的尺寸根据动作而变化的情形。

此后，初步推断部300可以生成基于手影像数据DV₁的位置推断数据DM₁，从而可以跟踪从(A)阶段到(B)阶段的手的移动。

初步推断部300基于将位置推断数据DM₁作为基础的跟踪对象区域B₂与识别对象区域A的重叠与否的判断来生成重叠判断数据P₂。

并且，初步推断部300判断是否处于对话状态而生成对话判断数据P₁。

此时，初步推断部300可以利用第一学习模型LM₁，考虑在包括(A)阶段的之前状况下作为情绪识别对象的用户的对话与否是否持续而判断是否处于对话状态。

例如，在推断为用户在(A)阶段中并不处于对话状态的情况下，以上述结果为背景，即使在(B)阶段中，基于嘴识别区域A3，用户的嘴形暂时与对话状态下的嘴形类似，初步推断部300也可以利用第一学习模型LM1判断为用户并不处于对话状态。即，初步推断部300可以将在(A)阶段中的对话状态判断结果作为基础，执行针对在作为下一个场面的(B)阶段中的对话状态判断与否的推断。

此后主推断部400使用第三学习模型LM₃而针对接收到的面部特征数据DF₁以及语音特征书DF₂生成多个子特征图FM，并整合多个子特征图FM和相当于手的位置推断特征图FM₁而生成多模式特征图M。

此后主推断部400可以通过第四学习模型LM₄而考虑之前((A)阶段)的用户的行动来推断情绪识别，并将其表示为情绪识别结果。

((C)阶段)在(B)阶段之后，用户表现出用手遮住嘴的动作。

影像预处理部210基于可识别的用户的眼睛的面部要素位置信息AL来设定包括眼睛识别区域A₁的识别对象区域A，并将识别对向区域A传送至初步推断部300。

此后，初步推断部300生成针对从影像数据DV提取的跟踪对象区域B₃的手影像数据DV₁。此时，通过手影像数据DV₁生成确认手的移动的位置推断数据DM₁，并基于将位置推断数据DM₁作为基础的跟踪对象区域B₃与识别对象区域A的重叠与否的判断来生成重叠判断数据P₂。

在此，重叠判断数据P₂可以包括表示基于眼睛识别区域A₁的面部特征数据DF₁的使用与否或者应用于面部特征数据DF₁的权重的参数。

并且，初步推断部300识别在(A)阶段、(B)阶段中作为识别对象区域A的鼻子识别区域A₂或者嘴识别区域A₃与作为针对用户的手位置的区域的跟踪对象区域B₃之间的重叠，从而使表示在情绪识别推断中除外或者重要度下降的参数可以包括于重叠判断数据P₂。

并且，初步推断部300可以考虑与嘴识别区域A₃对应的嘴影像数据DV₂并未被识别的状况和用户在之前是否处于对话状态的判断结果，使表示语音特征数据DF₂的使用判断与否的值包括于对话判断数据P₁。

在此，所述之前是否处于对话状态的判断结果通过时间学习模型推断。此时，时间学习模型可以是如同诸如长短期记忆网络(LSTM：Long Short-Term Memory)、循环神经网络(RNNs：Recurrent Neural Network)、门控循环单元(GRU：Gated Recurrent Unit)等循环神经网的时间学习模型。

此后，子特征图生成部410使用第三学习模型LM₃而针对与眼睛对应的区域的面部特征数据DF₁生成多个子特征图FM。

此后，多模式特征图生成部420整合多个子特征图FM和相当于手的位置推断特征图FM₁而生成多模式特征图M。

此后，情绪识别推断部430可以通过第四学习模型LM₄而考虑之前的用户的动作来推断情绪识别，并将此表示为情绪识别结果。

在本实施例中，仅在根据识别对象区域A的变化强度的情绪识别构成方面存在差异，对于其他构成而言，实际上与在图1至图9所说明的多模式情绪识别装置以及其方法相同，因此在以下以本实施例的特征性的部分为中心进行说明。

参照图10，根据本发明的实施例的多模式情绪识别装置1的初步推断部300生成针对识别对象区域A、A'的位移d或者识别对象区域A、A'的大小变化的识别对象区域变化数据。

更加详细地，所述识别对象区域变化数据包括于状况判断数据P，并且可以是针对识别对象区域A(即，与用户的面部区域对应的区域)的变化的权重数据。

当在发生用户的头部姿势(Head pose)的变化量的情况下发生识别对象区域A的变化量时，示例性地，在用户朝左侧或者朝右侧摇晃头的情况下，或者在用户朝相机侧靠近(识别对象区域A的尺寸变大)或者用户朝相机的相反侧远离(识别对象区域A的尺寸变小)的情况下发生识别对象区域A的变化量时，根据本发明实施例的多模式情绪识别装置1将所述识别对象区域变化数据的应用权重改变，从而可以提升用户的情绪识别准确度。

示例性地，在本实施例中，在识别对象区域A的变化量变大的情况下，所述应用权重增加，在识别对象区域A的变化量变小的情况下，所述应用权重减少。

此时，多模式特征图生成部420可以参照包括所述识别对象区域变化数据的状况判断数据P而由多个子特征图FM生成多模式特征图M。

图11是利用根据本发明的又一实施例的多模式情绪识别装置而示出根据状况变化的情绪识别过程的示例性的图。

在本实施例中，仅在识别对象区域A以及跟踪对象区域B形成为多个的构成上存在差异，对于其他构成而言，实际上与在图1至图9所说明的多模式情绪识别装置以及其方法相同，因此在以下以本实施例的特征性的部分为中心进行说明。

参照图11，根据本发明的实施例的多模式情绪识别装置1可以对多个用户进行情绪识别。

根据本发明的实施例的多模式情绪识别装置1对第一用户形成第一识别对象A_A以及第一跟踪对象区域B_A，对第二用户形成第二识别对象A_B以及第二跟踪对象区域B_B，对第三用户形成第三识别对象A_C以及第三跟踪对象区域B_C。而且，多模式情绪识别装置1可以基于按每个用户形成的识别对象区域A_A、A_B、A_C以及跟踪对象区域B_A、B_B、B_C来识别每个用户的情绪。

此时，初步推断部300基于跟踪对象区域B_A、B_B、B_C以及识别对象区域A_A、A_B、A_C来生成针对每个用户的状况判断数据。

并且，根据本发明的实施例的多模式情绪识别装置1对多个用户的对话状态分别进行判断，从而生成每个用户的固有声音信息，并可以将其应用于每个用户的情绪识别。

示例性地，若判断为在第一状况下第一用户处于对话状态，且第二用户以及第三用户并不处于对话状态，则多模式情绪识别装置1将在第一状况下获取的所述声音识别为所述第一用户的声音信息。多模式情绪识别装置1反复执行上述过程，从而可以生成每个用户的固有的所述声音信息。此时，所述声音信息可以包括针对声音的固有波长等的参数。

另外，若判断为多个用户中至少两人以上的用户同时处于对话状态，则多模式情绪识别装置1可以在获取到的对话中基于每个用户的所述声音信息来区分每个用户的对话状态，并进行每个用户的情绪识别。

另外，根据本实施例的多模式情绪识别装置1在不知道特定的声音是谁的声音的情况下，基于用户的嘴形判断特定的用户的说话状态与否，若判断为某一个特定的用户处于对话状态，则可以将所述特定声音识别为对话状态下的用户的声音。

并且，在3人对话的状况中的某一特定的时间点，输入有特定的人的声音，却确认为第一用户以及第二用户并不处于对话状态，且剩余的第三用户用手遮住自己的嘴而无法判断对话状态，在此情况下，根据本实施例的多模式情绪识别装置1将在所述特定时间点输入的所述声音识别为所述第三用户的声音，从而执行针对所述用户的情绪识别。

提供的实施例可以应用于多个用户并未彼此面对且同时凝视一个或者两个以上的相机的状况。示例性地，本发明的实施例可以应用于多个用户同时观看一个显示器的状况或者多个用户乘坐在车辆内部的状况。

图12是利用根据本发明的又一实施例的多模式情绪识别装置而示出根据状况变化的情绪识别过程的示例性的图。本实施例在将无法形成特征图的视频帧排除，并赋予了能够形成特征图的视频帧赋予权重并识别用户的情绪的构成这一方面存在差异，对于其他构成而言，实际上与在图1至图9所说明的多模式情绪识别装置以及其方法相同，因此在以下以本实施例的特征性的部分为中心进行说明。

参照图12，在用于识别用户的情绪的影像的多个帧中的某一特定的帧由于过度照明或者意外的数据错误等而受损，从而无法形成针对所述特定的帧的特征图的情况下，根据本发明的实施例的多模式情绪识别装置1并不会对无法形成特征图的所述特定的帧应用时间学习模型。多模式情绪装置1利用所述特定的帧的之前帧(即，形成特征图的最后一个帧)来代替不应用所述时间学习模型的所述特定的帧，以将其设定为所述特定的帧的代替帧，从而对所述代替帧应用所述时间学习模型。此时，对于所述代替帧应用根据未能够形成特征图的时间等的权重而应用所述时间学习模型。

所述时间学习模型可以是如同诸如长短期记忆网络(LSTM：Long Short-TermMemory)、循环神经网络(RNNs：Recurrent NeuralNetwork)、门控循环单元(GRU：GatedRecurrent Unit)等循环神经网的时间学习模型。

示例性地，如图12的(A)以及(B)所示，在第一帧F₁以及第二帧F₂检测出用于形成特征图的识别对象区域A以及跟踪对象区域B。另外，如图12的(C)至(E)所示，在第三帧F₃至第五帧F₅中由于过度照明等而并不会检测出用于形成特征图的识别对象区域A以及跟踪对象区域B。此后，如图12的(F)以及(G)所示，在第六帧F₆以及第七帧F₇中检测出用于形成特征图的识别对象区域A以及跟踪对象区域B。第一帧F₁至第七帧F₇是按时间顺序的连续的帧，并且多模式情绪识别装置1无法形成特征图的时间(即，特征图非检测时间t_gap)是第三帧F₃至第五帧F₅的时间。并且，第二帧F₂是与相当于特征图非检测时间t_gap的特征图非检测区间最接近的之前的帧，即，为了形成特征图而检测出识别对象区域A以及跟踪对象区域B的最后一个帧，在本实施例中，第二帧F₂可以为针对第三帧F₃至第五帧F₅的所述代替帧。

另外，当对所述代替帧应用所述时间学习模型时，根据本实施例的多模式情绪识别装置1应用针对所述代替帧的代替权重w。

根据本实施例的代替权重w满足如下数学式。

【数学式1】

此时，T_min是基准最小时间，T_max是基准最大时间。

在根据本实施例的多模式情绪识别装置1中，在特征图非检测时间t_gap小于或等于基准最小时间T_min的情况下，针对所述代替帧的代替权重w是1，即，应用与能够生成所述特征图的其他帧(本实施例中是第一帧F₁、第二帧F₂、第六帧F₆以及第七帧F₇)相同的权重而应用所述时间学习模型。即，在特征图非检测时间t_gap过小的情况下，将在特征图非检测时间t_gap期间的所述时间学习模型应用为与其他帧相同，从而能够连续地执行针对用户的情绪识别。

并且，在根据本实施例的多模式情绪识别装置1中，在特征图非检测时间t_gap大于或等于基准最大时间T_max的情况下，将代替权重w设定为0。即，在特征图非检测时间t_gap过大的情况下，使在特征图非检测时间t_gap期间的所述时间学习模型应用除外，从而可以防止针对情绪识别结果的失真。

而且，在根据本实施例的多模式情绪识别装置1中，在特征图非检测时间t_gap大于基准最小时间T_min且小于基准最大时间T_max的情况下，代替权重w是将基准最大时间T_max减去特征图非检测时间t_gap的值v₁除以基准最大时间T_max和基准最小时间T_min的差值v₂的结果值。即，特征图非检测时间t_gap越接近于基准最小时间T_min，代替权重w变大，并且特征图非检测时间t_gap越接近于基准最大时间T_max，代替权重w变小。

本实施例中，以将所述特征图非检测区间的之前帧设定为所述代替帧的构成进行说明，然而将所述特征图非检测区间结束后的下一个帧(即、第六帧F₆)设定为所述代替帧的构成也可以包括于本发明的实施例。

现有技术中，在由于过度的照明等而无法检测出特征图的情况下，从检测出所述特征图的时间点开始重新执行情绪识别，从而存在情绪识别过程中断且使情绪识别准确度降低的问题。对此，根据本发明的实施例，以能够检测出所述特征图的代替帧代替无法检测出所述特征图的帧而执行用户的情绪识别，从而具有能够实现执行连续的情绪识别，并且能够提升情绪识别准确度的优点。

如上所述，虽然借由限定的实施例和附图对实施例进行了说明，然而在本领域中具有基本知识的人员能够从上述记载中实现多种修改以及变形。例如，即使所说明的技术以与说明的方法不同的顺序执行，和/或说明的系统、结构、装置、电路等的构成以与说明的方法不同的形态结合或者组合，或者被其他构成要素或者等同物而替代或者置换，也可以达成适当的结果。

因此，其他实现、其他实施例以及与权利要求书的范围等同的范围也将落入权利要求书的范围。

以上所述的系统或者装置可以实现为硬件构成要素、软件构成要素和/或硬件构成要素以及软件构成要素的组合。例如，实施例中所述的系统、装置以及构成要素可以利用一个以上的通用计算机或者特殊目的计算机(例如，处理器、控制器、算术逻辑单元(ALU：Arithmetic Logic Unit)、数字信号处理器(Digital signal processor)、微型计算机、现场可编程阵列(FPA：Field Programmable Array)、可编程逻辑单元(PLU：ProgrammableLogic Unit)、微型处理器或者可以执行且响应指令(Instruction)的其他任何装置)而实现。处理装置可以运行操作系统(OS)以及在所述操作系统上运行的一个以上的软件应用。并且，处理装置还可以响应于软件的运行而接近、存储、操作、处理以及生成数据。为了便于理解，处理装置也有以使用一个的情形进行说明的情况，然而在本技术领域中具有基本知识的人员可以得知处理装置可以包括多个处理要素(Processing Element)和/或多个类型的处理要素。例如，处理装置可以包括多个处理器或者一个处理器以及一个控制器。并且，也可以实现为如并行处理器(Parallel Processor)等其他处理构成(ProcessingConfiguration)。

软件可以包括计算机程序(Computer Program)、代码(Code)、指令(Instruction)或者其中的一个以上的组合，可以以根据需要而操作的方式构成处理装置，也可以单独地或者共同地(collectively)指示处理装置。为了由处理装置而解释或者向处理装置提供指令或者数据，软件和/或数据可以被永久地或者短暂地编入(embody)某一类型的机器、构成要素(Component)、物理装置、虚拟装置(Virtual Equipment)、计算机存储介质或者装置、或者传送的信号波(Signal Wave)。软件也可以分散到连接于网络的计算机系统上，以分散的方法被存储或者运行。软件以及数据可以存储于一个以上的计算机可读记录介质。

根据实施例的方法可以实现为通过多种计算手段而能够被运行的程序指令形态，以可以记录于计算机可读记录介质。所述计算机可读记录介质可以单独地或者以组合的方式包括程序指令、数据、数据结构等。记录于所述介质的程序指令是为了实施例而特别设计且构成的，然而也可以是被计算机软件技术人员所公知而能够使用的程序指令。计算机可读记录介质的例子包括：磁性介质(Magnetic Media)，诸如软磁盘、磁盘等；光记录介质(Optical Media)，如CD-ROM、DVD等；磁性-光介质(Magneto-optical Media)，如光磁软盘(Floptical Disk)等；以及以存储并运行程序指令的方式特别构成的硬件装置，诸如只读存储器(ROM)、随机存储器(RAM)、闪存等。程序指令的例子不仅包括如借由编译器而编写的机器码，还包括可以使用解释程序等借由计算机而运行的高级语言代码。所述的硬件装置为了执行实施例的操作而构成为作为一个以上的软件模块而操作，而且反之亦然。

如上所述的本发明的多种实施例可以以各实施例相互独立或者互补的方式应用。

具体实施方式

具体事实方式已在上述的最优事实方式中一同记载。

产业上的可利用性

本发明涉及一种多模式情绪识别装置以及方法，能够适用于用于识别用户的情绪的多种装置或者方法，并且由于具有重复使用可能性，从而在产业上具有可利用性。

Claims

1.一种多模式情绪识别装置，作为利用人工智能的多模式情绪识别装置，包括：

数据输入部，接收用户的影像数据以及语音数据；

数据预处理部，包括语音预处理部以及影像预处理部，所述语音预处理部从所述语音数据生成语音特征数据，所述影像预处理部从所述影像数据生成一个以上的面部特征数据；

初步推断部，基于所述影像数据来生成与用户的状况根据时间顺序的变化与否相关的状况判断数据；以及

主推断部，基于所述语音特征数据或者所述面部特征数据来生成至少一个子特征图，并基于所述子特征图以及所述状况判断数据来推断用户的情绪状态。

2.如权利要求1所述的多模式情绪识别装置，其中，

所述状况判断数据包括对话判断数据或者重叠判断数据，所述对话判断数据是针对用户是否处于对话状态的数据，所述重叠判断数据是针对作为影像数据的整体影像区域中的一部分的跟踪对象区域和与所述跟踪对象区域不同的识别对象区域是否重叠的数据，

所述初步推断部基于所述面部特征数据来生成判断用户是否处于对话状态的对话判断数据，

其中，所述初步推断部基于所述影像数据来生成用于推断所述跟踪对象区域的位置的位置推断数据，并基于所述面部特征数据以及所述位置推断数据来生成针对所述跟踪对象区域和所述识别对象区域是否重叠的重叠判断数据。

3.如权利要求2所述的多模式情绪识别装置，其中，

所述初步推断部包括：

对话状态推断模块，利用第一学习模型，并且基于所述面部特征数据生成所述对话判断数据。

4.如权利要求3所述的多模式情绪识别装置，其中，

所述面部特征数据包括：

嘴影像数据，所述嘴影像数据是针对在所述识别对象区域中对应于用户的嘴的部分的数据，

所述对话状态推断模块利用所述第一学习模型而从所述嘴影像数据生成针对用户是否处于对话状态的所述对话判断数据。

5.如权利要求2所述的多模式情绪识别装置，其中，

所述初步推断部包括：

手检测推断模块，从所述影像数据检测出针对所述跟踪对象区域的手影像数据，并利用第二学习模型而生成基于所述手影像数据的所述位置推断数据；以及

面部重叠检查模块，基于所述面部特征数据以及所述位置推断数据来判断所述识别对象区域和所述跟踪对象区域是否重叠，并根据重叠与否判断结果而生成所述重叠判断数据。

6.如权利要求5所述的多模式情绪识别装置，其中，

所述手检测推断模块生成针对所述位置推断数据的位置推断特征图，

并且，基于所述子特征图、所述状况判断数据以及所述位置推断特征图来推断用户的情绪状态。

7.如权利要求2所述的多模式情绪识别装置，其中，

所述状况判断数据还包括针对所述识别对象区域的变化的识别对象区域变化数据，

随着所述识别对象区域的变化量越大，所述识别对象区域变化数据的权重增加。

8.如权利要求2所述的多模式情绪识别装置，其中，

按多个用户分别形成所述跟踪对象区域以及所述识别对象区域，

所述初步推断部基于所述跟踪对象区域以及所述识别对象区域来生成针对各用户的所述状况判断数据，并对多个用户的对话状态分别进行判断而生成各用户的固有声音信息，从而将所述固有声音信息应用于各用户的情绪识别。

9.如权利要求1所述的多模式情绪识别装置，其中，

所述主推断部包括：

多个子特征图生成部，利用第三学习模型而基于所述语音特征数据以及所述面部特征数据来生成针对所述语音特征数据以及所述面部特征数据的所述多个子特征图；

多模式特征图生成部，参照所述状况判断数据而从所述多个子特征图生成多模式特征图；以及

情绪识别推断部，利用第四学习模型而基于所述多模式特征图来推断所述情绪状态。

10.如权利要求9所述的多模式情绪识别装置，其中，

所述状况判断数据具有根据所述用户的状况而预设的状况判断值，

所述多模式特征图生成部将所述状况判断值应用于所述多个子特征图中的至少一个而生成所述多模式特征图。

11.如权利要求1所述的多模式情绪识别装置，其中，

所述语音预处理部包括：

语音校正模块，对所述语音数据进行校正；以及

语音特征数据提取模块，提取经过所述语音校正模块的语音数据的特征而生成所述语音特征数据。

12.如权利要求1所述的多模式情绪识别装置，其中，

所述影像预处理部包括：

面部检测器，从所述影像数据的整体区域检测出识别对象区域，所述识别对象区域是对应于用户的面部的区域；

图像预处理器，对所述识别对象区域进行校正；以及

面部要素提取器，设定位于所述识别对象区域内且比所述识别对象区域小的子识别对象区域，并生成所述子识别对象区域的所述面部特征数据。

13.如权利要求12所述的多模式情绪识别装置，其中，

所述影像预处理部还包括：

关键点检测模块，提取所述识别对象区域的面部要素位置信息。

14.如权利要求12所述的多模式情绪识别装置，其中，

所述影像预处理部包括：

位置调整器，基于所述识别对象区域的所述面部要素位置信息来调整位置。

15.如权利要求1所述的多模式情绪识别装置，还包括：

输出部，利用激活函数而输出所述情绪状态的结果。

16.如权利要求1所述的多模式情绪识别装置，其中，

所述影像数据包括多个帧，

在无法基于所述多个帧中的任意预定的帧来形成特征图的情况下，对于无法形成所述特征图的全部帧排除应用时间学习模型，并且将无法形成所述特征图的帧之前的能够形成特征图的最后一个帧设定为代替帧，并对所述代替帧应用所述时间学习模型来识别用户的所述情绪状态，

与无法形成所述特征图的全部帧对应的时间是特征图非检测时间，且在所述特征图非检测时间期间内对所述代替帧应用所述时间学习模型。

17.一种多模式情绪识别方法，作为利用人工智能的多模式情绪识别方法，包括如下：

数据数据步骤，接收用户的影像数据以及语音数据；

数据预处理步骤，包括语音预处理步骤以及影像预处理步骤，在所述语音预处理步骤中，从所述语音数据生成语音特征数据，在所述影像预处理步骤中，从所述影像数据生成一个以上的面部特征数据；

初步推断步骤，基于所述影像数据来生成与用户的状况根据时间顺序的变化与否相关的状况判断数据；以及

主推断步骤，基于所述语音特征数据或者所述面部特征数据来生成至少一个子特征图，并基于所述子特征图以及所述状况判断数据来推断用户的情绪状态。

18.如权利要求17所述的多模式情绪识别方法，其中，

所述状况判断数据包括对话判断数据或者重叠判断数据：所述对话判断数据是针对用户是否处于对话状态的数据，所述重叠判断数据是针对作为影像数据的整体影像区域中的一部分的跟踪对象区域和与所述跟踪对象区域不同的识别对象区域是否重叠的数据，

所述初步推断步骤基于所述面部特征数据来生成判断用户是否处于对话状态的对话判断数据，

其中，所述初步推断步骤基于所述影像数据来生成用于推断所述跟踪对象区域的位置的位置推断数据，并基于所述面部特征数据以及所述位置推断数据来生成针对所述跟踪对象区域和所述识别对象区域是否重叠的重叠判断数据。

19.如权利要求18所述的多模式情绪识别方法，其中，

所述初步推断步骤包括：

对话状态推断步骤，利用第一学习模型，并且基于所述面部特征数据生成所述对话判断数据，

所述面部特征数据包括：

嘴影像数据，所述嘴影像数据是针对在所述识别对象区域中对应于用户的嘴的部分的影像数据，

所述对话状态推断步骤利用所述第一学习模型而从所述嘴影像数据生成针对用户是否处于对话状态的所述对话判断数据。

20.如权利要求18所述的多模式情绪识别方法，其中，

所述初步推断步骤包括：

手检测推断步骤，从所述影像数据检测出针对所述跟踪对象区域的手影像数据，并利用第二学习模型而生成基于所述手影像数据的所述位置推断数据；以及

面部重叠检查步骤，基于所述面部特征数据以及所述位置推断数据来判断所述识别对象区域和所述跟踪对象区域是否重叠，并根据重叠与否判断结果而生成所述重叠判断数据。

21.如权利要求20所述的多模式情绪识别方法，其中，

所述手检测推断步骤生成针对所述位置推断数据的位置推断特征图，并基于所述子特征图、所述状况判断数据以及所述位置推断特征图来推断用户的情绪状态。

22.如权利要求17所述的多模式情绪识别方法，其中，

所述主推断步骤包括：

多个子特征图生成步骤，利用第三学习模型而基于所述语音特征数据以及所述面部特征数据来生成针对所述语音特征数据以及所述面部特征数据的所述多个子特征图；

多模式特征图生成步骤，参照所述状况判断数据而从所述多个子特征图生成多模式特征图；以及

情绪识别推断步骤，利用第四学习模型而基于所述多模式特征图来推断所述情绪状态。

23.如权利要求22所述的多模式情绪识别方法，其中，

所述多模式特征图生成步骤将所述状况判断值应用于所述多个子特征图中的至少一个而生成所述多模式特征图。

24.如权利要求17所述的多模式情绪识别方法，其中，

所述语音预处理步骤包括：

语音校正步骤，对所述语音数据进行校正；以及

语音特征数据提取步骤，提取经过所述语音校正模块的语音数据的特征而生成所述语音特征数据。

25.如权利要求17所述的多模式情绪识别方法，其中，

所述影像预处理步骤包括：

面部检测步骤，从所述影像数据的整体区域检测出识别对象区域，所述识别对象区域是对应于用户的面部的区域；

图像预处理步骤，对所述识别对象区域进行校正；以及

面部要素提取步骤，设定位于所述识别对象区域内且比所述识别对象区域小的子识别对象区域，并生成所述子识别对象区域的所述面部特征数据。

26.如权利要求23所述的多模式情绪识别方法，其中，

所述影像预处理步骤还包括：

关键点检测步骤，提取所述识别对象区域的面部要素位置信息。

27.如权利要求26所述的多模式情绪识别方法，其中，

所述影像预处理步骤还包括：

位置调整步骤，基于所述识别对象区域的所述面部要素位置信息来调整位置。

28.一种计算机可读存储介质，存储利用人工智能执行多模式情绪识别方法的计算机程序代码，其中，

所述利用人工智能的多模式情绪识别方法包括如下：

数据数据步骤，接收用户的影像数据以及语音数据；