CN110705413B

CN110705413B - 基于视线方向和lstm神经网络的情感预测方法及系统

Info

Publication number: CN110705413B
Application number: CN201910903387.4A
Authority: CN
Inventors: 徐枫; 温佺; 娄昕; 杨东; 吕晋浩; 雍俊海; 戴琼海
Original assignee: Tsinghua University; Chinese PLA General Hospital
Current assignee: Tsinghua University; Chinese PLA General Hospital
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-09-20
Anticipated expiration: 2039-09-24
Also published as: CN110705413A

Abstract

本发明公开了一种基于视线方向和LSTM神经网络的情感预测方法及系统，其中，该方法包括：采集不同人物在不同情感状态下的脸部视频；确定所有视频帧的真实情感标签，并将每一帧的情感标签与该帧中人物的视线方向共同组成情感预测训练集；利用该训练集对长短期记忆深度神经网络进行训练，得到的包含最优参数的深度神经网络；最终向最优参数深度神经网络输入任意视频的人物视线方向，对当前帧进行情感预测。本发明实施例的方法，利用长短期记忆深度神经网络对连续视频帧中的视线方向和人类情感间的关系进行建模，通过该网络预测每个视频帧中人物的情感状况，从而在时域上对人物的情感变化进行判断。

Description

基于视线方向和LSTM神经网络的情感预测方法及系统

技术领域

本发明涉及计算机视觉、深度学习技术领域，特别涉及一种基于视线方向和LSTM神经网络的情感预测方法及系统。

背景技术

眼睛是人类的心灵之窗，在通过面部表情表达内心情感的基础上，人类更善于通过眼睛表达心理活动，如通过视线方向的快速变化和眨眼睛的频率表现高兴、悲伤、愤怒、恐惧等等情感。而不同于大尺度的面部表情，在发生不同心理活动时眼睛的变化不容易被察觉，且通过眼睛不容易直接判断人的心理活动。在人机交互中，若AI能够捕捉视线方向的变化从而判断人的心理情感状态，其便可给出更加恰当的交互内容；在诸多刑事案件中，公安人员在对犯罪嫌疑人的审讯中若通过视线方向的变化判断嫌疑人的心理活动，便可制定更优的侦破策略。因此，正是由于眼睛能够表达人类丰富的情感和心理活动，视线方向与情感表达之间的关系有着很高的科研和应用价值。

基于此，在无法由脸部直接表达情绪的情况下，如何通过视线方向变化，轻松地预测出其心理活动的技术问题，亟待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于视线方向和LSTM神经网络的情感预测方法，该方法所需的训练集易于获取，网络结构和输入输出简单易于实现，用户可根据网络输出的连续的情感标签直接的判断人物情感的发生和变化，对计算机视觉、人物情感分析判断有较大意义。

本发明的另一个目的在于提出一种基于视线方向和LSTM神经网络的情感预测系统。

为达到上述目的，本发明一方面提出了基于视线方向和LSTM神经网络的情感预测方法，包括以下步骤：采集人物脸部视频；确定所述人物脸部视频的真实情感标签和每一帧情感标签的视线方向，以构建情感预测训练集；利用所述情感预测训练集对长短期记忆深度神经网络进行训练，获得最优参数深度神经网络；向所述最优参数深度神经网络输入任意视频的人物视线方向，得到当前帧的情感预测标签。

本发明实施例的基于视线方向和LSTM神经网络的情感预测方法，通过采集人物不同在不同情感状态下的脸部视频和对应的连续的视线方向，对LSTM网络进行训练得到网络的最优参数，从而在处理未知情感标签的视频时，通过LSTM网络在前一时刻的状态和当前时刻的视线方向，直接判断前时刻的人物情感的发生和变化。

另外，根据本发明上述实施例的基于视线方向和LSTM神经网络的情感预测方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述人物脸部视频为任意人物不同情感下的脸部变化视频。

进一步地，在本发明的一个实施例中，所述确定所述人物脸部视频的真实情感标签和每一帧情感标签的视线方向，以构建情感预测训练集，包括：人为规定所述人物脸部视频的多个情感标签；获取所述人物脸部视频中每一帧的视线方向；搭建所述多个情感标签与所述每一帧的视线方向的映射关系，得到所述情感预测训练集。

进一步地，在本发明的一个实施例中，采用所述情感预测训练集中的真实情感标签对所述长短期记忆深度神经网络进行监督训练。

为达到上述目的，本发明另一方面提出了一种基于视线方向和LSTM神经网络的情感预测系统，包括：采集模块，用于采集人物脸部视频；构建模块，用于确定所述人物脸部视频的真实情感标签和每一帧情感标签的视线方向，以构建情感预测训练集；训练模块，用于利用所述情感预测训练集对长短期记忆深度神经网络进行训练，获得最优参数深度神经网络；预测模块，用于向所述最优参数深度神经网络输入任意视频的人物视线方向，得到当前帧的情感预测标签。

本发明实施例的基于视线方向和LSTM神经网络的情感预测系统，通过采集人物不同在不同情感状态下的脸部视频和对应的连续的视线方向，对LSTM网络进行训练得到网络的最优参数，从而在处理未知情感标签的视频时，通过LSTM网络在前一时刻的状态和当前时刻的视线方向，直接判断前时刻的人物情感的发生和变化。

另外，根据本发明上述实施例的基于视线方向和LSTM神经网络的情感预测系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述构建模块包括：设定单元，用于人为规定所述人物脸部视频的多个情感标签；获取单元，获取所述人物脸部视频中每一帧的视线方向；搭建单元，用于搭建所述多个情感标签与所述每一帧的视线方向的映射关系，得到所述情感预测训练集。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于视线方向和LSTM神经网络的情感预测方法流程图；

图2为根据本发明实施例的基于视线方向和LSTM神经网络的情感预测方法的总体流程图；

图3为根据本发明实施例的长短期记忆深度神经网络的整体链式结构图；

图4为根据本发明实施例的长短期记忆深度神经网络中每个单元的具体结构图；

图5为根据本发明实施例的基于视线方向和LSTM神经网络的情感预测系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

人类情感的表达不是瞬时的，通常会持续数百至数千毫秒，因此相比独立的视频帧，从连续的若干帧视频中对情感状态进行分析将更加鲁棒和精确。在计算机视觉和深度学习领域，长短期记忆深度神经网络(LSTM)是一种时域循环的神经网络，适于处理时序序列中长期的相互依赖关系。因此，本发明实施例利用LSTM网络对连续视频帧中的视线方向和人类情感间的关系进行建模，通过该网络预测每个视频帧中人物的情感状况，从而在时域上对人物的情感变化进行判断。

下面参照附图描述根据本发明实施例提出的基于视线方向和LSTM神经网络的情感预测方法及系统，首先将参照附图描述根据本发明实施例提出的基于视线方向和LSTM神经网络的情感预测方法。

图1是本发明一个实施例的基于视线方向和LSTM神经网络的情感预测方法流程图。

如图1所示，该基于视线方向和LSTM神经网络的情感预测方法包括以下步骤：

在步骤S101中，采集人物脸部视频。

在本发明的一个实施例中，人物脸部视频为任意人物不同情感下的脸部变化视频。

也就是说，采集不同人物在不同情感状态下的脸部视频。

在步骤S102中，确定人物脸部视频的真实情感标签和每一帧情感标签的视线方向，以构建情感预测训练集。

进一步地，在本发明的一个实施例中，确定人物脸部视频的真实情感标签和每一帧情感标签的视线方向，以构建情感预测训练集，包括：

人为规定人物脸部视频的多个情感标签；

获取人物脸部视频中每一帧的视线方向；

搭建多个情感标签与每一帧的视线方向的映射关系，得到情感预测训练集。

也就是说，采集人物在表达不同情感时的脸部视频后，人工赋予视频不同的情感标签，并获取视频中每一帧的视线方向，将所有拍摄视频的每一帧与该帧的人物视线方向相对应，组成训练集。

在步骤S103中，利用情感预测训练集对长短期记忆深度神经网络进行训练，获得最优参数深度神经网络。

进一步地，在本发明的一个实施例中，采用情感预测训练集中的真实情感标签对长短期记忆深度神经网络进行监督训练。

具体地，利用训练集中的连续视频帧的视线方向和与其对应的情感标签，对LSTM网络进行进行训练，网络输入连续视频帧的视线方向并输出每一帧的情感标签，同时使用训练集中的真实情感标签进行有监督的训练，得到网络最优参数，得到的包含最优参数的深度神经网络。

在步骤S104中，向最优参数深度神经网络输入任意视频的人物视线方向，得到当前帧的情感预测标签。

也就是说，处理任意视频时，随着视频中每一帧视线方向的输入，网络便可输出对当前帧的情感标签的预测。

需要说明的是，本发明实施例可借助开源深度学习平台，在普通PC机或工作站等硬件系统上实现。

下面结合附图和两个具体示例对本发明实施例做进一步的说明。

需要说明的是，实现下述两个具体示例的硬件PC配置为：CPU采用Intel(R)Core(TM)i7-4790 3.6GHz，内存为16G，操作系统为Windows 8。

示例一

如图2所示，首先训练数据的获取，即采集表达不同情感状态的面部视频并获取视频中每一帧的视线方向和对应的情感标签。

本发明实施例考虑六种常见的情感：高兴、悲伤、愤怒、恐惧、惊讶和厌恶，即采集不同人物处于这六种情感状态时的脸部视频。视频中的第t帧的情感标签即为其所在视频中人物所处的情感状态，记为L^t。然后还需获取视频中第t帧人物的视线方向，用极坐标形式表示为

其与当前帧对应的情感标签共同组成训练数据。因此整个训练集可表示为：

其中，T表示所有的视频帧。

如图3和4所示，本发明实施例再对深度神经网络的有监督训练，即使用上述训练集对网络进行训练，获得最优的网络参数。x^t表示LSTM模块在t时刻接收的输入，即视频中第t帧的视线方向

C^t表示LSTM模块在t时刻的细胞状态，h^t表示LSTM模块在t时刻的输出，其为一个6维情感特征向量；LSTM模块后接的S模块为一个Softmax分类器，其接收6维情感特征向量h^t，输出一个预测的1维情感标签l^t。使用训练集中的真实情感标签L^t对网络进行有监督的训练，便可得到网络的最优参数，从而对于任意一段视频和其对应的连续的视线方向，本发明实施例便可对该视频中每一帧的情感状态进行预测。

示例二

该示例包含一组不同人物展示不同情感的脸部视频和视频中每一帧对应的视线方向作为训练集，一段某个人物展示不同情感的脸部视频作为测试集，以及用于情感预测的深度神经网络。具体包含以下步骤：

(1)建立情感预测训练集。首先对不同人物处于六种常见情感状态下的脸部视频进行采集。为了触发人的不同情感，本示例采取的方法为与被采集人进行包含不同情感主题的对话，并在被采集人面前放置相机录制其在对话过程中的脸部视频。每种情感主题的对话分别进行录制，从而某段视频所拍摄的情感便作为其中所有视频帧的情感标签。之后将所有拍摄视频的每一帧与该帧的人物视线方向相对应，便组成了情感预测训练集。

(2)如图3和4所示，对基于LSTM的深度神经网络进行训练得到最优参数，用于预测视频中每一帧的情感标签。训练时按训练集中视频的时序依次向网络的LSTM模块A输入第t帧的视线方向，即

模块A输出的标签l^t由训练集中第t帧的真实情感标签L^t进行监督。本示例使用TensorFlow深度学习框架对网络进行训练，学习率为0.001，迭代次数为1000。得到网络的最优参数后，本示例便可使用该网络进行情感预测测试，即对训练集外的一段测试视频进行情感预测。

根据本发明实施例提出的基于视线方向和LSTM神经网络的情感预测方法，首先通过对不同情感的视频数据采集和视线方向跟踪，得到一个视线方向与情感标签对应的训练数据集，然后利用这一数据集对LSTM网络进行训练，获取最优参数，进而便可通过该网络对任意视频中的视线方向进行情感预测，该方法所需的训练集易于获取，网络结构和输入输出简单易于实现，用户可根据网络输出的连续的情感标签直接的判断人物情感的发生和变化，且利用连续的视线方向推测情感本身，和利用LSTM的特点使用其根据连续的视线方向训练和预测情感，使得预测更加准确，在诸多科研和应用领域有着重要的意义，如人机交互中智能体交互内容的设计、公安人员对犯罪嫌疑人心理活动的判断等等。

其次参照附图描述根据本发明实施例提出的基于视线方向和LSTM神经网络的情感预测系统。

图5是本发明一个实施例的基于视线方向和LSTM神经网络的情感预测系统结构示意图。

如图5所示，该基于视线方向和LSTM神经网络的情感预测系统10包括：采集模块100、构建模块200、训练模块300和预测模块400。

其中，采集模块100，用于采集人物脸部视频。构建模块200，用于确定人物脸部视频的真实情感标签和每一帧情感标签的视线方向，以构建情感预测训练集。训练模块300，用于利用情感预测训练集对长短期记忆深度神经网络进行训练，获得最优参数深度神经网络。预测模块400，用于向最优参数深度神经网络输入任意视频的人物视线方向，得到当前帧的情感预测标签。本发明实施的情感预测系统10利用LSTM网络对一段人脸视频中人物的情感进行预测，网络输入为与一段视频的视频帧对应的人物视线方向，就可输出为每一帧的情感标签，对计算机视觉、人物情感分析判断有较大意义。

进一步地，在本发明的一个实施例中，构建模块包括：设定单元，用于人为规定人物脸部视频的多个情感标签；获取单元，获取人物脸部视频中每一帧的视线方向；搭建单元，用于搭建多个情感标签与每一帧的视线方向的映射关系，得到情感预测训练集。

需要说明的是，前述对基于视线方向和LSTM神经网络的情感预测方法实施例的解释说明也适用于该系统，此处不再赘述。

根据本发明实施例提出的基于视线方向和LSTM神经网络的情感预测系统，首先通过对不同情感的视频数据采集和视线方向跟踪，得到一个视线方向与情感标签对应的训练数据集，然后利用这一数据集对LSTM网络进行训练，获取最优参数，进而便可通过该网络对任意视频中的视线方向进行情感预测，该系统所需的训练集易于获取，网络结构和输入输出简单易于实现，用户可根据网络输出的连续的情感标签直接的判断人物情感的发生和变化，且利用连续的视线方向推测情感本身，和利用LSTM的特点使用其根据连续的视线方向训练和预测情感，使得预测更加准确，在诸多科研和应用领域有着重要的意义，如人机交互中智能体交互内容的设计、公安人员对犯罪嫌疑人心理活动的判断等等。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于视线方向和LSTM神经网络的情感预测方法，其特征在于，包括以下步骤：

采集人物脸部视频；

确定所述人物脸部视频的真实情感标签和每一帧情感标签的视线方向，所述视线方向用极坐标形式表示，以构建情感预测训练集，其中，所述情感预测训练集表示为：

其中，S表示情感预测训练集，

表示人物脸部视频中第t帧的视线方向，L^t表示人物脸部视频中第t帧的真实情感标签，T表示人物脸部视频所有的视频帧；

利用所述情感预测训练集对长短期记忆深度神经网络进行训练，获得最优参数深度神经网络；以及

向所述最优参数深度神经网络输入任意视频的人物视线方向，得到当前帧的情感预测标签。

2.根据权利要求1所述的基于视线方向和LSTM神经网络的情感预测方法，其特征在于，所述人物脸部视频为任意人物不同情感下的脸部变化视频。

3.根据权利要求1所述的基于视线方向和LSTM神经网络的情感预测方法，其特征在于，所述确定所述人物脸部视频的真实情感标签和每一帧情感标签的视线方向，以构建情感预测训练集，包括：

人为规定所述人物脸部视频的多个情感标签；

获取所述人物脸部视频中每一帧的视线方向；

搭建所述多个情感标签与所述每一帧的视线方向的映射关系，得到所述情感预测训练集。

4.根据权利要求1所述的基于视线方向和LSTM神经网络的情感预测方法，其特征在于，采用所述情感预测训练集中的真实情感标签对所述长短期记忆深度神经网络进行监督训练。

5.一种基于视线方向和LSTM神经网络的情感预测系统，其特征在于，包括：

采集模块，用于采集人物脸部视频；

构建模块，用于确定所述人物脸部视频的真实情感标签和每一帧情感标签的视线方向，并用极坐标形式表示所述视线方向，以构建情感预测训练集，其中，所述情感预测训练集表示为：

其中，S表示情感预测训练集，

训练模块，用于利用所述情感预测训练集对长短期记忆深度神经网络进行训练，获得最优参数深度神经网络；以及

预测模块，用于向所述最优参数深度神经网络输入任意视频的人物视线方向，得到当前帧的情感预测标签。

6.根据权利要求5所述的基于视线方向和LSTM神经网络的情感预测系统，其特征在于，所述人物脸部视频为任意人物不同情感下的脸部变化视频。

7.根据权利要求5所述的基于视线方向和LSTM神经网络的情感预测系统，其特征在于，所述构建模块包括：

设定单元，用于人为规定所述人物脸部视频的多个情感标签；

获取单元，获取所述人物脸部视频中每一帧的视线方向；

搭建单元，用于搭建所述多个情感标签与所述每一帧的视线方向的映射关系，得到所述情感预测训练集。

8.根据权利要求5所述的基于视线方向和LSTM神经网络的情感预测系统，其特征在于，采用所述情感预测训练集中的真实情感标签对所述长短期记忆深度神经网络进行监督训练。