CN109784277B

CN109784277B - 一种基于智能眼镜的情绪识别方法

Info

Publication number: CN109784277B
Application number: CN201910043905.XA
Authority: CN
Inventors: 许封元; 冯京浩; 吴昊; 仲盛
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2023-04-28
Anticipated expiration: 2039-01-17
Also published as: CN109784277A

Abstract

本发明公开一种基于智能眼镜的情绪识别方法，在智能眼镜设备上，将单眼区域图像作为输入，喜悦、惊奇、恐惧、愤怒、悲伤、厌恶和中立七种表情；训练阶段，输入单眼区域图像，联合训练广义特征提取器和加速器；个性化阶段，通过广义特征提取器为录制视频中的每一帧提取特征，获取七个代表七种表情的特征；同时通过广义特征提取器的共享模块和加速器，为输入的每一帧提取特征，计算相应表情加速器对应的触发阈值；识别阶段，利用广义特征提取器的共享部分提取图像的特征，并通过加速器判断当前帧图像与前一帧图像的相似程度，如果相似，使用前一个类别标签作为当前帧图像的输出，否则，通过广义特征提取器的识别部分提取特征并判断其表情类别。

Description

一种基于智能眼镜的情绪识别方法

技术领域

本发明涉及一种基于智能眼镜的情绪识别方法，属于面部表情图像识别技术领域。

背景技术

个人智能眼镜设备，比如增强实现设备AR，虚拟现实设备VR，正在改变我们的生活。Oculus等VR设备给用户带来了非物理世界的沉浸式体验，而像HoloLens这样的AR设备在真实世界中和各种网络虚构的对象互动。我们设想这些个人眼镜设备将成为个人设备的中心枢纽，并在未来被用户大量使用。

在这些设备上，与用户的智能交互绝对是至关重要的，也是最重要的开发目标。眼镜设备需要经常代表用户本人与其他个人设备所有者通信。与智能手机等其他设备相比，智能通信水平基本上决定了所有者的用户体验及其偏好。影响智能设备的智能水平的一个关键因素是情绪识别能力，智能眼镜可以在适当的时间点感知所有者的精神变化并执行适当的操作。例如，生活日志记录是AR设备上的一种常用应用程序，作为基于视频的个人日记。记录视频中的大多数内容对用户来说都很无聊甚至无用。通过情感识别，眼镜设备可以智能地捕捉其拥有者的情感时刻，并制作紧凑的、有意义的生活记录摘要。这种方法也可以应用于其他情况，如个性化电影预告片制作，智能家居设置调整等。

然而，在这些智能眼镜中，目前缺少合适的情绪识别方法。传统技术依赖于整个面部的表情，但是很多情况下难以拍摄到完整的面部表情。有些方法引入了特殊硬件来感知用户的情绪，由于要增加额外的感知设备，往往使用户感到不便，还会增加额外的成本。

发明内容

发明目的：经调查研究发现，许多智能眼镜，比如FOVE、Tobii、Pupil等，都内置了摄像头，用于凝视检测等用途。这种带有内置摄像头的智能眼镜往往能实时的拍摄用户的眼睛区域。调查表明，在AR/VR设备的标准硬件组件中添加这种摄像头将成为未来的一种趋势。因此，我们想研究一种新的基于视觉的个人情绪识别方法，仅基于单眼区域的变化识别用户当前的感情，即一种基于智能眼镜的情绪识别方法。

技术方案：一种基于智能眼镜的情绪识别方法，在智能眼镜设备上，将单眼区域图像作为输入，识别出喜悦、惊奇、恐惧、愤怒、悲伤、厌恶和中立七种表情。具体实现过程为：训练阶段，输入单眼区域图像，联合训练广义特征提取器和加速器，广义特征提取器提取特征并判断输入图像的类别(表情)，加速器判断是否可以节省不必要的计算，从而实现加速；个性化阶段，由于不同的人对不同的表情有不同的表达，通过个性化模块分别录制用户自己七种表情的七段视频，通过广义特征提取器为录制视频中的每一帧提取特征，获取七个代表七种表情的特征。同时通过广义特征提取器的共享模块和加速器，为输入的每一帧提取特征，计算相应表情加速器对应的触发阈值；识别阶段，通过智能眼镜设备上的内向的红外摄像头拍摄用户单眼睛区域图像，利用广义特征提取器的共享部分提取图像的特征，并通过加速器计算当前帧图像与前一帧图像特征之间的距离，从而判断当前帧图像与前一帧图像的相似程度，如果相似，使用前一个类别标签作为当前帧图像的输出，否则，通过广义特征提取器提取特征并判断其表情类别。

训练阶段，所述特征提取器为ResNet26网络，在ResNet26网络中，输入为64x64单眼睛区域图像，全部使用3x3的卷积，网络层数设置为26层。

ResNet26网络损失函数定义为交叉熵：

其中，标签的取值为从1到K，p(k)代表网络模型的最后一层Softmax层在k类上的输出，q(k)代表此类k的真实值，若输入的样本属于k类，则q(k)的值为1，若输入的样本不属于k类，则q(k)的值为0。

训练阶段，所述加速器的实现过程为：

如果先前图像帧的表情标签已知，则当前图像帧的表情可以通过首先检查它是否与前一帧相似来快速推断。这里的相似性意味着代表情感的高级语意上的特征相似；通过测量两个特征向量之间的距离在高级语意特征上来衡量两张图像的相似度，并通过区分是否两个输入足够相似，判断是否需要重新计算并识别输入帧的表情，从而避免不必要的识别计算，达到加速的效果。

加速器由暹罗网络实现，它被设计为由暹罗网络的后3个3x3的卷积层和一个平均池化层组成，输出是128维特征向量，从两个连续的输入帧中提取特征，并计算它们的特征距离。使用的距离函数是余弦函数来表征特征的相似程度，如果足够相似，认为这两个输入具有相同的类别标签，从而避免计算特征提取器的识别部分。

将一对属于相同类别的样本定义为正例，一对类别不同的样本定义为负例，暹罗网络的损失函数被定义为对比损失：

d＝cosine(Fea₁，Fea₂)

其中Fea₁，Fea₂是输入的相邻帧经过暹罗网络提取的特征，d使用余弦函数，计算了Fea₁，Fea₂的相似程度；当输入的样本是正样本时，y的取值为1，前半部分生效，特征之间的欧式距离d²为惩罚项；当输入的样本是负样本时，y的取值为0，后半部分生效，特征的距离d小于margin的将会受到惩罚，在我们的训练中，margin被设置为5.0。对比损失会迫使正例的特征距离尽量小，而负例之间的距离大于设定的margin的值。

个性化模块实现过程为：

(1)用户自定义表情；

a)对于首次使用的用户，要求用户录制七段视频，分别记录用户自己的七种表情；

b)通过广义特征提取器，为录制视频中的每一帧提取特征；

c)使用isolation forest方法，来删除异常的特征(非此类表情的特征)；

d)选择k-medoid聚类方法计算出每个类别(表情)的特征的聚类中心，该聚类中心作为该类别的一个标签；对于每个表情类别的标签i，聚类中心的特征向量保存为center_i，此类中最远的特征向量与center_i之间的距离标记为Radius_i；

(2)加速器阈值；加速器需要一个超参数，作为衡量当前帧和上一帧相似度的阈值；用户的表情是自定义的，相应的，每个用户的阈值也是自定义的，此阈值也是在用户的初始化、自定义表情阶段完成的，对用户在初始化阶段拍摄的7种表情，具体过程如下：

a)通过广义特征提取器的共享部分和加速器，为录制视频中的每一帧提取特征；

b)每隔3帧计算相邻两个特征的余弦(cosine)距离；

c)通过isolation forest方法去除异常的距离值；

d)对每种表情，平均相应的所有余弦距离值，每种表情得到一个阈值；

e)平均7种表情的阈值，得到此用户的加速器默认阈值；

在识别阶段，先计算特征提取器的共享部分，其输出的特征矩阵作为输入，进入加速器的4层网络，加速器抽取高层特征，判断特征和缓存的上一次计算的特征是否足够相似，如果足够相似，直接赋予当前输入上一帧的识别结果；如果不足够相似，意味着表情发生了较大的变化，特征提取器继续计算识别部分并判别当前输入的类别，同时缓存中更新缓存的加速器计算的特征。

(1)帧级别识别流程；在个性化完成后，在获得用户自定义的表情分类及其相应的代表性的特征标签及加速器阈值后，用户使用智能眼镜设备，通过智能眼镜设备上的内向的红外摄像头拍摄用户单眼睛区域图像。

1.运行特征提取器的共享部分和加速器；

2.计算提取的特征与缓存中上一次加速器计算的特征的相似度(若首次计算，缓存中的特征初始化为全零)；

3.判断距离是否小于阈值。

a)如果为False，则继续运行特征提取器的识别部分，通过获得当前帧相应的识别特征。比较当前帧的识别特征和初始化阶段从用户提供的视频中提取的七个代表特征来选择最可能的表情类别；

当前帧的特征current和标签i之间的DR(i)由计算得到：

对于i∈{0，1，......，6}，选择最近的标签，即使DR(i)值最小的i作为分类结果。

b)如果为True，则只需使用缓存中的特征对应的类别标签标记此帧，输出结果。

(2)秒级别识别流程；对一些应用来说，不需要按帧给出识别结果，我们提供一种秒级别的识别流程。对我们的相机来说，每秒拍摄30帧图像，每秒处理30帧图像，在每秒钟持续重复以下操作：

1.采样地从当前缓冲区中选择是否获取最新的帧，采样间隔由用户和设备的处理能力共同决定，对普通安卓设备，建议采样间隔不低于3帧；

2.对于每个采样帧，按照帧级别识别流程识别其表情；

3.每当处理完当前秒的所有采样帧，当前秒所有采样帧的结果中出现次数最多的类别对，被确定当前秒的识别结果。

有益效果：与现有技术相比，本发明提供的基于智能眼镜的情绪识别方法，可以每秒识别13个以上的图像帧，并且识别精度不低于76％。本发明利用连续帧在时序上的相似性，设计了一种提前终止的机制，能有效的避免大量不必须的计算，节省可穿戴设备上的计算资源。这种设计首次应用在单眼情绪识别中。利用具有良好泛化能力的DCNN模型自动提取特征，提出了一种自适应的情绪识别方法。兼顾模型泛化性能的要求和客户个性化定制的要求，避免为个人用户重新训练模型(需要大量的计算资源和数据)，同时能适应不同用户的个性化的情绪表达方式。

附图说明

图1是Lemo的整体系统架构图；

图2是广义特征提取器和加速器的网络结构图；

图3是广义特征提取器和加速器协同工作的流程图；

图4是公开数据集MUG的示例图片，其中(a)愤怒，(b)厌恶，(c)恐惧，(d)喜悦，(e)悲伤，(f)惊奇，(g)中立(无表情)；

图5是处理后用于训练的眼部数据集的示例图片，其中(a)愤怒，(b)厌恶，(c)恐惧，(d)喜悦，(e)悲伤，(f)惊奇，(g)中立(无表情)；

图6是探究采样间隔对Lemo识别的准确率及加速器触发率的影响的实验结果图；

图7是探究加速器触发阈值对Lemo识别的准确率及加速器触发率的影响的实验结果图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于智能眼镜的情绪识别方法(Lemo)，这种方法与现有的智能眼镜的设计是紧密结合的。在一般情况下，与人脸的其他部分相比，单个眼部区域周围的情绪相关特征虽然是丰富且有表现力的，但并未单独用于识别情绪。这是因为通常从相机到用户眼睛的距离太远，而且，相机与眼睛的相对位置和角度会不时变化。因此，一般的情感识别通常依赖于整个脸部的形象。这种情况不适用于智能眼镜设备。而智能设备中内置的面向眼睛的摄像头非常靠近眼睛，且相对眼睛具有固定位置和角度，并且它们之间不存在任何遮挡。

为了在实际使用中只利用拍摄的眼部区域图像识别用户当前的感情，我们必须解决以下三个挑战：

第一，与整个脸部图像相比，眼部周围的面部运动更轻微；

第二，除了情感之间的细微差别之外，不同的人可能对同一情绪有非常个性化的面部表情；

第三，情绪识别工作通常需要大量的计算资源，而可穿戴设备，如智能眼镜上的计算资源是有限的。

本发明中，我们为个人眼镜引入了一种称为Lemo的轻量级情感识别方法。在资源有限的眼镜设备上，只通过单眼区域图像作为输入，高效准确地识别出人类的六种基本情感，即喜悦，惊奇，恐惧，愤怒，悲伤，厌恶和中立。Lemo适用于可穿戴的智能眼镜场景对识别情绪的需要。眼睛区域的图像的特征是由一个新颖的深度卷积网络自动提取，基于广泛使用的DCNN模型ResNet。然后将提取的特征发送到情绪识别模型。为了优化处理速度，我们的DCNN模型在ResNet上引入了两个重要的修改。首先，我们在ResNet旁边添加一个加速器来判断是否可以提前终止，避免不必要的计算。其次，我们重新设计了加速器和ResNet子网络之间的共享网络，平衡了后续的两个子分支网络分别对低语义特征和高语义特征的要求。

如图1所示，基于智能眼镜的情绪识别方法，包括：

1)广义特征提取器实现部分：基于DCNN模型，提取用户眼部区域具有代表性的特征；

2)加速器实现部分：利用输入帧在时序上的相似性来节省DCNN模型中的不必要的计算；

3)个性化模块实现部分：个人用户自适应的情绪表达的识别组件；

4)通过可穿戴的智能眼镜设备上的内向的红外摄像头拍摄用户单眼睛区域图像，识别用户的表情类别。

广义特征提取器实现部分

特征提取器是Lemo的核心组件之一。由于用户眼部的不同表情之间的差别比较细微，改变幅度相对整张面部也更小，为了能更细致的捕捉用户表情的变化，提取有代表性的特征以便后续处理，我们设计了ResNet26网络作为广义特征提取器。

ResNet26网络的网络结构见表1。

表1

在ResNet26网络中，相比于较为常见的小网络Resnet18，将输入图片的大小由224x224修改为大小为64x64单眼睛区域图像，在本场景下，眼睛区域图像一般比较简单、背景比较干净，减少输入图片分辨率经实验验证几乎不会影响模型的正确率；同时，我们避免在一开始使用大卷积核，而是全部使用3x3的卷积，大卷积核可以快速的降低特征图像的大小，但是可能会损伤图像中的细节，在本场景中，表情的表达是很细微的，我们希望避免使用大卷积核，从而避免不必要的细节的损失；与此同时，我们将网络层数设置为26层，并相应的设定下采样、每层的卷积核个数等参数，以适应当前场景的需要。

除了网络架构，深度学习网络的另一个重要部分是损失函数。损失函数指的是训练样本的预测值和真实值之间的误差，模型更新参数的目的是最小化损失函数。对于我们的ResNet26网络，我们将损失函数定义为交叉熵。

其中，标签可能的取值为从1到K，p(k)代表网络模型的最后一层Softmax层在k类上的输出，q(k)代表此类k的真实值，若输入的样本属于k类，则q(k)的值为1，若输入的样本不属于k类，则q(k)的值为0。

加速器实现部分：

情绪的改变不是一个经常发生的事情，情绪的急剧变化通常不会每帧都发生。事实上，在真实世界中，同一个情绪可能保持很长一段时间，大喜大悲并不是经常出现，面部肌肉运动使表情变化也需要时间。因此，两个连续的单眼区域图像帧，时间间隔仅有33ms左右的情况下，往往有很高的概率是相同的表情。如果先前图像帧的表情标签已知，则当前图像帧的表情可以通过首先检查它是否与前一帧相似来快速推断。这里的相似性意味着代表情感的高级语意上的特征相似，而不是原始图像上像素级别的相似性。通过这种方式，我们将一个多类别的分类问题转化为二元分类问题，解决这个新问题的所需要的神经网络结构比原始问题简单得多。

通过测量两个特征向量之间的距离在高级语意特征上来衡量两张图像的相似度，并通过区分是否两个输入足够相似，判断是否需要重新计算并识别输入帧的表情。

于是设计暹罗(Siamese)网络，其结构见表2，它由10个卷积层和一个池化层组成，输出是128维特征向量，即我们需要的高级语意特征。从两个连续的输入帧中提取特征，并计算它们的特征距离。使用的距离函数是余弦函数。

表2

我们设计的暹罗网络能够提取输入图像帧中具有代表性的特征，计算特征之间的余弦距离来表征特征的相似程度，如果足够相似，即小于个性化阶段计算出的阈值，我们可以认为这两个输入具有相同的类别标签，从而避免计算剩余的特征提取器模块。

暹罗网络比较两帧图像是否足够相似，需要成对的输入，因此暹罗网络的训练过程和损失函数与普通网络相比有所不同。将一对属于相同类别的样本定义为正例，一对类别不同的样本定义为负例，暹罗网络的损失函数被定义为对比损失：

d＝coSine(Fea₁，Fea₂)

其中Fea₁，Fea₂是输入的相邻帧经过暹罗网络提取的特征，d使用余弦函数，计算了Fea₁，Fea₂的相似程度。当输入的样本是正样本时，y的取值为1，前半部分生效，特征之间的欧式距离d²为惩罚项；当输入的样本是负样本时，y的取值为0，后半部分生效，特征的距离d小于margin的将会受到惩罚，在我们的训练中，margin被设置为5.0。对比损失会迫使正例的特征距离尽量小，而负例之间的距离大于设定的margin的值。

浅层神经网络主要是用于提取图像的基本特征，一般来说，提取的特征还没有引入特定任务的特性。对于以上暹罗网络，我们利用广义特征提取器的共享部分，相当于暹罗网络共享广义特征提取器的前7层的网络的计算，加速器为除了共享部分的暹罗网络的后部分网络，从而进一步节省计算资源。加速器的输入不是普通的图片，而是图片经过特征提取器的共享部分计算后的特征矩阵。完成的模型如图2所示。

广义特征提取器的前7层被称为特征提取器的共享部分，被广义特征提取器和暹罗网络共同使用，共享部分计算的特征将同时被后续的识别部分及加速器使用；在计算了共享部分后，先计算加速器模块——即暹罗网络剩余的4层网络，该模块抽取高层特征，判断当前输入和上一帧保存的输入的特征是否足够相似，如果足够相似，直接赋予当前输入上一帧的识别结果；如果不足够相似，意味着表情发生了较大的变化，特征提取器继续计算识别部分并判别当前输入的类别。

个性化模块实现部分

(1)用户自定义表情；不同的用户的眼部区域是不一样的，且即使对相同的表情，表达方式也可能存在较大的差异，为了更好地适应每个用户表情，我们设计了个性化模块，使Lemo系统能适应不同用户的使用需要。具体方法如下：

a)对于首次使用的用户，要求用户录制七段视频，分别记录用户自己的七种表情。每个视频片段的长度只有几秒钟，整个初始化过程可以在一分钟内轻松完成。

b)通过前面介绍的广义特征提取器，为录制视频中的每一帧提取特征。

c)在很多情况下，视频的开始或结束帧的表情通常不像中间的帧那样好，我们不希望强迫用户精心制作自己的表情视频片段，使用一种叫isolation forest的方法，来删除异常的特征(非此类表情的特征)。

d)选择k-medoid聚类方法计算出每个类别(表情)的特征的聚类中心，该聚类中心作为该类别的一个标签；对于每个表情类别的标签i，聚类中心的特征向量保存为center_i，此类中最远的特征向量与center_i之间的距离标记为Radius_i。

(2)加速器阈值；加速器需要一个超参数，作为衡量当前帧和上一帧相似度的阈值。用户的表情是自定义的，相应的，每个用户的阈值也是自定义的，此阈值也是在用户的初始化、自定义表情阶段完成的，对用户在初始化阶段拍摄的7种表情，具体过程如下：

b)每隔3帧计算相邻两个特征的余弦距离；

c)通过isolation forest方法去除异常的距离值；

e)平均7种表情的阈值，得到此用户的加速器默认阈值；

后续实验我们将探讨此阈值的变化对准确率和速度的影响。

(1)帧级别识别流程；在个性化完成后，获得用户自定义的表情分类及其相应的代表性的特征标签及加速器阈值后，用户使用智能眼镜设备，通过智能眼镜设备上的内向的红外摄像头拍摄用户单眼睛区域图像。分类过程如图3所示。

1.运行特征提取器的共享部分和加速器；

3.判断距离是否小于阈值。

当前帧的特征current和标签i之间的距离DR(i)由计算得到：

(2)秒级别识别流程；在实际使用中，我们往往不需要给出每帧的识别结果，许多使用场景期望更粗粒度但更准确的结果。同时，一般来说，人的情绪是连续的，我们很少频繁而剧烈地改变我们的情绪，只持续几帧的情绪可能不那么重要，持续时间太短的情绪往往是偶然的或无意义的。考虑到实际的需求，也为了评估和标注的可行性，我们将基本预测单元的时间间隔设置为1秒。对我们的相机来说，每秒拍摄30帧图像，每秒处理30帧图像，在每秒钟持续重复以下操作：

1.采样地当前缓冲区中选择是否获取最新的帧，采样间隔由用户和设备的处理能力共同决定，对普通安卓设备，建议采样间隔不低于3帧；

2.对于每个采样帧，按照帧级别识别流程识别其表情；

3.每当处理完当前秒的所有采样帧，当前秒所有采样帧的结果中出现次数最多的类别，被确定为当前秒的识别结果。

在我们的实验中，选择使用余弦函数来测量两个特征之间的距离，请注意，“前一帧”不是时间上的前一帧，而是上一个被特征提取器计算并获得类别标签的一帧。

实现

我们将加速器和特征提取器融合为一个具有两通道的网络共同使用并训练。

数据集的处理为了训练我们的网络模型，我们需要一个图片清晰、眼睛区域无遮挡、表情分类符合我们六种基本表情定义的数据集，同时，由于深度学习的需要，数据集中图片的数量不能过少，就我们所知，到目前为止，满足以上这些要求的数据集很难获得。为了解决这个问题，区别于直接训练得到模型，我们设计了一种两阶段分步训练方法。它可以帮助我们在不失模型泛化能力的情况下，减少所需的训练数据的大小，并避免过拟合的问题。下面我们具体介绍训练。

在训练的第一阶段，我们选择使用大规模的人脸表情识别数据集来训练我们的模型。人脸表情识别是一个被广泛研究的问题，得益于前人的工作，有大量的数据集可以使用。我们使用完整人脸的数据集训练我们的网络，得到的模型被称为预训练模型。预训练模型和目标模型有相同的训练目标，即识别7种表情的类别，且经过大规模预训练的模型往往具有更好的泛化能力，有助于第二阶段的训练。我们选择使用FER2013数据集作为第一阶段预训练的数据，FER2013数据集是一个包含35887个面部表情图像的人脸表情识别数据集，图像的分辨率为48x48，为了适应我们的网络，我们将图片统一放大到64x64。

在第二阶段，我们制作并使用自己的单眼表情训练数据集来微调(fine-tuning)第一阶段生成的模型。微调被广泛应用于深度学习或计算机视觉领域，调整预训练模型的部分或全部超参数，以学习新数据集提供新的特征。通过这种方式可以使用相对少量的新数据完成模型的调整，并且绕过了过度拟合问题。在我们的例子中，用于微调的第二阶段训练数据是从公共的面部表情识别数据集修改得到的，眼部区域图像相对清晰。

据我们所知，目前没有专注于眼睛区域表情识别的数据集。我们在MUG面部表情数据集的基础上，通过我们自己设计的处理来解决这一挑战。原始的MUG面部表情数据集由86个用户的面部表情序列视频片段组成，这些用户都有七个不同的面部表情，即愤怒，厌恶，恐惧，喜悦，悲伤，惊奇和中立(无表情)(见图4)。

通常，对于每个用户和七个表情中的每一个，它具有3到5个不同长度的视频片段，被存储成相应的不同长度的图像序列，并且每个序列包含50到160个图像，可用序列的数量为1462。每个图像在相对均匀的漫射光源下拍摄，并以JPEG格式保存，分辨率为896x896。该数据集中所有主体的眼睛区域清晰，没有被任何物体遮挡，例如眼镜，因此它非常适合我们的实验。我们裁剪每个原始图像，仅留下右眼区域，并使用原始面部表情标签标记裁剪后的图像(参见图5)。

我们还通过翻转，随机裁剪等来增强它。最后，使用这些右眼区域图像来训练DCNN模型，用于基于眼睛区域的情绪识别系统Lemo。

双通道网络的训练与训练传统的单通道网络不同，加速器模块需要计算两个输入的相似性并判别，因此训练过程中需要成对的输入。我们将训练的一次输入命名为一个五元组F₁，L₁，F₂，L₂，L_{if_same}，F₁，F₂是输入的两帧图片，L₁，L₂是两帧输入相应的类别标签，前两对是用于训练特征提取器模块部分，最后一个标签代表是否输入的两个图像(F₁，F₂)有相同的情绪。具有相同情绪的成为正例，由当前帧和它们的相邻帧产生(在我们的情况下，它们之间的间隙是3-6帧)，而具有不同情绪的图像对称为负例，是从具有不同情绪的一个人的视频中随机选择的。控制负例的采样率以保持正样本和负样本之间的数量上的平衡。

同时，由于模型是双通道结构，特征提取器的共享部分受到了两个损失函数的共同影响，如何同时训练这个双通道网络成为一个非常重要的问题。在我们的网络设计中，分支点之前的卷积较浅，主要用来提取输入图像的基本特征，还没有涉及到具体的分类问题。在这个阶段，这两个子网络的目标是大致相同的。我们在这两个子网络中设置相同的学习率，交替更新该网络直到它收敛。

实验结果

评估Lemo在准确性、速度和资源使用等方面的表现；准确性主要依靠模型，使用Open-Q820开发套件来评估。在系统性能和资源消耗方面，在两个平台上展示评估结果，即Open-Q820和Hikey。

准确性

由于缺少符合要求的公开数据集，邀请了20位志愿者(6位女性，14位男性)来协助收集数据集并完成相应的标注。请志愿者带上装载了Lemo的智能眼镜，完成相应的初始化过程，并观看某个被随机挑选的单一事件的视频剪辑片段，以刺激志愿者产生相应的感情，从而做出相应的表情。每个志愿者观看并都拍摄了7段相应的带有自然表情的视频，单一事件的视频剪辑片段来自于相应的国际专业评估数据集FilmStim。

表3

感情	召回率	精度	F1分数	测试秒数
					愤怒	0.740	0.581	0.592	783
厌恶	0.701	0.800	0.712	869
					恐惧	0.639	0.685	0.619	920
喜悦	0.681	0.671	0.633	913
					悲伤	0.674	0.809	0.700	1685
惊奇	0.712	0.823	0.721	808
					中立	0.768	0.803	0.755	5499
平均/总计	0.747	0.794	0.738	11477

以上表3在我们推荐的参数下测试出的结果，其中帧间取样间隔为5帧测量一次，加速器的阈值为默认值。Lemo在7种表情识别问题上的平均准确率达到了76.1％，测试秒数是整个测试集中标注为相应表情的秒数，测试集总体时长11477秒，召回平均达到74.7％，精度达到79.4％，F1达到73.8％。

取样间隔的影响

如图6所示，探究了不同的取样间隔下准确率和加速器加速程度的变化。右侧纵轴为加速器的触发率，即触发加速器、提前终止广义特征提取器计算的比率，加速器的触发率越高，速度越快；左侧纵轴为准确率，是测试集中7种表情准确率的平均值；横轴为采样间隔，即每隔1、5、10、15、20帧计算一次结果。可以发现，随着取样间隔的增大，加速器的触发率越来越低，即前后两帧差别越来越大，因此更多的帧无法提前终止计算，平均计算时间增长。然而在取样间隔1～5帧的情况下，准确率变化较为平缓，大于5帧才有明显的下降，因此认为在取样间隔设5帧左右，是准确率和运行速度的一个比较好的平衡。

加速器阈值的影响

加速器部分的阈值用来确定两个连续图像是否具有相同的类别标签，阈值的大小对算法的准确度和相应的处理时间都有影响。此阈值的原始值是由Lemo在为每个用户适配的初始化阶段设置的，平衡了准确性和速度的需要。在测试集中，引入了人工倍数来调整Lemo的原始阈值，同时观察精度和速度的变化，探究阈值对模型准确性和速度的具体影响。

如图7所示，纵轴的设置和图6一致，横轴为加速器的触发阈值，分别为默认阈值相乘的系数，从0.6倍到1.4倍，阈值相应变大，更多的帧被判断为足够相似，不需要完成特征提取器的后续计算，提前终止更容易被触发，1x对应默认阈值。我们观察到随着阈值的增大，提前终止被触发的比率逐渐增加，运行平均耗时将逐渐减少，但同时准确率(实线)也逐渐降低。因此，如果对运行时间没有特别要求，使用默认阈值，将在运行时间和准确率上取得一个平衡。

速度

这里主要说明Lemo中采用的速度改进技术。分别在两个硬件平台上测量模型的各部分模块的处理时间，如表4所示。

表4

硬件平台	特征提取器-浅层	加速器	特征提取器-深层
				Open-Q 820	70ms	10ms	85ms
HiKey	70ms	11ms	113ms

在每一帧的处理中，特征提取器的浅层网络(与后续加速器共享的部分)和加速器部分首先被执行，根据加速器计算的结果，决定是否继续执行特征提取器。可以看到，在Open-Q 820平台上，加速器部分占总时间代价的6.0％，在HiKey平台上，加速器部分占总时间代价的5.6％，引入的加速器只增加了很少的工作量。如上述实验中，以80％左右的概率避免执行完整的特征提取器。增加加速器设计有效的节省了计算时间，节省了智能眼镜上的计算资源。

在观看上述长电影的过程中，同时在整个持续时间内测量平均每帧的处理时间。表5中显示了两个平台上两个模型的平均处理时间。

表5

模型	Open-Q 820	HiKey
			Resnet-26	156ms	186ms
Lemo	106ms	114ms

在加速器的帮助下，Lemo相比Resnet-26模型加速超过了55％。在两个平台上，Lemo可以处理以约每秒10帧的速度识别用户当前感情，这个速度可以满足绝大多数场合对识别性能的要求。

资源消耗

Lemo运行时的资源使用情况显示在表6中。测量每个值的平均持续时间为15分钟，每分钟测量一次。我们观察到的值在测试期间非常稳定。在所有情况下，Lemo消耗大约70MB内存，并且在嵌入式开发板上的CPU使用率均低于53％。请注意，当没有运行任何模型时，两个平台的基准功耗分别为3.2W和2.6W。

表6

平台	CPU(％)	内存	用电量(w)
				Open-Q 820	52.13	63176	7.9
HiKey	37.27	71832	4.1

Claims

1.一种基于智能眼镜的情绪识别方法，其特征在于：在智能眼镜设备上，将单眼区域图像作为输入，识别出喜悦、惊奇、恐惧、愤怒、悲伤、厌恶和中立七种表情；具体实现过程为：训练阶段，输入单眼区域图像，联合训练广义特征提取器和加速器，广义特征提取器提取特征并判断输入图像的类别，加速器判断是否能节省不必要的计算；个性化阶段，通过个性化模块分别录制用户自己七种表情的七段视频，通过广义特征提取器为录制视频中的每一帧提取特征，获取七个代表七种表情的特征；同时通过广义特征提取器的共享部分和加速器，为输入的每一帧提取特征，计算相应表情加速器对应的触发阈值；识别阶段，通过智能眼镜设备上的内向的红外摄像头拍摄用户单眼睛区域图像，利用广义特征提取器的共享部分提取图像的特征，并通过加速器计算当前帧图像与前一帧图像特征之间的距离，从而判断当前帧图像与前一帧图像的相似程度，如果相似，使用前一个类别标签作为当前帧图像的输出，否则，通过广义特征提取器的识别部分提取特征并判断其表情类别。

2.如权利要求1所述的基于智能眼镜的情绪识别方法，其特征在于：所述特征提取器为ResNet26网络，在ResNet26网络中，输入为64x64单眼睛区域图像，全部使用3x3的卷积，网络层数设置为26层。

3.如权利要求2所述的基于智能眼镜的情绪识别方法，其特征在于：ResNet26网络损失函数定义为交叉熵：

4.如权利要求1所述的基于智能眼镜的情绪识别方法，其特征在于：所述加速器的实现过程为：

如果先前图像帧的表情标签已知，则当前图像帧的表情通过首先检查它是否与前一帧相似来快速推断，通过测量两个特征向量之间的距离在高级语意特征上来衡量两张图像的相似度，并通过区分是否两个输入足够相似，判断是否需要重新计算并识别输入帧的表情；

加速器由暹罗网络实现，它被设计为3个3x3的卷积层和一个平均池化层组成，输出是128维特征向量，从两个连续的输入帧中提取特征，并计算它们的特征距离；使用的距离函数是余弦函数来表征特征的相似程度，如果足够相似，认为这两个输入具有相同的类别标签；

d＝cosine(Fea₁,Fea₂)

其中Fea₁,Fea₂是输入的相邻帧经过特征提取器的共享部分和加速器所提取的特征，d使用余弦函数，计算了Fea₁,Fea₂的相似程度；当输入的样本是正样本时，y的取值为1，前半部分生效，特征之间的欧式距离d²为惩罚项；当输入的样本是负样本时，y的取值为0，后半部分生效，特征的距离d小于margin的将会受到惩罚，对比损失会迫使正例的特征距离尽量小，而负例之间的距离大于设定的margin的值。

5.如权利要求1所述的基于智能眼镜的情绪识别方法，其特征在于：个性化模块实现过程为：

(1)用户自定义表情；

b)通过广义特征提取器，为录制视频中的每一帧提取特征；

c)使用isolation forest方法，来删除异常的特征；

d)选择k-medoid聚类方法计算出每个类别的特征的聚类中心，该聚类中心作为该类别的一个标签；对于每个表情类别的标签i，聚类中心的特征向量保存为center_i，此类中最远的特征向量与center_i之间的距离标记为Radius_i；

b)每隔3帧计算相邻两个特征的余弦距离；

c)通过isolation forest方法去除异常的距离值；

e)平均7种表情的阈值，得到此用户的加速器默认阈值。

6.如权利要求1所述的基于智能眼镜的情绪识别方法，其特征在于：在识别阶段，先计算特征提取器的共享部分，其输出的特征矩阵作为输入，进入加速器的4层网络，加速器抽取高层特征，判断特征和缓存的上一次计算的特征是否足够相似，如果足够相似，直接赋予当前输入上一帧的识别结果；如果不足够相似，意味着表情发生了较大的变化，特征提取器继续计算识别部分并判别当前输入的类别，同时缓存中更新缓存的加速器计算的特征；

(1)帧级别识别流程；在个性化完成后，在获得用户自定义的表情分类及其相应的代表性的特征标签及加速器阈值后，用户使用智能眼镜设备，通过智能眼镜设备上的内向的红外摄像头拍摄用户单眼睛区域图像；

11)运行特征提取器的共享部分和加速器；

12)计算提取的特征与缓存中上一次加速器计算的特征的相似度，若首次计算，缓存中的特征初始化为全零；

13)判断距离是否小于阈值；

a)如果为False，则继续运行特征提取器的识别部分，通过获得当前帧相应的识别特征，比较当前帧的识别特征和初始化阶段从用户提供的视频中提取的七个代表特征来选择最可能的表情类别；

当前帧的特征current和标签i之间的DR(i)由计算得到：

对于i∈{0,1,……,6}，选择最近的标签，即使DR(i)值最小的i作为分类结果；

b)如果为True，则只需使用缓存中的特征对应的类别标签标记此帧，输出结果；

(2)秒级别识别流程；在每秒钟持续重复以下操作：

21)采样地从当前缓冲区中选择是否获取最新的帧，采样间隔由用户和设备的处理能力共同决定，对普通安卓设备，建议采样间隔不低于3帧；

22)对于每个采样帧，按照帧级别识别流程识别其表情；

23)每当处理完当前秒的所有采样帧，当前秒所有采样帧的结果中出现次数最多的类别对，被确定当前秒的识别结果。