CN110298303A

CN110298303A - 一种基于长短时记忆网络扫视路径学习的人群识别方法

Info

Publication number: CN110298303A
Application number: CN201910566847.9A
Authority: CN
Inventors: 夏辰; 韩军伟; 郭雷; 李宽; 李红霞
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-01
Anticipated expiration: 2039-06-27
Also published as: CN110298303B

Abstract

本发明涉及一种基于长短时记忆网络扫视路径学习的人群识别方法，采集不同人群组别的眼动数据构建训练样本集，利用LSTM网络来有监督地学习出不同类别扫视模式与人群组别标记之间的映射关系，根据训练后的网络来对待评估观察者的扫视序列进行得分判定，实现基于扫视路径学习的人群识别，与其他手段结合帮助提高人群识别的准确性，促进相关应用的发展。

Description

一种基于长短时记忆网络扫视路径学习的人群识别方法

技术领域

本发明属于图像处理领域，涉及一种人群识别方法，即通过对不同人群的扫视路径进行有监督学习，来建立扫视模式与人群组别之间的映射关系，实现基于扫视路径学习的人群识别。

背景技术

每秒钟大约有10⁸阶比特数据流进入人眼，远超过大脑能够全部处理和吸收的信息量。面对如此大量与复杂的视觉输入，人类视觉系统仍然能够有效地获取场景重要内容，来增加对外部世界的了解。这主要是因为选择性视觉注意机制的存在。视觉注意是人类视觉感知的一项重要特征，是大部分视觉任务的关键因素，其本质在于快速提取场景重要区域，并对其分配主要计算资源。对人类的视觉注意过程进行研究不仅有助于探索人类视觉加工的内在机理，也能够为大数据时代下资源的合理分配与信息的高效处理提供解决方案，来帮助解决医疗诊断、社会安全等多个领域中的应用问题。

在目前关于视觉注意的研究中，研究者们主要关注于人们在观察视觉输入时表现出的共性眼动特征。Laurent Itti等人在文章“A Model of Saliency-Based VisualAttention for Rapid Scene Analysis”,IEEE Transactions on Pattern Analysis andMachine Intelligence,vol.20,no.11,pp.1254-1259,1998中通过提出模拟视网膜神经元细胞感受野的中心-周围对比度机制来估计场景不同区域被人们关注的概率。基于深度学习强大的表示与学习能力，近期视觉注意的研究则倾向于探索由原始图像到被关注概率图的直接映射关系。Wenguan Wang和Jianbing Shen在文章“Deep visual attentionprediction,”IEEE Transactions on Image Processing,vol.27,no.5,pp.2368-2378,2018中通过设计改进卷积神经网络来预测像素级的被关注概率图，相对于之前工作进一步提升对于图像关注区域估计的有效性与稳定性。尽管对图像关注区域进行估计能够揭示出人类关注区域位置等重要信息，却无法对视觉注意中注视点跳转及整个扫视路径的生成过程进行描述。为了更加全面地理解与阐明视觉注意，研究者们开始关注到扫视路径的预测问题，即估计连续多个时刻的注视点位置，以生成扫视路径的方式来建模人类视觉系统对于当前场景的动态解析过程。Ming Jiang等人在文章“Learning to predict sequencesof human visual fixations,”IEEE Transactions on Neural Networks and LearningSystems,vol.27,no.6,pp.1241-1252,2016中提出利用马尔可夫决策过程来建模扫视过程的时变性，在不同的扫视阶段学习不同的参数，并通过迭代地寻找新动作与基于该动作提取对应的特征组合来生成扫视路径。

相对于场景关注区域估计与扫视路径预测等共性机制的研究，目前仅有少数工作关注到不同群体在观察同组图像时呈现出的视觉注意差异性。Johannes Hewig等人在文章“Gender Differences for Specific Body Regions When Looking at Men and Women”，Journal of Nonverbal Behavior，vol.32，pp.67–78，2008中首次聚焦于不同性别人群的眼动差异性分析。他们分别为不同性别组提供30幅人像图像，并对人像进行手动区域划分。最后通过统计不同组别下各个划分区域的注视点总数及关注时间等特征来发掘不同人群组别的视觉注意差异性。Olivier Le Meur在文章“Visual Attention Saccadic ModelsLearn to Emulate Gaze Patterns From Childhood to Adulthood”，IEEE Transactionson Image Processing,vol.26,no.10,pp.4777-4789,2017中通过统计来自5个年龄段组别101个观察者在30幅儿童读物图像上的眼动数据来发现不同组别下扫视幅度和方向联合概率分布的差异性，并提出针对不同年龄段组别建立不同的扫视路径预测模型。

虽然在传统聚焦于视觉注意共性机制研究的基础上出现了针对不同人群视觉注意差异性分析的工作，目前的研究主要是利用统计的手段来获取不同人群在某些特定眼动指标(注视点数、关注时间、扫视幅度和方向联合概率分布)下的差异性。一方面，大多数指标主要关注于单个注视点特征，即使是扫视幅度和方向联合概率分布也只针对相邻的两个注视点进行计算，没有考虑前期扫视路径序列对于当前注视点选择的影响，缺少对于整个动态扫视过程的学习与分析。完整的扫视路径不仅能够揭示多个关注区域的位置信息，还包含关注区域连接关系以及序列动态信息，具有重要的学习与挖掘价值。另一方面，之前研究的主要目标在于进行不同人群视觉注意差异性的分析，缺少直接基于扫视路径学习的人群识别模型。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于长短时记忆网络扫视路径学习的人群识别方法。利用长短时记忆(Long Short-Term Memory，LSTM)网络的序列数据学习能力来探索扫视路径数据内在本质与相互关系，实现基于扫视路径学习的人群识别。在学习模型的基础上，通过待评估观察者的扫视路径表现给出人群组别判定的结果。

技术方案

一种基于长短时记忆网络扫视路径学习的人群识别方法，其特征在于步骤如下：

步骤1：构建测试图像库

首先根据具体人群识别问题来选择图像构建测试图像库；

步骤2：采集不同人群组别扫视序列

组织眼动实验分别采集不同组别观察者在测试图像库上的眼动数据，获取其中扫视路径序列；

步骤3：提取扫视序列特征

提取观察者在测试图像上扫视序列对应的特征，为下一步训练LSTM网络做准备；

3a)图像过分割

采用简单线性迭代聚类算法SLIC将图像分成多个过分割区域，其中每个过分割区域由相邻且具有相似特性的像素点组成；

3b)提取扫视序列特征

利用语义哈希算法来对采集的扫视路径进行特征提取：对于当前扫视路径上的每一个注视点，找到其所在图像过分割区域，提取该过分割区域中心大小为d×d×3的原始图像块，将其对应的向量输入到语义哈希编码特征提取网络中，提取中心层N_c维二值特征；即对于长度为m的扫视路径序列，得到其所对应的N_c×m扫视路径特征；

步骤4：训练LSTM网络

首先构建训练LSTM网络需要用到的训练样本集：训练样本集由扫视路径特征与对应的人群组别标记组成，LSTM网络的学习目标是建立由扫视路径特征到人群组别标记之间的映射关系；其次是利用训练样本集训练LSTM网络：依次将一个扫视路径上连续注视点对应的语义哈希编码特征作为网络输入，迭代得到最顶层回归层的人群组别预测得分，再使用基于时间的反向传播算法根据预测得分与对应标记的预测误差迭代调整网络参数，得到基于扫视路径的人群识别模型；

步骤5：测试待评估观察者扫视序列

利用眼动仪记录当前待评估观察者在测试图像上的扫视路径；采用同训练过程同样的方式提取各个扫视路径特征，即对于每一个扫视路径，找到其上每一个注视点所在的过分割区域，并提取该过分割中心对应的语义哈希编码，得到编码后的扫视序列，将该序列输入到训练后的人群识别模型中，得到该序列对应的回归层得分；

步骤6：判断待评估观察者人群组别

根据训练集上观察者的平均得分来依次计算两个相邻组别之间的平均得分划分阈值；对于每两个相邻组别，首先利用训练后LSTM网络预测该两个组别下各个观察者在所有测试图像上的平均得分，再利用最大类间方差法来对这两个相邻组别观察者的平均得分进行阈值划分；以此类推，对于n个组别的人群识别问题，得到n-1个相邻组别划分阈值；最后计算待评估观察者扫视路径序列的平均得分，并判断该平均得分所在组别区间，完成人群识别判断。

所述的步骤2中记载的眼动实验：采用善睐眼动平台2.0下的便携式眼动仪，眼动实验屏幕分辨率为1920×1080，考虑到儿童视觉角问题，测试图像大小设置为800×600并放置于屏幕中心，其余部分用灰色模板填充；观察者坐在距离屏幕65cm左右的位置；每个测试图像呈现3s，不同场景间隔为0.5s，用一幅灰色模板来实现。

有益效果

本发明提出的一种基于长短时记忆网络扫视路径学习的人群识别方法，具有如下优点：

1)本发明从连续扫视路径序列的角度入手，相对于之前注视点统计的研究更加完整地利用了眼动数据中蕴含的动态关联信息。同时结合在序列表示与处理上具有突出能力的LSTM网络来对扫视路径序列间的内在表示进行挖掘，更好地探索动态扫视路径序列与人群标记之间的本质关系。

2)本发明根据扫视路径上各个注视点位置对应的语义哈希编码来对扫视数据进行表示，实现由底层图像块向量到高层语义编码向量的映射，获取扫视路径序列的抽象性描述。相对于底层像素级模型具有更强的抽象与表示能力，能够更好地发掘不同人群组别视序列中呈现出的语义关联差异性，得到与实际人群组别标记更一致的识别结果。

3)本发明从学习的角度来直接建立从特征提取扫视路径序列到人群组别标记的预测模型，相对于之前进行眼动属性差异性分析的模型更一步地研究了视觉注意属性与人群组别之间的关系，实现了人群组别的分类与识别。

本发明可通过测试图像的改变扩展到年龄段识别、性别识别、自闭症识别等多种类型人群识别与分类应用中，也可以作为特征并结合其他机器学习方法用于目标检测、识别等应用中。

附图说明

图1为本发明的实现总流程图；

图2为本发明中语义哈希编码特征提取网络结构图；

图3为本发明中扫视路径特征提取示意图；

图4为本发明中LSTM网络示意图；

图5为本发明人群识别平均得分阈值划分示意图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明采集不同人群组别的眼动数据构建训练样本集，利用LSTM网络来有监督地学习出不同组别扫视模式与人群组别标记之间的映射关系，根据训练后的LSTM网络来对待评估观察者的扫视路径进行得分判定，实现基于扫视路径学习的人群识别，与其他手段结合帮助提高人群识别的准确性，促进相关应用的发展。其实现步骤包括如下：

(1)构建测试图像库

首先根据具体人群识别问题来选择测试图像构建测试图像库。

(2)采集不同人群组别扫视路径序列

组织眼动实验，分别采集不同组别观察者在所有测试图像上的眼动数据，获取测试图像上对应的扫视路径序列。眼动记录设备可采用眼动仪。眼动实验屏幕分辨率为1920×1080，考虑到儿童视觉角问题，测试图像大小可设置为800×600并放置于屏幕中心，其余部分用灰色模板填充。观察者坐在距离屏幕60cm-75cm左右的位置。每个测试图像呈现3s，不同测试图像间隔为0.5s，用一幅灰色模板来实现。

(3)提取扫视路径特征

提取观察者在测试图像上扫视路径对应的特征，为下一步训练LSTM网络做准备。

(3a)图像过分割

采用简单线性迭代聚类(simple linear iterative clustering，SLIC)算法来将图像分割为多个过分割区域，其中每个过分割区域由相邻且具有相似特性的像素点组成。接下来再以这些过分割区域代替像素点作为图像基本处理单元，来减小图像噪声等对最终识别结果的影响。

(3b)提取扫视路径特征

利用语义哈希(Semantic Hashing)算法来对采集的扫视路径进行特征提取。将扫视路径上各个注视点所在过分割区域对应的原始图像数据变换到具有更强辨别能力的语义空间，利用进而提升基于LSTM网络的识别能力。语义哈希算法采用深层自动编码器作为学习网络。该网络由共用中心层且结构对称的编码器与解码器两部分组成。中心层为二值神经元，其余所有神经元均为逻辑神经元。一个重要特点是编码器神经元个数逐层减少，在编码器的顶层(中心层)神经元数量通常远小于输入层神经元数量。另一方面，又需要通过解码器来在网络输出端重构出输入，这就迫使网络中心层能够发掘出高维输入数据中的内在结构与关系，获得从底层图像信息到语义特征的映射关系。具体训练中，利用从OSIE数据库700幅图像中所有过分割块中心提取的大小为d×d×3的图像块来进行语义哈希编码特征提取网络训练，并将网络中心层N_c维输出作为注视点的特征。

在训练语义哈希编码特征提取网络的基础上，下面需要对扫视路径进行特征提取。对于当前扫视路径上的每一个注视点，找到其所在图像过分割区域，提取该过分割区域中心大小为d×d×3的原始图像块，将其对应的向量输入到语义哈希编码特征提取网络中，提取中心层N_c维二值特征。即对于长度为m的扫视路径序列，得到其所对应的N_c×m扫视路径特征。

(4)训练LSTM网络

首先构建训练LSTM网络需要用到的训练样本集。训练样本集由扫视路径特征与对应的人群组别标记组成，LSTM网络的学习目标是建立由扫视路径特征到人群组别标记之间的映射关系。其次是利用训练样本集训练LSTM网络。依次将一个扫视路径上连续注视点对应的语义哈希编码特征作为网络输入，迭代得到最顶层回归层的人群组别预测得分，再使用基于时间的反向传播算法(Back Propagation Through Time，BPTT)算法根据预测得分与对应标记的预测误差迭代调整网络参数，得到基于扫视路径的人群识别模型。

(5)测试待评估观察者扫视路径序列

利用眼动仪记录当前待评估观察者在所有测试图像上的扫视路径。采用同训练过程同样的方式提取各个扫视路径特征，即对于每一个扫视路径，找到其上每一个注视点所在的过分割区域，并提取该过分割区域中心对应的语义哈希编码，得到扫视路径对应的特征序列，将该序列输入到训练后的LSTM模型中，得到该序列对应的回归层得分。

(6)判断待评估观察者人群组别

首先根据训练集上观察者的平均得分来依次计算两个相邻组别之间的平均得分划分阈值。对于每两个相邻组别，首先利用训练后LSTM网络预测该两个组别下各个观察者在所有测试图像上的平均得分，再利用最大类间方差法来对这两个相邻组别观察者的平均得分进行阈值划分。以此类推，对于n个组别的人群识别问题，得到n-1个相邻组别划分阈值。最后计算待评估观察者扫视路径序列的平均得分，并判断该平均得分所在组别区间，完成人群识别判断。

实施例1：基于扫视路径学习的性别识别

参照图1，本发明的具体实现步骤如下：

步骤1，构建测试图像库

本发明共选择两类图像来记录眼动。第一类图像来自30幅人像图像；第二类图像来自30幅具有不同性别购物偏好物体的合成图像，例如连衣裙与男生运动鞋的合成图像、化妆品与数码产品的合成图像等等。

步骤2，采集不同人群组别扫视路径序列

组织眼动实验，分别采集不同性别组别观察者在所有测试图像上的眼动数据，获取测试图像上对应的扫视路径序列。对于性别识别问题，共采集年龄在20-35周岁20名男性观察者及20名女性观察者的眼动数据。眼动记录设备采用善睐眼动平台2.0下的便携式眼动仪。眼动实验屏幕分辨率为1920×1080，观察者坐在距离屏幕60cm-75cm左右的位置。每个测试图像呈现3s，不同测试图像间隔为0.5s，用一幅灰色模板来实现。

步骤3，提取扫视路径序列特征

这一步骤的目标在于构建扫视路径特征提取网络，提取观察者在测试图像上扫视路径序列对应的特征，为下一步训练LSTM网络做准备。

(3a)图像过分割

首先采用简单线性迭代聚类(simple linear iterative clustering，SLIC)算法来将图像分割为多个过分割区域，其中每个过分割区域由相邻且具有相似特性的像素点组成。接下来再以这些过分割区域代替像素点作为图像基本处理单元，来减小图像噪声等对最终识别结果的影响。

(3b)提取扫视路径特征

接下来任务是利用语义哈希(Semantic Hashing)算法来对采集的扫视路径序列进行特征提取，将扫视路径序列上各个注视点所在过分割区域对应的原始图像数据变换到具有更强辨别能力的语义空间，进而提升基于LSTM网络的识别能力。参照图2，语义哈希算法采用深层自动编码器作为学习网络。该网络由共用中心层且结构对称的编码器与解码器两部分组成。中心层为二值神经元，其余所有神经元均为逻辑神经元。编码器由5层网络结构组成，相邻两层网络是全连接的关系，N₀为输入层的神经元数量，其大小由输入图像块对应的向量维数d×d×3决定。该网络一个重要特点是编码器神经元个数逐层减少，N_i≥2N_i+1,i＝0,1,2，N₃≥2N_c，中心层神经元数量N_c通常远小于输入层神经元数量N₀。另一方面，又需要通过解码器来在网络输出端重构出输入，这就迫使网络中心层能够发掘出高维输入数据中的内在结构与关系，获得从底层图像信息到语义特征的映射关系。

为了获取网络参数，利用从OSIE数据库700幅图像中所有过分割块中心提取的340,000个大小为d×d×3的图像块来进行网络训练。对于每个样本点x，将其对应的长度为d的原始图像块p(x)转化为d×d×3维列向量f(x)作为网络输入，再将输入向量f(x)作为对应的网络标记输出，来构建语义哈希编码特征提取网络训练样本。

语义哈希编码特征提取网络的训练过程分为预训练与反向传播微调参数两个阶段，首先是预训练的过程，来给出网络一组初始参数H(·,θ)。首先将编码器看作一组受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)的组合，训练当前RBM得到隐层单元的激活概率将被作为下一个RBM的可见层单元继续迭代训练，来逐层初始化编码器，解码器的初值是编码器的转置。这样能将整个学习任务分解成多个简单的任务，并消除了在定向生成式模型中出现的推理问题。

接下来是反向传播阶段，在初始网络H(·,θ)下，计算网络输出H(f(x),θ)，以及输出向量H(f(x),θ)和标记输出f(x)之间的交叉熵误差CE(x)：

其中，f(x)_i为标记输出f(x)的第i维元素，H(f(x),θ)_i为实际输出H(f(x),θ)的第i维元素。根据所有训练样本交叉熵误差的平均值来利用反向传播算法自顶向下微调整个网络参数H(·,θ),提高模型的鉴别能力。

在训练语义哈希编码特征提取网络的基础上，下面需要对扫视路径序列进行特征提取。参照图3，对于长度为m扫视路径序列(q₁,q₂,…q_t,…,q_m)上t时刻注视点q_t，找到其所在图像过分割区域，提取该区域中心大小为d×d×3的原始图像块，将其对应的向量f(q_t)输入到语义哈希编码特征提取网络中，提取中心层N_c维二值特征H(q_t)。将长度为m的扫视路径序列，转化为对应的N_c×m特征。

步骤4，训练LSTM网络

首先在上一步骤的基础上构建训练LSTM网络需要用到的训练样本集。对每个来自男性组别的扫视路径序列提取特征，并给出对应的标记1；对每个来自女性组别的扫视路径序列提取特征，并给出对应的标记2。

参照图4，构建用于性别识别的LSTM网络。该网络由两部分组成，迭代循环部分以及顶层回归层。循环部分包含两个状态：单元状态c和隐含层h。在t时刻，LSTM网络将受到三个输入的共同作用：当前时刻LSTM网络的输入值x_t、上一时刻LSTM网络的输出值h_t-1、以及上一时刻的单元状态c_t-1。同样在t时刻，LSTM网络有两部分输出：当前时刻LSTM网络的输出值h_t，以及当前时刻的单元状态c_t。所有输入输出都是向量的形式。

LSTM网络用两个门来控制单元状态c的内容，一个是遗忘门(forget gate)，它决定了上一时刻的单元状态有多少保留到当前时刻；另一个是输入门(input gate)，它决定了当前时刻网络的输入有多少保存到单元状态。LSTM网络用输出门(output gate)来控制单元状态有多少输出到LSTM的当前输出值。

首先是遗忘门输出的计算：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)，

其中，W_f与b_f分别为遗忘门的权重与偏置项，σ(·)为sigmoid函数。

其次是输入门输出计算：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

其中，W_i与b_i分别为输入门的权重与偏置项。

再次，计算用于描述输入的状态

其中，W_c与b_c分别为权重与偏置项。tanh(·)为tanh函数。

接下来，则是计算当前t时刻的单元状态c_t：

其中⊙表示按元素乘操作，通过计算c_t，可以将当前短期记忆与长期记忆c_t-1的影响组合起来。由于遗忘门的设定，单元状态可以保存很久之前的信息，由于输入门的设定，可以避免将当前无关紧要的内容存入记忆。

下面，是输出门的计算：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)，

其中，W_o与b_o分别为输出门的权重与偏置项。在计算输出门的基础上，最后是当前时刻下最终输出的计算：

h_t＝o_t⊙tanh(c_t)。

假设扫视路径序列长度为m，在前向传播到最后一个注视点时，将最终输出h_m与神经元个数为50的全连接层FF(·)连接，得到全连接层输出y_m：

y_m＝FF(h_m)

再将y_m与包含一个神经元的回归层全连接起来，得到该扫视路径序列对应的得分score。

score＝regression(y_m)

在将训练样本集扫视路径序列特征输入到网络中进行前向传播的基础上，使用BPTT算法来更新网络参数。具体做法是将连续注视点对应的N_c维二值语义哈希编码作为网络输入，得到最顶层回归层的预测值。再计算预测值与对应人群组别标记之间的预测误差，并根据该误差计算每个权重的梯度，沿时间反向传递误差项，调整网络的参数，最终得到基于扫视路径的性别识别模型。

输入向量维数x_t为N_c，隐含层神经元数量为200，W_f、W_i、W_c与W_o大小为200×(200+N_c)，因此，单元状态向量的维数与隐含层相同，均为200。

步骤5，测试待评估观察者扫视路径序列

步骤6，判断待评估观察者人群组别

首先根据训练集上观察者的平均得分来计算两个相邻组别之间的平均得分划分阈值。参照图5，计算两个相邻组别中20名观察者在60幅图像上的平均得分，得到40个平均得分的数据集合，再利用最大类间方差法来对该集合数据进行阈值划分，得到男性组别与女性组别扫视路径平均得分的划分阈值thr1，将平均得分划分为2个区间。

最后计算待评估观察者扫视路径序列的平均得分，并判断该平均得分所在组别区间，完成观察者性别识别判断。

实施例2：基于扫视路径学习的年龄段识别

参照图1，本发明的具体实现步骤如下：

步骤1，构建测试图像库

本发明共选择两类图像来记录眼动。第一类图像来自OSIE数据库的30幅蕴含语义情感特性及社会性的自然图像，包括面部表情、游戏场景、对话场景等等；第二类图像来自30幅儿童读物与绘本图像。

步骤2，采集不同人群组别扫视路径序列

组织眼动实验，分别采集不同性别组别观察者在60幅测试图像上的眼动数据，获取测试图像上对应的扫视路径序列。对于年龄段识别问题，人群组别年龄段分别设定为2-6岁，6-10岁，10岁-18岁，18岁以上。对于4个年龄段组别，各采集20名观察者的眼动数据。眼动记录设备可采用善睐眼动平台2.0下的便携式眼动仪。眼动实验屏幕分辨率为1920×1080，考虑到儿童视觉角问题，测试图像大小设置为800×600并放置于屏幕中心，其余部分用灰色模板填充。观察者坐在距离屏幕60cm-75cm左右的位置。每个测试图像呈现3s，不同测试图像间隔为0.5s，用一幅灰色模板来实现。

步骤3，提取扫视路径序列特征

(3a)图像过分割

(3b)提取扫视路径特征

步骤4，训练LSTM网络

首先在上一步骤的基础上构建训练LSTM网络需要用到的训练样本集。对于年龄段识别问题，提取各个年龄段扫视路径序列特征，并给出对应的人群组别标记1(2-6岁)、2(6-10岁)、3(10岁-18岁)、4(18岁以上)。

参照图4，构建用于年龄段识别的LSTM网络。该网络由两部分组成，迭代循环部分以及顶层回归层。循环部分包含两个状态：单元状态c和隐含层h。在t时刻，LSTM网络将受到三个输入的共同作用：当前时刻LSTM网络的输入值x_t、上一时刻LSTM网络的输出值h_t-1、以及上一时刻的单元状态c_t-1。同样在t时刻，LSTM网络有两部分输出：当前时刻LSTM网络的输出值h_t，以及当前时刻的单元状态c_t。所有输入输出都是向量的形式。

首先是遗忘门输出的计算：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)，

其次是输入门输出计算：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

其中，W_i与b_i分别为输入门的权重与偏置项。

再次，计算用于描述输入的状态

其中，W_c与b_c分别为权重与偏置项。tanh(·)为tanh函数。

接下来，则是计算当前t时刻的单元状态c_t：

下面，是输出门的计算：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)，

h_t＝o_t⊙tanh(c_t)。

y_m＝FF(h_m)

score＝regression(y_m)

在将训练样本集扫视路径序列特征输入到网络中进行前向传播的基础上，使用BPTT算法来更新网络参数。具体做法是将连续注视点对应的N_c维二值语义哈希编码作为网络输入，得到最顶层回归层的预测值。再计算预测值与对应人群组别标记之间的预测误差，并根据该误差计算每个权重的梯度，沿时间反向传递误差项，调整网络的参数，最终得到基于扫视路径的年龄段识别模型。

步骤5，测试待评估观察者扫视路径序列

利用眼动仪记录当前待评估观察者在所有测试图像上的扫视路径。参照图3，采用同训练过程同样的方式提取各个扫视路径特征，即对于每一个扫视路径，找到其上每一个注视点所在的过分割区域，并提取该过分割区域中心对应的语义哈希编码，得到扫视路径对应的特征序列，将该序列输入到训练后的LSTM模型中，得到该序列对应的回归层得分。

步骤6，判断待评估观察者人群组别

首先根据训练集上观察者的平均得分来依次计算两个相邻组别之间的平均得分划分阈值。参照图5，依次计算两个相邻组别中20名观察者在60幅图像上的平均得分，得到40个平均得分的数据集合，再利用最大类间方差法来对该集合数据计算组别划分阈值。分别得到第一组别与第二组别平均得分的划分阈值thr1，第二组别与第三组别的划分阈值thr2，以此类推，将4个组别人群识别问题下的平均得分划分为4个区间。

最后计算待评估观察者扫视路径序列的平均得分，并判断该平均得分所在组别区间，完成观察者年龄段识别判断。

Claims

1.一种基于长短时记忆网络扫视路径学习的人群识别方法，其特征在于步骤如下：

步骤1：构建测试图像库

首先根据具体人群识别问题来选择图像构建测试图像库；

步骤2：采集不同人群组别扫视序列

步骤3：提取扫视序列特征

3a)图像过分割

3b)提取扫视序列特征

步骤4：训练LSTM网络

步骤5：测试待评估观察者扫视序列

步骤6：判断待评估观察者人群组别

2.根据权利要求1所述的一种基于长短时记忆网络扫视路径学习的人群识别方法，其特征在于所述的步骤2中记载的眼动实验：采用善睐眼动平台2.0下的便携式眼动仪，眼动实验屏幕分辨率为1920×1080，考虑到儿童视觉角问题，测试图像大小设置为800×600并放置于屏幕中心，其余部分用灰色模板填充；观察者坐在距离屏幕60cm-75cm左右的位置；每个测试图像呈现3s，不同场景间隔为0.5s，用一幅灰色模板来实现。