CN108572733A

CN108572733A - 一种基于条件随机场的眼动行为视觉搜索目标预测方法

Info

Publication number: CN108572733A
Application number: CN201810300765.5A
Authority: CN
Inventors: 张雪涛; 王颖; 杨奔; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-25
Anticipated expiration: 2038-04-04
Also published as: CN108572733B

Abstract

本发明公开了一种基于条件随机场的眼动行为视觉搜索目标预测方法，属于机器视觉领域，本发明预测方法采用CRF序列模型来预测眼动序列，考虑到人的眼动轨迹是一个序列，并且注视点与注视点之间的跳转有一定的相关关系，针对人的眼动数据的长时空相关性，分别在Closed‑world环境下和Open‑world环境下采用基于条件随机场CRF来建立注视点序列之间的关系和注视点序列与类别之间的关系，提高了预测注视目标准确率。

Description

一种基于条件随机场的眼动行为视觉搜索目标预测方法

技术领域

本发明属于计算机视觉领域，涉及一种基于条件随机场的眼动行为视觉搜索目标预测方法。

背景技术

眼睛是感知认知的窗口。在视觉搜索任务中预测搜索目标在理论和实际应用中有着越来越重要的研究价值。如何表达搜索目标过程中注视点的特征，并且可以有效预测视觉目标仍是眼动轨迹预测视觉任务的难点。在该问题中，输入是寻找目标过程中的人的注视点及其注视轨迹变化，输出是该系列注视点对应的寻找目标。一些非序列方法如SVM、随机森林等方法没有考虑人的眼动是一个时间系列的特征。

发明内容

本发明的目的在于提供一种基于条件随机场的眼动行为视觉搜索目标预测方法，可以针对人的眼动数据的长时空相关性，采用CRF来建立注视点序列之间的关系和注视点序列与类别之间的关系；该方法因为标签设置的特殊性，在Open-world环境中也可以建立注视点与目标之间的关系。

为达到上述目的，本发明采用了以下技术方案。

一种基于条件随机场的眼动行为视觉搜索目标预测方法，分别在Close-world环境(即训练集的目标包含测试集的目标)下和Open-world环境(训练集与测试集的目标之间没有交集)下进行实验，根据注视点所在位置图像块的加权平均图来推理可以有效表达注视点的特征，并将每个注视点的时间长短作为该注视点视觉信息的权重，最后利用线性条件随机场模型自由建立两个注视点之间、注视点与目标类别之间的模型，并根据建立好的模型预测目标的准确率。

所述眼动行为视觉搜索目标预测方法如下：

(1)给出一个待搜索目标Q∈Q和一个待搜索图集C∈C，参与者P∈P；在搜索任务时记录注视点的位置F：

F(C,Q,P)＝{(x_i,y_i,a_i),i＝1,…N}

其中，(x_i,y_i)是屏幕上的坐标位置,a_i是注视点的位置；

(2)预测搜索目标：注视点是主要的信息点，所以在注视点的周围提取特定大小的图像块作为视觉特征输入，提取特征表示为Φ，特征计算准则表示为V；为了根据注视轨迹推测搜索目标，建立条件随机场模型找出目标图片与对应注视轨迹之间的映射关系：

所述预测搜索目标具体包括以下步骤：

步骤1：眼动序列视觉特征表达：

1)在每个注视点位置处提取m×m大小的图像块作为注视点的视觉信息，为了弥补眼动仪的差异或者由于人为因素即视觉宽域造成的差异，在注视点提取的图像块之外再选取8个相连不重复的图像块；

2)每个注视点图像块提取它的RGB直方图特征作为该注视点的视觉特征，将该注视点处的时间长短作为该注视点的权重信息；

步骤2：目标图片视觉特征表达：

1)提取目标图片的显著性顺序和寻找与该目标图片的眼动序列注视点相同个数的图像块；

2)同样提取每个图像块的RGB直方图特征作为该目标图片的视觉特征；

步骤3：分别在Close-world环境下和Open-world环境下进行条件随机场建模：

1)Closed-world环境下建模：Closed-world环境下，注视目标Q_test∈Q_train，条件随机场建模如下：

输入：将每个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视点的视觉特征，并将该注视点的视觉特征作为模型输入。

输出：将每个搜索目标的标签即输出按照自然数的顺序排列，如

目标一采用数字1表达，目标二采用数字2表达；

2)Open-world环境下建模：Open-world环境下，注视目标条件随机场建模如下：

输入：将每个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视点的视觉特征，然后将该注视点的视觉特征与目标图片的视觉特征一一对应，组成新的视觉特征，并将该新的视觉特征作为模型输入；

输出：Open-world环境下主要是从训练集中学习一个机制能够预测一个未经在训练集中训练的目标，即需要建立注视点与搜索目标之间的相关关系：

其中，Y是该环境下的标签设置，即输出，S(Q_j)表示对注视点对应的搜索目标进行采样；；

步骤4：分别在Close-world环境下和Open-world环境下进行搜索目标预测准确率计算：

Q_i＝arg max H_i(φ(F_test,V))

其中，H_i表示训练好的条件随机场模型，F_test表示测试图集对应的注视点特征，V表示特征计算准则。

本发明的有益效果如下：

本发明是一种基于条件随机场(CRF)的眼动行为视觉搜索目标推理方法，采用CRF序列模型来预测眼动序列，考虑到人的眼动轨迹是一个序列，并且注视点与注视点之间的跳转有一定的相关关系，该方法针对人的眼动数据的长时空相关性，采用CRF来建立注视点序列之间的关系和注视点序列与类别之间的关系，提高了预测准确率。

附图说明

图1为本发明的验证数据集示例,其中：图1a是Amazon图书封面拼图样例，图1b是O’Reilly图书封面拼图。

图2为本发明预测方法流程图。

图3为注视点图像块采样方法。

图4为RGB直方图特征示例。

图5为权重计算图。

图6为目标采样规则图，其中图6a是搜索目标图的显著性图，图6b是在图像上采样。

图7为Closed-world环境和Open-world环境对比示意图，其中：图7a是Closed-world环境，图7b是Open-world环境。

图8是本发明在Closed-world环境数据集上的验证结果，其中：图8a是Amazon数据上的实验结果，图8b是Oreilly数据上的实验结果。

图9是本发明在Open-world环境数据集上的验证结果，其中：图9a是Amazon数据上的实验结果，图9b是Oreilly数据上的实验结果。

具体实施方式

下面结合附图对本发明做进一步说明。

参见图1，图1是验证本发明方法可行性的数据集：左边是Amazon图书封面拼图样例(数据集中有100张不同的拼图)，图右是O’Reilly图书封面拼图(数据集中有100张不同的拼图)。该数据集旨在收集在该两种拼图中搜索指定目标(每个样例选取5个目标)并记录搜索过程中的注视点。选取6个参与者进行实验。

参见图2，为本发明所述的基于条件随机场(CRF)的眼动行为视觉搜索目标预测方法的方法流程图，步骤如下：

步骤1：眼动序列视觉特征表达

1)在每个注视点位置处提取m×m大小的图像块作为注视点的视觉信息。为了弥补眼动仪的差异或者由于人为因素(视觉宽域)造成的差异，本方法在注视点提取的图像块之外再选取8个相连不重复的图像块，如图3。

2)每个注视点图像块提取它的RGB直方图特征，如图4，作为该注视点的视觉特征，将该注视点处的时间长短作为该注视点的权重信息，如图5。

步骤2：目标图片视觉特征表达

1)提取目标图片的显著性顺序提取和寻找该目标的眼动序列注视点相同个数的图像块，如图6。

2)同样提取每个图像块的RGB直方图特征作为该目标的视觉特征。

步骤3：分别在Close-world环境下和Open-world环境下进行条件随机场建模

1)Closed-world环境下建模：Closed-world环境下,如图7a，注视目标Q_test∈Q_train，条件随机场建模如下：

输入：将每个个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视的视觉特征，并将该特征作为模型输入。

输出：将每个搜索目标的标签即输出按照自然数的顺序排列，如目标一采用数字1表达，目标二采用数字2表达等。

2)Open-world环境下建模：Open-world环境下,如图7b，注视目标条件随机场建模如下：

输入：将每个个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视的视觉特征，然后将注视点的视觉特征与目标图片的视觉特征一一对应，组成新的视觉特征，并将该特征作为模型输入。

输出：Open-world环境下主要是从训练集中学习一个机制可以预测一个未经在训练集中训练的目标，即需要建立注视点与检索目标之间的相关关系：

其中，Y是该环境下的标签设置，即输出，S(Q_j)表示对注视点对应的搜索目标进行采样。

Q_i＝arg max H_i(φ(F_test,V))

图8是Closed-world环境下该方法的实验结果，图9是Open-world环境下该方法的实验结果，与之前的方法进行对比，可以看出，采用条件随机场(Crf)方法建立模型并进行目标预测，准确率有了较大的提高。

Claims

1.一种基于条件随机场的眼动行为视觉搜索目标预测方法，其特征在于：包括如下步骤：

F(C,Q,P)＝{(x_i,y_i,a_i),i＝1,…N}

其中，(x_i,y_i)是屏幕上的坐标位置,a_i是注视点的位置；

2.根据权利要求1所述基于条件随机场的眼动行为视觉搜索目标预测方法，其特征在于：所述预测搜索目标具体包括以下步骤：

步骤1：眼动序列视觉特征表达：

步骤2：目标图片视觉特征表达：

输出：将每个搜索目标的标签即输出按照自然数的顺序排列，如目标一采用数字1表达，目标二采用数字2表达；

其中，Y是该环境下的标签设置，即输出，S(Q_j)表示对注视点对应的搜索目标进行采样；

Q_i＝argmaxH_i(φ(F_test,V))