CN108572733A - 一种基于条件随机场的眼动行为视觉搜索目标预测方法 - Google Patents

一种基于条件随机场的眼动行为视觉搜索目标预测方法 Download PDF

Info

Publication number
CN108572733A
CN108572733A CN201810300765.5A CN201810300765A CN108572733A CN 108572733 A CN108572733 A CN 108572733A CN 201810300765 A CN201810300765 A CN 201810300765A CN 108572733 A CN108572733 A CN 108572733A
Authority
CN
China
Prior art keywords
blinkpunkt
target
eye movement
world environment
visual signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810300765.5A
Other languages
English (en)
Other versions
CN108572733B (zh
Inventor
张雪涛
王颖
杨奔
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201810300765.5A priority Critical patent/CN108572733B/zh
Publication of CN108572733A publication Critical patent/CN108572733A/zh
Application granted granted Critical
Publication of CN108572733B publication Critical patent/CN108572733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于条件随机场的眼动行为视觉搜索目标预测方法,属于机器视觉领域,本发明预测方法采用CRF序列模型来预测眼动序列,考虑到人的眼动轨迹是一个序列,并且注视点与注视点之间的跳转有一定的相关关系,针对人的眼动数据的长时空相关性,分别在Closed‑world环境下和Open‑world环境下采用基于条件随机场CRF来建立注视点序列之间的关系和注视点序列与类别之间的关系,提高了预测注视目标准确率。

Description

一种基于条件随机场的眼动行为视觉搜索目标预测方法
技术领域
本发明属于计算机视觉领域,涉及一种基于条件随机场的眼动行为视觉搜索目标预测方法。
背景技术
眼睛是感知认知的窗口。在视觉搜索任务中预测搜索目标在理论和实际应用中有着越来越重要的研究价值。如何表达搜索目标过程中注视点的特征,并且可以有效预测视觉目标仍是眼动轨迹预测视觉任务的难点。在该问题中,输入是寻找目标过程中的人的注视点及其注视轨迹变化,输出是该系列注视点对应的寻找目标。一些非序列方法如SVM、随机森林等方法没有考虑人的眼动是一个时间系列的特征。
发明内容
本发明的目的在于提供一种基于条件随机场的眼动行为视觉搜索目标预测方法,可以针对人的眼动数据的长时空相关性,采用CRF来建立注视点序列之间的关系和注视点序列与类别之间的关系;该方法因为标签设置的特殊性,在Open-world环境中也可以建立注视点与目标之间的关系。
为达到上述目的,本发明采用了以下技术方案。
一种基于条件随机场的眼动行为视觉搜索目标预测方法,分别在Close-world环境(即训练集的目标包含测试集的目标)下和Open-world环境(训练集与测试集的目标之间没有交集)下进行实验,根据注视点所在位置图像块的加权平均图来推理可以有效表达注视点的特征,并将每个注视点的时间长短作为该注视点视觉信息的权重,最后利用线性条件随机场模型自由建立两个注视点之间、注视点与目标类别之间的模型,并根据建立好的模型预测目标的准确率。
所述眼动行为视觉搜索目标预测方法如下:
(1)给出一个待搜索目标Q∈Q和一个待搜索图集C∈C,参与者P∈P;在搜索任务时记录注视点的位置F:
F(C,Q,P)={(xi,yi,ai),i=1,…N}
其中,(xi,yi)是屏幕上的坐标位置,ai是注视点的位置;
(2)预测搜索目标:注视点是主要的信息点,所以在注视点的周围提取特定大小的图像块作为视觉特征输入,提取特征表示为Φ,特征计算准则表示为V;为了根据注视轨迹推测搜索目标,建立条件随机场模型找出目标图片与对应注视轨迹之间的映射关系:
所述预测搜索目标具体包括以下步骤:
步骤1:眼动序列视觉特征表达:
1)在每个注视点位置处提取m×m大小的图像块作为注视点的视觉信息,为了弥补眼动仪的差异或者由于人为因素即视觉宽域造成的差异,在注视点提取的图像块之外再选取8个相连不重复的图像块;
2)每个注视点图像块提取它的RGB直方图特征作为该注视点的视觉特征,将该注视点处的时间长短作为该注视点的权重信息;
步骤2:目标图片视觉特征表达:
1)提取目标图片的显著性顺序和寻找与该目标图片的眼动序列注视点相同个数的图像块;
2)同样提取每个图像块的RGB直方图特征作为该目标图片的视觉特征;
步骤3:分别在Close-world环境下和Open-world环境下进行条件随机场建模:
1)Closed-world环境下建模:Closed-world环境下,注视目标Qtest∈Qtrain,条件随机场建模如下:
输入:将每个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视点的视觉特征,并将该注视点的视觉特征作为模型输入。
输出:将每个搜索目标的标签即输出按照自然数的顺序排列,如
目标一采用数字1表达,目标二采用数字2表达;
2)Open-world环境下建模:Open-world环境下,注视目标条件随机场建模如下:
输入:将每个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视点的视觉特征,然后将该注视点的视觉特征与目标图片的视觉特征一一对应,组成新的视觉特征,并将该新的视觉特征作为模型输入;
输出:Open-world环境下主要是从训练集中学习一个机制能够预测一个未经在训练集中训练的目标,即需要建立注视点与搜索目标之间的相关关系:
其中,Y是该环境下的标签设置,即输出,S(Qj)表示对注视点对应的搜索目标进行采样;;
步骤4:分别在Close-world环境下和Open-world环境下进行搜索目标预测准确率计算:
Qi=arg max Hi(φ(Ftest,V))
其中,Hi表示训练好的条件随机场模型,Ftest表示测试图集对应的注视点特征,V表示特征计算准则。
本发明的有益效果如下:
本发明是一种基于条件随机场(CRF)的眼动行为视觉搜索目标推理方法,采用CRF序列模型来预测眼动序列,考虑到人的眼动轨迹是一个序列,并且注视点与注视点之间的跳转有一定的相关关系,该方法针对人的眼动数据的长时空相关性,采用CRF来建立注视点序列之间的关系和注视点序列与类别之间的关系,提高了预测准确率。
附图说明
图1为本发明的验证数据集示例,其中:图1a是Amazon图书封面拼图样例,图1b是O’Reilly图书封面拼图。
图2为本发明预测方法流程图。
图3为注视点图像块采样方法。
图4为RGB直方图特征示例。
图5为权重计算图。
图6为目标采样规则图,其中图6a是搜索目标图的显著性图,图6b是在图像上采样。
图7为Closed-world环境和Open-world环境对比示意图,其中:图7a是Closed-world环境,图7b是Open-world环境。
图8是本发明在Closed-world环境数据集上的验证结果,其中:图8a是Amazon数据上的实验结果,图8b是Oreilly数据上的实验结果。
图9是本发明在Open-world环境数据集上的验证结果,其中:图9a是Amazon数据上的实验结果,图9b是Oreilly数据上的实验结果。
具体实施方式
下面结合附图对本发明做进一步说明。
参见图1,图1是验证本发明方法可行性的数据集:左边是Amazon图书封面拼图样例(数据集中有100张不同的拼图),图右是O’Reilly图书封面拼图(数据集中有100张不同的拼图)。该数据集旨在收集在该两种拼图中搜索指定目标(每个样例选取5个目标)并记录搜索过程中的注视点。选取6个参与者进行实验。
参见图2,为本发明所述的基于条件随机场(CRF)的眼动行为视觉搜索目标预测方法的方法流程图,步骤如下:
步骤1:眼动序列视觉特征表达
1)在每个注视点位置处提取m×m大小的图像块作为注视点的视觉信息。为了弥补眼动仪的差异或者由于人为因素(视觉宽域)造成的差异,本方法在注视点提取的图像块之外再选取8个相连不重复的图像块,如图3。
2)每个注视点图像块提取它的RGB直方图特征,如图4,作为该注视点的视觉特征,将该注视点处的时间长短作为该注视点的权重信息,如图5。
步骤2:目标图片视觉特征表达
1)提取目标图片的显著性顺序提取和寻找该目标的眼动序列注视点相同个数的图像块,如图6。
2)同样提取每个图像块的RGB直方图特征作为该目标的视觉特征。
步骤3:分别在Close-world环境下和Open-world环境下进行条件随机场建模
1)Closed-world环境下建模:Closed-world环境下,如图7a,注视目标Qtest∈Qtrain,条件随机场建模如下:
输入:将每个个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视的视觉特征,并将该特征作为模型输入。
输出:将每个搜索目标的标签即输出按照自然数的顺序排列,如目标一采用数字1表达,目标二采用数字2表达等。
2)Open-world环境下建模:Open-world环境下,如图7b,注视目标条件随机场建模如下:
输入:将每个个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视的视觉特征,然后将注视点的视觉特征与目标图片的视觉特征一一对应,组成新的视觉特征,并将该特征作为模型输入。
输出:Open-world环境下主要是从训练集中学习一个机制可以预测一个未经在训练集中训练的目标,即需要建立注视点与检索目标之间的相关关系:
其中,Y是该环境下的标签设置,即输出,S(Qj)表示对注视点对应的搜索目标进行采样。
步骤4:分别在Close-world环境下和Open-world环境下进行搜索目标预测准确率计算:
Qi=arg max Hi(φ(Ftest,V))
其中,Hi表示训练好的条件随机场模型,Ftest表示测试图集对应的注视点特征,V表示特征计算准则。
图8是Closed-world环境下该方法的实验结果,图9是Open-world环境下该方法的实验结果,与之前的方法进行对比,可以看出,采用条件随机场(Crf)方法建立模型并进行目标预测,准确率有了较大的提高。

Claims (2)

1.一种基于条件随机场的眼动行为视觉搜索目标预测方法,其特征在于:包括如下步骤:
(1)给出一个待搜索目标Q∈Q和一个待搜索图集C∈C,参与者P∈P;在搜索任务时记录注视点的位置F:
F(C,Q,P)={(xi,yi,ai),i=1,…N}
其中,(xi,yi)是屏幕上的坐标位置,ai是注视点的位置;
(2)预测搜索目标:注视点是主要的信息点,所以在注视点的周围提取特定大小的图像块作为视觉特征输入,提取特征表示为Φ,特征计算准则表示为V;为了根据注视轨迹推测搜索目标,建立条件随机场模型找出目标图片与对应注视轨迹之间的映射关系:
2.根据权利要求1所述基于条件随机场的眼动行为视觉搜索目标预测方法,其特征在于:所述预测搜索目标具体包括以下步骤:
步骤1:眼动序列视觉特征表达:
1)在每个注视点位置处提取m×m大小的图像块作为注视点的视觉信息,为了弥补眼动仪的差异或者由于人为因素即视觉宽域造成的差异,在注视点提取的图像块之外再选取8个相连不重复的图像块;
2)每个注视点图像块提取它的RGB直方图特征作为该注视点的视觉特征,将该注视点处的时间长短作为该注视点的权重信息;
步骤2:目标图片视觉特征表达:
1)提取目标图片的显著性顺序和寻找与该目标图片的眼动序列注视点相同个数的图像块;
2)同样提取每个图像块的RGB直方图特征作为该目标图片的视觉特征;
步骤3:分别在Close-world环境下和Open-world环境下进行条件随机场建模:
1)Closed-world环境下建模:Closed-world环境下,注视目标Qtest∈Qtrain,条件随机场建模如下:
输入:将每个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视点的视觉特征,并将该注视点的视觉特征作为模型输入。
输出:将每个搜索目标的标签即输出按照自然数的顺序排列,如目标一采用数字1表达,目标二采用数字2表达;
2)Open-world环境下建模:Open-world环境下,注视目标条件随机场建模如下:
输入:将每个注视点提取的图像块及周围8个图像块的视觉特征做加权平均处理作为最终该注视点的视觉特征,然后将该注视点的视觉特征与目标图片的视觉特征一一对应,组成新的视觉特征,并将该新的视觉特征作为模型输入;
输出:Open-world环境下主要是从训练集中学习一个机制能够预测一个未经在训练集中训练的目标,即需要建立注视点与搜索目标之间的相关关系:
其中,Y是该环境下的标签设置,即输出,S(Qj)表示对注视点对应的搜索目标进行采样;
步骤4:分别在Close-world环境下和Open-world环境下进行搜索目标预测准确率计算:
Qi=argmaxHi(φ(Ftest,V))
其中,Hi表示训练好的条件随机场模型,Ftest表示测试图集对应的注视点特征,V表示特征计算准则。
CN201810300765.5A 2018-04-04 2018-04-04 一种基于条件随机场的眼动行为视觉搜索目标预测方法 Active CN108572733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810300765.5A CN108572733B (zh) 2018-04-04 2018-04-04 一种基于条件随机场的眼动行为视觉搜索目标预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810300765.5A CN108572733B (zh) 2018-04-04 2018-04-04 一种基于条件随机场的眼动行为视觉搜索目标预测方法

Publications (2)

Publication Number Publication Date
CN108572733A true CN108572733A (zh) 2018-09-25
CN108572733B CN108572733B (zh) 2019-03-12

Family

ID=63574166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810300765.5A Active CN108572733B (zh) 2018-04-04 2018-04-04 一种基于条件随机场的眼动行为视觉搜索目标预测方法

Country Status (1)

Country Link
CN (1) CN108572733B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110496291A (zh) * 2019-07-10 2019-11-26 广州韬锐科技有限公司 一种结合虚拟现实技术和心理辅导的戒毒方法
CN110956309A (zh) * 2019-10-30 2020-04-03 南京大学 基于crf和lstm的流程活动预测方法
CN111985341A (zh) * 2020-07-23 2020-11-24 东北师范大学 一种图像的视觉注意力捕捉方法、系统及可读存储介质
CN112256131A (zh) * 2020-10-26 2021-01-22 西安交通大学 面向类别搜索任务的基于目标检测的注视轨迹预测方法
CN112883767A (zh) * 2019-11-29 2021-06-01 Oppo广东移动通信有限公司 眼跳图像的处理方法及相关产品
CN113469053A (zh) * 2021-07-01 2021-10-01 中科人工智能创新技术研究院(青岛)有限公司 眼动轨迹鉴别方法及系统
CN113506274A (zh) * 2021-07-15 2021-10-15 中科人工智能创新技术研究院(青岛)有限公司 基于视觉显著性差异图的用于人体认知状况的检测系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292548B (zh) * 2020-02-06 2021-02-05 温州大学 一种基于视觉注意力的安全驾驶方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102749991A (zh) * 2012-04-12 2012-10-24 广东百泰科技有限公司 一种适用于人机交互的非接触式自由空间视线跟踪方法
CN105426399A (zh) * 2015-10-29 2016-03-23 天津大学 一种基于眼动的提取图像兴趣区域的交互式图像检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102749991A (zh) * 2012-04-12 2012-10-24 广东百泰科技有限公司 一种适用于人机交互的非接触式自由空间视线跟踪方法
CN105426399A (zh) * 2015-10-29 2016-03-23 天津大学 一种基于眼动的提取图像兴趣区域的交互式图像检索方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN109800434B (zh) * 2019-01-25 2023-07-18 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110496291A (zh) * 2019-07-10 2019-11-26 广州韬锐科技有限公司 一种结合虚拟现实技术和心理辅导的戒毒方法
CN110496291B (zh) * 2019-07-10 2023-11-21 广州韬锐科技有限公司 一种结合虚拟现实技术和心理辅导的戒毒系统
CN110956309A (zh) * 2019-10-30 2020-04-03 南京大学 基于crf和lstm的流程活动预测方法
CN112883767B (zh) * 2019-11-29 2024-03-12 Oppo广东移动通信有限公司 眼跳图像的处理方法及相关产品
CN112883767A (zh) * 2019-11-29 2021-06-01 Oppo广东移动通信有限公司 眼跳图像的处理方法及相关产品
CN111985341B (zh) * 2020-07-23 2023-04-07 东北师范大学 一种图像的视觉注意力捕捉方法、系统及可读存储介质
CN111985341A (zh) * 2020-07-23 2020-11-24 东北师范大学 一种图像的视觉注意力捕捉方法、系统及可读存储介质
CN112256131B (zh) * 2020-10-26 2021-10-19 西安交通大学 面向类别搜索任务的基于目标检测的注视轨迹预测方法
CN112256131A (zh) * 2020-10-26 2021-01-22 西安交通大学 面向类别搜索任务的基于目标检测的注视轨迹预测方法
CN113469053A (zh) * 2021-07-01 2021-10-01 中科人工智能创新技术研究院(青岛)有限公司 眼动轨迹鉴别方法及系统
CN113469053B (zh) * 2021-07-01 2024-04-05 中科人工智能创新技术研究院(青岛)有限公司 眼动轨迹鉴别方法及系统
CN113506274A (zh) * 2021-07-15 2021-10-15 中科人工智能创新技术研究院(青岛)有限公司 基于视觉显著性差异图的用于人体认知状况的检测系统
CN113506274B (zh) * 2021-07-15 2024-03-08 中科人工智能创新技术研究院(青岛)有限公司 基于视觉显著性差异图的用于人体认知状况的检测系统

Also Published As

Publication number Publication date
CN108572733B (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN108572733B (zh) 一种基于条件随机场的眼动行为视觉搜索目标预测方法
Wang et al. Fast sign language recognition benefited from low rank approximation
CN107735795A (zh) 用于社会关系识别的方法和系统
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
CN108765383A (zh) 基于深度迁移学习的视频描述方法
CN106355446B (zh) 一种网络和手机游戏的广告推荐系统
Daroya et al. Alphabet sign language image classification using deep learning
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
Gökçe et al. Score-level multi cue fusion for sign language recognition
CN110110090A (zh) 搜索方法、教育搜索引擎系统及装置
CN111126864A (zh) 一种基于人机对抗评分的街道品质评估方法
CN110465089B (zh) 基于图像识别的地图探索方法、装置、介质及电子设备
CN113395578A (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
Zhao et al. The 3rd anti-uav workshop & challenge: Methods and results
CN106897426A (zh) 基于眼球追踪技术的特定数据生成系统及方法
CN105976395A (zh) 一种基于稀疏表示的视频目标跟踪方法
Balasuriya et al. Learning platform for visually impaired children through artificial intelligence and computer vision
CN109272440A (zh) 一种联合文本和图像内容的缩略图生成方法及系统
CN109684511A (zh) 一种视频剪辑方法、视频聚合方法、装置以及系统
Zhang et al. Teaching chinese sign language with a smartphone
CN111683294B (zh) 一种信息抽取的弹幕评论推荐方法
CN109299303A (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN113761105A (zh) 文本数据处理方法、装置、设备以及介质
US9830533B2 (en) Analyzing and exploring images posted on social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant