CN112417142A - 基于眼动跟踪的词义和摘要生成辅助方法及系统 - Google Patents
基于眼动跟踪的词义和摘要生成辅助方法及系统 Download PDFInfo
- Publication number
- CN112417142A CN112417142A CN202011320506.2A CN202011320506A CN112417142A CN 112417142 A CN112417142 A CN 112417142A CN 202011320506 A CN202011320506 A CN 202011320506A CN 112417142 A CN112417142 A CN 112417142A
- Authority
- CN
- China
- Prior art keywords
- user
- text
- reading
- confusion
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000004424 eye movement Effects 0.000 title claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 20
- 206010010305 Confusional state Diseases 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 210000001747 pupil Anatomy 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 102100032202 Cornulin Human genes 0.000 claims description 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 210000001508 eye Anatomy 0.000 description 43
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了基于眼动跟踪的词义和摘要生成辅助方法及系统,包括眼动跟踪数据计算模块、图像文本信息获取模块、用户阅读需求综合分析模块、词义和摘要生成模块;本发明的有益效果是:适用于纸质阅读和电子阅读两种场景,实现了用户阅读过程中的困惑预测,实现了根据用户阅读行为生成文本摘要,进而根据用户的眼动行为与文本信息来实现这些阅读辅助功能,提高了用户的阅读效率,为用户带来了便捷的阅读体验。
Description
技术领域
本发明涉及人机交互技术领域,具体涉及一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法及系统。
背景技术
随着人工智能与计算机视觉技术的飞速发展,开始出现低成本、高精度的眼动跟踪设备,使得眼动跟踪技术得到了广泛应用。眼球运动表征了人类视觉注意力的时空分布特征,揭示了许多主观行为的潜在因素,因此眼动跟踪技术具有重要的应用价值。阅读行为分析和阅读过程辅助是眼动跟踪技术的一个重要应用场景,无论是纸质阅读还是数字化阅读,当人们在面对海量的文本信息时往往疲于阅读,因为传统的阅读方式难免遇到一些问题。以英文阅读为例,用户在阅读过程中可能会遇到不理解的词汇而陷入困惑,另外为了快速获取相关信息,快速浏览往往无法很好的平衡衡阅读速度和理解深度。在此背景下,本发明提出一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法及系统,实时跟踪用户的眼动注视点,获取用户所阅读的文本信息,通过对眼动数据和文本信息进行综合分析预测用户的困惑,当用户为单词感到困惑时为用户查询与展示单词词义;而当用户快速浏览时为用户生成与展示文本摘要,从而实现辅助阅读的目的;在此基础上设计了相应系统的架构和各模块。
发明内容
针对现有技术中存在的问题,本发明提供了设计合理的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法及系统。
本发明的技术方案如下:
基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,包括如下步骤:
1)眼动跟踪数据计算:首先需要用户完成标定过程,从而准确跟踪用户的实时注视点;
2)图像文本信息获取:对从场景相机中获取的图像进行文本信息获取;
3)用户阅读需求综合分析:结合眼动跟踪数据与文本信息对用户需求进行综合分析;
4)词义和摘要生成。
所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤1)中眼动跟踪数据计算具体步骤如下:
用户佩戴眼动设备,对眼动设备上的两个相机采集的图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和阈值化操作;在特征检测过程中,一方面对眼部图像提取瞳孔中心点与普尔钦斑中心点所构成的PCCR向量,另一方面对场景图像,利用D-P算法检测所标定设备的位置,通过九个标定点建立向量与屏幕注视点之间的映射关系,从而能够得到实时的眼动跟踪注视点坐标。
所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤2)中图像文本信息获取具体步骤如下:
首先对场景图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和自适应阈值化操作,通过形态学参数的迭代检测图像中字符与单词的最优检测尺度,通过CRNN深度模型对单词ROI图像进行预测得到文本内容,最终将文本与图像位置建立映射关系。
所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤3)中用户阅读需求综合分析具体步骤如下:
首先对用户的阅读模式进行初步分析,确定用户的阅读方式是深阅读还是浅阅读,进一步地对于深阅读进行单词困惑分析,而对于浅阅读进行文本困惑分析;其中单词困惑预测通过对可观测量与用户困惑状态建立隐马尔可夫模型,预测用户的困惑状态,并通过注视点局部感知方法对困惑单词进行定位;另外,当检测到用户的阅读速度较快,存在不规律的回视与注视情况时,将用户定性为对文本的理解存在困惑。
所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤4)中词义和摘要生成具体步骤如下:
当检测到用户的单词困惑,利用预先准备的语料库建立单词索引,在需要时快速查询困惑单词的词义,并以可视化形式展示给用户,从而解决用户的单词困惑问题;当检测到用户对文本理解存在困惑时,结合阅读注视点热区图与文本信息,通过摘要生成模型来显示摘要;摘要生成模型整体采用了Seq2seq模型来进行文本生成任务,首先通过BERT预训练模型对文本进行分句编码,编码器为双层双向LSTM网络,在第二层隐藏层状态的计算过程中加入了基于眼动跟踪数据的注意力向量,然后通过多层感知机模型计算眼动跟踪数据与文本的相关性评分,最终得到编码器的语义向量;在解码器中采用传统的Attention机制进行语义分析,再利用分层解码的方式将语句的语义向量解码为词向量,最后利用Softmax分类器与集束搜索算法输出最终的文本序列;在得到文本摘要后以可视化形式展示给用户,从而解决用户的文本理解困惑问题。
基于眼动跟踪的词义和摘要生成辅助系统,其特征在于,包括眼动跟踪数据计算模块、图像文本信息获取模块、用户阅读需求综合分析模块、词义和摘要生成模块;
眼动跟踪数据计算模块:提取人眼图像中的瞳孔和普尔钦斑,计算瞳孔和普尔钦斑中心坐标,然后以瞳孔中心和普尔钦斑中心建立瞳孔-角膜反射向量,进而建立眼动跟踪映射模型,计算眼动跟踪注视点在显示屏幕上的坐标;对原始眼动跟踪数据进行预处理,剔除无效的眼动跟踪数据;
图像文本信息获取模块:负责场景图像进行文本识别,分为文本检测和文本提取任务,为了保证任务的实时性,采用基于传统图像处理的迭代检测方法完成文本检测,采用深度学习模型对检测到的文本ROI进行文本提取;通过建立一定的数据结构,存储文本与其内容结构与图像位置信息,构建图像与文本之间的对应关系,其目的是便于根据注视点位置快速查找对应距离最近的文本内容;
用户阅读需求综合分析模块:通过对眼动数据与文本信息提取各种困惑相关的特征,构建特征向量,并分析计算用户的困惑状态与困惑对象,困惑状态分为有困惑与无困惑两种,困惑对象分为某一个单词与整体文本内容;
词义和摘要生成模块:根据用户困惑分析结果生成对应的辅助信息,通过服务器在不同的用户之间共享眼动跟踪数据之后,在用户终端的显示屏幕上,以不同的可视化形式展现其他用户的眼动跟踪数据,具体可视化形式包括注视点实时显示、视觉感兴趣文本边框、辅助信息显示区、视觉感兴趣区与辅助信息显示区之间的连线。
本发明的有益效果是:适用于纸质阅读和电子阅读两种场景,实现了用户阅读过程中的困惑预测,实现了根据用户阅读行为生成文本摘要,进而根据用户的眼动行为与文本信息来实现这些阅读辅助功能,提高了用户的阅读效率,为用户带来了便捷的阅读体验。
附图说明
图1是本发明的眼动跟踪数据计算流程示意图;
图2是本发明的图像文本信息获取流程示意图;
图3是本发明的用户需求综合分析示意图;
图4是本发明的系统的基本逻辑结构示意图;
图5是本发明的系统的数据处理流程示意图。
具体实施方式
下面将结合附图,对本发明一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,不能理解为对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法,对其中的步骤进行具体描述:
1)眼动跟踪数据计算:首先需要用户完成标定过程,从而准确跟踪用户的实时注视点。眼动跟踪数据计算方法的流程如图1所示,用户佩戴眼动设备(眼动跟踪仪,或眼动仪),对眼动设备上的两个相机采集的图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和阈值化等操作。在特征检测过程中,一方面对眼部图像提取瞳孔中心点与普尔钦斑中心点(红外光源在角膜上反射的光斑)所构成的PCCR向量,另一方面对场景图像,利用D-P算法检测所标定设备的位置。通过九个标定点(数目不一定是9个,也可以4个或6个,不同的眼动跟踪算法不一样,我们采用的眼动仪是9点标定)建立向量与屏幕注视点之间的映射关系,从而能够得到实时的眼动跟踪注视点坐标。
2)图像文本信息获取:对从场景相机中获取的图像进行文本信息获取,具体流程如图2所示,首先对场景图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和自适应阈值化操作,通过形态学参数的迭代检测图像中字符与单词的最优检测尺度,通过CRNN深度模型对单词ROI图像进行预测得到文本内容,最终将文本与图像位置建立映射关系。
3)用户阅读需求综合分析:结合眼动跟踪数据与文本信息对用户需求进行综合分析,流程如图3所示。首先对用户的阅读模式进行初步分析,确定用户的阅读方式是深阅读还是浅阅读(预先设定好是深阅读或者浅阅读),进一步地对于深阅读进行单词困惑分析,而对于浅阅读进行文本困惑分析。其中单词困惑预测通过对可观测量与用户困惑状态建立隐马尔可夫模型,预测用户的困惑状态,并通过注视点局部感知方法对困惑单词进行定位;另外,当检测到用户的阅读速度较快,存在不规律的回视与注视情况时,将用户定性为对文本的理解存在困惑。
4)词义和摘要生成:对用户需求分析结果提供针对性的辅助功能。当检测到用户的单词困惑,利用预先准备的语料库建立单词索引,可以在需要时快速查询困惑单词的词义,并以可视化形式展示给用户,从而解决用户的单词困惑问题;当检测到用户对文本理解存在困惑时,结合阅读注视点热区图与文本信息,通过本发明所提供的摘要生成模型来显示摘要。摘要生成模型整体采用了Seq2seq模型来进行文本生成任务,首先通过BERT预训练模型对文本进行分句编码,编码器为双层双向LSTM网络,在第二层隐藏层状态的计算过程中加入了基于眼动跟踪数据的注意力向量,然后通过多层感知机模型计算眼动跟踪数据与文本的相关性评分,最终得到编码器的语义向量;在解码器中采用传统的Attention机制进行语义分析,再利用分层解码的方式将语句的语义向量解码为词向量,最后利用Softmax分类器与集束搜索算法输出最终的文本序列。在得到文本摘要后以可视化形式展示给用户,从而解决用户的文本理解困惑问题。
如图4所示,本文发明实施例提供的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助系统的基本逻辑结构示意图。为了便于说明,仅仅示出了与本发明实施例相关的部分。该系统中功能模块/单元可以是硬件模块/单元、软件模块/单元,主要包括:
1)眼动跟踪数据计算模块,提取人眼图像中的瞳孔和普尔钦斑,计算瞳孔和普尔钦斑中心坐标,然后以瞳孔中心和普尔钦斑中心建立瞳孔-角膜反射向量,进而建立眼动跟踪映射模型,计算眼动跟踪注视点在显示屏幕上的坐标;对原始眼动跟踪数据进行预处理,剔除无效的眼动跟踪数据,例如,对坐标超出显示屏幕之外的注视点边缘化处理,对注视点平滑操作去除一些眼跳和视线抖动对定位单词带来的影响;
2)图像文本信息获取模块,负责场景图像进行文本识别,大致分为文本检测和文本提取任务,为了保证任务的实时性,采用基于传统图像处理的迭代检测方法完成文本检测,采用深度学习模型对检测到的文本ROI进行文本提取;通过建立一定的数据结构,如B+树,存储文本与其内容结构与图像位置信息,构建图像与文本之间的对应关系,其目的是便于根据注视点位置快速查找对应距离最近的文本内容;
3)用户阅读需求综合分析模块,通过对眼动数据与文本信息提取各种困惑相关的特征,构建特征向量,并分析计算用户的困惑状态与困惑对象,困惑状态分为有困惑与无困惑两种,困惑对象分为某一个单词与整体文本内容。
4)词义和摘要生成模块,根据用户困惑分析结果生成对应的辅助信息,如对单词困惑查询该单词的释义信息,对文本理解困惑生成整个文本的摘要信息。通过服务器在不同的用户之间共享眼动跟踪数据之后,在用户终端的显示屏幕上,以不同的可视化形式展现其他用户的眼动跟踪数据,具体可视化形式包括注视点实时显示、视觉感兴趣区文本边框、辅助信息显示区、视觉感兴趣区与辅助信息显示区之间的连线。
如图5所示,本发明提供的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助系统的数据处理流程示意图,在硬件设施上分为客户端设备和服务端设备,用户在客户端上进行眼动跟踪的标定过程与文本阅读,服务端负责信息处理和辅助信息生成。首先由用户在阅读过程中产生可观测数据,在客户端中通过眼动跟踪计算用户的实时注视点,通过文本识别获取文本内容,为了提高客户端/服务端直接的数据传输效率,在传输数据之前将两者数据进行一定的预处理操作,以去除后续数据分析过程中不必要的数据。服务端对接受到的用户数据进行综合分析,对用户的困惑情况进行实时追踪,一旦发现用户有某种困惑则将客户端数据进一步交给单词注释模块或文本摘要模块进行辅助信息生成,最终将生成的信息返回给客户端,客户端在接受到服务端传送的信息之后,通过信息可视化模块将信息以一定的形式显示在设备显示屏幕上,用户通过显示信息获取阅读方面的辅助,以解决阅读中存在的困惑。
本发明实施例中各个模块可以集成于一体,也可以分离部署,或进一步拆分成多个子模块。各个模块可以按照实施例描述分布于实施例的系统中,也可以进行相应变化位于不同于本发明实施例的一个或多个系统中。
本领域的技术人员应该明白,本发明实施例可提供成为方法、系统、或计算机程序产品。
本发明实施例的各模块或各步骤可以用通用的计算装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明实施例不限制于任何特定的硬件和软件结合。
以上公开的仅为本发明的具体实施例,但是本发明并非局限于此,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。显然这些改动和变型均应属于本发明要求的保护范围内。
Claims (6)
1.基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,包括如下步骤:
1)眼动跟踪数据计算:首先需要用户完成标定过程,从而准确跟踪用户的实时注视点;
2)图像文本信息获取:对从场景相机中获取的图像进行文本信息获取;
3)用户阅读需求综合分析:结合眼动跟踪数据与文本信息对用户需求进行综合分析;
4)词义和摘要生成。
2.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤1)中眼动跟踪数据计算具体步骤如下:
用户佩戴眼动设备,对眼动设备上的两个相机采集的图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和阈值化操作;在特征检测过程中,一方面对眼部图像提取瞳孔中心点与普尔钦斑中心点所构成的PCCR向量,另一方面对场景图像,利用D-P算法检测所标定设备的位置,通过标定点建立向量与屏幕注视点之间的映射关系,从而能够得到实时的眼动跟踪注视点坐标。
3.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤2)中图像文本信息获取具体步骤如下:
首先对场景图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和自适应阈值化操作,通过形态学参数的迭代检测图像中字符与单词的最优检测尺度,通过CRNN深度模型对单词ROI图像进行预测得到文本内容,最终将文本与图像位置建立映射关系。
4.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤3)中用户阅读需求综合分析具体步骤如下:
首先对用户的阅读模式进行初步分析,确定用户的阅读方式是深阅读还是浅阅读,进一步地对于深阅读进行单词困惑分析,而对于浅阅读进行文本困惑分析;其中单词困惑预测通过对可观测量与用户困惑状态建立隐马尔可夫模型,预测用户的困惑状态,并通过注视点局部感知方法对困惑单词进行定位;另外,当检测到用户的阅读速度较快,存在不规律的回视与注视情况时,将用户定性为对文本的理解存在困惑。
5.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤4)中词义和摘要生成具体步骤如下:
当检测到用户的单词困惑,利用预先准备的语料库建立单词索引,在需要时快速查询困惑单词的词义,并以可视化形式展示给用户,从而解决用户的单词困惑问题;当检测到用户对文本理解存在困惑时,结合阅读注视点热区图与文本信息,通过摘要生成模型来显示摘要;摘要生成模型整体采用了Seq2seq模型来进行文本生成任务,首先通过BERT预训练模型对文本进行分句编码,编码器为双层双向LSTM网络,在第二层隐藏层状态的计算过程中加入了基于眼动跟踪数据的注意力向量,然后通过多层感知机模型计算眼动跟踪数据与文本的相关性评分,最终得到编码器的语义向量;在解码器中采用传统的Attention机制进行语义分析,再利用分层解码的方式将语句的语义向量解码为词向量,最后利用Softmax分类器与集束搜索算法输出最终的文本序列;在得到文本摘要后以可视化形式展示给用户,从而解决用户的文本理解困惑问题。
6.基于眼动跟踪的词义和摘要生成辅助系统,其特征在于,包括眼动跟踪数据计算模块、图像文本信息获取模块、用户阅读需求综合分析模块、词义和摘要生成模块;
眼动跟踪数据计算模块:提取人眼图像中的瞳孔和普尔钦斑,计算瞳孔和普尔钦斑中心坐标,然后以瞳孔中心和普尔钦斑中心建立瞳孔-角膜反射向量,进而建立眼动跟踪映射模型,计算眼动跟踪注视点在显示屏幕上的坐标;对原始眼动跟踪数据进行预处理,剔除无效的眼动跟踪数据;
图像文本信息获取模块:负责场景图像进行文本识别,分为文本检测和文本提取任务,为了保证任务的实时性,采用基于传统图像处理的迭代检测方法完成文本检测,采用深度学习模型对检测到的文本ROI进行文本提取;通过建立一定的数据结构,存储文本与其内容结构与图像位置信息,构建图像与文本之间的对应关系,其目的是便于根据注视点位置快速查找对应距离最近的文本内容;
用户阅读需求综合分析模块:通过对眼动数据与文本信息提取各种困惑相关的特征,构建特征向量,并分析计算用户的困惑状态与困惑对象,困惑状态分为有困惑与无困惑两种,困惑对象分为某一个单词与整体文本内容;
词义和摘要生成模块:根据用户困惑分析结果生成对应的辅助信息,通过服务器在不同的用户之间共享眼动跟踪数据之后,在用户终端的显示屏幕上,以不同的可视化形式展现其他用户的眼动跟踪数据,具体可视化形式包括注视点实时显示、视觉感兴趣文本边框、辅助信息显示区、视觉感兴趣区与辅助信息显示区之间的连线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320506.2A CN112417142A (zh) | 2020-11-23 | 2020-11-23 | 基于眼动跟踪的词义和摘要生成辅助方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320506.2A CN112417142A (zh) | 2020-11-23 | 2020-11-23 | 基于眼动跟踪的词义和摘要生成辅助方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417142A true CN112417142A (zh) | 2021-02-26 |
Family
ID=74778076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011320506.2A Pending CN112417142A (zh) | 2020-11-23 | 2020-11-23 | 基于眼动跟踪的词义和摘要生成辅助方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417142A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283354A (zh) * | 2021-05-31 | 2021-08-20 | 中国航天科工集团第二研究院 | 一种分析眼动信号行为的方法、系统及存储介质 |
CN113297353A (zh) * | 2021-06-16 | 2021-08-24 | 深圳前海微众银行股份有限公司 | 文本匹配方法、装置、设备及存储介质 |
CN114115670A (zh) * | 2021-07-30 | 2022-03-01 | 荣耀终端有限公司 | 提醒生成文本摘要的方法、生成文本摘要的方法及装置 |
CN115601825A (zh) * | 2022-10-25 | 2023-01-13 | 扬州市职业大学(扬州开放大学)(Cn) | 一种基于视觉定位技术评价阅读能力的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873774A (zh) * | 2017-01-12 | 2017-06-20 | 北京奇虎科技有限公司 | 基于视线跟踪的交互控制方法、装置及智能终端 |
CN108763394A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 面向协同交互的多用户眼动跟踪数据可视化方法和系统 |
-
2020
- 2020-11-23 CN CN202011320506.2A patent/CN112417142A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873774A (zh) * | 2017-01-12 | 2017-06-20 | 北京奇虎科技有限公司 | 基于视线跟踪的交互控制方法、装置及智能终端 |
CN108763394A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 面向协同交互的多用户眼动跟踪数据可视化方法和系统 |
Non-Patent Citations (1)
Title |
---|
程时伟等: "基于视觉行为与文本特征分析的阅读批注生成方法", 《浙江大学学报(工学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283354A (zh) * | 2021-05-31 | 2021-08-20 | 中国航天科工集团第二研究院 | 一种分析眼动信号行为的方法、系统及存储介质 |
CN113283354B (zh) * | 2021-05-31 | 2023-08-18 | 中国航天科工集团第二研究院 | 一种分析眼动信号行为的方法、系统及存储介质 |
CN113297353A (zh) * | 2021-06-16 | 2021-08-24 | 深圳前海微众银行股份有限公司 | 文本匹配方法、装置、设备及存储介质 |
CN114115670A (zh) * | 2021-07-30 | 2022-03-01 | 荣耀终端有限公司 | 提醒生成文本摘要的方法、生成文本摘要的方法及装置 |
CN115601825A (zh) * | 2022-10-25 | 2023-01-13 | 扬州市职业大学(扬州开放大学)(Cn) | 一种基于视觉定位技术评价阅读能力的方法 |
CN115601825B (zh) * | 2022-10-25 | 2023-09-19 | 扬州市职业大学(扬州开放大学) | 一种基于视觉定位技术评价阅读能力的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | A position and rotation invariant framework for sign language recognition (SLR) using Kinect | |
CN112417142A (zh) | 基于眼动跟踪的词义和摘要生成辅助方法及系统 | |
Starner | Visual recognition of american sign language using hidden markov models | |
Martins et al. | Accessible options for deaf people in e-learning platforms: technology solutions for sign language translation | |
CN111259751A (zh) | 基于视频的人体行为识别方法、装置、设备及存储介质 | |
KR102167760B1 (ko) | 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템 | |
CN111401318B (zh) | 动作识别方法及装置 | |
CN112188306B (zh) | 一种标签生成方法、装置、设备及存储介质 | |
CN114120432A (zh) | 基于视线估计的在线学习注意力跟踪方法及其应用 | |
CN114333046A (zh) | 舞蹈动作评分方法、装置、设备和存储介质 | |
CN115237255B (zh) | 一种基于眼动和语音的自然图像共指目标定位系统及方法 | |
CN114005167A (zh) | 基于人体骨骼关键点的远距离视线估计方法和装置 | |
Alsharid et al. | Gaze-assisted automatic captioning of fetal ultrasound videos using three-way multi-modal deep neural networks | |
Al-Shamayleh et al. | Automatic Arabic sign language recognition: A review, taxonomy, open challenges, research roadmap and future directions | |
CN113658690A (zh) | 一种智能导医方法、装置、存储介质以及电子设备 | |
Saykol et al. | Posture labeling based gesture classification for Turkish sign language using depth values | |
CN114461078A (zh) | 一种基于人工智能的人机交互方法 | |
CN116700471A (zh) | 一种增强虚拟现实系统用户体验的方法及系统 | |
Rayeed et al. | Bangla sign digits recognition using depth information | |
Abdelrazik et al. | Efficient Deep Learning Algorithm for Egyptian Sign Language Recognition | |
Dawod | Hand Gesture Recognition Based Sign Language Interpretation in Real-Time | |
JP2021170247A (ja) | 情報処理装置、情報処理システム、情報処理方法およびプログラム | |
Perera et al. | Finger spelled Sign Language Translator for Deaf and Speech Impaired People in Srilanka using Convolutional Neural Network | |
Bhukhya et al. | Virtual Assistant and Navigation for Visually Impaired using Deep Neural Network and Image Processing | |
US11899839B1 (en) | System for multimodal machine-aided comprehension analysis and assistance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210226 |
|
RJ01 | Rejection of invention patent application after publication |