CN112417142A

CN112417142A - 基于眼动跟踪的词义和摘要生成辅助方法及系统

Info

Publication number: CN112417142A
Application number: CN202011320506.2A
Authority: CN
Inventors: 程时伟
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-26

Abstract

本发明公开了基于眼动跟踪的词义和摘要生成辅助方法及系统，包括眼动跟踪数据计算模块、图像文本信息获取模块、用户阅读需求综合分析模块、词义和摘要生成模块；本发明的有益效果是：适用于纸质阅读和电子阅读两种场景，实现了用户阅读过程中的困惑预测，实现了根据用户阅读行为生成文本摘要，进而根据用户的眼动行为与文本信息来实现这些阅读辅助功能，提高了用户的阅读效率，为用户带来了便捷的阅读体验。

Description

基于眼动跟踪的词义和摘要生成辅助方法及系统

技术领域

本发明涉及人机交互技术领域，具体涉及一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法及系统。

背景技术

随着人工智能与计算机视觉技术的飞速发展，开始出现低成本、高精度的眼动跟踪设备，使得眼动跟踪技术得到了广泛应用。眼球运动表征了人类视觉注意力的时空分布特征，揭示了许多主观行为的潜在因素，因此眼动跟踪技术具有重要的应用价值。阅读行为分析和阅读过程辅助是眼动跟踪技术的一个重要应用场景，无论是纸质阅读还是数字化阅读，当人们在面对海量的文本信息时往往疲于阅读，因为传统的阅读方式难免遇到一些问题。以英文阅读为例，用户在阅读过程中可能会遇到不理解的词汇而陷入困惑，另外为了快速获取相关信息，快速浏览往往无法很好的平衡衡阅读速度和理解深度。在此背景下，本发明提出一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法及系统，实时跟踪用户的眼动注视点，获取用户所阅读的文本信息，通过对眼动数据和文本信息进行综合分析预测用户的困惑，当用户为单词感到困惑时为用户查询与展示单词词义；而当用户快速浏览时为用户生成与展示文本摘要，从而实现辅助阅读的目的；在此基础上设计了相应系统的架构和各模块。

发明内容

针对现有技术中存在的问题，本发明提供了设计合理的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法及系统。

本发明的技术方案如下：

基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，包括如下步骤：

1）眼动跟踪数据计算：首先需要用户完成标定过程，从而准确跟踪用户的实时注视点；

2）图像文本信息获取：对从场景相机中获取的图像进行文本信息获取；

3）用户阅读需求综合分析：结合眼动跟踪数据与文本信息对用户需求进行综合分析；

4）词义和摘要生成。

所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤1）中眼动跟踪数据计算具体步骤如下：

用户佩戴眼动设备，对眼动设备上的两个相机采集的图像进行预处理，包括图像灰度化、利用高斯滤波进行图像去噪和阈值化操作；在特征检测过程中，一方面对眼部图像提取瞳孔中心点与普尔钦斑中心点所构成的PCCR向量，另一方面对场景图像，利用D-P算法检测所标定设备的位置，通过九个标定点建立向量与屏幕注视点之间的映射关系，从而能够得到实时的眼动跟踪注视点坐标。

所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤2）中图像文本信息获取具体步骤如下：

首先对场景图像进行预处理，包括图像灰度化、利用高斯滤波进行图像去噪和自适应阈值化操作，通过形态学参数的迭代检测图像中字符与单词的最优检测尺度，通过CRNN深度模型对单词ROI图像进行预测得到文本内容，最终将文本与图像位置建立映射关系。

所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤3）中用户阅读需求综合分析具体步骤如下：

首先对用户的阅读模式进行初步分析，确定用户的阅读方式是深阅读还是浅阅读，进一步地对于深阅读进行单词困惑分析，而对于浅阅读进行文本困惑分析；其中单词困惑预测通过对可观测量与用户困惑状态建立隐马尔可夫模型，预测用户的困惑状态，并通过注视点局部感知方法对困惑单词进行定位；另外，当检测到用户的阅读速度较快，存在不规律的回视与注视情况时，将用户定性为对文本的理解存在困惑。

所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤4）中词义和摘要生成具体步骤如下：

当检测到用户的单词困惑，利用预先准备的语料库建立单词索引，在需要时快速查询困惑单词的词义，并以可视化形式展示给用户，从而解决用户的单词困惑问题；当检测到用户对文本理解存在困惑时，结合阅读注视点热区图与文本信息，通过摘要生成模型来显示摘要；摘要生成模型整体采用了Seq2seq模型来进行文本生成任务，首先通过BERT预训练模型对文本进行分句编码，编码器为双层双向LSTM网络，在第二层隐藏层状态的计算过程中加入了基于眼动跟踪数据的注意力向量，然后通过多层感知机模型计算眼动跟踪数据与文本的相关性评分，最终得到编码器的语义向量；在解码器中采用传统的Attention机制进行语义分析，再利用分层解码的方式将语句的语义向量解码为词向量，最后利用Softmax分类器与集束搜索算法输出最终的文本序列；在得到文本摘要后以可视化形式展示给用户，从而解决用户的文本理解困惑问题。

基于眼动跟踪的词义和摘要生成辅助系统，其特征在于，包括眼动跟踪数据计算模块、图像文本信息获取模块、用户阅读需求综合分析模块、词义和摘要生成模块；

眼动跟踪数据计算模块：提取人眼图像中的瞳孔和普尔钦斑，计算瞳孔和普尔钦斑中心坐标，然后以瞳孔中心和普尔钦斑中心建立瞳孔-角膜反射向量，进而建立眼动跟踪映射模型，计算眼动跟踪注视点在显示屏幕上的坐标；对原始眼动跟踪数据进行预处理，剔除无效的眼动跟踪数据；

图像文本信息获取模块：负责场景图像进行文本识别，分为文本检测和文本提取任务，为了保证任务的实时性，采用基于传统图像处理的迭代检测方法完成文本检测，采用深度学习模型对检测到的文本ROI进行文本提取；通过建立一定的数据结构，存储文本与其内容结构与图像位置信息，构建图像与文本之间的对应关系，其目的是便于根据注视点位置快速查找对应距离最近的文本内容；

用户阅读需求综合分析模块：通过对眼动数据与文本信息提取各种困惑相关的特征，构建特征向量，并分析计算用户的困惑状态与困惑对象，困惑状态分为有困惑与无困惑两种，困惑对象分为某一个单词与整体文本内容；

词义和摘要生成模块：根据用户困惑分析结果生成对应的辅助信息，通过服务器在不同的用户之间共享眼动跟踪数据之后，在用户终端的显示屏幕上，以不同的可视化形式展现其他用户的眼动跟踪数据，具体可视化形式包括注视点实时显示、视觉感兴趣文本边框、辅助信息显示区、视觉感兴趣区与辅助信息显示区之间的连线。

本发明的有益效果是：适用于纸质阅读和电子阅读两种场景，实现了用户阅读过程中的困惑预测，实现了根据用户阅读行为生成文本摘要，进而根据用户的眼动行为与文本信息来实现这些阅读辅助功能，提高了用户的阅读效率，为用户带来了便捷的阅读体验。

附图说明

图1是本发明的眼动跟踪数据计算流程示意图；

图2是本发明的图像文本信息获取流程示意图；

图3是本发明的用户需求综合分析示意图；

图4是本发明的系统的基本逻辑结构示意图；

图5是本发明的系统的数据处理流程示意图。

具体实施方式

下面将结合附图，对本发明一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，不能理解为对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助方法，对其中的步骤进行具体描述：

1）眼动跟踪数据计算：首先需要用户完成标定过程，从而准确跟踪用户的实时注视点。眼动跟踪数据计算方法的流程如图1所示，用户佩戴眼动设备（眼动跟踪仪，或眼动仪），对眼动设备上的两个相机采集的图像进行预处理，包括图像灰度化、利用高斯滤波进行图像去噪和阈值化等操作。在特征检测过程中，一方面对眼部图像提取瞳孔中心点与普尔钦斑中心点（红外光源在角膜上反射的光斑）所构成的PCCR向量，另一方面对场景图像，利用D-P算法检测所标定设备的位置。通过九个标定点（数目不一定是9个，也可以4个或6个，不同的眼动跟踪算法不一样，我们采用的眼动仪是9点标定）建立向量与屏幕注视点之间的映射关系，从而能够得到实时的眼动跟踪注视点坐标。

2）图像文本信息获取：对从场景相机中获取的图像进行文本信息获取，具体流程如图2所示，首先对场景图像进行预处理，包括图像灰度化、利用高斯滤波进行图像去噪和自适应阈值化操作，通过形态学参数的迭代检测图像中字符与单词的最优检测尺度，通过CRNN深度模型对单词ROI图像进行预测得到文本内容，最终将文本与图像位置建立映射关系。

3）用户阅读需求综合分析：结合眼动跟踪数据与文本信息对用户需求进行综合分析，流程如图3所示。首先对用户的阅读模式进行初步分析，确定用户的阅读方式是深阅读还是浅阅读（预先设定好是深阅读或者浅阅读），进一步地对于深阅读进行单词困惑分析，而对于浅阅读进行文本困惑分析。其中单词困惑预测通过对可观测量与用户困惑状态建立隐马尔可夫模型，预测用户的困惑状态，并通过注视点局部感知方法对困惑单词进行定位；另外，当检测到用户的阅读速度较快，存在不规律的回视与注视情况时，将用户定性为对文本的理解存在困惑。

4）词义和摘要生成：对用户需求分析结果提供针对性的辅助功能。当检测到用户的单词困惑，利用预先准备的语料库建立单词索引，可以在需要时快速查询困惑单词的词义，并以可视化形式展示给用户，从而解决用户的单词困惑问题；当检测到用户对文本理解存在困惑时，结合阅读注视点热区图与文本信息，通过本发明所提供的摘要生成模型来显示摘要。摘要生成模型整体采用了Seq2seq模型来进行文本生成任务，首先通过BERT预训练模型对文本进行分句编码，编码器为双层双向LSTM网络，在第二层隐藏层状态的计算过程中加入了基于眼动跟踪数据的注意力向量，然后通过多层感知机模型计算眼动跟踪数据与文本的相关性评分，最终得到编码器的语义向量；在解码器中采用传统的Attention机制进行语义分析，再利用分层解码的方式将语句的语义向量解码为词向量，最后利用Softmax分类器与集束搜索算法输出最终的文本序列。在得到文本摘要后以可视化形式展示给用户，从而解决用户的文本理解困惑问题。

如图4所示，本文发明实施例提供的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助系统的基本逻辑结构示意图。为了便于说明，仅仅示出了与本发明实施例相关的部分。该系统中功能模块/单元可以是硬件模块/单元、软件模块/单元，主要包括：

1）眼动跟踪数据计算模块，提取人眼图像中的瞳孔和普尔钦斑，计算瞳孔和普尔钦斑中心坐标，然后以瞳孔中心和普尔钦斑中心建立瞳孔-角膜反射向量，进而建立眼动跟踪映射模型，计算眼动跟踪注视点在显示屏幕上的坐标；对原始眼动跟踪数据进行预处理，剔除无效的眼动跟踪数据，例如，对坐标超出显示屏幕之外的注视点边缘化处理，对注视点平滑操作去除一些眼跳和视线抖动对定位单词带来的影响；

2）图像文本信息获取模块，负责场景图像进行文本识别，大致分为文本检测和文本提取任务，为了保证任务的实时性，采用基于传统图像处理的迭代检测方法完成文本检测，采用深度学习模型对检测到的文本ROI进行文本提取；通过建立一定的数据结构，如B+树，存储文本与其内容结构与图像位置信息，构建图像与文本之间的对应关系，其目的是便于根据注视点位置快速查找对应距离最近的文本内容；

3）用户阅读需求综合分析模块，通过对眼动数据与文本信息提取各种困惑相关的特征，构建特征向量，并分析计算用户的困惑状态与困惑对象，困惑状态分为有困惑与无困惑两种，困惑对象分为某一个单词与整体文本内容。

4）词义和摘要生成模块，根据用户困惑分析结果生成对应的辅助信息，如对单词困惑查询该单词的释义信息，对文本理解困惑生成整个文本的摘要信息。通过服务器在不同的用户之间共享眼动跟踪数据之后，在用户终端的显示屏幕上，以不同的可视化形式展现其他用户的眼动跟踪数据，具体可视化形式包括注视点实时显示、视觉感兴趣区文本边框、辅助信息显示区、视觉感兴趣区与辅助信息显示区之间的连线。

如图5所示，本发明提供的一种阅读过程中基于眼动跟踪的词义和摘要生成辅助系统的数据处理流程示意图，在硬件设施上分为客户端设备和服务端设备，用户在客户端上进行眼动跟踪的标定过程与文本阅读，服务端负责信息处理和辅助信息生成。首先由用户在阅读过程中产生可观测数据，在客户端中通过眼动跟踪计算用户的实时注视点，通过文本识别获取文本内容，为了提高客户端/服务端直接的数据传输效率，在传输数据之前将两者数据进行一定的预处理操作，以去除后续数据分析过程中不必要的数据。服务端对接受到的用户数据进行综合分析，对用户的困惑情况进行实时追踪，一旦发现用户有某种困惑则将客户端数据进一步交给单词注释模块或文本摘要模块进行辅助信息生成，最终将生成的信息返回给客户端，客户端在接受到服务端传送的信息之后，通过信息可视化模块将信息以一定的形式显示在设备显示屏幕上，用户通过显示信息获取阅读方面的辅助，以解决阅读中存在的困惑。

本发明实施例中各个模块可以集成于一体，也可以分离部署,或进一步拆分成多个子模块。各个模块可以按照实施例描述分布于实施例的系统中，也可以进行相应变化位于不同于本发明实施例的一个或多个系统中。

本领域的技术人员应该明白，本发明实施例可提供成为方法、系统、或计算机程序产品。

本发明实施例的各模块或各步骤可以用通用的计算装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此，本发明实施例不限制于任何特定的硬件和软件结合。

以上公开的仅为本发明的具体实施例，但是本发明并非局限于此，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。显然这些改动和变型均应属于本发明要求的保护范围内。

Claims

1.基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，包括如下步骤：

4）词义和摘要生成。

2.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤1）中眼动跟踪数据计算具体步骤如下：

用户佩戴眼动设备，对眼动设备上的两个相机采集的图像进行预处理，包括图像灰度化、利用高斯滤波进行图像去噪和阈值化操作；在特征检测过程中，一方面对眼部图像提取瞳孔中心点与普尔钦斑中心点所构成的PCCR向量，另一方面对场景图像，利用D-P算法检测所标定设备的位置，通过标定点建立向量与屏幕注视点之间的映射关系，从而能够得到实时的眼动跟踪注视点坐标。

3.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤2）中图像文本信息获取具体步骤如下：

4.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤3）中用户阅读需求综合分析具体步骤如下：

5.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法，其特征在于，所述步骤4）中词义和摘要生成具体步骤如下：

6.基于眼动跟踪的词义和摘要生成辅助系统，其特征在于，包括眼动跟踪数据计算模块、图像文本信息获取模块、用户阅读需求综合分析模块、词义和摘要生成模块；