CN116610219B

CN116610219B - 一种可智能互动阅读方法、装置、计算设备和存储介质

Info

Publication number: CN116610219B
Application number: CN202310897079.1A
Authority: CN
Inventors: 徐丹; 江俊佳
Original assignee: Guangzhou Hongtu Digital Technology Co ltd
Current assignee: Guangzhou Hongtu Digital Technology Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2024-01-12
Anticipated expiration: 2043-07-21
Also published as: CN116610219A

Abstract

本发明涉及数字互动领域，尤其涉及一种可智能互动阅读方法、装置、计算设备和存储介质，本发明通过采集眼动数据，基于所述眼动数据生成注视坐标，并在响应视觉触发特征后基于注视坐标构建注视坐标在显示屏幕所在虚拟平面内的滑动曲线，并基于滑动曲线的类别确定对显示屏幕内数据的采集方式，包括在不同类别滑动曲线时以不同的方式构建提取区域，对提取区域的宽度进行调整后采集提取区域中的文字，通过上述方法，能够对注视坐标对应的滑动曲线进行区分，进而基于滑动曲线的波动性能识别换行、单行注视等效果，并且，提取区域的宽度进行调整，避免宽度过大扫描到残缺文字，进而减小出现误选定或选定精度不高的问题，提高了信息采集精度。

Description

一种可智能互动阅读方法、装置、计算设备和存储介质

技术领域

本发明涉及数字互动领域，尤其涉及一种可智能互动阅读方法、装置、计算设备和存储介质。

背景技术

随着信息技术的发展，人机互动逐渐被人们所重视，人机互动技术被应用于各个领域，例如互动阅读，互动学习等，在互动阅读中，可以通过数据采集装置采集视线方向，进而通过视线的转移或变化对计算机下达各类操作指令。

例如，中国专利公开号：CN113391699A，公开了一种基于动态眼动指标的眼势交互模型方法，涉及动态眼动指标技术领域，包括以下步骤：预先基于眼动仪获取原始眼动轨迹数据，并提取原始眼动轨迹数据中各注视点的坐标数据、兴趣区域数据和注视持续时间数据作为特征信息。本发明通过权重计算方法及眼势交互模型通过用户的自然眼动轨迹，预测用户想要完成的操作或任务，并给出预测结果反馈，通过挖掘多用户眼动行为蕴含的行为语义，隐式的识别用户意图并且发出指令。

但是，现有技术中还存在以下问题，

由于在阅读过程中眼动数据采集精度不高以及眼动过程中注意点移动幅度大，导致注视过程中，所形成的注视坐标存在或多或少的偏差，在阅读过程中若想基于注视坐标选定所采集的信息则存在一定的困难，容易出现误选定或选定精度不高的问题。

在选定精度符合标准的情况下可借助眼动数据选定各项数据，尤其是在文字阅读时，可基于特定触发条件触发选定程序，进而采集所选定的数据，便于计算机后续对所选定的数据执行各类操作。

发明内容

为解决基于注视左边选定信息时精度不高的问题，本发明提供一种可智能互动阅读方法，其包括：

步骤S1，采集眼动数据，基于所述眼动数据生成注视坐标，其中，所述眼动数据包括瞳孔注视方向对应的虚拟向量，所述注视坐标为所述虚拟向量与显示屏幕的交点；

步骤S2，响应于预设的视觉触发特征，基于所述注视坐标构建注视坐标在所述显示屏幕所在虚拟平面内的滑动曲线，所述滑动曲线的起始点为所述视觉触发特征的初次响应时刻所生成的注视坐标，所述滑动曲线的结束点为所述视觉触发特征的再次响应时刻所生成的注视坐标，所述视觉触发特征为预先构建的能被视觉采集单元采集到的动作特征；

步骤S3，基于所述滑动曲线中若干注视坐标的纵轴坐标值计算所述滑动曲线的曲线表征值，并基于所述曲线表征值判定滑动曲线的类别，并基于所述滑动曲线的类别确定对显示屏幕内数据的采集方式，其中，

在滑动曲线为第一类别滑动曲线时，判定滑动曲线中是否存在特征曲线段，并基于所述特征曲线段的分布情况判定是否需构建沿所述特征曲线段延伸且覆盖所述滑动曲线的提取区域；

或，在滑动曲线为第二类别滑动曲线时，构建一沿所述滑动曲线延伸且覆盖所述滑动曲线的提取区域；

步骤S4，基于提取区域初始段中文字的分布情况对所述提取区域的宽度进行调整，采集提取区域中的文字。

进一步地，所述步骤S3中，基于所述滑动曲线中若干注视坐标的纵轴坐标值计算所述滑动曲线的曲线表征值，其中，

在所述滑动曲线所在坐标系中，在横向坐标方向每隔预设距离选取注视坐标，根据式（1）计算曲线表征值，

式（1）中，n表示所选取注视坐标的数量，D（i）表示所选取注视坐标中第i个注视坐标的纵轴坐标值，D（i-1）表示所选取注视坐标中第i-1个注视坐标的纵轴坐标值。

进一步地，所述步骤S3中，基于所述曲线表征值判定滑动曲线的类别，其中，

将所述曲线表征值与预设的第一曲线判定阈值进行对比，

在第一阈值对比条件下，判定所述滑动曲线为第一类别滑动曲线；

在第二阈值对比条件下，判定所述滑动曲线为第二类别滑动曲线；

所述第一阈值对比条件为所述曲线表征值大于或等于所述第一曲线判定阈值，所述第二阈值对比条件为所述曲线表征值小于所述第一曲线判定阈值。

进一步地，判定滑动曲线中是否存在特征曲线段，其中，

将所述滑动曲线划分为若干曲线段，计算各所述曲线段对应的曲线表征值，将所述曲线表征值与预设的第二曲线判定阈值进行对比，若存在曲线段对应的曲线表征值小于所述第二曲线判定阈值，则判定所述曲线段为特征曲线段，所述第二曲线判定阈值小于所述第一曲线判定阈值。

进一步地，基于所述特征曲线段的分布情况判定是否需构建沿所述特征曲线段延伸且覆盖所述滑动曲线的提取区域，其中，

在预设分布条件下，判定需构建所述提取区域；

在非预设分布条件下，判定无需构建所述提取区域；

所述预设分布条件为，特征曲线段占比大于预设的占比阈值，所述特征曲线段占比为各所述特征曲线段的长度总和与所述滑动曲线的总长度的比值。

进一步地，基于提取区域初始段中文字的分布情况对所述提取区域的宽度进行调整，其中，

确定提取区域初始段中文字的分布情况，包括确定各行文字的平均高度，以及确定各行文字间平均高度的高度差值；

若提取区域初始段中包含多行文字，且至少存在任一两行文字的高度差值大于预设的差值阈值，则将所述提取区域的宽度减小。

进一步地，所述步骤S3中，还包括，确定所述提取区域的初始宽度，所述提取区域的初始宽度基于滑动曲线中各所述注视坐标的纵轴坐标值的平均值所确定。

进一步地，还提供一种可智能互动阅读设备，其包括：

眼动仪，用以采集眼动数据；

视觉采集单元，用以采集动作特征；

显示屏幕，用以显示图像；

计算模块，用以确定提取区域；

采集模块，用以采集提取区域中的文字。

进一步地，还提供一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时可用于执行一种可智能互动阅读方法。

还提供，一种计算设备，其包括：

一个或多个处理器；

存储器；

以及一个或多个程序，

其中，所述一个或多个程序用以被配置为由一个或多个处理器执行，所述存储器包括存储介质。

与现有技术相比，本发明通过采集眼动数据，基于所述眼动数据生成注视坐标，并在响应视觉触发特征后基于注视坐标构建注视坐标在显示屏幕所在虚拟平面内的滑动曲线，并基于滑动曲线的类别确定对显示屏幕内数据的采集方式，包括在不同类别滑动曲线时以不同的方式构建提取区域，对提取区域的宽度进行调整后采集提取区域中的文字，通过上述方法，能够对注视坐标对应的滑动曲线进行区分，进而基于滑动曲线的波动性能识别换行、单行注视等效果，并且，提取区域的宽度进行调整，避免宽度过大扫描到残缺文字，进而减小出现误选定或选定精度不高的问题，提高了信息采集精度。

尤其，本发明构建曲线表征值，曲线表征值表征了曲线的波动程度，在实际情况中，在注视屏幕的过程中，由于眼动仪自身的误差以及注视过程中存在的误差，导致所构建的注视坐标存在或多或少误差，对应的所形成的滑动曲线为弯折曲线，进而，曲线表征值表征了弯折程度以及整体的走向偏差，基于曲线表征值对滑动曲线进行划分，便于后续基于不同的曲线类别执行特定的计算逻辑，进而减小出现误选定或选定精度不高的问题，提高了信息采集精度。

尤其，本发明划分滑动曲线的类别，第一类别滑动曲线表征了滑动曲线弯折程度较大，走向不稳定，第二类别滑动曲线表征了滑动曲线的弯折程度较小，走向相对稳定，在实际情况中，响应视觉触发特征后开始采集滑动曲线，在这个过程中，可能存在注视方向快速更改或快速移动的情况，也可能出现切换注视区域，对不同区域进行注视的情况，进而形成第一类别滑动曲线，在这种情况下，本发明对其中的特征曲线段进行识别，特征曲线段表征了第一类别滑动曲线中波动程度相对较小的曲线段，进而，表征注视过程中切换注视区域的对不同注视区域进行注视的过程，或对多行文字注视时切换注视行的情况，进而能够精准的构建提取区域，减小出现误选定或选定精度不高的问题，提高了信息采集精度。

并且，第二类别滑动曲线表征了滑动曲线波动程度较小的情况，在实际情况中，对于这种情况则不进行过多计算快速构建提取区域，在保证信息采集精度的前提下，提高信息采集效率。

尤其，本发明基于提取区域初始段中文字的分布情况对提取区域的宽度进行调整，采集提取区域中的文字，在实际情况中，提取区域中可能出现多行文字，若各行文字的平均高度偏差较大，则表征了可能存在提取区域中可能存在单行文字残缺的情况，例如，中间一行文字完成，上下两行文字被提取区域分割后出现残缺的情况，在这种情况下，对应的调整提取区域的宽度，进而减小出现误选定或选定精度不高的问题，提高了信息采集精度，便于阅读过程中信息的采集，进而后续执行对应的操作。

附图说明

图1为发明实施例的可智能互动阅读方法步骤示意图；

图2为发明实施例的提取区域构造示意简图；

图中：1：提取区域，2：滑动曲线。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，其为本发明实施例的可智能互动阅读方法步骤示意图，本发明提供一种可智能互动阅读方法，其包括：

步骤S2，响应于预设的视觉触发特征，基于所述注视坐标构建注视坐标在所述显示屏幕所在虚拟平面内的滑动曲线2，所述滑动曲线2的起始点为所述视觉触发特征的初次响应时刻所生成的注视坐标，所述滑动曲线2的结束点为所述视觉触发特征的再次响应时刻所生成的注视坐标，所述视觉触发特征为预先构建的能被视觉采集单元采集到的动作特征；

步骤S3，基于所述滑动曲线2中若干注视坐标的纵轴坐标值计算所述滑动曲线2的曲线表征值，并基于所述曲线表征值判定滑动曲线2的类别，并基于所述滑动曲线2的类别确定对显示屏幕内数据的采集方式，其中，

在滑动曲线2为第一类别滑动曲线时，判定滑动曲线2中是否存在特征曲线段，并基于所述特征曲线段的分布情况判定是否需构建沿所述特征曲线段延伸且覆盖所述滑动曲线2的提取区域1；

或，在滑动曲线2为第二类别滑动曲线时，构建一沿所述滑动曲线2延伸且覆盖所述滑动曲线2的提取区域1；

步骤S4，基于提取区域1初始段中文字的分布情况对所述提取区域1的宽度进行调整，采集提取区域1中的文字。

具体而言，本发明对预设的视觉触发特征不做具体限定，视觉触发特征可预先设定，例如，手势动作特征，眼部动作特征，只需能通过视觉采集单元采集即可。

具体而言，在判定是否响应于预设的视觉触发特征时，可以持续对动作特征进行采集，当采集到动作特征与预设的视觉触发特征匹配时可判定响应于预设的视觉触发特征，对于动作特征的匹配，为现有技术，此处不再赘述。

具体而言，提取区域中文字采集完成后可基于所采集的文字设定各类操作，例如粘贴、标注、搜索等等，提高互动阅读体验。

具体而言，在本实施例中，提取区域初始段为以滑动曲线2起始点为基准截取预设长度的滑动曲线段，将滑动曲线段对应的提取区域1确定为所述提取区域初始段，所述预设长度为滑动曲线段总长度的0.1倍。

具体而言，所述步骤S3中，基于所述滑动曲线2中若干注视坐标的纵轴坐标值计算所述滑动曲线2的曲线表征值，其中，

在所述滑动曲线2所在坐标系中，在横向坐标方向每隔预设距离选取注视坐标，根据式（1）计算曲线表征值，

具体而言，在本实施例中预设距离为所述滑动曲线初始段总长度的0.1倍。

具体而言，所述步骤S3中，基于所述曲线表征值判定滑动曲线2的类别，其中，

将所述曲线表征值与预设的第一曲线判定阈值进行对比，

在第一阈值对比条件下，判定所述滑动曲线2为第一类别滑动曲线；

在第二阈值对比条件下，判定所述滑动曲线2为第二类别滑动曲线；

具体而言，本发明构建曲线表征值，曲线表征值表征了曲线的波动程度，在实际情况中，在注视屏幕的过程中，由于眼动仪自身的误差以及注视过程中存在的误差，导致所构建的注视坐标存在或多或少误差，对应的所形成的滑动曲线为弯折曲线，进而，曲线表征值表征了弯折程度以及整体的走向偏差，基于曲线表征值对滑动曲线进行划分，便于后续基于不同的曲线类别执行特定的计算逻辑，进而减小出现误选定或选定精度不高的问题，提高了信息采集精度。

具体而言，所述第一曲线判定阈值Ke1基于当前显示屏幕中所有文字的平均高度He所确定，在本实施例中，设定Ke1=He×β，β表示曲线设定系数，2＜β＜2.5。

具体而言，判定滑动曲线2中是否存在特征曲线段，其中，

将所述滑动曲线2划分为若干曲线段，计算各所述曲线段对应的曲线表征值，将所述曲线表征值与预设的第二曲线判定阈值进行对比，若存在曲线段对应的曲线表征值小于所述第二曲线判定阈值，则判定所述曲线段为特征曲线段，所述第二曲线判定阈值小于所述第一曲线判定阈值。

第二曲线判定阈值Ke2基于第二曲线判定阈值Ke1所确定，在本实施例中，设定，Ke2=Ke1×2×β。

具体而言，基于所述特征曲线段的分布情况判定是否需构建沿所述特征曲线段延伸且覆盖所述滑动曲线2的提取区域1，其中，

在预设分布条件下，判定需构建所述提取区域1；

在非预设分布条件下，判定无需构建所述提取区域1；

所述预设分布条件为，特征曲线段占比大于预设的占比阈值，所述特征曲线段占比为各所述特征曲线段的长度总和与所述滑动曲线2的总长度的比值。

具体而言，在本实施例中，为甄别出响应后未注视或随机注视的情况，占比阈值可在曲线[0.2，0.5]内设定。

本发明划分滑动曲线的类别，第一类别滑动曲线表征了滑动曲线弯折程度较大，走向不稳定，第二类别滑动曲线表征了滑动曲线的弯折程度较小，走向相对稳定，在实际情况中，响应视觉触发特征后开始采集滑动曲线，在这个过程中，可能存在注视方向快速更改或快速移动的情况，也可能出现切换注视区域，对不同区域进行注视的情况，进而形成第一类别滑动曲线，在这种情况下，本发明对其中的特征曲线段进行识别，特征曲线段表征了第一类别滑动曲线中波动程度相对较小的曲线段，进而，表征注视过程中切换注视区域的对不同注视区域进行注视的过程，或对多行文字注视时切换注视行的情况，进而能够精准的构建提取区域，减小出现误选定或选定精度不高的问题，提高了信息采集精度。

具体而言，基于提取区域初始段中文字的分布情况对所述提取区域1的宽度进行调整，其中，

若提取区域初始段中包含多行文字，且至少存在任一两行文字的高度差值大于预设的差值阈值，则将所述提取区域1的宽度减小，在本实施例中，基于原有宽度的减小比例可在区间[0.2，0.4]内选定。

具体而言，请参与图2所示，其为发明实施例的提取区域构造示意简图，所述步骤S3中，还包括，确定所述提取区域1的初始宽度，所述提取区域1的初始宽度2基于滑动曲线2中各所述注视坐标的纵轴坐标值的平均值所确定。

在本实施例中设定提取区域的初始宽度H=D×α，D表示滑动曲线2中各所述注视坐标的纵轴坐标值的平均值，α表示比例系数，1.2＜α＜1.5。

本发明基于提取区域初始段中文字的分布情况对提取区域的宽度进行调整，采集提取区域中的文字，在实际情况中，提取区域中可能出现多行文字，若各行文字的平均高度偏差较大，则表征了可能存在提取区域中可能存在单行文字残缺的情况，例如，中间一行文字完成，上下两行文字被提取区域分割后出现残缺的情况，在这种情况下，对应的调整提取区域的宽度，进而减小出现误选定或选定精度不高的问题，提高了信息采集精度，便于阅读过程中信息的采集，进而后续执行对应的操作。

具体而言，还提供一种可智能互动阅读设备，其包括：

眼动仪，用以采集眼动数据；

视觉采集单元，用以采集动作特征；

显示屏幕，用以显示图像；

计算模块，用以确定提取区域1；

采集模块，用以采集提取区域1中的文字。

具体而言，视觉采集单元可以是摄影装置，只需能够采集动作特征即可，此处不再赘述，计算模块以及采集模块在本实施例中可以由逻辑部件组成，逻辑部件包括现场可编程部件以及微处理器。

具体而言，还提供一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时可用于执行一种可智能互动阅读方法。

具体而言，对存储介质的材质、结构不做限定，只需能实现对应的存储功能即可。

具体而言，还提供一种计算设备，其包括：

一个或多个处理器；

存储器；

以及一个或多个程序，

具体而言，对处理器的算力，不做限制，本领域技术人员可基于需要选定对应算力的处理器，对于存储器，为成熟现有技术，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种可智能互动阅读方法，其特征在于，包括：

步骤S4，基于提取区域初始段中文字的分布情况对所述提取区域的宽度进行调整，采集提取区域中的文字；

所述步骤S3中，基于所述滑动曲线中若干注视坐标的纵轴坐标值计算所述滑动曲线的曲线表征值，其中，

式（1）中，n表示所选取注视坐标的数量，D（i）表示所选取注视坐标中第i个注视坐标的纵轴坐标值，D（i-1）表示所选取注视坐标中第i-1个注视坐标的纵轴坐标值；

所述步骤S3中，基于所述曲线表征值判定滑动曲线的类别，其中，

将所述曲线表征值与预设的第一曲线判定阈值进行对比，

所述第一阈值对比条件为所述曲线表征值大于或等于所述第一曲线判定阈值，所述第二阈值对比条件为所述曲线表征值小于所述第一曲线判定阈值；

所述步骤S3中，判定滑动曲线中是否存在特征曲线段，其中，

2.根据权利要求1所述的可智能互动阅读方法，其特征在于，所述步骤S4中，基于所述特征曲线段的分布情况判定是否需构建沿所述特征曲线段延伸且覆盖所述滑动曲线的提取区域，其中，

在预设分布条件下，判定需构建所述提取区域；

在非预设分布条件下，判定无需构建所述提取区域；

3.根据权利要求1所述的可智能互动阅读方法，其特征在于，所述步骤S4中，基于提取区域初始段中文字的分布情况对所述提取区域的宽度进行调整，其中，

4.根据权利要求1所述的可智能互动阅读方法，其特征在于，所述步骤S3中，还包括，确定所述提取区域的初始宽度，所述提取区域的初始宽度基于滑动曲线中各所述注视坐标的纵轴坐标值的平均值所确定。

5.一种应用权利要求1-4任一项所述可智能互动阅读方法的设备，其特征在于，包括：

眼动仪，用以采集眼动数据；

视觉采集单元，用以采集动作特征；

显示屏幕，用以显示图像；

计算模块，用以确定提取区域；

采集模块，用以采集提取区域中的文字。

6.一种应用于权利要求1-4任一项所述可智能互动阅读方法的存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时可用于执行一种可智能互动阅读方法。

7.一种应用权利要求6所述存储介质的计算设备，其特征在于，包括：

一个或多个处理器；

存储器；

以及一个或多个程序，

其中，所述一个或多个程序用以被配置为由一个或多个处理器执行，所述存储器包括所述权利要求6中所述的存储介质。