CN117058748A - 一种基于深度阅读识别的电子文档阅读方法和系统 - Google Patents
一种基于深度阅读识别的电子文档阅读方法和系统 Download PDFInfo
- Publication number
- CN117058748A CN117058748A CN202311154620.6A CN202311154620A CN117058748A CN 117058748 A CN117058748 A CN 117058748A CN 202311154620 A CN202311154620 A CN 202311154620A CN 117058748 A CN117058748 A CN 117058748A
- Authority
- CN
- China
- Prior art keywords
- reading
- reader
- text
- electronic document
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000012634 fragment Substances 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 36
- 210000001747 pupil Anatomy 0.000 claims description 14
- 230000009191 jumping Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000028838 turning behavior Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Ophthalmology & Optometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度阅读识别的电子文档阅读方法和系统,属于数据处理技术领域,方法包括:获取电子文档的文本特征;根据各个文本特征,计算电子文档在阅读时的注视影响系数;获取读者阅读电子文档时的各个注视点的注视信息;构建样本数据集;根据当前注视点的特征向量,计算与各个聚类中心点的距离;根据电子文档的注视影响系数,计算当前注视点与各个聚类中心点的分类距离;将当前注视点划分到分类距离较小的聚类中,得出深阅读片段和浅阅读片段;展示用户的深阅读时长;当读者关闭电子文档时,将深阅读片段中的最后一个注视点所在的阅读位置作为记忆位置并存储;当读者重新打开电子文档时,自动跳转到记忆位置。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于深度阅读识别的电子文档阅读方法和系统。
背景技术
随着电子科技的不断发展,人们越来越依赖显示屏幕进行各种日常生活,电子阅读也逐渐取代原有的纸质阅读,为人们提供更方便、快捷的阅读体验。为了满足用户的实际需求,在各个终端、学习平台、在线公共平台等均为用户提供电子版的文档或图书,以供人们随时通过电脑或移动终端进行快速查阅。
现有的电子文档阅读设备在分析用户的阅读数据时,还仅仅停留在记录用户的阅读时长和阅读页数上,尚且缺少对于用户深入阅读行为的分析。
并且,现有的电子文档阅读设备在用户关闭电子文档之后再打开时,会跳转到用户上次阅读的位置,但是在某些场景下,例如翻阅文献时,最后时段可能仅仅是草草浏览,关闭时停留的位置并非用户最关注的部分,重新打开时跳转到上次阅读的位置难以准确地体现用户的关注点,用户往往需要重新浏览整篇文献,导致时间和精力的浪费。
发明内容
为了解决现有技术存在的缺少对于用户深入阅读行为的分析,关闭电子文档之后再打开时跳转到用户上次阅读的位置,难以准确地体现用户的关注点,用户往往需要重新浏览整篇文献,导致时间和精力的浪费的技术问题,本发明提供一种基于深度阅读识别的电子文档阅读方法和系统。
第一方面
本发明提供了一种基于深度阅读识别的电子文档阅读方法,包括:
S101:获取电子文档的文本特征,文本特征包括:文本难度、文字拥挤程度、文字属性和低频文字比例;
S102:根据各个文本特征,计算电子文档在阅读时的注视影响系数ρ;
S103:获取读者阅读电子文档时的各个注视点的注视信息,注视信息包括:注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径;
S104:构建样本数据集,样本数据集包括各个注视点的特征向量x,x={x1,x2,x3,x4,x5},x1表示注视点持续时间,x2表示眼跳距离,x3表示眼跳纵向距离,x4表示眼跳方向,x5表示瞳孔直径;
S105:随机生成深阅读聚类中心点c1和浅阅读聚类中心点c2;
S106:根据当前注视点的特征向量,计算与各个聚类中心点的距离dij:
其中,dij表示第i个注视点到第j个聚类中心点的距离,j=1或2,xik表示第i个注视点的第k个特征值,k=1,2,…,5;
S107:根据电子文档的注视影响系数ρ,计算当前注视点与各个聚类中心点的分类距离
其中,表示第i个注视点到深阅读聚类中心点c1的分类距离,/>表示第i个注视点到深阅读聚类中心点c2的分类距离;
S108:将当前注视点划分到分类距离较小的聚类中,并更新深阅读聚类中心点c1和浅阅读聚类中心点c2;
S109:继续选取下一个注视点,重复S106和S108,直至完成所有注视点的聚类,得出深阅读片段和浅阅读片段;
S110:展示用户的深阅读时长;
S111:当读者关闭电子文档时,将深阅读片段中的最后一个注视点所在的阅读位置作为记忆位置并存储;
S112:当读者重新打开电子文档时,自动跳转到记忆位置。
第二方面
本发明提供了一种基于深度阅读识别的电子文档阅读系统,用于执行第一方面中的基于深度阅读识别的电子文档阅读方法。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,通过分析读者在阅读电子文档时眼镜的注视点,根据注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径分析出读者在阅读过程中的深阅读片段和浅阅读片段,进而可以向用户展示深阅读时长,便于用户了解自身的阅读习惯。
(2)在本发明中,当读者关闭电子文档再重新打开时自动跳转到深阅读片段中的最后时刻,更加能够体现读者的实际关注点,无需重新浏览整篇文献,节省了读者的时间和精力。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明提供的一种基于深度阅读识别的电子文档阅读方法的流程示意图;
图2是本发明提供的一种基于深度阅读识别的电子文档阅读系统的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
在一个实施例中,参考说明书附图1,示出了本发明提供的基于深度阅读识别的电子文档阅读方法的流程示意图。参考说明书附图2,示出了本发明提供的一种基于深度阅读识别的电子文档阅读系统的结构示意图。
本发明提供的一种基于深度阅读识别的电子文档阅读方法,包括:
S101:获取电子文档的文本特征。
文本特征包括:文本难度、文字拥挤程度、文字属性和低频文字比例。
在一种可能的实施方式中,S101具体包括子步骤S1011至S1014:
S1011:通过计算电子文档中的句子长度的平均值确定文本难度。
S1012:通过计算电子文档中的文字间隔和行间距确定文字拥挤程度。
S1013:通过分析电子文档中的文字的字体、字号、颜色确定文字属性。
S1014:通过计算电子文档中的低频词汇占总词汇的比例确定低频文字频率。
S102:根据各个文本特征,计算电子文档在阅读时的注视影响系数ρ。
其中,注视影响系数ρ可以体现电子文档的阅读难度,电子文档的阅读难度越高,读者需要注视的时间就越长,相应地,注视影响系数ρ就越大。
在一种可能的实施方式中,S102具体包括子步骤S1021至S1023:
S1021:对文本难度、文字拥挤程度、文字属性和低频文字比例进行归一化处理。
其中,归一化处理是一种将数据按比例缩放到特定范围的常用数据预处理方法。归一化处理消除了特征间的量纲影响,提高了模型训练的效果和泛化能力,方便了数据分析和可视化,是数据预处理中重要的一环。
S1022:根据文本难度、文字拥挤程度、文字属性和低频文字比例对于深度阅读的影响程度,设置文本难度、文字拥挤程度、文字属性和低频文字比例的权重。
其中,权重体现了各个文本特征在评估注视影响系数ρ时的重要性。
在一种可能的实施方式中,S1022具体包括:
通过对文本难度、文字拥挤程度、文字属性和低频文字比例进行两两比较,结合九级标度法,建立判别矩阵B:
其中,bij表示第i个文本特征相对于第j个文本特征的重要程度,bij的取值可通过九极标度法确定,n=4。
其中,九级标度法基于两两指标之间的相对差别给出不同指标的分数,最后得到的结果可以通过数值将多个定性指标的相对差异体现出来,进而分析出各个评价指标在评估劳务人员信用的过程中所占的比重。
计算判别矩阵B的特征向量和特征值:
Bω=λω→(B-λI)ω
其中,λ表示判别矩阵B的特征值,ω表示判别矩阵B的特征向量,取最大的特征值记为λmax,与之对应的特征向量为ωmax,ωmax=(ω1,ωi,…,ωn)。
对特征向量进行归一化处理:
ω′max=(ω′1,ω′2,…,ω′n)
其中,归一化后的向量ω′max的各个分量ω′1,ω′2,…,ω′n分别代表各个文本特征的权重,可分别记为μ1、μ2、…、μn。
S1023:根据以下公式计算电子文档在阅读时的注视影响系数ρ:
其中,μi表示第i个文本特征的权重,ai表示第i个文本特征。
在本发明中,通过以上方法确定确定各个文本特征的权重,具有客观性、综合性、可扩展性和决策分析的好处,为深度阅读管理方法提供了科学和可靠的权重参考。
S103:获取读者阅读电子文档时的各个注视点的注视信息,注视信息包括:注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径。
需要说明的是,深度阅读通常需要读者将注意力集中在文本上,并且进行深入的思考和理解。在深度阅读过程中,读者的注视点往往会停留在文本的关键部分,以更好地理解和吸收信息。因此,注视点持续时间较长可能表明读者在某个位置进行了深入阅读,而非仅仅是快速浏览。
其中,眼跳距离是指相邻的两个注视点之间的距离。
需要说明的是,在深度阅读状态下,读者往往会进行更小幅度的眼跳,目光更加稳定,以便更好地捕捉和处理文本的细节。相比之下,在浅阅读状态下,眼跳距离和眼跳纵向距离可能较大,表明读者目光在文本上移动较远,并未深入关注特定区域。
其中,眼跳纵向距离是指相邻的两个注视点纵坐标之间的差值,眼跳纵向距离更能体现读者的翻页行为。
需要说明的是,眼跳方向是指眼睛从一个注视点移动到下一个注视点时的路径方向。深度阅读时,眼跳方向往往是水平或略微倾斜的,因为读者会按照文本的排列方式逐行阅读。相反,在浅阅读状态下,眼跳方向可能更加随机和不规则,因为读者的注意力分散或者只是快速浏览文本。
其中,眼跳方向e的计算方式为:
e=min(|e0|,|180-e0|,|360-e0|)
其中,e0表示绝对眼跳方向。
需要说明的是,绝对眼跳方向可以理解为范围在0至360度之间的实际眼跳距离,对于深阅读来说,往往需要逐行逐句地进行阅读和回视,所以往往集中在0度、180度和360度上,而浅阅读下,注视点往往沿着电子文档向下移动或跳跃,注视点往往集中在45度至135度和225度至315度之间。采用上述公式可以将绝对眼跳方向值映射到0到90度中,使得深阅读行为靠近0度,而浅阅读行为靠近90度,以便于直观地反映深阅读和浅阅读的区别。
其中,瞳孔直径是指瞳孔的大小,也可以作为反映注意力和认知负荷的指标。在深度阅读状态下,由于读者需要进行较高水平的认知努力和注意力集中,瞳孔可能会呈现较小的直径。而在浅阅读状态下,瞳孔直径可能较大,表明读者对阅读内容的关注程度较低。
S104:构建样本数据集,样本数据集包括各个注视点的特征向量x,x={x1,x2,x3,x4,x5}。
其中,x1表示注视点持续时间,x2表示眼跳距离,x3表示眼跳纵向距离,x4表示眼跳方向,x5表示瞳孔直径。
样本数据集的收集过程可以让被试者参与实验,在实验过程中使用通过电子文档阅读系统配备的眼球追踪模块或者摄像头模块来捕捉读者的注视点,进而确定出注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径。
S105:随机生成深阅读聚类中心点c1和浅阅读聚类中心点c2。
S106:根据当前注视点的特征向量,计算与各个聚类中心点的距离dij:
其中,dij表示第i个注视点到第j个聚类中心点的距离,j=1或2,xik表示第i个注视点的第k个特征值,cjk表示第j个聚类中心的第k个特征值,k=1,2,…,5。
S107:根据电子文档的注视影响系数ρ,计算当前注视点与各个聚类中心点的分类距离
其中,表示第i个注视点到深阅读聚类中心点c1的分类距离,/>表示第i个注视点到浅阅读聚类中心点c2的分类距离。
在本发明中,计算当前注视点与各个聚类中心点的分类距离时引入注视影响系数ρ,这是因为不同阅读难度的电子文档会影响读者集中注视的能力,一个电子文档的阅读难度越高,读者就越需要专注和集中注意力,注视影响系数ρ就越大,而注视点到深阅读聚类中心点c1的分类距离就越小,注视点就越容易被分类到深阅读聚类中。
S108:将当前注视点划分到分类距离较小的聚类中,并更新深阅读聚类中心点c1和浅阅读聚类中心点c2。
S109:继续选取下一个注视点,重复S106和S108,直至完成所有注视点的聚类,得出深阅读片段和浅阅读片段。
其中,深阅读片段体现了读者进行深阅读行为的时间段,浅阅读片段体现了读者进行浅阅读行为的时间段。
S110:展示用户的深阅读时长。
可选地,通过对深阅读片段的时长进行累加,进而得到用户的深阅读时长。
在本发明中,计算并向用户展示深阅读时长可以提供可视化的阅读反馈和指导,帮助读者更好地了解自己的阅读行为,并促进深度阅读的实践和发展。这有助于提高阅读效果、监控学习进度,并推动个性化的阅读支持和培养深度阅读习惯。
S111:当读者关闭电子文档时,将深阅读片段中的最后一个注视点所在的阅读位置作为记忆位置并存储。
可以理解的是,深阅读片段中的最后一个注视点所在的阅读位置更能体现读者的实际关注点。
S112:当读者重新打开电子文档时,自动跳转到记忆位置。
其中,当读者关闭电子文档再重新打开时自动跳转到深阅读片段中的最后时刻,更加能够体现读者的实际关注点,无需重新浏览整篇文献,节省了读者的时间和精力。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,通过分析读者在阅读电子文档时眼镜的注视点,根据注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径分析出读者在阅读过程中的深阅读片段和浅阅读片段,进而可以向用户展示深阅读时长,便于用户了解自身的阅读习惯。
(2)在本发明中,当读者关闭电子文档再重新打开时自动跳转到深阅读片段中的最后时刻,更加能够体现读者的实际关注点,无需重新浏览整篇文献,节省了读者的时间和精力。
在一种可能的实施方式中,基于深度阅读识别的电子文档阅读方法还包括:
S113:根据深阅读片段中第一个注视点所在的阅读位置,分析读者的阅读模式。
其中,阅读模式包括正文导向型、问题导向型、辅助导向型。
其中,正文导向型是指首次深阅读注视点在正文区域,读者从正文才算开始正式阅读。
其中,问题导向型是指首次深阅读注视点在问题区域,读者从问题部分才算开始正式阅读。
其中,辅助导向型是指首次深阅读注视点在目录区域,读者喜欢先阅读目录,之后再开始阅读。
S114:当读者打开新的电子文档时,根据读者的阅读模式,自动跳转到相应的区域。
需要说明的是,不同读者有不同的阅读偏好和习惯。通过了解读者的阅读模式,可以根据其喜好提供个性化的阅读体验。自动跳转到读者偏好的区域,可以节省读者的时间和精力,并且提高其满意度和使用效果。
在一种可能的实施方式中,S114具体包括子步骤S1041至S1043:
S1141:在读者的阅读模式为正文导向型的情况下,自动跳转到正文区域。
S1142:在读者的阅读模式为问题导向型的情况下,自动跳转到问题区域。
S1143:在读者的阅读模式为辅助导向型的情况下,自动跳转到目录区域。
在本发明中,根据读者的阅读模式自动跳转到相应的区域可以提供个性化体验、提高效率、提供导航指引并减少认知负荷,从而改善用户体验和阅读效果。
在一种可能的实施方式中,基于深度阅读识别的电子文档阅读方法还包括:
S115:统计读者阅读当前电子文档的深阅读片段的总时长和浅阅读片段的总时长。
S116:根据深阅读片段的总时长和浅阅读片段的总时长,计算深阅读时长占比。
S117:将深阅读时长占比超过预设占比的电子文档作为感兴趣文档。
其中,将深阅读时长占比超过预设占比的电子文档作为感兴趣文档可以帮助筛选重要内容、提高信息检索效率、个性化推荐和简化信息管理,从而提供更有针对性和高效的阅读体验。
S118:根据感兴趣文档向读者推荐书单。
在一种可能的实施方式中,S118具体包括子步骤S1181至S1189:
S1181:获取读者兴趣记录,读者兴趣记录包括多个感兴趣文档。
S1182:根据读者兴趣记录,构建读者兴趣矩阵F。
其中,F=[fij],i=1,2,…,m,j=1,2,…,n,m表示读者数,n表示文档数,fij表示第i个读者对第j篇文档是否感兴趣,若是,fij=1。否则,aij=0。
S1183:根据读者兴趣矩阵F,计算读者关联矩阵G和文档关联矩阵P。
其中,G=[gij],i=1,2,…,m,j=1,2,…,m,m表示读者数,gij表示第i个读者和第j个读者同时都感兴趣的文档数。
其中,读者关联矩阵G,可以衡量不同读者之间的兴趣相似度。如果两个读者共同喜欢的电子文档较多,两个读者之间的关联值就会较大,表示两个读者的兴趣相似度较高。
其中,P=[pij],i=1,2,…,n,j=1,2,…,n,n表示文档数,pij表示对第i篇文档和第j篇文档同时都感兴趣的读者数。
其中,文档关联矩阵P,可以衡量文档之间的相似度。如果两篇文档被许多相同的读者喜欢,两篇文档的关联值就会较大,表示两篇文档的相似度较高。
进一步地,读者关联矩阵G和文档关联矩阵P是基于深度阅读识别的电子文档阅读系统中基于读者和文档的共同兴趣计算的重要工具。这些矩阵可以帮助系统识别读者之间的相似度和兴趣交集,以及文档之间的相似度和受众重叠,从而为读者提供更精确的个性化推荐。
S1184:根据读者关联矩阵G和读者兴趣矩阵F,计算读者相似度矩阵H:
H=[hij]
其中,i=1,2,…,m,j=1,2,…,m,k=1,2,…,n,m表示读者数,n表示文档数,hij表示第i个读者和第j个读者之间的相似度。
在本发明中,根据第i个读者和第j个读者同时都感兴趣的文档数计算两个读者之间的相似度,如果两个读者喜欢的文档有很多共同之处,说明两个读者在文档品味上有相似之处,因此更有可能对彼此喜欢的文档产生兴趣,算法透明度高,计算效率高,能够准确地衡量两个读者之间在文档偏好上的相似程度。
S1185:根据读者相似度矩阵H,计算向目标读者θ推荐第j篇文档的第一推荐指数
其中,θ表示目标读者的编号,m表示读者数,hθi表示目标读者与第i个读者的相似度,fij表示第i个读者对第j篇文档是否感兴趣。
其中,第一推荐指数综合了与目标读者相似的多个其他读者对于文档的喜好,以向目标读者根据读者相似性推荐多个其他相似读者喜欢的文档。
S1186:根据文档关联矩阵P和读者兴趣矩阵F,计算文档相似度矩阵Q:
Q=[qij]
其中,i=1,2,…,n,j=1,2,…,n,k=1,2,…,m,m表示读者数,n表示文档数,qij表示第i篇文档和第j篇文档之间的相似度。
在本发明中,根据对第i篇文档和第j篇文档同时都感兴趣的读者数计算两篇文档之间的相似度,如果两篇文档被多个读者共同喜欢,说明两篇文档在文档风格上有相似之处,喜欢其中一篇文档的人因此更有可能对另外一篇文档产生兴趣,避免了机械性地根据文档的风格来计算文档的相似性,更能体现读者的喜好,算法透明度高,计算效率高,能够准确地衡量两篇文档之间的相似程度。
S1187:根据文档相似度矩阵Q,计算向目标读者θ推荐第j篇文档的第二推荐指数
其中,θ表示目标读者的编号,n表示文档数,fθi表示目标读者对第i篇文档是否感兴趣,qij表示第i篇文档和第j篇文档之间的相似度。
其中,第二推荐指数综合了与目标读者喜欢的多篇文档相似度较高的文档,以向目标读者根据文档相似性推荐多个相似的文档。
S1188:根据第一推荐指数和第二推荐指数/>计算第j篇文档的联合推荐指数δj:
其中,η表示第一推荐指数的权重系数。
其中,本领域技术人员可以根据实际情况设置第一推荐指数的权重系数η的大小,本发明不做限定。
S1189:根据联合推荐指数δj生成推荐书单。
在本发明中,在进行电子文档推荐时,不仅仅考虑文档的相似性,还考虑读者之间的相似性、是否曾推荐过某文档以及文档的热度等诸多因素,可以更准确的把握读者的喜好,提升文档推荐的准确性,避免陷入过滤气泡,使得读者可以根据文档推荐接触到其他可能感兴趣的文档类型和文章,帮助发现更广泛的文档选择,以满足读者的多样性需求。
实施例2
在一个实施例中,本发明提供的一种基于深度阅读识别的电子文档阅读系统,用于执行实施例1中的基于深度阅读识别的电子文档阅读方法。
本发明提供的一种基于深度阅读识别的电子文档阅读系统可以实现上述实施例1中的基于深度阅读识别的电子文档阅读方法的步骤和效果,为避免重复,本发明不再赘述。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,通过分析读者在阅读电子文档时眼镜的注视点,根据注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径分析出读者在阅读过程中的深阅读片段和浅阅读片段,进而可以向用户展示深阅读时长,便于用户了解自身的阅读习惯。
(2)在本发明中,当读者关闭电子文档再重新打开时自动跳转到深阅读片段中的最后时刻,更加能够体现读者的实际关注点,无需重新浏览整篇文献,节省了读者的时间和精力。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于深度阅读识别的电子文档阅读方法,其特征在于,包括:
S101:获取电子文档的文本特征,所述文本特征包括:文本难度、文字拥挤程度、文字属性和低频文字比例;
S102:根据各个所述文本特征,计算所述电子文档在阅读时的注视影响系数ρ;
S103:获取读者阅读所述电子文档时的各个注视点的注视信息,所述注视信息包括:注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径;
S104:构建样本数据集,所述样本数据集包括各个注视点的特征向量x,x={x1,x2,x3,x4,x5},x1表示注视点持续时间,x2表示眼跳距离,x3表示眼跳纵向距离,x4表示眼跳方向,x5表示瞳孔直径;
S105:随机生成深阅读聚类中心点c1和浅阅读聚类中心点c2;
S106:根据当前注视点的特征向量,计算与各个聚类中心点的距离dij:
其中,dij表示第i个注视点到第j个聚类中心点的距离,j=1或2,xik表示第i个注视点的第k个特征值,cjk表示第j个聚类中心的第k个特征值,k=1,2,…,5;
S107:根据所述电子文档的注视影响系数ρ,计算所述当前注视点与各个聚类中心点的分类距离
其中,表示第i个注视点到深阅读聚类中心点c1的分类距离,/>表示第i个注视点到浅阅读聚类中心点c2的分类距离;
S108:将所述当前注视点划分到所述分类距离较小的聚类中,并更新所述深阅读聚类中心点c1和所述浅阅读聚类中心点c2;
S109:继续选取下一个注视点,重复S106和S108,直至完成所有注视点的聚类,得出深阅读片段和浅阅读片段;
S110:展示用户的深阅读时长;
S111:当读者关闭所述电子文档时,将所述深阅读片段中的最后一个注视点所在的阅读位置作为记忆位置并存储;
S112:当读者重新打开所述电子文档时,自动跳转到所述记忆位置。
2.根据权利要求1所述的基于深度阅读识别的电子文档阅读方法,其特征在于,所述S101具体包括:
S1011:通过计算所述电子文档中的句子长度的平均值确定所述文本难度;
S1012:通过计算所述电子文档中的文字间隔和行间距确定所述文字拥挤程度;
S1013:通过分析所述电子文档中的文字的字体、字号、颜色确定所述文字属性;
S1014:通过计算所述电子文档中的低频词汇占总词汇的比例确定所述低频文字频率。
3.根据权利要求1所述的基于深度阅读识别的电子文档阅读方法,其特征在于,所述S102具体包括:
S1021:对所述文本难度、所述文字拥挤程度、所述文字属性和所述低频文字比例进行归一化处理;
S1022:根据所述文本难度、所述文字拥挤程度、所述文字属性和所述低频文字比例对于深度阅读的影响程度,设置所述文本难度、所述文字拥挤程度、所述文字属性和所述低频文字比例的权重;
S1023:根据以下公式计算所述电子文档在阅读时的注视影响系数ρ:
其中,μi表示第i个文本特征的权重,ai表示第i个文本特征。
4.根据权利要求3所述的基于深度阅读识别的电子文档阅读方法,其特征在于,所述S1022具体包括:
通过对所述文本难度、所述文字拥挤程度、所述文字属性和所述低频文字比例进行两两比较,结合九级标度法,建立判别矩阵B:
其中,bij表示第i个文本特征相对于第j个文本特征的重要程度,bij的取值可通过九极标度法确定,n=4;
计算所述判别矩阵B的特征向量和特征值:
Bω=λω→(B-λI)ω
其中,λ表示判别矩阵B的特征值,ω表示判别矩阵B的特征向量,取最大的特征值记为λmax,与之对应的特征向量为ωmax,ωmax=(ω1,ωi,…,ωn);
对所述特征向量进行归一化处理:
ω′max=(ω′1,ω′2,…,ω′n)
其中,归一化后的向量ω′max的各个分量ω′1,ω′2,…,ω′n分别代表各个文本特征的权重,可分别记为μ1、μ2、…、μn。
5.根据权利要求1所述的基于深度阅读识别的电子文档阅读方法,其特征在于,所述眼跳方向e的计算方式为:
e=min(|e0|,|180-e0|,|360-e0|)
其中,e0表示绝对眼跳方向。
6.根据权利要求1所述的基于深度阅读识别的电子文档阅读方法,其特征在于,还包括:
S113:根据所述深阅读片段中第一个注视点所在的阅读位置,分析所述读者的阅读模式,所述阅读模式包括正文导向型、问题导向型、辅助导向型;
S114:当所述读者打开新的电子文档时,根据所述读者的阅读模式,自动跳转到相应的区域。
7.根据权利要求6所述的基于深度阅读识别的电子文档阅读方法,其特征在于,所述S114具体包括:
S1141:在所述读者的阅读模式为正文导向型的情况下,自动跳转到正文区域;
S1142:在所述读者的阅读模式为问题导向型的情况下,自动跳转到问题区域;
S1143:在所述读者的阅读模式为辅助导向型的情况下,自动跳转到目录区域。
8.根据权利要求1所述的基于深度阅读识别的电子文档阅读方法,其特征在于,还包括:
S115:统计所述读者阅读当前电子文档的所述深阅读片段的总时长和所述浅阅读片段的总时长;
S116:根据所述深阅读片段的总时长和所述浅阅读片段的总时长,计算深阅读时长占比;
S117:将所述深阅读时长占比超过预设占比的电子文档作为感兴趣文档;
S118:根据所述感兴趣文档向读者推荐书单。
9.根据权利要求8所述的基于深度阅读识别的电子文档阅读方法,其特征在于,所述S118具体包括:
S1181:获取读者兴趣记录,所述读者兴趣记录包括多个所述感兴趣文档;
S1182:根据所述读者兴趣记录,构建读者兴趣矩阵F;
其中,F=[fij],i=1,2,…,m,j=1,2,…,n,m表示读者数,n表示文档数,fij表示第i个读者对第j篇文档是否感兴趣,若是,fij=1;否则,aij=0;
S1183:根据所述读者兴趣矩阵F,计算读者关联矩阵G和文档关联矩阵P;
其中,G=[gij],i=1,2,…,m,j=1,2,…,m,m表示读者数,gij表示第i个读者和第j个读者同时都感兴趣的文档数;
其中,P=[pij],i=1,2,…,n,j=1,2,…,n,n表示文档数,pij表示对第i篇文档和第j篇文档同时都感兴趣的读者数;
S1184:根据所述读者关联矩阵G和所述读者兴趣矩阵F,计算读者相似度矩阵H:
H=[hij]
其中,i=1,2,…,m,j=1,2,…,m,k=1,2,…,n,m表示用户数,n表示文档数,hij表示第i个读者和第j个读者之间的相似度;
S1185:根据所述读者相似度矩阵H,计算向目标读者θ推荐第j篇文档的第一推荐指数
其中,θ表示所述目标读者的编号,m表示读者数,hθi表示所述目标读者与第i个读者的相似度,fij表示第i个读者对第j篇文档是否感兴趣;
S1186:根据所述文档关联矩阵P和所述读者兴趣矩阵F,计算文档相似度矩阵Q:
Q=[qij]
其中,i=1,2,…,n,j=1,2,…,n,k=1,2,…,m,m表示用户数,n表示文档数,qij表示第i篇文档和第j篇文档之间的相似度;
S1187:根据所述文档相似度矩阵Q,计算向所述目标读者θ推荐第j篇文档的第二推荐指数
其中,θ表示所述目标读者的编号,n表示文档数,fθi表示所述目标读者对第i篇文档是否感兴趣,qij表示第i篇文档和第j篇文档之间的相似度;
S1188:根据所述第一推荐指数和所述第二推荐指数/>计算第j篇文档的联合推荐指数δj:
其中,η表示所述第一推荐指数的权重系数;
S1189:根据所述联合推荐指数δj生成推荐书单。
10.一种基于深度阅读识别的电子文档阅读系统,其特征在于,用于执行权利要求1至9任一项所述的基于深度阅读识别的电子文档阅读方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154620.6A CN117058748A (zh) | 2023-09-07 | 2023-09-07 | 一种基于深度阅读识别的电子文档阅读方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154620.6A CN117058748A (zh) | 2023-09-07 | 2023-09-07 | 一种基于深度阅读识别的电子文档阅读方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058748A true CN117058748A (zh) | 2023-11-14 |
Family
ID=88664443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311154620.6A Pending CN117058748A (zh) | 2023-09-07 | 2023-09-07 | 一种基于深度阅读识别的电子文档阅读方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058748A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106169063A (zh) * | 2016-06-22 | 2016-11-30 | 江苏大学 | 一种自动识别用户阅读兴趣区的方法 |
WO2018046957A2 (en) * | 2016-09-09 | 2018-03-15 | The University Court Of The University Of Edinburgh | A reading system, text display method and apparatus |
US20220188514A1 (en) * | 2020-12-14 | 2022-06-16 | Microsoft Technology Licensing, Llc | System for analyzing and prescribing content changes to achieve target readability level |
CN116646046A (zh) * | 2023-07-27 | 2023-08-25 | 中日友好医院(中日友好临床医学研究所) | 一种基于互联网诊疗的电子病历处理方法和系统 |
-
2023
- 2023-09-07 CN CN202311154620.6A patent/CN117058748A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106169063A (zh) * | 2016-06-22 | 2016-11-30 | 江苏大学 | 一种自动识别用户阅读兴趣区的方法 |
WO2018046957A2 (en) * | 2016-09-09 | 2018-03-15 | The University Court Of The University Of Edinburgh | A reading system, text display method and apparatus |
US20220188514A1 (en) * | 2020-12-14 | 2022-06-16 | Microsoft Technology Licensing, Llc | System for analyzing and prescribing content changes to achieve target readability level |
CN116646046A (zh) * | 2023-07-27 | 2023-08-25 | 中日友好医院(中日友好临床医学研究所) | 一种基于互联网诊疗的电子病历处理方法和系统 |
Non-Patent Citations (2)
Title |
---|
王希;胡玉娇: "协同过滤推荐算法原理对大学生互联网阅读的指导", 河南教育(高教), no. 4, 20 April 2019 (2019-04-20), pages 45 - 47 * |
陆泉;刘婷;刘庆军;陈静: "基于眼动追踪的文档内信息搜寻用户深、浅阅读行为自动识别研究", 情报科学, vol. 37, no. 10, 1 October 2019 (2019-10-01), pages 126 - 132 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nam et al. | Harvesting brand information from social tags | |
Hurley et al. | Novelty and diversity in top-n recommendation--analysis and evaluation | |
US8671069B2 (en) | Rapid image annotation via brain state decoding and visual pattern mining | |
US9058611B2 (en) | System and method for advertising using image search and classification | |
US10664719B2 (en) | Accurate tag relevance prediction for image search | |
US8549016B2 (en) | System and method for providing robust topic identification in social indexes | |
US20160124996A1 (en) | Image ranking based on attribute correlation | |
US20040247177A1 (en) | Image processing | |
CN109271574A (zh) | 一种热词推荐方法及装置 | |
US20120054658A1 (en) | Parameterization of a categorizer for adjusting image categorization and retrieval | |
US20130282704A1 (en) | Search system with query refinement | |
US20130204833A1 (en) | Personalized recommendation of user comments | |
KR20210036184A (ko) | 사용자 취향정보 파악 방법 및 사용자 취향 정보에 기반한 아이템 추천 모듈 | |
US20130097167A1 (en) | Method and system for creating ordered reading lists from unstructured document sets | |
KR102041259B1 (ko) | 전자책을 이용하는 독서 교육 서비스 제공 장치 및 방법 | |
US20160063596A1 (en) | Automatically generating reading recommendations based on linguistic difficulty | |
US20140123311A1 (en) | Progressive unlocking of e-book content | |
US20120117043A1 (en) | Measuring Duplication in Search Results | |
KR20170090562A (ko) | 다중 알고리즘 및 자기학습기능을 적용한 개인화 추천 시스템 및 추천 방법 | |
US20180005248A1 (en) | Product, operating system and topic based | |
López-Escobedo et al. | Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution | |
Chen et al. | Eye-tracking-based personality prediction with recommendation interfaces | |
CN117058748A (zh) | 一种基于深度阅读识别的电子文档阅读方法和系统 | |
Mahmud et al. | To read or not to read: Modeling online newspaper reading satisfaction and its impact on revisit intention and word-of-mouth | |
Silva | Parts that add up to a whole: a framework for the analysis of tables |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |