CN102799638B - 一种面向网页内容无障碍访问的页内导航索引生成方法 - Google Patents

一种面向网页内容无障碍访问的页内导航索引生成方法 Download PDF

Info

Publication number
CN102799638B
CN102799638B CN201210216109.XA CN201210216109A CN102799638B CN 102799638 B CN102799638 B CN 102799638B CN 201210216109 A CN201210216109 A CN 201210216109A CN 102799638 B CN102799638 B CN 102799638B
Authority
CN
China
Prior art keywords
node
block
webpage
generalized
data entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210216109.XA
Other languages
English (en)
Other versions
CN102799638A (zh
Inventor
王灿
卜佳俊
周逸伦
何占盈
陈纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201210216109.XA priority Critical patent/CN102799638B/zh
Publication of CN102799638A publication Critical patent/CN102799638A/zh
Application granted granted Critical
Publication of CN102799638B publication Critical patent/CN102799638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

面向网页内容无障碍访问的页内导航生成方法,从互联网上抓取网页后,针对每个网页进行如下操作:通过HTML解析器将网页解析为DOM树结构,根据DOM树之间的编辑距离对网页进行数据条目抽取。根据一些规则对网页进行初步划分,检测初步划分的区块之间的分隔符,根据最大分隔符计算区块内部的不一致程度,根据区块内部的不一致程度对网页进行实际区块划分。最后将网页区块和数据条目组织成两级页内导航。本方法的优点在于:为网页提供了两级页内导航,有助于用户,尤其是通过读屏软件访问网页内容的视力残疾用户,快速了解网页各个部分的内容,以快速锁定自己感兴趣的内容,提高用户上网体验。

Description

一种面向网页内容无障碍访问的页内导航索引生成方法
技术领域
本发明涉及无障碍网页页内导航生成的技术领域,特别是基于网页数据条目抽取和网页分块的页内导航生成方法。
背景技术
根据2006年全国第二次残疾人抽样调查结果,我国现有视力残疾1233万人,他们是社会上特殊困难的群体。随着互联网的高度普及和互联网在日常生活中重要性的不断上升,视力残疾人的网页信息无障碍访问问题成为了我国信息无障碍建设工作的重要内容。视力残疾人由于身体障碍,无法正常阅读网页上的内容,所以其上网问题特别突出。
视力残疾人通常使用读屏软件访问网页内容。读屏软件通过将网页上的文本信息转化为语音来帮助视力残疾人获取信息。而现今网页的内容变得越来越充实,网站首页包含更多的链接,内容页面包含更多的相关信息和评论内容,对于读屏软件来说,读完整个网页所需的时间也变得更长,有调查表明“网易新闻”首页共包含16000多个可读字词,读屏软件需要34分钟才能从头到尾读完。视力残疾人需要花费大量的时间听读屏软件读网页,以寻找自己感兴趣的内容,这样浏览网页的效率是极其低下的。
目前互联网上许多网页内容都根据不同视觉效果的区块进行划分。比如“网易新闻”根据视觉区块将新闻划分为“国内”、“社会”、“国际”等区块。这样视力正常的用户在浏览网页时,就可以按照区块对网页内容进行浏览。在浏览时,若对某个区块的内容不感兴趣,可以直接跳至下一个区块。另外有些网站会包含一组或多组结构一致的数据条目,比如商品列表,这些条目并不是简单的链接或文字,而通常包含图片、名称、价格、说明等。但是视力残疾人通过读屏软件访问网页内容。读屏软件将网页内容转化为顺序文本并进行语音朗读,无法对网页中的区块进行有效区分。区块和数据条目都是网页中结构化的信息,对视力残疾人来说,将网页中的区块信息和数据条目抽取出来,构建两级页内索引,有助于快速锁定网页中自己感兴趣的话题,提高网页浏览效率。
发明内容
为了帮助用户能够快速锁定网页中的特定内容,以提高浏览网页的体验度,本发明提出了一种面向网页内容无障碍访问的页内导航生成方法,该方法包括以下步骤:
1、从互联网抓取网页后,针对每个网页进行以下操作:
1)使用数据条目抽取算法抽取网页的数据条目,即网页中通过一致的结构呈现的数据。
2)使用页面区块划分算法将页面进行区块划分,区块划分时并列的数据条目分入同一区块;
3)利用数据条目和划分区块建立两级导航索引树,第一层级是网页的区块,第二层级是每个区块中的数据条目。
2、步骤1)中所述的数据条目抽取算法如下:
1)建立当前页面的HTML标签树,也就是DOM树;
2)遍历DOM树的所有节点,对当前节点的所有子节点进行下面的操作。遍历起始子节点的位置i和节点的个数K,将第i+n*K~i+(n+1)*K-1的K个子节点构成的广义节点与第i+(n+1)*K~i+(n+2)*K-1的K个子节点构成的广义节点进行比较,计算两个广义节点的相对距离。其中n大于零且i+(n+2)*K-1小于等于当前节点所有子节点的个数;
广义节点i与j之间的相对距离distance由以下公式计算得到:
Distance(i,j)=η·FED(i,j)+θ·(WD(i,j)+HD(i,j))
其中η与θ是权重系数,WD(i,j)和HD(i,j)分别是节点间的宽度差和高度差,而FED(i,j)通过以下方法计算得到,广义节点i与广义节点j中包含相同数量K的节点,遍历广义节点i中的节点,对于以i中第k个节点为根的DOM树Tik,将其与以j中的第k个节点为根的DOM树Tjk比较并计算得到DOM树的编辑距离,将所有DOM树编辑距离相加:
FED ( i , j ) = Σ k = 0 n TED ( T ik , T jk )
DOM树相对编辑距离为通过插入节点、删除节点和替换节点三种操作将DOM树A转换成DOM树B的最小总操作代价,通过下面的公式计算得到:
TED(u,v)=min{α·ins+β·del+γ·rep}
ins、del、rep为将树u转变成树v所进行的插入节点操作次数、删除节点操作次数、替换节点操作次数,α、β、γ为参数。
3)从DOM树的根节点递归地计算每个节点的所有子节点产生的数据区域,其中数据区域定义为拥有同一父节点并相邻的多个广义节点的集合,并且满足任意相邻两个广义节点间的编辑距离小于预先设定的阈值;
4)处理每个数据区域的广义节点以得到数据条目,如果数据条目在网页呈现上以横向、纵向排列,那么每个广义节点对应一个数据条目;如果以表格方式排列,那么每个广义节点对应的是表格中的一行,需要将一行中的每个单元格作为数据条目。
3、步骤2)中所述的页面区块划分算法从DOM树根节点递归进行如下操作:
1)对当前节点进行区块的初步分割,若被分割的区块不包含任何内容,则舍弃它,否则根据下表中的规则判断是否可以分割;
规则编号 条件 结果
1 包含数据条目子节点 不分割
2 仅有一个子节点,且该节点不是纯文本 分割
3 所有子节点均为非布局内容(例如文字、段落等) 不分割
4 子树中包含分割线节点 分割
5 子树的可读文字内容小于预设的阈值 不分割
6 其他所有情况 分割
2)根据各个区块的位置检测分隔符,分隔符包括横向、纵向贯穿当前节点整个区域的DOM分割线和内容之间的空隙,并计算分隔符的权重;
3)根据当前区块内部的不一致程度判断当前区块是否应被分割,若区块不一致程度大于预先设定的阈值,则进行分割,并对划分出来的每个子区块递归从步骤1)开始进行新一轮的区块划分;
区块内部的不一致程度DOI表示为:
DOI=MSW+η1loga+η2log(TL+1)+η3log(DNC+1)
其中η1,η2,η3是可调节的各个影响因素的权重系数,MSW为最大分隔符权重,a为区块面积,TL为区块文本长度,DNC为区块DOM节点个数与文本长度的比值。
本发明提出了面向网页内容无障碍访问的页内导航生成方法,其优点在于:对网页生成页内导航,将网页中的内容以两级结构化地组织;本方法适用于所有类型的网页,无需后台人工操作,可用于帮助盲人实现无障碍网页浏览。
附图说明
图1是本发明的方法流程图。
具体实施方式
参照附图,进一步说明本发明:
一种面向网页内容无障碍访问的页内导航生成方法,该方法包括以下步骤:
1、从互联网抓取网页后,针对每个网页进行以下操作:
1)使用数据条目抽取算法抽取网页的数据条目,即网页中通过一致的结构呈现的数据。
2)使用页面区块划分算法将页面进行区块划分,区块划分时并列的数据条目分入同一区块;
3)利用数据条目和划分区块建立两级导航索引树,第一层级是网页的区块,第二层级是每个区块中的数据条目。
2、步骤1)中所述的数据条目抽取算法如下:
1)建立当前页面的HTML标签树,也就是DOM树;
2)遍历DOM树的所有节点,对当前节点的所有子节点进行下面的操作。遍历起始子节点的位置i和节点的个数K,将第i+n*K~i+(n+1)*K-1的K个子节点构成的广义节点与第i+(n+1)*K~i+(n+2)*K-1的K个子节点构成的广义节点进行比较,计算两个广义节点的相对距离。其中n大于零且i+(n+2)*K-1小于等于当前节点所有子节点的个数;
广义节点i与j之间的相对距离distance由以下公式计算得到:
Distance(i,j)=η·FED(i,j)+θ·(WD(i,j)+HD(i,j))
其中η与θ是权重系数,WD(i,j)和HD(i,j)分别是节点间的宽度差和高度差,而FED(i,j)通过以下方法计算得到,广义节点i与广义节点j中包含相同数量K的节点,遍历广义节点i中的节点,对于以i中第k个节点为根的DOM树Tik,将其与以j中的第k个节点为根的DOM树Tjk比较并计算得到DOM树的编辑距离,将所有DOM树编辑距离相加:
FED ( i , j ) = Σ k = 0 n TED ( T ik , T jk )
DOM树相对编辑距离为通过插入节点、删除节点和替换节点三种操作将DOM树A转换成DOM树B的最小总操作代价,通过下面的公式计算得到:
TED(u,v)=min{α·ins+β·del+γ·rep}
ins、del、rep为将树u转变成树v所进行的插入节点操作次数、删除节点操作次数、替换节点操作次数,α、β、γ为参数。
3)从DOM树的根节点递归地计算每个节点的所有子节点产生的数据区域,其中数据区域定义为拥有同一父节点并相邻的多个广义节点的集合,并且满足任意相邻两个广义节点间的编辑距离小于预先设定的阈值;
4)处理每个数据区域的广义节点以得到数据条目,如果数据条目在网页呈现上以横向、纵向排列,那么每个广义节点对应一个数据条目;如果以表格方式排列,那么每个广义节点对应的是表格中的一行,需要将一行中的每个单元格作为数据条目。
3、步骤2)中所述的页面区块划分算法从DOM树根节点递归进行如下操作:
1)对当前节点进行区块的初步分割,若被分割的区块不包含任何内容,则舍弃它,否则根据下表中的规则判断是否可以分割;
规则编号 条件 结果
1 包含数据条目子节点 不分割
2 仅有一个子节点,且该节点不是纯文本 分割
3 所有子节点均为非布局内容(例如文字、段落等) 不分割
4 子树中包含分割线节点 分割
5 子树的可读文字内容小于预设的阈值 不分割
6 其他所有情况 分割
2)根据各个区块的位置检测分隔符,分隔符包括横向、纵向贯穿当前节点整个区域的DOM分割线和内容之间的空隙,并计算分隔符的权重;
3)根据当前区块内部的不一致程度判断当前区块是否应被分割,若区块不一致程度大于预先设定的阈值,则进行分割,并对划分出来的每个子区块递归从步骤1)开始进行新一轮的区块划分;
区块内部的不一致程度DOI表示为:
DOI=MSW+η1loga+η2log(TL+1)+η3log(DNC+1)
其中η1,η2,η3是可调节的各个影响因素的权重系数,MSW为最大分隔符权重,a为区块面积,TL为区块文本长度,DNC为区块DOM节点个数与文本长度的比值。
本发明提出了面向网页内容无障碍访问的页内导航生成方法,其优点在于:对网页生成页内导航,将网页中的内容以两级结构化地组织;本方法适用于所有类型的网页,无需后台人工操作,可用于帮助盲人实现无障碍网页浏览。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.面向网页内容无障碍访问的页内导航索引生成方法,该方法的特征在于从互联网抓取网页后,针对每个网页进行以下操作:
1)使用数据条目抽取算法抽取网页的数据条目,即网页中通过一致的结构呈现的数据;所述的步骤1)中所述的数据条目抽取算法如下:
11)建立当前页面的HTML标签树,也就是DOM树;
12)遍历DOM树的所有节点,对当前节点的所有子节点进行下面的操作:从位置为i的起始子节点开始,对每K个子节点划分为一个广义节点,将第i+n*K~i+(n+1)*K-1的K个子节点构成的广义节点与第i+(n+1)*K~i+(n+2)*K-1的K个子节点构成的广义节点进行比较,计算两个广义节点的相对距离;其中n大于零且i+(n+2)*K-1小于等于当前节点所有子节点的个数;广义节点i与j之间的相对距离distance由以下公式计算得到:
Distance(i,j)=η·FED(i,j)+θ·(WD(i,j)+HD(i,j))
其中η与θ是权重系数,WD(i,j)和HD(i,j)分别是节点间的宽度差和高度差,而FED(i,j)通过以下方法计算得到,广义节点i与广义节点j中包含相同数量K的节点,遍历广义节点i中的节点,对于以i中第k个节点为根的DOM树Tik,将其与以j中的第k个节点为根的DOM树Tjk比较并计算得到DOM树的编辑距离,将所有DOM树的编辑距离相加:
DOM树的编辑距离为通过插入节点、删除节点和替换节点三种操作将DOM树A转换成DOM树B的最小总操作代价,通过下面的公式计算得到:
TED(u,v)=min{a·ins+β·del+γ·rep}
ins、del、rep为将树u转变成树v所进行的插入节点操作次数、删除节点操作次数、替换节点操作次数,α、β、γ为参数;
13)从DOM树的根节点递归地计算每个节点的所有子节点产生的数据区域,其中数据区域定义为拥有同一父节点并相邻的多个广义节点的集合,并且满足任意相邻两个广义节点间的编辑距离小于预先设定的阈值;
14)处理每个数据区域的广义节点以得到数据条目,如果数据条目在网页呈现上以横向、纵向排列,那么每个广义节点对应一个数据条目;如果以表格方式排列,那么每个广义节点对应的是表格中的一 行,需要将一行中的每个单元格作为数据条目;
2)使用页面区块划分算法将页面进行区块划分,区块划分时并列的数据条目分入同一区块;所述的步骤2)中所述的页面区块划分算法从DOM树根节点递归进行如下操作:
21)对当前节点进行区块的初步分割,若被分割的区块不包含任何内容,则舍弃它,否则根据下表中的规则判断是否可以分割;
规则编号 条件 结果 1 包含数据条目子节点 不分割 2 仅有一个子节点,且该节点不是纯文本 分割 3 所有子节点均为非布局内容 不分割 4 子树中包含分割线节点 分割 5 子树的可读文字内容小于预设的阈值 不分割 6 其他所有情况 分割
22)根据各个区块的位置检测分隔符,分隔符包括横向、纵向贯穿当前节点整个区域的DOM分割线和内容之间的空隙,并计算分隔符的权重;
23)根据当前区块内部的不一致程度判断当前区块是否应被分割,若区块不一致程度大于预先设定的阈值,则进行分割,并对划分出来的每个子区块递归从步骤21)开始进行新一轮的区块划分;
区块内部的不一致程度DOI表示为:
DOI=MSW+η1loga+η2log(TL+1)+η3log(DNC+1)
其中η1,η2,η3是可调节的各个影响因素的权重系数,MSW为最大分隔符权重,a为区块面积,TL为区块文本长度,DNC为区块DOM节点个数与文本长度的比值;
3)利用数据条目和划分区块建立两级导航索引树,第一层级是网页的区块,第二层级是每个区块中的数据条目。
CN201210216109.XA 2012-06-25 2012-06-25 一种面向网页内容无障碍访问的页内导航索引生成方法 Active CN102799638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210216109.XA CN102799638B (zh) 2012-06-25 2012-06-25 一种面向网页内容无障碍访问的页内导航索引生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210216109.XA CN102799638B (zh) 2012-06-25 2012-06-25 一种面向网页内容无障碍访问的页内导航索引生成方法

Publications (2)

Publication Number Publication Date
CN102799638A CN102799638A (zh) 2012-11-28
CN102799638B true CN102799638B (zh) 2015-07-15

Family

ID=47198748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210216109.XA Active CN102799638B (zh) 2012-06-25 2012-06-25 一种面向网页内容无障碍访问的页内导航索引生成方法

Country Status (1)

Country Link
CN (1) CN102799638B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838823B (zh) * 2014-01-22 2017-02-22 浙江大学 一种基于网页模板的网站内容无障碍检测方法
US10664647B2 (en) 2014-10-28 2020-05-26 Kuang-Yao Lee Visual web page analysis system and method
CN105808626A (zh) * 2014-12-31 2016-07-27 北大方正集团有限公司 一种生成页面的方法及装置
CN106227882B (zh) * 2016-08-02 2019-08-23 浙江大学 一种基于导航对象提取的无障碍网页导航方法
CN108681529B (zh) * 2018-03-26 2022-01-25 山东科技大学 一种流程模型图的多语言文本及语音生成方法
CN113806665A (zh) * 2021-09-24 2021-12-17 刘秀萍 基于非模式化Web数据模型的网页分块方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765236B2 (en) * 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
CN102073710A (zh) * 2010-12-31 2011-05-25 中国科学院计算技术研究所 一种网页分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765236B2 (en) * 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
CN102073710A (zh) * 2010-12-31 2011-05-25 中国科学院计算技术研究所 一种网页分割方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Learning to Extract Web News Title in Template Independent Way";Can Wang et al;《RSKT 2009, LNCS 5589》;20091231;192-199 *
"Pervasive Web News Recommendation for Visually-Impaired People";Wei Chen et al.;《2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology》;20081231;119-122 *
"一种面向盲人的门户网站导航结构提取方法的研究与实现";林立;《浙江大学硕士学位论文》;20110430;全文 *
"网页文本信息自动提取技术综述";张俊英等;《计算机应用研究》;20090831;第26卷(第8期);2827-2831 *
夏卉."树编辑距离在Web信息抽取中的应用与实现".《现代图书情报技术》.2010,(第5期),29-34. *

Also Published As

Publication number Publication date
CN102799638A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102799638B (zh) 一种面向网页内容无障碍访问的页内导航索引生成方法
Resch et al. Combining machine-learning topic models and spatiotemporal analysis of social media data for disaster footprint and damage assessment
CN102541874A (zh) 网页正文内容提取方法及装置
CN111897914B (zh) 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
KR20120124581A (ko) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN103853760A (zh) 一种网页正文内容提取方法和装置
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN102750390A (zh) 新闻网页要素自动提取方法
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN102915361A (zh) 一种基于文字分布特征的网页正文提取方法
CN103927397A (zh) 一种基于区块树的Web页面链接块的识别方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
Fu et al. Web content extraction based on webpage layout analysis
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
Carey et al. HTML web content extraction using paragraph tags
Shen et al. Information retrieval of a disaster event from cross-platform social media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant