CN102799638B

CN102799638B - 一种面向网页内容无障碍访问的页内导航索引生成方法

Info

Publication number: CN102799638B
Application number: CN201210216109.XA
Authority: CN
Inventors: 王灿; 卜佳俊; 周逸伦; 何占盈; 陈纯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-06-25
Filing date: 2012-06-25
Publication date: 2015-07-15
Anticipated expiration: 2032-06-25
Also published as: CN102799638A

Abstract

面向网页内容无障碍访问的页内导航生成方法，从互联网上抓取网页后，针对每个网页进行如下操作：通过HTML解析器将网页解析为DOM树结构，根据DOM树之间的编辑距离对网页进行数据条目抽取。根据一些规则对网页进行初步划分，检测初步划分的区块之间的分隔符，根据最大分隔符计算区块内部的不一致程度，根据区块内部的不一致程度对网页进行实际区块划分。最后将网页区块和数据条目组织成两级页内导航。本方法的优点在于：为网页提供了两级页内导航，有助于用户，尤其是通过读屏软件访问网页内容的视力残疾用户，快速了解网页各个部分的内容，以快速锁定自己感兴趣的内容，提高用户上网体验。

Description

一种面向网页内容无障碍访问的页内导航索引生成方法

技术领域

本发明涉及无障碍网页页内导航生成的技术领域，特别是基于网页数据条目抽取和网页分块的页内导航生成方法。

背景技术

根据2006年全国第二次残疾人抽样调查结果，我国现有视力残疾1233万人，他们是社会上特殊困难的群体。随着互联网的高度普及和互联网在日常生活中重要性的不断上升，视力残疾人的网页信息无障碍访问问题成为了我国信息无障碍建设工作的重要内容。视力残疾人由于身体障碍，无法正常阅读网页上的内容，所以其上网问题特别突出。

视力残疾人通常使用读屏软件访问网页内容。读屏软件通过将网页上的文本信息转化为语音来帮助视力残疾人获取信息。而现今网页的内容变得越来越充实，网站首页包含更多的链接，内容页面包含更多的相关信息和评论内容，对于读屏软件来说，读完整个网页所需的时间也变得更长，有调查表明“网易新闻”首页共包含16000多个可读字词，读屏软件需要34分钟才能从头到尾读完。视力残疾人需要花费大量的时间听读屏软件读网页，以寻找自己感兴趣的内容，这样浏览网页的效率是极其低下的。

目前互联网上许多网页内容都根据不同视觉效果的区块进行划分。比如“网易新闻”根据视觉区块将新闻划分为“国内”、“社会”、“国际”等区块。这样视力正常的用户在浏览网页时，就可以按照区块对网页内容进行浏览。在浏览时，若对某个区块的内容不感兴趣，可以直接跳至下一个区块。另外有些网站会包含一组或多组结构一致的数据条目，比如商品列表，这些条目并不是简单的链接或文字，而通常包含图片、名称、价格、说明等。但是视力残疾人通过读屏软件访问网页内容。读屏软件将网页内容转化为顺序文本并进行语音朗读，无法对网页中的区块进行有效区分。区块和数据条目都是网页中结构化的信息，对视力残疾人来说，将网页中的区块信息和数据条目抽取出来，构建两级页内索引，有助于快速锁定网页中自己感兴趣的话题，提高网页浏览效率。

发明内容

为了帮助用户能够快速锁定网页中的特定内容，以提高浏览网页的体验度，本发明提出了一种面向网页内容无障碍访问的页内导航生成方法，该方法包括以下步骤：

1、从互联网抓取网页后，针对每个网页进行以下操作：

1)使用数据条目抽取算法抽取网页的数据条目，即网页中通过一致的结构呈现的数据。

2)使用页面区块划分算法将页面进行区块划分，区块划分时并列的数据条目分入同一区块；

3)利用数据条目和划分区块建立两级导航索引树，第一层级是网页的区块，第二层级是每个区块中的数据条目。

2、步骤1)中所述的数据条目抽取算法如下：

1)建立当前页面的HTML标签树，也就是DOM树；

2)遍历DOM树的所有节点，对当前节点的所有子节点进行下面的操作。遍历起始子节点的位置i和节点的个数K，将第i+n*K～i+(n+1)*K-1的K个子节点构成的广义节点与第i+(n+1)*K～i+(n+2)*K-1的K个子节点构成的广义节点进行比较，计算两个广义节点的相对距离。其中n大于零且i+(n+2)*K-1小于等于当前节点所有子节点的个数；

广义节点i与j之间的相对距离distance由以下公式计算得到：

Distance(i，j)＝η·FED(i，j)+θ·(WD(i，j)+HD(i，j))

其中η与θ是权重系数，WD(i，j)和HD(i，j)分别是节点间的宽度差和高度差，而FED(i，j)通过以下方法计算得到，广义节点i与广义节点j中包含相同数量K的节点，遍历广义节点i中的节点，对于以i中第k个节点为根的DOM树T_ik，将其与以j中的第k个节点为根的DOM树T_jk比较并计算得到DOM树的编辑距离,将所有DOM树编辑距离相加：

FED (i, j) = Σ_{k = 0}^{n} TED (T_{ik}, T_{jk})

DOM树相对编辑距离为通过插入节点、删除节点和替换节点三种操作将DOM树A转换成DOM树B的最小总操作代价，通过下面的公式计算得到：

TED(u，v)＝min{α·ins+β·del+γ·rep}

ins、del、rep为将树u转变成树v所进行的插入节点操作次数、删除节点操作次数、替换节点操作次数，α、β、γ为参数。

3)从DOM树的根节点递归地计算每个节点的所有子节点产生的数据区域，其中数据区域定义为拥有同一父节点并相邻的多个广义节点的集合，并且满足任意相邻两个广义节点间的编辑距离小于预先设定的阈值；

4)处理每个数据区域的广义节点以得到数据条目，如果数据条目在网页呈现上以横向、纵向排列，那么每个广义节点对应一个数据条目；如果以表格方式排列，那么每个广义节点对应的是表格中的一行，需要将一行中的每个单元格作为数据条目。

3、步骤2)中所述的页面区块划分算法从DOM树根节点递归进行如下操作：

1)对当前节点进行区块的初步分割，若被分割的区块不包含任何内容，则舍弃它，否则根据下表中的规则判断是否可以分割；

规则编号	条件	结果
			1	包含数据条目子节点	不分割
2	仅有一个子节点，且该节点不是纯文本	分割
			3	所有子节点均为非布局内容(例如文字、段落等)	不分割
4	子树中包含分割线节点	分割
			5	子树的可读文字内容小于预设的阈值	不分割
6	其他所有情况	分割

2)根据各个区块的位置检测分隔符，分隔符包括横向、纵向贯穿当前节点整个区域的DOM分割线和内容之间的空隙，并计算分隔符的权重；

3)根据当前区块内部的不一致程度判断当前区块是否应被分割，若区块不一致程度大于预先设定的阈值，则进行分割，并对划分出来的每个子区块递归从步骤1)开始进行新一轮的区块划分；

区块内部的不一致程度DOI表示为：

DOI＝MSW+η₁loga+η₂log(TL+1)+η₃log(DNC+1)

其中η₁，η₂，η₃是可调节的各个影响因素的权重系数，MSW为最大分隔符权重，a为区块面积，TL为区块文本长度，DNC为区块DOM节点个数与文本长度的比值。

本发明提出了面向网页内容无障碍访问的页内导航生成方法，其优点在于：对网页生成页内导航，将网页中的内容以两级结构化地组织；本方法适用于所有类型的网页，无需后台人工操作，可用于帮助盲人实现无障碍网页浏览。

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图，进一步说明本发明：

一种面向网页内容无障碍访问的页内导航生成方法，该方法包括以下步骤：

1、从互联网抓取网页后，针对每个网页进行以下操作：

2、步骤1)中所述的数据条目抽取算法如下：

1)建立当前页面的HTML标签树，也就是DOM树；

广义节点i与j之间的相对距离distance由以下公式计算得到：

Distance(i，j)＝η·FED(i，j)+θ·(WD(i，j)+HD(i，j))

FED (i, j) = Σ_{k = 0}^{n} TED (T_{ik}, T_{jk})

TED(u，v)＝min{α·ins+β·del+γ·rep}

规则编号	条件	结果
			1	包含数据条目子节点	不分割
2	仅有一个子节点，且该节点不是纯文本	分割
			3	所有子节点均为非布局内容(例如文字、段落等)	不分割
4	子树中包含分割线节点	分割

5	子树的可读文字内容小于预设的阈值	不分割
			6	其他所有情况	分割

区块内部的不一致程度DOI表示为：

DOI＝MSW+η₁loga+η₂log(TL+1)+η₃log(DNC+1)

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.面向网页内容无障碍访问的页内导航索引生成方法，该方法的特征在于从互联网抓取网页后，针对每个网页进行以下操作：

1)使用数据条目抽取算法抽取网页的数据条目，即网页中通过一致的结构呈现的数据；所述的步骤1)中所述的数据条目抽取算法如下：

11)建立当前页面的HTML标签树，也就是DOM树；

12)遍历DOM树的所有节点，对当前节点的所有子节点进行下面的操作：从位置为i的起始子节点开始，对每K个子节点划分为一个广义节点，将第i+n*K～i+(n+1)*K-1的K个子节点构成的广义节点与第i+(n+1)*K～i+(n+2)*K-1的K个子节点构成的广义节点进行比较，计算两个广义节点的相对距离；其中n大于零且i+(n+2)*K-1小于等于当前节点所有子节点的个数；广义节点i与j之间的相对距离distance由以下公式计算得到：

Distance(i，j)＝η·FED(i，j)+θ·(WD(i，j)+HD(i，j))

其中η与θ是权重系数，WD(i，j)和HD(i，j)分别是节点间的宽度差和高度差，而FED(i，j)通过以下方法计算得到，广义节点i与广义节点j中包含相同数量K的节点，遍历广义节点i中的节点，对于以i中第k个节点为根的DOM树T_ik，将其与以j中的第k个节点为根的DOM树T_jk比较并计算得到DOM树的编辑距离,将所有DOM树的编辑距离相加：

DOM树的编辑距离为通过插入节点、删除节点和替换节点三种操作将DOM树A转换成DOM树B的最小总操作代价，通过下面的公式计算得到：

TED(u，v)＝min{a·ins+β·del+γ·rep}

ins、del、rep为将树u转变成树v所进行的插入节点操作次数、删除节点操作次数、替换节点操作次数，α、β、γ为参数；

13)从DOM树的根节点递归地计算每个节点的所有子节点产生的数据区域，其中数据区域定义为拥有同一父节点并相邻的多个广义节点的集合，并且满足任意相邻两个广义节点间的编辑距离小于预先设定的阈值；

14)处理每个数据区域的广义节点以得到数据条目，如果数据条目在网页呈现上以横向、纵向排列，那么每个广义节点对应一个数据条目；如果以表格方式排列，那么每个广义节点对应的是表格中的一行，需要将一行中的每个单元格作为数据条目；

2)使用页面区块划分算法将页面进行区块划分，区块划分时并列的数据条目分入同一区块；所述的步骤2)中所述的页面区块划分算法从DOM树根节点递归进行如下操作：

21)对当前节点进行区块的初步分割，若被分割的区块不包含任何内容，则舍弃它，否则根据下表中的规则判断是否可以分割；

规则编号条件结果 1 包含数据条目子节点不分割 2 仅有一个子节点，且该节点不是纯文本分割 3 所有子节点均为非布局内容不分割 4 子树中包含分割线节点分割 5 子树的可读文字内容小于预设的阈值不分割 6 其他所有情况分割

22)根据各个区块的位置检测分隔符，分隔符包括横向、纵向贯穿当前节点整个区域的DOM分割线和内容之间的空隙，并计算分隔符的权重；

23)根据当前区块内部的不一致程度判断当前区块是否应被分割，若区块不一致程度大于预先设定的阈值，则进行分割，并对划分出来的每个子区块递归从步骤21)开始进行新一轮的区块划分；

区块内部的不一致程度DOI表示为：

DOI＝MSW+η₁loga+η₂log(TL+1)+η₃log(DNC+1)

其中η₁，η₂，η₃是可调节的各个影响因素的权重系数，MSW为最大分隔符权重，a为区块面积，TL为区块文本长度，DNC为区块DOM节点个数与文本长度的比值；