CN103942332A - 一种Web页面逻辑链接块的识别方法 - Google Patents

一种Web页面逻辑链接块的识别方法 Download PDF

Info

Publication number
CN103942332A
CN103942332A CN201410186981.3A CN201410186981A CN103942332A CN 103942332 A CN103942332 A CN 103942332A CN 201410186981 A CN201410186981 A CN 201410186981A CN 103942332 A CN103942332 A CN 103942332A
Authority
CN
China
Prior art keywords
link
distance
web page
character
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410186981.3A
Other languages
English (en)
Other versions
CN103942332B (zh
Inventor
王贤明
谷琼
朱莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University of Technology
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN201410186981.3A priority Critical patent/CN103942332B/zh
Publication of CN103942332A publication Critical patent/CN103942332A/zh
Application granted granted Critical
Publication of CN103942332B publication Critical patent/CN103942332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种Web页面逻辑链接块的识别方法,本发明提出的逻辑链接块概念,扩展了常规链接块的范畴;本发明提出的逻辑链接块的发现方法,避开了传统链接块识别所不可或缺的标签树解析或者DOM解析过程,链接块的判别规则简单,无需复杂计算;本发明提出的方法分析速度快,抗干扰性强,能更好的适应设计不规范的Web页面,且不要求链接块内的链接主题内聚性高,这也就决定了该方法在Web页面文本抽取方面有着潜在的应用价值,在其他对链接块精细粒度要求不高的Web信息处理和挖掘领域中也具有广泛的应用前景。

Description

一种Web页面逻辑链接块的识别方法
技术领域
本发明涉及Web页面识别技术领域,应用于网页正文抽取、链接分析统计或非物理链接块分析的相关场合,尤其涉及Web页面逻辑链接块的识别方法。
背景技术
万维网是一个通过页面之间的链接构建起来的超大型复杂网络。链接在Web信息组织和展示、页面导航等方面发挥着巨大的作用。网络爬虫依靠Web页面之间的链接实现互联网的遍历爬行,互联网用户正是依靠页面之间的链接实现同主题内容的“聚合”阅读。Web页面中的链接往往以不同的粒度块来组织,块粒度越精细则所含链接的主题相关性越高;随着块粒度的增大,链接块的主题“内聚”性逐渐减弱。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在专门针对链接块进行分析的研究中,对链接块粒度的要求往往较为精细,如特定主题链接提取;而在其他非链接块研究中,则对链接块的粒度要求不高,如Web页面文本提取。
在技术实现上,视觉上的分块往往也对应着块(block)级标签元素(Block-levelelements)[1],目前涉及链接块相关的应用和研究基本仅针对该实现方式。然而,由于网页设计技术和实现的多样性,视觉上的分块,在实现方式上并不总是采用block类型标签实现,也有可能采用内联类型标签(inline elements)实现,这也就意味着无法准确的预知设计者使用何种方式实现链接块,或者需要建立在对HTML标签属性的精细解析基础之上,这给基于海量Web数据的一些自动化应用带来了诸多麻烦。
Web页面链接块的研究历史悠久,对Web页面进行分块或者信息提取的方法众多,SumaiaMohammed AL-Ghuribi[2]将Web页面的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类,这五类方法同样适用于Web页面链接块的分块,其中Wrapper和模板法的通用性较差,且一般需要人工参与,并需要更新维护,极为耗时费力,鉴于此,Junfeng Wang,Jun He等提出了无需模板支持或人工监督的Wrapper算法[3]、[4]、[5],并取得较好的效果;PETERS M提出的机器学习的方法需要借助合适的训练集和适量的特征[6],且难以完全脱离人工监督;利用视觉布局特征的方法的典型代表即VIPS[7],该方法虽然准确率较高,但是对网页的解析要求过于精细,计算消耗大,面对大量非规范化的网页时健壮性难以保证,且在当前普遍采用CSS[8]来控制各页面标签的视觉呈现效果的情况下,还需要另行解析相关CSS,最终导致解析任务量大,程序健壮性欠缺;基于HTML特征的相关方法多偏向一些启发式规则[9]或一些统计规律,通用性有待提高。此外,也有研究者提出其他的一些方法,例如利用模糊神经网络实现页面分块的方法[10],MSS页面分块方法[11]等。虽然相关研究方法多种多样,各有千秋,然而经过分析总结可以发现:目前关于Web页面链接块的发现和识别相关算法基本都是基于标签树[12][13][14][15][16],而DOM[17]是一种构建标签树最为常见的方式,其他方法也基本都以HTML标签树或DOM为基础[18][19]。
此外,在对Web页面进行分块的相关研究中,有相当一部分研究基本仅仅针对块级层次的HTML标签元素,如div、table、tr、td等,其中由于table功能的多样性和强劲性[20],早期网页布局、修饰和内容组织几乎对table不可或缺,相应的,部分研究也仅考虑了针对table布局的网页[21],且未能很好的区分用于布局的table和用于内容组织的table。Son专门研究基于table设计的网页,对table的两种作用做了区分并分别识别,实验证明该方法具有一定的先进性。但仅针对table的处理方式局限性还较大,目前的网页设计基本都是table和div共存,Uzun[22]同时考虑这两种情况,先根据div和td获得分块信息,其次结合决策树生成抽取规则,取得较好的效果,特别是在抽取速度上获得了和手工规则相当的性能;Wang[23]则提出BSU概念,并基于此采用聚类和启发式规则两种方法实现页面信息抽取,比采用基于div和table的方法结果更理想。
现有的各类对链接块进行分块的算法,尤其是基于标签树的各种方法需要Web页面遵从较好的规范,这种规范既包括HTML、XHTML等标签语法规范(如标签的配对关系),也包括语义设计方面的规范(如通过浏览器渲染后在视觉上呈现块状的内容在实际的代码中通过块级元素div、table等来呈现,视觉上的标题通过h1、h2等标签来呈现等)。但实际上,海量的Web页面中,有相当数量的Web页面并不遵从HTML等标签语法规范和语义设计规范。虽然HTML标签语法上的不规范性可以通过一些现有的或自行设计的Web页面规范化程序进行矫正,但并不能保证100%的正确率;语义设计规范问题的矫正难度则更大。这就决定了基于标签树或DOM的各种方法仅能在设计规范或易于矫正的Web页面中获得良好的效果,在非规范化Web页面中则显得捉襟见肘。
由于在已有的Web页面处理相关研究中,一般只将块级标签对应的代码块称为块,这种处理方式虽然极大的提高了诸多Web页面处理的效果,然而在面对纷繁复杂的Web页面时,在某些情况下,这种处理方式可能带来两种后果:误判或无法检出。例如在很多Web页面中,存在着并非块级的广告,在页面正文抽取等研究领域,按传统的块级处理方式,无法检出这些广告链接。
参考文献:
W3C.HTML4.01Specification[S/OL].[2014-01-23].http://www.w3.org/TR/html401/.
AL-GHURIBI S M,ALSHOMRANI S.A Comprehensive Survey on Web Content ExtractionAlgorithms and Techniques[C]//2013International Conference on Information Science andApplications(ICISA).IEEE,2013:1–5.
WANG J F,HE X F,WANG C,et al.News article extraction with template-independentwrapper[C]//Proceedings of the18th international conference on World wide web.New York,USA:ACM Press,2009:1085.
HE J,GU Y Q,LIU H Y,et al.Scalable and noise tolerant web knowledge extraction for searchtask simplification[J].Decision Support Systems,2013,56:156–167.
WANG J F,CHEN C,WANG C,et al.Can we learn a template-independent wrapper for newsarticle extraction from a single training site?[C]//Proceedings of the15th ACM SIGKDDinternational conference on Knowledge discovery and data mining.New York,USA:ACMPress,2009:1345–1353.
PETERS M,LECOCQ D.Content extraction using diverse feature sets[C]//ProceedingWWW’13Companion Proceedings of the22nd international conference on World Wide Webcompanion.Geneva,Switzerland:2013:89–90.
Cai D,Yu S P,Wen J R,et al.VIPS:a vision-based page segmentation algorithm,MicrosoftTechnical Report,MSR-TR-2003-79,2003.
W3C.Cascading Style Sheets(CSS)Snapshot2010[S/OL].[2014-01-23].http://www.w3.org/TR/CSS/.
XUE Y,HU Y,XIN G,et al.Web page title extraction and its application[J].InformationProcessing&Management,2007,43(5):1332–1347.
CAPONETTI L,CASTIELLO C,GóRECKI P.Document page segmentation usingneuro-fuzzy approach[J].Applied Soft Computing,2008,8(1):118–126.
PASTERNACK J,ROTH D.Extracting article text from the web with maximum subsequencesegmentation[C]//Proceedings of the18th international conference on World wide web.NewYork,USA:ACM Press,2009:971–980.
AHMADI H,KONG J.User-centric adaptation of Web information for small screens[J].Journal of Visual Languages&Computing,2012,23(1):13–28.
CAI R,YANG J M,LAI W,et al.iRobot:An intelligent crawler for Webforums[C]//Proceedings of the17th international conference on World Wide Web.2008:447–456.
GUO Y,TANG H F,SONG L H,et al.ECON:An Approach to Extract Content from Web NewsPage[C]//201012th International Asia-Pacific Web Conference.IEEE,2010:314–320.
JI X W,ZENG J P,ZHANG S Y,et al.Tag tree template for Web information and schemaextraction[J].Expert Systems with Applications,2010,37(12):8492–8498.
WONG T L,LAM W.An unsupervised method for joint information extraction and featuremining across different Web sites[J].Data&Knowledge Engineering,2009,68(1):107–125.
W3C.Document Object Model(DOM)[S/OL].[2014-01-23].http://www.w3.org/DOM/.
李志文,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853–859.
M,PAN A,RAPOSO J,et al.Extracting lists of data records from semi-structuredweb pages[J].Data&Knowledge Engineering,2008,64(2):491–509.
CAFARELLA M J,HALEVY A,WANG D Z,et al.WebTables:exploring the power of tableson the web[C]//Proceedings of the VLDB Endowment.Auckland,New Zealand:2008:538–549.
SON J-W,PARK S-B.Web table discrimination with composition of rich structural andcontent information[J].Applied Soft Computing,2013,13(1):47–57.
UZUN E,AGUN H V,YERLIKAYA T.A hybrid approach for extracting informative contentfrom web pages[J].Information Processing&Management,2013,49(4):928–944.
WANG J Q,CHEN Q C,WANG X L,et al.Basic semantic units based web page contentextraction[C]//2008IEEE International Conference on Systems,Man and Cybernetics.IEEE,2008:1489–1494.
发明内容
本发明为了解决上述的技术问题,提出了一种Web页面逻辑链接块的识别方法。
本发明的技术方案是:一种Web页面逻辑链接块的识别方法,包括下述步骤:
步骤1:输入网页;其中,步骤1中包括如下步骤;
步骤1.1编码识别:先获取网页编码格式,如UTF-8、GB2312、GBK、BIG5、iso-8859-1等;
步骤1.2网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出各个链接的起始位置和结束位置;
定义如下概念:
<a href="...">文字</a>
所述的起始位置是以字符“<”开始,以字符“>”为结束,且这两者之间并不存在字符“<”和“>”的字符串;
所述的结束位置是以字符“</”开始,以字符“>”为结束,且这两者之间并不存在字符“<”、“>”和“/”的字符串;
步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;
步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;
步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;
步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;
步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;
步骤7、判断AB距离是否小于与所设定的距离阈值dt,若AB距离小于所设定的距离阈值dt,则对初始设置的链接数计数器M增1,即M=M+1,并记录现在的搜索位置P,令P=B+1,返回步骤4;若AB距离不小于所设定的距离阈值,则结束当前逻辑块的搜索工作,将进一步搜索与位置B对应的链接结束位置,并记为C,进入步骤8;
步骤8、判断当前的链接计数器M是否小于所设定的链接数阈值Ct;若当前的链接计数器M小于所设定的链接数阈值Ct,则可确定当前的逻辑块为非链接块,进入步骤9;如果当前的链接计数器M不小于所设定的链接数阈值,则可确定当前的逻辑块是链接块,逻辑链接块发现成功,并将所发现的链接块添加到逻辑链接块列表当中,进入步骤9;
步骤9、将当前链接计数器M清零,并记录当前搜索位置P为C+1,进入步骤4;
步骤10、重复4-9的步骤,直至整个页面扫描处理完毕;
步骤11、结束,获取当前网页的逻辑链接块。
所述的步骤6中的链接距离可以采用代码距离或文本距离计算。
所述的代码距离是任意两个标签之间的代码距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有内容的长度;在本发明的计算中,将先去除各标签的属性然后才执行代码距离的计算。
所述的文本距离是任意两个标签之间的文本距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有文本的长度;
在计算文本距离时,遵从如下规则:
4.1、英文等字符以单词为统计单位,即一个单词长度计为1,如果若干个连续英文字符不构成单词,其长度也将计1;
4.2、中文等字符以单个字为统计单位,即一个汉字长度计为1;
4.3、数字以一个完整数字为统计单位,即一个完整数字长度计为1;
4.4、日期时间字符串以日期时间整体为统计单位,即一个完整日期时间串长度计为1;
4.5、标点符号与汉字统计规则一样,但是若相邻的若干个标点符号相同,则长度只计1。
所述步骤8中的逻辑链接块定义为:设某逻辑块中的链接数为Clink,逻辑块内各相邻链接之间的距离为若该逻辑块满足如下条件,则称该逻辑块为逻辑链接块。
C link > = C t max ( d i ) < d t
其中Ct为链接块中最小链接数,dt为链接之间所能允许的最大值。
逻辑块:即由不少于一个相邻或相近的标签所构成的连续代码区域。
本发明的有益效果是:本发明提出的逻辑链接块,扩展了常规链接块的范畴;本发明提出的逻辑链接块的发现方法,避开了传统链接块识别所不可或缺的标签树解析或者DOM解析过程,从而也就无需在标签树解析或DOM解析上耗费大量的计算资源,同时避免了解析纷繁复杂且缺乏规范的HTML时的各种问题;另外,链接块的判别规则简单,无需复杂计算,在对Web页面进行一次扫描即可同时完成逻辑链接块的发现与判别。本发明提出的方法分析速度快,抗干扰性强,能更好的适应设计不规范的Web页面,且不要求链接块内的链接主题内聚性高,这也就决定了该方法在Web页面文本抽取方面有着潜在的应用价值,在其他对链接块精细粒度要求不高的Web信息处理和挖掘领域中也具有广泛的应用前景。
附图说明
图1是本发明的流程图;
图2是本发明的逻辑块示意图;
图3链接距离阈值对逻辑链接块的影响-索引页柱状图;
图4链接距离阈值对逻辑链接块的影响-内容页柱状图;
图5链接距离阈值对逻辑链接块的影响-索引页柱状图;
图6链接数阈值Ct对逻辑链接块的影响-索引页柱状图;
图7链接数阈值Ct对逻辑链接块的影响-内容页柱状图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参照图1,本发明的流程图,一种Web页面逻辑链接块的识别方法,具体实现过程包括下述步骤:
步骤1:输入网页;其中,步骤1中包括以下步骤;
步骤1.1编码识别:先获取网页编码格式,如UTF-8、GB2312、GBK、BIG5、iso-8859-1等;
步骤1.2网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出各个链接的起始位置和结束位置;
定义如下概念:
<a href="...">文字</a>
所述的起始位置是以字符“<”开始,以字符“>”为结束,且这两者之间并不存在字符“<”和“>”的字符串;
所述的结束位置是以字符“</”开始,以字符“>”为结束,且这两者之间并不存在字符“<”、“>”和“/”的字符串;
步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;
步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;
步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;
步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;
步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;其中,在Web页面的HTML代码中,两个标签之间的距离可表示为:<a href="...">文字</a>,<a这里的<就是链接的开始位置,</a>这里的>就是链接的结束位置;
步骤7、判断AB距离是否小于与所设定的距离阈值,若AB距离小于所设定的距离阈值,则对初始设置的链接数计数器M增1,即M=M+1,并记录现在的搜索位置P,令P=B+1,返回步骤4;若AB距离不小于所设定的距离阈值,则结束当前逻辑块的搜索工作,将进一步搜索与位置B对应的链接结束位置,并记为C,进入步骤8;
步骤8、判断当前的链接计数器M是否小于所设定的链接数阈值;若当前的链接计数器M小于所设定的链接数阈值,则可确定当前的逻辑块为非链接块,进入步骤9;如果当前的链接计数器M不小于所设定的链接数阈值,则可确定当前的逻辑块是链接块,逻辑链接块发现成功,并将所发现的链接块添加到逻辑链接块列表当中,进入步骤9;
步骤9、将当前链接计数器M清零,并记录当前搜索位置P为C+1,进入步骤4;
步骤10、重复4-9的步骤,直至整个页面扫描处理完毕;
步骤11、结束,获取当前网页的逻辑链接块。
所述的步骤6中的链接距离可以采用代码距离或文本距离计算。
所述的代码距离是任意两个标签之间的代码距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有内容的长度;在本发明的计算中,将先去除各标签的属性然后才执行代码距离的计算,例如“<div id=”main”>ABC</div>”经过去除标签属性得到“<div>ABC</div>”。
所述的文本距离是任意两个标签之间的文本距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有文本的长度;
在计算文本距离时,遵从如下规则:
4.1、英文等字符以单词为统计单位,即一个单词长度计为1,如果若干个连续英文字符不构成单词,其长度也将计1;
4.2、中文等字符以单个字为统计单位,即一个汉字长度计为1;
4.3、数字以一个完整数字为统计单位,即一个完整数字长度计为1;例如“例如“珠穆朗玛8848”的长度计为5,因为计算时不会把“8848”这个完整数字切分为“8”、“8”、“4”、“8”四个数字;
4.4、日期时间字符串以日期时间整体为统计单位,即一个完整日期时间串长度计为1;如日期串中可能有“年”、“月”、“日”等字样,也可能没有;年月日三部分之间的顺序;年月日之间串接字符(-、\等)。例如“今天是2014年3月28日”的长度计为4。
4.5、标点符号与汉字统计规则一样,但是若相邻的若干个标点符号相同,则长度只计1。
所述步骤8中的逻辑链接块定义为:设某逻辑块中的链接数为Clink,逻辑块内各相邻链接之间的距离为若该逻辑块满足如下条件,则称该逻辑块为逻辑链接块。
C link > = C t max ( d i ) < d t
其中Ct为链接块中最小链接数,dt为链接之间所能允许的最大值。
逻辑块:即由不少于一个相邻或相近的标签所构成的连续代码区域。逻辑块可能是一个标签块,也有可能是几个相邻或相近的标签块合并构成,且被包含在逻辑块中的各个标签并不要求都是完整的,被包含在逻辑块中的各个标签也不必是块级标签。如下图2所示,A与B为相邻的兄弟标签,构成逻辑块;A1与A2均是A的相邻子标签,构成逻辑块;A2与B1虽然隶属于不同的父标签,但A2与B1相近,通过A的后半部分代码和B的前半部分代码,可以最终使得A2和B1成为一个连续的代码区域,故也是逻辑块。
逻辑链接块识别结果的评价:
对逻辑链接块识别结果的评价,本发明提出采用链接覆盖率(Link Coverage Rate,LCR)和代码覆盖率(Code Coverage Rate,CCR)两个指标,其表达如下:
其中,CBlockLinks表示包含在逻辑链接块中的链接总数,CPageLinks则指Web页面中的链接总数;LBlock表示所识别的逻辑链接块代码长度总和,LPage表示Web页面代码长度。
用下标m、r、a分别代表人工筛选数据、随机抽取数据和包括合并了人工筛选和随机抽取的所有数据。
则有:LCRm即人工筛选数据的链接覆盖率;
LCRr即随机抽取数据的链接覆盖率;
LCRa即合并人工筛选和随机抽取的数据的链接覆盖率;
CCRm即人工筛选数据的代码覆盖率;
CCRr即随机抽取数据的代码覆盖率;
CCRa即合并人工筛选和随机抽取的数据的代码覆盖率;
通过实验验证本发明所提出的逻辑链接块发现和判别方法的有效性,且探讨该方法在处理索引型和内容型Web页面时的效果与特性。
实验方案:
实验所用原始Web页面数据是通过程序从互联网中随机爬取,然后对随机爬取的Web页面采用两种取样方式:
1)人工筛选。人工筛选的Web页面数据来自于5家国内门户网站,即网易、新浪网、中国新闻网、中华网、凤凰网,每个网站均选取16个索引页(即门户首页或者各子频道首页)和40个内容页,共计280篇。
2)随机抽取。随机抽取的索引页为46个,内容页为256个。鉴于Web页面文本抽取是逻辑链接块的今后可能最主要的潜在应用,故在筛选内容页时,尽量选择多种不同类型的Web页面,如既有长篇幅的也有短篇幅、既有纯文字页面也有包含视频图片页面。
实验分为两组进行,每组实验又分别使用代码距离和文本距离作为链接之间距离的度量,试验在不同参数配置下索引页和内容页的链接块识别情况。为下文表述方便,将采用文本距离时的链接距离阈值记为而将采用代码距离时的链接距离阈值记为
第一组:设定Ct=3,使用文本距离的情况下,使用代码距离的情况下, d t c = { 10,20 , . . . , 120 } .
第二组:设定Ct={2,3,…,12},使用文本距离的情况下,使用代码距离的情况下, d t c = 80 .
实验结果与分析:
1)对Web页面链接块的影响
对任意Web页面,不难想象,随着相邻链接之间距离阈值dtt的增大,相邻超链接被归属到同一逻辑链接块中的可能性越大,各个逻辑链接块也将越大,在链接总数确定的情况下,逻辑链接块数也将越少。相应的,各链接块累计覆盖的链接数和代码也将越多,即链接覆盖率和代码覆盖率也将越高。图3中的实验数据证实了这一点。
由图3可见:①虽然索引页中包含数量可观的链接数,但由于索引页中纯文本数极少,在无纯文本或仅被极短文本间隔的区域,所有的链接都将被归属到同一个逻辑链接块中,故采用文本距离作为链接距离时,逻辑链接块数极少,尤其是当dtt增大时这种现象更为明显。
②人工取样数据由于都来自于门户网站,Web页面大而结构复杂,所需呈现的内容多,栏目多,也就导致链接数多;而随机组中的网页绝大多数属常规大小,所需呈现的内容少,栏目简单,从而链接数也较少,另外,由于随机组中Web页面相对较小,出现长文本的情形也更为少见,故其逻辑链接块数明显少于人工组。
③在索引页中当时,链接覆盖率即超过90%,这表明索引页中长度大于5的纯文本数量很少,这也正是我们平时所熟知的情况。
④当时,人工组和随机组的代码覆盖率存在差异,与链接覆盖率曲线稍有出入,这主要是因为:当链接覆盖率提高到某个较高水平时,“孤立”链接或链接块数将越来越少,此时提高的值,其主要作用不再是将“孤立”链接或链接块纳入逻辑链接块而增加链接覆盖率,而是将由于偏小而被某些较长文本分割开来的那些小逻辑链接块合并为更大的链接块,表现为一种对链接之外的其他代码的“吞噬作用”;在合并的过程中,一方面使得逻辑链接块数更少,另外一方面由于多个链接块的合并,将原本属于逻辑链接块间的中间地带整体纳入进新的逻辑链接块,该过程中虽然基本不会或很少导致新的链接被归属到逻辑链接块而提高链接覆盖率,但逻辑块间中间地带代码的纳入,却能显著提高代码覆盖率。
⑤通过对比链接覆盖率曲线和代码覆盖率曲线可知,时,链接覆盖率基本维持不变;而时,代码覆盖率也将维持不变。这也就意味着,在索引页中,当时,增加而带来的主要贡献表现在对非链接代码的吞噬;而在时,的增加则同时吞噬了链接及链接之间的代码,从而呈现出链接覆盖率和代码覆盖率的同步上升。
⑥相对而言,随机组的逻辑链接块数更易受到的影响,其主要原因在于:首先随机组中Web页面链接数总体偏少,一般在几十至数百个左右,人工组中的门户Web页则一般都包含上千个链接;其次,在随机组中的Web页面中较长的纯文本极少,的增加将使得原本较小的逻辑链接块迅速聚合为较大的逻辑链接块,逻辑链接块数大幅度降低,因而就导致了随机组中的逻辑链接块数的波动更为明显。
与索引页相比,针对内容页的实验结果存在如下显著不同:
①逻辑链接块数显著减少。这主要是因为内容页所承担的作用不同所致。索引页承担着导航的作用,包含着尽可能多的链接,而内容页则着重呈现某一个主题内容,该主题可能为文本、图片、视频等,这些主题元素占据了大量的篇幅,链接数量大幅减少,从而导致最终的逻辑链接块数大幅减少。当足够大时,Web页面中的逻辑链接块数基本维持在2~3左右,其中相当多的页面链接数为2,即正文内容前后的链接分别被划分为一个逻辑链接块。
②人工组和随机组的实验结果差异不显著。在索引页的实验结果中,随机组的逻辑链接块数远小于人工组,但在内容页上,却并无太大差异。可见,从内容页的角度看,人工组和随机组中的Web页面,均具有相似的结构特征和文本特征。
③代码覆盖率显著降低。这主要是因为在内容页中,非链接块占据了相当大的篇幅,且内容页的规模远小于索引页所致。
④在逻辑块发现的过程中,Web页面正文文本能够被很好的保留下来,少数文本极其短的页面例外,这表明基于逻辑块识别的方法是可以应用于Web页面文本提取的。
⑤对于内容页文本中零星出现的孤立链接,由于其间距离过远而不会被纳入链接块,即文本块的完整性不受影响;而对于嵌入在文本中小区块广告链接,由于链接之间距离短而会被纳入逻辑链接块中。这在基于块级元素的链接块识别中是无法达到的。不过若某些孤立链接恰好离嵌入在文本中的广告区块较近,则也有可能发生误判的情况,在较小时该情况出现概率较低,随着的增大,该情况出现的概率将增加。这种情况有待进一步研究。
针对内容页的实验结果见图4所示。
2)对Web页面链接块的影响
在采用文本距离作为链接距离时,仅计算了相邻链接之间的文本,这就导致在文本偏少或者较短的Web页面中,即使相邻链接间即使存在大量代码,但若无文本,则由于缺少文本的分割作用,它们仍将被归属到同一个逻辑链接块中。而在采用代码距离作为链接距离时,代码和文本同时对逻辑链接块的分割起作用,这也就意味着,采用代码距离作为链接距离时,Web页面将被划分为更多的逻辑链接块;与此同时,链接块间的中间地带也将增多,这将导致代码覆盖率的降低。实验证实了上述分析成立,对比图3结果不难看出,在采用代码距离的情况下,链接块数目显著增多,而代码覆盖率和链接覆盖率则显著降低,这种现象在链接距离阈值较小时尤其明显。结果如图5所示。
由图5可见:当较小时,人工取样数据所包含的链接块数远多于随机组,而随着的增大,其间的差距逐渐缩小,当时,这种差别几乎不再存在。这也就意味着,在索引页中,无论是人工组中的门户网站索引页面,还是随机抽取的常规索引页面,相邻链接之间的代码距离基本都在90以内。由于越小,其对Web页面的分割作用越“精细”;反之越大,其分割作用越“粗糙”,更易凸显Web页面的宏观结构特性。可见无论Web页面规模的大小如何,都存在一定的宏观结构相似性。这种特性在针对内容页的实验中同样存在。
与采用文本距离方式的实验结果类似,针对内容页的代码覆盖率显著低于索引页,其他方面则无显著差异。
3)Ct对Web页面链接块的影响-文本距离
逻辑链接块中链接数阈值Ct决定了一个逻辑块要成为一个逻辑链接块所必需的最小链接数。在dt()确定的情况下,Ct越小,则在逻辑链接块的扫描发现过程中,各个逻辑块更容易满足阈值条件而成为链接块,被囊括在各个链接块中的链接总数也将更多,大量链接的纳入,必将相应的吸纳更多的链接间代码;反映在曲线上,即链接覆盖率和代码覆盖率的高位。反之Ct越大,各个逻辑块则更难以被认定为链接块,诸多的逻辑块虽然包含了链接,但由于数目上难以达到Ct从而被舍弃,其结果就是更多的链接将被排除在逻辑链接块之外,相应的也将有更多的代码未能纳入逻辑链接块;反映在曲线上,即链接覆盖率和代码覆盖率的低位。同时由于诸多“准链接块”被舍弃,也将导致逻辑链接块总数的衰减。实验结果证实了上述结论,结果如图6所示。
从图6可见,人工组的逻辑链接块数受Ct的影响较为显著,而随机组的逻辑链接块数基本无大幅度变化。这主要是因为在本实验中而绝大多数的随机组Web页面中较少存在长度超过40的纯文本,这也就导致了无论Ct取值如何,整个Web页面被划分为逻辑链接块时的分界点较为固定,即那些数量很少且长度超过40的纯文本充当了分界点角色。不难推断,若较小时,充当这种分界点角色的纯文本就逐渐增多,此时逻辑链接块数也将呈现为较大波动。实验数据证实了这一推断。
针对内容页的实验结果与索引页相比,其最大不同表现在:
①逻辑链接块数量少,基本都在4以下。这主要是因为在内容页中纯文本几乎集中呈现,即使文本中偶尔会出现孤立的超链接,但往往由于这些超链接与其他超链接由于距离过远而无法纳入到链接块中。这恰好能够维持文本块的完整性。倘若将继续增大,则可能导致文本块被部分甚至全部归属到链接块中。
②逻辑链接块数随着Ct的增大一直呈现平缓的下滑,不再出现类似上述在Ct较小时链接块数波动较大的情况。这主要是因为在内容页中的长文本数量和位置基本固定所致。在较大且确定的情况下,无论Ct如何变化,对逻辑链接块划分起决定性作用的都是那些长文本。在内容页中的长文本集中呈现,这也就决定了当增大到某个值时,绝大多数的内容页将被划分为两个链接块:正文之前作为一个链接块,正文之后作为一个链接块。该结论在实验中得到证实。
③当Ct较小时,链接覆盖率与索引页基本持平,而随着Ct的增大,链接覆盖率与索引页的差距逐渐增大。这主要是因为在于:在索引页中,链接分布比较密集而均匀,而在内容页中,例如在某些正文中零星分布少量链接的页面中,特别是在某些附带评论的博客页面和论坛页面中,链接呈现为一种相对“离散”分布。这样当Ct较小时,零星散落的链接只要距离不致太远,或者能以小团簇形式(典型的如博客或论坛中每条回复周围关于发帖人个人信息的一些链接)出现,它们仍能被认定为逻辑链接块;随着Ct的增大,越来越多的以团簇形式存在的小链接区域由于无法满足最小链接数阈值Ct的要求,且相邻链接团簇又因为被某些较长的文本切断而被排除在链接块之外。这种情况在索引页中是极其少见的,因而导致了这一现象。
④代码覆盖率远低于索引页。其本质原因在于内容页中存在着大篇幅的主题文本块,这些文本块是基本不会被纳入逻辑链接块中,从而也就导致了内容页的代码覆盖率显著低于索引页。
⑤人工组的链接覆盖率显著高于随机组。其主要原因正如③中所述,博客页面或论坛页面中的往往由于部分篇幅较长帖文对页面的分割作用所致。这些长帖文的存在,将导致部分包含的链接数低于Ct的逻辑块未被认定为链接块,从而丢弃了大量的链接,这一现象在人工组的门户新闻页面中几乎不存在。最终造成链接覆盖率的降低,相应的也使得代码覆盖率降低。
⑥人工组的代码覆盖率显著高于随机组。其主要原因在于:第一,人工组的页面往往较随机组中的页面更长,然而从其所包含的正文长度而言,则两者并无显著差异,依据代码覆盖率的计算表达式不难看出这将导致整体篇幅短的内容页其代码覆盖率也更低。第二,正如⑤中所述,部分篇幅较长帖文对页面的分割作用导致了代码覆盖率的降低。
4)Ct对Web页面链接块的影响-代码距离
对索引页实验结果而言,分别采用代码距离和文本距离作为链接距离的方式相比较,主要差异体现在三个方面:①采用代码距离时的链接块数更多。②代码覆盖率和链接覆盖率更低。③随机组和人工组的逻辑链接块数差异不明显。
对内容页实验结果而言,分别采用代码距离和文本距离作为链接距离的方式相比较,主要差异与索引页基本相同。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其它的任何未违背本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种Web页面逻辑链接块的识别方法,其特征在于,包括下述步骤:
步骤1:输入网页;
步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;
步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;
步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;
步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;
步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;
步骤7、判断AB距离是否小于与所设定的距离阈值dt,若AB距离小于所设定的距离阈值dt,则对初始设置的链接数计数器M增1,即M=M+1,并记录现在的搜索位置P,令P=B+1,返回步骤4;若AB距离不小于所设定的距离阈值,则结束当前逻辑块的搜索工作,将进一步搜索与位置B对应的链接结束位置,并记为C,进入步骤8;
步骤8、判断当前的链接计数器M是否小于所设定的链接数阈值Ct;若当前的链接计数器M小于所设定的链接数阈值Ct,则可确定当前的逻辑块为非链接块,进入步骤9;如果当前的链接计数器M不小于所设定的链接数阈值,则可确定当前的逻辑块是链接块,逻辑链接块发现成功,并将所发现的链接块添加到逻辑链接块列表当中,进入步骤9;
步骤9、将当前链接计数器M清零,并记录当前搜索位置P为C+1,进入步骤4;
步骤10、重复4-9的步骤,直至整个页面扫描处理完毕;
步骤11、结束,获取当前网页的逻辑链接块。
2.根据权利要求1所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的步骤1中还包括如下步骤:
步骤1.1编码识别:先获取网页编码;
步骤1.2网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出各个链接的起始位置和结束位置;
定义如下概念:
<a href="...">文字</a>
所述的起始位置是以字符“<”开始,以字符“>”为结束,且这两者之间并不存在字符“<”和“>”的字符串;
所述的结束位置是以字符“</”开始,以字符“>”为结束,且这两者之间并不存在字符“<”、“>”和“/”的字符串。
3.根据权利要求1所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的步骤6中的链接距离可以采用代码距离或文本距离计算。
4.根据权利要求2所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的代码距离是任意两个标签之间的代码距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有内容的长度;在本发明的计算中,将先去除各标签的属性然后才执行代码距离的计算。
5.根据权利要求2所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的文本距离是任意两个标签之间的文本距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有文本的长度;
在计算文本距离时,遵从如下规则:
4.1、英文等字符以单词为统计单位,即一个单词长度计为1,如果若干个连续英文字符不构成单词,其长度也将计1;
4.2、中文等字符以单个字为统计单位,即一个汉字长度计为1;
4.3、数字以一个完整数字为统计单位,即一个完整数字长度计为1;
4.4、日期时间字符串以日期时间整体为统计单位,即一个完整日期时间串长度计为1;
4.5、标点符号与汉字统计规则一样,但是若相邻的若干个标点符号相同,则长度只计1。
6.根据权利要求1所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述步骤8中的逻辑链接块定义为:设某逻辑块中的链接数为Clink,逻辑块内各相邻链接之间的距离为若该逻辑块满足如下条件,则称该逻辑块为逻辑链接块;
C link > = C t max ( d i ) < d t
其中Ct为链接块中最小链接数,dt为链接之间所能允许的最大值。
7.根据权利要求6所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的逻辑块是由不少于一个相邻或相近的标签所构成的连续代码区域。
CN201410186981.3A 2014-05-05 2014-05-05 一种Web页面逻辑链接块的识别方法 Active CN103942332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410186981.3A CN103942332B (zh) 2014-05-05 2014-05-05 一种Web页面逻辑链接块的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410186981.3A CN103942332B (zh) 2014-05-05 2014-05-05 一种Web页面逻辑链接块的识别方法

Publications (2)

Publication Number Publication Date
CN103942332A true CN103942332A (zh) 2014-07-23
CN103942332B CN103942332B (zh) 2017-02-22

Family

ID=51190000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410186981.3A Active CN103942332B (zh) 2014-05-05 2014-05-05 一种Web页面逻辑链接块的识别方法

Country Status (1)

Country Link
CN (1) CN103942332B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708828A (zh) * 2015-07-31 2017-05-24 北京国双科技有限公司 友情链接的获取方法和装置
CN106776886A (zh) * 2016-11-29 2017-05-31 中国农业银行股份有限公司 一种网页页面正文内容抽取方法及装置
CN109726612A (zh) * 2017-10-27 2019-05-07 北京搜狗科技发展有限公司 一种识别方法、装置和用于识别的装置
CN109740097A (zh) * 2018-12-29 2019-05-10 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708828A (zh) * 2015-07-31 2017-05-24 北京国双科技有限公司 友情链接的获取方法和装置
CN106776886A (zh) * 2016-11-29 2017-05-31 中国农业银行股份有限公司 一种网页页面正文内容抽取方法及装置
CN106776886B (zh) * 2016-11-29 2019-09-24 中国农业银行股份有限公司 一种网页页面正文内容抽取方法及装置
CN109726612A (zh) * 2017-10-27 2019-05-07 北京搜狗科技发展有限公司 一种识别方法、装置和用于识别的装置
CN109726612B (zh) * 2017-10-27 2021-04-16 北京搜狗科技发展有限公司 一种识别方法、装置和用于识别的装置
CN109740097A (zh) * 2018-12-29 2019-05-10 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法
CN109740097B (zh) * 2018-12-29 2020-09-08 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法

Also Published As

Publication number Publication date
CN103942332B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
Cai et al. Vips: a vision-based page segmentation algorithm
Sun et al. Dom based content extraction via text density
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
Weninger et al. CETR: content extraction via tag ratios
Kohlschütter et al. A densitometric approach to web page segmentation
CN102253979B (zh) 基于视觉的web页面萃取方法
CN104598577B (zh) 一种网页正文的提取方法
US20150067476A1 (en) Title and body extraction from web page
CN101515272B (zh) 提取网页内容的方法和装置
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
Manabe et al. Extracting logical hierarchical structure of HTML documents based on headings
Insa Cabrera et al. Using the words/leafs ratio in the DOM tree for content extraction
CN103942332A (zh) 一种Web页面逻辑链接块的识别方法
Joshi et al. Web document text and images extraction using DOM analysis and natural language processing
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN102207974A (zh) 一种上下文web页面合并方法
CN103455572B (zh) 获取网页中影视主体的方法及装置
CN104572874A (zh) 一种网页信息的抽取方法及装置
Hong et al. Automatic extraction of new words based on Google News corpora for supporting lexicon-based Chinese word segmentation systems
CN106649767A (zh) 一种网页信息抽取方法及装置
CN109740097A (zh) 一种基于逻辑链接块的网页正文抽取方法
CN103488743B (zh) 网页元素抽取方法和网页元素抽取系统
Kim et al. Main content extraction from web documents using text block context
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180723

Address after: 325000 Wenzhou City National University Science Park incubator, No. 38 Dongfang South Road, Ouhai District, Wenzhou, Zhejiang

Patentee after: WENZHOU UNIVERSITY OUJIANG COLLEGE

Address before: 325035 Wenzhou City National University Science Park incubator, No. 38 Dongfang South Road, Ouhai District, Wenzhou, Zhejiang

Patentee before: Wenzhou University

TR01 Transfer of patent right