CN103927397A - 一种基于区块树的Web页面链接块的识别方法 - Google Patents

一种基于区块树的Web页面链接块的识别方法 Download PDF

Info

Publication number
CN103927397A
CN103927397A CN201410185937.0A CN201410185937A CN103927397A CN 103927397 A CN103927397 A CN 103927397A CN 201410185937 A CN201410185937 A CN 201410185937A CN 103927397 A CN103927397 A CN 103927397A
Authority
CN
China
Prior art keywords
block
link
tree
node
chained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410185937.0A
Other languages
English (en)
Other versions
CN103927397B (zh
Inventor
谷琼
王贤明
朱莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Yunfu Technology Co.,Ltd.
Original Assignee
Hubei University of Arts and Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Arts and Science filed Critical Hubei University of Arts and Science
Priority to CN201410185937.0A priority Critical patent/CN103927397B/zh
Publication of CN103927397A publication Critical patent/CN103927397A/zh
Application granted granted Critical
Publication of CN103927397B publication Critical patent/CN103927397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于区块树的Web页面链接块的识别方法,并基于此提出链接块判别和评价指标,同时结合区块树提出正向链接块判别和逆向链接块判别两种基本的区块遍历和判别算法;正向判别法识别速度快,链接块粒度大,可用于对索引类型Web页面的分析及文本抽取应用中;逆向判别法能轻松灵活的控制链接块的粒度大小和数量规模,保障链接块的精细化和完整性,从而最终实现链接块对页面链接覆盖的全面性,该方法既可用于对链接块要求粒度细腻的场合,也可用于页面去噪、文本提取、页面抽取模板自动生成等场合;本发明所提出的区块树作为Web页面分析处理的基础,结合所提出两种遍历和判别法,可以广泛应用于Web数据预处理及数据挖掘等领域。

Description

一种基于区块树的Web页面链接块的识别方法
技术领域
本发明涉及Web页面重要性计算、Web页面去噪、主题相关链接块提取、web正文识别、Web页面正文抽取、细化搜索引擎处理单元粒度、海量Web数据预处理领域,具体的为一种基于区块树的Web页面链接块的识别方法。
背景技术
万维网是依赖链接所构建起来的一个庞大网络,链接是万维网的灵魂。万维网中的每一个网页,正是通过Web页面之间的链接最终构成了当今世界最为复杂的网络,网络爬虫也正是依靠Web页面之间的链接最终实现网络数据的爬取,Web页面的重要性也往往是通过链接分析而获得。Web页面中的链接数目往往在数十到几千之间,特别是在索引(目录)类型网页中,链接更是占据了近100%的比例。页面中的链接虽多,但在实际的应用中,网页中的链接却并不乱,网页设计者会根据链接的类型将其进行适当的分类并呈现为链接区块,例如广告链接块、顶部导航链接块、侧栏导航链接块、版权联系链接块、主题相关链接块等。链接的分块呈现体现了网页信息组织的结构性和逻辑性,并增强了网站用户的用户体验。Web页面链接块的准确识别,在Web页面重要性计算、Web页面去噪、主题相关链接块提取、web正文识别、Web页面正文抽取、细化搜索引擎处理单元粒度、提高网络爬虫爬取效率等海量Web数据预处理中有着极其重要的作用。
陈竹敏[1]对Web页面链接的研究按粒度将其分为四个粒度:站点(网站)粒度、页面(网页)粒度、网页块级(Page Block)粒度、链接粒度。站点粒度的链接研究主要包括网站影响力或重要性评价[2];页面粒度的典型研究如网页重要性研究,有代表性的算法为PageRank、HITS;块级粒度相关研究主要有辅助页面信息抽取、页面类型判断、页面重新排版布局[3]及主题爬行中的候选链接优先级计算[4],[5]等,此外也有研究人员提出基于块级粒度的PageRank等算法[6],Lin[7]将页面进行分块,将页面之间的链接转化为块之间的链接,并利用HITS算法计算各块的重要性;链接粒度的典型相关研究如主题爬虫中的候选链接优选,以防止爬取主题偏离并提高爬取效率。实际上,四个粒度往往并不是完全隔离,如熊忠阳[4]和黄仁[5]等采用网页分块以提高主题爬行效率。在上述四个粒度中,站点粒度过于粗糙,链接粒度则太过细致,页面粒度由于页面广告链接等各种非主题链接的日益多样化而变得极易受干扰,影响分析效果,这就决定了对块级粒度的链接研究具有特殊的意义。陈军[8]通过引入网页分块对Shark-Search算法进行改进,实验表明改进后的基于网页分块的算法比传统算法提升明显。
对链接块进行研究的一个重要前置内容即Web页面分块,对Web页面进行分块或抽取的方法众多,且划分标准并不统一。相关研究人员将Web页面的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类[9]。此外,Caponetti提出利用模糊神经网络实现页面分块的方法[10],Pasternack[11]提出MSS页面分割方法,经试验得到比VIPS[12]算法更好的结果。这些方法皆根据具体应用需求进行选择,且实际应用中一般都会综合使用多种方法,如Fan[3]先利用DOM进行分析得到所需节点,然后使用视觉特征进行优化所需文本;PETERS[13]先利用DOM对页面进行分块,然后使用机器学习的方法进行内容抽取;Mehta[14]同时利用视觉特征和内容信息对页面进行分割。虽然综合使用一般可以取得更好的效果,但是同时采用的方法越多,程序复杂性也将越高,并且面对海量而又复杂多样化的Web页面时程序健壮性更加脆弱。Web页面块的重要性研究也引起部分研究者的关注与重视,Song[15]基于页面布局和内容信息对页面块重要性进行了研究,Fersini[16]研究了页面Image块的重要性并基于此进行页面分类研究。
经过对早期文献中相关方法的分析总结可知,目前对Web页面链接块进行发现识别的最主要方法是基于标签树[4],[5],[17],[18],[19],[20],[21],[30],且标签树往往是基于DOM[22]构建的;其他各种方法往往是以HTML标签树或DOM为基础[23],[24],例如知名网页分块算法VIPS即是如此。但上述这些方法并非专为页面块级元素提取而设计,部分方法实现过于复杂,部分方法解析计算消耗过大,有些方法则效果欠理想。
对Web链接块的判别方法较为单一,主要考虑的指标即块中所包含的链接文本长度和所有文本长度的比值[5],[25],[26],或者块中非链接文本长度与文本长度的比值[27],通过比值与预先设定阈值的大小关系判断是否为链接块。其核心思想为:设某个待判定块中链接文本长度为Llink,所有文字长度为Ltotal,阈值为t(0≤t≤1),则可用如下表达式来进行判断:
m = L link L total ( 0 ≤ m ≤ 1 )
当m>=t时,则表明该块可能为链接块,否则可能为文本块。m值越大,表明为链接块的可能性越大。
上述判断思路存在以下五个突出问题:
一是仅考虑链接文本与所有文本的长度比值而忽略了块中文本的绝对长度,因为一部分网页中的主体文本块中存在相当篇幅的链接,这种情况尤其在部分链接资源分享类型网页中尤其普遍。
二是忽略了非链接文本的部分特性,如日期、数字、未加链接的信息来源标注文字、一些特殊符号等。而在很多的链接块中,链接前面或者后面都存在着大量的其他非链接内容如日期,这种现象对链接块的准确判别造成了极大的干扰。
三是该判别方法在全部文本长度不足够长时,对链接文本的长度极其敏感,即某个阈值在某些使用短链接文本的页面工作良好,但遇到使用长链接文本的页面时极有可能误判。不同网站或不同网页的链接文本长度差别较大是极其常见的现象,这给链接块的准确判断带来极大的不确定性,倘若链接文字变得更短,则很可能将该链接块误判为非链接块。
第四是由于分块问题导致的错误会影响链接块的准确判别,尤其容易把正文主体和链接块之间没有块级元素分隔而是处于同一块级元素节点的文本块判别为链接块,或者将链接块误判为主体文本中的非噪音链接。
第五是忽略了链接数。
针对上述方法的不足,曹冬林[28]依据链接文本与文本比值和文本量提出有效信息率Iv和有效信息总量It的概念,并基于此进行块类型判断。其核心思想表达为如下表达式:
I v = log 2 ( 2 - L link L total )
It=Iv×(Ltotal-Llink)
Iv越大且It越大则表明为链接块的可能性越小。该判别方法与上述第一个判别法的本质区别在于考虑了文本的总长度,而不仅仅是链接文本与文本的长度比值,从而也就意味着解决了上述所存在的五个问题中的第一个问题,但仍然没有考虑其他四个问题。此外,Zhang[29]则提出块类型判断的四个特征:HTML标签类型数、段落数、每段平均词语数、每段平均链接数。然后通过训练获取包含这四个特征值的向量,进而实现块类型判断,但面对纷繁复杂的网络,这里所设计的四个特征通用性欠佳。Vineel[30]还提出利用熵来辅助判断节点类型的方法。
参考文献:
[1]陈竹敏,马军,韩晓晖,等.面向主题爬取的多粒度URLs优先级计算方法[J].中文信息学报,2009,23(3):31–38.
[2]刘文云,翟羽佳,王文颖.基于链接分析法的高校图书馆网站影响力评价研究[J].情报科学,2013,31(06):99-102,106.
[3]FAN J,LUO P,LIM S H,et al.Article Clipper-A System for Web ArticleExtraction[C]//Proceedings of the17th ACM SIGKDD international conference on Knowledgediscovery and data mining.New York,USA:ACM Press,2011:743–746.
[4]熊忠阳,史艳,张玉芳.基于维基百科和网页分块的主题爬行策略[J].计算机应用,2011,31(12):3264–3267.
[5]黄仁,王良伟.基于主题相关概念和网页分块的主题爬虫研究[J].计算机应用研究,2013,30(8):2377–2380,2409.
[6]CAI D,HE X F,WEN J R,et al.Block-level link analysis[C]//Proceedings of the27th annualinternational conference on Research and development in information retrieval.New York,USA:ACM Press,2004:440–447.
[7]LIN S-H,CHU K-P,CHIU C-M.Automatic sitemaps generation:Exploring website structuresusing block extraction and hyperlink analysis[J].Expert Systems with Applications,2011,38(4):3944–3958.
[8]陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报(理学版)),2007,42(9):62–66.
[9]AL-GHURIBI S M,ALSHOMRANI S.A Comprehensive Survey on Web Content ExtractionAlgorithms and Techniques[C]//2013International Conference on Information Science andApplications(ICISA).IEEE,2013:1–5.
[10]CAPONETTI L,CASTIELLO C,P.Document page segmentation usingneuro-fuzzy approach[J].Applied Soft Computing,2008,8(1):118–126.
[11]PASTERNACK J,ROTH D.Extracting article text from the web with maximum subsequencesegmentation[C]//Proceedings of the18th international conference on World wide web.NewYork,USA:ACM Press,2009:971–980.
[12]Cai D,Yu S P,Wen J R,et al.VIPS:a vision-based page segmentation algorithm,MicrosoftTechnical Report,MSR-TR-2003-79,2003.
[13]PETERS M,LECOCQ D.Content extraction using diverse feature sets[C]//Proceedings of the22nd international conference on World Wide Web companion.Geneva,Switzerland:2013:89–90.
[14]MEHTA R R,MITRA P,KARNICK H.Extracting semantic structure of web documents usingcontent and visual information[C]//Special interest tracks and posters of the14th internationalconference on World Wide Web.New York,USA:ACM Press,2005:928–929.
[15]SONG R H,LIU H F,WEN J R,et al.Learning important models for web page blocks basedon layout and content analysis[J].ACM SIGKDD Explorations Newsletter,2004,6(2):14–23.
[16]FERSINI E,MESSINA E,ARCHETTI F.Enhancing web page classification throughimage-block importance analysis[J].Information Processing&Management,2008,44(4):1431-1447.
[17]AHMADI H,KONG J.User-centric adaptation of Web information for small screens[J].Journal of Visual Languages&Computing,2012,23(1):13–28.
[18]CAI R,YANG J M,LAI W,et al.iRobot:An intelligent crawler for Webforums[C]//Proceedings of the17th international conference on World Wide Web.2008:447–456.
[19]GUO Y,TANG H F,SONG L H,et al.ECON:An Approach to Extract Content from WebNews Page[C]//201012th International Asia-Pacific Web Conference.IEEE,2010:314–320.
[20]JI X W,ZENG J P,ZHANG S Y,et al.Tag tree template for Web information and schemaextraction[J].Expert Systems with Applications,2010,37(12):8492–8498.
[21]WONG T L,LAM W.An unsupervised method for joint information extraction and featuremining across different Web sites[J].Data&Knowledge Engineering,2009,68(1):107–125.
[22]W3C.Document Object Model(DOM)[S/OL].[2014-01-23].http://www.w3.org/DOM/.
[23]李志文,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853–859.
[24]M,PAN A,RAPOSO J,et al.Extracting lists of data records from semi-structuredweb pages[J].Data&Knowledge Engineering,2008,64(2):491–509.
[25]黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(z1):24–26,30.
[26]王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1–3,29.
[27]PRASAD J,PAEPCKE A.CoreEx:Content Extraction from Online NewsArticles[C]//Proceedings of the17th ACM Conference on Information and KnowledgeManagement.New York,USA:ACM Press,2008:1391–1392.
[28]曹冬林,廖祥文,许洪波,等.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282–1291.
[29]ZHANG Z X,ZHANG C,LIN Z Q,et al.Blog extraction with template-independentwrapper[C]//20102nd IEEE International Conference on Network Infrastructure and DigitalContent.Beijing,China:IEEE,2010:313–317.
[30]VINEEL G.Web page DOM node characterization and its application to pagesegmentation[C]//Proceedings of the3rd IEEE international conference on Internet multimediaservices architecture and applications.Piscataway,NJ,USA:IEEE Press,2009:325–330.
发明内容
本发明为了解决上述的技术问题,提出了一种基于区块树的Web页面链接块的识别方法。
本发明的技术方案是:一种基于区块树的Web页面链接块的识别方法,包括下述步骤:
步骤1:输入网页集合;
步骤2:对html网页文档进行预处理,包括去除脚本代码,并对HTML文档标签进行自动标签补全;
步骤3:用区块树的构建方法对HTML代码构建区块树;
步骤4:利用四个判别条件对区块树判断链接块;
定义如下概念:
链接文本:也称锚文本,即在Web页面的HTML代码中处于<a>和</a>之间的文本,不包含其间的非文本内容;
普通文本:也简称纯文本,即在HTML代码中,处于HTML标签区域之外、而又不在<a>和</a>之间的所有文本;
计算文本长度遵从如下规则:
①英文等字符以单词为统计单位,即一个单词长度计为1,如果若干个连续英文字符不构成单词,其长度也将计1;
②中文等字符以单个字为统计单位,即一个汉字长度计为1;
③数字以一个完整数字为统计单位,即一个完整数字长度计为1;
④日期时间字符串以日期时间整体为统计单位,即一个完整日期时间串长度计为1;
⑤标点符号与汉字统计规则一样,但是若相邻的若干个标点符号相同,则长度只计1。
链接块的描述和判别规则如下:
设区块树为p层,区块树中的区块数量为n,则各层区块数分别记为n1,n2,…,np,所以,区块元素记为其中m表示该区块元素在区块树中的层级,i表示该区块元素属于第m层的序号,则
设区块中链接数为普通文本的长度为链接文本长度为若该区块同时满足如下条件,则该区块称为链接区块,简称链接块;
CLink m i &GreaterEqual; T count LText m i < T ltext LText m i CLink m i < T tcRatio LLink m i LLink m i + LText m i &GreaterEqual; T laRatio
步骤5:若区块被判别为链接块,则将其加入到链接块列表中,否则舍弃,进而判断是否到了区块树的最后一个结点;若不是最后一个结点,则重复上述步骤4,直到最后一个结点,所有的区块树判别结束,则结束识别。
所述的步骤1中还包括如下步骤:
步骤1.1、编码识别:先获取网页编码格式UTF-8、GB2312;
步骤1.2、网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出起始位置和结束位置;
定义如下概念:
<a href="...">文字</a>
所述的起始位置是以字符“<”开始,以字符“>”为结束,且这两者之间并不存在字符“<”和“>”的字符串;
所述的结束位置是以字符“</”开始,以字符“>”为结束,且这两者之间并不存在字符“<”、“>”和“/”的字符串。
所述的步骤3中,区块树的构建包括如下步骤:
定义如下概念:
标签块:也称节点,即一个HTML标签所包含的所有内容。
区块:简称块,在HTML代码中,为通过block级标签或者等同作用的标签所界定的区域。区块树:一种以区块为构成单位,将Web页以类似标签树形式进行表达的树形结构。即在区块树中,其叶子节点都是区块元素,而不会将其继续细分为其他inline级元素;
步骤3.1:标签树中每个分支的非block级的叶子节点,将其逐个去除或者予以标记;
步骤3.2:在步骤3.1的基础上,经过一轮修剪后,将会出现新一轮的叶子节点;
步骤3.3:在步骤3.2的基础上,继续对这些叶子节点进行去除或者标记;
步骤3.4:重复步骤3.2和步骤3.3,上述过程持续进行,直至该标签树的所有叶子节点都是区块元素为止,最终仅剩下标注为Block的节点,即可完成区块树的构建。
所述的步骤4中,采用正向判别方法判断链接块,其判断准则为:
①从父节点往子节点方向、从上往下进行判断;
②若某个节点被判别为链接块,则其子节点及更深层次的节点都不再判断,但其兄弟节点仍需继续判断。
所述的步骤4中,采用逆向判别方法判断链接块,其判断准则为:
①从子节点往父节点方向、从下往上进行判断;
②当某个节点被判别为链接块,若当前区块链接数不超过阈值Tmark时,则仅标记当前节点为链接块;否则除了标记当前区块为链接块,还需要标记其所有直系父辈节点为“无需判别”状态,但旁系父辈节点仍需继续判断,兄弟节点也需继续判断;
③当某区块被判别为链接块时,将其所有子区块都标记为“无需判别”。
本发明的有益效果是:本发明提出了区块树及相关概念,并基于此提出链接块判别的若干指标和链接块研究的两项基本评价指标,同时结合区块树提出正向链接块判别和逆向链接块判别两种基本的区块遍历和判别算法。实验和分析表明:正向判别法识别速度快,链接块粒度大,可以应用于对索引类型Web页的分析研究;通过设置合适的正向判别开始层级参数m,也可以将其应用到Web页面文本抽取相关研究中。在逆向判别法中通过对链接块判别阈值Tcount和逆向标记阈值Tmark的调控,可以轻松灵活的控制链接块的粒度大小和链接块的数量规模,保障链接块的“精细化”和“完整性”,从而最终实现链接块对页面链接覆盖的“全面性”,在“精细化”、“完整性”和“全面性”三个方面取得平衡;该方法既可以应用在对链接块要求粒度细腻的场合,也可以应用在页面去噪、文本提取、页面抽取模板自动生成等场合。本发明所提出的区块树作为Web页面分析处理的基础,结合所提出两种遍历和判别法,可以广泛应用于Web数据预处理及数据挖掘等领域。
附图说明
图1是本发明的流程图;
图2是本发明的区块树的构建示意图;
图3是本发明的正向和逆向判别法示意图;
图4是本发明的Tmark的作用示意图;
图5是本发明的m对链接块识别影响-索引页柱状图;
图6是本发明的Tmark对链接块识别的影响-索引页柱状图;
图7是本发明的Tcount对链接块识别的影响-索引页柱状图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参照图1,本发明的流程图,一种基于区块树的Web页面链接块的识别方法,包括下述步骤:
步骤1:输入网页集合,其中,步骤1中包括如下步骤;
步骤1.1编码识别:先获取网页编码格式UTF-8、GB2312等;
步骤1.2网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出起始位置和结束位置;
定义如下概念:
<a href="...">文字</a>
所述的起始位置是以字符“<”开始,以字符“>”为结束,且这两者之间并不存在字符“<”和“>”的字符串;
所述的结束位置是以字符“</”开始,以字符“>”为结束,且这两者之间并不存在字符“<”、“>”和“/”的字符串。
步骤2:对html网页文档进行预处理,包括去除脚本代码,并对HTML文档标签进行自动标签补全;
步骤3:用区块树的构建方法对HTML代码构建区块树,其中,步骤3中包括如下步骤;
首先定义如下概念:
标签块:也可称节点,即一个HTML标签所包含的所有内容。在DOM树中恰好对应着一个节点的所有内容。标签块可用于在浏览器中呈现,或者其他作用。例如可能用于配合脚本在适当的时机才呈现,或者一直都处于隐藏状态。
区块:也可简称块,在HTML代码中,为通过block级标签或者等同作用的标签所界定的区域。区块既包含该区域中用于在浏览器中向浏览者呈现的内容,也包括不直接用于呈现而仅用于对呈现内容进行修饰控制的HTML等代码。虽然span属于inline级标签而不属于block级标签,但是可以通过CSS控制span的显示样式,将其转化为与block级标签具有相同的显示特性,对于类似这一类标签所界定的区域,也属于区块,这种现象在实际的Web页面中是存在的。目前关于Web页面分块研究的相关文献中,对这种由inline级标签转化而来的块鲜有提及。区块按照区块中内容形式可以粗略分为文本块、链接块及其他区块,若按照功能则一般可以分为菜单导航块,目录导航块、版权声明块、中心文本块、广告块、主题相关链接块等。
区块树:一种以区块为构成单位,将Web页以类似标签树形式进行表达的树形结构。即在区块树中,其叶子节点都是区块元素,而不会将其继续细分为其他inline级元素。
区块树的构建方式,可以是直接对Web页以任意可行的方式进行解析,这种方式相对标签树的解析更为快捷,但是这种解析一般难度较大,需要考虑Web标记中各种不规范性和复杂性;最为简单的一种方式即对标签树进行修剪操作,因为这样可以利用现成的标签树构建工具,减少工作难度,但该种方法效率并不高。
本发明利用自行实现的标签树,对于标签树中每个分支的非block级的叶子节点(即图2中标注为1的叶子节点),将其逐个去除或者予以标记,这样一轮修剪后,将会出现新一轮的叶子节点(即图中标注为2的节点),继续对这些叶子节点进行去除或者标记。上述过程持续进行,直至该标签树的所有叶子节点都是区块元素为止,最终仅剩下图中标注为Block的那些节点,这样即可完成区块树的构建,如图2所示。区块树比标签树更为简洁,在保留着Web页面的骨架结构的同时,块级粒度的元素也不会丢失太多的Web页面内容细节,基本可以满足常见的各类相关应用要求。
区块树的构建步骤:
步骤3.1:标签树中每个分支的非block级的叶子节点(即图2中标注为1的叶子节点),将其逐个去除或者予以标记;
步骤3.2:在步骤3.1的基础上,经过一轮修剪后,将会出现新一轮的叶子节点(即图中标注为2的节点);
步骤3.3:在步骤3.2的基础上,继续对这些叶子节点进行去除或者标记;
步骤3.4:重复步骤3.2和步骤3.3,上述过程持续进行,直至该标签树的所有叶子节点都是区块元素为止,最终仅剩下图中标注为Block的那些节点,这样即可完成区块树的构建。
步骤4:利用四个判别条件对区块树判断链接块;
定义如下概念:
链接文本:也可称锚文本,即在Web页面的HTML代码中处于<a>和</a>之间的文本。不包含其间的非文本内容,如不包含其中的HTML代码。
普通文本:也简称纯文本,即在HTML代码中,处于HTML标签区域之外、而又不在<a>和</a>之间的所有文本。
对于上述两种文本类型,其长度计算规则相同。但是在计算文本距离时,具体而言其长度计算遵从如下规则:
①英文等字符以单词为统计单位,即一个单词长度计为1,如果若干个连续英文字符不构成单词,其长度也将计1;
②中文等字符以单个字为统计单位,即一个汉字长度计为1;
③数字以一个完整数字为统计单位,即一个完整数字长度计为1,例如“例如“珠穆朗玛8848”的长度计为5,因为计算时不会把“8848”这个完整数字切分为“8”、“8”、“4”、“8”四个数字;
④日期时间字符串以日期时间整体为统计单位,即一个完整日期时间串长度计为1。但需要注意日期的多种可能的表达,如日期串中可能有“年”、“月”、“日”等字样,也可能没有;年月日三部分之间的顺序;年月日之间串接字符(-、\等)。例如“今天是2014年3月28日”的长度计为4。
⑤标点符号与汉字统计规则一样,但是若相邻的若干个标点符号相同,则长度只计1。
此外还有一些特殊情况:数字中的千分位分割符、英文中的连接符等。不过这些一般不会造成本质影响,故可不予考虑。
链接块的描述和判别规则:
基于前述所定义的概念和长度计算规则,给出链接块的描述和判别规则如下:
设区块树为p层,区块树中的区块数量为n,则各层区块数分别记为n1,n2,…,np,所以,区块元素记为其中m表示该区块元素在区块树中的层级(设区块树中body标签的层级为0),i表示该区块元素属于第m层的序号,则需要指出的是,在实际的链接块识别过程中,根据Web页面组织特点和实际需求,可以跳过某些层级的区块树,例如在本发明下文所述的正向判别算法中,可以将上文的m从2或3开始取值。
设区块中链接数为普通文本的长度为链接文本长度为若该区块同时满足如下条件,则该区块称为链接区块,简称链接块,并将这样的一组阈值条件设置记为S(Tcount,Tltext,TtcRatio,TlaRatio)。
CLink m i &GreaterEqual; T count LText m i < T ltext LText m i CLink m i < T tcRatio LLink m i LLink m i + LText m i &GreaterEqual; T laRatio
其中:Tcount为链接数阈值,Tltext为纯文本长度阈值,TtcRatio为文本长度与链接数比值阈值,TlaRatio链接文本长度与文本长度比值阈值,且0≤TlaRatio≤1。上述四个阈值可以由领域专家根据经验和具体应用需求和场合确定,也可以根据实际应用需求和场合利用机器学习相关理论和方法在监督或者无监督的条件下通过学习而确定,并且,在应用过程中可以根据具体情况对其中的部分条件进行弱化或者舍弃。
显然,Tcount≥1,在链接块判别过程中,若是基于标签树进行链接块识别,则该值一般应该设置为3甚至更大,若是基于区块树进行则一般可以设置为2或者3,甚至设置为1亦可;该值越大,链接块的判别越严格,反之则越宽松。Tltext是一个链接块所能容忍的最大纯文本长度,既可以设定为一个定值,也可以设定为一个不定值,例如可以设定其中为人工确定的阈值。可根据具体要求选择,但是无论如何设定,单一的判别指标都不免误判。Tltext与TtcRatio关系极为密切,在很多情况下,仅考虑后者即可,但是在某些情况也得考虑前者。TlaRatio越大,则链接块的判别越严格,反之则越宽松。TtcRatio越小则链接块的判别越严格,反之则越宽松;当该值取1时,意味着只有纯粹的链接块,即只有链接文本而无纯文本的区块才可成为链接块,当该值取0时,则意味着该区块是纯粹的文本块,即链接数为0。可见,通过调整上述四个阈值,则可以初步实现文本块的识别。对介于文本块和链接块之间的区块,则统称为其他区块。
链接块的发现过程,也即Web页面的分块及判别过程。Web页面的分块方法较多,但其中最为成熟、影响最为广泛的方法是基于标签树的方法。本发明结合标签树阐述区块树的构建,基于区块树对链接块的识别流程如图1所示。本发明基于区块树提出链接块发现的两种算法思路,分别命名为正向链接块发现算法(Forward Algorithm for Discovery of Link Block,下文简称“正向方法”)、逆向链接块发现算法(Backward Algorithm for Discovery of Link Block,下文简称“逆向方法”),见图3,椭圆代表节点。该处节点即对应上文的区块,若将其视为标签块,同样可行,但是inline级别的标签块不可能成为链接块,故在实际中,若只判断区块则算法效率将大大提升,两种方式的结果一样。
采用正向判别算法时,其判断准则为:
①从父节点往子节点方向、从上往下进行判断。
②若某个节点被判别为链接块,则其子节点及更深层次的节点都不再判断,但其兄弟节点仍需继续判断。可见,正向算法的判断的准则是尽可能“粗略”。
例如,若图3中A为链接块,则其他节点都无需判断;若C为链接块,则判别路径为A→B→C,此后不再判断;若A、C均非链接块,则判别路径为A→B→C→D→E→F。另外,在实际过程中,可以根据具体需要选择判断的开始层级,例如若希望结果稍微精细,则对区块树层次较深的Web页,可以选择从区块树的较深层次节点开始进行,而对区块树层次较浅的Web页,则从区块树的较浅层次节点开始进行。将链接数阈值Tcount、纯文本长度阈值Tltext、文本长度与链接数比值阈值TtcRatio、链接文本长度与文本长度比值阈值TlaRatio等四个阈值条件与本判别法中的开始层级m合并记为S(Tcount,Tltext,TtcRatio,TlaRatio,m)。
采用逆向判别算法时,其判断准则为:
①从子节点往父节点方向、从下往上进行判断。
②若某个节点被判别为链接块,则需分两种情况处理:若当前区块链接数不超过某个阈值Tmark时,则仅标记当前节点为链接块;否则除了标记当前区块为链接块,还需要标记其所有直系父辈节点(如图3中节点F的直系父节点为C,直系祖父节点为A)为“无需判别”状态(实际实现时,可以定义0为初始状态、1为链接块、-1为非链接块、2为无需判别),但旁系父辈节点(如图3中节点B是节点D、E、F的旁系父节点)仍需继续判断,兄弟节点也需继续判断。
③当某区块被判别为链接块时,将其所有子区块(包括早期可能已被标记为链接块的那些子区块)都标记为“无需判别”;该策略主要目的在于最终获得的链接块均是独立链接块,即任意两个链接块之间无交集。可见,逆向算法的判断的准则是尽可能“精细”。例如,若F为链接块,且其中所含链接数大于Tmark,则判断路径为F→标记C、A状态为“无需判别”→E→D→B;若F、E、D、C、B均非链接块,则判断路径为F→E→D→C→B→A。由于上文Tmark决定着是否根据当前区块情况来标记其父区块,故称之为“逆向标记阈值”,逆向标记阈值在保障链接块的“精细化”、“完整性”和“全面性”方面起着重要作用,如图4所示是一种在实际Web页中大量存在的一种结构,在区块元素Block1内包含两个子区块元素Block2和Block3和一个非区块元素Element4,它们所包含的链接数已标注于图中,Link代表链接数。若设Tcount=2,则Block2将被识别为链接块,此时Block1被标记为无需判断,而Block3和Element4则被遗漏;倘若引入逆向标记阈值并设Tmark=4,则Block2起始时仍将标记为链接块,但由于其链接数小于Tmark,故其父块Block1不会被标记,这样Block1将会被判断为链接块,且Block2会被重新标记为“无需判断”状态,这样最终结果也将获得一个链接块,即Block1,链接块的完整性被得到维持。将上文中的四个阈值条件与本判别法中的逆向标记阈值Tmark合并记为S(Tcount,Tltext,TtcRatio,TlaRatio,Tmark)。在逆向判别法中不考虑层级问题。
步骤5、若区块被判别为链接块,则将其加入到链接块列表中,否则舍弃,进而判断是否到了区块树的最后一个结点;若不是最后一个结点,则重复上述步骤4,直到最后一个结点,所有的区块树判别结束,则结束识别。
链接块识别的评价指标:
由于链接块的识别与多种因素相关:链接块识别分析的目的、链接块粒度要求、区块树构建的合理性与准确性、原始Web页代码规范性、原始Web页设计规范性等等。代码错误、嵌套凌乱、设计拙劣的Web页面是难以实现绝对准确的自动化解析其标签树或者区块树的,这一点不难从目前各知名浏览器对同一Web页面经常作出不同的呈现这一现象得到印证。事实上无论是不知名的小网站,还是由大公司维护的门户网站,里面都充斥着各种错误代码,诸如标签不嵌套、标签交错、标签不封闭及其他多种千奇百怪的错误比比皆是。若Web页面代码规范,或者能够正确的自动修正代码中的错误,则标签树或者区块树可以正确的构建,这种情况下的链接块基本可以维持100%的识别率。然而不同的链接块识别目的下,往往有不同的链接块粒度要求,所以难以给定一个普适的评价标准,具体的评价标准应依具体目的而定。若仅仅从导航的目的来说,可以将其整体作为1个链接块即可;若需要链接块粒度稍微“细腻”,则也可以将其分割为上下2个链接块;但若要求对链接块的划分更细致,则可以将其划分为5个链接块(上部1个,下部4个)。此外,若链接块识别分析的目的还涉及到提取特定链接块(例如Web页面中的与主题内容相关链接、广告链接等)、以链接块识别辅助文本块识别提取、以链接块计算Web页面重要性或权威程度、以链接块计算页面之间相关性等等,在这些不同目的下,对链接块的划分粒度不尽相同。
鉴于上述目的,本发明提出两个更为通用性的链接块识别分割评价指标,分别称为链接覆盖率(Link Coverage Rate,LCR)和代码覆盖率(Code Coverage Rate,CCR)。
链接覆盖率 LCR = C BlockLinks C PageLinks , 代码覆盖率 CCR = L Block L Page
其中,表示包含在所识别的链接块中的链接总数,未被标记为链接块的区块链接数计0,CPageLinks则指Web页面中的链接总数;表示所识别的链接块代码长度总和,未被标记为链接块的区块长度计0,LPage表示Web页面代码长度。在文本块识别抽取过程中,代码覆盖率可以用于评价噪声去除效率。需要指出:本发明所提出的上述指标只是评价链接块的两个最基本指标,在具体的应用时,应该确定更为具体、针对性更强的评价指标。
用下标m、r、a分别代表人工筛选数据、随机抽取数据和包括合并了人工筛选和随机抽取的所有数据。
则有:LCRm即人工筛选数据的链接覆盖率;
LCRr即随机抽取数据的链接覆盖率;
LCRa即合并人工筛选和随机抽取的数据的链接覆盖率;
CCRm即人工筛选数据的代码覆盖率;
CCRr即随机抽取数据的代码覆盖率;
CCRa即合并人工筛选和随机抽取的数据的代码覆盖率;
需要说明的是,理论上,若某个节点是链接块,并不能推断出其父节点是否为链接块,同样也不能推断出其子节点中是否为存在链接块。但实际上,若某个节点为链接块,则其一般至少存在一个子节点为链接块。另外,若某个节点的子节点均为链接块,则该节点也应是链接块;若某个节点的子节点均不是链接块,则该节点也不应是链接块。但若阈值设置不合理,则可能导致这两种情况都不成立。
本发明所提出的两种遍历算法是两种最为基本的遍历方式,也将成为各种改进方法和各种基于Web信息处理方法的基石。倘若上述两种遍历法都只考虑判断准则①,则最终两种算法将具备异曲同工之效,同时根据应用场景的不同而要处理的诸多繁琐细节也将有所不同。
链接块在Web页面中起着至关重要的作用,且往往根据功能而进行模块划分,从而给用户提供最佳的用户体验或者给运营者提供最大的运营价值。对网站运营方而言,各个链接块都有其各自的存在价值,而对各种不同需求的用户(用户不一定狭隘的只是指代人,也有可能是运行在网络上的各种应用)而言,有些链接块极具价值,如基于链接块而改造的PageRank、HITS算法,而其他一些链接块则成为噪声。
实验设计及结果分析
实验目的
下述实验的目的是验证并比较本发明所提出的两种链接块发现算法的有效性,在区块的基础上利用上述链接块判别法进行判别并验证其有效性,根据实验结果对分析总结了两种算法的特点,并对其各自的典型应用做了简要的分析说明。
实验方案
本发明实验原始Web页面由程序采集,最终实验数据为582条,由两部分构成:人工筛选280篇、随机抽取302篇。其中人工筛选的Web页面数据来自于5家国内知名门户:网易、新浪网、中国新闻网、中华网、凤凰网,每个门户站点均选取16个索引页(即门户首页或者各子频道首页)和40个内容页;随机抽取的页面中含有46个索引页和256个内容页。在筛选内容页时,尽量使得选择的页面涵盖多种类型,如既有长篇幅的页面也有短篇幅的页面、既有纯文字页面也有视频图片页面。
由于涉及到的参数较多,限于篇幅无法对所有的参数组合的实验数据进行分析,故本发明仅挑选如下三组实验。
三组实验均是利用正向判别法和逆向判别法对上述数据进行实验分析,统计两种算法下所获取的链接块数目及链接块中所包含链接的覆盖率。第一组实验是在正向判别法下,通过调整正向判别的开始层级m,设置的10组参数为:S(2,0,15,0.15,1),S(2,0,15,0.15,2),…,S(2,0,15,0.15,10)。在逆向判别法下,主要通过调整Tcount和Tmark,试验各参数对实验的影响。其中第二组针对Tmark的10组实验参数为:S(2,0,15,0.15,2),S(2,0,15,0.15,4),…,S(2,0,15,0.15,20);第三组针对Tcount的10组实验参数为:S(1,0,15,0.15,10),S(2,0,15,0.15,10),…,S(10,0,15,0.15,10)。上述第二个参数设置为0表明在判别中对该参数不予考虑。
需要指出的是,下文图表中的数据均是取平均值,在实际试验过程中发现也有不少Web页面相关指标与平均值存在较大偏差,例如博客中国(www.blogchina.com)虽属于随机抽取的数据组,但链接数方面它并不比人工数据组中的页面链接数少,相反却远多于知名的门户网站首页所含的链接数,其他方面的反例也很多。
实验结果与分析
正向判别中m对链接块识别的影响
正向判别中m的取值在一定程度上决定着链接块的粒度,同时也是从侧面反映了Web页面信息组织的宏观层次结构。m值越小,意味着判别得到的链接块层级将尽可能的低,也即链接区块更大。相应的,该链接块在区块树中越接近区块树的根部,它包含更多子链接区块的可能性也更大,包含的子链接块数目也将更多。可以想象,在Web页面链接总数一定的情况下,链接块粒度越大,总的链接块数将越小;反正粒度越小,总的链接块将越多。不过由于Web页面链接块并非处于同一层级,往往根据页面信息组织安排的需要进行着适当嵌套;并且在实际的Web页面中,虽然对嵌套层次并无统一的规定和限制,但是实际上也不存在着极其深的嵌套,Web页面的所有链接正是分布在这些不同的嵌套层次中。当m值越小,所获取的链接块将更大,链接块数目将越小;随着m的增大,链接块逐渐减小,链接块的数目将逐渐增多;与此同时,m的增大,也将导致处于[1,m-1]层级区间中的链接被遗漏,所以这也就决定了当m增大到一定程度时,链接块的数目将减小,而链接块中链接的数目也将减小,即链接块趋于“精细化”。这一点与实验结果一致。
从图5中可见:
①当m=1时,链接块的数目很小,一般在10以下,这就表明,Web页的信息组织的过程中,浅层组织较为简单,这与实际情况基本一致。在实际的Web页面中,顶部是网站标题Logo块(例如含网站Logo、设为首页、加入收藏、顶部广告等)、其下面是菜单导航块,底部版权声明块(如版权声明、联系信息、备案信息、网站统计信息等)、而中部则根据网站规模的不同将有不同的区块。
②链接块的峰值出现在m=5,高位区间是[4,8]。这表明,Web页面中的链接块更多的分布在区块树的第4层至第8层,尤其以5、6层最多。
③链接覆盖率和代码覆盖率均随着m的增大而降低,即随着m的增大,被遗漏的链接数将会越来越多,相应的链接覆盖率和代码覆盖率也将下降。且从m=6开始,链接覆盖率和代码覆盖率都在50%以下,从m=10开始,链接覆盖率和代码覆盖率基本都处于20%以下。这也就表明,Web页面中有近一半的链接在区块树第6及更深的层级,而当达到区块树第10层时,链接数将只有页面链接总数的20%以下;而又因为所处层级越深的链接块往往也将更“精细”,更“纯粹”,无关的干扰信息更少。从此可以推测,对大多数大型网站而言,若希望获得较为精细的链接块,从区块树第6层左右开始判别将会是个不错的选择;反之若希望获得大小适中的链接块,则可以选择在区间[3,5]之中进行。
④人工组Web页面的链接块明显高于随机组,但链接覆盖率和代码覆盖率则相差无几。这也就意味着,人工组所选择的的门户网站Web页面比随机组中的更大,更复杂,含有的链接信息更丰富,这是由门户网站的定位所决定的,它们需要展示的信息远远多于一般的地方门户、学校、政府、企业等。链接覆盖率和代码覆盖率的无差异性则说明了无论Web页面的复杂性或大小如何,其宏观结构和对信息的组织规律却是基本固定的。
另外,针对内容页的实验结果同样验证了上述结论,不过与索引页不同的是,针对内容页的数据表明:
①内容页中的链接块数目远小于索引页,只有索引页链接数的约1/3左右。这是显而易见的,内容页中部是用来组织大量文本信息的。
②内容页中的链接块高位区间为[3,7],与索引页有所偏离,这是由于内容页中部为文本块所致。从此也可以推断,索引页比内容页的链接块分布偏深一些正是由于索引页中部大篇幅的链接块所致,因为索引页与内容页往往在顶部和底部是差别不大甚至是一样的。
③内容页数据的链接覆盖率和代码覆盖率曲线不及索引页平滑。这是由于内容页中包含大量的文本,而文本所在的嵌套层次往往较深,在层级变动时,大篇幅的文本块使得这种变动不再“连续”,而是“跳跃式”或者“离散”的。对于包含短文本的内容页而言,其变化与索引页类似,表现为光滑递减曲线。
④由于在内容页中,页面的文本内容往往嵌入在较深的层次,这也就意味着,当从文本内容所在区块的层级逐渐往浅层扩展时,文本与链接在量上的博弈将是文本逐渐走向弱势,并最终可能在某一层次上变得微乎其微。而正向判别法的判别方向是从浅到深,也即区块的从大到小,这就决定了倘若开始层级m设置的偏小,则将导致文本块被淹没在链接之中,从而导致将同时含有大量链接和文本的混合区块被判别为链接块。实验数据证实了这一点,并且经实验发现,当m取1或2时,文本块被误判的可能性极大,而当m=3时,这一状况得到改观,常规篇幅的文本都能被正确的得到分离。
正向判别的优势在于:由于其获得的链接块往往较为“粗糙”,所以无需遍历整个区块树的所有节点,只需要在区块树的浅层遍历即可,其速度很快。虽然可以通过增大开始判别的层级m,但是不同的Web页面宏观嵌套深度不同,无法确定一个普适的m值,这也就决定了若希望获得较为精细的链接块,不宜采取正向判别策略。
逆向判别中逆向标记阈值Tmark对链接块识别的影响
按照常规的方法进行链接块判别时,若链接块判别阈值Tcount设置过大,则会遗漏较小的链接块;而若将Tcount设置过小,则又可能将本应作为一个链接块的若干链接切分到若干个小链接块中,同时遗漏部分链接,破坏了链接块的完整性。Tmark正是为了同时保障链接块的精细和完整而设置,Tmark的引入,将可以更好的维持链接块本身的完整性,也即遗漏的链接数将会减少。Tmark的值越大,表明对链接块大小的容忍度越大,那些处于相对较为零散状态的链接更有可能被纳入链接块的范畴,而且经过实际的观察,这些链接的确不应该排除在链接块之外,例如图4中的Element4正是这么一类链接对象。实验证实了Tmark的这一兼顾精细化和完整性的双重功能。
从图6可见:
①与正向判别法相比,在逆向判别法下,链接块的数目显著增多。例如当Tmark=4时,链接块数目是正向判别下峰值下的约2倍。这一现象充分证实了Tmark的引入,很好的解决了链接块的“精细化”特性。
②逆向判别法下,链接覆盖率基本一直维持在高位水平,这也就意味着,逆向判别下的链接块能够囊括几乎所有的链接,将所有的链接都纳入到相应的链接块中,这证实了Tmark具备保障链接块“完整性”的功能,正是由于这种“完整性”的链接块,才构筑了链接覆盖的“全面性”。这正是在实际中所需要的,因为在Web页中,不隶属与任何链接块而真正孤立的链接数量是极其少的。
③随着Tmark的增大,链接覆盖率和代码覆盖率都有明显上升,其中尤以代码覆盖率的增大更为显著。分析表明,引起这一现象的原因是:在实际的Web页中,链接并不是以简单的“<a href=…>…</a>”这种方式呈现,而往往还可能包含着大量的CSS、Javascript、图片等等“修饰”因素,同时在其周边还有更多的其他外围容器及修饰代码,这些内容从长度上看相当可观。随着所涵盖链接数增多的同时,这些修饰和外围代码也在增加并且增长的势头更为强劲,这正是代码覆盖率曲线比链接覆盖率曲线更陡的原因。
④随着Tmark的增大,与链接覆盖率和代码覆盖率的增长相反,链接块数却呈现下降趋势。这主要是由于Tmark的增大,使得对大链接块的容忍度变大所致,链接块逐渐从“精细化”向“粗略化”过渡。
⑤人工数据与随机数据仅在链接块数量上有区别,在变化趋势及链接覆盖率和代码覆盖率方面基本相同,这表明了链接覆盖率和代码覆盖率与Web页面大小的无关性。
对内容页的相关实验数据同样证实了上述结论。差异主要表现在内容页下的链接块数目相对少很多。另外,与正向判别法相比,逆向判别法对文本块的定位基本维持在90%以上的正确性,这表明了逆向判别法在文本块的判别和抽取中具备很好的潜力。
逆向判别中Tcount对链接块识别的影响
与Tmark的作用类似,Tcount同样具备调控“精细化”和“完整性”的功能,只是随着Tcount的增大,却表现出与Tmark相反的作用。如果说Tmark决定了逆向判别对于大链接块的容忍程度,那么Tcount则决定了逆向判别对于小链接块的容忍程度,即至少需要包含多少链接才有资格被认定为链接块。由此可以推断,随着Tcount的增大,对小链接块的容忍程度逐渐降低,越来越多的小链接块被忽略,其最终结果就是链接块数的减少、链接覆盖率和代码覆盖率的降低。这与实验结果一致,如图7所示。
内容页的相关实验结果与索引页一致。不过在内容页中由于文本数据的存在并且不同Web页面中文本量的差异性,导致了链接覆盖率和代码覆盖率曲线存在一定的差异,这种差异主要是数值方面的,而非趋势上的。
需要指出的是,Tcount和Tmark是协同工作的,通过同时将两者调整至一个合理的数值,可能更好的同时兼顾链接块对页面链接的覆盖面(即全面性)和链接块的细腻性(即精细化)。当然也可以根据具体要求,将其调配到一个合理的精细程度,而上面的实验数据表明,充分利用Tcount和Tmark,是可以方便的调控链接块粒度的,从而满足各种不同的应用需求。
同一域下的链接块及相关特性
在实验数据中,有一部分内容页是人工从国内若干门户挑取的,经过对这些处于同一域下的Web页链接块判别结果进行分析,我们发现:在同一域下的同类型Web页(如news.163.com下的文本内容页面)虽然拥有的链接数量一般不同,但拥有的链接块数量却基本完全相同,链接覆盖率也相差无几,代码覆盖率则可能存在着明显差异。分析表明,引起这一现象的原因在于:同一域下的Web页面拥有相同的宏观结构及基本相同的嵌套层次,这也就决定了链接块数目的相同或相近。虽然各个Web页面由于文本块中所含链接数不同而导致链接总数不同,但由于这部分链接数相比于其他部分而言显得微乎其微,这就是虽然链接数不同而链接覆盖率却很接近的原因。代码覆盖率则受文本量的影响显著,不同的文本量将导致代码覆盖率的不同。
另外,我们还发现:倘若将同一域下的同类型Web页中的链接块都去除,然后将文本也去除,最终剩下的框架式内容基本一样,这也正是很多基于模板的Web页面数据抽取分析中的模板原型,对其稍作处理,即可成为抽取模板。并且由于链接块分析的自动化,表明本发明所提出的链接块识别为Web页面信息抽取模板自动化生成提供了一种新的途径。
正向判别方法与逆向判别方法的比较
正向判别法与逆向判别法的最大的区别在于对区块树各节点的判别方向相反,而正是这一区别导致了两种方法在链接块粒度上的显著差异,从而也导致了两种判别法的应用场景不同。在正向判别下,可以通过增大正向判别中的开始层级m来减小正向判别结果链接块的粒度;在逆向判别下,可以通过增大Tcount和Tmark来增大判别结果链接块的粒度。虽然看似能够通过上述调整来弱化两种方法的这种差异,但是面对日益纷繁复杂的网页,调整m的方式作用极其有限,且存在遗漏链接的缺陷;而逆向判别在这种需求下则显得格外灵活可控,且效果良好。在运算速度方面,正向判别由于需要判别的节点都接近于区块树的根部,层次较浅,从而数量也远小于逆向判别所判别的主要对象——区块树的叶子节点,这也决定了正向判别的速度远快于逆向判别;并且在逆向判别中由于Tmark的引入,在增强链接块粒度控制灵活性的同时,也导致了部分链接块的二次标记问题,这也将对速度产生一定的影响,不利于在实时性要求较高的场合应用。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其它的任何未违背本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于区块树的Web页面链接块的识别方法,其特征在于,包括下述步骤:
步骤1、输入网页集合;
步骤2、对html网页文档进行预处理,包括去除脚本代码,并对HTML文档标签进行自动标签补全;
步骤3、用区块树的构建方法对HTML代码构建区块树;
步骤4、利用四个判别条件对区块树判断链接块;
定义如下概念:
链接文本:也称锚文本,即在Web页面的HTML代码中处于<a>和</a>之间的文本,不包含其间的非文本内容;
普通文本:也简称纯文本,即在HTML代码中,处于HTML标签区域之外、而又不在<a>和</a>之间的所有文本;
计算文本长度遵从如下规则:
①英文等字符以单词为统计单位,即一个单词长度计为1,如果若干个连续英文字符不构成单词,其长度也将计1;
②中文等字符以单个字为统计单位,即一个汉字长度计为1;
③数字以一个完整数字为统计单位,即一个完整数字长度计为1;
④日期时间字符串以日期时间整体为统计单位,即一个完整日期时间串长度计为1;
⑤标点符号与汉字统计规则一样,但是若相邻的若干个标点符号相同,则长度只计1;
链接块的描述和判别规则如下:
设区块树为p层,区块树中的区块数量为n,则各层区块数分别记为n1,n2,…,np,所以,区块元素记为其中m表示该区块元素在区块树中的层级,i表示该区块元素属于第m层的序号,则
设区块中链接数为普通文本的长度为链接文本长度为若该区块同时满足如下条件,则该区块称为链接区块,简称链接块;
CLink m i &GreaterEqual; T count LText m i < T ltext LText m i CLink m i < T tcRatio LLink m i LLink m i + LText m i &GreaterEqual; T laRatio
步骤5、若区块被判别为链接块,则将其加入到链接块列表中,否则舍弃,进而判断是否到了区块树的最后一个结点;若不是最后一个结点,则重复上述步骤4,直到最后一个结点,所有的区块树判别结束,则结束识别。
2.根据权利要求1所述的一种基于区块树的Web页面链接块的识别方法,其特征在于:所
述的步骤1中还包括如下步骤:
步骤1.1、编码识别:先获取网页编码格式UTF-8、GB2312;
步骤1.2、网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出起始位置和结束位置;
定义如下概念:
<a href="...">文字</a>
所述的起始位置是以字符“<”开始,以字符“>”为结束,且这两者之间并不存在字符“<”和“>”的字符串;
所述的结束位置是以字符“</”开始,以字符“>”为结束,且这两者之间并不存在字符“<”、“>”和“/”的字符串。
3.根据权利要求1所述的一种基于区块树的Web页面链接块的识别方法,其特征在于:所述的步骤3中,区块树的构建包括如下步骤:
定义如下概念:
标签块:也称节点,即一个HTML标签所包含的所有内容;
区块:简称块,在HTML代码中,为通过block级标签或者等同作用的标签所界定的区域;区块树:一种以区块为构成单位,将Web页以类似标签树形式进行表达的树形结构,即在区块树中,其叶子节点都是区块元素,而不会将其继续细分为其他inline级元素;
步骤3.1、标签树中每个分支的非block级的叶子节点,将其逐个去除或者予以标记;
步骤3.2、在步骤3.1的基础上,经过一轮修剪后,将会出现新一轮的叶子节点;
步骤3.3、在步骤3.2的基础上,继续对这些叶子节点进行去除或者标记;
步骤3.4、重复步骤3.2和步骤3.3,上述过程持续进行,直至该标签树的所有叶子节点都是区块元素为止,最终仅剩下标注为Block的节点,即可完成区块树的构建。
4.根据权利要求1所述的一种基于区块树的Web页面链接块的识别方法,其特征在于:所述的步骤4中,采用正向判别方法判断链接块,其判断准则为:
①从父节点往子节点方向、从上往下进行判断;
②若某个节点被判别为链接块,则其子节点及更深层次的节点都不再判断,但其兄弟节点仍需继续判断。
5.根据权利要求1所述的一种基于区块树的Web页面链接块的识别方法,其特征在于:所述的步骤4中,采用逆向判别方法判断链接块,其判断准则为:
①从子节点往父节点方向、从下往上进行判断;
②当某个节点被判别为链接块,若当前区块链接数不超过阈值Tmark时,则仅标记当前节点为链接块;否则除了标记当前区块为链接块,还需要标记其所有直系父辈节点为“无需判别”状态,但旁系父辈节点仍需继续判断,兄弟节点也需继续判断;
③当某区块被判别为链接块时,将其所有子区块都标记为“无需判别”。
CN201410185937.0A 2014-05-05 2014-05-05 一种基于区块树的Web页面链接块的识别方法 Active CN103927397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410185937.0A CN103927397B (zh) 2014-05-05 2014-05-05 一种基于区块树的Web页面链接块的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410185937.0A CN103927397B (zh) 2014-05-05 2014-05-05 一种基于区块树的Web页面链接块的识别方法

Publications (2)

Publication Number Publication Date
CN103927397A true CN103927397A (zh) 2014-07-16
CN103927397B CN103927397B (zh) 2017-02-22

Family

ID=51145616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410185937.0A Active CN103927397B (zh) 2014-05-05 2014-05-05 一种基于区块树的Web页面链接块的识别方法

Country Status (1)

Country Link
CN (1) CN103927397B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808254A (zh) * 2016-03-07 2016-07-27 四川长虹电器股份有限公司 一种把任意块元素转为侧滑按钮的方法
CN106598579A (zh) * 2016-12-06 2017-04-26 北京果仁宝科技有限公司 区块链上集成动态类型编程语言方法和装置
CN106897351A (zh) * 2016-12-29 2017-06-27 北京瑞卓喜投科技发展有限公司 有向无环图型区块链的生成方法及系统
CN107508705A (zh) * 2017-08-21 2017-12-22 北京蓝海讯通科技股份有限公司 一种http元素的资源树构建方法及计算设备
WO2018024061A1 (zh) * 2016-08-02 2018-02-08 华为技术有限公司 一种共享数字内容的许可证的方法、装置及系统
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108804084A (zh) * 2018-05-23 2018-11-13 夏文斌 一种全局区块链环境构建方法
CN109104413A (zh) * 2018-07-17 2018-12-28 中国科学院计算技术研究所 用于安全多方计算的私有数据求交集的方法及验证方法
CN109154885A (zh) * 2016-03-21 2019-01-04 澳大利亚国家Ict有限公司 区块链平台上的业务处理执行
CN109740097A (zh) * 2018-12-29 2019-05-10 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法
CN109885794A (zh) * 2019-01-24 2019-06-14 曲阜师范大学 基于区块链的循环式同步更新网页的处理方法
CN110169013A (zh) * 2016-12-21 2019-08-23 区块链控股有限公司 用于在区块链上实现复杂功能性同时保留对脚本大小和操作码限值的基于安全性限制的计算机实现的系统和方法
CN111061975A (zh) * 2019-12-13 2020-04-24 腾讯科技(深圳)有限公司 一种页面中无关内容的处理方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302486A1 (en) * 2010-06-03 2011-12-08 Beijing Ruixin Online System Technology Co., Ltd Method and apparatus for obtaining the effective contents of web page
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN102810097A (zh) * 2011-06-02 2012-12-05 高德软件有限公司 网页正文内容提取方法及装置
CN103064827A (zh) * 2013-01-16 2013-04-24 盘古文化传播有限公司 一种网页内容抽取的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302486A1 (en) * 2010-06-03 2011-12-08 Beijing Ruixin Online System Technology Co., Ltd Method and apparatus for obtaining the effective contents of web page
CN102810097A (zh) * 2011-06-02 2012-12-05 高德软件有限公司 网页正文内容提取方法及装置
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN103064827A (zh) * 2013-01-16 2013-04-24 盘古文化传播有限公司 一种网页内容抽取的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王少康等: "使用特征文本密度的网页正文提取", 《计算机工程与应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808254A (zh) * 2016-03-07 2016-07-27 四川长虹电器股份有限公司 一种把任意块元素转为侧滑按钮的方法
CN105808254B (zh) * 2016-03-07 2019-01-15 四川长虹电器股份有限公司 一种把任意块元素转为侧滑按钮的方法
CN109154885A (zh) * 2016-03-21 2019-01-04 澳大利亚国家Ict有限公司 区块链平台上的业务处理执行
WO2018024061A1 (zh) * 2016-08-02 2018-02-08 华为技术有限公司 一种共享数字内容的许可证的方法、装置及系统
CN106598579A (zh) * 2016-12-06 2017-04-26 北京果仁宝科技有限公司 区块链上集成动态类型编程语言方法和装置
CN110169013A (zh) * 2016-12-21 2019-08-23 区块链控股有限公司 用于在区块链上实现复杂功能性同时保留对脚本大小和操作码限值的基于安全性限制的计算机实现的系统和方法
CN110169012A (zh) * 2016-12-21 2019-08-23 区块链控股有限公司 用于在区块链上实现复杂功能性同时保留对脚本大小和操作码限值的基于安全性限制的计算机实现的系统和方法
CN106897351A (zh) * 2016-12-29 2017-06-27 北京瑞卓喜投科技发展有限公司 有向无环图型区块链的生成方法及系统
CN106897351B (zh) * 2016-12-29 2020-11-10 北京瑞卓喜投科技发展有限公司 有向无环图型区块链的生成方法及系统
CN107508705A (zh) * 2017-08-21 2017-12-22 北京蓝海讯通科技股份有限公司 一种http元素的资源树构建方法及计算设备
CN107508705B (zh) * 2017-08-21 2020-07-07 北京蓝海讯通科技股份有限公司 一种http元素的资源树构建方法及计算设备
CN108804084A (zh) * 2018-05-23 2018-11-13 夏文斌 一种全局区块链环境构建方法
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108763591B (zh) * 2018-06-21 2021-01-08 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN109104413B (zh) * 2018-07-17 2020-07-31 中国科学院计算技术研究所 用于安全多方计算的私有数据求交集的方法及验证方法
CN109104413A (zh) * 2018-07-17 2018-12-28 中国科学院计算技术研究所 用于安全多方计算的私有数据求交集的方法及验证方法
CN109740097A (zh) * 2018-12-29 2019-05-10 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法
CN109740097B (zh) * 2018-12-29 2020-09-08 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法
CN109885794A (zh) * 2019-01-24 2019-06-14 曲阜师范大学 基于区块链的循环式同步更新网页的处理方法
CN111061975A (zh) * 2019-12-13 2020-04-24 腾讯科技(深圳)有限公司 一种页面中无关内容的处理方法、装置

Also Published As

Publication number Publication date
CN103927397B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
CN102663023B (zh) 一种提取网页内容的实现方法
Cai et al. Vips: a vision-based page segmentation algorithm
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
Cai et al. Extracting content structure for web pages based on visual representation
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN102541874B (zh) 网页正文内容提取方法及装置
Zheng et al. Template-independent news extraction based on visual consistency
CN102479181B (zh) 基于div位置的网页正文抽取方法和装置
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
Manabe et al. Extracting logical hierarchical structure of HTML documents based on headings
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
CN103853760A (zh) 一种网页正文内容提取方法和装置
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103838796A (zh) 一种网页结构化信息抽取方法
CN103810251A (zh) 一种文本提取方法及装置
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN103559234A (zh) RESTful Web服务的自动化语义标注系统和方法
Omari et al. Lossless separation of web pages into layout code and data
CN103942332A (zh) 一种Web页面逻辑链接块的识别方法
CN110083760B (zh) 一种基于可视块的多记录型动态网页信息提取方法
CN109740097B (zh) 一种基于逻辑链接块的网页正文抽取方法
CN106649767A (zh) 一种网页信息抽取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230508

Address after: Room 105, No.1 Jiangshan Road, High tech Development Zone, Xiangyang City, Hubei Province, 441057

Patentee after: Hubei Yunfu Technology Co.,Ltd.

Address before: 441053 No. 296, Longzhong Road, Xiangyang City, Xiangfan City, Hubei Province

Patentee before: HUBEI University OF ARTS AND SCIENCE

TR01 Transfer of patent right