CN105426388A - 一种网页正文提取比对装置 - Google Patents

一种网页正文提取比对装置 Download PDF

Info

Publication number
CN105426388A
CN105426388A CN201510698546.3A CN201510698546A CN105426388A CN 105426388 A CN105426388 A CN 105426388A CN 201510698546 A CN201510698546 A CN 201510698546A CN 105426388 A CN105426388 A CN 105426388A
Authority
CN
China
Prior art keywords
label
text
webpage
information
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510698546.3A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Hengbo Instrument Co Ltd
Original Assignee
Qingdao Hengbo Instrument Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hengbo Instrument Co Ltd filed Critical Qingdao Hengbo Instrument Co Ltd
Priority to CN201510698546.3A priority Critical patent/CN105426388A/zh
Publication of CN105426388A publication Critical patent/CN105426388A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Abstract

本发明公开了一种网页正文提取对比装置,包括以下模块:模块A:用于基于对于网页特定标签,判断网页是否为正文页;模块B:用于对平行网页的识别;所述模块B进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;所述特征信息提取子模块用于:建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:本发明网页正文提取比对装置能提取正文较短的网页,内容的长短并不会影响选择的正确性。

Description

一种网页正文提取比对装置
方法领域
本发明涉及计算机网络技术使用的装置,特别涉及一种网页正文提取比对装置。
背景方法
网页正文提取方法有很多,其中有专门针对评论网页或者新闻网页的方法,但是本发明所讨论的是针对大部分通用网页的正文提取方法。总的说来,目前主要的网页正文提取方法有以下几个方向:基于DOM的网页正文提取方法、基于统计的网页正文提取方法、基于分块的网页正文提取方法及其他网页正文提取方法。
文档对象模型(DocumentObjectModel,DOM)是W3C所制定的标准接口规范。因为DOM节点是基于树的层次结构来组织的,因此在建立了树结构之后,就可以将原本对网页的操作转化为通过对树的操作。虽然按照W3C组织所制定的标准,网页结构均可以对应地转换成DOM树的形式,但实际上许多网页并没有遵循该标准。因此在DOM方法使用时通常都需要预处理模块,将网页最终抽象为一棵DOM树。
一、基于DOM的网页正文提取方法
基于DOM的网页正文提取方法是一种基于DOM的网页内容提取方法,其最初目的是完善PDA应用,移除广告内容。DOM方法先将网页内容抽象为对应的对象,转换为节点的形式;然后用父子关系将各节点组织起来,最终形成一棵树型结构。
在互联网中来自同一网站的网页结构大部分都是相同的,例如Yahoo新闻网页<body>标签都是由<iframe>和<div>两个标签组成的,因此可以把这类网页模板聚为一类。聚类相似的DOM树需要计算相似度,计算两棵简单的DOM树相似度的步骤是:第一步判断两棵树的根节点是否相同,若不相同就返回0;若相同,则继续比较两棵树的叶子节点。第二步比较两棵DOM树的叶子节点的名称和属性,返回两棵DOM树中相同节点的数目。
二、基于统计的网页正文提取方法
基于统计的方法主要用于提取新闻类网页的正文。该方法的原理是网页正文信息只能位于网页中的<table>标签节点。方法的基本步骤是:第一步去除页面的噪声,根据网页标签将网页对应表示成一棵树;第二步处理每个<table>节点,去除节点内的HTML标签,然后得到不含任何标签的字符串;第三步比较每个节点的字符数量,通常选取字符数量最大的节点为网页正文。该方法优点是利用了新闻网页的特性,通用性好,实现简单,也不需要针对不同的网页构建不同的模板,不需要样本学习,时间复杂度低。但是缺点是该算法只适用于网页中所有正文信息都被放在一个<table>节点中的情况,对于有多个<table>正文的网页,效果并不好。由于现在微博、轻博客等的兴起,越来越多的复杂格式和短文本网页被产生,这种方法的局限性更加明显。
现有方法中网页正文提取比对效果表:
总的说来,目前在网页正文提取和网页相似性计算的相关算法都还停留在主要针对传统互联网网页阶段,无论是网页正文提取还是网页相似性研究,对移动互联网网页内容的新特点并没有认真考量,主要表现在以下几个缺点:
(1)移动互联网的网页结构越来越复杂,涉及的新兴方法也越来越多,传统的2.2节所介绍的网页正文提取算法的局限性越来越明显。
(2)由于短文本网页内容太多,部分文本相似性研究算法的理论基础不再存在,算法准确率降低,已经不能适应大规模数据使用的需求。
发明内容
本发明所要解决的方法问题在于,提供了一种本基于主题相似分块的网页正文提取及比对方法,结果表明本发明方法在准确率上取得较大提升。
为解决上述方法问题,本发明提供了一种网页正文提取对比装置,包括以下模块:
模块A:用于基于对于网页特定标签,判断网页是否为正文页;
模块B:用于对平行网页的识别;
所述模块A进一步包括以下子模块:
预处理子模块:用于对网页预处理,构造HTML树;
获取主题子模块:用于获取网页主题;
提取分块子模块:用于提取分块内的字符串内容;
计算距离子模块:用于计算主题S和一个块内内容y的距离;
比较距离子模块:用于比较编辑距离L和max(p,q)。
所述预处理子模块:可以进一步用于:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
所述计算距离子模块可以进一步用于:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , &CenterDot; &CenterDot; &CenterDot; , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;
所述特征信息提取子模块用于:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
所述网页正文提取对比装置可以采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
为解决上述技术问题,本发明还提供了一种网页正文提取对比方法,包括以下步骤:
步骤A:基于对于网页特定标签,判断网页是否为正文页;
步骤B:对平行网页的识别;
所述步骤A进一步包括以下子步骤:
步骤一:网页预处理,构造HTML树;
步骤二:获取网页主题;
步骤三:提取分块内的字符串内容;
步骤四:计算主题S和一个块内内容y的距离;
步骤五:比较编辑距离L和max(p,q)。
所述步骤一可以进一步包括以下子步骤:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
所述步骤四可以进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , &CenterDot; &CenterDot; &CenterDot; , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤;
所述特征信息提取子步骤进一步包括:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
所述网页正文提取对比方法还可以进一步包括:
采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
本发明有益的方法效果在于:本发明网页正文提取比对方法对比传统的网页分块算法和基于主题相似分块的网页正文提取方法,具有以下优点:
(1)能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算,都不会被忽略。
(2)对处理<table>嵌套的复杂的网页。因为构建了一棵HTML树,可以保证每一个<table>标签都能得到一致的处理。
(3)降低了运算量。不需要进行簇的分析,聚类是非常耗费时间的,不需要计算块的熵,只是针对本网页进行分析就能判断。
(4)增加了一定程度的语义信息。因为有效利用了标题标签与正文的语义信息,提取正文的语义相关性更强。
具体实施方式
以下将结合实施例来详细说明本发明的实施方式,借此对本发明如何应用方法手段来解决方法问题,并达成方法效果的实现过程能充分理解并据以实施。
本发明基于主题相似分块的网页正文提取对比方法中所说的主题,即网页的标题和标签。本发明算法为了避免移动互联网短文本分块被忽略,不计算内容块的熵,主要利用主题和内容块的相似度作为提取块的判断依据。具体而言,主要利用网页的以下几个特点:
一是网页格式具有树形结构。现在越来越多的网页格式是按照xml的标准构建,网页标签通常是嵌套成对出现的,因此可以转换成一个HTML树形结构,实际上在基于DOM的网页正文提取方法中也有利用这一特性。在本发明方法中构建HTML的树形结构,主要是为了剪掉无用的分枝,减少运算量。
二是网页通常是分块布局的。移动互联网的网页格式虽然复杂,但是从内容上来讲,每个网页基本都包括以下块:分类块、导航块、正文块、相关链接块和广告信息块等。利用网页的这种特性,并且网页标签通常是嵌套成对出现的,利用网页标签对网页进行分块。实际上目前由于DIV+CSS方法的广泛使用,加之标签<table></table>标签具有很好的布局特性,现在大部分网页在最终呈现给用户时都采用<table>标签进行网页格式的布局。基于主题相似分块的网页正文提取方法正是以此为依据,利用<table>标签对网页进行解析。
三是主题和内容有关联性。网页通常都具有标题和若干标签,而且高度概括了网页正文,因此主题实际上最能体现网页正文的特征,代表了网页的关键内容。这在以前的网页正文提取方法中都未能考虑。本发明方法正是将主题与正文的关系作为正文提取的重要指标。特别由于移动互联网网页的结构越来越多样化,网页内容的长短不一,广告的干扰信息多,短文本的网页内容很容易淹没在广告信息中,因此在网页提取中将主题和网页内容的相似度考虑进来是必不可少的。本发明度量相似度的指标是编辑距离(即Levenshtein距离)。Levenshtein距离即从原串(a)转换到目标串(b)所需要的最少的插入、删除和替换的数目。Levenshtein公式如下式(1)所示:
说明:a、b为字符串,i为字符串a的长度,j为字符串b的长度。利用以上三点为基础,本基于主题相似分块的网页正文提取方法基本思想如下:将网页转换为HTML树的结构;提取网页的主题;利用网页标签提取内容块;计算主题和内容看的编辑距离Levenshtein距离L,当距离L小于内容块的长度p时,则视为网页正文内容被提取出来,当距离L大于(包括等于)某一内容块的长度时,则忽略该内容。
在一实施例中,本发明提供了一种网页正文提取对比方法,包括以下步骤:
步骤A:基于对于网页特定标签,判断网页是否为正文页;
步骤B:对平行网页的识别。
所述步骤A可以进一步包括以下子步骤:
步骤一:网页预处理,构造HTML树;
步骤二:对HTML树剪枝;
步骤三:获取网页主题;
步骤四:提取分块内的字符串内容;
步骤五:计算主题S和一个块内内容y的距离;
步骤六:比较编辑距离L和max(p,q)。
所述步骤二还可以进一步包括以下子步骤:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
所述步骤五可以进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , &CenterDot; &CenterDot; &CenterDot; , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤;
所述特征信息提取子步骤进一步包括:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
在另一实施例中,本发明还提供了一种网页正文提取对比装置,包括以下模块:
模块A:用于基于对于网页特定标签,判断网页是否为正文页;
模块B:用于对平行网页的识别。
所述模块A可以进一步包括以下子模块:
预处理子模块:用于对网页预处理,构造HTML树;
剪枝子模块:用于对HTML树剪枝;
获取主题子模块:用于获取网页主题;
提取分块子模块:用于提取分块内的字符串内容;
计算距离子模块:用于计算主题S和一个块内内容y的距离;
比较距离子模块:用于比较编辑距离L和max(p,q)。
所述剪枝子模块可以进一步用于:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
所述计算距离子模块可以进一步用于:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , &CenterDot; &CenterDot; &CenterDot; , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;
所述特征信息提取子模块用于:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
在又一实施例中,结合本发明基于主题相似分块的网页正文提取方法的基本思想,本发明算法显然要包括构造HTM树、提取网页主题、计算主题和分块相似度三个主要步骤;另外由于网页是半结构化的,需要进行预处理;同时为了降低运算量,需要对构造的树进行剪枝。具体而言,算法的基本步如下:
步骤一:网页预处理,构造html树。对网页进行规范化,最终映射成树形结构,包括以下子步骤:
(1)在除了网页<table>相关标签外的地方若出现的“<”和“>”均用&lt和&gt;替换,补全网页由于不规范所缺的<li>、<hr>等表示结束的标志。
(2)网页中全部标签的属性值都被放在引号中,如
<ahref=″www.hust.edu.cn″>。
(3)标签都是成对匹配的,即每个开始标签都对应一个结束标签,如<body>对应</body>,<head>对应</head>。
(4)标签嵌套正确,如<a>,,<b>,,</b>,,</a>。只有嵌套正确了,才能被正确的迭代处理。
(5)去除一些无用的标记,如form、img等。利用规范后的标签信息,利用递归的方法,构造网页对应的html树。
步骤二:对HTML树剪枝。由于按照<table>标签进行分块,部分叶子节点不包含文本和链接信息,因此将这些无用枝去掉,降低运算量。
步骤三:获取网页主题。获取网页Title及其各级标题<h1>~<hg>和标签<meta>的内容。若是中文,可以利用中国科学院提出的ICTCLAS分词装置对以上内容进行分词处理,然后去掉虚词、停用词等,最后得到只含有实词的序列Stitle。
步骤四:提取分块内的字符串内容。首先对HTML树的叶子节点,即最内层的<table>标签对应的子树合并成一个块,去掉块内的HTML标记,得到块内的字符串内容Y。
步骤五:计算主题S和一个块内内容y的距离。对于中文,需要对中文进行分词,也是利用步骤(三)中的中科院分词装置。在本发明中具体使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , &CenterDot; &CenterDot; &CenterDot; , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
步骤六:比较编辑距离L和max(p,q)。若L<max(p,q),则该块内是正文信息,提取出来;否则识别为干扰信息,忽略。最终得到网页的正文信息。
另外,本发明网页正文提取对比方法还包括对平行网页的识别。
本发明平行网页识别主要包括特征信息提取和支持向量机分类两部分组成。
1、特征信息提取
特征信息主要有网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息。
(1)标签结构特征
双语平行网页的主体内容互译,但网页的呈现形式往往差异性较大。为避免因形式的差异而误排除了平行网页,增强平行网页间结构标签对齐的相似性程度,,将HTML标签按其在网页布局、显示、链接等不同功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul等;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u等;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend等,计算结构对称性时删去。
采用改进的编辑距离计算分类的HTML标签序列的相似度。
编辑距离是指两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数,编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符。根据标签的分类特性,改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。其中,删除操作和插入操作代价为1,类内替换操作代价为0,类间替换操作代价为1.5,即为:
插入操作:Ci(t)=1;
删除操作:Cd(t)=1;
替换操作: C s ( t 1 , t 2 ) = 0 , i f t 1 , t 2 &Element; T 1.5 , i f t 1 &Element; T 1 , t 2 &Element; T 2 , T 1 &NotEqual; T 2 T 1 , T 2 , T : t a g c a t e g o r i e s .
HTML标签序列W=[w0,w1,…wa,…wA]和Z=[z0,z1,…zb,…zB]采用动态规划计算两者改进的编辑距离矩阵M,矩阵元素算法M[a,b]:
M &lsqb; a , b &rsqb; = a , i f b = 0 b , i f a = 0 M i n ( M &lsqb; a - 1 , b &rsqb; + C d ( w a ) , M &lsqb; a - 1 , b - 1 &rsqb; + C s ( w a , z b ) , M &lsqb; a , b - 1 &rsqb; + C t ( w a ) ) , o t h e r w i s e
矩阵右下角元素M[A,B]即S1和S2改进的编辑距离,则标签结构信息Dt
Dt=M[A,B]/Max(A+1,B+1)
如HTML标签序列[div、style、style、div、style、style、p、p、div、div]和Z=[div、table、tr、td、span、span、td、tr、table、div],改进的编辑距离矩阵如表1所示,改进的编辑距离为3,标签结构信息Dt=0.3。
表1:W与Z改进的编辑距离矩阵M
(2)内容表面特征
为降低对双语词典的依赖程度,内容表面特征特指与内容直接相关但非词汇互译的信息,主要包含文本对的文本句数信息、文本长度信息和数字序列信息,各特征如下计算:
1)文本句数信息Ds:
Ds=Min(SS,ST)/Max(SS,ST)
2)文木长度信息Dt:
Di=|LS-LT|/Max(LS,LT)
3)数字序列信息Dn:
Dn=1-Z/Max(m,n)
其中m和n分别为源语言文本和目标语言文本出现数字的个数,Z为最大匹配长度,详细计算步骤如下:
假设从源语言和目标语言文木对巾提取的数字序列分别为X=[x1,x2,…,xi,…,xm]和Y=[y1,y2,…,yj,…,yn],由此构建m*n维匹配关系矩阵C,矩阵元素c[i,j]为:
C &lsqb; i , j &rsqb; = 0 , x i &NotEqual; y i 1 , x i = y i
利用矩阵C建立字符串最大匹配长度矩阵D,元素D[i,j]计算原则:
a、循环从右向左、从下而上的。
b、元素D[i,j]为:
D[i,j]=Max(C[i,j]+C[i+1,j+1],C[i,j+1],C[i+1,j])
其中,矩阵D中最终生成的元素D[0,0]即为最大匹配长度Z。
为充分展示共现数字序列信息的计算方法,列举数字序列分别为X=[4,5,34,5,2,45,8,12]和Y=[4,7,34,8,78,9,5,2,12]。计算所得匹配关系矩阵C如表2,最大匹配矩阵D如表3,因此得到最大匹配长度Z为5,数字序列信息Dn的大小为1-5/9=0.44。
表2:X与Y匹配关系矩阵C
表3:X与Y最大匹配矩阵D
本发明网页正文提取比对方法采用了支持向量机分类的SVM算法。SVM算法是统计学理论的一种实现方法。SVM建立在统计学习VC维(Vapnik-ChervonenkisDimension)理论和结构风险最小原理基础上,通过引入核函数,将样本向量映射到高维特征空间,然后在高维空间中构造最优分类面,获得线性最优决策函数。SVM的优势是可以通过采用核函数巧妙解决维数问题,避免了学习算法计算复杂度与样本维数的直接相关。
令{(xi,yi),i=1,…,S}由S个数据点构成了SVM的训练数据集,其中,xi∈Rn,yi∈{-1,1},最优决策函数为:
f ( x ) = S g n &lsqb; &Sigma; i = 1 S &alpha; i y i < x &CenterDot; x i > + b &rsqb;
其中,Sgn[·]为符号函数,非负变量αi为Lagrange函数,b为超平面的偏置值。
从预处理过的源语言和目标语言文档中分别选择镜像至本地路径相差两级以内的网页构成候选平行网页对。针对网页对分别计算HTML标签序列信息Dt、文本长度信息Di、文本句数信息Ds和数字序列信息Dn构成SVM分类器的特征信息xi∈Rn(n=4)。其中,Dt反映网页结构信息,从预处理过的网页中提取;Di、Ds和Dn反映网页内容信息,从网页正文中提取。
通过在由已知的平行网页对和非平行网页对构成的训练集上训练SVM,判定未知分类的网页是否为平行网页。支持向量机的判断结果yi=1表示网页对为平行网页对,yi=-1表示网页对为非平行网页对。
本发明另一实施例还提供了一种网页正文提取对比装置,包括以下模块:
模块A:用于基于对于网页特定标签,判断网页是否为正文页;
模块B:用于对平行网页的识别;
所述模块A进一步包括以下子模块:
预处理子模块:用于对网页预处理,构造HTML树;
获取主题子模块:用于获取网页主题;
提取分块子模块:用于提取分块内的字符串内容;
计算距离子模块:用于计算主题S和一个块内内容y的距离;
比较距离子模块:用于比较编辑距离L和max(p,q)。
所述预处理子模块:可以进一步用于:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
所述计算距离子模块可以进一步用于:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , &CenterDot; &CenterDot; &CenterDot; , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;
所述特征信息提取子模块用于:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
所述网页正文提取对比装置可以采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
本发明再一实施例还提供了一种网页正文提取对比方法,包括以下步骤:
步骤A:基于对于网页特定标签,判断网页是否为正文页;
步骤B:对平行网页的识别;
所述步骤A进一步包括以下子步骤:
步骤一:网页预处理,构造HTML树;
步骤二:获取网页主题;
步骤三:提取分块内的字符串内容;
步骤四:计算主题S和一个块内内容y的距离;
步骤五:比较编辑距离L和max(p,q)。
所述步骤一可以进一步包括以下子步骤:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
所述步骤四可以进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , &CenterDot; &CenterDot; &CenterDot; , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤;
所述特征信息提取子步骤进一步包括:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
所述网页正文提取对比方法还可以进一步包括:
采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
本发明网页正文提取比对方法对比传统的网页分块算法和基于主题相似分块的网页正文提取方法,后者具有以下优点:
(1)能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算,都不会被忽略。
(2)对处理<table>嵌套的复杂的网页。因为构建了一棵HTML树,可以保证每一个<table>标签都能得到一致的处理。
(3)降低了运算量。不需要进行簇的分析,聚类是非常耗费时间的,不需要计算块的熵,只是针对本网页进行分析就能判断。
(4)增加了一定程度的语义信息。因为有效利用了标题标签与正文的语义信息,提取正文的语义相关性更强。
所有上述的首要实施这一知识产权,并没有设定限制其他形式的实施这种新产品和/或新方法。本领域方法人员将利用这一重要信息,上述内容修改,以实现类似的执行情况。但是,所有修改或改造基于本发明新产品属于保留的权利。

Claims (10)

1.一种网页正文提取对比装置,其特征在于,包括以下模块:
模块A:用于基于对于网页特定标签,判断网页是否为正文页;
模块B:用于对平行网页的识别;
所述模块A进一步包括以下子模块:
预处理子模块:用于对网页预处理,构造HTML树;
获取主题子模块:用于获取网页主题;
提取分块子模块:用于提取分块内的字符串内容;
计算距离子模块:用于计算主题S和一个块内内容y的距离;
比较距离子模块:用于比较编辑距离L和max(p,q)。
2.根据权利要求1所述网页正文提取对比装置,其特征在于,所述预处理子模块:进一步用于:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
3.根据权利要求1或2所述网页正文提取对比装置,其特征在于,所述计算距离子模块进一步用于:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
4.根据权利要求1~3中任一项所述网页正文提取对比装置,其特征在于,所述模块B进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;
所述特征信息提取子模块用于:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、1r、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:aloplet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
5.根据权利要求1~4中任一项所述网页正文提取对比装置,其特征在于,所述网页正文提取对比装置采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
6.一种网页正文提取对比方法,其特征在于,包括以下步骤:
步骤A:基于对于网页特定标签,判断网页是否为正文页;
步骤B:对平行网页的识别;
所述步骤A进一步包括以下子步骤:
步骤一:网页预处理,构造HTML树;
步骤二:获取网页主题;
步骤三:提取分块内的字符串内容;
步骤四:计算主题S和一个块内内容y的距离;
步骤五:比较编辑距离L和max(p,q)。
7.根据权利要求6所述网页正文提取对比方法,其特征在于,所述步骤一进一步包括以下子步骤:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
8.根据权利要求6或7所述网页正文提取对比方法,其特征在于,所述步骤四进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:
L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q ) ) = p q = 0 q p = 0 min ( L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q ) ) + 1 , e l s e L ( ( x 1 , ... , x p ) , ( y 1 , ... , y q - 1 ) ) + 1 , L ( ( x 1 , ... , x p - 1 ) , ( y 1 , ... , y q - 1 ) ) + Z ( x p , y q ) ) - - - ( 2 )
9.根据权利要求6~8中任一项所述网页正文提取对比方法,其特征在于,所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤;
所述特征信息提取子步骤进一步包括:
建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;
将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:
结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;
格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;
无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。
10.根据权利要求6~9中任一项所述网页正文提取对比方法,其特征在于,所述网页正文提取对比方法进一步包括:
采用改进的编辑距离计算分类的HTML标签序列的相似度:
编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;
编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
CN201510698546.3A 2015-10-23 2015-10-23 一种网页正文提取比对装置 Pending CN105426388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510698546.3A CN105426388A (zh) 2015-10-23 2015-10-23 一种网页正文提取比对装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510698546.3A CN105426388A (zh) 2015-10-23 2015-10-23 一种网页正文提取比对装置

Publications (1)

Publication Number Publication Date
CN105426388A true CN105426388A (zh) 2016-03-23

Family

ID=55504600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510698546.3A Pending CN105426388A (zh) 2015-10-23 2015-10-23 一种网页正文提取比对装置

Country Status (1)

Country Link
CN (1) CN105426388A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646117A (zh) * 2013-12-27 2014-03-19 苏州大学 一种基于链接的双语平行网页识别方法及系统
CN103699591A (zh) * 2013-12-11 2014-04-02 湖南大学 一种基于示例页面的网页正文提取方法
CN105138517A (zh) * 2015-10-23 2015-12-09 青岛恒波仪器有限公司 一种平行网页识别方法及装置
CN105574066A (zh) * 2015-10-23 2016-05-11 青岛恒波仪器有限公司 网页正文提取比对方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699591A (zh) * 2013-12-11 2014-04-02 湖南大学 一种基于示例页面的网页正文提取方法
CN103646117A (zh) * 2013-12-27 2014-03-19 苏州大学 一种基于链接的双语平行网页识别方法及系统
CN105138517A (zh) * 2015-10-23 2015-12-09 青岛恒波仪器有限公司 一种平行网页识别方法及装置
CN105574066A (zh) * 2015-10-23 2016-05-11 青岛恒波仪器有限公司 网页正文提取比对方法及其系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张瑞雪: "基于DOM树的网页相似度研究与应用", 《中国优秀硕士学位论文全文数据库》 *
朱泽德: "网络双语语料挖掘关键技术研究", 《中国博士学位论文全文数据库》 *
陈秋: "移动互联网内容相似性研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN108920434B (zh) * 2018-06-06 2022-08-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统

Similar Documents

Publication Publication Date Title
WO2017080090A1 (zh) 一种网页正文提取比对方法
KR102237702B1 (ko) 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN101079025B (zh) 一种文档相关度计算系统和方法
CN102955848B (zh) 一种基于语义的三维模型检索系统和方法
CN105243129A (zh) 商品属性特征词聚类方法
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN100552673C (zh) 开放式文档同构引擎系统
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
CN105574066A (zh) 网页正文提取比对方法及其系统
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN102253930A (zh) 一种文本翻译的方法及装置
Yuan-jie et al. Web service classification based on automatic semantic annotation and ensemble learning
Kim et al. Web information extraction by HTML tree edit distance matching
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN105426388A (zh) 一种网页正文提取比对装置
CN115982390B (zh) 一种产业链构建和迭代扩充开发方法
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
CN105138517A (zh) 一种平行网页识别方法及装置
You Automatic summarization and keyword extraction from web page or text file

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160323

RJ01 Rejection of invention patent application after publication