CN101694668A - 网页结构相似性确定方法及装置 - Google Patents

网页结构相似性确定方法及装置 Download PDF

Info

Publication number
CN101694668A
CN101694668A CN200910235278A CN200910235278A CN101694668A CN 101694668 A CN101694668 A CN 101694668A CN 200910235278 A CN200910235278 A CN 200910235278A CN 200910235278 A CN200910235278 A CN 200910235278A CN 101694668 A CN101694668 A CN 101694668A
Authority
CN
China
Prior art keywords
vector
template characteristic
dimension
characteristic vector
feature unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910235278A
Other languages
English (en)
Other versions
CN101694668B (zh
Inventor
李景阳
张波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2009102352786A priority Critical patent/CN101694668B/zh
Publication of CN101694668A publication Critical patent/CN101694668A/zh
Application granted granted Critical
Publication of CN101694668B publication Critical patent/CN101694668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种网页结构相似性确定方法及装置。该方法包括:根据网页的DOM树确定网页的模板特征向量;对模板特征向量计算网页结构相似性,并进行查找或类聚。通过上述处理,克服了现有技术中不能够计算网页结构相似性的缺陷,当人工发现其中某个作弊网站时,可以通过查找具有相似的模板特征向量的网站首页,找到所有具有相同网页结构的作弊网站,此外,还可以通过对所有网站首页模板的模板特征向量进行类聚和查找来自动快速发现作弊网站的集合。

Description

网页结构相似性确定方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种网页结构相似性确定方法及装置。
背景技术
在现有技术中,搜索引擎处理的主要的对象是网页。搜索引擎除了对网页的内容进行分析和处理以外,还需要在两个或多个网页间进行相似度比较,例如,网页内容相似性和/或网页结构相似性。
其中,网页内容相似性是指:在同一篇文章被不同的网站拷贝转载的情况下,虽然每个网站的版式不同,但文章的内容是一至的。此时,搜索引擎不需要将包含该文章的网页全部呈现给用户,因为这样会使用户较难找到其他不同的内容,搜索引擎只需要将其中的一个呈现给用户即可。
目前,计算网页内容相似性的技术已经比较成熟,通常是采用向量空间模型来表示文本,通过为文本中的每种单元(例如:词)赋予一定的权重来将网页表示为空间中的一个向量,然后用欧氏距离或者余弦相似度来度量它们的相似性。
网页结构相似性也可以成为网页版式相似性,如果在同一网站上具有两个新闻网页,虽然新闻网页的内容不同,但新闻网页的版式结构是几乎一样的,在上述情况下,则可以说这两个新闻网页的内容不相似但结构相似。再例如,由同一程序生成的多个作弊网站的首页,虽然文字内容、图片、配色、链接数量等均不相同,但可以很容易看出它们的相似性并判断它们应该来自同一源头,并且可以推断如果有另一个网站的首页也具有类似的版式外观,那么很可能也是作弊网站。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:互联网中大量存在具有相同网页结构的作弊网站,但是,目前并没有一种方法可以快速的确定结构相似的网页,即,目前还无法计算网页结构的相似性。
发明内容
本发明实施例提供一种网页结构相似性确定方法及装置,用以解决现有技术中还不能够计算网页结构相似性的缺陷,实现快速确定结构相似的网页。
本发明实施例提供一种网页结构相似性确定方法,包括:
根据网页的DOM树确定网页的模板特征向量;
对模板特征向量计算网页结构相似性,并进行查找或类聚。
本发明实施例提供一种网页结构相似性确定装置,包括:
提取模块,用于根据网页的DOM树提取网页的模板特征向量;
处理模块,用于对模板特征向量计算网页结构相似性,并进行查找或类聚。
本发明实施例的网页结构相似性确定方法及装置,通过计算网页的模板特征向量来确定网页结构的相似性,克服了现有技术中不能够计算网页结构相似性的缺陷,当人工发现其中某个作弊网站时,可以通过查找具有相似模板特征向量的网站首页,找到所有具有相同网页结构的作弊网站,此外,还可以通过对所有网站首页的模板特征向量进行类聚和查找来自动的快速发现作弊网站集合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的网页结构相似性确定方法的流程图;
图2是本发明实施例的网页结构相似性确定方法详细处理的流程图;
图3是本发明实施例的网页结构相似性确定方法的将DOM树抽象为模板特征向量的示意图;
图4是本发明实施例的网页结构相似性确定方法的从特征单元到模板特征向量的示意图;
图5是本发明实施例的网页结构相似性确定装置的结构示意图。
具体实施方式
下面结合附图和具体实施例进一步说明本发明实施例的技术方案。
根据本发明的实施例,提供了一种网页结构相似性确定方法,图1是本发明实施例的网页结构相似性确定方法的流程图,如图1所示,根据本发明实施例的网页结构相似性确定方法包括:
步骤101,根据网页的DOM树确定网页的模板特征向量;
步骤102,对所述模板特征向量计算网页结构相似性,并进行查找或类聚。
通过上述处理,可以通过查找与给定首页模板具有相似模板特征向量的首页模板,找到所有具有相同网页结构的作弊网站,还可以通过对所有网站首页的模板特征向量进行类聚来自动的发现作弊网站集合。能够快速的确定具有相似结构的网页。
下面对图1所示的处理过程进行详细的说明。图2是本发明实施例的网页结构相似性确定方法详细处理的流程图,如图2所示,包括如下处理:
步骤201,将网页的DOM树中的节点或节点的组合划分为不同的特征单元;其中,特征单元可以为:DOM树的每个节点、DOM树的每个节点和它的兄弟节点构成的节点对、DOM树的每个节点和它的父节点构成的节点对。
下面为网页的DOM树的一个实例,其中,包括根节点html,根节点html包括两个子节点,分别为:head和body,body又包括了三个子节点,分别为div,p和img。在实际应用中,可以将head和body划分为两个特征单元,还可以将body和其子节点div作为一个特征单元。
<html>
  <head>
    <title>网页标题</title>
  </head>
  <body>
    <div class=abc>
       测试文字......
    </div>
    <p>呵呵</p>
    <div class=abc>
       测试文字......
    </div>
    <p>呵呵呵</p>
   <img src=...>
  </body>
</html>
步骤202,在将DOM树划分为特征单元后,确定特征单元映射到高维特征向量后所在的维数。
具体包括如下处理:首先,需要将每个特征单元的信息分别拼接为字符串,对拼接后的字符串进行哈希运算,即,应用某种哈希函数;相对于每一个特征单元,都会得到一个相应的哈希运算结果;再得到每个特征单元的哈希运算结果后,将哈希运算结果作为该特征单元映射到高维特征向量后所在的维数。例如,根节点html下的一个特征单元为<div class=abc>,其哈希运算结果为:hash(”<div class=abc>””)=5397,因此,可以确定该特征单元<divclass=abc>映射到高维特征向量后所在的维数为第5397维。
需要说明的是,上述特征单元的信息为特征单元(节点)的HTML标签名称及相关属性,在实际应用中,相关属性包括但不限于以下四个属性:身份标识(id)、样式(class)、名称(name)、类型(style)。
步骤203,在确定特征单元映射到高维特征向量后所在的维数后,就可以根据预定规则确定特征单元在DOM树中的权重值;
具体地,该权重值代表了相应的特征单元在该网页(网页的DOM树)中的重要程度,特征单元的每一次在网页DOM树中出现都会被赋予一次权重值,最终的权重值是该特征单元每次出现的权重值的累加,特征单元每次出现在网页DOM树的权重值由预定规则决定,包括:
1、特征单元的权重值随特征单元(节点)在DOM树中的深度递减;因为在网页的DOM树上,越是内层的内容差异越不重要。在实际应用中,可以采用等比递减的方式确定特征单元的权重值,并只考虑有限深度内的特征单元。
2、特征单元的权重值随特征单元在兄弟节点(即,同一父节点下的子节点)中的重复递减,其中,在此种情况下特征单元权重值的衰减向特征单元的子特征单元传递;在实际应用中,因为很多网页的DOM树含有重复的结构,例如,论坛、博客中的很多篇帖子、或网络相册中的多个图片。若特征单元与之前的某个兄弟特征单元重复(例如,帖子的重复或图片的重复),那么它的权重以前面兄弟特征单元的权重为基数计算,衰减程度与它们之间所隔节点(特征单元)的个数有关。
3、特征单元的权重值随特征单元无相关属性递减,即,与特征单元是否有相关属性有关。其中,在该情况下,权重值的衰减向特征单元的子特征单元传递。在实际应用中,无相关属性的节点(例如,“<p>”、“<a>”)只能提供较少的独特信息,因此权重较低,而有相关属性的节点(例如,“<divid=main_content>”)则可以在相当程度上将同一来源的网页与其他网页区分开,因此权重较高。
在实际的应用中,特征单元每次出现的权重值由上述几个因素共同决定。
例如,特征单元<div class=abc>具有样式属性(class=abc),则比无样式属性的特征单元的权重要高,可以将该特征单元的权重值预设为1.0;此外,由于该特征单元位于DOM树的第3层,则最终的权重值还需要乘以衰减因子(假设衰减因预设为0.6)的3次方。
步骤204,在确定了特征单元的权重值后,根据特征单元在DOM树中的权重值确定该特征单元在高维特征向量的维数上的实数值,并由此确定对应于该网页DOM树的高维特征向量;
例如,由于在上述步骤中确定了特征单元<div class=abc>的在高维特征向量中的维数为5397,该特征单元的权重值可以根据该特征单元是否有样式属性、该特征单元在DOM树种的深度、是否与兄弟特征单元重复等因素确定。随后,就可以将最终确定的权重值作为高维特征向量的相应维数上的实数数值。即,确定了高维特征向量第5397维上的实数值。在实际应用中,对于每个模板特征向量都需要进行上述处理,将其在DOM树上的权重值作为高维特征向量中相应维数的实数值。
步骤205,在确定对应于该网页DOM树的高维特征向量后,将高维特征向量进行压缩,得到最终的模板特征向量。
具体地,在实际应用中,为了减少计算过程中的哈希冲突,将高维特征向量的维数设置的较大。但是,在后续的应用中,需要较小维数的模板特征向量来保证计算的效率。因此,在确定了对应于DOM树的高维特征向量后,需要对高维特征向量进行维数压缩,在本发明实施例中,采用简单的折叠的方法(维数取模,权重叠加)进行压缩。并基本保证后续应用压缩后的模板特征向量进行计算的准确性。下面,对上述采用折叠的方法对高维特征向量进行维数压缩的处理过程进行详细说明:
假设上述的高维特征向量的维数为M,需要将维数为M的高维特征向量压缩为维数为N的模板特征向量,其中,N为大于等于1小于M的自然数,需要进行如下处理:
1、将M维高维特征向量中的各个维数分别除以N,得到相应的余数;
2、将所有余数相同的高维特征向量的维作为N维模板特征向量的一个维;
3、将所有余数相同的高维特征向量的维中的实数值相加,作为N维模板特征向量相应维的实数值。
例如,高维特征向量的维数为10000维,而最终希望得到一个100维的模板特征向量,因此必须将高维特征向量进行压缩,假设高维特征向量是[a1,a2,a3,…,a10000],则压缩后的模板特征向量为[a1+a101+a201+…+a9901,a2+a102+a202+…+a9902,…,a100+a200+…+a10000]。实现高维特征向量向低维的模板特征向量的压缩。
图3是本发明实施例的网页结构相似性确定方法的将DOM树抽象为模板特征向量的示意图,如图3所示,网页的DOM树可以清楚的表示出该网页的网页结构,包括html节点、head节点、boby节点、title节点、meta节点、div节点、table节点、p节点、img节点,通过图2所示的处理可以将网页的DOM树从高维特征向量压缩为模板特征向量,并最终将网页的DOM树抽象成为一个模板特征向量。图4是本发明实施例的网页结构相似性确定方法的从特征单元到模板特征向量的示意图,如图4所示,首先对特征单元的信息(“div&id=main_content|a”)进行哈希运算,得到映射到高维特征向量后的维数(第23维),随后根据该特征单元在DOM树中的深度等因素来确定其权重值,从而得到高维特征向量,最后,将高位特征向量压缩为最终的低维的模板特征向量。上述步骤201-步骤205的处理过程可以参照图3、图4进行理解。
在得到最终的模板特征向量后,就可以根据该模板特征向量计算网页结构的相似性,需要继续进行如下处理:
步骤206,对模板特征向量计算网页结构相似性,并进行查找或类聚;
具体地,在步骤206中,为了实现对模板特征向量亿级数据的快速处理,设置了基于网格的快速算法。下面,首先对基于网格的查找方式进行说明:包括如下处理:
1、设置至少一套网格,该网格的间隔可以为0.2左右;
2、在网格中将模板特征向量中每一维上的实数值以上述预定间隔(例如,0至0.2之间为0,0.2至0.4之间为1)离散为整数值,从而将模板特征向量映射到至少一套网格中;
3、在网格中根据模板特征向量离散后的整数值将模板特征向量进行排序;
4、查找所有与给定模板特征向量在同一网格内的同网格模板特征向量;
5、采用预定算法分别计算所有同网格模板特征向量和给定模板特征向量的网页的结构相似度。
需要说明的是,为了避免漏掉在两个相邻格子交界处的模板特征向量,本发明实施例采用互相交错的两套网格,使得一个模板特征向量会映射到两个网格中,因此可以避免漏掉在两个相邻格子交界处的模板特征向量。
下面通过实例对上述查找方法进行说明:假设模板特征向量为[a1,…,a100],将该模板特征向量中的每一维按固定区间离散化,例如,将在0-0.2之间的实数值离散化为1,将在0.2-0.4之间的是数值离散化为2;通过上述离散化处理,可以将与给定模板特征向量不同维数的模板特征向量变为与给定模板特征向量同维数的整数模板特征向量。随后,对离散后的模板特征向量进行排序,可以快速查找出与给定模板特征向量在同一网格内的模板特征向量,缩小了计算的范围,在确定了与给定模板特征向量在同一网格内的模板特征向量后,再通过预定算法比较它们原始的模板特征向量(即,未离散前的模板特征向量、或未压缩的高维特征向量)的差异,便可确定与给定模板特征向量相似的模板特征向量,即,找到了与给定网页相同模板的网页。
使用查找方式来确定具有相似网页结构的网页,主要应用于给定一个网页,并查找与该网页结构相似的网页的情况,但是,在实际应用中,在没有给定网页的情况下,还需要直接从大量的网页中确定具有相同网页结构的网页,因此,本发明实施例还提供了一种类聚方式来确定具有相同网页结构的网页,包括如下处理:
1、设置至少一套网格,该网格的间隔可以为0.2左右;
2、将模板特征向量中每一维上的实数值以预定间隔(例如,0至0.2之间为0,0.2至0.4之间为1)离散为整数值;
3、根据模板特征向量离散后的整数值将模板特征向量在至少一套网格中进行排序;
4、在每一个网格内部根据预定算法将模板特征向量进行类聚,得到网页结构相似的模板特征向量的集合;
5、在多套网格之间将网页结构相似的集合合并,确定网页结构相似的模板特征向量的最终类聚结果。
在上述处理过程中,只需对同一格子内的模板特征向量进行类聚即可,其所需时间远远小于在全部网页集合上进行类聚。
下面,对上述查找方法和类聚方式的处理过程中所述的预定算法进行说明,根据本发明的实施例,预定算法可以包括任何用于实数向量的距离度量、或实数向量的相似性度量的计算公式,例如,欧氏距离、曼哈顿距离、向量内积等。在本发明实施例中,采用了自定义的伪距离来确定模板特征向量之间的相似性,伪距离是指两个模板特征向量中每一维的差的和除以每一维共同部分的和:dist(U,V)=∑i(|Ui-Vi|)/∑i(min{Ui,Vi})。在伪距离中,不同相似程度的网页对应于不同的距离范围,例如,对应于同模板的两个模板特征向量之间的伪距离一般小于0.2。
通过上述处理,当人工发现其中某个作弊网站时,可以通过查找具有相似模板特征向量的网站首页,找到所有具有相同网页结构的作弊网站,此外,还可以通过对所有网站首页的模板特征向量进行类聚来自动的发现作弊网站集合。因此能够快速的确定具有相似结构的网页。
根据本发明的实施例,提供了一种网页结构相似性确定装置,图5是本发明实施例的网页结构相似性确定装置的结构示意图,如图5所示,根据本发明实施例的网页结构相似性确定装置包括:提取模块50、权重值确定模块51、处理模块52。下面,对本发明实施例的网页结构相似性确定装置进行说明。
具体地,提取模块50用于根据网页的DOM树提取网页的模板特征向量,具体包括:划分模块501、第一确定模块502、第二确定模块503、以及压缩模块504。
其中,划分模块501用于将DOM树中的节点或节点的组合划分为不同的特征单元;其中,特征单元可以为:DOM树的每个节点、DOM树的每个节点和它的兄弟节点构成的节点对、DOM树的每个节点和它的父节点构成的节点对。
第一确定模块502用于在划分模块501将DOM树划分为特征单元后,确定特征单元映射到高维特征向量后所在的维数;
具体地,第一确定模块502包括拼接模块和哈希运算模块,其中,拼接模块用于将特征单元的信息拼接为字符串;哈希运算模块用于对字符串进行哈希运算,得到哈希运算结果,并将哈希运算结果作为特征单元映射到高维特征向量后所在的维数。例如,根节点html下的一个特征单元为<divclass=abc>,哈希运算模块对其进行哈希运算的结果为:hash(”<divclass=abc>”)=5397,因此,第一确定模块502可以确定该特征单元<divclass=abc>映射到高维特征向量后所在的维数为第5397维。需要说明的是,上述特征单元的信息为特征单元(节点)的HTML标签名称及相关属性,在实际应用中,相关属性包括但不限于以下四个属性:身份标识(id)、样式(class)、名称(name)、类型(style)。
在第一确定模块502确定特征单元映射到高维特征向量后所在的维数后,权重值确定模块51根据预定规则确定所述特征单元在所述DOM树中的权重值。
该权重值代表了相应的特征单元在该网页(网页的DOM树)中的重要程度,特征单元的每一次在网页DOM树中出现都会被赋予一次权重值,最终的权重值是该特征单元每次出现的权重值的累加,特征单元每次出现在网页DOM树的权重值由预定规则决定,包括:1、特征单元的权重值随特征单元(节点)在DOM树中的深度递减;2、特征单元的权重值随特征单元在兄弟节点(即,同一父节点下的子节点)中的重复递减;3、特征单元的权重值随特征单元无相关属性递减,即,与特征单元是否有相关属性有关。
在权重值确定模块51确定特征单元在DOM树中的权重值后,第二确定模块503根据特征单元在DOM树中的权重值确定特征单元在维数上的实数值,并由此确定对应于该网页DOM树的高维特征向量。随后,压缩模块504就可以将高维特征向量进行压缩,得到最终的模板特征向量。
具体地,上述压缩模块504包括:第一处理子模块、第二处理子模块、第三处理子模块,其中,第一处理子模块用于将M维高维特征向量中的各个维数分别除以N,得到相应的余数,其中,N为大于等于1小于M的自然数;第二处理子模块用于将所有余数相同的高维特征向量的维作为N维模板特征向量的一个维;第三处理子模块用于将所有余数相同的高维特征向量的维中的实数值相加,作为所述N维模板特征向量相应维的实数值。
在压缩模块504将高维特征向量进行压缩后,处理模块52就可以对模板特征向量计算网页结构相似性,并进行查找或类聚。
具体地,上述处理模块52包括:设置模块520、离散模块521、映射模块522、排序模块523、查找模块524、第一计算模块525、类聚模块526、合并模块527。
其中,设置模块520用于设置至少一套网格,该网格的间隔可以为0.2;
离散模块521用于将模板特征向量中每一维上的实数值以预定间隔(例如,0至0.2之间为0,0.2至0.4之间为1)离散为整数值,从而使得映射模块522能够将模板特征向量映射到至少一套网格中;
排序模块523用于根据整数值将模板特征向量在至少一套网格中进行排序。
如果采用查找方式确定网页结构相似性,随后,需要查找模块524查找所有与给定模板特征向量在同一网格内的同网格模板特征向量;随后,第一计算模块525采用预定算法分别计算所有同网格模板特征向量和给定模板特征向量的网页结构相似。
如果采用类聚方式确定网页结构相似性,则类聚模块526在每一个网格内部基于预定算法将模板特征向量进行类聚,得到网页结构相似的模板特征向量的集合;随后,合并模块527在多套网格之间将网页结构相似的所述集合合并,确定网页结构相似的模板特征向量。
需要说明的是,上述预定算法可以包括任何用于实数向量的距离度量、或实数向量的相似性度量的计算公式,例如,欧氏距离、曼哈顿距离、向量内积等。在本发明实施例中,采用了自定义的伪距离来确定模板特征向量之间的相似性,伪距离是指两个模板特征向量中每一维的差的和除以每一维共同部分的和:dist(U,V)=∑i(|Ui-Vi|)/∑i(min{Ui,Vi})。在伪距离中,不同相似程度的网页对应于不同的距离范围,例如,对应于同模板的两个模板特征向量之间的伪距离一般小于0.2。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或任意其它形式的存储介质中。
综上所述,借助于本发明的技术方案,通过计算网页的模板特征向量来确定网页结构的相似性,克服了现有技术中不能够计算网页结构相似性的缺陷,当人工发现其中某个作弊网站时,可以通过查找具有相似模板特征向量的首页模板,找到所有具有相同网页结构的作弊网站,此外,还可以通过对所有网站首页模板的模板特征向量进行类聚和查找来自动的快速发现作弊网站集合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种网页结构相似性确定方法,其特征在于,包括:
根据网页的DOM树确定网页的模板特征向量;
对所述模板特征向量计算网页结构相似性,并进行查找或类聚。
2.根据权利要求1所述的方法,其特征在于,所述根据网页的DOM树确定网页的模板特征向量包括:
将所述DOM树中的节点或节点的组合划分为不同的特征单元;
确定所述特征单元映射到高维特征向量后所在的维数;
根据所述特征单元在所述DOM树中的权重值确定所述特征单元在所述维数上的实数值,得到高维特征向量;
将所述高维特征向量进行压缩,得到最终的所述模板特征向量。
3.根据权利要求2所述的方法,其特征在于,所述确定所述特征单元映射到高维特征向量后所在的维数包括:
将所述特征单元的信息拼接为字符串,并对所述字符串进行哈希运算,得到哈希运算结果;
将所述哈希运算结果作为所述特征单元映射到高维特征向量后所在的维数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述特征单元在所述DOM树中的权重值确定所述特征单元在所述维数上的实数值之前,所述方法还包括:
根据预定规则确定所述特征单元在所述DOM树中的权重值。
5.根据权利要求4所述的方法,其特征在于,所述预定规则包括:
所述权重值随所述特征单元在所述DOM树中的深度递减;
所述权重值随所述特征单元在兄弟节点中的重复递减,其中,所述权重值的衰减向所述特征单元的子特征单元传递;
所述权重值随所述特征单元无相关属性递减,其中,所述权重值的衰减向所述特征单元的子特征单元传递。
6.根据权利要求2所述的方法,其特征在于,所述将所述高维特征向量进行压缩,得到最终的所述模板特征向量包括:
将M维高维特征向量中的各个维数分别除以N,得到相应的余数,其中,N为大于等于1小于M的自然数;
将所有余数相同的高维特征向量的维作为N维模板特征向量的一个维;
将所述所有余数相同的高维特征向量的维中的实数值相加,作为所述N维模板特征向量相应维的实数值。
7.根据权利要求1所述的方法,其特征在于,所述对所述模板特征向量计算网页结构相似性,并进行查找或类聚包括:
设置至少一套网格;
将所述模板特征向量中每一维上的实数值以预定间隔离散为整数值;
将所述模板特征向量映射到所述至少一套网格中;
根据所述整数值将所述模板特征向量在所述至少一套网格中进行排序;
查找所有与给定模板特征向量在同一网格内的同网格模板特征向量;
采用预定算法分别计算所有同网格模板特征向量和所述给定模板特征向量的网页的结构相似度。
8.根据权利要求1所述的方法,其特征在于,所述对所述模板特征向量计算网页结构相似性,并进行查找或类聚包括:
设置至少一套网格;
将所述模板特征向量中每一维上的实数值以预定间隔离散为整数值;
将所述模板特征向量映射到所述至少一套网格中;
根据所述整数值将所述模板特征向量在所述至少一套网格中进行排序;
在每一个网格内部基于预定算法将所述模板特征向量进行类聚,得到网页结构相似的模板特征向量的集合;
在一套网格之间将网页结构相似的所述集合合并,确定网页结构相似的模板特征向量的最终类聚结果。
9.根据权利要求7或8所述的方法,其特征在于,所述预定算法包括:
实数向量的距离度量、或实数向量的相似性度量、或伪距离,其中所述伪距离是指:两个模板特征向量中每一维的差的和除以每一维共同部分的和。
10.一种网页结构相似性确定装置,其特征在于,包括:
提取模块,用于根据网页的DOM树提取网页的模板特征向量;
处理模块,用于对所述模板特征向量计算网页结构相似性,并进行查找或类聚。
11.根据权利要求10所述的装置,其特征在于,所述提取模块具体包括:
划分模块,用于将所述DOM树中的节点或节点的组合划分为不同的特征单元;
第一确定模块,用于确定所述特征单元映射到高维特征向量后所在的维数;
第二确定模块,用于根据所述特征单元在所述DOM树中的权重值确定所述特征单元在所述维数上的实数值,得到高维特征向量;
压缩模块,用于将所述高维特征向量进行压缩,得到最终的所述模板特征向量。
12.根据权利要求11所述的装置,其特征在于,所述第一确定模块包括:
拼接模块,用于将所述特征单元的信息拼接为字符串;
哈希运算模块,用于对所述字符串进行哈希运算,得到哈希运算结果,并将所述哈希运算结果作为所述特征单元映射到高维特征向量后所在的维数。
13.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:
权重值确定模块,用于根据预定规则确定所述特征单元在所述DOM树中的权重值。
14.根据权利要求11所述的装置,其特征在于,所述压缩模块包括:
第一处理子模块,用于将M维高维特征向量中的各个维数分别除以N,得到相应的余数,其中,N为大于等于1小于M的自然数;
第二处理子模块,用于将所有余数相同的高维特征向量的维作为N维模板特征向量的一个维;
第三处理子模块,用于将所述所有余数相同的高维特征向量的维中的实数值相加,作为所述N维模板特征向量相应维的实数值。
15.根据权利要求10所述的装置,其特征在于,所述处理模块具体包括:
设置模块,用于设置至少一套网格;
离散模块,用于将所述模板特征向量中每一维上的实数值以预定间隔离散为整数值;
映射模块,用于将所述模板特征向量映射到所述至少一套网格中;
排序模块,用于根据所述整数值将所述模板特征向量在所述至少一套网格中进行排序;
查找模块,用于所有与给定模板特征向量在同一网格内的同网格模板特征向量;
第一计算模块,用于采用预定算法分别计算所有同网格模板特征向量和所述给定模板特征向量的网页的结构相似度;
类聚模块,用于在每一个网格内部基于预定算法将所述模板特征向量进行类聚,得到网页结构相似的模板特征向量的集合;
合并模块,用于在一套网格之间将网页结构相似的所述集合合并,确定网页结构相似的模板特征向量的最终类聚结果。
CN2009102352786A 2009-09-29 2009-09-29 网页结构相似性确定方法及装置 Active CN101694668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102352786A CN101694668B (zh) 2009-09-29 2009-09-29 网页结构相似性确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102352786A CN101694668B (zh) 2009-09-29 2009-09-29 网页结构相似性确定方法及装置

Publications (2)

Publication Number Publication Date
CN101694668A true CN101694668A (zh) 2010-04-14
CN101694668B CN101694668B (zh) 2012-04-18

Family

ID=42093641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102352786A Active CN101694668B (zh) 2009-09-29 2009-09-29 网页结构相似性确定方法及装置

Country Status (1)

Country Link
CN (1) CN101694668B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004805A (zh) * 2010-12-30 2011-04-06 上海交通大学 基于最大相似性匹配的网页去噪系统及其去噪方法
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置
CN102375847A (zh) * 2010-08-17 2012-03-14 富士通株式会社 形成用于生成文档模板的合并树的方法以及装置
CN102385590A (zh) * 2010-09-02 2012-03-21 宏达国际电子股份有限公司 网页检视方法及系统
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN103218358A (zh) * 2012-01-18 2013-07-24 百度在线网络技术(北京)有限公司 一种Diff打分方法以及系统
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备
CN103577526A (zh) * 2013-08-01 2014-02-12 星云融创(北京)信息技术有限公司 一种验证页面是否被修改的方法、系统及浏览器
CN103744987A (zh) * 2014-01-20 2014-04-23 深圳市佳创视讯技术股份有限公司 基于dom树匹配的视频网站媒资聚合方法和系统
CN104965871A (zh) * 2015-06-09 2015-10-07 北京金山安全软件有限公司 页面的加载方法、装置和电子设备
CN106294513A (zh) * 2015-06-11 2017-01-04 阿里巴巴集团控股有限公司 网页显示一致性检测方法和装置
CN107204960A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN107368294A (zh) * 2017-05-25 2017-11-21 阿里巴巴集团控股有限公司 应用原型生成方法、模板训练方法、装置及系统
CN107438053A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 域名识别方法、装置及服务器
CN107688577A (zh) * 2016-08-04 2018-02-13 广州市动景计算机科技有限公司 页面资源过滤方法、装置和客户端设备
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108733405A (zh) * 2017-04-13 2018-11-02 富士通株式会社 训练网页分布式表示模型的方法和装置
CN112668309A (zh) * 2020-11-25 2021-04-16 紫光云技术有限公司 一种融合压缩dom树结构向量的网络行为预测模型
CN114783085A (zh) * 2022-03-21 2022-07-22 南京信息工程大学 一种基于人脸识别的新型共享单车

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809695B2 (en) * 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
CN101408893A (zh) * 2008-11-26 2009-04-15 哈尔滨工业大学 一种快速文档聚类方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置
CN102375847B (zh) * 2010-08-17 2014-06-04 富士通株式会社 形成用于生成文档模板的合并树的方法以及装置
CN102375847A (zh) * 2010-08-17 2012-03-14 富士通株式会社 形成用于生成文档模板的合并树的方法以及装置
CN102385590A (zh) * 2010-09-02 2012-03-21 宏达国际电子股份有限公司 网页检视方法及系统
CN102004805B (zh) * 2010-12-30 2013-06-19 上海交通大学 基于最大相似性匹配的网页去噪系统及其去噪方法
CN102004805A (zh) * 2010-12-30 2011-04-06 上海交通大学 基于最大相似性匹配的网页去噪系统及其去噪方法
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN102890681B (zh) * 2011-07-20 2016-03-09 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN103218358A (zh) * 2012-01-18 2013-07-24 百度在线网络技术(北京)有限公司 一种Diff打分方法以及系统
CN103544176B (zh) * 2012-07-13 2018-08-10 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备
CN103577526A (zh) * 2013-08-01 2014-02-12 星云融创(北京)信息技术有限公司 一种验证页面是否被修改的方法、系统及浏览器
CN103744987A (zh) * 2014-01-20 2014-04-23 深圳市佳创视讯技术股份有限公司 基于dom树匹配的视频网站媒资聚合方法和系统
CN103744987B (zh) * 2014-01-20 2017-01-11 深圳市佳创视讯技术股份有限公司 基于dom树匹配的视频网站媒资聚合方法和系统
CN104965871A (zh) * 2015-06-09 2015-10-07 北京金山安全软件有限公司 页面的加载方法、装置和电子设备
CN106294513B (zh) * 2015-06-11 2019-08-30 阿里巴巴集团控股有限公司 网页显示一致性检测方法和装置
CN106294513A (zh) * 2015-06-11 2017-01-04 阿里巴巴集团控股有限公司 网页显示一致性检测方法和装置
CN107204960A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN107438053B (zh) * 2016-05-25 2020-08-25 阿里巴巴集团控股有限公司 域名识别方法、装置及服务器
CN107438053A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 域名识别方法、装置及服务器
CN107688577A (zh) * 2016-08-04 2018-02-13 广州市动景计算机科技有限公司 页面资源过滤方法、装置和客户端设备
CN108733405A (zh) * 2017-04-13 2018-11-02 富士通株式会社 训练网页分布式表示模型的方法和装置
CN107368294A (zh) * 2017-05-25 2017-11-21 阿里巴巴集团控股有限公司 应用原型生成方法、模板训练方法、装置及系统
CN107368294B (zh) * 2017-05-25 2020-06-05 阿里巴巴集团控股有限公司 应用原型生成方法、模板训练方法、装置及系统
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108021692B (zh) * 2017-12-18 2022-03-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN112668309A (zh) * 2020-11-25 2021-04-16 紫光云技术有限公司 一种融合压缩dom树结构向量的网络行为预测模型
CN112668309B (zh) * 2020-11-25 2023-03-07 紫光云技术有限公司 一种融合压缩dom树结构向量的网络行为预测方法
CN114783085A (zh) * 2022-03-21 2022-07-22 南京信息工程大学 一种基于人脸识别的新型共享单车

Also Published As

Publication number Publication date
CN101694668B (zh) 2012-04-18

Similar Documents

Publication Publication Date Title
CN101694668B (zh) 网页结构相似性确定方法及装置
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN107807987B (zh) 一种字符串分类方法、系统及一种字符串分类设备
CN106294350B (zh) 一种文本聚合方法及装置
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
Bronzi et al. Extraction and integration of partially overlapping web sources
Chung A Brief Survey of PageRank Algorithms.
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
JP2016201153A (ja) 検索方法、検索装置及び検索エンジンシステム
CN103577394B (zh) 一种基于双数组搜索树的机器翻译方法和装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN110309446A (zh) 文本内容快速去重方法、装置、计算机设备及存储介质
WO2014210387A2 (en) Concept extraction
CN101950312A (zh) 一种互联网网页内容解析方法
CN110019669B (zh) 一种文本检索方法及装置
CN107330009B (zh) 主题词分类模型创建方法、创建装置及存储介质
CN111708805A (zh) 数据查询方法、装置、电子设备及存储介质
CN111241410A (zh) 一种行业新闻推荐方法及终端
Grigalis Towards web-scale structured web data extraction
CN109308311A (zh) 一种多源异构数据融合系统
Markov et al. Natural Language Addressing
US20120005207A1 (en) Method and system for web extraction
CN111898351B (zh) 基于Aviator的Excel数据自动导入方法、装置、终端设备及存储介质
CN109948040A (zh) 对象信息的存储、推荐方法及系统、设备和存储介质
CN115062206B (zh) 一种网页元素的搜索方法和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING BAIDU NETWORK INFORMATION TECHNOLOGY CO.,

Free format text: FORMER OWNER: BAIDU ON LINE NETWORK TECH. (BEIJING) CO., LTD.

Effective date: 20120121

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100080 HAIDIAN, BEIJING TO: 100085 HAIDIAN, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20120121

Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 12 floor

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant