CN103049562A - 一种识别相似网页的方法及装置 - Google Patents

一种识别相似网页的方法及装置 Download PDF

Info

Publication number
CN103049562A
CN103049562A CN2012105903335A CN201210590333A CN103049562A CN 103049562 A CN103049562 A CN 103049562A CN 2012105903335 A CN2012105903335 A CN 2012105903335A CN 201210590333 A CN201210590333 A CN 201210590333A CN 103049562 A CN103049562 A CN 103049562A
Authority
CN
China
Prior art keywords
webpage
similarity
html element
information
element prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105903335A
Other languages
English (en)
Other versions
CN103049562B (zh
Inventor
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Gaohang Intellectual Property Operation Co ltd
Ren Fangkun
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210590333.5A priority Critical patent/CN103049562B/zh
Publication of CN103049562A publication Critical patent/CN103049562A/zh
Application granted granted Critical
Publication of CN103049562B publication Critical patent/CN103049562B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种识别相似网页的方法及装置,属于计算机技术领域。所述方法包括:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。本发明通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。

Description

一种识别相似网页的方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种识别相似网页的方法及装置。
背景技术
随着互联网的普及和发展,无论是网站数量还是网站下的网页数量,都呈现爆炸式增长。由此产生了许多新兴的互联网服务,如网页聚类,网页分类等服务,这些服务都是根据网页呈现的信息为网页进行分类,由此提供更好的用户体验。在对网页进行分类时,需要对待分类网页进行相似性判断,找到与待分类网页相似的已知类别的网页即可确定待分类网页的类别。
网页是由HTML(Hypertext Markup Language,超文本标记语言)元素信息构成,因此某些HTML元素信息的组合对一个网页来说是特有的,这就构成了网页的特征,通过人工整理出网页的特征并建立样本库,识别出含有同样特征的网页即可为待分类网页进行分类。另一种方式是将网页转化为图像,然后对该图像的水平和竖直方向分割成一组小的图像,分别计算每个图像的直方图,每个网页对应一组直方图,通过比较待分类网页与已知分类网页的两组直方图的相似性,为待分类网页进行分类。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
通过人工收集网页的特征,耗费时间过长且效率低下;通过直方图判断网页的相似性时,由于不记录每个图片中的颜色信息在图片中的位置,因此只要图片中的颜色信息相似度高则判断为相似,因此对网页的误判率较高,会被确定为错误的类别。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种识别相似网页的方法及装置。所述技术方案如下:
第一方面,本发明实施例提供的一种识别相似网页的方法包括:
分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
在第一方面的第一种可能的实现方式中,所述分别获取待分类的第一网页和已知类别信息的第二网页的超文本标记语言HTML元素信息,包括:
根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息;
在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;
分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合;
删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息,包括:
将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度,包括:
获取所述第一序列集合包括的HTML元素信息的第一数量;
获取所述第二序列集合包括的HTML元素信息的第二数量;
根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度,包括:
若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。
在第一方面的第五种可能的实现方式中,所述确定所述第一网页和所述第二网页为相似网页之后,所述方法还包括:
获取所述第二网页的类别信息;
将所述第一网页的类别信息设置为所述第二网页的类别信息。
第二方面,本发明实施例提供的一种识别相似网页的装置包括:
第一获取模块,用于分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
计算模块,用于根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
确定模块,用于当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
在第二方面的第一种可能的实现方式中,所述第一获取模块,包括:
第一获取单元,用于根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息;
第二获取单元,用于在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;
生成单元,用于分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合;
删除单元,用于删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述删除单元,包括:
第一删除子单元,用于将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
第二删除子单元,用于将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
结合第二方面的第一种可能的实现方式,在第三种可能的实现方式中,所述计算模块,包括:
第三获取单元,用于获取所述第一序列集合包括的HTML元素信息的第一数量;
第四获取单元,用于获取所述第二序列集合包括的HTML元素信息的第二数量;
计算单元,用于根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述计算单元,包括:
第一计算子单元,用于若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
第二计算子单元,用于若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
第三计算子单元,用于若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。
在第二方面的第五种可能的实现方式中,所述装置还包括:
第二获取模块,用于获取所述第二网页的类别信息;
设置模块,用于将所述第一网页的类别信息设置为所述第二网页的类别信息。
本发明实施例提供的技术方案带来的有益效果是:
通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的识别相似网页的方法流程图;
图2是本发明实施例二提供的识别相似网页的方法流程图;
图3是本发明实施例二提供的DOM结构信息结构示意图;
图4是本发明实施例三提供的识别相似网页的装置结构示意图;
图5是本发明实施例四提供的识别相似网页的装置结构示意图;
图6是本发明实施例五提供的识别相似网页的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种识别相似网页的方法,参见图1,方法流程包括:
101:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
102:根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
103:当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
本发明实施例通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。
实施例二
本发明实施例提供了一种识别相似网页的方法,参见图2,方法流程包括:
201:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息。
步骤201可以具体为:
2011:根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息。
通过网页爬虫爬取指定的URL对应的待分类的第一网页的网页信息,其中网页信息为该网页的HTML代码,从HTML代码中获取第一网页的DOM结构信息。
2012:在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息。
第二网页泛指在已知类别网页数据库中的网页,在查找待分类的第一网页的类别时将已知类别网页数据库中的已知类别信息的网页与第一网页进行相似度计算。因此第二网页可以为已知类别网页数据库中的任一网页,在已知类别网页数据库中获取第二网页,第二网页的DOM结构信息在已知类别网页数据库中是已经存在的信息。
例如:一段网页的HTML代码如下:
Figure BDA00002693057900061
Figure BDA00002693057900071
获取到的该网页对应的DOM结构信息如图3所示。
2013:分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合。
对DOM结构信息进行广度优先遍历,其中广度优先遍历是从DOM结构信息中的顶点出发,首先访问这个顶点,然后找出这个结点的所有未被访问的邻接点,访问完后再访问这些结点中第一个邻接点的所有结点,重复此方法直到所有结点都被访问完为止。在DOM结构信息中进行广度优先遍历后得到的是该网页对应的序列集合。
进一步的,以步骤2012中的例子为例,该网页的DOM结构信息经过广度优先遍历后得到的序列集合如表1所示:
序列的项的编号 序列的项
1 head
2 body
3 title
4 meta
5 form
6 table
7 input
8 tr
9 tr
10 td
11 td
12 td
13 td
14 img
15 input
16 img
17 input
表1
2014:删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
在HTML元素信息的序列集合中有一些HTML元素是与网页结构没有直接联系的,只保留对网页结构有关系的HTML元素信息。其中预设的与网页结构相关的的HTML元素信息列表可以如表2所示,其中并不限定该表中的元素信息内容,一切与网页结构相关的HTML元素信息都可属于该预设的与网页结构相关的的HTML元素信息列表中。
HTML元素 说明
<form> 表单
<frame> 框架
<frameset> 框架集
<iframe> 内联框架
<img> 嵌入的图像
<input type="button"> 按钮
<input type="checkbox"> 选择框
<input type="file"> 文件上传框
<input type="password"> 密码域
<input type="radio"> 单选按钮
<input type="reset″> 重置按钮
<input type="submit"> 提交按钮
<input type="text″> 文本框
<select> 下拉列表
<table> 表格
<textarea> 文本区
表2
因此在去除其他对网页结构无关的代码后,表1中的HTML元素信息的序列集合如表3所示:
序列的项的编号 序列的项
1 form
2 table
3 input
4 img
5 input
6 img
7 input
表3
因此步骤2014可以具体为:
20141:将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
20142:将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
202:根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度。
步骤202可以具体为:
2021:获取所述第一序列集合包括的HTML元素信息的第一数量。
根据序列集合中的项的编号获取第一网页的HTML元素信息的序列集合中元素信息的数量。
2022:获取所述第二序列集合包括的HTML元素信息的第二数量。
根据序列集合中的项的编号获取第二网页的HTML元素信息的序列集合中元素信息的数量。
2023:根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
以第一数量或第二数量中小的数量作为依据,在第一序列集合或第二序列集合中重新选取序列集合中的内容,然后对选取后的第一序列集合和第二序列集合进行相似度计算。
因此步骤2023可以具体为:
20231:若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
20232:若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
20233:若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。
203:当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
预设阈值是通过人工随机选择大量网页进行分拣,标识出相似网页和不相似网页,分别计算网页的序列的相似度,并综合考虑准确率和召回率,最终确定的预设相似阈值。
进一步的,若选取的第二网页与第一网页不相似,则在已知类别网页数据库中继续获取另一个网页作为第二网页,与第一网页重新进行相似网页的识别过程,直至找到与第一网页相似的网页为止。之后执行将识别到的第二网页的类别信息设置为第一网页的类别信息的过程,执行步骤204和步骤205。
204:获取所述第二网页的类别信息。
205:将所述第一网页的类别信息设置为所述第二网页的类别信息。
设置后将第一网页的类别信息保存在已知类别网页数据库中。对于终端用户而言,在通过网关上网的时候,网关会到已知类别网页数据库中检索终端用户所访问的网页的分类,并根据管控策略对用户行为进行日志记录,若用户访问的是非法的网站,则进行阻断的操作。
本发明实施例通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。
实施例三
本发明实施例提供了一种识别相似网页的装置,参见图4,装置包括:
第一获取模块401,用于分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
计算模块402,用于根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
确定模块403,用于当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
本发明实施例通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。
实施例四
本发明实施例提供了一种识别相似网页的装置,参见图5,装置包括:
第一获取模块501,用于分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
计算模块502,用于根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
确定模块503,用于当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
在具体实施方式中,所述第一获取模块501,包括:
第一获取单元5011,用于根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息;
第二获取单元5012,用于在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;
生成单元5013,用于分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合;
删除单元5014,用于删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
其中,所述删除单元5014,包括:
第一删除子单元50141,用于将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
第二删除子单元50142,用于将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
其中,所述计算模块502,包括:
第三获取单元5021,用于获取所述第一序列集合包括的HTML元素信息的第一数量;
第四获取单元5022,用于获取所述第二序列集合包括的HTML元素信息的第二数量;
计算单元5023,用于根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
其中,所述计算单元5023,包括:
第一计算子单元50231,用于若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
第二计算子单元50232,用于若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
第三计算子单元50233,用于若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。
其中,所述装置还包括:
第二获取模块504,用于获取所述第二网页的类别信息;
设置模块505,用于将所述第一网页的类别信息设置为所述第二网页的类别信息。
本发明实施例通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。
实施例五
本发明实施例提供了一种识别相似网页的装置,参见图6,装置包括:
存储器601和至少一个处理器602,所述处理器602被配置为执行如下显示图片的操作:
分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
所述分别获取待分类的第一网页和已知类别信息的第二网页的超文本标记语言HTML元素信息,包括:
根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息;
在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;
分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合;
删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
所述删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息,包括:
将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
所述根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度,包括:
获取所述第一序列集合包括的HTML元素信息的第一数量;
获取所述第二序列集合包括的HTML元素信息的第二数量;
根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
所述根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度,包括:
若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。
所述确定所述第一网页和所述第二网页为相似网页之后,所述方法还包括:
获取所述第二网页的类别信息;
将所述第一网页的类别信息设置为所述第二网页的类别信息。
本发明实施例通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种识别相似网页的方法,其特征在于,所述方法包括:
分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
2.根据权利要求1所述的方法,其特征在于,所述分别获取待分类的第一网页和已知类别信息的第二网页的超文本标记语言HTML元素信息,包括:
根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息;
在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;
分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合;
删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
3.根据权利要求2所述的方法,其特征在于,所述删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息,包括:
将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度,包括:
获取所述第一序列集合包括的HTML元素信息的第一数量;
获取所述第二序列集合包括的HTML元素信息的第二数量;
根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度,包括:
若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。
6.根据权利要求1所述的方法,其特征在于,所述确定所述第一网页和所述第二网页为相似网页之后,所述方法还包括:
获取所述第二网页的类别信息;
将所述第一网页的类别信息设置为所述第二网页的类别信息。
7.一种识别相似网页的装置,其特征在于,所述装置包括:
第一获取模块,用于分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
计算模块,用于根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
确定模块,用于当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
8.根据权利要求7所述的装置,其特征在于,所述第一获取模块,包括:
第一获取单元,用于根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息;
第二获取单元,用于在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;
生成单元,用于分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合;
删除单元,用于删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
9.根据权利要求8所述的装置,其特征在于,所述删除单元,包括:
第一删除子单元,用于将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
第二删除子单元,用于将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
10.根据权利要求8所述的装置,其特征在于,所述计算模块,包括:
第三获取单元,用于获取所述第一序列集合包括的HTML元素信息的第一数量;
第四获取单元,用于获取所述第二序列集合包括的HTML元素信息的第二数量;
计算单元,用于根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
11.根据权利要求10所述的装置,其特征在于,所述计算单元,包括:
第一计算子单元,用于若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
第二计算子单元,用于若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
第三计算子单元,用于若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述第二网页的类别信息;
设置模块,用于将所述第一网页的类别信息设置为所述第二网页的类别信息。
CN201210590333.5A 2012-12-31 2012-12-31 一种识别相似网页的方法及装置 Expired - Fee Related CN103049562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210590333.5A CN103049562B (zh) 2012-12-31 2012-12-31 一种识别相似网页的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210590333.5A CN103049562B (zh) 2012-12-31 2012-12-31 一种识别相似网页的方法及装置

Publications (2)

Publication Number Publication Date
CN103049562A true CN103049562A (zh) 2013-04-17
CN103049562B CN103049562B (zh) 2016-07-13

Family

ID=48062203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210590333.5A Expired - Fee Related CN103049562B (zh) 2012-12-31 2012-12-31 一种识别相似网页的方法及装置

Country Status (1)

Country Link
CN (1) CN103049562B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN105574004A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN107357716A (zh) * 2016-05-10 2017-11-17 富士通株式会社 用于选取网页的装置和方法
CN108733405A (zh) * 2017-04-13 2018-11-02 富士通株式会社 训练网页分布式表示模型的方法和装置
CN110134464A (zh) * 2018-02-02 2019-08-16 富士通株式会社 信息处理方法和装置
CN110912918A (zh) * 2019-12-02 2020-03-24 泰康保险集团股份有限公司 页面修复方法及装置
CN110991509A (zh) * 2019-11-25 2020-04-10 杭州安恒信息技术股份有限公司 基于人工智能技术的资产识别与信息分类方法
CN112148943A (zh) * 2020-09-27 2020-12-29 北京天融信网络安全技术有限公司 网页分类方法、装置、电子设备及可读存储介质
CN109977337B (zh) * 2019-02-25 2022-08-09 北京三快在线科技有限公司 一种网页设计对比方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冯少卿等: "网页结构模板生成新方法研究", 《北京机械工业学院学报》 *
李文立 等: "基于 HTML 树和模板的文献信息提取方法研究", 《计算机应用研究》 *
李文立 等: "基于 HTML 树和模板的文献信息提取方法研究", 《计算机应用研究》, vol. 27, no. 12, 31 December 2010 (2010-12-31), pages 4615 - 4617 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133870B (zh) * 2014-07-22 2017-06-09 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN105574004B (zh) * 2014-10-10 2019-06-21 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN105574004A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN107357716A (zh) * 2016-05-10 2017-11-17 富士通株式会社 用于选取网页的装置和方法
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN108733405A (zh) * 2017-04-13 2018-11-02 富士通株式会社 训练网页分布式表示模型的方法和装置
CN110134464A (zh) * 2018-02-02 2019-08-16 富士通株式会社 信息处理方法和装置
CN109977337B (zh) * 2019-02-25 2022-08-09 北京三快在线科技有限公司 一种网页设计对比方法、装置、设备及可读存储介质
CN110991509A (zh) * 2019-11-25 2020-04-10 杭州安恒信息技术股份有限公司 基于人工智能技术的资产识别与信息分类方法
CN110991509B (zh) * 2019-11-25 2023-08-01 杭州安恒信息技术股份有限公司 基于人工智能技术的资产识别与信息分类方法
CN110912918A (zh) * 2019-12-02 2020-03-24 泰康保险集团股份有限公司 页面修复方法及装置
CN112148943A (zh) * 2020-09-27 2020-12-29 北京天融信网络安全技术有限公司 网页分类方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN103049562B (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
CN103049562A (zh) 一种识别相似网页的方法及装置
US10572565B2 (en) User behavior models based on source domain
CN108256104B (zh) 基于多维特征的互联网网站综合分类方法
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
CN102831199B (zh) 建立兴趣模型的方法及装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN109344262B (zh) 知识体系的建立方法、装置及存储介质
CN102253937B (zh) 获取网页中的感兴趣信息的方法及相关装置
US8271495B1 (en) System and method for automating categorization and aggregation of content from network sites
CN103546326B (zh) 一种网站流量统计的方法
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN110427884B (zh) 文档篇章结构识别方法、装置、设备和存储介质
CN106126648A (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN109165373B (zh) 一种数据处理方法及装置
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和系统
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置
CN109816004A (zh) 房源图片分类方法、装置、设备及存储介质
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN112269906A (zh) 网页正文的自动抽取方法及装置
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法
CN108875060B (zh) 一种网站识别方法及识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191211

Address after: No.38 Yonghe Road, South Street, dabeiwang Town, Yongnian County, Handan City, Hebei Province

Patentee after: Ren Fangkun

Address before: 510000 unit 2414-2416, building, No. five, No. 371, Tianhe District, Guangdong, China

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Effective date of registration: 20191211

Address after: 510000 unit 2414-2416, building, No. five, No. 371, Tianhe District, Guangdong, China

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160713