CN101093485A - 一种网页重复内容过滤方法 - Google Patents
一种网页重复内容过滤方法 Download PDFInfo
- Publication number
- CN101093485A CN101093485A CNA2006100280597A CN200610028059A CN101093485A CN 101093485 A CN101093485 A CN 101093485A CN A2006100280597 A CNA2006100280597 A CN A2006100280597A CN 200610028059 A CN200610028059 A CN 200610028059A CN 101093485 A CN101093485 A CN 101093485A
- Authority
- CN
- China
- Prior art keywords
- server
- website
- web page
- webpage
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种网页重复内容过滤方法,包括文件服务器、网页内容提取服务器、网页过滤服务器、爬虫服务器。与现有技术相比,本发明有效的遏制利用拷贝别人的作品来谋求利益的行为,而且减少了大量重复的信息,使搜索结果更精简,提高了用户的搜索效率,同时也保护了原作者的版权不受肆意侵犯。
Description
技术领域
本发明涉及网页内容,特别是涉及一种网页重复内容过滤方法。
背景技术
在互联网上,很多人网站都转载别人的文章,这种势头在博客出来之后越来越加剧。大量的重复信息加大了信息采集的工作量,也占用了很多存储空间。在对这些信息的检索中,用户在搜索同一个关键字的时候往往会出现大量同样的结果,用户需要翻多个页面之后才能找到所要的信息,这个使用户感到不方便。同时这个也是对原作者的版权的不尊重,面对这种情况,现有的搜索引擎还没有出现好的解决方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种网页重复内容过滤方法。
本发明的目的可以通过以下技术方案来实现:一种网页重复内容过滤方法,其特征在于,包括文件服务器、网页内容提取服务器、网页过滤服务器、爬虫服务器,该方法包括以下步骤:
a.爬虫服务器把从网页抓取下来的数据发送到网页内容提取服务器;
b.网页内容提取服务器分析来自爬虫服务器的数据,把内容提取出来,并且使用哈希算法对所提取的内容进行哈希获得哈希码,然后把哈希码和内容、抓取的时间等信息一起存入放到文件服务器;
c.网页过滤服务器分析内容服务器里面的信息,对每个由步骤b中获得的哈希码出现冲突的网站中出现冲突的数量,对冲突的数量和该网站的网页数量设定一个阀值,如果一个网站的冲突的数量和该网站的网页数量高于该阀值,则直接通知爬虫服务器,禁止该网站,并过滤掉该网页的所有内容,如果低于该阀值而且抓取的时间较早,则提高该网页的重要性,否则降低该网页的重要性或过滤掉。
所述的文件服务器可以采用NDFS(Distributed Nutch File System,分布式Nutch文件系统)或Google File System(Google文件系统),也可以采用其它普通的文件系统。
所述的爬虫服务器采用开源爬虫程序larbin。
所述的哈希算法可以采用MD4或SHA1哈希算法,也可以采用私有的哈希算法。
所述的私有的哈希算法可以采用在文章中采样部分文字进行内码相加。
该方法通过用转载文章数量除以网站网页数量的方法计算出每个出现哈希值有冲突网站的转载率,并与阀值相比较,把高于阀值的网站列入黑名单,通知larbin禁止对该网站的抓取,删除文件服务器上有关该网站的数据;否则对剩下的网站按抓取时间进行排序,抓取时间早的则提高这个网站拥有该哈希值的网页的得分,对抓取时间晚的则降低得分。
与现有技术相比,本发明有效的遏制利用拷贝别人的作品来谋求利益的行为,而且减少了大量重复的信息,使搜索结果更精简,提高了用户的搜索效率,同时也保护了原作者的版权不受肆意侵犯。
附图说明
图1为本发明的原理框图;
图2为本发明的网页内容过滤的原理框图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1、图2所示,本实施例由文件服务器、网页内容提取服务器、网页过滤器服务器以及爬虫服务器组成。这些服务器是指服务器程序而不是指硬件。
文件服务器可以是NDFS(Distributed Nutch File System,分布式Nutch文件系统)或google公司的Google File System(Google文件系统),也可以是其它普通的文件系统。用来存放提取的内容等等。
内容提取服务器用于分析网页布局,提取网页内容。
网页过滤服务器比较网页内容是否存重复,统计某个网站重复网页的数量,对每个网站的原创性进行评价,降低转载的信息特别突出的网站的网页的重要性指数,过滤一些重复的信息,严重者禁止爬虫服务器到该网站抓取信息。
爬虫服务器主要是用来抓取信息,比如下载网页等。
本方案的硬件系统可以是在一个网络内的多个计算机组成,也可以是一台计算机。所用的计算机可以是联想,IBM,戴尔,神舟等品牌的计算机。
本实施例内容如下:
1)爬虫服务器把网页抓取下来后把下载下来的数据发送到内容提取服务器。
2)内容服务器分析提取出来的数据,把内容提取出来,这里指的内容是指去除网页所要表现的主题信息。并且使用哈希算法对所提取的内容进行哈希获得哈希码,然后把哈希码和内容、抓取的时间等信息一起存入放到文件服务器。这里的哈希算法可以是MD4,SHA1等著名的哈希算法,也可以是私有的哈希算法如把每个文章的每个字节的值加起来等等。
3)网页过滤程序分析内容服务器里面的信息,计算出每个由2)中获得的哈希码出现冲突的网站中出现冲突的数量,对冲突的数量和该网站的网页数量设定一个阀值,如果一个网站的冲突的数量和该网站的网页数量高于该阀值,则直接通知爬虫服务器,禁止该网站,并过滤掉该网页的所有内容,如果低于该阀值而且抓取的时间较早,则提高该网页的重要性,否则降低该网页的重要性或过滤掉。
爬虫程序采用了开源爬虫程序larbin,文件系统采用了Nutch NDFS。由于larbin是用c++开发的,执行效率很高,一个简单的larbin的爬虫可以每天获取500万的网页。而Nutch NDFS分布式文件系统有很强的伸缩性,是用Java写的。为了让这两个用不同语言写的程序一起工作,这里做了一些修改。还有,内容取程序没有什么现成的程序,需要自己写新的提取程序。
实施过程为:
1)larbin爬虫从网上抓取网页,由于对它进行修改,它的输出进入到了内容提取程序里面。
2)内容根据网页的布局和其他特征提取了网页所发布的文章的内容,计算每个文章的哈希值。由于文章在转载过程中很容易丢失内容或被转载者加入一些内容,甚至广告等,在这里采用了一种哈希算法,具体是在文章中采样部分文字进行内码相加,如每隔10个字采样一次。把哈希值和章内容,抓取时间存入NDFS。
3)对2)中的哈希值进行统计,用转载文章数量除以网站网页数量的方法计算出每个出现哈希值有冲突网站的转载率。
4)对于步骤3)中获得的转载率与阀值相比较,高于阀值的进入步骤5),否则跳过步骤5)。因为很多门户网站都有大量的转载行为,应此在这里可以把阀值调高一点,也可以采用其它智能算法。
5)把高于阀值的网站列入黑名单,通知larbin禁止对该网站的抓取,删除NDFS上有关该网站的数据,流程结束。
6)对剩下的网站按抓取时间进行排序,抓取时间早的则提高这个网站拥有该哈希值的网页的得分,流程结束。
7)对抓取时间晚的则降低得分,流程结束。
Claims (6)
1.一种网页重复内容过滤方法,其特征在于,包括文件服务器、网页内容提取服务器、网页过滤服务器、爬虫服务器,该方法包括以下步骤:
a.爬虫服务器把从网页抓取下来的数据发送到网页内容提取服务器;
b.网页内容提取服务器分析来自爬虫服务器的数据,把内容提取出来,并且使用哈希算法对所提取的内容进行哈希获得哈希码,然后把哈希码和内容、抓取的时间等信息一起存入放到文件服务器;
c.网页过滤服务器分析内容服务器里面的信息,对每个由步骤b中获得的哈希码出现冲突的网站中出现冲突的数量,对冲突的数量和该网站的网页数量设定一个阀值,如果一个网站的冲突的数量和该网站的网页数量高于该阀值,则直接通知爬虫服务器,禁止该网站,并过滤掉该网页的所有内容,如果低于该阀值而且抓取的时间较早,则提高该网页的重要性,否则降低该网页的重要性或过滤掉。
2.根据权利要求1所述的一种网页重复内容过滤方法,其特征在于,所述的文件服务器可以采用NDFS(Distributed Nutch File System,分布式Nutch文件系统)或Google File System(Google文件系统),也可以采用其它普通的文件系统。
3.根据权利要求1所述的一种网页重复内容过滤方法,其特征在于,所述的爬虫服务器采用开源爬虫程序larbin。
4.根据权利要求1所述的一种网页重复内容过滤方法,其特征在于,所述的哈希算法可以采用MD4或SHAl哈希算法,也可以采用私有的哈希算法。
5.根据权利要求4所述的一种网页重复内容过滤方法,其特征在于,所述的私有的哈希算法可以采用在文章中采样部分文字进行内码相加。
6.根据权利要求1所述的一种网页重复内容过滤方法,其特征在于,该方法通过用转载文章数量除以网站网页数量的方法计算出每个出现哈希值有冲突网站的转载率,并与阀值相比较,把高于阀值的网站列入黑名单,通知larbin禁止对该网站的抓取,删除文件服务器上有关该网站的数据;否则对剩下的网站按抓取时间进行排序,抓取时间早的则提高这个网站拥有该哈希值的网页的得分,对抓取时间晚的则降低得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100280597A CN101093485A (zh) | 2006-06-22 | 2006-06-22 | 一种网页重复内容过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100280597A CN101093485A (zh) | 2006-06-22 | 2006-06-22 | 一种网页重复内容过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101093485A true CN101093485A (zh) | 2007-12-26 |
Family
ID=38991754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006100280597A Pending CN101093485A (zh) | 2006-06-22 | 2006-06-22 | 一种网页重复内容过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101093485A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169491A (zh) * | 2011-03-25 | 2011-08-31 | 暨南大学 | 一种多数据集中重复记录动态检测方法 |
US8185532B2 (en) | 2008-09-19 | 2012-05-22 | Esobi Inc. | Method for filtering out identical or similar documents |
CN102567313A (zh) * | 2010-12-07 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 递进式网页库去重系统及其实现方法 |
CN102622365A (zh) * | 2011-01-28 | 2012-08-01 | 北京百度网讯科技有限公司 | 一种网页重复的判断系统及其判断方法 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN104021126A (zh) * | 2013-02-28 | 2014-09-03 | 深圳市世纪光速信息技术有限公司 | 网页内容的过滤方法及服务器 |
CN104090976A (zh) * | 2014-07-21 | 2014-10-08 | 北京奇虎科技有限公司 | 搜索引擎爬虫抓取网页的方法及装置 |
CN104657399A (zh) * | 2014-01-03 | 2015-05-27 | 广西科技大学 | 网络爬虫控制方法 |
CN107168997A (zh) * | 2017-03-30 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创评估方法、装置及存储介质 |
CN111460307A (zh) * | 2020-04-03 | 2020-07-28 | 渭南双盈未来科技有限公司 | 一种移动终端精确搜索方法和装置 |
CN112149063A (zh) * | 2020-09-14 | 2020-12-29 | 浙江数秦科技有限公司 | 一种网络图片侵权在线监测方法 |
-
2006
- 2006-06-22 CN CNA2006100280597A patent/CN101093485A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8185532B2 (en) | 2008-09-19 | 2012-05-22 | Esobi Inc. | Method for filtering out identical or similar documents |
CN102567313A (zh) * | 2010-12-07 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 递进式网页库去重系统及其实现方法 |
CN102622365B (zh) * | 2011-01-28 | 2015-04-29 | 北京百度网讯科技有限公司 | 一种网页重复的判断系统及其判断方法 |
CN102622365A (zh) * | 2011-01-28 | 2012-08-01 | 北京百度网讯科技有限公司 | 一种网页重复的判断系统及其判断方法 |
CN102169491B (zh) * | 2011-03-25 | 2012-11-21 | 暨南大学 | 一种多数据集中重复记录动态检测方法 |
CN102169491A (zh) * | 2011-03-25 | 2011-08-31 | 暨南大学 | 一种多数据集中重复记录动态检测方法 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103257957B (zh) * | 2012-02-15 | 2017-09-08 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
CN102799647B (zh) * | 2012-06-30 | 2015-01-21 | 华为技术有限公司 | 网页去重方法和设备 |
US10346257B2 (en) | 2012-06-30 | 2019-07-09 | Huawei Technologies Co., Ltd. | Method and device for deduplicating web page |
CN104021126A (zh) * | 2013-02-28 | 2014-09-03 | 深圳市世纪光速信息技术有限公司 | 网页内容的过滤方法及服务器 |
CN104021126B (zh) * | 2013-02-28 | 2020-02-07 | 深圳市世纪光速信息技术有限公司 | 网页内容的过滤方法及服务器 |
CN104657399A (zh) * | 2014-01-03 | 2015-05-27 | 广西科技大学 | 网络爬虫控制方法 |
CN104090976A (zh) * | 2014-07-21 | 2014-10-08 | 北京奇虎科技有限公司 | 搜索引擎爬虫抓取网页的方法及装置 |
CN104090976B (zh) * | 2014-07-21 | 2017-06-23 | 北京奇虎科技有限公司 | 搜索引擎爬虫抓取网页的方法及装置 |
CN107168997A (zh) * | 2017-03-30 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创评估方法、装置及存储介质 |
CN107168997B (zh) * | 2017-03-30 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创评估方法、装置及存储介质 |
CN111460307A (zh) * | 2020-04-03 | 2020-07-28 | 渭南双盈未来科技有限公司 | 一种移动终端精确搜索方法和装置 |
CN112149063A (zh) * | 2020-09-14 | 2020-12-29 | 浙江数秦科技有限公司 | 一种网络图片侵权在线监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101093485A (zh) | 一种网页重复内容过滤方法 | |
CN103870461B (zh) | 主题推荐方法、装置和服务器 | |
CN104516949B (zh) | 网页数据处理方法和装置、查询处理方法及问答系统 | |
CN108874812B (zh) | 一种数据处理方法及服务器、计算机存储介质 | |
Peters et al. | Content extraction using diverse feature sets | |
CN110390038A (zh) | 基于dom树的页面分块方法、装置、设备及存储介质 | |
CN107437026B (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN102779169A (zh) | 一种基于html标签的网页正文提取方法及装置 | |
CN102156737A (zh) | 一种中文网页主题内容的提取方法 | |
CN103686244A (zh) | 视频数据的管理方法及其系统 | |
CN111104801B (zh) | 基于网址域名的文本分词方法、系统、设备及介质 | |
CN105653949B (zh) | 一种恶意程序检测方法及装置 | |
CN112532624B (zh) | 一种黑链检测方法、装置、电子设备及可读存储介质 | |
CN107463592A (zh) | 用于将内容项目与图像匹配的方法、设备和数据处理系统 | |
CN105302807A (zh) | 一种获取信息类别的方法和装置 | |
CN102682011B (zh) | 建立域名描述名称信息表、搜索的方法、装置及系统 | |
Tanash et al. | The Decline of Social Media Censorship and the Rise of {Self-Censorship} after the 2016 Failed Turkish Coup | |
CN104008213B (zh) | 一种网页信息更新发现与统计的方法和装置 | |
CN103605742A (zh) | 识别网络资源实体目录页的方法及装置 | |
CN107229529A (zh) | 页面内容版权信息管理方法、装置、计算设备及存储介质 | |
CN106250456A (zh) | 一种中标公告的抽取方法及装置 | |
WO2015074455A1 (zh) | 一种计算关联网页URL模式pattern的方法和装置 | |
CN107784054B (zh) | 一种页面发布方法和装置 | |
CN111177518A (zh) | 网页净化方法、系统及计算机可读存储介质 | |
CN111125704A (zh) | 一种网页挂马识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |