CN103399874B - 对同一域名下网页抓取进行优化的方法和装置 - Google Patents
对同一域名下网页抓取进行优化的方法和装置 Download PDFInfo
- Publication number
- CN103399874B CN103399874B CN201310289322.8A CN201310289322A CN103399874B CN 103399874 B CN103399874 B CN 103399874B CN 201310289322 A CN201310289322 A CN 201310289322A CN 103399874 B CN103399874 B CN 103399874B
- Authority
- CN
- China
- Prior art keywords
- url
- webpage
- normalization
- rule
- normalization rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010606 normalization Methods 0.000 claims abstract description 295
- 230000008859 change Effects 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 5
- 238000004321 preservation Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 239000000203 mixture Substances 0.000 abstract description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 230000000052 comparative effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 101150105088 Dele1 gene Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及网络数据通信技术领域,公开了对同一域名下网页抓取进行优化的方法和装置,该装置包括:网页抓取器,适于抓取URL对应的网页,并将抓取到的网页存储;网页数据库,适于存储抓取到的网页;内容对比器,适于对抓取的网页的页面中内容进行比较,查找出重复网页;归一化规则生成器,适于将同一域名下重复网页的URL进行比较,生成用于将同一域名下重复网页URL转换为同一URL的归一化规则;归一化规则库,适于将归一化规则组成归一化规则库并保存;网页抓取器,还适于应用归一化规则库对待抓取网页的URL进行归一化,进行网页抓取。本发明能够解决无法避免抓取同一域名下URL不同而网页内容相同的重复网页的技术问题。
Description
技术领域
本发明涉及网络数据通信技术领域,具体涉及对同一域名下网页抓取进行优化的方法和装置。
背景技术
随着互联网的发展,互联网中信息在急剧增长,近年来互联网中网页数量的年增长率都接近100%,即网页数量的年增长数量在百亿级。因此,用户需要通过搜索引擎来从网络中查找有用信息。
搜索引擎能够对互联网上的网页进行抓取、索引和存储,并根据用户的搜索返回与搜索条件相匹配的网页列表,从而为用户提供所需的网络信息。随着互联网中网页数量的增加,互联网中出现越来越多的重复网页。例如,同一域名下的网页包含大量无关可变参数而导致的同一个网页有多个不同的URL,因此产生大量网页内容相同而URL(统一资源定位符)不同的重复网页。大量重复网页的存在,不仅增加了搜索引擎抓取网页的负担,而且也增加了搜索引擎的索引和存储的负担;同时导致向用户提供的搜索信息中存在大量相同的网页,进而降低了搜索结果的准确率。
现有技术中,消除重复网页的技术方案,仅能够避免搜索引擎抓取URL相同的网页,而无法避免搜索引擎抓取同一域名下URL不同而网页内容相同的重复网页。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的对同一域名下网页抓取进行优化的方法和装置。
依据本发明的一个方面,提供了一种一种对同一域名下网页抓取进行优化的装置,包括:
网页抓取器,适于抓取统一资源定位符URL对应的网页,并将抓取到的网页存储到网页数据库;
网页数据库,适于存储所述抓取到的网页;
内容对比器,适于对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页;
归一化规则生成器,适于将同一域名下所述重复网页的URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则;
归一化规则库,适于将生成的归一化规则组成归一化规则库并保存;
所述网页抓取器,进一步适于应用归一化规则库对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。
可选地,所述归一化规则生成器,进一步适于将同一域名下的重复网页的URL中query部分进行比较,查找出query部分中赋值不同的参量作为无效参量,生成将URL中无效参量去除的归一化规则。
可选地,所述内容对比器,进一步适于对于抓取的网页,根据网页的页面中内容计算网页的特征码,比较网页的特征码,查找出特征码相同的网页作为重复网页。
可选地,所述内容对比器,进一步适于从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串,对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。
可选地,所述归一化规则生成器,进一步适于对同一域名下的URL中无效参量进行出现频率统计,生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。
可选地,所述装置还包括:第一校验器,
所述第一校验器,适于在所述归一化规则生成器生成将URL中无效参量去除的归一化规则后,使用所述归一化规则将所述重复网页的URL进行归一化,指示所述网页抓取器根据归一化后的URL抓取与所述归一化后的URL对应的URL的网页,通过所述内容对比器判断归一化后的URL的网页的内容与所述重复网页的内容是否相同,如果不相同,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。
可选地,所述装置还包括:URL数据库,
所述URL数据库,适于在所述归一化规则生成器生成归一化规则后,使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;
所述装置还包括:第二校验器,
所述第二校验器,适于定期使用归一化规则库中归一化规则将所述URL数据库保存的归一化前的URL进行归一化,判断该归一化后的URL与所述URL数据库保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或
所述第二校验器,适于定期指示所述网页抓取器抓取所述URL数据库保存的归一化前和归一化后的URL的网页,通过所述内容对比器判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
可选地,所述装置可应用于各种搜索引擎中。
根据本法的另一个方面,还提供了一种对同一域名下网页抓取进行优化的方法,所述方法包括:
对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页;
将同一域名下所述重复网页的统一资源定位符URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则;
应用所述归一化规则对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。
可选地,所述将同一域名下所述重复网页的统一资源定位符URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则进一步包括:
将同一域名下的重复网页的URL中query部分进行比较,查找出query部分中赋值不同的参量作为无效参量;
生成将URL中无效参量去除的归一化规则。
可选地,所述对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页进一步包括:
对于抓取的网页,根据网页的页面中内容计算网页的特征码;
比较网页的特征码,查找出特征码相同的网页作为重复网页。
可选地,所述根据网页的内容计算网页的特征码进一步包括:
从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串;
对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。
可选地,所述生成将URL中无效参量去除的归一化规则进一步包括:
对同一域名下的URL中无效参量进行出现频率统计;
生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。
可选地,所述生成将URL中无效参量去除的归一化规则后还包括:
使用所述归一化规则将所述重复网页的URL进行归一化,根据归一化后的URL抓取与所述归一化后的URL对应的URL的网页;
判断归一化后的URL的网页的内容与所述重复网页的内容是否相同;
如果不相同,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。
可选地,所述生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则后还包括:
使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;
所述方法还包括:
定期使用生成的归一化规则将保存的归一化前的URL进行归一化,判断该归一化后的URL与保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或,
定期抓取保存的归一化前和归一化后的URL的网页,判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
通过本发明中的技术方案,对网页内容进行比较,能够确定出除具有相同URL的重复网页之外的其他内容相同的重复网页;通过对确定的同一域名下重复网页的URL的分析得出归一化规则,进而使用归一化规则处理待抓取网页的URL,能够减少抓取到的重复网页的数量。由此,解决了无法避免抓取同一域名下URL不同而网页内容相同的重复网页的技术问题,取得了减轻抓取、索引和存储网页的负担,提高搜索结果的准确率的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的对同一域名下网页抓取进行优化的装置的结构图;
图2示出了根据本发明一个实施例的对同一域名下网页抓取进行优化的装置的结构图;
图3示出了根据本发明一个实施例的一具体实施方式中搜索引擎的结构图;
图4示出了根据本发明一个实施例的一具体实施方式中搜索引擎的结构图;
图5示出了根据本发明一个实施例的对同一域名下网页抓取进行优化的方法的流程图;以及
图6示出了根据本发明一个实施例的对同一域名下网页抓取进行优化的方法中校验归一化规则的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参见图1,示出了根据本发明一个实施例的对同一域名下网页抓取进行优化的装置的结构图。该装置100包括:网页抓取器110、网页数据库120、内容对比器130、归一化规则生成器150和归一化规则库140。
网页抓取器110,适于抓取统一资源定位符URL对应的网页,并将抓取到的网页存储到网页数据库120。
网页数据库120,适于存储所述抓取到的网页。
内容对比器130,适于对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页。
在一具体实施方式中,内容对比器130对于抓取的网页,根据网页的页面中内容计算网页的特征码,比较网页的特征码,查找出特征码相同的网页作为重复网页。
具体而言,内容对比器130从网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串,对该字符串进行散列运算生成散列值,以生成的散列值作为网页的特征码。
例如,内容对比器130抽取网页的页面中标题和网页正文每段的第一句话,将抽取的内容按抽取顺序拼成字符串,计算该字符串的MD5值,以该MD5值作为该网页的特征码。如果两个网页的特征码相同,则确定该两个网页的内容相同,为重复网页。如果两个网页的特征码不相同,则确定该两个网页的内容不相同,不为重复网页。
在比较网页内容时,相对于比较整个网页内容来确定重复网页的方式,比较特征码来确定重复网页的方式的有益效果在于:
首先,网页的页面中标题和/或指定字段,例如网页正文每段的第一句,能够包含整个网页的特征信息,代表网页的内容,如果两个网页的特征码相同,则足以确定出该两个网页的内容相同。相对于比较整个网页内容来确定重复网页的方式,该方式处理信息量小,处理效率更高。
其次,比较特征码来确定重复网页的方式避免了网页的页面中噪音对判断网页内容的影响。比如,网页内广告、日期等与主要内容无关的网页噪音,在内容相同的重复网页内可能不同,如果采用比较整个网页的方式,会将内容相同的重复网页误判为内容不同,而采用比较特征码来判断网页内容是否相同的方式能够避免上述误判。
归一化规则生成器150,适于将同一域名下所述重复网页的URL进行比较,生成用于将同一域名下重复网页URL转换为同一URL的归一化规则。
在一具体实施方式中,归一化规则生成器150将同一域名下的重复网页的URL中query(查询信息)部分进行比较,查找出query部分中赋值不同的参量作为无效参量,生成将URL中无效参量去除的归一化规则。
进一步地,为了提高对无效参量判断的准确性,归一化规则生成器150可以对同一域名下的URL中无效参量进行出现频率统计,生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。这样,不是将所有无效参量都删除,而是将出现频率较高的无效参量删除。因为无效参量出现频率越高,其为没有用处的参数的可能性越大,由此,能够较少将参数误删的情况发生。
举例而言,归一化规则生成器150将同一个域名下网页特征码相同网页的URL汇总,对比这些URL中query对的不同。例如,如果第一个URL的query中有a=123,而第二个URL的query中有a=456,则query中的a可能就是与网页内容无关的无效参数,确定a为该URL所在域名下的无效参量。并且,归一化规则生成器150对比较确定的某一域名下的无效参量进行出现频率统计,生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。例如,域名news.qq.com下的无效参量adsession的出现频率高,生成删除域名news.qq.com下URL中adsession的规则。规则为host:news.qq.comdele(adsession),表示对host为news.qq.com的URL,采用内置函数的方式将query中的adsession参数去除掉。这样就能将同一网页由于adsession不同导致的多个URL归一化为同一个URL。
归一化规则库140,适于将生成的归一化规则组成归一化规则库140并保存。
网页抓取器110,进一步适于应用归一化规则库140对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。
通过本实施例中的技术方案,对网页内容进行比较,能够确定出除具有相同URL的重复网页之外的其他内容相同的重复网页;通过对确定的同一域名下重复网页的URL的分析得出归一化规则,进而使用归一化规则处理待抓取网页的URL,能够减少抓取到的重复网页的数量。由此,解决了无法避免抓取同一域名下URL不同而网页内容相同的重复网页的技术问题,取得了减轻抓取、索引和存储网页的负担,提高搜索结果的准确率的有益效果。
参见图2,示出了根据本发明一个实施例的对同一域名下网页抓取进行优化的装置的结构图。该装置100包括:网页抓取器110、网页数据库120、内容对比器130、归一化规则生成器150、归一化规则库140和第一校验器160。
网页抓取器110、网页数据库120、内容对比器130、归一化规则生成器150和归一化规则库140的功能如上所述,在此不再赘述。如图2所示,第一校验器160分别与网页抓取器110、内容对比器130、归一化规则生成器150和归一化规则库140耦接。
第一校验器160,适于在归一化规则生成器150生成将URL中无效参量去除的归一化规则后,使用归一化规则将重复网页的URL进行归一化,指示网页抓取器110根据归一化后的URL抓取与该归一化后的URL对应的URL的网页,通过内容对比器130判断归一化后的URL的网页的内容与重复网页的内容是否相同,如果不相同,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。
在该实施例中,在确定无效参量后,抓取删除无效参量的URL的网页,将其与之前确定的重复网页比较,如果两者相同,则表示删除此无效参量的归一化规则正确,否则,表示删除此无效参量的操作为误删,因此修改归一化规则不再去除该参量。由此,能避免将有用参量误作为无效参量而误删的情况,保证归一化规则的正确性。
本发明的装置可应用于各种搜索引擎中,参见图3和图4,示出了根据本发明一个实施例的一具体实施方式中搜索引擎的结构图。该搜索引擎中装置100包括:网页抓取器110、网页数据库120、内容对比器130、归一化规则生成器150和归一化规则库140,以及URL数据库170和第二校验器180。
其中,网页抓取器110、网页数据库120、内容对比器130、归一化规则生成器150和归一化规则库140的功能如前所述,在此不再赘述。
URL数据库170,适于在归一化规则生成器150生成归一化规则后,使用归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL。
在一具体实施方式中,第二校验器180定期对归一化规则正确性进行校验。如图3所示,第二校验器180与URL数据库170和归一化规则库140耦接。
第二校验器180,适于定期使用归一化规则库140中归一化规则将URL数据库170中的归一化前的URL进行归一化,判断该归一化后的URL与URL数据库170中的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示。
因为,归一化规则库在不断更新变化,归一化规则库中归一化规则间可能存在相互冲突的情况,通过上述校验能够判断出归一化规则库中归一化规则是否存在冲突问题,并在判定归一化规则存在冲突问题时,及时作出提示,以便开始进行后续修正操作。此处仅是在归一化规则出现问题时进行提示,可通过现有技术对归一化规则进行修正。例如,修正操作可以为人工检查修改,也可以为自动查错修改。
在一具体实施方式中,第二校验器180定期对归一化规则时效性进行校验。如图4所示,第二校验器180与URL数据库170、网页抓取器110和内容对比器130耦接。
第二校验器180,适于定期指示网页抓取器110抓取URL数据库170中归一化前和归一化后的URL的网页,通过内容对比器130判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
因为,互联网中网页内容在不断更新变化,归一化规则库中归一化规则间可能存在过时的情况,通过上述校验能够判断出归一化规则库中归一化规则是否存在过时问题,并在判定归一化规则存在过时问题时,及时作出提示,以便开始进行后续修正操作。此处仅是在归一化规则出现问题时进行提示,可通过现有技术对归一化规则进行修正。例如,修正操作可以为人工检查修改,也可以为自动查错修改。
本发明各实施例的装置可应用于搜索引擎中,例如图3和图4所示。
参见图5,示出了根据本发明一个实施例的对同一域名下网页抓取进行优化的方法的流程图。该方法包括如下步骤。
步骤S510,对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页。
在一具体实施方式中,对于抓取的网页,根据网页的页面中内容计算网页的特征码;比较网页的特征码,查找出特征码相同的网页作为重复网页。
具体而言,在步骤S510中从网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串,对该字符串进行散列运算生成散列值,以生成的散列值作为网页的特征码。
例如,抽取网页的页面中标题和网页正文每段的第一句话,将抽取的内容按抽取顺序拼成字符串,计算该字符串的MD5值,以该MD5值作为该网页的特征码。如果两个网页的特征码相同,则确定该两个网页的内容相同,为重复网页。如果两个网页的特征码不相同,则确定该两个网页的内容不相同,不为重复网页。
在比较网页内容时,相对于比较整个网页内容来确定重复网页的方式,比较特征码来确定重复网页的方式的有益效果在于:
首先,网页的页面中标题和/或指定字段,例如网页正文每段的第一句,能够包含整个网页的特征信息,代表网页的内容,如果两个网页的特征码相同,则足以确定出该两个网页的内容相同。相对于比较整个网页内容来确定重复网页的方式,该方式处理信息量小,处理效率更高。
其次,比较特征码来确定重复网页的方式避免了网页的页面中噪音对判断网页内容的影响。比如,网页内广告、日期等与主要内容无关的网页噪音,在内容相同的重复网页内可能不同,如果采用比较整个网页的方式,会将内容相同的重复网页误判为内容不同,而采用比较特征码来判断网页内容是否相同的方式能够避免上述误判。
步骤S520,将同一域名下所述重复网页的统一资源定位符URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则。
在一具体实施方式中,将同一域名下的重复网页的URL中query(查询信息)部分进行比较,查找出query部分中赋值不同的参量作为无效参量,生成将URL中无效参量去除的归一化规则。
进一步地,为了提高对无效参量判断的准确性,所述生成将URL中无效参量去除的归一化规则具体可以包括:对同一域名下的URL中无效参量进行出现频率统计,生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。这样,不是将所有无效参量都删除,而是将出现频率较高的无效参量删除。因为无效参量出现频率越高,其为没有用处的参数的可能性越大,由此,能够较少将参数误删的情况发生。
举例而言,在步骤S520中将同一个域名下网页特征码相同网页的URL汇总,对比这些URL中query对的不同。例如,如果第一个URL的query中有a=123,而第二个URL的query中有a=456,则query中的a可能就是与网页内容无关的无效参数,确定a为该URL所在域名下的无效参量。并且,对比较确定的某一域名下的无效参量进行出现频率统计,生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。例如,域名news.qq.com下的无效参量adsession的出现频率高,生成删除域名news.qq.com下URL中adsession的规则。规则为host:news.qq.com dele(adsession),表示对host为news.qq.com的URL,采用内置函数的方式将query中的adsession参数去除掉。这样就能将同一网页由于adsession不同导致的多个URL归一化为同一个URL。
在本发明的一实施例中,可以将生成的归一化规则组成归一化规则库并保存。
步骤S530,应用生成的归一化规则对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。
通过本实施例中的技术方案,对网页内容进行比较,能够确定出除具有相同URL的重复网页之外的其他内容相同的重复网页;通过对确定的同一域名下重复网页的URL的分析得出归一化规则,进而使用归一化规则处理待抓取网页的URL,能够减少抓取到的重复网页的数量。由此,解决了无法避免抓取同一域名下URL不同而网页内容相同的重复网页的技术问题,取得了减轻抓取、索引和存储网页的负担,提高搜索结果的准确率的有益效果。
在另一实施例中,在确定了无效参量后,对该无效参量进行校验,以避免对URL中有用参量误删。
参见图6,所述步骤S520中生成将URL中无效参量去除的归一化规则后还包括如下步骤。
步骤S610,使用上述归一化规则将所述重复网页的URL进行归一化,根据归一化后的URL抓取与所述归一化后的URL对应的URL的网页。
步骤S620,判断归一化后的URL的网页的内容与重复网页的内容是否相同,不相同,执行步骤S630,相同,执行步骤S640。
步骤S630,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。
步骤S640,对上述归一化规则不做修改。
在该实施例中,在确定无效参量后,抓取删除无效参量的URL的网页,将其与之前确定的重复网页比较,如果两者相同,则表示删除此无效参量的归一化规则正确,否则,表示删除此无效参量的操作为误删,因此修改归一化规则不再去除该参量。由此,能避免将有用参量误作为无效参量而误删的情况,保证归一化规则的正确性。
在一实施例中,所述生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则后还包括使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL。
所述方法还包括:定期使用生成的归一化规则将保存的归一化前的URL进行归一化,判断该归一化后的URL与保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示。
因为,归一化规则在不断增加,生成的归一化规则间可能存在相互冲突的情况,通过上述校验能够判断出归一化规则间是否存在冲突问题,并在判定归一化规则间存在冲突问题时,及时作出提示,以便开始进行后续修正操作。此处仅是在归一化规则出现问题时进行提示,可通过现有技术对归一化规则进行修正。例如,修正操作可以为人工检查修改,也可以为自动查错修改。
在一实施例中,所述生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则后还包括使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL。
所述方法还包括:定期抓取保存的归一化前和归一化后的URL的网页,判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
因为,互联网中网页内容在不断更新变化,生成的归一化规则可能存在过时的情况,通过上述校验能够判断出归一化规则是否存在过时问题,并在判定归一化规则存在过时问题时,及时作出提示,以便开始进行后续修正操作。此处仅是在归一化规则出现问题时进行提示,可通过现有技术对归一化规则进行修正。例如,修正操作可以为人工检查修改,也可以为自动查错修改。
本发明实施例公开了A1,一种对同一域名下网页抓取进行优化的装置,包括:网页抓取器,适于抓取统一资源定位符URL对应的网页,并将抓取到的网页存储到网页数据库;网页数据库,适于存储所述抓取到的网页;内容对比器,适于对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页;归一化规则生成器,适于将同一域名下所述重复网页的URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则;归一化规则库,适于将生成的归一化规则组成归一化规则库并保存;所述网页抓取器,进一步适于应用归一化规则库对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。A2、根据A1所述的装置,其中,所述归一化规则生成器,进一步适于将同一域名下的重复网页的URL中query部分进行比较,查找出query部分中赋值不同的参量作为无效参量,生成将URL中无效参量去除的归一化规则。A3、根据A1或A2所述的装置,其中,所述内容对比器,进一步适于对于抓取的网页,根据网页的页面中内容计算网页的特征码,比较网页的特征码,查找出特征码相同的网页作为重复网页。A4、根据A3所述的装置,其中,所述内容对比器,进一步适于从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串,对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。A5、根据A2所述的装置,其中,所述归一化规则生成器,进一步适于对同一域名下的URL中无效参量进行出现频率统计,生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。A6、根据A2所述的装置,其中,所述装置还包括:第一校验器,所述第一校验器,适于在所述归一化规则生成器生成将URL中无效参量去除的归一化规则后,使用所述归一化规则将所述重复网页的URL进行归一化,指示所述网页抓取器根据归一化后的URL抓取与所述归一化后的URL对应的URL的网页,通过所述内容对比器判断归一化后的URL的网页的内容与所述重复网页的内容是否相同,如果不相同,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。A7、根据A1至A6任一项所述的装置,其中,所述装置还包括:URL数据库,所述URL数据库,适于在所述归一化规则生成器生成归一化规则后,使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;所述装置还包括:第二校验器,所述第二校验器,适于定期使用归一化规则库中归一化规则将所述URL数据库保存的归一化前的URL进行归一化,判断该归一化后的URL与所述URL数据库保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或
所述第二校验器,适于定期指示所述网页抓取器抓取所述URL数据库保存的归一化前和归一化后的URL的网页,通过所述内容对比器判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
本发明的实施例公开了B8、一种对同一域名下网页抓取进行优化的方法,所述方法包括:对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页;将同一域名下所述重复网页的统一资源定位符URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则;应用所述归一化规则对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。B9、根据B8所述的方法,其中,所述将同一域名下所述重复网页的统一资源定位符URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则进一步包括:将同一域名下的重复网页的URL中query部分进行比较,查找出query部分中赋值不同的参量作为无效参量;生成将URL中无效参量去除的归一化规则。B10、根据B8或B9所述的方法,其中,所述对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页进一步包括:对于抓取的网页,根据网页的页面中内容计算网页的特征码;比较网页的特征码,查找出特征码相同的网页作为重复网页。B11、根据B10所述的方法,其中,所述根据网页的内容计算网页的特征码进一步包括:从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串;对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。B12、根据B9所述的方法,其中,所述生成将URL中无效参量去除的归一化规则进一步包括:对同一域名下的URL中无效参量进行出现频率统计;生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则。B13、根据B9所述的方法,其中,所述生成将URL中无效参量去除的归一化规则后还包括:使用所述归一化规则将所述重复网页的URL进行归一化,根据归一化后的URL抓取与所述归一化后的URL对应的URL的网页;判断归一化后的URL的网页的内容与所述重复网页的内容是否相同;如果不相同,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。B14、根据B8至B13任一项所述的方法,其中,所述生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则后还包括:使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;所述方法还包括:定期使用生成的归一化规则将保存的归一化前的URL进行归一化,判断该归一化后的URL与保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或,
定期抓取保存的归一化前和归一化后的URL的网页,判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的对同一域名下网页抓取进行优化的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种对同一域名下网页抓取进行优化的装置,包括:
网页抓取器,适于抓取统一资源定位符URL对应的网页,并将抓取到的网页存储到网页数据库;
网页数据库,适于存储所述抓取到的网页;
内容对比器,适于对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页;
归一化规则生成器,适于将同一域名下所述重复网页的URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则;所述归一化规则生成器,进一步适于对同一域名下的URL中无效参量进行出现频率统计,生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则;
归一化规则库,适于将生成的归一化规则组成归一化规则库并保存;
所述网页抓取器,进一步适于应用归一化规则库对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。
2.根据权利要求1所述的装置,其中,
所述归一化规则生成器,进一步适于将同一域名下的重复网页的URL中query部分进行比较,查找出query部分中赋值不同的参量作为无效参量,生成将URL中无效参量去除的归一化规则。
3.根据权利要求1所述的装置,其中,
所述内容对比器,进一步适于对于抓取的网页,根据网页的页面中内容计算网页的特征码,比较网页的特征码,查找出特征码相同的网页作为重复网页。
4.根据权利要求3所述的装置,其中,
所述内容对比器,进一步适于从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串,对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。
5.根据权利要求1所述的装置,其中,所述装置还包括:第一校验器,
所述第一校验器,适于在所述归一化规则生成器生成将URL中无效参量去除的归一化规则后,使用所述归一化规则将所述重复网页的URL进行归一化,指示所述网页抓取器根据归一化后的URL抓取与所述归一化后的URL对应的URL的网页,通过所述内容对比器判断归一化后的URL的网页的内容与所述重复网页的内容是否相同,如果不相同,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。
6.根据权利要求1至5中任一项所述的装置,其中,
所述装置还包括:URL数据库,所述URL数据库,适于在所述归一化规则生成器生成归一化规则后,使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;
所述装置还包括:第二校验器,所述第二校验器,适于定期使用归一化规则库中归一化规则将所述URL数据库保存的归一化前的URL进行归一化,判断该归一化后的URL与所述URL数据库保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或
所述第二校验器,适于定期指示所述网页抓取器抓取所述URL数据库保存的归一化前和归一化后的URL的网页,通过所述内容对比器判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
7.一种对同一域名下网页抓取进行优化的方法,所述方法包括:
对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页;
将同一域名下所述重复网页的统一资源定位符URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则;
所述生成将URL中无效参量去除的归一化规则进一步包括:对同一域名下的URL中无效参量进行出现频率统计;生成将出现频率高于预设阀值的无效参量从URL中去除的归一化规则;
应用所述归一化规则对待抓取网页的URL进行归一化,利用归一化后的URL进行网页抓取。
8.根据权利要求7所述的方法,其中,
所述将同一域名下所述重复网页的统一资源定位符URL进行比较,生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则进一步包括:
将同一域名下的重复网页的URL中query部分进行比较,查找出query部分中赋值不同的参量作为无效参量;
生成将URL中无效参量去除的归一化规则。
9.根据权利要求7所述的方法,其中,
所述对抓取的网页的页面中内容进行比较,查找出具有相同内容的重复网页进一步包括:
对于抓取的网页,根据网页的页面中内容计算网页的特征码;
比较网页的特征码,查找出特征码相同的网页作为重复网页。
10.根据权利要求9所述的方法,其中,
所述根据网页的内容计算网页的特征码进一步包括:
从所述网页的页面中抽取网页的标题和/或网页正文中指定字段,组成字符串;
对所述字符串进行散列运算生成散列值,以所述散列值作为所述网页的特征码。
11.根据权利要求7所述的方法,其中,
所述生成将URL中无效参量去除的归一化规则后还包括:
使用所述归一化规则将所述重复网页的URL进行归一化,根据归一化后的URL抓取与所述归一化后的URL对应的URL的网页;
判断归一化后的URL的网页的内容与所述重复网页的内容是否相同;
如果不相同,更改该无效参量为有效参量,并修改归一化规则不再去除所述有效参量。
12.根据权利要求7至11任一项所述的方法,其中,所述生成用于将同一域名下重复网页的URL转换为同一URL的归一化规则后还包括:使用所述归一化规则将重复网页的URL进行归一化,保存归一化前和归一化后的URL;
所述方法还包括:定期使用生成的归一化规则将保存的归一化前的URL进行归一化,判断该归一化后的URL与保存的归一化后的URL是否相同,如果不同,则做出归一化规则需要修正的提示;和/或,定期抓取保存的归一化前和归一化后的URL的网页,判断抓取的网页内容是否相同,如果不同,则做出归一化规则需要修正的提示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310289322.8A CN103399874B (zh) | 2013-07-10 | 2013-07-10 | 对同一域名下网页抓取进行优化的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310289322.8A CN103399874B (zh) | 2013-07-10 | 2013-07-10 | 对同一域名下网页抓取进行优化的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103399874A CN103399874A (zh) | 2013-11-20 |
CN103399874B true CN103399874B (zh) | 2016-12-28 |
Family
ID=49563504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310289322.8A Active CN103399874B (zh) | 2013-07-10 | 2013-07-10 | 对同一域名下网页抓取进行优化的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103399874B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778164B (zh) * | 2014-01-09 | 2018-01-30 | 中国银联股份有限公司 | 检测重复url的方法及装置 |
CN105630983A (zh) * | 2015-12-28 | 2016-06-01 | 努比亚技术有限公司 | 一种资源获取优化装置和方法 |
CN107341153B (zh) * | 2016-04-28 | 2020-05-12 | 中国移动通信有限公司研究院 | 一种信息分析方法及系统 |
CN106302797B (zh) * | 2016-08-31 | 2019-08-13 | 北京锐安科技有限公司 | 一种cookie访问去重方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663105A (zh) * | 2012-04-13 | 2012-09-12 | 北京搜狗科技发展有限公司 | 号码信息数据库的建立方法及系统 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680785B2 (en) * | 2005-03-25 | 2010-03-16 | Microsoft Corporation | Systems and methods for inferring uniform resource locator (URL) normalization rules |
-
2013
- 2013-07-10 CN CN201310289322.8A patent/CN103399874B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663105A (zh) * | 2012-04-13 | 2012-09-12 | 北京搜狗科技发展有限公司 | 号码信息数据库的建立方法及系统 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103399874A (zh) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103399872B (zh) | 对网页抓取进行优化的方法和装置 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
KR102180495B1 (ko) | 애플리케이션 스토어와 관련된 허위 등급들/코멘트들의 자동 검출 | |
CN103617213B (zh) | 识别新闻网页属性特征的方法和系统 | |
CN101853300B (zh) | 一种视频下载服务网站的识别、评估方法及系统 | |
CN103399874B (zh) | 对同一域名下网页抓取进行优化的方法和装置 | |
US10621255B2 (en) | Identifying equivalent links on a page | |
CN103544172B (zh) | 一种电子书的章节目录处理方法及装置 | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN105260469B (zh) | 一种处理网站地图的方法、装置及设备 | |
CN107437026B (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN104268216A (zh) | 一种基于互联网信息的数据清洗系统 | |
CN105302815B (zh) | 网页的统一资源定位符url的过滤方法和装置 | |
CN103942264B (zh) | 推送包含新闻信息的网页的方法和装置 | |
CN106469187A (zh) | 关键词的提取方法及装置 | |
CN106469144A (zh) | 文本相似度计算方法及装置 | |
CN103324641B (zh) | 信息记录推荐方法和装置 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN106919576A (zh) | 利用二级类目下的关键词库搜索应用程序的方法及装置 | |
CN106383908A (zh) | 一种数据对象推送方法和装置 | |
CN102929948B (zh) | 列表页识别系统及方法 | |
CN103838865B (zh) | 用于挖掘时效性种子页的方法及装置 | |
CN105095387A (zh) | 基于用户评论信息的poi数据采集方法及装置 | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
CN107784054B (zh) | 一种页面发布方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220729 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |