CN104392000B - 确定移动站点抓取配额的方法和装置 - Google Patents
确定移动站点抓取配额的方法和装置 Download PDFInfo
- Publication number
- CN104392000B CN104392000B CN201410779279.8A CN201410779279A CN104392000B CN 104392000 B CN104392000 B CN 104392000B CN 201410779279 A CN201410779279 A CN 201410779279A CN 104392000 B CN104392000 B CN 104392000B
- Authority
- CN
- China
- Prior art keywords
- website
- quota
- point
- crawl
- target mss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims description 6
- 229920000915 polyvinyl chloride Polymers 0.000 abstract description 2
- 239000004800 polyvinyl chloride Substances 0.000 abstract description 2
- 230000002354 daily effect Effects 0.000 description 5
- 241000239290 Araneae Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000009730 ganji Substances 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本发明公开了一种确定移动站点抓取配额的方法和装置,其中,方法包括:查找与目标移动站点对应的PC站点;获取所述PC站点的抓取配额;根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额。根据该方案,能够取得更高的抓取效率,不会占用过多的移动站点服务器资源,影响移动站点服务器的正常业务,同时保证了较高的抓取效率,及时为搜索用户提供最新的搜索结果。并且移动站点的配额可根据PC站点直接得出,计算过程快捷。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种确定移动站点抓取配额的方法和装置。
背景技术
搜索引擎通过蜘蛛程序抓取互联网网页内容,收录网页至索引库中。搜索引擎在收录互联网资源的时候,需要根据站点的情况、用户访问情况、搜索引擎的需求情况等来计算蜘蛛每天需要访问站点的频次。对不同的站点,搜索引擎的蜘蛛的访问频次是不同的。搜索引擎每天需要访问站点的频次数称为蜘蛛程序分配给此站点的配额。
PC站点的配额计算已经有了一套比较成熟的方法,因为PC站点的数据比较齐全,比如用户的访问情况、用户在搜索引擎的搜索点击情况、蜘蛛访问站点的历史信息、站点质量信息等。搜索引擎根据站点的上述数据为站点计算合适的配额。
对移动站点,现有技术一般采用与PC站点相同的方式,根据已有的移动站点配额数据,为移动站点配额计算设定一个默认值,然后逐渐调整。但对于移动站点,尤其是刚刚开始收录移动资源的搜索引擎,用于配额计算的数据较少,不能计算出合适的抓取配额。蜘蛛对网页进行抓取时,会占用网站服务器的资源,带宽等。如果配额过高,抓取行为占据过多服务器资源,就可能影响网站的正常业务。而且,网站服务器还可能监控抓取行为,抓取频次过高时,限制或禁止蜘蛛的抓取,使得搜索引擎无法及时收录该网页。而配额过低时,抓取效率较低,网页收录不及时,无法为用户提供最新的搜索结果。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定移动站点抓取配额的方法和装置。
根据本发明的一个方面,提供了一种确定移动站点抓取配额的方法,包括:查找与目标移动站点对应的PC站点;获取所述PC站点的抓取配额;根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额。
可选地,所述查找与目标移动站点对应的PC站点进一步包括:
根据所述目标移动站点的URL获取目标移动站点的域名特征;
获取具有与所述目标移动站点相同域名特征的PC站点;
计算所述目标移动站点的内容与所述具有相同域名特征的PC站点的内容之间的相似度;
根据所述相似度确定与所述目标移动站点对应的PC站点。
可选地,获取所述PC站点的抓取配额进一步为:根据所述PC站点的配额计算信息计算所述PC站点的抓取配额;
可选地,所述PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
可选地,所述根据所述PC站点的配额计算信息计算所述PC站点的抓取配额进一步包括:
根据所述PC站点的用户访问数据,确定所述PC站点的抓取承受流量;
根据所述PC站点内网页的网页质量信息,确定所述PC站点的任务流量;
根据所述PC站点的抓取承受流量和所述PC站点的任务流量,确定所述PC站点的抓取配额。
可选地,所述根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额进一步包括:
将所述PC站点的抓取配额乘以预设系数作为所述目标移动站点的初始抓取配额。
可选地,所述方法还包括:
根据所述目标移动站点的配额计算信息调整所述预设系数;
可选地,所述目标移动站点的配额计算信息包括以下信息的一种或多种:目标移动站点的用户访问数据,目标移动站点在搜索结果中的点击量,目标移动站点的网页质量信息,以及搜索引擎对目标移动站点的历史抓取记录。
根据本发明的另一方面,提供了一种确定移动站点抓取配额的装置,包括:
查找模块,适于查找与目标移动站点对应的PC站点;
获取模块,适于获取PC站点的抓取配额;
配额模块,适于根据PC站点的抓取配额计算目标移动站点的抓取配额。
可选地,所述查找模块进一步包括:
特征获取单元,适于根据所述目标移动站点的URL获取目标移动站点的域名特征;
查找单元,适于查找具有与所述目标移动站点相同域名特征的PC站点;
相似度计算单元,适于计算所述目标移动站点的内容与所述具有相同域名特征的PC站点的内容之间的相似度;
关联单元,适于根据所述相似度确定与所述目标移动站点对应的PC站点。
可选地,所述获取模块进一步适于:根据所述PC站点的配额计算信息计算所述PC站点的抓取配额;
其中,所述PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
可选地,所述获取模块进一步包括:
第一计算单元,适于根据所述PC站点的用户访问数据,确定所述PC站点的抓取承受流量;
第二计算单元,适于根据所述PC站点内网页的网页质量信息,确定所述PC站点的任务流量;
PC配额单元,适于根据所述PC站点的抓取承受流量和所述PC站点的任务流量,确定所述PC站点的抓取配额。
可选地,所述配额模块进一步适于:将所述PC站点的抓取配额乘以预设系数作为所述目标移动站点的初始抓取配额。
可选地,所述装置还包括:
调整模块,适于根据所述目标移动站点的配额计算信息调整所述预设系数;
可选地,所述目标移动站点的配额计算信息包括以下信息的一种或多种:目标移动站点的用户访问数据,目标移动站点在搜索结果中的点击量,目标移动站点的网页质量信息,以及搜索引擎对目标移动站点的历史抓取记录。
根据本发明的确定移动站点抓取配额的方法和装置,查找与目标移动站点对应的PC站点;获取PC站点的抓取配额;根据该PC站点的抓取配额确定目标移动站点的抓取配额。本发明通过发现移动站点和对应PC站点抓取配额的相似性,从而充分利用了与移动站点对应的PC站点的较完善配额信息,结合移动站点配额信息,共同为移动站点确定合适的配额。根据该方案,能够取得更高的抓取效率,不会占用过多的移动站点服务器资源,影响移动站点服务器的正常业务,同时保证了较高的抓取效率,及时为搜索用户提供最新的搜索结果。并且移动站点的配额可根据PC站点直接得出,计算过程快捷。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的确定移动站点抓取配额的方法的流程图;
图2示出了根据本发明另一个实施例的确定移动站点专区配额的方法的流程图;
图3示出了根据本发明一个实施例的确定移动站点抓取配额的装置的结构框图;
图4示出了根据本发明另一个实施例的确定移动站点抓取配额的装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的确定移动站点抓取配额的方法的流程图,如图1所示,方法包括如下步骤:
步骤S110,查找与目标移动站点对应的PC站点。
PC站点是指适合在普通电脑设备上显示的站点,移动站点是指适合在移动设备,例如手机、平板电脑上显示的站点。
通过分析当前互联网站点的特点,发现移动站点一般具有对应的PC站点。并且与移动站点相比,搜索引擎对PC站点的收录更为全面,可供配额计算使用的数据也更全面。
一般地,移动站点与对应的PC站点的URL具有类似的URL,而带有一些移动站点的特征,如包含3g,mobile,m,wap等字符。一种查找目标移动站点对应的PC站点的方法是根据目标移动站点的URL特征进行PC站点的查找。
部分移动站点能够根据访问设备的不同返回不同的网页,例如,用电脑访问移动站点时,http请求中带有UA(用户代理)信息,UA信息中包含浏览器类型,操作系统类型,设备类型等。移动站点根据此次访问的UA信息返回来的网页是一个适合显示的网页。例如,PC端访问移动站点http://m.so.com/,网站服务器根据请求中的UA信息,得知访问来自PC设备而非移动设备,而返回PC站点http://www.so.com。
本发明中也可以通过这种方式查找PC站点,具体地,通过PC的用户代理向目标移动站点发起请求,如果返回的是PC站点,将返回的PC站点作为与目标移动站点对应的PC站点。
查找到移动站点对应的PC站点后,还可以在数据库中将PC站点与移动站点关联,则下次查找时,直接查询数据库即可。
步骤S120,获取与目标移动站点对应的PC站点的抓取配额。
搜索引擎收录PC站点和移动站点。在确定移动站点抓取配额时,PC站点的抓取配额是已经计算过的。
PC站点的抓取配额随访问情况,历史信息等变化。当需要重新计算PC站点的抓取配额时,可根据PC站点的配额计算信息计算PC站点的抓取配额。其中,PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
本发明将PC站点的抓取配额,及配额信息作为移动站点配额计算的参考,而对PC站点抓取配额的计算方式不做限制。
步骤S130,根据PC站点的抓取配额确定目标移动站点的抓取配额。
通过分析当前互联网站点的特点,发现移动站点的配额计算信息与对应PC站点的配额计算信息具较高的关联性。例如,若PC站点的访问量较高,则相应移动站点的访问量也较高,若PC站点的网页质量较高,则相应移动站点的访问量也较高,并且PC站点和相应移动站点的类型也相同,例如,PC站点是新闻网站,则相应移动站点也是新闻网站。
根据这种关联性,本发明对PC站点和移动站点进行类比,利用PC站点的配额或配额计算信息获取相应移动站点的配额。
具体地,可以为移动站点的抓取配额和PC站点的抓取配额设置一个比例系数。将PC站点的抓取配额乘以该系数得到移动站点的抓取配额。该系数与移动站点的抓取配额和/或PC站点的抓取配额有关,可以是固定值或随时间变化,例如,根据一定时间内PC站点和移动站点的用户访问量的比例确定该系数。
根据本发明上述实施例提供的方法,查找与目标移动站点对应的PC站点;获取所述PC站点的抓取配额;根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额。根据该方案,取得更高的抓取效率,不会占用过多的移动站点服务器资源,影响移动站点服务器的正常业务,同时保证了较高的抓取效率,及时为搜索用户提供最新的搜索结果。并且移动站点的抓取配额可直接由PC站点的抓取配额获取,减少了计算量,更加快速。
图2示出了根据本发明另一个实施例的确定移动站点专区配额的方法的流程图,如图2所示,方法包括如下步骤:
步骤S210,根据目标移动站点的URL获取目标移动站点的域名特征。
移动站点与对应的PC站点的URL具有类似的URL,例如,移动站点http://m.so.com/对应于PC站点http://www.so.com/。类似地,还有移动站点3g.163.com,m.jd.com,wap.ganji.com,分别都包含有与PC站点相同的域名特征so,163,jd,ganji等。从移动站点的URL提取出这种作为站点标识的域名特征。
步骤S220,查找具有与目标移动站点相同域名特征的PC站点。
从已收录的PC站点集合中查找具有与目标移动站点相同域名特征的PC站点。
步骤S230,计算目标移动站点的内容与具有相同域名特征的PC站点的内容之间的相似度。
对一个目标移动站点,具有相同域名特征的PC站点可能有多个,通过比对站点内容作进一步的判断。
具体地,可通过比较移动站点和PC站点间的关键词,站点页面中包含的链接名称、URL,以及页面元素等计算站点之间的相似度。
若相似度大于预先设定阈值,将该站点确定为与目标移动站点对应的PC站点,执行步骤S240。
该实施例中,通过步骤S210-S230完成对目标移动站点对应PC站点的查找。
步骤S240,根据对应PC站点的用户访问数据,确定PC站点的抓取承受流量。
PC站点的用户访问数据可以从多方面获取,如可以通过网站排名公布数据中获取。另外,用户浏览网页常常是通过浏览器软件进行的,所以也可以对用户通过浏览器浏览的网页进行统计,再根据浏览器在当前市场上的占有率,确定网站的访问承受力。例如,通过浏览器统计到某网站的每日访问量为150万次,而该浏览器的当前市场占有率为15%,则可以确定该网站的日访问总量为1000万次,即该网站的访问承受力为至少1000万次。
还可以根据搜索引擎对PC站点的访问统计数据,确定PC站点的受访问数据,这是因为在用户浏览网页的过程中,经常需要通过搜索引擎来访问网页,即通过搜索引擎提供的搜索结果进行跳转来访问网页,搜索引擎可以对访问的网页进行统计,进而对通过搜索引擎访问网站的点击量进行统计,即根据搜索引擎统计的PC站点的访问统计数据,PC站点的受访问数据。具体的,可以通过搜索引擎访问PC站点的访问量,除以该搜索引擎的市场占有率,作为该站点的受访问数据。如统计到用户通过搜索引擎跳转访问某网站的每日访问量为150次,而该搜索引擎的当前市场占有率为15%,则可以确定该站点的日访问总量为1000万次,即该站点的访问承受力为至少1000万次。
此外,也可以结合使用多种方法或途径,来获取更加精确的PC站点的用户访问数据。例如结合使用上述的两种方法,即将客户端浏览器软件的统计数据与搜索引擎统计数据结合起来,可以同时确定用户通过搜索引擎跳转以及非搜索引擎跳转访问PC网站的数据,将两者结合起来可以获取更加精确的PC网站的用户访问数据。需要说明的是,站点的用户访问数据一般以单位时间内站点的受访问次数来表示,如前面的描述中,是以站点的每日访问量来描述的,当然,也可以根据具体应用情况使用其他的时间单位,如一小时内网站的受访问次数,本发明对此并没有限制。
在实际应用中,可以直接将获取到的单位时间内PC站点的用户访问量作为PC站点的抓取承受流量。但网站提供的服务常常以用户浏览为主,如果直接将获取到的网站的单位时间访问量作为网站的抓取承受流量,有可能会超出网站对于蜘蛛程序抓取的承受上限,因此,在PC站点的用户访问数据乘以一个系数,得到PC站点的抓取承受流量。该系数可以是一个百分比系数,其取值范围为(0,100%)。例如某网站的通过搜索引擎跳转的每日访问量为150次,预置的抓取压力系数为30%,则最后确定的PC站点的抓取承受流量为45万次每日。
步骤S250,根据PC站点内网页的网页质量信息,确定PC站点的任务流量。
步骤S240中获取了PC站点的抓取承受流量,这个PC站点的抓取承受流量可以理解为根据站点的访问数据获取的站点能够承受蜘蛛程序抓取的预测值。除此之外,还需要知道蜘蛛程序对PC站点进行抓取的任务情况,即PC站点的任务流量。具体地,任务流量根据PC站点内网页的网页质量信息获取,网页质量信息包括网页的pagerank信息和网页链接深度等。
具体地,该步骤可以包括:获取PC站点内所有已收录网页的网页质量分布的总和,根据PC站点内所有网页的网页质量分布的总和,确定抓取PC站点的任务流量。
对于搜索引擎来说,可以获取PC站点内所有已收录网页的网页质量分布,进而获取PC站点内所有已收录网页的网页质量分布的总和,根据PC站点内所有网页的网页质量分布的总和,确定PC站点的任务流量。具体地,可以获取PC站点中待抓取的网页数占PC站点中已收录网页总数的比例;和/或,获取PC站点中不重复的网页数量占PC站点中网页总数的比例。然后根据网页质量分布的总和与一个或多个任务比例因子的乘积,确定抓取PC站点的任务流量。
需要说明的是,步骤S240和步骤S250之间没有明确的顺序限制,也可以先确定PC站点的网页质量信息,获取PC站点的任务流量,然后获取PC站点的承受流量,或同步进行。
步骤S260,根据PC站点的抓取承受流量和PC站点的任务流量,确定PC站点的抓取配额。
在获取到PC站点的抓取承受流量,以及抓取PC站点的任务流量后,可以根据这两者确定在PC站点上进行网页抓取的配额。具体地,可以对两者进行比较,将较小一个作为在PC站点进行网页抓取的配额。当然也可以采用其他的配额计算方式,此处不做赘述。
步骤S270,将PC站点的抓取配额乘以预设系数作为目标移动站点的初始抓取配额。
该预设系数与移动站点的抓取配额和/或PC站点的抓取配额有关。例如,根据PC站点和移动站点的访问比例等确定。
可选地,步骤S270还包括:根据目标移动站点的配额计算信息调整预设系数。例如,根据目标移动站点的访问量与PC站点访问量的比例变化调整所述预设系数。
与PC站点的配额信息类似地,目标移动站点的配额计算信息包括以下信息的一种或多种:目标移动站点的用户访问数据,目标移动站点在搜索结果中的点击量,目标移动站点的网页质量信息,以及搜索引擎对目标移动站点的历史抓取记录。
根据本发明上述实施例提供的方法,通过URL特征查找与目标移动站点对应的PC站点;根据PC站点的配额计算信息计算PC站点的抓取配额;根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额。根据该方案,不会占用过多的移动站点服务器资源,影响移动站点服务器的正常业务,同时保证了较高的抓取效率,及时为搜索用户提供最新的搜索结果。并且移动站点的抓取配额可直接由PC站点的抓取配额获取,减少了计算量,更加快速。
图3示出了根据本发明一个实施例的确定移动站点抓取配额的装置的结构框图,如图3所示,装置包括:
查找模块310,适于查找与目标移动站点对应的PC站点。
PC站点是指适合在普通电脑设备上显示的站点,移动站点是指适合在移动设备,例如手机、平板电脑上显示的站点。
通过分析当前互联网站点的特点,发现移动站点一般具有对应的PC站点。并且与移动站点相比,搜索引擎对PC站点的收录更为全面,可供配额计算使用的数据也更全面。
一般地,移动站点与对应的PC站点的URL具有类似的URL,而带有一些移动站点的特征,如包含3g,mobile,m,wap等字符。
可选地,查找模块310根据目标移动站点的URL特征进行PC站点的查找。
部分移动站点能够根据访问设备的不同返回不同的网页,例如,用电脑访问移动站点时,http请求中带有UA(用户代理)信息,UA信息中包含浏览器类型,操作系统类型,设备类型等。移动站点根据此次访问的UA信息返回来的网页是一个适合显示的网页。例如,PC端访问移动站点http://m.so.com/,网站服务器根据请求中的UA信息,得知访问来自PC设备而非移动设备,而返回PC站点http://www.so.com。
查找模块310也可以通过这种方式查找PC站点,具体地,通过PC的用户代理向目标移动站点发起请求,如果返回的是PC站点,将返回的PC站点作为与目标移动站点对应的PC站点。
查找模块310查找到移动站点对应的PC站点后,还可以在数据库中将PC站点与移动站点关联,则下次查找时,直接查询数据库即可。
获取模块320,适于获取PC站点的抓取配额。
搜索引擎收录PC站点和移动站点。在确定移动站点抓取配额时,PC站点的抓取配额是已经计算过的。
获取模块320获取已知的PC站点的抓取配额,或者在抓取配额未知或PC站点的配额变化时根据PC站点的配额计算信息计算PC站点的抓取配额。
其中,PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
配额模块330,适于根据PC站点的抓取配额计算目标移动站点的抓取配额。
通过分析当前互联网站点的特点,发现移动站点的配额计算信息与对应PC站点的配额计算信息具较高的关联性。例如,若PC站点的访问量较高,则相应移动站点的访问量也较高,若PC站点的网页质量较高,则相应移动站点的访问量也较高,并且PC站点和相应移动站点的类型也相同,例如,PC站点是新闻网站,则相应移动站点也是新闻网站。
根据这种关联性,本发明对PC站点和移动站点进行类比,利用PC站点的配额或配额计算信息获取相应移动站点的配额。
具体地,配额模块330可以为移动站点的抓取配额和PC站点的抓取配额设置一个比例系数。将PC站点的抓取配额乘以该系数得到移动站点的抓取配额。该系数与移动站点的抓取配额和/或PC站点的抓取配额有关,可以是固定值或随时间变化,例如,根据一定时间内PC站点和移动站点的用户访问量的比例确定该系数。
图4示出了根据本发明一个实施例的确定移动站点抓取配额的装置的结构框图,如图4所示,装置包括:
查找模块410,适于查找与目标移动站点对应的PC站点。
可选地,查找模块410进一步包括:
特征获取单元4101,适于根据所述目标移动站点的URL获取目标移动站点的域名特征。
移动站点与对应的PC站点的URL具有类似的URL,例如,移动站点http://m.so.com/对应于PC站点http://www.so.com/。类似地,还有移动站点3g.163.com,m.jd.com,wap.ganji.com,分别都包含有与PC站点相同的域名特征so,163,jd,ganji等。
特征获取单元4101从移动站点的URL提取出这种作为站点标识的域名特征。
查找单元4102,适于获取具有与所述目标移动站点相同域名特征的PC站点。
具体地,查找单元4102从已收录的PC站点集合中查找具有与目标移动站点相同域名特征的PC站点。
相似度计算单元4103,适于计算所述目标移动站点的内容与所述具有相同域名特征的PC站点的内容之间的相似度。
具体地,相似度计算单元4103可通过比较移动站点和PC站点间的关键词,站点页面中包含的链接名称、URL,以及页面元素等计算站点之间的相似度。
关联单元4104,适于根据目标移动站点与对应的PC站点的网页内容相似度确定与目标移动站点对应的PC站点。
获取模块420,适于获取PC站点的抓取配额。
可选地,获取模块420获取已知的PC站点的抓取配额,或者在抓取配额未知或PC站点的配额变化时根据PC站点的配额计算信息计算PC站点的抓取配额。
其中,PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
可选地,获取模块420进一步包括:
第一计算单元4201,适于根据PC站点的用户访问数据,确定PC站点的抓取承受流量。
第一计算单元4201可以从多方面获取PC站点的用户访问数据,如可以通过网站排名公布数据中获取。另外,用户浏览网页常常是通过浏览器软件进行的,所以也可以对用户通过浏览器浏览的网页进行统计,再根据浏览器在当前市场上的占有率,确定网站的访问承受力。例如,通过浏览器统计到某网站的每日访问量为150万次,而该浏览器的当前市场占有率为15%,则可以确定该网站的日访问总量为1000万次,即该网站的访问承受力为至少1000万次。
第二计算单元4202,适于根据PC站点内网页的网页质量信息,确定PC站点的任务流量。
第二计算单元4202获取PC站点内所有已收录网页的网页质量分布的总和,根据PC站点内所有网页的网页质量分布的总和,确定抓取PC站点的任务流量。
具体地,第二计算单元4202获取PC站点内所有已收录网页的网页质量分布,进而获取PC站点内所有已收录网页的网页质量分布的总和,根据PC站点内所有网页的网页质量分布的总和,确定PC站点的任务流量。具体地,可以获取PC站点中待抓取的网页数占PC站点中已收录网页总数的比例;和/或,获取PC站点中不重复的网页数量占PC站点中网页总数的比例。然后根据网页质量分布的总和与一个或多个任务比例因子的乘积,确定抓取PC站点的任务流量。
PC配额单元4203,适于根据PC站点的抓取承受流量和PC站点的任务流量,确定PC站点的抓取配额。
配额模块430,适于根据PC站点的抓取配额计算目标移动站点的抓取配额。
具体地,配额模块430可以对两者进行比较,将较小一个作为在PC站点进行网页抓取的配额。
可选地,配额模块430进一步适于:将PC站点的抓取配额乘以预设系数作为目标移动站点的初始抓取配额。
可选地,装置还包括:
调整模块440,适于根据目标移动站点的配额计算信息调整预设系数;
与PC站点的配额信息类似,目标移动站点的配额计算信息包括以下信息的一种或多种:目标移动站点的用户访问数据,目标移动站点在搜索结果中的点击量,目标移动站点的网页质量信息,以及搜索引擎对目标移动站点的历史抓取记录。
根据本发明上述实施例提供的确定移动站点抓取配额的装置,查找与目标移动站点对应的PC站点;获取所述PC站点的抓取配额;根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额。根据该方案,取得更高的抓取效率,不会占用过多的移动站点服务器资源,影响移动站点服务器的正常业务,同时保证了较高的抓取效率,及时为搜索用户提供最新的搜索结果。并且移动站点的抓取配额可直接由PC站点的抓取配额获取,减少了计算量,更加快捷迅速。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定移动站点抓取配额的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种确定移动站点抓取配额的方法,包括:
查找与目标移动站点对应的PC站点;
获取所述PC站点的抓取配额;
根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额。
2.根据权利要求1所述的方法,其中,所述查找与目标移动站点对应的PC站点进一步包括:
根据所述目标移动站点的URL获取目标移动站点的域名特征;
获取具有与所述目标移动站点相同域名特征的PC站点;
计算所述目标移动站点的内容与所述具有相同域名特征的PC站点的内容之间的相似度;
根据所述相似度确定与所述目标移动站点对应的PC站点。
3.根据权利要求1所述的方法,其中,获取所述PC站点的抓取配额进一步为:根据所述PC站点的配额计算信息计算所述PC站点的抓取配额;
其中,所述PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
4.根据权利要求3所述的方法,其中,所述根据所述PC站点的配额计算信息计算所述PC站点的抓取配额进一步包括:
根据所述PC站点的用户访问数据,确定所述PC站点的抓取承受流量;
根据所述PC站点内网页的网页质量信息,确定所述PC站点的任务流量;
根据所述PC站点的抓取承受流量和所述PC站点的任务流量,确定所述PC站点的抓取配额。
5.根据权利要求1或3或4所述的方法,其中,所述根据所述PC站点的抓取配额确定所述目标移动站点的抓取配额进一步包括:
将所述PC站点的抓取配额乘以预设系数作为所述目标移动站点的初始抓取配额。
6.根据权利要求5所述的方法,其中,所述方法还包括:
根据目标移动站点的配额计算信息调整所述预设系数;
其中,所述目标移动站点的配额计算信息包括以下信息的一种或多种:目标移动站点的用户访问数据,目标移动站点在搜索结果中的点击量,目标移动站点的网页质量信息,以及搜索引擎对目标移动站点的历史抓取记录。
7.一种确定移动站点抓取配额的装置,包括:
查找模块,适于查找与目标移动站点对应的PC站点;
获取模块,适于获取所述PC站点的抓取配额;
配额模块,适于根据所述PC站点的抓取配额计算所述目标移动站点的抓取配额。
8.根据权利要求7所述的装置,其中,所述查找模块进一步包括:
特征获取单元,适于根据所述目标移动站点的URL获取目标移动站点的域名特征;
查找单元,适于查找具有与所述目标移动站点相同域名特征的PC站点;
相似度计算单元,适于计算所述目标移动站点的内容与所述具有相同域名特征的PC站点的内容之间的相似度;
关联单元,适于根据所述相似度确定与所述目标移动站点对应的PC站点。
9.根据权利要求7所述的装置,其中,所述获取模块进一步适于:根据所述PC站点的配额计算信息计算所述PC站点的抓取配额;
其中,所述PC站点的配额计算信息包括以下信息的一种或多种:PC站点的用户访问数据,PC站点在搜索结果中的点击量,PC站点的网页质量信息,以及搜索引擎对PC站点的历史抓取记录。
10.根据权利要求9所述的装置,其中,所述获取模块进一步包括:
第一计算单元,适于根据所述PC站点的用户访问数据,确定所述PC站点的抓取承受流量;
第二计算单元,适于根据所述PC站点内网页的网页质量信息,确定所述PC站点的任务流量;
PC配额单元,适于根据所述PC站点的抓取承受流量和所述PC站点的任务流量,确定所述PC站点的抓取配额。
11.根据权利要求7所述的装置,所述配额模块进一步适于:将所述PC站点的抓取配额乘以预设系数作为所述目标移动站点的初始抓取配额。
12.根据权利要求7所述的装置,所述装置还包括:
调整模块,适于根据目标移动站点的配额计算信息调整所述预设系数;
其中,所述目标移动站点的配额计算信息包括以下信息的一种或多种:目标移动站点的用户访问数据,目标移动站点在搜索结果中的点击量,目标移动站点的网页质量信息,以及搜索引擎对目标移动站点的历史抓取记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410779279.8A CN104392000B (zh) | 2014-12-15 | 2014-12-15 | 确定移动站点抓取配额的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410779279.8A CN104392000B (zh) | 2014-12-15 | 2014-12-15 | 确定移动站点抓取配额的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104392000A CN104392000A (zh) | 2015-03-04 |
CN104392000B true CN104392000B (zh) | 2016-10-12 |
Family
ID=52609904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410779279.8A Active CN104392000B (zh) | 2014-12-15 | 2014-12-15 | 确定移动站点抓取配额的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104392000B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126656A (zh) * | 2016-06-27 | 2016-11-16 | 乐视控股(北京)有限公司 | 一种判断移动页面的方法及装置 |
CN113486229B (zh) * | 2021-07-05 | 2023-11-07 | 北京百度网讯科技有限公司 | 抓取压力的控制方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332019A (zh) * | 2011-09-21 | 2012-01-25 | 北京亿赞普网络技术有限公司 | 一种web网站转换到wap网站的方法及系统 |
US8631097B1 (en) * | 2012-10-11 | 2014-01-14 | Google Inc. | Methods and systems for finding a mobile and non-mobile page pair |
CN103544278A (zh) * | 2013-10-22 | 2014-01-29 | 北京奇虎科技有限公司 | 确定网站抓取流量配额的方法及设备 |
-
2014
- 2014-12-15 CN CN201410779279.8A patent/CN104392000B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332019A (zh) * | 2011-09-21 | 2012-01-25 | 北京亿赞普网络技术有限公司 | 一种web网站转换到wap网站的方法及系统 |
US8631097B1 (en) * | 2012-10-11 | 2014-01-14 | Google Inc. | Methods and systems for finding a mobile and non-mobile page pair |
CN103544278A (zh) * | 2013-10-22 | 2014-01-29 | 北京奇虎科技有限公司 | 确定网站抓取流量配额的方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104392000A (zh) | 2015-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10572548B2 (en) | System and method for improving access to search results | |
CN106202394B (zh) | 文本资讯的推荐方法及系统 | |
CA2538597C (en) | Methods and systems for improving a search ranking using population information | |
CN104899220B (zh) | 应用程序推荐方法和系统 | |
RU2731654C1 (ru) | Способ и система для создания пуш-уведомлений, связанных с цифровыми новостями | |
CN107784010B (zh) | 一种用于确定新闻主题的热度信息的方法与设备 | |
JP5984917B2 (ja) | 提案される語を提供するための方法および装置 | |
US20150278359A1 (en) | Method and apparatus for generating a recommendation page | |
CN107766399B (zh) | 用于使图像与内容项目匹配的方法和系统及机器可读介质 | |
US20150169693A1 (en) | Using pre-search triggers | |
CN103324645A (zh) | 一种网页推荐方法和装置 | |
US20160306887A1 (en) | Methods, apparatuses and systems for linked and personalized extended search | |
WO2014180130A1 (en) | Method and system for recommending contents | |
US7962523B2 (en) | System and method for detecting templates of a website using hyperlink analysis | |
CN105868290B (zh) | 一种展现搜索结果的方法及装置 | |
CN103186666A (zh) | 基于收藏进行搜索的方法、装置与设备 | |
WO2014183544A1 (en) | Method and device for generating a personalized navigation webpage | |
KR102601545B1 (ko) | 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치 | |
JP2011227721A (ja) | 関心抽出装置、関心抽出方法、及び関心抽出プログラム | |
US9471669B2 (en) | Presenting previously selected search results | |
US20150199357A1 (en) | Selecting primary resources | |
CN104123321B (zh) | 一种确定推荐图片的方法及装置 | |
CN107526748B (zh) | 一种识别用户点击行为的方法和设备 | |
US7970760B2 (en) | System and method for automatic detection of needy queries | |
US9760641B1 (en) | Site quality score |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220728 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |