CN108804444B - 信息抓取方法和装置 - Google Patents

信息抓取方法和装置 Download PDF

Info

Publication number
CN108804444B
CN108804444B CN201710291162.9A CN201710291162A CN108804444B CN 108804444 B CN108804444 B CN 108804444B CN 201710291162 A CN201710291162 A CN 201710291162A CN 108804444 B CN108804444 B CN 108804444B
Authority
CN
China
Prior art keywords
website
sequence
keyword
information
identification sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710291162.9A
Other languages
English (en)
Other versions
CN108804444A (zh
Inventor
高毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710291162.9A priority Critical patent/CN108804444B/zh
Publication of CN108804444A publication Critical patent/CN108804444A/zh
Application granted granted Critical
Publication of CN108804444B publication Critical patent/CN108804444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了信息抓取方法和装置。该方法的一具体实施方式包括:获取配置文件,其中,该配置文件包括抓取目标信息和抓取参数;根据配置文件,抓取得到第一抓取结果;基于该抓取目标信息和/或该第一抓取结果,更新该配置文件中的抓取参数;根据更新后的配置文件,抓取得到第二抓取结果。该实施方式提高了信息抓取的效率。

Description

信息抓取方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息抓取方法和装置。
背景技术
随着互联网的发展,产生了日益丰富的网络资源。信息抓取是获得网络资源的基础。通常,可以利用网络爬虫(又被称为网页蜘蛛或网络机器人)从一个或若干初始网页开始,按照一定的规则,自动抓取万维网中的信息。
然而,现有的信息抓取方式通常是配置固定的抓取参数,不能调整抓取参数,抓取到的信息可能存在大量的无用信息,从而导致抓取效率较低。
发明内容
本申请的目的在于提出一种改进的信息抓取方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种信息抓取方法,上述方法包括:获取配置文件,其中,上述配置文件包括抓取目标信息和抓取参数;根据上述配置文件,抓取得到第一抓取结果;基于上述抓取目标信息和/或上述第一抓取结果,更新上述配置文件中的抓取参数;根据更新后的配置文件,抓取得到第二抓取结果。
第二方面,本申请实施例提供了一种信息抓取装置,上述装置包括:获取单元,用于获取配置文件,其中,上述配置文件包括抓取目标信息和抓取参数;第一抓取单元,用于根据上述配置文件,抓取得到第一抓取结果;更新单元,用于基于上述抓取目标信息和/或上述第一抓取结果,更新上述配置文件中的抓取参数;第二抓取单元,用于根据更新后的配置文件,抓取得到第二抓取结果。
第三方面,本申请实施例提供了一种服务器,上述服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现如第一方面的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的方法。
本申请实施例提供的信息抓取方法和装置,通过在信息抓取的过程中,根据抓取结果和/或抓取目标信息,更新配置文件中的抓取参数,实现了在抓取过程中调整抓取参数,使得抓取到的信息更符合抓取目标,提高了信息抓取的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息抓取方法的一个实施例的流程图;
图3是根据本申请的信息抓取方法的一个应用场景的示意图;
图4是根据本申请的信息抓取方法的又一个实施例的流程图;
图5是根据本申请的信息抓取方法的又一个实施例的流程图;
图6是根据本申请的信息抓取装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息抓取方法或信息抓取装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括网站服务器101、102、103,网络104和抓取服务器105。网络104用以在网站服务器101、102、103和抓取服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
网站服务器101、102、103可以是对各种网站的运行提供支持的服务器,网站服务器可以生成各种显示在终端设备上的网页。
抓取服务器105可以根据配置文件,通过网络爬虫抓取网页中的信息。
需要说明的是,本申请实施例所提供的信息抓取方法一般由抓取服务器105执行,相应地,信息抓取装置一般设置于抓取服务器105中。
应该理解,图1中的网站服务器、网络和抓取服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的网站服务器、网络和抓取服务器。
继续参考图2,其示出了根据本申请的信息抓取方法的一个实施例的流程200。上述的信息抓取方法,包括以下步骤:
步骤201,获取配置文件。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以获取配置文件。在这里,上述配置文件可以包括抓取目标信息和抓取参数信息。
在本实施例中,抓取目标信息可以是用于指示抓取目标的信息,抓取目标信息可以是预先配置的。
作为示例,抓取目标信息可以是用户从预先设置的抓取目标信息库中选取的。抓取目标信息可以是“抓取热点资讯”。
在本实施例中,抓取参数可以是抓取信息时所利用的参数。
作为示例,抓取参数可以包括但不限于网站标识、抓取关键词、抓取类型、抓取频率、页面位置信息、开始时间点、源网际协议(Internet Protocol,IP)地址等。
作为示例,网站标识可以是待抓取信息所在的网站的标识。例如,网站标识可以是与网站所包含的各网页对应的网址均包含的字符串,且该字符串可以区别于其它网站的标识。例如,网站A包括网页a和网页b,网页a的网址为https://www.CCC.com/aaa,网页b的网址为https://www.CCC.com/bbb,那么该网站A的标识例如可以是https://www.CCC.com。
作为示例,抓取关键词可以是待抓取信息中所包括的关键词,例如“大米”“红豆”等。
作为示例,抓取类型可以是待抓取信息的类型,例如,文本、数字、图片、音频等。
作为示例,抓取频率可以是抓取信息时的频率,例如抓取频率可以是300次/秒。
作为示例,页面位置信息可以指示待抓取信息在页面中的位置。页面中的位置可以是正文部分、评论部分等。
作为示例,开始时间点可以是抓取信息任务开始的时间点,例如12点、24点等。
作为示例,源IP地址可以是抓取信息的电子设备从网站抓取信息时,向该网站示出的IP地址。
步骤202,根据配置文件,抓取得到第一抓取结果。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据上述配置文件,抓取得到第一抓取结果。
作为示例,上述电子设备可以根据上述抓取参数抓取信息。
作为示例,可以在网站标识所指示的网站抓取信息。可以抓取包括抓取关键词的信息。可以抓取上述抓取类型所指示的类型的信息。可以按照抓取频率抓取信息。可以抓取页面位置信息所指示的页面位置的信息。可以在开始时间点开始抓取信息任务。在网站抓取信息时,可以向此网站示出上述源IP地址。
步骤203,基于抓取目标信息和/或第一抓取结果,更新配置文件中的抓取参数。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以基于上述抓取目标信息和/或上述第一抓取结果,更新配置文件中的抓取参数。
作为示例,抓取参数包括网站标识,可以通过第一抓取结果分析得到抓取自的网站的优劣,选取较优的网站的网站标识为抓取网站标识,并将这部分网站标识作为即更新后的网站标识。可以理解的是,在这里优劣只是概括的说法,在实践过程中可以设置不同的评价优劣的标准。
作为示例,抓取参数包括抓取关键词,可以从第一抓取结果,分析得到抓取关键词的关联关键词,将分析得到的关联关键词也作为抓取关键词,从而更新抓取参数中的抓取关键词。
作为示例,抓取参数包括抓取关键词,抓取目标信息可以是“获取热点信息”,可以从预先指定的网站获取热度关键词,将热度关键词作为抓取关键词,即更新了抓取参数中的抓取关键词。在这里,热度关键词可以是上述预先指定的网站统计得到的搜索频率较高的词。
步骤204,根据更新后的配置文件,抓取得到第二抓取结果。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据更新后的配置文件,抓取得到第二抓取结果。在这里,可以按照更新后的配置文件中的抓取参数,抓取得到第二抓取结果。
继续参见图3,图3是根据本实施例的信息抓取方法的应用场景的一个示意图。在图3的应用场景中,首先,用户可以在预先设置的抓取参数和抓取目标信息配置页面,选择抓取参数和抓取目标信息。然后,抓取服务器可以根据用户选择的抓取参数和抓取目标信息(如图3中的301所示),生成配置文件(如图3中的302所示)。再后,抓取服务器可以根据配置文件,抓取得到第一抓取结果(如图3中的303所示),例如,抓取服务器可以根据配置文件中的网站标识和抓取关键词,在上述网站标识指示的网站中抓取包括抓取关键词的信息。再后,抓取服务器可以根据抓取目标信息和/或第一抓取结果,更新配置文件中的抓取参数,例如,如果抓取目标信息包括指示抓取热点资讯的信息,则将从指定网站获取的热点词作为抓取关键词,更新抓取参数中的抓取关键词,或者,可以根据第一抓取结果分析出第一抓取结果抓取自的网站的优劣,选出较优网站的网站标识作为抓取参数中的网站标识。再后,抓取服务器可以根据更新后的配置文件抓取信息得到第二抓取结果(如图3中的304所示)。
本申请的上述实施例提供的方法,通过在信息抓取的过程中,根据抓取结果和/或抓取目标信息,更新配置文件中的抓取参数,实现了在抓取过程中调整抓取参数,使得抓取到的信息更符合抓取目标,提高了信息抓取的效率。
在本实施例的一些可选的实现方式中,上述抓取参数包括在各个网站抓取信息的抓取频率。
在这些可选的实现方式中,步骤203可以进一步包括:对于第一抓取结果抓取自的至少一个网站中的每个网站,获取预设时间段内向该网站发出的抓取请求次数、该网站拒绝抓取的次数以及历史抓取频率,其中,上述历史抓取频率是在抓取上述第一抓取结果之前配置的在该网站执行抓取操作的频率,对于上述至少一个网站中的每个网站,根据向该网站发出的抓取请求次数和该网站拒绝抓取的次数,在该网站的历史抓取频率的基础上调整得到在该网站抓取待抓取信息的抓取频率。
作为示例,历史抓取频率是300次/秒,抓取第一抓取结果的抓取过程中,抓取服务器向网站发出的请求次数是500次,此网站对这500次请求的拒绝次数是100次。
作为示例,可以从请求次数是500次,拒绝次数是100次,得到20%的请求被拒绝这一信息。相应地,可以降低历史抓取频率20%,即将300次/秒调整为240次/秒。将调整后的抓取频率作为抓取参数。
需要说明的是,上述提供的调整抓取频率的方法,可以灵活调整抓取服务器在各个网站的抓取频率,减少了发出无效抓取请求的次数,从而减少了发出请求的开销,提高了信息抓取的效率。
进一步参考图4,其示出了信息抓取方法的又一个实施例的流程400。该信息抓取方法的流程400,包括以下步骤:
步骤401,获取配置文件。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以获取配置文件。
在本实施例中,上述配置文件包括抓取目标信息和抓取参数。抓取参数包括网站标识序列,上述网站标识序列包括至少一个网站标识,网站标识是抓取信息所在的网站的网站标识。可以理解,上述电子设备可以从网站标识序列中依次读出网站标识,并去读出的网站标识所指示的网站抓取信息。
步骤402,根据配置文件,抓取得到第一抓取结果。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据配置文件,抓取得到第一抓取结果。
在本实施例中,上述电子设备可以按照网站标识序列中网站标识的顺序,依次去各网站标识指示的网站中抓取信息。
可以理解,第一抓取结果可以包括抓取自至少一个网站的信息。
步骤403,对于第一抓取结果抓取自的至少一个网站中的每个网站,根据抓取自该网站的信息,确定该网站的至少一种特征值。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以对于上述第一抓取结果抓取自的至少一个网站中的每个网站,根据抓取自该网站的信息,确定该网站的至少一种特征值。
在这里,网站的特征值可以包括但不限于:网站的更新频率、网站的更新页面数量、网站的页面数量。关于如何确定网站的更新频率、网站的更新页面数量、网站的页面数量,是本领域技术人员公知的,在此不再赘述。
步骤404,根据所确定的特征值,确定各个网站的第一评分。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据所确定的特征值,确定各个网站的第一评分。
在这里,根据该网站的至少一种特征值,确定各个网站的第一评分可以有多种方式。作为示例,对于一网站,可以将该网站各个特征值的加和或乘积作为该网站的第一评分;也可以将该网站的各个特征值乘以预先设置的权重,再加和作为该网站的第一评分。
可以看出,通过上述方法确定的第一评分,第一评分较高的网站,通常是在收录内容数量和/或更新速度方面具有优势的网站。通过对网站基于第一评分进行排序得到的第一网站标识序列,可以体现网站的在收录内容数量和更新速度方面的优劣。
步骤405,根据各个网站的第一评分,对各个网站的网站标识进行排序得到第一网站标识序列。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据各个网站的第一评分,对各个网站的网站标识进行排序得到第一网站标识序列。
步骤406,基于第一网站标识序列,更新配置文件中的网站标识序列。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以基于第一网站标识序列,更新配置文件中的网站标识序列。
在本实施例的一些可选的实现方式中,步骤406还可以包括:将第一网站标识序列确定为配置文件中的网站标识序列。
在本实施例的一些可选的实现方式中,本实施例所示的方法还可以包括:对于上述第一抓取结果抓取自的至少一个网站中的每个网站,解析抓取自该网站的每条信息,确定该条信息的至少一种质量相关特征的特征值。对于上述至少一个网站中的每个网站,根据抓取自该网站的信息的质量相关特征的特征值,确定该网站的第二评分。根据各个网站的第二评分,对各个网站的网站标识进行排序得到第二网站标识序列。
在这里,上述质量相关特征可以包括以下至少一项但不限于:原创性特征、低质性特征。
在这里,原创性特征可以是用于表征信息是否是原创信息的特征。原创性特征的特征值可以是概率值,用于表征信息是原创信息的概率是多大。
在这里,可以通过以下方式确定网站信息的原创性特征的特征值:对于抓取自该网站的每条信息,可以查看该条信息是否标注有原创标识或转载标识。如果标注有转载标识,可确定该条信息是原创信息的概率是0。如果标注有原创标识,可确定该条信息是原创信息的概率是100%,当然,也可以对标注有原创标识的信息提出质疑,设置概率值是60%。
在这里,还可以通过以下方式确定网站原创性特征的特征值:对于抓取自该网站的每条信息,可以将该条信息与预先建立的信息库中的信息进行比对,确定该条信息是否是原创信息。
在这里,低质性特征是用于指示信息的质量较低的特征。质量较低可以是指信息中包括暴力、赌博等内容。低质性特征的特征值可以是概率值,用于表征信息质量低的程度。
在这里,可以通过以下方式确定网站信息的低质性特征:可以预先设置低质信息库,将抓取到的信息与低质信息库中的信息进行比对,确定抓取到的信息是否是低质信息。如果是低质信息,则低质性特征的特征值是100%。
作为示例,抓取到的信息与低质信息库中的信息进行比对,可以是计算抓取到的信息与低质信息库中的信息的相似度,将确定的相似度作为低质性特征的特征值。
作为示例,根据抓取自该网站的信息的质量相关特征的特征值,确定该网站的第二评分,可以是:将抓取自该网站的信息的质量相关特征的特征值的和作为该网站的第二评分。
可以看出,通过上述方法确定的第二评分,第二评分较高的网站,通常是在收录内容质量方面具有优势的网站。通过对网站基于第二评分进行排序得到的第二网站标识序列,可以体现网站的在内容质量方面的优劣。
在本实施例的一些可选的实现方式中,步骤406还可以包括:基于第一网址地址序列和第二网站标识序列,确定更新配置文件中的网站标识序列。
在本实施例的一些可选的实现方式中,本实施例所示的方法还可以包括:根据上述抓取目标信息,判断是否从预先指定的网站排名统计网站获取上述网站排名统计网站统计出的第三网站标识序列,如果是,则获取上述第三网站标识序列。
在本实施例的一些可选的实现方式中,步骤406还可以包括:基于第一网址地址序列、第二网址序列和第三网站标识序列,更新配置文件中的网站标识序列。
在这里,如果抓取目标信息包括用于指示抓取热点资讯的信息,例如,抓取目标信息中包括“最新”“最近”“热点”等词,则确定从预先指定的网站排名统计网站获取上述网站排名统计网站统计出的第三网站标识序列。
需要说明的是,第三网站标识序列中的网站标识指示的网站通常具有较高的访问量。如果抓取目标信息指示抓取热点资讯,则可以执行本实施例上述的获取第三网站标识序列的方法。可以优先去最新的访问量较多的网站标识指示的网站抓取信息,提高了信息抓取的效率。
在本实施例的一些可选的实现方式中,上述抓取目标信息包括为上述第一网站标识序列设置的第一权重、为上述第二网站标识序列设置的第二权重以及为第三网站标识序列设置的第三权重。
作为示例,抓取目标信息可以包括用于指示抓取倾向的信息,抓取倾向可以是先去在收录内容数量和更新速度方面具有优势的网站抓取,还是先去收录内容质量方面具有优势的网站抓取,还是先去访问量方面具有优势的网站抓取。因此,可以对第一网站标识序列、第二网站标识序列和第三网站标识序列分别设置第一权重、第二权重和第三权重,来体现抓取倾向。即抓取信息可以包括第一权重、第二权重和第三权重。
在本实施例的一些可选的实现方式中,步骤406还可以包括:对于上述第一网站标识序列、上述第二网站标识序列和上述第三网站标识序列中的每个网站标识,确定该网站标识分别在上述第一网站标识序列、上述第二网站标识序列和上述第三网站标识序列中的第一位置、第二位置和第三位置,根据上述第一位置、上述第二位置和上述第三位置以及上述第一权重、上述第二权重和上述第三权重,确定该网站标识所指示的网站的目标评分,根据上述第一网站标识序列、上述第二网站标识序列和上述第三网站标识序列中的各个网站标识所指示的网站的目标评分,对各个网站标识进行排序,得到目标网站标识序列。可选地,可以将上述目标网站标识序列确定为配置文件中的网址标识序列
需要说明的是,从第一网站标识序列、第二网站标识序列和第三网站标识序列网站标识中的网站标识,可以提供更为丰富的抓取网站。利用抓取目标信息筛选网站标识并排序,可以从侧重多个方面的网站标识中,筛选出更符合抓取目标的网站标识,并按照抓取目标生成抓取的先后顺序,提高抓取效率。
步骤407,根据更新后的配置文件,抓取得到第二抓取结果。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据更新后的配置文件,抓取得到第二抓取结果。
在本实施例的一些可选的实现方式中,步骤407可以包括:按照目标网站标识序列中网站标识的顺序,依次去各网站标识指示的网站中抓取信息。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息抓取方法的流程400突出了更新抓取参数中的网站标识序列的步骤,由此,本实施例描述的方案可以筛选出更符合抓取目标的网站标识,并调整到网站抓取信息的先后顺序,提高信息抓取的效率。
进一步参考图5,其示出了信息抓取方法的又一个实施例的流程500。该信息抓取方法的流程500,包括以下步骤:
步骤501,获取配置文件。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以获取配置文件。在这里,上述配置文件包括抓取目标信息和抓取参数。抓取参数包括至少一个抓取关键词。
步骤502,抓取包括抓取关键词的信息,得到第一抓取结果。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以抓取包括抓取关键词的信息,得到第一抓取结果。
步骤503,从第一抓取结果中,确定出各抓取关键词的关联关键词序列。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以从第一抓取结果中,确定出各抓取关键词的关联关键词序列。
在本实施例中,上述从第一抓取结果中,确定出各抓取关键词的关联关键词序列,可以通过以下方式实现:提取上述第一抓取结果中的每条信息的关键词,对于提取出的每个关键词,确定该关键词在上述第一抓取结果的出现次数,按照出现次数由大到小的顺序,对于各个关键词进行排序,选取预定数目个关键词作为各抓取关键词的关联关键词序列。
在这里,信息的关键词可以是反映此信息的主题的词。如何提取上述第一抓取结果中的每条信息的关键词,是本领域技术人员所公知的,在此不再赘述。
作为示例,抓取关键词如果是“粮食”,可以得到包括“粮食”这一抓取关键词的第一抓取结果。对于第一抓取信息中的每条信息,可以提取该条信息的关键词。如果第一抓取信息包括10条信息,分别从这10条信息中提取出三个关键词“大豆”、“小麦”和“玉米”,其中,“玉米”这一关键词在这10条信息中的5条中出现过,“小麦”这一关键词在这10条信息中的3条中出现过,“大豆”这一关键词在这10条信息中的2条中出现过。可以按照出现次数,对“大豆”、“小麦”和“玉米”这三个关键词进行排序,得到“玉米”、“小麦”和“大豆”这一顺序的关键词序列。可以选取预定数目的关键词作为关联关键词序列,例如,可以选取两个关键词“玉米”、“小麦”作为各抓取关键词的关联关键词序列。
需要说明的是,从第一抓取结果中分析得到各抓取关键词的关联关键词序列,可以扩展抓取关键词,抓取更大范围的具有相关联内容的信息。
步骤504,根据关联关键词序列,更新配置文件中的抓取关键词。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据上述关联关键词序列,更新配置文件中的抓取关键词。
在本实施例的一些可选的实现方式中,上述根据上述关联关键词序列,更新配置文件中的抓取关键词,可以通过以下方式实现:从关联关键词序列中选取出预定数目的关联关键词作为抓取关键词,即更新后的配置文件中的抓取关键词包括原抓取关键词和选取出的关联关键词。
在本实施例的一些可选的实现方式中,上述根据上述关联关键词序列,更新配置文件中的抓取关键词,还可以通过以下方式实现:从关联关键词序列中选取出预定数目的关联关键词,用选取出的关联关键词替换原抓取关键词成为抓取关键词,即更新后的配置文件中的抓取关键词为选取出的关联关键词。
在本实施例的一些可选的实现方式中,本实施例所示的方法,还可以包括:根据上述抓取目标信息,判断是否从预先指定的热度关键词统计网站获取热度关键词序列,如果是,则从预先指定的热度关键词统计网站获取热度关键词序列,并对上述至少一个热度关键词统计网站中的每个热度关键词统计网站预先对应设置网站权重。
作为示例,如果抓取目标信息包括用于指示抓取热点资讯的信息,例如,抓取目标信息中包括“最新”“最近”“热点”等词,则确定从预先指定的热度关键词统计网站获取热度关键词序列。对于这些预先指定的热度关键词统计网站,可以预先为各热度关键词统计网站设置网站权重。对于至少一个热度关键词序列中的每个热度关键词序列中的每个热度关键词,根据该热度关键词在该热度关键词序列中的位置和该热度关键词序列所在的热度关键词排序网站的网站权重,确定该热度关键词的热度值,根据各个热度关键词的热度值,对各个热度关键词进行排序,得到热度关键词序列。
作为示例,从甲热度关键词统计网站获取热度关键词序列“大米”“小米”,甲热度关键词统计网站是0.6。“大米”的位置是第一,可以设置0.7的权重;“小米”的位置是第二,可以设置0.3的权重。从乙热度关键词统计网站获取热度关键词序列“大豆”“红豆”,乙热度关键词统计网站是0.4。“大豆”的位置是第一,可以设置0.7的权重;“红豆”的位置是第二,可以设置0.3的权重。
作为示例,根据该热度关键词在该热度关键词序列中的位置和该热度关键词序列所在的热度关键词排序网站的网站权重,确定该热度关键词的热度值,可以是:对于“大米”,可以用“大米”的0.7乘以甲热度关键词统计网站的0.6,得到“大米”的热度值0.42;对于“大米”,可以用“小米”的0.3乘以甲热度关键词统计网站的0.6,得到“小米”的热度值0.18;对于“大豆”,可以用“大豆”的0.7乘以乙热度关键词统计网站的0.4,得到“大豆”的热度值0.28;对于“红豆”,可以用“红豆”的0.3乘以乙热度关键词统计网站的0.4,得到“红豆”的热度值0.12。
作为示例,根据各个热度关键词的热度值,对各个热度关键词进行排序,得到热度关键词序列,可以是:根据“大米”的热度值0.42、“小米”的热度值0.18、“大豆”的热度值0.28和“红豆”的热度值0.12进行排序,得到热度关键词序列“大米”“大豆”“小米”“红豆”。
需要说明的是,如果抓取目标信息指示抓取热点资讯,则可以执行本实施例上述的获取热度关键词的方法。获取最新的热度关键词作为抓取关键词,可以保证抓取到的信息具有较高的实时性。
在本实施例的一些可选的实现方式中,上述抓取目标信息包括为关联关键词序列设置的关联关键词权重以及为热度关键词序列设置的热度关键词权重。
作为示例,抓取目标信息可以包括用于指示抓取倾向的信息,抓取倾向,可以指示抓取最新的信息,或指示抓取在原抓取关键词的基础上更为广泛的信息。可以理解,热度关键词体现的是最新的信息,关联关键词体现的是抓取在原抓取关键词的基础上更为广泛的信息。可以通过设置关联关键词权重、热度关键词权重,来体现抓取倾向。即抓取信息包括关联关键词权重、热度关键词权重。
在本实施例的一些可选的实现方式中,步骤504还可以包括:对于上述关联关键词序列中的每个关联关键词和上述热度关键词序列中的每个热度关键词,对于上述关联关键词序列中的每个关联关键词和上述热度关键词序列中的每个热度关键词,分别确定该关联关键词在上述关联关键词序列中的第三位置和该热度关键词在上述热度关键词序列中的第四位置。
作为示例,可以为不同位置的关联关键词和热度关键词设置不同的初始值。关联关键词序列包括两个关联关键词“玉米”、“小麦”,热度关键词序列包括两个热度关键词“大米”“大豆”。可以设置处于第一的“玉米”的初始值是0.7,处于第二的“小麦”的初始值是0.3。处于第一的“大米”的初始值是0.7,处于第二的“大豆”的初始值是0.3。
在本实施例的一些可选的实现方式中,步骤503还可以包括:根据上述第三位置和上述第四位置以及上述关联关键词权重、热度关键词权重,确定各关联关键词和各热度关键词的目标权重;根据所确定的目标权重,对各关联关键词和各热度关键词进行排序,选取预定数目个各关联关键词和/或各热度关键词作为抓取关键词。
作为示例,如果关联关键词权重是0.7,热度关键词权重是0.4,则上述第三位置和上述第四位置以及上述关联关键词权重、热度关键词权重,确定各关联关键词和各热度关键词的目标权重可以是:“玉米”的初始值0.7与关联关键词权重0.7的乘积,作为“玉米”的目标权重0.49;“小麦”的初始值0.3与关联关键词权重0.7的乘积,作为“小麦”的目标权重0.21;“大米”的初始值0.7与热度关键词权重0.4的乘积,作为“大米”的目标权重0.28;“大豆”的初始值0.3与热度关键词权重0.4的乘积,作为“大豆”的目标权重0.12。
作为示例,根据所确定的目标权重,对各关联关键词和各热度关键词进行排序,选取预定数目个各关联关键词和/或各热度关键词作为抓取关键词,可以是:对两个关联关键词“玉米”、“小麦”和两个热度关键词“大米”“大豆”进行排序,得到“玉米”“大米”“小麦”“大豆”这一抓取关键词序列。可以从“玉米”“大米”“小麦”“大豆”选取预定数目个词作为抓取关键词,例如,选取“玉米”“大米”作为抓取关键词。
需要说明的是,利用多个方法确定的抓取关键词,可以提供更为丰富的抓取关键词。利用抓取目标信息筛选抓取关键词,可以从多个方面的关键词中,筛选出更符合抓取目标的抓取关键词,提高抓取效率。
步骤505,根据更新后的配置文件,抓取得到第二抓取结果。
在本实施例中,信息抓取方法运行于其上的电子设备(例如图1所示的抓取服务器)可以根据更新后的配置文件,抓取得到第二抓取结果。
在本实施例中,步骤505可以包括:抓取包括更新后的配置文件中的抓取关键词的信息,得到第二抓取结果。
从图5中可以看出,与图2对应的实施例相比,本实施例中的信息抓取方法的流程500突出了对抓取关键词进行更新的步骤。由此,本实施例描述的方案可以调整抓取关键词,从而实现更全面和更有效的信息抓取。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种信息抓取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例上述的信息抓取装置600包括:获取单元601、第一抓取单元602、更新单元603和第二抓取单元604。其中,获取单元601,用于获取配置文件,其中,上述配置文件包括抓取目标信息和抓取参数;第一抓取单元602,用于根据上述配置文件,抓取得到第一抓取结果;更新单元603,用于基于上述抓取目标信息和/或上述第一抓取结果,更新上述配置文件中的抓取参数;第二抓取单元604,用于根据更新后的配置文件,抓取得到第二抓取结果。
在本实施例中,装置600的获取单元601、第一抓取单元602、更新单元603和第二抓取单元604的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203以及步骤204,在此不再赘述。
在本实施例的一些可选的实现方式中,上述抓取参数包括网站标识序列,上述网站标识序列包括待抓取信息所在的至少一个网站的网站标识,上述网站标识序列包括待抓取信息所在的至少一个网站的标识;以及上述更新单元,还用于:上述基于上述抓取目标信息和/或上述第一抓取结果,更新上述配置文件中的抓取参数,包括:对于上述第一抓取结果抓取自的至少一个网站中的每个网站,根据抓取自该网站的信息,确定该网站的至少一种特征值,上述特征值包括以下至少一项:网站的更新频率、网站的更新页面数量、网站的页面数量;根据所确定的特征值,确定各个网站的第一评分;根据各个网站的第一评分,对各个网站的网站标识进行排序得到第一网站标识序列;基于上述第一网站标识序列,更新上述配置文件中的网站标识序列。
在本实施例的一些可选的实现方式中,上述更新单元,还用于:包括:对于上述至少一个网站中的每个网站,解析抓取自该网站的每条信息,确定该条信息的至少一种质量相关特征的特征值,上述质量相关特征包括以下至少一项:原创性特征、低质性特征;对于上述至少一个网站中的每个网站,根据抓取自该网站的信息的质量相关特征的特征值,确定该网站的第二评分;根据各个网站的第二评分,对各个网站的网站标识进行排序得到第二网站标识序列;基于上述第一网站标识序列和上述第二网站标识序列,更新上述配置文件中的网站标识序列。
在本实施例的一些可选的实现方式中,上述更新单元,还用于:根据上述抓取目标信息,判断是否从预先指定的网站排名统计网站获取上述网站排名统计网站统计出的第三网站标识序列;如果是,则获取上述第三网站标识序列;基于上述第一网站标识序列、上述第二网站标识序列和上述第三网站标识序列,更新上述配置文件中的网站标识序列。
在本实施例的一些可选的实现方式中,上述抓取目标信息包括为上述第一网站标识序列设置的第一权重、为上述第二网站标识序列设置的第二权重以及为第三网站标识序列设置的第三权重;以及上述更新单元,还用于:对于上述第一网站标识序列、上述第二网站标识序列和上述第三网站标识序列中的每个网站标识,确定该网站标识分别在上述第一网站标识序列、上述第二网站标识序列和上述第三网站标识序列中的第一位置、第二位置和第三位置;根据上述第一位置、上述第二位置和上述第三位置以及上述第一权重、上述第二权重和上述第三权重,确定该网站标识所指示的网站的目标评分;根据上述第一网站标识序列、上述第二网站标识序列和上述第三网站标识序列中的各个网站标识所指示的网站的目标评分,对各个网站标识进行排序,得到目标网站标识序列;将上述目标网站标识序列确定为配置文件中的网站标识序列。
在本实施例的一些可选的实现方式中,上述抓取参数包括至少一个抓取关键词;以及上述第一抓取单元,还用于:抓取包括上述抓取关键词的信息,得到第一抓取结果;以及上述更新单元,还用于:从上述第一抓取结果中,确定出上述各抓取关键词的关联关键词序列;根据上述关联关键词,更新上述配置文件中的抓取关键词。
在本实施例的一些可选的实现方式中,上述更新单元,还用于:提取上述第一抓取结果中的每条信息的关键词;对于提取出的每个关键词,确定该关键词在上述第一抓取结果中的出现次数;按照出现次数由大到小的顺序,对各个关键词进行排序,选取预定数目个关键词作为上述各抓取关键词的关联关键词序列。
在本实施例的一些可选的实现方式中,上述更新单元,还用于:根据上述抓取目标信息,判断是否从预先指定的热度关键词统计网站获取热度关键词序列;如果是,则从预先指定的热度关键词统计网站获取热度关键词序列,并对上述至少一个热度关键词统计网站中的每个热度关键词统计网站预先对应设置网站权重;对于至少一个热度关键词序列中的每个热度关键词序列中的每个热度关键词,根据该热度关键词在该热度关键词序列中的位置和该热度关键词序列所在的热度关键词排序网站的网站权重,确定该热度关键词的热度值;根据各个热度关键词的热度值,对各个热度关键词进行排序,得到热度关键词序列。
在本实施例的一些可选的实现方式中,上述抓取目标信息包括为关联关键词序列设置的关联关键词权重以及为热度关键词序列设置的热度关键词权重;以及上述更新单元,还用于:对于上述关联关键词序列中的每个关联关键词和上述热度关键词序列中的每个热度关键词,分别确定关联关键词在上述关联关键词序列的第三位置和热度关键词在上述热度关键词序列中的第四位置;根据上述第三位置、上述第四位置以及上述关联关键词权重、热度关键词权重,确定各个联关键词和各个热度关键词的目标权重;根据所确定的目标权重,对各关联关键词和各热度关键词进行排序,选取预定数目个关联关键词和/或热度关键词作为抓取关键词。
在本实施例的一些可选的实现方式中,上述抓取参数包括在各个网站抓取信息的抓取频率;以及上述更新单元,还用于:对于第一抓取结果抓取自的至少一个网站中的每个网站,获取预设时间段内向该网站发出的抓取请求次数、该网站拒绝抓取的次数以及历史抓取频率,其中,上述历史抓取频率是在抓取上述第一抓取结果之前配置的在该网站执行抓取操作的频率;对于上述至少一个网站中的每个网站,根据向该网站发出的抓取请求次数和该网站拒绝抓取的次数,在该网站的历史抓取频率的基础上调整得到在该网站抓取待抓取信息的抓取频率。
本实施例所提供的装置的各个单元的实现细节和技术效果,可以参考本申请其它实施例中的说明,在此不再赘述。
下面参考图7,其示出了适于用来实现本申请实施例的服务器的计算机系统700的结构示意图。图7示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口706也连接至总线704。
以下部件连接至I/O接口706:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口706。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、第一抓取单元、更新单元、第二抓取单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取配置文件的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取配置文件,其中,上述配置文件包括抓取目标信息和抓取参数;根据配置文件,抓取得到第一抓取结果;基于上述抓取目标信息和/或上述第一抓取结果,更新上述配置文件中的抓取参数;根据更新后的配置文件,抓取得到第二抓取结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种信息抓取方法,其特征在于,所述方法包括:
获取配置文件,其中,所述配置文件包括抓取目标信息和抓取参数;
根据所述配置文件,抓取得到第一抓取结果;
基于所述抓取目标信息和/或所述第一抓取结果,更新所述配置文件中的抓取参数,包括:对于第一网站标识序列、第二网站标识序列和第三网站标识序列中的每个网站标识,确定该网站标识分别在所述第一网站标识序列、所述第二网站标识序列和所述第三网站标识序列中的第一位置、第二位置和第三位置;根据所述第一位置、所述第二位置和所述第三位置以及第一权重、第二权重和第三权重,确定该网站标识所指示的网站的目标评分;根据所述第一网站标识序列、所述第二网站标识序列和所述第三网站标识序列中的各个网站标识所指示的网站的目标评分,对各个网站标识进行排序,得到目标网站标识序列;将所述目标网站标识序列确定为配置文件中的网站标识序列;所述抓取目标信息包括为所述第一网站标识序列设置的第一权重、为所述第二网站标识序列设置的第二权重以及为第三网站标识序列设置的第三权重;所述第一网站标识序列基于所述第一抓取结果抓取自的各网站的收录内容数量和更新速度的优劣确定,所述第二网站标识序列基于所述第一抓取结果抓取自的各网站的内容质量的优劣确定,第三网站标识序列基于所述抓取目标信息及预先指定的网站排名统计网站确定;
根据更新后的配置文件,抓取得到第二抓取结果。
2.根据权利要求1所述的方法,其特征在于,所述第一网站标识序列通过以下方式得到:
对于所述第一抓取结果抓取自的至少一个网站中的每个网站,根据抓取自该网站的信息,确定该网站的至少一种特征值,所述特征值包括以下至少一项:网站的更新频率、网站的更新页面数量、网站的页面数量;
根据所确定的特征值,确定各个网站的第一评分;
根据各个网站的第一评分,对各个网站的网站标识进行排序得到第一网站标识序列。
3.根据权利要求2所述的方法,其特征在于,所述第二网站标识序列通过以下方式得到:
对于所述至少一个网站中的每个网站,解析抓取自该网站的每条信息,确定该条信息的至少一种质量相关特征的特征值,所述质量相关特征包括以下至少一项:原创性特征、低质性特征;
对于所述至少一个网站中的每个网站,根据抓取自该网站的信息的质量相关特征的特征值,确定该网站的第二评分;
根据各个网站的第二评分,对各个网站的网站标识进行排序得到第二网站标识序列。
4.根据权利要求3所述的方法,其特征在于,所述第三网站标识序列通过以下方式得到:
根据所述抓取目标信息,判断是否从预先指定的网站排名统计网站获取所述网站排名统计网站统计出的第三网站标识序列;
如果是,则获取所述第三网站标识序列。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述抓取参数包括至少一个抓取关键词;以及
所述根据配置文件,抓取得到第一抓取结果,包括:
抓取包括所述抓取关键词的信息,得到第一抓取结果;以及
所述基于所述抓取目标信息和/或所述第一抓取结果,更新所述配置文件中的抓取参数,包括:
从所述第一抓取结果中,确定出所述各抓取关键词的关联关键词序列;
根据所述关联关键词序列,更新所述配置文件中的抓取关键词。
6.根据权利要求5所述的方法,其特征在于,所述从所述第一抓取结果中,确定出所述各抓取关键词的关联关键词序列,包括:
提取所述第一抓取结果中的每条信息的关键词;
对于提取出的每个关键词,确定该关键词在所述第一抓取结果中的出现次数;
按照出现次数由大到小的顺序,对各个关键词进行排序,选取预定数目个关键词作为所述各抓取关键词的关联关键词序列。
7.根据权利要求6所述的方法,其特征在于,所述基于所述抓取目标信息和/或所述第一抓取结果,更新所述配置文件中的抓取参数,包括:
根据所述抓取目标信息,判断是否从预先指定的热度关键词统计网站获取热度关键词序列;
如果是,则从预先指定的热度关键词统计网站获取热度关键词序列,并对所述至少一个热度关键词统计网站中的每个热度关键词统计网站预先对应设置网站权重;
对于至少一个热度关键词序列中的每个热度关键词序列中的每个热度关键词,根据该热度关键词在该热度关键词序列中的位置和该热度关键词序列所在的热度关键词排序网站的网站权重,确定该热度关键词的热度值;
根据各个热度关键词的热度值,对各个热度关键词进行排序,得到热度关键词序列。
8.根据权利要求7所述的方法,其特征在于,所述抓取目标信息包括为关联关键词序列设置的关联关键词权重以及为热度关键词序列设置的热度关键词权重;以及
所述根据所述关联关键词,更新所述配置文件中的抓取关键词,还包括:
对于所述关联关键词序列中的每个关联关键词和所述热度关键词序列中的每个热度关键词,分别确定关联关键词在所述关联关键词序列的第三位置和热度关键词在所述热度关键词序列中的第四位置;根据所述第三位置、所述第四位置以及所述关联关键词权重、热度关键词权重,确定各个联关键词和各个热度关键词的目标权重;
根据所确定的目标权重,对各关联关键词和各热度关键词进行排序,选取预定数目个关联关键词和/或热度关键词作为抓取关键词。
9.根据权利要求1所述的方法,其特征在于,所述抓取参数包括在各个网站抓取信息的抓取频率;以及
所述基于所述抓取目标信息和/或所述第一抓取结果,更新所述配置文件中的抓取参数,包括:
对于第一抓取结果抓取自的至少一个网站中的每个网站,获取预设时间段内向该网站发出的抓取请求次数、该网站拒绝抓取的次数以及历史抓取频率,其中,所述历史抓取频率是在抓取所述第一抓取结果之前配置的在该网站执行抓取操作的频率;
对于所述至少一个网站中的每个网站,根据向该网站发出的抓取请求次数和该网站拒绝抓取的次数,在该网站的历史抓取频率的基础上调整得到在该网站抓取待抓取信息的抓取频率。
10.一种信息抓取装置,其特征在于,所述装置包括:
获取单元,用于获取配置文件,其中,所述配置文件包括抓取目标信息和抓取参数;
第一抓取单元,用于根据所述配置文件,抓取得到第一抓取结果;
更新单元,用于基于所述抓取目标信息和/或所述第一抓取结果,更新所述配置文件中的抓取参数,包括:对于第一网站标识序列、第二网站标识序列和第三网站标识序列中的每个网站标识,确定该网站标识分别在所述第一网站标识序列、所述第二网站标识序列和所述第三网站标识序列中的第一位置、第二位置和第三位置;根据所述第一位置、所述第二位置和所述第三位置以及第一权重、第二权重和第三权重,确定该网站标识所指示的网站的目标评分;根据所述第一网站标识序列、所述第二网站标识序列和所述第三网站标识序列中的各个网站标识所指示的网站的目标评分,对各个网站标识进行排序,得到目标网站标识序列;将所述目标网站标识序列确定为配置文件中的网站标识序列;所述抓取目标信息包括为所述第一网站标识序列设置的第一权重、为所述第二网站标识序列设置的第二权重以及为第三网站标识序列设置的第三权重;所述第一网站标识序列基于所述第一抓取结果抓取自的各网站的收录内容数量和更新速度的优劣确定,所述第二网站标识序列基于所述第一抓取结果抓取自的各网站的内容质量的优劣确定,第三网站标识序列基于所述抓取目标信息及预先指定的网站排名统计网站确定;
第二抓取单元,用于根据更新后的配置文件,抓取得到第二抓取结果。
11.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN201710291162.9A 2017-04-28 2017-04-28 信息抓取方法和装置 Active CN108804444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710291162.9A CN108804444B (zh) 2017-04-28 2017-04-28 信息抓取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710291162.9A CN108804444B (zh) 2017-04-28 2017-04-28 信息抓取方法和装置

Publications (2)

Publication Number Publication Date
CN108804444A CN108804444A (zh) 2018-11-13
CN108804444B true CN108804444B (zh) 2022-03-04

Family

ID=64069972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710291162.9A Active CN108804444B (zh) 2017-04-28 2017-04-28 信息抓取方法和装置

Country Status (1)

Country Link
CN (1) CN108804444B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414524A (zh) * 2020-03-17 2020-07-14 安徽火蓝数据有限公司 基于大数据的网络数据抓取方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
CN101477556B (zh) * 2009-01-22 2010-09-15 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN103020123B (zh) * 2012-11-16 2016-08-24 中国科学技术大学 一种搜索不良视频网站的方法
CN103116638B (zh) * 2013-02-19 2017-02-08 人民搜索网络股份公司 网页筛选方法及装置
CN105117501B (zh) * 2015-10-09 2017-07-11 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫系统
CN105740417A (zh) * 2016-01-29 2016-07-06 青岛海信移动通信技术股份有限公司 一种基于网页的目标数据搜索方法、模块、浏览器及终端
CN105956013A (zh) * 2016-04-21 2016-09-21 世纪禾光科技发展(北京)有限公司 网站关键词提取方法、装置和系统

Also Published As

Publication number Publication date
CN108804444A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
US10868827B2 (en) Browser extension for contemporaneous in-browser tagging and harvesting of internet content
US20200036799A1 (en) System and method for main page identification in web decoding
US9723018B2 (en) System and method of analyzing web content
CN100533434C (zh) 在因特网搜索引擎上检测无效点击的方法和设备
US7827166B2 (en) Handling dynamic URLs in crawl for better coverage of unique content
CN105027121A (zh) 对本机应用的应用页面建索引
CN110069693B (zh) 用于确定目标页面的方法和装置
CN104143008B (zh) 基于图片匹配检测钓鱼网页的方法及装置
US10834105B2 (en) Method and apparatus for identifying malicious website, and computer storage medium
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
WO2020044096A1 (zh) 信息搜索方法、装置及设备/终端/服务器
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
US20170017695A1 (en) Question and answer information providing system, information processing device, and non-transitory computer-readable medium
KR20040087205A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
EP3745292A1 (en) Hidden link detection method and apparatus for website
CN107786529B (zh) 网站的检测方法、装置及系统
CN105786858A (zh) 信息搜索系统及方法
CN108804444B (zh) 信息抓取方法和装置
CN110413861B (zh) 基于网络爬虫的链接提取方法、装置、设备及存储介质
US11556819B2 (en) Collection apparatus, collection method, and collection program
CN109246069B (zh) 网页登录方法、装置和可读存储介质
CN108171053B (zh) 一种规则发现的方法以及系统
CN110990701A (zh) 书籍搜索方法、计算设备及计算机存储介质
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant