CN103793509B - 组图抓取方法与装置 - Google Patents

组图抓取方法与装置 Download PDF

Info

Publication number
CN103793509B
CN103793509B CN201410040516.9A CN201410040516A CN103793509B CN 103793509 B CN103793509 B CN 103793509B CN 201410040516 A CN201410040516 A CN 201410040516A CN 103793509 B CN103793509 B CN 103793509B
Authority
CN
China
Prior art keywords
group
crawl
page
diagram
grasping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410040516.9A
Other languages
English (en)
Other versions
CN103793509A (zh
Inventor
蒙杭州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qizhi Business Consulting Co ltd
Beijing Qihoo Technology Co Ltd
360 Digital Security Technology Group Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410040516.9A priority Critical patent/CN103793509B/zh
Publication of CN103793509A publication Critical patent/CN103793509A/zh
Application granted granted Critical
Publication of CN103793509B publication Critical patent/CN103793509B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种组图抓取方法与装置,其中,组图抓取方法包括:获取网站的组图抓取日志信息;对所述网站的组图抓取日志信息进行解析,根据解析结果确定所述网站中的组图页面为有效页面;根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取,其中,所述组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。通过本发明,提高了组图抓取的有效性和准确性,实现了对组图页面中组图的有效抓取。

Description

组图抓取方法与装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种组图的抓取方法与装置。
背景技术
随着网络技术的高速发展,人们的生活和工作越来越多地依赖网络进行,而网站中的网页就是网络的必需元素。一个网页可能要表述一个或者一个以上的主题内容,图片则是形像描述或补充这些主题内容的重要组成部分,如,新闻页面中的新闻附属图片、影音视频中的视频图片、以及主要以图片为主的图片网页中各种类型的图片。
现有的网页图片通常以单张展示的形式部署在网页中的相应位置,当需要抓取图片时,可以获取待抓取图片的URL(Uniform Resource Locator,统一资源定位符)地址,然后以单张图片为单位,逐张进行图片抓取。
然而,在图片抓取过程中,一方面,常因各种原因,如失链、盗链、网页模板更新等,导致无法有效、准确地抓取图片;另一方面,随着图片展现形式的发展,网页图片展示出现了组图的形式,其中,组图指网页上的多个页面中的图组成了一个大的图片内容,将这些图组合在一起,形成组图,因一个组图中包含了多张图片内容,使用现有的单张图片抓取的方式,也无法实现组图图片的有效抓取。
总之,现有的图片抓取方式无法实现图片的有效准确抓取,尤其是,无法实现组图图片的有效准确抓取。
发明内容
鉴于上述现有的图片抓取方式,无法实现组图图片的有效准确抓取的问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的组图抓取方法与装置。
依据本发明的一个方面,提供了一种组图抓取方法,包括:获取网站的组图抓取日志信息;对所述网站的组图抓取日志信息进行解析,根据解析结果确定所述网站中的组图页面为有效页面;根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取,其中,所述组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。
可选地,所述根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取的步骤包括:根据所述有效数据的起始标志和结束标志,从有效的所述组图页面的索引页面中,获取至少一个组图的索引信息;根据所述索引信息确定每个所述组图对应的有效的内容页面;根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取。
可选地,根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取的步骤包括:根据所述抓取组图的正则表达式,从所述有效的内容页面中,获取每个所述组图的详细配置信息,其中,每个所述组图的详细配置信息包括每个所述组图包括的各个子图的URL地址信息;根据所述URL地址信息,对每个所述组图包括的各个子图进行抓取。
可选地,所述组图抓取规则还包括组图展示规则;在所述对有效的所述组图页面进行组图抓取的步骤之后,还包括:按照所述组图展示规则,对抓取的组图进行展示。
可选地,所述组图抓取规则还包括抓取流量控制规则;所述根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取的步骤包括:根据所述预置的组图抓取规则,按照所述抓取流量控制规则指示的流量,分批对有效的所述组图页面进行组图抓取。
可选地,所述组图抓取规则还包括组图存储规则;在所述对有效的所述组图页面进行组图抓取的步骤之后,还包括:按照所述组图存储规则指示的数据结构,将抓取的每个所述组图存储为对应的一个结构化组图数据,将所述结构化组图数据存储在图床集群中。
可选地,在将所述结构化组图数据存储在图床集群的步骤之后,还包括:当需要访问存储在所述图床集群中的组图的结构化组图数据时,从存储有所述组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息,根据所述索引信息确定待访问的组图的结构化组图数据在所述图床集群中的存储位置;根据所述存储位置从所述图床集群中访问所述待访问的组图的结构化组图数据。
可选地,所述方法还包括:收集根据所述解析结果确定的失效的组图页面的信息;对所述失效的组图页面的信息进行分析,根据分析结果删除或修改所述组图抓取规则中,抓取所述失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式。
根据本发明的另一方面,提供了一种组图抓取装置,包括:获取模块,用于获取网站的组图抓取日志信息;确定模块,用于对所述网站的组图抓取日志信息进行解析,根据解析结果确定所述网站中的组图页面为有效页面;抓取模块,用于根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取,其中,所述组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。
可选地,所述抓取模块,用于根据所述有效数据的起始标志和结束标志,从有效的所述组图页面的索引页面中,获取至少一个组图的索引信息;根据所述索引信息确定每个所述组图对应的有效的内容页面;根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取。
可选地,所述抓取模块在根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取时:根据所述抓取组图的正则表达式,从所述有效的内容页面中,获取每个所述组图的详细配置信息,其中,每个所述组图的详细配置信息包括每个所述组图包括的各个子图的URL地址信息;根据所述URL地址信息,对每个所述组图包括的各个子图进行抓取。
可选地,所述组图抓取规则还包括组图展示规则;所述装置还包括:展示模块,用于在所述抓取模块对有效的所述组图页面进行组图抓取之后,按照所述组图展示规则,对抓取的组图进行展示。
可选地,所述组图抓取规则还包括抓取流量控制规则;所述抓取模块,用于根据所述预置的组图抓取规则,按照所述抓取流量控制规则指示的流量,分批对有效的所述组图页面进行组图抓取。
可选地,所述组图抓取规则还包括组图存储规则;所述装置还包括:存储模块,用于在所述抓取模块对有效的所述组图页面进行组图抓取之后,按照所述组图存储规则指示的数据结构,将抓取的每个所述组图存储为对应的一个结构化组图数据,将所述结构化组图数据存储在图床集群中。
可选地,所述装置还包括:访问模块,用于在所述存储模块将所述结构化组图数据存储在图床集群之后,当需要访问存储在所述图床集群中的组图的结构化组图数据时,从存储有所述组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息,根据所述索引信息确定待访问的组图的结构化组图数据在所述图床集群中的存储位置;根据所述存储位置从所述图床集群中访问所述待访问的组图的结构化组图数据。
可选地,所述装置还包括:更新模块,用于收集根据所述解析结果确定的失效的组图页面的信息;对所述失效的组图页面的信息进行分析,根据分析结果删除或修改所述组图抓取规则中,抓取所述失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式。
本发明的组图抓取方案中,首先通过对网站的组图抓取日志信息的分析,确定出有效的组图页面,进而,再根据预置的组图抓取规则,对这些有效的组图页面中的组图进行抓取。一方面,通过确定待抓取的组图页面的有效性,避免了对无效页面,如网站模板已更改的页面、失链页面、盗链页面,进行组图抓取,提高了组图抓取的有效性和准确性;另一方面,通过预置的组图抓取规则,实现了对组图页面中组图的有效抓取。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例一的一种组图抓取方法的步骤流程图;
图2是根据本发明实施例二的一种组图抓取方法的步骤流程图;
图3是根据本发明实施例三的一种组图抓取方法的步骤流程图;
图4是根据本发明实施例四的一种组图抓取装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了根据本发明实施例一的一种组图抓取方法的步骤流程图。
本实施例的组图抓取方法包括以下步骤:
步骤S102:获取网站的组图抓取日志信息。
与网站蜘蛛爬取网站信息类似,当从网站中抓取图片时,图片抓取工具会生成相应的图片抓取日志,同样,当从网站中抓取组图时,则图片抓取工具会生成相应的组图抓取日志。在组图抓取日志中,记录了对网站中的组图的抓取信息。
组图抓取日志可以存储在抓取组图的机器中,当需要时,通过指定的路径查找到相应的组图抓取日志,进而对查找到的组图抓取日志进行分析,获取组图抓取日志信息,如,对某个网站的组图抓取是否成功,抓取失败的次数、时间、网站信息等等。
步骤S104:对网站的组图抓取日志信息进行解析,根据解析结果确定网站中的组图页面为有效页面。
例如,通过对组图抓取日志信息进行解析,发现一段时间以来对该网站组图页面的组图抓取均为失败,则确定该网站中的组图页面失效;反之,则有效。再例如,通过对组图抓取日志信息进行解析,发现一段时间以来无法连接到某个网站,则确定该网站中的组图页面失效等等。但不限于此,其它传统的通过分析日志信息确定网页是否有效的方案也同样适用。
步骤S106:根据预置的组图抓取规则,对有效的组图页面进行组图抓取。
其中,组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。有效数据的起始标志和结束标志用于标识出组图,正则表达式则用于对标识出的组图进行图片抓取。
组图抓取规则可以以任意适当形式存在,一种优选形式为组图抓取模板的形式。对组图抓取模板中的内容进行预先配置,生成相应的组图抓取规则。但不限于此,其它组图抓取规则形式,如数据库形式、文本文件形式等,也同样适用。
通过本实施例,首先对网站的组图抓取日志信息的分析,确定出有效的组图页面,进而,再根据预置的组图抓取规则,对这些有效的组图页面中的组图进行抓取。一方面,通过确定待抓取的组图页面的有效性,避免了对无效页面,如网站模板已更改的页面、失链页面、盗链页面,进行组图抓取,提高了组图抓取的有效性和准确性;另一方面,通过预置的组图抓取规则,实现了对组图页面中组图的有效抓取。
实施例二
参照图2,示出了根据本发明实施例二的一种组图抓取方法的步骤流程图。
本实施例以组图抓取工具作为进行组图抓取的执行主体为例,对本发明的组图抓取方法进行说明。但本领域技术人员应当明了,其它与组图抓取工具类似的设备、应用、软件、工具等均可参照本实施例进行组图抓取。
本实施例的组图抓取方法包括以下步骤:
步骤S202:组图抓取工具获取网站的组图抓取日志信息。
步骤S204:组图抓取工具对网站的组图抓取日志信息进行解析,根据解析结果确定网站中的组图页面为有效页面。
当组图抓取工具使用组图抓取规则抓取组图失败后,组图抓取工具会将抓取失败的信息存放在log即组图抓取日志中,通过分析组图抓取日志中的这些失败信息就能判断组图页面已失效。反之,则有效。
步骤S206:组图抓取工具获取预置的组图抓取规则。
组图抓取规则可以设置于组图抓取工具中,组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。其中,有效数据的起始标志和结束标志用于标识出组图,正则表达式则用于对标识出的组图进行图片抓取。
优选地,组图抓取规则还可以包括:组图展示规则、抓取流量控制规则、组图存储规则中的一种或多种。其中,组图展示规则用于指示抓取的组图以何种形式展示,如,以一组相互链接的单页形式展示;或者,在一个展示模板中展示一个组图中的所有图片(子图);或者,在一个展示模板中展示多个组图,每个组图中展示的当前页可以为该组图中的任意一个子图,当用户点击某个子图代表的组图时,在新的页面或窗口显示该组图的所有子图,或者,以链接的形式逐个显示该组图的所有子图,等等。
抓取流量控制规则用于控制抓取组图时的流量,而组图存储规则用于指示抓取到的组图以何种形式存储。其中,对于抓取组图时的流量控制来说,在爬虫程序对目标网站中的网页进行抓取的过程中,为了避免对同一网站无限制的抓取,而导致影响网站的正常访问等情况的发生,通常需要对爬虫程序在目标网站上的抓取流量或者频率进行一定的限定,动态流量配额值便是对爬虫程序在目标网站上的抓取流量的一种限定。在目标网站上进行网页抓取的动态流量配额值,可以理解为在爬虫程序执行抓取任务时,在单位时间内对同一网站的进行抓取的流量的限额,例如将对动态流量配额值限制为300万条/日。
可选地,组图抓取规则还可以包括:获取组图的下一页的内容的规则,该规则用于若当前组图页面存在有下一页时,获取当前组图页面的下一页的内容。
本实施例中,以组图抓取规则包括组图页面中有效数据的起始标志、结束标志、抓取组图的正则表达式、组图展示规则、抓取流量控制规则、和组图存储规则为例进行说明。
步骤S208:组图抓取工具根据组图抓取规则中规定的有效数据的起始标志和结束标志,从有效的组图页面的索引页面中,获取至少一个组图的索引信息。
索引页即网站中的导航页,为用户提供网站或者一组网页的索引,帮助用户较快地找到想要获取的信息。对于组图页面来说,组图页面的索引页面提供了一组或多组组图的索引,进而,通过组图的索引,获取组图。
步骤S210:组图抓取工具根据组图的索引信息确定每个组图对应的有效的内容页面。
步骤S212:组图抓取工具根据组图抓取规则中的抓取组图的正则表达式,从有效的内容页面中,对每个组图包括的各个子图进行抓取。
组图的内容页面中包含有组图的详细配置信息,根据组图的详细配置信息即可进行组图的抓取。
具体地,本步骤可以包括:组图抓取工具根据组图抓取规则中的抓取组图的正则表达式,从有效的内容页面中,获取每个组图的详细配置信息,其中,每个组图的详细配置信息包括每个组图包括的各个子图的URL地址信息;根据URL地址信息,对每个组图包括的各个子图进行抓取。
优选地,当组图抓取规则包括抓取流量控制规则时,根据预置的组图抓取规则,对有效的组图页面进行组图抓取的步骤包括:根据预置的组图抓取规则,按照抓取流量控制规则指示的流量,分批对有效的组图页面进行组图抓取。
组图网站所能承受的组图抓取能力有限,因此,有必要对组图抓取的流量进行控制。一方面,可以多个站点分不同的时段对组图网站进行组图抓取,实现组图数据的分批抓取;另一方面,还可以对抓取的数据量进行控制,以避免一次抓取的数据量过大。通过流量控制,保障了组图数据的顺利抓取,也避免了组图网站因无法承受瞬时大量的组图抓取而导致的瘫痪。例如,可以根据搜索引擎收集的目标网站的访问统计数据,以及搜索引擎的市场占有率,用户直接访问量,以及网站冗余流量,来共同确定目标网站的可承受访问总量,再乘以预置的抓取压力系数,作为目标网站的抓取承受流量。或者,可以获取目标网站内所有已收录网页的网页质量分布,进而获取目标网站内所有已收录网页的网页质量分布的总和,根据目标网站内所有网页的网页质量分布的总和,确定抓取目标网站的任务流量。例如,可以获取一个或多个任务比例因子;如获取目标网站中,待抓取的网页数占目标网站中已收录网页总数的比例;和/或,获取目标网站中不重复的网页数量占目标网站中网页总数的比例。然后根据网页质量分布的总和与一个或多个任务比例因子的乘积,确定抓取目标网站的任务流量。
通过上述步骤S206-步骤S212,实现了组图抓取工具根据预置的组图抓取规则,对有效的组图页面的组图抓取。
步骤S214:组图抓取工具根据组图抓取规则中的组图展示规则和组图存储规则,对抓取到的组图进行展示和存储。
对组图的展示和存储可以不分先后顺序执行,也可以并行进行。
当组图抓取规则中包括组图展示规则时,在对有效的组图页面进行组图抓取之后,按照组图展示规则,对抓取的组图进行展示。如,以一组相互链接的单页形式展示;或者,在一个展示模板中展示一个组图中的所有子图;或者,在一个展示模板中展示多个组图,每个组图中展示的当前页可以为该组图中的任意一个子图,当用户点击某个子图代表的组图时,在新的页面或窗口显示该组图的所有子图,或者,以链接的形式逐个显示该组图的所有子图,等等。组图展示规则可以通过对组图浏览用户的浏览行为进行调查和分析后设置,以尽可能地满足大部分组图浏览用户的浏览需求,提升组图浏览体验。
当组图抓取规则中包括组图存储规则时,在对有效的组图页面进行组图抓取之后,按照组图存储规则指示的数据结构,将抓取的每个组图存储为对应的一个结构化组图数据。也即,将一个组图存储为一个结构化组图数据,该结构化组图数据中包括了该组图中的所有子图的数据。其中,结构化组图数据可以包括诸如:组图中的标题、内容、图片的URL等数据。使用结构化组图数据存储组图,使得组图的存储、管理和查找都更为有效、方便、快速。进而,可以将组图对应的结构化组图数据存储在图床集群中。其中,图床可以是专用于存储图片的存储服务器,多个专用于存储图片的存储服务器组成图床集群。在将组图对应的结构化组图数据存储在图床集群中时,可以按照一定的规则和负载均衡机制进行存储,以保存组图对应的结构化组图数据的快速、顺利存储,以及后续的快速、顺利访问。
步骤S216:组图抓取工具收集根据解析结果确定的失效的组图页面的信息。
其中,收集的失效的组图页面的信息主要包括:失效的组图页面的结构信息、内容信息、URL信息中的一种或多种,当然,还可以根据实际需要收集失效组图页面的其它信息。根据这些信息可以判断组图页面的失效原因,进行将失效原因作为参考,更新组图抓取规则。
步骤S218:组图抓取工具对失效的组图页面的信息进行分析,根据分析结果更新组图抓取规则。
其中,根据分析结果更新组图抓取规则包括:删除组图抓取规则中,抓取失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式;或者,修改组图抓取规则中,抓取失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式,以便后续对该页面组图进行顺利抓取。
如,若对失效的组图页面的信息进行分析后,确定失效原因为URL失效,则可以重新获取组图网站和组图页面的URL地址,使用新的地址替换失效的URL地址;若对失效的组图页面的信息进行分析后,确定失效原因为网页结构发生改变,则可以根据该改变更新组图抓取规则,以适应改变后的组图网页的网页结构,进行组图抓取。
需要说明的是,上述步骤S216-S218为可选步骤,通过步骤S216-S218,实现了组图抓取规则的及时更新和更为有效的组图抓取。
通过本实施例,一方面,通过确定待抓取的组图页面的有效性,避免了对无效页面,如网站模板已更改的页面、失链页面、盗链页面,进行组图抓取,提高了组图抓取的有效性和准确性;另一方面,通过预置的组图抓取规则,实现了对组图页面中组图的有效抓取。
实施例三
参照图3,示出了根据本发明实施例三的一种组图抓取方法的步骤流程图。
本实施例仍以组图抓取工具为例,对本发明的组图抓取方法进行说明。本实施例的组图抓取方法包括以下步骤:
步骤S302:组图抓取工具获取网站的组图抓取日志信息。
本实施例中,设定组图抓取工具抓取网站A、B、和C的组图,获取设定时间段,如一周以内的网站A、B、和C的组图抓取日志信息。
步骤S304:组图抓取工具对网站的组图抓取日志信息进行解析,根据解析结果判断网站中的组图页面是否为有效页面;若为有效页面,则执行步骤S306;若为失效页面,则执行步骤S316。
本实施例中,设定网站A和B中的组图页面为有效页面,网站C中的组图页面为失效页面。
步骤S306:组图抓取工具分别对网站A和B中的组图进行抓取,每隔30分钟抓取一次,每次抓取的数据量为1000M。
本实施例中,仅以单台组图抓取设备为例,但本领域技术人员应当明了,在实际使用中,可以同时有多台组图抓取设备进行组图抓取工作,这种情况下,多台组图抓取设备可以分别对不同的网站进行组图抓取,抓取可以分时段进行。
步骤S308:组图抓取工具根据组图抓取规则中规定的有效数据的起始标志和结束标志,从有效的组图页面的索引页面中,获取至少一个组图的索引信息。
本实施例中,设定从网站A的组图页面的索引页面中,获取到“美女”组图的索引信息,从网站B的组图页面的索引页面中,获取到“萌宠”组图的索引信息,组图的索引信息中包含有组图数据的信息(即该网站有多少组图),以及,组图对应的内容页面的信息。
步骤S310:组图抓取工具根据组图的索引信息,确定每个组图对应的有效的内容页面。
组图的内容页面中包含有组图的详细配置信息,包括每个组图所包括的各个子图的URL地址信息。根据子图的URL地址信息,即可进行组图所包括的各个子图的抓取。
可见,对索引页面抓取的是组图的索引信息,而内容页面抓取的是组图的详细信息。组图抓取工具先通过索引页面获取有多少组图,进而对组图的详细配置信息进行抓取,通过图片的URL来抓取图片,存放在图床(存储图片的数据集群)上即可。
步骤S312:当组图抓取时间点到达时,组图抓取工具根据组图抓取规则中的抓取组图的正则表达式,按照预设的组图抓取数据量(即1000M)从有效的内容页面中,对每个组图包括的各个子图进行抓取。
本发明中,通过正则表达式,对抓取组图的逻辑和规则进行了定义,按照该正则表达式,根据子图的URL地址信息,即可进行组图抓取。
步骤S314:组图抓取工具根据组图抓取规则中的组图展示规则和组图存储规则,对抓取到的组图进行展示和存储,结束本次流程。
例如,当抓取到组图后,将组图的首个子图展示在浏览器窗口中,当用户点击该子图时,弹出图片展示的专用窗口进行该组图下的所有子图的展示。
当使用“图床”存储抓取到的组图时,可以使用一个图床集群(即存储组图的服务器集群)存储组图。优选地,还可以设置图床抓取集群,即,使用图床抓取集群和图床集群存储组图。其中,图床集群中存储实际的结构化组图数据,图床抓取集群则为结构化组图数据的索引集群,其中存储结构化组图数据的索引信息。这样,当需要查找或访问结构化组图数据时,可以先通过图床抓取集群中存储的索引信息,确定结构化组图数据在图床集群中的具体存储位置,进而再到该具体存储位置处查找和访问待访问的结构化组图数据。也即,当需要访问存储在图床集群中的组图的结构化组图数据时,首先从存储有组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息;然后,根据所述索引信息确定待访问的组图的结构化组图数据在图床集群中的存储位置;再根据所述存储位置从图床集群中访问所述待访问的组图的结构化组图数据。
步骤S316:组图抓取工具收集根据解析结果确定的失效的组图页面的信息,对失效的组图页面的信息进行分析,根据分析结果更新组图抓取规则。
通过本实施例,一方面,通过确定待抓取的组图页面的有效性,避免了对无效页面,如网站模板已更改的页面、失链页面、盗链页面,进行组图抓取,提高了组图抓取的有效性和准确性;另一方面,通过预置的组图抓取规则,实现了对组图页面中组图的有效抓取。
实施例四
参照图4,示出了根据本发明实施例四的一种组图抓取装置的结构框图。
本实施例的组图抓取装置包括:获取模块402,用于获取网站的组图抓取日志信息;确定模块404,用于对网站的组图抓取日志信息进行解析,根据解析结果确定网站中的组图页面为有效页面;抓取模块406,用于根据预置的组图抓取规则,对有效的组图页面进行组图抓取,其中,组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。
优选地,抓取模块406,用于根据有效数据的起始标志和结束标志,从有效的组图页面的索引页面中,获取至少一个组图的索引信息;根据索引信息确定每个组图对应的有效的内容页面;根据抓取组图的正则表达式,从有效的内容页面中,对每个组图包括的各个子图进行抓取。
优选地,抓取模块406在根据抓取组图的正则表达式,从有效的内容页面中,对每个组图包括的各个子图进行抓取时:根据抓取组图的正则表达式,从有效的内容页面中,获取每个组图的详细配置信息,其中,每个组图的详细配置信息包括每个组图包括的各个子图的URL地址信息;根据URL地址信息,对每个组图包括的各个子图进行抓取。
优选地,组图抓取规则还包括组图展示规则;本实施例的组图抓取装置还包括:展示模块408,用于在抓取模块406对有效的组图页面进行组图抓取之后,按照组图展示规则,对抓取的组图进行展示。
优选地,组图抓取规则还包括抓取流量控制规则;抓取模块406,用于根据预置的组图抓取规则,按照抓取流量控制规则指示的流量,分批对有效的组图页面进行组图抓取。
优选地,组图抓取规则还包括组图存储规则;本实施例的组图抓取装置还包括:存储模块410,用于在抓取模块406对有效的组图页面进行组图抓取之后,按照组图存储规则指示的数据结构,将抓取的每个组图存储为对应的一个结构化组图数据,将所述结构化组图数据存储在图床集群中。
优选地,本实施例的组图抓取装置还包括:访问模块(图中未示出),用于在存储模块410将所述结构化组图数据存储在图床集群之后,当需要访问存储在图床集群中的组图的结构化组图数据时,从存储有组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息,根据所述索引信息确定待访问的组图的结构化组图数据在图床集群中的存储位置;根据所述存储位置从图床集群中访问所述待访问的组图的结构化组图数据。
优选地,本实施例的组图抓取装置还包括:更新模块412,用于收集根据解析结果确定的失效的组图页面的信息;对失效的组图页面的信息进行分析,根据分析结果删除或修改所述组图抓取规则中,抓取所述失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式。
本实施例的组图抓取装置用于实现前述多个方法实施例中相应的组图抓取方法,并具有相应的方法实施例的有益效果,在此不再赘述。
在此提供的组图抓取方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的组图抓取方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明实施例公开了A1、一种组图抓取方法,包括:
获取网站的组图抓取日志信息;
对所述网站的组图抓取日志信息进行解析,根据解析结果确定所述网站中的组图页面为有效页面;
根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取,其中,所述组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。
A2、根据A1所述的方法,其中,所述根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取的步骤包括:
根据所述有效数据的起始标志和结束标志,从有效的所述组图页面的索引页面中,获取至少一个组图的索引信息;
根据所述索引信息确定每个所述组图对应的有效的内容页面;
根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取。
A3、根据A2所述的方法,其中,根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取的步骤包括:
根据所述抓取组图的正则表达式,从所述有效的内容页面中,获取每个所述组图的详细配置信息,其中,每个所述组图的详细配置信息包括每个所述组图包括的各个子图的URL地址信息;
根据所述URL地址信息,对每个所述组图包括的各个子图进行抓取。
A4、根据A1至A3任一项所述的方法,其中,所述组图抓取规则还包括组图展示规则;
在所述对有效的所述组图页面进行组图抓取的步骤之后,还包括:
按照所述组图展示规则,对抓取的组图进行展示。
A5、根据A1至A3任一项所述的方法,其中,所述组图抓取规则还包括抓取流量控制规则;
所述根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取的步骤包括:根据所述预置的组图抓取规则,按照所述抓取流量控制规则指示的流量,分批对有效的所述组图页面进行组图抓取。
A6、根据A1至A3任一项所述的方法,其中,所述组图抓取规则还包括组图存储规则;
在所述对有效的所述组图页面进行组图抓取的步骤之后,还包括:按照所述组图存储规则指示的数据结构,将抓取的每个所述组图存储为对应的一个结构化组图数据,将所述结构化组图数据存储在图床集群中。
A7、根据A6所述的方法,其中,在将所述结构化组图数据存储在图床集群的步骤之后,还包括:
当需要访问存储在所述图床集群中的组图的结构化组图数据时,从存储有所述组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息,根据所述索引信息确定待访问的组图的结构化组图数据在所述图床集群中的存储位置;
根据所述存储位置从所述图床集群中访问所述待访问的组图的结构化组图数据。
A8、根据A1所述的方法,其中,所述方法还包括:
收集根据所述解析结果确定的失效的组图页面的信息;
对所述失效的组图页面的信息进行分析,根据分析结果删除或修改所述组图抓取规则中,抓取所述失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式。
本发明实施例还公开了B9、一种组图抓取装置,包括:
获取模块,用于获取网站的组图抓取日志信息;
确定模块,用于对所述网站的组图抓取日志信息进行解析,根据解析结果确定所述网站中的组图页面为有效页面;
抓取模块,用于根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取,其中,所述组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式。
B10、根据B9所述的装置,其中,所述抓取模块,用于根据所述有效数据的起始标志和结束标志,从有效的所述组图页面的索引页面中,获取至少一个组图的索引信息;根据所述索引信息确定每个所述组图对应的有效的内容页面;根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取。
B11、根据B10所述的装置,其中,所述抓取模块在根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取时:
根据所述抓取组图的正则表达式,从所述有效的内容页面中,获取每个所述组图的详细配置信息,其中,每个所述组图的详细配置信息包括每个所述组图包括的各个子图的URL地址信息;
根据所述URL地址信息,对每个所述组图包括的各个子图进行抓取。
B12、根据B9至B11任一项所述的装置,其中,所述组图抓取规则还包括组图展示规则;
所述装置还包括:展示模块,用于在所述抓取模块对有效的所述组图页面进行组图抓取之后,按照所述组图展示规则,对抓取的组图进行展示。
B13、根据B9至B11任一项所述的装置,其中,所述组图抓取规则还包括抓取流量控制规则;
所述抓取模块,用于根据所述预置的组图抓取规则,按照所述抓取流量控制规则指示的流量,分批对有效的所述组图页面进行组图抓取。
B14、根据B9至B11任一项所述的装置,其中,所述组图抓取规则还包括组图存储规则;
所述装置还包括:存储模块,用于在所述抓取模块对有效的所述组图页面进行组图抓取之后,按照所述组图存储规则指示的数据结构,将抓取的每个所述组图存储为对应的一个结构化组图数据,将所述结构化组图数据存储在图床集群中。
B15、根据B14所述的装置,其中,所述装置还包括:
访问模块,用于在所述存储模块将所述结构化组图数据存储在图床集群之后,当需要访问存储在所述图床集群中的组图的结构化组图数据时,从存储有所述组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息,根据所述索引信息确定待访问的组图的结构化组图数据在所述图床集群中的存储位置;根据所述存储位置从所述图床集群中访问所述待访问的组图的结构化组图数据。
B16、根据B9所述的装置,其中,所述装置还包括:
更新模块,用于收集根据所述解析结果确定的失效的组图页面的信息;对所述失效的组图页面的信息进行分析,根据分析结果删除或修改所述组图抓取规则中,抓取所述失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式。

Claims (12)

1.一种组图抓取方法,包括:
获取网站的组图抓取日志信息;
对所述网站的组图抓取日志信息进行解析,根据解析结果确定所述网站中的组图页面为有效页面;
根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取,其中,所述组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式,所述组图抓取规则还包括:获取组图的下一页的内容的规则,该规则用于若当前组图页面存在有下一页时,获取当前组图页面的下一页的内容;
其中,所述组图抓取规则还包括抓取流量控制规则;
所述根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取的步骤包括:根据所述预置的组图抓取规则,按照所述抓取流量控制规则指示的流量,分批对有效的所述组图页面进行组图抓取,其中,根据确定目标网站的可承受访问总量,再乘以预置的抓取压力系数,作为目标网站的抓取承受流量,或者,根据目标网站内所有网页的网页质量分布的总和,确定抓取目标网站的任务流量;
其中,所述组图抓取规则还包括组图存储规则;
在所述对有效的所述组图页面进行组图抓取的步骤之后,还包括:按照所述组图存储规则指示的数据结构,将抓取的每个所述组图存储为对应的一个结构化组图数据,将所述结构化组图数据存储在图床集群中。
2.根据权利要求1所述的方法,其中,所述根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取的步骤包括:
根据所述有效数据的起始标志和结束标志,从有效的所述组图页面的索引页面中,获取至少一个组图的索引信息;
根据所述索引信息确定每个所述组图对应的有效的内容页面;
根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取。
3.根据权利要求2所述的方法,其中,根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取的步骤包括:
根据所述抓取组图的正则表达式,从所述有效的内容页面中,获取每个所述组图的详细配置信息,其中,每个所述组图的详细配置信息包括每个所述组图包括的各个子图的URL地址信息;
根据所述URL地址信息,对每个所述组图包括的各个子图进行抓取。
4.根据权利要求1至3任一项所述的方法,其中,所述组图抓取规则还包括组图展示规则;
在所述对有效的所述组图页面进行组图抓取的步骤之后,还包括:
按照所述组图展示规则,对抓取的组图进行展示。
5.根据权利要求1所述的方法,其中,在将所述结构化组图数据存储在图床集群的步骤之后,还包括:
当需要访问存储在所述图床集群中的组图的结构化组图数据时,从存储有所述组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息,根据所述索引信息确定待访问的组图的结构化组图数据在所述图床集群中的存储位置;
根据所述存储位置从所述图床集群中访问所述待访问的组图的结构化组图数据。
6.根据权利要求1所述的方法,其中,所述方法还包括:
收集根据所述解析结果确定的失效的组图页面的信息;
对所述失效的组图页面的信息进行分析,根据分析结果删除或修改所述组图抓取规则中,抓取所述失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式。
7.一种组图抓取装置,包括:
获取模块,用于获取网站的组图抓取日志信息;
确定模块,用于对所述网站的组图抓取日志信息进行解析,根据解析结果确定所述网站中的组图页面为有效页面;
抓取模块,用于根据预置的组图抓取规则,对有效的所述组图页面进行组图抓取,其中,所述组图抓取规则包括组图页面中有效数据的起始标志、结束标志、和抓取组图的正则表达式,所述组图抓取规则还包括:获取组图的下一页的内容的规则,该规则用于若当前组图页面存在有下一页时,获取当前组图页面的下一页的内容;
其中,所述组图抓取规则还包括抓取流量控制规则;
所述抓取模块,用于根据所述预置的组图抓取规则,按照所述抓取流量控制规则指示的流量,分批对有效的所述组图页面进行组图抓取,其中,根据确定目标网站的可承受访问总量,再乘以预置的抓取压力系数,作为目标网站的抓取承受流量,或者,根据目标网站内所有网页的网页质量分布的总和,确定抓取目标网站的任务流量;
其中,所述组图抓取规则还包括组图存储规则;
所述装置还包括:存储模块,用于在所述抓取模块对有效的所述组图页面进行组图抓取之后,按照所述组图存储规则指示的数据结构,将抓取的每个所述组图存储为对应的一个结构化组图数据,将所述结构化组图数据存储在图床集群中。
8.根据权利要求7所述的装置,其中,所述抓取模块,用于根据所述有效数据的起始标志和结束标志,从有效的所述组图页面的索引页面中,获取至少一个组图的索引信息;根据所述索引信息确定每个所述组图对应的有效的内容页面;根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取。
9.根据权利要求8所述的装置,其中,所述抓取模块在根据所述抓取组图的正则表达式,从所述有效的内容页面中,对每个所述组图包括的各个子图进行抓取时:
根据所述抓取组图的正则表达式,从所述有效的内容页面中,获取每个所述组图的详细配置信息,其中,每个所述组图的详细配置信息包括每个所述组图包括的各个子图的URL地址信息;
根据所述URL地址信息,对每个所述组图包括的各个子图进行抓取。
10.根据权利要求7至9任一项所述的装置,其中,所述组图抓取规则还包括组图展示规则;
所述装置还包括:展示模块,用于在所述抓取模块对有效的所述组图页面进行组图抓取之后,按照所述组图展示规则,对抓取的组图进行展示。
11.根据权利要求7所述的装置,其中,所述装置还包括:
访问模块,用于在所述存储模块将所述结构化组图数据存储在图床集群之后,当需要访问存储在所述图床集群中的组图的结构化组图数据时,从存储有所述组图的结构化组图数据的索引信息的图床抓取集群中,获取待访问的组图的结构化组图数据的索引信息,根据所述索引信息确定待访问的组图的结构化组图数据在所述图床集群中的存储位置;根据所述存储位置从所述图床集群中访问所述待访问的组图的结构化组图数据。
12.根据权利要求7所述的装置,其中,所述装置还包括:
更新模块,用于收集根据所述解析结果确定的失效的组图页面的信息;对所述失效的组图页面的信息进行分析,根据分析结果删除或修改所述组图抓取规则中,抓取所述失效的组图页面中的组图时使用的组图抓取规则的有效数据的起始标志、结束标志、和抓取组图的正则表达式。
CN201410040516.9A 2014-01-27 2014-01-27 组图抓取方法与装置 Expired - Fee Related CN103793509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410040516.9A CN103793509B (zh) 2014-01-27 2014-01-27 组图抓取方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410040516.9A CN103793509B (zh) 2014-01-27 2014-01-27 组图抓取方法与装置

Publications (2)

Publication Number Publication Date
CN103793509A CN103793509A (zh) 2014-05-14
CN103793509B true CN103793509B (zh) 2018-01-19

Family

ID=50669175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410040516.9A Expired - Fee Related CN103793509B (zh) 2014-01-27 2014-01-27 组图抓取方法与装置

Country Status (1)

Country Link
CN (1) CN103793509B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190062B (zh) * 2018-08-03 2023-04-07 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN109284408A (zh) * 2018-08-22 2019-01-29 北京奇虎科技有限公司 图床数据库系统、图床数据库运行方法及装置
CN111984844B (zh) * 2020-07-27 2024-05-28 新浪技术(中国)有限公司 一种基于大数据自动补图的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN102768683A (zh) * 2012-06-29 2012-11-07 北京奇虎科技有限公司 一种图片信息的搜索方法及搜索装置
CN103530390A (zh) * 2013-10-22 2014-01-22 北京奇虎科技有限公司 网页抓取的方法及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167906A (ja) * 2001-12-03 2003-06-13 Nikon Gijutsu Kobo:Kk 画像蓄積装置及び画像保管装置
CN101308508B (zh) * 2008-07-10 2011-11-02 北京搜狗科技发展有限公司 处理图片的方法、装置以及搜索图片的方法
JP5915989B2 (ja) * 2011-11-17 2016-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報提供装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN102768683A (zh) * 2012-06-29 2012-11-07 北京奇虎科技有限公司 一种图片信息的搜索方法及搜索装置
CN103530390A (zh) * 2013-10-22 2014-01-22 北京奇虎科技有限公司 网页抓取的方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本的Web图片搜索引擎的研究与实现;谢同;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070331(第3期);参见第75、78、80-83页 *

Also Published As

Publication number Publication date
CN103793509A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN104486461B (zh) 域名分类方法和装置、域名识别方法和系统
CN103744853B (zh) 提供搜索引擎网页快照信息的方法及装置
CN103886068B (zh) 用于互联网用户行为分析的数据处理方法和装置
CN103810224B (zh) 信息持久化和查询方法及装置
CN107103032A (zh) 一种分布式环境下避免全局排序的海量数据分页查询方法
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN107578263A (zh) 一种广告异常访问的检测方法、装置和电子设备
CN105930363A (zh) 一种基于html5网页的用户行为分析方法及装置
CN103678509B (zh) 生成网页模板的方法及装置
CN103279567A (zh) 一种基于AJAX的Web数据采集方法及系统
CN107688568A (zh) 基于网页访问行为记录的采集方法及装置
CN103823907B (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN106844486A (zh) 爬取动态网页的方法及装置
CN105868254A (zh) 信息推荐方法及装置
GB2498762A (en) Computing user traffic at the website based on user actions
CN103793509B (zh) 组图抓取方法与装置
CN104391953B (zh) 检测网页更新的方法及装置
CN107515875A (zh) 数据查询方法及装置
CN104268289B (zh) 链接url的失效检测方法和装置
CN110069573A (zh) 产品数据集成方法、装置、计算机设备及存储介质
CN112800016A (zh) 一种日志数据分类排序方法及装置
CN107239970A (zh) 一种基于行为日志确定广告点击率的方法及系统
CN106326280A (zh) 数据处理方法、装置及系统
CN103605744B (zh) 网站搜索引擎流量数据的分析方法及装置
CN110929058A (zh) 商标图片的检索方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee after: Beijing Qizhi Business Consulting Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220324

Address after: 100016 1773, 15 / F, 17 / F, building 3, No.10, Jiuxianqiao Road, Chaoyang District, Beijing

Patentee after: Sanliu0 Digital Security Technology Group Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Beijing Qizhi Business Consulting Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180119

CF01 Termination of patent right due to non-payment of annual fee