CN104598570A - 资源的抓取方法及装置 - Google Patents

资源的抓取方法及装置 Download PDF

Info

Publication number
CN104598570A
CN104598570A CN201510015292.0A CN201510015292A CN104598570A CN 104598570 A CN104598570 A CN 104598570A CN 201510015292 A CN201510015292 A CN 201510015292A CN 104598570 A CN104598570 A CN 104598570A
Authority
CN
China
Prior art keywords
data
crawl
structure information
configuration data
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510015292.0A
Other languages
English (en)
Other versions
CN104598570B (zh
Inventor
张晓坤
韦一旻
谢玲
石巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaoxiong Bowang Technology Co., Ltd.
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510015292.0A priority Critical patent/CN104598570B/zh
Publication of CN104598570A publication Critical patent/CN104598570A/zh
Application granted granted Critical
Publication of CN104598570B publication Critical patent/CN104598570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供一种资源的抓取方法及装置。本发明实施例通过获取资源的抓取配置数据,进而则可以根据所述抓取配置数据,执行数据抓取操作,由于无需编写完整的抓取脚本,使得操作非常简单,而且正确率高,从而提高了资源抓取的效率和可靠性。

Description

资源的抓取方法及装置
【技术领域】
本发明涉及抓取技术,尤其涉及一种资源的抓取方法及装置。
【背景技术】
目前,对资源进行抓取操作的主要方式是,由研发人员根据抓取资源的类型,配置不同的抓取模板,进而,根据所配置的抓取模板,编写完整的抓取脚本,然后,运行所编写的抓取脚本,将所抓取的抓取数据存储至指定的数据库中。这种方式,操作复杂,且容易出错,从而导致了资源抓取的效率和可靠性的降低。
【发明内容】
本发明的多个方面提供一种资源的抓取方法及装置,用以提高资源抓取的效率和可靠性。
本发明的一方面,提供一种资源的抓取方法,包括:
获取资源的抓取配置数据;
根据所述抓取配置数据,执行数据抓取操作。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取资源的抓取配置数据,包括:
通过可视化操作界面,获取所述抓取配置数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述通过可视化操作界面,获取所述抓取配置数据,包括:
获取用户在可视化操作界面中输入的抓取配置参数;
根据所述抓取配置参数,获得所述抓取配置数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述抓取配置数据包括资源标识和数据结构信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述抓取配置数据,执行数据抓取操作,包括:
根据所述资源标识,获得抓取数据;
利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据;
对所述处理数据进行存储处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述抓取配置数据还包括存储数据;所述对所述处理数据进行存储处理,包括:
根据所述存储数据,对所述处理数据进行存储处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据,包括:
若所述抓取数据满足预先设置的基本数据结构,利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据,包括:
根据所述抓取数据和所述数据结构信息,获取映射配置数据;
根据映射配置数据,获得所述处理数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述抓取数据和所述数据结构信息,获取映射配置数据,包括:
通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据,包括:
根据抓取数据的数据结构关系,生成抓取数据的树状结构图,所述抓取数据的树状结构图包括至少一个数据节点,所述至少一个数据节点中每个数据节点的节点名为抓取数据标识,所述每个数据节点的节点值为所述抓取数据;
在可视化操作界面中,输出所述抓取数据的树状结构图;
获取用户根据所述数据结构信息,对所述至少一个数据节点中部分数据节点或全部数据节点的操作指令;
根据所述操作指令,获取所述映射配置数据。
本发明的另一方面,提供一种资源的抓取装置,包括:
获取单元,用于获取资源的抓取配置数据;
执行单元,用于根据所述抓取配置数据,执行数据抓取操作。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,具体用于
通过可视化操作界面,获取所述抓取配置数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,具体用于
获取用户在可视化操作界面中输入的抓取配置参数;以及
根据所述抓取配置参数,获得所述抓取配置数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元所获取的所述抓取配置数据包括资源标识和数据结构信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述执行单元,具体用于
根据所述资源标识,获得抓取数据;
利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据;以及
对所述处理数据进行存储处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述抓取配置数据还包括存储数据;所述执行单元,具体用于
根据所述存储数据,对所述处理数据进行存储处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述执行单元,具体用于
若所述抓取数据满足预先设置的基本数据结构,利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,其特征在于,所述执行单元,具体用于
根据所述抓取数据和所述数据结构信息,获取映射配置数据;以及
根据映射配置数据,获得所述处理数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述执行单元,具体用于
通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述执行单元,具体用于
根据抓取数据的数据结构关系,生成抓取数据的树状结构图,所述抓取数据的树状结构图包括至少一个数据节点,所述至少一个数据节点中每个数据节点的节点名为抓取数据标识,所述每个数据节点的节点值为所述抓取数据;
在可视化操作界面中,输出抓取数据的树状结构图;
获取用户根据所述数据结构信息,对所述至少一个数据节点中部分数据节点或全部数据节点的操作指令;以及
根据所述操作指令,获取所述映射配置数据。
由上述技术方案可知,本发明实施例通过获取资源的抓取配置数据,进而则可以根据所述抓取配置数据,执行数据抓取操作,由于无需编写完整的抓取脚本,使得操作非常简单,而且正确率高,从而提高了资源抓取的效率和可靠性。
另外,采用本发明提供的技术方案,通过可视化操作界面,获取所述抓取配置数据,这样,方便用户进行配置操作,能够有效提高资源抓取的效率。
另外,采用本发明提供的技术方案,通过根据所获取的存储数据,对处理数据进行存储处理,这样,使得用户可以对存储处理进行灵活控制,能够有效提高资源抓取的灵活性。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的资源的抓取方法的流程示意图;
图2为图1对应的实施例中可视化操作界面的一展现示意图;
图3A~图3F为图1对应的实施例中几个基本数据结构的结构示意图;
图4为图1对应的实施例中可视化操作界面的另一展现示意图;
图5为图1对应的实施例中可视化操作界面的另一展现示意图;
图6为图1对应的实施例中可视化操作界面的另一展现示意图;
图7为本发明另一实施例提供的资源的抓取装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的资源的抓取方法的流程示意图,如图1所示。
101、获取资源的抓取配置数据。
102、根据所述抓取配置数据,执行数据抓取操作。
需要说明的是,101和102的执行主体可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,通过获取资源的抓取配置数据,进而则可以根据所述抓取配置数据,执行数据抓取操作,这样,则无需预先将抓取配置数据固定编写到抓取脚本之中,也就是说,无需编写完整的抓取脚本。由于无需编写完整的抓取脚本,使得操作非常简单,而且正确率高,从而提高了资源抓取的效率和可靠性。
本实施例中,所谓的资源,是指网络资源,可以理解为互联网中的一切资源,是利用计算机系统通过通信设备传播和网络软件管理的信息资源。
在一个具体的实现过程中,本实施例所要抓取的资源可以为结构化数据,可以包括但不限于可扩展标记语言(eXtensible Markup Language,XML)格式数据、文档对象模型(Document Object Model,DOM)格式数据、JavaScript对象标记(JavaScript Object Notation,JSON)格式数据、协议缓存(Protocol Buffer,PB)格式数据或简单的键-值(Key-Value)格式数据,本实施例对此不进行特别限定。
在另一个具体的实现过程中,本实施例所要抓取的资源还可以为除了结构化数据之外的非结构化数据,只要能够准确识别出其资源的具体内容,进行数据抓取,都在本发明的保护范围之内。
可选地,在本实施例的一个可能的实现方式中,通过执行101所获取的所述抓取配置数据可以包括但不限于资源标识和数据结构信息,本实施例对此不进行特别限定。
具体地,所述资源标识,用以指示一种资源,以供用户进行访问。所述资源标识可以包括但不限于资源的统一资源定位符(Uniform ResourceLocator,URL)或统一资源名称(Uniform Resource Name,URN),或者还可以包括其他能够访问所述资源的其他标识信息,本实施例对此不进行特别限定。
具体地,所述数据结构信息,是指进行抓取操作所获得的抓取数据,最终所需要存储的存储结构和存储标识,可以由用户预先根据应用需求,进行配置。
其中,
所述存储结构,是指存储结果的类型,例如,一种类型是,每个存储结果,只包含一个数据,另一种类型是,每个存储结果,包含N个数据,N为大于或等于1的整数。N的取值,用户预先根据应用需求,进行设置。
所述存储标识,是指存储结果的标识,例如,存储结果中所包含的数据的名称等。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以通过可视化操作界面,获取所述抓取配置数据。如图2所示,可视化操作界面中,显示若干个输入框,以供用户输入抓取配置数据,例如,资源的URL、存储结果的数据结构信息即模板等,以及其他资源管理信息,例如,资源的名称、资源的类型、资源所属的国家、资源所依赖的平台等资源管理信息。
在一个具体的实现过程中,具体可以获取用户在可视化操作界面中输入的抓取配置参数,例如,资源标识、数据结构信息等,进而,则可以根据所述抓取配置参数,获得所述抓取配置数据。例如,具体可以利用所述抓取配置参数的参数标识如抓取配置参数的名称等,对用户所输入的所述抓取配置参数进行关联,以获得所述抓取配置数据。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述资源标识,获得抓取数据。然后,利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据,进而对所述处理数据进行存储处理。
在一个具体的实现过程中,具体可以根据所述资源标识,利用各种通信协议,获得抓取数据,例如,超文本传输协议(HyperText Transfer Protocol,HTTP)、文件传输协议(File Transfer Protocol,FTP)、Facebook或Twitter网站所采用的通信协议等,本实施例对此不进行特别限定。这一阶段,可以称为抓取阶段。
在另一个具体的实现过程中,在利用所述数据结构信息,对所述抓取数据进行格式化处理之前,还可以进一步对所述抓取数据进行去噪处理或转换处理等人工干预处理。这一阶段,可以称为人工干预阶段。
例如,具体可以利用用户预先配置的代码片段,对所述抓取数据进行去噪处理,以获得具有标准结构化特征的抓取数据,例如,XML格式数据、DOM格式数据、JSON格式数据等具有标准结构化特征的抓取数据。
在另一个具体的实现过程中,在利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据之前,还需要判断所述抓取数据是否满足预先设置的基本数据结构。这一阶段,可以称为人工干预阶段。
其中,预先设置的基本数据结构,采用数据挖掘技术,抽象得到的一些资源的基本数据结构。如图3A~图3F所示,其分别给出了包含多个相同的元数据节点的节点B与其他节点之间的六种基本数据结构,例如,节点B的兄弟节点、以及节点B的父节点等。
若抓取数据满足预先设置的基本数据结构,则可以对所述抓取数据进行格式化处理,以获得处理数据。
若抓取数据不满足预先设置的基本数据结构,则可以先对所述抓取数据进行转换处理,将其转换为满足预先设置的基本数据结构,然后,再对所述抓取数据进行格式化处理,以获得处理数据。
利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据,这一阶段,可以称为格式化阶段,实际上,就是给利用抓取数据,生成处理数据的阶段。具体地,具体可以根据所述抓取数据和所述数据结构信息,获取映射配置数据,进而,则可以根据映射配置数据,获得所述处理数据。
所述映射配置数据,是指由抓取数据到处理数据的映射规则,例如,将抓取数据中的名称为a的数据A,赋值给数据结构信息中的名称为b的数据结构,以获得一个名称为b的数据A,作为处理数据。
再如图3A~图3F所示,只有元数据节点所对应的抓取数据,才能够与所述数据结构信息,一起生成映射配置数据,其他数据节点所对应的抓取数据,则不能与所述数据结构信息,一起生成映射配置数据。
在一个具体的实现过程中,具体可以通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据。
具体地,根据抓取数据的数据结构关系,生成抓取数据的树状结构图,所述抓取数据的树状结构图包括至少一个数据节点,所述至少一个数据节点中每个数据节点的节点名为抓取数据标识,用以指示抓取数据,例如,抓取数据的名称,所述每个数据节点的节点值为所述抓取数据;进而,在可视化操作界面中,输出所述抓取数据的树状结构图。然后,获取用户根据所述数据结构信息,对所述至少一个数据节点中部分数据节点或全部数据节点的操作指令。接着,则可以根据所述操作指令,获取所述映射配置数据。
进一步地,还可以进一步根据所述数据结构信息,生成处理数据的树状结构图,该处理数据的树状结构图包括至少一个数据节点,所述至少一个数据节点中每个数据节点的节点名为处理数据标识,所述每个数据节点的节点值为空。其中,所述处理数据标识为所述数据结构信息中所包括的存储标识。
如图4所示,可视化操作界面的左边,显示了一个抓取数据的树状结构图,可视化操作界面的右边,显示了一个处理数据的树状结构图。
一种具体的操作方式为,用户可以直接对抓取数据的树状结构图中的数据节点进行操作,例如,拖拽操作等,根据该操作,生成映射配置数据,以将该数据节点的节点值赋值给处理数据的树状结构图中的数据节点。
另一种具体的操作方式为,用户可以直接点击处理数据的树状结构图中的数据节点,进而再触发相应的输入功能,例如,图4中的编辑按钮,以直接输入该数据节点的节点值,根据该输入操作,生成映射配置数据。
在另一个具体的实现过程中,所述抓取配置数据还可以进一步包括调整配置数据,具体可以包括但不限于处理数据标识和调整标识中的至少一项,本实施例对此不进行特别限定。
其中,
处理数据标识,用以指示需要调整的处理数据,例如,图片等。
调整标识,用以指示需要指定的操作,例如,压缩处理等。
如图5所示,可视化操作界面中,包含了若干个拓展模块,其对应了不同的操作,可以通过为每个模块配置不同的任务,以生成不同的处理数据标识。
在对所述处理数据进行存储处理之前,则可以根据所述调整配置数据,对所述处理数据进行调整处理,以获得满足应用需求的处理数据。这一阶段,可以称为调整阶段。
在另一个具体的实现过程中,对所述处理数据进行存储处理,这一阶段,可以称为存储阶段。具体地,具体可以将处理数据,存储在数据库中或文件系统中。
其中,所述数据库可以采用关系型数据库,例如,Oracle数据库、DB2数据库、结构化查询语言(Structured Query Language,SQL)服务器(Server)数据库、MySQL数据库等,或者还可以采用键值(Key-Value)型数据库,例如,非SQL(Not Only SQL)NoSQL数据库、Redis数据库等,本实施例对此不进行特别限定。
在另一个具体的实现过程中,所述抓取配置数据还可以进一步包括存储数据,具体可以包括但不限于存储标识和存储类型中的至少一项,本实施例对此不进行特别限定。
其中,
存储位置,用以指示处理数据将要存储的位置,例如,数据库的标识(ID)或文件系统的标识(ID)等。
存储类型,用以指示处理数据的存储方式,可以包括但不限于覆盖式存储、插入式存储、更新式存储、检查插入式存储或文件系统式存储,本实施例对此不进行特别限定。
覆盖式存储,是指先删除已存储的数据,再存储新的数据。
插入式存储,是指直接存储新的数据。
更新式存储,是指利用指定字段进行检查,如果该字段对应的数据存在,则利用新的数据进行更新,如果该字段对应的数据不存在,则直接存储新的数据。
忽略式存储,是指利用指定字段进行检查,如果该字段对应的数据存在,则不执行操作,如果该字段对应的数据不存在,则直接存储新的数据。
文件系统式存,是指将新的数据存储为一个文件系统。
如图6所示,可视化操作界面中,通过用户在保存策略所对应的输入框中,输入存储类型,当输入的存储类型为更新式存储或忽略式存储,还需要用户分别指定一个字段,以作为检查的依据。如果有多个存储位置的话,用户还需要输入存储位置,即数据库ID所对应的输入框中输入存储位置。
这样,则可以根据所述存储数据,对所述处理数据进行存储处理。
在一个具体的实现过程中,所述抓取配置数据还可以进一步包括抓取频率,以供根据所述抓取频率,周期性执行本实施例所提供的技术方案102,或者101和102。
在另一个具体的实现过程中,具体可以开启一个守护进程,守护进程可以以一定时间间隔例如,5分钟等,拉取可执行的一个抓取任务或多个抓取任务,即执行101和102,然后,启动执行所拉取的抓取任务。
本实施例中,可以支持任务并发启动。在抓取任务的执行过程中,可以针对每个抓取任务中各个阶段的执行状态,例如,数据抓取阶段、人工干预阶段、格式化阶段、调整阶段或存储阶段等,设置对应的状态值,例如,取值为“1”,表示成功状态;取值为“0”,表示失败状态。用户可以根据状态值,随时获知抓取任务的执行状态。
进一步地,在抓取任务的执行状态为失败状态时,还可以进一步根据预先配置的告警机制,进行告警处理。例如,向指定号码发送短信、彩信等,以告知该抓取任务的执行状态为失败状态;或者,再例如,向指定邮箱地址发送电子邮件,以告知该抓取任务的执行状态为失败状态。这样,用户可以及时采取相应的处理措施。
本实施例中,通过获取资源的抓取配置数据,进而则可以根据所述抓取配置数据,执行数据抓取操作,由于无需编写完整的抓取脚本,使得操作非常简单,而且正确率高,从而提高了资源抓取的效率和可靠性。
另外,采用本发明提供的技术方案,通过可视化操作界面,获取所述抓取配置数据,这样,方便用户进行配置操作,能够有效提高资源抓取的效率。
另外,采用本发明提供的技术方案,通过根据所获取的存储数据,对处理数据进行存储处理,这样,使得用户可以对存储处理进行灵活控制,能够有效提高资源抓取的灵活性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图7为本发明另一实施例提供的资源的抓取装置的结构示意图,如图7所示。本实施例的资源的抓取装置可以包括获取单元71和执行单元72。其中,获取单元71,用于获取资源的抓取配置数据;执行单元72,用于根据所述抓取配置数据,执行数据抓取操作。
需要说明的是,本实施例所提供的资源的抓取装置可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
在一个具体的实现过程中,本实施例所要抓取的资源可以为结构化数据,可以包括但不限于可扩展标记语言(eXtensible Markup Language,XML)格式数据、文档对象模型(Document Object Model,DOM)格式数据、JavaScript对象标记(JavaScript Object Notation,JSON)格式数据、协议缓存(Protocol Buffer,PB)格式数据或简单的键-值(Key-Value)格式数据,本实施例对此不进行特别限定。
在另一个具体的实现过程中,本实施例所要抓取的资源还可以为除了结构化数据之外的非结构化数据,只要能够识别出其资源的具体内容,都在本发明的保护范围之内。
可选地,在本实施例的一个可能的实现方式中,所述获取单元71所获取的所述抓取配置数据可以包括但不限于资源标识和数据结构信息,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述获取单元71,具体用于通过可视化操作界面,获取所述抓取配置数据。
可选地,在本实施例的一个可能的实现方式中,所述获取单元71,具体可以用于获取用户在可视化操作界面中输入的抓取配置参数;以及根据所述抓取配置参数,获得所述抓取配置数据。
可选地,在本实施例的一个可能的实现方式中,所述执行单元72,具体可以用于根据所述资源标识,获得抓取数据;利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据;以及对所述处理数据进行存储处理。
可选地,在本实施例的一个可能的实现方式中,所述抓取配置数据还可以进一步包括存储数据,具体可以包括但不限于存储标识和存储类型中的至少一项,本实施例对此不进行特别限定。
相应地,所述执行单元72,具体可以用于根据所述存储数据,对所述处理数据进行存储处理。
可选地,在本实施例的一个可能的实现方式中,所述执行单元72,具体可以用于若所述抓取数据满足预先设置的基本数据结构,利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据。
在一个具体的实现过程中,所述执行单元72,具体可以用于根据所述抓取数据和所述数据结构信息,获取映射配置数据;以及根据映射配置数据,获得所述处理数据。
具体地,所述执行单元72,具体可以用于通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据。
例如,所述执行单元72,具体可以用于根据抓取数据的数据结构关系,生成抓取数据的树状结构图,所述抓取数据的树状结构图包括至少一个数据节点,所述至少一个数据节点中每个数据节点的节点名为抓取数据标识,所述每个数据节点的节点值为所述抓取数据;在可视化操作界面中,输出抓取数据的树状结构图;获取用户根据所述数据结构信息,对所述至少一个数据节点中部分数据节点或全部数据节点的操作指令;以及根据所述操作指令,获取所述映射配置数据。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的资源的抓取装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过获取单元获取资源的抓取配置数据,进而则可以由执行单元根据所述抓取配置数据,执行数据抓取操作,由于无需编写完整的抓取脚本,使得操作非常简单,而且正确率高,从而提高了资源抓取的效率和可靠性。
另外,采用本发明提供的技术方案,通过可视化操作界面,获取所述抓取配置数据,这样,方便用户进行配置操作,能够有效提高资源抓取的效率。
另外,采用本发明提供的技术方案,通过根据所获取的存储数据,对处理数据进行存储处理,这样,使得用户可以对存储处理进行灵活控制,能够有效提高资源抓取的灵活性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (20)

1.一种资源的抓取方法,其特征在于,包括:
获取资源的抓取配置数据;
根据所述抓取配置数据,执行数据抓取操作。
2.根据权利要求1所述的方法,其特征在于,所述获取资源的抓取配置数据,包括:
通过可视化操作界面,获取所述抓取配置数据。
3.根据权利要求2所述的方法,其特征在于,所述通过可视化操作界面,获取所述抓取配置数据,包括:
获取用户在可视化操作界面中输入的抓取配置参数;
根据所述抓取配置参数,获得所述抓取配置数据。
4.根据权利要求1所述的方法,其特征在于,所述抓取配置数据包括资源标识和数据结构信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述抓取配置数据,执行数据抓取操作,包括:
根据所述资源标识,获得抓取数据;
利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据;
对所述处理数据进行存储处理。
6.根据权利要求5所述的方法,其特征在于,所述抓取配置数据还包括存储数据;所述对所述处理数据进行存储处理,包括:
根据所述存储数据,对所述处理数据进行存储处理。
7.根据权利要求5所述的方法,其特征在于,所述利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据,包括:
若所述抓取数据满足预先设置的基本数据结构,利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据。
8.根据权利要求6或7所述的方法,其特征在于,所述利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据,包括:
根据所述抓取数据和所述数据结构信息,获取映射配置数据;
根据映射配置数据,获得所述处理数据。
9.根据权利要求8所述的方法,其特征在于,所述根据所述抓取数据和所述数据结构信息,获取映射配置数据,包括:
通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据。
10.根据权利要求9所述的方法,其特征在于,所述通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据,包括:
根据抓取数据的数据结构关系,生成抓取数据的树状结构图,所述抓取数据的树状结构图包括至少一个数据节点,所述至少一个数据节点中每个数据节点的节点名为抓取数据标识,所述每个数据节点的节点值为所述抓取数据;
在可视化操作界面中,输出所述抓取数据的树状结构图;
获取用户根据所述数据结构信息,对所述至少一个数据节点中部分数据节点或全部数据节点的操作指令;
根据所述操作指令,获取所述映射配置数据。
11.一种资源的抓取装置,其特征在于,包括:
获取单元,用于获取资源的抓取配置数据;
执行单元,用于根据所述抓取配置数据,执行数据抓取操作。
12.根据权利要求11所述的装置,其特征在于,所述获取单元,具体用于
通过可视化操作界面,获取所述抓取配置数据。
13.根据权利要求12所述的装置,其特征在于,所述获取单元,具体用于
获取用户在可视化操作界面中输入的抓取配置参数;以及
根据所述抓取配置参数,获得所述抓取配置数据。
14.根据权利要求11所述的装置,其特征在于,所述获取单元所获取的所述抓取配置数据包括资源标识和数据结构信息。
15.根据权利要求14所述的装置,其特征在于,所述执行单元,具体用于
根据所述资源标识,获得抓取数据;
利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据;以及
对所述处理数据进行存储处理。
16.根据权利要求15所述的装置,其特征在于,所述抓取配置数据还包括存储数据;所述执行单元,具体用于
根据所述存储数据,对所述处理数据进行存储处理。
17.根据权利要求15所述的装置,其特征在于,所述执行单元,具体用于
若所述抓取数据满足预先设置的基本数据结构,利用所述数据结构信息,对所述抓取数据进行格式化处理,以获得处理数据。
18.根据权利要求16或17所述的装置,其特征在于,所述执行单元,具体用于
根据所述抓取数据和所述数据结构信息,获取映射配置数据;以及
根据映射配置数据,获得所述处理数据。
19.根据权利要求18所述的装置,其特征在于,所述执行单元,具体用于
通过可视化操作界面,根据所述抓取数据和所述数据结构信息,获取所述映射配置数据。
20.根据权利要求19所述的装置,其特征在于,所述执行单元,具体用于
根据抓取数据的数据结构关系,生成抓取数据的树状结构图,所述抓取数据的树状结构图包括至少一个数据节点,所述至少一个数据节点中每个数据节点的节点名为抓取数据标识,所述每个数据节点的节点值为所述抓取数据;
在可视化操作界面中,输出抓取数据的树状结构图;
获取用户根据所述数据结构信息,对所述至少一个数据节点中部分数据节点或全部数据节点的操作指令;以及
根据所述操作指令,获取所述映射配置数据。
CN201510015292.0A 2015-01-12 2015-01-12 资源的抓取方法及装置 Active CN104598570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510015292.0A CN104598570B (zh) 2015-01-12 2015-01-12 资源的抓取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510015292.0A CN104598570B (zh) 2015-01-12 2015-01-12 资源的抓取方法及装置

Publications (2)

Publication Number Publication Date
CN104598570A true CN104598570A (zh) 2015-05-06
CN104598570B CN104598570B (zh) 2018-11-09

Family

ID=53124355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510015292.0A Active CN104598570B (zh) 2015-01-12 2015-01-12 资源的抓取方法及装置

Country Status (1)

Country Link
CN (1) CN104598570B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106406833A (zh) * 2015-07-30 2017-02-15 北京京东尚科信息技术有限公司 一种提供数据的方法和装置
CN106708693A (zh) * 2015-11-16 2017-05-24 亿阳信通股份有限公司 一种告警数据处理方法及装置
CN108090133A (zh) * 2017-11-24 2018-05-29 深圳市知小兵科技有限公司 一种基于互联网的信息定向抓取方法及系统
CN108205531A (zh) * 2016-12-16 2018-06-26 北京京东尚科信息技术有限公司 数据抽取方法和数据抽取系统
CN108804133A (zh) * 2018-06-12 2018-11-13 深圳华讯网络科技有限公司 虚拟资源的获取方法、系统、计算机设备和存储介质
CN110704394A (zh) * 2019-09-03 2020-01-17 苏宁云计算有限公司 报表配置修改方法及装置
CN110814517A (zh) * 2019-10-28 2020-02-21 大族激光科技产业集团股份有限公司 控制激光振镜焊接的方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546370B1 (en) * 2004-08-18 2009-06-09 Google Inc. Search engine with multiple crawlers sharing cookies
CN102364461A (zh) * 2011-06-30 2012-02-29 广州市动景计算机科技有限公司 网页内容数据获取方法及服务器
CN102945270A (zh) * 2012-10-30 2013-02-27 北京腾逸科技发展有限公司 并行化分布式网络舆情数据管理方法及系统
CN103559304A (zh) * 2013-11-18 2014-02-05 北京暴风科技股份有限公司 一种定制互联网数据的实现方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546370B1 (en) * 2004-08-18 2009-06-09 Google Inc. Search engine with multiple crawlers sharing cookies
CN102364461A (zh) * 2011-06-30 2012-02-29 广州市动景计算机科技有限公司 网页内容数据获取方法及服务器
CN102945270A (zh) * 2012-10-30 2013-02-27 北京腾逸科技发展有限公司 并行化分布式网络舆情数据管理方法及系统
CN103559304A (zh) * 2013-11-18 2014-02-05 北京暴风科技股份有限公司 一种定制互联网数据的实现方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106406833A (zh) * 2015-07-30 2017-02-15 北京京东尚科信息技术有限公司 一种提供数据的方法和装置
CN106406833B (zh) * 2015-07-30 2020-09-01 北京京东尚科信息技术有限公司 一种提供数据的方法和装置
CN106708693A (zh) * 2015-11-16 2017-05-24 亿阳信通股份有限公司 一种告警数据处理方法及装置
CN108205531A (zh) * 2016-12-16 2018-06-26 北京京东尚科信息技术有限公司 数据抽取方法和数据抽取系统
CN108205531B (zh) * 2016-12-16 2022-01-28 北京京东尚科信息技术有限公司 数据抽取方法和数据抽取系统
CN108090133A (zh) * 2017-11-24 2018-05-29 深圳市知小兵科技有限公司 一种基于互联网的信息定向抓取方法及系统
CN108804133A (zh) * 2018-06-12 2018-11-13 深圳华讯网络科技有限公司 虚拟资源的获取方法、系统、计算机设备和存储介质
CN108804133B (zh) * 2018-06-12 2022-04-08 深圳华讯网络科技有限公司 虚拟资源的获取方法、系统、计算机设备和存储介质
CN110704394A (zh) * 2019-09-03 2020-01-17 苏宁云计算有限公司 报表配置修改方法及装置
CN110704394B (zh) * 2019-09-03 2023-06-30 苏宁云计算有限公司 报表配置修改方法及装置
CN110814517A (zh) * 2019-10-28 2020-02-21 大族激光科技产业集团股份有限公司 控制激光振镜焊接的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN104598570B (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
CN104598570A (zh) 资源的抓取方法及装置
CN101739390B (zh) 基于技术设计文档的数据转换
US11093242B2 (en) Automatically mapping data while designing process flows
CN111666490A (zh) 基于kafka的信息推送方法、装置、设备及存储介质
CN105335511A (zh) 网页的访问方法及装置
CN104965764A (zh) 静态资源的处理方法及装置
CN110245278A (zh) 网页数据的采集方法、装置、电子设备及存储介质
CN102298617A (zh) 一种用于获取目标页面的方法与设备
US8296723B2 (en) Configurable unified modeling language building blocks
US9898553B2 (en) Capturing run-time metadata
KR20170073693A (ko) 유사 그룹 요소 추출
CN109408763B (zh) 一种对不同模板的简历进行管理的方法及系统
CN111797297B (zh) 页面数据处理方法、装置、计算机设备及存储介质
CN112860662A (zh) 数据血缘关系建立方法、装置、计算机设备及存储介质
CN111831320A (zh) 插件管理方法、装置、电子设备及存储介质
CN115905371A (zh) 数据趋势分析方法、装置、设备及计算机可读存储介质
CN103491234A (zh) 一种数据处理的方法及一种电子设备
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
US8606773B2 (en) Method for combining and processing web data using tables and programming-by-demonstration
US20130159327A1 (en) Apparatus and method for visualizing data
CN104239475A (zh) 一种时间序列数据分析方法及装置
US20140089207A1 (en) System and method for providing high level view tracking of changes in sca artifacts
CN103235720A (zh) 一种电子杂志的展示方法及装置
CN112527880B (zh) 大数据集群元数据信息的采集方法、装置、设备及介质
CN113918142B (zh) 数据采集任务代码生成方法、装置、计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181226

Address after: 100000 Room 708, 7th Floor, Building 10, No. 30, Shixing Street, Shijingshan District, Beijing

Patentee after: Beijing Xiaoxiong Bowang Technology Co., Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right