CN108520043A - 数据对象采集方法、装置及系统、计算机可读存储介质 - Google Patents

数据对象采集方法、装置及系统、计算机可读存储介质 Download PDF

Info

Publication number
CN108520043A
CN108520043A CN201810291935.8A CN201810291935A CN108520043A CN 108520043 A CN108520043 A CN 108520043A CN 201810291935 A CN201810291935 A CN 201810291935A CN 108520043 A CN108520043 A CN 108520043A
Authority
CN
China
Prior art keywords
data object
collected
template
acquisition
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810291935.8A
Other languages
English (en)
Inventor
谢跃书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Geehy Semiconductor Co Ltd
Original Assignee
Nasida Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nasida Ltd By Share Ltd filed Critical Nasida Ltd By Share Ltd
Priority to CN201810291935.8A priority Critical patent/CN108520043A/zh
Publication of CN108520043A publication Critical patent/CN108520043A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据对象采集方法、装置及系统、计算机可读存储介质。本发明实施例中,通过获取目标网页链接与待采集数据对象,然后,获取所述待采集数据对象对应的匹配模板,所述匹配模板包括所述待采集数据对象的关联数据对象与各数据对象的采集规则,从而,根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象。因此,本发明实施例提供一种针对多个相关联数据对象的采集方案,填补现有技术中缺乏有效采集多个相关联信息的采集方法的技术空白。

Description

数据对象采集方法、装置及系统、计算机可读存储介质
【技术领域】
本发明涉及数据处理技术领域,尤其涉及一种数据对象采集方法、装置及系统、计算机可读存储介质。
【背景技术】
现有技术中能够在网页中进行单个数据对象的采集。一般情况下,通过配置正则表达式、JS(JavaScript,直译式脚本语言)语法语句等匹配规则,对网页超文本标记语言HTML标签或文本文字进行匹配计算,以提取出符合规则的内容,同时,配合数据过滤、数据清理等数据处理过程,实现从网页上采集结构化数据对象的功能。
现有技术中仅针对单个信息进行数据对象的匹配采集,缺乏有效采集多个相关联信息的采集方法。例如,针对多个相关联的数据对象,需要重复进行采集工作才可以得到这些相关联的全部数据对象,采集效率较低。
【发明内容】
有鉴于此,本发明实施例提供了一种数据对象采集方法、装置及系统、计算机可读存储介质,用以提供一种针对多个相关联数据对象的采集方案,填补现有技术中缺乏有效采集多个相关联信息的采集方法的技术空白。
第一方面,本发明实施例提供了一种数据对象采集方法,包括:
获取目标网页链接与待采集数据对象;
获取所述待采集数据对象对应的匹配模板,所述匹配模板包括所述待采集数据对象的关联数据对象与各数据对象的采集规则;
根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,获取所述待采集数据对象对应的匹配模板,包括:
获取所述待采集数据对象对应的至少一个候选模板;
当所述候选模板的数目为至少两个时,根据候选模板的优先级,获取优先级最高的一个候选模板作为所述匹配模板;
当所述候选模板的数目为一个时,获取所述候选模板以作为所述匹配模板。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,获取所述待采集数据对象对应的匹配模板,包括:
获取所述待采集数据对象对应的至少一个候选模板;
根据候选模板的优先级由高至低的顺序,依次获取所述至少一个候选模板分别作为所述待采集数据对象对应的匹配模板。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述采集规则包括以下几种规则中的至少一种:
采集数据规则、采集限制规则、多个属性之间的关系规则、处理规则、验证规则与过滤规则。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象,包括:
根据每个数据对象的采集规则,分别在所述目标网页链接中进行内容匹配,得到匹配结果;
当所述匹配结果为匹配成功时,获取满足所述数据对象的采集规则的内容,以作为该数据对象的内容值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
当所述匹配结果为匹配失败时,确定所述目标网页链接中不存在该数据对象。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
判断当前采集的数据对象是否为预设的必须采集对象;
当该数据对象为必须采集对象时,检测采集到的数据对象是否发生变化;
当该数据对象为非必须采集对象时,采集其他数据对象。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
检测采集到的数据对象是否发生变化。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,检测采集到的数据对象是否发生变化,包括:
判断采集到的数据对象是否为新增数据对象,得到第一判断结果;
响应于所述第一判断结果为是,输出用于提示采集到的数据对象为新增数据对象的第一提示消息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,检测采集到的数据对象是否发生变化,包括:
判断采集到的数据对象的内容值相较于原数据对象的内容值是否发生变化,得到第二判断结果;
响应于所述第二判断结果为是,输出用于提示采集到的数据对象的内容值变化的第二提示信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,检测采集到的数据对象是否发生变化,包括:
当数据对象的采集完成后,判断上次采集到的数据对象是否多于本次采集到的数据对象,得到第三判断结果;
响应于所述第三判断结果为是,判断是否发生网络异常时,得到第四判断结果;
响应于所述第四判断结果为否,输出用于提示数据对象删除的第三提示信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
响应于所述第四判断结果为是,输出用于提示网络异常的第四提示信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
执行所述匹配模板所指示的网页动作。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
响应于所述网页动作均执行完毕,执行所述根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象的步骤。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
响应于获取所述待采集数据对象对应的匹配模板失败,输出模板配置信息;
获取针对所述模板配置信息的操作信息;
根据所述操作信息,生成所述待采集数据对象对应的匹配模板。
第二方面,本发明实施例提供了一种数据对象采集装置,包括:
第一获取单元,获取目标网页链接与待采集数据对象;
第二获取单元,用于获取所述待采集数据对象对应的匹配模板,所述匹配模板包括所述待采集数据对象的关联数据对象与各数据对象的采集规则;
采集单元,用于根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象。
第三方面,本发明实施例提供了一种数据对象采集系统,包括:
任务链接模块,用于管理目标网页链接;
模板配置模块,用于配置数据对象与匹配模板之间的对应关系;
爬虫引擎核心处理模块,用于获取目标网页链接与待采集数据对象,并用于获取所述待采集数据对象对应的匹配模板,所述匹配模板包括所述待采集数据对象的关联数据对象与各数据对象的采集规则,以及,用于根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象;
数据对象结果模块,用于输出采集结果;
消息推送模块,用于输出提示消息。
第四方面,本发明实施例提供了一种计算机可读存储介质,包括:计算机可执行指令,当所述计算机可执行指令被运行时用以执行如第一方面所述的数据对象采集方法。
上述技术方案中的一个技术方案具有如下有益效果:
本发明实施例中,为解决现有技术中仅针对单个信息进行匹配采集,缺乏有效采集多个相关联信息的采集方法的技术空白的问题,在进行数据对象采集的过程中,获取针对每个待采集数据对象的匹配模板,由于匹配模板中包括每个待采集数据对象的关联数据对象,因此,可以基于匹配模板,对各待采集数据对象以及待采集数据对象的关联数据对象进行匹配采集,能够在一次数据对象的采集过程中采集到多个相关联的数据对象,避免了针对相关联数据对象重复进行数据对象采集的情况,提高数据对象采集效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的一种数据对象采集方法的流程示意图;
图2是本发明实施例所提供的另一种数据对象采集方法的流程示意图;
图3是本发明实施例所提供的另一种数据对象采集方法的流程示意图;
图4是本发明实施例所提供的另一种数据对象采集方法的流程示意图;
图5是本发明实施例所提供的数据对象采集方法中检测数据对象变化的流程示意图;
图6是本发明实施例所提供的一种数据对象采集装置的功能方块图;
图7是本发明实施例所提供的一种数据对象采集系统的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述判断结果,但这些判断结果不应限于这些术语。这些术语仅用来将判断结果彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一判断结果也可以被称为第二判断结果,类似地,第二判断结果也可以被称为第一判断结果。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例一
本发明实施例给出一种数据对象采集方法。请参考图1,该方法包括以下步骤:
S102,获取目标网页链接与待采集数据对象。
需要说明的是,在利用本方案进行数据对象采集的一次采集任务中,可以包括多个目标网页链接与多个待采集数据对象,并且,一个待采集数据对象可以对应于多个目标网页链接,本发明实施例对此并无特别限定。为了便于表述,本发明实施例针对一个待采集数据对象在一个目标网页链接上进行的数据对象采集过程为例对该数据对象采集过程进行说明,可以理解的是,针对一个待采集数据对象在多个目标网页链接上的采集过程,可以在一次采集任务中多次执行本方案即可。
S104,获取待采集数据对象对应的匹配模板,匹配模板包括待采集数据对象的关联数据对象与各数据对象的采集规则。
在一个应用场景中,关联数据对象可以作为一个数据对象的不同栏位存在。也就是,当针对某一数据对象进行采集时,可以建立多个相关联的栏位值,来进行数据对象采集。例如,当待采集数据对象为公司时,其关联数据对象为:公司名称、公司地址、公司电话与公司邮箱,这些关联数据对象可以作为公司的栏位值进行S106的数据对象采集。
S106,根据各数据对象的采集规则,在目标网页链接中采集待采集数据对象与关联数据对象。
本发明实施例中,一个数据对象可以对应于一个或多个候选模板,在执行S104步骤时,在这些候选模板中确定一个作为匹配模板即可。其中,候选模板与数据对象之间的对应关系可以根据需要预设,包括:每个候选模板中的数据对象与关联数据对象之间的关联关系,以及,各数据对象的采集规则,均可以根据需要预设。
例如,当待采集数据对象为公司名称,那么,与之关联的关联数据对象可以预设为:公司地址、公司电话与公司邮箱中的至少一个。或者,又例如,当待采集数据对象为姓名,则与之关联的关联数据对象可以预设为:性别、年龄、学籍、户籍、联系电话与家庭地址中的至少一个。在实际实现场景中,根据需要预设即可。
此外,各数据对象的采集规则包括:待采集数据对象的采集规则与各关联数据对象的采集规则。采集规则用于指示采集何种数据,以便于在执行S106步骤时,在目标网页链接中匹配满足采集规则的内容,这在一定程度上也同时完成了数据对象的过滤筛选。
本发明实施例所涉及的采集规则可以包括但不限于以下几种规则中的至少一种:
采集数据规则、采集限制规则、多个属性之间的关系规则、处理规则、验证规则与过滤规则。
此外,还可以在各候选模板中添加配置信息,配置信息可以包括但不限于:模板状态信息、模板分类信息与模板优先级信息中的至少一个。
例如,考虑到一个数据对象可以对应多个候选模板,因此,在实际应用中,还可以预设各候选模板的优先级,以便于根据优先级选择其中的一个候选模板作为匹配模板。
在一个具体的实现场景中,请参考图2,S104可以通过以下步骤实现:
S1041,获取待采集数据对象对应的至少一个候选模板。
S1042A,当候选模板的数目为至少两个时,根据候选模板的优先级,获取优先级最高的一个候选模板作为匹配模板。
S1042B,当候选模板的数目为一个时,获取候选模板以作为匹配模板。
可以理解,S1042A与S1042B择一执行即可。
或者,在另一个具体的实现场景中,S104可以通过以下步骤实现:
获取待采集数据对象对应的至少一个候选模板;
根据候选模板的优先级由高至低的顺序,依次获取至少一个候选模板分别作为待采集数据对象对应的匹配模板。
在这种实现方式中,针对其中一个待采集数据对象而言,可以分别依据其对应的每个候选模板,依次作为匹配模板来执行数据对象采集,以便于得到更加全面的数据对象信息。
考虑到某些数据对象可能并未预设匹配模板或者获取匹配模板失败,那么,本发明实施例还包括以下步骤:
响应于获取数据对象的匹配模板失败,则输出模板配置信息;
获取针对该模板配置信息上的操作信息;
根据操作信息,生成匹配模板。
基于S104中确定了待采集数据对象的匹配模板,该方法还包括以下步骤:
执行匹配模板所指示的网页动作。
本发明实施例所涉及的网页动作可以包括但不限于:浏览网页、下载网页信息等。
需要说明的是,该步骤可以在S106之前执行,从而,响应于网页动作均执行完毕,执行S106中根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象的步骤。或者,该步骤可以配合S106的数据对象采集步骤交叉执行,此时,配合S106的采集顺序执行网页动作。
本发明实施例中,执行S106中的数据对象采集的实现方式可以参考图3,可以包括以下步骤:
S1061,根据每个数据对象的采集规则,分别在目标网页链接中进行内容匹配,得到匹配结果。
S1062A,当匹配结果为匹配成功时,获取满足数据对象的采集规则的内容,以作为该数据对象的内容值。
S1062B,当匹配结果为匹配失败时,确定目标网页链接中不存在该数据对象。
其中,匹配成功是指在目标网页链接中匹配到满足数据对象的采集规则的内容;匹配失败是指在目标网页链接中未匹配到满足数据对象的采集规则的内容。本发明实施例所涉及的数据对象的内容值可以包括但不限于:关键值、网页更新时间、创建数据对象时间和栏位值时间等。
在具体的实现场景中,当匹配结果失败时,还可以进一步判断当前匹配失败的数据对象是否为必须采集对象,并基于判断结果的不同,采取不同的处理措施。
在一个具体的实现过程中,请参考图4,当匹配结果为匹配失败时,还可以执行如下流程:
S1062B1,判断当前采集的数据对象是否为预设的必须采集对象。
S1062B2,当该数据对象为必须采集对象时,检测采集到的数据对象是否发生变化。
S1062B3,当该数据对象为非必须采集对象时,采集其他数据对象。
其中,S1062B2与S1062B3择一执行。
在这种实现方式中,必须采集对象可以在相互关联的多个数据对象中进行预设或指定。例如,可以将待采集的数据对象预设为必须采集对象;又例如,可以在公司名称、公司地址、公司电话与公司邮箱这几个相互关联的数据对象中指定公司名称与公司电话为必须数据对象,此时,无论待采集数据对象是哪个,在这种数据对象的关联关系中,这二者均为必须项数据对象;或者,这两种设置方式可以组合使用。以上三种情况为预设必须采集对象的几种可行方式,仅用以说明,对其设置方式无限定。
在执行该判断流程时,只需要确定当前采集的数据对象是否在预设的必须采集对象中的一个即可;若是,则确定其为必须采集对象;若否,则为非必须采集对象。
本发明实施例中,还可以进一步实现对采集到的数据对象的状态监控。
此时,本发明实施例所提供的数据对象采集方法还可以包括以下步骤:
检测采集到的数据对象是否发生变化。
该步骤与图4中S1063A中所执行的检测步骤可以同一实现方式执行。
本发明实施例中,检测采集到的数据对象是否发生变化可以包括但不限于:检测数据对象是否为新增数据对象、检测数据对象的内容值是否变化、检测是否存在删除数据对象等。
以下,逐一对此进行说明。
一方面,检测数据对象是否为新增数据对象,可以包括以下步骤:
判断采集到的数据对象是否为新增数据对象,得到第一判断结果;
响应于第一判断结果为是,输出用于提示采集到的数据对象为新增数据对象的第一提示消息。
此时,若第一判断结果为否,则说明该数据对象不是新增数据对象,则可以结束检测,或检测该数据对象的内容值是否发生变化。
另一方面,检测数据对象的内容值是否发生变化,可以包括以下步骤:
判断采集到的数据对象的内容值相较于原数据对象的内容值是否发生变化,得到第二判断结果;
响应于第二判断结果为是,输出用于提示采集到的数据对象的内容值变化的第二提示信息。
此时,若第二判断结果为否,则说明本次采集到的数据对象的内容值与上次采集到的数据对象的内容值相同,那么,可以结束检测,或者,也可以输出用于提示内容值不变的提示信息。
在实现该判断步骤时,可以根据网页日期时间、或网页内容中的日期时间,以及采集、过滤、处理、保存等时间点作为日期时间参考基准,并结合采集栏位中定义的唯一关键值,对其中信息对象的变化进行监控。
可以理解,当内容值为多个时,则当各内容值均未发生变化,第二判断结果才为否;当其中的一个内容值发生变化,则第二判断结果为是。
再一方面,检测是否存在删除数据对象,可以包括以下步骤:
当数据对象的采集完成后,判断上次采集到的数据对象是否多于本次采集到的数据对象,得到第三判断结果;
响应于第三判断结果为是,判断是否发生网络异常时,得到第四判断结果;
响应于第四判断结果为否,输出用于提示数据对象删除的第三提示信息。
以及,响应于第四判断结果为是,输出用于提示网络异常的第四提示信息。
其中,若第三判断结果为否,则说明不存在删除的数据对象,此时,可以结束检测,或者,也可以输出用于提示不存在数据对象删除的提示信息。
以上几种检测采集到的数据对象是否发生变化的实现方式可以单独择一执行,或者,也可以组合执行。为了便于理解,请参考图5所示的组合检测方式。
如图5所示,该检测方法包括以下步骤:
S501,判断采集到的数据对象是否为新增数据对象;若是,执行S502;若否,执行S503。
S502,输出用于提示采集到的数据对象为新增数据对象的第一提示消息。
S503,判断采集到的数据对象的内容值相较于原数据对象的内容值是否发生变化;若是,执行S504;若否,执行S505。
S504,输出用于提示采集到的数据对象的内容值变化的第二提示信息。
S505,当数据对象的采集完成后,判断上次采集到的数据对象是否多于本次采集到的数据对象;若是,执行S506;若否,结束。
S506,判断是否发生网络异常;若是,执行S507;若否,执行S508。
S507,输出用于提示网络异常的第四提示信息。
S508,输出用于提示数据对象删除的第三提示信息。
基于上述数据对象采集方法,本发明实施例还提供了一种计算机可读存储介质,包括:计算机可执行指令,当计算机可执行指令被运行时用以执行如上所述任一种实现方式的数据对象采集方法。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,为解决现有技术中仅针对单个信息进行匹配采集,缺乏有效采集多个相关联信息的采集方法的技术空白的问题,在进行数据对象采集的过程中,获取针对每个待采集数据对象的匹配模板,由于匹配模板中包括每个待采集数据对象的关联数据对象,因此,可以基于匹配模板,对各待采集数据对象以及待采集数据对象的关联数据对象进行匹配采集,能够在一次数据对象的采集过程中采集到多个相关联的数据对象,避免了针对相关联数据对象重复进行数据对象采集的情况,提高数据对象采集效率。
实施例二
基于上述实施例一所提供的数据对象采集方法,本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
一方面,本发明实施例提供了一种数据对象采集装置,请参考图6,该数据对象采集装置600,包括:
第一获取单元61,获取目标网页链接与待采集数据对象;
第二获取单元62,用于获取待采集数据对象对应的匹配模板,匹配模板包括待采集数据对象的关联数据对象与各数据对象的采集规则;
采集单元63,用于根据各数据对象的采集规则,在目标网页链接中采集待采集数据对象与关联数据对象。
另一方面,本发明实施例提供了一种数据对象采集系统,请参考图7,该数据对象采集系统700,包括:
任务链接模块71,用于管理目标网页链接;
模板配置模块72,用于配置数据对象与匹配模板之间的对应关系;
爬虫引擎核心处理模块73,用于获取目标网页链接与待采集数据对象,并用于获取待采集数据对象对应的匹配模板,匹配模板包括待采集数据对象的关联数据对象与各数据对象的采集规则,以及,用于根据各数据对象的采集规则,在目标网页链接中采集待采集数据对象与关联数据对象;
数据对象结果模块74,用于输出采集结果;
消息推送模块75,用于输出提示消息。
其中,任务链接模块71还可以支持目标网页链接的生产或批量导入,支持对网页链接进行分类、连接状态等管理。
模板配置模块72则主要负责定义采集规则,以及定义各候选模板的配置信息。
爬虫引擎核心处理模块73,主要负责定期根据任务链接模块及模块下载网页,匹配所有规则栏位内容,过滤无效内容或对象,执行转换、处理等动作,最后生成包含时间维度和关键值的数据对象。
数据对象结果模块74,可以根据每次采集到的数据对象,统计数据对象的变化情况。
消息推送模块75,则可以根据数据对象结果模块74统计到的对象变化情况,把消息推送给用户进行查看,实现网页中结构化数据对象的监控功能。
由于本实施例中的各单元能够执行实施例一所示的数据对象采集方法,本实施例未详细描述的部分,可参考对实施例一所示方法的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,为解决现有技术中仅针对单个信息进行匹配采集,缺乏有效采集多个相关联信息的采集方法的技术空白的问题,在进行数据对象采集的过程中,获取针对每个待采集数据对象的匹配模板,由于匹配模板中包括每个待采集数据对象的关联数据对象,因此,可以基于匹配模板,对各待采集数据对象以及待采集数据对象的关联数据对象进行匹配采集,能够在一次数据对象的采集过程中采集到多个相关联的数据对象,避免了针对相关联数据对象重复进行数据对象采集的情况,提高数据对象采集效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种数据对象采集方法,其特征在于,包括:
获取目标网页链接与待采集数据对象;
获取所述待采集数据对象对应的匹配模板,所述匹配模板包括所述待采集数据对象的关联数据对象与各数据对象的采集规则;
根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象。
2.根据权利要求1所述的方法,其特征在于,获取所述待采集数据对象对应的匹配模板,包括:
获取所述待采集数据对象对应的至少一个候选模板;
当所述候选模板的数目为至少两个时,根据候选模板的优先级,获取优先级最高的一个候选模板作为所述匹配模板;
当所述候选模板的数目为一个时,获取所述候选模板以作为所述匹配模板。
3.根据权利要求1所述的方法,其特征在于,获取所述待采集数据对象对应的匹配模板,包括:
获取所述待采集数据对象对应的至少一个候选模板;
根据候选模板的优先级由高至低的顺序,依次获取所述至少一个候选模板分别作为所述待采集数据对象对应的匹配模板。
4.根据权利要求1所述的方法,其特征在于,所述采集规则包括以下几种规则中的至少一种:
采集数据规则、采集限制规则、多个属性之间的关系规则、处理规则、验证规则与过滤规则。
5.根据权利要求1所述的方法,其特征在于,根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象,包括:
根据每个数据对象的采集规则,分别在所述目标网页链接中进行内容匹配,得到匹配结果;
当所述匹配结果为匹配成功时,获取满足所述数据对象的采集规则的内容,以作为该数据对象的内容值。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当所述匹配结果为匹配失败时,确定所述目标网页链接中不存在该数据对象。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
判断当前采集的数据对象是否为预设的必须采集对象;
当该数据对象为必须采集对象时,检测采集到的数据对象是否发生变化;
当该数据对象为非必须采集对象时,采集其他数据对象。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测采集到的数据对象是否发生变化。
9.根据权利要求7或8所述的方法,其特征在于,检测采集到的数据对象是否发生变化,包括:
判断采集到的数据对象是否为新增数据对象,得到第一判断结果;
响应于所述第一判断结果为是,输出用于提示采集到的数据对象为新增数据对象的第一提示消息。
10.根据权利要求7或8所述的方法,其特征在于,检测采集到的数据对象是否发生变化,包括:
判断采集到的数据对象的内容值相较于原数据对象的内容值是否发生变化,得到第二判断结果;
响应于所述第二判断结果为是,输出用于提示采集到的数据对象的内容值变化的第二提示信息。
11.根据权利要求7或8所述的方法,其特征在于,检测采集到的数据对象是否发生变化,包括:
当数据对象的采集完成后,判断上次采集到的数据对象是否多于本次采集到的数据对象,得到第三判断结果;
响应于所述第三判断结果为是,判断是否发生网络异常时,得到第四判断结果;
响应于所述第四判断结果为否,输出用于提示数据对象删除的第三提示信息。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
响应于所述第四判断结果为是,输出用于提示网络异常的第四提示信息。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
执行所述匹配模板所指示的网页动作。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
响应于所述网页动作均执行完毕,执行所述根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象的步骤。
15.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于获取所述待采集数据对象对应的匹配模板失败,输出模板配置信息;
获取针对所述模板配置信息的操作信息;
根据所述操作信息,生成所述待采集数据对象对应的匹配模板。
16.一种数据对象采集装置,其特征在于,包括:
第一获取单元,获取目标网页链接与待采集数据对象;
第二获取单元,用于获取所述待采集数据对象对应的匹配模板,所述匹配模板包括所述待采集数据对象的关联数据对象与各数据对象的采集规则;
采集单元,用于根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象。
17.一种数据对象采集系统,其特征在于,包括:
任务链接模块,用于管理目标网页链接;
模板配置模块,用于配置数据对象与匹配模板之间的对应关系;
爬虫引擎核心处理模块,用于获取目标网页链接与待采集数据对象,并用于获取所述待采集数据对象对应的匹配模板,所述匹配模板包括所述待采集数据对象的关联数据对象与各数据对象的采集规则,以及,用于根据各数据对象的采集规则,在所述目标网页链接中采集所述待采集数据对象与所述关联数据对象;
数据对象结果模块,用于输出采集结果;
消息推送模块,用于输出提示消息。
18.一种计算机可读存储介质,其特征在于,包括:计算机可执行指令,当所述计算机可执行指令被运行时用以执行如权利要求1至15任一项所述的数据对象采集方法。
CN201810291935.8A 2018-03-30 2018-03-30 数据对象采集方法、装置及系统、计算机可读存储介质 Pending CN108520043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810291935.8A CN108520043A (zh) 2018-03-30 2018-03-30 数据对象采集方法、装置及系统、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810291935.8A CN108520043A (zh) 2018-03-30 2018-03-30 数据对象采集方法、装置及系统、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108520043A true CN108520043A (zh) 2018-09-11

Family

ID=63431187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810291935.8A Pending CN108520043A (zh) 2018-03-30 2018-03-30 数据对象采集方法、装置及系统、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108520043A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472125A (zh) * 2019-08-23 2019-11-19 厦门商集网络科技有限责任公司 一种基于网络爬虫的多级页面的级联爬取方法和设备
CN110912782A (zh) * 2019-12-17 2020-03-24 锐捷网络股份有限公司 一种数据采集方法、装置及存储介质
CN111049698A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 一种遥测数据采集方法及装置
CN113379274A (zh) * 2021-06-22 2021-09-10 南方电网数字电网研究院有限公司 一种基于电能量数据的补采方法、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110279A1 (en) * 2007-10-30 2009-04-30 Vardhman Jain System and method for extracting and organizing data from electronic images
US20090241125A1 (en) * 2008-03-19 2009-09-24 Alexander Brantley Sheehan Data manipulation command method and system
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN104991904A (zh) * 2015-06-16 2015-10-21 浪潮软件集团有限公司 一种动态网页的页面数据采集方法
CN105339881A (zh) * 2013-03-14 2016-02-17 维克斯网有限公司 通过使用数据列表建设网站的设备、系统和方法
CN105956017A (zh) * 2016-04-21 2016-09-21 成都数联铭品科技有限公司 一种海量关联数据处理系统
CN107403334A (zh) * 2017-06-07 2017-11-28 北京小度信息科技有限公司 数据处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110279A1 (en) * 2007-10-30 2009-04-30 Vardhman Jain System and method for extracting and organizing data from electronic images
US20090241125A1 (en) * 2008-03-19 2009-09-24 Alexander Brantley Sheehan Data manipulation command method and system
CN105339881A (zh) * 2013-03-14 2016-02-17 维克斯网有限公司 通过使用数据列表建设网站的设备、系统和方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN104991904A (zh) * 2015-06-16 2015-10-21 浪潮软件集团有限公司 一种动态网页的页面数据采集方法
CN105956017A (zh) * 2016-04-21 2016-09-21 成都数联铭品科技有限公司 一种海量关联数据处理系统
CN107403334A (zh) * 2017-06-07 2017-11-28 北京小度信息科技有限公司 数据处理方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111049698A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 一种遥测数据采集方法及装置
CN111049698B (zh) * 2018-10-15 2022-04-29 华为技术有限公司 一种遥测数据采集方法及装置
CN110472125A (zh) * 2019-08-23 2019-11-19 厦门商集网络科技有限责任公司 一种基于网络爬虫的多级页面的级联爬取方法和设备
CN110912782A (zh) * 2019-12-17 2020-03-24 锐捷网络股份有限公司 一种数据采集方法、装置及存储介质
CN113379274A (zh) * 2021-06-22 2021-09-10 南方电网数字电网研究院有限公司 一种基于电能量数据的补采方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN108520043A (zh) 数据对象采集方法、装置及系统、计算机可读存储介质
CN102724219B (zh) 网络数据的计算机处理方法及系统
CN110428127B (zh) 自动化分析方法、用户设备、存储介质及装置
CN108363662A (zh) 一种应用程序测试方法、存储介质及终端设备
CN109120429B (zh) 一种风险识别方法及系统
CN112114986B (zh) 数据异常识别方法、装置、服务器和存储介质
CN110083391A (zh) 调用请求监控方法、装置、设备及存储介质
US20180285432A1 (en) Extracting and labeling custom information from log messages
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
CN109388748A (zh) 一种评论信息的回复方法、存储介质和服务器
CN106980497A (zh) 网页网站性能优化方法和装置
US11481361B1 (en) Cascading payload replication to target compute nodes
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN110489324A (zh) 测试页面跳转的方法、装置、存储介质、电子装置
CN110471945A (zh) 活跃数据的处理方法、系统、计算机设备和存储介质
CN114528457A (zh) Web指纹检测方法及相关设备
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN111010387B (zh) 一种物联网设备非法替换检测方法、装置、设备及介质
CN110968479A (zh) 一种针对应用程序的业务级全链路监控方法及服务器
CN109145194A (zh) 用户行为数据的采集方法及装置
CN115994079A (zh) 测试方法、装置、电子设备、存储介质及程序产品
CN102055620B (zh) 监控用户体验的方法和系统
CN109165147A (zh) 日志打印控制方法、装置、系统、后端服务器及前端设备
CN105094810B (zh) 基于通用网关接口插件的数据处理方法和装置
CN106792876A (zh) 端到端网络感知评估方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190710

Address after: 519060 Guangwan Street, Xiangzhou District, Zhuhai City, Guangdong Province, 83, 01, 1st, 3rd, 4th, 5th, 6th, 7th and 8th floors

Applicant after: Zhuhai APEX Microelectronics Co., Ltd.

Address before: 519060 Zhuhai City, Guangdong Province, 3883 Zhuhai Avenue 3883 01 Building 2, 7 Building B District, 02, 03, 04 Building 1, 2, 3, 4, 5, 05

Applicant before: Nasida Limited by Share Ltd

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200508

Address after: 519000 room 105-68710, No. 6, Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province (centralized office area)

Applicant after: Zhuhai Jihai Semiconductor Co., Ltd

Address before: 519060 Guangwan Street, Xiangzhou District, Zhuhai City, Guangdong Province, 83, 01, 1st, 3rd, 4th, 5th, 6th, 7th and 8th floors

Applicant before: APEX MICROELECTRONICS Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180911