CN111737528A - 一种数据采集校验方法、装置、电子设备及存储介质 - Google Patents
一种数据采集校验方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111737528A CN111737528A CN202010578464.6A CN202010578464A CN111737528A CN 111737528 A CN111737528 A CN 111737528A CN 202010578464 A CN202010578464 A CN 202010578464A CN 111737528 A CN111737528 A CN 111737528A
- Authority
- CN
- China
- Prior art keywords
- data
- acquired
- information
- accessed
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 11
- 238000013480 data collection Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 abstract description 7
- 238000007726 management method Methods 0.000 description 16
- 238000013524 data verification Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据采集校验方法,包括:根据预设的接口配置规则配置待接入数据的接入信息,接口配置规则包含待接入数据与接入信息的对应关系;根据接入信息生成数据采集队列中的多个待采集数据项;分别利用校验多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。通过实施本方案,通过接口配置化的方式对所有待接入的数据配置接入信息,降低待接入数据的接入难度,依据接入信息生成待接入数据对应的多个待采集数据项,实现对所有的待接入数据的整合,此外,分别利用接入信息对待采集数据项进行校验,得到校验后的多个目标采集数据,实现对接入数据的分布式管理,提升对接入任务的管理效率,保证接入数据的可靠性。
Description
技术领域
本发明涉及数据采集技术领域,尤其涉及一种数据采集校验方法、装置、电子设备及存储介质。
背景技术
随着大数据、云计算等互联网技术的发展,可通过终端的搜索业务获取相关数据信息,实现的数据共享或获取,这给用户、企业等带来极大的便利性。由于搜索业务对内容数据的依赖性极大,所以首先需要接入大量的CP(Content Provider)服务内容数据进行处理,以供后续的搜索业务进行搜索后呈现结果。
相关技术的CP数据接入的方式是通过定制化服务数据的接入形式,即未每一个CP数据提供一种接口,都是单服务的形式进行接入,数据接口无法实现接入多个内容数据,这使得需要对每个接口进行定向开发,提高接口开发难度,导致数据接入的难度高及接入任务的管理效率低,影响数据接入的可靠性。
发明内容
本申请提供了一种数据采集校验方法、装置、电子设备及存储介质,可以解决数据接口无法接入多个内容数据,导致数据接入的难度高及接入任务的管理效率低的技术问题。
本发明第一方面提供一种数据采集校验方法,所述方法包括:
根据预设的接口配置规则配置待接入数据的接入信息,所述接口配置规则包含所述待接入数据与所述接入信息的对应关系;
根据所述接入信息生成数据采集队列中的多个待采集数据项;
分别校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。
可选的,所述根据预设的接口配置规则配置待接入数据的接入信息的步骤之前包括:
分别根据预设的数据调度信息访问各数据信息供应商对应的数据接入地址,所述数据调度信息包含对各所述数据信息供应商进行访问的时间;
分别读取各所述数据接入地址内的供应数据信息,得到各所述数据信息供应商提供的供应数据;
将各所述供应数据整合为所述待接入数据。
可选的,所述接入信息包括:数据接口信息及校验方式信息,则所述根据预设的接口配置规则配置待接入数据的接入信息的步骤包括:
获取所述待接入数据的数据接入地址,及分析所述待接入数据的数据类型;
利用预设的所述接口配置规则配置所述数据接入地址对应的所述数据接口信息;
利用所述接口配置规则配置所述数据类型对应的所述校验方式信息;
将所述数据接口信息及所述校验方式信息确定为所述待接入数据对应的接入信息。
可选的,所述根据所述接入信息生成数据采集队列中的多个待采集数据项的步骤包括:
分别提取所述接入信息中的所述数据接口信息及所述校验方式信息,所述数据接口信息包含所述待接入数据与数据接入地址的对应关系;
根据所述数据接口信息生成所述待接入数据对应的数据接口列表,所述数据接口列表包含所述待接入数据对应的所述数据接入地址;
将所述数据接口列表中所述数据接入地址与所述校验方式信息进行绑定,得到所述待接入数据对应的所述多个待采集数据项;
将所述多个待采集数据项下发至所述数据采集队列。
可选的,所述分别校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据的步骤包括:
分别根据所述数据采集队列中的所述多个待采集数据项下载对应的采集数据文件;
分别提取所述多个待采集数据项中的校验方式信息;
分别利用所述校验方式信息对各所述采集数据文件进行校验,得到校验后的多个目标采集数据。
可选的,所述分别利用所述校验方式信息对各所述数据文件进行校验,得到校验后的多个目标采集数据的步骤包括:
解析所述采集数据文件,得到采集数据集合;
根据校验拆分信息对所述采集数据集合进行拆分,得到多条采集数据,其中,所述校验方式信息包括所述校验拆分信息及校验信息;
分别利用所述校验信息对多条所述采集数据进行校验,得到校验后的所述多个目标采集数据。
可选的,所述分别利用所述接入信息校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据的步骤之后包括:
分别分析所述多个目标采集数据对应的主题类型;
根据所述主题类型对所述多个目标采集数据进行去重;
将去重后的所述多个目标采集数据分别下发至目标数据队列,以提供数据服务。
本发明第二方面提供一种数据采集校验装置,所述装置包括:
第一模块,用于根据预设的接口配置规则配置待接入数据的接入信息,所述接口配置规则包含所述待接入数据与所述接入信息的对应关系;
第二模块,用于根据所述接入信息生成数据采集队列中的多个待采集数据项;
第三模块,用于分别校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。
本发明第三方面提供一种电子设备,包括:存储器、处理器及通信总线,所述通信总线分别与所述存储器及所述处理器通信连接,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时,实现第一方面的数据采集校验方法中的各个步骤。
本发明第四方面提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的数据采集校验方法中的各个步骤。
本发明提供的数据采集校验方法,包括:根据预设的接口配置规则配置待接入数据的接入信息,接口配置规则包含待接入数据与接入信息的对应关系;根据接入信息生成数据采集队列中的多个待采集数据项;分别校验多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。通过实施本方案,通过接口配置化的方式对所有待接入的数据配置接入信息,降低待接入数据的接入难度,依据接入信息生成待接入数据对应的多个待采集数据项,并下发至数据采集队列,实现对所有的待接入数据的整合,此外,利用接入信息对待采集数据项进行校验,得到校验后的多个目标采集数据,实现对接入数据的分布式管理,提升对接入任务的管理效率,保证数据接入的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据采集校验系统图;
图2为本发明实施例提供的数据采集校验方法的步骤流程图;
图3为本发明实施例提供的数据采集校验流程图;
图4为本发明实施例的数据采集校验装置的模块方框图;
图5为本发明实施例提供的电子设备的架构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中数据接口无法接入多个数据,导致数据接入的难度高及接入任务的管理效率低的技术问题。
为了解决上述技术问题,本发明提出一种数据采集校验方法、装置、电子设备及存储介质。
请参阅图1,为本发明实施例提供的数据采集校验系统图。本发明实施例提供一种数据采集校验系统,该系统包括:待接入数据端101、数据接入处理器102及目标数据服务端103,其中数据接入处理器102包括:接口配置中心1021、地址生成模块1022及采集校验模块1023。该系统用于接入待接入数据,并对接入的数据进行整合规范,以实现数据接口接入多个接入数据。
具体的,接口配置中心1021用于配置待接入数据端101的接入信息;通过配置中心对待接入数据端101的接入数据进行配置化,以提高待接入数据与数据接口的兼容度,提高待接入数据的接入成功率,实现单个数据接口接入多个数据,简化对数据接口的开发难度。
地址生成模块1022用于根据接口配置中心1021配置的接入信息解耦出所有接入数据的数据接入地址,并将接入数据的数据接入地址与校验方式信息进行整合、规范化处理,以得到接入数据的对应的待采集数据项,并将待采集数据项以数据采集队列的形式呈现。
采集校验模块1023用于对地址生成模块1022确定的待采集数据项进行数据采集,并基于校验方式信息对采集到的数据进行校验,得到校验后的多个目标采集数据,实现对接入数据的分布式管理,提升对接入任务的管理效率。此外,采集校验模块1023在校验后将目标数据服务端103传送至目标数据服务端103。
目标数据服务端103用于呈现各目标采集数据,以供其他数据服务搜索使用。
通过数据采集校验系统进行上述的数据交互及数据处理,实现一个数据接口接入多个内容数据,降低数据接入难度,提高对接入任务的管理效率。
请参阅图2,为本发明实施例提供的数据采集校验方法的步骤流程图。本实施例提供一种数据采集校验方法,该方法以应用于图1所示的数据采集校验系统中的数据接入处理器102,数据接入处理器102执行的程序对应的方法包括以下步骤:
步骤S201:根据预设的接口配置规则配置待接入数据的接入信息,接口配置规则包含待接入数据与接入信息的对应关系。
具体的,待接入数据为分别从一个或多个数据信息供应商(Content Provider,CP)中可获取的数据,也可为从一个数据信息供应商内获取的一个或多个数据,这些数据需要接入到数据接口。数据信息供应商为提供网络内容服务的开发商或数据服务商,其网络内容服务通常以公布网站或订阅消息等其他用户可获取的渠道的形式发布,该网络内容服务可为文字、图像、音频、视频、数据表格等数据。接口配置规则为根据数据接口预先设定的配置规则,接口配置规则包含待接入数据与接入信息的对应关系,用于对待接入数据配置满足数据接口的接入信息。
进一步的,为了实现数据接口可分别接入多个数据信息供应商提供的数据,或为了实现多个接入数据共同接入,需要根据接口配置规则对待接入数据进行配置化,对待接入数据配置符合数据接口的接入信息,提高待接入数据与数据接口的兼容度,以满足数据接口成功接入该待接入数据,提高待接入数据的接入成功率,简化对数据接口的开发难度。
步骤S202:根据接入信息生成数据采集队列中的多个待采集数据项。
在步骤S202中,接入信息包含待接入数据满足数据接口的各接入参数,如数据接口信息、数据的校验方式信息等;具体的,通过数据接口接入该待接入数据时,需要根据该待接入数据对应的数据信息供应商链接生成符合数据接口的数据接入地址,该数据接入地址为包含数据接口与数据信息供应商的地址映射关系,根据该数据接入地址确定待接入数据在数据接口接入时的数据接口信息;以及由于需要对接入的数据进行校验,则需要对待接入数据配置相应的校验方式信息。进一步的,根据接入信息中的数据接口信息生成待接入数据对应的数据接口列表,该数据接口列表包含待接入数据对应的数据接入地址,并将校验方式信息与数据接口列表中的数据接入地址绑定,在绑定后确定待接入数据的多个待采集数据项,将多个待采集数据项以数据采集队列的方式呈现,该数据采集队列为包含需要采集或下载的数据项的队列,该采集或下载的数据项分别为与待接入数据对应的地址映射项。通过实施本步骤,通过生成包含待接入数据的数据接入地址的数据接口列表,及将相应的校验方式信息与各数据接入地址绑定,得到待采集数据项,实现将URL(UniformResource Locator)数据地址生成功能/步骤的独立,如实现与数据下载或采集分开功能/步骤分开,便于两者之间的单方面维护。此外,可实现对待接入数据对应的数据接入地址与校验方式信息进行整合,实现规范化处理,以供后续数据采集/下载、校验,且提升接入数据对应的接入任务的管理效率。
步骤S203:分别校验多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。
步骤S203主要是根据数据采集队列中的多个待采集数据项进行数据采集或下载,实现接入多个数据。具体的,获取数据采集队列中的多个待采集数据项,判断多个待采集数据项的接口类型,该接口类型包括:数据接口类型和文件接口类型,当待采集数据项的接口类型为数据接口类型时,读取该待采集数据项对应的数据接入地址中的数据,将读取的数据存储为数据文件格式,得到采集数据文件;及当待采集数据项的接口类型为文件接口类型,则访问该待采集数据项对应的数据接入地址,下载采集数据文件。进一步的,根据待采集数据项所绑定的校验方式信息对采集数据文件进行校验,在校验通过后,得到采集的多个目标采集数据,该目标采集数据为供其他数据服务使用的数据,如通过搜索数据服务、数据推送服务等。通过实施本步骤,实现单个数据接口接入多个数据,实现对接入数据的分布式管理,且提高数据接入的效率。
本发明提供的数据采集校验方法,包括:根据预设的接口配置规则配置待接入数据的接入信息,接口配置规则包含待接入数据与接入信息的对应关系;根据接入信息生成数据采集队列中的多个待采集数据项;分别校验多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。通过实施本方案,通过接口配置化的方式对所有待接入的数据配置接入信息,降低待接入数据的接入难度,依据接入信息生成待接入数据对应的多个待采集数据项,并下发至数据采集队列,实现对所有的待接入数据的整合,此外,利用接入信息对待采集数据项进行校验,得到校验后的多个目标采集数据,实现对接入数据的分布式管理,提升对接入任务的管理效率,保证数据接入的可靠性。
在本实施例中,步骤S201之前包括:
分别根据预设的数据调度信息访问各数据信息供应商对应的数据接入地址,数据调度信息包含对各数据信息供应商进行访问的时间。
具体的,该数据信息供应商(Content Provider,CP)为提供提供网络内容服务的开发商或数据服务商,其网络内容服务通常以公布网站或订阅消息等形式发布,该网络内容服务可为文字、图像、音频、视频、数据表格等数据。该调度信息为根据数据接入端或数据接入处理器102的接入时间或频率需求预先设定的接入时间信息,用于确定数据接入端或数据接入处理器102访问各数据信息供应商时的频率、访问时间段或访问时间间隔等,该数据调度信息包含对各数据信息供应商进行访问的时间。进一步的,根据该数据调度信息访问各数据信息供应商对应的数据接入地址,以供实现后续的数据获取。
分别读取各数据接入地址内的供应数据信息,得到各数据信息供应商提供的供应数据。
具体的,在根据各数据接入地址访问数据信息供应商的网站或数据供应端后,分别读取各网站或数据供应端内的供应数据信息,以获取各数据信息供应商的供应数据。
将各供应数据整合为待接入数据。
具体的,根据获取的各供应数据确定需要接入数据接入端或数据接入处理器102的数据内容,根据确定的数据内容整合为待接入数据。通过上述步骤S201之间的步骤可明确需要采集的对象数据,从而确定需要数据接入端或数据接入处理器102的待接入数据。
在本实施例中,接入信息包括:数据接口信息及校验方式信息,则步骤S201包括:
获取待接入数据的数据接入地址,及分析待接入数据的数据类型;
利用预设的接口配置规则配置数据接入地址对应的数据接口信息;
利用接口配置规则配置数据类型对应的校验方式信息;
将数据接口信息及校验方式信息确定为待接入数据对应的接入信息。
具体的,该数据接入地址为待接入数据对应的数据信息供应商的地址,如网站地址、订阅链接地址等,通过该数据接入地址可获取数据信息供应商供应的数据,该数据为上述的待接入数据;在获取待接入数据的数据接入地址后,利用接口配置规则配置该数据接入地址对应的数据接口信息。由于数据信息供应商提供的数据内容不同,如为文字、图像、音频、视频、数据表格等数据,本实施例将数据分类两种数据格式类型,分别为Json类型和Xml类型,由于数据格式类型的不同,需要配置不同的校验方式信息;因此,利用接口配置规则配置数据类型对应的校验方式信息。进一步的,将数据接口信息及校验方式信息确定为待接入数据的接入信息。通过实施本步骤,实现对待接入数据的配置化,配置符合数据接口的接入信息,提高待接入数据与数据接口的兼容度,以满足数据接口成功接入该待接入数据,提高待接入数据的接入成功率,简化对数据接口的开发难度。
在本实施例中,步骤S202包括:
分别提取接入信息中的数据接口信息及校验方式信息,数据接口信息包含待接入数据与数据接入地址的对应关系;
根据数据接口信息生成待接入数据对应的数据接口列表,数据接口列表包含待接入数据对应的数据接入地址;
将数据接口列表中数据接入地址与校验方式信息进行绑定,得到待接入数据对应的多个待采集数据项;
将多个待采集数据项下发至数据采集队列。
为了提高接入任务的管理效率,需要整合待接入数据的数据接入地址。具体的,分别提取各接入信息中的数据接口信息和校验方式信息,由于数据接口信息是根据待接入数据的数据接入地址生成的,即数据接口信息包含待接入数据与数据接入地址的对应关系,因此,可根据数据接口信息中的数据接入地址生成待接入数据对应的数据接口列表,该数据接口列表包含待接入数据对应的数据接入地址。校验方式信息用于在后续对待接入数据进行校验,只有校验合格或达标的数据方可供其他数据服务使用;需要说明的是,本步骤不对待接入数据进行校验,而是将校验方式信息与数据接口列表中的数据接入地址进行绑定,得到待接入数据对应的多个待采集数据项,该待采集数据项为需要采集的待接入数据对应的数据接入地址映射项,且该数据接入地址映射项绑定有校验方式信息,实现每个待采集的数据项与校验方式信息配套,以便后续使用相关配套的校验方式信息对采集/下载的采集数据进行校验。通过本具体步骤,可实现对待接入数据对应的数据接入地址与校验方式信息进行整合,实现规范化处理,以供后续数据采集/下载、校验,提升接入数据对应的接入任务的管理效率。
在本实施例中,步骤S203包括:
分别根据数据采集队列中的多个待采集数据项下载对应的采集数据文件;
提取多个待采集数据项中的校验方式信息;
分别利用校验方式信息对各采集数据文件进行校验,得到校验后的多个目标采集数据。
在步骤S203中,该数据采集队列为包含待接入数据对应的多个待采集数据项的队列,通过读取该待采集队列中的多个待采集数据项,分别下载多个待采集数据项对应的采集数据文件,具体的,在下载工作前,先判断待接入数据的接口类型,即基于待采集数据项下载对应的接入数据的数据类型,该接口类型包括:数据接口类型和文件接口类型。其中,当待采集数据项的接口类型为数据接口类型时,读取该待采集数据项对应的数据接入地址中的数据,将读取的数据存储为数据文件格式,得到采集数据文件;及当待采集数据项的接口类型为文件接口类型,则访问该待采集数据项对应的数据接入地址,下载采集数据文件。进一步的,在通过数据接口类型和/或文件接口类型下载得到采集数据文件后,将下载的采集数据文件上传至分布式文件系统,该分布式文件系统用于储存在下载或采集待接入数据后的采集数据文件。
进一步的,分别提取待采集数据项内所绑定的校验方式信息,以利用该校验方式信息对采集数据文件进行校验,该校验为对采集数据文件中的数据进行严格字段的校验,如校验数据中各字段是否存在不合格、违反公共利益或违反社会道德等字段,以提高接入数据的安全性和可靠性。在校验通过后,即可得到目标采集数据。
具体的,分别利用校验方式信息对各数据文件进行校验,得到校验后的多个目标采集数据的步骤包括:
解析采集数据文件,得到采集数据集合;
根据校验拆分信息对采集数据集合进行拆分,得到多条采集数据,其中,校验方式信息包括校验拆分信息及校验信息;
分别利用校验信息对多条采集数据进行校验,得到校验后的多个目标采集数据。
在对采集数据文件进行校验时,先判断采集数据文件的数据格式类型,优选的,该数据格式类型包括:Json类型和Xml类型。不同的数据格式类型对应的校验方式信息不同,需要说明的是,在步骤S201在中对待接入数据进行配置化时,根据待接入数据的数据格式类型配置相应的校验方式信息,并在步骤S202中将校验方式信息与相应的数据接入地址映射项绑定。具体的,当数据格式类型为Json类型时,解析该数据采集文件,得到采集数据集合,及分解校验方式信息得到校验拆分信息和校验信息;利用校验拆分信息对解析后的采集数据集合进行拆分,可得到多条采集数据,并利用采集数据信息对该多条采集数据进行校验,校验过程为对采集数据中的相关字段进行校验,如对敏感文字字段、违规字段等,以提高接入数据的安全性和可靠性。另一方面,当数据格式类型为Xml类型时,解析该Xml类型的采集数据文件,得到采集数据集合,然后,分解校验方式信息,得到Xml类型对应的校验拆分信息和Xml类型对应的校验信息;利用校验拆分信息对解析后的采集数据集合进行拆分,可得到多条采集数据,并利用采集数据信息对该多条采集数据进行校验,校验过程为对采集数据中的相关字段进行校验,以提高接入数据的安全性和可靠性。通过上述两种不同数据格式类型的采集数据文件进行校验,得到符合校验规则的目标采集数据,该目标采集数据为供其他数据服务使用的数据,如通过搜索数据服务、数据推送服务等。需要说明的是,不同的数据格式类型的采集数据文件,其校验方式相似,但使用的校验方式信息不同,如两者的校验信息不同,即Json类型的采集数据文件选用该格式类型对应的校验信息,而Xml类型的采集数据文件选用该格式类型对应的校验信息。通过对不同数据格式类型的采集数据文件采用不同的校验方式信息,提高数据的可靠性,及提高数据接入的效率。
在本实施例中,步骤S203之后包括:
分别分析多个目标采集数据对应的主题类型;
根据主题类型对多个目标采集数据进行去重;
将去重后的多个目标采集数据分别下发至目标数据队列,以提供数据服务。
具体的,在得到多个目标采集数据后,由于待接入数据包括从多个数据信息供应商接入的数据,或从一个数据信息供应商接入多个不同类型的数据,则会存在多个不同的主体类型的目标采集数据。因此,需要分析多个目标采集数据的主题类型,分别根据主题类型对多个目标采集数据进行分类,并去重,防止每个类型的目标采集数据重复。进一步的,在数据去重后,将去重后的多个目标采集数据分别下发至目标数据队列,以提供数据服务,如通过搜索数据服务、数据推送服务等。
请参阅图3,为本发明实施例提供的数据采集校验流程图。在执行步骤S203时,具体的数据采集校验步骤流程如下:
S301:读取数据采集队列中的多个待采集数据项;
S302:判断多个待采集数据项对应的接入数据的接口类型;
S303:当接口类型为数据接口类型时,读取该待采集数据项对应的数据接入地址中的数据,将读取的数据存储为数据文件格式,得到采集数据文件,并上传分布式文件系统;
S304:当接口类型为文件接口类型,访问该待采集数据项对应的数据接入地址,下载采集数据文件,并上传分布式文件系统;
S305:判断分布式文件系统中采集数据文件的数据格式类型;
S306:当数据格式类型为Json类型时,解析该数据采集文件,得到采集数据集合,拆分该采集数据集合,可得到多条采集数据,对该多条采集数据进行校验,得到校验后的目标采集数据;
S307:当数据格式类型为Xml类型时,解析该Xml类型的采集数据文件,得到采集数据集合,拆分采集数据集合得到多条采集数据,对多条采集数据进行校验,得到校验后的目标采集数据;
S308:根据主题类型对多个目标采集数据进行分类、去重,并下发至目标数据队列。
以上为步骤S203中对数据进行采集、校验、及校验后的数据分类的流程,关于该流程与步骤S203及步骤S203之后的步骤的方法步骤相似或相近,关于该部分流程的内容描述与步骤S203和步骤S203之后的内容描述一致,本实施例对此不做进一步赘述。
请参阅图4,为本发明实施例提供数据采集校验装置的模块方框图;本发明还提供一种数据采集校验装置,该装置包括:
第一模块401,用于根据预设的接口配置规则配置待接入数据的接入信息,接口配置规则包含待接入数据与接入信息的对应关系;
第二模块402,用于根据接入信息生成数据采集队列中的多个待采集数据项;
第三模块403,用于分别校验多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。
本发明提供的数据采集校验装置,包括:第一模块401、第二模块402及第三模块403;具体的,通过第一模块401根据预设的接口配置规则配置待接入数据的接入信息,接口配置规则包含待接入数据与接入信息的对应关系;通过第二模块402根据接入信息生成数据采集队列中的多个待采集数据项;通过第三模块403分别校验多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。通过实施本方案,通过接口配置化的方式对所有待接入的数据配置接入信息,降低待接入数据的接入难度,依据接入信息生成待接入数据对应的多个待采集数据项,并下发至数据采集队列,实现对所有的待接入数据的整合,此外,利用接入信息对待采集数据项进行校验,得到校验后的多个目标采集数据,实现对接入数据的分布式管理,提升对接入任务的管理效率,保证数据接入的可靠性。
进一步的,该装置还包括:第四模块404及第五模块405。
第四模块404,用于分别根据预设的数据调度信息访问各数据信息供应商对应的数据接入地址,数据调度信息包含对各数据信息供应商进行访问的时间;分别读取各数据接入地址内的供应数据信息,得到各数据信息供应商提供的供应数据;将各供应数据整合为待接入数据。
具体的,该数据信息供应商(Content Provider,CP)为提供提供网络内容服务的开发商或数据服务商,其网络内容服务通常以公布网站或订阅消息等形式发布。该调度信息用于确定数据接入端或数据接入处理器102访问各数据信息供应商时的频率、访问时间段或访问时间间隔等,该数据调度信息包含对各数据信息供应商进行访问的时间。而第四模块404根据该数据调度信息访问各数据信息供应商对应的数据接入地址,以获取各数据信息供应商的供应数据,并根据获取的各供应数据确定需要接入数据接入端或数据接入处理器102的数据内容,根据确定的数据内容整合为待接入数据。
第五模块405,用于分别分析多个目标采集数据对应的主题类型;根据主题类型对多个目标采集数据进行去重;将去重后的多个目标采集数据分别下发至目标数据队列,以提供数据服务。
具体的,在得到多个目标采集数据后,由于待接入数据包括从多个数据信息供应商接入的数据,或从一个数据信息供应商接入多个不同类型的数据,则会存在多个不同的主体类型的目标采集数据。因此,需要通过第五模块405分析多个目标采集数据的主题类型,分别根据主题类型对多个目标采集数据进行分类,并去重,防止每个类型的目标采集数据重复;进一步的,在数据去重后,将去重后的多个目标采集数据分别下发至目标数据队列,以提供数据服务,如通过搜索数据服务、数据推送服务等。
本发明提供一种电子设备,请参阅图5,为本发明实施例提供的电子设备的架构图,该电子设备包括:存储器501、处理器502及通信总线503,通信总线503分别与存储器501及处理器502通信连接,存储器501与处理器502耦合,存储器501上存储有计算机程序,处理器502执行计算机程序时,实现上述任意一实施例的数据采集校验方法中的各个步骤。
示例性的,该数据采集校验方法的计算机程序主要包括:根据预设的接口配置规则配置待接入数据的接入信息,接口配置规则包含待接入数据与接入信息的对应关系;根据接入信息生成数据采集队列中的多个待采集数据项;分别校验多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。另外,计算机程序也可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算设备中的执行过程。例如,计算机程序可以被分割成如图4所示的第一模块401、第二模块402、第三模块403、第四模块404及第五模块405。
处理器502可以是中央处理模块(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明还提供一种存储介质,存储介质为计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现上述任意一实施例的数据采集校验方法中的各个步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种数据采集校验方法、装置、电子设备及存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据采集校验方法,其特征在于,所述方法包括:
根据预设的接口配置规则配置待接入数据的接入信息,所述接口配置规则包含所述待接入数据与所述接入信息的对应关系;
根据所述接入信息生成数据采集队列中的多个待采集数据项;
分别校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。
2.根据权利要求1所述的数据采集校验方法,其特征在于,所述根据预设的接口配置规则配置待接入数据的接入信息的步骤之前包括:
分别根据预设的数据调度信息访问各数据信息供应商对应的数据接入地址,所述数据调度信息包含对各所述数据信息供应商进行访问的时间;
分别读取各所述数据接入地址内的供应数据信息,得到各所述数据信息供应商提供的供应数据;
将各所述供应数据整合为所述待接入数据。
3.根据权利要求1所述的数据采集校验方法,其特征在于,所述接入信息包括:数据接口信息及校验方式信息,则所述根据预设的接口配置规则配置待接入数据的接入信息的步骤包括:
获取所述待接入数据的数据接入地址,及分析所述待接入数据的数据类型;
利用预设的所述接口配置规则配置所述数据接入地址对应的所述数据接口信息;
利用所述接口配置规则配置所述数据类型对应的所述校验方式信息;
将所述数据接口信息及所述校验方式信息确定为所述待接入数据对应的接入信息。
4.根据权利要求3所述的数据采集校验方法,其特征在于,所述根据所述接入信息生成数据采集队列中的多个待采集数据项的步骤包括:
分别提取所述接入信息中的所述数据接口信息及所述校验方式信息,所述数据接口信息包含所述待接入数据与数据接入地址的对应关系;
根据所述数据接口信息生成所述待接入数据对应的数据接口列表,所述数据接口列表包含所述待接入数据对应的所述数据接入地址;
将所述数据接口列表中所述数据接入地址与所述校验方式信息进行绑定,得到所述待接入数据对应的所述多个待采集数据项;
将所述多个待采集数据项下发至所述数据采集队列。
5.根据权利要求1所述的数据采集校验方法,其特征在于,所述分别校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据的步骤包括:
分别根据所述数据采集队列中的所述多个待采集数据项下载对应的采集数据文件;
分别提取多个待采集数据项中的校验方式信息;
分别利用所述校验方式信息对各所述采集数据文件进行校验,得到校验后的多个目标采集数据。
6.根据权利要求5所述的数据采集校验方法,其特征在于,所述分别利用所述校验方式信息对各所述数据文件进行校验,得到校验后的多个目标采集数据的步骤包括:
解析所述采集数据文件,得到采集数据集合;
根据校验拆分信息对所述采集数据集合进行拆分,得到多条采集数据,其中,所述校验方式信息包括所述校验拆分信息及校验信息;
分别利用所述校验信息对多条所述采集数据进行校验,得到校验后的所述多个目标采集数据。
7.根据权利要求1所述的数据采集校验方法,其特征在于,所述分别校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据的步骤之后包括:
分别分析所述多个目标采集数据对应的主题类型;
根据所述主题类型对所述多个目标采集数据进行去重;
将去重后的所述多个目标采集数据分别下发至目标数据队列,以提供数据服务。
8.一种数据采集校验装置,其特征在于,所述装置包括:
第一模块,用于根据预设的接口配置规则配置待接入数据的接入信息,所述接口配置规则包含所述待接入数据与所述接入信息的对应关系;
第二模块,用于根据所述接入信息生成数据采集队列中的多个待采集数据项;
第三模块,用于分别校验所述多个待采集数据项对应的采集数据文件,得到校验后的多个目标采集数据。
9.一种电子设备,包括:存储器、处理器及通信总线,所述通信总线分别与所述存储器及所述处理器通信连接,其特征在于,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7任意一项所述的数据采集校验方法中的各个步骤。
10.一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至7任意一项所述的数据采集校验方法中的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010578464.6A CN111737528A (zh) | 2020-06-23 | 2020-06-23 | 一种数据采集校验方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010578464.6A CN111737528A (zh) | 2020-06-23 | 2020-06-23 | 一种数据采集校验方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737528A true CN111737528A (zh) | 2020-10-02 |
Family
ID=72650711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010578464.6A Pending CN111737528A (zh) | 2020-06-23 | 2020-06-23 | 一种数据采集校验方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737528A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613298A (zh) * | 2020-12-29 | 2021-04-06 | 北京嘀嘀无限科技发展有限公司 | 数据校验方法、系统、计算机程序产品和电子设备 |
CN113079046A (zh) * | 2021-03-26 | 2021-07-06 | 北京百度网讯科技有限公司 | 数据接入方法及装置、电子设备和介质 |
CN114201493A (zh) * | 2021-12-13 | 2022-03-18 | 北京百度网讯科技有限公司 | 数据接入方法、装置、设备以及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605512A (zh) * | 2013-11-05 | 2014-02-26 | 广东电网公司电力科学研究院 | 一种基于GTechnology平台的数据校验系统及方法 |
CN105429970A (zh) * | 2015-11-09 | 2016-03-23 | 中国石油天然气集团公司 | 用于数字检波器的数据传输及控制方法、装置 |
CN106682036A (zh) * | 2015-11-11 | 2017-05-17 | 上海汽车集团股份有限公司 | 一种数据交换系统及其交换方法 |
CN107451460A (zh) * | 2017-06-28 | 2017-12-08 | 努比亚技术有限公司 | 接口处理方法、设备、服务器及计算机可读存储介质 |
CN108281174A (zh) * | 2018-02-24 | 2018-07-13 | 量化医学研究院(深圳)有限公司 | 一种数据对接方法及数据对接系统 |
CN108446395A (zh) * | 2018-03-26 | 2018-08-24 | 北京神州泰岳软件股份有限公司 | 一种基于大数据的警务信息处理方法及系统 |
CN108990021A (zh) * | 2017-06-05 | 2018-12-11 | 江苏东大集成电路系统工程技术有限公司 | 一种物联网一对多数据采集装置及其方法 |
US20190138640A1 (en) * | 2016-09-26 | 2019-05-09 | Splunk Inc. | Subquery generation based on search configuration data from an external data system |
CN109739849A (zh) * | 2019-01-02 | 2019-05-10 | 山东省科学院情报研究所 | 一种数据驱动的网络敏感信息挖掘与预警平台 |
US20190318117A1 (en) * | 2015-06-02 | 2019-10-17 | ALTR Solutions, Inc. | Replacing distinct data in a relational database with a distinct reference to that data and distinct de-referencing of database data |
CN110347899A (zh) * | 2019-07-04 | 2019-10-18 | 北京熵简科技有限公司 | 基于事件驱动模型的分布式互联网数据采集系统与方法 |
-
2020
- 2020-06-23 CN CN202010578464.6A patent/CN111737528A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605512A (zh) * | 2013-11-05 | 2014-02-26 | 广东电网公司电力科学研究院 | 一种基于GTechnology平台的数据校验系统及方法 |
US20190318117A1 (en) * | 2015-06-02 | 2019-10-17 | ALTR Solutions, Inc. | Replacing distinct data in a relational database with a distinct reference to that data and distinct de-referencing of database data |
CN105429970A (zh) * | 2015-11-09 | 2016-03-23 | 中国石油天然气集团公司 | 用于数字检波器的数据传输及控制方法、装置 |
CN106682036A (zh) * | 2015-11-11 | 2017-05-17 | 上海汽车集团股份有限公司 | 一种数据交换系统及其交换方法 |
US20190138640A1 (en) * | 2016-09-26 | 2019-05-09 | Splunk Inc. | Subquery generation based on search configuration data from an external data system |
CN108990021A (zh) * | 2017-06-05 | 2018-12-11 | 江苏东大集成电路系统工程技术有限公司 | 一种物联网一对多数据采集装置及其方法 |
CN107451460A (zh) * | 2017-06-28 | 2017-12-08 | 努比亚技术有限公司 | 接口处理方法、设备、服务器及计算机可读存储介质 |
CN108281174A (zh) * | 2018-02-24 | 2018-07-13 | 量化医学研究院(深圳)有限公司 | 一种数据对接方法及数据对接系统 |
CN108446395A (zh) * | 2018-03-26 | 2018-08-24 | 北京神州泰岳软件股份有限公司 | 一种基于大数据的警务信息处理方法及系统 |
CN109739849A (zh) * | 2019-01-02 | 2019-05-10 | 山东省科学院情报研究所 | 一种数据驱动的网络敏感信息挖掘与预警平台 |
CN110347899A (zh) * | 2019-07-04 | 2019-10-18 | 北京熵简科技有限公司 | 基于事件驱动模型的分布式互联网数据采集系统与方法 |
Non-Patent Citations (2)
Title |
---|
刘忠强等: "基于SOA的网络信息资源采集系统的研究与实现", 《中国优秀硕士学位论文全文数据库》, 28 February 2009 (2009-02-28), pages 139 - 139 * |
程学旗等: "大数据系统和分析技术综述", 《软件学报》, vol. 25, no. 9, 30 September 2014 (2014-09-30), pages 1889 - 1908 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613298A (zh) * | 2020-12-29 | 2021-04-06 | 北京嘀嘀无限科技发展有限公司 | 数据校验方法、系统、计算机程序产品和电子设备 |
CN113079046A (zh) * | 2021-03-26 | 2021-07-06 | 北京百度网讯科技有限公司 | 数据接入方法及装置、电子设备和介质 |
CN114201493A (zh) * | 2021-12-13 | 2022-03-18 | 北京百度网讯科技有限公司 | 数据接入方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598127B (zh) | 隐私风险评估方法和装置 | |
CN111737528A (zh) | 一种数据采集校验方法、装置、电子设备及存储介质 | |
CN107085549B (zh) | 故障信息生成的方法和装置 | |
AU2014400621A1 (en) | System and method for providing contextual analytics data | |
CN112328552A (zh) | 底层数据管理方法、系统及计算机可读存储介质 | |
CN112163412A (zh) | 数据校验方法、装置、电子设备及存储介质 | |
CN115563600A (zh) | 数据审核方法和装置、电子设备及存储介质 | |
US10810211B2 (en) | Dynamic expression sticker management | |
CN104408193B (zh) | 数据可视化模型的处理方法及装置 | |
CN109213782B (zh) | 搜索界面的配置、显示方法、装置及通信设备 | |
CN109862074B (zh) | 一种数据采集方法、装置、可读介质及电子设备 | |
CN109284331B (zh) | 基于业务数据资源的制证信息获取方法、终端设备及介质 | |
Hutchins | Testing software tools of potential interest for digital preservation activities at the national library of australia | |
CN110505289B (zh) | 文件下载方法及装置、计算机可读介质、无线通信设备 | |
US9904662B2 (en) | Real-time agreement analysis | |
CN109542743B (zh) | 日志校验方法、装置、电子设备及计算机可读存储介质 | |
CN111107443A (zh) | 一种dash分片文件合并方法、终端设备及存储介质 | |
US10223393B1 (en) | Efficient processing of source code objects using probabilistic data structures | |
CN113868479A (zh) | 对于业务数据的处理方法及装置 | |
CN109145220B (zh) | 数据处理方法、装置及电子设备 | |
CN113138974A (zh) | 数据库合规检测的方法和装置 | |
CN112860456A (zh) | 日志处理方法和装置 | |
CN113067842B (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
KR101862178B1 (ko) | 맞춤형 포스팅 방법 및 이를 운용하는 서버 | |
CN111708680A (zh) | 报错信息解析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |