CN116628061A - 一种多源异构数据的采集方法、装置、设备及存储介质 - Google Patents
一种多源异构数据的采集方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116628061A CN116628061A CN202310601264.1A CN202310601264A CN116628061A CN 116628061 A CN116628061 A CN 116628061A CN 202310601264 A CN202310601264 A CN 202310601264A CN 116628061 A CN116628061 A CN 116628061A
- Authority
- CN
- China
- Prior art keywords
- data
- quality inspection
- target
- end processor
- source data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000007689 inspection Methods 0.000 claims abstract description 166
- 238000012550 audit Methods 0.000 claims abstract description 64
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013480 data collection Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012372 quality testing Methods 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 20
- 238000007726 management method Methods 0.000 abstract description 12
- 238000012544 monitoring process Methods 0.000 abstract description 8
- 238000013474 audit trail Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- WVCHIGAIXREVNS-UHFFFAOYSA-N 2-hydroxy-1,4-naphthoquinone Chemical compound C1=CC=C2C(O)=CC(=O)C(=O)C2=C1 WVCHIGAIXREVNS-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多源异构数据的采集方法、装置、设备及存储介质。该方法包括:根据针对已注册前置机的选择操作,获取目标前置机,并根据目标前置机的数据挂接设置操作,获取数据采集信息;创建数据交换任务,以将目标源数据从目标前置机交换到预设质检库;若检测到目标源数据质检合格,则获取主管审核人;生成审核单发送到主管审核人,若检测到审核通过信息,则将目标源数据从预设质检库转移到预设中心库。本实施例的技术方案,通过预设的质检库和中心库,以及对源数据的质检和审核流程,可以实现对多源异构数据的有效采集,可以实现对采集过程的全流程监控管理,可以确保采集数据的质量。
Description
技术领域
本发明涉及数据采集技术领域,尤其涉及一种多源异构数据的采集方法、装置、设备及存储介质。
背景技术
随着数字经济建设的不断深入,跨行业、跨部门和跨领域的数据共享诉求越来越多,然而系统不能互通、数据分散没有汇聚、数据类型多样化不统一、系统间数据共享的审批管理等问题的存在,导致围绕各领域的数字经济建设效率低下。
目前,现有的数据采集方法,通常是从数据源直接进行采集,并在对采集数据进行处理后,将采集数据存储到指定数据库。然而,在现有技术中,采集数据的类型较为单一,无法完成多源数据采集的任务;而且只进行数据采集,并未对数据采集过程进行全流程监控管理,存在数据泄露、无法溯源等数据安全风险;此外,没有对采集数据的质量进行把关,采集得到的数据质量参差不齐,数据规范五花八门,从而导致采集得到的数据难以汇聚与共享;而且数据更新不及时,且数据搬运效率低下,无法适用对时效性要求高的业务场景。
发明内容
本发明提供了一种多源异构数据的采集方法、装置、设备及存储介质,可以实现对多源异构数据的有效采集,可以实现对采集过程的全流程监控管理,可以确保采集数据的质量,可以实现对更新数据的实时采集,可以提升数据搬运效率。
根据本发明的一方面,提供了一种多源异构数据的采集方法,包括:
根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对所述目标前置机的数据挂接设置操作,获取数据采集信息;
根据所述数据采集信息,创建数据交换任务,并根据所述数据交换任务,将所述目标前置机中所述数据采集信息对应的目标源数据交换到预设质检库;
对所述预设质检库中所述目标源数据进行质检,若检测到质检结果为质检合格,则获取所述目标源数据对应的主管审核人;
生成所述目标源数据对应的审核单发送到所述主管审核人,若检测到所述主管审核人反馈的审核通过信息,则从所述预设质检库中获取所述目标源数据并存储到预设中心库。
根据本发明的另一方面,提供了一种多源异构数据的采集装置,包括:
数据采集信息获取模块,用于根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对所述目标前置机的数据挂接设置操作,获取数据采集信息;
目标源数据交换模块,用于根据所述数据采集信息,创建数据交换任务,并根据所述数据交换任务,将所述目标前置机中所述数据采集信息对应的目标源数据交换到预设质检库;
目标源数据质检模块,用于对所述预设质检库中所述目标源数据进行质检,若检测到质检结果为质检合格,则获取所述目标源数据对应的主管审核人;
目标源数据存储模块,用于生成所述目标源数据对应的审核单发送到所述主管审核人,若检测到所述主管审核人反馈的审核通过信息,则从所述预设质检库中获取所述目标源数据并存储到预设中心库。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的多源异构数据的采集方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的多源异构数据的采集方法。
本发明实施例的技术方案,通过根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对目标前置机的数据挂接设置操作,获取数据采集信息;然后,根据数据采集信息,创建数据交换任务,并根据数据交换任务,将目标前置机中数据采集信息对应的目标源数据交换到预设质检库;其次,对预设质检库中目标源数据进行质检,若检测到质检结果为质检合格,则获取目标源数据对应的主管审核人;最后,生成目标源数据对应的审核单发送到主管审核人,若检测到主管审核人反馈的审核通过信息,则从预设质检库中获取目标源数据并存储到预设中心库,通过预设的质检库和中心库,以及对源数据的质检和审核流程,可以实现对多源异构数据的有效采集,可以实现对采集过程的全流程监控管理,可以确保采集数据的质量。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是根据本发明实施例一提供的一种多源异构数据的采集方法的流程图;
图1B是根据本发明实施例一提供的一种数据采集流程的示意图;
图1C是根据本发明实施例一提供的一种结构化数据的采集流程的示意图;
图1D是根据本发明实施例一提供的一种非结构化数据的采集流程的示意图;
图2是根据本发明实施例二提供的一种多源异构数据的采集装置的结构示意图;
图3是实现本发明实施例的多源异构数据的采集方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1A为本发明实施例一提供了一种多源异构数据的采集方法的流程图,本实施例可适用于对来自不同信息系统的多源异构的业务数据进行采集的情况,该方法可以由多源异构数据的采集装置来执行,该多源异构数据的采集装置可以采用硬件和/或软件的形式实现,该多源异构数据的采集装置可配置于电子设备中,典型的,电子设备可以是计算机设备或者服务器。如图1A所示,该方法包括:
S110、根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对所述目标前置机的数据挂接设置操作,获取数据采集信息。
其中,前置机,可以是用于存储源数据的服务器,源数据可以是多源异构的数据。典型的,源数据可以包括库表数据、文件数据、接口数据、地图数据、证照数据、视频数据、物联网感知数据等结构化和非结构化数据。在本实施例中,用户可以在数据采集系统中对各前置机进行预先注册,并为其设置对应的配置信息,例如,互联网地址、数据库类型等。其次,还可以对已注册的前置机进行配置信息更新或者删除。其中,用户,可以是数据采集申请的发起人。
在一个具体的例子中,用户在登录数据采集系统后,可以在本部门下已注册的前置机中选择需要进行数据采集的前置机,以作为目标前置机;例如,可以在已注册前置机的标识列表中点击选择目标前置机。然后,在检测到用户选择的目标前置机之后,数据采集系统可以向用户展示数据挂接设置页面,用户可以在该页面中采用勾选或者填写的方式,设置需要采集的源数据的相关信息,并提交数据采集申请。数据采集系统在检测到用户完成操作后,可以获取用户设置的数据采集信息。
其中,数据采集信息,可以是目标前置机中需要采集的源数据的相关信息,可以包括源数据库、源表、表字段、接口地址、接口出入参数、源文件、数源单位和数源审核人中的至少一项。
S120、根据所述数据采集信息,创建数据交换任务,并根据所述数据交换任务,将所述目标前置机中所述数据采集信息对应的目标源数据交换到预设质检库。
在本实施例中,数据采集系统在检测到用户提交的数据采集申请之后,可以根据该数据采集信息,自动创建目标前置机到预设质检库的数据交换任务;然后,可以自动执行该数据交换任务,以将目标前置机中该数据采集信息对应的目标源数据搬运到预设质检库。
S130、对所述预设质检库中所述目标源数据进行质检,若检测到质检结果为质检合格,则获取所述目标源数据对应的主管审核人。
在本实施例中,在检测到目标源数据成功交换到预设质检库之后,可以对预设质检库中的目标源数据进行自动质检,并把质检结果推送给用户。其中,质检内容可以包括数据完整性、一致性、精度性、合理性、有效性和准确性等方面的检查,质检方式可以包括预设规则匹配等。
进一步的,当目标源数据的质检结果为质检合格时,可以进入目标配置环节;具体的,由数据采集系统为目标源数据配置相关信息,例如,指定对应的主管审核人。可选的,数据采集系统可以根据目标源数据对应的数据采集信息(例如,源数据所属部门),以及预先设置的数据采集信息与主管审核人之间的对应关系,确定该目标源数据对应的主管审核人;或者,可以根据数据运营人员的数据配置操作,确定该目标源数据对应的主管审核人。
此外,当质检结果为质检不合格时,该数据采集申请将被标记为质检不通过状态,此时用户可以根据质检结果中的相关描述进行数据治理和整改,并可以在整改完成后重新提交数据采集申请。
上述设置的好处在于,统一了数据标准与规范,保证了采集数据的质量,为后续数据汇聚共享打下了坚实基础,使得跨地区、跨部门、跨层级的数据共享与协同管理成为可能。
S140、生成所述目标源数据对应的审核单发送到所述主管审核人,若检测到所述主管审核人反馈的审核通过信息,则从所述预设质检库中获取所述目标源数据并存储到预设中心库。
在本实施例中,数据采集需要数源主管单位进行审核,只有审核通过的数据才会被搬运并保存至最终的数据存储模块。具体的,在确定目标源数据对应的主管审核人之后,可以生成该目标源数据对应的审核单发送到该主管审核人的客户端,以使该主管审核人对当前的数据采集任务进行审核。主管审核人在审核后,若确定无误可以点击审核通过按钮,以向数据采集系统发送审核通过信息。然后,数据采集系统在接收到该审核通过信息之后,则可以自动将该目标源数据从预设质检库搬运至预设中心库。其中,审核单,可以包括数据采集信息、数据适用场景等信息。
其中,预设中心库,可以是Tbase分布式存储、OBS云存储等存储介质。可选的,预设质检库和预设中心库,可以是相同类型的存储设备,由此,可以基于单个指令语句,实现数据从预设质检库到预设中心库的转换,可以提升数据采集效率。可选的,可以采用数据交换系统,实现数据在不同数据库之间的数据交换,不仅可以满足特殊场景下数据交换的效率和时效性要求,还可以实现跨地域、跨部门、跨平台不同应用系统、不同数据库之间的互连互通数据交换服务。
此外,当目标源数据对应的数据采集申请审核未通过时,可以返回修改该目标源数据对应的配置信息,并重新提交审核单至相应的主管审核人进行再次审核,直至成功审核通过后,完成对该目标源数据的采集。
本发明实施例的技术方案,通过根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对目标前置机的数据挂接设置操作,获取数据采集信息;然后,根据数据采集信息,创建数据交换任务,并根据数据交换任务,将目标前置机中数据采集信息对应的目标源数据交换到预设质检库;其次,对预设质检库中目标源数据进行质检,若检测到质检结果为质检合格,则获取目标源数据对应的主管审核人;最后,生成目标源数据对应的审核单发送到主管审核人,若检测到主管审核人反馈的审核通过信息,则从预设质检库中获取目标源数据并存储到预设中心库,通过预设的质检库和中心库,以及对源数据的质检和审核流程,可以实现对多源异构数据的有效采集,可以实现对采集过程的全流程监控管理,可以确保采集数据的质量。
在本实施例的一个可选的实施方式中,在根据用户针对已注册前置机的选择操作,获取目标前置机之前,还可以包括:
根据用户针对当前前置机的注册请求,获取所述当前前置机对应的配置信息;
根据所述当前前置机对应的配置信息,若检测到所述当前前置机成功通过审核,则存储所述当前前置机对应的配置信息,以完成对所述当前前置机的注册。
在本实施例中,数源方可以在数据采集系统(例如,数据中心门户网站)中新注册本部门存储源数据的前置机;在一个具体的例子中,用户可以在数据采集系统的功能页面中点击前置机注册按钮,并在相应的弹窗页面中填写配置信息,以生成针对当前前置机的注册请求。数据采集系统在检测到该注册请求时,可以获取用户设置的前置机的配置信息。
然后,可以基于该配置信息对该注册请求进行审核,若确定成功通过审核,则可以对该配置信息进行存储和记录,以完成当前前置机的注册。例如,可以根据测试注册节点的网络连通性,第三方机构的安全测评报告,以及申请注册节点的事由是否充分合理等信息,来确定该当前前置机是否能够通过审核。
其中,配置信息可以包括互联网地址、数据库类型、数据库名称、数据库端口、数据库账号和数据库密码中的至少一项。在本实施例中,配置信息可以用于前置机的注册审核,以及后续的源数据的交换。
在本实施例的另一个可选的实施方式中,在对所述预设质检库中所述目标源数据进行质检之后,还可以包括:
根据质检结果生成质检报告,并将所述质检报告推送到所述用户,并将所述质检报告存储到所述预设质检库。
在本实施例中,在对预设质检库中的目标源数据进行质检之后,还可以生成质检报告推送到当前的用户,以及存储到预设质检库。其中,质检报告可以包括质检结果,以及具体的质检信息;例如,当质检结果为质检不合格时,可以包括未通过的质检项,以及建议的修改方向等。
在本实施例的另一个可选的实施方式中,根据质检结果生成质检报告,可以包括:
当质检结果为质检不合格时,获取各异常质检项,以及各所述异常质检项对应的整改建议;
根据所述质检结果,以及各所述异常质检项和对应的整改建议,生成质检报告。
在一个具体的例子中,当质检结果为质检不合格时,可以获取质检未通过的各质检项,以作为异常质检项,例如,数据完整性、数据一致性、数据有效性等。然后,可以根据预先设置的异常质检项与整改建议之间的对应关系,以及当前的异常质检项,确定各异常质检项对应的整改建议。最后,可以将质检结果,以及各异常质检项和对应的整改建议,填充至预先设置的质检报告模板的相应位置,以生成质检报告。
在本实施例的另一个可选的实施方式中,生成所述目标源数据对应的审核单发送到所述主管审核人,可以包括:
在所述目标前置机中随机采样预设数量的源数据,若检测到各所述源数据均满足预设质量检测条件且不包含预设敏感字符,则生成所述目标源数据对应的审核单发送到所述主管审核人。
在本实施例中,在进入发布审核环节之前,需要首先检查数据质量以及是否包含敏感信息。具体的,通过预先指定的接口从目标前置机中,随机采样预设数量(例如,50条)的源数据;然后,检查该源数据的质量以及是否包含敏感信息,若确定每条源数据均满足预设质量检测条件且不包含预设敏感字符,则可以配置相关信息,例如,数据应用场景、所属领域和主管审核人等。
其中,预设质量检测条件,可以是通过数据完整性校验;预设敏感字符,可以是预先设置的风险字符。
在本实施例的一个具体的实施方式中,数据采集的流程可以如图1B所示。首先进行节点注册(针对库表类型数据进行前置机注册),并进行数据挂接设置,以录入数源信息。然后,进行数据质检,以检测数据质量,并在质检合格后,由数据运营方进行数据配置,以指定主管审核人。最后,由数源主管进行数据采集申请审核,并在成功通过审核后,将质检库中源数据交换到中心库。其中,数据交换过程,包括前置机到质检库的数据交换任务,以及质检库到中心库的数据交换任务。
在本实施例的另一个具体的实施方式中,结构化数据的采集流程可以如图1C所示。具体的,当源数据为结构化的库表类型数据时,数源方用户可以在数据采集系统中选择本部门下已经注册的前置机,并勾选填写需要采集的源数据相关信息,并提交数据采集申请。数据采集系统可以获取用户设置的数据采集信息,并可以根据该数据采集信息,创建前置机到质检库,以及质检库到中心库的数据交换任务。
其中,库表类型数据采集,支持的数据库包括但不限于关系型数据库(例如,Mysql、Tdsql、Oracle、Tdata、PostgreSQL、TBase、SQL Server、Sybase、达梦、人大金仓等)、非关系型数据库(例如,MongoDB、Neo4j、KunDB、ArgoDB等)、时序数据库(例如,HANA、Cache等)、列式数据库(例如,Druid、Gbase 8t等)、大数据平台(例如,Hadoop、Hive等)等多种类型。
需要说明的是,源数据在交换到质检库之后,需要对源数据进行质检,并根据质检结果生成质检报告,最后需要将质检报告推送至数据采集系统,同时存储到质检库。只有数据质检合格后,才能进入数据配置环节,由数据运营人员对进入数据配置环节的数据采集申请进行检查并设置配置信息。当前置机中随机抽查的源数据通过检查后,指定主管审核人,并发送审核单到该主管审核人的业务系统,以使其对该数据采集申请进行审核。当审核通过后,将源数据从质检库搬运至中心库,以完成数据采集。若审核不通过,则返回数据配置环节,由数据运营人员重新配置并发布审核。
在另一个具体的实施方式中,非结构化数据的采集流程可以如图1D所示。具体的,当源数据为非结构化的文件类型数据时,用户可以在数据采集系统填写需要采集的源数据相关信息,并上传文件类型数据(例如,文档、图片、压缩包、音视频等)到质检库的OBS(Object Storage Service,对象存储服务),并提交数据采集申请。在提交申请之后,需要依次通过文件质检环节、数据配置环节和数据审核环节,直至经过主管审核人的审核确认后,将质检库中的文件类型数据搬运至中心库,完成整个文件类型数据采集过程。
此外,当源数据为非结构化的接口类型数据时,数源方用户可以在数据采集系统填写需要采集的源数据相关信息(例如,接口地址、接口出参、接口入参、IP端口等信息),并上传接口文档到质检库的OBS,并提交数据采集申请。在提交申请之后,同样需要依次通过文件质检环节、数据配置环节和数据审核环节,直至经过主管审核人的审核确认后,将质检库中的接口文档搬运至中心库,完成整个接口类型数据采集过程。
需要说明的是,针对其他类型的非结构化数据,可以采用与上述接口和文件类型数据相同的数据采集逻辑,从而可以实现对不同类型业务数据的高效采集。
可选的,针对数据审批文档和质检报告等重要信息,均可以采用区块链技术上链,以保证上链信息不可伪造和篡改,从而保证数据采集审批流程的可追溯,以及数据质量问题的可追溯。此外,针对敏感数据的采集可以采用加密传输方式,例如,针对采集过程中涉及的敏感隐私数据,例如,用户手机号、身份证号等信息,可以采用国密算法进行机密性处理,或者对重要业务数据生成SM3数据摘要,以对其进行完整性校验,从而可以极大提升数据采集过程的安全性。
在本实施例中,数据采集系统可以采用微服务架构、分布式部署和集中式管理,可以实现多源异构数据的自动化采集,可以实现对数据的及时、高效、稳定的传输与采集,可以实现数据资源的监控管理,可以形成集数据采集、数据管理和采集过程监控于一体的完整数据采集与管理的解决方案。
实施例二
图2为本发明实施例二提供的一种多源异构数据的采集装置的结构示意图。如图2所示,该装置可以包括:数据采集信息获取模块210、目标源数据交换模块220、目标源数据质检模块230和目标源数据存储模块240;其中,
数据采集信息获取模块210,用于根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对所述目标前置机的数据挂接设置操作,获取数据采集信息;
目标源数据交换模块220,用于根据所述数据采集信息,创建数据交换任务,并根据所述数据交换任务,将所述目标前置机中所述数据采集信息对应的目标源数据交换到预设质检库;
目标源数据质检模块230,用于对所述预设质检库中所述目标源数据进行质检,若检测到质检结果为质检合格,则获取所述目标源数据对应的主管审核人;
目标源数据存储模块240,用于生成所述目标源数据对应的审核单发送到所述主管审核人,若检测到所述主管审核人反馈的审核通过信息,则从所述预设质检库中获取所述目标源数据并存储到预设中心库。
本发明实施例的技术方案,通过根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对目标前置机的数据挂接设置操作,获取数据采集信息;然后,根据数据采集信息,创建数据交换任务,并根据数据交换任务,将目标前置机中数据采集信息对应的目标源数据交换到预设质检库;其次,对预设质检库中目标源数据进行质检,若检测到质检结果为质检合格,则获取目标源数据对应的主管审核人;最后,生成目标源数据对应的审核单发送到主管审核人,若检测到主管审核人反馈的审核通过信息,则从预设质检库中获取目标源数据并存储到预设中心库,通过预设的质检库和中心库,以及对源数据的质检和审核流程,可以实现对多源异构数据的有效采集,可以实现对采集过程的全流程监控管理,可以确保采集数据的质量。
可选的,所述多源异构数据的采集装置,还包括:
配置信息获取模块,用于根据用户针对当前前置机的注册请求,获取所述当前前置机对应的配置信息;
配置信息存储模块,用于根据所述当前前置机对应的配置信息,若检测到所述当前前置机成功通过审核,则存储所述当前前置机对应的配置信息,以完成对所述当前前置机的注册。
可选的,配置信息包括互联网地址、数据库类型、数据库名称、数据库端口、数据库账号和数据库密码中的至少一项。
可选的,所述多源异构数据的采集装置,还包括:
质检报告生成模块,用于根据质检结果生成质检报告,并将所述质检报告推送到所述用户,并将所述质检报告存储到所述预设质检库。
可选的,质检报告生成模块,包括:
异常质检项获取单元,用于当质检结果为质检不合格时,获取各异常质检项,以及各所述异常质检项对应的整改建议;
质检报告生成单元,用于根据所述质检结果,以及各所述异常质检项和对应的整改建议,生成质检报告。
可选的,目标源数据存储模块240,具体用于在所述目标前置机中随机采样预设数量的源数据,若检测到各所述源数据均满足预设质量检测条件且不包含预设敏感字符,则生成所述目标源数据对应的审核单发送到所述主管审核人。
可选的,所述数据采集信息包括源数据库、源表、表字段、接口地址、接口出入参数、源文件、数源单位和数源审核人中的至少一项。
本发明实施例所提供的多源异构数据的采集装置可执行本发明任意实施例所提供的多源异构数据的采集方法,具备执行方法相应的功能模块和有益效果。
需要说明的是,本实施例的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备30的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备30包括至少一个处理器31,以及与至少一个处理器31通信连接的存储器,如只读存储器(ROM)32、随机访问存储器(RAM)33等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器31可以根据存储在只读存储器(ROM)32中的计算机程序或者从存储单元38加载到随机访问存储器(RAM)33中的计算机程序,来执行各种适当的动作和处理。在RAM 33中,还可存储电子设备30操作所需的各种程序和数据。处理器31、ROM 32以及RAM 33通过总线34彼此相连。输入/输出(I/O)接口35也连接至总线34。
电子设备30中的多个部件连接至I/O接口35,包括:输入单元36,例如键盘、鼠标等;输出单元37,例如各种类型的显示器、扬声器等;存储单元38,例如磁盘、光盘等;以及通信单元39,例如网卡、调制解调器、无线通信收发机等。通信单元39允许电子设备30通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器31可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器31的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器31执行上文所描述的各个方法和处理,例如多源异构数据的采集方法。
在一些实施例中,多源异构数据的采集方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元38。在一些实施例中,计算机程序的部分或者全部可以经由ROM 32和/或通信单元39而被载入和/或安装到电子设备30上。当计算机程序加载到RAM 33并由处理器31执行时,可以执行上文描述的多源异构数据的采集方法的一个或多个步骤。备选地,在其他实施例中,处理器31可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行多源异构数据的采集方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种多源异构数据的采集方法,其特征在于,包括:
根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对所述目标前置机的数据挂接设置操作,获取数据采集信息;
根据所述数据采集信息,创建数据交换任务,并根据所述数据交换任务,将所述目标前置机中所述数据采集信息对应的目标源数据交换到预设质检库;
对所述预设质检库中所述目标源数据进行质检,若检测到质检结果为质检合格,则获取所述目标源数据对应的主管审核人;
生成所述目标源数据对应的审核单发送到所述主管审核人,若检测到所述主管审核人反馈的审核通过信息,则从所述预设质检库中获取所述目标源数据并存储到预设中心库。
2.根据权利要求1所述的方法,其特征在于,在根据用户针对已注册前置机的选择操作,获取目标前置机之前,还包括:
根据用户针对当前前置机的注册请求,获取所述当前前置机对应的配置信息;
根据所述当前前置机对应的配置信息,若检测到所述当前前置机成功通过审核,则存储所述当前前置机对应的配置信息,以完成对所述当前前置机的注册。
3.根据权利要求2所述的方法,其特征在于,配置信息包括互联网地址、数据库类型、数据库名称、数据库端口、数据库账号和数据库密码中的至少一项。
4.根据权利要求1所述的方法,其特征在于,在对所述预设质检库中所述目标源数据进行质检之后,还包括:
根据质检结果生成质检报告,并将所述质检报告推送到所述用户,并将所述质检报告存储到所述预设质检库。
5.根据权利要求4所述的方法,其特征在于,根据质检结果生成质检报告,包括:
当质检结果为质检不合格时,获取各异常质检项,以及各所述异常质检项对应的整改建议;
根据所述质检结果,以及各所述异常质检项和对应的整改建议,生成质检报告。
6.根据权利要求1所述的方法,其特征在于,生成所述目标源数据对应的审核单发送到所述主管审核人,包括:
在所述目标前置机中随机采样预设数量的源数据,若检测到各所述源数据均满足预设质量检测条件且不包含预设敏感字符,则生成所述目标源数据对应的审核单发送到所述主管审核人。
7.根据权利要求1所述的方法,其特征在于,所述数据采集信息包括源数据库、源表、表字段、接口地址、接口出入参数、源文件、数源单位和数源审核人中的至少一项。
8.一种多源异构数据的采集装置,其特征在于,包括:
数据采集信息获取模块,用于根据用户针对已注册前置机的选择操作,获取目标前置机,并根据用户针对所述目标前置机的数据挂接设置操作,获取数据采集信息;
目标源数据交换模块,用于根据所述数据采集信息,创建数据交换任务,并根据所述数据交换任务,将所述目标前置机中所述数据采集信息对应的目标源数据交换到预设质检库;
目标源数据质检模块,用于对所述预设质检库中所述目标源数据进行质检,若检测到质检结果为质检合格,则获取所述目标源数据对应的主管审核人;
目标源数据存储模块,用于生成所述目标源数据对应的审核单发送到所述主管审核人,若检测到所述主管审核人反馈的审核通过信息,则从所述预设质检库中获取所述目标源数据并存储到预设中心库。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的多源异构数据的采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的多源异构数据的采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310601264.1A CN116628061A (zh) | 2023-05-25 | 2023-05-25 | 一种多源异构数据的采集方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310601264.1A CN116628061A (zh) | 2023-05-25 | 2023-05-25 | 一种多源异构数据的采集方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628061A true CN116628061A (zh) | 2023-08-22 |
Family
ID=87591517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310601264.1A Pending CN116628061A (zh) | 2023-05-25 | 2023-05-25 | 一种多源异构数据的采集方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628061A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891820A (zh) * | 2024-03-15 | 2024-04-16 | 北京电科智芯科技有限公司 | 多源异构数据存储方法、装置、设备、芯片及存储介质 |
-
2023
- 2023-05-25 CN CN202310601264.1A patent/CN116628061A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891820A (zh) * | 2024-03-15 | 2024-04-16 | 北京电科智芯科技有限公司 | 多源异构数据存储方法、装置、设备、芯片及存储介质 |
CN117891820B (zh) * | 2024-03-15 | 2024-05-14 | 北京电科智芯科技有限公司 | 多源异构数据存储方法、装置、设备、芯片及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116628061A (zh) | 一种多源异构数据的采集方法、装置、设备及存储介质 | |
CN111915143A (zh) | 一种基于智能合约的复杂产品装配管控系统 | |
CN115686280A (zh) | 深度学习模型管理系统、方法、计算机设备及存储介质 | |
CN115344888A (zh) | 数据访问方法、装置、电子设备及存储介质 | |
CN110851485A (zh) | 社交关系的挖掘方法及装置、计算机设备与可读介质 | |
CN110599368A (zh) | Dbm智能楼宇管理工具 | |
Gang et al. | Analysis of the information management system in the manufacturing process of cigarette enterprises using fuzzy AHP | |
CN109617755A (zh) | 接入系统的验收方法及装置 | |
CN117951341A (zh) | 基于区块链的业务处理方法、装置、设备、介质及产品 | |
CN112182065A (zh) | 基于自动采集和多源导入的资产管理系统及方法 | |
CN115687406B (zh) | 一种调用链数据的采样方法、装置、设备及存储介质 | |
US9830568B2 (en) | Controlling and managing identity access risk | |
US10346903B2 (en) | Improper financial activity detection tool | |
CN116305324A (zh) | 一种主机安全防护方法、装置、设备及存储介质 | |
CN110457897A (zh) | 一种基于通信协议与sql语法的数据库安全检测方法 | |
CN115934717A (zh) | 数据处理的方法、装置、电子设备和存储介质 | |
CN114723548A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
CN111062042A (zh) | 一种政务数据自动调用系统及方法 | |
Sun et al. | Analysis of on-site evaluation methods of network security in the evaluation of information security level protection | |
CN117251420A (zh) | 配网缺陷文件自动督察方法、装置、电子设备和存储介质 | |
CN117609595A (zh) | 异常位置定位方法、装置、电子设备及存储介质 | |
CN118246419A (zh) | 一种针对应用的报表生成方法、装置、设备、存储介质及程序产品 | |
CN115757095A (zh) | 一种产品测试方法、系统、电子设备及存储介质 | |
CN115829771A (zh) | 一种财务核算方法、装置、电子设备及存储介质 | |
CN118672860A (zh) | 一种Rds数据库大数据量表数据监控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |