CN114860847B - 应用于大数据平台的数据链路处理方法、系统及介质 - Google Patents
应用于大数据平台的数据链路处理方法、系统及介质 Download PDFInfo
- Publication number
- CN114860847B CN114860847B CN202210747183.8A CN202210747183A CN114860847B CN 114860847 B CN114860847 B CN 114860847B CN 202210747183 A CN202210747183 A CN 202210747183A CN 114860847 B CN114860847 B CN 114860847B
- Authority
- CN
- China
- Prior art keywords
- data
- information
- link
- calling
- uploading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种应用于大数据平台的数据链路处理方法、系统及介质,本申请涉及数据处理技术领域,该方法包括:ETL工具将源数据同步至大数据平台时,第一源数据捕获插件捕获第一同步任务,并对其进行处理得到第一上传信息;大数据平台将源数据同步至应用数据库时,第二源数据捕获插件捕获第二同步任务,并对其进行处理得到第二上传信息;应用系统从应用数据库调用源数据时,数据链路识别插件捕获调用任务及采集调用信息,并对其进行处理得到链路上传信息;可视化展示系统对接收到的第一上传信息、第二上传信息以及链路上传信息进行归并以生成数据流转链路图。本申请实施例可提高链路数据管理的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种应用于大数据平台的数据链路处理方法、系统及介质。
背景技术
现有随着物联网、大数据、云计算等技术的迅猛发展,使人类社会中的数据种类和规模得到了前所未有的增长,标志着大数据时代已经正式到来。丰富的数据资源是大数据的重要前提,组织或企业面临的数据类型复杂,数据量大,很难理清数据在大数据平台及其应用的所有流向,很难梳理出数据的调用关系及路径流转关系,不利于组织或企业对链路数据进行管理,链路数据管理的效率较低。
发明内容
本发明实施例提供了一种应用于大数据平台的数据链路处理方法、系统及介质,旨在解决现有链路数据管理效率较低的问题。
第一方面,本发明实施例提供了一种应用于大数据平台的数据链路处理方法,其包括:
ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;
所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;
所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;
可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
第二方面,本发明实施例还提供了一种应用于大数据平台的数据链路处理系统,其包括配置于ETL工具中的第一捕获处理单元,配置于大数据平台中的第二捕获处理单元,配置于应用系统中的第三捕获处理单元以及配置于可视化展示系统中的归并生成单元,其中:
所述第一捕获处理单元用于ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;
所述第二捕获处理单元用于所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;
所述第三捕获处理单元用于所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;
所述归并生成单元用于可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
第三方面,本发明实施例还提供了一种应用于大数据平台的数据链路处理系统,其包括ETL工具、大数据平台、应用系统以及可视化展示系统,所述ETL工具、大数据平台、应用系统以及可视化展示系统均包括存储器及处理器,所述存储器上存储有计算机程序,所述ETL工具、大数据平台、应用系统以及可视化展示系统的处理器执行各自的所述计算机程序时共同实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被多个处理器执行时可实现上述方法。
本发明实施例提供了一种应用于大数据平台的数据链路处理方法、系统及介质。其中,所述方法包括:ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。在本发明实施例的技术方案中,先通过对ETL工具将源数据同步至大数据平台时的第一同步任务进行处理得到第一上传信息;再对大数据平台将源数据同步至应用数据库时的第二同步任务进行处理得到第二上传信息;然后对应用系统调用应用数据库中的源数据时的调用任务进行处理得到调用链路信息;最后可视化展示系统对上传的第一上传信息、第二上传信息以及链路上传信息进行归并生成数据流转链路图,理清了数据的所有流向,梳理出了数据的调用关系及路径流转关系,从而提高了链路数据管理的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种应用于大数据平台的数据链路处理系统的场景示意图;
图2为本发明实施例提供的一种应用于大数据平台的数据链路处理方法的流程示意图;
图3为本发明实施例提供的一种应用于大数据平台的数据链路处理方法的子流程示意图;
图4为本发明实施例提供的一种应用于大数据平台的数据链路处理系统的示意性框图;
图5为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为 “当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的应用于大数据平台的数据链路处理系统的场景示意图。该应用于大数据平台的数据链路处理系统包括业务系统、ETL工具、大数据平台、应用系统以及可视化展示系统。在本实施例中,业务系统与ETL工具通信,以获取与业务系统相对应的业务数据库中的源数据;ETL工具与大数据平台进行通信,以将源数据同步至大数据平台的数据仓库中;大数据平台与应用系统进行通信,以将源数据同步至与应用系统相对应的应用数据库中,方便应用系统从应用数据库中调用源数据;ETL工具、大数据平台以及应用系统均与可视化展示系统通信,以将第一上传信息、第二上传信息以及链路上传信息上传至可视化展示系统,可视化展示系统对接收到的第一上传信息、第二上传信息以及链路上传信息进行归并生成数据流转链路图。需要说明的是,在发明实施例中,在ETL工具、大数据平台以及应用系统中以Hook方式内置有第一源数据捕获插件、所述第二源数据捕获插件以及所述数据链路识别插件,其中,Hook方式为挂钩子方式。还要说明的是,在本发明实施例中,通过对第一上传信息、第二上传信息以及链路上传信息进行归并生成数据流转链路图,理清了数据的所有流向,梳理出了数据的调用关系及路径流转关系,从而提高了链路数据管理的效率。
图2是本发明实施例提供的应用于大数据平台的数据链路处理方法的流程示意图。如图2所示,该方法包括以下步骤S100-S130。
S100、ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息。
本发明实施例中,用户在业务系统进行源数据填报时,所述业务系会将所述源数据存储至业务数据库中,其中,所述源数据包括姓名、手机号、身份证号以及业务数据等信息。可理解地,所述业务数据根据所述业务系统的不同而有所不同,例如,若所述业务系统为用户积分系统时,则所述业务信息为用户积分相关信息。所述源数据保存至所述业务数据库之后,ETL工具将所述源数据同步至与大数据平台相对应的数据仓库时,以Hook方式置于所述ETL工具中的第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息,得到所述第一上传信息之后,所述第一源数据捕获插件还会将所述第一上传信息上传至所述可视化展示系统。
在某些实施例,例如本实施例中,如图3所示,所述步骤S100可包括步骤S101-S105。
S101、对所述第一同步任务进行解析得到所述源数据;
S102、通过数据识别方法对所述源数据进行识别以确定数据类别;
S103、判断所述数据类别是否为个人隐私数据,若所述数据类别为个人隐私数据,则执行步骤S104,否则执行步骤S105;
S104、对所述源数据进行标识、分类以及分级处理得到第一上传信息;
S105、将所述源数据标记为无特征数据。
本发明实施例中,对所述第一同步任务进行解析以获取所述源数据;通过数据识别方法对所述源数据进行识别以确定数据类别,其中,所述数据识别方法为通过定义的个人隐私数据具体类型的正则表达式、字典、关键字识别规则对所述源数据进行匹配得到匹配分值,将所述匹配分值最高的类型作为所述源数据的数据类别;判断所述数据类别是否为个人隐私数据;若所述数据类别为个人隐私数据,表明需要对所述源数据进行处理,则对所述源数据进行标识、分类以及分级处理得到第一上传信息;反之,表明所述源数据不为个人隐私数据,则通过无特征数据标识符将所述源数据标记为无特征数据。需要说明的是,在本发明实施例中,个人隐私数据类型包括身份证、手机号码、家庭地址、电子邮箱、车牌号、公积金账号以及社保账号等类型;通过对数据标识符、数据分类符以及数据分级符对所述源数据处理的,例如,若所述源数据为身份证号码,则对应的所述数据标识符为“身份证”,所述数据分类符为“个人隐私类信息”,所述数据分级符为“保密级”;还例如,若所述源数据为用户积分,则对应的所述数据标识符为“用户积分”,所述数据分类符为“个人隐私类信息”,所述数据分级符为“保密级”。还需要说明的是,在其他发明实施例中,也可通过训练好的识别模型对所述源数据进行识别以确定数据类别。
S110、所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息。
本发明实施例中,所述ETL工具将所述源数据从所述业务数据库同步至所述数据仓库之后,所述大数据平台会将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库,在同步过程中,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行解析、识别、标识、分类以及分级处理得到第二上传信息,而具体的处理过程与对所述第一同步任务进行处理的过程类似,在此不再赘述。需要说明的是,在本发明实施例中,所述第二源数据捕获插件及所述第一源数据捕获插件均为源数据捕获插件,用于数据同步过程中,获取源数据;可理解地,所述第一上传信息及所述第二上传信息均包括数据标识信息、数据分类信息以及所述数据分级信息。还需要说明的是,在得到所述第二上传信息之后,所述第二源数据捕获插件会将所述第二上传信息上传至所述可视化展示系统。
S120、所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息。
本发明实施例中,所述大数据平台将所述源数据从所述数据仓库同步至所述应用数据库之后,所述应用系统会对所述应用数据库中的所述源数据进行调用,在调用过程中,数据链路识别插件捕获调用任务,对所述调用任务进行解析、识别、标识、分类以及分级处理得到第三上传信息,可理解地,具体的处理过程与对所述第一同步任务及所述第二同步任务进行处理的过程类似,在此不再赘述。在调用任务过程中,还会采集调用信息,其中,所述调用信息包括请求和访问过程中所涉及到的接口字段名、接口字段值以及接口编号等信息,并通过节点及链路ID对所述调用信息进行标识得到标识调用信息,之后再设置所述标识调用信息中所述节点的上下游关系得到调用链路信息。需要说明的是,在本发明实施例中,通过链路ID可将相关节点进行强关联,以得到所述业务数据库至所述业务系统的所有调用链路信息,并将所述调用链路信息及所述第三上传信息作为链路上传信息上传至所述可视化展示系统。
S130、可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
本发明实施例中,所述可视化展示系统对接收到的所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图,归并生成数据流转链路图的具体过程如下,通过以Hook方式内置在所述可视化展示系统中的数据解析插件依次对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行解析得到第一上传数据组、第二上传数据组以及链路上传数据组;将所述第一上传数据组、所述第二上传数据组以及所述链路上传数据组中的数据类别、数据标识、数据分类信息以及数据分级信息进行比对得到比对结果;若所述比对结果为预设比对结果,则将所述数据类别、数据标识、数据分类信息以及数据分级信息规并为同一类得到同步链路信息,其中,所述预设比对结果为比对内容一致;可理解地,若所述比对结果不为所述预设比对结果,则将涉及到的所述数据类别、数据标识、数据分类信息以及数据分级信息舍弃;
最后,将所述链路上传数据组中的调用链路信息与所述同步链路信息进行拼接生成数据流转链路图,该数据流转链路图可完整展示从所述业务数据库同步至所述数据仓库,再由所述数据仓库同步所述应用数据库,最后由所述业务系统调用的整个数据流转过程。需要说明的是,在本发明实施例中,生成所述数据流转链路图之后,所述可视化展示系统对所述数据流转链路图进行展示,并将所述数据流转链路图进行保存,在实际应用中,可保存为预设格式,例如.csv格式文件,也可将所述流转图进行解析之后以字段及字段值的方式按数据流转顺序保存至数据库。
图4是本发明实施例提供的一种应用于大数据平台的数据链路处理系统70的示意性框图。如图4所示,对应于以上应用于所述ETL工具、大数据平台、应用系统以及可视化展示系统的应用于大数据平台的数据链路处理方法。该应用于大数据平台的数据链路处理系统70包括用于执行上述应用于大数据平台的数据链路处理方法的单元。具体地,请参阅图4,该应用于大数据平台的数据链路处理系统70包括配置于ETL工具10中的第一捕获处理单元101,配置于大数据平台20中的第二捕获处理单元201,配置于应用系统30中的第三捕获处理单元301以及配置于可视化展示系统40中的归并生成单元401。
其中,所述第一捕获处理单元101用于ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;
所述第二捕获处理单元201用于所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;所述第三捕获处理单元301用于所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;所述归并生成单元401用于可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
在某些实施例,例如本实施例中,所述第一捕获处理单元101包括第一解析单元、识别单元、判断单元以及处理单元。
其中,所述第一解析单元用于对所述第一同步任务进行解析得到所述源数据;所述识别单元用于通过数据识别方法对所述源数据进行识别以确定数据类别;所述判断单元用于判断所述数据类别是否为个人隐私数据;所述处理单元用于若所述数据类别为个人隐私数据,则对所述源数据进行标识、分类以及分级处理得到第一上传信息。
在某些实施例,例如本实施例中,所述识别单元包括识别子单元及作为单元。
其中,所述识别子单元用于通过定义的个人隐私数据具体类型的正则表达式、字典、关键字识别规则对所述源数据进行匹配得到匹配分值;所述作为单元将所述匹配分值最高的类型作为所述源数据的数据类别。
在某些实施例中,例如本实施例中,所述第三捕获处理单元301包括标识单元及设置单元。
其中,所述标识单元用于采集所述调用任务过程中的调用信息,并通过节点及链路ID对所述调用信息进行标识得到标识调用信息;所述设置单元用于设置所述标识调用信息中所述节点的上下游关系得到调用链路信息。
在某些实施例中,例如本实施例中,所述归并生成单元401包括第二解析单元、比对单元、归并单元以及生成单元。
其中,所述第二解析单元用于依次对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行解析得到第一上传数据组、第二上传数据组以及链路上传数据组;所述比对单元用于将所述第一上传数据组、所述第二上传数据组以及所述链路上传数据组中的数据类别、数据标识、数据分类信息以及数据分级信息进行比对得到比对结果;所述归并单元用于若所述比对结果为预设比对结果,则将所述数据类别、数据标识、数据分类信息以及数据分级信息进行归并得到同步链路信息;所述生成单元用于根据所述链路上传数据组中的调用链路信息及所述同步链路信息生成数据流转链路图。
在某些实施例中,例如另一实施例中,所述应用于大数据平台的数据链路处理系统70还包括配置于所述可视化展示系统中的展示保存单元。
其中,所述展示保存单元用于所述可视化展示系统对所述数据流转链路图进行展示,并将所述数据流转链路图进行保存。
上述应用于大数据平台的数据链路处理系统可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备900可以为上述ETL工具、大数据平台、应用系统以及可视化展示系统。
参阅图5,该计算机设备900包括通过系统总线901连接的处理器902、存储器和接口907,其中,存储器可以包括非易失性存储介质903和内存储器904。
该非易失性存储介质903可存储操作系统9031和计算机程序9032。该计算机程序9032被执行时,可使得处理器902执行一种应用于大数据平台的数据链路处理方法。
该处理器902用于提供计算和控制能力,以支撑整个计算机设备900的运行。
该内存储器904为非易失性存储介质903中的计算机程序9032的运行提供环境。
该接口905用于与其它设备进行通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备900的限定,具体的计算机设备900可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述ETL工具、大数据平台、应用系统以及可视化展示系统中各自的处理器902用于运行存储在各自存储器中的计算机程序9032,以实现如下步骤:
ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
在某些实施例,例如本实施例中,所述处理器902在实现所述对所述第一同步任务进行处理得到第一上传信息步骤时,具体实现如下步骤:对所述第一同步任务进行解析得到所述源数据;通过定义的个人隐私数据具体类型的正则表达式、字典、关键字识别规则对所述源数据进行匹配得到匹配分值;将所述匹配分值最高的类型作为所述源数据的数据类别;判断所述数据类别是否为个人隐私数据;若所述数据类别为个人隐私数据,则对所述源数据进行标识、分类以及分级处理得到第一上传信息。
在某些实施例,例如本实施例中,所述处理器902在实现所述采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息步骤时,具体实现如下步骤:采集所述调用任务过程中的调用信息,并通过节点及链路ID对所述调用信息进行标识得到标识调用信息;设置所述标识调用信息中所述节点的上下游关系得到调用链路信息。
在某些实施例,例如本实施例中,所述处理器902在实现所述对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图步骤时,具体实现如下步骤:依次对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行解析得到第一上传数据组、第二上传数据组以及链路上传数据组;将所述第一上传数据组、所述第二上传数据组以及所述链路上传数据组中的数据类别、数据标识、数据分类信息以及数据分级信息进行比对得到比对结果;若所述比对结果为预设比对结果,则将所述数据类别、数据标识、数据分类信息以及数据分级信息进行归并得到同步链路信息;根据所述链路上传数据组中的调用链路信息及所述同步链路信息生成数据流转链路图。
在某些实施例,例如本实施例中,处理器902在实现所述可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图的步骤之后,具体实现还包括如下步骤:所述可视化展示系统对所述数据流转链路图进行展示,并将所述数据流转链路图进行保存。
应当理解,在本申请实施例中,处理器902可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器902还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行上述应用于大数据平台的数据链路处理方法的任意实施例。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种应用于大数据平台的数据链路处理方法,其特征在于,包括:
ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;
所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;
所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;
可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
2.根据权利要求1所述的应用于大数据平台的数据链路处理方法,其特征在于,所述对所述第一同步任务/所述第二同步任务/所述调用任务进行处理得到第一上传信息/第二上传信息/第三上传信息,包括:
对所述第一同步任务/所述第二同步任务/所述调用任务进行解析得到所述源数据;
通过数据识别方法对所述源数据进行识别以确定数据类别;
判断所述数据类别是否为个人隐私数据;
若所述数据类别为个人隐私数据,则对所述源数据进行标识、分类以及分级处理得到第一上传信息/第二上传信息/第三上传信息。
3.根据权利要求2所述的应用于大数据平台的数据链路处理方法,其特征在于,所述通过数据识别方法对所述源数据进行识别以确定数据类别,包括:
通过定义的个人隐私数据具体类型的正则表达式、字典、关键字识别规则对所述源数据进行匹配得到匹配分值;
将所述匹配分值最高的类型作为所述源数据的数据类别。
4.根据权利要求1所述的方法,其特征在于,所述采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,包括:
采集所述调用任务过程中的调用信息,并通过节点及链路ID对所述调用信息进行标识得到标识调用信息;
设置所述标识调用信息中所述节点的上下游关系得到调用链路信息。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图,包括:
依次对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行解析得到第一上传数据组、第二上传数据组以及链路上传数据组;
将所述第一上传数据组、所述第二上传数据组以及所述链路上传数据组中的数据类别、数据标识、数据分类信息以及数据分级信息进行比对得到比对结果;
若所述比对结果为预设比对结果,则将所述数据类别、数据标识、数据分类信息以及数据分级信息进行归并得到同步链路信息;
根据所述链路上传数据组中的调用链路信息及所述同步链路信息生成数据流转链路图。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述可视化展示系统对所述数据流转链路图进行展示,并将所述数据流转链路图进行保存。
7.根据权利要求1所述的方法,其特征在于,所述第一源数据捕获插件、所述第二源数据捕获插件以及所述数据链路识别插件均以Hook方式置于所述ETL工具、所述大数据平台以及所述应用系统中运行。
8.一种应用于大数据平台的数据链路处理系统,其特征在于,包括:配置于ETL工具中的第一捕获处理单元,配置于大数据平台中的第二捕获处理单元,配置于应用系统中的第三捕获处理单元以及配置于可视化展示系统中的归并生成单元,其中:
所述第一捕获处理单元用于ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;
所述第二捕获处理单元用于所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;
所述第三捕获处理单元用于所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;
所述归并生成单元用于可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
9.一种应用于大数据平台的数据链路处理系统,其特征在于,包括ETL工具、大数据平台、应用系统以及可视化展示系统,所述ETL工具、大数据平台、应用系统以及可视化展示系统均包括存储器及处理器,所述存储器上存储有计算机程序,所述ETL工具、大数据平台、应用系统以及可视化展示系统的处理器执行各自的所述计算机程序时共同实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被多个处理器执行时可实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210747183.8A CN114860847B (zh) | 2022-06-29 | 2022-06-29 | 应用于大数据平台的数据链路处理方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210747183.8A CN114860847B (zh) | 2022-06-29 | 2022-06-29 | 应用于大数据平台的数据链路处理方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114860847A CN114860847A (zh) | 2022-08-05 |
CN114860847B true CN114860847B (zh) | 2022-09-27 |
Family
ID=82627014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210747183.8A Active CN114860847B (zh) | 2022-06-29 | 2022-06-29 | 应用于大数据平台的数据链路处理方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860847B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815378A (zh) * | 2019-01-31 | 2019-05-28 | 三盟科技股份有限公司 | 一种基于元数据链路的数据追踪方法及系统 |
CN110309034A (zh) * | 2019-06-13 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 业务流转链路视图生成方法及装置 |
CN110347708A (zh) * | 2019-06-28 | 2019-10-18 | 深圳市元征科技股份有限公司 | 一种数据处理方法以及相关设备 |
CN111611458A (zh) * | 2020-06-09 | 2020-09-01 | 普元信息技术股份有限公司 | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 |
CN113468159A (zh) * | 2021-07-19 | 2021-10-01 | 广东电网有限责任公司 | 一种数据应用全链路管控方法及系统 |
CN113792330A (zh) * | 2021-08-13 | 2021-12-14 | 唯品会(广州)软件有限公司 | 一种敏感数据追踪方法和系统 |
CN114356692A (zh) * | 2021-12-08 | 2022-04-15 | 上海浦东发展银行股份有限公司 | 一种应用监控链路的可视化处理方法、装置及存储介质 |
CN114422564A (zh) * | 2022-01-18 | 2022-04-29 | 深圳红途科技有限公司 | 访问数据审计溯源方法、装置、计算机设备及存储介质 |
CN114666238A (zh) * | 2022-03-16 | 2022-06-24 | 平安科技(深圳)有限公司 | 一种数据链路的可视化监控方法、系统、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9160647B2 (en) * | 2013-11-20 | 2015-10-13 | Litepoint Corporation | System and method for enabling testing a data link of a data packet signal transceiver |
CN110633323B (zh) * | 2019-09-16 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 业务数据存储方法、装置、存储介质和计算机设备 |
US11291080B2 (en) * | 2020-04-30 | 2022-03-29 | Apple Inc. | Link quality reporting enhancements for new radio |
CN114139178A (zh) * | 2021-11-26 | 2022-03-04 | 杭州安恒信息技术股份有限公司 | 基于数据链路的数据安全监测方法、装置和计算机设备 |
-
2022
- 2022-06-29 CN CN202210747183.8A patent/CN114860847B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815378A (zh) * | 2019-01-31 | 2019-05-28 | 三盟科技股份有限公司 | 一种基于元数据链路的数据追踪方法及系统 |
CN110309034A (zh) * | 2019-06-13 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 业务流转链路视图生成方法及装置 |
CN110347708A (zh) * | 2019-06-28 | 2019-10-18 | 深圳市元征科技股份有限公司 | 一种数据处理方法以及相关设备 |
CN111611458A (zh) * | 2020-06-09 | 2020-09-01 | 普元信息技术股份有限公司 | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 |
CN113468159A (zh) * | 2021-07-19 | 2021-10-01 | 广东电网有限责任公司 | 一种数据应用全链路管控方法及系统 |
CN113792330A (zh) * | 2021-08-13 | 2021-12-14 | 唯品会(广州)软件有限公司 | 一种敏感数据追踪方法和系统 |
CN114356692A (zh) * | 2021-12-08 | 2022-04-15 | 上海浦东发展银行股份有限公司 | 一种应用监控链路的可视化处理方法、装置及存储介质 |
CN114422564A (zh) * | 2022-01-18 | 2022-04-29 | 深圳红途科技有限公司 | 访问数据审计溯源方法、装置、计算机设备及存储介质 |
CN114666238A (zh) * | 2022-03-16 | 2022-06-24 | 平安科技(深圳)有限公司 | 一种数据链路的可视化监控方法、系统、设备及介质 |
Non-Patent Citations (2)
Title |
---|
VisFlow - Web-based Visualization Framework for Tabular Data with a Subset Flow Model;Bowen Yu 等;《IEEE Transactions on Visualization and Computer Graphics》;20160808;第23卷(第1期);251-260 * |
基于电力数据流转链路监控体系研究与实践;黄永会;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20220415(第4期);C042-156 * |
Also Published As
Publication number | Publication date |
---|---|
CN114860847A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339071B (zh) | 一种多源异构数据的处理方法及装置 | |
CN107341220B (zh) | 一种多源数据融合方法和装置 | |
CN109656999B (zh) | 大数据量的数据同步方法、设备、存储介质及装置 | |
WO2020056968A1 (zh) | 数据降噪方法、装置、计算机设备和存储介质 | |
CN110956269A (zh) | 数据模型的生成方法、装置、设备以及计算机存储介质 | |
CN107918618A (zh) | 数据处理方法及装置 | |
CN111666298A (zh) | 基于flink的用户服务类别检测方法、装置、计算机设备 | |
WO2018033052A1 (zh) | 一种评估用户画像数据的方法及系统 | |
WO2019019767A1 (zh) | 客户身份信息处理方法、装置、存储介质和计算机设备 | |
CN110555482A (zh) | 基于人工智能的低俗图片识别方法、装置及电子设备 | |
CN111400361A (zh) | 数据实时存储方法、装置、计算机设备和存储介质 | |
CN110471945A (zh) | 活跃数据的处理方法、系统、计算机设备和存储介质 | |
CN110784377A (zh) | 一种多云环境下的云监控数据统一管理的方法 | |
CN110807050B (zh) | 性能分析方法、装置、计算机设备及存储介质 | |
CN107871055B (zh) | 一种数据分析方法和装置 | |
CN116662875A (zh) | 接口测绘方法及装置 | |
CN113949881B (zh) | 一种基于智慧城市数据的业务处理方法及系统 | |
CN112347201B (zh) | 信息处理方法、信息处理装置及终端设备 | |
CN114049089A (zh) | 一种构建政务大数据平台的方法及系统 | |
CN111651522B (zh) | 一种数据同步方法及装置 | |
CN114860847B (zh) | 应用于大数据平台的数据链路处理方法、系统及介质 | |
CN111737371A (zh) | 可动态预测的数据流量检测分类方法及装置 | |
CN112364005A (zh) | 数据同步方法、装置、计算机设备及存储介质 | |
CN111966339A (zh) | 埋点参数的录入方法、装置、计算机设备和存储介质 | |
CN115328734A (zh) | 跨服务的日志处理方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |