CN117033410A - 一种数据的血缘关系的管理方法和系统 - Google Patents

一种数据的血缘关系的管理方法和系统 Download PDF

Info

Publication number
CN117033410A
CN117033410A CN202310920275.6A CN202310920275A CN117033410A CN 117033410 A CN117033410 A CN 117033410A CN 202310920275 A CN202310920275 A CN 202310920275A CN 117033410 A CN117033410 A CN 117033410A
Authority
CN
China
Prior art keywords
data
blood
analysis
acquisition
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310920275.6A
Other languages
English (en)
Inventor
耿旭涵
李晓亮
徐健
赵辉
刘哲文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202310920275.6A priority Critical patent/CN117033410A/zh
Publication of CN117033410A publication Critical patent/CN117033410A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开提供一种交易数据的血缘关系的管理方法和装置,涉及大数据分析技术领域。该方法的具体实施方式包括:接收交易数据的血缘关系分析请求;其中,血缘关系分析请求包括一个或多个数据源的数据源类型;根据数据源类型,确定交易数据的采集方案;扫描各个数据源,按照与数据源对应的采集方案,离线采集血缘关系分析请求的初始数据;其中,初始数据包括数据源标识;根据数据源标识对初始数据进行分流,提取交易数据的血缘关系,将血缘关系进行展示。该实施方式能够实现交易数据的合规流通,提升血缘关系的分析效率、准确度和完整度,并精准定位故障快速恢复,规避局部异常带来的阻碍,保障大数据系统的稳定运行。

Description

一种数据的血缘关系的管理方法和系统
技术领域
本公开涉及大数据分析技术领域,尤其涉及一种数据的血缘关系的管理方法和系统。
背景技术
血缘关系是指数据之间的链路关系,可以表征数据的产生、加工、新生直至消亡的整个流转过程,使得大数据的开发可以为数据使用提供助力,帮助数据使用者对庞大、复杂、混乱的数据进行高效管理,从而有效监管数据、把控数据风险以提高数据的使用价值。
现有的血缘关系分析过程中,通常采用日志数据分析、开源工具分析等方式,对日志数据进行处理分析血缘关系;或者利用Atlas、Nifi等开源工具根据预先设置的元数据抽取数据,并分析数据之间的血缘关系。
然而,由于日志数据通常类型多样、数据量庞大复杂,使得分析数据噪音较大、完整度低,导致血缘关系准确度低下;而开源工具支持的数据源类型有限,部分缺失数据直接忽略无法处理导致信息不完整,同时元数据信息也过于片面,导致血缘关系分析范围受限且完整度较低。进一步地,当分析异常或者数据处理故障时,现有的分析方法皆无法确定故障原因,导致分析长时间受阻,整个数据处理链崩溃,妨碍其它数据任务的执行。
发明内容
有鉴于此,本公开实施例提供一种交易数据的血缘关系的管理方法和系统,能够解决血缘关系准确度低下;分析范围受限且完整度较低,无法确定故障原因、导致分析长时间受阻、整个数据处理链崩溃、妨碍其它数据任务的执行的问题。
为实现上述目的,根据本公开的一方面,提供了一种交易数据的血缘关系的管理方法,包括:
接收交易数据的血缘关系分析请求;其中,所述血缘关系分析请求包括一个或多个数据源的数据源类型;
根据所述数据源类型,确定所述交易数据的采集方案;
扫描各个所述数据源,按照与所述数据源对应的采集方案,离线采集所述血缘关系分析请求的初始数据;其中,所述初始数据包括数据源标识;
根据所述数据源标识对所述初始数据进行分流,提取所述交易数据的血缘关系,将所述血缘关系进行展示。
根据本公开的另一方面,提供了一种交易数据的血缘关系的管理系统,包括:
接收模块,用于接收交易数据的血缘关系分析请求;其中,所述血缘关系分析请求包括一个或多个数据源的数据源类型;
数据处理模块,用于根据所述数据源类型,确定所述交易数据的采集方案;
采集模块,用于扫描各个所述数据源,按照与所述数据源对应的采集方案,离线采集所述血缘关系分析请求的初始数据;其中,所述初始数据包括数据源标识;
展示模块,用于根据所述数据源标识对所述初始数据进行分流,提取所述交易数据的血缘关系,将所述血缘关系进行展示。
根据本公开的再一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行所述交易数据的血缘关系的管理方法。
根据本公开实施例的还一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述交易数据的血缘关系的管理方法。
本申请实施例中提供的一个或多个技术方案,通过统一接口对接不同类型的数据源,采集初始数据并分流提取血缘关系,并以需要的形式进行展示,可以实现交易数据的合规流通,提升血缘关系的分析效率和分析准确度,精准定位故障流程快速恢复,规避局部异常带来的阻碍,保障大数据系统的稳定运行,进而保证血缘关系的合规管理和大数据的安全使用的技术效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的交易数据的血缘关系的管理方法的流程图;
图2示出了根据本公开示例性实施例的采集方案的确定方法的流程图;
图3示出了根据本公开示例性实施例的初始数据的采集方法的流程图;
图4示出了根据本公开示例性实施例的血缘关系的提取方法的流程图;
图5示出了根据本公开示例性实施例的异常故障的定位方法的流程图;
图6示出了根据本公开示例性实施例的血缘关系的查询方法的流程图;
图7示出了根据本公开示例性实施例的交易数据的血缘关系的管理系统的示意性框图;
图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
Hive:是基于Hadoop分布式架构的一个数据仓库工具,用于对数据进行提取、转化、加载(Extract-Transform-Load,即ETL)等处理。
Spark:是一个快速、通用、可扩展的大数据处理框架,可以提供高效的数据处理和分析能力,支持大规模数据的处理、机器学习、图计算和流式处理等任务。
Flink:是一个开源的大数据处理框架,同样支持高性能、可扩展和容错的大规模数据处理,可以实现流式处理、批处理和迭代处理等多种计算模式。
GP:即GreenPlum,是一个在开源平台的基础上采用海量并行处理架构的关系型数据库,具有大规模数据分析任务处理能力。
数据血缘关系的分析使得大数据的使用价值正得到进一步地提升,但是,随着数据来源的多样化和数据量的爆发式增长,基于日志数据的血缘分析格式繁杂、数据量庞大且信息丢失严重,使得血缘关系的处理所需的算力成本飙升,同时准确度低下;基于开源工具的血缘分析依赖于元数据的准确构建,且分析能力有限仅支持特定类型的数据源,也对缺失或者保密字段(比如,“****”等)无计可施,导致分析阻滞、妨碍其它数据任务的执行;并且,实时分析存在数据异常或者分析故障时,无法精准定位故障原因,不仅会导致分析受阻效率低下,还会中断大数据系统的运行。综上皆会导致血缘关系的分析和管理成本剧增,无法把控交易数据的数据风险,使得大数据的使用安全性较差。
通过本公开的交易数据的血缘关系的管理方法,通过统一接口对接不同类型的来源数据库或者数据平台,离线校验交易数据的合规性并转换为预设格式后、分流抽取血缘关系以需要的形式进行展示,可支持任意类型的数据源以及特殊字段的合规转化,实现了交易数据的合规流通,提升血缘关系的分析效率和分析准确度,精准定位故障流程快速恢复,规避了局部异常带来的阻碍,保障大数据系统的稳定运行,进而保证血缘关系的合规管理和大数据的安全使用。
以下参照附图描述本公开的方案。
图1示出了根据本公开示例性实施例的交易数据的血缘关系的管理方法的流程图,如图1所示,本公开的交易数据的血缘关系的管理方法包括如下步骤:
在本公开实施例中,本公开的交易数据的血缘关系的管理方法由血缘分析服务器执行,血缘分析服务器包括采集接口和展示接口。
步骤S101,接收交易数据的血缘关系分析请求;其中,所述血缘关系分析请求包括一个或多个数据源的数据源类型和数据库标识。
在本公开实施例中,数据源类型包括关系型数据库和数据平台,关系型数据库使用SQL语句执行查询等各种处理,比如,hive、spark、flink、Gp等离线大数据引擎;数据平台不使用SQL语句执行查询等各种处理。血缘分析服务器接收请求终端发送的一个或者多个交易数据的血缘关系分析请求,血缘关系分析请求由请求终端的用户根据实际需要选择,比如,血缘关系分析请求为根据交易地点分析交易用户的关联密切度。
进一步地,血缘关系分析请求包括各个数据源的数据源地址、访问权限、分析源、分析表、和/或分析字段等,不同的数据源可以设置不同的访问权限,用以对血缘关系分析器可以访问的交易数据进行限制,确保数据安全、防止数据泄露。比如,访问权限包括高级和低级,高级可以访问数据源的全部数据、低级仅可访问数据源的部分数据。
步骤S102,根据所述数据源类型,确定所述交易数据的采集方案。
在本公开实施例中,血缘分析服务器根据数据源类型的不同,确定采集接口的采集方案,采集方案作为可执行的路线图,可以指导采集接口执行查询和采集操作。采集方案包括采集方式,采集方式包括解析采集和埋点采集,解析采集适用于关系型数据库,通过对血缘关系分析请求的请求语句进行解析,生成采集方案,使得采集接口执行采集方案,得到关系型数据库的初始数据;埋点采集适用于数据平台,根据数据平台的调用接口,生成采集方案,使得采集接口对接调用接口,接收调用接口利用数据平台预先设置的多个埋点所采集的初始数据。
在本公开实施例中,如图2所示,本公开的采集方案的确定方法包括如下步骤:
步骤S201,获取所述血缘关系分析请求的数据源类型。
步骤S202,判断所述数据源类型是否为关系型数据库,如果是,转至步骤S203;如果否,转至步骤S205。
步骤S203,确定采集方式为解析采集。
在本公开实施例中,关系型数据库使用SQL语句,在对关系型数据库的血缘关系分析请求进行处理时,采用解析采集的采集方式。
步骤S204,对所述血缘关系分析请求的请求语句进行解析,生成包括采集类型、采集时间和采集内容的采集方案。
在本公开实施例中,血缘分析服务器对请求语句进行解析,提取其中的对数据采集有用的信息、转化为采集方案,也即,血缘分析服务器对SQL语句进行解析,提取有用信息并转换为采集方案,包括采集类型、采集时间、采集内容、输出模板等。
进一步地,采集类型包括增量采集和全量采集,增量采集只对交易数据的变化部分进行采集,可以降低数据的采集、传输和处理成本,适用于数据量变化较大的数据源,交易数据的变化部分可以是交易数据的增加、删除、修改等操作,可以根据数据源的元数据是否变化进行判断,元数据变化即表示存在增量数据、元数据不变即表示不存在增量数据。其中,元数据包括文件名、列数、项目名称、字段、访问权限等。比如,第一天的元数据包括table_a、table_b、table_c、table_e,第二天的元数据包括table_a、table_b、table_c、table_d,第一天的增量采集即为增加table_a、table_b、table_c、table_e,第二天的增量采集即为删除table_e、增加table_d;全量采集每次皆采集交易数据的全部数据,可以提供交易数据的完整表示,适用于静态数据源或者小规模数据源,又比如,第一天的全量采集即为table_a、table_b、table_c、table_e,第二天的全量采集即为table_a、table_b、table_c、table_d。
采集内容包括①字段关键词和字段属性值;②数据内容关键词和字段属性值;③字段关键词、字段属性值和字段对应关系;④数据内容关键词、字段属性值和字段对应关系;⑤数据源的源数据;⑥数据表的表数据等。输出模板包括输出数据源、输出数据表、输出字段、字段属性值等。
更进一步地,比如,请求语句为每天从交易信息表中采集交易地点的增量数据,对应的采集类型为增量采集、采集时间为每天、采集内容包括“交易地点”和“交易地点”的属性值、输出字段为“输出地点”和“交易地点”的属性值。
步骤S205,确定采集方式为埋点采集。
在本公开实施例中,预先在数据平台中设置多个埋点,在对数据平台的血缘关系分析请求进行处理时,采用埋点采集的采集方式。其中,埋点可以是代码函数的形式,将函数输出的数据发送给调用接口;或者,埋点可以根据实际的数据采集需求进行选择性设置,比如,数据源、表名、字段关键词、数据内容关键词等。
步骤S206,根据所述血缘关系分析请求的平台标识,确定调用接口地址。
在本公开实施例中,在采用埋点采集的方式进行数据采集时,需要调用数据平台的调用接口获取埋点的数据,因此,根据数据平台标识和调用接口地址的对应关系,确定采集接口对接的调用接口的调用接口地址。
步骤S207,生成包括所述调用接口地址、采集类型、采集时间和采集内容的采集方案。
在本公开实施例中,通过本公开的采集方案的确定方法,根据数据源类型的不同,选择不同的采集方式,确定不同的采集方案,可满足不同类型数据源的采集需求,以便于后续采集接口从各个数据源采集初始数据,扩展性强、适应性广。
步骤S103,扫描各个所述数据源,按照与所述数据源对应的采集方案,离线采集所述血缘关系分析请求的初始数据;其中,所述初始数据包括数据源标识。
在本公开实施例中,数据源标识可以是数据库标识或者平台标识,血缘分析服务器的采集接口根据采集方案采集数据库的初始数据、或者对接调用接口接收调用接口按照采集方案返回的初始数据,并按照统一格式进行转换存储,从而便于后续血缘关系的分析。
在本公开实施例中,如图3所示,本公开的初始数据的采集方法包括如下步骤:
在本公开实施例中,采集接口采集初始数据采用离线扫描的方式,将初始数据存储至统一的数据库中,从而减少网络带宽和服务器资源的占用,提高数据的采集和处理效率。
步骤S301,获取所述采集方案。
步骤S302,判断所述采集方式是否为解析采集,如果是,转至步骤S303;如果否,转至步骤S307。
步骤S303,判断所述采集接口是否具备所述数据源的访问权限,如果是,转至步骤S304;如果否,转至步骤S306。
在本公开实施例中,数据源的访问权限可以根据实际数据保密需求进行选择性设置。
步骤S304,利用所述采集接口访问所述数据源地址。
在本公开实施例中,采集接口根据数据源的数据源地址,与关系型数据库建立连接。
步骤S305,根据所述采集类型、所述采集时间和所述采集内容,按照所述输出模板采集输出数据,转至步骤S309。
在本公开实施例中,采集接口遍历各个数据源,按照输出模板采集输出数据,包括各个输出字段的属性值、各个数据源的源数据、各个数据表的表数据等。
步骤S3051,在所述采集内容为字段关键词和字段属性值的情况下,采集与所述字段关键词对应的字段属性值,作为所述输出数据。
在本公开实施例中,比如,输出模板包括输出字段和字段属性值,字段关键词为“交易地点”,直接采集“交易地点”的字段属性值,作为输出字段“输出地点”的字段属性值。
步骤S3052,在所述采集内容为数据内容关键词和字段属性值的情况下,根据预设比例,从所述数据源中筛选等于所述预设比例的数据条数的比对数据,将所述数据内容关键词与所述比对数据进行匹配,确定存在所述数据内容关键词的目标字段,采集所述目标字段的字段属性值作为所述输出数据。
在本公开实施例中,比如,输出模板包括输出字段和字段属性值,数据内容关键词为ATM编号的前4位“****”,预设比例为3%,数据源的总数据条数为1252条,筛选37条比对数据,将“****”与37条比对数据进行匹配,确定存在数据内容关键词的“交易地点”目标字段,采集“交易地点”目标字段的属性值作为输出字段“输出地点”的字段属性值。
通过数据内容关键词的匹配,对于数据源中的缺失字段,可以利用数据内容的匹配判断字段归属,得到数据内容关键词对应的目标字段,提取字段属性值作为输出数据,保证数据采集的准确性和完整性。
步骤S3053,在所述采集内容为字段关键词、字段属性值和字段对应关系的情况下,采集与所述字段关键词对应的字段属性值,得到第一数据;根据所述字段对应关系,采集所述字段关键词的对应字段的字段属性值,结合所述第一数据得到所述输出数据。
在本公开实施例中,比如,输出模板包括多个输出字段及其字段属性值,第一数据为输出字段“输出地点”及其字段属性值,字段对应关系为交易地点-用户名,采集交易地点对应的用户名的字段属性值,得到“输出用户名”字段及其字段属性值,结合第一数据即为输出数据。
进一步地,对应字段的确定也可以利用数据内容关键词匹配的方式确定,以保证数据的完整性。
步骤S3054,在所述采集内容为数据内容关键词、字段属性值和字段对应关系的情况下,采集与所述目标字段对应的字段属性值,得到第二数据;根据所述字段对应关系,采集所述目标字段的对应字段的字段属性值,结合所述第二数据得到所述输出数据。
在本公开实施例中,比如,输出模板包括多个输出字段及其字段属性值,第二数据为数据内容关键词“****”对应的输出字段“输出地点”及其字段属性值,字段对应关系为交易地点-用户名,采集交易地点对应的用户名的字段属性值,得到“输出用户名”字段及其字段属性值,结合第二数据即为输出数据。
步骤S3055,在所述采集内容为数据源的源数据的情况下,采集与所述数据源的数据源标识对应的增量数据或者全量数据,作为所述输出数据。
步骤S3056,在所述采集内容为数据表的表数据的情况下,采集与所述数据表的表名对应的增量数据或者全量数据,作为所述输出数据。
步骤S306,拒绝所述血缘关系分析请求。
在本公开实施例中,在采集接口不具备数据源的访问权限的情况下,血缘分析服务器拒绝血缘关系分析请求。
步骤S307,根据所述调用接口地址,所述采集接口对接所述调用接口。
在本公开实施例中,采集接口根据调用接口的接口地址,与关系型数据库建立连接。
步骤S308,接收所述调用接口根据所述采集类型、所述采集时间和所述采集内容按照所述输出模板返回的所述输出数据,转至步骤S309。
在本公开实施例中,调用接口根据采集类型、采集时间和采集内容,接收各个埋点返回的输出数据,并发送给采集接口。
步骤S309,将所述输出数据转换为预设格式,得到初始数据,并将所述初始数据存储至所述分析数据库。
在本公开实施例中,分析数据库设置于血缘分析服务器中。其中,预设格式可以根据实际需要进行选择性设置,比如,JSON格式。初始数据包括格式转换后的数据库标识或者平台标识、采集开始时间、采集结束时间、输出数据等。
在本公开实施例中,通过本公开的初始数据的采集方法,直接采集各个字段的属性值、或者根据数据内容匹配缺失的目标字段并采集目标字段的属性值,将之转换为预设格式,得到初始数据并存储,可以提高采集的数据的准确性和完整性,降低血缘关系处理所需的算力成本,提高血缘关系提取的准确度和完整度,提升分析效率,从而保障分析任务及其它数据任务的平稳运行,降低数据管理成本和计算资源成本。
步骤S104,根据所述数据源标识对所述初始数据进行分流,提取所述交易数据的血缘关系,将所述血缘关系进行展示。
在本公开实施例中,血缘分析服务器根据数据库标识或者平台标识,对初始数据进行分流,分发至不同的关系解析器,使得各个关系解析器提取其中的血缘关系,生成各种各样的血缘关系展示样式,并通过终端进行展示,以便于实现交易数据的血缘关系的全局掌控和理解,及时定位故障位置并修复,提升血缘关系分析效率的同时保障各项数据任务的正常运行。
在本公开实施例中,如图4所示,本公开的血缘关系的提取方法包括如下步骤:
步骤S401,获取所述初始数据。
步骤S402,根据所述数据库标识或者所述平台标识,将所述初始数据分流至不同的关系解析器。
在本公开实施例中,血缘分析服务器包括多个关系解析器,不同的关系解析器对应不同的数据源,关系解析器的解析器标识与数据库标识或者平台标识相同。
步骤S403,响应于所述血缘关系分析请求的分析目标,所述关系解析器从所述初始数据中抽取所述分析源、所述分析表、和/或所述分析字段的初始数据。
在本公开实施例中,关系解析器中包括多个解析线程,不同的解析线程可以响应不同的分析目标,比如,分析目标为数据表名和分析字段的血缘关系,解析线程抽取分析表和分析字段的初始数据;又比如,分析目标为分析字段之间的血缘关系,解析线程抽取各个分析字段的初始数据;再比如,分析目标为数据源的血缘关系,解析线程抽取分析源的初始数据;还比如,分析目标为数据表的血缘关系,解析线程抽取分析表的初始数据。
进一步地,关系解析器还包括聚合线程,用以聚合多个解析线程的血缘关系,得到聚合血缘关系。比如,解析线程提取“用户名-交易地点”、“用户名-用户地址”的血缘关系,聚合线程提取“交易地点-用户地址”的血缘关系;又比如,解析线程提取“数据源”、“数据平台”的血缘关系,聚合线程提取“数据源-数据平台”的血缘关系。需要说明的是,关系解析器可以根据实际的分析需求,抽取各式数据,以便对数据源与数据源之间、数据源与数据表之间、数据表与字段之间、字段与字段之间、单个数据源、单个数据表、单个字段等的血缘关系进行分析。
更进一步地,解析线程在抽取分析源、分析表、和/或分析字段的初始数据之前,还可以对初始数据进行清洗等操作。
步骤S404,提取所述分析源、所述分析表、和/或所述分析字段的初始数据的血缘关系。
在本公开实施例中,响应于不同的分析目标,各个解析线程的血缘关系的提取可以包括以下情形:
步骤S4041,所述分析字段包括用户名和交易地点,以所述用户名的字段属性值为中心,提取与所述用户名对应的交易地点的字段属性值之间的血缘关系。
步骤S4042,提取所述分析表的表名和所述分析字段之间的血缘关系。
在本公开实施例中,分析字段由输出字段而来,由于输出数据经过数据内容关键词匹配等处理,故而即使数据源的字段缺失,也不会影响血缘关系分析的准确性和完整性。
步骤S4043,所述分析字段包括交易账号、交易金额和交易时间,根据与所述交易账号对应的交易金额和交易时间的字段属性值,提取交易流程的血缘关系。
在本公开实施例中,关系解析器将各个解析线程提取的血缘关系按照键值对的形式存储至血缘分析服务器的磁盘中,键值对的key为分析目标、value为提取出的血缘关系。
进一步地,根据键值对的key,构建对应的key的偏移量,并存储至血缘分析服务器的内存中,进而在查询时可以先从内存中确定键值对的偏移量、再至磁盘中读取键值对的value得到血缘关系,从而有效利用内存和磁盘的存储特点,降低血缘分析服务器的存储压力和访问压力。
更进一步地,在血缘关系键值对存储之前,对各个血缘关系进行去重处理,以降低血缘分析服务器的存储成本。
在本公开实施例中,通过本公开的血缘关系的提取方法,将初始数据按照数据源标识分流给各个关系解析器,再根据分析目标分配给各个解析线程提取血缘关系,从而获取到数据源、数据表、字段等之间的血缘依赖关系,避免了依赖于元数据抽取的不完整和不准确,保障了血缘关系的准确性、完整性和可靠性,以真实地知悉数据的流动情况。
在本公开实施例中,还可以建立血缘关系的血缘关系图、血缘关系表等,通过请求终端进行展示,以进一步提高血缘关系的利用率,以便于及时定位数据故障,保障分析任务及数据任务的正常运行,防止计算资源的崩溃,保证系统的稳定和安全运行。
进一步地,如图5所示,本公开的异常故障的定位方法包括如下步骤:
步骤S501,根据所述血缘关系分析请求的血缘关系,生成血缘关系图。
在本公开实施例中,血缘关系图是指图形化的血缘关系展示方式,可以是树状图、流程图等各种形式,血缘关系图包括多个树节点、流程节点以及节点之间的边等,节点可以是数据源、数据表或者字段等,边表示节点之间的数据传递和血缘关系,从而可以直观地了解数据的流动情况。
进一步地,树状图的根节点可以是数据源,子节点可以是数据表,子节点的下一级节点可以是各个字段,方便逐级地查看节点之间的血缘关系。
进一步地,血缘关系的展示形式还可以是血缘关系表,将血缘关系以表格的形式展示,行或列代表数据源、数据表或者字段等,对应的表格值即为行或列之间的血缘关系。
步骤S502,通过所述请求终端展示所述血缘关系图;其中,所述血缘关系图包括异常节点。
在本公开实施例中,血缘关系图可以在关系解析器解析的过程中同步生成,进而及时发现分析故障,以便于进行修复。
步骤S503,响应于对所述异常节点的触控,展示所述异常节点的节点数据。
在本公开实施例中,用户可以触控异常节点,以获取异常节点的节点数据,定位问题数据或者问题流程进行修复。
在本公开实施例中,通过本公开的异常故障的定位方法,通过血缘关系的展示,用户可以掌握数据的流转过程,理解和分析数据的传播路径和依赖关系,使得数据血缘更直观且演变过程易于理解,便于数据血缘的全面追溯和深入利用,提高数据的可理解性和分析效率,同时,可以及时定位故障问题并修复,防止分析阻滞、保证其它数据任务的正常执行,保障服务器灵活应对格式分析请求的同时大数据系统稳定运行,便于用户便捷地获取各种血缘关系。
在本公开实施例中,血缘分析服务器还可以响应用户的查询请求,将存储的血缘关系展示给用户,避免血缘关系的重复分析,降低分析成本,从而提高算力资源的有效利用率,如图6所示,本公开的血缘关系的查询方法包括如下步骤:
步骤S601,接收一个或多个所述请求终端的血缘关系查询请求;其中,所述血缘关系查询请求包括查询目标。
步骤S602,根据所述查询目标,搜索所述血缘关系服务器的内存,确定与所述查询目标对应的分析目标的偏移量。
在本公开实施例中,血缘关系的键值对可以存储在血缘分析服务器的内存或者磁盘中。
步骤S603,通过所述偏移量定位所述血缘关系服务器的磁盘中与所述偏移量对应的存储位置。
步骤S604,读取所述存储位置的键值对,得到所述血缘关系查询请求的目标血缘关系。
步骤S605,对所述目标血缘关系进行安全校验,判断校验结果是否为校验通过,如果是,转至步骤S606;如果否,转至步骤S607。
在本公开实施例中,血缘分析服务器预先存储了各种数据的保密等级,通过对目标血缘关系的上下游的保密等级高低进行判断,确定安全校验的校验结果。在血缘关系的上游的保密等级高于下游的保密等级的情况下,确定安全校验的校验结果为校验通过;在血缘关系的上游的保密等级低于下游的保密等级的情况下,表示下游数据使用了上游数据中的保密数据,存在数据泄露风险,确定安全校验的校验结果为校验失败。
进一步地,可以省略步骤S605的安全校验,将安全校验放在本公开的初始数据的采集方法中,比如,步骤S304-S305之间、和/或步骤S307-S308之间,将数据的泄露风险规避在数据采集阶段。
步骤S606,将所述目标血缘关系通过所述请求终端进行展示。
在本公开实施例中,用户还可以对血缘关系的分析源、分析表、分析字段进行筛选、过滤等操作,以获得满足实际使用需求的血缘关系。
步骤S607,拒绝所述血缘关系查询请求。
在本公开实施例中,通过本公开的血缘关系的查询方法,可以响应各式各样的血缘关系查询请求,进而有效利用历史数据,快速响应用户的查询、筛选、过滤请求,便于用户查看、提升用户使用体验。
在本公开实施例中,通过本公开的交易数据的血缘关系的管理方法,能够得到各种数据源、数据表、字段及其相互之间的血缘关系,包括数据源或者数据表之间的父子关系、数据源或者数据表之间的依赖关系、数据表和字段之间的具象关系等,面对严格的监管环境,可以快速掌控上下游数据的血缘关系,进而对血缘关系进行审计,定位存在泄露隐患的血缘关系,进而实现数据的安全管控,避免数据泄露风险,同时,支持各种类型数据源的血缘关系分析,分析、查询效率较高,防止分析受阻,精准定位故障并恢复,保障了大数据的高效运行,提升血缘关系的分析效率和分析准确度,规避局部异常带来的阻碍,保障大数据系统的稳定运行。
图7是根据本公开实施例的交易数据的血缘关系的管理系统的示意图,如图7所示,本公开的交易数据的血缘关系的管理系统700包括:采集层701、分析层702、管理层703、应用层704,其中:
采集层701包括采集接口7011,采集接口7011中设置有接收模块、数据处理模块和采集模块,接收模块用于接收交易数据的血缘关系分析请求,所述血缘关系分析请求包括一个或多个数据源的数据源类型;数据处理模块用于根据所述数据源类型,确定所述交易数据的采集方案;采集模块,用于扫描各个所述数据源,按照与所述数据源对应的采集方案,离线采集所述血缘关系分析请求的初始数据,所述初始数据包括数据源标识。
分析层702包括多个关系解析器7021,每一个关系解析器7021包括多个解析线程70211和聚合线程70212,解析线程70211包括提取模块,用于根据所述数据源标识对所述初始数据进行分流,提取所述交易数据的血缘关系。
管理层703包括内存和磁盘,磁盘用于存储血缘关系键值对,内存用于存储血缘关系键值对的key的偏移量,以便于定位磁盘中的血缘关系键值对的存储位置。
应用层704包括图形数据库和WebUI(Website User Interface,即网络产品界面设计)是,响应于血缘关系查询请求,可以从管理层703中读取目标血缘关系,并利用图形数据库和WebUI进行渲染,通过请求终端进行展示。
在本公开实施例中,通过交易数据的血缘关系的管理系统,可以实现血缘关系的快速采集、提取和展示,降低网络带宽和服务器资源的占用,提升分析和处理效率,灵活支持各种类型的数据源,完善缺失字段,提高血缘关系分析的准确性和完整度,可视化的血缘关系展示便于用户进行数据分析,为用户提供准确决策依据,提升数据利用价值。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图8,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMa8设备、蜂窝通信设备和/或类似物。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,图1至图6的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图1至图6的方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (12)

1.一种交易数据的血缘关系的管理方法,其特征在于,包括:
接收交易数据的血缘关系分析请求;其中,所述血缘关系分析请求包括一个或多个数据源的数据源类型;
根据所述数据源类型,确定所述交易数据的采集方案;
扫描各个所述数据源,按照与所述数据源对应的采集方案,离线采集所述血缘关系分析请求的初始数据;其中,所述初始数据包括数据源标识;
根据所述数据源标识对所述初始数据进行分流,提取所述交易数据的血缘关系,将所述血缘关系进行展示。
2.如权利要求1所述的管理方法,其特征在于,所述按照与所述数据源对应的采集方案,离线采集所述血缘关系分析请求的初始数据,包括:
判断所述采集方案的采集方式是否为解析采集,在所述采集方式是否为解析采集的情况下,利用所述采集接口访问所述数据源地址;
根据所述采集类型、所述采集时间和所述采集内容,按照输出模板采集输出数据,将所述输出数据转换为预设格式,得到所述初始数据。
3.如权利要求2所述的管理方法,其特征在于,所述根据所述采集类型、所述采集时间和所述采集内容,按照所述输出模板采集输出数据,包括:
在所述采集内容为字段关键词和字段属性值的情况下,采集与所述字段关键词对应的字段属性值,作为所述输出数据;
或者,
在所述采集内容为数据内容关键词和字段属性值的情况下,根据预设比例,从所述数据源中筛选等于所述预设比例的数据条数的比对数据,将所述数据内容关键词与所述比对数据进行匹配,确定存在所述数据内容关键词的目标字段,采集所述目标字段的字段属性值作为所述输出数据。
4.如权利要求2所述的管理方法,其特征在于,在所述采集方式为埋点采集的情况下,还包括:
根据所述调用接口地址,所述采集接口对接所述调用接口;
所述采集接口接收所述调用接口根据所述采集类型、所述采集时间和所述采集内容按照所述输出模板返回的所述输出数据,转换为预设格式后得到所述初始数据。
5.如权利要求1所述的管理方法,其特征在于,所述数据源类型包括关系型数据库和数据平台;所述根据所述数据源类型,确定所述交易数据的采集方案,包括:
获取所述血缘关系分析请求的数据源类型,判断所述数据源类型是否为关系型数据库;
在所述数据源类型为关系型数据库的情况下,确定采集方式为解析采集;
对所述血缘关系分析请求的请求语句进行解析,生成包括采集类型、采集时间和采集内容的采集方案。
6.如权利要求5所述的管理方法,其特征在于,还包括:
在所述数据源类型非关系型数据库的情况下,确定采集方式为埋点采集;
根据所述血缘关系分析请求的平台标识,确定调用接口地址,生成包括所述调用接口地址、采集类型、采集时间和采集内容的采集方案。
7.如权利要求1所述的管理方法,其特征在于,所述血缘关系分析请求还包括分析目标,所述分析目标包括分析源、分析表、和/或分析字段;所述根据所述数据源标识对所述初始数据进行分流,提取所述交易数据的血缘关系,包括:
根据所述数据库标识或者所述平台标识,将所述初始数据分流至不同的关系解析器;
响应于所述分析目标,所述关系解析器从所述初始数据中抽取所述分析源、所述分析表、和/或所述分析字段的初始数据;
提取所述分析源、所述分析表、和/或所述分析字段的初始数据的血缘关系。
8.如权利要求7所述的管理方法,其特征在于,所述提取所述分析源、所述分析表、和/或所述分析字段的初始数据的血缘关系,包括:
所述分析字段包括用户名和交易地点,以所述用户名的字段属性值为中心,提取与所述用户名对应的交易地点的字段属性值之间的血缘关系;
或者,
提取所述分析表的表名和所述分析字段之间的血缘关系;
或者,
所述分析字段包括交易账号、交易金额和交易时间,根据与所述交易账号对应的交易金额和交易时间的字段属性值,提取交易流程的血缘关系。
9.如权利要求7所述的管理方法,其特征在于,还包括:
接收一个或多个所述请求终端的血缘关系查询请求;其中,所述血缘关系查询请求包括查询目标;
根据所述查询目标,搜索血缘关系服务器的内存,确定与所述查询目标对应的分析目标的偏移量;
通过所述偏移量定位所述血缘关系服务器的磁盘中与所述偏移量对应的存储位置,读取所述存储位置的键值对,得到所述血缘关系查询请求的目标血缘关系;
将所述目标血缘关系通过所述请求终端进行展示。
10.一种交易数据的血缘关系的管理系统,其特征在于,包括:
接收模块,用于接收交易数据的血缘关系分析请求;其中,所述血缘关系分析请求包括一个或多个数据源的数据源类型;
数据处理模块,用于根据所述数据源类型,确定所述交易数据的采集方案;
采集模块,用于扫描各个所述数据源,按照与所述数据源对应的采集方案,离线采集所述血缘关系分析请求的初始数据;其中,所述初始数据包括数据源标识;
展示模块,用于根据所述数据源标识对所述初始数据进行分流,提取所述交易数据的血缘关系,将所述血缘关系进行展示。
11.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的数据的血缘关系的管理方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的数据的血缘关系的管理方法。
CN202310920275.6A 2023-07-25 2023-07-25 一种数据的血缘关系的管理方法和系统 Pending CN117033410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310920275.6A CN117033410A (zh) 2023-07-25 2023-07-25 一种数据的血缘关系的管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310920275.6A CN117033410A (zh) 2023-07-25 2023-07-25 一种数据的血缘关系的管理方法和系统

Publications (1)

Publication Number Publication Date
CN117033410A true CN117033410A (zh) 2023-11-10

Family

ID=88630894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310920275.6A Pending CN117033410A (zh) 2023-07-25 2023-07-25 一种数据的血缘关系的管理方法和系统

Country Status (1)

Country Link
CN (1) CN117033410A (zh)

Similar Documents

Publication Publication Date Title
JP7373611B2 (ja) ログ監査方法、装置、電子機器、媒体およびコンピュータプログラム
US11487772B2 (en) Multi-party data joint query method, device, server and storage medium
CN113688288B (zh) 数据关联分析方法、装置、计算机设备和存储介质
WO2018120720A1 (zh) 客户端程序的测试错误定位方法、电子装置及存储介质
CN110209700B (zh) 一种数据流关联方法、装置、电子设备及存储介质
CN110674161A (zh) 上线sql的方法、系统、存储介质及sql操作平台
CN112182025A (zh) 日志分析方法、装置、设备与计算机可读存储介质
CN112506750A (zh) 一种用于海量日志分析预警的大数据处理系统
US11907171B2 (en) Dynamic intelligent log analysis tool
CN112052134A (zh) 一种业务数据的监控方法及装置
CN112612832B (zh) 节点分析方法、装置、设备及存储介质
CN113609008A (zh) 测试结果分析方法、装置和电子设备
CN111581057B (zh) 一种通用日志解析方法、终端设备及存储介质
CN111639016A (zh) 大数据日志分析方法、装置及计算机存储介质
CN117033410A (zh) 一种数据的血缘关系的管理方法和系统
CN113779117A (zh) 一种数据监控方法、装置、存储介质和电子设备
CN107066538B (zh) 一种数据统计的方法及装置
CN112989403A (zh) 一种数据库破坏的检测方法、装置、设备及存储介质
CN116483735B (zh) 一种代码变更的影响分析方法、装置、存储介质及设备
CN113094479B (zh) 一种问题处理方法、装置、电子设备和介质
CN114528215A (zh) 交互页面的测试方法和元素模板的生成方法、装置
US9600505B2 (en) Code optimization based on customer logs
CN117312383A (zh) Hive任务的风险预警方法、装置、电子设备和介质
CN117076482A (zh) 数据库慢查询语句分析方法及装置
CN114140032A (zh) 一种设施运行状态监测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination