CN109614433A - 业务系统间数据血缘的识别方法、装置、设备及存储介质 - Google Patents

业务系统间数据血缘的识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109614433A
CN109614433A CN201811527199.8A CN201811527199A CN109614433A CN 109614433 A CN109614433 A CN 109614433A CN 201811527199 A CN201811527199 A CN 201811527199A CN 109614433 A CN109614433 A CN 109614433A
Authority
CN
China
Prior art keywords
data
target
operation system
blood relationship
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811527199.8A
Other languages
English (en)
Other versions
CN109614433B (zh
Inventor
王占群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201811527199.8A priority Critical patent/CN109614433B/zh
Publication of CN109614433A publication Critical patent/CN109614433A/zh
Application granted granted Critical
Publication of CN109614433B publication Critical patent/CN109614433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种业务系统间数据血缘的识别方法,包括:识别每个业务系统的数据资产的类型;计算不同业务系统之间数据资产中的目标数据间的血缘相似度;获取不同目标数据所在目标业务系统间的交互数据,根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;根据血缘相似度和调用关系,确定不同目标业务系统的目标数据的血缘关系。可见,在本方案中,通过对业务系统的数据资产的血缘相似度和调用关系结合的方式,可以自动且准确的识别系统间的数据血缘关系,减轻了人工的操作,便于进行数据分析;本发明还公开了一种业务系统间数据血缘的识别装置、设备及计算机可读存储介质,同样能实现上述技术效果。

Description

业务系统间数据血缘的识别方法、装置、设备及存储介质
技术领域
本发明涉及数据血缘关系确定技术领域,更具体地说,涉及一种业务系统间数据血缘的识别方法、装置、设备及计算机可读存储介质。
背景技术
数据血缘描述了数据在产生、传输、使用、存储、共享和销毁的生命周期中数据之间的关联关系和数据的流向。数据血缘在数据应用和治理中可以用于数据的溯源分析、影响分析和重要程度分析。现有技术对数据血缘的挖掘主要从数据库或者数据加工日志分析出数据的血缘关系,例如通过ETL工具做数据的传输或者转换时,通过提取加工和转换的日志来分析数据间的血缘关系。或者在大数据平台中,通过提取数据治理工作流的日志信息,来分析数据间的血缘关系。
但是对于普通的业务系统之间的数据的血缘关系就比较困难分析了,现有技术中通过利用抽象语法树技术静态的扫描系统代码如java工程代码,根据代码逻辑进行数据链路梳理,得到数据血缘关系。但这种方式在实现时依赖于系统代码,其受到不同代码工程的代码风格影响,加上代码工程、ORM框架等多个中间因素的影响,使得这种方式约束条件过多,无法通用于各种系统代码,实施难度较大。
因此,如何能够快速准确的识别业务系统间的数据血缘关系,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种业务系统间数据血缘的识别方法、装置、设备及计算机可读存储介质,以实现快速准确的识别业务系统间的数据血缘关系。
为实现上述目的,本发明实施例提供了如下技术方案:
一种业务系统间数据血缘的识别方法,包括:
识别每个业务系统的数据资产的类型;
计算不同业务系统之间数据资产中的目标数据间的血缘相似度;获取不同目标数据所在的目标业务系统间的交互数据,根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;
根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
其中,所述识别每个业务系统的数据资产的类型,包括:
从不同业务系统的数据库中提取元数据信息;
根据所述元数据信息从不同数据库中获取对应的数据资产;
按照预定的识别规则,对不同业务系统的数据资产进行识别,确定不同数据资产的类型。
其中,获取不同目标数据所在的目标业务系统间的交互数据,包括:
采集不同业务系统间的交互报文;
根据不同业务系统间的API调用关系,从所述交互报文中识别目标数据所在的不同目标业务系统间的交互报文;
从所述不同目标业务系统间的交互报文中识别交互数据。
其中,根据所述交互数据确定不同目标数据在目标业务系统间的调用关系,包括:
将所述交互数据和所述目标数据关联,确定目标数据在不同目标业务系统间是否存在调用关系。
其中,所述计算不同业务系统之间数据资产中的目标数据间的血缘相似度,包括:
计算不同业务系统之间的同一类型的目标数据的相似度,将所述相似度作为不同业务系统之间的目标数据的血缘相似度。
其中,根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系,包括:
若目标数据在不同目标业务系统间存在调用关系,则所述血缘相似度大于等于第一预定阈值时,判定目标数据之间存在血缘关系;所述血缘相似度在第一预定阈值与第二预定阈值之间时,判定目标数据之间存在疑似血缘关系,所述血缘相似度小于等于第二预定阈值时,判定目标数据之间不存在血缘关系;其中,所述第二预定阈值小于所述第一预定阈值;
若目标数据在不同目标业务系统间不存在调用关系,则所述血缘相似度大于等于第三预定阈值时,判定目标数据之间存在疑似血缘关系;所述血缘相似度小于第三预定阈值时,判定目标数据之间不存在血缘关系。
其中,根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系,包括:
判断目标数据在不同目标业务系统间是否存在调用关系;
若否,则判定不同目标业务系统的目标数据之间没有血缘关系;若是,则在所述血缘相似度大于第四阈值时,判定不同目标业务系统的目标数据之间存在疑似血缘关系。
一种业务系统间数据血缘的识别装置,包括:
类型识别模块,用于识别每个业务系统的数据资产的类型;
血缘相似度计算模块,用于计算不同业务系统之间数据资产中的目标数据间的血缘相似度;
交互数据获取模块,用于获取不同目标数据所在的目标业务系统间的交互数据;
调用关系确定模块,用于根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;
血缘关系确定模块,用于根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
一种业务系统间数据血缘的识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述业务系统间数据血缘的识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述业务系统间数据血缘的识别方法的步骤。
通过以上方案可知,本发明实施例提供的一种业务系统间数据血缘的识别方法,包括:识别每个业务系统的数据资产的类型;计算不同业务系统之间数据资产中的目标数据间的血缘相似度;获取不同目标数据所在的目标业务系统间的交互数据,根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
可见,在本方案中,通过对业务系统的数据资产的血缘相似度和调用关系结合的方式,可以自动且准确的识别系统间的数据血缘关系,减轻了人工的操作,便于进行数据分析;本发明还公开了一种业务系统间数据血缘的识别装置、设备及计算机可读存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种业务系统间数据血缘的识别方法流程示意图;
图2为本发明实施例公开的另一种业务系统间数据血缘的识别方法流程示意图;
图3为本发明实施例公开的一种业务系统间数据血缘的识别装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种业务系统间数据血缘的识别方法、装置、设备及计算机可读存储介质,以实现快速准确的识别业务系统间的数据血缘关系。
参见图1,本发明实施例提供的一种业务系统间数据血缘的识别方法,包括:
S101、识别每个业务系统的数据资产的类型;
具体的,本方案进行数据血缘识别时,所涉及的业务系统的数量可以为多个,但是不管是多少个,都需要以每两个业务系统间的血缘关系为基础,因此,在本实施例中,以业务系统的数量为两个为例进行描述,这两个业务系统以APP1和APP2为例;进一步的,本方案中的数据资产为业务系统的数据库中存储的姓名、地址、联系方式等,那么对应的数据资产的类型可以包括数字类型、文字类型、字母类型等,在此并不具体限定,只要能描述数据资产的类型便可以。
S102、计算不同业务系统之间数据资产中的目标数据间的血缘相似度;
具体的,在本方案中,将不同业务系统之间计算血缘相似度的数据称为目标数据,例如:若本方案中的业务系统包括APP1和APP2,APP1的数据资产中包括数据1和数据2,APP2的数据资产中包括数据3和数据4,如果要计算数据1与数据3之间的血缘相似度,那么此时共有两个目标数据,即为数据1与数据3。
S103、获取不同目标数据所在的目标业务系统间的交互数据,根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;
具体的,本方案中最后确定的血缘关系主要用来描述数据在产生、传输、使用、存储、共享和销毁的生命周期中数据之间的关联关系和数据的流向,因此在本方案中,通过不同业务系统之间的交互数据来确定数据的流向。
具体来说,本方案将不同目标数据所在的业务系统称为目标业务系统,例如:本方案中的目标数据为第一电话号码和第二电话号码,那么第一电话号码所在的业务系统APP1和第二电话号码所在的业务系统APP2便为目标业务系统,也就是APP1和APP2为目标业务系统。进一步,通过分析APP1和APP2之间的交互数据,来确定目标数据在APP1和APP2之间的调用关系。可以理解的是,本方案中的调用关系,并不具体限定谁调用谁,只要是目标数据在目标业务系统间存在调用关系即可。例如:本实施例中的调用关系可以为:APP1从APP2中调用第二电话号码的调用关系,或者,APP2从APP1中调用第一电话号码的调用关系。
S104、根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
可以理解的是,经过上述步骤,便可了解不同目标业务系统中目标数据之间的血缘相似度和调用关系,具体来说,调用关系代表了在目标数据的流向,血缘相似度代表了两个目标业务系统中目标数据的相似度,通过这两个数据,便可以确定不同目标业务系统中不同目标数据的血缘关系。
需要说明的,确定不同目标业务系统的目标数据的血缘关系时,可以根据数据的类型、应用场景等多种条件来选择合适的确定方式,通过选择的确定方式以及血缘相似度和调用关系来确定最终的血缘关系。综上可以看出,本方案通过对不同业务系统间数据的血缘相似度和调用关系,可以自动并且准确的识别系统间的数据血缘关系,减轻了人工的操作,便于进行数据分析。
基于上述实施例,参见图2,在本实施例中,提供了另一种业务系统间数据血缘的识别方法,该方法具体包括:
S201、从不同业务系统的数据库中提取元数据信息;根据所述元数据信息从不同数据库中获取对应的数据资产;按照预定的识别规则,对不同业务系统的数据资产进行识别,确定不同数据资产的类型;
具体的,在本实施例中,识别每个业务系统的数据资产的类型时,首先需要从不同业务系统的数据库中分别提取元数据信息,该元数据信息为不同业务系统的数据资产的元数据信息;进一步,根据提取的元数据信息,从对应的数据库中进行数据采样,该数据采样即为利用提取的元数据信息,从对应的数据库中获取对应的数据资产,这里提取的数据资产的数目会很多,例如1000多条,因此,为了提高后续计算血缘相似度的效率,在本实施例中,需要识别数据资产的类型;在本方案中,预定的识别规则可以包括正则匹配、自然语言识别方式等识别规则,通过上述识别规则,可以对采样的数据资产进行识别,以确定每条数据的类型。
S202、计算不同业务系统之间数据资产中的目标数据间的血缘相似度;
其中,所述计算不同业务系统之间数据资产中的目标数据间的血缘相似度,包括:计算不同业务系统之间的同一类型的目标数据的相似度,将所述相似度作为不同业务系统之间的目标数据的血缘相似度。
具体来说,在本方案中,可以将不同业务系统之间同一类型的数据称为目标数据,也可以将不同业务系统之间不是同一类型的数据成为目标数据;在此以将不同业务系统之间同一类型的数据称为目标数据进行说明:如果本方案中的业务系统包括APP1和APP2,那么本方案中在APP1和APP2中属于同一类型的目标数据包括两个,一个目标数据在APP1中,另一个目标数据在APP2中;例如:APP1和APP2均包括类型为数字类型的电话号码,也就是说,APP1中的目标数据为第一电话号码,APP2中的目标数据为第二电话号码,计算APP1和APP2中同一类型的目标数据的血缘相似度,也就是计算APP1中的第一电话号码和APP2中的第二电话号码的血缘相似度。
进一步,本实施例计算目标数据之间的血缘相似度时,是对系统间的数据进行相似度匹配,然后将匹配结果标识数据间的血缘相似度;这里的匹配结果即为业务系统间数据之间的相似度结果,例如:若APP1中存在数据是从APP2中获取的,那么计算APP1与APP2间的血缘相似度时,两个业务系统间目标数据的血缘相似度则会较高;就算APP1将获取的数据修改后存储在数据库,虽然这时在S202中计算的血缘相似度可能较低,这时通过后续步骤中的调用关系依然可以查找到数据间的血缘关系。
S203、采集不同业务系统间的交互报文;根据不同业务系统间的API调用关系,从所述交互报文中识别目标数据所在的不同目标业务系统间的交互报文;从所述不同目标业务系统间的交互报文中识别交互数据;
具体的,在本实施例中,该交互数据具体是从数据流量中提取的API接口中的数据;首先,本方案通过流量采集器采集不同业务系统之间交互的报文,然后从交互报文的流量中分析业务系统间的API接口调用关系,识别系统间的业务血缘,并通过自然语言识别的方式从API调用的报文载荷中识别交互的数据信息。
可以理解的是,本方案中的业务系统的数量可能比目标业务系统的数量多,因此,获取的交互报文中除了包括目标业务系统间的交互报文之外,还有其他的业务系统的交互报文,所以在本方案中,通过不同业务系统间的API调用关系,从包括所有业务系统的交互报文中提取目标业务系统间的交互报文,该目标业务系统间的交互报文便可以标识系统间的业务血缘。进一步,目标业务系统间的交互报文中并非所有的数据均为确定调用关系的有效数据,因此在本方案中,需要从不同目标业务系统间的交互报文中识别交互数据,该交互数据的识别可以通过目标数据的类型等方式来确定,例如通过自然语言识别的方式来识别。
S204、将所述交互数据和所述目标数据关联,确定目标数据在不同目标业务系统间是否存在调用关系。
本方案在确定目标数据的血缘之前,需要确定目标数据的调用关系,具体是把从报文中识别的交互数据和系统中的数据资产进行关联,也即把S203中识别的交互数据和S202中的目标数据进行关联,从而确定哪些数据提供了对外的访问,也即在不同的目标交互系统间存在调用关系。
S205、根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
在本实施例中,提供了两种确定血缘关系的具体方式:
方式一:若目标数据在不同目标业务系统间存在调用关系,则所述血缘相似度大于等于第一预定阈值时,判定目标数据之间存在血缘关系;所述血缘相似度在第一预定阈值与第二预定阈值之间时,判定目标数据之间存在疑似血缘关系,所述血缘相似度小于等于第二预定阈值时,判定目标数据之间不存在血缘关系;其中,所述第二预定阈值小于所述第一预定阈值;
若目标数据在不同目标业务系统间不存在调用关系,则所述血缘相似度大于等于第三预定阈值时,判定目标数据之间存在疑似血缘关系;所述血缘相似度小于第三预定阈值时,判定目标数据之间不存在血缘关系。
方式二:判断目标数据在不同目标业务系统间是否存在调用关系;
若否,则判定不同目标业务系统的目标数据之间没有血缘关系;若是,则在所述血缘相似度大于第四阈值时,判定不同目标业务系统的目标数据之间存在疑似血缘关系。
在第一种方式中,在存在调用关系下,通过血缘相似度与第一预定阈值和第二预定阈值之间的关系,判定调用关系为存在血缘关系、存在疑似血缘关系或者不存在血缘关系中的任意一种;例如第一预定阈值为90%,第二预定阈值为60%,若血缘相似度大于等于90%,则为存在血缘关系;若血缘相似度大于60%小于90%,则存在疑似血缘关系;若血缘相似度小于等于60%,则不存在血缘关系;在不存在调用关系下,如果目标数据之间的血缘相似度很高,这时可将调用关系确定为存在疑似血缘关系,否则不存在血缘关系,例如:若第三预定阈值为80%,这时如果血缘相似度大于80%,则确定调用关系为存在疑似血缘关系,若小于80%,则确定没有疑似血缘关系。
在第二种方式中,考虑到目标数据从一个业务系统调用至另一个业务系统后,会存在修改的现象,例如:APP1中存在数据A,APP2中存在从APP1中调用的数据A,但是数据A经过与数据B的修改后,生成了包括数据A的数据C,这时虽然数据A和数据C虽然血缘相似度较低,但是确存在调用关系,而且数据A和数据C之间确实是存在血缘关系的。这种情况下,数据C的类型便可能与数据A的类型不同。
因此,在这种情况下,虽然两个目标数据间的血缘相似度较低,但是只要目标数据间存在调用关系,这时便可将具有调用关系的相似度较低的目标数据直接确定为存在疑似血缘关系的数据,而不存在调用关系的目标数据确定为不存在血缘关系。在本实施例中,可将第四阈值设置的较低,例如15%,也就是说明,只要血缘相似度大于15%,且具有调用关系,都称之为存在疑似血缘关系。
需要说明的是,上述两种方式为本实施例提供的两种具体的确定方式,但并不局限于上述两种方式,可根据实际的应用场景进行变动,只要能根据血缘相似度和调用关系确定血缘关系即可。并且,在上述方式中,若确定目标数据之间存在疑似血缘关系,这时可以通过其他方式再进一步确认,以准确的确定目标数据之间的血缘关系。
综上可以看出,在本实施例中,是通过数据库数据资产的识别和采集API访问的流量信息相结合的方式分析识别数据血缘,与现有技术中通过对代码逻辑进行数据链路梳理得到数据血缘关系的方式相比,可自动并且准确的识别系统间的数据血缘关系,减轻了人工的操作。
下面对本发明实施例提供的识别装置进行介绍,下文描述的识别装置与上文描述的识别方法可以相互参照。
参见图3,本发明实施例提供的一种业务系统间数据血缘的识别装置,包括:
类型识别模块100,用于识别每个业务系统的数据资产的类型;
血缘相似度计算模块200,用于计算不同业务系统之间数据资产中的目标数据间的血缘相似度;
交互数据获取模块300,用于获取不同目标数据所在的目标业务系统间的交互数据;
调用关系确定模块400,用于根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;
血缘关系确定模块500,用于根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
其中,类型识别模块包括:
提取单元,用于从不同业务系统的数据库中提取元数据信息;
数据资产获取单元,用于根据所述元数据信息从不同数据库中获取对应的数据资产;
类型确定单元,用于按照预定的识别规则,对不同业务系统的数据资产进行识别,确定不同数据资产的类型。
其中,血缘相似度计算模块具体用于:计算不同业务系统之间的同一类型的目标数据的相似度,将所述相似度作为不同业务系统之间的目标数据的血缘相似度。
其中,交互数据获取模块包括:
交互报文采集单元,用于采集不同业务系统间的交互报文;
交互报文确定单元,用于根据不同业务系统间的API调用关系,从所述交互报文中识别目标数据所在的不同目标业务系统间的交互报文;
交互数据识别单元,用于从所述不同目标业务系统间的交互报文中识别交互数据。
其中,调用关系确定模块具体用于:将所述交互数据和所述目标数据关联,确定目标数据在不同目标业务系统间是否存在调用关系。
其中,血缘关系确定模块,包括:
第一判定单元,用于当目标数据在不同目标业务系统间存在调用关系,且血缘相似度大于等于第一预定阈值时,判定目标数据之间存在血缘关系;
第二判定单元,用于当目标数据在不同目标业务系统间存在调用关系,且所述血缘相似度在第一预定阈值与第二预定阈值之间时,判定目标数据之间存在疑似血缘关系;
第三判定单元,用于当目标数据在不同目标业务系统间存在调用关系,且所述血缘相似度小于等于第二预定阈值时,判定目标数据之间不存在血缘关系;其中,所述第二预定阈值小于所述第一预定阈值;
第四判定单元,用于当目标数据在不同目标业务系统间不存在调用关系,且所述血缘相似度大于等于第三预定阈值时,判定目标数据之间存在疑似血缘关系;
第五判定单元,用于当目标数据在不同目标业务系统间不存在调用关系,且血缘相似度小于第三预定阈值时,判定目标数据之间不存在血缘关系。
其中,血缘关系确定模块,包括:
判断单元,用于判断目标数据在不同目标业务系统间是否存在调用关系;
第六判定单元,用于在存在调用关系时,判定不同目标业务系统的目标数据之间没有血缘关系;
第七判定单元,用于在不存在调用关系且所述血缘相似度大于第四阈值时,判定不同目标业务系统的目标数据之间存在疑似血缘关系。
本发明实施例还公开了一种业务系统间数据血缘的识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述方法实施例所述的业务系统间数据血缘的识别方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法实施例所述的业务系统间数据血缘的识别方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上可见,本申请提供的这一种业务系统间数据血缘的识别方法、装置、设备及计算机可读存储介质,通过对业务系统的数据资产的血缘相似度和调用关系结合的方式,可以自动且准确的识别系统间的数据血缘关系,减轻了人工的操作,便于进行数据分析。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种业务系统间数据血缘的识别方法,其特征在于,包括:
识别每个业务系统的数据资产;
计算不同业务系统之间数据资产中的目标数据间的血缘相似度;获取不同目标数据所在的目标业务系统间的交互数据,根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;
根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
2.根据权利要求1所述的识别方法,其特征在于,所述识别每个业务系统的数据资产的类型,包括:
从不同业务系统的数据库中提取元数据信息;
根据所述元数据信息从不同数据库中获取对应的数据资产;
按照预定的识别规则,对不同业务系统的数据资产进行识别,确定不同数据资产的类型。
3.根据权利要求1所述的识别方法,其特征在于,获取不同目标数据所在的目标业务系统间的交互数据,包括:
采集不同业务系统间的交互报文;
根据不同业务系统间的API调用关系,从所述交互报文中识别目标数据所在的不同目标业务系统间的交互报文;
从所述不同目标业务系统间的交互报文中识别交互数据。
4.根据权利要求3所述的识别方法,其特征在于,根据所述交互数据确定不同目标数据在目标业务系统间的调用关系,包括:
将所述交互数据和所述目标数据关联,确定目标数据在不同目标业务系统间是否存在调用关系。
5.根据权利要求1所述的识别方法,其特征在于,所述计算不同业务系统之间数据资产中的目标数据间的血缘相似度,包括:
计算不同业务系统之间的同一类型的目标数据的相似度,将所述相似度作为不同业务系统之间的目标数据的血缘相似度。
6.根据权利要求1至5中任意一项所述的识别方法,其特征在于,根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系,包括:
若目标数据在不同目标业务系统间存在调用关系,则所述血缘相似度大于等于第一预定阈值时,判定目标数据之间存在血缘关系;所述血缘相似度在第一预定阈值与第二预定阈值之间时,判定目标数据之间存在疑似血缘关系,所述血缘相似度小于等于第二预定阈值时,判定目标数据之间不存在血缘关系;其中,所述第二预定阈值小于所述第一预定阈值;
若目标数据在不同目标业务系统间不存在调用关系,则所述血缘相似度大于等于第三预定阈值时,判定目标数据之间存在疑似血缘关系;所述血缘相似度小于第三预定阈值时,判定目标数据之间不存在血缘关系。
7.根据权利要求1至4中任意一项所述的识别方法,其特征在于,根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系,包括:
判断目标数据在不同目标业务系统间是否存在调用关系;
若否,则判定不同目标业务系统的目标数据之间没有血缘关系;若是,则在所述血缘相似度大于第四阈值时,判定不同目标业务系统的目标数据之间存在疑似血缘关系。
8.一种业务系统间数据血缘的识别装置,其特征在于,包括:
类型识别模块,用于识别每个业务系统的数据资产的类型;
血缘相似度计算模块,用于计算不同业务系统之间数据资产中的目标数据间的血缘相似度;
交互数据获取模块,用于获取不同目标数据所在的目标业务系统间的交互数据;
调用关系确定模块,用于根据所述交互数据确定不同目标数据在目标业务系统间的调用关系;
血缘关系确定模块,用于根据所述血缘相似度和所述调用关系,确定不同目标业务系统的目标数据的血缘关系。
9.一种业务系统间数据血缘的识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述业务系统间数据血缘的识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述业务系统间数据血缘的识别方法的步骤。
CN201811527199.8A 2018-12-13 2018-12-13 业务系统间数据血缘的识别方法、装置、设备及存储介质 Active CN109614433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811527199.8A CN109614433B (zh) 2018-12-13 2018-12-13 业务系统间数据血缘的识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811527199.8A CN109614433B (zh) 2018-12-13 2018-12-13 业务系统间数据血缘的识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109614433A true CN109614433A (zh) 2019-04-12
CN109614433B CN109614433B (zh) 2022-02-15

Family

ID=66008398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811527199.8A Active CN109614433B (zh) 2018-12-13 2018-12-13 业务系统间数据血缘的识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109614433B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471949A (zh) * 2019-07-11 2019-11-19 阿里巴巴集团控股有限公司 数据血缘分析方法、装置、系统、服务器及存储介质
CN111090686A (zh) * 2019-12-24 2020-05-01 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器和存储介质
CN111104474A (zh) * 2019-12-11 2020-05-05 亚信科技(中国)有限公司 一种数据地图的构建方法及装置
CN111767320A (zh) * 2020-06-29 2020-10-13 中国银行股份有限公司 数据血缘关系确定方法及装置
CN112052026A (zh) * 2020-09-03 2020-12-08 中国银行股份有限公司 系统间交互关系确定方法及装置
CN112241421A (zh) * 2019-07-18 2021-01-19 天云融创数据科技(北京)有限公司 一种数据血缘确定方法和装置
CN112328575A (zh) * 2020-11-12 2021-02-05 杭州数梦工场科技有限公司 数据资产血缘生成方法、装置、电子设备
CN112527796A (zh) * 2020-12-10 2021-03-19 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质
CN113806356A (zh) * 2020-06-16 2021-12-17 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备
CN114510611A (zh) * 2022-04-20 2022-05-17 中信证券股份有限公司 一种构建元数据血缘图谱的方法、装置及相关设备
CN117290355A (zh) * 2023-08-29 2023-12-26 云启智慧科技有限公司 一种元数据地图构建系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061302A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Location influenced search results
CN101710893A (zh) * 2009-11-06 2010-05-19 大连新中连软件集团有限公司 应用软件业务系统的关联装置、系统和方法
US8996395B1 (en) * 2014-09-16 2015-03-31 Credibility Corp. Building intelligence from customer relationship management events
CN104734894A (zh) * 2013-12-18 2015-06-24 中国移动通信集团甘肃有限公司 一种流量数据筛选方法和装置
US20160004757A1 (en) * 2013-10-04 2016-01-07 Hitachi, Ltd. Data management method, data management device and storage medium
CN106790206A (zh) * 2017-01-05 2017-05-31 厦门中控生物识别信息技术有限公司 业务系统的协议解析方法及装置
CN106909492A (zh) * 2017-03-07 2017-06-30 北京盛世全景科技股份有限公司 业务数据的追踪方法及装置
CN107239458A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 基于大数据推算开发对象关系的方法及装置
CN107545030A (zh) * 2017-07-17 2018-01-05 阿里巴巴集团控股有限公司 数据血缘关系的处理方法、装置及设备
CN107831890A (zh) * 2017-10-11 2018-03-23 北京华捷艾米科技有限公司 基于ar的人机交互方法、装置及设备
CN108009209A (zh) * 2017-11-08 2018-05-08 山东中创软件商用中间件股份有限公司 一种查询服务血缘关系信息的方法及装置
CN108256113A (zh) * 2018-02-09 2018-07-06 口碑(上海)信息技术有限公司 数据血缘关系的挖掘方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061302A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Location influenced search results
CN101710893A (zh) * 2009-11-06 2010-05-19 大连新中连软件集团有限公司 应用软件业务系统的关联装置、系统和方法
US20160004757A1 (en) * 2013-10-04 2016-01-07 Hitachi, Ltd. Data management method, data management device and storage medium
CN104734894A (zh) * 2013-12-18 2015-06-24 中国移动通信集团甘肃有限公司 一种流量数据筛选方法和装置
US8996395B1 (en) * 2014-09-16 2015-03-31 Credibility Corp. Building intelligence from customer relationship management events
CN107239458A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 基于大数据推算开发对象关系的方法及装置
CN106790206A (zh) * 2017-01-05 2017-05-31 厦门中控生物识别信息技术有限公司 业务系统的协议解析方法及装置
CN106909492A (zh) * 2017-03-07 2017-06-30 北京盛世全景科技股份有限公司 业务数据的追踪方法及装置
CN107545030A (zh) * 2017-07-17 2018-01-05 阿里巴巴集团控股有限公司 数据血缘关系的处理方法、装置及设备
CN107831890A (zh) * 2017-10-11 2018-03-23 北京华捷艾米科技有限公司 基于ar的人机交互方法、装置及设备
CN108009209A (zh) * 2017-11-08 2018-05-08 山东中创软件商用中间件股份有限公司 一种查询服务血缘关系信息的方法及装置
CN108256113A (zh) * 2018-02-09 2018-07-06 口碑(上海)信息技术有限公司 数据血缘关系的挖掘方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PEI-SHAN CHANG等: "Towards Social Recommendation System Based on the Data from Microblogs", 《2011 INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING》 *
周振龙: "用电信息采集系统的设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471949A (zh) * 2019-07-11 2019-11-19 阿里巴巴集团控股有限公司 数据血缘分析方法、装置、系统、服务器及存储介质
CN112241421A (zh) * 2019-07-18 2021-01-19 天云融创数据科技(北京)有限公司 一种数据血缘确定方法和装置
CN111104474A (zh) * 2019-12-11 2020-05-05 亚信科技(中国)有限公司 一种数据地图的构建方法及装置
CN111104474B (zh) * 2019-12-11 2023-08-29 亚信科技(中国)有限公司 一种数据地图的构建方法及装置
CN111090686A (zh) * 2019-12-24 2020-05-01 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器和存储介质
CN111090686B (zh) * 2019-12-24 2023-04-18 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器和存储介质
CN113806356A (zh) * 2020-06-16 2021-12-17 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备
CN113806356B (zh) * 2020-06-16 2024-03-19 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备
CN111767320B (zh) * 2020-06-29 2023-08-18 中国银行股份有限公司 数据血缘关系确定方法及装置
CN111767320A (zh) * 2020-06-29 2020-10-13 中国银行股份有限公司 数据血缘关系确定方法及装置
CN112052026A (zh) * 2020-09-03 2020-12-08 中国银行股份有限公司 系统间交互关系确定方法及装置
CN112052026B (zh) * 2020-09-03 2024-04-19 中国银行股份有限公司 系统间交互关系确定方法及装置
CN112328575A (zh) * 2020-11-12 2021-02-05 杭州数梦工场科技有限公司 数据资产血缘生成方法、装置、电子设备
CN112527796A (zh) * 2020-12-10 2021-03-19 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质
CN112527796B (zh) * 2020-12-10 2023-07-21 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质
CN114510611A (zh) * 2022-04-20 2022-05-17 中信证券股份有限公司 一种构建元数据血缘图谱的方法、装置及相关设备
CN117290355A (zh) * 2023-08-29 2023-12-26 云启智慧科技有限公司 一种元数据地图构建系统
CN117290355B (zh) * 2023-08-29 2024-05-14 云启智慧科技有限公司 一种元数据地图构建系统

Also Published As

Publication number Publication date
CN109614433B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN109614433A (zh) 业务系统间数据血缘的识别方法、装置、设备及存储介质
CN109816397B (zh) 一种欺诈判别方法、装置及存储介质
WO2019218699A1 (zh) 欺诈交易判断方法、装置、计算机设备和存储介质
US20080155335A1 (en) Graphical analysis to detect process object anomalies
CN106709012A (zh) 一种大数据分析方法及装置
CN109241068B (zh) 前后台数据比对的方法、装置及终端设备
CN108989581B (zh) 一种用户风险识别方法、装置及系统
US10657530B2 (en) Automated transactions clearing system and method
JP2019512764A (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
CN110378681B (zh) 账户资源转移路径的确定方法、装置、设备及存储介质
CN105447035B (zh) 数据扫描方法及装置
CN105354697A (zh) 一种基于财务科目规则库的自动在线审计方法及系统
CN106126704A (zh) 一种财税整合平台、系统和方法
CN109993454A (zh) 审计风险处理方法、装置、计算机设备和存储介质
CN115687787A (zh) 产业政策目标群画像构建方法、系统及存储介质
CN115955355A (zh) 一种攻击事件知识图谱的输出方法及装置
CN110443044A (zh) 区块链客户端漏洞挖掘方法、装置、设备及存储介质
CN111861733B (zh) 基于地址模糊匹配的欺诈防控系统及方法
CN105573984B (zh) 社会经济指标的识别方法及装置
CN107423140B (zh) 一种返回码识别方法和装置
CN109324963A (zh) 自动测试收益结果的方法及终端设备
CN109685638B (zh) 一种审计覆盖率测量方法、装置及存储介质
CN113407495A (zh) 一种基于simhash的文件相似度判定方法及系统
CN111027296A (zh) 基于知识库的报表生成方法及系统
CN111429257A (zh) 一种交易监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant