CN113760918A - 一种确定数据血缘关系的方法、装置、计算机设备和介质 - Google Patents
一种确定数据血缘关系的方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN113760918A CN113760918A CN202111066589.1A CN202111066589A CN113760918A CN 113760918 A CN113760918 A CN 113760918A CN 202111066589 A CN202111066589 A CN 202111066589A CN 113760918 A CN113760918 A CN 113760918A
- Authority
- CN
- China
- Prior art keywords
- data
- data table
- information
- name
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000008280 blood Substances 0.000 title claims abstract description 71
- 210000004369 blood Anatomy 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229960000182 blood factors Drugs 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种确定数据血缘关系的方法、装置、计算机设备和介质,该方法包括:根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定第一待检测数据所在第一数据表的第一数据信息和第二待检测数据所在第二数据表的第二数据信息;根据第一数据信息的数据表名称和第二数据信息的数据表名称之间的第一名称相似度,确定第一数据表与第二数据表之间的强关联程度;根据第一数据信息的数据表名称和第二数据信息的数据表名称,以及第一数据表和第二数据表分别对应的属性信息,确定第一数据表与第二数据表之间的弱关联程度;根据强关联程度和弱关联程度,确定第一待检测数据和第二待检测数据的血缘关系。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种确定数据血缘关系的方法、装置、计算机设备和介质。
背景技术
数据血缘是数据间的链路关系,可以用来描述数据的产生经过了哪些过程和阶段,包括新增、加工、组合、转换等等。随着社会的迅速发展,在这个数据信息高速流通的时代,无论是制造产业,还是日常的生活中,每时每刻都会产生大量的数据,并且在当今社会这些数据成为了社会生产的宝贵财富,这些数据经过科研人员的分析,会继续创造更高的价值。
一般数据都是存储在数据库中,不同的数据会根据对应的分类或者来源存储于对应的数据表中,也就是,在数据库中会存储有多个数据表,随着时间的流逝,数据库中每个数据表的依赖关系会频繁发生变化,导致数据表与数据表之间的关联关系变得复杂、难以追溯。
发明内容
有鉴于此,本申请的目的在于提供一种确定数据血缘关系的方法、装置、计算机设备和介质,用于解决现有技术中数据之间血缘关系确定不准确的问题。
第一方面,本申请实施例提供了一种确定数据血缘关系的方法,包括:
根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定所述第一待检测数据所在第一数据表的第一数据信息和所述第二待检测数据所在第二数据表的第二数据信息;
根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度;
根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度;
根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系。
可选的,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度,包括:
根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称中出现的相同关键词,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度;
将所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度,确定为所述第一数据表与所述第二数据表之间的强关联程度。
可选的,通过如下步骤计算所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度:
根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称分别对应语义,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第二名称相似度。
可选的,通过如下步骤计算所述根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度:
根据所述第一数据表的数据字段与所述第二数据表的数据字段之间字符串的距离,计算所述第一数据表和第二数据表分别对应的数据字段之间的第一属性相似度;
根据所述第一数据表的字段取值与所述第二数据表的字段取值的交集和并集,计算所述第一数据表和第二数据表分别对应的数据字段之间的第二属性相似度;
根据所述第一数据表的字段取值范围与所述第二数据表的字段取值范围的交集,计算所述第一数据表和第二数据表分别对应的字段取值范围之间的第三属性相似度。
可选的,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度,包括:
基于所述第二名称相似度、所述第一属性相似度、所述第二属性相似度和所述第三属性相似度的加权求和值,确定所述第一数据表与所述第二数据表之间的弱关联程度。
可选的,根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系,包括:
基于第一加权值与所述强关联程度的乘积与第二加权值与所述弱关联程度的乘积之和,确定所述第一待检测数据和所述第二待检测数据的血缘关系;所述第一加权值大于所述第二加权值。
第二方面,本申请实施例提供了一种确定数据血缘关系的装置,包括:
第一确定模块,用于根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定所述第一待检测数据所在第一数据表的第一数据信息和所述第二待检测数据所在第二数据表的第二数据信息;
第二确定模块,用于根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度;
第三确定模块,用于根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度;
第四确定模块,用于根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系。
可选的,所述第二确定模块,包括:
第一计算单元,用于根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称中出现的相同关键词,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度;
第一确定单元,用于将所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度,确定为所述第一数据表与所述第二数据表之间的强关联程度。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
本申请实施例提供的确定数据血缘关系的方法,首先,根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定所述第一待检测数据所在第一数据表的第一数据信息和所述第二待检测数据所在第二数据表的第二数据信息;然后,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度;其次,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度;最后,根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系。
在某些实施例中,有些数据表的数据表名称可能仅仅是一个编号,或者是随机字符串组成的,因此,仅仅靠数据表名称之间的相似度并不能准确的确定出不同数据之间的血缘关系,因此,本申请确定不同数据之间的血缘关系时,除了利用数据所属数据表的数据表名称之外,还利用了两个数据表中所存储的数据来确定,也就是,在不同数据表的数据表名称差异较大时,根据不同数据表中存储的数据的相似度,也能准确的确定出不同数据表之间的血缘关系。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种确定数据血缘关系的方法的流程示意图;
图2为本申请实施例提供的一种确定强关联关系的方法的流程示意图;
图3为本申请实施例提供的一种确定数据血缘关系的装置的结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于存储于数据库中的数据表之间,是存在一定的数据血缘关系的,为了便于血缘关系的梳理,可以通过对数据库中的数据表绘制数据血缘关系图,来体现数据之间的血缘关系,但是数据之间的血缘关系错综复杂,就会导致绘制出来的数据血缘关系图也比较复杂,进而通过图形化展示出来的数据血缘关系图也无法让用户快速的确定出数据之间的血缘关系,而且,通过数据血缘关系图的方式来确定数据之间的血缘关系,需要用户自己通过观察才能得到结果,这样很容易会因为用户观察的不仔细导致确定的数据之间的血缘关系不准确。又或者,通过不同数据对应的数据表名称之间的相似度来确定不同数据之间的血缘关系,数据表中的数据多种多样,仅依靠数据表名称来确定数据间的血缘关系也不准确。
基于上述缺陷,本申请实施例提供了一种确定数据血缘关系的方法,如图1所示,包括以下步骤:
S101,根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定所述第一待检测数据所在第一数据表的第一数据信息和所述第二待检测数据所在第二数据表的第二数据信息;
S102,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度;
S103,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息的属性信息和所述第二数据信息的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度;
S104,根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系。
本申请实施例中确定数据血缘关系的方法可以运行于服务器。
在上述步骤S101中,数据血缘确定需求是用于表征确定第一待检测数据和第二待检测数据之间血缘关系的需求,数据血缘确定需求可以是用户通过终端设备向服务器发送的,终端设备是靠近用户侧的具有数据传输功能的设备,如,移动终端、电视机、计算机、掌上电脑等。数据血缘确定需求中携带有需要确定血缘关系的第一待检测数据和第二待检测数据。第一待检测数据或第二待检测数据可以是数据库中所存储的数据表中的数据,也可以是数据库中所存储的数据表,或者是数据库中存储的多个数据表,其中,第一待检测数据和第二待检测数据是不同的数据。若第一待检测数据或第二待检测数据可以是数据库中所存储的数据表中的数据,则根据该数据的附加信息,可以了解到该数据对应的数据表。数据表的数据信息是数据表所携带的数据,数据表的数据信息包括数据表名称和属性信息,属性信息包括数据字段、字段取值和字段取值范围。数据表名称是可以用于表征该数据表的标识。数据表的数据字段指的是每个数据表中表头对应的字符串。字段取值是数据字段对应表格中的取值。字段取值范围是数据字段在取值时对应的取值范围。本申请中,若数据血缘确定需求中明确给出了第一待检测数据和第二待检测数据对应的数据,则可以根据第一待检测数据和第二待检测数据对应的数据,确定第一待检测数据所在第一数据表的第一数据信息和第二待检测数据所在第二数据表的第二数据信息。若数据血缘确定需求中给出第一待检测数据对应的数据,该需求中指出要确定该第一待检测数据与数据库中其他数据之间的血缘关系,则第二待检测数据就是数据库中除了第一待检测数据之外的其他数据。
具体实施中,数据信息包括数据表的数据表名称和属性信息,因此,可以通过正则表达式从第一待检测数据所在第一数据表中获取第一数据信息,以及通过正则表达式从第二待检测数据所在第二数据表中获取第二数据信息。
在上述步骤S102中,强关联程度是通过不同数据对应的数据表名称之间的相似度来确定的,强关联程度是可以通过不同数据表名称之间的字符比对来确定的。因此,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间字符的相同数量,确定第一数据表与第二数据表之间的第一名称相似度,进而,将第一名称相似度确定为第一数据表与第二数据表之间的强关联程度。强关联程度指的是不同数据对应的数据表名称之间的相似度大于预设阈值的程度。
在上述步骤S103中,弱关联程度是通过不同数据对应的数据表名称之间的相似度,以及对应的数据表的属性信息之间的相似度确定的,弱关联程度更多的表征的是两个数据表中所存储的数据的相似度。强关联程度指的是不同数据对应的数据表名称之间的相似度小于或等于预设阈值的程度。
具体实施中,除了通过相同字符可以确定不同数据的数据表名称之间的相似度,还可以通过数据表名称所表征的语义来确定不同数据表之间的相似度,除了数据表对应的数据表名称之间的相似度可以表征两个数据表之间的血缘关系之外,还可以通过不同数据表中所存储的数据之间的相似度来判断两个数据表之间的血缘关系。因此,可以基于第一数据信息的数据表名称和第二数据信息的数据表名称之间的第二名称相似度,以及第一数据信息的属性信息和第二数据信息的属性信息之间的属性相似度,来共同确定第一数据表与第二数据表之间的弱关联程度。
在上述步骤S104中,在确定出第一待检测数据的第一数据表和第二待检测数据的第二数据表之间的强关联程度和弱关联程度后,可以基于强关联程度和弱关联程度共同确定第一待检测数据和第二待检测数据的血缘关系。本申请除了考虑到第一数据表与第二数据表之间的强关联程度,还考虑到了第一数据表与第二数据表之间的弱关联程度,也就是,增加了数据之间的相似度,这样确定出来的血缘关系更准确。
通过上述四个步骤,有些数据表的数据表名称可能仅仅是一个编号,或者是随机字符串组成的,因此,仅仅靠数据表名称之间的相似度并不能准确的确定出不同数据之间的血缘关系,因此,本申请确定不同数据之间的血缘关系时,除了利用数据所属数据表的数据表名称之外,还利用了两个数据表中所存储的数据来确定,也就是,在不同数据表的数据表名称差异较大时,根据不同数据表中存储的数据的相似度,也能准确的确定出不同数据表之间的血缘关系。
强关联关系仅仅是不同数据表的数据表名称之间的相似度,强关联关系是一种比较直观的、通过相同字符的数量就能够体现出来的关系,本申请提供了一种确定强关联关系的方法,如图2所示,步骤S102,包括:
步骤S1021,根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称中出现的相同关键词,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度;
步骤S1022,将所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度,确定为所述第一数据表与所述第二数据表之间的强关联程度。
在上述步骤S1021中,关键词是能够表征数据表所存储数据的特征的词语。
具体实施中,通过训练好的关键词提取模型分别从第一数据信息的数据表名称和第二数据信息的数据表名称中提取出关键词,然后基于第一数据信息的数据表名称与第二数据信息的数据表名称中相同关键词的数量,计算第一数据信息的数据表名称和第二数据信息的数据表名称的第一名称相似度,计算第一名称相似度时,可以将第一数据信息的数据表名称对应的关键词组成第一集合,将第二数据信息的数据表名称对应的关键词组成第二集合,将第一集合与第二集合的交集与第一集合与第二集合的并集之间的比例,确定为第一数据信息的数据表名称和第二数据信息的数据表名称的第一名称相似度。
训练好的关键词提取模型是经过大量训练数据训练得到的,其训练过程包括如下步骤:
获取关键词训练集合;所述关检测训练集合包括至少一个训练样本,该训练样本包括训练文本和关键词标签;其中,所述关键词标签是所述训练文本中的关键词;
针对每一个训练样本,将所述训练样本中的训练文本作为待训练的关键词提取模型的输入,将所述训练样本中的关键词标签作为待训练的关键词提取模型的输出,对待训练的关键词提取模型进行训练,直至训练精度达到预设精度。
在上文中提到的关键词标签是人为在训练文本标记出来的。训练精度是人为预先设置好的,比如,训练精度可以是训练结果与关键词标签的相似度达到80%。
例如,第一数据信息的数据表名称为“2015年AB部门的年会统计名单”,第二数据信息的数据表名称为“2015年AB部门的体检统计名单”,基于训练好的关键词提取模型,从第一数据信息的数据表名称提取到的关键词为“2015年”、“AB部门”、“年会”、“统计名单”,基于第一数据信息的数据表名称提取到的关键词组成第一集合[“2015年”,“AB部门”,“年会”,“统计名单”],从第二数据信息的数据表名称提取到的关键词为“2015年”、“AB部门”、“体检”、“统计名单”,基于第二数据信息的数据表名称提取到的关键词组成第二集合[“2015年”,“AB部门”,“体检”,“统计名单”],其中,第一集合与第二集合的交集为[“2015年”,“AB部门”,“统计名单”],第一集合与第二集合的并集为[“2015年”,“AB部门”,“年会”,“体检”,“统计名单”],则第一名称相似度为3/5=0.6。
在上述步骤S1022中,在计算出第一名称相似度之后,就可以直接用第一名称相似度的数值表征第一数据表与第二数据表之间的强关联程度。
文字是一个博大精深的产物,表达同一个事物的词可以有多种,不同的词对应的字符不同,但其表达的语义可能是相同或相近的,因此,通过数据表名称来确定两个数据表之间的相似度,不仅仅可以通过相同关键词来确定,也可以根据语义相同的字符串来确定,也就是,步骤S103中,确定第二名称相似度,包括:
步骤1031,根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称分别对应的语义,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第二名称相似度。
在上述步骤1031中,语义是数据表名称所蕴含的意义。
具体实施中,首先为每个字符预先设置对应的语义向量,根据每个字符对应的语义向量构建第一数据信息的数据表名称对应的第一向量和第二数据信息的数据表名称对应的第二向量。然后,将第一向量和第二向量输入训练好的语义相似度计算模型,计算第一数据信息和第二数据信息分别对应的数据表名称之间的第二名称相似度。
上文中提到的训练好的语义相似度计算模型是通过大量的训练数据训练得到的,语义相似度计算模型是一种深度学习网络模型。
除了通过数据表的数据表名称可以确定出两个数据表之间的血缘关系之外,还可以根据数据表中存储的数据的属性信息来确定,并且属性信息之间的相似度更能体现数据表之间的血缘关系,也就是,步骤S103,包括:
步骤1032,根据所述第一数据表的数据字段与所述第二数据表的数据字段之间字符串的距离,计算所述第一数据表和第二数据表分别对应的数据字段之间的第一属性相似度;
步骤1033,根据所述第一数据表的字段取值与所述第二数据表的字段取值的交集和并集,计算所述第一数据表和第二数据表分别对应的数据字段之间的第二属性相似度;
步骤1034,根据所述第一数据表的字段取值范围与所述第二数据表的字段取值范围的交集,计算所述第一数据表和第二数据表分别对应的字段取值范围之间的第三属性相似度。
在上述步骤1032中,每个数据表可能会包括多个数据字段,针对第一数据表中每一个数据字段,利用字符串编辑距离法,计算该数据字段与第二数据表中每一个数据字段的编辑距离,确定出第二数据表中与该数据字段编辑距离最小的第一目标数据字段。然后统计第一数据表中,数据字段与第一目标数据字段之间的编辑距离小于预设距离的第一数量,根据统计得到的第一数量与第一数据表中数据字段的数量的比值,确定第一数据表和第二数据表分别对应的数据字段之间的第一属性相似度。
在上述步骤1033中,针对第一数据表中每一个数据字段,计算该数据字段对应的字段取值与第二数据表中每一个数据字段的字段取值的重复率,确定出第二数据表中与该数据字段的字段取值的重复率最大的第二目标数据字段。然后统计第一数据表中,数据字段与第二目标数据字段之间字段取值的重复率大于预设重复率的第二数量,根据统计得到的第二数量与第一数据表中数据字段的数量的比值,确定第一数据表和第二数据表分别对应的字段取值之间的第二属性相似度。
在上述步骤1034中,针对第一数据表中每一个数据字段,计算该数据字段对应的字段取值范围与第二数据表中每一个数据字段的字段取值范围的交集占比,确定出第二数据表中与该数据字段的字段取值范围的交集占比最大的第三目标数据字段。然后统计第一数据表中,数据字段与第二目标数据字段之间字段取值范围的交集占比大于预设交集占比的第三数量,根据统计得到的第三数量与第一数据表中数据字段的数量的比值,确定第一数据表和第二数据表分别对应的字段取值范围之间的第三属性相似度。
其中,交集占比指的是第一数据表中数据字段的字段取值范围和第二数据表中数据字段的字段取值范围的交集,与第一数据表中数据字段的字段取值范围的比值。
弱关联程度是由第一数据表和第二数据表分别对应的数据表名称、属性信息共同确定的,因此,步骤S103,包括:
步骤1035,基于所述第二名称相似度、所述第一属性相似度、所述第二属性相似度和所述第三属性相似度的加权求和值,确定所述第一数据表与所述第二数据表之间的弱关联程度。
在上述步骤1035中,分别为所述第二名称相似度、所述第一属性相似度、所述第二属性相似度和所述第三属性相似度预先设置好加权值,最后对所述第二名称相似度、所述第一属性相似度、所述第二属性相似度和所述第三属性相似度进行加权求和,得到第一数据表与第二数据表之间的弱关联程度。所述第二名称相似度、所述第一属性相似度、所述第二属性相似度和所述第三属性相似度分别对应的加权值,可以根据实际情况进行设置。
在得到强关联程度和弱关联程度后,可以共同确定第一待检测数据和第二待检测数据的血缘关系,步骤S104,包括:
步骤1041,基于第一加权值与所述强关联程度的乘积与第二加权值与所述弱关联程度的乘积之和,确定所述第一待检测数据和所述第二待检测数据的血缘关系;所述第一加权值大于所述第二加权值。
在上述步骤1041中,强关联程度更能直观的表征出第一待检测数据和第二待检测数据的血缘关系,因此,可以设置第一加权值大于第二加权值。当然,若工作人员更注重数据之间的血缘关系,则也可以根据实际需求,设置第一加权值小于第二加权值。
在确定出第一待检测数据和第二待检测数据的血缘关系之后,可以根据该血缘关系理清各个数据之间的依赖关系,进而可以快速的为各个数据进行分类,进而基于一类数据分析出该类数据的数据特征,并基于该数据特征生成针对性的实施计划,比如,第一待检测数据是初中生体检表,第二待检测数据是数据库中的所有数据,通过上述方法确定出与初中生体检表血缘关系较近的某某中学体测统计表,然后基于初中生体检表和某某中学体测统计表中的数据,为某某中学的学生生成体能训练策略信息,提高某某中学的学生的身体素质。
本申请实施例提供了一种确定数据血缘关系的装置,如图3所示,包括:
第一确定模块301,用于根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定所述第一待检测数据所在第一数据表的第一数据信息和所述第二待检测数据所在第二数据表的第二数据信息;
第二确定模块302,用于根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度;
第三确定模块303,用于根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度;
第四确定模块304,用于根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系。
可选的,所述第二确定模块,包括:
第一计算单元,用于根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称中出现的相同关键词,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度;
第一确定单元,用于将所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度,确定为所述第一数据表与所述第二数据表之间的强关联程度。
可选的,所述第三确定模块,包括:
第二确定单元,用于根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称分别对应语义,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第二名称相似度。
可选的,所述第三确定模块,包括:
第三确定单元,用于根据所述第一数据表的数据字段与所述第二数据表的数据字段之间字符串的距离,计算所述第一数据表和第二数据表分别对应的数据字段之间的第一属性相似度;
第四确定单元,用于根据所述第一数据表的字段取值与所述第二数据表的字段取值的交集和并集,计算所述第一数据表和第二数据表分别对应的数据字段之间的第二属性相似度;
第五确定单元,用于根据所述第一数据表的字段取值范围与所述第二数据表的字段取值范围的交集,计算所述第一数据表和第二数据表分别对应的字段取值范围之间的第三属性相似度。
可选的,所述第三确定模块,包括:
第一计算单元,用于基于所述第二名称相似度、所述第一属性相似度、所述第二属性相似度和所述第三属性相似度的加权求和值,确定所述第一数据表与所述第二数据表之间的弱关联程度。
可选的,所述第四确定模块,包括:
第二计算单元,用于基于第一加权值与所述强关联程度的乘积与第二加权值与所述弱关联程度的乘积之和,确定所述第一待检测数据和所述第二待检测数据的血缘关系;所述第一加权值大于所述第二加权值。
对应于图1中的确定数据血缘关系的方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述确定数据血缘关系的方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述确定数据血缘关系的方法,解决了现有技术中数据之间血缘关系确定不准确的问题。
对应于图1中的确定数据血缘关系的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述确定数据血缘关系的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述确定数据血缘关系的方法,解决了现有技术中数据之间血缘关系确定不准确的问题,本申请有些数据表的数据表名称可能仅仅是一个编号,或者是随机字符串组成的,因此,仅仅靠数据表名称之间的相似度并不能准确的确定出不同数据之间的血缘关系,因此,本申请确定不同数据之间的血缘关系时,除了利用数据所属数据表的数据表名称之外,还利用了两个数据表中所存储的数据来确定,也就是,在不同数据表的数据表名称差异较大时,根据不同数据表中存储的数据的相似度,也能准确的确定出不同数据表之间的血缘关系。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种确定数据血缘关系的方法,其特征在于,包括:
根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定所述第一待检测数据所在第一数据表的第一数据信息和所述第二待检测数据所在第二数据表的第二数据信息;
根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度;
根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度;
根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系。
2.根据权利要求1所述的方法,其特征在于,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度,包括:
根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称中出现的相同关键词,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度;
将所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度,确定为所述第一数据表与所述第二数据表之间的强关联程度。
3.根据权利要求1所述的方法,其特征在于,通过如下步骤计算所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度:
根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称分别对应语义,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第二名称相似度。
4.根据权利要求1所述的方法,其特征在于,通过如下步骤计算所述根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度:
根据所述第一数据表的数据字段与所述第二数据表的数据字段之间字符串的距离,计算所述第一数据表和第二数据表分别对应的数据字段之间的第一属性相似度;
根据所述第一数据表的字段取值与所述第二数据表的字段取值的交集和并集,计算所述第一数据表和第二数据表分别对应的数据字段之间的第二属性相似度;
根据所述第一数据表的字段取值范围与所述第二数据表的字段取值范围的交集,计算所述第一数据表和第二数据表分别对应的字段取值范围之间的第三属性相似度。
5.根据权利要求3和4所述的方法,其特征在于,根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度,包括:
基于所述第二名称相似度、所述第一属性相似度、所述第二属性相似度和所述第三属性相似度的加权求和值,确定所述第一数据表与所述第二数据表之间的弱关联程度。
6.根据权利要求1所述的方法,其特征在于,根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系,包括:
基于第一加权值与所述强关联程度的乘积与第二加权值与所述弱关联程度的乘积之和,确定所述第一待检测数据和所述第二待检测数据的血缘关系;所述第一加权值大于所述第二加权值。
7.一种确定数据血缘关系的装置,其特征在于,包括:
第一确定模块,用于根据数据血缘确定需求中的第一待检测数据和第二待检测数据,确定所述第一待检测数据所在第一数据表的第一数据信息和所述第二待检测数据所在第二数据表的第二数据信息;
第二确定模块,用于根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第一名称相似度,确定所述第一数据表与所述第二数据表之间的强关联程度;
第三确定模块,用于根据所述第一数据信息的数据表名称和所述第二数据信息的数据表名称之间的第二名称相似度,以及根据所述第一数据信息所在的所述第一数据表的属性信息和所述第二数据信息所在的所述第二数据表的属性信息之间的属性相似度,确定所述第一数据表与所述第二数据表之间的弱关联程度;
第四确定模块,用于根据所述强关联程度和所述弱关联程度,确定所述第一待检测数据和所述第二待检测数据的血缘关系。
8.根据权利要求7所述的装置,其特征在于,所述第二确定模块,包括:
第一计算单元,用于根据所述第一数据信息的数据表名称与所述第二数据信息的数据表名称中出现的相同关键词,计算所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度;
第一确定单元,用于将所述第一数据信息和第二数据信息分别对应的数据表名称之间的第一名称相似度,确定为所述第一数据表与所述第二数据表之间的强关联程度。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111066589.1A CN113760918A (zh) | 2021-09-13 | 2021-09-13 | 一种确定数据血缘关系的方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111066589.1A CN113760918A (zh) | 2021-09-13 | 2021-09-13 | 一种确定数据血缘关系的方法、装置、计算机设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113760918A true CN113760918A (zh) | 2021-12-07 |
Family
ID=78795099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111066589.1A Pending CN113760918A (zh) | 2021-09-13 | 2021-09-13 | 一种确定数据血缘关系的方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113760918A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628068A (zh) * | 2023-07-25 | 2023-08-22 | 杭州衡泰技术股份有限公司 | 一种基于动态窗口的数据搬运方法、系统及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190317938A1 (en) * | 2016-03-31 | 2019-10-17 | Smart Insight Corporation | Method, program, and system for automatic discovery of relationship between fields in environment where different types of data sources coexist |
CN112241421A (zh) * | 2019-07-18 | 2021-01-19 | 天云融创数据科技(北京)有限公司 | 一种数据血缘确定方法和装置 |
CN112711591A (zh) * | 2020-12-31 | 2021-04-27 | 天云融创数据科技(北京)有限公司 | 基于知识图谱的字段级的数据血缘确定方法及装置 |
-
2021
- 2021-09-13 CN CN202111066589.1A patent/CN113760918A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190317938A1 (en) * | 2016-03-31 | 2019-10-17 | Smart Insight Corporation | Method, program, and system for automatic discovery of relationship between fields in environment where different types of data sources coexist |
CN112241421A (zh) * | 2019-07-18 | 2021-01-19 | 天云融创数据科技(北京)有限公司 | 一种数据血缘确定方法和装置 |
CN112711591A (zh) * | 2020-12-31 | 2021-04-27 | 天云融创数据科技(北京)有限公司 | 基于知识图谱的字段级的数据血缘确定方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628068A (zh) * | 2023-07-25 | 2023-08-22 | 杭州衡泰技术股份有限公司 | 一种基于动态窗口的数据搬运方法、系统及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
CN110263248B (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN104081385B (zh) | 从文档表示信息 | |
RU2517368C2 (ru) | Способ и устройство определения и оценки значимости слов | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN106683688B (zh) | 一种情绪检测方法及装置 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN112148843B (zh) | 文本处理方法、装置、终端设备和存储介质 | |
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
CN107767273B (zh) | 基于社交数据的资产配置方法、电子装置及介质 | |
US20110055228A1 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN113032584B (zh) | 一种实体关联方法、装置、电子设备及存储介质 | |
CN113704599A (zh) | 营销转化用户的预测方法、装置及计算机设备 | |
CN114861677A (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
CN113760918A (zh) | 一种确定数据血缘关系的方法、装置、计算机设备和介质 | |
CN110909532B (zh) | 用户名称匹配方法、装置、计算机设备和存储介质 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
US11822609B2 (en) | Prediction of future prominence attributes in data set |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |