CN113468186B - 数据表主键关联方法、装置、计算机设备及可读存储介质 - Google Patents

数据表主键关联方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN113468186B
CN113468186B CN202111023802.0A CN202111023802A CN113468186B CN 113468186 B CN113468186 B CN 113468186B CN 202111023802 A CN202111023802 A CN 202111023802A CN 113468186 B CN113468186 B CN 113468186B
Authority
CN
China
Prior art keywords
data
node
nodes
association
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111023802.0A
Other languages
English (en)
Other versions
CN113468186A (zh
Inventor
姚佳
蒋静文
刘忠禹
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202111023802.0A priority Critical patent/CN113468186B/zh
Publication of CN113468186A publication Critical patent/CN113468186A/zh
Application granted granted Critical
Publication of CN113468186B publication Critical patent/CN113468186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了数据表主键关联方法、装置、计算机设备及可读存储介质,通过根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名,根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中,遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点,查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。从而能够通过计算机自动扫描数据表中字段的方式,快速、准确建立数据表主键之间的关联关系。

Description

数据表主键关联方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据表主键关联方法、装置、计算机设备及可读存储介质。
背景技术
在大量医疗体系系统中,常常出现系统交接人无法联系、系统文档缺失等问题,这是由于数据表之间的关联字段,也即数据表主键存在不清晰的情况。具体体现在,字段名混用,相同字段名滥用以及数据杂糅复杂,同一系统存在链式的关联字段等问题,而往往数据表的主键梳理工作,需要耗费大量的人工操作,耗时耗力。
因此,亟需一种能够快速、精确挖掘出数据表的主键,并关联数据表主键之间关系的方法。
发明内容
为了解决上述技术问题,本公开实施例提供了一种数据表主键关联方法、装置、计算机设备及可读存储介质,具体方案如下:
第一方面,本公开实施例提供了一种数据表主键关联方法,所述方法包括:
根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;
根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;
遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;
查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。
根据本公开实施例的一种具体实施方式,所述确定各基础节点与其它数据表的全部节点之间的关联网络步骤,包括:
计算各基础节点与其它数据表的全部节点的关联分数;
根据所述关联分数生成不同数据表基础节点之间的关联网络;
所述根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:
根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中。
根据本公开实施例的一种具体实施方式,所述根据所述关联分数生成不同数据表基础节点之间的关联网络的步骤,包括:
比较两两基础节点的关联分数是否大于或等于关联分数阈值;
若所述两两基础节点的关联分数大于或等于所述关联分数阈值,则保留所述两两基础节点之间的关联关系;
若所述两两基础节点的关联分数小于所述关联分数阈值,则删除所述两两基础节点之间的关联关系;
根据全部保留的两两节点之间的关联关系,生成不同数据表基础节点之间的关联网络。
根据本公开实施例的一种具体实施方式,所述计算各基础节点与其它数据表的全部节点的关联分数的步骤,包括:
计算基础节点与其它节点的多个关联指标,其中,所述其它节点为与所述基础节点所属数据表不同的其它数据表中的节点,所述多个关联指标包括字段的最长连续公共子序列比、字段所属表是否同系统、字段所属表名的最长连续公共子序列比、字段注释的加权编辑距离比、两个字段数据的长度分布一致性、两个字段数据的前5字符分布一致性、两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值;
对多个关联指标进行归一化处理,以得到对应各关联指标的指标计算值;
根据各所述指标计算值、预设的指标系数以及各关联指标的自适应权重,计算所述基础节点与所述其它节点的关联分数。
根据本公开实施例的一种具体实施方式,所述各关联指标的自适应权重的获取步骤,包括:
根据两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值以及对应的分布系数,计算目标分布系数;
计算各关联指标与所述目标分布系数的离散交叉熵,作为对应各关联指标的自适应权重。
根据本公开实施例的一种具体实施方式,所述根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:
初始化每一基础节点的数据字典;
将所述基础节点的字段名和数据表名存储在所述基础节点的数据字典中;
根据所述关联网络,对每一基础节点执行预设次数的关联节点存储步骤;
所述关联节点存储步骤包括:
提取与所述基础节点关联的多个关联节点的相关数据,其中,所述相关数据包括关联分数及关联节点的节点数据;
基于所述多个关联节点的关联分数占比,从所述多个关联节点中提取一个目标关联节点;
将所述目标关联节点的节点数据存储在所述基础节点的数据字典中。
根据本公开实施例的一种具体实施方式,所述将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤之后,所述方法还包括:
遍历每一基础节点的数据字典,删除多个节点数据中具有相同数据表名的节点数据,以得到节点数据集;
从所述节点数据集中保留出现频次最高的节点数据,并将所述出现频次最高的节点数据存储在基础节点的数据字典中。
第二方面,本公开实施例提供了一种数据表主键关联装置,所述装置包括:确定模块、存储模块、主键选取模块和主键关联模块,其中,所述确定模块、所述存储模块、所述主键选取模块和所述主键关联模块依次连接;
所述确定模块用于根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;
所述存储模块用于根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;
所述主键选取模块用于遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;
所述主键关联模块用于查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。
第三方面,本公开实施例提供了一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行第一方面所述的数据表主键关联方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面所述的数据表主键关联方法。
本公开实施例提供了一种数据表主键关联方法、装置、计算机设备及可读存储介质,所述数据表主键关联方法根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名,根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中,遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点,查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。从而能够通过计算机自动扫描数据表中字段的方式,快速、准确的建立数据表主键之间的关联关系,方便医疗系统的数据表主键梳理工作。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本实施例公开的一种数据表主键关联方法的方法流程示意图;
图2示出了本实施例公开的一种数据表主键关联方法中公开的关联网络示意图;
图3示出了本实施例公开的一种数据表主键关联方法中公开的两个字段数据的长度分布的示意图;
图4示出了本实施例公开的一种数据表主键关联方法中公开的两个字段数据的前5字符分布一致性的计算方法示意图;
图5示出了本实施例公开的一种数据表主键关联方法中公开的主键的关联关系示意图;
图6示出了本实施例公开的一种数据表主键关联装置的装置模块示意图。
附图标记:数据表主键关联装置-600;确定模块-601;存储模块-602;主键选取模块-603;主键关联模块-604。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
参考图1,本公开实施例提供了一种数据表主键关联方法,如图1所示,所述数据表主键关联方法包括:
步骤S101,根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;
在具体实施例中,所述各数据表可以为历史医疗体系系统中存在的多个数据表,例如住院登记表、急诊登记表等,所述数据表也可以为其它包括多类字段数据的数据表,此处不作具体限定。
所述一个基础节点为所述数据表中包括的一个字段,可以为身份证信息、社保卡信息等登记在所述数据表中的字段信息,或是其它类型信息,此处不对所述字段作具体限定。
每一个基础节点均包括一个数据字典memory,用于存放节点数据,其中,所述节点数据可以包括所述字段本身的字段名、所述字段所属的数据表的数据表名以及字段本身的字段数据。
所述主键为一个数据表中的关键字信息,能够通过一个主键关联其它的字段信息,形成一个完整的主键群。
具体的,本实施例中所述确定各基础节点与其它数据表的全部节点之间的关联网络步骤,包括:
计算各基础节点与其它数据表的全部节点的关联分数;
根据所述关联分数生成不同数据表基础节点之间的关联网络;
在具体计算过程中,遍历一个数据表的各基础节点与其它数据表的全部节点,对应选择一个基础节点与另一数据表中的基础节点进行关联分数的计算。
在计算完各基础节点与其它数据表的全部节点的关联分数后,根据所述关联分数生成如图2所示的不同数据表基础节点之间的关联网络。
根据本公开实施例的一种具体实施方式,所述计算各基础节点与其它数据表的全部节点的关联分数的步骤,包括:
计算基础节点与其它节点的多个关联指标,其中,所述多个关联指标包括字段的最长连续公共子序列比、字段所属表是否同系统、字段所属表名的最长连续公共子序列比、字段注释的加权编辑距离比、两个字段数据的长度分布一致性、两个字段数据的前5字符分布一致性、两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值;
对多个关联指标进行归一化处理,以得到对应各关联指标的指标计算值;
根据各所述指标计算值、预设的指标系数以及各关联指标的自适应权重,计算所述基础节点与所述其它节点的关联分数。
具体的,在获取了对应不同数据表的两个基础节点后,需要计算两两基础节点之间的九个关联指标。
其中,第一指标为字段的最长连续公共子序列比,具体计算过程如表1所示:
表1
Figure P_210827143422919_919593001
第二指标为字段所属表是否同系统,具体计算过程如表2所示:
表2
Figure T_210827143422982_982122001
第三指标为字段所属表名的最长连续公共子序列比,具体计算过程如表3所示:
表3
Figure P_210827143423044_044639001
第四指标为字段注释的加权编辑距离比,具体计算过程为根据对于不同字段的注释以及预设的加权规则,计算字段注释的加权编辑距离比;
第五指标为两个字段数据的非空值比平均值,具体计算方法为:
定义field1_data_valid: f1字段数据对应的非空值占比;
定义field2_data_valid: f2字段数据对应的非空值占比;
第五指标value v f1,f2)=(field1_data_valid+ field2_data_valid)/2。
如图3所示,第六指标为两个字段数据的长度分布一致性,具体计算方法为:
定义minlen数据的最小长度,定义maxlen数据的最大长度,将minlen至maxlen四等分,并计算两个字段数据在各等分中的占比,第六指标value vi f1,f2)=Hpq),其中,p为一个字段的离散分布长度,q为另一个字段的离散分布长度,H(p,q)为交叉熵公式。
举例来说,如图3所示,在计算两个字段的长度分布一致性时,一等分的数据长度可以属于区间[0,5),二等分的数据长度可以属于区间[5,10),三等分的数据长度可以属于区间[10,15),四等分的数据长度可以属于区间[15,20),且第一字段的字段数据在一等分占比为6%,第一字段的字段数据在二等分占比为18%,第一字段的字段数据在三等分占比为29%,第一字段的字段数据在四等分占比为47%,第二字段的字段数据在一等分占比为27%,第二字段的字段数据在二等分占比为20%,第二字段的字段数据在三等分占比为40%,第二字段的字段数据在四等分占比为13%,所述交叉熵H(p,q)=1.592=-0.06*math.log(0.27)+(-0.18*math.log(0.2))+(-0.29*math.log(0.4))+(-0.47*math.log(0.13))。
如图4所示,第七指标为两个字段数据的前5字符分布一致性,具体计算过程为,针对每个字段的每条数据,取前5个字符,若存在不足5个字符的情况,则在所述数据前填充空值,针对每个字段,计算各字符出现的占比,第七指标
Figure M_210827143423091_091447001
,其中
Figure M_210827143423176_176932002
为交叉熵公式,p为一个字段的字符分布占比,q为另一个字段的字符分布占比。
第八指标为两个字段数据的唯一值占比的最大值,具体计算过程为:
定义
Figure M_210827143423208_208170001
为字段1的数据条数,定义
Figure M_210827143423239_239447002
为字段2的数据条数,定义
Figure M_210827143423286_286282003
为字段1的数据去重后的条数,定义
Figure M_210827143423319_319524004
为字段2的数据去重后的条数,再通过预设公式
Figure M_210827143423367_367323005
即可计算出所述第八指标。
第九指标为两个字段数据去重后交集比的最大值,具体计算过程为:
定义
Figure M_210827143423412_412881001
为字段1去重后的数据,定义
Figure M_210827143423460_460193002
为字段2去重后的数据,并定义
Figure M_210827143423507_507963003
Figure M_210827143423555_555375004
Figure M_210827143423602_602214005
的数据交集,再通过预设公式
Figure M_210827143423633_633490006
即可计算出所述第九指标。
在计算出上述九个关联指标后,需要对各个关联指标进行归一化处理,以使得所述关联指标能够用于后续关联分数的计算,具体的,所述对多个关联指标进行归一化处理,以得到对应各关联指标的指标计算值的步骤,包括:
对所述第六指标
Figure M_210827143423702_702758001
和所述第七指标
Figure M_210827143423718_718935002
两个分布一致性的指标进行预设处理,所述预设处理过程为获取对应指标的指标最大值,并使用所述指标最大值减去对应指标的实时值,所述预设处理过程的计算公式为:
Figure M_210827143423765_765783001
Figure M_210827143423812_812649001
在处理完所述第六指标和所述第七指标后,对各指标取最大值进行归一化,以第一指标
Figure M_210827143423859_859561001
为例,所述归一化的计算公式为:
Figure M_210827143423875_875197001
对应所述各关联指标的指标计算值分别为,第一指标计算值
Figure M_210827143423923_923495001
,第二指标计算值
Figure M_210827143423954_954734002
,第三指标计算值
Figure M_210827143423985_985973003
,第四指标计算值
Figure M_210827143424017_017269004
,第五指标计算值
Figure M_210827143424048_048583005
,第六指标计算值
Figure M_210827143424095_095385006
,第七指标计算值
Figure M_210827143424129_129556007
,第八指标计算值
Figure M_210827143424160_160823008
,第九指标计算值
Figure M_210827143424197_197654009
在具体的实施例中,所述各关联指标的预设系数为各个关联指标分配的强弱系数,其中,所述八指标和所述第九指标的预设系数为强指标系数0.6,其余的指标的预设系数均为弱指标系数0.4。当然,所述强弱指标系数可以根据实际应用的领域进行适应性调整,此处不作唯一限定。
根据本公开实施例的一种具体实施方式,所述各关联指标的自适应权重的获取步骤,包括:
根据两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值以及对应的分布系数,计算目标分布系数;
计算各关联指标与所述目标分布系数的离散交叉熵,作为对应各关联指标的自适应权重。
具体的,所述获取各个关联指标的自适应权重的过程为基于主键的先天分布特性,使用所述第八指标和所述第九指标计算目标分布系数,所述目标分布系数
Figure M_210827143424244_244809001
的计算公式为:
Figure M_210827143424339_339991002
=
Figure M_210827143424449_449437003
,其中,所述分布系数
Figure M_210827143424513_513777004
与所述分布系数
Figure M_210827143424545_545621005
均默认为0.5。
基于分布十等分的预设操作,计算各个关联指标与所述目标分布系数的离散交叉熵,以得到各指标的自适应权重为
Figure M_210827143424576_576852001
所述根据各所述指标计算值、预设的指标系数以及各关联指标的自适应权重,计算所述基础节点与所述其它节点的关联分数
Figure M_210827143424639_639388001
的预设公式为:
Figure M_210827143424686_686226001
在计算出两个不同数据表的基础节点之件的关联分数后,根据预设公式
Figure M_210827143424802_802976001
对所述关联分数执行预设的归一化操作。
在计算出所述各基础节点与其它数据表的所有节点之间的关联分数后,即可以根据所述关联分数生成不同数据表基础节点之安静的关联网络,具体的,所述根据所述关联分数生成不同数据表基础节点之间的关联网络的步骤,包括:
比较两两基础节点的关联分数是否大于或等于关联分数阈值;
若所述两两基础节点的关联分数大于或等于所述关联分数阈值,则保留所述两两基础节点之间的关联关系;
若所述两两基础节点的关联分数小于所述关联分数阈值,则删除所述两两基础节点之间的关联关系;
根据全部保留的两两节点之间的关联关系,生成不同数据表基础节点之间的关联网络。
具体的,所述关联分数阈值可以根据需要建立的主键关系进行对应设置,此处不对所述关联分数阈值进行具体限定。
通过上述筛选过程,能够筛选出一个仅包括有强关联关系的数据表关联网络,从而能够建立一个更加清晰的节点关联网络,并能够更加快速和准确的挖掘出数据表之间的主键。
步骤S102,根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;
在具体实施例中,要从所述关联网络中挖掘出各个数据表的主键,并关联各个数据表的主键的关联关系,即需要通过预设规则对所述关联网络中的各个基础节点做相对应的处理。
具体的处理过程为,获取与每个基础节点相关联的关联节点的节点数据,并将所述节点数据对应的存储在每个基础节点的数据字典中,从而能够方便后续从各个基础节点的数据字典中挖掘出各数据表的主键。
具体的,所述存储关联节点的步骤还可以为根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中。
进一步的,所述根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:
初始化每一基础节点的数据字典;
将所述基础节点的字段名和数据表名存储在所述基础节点的数据字典中;
根据所述关联网络,对每一基础节点执行预设次数的关联节点存储步骤;
所述关联节点存储步骤包括:
提取与所述基础节点关联的多个关联节点的相关数据,其中,所述相关数据包括关联分数及关联节点的节点数据;
基于所述多个关联节点的关联分数占比,从所述多个关联节点中提取一个目标关联节点;
将所述目标关联节点的节点数据存储在所述基础节点的数据字典中。
具体的,在存储关联节点的节点数据的过程前,还需要初始化每一基础节点的数据字典,并将所述基础节点的字段名和对应所属的数据表名存储在所述基础节点的数据字典中。
举例来说,若所述预设次数为T,对一个基础节点执行T次的关联节点存储步骤后,所述基础节点的数据字典中即存储了T个关联节点的节点数据,其中,所述T个关联节点中可以包括重复的节点。
在一种实施情况中,所述T个关联节点中可能还包括有属于同一数据表的节点数据,对于此种情况,根据本公开实施例的一种具体实施方式,所述将每个基础节点的关联节点的节点数据存储在所述基础节点的数据字典中的步骤之后,所述方法还包括:
遍历每一基础节点的数据字典,删除多个节点数据中具有相同数据表名的节点数据,以得到节点数据集;
从所述节点数据集中保留出现频次最高的节点数据,并将所述出现频次最高的节点数据存储在基础节点的数据字典中。
在具体实施例中,通过上述删除多个节点数据中具有相同数据表名的节点数据,能够保证所述基础节点中存储的节点数据不会是与其属于同一数据表的节点数据,从而能够获得数据表与数据表之间的节点关联关系。
通过上述步骤,能够避免数据表之间存在相同字段名滥用的情况,例如不同表中的同一数据属于不同的账号体系。
从所述节点数据集中保留出现频次最高的节点数据,从而能够筛选出对于各个数据表间来说,最为关键的字段信息,也即各数据表之间的能够作为主键节点的字段信息。
步骤S103,遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;
经过了上述实施例中的关联节点存储过程以及节点数据筛选过程,能够确保各基础节点中留下的节点数据为能够归纳其余所有基础节点的中心节点数据,从而选取多个基础节点的数据字典中共同存储的关键节点,即可以确认为数据表的主键节点。
在具体实施例中,所述多个基础节点可以为全部数据表中的所有基础节点,也可以全部数据表中的部分基础节点,此处不对所述基础节点的数量作具体限定。
步骤S104,查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。
在具体实施例中,所述距离的计算可以为1/关联分数link_score。
如图5所示,在计算出主键节点与所述关联节点的距离后,能够筛选出与所述主键节点距离最近的关联节点,从而能够建立所述主键节点与各关联节点之间的关联关系。
通过计算全部主键节点的关联节点关系,能够得到全部数据表对应的主键关联关系。
判断所述距离的远近可以通过设置距离阈值的方式,将节点之间的距离与所述距离阈值进行比较,从而获取主键节点与其它关联节点的关联关系。
通过上述数据表主键关联方法,能够实现准确挖掘多个数据表的主键,并将数据表之间的主键梳理清晰,避免出现字段名混乱,相同字段名滥用以及数据杂糅复杂等常见的数据处理问题。
参考图6,本公开实施例提供了一种数据表主键关联装置600,如图6所示,所述数据表主键关联装置600包括:确定模块601、存储模块602、主键选取模块603和主键关联模块604,其中,所述确定模块601、所述存储模块602、所述主键选取模块603和所述主键关联模块604依次连接;
所述确定模块601用于根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;
所述存储模块602用于根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;
所述主键选取模块603用于遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;
所述主键关联模块604用于查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。
另外,本公开实施例还提供了一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述实施例中所述的数据表主键关联方法。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行上述实施例所述的数据表主键关联方法。
综上所述,本公开实施例提供了一种数据表主键关联方法、装置、计算机设备及可读存储介质,通过计算不同数据表的基础节点之间的关联分数,建立各基础节点与其它数据表的全部节点之间的关联网络,并根据所述关联网络、关联分数以及预设规则对所述基础节点进行相应的融合处理,从而能够从多个不同的数据表中筛选出能够代表各数据表关键信息的主键,并通过所述主键建立数据表与数据表之间字段数据的关联关系,使得医疗系统内各类数据能够被合理的划分为多个主键群,从而建立清晰的数据表关联关系。所述计算机设备和所述计算机可读存储介质的具体执行方式可以参考上述实施例中对所述数据表主键关联方法的描述,此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种数据表主键关联方法,其特征在于,所述方法包括:
根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;
根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;
遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;
查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系,其中,所述距离为1/(基础节点与基础节点之间的关联分数);
所述将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤之后,所述方法还包括:
遍历每一基础节点的数据字典,删除多个节点数据中具有相同数据表名的节点数据,以得到节点数据集;
从所述节点数据集中保留出现频次最高的节点数据,并将所述出现频次最高的节点数据存储在基础节点的数据字典中。
2.根据权利要求1所述的方法,其特征在于,所述确定各基础节点与其它数据表的全部节点之间的关联网络步骤,包括:
计算各基础节点与其它数据表的全部节点的关联分数;
根据所述关联分数生成不同数据表基础节点之间的关联网络;
所述根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:
根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述关联分数生成不同数据表基础节点之间的关联网络的步骤,包括:
比较两两基础节点的关联分数是否大于或等于关联分数阈值;
若所述两两基础节点的关联分数大于或等于所述关联分数阈值,则保留所述两两基础节点之间的关联关系;
若所述两两基础节点的关联分数小于所述关联分数阈值,则删除所述两两基础节点之间的关联关系;
根据全部保留的两两节点之间的关联关系,生成不同数据表基础节点之间的关联网络。
4.根据权利要求2所述的方法,其特征在于,所述计算各基础节点与其它数据表的全部节点的关联分数的步骤,包括:
计算基础节点与其它节点的多个关联指标,其中,所述其它节点为与所述基础节点所属数据表不同的其它数据表中的节点,所述多个关联指标包括字段的最长连续公共子序列比、字段所属表是否同系统、字段所属表名的最长连续公共子序列比、字段注释的加权编辑距离比、两个字段数据的长度分布一致性、两个字段数据的前5字符分布一致性、两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值,其中,所述字段数据的唯一值占比为所述字段数据的数据条数与所述字段数据经过去重处理后的数据条数的比值,所述字段数据去重后的交集比为两个去重后的字段数据的数据交集比长度与两个去重后字段数据中最长的去重后字段数据的数据长度的比值;
对多个关联指标进行归一化处理,以得到对应各关联指标的指标计算值;
根据各所述指标计算值、预设的指标系数以及各关联指标的自适应权重,计算所述基础节点与所述其它节点的关联分数。
5.根据权利要求4所述的方法,其特征在于,所述各关联指标的自适应权重的获取步骤,包括:
根据两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值以及对应的分布系数,计算目标分布系数;
计算各关联指标与所述目标分布系数的离散交叉熵,作为对应各关联指标的自适应权重。
6.根据权利要求2所述的方法,其特征在于,所述根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:
初始化每一基础节点的数据字典;
将所述基础节点的字段名和数据表名存储在所述基础节点的数据字典中;
根据所述关联网络,对每一基础节点执行预设次数的关联节点存储步骤;
所述关联节点存储步骤包括:
提取与所述基础节点关联的多个关联节点的相关数据,其中,所述相关数据包括关联分数及关联节点的节点数据;
基于所述多个关联节点的关联分数占比,从所述多个关联节点中提取一个目标关联节点;
将所述目标关联节点的节点数据存储在所述基础节点的数据字典中。
7.一种数据表主键关联装置,其特征在于,所述装置包括:确定模块、存储模块、主键选取模块和主键关联模块,其中,所述确定模块、所述存储模块、所述主键选取模块和所述主键关联模块依次连接;
所述确定模块用于根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;
所述存储模块用于根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;
所述主键选取模块用于遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;
所述主键关联模块用于查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系,其中,所述距离为1/(基础节点与基础节点之间的关联分数);
所述存储模块还用于:
遍历每一基础节点的数据字典,删除多个节点数据中具有相同数据表名的节点数据,以得到节点数据集;
从所述节点数据集中保留出现频次最高的节点数据,并将所述出现频次最高的节点数据存储在基础节点的数据字典中。
8.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至6任一项所述的数据表主键关联方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1-6中任一项数据表主键关联方法。
CN202111023802.0A 2021-09-02 2021-09-02 数据表主键关联方法、装置、计算机设备及可读存储介质 Active CN113468186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111023802.0A CN113468186B (zh) 2021-09-02 2021-09-02 数据表主键关联方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111023802.0A CN113468186B (zh) 2021-09-02 2021-09-02 数据表主键关联方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113468186A CN113468186A (zh) 2021-10-01
CN113468186B true CN113468186B (zh) 2021-12-21

Family

ID=77867363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111023802.0A Active CN113468186B (zh) 2021-09-02 2021-09-02 数据表主键关联方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113468186B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990068B (zh) * 2021-10-27 2023-02-24 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144997A (zh) * 2018-06-11 2019-01-04 玖富金科控股集团有限责任公司 数据关联方法、装置及存储介质
CN109325019A (zh) * 2018-08-17 2019-02-12 国家电网有限公司客户服务中心 数据关联关系网络构建方法
CN109739856A (zh) * 2018-12-28 2019-05-10 第四范式(北京)技术有限公司 用于建立数据表之间的关系的方法及系统
CN110471994A (zh) * 2019-07-22 2019-11-19 北京三快在线科技有限公司 复制数据的方法、装置、存储介质及电子设备
CN111309721A (zh) * 2018-12-11 2020-06-19 北京京东尚科信息技术有限公司 一种确定数据表关联关系的方法和装置
CN112000773A (zh) * 2020-08-25 2020-11-27 城云科技(中国)有限公司 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN112612794A (zh) * 2020-12-29 2021-04-06 北京锐安科技有限公司 一种关系型数据库的辅助生成方法、装置、计算机设备及存储介质
CN112685288A (zh) * 2020-12-03 2021-04-20 福建亿能达信息技术股份有限公司 一种关联表的测试数据的生成方法、装置、设备和介质
CN113407536A (zh) * 2021-06-10 2021-09-17 平安科技(深圳)有限公司 表数据的关联方法、装置、终端设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671668B2 (en) * 2016-07-11 2020-06-02 Hewlett Packard Enterprise Development Lp Inferring graph topologies
CN106648677B (zh) * 2016-12-28 2019-08-02 中国科学院南京地理与湖泊研究所 一种水环境领域模型集成模板的可视化定制方法
CN108573010B (zh) * 2017-08-25 2020-06-19 北京金山云网络技术有限公司 关联异构系统同义数据的方法、装置、电子设备及介质
CN107730346A (zh) * 2017-09-25 2018-02-23 北京京东尚科信息技术有限公司 物品聚类的方法和装置
CN110147407B (zh) * 2017-09-29 2023-02-14 华为技术有限公司 一种数据处理方法、装置及数据库管理服务器
CN108959395B (zh) * 2018-06-04 2020-11-06 广西大学 一种面向多源异构大数据的层次约减联合清洗方法
US11263187B2 (en) * 2019-04-30 2022-03-01 Sap Se Schema alignment and structural data mapping of database objects
CN111581393B (zh) * 2020-04-28 2022-11-25 国家电网有限公司客户服务中心 一种基于电力行业客户服务数据的知识图谱的构建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144997A (zh) * 2018-06-11 2019-01-04 玖富金科控股集团有限责任公司 数据关联方法、装置及存储介质
CN109325019A (zh) * 2018-08-17 2019-02-12 国家电网有限公司客户服务中心 数据关联关系网络构建方法
CN111309721A (zh) * 2018-12-11 2020-06-19 北京京东尚科信息技术有限公司 一种确定数据表关联关系的方法和装置
CN109739856A (zh) * 2018-12-28 2019-05-10 第四范式(北京)技术有限公司 用于建立数据表之间的关系的方法及系统
CN110471994A (zh) * 2019-07-22 2019-11-19 北京三快在线科技有限公司 复制数据的方法、装置、存储介质及电子设备
CN112000773A (zh) * 2020-08-25 2020-11-27 城云科技(中国)有限公司 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN112685288A (zh) * 2020-12-03 2021-04-20 福建亿能达信息技术股份有限公司 一种关联表的测试数据的生成方法、装置、设备和介质
CN112612794A (zh) * 2020-12-29 2021-04-06 北京锐安科技有限公司 一种关系型数据库的辅助生成方法、装置、计算机设备及存储介质
CN113407536A (zh) * 2021-06-10 2021-09-17 平安科技(深圳)有限公司 表数据的关联方法、装置、终端设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Filippo Gandino 等.Fast Hierarchical Key Management Scheme With Transitory Master Key for Wireless Sensor Networks.《IEEE Internet of Things Journal》.2016,第3卷(第6期),1334-1345. *
Mehdi Kargar 等.Effective Keyword Search over Weighted Graphs.《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》.2020,1-14. *
徐申甲.国内航运货代信息系统的研究与设计.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2016,(第01期),I138-208. *

Also Published As

Publication number Publication date
CN113468186A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN107895038B (zh) 一种链路预测关系推荐方法及装置
CN108875040A (zh) 词典更新方法及计算机可读存储介质
CN109062936B (zh) 一种数据查询方法、计算机可读存储介质及终端设备
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
CA2304387A1 (en) A system for identification of selectively related database records
CN109388693B (zh) 一种确定分区意图的方法以及相关设备
CN113468186B (zh) 数据表主键关联方法、装置、计算机设备及可读存储介质
CN113129057A (zh) 软件造价信息的处理方法、装置、计算机设备及存储介质
CN117807321A (zh) 卡片推荐方法、装置、电子设备及存储介质
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
US20240127123A1 (en) Federated learning model training method and apparatus, and electronic device
CN115952156A (zh) 一种数据清洗方法、装置、计算机设备及可读介质
CN113868508B (zh) 写作素材查询方法、装置、电子设备和存储介质
CN116050404A (zh) 一种用于电子档案智能分类鉴定的方法及装置
CN114444464A (zh) 文档检测处理方法、装置、存储介质及电子设备
CN114706841A (zh) 查询内容库构建方法、装置、电子设备及可读存储介质
CN113609279A (zh) 一种物料型号提取方法、装置及计算机设备
Hu et al. Recovery from non-decomposable distance oracles
CN117591705B (zh) 基于图搜索的分表关联方法及设备
CN113792186B (zh) 用于人名检索的方法、装置、电子设备及存储介质
CN113535885B (zh) 基于用户昵称的年龄预测方法、装置及电子设备
CN110866144B (zh) 歌曲检索方法及装置
CN112598092B (zh) 图元识别匹配方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant