CN117349346B

CN117349346B - 一种识别关系型数据库表中主键和外键的方法

Info

Publication number: CN117349346B
Application number: CN202311650372.4A
Authority: CN
Inventors: 魏庆阳; 门雪涛; 付守成; 周炎亮; 周尊
Original assignee: Shenzhen Winoda Industrial Technology Co ltd; China France Bohai Geoservices Co Ltd
Current assignee: Shenzhen Winoda Industrial Technology Co ltd; China France Bohai Geoservices Co Ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-03-26
Anticipated expiration: 2043-12-05
Also published as: CN117349346A

Abstract

本发明公开了一种识别关系型数据库表中主键和外键的方法，涉及数据分析技术领域，包括：S1、识别主键，所述识别主键具体包括：S101、依次获取待识别数据库表结构和字段数据；S102、统计待识别数据库表中的数据记录数，将数据记录数记为m；S103、依次从待识别数据库表中取一个字段及该字段对应的所有值；S104、对该字段对应的所有值进行去重，并统计该字段去重所有值的个数n。本发明所述的一种识别关系型数据库表中主键和外键的方法，结合了数据库设计原理、信息熵的原理、相似性计算等方法进行主键、外键识别，大多数情况下可以代替人工进行工作，而无需额外的业务知识经验。

Description

一种识别关系型数据库表中主键和外键的方法

技术领域

本发明涉及数据分析技术领域，具体是涉及一种识别关系型数据库表中主键和外键的方法。

背景技术

传统主键推断的方法通常是这样的：取一个表，详细理解其中数据的业务含义和数据类型，统计各个字段中数据记录数，并且尝试去重，如果去重后的数据记录数和去重前是一样的，从业务角度出发，该字段中的每一条数据能够对应唯一的标识表中的一条业务信息记录，这个字段会被识别为主键。

传统外键的推断方法通常是这样的：先确定某个表（假设为A表）的唯一键（通常也是主键，假设为student_id），再由人工去阅读其他表的所有表的所有字段，通过命名规则或者业务知识来确定另一个表（假设为B表）中的某个字段的值可能引用了A表的student_id。比如命名可能也是（student_id），然后再提取B表中的student_id字段下所有值和A表中student_id字段下所有值进行比较，如果A表中student_id字段下所有值完全能包含B表中的student_id字段下所有值，且B表中student_id字段下值有重复的情况，那么说明B表中的student_id是一个外键。

可见，如果某个数据库在设计时没有进行主键，外键设计，或者因为某种原因无法直接获取主键和外键信息时，靠传统识别主、外键的方法，通常需要由具有相关业务知识背景的数据专家基于业务知识进行推断，效率非常低，在表、字段数量非常多的时候，工作量非常大。

发明内容

为解决上述技术问题，提供一种识别关系型数据库表中主键和外键的方法，本技术方案解决了上述的问题。

为达到以上目的，本发明采用的技术方案为：

一种识别关系型数据库表中主键和外键的方法，包括：

S1、识别主键，所述识别主键具体包括：

S101、依次获取待识别数据库表结构和字段数据；

S102、统计待识别数据库表中的数据记录数，将数据记录数记为m；

S103、依次从待识别数据库表中取一个字段及该字段对应的所有值；

S104、对该字段对应的所有值进行去重，并统计该字段去重所有值的个数n；

S105、判断n是否等于m，若是，则认定该字段是唯一键，若否，则认定该字段不是唯一键；

S106、依次遍历待识别数据库表中的所有字段，获取待识别数据库表中的所有唯一键，建立唯一键集合SK，，其中，/>为待识别数据库表中的第i个唯一键，k为待识别数据库表中的唯一键总数；

S107、判断k是否等于1，若是，则将作为主键，若否，则判断k是否等于0，若是，则对待识别数据库表进行组合字段唯一键识别，若否，则计算每个唯一键的信息熵，并取其中信息熵最小的那个唯一键作为主键；

S2、对所有待识别数据库表执行步骤S1；

S3、识别外键，所述识别外键具体包括：

S301、依次获取待识别数据库表结构和字段数据；

S302、依次从待识别数据库表中取一个字段F_j及该字段对应的所有值；

S303、对字段F_j进行去重，得到字段F_j的去重后的值L_j；

S304、依次遍历比对除字段F_j对应的待识别数据库表之外的所有待识别数据库表的唯一键集合，判断字段F_j的去重后的值L_j是否被完全包含在的值/>中，若是，则判断字段F_j为其对应的待识别数据库表的外键，字段F_j的引用值来自于/>，若否，则采用相似性算法判断字段F_j是否为外键。

优选的，所述对待识别数据库表进行组合字段唯一键识别具体包括：

在从待识别数据库表中任取两个字段值组合成为双字段，进行去重后计数，若去重后计数值比去重前计数值小，说明存在重复，这两个字段的组合不能作为唯一键组合，若去重后计数值与去重前计数值相同，则双字段组合作为待识别数据库表的唯一键组合；

遍历所有双字段组合，直到找到所有唯一键组合；

若不存在作为待识别数据库表的唯一键组合的双字段组合，则进行三字段或者更多字段组合识别，直到找到作为待识别数据库表的唯一键组合的字段组合。

优选的，所述唯一键的信息熵的计算方法为：

对唯一键的所有值进行字符串切分成独立的字符W；

统计字符的总数量t；

统计每一个字符的个数a；

对于字符Wi，其出现的概率为，/>，其中，Wi为第i个字符串，/>为第i个字符串的个数；

则该唯一键的信息熵为，式中，/>为字符总数。

优选的，所述相似性算法具体为：

计算Similar(L_j，)，Similar(L_j，/>)=L_j和/>中完全相同的字符串数量/L_j中字符串的数量×100%；

若Similar(L_j，)小于99%，则判定字段F_j不是外键；

若Similar(L_j，)大于99%，计算Confidence(L_j，/>)，Confidence(L_j，/>)=(/>中不能在L_j中找到的字符串数量-L_j中不能在/>中找到的字符串数量)/（L_j中不能在/>中找到的字符串数量+/>中不能在L_j中找到的字符串数量+0.001）×100%；

判断Confidence(L_j，)是否等于0，若是，则判断字段F_j是否为唯一键，若是，则判断字段F_j为其对应的待识别数据库表的外键，字段F_j的引用值来自于/>；

判断Confidence(L_j，)是否大于0，若是，则判断字段F_j为其对应的待识别数据库表的外键，字段F_j的引用值来自于/>；

判断Confidence(L_j，)是否小于0，若是，则判断字段/>为其对应的待识别数据库表的外键，字段/>的引用值来自于F_j。

与现有技术相比，本发明的有益效果在于：

本发明提出一种识别关系型数据库表中主键和外键的方法，结合了数据库设计原理、信息熵的原理、相似性计算等方法进行主键、外键识别，大多数情况下可以代替人工进行工作，而无需额外的业务知识经验。在数据库表、字段数量越庞大时，越能体现出其优势出来，能大量提高工作效率，在无人值守模式下，可进行昼夜不间断工作。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

一种识别关系型数据库表中主键和外键的方法，包括：

S1、识别主键，识别主键具体包括：

S101、依次获取待识别数据库表结构和字段数据；

S2、对所有待识别数据库表执行步骤S1；

S3、识别外键，识别外键具体包括：

S301、依次获取待识别数据库表结构和字段数据；

S303、对字段F_j进行去重，得到字段F_j的去重后的值L_j；

在数据库表未设置物理主外键时，会存在一定的数据质量隐患，可能影响外键的判断，比如逻辑上可以从某表唯一键进行数据引用的字段值中混入了脏数据，导致部分值不能从引用字段值中查找到。鉴于这种情况，需要引入相似性判断方法。如果两个字段的值相似度达到一定的阈值时，也可以将其中的某个字段判断为外键。

对待识别数据库表进行组合字段唯一键识别具体包括：

遍历所有双字段组合，直到找到所有唯一键组合；

唯一键的信息熵的计算方法为：

对唯一键的所有值进行字符串切分成独立的字符W；

统计字符的总数量t；

统计每一个字符的个数a；

则该唯一键的信息熵为，式中，/>为字符总数。

作为主键的字段，一般要求每一个值的构成相对简洁，这个值的信息熵比那些构成复杂的字段值的信息熵更小，基于此，本方案对于存在多个唯一键的情况，通过计算每个唯一键的信息熵，筛选出其中信息熵最小的那个唯一键作为主键。

相似性算法具体为：

若Similar(L_j，)小于99%，则判定字段F_j与/>之间不存在外键约束关系；

若Similar(L_j，)大于99%，计算Confidence(L_j，/>)，Confidence(L_j，/>)=(/>中不能在L_j中找到的字符串数量-L_j中不能在/>中找到的字符串数量)/（L_j中不能在/>中找到的字符串数量+/>中不能在L_j中找到的字符串数量+0.001）×100%

在进行外键判断时，需要先对候选字段F_j的值进行去重，得到集合L_j，L_j和唯一键字段的值集合/>进行相似性计算。计算方法如下：

上述两个由字符串组成的字符串集合计算相似性的公式定义如下：

Similar(L_j，)=L_j和/>中完全相同的字符串数量/L_j中字符串的数量×100%。

在理想情况下，Similar(L_j，)等于100%，说明/>能够完全包含住L_j。那么F_j就可以作为外键。

如果Similar(L_j，)小于100%，说明L_j中混入了其他数据，当Similar(Ch，Ph)等于0%时，说明两个集合没有相同的字符串。

通常用99%作为相似性判断的阈值，如果两个字段的值集合相似性达到99%及以上，说明字段F_j极有可能存在外键约束，引用值来自字段。

且此时需要计算值Confidence(L_j，)，从而作出进一步判断：

Confidence(L_j，)=(/>中不能在L_j中找到的字符串数量-L_j中不能在/>中找到的字符串数量)/（L_j中不能在/>中找到的字符串数量+/>中不能在L_j中找到的字符串数量+0.001）×100%。

Confidence(L_j，)>0，则说明/>中有更多的值在L_j中找不到，此时认为字段S极有可能存在外键约束，引用值来自字段/>。

Confidence(L_j，)<0，则说明L_j中有更多的值在/>中找不到，此时认为字段/>极有可能存在外键约束，引用值来自字段F_j。

如果Confidence(L_j，)=0，则说明/>中不能在L_j中找到的字符串数量和L_j中不能在/>中找到的字符串数量相等，由于字段/>是唯一键，如果C不是唯一键，则认为F_j存在外键约束；如果F_j也是唯一键，则认为字段F_j和/>之间不存在外键约束关系，都不能作为彼此的外键。

只要Similar(L_j，)小于100%，且认定C存在外键约束，都可以说明F_j中存在脏数据，需要字段F_j中的数据进行清洗，以确保两个字段数据的一致性。

综上所述，本发明的优点在于：本方案结合了数据库设计原理、信息熵的原理、相似性计算等方法进行主键、外键识别，大多数情况下可以代替人工进行工作，而无需额外的业务知识经验。在数据库表、字段数量越庞大时，越能体现出其优势出来，能大量提高工作效率，在无人值守模式下，可进行昼夜不间断工作。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种识别关系型数据库表中主键和外键的方法，其特征在于，包括：

S1、识别主键，所述识别主键具体包括：

S101、依次获取待识别数据库表结构和字段数据；

S2、对所有待识别数据库表执行步骤S1；

S3、识别外键，所述识别外键具体包括：

S301、依次获取待识别数据库表结构和字段数据；

S303、对字段F_j进行去重，得到字段F_j的去重后的值L_j；

S304、用F_j和唯一键集合SK中除字段F_j外所有字段进行遍历比对，判断字段F_j的去重后的值L_j是否被完全包含在/>的值/>中，若是，则判断字段F_j为其对应的待识别数据库表的外键，字段F_j的引用值来自于/>，若否，则采用相似性算法判断字段F_j是否为外键。

2.根据权利要求1所述的一种识别关系型数据库表中主键和外键的方法，其特征在于，所述对待识别数据库表进行组合字段唯一键识别具体包括：

遍历所有双字段组合，直到找到所有唯一键组合；

若不存在作为待识别数据库表的唯一键组合的双字段组合，则进行三字段组合或者更多字段组合识别，直到找到作为待识别数据库表的唯一键组合的字段组合。

3.根据权利要求2所述的一种识别关系型数据库表中主键和外键的方法，其特征在于，所述唯一键的信息熵的计算方法为：

对唯一键的所有值进行字符串切分成独立的字符W；

统计字符的总数量t；

统计每一个字符的个数a；

则该唯一键的信息熵为，式中，/>为字符总数。

4.根据权利要求3所述的一种识别关系型数据库表中主键和外键的方法，其特征在于，所述相似性算法具体为：

计算Similar(L_j，)，Similar(L_j，/>)=L_j与/>中完全相同的字符串数量/L_j中字符串的数量×100%；

若Similar(L_j，)小于99%，则判定字段F_j不是外键；