CN117349346B - 一种识别关系型数据库表中主键和外键的方法 - Google Patents

一种识别关系型数据库表中主键和外键的方法 Download PDF

Info

Publication number
CN117349346B
CN117349346B CN202311650372.4A CN202311650372A CN117349346B CN 117349346 B CN117349346 B CN 117349346B CN 202311650372 A CN202311650372 A CN 202311650372A CN 117349346 B CN117349346 B CN 117349346B
Authority
CN
China
Prior art keywords
field
database table
key
identified
judging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311650372.4A
Other languages
English (en)
Other versions
CN117349346A (zh
Inventor
魏庆阳
门雪涛
付守成
周炎亮
周尊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Winoda Industrial Technology Co ltd
China France Bohai Geoservices Co Ltd
Original Assignee
Shenzhen Winoda Industrial Technology Co ltd
China France Bohai Geoservices Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Winoda Industrial Technology Co ltd, China France Bohai Geoservices Co Ltd filed Critical Shenzhen Winoda Industrial Technology Co ltd
Priority to CN202311650372.4A priority Critical patent/CN117349346B/zh
Publication of CN117349346A publication Critical patent/CN117349346A/zh
Application granted granted Critical
Publication of CN117349346B publication Critical patent/CN117349346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种识别关系型数据库表中主键和外键的方法,涉及数据分析技术领域,包括:S1、识别主键,所述识别主键具体包括:S101、依次获取待识别数据库表结构和字段数据;S102、统计待识别数据库表中的数据记录数,将数据记录数记为m;S103、依次从待识别数据库表中取一个字段及该字段对应的所有值;S104、对该字段对应的所有值进行去重,并统计该字段去重所有值的个数n。本发明所述的一种识别关系型数据库表中主键和外键的方法,结合了数据库设计原理、信息熵的原理、相似性计算等方法进行主键、外键识别,大多数情况下可以代替人工进行工作,而无需额外的业务知识经验。

Description

一种识别关系型数据库表中主键和外键的方法
技术领域
本发明涉及数据分析技术领域,具体是涉及一种识别关系型数据库表中主键和外键的方法。
背景技术
传统主键推断的方法通常是这样的:取一个表,详细理解其中数据的业务含义和数据类型,统计各个字段中数据记录数,并且尝试去重,如果去重后的数据记录数和去重前是一样的,从业务角度出发,该字段中的每一条数据能够对应唯一的标识表中的一条业务信息记录,这个字段会被识别为主键。
传统外键的推断方法通常是这样的:先确定某个表(假设为A表)的唯一键(通常也是主键,假设为student_id),再由人工去阅读其他表的所有表的所有字段,通过命名规则或者业务知识来确定另一个表(假设为B表)中的某个字段的值可能引用了A表的student_id。比如命名可能也是(student_id),然后再提取B表中的student_id字段下所有值和A表中student_id字段下所有值进行比较,如果A表中student_id字段下所有值完全能包含B表中的student_id字段下所有值,且B表中student_id字段下值有重复的情况,那么说明B表中的student_id是一个外键。
可见,如果某个数据库在设计时没有进行主键,外键设计,或者因为某种原因无法直接获取主键和外键信息时,靠传统识别主、外键的方法,通常需要由具有相关业务知识背景的数据专家基于业务知识进行推断,效率非常低,在表、字段数量非常多的时候,工作量非常大。
发明内容
为解决上述技术问题,提供一种识别关系型数据库表中主键和外键的方法,本技术方案解决了上述的问题。
为达到以上目的,本发明采用的技术方案为:
一种识别关系型数据库表中主键和外键的方法,包括:
S1、识别主键,所述识别主键具体包括:
S101、依次获取待识别数据库表结构和字段数据;
S102、统计待识别数据库表中的数据记录数,将数据记录数记为m;
S103、依次从待识别数据库表中取一个字段及该字段对应的所有值;
S104、对该字段对应的所有值进行去重,并统计该字段去重所有值的个数n;
S105、判断n是否等于m,若是,则认定该字段是唯一键,若否,则认定该字段不是唯一键;
S106、依次遍历待识别数据库表中的所有字段,获取待识别数据库表中的所有唯一键,建立唯一键集合SK,,其中,/>为待识别数据库表中的第i个唯一键,k为待识别数据库表中的唯一键总数;
S107、判断k是否等于1,若是,则将作为主键,若否,则判断k是否等于0,若是,则对待识别数据库表进行组合字段唯一键识别,若否,则计算每个唯一键的信息熵,并取其中信息熵最小的那个唯一键作为主键;
S2、对所有待识别数据库表执行步骤S1;
S3、识别外键,所述识别外键具体包括:
S301、依次获取待识别数据库表结构和字段数据;
S302、依次从待识别数据库表中取一个字段Fj及该字段对应的所有值;
S303、对字段Fj进行去重,得到字段Fj的去重后的值Lj
S304、依次遍历比对除字段Fj对应的待识别数据库表之外的所有待识别数据库表的唯一键集合,判断字段Fj的去重后的值Lj是否被完全包含在的值/>中,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>,若否,则采用相似性算法判断字段Fj是否为外键。
优选的,所述对待识别数据库表进行组合字段唯一键识别具体包括:
在从待识别数据库表中任取两个字段值组合成为双字段,进行去重后计数,若去重后计数值比去重前计数值小,说明存在重复,这两个字段的组合不能作为唯一键组合,若去重后计数值与去重前计数值相同,则双字段组合作为待识别数据库表的唯一键组合;
遍历所有双字段组合,直到找到所有唯一键组合;
若不存在作为待识别数据库表的唯一键组合的双字段组合,则进行三字段或者更多字段组合识别,直到找到作为待识别数据库表的唯一键组合的字段组合。
优选的,所述唯一键的信息熵的计算方法为:
对唯一键的所有值进行字符串切分成独立的字符W;
统计字符的总数量t;
统计每一个字符的个数a;
对于字符Wi,其出现的概率为,/>,其中,Wi为第i个字符串,/>为第i个字符串的个数;
则该唯一键的信息熵为,式中,/>为字符总数。
优选的,所述相似性算法具体为:
计算Similar(Lj),Similar(Lj,/>)=Lj和/>中完全相同的字符串数量/Lj中字符串的数量×100%;
若Similar(Lj)小于99%,则判定字段Fj不是外键;
若Similar(Lj)大于99%,计算Confidence(Lj,/>),Confidence(Lj,/>)=(/>中不能在Lj中找到的字符串数量-Lj中不能在/>中找到的字符串数量)/(Lj中不能在/>中找到的字符串数量+/>中不能在Lj中找到的字符串数量+0.001)×100%;
判断Confidence(Lj)是否等于0,若是,则判断字段Fj是否为唯一键,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>
判断Confidence(Lj)是否大于0,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>
判断Confidence(Lj)是否小于0,若是,则判断字段/>为其对应的待识别数据库表的外键,字段/>的引用值来自于Fj
与现有技术相比,本发明的有益效果在于:
本发明提出一种识别关系型数据库表中主键和外键的方法,结合了数据库设计原理、信息熵的原理、相似性计算等方法进行主键、外键识别,大多数情况下可以代替人工进行工作,而无需额外的业务知识经验。在数据库表、字段数量越庞大时,越能体现出其优势出来,能大量提高工作效率,在无人值守模式下,可进行昼夜不间断工作。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
一种识别关系型数据库表中主键和外键的方法,包括:
S1、识别主键,识别主键具体包括:
S101、依次获取待识别数据库表结构和字段数据;
S102、统计待识别数据库表中的数据记录数,将数据记录数记为m;
S103、依次从待识别数据库表中取一个字段及该字段对应的所有值;
S104、对该字段对应的所有值进行去重,并统计该字段去重所有值的个数n;
S105、判断n是否等于m,若是,则认定该字段是唯一键,若否,则认定该字段不是唯一键;
S106、依次遍历待识别数据库表中的所有字段,获取待识别数据库表中的所有唯一键,建立唯一键集合SK,,其中,/>为待识别数据库表中的第i个唯一键,k为待识别数据库表中的唯一键总数;
S107、判断k是否等于1,若是,则将作为主键,若否,则判断k是否等于0,若是,则对待识别数据库表进行组合字段唯一键识别,若否,则计算每个唯一键的信息熵,并取其中信息熵最小的那个唯一键作为主键;
S2、对所有待识别数据库表执行步骤S1;
S3、识别外键,识别外键具体包括:
S301、依次获取待识别数据库表结构和字段数据;
S302、依次从待识别数据库表中取一个字段Fj及该字段对应的所有值;
S303、对字段Fj进行去重,得到字段Fj的去重后的值Lj
S304、依次遍历比对除字段Fj对应的待识别数据库表之外的所有待识别数据库表的唯一键集合,判断字段Fj的去重后的值Lj是否被完全包含在的值/>中,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>,若否,则采用相似性算法判断字段Fj是否为外键。
在数据库表未设置物理主外键时,会存在一定的数据质量隐患,可能影响外键的判断,比如逻辑上可以从某表唯一键进行数据引用的字段值中混入了脏数据,导致部分值不能从引用字段值中查找到。鉴于这种情况,需要引入相似性判断方法。如果两个字段的值相似度达到一定的阈值时,也可以将其中的某个字段判断为外键。
对待识别数据库表进行组合字段唯一键识别具体包括:
在从待识别数据库表中任取两个字段值组合成为双字段,进行去重后计数,若去重后计数值比去重前计数值小,说明存在重复,这两个字段的组合不能作为唯一键组合,若去重后计数值与去重前计数值相同,则双字段组合作为待识别数据库表的唯一键组合;
遍历所有双字段组合,直到找到所有唯一键组合;
若不存在作为待识别数据库表的唯一键组合的双字段组合,则进行三字段或者更多字段组合识别,直到找到作为待识别数据库表的唯一键组合的字段组合。
唯一键的信息熵的计算方法为:
对唯一键的所有值进行字符串切分成独立的字符W;
统计字符的总数量t;
统计每一个字符的个数a;
对于字符Wi,其出现的概率为,/>,其中,Wi为第i个字符串,/>为第i个字符串的个数;
则该唯一键的信息熵为,式中,/>为字符总数。
作为主键的字段,一般要求每一个值的构成相对简洁,这个值的信息熵比那些构成复杂的字段值的信息熵更小,基于此,本方案对于存在多个唯一键的情况,通过计算每个唯一键的信息熵,筛选出其中信息熵最小的那个唯一键作为主键。
相似性算法具体为:
计算Similar(Lj),Similar(Lj,/>)=Lj和/>中完全相同的字符串数量/Lj中字符串的数量×100%;
若Similar(Lj)小于99%,则判定字段Fj与/>之间不存在外键约束关系;
若Similar(Lj)大于99%,计算Confidence(Lj,/>),Confidence(Lj,/>)=(/>中不能在Lj中找到的字符串数量-Lj中不能在/>中找到的字符串数量)/(Lj中不能在/>中找到的字符串数量+/>中不能在Lj中找到的字符串数量+0.001)×100%
判断Confidence(Lj)是否等于0,若是,则判断字段Fj是否为唯一键,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>
判断Confidence(Lj)是否大于0,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>
判断Confidence(Lj)是否小于0,若是,则判断字段/>为其对应的待识别数据库表的外键,字段/>的引用值来自于Fj
在进行外键判断时,需要先对候选字段Fj的值进行去重,得到集合Lj,Lj和唯一键字段的值集合/>进行相似性计算。计算方法如下:
上述两个由字符串组成的字符串集合计算相似性的公式定义如下:
Similar(Lj)=Lj和/>中完全相同的字符串数量/Lj中字符串的数量×100%。
在理想情况下,Similar(Lj)等于100%,说明/>能够完全包含住Lj。那么Fj就可以作为外键。
如果Similar(Lj)小于100%,说明Lj中混入了其他数据,当Similar(Ch,Ph)等于0%时,说明两个集合没有相同的字符串。
通常用99%作为相似性判断的阈值,如果两个字段的值集合相似性达到99%及以上,说明字段Fj极有可能存在外键约束,引用值来自字段
且此时需要计算值Confidence(Lj),从而作出进一步判断:
Confidence(Lj)=(/>中不能在Lj中找到的字符串数量-Lj中不能在/>中找到的字符串数量)/(Lj中不能在/>中找到的字符串数量+/>中不能在Lj中找到的字符串数量+0.001)×100%。
Confidence(Lj)>0,则说明/>中有更多的值在Lj中找不到,此时认为字段S极有可能存在外键约束,引用值来自字段/>
Confidence(Lj)<0,则说明Lj中有更多的值在/>中找不到,此时认为字段/>极有可能存在外键约束,引用值来自字段Fj
如果Confidence(Lj)=0,则说明/>中不能在Lj中找到的字符串数量和Lj中不能在/>中找到的字符串数量相等,由于字段/>是唯一键,如果C不是唯一键,则认为Fj存在外键约束;如果Fj也是唯一键,则认为字段Fj和/>之间不存在外键约束关系,都不能作为彼此的外键。
只要Similar(Lj)小于100%,且认定C存在外键约束,都可以说明Fj中存在脏数据,需要字段Fj中的数据进行清洗,以确保两个字段数据的一致性。
综上所述,本发明的优点在于:本方案结合了数据库设计原理、信息熵的原理、相似性计算等方法进行主键、外键识别,大多数情况下可以代替人工进行工作,而无需额外的业务知识经验。在数据库表、字段数量越庞大时,越能体现出其优势出来,能大量提高工作效率,在无人值守模式下,可进行昼夜不间断工作。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种识别关系型数据库表中主键和外键的方法,其特征在于,包括:
S1、识别主键,所述识别主键具体包括:
S101、依次获取待识别数据库表结构和字段数据;
S102、统计待识别数据库表中的数据记录数,将数据记录数记为m;
S103、依次从待识别数据库表中取一个字段及该字段对应的所有值;
S104、对该字段对应的所有值进行去重,并统计该字段去重所有值的个数n;
S105、判断n是否等于m,若是,则认定该字段是唯一键,若否,则认定该字段不是唯一键;
S106、依次遍历待识别数据库表中的所有字段,获取待识别数据库表中的所有唯一键,建立唯一键集合SK,,其中,/>为待识别数据库表中的第i个唯一键,k为待识别数据库表中的唯一键总数;
S107、判断k是否等于1,若是,则将作为主键,若否,则判断k是否等于0,若是,则对待识别数据库表进行组合字段唯一键识别,若否,则计算每个唯一键的信息熵,并取其中信息熵最小的那个唯一键作为主键;
S2、对所有待识别数据库表执行步骤S1;
S3、识别外键,所述识别外键具体包括:
S301、依次获取待识别数据库表结构和字段数据;
S302、依次从待识别数据库表中取一个字段Fj及该字段对应的所有值;
S303、对字段Fj进行去重,得到字段Fj的去重后的值Lj
S304、用Fj和唯一键集合SK中除字段Fj外所有字段进行遍历比对,判断字段Fj的去重后的值Lj是否被完全包含在/>的值/>中,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>,若否,则采用相似性算法判断字段Fj是否为外键。
2.根据权利要求1所述的一种识别关系型数据库表中主键和外键的方法,其特征在于,所述对待识别数据库表进行组合字段唯一键识别具体包括:
在从待识别数据库表中任取两个字段值组合成为双字段,进行去重后计数,若去重后计数值比去重前计数值小,说明存在重复,这两个字段的组合不能作为唯一键组合,若去重后计数值与去重前计数值相同,则双字段组合作为待识别数据库表的唯一键组合;
遍历所有双字段组合,直到找到所有唯一键组合;
若不存在作为待识别数据库表的唯一键组合的双字段组合,则进行三字段组合或者更多字段组合识别,直到找到作为待识别数据库表的唯一键组合的字段组合。
3.根据权利要求2所述的一种识别关系型数据库表中主键和外键的方法,其特征在于,所述唯一键的信息熵的计算方法为:
对唯一键的所有值进行字符串切分成独立的字符W;
统计字符的总数量t;
统计每一个字符的个数a;
对于字符Wi,其出现的概率为,/>,其中,Wi为第i个字符串,/>为第i个字符串的个数;
则该唯一键的信息熵为,式中,/>为字符总数。
4.根据权利要求3所述的一种识别关系型数据库表中主键和外键的方法,其特征在于,所述相似性算法具体为:
计算Similar(Lj),Similar(Lj,/>)=Lj与/>中完全相同的字符串数量/Lj中字符串的数量×100%;
若Similar(Lj)小于99%,则判定字段Fj不是外键;
若Similar(Lj)大于99%,计算Confidence(Lj,/>),Confidence(Lj,/>)=(/>中不能在Lj中找到的字符串数量-Lj中不能在/>中找到的字符串数量)/(Lj中不能在/>中找到的字符串数量+/>中不能在Lj中找到的字符串数量+0.001)×100%;
判断Confidence(Lj)是否等于0,若是,则判断字段Fj是否为唯一键,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>
判断Confidence(Lj)是否大于0,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>
判断Confidence(Lj)是否大于0,若是,则判断字段Fj为其对应的待识别数据库表的外键,字段Fj的引用值来自于/>
判断Confidence(Lj)是否小于0,若是,则判断字段/>为其对应的待识别数据库表的外键,字段/>的引用值来自于Fj
CN202311650372.4A 2023-12-05 2023-12-05 一种识别关系型数据库表中主键和外键的方法 Active CN117349346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311650372.4A CN117349346B (zh) 2023-12-05 2023-12-05 一种识别关系型数据库表中主键和外键的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311650372.4A CN117349346B (zh) 2023-12-05 2023-12-05 一种识别关系型数据库表中主键和外键的方法

Publications (2)

Publication Number Publication Date
CN117349346A CN117349346A (zh) 2024-01-05
CN117349346B true CN117349346B (zh) 2024-03-26

Family

ID=89367035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311650372.4A Active CN117349346B (zh) 2023-12-05 2023-12-05 一种识别关系型数据库表中主键和外键的方法

Country Status (1)

Country Link
CN (1) CN117349346B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376025A (zh) * 2013-08-16 2015-02-25 华为技术有限公司 分布式数据库的数据存储方法和装置
CN105095522A (zh) * 2015-09-22 2015-11-25 南开大学 基于最近邻搜索的关系表集合外键识别方法
CN113590613A (zh) * 2021-07-13 2021-11-02 上海一谈网络科技有限公司 数据表分区方法、装置、计算机设备和存储介质
CN113761185A (zh) * 2021-01-06 2021-12-07 北京沃东天骏信息技术有限公司 主键提取方法、设备及存储介质
US11405189B1 (en) * 2021-11-18 2022-08-02 James E. Bennison Systems and methods for trustworthy electronic authentication using a computing device
CN116595486A (zh) * 2023-05-30 2023-08-15 支付宝(杭州)信息技术有限公司 风险识别方法、训练风险识别模型的方法及对应装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719233B2 (en) * 2008-06-24 2014-05-06 Emc Corporation Generic method and apparatus for database sanitizing
US10685062B2 (en) * 2012-12-31 2020-06-16 Microsoft Technology Licensing, Llc Relational database management

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376025A (zh) * 2013-08-16 2015-02-25 华为技术有限公司 分布式数据库的数据存储方法和装置
CN105095522A (zh) * 2015-09-22 2015-11-25 南开大学 基于最近邻搜索的关系表集合外键识别方法
CN113761185A (zh) * 2021-01-06 2021-12-07 北京沃东天骏信息技术有限公司 主键提取方法、设备及存储介质
CN113590613A (zh) * 2021-07-13 2021-11-02 上海一谈网络科技有限公司 数据表分区方法、装置、计算机设备和存储介质
US11405189B1 (en) * 2021-11-18 2022-08-02 James E. Bennison Systems and methods for trustworthy electronic authentication using a computing device
CN116595486A (zh) * 2023-05-30 2023-08-15 支付宝(杭州)信息技术有限公司 风险识别方法、训练风险识别模型的方法及对应装置

Also Published As

Publication number Publication date
CN117349346A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN109800288B (zh) 一种基于知识图谱的科学研究热点分析与预测方法
US9720986B2 (en) Method and system for integrating data into a database
US8364692B1 (en) Identifying non-distinct names in a set of names
CN103530334B (zh) 基于比较模板的数据匹配系统和方法
US20040141354A1 (en) Query string matching method and apparatus
US20220164531A1 (en) Quality assessment method for automatic annotation of speech data
CN111061709A (zh) 一种相似重复记录的数据清洗自动化方法及系统
Winkler Approximate string comparator search strategies for very large administrative lists
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN113377758A (zh) 一种数据质量稽核引擎及其稽核方法
CN111708816B (zh) 一种基于贝叶斯模型的多真值冲突消解方法
CN100530234C (zh) 一种针对dct域lsb隐写的隐写检测方法
CN115292508A (zh) 一种基于表数据的知识图谱构建方法和系统
CN117349346B (zh) 一种识别关系型数据库表中主键和外键的方法
CN113377991B (zh) 一种基于最难正负样本的图像检索方法
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN109753227A (zh) 存储方法、装置、移动终端、服务器和可读存储介质
CN109446231B (zh) 一种基于模式关联分析的实值时间序列规则发现方法和装置
CN109543712B (zh) 时态数据集上的实体识别方法
CN116611914A (zh) 一种基于分组统计的薪资预测方法及设备
CN116805012A (zh) 多模态知识图谱的质量评估方法及装置、存储介质、设备
WO2023240947A1 (zh) 一种基于信息论检测新冠病毒谱系间重组的方法
CN114611515B (zh) 一种基于企业舆情信息识别企业实际控制人的方法和系统
CN109063097B (zh) 基于区块链的数据对比及共识方法
CN118069628A (zh) 一种提高匹配精准度的数据匹配方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant