CN116226686A - 一种表格相似性分析方法、装置、设备和存储介质 - Google Patents

一种表格相似性分析方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116226686A
CN116226686A CN202310508630.9A CN202310508630A CN116226686A CN 116226686 A CN116226686 A CN 116226686A CN 202310508630 A CN202310508630 A CN 202310508630A CN 116226686 A CN116226686 A CN 116226686A
Authority
CN
China
Prior art keywords
similarity
analyzed
tables
target
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310508630.9A
Other languages
English (en)
Other versions
CN116226686B (zh
Inventor
周旺
刘明伟
任昊文
刘竹青
范仲恺
简晓雯
朱婧
刘博�
康旖
梁子键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202310508630.9A priority Critical patent/CN116226686B/zh
Publication of CN116226686A publication Critical patent/CN116226686A/zh
Application granted granted Critical
Publication of CN116226686B publication Critical patent/CN116226686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种表格相似性分析方法、装置、设备和存储介质,其中,方法包括:从预设业务数据库中获取待分析表格;基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。本发明实施例的技术方案解决了现有技术在对数量较多的表格进行表格间相似性分析时,存在的表格相似性分析准确度和效率不足的问题,可以提高表格间相似性分析的准确度和效率。

Description

一种表格相似性分析方法、装置、设备和存储介质
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及一种表格相似性分析方法、装置、设备和存储介质。
背景技术
表格相似性分析是对不同数据表中的字段进行表格相似性分析并标注,表格相似性分析对业务的运营和发展具有重要意义。现有技术在对数量较多的表格间进行表格相似性分析时,存在表格相似性分析方式单一,表格相似性分析准确度和效率不足的问题。
发明内容
本发明实施例提供了一种表格相似性分析方法、装置、设备和存储介质,可以提高表格间相似性分析的准确度和效率。
第一方面,本发明实施例提供了一种表格相似性分析方法,该方法包括:
从预设业务数据库中获取待分析表格;
基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;
基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。
第二方面,本发明实施例提供了一种表格相似性分析装置,该装置包括:
待分析表格获取模块,用于从预设业务数据库中获取待分析表格;
拓扑表格网络构建模块,用于基于所述待分析表格的表格种类信息和表格从属信息构建拓扑网络,得到目标拓扑表格网络;
表格相似性分析模块,用于基于预设分级遍历算法遍历所述目标拓扑表格网络中的各表格,并确定两两表格间的相似性,得到目标相似性分析结果。
第三方面,本发明实施例提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的表格相似性分析方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的表格相似性分析方法。
本发明实施例所提供的技术方案,从预设业务数据库中获取待分析表格;基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。本发明实施例的技术方案解决了现有技术在对数量较多的表格进行表格间相似性分析时,存在的表格相似性分析准确度和效率不足的问题,可以提高表格间相似性分析的准确度和效率。
附图说明
图1是本发明实施例提供的一种表格相似性分析方法流程图。
图2是本发明实施例提供的又一种表格相似性分析方法流程图。
图3是本发明实施例提供的一种拓扑表格网络结构示意图。
图4是本发明实施例提供的一种进行表格间相似度计算的方法流程图。
图5是本发明实施例提供的一种进行字段间相似度计算的方法流程图。
图6是本发明实施例提供的一种孪生神经网络的结构示意图。
图7是本发明实施例提供的一种确定根子相似性分析结果的方法流程图。
图8是本发明实施例提供的一种表格相似性分析系统的结构示意图。
图9是本发明实施例提供的一种表格相似性分析装置的结构示意图。
图10是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种表格相似性分析方法流程图,本发明实施例可适用于对电网行业表格间相似性进行判断的场景中,该方法可以由表格相似性分析装置执行,该装置可以由软件和/或硬件的方式来实现。
如图1所示,表格相似性分析方法包括以下步骤:
S110、从预设业务数据库中获取待分析表格。
其中,预设业务数据库可以是预设的用于存储电网行业相关表格的数据库。预设业务数据库支持各业务系统数据库数据源的集中统一存储和实时同步,源数据发生变动后数据同步引擎中的目标表自动更新,保证数据一致。待分析表格可以是预设业务数据库中需要进行相似性分析的表格。具体的,可以基于获取到的待分析表格确定指令,从预设业务数据库中的各表格中确定待分析表格并进行获取。
S120、基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络。
其中,目标设备可以是待分析表格对应的设备。具体的,待分析表格可以是关于不同设备的各种属性表格。例如,待分析表格可以包括设备表、订单表、项目表、合同表、财务表和基建表等表格。由于待分析表格可以对应多个设备,而不同设备间的表格间进行相似性分析并无实质性意义,因此,可以通过确定待分析表格的对应的目标设备,将待分析表格根据对应的设备进行分类,再对相同设备下的待分析表格间的相似性进行分析。
表格从属信息可以是描述表格间从属关系的信息。表格从属信息可以描述反映表格的层级关系,例如,表格a是表格b的分表格,则表格b的层级大于表格a的层级。其中,设备表可以是各待分析表格中的源表格,其余表格可以是关于设备的衍生表格,也即设备表的层级大于非设备表的层级。
目标拓扑表格网络可以是基于待分析表格对应的目标设备和层级关系得到的拓扑网络。具体的,可以将设备表作为拓扑网络的根节点,非设备表作为拓扑网络的子节点,并根据表格从属信息确定各待分析表格的网络层级,将各待分析表格对应的节点进行连接,得到目标拓扑表格网络。通过构建目标拓扑表格网络,可以清楚的反映各待分析表格间的从属关系,可以便于后续基于目标拓扑表格网络有条理的分析各待分析表格间的相似性。
S130、基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。
其中,预设分级遍历算法可以是预设对目标拓扑表格网络中各所述待分析表格间的相似性进行分析的算法。具体的,预设分级遍历算法可以先确定目标拓扑表格网络中根节点表格与各子节点表格间的相似性,得到根子相似性分析结果;确定目标拓扑表格网络中各子节点表格间的相似性,得到子间相似性分析结果;根据根子相似性分析结果和子间相似性分析结果得到目标相似性分析结果。通过预设分级遍历算法先对目标拓扑表格网络中根节点表格与各子节点表格间的相似性进行分析,再对目标拓扑表格网络中各子节点表格间的相似性进行分析,可以有条理的对目标拓扑表格网络中的两两表格间的相似性进行分析,提高了表格间相似性分析的效率和精度。
目标相似性分析结果可以是对目标拓扑表格网络中各待分析表格间相似性进行分析的结果。目标相似性分析结果可以基于根子相似性分析结果和子间相似性分析结果进行确定。具体的,可以将根子相似性分析结果和子间相似性分析结果进行组合,得到目标相似性分析结果。
本发明实施例所提供的技术方案,通过从预设业务数据库中获取待分析表格;基于待分析表格的对应的目标设备和各个待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;基于预设分级遍历算法遍历目标拓扑表格网络中的各待分析表格,并确定每两个待分析表格间的相似性,得到目标相似性分析结果。本发明实施例的技术方案解决了现有技术在对数量较多的表格进行表格间相似性分析时,存在的表格相似性分析准确度和效率不足的问题,可以提高表格间相似性分析的准确度和效率。
图2是本发明实施例提供的又一种表格相似性分析方法流程图,本发明实施例可适用于对电网行业表格间相似性进行判断的场景中,本实施例在上述实施例的基础上,进一步的说明如何基于待分析表格的对应的目标设备和各个待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;如何基于预设分级遍历算法遍历目标拓扑表格网络中的各待分析表格,并确定每两个待分析表格间的相似性,得到目标相似性分析结果。该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图2所示,表格相似性分析方法包括以下步骤:
S210、从预设业务数据库中获取待分析表格。
其中,预设业务数据库可以是预设的用于存储电网行业相关表格的数据库。预设业务数据库支持各业务系统数据库(MySQL、Oracle、SQL Server、P ostgreSQL等)数据源的集中统一存储和实时同步,源数据发生变动后数据同步引擎中的目标表自动更新,保证数据一致。待分析表格可以是预设业务数据库中需要进行相似性分析的表格。具体的,可以基于获取到的待分析表格确定指令,从预设业务数据库中的各表格中确定待分析表格并进行获取。
S220、将设备表作为拓扑网络的根节点,并根据所述表格从属信息确定各所述待分析表格的网络层级。
其中,设备表可以是各待分析表格中的源表格,其余表格可以是关于设备的衍生表格。因此,可以将设备表作为拓扑网络的根节点,非设备表作为拓扑网络的子节点。表格从属信息可以是描述表格间从属关系的信息。表格从属信息可以描述反映表格的层级关系,例如,a表格是b表格的分表格,则b表格的层级就大于a表格的层级。网络层级可以是描述拓扑网络中节点的层级关系的信息,在获取到各待分析表格的表格从属信息后,可以根据表格从属信息确定各待分析表格的网络层级。也可以理解为将待分析表格的层级关系作为网络层级关系。
S230、将各所述待分析表格对应的节点进行连接,得到目标拓扑表格网络。
其中,目标拓扑表格网络可以是基于待分析表格的层级关系得到的拓扑网络。通过构建目标拓扑表格网络,可以清楚的反映各待分析表格间的从属关系,可以便于后续基于目标拓扑表格网络有条理的分析各待分析表格间的相似性。
示例性,图3是本发明实施例提供的一种拓扑表格网络结构示意图,如图3所示,拓扑表格网络包括根节点和子节点,甲设备表(A)为拓扑表格网络的根节点;财务表(B)、合同表(C)、项目表(D)为一级子表;财务表1(E)、财务表2(F)、财务表3(G)、合同表1(L)、合同表2(M)、合同表3(N)为二级子表;财务表2-1(H)、财务表2-2(J)、财务表2-3(K)、合同表2-1(O)、合同表2-2(P)、合同表2-3(Q)为三级子表。
S240、确定所述目标拓扑表格网络中根节点表格与各子节点表格间的相似性,得到根子相似性分析结果。
其中,根节点表格可以是目标拓扑表格网络中根节点对应的表格,也即设备表。各子节点表格可以是目标拓扑表格网络中子节点对应的表格,也即非设备表。根子相似性分析结果可以是对根节点表格与各子节点表格间的相似性进行分析后的结果。
具体的,确定每两个待分析表格间的相似性的过程,包括:针对两个待分析表格,计算两个待分析表格中的目标字段间的相似度,得到字段相似度值,将字段相似度值与预设相似度阈值进行对比,并根据对比结果确定两个待分析表格的相似性。
其中,目标字段可以是待分析表格中的需要进行相似性分析的字段。可选的,目标字段可以是待分析表格中的各个字段。在计算两个待分析表格中的目标字段间的相似度,得到字段相似度值后,可以将字段相似度值与预设相似度阈值进行对比,并根据对比结果确定两个待分析表格的相似性。例如,当字段相似度值大于预设相似度阈值时,确定两个待分析表格间具有相似性;当字段相似度值小于预设相似度阈值时,确定两个待分析表格间不具有相似性。
示例性,图4是本发明实施例提供的一种进行表格间相似度计算的方法流程图,如图4所示,进行表格间相似度计算的方法流程为:将表1中的字段1、分别与表2中的字段a、字段b、字段c进行相似度计算;再将表1中的字段2分别与表2中的字段a、字段b、字段c进行相似度计算;最后将表1中的字段3分别与表2中的字段a、字段b、字段c进行相似度计算。
在一种可选的实施方式中,计算两个待分析表格中的目标字段间的相似度,得到字段相似度值,包括:基于至少两种预设相似度算法计算两个待分析表格中的目标字段间的相似度,得到至少一个初始相似度值;将各初始相似度值进行加权平均处理,得到字段相似度值。
示例性,图5是本发明实施例提供的一种进行字段间相似度计算的方法流程图,其中,“字段b”和“字段c”均为“字段a”的副本,也即“字段b”、“字段c”和 “字段a”均表示同一字段。如图5所示,进行字段间相似度计算的方法流程为:先基于算法1计算“字段a”与“字段1”的相似度值,得到“得分1”;再基于算法2计算“字段b”与“字段1”的相似度值,得到“得分2”;再基于算法3计算“字段c”与“字段1”的相似度值,得到“得分3”;随后计算“得分1”、“得分2”和“得分3”的得分平均值,当计算得分均值大于等于阈值Ki,则认为两个字段相似;当得分均值小于阈值Ki,则认为两个字段不相似。
在一种可选的实施方式中,上述预设相似度算法包括:杰卡德相似度算法、余弦相似度算法和孪生神经网络算法中的至少两种。
其中,杰卡德相似度算法主要用于计算个体间的相似度,两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,杰卡德系数越大说明相似度越高。个体的特征属性可以通过符号度量或者布尔值标识,所以可以通过特征属性是否相似进行分析比较。该算法计算流程为:分词处理;将表1中的字段1当作一个集合1,表2中的字段a当作一个集合2;计算两个集合之间的交集、并集;计算交集数量与并集数量的比,其比值为两个字段之间的相似度系数,并赋分。
余弦相似度是n维空间中两个n维向量之间角度的余弦,它等于两个向量的点积(向量积)除以两个向量长度(或大小)的乘积,值的范围为[-1,1],-1为完全不相似,1为完全相似。余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。余弦相似度算法的计算流程为:对两个表的两个字段分别作分词处理;列出两个字段包含的所有词;计算两个字段中,上述所有词出现的词频;分别写出两个字段词频的向量;计算这两个向量的相似程度,并赋分。
孪生神经网络算法模型可以通过深度学习来对句子相似度进行衡量。首先输入两个字段,经DNN层进行编码并得到特征向量的表示之后,使用余弦相似度来计算两个字段之间的相似程度。该算法计算流程为:对两个字段文本进行分词并输入孪生神经网络中;在编码层获取词语的权重;使用深度神经网络DNN算法进行池化;利用余弦相似度计算相关性,并赋分。
具体的,示例性,图6是本发明实施例提供的一种孪生神经网络的结构示意图,如图6所示,孪生神经网络包括Network1和network2权重参数共享的两个形状相同的网络,用来对输入的数据进行编码,包括(word-embedding,GRU,biGRU等),Network3部分是一个深层的神经网络,包含(batchnorm、dropout、relu、Linear等层)。
在一种可选的实施方式中,在两个待分析表格种存在根节点表格的情况下,可以分别确定根节点表格中的预设关键字段与另一待分析表格中每个字段的相似性,得到字段相似度值。其中,预设关键字段可以是设备表中预设的关键词段,通过将根节点表格中的预设关键字段与另一待分析表格中每个字段的相似性,可以提高相似性分析的效率。
示例性的,示例性,图7是本发明实施例提供的一种确定根子相似性分析结果的方法流程图,如图7所示,确定设备表1与订单表3间的相似性的方法流程为:以设备表的 id字段为关键字段,与订单表中所有的字段进行匹配对于每个订单表中的每个字段,使用杰卡德相似度、余弦相似度和李生神经网络三种算法,计算它与设备表 id 字段的相似度分数;对三种相似度分数进行加权,得到该订单表的与设备表的相似性得分;如果相似性得分高于预设阔值,则认为该订单表与设备表存在相关性,记录两者之间的关联关系对所有财务表;重复上述步骤,直到找到与设备表相关的表或者所有表都被遍历;对于每个已确定相关性的表,记录并存储它们之间的关联关系。至此实现自动识别设备表1与订单表3的关联关系。
S250、确定所述目标拓扑表格网络中各子节点表格间的相似性,得到子间相似性分析结果。
其中,子间相似性分析结果可以是目标拓扑表格网络中各子节点表格间的相似性分析结果。具体的,可以参照上述表格相似性分析方法,基于对分析各子节点表格间的字段的相似性分析结果,得到子间相似性分析结果。
通过先对目标拓扑表格网络中根节点表格与各子节点表格间的相似性进行分析,再对目标拓扑表格网络中各子节点表格间的相似性进行分析,可以有条理的对目标拓扑表格网络中的两两表格间的相似性进行分析,提高了表格间相似性分析的效率和精度。
S260、根据所述根子相似性分析结果和所述子间相似性分析结果得到所述目标相似性分析结果。
其中,目标相似性分析结果可以是对目标拓扑表格网络中各待分析表格间相似性进行分析的结果。目标相似性分析结果可以基于根子相似性分析结果和子间相似性分析结果进行确定。具体的,可以将根子相似性分析结果和子间相似性分析结果进行组合,得到目标相似性分析结果。
可选的,在得到目标相似性分析结果后,可以将有关联的数据表同步存储至业务系统表关系映射仓库。也根据业务需求,人工手动标注数据表间的关联性,标注结果同样存储至业务系统表关系映射仓库。
图8是本发明实施例提供的一种表格相似性分析系统的结构示意图,如图8所示,表格相似性分析系统多个业务数据库、数据同步引擎、业务系统表关系自动分析引擎、业务系统表关系映射仓库和统一数据模型实例化构建引擎。其中,业务数据库用于获取待分析表格。数据同步引擎用于对变动后的数据进行同步。业务系统表关系自动分析引擎可以基于表关系-拓扑分析算法和表字段相关性分析算法分析待分析表格间的相似性。业务系统表关系映射仓库可以用于记录表格间的相似关系。统一数据模型实例化构建引擎可以用于构建经典示例和全量数据。
本发明实施例所提供的技术方案,通过从预设业务数据库中获取待分析表格;将设备表作为拓扑网络的根节点,并根据所述表格从属信息确定各所述待分析表格的网络层级;将各所述待分析表格对应的节点进行连接,得到所述目标拓扑表格网络;确定所述目标拓扑表格网络中根节点表格与各子节点表格间的相似性,得到根子相似性分析结果确定所述目标拓扑表格网络中各子节点表格间的相似性,得到子间相似性分析结果根据所述根子相似性分析结果和所述子间相似性分析结果得到所述目标相似性分析结果。本发明实施例的技术方案解决了现有技术在对数量较多的表格进行表格间相似性分析时,存在的表格相似性分析准确度和效率不足的问题,可以提高表格间相似性分析的准确度和效率。
图9是本发明实施例提供的一种表格相似性分析装置的结构示意图,本发明实施例可适用于对电网行业表格间相似性进行判断的场景中,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图9所示,表格相似性分析装置包括:待分析表格获取模块310、拓扑表格网络构建模块320和表格相似性分析模块330。
其中,待分析表格获取模块310,用于从预设业务数据库中获取待分析表格;拓扑表格网络构建模块320,用于基于所述待分析表格的表格种类信息和表格从属信息构建拓扑网络,得到目标拓扑表格网络;表格相似性分析模块330,用于基于预设分级遍历算法遍历所述目标拓扑表格网络中的各表格,并确定两两表格间的相似性,得到目标相似性分析结果。
本发明实施例所提供的技术方案,通过从预设业务数据库中获取待分析表格;基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。本发明实施例的技术方案解决了现有技术在对数量较多的表格进行表格间相似性分析时,存在的表格相似性分析准确度和效率不足的问题,可以提高表格间相似性分析的准确度和效率。
在一种可选的实施方式中,所述拓扑表格网络构建模块320具体用于:将设备表作为拓扑网络的根节点,并根据所述表格从属信息确定各所述待分析表格的网络层级;将各所述待分析表格对应的节点进行连接,得到所述目标拓扑表格网络。
在一种可选的实施方式中,所述表格相似性分析模块330具体用于:确定所述目标拓扑表格网络中根节点表格与各子节点表格间的相似性,得到根子相似性分析结果;确定所述目标拓扑表格网络中各子节点表格间的相似性,得到子间相似性分析结果;根据所述根子相似性分析结果和所述子间相似性分析结果得到所述目标相似性分析结果。
在一种可选的实施方式中,所述表格相似性分析模块330具体用于:针对两个所述待分析表格,计算两个所述待分析表格中的目标字段间的相似度,得到字段相似度值;将所述字段相似度值与预设相似度阈值进行对比,并根据对比结果确定两个所述待分析表格的相似性。
在一种可选的实施方式中,所述表格相似性分析模块330具体用于:在两个所述待分析表格种存在根节点表格的情况下,分别确定所述根节点表格中的预设关键字段与另一所述待分析表格中每个字段的相似性,得到字段相似度值。
在一种可选的实施方式中,所述表格相似性分析模块330具体用于:基于至少两种预设相似度算法计算两个所述待分析表格中的目标字段间的相似度,得到至少一个初始相似度值;将各所述初始相似度值进行加权平均处理,得到所述字段相似度值。
在一种可选的实施方式中,所述预设相似度算法包括:杰卡德相似度算法、余弦相似度算法和孪生神经网络算法中的至少两种。
本发明实施例所提供的表格相似性分析装置可执行本发明任意实施例所提供的表格相似性分析方法,具备执行方法相应的功能模块和有益效果。
图10为本发明实施例提供的一种计算机设备的结构示意图。图10示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图10显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备,可以与配置于表格相似性分析设备中。
如图10所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18可以是几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图10中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的表格相似性分析方法,该方法包括:
从预设业务数据库中获取待分析表格;
基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;
基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的表格相似性分析方法,包括:
从预设业务数据库中获取待分析表格;
基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;
基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种表格相似性分析方法,其特征在于,所述方法包括:
从预设业务数据库中获取待分析表格;
基于所述待分析表格对应的目标设备和各个所述待分析表格之间的表格从属信息构建拓扑网络,得到目标拓扑表格网络;
基于预设分级遍历算法遍历所述目标拓扑表格网络中的各所述待分析表格,并确定每两个所述待分析表格间的相似性,得到目标相似性分析结果。
2.据权利要求1所述的方法,所述基于所述待分析表格的表格种类信息和表格级别信息构建拓扑网络,得到目标拓扑表格网络,包括:
将设备表作为拓扑网络的根节点,并根据所述表格从属信息确定各所述待分析表格的网络层级;
将各所述待分析表格对应的节点进行连接,得到所述目标拓扑表格网络。
3.根据权利要求1所述的方法,所述基于预设分级遍历算法遍历所述目标拓扑表格网络中的各表格,并确定两两表格间的相似性,得到目标相似性分析结果
确定所述目标拓扑表格网络中根节点表格与各子节点表格间的相似性,得到根子相似性分析结果;
确定所述目标拓扑表格网络中各子节点表格间的相似性,得到子间相似性分析结果;
根据所述根子相似性分析结果和所述子间相似性分析结果得到所述目标相似性分析结果。
4.根据权利要求1所述的方法,其特征在于,所述确定每两个所述待分析表格间的相似性,包括:
针对两个所述待分析表格,计算两个所述待分析表格中的目标字段间的相似度,得到字段相似度值;
将所述字段相似度值与预设相似度阈值进行对比,并根据对比结果确定两个所述待分析表格的相似性。
5.根据权利要求4所述的方法,所述计算两个所述待分析表格中的目标字段间的相似度,得到字段相似度值,包括:
在两个所述待分析表格种存在根节点表格的情况下,分别确定所述根节点表格中的预设关键字段与另一所述待分析表格中每个字段的相似性,得到字段相似度值。
6.根据权利要求4所述的方法,其特征在于,所述计算两个所述待分析表格中的目标字段间的相似度,得到字段相似度值,包括:
基于至少两种预设相似度算法计算两个所述待分析表格中的目标字段间的相似度,得到至少一个初始相似度值;
将各所述初始相似度值进行加权平均处理,得到所述字段相似度值。
7.根据权利要求6所述的方法,其特征在于,所述预设相似度算法包括:杰卡德相似度算法、余弦相似度算法和孪生神经网络算法中的至少两种。
8.一种表格相似性分析装置,其特征在于,所述装置包括:
待分析表格获取模块,用于从预设业务数据库中获取待分析表格;
拓扑表格网络构建模块,用于基于所述待分析表格的表格种类信息和表格从属信息构建拓扑网络,得到目标拓扑表格网络;
表格相似性分析模块,用于基于预设分级遍历算法遍历所述目标拓扑表格网络中的各表格,并确定两两表格间的相似性,得到目标相似性分析结果。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的表格相似性分析方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的表格相似性分析方法。
CN202310508630.9A 2023-05-08 2023-05-08 一种表格相似性分析方法、装置、设备和存储介质 Active CN116226686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310508630.9A CN116226686B (zh) 2023-05-08 2023-05-08 一种表格相似性分析方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310508630.9A CN116226686B (zh) 2023-05-08 2023-05-08 一种表格相似性分析方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN116226686A true CN116226686A (zh) 2023-06-06
CN116226686B CN116226686B (zh) 2023-08-18

Family

ID=86579116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310508630.9A Active CN116226686B (zh) 2023-05-08 2023-05-08 一种表格相似性分析方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116226686B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325035A (zh) * 2018-11-29 2019-02-12 阿里巴巴集团控股有限公司 相似表的识别方法及装置
US20190095515A1 (en) * 2017-09-25 2019-03-28 International Business Machines Corporation Automatic feature learning from a relational database for predictive modelling
CN109656928A (zh) * 2018-12-24 2019-04-19 成都四方伟业软件股份有限公司 表间关系获得方法及装置
US20220027358A1 (en) * 2020-07-23 2022-01-27 Pivotal Software, Inc. Object relational mapping with a single database query
US20220067046A1 (en) * 2020-08-31 2022-03-03 Carrera Group, Inc. Systems and methods for artificial intelligence-based data system optimization
CN114153925A (zh) * 2021-11-12 2022-03-08 城云科技(中国)有限公司 数据表关联分析方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095515A1 (en) * 2017-09-25 2019-03-28 International Business Machines Corporation Automatic feature learning from a relational database for predictive modelling
CN109325035A (zh) * 2018-11-29 2019-02-12 阿里巴巴集团控股有限公司 相似表的识别方法及装置
CN109656928A (zh) * 2018-12-24 2019-04-19 成都四方伟业软件股份有限公司 表间关系获得方法及装置
US20220027358A1 (en) * 2020-07-23 2022-01-27 Pivotal Software, Inc. Object relational mapping with a single database query
US20220067046A1 (en) * 2020-08-31 2022-03-03 Carrera Group, Inc. Systems and methods for artificial intelligence-based data system optimization
CN114153925A (zh) * 2021-11-12 2022-03-08 城云科技(中国)有限公司 数据表关联分析方法和装置

Also Published As

Publication number Publication date
CN116226686B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US20180196868A1 (en) Multi-Dimensional Modeling in a Functional Information System
US7593927B2 (en) Unstructured data in a mining model language
US20220058222A1 (en) Method and apparatus of processing information, method and apparatus of recommending information, electronic device, and storage medium
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
CN106897374B (zh) 一种基于轨迹大数据最近邻查询的个性化推荐方法
CN111627552B (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
CN111241840A (zh) 一种基于知识图谱的命名实体识别方法
US11947596B2 (en) Index machine
US11620453B2 (en) System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations
CN113535788A (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
CN113254729A (zh) 基于动态超图网络的多模态演化特征自动共形表示方法
CN115358397A (zh) 一种基于数据采样的并行图规则挖掘方法及装置
US20190050429A1 (en) Parallel Discretization of Continuous Variables in Supervised or Classified Dataset
CN113032642A (zh) 针对目标对象的数据处理方法、装置、介质及电子设备
CN116226686B (zh) 一种表格相似性分析方法、装置、设备和存储介质
CN113010642B (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
US11782918B2 (en) Selecting access flow path in complex queries
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
Sayah et al. Semantic Integration in Big Data: State-of-the-Art.
Xu et al. Understanding human mobility: A multi-modal and intelligent moving objects database
Chen et al. A multi-source heterogeneous spatial big data fusion method based on multiple similarity and voting decision
CN113505600B (zh) 一种基于语义概念空间的工业产业链的分布式索引方法
EP4134836A1 (en) Relationship analysis using vector representations of database tables

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant