CN113312354B

CN113312354B - 数据表的识别方法、装置、设备和存储介质

Info

Publication number: CN113312354B
Application number: CN202110657955.4A
Authority: CN
Inventors: 白皓宇; 许超; 吴家林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-07-28
Anticipated expiration: 2041-06-10
Also published as: CN113312354A

Abstract

本公开公开了一种数据表的识别方法，涉及计算机技术领域，尤其涉及数据库、大数据和人工智能领域，可以用于字典表识别场景。具体实现方案为：获取数据表的至少一个数据特征，其中，数据特征用于表征数据表中列数据与列数据之间的关系；基于针对数据表获取的至少一个数据特征，生成对应的数据特征向量；以及将数据特征向量输入字典表识别模型，以识别数据表的类型。

Description

数据表的识别方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及数据库、大数据和人工智能领域，可以用于字典表识别场景。具体涉及一种数据表的识别方法、装置、设备、存储介质、计算机程序产品。

背景技术

字典表识别(Dictionary table recognition)技术是指识别数据库中的数据表是否为字典表的技术。随着数据库中数据表的日益增多，大量的数据表在使用时难以判断其类型。而字典表中记录的表数据中有着关键作用，更加需要提前知道其类别，以帮助使用者快速获取想要的字典表数据。

如医疗行业的数据库中，存在各项字段的映射，人们在使用时常常需要知晓各表的类别，以便使用时使得值与值能够对应。

发明内容

本公开提供了一种数据表的识别方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种数据表的识别方法，包括：获取数据表的至少一个数据特征，其中，所述数据特征用于表征所述数据表中列数据与列数据之间的关系；基于针对所述数据表获取的至少一个数据特征，生成对应的数据特征向量；以及将所述数据特征向量输入字典表识别模型，以识别所述数据表的类型。

根据本公开的另一方面，提供了一种数据表的识别装置，包括：第一获取模块，用于获取数据表的至少一个数据特征，其中，所述数据特征用于表征所述数据表中列数据与列数据之间的关系；生成模块，用于基于针对所述数据表获取的至少一个数据特征，生成对应的数据特征向量；以及识别模块，用于将所述数据特征向量输入字典表识别模型，以识别所述数据表的类型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A示例性示出了适于本公开实施例的系统架构；

图1B示例性示出了适于本公开实施例的应用场景；

图2示例性示出了根据本公开实施例的数据表的识别方法的流程图；

图3示例性示出了根据本公开实施例的获取数据表的数据特征的流程图；

图4示例性示出了根据本公开实施例的基于列与列之间的相关性获取数据表的数据特征的流程图；

图5示例性示出了根据本公开实施例的基于数理统计获取数据表的数据特征的流程图；

图6示例性示出了根据本公开实施例的基于模型训练获取数据表的数据特征的流程图；

图7示例性示出了根据本公开另一实施例的数据表的识别方法的流程图；

图8示例性示出了根据本公开另一实施例的获取数据表的数据特征的流程图；

图9示例性示出了根据本公开另一实施例的生成数据特征向量的流程图；

图10示例性示出了根据本公开另一实施例的基于数据特征向量和模型识别数据表的流程图；

图11示例性示出了根据本公开实施例的识别字典表的原理图；

图12示例性示出了根据本公开实施例的数据表的识别装置的框图；以及

图13示例性示出了用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

传统的字典表识别方案包括：人工识别方案和自动识别方案。

人工识别方案中，需要人工逐表查看数据表的名称和备注信息以及表中的数据值等，并通过人工分析归纳得出结论。该方案耗时耗力，效率低，会给数据使用者增加过多的使用成本。同时，该方案受主观因素影响，识别结果的准确度可能较低。

自动识别方案中，通过对数据表的名称、以及从数据表的备注信息中抽取的关键词进行简单匹配，同时通过统计数据表中各列数据包含的不同数值的数量来对各列数据进行简单匹配，以识别数据表是否是字典表。示例性的，在该方案中，如果数据表中两列数据包含的不同数值的数目比较接近，则认为该数据表是字典表。否则，则认为该数据表不是字典表。该方案受各种因素影响，识别结果的准确度也较低。

示例性的，实际上，数据库中有些数据表会存在备注信息、表名缺失或者不准确的情况，这对传统的自动识别方案而言，将大大降低识别结果的准确度。

示例性的，实际上，很多数据表中的字典映射都会存在多对一的情况，比如，数据表中的“0”和“m”可以同时映射至“男”，数据表中的“1”和“w”可以同时映射至“女”，因而仅仅考虑两列数据中包含的不同数值的数量是否接近，这对传统的自动识别方案而言，准确度也会受影响。这是因为，传统的自动识别方案中，仅仅进行简单的规则判断，比如仅仅对两列数据中的不同数值的数量做简单的个数统计，缺乏相应的语义理解，也不会分析列数据与列数据之间的映射关系，因而准确度必然会受影响。

换言之，传统的自动识别方案实际上是简单的规则判断方案，因而对表数据的分析很有限，同时对表名和表备注信息也欠缺理解，因此整体准确率偏低。

比如，某数据表中第一列涉及2个值，分别为男和女，第二列涉及4个值，分别为0和1，以及m和w，如果仅仅根据两列中涉及的不同数值数目之间的差别，而无法准确地理解第一列涉及的2个值与第二列涉及的4个值之间的映射关系，则可能将该表识别为字典表，也可能将该表识别为其他类型的数据表，导致无法准确地判断表是不是字典表。

综上，通过人工方式或者简单的规则判断方式来识别数据表是不是字典表，不仅效率低，而且识别结果准确度也不够高。

基于此，本公开提出了一种改进的数据表自动识别方案，不仅可以提高识别效率，而且可以提高识别结果的准确度。

以下将结合附图和具体实施例详细阐述本公开。

适于本公开实施例的数据表的识别方法和装置的系统架构介绍如下。

图1A示例性示出了适于本公开实施例的系统架构。需要注意的是，图1A所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。

如图1A所示，系统架构100可以包括：服务器101和数据库102、103和104。数据库102、103和104中均可以包括多种类型的数据表，如字典表等。服务器101可以自动识别这些数据库中的每个数据表是不是字典表，以便用户使用时可以快速获取相关字典表中的数据。

示例性的，针对数据库中的每个数据表，可以先根据数据表的表名、备注信息等辅助信息对数据表进行初步识别。在根据该辅助信息能够确定该数据表是字典表或者不是字典表的情况下，可以结束对本数据表的识别。在根据该辅助信息不确定该数据表是字典表且不能确定该数据表不是字典表的情况下，可以继续获取该数据表的其他信息，如数据表中记录的表数据的特征信息，并基于当前获取的特征信息继续对该数据表进行识别。

需要说明的是，在本公开实施例中，基于上述辅助信息识别数据表时，可以采用关键字匹配和/或语义理解如NLP等手段，以便提高识别结果的准确度。

此外，在本公开实施例中，可以通过数理统计、相关性计算以及AI算法等手段中的一个或多个获取数据表的上述其他信息。对此，本公开将在后续实施例中详细阐述。

应该理解，通过本公开实施例，可以从表名和备注信息等辅助信息，以及表数据的值域分布(概率分布)、映射关系等多个维度自动识别数据表是否是字典表，因而能够大大提高识别效率和识别结果的准确度。

应该理解，图1A中的服务器和数据库的数目仅仅是示意性的。根据实现需要，可以具有任意数目的服务器和数据库。

适于本公开实施例的数据表的识别方法和装置的应用场景介绍如下。

本公开实施例提供的技术方案，可以用于对数据库中保存的大量的数据表进行自动化识别以确定这些表是否是字典表，以便用户使用时能够快速获取相关字典表中的数据。

如图1B所示，该数据表可以通过本公开实施例提供的技术方案进行类型识别，以确定该表是不是字典表。

根据本公开的实施例，本公开提供了一种数据表的识别方法。

图2示例性示出了根据本公开实施例的数据表的识别方法的流程图。

如图2所示，数据表的识别方法200可以包括：操作S210～S230。

在操作S210，获取数据表的至少一个数据特征，其中，数据特征用于表征数据表中列数据与列数据之间的关系。

在操作S220，基于针对数据表获取的至少一个数据特征，生成对应的数据特征向量。

在操作S230，将数据特征向量输入字典表识别模型，以识别数据表的类型。

需要说明的是，数据表的特征可以包括数据特征和附加特征。其中，数据特征是通过对数据表内记录的表数据进行特征处理得到的。附加特征是通过对数据表的表名和备注信息等附加信息进行特征处理得到的。

在本公开实施例中，可以通过数理统计、相关性计算、AI算法等手段获取数据表的数据特征。对此，本公开将在后续实施例中详细阐述。

此外，在本公开实施例中，字典表识别模型可以是各种分类模型，在此不做限定。示例性的，分类模型可以是利用机器学习得到的，或者可以是利用深度学习得到的。

示例性的，返回参考图1B，利用本公开实施例提供的上述操作S210～S230，可以确定该数据表的第一列数据包括“常规”和“紧急”两种数据，该数据表的第二列数据包括“1”和“2”两种数据，且第一列数据中的“常规”与第二列数据中的“1”之间存在映射关系，第一列数据中的“紧急”与第二列数据中的“2”之间存在映射关系。因此，经判断，图1B所示的数据表是字典表。

通过本公开实施例，获取数据表的数据特征并基于获取的数据特征生成对应的数据特征向量，然后利用字典表识别模型对该数据特征向量进行处理，可以识别该数据表是不是字典表。并且，利用字典表识别模型自动识别该数据表是不是字典表，不仅可以提高识别效率，而且可以更加准确地理解表数据的数据特点，因而还可以提高识别结果的准确度，同时还可以有效降低人工成本。

作为一种可选的实施例，可以通过以下操作中的至少之一获取数据表的至少一个数据特征。

计算数据表中相关列数据之间的相关性以获得对应的第一数据特征。

对数据表中相关列数据进行数理统计以获得对应的第二数据特征。

利用数据表中相关列数据进行模型训练以获得对应的第三数据特征。

示例性的，如图3所示，通过操作S310～S330获取数据表的至少一个数据特征。

在操作S310，计算数据表中相关列数据之间的相关性以获得对应的第一数据特征。

在操作S320，对数据表中相关列数据进行数理统计以获得对应的第二数据特征。

在操作S330，利用数据表中相关列数据进行模型训练以获得对应的第三数据特征。

在本公开的一些实施例中，可以对数据表中的所有数据列进行特征处理，以获取对应的数据特征。或者，在本公开的另一些实施例中，还可以仅对数据表中的部分数据列(如具有一定相关性的数据列)进行特征处理，以获取对应的数据特征。因而，在本公开实施例中，相关列数据可以理解为所有列数据或部分列数据，本公开在此不做限定。

应该理解，数据表中两列数据之间的相关性越大，表明这两列数据之间存在特定映射关系的可能性就越大。而存在特定映射关系的可能性就越大，则数据表是字典表的可能性也越大。因而，可以通过相关性计算，获取表征数据表中列数据与列数据之间的映射关系的数据特征。

类似地，数据表中两列数据的值域分布越相似，表明这两列数据之间存在特定映射关系的可能性就越大，进而表明数据表是字典表的可能性也越大。

类似地，将数据表中的任一列数据作为函数的因变量y，并将其他列数据作为函数的自变量x₁、x₂、x₃、......，进行模型训练，可以学习y与x(包括x₁、x₂、x₃、......)之间的关系。如果y与x中的任一个或者多个之间存在预定映射关系，则表明数据表是字典表。

进一步，在本公开实施例，可以根据第一数据特征、第二数据特征和第三数据特征中的至少之一生成对应的数据特征向量。

示例性的，比如可以由第一数据特征生成对应的特征分量a₁、a₂、a₃、a₄，由第二数据特征生成对应的特征分量b₁、b₂、b₃、b₄、b₅，由第三数据特征生成对应的特征分量c₁、c₂、c₃，则由此可以生成数据特征向量{a₁，a₂，a₃，a₄，b₁，b₂，b₃，b₄，b₅，c₁，c₂，c₃}。应该理解，在本公开实施例中，数据特征向量的维度数可以根据实际需要确定。此外，在实际处理中，还可以对生成的数据特征向量进行降维度处理。

需要说明的是，在本公开实施例中，特征处理目的在于通过一系列方法将数据表中的信息统一为数据特征向量，以便为后续算法分类做准备。其中，基于数据表生成的数据特征向量用于对该数据表进行特征表示，以便后续利用预定模型对数据表分类时使用。

应该理解，AI算法可以帮助理解表内容并实现表类别自动判断，因而在本公开实施例中，采用相关性计算和数理统计等策略方法以及采用AI算法获取表的数据特征，可以提高字典表识别效率和识别结果的准确度。

进一步，作为一种可选的实施例，计算数据表中相关列数据之间的相关性以获得对应的第一数据特征，可以包括如下操作中的至少之一。

计算数据表中相关列数据之间的信息增益率，得到至少一个信息增益率，并将至少一个信息增益率中的最大信息增益率作为第一数据特征中的一个数据特征。

利用至少一种算法计算数据表中相关列数据之间的相关系数，以针对每种算法得到至少一个相关系数，并将针对每种算法得到的至少一个相关系数中的最大相关系数作为第一数据特征中的一个数据特征。

示例性的，如图4所示，计算数据表中相关列数据之间的相关性以获得对应的第一数据特征可以操作S410～S440。

在操作S410，计算数据表中相关列数据之间的信息增益率，得到至少一个信息增益率。

在操作S420，将至少一个信息增益率中的最大信息增益率作为第一数据特征中的一个数据特征。

在操作S430，利用至少一种算法计算数据表中相关列数据之间的相关系数，以针对每种算法得到至少一个相关系数。

在操作S440，将针对每种算法得到的至少一个相关系数中的最大相关系数作为第一数据特征中的一个数据特征。

在本公开的一些实施例中，可以仅通过信息增益率计算来获取第一数据特征。示例性的，对于数据表中的相关数据列，可以计算两两数据列之间的信息增益率，并将其中的最大信息增益率作为第一数据特征用以生成表的数据特征向量的一个特征分量。比如，对数据表中的5个数据列，如果通过计算两两数据列之间的信息增益率发现，第一数据列和第二数据列之间的信息增益率η₁₂最大，则可以将信息增益率η₁₂作为该表的数据特征向量的一个特征分量。

在本公开的另一些实施例中，也可以仅通过相关系数计算来获取第一数据特征。示例性的，对于数据表中的相关数据列，可以计算两两数据列之间的相关系数，并将其中的最大相关系数作为第一数据特征用以生成表的数据特征向量的一个特征分量。比如，对数据表中的3个数据列，如果通过计算两两数据列之间的相关系数发现，第一数据列和第三数据列之间的相关系数ξ₁₃最大，则可以将相关系数ξ₁₃作为该表的数据特征向量的一个特征分量。

需要说明的是，在本公开实施例中，可以采用person相关性算法、kendall相关性算法和spearman相关性算法中的至少之一计算数据列与数据列之间的相关系数。因而，在本公开实施例是，可以将利用每种相关性算法计算得到的相关系数作为表的数据特征向量的一个特征分量。示例性的，对数据表中的3个数据列，通过person相关性算法、kendall相关性算法和spearman相关性算法分别计算表中两两数据列之间的相关系数发现，都是第一数据列和第三数据列之间的相关系数ξ₁₃最大(分别为ξ_13person、ξ_13kendall、ξ_13spearman)，则可以将相关系数ξ_13person、ξ_13kendall、ξ_13spearman作为该表的数据特征向量的三个特征分量。

在本公开的其他实施例中，还可以同时通过信息增益率计算和相关系数计算来获取第一数据特征。其中，本实施例中，通过信息增益率计算以及通过相关系数计算来获取第一数据特征的方法可以参考上述实施例中的相关描述，在此不再赘述。

此外，作为一种可选的实施例，如图5所示，对数据表中相关列数据进行数理统计以获得对应的第二数据特征，可以包括如下操作S510～S520。

在操作S510，对数据表中相关列数据中的每列数据先进行归一化处理，再对至少一个指定数理统计指标进行统计，并针对每个指定数理统计指标得到对应的统计结果。

在操作S520，基于针对每个指定数理统计指标得到的统计结果进行二次统计，得到统计值差距最小的两列数据的统计值之间的差值，并将差值作为第二数据特征中的一个数据特征。

在本公开实施例中，上述指定数理统计指标可以包括但不限于以下指标中的至少之一：最大值，均值，方差，中位数，不同值个数。

应该理解，根据数理统计原理，两列数据的同一数理统计指标之间的差距越小，表明两列数据的分布越相似，进而存在特定映射关系的可能就越大，进而数据表是字典表的可能性也越大。反之，则反之。

示例性的，对数据表中的3个相关数据列中的每个数据列，可以分别进行归一化处理，并统计每个数据列的最大值、均值、方差和中位数。然后，分别计算3个相关数据列的最大值之间的差值，并取其中最小的差值作为第二数据特征中的一个数据特征。类似地，分别计算3个相关数据列的均值之间的差值，并取其中最小的差值作为第二数据特征中的另一个数据特征。类似地，分别计算3个相关数据列的方差之间的差值，并取其中最小的差值作为第二数据特征中的另一个数据特征。类似地，分别计算3个相关数据列的中位数之间的差值，并取其中最小的差值作为第二数据特征中的另一个数据特征。

通过本公开实施例，可以根据表中每列数据的分布统计，进行表数据特征挖掘和发现，比如使用两列数据之间不同元素个数之间的差值作为描述表数据的特征。

此外，作为一种可选的实施例，如图6所示，利用数据表中相关列数据进行模型训练以获得对应的第三数据特征，可以包括如下操作S610～S620。

在操作S610，将数据表中相关列数据中的任意一列数据作为因变量，同时将其余列数据作为至少一个自变量，训练至少一个预定模型。

在操作S620，在至少一个预定模型训练完成后，获取每个模型中的特征权重参数最大值，以作为第三数据特征中的一个数据特征。

示例性的，对于数据表中的相关列，可以将其中的任一列数据作为函数的因变量y，并将其中剩余的1列或者几列数据作为函数的自变量x₁、x₂、x₃、......，训练gini决策树，由此可以学习到y与x(包括x₁、x₂、x₃、......)之间的关系。如果y与x中的任一个或者多个之间存在预定映射关系，则表明数据表是字典表。需要说明的是，在本公开实施例中，决策树训练完毕后，可以获取决策树中的相关参数如特征权重的最大值，并将其作为数据表的第三数据特征中的一个数据特征来生成数据特征向量中的一个特征分量。应该理解，决策树中的某个特征权重越大，表明对应的两个数据列之间的相关性越大，进而表明对应的两个数据列之间存在特定映射关系的可能性就越大，进而表明对应的数据表是字典表的可能性就越大。反之，则反之。

需要说明的是，本公开实施例中，预定模型可以包括但不限于：决策树模型、逻辑回归模型和，支持向量机模型(Support Vector Machines，简称SVM)等各类机器学习算法、深度学习算法模型。

应该理解，在本公开实施例中，对于同一个数据表中的多个相关列，可以使用这些列对应的列数据同时对多个AI算法模型进行训练，并得到多个对应的特征权重最大值，然后将这些特征权重最大值中的每个作为表的第三数据特征中的一个数据特征，以生成对应数据特征向量的一个特征分量。

需要说明的是，本公开实施例中，数据特征向量的生成方式包括但不限于取最大值和最小值、以及深度学习编码、降维度处理等。

作为一种可选的实施例，如图7所示，该方法除了包括如图2所示的操作S210～S230之外，还可以包括：在获取数据表的数据特征之前，执行以下操作S710～S720。

在操作S710，获取数据表的附加特征，其中，附加特征为除数据特征之外的表特征。

在操作S720，验证基于附加特征能否确定数据表是字典表，得到对应的验证结果。

其中，在本公开实施例中，响应于验证结果表征基于附加特征不确定数据表是字典表且也不能确定数据表不是字典表，执行操作S210获取数据表的至少一个数据特征的操作。

示例性的，在本公开实施例中，可以先根据数据表的表名、备注信息等辅助信息对数据表进行初步识别。在根据该辅助信息能够确定该数据表是字典表或者不是字典表的情况下，可以结束对本数据表的识别。在根据该辅助信息不确定该数据表是字典表且不能确定该数据表不是字典表的情况下，可以继续获取该数据表的其他信息，如数据表中记录的表数据的特征信息，并基于当前获取的特征信息继续对该数据表进行识别。

换言之，在本公开实施例中，可以先根据数据表的表名和备注信息等对数据表进行识别，在基于这些信息无法识别出数据表的类型的情况下，继续获取数据表的数据特征向量，并对数据特征向量进行模型识别以确定数据表是不是字典表。

在本公开实施例中，基于附加特征对数据表进行识别时，可以基于语义理解(如NLP)和/或关键词(keyword)(如字典表、映射表等)匹配等手段对表进行识别，以保证对常规通用信息的准确判断。应该理解，关键词匹配又称字符串匹配。

作为一种可选的实施例，如图8所示，获取数据表的数据特征可以包括如下操作S810～S820。

在操作S810，从数据表中剔除不存在特定映射关系的数据列。

在操作S820，针对剔除了数据列的数据表，获取对应的数据特征。

在本公开实施例中，可以先对数据表进行数据预处理，再进行特征处理。其中，数据预处理包括但不限于：(1)对表数据编码，以便机器能够识别；(2)进行数据筛选，即剔除数据表中不涉及明确的映射关系的列数据，比如对于ID列和电话号码列，虽然每个ID可能对应一个或者多个电话号码，但是这种对应关系并不是字典表中定义的映射关系，因而这种对应关系对识别字典表不仅没有帮助，甚至可能造成干扰，可以在数据预处理过程中予以剔除。

通过本公开实施例，剔除一些数据列后可以进一步提高识别效率和识别结果的准确率。

作为一种可选的实施例，如图9所示，基于针对数据表获取的至少一个数据特征，生成对应的数据特征向量，可以包括：S910～S920。

在操作S910，基于针对数据表获取的至少一个数据特征，生成对应的至少一个特征分量。

在操作S920，利用至少一个特征分量，拼接成对应的数据特征向量。

示例性的，比如可以由N(N为任意正整数)个数据特征生成对应的N特征分量依次为a₁、a₂、a₃、a₄，......a_N，则由此可以拼接成数据特征向量{a₁，a₂，a₃，a₄，......，a_N-1，a_N}。应该理解，在本公开实施例中，数据特征向量的维度数可以根据实际需要确定。此外，在实际处理中，还可以对生成的数据特征向量进行降维度处理。

作为一种可选的实施例，如图10所示，将数据特征向量输入字典表识别模型，以识别数据表的类型，可以包括如下操作S1010～S1030。

在操作S1010，将数据特征向量输入字典表识别模型，得到对应的分类结果。

在操作S1020，确定分类结果是否大于预设值。

在操作S1030，响应于确定预设值大于预设值，确定数据表为字典表。

示例性的，继续参考上述示例，比如假设a为预设值，且a＝0.8，那么如果将数据特征向量{a₁，a₂，a₃，a₄，......，a_N-1，a_N}输入对应的字典表识别模型，得到输出结果(即分类结果)b。如果b＞0.8，则表明当前的数据表是字典表；如果b＜0.8，则表明当前的数据表不是字典表。

以下将结合具体实施例和图11详细阐述本公开实施例的数据表识别原理。

如图11所示，识别数据表是否为字典表，可以先获取数据表的附加特征对数据表的识别进行辅助决策，比如通过表名识别单元识别表名、表注释识别单元识别表备注信息(又称表注释信息)，以确定数据表是字典表或者确定数据表不是字典表。如果通过辅助决策无法明确数据表是字典表，也无法明确数据表不是字典表，则可以先对数据表进行数据预处理，如果通过编码单元进行表数据编码，通过数据筛选单元剔除其中没有或者没有明显相关性的数据列等。在数据预处理后，进行特征数理，包括但不限于通过相关性计算单元发现列数据与列数据之间的相关性，通过AI算法单元发现列数据与列数据之间的函数映射关系，通过数理统计单元发现列数据与列数据之间的相似分布，等等。然后，通过表特征生成单元生成表的数据特征向量，并将该向量送入算法分类模型中的分类单元，对数据表进行识别，以产出对应的识别结果。该结果可以强明确数据表是字典表或者强明确数据表不是字典表。

试验发现，通过本公开实施例，结合语义理解，以及对表数据进行分布统计与发现，以及基于AI算法对特征向量进行自动分类等，不仅能理解表备注信息中的语义信息，识别表名，对于无法直接判断是否是字典表的数据表，也能通过数据表中记录的数据的特征进行分析，并对数据表进行自动分类。相比人工处理方案，本公开实施例提供的技术方案可以提升识别效率，大大降低人工处理成本。同时相比于传统的规则判断方案，本公开实施例提供的技术方案在实验数据下准确率在97％以上。

根据本公开实施例提供的方案，基于真实数据库构建实验数据，对本公开实施例提供的方案进行测试。在实验数据的4000千张表中(正负样本比例＝1∶1)，采用各类机器学习算法分类器，平均准确度可以达到97％。

通过如上实验可以发现，方案中加入的特征处理，且通过机器学习可以更加准确理解表中数据特点。在实验环境中，一张400条数据，8个数据列的表，从开始识别到特征处理，最后产出结果，只需2s。通过计算机并行处理，能同时处理更多的数据。该方法相比人工识别方案，效率更高，相比规则判断方案，准确度更高。

根据本公开的实施例，本公开还提供了一种数据表的识别装置。

图12示例性示出了根据本公开实施例的数据表的识别装置的框图。

如图12所示，数据表的识别装置1200可以包括：第一获取模块1210、生成模块1220和识别模块1230。

第一获取模块1210，用于获取数据表的至少一个数据特征，其中，该数据特征用于表征该数据表中列数据与列数据之间的关系。

生成模块1220，用于基于针对该数据表获取的至少一个数据特征，生成对应的数据特征向量。

识别模块1230，用于将该数据特征向量输入字典表识别模型，以识别该数据表的类型。

作为一种可选的实施例，该获取模块通过以下单元中的至少之一获取该数据表的至少一个数据特征：计算单元，用于计算该数据表中相关列数据之间的相关性以获得对应的第一数据特征；数理统计单元，用于对该数据表中相关列数据进行数理统计以获得对应的第二数据特征；模型训练单元，用于利用该数据表中相关列数据进行模型训练以获得对应的第三数据特征。

作为一种可选的实施例，该计算单元还用于：计算该数据表中相关列数据之间的信息增益率，得到至少一个信息增益率，并将该至少一个信息增益率中的最大信息增益率作为该第一数据特征中的一个数据特征；和/或利用至少一种算法计算该数据表中相关列数据之间的相关系数，以针对每种算法得到至少一个相关系数，并将针对该每种算法得到的至少一个相关系数中的最大相关系数作为该第一数据特征中的一个数据特征。

作为一种可选的实施例，该数理统计单元还用于：对该数据表中相关列数据中的每列数据先进行归一化处理，再对至少一个指定数理统计指标进行统计，并针对每个指定数理统计指标得到对应的统计结果；以及基于针对该每个指定数理统计指标得到的统计结果进行二次统计，得到统计值差距最小的两列数据的统计值之间的差值，并将该差值作为该第二数据特征中的一个数据特征。

作为一种可选的实施例，该模型训练单元还用于：将该数据表中相关列数据中的任意一列数据作为因变量，同时将其余列数据作为至少一个自变量，训练至少一个预定模型；以及在该至少一个预定模型训练完成后，获取每个模型中的特征权重参数最大值，以作为该第三数据特征中的一个数据特征。

作为一种可选的实施例，装置还包括：第二获取模块，用于在该获取数据表的数据特征之前，获取数据表的附加特征，其中，该附加特征为除该数据特征之外的表特征；验证模块，用于验证基于该附加特征能否确定该数据表是字典表，得到对应的验证结果，其中，响应于该验证结果表征基于该附加特征不确定该数据表是字典表且也不能确定该数据表不是字典表，该第一获取模块用于执行该获取数据表的至少一个数据特征的操作。

作为一种可选的实施例，该第一获取模块包括：剔除单元，用于从该数据表中剔除不存在特定映射关系的数据列；以及获取单元，用于针对剔除了该数据列的数据表，获取对应的数据特征。

作为一种可选的实施例，生成模块还用于：基于针对数据表获取的至少一个数据特征，生成对应的至少一个特征分量；以及利用至少一个特征分量，拼接成对应的数据特征向量。

作为一种可选的实施例，识别模块，包括：输入单元，用于将数据特征向量输入字典表识别模型，得到对应的分类结果；第一确定单元，用于确定分类结果是否大于预设值；以及第二确定单元，用于响应于确定预设值大于预设值，确定数据表为字典表。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储电子设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如数据表的识别方法。例如，在一些实施例中，数据表的识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的数据表的识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据表的识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SzC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开的技术方案中，所涉及的表数据的记录，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据表的识别方法，包括：

获取数据表的至少一个数据特征，其中，所述数据特征用于表征所述数据表中列数据与列数据之间的关系；

基于针对所述数据表获取的至少一个数据特征，生成对应的至少一个特征分量；

利用所述至少一个特征分量，拼接成对应的数据特征向量；以及

将所述数据特征向量输入字典表识别模型，以识别所述数据表的类型；

其中，通过以下操作中的至少之一获取所述数据表的所述至少一个数据特征：

计算所述数据表中相关列数据之间的相关性以获得对应的第一数据特征；

对所述数据表中相关列数据进行数理统计以获得对应的第二数据特征；

利用所述数据表中相关列数据进行模型训练以获得对应的第三数据特征；

其中，利用所述数据表中相关列数据进行模型训练以获得对应的第三数据特征，包括：

将所述数据表中相关列数据中的任意一列数据作为因变量，同时将其余列数据作为至少一个自变量，训练至少一个预定模型；以及在所述至少一个预定模型训练完成后，获取每个模型中的特征权重参数最大值，以作为所述第三数据特征中的一个数据特征。

2. 根据权利要求1所述的方法，其中，计算所述数据表中相关列数据之间的相关性以获得对应的第一数据特征，包括：

计算所述数据表中相关列数据之间的信息增益率，得到至少一个信息增益率，并将所述至少一个信息增益率中的最大信息增益率作为所述第一数据特征中的一个数据特征；和/或

利用至少一种算法计算所述数据表中相关列数据之间的相关系数，以针对每种算法得到至少一个相关系数，并将针对所述每种算法得到的至少一个相关系数中的最大相关系数作为所述第一数据特征中的一个数据特征。

3. 根据权利要求1所述的方法，其中，对所述数据表中相关列数据进行数理统计以获得对应的第二数据特征，包括：

对所述数据表中相关列数据中的每列数据先进行归一化处理，再对至少一个指定数理统计指标进行统计，并针对每个指定数理统计指标得到对应的统计结果；以及

基于针对所述每个指定数理统计指标得到的统计结果进行二次统计，得到统计值差距最小的两列数据的统计值之间的差值，并将所述差值作为所述第二数据特征中的一个数据特征。

4.根据权利要求1至3中任一项所述的方法，还包括：在所述获取数据表的数据特征之前，

获取数据表的附加特征，其中，所述附加特征为除所述数据特征之外的表特征；

验证基于所述附加特征能否确定所述数据表是字典表，得到对应的验证结果，

其中，响应于所述验证结果表征基于所述附加特征不确定所述数据表是字典表且也不能确定所述数据表不是字典表，执行所述获取数据表的至少一个数据特征的操作。

5. 根据权利要求1至3中任一项所述的方法，其中，获取数据表的数据特征，包括：

从所述数据表中剔除不存在特定映射关系的数据列；以及

针对剔除了所述数据列的数据表，获取对应的数据特征。

6.根据权利要求1至3中任一项所述的方法，其中，将所述数据特征向量输入字典表识别模型，以识别所述数据表的类型，包括：

将所述数据特征向量输入字典表识别模型，得到对应的分类结果；

确定所述分类结果是否大于预设值；以及

响应于确定所述预设值大于所述预设值，确定所述数据表为字典表。

7.一种数据表的识别装置，包括：

第一获取模块，用于获取数据表的至少一个数据特征，其中，所述数据特征用于表征所述数据表中列数据与列数据之间的关系；

生成模块，用于基于针对所述数据表获取的至少一个数据特征，生成对应的至少一个特征分量，以及利用所述至少一个特征分量，拼接成对应的数据特征向量；以及

识别模块，用于将所述数据特征向量输入字典表识别模型，以识别所述数据表的类型；

其中，所述第一获取模块通过以下单元中的至少之一获取所述数据表的至少一个数据特征：

计算单元，用于计算所述数据表中相关列数据之间的相关性以获得对应的第一数据特征；

数理统计单元，用于对所述数据表中相关列数据进行数理统计以获得对应的第二数据特征；

模型训练单元，用于利用所述数据表中相关列数据进行模型训练以获得对应的第三数据特征；

其中，所述模型训练单元还用于：

将所述数据表中相关列数据中的任意一列数据作为因变量，同时将其余列数据作为至少一个自变量，训练至少一个预定模型；以及

在所述至少一个预定模型训练完成后，获取每个模型中的特征权重参数最大值，以作为所述第三数据特征中的一个数据特征。

8. 根据权利要求7所述的装置，其中，所述计算单元还用于：

9. 根据权利要求7所述的装置，其中，所述数理统计单元还用于：

10.根据权利要求7至9中任一项所述的装置，还包括：

第二获取模块，用于在所述获取数据表的数据特征之前，获取数据表的附加特征，其中，所述附加特征为除所述数据特征之外的表特征；

验证模块，用于验证基于所述附加特征能否确定所述数据表是字典表，得到对应的验证结果，

其中，响应于所述验证结果表征基于所述附加特征不确定所述数据表是字典表且也不能确定所述数据表不是字典表，所述第一获取模块用于执行所述获取数据表的至少一个数据特征的操作。

11. 根据权利要求7至9中任一项所述的装置，其中，所述第一获取模块包括：

剔除单元，用于从所述数据表中剔除不存在特定映射关系的数据列；以及

获取单元，用于针对剔除了所述数据列的数据表，获取对应的数据特征。

12.根据权利要求7至9中任一项所述的装置，其中，所述识别模块，包括：

输入单元，用于将所述数据特征向量输入字典表识别模型，得到对应的分类结果；

第一确定单元，用于确定所述分类结果是否大于预设值；以及

第二确定单元，用于响应于确定所述预设值大于所述预设值，确定所述数据表为字典表。

13. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。