CN109800422A

CN109800422A - 一种对数据表进行分类的方法、系统、终端和存储介质

Info

Publication number: CN109800422A
Application number: CN201811561501.1A
Authority: CN
Inventors: 张硕
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-24

Abstract

本发明公开了一种对数据表进行分类的方法、系统、终端和存储介质，其中，所述方法包括：获取已知类别数据表中每种类别数据表的schema标准特征向量；获取待识别类别的数据表的schema特征向量；判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类。本发明能够在接入大量各种类别的数据表时，快速的识别出该数据表所属的最相近分类。

Description

一种对数据表进行分类的方法、系统、终端和存储介质

技术领域

本发明涉及数据表分类技术，尤指一种对数据表进行分类的方法、系统、终端和存储介质。

背景技术

在数据处理中，会有大量不同来源、不同结构的数据表被接入，对于不同类别的数据表，处理方式也可能不一样，所以对于数据表进行分类处理就是必不可少的环节。基于人工对数据表的分类方式比较准确，但是效率低，很难处理大批量的数据表。基于数据表字段的值域对数据表进行自动分类方式，效率比人工分类方式有一定提高，但需要大量的值域匹配规则算法，并且对于数据量很大的数据表，值域的抽样校验也比较耗时。

发明内容

为了解决上述技术问题，本发明提供了一种对数据表进行分类的方法、系统、终端和存储介质，能够在接入大量各种类别的数据表时，快速的识别出该数据表所属的最相近分类。

为了达到本发明目的，本发明提供了一种对数据表进行分类的方法，包括：

获取已知类别数据表中每种类别数据表的schema标准特征向量；

获取待识别类别的数据表的schema特征向量；

判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类。

作为一种实现方式，

获取待识别类别的数据表的schema特征向量，包括：

对待识别类别的数据表的schema中每个属性进行分词生成词组向量；

基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计，生成词频统计向量；

参照一种已知类别数据表的schema标准特征向量，对词频统计向量进行同义词映射后重新统计词频，生成该待识别类别的数据表的schema特征向量。

作为一种实现方式，

判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类，包括：

判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否为同一维度，如何不是同一维度，将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema标准特征向量格式化成同一维度的特征向量；

将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema标准特征向量进行如下计算得到相似度：

其中，similar表示相似度，V表示待识别类别的数据表的schema特征向量，V'表示该一种已知类别数据表的schema标准特征向量，||·||表示向量的范数；

当similar大于预设阈值，则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类。

本发明实施例还提供了一种对数据表进行分类的系统，包括：

数据表类别特征向量获取模块，用于获取已知类别数据表中每种类别数据表的schema标准特征向量；

待识别类别数据表特征向量获取模块，用于获取待识别类别的数据表的schema特征向量；

数据表分类模块，用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类。

作为一种实现方式，

所述待识别类别数据表特征向量获取模块，用于获取待识别类别的数据表的schema特征向量，包括：

作为一种实现方式，

数据表分类模块，用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类，包括：

本发明实施例还提供了一种计算机可读存储介质，所述介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如前所述的对数据表进行分类的方法的步骤。

本发明实施例还提供了一种对数据表进行分类的终端，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述计算机可执行指令，以实现如前所述的对数据表进行分类的方法的步骤。

与现有技术相比，本发明包括：获取已知类别数据表中每种类别数据表的schema标准特征向量；获取待识别类别的数据表的schema特征向量；判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类。本发明能够在接入大量各种类别的数据表时，快速的识别出该数据表所属的最相近分类。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的对数据表进行分类的方法流程图；

图2为本发明实施例中获取待识别类别的数据表的schema特征向量的方法流程图；

图3为本发明实施例提供的对数据表进行分类的系统组成模块图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

不同来源的数据表，即便业务含义一样也可能有不同的schema，schema是数据表的描述信息，包括表名、列名、列数、列类型、主外键等。比如来源于A的“人口信息表”，会用“姓名”、“性别”、“身份证号码”、“户口所在地”等属性作为schema，而来源于B的“人口信息表”，则会使用“姓名”、“性别”、“证件号码”、“籍贯”，“现住址”等属性作为schema。

不同来源的数据表，对于相同业务含义的属性的标识方式，也可能存在不同。比如前述来源于A的数据表Schema中的“身份证号码”和来源于B的数据表Schema中的“证件号码”，可能就是同一属性的不同标识方式。

属于不同的细分类别的数据表，schema也可能会非常相近。比如，学校学生信息表会用“姓名”、“性别”、“身份证号码”、“籍贯”、“身高”、“体重”、“生源地”等属性作为schema，而监所人员信息表会用“姓名”、“性别”、“身份证号码”、“籍贯”、“身高”、“足长”等属性作为schema。

本发明实施例提供了一种对数据表进行分类的方法，如图1所示，所述方法包括：

S101获取已知类别数据表中每种类别数据表的schema标准特征向量；

所述标准特征向量的提取是根据预先设定好的每种类别的标准数据表的schema生成的；本发明实施例中对每种类别数据表的schema标准特征向量的提取方法和对待识别类别的数据表的schema特征向量的提取方法可以一样；虽然每种类别包含的数据表可能不止一个，但每种类别的标准数据表只有一个，根据该标准数据表生成的标准特征向量也只有一个；

S102获取待识别类别的数据表的schema特征向量；

作为一种实现方式，如图2所示，步骤S102可以包括：

S1021对待识别类别的数据表的schema中每个属性进行分词生成词组向量；

对数据表的schema中每个属性进行分词可以采用现有的分词算法，如ik，Ansj等，其中，ik和Ansj算法均有自定义词库和忽略词库(stopwords)，一般会把“表”，“信息”，“号码”这些归为stopwords，具体如何分词本发明实施例不再累述；

如来源于A的人口信息表，其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”，经过分别后的词组向量可以为{姓名，性别，身份证，户口，所在地}；

S1022基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计，生成词频统计向量；

如来源于A的人口信息表，其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”，经过分别后的词组向量可以为{姓名，性别，身份证，户口，所在地}，对该词组向量进行词频统计后生成的词频统计向量为{姓名:1，性别:1，身份证:1，户口:1，所在地:1”}；

S1023参照一种类别数据表的schema标准特征向量，对词频统计向量进行同义词映射后重新统计词频，生成该待识别类别的数据表的schema特征向量。

可以构建一个同义词库，比如规定“姓名”和“人名”是同义词，“手机”和“电话”是同义词，同义词在同义词库里面有相同的映射ID，可以互相替换。查询同义词库，对词频统计向量中的元素进行同义词映射，映射为schema标准特征向量中的对应元素，如schema标准特征向量为{姓名，电话，学历}，待进行同义词映射的词频统计向量为{人名：1，手机号码：1，住址：1}，进行同义词映射后的词频统计向量为{姓名：1，电话：1，住址：1}；

上述一种类别数据表的schema标准特征向量可任意选择；由上可知，如果schema标准特征向量中不存在词频统计向量中向量对应的同义词，那么待识别类别的数据表的schema特征向量与所述词频统计向量相同。

S103判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类。

作为一种实现方式，所述步骤S103包括：

判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema特征向量是否为同一维度，如何不是同一维度，将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema特征向量格式化成同一维度的特征向量；具体格式化方法可使用计算余弦相似度中的格式化方法；

将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema特征向量根据余弦相似度公式计算得到两者的相似度：

其中，similar表示余弦相似度，V表示待识别类别的数据表的schema特征向量，V'表示该一种已知类别数据表的schema标准特征向量，||·||表示向量的范数；

当similar大于预设阈值，则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema特征向量相似，则将该待识别类别的数据表归为该已知类。

本发明实施例能够在接入大量各种类别的数据表时，快速的识别出该数据表所属的最相近分类。

本发明实施例还提供了一种对数据表进行分类的系统，如图3所示，所述系统包括：

数据表类别特征向量获取模块，用于获取已知类别数据表中每种类别数据表的schema标准特征向量；所述标准特征向量的提取是根据预先设定好的每种类别的标准数据表的schema生成的；本发明实施例中对每种类别数据表的schema标准特征向量的提取方法和对待识别类别的数据表的schema特征向量的提取方法可以一样；虽然每种类别包含的数据表可能不止一个，但每种类别的标准数据表只有一个，根据该标准数据表生成的标准特征向量也只有一个；

作为一种实现方式，所述待识别类别数据表特征向量获取模块，用于获取待识别类别的数据表的schema特征向量，包括：

对待识别类别的数据表的schema中每个属性进行分词生成词组向量；对数据表的schema中每个属性进行分词可以采用现有的分词算法，如ik，Ansj等，其中，ik和Ansj算法均有自定义词库和忽略词库(stopwords)，一般会把“表”，“信息”，“号码”这些归为stopwords，具体如何分词本发明实施例不再累述；如来源于A的人口信息表，其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”，经过分别后的词组向量可以为{姓名，性别，身份证，户口，所在地}；

基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计，生成词频统计向量；如来源于A的人口信息表，其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”，经过分别后的词组向量可以为{姓名，性别，身份证，户口，所在地}，对该词组向量进行词频统计后生成的词频统计向量为{姓名:1，性别:1，身份证:1，户口:1，所在地:1”}；

参照一种已知类别数据表的schema标准特征向量，对词频统计向量进行同义词映射后重新统计词频，生成该待识别类别的数据表的schema特征向量。可以构建一个同义词库，比如规定“姓名”和“人名”是同义词，“手机”和“电话”是同义词，同义词在同义词库里面有相同的映射ID，可以互相替换。查询同义词库，对词频统计向量中的元素进行同义词映射，映射为schema标准特征向量中的对应元素，如schema标准特征向量为{姓名，电话，学历}，待进行同义词映射的词频统计向量为{人名：1，手机号码：1，住址：1}，进行同义词映射后的词频统计向量为{姓名：1，电话：1，住址：1}；所述一种类别数据表的schema标准特征向量可任意选择；由前述记载的内容可知，如果schema标准特征向量中不存在词频统计向量中向量对应的同义词，那么待识别类别的数据表的schema特征向量与所述词频统计向量相同。

作为一种实现方式，数据表分类模块，用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似，如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似，则将该待识别类别的数据表归为该已知类，包括：

判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否为同一维度，如何不是同一维度，将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema标准特征向量格式化成同一维度的特征向量；具体格式化方法可使用计算余弦相似度中的格式化方法；

将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema标准特征向量根据余弦相似度公式计算得到相似度：

本发明实施例还提供了一种计算机可读存储介质，所述介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如前实施例所述的对数据表进行分类的方法的步骤。

存储器，用于存储计算机可执行指令；

处理器，用于执行所述计算机可执行指令，以实现如前实施例所述的对数据表进行分类的方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种对数据表进行分类的方法，其特征在于，包括：

获取待识别类别的数据表的schema特征向量；

2.根据权利要求1所述的对数据表进行分类的方法，其特征在于，

获取待识别类别的数据表的schema特征向量，包括：

3.根据权利要求1或2所述的对数据表进行分类的方法，其特征在于，

4.一种对数据表进行分类的系统，其特征在于，包括：

5.根据权利要求4所述的对数据表进行分类的系统，其特征在于，

待识别类别数据表特征向量获取模块，用于获取待识别类别的数据表的schema特征向量，包括：

6.根据权利要求4或5所述的对数据表进行分类的系统，其特征在于，

7.一种计算机可读存储介质，其特征在于，所述介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1至3中任一项所述的对数据表进行分类的方法的步骤。

8.一种对数据表进行分类的终端，其特征在于，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述计算机可执行指令，以实现如权利要求1至3中任一项所述的对数据表进行分类的方法的步骤。