CN109800422A - 一种对数据表进行分类的方法、系统、终端和存储介质 - Google Patents

一种对数据表进行分类的方法、系统、终端和存储介质 Download PDF

Info

Publication number
CN109800422A
CN109800422A CN201811561501.1A CN201811561501A CN109800422A CN 109800422 A CN109800422 A CN 109800422A CN 201811561501 A CN201811561501 A CN 201811561501A CN 109800422 A CN109800422 A CN 109800422A
Authority
CN
China
Prior art keywords
data
tables
schema
feature vector
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811561501.1A
Other languages
English (en)
Inventor
张硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201811561501.1A priority Critical patent/CN109800422A/zh
Publication of CN109800422A publication Critical patent/CN109800422A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对数据表进行分类的方法、系统、终端和存储介质,其中,所述方法包括:获取已知类别数据表中每种类别数据表的schema标准特征向量;获取待识别类别的数据表的schema特征向量;判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。本发明能够在接入大量各种类别的数据表时,快速的识别出该数据表所属的最相近分类。

Description

一种对数据表进行分类的方法、系统、终端和存储介质
技术领域
本发明涉及数据表分类技术,尤指一种对数据表进行分类的方法、系统、终端和存储介质。
背景技术
在数据处理中,会有大量不同来源、不同结构的数据表被接入,对于不同类别的数据表,处理方式也可能不一样,所以对于数据表进行分类处理就是必不可少的环节。基于人工对数据表的分类方式比较准确,但是效率低,很难处理大批量的数据表。基于数据表字段的值域对数据表进行自动分类方式,效率比人工分类方式有一定提高,但需要大量的值域匹配规则算法,并且对于数据量很大的数据表,值域的抽样校验也比较耗时。
发明内容
为了解决上述技术问题,本发明提供了一种对数据表进行分类的方法、系统、终端和存储介质,能够在接入大量各种类别的数据表时,快速的识别出该数据表所属的最相近分类。
为了达到本发明目的,本发明提供了一种对数据表进行分类的方法,包括:
获取已知类别数据表中每种类别数据表的schema标准特征向量;
获取待识别类别的数据表的schema特征向量;
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
作为一种实现方式,
获取待识别类别的数据表的schema特征向量,包括:
对待识别类别的数据表的schema中每个属性进行分词生成词组向量;
基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计,生成词频统计向量;
参照一种已知类别数据表的schema标准特征向量,对词频统计向量进行同义词映射后重新统计词频,生成该待识别类别的数据表的schema特征向量。
作为一种实现方式,
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类,包括:
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否为同一维度,如何不是同一维度,将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema标准特征向量格式化成同一维度的特征向量;
将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema标准特征向量进行如下计算得到相似度:
其中,similar表示相似度,V表示待识别类别的数据表的schema特征向量,V'表示该一种已知类别数据表的schema标准特征向量,||·||表示向量的范数;
当similar大于预设阈值,则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
本发明实施例还提供了一种对数据表进行分类的系统,包括:
数据表类别特征向量获取模块,用于获取已知类别数据表中每种类别数据表的schema标准特征向量;
待识别类别数据表特征向量获取模块,用于获取待识别类别的数据表的schema特征向量;
数据表分类模块,用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
作为一种实现方式,
所述待识别类别数据表特征向量获取模块,用于获取待识别类别的数据表的schema特征向量,包括:
对待识别类别的数据表的schema中每个属性进行分词生成词组向量;
基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计,生成词频统计向量;
参照一种已知类别数据表的schema标准特征向量,对词频统计向量进行同义词映射后重新统计词频,生成该待识别类别的数据表的schema特征向量。
作为一种实现方式,
数据表分类模块,用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类,包括:
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否为同一维度,如何不是同一维度,将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema标准特征向量格式化成同一维度的特征向量;
将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema标准特征向量进行如下计算得到相似度:
其中,similar表示相似度,V表示待识别类别的数据表的schema特征向量,V'表示该一种已知类别数据表的schema标准特征向量,||·||表示向量的范数;
当similar大于预设阈值,则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
本发明实施例还提供了一种计算机可读存储介质,所述介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前所述的对数据表进行分类的方法的步骤。
本发明实施例还提供了一种对数据表进行分类的终端,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述计算机可执行指令,以实现如前所述的对数据表进行分类的方法的步骤。
与现有技术相比,本发明包括:获取已知类别数据表中每种类别数据表的schema标准特征向量;获取待识别类别的数据表的schema特征向量;判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。本发明能够在接入大量各种类别的数据表时,快速的识别出该数据表所属的最相近分类。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的对数据表进行分类的方法流程图;
图2为本发明实施例中获取待识别类别的数据表的schema特征向量的方法流程图;
图3为本发明实施例提供的对数据表进行分类的系统组成模块图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
不同来源的数据表,即便业务含义一样也可能有不同的schema,schema是数据表的描述信息,包括表名、列名、列数、列类型、主外键等。比如来源于A的“人口信息表”,会用“姓名”、“性别”、“身份证号码”、“户口所在地”等属性作为schema,而来源于B的“人口信息表”,则会使用“姓名”、“性别”、“证件号码”、“籍贯”,“现住址”等属性作为schema。
不同来源的数据表,对于相同业务含义的属性的标识方式,也可能存在不同。比如前述来源于A的数据表Schema中的“身份证号码”和来源于B的数据表Schema中的“证件号码”,可能就是同一属性的不同标识方式。
属于不同的细分类别的数据表,schema也可能会非常相近。比如,学校学生信息表会用“姓名”、“性别”、“身份证号码”、“籍贯”、“身高”、“体重”、“生源地”等属性作为schema,而监所人员信息表会用“姓名”、“性别”、“身份证号码”、“籍贯”、“身高”、“足长”等属性作为schema。
本发明实施例提供了一种对数据表进行分类的方法,如图1所示,所述方法包括:
S101获取已知类别数据表中每种类别数据表的schema标准特征向量;
所述标准特征向量的提取是根据预先设定好的每种类别的标准数据表的schema生成的;本发明实施例中对每种类别数据表的schema标准特征向量的提取方法和对待识别类别的数据表的schema特征向量的提取方法可以一样;虽然每种类别包含的数据表可能不止一个,但每种类别的标准数据表只有一个,根据该标准数据表生成的标准特征向量也只有一个;
S102获取待识别类别的数据表的schema特征向量;
作为一种实现方式,如图2所示,步骤S102可以包括:
S1021对待识别类别的数据表的schema中每个属性进行分词生成词组向量;
对数据表的schema中每个属性进行分词可以采用现有的分词算法,如ik,Ansj等,其中,ik和Ansj算法均有自定义词库和忽略词库(stopwords),一般会把“表”,“信息”,“号码”这些归为stopwords,具体如何分词本发明实施例不再累述;
如来源于A的人口信息表,其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”,经过分别后的词组向量可以为{姓名,性别,身份证,户口,所在地};
S1022基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计,生成词频统计向量;
如来源于A的人口信息表,其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”,经过分别后的词组向量可以为{姓名,性别,身份证,户口,所在地},对该词组向量进行词频统计后生成的词频统计向量为{姓名:1,性别:1,身份证:1,户口:1,所在地:1”};
S1023参照一种类别数据表的schema标准特征向量,对词频统计向量进行同义词映射后重新统计词频,生成该待识别类别的数据表的schema特征向量。
可以构建一个同义词库,比如规定“姓名”和“人名”是同义词,“手机”和“电话”是同义词,同义词在同义词库里面有相同的映射ID,可以互相替换。查询同义词库,对词频统计向量中的元素进行同义词映射,映射为schema标准特征向量中的对应元素,如schema标准特征向量为{姓名,电话,学历},待进行同义词映射的词频统计向量为{人名:1,手机号码:1,住址:1},进行同义词映射后的词频统计向量为{姓名:1,电话:1,住址:1};
上述一种类别数据表的schema标准特征向量可任意选择;由上可知,如果schema标准特征向量中不存在词频统计向量中向量对应的同义词,那么待识别类别的数据表的schema特征向量与所述词频统计向量相同。
S103判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
作为一种实现方式,所述步骤S103包括:
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema特征向量是否为同一维度,如何不是同一维度,将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema特征向量格式化成同一维度的特征向量;具体格式化方法可使用计算余弦相似度中的格式化方法;
将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema特征向量根据余弦相似度公式计算得到两者的相似度:
其中,similar表示余弦相似度,V表示待识别类别的数据表的schema特征向量,V'表示该一种已知类别数据表的schema标准特征向量,||·||表示向量的范数;
当similar大于预设阈值,则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema特征向量相似,则将该待识别类别的数据表归为该已知类。
本发明实施例能够在接入大量各种类别的数据表时,快速的识别出该数据表所属的最相近分类。
本发明实施例还提供了一种对数据表进行分类的系统,如图3所示,所述系统包括:
数据表类别特征向量获取模块,用于获取已知类别数据表中每种类别数据表的schema标准特征向量;所述标准特征向量的提取是根据预先设定好的每种类别的标准数据表的schema生成的;本发明实施例中对每种类别数据表的schema标准特征向量的提取方法和对待识别类别的数据表的schema特征向量的提取方法可以一样;虽然每种类别包含的数据表可能不止一个,但每种类别的标准数据表只有一个,根据该标准数据表生成的标准特征向量也只有一个;
待识别类别数据表特征向量获取模块,用于获取待识别类别的数据表的schema特征向量;
数据表分类模块,用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
作为一种实现方式,所述待识别类别数据表特征向量获取模块,用于获取待识别类别的数据表的schema特征向量,包括:
对待识别类别的数据表的schema中每个属性进行分词生成词组向量;对数据表的schema中每个属性进行分词可以采用现有的分词算法,如ik,Ansj等,其中,ik和Ansj算法均有自定义词库和忽略词库(stopwords),一般会把“表”,“信息”,“号码”这些归为stopwords,具体如何分词本发明实施例不再累述;如来源于A的人口信息表,其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”,经过分别后的词组向量可以为{姓名,性别,身份证,户口,所在地};
基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计,生成词频统计向量;如来源于A的人口信息表,其schema的每个属性为“姓名”、“性别”、“身份证号码”、“户口所在地”,经过分别后的词组向量可以为{姓名,性别,身份证,户口,所在地},对该词组向量进行词频统计后生成的词频统计向量为{姓名:1,性别:1,身份证:1,户口:1,所在地:1”};
参照一种已知类别数据表的schema标准特征向量,对词频统计向量进行同义词映射后重新统计词频,生成该待识别类别的数据表的schema特征向量。可以构建一个同义词库,比如规定“姓名”和“人名”是同义词,“手机”和“电话”是同义词,同义词在同义词库里面有相同的映射ID,可以互相替换。查询同义词库,对词频统计向量中的元素进行同义词映射,映射为schema标准特征向量中的对应元素,如schema标准特征向量为{姓名,电话,学历},待进行同义词映射的词频统计向量为{人名:1,手机号码:1,住址:1},进行同义词映射后的词频统计向量为{姓名:1,电话:1,住址:1};所述一种类别数据表的schema标准特征向量可任意选择;由前述记载的内容可知,如果schema标准特征向量中不存在词频统计向量中向量对应的同义词,那么待识别类别的数据表的schema特征向量与所述词频统计向量相同。
作为一种实现方式,数据表分类模块,用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类,包括:
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否为同一维度,如何不是同一维度,将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema标准特征向量格式化成同一维度的特征向量;具体格式化方法可使用计算余弦相似度中的格式化方法;
将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema标准特征向量根据余弦相似度公式计算得到相似度:
其中,similar表示余弦相似度,V表示待识别类别的数据表的schema特征向量,V'表示该一种已知类别数据表的schema标准特征向量,||·||表示向量的范数;
当similar大于预设阈值,则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
本发明实施例能够在接入大量各种类别的数据表时,快速的识别出该数据表所属的最相近分类。
本发明实施例还提供了一种计算机可读存储介质,所述介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前实施例所述的对数据表进行分类的方法的步骤。
本发明实施例还提供了一种对数据表进行分类的终端,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述计算机可执行指令,以实现如前实施例所述的对数据表进行分类的方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (8)

1.一种对数据表进行分类的方法,其特征在于,包括:
获取已知类别数据表中每种类别数据表的schema标准特征向量;
获取待识别类别的数据表的schema特征向量;
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
2.根据权利要求1所述的对数据表进行分类的方法,其特征在于,
获取待识别类别的数据表的schema特征向量,包括:
对待识别类别的数据表的schema中每个属性进行分词生成词组向量;
基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计,生成词频统计向量;
参照一种已知类别数据表的schema标准特征向量,对词频统计向量进行同义词映射后重新统计词频,生成该待识别类别的数据表的schema特征向量。
3.根据权利要求1或2所述的对数据表进行分类的方法,其特征在于,
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类,包括:
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否为同一维度,如何不是同一维度,将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema标准特征向量格式化成同一维度的特征向量;
将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema标准特征向量进行如下计算得到相似度:
其中,similar表示相似度,V表示待识别类别的数据表的schema特征向量,V'表示该一种已知类别数据表的schema标准特征向量,||·||表示向量的范数;
当similar大于预设阈值,则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
4.一种对数据表进行分类的系统,其特征在于,包括:
数据表类别特征向量获取模块,用于获取已知类别数据表中每种类别数据表的schema标准特征向量;
待识别类别数据表特征向量获取模块,用于获取待识别类别的数据表的schema特征向量;
数据表分类模块,用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
5.根据权利要求4所述的对数据表进行分类的系统,其特征在于,
待识别类别数据表特征向量获取模块,用于获取待识别类别的数据表的schema特征向量,包括:
对待识别类别的数据表的schema中每个属性进行分词生成词组向量;
基于待识别类别的数据表的schema中所有属性得到的词组向量进行词频统计,生成词频统计向量;
参照一种已知类别数据表的schema标准特征向量,对词频统计向量进行同义词映射后重新统计词频,生成该待识别类别的数据表的schema特征向量。
6.根据权利要求4或5所述的对数据表进行分类的系统,其特征在于,
数据表分类模块,用于判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否相似,如果所述待识别类别的数据表的schema特征向量与该一种已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类,包括:
判断所述待识别类别的数据表的schema特征向量和一种已知类别数据表的schema标准特征向量是否为同一维度,如何不是同一维度,将所述待识别类别的数据表的schema特征向量和该一种已知类别数据表的schema标准特征向量格式化成同一维度的特征向量;
将所述待识别类别的数据表的schema特征向量和与其同一维度的一种已知类别数据表的schema标准特征向量进行如下计算得到相似度:
其中,similar表示相似度,V表示待识别类别的数据表的schema特征向量,V'表示该一种已知类别数据表的schema标准特征向量,||·||表示向量的范数;
当similar大于预设阈值,则所述待识别类别的数据表的schema特征向量与该已知类别数据表的schema标准特征向量相似,则将该待识别类别的数据表归为该已知类。
7.一种计算机可读存储介质,其特征在于,所述介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至3中任一项所述的对数据表进行分类的方法的步骤。
8.一种对数据表进行分类的终端,其特征在于,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述计算机可执行指令,以实现如权利要求1至3中任一项所述的对数据表进行分类的方法的步骤。
CN201811561501.1A 2018-12-20 2018-12-20 一种对数据表进行分类的方法、系统、终端和存储介质 Pending CN109800422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811561501.1A CN109800422A (zh) 2018-12-20 2018-12-20 一种对数据表进行分类的方法、系统、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811561501.1A CN109800422A (zh) 2018-12-20 2018-12-20 一种对数据表进行分类的方法、系统、终端和存储介质

Publications (1)

Publication Number Publication Date
CN109800422A true CN109800422A (zh) 2019-05-24

Family

ID=66557247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811561501.1A Pending CN109800422A (zh) 2018-12-20 2018-12-20 一种对数据表进行分类的方法、系统、终端和存储介质

Country Status (1)

Country Link
CN (1) CN109800422A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447301A (zh) * 2020-11-30 2021-03-05 山东健康医疗大数据有限公司 医疗数据的汇聚方法和装置
CN112530597A (zh) * 2020-11-26 2021-03-19 山东健康医疗大数据有限公司 基于Bert字模型的数据表分类方法、装置及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101504654A (zh) * 2009-03-17 2009-08-12 东南大学 一种实现数据库模式自动匹配的方法
CN101576906A (zh) * 2009-03-03 2009-11-11 杜小勇 一种数据库模式重构系统和方法
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN105045933A (zh) * 2015-09-08 2015-11-11 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
US20170177704A1 (en) * 2014-07-29 2017-06-22 Hewlett Packard Enterprise Development Lp Similarity in a structured dataset

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101576906A (zh) * 2009-03-03 2009-11-11 杜小勇 一种数据库模式重构系统和方法
CN101504654A (zh) * 2009-03-17 2009-08-12 东南大学 一种实现数据库模式自动匹配的方法
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
US20170177704A1 (en) * 2014-07-29 2017-06-22 Hewlett Packard Enterprise Development Lp Similarity in a structured dataset
CN105045933A (zh) * 2015-09-08 2015-11-11 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530597A (zh) * 2020-11-26 2021-03-19 山东健康医疗大数据有限公司 基于Bert字模型的数据表分类方法、装置及介质
CN112447301A (zh) * 2020-11-30 2021-03-05 山东健康医疗大数据有限公司 医疗数据的汇聚方法和装置

Similar Documents

Publication Publication Date Title
US11727053B2 (en) Entity recognition from an image
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
US11238364B2 (en) Learning from distributed data
US10452904B2 (en) Blockwise extraction of document metadata
US20220012231A1 (en) Automatic content-based append detection
CN108269122B (zh) 广告的相似度处理方法和装置
WO2019106505A1 (en) Cognitive document image digitization
KR102127985B1 (ko) 문서 이미지로부터 항목을 추출하는 컴퓨팅 장치
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN110765760B (zh) 一种法律案件分配方法、装置、存储介质和服务器
EP3608799A1 (en) Search method and apparatus, and non-temporary computer-readable storage medium
CN111046879A (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN112580108B (zh) 签名和印章完整性验证方法及计算机设备
WO2022222942A1 (zh) 问答记录生成方法、装置、电子设备及存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
US20210019511A1 (en) Systems and methods for extracting data from an image
CN110738238A (zh) 一种证件信息的分类定位方法及装置
CN109800422A (zh) 一种对数据表进行分类的方法、系统、终端和存储介质
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
CN111460315A (zh) 社群画像构建方法、装置、设备及存储介质
US20150169682A1 (en) Hash Learning
CN115210705A (zh) 具有无效值或等效值的关系表的向量嵌入模型
CN112632249A (zh) 产品不同版本信息的展示方法、装置、计算机设备及介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN114373068A (zh) 一种行业场景化的ocr模型实现系统、方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524