CN110399432A - 一种表的分类方法、装置、计算机设备及存储介质 - Google Patents
一种表的分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110399432A CN110399432A CN201910664513.5A CN201910664513A CN110399432A CN 110399432 A CN110399432 A CN 110399432A CN 201910664513 A CN201910664513 A CN 201910664513A CN 110399432 A CN110399432 A CN 110399432A
- Authority
- CN
- China
- Prior art keywords
- name
- corpus data
- classification
- feature vector
- field name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机技术领域,尤其涉及一种表的分类方法、装置、计算机设备及存储介质。所述表的分类方法包括以下步骤:获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。在本发明中,通过表的表名以及字段名即可实现对表的分类,需要处理的数据量小,速度快,实现了表的自动归类,提高了工作效率,可以实现大量不同类型表的整理归类,自动化程度高。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种表的分类方法、装置、计算机设备及存储介质。
背景技术
数据归类通常是指将未知源数据与预先构建的领域标准知识库进行对比,将其进行归类的过程。数据归类的应用十分广泛,是人工智能、大数据分析等前沿领域的基本技术。
例如,各个政府部门保存着大量的表格类数据,当要对多个部门的相同或者相关数据进行统计分析时,需要对大量的表格类数据进行归类。但是,由于各个部门的数据记录并没有一个统一的标准,给表格类数据的归类造成了困难。
现有的表格类数据归类一般是利用工人进行匹配,工作量大且效率低。
发明内容
本发明实施例的目的在于提供一种表的分类方法,旨在解决现有的表格类数据通过人工进行匹配归类,工作量大且效率低的问题。
本发明实施例是这样实现的,一种表的分类方法,所述方法包括以下步骤:
获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
本发明实施例的另一目的在于提供一种表的分类装置,所述装置包括:
数据获取以及预处理模块,用于获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
匹配模块,用于将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
输出模块,用于将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一个实施例所述的一种表的分类方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任意一个实施例所述的一种表的分类方法的步骤。
本发明实施例提供的一种表的分类方法,通过表的表名以及字段名即可实现对表的分类,不涉及表的具体内容,需要处理的数据量小,速度快;本申请的分类方法综合了表的表名以及字段名,使得分类结果更为准确。本发明的方法实现了表的自动归类,提高了工作效率,可以实现大量不同类型表的整理归类,自动化程度高。
附图说明
图1为本发明实施例提供的一种表的分类方法的流程图;
图2为本发明另一个实施例提供的一种表的分类方法的流程图;
图3为本发明实施例提供的聚类模型的训练方法的流程图;
图4为本发明实施提供的图1中步骤将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配的具体流程图;
图5为本发明另一个实施例提供的图1中步骤将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配的具体流程图;
图6为本发明实施例提供的matchpyramid模型的训练流程图;
图7为本发明实施例提供的一种表分类装置的结构框图;
图8为本发明另一个实施例提供的一种表分类装置的结构框图;
图9为本发明实施例提供的聚类模型的训练装置的结构框图;
图10为本发明一个实施例提供的图7中匹配模块702的具体结构框图;
图11为本发明另一个实施例提供的图7中匹配模块702的具体结构框图;
图12为本发明实施例提供的matchpyramid模型的训练装置图;
图13为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
图1示出了本发明一个实施例中提出的一种表的分类方法的流程图,具体可以包括以下步骤S102~步骤S106。
步骤S102,获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名。
在本发明实施例中,第一语料数据为文本的形式,包括待归类的第一表的第一表名以及第一字段名。在本发明实施例中,对第一语料数据进行预处理的目的是为第一语料数据的向量化做准备,根据向量化的方法的不同,预处理的方法可以有所不同,可以是分词处理、去停用词处理、去标点处理等中的一种或者多种。本发明实施例对此不作具体限定。
步骤S104,将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配。
在本发明实施例中,利用预设的归类模型对第一语料数据进行预处理之前还包括提取第一语料数据的特征向量,但是通常而言,提取特征向量与利用归类模型进行处理是配合的步骤,本发明实施例对此不再赘述。在本发明实施例中,可用于处理第一语料数据的模型可以从现有归类模型中选取,例如matchpyramid模型等,由于选用的模型的不同,其对特征向量提取的要求也不同,两者具有相互对应的关系,特征向量提取的方法由选用的分类模型确定。此属于可选的内容,本发明对此不作具体限定。
在本发明实施例中,预设的基准表包含了待归类的第一表可能的分类,同时可以用于训练本发明使用到的分类模型,其来源可以从现有各个数据库中获取。需要理解的是,在本发明中,基准表同样以语料或者语料对应的特征向量的形式存在,语料中包含基准表的表名以及字段名。
步骤S106,将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
在本发明实施例中,将基准表中与第一表名、第一字段名匹配的第二表名、第二字段名作为结果输出,即通过本发明的分类,可以将待归类表的某一字段归类到某一基准表的某一具体字段中,实现待归类表的字段与基准表的字段的匹配,从而达到分类的目的。
本发明实施例提供的一种表的分类方法,通过表的表名以及字段名即可实现对表的分类,不涉及表的具体内容,需要处理的数据量小,速度快;本申请的分类方法综合了表的表名以及字段名,使得分类结果更为准确。本发明的方法实现了表的自动归类,提高了工作效率,可以实现大量不同类型表的整理归类,自动化程度高。
图2示出了本发明另一个实施例提供一种表的分类方法的流程图,与图1示出的方法相比,其区别在于,在步骤S104之前还包括步骤S202、步骤S204。
步骤S202,提取所述第一语料数据的特征向量作为第一特征向量。
在本发明实施例中,提取第一语料数据的第一特征向量的过程实际是将第一语料数据向量化的过程,向量化的目的是为下一步骤中使用聚类模型对其进行分类做准备,由于不同聚类模型对输入向量的要求不同,提取第一特征向量的具体方法也可以不同,本发明实施例对此不作具体限定。
步骤S204,根据所述第一特征向量,使用预训练的聚类模型确定所述第一语料数据所属的分类,所述分类中包含若干预设的所述基准表。
在本发明实施例中,提取第一特征向量后,将第一特征向量输入到预训练的聚类模型,输出第一特征向量所属的分类,其中,每一个分类都与若干基准表对应。在步骤S102中,只需要将第一语料数据与本实施例确定的分类中包含的基准表进行匹配即可确定与待归类的第一表对应的基准表的表名以及字段名,从而可以极大地减小计算量,加快运算速度。
本发明实施例提供的一种表的分类方法,利用预设的聚类模型将第一语料数据进行归类,再利用归类模型进行处理,从而得到与之匹配的表名以及字段名,通过这种方式,可以极大地减小归类模型的计算量,提高运行速度。
图3示出了上一个实施例所述的聚类模型的训练流程,具体包括步骤S302~步骤S306。
步骤S302,获取与所述基准表对应的第二语料数据并进行预处理。
在本发明实施例中,可以理解,基准表包括若干张,组成一个数据集,可以从现有多种数据库中直接获取。与之对应的,第二语料数据包括多个,组成一个第二语料数据集。第二语料数据同样以文本数据的形式存在,包括与之对应的基准表的第二表名以及第二字段名。在本发明实施例中对第二语料数据进行预处理的目的是为第二语料数据的向量化做准备,根据向量化的方法的不同,预处理的方法可以有所不同,可以是分词处理、去停用词处理、去标点处理等中的一种或者多种。本发明实施例对此不作具体限定。
步骤S304,利用TF-IDF算法提取所述第二语料数据的特征向量并记为第二特征向量。
在本发明实施例中,TF-IDF算法仅为特征向量提取的一种常用方法,其是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该特征词的权重的一种计算方法。可以理解的是,由于使用的聚类模型可以不同,所用的特征向量提取方法也可以有所差异。此为可以根据具体需要选用的内容,本发明对此不作具体限定。
步骤S306,利用所述第二特征向量对所述聚类模型进行训练得到训练后的聚类模型。
在本发明实施例中,利用第二特征向量对所述聚类模型进行训练,实际上得到的是由基准表确定出的若干个分类,每个分类均与若干基准表对应。当对待归类表进行处理时,先将待归类表归类到某一分类里,再将待归类表与该分类中包括的基准表进行比较,从而可以确定与待归类表对应的基准表,从而得到与待归类表的第一表名以及第一字段名对应的第二表名以及第二字段名,从而实现表的分类。训练后得到的是一个二进制的文件,该文件保存了模型通过训练确定的相关参数。
本发明实施例提供的一种表的分类方法,具体给出了聚类模型的训练方法,通过聚类模型的使用,可以预先将基准表进行分类,当要识别待归类表时,先将待归类表进行分类,再利用归类模型确定待归类表与相应分类中包含的基准表的匹配关系,从而确定与待归类表匹配的基准表。这种方式可能减小归类模型的计算量,提高运算速度。
图4示出了本发明另一个实施例提供的一种表的分类方法的流程图,其与图1所示的方法相比,区别在于,步骤S104具体包括步骤S402~步骤S404。
步骤S402,根据通用词向量确定所述第一语料数据的特征向量并记为第三特征向量。
在本发明实施例中,通用词向量属于现有技术提供的一种可以用于将文本数据转化为向量的对应规则。在通用词向量中,每个词由300维的向量构成,经过预处理的第一语料数据由若干关键词组成,由通用词向量确定每一个关键词的向量,从而确定第一语料数据的第三特征向量。需要理解的是,本发明实施例中的第一特征向量、第三特征向量仅用于区别通过不同算法提取的特征向量,对于第一特征向量与第三特征向量是否实际相同并不作限定;第二特征向量与第四特征向量的关系与此相似。
步骤S404,利用预训练的matchpyramid模型对所述第三特征向量进行处理,确定所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名。
在本发明实施例中,预训练的matchpyramid模型包含了与基准表的特征向量对应的相关参数,当输入一个第三特征向量时,对该第三特征向量进行处理,输出与之匹配的基准表的表名以及字段名。需要理解的是,输出的具体为表名、字段为或者两者同时输出,此为可以设置的内容,并不用于限定本发明;其中,表名可以用于指示输出的字段所属的基准表。例如,当只要求实现字段与字段之间的对应时,输出结果可以仅仅是字段名而不包括表名。
本发明实施例提供的一种表的分类方法,利用通用词向量可以实现第一语料数据的向量化,再通过matchpyramid模型可以确定与第一语料数据对应的基准表的表名以及字段名,从而得到与待归类的第一表匹配的基准表的表名以及字段名,实现待归类表的分类,实现了表的自动归类,提高了工作效率,可以实现大量不同类型表的整理归类,自动化程度高。
图5示出了本发明实施例提供的一种表的分类方法的流程图,与图4所示的方法相比,其区别在于,在步骤S402之后还包括步骤S502~步骤S506。
步骤S502,计算所述第三特征向量与所述第二语料数据对应的特征向量之间的余弦相似度,其中,所述第二语料数据与预设的所述基准表对应。
在本发明实施例中,还可以通计算余弦相似度的方式比较待归类表与基准表的匹配程度。需要理解的是,通过计算余弦相似度的方式比较待归类表与基准表的匹配程度既可以单独使用也可以与matchpyramid模型共同使用,本发明实施例以两者共同使用为例进行说明。
步骤S504,当所述相似度满足预设条件时,将所述第二语料数据对应的所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
在本发明实施例中,相似度满足预设规则,可以是对相似度进行排序后,选取相似度最高的前若干个基准表,也可以是设定一个阀值,当相似度达到该阀值时,则将对应的基准表的第二表名以及第二字段名作为结果。此为可选的具体实现方式,本发明对此不作具体限定。
步骤S506,取两种算法输出结果的交集或者并集作为所述待归类表的字段名的类别并输出。
在本发明实施例中,当采用两种方式确定与待归类的表匹配的基准表时,至少得到两个匹配结果,因此还需要对结果进行整合。整合的方式依具体需要可以选择取结果的全集或者并集,或者仅取其中一个结果,此均为可选的具体实现方式。而对于取两个结果的合集的情况,可以增加本发明提供的算法得到的结果的准确性,减少可能的遗漏分类;当取两个结果的交集时,对于算法的要求更高,当两种算法得到的结果不存在交集时,可能导致无结果输出,但是当两种算法存在交集时,其交集可以作为最终结果的概率会显著提高。本发明对于如何整合两个结果不作具体限定。
本发明实施例提供的一种表的分类方法,通过采用两种算法分别进行匹配,可以得到与待归类表匹配的两个结果,通过对两个结果进行整合,可以提高算法的准确性或者实用性。
图6示出了图4所示的实施例提供的matchpyramid模型的训练流程,具体包括步骤S602~步骤S606。
步骤S602,获取与所述基准表对应的第二语料数据并进行预处理。
在本发明实施例中,第二语料数据与预设的基准表对应,形式上与第一语料数据相同,包括基准表的表名以及字段名。第二语料数据为文本形式的数据,对其进行预处理的目的是使之满足向量化的要求,根据向量化算法的不同,预处理可以是分词处理、去停用词处理、去标点处理等中的一种或者多种,当然,此外还可以包括其它的预处理过程,可以按需要设定,本发明对此不作具体限定。
步骤S604,利用通用词向量计算所述第二语料数据的特征向量并记为第四特征向量。
在本发明实施例中,通用词向量属于现有技术提供的一种可以用于将文本数据转化为向量的对应规则。在通用词向量中,每个词由300维的向量构成,经过预处理的第二语料数据由若干关键词组成,由通用词向量确定每一个关键词的向量,从而确定第二语料数据的特征向量。需要理解的是,本发明实施例中的第二特征向量、第四特征向量仅用于区别通过不同算法提取的特征向量,对于第二特征向量与第四特征向量是否实际相同并不作限定。
步骤S606,利用所述第四特征向量对所述matchpyramid模型进行训练得到训练后的模型。
在本发明实施例中,对matchpyramid模型进行训练的过程实际是调整模型内部相关参考的过程,训练后的模型输出为一个二进制参数文件,当要对待归类的表进行归类时,模型调用该参数文件即可以将该待归类的表与基准表进行匹配,并输出与之匹配的基准表的表名以及字段名。
本发明实施例提供的一种表的归类方法,利用与基准表对应的第二语料数据对matchpyramid模型进行训练从而得到训练后的模型,操作简便,易于实现,该过程属于现有matchpyramid模型的应用过程,并不涉及新的算法,即本发明利用表的表名以及字段名,在现有算法的基础上实现了对表进行归类,易于实现且自动化程度高,可以极大地提高效率。
图7示出了本发明一个实施例中提出的一种表的分类装置的结构框图,具体可以包括数据获取以及预处理模块701、匹配模块702以及输出模块703。
数据获取以及预处理模块701,用于获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名。
匹配模块702,用于将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配。
输出模块703,用于将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
在本发明实施例中,第一语料数据为文本的形式,包括待归类的第一表的第一表名以及第一字段名。在本发明实施例中,对第一语料数据进行预处理的目的是为第一语料数据的向量化做准备,根据向量化的方法的不同,预处理的方法可以有所不同,可以是分词处理、去停用词处理、去标点处理等中的一种或者多种。本发明实施例对此不作具体限定。
在本发明实施例中,利用预设的归类模型对第一语料数据进行预处理之前还包括提取第一语料数据的特征向量,但是通常而言,提取特征向量与利用归类模型进行处理是配合的步骤,本发明实施例对此不再赘述。在本发明实施例中,可用于处理第一语料数据的模型可以从现有归类模型中选取,例如matchpyramid模型等,由于选用的模型的不同,其对特征向量提取的要求也不同,两者具有相互对应的关系,特征向量提取的方法由选用的分类模型确定。此属于可选的内容,本发明对此不作具体限定。
在本发明实施例中,预设的基准表包含了待归类的第一表可能的分类,同时可以用于训练本发明使用到的分类模型,其来源可以从现有各个数据库中获取。需要理解的是,在本发明中,基准表同样以语料或者语料对应的特征向量的形式存在,语料中包含基准表的表名以及字段名。
在本发明实施例中,将基准表中与第一表名、第一字段名匹配的第二表名、第二字段名作为结果输出,即通过本发明的分类,可以将待归类表的某一字段归类到某一基准表的某一具体字段中,实现待归类表的字段与基准表的字段的匹配,从而达到分类的目的。
本发明实施例提供的一种表的分类装置,通过表的表名以及字段名即可实现对表的分类,不涉及表的具体内容,需要处理的数据量小,速度快;本申请的分类方法综合了表的表名以及字段名,使得分类结果更为准确。本发明的方法实现了表的自动归类,提高了工作效率,可以实现大量不同类型表的整理归类,自动化程度高。
图8示出了本发明另一个实施例提供一种表的分类装置的结构框图,与图7示出的装置相比,其区别在于,在匹配模块702之前还包括第一特征向量提取模块801以及分类模块802。
第一特征向量计算模块801,用于提取所述第一语料数据的特征向量作为第一特征向量。
分类模块802,用于根据所述第一特征向量,使用预训练的聚类模型确定所述第一语料数据所属的分类,所述分类中包含若干预设的所述基准表。
在本发明实施例中,提取第一特征向量的过程实际是将第一语料数据向量化的过程,向量化的目的是为下一步骤中使用聚类模型对其进行分类做准备,由于不同聚类模型对输入向量的要求不同,提取第一特征向量的具体方法也可以不同,本发明实施例对此不作具体限定。
在本发明实施例中,提取第一特征向量后,将第一特征向量输入到预训练的聚类模型,输出第一特征向量所属的分类,其中,每一个分类都与若干基准表对应。在模块701中,只需要将第一语料数据与本实施例确定的分类中包含的基准表进行匹配即可确定与待归类的第一表对应的基准表的表名以及字段名,从而可以极大地减小计算量,加快运算速度。
本发明实施例提供的一种表的分类装置,利用预设的聚类模型将第一语料数据进行归类,再利用归类模型进行处理,从而得到与之匹配的表名以及字段名,通过这种方式,可以极大地减小归类模型的计算量,提高运行速度。
图9示出了上一个实施例所述的聚类模型的训练装置,具体包括:
第二语料数据获取与预处理模块901,用于获取与所述基准表对应的第二语料数据并进行预处理。
第二特征向量计算模块902,用于利用TF-IDF算法提取所述第二语料数据的特征向量并记为第二特征向量。
训练模块903,用于利用所述第二特征向量对所述聚类模型进行训练得到训练后的聚类模型。
在本发明实施例中,可以理解,基准表包括若干张,组成一个数据集,可以从现有多种数据库中直接获取。与之对应的,第二语料数据包括多个,组成一个第二语料数据集。第二语料数据同样以文本数据的形式存在,包括与之对应的基准表的第二表名以及第二字段名。在本发明实施例中,对第二语料数据进行预处理的目的是为第二语料数据的向量化做准备,根据向量化的方法的不同,预处理的方法可以有所不同,可以是分词处理、去停用词处理、去标点处理等中的一种或者多种。本发明实施例对此不作具体限定。
在本发明实施例中,TF-IDF算法仅为特征向量提取的一种常用方法,其是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该特征词的权重的一种计算方法。可以理解的是,由于使用的聚类模型可以不同,所用的特征向量提取方法也可以有所差异。此为可以根据具体需要选用的内容,本发明对此不作具体限定。
在本发明实施例中,利用第二特征向量对所述聚类模型进行训练,实际上得到的是由基准表确定出的若干个分类,每个分类均与若干基准表对应。当对待归类表进行处理时,先将待归类表归类到某一分类里,再将待归类表与该分类中包括的基准表进行比较,从而可以确定与待归类表对应的基准表,从而得到与待归类表的第一表名以及第一字段名对应的第二表名以及第二字段名,从而实现表的分类。训练后得到的是一个二进制的文件,该文件保存了模型通过训练确定的相关参数。
本发明实施例提供的一种表的分类装置,具体给出了聚类模型的训练方法,通过聚类模型的使用,可以预先将基准表进行分类,当要识别待归类表时,先将待归类表进行分类,再利用归类模型确定待归类表与相应分类中包含的基准表的匹配关系,从而确定与待归类表匹配的基准表。这种方式可能减小归类模型的计算量,提高运算速度。
图10示出了本发明另一个实施例提供的一种表的分类装置的结构框图,其与图7所示的装置相比,区别在于,匹配模块702具体包括:
第三特征向量计算单元1001,用于根据通用词向量确定所述第一语料数据的特征向量并记为第三特征向量。
第一匹配单元1002,用于利用预训练的matchpyramid模型对所述第一语料数据的第二特征向量进行处理,确定所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名。
在本发明实施例中,通用词向量属于现有技术提供的一种可以用于将文本数据转化为向量的对应规则。在通用词向量中,每个词由300维的向量构成,经过预处理的第一语料数据由若干关键词组成,由通用词向量确定每一个关键词的向量,从而确定第一语料数据的特征向量。需要理解的是,本发明实施例中的第一特征向量、第三特征向量仅用于区别通过不同算法提取的特征向量,对于第一特征向量与第三特征向量是否实际相同并不作限定。
在本发明实施例中,预训练的matchpyramid模型包含了与基准表的特征向量对应的相关参数,当输入一个第三特征向量时,对该第三特征向量进行处理,输出与之匹配的基准表的表名以及字段名。需要理解的是,输出的具体为表名、字段为或者两者同时输出,此为可以设置的内容,并不用于限定本发明;其中,表名可以用于指示输出的字段所属的基准表。例如,当只要求实现字段与字段之间的对应时,输出结果可以仅仅是字段名而不包括表名。
本发明实施例提供的一种表的分类装置,利用通用词向量可以实现第一语料数据的向量化,再通过matchpyramid模型可以确定与第一语料数据对应的基准表的表名以及字段名,从而得到与待归类的第一表匹配的基准表的表名以及字段名,实现待归类表的分类,实现了表的自动归类,提高了工作效率,可以实现大量不同类型表的整理归类,自动化程度高。
图11示出了本发明实施例提供的一种表的分类装置的结构框图,与图10所示的装置相比,其区别在于,在第二特征向量计算单元1001之后还包括:
相似度计算单元1101,用于计算所述第三特征向量与所述第二语料数据对应的特征向量之间的余弦相似度,其中,所述第二语料数据与预设的所述基准表对应。
第二匹配单元1102,用于当所述相似度满足预设条件时,将所述第二语料数据对应的所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
结果整合单元1103,用于取两种算法输出结果的交集或者并集作为所述待归类表的字段名的类别并输出。
在本发明实施例中,还可以通计算余弦相似度的方式比较待归类表与基准表的匹配程度。需要理解的是,通过计算余弦相似度的方式比较待归类表与基准表的匹配程度既可以单独使用也可以与matchpyramid模型共同使用,本发明实施例以两者共同使用为例进行说明。
在本发明实施例中,相似度满足预设规则,可以是对相似度进行排序后,选取相似度最高的前若干个基准表,也可以是设定一个阀值,当相似度达到该阀值时,则将对应的基准表的第二表名以及第二字段名作为结果。此为可选的具体实现方式,本发明对此不作具体限定。
在本发明实施例中,当采用两种方式确定与待归类的表匹配的基准表时,至少得到两个匹配结果,因此还需要对结果进行整合。整合的方式依具体需要可以选择取结果的全集或者并集,或者仅取其中一个结果,此均为可选的具体实现方式。而对于取两个结果的合集的情况,可以增加本发明提供的算法得到的结果的准确性,减少可能的遗漏分类;当取两个结果的交集时,对于算法的要求更高,当两种算法得到的结果不存在交集时,可能导致无结果输出,但是当两种算法存在交集时,其交集可以作为最终结果的概率会显著提高。本发明对于如何整合两个结果不作具体限定。
本发明实施例提供的一种表的分类装置,通过采用两种算法分别进行匹配,可以得到与待归类表匹配的两个结果,通过对两个结果进行整合,可以提高算法的准确性或者实用性。
图12示出了图10所示的实施例提供的matchpyramid模型的训练装置,具体包括:
基准表语料获取以及预处理模块1201,用于获取与所述基准表对应的第二语料数据并进行预处理。
第四特征向量计算模块1202,用于利用通用词向量计算所述第二语料数据的特征向量并记为第四特征向量。
matchpyramid模型训练模块1203,用于利用所述第四特征向量对所述matchpyramid模型进行训练得到训练后的模型。
在本发明实施例中,第二语料数据与预设的基准表对应,形式上与第一语料数据相同,包括基准表的表名以及字段名。第二语料数据为文本形式的数据,对其进行预处理的目的是使之满足向量化的要求,根据向量化算法的不同,预处理可以是分词处理、去停用词处理、去标点处理等中的一种或者多种,当然,此外还可以包括其它的预处理过程,可以按需要设定,本发明对此不作具体限定。
在本发明实施例中,通用词向量属于现有技术提供的一种可以用于将文本数据转化为向量的对应规则。在通用词向量中,每个词由300维的向量构成,经过预处理的第二语料数据由若干关键词组成,由通用词向量确定每一个关键词的向量,从而确定第二语料数据的特征向量。需要理解的是,本发明实施例中的第二特征向量、第四特征向量仅用于区别通过不同算法提取的特征向量,对于第二特征向量与第四特征向量是否实际相同并不作限定。
在本发明实施例中,对matchpyramid模型进行训练的过程实际是调整模型内部相关参考的过程,训练后的模型输出为一个二进制参数文件,当要对待归类的表进行归类时,模型调用该参数文件即可以将该待归类的表与基准表进行匹配,并输出与之匹配的基准表的表名以及字段名。
本发明实施例提供的一种表的归类装置,利用与基准表对应的第二语料数据对matchpyramid模型进行训练从而得到训练后的模型,操作简便,易于实现,该过程属于现有matchpyramid模型的应用过程,并不涉及新的算法,即本发明利用表的表名以及字段名,在现有算法的基础上实现了对表进行归类,易于实现且自动化程度高,可以极大地提高效率。
图13示出了一个实施例中计算机设备的内部结构图。如图13所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现一种表的分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种表的分类方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的一种表的分类装置可以实现为一种计算机程序的形式,计算机程序可在如图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该一种表的分类装置的各个程序模块。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种表的分类方法,其特征在于,所述方法包括以下步骤:
获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
2.根据权利要求1所述的一种表的分类方法,其特征在于,所述将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配之前,还包括以下步骤:
提取所述第一语料数据的特征向量作为第一特征向量;
根据所述第一特征向量,使用预训练的聚类模型确定所述第一语料数据所属的分类,所述分类中包含若干预设的所述基准表。
3.根据权利要求2所述的一种表的分类方法,其特征在于,所述聚类模型的训练过程包括以下步骤:
获取与所述基准表对应的第二语料数据并进行预处理;
利用TF-IDF算法提取所述第二语料数据的特征向量并记为第二特征向量;
利用所述第二特征向量对所述聚类模型进行训练得到训练后的聚类模型。
4.根据权利要求1所述的一种表的分类方法,其特征在于,所述将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配,具体包括以下步骤:
根据通用词向量确定所述第一语料数据的特征向量并记为第三特征向量;
利用预训练的matchpyramid模型对所述第三特征向量进行处理,确定所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名。
5.根据权利要求4所述的一种表的分类方法,其特征在于,所述根据通用词向量确定所述第一语料数据的特征向量并记为第三特征向量之后,还包括以下步骤:
计算所述第三特征向量与所述第二语料数据对应的特征向量之间的余弦相似度,其中,所述第二语料数据与预设的所述基准表对应;
当所述相似度满足预设条件时,将所述第二语料数据对应的所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出;
取两种算法输出结果的交集或者并集作为所述待归类表的字段名的类别并输出。
6.根据权利要求4所述的一种表的分类方法,其特征在于,所述matchpyramid模型的训练过程包括以下步骤:
获取与所述基准表对应的第二语料数据并进行预处理;
利用通用词向量计算所述第二语料数据的特征向量并记为第四特征向量;
利用所述第四特征向量对所述matchpyramid模型进行训练得到训练后的模型。
7.根据权利要求1、3、6所述的一种表的分类方法,其特征在于,所述预处理包括分词处理以及去停用词处理。
8.一种表的分类方法装置,其特征在于,所述装置包括:
数据获取以及预处理模块,用于获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
匹配模块,用于将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
输出模块,用于将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述的一种表的分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述的一种表的分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910664513.5A CN110399432A (zh) | 2019-07-23 | 2019-07-23 | 一种表的分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910664513.5A CN110399432A (zh) | 2019-07-23 | 2019-07-23 | 一种表的分类方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110399432A true CN110399432A (zh) | 2019-11-01 |
Family
ID=68324876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910664513.5A Pending CN110399432A (zh) | 2019-07-23 | 2019-07-23 | 一种表的分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399432A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813842A (zh) * | 2020-09-10 | 2020-10-23 | 杭州城市大数据运营有限公司 | 一种数据处理方法、装置、系统、设备和存储介质 |
CN112530597A (zh) * | 2020-11-26 | 2021-03-19 | 山东健康医疗大数据有限公司 | 基于Bert字模型的数据表分类方法、装置及介质 |
CN113051450A (zh) * | 2021-03-12 | 2021-06-29 | 云汉芯城(上海)互联网科技股份有限公司 | 一种器件型号自动归类方法、装置、存储介质和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000626A (zh) * | 2007-01-12 | 2007-07-18 | 宋晓伟 | 信息存储方法和搜索请求转换为查询语句的方法 |
CN108062484A (zh) * | 2017-12-11 | 2018-05-22 | 北京安华金和科技有限公司 | 一种基于数据敏感特征和数据库元数据的分类分级方法 |
US20180150484A1 (en) * | 2016-11-30 | 2018-05-31 | Business Objects Software Limited | Data masking name data |
CN108595614A (zh) * | 2018-04-20 | 2018-09-28 | 成都智信电子技术有限公司 | 应用于his系统的数据表映射方法 |
-
2019
- 2019-07-23 CN CN201910664513.5A patent/CN110399432A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000626A (zh) * | 2007-01-12 | 2007-07-18 | 宋晓伟 | 信息存储方法和搜索请求转换为查询语句的方法 |
US20180150484A1 (en) * | 2016-11-30 | 2018-05-31 | Business Objects Software Limited | Data masking name data |
CN108062484A (zh) * | 2017-12-11 | 2018-05-22 | 北京安华金和科技有限公司 | 一种基于数据敏感特征和数据库元数据的分类分级方法 |
CN108595614A (zh) * | 2018-04-20 | 2018-09-28 | 成都智信电子技术有限公司 | 应用于his系统的数据表映射方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813842A (zh) * | 2020-09-10 | 2020-10-23 | 杭州城市大数据运营有限公司 | 一种数据处理方法、装置、系统、设备和存储介质 |
CN112530597A (zh) * | 2020-11-26 | 2021-03-19 | 山东健康医疗大数据有限公司 | 基于Bert字模型的数据表分类方法、装置及介质 |
CN113051450A (zh) * | 2021-03-12 | 2021-06-29 | 云汉芯城(上海)互联网科技股份有限公司 | 一种器件型号自动归类方法、装置、存储介质和设备 |
CN113051450B (zh) * | 2021-03-12 | 2023-04-07 | 云汉芯城(上海)互联网科技股份有限公司 | 一种器件型号自动归类方法、装置、存储介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
CN109522406A (zh) | 文本语义匹配方法、装置、计算机设备和存储介质 | |
US20190311194A1 (en) | Character recognition using hierarchical classification | |
CN110399432A (zh) | 一种表的分类方法、装置、计算机设备及存储介质 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN104951791A (zh) | 数据分类方法和装置 | |
CN111160387B (zh) | 一种基于多视角字典学习的图模型 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
US10467276B2 (en) | Systems and methods for merging electronic data collections | |
CN113806613B (zh) | 训练图像集生成方法、装置、计算机设备及存储介质 | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
Wilkinson et al. | A novel word segmentation method based on object detection and deep learning | |
CN109377203A (zh) | 医疗结算数据处理方法、装置、计算机设备和存储介质 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN111985204A (zh) | 一种海关进出口商品税号预测方法 | |
Xu et al. | A block-level RNN model for resume block classification | |
CN111241269B (zh) | 一种短信文本分类方法、装置、电子设备及存储介质 | |
CN110888983A (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
US20230134218A1 (en) | Continuous learning for document processing and analysis | |
Wang et al. | Design and implementation of handwritten digit recognition based on K-nearest neighbor algorithm | |
CN113987170A (zh) | 基于卷积神经网络的多标签文本分类方法 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
Ahmad et al. | Sentiment analysis of social media contents using machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191101 |