CN115329380A - 一种数据库表分类分级方法、装置、设备及存储介质 - Google Patents
一种数据库表分类分级方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115329380A CN115329380A CN202210993945.2A CN202210993945A CN115329380A CN 115329380 A CN115329380 A CN 115329380A CN 202210993945 A CN202210993945 A CN 202210993945A CN 115329380 A CN115329380 A CN 115329380A
- Authority
- CN
- China
- Prior art keywords
- target
- item
- names
- classification
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据库表分类分级方法、装置、设备及存储介质,涉及计算机技术领域,包括:对待分类分级数据库表的表名和所有信息项的项名进行预处理得到目标表名和目标项名,并将其输入至添加注意力机制的循环神经网络分类模型得到目标分类标签;将目标项名输入至文本相似匹配模型,以便通过文本相似匹配模型对目标项名对应的信息项进行分类得到多个信息项类别;从保密定级规则映射表中确定出与目标分类标签和多个信息项类别对应的保密等级。本申请通过将深度学习和规则映射结合来进行库表分类分级,提高了输出的可解释性,同时能够灵活更新分级映射规则,通过文本相似度计算方法可快速高效识别信息项类别,无需额外标注数据和训练模型。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种数据库表分类分级方法、装置、设备及存储介质。
背景技术
为了数据库表的进一步管理或者为了给数据库表中数据的管理服务提供判断依据,需要对数据库表进行分类分级。目前,数据库表的分类分级通常依据数据库表的表名和数据库表包含的信息项,即数据库表的元数据信息,对数据库表进行分类和分级。例如,依据政务数据库表的表名和政务数据库表包含的信息项对政务数据库表所属的领域进行分类并确定保密等级。
目前主流的数据库表的分类分级方法包括基于规则的分类分级方法和基于深度学习模型的分类分级方法。然而,基于规则的分类分级方法对不同领域、不同部门等类的数据库表有着一一对应的规则标准,逻辑层次复杂且需要研发人员逐条对照规则编写代码,效率较低且无法通用;而基于深度学习模型的分类分级方法存在一定程度的不可解释性,需要大量标注数据对模型进行训练,并且一旦标注规则发生更新或变动,则需要重新标注数据并重新训练整个模型,不易迭代更新且训练成本高,在应用上存在局限。
综上所述,如何有效的对数据库表进行分类和分级是目前还有待进一步解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种数据库表分类分级方法、装置、设备及存储介质,能够提高输出的可解释性,同时灵活更新分级映射规则,快速高效识别信息项类别,无需额外标注数据和训练模型。其具体方案如下:
第一方面,本申请公开了一种数据库表分类分级方法,包括:
获取待分类分级数据库表的表名和所有信息项的项名,并对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名;
将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签;
将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别;
从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。
可选的,所述对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名,包括:
对所述表名和所述所有信息项的项名中存在相同名称的信息进行去重,得到去重后表名和去重后项名;
删除所述去重后表名和所述去重后项名中包含的无语义的非中文字符,得到目标表名和多个目标项名。
可选的,所述数据库表分类分级方法,还包括:
采集不同领域的历史数据库表的表名和所有信息项的项名,得到历史数据库表表名和历史信息项项名,并对所述历史数据库表表名和所述信息项项名进行预处理,得到采样表名和采样信息项项名;
利用所述采样表名和所述采样信息项项名对添加注意力机制的初始循环神经网络模型进行训练,得到所述循环神经网络分类模型;其中,所述初始循环神经网络模型采用双层双向GRU结构。
可选的,所述数据库表分类分级方法,还包括:
分别对每个所述采样信息项项名进行分词处理,得到多个采样分词,并通过预设的词向量模型将所述多个采样分词转换为词向量,得到多个采样词向量;
分别对每个所述采样信息项项名对应的所述多个采样词向量进行加权平均,得到对应的采样向量表征;
利用所述采样向量表征并对照信息项分类字典构造与所述多个所述采样信息项项名对应的信息项的向量表征字典,并将所述向量表征字典输入至初始文本相似匹配模型进行训练,得到所述文本相似匹配模型。
可选的,所述对所述所有信息项进行分类,得到多个信息项类别,包括:
对照所述信息项分类字典,分别判断每个所述目标项名是否与所述信息项分类字典中存在的信息项名称完全匹配;
若所述目标项名与所述信息项分类字典中存在的信息项名称完全匹配,则输出与所述目标项名对应的信息项类别;
若所述目标项名与所述信息项分类字典中存在的信息项名称不完全匹配,则分别计算所述目标项名与所述向量表征字典中各个所述采样向量表征之间的相似度,得到多个相似度计算结果;
获取多个所述相似度计算结果中的最大值,得到最大相似度值,并判断所述最大相似度值是否超过预设相似度阈值,若超过则输出与所述最大相似度值对应的信息项类别,若未超过则判定所述目标项名对应的信息项无对应的信息项类别。
可选的,所述分别计算所述目标项名与所述向量表征字典中各个所述采样向量表征之间的相似度,得到多个相似度计算结果,包括:
分别对每个所述目标项名进行分词处理,得到对应的多个目标分词,并通过所述词向量模型将所述多个目标分词转换为词向量,得到多个目标词向量;
分别对每个所述目标项名对应的所述多个目标词向量进行加权平均,得到对应的目标向量表征;
将所述目标向量表征与所述向量表征字典中所有所述采样向量表征进行相似度计算,得到多个相似度计算结果。
可选的,所述将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,包括:
根据预先构造的数据库表字典,将所述目标表名和多个所述目标项名中的每个字符均转化为对应的字典索引,得到编码后表名和多个编码后项名;
将所述编码后表名和多个所述编码后项名输入至添加注意力机制的循环神经网络分类模型。
第二方面,本申请公开了一种数据库表分类分级装置,包括:
数据获取模块,用于获取待分类分级数据库表的表名和所有信息项的项名;
数据预处理模块,用于对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名;
数据库表分类模块,用于将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签;
信息项分类模块,用于将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别;
数据库表分级模块,用于从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。
第三方面,本申请公开了一种电子设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现前述的数据库表分类分级方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述的数据库表分类分级方法。
可见,本申请先获取待分类分级数据库表的表名和所有信息项的项名,并对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名,然后述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签,再将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别,最后从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。本申请通过深度学习和规则映射相结合的方式进行库表分类分级,输出对应领域类型和保密等级,提高了输出的可解释性和准确性,并且在分级映射规则局部更新的情况下,可以快速形成新的分级规则,提高灵活性,通过无监督的文本相似度计算方法可快速高效识别信息项类别,无需额外标注数据和训练模型。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种数据库表分类分级方法流程图;
图2为本申请公开的一种具体的循环神经网络分类模型结构图;
图3为本申请公开的一种具体的信息项项名分类方法流程图;
图4为本申请公开的一种具体的保密定级规则映射示意图;
图5为本申请公开的一种具体的数据库表分类分级方法框架图;
图6为本申请公开的一种数据库表分类分级装置结构示意图;
图7为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种数据库表分类分级方法,参见图1所示,该方法包括:
步骤S11:获取待分类分级数据库表的表名和所有信息项的项名,并对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名。
本实施例中,首先需要获取待分类分级数据库表的表名和所有信息项的项名,即所述待分类分级数据库表的元数据信息,然后对上述表名和上述所有信息项的项名进行相应的预处理,得到目标表名和多个目标项名。其中,所述待分类分级数据库表可以为不同领域、不同类型的数据库表,包括但不限于政务数据库表、网站平台的数据库表等;所述预处理包括但不限于对所述表名和所述所有信息项的项名进行错误排查、去重及去除不合法信息等处理,所述不合法信息指整个字段中仅包含无语义的非中文字符。
本实施例中,所述对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名,具体包括:对所述表名和所述所有信息项的项名中存在相同名称的信息进行去重,得到去重后表名和去重后项名;删除所述去重后表名和所述去重后项名中包含的无语义的非中文字符,得到目标表名和多个目标项名。也即,先对表名和所有信息项的项名中存在重复名称的信息进行去重得到去重后表名和去重后项名,然后对所述去重后表名和所述去重后项名中包含的无语义的非中文字符进行删除,进而得到目标表名和多个目标项名。
在一种具体的实施方式中,当所述待分类分级数据库表为不同领域、不同部门的政务数据库表时,可以先获所述取政务数据库表的表名和所有信息项的项名,即所述政务数据库表中各类数据的名称,如所述政务数据库表包含姓名、单位、病史等数据,则“姓名”、“单位”、“病史”等就是该库表的信息项的项名。然后对所述表名和所述所有信息项的项名中重复的信息(如具有相同的数据项项名)进行去重,并将整个字段仅包含无语义的非中文字符进行删除,得到目标表名和多个目标项名。
步骤S12:将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签。
本实施例中,对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名之后,将上述目标表名和多个上述目标项名输入到添加注意力机制的循环神经网络分类模型中,然后通过所述循环神经网络分类模型对上述待分类分级数据库表所属领域进行分类,得到相应的目标分类标签。
本实施例中,所述将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,具体可以包括:根据预先构造的数据库表字典,将所述目标表名和多个所述目标项名中的每个字符均转化为对应的字典索引,得到编码后表名和多个编码后项名;将所述编码后表名和多个所述编码后项名输入至添加注意力机制的循环神经网络分类模型。可以理解是,由于所述目标表名和所述目标项名都属于文本信息,因此需要先构造针对所述目标表名和所述目标项名的字典,然后将所述目标表名和所述目标项名中的中文本信息的每个字符都转化为对应的字典索引,也即把输入的数据库表的表名和每一个信息项的项名都作为一个单独的文本序列进行编码,然后作为添加注意力机制的循环神经网络分类模型的输入。
本实施例中,所述添加注意力机制的循环神经网络分类模型的获取过程为:采集不同领域的历史数据库表的表名和所有信息项的项名,得到历史数据库表表名和历史信息项项名,并对所述历史数据库表表名和所述信息项项名进行预处理,得到采样表名和采样信息项项名;利用所述采样表名和所述采样信息项项名对添加注意力机制的初始循环神经网络模型进行训练,得到所述循环神经网络分类模型;其中,所述初始循环神经网络模型采用双层双向GRU结构。也即,先采集不同领域的历史数据库表的表名和对应的所有信息项的项名,得到历史数据库表表名和历史信息项项名,然后对上述历史数据库表表名和上述信息项项名进行错误排查、去重及去除不合法信息等预处理操作,得到采样表名和采样信息项项名,然后将上述采样表名和上述采样信息项项名作为训练集对采用双层双向GRU(GateRecurrent Unit,门控循环单元)结构的添加注意力机制的初始循环神经网络模型进行训练,得到所述循环神经网络分类模型。需要指出的是,在获取到所述历史数据库表表名和历史信息项项名之后,还需要进一步的获取到上述历史数据库表所属领域对应的分类标签,所述分类标签包括但不限于“公共安全”、“医疗卫生”、“财税金融”等不同领域的分类标签。
具体的,参见图2所示,图2示出了一种具体的所述添加注意力机制的循环神经网络分类模型结构,在获取到包含所述目标表名和多个所述目标项名的样本数据之后,将上述目标表名和多个上述目标项名均作为一个单独的文本序列进行编码,然后将编码后的数据作为添加注意力机制的循环神经网络分类模型的输入,先经过共享的embedding层将输入的编码后的目标表名和多个目标项名分别映射成300维的向量,然后分别进入双层双向循环神经网络中进行文本语义特征的提取,对应产生一个256维的语义特征向量,接下来,将所述目标表名和多个所述目标项名对应的所有上述256维的语义特征向量输入至注意力机制模型,得到多个经过注意力加权修正后的256维的信息项向量,由于单个数据库表中所包含的所有信息项的项名之间不存在序列的前后关系,因此接下来将经过注意力加权修正后的所有上述256维的信息项向量直接相加以实现信息项的无序聚合,最终产生单个的256维的信息项特征向量,接着将此向量再经过一个全连接层和dropout层,映射到维度不变的同样是256维的特征向量,再将其与上述目标表名所对应的256维向量进行权重相加,得到一个256维的目标特征向量,最后构建损失计算和输出,具体的,可以将上述256维的目标特征向量经过全连接层后再通过softmax层,输出库表的领域分类的预测结果,对应的损失计算可以采用交叉熵(Cross Entropy)损失函数计算,并以最小化损失作为训练目标训练所述添加注意力机制的初始循环神经网络模型。另外,在对所述添加注意力机制的初始循环神经网络模型进行训练的过程中,可以采用Adam(Adaptive moment estimation,适应性矩估计)算法进行优化训练;上述embedding层的参数采使用word2vec(一种将词语转化为向量表示的模型)模型预训练得到的参数进行初始化,并在模型训练时固定参数不更新,训练完成得到所述循环神经网络分类模型。训练好的所述循环神经网络分类模型最终输出的分类结果是经过softmax层之后的最大概率值对应的分类标签。
可以理解的是,不同信息项对于不同的数据库表的表名(数据库表的表名很大程度上决定了该数据库表中数据的所属领域)的重要程度不同,通过注意力机制可以让循环神经网络分类模型通过参数更新,学习到信息项与表名的重要性程度方面的知识,增强模型的分类效果。
步骤S13:将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别。
本实施例中,通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类得到目标分类标签之后,进一步的,将每个所述目标项名进行分词处理,得到对应的词向量,然后对每个所述目标项名对应的所有所述词向量进行加权平均,获取对应的目标向量表征,然后对照预先构建的信息项分类字典构造出所述目标信息项的目标向量表征字典,再将所述目标向量表征字典输入至文本相似匹配模型,通过所述文本相似匹配模型对上述目标项名对应的信息项进行分类,得到多个信息项类别。
本实施例中,在得到上述采样信息项项名之后,具体还包括:分别对每个所述采样信息项项名进行分词处理,得到多个采样分词,并通过预设的词向量模型将所述多个采样分词转换为词向量,得到多个采样词向量;分别对每个所述采样信息项项名对应的所述多个采样词向量进行加权平均,得到对应的采样向量表征;利用所述采样向量表征并对照信息项分类字典构造与所述多个所述采样信息项项名对应的信息项的向量表征字典,并将所述向量表征字典输入至初始文本相似匹配模型进行训练,得到所述文本相似匹配模型。也即,在得到采样信息项项名之后,先分别对每个所述采样信息项项名进行分词处理,得到相应的多个采样分词,然后通过预设的词向量模型,如word2vec模型,将所有上述采样分词转换为词向量得到多个采样词向量,再分别对每个所述采样信息项项名对应的上述多个采样词向量进行加权平均,得到对应的采样向量表征,最后对照信息项分类字典并利用上述采样向量表征构造与多个所述采样信息项项名对应的信息项的向量表征字典,最后将所述向量表征字典作为训练集输入至初始文本相似匹配模型进行训练,得到所述文本相似匹配模型。例如,在得到采样向量表征之后,对照信息项分类字典D={“姓名”:“姓名类”,“名字”:“姓名类”,“人名”:“姓名类”,“身份证”:“身份证类”,“身份证号码”:“身份证类”}构造出与多个采样信息项项名对应的信息项的向量表征字典,所述信息项的向量表征字典的形式为V={信息项1向量:信息项类别,信息项2向量:信息项类别,信息项3向量:信息项类别,信息项4向量:信息项类别,…},构造出信息项的向量表征字典V就是将信息项分类字典D的键从信息项的项名替换为对应计算出的信息项向量。所述键为信息项的项名,值为信息项类别。
可以理解的是,由于对于单条信息项而言,其结尾的词语能够更大程度上决定其对应的信息项类型,因此在对信息项的词向量进行加权平均时,可以加大结尾词的权重。
本实施例中,参见图3所示,所述对所述所有信息项进行分类,得到多个信息项类别的过程,具体可以包括:
步骤S21:对照所述信息项分类字典,分别判断每个所述目标项名是否与所述信息项分类字典中存在的信息项名称完全匹配;
步骤S22:如果所述目标项名与所述信息项分类字典中存在的信息项名称完全匹配,则输出与所述目标项名对应的信息项类别;
步骤S23:如果所述目标项名与所述信息项分类字典中存在的信息项名称不完全匹配,则分别计算所述目标项名与所述向量表征字典中各个所述采样向量表征之间的相似度,得到多个相似度计算结果;
步骤S24:获取多个所述相似度计算结果中的最大值,得到最大相似度值,并判断所述最大相似度值是否超过预设相似度阈值,若超过则输出与所述最大相似度值对应的信息项类别,若未超过则判定所述目标项名对应的信息项无对应的信息项类别。
也即,在将多个目标项名输入至文本相似匹配模型之后,所述文本相似匹配模型会先根据信息项分类字典对多个所述目标项名进行完全匹配,若完全匹配则直接输出与所述目标项名对应的信息项类别,若不完全匹配则进行相似匹配,即相似度计算,得到多个相似度计算结果,若多个所述相似度计算结果中的最大值超过预设相似度阈值则输出与最大相似度值对应的信息项类别,若最大值未超过预设相似度阈值则判定该信息项没有对应的信息项类别,被分类为“其他”信息项类别。
在一种具体的实施方式中,所述完全匹配的过程具体包括:对照信息项分类字典D对待分类分级数据库表中的每一个信息项的项名进行完全字面匹配,如果有能够完全匹配的,则输出键值对,即信息项的项名与对应的信息项类别,对应的信息项类别;若无法完全匹配,则进行下一步的相似匹配。例如,输入的目标表名和目标信息项的项名为(“低保家庭及人员信息”,[“名字”,“身份证号”,“文化程度”]),则将“名字”,“身份证号”,“文化程度”这3个信息项项名与信息项分类字典D={“姓名”:“姓名类”,“名字”:“姓名类”,“人名”:“姓名类”,“身份证”:“身份证类”,“身份证号码”:“身份证类”}中的所有信息项项名进行完全字面匹配,识别出“名字”这个信息项项名对应“姓名类”,则将“姓名类”作为信息项类别,而“身份证号”、“文化程度”无法完全匹配,则进行下一步的相似匹配。
本实施例中,所述分别计算所述目标项名与所述向量表征字典中各个所述采样向量表征之间的相似度,得到多个相似度计算结果,具体可以包括:分别对每个所述目标项名进行分词处理,得到对应的多个目标分词,并通过所述词向量模型将所述多个目标分词转换为词向量,得到多个目标词向量;分别对每个所述目标项名对应的所述多个目标词向量进行加权平均,得到对应的目标向量表征;将所述目标向量表征与所述向量表征字典中所有所述采样向量表征进行相似度计算,得到多个相似度计算结果。本实施例中,对于不满足完全匹配的目标项名将进行相似匹配,具体的,先分别对每个所述目标项名进行分词处理得到对应的多个目标分词,然后通过word2vec模型上述多个目标分词转换为对应的多个目标词向量,再分别对每个上述目标项名对应的所述多个目标词向量进行加权平均处理,得到对应的目标向量表征,最后将上述目标向量表征与上述向量表征字典V中的所有所述采样向量表征进行相似度计算,如进行余弦相似度计算,得到多个相似度计算结果并获取其中的最大相似度值。进一步的,如果上述最大相似度值大于设置相似度阈值,则判定该信息项项名与向量表征字典V中的某个信息项类别相似匹配成功,输出键值对对应的信息项类别,否则判定该信息项项名没有对应的信息项类别,被分类为“其他”信息项类别。
步骤S14:从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。
本实施例中,通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类得到多个信息项类别之后,对照预先制定的保密定级规则映射表,然后在所述保密定级规则映射表中查找与上述目标分类标签和上述多个信息项类别对应的保密等级。例如,参见图4所示,通过保密定级规则映射表中X轴的领域分类和Y轴的信息项类别可以映射出对应的保密等级,当目标分类标签为领域分类2并且信息项类别为3时,可以确定出保密等级为2。需要指出的是,若最终根据所述多个信息项类别映射出了多个保密等级,则可以按最高保密等级对所述待分类分级数据库表进行定级。
可见,本申请实施例先获取待分类分级数据库表的表名和所有信息项的项名,并对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名,然后述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签,再将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别,最后从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。本申请实施例通过深度学习和规则映射相结合的方式进行库表分类分级,输出对应领域类型和保密等级,为数据库表的保密分级判定提供可解释依据,提高了输出的可解释性和准确性,并且在分级映射规则局部更新的情况下,可以快速形成新的分级规则,提高灵活性,通过无监督的文本相似度计算方法可快速高效识别信息项类别,无需额外标注数据和训练模型。
参见图5所示,图5示出了一种具体的数据库表分类分级方法的框架图,先将待分类分级数据库表的表名和所有信息项的项名输入至添加注意力机制的循环神经网络分类模型,得到待分类分级数据库表所属领域的分类结果,即分类标签,同时将所有信息项的项名输入至文本相似匹配模型,以便通过文本相似匹配模型对信息项的项名进行分类,得到相应的信息项类别,最后将两个分类结果输入至包含保密定级规则映射表的规则映射模块,得到待分类分级数据库表的分级结果,即保密等级。对于来自不同领域的数据库表,经过有监督的神经网络分类模型和规则映射相结合的方式输出对应领域类型和保密等级,同时灵活更新分级映射规则,实现了模型在实际业务场景的广泛应用,通过无监督的文本相似度计算方法能够高效识别信息项类别,为数据库表的保密分级判定提供可解释依据。
相应的,本申请实施例还公开了一种数据库表分类分级装置,参见图6所示,该装置包括:
数据获取模块11,用于获取待分类分级数据库表的表名和所有信息项的项名;
数据预处理模块12,用于对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名;
数据库表分类模块13,用于将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签;
信息项分类模块14,用于将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别;
数据库表分级模块15,用于从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。
其中,关于上述各个模块的具体工作流程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中,先获取待分类分级数据库表的表名和所有信息项的项名,并对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名,然后述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签,再将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别,最后从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。本申请实施例通过深度学习和规则映射相结合的方式进行库表分类分级,输出对应领域类型和保密等级,为数据库表的保密分级判定提供可解释依据,提高了输出的可解释性和准确性,并且在分级映射规则局部更新的情况下,可以快速形成新的分级规则,提高灵活性,通过无监督的文本相似度计算方法可快速高效识别信息项类别,无需额外标注数据和训练模型。
在一些具体实施例中,所述数据预处理模块12,具体可以包括:
信息去重单元,用于对所述表名和所述所有信息项的项名中存在相同名称的信息进行去重,得到去重后表名和去重后项名;
字符删除单元,用于删除所述去重后表名和所述去重后项名中包含的无语义的非中文字符,得到目标表名和多个目标项名。
在一些具体实施例中,所述数据库表分类分级装置,还可以包括:
数据采集单元,用于采集不同领域的历史数据库表的表名和所有信息项的项名,得到历史数据库表表名和历史信息项项名;
数据预处理单元,用于对所述历史数据库表表名和所述信息项项名进行预处理,得到采样表名和采样信息项项名;
模型训练单元,用于利用所述采样表名和所述采样信息项项名对添加注意力机制的初始循环神经网络模型进行训练,得到所述循环神经网络分类模型;其中,所述初始循环神经网络模型采用双层双向GRU结构。
在一些具体实施例中,所述数据库表分类分级装置,还可以包括:
第一分词处理单元,用于分别对每个所述采样信息项项名进行分词处理,得到多个采样分词;
第一词向量转换单元,用于通过预设的词向量模型将所述多个采样分词转换为词向量,得到多个采样词向量;
第一加权平均单元,用于分别对每个所述采样信息项项名对应的所述多个采样词向量进行加权平均,得到对应的采样向量表征;
向量表征字典构造单元,用于利用所述采样向量表征并对照信息项分类字典构造与所述多个所述采样信息项项名对应的信息项的向量表征字典;
保存单元,用于将所述向量表征字典输入至初始文本相似匹配模型进行训练,得到所述文本相似匹配模型。
在一些具体实施例中,所述信息项分类模块14,具体可以包括:
第一判断单元,用于对照所述信息项分类字典,分别判断每个所述目标项名是否与所述信息项分类字典中存在的信息项名称完全匹配;
第一信息项类别输出单元,用于如果所述目标项名与所述信息项分类字典中存在的信息项名称完全匹配,则输出与所述目标项名对应的信息项类别;
第一相似度计算单元,用于如果所述目标项名与所述信息项分类字典中存在的信息项名称不完全匹配,则分别计算所述目标项名与所述向量表征字典中各个所述采样向量表征之间的相似度,得到多个相似度计算结果;
第二判断单元,用于获取多个所述相似度计算结果中的最大值,得到最大相似度值,并判断所述最大相似度值是否超过预设相似度阈值;
第二信息项类别输出单元,用于如果所述最大相似度值超过所述预设相似度阈值则输出与所述最大相似度值对应的信息项类别;
判定单元,用于如果所述最大相似度值未超过所述预设相似度阈值则判定所述目标项名对应的信息项无对应的信息项类别。
在一些具体实施例中,所述第一相似度计算单元,具体可以包括:
第二分词处理单元,用于分别对每个所述目标项名进行分词处理,得到对应的多个目标分词;
第二词向量转换单元,用于通过所述词向量模型将所述多个目标分词转换为词向量,得到多个目标词向量;
第二加权平均单元,用于分别对每个所述目标项名对应的所述多个目标词向量进行加权平均,得到对应的目标向量表征;
第二相似度计算单元,用于将所述目标向量表征与所述向量表征字典中所有所述采样向量表征进行相似度计算,得到多个相似度计算结果。
在一些具体实施例中,所述数据库表分类模块13,具体可以包括:
字符转化单元,用于根据预先构造的数据库表字典,将所述目标表名和多个所述目标项名中的每个字符均转化为对应的字典索引,得到编码后表名和多个编码后项名;
信息输入单元,用于将所述编码后表名和多个所述编码后项名输入至添加注意力机制的循环神经网络分类模型。
进一步的,本申请实施例还公开了一种电子设备,图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的数据库表分类分级方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的数据库表分类分级方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的数据库表分类分级方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种数据库表分类分级方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种数据库表分类分级方法,其特征在于,包括:
获取待分类分级数据库表的表名和所有信息项的项名,并对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名;
将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签;
将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别;
从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。
2.根据权利要求1所述的数据库表分类分级方法,其特征在于,所述对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名,包括:
对所述表名和所述所有信息项的项名中存在相同名称的信息进行去重,得到去重后表名和去重后项名;
删除所述去重后表名和所述去重后项名中包含的无语义的非中文字符,得到目标表名和多个目标项名。
3.根据权利要求1所述的数据库表分类分级方法,其特征在于,还包括:
采集不同领域的历史数据库表的表名和所有信息项的项名,得到历史数据库表表名和历史信息项项名,并对所述历史数据库表表名和所述信息项项名进行预处理,得到采样表名和采样信息项项名;
利用所述采样表名和所述采样信息项项名对添加注意力机制的初始循环神经网络模型进行训练,得到所述循环神经网络分类模型;其中,所述初始循环神经网络模型采用双层双向GRU结构。
4.根据权利要求3所述的数据库表分类分级方法,其特征在于,还包括:
分别对每个所述采样信息项项名进行分词处理,得到多个采样分词,并通过预设的词向量模型将所述多个采样分词转换为词向量,得到多个采样词向量;
分别对每个所述采样信息项项名对应的所述多个采样词向量进行加权平均,得到对应的采样向量表征;
利用所述采样向量表征并对照信息项分类字典构造与所述多个所述采样信息项项名对应的信息项的向量表征字典,并将所述向量表征字典输入至初始文本相似匹配模型进行训练,得到所述文本相似匹配模型。
5.根据权利要求4所述的数据库表分类分级方法,其特征在于,所述对所述所有信息项进行分类,得到多个信息项类别,包括:
对照所述信息项分类字典,分别判断每个所述目标项名是否与所述信息项分类字典中存在的信息项名称完全匹配;
若所述目标项名与所述信息项分类字典中存在的信息项名称完全匹配,则输出与所述目标项名对应的信息项类别;
若所述目标项名与所述信息项分类字典中存在的信息项名称不完全匹配,则分别计算所述目标项名与所述向量表征字典中各个所述采样向量表征之间的相似度,得到多个相似度计算结果;
获取多个所述相似度计算结果中的最大值,得到最大相似度值,并判断所述最大相似度值是否超过预设相似度阈值,若超过则输出与所述最大相似度值对应的信息项类别,若未超过则判定所述目标项名对应的信息项无对应的信息项类别。
6.根据权利要求5所述的数据库表分类分级方法,其特征在于,所述分别计算所述目标项名与所述向量表征字典中各个所述采样向量表征之间的相似度,得到多个相似度计算结果,包括:
分别对每个所述目标项名进行分词处理,得到对应的多个目标分词,并通过所述词向量模型将所述多个目标分词转换为词向量,得到多个目标词向量;
分别对每个所述目标项名对应的所述多个目标词向量进行加权平均,得到对应的目标向量表征;
将所述目标向量表征与所述向量表征字典中所有所述采样向量表征进行相似度计算,得到多个相似度计算结果。
7.根据权利要求1至6任一项所述的数据库表分类分级方法,其特征在于,所述将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,包括:
根据预先构造的数据库表字典,将所述目标表名和多个所述目标项名中的每个字符均转化为对应的字典索引,得到编码后表名和多个编码后项名;
将所述编码后表名和多个所述编码后项名输入至添加注意力机制的循环神经网络分类模型。
8.一种数据库表分类分级装置,其特征在于,包括:
数据获取模块,用于获取待分类分级数据库表的表名和所有信息项的项名;
数据预处理模块,用于对所述表名和所述所有信息项的项名进行预处理,得到目标表名和多个目标项名;
数据库表分类模块,用于将所述目标表名和多个所述目标项名输入至添加注意力机制的循环神经网络分类模型,以便通过所述循环神经网络分类模型对所述待分类分级数据库表所属领域进行分类,得到目标分类标签;
信息项分类模块,用于将多个所述目标项名输入至文本相似匹配模型,以便通过所述文本相似匹配模型对所述目标项名对应的信息项进行分类,得到多个信息项类别;
数据库表分级模块,用于从保密定级规则映射表中确定出与所述目标分类标签和所述多个信息项类别对应的保密等级。
9.一种电子设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的数据库表分类分级方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据库表分类分级方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210993945.2A CN115329380A (zh) | 2022-08-18 | 2022-08-18 | 一种数据库表分类分级方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210993945.2A CN115329380A (zh) | 2022-08-18 | 2022-08-18 | 一种数据库表分类分级方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329380A true CN115329380A (zh) | 2022-11-11 |
Family
ID=83925652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210993945.2A Pending CN115329380A (zh) | 2022-08-18 | 2022-08-18 | 一种数据库表分类分级方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329380A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271679A (zh) * | 2023-11-22 | 2023-12-22 | 华信咨询设计研究院有限公司 | 一种基于训练模型的数据库表分类分级方法及系统 |
-
2022
- 2022-08-18 CN CN202210993945.2A patent/CN115329380A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271679A (zh) * | 2023-11-22 | 2023-12-22 | 华信咨询设计研究院有限公司 | 一种基于训练模型的数据库表分类分级方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
US20210037032A1 (en) | Methods and systems for automated parsing and identification of textual data | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
JP2018503206A (ja) | 大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 | |
CN110941716A (zh) | 一种基于深度学习的信息安全知识图谱的自动构建方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
US11599666B2 (en) | Smart document migration and entity detection | |
CN117271767B (zh) | 基于多智能体的运维知识库的建立方法 | |
CN114386421A (zh) | 相似新闻检测方法、装置、计算机设备和存储介质 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN112417887A (zh) | 敏感词句识别模型处理方法、及其相关设备 | |
CN113449508B (zh) | 一种基于事件链的网络舆情关联推演预测分析方法 | |
CN115329380A (zh) | 一种数据库表分类分级方法、装置、设备及存储介质 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN113535906B (zh) | 一种电力领域隐患事件文本分类方法及其相关装置 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
US20210319184A1 (en) | Recognition of sensitive terms in textual content using a relationship graph of the entire code and artificial intelligence on a subset of the code | |
CN111930944B (zh) | 文件标签分类方法及装置 | |
CN112257425A (zh) | 一种基于数据分级模型的电力数据分析方法及系统 | |
CN115344563B (zh) | 数据去重方法及装置、存储介质、电子设备 | |
CN112613318B (zh) | 实体名称归一化系统及其方法、计算机可读介质 | |
CN113657443B (zh) | 一种基于soinn网络的在线物联网设备识别方法 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
CN112749530B (zh) | 文本编码方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |