CN117216668B - 一种基于机器学习的数据分类分级处理方法和系统 - Google Patents
一种基于机器学习的数据分类分级处理方法和系统 Download PDFInfo
- Publication number
- CN117216668B CN117216668B CN202311481597.1A CN202311481597A CN117216668B CN 117216668 B CN117216668 B CN 117216668B CN 202311481597 A CN202311481597 A CN 202311481597A CN 117216668 B CN117216668 B CN 117216668B
- Authority
- CN
- China
- Prior art keywords
- neural network
- training data
- network model
- data
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 170
- 238000003062 neural network model Methods 0.000 claims abstract description 121
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 73
- 238000013507 mapping Methods 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000015654 memory Effects 0.000 description 28
- 210000004027 cell Anatomy 0.000 description 20
- 238000012937 correction Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于机器学习的数据分类分级处理方法和系统,该方法包括:获取预先标记好的多组训练数据;使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型;将所述多组训练数据中的至少一组预定训练数据中的数据库中的字段用于进行分类分级的信息输入到所述训练后的神经网络模型中;从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致;如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整。通过本申请解决了相关技术中使用人工进行数据分类分级所导致的效率低下的问题,从而提高了数据分类分级的效率。
Description
技术领域
本申请涉及到数据处理领域,具体而言,涉及一种基于机器学习的数据分类分级处理方法和系统。
背景技术
作为数字经济和信息社会的核心资源,数据被认为是继土地、劳动力、资本、技术之后的又一个重要生产要素。与此同时,数据安全的重要性愈发凸显。
对数据而言,开放才有意义,但开放的前提则是安全。由于不同类型的数据,其级别和价值均不同,不能等同视之,应根据数据的重要性、价值指数,予以区别对待,因此数据安全法提出建立数据分类分级保护制度。
分类分级是数据全流程动态保护的基本前提,不仅是数据安全治理的第一步,也是当前数据安全治理的痛点和难点。数据安全建设需要针对数据的收集、存储、使用、加工、传输、公开等各个环节,进行数据安全风险的监测、评估和防护等,需要用到权限管控、数据脱敏、数据加密、审计溯源等多种技术手段。只有做好了数据分类分级工作,才能进行后续数据安全建设。
目前数据分类分级基本采用人工识别数据库某个字段的数据内容之后,对该字段的数据进行分类分级,由于数据库中的表数量众多,需要逐一对每张表均进行基于字段的分类分级,这导致了分类分级的效率比较低。
发明内容
本申请实施例提供了一种基于机器学习的数据分类分级处理方法和系统,以至少解决相关技术中使用人工进行数据分类分级所导致的效率低下的问题。
根据本申请的一个方面,提供了一种基于机器学习的数据分类分级处理方法,包括:获取预先标记好的多组训练数据,其中,每组训练数据中均包括数据库中的字段用于进行分类分级的信息和标签,所述标签用于标识所述字段的分类分级的结果;所述数据库中的字段用于进行分类分级的信息包括以下至少之一:字段名称、字段描述;使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型;将所述多组训练数据中的至少一组预定训练数据中的数据库中的字段用于进行分类分级的信息输入到所述训练后的神经网络模型中;从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致;如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整。
进一步地,使用所述多组训练数据对神经网络模型进行训练包括:获取所述多组训练数据的数量;根据所述多组训练数据的数量来调整所述神经网络模型的参数;根据调整后的神经网络模型的参数使用所述多组训练数据对所述神经网络模型进行训练;其中,调整后的神经网络模型的参数所对应的泛化程度与所述多组训练数据的数量向匹配。
进一步地,调整所述神经网络模型的参数包括:在所述多组训练数据的数量在预定范围内的情况下,将所述神经网络模型的所有丢弃层的比例参数设为0,去掉所述神经网络模型的损失函数中的正则项。
进一步地,使用修改后的预定训练数据对所述神经网络模型进行调整包括:维护一个临时特征映射库,其中,所述特征映射库在所述神经网络模型重新训练之后被清空;在训练数据的标签修正之后,或者加入新训练数据之后,利用所述神经网络模型计算出神经网络最后一层的特征向量;将修正后的训练数据的特征向量以及对应的修改后的标签加入到临时特征映射库中;在对需要预测的数据进行分类判定时,计算神经网络最后一层的特征向量,将计算得到的特征向量与临时特征映射库中所有特征的距离,如果与临时特征映射库中的某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类分级标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出所述神经网络模型预测的结果。
进一步地,使用修改后的预定训练数据对所述神经网络模型进行调整包括:使用修改后的预定训练数据对所述神经网络模型进行重新训练。
进一步地,在对需要预测的样本进行分类判定时,计算所述神经网络模型最后一层的特征向量,计算其与临时特征映射库中所有特征的余弦距离或者欧式距离,如果与某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出模型预测的分类结果。
根据本申请的另一个方面,还提供了一种基于机器学习的数据分类分级处理系统,包括:获取模块,用于获取预先标记好的多组训练数据,其中,每组训练数据中均包括数据库中的字段用于进行分类分级的信息和标签,所述标签用于标识所述字段的分类分级的结果;所述数据库中的字段用于进行分类分级的信息包括以下至少之一:字段名称、字段描述;训练模块,用于使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型;输入模块,用于将所述多组训练数据中的至少一组预定训练数据中的数据库中的字段用于进行分类分级的信息输入到所述训练后的神经网络模型中;比较模块,用于从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致;调整模块,用于如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整。
进一步地,所述训练模块用于:获取所述多组训练数据的数量;根据所述多组训练数据的数量来调整所述神经网络模型的参数;根据调整后的神经网络模型的参数使用所述多组训练数据对所述神经网络模型进行训练;其中,调整后的神经网络模型的参数所对应的泛化程度与所述多组训练数据的数量向匹配。
进一步地,所述训练模块用于:在所述多组训练数据的数量在预定范围内的情况下,将所述神经网络模型的所有丢弃层的比例参数设为0,去掉所述神经网络模型的损失函数中的正则项。
进一步地,所述调整模块用于:维护一个临时特征映射库,其中,所述特征映射库在所述神经网络模型重新训练之后被清空;在训练数据的标签修正之后,或者加入新训练数据之后,利用所述神经网络模型计算出神经网络最后一层的特征向量;将修正后的训练数据的特征向量以及对应的修改后的标签加入到临时特征映射库中;在对需要预测的数据进行分类判定时,计算神经网络最后一层的特征向量,将计算得到的特征向量与临时特征映射库中所有特征的距离,如果与临时特征映射库中的某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类分级标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出所述神经网络模型预测的结果。
进一步地,所述调整模块用于:使用修改后的预定训练数据对所述神经网络模型进行重新训练。
进一步地,所述调整模块用于:在对需要预测的样本进行分类判定时,计算所述神经网络模型最后一层的特征向量,计算其与临时特征映射库中所有特征的余弦距离或者欧式距离,如果与某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出模型预测的分类结果。
在本申请实施例中,采用了获取预先标记好的多组训练数据,其中,每组训练数据中均包括数据库中的字段用于进行分类分级的信息和标签,所述标签用于标识所述字段的分类分级的结果;所述数据库中的字段用于进行分类分级的信息包括以下至少之一:字段名称、字段描述;使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型;将所述多组训练数据中的至少一组预定训练数据中的数据库中的字段用于进行分类分级的信息输入到所述训练后的神经网络模型中;从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致;如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整。通过本申请解决了相关技术中使用人工进行数据分类分级所导致的效率低下的问题,从而提高了数据分类分级的效率。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的LSTM模型的示意图;
图2是根据本申请实施例的基于机器学习的数据分类分级处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
对于很多单位或者公司来说按照信息安全管理要求,避免关键信息流失,个人隐私泄露,需对数据进行分类分级管理,控制粒度精确到字段,纯人工分类工作量巨大。为了解决这个问题,在如下实施方式中,可以采用如下架构来对数据进行分类分级。
确定数据源:数据源选择存储数据资产的数据库和大数据平台,包括但是不限于传统关系型数据库和以Hadoop为代表的大数据平台;数据采样:确认数据源的连接信息,采用如下连接方式(但是不限于):MDBC、ODBC和数据库驱动建立连接,在建立连接之后可以对数据按照既定的采样策略进行抽取,采样策略信息包括是否全量采样、采样数量、采样间隔和采样并发;所述数据源的连接信息包括IP地址、端口号、账号名和/或访问方式;数据属类建模:建立数据的分类模型,以实现数据的分类,基于分类的结果进行后续的数据安全分级;针对数据,采用基于机器学习来自动学习数据属类的特征,并且自动关联数据分级和智能识别后的数据类型;数据安全策略的制定和下发:依据数据的安全级别自动适配相应的数据安全策略,适配方案能够进行调整或修正,所述数据安全策略根据数据的安全等级和/或数据使用者的等级预先制定。
传统的基于规则的分类分级方法,基于机器学习的分类分级方法能有效节省人力并且有相对较高的准确率。但是也存在一些不足:
对标注数据的数据的数据数量和质量要求较高,在数据标注过程中需要投入大量人工成本;相比于传统的基于规则的分类分级方法,其灵活性较低,无法通过修改特定规则或者正则匹配表达式的方式对判定结果进行精准修正。
在如下实施方式中,以LSTM模型为例进行说明,除了该模型之外,以下实施方式也适用于其他模型,在此不再赘述。在使用了LSTM模型之后可以解决上述问题的至少之一,下面首先对LSTM模型进行说明。
LSTM(Long Short-Term Memory)是一种长短期记忆网络,是一种特殊的RNN(循环神经网络)。与传统的RNN相比,LSTM更加适用于处理和预测时间序列中间隔较长的重要事件。
传统的RNN结构可以看做是多个重复的神经元构成的“回路”,每个神经元都接受输入信息并产生输出,然后将输出再次作为下一个神经元的输入,依次传递下去。这种结构能够在序列数据上学习短时依赖关系,但是由于梯度消失和梯度爆炸问题,RNN在处理长序列时难以达到很好的性能。而LSTM通过引入记忆细胞、输入门、输出门和遗忘门的概念,能够有效地解决长序列问题。记忆细胞负责保存重要信息,输入门决定要不要将当前输入信息写入记忆细胞,遗忘门决定要不要遗忘记忆细胞中的信息,输出门决定要不要将记忆细胞的信息作为当前的输出。这些门的控制能够有效地捕捉序列中重要的长时间依赖性,并且能够解决梯度问题。
LSTM结构包括了记忆细胞、输入门、输出门和遗忘门这四个部分。
记忆细胞(memory cell)是 LSTM 的核心,负责保存重要的信息,并将这些信息传递给后面的网络层。记忆细胞的作用是维护一个持久化的状态, 它在不断的输入中会不断的更新,它的特性是可以保存历史信息并应用于当前预测。记忆细胞可以被看做是一个简单的数字,它在每个时间步都会进行更新,然后由输入门、遗忘门和输出门来控制在每个时间步内如何更新和输出这个数值。
输入门(input gate)决定了当前输入信息是否写入记忆细胞,也就是说,能够控制输入信息对记忆细胞的影响。遗忘门(forget gate)决定了记忆细胞中的信息是否被遗忘,也就是说,能够控制记忆细胞中保存的信息会不会消失。输出门(output gate)决定了记忆细胞中的信息是否输出,也就是说,能够控制记忆细胞中保存的信息会不会对后面的网络层造成影响。
这四个部分通过计算权重矩阵和输入信号的点积,并通过激活函数(通常是sigmoid函数)计算出每个门的输出值,再乘上记忆细胞的值来进行最终计算。
这样,输入门通过其输出值乘上当前输入信号来决定将多少信息写入记忆细胞,遗忘门通过其输出值乘上当前记忆细胞的遗忘门通过其输出值乘上当前记忆细胞的值来决定清除多少信息,输出门通过其输出值乘上当前记忆细胞的值来决定输出多少信息给后面的网络层。通过这样的结构设计,LSTM可以在保留重要信息的同时遗忘无关信息,更好地处理长时间依赖性的问题。在训练 LSTM 模型时,可以通过反向传播算法来学习 LSTM 网络中的权重参数,并不断迭代来提高模型的性能。
图1是根据本申请实施例的LSTM模型的示意图,如图1所示,在LSTM中,EmbeddingLayer(嵌入层)是非常重要的一部分,它可以将输入序列中的每个离散变量映射成一个连续向量,从而便于神经网络进行处理。在图1中将字段名和字段描述进行分词之后进行神经网络的处理。
Embedding Layer的作用:在循环神经网络中,输入数据通常是一个单词序列或字符序列,每个单词或字符都对应了一个唯一的标识符(比如整数)。但是,这些标识符是离散的,无法直接被神经网络处理。为了让神经网络能够处理这些离散的标识符,需要将它们映射到一个连续的向量空间中。
这个映射过程就是Embedding Layer的主要作用。具体来说,Embedding Layer会根据输入数据中的每个离散变量,查找一个预先训练好的词向量表,然后将其映射到一个固定长度的实数向量中。这个实数向量就是Embedding Layer的输出,它代表了输入数据中每个离散变量对应的连续向量表示。
这里需要注意的是,Embedding Layer的输入通常是一个整数张量,每个整数代表一个离散变量。而输出则是一个浮点数张量,每个浮点数代表一个连续向量。另外,Embedding Layer的参数是一个词向量表,每行代表一个单词或字符的向量表示。
在使用 LSTM 进行预测时,可以通过在网络中添加 Dropout层(丢弃层)来减少过拟合。可以通过在 LSTM 层之后添加 Dropout 层来实现这一点。假设,在 LSTM 层之后添加了一个 Dropout 层,并将 Dropout 的参数设置为 0.2,即每个神经元在每次训练迭代中以 20% 的概率被随机地丢弃。这有助于防止过拟合,并提高模型的泛化能力。
LSTM作为神经网络的一种是全连接神经网络,LSTM的输出是最后一个时刻的h,是个unit维的向量,必须接一个全连接层才能把LSTM的输出转换成想要的输出,可以简单理解成维度变换。在LSTM中全连接层为Dense层,Dense层所实现的运算是output =activation(dot(input, kernel)+bias)。其中activation是逐元素计算的激活函数,kernel是本层的权值矩阵,bias为偏置向量,只有当use_bias=True才会添加。
LSTM部分用于对数据进行特征提取,LSTM部分可以包括LSTM网络或者Bi-LSTM网络,使用Bi-LSTM对进行特征提取,该Bi-LSTM网络可以包括多个隐藏节点。然后将Bi-LSTM的输出进行特征融合(Concate)。
损失函数(loss function,简称为loss)又叫做代价函数(cost function),是用来评估模型的预测值与真实值不一致的程度,也是神经网络中优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真是值,模型的健壮性也就越好。LSTM所使用的损失函数为多分类交叉熵损失函数(categorical crossentropy)。
在图1中,Softmax是一种数学函数,通常用于将一组任意实数转换为表示概率分布的实数。其本质上是一种归一化函数,可以将一组任意的实数值转化为在[0, 1]之间的概率值,因为softmax将它们转换为0到1之间的值,所以它们可以被解释为概率。如果其中一个输入很小或为负,softmax将其变为小概率,如果输入很大,则将其变为大概率,但它将始终保持在0到1之间。
Softmax是逻辑回归的一种推广,可以用于多分类任务,其公式与逻辑回归的sigmoid函数非常相似。只有当分类是互斥的,才可以在分类器中使用Softmax函数,也就是说只能是多元分类(即数据只有一个标签),而不能是多标签分类(即一条数据可能有多个标签)。
许多多层神经网络输出层的最后一层是一个全连接层,输出是一个实数向量,这个向量通常代表了每个类别的得分或置信度。为了将这些得分转换为概率分布,通常会使用Softmax函数。因为它将分数转换为规范化的概率分布,可以显示给用户或用作其他系统的输入。所以通常附加一个Softmax函数在神经网络的最后一层之后。
在以下实施方式中,在进行模型训练的时候,将模型的参数设置为低泛化度,这样就可以减少对样本数据的要求,在模型训练中对模型进行了低泛化度的参数设定,所以对样本量的数量要求较低,只获取典型样本即可。然后对典型样本进行分类分级判定。
在模型训练中,采用深度神经网络LSTM模型进行列名称与描述文本的特征抽取。为了实现完全规则化的模型判定,降低模型泛化能力将对模型进行以下调整。
①将模型的所有dropout层的比例参数设为0;
②去掉模型loss中的正则项。为防止过拟合和提高模型泛化性能引入正则化项α||w||,通过对损失函数loss(w)的最小值求解得到w,在该步骤去掉损失函数的中的正则化项,则可以降低模型的泛化能力。
在以下实施方式中,还使用了冲突定位与样本修正,下面对此进行说明。
①冲突定位
利用训练完成的深度神经网络模型,对所有样本进行类别判定,如果模型判定结果与标注结果不同,则认为该样本为冲突样本的其中一方,需要对该样本的标注项进行修正。为了查找冲突样本的另外一方或几方,需要进行进一步的相似样本查找。
②相似样本查找
获取深度神经网络最后一层的特征向量,样本库中所有样本提取特征矩阵,利用余弦距离(也可以利用欧氏距离)计算距离冲突样本距离最近的一系列样本。
③样本修正
获取这些样本与对应的模型判定分类结果作为参考,修正冲突样本的类别标签。在完成样本标签修正后,根据如下的临时模型修正中提到的方法进行临时模型修正,使模型判定结果即时生效。也可根据使用永久模型修正的方法进行永久性模型修正。下面对临时模型修改和永久性模型修正进行说明。
临时模型修正
在传统的规则分类系统中,规则修改的同时,判定结果就已经得到修正。考虑到完全的模型训练时间成本较高,同时又有样本修改后模型即时生效的需求,即在样本修正的同时,模型判定结果也能得到修正。
①需要维护一个临时特征映射库,在模型重新训练之后,特征映射库清空。
②在样本标签修正之后,或者加入新样本之后,利用模型计算出深度神经网络最后一层的特征向量。
③将修正后的样本特征向量以及对应的修改后的标签加入到临时特征映射库中。
④在对需要预测的样本进行分类判定时,首先计算深度神经网络最后一层的特征向量,计算其与临时特征映射库中所有特征的余弦距离(或者欧式距离),如果与某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出模型预测的分类结果。
永久性模型修正
将修正后的样本与标签与样本库中所有样本结果,重新训练深度神经网络模型。
新规则发现
在预测过程中,通过模型,计算该样本在所有分类中的得分。利用信息熵计算公式,结合所有分类得分结果,计算该结果的信息熵,如果信息熵小于一定阈值,说明模型对该样本的判定是不确定的,也即是该样本中包含有新的规则信息。可对该样本进行标注,从而使模型获得新的规则信息。
规则与样本修正
在传统的规则分类系统中,如果对某样本的分类结果存在偏差,需要查找该样本对应的判定规则,通过修改正则表达式的方式修正判定结果。
在基于模型的分类系统中,如果对某样本的分类结果存在偏差,获取深度神经网络最后一层的特征向量,利用上述所提到的方法查找近似样本,对这些样本标签进行修正达到修正模型判定的目的。
上述模型是以分类结果为例进行说明,上述技术方案也可以应用到分级中。在所有实施方式中,“分类分级”一词所代表的意思为“分类和/或分级”。
图2是根据本申请实施例的基于机器学习的数据分类分级处理方法的流程图,该流程是对上述实施方式所涉及到的技术的总结,如图2所示,下面对该流程中所涉及到的步骤进行说明。
步骤S202,获取预先标记好的多组训练数据,其中,每组训练数据中均包括数据库中的字段用于进行分类分级的信息和标签,所述标签用于标识所述字段的分类分级的结果;所述数据库中的字段用于进行分类分级的信息包括以下至少之一:字段名称、字段描述。
步骤S204,使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型。
步骤S206,将所述多组训练数据中的至少一组预定训练数据中的数据库中的字段用于进行分类分级的信息输入到所述训练后的神经网络模型中。
步骤S208,从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致。
步骤S210,如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整。
在该步骤中,在从所述多组训练数据中找到一组预定训练数据(为了描述方便,将此称为第一训练数据)标签与神经网络模型输出的标签不同之后,从所述多组训练数据中查找与所述第一训练数据相似的其他组训练数据,在查找到其他组训练数据之后,对其他组训练数据的标签也进行与所述第一训练数据的标签相同的修改,然后将修改过标签的训练数据均用于对神经网络模型的调整。
通过上述步骤,可以使用相对较少的训练数据得到一个训练好的神经网络模型,通过调整后的神经网络模型对数据库中的字段进行分类分级,可以提高分类分级的效率,降低分类分级的成本。
作为一个可选的实施方式,在上述步骤S204,使用所述多组训练数据对神经网络模型进行训练的步骤中,该步骤可以包括:获取所述多组训练数据的数量,根据所述多组训练数据的数量来调整所述神经网络模型的参数;根据调整后的神经网络模型的参数使用所述多组训练数据对所述神经网络模型进行训练;其中,调整后的神经网络模型的参数所对应的泛化程度与所述多组训练数据的数量向匹配。
调整所述神经网络模型的参数的方式有很多中,例如,调整所述神经网络模型的参数包括:在所述多组训练数据的数量在预定范围内的情况下,将所述神经网络模型的所有丢弃层的比例参数设为0,去掉所述神经网络模型的损失函数中的正则项。这样做的目的是降低模型泛化能力,增强模型的精准匹配特性,同时降低样本数量。
使用修改后的预定训练数据对所述神经网络模型进行调整也可以由很多种方式,例如,使用修改后的预定训练数据对所述神经网络模型进行调整包括:
维护一个临时特征映射库,其中,所述特征映射库在所述神经网络模型重新训练之后被清空;在训练数据的标签修正之后,或者加入新训练数据(也称为样本)之后,利用所述神经网络模型计算出神经网络最后一层的特征向量;将修正后的训练数据的特征向量以及对应的修改后的标签加入到临时特征映射库中;在对需要预测的数据进行分类判定时,计算神经网络最后一层的特征向量,将计算得到的特征向量与临时特征映射库中所有特征的距离,如果与临时特征映射库中的某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类分级标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出所述神经网络模型预测的结果。通过该调整方式,可以调整分类分级策略,为了避免重新训练模型所带来的时间延迟。
作为一个可选的实施方式,在对需要预测的样本进行分类判定时,计算所述神经网络模型最后一层的特征向量,计算其与临时特征映射库中所有特征的余弦距离或者欧式距离,如果与某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出模型预测的分类结果。
上述步骤S210中,比较输出标签和原有标签的步骤可以理解为是判断神经网络模型(也可以称为机器学习模型)的分类分级结果是否正确的步骤,如果输入标签和原有标签一致,则认为分类分级结果正确,如果输入标签和原有标签不一致,则认为分类分级结果不正确。可以采用主从表的方式来判断机器学习的分类分级是否正确。在机器学习模型训练收敛之后,获取训练采用的样本数据所属的预定表,然后查找所述预定表的主表或者从表(即第一表),然后将预定表的分类分级结果复用到所述预定表的主表或者从表中。该方法可以包括如下步骤:获取对数据库中的预定表中的数据进行分类分级之后得到的分类分级结果,其中,所述分类分级结果用于指示所述预定表中的每个字段下的数据所属的类别和等级;获取待进行数据分类分级的第一表;判断所述第一表与所述预定表是否为主从表的关系;在所述第一表和所述预定表为主从表的关系的情况下,将所述预定表的分类分级结果复用到所述第一表中,其中,复用到所述第一表包括:对于所述第一表与所述预定表中相同字段下的数据,按照所述预定表的分类分级结果对所述第一表中相同字段下的数据进行数据分类分级。
在得到的第一表的数据分类分级结果之后,判断第一表的数据分类分级结果是否正确,如果不正确,则调整所述第一表的数据分类分级结果中不正确的数据的分类分级,然后将调整后的数据作为训练数据用于进行机器学习模型的训练。
在上述步骤中,判断是否为主从表的方式有很多种,例如,判断所述第一表与所述预定表是否为主从表的关系包括:获取所述第一表和所述预定表的表信息,其中,所述表信息包括以下至少之一:表名称,表中包括的字段名称;根据所述第一表和所述预定表的表信息判断所述第一表与所述预定表是否为主从表。主表和从表一般名称是比较接近的,主表和从表中的大部分字段也是相同的,因此,根据表名称和字段是否相同来进行主从表的判断是比较准确的。
在一个例子中,可以判断所述第一表的表名称和所述预定表的表名称的相似度是否符合预定条件;如果符合预定条件,则判断所述第一表中的所有字段的名称与所述预定表中所有字段的名称相同的比例;如果所述第一表中与所述预定表中字段名称相同的比例超过阈值,则所述第一表和所述预定表为主从表。判断所述第一表的表名称和所述预定表的表名称的相似度是否符合预定条件包括:判断所述第一表的表名称是否为所述预定表的表名称的一部分,或者,所述预定表的表名称是所述第一表的表名称的一部分,如果判断结果为是,则所述第一表的表名称和所述第二标的表名称的相似度符合预定条件。
通过上述实施例解决了相关技术中使用人工进行数据分类分级所导致的效率低下的问题,从而提高了数据分类分级的效率。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
该本实施例中就提供了这样的一种装置或系统。该系统被称为基于机器学习的数据分类分级处理系统,包括:获取模块,用于获取预先标记好的多组训练数据,其中,每组训练数据中均包括数据库中的字段用于进行分类分级的信息和标签,所述标签用于标识所述字段的分类分级的结果;所述数据库中的字段用于进行分类分级的信息包括以下至少之一:字段名称、字段描述;训练模块,用于使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型;输入模块,用于将所述多组训练数据中的至少一组预定训练数据中的数据库中的字段用于进行分类分级的信息输入到所述训练后的神经网络模型中;比较模块,用于从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致;调整模块,用于如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整。
该系统或者装置用于实现上述的实施例中的方法的功能,该系统或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
可选地,所述训练模块用于:获取所述多组训练数据的数量;根据所述多组训练数据的数量来调整所述神经网络模型的参数;根据调整后的神经网络模型的参数使用所述多组训练数据对所述神经网络模型进行训练;其中,调整后的神经网络模型的参数所对应的泛化程度与所述多组训练数据的数量向匹配。
可选地,所述训练模块用于:在所述多组训练数据的数量在预定范围内的情况下,将所述神经网络模型的所有丢弃层的比例参数设为0,去掉所述神经网络模型的损失函数中的正则项。
可选地,所述调整模块用于:维护一个临时特征映射库,其中,所述特征映射库在所述神经网络模型重新训练之后被清空;在训练数据的标签修正之后,或者加入新训练数据之后,利用所述神经网络模型计算出神经网络最后一层的特征向量;将修正后的训练数据的特征向量以及对应的修改后的标签加入到临时特征映射库中;在对需要预测的数据进行分类判定时,计算神经网络最后一层的特征向量,将计算得到的特征向量与临时特征映射库中所有特征的距离,如果与临时特征映射库中的某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类分级标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出所述神经网络模型预测的结果。
可选地,所述调整模块用于:使用修改后的预定训练数据对所述神经网络模型进行重新训练。
可选地,所述调整模块用于:在对需要预测的样本进行分类判定时,计算所述神经网络模型最后一层的特征向量,计算其与临时特征映射库中所有特征的余弦距离或者欧式距离,如果与某一特征向量距离小于一定阈值,则直接将该样本的预测结果直接映射成临时特征映射库中对应特征的分类标签,如果与临时特征映射库中所有特征距离都大于这一阈值,则输出模型预测的分类结果。
通过上述实施例解决了相关技术中使用人工进行数据分类分级所导致的效率低下的问题,从而提高了数据分类分级的效率。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (6)
1.一种基于机器学习的数据分类分级处理方法,其特征在于,包括:
获取预先标记好的多组训练数据,其中,每组训练数据中均包括数据库中的用于进行分类分级的字段信息和标签,所述标签用于标识所述字段的分类分级的结果;所述数据库中的用于进行分类分级的字段信息包括以下至少之一:字段名称、字段描述;
使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型;
将所述多组训练数据中的至少一组预定训练数据中的数据库中的用于进行分类分级的字段信息输入到所述训练后的神经网络模型中;
从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致;
如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整;使用修改后的预定训练数据对所述神经网络模型进行调整包括:维护一个临时特征映射库,其中,所述临时特征映射库在所述神经网络模型重新训练之后被清空;在训练数据的标签修正之后,或者加入新训练数据之后,利用所述神经网络模型计算出神经网络最后一层的特征向量;将修正后的训练数据的特征向量以及对应的修改后的标签加入到临时特征映射库中;在对需要预测的数据进行分类判定时,计算神经网络最后一层的特征向量,将计算得到的特征向量与临时特征映射库中所有特征向量的距离与预定阈值进行比较;其中,所述距离为余弦距离或者欧式距离,如果与临时特征映射库中的某一特征向量距离小于所述预定阈值,则将该临时特征映射库中的特征向量对应的样本的预测结果直接映射成临时特征映射库中对应特征的分类分级标签,如果与临时特征映射库中所有特征距离都大于所述预定阈值,则输出所述神经网络模型预测的结果。
2.根据权利要求1所述的方法,其特征在于,使用所述多组训练数据对神经网络模型进行训练包括:
获取所述多组训练数据的数量;
根据所述多组训练数据的数量来调整所述神经网络模型的参数;
根据调整后的神经网络模型的参数使用所述多组训练数据对所述神经网络模型进行训练;其中,调整后的神经网络模型的参数所对应的泛化程度与所述多组训练数据的数量向匹配。
3.根据权利要求2所述的方法,其特征在于,调整所述神经网络模型的参数包括:
在所述多组训练数据的数量在预定范围内的情况下,将所述神经网络模型的所有丢弃层的比例参数设为0,去掉所述神经网络模型的损失函数中的正则项。
4.一种基于机器学习的数据分类分级处理系统,其特征在于,包括:
获取模块,用于获取预先标记好的多组训练数据,其中,每组训练数据中均包括数据库中的用于进行分类分级的字段信息和标签,所述标签用于标识所述字段的分类分级的结果;所述数据库中的用于进行分类分级的字段信息包括以下至少之一:字段名称、字段描述;
训练模块,用于使用所述多组训练数据对神经网络模型进行训练,得到训练后的神经网络模型;
输入模块,用于将所述多组训练数据中的至少一组预定训练数据中的数据库中的用于进行分类分级的字段信息输入到所述训练后的神经网络模型中;
比较模块,用于从所述训练后的神经网络模型中获取输出的标签,比较所述预定训练数据原有的标签和输出的标签是否一致;
调整模块,用于如果不一致,则修改该组预定训练数据中的标签,并使用修改后的预定训练数据对所述神经网络模型进行调整;使用修改后的预定训练数据对所述神经网络模型进行调整包括:维护一个临时特征映射库,其中,所述临时特征映射库在所述神经网络模型重新训练之后被清空;在训练数据的标签修正之后,或者加入新训练数据之后,利用所述神经网络模型计算出神经网络最后一层的特征向量;将修正后的训练数据的特征向量以及对应的修改后的标签加入到临时特征映射库中;在对需要预测的数据进行分类判定时,计算神经网络最后一层的特征向量,将计算得到的特征向量与临时特征映射库中所有特征向量的距离与预定阈值进行比较;其中,所述距离为余弦距离或者欧式距离,如果与临时特征映射库中的某一特征向量距离小于所述预定阈值,则将该临时特征映射库中的特征向量对应的样本的预测结果直接映射成临时特征映射库中对应特征的分类分级标签,如果与临时特征映射库中所有特征距离都大于所述预定阈值,则输出所述神经网络模型预测的结果。
5.根据权利要求4所述的系统,其特征在于,所述训练模块用于:
获取所述多组训练数据的数量;
根据所述多组训练数据的数量来调整所述神经网络模型的参数;
根据调整后的神经网络模型的参数使用所述多组训练数据对所述神经网络模型进行训练;其中,调整后的神经网络模型的参数所对应的泛化程度与所述多组训练数据的数量向匹配。
6.根据权利要求5所述的系统,其特征在于,所述训练模块用于:
在所述多组训练数据的数量在预定范围内的情况下,将所述神经网络模型的所有丢弃层的比例参数设为0,去掉所述神经网络模型的损失函数中的正则项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311481597.1A CN117216668B (zh) | 2023-11-09 | 2023-11-09 | 一种基于机器学习的数据分类分级处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311481597.1A CN117216668B (zh) | 2023-11-09 | 2023-11-09 | 一种基于机器学习的数据分类分级处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117216668A CN117216668A (zh) | 2023-12-12 |
CN117216668B true CN117216668B (zh) | 2024-06-04 |
Family
ID=89037530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311481597.1A Active CN117216668B (zh) | 2023-11-09 | 2023-11-09 | 一种基于机器学习的数据分类分级处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216668B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118229269B (zh) * | 2024-05-22 | 2024-08-27 | 南京数策信息科技有限公司 | 基于多种类型延保自动叠加计算延保日期的系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
CN111046183A (zh) * | 2019-12-11 | 2020-04-21 | 金蝶软件(中国)有限公司 | 用于文本分类的神经网络模型的构建方法和装置 |
CN114511019A (zh) * | 2022-01-25 | 2022-05-17 | 全球能源互联网研究院有限公司 | 一种敏感数据分类分级标识方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751261B (zh) * | 2018-07-23 | 2024-05-28 | 第四范式(北京)技术有限公司 | 神经网络模型的训练方法和系统以及预测方法和系统 |
-
2023
- 2023-11-09 CN CN202311481597.1A patent/CN117216668B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
CN111046183A (zh) * | 2019-12-11 | 2020-04-21 | 金蝶软件(中国)有限公司 | 用于文本分类的神经网络模型的构建方法和装置 |
CN114511019A (zh) * | 2022-01-25 | 2022-05-17 | 全球能源互联网研究院有限公司 | 一种敏感数据分类分级标识方法及系统 |
Non-Patent Citations (1)
Title |
---|
改进biLSTM网络的短文本分类方法;李文慧;张英俊;潘理虎;;计算机工程与设计(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117216668A (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Sql injection detection for web applications based on elastic-pooling cnn | |
CN117216668B (zh) | 一种基于机器学习的数据分类分级处理方法和系统 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN116910571B (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
CN111985207B (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
KR20230150947A (ko) | 개선된 딥러닝 모델을 위한 방법 및 시스템 | |
CN111598329A (zh) | 基于自动化参数调整循环神经网络的时序数据预测方法 | |
CN111753995A (zh) | 一种基于梯度提升树的局部可解释方法 | |
CN111191033B (zh) | 一种基于分类效用的开集分类方法 | |
CN117009509A (zh) | 数据安全分级方法、装置、设备、存储介质和程序产品 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
Demidova et al. | Optimization of hyperparameters with constraints on time and memory for the classification model of the hard drives states | |
Gao et al. | An improved XGBoost based on weighted column subsampling for object classification | |
CN115604025B (zh) | 一种基于pli4da的网络入侵检测方法 | |
CN117272149A (zh) | 一种基于语言模型的跨表格多任务预训练方法和装置 | |
CN116318845B (zh) | 一种正负样本比例不平衡条件下的dga域名检测方法 | |
CN112182225A (zh) | 一种多模态场景目标基于半监督深度学习的知识管理方法 | |
Tian et al. | Digital Universal Financial Credit Risk Analysis Using Particle Swarm Optimization Algorithm with Structure Decision Tree Learning‐Based Evaluation Model | |
CN115758462A (zh) | 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质 | |
CN116580272A (zh) | 一种基于模型融合推理的雷达目标分类方法及系统 | |
CN114118779A (zh) | 一种基于kgann的面向互联网舆情事件的企业风险识别方法 | |
US11892989B2 (en) | System and method for predictive structuring of electronic data | |
CN118070775B (zh) | 摘要生成模型的性能评测方法、装置、计算机设备 | |
CN117792737B (zh) | 一种网络入侵检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |