CN116975055B

CN116975055B - 一种基于机器学习的分析政务数据相关枚举字段判定系统

Info

Publication number: CN116975055B
Application number: CN202310779199.1A
Authority: CN
Inventors: 李晓儿; 胡承启; 卫学彬; 余镭; 胡光瑞
Original assignee: Digital Ningbo Technology Co ltd
Current assignee: Digital Ningbo Technology Co ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2024-02-13
Anticipated expiration: 2043-06-29
Also published as: CN116975055A

Abstract

一种基于机器学习的分析政务数据相关枚举字段判定系统属于计算机系统技术领域，尤其涉及一种基于机器学习的分析政务数据相关枚举字段判定系统。本发明提供一种基于机器学习的分析政务数据相关枚举字段判定系统。本发明包括数据表清单模块、字段梳理模块、机器学习模块、模型字典模块和枚举值字段判定模块，其特征在于：所述数据表清单模块利用政务大数据编制政务数据表清单；所述字段梳理模块根据维度对每个表的字段进行排序，标记每个字段是否为枚举值字段，并编制政务数据字段维度清单；所述机器学习模块使用监督学习和回归模型对编制的政务数据字段维度清单进行机器学习，生成数据算法模型。

Description

一种基于机器学习的分析政务数据相关枚举字段判定系统

技术领域

本发明属于计算机系统技术领域，尤其涉及一种基于机器学习的分析政务数据相关枚举字段判定系统。

背景技术

在现有的《枚举值查询方法、可读存储介质及计算机程序产品》这项发明中提出的枚举值查询方法，该方法是通过：创建枚举字典表；在数据库的各表中搜索注释字段；响应于搜索到一注释字段，从该注释字段中搜索枚举值注释标志符，若搜索到，则确定该注释字段为枚举值注释字段；从所述枚举值注释字段中提取枚举值及所述枚举值代表的业务含义；从所述枚举值注释字段所在的表中提取所述枚举值注释字段对应的枚举字段；将所述枚举字段、所述枚举值及所述枚举值代表的业务含义作为所述枚举字典表中的枚举字典表项进行保存。该发明的原理是通过创建枚举字典表，对枚举字典表进行查询的方式来输出枚举值的查询方法。对枚举字典表的更新和填充都是通过人工梳理的方式进行判断，增加了人工维护的成本，同时对于新增的枚举值判断，也同样需要通过人工增加枚举值的字典数据，如果字段的名称发生修改，字典表未能同步进行修改的情况下，会无法查询到相关的枚举值数据。

发明内容

本发明就是针对上述问题，提供一种基于机器学习的分析政务数据相关枚举字段判定系统。

为实现上述目的，本发明采用如下技术方案，本发明包括数据表清单模块、字段梳理模块、机器学习模块、模型字典模块和枚举值字段判定模块，其特征在于：

所述数据表清单模块利用政务大数据编制政务数据表清单；

所述字段梳理模块根据维度对每个表的字段进行排序，标记每个字段是否为枚举值字段，并编制政务数据字段维度清单；

所述机器学习模块使用监督学习和回归模型对编制的政务数据字段维度清单进行机器学习，生成数据算法模型；

所述模型字典模块构建模型字典表并创建字段判定体系；

所述枚举值字段判定模块使用所述数据算法模型和模型字典表来判断数据表中的字段是否为枚举值字段；如果是，则将信息存储到模型字典表中并输出；如果否，则将该数据表排除，进行下一次枚举字段判断；判断结果，用户将继续验证结果的准确性，模型将根据判断结果执行迭代升级和模型字典表的调整。

作为一种优选方案，本发明所述字段梳理模块中的维度包括重复值数量、字段名称和在相似字段中出现的频率。

作为另一种优选方案，本发明所述机器学习模块中数据的预处理包括离群点删除、标签正态化分布于处理、对离散化特征进行数值化编码、独热编码和划分训练集测试集，并使用主成分分析对维度清单降维，找到主要的特征进行进一步分析。

作为另一种优选方案，本发明所述机器学习模块中数据的建立模型包括由套索回归、弹性回归、岭回归和梯度提升回归组合成的堆叠模型，利用评估模型的函数计算均方差误差，对堆叠模型进行训练和评价，得到政务数据为二分类的模型。

其次，本发明所述套索回归和岭回归为正则化的方法公式如下：

弹性回归算法的代价函数结合套索回归和岭回归的正则化方法，通过两个参数λ和ρ来控制惩罚项的大小；

同样是求使得代价函数最小时w的大小：

梯度提升回归串行地生成多个弱学习器，每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度，使加上该弱学习器后的累积模型损失往负梯度的方向减少。

另外，本发明所述模型字典模块将输入的数据换成对应的结构化数值；基于训练好的回归系数对结构化数值进行分类计算，判断其属于哪个类别；最后基于分类结构进行进一步数据处理任务。

本发明有益效果。

本发明将政务大数据和机器学习算法相结合，对相关枚举字段信息进行整理，实现了自动分类和数据储备，从而提高了数据处理的效率和准确性。

本发明用机器学习训练出来的模型，代替人工对数据表内的字段进行自动分类，同时保存枚举字段内的各个字段值，自动添加至模型字典表中，进一步增强识别的能力。用户也能在前端对枚举字段进行判断调整，模型会对调整记录进行二次学习，提高识别的准确性。自动校验和人工校验相结合的方式，能较好的减少人工投入的时间，在某些固定表中能完全取消人工校验。

本发明可以在动态、复杂的数据环境中处理各种数据字段信息，并通过不断迭代的方式，对政务数据相关的业务信息能不断加深学习。

具体实施方式

步骤1)结合政务大数据，整理政务数据表清单；

步骤2)结合每张表的数据字典进行字段梳理，整理出字段的各个维度，例如：重复值数量、字段名称、在所有相同字段中出现频率，同时对各个字段进行标记，是否为枚举值字段，整理成政务数据字段维度清单；

通过机器学习、监督学习，对整理出来的政务数据字段维度清单进行机器学习，生成数据算法模型。首先是数据的预处理包括离群点删除、标签正态化分布于处理、对离散化特征进行数值化编码、独热编码和划分训练集测试集并使用主成分分析(PCA)对维度清单降维，找到主要的特征进行进一步分析。其次建立模型，包括套索回归(Lasso)、弹性回归(ElasticNet)、岭回归(RidgeRegression)和梯度提升回归(GradientBoostingRegression)组合成了堆叠模型。最后利用评估模型的函数计算均方差误差，对堆叠模型进行训练和评价就得到了可用的政务数据为二分类的模型。

其中Lasso和岭回归都是正则化的方法公式如下：

其中，y代表学习关系，β表示不同变量，x表示预测因子，λ为收缩因子。

弹性网络回归算法的代价函数结合了Lasso回归和岭回归的正则化方法，通过两个参数λ和ρ来控制惩罚项的大小。

同样是求使得代价函数最小时w的大小：

其中，y是标签(即待预测的变量)，x是输入的特征矩阵，w是待求的权重，λρ和是L1和L2的惩罚因子，||w||₁和/>分别是L1和L2的范数(即模长)。L1范数用于产生稀疏权重，即使得一些特征的权重为零，L2范数用于产生平滑的权重，使得每个特征的权重都很小。

Gradient Boosting的基本思想是：串行地生成多个弱学习器，每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度，使加上该弱学习器后的累积模型损失往负梯度的方向减少。

步骤3)搭建字段判定系统，创建模型字典表。首先对于输入的数据需要将其换成对应的结构化数值；其次基于训练好的回归系数就对这些数值进行分类计算，判断其属于哪个类别；最后基于分类结构就可以进行进一步数据处理任务。

步骤4)在字段判定系统中，通过数据算法模型和模型字典表，对数据表中的字段进行枚举值字段判定，判定为枚举字段的信息，存储到模型字典表中，并输出结果；

步骤5)同时用户能继续判定结果准确性，模型依据判定结果，再次进行机器学习，对数据算法模型进行迭代升级，同时调整模型字典表。

其中，我们将决策树算法运用在判断枚举值数据模型的训练上，决策树算法是一种基于树形结构的分类算法，将数据集分成多个小的决策区域，并为每个区域分配一个类别标签。在本发明中，决策树算法将数据集分成两个区域，每个区域分别对应于枚举字段和非枚举字段。决策树算法可以被其他二分类监督学习机器算法替换。

本发明将政务数据的各个维度，可通过datax、dataq工具，将元仓内的数据获取出来，通过数据分析的方式，梳理出字段名称、字段类型、是否为分区字段、创建时间、最后访问时间、数据量、去重数据量、数据范围、更新时间特征值，在本地按照决策树训练模型进行训练，输出训练结果，并将训练结果和推理模型部署在一台4C16G的云服务器上，通过平台上传入的字段及其特征值，进行枚举值字段判定的推理，输出结果。同时将训练模型也部署在同一台云服务器上，可每15天使用累加最新数据的历史判断数据，对枚举值字段判定模型进行训练，不断更新，让模型推理结果更加完善。

可以理解的是，以上关于本发明的具体描述，仅用于说明本发明而并非受限于本发明实施例所描述的技术方案，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换，以达到相同的技术效果；只要满足使用需要，都在本发明的保护范围之内。

Claims

1.一种基于机器学习的分析政务数据相关枚举字段判定系统，包括数据表清单模块、字段梳理模块、机器学习模块、模型字典模块和枚举值字段判定模块，其特征在于：

所述数据表清单模块利用政务大数据编制政务数据表清单；

所述模型字典模块构建模型字典表并创建字段判定系统，首先对于输入的数据需要将其换成对应的结构化数值；其次基于训练好的回归系数就对这些数值进行分类计算，判断其属于哪个类别；最后基于分类结构进行进一步数据处理任务；在字段判定系统中，通过数据算法模型和模型字典表，对数据表中的字段进行枚举值字段判定，判定为枚举字段的信息，存储到模型字典表中，并输出结果；

所述枚举值字段判定模块使用所述数据算法模型和模型字典表来判断数据表中的字段是否为枚举值字段；如果是，则将信息存储到模型字典表中并输出；如果否，则将该数据表排除，进行下一次枚举字段判断；判断结果，用户将继续验证结果的准确性，模型将根据判断结果执行迭代升级和模型字典表的调整；

所述机器学习模块中数据的预处理包括离群点删除、标签正态化分布于处理、对离散化特征进行数值化编码、独热编码和划分训练集测试集，并使用主成分分析对维度清单降维，找到主要的特征进行进一步分析；

所述机器学习模块中数据的建立模型包括由套索回归、弹性回归、岭回归和梯度提升回归组合成的堆叠模型，利用评估模型的函数计算均方差误差，对堆叠模型进行训练和评价，得到政务数据为二分类的模型。

2.根据权利要求1所述一种基于机器学习的分析政务数据相关枚举字段判定系统，其特征在于所述字段梳理模块中的维度包括重复值数量、字段名称和在相似字段中出现的频率。

3.根据权利要求1所述一种基于机器学习的分析政务数据相关枚举字段判定系统，其特征在于所述套索回归和岭回归为正则化的方法公式如下：

其中，代表学习关系，/>表示不同变量，/>表示预测因子，/>为收缩因子；

弹性回归算法的代价函数结合套索回归和岭回归的正则化方法，通过两个参数和来控制惩罚项的大小；

，

同样是求使得代价函数最小时的大小：

；

其中，是标签，/>是输入的特征矩阵，/>是待求的权重，/>和/>是L1和L2的惩罚因子，/>和/>分别是L1和L2的范数；L1范数用于产生稀疏权重，即使得一些特征的权重为零，L2范数用于产生平滑的权重，使得每个特征的权重都很小；

4.根据权利要求1所述一种基于机器学习的分析政务数据相关枚举字段判定系统，其特征在于所述模型字典模块将输入的数据换成对应的结构化数值；基于训练好的回归系数对结构化数值进行分类计算，判断其属于哪个类别；最后基于分类结构进行进一步数据处理任务。