CN116975055B - 一种基于机器学习的分析政务数据相关枚举字段判定系统 - Google Patents

一种基于机器学习的分析政务数据相关枚举字段判定系统 Download PDF

Info

Publication number
CN116975055B
CN116975055B CN202310779199.1A CN202310779199A CN116975055B CN 116975055 B CN116975055 B CN 116975055B CN 202310779199 A CN202310779199 A CN 202310779199A CN 116975055 B CN116975055 B CN 116975055B
Authority
CN
China
Prior art keywords
data
field
model
module
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310779199.1A
Other languages
English (en)
Other versions
CN116975055A (zh
Inventor
李晓儿
胡承启
卫学彬
余镭
胡光瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Ningbo Technology Co ltd
Original Assignee
Digital Ningbo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Ningbo Technology Co ltd filed Critical Digital Ningbo Technology Co ltd
Priority to CN202310779199.1A priority Critical patent/CN116975055B/zh
Publication of CN116975055A publication Critical patent/CN116975055A/zh
Application granted granted Critical
Publication of CN116975055B publication Critical patent/CN116975055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于机器学习的分析政务数据相关枚举字段判定系统属于计算机系统技术领域,尤其涉及一种基于机器学习的分析政务数据相关枚举字段判定系统。本发明提供一种基于机器学习的分析政务数据相关枚举字段判定系统。本发明包括数据表清单模块、字段梳理模块、机器学习模块、模型字典模块和枚举值字段判定模块,其特征在于:所述数据表清单模块利用政务大数据编制政务数据表清单;所述字段梳理模块根据维度对每个表的字段进行排序,标记每个字段是否为枚举值字段,并编制政务数据字段维度清单;所述机器学习模块使用监督学习和回归模型对编制的政务数据字段维度清单进行机器学习,生成数据算法模型。

Description

一种基于机器学习的分析政务数据相关枚举字段判定系统
技术领域
本发明属于计算机系统技术领域,尤其涉及一种基于机器学习的分析政务数据相关枚举字段判定系统。
背景技术
在现有的《枚举值查询方法、可读存储介质及计算机程序产品》这项发明中提出的枚举值查询方法,该方法是通过:创建枚举字典表;在数据库的各表中搜索注释字段;响应于搜索到一注释字段,从该注释字段中搜索枚举值注释标志符,若搜索到,则确定该注释字段为枚举值注释字段;从所述枚举值注释字段中提取枚举值及所述枚举值代表的业务含义;从所述枚举值注释字段所在的表中提取所述枚举值注释字段对应的枚举字段;将所述枚举字段、所述枚举值及所述枚举值代表的业务含义作为所述枚举字典表中的枚举字典表项进行保存。该发明的原理是通过创建枚举字典表,对枚举字典表进行查询的方式来输出枚举值的查询方法。对枚举字典表的更新和填充都是通过人工梳理的方式进行判断,增加了人工维护的成本,同时对于新增的枚举值判断,也同样需要通过人工增加枚举值的字典数据,如果字段的名称发生修改,字典表未能同步进行修改的情况下,会无法查询到相关的枚举值数据。
发明内容
本发明就是针对上述问题,提供一种基于机器学习的分析政务数据相关枚举字段判定系统。
为实现上述目的,本发明采用如下技术方案,本发明包括数据表清单模块、字段梳理模块、机器学习模块、模型字典模块和枚举值字段判定模块,其特征在于:
所述数据表清单模块利用政务大数据编制政务数据表清单;
所述字段梳理模块根据维度对每个表的字段进行排序,标记每个字段是否为枚举值字段,并编制政务数据字段维度清单;
所述机器学习模块使用监督学习和回归模型对编制的政务数据字段维度清单进行机器学习,生成数据算法模型;
所述模型字典模块构建模型字典表并创建字段判定体系;
所述枚举值字段判定模块使用所述数据算法模型和模型字典表来判断数据表中的字段是否为枚举值字段;如果是,则将信息存储到模型字典表中并输出;如果否,则将该数据表排除,进行下一次枚举字段判断;判断结果,用户将继续验证结果的准确性,模型将根据判断结果执行迭代升级和模型字典表的调整。
作为一种优选方案,本发明所述字段梳理模块中的维度包括重复值数量、字段名称和在相似字段中出现的频率。
作为另一种优选方案,本发明所述机器学习模块中数据的预处理包括离群点删除、标签正态化分布于处理、对离散化特征进行数值化编码、独热编码和划分训练集测试集,并使用主成分分析对维度清单降维,找到主要的特征进行进一步分析。
作为另一种优选方案,本发明所述机器学习模块中数据的建立模型包括由套索回归、弹性回归、岭回归和梯度提升回归组合成的堆叠模型,利用评估模型的函数计算均方差误差,对堆叠模型进行训练和评价,得到政务数据为二分类的模型。
其次,本发明所述套索回归和岭回归为正则化的方法公式如下:
弹性回归算法的代价函数结合套索回归和岭回归的正则化方法,通过两个参数λ和ρ来控制惩罚项的大小;
同样是求使得代价函数最小时w的大小:
梯度提升回归串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度,使加上该弱学习器后的累积模型损失往负梯度的方向减少。
另外,本发明所述模型字典模块将输入的数据换成对应的结构化数值;基于训练好的回归系数对结构化数值进行分类计算,判断其属于哪个类别;最后基于分类结构进行进一步数据处理任务。
本发明有益效果。
本发明将政务大数据和机器学习算法相结合,对相关枚举字段信息进行整理,实现了自动分类和数据储备,从而提高了数据处理的效率和准确性。
本发明用机器学习训练出来的模型,代替人工对数据表内的字段进行自动分类,同时保存枚举字段内的各个字段值,自动添加至模型字典表中,进一步增强识别的能力。用户也能在前端对枚举字段进行判断调整,模型会对调整记录进行二次学习,提高识别的准确性。自动校验和人工校验相结合的方式,能较好的减少人工投入的时间,在某些固定表中能完全取消人工校验。
本发明可以在动态、复杂的数据环境中处理各种数据字段信息,并通过不断迭代的方式,对政务数据相关的业务信息能不断加深学习。
具体实施方式
步骤1)结合政务大数据,整理政务数据表清单;
步骤2)结合每张表的数据字典进行字段梳理,整理出字段的各个维度,例如:重复值数量、字段名称、在所有相同字段中出现频率,同时对各个字段进行标记,是否为枚举值字段,整理成政务数据字段维度清单;
通过机器学习、监督学习,对整理出来的政务数据字段维度清单进行机器学习,生成数据算法模型。首先是数据的预处理包括离群点删除、标签正态化分布于处理、对离散化特征进行数值化编码、独热编码和划分训练集测试集并使用主成分分析(PCA)对维度清单降维,找到主要的特征进行进一步分析。其次建立模型,包括套索回归(Lasso)、弹性回归(ElasticNet)、岭回归(RidgeRegression)和梯度提升回归(GradientBoostingRegression)组合成了堆叠模型。最后利用评估模型的函数计算均方差误差,对堆叠模型进行训练和评价就得到了可用的政务数据为二分类的模型。
其中Lasso和岭回归都是正则化的方法公式如下:
其中,y代表学习关系,β表示不同变量,x表示预测因子,λ为收缩因子。
弹性网络回归算法的代价函数结合了Lasso回归和岭回归的正则化方法,通过两个参数λ和ρ来控制惩罚项的大小。
同样是求使得代价函数最小时w的大小:
其中,y是标签(即待预测的变量),x是输入的特征矩阵,w是待求的权重,λρ和是L1和L2的惩罚因子,||w||1和/>分别是L1和L2的范数(即模长)。L1范数用于产生稀疏权重,即使得一些特征的权重为零,L2范数用于产生平滑的权重,使得每个特征的权重都很小。
Gradient Boosting的基本思想是:串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度,使加上该弱学习器后的累积模型损失往负梯度的方向减少。
步骤3)搭建字段判定系统,创建模型字典表。首先对于输入的数据需要将其换成对应的结构化数值;其次基于训练好的回归系数就对这些数值进行分类计算,判断其属于哪个类别;最后基于分类结构就可以进行进一步数据处理任务。
步骤4)在字段判定系统中,通过数据算法模型和模型字典表,对数据表中的字段进行枚举值字段判定,判定为枚举字段的信息,存储到模型字典表中,并输出结果;
步骤5)同时用户能继续判定结果准确性,模型依据判定结果,再次进行机器学习,对数据算法模型进行迭代升级,同时调整模型字典表。
其中,我们将决策树算法运用在判断枚举值数据模型的训练上,决策树算法是一种基于树形结构的分类算法,将数据集分成多个小的决策区域,并为每个区域分配一个类别标签。在本发明中,决策树算法将数据集分成两个区域,每个区域分别对应于枚举字段和非枚举字段。决策树算法可以被其他二分类监督学习机器算法替换。
本发明将政务数据的各个维度,可通过datax、dataq工具,将元仓内的数据获取出来,通过数据分析的方式,梳理出字段名称、字段类型、是否为分区字段、创建时间、最后访问时间、数据量、去重数据量、数据范围、更新时间特征值,在本地按照决策树训练模型进行训练,输出训练结果,并将训练结果和推理模型部署在一台4C16G的云服务器上,通过平台上传入的字段及其特征值,进行枚举值字段判定的推理,输出结果。同时将训练模型也部署在同一台云服务器上,可每15天使用累加最新数据的历史判断数据,对枚举值字段判定模型进行训练,不断更新,让模型推理结果更加完善。
可以理解的是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。

Claims (4)

1.一种基于机器学习的分析政务数据相关枚举字段判定系统,包括数据表清单模块、字段梳理模块、机器学习模块、模型字典模块和枚举值字段判定模块,其特征在于:
所述数据表清单模块利用政务大数据编制政务数据表清单;
所述字段梳理模块根据维度对每个表的字段进行排序,标记每个字段是否为枚举值字段,并编制政务数据字段维度清单;
所述机器学习模块使用监督学习和回归模型对编制的政务数据字段维度清单进行机器学习,生成数据算法模型;
所述模型字典模块构建模型字典表并创建字段判定系统,首先对于输入的数据需要将其换成对应的结构化数值;其次基于训练好的回归系数就对这些数值进行分类计算,判断其属于哪个类别;最后基于分类结构进行进一步数据处理任务;在字段判定系统中,通过数据算法模型和模型字典表,对数据表中的字段进行枚举值字段判定,判定为枚举字段的信息,存储到模型字典表中,并输出结果;
所述枚举值字段判定模块使用所述数据算法模型和模型字典表来判断数据表中的字段是否为枚举值字段;如果是,则将信息存储到模型字典表中并输出;如果否,则将该数据表排除,进行下一次枚举字段判断;判断结果,用户将继续验证结果的准确性,模型将根据判断结果执行迭代升级和模型字典表的调整;
所述机器学习模块中数据的预处理包括离群点删除、标签正态化分布于处理、对离散化特征进行数值化编码、独热编码和划分训练集测试集,并使用主成分分析对维度清单降维,找到主要的特征进行进一步分析;
所述机器学习模块中数据的建立模型包括由套索回归、弹性回归、岭回归和梯度提升回归组合成的堆叠模型,利用评估模型的函数计算均方差误差,对堆叠模型进行训练和评价,得到政务数据为二分类的模型。
2.根据权利要求1所述一种基于机器学习的分析政务数据相关枚举字段判定系统,其特征在于所述字段梳理模块中的维度包括重复值数量、字段名称和在相似字段中出现的频率。
3.根据权利要求1所述一种基于机器学习的分析政务数据相关枚举字段判定系统,其特征在于所述套索回归和岭回归为正则化的方法公式如下:
其中,代表学习关系,/>表示不同变量,/>表示预测因子,/>为收缩因子;
弹性回归算法的代价函数结合套索回归和岭回归的正则化方法,通过两个参数 来控制惩罚项的大小;
同样是求使得代价函数最小时的大小:
其中,是标签,/>是输入的特征矩阵,/>是待求的权重,/>和/>是L1和L2的惩罚因子,/>和/>分别是L1和L2的范数;L1范数用于产生稀疏权重,即使得一些特征的权重为零,L2范数用于产生平滑的权重,使得每个特征的权重都很小;
梯度提升回归串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度,使加上该弱学习器后的累积模型损失往负梯度的方向减少。
4.根据权利要求1所述一种基于机器学习的分析政务数据相关枚举字段判定系统,其特征在于所述模型字典模块将输入的数据换成对应的结构化数值;基于训练好的回归系数对结构化数值进行分类计算,判断其属于哪个类别;最后基于分类结构进行进一步数据处理任务。
CN202310779199.1A 2023-06-29 2023-06-29 一种基于机器学习的分析政务数据相关枚举字段判定系统 Active CN116975055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310779199.1A CN116975055B (zh) 2023-06-29 2023-06-29 一种基于机器学习的分析政务数据相关枚举字段判定系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310779199.1A CN116975055B (zh) 2023-06-29 2023-06-29 一种基于机器学习的分析政务数据相关枚举字段判定系统

Publications (2)

Publication Number Publication Date
CN116975055A CN116975055A (zh) 2023-10-31
CN116975055B true CN116975055B (zh) 2024-02-13

Family

ID=88482303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310779199.1A Active CN116975055B (zh) 2023-06-29 2023-06-29 一种基于机器学习的分析政务数据相关枚举字段判定系统

Country Status (1)

Country Link
CN (1) CN116975055B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及系统
US11049603B1 (en) * 2020-12-29 2021-06-29 Kpn Innovations, Llc. System and method for generating a procreant nourishment program
CN113779030A (zh) * 2021-09-13 2021-12-10 北京房江湖科技有限公司 枚举值查询方法、可读存储介质及计算机程序产品
CN114003665A (zh) * 2021-10-20 2022-02-01 珠海金山办公软件有限公司 数据表字段关系识别方法、装置、电子设备及存储介质
CN114065840A (zh) * 2021-10-25 2022-02-18 深圳华中科技大学研究院 一种基于集成学习的机器学习模型调整方法及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220129789A1 (en) * 2020-10-28 2022-04-28 Capital One Services, Llc Code generation for deployment of a machine learning model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及系统
US11049603B1 (en) * 2020-12-29 2021-06-29 Kpn Innovations, Llc. System and method for generating a procreant nourishment program
CN113779030A (zh) * 2021-09-13 2021-12-10 北京房江湖科技有限公司 枚举值查询方法、可读存储介质及计算机程序产品
CN114003665A (zh) * 2021-10-20 2022-02-01 珠海金山办公软件有限公司 数据表字段关系识别方法、装置、电子设备及存储介质
CN114065840A (zh) * 2021-10-25 2022-02-18 深圳华中科技大学研究院 一种基于集成学习的机器学习模型调整方法及设备

Also Published As

Publication number Publication date
CN116975055A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
CN110571792A (zh) 一种电网调控系统运行状态的分析评估方法及系统
Sun et al. Study on the improvement of K-nearest-neighbor algorithm
CN104050242A (zh) 基于最大信息系数的特征选择、分类方法及其装置
CN115423603B (zh) 一种基于机器学习的风控模型建立方法、系统及存储介质
CN112749840B (zh) 一种火电机组能效特征指标基准值的获取方法
CN112801388B (zh) 一种基于非线性时间序列算法的电力负荷预测方法及系统
CN107909221A (zh) 基于组合神经网络的电力系统短期负荷预测方法
CN114118596A (zh) 一种光伏发电量预测方法和装置
CN114021483A (zh) 基于时域特征与XGBoost的超短期风电功率预测方法
CN114817575B (zh) 基于扩展模型的大规模电力事理图谱处理方法
CN116975055B (zh) 一种基于机器学习的分析政务数据相关枚举字段判定系统
CN113918727A (zh) 一种基于知识图谱和迁移学习的施工项目知识转移方法
CN112330246A (zh) 订单汇总方法、装置、计算机设备及存储介质
CN117150898A (zh) 基于参数优化集成学习的输电断面极限传输容量评估方法
CN111428821A (zh) 一种基于决策树的资产分类方法
CN116341929A (zh) 一种基于聚类和自适应梯度提升决策树的预测方法
CN116307111A (zh) 一种基于k均值聚类和随机森林算法的无功负荷预测方法
CN115758462A (zh) 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质
Stage et al. An aggregation algorithm for increasing the efficiency of population models
CN113191569A (zh) 一种基于大数据的企业管理方法及系统
CN113326882A (zh) 一种基于分类和回归算法的模型集成方法、装置
CN114187471A (zh) 一种基于Canopy+FCM聚类的设备故障率模糊分类方法
CN113780347A (zh) 负荷曲线多重聚类集成方法、系统及存储介质
Li et al. The research on the reliability prediction method of distribution system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant