CN113743453A - 一种基于随机森林的人口数量预测方法 - Google Patents

一种基于随机森林的人口数量预测方法 Download PDF

Info

Publication number
CN113743453A
CN113743453A CN202110826722.2A CN202110826722A CN113743453A CN 113743453 A CN113743453 A CN 113743453A CN 202110826722 A CN202110826722 A CN 202110826722A CN 113743453 A CN113743453 A CN 113743453A
Authority
CN
China
Prior art keywords
population
data
index
random forest
year
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110826722.2A
Other languages
English (en)
Inventor
高蓝宇
张宸
代子风
韩松杰
张长胜
张斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202110826722.2A priority Critical patent/CN113743453A/zh
Publication of CN113743453A publication Critical patent/CN113743453A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于随机森林的人口数量预测方法,属于机器学习技术领域。本发明包括人口数据预处理和随机森林模型构建两个模块。所述人口数量预测方法包括:步骤一,填补人口数据中空缺部分;步骤二,提取出影响人口因素的主要特征;步骤三,构建人口预测模型的基学习器;步骤四,组合基学习器,生成随机森林模型,并得出预测结果。本发明对海量人口数据进行特征提取处理,利用随机森林模型预测人口数量,预测效果比单个回归树和线性回归预测精度更高。

Description

一种基于随机森林的人口数量预测方法
技术领域
本发明属于机器学习技术领域,涉及一种基于随机森林的人口数量预测方法。
背景技术
人口数量是地区的发展基础,是社会组成中的重要资源,人口数量多的区域往往是发达地区。根据统计,东北三省的人口数量在逐渐减少,辽宁省尤为突出。因为辽宁省的GDP已经连续3年呈现负增长的态势;人口数量一旦减少将会导致非常严重的经济问题。一个地区的人口数量的变化将对该地区产生巨大的影响,若一个地区的人数慢慢减少,随之该地区的经济、科技、教育、工业都会受其影响,所有的指标都会随之降低,最后对该地区产生所有生活,交通,就业等产生负面的影响。可见准确的预测人口数量对一个地区的发展至关重要。
现有的人口预测方法对人口数据考虑有所欠缺:(1)人口的自然增长率并不是一个定值,随着地区经济的发展进步,医疗和住房等因素的改变,人口自然增长率会随之变化;(2)大多数方法都没有考虑到人口的流动问题;(3)在计算人口的参数时,受环境因素的影响,可能会导致计算结果存在误差,最终得到的人口数量预测结果也就不够准确;(4)同一因素对不同地区的影响程度又有所差异,现有的大多数预测模型不能考虑多类型数据,通用性较差。
决策树可以处理数据型和常规型属性,能考虑更多的影响因素,计算消耗代价比一般的模型小,是进行预测的有效方法。但这种方法在数据指标不平衡的情况下误差比较明显,测试数据上的错误率比较高。随机森林是一种组合分类器技术,由多颗决策树组合而成,相较于决策树等单分类器,具有更好的预测性能。针对人口数据部分指标不平衡的情况,随机森林可以平衡误差,对高维度数据处理效果更好。
发明内容
对于人口数量预测问题,由于传统的预测方法考虑的因素都比较少,人口流动性问题和以往表现的大有不同。本发明提出了一种基于随机森林的人口数量预测方法,该方法有效解决了人口数据处理问题,并通过实验结果证明准确性高。
针对海量指标数据,本发明首先对缺失类型的数据,分别使用了线性回归与拉格朗日插值技术对他们补充;其次,先使用相关系数对指标之间的线性关系进行分析并根据线性关系的程度剔除掉冗余特征,然后使用主成分分析技术,继续在数据中提取所含信息更多的特征。然后使用随机森林的方法对指标数据进行建模预测,人口指标数据中利用自助采样法采取n个样本,再从每一个样本中随机抽取n个特征,分别建立人口预测的单个学习器回归树,发明预测类型为回归,所以该单个学习器为采用均方误差准则的回归树。通过自助采样的方法,可以得到多个基于人口数据的回归预测模型,在将他们统一组合到一起,构成一个回归预测模型,这就是基于人口指标数据所形成的随机森林模型。最后将测试指标输入到随机森林中,会得到多个预测结果,对这些结果做平均值处理,得出最后的人口的预测数值。综上,该过程可以分成人口数据预处理和随机森林模型构建两部分。
本发明的技术方案为:
一种基于随机森林的人口数量预测方法,该方法包括人口数据预处理模块和随机森林模型构建模块。所述人口数据预处理模块,全面地考虑了人口数量影响因素;能有效解决处理人口数据的部分缺失;针对不同地区特点找出该地区的主要影响因素:能够处理绝大多数地区的人口数据。所述随机森口模型构建模块,能根据最优特征生成回归树及随机森林,能更好平衡误差。
所述人口数据预处理模块,实现以下功能:
(1)补充各项指标的缺失数据;
(2)剔除人口数据中的冗余特征;
(3)提取影响人口数量的关键特征。
所述随机森林模型构建模块,实现以下功能:
(1)使用均方差准则,选择训练集数据中最优特征与最优划分点;
(2)根据最优特征与划分点生成回归树;
(3)平均化所有回归树模型的预测结果。
所述的人口数量预测方法,具体包括以下步骤:
步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况。
步骤2:对填补后的人口数据进行冗余特征处理,并使用主成分分析法提取出真正能代表指标的特征。
步骤3:将处理后的人口指标数据集D按照某种比例分成训练集D1与测试集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p。
步骤4:首先,从训练集D1中使用自助采样法获取K个样本;然后从样本中随机选择M个指标特征,基于均方差准则,选择最优特征与最优划分点,根据选择的最优特征与划分点生成2个子树,重复这个操作生成一个回归树,将这棵树加入到随机森林中;最后判断生成的森林中的树的个数是否达到N个,如果没有到达则继续生成,反之停止构建。设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
Figure BDA0003173873650000031
本发明选取房价等侧重于地区经济发展和民生改善等方面的信息;在人口数据中加入人口流动等因素,对数据进行综合考量,提高最终预测的准确率;与单个回归树回归生成的过程中需要根据情况进行剪枝处理不同,随机森林不必对单个回归树进行剪枝操作,预测精度高。
附图说明
图1是本发明的整体算法流程图;
图2是线性回归预测模型填补的算法流程图;
图3是拉格朗日插值模型填补的算法流程图;
图4是随机森林的方法提取影响人口数量关键特征的算法流程图;
图5是辽宁省部分指标生成的回归树结果图;
图6是基学习器组合的算法流程图;
图7是本发明预测辽宁省人口在部分年份的结果图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明。
本发明实施例是在实验室设备基础上进行,采用win10操作系统的电脑i5-6200U与2.24GHz的CPU、8GB内存、256GB硬盘,采用python做为开发语言,使用pandas开源数据处理框架、numpy高速矩阵计算框架、sklearn机器学习组件,使用PyCharm作为实验环境。
本发明所采用的数据集来自国家统计局公布的辽宁省人口宏观指标数据,每一个指标,每个特征在这里都可以看成是对该地区人口数量影响的重要因素。
图1是本发明的整体算法流程图,本发明包括人口数据预处理模块和随机森林模型构建模块两个模块:
所述人口数据预处理模块实现以下功能:
(1)补充各项指标的缺失数据;
(2)剔除人口数据中的冗余特征;
(3)提取影响人口数量的关键特征。
所述随机森林模型构建模块实现以下功能:
(1)基于均方差准则,选择训练集数据中最优特征与最优划分点;
(2)根据最优特征与划分点生成回归树;
(3)平均化所有回归树模型的预测结果。
本发明所述的人口预测方法,具体包括以下步骤:
步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况。详细分步骤如下:
步骤1.1:对单个年份缺失数据,采用线性回归预测模型填补。设人口指标数据集D*中含有完整指标D* a和缺失数据的指标D* b,其缺失的年份为Yb。如图2所示,图中完整指标为D* a,将D* a中除Yb年份以外的数据作为线性回归的自变量,将D* b中Yb年份的数据作为因变量,构建预测模型,预测出D* b中Yb年份的数据填补进空缺当中。
步骤1.2:对于多个年份缺失数据,采用拉格朗日插值填补。对于这类多个年份空值的情况,可以将年份Y看成是插值点的一部分,将年份与其数据看成是平面上的一个点,即(D*,Y)。如图3所示,通过这些平面上的点构建拉格朗日插值函数,缺失数据的年份输入函数中从而预测出数值进行填充。
步骤2:对人口数据冗余特征处理,使用主成分分析技术将真正能代表指标的特征提取出来。详细分步骤如下:
步骤2.1:使用相关性检测方法从指标数据中去处冗余特征。需要计算的是D中2个指标之间的相关性,而年份Y不属于指标范围在内的数据,所以不需要考虑年份这一字段,故将其从原始数据中删除。相关系数大于0.8,两个指标之间存在强的线性关系。对于多个指标间存在强线性关系,只需保留其中相关系数最强的一个指标,得到去处冗余特征的人口指标数据。
步骤2.2:使用主成分分析来对人口指标进行规约,继续降低数据集的特征个数,提高模型准确度。
步骤2.3:使用随机森林的方法提取影响人口数量的关键特征,算法流程如图4所示。抽样得到的辽宁人口指标数据,并且对每一次得到的数据都构建成一棵回归树,而且在生成的每一个结点随机不重复地选择特征。通过比对每个特征在随机森林中的每颗树上的贡献度,来获得每个特征的重要程度。选择占主要贡献度的特征作为预处理结果。
步骤3:构建人口预测模型的基学习器。输入数据,将处理后的人口指标数据集为D按照某种比例分成训练集与D1与测试数据集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p。详细分步骤如下:
步骤3.1:根据输入的每个数值,使用平方误差最小的原则,将误差最小的数据计算出来,选取的人口数量指标中的所有指标,设其中的一个人口指标为Rm,设人口数量为Cm,设Cm的最优值
Figure BDA0003173873650000051
设xi为人口数量指标的全部样本数据,设yi为人口数量,
Figure BDA0003173873650000061
是Rm上的所有输入实例xi对应的输出yi的均值,即:
Figure BDA0003173873650000062
步骤3.2:使用启发式空间基于人口数据指标的变量划分方法,选择第i个变量x(i)和它取的值s,这里的变量可以看作是人口指标数据中的指标,消费指数或能源指数等等,x(i)则为其中某一年份的数据,s作为切分变量和切分点,定义2个部分:
R1(j,s)={x|x(j)≤s}和R2(j,s)={x|x(j)>s}
R1与R2可以看成是将人口数量指标数据切分成的2部分,接下来需要计算数值,寻找最优切分人口数量指标j,以及最优分割点s,求解:
Figure BDA0003173873650000063
对每一个人口数量的指标j遍历,求得最优切分点s:
Figure BDA0003173873650000064
Figure BDA0003173873650000065
步骤3.3:通过计算形成一对(j,s),依次将数据空间划分为2个部分,对于每个部分,都是新执行一次前面的计算,生成一颗回归树。如图5所示,图中的叶子节点为预测的辽宁人口数量,非叶子为划分的人口数量指标。
步骤4:将基学习器按指定策略组合,算法流程如图6所示。首先,从训练集D1中使用自助采样法获取K个样本;然后从样本中随机选择M个指标特征,基于均方差准则,选择最优特征与最优划分点,根据选择的最优特征与划分点生成2个子树,重复这个操作生成一个回归树,将这棵树加入到随机森林中;最后判断生成的森林中的树的个数是否达到N个,如果没有到达则继续生成,反之停止构建。详细分步骤如下:
步骤4.1,使用自助采样法从人口指标数据中有放回的均匀抽取人口样本。假设当前人口指标数据中有m条记录,对人口指标数据样本为数据集D进行m次“有放回的”随机采样,这样得到了大小为m的新数据集D′。可以肯定的是,在经过反复的采样后相同的指标数据一定会重新选中,每一轮采样中,对于人口指标数据x,被采样抽到的概率为1/m,因此,在对人口指标数据D进行了m轮抽样后,某些人口指标仍未被抽取到的概率为:
Figure BDA0003173873650000071
步骤4.2,从人口数量指标数据集中取k个训练子集,然后使用人口指标数据的回归树构建方法,在k个训练子集上分别构建回归树模型。
步骤4.3,利用随机森林对人口数量进行预测时,只需要计算k棵回归树的人口预测结果,然后所有的预测出来的人口数量做平均化处理。设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
Figure BDA0003173873650000072
图7给出了本方法预测辽宁省人口在部分年份的结果。
综上所述,本发明提出了一种基于随机森林的人口数量预测方法,并将这种方法应用到辽宁省人口预测中。
表1模型均方误差
RMSE
随机森林 84.206
线性回归 100.136
由表1可以看出,使用RMSE评价指标对模型进行评估,随机森林的准确度是优于线性回归的。本发明的基于随机森林人口预测方法适合大部分地区的人口数据,预测结果准确度更高。

Claims (7)

1.一种基于随机森林的人口数量预测方法,其特征在于,包括以下步骤:
步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况;
步骤2:对填补后的人口数据进行冗余特征处理,并使用主成分分析法提取出真正能代表指标的特征;
步骤3:将处理后的人口指标数据集D按照某种比例分成训练集D1与测试集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p;
步骤4:首先,从训练集D1中使用自助采样法获取K个样本;然后从样本中随机选择M个指标特征,基于均方差准则,选择最优特征与最优划分点,根据选择的最优特征与划分点生成2个子树,重复这个操作生成一个回归树,将这棵树加入到随机森林中;最后判断生成的森林中的树的个数是否达到N个,如果没有到达则继续生成,反之停止构建;设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
Figure FDA0003173873640000011
2.根据权利要求1所述的方法,其特征在于,所述步骤1的具体过程为:
步骤1.1:对单个年份缺失数据,采用线性回归预测模型填补;设人口指标数据集D*中含有完整指标D* a和缺失数据的指标D* b,其缺失的年份为Yb;将D* a中除Yb年份以外的数据作为线性回归的自变量,将D* b中Yb年份的数据作为因变量,构建预测模型,预测出D* b中Yb年份的数据填补进空缺当中;
步骤1.2:对于多个年份缺失数据,采用拉格朗日插值填补;对于这类多个年份空值的情况,将年份Y看成是插值点的一部分,将年份与其数据看成是平面上的一个点,即(D*,Y);通过这些平面上的点构建拉格朗日插值函数,缺失数据的年份输入函数中从而预测出数值进行填充。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤2的具体过程为:
步骤2.1:使用相关性检测方法从指标数据中去处冗余特征;需要计算的是D中2个指标之间的相关性,而年份Y不属于指标范围在内的数据,所以不需要考虑年份这一字段,故将其从原始数据中删除;相关系数大于0.8,两个指标之间存在强的线性关系;对于多个指标间存在强线性关系,只需保留其中相关系数最强的一个指标,得到去处冗余特征的人口指标数据;
步骤2.2:使用主成分分析来对人口指标进行规约,继续降低数据集的特征个数,提高模型准确度;
步骤2.3:使用随机森林的方法提取影响人口数量的关键特征;抽样得到的辽宁人口指标数据,并且对每一次得到的数据都构建成一棵回归树,而且在生成的每一个结点随机不重复地选择特征;通过比对每个特征在随机森林中的每颗树上的贡献度,来获得每个特征的重要程度;选择占主要贡献度的特征作为预处理结果。
4.根据权利要求1或2所述的方法,其特征在于,所述步骤3的具体过程为:
步骤3.1:根据输入的每个数值,使用平方误差最小的原则,将误差最小的数据计算出来,选取的人口数量指标中的所有指标,设其中的一个人口指标为Rm,设人口数量为Cm,设Cm的最优值
Figure FDA0003173873640000021
设xi为人口数量指标的全部样本数据,设yi为人口数量,
Figure FDA0003173873640000022
是Rm上的所有输入实例xi对应的输出yi的均值,即
Figure FDA0003173873640000023
步骤3.2:使用启发式空间基于人口数据指标的变量划分方法,选择第i个变量x(i)和它取的值s,变量看作是人口指标数据中的指标,消费指数或能源指数等等,x(i)则为其中某一年份的数据,s作为切分变量和切分点,定义2个部分:R1(j,s)={x|x(j)≤s}和R2(j,s)={x|x(j)>s}
其中,R1与R2看成是将人口数量指标数据切分成的2部分,接下来需要计算数值,寻找最优切分人口数量指标j,以及最优分割点s,求解:
Figure FDA0003173873640000031
对每一个人口数量的指标j遍历,求得最优切分点s:
Figure FDA0003173873640000032
Figure FDA0003173873640000033
步骤3.3:通过计算形成一对(j,s),依次将数据空间划分为2个部分,对于每个部分,都是新执行一次前面的计算,生成一颗回归树。
5.根据权利要求3所述的方法,其特征在于,所述步骤3的具体过程为:
步骤3.1:根据输入的每个数值,使用平方误差最小的原则,将误差最小的数据计算出来,选取的人口数量指标中的所有指标,设其中的一个人口指标为Rm,设人口数量为Cm,设Cm的最优值
Figure FDA0003173873640000034
设xi为人口数量指标的全部样本数据,设yi为人口数量,
Figure FDA0003173873640000035
是Rm上的所有输入实例xi对应的输出yi的均值,即
Figure FDA0003173873640000036
步骤3.2:使用启发式空间基于人口数据指标的变量划分方法,选择第i个变量x(i)和它取的值s,变量看作是人口指标数据中的指标,消费指数或能源指数等等,x(i)则为其中某一年份的数据,s作为切分变量和切分点,定义2个部分:R1(j,s)={x|x(j)≤s}和R2(j,s)={x|x(j)>s}
其中,R1与R2看成是将人口数量指标数据切分成的2部分,接下来需要计算数值,寻找最优切分人口数量指标j,以及最优分割点s,求解:
Figure FDA0003173873640000037
对每一个人口数量的指标j遍历,求得最优切分点s:
Figure FDA0003173873640000038
Figure FDA0003173873640000039
步骤3.3:通过计算形成一对(j,s),依次将数据空间划分为2个部分,对于每个部分,都是新执行一次前面的计算,生成一颗回归树。
6.根据权利要求1、2或5所述的方法,其特征在于,所述步骤4的具体过程为:
步骤4.1,使用自助采样法从人口指标数据中有放回的均匀抽取人口样本;假设当前人口指标数据中有m条记录,对人口指标数据样本为数据集D进行m次“有放回的”随机采样,得到了大小为m的新数据集D′;经过反复的采样后相同的指标数据一定会重新选中,每一轮采样中,对于人口指标数据x,被采样抽到的概率为1/m,在对人口指标数据D进行了m轮抽样后,某些人口指标仍未被抽取到的概率为:
Figure FDA0003173873640000041
步骤4.2,从人口数量指标数据集中取k个训练子集,然后使用人口指标数据的回归树构建方法,在k个训练子集上分别构建回归树模型;
步骤4.3,利用随机森林对人口数量进行预测时,只需要计算k棵回归树的人口预测结果,然后所有的预测出来的人口数量做平均化处理;设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
Figure FDA0003173873640000042
7.根据权利要求3所述的方法,其特征在于,所述步骤4的具体过程为:
步骤4.1,使用自助采样法从人口指标数据中有放回的均匀抽取人口样本;假设当前人口指标数据中有m条记录,对人口指标数据样本为数据集D进行m次“有放回的”随机采样,得到了大小为m的新数据集D′;经过反复的采样后相同的指标数据一定会重新选中,每一轮采样中,对于人口指标数据x,被采样抽到的概率为1/m,在对人口指标数据D进行了m轮抽样后,某些人口指标仍未被抽取到的概率为:
Figure FDA0003173873640000043
步骤4.2,从人口数量指标数据集中取k个训练子集,然后使用人口指标数据的回归树构建方法,在k个训练子集上分别构建回归树模型;
步骤4.3,利用随机森林对人口数量进行预测时,只需要计算k棵回归树的人口预测结果,然后所有的预测出来的人口数量做平均化处理;设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
Figure FDA0003173873640000051
CN202110826722.2A 2021-07-21 2021-07-21 一种基于随机森林的人口数量预测方法 Pending CN113743453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110826722.2A CN113743453A (zh) 2021-07-21 2021-07-21 一种基于随机森林的人口数量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110826722.2A CN113743453A (zh) 2021-07-21 2021-07-21 一种基于随机森林的人口数量预测方法

Publications (1)

Publication Number Publication Date
CN113743453A true CN113743453A (zh) 2021-12-03

Family

ID=78728815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110826722.2A Pending CN113743453A (zh) 2021-07-21 2021-07-21 一种基于随机森林的人口数量预测方法

Country Status (1)

Country Link
CN (1) CN113743453A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112859A (zh) * 2023-06-16 2023-11-24 中国联合网络通信有限公司深圳市分公司 人口移动演化的显示方法、装置及计算机可读存储介质
CN117150389A (zh) * 2023-07-14 2023-12-01 广州易尊网络科技股份有限公司 模型训练方法、运营商号卡激活预测方法及其设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112859A (zh) * 2023-06-16 2023-11-24 中国联合网络通信有限公司深圳市分公司 人口移动演化的显示方法、装置及计算机可读存储介质
CN117112859B (zh) * 2023-06-16 2024-05-14 中国联合网络通信有限公司深圳市分公司 人口移动演化的显示方法、装置及计算机可读存储介质
CN117150389A (zh) * 2023-07-14 2023-12-01 广州易尊网络科技股份有限公司 模型训练方法、运营商号卡激活预测方法及其设备
CN117150389B (zh) * 2023-07-14 2024-04-12 广州易尊网络科技股份有限公司 模型训练方法、运营商号卡激活预测方法及其设备

Similar Documents

Publication Publication Date Title
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
US10467547B1 (en) Normalizing text attributes for machine learning models
CN109214004B (zh) 基于机器学习的大数据处理方法
CN109388565B (zh) 基于生成式对抗网络的软件系统性能优化方法
CN105335752A (zh) 一种基于主成分分析多变量决策树的接线方式识别方法
CN110674636B (zh) 一种用电行为分析方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
CN109241298A (zh) 语义数据存储调度方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN106599610A (zh) 预测长链非编码rna和蛋白质联系的方法及系统
Yi-bin et al. Improvement of ID3 algorithm based on simplified information entropy and coordination degree
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN112819246A (zh) 基于布谷鸟算法优化神经网络的能源需求预测方法
CN113516189B (zh) 基于两阶段随机森林算法的网站恶意用户预测方法
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN115630732A (zh) 一种面向城市运营的企业迁移大数据监测预警方法及装置
CN115033591A (zh) 一种电费数据异常智能检测方法、系统、存储介质及计算机设备
CN111680572B (zh) 一种电网运行场景动态判定方法及系统
Sudjianto et al. Single-index model tree
CN113792749A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
Liu et al. Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining
CN113254428A (zh) 一种基于决策树的缺失数据填充方法及系统
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法
CN117171678B (zh) 一种微生物修复过程中土壤微生物菌群调控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination