CN112348226A - 预测数据生成方法、系统、计算机设备及存储介质 - Google Patents
预测数据生成方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112348226A CN112348226A CN202011030789.7A CN202011030789A CN112348226A CN 112348226 A CN112348226 A CN 112348226A CN 202011030789 A CN202011030789 A CN 202011030789A CN 112348226 A CN112348226 A CN 112348226A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- model
- evaluation index
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本方案涉及一种预测数据生成方法。所述方法包括:获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据;根据处理后的历史数据构建特征图,并根据特征图获取特征数据;将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集;将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;根据模型评估指标确定预警模型;将特征数据输入至预警模型中,生成用户的预测数据。通过特征图提取处理后的历史数据中特征数据,将特征数据为新的特征输入决策树分类器,可以提高预测精度,针对生成的用户的预测数据提前进行干预。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种预测数据生成方法、系统、计算机设备及存储介质。
背景技术
随着社会的发展,如何提高一些经济状况较落后的用户的经济水平不仅需要立足当下,通过开展用户跟踪监测,更需要放眼未来,构建稳定的长效机制、完善用户动态监测机制。用户经济状况落后的原因主要是没有建立稳定的长效机制,靠政策补贴、靠发钱发物改善经济状况的人口对政策依赖性很大。其次,自然生态环境恶劣,一些地区生态环境非常脆弱,自然灾害频发,且多以农业生产为主,低收入人群抵御自然灾害能力较弱,容易导致经济状况落后。
因此,如何对经济状况落后的用户进行预测,并及时采取相应措施显得尤其重要。
发明内容
基于此,为了解决上述技术问题,提供一种预测数据生成方法、系统、计算机设备和存储介质,可以提高对经济状况落后的用户数据预测。
一种预测数据生成方法,所述方法包括:
获取用户的历史数据,并对所述历史数据进行数据预处理,得到处理后的历史数据;
根据所述处理后的历史数据构建特征图,并根据所述特征图获取特征数据;
将所述特征数据与所述历史数据合并为目标数据集,并将所述目标数据集划分为训练数据集和测试数据集;
将所述训练数据集和所述测试数据集输入至决策树分类器,并对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标;根据所述模型评估指标确定预警模型;
将所述特征数据输入至所述预警模型中,生成所述用户的预测数据。
在其中一个实施例中,所述根据所述特征图获取特征数据,包括:
提取所述特征图的拓扑结构,所述拓扑结构包括节点度、节点强度、聚类系数;
根据所述拓扑结构获取所述特征数据。
在其中一个实施例中,在所述将所述目标数据集划分为训练数据集和测试数据集之前,所述方法还包括:
对所述训练数据集和所述测试数据集进行标准化处理,得到处理后的标准化参数。
在其中一个实施例中,所述对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标,包括:
对所述训练数据集和所述测试数据集进行迭代计算,得到各个预测准确率;
计算各个所述预测准确率的均值,并将所述预测准确率的均值作为所述模型评估指标。
在其中一个实施例中,所述将所述预测准确率的均值作为所述模型评估指标,包括:
对所述预测准确率的精度进行评估,并将所述预测准确率的均值作为所述模型评估指标。
在其中一个实施例中,所述根据所述模型评估指标确定预警模型,包括:
获取各个模型的预测准确率的精度;
根据各个所述模型的预测准确率的精度以及所述模型评估指标,从各个所述模型中确定预警模型。
一种预测数据生成系统,所述系统包括:
数据处理模块,获取用户的历史数据,并对所述历史数据进行数据预处理,得到处理后的历史数据;
数据获取模块,用于根据所述处理后的历史数据构建特征图,并根据所述特征图获取特征数据;
数据集处理模块,用于将所述特征数据与所述历史数据合并为目标数据集,并将所述目标数据集划分为训练数据集和测试数据集;
模型确定模块,用于将所述训练数据集和所述测试数据集输入至决策树分类器,并对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标;根据所述模型评估指标确定预警模型;
预测数据生成模块,用于将所述特征数据输入至所述预警模型中,生成所述用户的预测数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户的历史数据,并对所述历史数据进行数据预处理,得到处理后的历史数据;
根据所述处理后的历史数据构建特征图,并根据所述特征图获取特征数据;
将所述特征数据与所述历史数据合并为目标数据集,并将所述目标数据集划分为训练数据集和测试数据集;
将所述训练数据集和所述测试数据集输入至决策树分类器,并对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标;根据所述模型评估指标确定预警模型;
将所述特征数据输入至所述预警模型中,生成所述用户的预测数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用户的历史数据,并对所述历史数据进行数据预处理,得到处理后的历史数据;
根据所述处理后的历史数据构建特征图,并根据所述特征图获取特征数据;
将所述特征数据与所述历史数据合并为目标数据集,并将所述目标数据集划分为训练数据集和测试数据集;
将所述训练数据集和所述测试数据集输入至决策树分类器,并对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标;根据所述模型评估指标确定预警模型;
将所述特征数据输入至所述预警模型中,生成所述用户的预测数据。
上述预测数据生成方法、系统、计算机设备和存储介质,通过获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据;根据处理后的历史数据构建特征图,并根据特征图获取特征数据;将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集;将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;根据模型评估指标确定预警模型;将特征数据输入至预警模型中,生成用户的预测数据。通过特征图提取处理后的历史数据中特征数据,将特征数据为新的特征输入决策树分类器,可以提高预测精度,针对生成的用户的预测数据提前进行干预。
附图说明
图1为一个实施例中预测数据生成方法的应用环境图;
图2为一个实施例中预测数据生成方法的流程示意图;
图3为一个实施例中计算预测准确率的均值的示意图;
图4为一个实施例中交叉验证结果对比图;
图5为另一个实施例中预测数据生成方法的流程示意图;
图6为一个实施例中预测数据生成系统的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的预测数据生成方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据;计算机设备110可以根据处理后的历史数据构建特征图,并根据特征图获取特征数据;计算机设备110可以将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集;计算机设备110可以将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;计算机设备110可以根据模型评估指标确定预警模型;将特征数据输入至预警模型中,生成用户的预测数据。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。
在一个实施例中,如图2所示,提供了一种预测数据生成方法,包括以下步骤:
步骤202,获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据。
其中,用户的历史数据可以根据各个用户的收入情况划分为三类:高风险户、中风险户和低风险户。具体的,高风险户可以用于表示经济状况落后程度较高的用户,低风险户可以用于表示经济状况落后程度较低的用户,中风险户可以用于表示经济状况落后程度介于高风险和低风险之间的用户。用户的历史数据可以包括用户的住房面积、平均年龄、健康人数、种植面积、是否超过半数成员具备劳动能力等数据,部分数据如下表所示:
在本实施例中,计算机设备获取到用户上传的用户的历史数据后,可以对用户的历史数据进行数据预处理。具体的,数据预处理可以包括两方面,一是缺失数据填补;二是特征信息变换。其中,缺失数据填补可以将连续型随机变量“住房面积”中的缺失值填补成样本均值127,分类型随机变量“是否超半数成员具备劳动能力”中的缺失值填补成频次最高的分类“是”;特征信息变换可以将“是否超半数成员具备劳动能力”变量中的“是”与“否”转化为1与0,风险等级中的“高风险”、“中风险”及“低风险”分别转化为2、1、0。计算机设备可以通过对用户的历史数据进行数据预处理,得到处理后的历史数据,具体的,处理后的部分历史数据如下表所示:
步骤204,根据处理后的历史数据构建特征图,并根据特征图获取特征数据。
具体的,计算机设备可以通过两个样本的特征变量的标准化欧氏距离构建特征图,具体做法为:设Xi=(Xi1,…,Xip)为样本i的p维特征,Xj=(Xj1,…,Xjp) 为样本j的p维特征(i,j=1,…,N),则样本i和样本j的标准化欧式距离为:其中,Σ为对角线矩阵,其对角线元素为样本特征的方差向量。通过所有样本间的特征变量标准化欧氏距离可以构造N×N的相似矩阵D,该矩阵元素的值越小说明两个样本的特征在欧式空间中越相似。为方便运算及比较,可以将相似矩阵D进行归一化,得到归一化后的相似矩阵D′。为了获取更简洁的特征图表示,通过阈值法过滤相似矩阵得到特征图G。
以计算第152个样本和第153个样本的标准化欧氏距离为例:
X152-X153=(21-73,23-51,0.1-0,5.8-6.5)=(-52,-28,0.1,-0.7)
则
以此类推,计算所有样本之间的标准化欧氏距离,最终构成350×350的相似矩阵D,如下所示:
该矩阵中元素的值越小,说明两个样本的特征在欧氏空间中越相似。
为简化信息,通过阈值法过滤相似矩阵D来获取特征图G。首先将D中元素作归一化处理,即各个元素均除以该矩阵中元素的最大值,得到归一化的相似矩阵D′,如下所示:
使用阈值法过滤矩阵D′,本例设定阈值为归一化后的相似矩阵D′中的元素 40%分位值,将高于40%分位值的数值过滤,留存低于或等于40%分位值的数值,得到最终的特征图G。计算机设备可以根据特征图获取特征数据。
在一个实施例中,提供的一种预测数据生成方法还可以包括根据特征图获取特征数据的过程,具体过程包括:提取特征图的拓扑结构,拓扑结构包括节点度、节点强度、聚类系数;根据拓扑结构获取特征数据。
拓扑结构可以包括节点度、节点强度、聚类系数,其中,节点度可以用于表示与该节点相关联的边数,节点i的度定义为以样本152为例,通过阈值法过滤后共有147条边与节点152相关联,故其节点度为节点强度可以用于表示与该节点相关联边的权和,节点i的强度定义为以样本152为例,与其相关联的147条边的权重和为28.5556,故其节点强度为聚类系数可以用于表示与节点相关联的点之间的聚类程度,节点i的聚类系数定义为以样本152为例,与节点152相连接的所有节点之间实际存在连边的数量为3388条,故其聚类系数为
步骤206,将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集。
计算机设备在根根据拓扑结构获取特征数据后,可以将拓扑结构与原先预处理后的数据副本对应合并成新数据集,即目标数据集。其中,目标数据集的部分数据如下:
住房面积(m<sup>2</sup>) | 节点度 | 节点强度 | 聚类系数 | 风险等级 |
197 | 109 | 32.1207036 | 0.735474006 | 0 |
127 | 280 | 81.75966609 | 0.488248848 | 2 |
79 | 120 | 34.61401045 | 0.753921569 | 1 |
148 | 268 | 78.35540968 | 0.504248421 | 0 |
249 | 94 | 29.72112694 | 0.682223747 | 1 |
163 | 92 | 28.4122315 | 0.774725275 | 0 |
82 | 212 | 62.50394825 | 0.549941876 | 2 |
计算机设备可以将目标数据集划分为训练数据集和测试数据集,其中,训练数据集占总数据集的80%,测试数据集占总数据集的20%。
步骤208,将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;根据模型评估指标确定预警模型。
本实施例中,计算机设备可以将训练数据集和测试数据集输入至决策树分类器,其中,决策树分类器的杂质度量可以参考Gini指标。
步骤210,将特征数据输入至预警模型中,生成用户的预测数据。
在本实施例中,通过获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据;根据处理后的历史数据构建特征图,并根据特征图获取特征数据;将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集;将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;根据模型评估指标确定预警模型;将特征数据输入至预警模型中,生成用户的预测数据。通过特征图提取处理后的历史数据中特征数据,将特征数据为新的特征输入决策树分类器,可以提高预测精度,针对生成的用户的预测数据提前进行干预。
在一个实施例中,提供的一种预测数据生成方法还可以包括对原始指标进行标准化处理的过程,具体过程包括:对训练数据集和测试数据集进行标准化处理,得到处理后的标准化参数。
在本实施例中,标准化处理后的训练数据集部分数据如下表所示:
标准化处理后的测试数据集部分数据如下表所示:
住房面积(m<sup>2</sup>) | 节点度 | 节点强度 | 聚类系数 | 风险等级 |
0.783673469 | 0.306818182 | 0.302903014 | 0.534855293 | 0 |
0.497959184 | 0.954545455 | 0.951386422 | 0.023408455 | 2 |
0.302040816 | 0.348484848 | 0.335475575 | 0.573018673 | 1 |
0.583673469 | 0.909090909 | 0.906913216 | 0.056507558 | 0 |
0.995918367 | 0.25 | 0.271554944 | 0.424693865 | 1 |
0.644897959 | 0.242424242 | 0.254455534 | 0.616056322 | 0 |
0.314285714 | 0.696969697 | 0.699829723 | 0.151035855 | 2 |
其中,测试数据集以及训练数据集标准化过程用到的参数,如Xmin和Xmax,应与训练数据集标准化过程中用到的参数保持一致。
在一个实施例中,提供的一种预测数据生成方法还可以包括得到模型评估指标的过程,具体过程包括:对训练数据集和测试数据集进行迭代计算,得到各个预测准确率;计算各个预测准确率的均值,并将预测准确率的均值作为模型评估指标。
如图3所示,计算机设备可以将得到的标准化后的训练数据集随机分成5 份,每次迭代选取其中1份作为子测试数据集,其余的作为子训练数据集放入决策树分类器中进行训练,迭代5次之后,保证每一份数据均作为一次子测试数据集,最终求5次迭代子测试数据集的预测准确率的均值作为模型评估指标。预测准确率的具体计算公式为:其中,T表示正确分类的样本数量, N表示错误分类的样本数量。
举例说明,在本实施例中,将标准化后的训练数据集和测试数据集进行5 折交叉验证,其表现如图4所示。交叉验证结果如图4所示,通过训练数据集训练出的模型评估指标约为0.6357,通过测试数据集训练出的模型评估指标约为 0.8714,由此可见引入拓扑结构使得模型预测效果显著提升。
在另一个实施例中,提供的一种预测数据生成方法还可以包括得到模型评估指标的过程,具体过程包括:对预测准确率的精度进行评估,并将预测准确率的均值作为模型评估指标。
在一个实施例中,提供的一种预测数据生成方法还可以包括确定预警模型的过程,具体过程包括:获取各个模型的预测准确率的精度;根据各个模型的预测准确率的精度以及模型评估指标,从各个模型中确定预警模型。
其中,预警模型的预测准确率的精度是各个模型中预测准确率精度最高的。
在一个实施例中,提供的一种预测数据生成方法整体流程如图5所示。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种预测数据生成系统,包括:数据处理模块610、数据获取模块620、数据集处理模块630、模型确定模块640和预测数据生成模块650,其中:
数据处理模块610,获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据。
数据获取模块620,用于根据处理后的历史数据构建特征图,并根据特征图获取特征数据。
数据集处理模块630,用于将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集。
模型确定模块640,用于将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;根据模型评估指标确定预警模型。
预测数据生成模块650,用于将特征数据输入至预警模型中,生成用户的预测数据。
在一个实施例中,数据处理模块610还用于提取特征图的拓扑结构,拓扑结构包括节点度、节点强度、聚类系数;根据拓扑结构获取特征数据。
在一个实施例中,数据集处理模块630还用于对训练数据集和测试数据集进行标准化处理,得到处理后的标准化参数。
在一个实施例中,模型确定模块640还用于对训练数据集和测试数据集进行迭代计算,得到各个预测准确率;计算各个预测准确率的均值,并将预测准确率的均值作为模型评估指标。
在一个实施例中,模型确定模块640还用于对预测准确率的精度进行评估,并将预测准确率的均值作为模型评估指标。
在一个实施例中,模型确定模块640还用于获取各个模型的预测准确率的精度;根据各个模型的预测准确率的精度以及模型评估指标,从各个模型中确定预警模型。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种预测数据生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据;
根据处理后的历史数据构建特征图,并根据特征图获取特征数据;
将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集;
将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;根据模型评估指标确定预警模型;
将特征数据输入至预警模型中,生成用户的预测数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取特征图的拓扑结构,拓扑结构包括节点度、节点强度、聚类系数;根据拓扑结构获取特征数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对训练数据集和测试数据集进行标准化处理,得到处理后的标准化参数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对训练数据集和测试数据集进行迭代计算,得到各个预测准确率;计算各个预测准确率的均值,并将预测准确率的均值作为模型评估指标。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对预测准确率的精度进行评估,并将预测准确率的均值作为模型评估指标。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各个模型的预测准确率的精度;根据各个模型的预测准确率的精度以及模型评估指标,从各个模型中确定预警模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取用户的历史数据,并对历史数据进行数据预处理,得到处理后的历史数据;
根据处理后的历史数据构建特征图,并根据特征图获取特征数据;
将特征数据与历史数据合并为目标数据集,并将目标数据集划分为训练数据集和测试数据集;
将训练数据集和测试数据集输入至决策树分类器,并对训练数据集和测试数据集进行交叉验证,得到模型评估指标;根据模型评估指标确定预警模型;
将特征数据输入至预警模型中,生成用户的预测数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取特征图的拓扑结构,拓扑结构包括节点度、节点强度、聚类系数;根据拓扑结构获取特征数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对训练数据集和测试数据集进行标准化处理,得到处理后的标准化参数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对训练数据集和测试数据集进行迭代计算,得到各个预测准确率;计算各个预测准确率的均值,并将预测准确率的均值作为模型评估指标。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对预测准确率的精度进行评估,并将预测准确率的均值作为模型评估指标。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各个模型的预测准确率的精度;根据各个模型的预测准确率的精度以及模型评估指标,从各个模型中确定预警模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器 (RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种预测数据生成方法,其特征在于,所述方法包括:
获取用户的历史数据,并对所述历史数据进行数据预处理,得到处理后的历史数据;
根据所述处理后的历史数据构建特征图,并根据所述特征图获取特征数据;
将所述特征数据与所述历史数据合并为目标数据集,并将所述目标数据集划分为训练数据集和测试数据集;
将所述训练数据集和所述测试数据集输入至决策树分类器,并对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标;根据所述模型评估指标确定预警模型;
将所述特征数据输入至所述预警模型中,生成所述用户的预测数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征图获取特征数据,包括:
提取所述特征图的拓扑结构,所述拓扑结构包括节点度、节点强度、聚类系数;
根据所述拓扑结构获取所述特征数据。
3.根据权利要求1所述的方法,其特征在于,在所述将所述目标数据集划分为训练数据集和测试数据集之前,所述方法还包括:
对所述训练数据集和所述测试数据集进行标准化处理,得到处理后的标准化参数。
4.根据权利要求1所述的方法,其特征在于,所述对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标,包括:
对所述训练数据集和所述测试数据集进行迭代计算,得到各个预测准确率;
计算各个所述预测准确率的均值,并将所述预测准确率的均值作为所述模型评估指标。
5.根据权利要求4所述的方法,其特征在于,所述将所述预测准确率的均值作为所述模型评估指标,包括:
对所述预测准确率的精度进行评估,并将所述预测准确率的均值作为所述模型评估指标。
6.根据权利要求5所述的方法,其特征在于,所述根据所述模型评估指标确定预警模型,包括:
获取各个模型的预测准确率的精度;
根据各个所述模型的预测准确率的精度以及所述模型评估指标,从各个所述模型中确定预警模型。
7.一种预测数据生成系统,其特征在于,所述系统包括:
数据处理模块,获取用户的历史数据,并对所述历史数据进行数据预处理,得到处理后的历史数据;
数据获取模块,用于根据所述处理后的历史数据构建特征图,并根据所述特征图获取特征数据;
数据集处理模块,用于将所述特征数据与所述历史数据合并为目标数据集,并将所述目标数据集划分为训练数据集和测试数据集;
模型确定模块,用于将所述训练数据集和所述测试数据集输入至决策树分类器,并对所述训练数据集和所述测试数据集进行交叉验证,得到模型评估指标;根据所述模型评估指标确定预警模型;
预测数据生成模块,用于将所述特征数据输入至所述预警模型中,生成所述用户的预测数据。
8.根据权利要求7所述的系统,其特征在于,所述数据处理模块,还用于提取所述特征图的拓扑结构,所述拓扑结构包括节点度、节点强度、聚类系数;根据所述拓扑结构获取所述特征数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030789.7A CN112348226A (zh) | 2020-09-27 | 2020-09-27 | 预测数据生成方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030789.7A CN112348226A (zh) | 2020-09-27 | 2020-09-27 | 预测数据生成方法、系统、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112348226A true CN112348226A (zh) | 2021-02-09 |
Family
ID=74360587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011030789.7A Pending CN112348226A (zh) | 2020-09-27 | 2020-09-27 | 预测数据生成方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348226A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386525A (zh) * | 2022-01-17 | 2022-04-22 | 中国人民解放军国防科技大学 | 一种评估标准的自适应调整方法、装置、设备和存储介质 |
-
2020
- 2020-09-27 CN CN202011030789.7A patent/CN112348226A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386525A (zh) * | 2022-01-17 | 2022-04-22 | 中国人民解放军国防科技大学 | 一种评估标准的自适应调整方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516910B (zh) | 基于大数据的保单核保模型训练方法和核保风险评估方法 | |
CN111625516B (zh) | 检测数据状态的方法、装置、计算机设备和存储介质 | |
CN110503566B (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
CN113744089B (zh) | 一种台区户变关系辨识方法及设备 | |
CN111062444A (zh) | 信用风险预测方法、系统、终端及存储介质 | |
CN114065653A (zh) | 电力负荷预测模型的构建方法与电力负荷预测方法 | |
CN114399321A (zh) | 一种业务系统稳定性分析方法、装置和设备 | |
Li et al. | An adaptive prognostics method based on a new health index via data fusion and diffusion process | |
CN112631898A (zh) | 基于cnn-svm的软件缺陷预测方法 | |
de Almeida et al. | Combining machine learning techniques with Kappa–Kendall indexes for robust hard-cluster assessment in substation pattern recognition | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN114781532A (zh) | 机器学习模型的评估方法、装置、计算机设备及介质 | |
Ravi et al. | Hybrid classification and regression models via particle swarm optimization auto associative neural network based nonlinear PCA | |
CN110765351A (zh) | 目标用户识别方法、装置、计算机设备和存储介质 | |
EP3901791A1 (en) | Systems and method for evaluating identity disclosure risks in synthetic personal data | |
CN112348226A (zh) | 预测数据生成方法、系统、计算机设备及存储介质 | |
CN111401440B (zh) | 目标分类识别方法、装置、计算机设备及存储介质 | |
CN117094184A (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
CN115018210B (zh) | 业务数据分类预测方法、装置、计算机设备和存储介质 | |
CN114881158A (zh) | 基于随机森林的缺失值填充方法、装置和计算机设备 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN114372867A (zh) | 用户信用度的验证评估方法、装置和计算机设备 | |
CN114549174A (zh) | 用户行为预测方法、装置、计算机设备和存储介质 | |
CN113283504B (zh) | 基于聚类的设备状态检测方法、装置、计算机设备和介质 | |
CN117454668B (zh) | 零部件失效概率的预测方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |