CN112308278A - 预测模型的优化方法、装置、设备和介质 - Google Patents

预测模型的优化方法、装置、设备和介质 Download PDF

Info

Publication number
CN112308278A
CN112308278A CN201910710698.9A CN201910710698A CN112308278A CN 112308278 A CN112308278 A CN 112308278A CN 201910710698 A CN201910710698 A CN 201910710698A CN 112308278 A CN112308278 A CN 112308278A
Authority
CN
China
Prior art keywords
value
prediction model
prediction
optimized
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910710698.9A
Other languages
English (en)
Inventor
吉晶
李腾
余凤丽
余韦
马可珍
周倩茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910710698.9A priority Critical patent/CN112308278A/zh
Publication of CN112308278A publication Critical patent/CN112308278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种预测模型的优化方法、装置、设备和介质。该方法包括:基于优化数据中的预测值和与预测值对应的真实值,确定待优化预测模型的检验值;根据预设调整规则,调整待优化预测模型的初始分界阈值,以使待优化预测模型的检验值为最大数值,得到调整后的分界阈值;利用调整后的分界阈值、预测值和与预测值对应的真实值确定错误预测值;根据调整后的分界阈值和优化数据中的用户样本确定待优化预测模型的调参数据;基于调参数据和预设梯度下降步长集合,利用预测函数,对待优化预测模型的模型参数进行更新,得到优化后的预测模型。根据本发明实施例提供的预测模型的方法、装置、设备和介质,能够提高预测模型的预测精度。

Description

预测模型的优化方法、装置、设备和介质
技术领域
本发明涉及通信技术领域,尤其涉及一种预测模型的优化方法、装置、设备和介质。
背景技术
预测模型是指用于预测,用数学语言或公式所描述的事物间的数量关系,预测时会把预测模型作为计算预测值的直接依据。因此,预测模型的预测精度对预测结果的准确度有着极大的影响。
为了提高预测模型的预测精度,会对预测模型进行优化。目前的优化方式需要的样本量和新建预测模型时所需的样本量相同,在优化过程中并不会对原始预测模型有严重影响的样本量进行筛选,而是基于全部的样本进行优化。这就会导致预测模型在优化后,仍然无法具有较高的预测精度。
因此,如何提高预测模型的预测精度是亟待解决的技术问题。
发明内容
本发明实施例提供了一种预测模型的优化方法、装置、设备和介质,能够提高预测模型的预测精度。
本发明实施例的一方面,提供一种预测模型的优化方法,该方法包括:
基于优化数据中的预测值和与预测值对应的真实值,确定待优化预测模型的检验值;
根据预设调整规则,调整待优化预测模型的初始分界阈值,以使待优化预测模型的检验值为最大数值,得到调整后的分界阈值;
利用调整后的分界阈值、预测值和与预测值对应的真实值确定错误预测值;
根据调整后的分界阈值和优化数据中的用户样本确定待优化预测模型的调参数据,调参数据为满足筛选条件的用户样本,筛选条件是错误预测值与调整后的分界阈值的差值的绝对值小于误差阈值;
基于调参数据和预设梯度下降步长集合,利用预测函数,对待优化预测模型的模型参数进行更新,得到优化后的预测模型。
本发明实施例的另一方面,提供一种预测模型的优化装置,该装置包括:
计算模块,用于基于优化数据中的预测值和与预测值对应的真实值,确定待优化预测模型的检验值;
调整模块,用于根据预设调整规则,调整待优化预测模型的初始分界阈值,以使待优化预测模型的检验值为最大数值,得到调整后的分界阈值;
预测模块,用于利用调整后的分界阈值、预测值和与预测值对应的真实值确定错误预测值;
筛选模块,用于根据调整后的分界阈值和优化数据中的用户样本确定待优化预测模型的调参数据,调参数据为满足筛选条件的用户样本,筛选条件是错误预测值与调整后的分界阈值的差值的绝对值小于误差阈值;
优化模块,用于基于调参数据和预设梯度下降步长集合,利用预测函数,对待优化预测模型的模型参数进行更新,得到优化后的预测模型。
根据本发明实施例的另一方面,提供一种预测模型的优化设备,该设备包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现本发明实施例提供的预测模型的优化方法。
根据本发明实施例的另一方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现本发明实施例提供的预测模型的优化方法。
本发明实施例提供的预测模型的优化方法、装置、设备和介质,通过调整待优化预测模型的分界阈值,以及利用待优化预测模型的调参数据对待优化预测模型进行优化,能够提高预测模型的预测精度,提高模型的优化效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明一实施例的预测模型的优化方法的流程图;
图2示出本发明一实施例的分界阈值调整的流程图;
图3示出本发明另一实施例的预测模型的优化方法的流程图;
图4示出本发明一实施例的预测模型的优化装置的结构示意图;
图5示出本发明一实施例的硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通信运营商为确保自己的通信用户不会发生离网,经常会对通信用户进行离网预测,针对离网概率较大的用户会通过针对性的营销策略对通信用户进行挽留,以保证自己的通信用户不会发生流失。
常用的离网预测的预测模型大多为基于逻辑回归算法的预测模型。由于通信用户的用户数据具有多样性,数量多的特点。所以很难保证训练后的预测模型能够对所有通信用户都进行精准的预测。因此,就需要对预测模型不断进行优化,以保证预测模型能够得到较为精准的预测结果。
下面结合附图,详细描述根据本发明实施例的预测模型的优化方法、装置、设备和介质。应注意,这些实施例并不是用来限制本发明公开的范围。
下面通过图1详细介绍根据本发明实施例的预测模型的优化方法。
为了更好的理解本发明的技术方案,下面结合图1对本发明一实施例的预测模型的优化方法进行详细说明,图1是示出本发明一实施例的预测模型的优化方法的流程图。
如图1所示,本发明实施例中的预测模型的优化方法包括以下步骤:
S110,基于优化数据中的预测值和与预测值对应的真实值,确定待优化预测模型的检验值。
在本发明的一个实施例中,优化数据可以包括:待优化预测模型的用户样本、待优化预测模型的预测值以及预测值对应的真实值。例如,待优化预测模型的用户样本可以是:用户基本属性(如:用户的网龄、用户的性别和用户所在地区等)、用户通信行为(如:用户的入网时长、用户的通话时长等)、业务办理行为(如:用户定购的套餐等)和用户交往圈情况(如:用户时常通话的电话号码等)。
待优化预测模型可以是预测用户是否离网的预测模型,待优化预测模型的预测值可以是属于(0,1)的离网概率值。并且,可以将待优化模型的预测值划分为正样本类别和负样本类别。其中,正样本类别表示用户不会离网,负样本类别表示用户可能离网。而与该预测值对应的真实值则是该预测值真正属于的类别。如,用0或1表示预测值对应的真实值,0表示用户不会离网(即,正样本),1表示用户已经离网(即,负样本)。
在本发明的一个实施例中,可以利用柯尔莫诺夫-斯米尔诺夫(Kolmogorov-Smirnov,KS)检验对待优化预测模型进行检验。其中,KS检验值可以通过表达式(1)计算得到。
KS=TPR-FPR (1)
其中,TPR表示正样本类别中真实值也为正样本所占所有正样本的比例(真正例率),FPR表示正样本类别中真实值为负样本所占所有负样本的比例(反正例率)。
S120,根据预设调整规则,调整待优化预测模型的初始分界阈值,以使待优化预测模型的检验值为最大数值,得到调整后的分界阈值。
在本发明一个实施例中,可以将预测值划分为100个分位值。将每个分位值都作为待优化预测模型的分界调整阈值。
通过计算每个分界调整阈值对应待优化模型的KS检验值,可以得到100个KS检验值。
最后,根据100个KS检验值中最大的KS检验值对应的分界调整阈值,对初始分界阈值进行调整。
在本发明的另一个实施例中,如图2所示,图2示出本发明一实施例的分界阈值调整的流程示意图。
步骤一,设置预测值的分位值i为1分位值,i分位值对应的数值为d,初始KS值为0,初始分界阈值p为0。
步骤二,计算初始分界阈值p对应待优化预测模型的TPR-FPR值。
步骤三,判断TPR-FPR值是否大于初始KS值,若是,则执行步骤四,若否,则执行步骤五。
步骤四,令KS=TPR-FPR值,p=d。
步骤五,令i=i+1。
步骤六,判断i是否小于100,若是,则返回步骤二,若否,则执行步骤七。
步骤七,输出分界调整阈值p=d。
在本发明实施例中,通过KS检验值,从预测值的百分位数向量中选取能使待优化预测模型达到最优区分结果的分位值,作为待优化预测模型的分界阈值,能够提高预测模型的预测精度,提升预测效果。
S130,利用调整后的分界阈值、预测值和与预测值对应的真实值确定错误预测值。
在本发明一个实施例中,将小于调整后的分界阈值的预测值归于集合A1(正样本类别),将大于或等于调整后的分界阈值的预测值归于集合A2(负样本类别)。
根据预测值对应的真实值,判断该预测值是否预测错误,得到错误预测值。例如,预测值归于集合A1(正样本类别),而对应的真实值是(负样本类别)。则该预测值为错误预测值。
S140,根据调整后的分界阈值和优化数据中的用户样本确定待优化预测模型的调参数据。
其中,调参数据为满足筛选条件的用户样本,筛选条件是错误预测值与调整后的分界阈值的差值的绝对值小于误差阈值。
在本发明的一个实施例中,计算每个错误预测值与调整后的分界阈值的差值的绝对值,将计算结果作为第一误差样本L1。
若将预设分位值设置为第三四分位数(Q3),则此时的第一误差阈值D即为第一误差样本L1的Q3。
接下来,确定第一误差样本中小于D的误差数值对应的错误预测值,将该错误预测值对应的用户样本作为调参数据。
在本发明的另一个实施例中,首先,将得到的错误预测值进行分类。例如,将被错误预测到A1(正样本类别)中的错误预测值作为第一错误预测值,将被错误预测到A2(负样本类别)中的错误预测值作为第二错误预测值。多个第一错误预测值构成集合B1,多个第二错误预测值构成集合B2。
接下来,可以是将第一错误预测值与调整后的分界阈值的差值的绝对值作为第二误差样本L2,将第二错误预测值与调整后的分界阈值的差值的绝对值作为第三误差样本L3。
此时,第二误差阈值可以为L2的第三四分位数,第三误差阈值可以为L3的第三四分位数。
将第二误差样本L2中小于第二误差阈值的误差数值对应的用户样本,作为第一调参数据C1,将三误差样本L3中小于第三误差阈值的误差数值对应的用户样本,作为第二调参数据C2。
最后,可以是将C1和C2取并集,将最终的并集结果作为待优化预测模型的调参数据S1。
在本发明实施例中,通过KS检验值和错误预测值与调整后的分界阈值的差值的绝对值,结合预设分位数,对优化数据进行筛选,从而挑选出预测值接近调整后的分界阈值、且对分类结果的影响相对较大的部分用户样本,能够提高预测模型的预测精度,提升预测效果。
S150,基于调参数据和预设梯度下降步长集合,利用预测函数,对待优化预测模型的模型参数进行更新,得到优化后的预测模型。
其中,预测函数可以包括:逻辑回归函数和逻辑回归梯度下降方法。
在本发明的一个实施例中,首先,可以对调参数据进行数据标准化处理。
其次,将调参数据基于预设样本个数k进行划分,得到m份小数据集。
其中,在对调参数据划分时,由于可能会存在调参数据的数据量不能整除预设样本个数k。则可以对调参数据的数据量进行取整计算。例如,可以通过表达式(2)或表达式(3)计算取整后的调参数据S2,通过表达式(4)计算得到m值。
S2=S1-(S1%k) (2)
其中,S1%k表示取余数。
S2=S1+(k-S1%k) (3)
m=len(S2)//k (4)
其中,len(S2)表示计算S2的数据量。
接下来,可以是从m份小数据集中按照预定的选取顺序选取一份小数据集m1。例如,令小数据集为
Figure BDA0002153628970000071
(i=1,2,…,k;j=1,2,…,m)为第j份小数据中的第i个样本的特征。
在本发明一个实施例中,预设梯度下降步长集合可以为α:
α∈(100,10,1,0.1,0.01,0.001,0.0001,0.00001,0)
通过表达式(5)逻辑回归函数的计算公式,以及,表达式(6)逻辑回归梯度下降函数的计算公式,可以计算得到小数据集m1分别对应多个下降步长的多个回归参数。
Figure BDA0002153628970000081
其中,θj表示第j份小数据集对应的待优化预测模型的回归参数,
Figure BDA0002153628970000082
表示θj的向量转置。
Figure BDA0002153628970000083
表示第j份小数据中的第i个样本。
Figure BDA0002153628970000084
其中,
Figure BDA0002153628970000085
表示第j份小数据中的第i个样本对应的真实值。
在本发明一实施例中,将预设梯度下降步长集合α中的每个梯度下降步长,带入表示式(6)进行计算时,可以得到9个回归参数θj+1
接下来,可以通过表达式(7)计算每个回归参数对应的损失函数值。
Figure BDA0002153628970000086
其中,xi表示调参数据S1中的用户样本,yi表示xi对应的真实值,a表示S1中的数据量。
由此可知,通过表示式(7)计算可以得到每个回归参数对应的损失函数值,将其中最小损失函数值对应的回归参数作为小数据集m1对应的预测参数。
此后,继续从m份小数据集中按照预定的选取顺序选取一份小数据集m2,继续通过表达式(5)—表达式(7)计算得到小数据集m2对应的预测参数。应当理解的是,在计算小数据集m2时,θj表示的则是m1对应的预测参数。以此类推,直至m份小数据集都被选取完,根据最后得到的预测参数对待优化预测模型进行更新优化,以得到优化后的预测模型。
应当注意的是,若在计算损失函数值时,由于预设梯度下降步长集合α中的每个梯度下降步长过大,导致无法计算得到损失函数值L(θj+1)时,可令损失函数值L(θj+1)为预设的极大值,以保证该损失函数值对应的回归参数不会作为小数据集对应的预测参数。
此外,由于计算机的存储限制,当
Figure BDA0002153628970000087
无限趋于0或1时,会出现
Figure BDA0002153628970000088
Figure BDA0002153628970000089
的情况,进而会导致损失函数值出现
Figure BDA00021536289700000810
Figure BDA00021536289700000811
等于无穷大的情况。在这种情况下,可令计算得到的
Figure BDA00021536289700000812
等于预设值。例如,当
Figure BDA00021536289700000813
时,令
Figure BDA00021536289700000814
(预设值),当
Figure BDA00021536289700000815
时,令
Figure BDA00021536289700000816
(预设值)。
在本发明实施例中,通过多梯度下降步长、多个小数据集对待优化预测预测模型的预测参数进行调整,每次的预测参数调整都是基于损失函数值最小的回归参数,可以有效提高待优化预测模型的预测精准度,提高优化效率。
在本发明的一个实施例中,可以通过混淆矩阵对优化后的预测模型进行查准率和/或查全率检验。
其中,混淆矩阵如表1所示。
表1
Figure BDA0002153628970000091
其中,TP表示预测类别和真实类别均为正样本,FN表示预测类别为负样本类别而真实类别为正样本类别,FP表示预测类别为正样本类别而真实类别为负样本类别,YN表示预测类别和真实类别均为负样本。
例如,可以根据表示式(5)分别得到优化前和优化后的预测模型的预测值。
通过表达式(8)可以计算得到查准率,通过表达式(9)可以计算得到查全率。
Figure BDA0002153628970000092
Figure BDA0002153628970000093
在本发明的一个实施例中,可以分别计算优化前和优化后的预测模型查准率和/或查全率。若,优化后的预测模型的查准率和查全率均高于优化前的预测模型的查准率和查全率,则可以说明得到预测精准度较高的预测模型。
在本发明的一个实施例中,如图3所示,图3示出本发明另一实施例的预测模型的优化方法的流程图。
在对预测模型进行优化时,输入优化数据、待优化预测模型的预测参数以及初始分界阈值。
接下来,对预测模型的分界阈值进行更新,对调参数据进行筛选。当判断存在调参数据时,会基于调参数据对预测模型进行预测参数更新并通过对更新后的预测模型进行检验。
最后,将更新后的预测参数和更新后的分界阈值输出,进而完成预测模型的优化。
当判断不存在调参数据时(即,表明当前预测模型无需对预测参数进行优化),输出初始分界阈值,即可完成预测模型的优化。
下面通过一个具体的示例解释本发明一实施例的预测模型的优化方法。
例如,对用户6月份是否会离网进行预测。可以利用用户3月份至5月份的用户数据建立预测模型,得到待优化预测模型的原始预测参数θ0
利用用户4月份至6月份的用户样本对该待优化预测模型进行优化。其中,用户样本可以是用户基本属性(如:用户的网龄、用户的性别和用户所在地区等)、用户通信行为(如:用户的入网时长、用户的通话时长等)、业务办理行为(如:用户定购的套餐等)和用户交往圈情况(如:用户时常通话的电话号码等)。
首先,可以是根据用户4月份至6月份的用户样本得到调整后的分界阈值应为p=0.07,且此时的KS检验值=0.23。
其次,根据调整后的分界阈值p=0.07,对用户样本进行筛选,得到调参数据S1。
接下来,根据调参数据集、逻辑回归函数以及逻辑回归梯度下降函数,对待优化预测模型的模型参数进行更新,得到优化后的预测模型,完成预测模型的优化。
最后,分别利用用户4月份至6月份以及5月份至7月份的用户样本对该优化后的预测模型进行检验。即,根据用户4月份至6月份以及5月份至7月份的用户样本分别计算优化前和优化后预测模型对应的查全率和查准率,如表2所示。
表2
参数 用户样本 查准率 查全率
旧参数(优化前预测模型) 4-6月 7.8% 0.1%
新参数(优化后预测模型) 4-6月 9.1% 64.4%
旧参数(优化前预测模型) 5-7月 21.0% 2.2%
新参数(优化后预测模型) 5-7月 11.3% 90.7%
基于表2可知,根据查准率和查全率可知,优化后的预测模型的查全率有明显的提高。优化后的预测模型对于用户4-6月的查准率有所提高,对于5-7月的查准率略有降低。
若实际需求中,对预测模型的查全率有较高的要求,则目前的预测模型即可满足要求,可以作为优化后的预测模型。若实际需求中,对预测模型的查准率有较高的要求,则目前的预测模型还需继续优化,以得到较高的查准率。
下面通过图4详细介绍根据本发明实施例的预测模型的优化装置,预测模型的优化装置与预测模型的优化方法相对应。
图4示出了根据本发明一实施例的预测模型的优化装置的结构示意图。
如图4所示,预测模型的优化装置包括:
计算模块410,用于基于优化数据中的预测值和与预测值对应的真实值,确定待优化预测模型的检验值。
其中,检验值为柯尔莫诺夫-斯米尔诺夫KS检验值。
调整模块420,用于根据预设调整规则,调整待优化预测模型的初始分界阈值,以使待优化预测模型的检验值为最大数值,得到调整后的分界阈值。
预测模块430,用于利用调整后的分界阈值、预测值和与预测值对应的真实值确定错误预测值。
筛选模块440,用于根据调整后的分界阈值和优化数据中的用户样本确定待优化预测模型的调参数据,调参数据为满足筛选条件的用户样本,筛选条件是错误预测值与调整后的分界阈值的差值的绝对值小于误差阈值。
优化模块450,用于基于调参数据和预设梯度下降步长集合,利用预测函数,对待优化预测模型的模型参数进行更新,得到优化后的预测模型。
在本发明实施例中,通过预测模型的优化装置,利用多梯度下降步长、多个小数据集对待优化预测预测模型的预测参数进行调整,每次的预测参数调整都是基于损失函数值最小的回归参数,可以有效提高待优化预测模型的预测精准度,提高优化效率。
在本发明一实施例中,调整模块420具体用于:计算预测值的n个分位值,将n个分位值分别作为所述待优化预测模型的分界调整阈值;计算每个分界调整阈值对应待优化预测模型的检验值,得到n个检验值;基于n个检验值中的最大检验值对应的分界调整阈值,对待优化预测模型的初始分界阈值进行调整。
在本发明一实施例中,筛选模块440包括:
第一计算子模块,用于计算每个错误预测值与调整后的分界阈值的差值的绝对值,得到第一误差样本;将第一误差样本的预设分位值作为第一误差阈值。
第一筛选子模块,用于确定第一误差样本中小于第一误差阈值的误差数值对应的用户样本,得到调参数据。
在本发明一实施例中,筛选模块440包括:
分类模块,用于将错误预测值进行分类,得到被错误预测到正样本类别中的第一错误预测值和被错误预测到负样本类别中的第二错误预测值。
第二计算子模块,用于计算每个第一错误预测值与调整后的分界阈值的差值的绝对值,得到第二误差样本;计算每个第二错误预测值与调整后的分界阈值的差值的绝对值,得到第三误差样本;将第二误差样本的预设分位值作为第二误差阈值,将第三误差样本的预设分位值作为第三误差阈值。
第二筛选子模块,用于确定第二误差样本中小于第二误差阈值的误差数值对应的用户样本,得到第一调参数据;确定第三误差样本中小于第三误差阈值的误差数值对应的用户样本,得到第二调参数据;对第一调参数据和第二调参数据取并集,得到待优化预测模型的调参数据。
在本发明的一个实施例中,优化模块450包括:
划分模块,用于将调参数据基于预设样本个数进行划分,得到m份小数据集。
第三计算子模块,通过逻辑回归函数、逻辑回归梯度下降函数以及预设梯度下降步长集合中的每个梯度下降步长,计算得到每份小数据集对应的预测参数;基于每份小数据集对应的预测参数和损失函数,计算待优化预测模型的损失函数值。
优化子模块,用于基于每份小数据集对应的预测参数和损失函数,计算待优化预测模型的损失函数值;基于最小损失函数值对应的预测参数,对待优化预测模型的模型参数进行更新,得到优化后的预测模型。
在本发明的一个实施例中,第三计算子模块具体用于:通过逻辑回归函数、逻辑回归梯度下降函数以及预设梯度下降步长集合中的每个梯度下降步长,计算得到每份小数据集分别对应多个梯度下降步长的多个回归参数;计算每个回归参数对应的损失函数值,将最小损失函数值对应的回归参数作为每份小数据集对应的预测参数。
在本发明的一个实施例中,预测模型的优化装置还包括:
检验模块,用于通过混淆矩阵计算优化后的预测模型的查准率和/或查全率。
图5示出了能够实现根据本发明实施例的预测模型的优化方法和装置的计算设备的示例性硬件架构的结构图。
如图5所示,计算设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中,输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接,进而与计算设备500的其他组件连接。
具体地,输入设备501接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到计算设备500的外部供用户使用。
也就是说,图5所示的计算设备也可以被实现预测模型的优化设备,该预测模型的优化设备可以包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图4描述的预测模型的优化方法和装置。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的预测模型的优化方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而设备体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (12)

1.一种预测模型的优化方法,其特征在于,包括:
基于优化数据中的预测值和与所述预测值对应的真实值,确定待优化预测模型的检验值;
根据预设调整规则,调整所述待优化预测模型的初始分界阈值,以使所述待优化预测模型的检验值为最大数值,得到调整后的分界阈值;
利用调整后的分界阈值、所述预测值和与所述预测值对应的真实值确定错误预测值;
根据调整后的分界阈值和所述优化数据中的用户样本确定所述待优化预测模型的调参数据,所述调参数据为满足筛选条件的用户样本,
所述筛选条件包括:所述错误预测值与所述调整后的分界阈值的差值的绝对值小于误差阈值;
基于所述调参数据和预设梯度下降步长集合,利用预测函数,对所述待优化预测模型的模型参数进行更新,得到优化后的预测模型。
2.根据权利要求1所述预测模型的优化方法,其特征在于,所述根据预设调整规则,调整所述待优化预测模型的初始分界阈值,包括:
计算所述预测值的n个分位值,将n个分位值分别作为所述待优化预测模型的分界调整阈值;
计算每个分界调整阈值对应所述待优化预测模型的检验值,得到n个检验值;
基于所述n个检验值中的最大检验值对应的分界调整阈值,对所述待优化预测模型的初始分界阈值进行调整。
3.根据权利要求1所述预测模型的优化方法,其特征在于,所述根据调整后的分界阈值和所述优化数据中的用户样本确定所述待优化预测模型的调参数据,包括:
计算每个所述错误预测值与所述调整后的分界阈值的差值的绝对值,得到第一误差样本;
将所述第一误差样本的预设分位值作为第一误差阈值;
确定所述第一误差样本中小于所述第一误差阈值的误差数值对应的用户样本,得到所述调参数据。
4.根据权利要求1所述预测模型的优化方法,其特征在于,所述根据调整后的分界阈值和所述优化数据中的用户样本确定所述待优化预测模型的调参数据,包括:
将所述错误预测值进行分类,得到被错误预测到正样本类别中的第一错误预测值和被错误预测到负样本类别中的第二错误预测值;
计算每个第一错误预测值与所述调整后的分界阈值的差值的绝对值,得到第二误差样本;
计算每个第二错误预测值与所述调整后的分界阈值的差值的绝对值,得到第三误差样本;
将所述第二误差样本的预设分位值作为第二误差阈值,将所述第三误差样本的预设分位值作为第三误差阈值;
确定所述第二误差样本中小于所述第二误差阈值的误差数值对应的用户样本,得到第一调参数据;
确定所述第三误差样本中小于所述第三误差阈值的误差数值对应的用户样本,得到第二调参数据;
对所述第一调参数据和所述第二调参数据取并集,得到所述待优化预测模型的调参数据。
5.根据权利要求1所述预测模型的优化方法,其特征在于,所述预测函数包括:逻辑回归函数和逻辑回归梯度下降函数。
6.根据权利要求5所述预测模型的优化方法,其特征在于,所述基于所述调参数据和预设梯度下降步长集合,利用预测函数,对所述待优化预测模型的模型参数进行更新,得到优化后的预测模型,包括:
将所述调参数据基于预设样本个数进行划分,得到m份小数据集;
通过所述逻辑回归函数、所述逻辑回归梯度下降函数以及所述预设梯度下降步长集合中的每个梯度下降步长,计算得到每份小数据集对应的预测参数;
基于所述每份小数据集对应的预测参数和损失函数,计算所述待优化预测模型的损失函数值;
基于最小损失函数值对应的预测参数,对所述待优化预测模型的模型参数进行更新,得到优化后的预测模型。
7.根据权利要求6所述预测模型的优化方法,其特征在于,所述通过所述逻辑回归函数、所述逻辑回归梯度下降函数以及所述预设梯度下降步长集合中的每个梯度下降步长,计算得到每份小数据集对应的预测参数,包括:
通过所述逻辑回归函数、所述逻辑回归梯度下降函数以及所述预设梯度下降步长集合中的每个梯度下降步长,计算得到每份小数据集分别对应多个梯度下降步长的多个回归参数;
计算每个回归参数对应的损失函数值,将最小损失函数值对应的回归参数作为所述每份小数据集对应的预测参数。
8.根据权利要求1所述预测模型的优化方法,其特征在于,还包括:
通过混淆矩阵计算所述优化后的预测模型的查准率和/或查全率。
9.根据权利要求1所述预测模型的优化方法,其特征在于,所述待优化预测模型的检验值为柯尔莫诺夫-斯米尔诺夫KS检验值。
10.一种预测模型的优化装置,其特征在于,包括:
计算模块,用于基于优化数据中的预测值和与所述预测值对应的真实值,确定待优化预测模型的检验值;
调整模块,用于根据预设调整规则,调整所述待优化预测模型的初始分界阈值,以使所述待优化预测模型的检验值为最大数值,得到调整后的分界阈值;
预测模块,用于利用调整后的分界阈值、所述预测值和与所述预测值对应的真实值确定错误预测值;
筛选模块,用于根据调整后的分界阈值和所述优化数据中的用户样本确定所述待优化预测模型的调参数据,所述调参数据为满足筛选条件的用户样本,所述筛选条件是所述错误预测值与所述调整后的分界阈值的差值的绝对值小于误差阈值;
优化模块,用于基于所述调参数据和预设梯度下降步长集合,利用预测函数,对所述待优化预测模型的模型参数进行更新,得到优化后的预测模型。
11.一种预测模型的优化设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-9任意一项所述预测模型的优化方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述预测模型的优化方法。
CN201910710698.9A 2019-08-02 2019-08-02 预测模型的优化方法、装置、设备和介质 Pending CN112308278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910710698.9A CN112308278A (zh) 2019-08-02 2019-08-02 预测模型的优化方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910710698.9A CN112308278A (zh) 2019-08-02 2019-08-02 预测模型的优化方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112308278A true CN112308278A (zh) 2021-02-02

Family

ID=74486005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910710698.9A Pending CN112308278A (zh) 2019-08-02 2019-08-02 预测模型的优化方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112308278A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516280A (zh) * 2021-04-28 2021-10-19 贵州电网有限责任公司 一种基于大数据的电网设备故障概率预测的优化方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023307A1 (en) * 2008-07-24 2010-01-28 University Of Cincinnati Methods for prognosing mechanical systems
CN104112366A (zh) * 2014-07-25 2014-10-22 中国科学院自动化研究所 基于隐语义模型的交通信号优化方法
CN104199870A (zh) * 2014-08-19 2014-12-10 桂林电子科技大学 基于混沌搜索的ls-svm预测模型的建立方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN107358021A (zh) * 2017-06-01 2017-11-17 华南理工大学 一种基于优化bp神经网络的do预测模型建立方法
US20170365089A1 (en) * 2016-06-15 2017-12-21 Disney Enterprises, Inc. Adaptive rendering with linear predictions
CN108229536A (zh) * 2017-12-01 2018-06-29 温州大学 分类预测模型的优化方法、装置及终端设备
CN108647839A (zh) * 2018-06-28 2018-10-12 中国人民解放军陆军军事交通学院镇江校区 基于代价敏感lstm循环神经网络的稳压器水位预测方法
CN108876054A (zh) * 2018-07-06 2018-11-23 国网河南省电力公司郑州供电公司 基于改进遗传算法优化极限学习机的短期电力负荷预测方法
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN108959728A (zh) * 2018-06-12 2018-12-07 杭州法动科技有限公司 基于深度学习的射频器件参数优化方法
CN109034388A (zh) * 2018-07-27 2018-12-18 湖北中烟工业有限责任公司 一种基于遗传算法优化神经网络的卷烟材料与主流烟气成分的预测模型
WO2019037260A1 (zh) * 2017-08-20 2019-02-28 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN109460608A (zh) * 2018-11-09 2019-03-12 东北大学 一种基于模糊时间序列的高陡边坡形变预测的方法
CN109492807A (zh) * 2018-11-01 2019-03-19 大唐环境产业集团股份有限公司 基于改进量子粒子群算法的锅炉nox预测模型优化方法
CN109815332A (zh) * 2019-01-07 2019-05-28 平安科技(深圳)有限公司 损失函数优化方法、装置、计算机设备及存储介质
CN109961180A (zh) * 2019-03-15 2019-07-02 浙江工业大学 一种基于时空相关性的短时交通流量预测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023307A1 (en) * 2008-07-24 2010-01-28 University Of Cincinnati Methods for prognosing mechanical systems
CN104112366A (zh) * 2014-07-25 2014-10-22 中国科学院自动化研究所 基于隐语义模型的交通信号优化方法
CN104199870A (zh) * 2014-08-19 2014-12-10 桂林电子科技大学 基于混沌搜索的ls-svm预测模型的建立方法
US20170365089A1 (en) * 2016-06-15 2017-12-21 Disney Enterprises, Inc. Adaptive rendering with linear predictions
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN107358021A (zh) * 2017-06-01 2017-11-17 华南理工大学 一种基于优化bp神经网络的do预测模型建立方法
WO2019037260A1 (zh) * 2017-08-20 2019-02-28 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN108229536A (zh) * 2017-12-01 2018-06-29 温州大学 分类预测模型的优化方法、装置及终端设备
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN108959728A (zh) * 2018-06-12 2018-12-07 杭州法动科技有限公司 基于深度学习的射频器件参数优化方法
CN108647839A (zh) * 2018-06-28 2018-10-12 中国人民解放军陆军军事交通学院镇江校区 基于代价敏感lstm循环神经网络的稳压器水位预测方法
CN108876054A (zh) * 2018-07-06 2018-11-23 国网河南省电力公司郑州供电公司 基于改进遗传算法优化极限学习机的短期电力负荷预测方法
CN109034388A (zh) * 2018-07-27 2018-12-18 湖北中烟工业有限责任公司 一种基于遗传算法优化神经网络的卷烟材料与主流烟气成分的预测模型
CN109492807A (zh) * 2018-11-01 2019-03-19 大唐环境产业集团股份有限公司 基于改进量子粒子群算法的锅炉nox预测模型优化方法
CN109460608A (zh) * 2018-11-09 2019-03-12 东北大学 一种基于模糊时间序列的高陡边坡形变预测的方法
CN109815332A (zh) * 2019-01-07 2019-05-28 平安科技(深圳)有限公司 损失函数优化方法、装置、计算机设备及存储介质
CN109961180A (zh) * 2019-03-15 2019-07-02 浙江工业大学 一种基于时空相关性的短时交通流量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
洪伟;郭昆;郭文忠;: "无线传感器网络中极限学习机回归优化预测模型", 小型微型计算机系统, no. 11, 15 November 2016 (2016-11-15) *
赵会茹;周佳;李娜娜;韩新阳;霍慧娟;薛万磊;: "滚动多维度城市饱和负荷预测研究", 中国电力, no. 03, 5 March 2015 (2015-03-05) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516280A (zh) * 2021-04-28 2021-10-19 贵州电网有限责任公司 一种基于大数据的电网设备故障概率预测的优化方法

Similar Documents

Publication Publication Date Title
US10671933B2 (en) Method and apparatus for evaluating predictive model
US10067746B1 (en) Approximate random number generator by empirical cumulative distribution function
CN103678866B (zh) 用于计算系统产品可靠度估计的方法和系统
US20230206024A1 (en) Resource allocation method, resource allocation apparatus, device, medium and computer program produ
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN113988676B (zh) 一种水处理设备的安全管理方法及系统
CN112308278A (zh) 预测模型的优化方法、装置、设备和介质
US8954053B2 (en) Method for link adaptation and apparatus thereof
CN113392018A (zh) 流量分发方法、装置、存储介质及电子设备
CN111177644A (zh) 模型参数的优化方法、装置、设备及存储介质
CN116739742A (zh) 信贷风控模型的监控方法、装置、设备及存储介质
CN115225543B (zh) 一种流量预测方法、装置、电子设备和存储介质
CN109960626B (zh) 端口异常的识别方法、装置、设备及介质
CN115860856A (zh) 一种数据处理方法、装置、电子设备及存储介质
US20180285077A1 (en) Sample-based multidimensional data cloning
CN116166957A (zh) 基于lstm的数据处理方法、装置、计算机设备及介质
CN112668832A (zh) 基于指标管理体系的风险量化评估方法、装置以及电子设备
CN113112102A (zh) 优先级确定方法、装置、设备及存储介质
CN109711535B (zh) 一种利用相似层预测深度学习模型中层计算时间的方法
CN117112449B (zh) 数据治理工具的成熟度评估方法、装置、设备及介质
CN115550259B (zh) 基于白名单的流量分配方法及相关设备
CN113128810B (zh) 评分模型的训练方法、装置、设备及存储介质
CN117056663B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN117093429B (zh) 一种服务器稳定性评价方法及系统
WO2023139640A1 (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination