CN110517071A - 基于机器模型的信息预测方法、装置、设备及存储介质 - Google Patents

基于机器模型的信息预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110517071A
CN110517071A CN201910756466.7A CN201910756466A CN110517071A CN 110517071 A CN110517071 A CN 110517071A CN 201910756466 A CN201910756466 A CN 201910756466A CN 110517071 A CN110517071 A CN 110517071A
Authority
CN
China
Prior art keywords
prediction
data
basic mode
mode type
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910756466.7A
Other languages
English (en)
Inventor
黎洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910756466.7A priority Critical patent/CN110517071A/zh
Publication of CN110517071A publication Critical patent/CN110517071A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于机器模型的信息预测方法、装置、设备及存储介质,所述方法包括:获取当前用户信息以及N个预设参考基模型,所述N大于等于2;从所述当前用户信息中确定初始训练集数据和初始验证集数据;提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据,从而通过融合的方式结合各个基模型的预测结果,保证续保预测的准确性。

Description

基于机器模型的信息预测方法、装置、设备及存储介质
技术领域
本发明涉及的数据处理领域,尤其涉及一种基于机器模型的信息预测方法、装置、设备及存储介质。
背景技术
目前市场上的续保预测方法,主要以单模型方法为主,通过获取当前用户的保险数据,根据所述保险数据基于某一初始模型的基础上建立续保预测模型,从而实现对续保用户的预测,但是针对保险行业数据稀疏和非线性数据的特点,一般情况下,当前续保预测模型明显存在预测精度不高的问题。
发明内容
本发明的主要目的在于提出一种基于机器模型的信息预测方法、装置、设备及存储介质,旨在提高续保预测的准确性。
为实现上述目的,本发明提供一种基于机器模型的信息预测方法,所述基于机器模型的信息预测方法包括以下步骤:
获取当前用户信息以及N个预设参考基模型,所述N大于等于2;
从所述当前用户信息中确定初始训练集数据和初始验证集数据;
提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;
将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;
在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据。
优选地,所述从所述当前用户信息中确定初始训练集数据和初始验证集数据,包括:
获取当前划分规则,提取所述当前划分规则中的划分比例;
根据所述划分比例对所述当前用户信息进行划分;
根据划分结果提取所述当前用户信息中的初始训练集数据和初始验证集数据。
优选地,所述预设参考基模型包括逻辑回归模型、随机森林模型以及梯度提升决策树中至少两项;
所述提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据,包括:
获取所述预设参考基模型的模型数量N,将所述N作为所述训练层数信息;
将所述预设参考基模型根据训练层数按照由少到多的顺序进行排序,将排序后训练层数最少的预设参考基模型作为所述预设初始基模型;
将所述初始训练集数据分为第一训练集数据和第一验证集数据,将所述第一训练集数据输入所述预设初始基模型进行训练,得到第一预测模型,根据所述第一预测模型对所述第一验证集数据进行预测,得到第一参考预测数据;
将所述初始验证集数据放入所述第一预测模型进行预测,得到第一初始预测数据;
将所述第一参考预测数据和所述第一初始预测数据作为所述预设预测数据。
优选地,所述将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据,包括:
获取所述第一参考预测数据以及提取所述预设参数基模型中的下一初始基模型;
将所述第一参考预测数据作为所述下一初始基模型的第二训练集数据,提取所述第二训练集数据的特征信息,将所述特征信息生成特征向量对所述下一初始基模型进行训练,得到下一初始基模型;
获取所述初始验证集数据,将所述初始验证集数据和所述第一初始预测数据放入所述下一初始基模型进行预测,得到下一预测数据。
优选地,所述在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据之后,所述方法还包括:
将所述预设预测数据、所述下一预测数据以及所述第N预测数据进行合并,得到合并后的预测数据矩阵,将合并后的预测数据矩阵作为所述目标预测数据。
优选地,所述将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据之前,所述方法还包括:
获取历史预测模型,根据所述历史预测模型对所述当前用户信息进行评分,得到正确的肯定预测结果、错误的肯定预测结果、正确的否定预测结果以及错误的否定预测结果;
根据所述正确的肯定预测结果、所述错误的肯定预测结果、所述正确的否定预测结果以及所述错误的否定预测结果进行计算得到正确率和召回率;
根据所述正确率和召回率得到所述历史预测模型的评分结果,在所述评分结果满足预设阈值时,将所述历史预测模型作为所述下一初始基模型。
优选地,所述获取当前用户信息以及N个预设参考基模型之前,所述方法还包括:
获取历史用户信息,提取所述历史用户信息中的参数类型信息;
根据所述参数类型信息在预设关系映射表中查找对应的权重值信息,根据所述权重值信息对所述历史用户信息进行调整;
将调整后的历史用户信息作为所述当前用户信息。
此外,为实现上述目的,本发明还提出一种基于机器模型的信息预测装置,所述基于机器模型的信息预测装置包括:
获取模块,用于获取当前用户信息以及N个预设参考基模型,所述N大于等于2;
确定模块,用于从所述当前用户信息中确定初始训练集数据和初始验证集数据;
预测模块,用于提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;
所述预测模块,还用于将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;
判断模块,用于在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据。
此外,为实现上述目的,本发明还提出一种基于机器模型的信息预测设备,所述基于机器模型的信息预测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器模型的信息预测程序,所述基于机器模型的信息预测程序配置为实现如上所述的基于机器模型的信息预测方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于机器模型的信息预测程序,所述基于机器模型的信息预测程序被处理器执行时实现如上文所述的基于机器模型的信息预测方法的步骤。
本发明提出的基于机器模型的信息预测方法,通过获取当前用户信息以及N个预设参考基模型,所述N大于等于2;从所述当前用户信息中确定初始训练集数据和初始验证集数据;提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据,从而通过融合的方式结合各个基模型的预测结果,保证续保预测的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于机器模型的信息预测方法第一实施例的流程示意图;
图3为本发明基于机器模型的信息预测方法第二实施例的流程示意图;
图4为本发明基于机器模型的信息预测方法第三实施例的流程示意图;
图5为本发明基于机器模型的信息预测装置第一实施例的功能模块示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器 1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于机器模型的信息预测程序。
在图1所示的设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的基于机器模型的信息预测程序,并执行本发明实施例提供的基于机器模型的信息预测的实施方法。
基于上述硬件结构,提出本发明基于机器模型的信息预测方法实施例。
参照图2,图2为本发明基于机器模型的信息预测方法第一实施例的流程示意图。
在第一实施例中,所述基于机器模型的信息预测方法包括以下步骤:
步骤S10,获取当前用户信息以及N个预设参考基模型,所述N大于等于2。
需要说明的是,本实施例的执行主体可为续保预测装置,还可为配置为进行续保预测的服务器,还可为其他设备,本实施例对此不作限制,在本实施例中,以续保预测装置为例进行说明。
在本实施例中,主要基于stacking模型建立保险续保预测模型,其中,用于建立的stacking模型中的预设参考基模型至少包括集成逻辑回归模型、随机森林模型、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、 xgboot以及lightgbm模型中至少两项,还可包括其他基模型,本实施例对此不作限制。
可以理解的是,用户可以是集团企业客户,也可以是个人客户,涉及的保险种类可以是面向个人和/或企业的财产保险,也可以是针对个人的健康险或者人身安全险等。所述当前用户信息可以是用户购买的所有保险的数据、用户的资产信息以及用户的基本身份信息,例如可以包括已购保险产品名称、保险类型、业务员、期缴保费、保费总额、用户资产信息、用户年龄信息、用户已购保险的索赔次数以及用户最近一次购买保险的时间等。
步骤S20,从所述当前用户信息中确定初始训练集数据和初始验证集数据。
需要说明的是,为了实现对续保用户预测的准确性,通过提取当前用户信息,将所述当前用户信息中的一部分进行训练,另一部分进行验证,从而保证数据的一致性,提高数据分析的准确性。
步骤S30,提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据。
在本实施例中,由于需建立多个预设参考基模型,通过结合所述预设参考基模型的预测结果,从而提高续保用户预测的准确性,其中,所述预设初始基模型可在所述预设参考基模型中靠前的基模型,从而对所述预测参考基模型进行有序处理。
在具体实现中,通过将当前用户信息划分为初始训练集数据和初始验证集数据,将所述初始训练集数据对所述预设初始基模型进行训练得到第一预测模型,并将所述初始验证集数据放入所述第一预测模型进行预测,得到预设预测数据,从而通过初始基模型对续保用户进行预测。
可以理解的是,为了实现对初始训练集数据和初始验证集数据的识别,可通过对初始训练集数据和初始验证集数据的属性信息中标上预测标签信息,通过所述预设标签信息实现对初始训练集数据和初始验证集数据的识别。
步骤S40,将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据。
需要说明的是,所述下一初始基模型为位于所述预测参考基模型中与所述预设初始基模型的输出作为输入的下一初始基模型,从而可将预设预测数据作为所述下一初始基模型的训练集进行重新建模,再次通过预设预测数据进行进一步的预测,提高续保用户预测的准确性。
步骤S50,在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据。
在本实施例中,由于采用对个预设参考基模型进行预测,因此,需要对当前用户信息进行多次训练,为了避免重复循环,可确定预测次数,在预测数量达到预设数量时,停止预测,将得到的所有续保预测数据组成数据矩阵,从而得到最终的目标预测数据。
本实施例通过上述方案,通过获取当前用户信息以及N个预设参考基模型,所述N大于等于2;从所述当前用户信息中确定初始训练集数据和初始验证集数据;提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据,从而通过融合的方式结合各个基模型的预测结果,保证续保预测的准确性。
在一实施例中,如图3所示,基于第一实施例提出本发明基于机器模型的信息预测方法第二实施例,在本实施例中,所述步骤S20,包括:
获取当前划分规则,提取所述当前划分规则中的划分比例;根据所述划分比例对所述当前用户信息进行划分;根据划分结果提取所述当前用户信息中的初始训练集数据和初始验证集数据。
在具体实现中,可通过获取当前划分规则,提取所述当前划分规则中的第一划分比例,根据所述第一划分比例将所述当前用户信息进行划分,根据划分结果获取所述当前用户信息中的第一训练集数据和第一验证集数据。
需要说明的是,所述当前划分规则可为包括划分比例进行划分,例如,按照1:4的比例进行划分,将80%的数据作为训练集数据,将20%的数据作为验证集数据,还可包括预设数据量进行选取,例如将数据中的8000数据量作为训练集数据,将剩余数据作为验证集数据,本实施例对此不作限制,在本实施例中,以预设比例进行说明。
在具体实现中,通过预设初始基模型,例如用一个基础模型进行5折交叉验证,如:用XGBoot作为基础模型Model1,5折交叉验证为先拿出4折作为训练集,另外一折作为验证集,在stacking中此部分数据会用到整个训练集,如:假设整个训练集包含10000行数据,验证集包含2500行数据,那么每一次交叉验证其实就是对训练集进行划分,每一次的交叉验证中训练数据将会是8000行,验证数据是2000行,从而实现对当前用户信息的划分。
在获取所述第一训练集数据和第一验证集数据时,提取所述当前划分规则中的第二划分比例,根据所述第二划分比例将所述当前用户信息进行划分,根据划分结果获取所述当前用户信息中的第二训练集数据和第二验证集数据。
在本实施例中,可进行多次数据训练,由于在进行5折交叉验证时,需要进行5次的训练,在进行第二次训练时,可转化为2:3的比例进行数据划分,从而实现数据处理的灵活性,最大限度的提高数据处理的准确性。
在一实施例中,所述步骤S30,包括:
获取所述预设参考基模型的模型数量N,将所述N作为所述训练层数信息;将所述预设参考基模型根据训练层数按照由少到多的顺序进行排序,将排序后训练层数最少的预设参考基模型作为所述预设初始基模型。
需要说明的是,由于本市实施例中采用不同类型的多个预设参考基模型,为了实现对预设参考基模型的管理,可通过预设参考基模型的层数进行排序,将复杂的预设参考基模型放在后边进行数据处理,将简单的预设参考基模型先对用户数据进行预先处理,从而提高数据处理的效率。
将所述初始训练集数据分为第一训练集数据和第一验证集数据,将所述第一训练集数据输入所述预设初始基模型进行训练,得到第一预测模型,根据所述第一预测模型对所述第一验证集数据进行预测,得到第一参考预测数据。
在本实施例中,为了实现续保模型的生成,具体为通过将所述初始训练集数据分为第一训练集数据和第一验证集数据,将所述第一训练集数据输入所述预设初始基模型进行训练,得到第一预测模型,第一验证集数据输入预设初始基模型进行预测,得到第一参考预测数据,从而实现初始模型的数据预测。
将所述初始验证集数据放入所述第一预测模型进行预测,得到第一初始预测数据,将所述第一参考预测数据和所述第一初始预测数据作为所述预设预测数据。
在一实施例中,所述步骤S40,所述方法还包括:
步骤S401,获取所述第一参考预测数据以及提取所述预设参数基模型中的下一初始基模型;
在本实施例中,每一次的交叉验证包括两个过程,先是基于训练集训练模型,然后训练集训练生成的模型对验证集数据进行预测在整个第一次的交叉验证完成之将会得到关于当前验证集的预测值,这将会是一个一维2000行的数据,在这部分操作完成后,还要对数据集原来的整个验证集进行预测,这个过程会生成2500个预测值,这部分预测值将会作为下一层模型训练集的一部分,记为b1。因为进行的是5折交叉验证,所以以上提及的过程将会进行五次,最终会生成针对第一验证集数据预测的5列2000行的数据 a1,a2,a3,a4,a5,对原始验证集的预测会是5列2500行数据b1,b2,b3,b4,b5。
步骤S402,将所述第一参考预测数据作为所述下一初始基模型的第二训练集数据,提取所述第二训练集数据的特征信息,将所述特征信息生成特征向量对所述下一初始基模型进行训练,得到下一初始基模型。
在具体实现中,通过提取所述初始训练集数据中的特征信息,根据所述特征信息生成多维训练向量信息,将所述多维向量信息放入第一预测模型中进行训练,得到当前续保预测模型,从而实现通过机器模型对续保用户的预测。
步骤S403,获取所述初始验证集数据,将所述初始验证集数据和所述第一初始预测数据放入所述下一初始基模型进行预测,得到下一预测数据。
在本实施例中,在完成对Model1的整个步骤之后,可以发现 a1,a2,a3,a4,a5其实就是对原来整个训练集的预测值,进行拼凑起来,会形成一个10000行一列的矩阵,记为A1。而对于b1,b2,b3,b4,b5这部分数据,将各部分相加取平均值,得到一个2500行一列的矩阵,记为B1,从而实现多个模型的预测结果。
本实施例提供的方案,通过将前一训练模型中的预测数据作为下一训练模型的预测数据,并将前一训练模型中的验证数据作为下一模型的验证数据,从而实现多个模型在结合过程中的数据处理,实现多个模型预测结果的融合,提高预测的准确性。
在一实施例中,如图4所示,基于第一实施例或第二实施例提出本发明基于机器模型的信息预测方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤S50之后,所述方法还包括:
将所述预设预测数据、所述下一预测数据以及所述第N预测数据进行合并,得到合并后的预测数据矩阵,将合并后的预测数据矩阵作为所述目标预测数据。
在具体实现中,stacking模型中同一层通常包含多个模型,假设还有基模型2:逻辑回归,基模型3:随机森林,基模型4:GBDT以及基模型5:向量机,对于这四个模型,可以重复以上的步骤,在整个流程结束之后,可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩阵。
在此之后,把A1,A2,A3,A4,A5并列合并得到一个10000行五列的矩阵作为训练集数据,B1,B2,B3,B4,B5并列合并得到一个2500行五列的矩阵作为验证集数据,输出至下一层的模型进行进一步训练。
在一实施例中,所述步骤S40之前,所述方法还包括:
步骤S404,获取历史预测模型,根据所述历史预测模型对所述当前用户信息进行评分,得到正确的肯定预测结果、错误的肯定预测结果、正确的否定预测结果以及错误的否定预测结果。
此外,为了预测用户的续保行为,就需要根据续保概率给用户评分,看下个月预测用户是否续保,使用F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率和召回率, F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0。
步骤S405,根据所述正确的肯定预测结果、所述错误的肯定预测结果、所述正确的否定预测结果以及所述错误的否定预测结果进行计算得到正确率和召回率。
需要说明的是,所述正确的肯定预测结果表示为True Positive(TP)意思表示做出肯定的判定,而且判定是正确的,因此,TP的数值表示正确的肯定判定的个数,同理,所述错误的肯定预测结果表示为False Positive(TP) 数值表示错误的肯定判定的个数,依此,正确的否定预测结果为True Negative (TN)数值表示正确的否定判定个数,错误的否定预测结果为False Negative (FN)数值表示错误的否定判定个数。
步骤S406,根据所述正确率和召回率得到所述历史预测模型的评分结果,在所述评分结果满足预设阈值时,将所述历史预测模型作为所述下一初始基模型。
在本实施例中,其中正确率表示为precision,召回率表示为recall,根据方式precision=TP/(TP+FP),recall=TP/(TP+FN),F1 Score= 2*P*R/(P+R),其中P和R分别为precision和recall,从而实现对续保预测模型的验证。
需要说明的是,所述预设阈值为百分比90%,还可为其他参数,本实施例对此不作限制。
在一实施例中,所述步骤S10之前,所述方法还包括:
获取历史用户信息,提取所述历史用户信息中的参数类型信息;根据所述参数类型信息在预设关系映射表中查找对应的权重值信息,根据所述权重值信息对所述历史用户信息进行调整;将调整后的历史用户信息作为所述当前用户信息。
在具体实现中,还可在获得了用户对应的用户数据后,对用户数据进行预处理,例如,根据该用户购买的所有保险产品的名称,将用户购买保险产品的全部数量相加得到用户持有保险产品的总数、用户购买这些保险产品的期缴保费各需要多少、期缴保费总计有多少都进行统计,即根据原始数据处理后得到后续需要判断的条件数据。针对不同的待预测保险业务对应的预设的基准算法可以是相同的也可以是不同的,例如,已经买了商业医疗保险的用户,对同质同类的商业医疗保险的续保概率可能较低,而对意外伤害险或者其他理财型保险的续保概率可能较高,针对不同的待预测保险业务对应的预设的基准算法可以采用不同的预估算法,从而实现对当前用户信息进行归一化处理。
本实施例提供的方案,通过评分的方式对预测模型进行评分,根据评分结果得到预测模型中精度较高的目标预测续保用户模型,从而进一步提高对续保用户预测的准确性。
本发明进一步提供一种基于机器模型的信息预测装置。
参照图5,图5为本发明基于机器模型的信息预测装置第一实施例的功能模块示意图。
本发明基于机器模型的信息预测装置第一实施例中,该基于机器模型的信息预测装置包括:
获取模块10,用于获取当前用户信息以及N个预设参考基模型,所述N 大于等于2。
需要说明的是,本实施例的执行主体可为续保预测装置,还可为配置为进行续保预测的服务器,还可为其他设备,本实施例对此不作限制,在本实施例中,以续保预测装置为例进行说明。
在本实施例中,主要基于stacking模型建立保险续保预测模型,其中,用于建立的stacking模型中的预设参考基模型至少包括集成逻辑回归模型、随机森林模型、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、 xgboot以及lightgbm模型中至少两项,还可包括其他基模型,本实施例对此不作限制。
可以理解的是,用户可以是集团企业客户,也可以是个人客户,涉及的保险种类可以是面向个人和/或企业的财产保险,也可以是针对个人的健康险或者人身安全险等。所述当前用户信息可以是用户购买的所有保险的数据、用户的资产信息以及用户的基本身份信息,例如可以包括已购保险产品名称、保险类型、业务员、期缴保费、保费总额、用户资产信息、用户年龄信息、用户已购保险的索赔次数以及用户最近一次购买保险的时间等。
确定模块20,用于从所述当前用户信息中确定初始训练集数据和初始验证集数据。
需要说明的是,为了实现对续保用户预测的准确性,通过提取当前用户信息,将所述当前用户信息中的一部分进行训练,另一部分进行验证,从而保证数据的一致性,提高数据分析的准确性。
预测模块30,用于提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据。
在本实施例中,由于需建立多个预设参考基模型,通过结合所述预设参考基模型的预测结果,从而提高续保用户预测的准确性,其中,所述预设初始基模型可在所述预设参考基模型中靠前的基模型,从而对所述预测参考基模型进行有序处理。
在具体实现中,通过将当前用户信息划分为初始训练集数据和初始验证集数据,将所述初始训练集数据对所述预设初始基模型进行训练得到第一预测模型,并将所述初始验证集数据放入所述第一预测模型进行预测,得到预设预测数据,从而通过初始基模型对续保用户进行预测。
可以理解的是,为了实现对初始训练集数据和初始验证集数据的识别,可通过对初始训练集数据和初始验证集数据的属性信息中标上预测标签信息,通过所述预设标签信息实现对初始训练集数据和初始验证集数据的识别。
所述预测模块30,还用于将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据。
需要说明的是,所述下一初始基模型为位于所述预测参考基模型中与所述预设初始基模型的输出作为输入的下一初始基模型,从而可将预设预测数据作为所述下一初始基模型的训练集进行重新建模,再次通过预设预测数据进行进一步的预测,提高续保用户预测的准确性。
判断模块40,用于在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据。
在本实施例中,由于采用对个预设参考基模型进行预测,因此,需要对当前用户信息进行多次训练,为了避免重复循环,可确定预测次数,在预测数量达到预设数量时,停止预测,将得到的所有续保预测数据组成数据矩阵,从而得到最终的目标预测数据。
本实施例通过上述方案,通过获取当前用户信息以及N个预设参考基模型,所述N大于等于2;从所述当前用户信息中确定初始训练集数据和初始验证集数据;提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据,从而通过融合的方式结合各个基模型的预测结果,保证续保预测的准确性。
本发明所述基于机器模型的信息预测装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,为实现上述目的,本发明还提出一种基于机器模型的信息预测设备,所述基于机器模型的信息预测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器模型的信息预测程序,所述基于机器模型的信息预测程序配置为实现如上文所述的基于机器模型的信息预测方法的步骤。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于机器模型的信息预测程序,所述基于机器模型的信息预测程序被处理器执行如上文所述的基于机器模型的信息预测方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于机器模型的信息预测方法,其特征在于,所述基于机器模型的信息预测方法包括:
获取当前用户信息以及N个预设参考基模型,所述N大于等于2;
从所述当前用户信息中确定初始训练集数据和初始验证集数据;
提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;
将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;
在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据。
2.如权利要求1所述的基于机器模型的信息预测方法,其特征在于,所述从所述当前用户信息中确定初始训练集数据和初始验证集数据,包括:
获取当前划分规则,提取所述当前划分规则中的划分比例;
根据所述划分比例对所述当前用户信息进行划分;
根据划分结果提取所述当前用户信息中的初始训练集数据和初始验证集数据。
3.如权利要求1所述的基于机器模型的信息预测方法,其特征在于,所述预设参考基模型包括逻辑回归模型、随机森林模型以及梯度提升决策树中至少两项;
所述提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据,包括:
获取所述预设参考基模型的模型数量N,将所述N作为所述训练层数信息;
将所述预设参考基模型根据训练层数按照由少到多的顺序进行排序,将排序后训练层数最少的预设参考基模型作为所述预设初始基模型;
将所述初始训练集数据分为第一训练集数据和第一验证集数据,将所述第一训练集数据输入所述预设初始基模型进行训练,得到第一预测模型,根据所述第一预测模型对所述第一验证集数据进行预测,得到第一参考预测数据;
将所述初始验证集数据放入所述第一预测模型进行预测,得到第一初始预测数据;
将所述第一参考预测数据和所述第一初始预测数据作为所述预设预测数据。
4.如权利要求3所述的基于机器模型的信息预测方法,其特征在于,所述将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据,包括:
获取所述第一参考预测数据以及提取所述预设参数基模型中的下一初始基模型;
将所述第一参考预测数据作为所述下一初始基模型的第二训练集数据,提取所述第二训练集数据的特征信息,将所述特征信息生成特征向量对所述下一初始基模型进行训练,得到下一初始基模型;
获取所述初始验证集数据,将所述初始验证集数据和所述第一初始预测数据放入所述下一初始基模型进行预测,得到下一预测数据。
5.如权利要求1至4中任一项所述的基于机器模型的信息预测方法,其特征在于,所述在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据之后,所述方法还包括:
将所述预设预测数据、所述下一预测数据以及所述第N预测数据进行合并,得到合并后的预测数据矩阵,将合并后的预测数据矩阵作为所述目标预测数据。
6.如权利要求1至4中任一项所述的基于机器模型的信息预测方法,其特征在于,所述将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据之前,所述方法还包括:
获取历史预测模型,根据所述历史预测模型对所述当前用户信息进行评分,得到正确的肯定预测结果、错误的肯定预测结果、正确的否定预测结果以及错误的否定预测结果;
根据所述正确的肯定预测结果、所述错误的肯定预测结果、所述正确的否定预测结果以及所述错误的否定预测结果进行计算得到正确率和召回率;
根据所述正确率和召回率得到所述历史预测模型的评分结果,在所述评分结果满足预设阈值时,将所述历史预测模型作为所述下一初始基模型。
7.如权利要求1至4中任一项所述的基于机器模型的信息预测方法,其特征在于,所述获取当前用户信息以及N个预设参考基模型之前,所述方法还包括:
获取历史用户信息,提取所述历史用户信息中的参数类型信息;
根据所述参数类型信息在预设关系映射表中查找对应的权重值信息,根据所述权重值信息对所述历史用户信息进行调整;
将调整后的历史用户信息作为所述当前用户信息。
8.一种基于机器模型的信息预测装置,其特征在于,所述基于机器模型的信息预测装置包括:
获取模块,用于获取当前用户信息以及N个预设参考基模型,所述N大于等于2;
确定模块,用于从所述当前用户信息中确定初始训练集数据和初始验证集数据;
预测模块,用于提取所述预设参数基模型中的预设初始基模型,根据所述初始训练集数据和所述初始验证集数据对所述预设初始基模型进行预测,得到预设预测数据;
所述预测模块,还用于将所述预设预测数据输入下一初始基模型,通过所述下一初始基模型进行预测,得到下一预测数据;
判断模块,用于在预测次数达到所述预设参考基模型的模型数量N时,停止预测,得到第N预测数据,将所述第N预测数据作为目标预测数据。
9.一种基于机器模型的信息预测设备,其特征在于,所述基于机器模型的信息预测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器模型的信息预测程序,所述基于机器模型的信息预测程序配置为实现如权利要求1至7中任一项所述的基于机器模型的信息预测方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于机器模型的信息预测程序,所述基于机器模型的信息预测程序被处理器执行时实现如权利要求1至7中任一项所述的基于机器模型的信息预测方法的步骤。
CN201910756466.7A 2019-08-15 2019-08-15 基于机器模型的信息预测方法、装置、设备及存储介质 Pending CN110517071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910756466.7A CN110517071A (zh) 2019-08-15 2019-08-15 基于机器模型的信息预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910756466.7A CN110517071A (zh) 2019-08-15 2019-08-15 基于机器模型的信息预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110517071A true CN110517071A (zh) 2019-11-29

Family

ID=68626199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910756466.7A Pending CN110517071A (zh) 2019-08-15 2019-08-15 基于机器模型的信息预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110517071A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310931A (zh) * 2020-02-05 2020-06-19 北京三快在线科技有限公司 参数生成方法、装置、计算机设备及存储介质
CN112906554A (zh) * 2021-02-08 2021-06-04 智慧眼科技股份有限公司 基于视觉图像的模型训练优化方法、装置及相关设备
WO2021189975A1 (zh) * 2020-08-28 2021-09-30 平安科技(深圳)有限公司 机器行为识别方法、装置、设备及计算机可读存储介质
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310931A (zh) * 2020-02-05 2020-06-19 北京三快在线科技有限公司 参数生成方法、装置、计算机设备及存储介质
WO2021189975A1 (zh) * 2020-08-28 2021-09-30 平安科技(深圳)有限公司 机器行为识别方法、装置、设备及计算机可读存储介质
CN112906554A (zh) * 2021-02-08 2021-06-04 智慧眼科技股份有限公司 基于视觉图像的模型训练优化方法、装置及相关设备
CN112906554B (zh) * 2021-02-08 2022-12-23 智慧眼科技股份有限公司 基于视觉图像的模型训练优化方法、装置及相关设备
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Similar Documents

Publication Publication Date Title
CN110517071A (zh) 基于机器模型的信息预测方法、装置、设备及存储介质
CN109461070A (zh) 一种风险审批方法、装置、存储介质和服务器
CN110929879A (zh) 基于决策引擎和模型平台的业务决策逻辑更新方法
CN108717638A (zh) 欺诈交易判断方法、装置、计算机设备和存储介质
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN106875206A (zh) 信息获取、评估、问卷调查方法、装置及服务器
CN109872232A (zh) 涉及非法所得合法化行为的账户分类方法、装置、计算机设备及存储介质
CN110276369A (zh) 基于机器学习的特征选择方法、装置、设备及存储介质
CN109816390A (zh) 基于交易数据的反欺诈分析处理方法、装置和计算机设备
CN110059854A (zh) 用于风险识别的方法及装置
CN109615280A (zh) 员工数据处理方法、装置、计算机设备和存储介质
CN109670797A (zh) 支付路由选取方法、装置、设备及存储介质
CN107798341A (zh) 用户意图预测方法、电子设备及计算机可读存储介质
CN110288350A (zh) 用户价值预测方法、装置、设备及存储介质
CN108197742A (zh) 用户的续保行为预测方法、系统及计算机可读存储介质
CN104778591A (zh) 一种异常行为的特征信息的提取、识别方法和装置
CN110276677A (zh) 基于大数据平台的还款预测方法、装置、设备及存储介质
CN108038655A (zh) 部门需求的推荐方法、应用服务器及计算机可读存储介质
CN107862425A (zh) 风控数据采集方法、设备、系统及可读存储介质
CN109670933A (zh) 识别用户角色的方法、用户设备、存储介质及装置
CN110532461A (zh) 信息平台推送方法、装置、计算机设备及存储介质
CN109242307A (zh) 一种反欺诈策略分析方法、服务器、电子设备及存储介质
CN109461069A (zh) 基于业务节点的风控方法、装置、设备及可读存储介质
CN108133069A (zh) 集成电路后端设计系统及方法
CN110135937A (zh) 产品的智能推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication