CN110084627A - 预测目标变量的方法和装置 - Google Patents

预测目标变量的方法和装置 Download PDF

Info

Publication number
CN110084627A
CN110084627A CN201810063962.XA CN201810063962A CN110084627A CN 110084627 A CN110084627 A CN 110084627A CN 201810063962 A CN201810063962 A CN 201810063962A CN 110084627 A CN110084627 A CN 110084627A
Authority
CN
China
Prior art keywords
data
target variable
life
model
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810063962.XA
Other languages
English (en)
Inventor
解鹏
张雯
曲以元
黄雪娟
张兴思
曲洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Financial Technology Holding Co Ltd
Original Assignee
Beijing Jingdong Financial Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Financial Technology Holding Co Ltd filed Critical Beijing Jingdong Financial Technology Holding Co Ltd
Priority to CN201810063962.XA priority Critical patent/CN110084627A/zh
Publication of CN110084627A publication Critical patent/CN110084627A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种预测目标变量的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取特征数据和模型标识;确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;将特征数据输入所述预测模型中,预测目标变量。采用机器学习训练的模型预测目标变量,避免了采用广义线性模型时因目标变量分布不规律、数学分布拟合不佳造成的链接函数选取不准确的问题。直接对目标变量进行建模,通过机器学习得到的预测模型相较于传统的广义线性模型在特征空间划分更为灵活,预测的目标变量也更精准。

Description

预测目标变量的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种预测目标变量的方法和装置。
背景技术
现有技术中预测目标变量大多采用广义线性模型GLM(Gerneralized LinearModel),而广义线性模型的前提是目标变量满足某个数学分布,根据该数学分布选取恰当的链接函数。例如,在汽车保险领域,采用广义线性模型,引入从车因子和合理的风险分布估计,确定恰当的链接函数,来实现较为合理的车险定价。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1.建立广义线性模型的前提是找到合适的链接函数即找到目标变量满足的数学分布,然而数据分布决定因素错综复杂且和数据量相关,通常难以用某一种分布来完全描述,给建模带来不确定性。
2.随着数据特征的不断引入,模型特征空间不断加大,非线性特点越来越显著,即使按照一些显著分类变量进行划分后再用广义线性模型进行建模,线性组合因子的模型也已经不能胜任这种复杂数据特点,随着数据量的加大,线性模型的特征空间分辨率将会滞后于数据在特征空间的分辨率,从而导致其预测能力的下降。
发明内容
有鉴于此,本发明实施例提供一种预测目标变量的方法和装置,采用机器学习训练的模型预测目标变量,避免了采用广义线性模型时因目标变量分布不规律、数学分布拟合不佳造成的链接函数选取不准确的问题。直接对目标变量进行建模,通过机器学习得到的预测模型相较于传统的广义线性模型在特征空间划分更为灵活,预测的目标变量也更精准。
为实现上述目的,根据本发明实施例的一个方面,提供了一种预测目标变量的方法,包括:获取特征数据和模型标识;确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;将特征数据输入所述预测模型中,预测目标变量。
可选地,获取特征数据包括:根据特征因子获取特征数据;所述特征数据是根据特征因子生成的多维度数据;所述模型标识包括非寿险的种类;所述目标变量包括以下各项中的一项:赔付次数、赔付总额、赔付案均、赔付率。
可选地,所述非寿险包括:汽车保险中的交强险、三者险和车损险;所述特征因子包括以下各项中的至少一项:从人因子、从车因子、从环境因子。
可选地,训练机器学习模型得到预测模型包括:在已投保用户的从人因子、从车因子、从环境因子的数据源中进行查找、匹配、计算、归并,按照预先设置的初始特征逻辑定义得到历史特征数据,已投保用户发生的风险赔付作为历史目标变量,将历史特征数据和历史目标变量作为样本数据;根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据;将所述非寿险的历史特征数据及所述非寿险对应的历史目标变量作为样本集;采用机器学习划分方法,将样本集随机打乱后,按照比例将样本集划分为训练集和测试集;划分的依据是随机打乱后会最大限度保证训练集和测试集的数据分布趋于一致,满足独立同分布的假设;采用训练集训练机器学习模型;采用测试集测试已完成训练的机器学习模型,以得到预测模型;且所述非寿险的种类与该预测模型对应。
可选地,所述确定该险种的历史特征数据之后,包括:对该险种的历史特征数据进行数据处理;其中,所述数据处理包括:删除异常数据和不完整数据、特征衍生、数据降维、数据分段和数据编码。
可选地,根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据,包括:获取所述非寿险对应的历史目标变量;计算所述历史特征数据的每个维度的数据与所述非寿险对应的历史目标变量的相关系数或区分度或贡献度;按照相关系数或区分度或贡献度从大到小的顺序,对所述历史特征数据的每个维度的数据进行排序;将所述排序中的前N个维度的数据作为所述非寿险的历史特征数据,N为正整数。
为实现上述目的,根据本发明实施例的另一方面,提供了一种预测目标变量的装置,包括:数据获取模块、模型确定模块、预测模块;所述数据获取模块,用于:获取特征数据和模型标识;所述模型确定模块,用于:确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;所述预测模块,用于:将特征数据输入所述预测模型中,预测目标变量。
可选地,所述数据获取模块,用于:根据特征因子获取特征数据;所述特征数据是根据特征因子生成的多维度数据;所述模型标识包括非寿险的种类;所述目标变量包括以下各项中的一项:赔付次数、赔付总额、赔付案均、赔付率。
可选地,所述非寿险包括:汽车保险中的交强险、三者险和车损险;所述特征因子包括以下各项中的至少一项:从人因子、从车因子、从环境因子。
可选地,所述装置包括训练模块;所述训练模块,用于:在已投保用户的从人因子、从车因子、从环境因子的数据源中进行查找、匹配、计算、归并,按照预先设置的初始特征逻辑定义得到历史特征数据,已投保用户发生的风险赔付作为历史目标变量,将历史特征数据和历史目标变量作为样本数据;根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据;将所述非寿险的历史特征数据及所述非寿险对应的历史目标变量作为样本集;采用机器学习划分方法,将样本集随机打乱后,按照比例将样本集划分为训练集和测试集;划分的依据是随机打乱后会最大限度保证训练集和测试集的数据分布趋于一致,满足独立同分布的假设;采用训练集训练机器学习模型;采用测试集测试已完成训练的机器学习模型,以得到预测模型;且所述非寿险的种类与该预测模型对应。
可选地,所述训练模块,还用于:对该险种的历史特征数据进行数据处理;其中,所述数据处理包括:删除异常数据和不完整数据、特征衍生、数据降维、数据分段和数据编码。
可选地,所述训练模块,用于:获取所述非寿险对应的历史目标变量;计算所述历史特征数据的每个维度的数据与所述非寿险对应的历史目标变量的相关系数或区分度或贡献度;按照相关系数或区分度或贡献度从大到小的顺序,对所述历史特征数据的每个维度的数据进行排序;将所述排序中的前N个维度的数据作为所述非寿险的历史特征数据,N为正整数。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所提供的预测目标变量的方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的预测目标变量的方法。
上述发明中的一个实施例具有如下优点或有益效果:采用机器学习训练的模型预测目标变量,避免了采用广义线性模型时因目标变量分布不规律、数学分布拟合不佳造成的链接函数选取不准确的问题。直接对目标变量进行建模,通过机器学习得到的预测模型相较于传统的广义线性模型在特征空间划分更为灵活,预测的目标变量也更精准。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的预测目标变量的方法的基本流程的示意图;
图2为本发明实施例中采用机器学习训练得到预测模型的示意图;
图3a~3d为本发明实施例中采用机器学习训练得到预测模型的数据示意图;
图4是根据本发明实施例的预测目标变量的装置的基本模块的示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的预测目标变量的方法的基本流程的示意图;如图1所示,为实现上述目的,根据本发明实施例的一个方面,提供了一种预测目标变量的方法,可以包括:
步骤S101.获取特征数据和模型标识;
步骤S102.从模型集合中确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;
步骤S103.将特征数据输入所述预测模型中,预测目标变量。
模型集合中包括多个通过训练机器学习模型得到的预测模型。所述机器学习可以包括但不限于:基于线性模型及其正则约束、决策树及其集成法、支持向量机、贝叶斯学习、神经网络深度学习。基于线性模型及其正则约束包括但不限于:逻辑回归、拉索lasso回归、岭回归及弹性网络。决策树及其集成法可以包括但不限于:随机森林、ada-boost算法、梯度提升回归GBR(Gradient Boosting Regression)、xgboost算法。本发明实施例采用机器学习训练的模型预测目标变量,避免了采用广义线性模型时因目标变量分布不规律、数学分布拟合不佳造成的链接函数选取不准确的问题。直接对目标变量进行建模,通过机器学习得到的预测模型相较于传统的广义线性模型在特征空间划分更为灵活,预测的目标变量也更精准。
本发明实施例中,获取特征数据包括:根据特征因子获取特征数据;所述特征数据是根据特征因子生成的多维度数据;所述模型标识包括非寿险的种类;所述目标变量包括以下各项中的一项:赔付次数、赔付总额、赔付案均、赔付率。寿险即人寿保险,是一种以人的生死为保险对象的保险,非寿险即除人寿保险以外的其他保险。赔付次数是指在保险的有效期间,发生赔付的总次数。赔付总额是指在保险的有效期间,发生赔付的总金额。赔付案均赔付总额是指在保险的有效期间,平均每次赔付的金额。赔付率是指在保险的有效期间,该保险的赔付总额与保费的比值。本发明实施例可以应用于非寿险的保险风险评估中,增强了非寿险不同风险的区分能力,提高非寿险风险分级的准确性,进而还可以有针对性地制定非寿险差异化定价策略。
本发明实施例中,所述非寿险可以包括但不限于:汽车保险;汽车保险又可以分为:交强险、车损险、三者险及其他一系列细分的小险种。所述特征因子包括以下各项中的至少一项:从人因子、从车因子、从环境因子。从人因子可以包括但不限于:驾驶人的身份信息、消费记录、信用记录、用户画像、位置信息。从车因子可以包括但不限于:车型、购置价、座位数、排气量、整备质量、吨位数、车龄。从环境因子可以包括但不限于:出险的发生时间、发生地点、天气状况、车流密度、地点风险等级。所述特征数据是根据特征因子生成的多维度数据,从人因子、从车因子、从环境因子中的每一项信息就是特征数据中的一个维度数据。表1为特征数据中的特征因子表,如表1所示,特征数据中包括了消费记录、信用记录、车型、座位数、排气量、天气状况、车流密度7个维度的数据,表中每一列是一个维度数据。
表1为特征数据中的特征因子表
现有技术中单纯依靠传统的从车因子进行广义线性建模,忽略了其他特征因子以及特征因子之间的相互关系,只有当各特征因子之间是相互独立时候,采用广义线性模型的方法所得到的结果才更为可靠。因此本发明实施例通过机器学习对由从人因子、从车因子、从环境因子生成的多维度数据进行分析,可以更全面的获取数据的特性,提高目标变量的准确性;每个具体的险种都可以用一个模型标识来表明,细分保险种类可以有针对性地获取特定险种下的目标变量。
本发明实施例中,训练机器学习模型得到预测模型可以包括:从数据库中获取样本数据,所述样本数据包括历史特征数据和历史目标变量;根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据;将所述非寿险的历史特征数据及所述非寿险对应的历史目标变量作为样本集;采用随机抽样法,将所述样本集分为训练集和测试集;采用训练集训练机器学习模型,更新模型参数;采用测试集测试已完成训练的机器学习模型,输出测试集目标变量的预测值进行模型性能验证,验证通过后,将已完成训练的机器学习模型作为预测模型;且所述非寿险的种类与该预测模型对应。本发明实施例可以通过交叉验证及调整更新模型参数、优化目标函数等方式不断优化模型在测试集上的性能;根据不同的险种筛选合适的特征数据进行机器学习模型的训练可以有针对性地获取特定险种下的目标变量,使得获取的结果更加精确。样本数据的获取是从已投保用户从人、从车、从环境等数据源中进行查找、匹配、计算、归并等操作,按照事先设计好的初始特征逻辑定义得到相应的特征,已投保用户发生的风险赔付作为目标变量,两者共同构成样本数据。本发明实施例可以采用机器学习的划分方法,将样本集随机打乱后,按照比例将样本集划分为训练集和测试集;划分的依据是随机打乱后会最大限度保证训练集和测试集的数据分布趋于一致,满足独立同分布的假设。
本发明实施例中,所述确定该险种的历史特征数据之后,可以包括:对该险种的历史特征数据进行数据处理;其中,所述数据处理可以包括但不限于:删除异常数据即异常值、删除不完整数据、特征衍生、数据降维、数据分段和数据编码。不完整数据是指缺少应有的特征因子。本发明实施例在筛选出历史特征数据之后,对该数据进行一系列的数据处理,可以提高样本集中数据的质量,使得获取的结果更加精确。充分考虑已有特征因子间的相互作用,通过特征衍生挖掘出新的特征因子,在原有特征因子的基础上增加了更为显著的数据特征,可以提高预测模型的准确性。由于样本集数据量巨大,通过数据降维可以提高训练的运算速度。可以采用传统的数据分段对数据进行等频、等值、聚类等分段,也可以采用自动化择优分段的工具,针对不同特征选取恰当的分段方式。
本发明实施例中,根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据,包括:获取所述非寿险对应的历史目标变量;计算所述历史特征数据的每个维度的数据与所述非寿险对应的历史目标变量的相关系数或区分度或贡献度;按照相关系数或区分度或贡献度从大到小的顺序,对所述历史特征数据的每个维度的数据进行排序;将所述排序中的前N个维度的数据作为所述非寿险的历史特征数据,N为正整数。在本发明实施例中,可以对相关系数、区分度和贡献度全部计算或选择一项计算,在排序时,可以选择按照相关系数、区分度、贡献度其中之一进行排序,也可以按照相关系数进行排序,若有相等的值则按区分度进行排序,若再有相等的值按照贡献度进行排序。以上排序时,相关系数、区分度、贡献度之间并无权重分别。本发明实施例根据不同的险种筛选合适的特征数据进行机器学习模型的训练可以有针对性地获取特定险种下的目标变量,使得获取的结果更加精确。
图2为本发明实施例中采用机器学习训练得到预测模型的示意图;如图2所示,获取样本数据,所述样本数据包括历史特征数据和历史目标变量;历史特征数据可以包括但不限于:从人因子、从车因子、从环境因子。例如,历史特征数据中包括了表1中的消费记录、信用记录、车型、座位数、排气量、天气状况、车流密度7个维度的数据。根据汽车保险的险种进行特征的筛选,从历史特征数据中确定该险种的历史特征数据。计算所述历史特征数据的每个维度的数据与所述非寿险对应的历史目标变量的相关系数,并按照相关系数从大到小的顺序,对所述历史特征数据的每个维度的数据进行排序,将所述排序中的前4个维度的数据作为该险种的历史特征数据。例如,经筛选后该险种的历史特征数据包括:消费记录、信用记录、车型、天气状况4个维度的数据。对该险种的历史特征数据进行删除异常值和缺失值、特征衍生、数据降维、数据分段和数据编码等一系列的数据处理后,将处理后的该险种的历史特征数据及该险种的历史目标变量作为样本集;将所述样本集随机分为训练集和测试集;采用训练集训练机器学习模型,输入训练集的历史特征数据,输出训练集的目标变量的预测值,更新模型参数;采用测试集测试已完成训练的机器学习模型,输入测试集的历史特征数据,输出测试集的目标变量的预测值进行模型性能验证,验证通过后,将该已完成训练的机器学习模型作为与该险种对应的预测模型。对通过样本集得到的目标变量的预测值按照大小顺序排列后,进行风险等级划分。在应用该预测模型时,通过预测的目标变量,可直接通过风险等级划分获得该值所代表的风险等级,供下游保险出单或精算统计使用。
图3a~3d为本发明实施例中采用机器学习训练的数据示意图;如图3a所示,汽车保险的险种可以分为:三者险、交强险、车损险,根据汽车保险的险种对历史特征数据进行特征的筛选,从历史特征数据中确定每个险种的历史特征数据:三者险的历史特征数据、交强险的历史特征数据、车损险的历史特征数据。对筛选出的历史特征数据进行删除异常值和缺失值、特征衍生、数据降维、数据分段和数据编码等数据处理,如图3b所示,三者险的历史特征数据的特征从车1进行数据分段、数据编码。如图3c所示,获得样本集后,采用随机抽样法,将样本集分为训练集和测试集。采用训练集训练机器学习模型,输出训练集目标变量的预测值;采用测试集测试已完成训练的机器学习模型,输出测试集目标变量的预测值进行模型性能验证,验证通过后,获得三者险对应的预测模型。如图3d所示,按照通过样本集得到的目标变量的预测值的大小顺序排列目标变量的预测值,并对其进行风险等级划分。
图4是根据本发明实施例的预测目标变量的装置的基本模块的示意图;如图4所示,本发明实施例提供了一种预测目标变量的装置400,可以包括:数据获取模块401、模型确定模块402、预测模块403;所述数据获取模块401,可以用于:获取特征数据和模型标识;所述模型确定模块402,可以用于:确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;所述预测模块403,可以用于:将特征数据输入所述预测模型中,预测目标变量。
本发明实施例采用机器学习训练的模型预测目标变量,避免了采用广义线性模型时因目标变量分布不规律、数学分布拟合不佳造成的链接函数选取不准确的问题。直接对目标变量进行建模,通过机器学习得到的预测模型相较于传统的广义线性模型在特征空间划分更为灵活,预测的目标变量也更精准。
本发明实施例中,所述数据获取模块401,用于:根据特征因子获取特征数据;所述特征数据是根据特征因子生成的多维度数据;所述模型标识包括非寿险的种类;所述目标变量可以包括但不限于以下各项中的一项:赔付次数、赔付总额、赔付案均、赔付率。本发明实施例可以应用于非寿险的保险风险评估中,增强了非寿险不同风险的区分能力,提高非寿险风险分级的准确性,进而还可以有针对性地制定非寿险差异化定价策略。
本发明实施例中,所述非寿险可以包括但不限于:汽车保险中的交强险、三者险和车损险;所述特征因子包括以下各项中的至少一项:从人因子、从车因子、从环境因子。现有技术中单纯依靠传统的从车因子进行广义线性建模,忽略了其他特征因子以及特征因子之间的相互关系,只有当各特征因子之间是相互独立时候,采用广义线性模型的方法所得到的结果才更为可靠。因此本发明实施例通过机器学习对从人因子、从车因子、从环境因子多维度数据进行分析,可以更全面的获取数据的特性,提高目标变量的准确性;每个具体的险种都可以用一个模型标识来表明,细分保险种类可以有针对性地获取特定险种下的目标变量。
本发明实施例中,所述装置包括训练模块;所述训练模块,可以用于:获取样本数据,所述样本数据包括历史特征数据和历史目标变量;具体地:在已投保用户的从人因子、从车因子、从环境因子的数据源中进行查找、匹配、计算、归并,按照预先设置的初始特征逻辑定义得到历史特征数据,已投保用户发生的风险赔付作为历史目标变量,将历史特征数据和历史目标变量作为样本数据;根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据;将所述非寿险的历史特征数据及所述非寿险对应的历史目标变量作为样本集;采用随机抽样法,将所述样本集分为训练集和测试集;采用训练集训练机器学习模型,更新模型参数;采用测试集测试已完成训练的机器学习模型,输出测试集目标变量的预测值进行模型性能验证,验证通过后,将以已完成训练的机器学习模型作为预测模型;且所述非寿险的种类与该预测模型对应。本发明实施例可以采用机器学习的划分方法,将样本集随机打乱后,按照比例将样本集划分为训练集和测试集;划分的依据是随机打乱后会最大限度保证训练集和测试集的数据分布趋于一致,满足独立同分布的假设。可以通过交叉验证及调整更新模型参数、优化目标函数等方式不断优化模型在测试集上的性能;根据不同的险种筛选合适的特征数据进行机器学习模型的训练可以有针对性地获取特定险种下的目标变量,使得获取的结果更加精确。
本发明实施例中,所述训练模块,还可以用于:对该险种的历史特征数据进行数据处理;其中,所述数据处理包括:删除异常数据和不完整数据、特征衍生、数据降维、数据分段和数据编码。本发明实施例在筛选出历史特征数据之后,对该数据进行一系列的数据处理,可以提高样本集中数据的质量,使得获取的结果更加精确。充分考虑已有特征因子间的相互作用,通过特征衍生挖掘出新的特征因子,在原有特征因子的基础上增加了更为显著的数据特征,可以提高预测模型的准确性。由于样本集数据量巨大,通过数据降维可以提高训练的运算速度。可以采用传统的数据分段对数据进行等频、等值、聚类等分段,也可以采用自动化择优分段的工具,针对不同特征选取恰当的分段方式。
本发明实施例中,所述训练模块,用于:获取所述非寿险对应的历史目标变量;计算所述历史特征数据的每个维度的数据与所述非寿险对应的历史目标变量的相关系数或区分度或贡献度;按照相关系数或区分度或贡献度从大到小的顺序,对所述历史特征数据的每个维度的数据进行排序;将所述排序中的前N个维度的数据作为所述非寿险的历史特征数据,N为正整数。
图5示出了可以应用本发明实施例的预测目标变量的方法或预测目标变量的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的预测目标变量的方法一般由服务器505执行,相应地,预测目标变量的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所提供的预测目标变量的方法。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的预测目标变量的方法。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括:数据获取模块、模型确定模块、预测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据获取模块还可以被描述为“用于获取特征数据和模型标识的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤S101.获取特征数据和模型标识;步骤S102.确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;步骤S103.将特征数据输入所述预测模型中,预测目标变量。
本发明实施例采用机器学习训练的模型预测目标变量,避免了采用广义线性模型时因目标变量分布不规律、数学分布拟合不佳造成的链接函数选取不准确的问题。直接对目标变量进行建模,通过机器学习得到的预测模型相较于传统的广义线性模型在特征空间划分更为灵活,预测的目标变量也更精准。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种预测目标变量的方法,其特征在于,包括:
获取特征数据和模型标识;
确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;
将特征数据输入所述预测模型中,预测目标变量。
2.根据权利要求1所述的方法,其特征在于,获取特征数据包括:根据特征因子获取特征数据;所述特征数据是根据特征因子生成的多维度数据;
所述模型标识包括非寿险的种类;
所述目标变量包括以下各项中的一项:赔付次数、赔付总额、赔付案均、赔付率。
3.根据权利要求2所述的方法,其特征在于,所述非寿险包括:汽车保险中的交强险、三者险和车损险;
所述特征因子包括以下各项中的至少一项:从人因子、从车因子、从环境因子。
4.根据权利要求2所述的方法,其特征在于,训练机器学习模型得到预测模型包括:
在已投保用户的从人因子、从车因子、从环境因子的数据源中进行查找、匹配、计算、归并,按照预先设置的初始特征逻辑定义得到历史特征数据,已投保用户发生的风险赔付作为历史目标变量,将历史特征数据和历史目标变量作为样本数据;
根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据;
将所述非寿险的历史特征数据及所述非寿险对应的历史目标变量作为样本集;
采用机器学习划分方法,将样本集随机打乱后,按照比例将样本集划分为训练集和测试集;划分的依据是随机打乱后会最大限度保证训练集和测试集的数据分布趋于一致,满足独立同分布的假设;
采用训练集训练机器学习模型;
采用测试集测试已完成训练的机器学习模型,以得到预测模型;且所述非寿险的种类与该预测模型对应。
5.根据权利要求4所述的方法,其特征在于,所述确定该险种的历史特征数据之后,包括:对该险种的历史特征数据进行数据处理;其中,所述数据处理包括:删除异常数据和不完整数据、特征衍生、数据降维、数据分段和数据编码。
6.根据权利要求4所述的方法,其特征在于,根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据,包括:
获取所述非寿险对应的历史目标变量;
计算所述历史特征数据的每个维度的数据与所述非寿险对应的历史目标变量的相关系数或区分度或贡献度;
按照相关系数或区分度或贡献度从大到小的顺序,对所述历史特征数据的每个维度的数据进行排序;
将所述排序中的前N个维度的数据作为所述非寿险的历史特征数据,N为正整数。
7.一种预测目标变量的装置,其特征在于,包括:数据获取模块、模型确定模块、预测模块;
所述数据获取模块,用于:获取特征数据和模型标识;
所述模型确定模块,用于:确定与所述模型标识对应的通过训练机器学习模型得到的预测模型;
所述预测模块,用于:将特征数据输入所述预测模型中,预测目标变量。
8.根据权利要求7所述的装置,其特征在于,所述数据获取模块,用于:根据特征因子获取特征数据;所述特征数据是根据特征因子生成的多维度数据;
所述模型标识包括非寿险的种类;
所述目标变量包括以下各项中的一项:赔付次数、赔付总额、赔付案均、赔付率。
9.根据权利要求8所述的装置,其特征在于,所述非寿险包括:汽车保险中的交强险、三者险和车损险;
所述特征因子包括以下各项中的至少一项:从人因子、从车因子、从环境因子。
10.根据权利要求8所述的装置,其特征在于,所述装置包括训练模块;所述训练模块,用于:
在已投保用户的从人因子、从车因子、从环境因子的数据源中进行查找、匹配、计算、归并,按照预先设置的初始特征逻辑定义得到历史特征数据,已投保用户发生的风险赔付作为历史目标变量,将历史特征数据和历史目标变量作为样本数据;
根据非寿险的种类,从历史特征数据中筛选出所述非寿险的历史特征数据;
将所述非寿险的历史特征数据及所述非寿险对应的历史目标变量作为样本集;
采用机器学习划分方法,将样本集随机打乱后,按照比例将样本集划分为训练集和测试集;划分的依据是随机打乱后会最大限度保证训练集和测试集的数据分布趋于一致,满足独立同分布的假设;
采用训练集训练机器学习模型;
采用测试集测试已完成训练的机器学习模型,以得到预测模型;且所述非寿险的种类与该预测模型对应。
11.根据权利要求10所述的装置,其特征在于,所述训练模块,还用于:对该险种的历史特征数据进行数据处理;其中,所述数据处理包括:删除异常数据和不完整数据、特征衍生、数据降维、数据分段和数据编码。
12.根据权利要求10所述的装置,其特征在于,所述训练模块,用于:
获取所述非寿险对应的历史目标变量;
计算所述历史特征数据的每个维度的数据与所述非寿险对应的历史目标变量的相关系数或区分度或贡献度;
按照相关系数或区分度或贡献度从大到小的顺序,对所述历史特征数据的每个维度的数据进行排序;
将所述排序中的前N个维度的数据作为所述非寿险的历史特征数据,N为正整数。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810063962.XA 2018-01-23 2018-01-23 预测目标变量的方法和装置 Pending CN110084627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810063962.XA CN110084627A (zh) 2018-01-23 2018-01-23 预测目标变量的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810063962.XA CN110084627A (zh) 2018-01-23 2018-01-23 预测目标变量的方法和装置

Publications (1)

Publication Number Publication Date
CN110084627A true CN110084627A (zh) 2019-08-02

Family

ID=67411827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810063962.XA Pending CN110084627A (zh) 2018-01-23 2018-01-23 预测目标变量的方法和装置

Country Status (1)

Country Link
CN (1) CN110084627A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796557A (zh) * 2019-11-04 2020-02-14 泰康保险集团股份有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111062422A (zh) * 2019-11-29 2020-04-24 上海观安信息技术股份有限公司 一种套路贷体系化识别方法及装置
CN111160472A (zh) * 2019-12-30 2020-05-15 深圳集智数字科技有限公司 对象的目标特征的预测方法、装置、存储介质与电子设备
CN112330476A (zh) * 2020-11-27 2021-02-05 中国人寿保险股份有限公司 一种团单保险业务预测方法及装置
CN113222632A (zh) * 2020-02-04 2021-08-06 北京京东振世信息技术有限公司 对象挖掘的方法和装置
CN113256328A (zh) * 2021-05-18 2021-08-13 深圳索信达数据技术有限公司 预测目标客户的方法、装置、计算机设备及存储介质
CN116578948A (zh) * 2023-07-12 2023-08-11 宁德时代新能源科技股份有限公司 数据相关性识别方法、装置、电子设备及介质
CN118133697A (zh) * 2024-05-10 2024-06-04 无锡九方科技有限公司 基于集成学习的船舶失速模型的应用方法和系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796557A (zh) * 2019-11-04 2020-02-14 泰康保险集团股份有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111062422A (zh) * 2019-11-29 2020-04-24 上海观安信息技术股份有限公司 一种套路贷体系化识别方法及装置
CN111062422B (zh) * 2019-11-29 2023-07-14 上海观安信息技术股份有限公司 一种套路贷体系化识别方法及装置
CN111160472A (zh) * 2019-12-30 2020-05-15 深圳集智数字科技有限公司 对象的目标特征的预测方法、装置、存储介质与电子设备
CN113222632A (zh) * 2020-02-04 2021-08-06 北京京东振世信息技术有限公司 对象挖掘的方法和装置
CN112330476A (zh) * 2020-11-27 2021-02-05 中国人寿保险股份有限公司 一种团单保险业务预测方法及装置
CN113256328A (zh) * 2021-05-18 2021-08-13 深圳索信达数据技术有限公司 预测目标客户的方法、装置、计算机设备及存储介质
CN113256328B (zh) * 2021-05-18 2024-02-23 深圳索信达数据技术有限公司 预测目标客户的方法、装置、计算机设备及存储介质
CN116578948A (zh) * 2023-07-12 2023-08-11 宁德时代新能源科技股份有限公司 数据相关性识别方法、装置、电子设备及介质
CN118133697A (zh) * 2024-05-10 2024-06-04 无锡九方科技有限公司 基于集成学习的船舶失速模型的应用方法和系统

Similar Documents

Publication Publication Date Title
CN110084627A (zh) 预测目标变量的方法和装置
CN109003028B (zh) 用于划分物流区域的方法和装置
Ahmad et al. Review of various modeling techniques for the detection of electricity theft in smart grid environment
CN108564286B (zh) 一种基于大数据征信的人工智能金融风控授信评定方法和系统
Kumar et al. CCS-OSSR: a framework based on hybrid MCDM for optimal service selection and ranking of cloud computing services
US20150278153A1 (en) Computer-implemented systems and methods for time series exploration
CN107220217A (zh) 基于逻辑回归的特征系数训练方法和装置
CN105868847A (zh) 一种购物行为的预测方法及装置
CN107451266A (zh) 用于处理数据方法及其设备
Sriram et al. A review on multi-criteria decision-making and its application
KR20180061458A (ko) 정형/비정형 데이터 융합 기반 산업평가 정보 분석 방법 및 시스템
CN108960912A (zh) 用于确定目标位置的方法和装置
CN111754044A (zh) 员工行为审计方法、装置、设备及可读存储介质
CN110400184A (zh) 用于生成信息的方法和装置
CN109634833A (zh) 一种软件缺陷预测方法和装置
CN109685537A (zh) 用户行为的分析方法、装置、介质和电子设备
Zhou et al. A novel grey seasonal model based on cycle accumulation generation for forecasting energy consumption in China
CN108932625A (zh) 用户行为数据的分析方法、装置、介质和电子设备
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
CN112200538A (zh) 数据处理方法、装置、设备及存储介质
US20210090101A1 (en) Systems and methods for business analytics model scoring and selection
CN109784352A (zh) 一种评估分类模型的方法和装置
CN110335090A (zh) 基于商品销量分布预测的补货方法及系统、电子设备
CN109947811A (zh) 通用特征库生成方法及装置、存储介质、电子设备
Linton et al. An extension to a DEA support system used for assessing R&D projects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address after: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

CB02 Change of applicant information