CN108648011B - 模型生成、识别客户购买车险意向的方法及系统 - Google Patents
模型生成、识别客户购买车险意向的方法及系统 Download PDFInfo
- Publication number
- CN108648011B CN108648011B CN201810450784.6A CN201810450784A CN108648011B CN 108648011 B CN108648011 B CN 108648011B CN 201810450784 A CN201810450784 A CN 201810450784A CN 108648011 B CN108648011 B CN 108648011B
- Authority
- CN
- China
- Prior art keywords
- customer
- data
- historical
- history
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种模型生成、识别客户购买车险意向的方法及系统,模型生成的方法,包括获取每个客户的历史数据;通过客户的识别信息对历史数据进行预处理以得到与每个客户一一对应的第一历史序列;对所有经销商的数据进行聚类分析以得到每个经销商的类别标签;对第一历史序列中经销商进行标注以得到第二历史序列;对每条第二历史序列进行目标变量的标注以得到第三历史序列;对第三历史序列进行特征筛选,以得到第四历史序列,每条第四历史序列中包括符合预期相关度的若干特征;使用二分类算法利用第四历史序列进行模型训练,以生成预测模型。本发明能够自动识别车主与经销商之间的关系,预测不同类型的车主对在经销商渠道进行保险购买的意向度。
Description
技术领域
本发明涉及车险领域,特别涉及一种模型生成、识别客户购买车险意向的方法及系统。
背景技术
客户在汽车经销商如4S(一种集整车销售、零配件、售后服务、信息反馈四位一体的汽车销售企业)店购买汽车时通常会同时在该店购买第一年的车险,但是后续车险的购买通常有多种选择。汽车经销商如果想进一步对之前在其店中购买汽车的客户销售车险,通常采用的是针对所有4S店里的客户进行电话销售,具体是将客户随机地平均分配给每一个保险销售人员,由保险销售人员进行接触,这种接触的顺序完全是无序的。当客户量达到一定规模时,有限的人力成本使得保险销售人员无法每个客户都能够及时的接触到,这很可能会导致具有车险购买意向的客户流失掉。
发明内容
本发明要解决的技术问题是为了克服现有技术中人力成本有限时保险销售人员采用无序的接触客户的方式销售车险无法及时接触客户会导致具有车险购买意向的客户流失掉的缺陷,提供一种能够自动识别出客户购买车险的意向度的模型生成、识别客户购买车险意向的方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明的第一方面提供了一种模型生成的方法,包括以下步骤:
获取每个客户的历史数据,每条所述历史数据包括所述客户的客户信息和/或所述客户已经发生的车险数据和/或所述客户的车辆数据和/或所述客户的车辆的经销商数据,所述经销商数据为所述客户购买车辆的经销商的数据;
通过所述客户的识别信息对所述历史数据进行预处理,以得到与每个所述客户一一对应的第一历史序列,所述第一历史序列包括以下字段:所述客户的客户信息、所述客户已经发生的车险数据、所述客户的车辆数据以及所述客户的车辆的经销商数据;
对所述历史数据中的所有所述经销商的数据进行聚类分析,以得到每个所述经销商的类别标签;
对所述第一历史序列中所述经销商进行标注以得到第二历史序列,所述第二历史序列包括所述第一历史序列的信息和所述第一历史序列中所述经销商的类别标签;
对每条所述第二历史序列进行目标变量的标注以得到第三历史序列,所述目标变量表示所述第二历史序列中所述经销商历史销售车险是否成功的结果,所述第三历史序列包括所述第二历史序列的信息和对应的所述目标变量的值;
对所述第三历史序列进行特征筛选,以得到第四历史序列,每条所述第四历史序列中包括符合预期相关度的若干特征;
使用二分类算法利用所述第四历史序列进行模型训练,以生成预测模型。
本方案中,可以从多种途径获取每个客户的历史数据,这些途径包括对接保险公司、对接整车厂以及对接经销商。不同途径获取的历史数据不同且相互之间很可能有交叉,例如从保险公司获取的数据通常为同客户的购买行为相关的数据,从整车厂获取的数据通常为车辆相关的数据,从经销商出获取的为同该经销商相关的数据。每条历史数据可能仅包括客户的客户信息,或者客户已经发生的车险数据,或者客户的车辆数据、或者客户的车辆的经销商数据,也有可能一条历史数据包括客户的客户信息、客户已经发生的车险数据、客户的车辆数据、客户的车辆的经销商数据中的二种及以上。这些历史数据是杂乱无章、相互交织且可能有重复的数据,需要经过预处理才能整合得到结构化关系型的数据序列即第一历史序列。一条第一历史序列具体包括以下字段:一个客户的客户信息、该客户已经发生的车险数据、该客户的车辆数据以及该客户的车辆的经销商数据。本方法还需要对第一历史序列进行经销商标注,以确定该历史序列中的经销商属于哪种类型的经销商,标注后得到的序列为第二历史序列。本方法还定义历史的经销商渠道保险销售成功与失败的数据为目标变量,对第二历史序列进行目标变量的标注,得到第三历史序列。本方法还对所有的第三历史序列中的字段进行特征筛查,寻找相关度较高的特征,保留第三历史序列中这些相关度较高的特征得到第四历史序列,最后使用二分类预测算法对所有的第四历史序列进行模型训练,最后生成适合于识别客户购买车险意向的预测模型。
本方案中,在获取了所有经销商的数据后即可对该数据进行聚类分析,识别出属于同一类型的经销商进行分群,以得到每个经销商的类别标签,该步骤的顺序不受限制。
本方案中,通过融合客户即车主的保险及购买行为数据、车辆及使用行为数据以及维修保养过程数据等,利用机器学习算法实现数据建模,得到用于识别客户购买车险意向的预测模型。
较佳地,所述识别信息包括所述客户的身份证号和/或车架号。
本方案中,客户的身份证号能够用于唯一识别客户,车架号能够用于唯一识别车辆。因为获取的历史数据的来源不同,这些数据杂乱无章、相互交织且可能有重复,所以通过客户的身份证号以及车架号进行关联,将数据进行交叉整合,能够到用于生成预测模型的有效数据。
较佳地,对所述历史数据中的所有所述经销商的数据采用Kmeans(一种聚类算法)算法进行聚类分析。
本方案中,通过无监督的Kmeans算法对所有的经销商进行聚类分析,能够识别属于同一类型的经销商。
较佳地,所述二分类算法为GBDT(一种二分类算法)或随机森林或支持向量机或逻辑回归。
本方案中,可以采用GBDT、随机森林、支持向量机、逻辑回归中的任何一种二分类预测算法生成预测模型。
较佳地,当所述二分类算法为GBDT时模型训练优化的参数包括最大迭代次数、权重缩减系数和决策树最大深度;所述最大迭代次数的取值范围为20~100;所述权重缩减系数的取值范围为0.01~0.1;所述决策树最大深度的取值范围为10~100。
本方案中,采用有监督二分类预测算法GBDT,进行训练优化参数,进行交叉验证,最终得到预测模型。其中,优化参数包括最大迭代次数、权重缩减系数和决策树最大深度。
较佳地,所述客户信息包括以下数据中的至少一种:所述客户的性别、年龄、是否贷款购车以及续保年限;
所述客户已经发生的车险数据包括保险数据和理赔数据;
所述客户的车辆数据包括以下数据中的至少一种:车型、年款、车价、排气量和发动机类型;
所述客户的车辆的经销商数据包括经销商客户服务数据和经销商自身的数据。
较佳地,所述保险数据包括以下数据中的至少一种:商业险金额、折扣系数、提前购买天数、承保保险公司和商业险子险内容;所述理赔数据包括以下数据中的至少一种:无赔款优待系数、上年理赔次数、理赔金额、报案次数、责任划分和是否有人伤。
较佳地,所述经销商客户服务数据包括以下数据中的至少一种:售后服务数据、维修保养记录、进店里程和享受过的营销优惠活动;所述经销商自身的数据包括以下数据中的至少一种:地域信息、客户规模、历史待续保客户数、成功续保客户数、续保专员人数、续保任务跟进频率和新车销售规模。
较佳地,通过所述客户的识别信息对所述历史数据进行预处理,包括:
通过所述客户的身份证号和/或车架号对所述历史数据进行交叉整合、清洗及转换,所述清洗用于处理离群值和异常值,所述转换用于对所述历史数据进行离散化和标准化。
较佳地,利用卡方值检验法对所述第三历史序列进行特征筛选。
本方案中,定义历史的经销商渠道保险销售成功与失败的数据为目标变量,利用皮尔逊卡方值检验的方式进行特征筛查,寻找相关度较高的特征供后续生成预测模型使用。
本发明的第二方面提供了一种识别客户购买车险意向的方法,包括以下步骤:
执行如第一方面所述的模型生成的方法;
获取待识别客户的所述历史数据;
对所述待识别客户的所述历史数据进行预处理,以得到与所述待识别客户对应的所述第一历史序列;
对所述待识别客户对应的所述第一历史序列中所述经销商进行标注以得到所述待识别客户对应的所述第二历史序列;
对所述待识别客户对应的所述第二历史序列进行特征筛选,以得到第五历史序列,所述第五历史序列中包括所述若干特征对应的字段;
使用所述预测模型对所述第五历史序列进行预测,以得到所述待识别客户购买车险意向的概率。
本方案中,识别客户购买车险意向的方法首先利用第一方面提供的模型生成的方法生成预测模型,然后对待识别客户的历史数据进行预处理、标注及特征筛选,最后通过预测模型运算得到该待识别客户针对不同经销商的购买车险意向的概率。
本方案中,通过融合客户即车主的保险及购买行为数据、车辆及使用行为数据以及维修保养过程数据等,通过数据建模,使用无监督和有监督学习算法,能够自动识别不同类型的车主与不同经销商之间的关系,预测不同类型的车主对在经销商渠道进行保险购买的意向度。
较佳地,所述识别客户购买车险意向的方法还包括以下步骤:按照所述待识别客户购买车险意向的概率的高低进行级别划分,以得到推荐级别,并将所述级别推送给各个所述经销商。
本方案中,对于每天新增的待识别客户通过预测模型运算输出保险购买意向概率,进一步按照概率高低划分推荐级别,然后将该推荐级别推送给各个经销商,供其续保专员即保险销售人员在操作的系统界面按照级别从高到低的顺序进行电话营销,如此实现了按照客户购买意向从高到底的顺序接触客户,避免了在人力成本有限时保险销售人员无法及时接触客户会导致具有较高车险购买意向的客户流失掉的问题。
本发明的第三方面提供了一种模型生成的系统,包括:
第一获取模块,用于获取每个客户的历史数据,每条所述历史数据包括所述客户的客户信息和/或所述客户已经发生的车险数据和/或所述客户的车辆数据和/或所述客户的车辆的经销商数据,所述经销商数据为所述客户购买车辆的经销商的数据;
第一预处理模块,用于通过所述客户的识别信息对所述历史数据进行预处理,以得到与每个所述客户一一对应的第一历史序列,所述第一历史序列包括以下字段:所述客户的客户信息、所述客户已经发生的车险数据、所述客户的车辆数据以及所述客户的车辆的经销商数据;
分类模块,用于对所述历史数据中的所有所述经销商的数据进行聚类分析,以得到每个所述经销商的类别标签;
第一标注模块,用于对所述第一历史序列中所述经销商进行标注以得到第二历史序列,所述第二历史序列包括所述第一历史序列的信息和所述第一历史序列中所述经销商的类别标签;
第二标注模块,用于对每条所述第二历史序列进行目标变量的标注以得到第三历史序列,所述目标变量表示所述第二历史序列中所述经销商历史销售车险是否成功的结果,所述第三历史序列包括所述第二历史序列的信息和对应的所述目标变量的值;
第一特征筛选模块,用于对所述第三历史序列进行特征筛选,以得到第四历史序列,每条所述第四历史序列中包括符合预期相关度的若干特征;
训练模块,用于使用二分类算法利用所述第四历史序列进行模型训练,以生成预测模型。
较佳地,所述识别信息包括所述客户的身份证号和/或车架号。
较佳地,所述分类模块中对所述历史数据中的所有所述经销商的数据采用Kmeans算法进行聚类分析。
较佳地,所述二分类算法为GBDT或随机森林或支持向量机或逻辑回归。
较佳地,所述训练模块中,当所述二分类算法为GBDT时模型训练优化的参数包括最大迭代次数、权重缩减系数和决策树最大深度;所述最大迭代次数的取值范围为20~100;所述权重缩减系数的取值范围为0.01~0.1;所述决策树最大深度的取值范围为10~100。
较佳地,所述客户信息包括以下数据中的至少一种:所述客户的性别、年龄、是否贷款购车以及续保年限;
所述客户已经发生的车险数据包括保险数据和理赔数据;
所述客户的车辆数据包括以下数据中的至少一种:车型、年款、车价、排气量和发动机类型;
所述客户的车辆的经销商数据包括经销商客户服务数据和经销商自身的数据。
较佳地,所述经销商客户服务数据包括以下数据中的至少一种:售后服务数据、维修保养记录、进店里程和享受过的营销优惠活动;所述经销商自身的数据包括以下数据中的至少一种:地域信息、客户规模、历史待续保客户数、成功续保客户数、续保专员人数、续保任务跟进频率和新车销售规模。
较佳地,所述保险数据包括以下数据中的至少一种:商业险金额、折扣系数、提前购买天数、承保保险公司和商业险子险内容;所述理赔数据包括以下数据中的至少一种:无赔款优待系数、上年理赔次数、理赔金额、报案次数、责任划分和是否有人伤。
较佳地,所述第一预处理模块中通过所述客户的识别信息对所述历史数据进行预处理,包括:
通过所述客户的身份证号和/或车架号对所述历史数据进行交叉整合、清洗及转换,所述清洗用于处理离群值和异常值,所述转换用于对所述历史数据进行离散化和标准化。
较佳地,所述第一特征筛选模块中利用卡方值检验法对所述第三历史序列进行特征筛选。
本发明的第四方面提供了一种识别客户购买车险意向的系统,包括:
模型生成模块,用于调用如第三方面提供所述的模型生成的系统;
第二获取模块,用于获取待识别客户的所述历史数据;
第二预处理模块,用于对所述待识别客户的所述历史数据进行预处理,以得到与所述待识别客户对应的所述第一历史序列;
第三标注模块,用于对所述待识别客户对应的所述第一历史序列中所述经销商进行标注以得到所述待识别客户对应的所述第二历史序列;
第二特征筛选模块,用于对所述待识别客户对应的所述第二历史序列进行特征筛选,以得到第五历史序列,所述第五历史序列中包括所述若干特征对应的字段;
预测模块,用于使用所述预测模型对所述第五历史序列进行预测,以得到所述待识别客户购买车险意向的概率。
较佳地,所述识别客户购买车险意向的系统还包括:
级别划分模块,用于按照所述待识别客户购买车险意向的概率的高低进行级别划分,以得到推荐级别,并将所述级别推送给各个所述经销商。
本发明的积极进步效果在于:本发明提供的模型生成、识别客户购买车险意向的方法及系统通过融合客户即车主的保险及购买行为数据、车辆及使用行为数据以及维修保养过程数据等,通过数据建模,使用无监督和有监督学习算法,能够自动识别不同类型的车主与不同经销商之间的关系,预测不同类型的车主对在经销商渠道进行保险购买的意向度。
附图说明
图1为本发明实施例1的模型生成的方法的流程图。
图2为本发明实施例2的识别客户购买车险意向的方法的流程图。
图3为本发明实施例3的模型生成的系统的模块示意图。
图4为本发明实施例4的识别客户购买车险意向的系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例提供了一种模型生成的方法,包括以下步骤:
步骤101、获取每个客户的历史数据,每条历史数据包括该客户的客户信息或该客户已经发生的车险数据或该客户的车辆数据或该客户的车辆的经销商数据,其中经销商数据为该客户购买的车辆的经销商的数据。
步骤102、通过客户的识别信息对历史数据进行预处理,以得到与每个客户一一对应的第一历史序列,该第一历史序列包括以下字段:该客户的客户信息、该客户已经发生的车险数据、该客户的车辆数据以及该客户的车辆的经销商数据;其中,识别信息包括客户的身份证号和车架号。预处理具体为通过客户的身份证号和车架号对历史数据进行交叉整合、清洗及转换,清洗用于处理离群值和异常值,转换用于对历史数据进行离散化和标准化。
步骤103、对历史数据中的所有经销商的数据采用Kmeans算法进行聚类分析,以得到每个经销商的类别标签。
步骤104、对每条第一历史序列中的经销商进行标注以得到对应的第二历史序列,第二历史序列包括对应的第一历史序列的信息和该第一历史序列中经销商的类别标签。
步骤105、对每条第二历史序列进行目标变量的标注以得到第三历史序列,其中目标变量用于表示对应的第二历史序列中经销商的历史销售车险是否成功的结果,第三历史序列包括对应的第二历史序列的信息和对应的目标变量的值。
步骤106、利用皮尔逊卡方值检验法对所有的第三历史序列进行特征筛选,以得到对应的第四历史序列,每条第四历史序列中包括对应的第三历史序列中符合预期相关度的若干特征。
步骤107、使用二分类算法GBDT利用所有的第四历史序列进行模型训练,以生成预测模型。
本实施例中,采用有监督二分类算法GBDT进行模型训练优化的参数包括最大迭代次数N_ESTIMATORS、权重缩减系数LEARNING_RATE和决策树最大深度MAX_DEPTH。其中,最大迭代次数的取值范围为20~100;权重缩减系数的取值范围为0.01~0.1;决策树最大深度的取值范围为10~100。本实施例中,N_ESTIMATORS=20,LEARNING_RATE=0.1,MAX_DEPTH=10。
本实施例中,客户信息包括客户的性别、年龄、是否贷款购车以及续保年限。其中,续保年限如首年续保、第二年续保或第三年续保等等。客户已经发生的车险数据包括保险数据和理赔数据;保险数据包括商业险金额、折扣系数、提前购买天数、承保保险公司和商业险子险内容;理赔数据包括无赔款优待系数、上年理赔次数、理赔金额、报案次数、责任划分和是否有人伤。其中,责任划分如全责、主责、同责或无责等。客户的车辆数据包括车型、年款、车价、排气量和发动机类型。其中,车型如MG3(名爵3)精英版,年款如2014年款或2013年款。客户的车辆的经销商数据包括经销商客户服务数据和经销商自身的数据;经销商客户服务数据包括售后服务数据、维修保养记录、进店里程和享受过的营销优惠活动;经销商自身的数据包括地域信息、客户规模、历史待续保客户数、成功续保客户数、续保专员人数、续保任务跟进频率和新车销售规模等。
需要说明的是,本实施例中二分类算法虽然采用GBDT算法,但是本领域技术人员理应当理解,这并不影响本领域的技术人员根据本实施例的相关内容实现本发明的模型生成的方法。本发明中二分类算法并不局限于GBDT算法,还可以为随机森林或者支持向量机或者逻辑回归。
本实施例中,可以从多种途径获取每个客户的历史数据,这些途径包括对接保险公司、对接整车厂以及对接经销商。不同途径获取的历史数据不同且相互之间很可能有交叉,例如从保险公司获取的数据通常为同客户的购买行为相关的数据,从整车厂获取的数据通常为车辆相关的数据,从经销商出获取的为同该经销商相关的数据。每条历史数据可能仅包括客户的客户信息,或者客户已经发生的车险数据,或者客户的车辆数据、或者客户的车辆的经销商数据,也有可能一条历史数据包括客户的客户信息、客户已经发生的车险数据、客户的车辆数据、客户的车辆的经销商数据中的二种及以上。这些历史数据是杂乱无章、相互交织且可能有重复的数据,需要经过预处理才能整合得到结构化关系型的数据序列即第一历史序列。一条第一历史序列具体包括以下字段:一个客户的客户信息、该客户已经发生的车险数据、该客户的车辆数据以及该客户的车辆的经销商数据。本方法还需要对第一历史序列进行经销商标注,以确定该历史序列中的经销商属于哪种类型的经销商,标注后得到的序列为第二历史序列。本方法还定义历史的经销商渠道保险销售成功与失败的数据为目标变量,对第二历史序列进行目标变量的标注,得到第三历史序列。本方法还对所有的第三历史序列中的字段进行特征筛查,寻找相关度较高的特征,保留第三历史序列中这些相关度较高的特征得到第四历史序列,最后使用二分类预测算法对所有的第四历史序列进行模型训练,最后生成适合于识别客户购买车险意向的预测模型。
本实施例中,在获取了所有经销商的数据后即可对该数据进行聚类分析,识别出属于同一类型的经销商进行分群,以得到每个经销商的类别标签,该步骤的顺序不受限制。
本实施例中,客户的身份证号能够用于唯一识别客户,车架号能够用于唯一识别车辆。因为获取的历史数据的来源不同,这些数据杂乱无章、相互交织且可能有重复,所以通过客户的身份证号以及车架号进行关联,将数据进行交叉整合,能够到用于生成预测模型的有效数据。
本实施例中,定义历史的经销商渠道保险销售成功与失败的数据为目标变量,利用皮尔逊卡方值检验的方式进行特征筛查,寻找相关度较高的特征供后续生成预测模型使用。
本实施例提供的模型生成的方法通过融合客户即车主的保险及购买行为数据、车辆及使用行为数据以及维修保养过程数据等,利用机器学习算法实现数据建模,得到用于识别客户购买车险意向的预测模型。
实施例2
如图2所示,本实施例提供的识别客户购买车险意向的方法,包括以下步骤:
步骤201、执行实施例1所述的模型生成的方法;
步骤202、获取待识别客户的所述历史数据;
步骤203、对所述待识别客户的所述历史数据进行预处理,以得到与所述待识别客户对应的所述第一历史序列;
步骤204、对所述待识别客户对应的所述第一历史序列中所述经销商进行标注以得到所述待识别客户对应的所述第二历史序列;
步骤205、对所述待识别客户对应的所述第二历史序列进行特征筛选,以得到第五历史序列,所述第五历史序列中包括所述若干特征对应的字段;
步骤206、使用所述预测模型对所述第五历史序列进行预测,以得到所述待识别客户购买车险意向的概率。
本实施例中,识别客户购买车险意向的方法首先利用实施例1的模型生成的方法生成预测模型,然后对待识别客户的历史数据进行预处理、标注及特征筛选,最后通过预测模型运算得到该待识别客户针对不同经销商的购买车险意向的概率,可以包括成功概率和失败概率。进一步按照概率高低的区间划分推荐级别,例如分成三个级别,然后将该推荐级别推送给各个经销商,供其续保专员即保险销售人员在操作的系统界面按照级别从高到低的顺序进行电话营销,如此实现了按照客户购买意向从高到底的顺序接触客户,避免了在人力成本有限时保险销售人员无法及时接触客户会导致具有较高车险购买意向的客户流失掉的问题。
本实施例中,通过融合客户即车主的保险及购买行为数据、车辆及使用行为数据以及维修保养过程数据等,通过数据建模,使用无监督和有监督学习算法,能够自动识别不同类型的车主与不同经销商之间的关系,预测不同类型的车主对在经销商渠道进行保险购买的意向度。
实施例3
如图3所示,本实施例提供了一种模型生成的系统,包括:第一获取模块1、第一预处理模块2、分类模块3、第一标注模块4、第二标注模块5、第一特征筛选模块6和训练模块7。
第一获取模块1,用于获取每个客户的历史数据,每条所述历史数据包括所述客户的客户信息和/或所述客户已经发生的车险数据和/或所述客户的车辆数据和/或所述客户的车辆的经销商数据,所述经销商数据为所述客户购买车辆的经销商的数据;
第一预处理模块2,用于通过所述客户的识别信息对所述历史数据进行预处理,以得到与每个所述客户一一对应的第一历史序列,所述第一历史序列包括以下字段:所述客户的客户信息、所述客户已经发生的车险数据、所述客户的车辆数据以及所述客户的车辆的经销商数据;所述识别信息包括所述客户的身份证号和/或车架号。第一预处理模块2中通过所述客户的身份证号和/或车架号对所述历史数据进行交叉整合、清洗及转换以实现预处理,所述清洗用于处理离群值和异常值,所述转换用于对所述历史数据进行离散化和标准化。
分类模块3,用于对所述历史数据中的所有所述经销商的数据采用Kmeans算法进行聚类分析,以得到每个所述经销商的类别标签。
第一标注模块4,用于对所述第一历史序列中所述经销商进行标注以得到第二历史序列,所述第二历史序列包括所述第一历史序列的信息和所述第一历史序列中所述经销商的类别标签。
第二标注模块5,用于对每条所述第二历史序列进行目标变量的标注以得到第三历史序列,所述目标变量表示所述第二历史序列中所述经销商历史销售车险是否成功的结果,所述第三历史序列包括所述第二历史序列的信息和对应的所述目标变量的值。
第一特征筛选模块6,用于利用皮尔逊卡方值检验法对所述第三历史序列进行特征筛选,以得到第四历史序列,每条所述第四历史序列中包括符合预期相关度的若干特征。
训练模块7,用于使用二分类算法GBDT利用所述第四历史序列进行模型训练,以生成预测模型。其中,GBDT模型训练优化的参数包括最大迭代次数N_ESTIMATORS、权重缩减系数LEARNING_RATE和决策树最大深度MAX_DEPTH。其中,最大迭代次数的取值范围为20~100;权重缩减系数的取值范围为0.01~0.1;决策树最大深度的取值范围为10~100。本实施例中,N_ESTIMATORS=20,LEARNING_RATE=0.1,MAX_DEPTH=10。
本实施例中,所述客户信息包括以下数据中的至少一种:所述客户的性别、年龄、是否贷款购车以及续保年限。所述客户已经发生的车险数据包括保险数据和理赔数据;所述保险数据包括商业险金额、折扣系数、提前购买天数、承保保险公司和商业险子险内容;所述理赔数据包括无赔款优待系数、上年理赔次数、理赔金额、报案次数、责任划分和是否有人伤。所述客户的车辆数据包括车型、年款、车价、排气量和发动机类型。所述客户的车辆的经销商数据包括经销商客户服务数据和经销商自身的数据;所述经销商客户服务数据包括售后服务数据、维修保养记录、进店里程和享受过的营销优惠活动;所述经销商自身的数据包括地域信息、客户规模、历史待续保客户数、成功续保客户数、续保专员人数、续保任务跟进频率和新车销售规模。
需要说明的是,本实施例中二分类算法虽然采用GBDT算法,但是本领域技术人员理应当理解,这并不影响本领域的技术人员根据本实施例的相关内容实现本发明的模型生成的方法。本发明中二分类算法并不局限于GBDT算法,还可以为随机森林或者支持向量机或者逻辑回归。
本实施例提供的模型生成的系统通过融合客户即车主的保险及购买行为数据、车辆及使用行为数据以及维修保养过程数据等,利用机器学习算法实现数据建模,得到用于识别客户购买车险意向的预测模型。
实施例4
如图4所示,本实施例提供的识别客户购买车险意向的系统,包括模型生成模块8、第二获取模块9、第二预处理模块10、第三标注模块11、第二特征筛选模块12、预测模块13和级别划分模块14。
模型生成模块8,用于调用实施例3所述的模型生成的系统。
第二获取模块9,用于获取待识别客户的所述历史数据。
第二预处理模块10,用于对所述待识别客户的所述历史数据进行预处理,以得到与所述待识别客户对应的所述第一历史序列。
第三标注模块11,用于对所述待识别客户对应的所述第一历史序列中所述经销商进行标注以得到所述待识别客户对应的所述第二历史序列。
第二特征筛选模块12,用于对所述待识别客户对应的所述第二历史序列进行特征筛选,以得到第五历史序列,所述第五历史序列中包括所述若干特征对应的字段。
预测模块13,用于使用所述预测模型对所述第五历史序列进行预测,以得到所述待识别客户购买车险意向的概率。
级别划分模块14,用于按照所述待识别客户购买车险意向的概率的高低进行级别划分,以得到推荐级别,并将所述级别推送给各个所述经销商。
本实施例中,识别客户购买车险意向的系统利用实施例3的模型生成的系统生成预测模型,对待识别客户的历史数据进行预处理、标注及特征筛选,最后通过预测模型运算得到该待识别客户针对不同经销商的购买车险意向的概率。
本实施例中,通过融合客户即车主的保险及购买行为数据、车辆及使用行为数据以及维修保养过程数据等,通过数据建模,使用无监督和有监督学习算法,能够自动识别不同类型的车主与不同经销商之间的关系,预测不同类型的车主对在经销商渠道进行保险购买的意向度。对于每天新增的待识别客户通过预测模型运算输出保险购买意向概率,进一步按照概率高低划分推荐级别,然后将该推荐级别推送给各个经销商,供其续保专员即保险销售人员在操作的系统界面按照级别从高到低的顺序进行电话营销,如此实现了按照客户购买意向从高到底的顺序接触客户,避免了在人力成本有限时保险销售人员无法及时接触客户会导致具有较高车险购买意向的客户流失掉的问题。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (20)
1.一种模型生成的方法,其特征在于,包括以下步骤:
获取每个客户的历史数据,每条所述历史数据包括所述客户的客户信息和/或所述客户已经发生的车险数据和/或所述客户的车辆数据和/或所述客户的车辆的经销商数据,所述经销商数据为所述客户购买车辆的经销商的数据;
通过所述客户的识别信息对所述历史数据进行预处理,以得到与每个所述客户一一对应的第一历史序列,所述第一历史序列包括以下字段:所述客户的客户信息、所述客户已经发生的车险数据、所述客户的车辆数据以及所述客户的车辆的经销商数据;
对所述历史数据中的所有所述经销商的数据进行聚类分析,以得到每个所述经销商的类别标签;
对所述第一历史序列中所述经销商进行标注以得到第二历史序列,所述第二历史序列包括所述第一历史序列的信息和所述第一历史序列中所述经销商的类别标签;
对每条所述第二历史序列进行目标变量的标注以得到第三历史序列,所述目标变量表示所述第二历史序列中所述经销商历史销售车险是否成功的结果,所述第三历史序列包括所述第二历史序列的信息和对应的所述目标变量的值;
对所述第三历史序列进行特征筛选,以得到第四历史序列,每条所述第四历史序列中包括符合预期相关度的若干特征;
使用二分类算法利用所述第四历史序列进行模型训练,以生成预测模型。
2.如权利要求1所述的模型生成的方法,其特征在于,所述识别信息包括所述客户的身份证号和/或车架号。
3.如权利要求1所述的模型生成的方法,其特征在于,对所述历史数据中的所有所述经销商的数据采用Kmeans算法进行聚类分析。
4.如权利要求1所述的模型生成的方法,其特征在于,所述二分类算法为GBDT或随机森林或支持向量机或逻辑回归。
5.如权利要求4所述的模型生成的方法,其特征在于,当所述二分类算法为GBDT时模型训练优化的参数包括最大迭代次数、权重缩减系数和决策树最大深度;所述最大迭代次数的取值范围为20~100;所述权重缩减系数的取值范围为0.01~0.1;所述决策树最大深度的取值范围为10~100。
6.如权利要求1所述的模型生成的方法,其特征在于,
所述客户信息包括以下数据中的至少一种:所述客户的性别、年龄、是否贷款购车以及续保年限;
所述客户已经发生的车险数据包括保险数据和理赔数据;
所述客户的车辆数据包括以下数据中的至少一种:车型、年款、车价、排气量和发动机类型;
所述客户的车辆的经销商数据包括经销商客户服务数据和经销商自身的数据。
7.如权利要求2所述的模型生成的方法,其特征在于,通过所述客户的识别信息对所述历史数据进行预处理,包括:
通过所述客户的身份证号和/或车架号对所述历史数据进行交叉整合、清洗及转换,所述清洗用于处理离群值和异常值,所述转换用于对所述历史数据进行离散化和标准化。
8.如权利要求1所述的模型生成的方法,其特征在于,利用卡方值检验法对所述第三历史序列进行特征筛选。
9.一种识别客户购买车险意向的方法,其特征在于,包括以下步骤:
执行如权利要求1至8任一项所述的模型生成的方法;
获取待识别客户的所述历史数据;
对所述待识别客户的所述历史数据进行预处理,以得到与所述待识别客户对应的所述第一历史序列;
对所述待识别客户对应的所述第一历史序列中所述经销商进行标注以得到所述待识别客户对应的所述第二历史序列;
对所述待识别客户对应的所述第二历史序列进行特征筛选,以得到第五历史序列,所述第五历史序列中包括所述若干特征对应的字段;
使用所述预测模型对所述第五历史序列进行预测,以得到所述待识别客户购买车险意向的概率。
10.如权利要求9所述的识别客户购买车险意向的方法,其特征在于,所述识别客户购买车险意向的方法还包括以下步骤:
按照所述待识别客户购买车险意向的概率的高低进行级别划分,以得到推荐级别,并将所述级别推送给各个所述经销商。
11.一种模型生成的系统,其特征在于,包括:
第一获取模块,用于获取每个客户的历史数据,每条所述历史数据包括所述客户的客户信息和/或所述客户已经发生的车险数据和/或所述客户的车辆数据和/或所述客户的车辆的经销商数据,所述经销商数据为所述客户购买车辆的经销商的数据;
第一预处理模块,用于通过所述客户的识别信息对所述历史数据进行预处理,以得到与每个所述客户一一对应的第一历史序列,所述第一历史序列包括以下字段:所述客户的客户信息、所述客户已经发生的车险数据、所述客户的车辆数据以及所述客户的车辆的经销商数据;
分类模块,用于对所述历史数据中的所有所述经销商的数据进行聚类分析,以得到每个所述经销商的类别标签;
第一标注模块,用于对所述第一历史序列中所述经销商进行标注以得到第二历史序列,所述第二历史序列包括所述第一历史序列的信息和所述第一历史序列中所述经销商的类别标签;
第二标注模块,用于对每条所述第二历史序列进行目标变量的标注以得到第三历史序列,所述目标变量表示所述第二历史序列中所述经销商历史销售车险是否成功的结果,所述第三历史序列包括所述第二历史序列的信息和对应的所述目标变量的值;
第一特征筛选模块,用于对所述第三历史序列进行特征筛选,以得到第四历史序列,每条所述第四历史序列中包括符合预期相关度的若干特征;
训练模块,用于使用二分类算法利用所述第四历史序列进行模型训练,以生成预测模型。
12.如权利要求11所述的模型生成的系统,其特征在于,所述识别信息包括所述客户的身份证号和/或车架号。
13.如权利要求11所述的模型生成的系统,其特征在于,所述分类模块中对所述历史数据中的所有所述经销商的数据采用Kmeans算法进行聚类分析。
14.如权利要求11所述的模型生成的系统,其特征在于,所述二分类算法为GBDT或随机森林或支持向量机或逻辑回归。
15.如权利要求14所述的模型生成的系统,其特征在于,所述训练模块中,当所述二分类算法为GBDT时模型训练优化的参数包括最大迭代次数、权重缩减系数和决策树最大深度;所述最大迭代次数的取值范围为20~100;所述权重缩减系数的取值范围为0.01~0.1;所述决策树最大深度的取值范围为10~100。
16.如权利要求11所述的模型生成的系统,其特征在于,
所述客户信息包括以下数据中的至少一种:所述客户的性别、年龄、是否贷款购车以及续保年限;
所述客户已经发生的车险数据包括保险数据和理赔数据;
所述客户的车辆数据包括以下数据中的至少一种:车型、年款、车价、排气量和发动机类型;
所述客户的车辆的经销商数据包括经销商客户服务数据和经销商自身的数据。
17.如权利要求12所述的模型生成的系统,其特征在于,所述第一预处理模块中通过所述客户的识别信息对所述历史数据进行预处理,包括:
通过所述客户的身份证号和/或车架号对所述历史数据进行交叉整合、清洗及转换,所述清洗用于处理离群值和异常值,所述转换用于对所述历史数据进行离散化和标准化。
18.如权利要求11所述的模型生成的系统,其特征在于,所述第一特征筛选模块中利用卡方值检验法对所述第三历史序列进行特征筛选。
19.一种识别客户购买车险意向的系统,其特征在于,包括:
模型生成模块,用于调用如权利要求11至18任一项所述的模型生成的系统;
第二获取模块,用于获取待识别客户的所述历史数据;
第二预处理模块,用于对所述待识别客户的所述历史数据进行预处理,以得到与所述待识别客户对应的所述第一历史序列;
第三标注模块,用于对所述待识别客户对应的所述第一历史序列中所述经销商进行标注以得到所述待识别客户对应的所述第二历史序列;
第二特征筛选模块,用于对所述待识别客户对应的所述第二历史序列进行特征筛选,以得到第五历史序列,所述第五历史序列中包括所述若干特征对应的字段;
预测模块,用于使用所述预测模型对所述第五历史序列进行预测,以得到所述待识别客户购买车险意向的概率。
20.如权利要求19所述的识别客户购买车险意向的系统,其特征在于,所述识别客户购买车险意向的系统还包括:
级别划分模块,用于按照所述待识别客户购买车险意向的概率的高低进行级别划分,以得到推荐级别,并将所述级别推送给各个所述经销商。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810450784.6A CN108648011B (zh) | 2018-05-11 | 2018-05-11 | 模型生成、识别客户购买车险意向的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810450784.6A CN108648011B (zh) | 2018-05-11 | 2018-05-11 | 模型生成、识别客户购买车险意向的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648011A CN108648011A (zh) | 2018-10-12 |
CN108648011B true CN108648011B (zh) | 2022-01-25 |
Family
ID=63754798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810450784.6A Active CN108648011B (zh) | 2018-05-11 | 2018-05-11 | 模型生成、识别客户购买车险意向的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648011B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784586B (zh) * | 2019-03-07 | 2023-08-29 | 上海赢科信息技术有限公司 | 车险的出险情况的预测方法及系统 |
CN109978257A (zh) * | 2019-03-25 | 2019-07-05 | 上海赢科信息技术有限公司 | 车险的续保预测方法及系统 |
CN110135943B (zh) * | 2019-04-12 | 2024-02-02 | 中国平安财产保险股份有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN110389970B (zh) * | 2019-06-11 | 2024-02-06 | 中国平安财产保险股份有限公司 | 用户意向预测方法、装置、计算机设备及存储介质 |
CN110363244A (zh) * | 2019-07-16 | 2019-10-22 | 中国工商银行股份有限公司 | 一种营销数据处理的方法和装置 |
CN110704730A (zh) * | 2019-09-06 | 2020-01-17 | 中国平安财产保险股份有限公司 | 基于大数据的产品数据推送方法、系统及计算机设备 |
CN111401329B (zh) * | 2020-04-26 | 2021-10-29 | 北京新致君阳信息技术有限公司 | 信息流向识别方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110699A (zh) * | 2007-08-07 | 2008-01-23 | 广州诚予国际市场信息研究有限公司 | 具有网络满意度预测预警功能的系统及其实现方法 |
JP2016206767A (ja) * | 2015-04-17 | 2016-12-08 | 富士ゼロックス株式会社 | 購買意欲推定プログラム及び情報処理装置 |
CN107688967A (zh) * | 2017-08-24 | 2018-02-13 | 平安科技(深圳)有限公司 | 客户购买意向的预测方法及终端设备 |
CN107993085A (zh) * | 2017-10-19 | 2018-05-04 | 阿里巴巴集团控股有限公司 | 模型训练方法、基于模型的用户行为预测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8640032B2 (en) * | 2010-08-31 | 2014-01-28 | Apple Inc. | Selection and delivery of invitational content based on prediction of user intent |
US20160055498A1 (en) * | 2014-08-20 | 2016-02-25 | Mastercard International Incorporated | Obtaining consumer survey responses at point of interaction for use to predict purchasing behavior |
-
2018
- 2018-05-11 CN CN201810450784.6A patent/CN108648011B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110699A (zh) * | 2007-08-07 | 2008-01-23 | 广州诚予国际市场信息研究有限公司 | 具有网络满意度预测预警功能的系统及其实现方法 |
JP2016206767A (ja) * | 2015-04-17 | 2016-12-08 | 富士ゼロックス株式会社 | 購買意欲推定プログラム及び情報処理装置 |
CN107688967A (zh) * | 2017-08-24 | 2018-02-13 | 平安科技(深圳)有限公司 | 客户购买意向的预测方法及终端设备 |
CN107993085A (zh) * | 2017-10-19 | 2018-05-04 | 阿里巴巴集团控股有限公司 | 模型训练方法、基于模型的用户行为预测方法及装置 |
Non-Patent Citations (3)
Title |
---|
A scalable purchase intention prediction system using extreme gradient boosting machines with browsing content entropy;Bichen Zheng等;《 2018 IEEE International Conference on Consumer Electronics (ICCE)》;20180329;1-4 * |
大数据真的能帮助你了解消费者购买意图吗;199IT;《http://www.199it.com/archives/515524.html》;20160908;1-6 * |
面向社会媒体的用户消费意图分析关键技术研究;付博;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20170215(第02期);I138-225 * |
Also Published As
Publication number | Publication date |
---|---|
CN108648011A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648011B (zh) | 模型生成、识别客户购买车险意向的方法及系统 | |
US8930305B2 (en) | Adaptive information processing systems, methods, and media for updating product documentation and knowledge base | |
US20170140312A1 (en) | System and method for performing signal processing and dynamic analysis and forecasting of risk of third parties | |
Liu et al. | Variable selection in clustering for marketing segmentation using genetic algorithms | |
US20150254719A1 (en) | Prediction of Vehicle Transactions and Targeted Advertising Using Vehicle Telematics | |
US6493723B1 (en) | Method and system for integrating spatial analysis and data mining analysis to ascertain warranty issues associated with transportation products | |
Wu et al. | User value identification based on improved RFM model and k-means++ algorithm for complex data analysis | |
US20040111314A1 (en) | Satisfaction prediction model for consumers | |
Meinzer et al. | Can machine learning techniques predict customer dissatisfaction? A feasibility study for the automotive industry. | |
CN113869722A (zh) | 基于工业互联网的家电供应链风险预警系统、方法及设备 | |
CN115526652A (zh) | 一种基于机器学习的客户流失预警方法及系统 | |
Burney et al. | A survey of soft computing applications for decision making in supply chain management | |
US7580878B1 (en) | Data fusion for automated business decisions | |
CN111915368B (zh) | 汽车行业客户id识别系统、方法及介质 | |
US7644049B2 (en) | Decision forest based classifier for determining predictive importance in real-time data analysis | |
US8412597B1 (en) | System for targeting messages to consumers based on determination of current ownership | |
CN116308477A (zh) | 一种大数据场景下的汽配易损件门店进货推荐方法 | |
Pal et al. | How much is my car worth? A methodology for predicting used cars prices using Random Forest | |
US11397973B1 (en) | Generating training data for machine learning model for providing recommendations for services | |
KR102462955B1 (ko) | 인공지능을 이용한 부품 워런티 팩 추천 시스템 | |
US20210065227A1 (en) | Information processing method and information processing apparatus | |
Ishiguro et al. | Proposal and effectiveness of a highly compelling direct mail method: Establishment and deployment of “PMOS-DM” | |
Idris et al. | Predicting the selling price of cars using business intelligence with the feed-forward backpropagation algorithms | |
US11934967B2 (en) | Providing component recommendation using machine learning | |
Madani et al. | Predicting Consumer Purchasing Decision in The Online Food Delivery Industry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |