CN108549973A - 识别模型构建及评估的方法、装置、存储介质及终端 - Google Patents
识别模型构建及评估的方法、装置、存储介质及终端 Download PDFInfo
- Publication number
- CN108549973A CN108549973A CN201810239412.9A CN201810239412A CN108549973A CN 108549973 A CN108549973 A CN 108549973A CN 201810239412 A CN201810239412 A CN 201810239412A CN 108549973 A CN108549973 A CN 108549973A
- Authority
- CN
- China
- Prior art keywords
- sample
- client
- business personnel
- identification model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种识别模型构建及评估的方法,包括:获取样本数据,包括第一方式下转为业务员的客户样本,对所述样本数据进行预处理;以预处理后的所述样本数据作为训练集,基于随机森林算法训练业务员转化识别模型;将预设的第一校验数据输入所述业务员转化识别模型,并获取输出结果,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本及未转为业务员的客户样本,所述输出结果包括所述第一校验数据中每一客户样本对应的转化概率;基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型。本发明实现了通过构建识别模型来推荐业务员,有利于解决业务员招募效果不佳的问题。
Description
技术领域
本发明属于通信技术领域,尤其涉及一种识别模型构建及评估的方法、装置、存储介质及终端。
背景技术
业务员是指组织中负责某项具体业务操作的人员,比如生产、计划、销售、财会、统计、物价、广告等具体业务的工作人员。在各行各业中,业务员的增员面临着质量和数量的双重压力。尤其是保险行业,招募工作需要较多的前期投入和意愿培养,费时费力;且所培养的对象并非全部具备销售潜质或者销售意愿,培养时缺乏针对性、产出低,最终导致招募效果不佳。因此,如何提升业务员的招募效果、降低招募的资源投入是当前亟需解决的技术问题。
发明内容
本发明实施例提供了一种识别模型构建及评估的方法、装置、存储介质及终端,以通过所述识别模型来推荐业务员,解决业务员的招募效果不佳的问题。
本发明实施例提供了一种识别模型构建及评估的方法,所述方法包括:
获取样本数据,并对所述样本数据进行预处理,其中,所述样本数据包括第一方式下转为业务员的客户样本;
以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,得到业务员转化识别模型;
将预设的第一校验数据输入所述业务员转化识别模型,并获取所述转化识别模型的第一输出结果,其中,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本,所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率;
基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型。
进一步地,所述基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型包括:
根据所述转化概率对所述第一输出结果中的客户样本进行降序排列;
以预设的百分比作为分位点,根据降序排列后的客户样本确定每一分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数;
对每一分位点,根据所述分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数计算命中率、覆盖率、提升度;
其中,所述命中率为所述分位点对应的已转为业务员的客户样本数与该分位点对应的客户样本总数之比,所述覆盖率为所述分位点对应的已转为业务员的客户样本数与第一校验数据中已转为业务员的客户样本总数之比,所述提升度为所述分位点对应的覆盖率与所述分位点之比。
进一步地,所述获取样本数据,并对所述样本数据进行预处理包括:
获取样本数据,对所述样本数据中的异常值进行剔除、对缺失值进行平滑处理;
其中,每一个客户样本包括属性信息、行为信息、价值信息以及事件响应信息。
进一步地,所述方法还包括:
对预处理后的所述样本数据中的每一个连续型变量进行分段处理;
对每一个离散型变量和分段处理后的连续型变量,计算该变量中每一分段的特征信息度IV值,并求取所有分段的特征信息度IV值之和,得到所述变量对转化概率的影响程度;
将所述影响程度与第一预设阈值进行比对,获取影响程度大于第一预设阈值的变量,得到所述业务员转化识别模型的典型转化特征;
其中,对每一个离散型变量或分段处理后的连续型变量V,计算每一分段i的特征信息度IVi值的公式如下:
在上式中,#BT表示样本数据中变量V对应的未转为业务员的客户样本数,#GT表示样本数据中变量V对应的已转为业务员的客户样本数,#Bi表示变量V的第i分段对应的未转为业务员的客户样本数,#Gi表示变量V的第i分段对应的已转为业务员的客户样本数。
进一步地,所述方法还包括:
将预设的第二校验数据输入至所述业务员转化识别模型,并获取所述业务员转化识别模型的第二输出结果,其中,所述第二校验数据包括第二方式下转为业务员的N个客户样本,所述第二输出结果包括所述N个客户样本对应的转化概率;
将每一客户样本对应的转化概率与第二预设阈值进行比对,获取转化概率大于第二预设阈值的客户样本作为目标客户;
求取所述目标客户的个数M与所述客户样本的个数N之比,得到所述业务员转化识别模型的识别率。
本发明实施例还提供了一种识别模型构建及评估的装置,所述装置包括:
预处理模块,用于获取样本数据,并对所述样本数据进行预处理,其中,所述样本数据包括第一方式下转为业务员的客户样本;
构建模块,用于以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,得到业务员转化识别模型;
第一校验模块,用于将预设的第一校验数据输入所述业务员转化识别模型,并获取所述转化识别模型的第一输出结果,其中,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本,所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率;
分布分析模块,用于基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型。
进一步地,所述分布分析模块包括:
排列单元,用于根据所述转化概率对所述第一输出结果中的客户样本进行降序排列;
分组单元,用于以预设的百分比作为分位点,根据降序排列后的客户样本确定每一分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数;
分布分析单元,用于对每一分位点,根据所述分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数计算命中率、覆盖率、提升度;
其中,所述命中率为所述分位点对应的已转为业务员的客户样本数与该分位点对应的客户样本总数之比,所述覆盖率为所述分位点对应的已转为业务员的客户样本数与第一校验数据中已转为业务员的客户样本总数之比,所述提升度为所述分位点对应的覆盖率与所述分位点之比。
进一步地,所述预处理模块用于:
获取样本数据,对所述样本数据中的异常值进行剔除、对缺失值进行平滑处理;
其中,每一个客户样本包括属性信息、行为信息、价值信息以及事件响应信息。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序由处理器执行时实现如上所述的识别模型构建及评估的方法所述的步骤。
本发明实施例还提供了一种终端,所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的识别模型构建及评估的方法所述的步骤。
与现有技术相比,本发明实施例通过获取第一方式下转为业务员的客户样本作为样本数据,对所述样本数据进行预处理,然后以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,得到业务员转化识别模型,所述业务员转化识别模型用于识别并推荐有业务倾向的客户;然后将预设的第一校验数据输入所述业务员转化识别模型,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本,并获取所述业务员转化识别模型的第一输出结果,所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率;最后对所述第一输出结果进行分布分析来评估所述业务员转化识别模型,以优化所述业务员转化识别模型的可解析性,提高业务员转化识别模型的分析精度和识别效率。本发明实施例通过所构建的识别模型来推荐业务员,提升了业务员的招募效果并降低了招募的资源投入,有利于解决业务员招募效果不佳的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的识别模型构建及评估的方法的第一实现流程图;
图2是本发明实施例提供的识别模型构建及评估的方法的第二实现流程图;
图3是本发明实施例提供的识别模型构建及评估的方法的第三实现流程图;
图4是本发明实施例提供的识别模型构建及评估的方法的第四实现流程图;
图5是本发明实施例提供的识别模型构建及评估的装置的组成结构图;
图6是本发明实施例提供的终端的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的识别模型构建及评估的方法的第一实现流程。本发明实施例提供的所述识别模型构建及评估的方法应用于终端,包括但不限于计算机、服务器。参阅图1,所述方法包括:
在步骤S101中,获取样本数据,对所述样本数据进行预处理。
在这里,所述样本数据包括在第一方式下转为业务员的若干个客户样本。所述第一方式为人为干预的自然条件,因此,所述样本数据优选为在非人为干预的自然条件下转为业务员的客户样本。
可选地,每一客户样本对应一组属性信息、行为信息、价值信息以及事件响应信息,包括若干个变量。其中,所述属性信息为客户的个人属性信息,包括但不限于客户的年龄、性别、职业、婚姻状态、学历状态。所述行为信息为客户与企业之间的接触行为信息,包括但不限于客户的保费缴纳情况、企业APP的使用活跃度、企业的保障服务申请情况。所述价值信息为客户对企业的价值贡献程度,包括但不限于客户的年收入、配偶保险的购买情况、购买产品的倾向性、是否为易购买人群、是否为小康家庭。可选地,所述价值信息还可以根据获取途径进一步划分为实质性价值和预测性价值;实质性价值是指确切得到的价值信息,比如客户的年收入、配偶保险的购买情况,预测性价值是指根据客户的属性信息和行为信息,通过聚类算法或分类算法计算得到的价值信息,比如购买产品的倾向性、是否为易购买人群。所述事件响应信息为客户对企业APP或PC端提供的活动或推销产品的响应情况,包括但不限于参加记录、购买记录、响应时间、响应周期、参与程度等指标。应当理解,所述参加记录包括但不限于是否参加活动、所参加过的活动,购买记录包括但不限于是否购买推销产品、所购买过的推销产品,参与程度是指客户是否把活动分享给他人。
作为本发明的一个优选示例,对于样本数据中每一个客户样本的属性信息、行为信息、价值信息以及事件响应信息,本发明实施例对所述样本数据进行预处理为对所述样本数据进行清洗,包括对异常值进行剔除、对缺失值进行平滑处理,以进一步增强用于建模的样本数据的真实性,提高样本数据的质量。
在步骤S102中,以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,得到所述业务员转化识别模型。
在这里,本发明实施例采用随机森林算法来进行建模,构建所述业务员转化识别模型。所述业务员转化识别模型为逻辑回归(logistic regression)模型,通过研究客户样本的多维影响因数与目标变量(即该客户是否容易转为业务员的二维观察结果)之间的关系,输出客户的转化概率,属概率型非线性回归。在本发明实施例中,所述多维影响因数包括但不限于客户的属性信息、行为信息、价值信息以及事件响应信息,所述目标变量根据转化概率与预设的概率阈值的比对结果可以划分为该客户容易转为业务员(即目标客户)、该客户不易转为业务员的二维观察结果。
本发明实施例基于第一方式下转为业务员的若干个客户样本来构建业务员转化识别模型,由于这些客户样本是在非人为干预的自然情况下转为业务员,其对应的属性信息、行为信息、价值信息以及事件响应信息中必定存在对目标变量有显著贡献的因素。随机森林算法能够利用多个分类树对数据进行判别与分类,在对数据进行分类的同时,还可以给出各个因素的重要性评分,评估各个因素在分类中所起的作用,采用随机森林算法基于上述客户样本建模有效地提高了业务员转化识别模型的构建效率以及计算转化概率的准确度。
在步骤S103中,将预设的第一校验数据输入所述业务员转化识别模型,并获取所述转化识别模型的第一输出结果。
在本发明实施例中,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本。与第一方式相对,所述第二方式为人为干预的非自然方式。因此,所述第一校验数据包括在非人为干预的自然条件下转为业务员的客户样本及未转为业务员的客户样本、在人为干预的非自然条件下转为业务员的客户样本及未转为业务员的客户样本。
本发明实施例将预设的第一校验数据输入至所述业务员转化识别模型,然后获取所述业务员转化识别模型的第一输出结果。所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率。所述转化概率表示所述客户样本转为业务员的可能性。转化概率越大,可能性越大,对应的客户样本越容易转为业务员;转化概率越小,可能性越小,对应的客户样本越不容易转为业务员。
在步骤S104中,基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型。
作为本发明的第一评估方式,本发明实施例通过对输出结果进行分布分析来判断模型评估得到的容易转为业务员的客户样本是否显著。所谓分布分析是指根据转化概率进行描述分析,用统计的指标来计算输出结果中客户样本的分布状况,包括但不限于缺失值、最大值、最小值、5%分位数、10%分位数、……95%分位数、变量的方差和偏差等。通过分布分析的方式对所述业务员转化识别模型进行评估,从而方便了开发者对模型进行改进,有利于提高业务员转化识别模型的可解析性、精度以及效率。
综上所述,本发明实施例通过获取第一方式下转为业务员的客户样本作为样本数据,然后以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,构建出业务员转化识别模型,用于推荐业务员;然后将预设的第一校验数据输入所述业务员转化识别模型,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本,并获取所述转化识别模型的第一输出结果,所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率;最后基于所述转化概率进行分布分析来评估所述业务员转化识别模型,以优化所述业务员转化识别模型的分析精度和识别效率,从而提高了业务员推荐的准确度,有利于提升业务员的招募效果并降低招募的资源投入,解决业务员招募效果不佳的问题。
进一步地,基于图1提供的识别模型构建及评估的方法的第一实现流程的基础上,提出本发明实施例提供的识别模型构建及评估的方法的第二实现流程。
如图2所示,是本发明实施例提供的识别模型构建及评估的方法的第二实现流程示意图。在本发明实施例中,步骤S104所述的基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型包括:
在步骤S1041中,根据所述转化概率对所述第一输出结果中的客户样本进行降序排列。
在这里,根据业务员转化识别模型预测出的每一客户样本对应的转化概率的大小之后,将客户样本按照转化概率由大到小进行降序排列,得到所述客户样本的分布情况。
在步骤S1042中,以预设的百分比作为分位点,根据降序排列后的客户样本确定每一分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数。
在这里,所述分位点又叫分位数,是指将变量的概率分布范围分为几个等分的数值点,比如中位数(即二分位数)、四分位数、百分位数等。本发明实施例以所述预设的百分比作为分位点划出分组,并确定该分组中的已转为业务员的客户样本数和未转为业务员的客户样本数,作为每一分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数。
示例性地,本发明实施例采用的预设的百分比包括但不限于1%、5%、10%、15%……90%、95%、99%、100%。以百分比1%为例,具体为按照转化概率由大到小对客户样本排序后,将序列中前0%至1%的客户样本组成一个分组;以百分比5%为例,具体为按照转化概率由大到小对客户样本排序后,序列中前0%至5%的客户样本组成一个分组;以此类推。针对每一分位点对应的分组,统计所述分组内已转为业务员的客户样本数和未转为业务员的客户样本数。
在步骤S1043中,对每一分位点,根据所述分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数计算命中率、覆盖率、提升度。
在这里,所述命中率为所述分位点对应的已转为业务员的客户样本数与该分位点对应的客户样本总数之比,所述覆盖率为所述分位点对应的已转为业务员的客户样本数与第一校验数据中已转为业务员的客户样本总数之比,所述提升度为所述分位点对应的覆盖率与所述分位点之比。根据所述覆盖率、命中率和提升度则可以判断出所述业务员转化识别模型对客户识别是否显著,进而完成对模型的评估、修正,有利于提高所述业务员转化识别模型的准确度和稳定性,增强模型的可解析性,从而提高了业务员推荐的准确度。
进一步地,基于图1提供的识别模型构建及评估的方法的第一实现流程的基础上,提出本发明实施例提供的识别模型构建及评估的方法的第三实现流程。
如图3所示,是本发明实施例提供的识别模型构建及评估的方法的第三实现流程示意图。在本发明实施例中,所述方法包括步骤S301至步骤S304,其中,步骤S301至步骤S304与图1实施例中所述的步骤S101至步骤S104相同,具体请参见上述实施例的叙述,此处不再赘述。
所述方法还包括:
在步骤S305中,对预处理后的所述样本数据中的每一个连续型变量进行分段处理。
在这里,所述预处理后的样本数据中包括连续型变量和离散型变量。离散型变量的取值本身已分为若干段,比如性别这一离散型变量,其取值包括男性和女性,男性代表一个段,女性代表一个段,而无需进行分段处理。本发明实施例主要针对连续型变量进行分段处理,即对连续型变量进行离散化。可选地,在本发明实施例中,优选使用等频分段法来对每一个连续型变量进行分段处理。其中,等频分段法是指将连续型变量对应的样本数据按照从小到大的顺序排列,根据观测的个数等分为k部分,每一部分当做一个分段。本发明实施例通过等频分段法对连续型变量进行分段处理,有利于简化数据处理对最优分段的算法以及降低模型部署和应用时的难度。
在步骤S306中,对每一个离散型变量和分段处理后的连续型变量,计算该变量中每一分段的特征信息度IV值,并求取所有分段的特征信息度IV值之和,得到所述变量对转化概率的影响程度。
在这里,IV的全称是Information Value,中文意思为信息价值或信息度。在本发明实施例中,所述特征信息度IV值用于衡量分段处理后的连续型变量或离散型变量中某个或某些样本数据的预测能力。
针对同一变量V(分段处理后的连续型变量或离散型变量)的每一分段数据,均对应一个特征信息度IV值,其中计算每一分段i的特征信息度IVi值的计算公式如下:
在上式中,#BT表示样本数据中变量V对应的未转为业务员的客户样本数,#GT表示样本数据中变量V对应的已转为业务员的客户样本数,#Bi表示变量V的第i分段对应的未转为业务员的客户样本数,#Gi表示变量V的第i分段对应的已转为业务员的客户样本数。特征信息度IV值越大,表明所述特征信息度IV值对应的分段数据对目标变量(即该客户是否容易转为业务员的二维观察结果)的影响程度越大,该分段中样本数据的预测能力越强,反之则影响程度越小,该分段中样本数据的预测能力越弱。
在步骤S307中,将所述影响程度与第一预设阈值进行比对,获取影响程度大于第一预设阈值的变量,得到所述业务员转化识别模型的典型转化特征。
作为本发明的第二评估方式,本发明实施例通过挑选典型转化特征来分析对目标变量有影响的特征,即分析对转为业务员有显著贡献的特征,以评估业务员转化识别模型的识别特征。在这里,所述典型转化特征是指对转为业务员有显著贡献的变量。作为本发明的一个实施例,可以根据具体的任务情况预先设定阈值,记为第一预设阈值,所述第一预设阈值作为变量是否为典型转化特征的筛选标准。通过比对变量对转化概率的影响程度与第一预设阈值的大小,筛选出典型转化特征。示例性地,所述第一预设阈值可以为0.3,当变量对转化概率的影响程度大于0.3时,则认为该变量为重要指标,即典型转化特征。
本发明实施例通过计算特征信息度IV值来筛选典型转化特征,完成了对业务员识转化识别模型的特征评估,大大地提高了所得到的典型转化特征的准确性,从而提高了对所述业务员转化识别模型的评估效果及优化结果,有利于提高了业务员推荐的准确度,提高业务员的招募效果并降低招募的资源投入。
进一步地,基于图1提供的识别模型构建及评估的方法的第一实现流程的基础上,提出本发明实施例提供的识别模型构建及评估的方法的第四实现流程。
如图4所示,是本发明实施例提供的识别模型构建及评估的方法的第四实现流程示意图。在本发明实施例中,所述方法包括步骤S401至步骤S404,其中,步骤S401至步骤S404与图1实施例中所述的步骤S101至步骤S104相同,具体请参见上述实施例的叙述,此处不再赘述。
所述方法还包括:
在步骤S405中,将预设的第二校验数据输入至所述业务员转化识别模型,并获取所述业务员转化识别模型的第二输出结果。
其中,所述第二校验数据包括第二方式下转为业务员的N个客户样本。如前所述,所述第二方式为人为干预的非自然方式。因此,所述第二校验数据包括在人为干预的非自然条件下转为业务员的N个客户样本。所述第二输出结果包括所述N个客户样本对应的转化概率。所述转化概率表示所述客户样本转为业务员的可能性。转化概率越大,可能性越大,对应的客户样本越容易转为业务员;转化概率越小,可能性越小,对应的客户样本越不容易转为业务员。
在步骤S406中,将每一客户样本对应的转化概率与第二预设阈值进行比对,获取转化概率大于第二预设阈值的客户样本作为目标客户。
作为本发明的第三评估方式,本发明实施例通过筛选目标客户来分析业务员转化识别模型的判断结果,即该客户样本是否容易转为业务员,以评估业务员转化识别模型的识别效果。
在这里,可以根据具体的任务情况预先设定阈值,记为第二预设阈值,所述第二预设阈值作为客户样本是否容易转为业务员的筛选标准。通过比对变量对应的转化概率与第二预设阈值的大小,筛选出大于所述第二预设阈值的客户样本,作为业务员发展的目标对象,记为目标客户。
在步骤S407中,求取所述目标客户的个数M与所述客户样本的个数N之比,得到所述业务员转化识别模型的识别率。
在通过步骤S406筛选出目标对象之后,统计目标对象的个数M,然后计算所述目标客户的个数M与所述客户样本的个数N之比,所得比值作为业务员转化识别模型的识别率。
由于所述第二校验数据所包括的客户样本是在人为干预的非自然条件下转为业务员的,利用目标客户的个数M与所述客户样本的个数N计算得到所述识别率,完成了对业务员识转化识别模型的精度评估,且提高了计算得到的识别率的参考价值。所述识别率更贴切地反映了所述业务员转化识别模型的识别能力,从而提高了对所述业务员转化识别模型的评估效果以及优化结果,有利于提高了业务员推荐的准确度,进而提高业务员的招募效果并降低招募的资源投入。
应理解,在上述实施例中,各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
图5示出了本发明实施例提供的识别模型构建及评估的装置的组成结构图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本发明实施例中,所述识别模型构建及评估的装置用于实现上述图1、图2、图3、图4实施例中所述的识别模型构建及评估的方法,可以是内置于终端的软件单元、硬件单元或者软硬件结合的单元。
参阅图5,所述识别模型构建及评估的装置包括:
预处理模块51,用于获取样本数据,并对所述样本数据进行预处理,其中,所述样本数据包括第一方式下转为业务员的客户样本;
构建模块52,用于以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,得到业务员转化识别模型;
第一校验模块53,用于将预设的第一校验数据输入所述业务员转化识别模型,并获取所述转化识别模型的第一输出结果,其中,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本,所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率;
分布分析模块54,用于基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型。
可选地,所述分布分析模块54包括:
排列单元541,用于根据所述转化概率对所述第一输出结果中的客户样本进行降序排列;
分组单元542,用于以预设的百分比作为分位点,根据降序排列后的客户样本确定每一分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数;
分布分析单元543,用于对每一分位点,根据所述分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数计算命中率、覆盖率、提升度;
其中,所述命中率为所述分位点对应的已转为业务员的客户样本数与该分位点对应的客户样本总数之比,所述覆盖率为所述分位点对应的已转为业务员的客户样本数与第一校验数据中已转为业务员的客户样本总数之比,所述提升度为所述分位点对应的覆盖率与所述分位点之比。
可选地,所述预处理模块51用于:
获取样本数据,对所述样本数据中的异常值进行剔除、对缺失值进行平滑处理;
其中,每一个客户样本包括属性信息、行为信息、价值信息以及事件响应信息。
可选地,所述装置还包括:
分段模块55,用于对预处理后的所述样本数据中的每一个连续型变量进行分段处理;
信息度计算模块56,用于对每一个离散型变量或分段处理后的连续型变量,计算该变量中每一分段的特征信息度IV值,并求取所有分段的特征信息度IV值之和,得到所述变量对转化概率的影响程度;
特征获取模块57,用于将所述影响程度与第一预设阈值进行比对,获取影响程度大于第一预设阈值的变量,得到所述业务员转化识别模型的典型转化特征;
其中,对每一个离散型变量或分段处理后的连续型变量V,计算每一分段i的特征信息度IVi值的公式如下:
在上式中,#BT表示样本数据中变量V对应的未转为业务员的客户样本数,#GT表示样本数据中变量V对应的已转为业务员的客户样本数,#Bi表示变量V的第i分段对应的未转为业务员的客户样本数,#Gi表示变量V的第i分段对应的已转为业务员的客户样本数。
可选地,所述装置还包括:
第二校验模块58,用于将预设的第二校验数据输入至所述业务员转化识别模型,并获取所述业务员转化识别模型的第二输出结果,其中,所述第二校验数据包括第二方式下转为业务员的N个客户样本,所述第二输出结果包括所述N个客户样本对应的转化概率;
目标客户获取模块59,用于将每一客户样本对应的转化概率与第二预设阈值进行比对,获取转化概率大于第二预设阈值的客户样本作为目标客户;
比值计算模块510,用于求取所述目标客户的个数M与所述客户样本的个数N之比,得到所述业务员转化识别模型的识别率。
需要说明的是,本发明实施例中的各模块/单元可以用于实现上述方法实施例中的全部技术方案,其具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
实施例3
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中识别模型构建及评估的方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例2中识别模型构建及评估的装置中各模块/单元的功能,为避免重复,这里不再赘述。
实施例4
图6是本发明实施例提供的一种终端的示意图,所述终端包括但不限于服务器、移动终端。如图6所示,该实施例的终端6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述识别模型构建及评估的方法实施例中的步骤,例如图1所示的步骤S101至S104,图2实施例中所述的步骤S1041至S1043,图3实施例中所述的步骤S301至S307以及图4实施例中所述的步骤S401至步骤S407,或者,所述处理器60执行所述计算机程序62时实现上述识别模型构建及评估的装置实施例中各模块/单元的功能,例如图5所示模块51至54的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端6中的执行过程。例如,所述计算机程序62可以被分割成预处理模块51、构建模块52、第一校验模块53、分布分析模块54,各模块具体功能请参见上述实施例的叙述。
所述终端6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端6的示例,并不构成对终端6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端的控制中心,利用各种接口和线路连接整个终端的各个部分。
所述存储器61可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart MediaCard,SMC)、安全数字卡(Secure Digital,SD)、闪存卡(Flash Card),至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种识别模型构建及评估的方法,其特征在于,所述方法包括:
获取样本数据,并对所述样本数据进行预处理,其中,所述样本数据包括第一方式下转为业务员的客户样本;
以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,得到业务员转化识别模型;
将预设的第一校验数据输入所述业务员转化识别模型,并获取所述转化识别模型的第一输出结果,其中,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本,所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率;
基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型。
2.如权利要求1所述的识别模型构建及评估的方法,其特征在于,所述基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型包括:
根据所述转化概率对所述第一输出结果中的客户样本进行降序排列;
以预设的百分比作为分位点,根据降序排列后的客户样本确定每一分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数;
对每一分位点,根据所述分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数计算命中率、覆盖率、提升度;
其中,所述命中率为所述分位点对应的已转为业务员的客户样本数与该分位点对应的客户样本总数之比,所述覆盖率为所述分位点对应的已转为业务员的客户样本数与第一校验数据中已转为业务员的客户样本总数之比,所述提升度为所述分位点对应的覆盖率与所述分位点之比。
3.如权利要求1所述的识别模型构建及评估的方法,其特征在于,所述获取样本数据,并对所述样本数据进行预处理包括:
获取样本数据,对所述样本数据中的异常值进行剔除、对缺失值进行平滑处理;
其中,每一个客户样本包括属性信息、行为信息、价值信息以及事件响应信息。
4.如权利要求1至3任一项所述的识别模型构建及评估的方法,其特征在于,所述方法还包括:
对预处理后的所述样本数据中的每一个连续型变量进行分段处理;
对每一个离散型变量和分段处理后的连续型变量,计算该变量中每一分段的特征信息度IV值,并求取所有分段的特征信息度IV值之和,得到所述变量对转化概率的影响程度;
将所述影响程度与第一预设阈值进行比对,获取影响程度大于第一预设阈值的变量,得到所述业务员转化识别模型的典型转化特征;
其中,对每一个离散型变量或分段处理后的连续型变量V,计算每一分段i的特征信息度IVi值的公式如下:
在上式中,#BT表示样本数据中变量V对应的未转为业务员的客户样本数,#GT表示样本数据中变量V对应的已转为业务员的客户样本数,#Bi表示变量V的第i分段对应的未转为业务员的客户样本数,#Gi表示变量V的第i分段对应的已转为业务员的客户样本数。
5.如权利要求1至3任一项所述的识别模型构建及评估的方法,其特征在于,所述方法还包括:
将预设的第二校验数据输入至所述业务员转化识别模型,并获取所述业务员转化识别模型的第二输出结果,其中,所述第二校验数据包括第二方式下转为业务员的N个客户样本,所述第二输出结果包括所述N个客户样本对应的转化概率;
将每一客户样本对应的转化概率与第二预设阈值进行比对,获取转化概率大于第二预设阈值的客户样本作为目标客户;
求取所述目标客户的个数M与所述客户样本的个数N之比,得到所述业务员转化识别模型的识别率。
6.一种识别模型构建及评估的装置,其特征在于,所述装置包括:
预处理模块,用于获取样本数据,并对所述样本数据进行预处理,其中,所述样本数据包括第一方式下转为业务员的客户样本;
构建模块,用于以预处理后的所述样本数据作为训练集,基于随机森林算法训练预设的逻辑回归模型,得到业务员转化识别模型;
第一校验模块,用于将预设的第一校验数据输入所述业务员转化识别模型,并获取所述转化识别模型的第一输出结果,其中,所述第一校验数据包括第一方式和第二方式下已转为业务员的客户样本以及未转为业务员的客户样本,所述第一输出结果包括所述第一校验数据中每一个客户样本对应的转化概率;
分布分析模块,用于基于所述转化概率对所述第一校验数据中的客户样本进行分布分析,以评估所述业务员转化识别模型。
7.如权利要求6所述的识别模型构建及评估的装置,其特征在于,所述分布分析模块包括:
排列单元,用于根据所述转化概率对所述第一输出结果中的客户样本进行降序排列;
分组单元,用于以预设的百分比作为分位点,根据降序排列后的客户样本确定每一分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数;
分布分析单元,用于对每一分位点,根据所述分位点对应的已转为业务员的客户样本数和未转为业务员的客户样本数计算命中率、覆盖率、提升度;
其中,所述命中率为所述分位点对应的已转为业务员的客户样本数与该分位点对应的客户样本总数之比,所述覆盖率为所述分位点对应的已转为业务员的客户样本数与第一校验数据中已转为业务员的客户样本总数之比,所述提升度为所述分位点对应的覆盖率与所述分位点之比。
8.如权利要求7所述的识别模型构建及评估的装置,其特征在于,所述预处理模块用于:
获取样本数据,对所述样本数据中的异常值进行剔除、对缺失值进行平滑处理;
其中,每一个客户样本包括属性信息、行为信息、价值信息以及事件响应信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序由处理器执行时实现权利要求1至5任一项所述的识别模型构建及评估的方法所述的步骤。
10.一种终端,所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述权利要求1至5任一项所述的识别模型构建及评估的方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239412.9A CN108549973B (zh) | 2018-03-22 | 2018-03-22 | 识别模型构建及评估的方法、装置、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239412.9A CN108549973B (zh) | 2018-03-22 | 2018-03-22 | 识别模型构建及评估的方法、装置、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108549973A true CN108549973A (zh) | 2018-09-18 |
CN108549973B CN108549973B (zh) | 2022-07-19 |
Family
ID=63516969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810239412.9A Active CN108549973B (zh) | 2018-03-22 | 2018-03-22 | 识别模型构建及评估的方法、装置、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108549973B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140678A1 (zh) * | 2019-01-04 | 2020-07-09 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备和存储介质 |
WO2020143305A1 (zh) * | 2019-01-07 | 2020-07-16 | 平安科技(深圳)有限公司 | 群体信息分类方法、装置、计算机设备和存储介质 |
CN111477332A (zh) * | 2020-04-07 | 2020-07-31 | 江苏省血液中心 | 基于机器学习的献血人员识别与招募方法 |
CN111597548A (zh) * | 2020-07-17 | 2020-08-28 | 支付宝(杭州)信息技术有限公司 | 实现隐私保护的数据处理方法及装置 |
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080112557A1 (en) * | 2006-11-14 | 2008-05-15 | International Business Machines Corporation | Method and system for analyzing contact studies |
CN104834983A (zh) * | 2014-12-25 | 2015-08-12 | 平安科技(深圳)有限公司 | 业务数据处理方法及装置 |
CN106844699A (zh) * | 2017-01-26 | 2017-06-13 | 成都市亚丁胡杨科技股份有限公司 | 一种智能社区的服务员工的授权方法 |
CN107045623A (zh) * | 2016-12-30 | 2017-08-15 | 厦门瑞为信息技术有限公司 | 一种基于人体姿态跟踪分析的室内危险情况告警的方法 |
CN107392109A (zh) * | 2017-06-27 | 2017-11-24 | 南京邮电大学 | 一种基于深度神经网络的新生儿疼痛表情识别方法 |
-
2018
- 2018-03-22 CN CN201810239412.9A patent/CN108549973B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080112557A1 (en) * | 2006-11-14 | 2008-05-15 | International Business Machines Corporation | Method and system for analyzing contact studies |
CN104834983A (zh) * | 2014-12-25 | 2015-08-12 | 平安科技(深圳)有限公司 | 业务数据处理方法及装置 |
CN107045623A (zh) * | 2016-12-30 | 2017-08-15 | 厦门瑞为信息技术有限公司 | 一种基于人体姿态跟踪分析的室内危险情况告警的方法 |
CN106844699A (zh) * | 2017-01-26 | 2017-06-13 | 成都市亚丁胡杨科技股份有限公司 | 一种智能社区的服务员工的授权方法 |
CN107392109A (zh) * | 2017-06-27 | 2017-11-24 | 南京邮电大学 | 一种基于深度神经网络的新生儿疼痛表情识别方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140678A1 (zh) * | 2019-01-04 | 2020-07-09 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备和存储介质 |
WO2020143305A1 (zh) * | 2019-01-07 | 2020-07-16 | 平安科技(深圳)有限公司 | 群体信息分类方法、装置、计算机设备和存储介质 |
CN111477332A (zh) * | 2020-04-07 | 2020-07-31 | 江苏省血液中心 | 基于机器学习的献血人员识别与招募方法 |
CN111597548A (zh) * | 2020-07-17 | 2020-08-28 | 支付宝(杭州)信息技术有限公司 | 实现隐私保护的数据处理方法及装置 |
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
CN116051296B (zh) * | 2022-12-28 | 2023-09-29 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108549973B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549973A (zh) | 识别模型构建及评估的方法、装置、存储介质及终端 | |
Lopes | Audit quality and earnings management: Evidence from Portugal | |
O'Dea et al. | Survival pessimism and the demand for annuities | |
Deller et al. | Rural broadband speeds and business startup rates | |
CN109784779B (zh) | 财务风险预测方法、装置及存储介质 | |
CN110909984B (zh) | 业务数据处理模型训练方法、业务数据处理方法及装置 | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
Du et al. | The effect of minimum wage on firm markup: Evidence from China | |
CN111951050B (zh) | 理财产品推荐方法及装置 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
Hafner et al. | Do minimum wages improve self-rated health? Evidence from a natural experiment | |
CN113554350A (zh) | 活跃度评估方法、装置、电子设备及计算机可读存储介质 | |
Spiliopoulos et al. | Nonlinear decision weights or moment-based preferences? A model competition involving described and experienced skewness | |
Chen et al. | A spatial model of bank branches in Canada | |
Lin et al. | Policy incentives, ownership effects, and firm productivity—Evidence from China’s Agricultural Leading Firms Program | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
Castro et al. | Bottlenecks or inefficiency? An assessment of first instance Italian courts’ performance | |
Chang et al. | Ranking journal quality by harmonic mean of ranks: An application to ISI Statistics & Probability | |
CN111062602A (zh) | 企业信用风险评估的方法、装置及存储介质 | |
Zhang et al. | A robust spike sorting method based on the joint optimization of linear discrimination analysis and density peaks | |
CN116313086A (zh) | 一种亚健康预测模型构建方法、装置、设备及存储介质 | |
CN110189016A (zh) | 技术生命周期评估方法和装置 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
Mahalle et al. | Data Acquisition and Preparation | |
CN113159552A (zh) | 一种员工激励管理方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |