CN112529319A - 基于多维特征的评分方法、装置、计算机设备及存储介质 - Google Patents
基于多维特征的评分方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112529319A CN112529319A CN202011500910.8A CN202011500910A CN112529319A CN 112529319 A CN112529319 A CN 112529319A CN 202011500910 A CN202011500910 A CN 202011500910A CN 112529319 A CN112529319 A CN 112529319A
- Authority
- CN
- China
- Prior art keywords
- attributes
- derogation
- client
- target
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于多维特征的评分方法、装置、计算机设备及存储介质,属于大数据技术领域。基于多维特征的评分方法可根据数据集中基础属性的类别将历史客户划分为多个客户集合,通过初始XGBoost模型树对各个客户集合中客户的特征属性进行分析得到目标特征属性,根据目标特征属性构建XGBoost模型树,通过将数据集输入XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值。当接收到目标客户的数据信息时采用XGBoost模型树对数据信息进行处理以得到贬损概率值,基于贬损概率值及贬损阈值确定目标客户的评分信息,实现快速有效的自动根据采集/获取的客户数据信息预测评分数据的目的。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及基于多维特征的评分方法、装置、计算机设备及存储介质。
背景技术
净推荐值(Net Promoter Score,NPS)是企业用于计量客户将会向其他人推荐企业可能性的指数,可以有效地量化客户忠诚度。NPS的具体计算方式为:首先让客户根据愿意推荐的程度让客户在0-10之间打分,然后根据打分情况将客户分为几类,例如:将客户分为3类,分别为:9-10分为推荐类、7-8分为中等类、0-6分为贬损类,依公式计算NPS值=(推荐者数/总样本数)×100%-(贬损者数/总样本数)×100%。NPS值越高表示企业的忠诚用户越多,相应的NPS值越低表示企业的忠诚用户越少。目前无法直接根据用户对企业产品的使用数据得到用户评分,只能通过对客户评分调查问卷的方式获取用户的反馈评分,以便于计算NPS值,用户体验效果差、效率低。
发明内容
针对目前无法根据用户对企业产品的使用数据获取用户评分的问题,现提供一种旨在可对客户的数据信息进行分析以得到用户评分,提升效率的基于多维特征的评分方法、装置、计算机设备及存储介质。
为实现上述目的,本发明提供一种基于多维特征的评分方法,包括:
获取历史客户的数据集,其中,所述数据集包括每个历史客户的基础属性和特征属性;
根据所述数据集中基础属性的类别将所述历史客户划分为多个客户集合;
采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性;
根据所述目标特征属性构建XGBoost模型树;
将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值;
接收目标客户的数据信息,提取所述数据信息的目标特征属性,采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值,将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
可选的,获取历史客户的数据集之前,包括:
获取所述历史客户的数据信息,所述数据信息包括基础属性和初始特征属性;
依据所述历史客户的信用卡的使用阶段及特征属性,从所述初始特征属性中提取与所述特征属性对应的所述初始特征属性作为特征属性,所有所述历史客户的所述基础属性和特征属性构成所述数据集。
可选的,采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性,包括:
采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行增益值计算,获取各个所述特征属性的增益值;
将符合预设条件的增益值对应的特征属性作为目标特征属性。
可选的,所述预设条件为将增益值由大至小进行排序,将位于排序前N位的特征属性作为目标特征属性,其中,N为大于或等于2的正整数;或
所述预设条件为将大于增益阈值的所述增益值对应的特征属性作为目标特征属性。
可选的,根据所述目标特征属性构建XGBoost模型树,包括:
将所述目标特征属性输入所述初始XGBoost模型树进行训练获取所述XGBoost模型树。
可选的,将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值,包括:
将所述数据集输入所述XGBoost模型树,计算每个历史客户的贬损概率值;
采用等频分箱的方式对所有的所述历史客户的贬损概率值进行划分,计算每一箱的平均贬损值,将所述平均贬损值与相应的实际贬损值进行比较,选择与所述实际贬损值的差值最小的所述平均贬损值作为所述贬损阈值。
为实现上述目的,本发明还提供一种基于多维特征的评分装置,包括:
获取单元,用于获取历史客户的数据集,其中,所述数据集包括每个历史客户的基础属性和特征属性;
划分单元,用于根据所述数据集中基础属性的类别将所述历史客户划分为多个客户集合;
分析单元,用于采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性;
构建单元,用于根据所述目标特征属性构建XGBoost模型树;
处理单元,用于将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值;
评分单元,用于接收目标客户的数据信息,提取所述数据信息的目标特征属性,采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值,将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
可选的,还包括:
接收单元,用于获取所述历史客户的数据信息,所述数据信息包括基础属性和初始特征属性;
提取单元,用于依据所述历史客户的信用卡的使用阶段及特征属性,从所述初始特征属性中提取与所述特征属性对应的所述初始特征属性作为特征属性,所有所述历史客户的所述基础属性和特征属性构成所述数据集。
为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的基于多维特征的评分方法、装置、计算机设备及存储介质,可根据数据集中基础属性的类别将历史客户划分为多个客户集合,通过初始XGBoost模型树对各个客户集合中客户的特征属性进行分析,以得到目标特征属性,从而根据目标特征属性构建XGBoost模型树,通过将数据集输入XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值。当接收到目标客户的数据信息时,可采用XGBoost模型树对数据信息进行处理以得到贬损概率值,基于贬损概率值及贬损阈值确定目标客户的评分信息,实现可快速有效的自动根据采集/获取的客户数据信息预测评分数据的目的,提升获取客户评分的效率。
附图说明
图1为本发明所述的基于多维特征的评分方法的一种实施例的流程图;
图2为采用XGBoost模型树对数据信息进行处理以确定目标客户的评分信息的一种实施例的流程图;
图3为本发明所述的基于多维特征的评分方法的另一种实施例的流程图;
图4为本发明所述的基于多维特征的评分装置的一种实施例的模块图;
图5为本发明所述的基于多维特征的评分装置的另一种实施例的模块图;
图6为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供的基于多维特征的评分方法、装置、计算机设备及存储介质,适用于金融领域,如:对信用卡客户的净推荐值调研场景中。本发明在可通过采集客户对使用产品的数据分析客户对产品的评分情况,以便于计算NPS值,无需人工调研,分析效率高。基于多维特征的评分方法可根据数据集中基础属性的类别将历史客户划分为多个客户集合,通过初始XGBoost模型树对各个客户集合中客户的特征属性进行分析,以得到目标特征属性,从而根据目标特征属性构建XGBoost模型树,通过将数据集输入XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值。当接收到目标客户的数据信息时,可采用XGBoost模型树对数据信息进行处理以得到贬损概率值,基于贬损概率值及贬损阈值确定目标客户的评分信息,实现可快速有效的自动根据采集/获取的客户数据信息预测评分数据的目的,提升获取评分的效率,以及用户的体验效果。
实施例一
请参阅图1,本实施例的一种基于多维特征的评分方法,包括以下步骤:
S1.获取历史客户的数据集。
其中,所述数据集包括每个历史客户的基础属性和特征属性。
需要强调的是,为进一步保证上述数据集中数据的私密和安全性,上述数据集还可以存储于一区块链的节点中。
本实施例中,基于多维特征的评分方法主要适用于对信用卡客户的净推荐值调研场景中。基础属性可包括年龄、性别、职业、居住地、学历、婚姻状态等客户的个人基本信息;基于信用卡的生命周期(办卡→用卡→还款),可分为三个阶段(办卡阶段、用卡阶段和还款阶段),相应的特征属性可包括:与办卡阶段对应的办卡渠道、办卡等级,与用卡阶段对应的信用等级,与还款阶段对应的分期还款数据、逾期还款数据。其中,办卡渠道可包括:网申办卡、直销办卡(销售推广人员协助客户办卡)、第三方平台办卡、银行柜台办卡等;根据信用卡的信用额度划分的信用等级,信用等级是根据信用卡的信用额度划分的等级(如:白金卡、黑卡等)。
S2.根据所述数据集中基础属性的类别将所述历史客户划分为多个客户集合。
作为举例而非限定,可根据历史客户的年龄对历史客户进行划分;还可根据历史客户的性别对历史客户进行划分;还可根据学历对历史客户进行划分;还可根据婚姻状态对历史客户进行划分;还可根据居住地对历史客户进行划分。
S3.采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性。
进一步地,步骤S3可包括:
采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行增益值计算,获取各个所述特征属性的增益值;将符合预设条件的增益值对应的特征属性作为目标特征属性。
将每个客户的特征属性输入初始XGBoost模型树,根据初始XGBoost模型树中单棵决策树中每个节点(分裂点)调整性能度量的量,来计算特征属性对应的特征属性重要性,由节点负责加权和记录次数。节点与基础属性对应,决策树节点在进行分裂时,需要计算每个特征的每个分裂点的信息增益,即用贪心法枚举所有的可能的分割点。当数据无法一次性载入内存或者在分布式的情况下,贪心的算法效率就会变得很低,因此XGBoost还可采用并行的近似直方图算法,用于高效的生成候选的分割点。一个特征属性对分裂点改进性能度量越大(越靠近根节点),权值越大;被越多提升树所选择,属性越重要。将一个特征属性在所有提升树中的结果进行加权求和后平均,得到重要性得分即特征属性的增益值,将符合预设条件的增益值对应的特征属性作为目标特征属性。
在一实施例中,所述预设条件为将增益值由大至小进行排序,将位于排序前N位的特征属性作为目标特征属性,其中,N为大于或等于2的正整数。
本实施例中,可依据信用卡的三个阶段对特征属性进行分类,分别将每个阶段的特征属性的增益值进行排序,将排序在前N位的特征属性作为目标特征属性。
在另一实施例中,所述预设条件为将大于增益阈值的所述增益值对应的特征属性作为目标特征属性。
S4.根据所述目标特征属性构建XGBoost模型树。
进一步地,步骤S4可包括:将所述目标特征属性输入所述初始XGBoost模型树进行训练获取所述XGBoost模型树。
在本实施例中,将目标特征属性输入到初始XGBoost模型树中,通过信息增益对XGBoost模型树的节点进行选择,即切分基础属性,其中信息增益表示基础属性使得目标特征属性的不确定性减少的程度。初始XGBoost模型树的训练需要将数据集作为训练集,从训练集用初始权重训练处一个第一弱学习器,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前的第一弱学习器学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的第二弱学习器中得到更多的重视。然后基于调整权重后的训练集来训练第二弱学习器,如此重复进行,直到弱学习器数达到事先指定的数目,最终将这些个弱学习器通过集合策略进行整合,得到最终的强学习器即XGBoost模型树。XGBoost是训练一种简单高效并且具有强解释性的决策树模型,其本质是一颗由多个判断节点组成的树,在使用模型进行预测时,根据输入参数依次在各个判断节点进行判断游走,最后到叶子节点即为预测结果。其中,树形模型是一个特征进行处理。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每一个特征做一个划分。
S5.将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值。
进一步地,步骤S5可包括:
将所述数据集输入所述XGBoost模型树,计算每个历史客户的贬损概率值;采用等频分箱的方式对所有的所述历史客户的贬损概率值进行划分,计算每一箱的平均贬损值,将所述平均贬损值与相应的实际贬损值进行比较,选择与所述实际贬损值的差值最小的所述平均贬损值作为所述贬损阈值。
本实施例中,将XGBoost模型树输出的各个历史客户的贬损概率值,进行从大到小或从小到大的排序,依据箱子的个数及排序顺序,将排序后的贬损概率值均匀的放入相应的箱子中,分别计算每一个箱的平均贬损值,将平均贬损值与该箱中贬损概率值对应的历史客户的实际贬损值进行比较,选择差值最小(即准确率最高、精准度最高的)的平均贬损值作为贬损阈值。其中,实际贬损值为箱子中贬损概率值对应的所有历史客户的实际打分贬损值(客户的满意度评分值)的平均值。
S6.接收目标客户的数据信息,提取所述数据信息的目标特征属性,采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值,将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
进一步地,参阅图2步骤S6可包括以下步骤:
S61.接收所述目标客户的所述数据信息。
其中,数据信息可包括基础属性和特征属性。
S62.采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值。
本实施例中,可对目标客户的数据信息进行标准化处理,并从数据信息提取基础属性和目标特征属性。通过XGBoost模型树基于基础属性对特征属性进行处理,获取贬损概率值。
S63.将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
本实施例中,将目标客户的贬损概率值与贬损阈值进行比较,若贬损概率值大于贬损阈值,则表示目标客户为推荐型客户;若贬损概率值等于贬损阈值,则表示目标客户为中等型客户;若贬损概率值小于贬损阈值,则表示目标客户为贬损型客户。在实际应用中,当需要预测的客户数量较大时,可采用多维特征的客户评分预测方法对客户进行批量的分析预测,根据各个客户的评分结果,构建客户的用户画像。
在本实施例中,基于多维特征的评分方法可根据数据集中基础属性的类别将历史客户划分为多个客户集合,通过初始XGBoost模型树对各个客户集合中客户的特征属性进行分析,以得到目标特征属性,从而根据目标特征属性构建XGBoost模型树,通过将数据集输入XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值。当接收到目标客户的数据信息时,可采用XGBoost模型树对数据信息进行处理以得到贬损概率值,基于贬损概率值及贬损阈值确定目标客户的评分信息,实现可快速有效的自动根据采集/获取的客户数据信息预测评分数据的目的,无需事后调研,提升了分析效率,节约了人力物力,同时,还可为提升客户的体验提供有效方向,以便于根据预测的评分数据计算NPS值,克服了只通过NPS值无法了解客户实际贬损因素的缺陷。
本实施例中的基于多维特征的评分方法能根据历史客户的满意度评分值,筛选真正影响客户体验评分的重要因素,并根据当前客户的行为预测客户未来的体验评分值,提前抓出潜在贬损类的客户体验痛点,以便于为业务优化客户体验提供方向,提高整体NPS评分值。本发明在可通过采集客户对使用产品的数据预测客户对产品的评分情况,以便于计算NPS值,无需人工调研,分析效率高。
在一实施例中,参阅图3基于多维特征的评分方法在执行步骤S1之前可包括:
A1.获取所述历史客户的数据信息。
其中,所述数据信息包括基础属性和初始特征属性。
A2.依据所述历史客户的信用卡的使用阶段及特征属性,从所述初始特征属性中提取与所述特征属性对应的所述初始特征属性作为特征属性,所有所述历史客户的所述基础属性和特征属性构成所述数据集。
本实施例中,历史客户的数据信息是未经处理的数据,初始特征属性中包括除特征属性外其他的数据,对评分预测有干扰,因此在执行步骤S1之前,采用步骤A2对初始特征属性进行筛选过滤,以提取有效数据进行后续分析。
具体地,步骤A2可根据信用卡的生命周期中的三个阶段(使用阶段):办卡阶段、用卡阶段和还款阶段,对应的特征属性提取相应的特征属性,其中,办卡渠道与渠道属性对应,办卡等级与办卡等级属性对应,信用等级与信息等级属性对应,分期还款数据与还款属性对应,逾期还款数据与预期属性对应。
需要说明的是,数据集中的基础属性和特征属性均为经标准化处理后的数据。
作为举例而非限定,可采用归一化方法对数据进行标准化,也可采用离差标准化法对数据进行标准化,还可采用log函数转换的方式对数据进行转换。
实施例二
请参阅图4,本实施例的一种基于多维特征的评分装置1,包括:获取单元11、划分单元12、分析单元13、构建单元14、处理单元15和评分单元16。
获取单元11,用于获取历史客户的数据集,其中,所述数据集包括每个历史客户的基础属性和特征属性。
其中,所述数据集包括每个历史客户的基础属性和特征属性。
需要强调的是,为进一步保证上述数据集中数据的私密和安全性,上述数据集还可以存储于一区块链的节点中。
本实施例中,基于多维特征的评分方法主要适用于对信用卡客户的净推荐值调研场景中。基础属性可包括年龄、性别、职业、居住地、学历、婚姻状态等客户的个人基本信息;基于信用卡的生命周期(办卡→用卡→还款),可分为三个阶段(办卡阶段、用卡阶段和还款阶段),相应的特征属性可包括:与办卡阶段对应的办卡渠道、办卡等级,与用卡阶段对应的信用等级,与还款阶段对应的分期还款数据、逾期还款数据。其中,办卡渠道可包括:网申办卡、直销办卡(销售推广人员协助客户办卡)、第三方平台办卡、银行柜台办卡等;根据信用卡的信用额度划分的信用等级,信用等级是根据信用卡的信用额度划分的等级(如:白金卡、黑卡等)。
划分单元12,用于根据所述数据集中基础属性的类别将所述历史客户划分为多个客户集合。
作为举例而非限定,可根据历史客户的年龄对历史客户进行划分;还可根据历史客户的性别对历史客户进行划分;还可根据学历对历史客户进行划分;还可根据婚姻状态对历史客户进行划分;还可根据居住地对历史客户进行划分。
分析单元13,用于采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性。
进一步地,分析单元13可采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行增益值计算,获取各个所述特征属性的增益值;将符合预设条件的增益值对应的特征属性作为目标特征属性。
将每个客户的特征属性输入初始XGBoost模型树,根据初始XGBoost模型树中单棵决策树中每个节点(分裂点)调整性能度量的量,来计算特征属性对应的特征属性重要性,由节点负责加权和记录次数。节点与基础属性对应,决策树节点在进行分裂时,需要计算每个特征的每个分裂点的信息增益,即用贪心法枚举所有的可能的分割点。当数据无法一次性载入内存或者在分布式的情况下,贪心的算法效率就会变得很低,因此XGBoost还可采用并行的近似直方图算法,用于高效的生成候选的分割点。一个特征属性对分裂点改进性能度量越大(越靠近根节点),权值越大;被越多提升树所选择,属性越重要。将一个特征属性在所有提升树中的结果进行加权求和后平均,得到重要性得分即特征属性的增益值,将符合预设条件的增益值对应的特征属性作为目标特征属性。
在一实施例中,所述预设条件为将增益值由大至小进行排序,将位于排序前N位的特征属性作为目标特征属性,其中,N为大于或等于2的正整数。
本实施例中,可依据信用卡的三个阶段对特征属性进行分类,分别将每个阶段的特征属性的增益值进行排序,将排序在前N位的特征属性作为目标特征属性。
在另一实施例中,所述预设条件为将大于增益阈值的所述增益值对应的特征属性作为目标特征属性。
构建单元14,用于根据所述目标特征属性构建XGBoost模型树。
进一步地,构建单元14可将所述目标特征属性输入所述初始XGBoost模型树进行训练获取所述XGBoost模型树。
在本实施例中,将目标特征属性输入到初始XGBoost模型树中,通过信息增益对XGBoost模型树的节点进行选择,即切分基础属性,其中信息增益表示基础属性使得目标特征属性的不确定性减少的程度。初始XGBoost模型树的训练需要将数据集作为训练集,从训练集用初始权重训练处一个第一弱学习器,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前的第一弱学习器学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的第二弱学习器中得到更多的重视。然后基于调整权重后的训练集来训练第二弱学习器,如此重复进行,直到弱学习器数达到事先指定的数目,最终将这些个弱学习器通过集合策略进行整合,得到最终的强学习器即XGBoost模型树。XGBoost是训练一种简单高效并且具有强解释性的决策树模型,其本质是一颗由多个判断节点组成的树,在使用模型进行预测时,根据输入参数依次在各个判断节点进行判断游走,最后到叶子节点即为预测结果。其中,树形模型是一个特征进行处理。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每一个特征做一个划分。
处理单元15,用于将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值。
进一步地,处理单元15可将所述数据集输入所述XGBoost模型树,计算每个历史客户的贬损概率值;采用等频分箱的方式对所有的所述历史客户的贬损概率值进行划分,计算每一箱的平均贬损值,将所述平均贬损值与相应的实际贬损值进行比较,选择与所述实际贬损值的差值最小的所述平均贬损值作为所述贬损阈值。
本实施例中,将XGBoost模型树输出的各个历史客户的贬损概率值,进行从大到小或从小到大的排序,依据箱子的个数及排序顺序,将排序后的贬损概率值均匀的放入相应的箱子中,分别计算每一个箱的平均贬损值,将平均贬损值与该箱中贬损概率值对应的历史客户的实际贬损值进行比较,选择差值最小(即准确率最高、精准度最高的)的平均贬损值作为贬损阈值。其中,实际贬损值为箱子中贬损概率值对应的所有历史客户的实际打分贬损值(客户的满意度评分值)的平均值。
评分单元16,用于接收目标客户的数据信息,提取所述数据信息的目标特征属性,采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值,将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
进一步地,评分单元16可包括:接收模块、处理模块和比较模块。
接收模块,用于接收所述目标客户的所述数据信息。
其中,数据信息可包括基础属性和特征属性。
处理模块,用以采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值。
本实施例中,可对目标客户的数据信息进行标准化处理,并从数据信息提取基础属性和目标特征属性。通过XGBoost模型树基于基础属性对特征属性进行处理,获取贬损概率值。
比较模块,用于将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
本实施例中,将目标客户的贬损概率值与贬损阈值进行比较,若贬损概率值大于贬损阈值,则表示目标客户为推荐型客户;若贬损概率值等于贬损阈值,则表示目标客户为中等型客户;若贬损概率值小于贬损阈值,则表示目标客户为贬损型客户。在实际应用中,当需要预测的客户数量较大时,可采用多维特征的客户评分预测方法对客户进行批量的分析预测,根据各个客户的评分结果,构建客户的用户画像。
在本实施例中,基于多维特征的评分装置1可采用划分单元12根据数据集中基础属性的类别将历史客户划分为多个客户集合,利用分析单元13通过初始XGBoost模型树对各个客户集合中客户的特征属性进行分析,以得到目标特征属性,从而采用构建单元14根据目标特征属性构建XGBoost模型树,通过处理单元15将数据集输入XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值。当接收到目标客户的数据信息时,评分单元16可采用XGBoost模型树对数据信息进行处理以得到贬损概率值,基于贬损概率值及贬损阈值确定目标客户的评分信息,实现可快速有效的自动根据采集/获取的客户数据信息预测评分数据的目的,无需事后调研,提升了分析效率,节约了人力物力,同时,还可为提升客户的体验提供有效方向,以便于根据预测的评分数据计算NPS值,克服了只通过NPS值无法了解客户实际贬损因素的缺陷。
本实施例中的基于多维特征的评分装置1能根据历史客户的满意度评分值,筛选真正影响客户体验评分的重要因素,并根据当前客户的行为预测客户未来的体验评分值,提前抓出潜在贬损类的客户体验痛点,以便于为业务优化客户体验提供方向,提高整体NPS评分值。本发明在可通过采集客户对使用产品的数据预测客户对产品的评分情况,以便于计算NPS值,无需人工调研,分析效率高。
在优选的实施例中,参阅图5基于多维特征的评分装置1还可包括:接收单元17和提取单元18。
接收单元17,用于获取所述历史客户的数据信息。
其中,所述数据信息包括基础属性和初始特征属性。
提取单元18,用于依据所述历史客户的信用卡的使用阶段及特征属性,从所述初始特征属性中提取与所述特征属性对应的所述初始特征属性作为特征属性,所有所述历史客户的所述基础属性和特征属性构成所述数据集。
本实施例中,历史客户的数据信息是未经处理的数据,初始特征属性中包括除特征属性外其他的数据,对评分预测有干扰,因此在执行获取单元11之前,采用提取单元18对初始特征属性进行筛选过滤,以提取有效数据进行后续分析。
具体地,提取单元18可根据信用卡的生命周期中的三个阶段(使用阶段):办卡阶段、用卡阶段和还款阶段,对应的特征属性提取相应的特征属性,其中,办卡渠道与渠道属性对应,办卡等级与办卡等级属性对应,信用等级与信息等级属性对应,分期还款数据与还款属性对应,逾期还款数据与预期属性对应。
需要说明的是,数据集中的基础属性和特征属性均为经标准化处理后的数据。
作为举例而非限定,可采用归一化方法对数据进行标准化,也可采用离差标准化法对数据进行标准化,还可采用log函数转换的方式对数据进行转换。
实施例三
为实现上述目的,本发明还提供一种计算机设备2,该计算机设备2包括多个计算机设备2,实施例二的基于多维特征的评分装置1的组成部分可分散于不同的计算机设备2中,计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及基于多维特征的评分装置1(参考图6)。需要指出的是,图6仅示出了具有组件-的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例一的基于多维特征的评分方法的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的基于多维特征的评分装置1等。
所述网络接口22可包括无线网络接口或有线网络接口,该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如,所述网络接口22用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图6仅示出了具有部件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述基于多维特征的评分装置1还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器23)所执行,以完成本发明。
实施例四
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于多维特征的评分装置1,被处理器23执行时实现实施例一的基于多维特征的评分方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于多维特征的评分方法,其特征在于,包括:
获取历史客户的数据集,其中,所述数据集包括每个历史客户的基础属性和特征属性;
根据所述数据集中基础属性的类别将所述历史客户划分为多个客户集合;
采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性;
根据所述目标特征属性构建XGBoost模型树;
将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值;
接收目标客户的数据信息,提取所述数据信息的目标特征属性,采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值,将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
2.根据权利要求1所述的基于多维特征的评分方法,其特征在于,获取历史客户的数据集之前,包括:
获取所述历史客户的数据信息,所述数据信息包括基础属性和初始特征属性;
依据所述历史客户的信用卡的使用阶段及特征属性,从所述初始特征属性中提取与所述特征属性对应的所述初始特征属性作为特征属性,所有所述历史客户的所述基础属性和特征属性构成所述数据集。
3.根据权利要求1所述的基于多维特征的评分方法,其特征在于,采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性,包括:
采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行增益值计算,获取各个所述特征属性的增益值;
将符合预设条件的增益值对应的特征属性作为目标特征属性。
4.根据权利要求3所述的基于多维特征的评分方法,其特征在于,所述预设条件为将增益值由大至小进行排序,将位于排序前N位的特征属性作为目标特征属性,其中,N为大于或等于2的正整数;或
所述预设条件为将大于增益阈值的所述增益值对应的特征属性作为目标特征属性。
5.根据权利要求1所述的基于多维特征的评分方法,其特征在于,根据所述目标特征属性构建XGBoost模型树,包括:
将所述目标特征属性输入所述初始XGBoost模型树进行训练获取所述XGBoost模型树。
6.根据权利要求1所述的基于多维特征的评分方法,其特征在于,将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值,包括:
将所述数据集输入所述XGBoost模型树,计算每个历史客户的贬损概率值;
采用等频分箱的方式对所有的所述历史客户的贬损概率值进行划分,计算每一箱的平均贬损值,将所述平均贬损值与相应的实际贬损值进行比较,选择与所述实际贬损值的差值最小的所述平均贬损值作为所述贬损阈值。
7.一种基于多维特征的评分装置,其特征在于,包括:
获取单元,用于获取历史客户的数据集,其中,所述数据集包括每个历史客户的基础属性和特征属性;
划分单元,用于根据所述数据集中基础属性的类别将所述历史客户划分为多个客户集合;
分析单元,用于采用初始XGBoost模型树对各个所述客户集合中客户的特征属性进行分析,获取目标特征属性;
构建单元,用于根据所述目标特征属性构建XGBoost模型树;
处理单元,用于将所述数据集输入所述XGBoost模型树中进行计算,采用等频分箱的方式对计算结果进行分析以确定贬损阈值;
评分单元,用于接收目标客户的数据信息,提取所述数据信息的目标特征属性,采用所述XGBoost模型树根据所述数据信息中的基础属性和目标特征属性进行处理,以获取所述目标客户的贬损概率值,将所述贬损概率值与所述贬损阈值进行比较,根据所述比较结果确定所述目标客户的评分信息。
8.根据权利要求7所述的基于多维特征的评分装置,其特征在于,还包括:
接收单元,用于获取所述历史客户的数据信息,所述数据信息包括基础属性和初始特征属性;
提取单元,用于依据所述历史客户的信用卡的使用阶段及特征属性,从所述初始特征属性中提取与所述特征属性对应的所述初始特征属性作为特征属性,所有所述历史客户的所述基础属性和特征属性构成所述数据集。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500910.8A CN112529319A (zh) | 2020-12-18 | 2020-12-18 | 基于多维特征的评分方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500910.8A CN112529319A (zh) | 2020-12-18 | 2020-12-18 | 基于多维特征的评分方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529319A true CN112529319A (zh) | 2021-03-19 |
Family
ID=75001180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011500910.8A Pending CN112529319A (zh) | 2020-12-18 | 2020-12-18 | 基于多维特征的评分方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529319A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626692A (zh) * | 2021-07-30 | 2021-11-09 | 未鲲(上海)科技服务有限公司 | 目标人群的筛选方法、装置、设备及存储介质 |
CN114663143A (zh) * | 2022-03-21 | 2022-06-24 | 平安健康保险股份有限公司 | 基于差分干预响应模型的干预用户筛选方法及装置 |
CN116468265A (zh) * | 2023-03-23 | 2023-07-21 | 杭州瓴羊智能服务有限公司 | 批量用户数据处理方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798029A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 贬损客户预测方法和装置 |
CN111444944A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 基于决策树的信息筛选方法、装置、设备和存储介质 |
CN111695593A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 基于XGBoost的数据分类方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-18 CN CN202011500910.8A patent/CN112529319A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798029A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 贬损客户预测方法和装置 |
CN111444944A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 基于决策树的信息筛选方法、装置、设备和存储介质 |
CN111695593A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 基于XGBoost的数据分类方法、装置、计算机设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626692A (zh) * | 2021-07-30 | 2021-11-09 | 未鲲(上海)科技服务有限公司 | 目标人群的筛选方法、装置、设备及存储介质 |
CN114663143A (zh) * | 2022-03-21 | 2022-06-24 | 平安健康保险股份有限公司 | 基于差分干预响应模型的干预用户筛选方法及装置 |
CN116468265A (zh) * | 2023-03-23 | 2023-07-21 | 杭州瓴羊智能服务有限公司 | 批量用户数据处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516910B (zh) | 基于大数据的保单核保模型训练方法和核保风险评估方法 | |
CN108364106A (zh) | 一种报销单风险预测方法、装置、终端设备及存储介质 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN112328909B (zh) | 信息推荐方法、装置、计算机设备及介质 | |
CN110046889B (zh) | 一种异常行为主体的检测方法、装置及服务器 | |
CN112308173B (zh) | 基于多评价因子融合的多目标对象评价方法及其相关设备 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN116882520A (zh) | 针对预定预测问题的预测方法及系统 | |
CN112508456A (zh) | 食品安全风险评估方法、系统、计算机设备及存储介质 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN114186760A (zh) | 一种企业稳健运营的分析方法、系统及可读存储介质 | |
CN115630221A (zh) | 终端应用界面展示数据处理方法、装置及计算机设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN112785095A (zh) | 贷款预测方法、装置、电子设备和计算机可读存储介质 | |
CN114495137B (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
CN114998001A (zh) | 业务类别识别方法、装置、设备、存储介质和程序产品 | |
CN116049644A (zh) | 特征筛选和聚类分箱方法、装置、电子设备及存储介质 | |
CN110610373A (zh) | 一种潜在客户挖掘处理方法及装置 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |