CN109272402A - 评分卡的建模方法、装置、计算机设备及存储介质 - Google Patents

评分卡的建模方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109272402A
CN109272402A CN201811168227.1A CN201811168227A CN109272402A CN 109272402 A CN109272402 A CN 109272402A CN 201811168227 A CN201811168227 A CN 201811168227A CN 109272402 A CN109272402 A CN 109272402A
Authority
CN
China
Prior art keywords
data
variable
missing values
variable data
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811168227.1A
Other languages
English (en)
Inventor
唐欣瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dingfeng Cattle Technology Co Ltd
Original Assignee
Shenzhen Dingfeng Cattle Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dingfeng Cattle Technology Co Ltd filed Critical Shenzhen Dingfeng Cattle Technology Co Ltd
Priority to CN201811168227.1A priority Critical patent/CN109272402A/zh
Publication of CN109272402A publication Critical patent/CN109272402A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种评分卡的建模方法、装置、计算机设备及存储介质,该方法包括:获取客户数据;统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。该方法通过提取主成分替代了传统建模过程中耗时最多的人工分组的步骤,优化了建模流程,能极大地缩短建模时间,提高建模效率。

Description

评分卡的建模方法、装置、计算机设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种评分卡的建模方法、装置、计算机设备及存储介质。
背景技术
近年互联网金融正在蓬勃发展,互联网金融兼备互联网和金融的特点,与传统金融相比互联网金融更依赖于大数据风控系统,根据用户的多维度信息判断其信用风险。评分卡是风控模型中常见的模型,其中逻辑(Logistic)模型在评分卡中运用较多,其建模主要环节包括数据准备、变量探索、模型建立和模型验证四个环节。
目前,逻辑模型建模的数据准备过程主要存在以下问题:在变量探索过程中要花费大量的时间,涉及数据分组的部分工作繁琐;通常风控模型中的观测维度多达上千个,对每个变量进行观察及分组耗费较长时间,不能快速地进行模型更新和迭代;由于变量的分布并不是绝对规律的,人工进行分组有较强的主观性,且分组的差异对建模效果影响较大;模型分组有效性是基于该变量与违约状态的关系不发生改变,当某个变量与违约率的对应关系发生改变时,可能导致模型的预测效果不佳。因此,有必要提供一种评分卡的建模方法以解决上述问题。
发明内容
本申请提供了一种评分卡的建模方法、装置、计算机设备及存储介质,旨在提高评分卡的建模效率。
本申请提供了一种评分卡的建模方法,其包括:
获取多个客户数据,每个所述客户数据均包括多个变量数据;
统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;
基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;
基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。
本申请提供了一种评分卡的建模装置,其包括:
数据获取单元,用于获取多个客户数据,每个所述客户数据均包括多个变量数据;
统计处理单元,用于统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;
矩阵提取单元,用于基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;
模型建模单元,用于基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。
本申请还提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请提供的任意一项所述的评分卡的建模方法的步骤。
本申请还提供了一种计算机存储介质,其中所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行本申请提供的任意实施例所述的评分卡的建模方法的步骤。
本申请提供了评分卡的建模方法、装置、计算机设备及存储介质,通过获取客户数据;统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。该方法通过提取主成分替代了传统建模过程中耗时最多的人工分组的步骤,优化了建模流程,能极大地缩短建模时间,提高建模效率,且能用较少的变量解释保留住原数据的特征,达到不错的预测效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种评分卡的建模方法的示意流程图;
图2是图1中评分卡的建模方法的子步骤示意流程图;
图3是图1中评分卡的建模方法的子步骤示意流程图;
图4是本申请一实施例提供的一种评分卡的建模装置的示意性框图;
图5是本申请另一实施例提供的一种评分卡的建模装置的示意性框图;
图6是本申请又一实施例提供的一种评分卡的建模装置的示意性框图;
图7是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本申请一实施例提供的一种评分卡的建模方法的示意流程图。该评分卡的建模方法可以应用于服务器中,该服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。如图1所示,该评分卡的建模方法包括步骤S101~S104。
S101、获取多个客户数据,每个所述客户数据均包括多个变量数据。
其中,该客户数据为购买互联网金融产品的客户在产品网站上填写的个人信息,该变量数据比如为:姓名、年龄、性别、职业、地址或电话等变量对应的数据信息。
具体地,服务器通过扫描特定产品对应的数据库中的数据表以获取多个客户数据,该客户数据用于训练评分卡模型。每个所述客户数据均包括多个变量数据,其中每个所述客户数据中的变量数据对应变量维度可能相同,也可不相同。
比如,客户数据A中的变量维度没有性别变量,其他的客户数据均包括该性别变量。
S102、统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据。
具体地,为了提高建模的准确度,需要对变量数据进行处理,即统计每个所述变量数据对应的缺失值,根据所述缺失值的大小选择预先设置好的预设处理规则对所述变量数据进行处理得到样本数据,不同大小的缺失值对应的不同的预设处理规则。
基于此,步骤S102包括处理变量数据的步骤,如图2所示,该步骤具体包括:步骤S1021至S1025。
S1021、统计多个所述客户数据中的变量数据对应的有效值数量和无效值数量。
具体地,变量数据对应的有效值为该客户数据中的变量数据不是空值;相应地,变量数据对应的无效值为该客户数据中的变量数据是空值。比如客户数据A中的姓名变量没有对应的具体值(男或女),则该姓名变量对应的变量数据则为空值,即是无效值。
譬如,多个所述客户数据具体为100客户数据,其中60个客户数据中的性别变量对应的变量数据为空值,则该性别变量对应的变量数据的有效值数量和无效值数量分别为40和60;其中30个客户的职业变量对应的变量数据为空值,则该职业变量对应的变量数据的有效值数量和无效值数量分别为70和30。
S1022、根据所述有效值数量和无效值数量计算每个所述变量数据对应的缺失值。
比如,该性别变量对应的变量数据的有效值数量和无效值数量分别为40和60,则性别变量对应的变量数据的缺失值为60%;该职业变量对应的变量数据的有效值数量和无效值数量分别为70和30,则职业变量对应的变量数据的缺失值为30%。
S1023、判断所述缺失值是否大于预设值。
其中,该预设值为根据实际效果进行设定的值,比如可以为50%,当然也可以为其他数值,具体根据实际情况而定。
具体地,判断所述缺失值是否大于预设值;若所述缺失值是大于所述预设值,则执行步骤S1024;若所述缺失值是不大于所述预设值,则执行步骤S1025。
S1024、删除所述变量数据。
具体地,若所述缺失值是大于所述预设值,则删除所述变量数据,则删除所有客户数据中的该变量数据,比如上述性别变量对应的变量数据。
S1025、对客户数据中无效的变量数据进行补零处理。
具体地,若所述缺失值是不大于所述预设值,则对所述客户数据中无效的变量数据进行补零处理,即原来的空值进行补零处理。
S103、基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵。
具体地,通过预设主成分提取规则,对所述样本数据提取预设数量主成分对应的特征向量矩阵进行建模,该预设数据比如前k个,k为正整数。由此通过提取主成分的方式实现了对多维变量进行降维处理,能用较少的变量解释保留住原数据的特征,达到不错的预测效果,缩短了建模时间,提高了建模效率。
在一实施例中,步骤S103包括提取主成分的步骤,如图3所示,该步骤具体包括:步骤S1031至S1034。
S1031、根据标准化公式对所述样本数据中的变量数据进行标准化处理。
其中,该标准化公式具体为以下表达式:
在表达式1-1中,xi为标准化后的变量数据,x(i)为变量数据,minx(i)为所述变量数据在多个客户数据中的最小值,max x(i)为所述变量数据在多个客户数据中的最大值,i为正整数。
S1032、根据协方差公式计算经过数据标准化处理的样本数据中的变量数据对应的协方差矩阵。
其中,所述协方差公式具体为以下表达式为:
XXT=cov(xi,xj),i,j=1,2,...n (1-2)
在表达式1-2中,XXT为协方差矩阵,xi和xj为标准化后的变量数据,具体可以随机的变量数据,n为正整数。
S1033、计算所述协方差矩阵对应的特征值和特征向量。
具体地,根据特征值和特征向量的计算方法计算所述协方差矩阵对应的特征值和特征向量。
S1034、将所述特征值按照从大到小的顺序进行排序,并在排序后选取前k个特征值对应的特征向量组成特征向量矩阵,k为正整数。
具体地,将计算出的特征值按照从大到小的顺序进行排序,并在排序后选取前k个特征值对应的特征向量组成特征向量矩阵,该k值不做限定。当然也可以采用从小到大的顺序进行排列,相应地在排序后选择后k个特征值对应的特征向量组成特征向量矩阵,k为正整数。
S104、基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。
具体地,该逻辑回归模型(Logistic Regression,简称LR)建立的模型描述是因变量的期望与自变量之间的线性关系。基于该逻辑回归模型,将所述特征向量矩阵作为输入进行建模训练,以完成评分卡模型的建模,通过提取主成分替代了传统建模过程中人工分组过程,优化了建模流程,进而提高了建模效率。
在本实施例中,上述评分卡的建模方法通过获取客户数据;统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。该方法通过提取主成分替代了传统建模过程中耗时最多的人工分组的步骤,优化了建模流程,能极大地缩短建模时间,提高建模效率,且能用较少的变量解释保留住原数据的特征,达到不错的预测效果。
图4是本申请实施例提供的一种评分卡的建模装置的示意性框图。如图5所示,对应于以上评分卡的建模方法,本申请还提供一种评分卡的建模装置。该评分卡的建模装置包括用于执行上述评分卡的建模法的单元,该装置可以被配置于服务器中。
如图4所示,评分卡的建模装置400包括:数据获取单元401、统计处理单元402、矩阵提取单元403和模型建模单元404。
数据获取单元401,用于获取多个客户数据,每个所述客户数据均包括多个变量数据。
统计处理单元402,用于统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据。
其中,如图5所示,统计处理单元402包括:数量统计单元4021、缺失值计算单元4022、缺失值判断单元4023、数据删除单元4024和补零处理单元4025。
数量统计单元4021,用于统计多个所述客户数据中的变量数据对应的有效值数量和无效值数量。
缺失值计算单元4022,用于根据所述有效值数量和无效值数量计算每个所述变量数据对应的缺失值。
缺失值判断单元4023,用于判断所述缺失值是否大于预设值。
数据删除单元4024,用于若所述缺失值是大于所述预设值,则删除所述变量数据。
补零处理单元4025,用于若所述缺失值是不大于所述预设值,则对客户数据中无效的变量数据进行补零处理。
矩阵提取单元403,用于基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵。
其中,如图6所示,所述矩阵提取单元403,包括:标准处理单元4031、矩阵计算单元4032、向量计算单元4033和矩阵组合单元4034。
标准处理单元4031,用于根据标准化公式对所述样本数据中的变量数据进行标准化处理。
矩阵计算单元4032,用于根据协方差公式计算经过数据标准化处理的样本数据中的变量数据对应的协方差矩阵。
向量计算单元4033,用于计算所述协方差矩阵对应的特征值和特征向量。
矩阵组合单元4034,用于将所述特征值按照从大到小的顺序进行排序,并在排序后选取前k个特征值对应的特征向量组成特征向量矩阵,k为正整数。
模型建模单元404,用于基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的评分卡的建模装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述装置可以实现为一种计算机程序的形式,计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是服务器。
参照图7,该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。
该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种评分卡的建模方法。
该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种评分卡的建模方法。
该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现如下步骤:
获取多个客户数据,每个所述客户数据均包括多个变量数据;
统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;
基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;
基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。
在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现,所述统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据时,具体实现如下步骤:
统计多个所述客户数据中的变量数据对应的有效值数量和无效值数量;
根据所述有效值数量和无效值数量计算每个所述变量数据对应的缺失值;
判断所述缺失值是否大于预设值;
若所述缺失值是大于所述预设值,则删除所述变量数据;
若所述缺失值是不大于所述预设值,则对客户数据中无效的变量数据进行补零处理。
在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵时,具体实现如下步骤:
根据标准化公式对所述样本数据中的变量数据进行标准化处理;
根据协方差公式计算经过数据标准化处理的样本数据中的变量数据对应的协方差矩阵;
计算所述协方差矩阵对应的特征值和特征向量;
将所述特征值按照从大到小的顺序进行排序,并在排序后选取前k个特征值对应的特征向量组成特征向量矩阵,k为正整数。
在一实施例中,所述标准化公式为:
其中,xi为标准化后的变量数据,x(i)为变量数据,minx(i)为所述变量数据在多个客户数据中的最小值,max x(i)为所述变量数据在多个客户数据中的最大值,i为正整数。
在一实施例中,所述协方差公式为:
XXT=cov(xi,xj),i,j=1,2,...n
其中,XXT为协方差矩阵,xi和xj为标准化后的变量数据,n为正整数。
应当理解,在本申请实施例中,处理器720可以是中央处理单元(CentralProcessing Unit,CPU),该处理器720还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图7中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本领域普通技术人员可以理解的是实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。如本发明实施例中,该计算机程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程步骤。
该计算机可读存储介质可以是磁碟、光盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的评分卡的建模装置和方法,可以通过其它的方式实现。例如,以上所描述的评分卡的建模装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种评分卡的建模方法,其特征在于,包括:
获取多个客户数据,每个所述客户数据均包括多个变量数据;
统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;
基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;
基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。
2.根据权利要求1所述的评分卡的建模方法,其特征在于,所述统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据,包括:
统计多个所述客户数据中的变量数据对应的有效值数量和无效值数量;
根据所述有效值数量和无效值数量计算每个所述变量数据对应的缺失值;
判断所述缺失值是否大于预设值;
若所述缺失值是大于所述预设值,则删除所述变量数据;
若所述缺失值是不大于所述预设值,则对客户数据中无效的变量数据进行补零处理。
3.根据权利要求1所述的评分卡的建模方法,其特征在于,所述基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵,包括:
根据标准化公式对所述样本数据中的变量数据进行标准化处理;
根据协方差公式计算经过数据标准化处理的样本数据中的变量数据对应的协方差矩阵;
计算所述协方差矩阵对应的特征值和特征向量;
将所述特征值按照从大到小的顺序进行排序,并在排序后选取前k个特征值对应的特征向量组成特征向量矩阵,k为正整数。
4.根据权利要求3所述的评分卡的建模方法,其特征在于,所述标准化公式为:
其中,xi为标准化后的变量数据,x(i)为变量数据,minx(i)为所述变量数据在多个客户数据中的最小值,max x(i)为所述变量数据在多个客户数据中的最大值,i为正整数。
5.根据权利要求3所述的评分卡的建模方法,其特征在于,所述协方差公式为:
XXT=cov(xi,xj),i,j=1,2,...n
其中,XXT为协方差矩阵,xi和xj为标准化后的变量数据,n为正整数。
6.一种评分卡的建模装置,其特征在于,包括:
数据获取单元,用于获取多个客户数据,每个所述客户数据均包括多个变量数据;
统计处理单元,用于统计每个所述变量数据对应的缺失值,并根据所述缺失值对应的预设处理规则对所述变量数据进行处理得到样本数据;
矩阵提取单元,用于基于预设主成分提取规则,根据所述样本数据提取预设数量主成分对应的特征向量矩阵;
模型建模单元,用于基于逻辑回归模型,根据所述特征向量矩阵进行建模训练以完成所述评分卡的建模。
7.根据权利要求6所述的评分卡的建模装置,其特征在于,所述统计处理单元,包括:
数量统计单元,用于统计多个所述客户数据中的变量数据对应的有效值数量和无效值数量;
缺失值计算单元,用于根据所述有效值数量和无效值数量计算每个所述变量数据对应的缺失值;
缺失值判断单元,用于判断所述缺失值是否大于预设值;
数据删除单元,用于若所述缺失值是大于所述预设值,则删除所述变量数据;
补零处理单元,用于若所述缺失值是不大于所述预设值,则对客户数据中无效的变量数据进行补零处理。
8.根据权利要求6所述的评分卡的建模装置,其特征在于,所述矩阵提取单元,包括:
标准处理单元,用于根据标准化公式对所述样本数据中的变量数据进行标准化处理;
矩阵计算单元,用于根据协方差公式计算经过数据标准化处理的样本数据中的变量数据对应的协方差矩阵;
向量计算单元,用于计算所述协方差矩阵对应的特征值和特征向量;
矩阵组合单元,用于将所述特征值按照从大到小的顺序进行排序,并在排序后选取前k个特征值对应的特征向量组成特征向量矩阵,k为正整数。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1至5任意一项所述方法的步骤。
CN201811168227.1A 2018-10-08 2018-10-08 评分卡的建模方法、装置、计算机设备及存储介质 Withdrawn CN109272402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811168227.1A CN109272402A (zh) 2018-10-08 2018-10-08 评分卡的建模方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811168227.1A CN109272402A (zh) 2018-10-08 2018-10-08 评分卡的建模方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109272402A true CN109272402A (zh) 2019-01-25

Family

ID=65195928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811168227.1A Withdrawn CN109272402A (zh) 2018-10-08 2018-10-08 评分卡的建模方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109272402A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826942A (zh) * 2019-12-13 2020-02-21 上海中通吉网络技术有限公司 转运中心效率分析监测方法、装置、设备和存储介质
CN111080081A (zh) * 2019-11-26 2020-04-28 江苏方天电力技术有限公司 电力在线客服接待分配方法、系统及电力在线客服系统
CN111582466A (zh) * 2020-05-09 2020-08-25 深圳市卡数科技有限公司 模拟神经网络的评分卡配置方法、装置、设备及存储介质
CN112580917A (zh) * 2019-09-30 2021-03-30 深圳无域科技技术有限公司 一种客户特征的评估方法及装置
CN112766649A (zh) * 2020-12-31 2021-05-07 平安科技(深圳)有限公司 基于多评分卡融合的目标对象评价方法及其相关设备
CN111984637B (zh) * 2020-07-06 2023-04-18 苏州研数信息科技有限公司 数据建模中的缺失值处理方法和装置、设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580917A (zh) * 2019-09-30 2021-03-30 深圳无域科技技术有限公司 一种客户特征的评估方法及装置
CN112580917B (zh) * 2019-09-30 2024-04-05 深圳无域科技技术有限公司 一种客户特征的评估方法及装置
CN111080081A (zh) * 2019-11-26 2020-04-28 江苏方天电力技术有限公司 电力在线客服接待分配方法、系统及电力在线客服系统
CN111080081B (zh) * 2019-11-26 2022-06-10 江苏方天电力技术有限公司 电力在线客服接待分配方法、系统及电力在线客服系统
CN110826942A (zh) * 2019-12-13 2020-02-21 上海中通吉网络技术有限公司 转运中心效率分析监测方法、装置、设备和存储介质
CN110826942B (zh) * 2019-12-13 2023-09-19 上海中通吉网络技术有限公司 转运中心效率分析监测方法、装置、设备和存储介质
CN111582466A (zh) * 2020-05-09 2020-08-25 深圳市卡数科技有限公司 模拟神经网络的评分卡配置方法、装置、设备及存储介质
CN111582466B (zh) * 2020-05-09 2023-09-01 深圳市卡数科技有限公司 模拟神经网络的评分卡配置方法、装置、设备及存储介质
CN111984637B (zh) * 2020-07-06 2023-04-18 苏州研数信息科技有限公司 数据建模中的缺失值处理方法和装置、设备及存储介质
CN112766649A (zh) * 2020-12-31 2021-05-07 平安科技(深圳)有限公司 基于多评分卡融合的目标对象评价方法及其相关设备
CN112766649B (zh) * 2020-12-31 2022-03-15 平安科技(深圳)有限公司 基于多评分卡融合的目标对象评价方法及其相关设备

Similar Documents

Publication Publication Date Title
CN109272402A (zh) 评分卡的建模方法、装置、计算机设备及存储介质
US11436430B2 (en) Feature information extraction method, apparatus, server cluster, and storage medium
TW201946013A (zh) 基於lstm模型的信用風險預測方法及裝置
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN107784426A (zh) 一种员工的岗位分配方法、装置及设备
CN108090516A (zh) 自动生成机器学习样本的特征的方法及系统
CN106875110A (zh) 业务指标分层计算方法及装置、分布式计算方法及系统
CN110502516A (zh) 表格数据解析方法、装置、计算机设备及存储介质
CN107515890A (zh) 一种识别常驻点的方法及终端
CN107818824A (zh) 一种用于健康评估的健康模型构建方法及终端
CN107958230A (zh) 人脸表情识别方法及装置
CN108364137A (zh) 高新技术企业的监测方法、装置、计算机设备及存储介质
CN108021651A (zh) 一种网络舆情风险评估方法及装置
CN109272219A (zh) 绩效考核方法、装置、计算机设备及存储介质
CN110349013A (zh) 风险控制方法及装置
CN113837323B (zh) 满意度预测模型的训练方法、装置、电子设备及存储介质
CN108009715A (zh) 一种自动分析指标波动根因的方法
CN110969172A (zh) 一种文本的分类方法以及相关设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN109308615A (zh) 基于统计序列特征的实时欺诈交易检测方法、系统、存储介质及电子终端
CN107357782A (zh) 一种识别用户性别的方法及终端
CN106776757A (zh) 用户完成网银操作的指示方法及装置
CN112487021B (zh) 业务数据的关联分析方法、装置及设备
CN110215703A (zh) 游戏应用的选择方法、装置及系统
CN108280224B (zh) 万级维度数据生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190125