CN117437001A - 目标对象的指标数据处理方法、装置及计算机设备 - Google Patents
目标对象的指标数据处理方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN117437001A CN117437001A CN202311251001.9A CN202311251001A CN117437001A CN 117437001 A CN117437001 A CN 117437001A CN 202311251001 A CN202311251001 A CN 202311251001A CN 117437001 A CN117437001 A CN 117437001A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- sample
- target object
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000002159 abnormal effect Effects 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims abstract description 23
- 238000003860 storage Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 30
- 238000010187 selection method Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种目标对象的指标数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,可用于金融领域中的异常指标监控。其中,该方法包括:获取目标对象的业务数据和业务类型,根据业务类型将业务数据划分为多个维度的样本数据,提取样本数据的目标特征变量,再对该变量进行分箱并计算证据权重,将业务数据、业务类型、证据权重输入预设的评分模型,通过模型可以得到目标对象的业务指标数据。这样,由于根据业务类型进行划分,可以采纳多个维度的用户业务数据,还可以根据业务类型调整不同维度在输出指标中所占的权重,提高了业务指标数据的准确性,从而可以更加准确地预测目标对象在业务中出现异常的可能性。
Description
技术领域
本公开涉及人工智能领域,尤其涉及一种目标对象的指标数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
随着数字化时代的来临,许多平台掌握着大量与自身业务相关的用户数据,为预防可能出现的用户违约等异常风险,可以采取异常指标预测策略对用户数据进行分析,根据不同的指标对用户发生违约失信等异常风险行为的可能性进行预估,对异常风险管控具有重大意义。用户异常风险预测是信息化时代信用消费的保障和基础,可以被广泛地应用于个人信贷、信用卡、保险理赔等金融业务中,为信用政策的制定、分析、评估、优化提供量化支持。
目前,业务数据的异常指标处理主要通过人工方式审核,业务人员通过采集用户资料、信用调查等方式综合判定用户的风险程度。然而,这种人工审核方式过度依赖于审核人员的业务经验,缺乏统一标准,预测结果波动性较大,且人工处理速度较慢,效率低下。
发明内容
基于此,针对上述技术问题,提供一种目标对象的指标数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。本公开的技术方案如下:
根据本公开实施例的一个方面,提供一种目标对象的指标数据处理方法,包括:
获取目标对象的业务数据并确定所述业务数据对应的业务类型;
根据所述业务类型将所述业务数据划分为多个维度的样本数据;
通过预设算法提取每个维度中样本数据的目标特征变量;
对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重;
将所述业务数据、所述业务类型、所述证据权重输入至预设的评分模型,经所述评分模型输出所述目标对象的业务指标数据。
在其中一个实施例中,所述通过预设算法提取每个维度中样本数据的目标特征变量包括:
通过预设算法对所述样本数据进行特征提取,得到多项特征变量;
根据单变量特征选择法从所述多项特征变量中确定目标特征变量。
在其中一个实施例中,所述根据单变量选择法从所述多项特征变量中确定目标特征变量包括:
计算每项特征变量与所述样本数据所属维度的相关系数;
根据所述相关系数对所述多项特征变量进行特征排序,并将排在前N个的特征变量作为目标特征变量;其中,N为正整数。
在其中一个实施例中,所述对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重包括:
按照等距划分法对所述目标特征变量进行分箱操作,得到多个分箱;
利用预设的样本分类模型确定每个分箱中的正常样本数和风险样本数;
计算每个分箱中正常样本数与所有分箱中正常样本总数的比值,得到每个分箱的正常样本占比;
计算每个分箱中风险样本数与所有分箱中风险样本总数的比值,得到每个分箱的风险样本占比;
计算所述正常样本占比与所述风险样本占比的比值,得到证据权重。
在其中一个实施例中,在根据所述业务类型将所述业务数据划分为多个维度的样本数据之前,还包括:
检测所述业务数据中的缺失值、异常值;
对所述缺失值、异常值进行数据清洗和数据填充。
在其中一个实施例中,所述评分模型为逻辑回归模型。
根据本公开实施例的另一方面,提供一种目标对象的指标数据处理装置,包括:
数据获取模块,用于获取目标对象的业务数据并确定所述业务数据对应的业务类型;
维度划分模块,用于根据所述业务类型将所述业务数据划分为多个维度的样本数据;
变量提取模块,用于通过预设算法提取每个维度中样本数据的目标特征变量;
分箱模块,用于对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重;
指标输出模块,用于将所述业务数据、所述业务类型、所述证据权重输入至预设的评分模型,经所述评分模型输出所述目标对象的业务指标数据。
根据本公开实施例的另一方面,还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
根据本公开实施例的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
根据本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例提供的技术方案中,可以获取目标对象的业务数据和业务类型,并可以根据业务类型将业务数据划分为多个维度的样本数据,通过算法提取每个维度样本数据的目标特征变量,再对该变量进行分箱并计算证据权重,将业务数据、业务类型、证据权重输入预设的评分模型,通过模型可以得到目标对象的业务指标数据。这样,由于预先根据业务类型进行维度划分,可以采纳多个维度的用户业务数据,且评分模型可以根据业务类型调整不同维度在输出指标中所占的权重,提高了业务指标数据的准确性,从而可以更加准确地预测目标对象在业务中出现异常的可能性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是一个实施例中一种目标对象的指标数据处理方法的流程示意图;
图2是一个实施例中一种提取样本数据的目标特征变量的流程示意图;
图3是一个实施例中一种从特征变量中确定目标特征变量的流程示意图;
图4是一个实施例中一种计算分箱的证据权重的流程示意图;
图5是一个实施例中一种对业务数据进行预处理的流程示意图;
图6是一个实施例中一种指标数据处理系统的生成流程示意图;
图7是一个实施例中一种目标对象的指标数据处理装置的结构示意图;
图8是一个实施例中一种计算机设备的内部结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“前”、“后”、“周向”、“行进方向”以及类似的表述是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
除非另有定义,本文所使用的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义可以相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”、“和/或”、“至少…之一”包括一个或多个相关的所列项目的任意的和所有的组合。需要说明的是,本公开中所描述的相连、连接等,可以是通过器件间的接口或引脚直接连接,也可以是通过引线连接,还可以是通过无线连接(通信连接)。
目前银行等机构在对用户进行贷款审批等业务审核的时候,通常会对用户的工作、年龄、收入等数据进行分析,根据这些数据设定一个门槛标准,只要用户满足这些条件,就准予通过。这种方法存在一些问题,例如有些用户虽然不满足某一些门槛条件,但可能另外一些条件特别优秀,单维度的强拒绝规则造成审批效率低下。相关技术中存在一些信用评分模型,期望能更合理地对用户信用异常情况进行评估,但这些评分模型多集中于用户的资格审核,对于用户长期异常指标监控不够综合全面。
针对上述技术问题,如图1所示,提供了一种目标对象的指标数据处理方法,可以执行于计算机,该处理方法包括以下步骤:
步骤S210,获取目标对象的业务数据并确定所述业务数据对应的业务类型。
其中,目标对象可以是预先确定的批量用户。业务数据可以包括业务系统管理或存储的用户行为数据、用户基本信息数据等。
具体地,可以获取目标用户的基本信息、用户行为数据等业务数据,并可以根据用户行为数据确定对应的业务类型。以银行等金融机构的业务数据为例,可以获取用户的年龄、职业、婚姻状况等基本信息、以及用户通过银行系统进行的转账、交易、贷款等用户行为数据,并确定对应的业务类型为交易、贷款等业务中的一种。
步骤S220,根据所述业务类型将所述业务数据划分为多个维度的样本数据。
具体地,可以根据业务类型将业务数据划分为多个维度,例如,若业务类型为贷款业务,则可以将业务数据划分为贷前、贷中、贷后共三个维度,得到每个维度的样本数据。应当理解的是,在其他实施方式中也可以根据数据特点或特定需要将业务数据划分为其他维度。
步骤S230,通过预设算法提取每个维度中样本数据的目标特征变量。
具体地,可以通过机器学习等人工智能算法对每个维度中的样本数据进行特征提取,再通过聚类分析等方式确定样本数据中对维度影响较大的特征作为目标特征并构建特征变量。例如,对于贷前维度的样本数据,可以选取用户的可抵押资产、收入等数据作为目标特征;对于贷后维度的样本数据,可以选取用户的还贷记录、月度流水等数据作为目标特征。
步骤S240,对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重。
其中,分箱是一种数据处理方法,可以根据相邻的值对数据进行平滑分组,可以用于将连续数据离散化以增加粒度,具体可以包括等频分箱、等距分箱、决策树分箱等多种分箱方法。证据权重(weight of evidence,简称WOE)是一种衡量正常样本(Good)和异常样本(Bad)分布的指标。
具体地,在得到目标特征变量后,可以对目标特征变量进行分箱,得到多个分箱,并根据每个分箱中的正常样本和异常样本计算每个分箱的证据权重。以一个具体实施方式中的贷前维度样本数据为例,若该维度样本数据的目标特征变量为月收入,经过分箱处理后可以得到[0-3k]、(3k,6k]、(6k,9k]、(9k,12k]等多个分箱的数据,进一步地,还可以计算每个分箱的证据权重。
步骤S250,将所述业务数据、所述业务类型、所述证据权重输入至预设的评分模型,经所述评分模型输出所述目标对象的业务指标数据。
其中,预设的评分模型可以是采用逻辑回归、GBDT(Gradient Boosting DecisonTree,一种回归树算法)、XgBoost(分布式梯度增强库)、LightGBM(Light GradientBoosting Machine,一种可以实现GBDT算法的分布式框架)等算法预先训练好的模型。该评分模型可以包括多个子模型,每个子模型可以对应业务数据的一个维度,评分模型可以根据目标对象、业务类型等因素调整不同维度子模型的权重,根据各个子模型的异常指标结果综合生成目标对象的异常指标。
具体地,可以将业务数据、业务类型以及根据业务数据得到的每个维度的证据权重一并输入至预设的评分模型,评分模型可以根据业务类型确定每个维度的子模型权重,通过每个维度的子模型得到对应维度的评分,根据各维度评分及权重综合得到目标对象的业务指标数据。在一些其他实施方式中,也可以根据业务数据中的用户类型确定每个维度的子模型权重。例如,一个用户样本的业务类型为贷款业务,该样本的业务数据可以被划分为贷前、贷中、贷后三个维度,该样本的用户类型为已办理贷款用户,则可以为贷后维度分配较高的权重。
在一些其他实施方式中,还可以通过预设的评估指标或算法来评估维度子模型的区分能力、预测能力、稳定性,并形成模型评估报告。例如,可以通过ROC曲线(ReceiverOperating Characteristic Curve,受试者特征曲线)、AUC(Area Under Curve,ROC曲线下与坐标轴围成的面积)、K-S(Kolmogorov-Smirnov Test,一种单样本检验方法)指标等来评估模型的拟合能力。
本公开实施例提供的技术方案中,可以获取目标对象的业务数据和业务类型,并可以根据业务类型将业务数据划分为多个维度的样本数据,通过算法提取每个维度样本数据的目标特征变量,再对该变量进行分箱并计算证据权重,将业务数据、业务类型、证据权重输入预设的评分模型,通过模型可以得到目标对象的业务指标数据。这样,由于预先根据业务类型进行维度划分,可以采纳多个维度的用户业务数据,且评分模型可以根据业务类型调整不同维度在输出指标中所占的权重,提高了业务指标数据的准确性,从而可以更加准确地预测目标对象在业务中出现异常的可能性。
在一个实施例中,如图2所示,所述通过预设算法提取每个维度中样本数据的目标特征变量包括:
步骤S2310,通过预设算法对所述样本数据进行特征提取,得到多项特征变量。
步骤S2320,根据单变量特征选择法从所述多项特征变量中确定目标特征变量。
其中,单变量特征选择法(Univariate feature selection)是一种特征选择方法,可以用于减少特征数量、降低数据维度、减少过拟合。
具体地,可以通过算法提取样本数据的特征,得到特征变量,再根据单变量特征选择法去除对结果影响较小的特征变量,保留其余特征变量作为目标特征变量。例如,通过特征选择可以发现用户的证件号码、手机号码等数据与用户的业务行为关联较小,可以将这些数据从特征变量中去除。
上述实施例中,可以通过提取样本数据特征得到特征变量,并通过特征选择从特征变量中确定数据质量更高的目标特征变量,从而减小数据规模,降低模型运算难度,提高数据处理效率。
在一些其他实施例中,如图3所示,所述根据单变量选择法从所述多项特征变量中确定目标特征变量包括:
步骤S2322,计算每项特征变量与所述样本数据所属维度的相关系数。
步骤S2324,根据所述相关系数对所述多项特征变量进行特征排序,并将排在前N个的特征变量作为目标特征变量。
其中,N为正整数。
具体地,可以将样本数据所属维度作为每项特征变量的响应变量,计算每项特征变量与响应变量的皮尔森相关系数(Pearson Correlation Coefficient),并可以基于相关系数的值对特征变量进行降序排序,取前N个特征变量作为目标特征变量。例如,特征变量可以包括年龄、婚姻状况等,在贷后维度的样本数据中,年龄较大、婚姻状况为已婚的用户在按期偿还贷款的用户中所占比例较高,则年龄、婚姻状况的相关系数值较大。
上述实施例中,可以通过计算相关系数对特征变量进行排序,从而筛选出更有可能影响异常指标的特征变量,以此作为目标特征变量,可以提高模型输入数据的质量,进一步提高模型输出的指标数据的精准度。
在一个实施例中,如图4所示,所述对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重包括:
步骤S2410,按照等距划分法对所述目标特征变量进行分箱操作,得到多个分箱。
步骤S2420,利用预设的样本分类模型确定每个分箱中的正常样本数和风险样本数。
步骤S2430,计算每个分箱中正常样本数与所有分箱中正常样本总数的比值,得到每个分箱的正常样本占比。
步骤S2440,计算每个分箱中风险样本数与所有分箱中风险样本总数的比值,得到每个分箱的风险样本占比。
步骤S2450,计算所述正常样本占比与所述风险样本占比的比值,得到证据权重。
具体地,以一个具体实施方式中的贷前维度样本数据为例,若该维度样本数据的目标特征变量为月收入,经过分箱处理后可以得到[0-3k]、(3k,6k]、(6k,9k]、(9k,12k]等多个分箱的数据,进一步地,还可以计算每个分箱的证据权重。例如,针对[0-3k]这一分箱,可以统计该分箱数据中符合异常风险指标(贷款违约)的样本数量,再统计所有分箱的违约样本数量总和,将该分箱中的违约样本数量与所有分箱违约数量总和作比,可以得到该分箱的风险样本占比。相应地,可以计算该分箱的正常样本占比,再计算该分箱的风险样本占比与正常样本占比的比值,可以得到该分箱的证据权重。
上述实施例中,可以通过对目标特征变量分箱,分别统计每个分箱中的异常样本数,计算每个分箱的证据权重,从而将证据权重用于目标对象的业务指标数据处理,提高从目标对象业务数据中识别异常指标的准确率。此外,通过分箱可以将数据离散化,从而可以降低模型过拟合的风险。
在一个实施例中,如图5所示,在根据所述业务类型将所述业务数据划分为多个维度的样本数据之前,还包括:
步骤S212,检测所述业务数据中的缺失值、异常值。
步骤S214,对所述缺失值、异常值进行数据清洗和数据填充。
具体地,在对业务数据进行划分之前,可以对业务数据进行数据清洗、数据填充、归一化等预处理操作。例如,数据清洗可以确定数据中是否存在缺失值、异常值,对缺失的无用数据进行清洗并根据缺失数据的特征类别进行相应的数据填充,得到清洗后的数据。其中,当特征类别为数值特征时,可以取该特征的平均值或中位数进行填充;当特征类别为非数值特征时,可以取该特征类别中出现次数最多的特征进行填充。
上述实施例中,在对业务数据进行划分之前,可以检测业务数据中的缺失值、异常值,并进行相应的数据清洗、填充等操作,提高数据集的质量,避免数据缺失或异常对后续的数据处理过程造成干扰,提高数据处理效率。
图6是一个实施例中一种指标数据处理系统的生成流程示意图。关于该系统的具体限定可以参见上文中对于上述处理方法的限定,该系统可以用于信贷领域的异常指标数据预测。如图6所示,首先,可以获取目标对象的业务数据并进行缺失值处理、异常值处理等数据预处理操作,再通过数据分类完成业务数据的维度划分,得到贷前、贷中、贷后等多个维度的样本数据,基于每个维度的样本数据,可以采用单变量特征选择法或ML(MachineLearning,机器学习)模型确定目标特征变量,通过分箱将变量离散化,根据WOE(证据权重)变换得到每个分箱的证据权重,基于GBDT/逻辑回归/Xgboost/LightGBM等算法得到每个维度的子模型,利用K-S指标、拟合度曲线完成子模型评估,评估完成后由各子模型输出四个维度的信用评分,得到申请评分、行为评分、催收评分和反欺诈评分,经过对四个维度的评分融合得到信贷体系的评分系统。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本申请各实施例中可能涉及的用户信息、业务数据等,均为严格按照法律法规的要求,遵循合法、正当、必要的原则,基于业务场景的合理目的,处理用户在业务办理过程中主动提供的与业务相关的数据信息。
根据本公开实施例的另一方面,如图7所示,还提供一种目标对象的指标数据处理装置,可以执行于计算机,该装置包括:
数据获取模块310,用于获取目标对象的业务数据并确定所述业务数据对应的业务类型;
维度划分模块320,用于根据所述业务类型将所述业务数据划分为多个维度的样本数据;
变量提取模块330,用于通过预设算法提取每个维度中样本数据的目标特征变量;
分箱模块340,用于对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重;
指标输出模块350,用于将所述业务数据、所述业务类型、所述证据权重输入至预设的评分模型,经所述评分模型输出所述目标对象的业务指标数据。
关于上述处理装置的具体限定可以参见上文中对于上述处理方法的限定,在此不再赘述。根据上述处理方法,所述处理装置可以增加第一模块、第二模块等实现相应的方法实施例中的步骤。上述处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
需要说明的是,本发明的目标对象的指标数据处理方法和处理装置可用于金融领域中的异常指标监控,也可用于除金融领域之外的任意领域,本发明的方法和装置的应用领域不做限定。
根据本公开实施例的另一方面,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种目标对象的指标数据处理方法,其特征在于,包括:
获取目标对象的业务数据并确定所述业务数据对应的业务类型;
根据所述业务类型将所述业务数据划分为多个维度的样本数据;
通过预设算法提取每个维度中样本数据的目标特征变量;
对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重;
将所述业务数据、所述业务类型、所述证据权重输入至预设的评分模型,经所述评分模型输出所述目标对象的业务指标数据。
2.根据权利要求1所述的方法,其特征在于,所述通过预设算法提取每个维度中样本数据的目标特征变量包括:
通过预设算法对所述样本数据进行特征提取,得到多项特征变量;
根据单变量特征选择法从所述多项特征变量中确定目标特征变量。
3.根据权利要求2所述的方法,其特征在于,所述根据单变量选择法从所述多项特征变量中确定目标特征变量包括:
计算每项特征变量与所述样本数据所属维度的相关系数;
根据所述相关系数对所述多项特征变量进行特征排序,并将排在前N个的特征变量作为目标特征变量;其中,N为正整数。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重包括:
按照等距划分法对所述目标特征变量进行分箱操作,得到多个分箱;
利用预设的样本分类模型确定每个分箱中的正常样本数和风险样本数;
计算每个分箱中正常样本数与所有分箱中正常样本总数的比值,得到每个分箱的正常样本占比;
计算每个分箱中风险样本数与所有分箱中风险样本总数的比值,得到每个分箱的风险样本占比;
计算所述正常样本占比与所述风险样本占比的比值,得到证据权重。
5.根据权利要求1所述的方法,其特征在于,在根据所述业务类型将所述业务数据划分为多个维度的样本数据之前,还包括:
检测所述业务数据中的缺失值、异常值;
对所述缺失值、异常值进行数据清洗和数据填充。
6.根据权利要求1所述的方法,其特征在于,所述评分模型为逻辑回归模型。
7.一种目标对象的指标数据处理装置,其特征在于,包括:
数据获取模块,用于获取目标对象的业务数据并确定所述业务数据对应的业务类型;
维度划分模块,用于根据所述业务类型将所述业务数据划分为多个维度的样本数据;
变量提取模块,用于通过预设算法提取每个维度中样本数据的目标特征变量;
分箱模块,用于对所述目标特征变量进行分箱处理,并计算每个分箱中数据的证据权重;
指标输出模块,用于将所述业务数据、所述业务类型、所述证据权重输入至预设的评分模型,经所述评分模型输出所述目标对象的业务指标数据。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311251001.9A CN117437001A (zh) | 2023-09-26 | 2023-09-26 | 目标对象的指标数据处理方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311251001.9A CN117437001A (zh) | 2023-09-26 | 2023-09-26 | 目标对象的指标数据处理方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437001A true CN117437001A (zh) | 2024-01-23 |
Family
ID=89548862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311251001.9A Pending CN117437001A (zh) | 2023-09-26 | 2023-09-26 | 目标对象的指标数据处理方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437001A (zh) |
-
2023
- 2023-09-26 CN CN202311251001.9A patent/CN117437001A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arora et al. | A Bolasso based consistent feature selection enabled random forest classification algorithm: An application to credit risk assessment | |
Bi et al. | A big data clustering algorithm for mitigating the risk of customer churn | |
WO2020143233A1 (zh) | 评分卡模型的建立方法、装置、计算机设备和存储介质 | |
CN108256691A (zh) | 还款概率预测模型构建方法及装置 | |
CN110807700A (zh) | 一种基于政府数据的无监督融合模型个人信用评分方法 | |
CN112633962B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN109615280A (zh) | 员工数据处理方法、装置、计算机设备和存储介质 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN110288460A (zh) | 基于前向传播的催收预测方法、装置、设备及存储介质 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
Subramanian et al. | Ensemble variable selection for Naive Bayes to improve customer behaviour analysis | |
CN112749973A (zh) | 一种权限管理方法、装置和计算机可读存储介质 | |
Berrada et al. | A review of Artificial Intelligence approach for credit risk assessment | |
CN115936841A (zh) | 一种构建信贷风险评估模型的方法及装置 | |
CN117437001A (zh) | 目标对象的指标数据处理方法、装置及计算机设备 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN115115322A (zh) | 目标群组识别方法、风险评估方法、装置、设备及介质 | |
Lee et al. | Application of machine learning in credit risk scorecard | |
CN117312912A (zh) | 业务数据分类预测模型的生成方法、装置及计算机设备 | |
CN113177002B (zh) | 基于测试点的测试设计方法、装置、电子设备和介质 | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN117764725A (zh) | 一种贷款数据的处理方法和装置 | |
Mauliddiah | Implementation Graph Database Framework for Credit Card Fraud Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |