CN113657440A - 一种基于用户特征聚类的拒绝样本推断方法和装置 - Google Patents
一种基于用户特征聚类的拒绝样本推断方法和装置 Download PDFInfo
- Publication number
- CN113657440A CN113657440A CN202110774351.8A CN202110774351A CN113657440A CN 113657440 A CN113657440 A CN 113657440A CN 202110774351 A CN202110774351 A CN 202110774351A CN 113657440 A CN113657440 A CN 113657440A
- Authority
- CN
- China
- Prior art keywords
- repayment
- application
- user
- cluster
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
在本发明实施例公开了一种基于用户特征聚类的拒绝样本推断方法和装置,该方法包括:采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;将所述申请用户的特征数据转换为特征向量;基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。克服了现有技术中用部分样本估计总体样本标签而导致的标记偏差问题。
Description
技术领域
本发明涉及数据存储领域,尤其涉及一种基于用户特征聚类的拒绝样本推断方法和装置。
背景技术
在信贷风控业务中,用于风控建模的样本一般都是审批通过并放款的样本,因为只有这些样本才有贷后表现数据,才能用于建模,这些样本相对于全量样本(全部申请样本)的占比是比较小的,一般都在10%-30%之间。
目前常用的拒绝推断的方法主要是基于有表现的样本(通过样本)建模,然后用于拒绝样本的预测,基于预测结果给样本赋予“正常还款”或者“违约还款”的标签,然后再将打标的拒绝样本与通过样本融合,用于最终的建模。
但是由于模型的应用过程中,一般来说会对全量的样本进行违约概率的预测,所以就会存在幸存者偏差,所以此类方法虽然能近似估计拒绝样本的标签,但还是存在“用部分样本估计总体的”问题,也就是基于这种方法给拒绝样本打的标签的准确性不够精确的问题。
发明内容
有鉴于上述问题,本发明实施例提出一种基于用户特征聚类的拒绝样本推断方法和装置,以解决现有技术中用部分样本估计总体样本时,存在偏差的问题。
本发明公开了一种基于用户特征聚类的拒绝样本推断方法,所述方法包括:
采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
将所述申请用户的特征数据转换为特征向量;
基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
可选的,所述计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心,包括:
获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
可选的,所述通过所述其他多个分类簇中各特征向量与所述用信中心之间的距离,预测所述其他多个分类簇中各特征向量的特征标签,包括:
计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;
如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
可选的,还包括:
将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
基于所述训练数据训练用户违约概率预测模型。
本发明另一方面在于提供一种基于用户特征聚类的拒绝样本推断装置,所述装置包括:
特征数据采集模块,用于采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
特征向量转换模块,用于将所述申请用户的特征数据转换为特征向量;
聚类模块,用于基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
类中心获取模块,用于计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
预测模块,用于根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
可选的,所述类中心获取模块,包括:
类中心获取子模块,用于获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
可选的,所述预测模块,包括:
余弦距离计算子模块,用于计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;
标记子模块,用于如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
可选的,还包括:
训练数据得到模块,用于将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
用户违约概率预测模型训练模块,用于基于所述训练数据训练用户违约概率预测模型。
综上所述,在本发明实施例中,通过采集预设周期内申请用户的特征数据;其中用户的特征数据包括申请特征及还款特征,并且申请特征包括拒绝申请、通过申请,而还款特征包括正常还款、违约还款;之后将所述申请用户的特征数据转换为特征向量;基于申请用户数据生成的特征向量对所述申请用户进行聚类,得到多个分类簇;计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。实现了通过计算聚类后的拒绝申请用户数据,与通过申请用户数据中正常还款和违约还款类簇中心距离的方式,而为拒绝申请用户进行还款特征预测的目的,进而对所有用户进行实现还款特征标记,克服了现有技术中用部分带标签的拒绝样本估计总体拒绝样本标签而导致的标记存在偏差问题,提高了拒绝用户还款特征预测的精确度。
附图说明
图1示出了本发明实施例一中的一种基于用户特征聚类的拒绝样本推断方法的流程图;
图2示出了本发明实施例一中的另一种基于用户特征聚类的拒绝样本推断方法的流程图;
图3示出了本发明实施例三中的一种基于用户特征聚类的拒绝样本推断装置的结构框图;
图4示出了本发明实施例三中的另一种基于用户特征聚类的拒绝样本推断装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参照图1,示出了本发明实施例一中的一种基于用户特征聚类的拒绝样本推断方法的流程图,具体可以包括如下步骤:
步骤101,采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
本发明实施例中,在信贷风控业务中,用于风控建模的样本一般都是审批通过并放款的样本,因为只有这些样本才有贷后表现数据,才能用于建模。所以在建模之前需要准备样本数据,其中,数据准备阶段,在预设周期内采集所有申请用户的数据,所有进行过信贷业务申请的用户被定义为用信客户,针对用信客户的历史用信数据分析,以及贷后业务表现,获取用户的特征数据。通常,用户的特征数据一般包括申请特征和还款特征,而申请特征包括拒绝申请、通过申请两种,还款特征一般包括正常还款和违约还款两种种类型。
其中,预设周期一般为一年或半年,保证用户数据的时效性,当然在具体应用中根据需要而不同,本发明实施例对此不加以限制。
可以理解地,用信用户的特征数据一般还包含用户的身份唯一标识,例如用户的点好号码或者身份证号码,本发明对此不加以具体限制。
优选地,所述所述申请特征与所述还款特征可以同时具备。
可以理解地,用户用信特征数据中包含用户申请信贷业务的具体数据,一般有通过申请特征和还款特征,可以表示该用户在申请信贷业务时申请是否成功,其中如果通过申请则为通过用户,如果遭到拒绝,则在该用户数据中记录拒绝信息,即为拒绝用户。其中,用户在拿到贷款后还有贷后表现数据,只针对于通过申请的用户,其中贷后表现又可以包含正常还款和违约还款两种。
所以,所述申请特征与所述还款特征可以同时具备。
步骤102,将所述申请用户的特征数据转换为特征向量;
本发明实施例中,将获取的申请用户的特征数据转换为特征向量。其中,如果用户特征包含N项,那么就将特征数据转换为N维向量。通常针对用户数据使用最简单的线性特征向量转换。
可以理解地,将用户数据转换为机器可以识别的特征向量的方法很多,针对具体应用采取不同的方法,对于特征向量转换过程和方法本发明实施例不加以具体限制。
步骤103,基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
本发明实施例中,将上述步骤得到的特征向量利用聚类算法dbscan进行聚类。
在实际应用中,参与聚类的特征向量包含带有通过申请标记的,也包含带有拒绝申请标记的用户特征数据,即全体样本数据。
其中,通过聚类算法dbscan进行聚类后,用户的特征向量会形成多个聚类簇,各聚类簇中包含多个特征向量点,其中的特征向量点之间的距离通过余弦距离计算,为了确定每个聚类簇的大小,需要制定扫描半径(eps)以便每个类簇中包含合理数量的特征点。
具体地,本发明实施例中在使用dbscan算法时,扫描半径(eps)定义为0-2之间的一个数字,具体取值可以对全量样本分析评估后设定,最小包含点数(minPts)设置为大于30,一般参考中心极限定理,数量太小没有统计意义的数字不予以考虑。
当然,在实际应用中,针对不同量级的用户数据,以及特征向量维度的不同,选取的聚类算法以及聚类算法在具体应用中设置的各种参数都不尽相同,本发明实施例对此不作具体限制。
步骤104,计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
本发明实施例中,在聚类结果中会产生包含用户特征数据的多个类簇,比如包含“正常还款”标签的类,以及包含“违约还款”标签的类,而没有携带上述标签的特征向量通过聚类也存在于上述类簇中,形成最终“正常还款”类和“违约还款”类,并进一步获取上述类的中心。
其中,类簇的中心可以是几何中心或特征平均值求得的坐标中心,对此本发明实施例不做具体限制。
优选地,在本发明另一实施例中,步骤104,可以包括子步骤1041;
子步骤1041,获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;
具体地,在聚类结果中,针对通过申请样本中产生的“正常还款”样本和“违约还款”样本形成的类簇,分别计算这两个类簇的质心。
子步骤1042,分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
其中,质心为这两个类簇中特征向量的加权平均值,分别记为第一类簇心和第二类簇心。
步骤105,根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
具体地,对于其他簇中携带拒绝申请标记的每一个特征向量分别到第一或第二类簇的中心的距离,如果距离某一用户用信特征类簇的中心距离近,则对该特征向量标记为与该用户用信特征类簇相同的用信标签。
当然,用于计算距离的特征向量是未进行用信特征标记的,通常属于拒绝样本,因为通过样本中通常具有“正常还款”标签或者“违约还款”标签。
例如,其他未具备用信特征标签的特征向量计算与用户用信特征类簇的中心一的距离,以及用户用信特征类簇的中心二的距离,如果距离中心一更近,则将该特征向量标记为用户用信特征一,否则标记为用户用信特征二。
可选地,在本发明另一实施例中,步骤105,可以包括子步骤1051-1052;
子步骤1051,计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;
具体地,对于聚类结果中的每个类簇,分别计算其中通过样本中“正常还款”类和“违约还款”类的质心,分别记为C0和C1。针对携带拒绝申请标记的拒绝样本类中的特征向量X,分别计算X到C0和C1的距离D0和D1。
具体地,将任意两个样本X1和X2的距离d定义如下:
其中,d是X1和X2的余弦距离,X1i和X2i为第i维的特征值。使用余弦距离的原因在于余弦距离的取值范围为0-2,在实际应用过程中方便根据具体情况调整距离的阈值。
子步骤1052,如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
具体地,根据D0和D1之间的对比关系,判断特征向量X的分类倾向,进而进行标记。
其中,如果D0小于D1,则将该拒绝样本标记为“正常还款”样本;否则标记为“违约还款”样本。如果该簇中的通过样本全部为“正常还款”样本或者“违约还款”样本,那么该类簇中所有拒绝样本全部赋予对应的标签即可。如果该簇中的样本全部为拒绝样本,说明该簇样本和通过样本的相似度很低,无法判断对应的标签,所以不对该簇中的样本做任何标记,该簇样本不参与后续建模。
可以理解地,其他分类簇中不一定只是拒绝样本,所以是所有除了“正常还款”类和“违约还款”类中的特征向量都会计算与C0和C1之间的距离。
可以理解地,对于聚类结果噪声点中的拒绝样本,即审批未通过的拒绝样本,说明它们和其他通过样本的相似度极低,同样不对它们进行标记,这些拒绝样本也不会加入最后的建模样本。噪点中的拒绝样本占总体样本的比例一般也很低,所以不会对总体样本产品大的影响。
如图2所示,在本发明另一实施例中,还可以包括步骤106-107;
步骤106,将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
本发明实施例中,通过步骤101-105的操作,对全量样本中不带用信标签的样本,即对拒绝样本通过分类,并计算其与通过样本形成的聚类的质心之间的距离,进而对拒绝样本进行用信特征的标记,标记后的样本命名为标记样本或叫标记数据。
进一步地,将标记拒绝样本和通过样本进行合并,这样,所有的样本都带有用信标记,这样的全量样本作为训练样本可以进行模型训练。
步骤107,基于所述训练数据训练用户违约概率预测模型。
本发明实施例中,基于训练样本进行用户违约概率预测模型,以对其他申请用户进行用信特征预测,即可通过用户数据预测用户的贷后表现。
综上所述,在本发明实施例中,采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;将所述申请用户的特征数据转换为特征向量;基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。实现了基于无监督聚类结果对拒绝样本进行推断的方法,通过全体样本聚类去发现通过样本和拒绝样本之间的关系,从而对拒绝样进行推断,在此过程中一次性充分利用了全体样本的信息,较好的改善了传统的基于通过样本建模然后对拒绝样本进行预测的方法中存在的“部分样本估计总体”的问题。
实施例二
参照图3,示出了本发明实施例三的一种基于用户特征聚类的拒绝样本推断装置的结构框图,所述基于用户特征聚类的拒绝样本推断装置300具体可以包括:
特征数据采集模块301,用于采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
特征向量转换模块302,用于将所述申请用户的特征数据转换为特征向量;
聚类模块303,用于基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
类中心获取模块304,用于计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
优选地,所述类中心获取模块304,包括:
类获取子模块,用于获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;
类中心获取子模块,用于分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
预测模块305,用于根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
优选地,所述预测模块305,包括:
拒绝申请用户确定子模块,用于将携带有所述申请特征为拒绝申请的所述申请用户确定为拒绝申请用户;
余弦距离计算子模块,用于计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;
标记子模块,用于如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
优选地,所述所述申请特征与所述还款特征可以同时具备。
优选地,如图4所示,在图3的基础上,预测模块305之后,还包括:
训练数据得到模块306,用于将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
用户违约概率预测模型训练模块307,用于基于所述训练数据训练用户违约概率预测模型。
本发明实施例提供的基于用户特征聚类的拒绝样本推断装置能够实现图1至图2的方法实施例的各个过程,为避免重复,这里不再赘述。
综上所述,在本发明实施例中,采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;将所述申请用户的特征数据转换为特征向量;基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。实现了通过计算聚类后的拒绝申请用户数据,与通过申请用户数据中正常还款和违约还款类簇中心距离的方式,而为拒绝申请用户进行还款特征预测的目的,进而对所有用户进行实现还款特征标记,克服了现有技术中用部分带标签的拒绝样本估计总体拒绝样本标签而导致的标记存在偏差问题,提高了拒绝用户还款特征预测的精确度。
可选的,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于用户特征聚类的拒绝样本推断方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种基于特征聚类的拒绝申请用户推断方法,其特征在于,所述方法包括:
采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
将所述申请用户的特征数据转换为特征向量;
基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
2.根据权利要求1所述的方法,其特征在于,所述计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心,包括:
获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;
分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
3.根据权利要求2所述的方法,其特征在于,所述根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征,包括:
将携带有所述申请特征为拒绝申请的所述申请用户确定为拒绝申请用户;
计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;
如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
4.根据权利要求3所述的方法,其特征在于,还包括:
将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
基于所述训练数据训练用户违约概率预测模型。
5.一种基于用户特征聚类的拒绝样本推断装置,其特征在于,所述装置包括:
特征数据采集模块,用于采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
特征向量转换模块,用于将所述申请用户的特征数据转换为特征向量;
聚类模块,用于基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
类中心获取模块,用于计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
预测模块,用于根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
6.根据权利要求5所述的装置,其特征在于,所述类中心获取模块,包括:
类获取子模块,用于获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;
类中心获取子模块,用于分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
7.根据权利要求6所述的装置,其特征在于,所述预测模块,包括:
拒绝申请用户确定子模块,用于将携带有所述申请特征为拒绝申请的所述申请用户确定为拒绝申请用户;
余弦距离计算子模块,用于计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;
标记子模块,用于如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
8.根据权利要求7所述的装置,其特征在于,还包括:
训练数据得到模块,用于将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
用户违约概率预测模型训练模块,用于基于所述训练数据训练用户违约概率预测模型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774351.8A CN113657440A (zh) | 2021-07-08 | 2021-07-08 | 一种基于用户特征聚类的拒绝样本推断方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774351.8A CN113657440A (zh) | 2021-07-08 | 2021-07-08 | 一种基于用户特征聚类的拒绝样本推断方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113657440A true CN113657440A (zh) | 2021-11-16 |
Family
ID=78489263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110774351.8A Pending CN113657440A (zh) | 2021-07-08 | 2021-07-08 | 一种基于用户特征聚类的拒绝样本推断方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657440A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331696A (zh) * | 2021-12-31 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 风险评估方法、装置及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189293A1 (en) * | 2014-12-29 | 2016-06-30 | Lexisnexis Risk Solutions Fl Inc. | Systems and methods for inferring the performance of rejected credit applicants |
US20190026761A1 (en) * | 2013-06-13 | 2019-01-24 | Flytxt B.V. | Method and system for automated detection, classification and prediction of multi-scale, multidimensional trends |
CN110210944A (zh) * | 2019-06-05 | 2019-09-06 | 齐鲁工业大学 | 联合贝叶斯推理与加权拒绝采样的多任务推荐方法及系统 |
CN110458690A (zh) * | 2019-07-30 | 2019-11-15 | 联动优势科技有限公司 | 一种信用评分模型的建立方法及装置 |
WO2019223139A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳壹账通智能科技有限公司 | 一种风险预测方法、装置、存储介质和服务器 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN111078818A (zh) * | 2019-12-27 | 2020-04-28 | 同盾(广州)科技有限公司 | 地址分析方法、装置、电子设备及存储介质 |
CA3063580A1 (en) * | 2018-12-17 | 2020-06-17 | 10353744 Canada Ltd. | Classifier training method and apparatus, electronic device and computer readable medium |
CN112488817A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于拒绝推断的金融违约风险评估方法及系统 |
CN112651823A (zh) * | 2020-12-23 | 2021-04-13 | 天津大学 | 信用评估模型建立方法和装置及信用评估方法和设备 |
CN112651821A (zh) * | 2020-12-22 | 2021-04-13 | 平安普惠企业管理有限公司 | 基于多视图学习的借贷违约风险检测方法及相关设备 |
-
2021
- 2021-07-08 CN CN202110774351.8A patent/CN113657440A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026761A1 (en) * | 2013-06-13 | 2019-01-24 | Flytxt B.V. | Method and system for automated detection, classification and prediction of multi-scale, multidimensional trends |
US20160189293A1 (en) * | 2014-12-29 | 2016-06-30 | Lexisnexis Risk Solutions Fl Inc. | Systems and methods for inferring the performance of rejected credit applicants |
WO2019223139A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳壹账通智能科技有限公司 | 一种风险预测方法、装置、存储介质和服务器 |
CA3063580A1 (en) * | 2018-12-17 | 2020-06-17 | 10353744 Canada Ltd. | Classifier training method and apparatus, electronic device and computer readable medium |
CN110210944A (zh) * | 2019-06-05 | 2019-09-06 | 齐鲁工业大学 | 联合贝叶斯推理与加权拒绝采样的多任务推荐方法及系统 |
CN110458690A (zh) * | 2019-07-30 | 2019-11-15 | 联动优势科技有限公司 | 一种信用评分模型的建立方法及装置 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN111078818A (zh) * | 2019-12-27 | 2020-04-28 | 同盾(广州)科技有限公司 | 地址分析方法、装置、电子设备及存储介质 |
CN112488817A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于拒绝推断的金融违约风险评估方法及系统 |
CN112651821A (zh) * | 2020-12-22 | 2021-04-13 | 平安普惠企业管理有限公司 | 基于多视图学习的借贷违约风险检测方法及相关设备 |
CN112651823A (zh) * | 2020-12-23 | 2021-04-13 | 天津大学 | 信用评估模型建立方法和装置及信用评估方法和设备 |
Non-Patent Citations (1)
Title |
---|
杨绍基;范闽;: "信用评分模型的拒绝偏差与Heckit纠正", 南方金融, no. 05 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331696A (zh) * | 2021-12-31 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 风险评估方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4697670B2 (ja) | 識別用データ学習システム、学習装置、識別装置及び学習方法 | |
CN108596630B (zh) | 基于深度学习的欺诈交易识别方法、系统及存储介质 | |
CN110633991A (zh) | 风险识别方法、装置和电子设备 | |
CN111507470A (zh) | 一种异常账户的识别方法及装置 | |
CN108170759A (zh) | 投诉案件处理的方法、装置、计算机设备及存储介质 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN112950347B (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN112487284A (zh) | 银行客户画像生成方法、设备、存储介质及装置 | |
CN113807940A (zh) | 信息处理和欺诈行为识别方法、装置、设备及存储介质 | |
CN111179055A (zh) | 授信额度调整方法、装置和电子设备 | |
CN115130573A (zh) | 数据处理方法、装置、存储介质、设备及产品 | |
CN113657440A (zh) | 一种基于用户特征聚类的拒绝样本推断方法和装置 | |
CN113011961B (zh) | 公司关联信息风险监测方法、装置、设备及存储介质 | |
CN114169439A (zh) | 异常通信号码的识别方法、装置、电子设备和可读介质 | |
CN109902129A (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
CN117574374A (zh) | 恶意访问识别方法、设备、存储介质及装置 | |
CN113221721A (zh) | 图像识别方法、装置、设备及介质 | |
CN111353728A (zh) | 一种风险分析方法和系统 | |
CN116703682A (zh) | 一种基于深度学习的政务数据平台 | |
CN116127189A (zh) | 用户运营方法、装置、设备以及计算机存储介质 | |
CN114238615B (zh) | 一种企业服务成果数据处理方法及系统 | |
CN115293867A (zh) | 财务报销用户画像优化方法、装置、设备及存储介质 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211116 |
|
RJ01 | Rejection of invention patent application after publication |