CN113743493A - 群体分类方法及电子设备 - Google Patents

群体分类方法及电子设备 Download PDF

Info

Publication number
CN113743493A
CN113743493A CN202111005608.XA CN202111005608A CN113743493A CN 113743493 A CN113743493 A CN 113743493A CN 202111005608 A CN202111005608 A CN 202111005608A CN 113743493 A CN113743493 A CN 113743493A
Authority
CN
China
Prior art keywords
value
clustering
cluster
risk
certificate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111005608.XA
Other languages
English (en)
Inventor
符修亮
胡创大
钱进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202111005608.XA priority Critical patent/CN113743493A/zh
Publication of CN113743493A publication Critical patent/CN113743493A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种群体分类方法及电子设备,群体分类方法包括:分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。

Description

群体分类方法及电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种群体分类方法及电子设备。
背景技术
随着计算机技术的发展,越来越多的技术被应用在金融领域,传统金融业正在逐步向金融科技转变,然而,由于金融行业的安全性、实时性要求,金融科技也对技术提出了更高的要求。金融科技领域下,在对用户进行群体分类的场景中,基于设定风险类别与设定阈值范围之间的对应关系,以及基于用户的凭证的关键指标的值所处的设定阈值范围,确定出凭证所属的设定风险类别;基于凭证所属的设定风险类别以及凭证与用户之间的对应关系,输出用户的群体分类结果。然而,设定风险类别对应的设定阈值范围是根据经验值设定的,由此,导致群体分类结果与实际情况不符,群体分类结果不准确。
发明内容
有鉴于此,本发明实施例提供一种群体分类方法及电子设备,以解决相关技术中群体分类结果不准确的技术问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种群体分类方法,包括:
分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;
对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;
基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;
基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。
上述方案中,在对多个第一凭证进行聚类时,所述方法包括:
基于聚类簇数和第一凭证的总数,计算出每个簇心对应的排序序号;
基于每个簇心对应的排序序号,在按照第一数值进行排序后的第一凭证中确定出所有簇心;所述第一数值包括设定因子的值或第二风险值;
计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值;
将第一凭证添加至最小的第一差值对应的簇心所处的簇。
上述方案中,在所述计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值时,所述方法包括:
将第一凭证对应的第一数值的平方与簇心对应的第一数值的平方之差的平方,确定为第一差值。
上述方案中,在将所有第一凭证添加至对应簇之后,所述方法还包括:
计算出收敛阈值和每个簇对应的绝对差值;其中,绝对差值表征对应簇的簇心对应的第一数值与对应的第一均值之差的绝对值;第一均值表征对应簇中所有第一凭证对应的第一数值的均值;收敛阈值表征第二差值与随机风险值的总个数之商;第二差值表征最大第一数值与最小第一数值之差;
在计算出的绝对差值大于所述收敛阈值的情况下,基于每个簇对应的第一均值确定出对应簇的新簇心,执行所述计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值以及后续步骤;或者
在计算出的所有绝对差值小于或等于所述收敛阈值的情况下,不对所述多个第一凭证重新聚类。
上述方案中,所述方法还包括:
在聚类簇数小于所有第一凭证对应的随机风险值的总个数,且第二均值大于或等于所述收敛阈值的情况下,将第二数值和所述随机风险值的总个数中的最小值,确定为新的聚类簇数,并基于新的聚类簇数和每个第一凭证对应的第一数值,对所述多个第一凭证重新进行聚类;其中,
所述第二均值表征第一均值数组中每两个相邻的第一均值的差值的均值的绝对值;第二数值由聚类簇数以及第二均值与所述收敛阈值之差确定出。
上述方案中,所述方法还包括:
在所述聚类簇数大于或等于所述随机风险值的总个数,或所述第二均值小于所述收敛阈值的情况下,结束聚类,按照第一排序方式,分别对所有簇心对应的第一数值和随机风险值进行排序;
将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第一数值对应的簇心;
将赋值给每个簇心的随机风险值,确定为对应簇中每个第一凭证对应的风险值。
上述方案中,在所述分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对第一凭证进行聚类之前,所述方法还包括:
通过设定的随机数函数生成每个第一凭证对应的随机风险值;
通过多个线程分别确定出具有相同随机风险值的第一凭证对应的设定因子的值。
上述方案中,所述第一凭证表征设定分期业务的凭证;设定因子包括以下至少两个:
逾期天数;
第一比例,表征逾期期数与总期数之商;
第二比例,表征逾期资源份额与总资源份额之商。
本发明还提供一种电子设备,包括:
第一聚类单元,用于分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;
计算单元,用于对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;
第二聚类单元,用于基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;
分类单元,用于基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。
本发明还提供一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述群体分类方法的步骤。
在本发明实施例中,分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;基于第二聚类结果和第一凭证对应的用户,输出群体分类结果。由于每个第一凭证对应的第二风险值是,对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和得到,可以提高基于第二风险值得到的第二聚类结果的准确度,由第二聚类结果得到的群体分类结果可以准确地体现出客群的好坏,使得群体分类结果更合理,提高了群体分类结果的准确度。
附图说明
图1为本发明实施例提供的群体分类方法的实现流程示意图;
图2为本发明实施例提供的群体分类方法中的聚类方法的实现流程示意图;
图3为本发明另一实施例提供的群体分类方法中的聚类方法的实现流程示意图;
图4为本发明再一实施例提供的群体分类方法中的聚类方法的实现流程示意图;
图5为本发明实施例提供的一种电子设备的结构示意图;
图6为本发明实施例提供的一种电子设备的硬件组成结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的群体分类方法的实现流程示意图,其中,流程的执行主体为终端、服务器等电子设备。如图1示出的,群体分类方法包括:
步骤101:分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果。
这里,电子设备获取待分类的多个用户中每个用户对应的设定业务的第一凭证,为获取到的每个第一凭证分配一个随机风险值,并建立第一凭证与对应的随机风险值之间的对应关系。实际应用时,对获取到的每个第一凭证进行打标,从而为每个第一凭证写入一个随机风险值。随机风险值由随机数函数生成。
电子设备基于获取到的每个第一凭证中包含的设定指标的值,确定出每个第一凭证对应的第一设定因子的值;基于第一凭证对应的第一设定因子的值,对多个第一凭证进行聚类,得到第一设定因子对应的第一聚类结果;由此,得到每个设定因子对应的第一聚类结果。其中,第一设定因子泛指第一凭证对应的任意一个设定因子。每个用户对应至少一个第一凭证。不同的设定因子用于从不同维度评价第一凭证是否具有风险。
在对所有第一凭证结束聚类的情况下,将最终得到的第一聚类结果中第一凭证对应的随机风险值,更新为第一凭证在第一聚类结果中所处的簇的簇心对应的随机风险值,得到第一凭证对应的第一风险值。由此,确定出每个第一聚类结果中每个第一凭证对应的第一风险值。其中,簇心也称聚类中心。需要说明的是,在聚类完成后,每个设定因子对应的每个簇心对应的随机风险值可以是为簇心分配的随机风险值,也可以基于对应的设定因子对应的所有簇心对应的随机风险值和对应的设定因子的值确定出。例如,按照从小到大的顺序将随机风险值,赋值给按照对应设定因子的值从小到大的顺序排序后的簇心。
需要说明的是,设定因子的值可以是第一凭证对应的一个设定指标的值,也可以由第一凭证对应的两个设定指标中每个设定指标的值确定出。不同的设定因子之间的相关性较低。
实际应用时,第一凭证表征客户的借款行为或还款行为的凭证。例如,在第一凭证为分期还款业务的凭证的情况下,第一凭证的设定指标至少包括贷款总额P、贷款总期数T、逾期天数D、逾期金额O和逾期期数R,还可以包括贷款利率I和已还本金M。
在一些实施例中,第一凭证表征设定分期业务的凭证;设定因子包括以下至少两个:
逾期天数;
第一比例,表征逾期期数与总期数之商;
第二比例,表征逾期资源份额与总资源份额之商。在实际应用中,第一凭证为分期还款业务的凭证;第一比例为逾期期数占比,由逾期期数除以贷款总期数得到;第二比例为逾期金额占比,由逾期金额除以贷款总额得到。
为了加快确定各设定因子的值的速度,在一些实施例中,在所述分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对第一凭证进行聚类之前,所述方法还包括:
通过设定的随机数函数生成每个第一凭证对应的随机风险值;
通过多个线程分别确定出具有相同随机风险值的第一凭证对应的设定因子的值。
这里,电子设备在获取到待分类的用户对应的第一凭证的情况下,通过设定的随机数函数生成每个第一凭证对应的随机风险值,并生成的随机风险值写入对应的第一凭证;基于生成的随机风险值的总数,启动多个线程,通过每个线程确定出一个随机风险值对应的所有第一凭证对应的每个设定因子的值。其中,启动的线程的总数小于或等于生成的随机风险值的总数。
在启动的线程的总数小于生成的随机风险值的总数的情况下,至少一个线程在计算出具有第一随机风险值的每个第一凭证对应的每个设定因子的值之后,再计算出具有第二随机风险值的每个第一凭证对应的每个设定因子的值。
在启动的线程的总数等于生成的随机风险值的总数的情况下,每个线程对应一个随机风险值,也就是说,每个线程计算具有对应随机风险值的第一凭证对应的设定因子的值。
在实际应用中,随机数函数为Random()。
为了提高每个设定因子对应的第一聚类结果的准确度,如图2所示,在一些实施例中,在对多个第一凭证进行聚类时,所述方法包括:
步骤201:基于聚类簇数和第一凭证的总数,计算出每个簇心对应的排序序号。
其中,聚类簇数是指聚类结果中包括的簇的总数。确定第一聚类结果的过程中,初始的聚类簇数为设定值。在聚类的过程中该聚类簇数是可更新的,更新方式请参照后文步骤208的相关描述。
这里,电子设备将聚类簇数和第一凭证的总数,代入第一计算公式,计算出,每个簇心对应的排序序号。其中,第一计算公式用于计算簇心对应的排序序号,第一计算公式的表达式为:
Figure BDA0003237055380000071
cj表征第j个簇心对应的排序序号;j为小于或等于x的正整数;Vsize表征第一凭证的总数;x表征聚类簇数,x是可更新的;k1、k2和k3均表征设定常数,k1、k2和k3可以完全不同,也可以部分相同,或者完全相同。实际应用中,k1和k2均为2;k3为1。
实际应用时,将每个簇心对应的设定因子的值写入数组C,数组C=[C1,…,Cj]。Cj表征第j个簇心对应的设定因子的值。
步骤202:基于每个簇心对应的排序序号,在按照第一数值进行排序后的第一凭证中确定出所有簇心;所述第一数值包括设定因子的值。
这里,在确定第一设定因子对应的第一聚类结果的过程中,电子设备按照第一设定因子的值从小到大的顺序,对所有第一凭证进行排序,得到第一设定因子对应的第一序列;基于每个簇心对应的排序序号,在第一设定因子对应的第一序列中,确定出每个排序序号各自对应的第一凭证,得到第一设定因子对应的所有簇心。
需要说明的是,在一些实施例中,也可以按照第一设定因子的值从大到小的顺序,对所有第一凭证进行排序,得到第一设定因子对应的第一序列。
步骤203:计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值。
这里,在确定第一设定因子对应的第一聚类结果的过程中,电子设备基于第一凭证对应的第一设定因子的值,以及第一设定因子对应的所有簇心中每个簇心对应的第一设定因子的值,分别计算出第一凭证与每个簇心之间的第一设定因子的第一差值。
为了提高聚类效率,在一些实施例中,在所述计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值时,所述方法包括:
将第一凭证对应的第一数值的平方与簇心对应的第一数值的平方之差的平方,确定为第一差值。
这里,电子设备计算出第一凭证对应的第一设定因子的值的平方,以及计算出每个簇心对应的第一设定因子的值的平方;将第一凭证对应的第一设定因子的值的平方,与第一簇心对应的第一设定因子的值的平方之差,确定为第一凭证与第一簇心之间的第一差值。第一簇心表征任意一个簇心。
实际应用时,采用公式OVi-j=(Vi 2-Cj 2)2计算出第一凭证与各簇心之间的第一差值,以扩大各第一凭证与各簇心之间的第一差值,从而加快聚类速度,提高聚类效率。
其中,OVi-j表征第i个第一凭证与第j个簇心之间的第一差值,i为小于或等于n的正整数,n为第一凭证的总数,j为小于或等于聚类簇数的正整数;VD表征至少两个设定因子中的任意一个设定因子;Vi 2表征第i个第一凭证对应的任意一个设定因子的值的平方;Cj 2表征第j个簇心对应的第一设定因子的值的平方。
步骤204:将第一凭证添加至最小的第一差值对应的簇心所处的簇。
这里,电子设备在计算出第一凭证与每个簇心之间的第一设定因子的第一差值的情况下,从计算出的第一差值中,确定出最小的第一差值,将第一凭证添加至最小的第一差值对应的簇心所处的簇。按照此方法,将所有第一凭证添加至各自对应的最小的第一差值对应的簇心所处的簇,从而得到第一设定因子对应的第一聚类结果。
需要说明的是,电子设备按照步骤201~步骤204,可以得到每个设定因子对应的第一聚类结果。
为了提高第一聚类结果的准确度,在对所有第一凭证进行聚类的过程中,在完成一次聚类时,电子设备需要判断聚类是否收敛,在聚类未收敛时,需要对所有第一凭证重新聚类;在聚类收敛时,本轮聚类结束,不对所有第一凭证重新进行聚类。如图3所示,在一些实施例中,在将所有第一凭证添加至对应簇之后,所述方法还包括:
步骤205:计算出收敛阈值和每个簇对应的绝对差值;其中,绝对差值表征对应簇的簇心对应的第一数值与对应的第一均值之差的绝对值;第一均值表征对应簇中所有第一凭证对应的第一数值的均值;收敛阈值表征第二差值与随机风险值的总个数之商;第二差值表征最大第一数值与最小第一数值之差。
这里,以确定第一设定因子对应的第一聚类结果为例进行说明:
电子设备基于每个第一凭证对应的第一设定因子的值,按照步骤203至步骤204,将所有第一凭证添加至对应簇,从而完成一次聚类之后,在第一设定因子对应的所有簇中,确定出第一设定因子的最大值和第一设定因子的最小值,并计算出第一设定因子的最大值与第一设定因子的最小值之差,得到第二差值;将第二差值与生成的随机风险值的总个数之商,确定为收敛阈值。
基于每个簇中所有第一凭证对应的第一设定因子的值,计算出第一设定因子的均值,得到每个簇对应的第一均值。实际应用时,采用公式
Figure BDA0003237055380000101
计算出每个簇对应的第一均值。其中,NCj表征第j个簇对应的第一均值;sum(Yj)表征对第j个簇中的所有第一凭证对应的设定因子的值求和;Yj.size表征第j个簇中包含的第一凭证的总数。
实际应用时,每计算出将一个簇对应的第一均值,将第一均值写入第一数组NC中,得到第一均值数组NC;NC=[NC1,…,NCj,…,NCx]。NCj表征第j个簇对应的第一均值。
在计算出每个簇对应的第一均值的情况下,分别计算出每个簇的簇心对应的第一设定因子的值与对应簇对应的第一均值之差的绝对值,得到每个簇对应的绝对差值。实际应用时,利用公式Cabs(j)=abs(Cj-NCj)计算每个簇对应的绝对差值。其中,Cabs(j)表征第j个簇对应的绝对差值;abs(Cj-NCj)表征计算第j个簇的簇心对应的设定因子的值与对应的第一均值之间的差值的绝对值。
在计算出收敛阈值和每个簇对应的绝对差值的情况下,分别将每个绝对差值和收敛阈值进行比较得到比较结果。在比较结果表征计算出的绝对差值大于计算出的收敛阈值的情况下,表征聚类未收敛,需要基于第一设定因子对应的值对所有第一凭证重新进行聚类,执行步骤206。在计算出的所有绝对差值均小于或等于收敛阈值的情况下,表征聚类收敛,执行步骤207。
步骤206:在计算出的绝对差值大于所述收敛阈值的情况下,基于每个簇对应的第一均值确定出对应簇的新簇心,执行所述计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值以及后续步骤。
这里,在计算出的绝对差值大于计算出的收敛阈值时,可以将第一均值对应的第一凭证确定为对应簇的新簇心,或者,在对应簇中,确定出与对应的第一均值差值最小的第一设定因子的值,将该第一设定因子的值对应的第一凭证确定为对应簇的新簇心。
例如,基于每个簇对应的第一均值,在对应簇中查找与对应的第一均值相等的第一设定因子的值;在查找到与对应的第一均值相等的第一设定因子的值的情况下,将查找到的第一设定因子的值对应的第一凭证确定为对应簇的新簇心;在未查找到与对应的第一均值相等的第一设定因子的值的情况下,在对应簇中确定出与第一均值之间的差值最小的第一设定因子的值,并将该第一设定因子的值对应的第一凭证确定为新簇心。
在确定出对应簇的新簇心的情况下,基于每个簇的新簇心和第一设定因子的值,执行步骤201至步骤205,从而对所有第一凭证重新进行聚类。
步骤207:在计算出的所有绝对差值小于或等于所述收敛阈值的情况下,不对所述多个第一凭证重新聚类。
这里,在计算出的所有绝对差值小于或等于收敛阈值的情况下,表征聚类收敛,电子设备不再基于第一设定因子的值对所有第一凭证重新聚类,结束本轮聚类,得到每个设定因子对应的第一聚类结果。
此时,电子设备可以将第一聚类结果中每个簇心对应的随机风险值,确定为对应簇中每个第一凭证对应的第一风险值;也可以基于第一聚类结果中所有簇心对应的设定因子的值和随机风险值,更新每个簇心对应的随机风险值,将更新后的随机风险值确定为对应簇中每个第一凭证对应的第一风险值。例如,针对第一设定因子对应的第一聚类结果,分别对所有簇心对应的第一设定因子的值和随机风险值进行排序;将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第一设定因子的值对应的簇心;将赋值给每个簇心的随机风险值确定为对应簇中每个第一凭证对应的第一风险值。
需要说明的是,每个设定因子对应的第一聚类结果中,各自包括的簇数可以相同,也可以不同。
为了提高设定因子对应的第一聚类结果的准确度,在计算出的绝对差值小于或等于收敛阈值的情况下,基于聚类簇数判断当前是否聚类完成,在聚类未完成时,增大聚类簇数,以对所有第一凭证进行下一轮聚类;在聚类完成时,输出设定因子对应的第一聚类结果。如图4所示,在一些实施例中,在计算出的所有绝对差值第一均值小于或等于所述收敛阈值的情况下,所述方法还包括:
步骤208:在聚类簇数小于所有第一凭证对应的随机风险值的总个数,且第二均值大于或等于所述收敛阈值的情况下,将第二数值和所述随机风险值的总个数中的最小值,确定为新的聚类簇数,并基于新的聚类簇数和每个第一凭证对应的第一数值,对所述多个第一凭证重新进行聚类;其中,
所述第二均值表征第一均值数组中每两个相邻的第一均值的差值的均值的绝对值;第二数值由聚类簇数以及第二均值与所述收敛阈值之差确定出。
这里,在确定第一设定因子对应的第一聚类结果的过程中,电子设备由第一设定因子对应的聚类结果中每个簇对应的第一均值,得到第一设定因子对应的第一均值数组;计算出第一均值数组中每两个相邻的第一均值的差值,并对计算出的差值求均值,将计算出的均值的绝对值,确定为第一设定因子对应的第二均值。
实际应用时,采用公式
Figure BDA0003237055380000121
计算出设定因子对应的第二均值。其中,NCsize表征第一设定因子对应的第一均值数组中包括的元素的总数;NCj+1表征第一均值数组中第j+1个元素;NCj征第一均值数组中第j个元素;j+1小于或等于x。
在确定出第一设定因子对应的第二均值的情况下,判断该第二均值是否大于或等于收敛阈值,得到第一设定因子对应的第一判断结果;在第一设定因子对应的第一判断结果表征对应的第二均值大于或等于收敛阈值,且聚类簇数小于随机风险值的总个数的情况下,表征需要增大聚类簇数,基于新的聚类簇数和第一设定因子对应的值,对所有第一凭证进行下一轮聚类。此时,电子设备计算出第一设定因子对应的第二均值与聚类簇数之间的差值,将该差值与聚类簇数之和、随机风险值的总个数中的最小值,确定为第一设定因子对应的第二数值。
电子设备将第一设定因子对应的第二数值和随机风险值的总个数中的最小值,确定为新的聚类簇数。
电子设备在确定出新的聚类簇数的情况下,基于新的聚类簇数,执行步骤201至步骤206,或者执行步骤201至步骤205、步骤207至步骤208,从而分别基于第一凭证对应的第一设定因子的值,对多个第一凭证进行新一轮的聚类。
需要说明的是,在聚类簇数大于或等于随机风险值的总个数,或者第二均值小于收敛阈值的情况下,表征对所有的第一凭证聚类完成。
本实施例中,在对多个第一凭证进行聚类的过程中,可以基于当前得到的聚类结果,计算出第二数值,并在聚类簇数小于随机风险值的总个数,且第二均值大于或等于所述收敛阈值的情况下,将第二数值和随机风险值的总个数中的最小值,确定为新的聚类簇数,从而基于新的聚类簇数对所有第一凭证重新进行聚类。由此,可以基于当前得到的聚类结果动态调整簇数,相对于基于随机调整的聚类簇数重新进行聚类的情况,可以减少聚类次数,提高聚类效率。
由于每个第一凭证对应的随机风险值是随机生成的,为了使得每个簇心对应的随机风险值能够真实地反映出对应的第一凭证的风险程度,如图4所示,在一些实施例中,所述方法还包括:
步骤209:在所述聚类簇数大于或等于所述随机风险值的总个数,或所述第二均值小于所述收敛阈值的情况下,结束聚类,按照第一排序方式,分别对所有簇心对应的第一数值和风险值进行排序;
步骤210:将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第一数值对应的簇心;
步骤211:将赋值给每个簇心的随机风险值,确定为对应簇中每个第一凭证对应的风险值。
其中,第一排序方式表征从小到大的排序方式或从大到小的排序方式。第一数值为任一设定因子的值。例如,在确定第一设定因子对应的第一聚类结果的过程中,第一数值为第一设定因子的值;在确定第二设定因子对应的第一聚类结果的过程中,第一数值为第二设定因子的值。
这里,在确定第一设定因子对应的第一聚类结果的过程中,在聚类簇数大于或等于随机风险值的总个数,或者第二均值小于收敛阈值的情况下,结束聚类,得到第一设定因子对应的第一聚类结果;分别对所有簇心对应的第一设定因子的值和随机风险值进行排序;将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第一设定因子的值对应的簇心;将赋值给每个簇心的随机风险值确定为对应簇中每个第一凭证对应的第一风险值。
例如,将最小的随机风险值,赋值给第一设定因子的值中的最小值对应的簇心;将最大的随机风险值,赋值给第一设定因子的值中的最大值对应的簇心。
本发明实施例中,在结束聚类的情况下,将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第一数值对应的簇心,将赋值给每个簇心的随机风险值,确定为对应簇中每个第一凭证对应的第一风险值,可提高第一凭证对应的第一风险值的准确度,从而提高由第一风险值确定出的第二风险值的准确度,进而提高第二聚类结果的准确度,以及群体分类结果的准确度。
步骤102:对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值。
这里,电子设备在确定出每个第一聚类结果中每个第一凭证对应的第一风险值的情况下,对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值。
在实际应用中,每个设定因子对应的设定权重相同。当然,在一些实施例中,也可以根据设定因子的重要程度为每个设定因子设置对应的设定权重。
在实际应用中,第一凭证对应的设定因子包括逾期天数、第一比例和第二比例;基于每个第一凭证在每个第一聚类结果中对应的第一风险值,计算出每个第一凭证对应的所有第一风险值的均值,得到对应的第二风险值。
步骤103:基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果。
这里,电子设备当确定出每个第一凭证对应的第二风险值时,基于每个第一凭证对应的第二风险值对所有的第一凭证进行聚类,得到第二聚类结果。
为了提高第二聚类结果的准确度,在一些实施例中,在对多个第一凭证进行聚类时,所述方法包括:
基于聚类簇数和第一凭证的总数,计算出每个簇心对应的排序序号;
基于每个簇心对应的排序序号,在按照第二风险值进行排序后的第一凭证中确定出所有簇心;
计算出第一凭证对应的第二风险值与每个簇心对应的第二风险值之间的第一差值;
将第一凭证添加至最小的第一差值对应的簇心所处的簇。
这里,聚类簇数为最终得到的所有第一聚类结果包含的聚类簇数中的最大值。基于第一凭证对应的第二风险值对所有第一凭证进行聚类的实现过程,与基于第一凭证对应的设定因子的值对所有第一凭证进行聚类的实现过程类似,实现过程请参照上述步骤201至步骤204的相关描述。
为了提高第二聚类结果的准确度,在对所有第一凭证进行聚类的过程中,在完成一次聚类时,电子设备需要判断聚类是否收敛,在聚类未收敛时,需要对所有第一凭证重新聚类;在聚类收敛时,不对所有第一凭证重新进行聚类。在一些实施例中,在将所有第一凭证添加至对应簇之后,所述方法还包括:
计算出收敛阈值和每个簇对应的绝对差值;其中,绝对差值表征对应簇的簇心对应的第二风险值与对应的第一均值之差的绝对值;第一均值表征对应簇中所有第一凭证对应的第二风险值的均值;收敛阈值表征第二差值与随机风险值的总个数之商;第二差值表征最大第二风险值与最小第二风险值之差;
在计算出的绝对差值大于所述收敛阈值的情况下,基于每个簇对应的第一均值确定出对应簇的新簇心,执行所述计算出第一凭证对应的第二风险值与每个簇心对应的第二风险值之间的第一差值以及后续步骤;或者
在计算出的所有绝对差值均小于或等于所述收敛阈值的情况下,不对所述多个第一凭证重新聚类。
其中,上述步骤的实现过程请参照上述步骤205至步骤207的相关描述,此处不赘述。
考虑到为了提高第二聚类结果的准确度,在一些实施例中,在计算出的所有绝对差值第一均值均小于或等于所述收敛阈值的情况下,所述方法还包括:
在聚类簇数小于随机风险值的总个数,且第二均值大于或等于所述收敛阈值的情况下,将第二数值和所述随机风险值的总个数中的最小值,确定为新的聚类簇数,并基于新的聚类簇数和每个第一凭证对应的第二风险值,对所述多个第一凭证重新进行聚类;其中,
所述第二均值表征第一均值数组中每两个相邻的第一均值的差值的均值的绝对值;第二数值由聚类簇数以及第二均值与所述收敛阈值之差确定出。
其中,对所述多个第一凭证重新进行聚类的实现过程请参照上述步骤208的相关描述,此处不赘述。
需要说明的是,在实际应用时,由于在确定第一聚类结果的过程中已经确定出了较合适的聚类簇数,因此,为了提高聚类效率,在确定第二聚类结果的过程中,直接按照所有第一聚类结果中包含的聚类簇数中的最大值,进行聚类,不调整聚类簇数。
在一些实施例中,在所述聚类簇数大于或等于所述随机风险值的总个数,或第二均值小于所述收敛阈值的情况下,结束聚类,按照第一排序方式,分别对所有簇心对应的第二风险值和随机风险值进行排序;
将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第二风险值对应的簇心;即,将每个簇心对应的第二风险值更新为对应排序序号的随机风险值;
将赋值给每个簇心的第二风险值,确定为对应簇中每个第一凭证对应的第二风险值。
步骤104:基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。
这里,电子设备基于用户与第一凭证之间的对应关系,基于第二聚类结果,对第一凭证对应的用户进行分类,得到群体分类结果。
在本发明实施例中,分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;基于第二聚类结果和第一凭证对应的用户,输出群体分类结果。由于每个第一凭证对应的第二风险值是,对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和得到,可以提高基于第二风险值得到的第二聚类结果的准确度,由第二聚类结果得到的群体分类结果可以准确地体现出客群的好坏,使得群体分类结果更合理。
下面以第一凭证为分期还款的凭证,第一凭证对应的设定因子包括逾期天数、逾期期数占比和逾期金额占比为例,说明对客户进行群体分类的实现过程:
首先,基于每个第一凭证的设定指标的值,计算出每个第一凭证对应的每个设定因子的值:
其中,第一凭证的设定指标至少包括贷款总额P、贷款总期数T、逾期天数D、逾期金额O和逾期期数R。逾期期数占比,由逾期期数除以贷款总期数得到;逾期金额占比,由逾期金额除以贷款总额得到。
电子设备在获取到待分类的用户对应的第一凭证的情况下,通过设定的随机数函数生成每个第一凭证对应的随机风险值,并生成的随机风险值写入对应的第一凭证;基于生成的随机风险值的总数,启动对应数量的线程,通过每个线程确定出一个随机风险值对应的所有第一凭证对应的每个设定因子的值。
电子设备将生成的所有随机风险值,存入风险值数组Gn。
例如,线程1只计算随机风险值为1的第一凭证对应的每个设定因子的值,将每个设定因子的值存入对应的数组。
其中,逾期天数对应的数组VD=[VD(1),VD(2),…,VD(n)];逾期期数占比对应的数组VR=[VR(1),VR(2),…,VR(n)];逾期金额占比对应的数组VO=[VO(1),VO(2),…,VO(n)]。VD(i)表征第i个第一凭证对应的逾期天数;VR(i)表征第i个第一凭证对应的逾期金额占比;VO(i)表征第i个第一凭证对应的逾期金额占比。i为小于或等于n的正整数,n为第一凭证的总数。
其次,分别基于第一凭证对应的逾期天数、逾期期数占比和逾期金额占比,对n个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果:
下面以基于第一凭证对应的逾期天数对n个第一凭证进行聚类为例,进行说明:
(1)、获取聚类簇数x,x表征每个第一聚类结果中包含的簇的个数,或聚类个数;实际应用中,x的初始值为2;
(2)、基于公式
Figure BDA0003237055380000181
计算出每个簇心对应的排序序号;Vsize表征第一凭证的总数。
(3)、将数组VD=[VD(1),VD(2),…,VD(n)]按照从小到大排序后得到sort(VD),从sort(VD)中分别取出第cj
Figure BDA0003237055380000182
作为第j个簇的簇心对应的逾期天数,并依次将提取出的逾期天数写入数组C=[C1,C2,…,Cj,…Cx]。
(4)、初始化x个数组Y1,Y2,…,Yj,…,Yx,用来存放聚类结果中每个簇中的第一凭证对应的逾期天数,其中,Yj表示第j个簇的逾期天数集合;j为小于或等于x的正整数。
(5)、遍历数组VD中的所有元素,对于遍历到的元素VD(i),分别计算VD(i)与数组C中各个元素值之间的第一差值。
为了扩大各第一凭证与各簇心之间的第一差值,从而加快聚类速度,提高聚类效率,通过公式OVi-j=(VD(i) 2-Cj 2)2计算出第一差值。
(6)、在计算出VD(i)与数组C中各个元素值之间的第一差值的情况下,取出最小的第一差值min(OVi-j),VD(i)属于min(OVi-j)对应的Cj,将VD(i)存入min(OVi-j)对应的Cj所属的簇对应的数组Yj,将VD(i)对应的第一凭证添加至Cj所属的簇,从而完成对VD(i)对应的第一凭证进行分类。
(7)、对数组VD中的所有元素对应的第一凭证分类完成后,利用公式
Figure BDA0003237055380000191
分别计算数组Y1,Y2,…,Yj,…,Yx的第一均值,其中,sum(Yj)表征对所有数组Yj中的所有元素求和;Yj.size表征数组Yj中包含的元素的总数,将计算出的各均值存入第一均值数组NC,NC=[NC1,…,NCj,…,NCx];其中,NCj表征第j个簇对应的第一均值。
(8)、基于数组C和数组NC,利用公式Cabs(j)=abs(Cj-NCj)计算出每个簇对应的绝对差值,以及基于公式
Figure BDA0003237055380000192
计算出收敛阈值,Cth表征收敛阈值;max(VD)表征数组VD中的最大值,min(VD)表征数组VD中的最小值,Gn.size表示风险值数组Gn中包含的元素的总数。
(9)基于Cabs(j)和Cth,判断本轮聚类是否收敛。
(10)、当Cabs(i)>Cth时,表征此次聚类未收敛,将数组NC作为新的数组C,再次执行(4)到(9)。
(11)、当所有Cabs(i)>Cth时,基于x和Gn.size,以及基于Tavg和Cth,判断是否还需要增大x。
其中,
Figure BDA0003237055380000193
Tavg表征数组NC中每两个相邻的元素之间的差值的均值的绝对值。
在x<Gn.size,且Tavg≥Cth的情况下,表征本轮聚类未完成,需要增大x,执行(12);
在x≥Gn.size,或者Tavg<Cth的情况下,表征聚类已完成,执行(13);
(12)、计算出用于下一轮聚类的新的x,新的x=min(x+(Tavg-Cth)+1,Gn.size),基于计算出的新的x,执行(4)到(11),以对n个第一凭证进行下一轮聚类。
(13)、在聚类完成的情况下,得到逾期天数对应的第一聚类结果和最终的数组Y1,Y2,…,Yj,…,Yx;对最终得到的数组C中的元素,按照从小到大的顺序进行排序得到sort(C),将数组C中各元素对应的随机风险值按照从小到大的顺序进行排序,得到sort(Gn);将sort(Gn)中的第j个随机风险值作为第一风险值,赋值给sort(C)中的第j个元素对应的簇中的所有第一凭证,即,得到对应簇中第一凭证的第一风险值。
这里,可以将所有第一凭证对应的第一风险值写入第一风险值数组VC(D)
(14)、逾期期数占比和逾期金额占比的聚类过程,与逾期天数的聚类过程相同,针对逾期期数占比和逾期金额占比,按照上述(1)至(13)进行聚类,得到逾期期数占比对应的第一风险值数组VC(R)和逾期金额占比对应的第一风险值数组VC(O)
再次,对每个第一凭证在VC(D)、VC(R)和VC(O)中对应的第一风险值求均值,得到每个第一凭证对应的第二风险值;基于第一凭证对应的第二风险值对n个第一凭证进行聚类,得到第二聚类结果。
这里,通过公式
Figure BDA0003237055380000201
计算出每个第一凭证对应的第二风险值。VC(i)表征第i个第一凭证对应的第二风险值;VC(D)(i)表征第i个第一凭证在VC(D)中对应的第一风险值;VC(R)(i)表征第i个第一凭证在VC(R)中对应的第一风险值;VC(O)(i)表征第i个第一凭证在VC(O)中对应的第一风险值。
电子设备将所有第一凭证对应的第二风险值写入第二风险值数组VC,基于第二风险值数组VC对所有第一凭证进行聚类,聚类过程如下:
(1)、初始化聚类簇数X,X=max(YD.size,YR.size,YO.size);其中,YD.size表征逾期天数对应的最终的第一聚类结果中包含的总簇数;YR.size表征逾期期数占比对应的最终的第一聚类结果中包含的总簇数;YO.size表征逾期金额占比对应的最终的第一聚类结果中包含的总簇数。
(2)、基于公式
Figure BDA0003237055380000202
计算出每个簇心对应的排序序号。
(3)、按照从小到大的顺序对第二风险值数组VC中的元素进行排序,sort(VC),从sort(VC)中分别取出第cj
Figure BDA0003237055380000203
作为第j个簇的簇心对应的第二风险值,并依次将提取出的第二风险值写入数组C'=[C'1,C'2,…,C'j,…C'x]。
(4)初始化X个数组Y1,Y2,…,Yj,…,YX用来存放聚类结果中每个簇中的第一凭证对应的第二风险值。
(5)、遍历数组遍历第二风险值数组VC中的所有元素,对于遍历到的元素VC(i),分别计算VC(i)与数组C'中各个元素值之间的第一差值。
为了扩大各第一凭证与各簇心之间的第一差值,从而加快聚类速度,提高聚类效率,通过公式OVi-j=(VC(i) 2-C'j 2)2计算出第一差值。
(6)、在计算出VC(i)与数组C'中各个元素值之间的第一差值的情况下,取出最小的第一差值min(OVi-j),VC(i)属于min(OVi-j)对应的C'j,将VC(i)存入min(OVi-j)对应的C'j所属的簇对应的数组Yj,将VC(i)对应的第一凭证添加至C'j所属的簇,从而完成对VC(i)对应的第一凭证进行分类。
(7)、对第二风险值数组VC中的所有元素对应的第一凭证分类完成后,利用公式
Figure BDA0003237055380000211
分别计算数组Y1,Y2,…,Yj,…,YX的第一均值,其中,sum(Yj)表征对所有数组Yj中的所有元素求和;Yj.size表征数组Yj中包含的元素的总数,将计算出的各均值存入第一均值数组NC',NC'=[NC'1,…,NC'j,…,NC'X];其中,NC'j表征第j个簇对应的第一均值。
(8)、基于数组C'和数组NC',利用公式C'abs(j)=abs(C'j-NC'j)计算出每个簇对应的绝对差值,以及基于公式
Figure BDA0003237055380000212
计算出收敛阈值,C'th表征收敛阈值;max(VC)表征第二风险值数组VC中的最大值,min(VC)表征第二风险值数组VC中的最小值。
(9)、基于C'abs(j)和C'th,判断本轮聚类是否收敛。
(10)、当C'abs(j)>C'th时,表征此次聚类未收敛,将数组NC'作为新的数组C',再次执行(4)到(9)。
(11)、当所有C'abs(j)>C'th时,表征此次聚类已收敛,得到最终的数组Y1,Y2,…,Yj,…,YX和最终的第二聚类结果;对最终得到的数组C'中的元素,按照从小到大的顺序进行排序,得到sort(C'),将数组C'中各元素对应的随机风险值按照从小到大的顺序进行排序,得到sort(Gn');将sort(Gn')中的第j个随机风险值作为最终的第二风险值,赋值给sort(C')中的第j个元素对应的簇中的所有第一凭证。
其中,在第二聚类结果中,每个数组Yj对应一个簇。
最后,基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。
为实现本发明实施例的方法,本发明实施例还提供了一种电子设备,如图5所示,该电子设备包括:
第一聚类单元51,用于分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;
计算单元52,用于对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;
第二聚类单元53,用于基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;
分类单元54,用于基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。
在一些实施例中,第一聚类单元51和第二聚类单元53在对多个第一凭证进行聚类时,具体用于:
基于聚类簇数和第一凭证的总数,计算出每个簇心对应的排序序号;
基于每个簇心对应的排序序号,在按照第一数值进行排序后的第一凭证中确定出所有簇心;所述第一数值包括设定因子的值或第二风险值;
计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值;
将第一凭证添加至最小的第一差值对应的簇心所处的簇。
其中,第一聚类单元51执行上述步骤时,第一数值包括设定因子的值;第二聚类单元53执行上述步骤时,第一数值包括第二风险值。
在一些实施例中,第一聚类单元51和第二聚类单元53具体用于:
将第一凭证对应的第一数值的平方与簇心对应的第一数值的平方之差的平方,确定为第一差值。
在一些实施例中,在将所有第一凭证添加至对应簇之后,第一聚类单元51和第二聚类单元53还用于:
计算出收敛阈值和每个簇对应的绝对差值;其中,绝对差值表征对应簇的簇心对应的第一数值与对应的第一均值之差的绝对值;第一均值表征对应簇中所有第一凭证对应的第一数值的均值;收敛阈值表征第二差值与随机风险值的总个数之商;第二差值表征最大第一数值与最小第一数值之差;
在计算出的绝对差值大于所述收敛阈值的情况下,基于每个簇对应的第一均值确定出对应簇的新簇心,执行所述计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值以及后续步骤;或者
在计算出的所有绝对差值小于或等于所述收敛阈值的情况下,不对所述多个第一凭证重新聚类。
在一些实施例中,第一聚类单元51和第二聚类单元53具体还用于:
在聚类簇数小于所有第一凭证对应的随机风险值的总个数,且第二均值大于或等于所述收敛阈值的情况下,将第二数值和所述随机风险值的总个数中的最小值,确定为新的聚类簇数,并基于新的聚类簇数和每个第一凭证对应的第一数值,对所述多个第一凭证重新进行聚类;其中,
所述第二均值表征第一均值数组中每两个相邻的第一均值的差值的均值的绝对值;第二数值由聚类簇数以及第二均值与所述收敛阈值之差确定出。
在一些实施例中,第一聚类单元51和第二聚类单元53还用于:
在所述聚类簇数大于或等于所述随机风险值的总个数,或所述第二均值小于所述收敛阈值的情况下,结束聚类,按照第一排序方式,分别对所有簇心对应的第一数值和随机风险值进行排序;
将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第一数值对应的簇心;
将赋值给每个簇心的随机风险值,确定为对应簇中每个第一凭证对应的风险值。
在一些实施例中,该电子设备还包括:
生成单元,用于通过设定的随机数函数生成每个第一凭证对应的随机风险值;
确定单元,用于通过多个线程分别确定出具有相同随机风险值的第一凭证对应的设定因子的值。
在一些实施例中,所述第一凭证表征设定分期业务的凭证;设定因子包括以下至少两个:
逾期天数;
第一比例,表征逾期期数与总期数之商;
第二比例,表征逾期资源份额与总资源份额之商。
实际应用时,第一聚类单元51、计算单元52、第二聚类单元53、分类单元54、生成单元和确定单元可由电子设备中的处理器,比如中央处理器(CPU,Central ProcessingUnit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)等实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是:上述实施例提供的电子设备在进行群体分类时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的电子设备与群体分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的群体分类方法,本发明实施例还提供了一种电子设备。图6为本发明实施例提供的电子设备的硬件组成结构示意图,如图6所示,电子设备6包括:
通信接口61,能够与其它设备比如网络设备等进行信息交互;
处理器62,与所述通信接口61连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的群体分类方法。而所述计算机程序存储在存储器63上。
当然,实际应用时,电子设备6中的各个组件通过总线系统64耦合在一起。可理解,总线系统64用于实现这些组件之间的连接通信。总线系统64除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统64。
本发明实施例中的存储器63用于存储各种类型的数据以支持电子设备6的操作。这些数据的示例包括:用于在电子设备6上操作的任何计算机程序。
可以理解,存储器63可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器63旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器62中,或者由处理器62实现。处理器62可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器62中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器62可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器62可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器63,处理器62读取存储器63中的程序,结合其硬件完成前述方法的步骤。
可选地,所述处理器62执行所述程序时实现本发明实施例的各个方法中由终端实现的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的第一存储器63,上述计算机程序可由终端的处理器62执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
需要说明的是,本发明实施例中的术语“至少两个”表示多种中的至少两种的任意组合,例如,包括A、B、C中的至少两个,可以表示包括从A、B和C构成的集合中选择的任意两个或多个元素。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种群体分类方法,其特征在于,包括:
分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;
对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;
基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;
基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。
2.根据权利要求1所述的方法,其特征在于,在对多个第一凭证进行聚类时,所述方法包括:
基于聚类簇数和第一凭证的总数,计算出每个簇心对应的排序序号;
基于每个簇心对应的排序序号,在按照第一数值进行排序后的第一凭证中确定出所有簇心;所述第一数值包括设定因子的值或第二风险值;
计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值;
将第一凭证添加至最小的第一差值对应的簇心所处的簇。
3.根据权利要求2所述的方法,其特征在于,在所述计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值时,所述方法包括:
将第一凭证对应的第一数值的平方与簇心对应的第一数值的平方之差的平方,确定为第一差值。
4.根据权利要求2所述的方法,其特征在于,在将所有第一凭证添加至对应簇之后,所述方法还包括:
计算出收敛阈值和每个簇对应的绝对差值;其中,绝对差值表征对应簇的簇心对应的第一数值与对应的第一均值之差的绝对值;第一均值表征对应簇中所有第一凭证对应的第一数值的均值;收敛阈值表征第二差值与随机风险值的总个数之商;第二差值表征最大第一数值与最小第一数值之差;
在计算出的绝对差值大于所述收敛阈值的情况下,基于每个簇对应的第一均值确定出对应簇的新簇心,执行所述计算出第一凭证对应的第一数值与每个簇心对应的第一数值之间的第一差值以及后续步骤;或者
在计算出的所有绝对差值小于或等于所述收敛阈值的情况下,不对所述多个第一凭证重新聚类。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在聚类簇数小于所有第一凭证对应的随机风险值的总个数,且第二均值大于或等于所述收敛阈值的情况下,将第二数值和所述随机风险值的总个数中的最小值,确定为新的聚类簇数,并基于新的聚类簇数和每个第一凭证对应的第一数值,对所述多个第一凭证重新进行聚类;其中,
所述第二均值表征第一均值数组中每两个相邻的第一均值的差值的均值的绝对值;第二数值由聚类簇数以及第二均值与所述收敛阈值之差确定出。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述聚类簇数大于或等于所述随机风险值的总个数,或所述第二均值小于所述收敛阈值的情况下,结束聚类,按照第一排序方式,分别对所有簇心对应的第一数值和随机风险值进行排序;
将排序后的随机风险值中的每个随机风险值,赋值给处于对应排序序号的第一数值对应的簇心;
将赋值给每个簇心的随机风险值,确定为对应簇中每个第一凭证对应的风险值。
7.根据权利要求1至6任一项所述的方法,其特征在于,在所述分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对第一凭证进行聚类之前,所述方法还包括:
通过设定的随机数函数生成每个第一凭证对应的随机风险值;
通过多个线程分别确定出具有相同随机风险值的第一凭证对应的设定因子的值。
8.根据权利要求1所述的方法,其特征在于,所述第一凭证表征设定分期业务的凭证;设定因子包括以下至少两个:
逾期天数;
第一比例,表征逾期期数与总期数之商;
第二比例,表征逾期资源份额与总资源份额之商。
9.一种电子设备,其特征在于,包括:
第一聚类单元,用于分别基于第一凭证对应的至少两个设定因子中每个设定因子的值,对多个第一凭证进行聚类,得到每个设定因子对应的第一聚类结果;
计算单元,用于对每个第一凭证在每个第一聚类结果中对应的第一风险值进行加权求和,得到每个第一凭证对应的第二风险值;第一风险值表征第一凭证在对应的第一聚类结果中所处的簇的簇心对应的随机风险值;
第二聚类单元,用于基于第一凭证对应的第二风险值对所述多个第一凭证进行聚类,得到第二聚类结果;
分类单元,用于基于所述第二聚类结果和第一凭证对应的用户,输出群体分类结果。
10.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至8任一项所述的方法的步骤。
CN202111005608.XA 2021-08-30 2021-08-30 群体分类方法及电子设备 Pending CN113743493A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005608.XA CN113743493A (zh) 2021-08-30 2021-08-30 群体分类方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005608.XA CN113743493A (zh) 2021-08-30 2021-08-30 群体分类方法及电子设备

Publications (1)

Publication Number Publication Date
CN113743493A true CN113743493A (zh) 2021-12-03

Family

ID=78733914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005608.XA Pending CN113743493A (zh) 2021-08-30 2021-08-30 群体分类方法及电子设备

Country Status (1)

Country Link
CN (1) CN113743493A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463572A (zh) * 2022-03-01 2022-05-10 智慧足迹数据科技有限公司 区域聚类方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463572A (zh) * 2022-03-01 2022-05-10 智慧足迹数据科技有限公司 区域聚类方法及相关装置

Similar Documents

Publication Publication Date Title
CN109063769B (zh) 基于变异系数自动确认簇数量的聚类方法、系统及介质
CN111080442A (zh) 信用评分模型的构建方法、装置、设备及存储介质
CN113342750A (zh) 一种文件的数据比对方法、装置、设备及存储介质
CN110728526A (zh) 地址识别方法、设备以及计算机可读介质
CN111798047A (zh) 风控预测方法、装置、电子设备及存储介质
CN111061624A (zh) 策略执行效果确定方法、装置、电子设备及存储介质
US11334799B2 (en) System and method for ordinal classification using a risk-based weighted information gain measure
CN113743493A (zh) 群体分类方法及电子设备
CN108833592A (zh) 云主机调度器优化方法、装置、设备及存储介质
CN111784246B (zh) 物流路径的估测方法
CN115049446A (zh) 商户识别方法、装置、电子设备及计算机可读介质
CN113052666A (zh) 理财产品推荐方法及装置
CN117349023A (zh) 应用部署方法、设备及存储介质
CN115544257B (zh) 网盘文档快速分类方法、装置、网盘及存储介质
CN111859057A (zh) 数据特征处理方法及数据特征处理装置
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
CN115982634A (zh) 应用程序分类方法、装置、电子设备及计算机程序产品
CN114936187A (zh) 数据文件的处理方法、装置、设备及存储介质
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN113408724A (zh) 模型压缩方法及装置
CN113297337B (zh) 一种特征维度的选择方法、装置、介质及电子设备
WO2024148890A1 (zh) 软件修复方法、模板信息生成方法、计算设备和存储介质
CN110705642B (zh) 分类模型、方法、装置、电子设备及存储介质
CN112184275B (zh) 人群细分方法、装置、设备及存储介质
CN118133924A (zh) 用于卷积网络均衡量化的方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination