CN110245879A - 一种风险评级方法及装置 - Google Patents

一种风险评级方法及装置 Download PDF

Info

Publication number
CN110245879A
CN110245879A CN201910590901.3A CN201910590901A CN110245879A CN 110245879 A CN110245879 A CN 110245879A CN 201910590901 A CN201910590901 A CN 201910590901A CN 110245879 A CN110245879 A CN 110245879A
Authority
CN
China
Prior art keywords
data
customer
historic
feature point
point set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910590901.3A
Other languages
English (en)
Inventor
郭会
孙琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN201910590901.3A priority Critical patent/CN110245879A/zh
Publication of CN110245879A publication Critical patent/CN110245879A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种风险评级方法及装置,该方法中,通过对多个历史客户的数据进行特征提取,建立历史客户的特征点集,对目标客户的数据进行同样的特征提取,建立目标客户的特征点集,计算目标客户的特征点集与多个历史客户的特征点集之间的距离,找到与目标客户的特征点集距离最近的K个特征点集对应的K个历史客户,基于该K个历史客户的评级数据得到目标客户的风险评级。在进行目标客户的风险评级时,先找到与目标客户在预设特征方面具有强相关性的历史客户,利用这些历史客户的已审核评级数据确定目标客户的评级数据,充分考虑了客户之间的相关性,实现了准确的风险评级。

Description

一种风险评级方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种风险评级方法及装置。
背景技术
风险评级指的是银行对客户进行风险等级划分,风险等级反映的是客户风险的高低,一般包括高中低三个等级。对于高风险客户银行应采取相应交易限制措施和管理措施,以预防洗钱和恐怖融资活动。
能否准确地对客户进行风险评级对银行来说非常重要,如果将低风险客户误评为高风险客户,对该客户的交易限制和管理会给该客户造成很多不便,影响客户的体验;而如果将高风险客户无评为低风险客户,银行将不能防范洗钱风险。
因此,如何准确地对客户进行风险评级已经成为了亟需解决的问题。
发明内容
有鉴于此,本申请提供了一种风险评级方法及装置,以实现准确的风险评级。
为实现上述目的,一方面,本申请提供了一种风险评级方法,所述方法包括:
获取目标客户的客户信息、合约信息和交易信息;
从所述目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,形成所述目标客户的特征点集;所述特征点集中的各特征值按照预定顺序排列;
分别计算所述目标客户的特征点集与预先建立的每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前K个距离对应的K个历史客户;所述K为正整数;
依据所述K个历史客户的已审核评级数据,确定所述目标客户的风险评级。
在一种可能的实现方式中,所述从所述目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,包括:
从所述客户信息中提取年龄、地址和职业的特征值;
从所述合约信息中提取合约开立关闭时间、合约信息最近更新日距上一个更新日时间、合约余额和合约近预设时间段内的交易对手个数的特征值;
从所述交易信息中提取近预设时间段内的交易笔数、最近一笔交易金额、近预设时间段内的交易平均金额、最近一笔非线上交易地点和最近预设笔非线上交易地点最远距离的特征值。
在一种可能的实现方式中,所述历史客户的特征点集按照以下步骤建立:
从大数据平台获取客户数据、合约数据、交易数据和已审核评级数据;
去除所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据;
从去除重复数据和噪声数据之后的数据中提取出预设特征的特征值;
针对每个所述已审核评级数据对应的历史客户,统计属于所述历史客户的特征值,并按照预设顺序排列所述属于所述历史客户的各特征值,得到所述历史客户的特征点集。
在一种可能的实现方式中,所述K为按照如下步骤确定的最优值:
选取建立的多个历史客户的特征点集中的第一部分历史客户的特征点集作为训练集,第二部分历史客户的特征点集作为测试集;
按照设定的参数取值范围,依次取出一个参数值;所述参数值为正整数;
基于每次取出的参数值和所述训练集确定所述测试集中各个历史客户的风险评级,并基于所述测试集中各个历史客户的已审核风险评级和确定出的各个历史客户的风险评级计算风险评级的准确率;
将准确率最高时采用的参数值作为最优值;
其中,基于取出的参数值和所述训练集确定测试集中每个历史客户的风险评级的过程包括:
分别计算该历史客户的特征点集与所述训练集中每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前预设数量个距离对应的预设数量个历史客户;所述预设数量为所述参数值;依据确定出的所述预设数量个历史客户的已审核评级数据,确定该历史客户的风险评级。
在一种可能的实现方式中,所述得到每个历史客户的特征点集之后,还包括:
对得到的所述每个历史客户的特征点集中各个特征值进行特征规范化处理;
所述得到所述目标客户的特征点集之后,还包括:
对得到的所述目标客户的特征点集中各个特征值进行特征规范化处理。
在一种可能的实现方式中,所述去除所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据,包括:
将所述客户数据、合约数据、交易数据和已审核评级数据加载至分布式文件系统;以触发所述分布式文件系统利用分布式计算框架按照预设规则去除所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据。
在一种可能的实现方式中,所述依据所述K个历史客户的已审核评级数据,确定所述目标客户的风险评级包括:
确定所述K个历史客户的已审核评级数据中数量最多的风险评级;
将所述数量最多的风险评级作为所述目标客户的风险评级。
在一种可能的实现方式中,所述确定所述目标客户的风险评级之后还包括:
根据所述目标客户特征点集和风险评级更新多个所述历史客户的特征点集和已审核评级数据形成的集合。
又一方面,本申请还提供了一种风险评级装置,所述装置包括:
信息获取单元,用于获取目标客户的客户信息、合约信息和交易信息;
特征提取单元,用于从所述信息获取单元获取的所述目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,形成所述目标客户的特征点集;所述特征点集中的各特征值按照预定顺序排列;
距离计算单元,用于分别计算所述特征提取单元得到的所述目标客户的特征点集与预先建立的每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前K个距离对应的K个历史客户;所述K为正整数;
风险评级单元,用于依据所述距离计算单元确定的所述K个历史客户的已审核评级数据,确定所述目标客户的风险评级。
在一种可能的实现方式中,所述装置还包括:建立单元:用于建立历史客户的特征点集;
所述建立单元包括:
数据获取子单元,用于从大数据平台获取客户数据、合约数据、交易数据和已审核评级数据;
去重子单元,用于去除数据获取子单元获取的所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据;
特征提取子单元,用于从所述去重子单元得到的去除重复数据和噪声数据之后的数据中提取出预设特征的特征值;
汇总子单元,用于针对每个所述已审核评级数据对应的历史客户,统计属于所述历史客户的特征值,并按照预设顺序排列所述属于所述历史客户的各特征值,得到所述历史客户的特征点集。
可见,在本申请实施例中,通过对多个历史客户的数据进行特征提取,建立历史客户的特征点集,对目标客户的数据进行同样的特征提取,建立目标客户的特征点集,计算目标客户的特征点集与多个历史客户的特征点集之间的距离,找到与目标客户的特征点集距离最近的K个特征点集对应的K个历史客户,基于该K个历史客户的评级数据得到目标客户的风险评级。在进行目标客户的风险评级时,先找到与目标客户在预设特征方面具有强相关性的历史客户,利用这些历史客户的已审核评级数据确定目标客户的评级数据,充分考虑了客户之间的相关性,实现了准确的风险评级。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例中风险评级方法一个实施例的流程示意图;
图2示出了本申请实施例中建立历史客户的特征点集的流程示意图;
图3示出了本申请实施例中去除重复数据和噪声数据的一种实现流程;
图4示出了本申请实施例中确定K的最优值的流程示意图;
图5示出了本申请实施例中风险评级方法又一个实施例的流程示意图;
图6示出了本申请实施例中风险评级装置的一种组成示意图。
具体实施方式
本申请实施例的风险评级方法及装置适用于银行对其客户进行风险评级,以实现准确的风险评级。
目前,在进行风险评级时,是通过对每个目标客户的数据进行数据挖掘分析来实现的,这个过程往往会采用一些运算量非常大,运算过程非常复杂的算法,来对目标客户的数据进行深入的处理,以提升分析结果的准确性。
然而,发明人在研究中发现,银行中客户都不是独立的个体,客户之间通常是具有相关性的,进一步发现,客户的风险评级也不单单与客户自身的数据相关,还会受到其他客户的数据的影响。如,甲客户是一个高风险客户,他经常与乙客户进行交易,乙客户又经常与丙客户进行高频大额交易。若不考虑客户之间的相关性,则丙客户可能被划分为低风险客户,但实际上丙客户具有很高的风险。再如,与甲客户具有亲属关系的乙客户是一个高风险客户,甲客户与乙客户经常进行交易,若不考虑客户之间的相关性,则甲客户可能被划分为低风险客户,但实际上甲客户具有很高的风险。
在了解到上述关联后,本申请的发明人想到,可以先找出与目标客户具有紧密关联的历史客户,然后利用这些历史客户的经过审核的评级数据来对目标客户进行风险评级,从而提升风险评级的准确性。
那么,在利用历史客户的经过审核的评级数据来对目标客户进行风险评级时,如何能够充分利用目标客户与历史客户之间的相关性呢?本申请的发明人进一步研究发现,邻近算法是以“物以类聚”的思想形成的机器学习算法,其形成思想与上述利用客户之间的相似性进行风险评级的思想不谋而合,而且该算法还能够充分利用样本特征之间的相关性。基于此,本申请提出了通过对多个历史客户的数据进行特征提取,建立历史客户的特征点集,对目标客户的数据进行同样的特征提取,建立目标客户的特征点集,计算目标客户的特征点集与多个历史客户的特征点集之间的距离,找到与目标客户的特征点集距离最近的K个特征点集对应的K个历史客户,基于该K个历史客户的评级数据得到目标客户的风险评级。在进行目标客户的风险评级时,先找到与目标客户在预设特征方面具有强相关性的历史客户,利用这些历史客户的已审核评级数据确定目标客户的评级数据,充分考虑了客户之间的相关性,实现了准确的风险评级。
下面结合附图对本申请提供的风险评级方法及装置进行具体介绍。
首先结合流程图对本申请实施例中风险评级方法进行介绍。如,参见图1,其示出了本申请一种风险评级方法一个实施例的流程,本实施例的方法可以包括:
S101,获取目标客户的客户信息、合约信息和交易信息。
S102,从目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,形成目标客户的特征点集,该特征点集中的各特征值按照预定顺序排列。
其中,客户的特征可以从客户的客户信息、合约信息和交易信息这三类信息中提取,在具体实施时提取哪些特征可以根据需要进行预先设置。优选地,预设特征包括:年龄、地址、职业、合约开立关闭时间、合约信息最近更新日距上一个更新日时间、合约余额、合约近预设时间段内的交易对手个数、近预设时间段内的交易笔数、最近一笔交易金额、近预设时间段内的交易平均金额、最近一笔非线上交易地点和最近预设笔非线上交易地点最远距离。
每个特征都具有特征值,如客户的年龄为20岁,特征“年龄”的特征值可以为“20”;又如客户的职业为律师,特征“职业”的特征值可以为职业分类中律师对应的编码值“1”。
特征点集是通过对提取出的各特征值按照预设顺序排列形成的一个序列,可以用向量或集合的形式表示。例如年龄为20岁、职业为律师的客户的特征点集可以表示为(20、1),该特征点集包括“年龄”和“职业”这两个特征,预设顺序为:年龄、职业,“20”为“年龄”特征的特征值,“1”为“职业”特征的特征值。
S103,分别计算目标客户的特征点集与预先建立的每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前K个距离对应的K个历史客户;所述K为正整数。
可以理解的是,特征点集之间的距离远近能够反映出客户在预设特征方面的相似度,特征点集之间的距离越近,代表两个客户在预设特征方面越相似。
其中,特征点集之间的距离可以是欧式距离,还可以是马氏距离,还可以是其他距离。不同的距离采用不同的计算方式计算,如,欧式距离可以采用如下计算公式计算。
其中,Distance为两个客户的特征点集{x1、y1}和{x2、y2}之间的距离,x1、x2分别为两个用户的特征x对应的特征值,y1、y2分别为两个用户的特征y对应的特征值。
S104,依据K个历史客户的评级数据,确定目标客户的风险评级。
其中,依据K个历史客户的评级数据确定目标客户的风险评级可以有多种实现方式,如,可以按照多数原则实现,将K个历史客户的已审核评级数据中数量最多的风险评级作为目标客户的风险评级;还可以按照距离加权方式实现,为每个距离对应的历史客户的已审核评级数据分配权值,通过加权平均的方式计算风险评级。
在本申请实施例中,通过对多个历史客户的数据进行特征提取,建立历史客户的特征点集,对目标客户的数据进行同样的特征提取,建立目标客户的特征点集,计算目标客户的特征点集与多个历史客户的特征点集之间的距离,找到与目标客户的特征点集距离最近的K个特征点集对应的K个历史客户,基于该K个历史客户的评级数据得到目标客户的风险评级。在进行目标客户的风险评级时,先找到与目标客户在预设特征方面具有强相关性的历史客户,利用这些历史客户的已审核评级数据确定目标客户的评级数据,充分考虑了客户之间的相关性,实现了准确的风险评级。
上述实施例实现的前提是预先建立多个历史客户的特征点集。下面对本申请中建立历史客户的特征点集的方法进行介绍。如图2所示,其示出了本申请实施例中建立历史客户的特征点集的流程,包括:
S201,从大数据平台获取客户数据、合约数据、交易数据和已审核评级数据。
其中,客户数据包括国籍、出生年月、地址、行业、收入、身份(职位)、性别等基础信息;合约数据包括客户在银行建立的合约信息(如银行卡、金融产品等);交易数据包括一段时间内(如一年)的所有交易数据,既包括金融性动账交易,也要包括查询交易、登陆交易、合约开立关闭交易等;已审核评级数据是经业务规则预警并经业务人员手工确认后的评级数据,包括评级结果数据还包括预警数据、评级过程数据、纠正数据等。
S202,去除客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据。
从大数据平台获取的客户数据、合约数据、交易数据和已审核评级数据的数据量非常大,为了加快数据处理的速度,可以利用分布式文件系统对数据进行处理。如,将客户数据、合约数据、交易数据和已审核的评级数据加载至分布式文件系统;以触发分布式文件系统利用分布式计算框架按照预设规则去除所述客户数据、合约数据、交易数据和评级数据中的重复数据和噪声数据。
优选地,分布式文件系统利用的分布式计算框架可以是MapReduce。进行去重和去噪处理时,可以分两次进行去除,第一次去除时,在Map阶段将与其他数据无相关性的数据中需去除数据进行标记,在Reduce阶段仅输出未标记数据;第二次去除时,需进行多类数据关联,排除无客户合约、无客户交易、无合约交易、无客户的评级信息等。图3示出了利用MapReduce进行第二次去除的实现流程。
在去除噪声数据和重复数据过程中,交易数据相对客户数据、合约数据而言数据量较大,为了进一步加快数据处理速度,在具体实施时,可以按照会计日期分多批次MapReduce方式。
可以理解的是,对各类数据而言,去除重复数据和噪声数据的规则是不同的。对客户数据(Data_Cust)而言,需去除长期不动户、睡眠户等非有效客户;需去除按照法律法规已可明确风险认定的客户(如国家机关单位为低风险客户,恐怖组织为高风险客户);对“一户多ID”(即同一个客户有多个客户ID)等因银行自身管控不严原因造成的非正常客户数据进行归并。对合约数据(Data_Cont)而言,需去除无客户关联性合约;去除按法律法规已明确可排除在风险认定的合约(如银行间交易、银行内部交易等)。这里特别要说明的是,时间范围内的已注销合约、失效合约不应被去除,尤其是短期内开立后又关闭合约,更应成为重点。对交易数据(Data_Trans)而言,需去除手续费、利息、扣税等交易数据,需将核心系统(账务)数据与渠道数据进行拼接,补充交易数据上的渠道、机具、IP地址、位置等信息;在账户数据以外,还要增加登陆交易系统、退出交易系统、合约信息更新等相关非账务交易信息。对客户评级数据(Data_Credit)而言,获取评级数据主档信息,并拼接评级过程信息、业务判断纠正信息等,对于已在客户数据(Data_Cust)中进行去除的数据,同步在评级数据中进行去除。
S203,从去除重复数据和噪声数据之后的数据中提取出预设特征的特征值。
需要说明的是,这里的预设特征与形成目标客户的特征点集时的预设特征是相同的。
S204,针对每个已审核评级数据对应的历史客户,统计属于该历史客户的特征值,并按照预设顺序排列属于该历史客户的各特征值,得到该历史客户的特征点集。
优选地,为了确保风险评级结果的准确性,可以对多个历史客户的特征点集以及各个历史客户的已审核评级数据形成的集合进行更新优化,如在确定出目标客户的风险评级之后,根据目标客户的特征点集和风险评级更新多个历史客户的特征点集和已审核评级数据形成的集合,具体可以是将目标客户的特征点集和风险评级增加到该集合中,还可以是用目标客户的特征点集和风险评级替换集合中建立时间较早的历史客户的特征点集和已审核评级数据。
上述实施例中,K的取值是影响确定评级数据准确性的关键参数,为了提高确定评级数据的准确性,需要预先确定出一个K的最优值。K的最优值可以由经验丰富的专家人工确定,还可以通过训练集和测试集交叉验证的方式确定。下面对通过训练集和测试集交叉验证的方式确定K的最优值的方法进行详细介绍。如,参见图4,其示出了本申请实施例中确定K的最优值的流程,包括:
S401,选取建立的多个历史客户的特征点集中的第一部分历史客户的特征点集作为训练集,第二部分历史客户的特征点集作为测试集。
优选地,按照90%、10%的比例选取训练集、测试集,即将90%个历史客户的特征点集作为训练集,将剩余10%个历史客户的特征点集作为测试集。
S402,按照设定的参数取值范围,依次取出一个参数值;
其中,参数值为正整数。
S403,基于每次取出的参数值和训练集确定测试集中各个历史客户的风险评级,并基于测试集中各个历史客户的已审核风险评级和确定出的各个历史客户的风险评级计算风险评级的准确率。
优选地,参数取值范围可以为3~10。
其中,基于取出的参数值和训练集确定测试集中每个历史客户的风险评级的过程包括:
分别计算测试集中该历史客户的特征点集与训练集中每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前预设数量个距离对应的预设数量个历史客户;预设数量为取出的参数值;
依据确定出的预设数量个历史客户的已审核评级数据,确定该历史客户的风险评级。
其中,基于测试集中各个历史客户的已审核风险评级和确定出的各个历史客户的风险评级计算风险评级的准确率,可以包括:判断确定出的历史客户的风险评级与该历史客户的已审核风险评级是否一致,如果一致,则认为该历史客户的风险评级结果为正确;统计风险评级结果为正确的历史客户的数量,将风险评级结果正确的历史客户的数量除以历史客户的总数量,即可得到风险评级的准确率。
S404,将准确率最高时采用的参数值作为K的最优值。
如图5,其示出了本申请一种风险评级方法又一个实施例的流程,本实施例的方法可以包括:
S501、从大数据平台获取客户数据、合约数据、交易数据和已审核评级数据;
S502,去除客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据。
S503,从去除重复数据和噪声数据之后的数据中提取出年龄、地址、职业、合约开立关闭时间、合约信息最近更新日距上一个更新日时间、合约余额、合约近预设时间段内的交易对手个数、近预设时间段内的交易笔数、最近一笔交易金额、近预设时间段内的交易平均金额、最近一笔非线上交易地点和最近预设笔非线上交易地点最远距离的特征值。
S504,针对每个已审核评级数据对应的历史客户,统计属于该历史客户的特征值;并按照预设顺序排列属于该历史客户的特征值,得到该历史客户的特征点集。
S505,对每个历史客户的特征点集中的各个特征点进行特征规范化处理,得到特征规范化处理后的特征点集。
为了方便后续数据的处理以及加快处理速度,在获得特征点之后,可以对特征点进行特征规范化处理。优选地,可以利用最小值-最大值标准化的方法进行特征规范化处理。其中,最小值-最大化标准化方法是指对原始数据的线性变换,使结果值映射到[0-1]之间,转换函数如下:
其中,x为数据值,max为数据值的最大值,min为数据值的最小值;X*为转换后的结果值。
另外,考虑到银行业务的特点,在特征规范化处理时还需要对每个特征设置数据阈值,对于超过阈值的数据归为最大值。如对于零售型交易而言,交易金额大于5万被称为大额交易,并已进入相关监测之中,可根据业务要求,将大于5万的交易金额统一规范为1。在具体实施时,可以按照如下公式进行特征规范化处理:
其中,max为特征的最大值,min为特征的最小值,XT为特征的数据阈值,x为特征的特征值,X*为特征规范化处理后的特征值。
在完成特征规范化处理之后,可抽取样本数据绘制散点图矩阵对数据进行观察,若发现异常值、特殊值,则修正特征的数据阈值,直到符合数据要求。
可以理解的是,得到特征值之后,就可以执行特征规范化处理,因此,特征规范化处理的步骤可以在S503之后执行,也可以在S504之后执行,本申请对S505的执行顺序不做限制。
S501~S505是建立多个历史客户的特征点集的步骤,在首次采用本申请实施例技术方案进行目标客户的风险评级时,或者在进行目标客户的风险评级之前,需要建立多个历史客户的特征点集。
建立多个历史客户的特征点集之后,采用以下步骤即可实现确定目标客户的风险评级:
S506,获取目标客户的客户信息、合约信息和交易信息。
S507,从客户信息中提取年龄、地址和职业的特征值;从合约信息中提取合约开立关闭时间、约信息最近更新日距上一个更新日时间、合约余额和合约近预设时间段内的交易对手个数的特征值;从交易信息中提取近预设时间段内的交易笔数、最近一笔交易金额、近预设时间段内的交易平均金额、最近一笔非线上交易地点和最近预设笔非线上交易地点最远距离的特征值,形成该目标客户的特征点集;特征点集中的各特征值按照预定顺序排列。
可以理解的是,目标客户的特征点集中包括的特征以及特征顺序与历史客户的特征点集中包括的特征以及特征顺序是完全相同的。
S508,对得到的目标客户的特征点集中的各个特征点进行特征规范化处理,得到特征规范化处理之后的特征点集。
可以理解的是,针对目标客户的特征点的特征规范化处理与针对历史客户的特征点的特征规范化处理方法是完全相同的,具体方法请参考S405的介绍,此处不再赘述。
S509,分别计算目标客户的特征点集与预先建立的每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前K个距离对应的K个历史客户。
其中,K为正整数。
S510,确定K个历史客户的评级数据中数量最多的评级,将数量最多的评级作为目标客户的风险评级。
S511,若确定出目标客户的风险评级为高风险,触发人工评级。
在确定出目标客户端的风险评级为高风险时,为了进一步提高风险评级的准确性,可以触发人工评级,进行二次评级。
对应本申请的一种风险评级方法,本申请还提供了一种风险评级装置。
如,参见图6,其示出了本申请一种风险评级装置的一个实施例的组成结构示意图,该装置可以包括:
信息获取单元601,用于获取目标客户的客户信息、合约信息和交易信息;
特征提取单元602,用于从所述信息获取单元601获取的所述目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,形成所述目标客户的特征点集;所述特征点集中的各特征值按照预定顺序排列;
距离计算单元603,用于分别计算所述特征提取单元602得到的所述目标客户的特征点集与预先建立的每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前K个距离对应的K个历史客户;所述K为正整数;
风险评级单元604,用于依据所述距离计算单元603确定的所述K个历史客户的已审核评级数据,确定所述目标客户的风险评级。
在一种可能的实现中,特征提取单元602,包括:
第一提取子单元,用于从所述客户信息中提取年龄、地址和职业的特征值;
第二提取子单元,用于从所述合约信息中提取合约开立关闭时间、合约信息最近更新日距上一个更新日时间、合约余额和合约近预设时间段内的交易对手个数的特征值;
第三提取子单元,用于从所述交易信息中提取近预设时间段内的交易笔数、最近一笔交易金额、近预设时间段内的交易平均金额、最近一笔非线上交易地点和最近预设笔非线上交易地点最远距离的特征值。
在一种可能的实现中,所述装置还包括:建立单元:用于建立历史客户的特征点集;
所述建立单元包括:
数据获取子单元,用于从大数据平台获取客户数据、合约数据、交易数据和已审核评级数据;
去重子单元,用于去除数据获取子单元获取的所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据;
特征提取子单元,用于从所述去重子单元得到的去除重复数据和噪声数据之后的数据中提取出预设特征的特征值;
汇总子单元,用于针对每个所述已审核评级数据对应的历史客户,统计属于所述历史客户的特征值,并按照预设顺序排列所述属于所述历史客户的各特征值,得到所述历史客户的特征点集。
在一种可能的实现中,所述装置还包括:K值确定单元,所述K值为最优值;
所述K值确定单元具体用于:
选取建立的多个历史客户的特征点集中的第一部分历史客户的特征点集作为训练集,第二部分历史客户的特征点集作为测试集;
按照设定的参数取值范围,依次取出一个参数值;
基于每次取出的参数值和所述训练集确定所述测试集中各个历史客户的风险评级,并基于所述测试集中各个历史客户的已审核风险评级和确定出的各个历史客户的风险评级计算风险评级的准确率;
将准确率最高时采用的参数值作为最优值;
其中,基于取出的参数值和所述训练集确定测试集中每个历史客户的风险评级的过程包括:
分别计算该历史客户的特征点集与所述训练集中每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前预设数量个距离对应的预设数量个历史客户;所述预设数量为所述参数值;依据确定出的所述预设数量个历史客户的已审核评级数据,确定该历史客户的风险评级。
在一种可能的实现中,所述装置还包括:特征规范化处理单元,用于在得到每个历史客户的特征点集之后,对得到的所述每个历史客户的特征点集中各个特征点进行特征规范化处理;还用于在得到所述目标客户的特征点集之后,对得到的所述目标客户的特征点集中各个特征点进行特征规范化处理。
在一种可能的实现中,所述去重子单元具体用于,将所述客户数据、合约数据、交易数据和已审核评级数据加载至分布式文件系统;以触发所述分布式文件系统利用分布式计算框架按照预设规则去除所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据。
在一种可能的实现中,所述风险评级单元604具体用于:确定所述K个历史客户的已审核评级数据中数量最多的风险评级;将所述数量最多的风险评级作为所述目标客户的风险评级。
在一种可能的实现中,所述装置还包括:更新单元,用于根据所述目标客户特征点集和风险评级更新多个所述历史客户的特征点集和已审核评级数据形成的集合。
另一方面,本申请还提供了一种存储介质,该存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现如上任意一个实施例中所描述的风险评级的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种风险评级方法,其特征在于,所述方法包括:
获取目标客户的客户信息、合约信息和交易信息;
从所述目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,形成所述目标客户的特征点集;所述特征点集中的各特征值按照预定顺序排列;
分别计算所述目标客户的特征点集与预先建立的每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前K个距离对应的K个历史客户;所述K为正整数;
依据所述K个历史客户的已审核评级数据,确定所述目标客户的风险评级。
2.如权利要求1所述的方法,其特征在于,
所述从所述目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,包括:
从所述客户信息中提取年龄、地址和职业的特征值;
从所述合约信息中提取合约开立关闭时间、合约信息最近更新日距上一个更新日时间、合约余额和合约近预设时间段内的交易对手个数的特征值;
从所述交易信息中提取近预设时间段内的交易笔数、最近一笔交易金额、近预设时间段内的交易平均金额、最近一笔非线上交易地点和最近预设笔非线上交易地点最远距离的特征值。
3.如权利要求1所述的方法,其特征在于,所述历史客户的特征点集按照以下步骤建立:
从大数据平台获取客户数据、合约数据、交易数据和已审核评级数据;
去除所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据;
从去除重复数据和噪声数据之后的数据中提取出预设特征的特征值;
针对每个所述已审核评级数据对应的历史客户,统计属于所述历史客户的特征值,并按照预设顺序排列所述属于所述历史客户的各特征值,得到所述历史客户的特征点集。
4.如权利要求1或3所述的方法,其特征在于,所述K为按照如下步骤确定的最优值:
选取建立的多个历史客户的特征点集中的第一部分历史客户的特征点集作为训练集,第二部分历史客户的特征点集作为测试集;
按照设定的参数取值范围,依次取出一个参数值;所述参数值为正整数;
基于每次取出的参数值和所述训练集确定所述测试集中各个历史客户的风险评级,并基于所述测试集中各个历史客户的已审核风险评级和确定出的各个历史客户的风险评级计算风险评级的准确率;
将准确率最高时采用的参数值作为最优值;
其中,基于取出的参数值和所述训练集确定测试集中每个历史客户的风险评级的过程包括:
分别计算该历史客户的特征点集与所述训练集中每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前预设数量个距离对应的预设数量个历史客户;所述预设数量为所述参数值;依据确定出的所述预设数量个历史客户的已审核评级数据,确定该历史客户的风险评级。
5.如权利要求3所述的方法,其特征在于,所述得到每个历史客户的特征点集之后,还包括:
对得到的所述每个历史客户的特征点集中各个特征值进行特征规范化处理;
所述得到所述目标客户的特征点集之后,还包括:
对得到的所述目标客户的特征点集中各个特征值进行特征规范化处理。
6.如权利要求2所述的方法,其特征在于,所述去除所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据,包括:
将所述客户数据、合约数据、交易数据和已审核评级数据加载至分布式文件系统;以触发所述分布式文件系统利用分布式计算框架按照预设规则去除所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据。
7.如权利要求1所述的方法,所述依据所述K个历史客户的已审核评级数据,确定所述目标客户的风险评级包括:
确定所述K个历史客户的已审核评级数据中数量最多的风险评级;
将所述数量最多的风险评级作为所述目标客户的风险评级。
8.如权利要求1所述的方法,其特征在于,所述确定所述目标客户的风险评级之后还包括:
根据所述目标客户特征点集和风险评级更新多个所述历史客户的特征点集和已审核评级数据形成的集合。
9.一种风险评级装置,其特征在于,所述装置包括:
信息获取单元,用于获取目标客户的客户信息、合约信息和交易信息;
特征提取单元,用于从所述信息获取单元获取的所述目标客户的客户信息、合约信息和交易信息中提取出预设特征的特征值,形成所述目标客户的特征点集;所述特征点集中的各特征值按照预定顺序排列;
距离计算单元,用于分别计算所述特征提取单元得到的所述目标客户的特征点集与预先建立的每个历史客户的特征点集的距离,按由小到大的顺序对计算出的多个距离进行排序,确定前K个距离对应的K个历史客户;所述K为正整数;
风险评级单元,用于依据所述距离计算单元确定的所述K个历史客户的已审核评级数据,确定所述目标客户的风险评级。
10.如权利要求9所述的装置,其特征在于,所述装置还包括:建立单元:用于建立历史客户的特征点集;
所述建立单元包括:
数据获取子单元,用于从大数据平台获取客户数据、合约数据、交易数据和已审核评级数据;
去重子单元,用于去除数据获取子单元获取的所述客户数据、合约数据、交易数据和已审核评级数据中的重复数据和噪声数据;
特征提取子单元,用于从所述去重子单元得到的去除重复数据和噪声数据之后的数据中提取出预设特征的特征值;
汇总子单元,用于针对每个所述已审核评级数据对应的历史客户,统计属于所述历史客户的特征值,并按照预设顺序排列所述属于所述历史客户的各特征值,得到所述历史客户的特征点集。
CN201910590901.3A 2019-07-02 2019-07-02 一种风险评级方法及装置 Pending CN110245879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910590901.3A CN110245879A (zh) 2019-07-02 2019-07-02 一种风险评级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910590901.3A CN110245879A (zh) 2019-07-02 2019-07-02 一种风险评级方法及装置

Publications (1)

Publication Number Publication Date
CN110245879A true CN110245879A (zh) 2019-09-17

Family

ID=67890634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910590901.3A Pending CN110245879A (zh) 2019-07-02 2019-07-02 一种风险评级方法及装置

Country Status (1)

Country Link
CN (1) CN110245879A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487326A (zh) * 2021-07-27 2021-10-08 中国银行股份有限公司 基于智能合约的交易限制参数设置方法及装置
CN113744045A (zh) * 2021-09-06 2021-12-03 中国农业银行股份有限公司 客户风险评级方法、装置、电子设备及计算机存储介质
CN113793060A (zh) * 2021-09-27 2021-12-14 武汉众邦银行股份有限公司 一种基于客户交易数据的客户评级方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1689036A (zh) * 2003-09-10 2005-10-26 瑞士再保险公司 用于自动建立经验评级和/或风险准备金的系统和方法
CN104702465A (zh) * 2015-02-09 2015-06-10 桂林电子科技大学 一种并行网络流量分类方法
US20160314416A1 (en) * 2015-04-23 2016-10-27 International Business Machines Corporation Latent trait analysis for risk management
CN108564466A (zh) * 2018-05-03 2018-09-21 湖南大学 一种信用评级方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1689036A (zh) * 2003-09-10 2005-10-26 瑞士再保险公司 用于自动建立经验评级和/或风险准备金的系统和方法
CN104702465A (zh) * 2015-02-09 2015-06-10 桂林电子科技大学 一种并行网络流量分类方法
US20160314416A1 (en) * 2015-04-23 2016-10-27 International Business Machines Corporation Latent trait analysis for risk management
CN108564466A (zh) * 2018-05-03 2018-09-21 湖南大学 一种信用评级方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘征: "个人信用评估模型研究", 《中国优秀硕士学位论文全文数据库(经济与管理科学辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487326A (zh) * 2021-07-27 2021-10-08 中国银行股份有限公司 基于智能合约的交易限制参数设置方法及装置
CN113744045A (zh) * 2021-09-06 2021-12-03 中国农业银行股份有限公司 客户风险评级方法、装置、电子设备及计算机存储介质
CN113793060A (zh) * 2021-09-27 2021-12-14 武汉众邦银行股份有限公司 一种基于客户交易数据的客户评级方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109300029A (zh) 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
Mohammadi et al. Financial reporting fraud detection: An analysis of data mining algorithms
CN109472610A (zh) 一种银行交易反欺诈方法及系统、设备和存储介质
CN110245879A (zh) 一种风险评级方法及装置
CN111179089B (zh) 洗钱交易识别方法、装置和设备
Pisu Export destinations and learning-by-exporting: Evidence from Belgium
CN110796539A (zh) 一种征信评估方法及装置
CN109345372A (zh) 信用评分方法、系统及计算机可读存储介质
CN113379530A (zh) 用户风险的确定方法、装置和服务器
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN112907356A (zh) 逾期催收方法、装置、系统及计算机可读存储介质
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN106651582A (zh) 基于指令流毒性指标的证券交易风险预警方法及系统
CN113506173A (zh) 一种信用风险评估方法及其相关设备
CN114742655B (zh) 基于机器学习的反洗钱行为识别系统
CN109858922A (zh) 非正常纳税人识别方法及装置
CN114331463A (zh) 基于线性回归模型的风险识别方法及其相关设备
CN114626863A (zh) 出口骗税企业的检测方法、装置、设备及存储介质
CN113706300A (zh) 一种小微企业的贷款方法及装置
Sun et al. A new perspective of credit scoring for small and medium-sized enterprises based on invoice data
CN116644372B (zh) 一种账户类型的确定方法、装置、电子设备及存储介质
CN115953023A (zh) 物品归属方收款限额的方法、装置、设备、介质及产品
CN115168375A (zh) 一种数据更新方法和相关装置
He et al. Research on Virtual Currency Trading Behavior under Financial Technology Innovation
CN118691413A (zh) 基于评分卡模型的金融交易风险评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917