CN1529260A

CN1529260A - 一种银行客户信用计分的方法和系统

Info

Publication number: CN1529260A
Application number: CNA2003101107224A
Authority: CN
Inventors: 晏永胜; 周晓明; 封希德; 蒲果泉; 黄纯国
Original assignee: XICAI HIGH-TECH Co Ltd SICHUAN
Current assignee: XICAI HIGH-TECH Co Ltd SICHUAN
Priority date: 2003-10-13
Filing date: 2003-10-13
Publication date: 2004-09-15

Abstract

本发明公开了一种银行客户信用计分的方法和系统。银行客户信用计分的方法包括分析银行客户历史数据，建立客户信用计分模型，根据模型计算客户的信用得分；银行客户信用计分的系统包括服务器、银行业务系统接口和前台终端，前台终端基于浏览器模式，可在本地或远程向服务器发起信用计算请求，并显示结果，服务器用于存储计分模型和根据前台请求计算客户的信用得分，银行业务系统接口根据给定的客户代码，与银行业务系统通讯，读取客户信息交服务器计算。该方法具有科学、客观、公正的优点，克服了现有银行客户信用评估技术的缺点，同时，该系统还具有操作简单、可本地和远程使用、前台免维护、与银行业务系统数据共享的优点。

Description

一种银行客户信用计分的方法和系统

所属领域

本发明涉及一种信用计分的方法和系统，特别是银行客户信用计分的方法和系统，适用于商业银行信贷和信用卡客户的信用风险评估和管理。

背景技术

我国商业银行的信息化建设取得了巨大的成就，建成了功能齐全的银行业务处理系统、会计核算系统和跨行的支付清算系统，但在信贷管理方面普遍比较落后，信贷申请和审批流程过于复杂，缺乏客观的和有效的客户信用评估机制，效率低下，这将使商业银行在激烈的市场竞争中，特别是WTO后与外资银行的竞争中，处于不利的境地。

就银行客户而言，特别是信贷和信用卡客户，其中的许多申请者具有很高的信用值，而有些则不是，对商业银行来说，其风险来自于不了解哪些申请者是信誉高的客户，哪些是信誉低的客户。因此，商业银行迫切需要一套客户信用评价系统，以帮助他们快速、高效、客观地对客户信用作出判断和对客户信用风险作出预测。

目前，国内商业银行普遍采用人工设计的信用体系评价银行客户的信用，其有以下不足之处：(1)人工设计的信用指标体系科学性不强，究竟应该包含那些指标缺乏足够的依据；(2)人工设计的信用指标体系客观性不够，指标的权重是主观设定的，更多体现的是设计者的主观意念；(3)不够公正，既然信用指标体系缺乏足够的科学性和客观性，当然就不能保证评价结果的公正性，影响信用评价的可操作性，因此，目前国内各商业银行一般采用以专家或领导集中开会讨论贷款是否应该发放为主，以计算机信用评估为辅的信贷处理策略。

发明内容

本发明的目的即在于克服国内商业银行现有客户信用风险管理技术的缺点，提供一种科学的、客观的和公正的银行客户信用评估方法和系统，提高商业银行客户信用风险管理的能力和效率，提高商业银行的客户服务水平。

本发明的目的通过以下技术方案来实现：一种银行客户信用计分的方法，用于计算银行客户信用得分的指标体系，是利用商业银行大量的客户历史数据，经数据取样、数据探索、数据调整和预处理后，建立客户信用计分模型而形成的，客户信用计分模型为多元线性回归模型，依照该方法计算客户信用得分的步骤为：(1)对银行提供的客户数据进行预处理，包括数据取样、数据探索、数据调整等过程；(2)将经过预处理的客户样本数据，带入多元线性回归方程Y＝β₀+β₁X₁+β₂X₂+，...+β_p-1X_p-1+ε，采用最小二乘估计方法，估计系数β₀，β₁，β₂，...β_p-1的值，其中，Y代表客户的信用计分，X₁、X₂、...、X_p-1代表信用指标，如文化程度、收入水平等，β₀、β₁、β₂，...、β_p-1代表对应指标的权重，ε表示误差；(3)对建立的回归模型进行回归方程显著性检验和回归系数显著性检验，并对模型进行优化，上述步骤(1)～(3)只适用于系统建模阶段；(4)输入客户资料信息，根据上述信用计分模型计算客户信用得分；

一种银行客户信用计分系统，系统由前台工作终端、后台信用计算服务器和到商业银行业务系统的接口三部分组成，前台终端与后台信用计算服务器之间可以通过10M/100M局域网、DDN线路或电话线路连接，信用服务器与银行业务系统接口以及接口与商业银行业务系统的连接通常采用10M/100M局域网连接；前台终端可以是本地终端，也可以是远程终端，工作界面基于浏览器(Browser)模式；信用计分模型存储在后台信用计算服务器中，服务器根据前台终端请求的客户代码，经银行业务系统接口读取客户资料，计算客户信用得分，然后将计算结果反馈到前台工作终端，由前台终端按要求显示客户信用得分。银行业务系统接口按照预定的数据格式与商业银行业务系统通讯，读取客户数据到信用计算服务器。

通过上面的叙述可以看出，本发明具有以下优点：

(1)、可以本地计算银行客户信用，也可以通过公共通讯网络(如Internet网)远程计算客户信用；

(2)、银行客户信用计分系统实现了与银行业务系统的无缝集成，共享银行客户资料数据库；

(3)前台终端采用浏览器界面模式，系统更新和升级只在服务器上进行，实现了前台系统的免维护。

附图说明

图1为本发明系统结构图。

具体实施方式

下面结合附图对本发明作进一步的描述，如图1所示，信用计算服务器是银行客户信用计分系统的核心组成部分，它主要完成建模、模型优化、模型存储和模型应用(即计算客户信用得分)功能。

建立客户信用模型

设Y是一个可观察的随机变量，它受p-1个非随机因数X₁，X₂，...，X_p-1和随机误差ε的影响，若Y与有如下的线性关系：

Y＝β₀+β₁X₁+β₂X₂+...，+β_p-1X_p-1+ε (1)

其中，β₀，β₁，β₂，...，β_p-1是未知参数，ε∈N(0，σ²)_p则称该模型为线性回归模型，Y为因变量，X₁，X₂，...，X_p-1为自变量。

要建立线性回归模型，首先要估计未知参数β₀，β₁，β₂，...，β_p-1，为此，需要n组(n≥p)样本数据：

(x_i1，x_i2，...，x_ip-1，y_i) i＝1，2，...，n

它们应满足：

解上述线性方程，即可得到β₀，β₁，β₂，...，β_p-1的估算值。

在实际应用中，我们可以把Y看作是客户的信用计分，β₀，β₁，β₂，...，β_p-1是影响信用分值的指标，如文化程度、职位等。只要我们能够从银行拿到足够多的客户历史资料，就可以得到β₀，β₁，β₂，...，β_p-1的值，进而利用式(1)计算银行客户的信用分值。

回归关系的统计推断

利用实验数据，可以给出Y与X₁，X₂，...，X_p-1之间的线性方程，但所求得的回归方程是否有意义，也就是说，Y与X₁，X₂，...，X_p-1之间是否存在显著的线性关系，还需要对回归方程进行检验。

在一元线性回归分析中，我们通常可以首先通过散点图判断变量X与Y之间是否存在线性关系。如果散点图上的实验数据接近于某一条直线，我们便可直观地初步认为二者之间存在线性关系。但在多元线性回归分析中情况略有不同。首先我们无法用直观的方法帮助判断Y与X₁，X₂，...，X_p-1之间是否有线性关系，为此必须对回归方程进行显著性检验。其次在p个自变量中，每个自变量对Y的影响程度是不同的，甚至有的自变量可有可无，这表现在回归系数中有的绝对值很大，有的很小或接近于零，这就需要对回归系数进行显著性检验。

回归方程的显著性检验

对回归方程的显著性检验是指检验假设：

H₀：β₁，＝β₂＝，...，＝β_p-1＝0H₁：至少有某个β_i≠0

如果H₀成立，说明不论X₁，X₂，...，X_p-1如何变化，Y并不随之而改变，显而易见，在这种情况下用式(1)来表示Y与自变量的关系是不和适的。

如果H₀不成立，说明β₁，β₂，...，β_p-1中至少有一个不等于零，从而Y至少随X₁，X₂，...，X_p-1中之一的变化而线性变化。因此，对回归方程显著性检验是从整体上看Y与X₁，X₂，...，X_p-1是否存在线性关系。

为了建立对H₀进行检验的统计量，将总离差平方和S_总进行分解。

其中回归平方和

残差平方和：

基于上述方差分析表，构造如下检验统计量：

当H₀成立时，可以证明F～F(p-1，n-p)，这里，F(p-1，n-p)表示自由度为p-1和n-p的F分布。若H₀不真，F的值有偏大的趋势。

因此，给定显著性水平α，由F分布得临界值F_α(p-1，n-p)(即F分布的上侧α分数)，计算F的观测值F₀，若F₀≤F_α(p-1，n-p)，则接受H₀，即在显著性水平α之下，认为线性回归关系不显著。若F₀＞F_α(p-1，n-p)，则拒绝H₀，即认为Y与X₁，X₂，...，X_p-1之间存在显著的线性关系。

回归系数的显著性检验

在处理多元回归的实际问题时，我们往往并不满足于判断回归方程的显著性。因为当我们经过检验认为方程是显著时，即拒绝了H₀这一假设，并不意味着一切β₁，β₂，...，β_p-1都不等于零，即并不意味着每一个自变量X₁，X₂，...，X_p-1对因变量Y的影响都是显著的。若某一个β_i等于零，这就意味着X_i的变化对Y无线性影响。我们称变量X_i不显著。为了保证对Y进行予报和控制的质量，我们必须对回归方程中的每一个回归系数作显著性检验，剔除那些不显著变量，重新建立更简单更精确的线性回归方程。

检验变量是否显著，等价于检验假设：

H₀：β_k＝0H₁：β_k≠0

以下说明回归系数显著性检验的t检验方法。

t_{β_{i}} = \frac{β_{i}}{S_{β_{i}}} ~ t (n - p), (i = 1,2, \cdot \cdot \cdot, p)

式中

S_{β_{i}} = S_{y \cdot 12 \cdot \cdot \cdot p} \cdot \sqrt{c_{ii}}

为偏回归系数标准差

S_{y \cdot 12 \cdot \cdot \cdot p} = \sqrt{\frac{Σ {(y - \hat{y})}^{2}}{n - p - 1}}

为离回归标准差

c_ii为C＝A^-1的主对角线元素，

A = [\begin{matrix} x_{11} - {\overset{&OverBar;}{x}}_{11} & x_{12} - {\overset{&OverBar;}{x}}_{12} & \cdot \cdot \cdot & x_{1 m} - {\overset{&OverBar;}{x}}_{1 m} \\ x_{21} - {\overset{&OverBar;}{x}}_{21} & x_{22} - {\overset{&OverBar;}{x}}_{22} & \cdot \cdot \cdot & x_{2 m} - {\overset{&OverBar;}{x}}_{2 m} \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ x_{n 1} - {\overset{&OverBar;}{x}}_{n 1} & x_{n 2} - {\overset{&OverBar;}{x}}_{n 2} & \cdot \cdot \cdot & x_{nm} - {\overset{&OverBar;}{x}}_{nm} \end{matrix}]

对给定显著性水平α，求出自由度为n-p的t分布的上侧α/2分位数t_α/2(n-p)，记t的观测值t₀，检验准则为：

若

多元线性回归方程的优化

当对显著的多元线性回归方程中各个回归系数进行显著性检验都为显著时，说明各个自变量对依变量的单纯影响都是显著的。若有一个或几个回归系数经显著性检验为不显著时，说明其对应的自变量对依变量的作用或影响不显著，或者说这些自变量在回归方程中是不重要的，此时应该从回归方程中剔除一个不显著的偏回归系数对应的自变量，重新建立多元线性回归方程，再对新的多元线性回归方程或多元线性回归关系以及各个新的偏回归系数进行显著性检验，直至多元线性回归方程显著，并且各个回归系数都显著为止。此时的多元线性回归方程即为最优多元线性回归方程。

(1)自变量的剔除

当经显著性检验有几个不显著的回归系数时，我们一次只能剔除一个不显著的偏回归系数对应的自变量，被剔除的自变量的偏回归系数，应该是所有不显著的偏回归系数中的F值(或|t|值、或回归平方和)为最小者。这是因为自变量之间往往存在着相关性，当剔除某一个不显著的自变量之后，其对依变量的影响很大部分可以转加到另外不显著的自变量对依变量的影响上。如果同时剔除两个以上不显著的自变量，那就会比较多地减少回归平方和，从而影响利用回归方程进行估测的可靠程度。

(2)新进行少一个自变量的多元线性回归分析

一次剔除一个不显著的回归系数对应的自变量，不能简单地理解为只须把被剔除的自变量从多元线性回归方程中去掉就行了，这是因为自变量间往往存在相关性，剔除一个自变量，其余自变量的回归系数的数值将发生改变，回归方程的显著性检验、偏回归系数的显著性检验也都须重新进行，也就是说应该重新进行少一个自变量的多元线性回归分析，包括重新建立(m-1)元线性回归方程，对m-1元线性回归关系和回归系数β_j进行显著性检验。

重复上述步骤，直至回归方程显著以及各偏回归系数都显著为止，即建立了最优多元线性回归方程。

下面结合具体案例对本发明作进一步的描述。试验采用的数据来自国内某大型商业银行，数据结构如下所示：

序号	字段名称	变量名	标识符	数据类型	备注
序号	字段名称	变量名	标识符	数据类型	备注	1	客户编码	No	pei_no	char(5)	非空
2	性别	Sex	pei_sex	char(2)	性别编码表	1	客户编码	No	pei_no	char(5)	非空
2	性别	Sex	pei_sex	char(2)	性别编码表	3	年龄	Age	pei_age	char(2)	非空
4	最高学历	Edu	pei_edulevel	char(2)	非空，学历编码表	3	年龄	Age	pei_age	char(2)	非空
4	最高学历	Edu	pei_edulevel	char(2)	非空，学历编码表	5	职称	Tit	pei_title	char(2)	非空，职称编码表
6	职业	Pos	pei_position	char(2)	非空，自然人职业编码表	5	职称	Tit	pei_title	char(2)	非空，职称编码表

7	婚姻状况	Mar	pei_marraysta	Char(1)	婚姻状况编码表
7	婚姻状况	Mar	pei_marraysta	Char(1)	婚姻状况编码表	8	家庭年度收入估算	Faminc	pei_famyincm	char(1)	年收入分类编码表
9	管理特征	Cha	pei_manchar	char(2)	非空，客户管理特征编码表	8	家庭年度收入估算	Faminc	pei_famyincm	char(1)	年收入分类编码表
9	管理特征	Cha	pei_manchar	char(2)	非空，客户管理特征编码表	10	健康状况	Hea	pei_healthsta	char(1)	健康状况编码表
11	居住稳定性	Hab	pei_inhabitsta	char(1)	居住稳定性编码表	10	健康状况	Hea	pei_healthsta	char(1)	健康状况编码表
11	居住稳定性	Hab	pei_inhabitsta	char(1)	居住稳定性编码表	12	房产状况	Hou	pei_housesta	char(1)	房产状况编码表
13	负担状况	bur	pei_burdensta	char(1)	负担状况编码表	12	房产状况	Hou	pei_housesta	char(1)	房产状况编码表

数据经过上述的数据取样、数据探索、数据调整等预处理后，带入多元线性回归方程Y＝β₀+β₁X₁+β₂X₂+，...+β_p-1X_p-1+ε，采用最小二乘估计方法，计算出系数β₀，β₁，β₂，...β_p-11的值，然后，对建立的模型进行回归方程显著性检验和回归系数显著性检验，并对模型进行优化，得到的模型为：

Y＝1.0532+0.8223(A1)-0.0496(A2)-1.7504(B1)-0.8045(B2)-0.2131(B3)+0.6701(B4)+0.7824(C1)-0.1995(C2)-0.6558(C3)+0.4151(D1)+1.5644(D2)-0.7113(D3)+2.4610(E1)-0.6601(E2)-0.8546(E3)-0.7112(F1)+1.0208(F2)

其中：A、B、C、D、E、F分别表示hea、faminc、hab、edu_6ipc、age_pikw、kpos_hp6这六个变量，其后紧跟所对应变量的取值，如：A1表示hea＝1，E3表示age_pikw＝03，如此类推。

银行业务系统接口与银行业务系统通讯，读取客户资料，数据格式为：

控制快

包头

数据块

其中：

控制快的结构为：

域名称类型域宽(字节) 备注

morepkt 字符型 1 是否还有更多的包，有1，无0

pktype 字符型 1 包类型：1数据请求，2数据应答，3文件请求，

4文件应答

unitend 字符型 1 结束标志：‘1’结束，‘0’没结束

save 字符型 1 保留位

sequence 短整型机器分配包序号：从1开始，网络字节序

length 短整型机器分配包长度

msgtype 长整型机器分配发起请求的进程ID号，每个请求是唯一的，

网络字节序

包头的结构为：

域名称类型域宽(字节) 备注

code 字符型 6 交易类型

d_add 字符型 9 交易目的地

l_add 字符型 9 交易发起地

交易类型码：

100070：账户余额查询

100071：流水查询

100072：客户信息查询

900071：签到交易

900072：签退交易

前台终端从界面接收操作人员录入的客户代码，请求信用计算服务器计算客户信用得分，信用服务器接收到请求的客户代码后，通过银行业务系统接口搜索该客户的基本资料、交易记录和以往信用记录，根据查到的数据计算该客户的信用得分，并将计算结果返回给前台，前台终端最后将客户的信用得分显示在屏幕上。

Claims

1、一种银行客户信用计分的方法，其特征在于：用于计算银行客户信用得分的指标体系，是利用商业银行大量的客户历史数据，经数据取样、数据探索、数据调整和预处理后，建立客户信用计分模型而形成的。

2、根据权利要求1所述的一种银行客户信用计分的方法，其特征在于：客户信用计分模型为多元线性回归模型。

3、根据权利要求1所述的一种银行客户信用计分的方法，其特征在于：依照该方法计算客户信用得分的步骤为：

(1)对银行提供的客户数据进行预处理，包括数据取样、数据探索、

数据调整等过程；

(2)将经过预处理的客户样本数据，带入多元线性回归方程Y＝β₀+

β₁X₁+β₂X₂+，...+β_p-1X_p-1+ε，采用最小二乘估计方法，估计系

数β₀，β₁，β₂，...β_p-1的值，其中，Y代表客户的信用计分，

X₁、X₂、...、X_p-1代表信用指标，如文化程度、收入水平等，

β₀、β₁、β₂，...、β_p-1代表对应指标的权重，ε表示误差；

(3)对建立的回归模型进行回归方程显著性检验和回归系数显著性

检验，并对模型进行优化，上述步骤(1)～(3)只适用于系

统建模阶段；

(4)输入客户资料信息，根据上述信用计分模型计算客户信用得分；

4、一种银行客户信用计分系统，其特征在于：系统由前台工作终端、后台信用计算服务器和到商业银行业务系统的接口三部分组成，前台终端与后台信用计算服务器之间可以通过10M/100M局域网、DDN线路或电话线路连接，信用服务器与银行业务系统接口以及接口与商业银行业务系统的连接通常采用10M/100M局域网连接。

5、根据权利要求4所述的一种银行客户信用计分系统，其特征在于：前台终端可以是本地终端，也可以是远程终端，工作界面基于浏览器(Browser)模式；

6、根据权利要求4所述的一种银行客户信用计分系统，其特征在于：上述信用计分模型存储在后台信用计算服务器中，服务器根据前台终端请求的客户代码，经银行业务系统接口读取客户资料，计算客户信用得分，然后将计算结果反馈到前台工作终端，由前台终端按要求显示客户信用得分。

7、根据权利要求4所述的一种银行客户信用计分系统，其特征在于：银行业务系统接口按照预定的数据格式与商业银行业务系统通讯，读取客户数据到信用计算服务器。