CN112381644A - 一种基于空间变量推理的信贷场景风险用户评估方法 - Google Patents
一种基于空间变量推理的信贷场景风险用户评估方法 Download PDFInfo
- Publication number
- CN112381644A CN112381644A CN202011389248.3A CN202011389248A CN112381644A CN 112381644 A CN112381644 A CN 112381644A CN 202011389248 A CN202011389248 A CN 202011389248A CN 112381644 A CN112381644 A CN 112381644A
- Authority
- CN
- China
- Prior art keywords
- user
- grid
- value
- specific
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004458 analytical method Methods 0.000 claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 9
- 238000011160 research Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 238000012502 risk assessment Methods 0.000 abstract description 9
- 238000013475 authorization Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于空间变量推理的信贷场景风险用户评估方法,本发明属于新兴信息技术领域,可应用于反欺诈、信用风险、贷中行为评估等信贷业务场景,以及其他的业务场景,具体涉及到一种空间自相关分析方法、地统计插值法以及评分卡建模方法。本发明的有益效果是通过充分利用已有的、经过用户授权所采集到的GPS经纬度数据,通过引入空间变量推理的结果,可以在地理位置的维度上对用户风险倾向进行描述,丰富用户风险评估的维度。扩展了原有的分析方法和思路,对后续各个领域的用户画像、用户风险评估具有重要的理论、实践意义和推广应用价值。
Description
技术领域
本发明涉及新兴信息技术领域,特别涉及一种基于空间变量推理的信贷场景风险用户评估方法。
背景技术
在现阶段普惠金融的发展背景下,人们在享受快捷方便的金融服务的同时,相应的金融风险呈现零碎化、精细化、高科技化的发展趋势,尤其是信贷领域中所涉及到的欺诈风险与信用风险。目前,各大机构于研究者基于特定的研究方向,对风险评估方案的实时展开研究,一般而言,研究方向可以概括为:基于AI建模自动化评估的研究、基于风险表征数据挖掘的研究以及基于全流程风险控制体系的研究。事实上,对于现在的信贷风控策略而言,往往对用户的地理位置归属有着一定风险偏好,但是,上述的各研究方向中往往会忽视了相应的地理位置信息,没有试图从空间分布的角度上来进行空间推理,对用户风险进行空间位置维度上的解析。
基于空间变量推理的信贷场景风险用户评分方法是通过空间自相关分析、地统计插值法构造描述相关地理位置的特征,再通过评分卡建模方法,对所推断出的特征进行筛选、融合等综合评估,得出最后的风险评分。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,通过引入地理位置信息以及相应的空间变量推理方法,结合评分卡建模方法,从更多的维度对用户进行风险评估,对现有的用户风险评估方法的研究工作起到一个指向式、扩充式、启发式的作用。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于空间变量推理的信贷场景风险用户评估方法,包括以下步骤:
S1.数据获取:获取待研究区域的形状拓扑数据、信贷数据,所述的形状拓扑数据包含待研究区域的形状边界信息;所述信贷数据包含用户唯一标识、用户好坏标签以及进行授信、借款等操作的时间信息与经纬度信息;
S2.数据预处理:将步骤S1所获取的信贷数据,按照比例分离出训练数据集和评估数据集;同时基于步骤S1所获取的形状拓扑数据,生成指定大小的规整格网,按照训练数据集中的经纬信息与拓扑数据的空间关系,统计格网内的特征指标,生成格网数据;
S3.空间自相关分析,根据步骤S2所处理好的格网数据,分别使用单变量空间自相关方法、双变量空间自相关方法进行分析,得出相应的空间自相关模型及其自相关指数与聚类结果;
S4.地统计插值分析,根据步骤S2所处理好的格网数据,使用地统计插值法进行分析,得出相应的插值模型以及相应的推断出的空间插值分布结果;
S5.特征提取,根据步骤S3所处理好的自相关指数与聚类结果,对于步骤S2中的评估数据集进行处理,提取出不同分析对象下各个样本的自相关指数以及聚类类型,以及根据步骤S4的地统计插值模型,对于步骤S2中的评估数据集进行处理,提取出不同分析对象下各个样本的插值预测结果,形成特征评估数据集;
S6.模型评分,根据步骤S5所处理的特征评估数据集,基于特定的IV值筛选特征,同时采用评分卡建模方法,生成用户风险评分,以描述用户风险程度。
作为本发明的一种优选技术方案,所述的步骤S2中,对于信贷数据,按照比例分离出训练数据集和测试数据集的具体做法是:按照附带的时间信息,进行排序并按照特定的时间单位(月、天、小时等)进行编号,根据所设置的比例,取;根据研究区的拓扑形状,生成制定大小的规则格网的具体做法是:根据待研究区的拓扑形状,根据经度的极大值与极小值,以及纬度的极大值与极小值,两两组合成四个点,然后基于这四个的中的某个点开始,按照预设大小规格进行格网划分,从而得到规整格网数据;按照信贷数据中的经纬信息与拓扑数据的空间关系,统计格网内的特征指标,生成格网数据的具体做法是:对于信贷数据中的经纬度信息,视作为点拓扑,而对于各个格网拓扑,分别统计落入格网内的点个数、用户标签为好用户的点个数以及用户标签为坏用户的点个数,同时计算用户标签为好用户的占比值以及用户标签为坏用户的占比值,此外,还需按照是否超过特定阈值,将占比值处理为0和1(1表示占比值超过特定阈值)。
作为本发明的一种优选技术方案,所述的步骤S3中,对于单/双变量空间自相关的分析方法,具体的做法为:对于处理好的格网数据,分别以点个数、用户标签为好用户的占比、用户标签为坏用户的占比作为分析对象,应用单变量空间自相关分析方法;以用户标签为好用户的个数以及用户标签为坏用户的个数作为分析对象,应用双变量空间自相关分析方法,关于单/双变量空间自相关方法的具体的分析公式如下:
公式(1)中,x,y为变量,若是单变量分析,则x与y所指代的变量为同一个变量主体,若是双变量分析,则x与y所指代的变量分别来自两个不同的变量主体;与分别表示格网样本i的x属性取值与y属性的空间滞后值,均需要经过z-score标准化处理;wij为格网样本i与格网样本j之间的空间权重值,需通过特定的空间概念模型进行确定;表示格网样本i处的自相关指数,若显著为正,则表明x与y具有正的相关性,反之则为负的相关性;然后综合与的取值是否大于0,可以得出相应的聚类类型,分别为“高-高”、“高-低”、“低-高”、“低-低”、“不显著”;在得出各个格网相应的自相关指数以及聚类类型后,将分析结果附加在相应格网拓扑的属性上。
作为本发明的一种优选技术方案,所述步骤S4的具体步骤如下:
4.1)分别以用户标签为坏用户的占比及其是否超过特定阈值,作为分析对象,先计算各个格网拓扑的中心点的经纬度坐标,对于不同的样本点,按照特定空间概念模型,与近邻点构造成不同的点对,同时计算各个点对之间的距离以及点对应的属性值之间的差值的绝对值;
4.2)通过最小二乘法,基于特定函数模型拟合两个不同位置的点之间的距离与其属性值差值之间的关系,得出相应的函数模型f(x),所述的函数模型不局限于线性函数、二次函数等;
4.3)针对于任意已知经纬度的点,可以按照如下公式对点的属性值进行估算;
公式(3)中,f是4.2中所拟合出来的函数模型,φ是拉格朗日乘子,di,j表示点xi与点xj之间的距离,其中点x0为未知点。
作为本发明的一种优选技术方案,所述步骤S5中,根据所处理好的自相关指数与聚类结果,对评估数据集进行处理,提取出不同分析对象下各个样本的自相关指数以及聚类类型的具体做法为:基于附加了不同分析对象的自相关指数以及聚类类型的属性格网数据,按照评估数据集中的经纬度信息是否落于格网拓扑内的空间关系判断,将格网拓扑的自相关指数预计聚类类型的属性拼接到评估数据集,作为评估数据集中的特征属性;根据地统计插值模型,对于评估数据集进行处理,提取出不同分析对象下各个样本的插值预测结果的具体做法为:基于评估数据集的经纬度信息,使用不同分析对象下的地统计插值模型对其进行预测,得出相应的预测值,拼接到评估数据集,作为评估数据集中的特征属性。
作为本发明的一种优选技术方案,所述的步骤S6中,基于特定的IV值筛选特征的具体做法是:对于特征评估数据中所有的自相关指数、聚类结果、插值预测值,以及用户好坏标签,进行IV值的测算,按照特定的IV阈值进行筛选,只保留超过阈值的特征;采用评分卡建模方法,生成用户风险评分的具体做法为:对于基于特定IV阈值所筛选出来的特征,应用机器学习模型对特征与好坏标签进行整合,应用特定公式,将机器学习模型所预测出的似然概率转换为评分,作为最后的风险评分,具体评分公式如下:
pi指机器学习模型将样本i预测为坏样本的概率;则指机器学习模型预估的用户坏好比趋势;base为基础分,表示当pi=0.5时,及用户坏好比为1∶1时,相应的基础分值,一般作为超参数且base>0;PD0指当用户坏好比增加一倍时,需要扣除的分数值,一般也作为超参数且PD0>0;通过设置超参数base与PD0,可以自行控制分数的取值范围。
与现有技术相比,本发明的有益效果如下:
本发明的有益效果是通过充分利用已有的、经过用户授权所采集到的GPS经纬度数据,通过引入空间变量推理的结果,可以在地理位置的维度上对用户风险倾向进行描述,丰富用户风险评估的维度。扩展了原有的分析方法和思路,对后续各个领域的用户画像、用户风险评估具有重要的理论、实践意义和推广应用价值。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的技术路线图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明提供一种基于空间变量推理的信贷场景风险用户评估方法,包括以下步骤:
S1.数据获取:获取待研究区域的形状拓扑数据、信贷数据,所述的形状拓扑数据包含待研究区域的形状边界信息;所述信贷数据包含用户唯一标识、用户好坏标签以及进行授信、借款等操作的时间信息与经纬度信息;
S2.数据预处理:将步骤S1所获取的信贷数据,按照比例分离出训练数据集和评估数据集;同时基于步骤S1所获取的形状拓扑数据,生成指定大小的规整格网,按照训练数据集中的经纬信息与拓扑数据的空间关系,统计格网内的特征指标,生成格网数据;
S3.空间自相关分析,根据步骤S2所处理好的格网数据,分别使用单变量空间自相关方法、双变量空间自相关方法进行分析,得出相应的空间自相关模型及其自相关指数与聚类结果;
S4.地统计插值分析,根据步骤S2所处理好的格网数据,使用地统计插值法进行分析,得出相应的插值模型以及相应的推断出的空间插值分布结果;
S5.特征提取,根据步骤S3所处理好的自相关指数与聚类结果,对于步骤S2中的评估数据集进行处理,提取出不同分析对象下各个样本的自相关指数以及聚类类型,以及根据步骤S4的地统计插值模型,对于步骤S2中的评估数据集进行处理,提取出不同分析对象下各个样本的插值预测结果,形成特征评估数据集;
S6.模型评分,根据步骤S5所处理的特征评估数据集,基于特定的IV值筛选特征,同时采用评分卡建模方法,生成用户风险评分,以描述用户风险程度。
步骤S2中,对于信贷数据,按照比例分离出训练数据集和测试数据集的具体做法是:按照附带的时间信息,进行排序并按照特定的时间单位(月、天、小时等)进行编号,根据所设置的比例,取;根据研究区的拓扑形状,生成制定大小的规则格网的具体做法是:根据待研究区的拓扑形状,根据经度的极大值与极小值,以及纬度的极大值与极小值,两两组合成四个点,然后基于这四个的中的某个点开始,按照预设大小规格进行格网划分,从而得到规整格网数据;按照信贷数据中的经纬信息与拓扑数据的空间关系,统计格网内的特征指标,生成格网数据的具体做法是:对于信贷数据中的经纬度信息,视作为点拓扑,而对于各个格网拓扑,分别统计落入格网内的点个数、用户标签为好用户的点个数以及用户标签为坏用户的点个数,同时计算用户标签为好用户的占比值以及用户标签为坏用户的占比值,此外,还需按照是否超过特定阈值,将占比值处理为0和1(1表示占比值超过特定阈值)。
步骤S3中,对于单/双变量空间自相关的分析方法,具体的做法为:对于处理好的格网数据,分别以点个数、用户标签为好用户的占比、用户标签为坏用户的占比作为分析对象,应用单变量空间自相关分析方法;以用户标签为好用户的个数以及用户标签为坏用户的个数作为分析对象,应用双变量空间自相关分析方法,关于单/双变量空间自相关方法的具体的分析公式如下:
公式(1)中,x,y为变量,若是单变量分析,则x与y所指代的变量为同一个变量主体,若是双变量分析,则x与y所指代的变量分别来自两个不同的变量主体;与分别表示格网样本i的x属性取值与y属性的空间滞后值,均需要经过z-score标准化处理;wij为格网样本i与格网样本j之间的空间权重值,需通过特定的空间概念模型进行确定;表示格网样本i处的自相关指数,若显著为正,则表明x与y具有正的相关性,反之则为负的相关性;然后综合与的取值是否大于0,可以得出相应的聚类类型,分别为“高-高”、“高-低”、“低-高”、“低-低”、“不显著”;在得出各个格网相应的自相关指数以及聚类类型后,将分析结果附加在相应格网拓扑的属性上。
步骤S4的具体步骤如下:
4.1)分别以用户标签为坏用户的占比及其是否超过特定阈值,作为分析对象,先计算各个格网拓扑的中心点的经纬度坐标,对于不同的样本点,按照特定空间概念模型,与近邻点构造成不同的点对,同时计算各个点对之间的距离以及点对应的属性值之间的差值的绝对值;
4.2)通过最小二乘法,基于特定函数模型拟合两个不同位置的点之间的距离与其属性值差值之间的关系,得出相应的函数模型f(x),所述的函数模型不局限于线性函数、二次函数等;
4.3)针对于任意已知经纬度的点,可以按照如下公式对点的属性值进行估算;
公式(3)中,f是4.2中所拟合出来的函数模型,φ是拉格朗日乘子,di,j表示点xi与点xj之间的距离,其中点x0为未知点。
步骤S5中,根据所处理好的自相关指数与聚类结果,对评估数据集进行处理,提取出不同分析对象下各个样本的自相关指数以及聚类类型的具体做法为:基于附加了不同分析对象的自相关指数以及聚类类型的属性格网数据,按照评估数据集中的经纬度信息是否落于格网拓扑内的空间关系判断,将格网拓扑的自相关指数预计聚类类型的属性拼接到评估数据集,作为评估数据集中的特征属性;根据地统计插值模型,对于评估数据集进行处理,提取出不同分析对象下各个样本的插值预测结果的具体做法为:基于评估数据集的经纬度信息,使用不同分析对象下的地统计插值模型对其进行预测,得出相应的预测值,拼接到评估数据集,作为评估数据集中的特征属性。
步骤S6中,基于特定的IV值筛选特征的具体做法是:对于特征评估数据中所有的自相关指数、聚类结果、插值预测值,以及用户好坏标签,进行IV值的测算,按照特定的IV阈值进行筛选,只保留超过阈值的特征;采用评分卡建模方法,生成用户风险评分的具体做法为:对于基于特定IV阈值所筛选出来的特征,应用机器学习模型对特征与好坏标签进行整合,应用特定公式,将机器学习模型所预测出的似然概率转换为评分,作为最后的风险评分,具体评分公式如下:
pi指机器学习模型将样本i预测为坏样本的概率;则指机器学习模型预估的用户坏好比趋势;base为基础分,表示当pi=0.5时,及用户坏好比为1∶1时,相应的基础分值,一般作为超参数且base>0;PD0指当用户坏好比增加一倍时,需要扣除的分数值,一般也作为超参数且PD0>0;通过设置超参数base与PD0,可以自行控制分数的取值范围。
本实施例选取中国大陆地区作为研究区进行展示,具体的主要步骤如前所述,不再重复赘述,仅展示针对该实施例的具体实现细节和实现效果。
步骤S1数据获取:获取待研究区域的形状拓扑数据、信贷数据,所述的形状拓扑数据包含待研究区域的形状边界信息,参考坐标系为WGS84;所述信贷数据包含用户唯一标识、用户好坏标签以及时间信息与经纬度信息,根据用户是否通过授信作为用户的好坏标签,同时采用用户的授信申请时的时间作为时间信息、授权采集的GPS信息作为经纬度信息,其中经纬度也属于WGS84坐标系;
步骤S2数据预处理:将步骤S1所获取的信贷数据,按照申请时间的日期从0开始,进行整数编号并进行排序,按照8:2比例分离信贷数据集,取前80%的数据作为训练数据集,后20%的数据作为评估数据集;同时基于步骤S1所获取的形状拓扑数据,生成10KM*10KM的规整格网,按照训练数据集中的经纬信息与拓扑数据的空间关系,统计格网内的点个数、授信通过/拒绝用户个数、授信通过/拒绝率等特征指标,生成格网数据;
步骤S3空间自相关分析,根据步骤S2所处理好的格网数据,选取点个数、通过率、通过率是否超过30%三个特征值作为分析对象,分别使用单/双变量空间自相关方法,在这里选取通过率与通过率是否超过30%的双变量空间自相关分析作为示例:选取Queen’sCase作为空间概念模型,描述空间近邻关系以确认相应的空间权重值,同时计算各个格网下的自相关指数,并根据z-score标准化后的属性值是否大于0,以及自相关指数的显著性检验结果,得出相应的聚类结果,将自相关指数与聚类类型的结果拼接到格网的属性数据中,其余分析对象的单/双变量空间自相关分析亦可参考上述示例;
步骤S4地统计插值分析,根据步骤2)所处理好的格网数据,选取通过率、通过率是否超过30%三个特征值作为分析对象,这里以通过率是否超过30%作为示例:设置空间概念模型为K近邻,其中3≤K≤18;此外,基于指数函数去拟合距离与变量差值之间的关系,指数函数的具体公式参考如下:
通过最小二乘法,可以得知公式(5)中的r的近似解,根据所拟合的函数模型f(x),结合公式(3)即可得到的插值模型;
步骤S5特征提取,根据步骤S3所处理好的自相关指数与聚类结果,对于步骤S2中的评估数据集进行处理,提取出所有分析对象下各个样本的自相关指数以及聚类类型,以及根据步骤S4的地统计插值模型,对于步骤S2中的评估数据集进行处理,提取出所有分析对象下各个样本的插值预测结果,形成特征评估数据集;
步骤S6模型评分,根据步骤S5所处理的特征评估数据集,按照IV≥0.02,同时选取lightgbm模型进行建模,设置所有的聚类类型为离散型变量,按照用户是否首逾30天构造用户好坏标签,训练模型;通过设置base=400,PD0=10来将lightgbm模型所预测出的样本概率按照公式(4)进行分数转换,以描述用户风险程度;
基于所得出的风险评分,可以进行相应的评估,本实施例基于反欺诈场景的建模,根据用户是否首逾30天,对风险评分分别进行IV值评估以及建模KS评估,结果IV=0.08,且建模KS值能在原来的基础上提升0.03。
相对于现有的方法,本发明主要基于地理位置信息,引入空间自相关分析、地统计插值分析法,在地理空间的维度上进行推理,从而丰富用户在地理空间维度上的信息,便于评估其风险倾向。
与现有技术相比,本发明的有益效果如下:
本发明的有益效果是通过充分利用已有的、经过用户授权所采集到的GPS经纬度数据,通过引入空间变量推理的结果,可以在地理位置的维度上对用户风险倾向进行描述,丰富用户风险评估的维度。扩展了原有的分析方法和思路,对后续各个领域的用户画像、用户风险评估具有重要的理论、实践意义和推广应用价值。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于空间变量推理的信贷场景风险用户评估方法,其特征在于,包括以下步骤:
S1.数据获取:获取待研究区域的形状拓扑数据、信贷数据,所述的形状拓扑数据包含待研究区域的形状边界信息;所述信贷数据包含用户唯一标识、用户好坏标签以及进行授信、借款等操作的时间信息与经纬度信息;
S2.数据预处理:将步骤S1所获取的信贷数据,按照比例分离出训练数据集和评估数据集;同时基于步骤S1所获取的形状拓扑数据,生成指定大小的规整格网,按照训练数据集中的经纬信息与拓扑数据的空间关系,统计格网内的特征指标,生成格网数据;
S3.空间自相关分析,根据步骤S2所处理好的格网数据,分别使用单变量空间自相关方法、双变量空间自相关方法进行分析,得出相应的空间自相关模型及其自相关指数与聚类结果;
S4.地统计插值分析,根据步骤S2所处理好的格网数据,使用地统计插值法进行分析,得出相应的插值模型以及相应的推断出的空间插值分布结果;
S5.特征提取,根据步骤S3所处理好的自相关指数与聚类结果,对于步骤S2中的评估数据集进行处理,提取出不同分析对象下各个样本的自相关指数以及聚类类型,以及根据步骤S4的地统计插值模型,对于步骤S2中的评估数据集进行处理,提取出不同分析对象下各个样本的插值预测结果,形成特征评估数据集;
S6.模型评分,根据步骤S5所处理的特征评估数据集,基于特定的IV值筛选特征,同时采用评分卡建模方法,生成用户风险评分,以描述用户风险程度。
2.根据权利要求1所述的一种基于空间变量推理的信贷场景风险用户评估方法,其特征在于,所述的步骤S2中,对于信贷数据,按照比例分离出训练数据集和测试数据集的具体做法是:按照附带的时间信息,进行排序并按照特定的时间单位进行编号,根据所设置的比例,取;根据研究区的拓扑形状,生成制定大小的规则格网的具体做法是:根据待研究区的拓扑形状,根据经度的极大值与极小值,以及纬度的极大值与极小值,两两组合成四个点,然后基于这四个的中的某个点开始,按照预设大小规格进行格网划分,从而得到规整格网数据;按照信贷数据中的经纬信息与拓扑数据的空间关系,统计格网内的特征指标,生成格网数据的具体做法是:对于信贷数据中的经纬度信息,视作为点拓扑,而对于各个格网拓扑,分别统计落入格网内的点个数、用户标签为好用户的点个数以及用户标签为坏用户的点个数,同时计算用户标签为好用户的占比值以及用户标签为坏用户的占比值,此外,还需按照是否超过特定阈值,将占比值处理为0和1。
3.根据权利要求1所述的一种基于空间变量推理的信贷场景风险用户评估方法,其特征在于,所述的步骤S3中,对于单/双变量空间自相关的分析方法,具体的做法为:对于处理好的格网数据,分别以点个数、用户标签为好用户的占比、用户标签为坏用户的占比作为分析对象,应用单变量空间自相关分析方法;以用户标签为好用户的个数以及用户标签为坏用户的个数作为分析对象,应用双变量空间自相关分析方法,关于单/双变量空间自相关方法的具体的分析公式如下:
公式(1)中,x,y为变量,若是单变量分析,则x与y所指代的变量为同一个变量主体,若是双变量分析,则x与y所指代的变量分别来自两个不同的变量主体;与分别表示格网样本i的x属性取值与y属性的空间滞后值,均需要经过z-score标准化处理;wij为格网样本i与格网样本j之间的空间权重值,需通过特定的空间概念模型进行确定;表示格网样本i处的自相关指数,若显著为正,则表明x与y具有正的相关性,反之则为负的相关性;然后综合与的取值是否大于0,可以得出相应的聚类类型,分别为“高-高”、“高-低”、“低-高”、“低-低”、“不显著”;在得出各个格网相应的自相关指数以及聚类类型后,将分析结果附加在相应格网拓扑的属性上。
4.根据权利要求1所述的一种基于空间变量推理的信贷场景风险用户评估方法,其特征在于,所述步骤S4的具体步骤如下:
4.1)分别以用户标签为坏用户的占比及其是否超过特定阈值,作为分析对象,先计算各个格网拓扑的中心点的经纬度坐标,对于不同的样本点,按照特定空间概念模型,与近邻点构造成不同的点对,同时计算各个点对之间的距离以及点对应的属性值之间的差值的绝对值;
4.2)通过最小二乘法,基于特定函数模型拟合两个不同位置的点之间的距离与其属性值差值之间的关系,得出相应的函数模型f(x),所述的函数模型不局限于线性函数、二次函数等;
4.3)针对于任意已知经纬度的点,可以按照如下公式对点的属性值进行估算;
公式(3)中,f是4.2中所拟合出来的函数模型,φ是拉格朗日乘子,di,j表示点xi与点xj之间的距离,其中点x0为未知点。
5.根据权利要求1所述的一种基于空间变量推理的信贷场景风险用户评估方法,其特征在于,所述步骤S5中,根据所处理好的自相关指数与聚类结果,对评估数据集进行处理,提取出不同分析对象下各个样本的自相关指数以及聚类类型的具体做法为:基于附加了不同分析对象的自相关指数以及聚类类型的属性格网数据,按照评估数据集中的经纬度信息是否落于格网拓扑内的空间关系判断,将格网拓扑的自相关指数预计聚类类型的属性拼接到评估数据集,作为评估数据集中的特征属性;根据地统计插值模型,对于评估数据集进行处理,提取出不同分析对象下各个样本的插值预测结果的具体做法为:基于评估数据集的经纬度信息,使用不同分析对象下的地统计插值模型对其进行预测,得出相应的预测值,拼接到评估数据集,作为评估数据集中的特征属性。
6.根据权利要求1所述的一种基于空间变量推理的信贷场景风险用户评估方法,其特征在于,所述的步骤S6中,基于特定的IV值筛选特征的具体做法是:对于特征评估数据中所有的自相关指数、聚类结果、插值预测值,以及用户好坏标签,进行IV值的测算,按照特定的IV阈值进行筛选,只保留超过阈值的特征;采用评分卡建模方法,生成用户风险评分的具体做法为:对于基于特定IV阈值所筛选出来的特征,应用机器学习模型对特征与好坏标签进行整合,应用特定公式,将机器学习模型所预测出的似然概率转换为评分,作为最后的风险评分,具体评分公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011389248.3A CN112381644A (zh) | 2020-12-01 | 2020-12-01 | 一种基于空间变量推理的信贷场景风险用户评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011389248.3A CN112381644A (zh) | 2020-12-01 | 2020-12-01 | 一种基于空间变量推理的信贷场景风险用户评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112381644A true CN112381644A (zh) | 2021-02-19 |
Family
ID=74590500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011389248.3A Pending CN112381644A (zh) | 2020-12-01 | 2020-12-01 | 一种基于空间变量推理的信贷场景风险用户评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381644A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907360A (zh) * | 2021-03-25 | 2021-06-04 | 深圳前海微众银行股份有限公司 | 风险评估方法、设备、存储介质及程序产品 |
CN113570149A (zh) * | 2021-08-03 | 2021-10-29 | 中国科学院地理科学与资源研究所 | 一种居民居住地距离矿区的安全距离确定方法及系统 |
CN116151965A (zh) * | 2023-04-04 | 2023-05-23 | 成都新希望金融信息有限公司 | 一种风险特征提取方法、装置、电子设备及存储介质 |
CN112907360B (zh) * | 2021-03-25 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 风险评估方法、设备、存储介质及程序产品 |
-
2020
- 2020-12-01 CN CN202011389248.3A patent/CN112381644A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907360A (zh) * | 2021-03-25 | 2021-06-04 | 深圳前海微众银行股份有限公司 | 风险评估方法、设备、存储介质及程序产品 |
CN112907360B (zh) * | 2021-03-25 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 风险评估方法、设备、存储介质及程序产品 |
CN113570149A (zh) * | 2021-08-03 | 2021-10-29 | 中国科学院地理科学与资源研究所 | 一种居民居住地距离矿区的安全距离确定方法及系统 |
CN113570149B (zh) * | 2021-08-03 | 2024-02-27 | 中国科学院地理科学与资源研究所 | 一种居民居住地距离矿区的安全距离确定方法及系统 |
CN116151965A (zh) * | 2023-04-04 | 2023-05-23 | 成都新希望金融信息有限公司 | 一种风险特征提取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199214B (zh) | 一种残差网络多光谱图像地物分类方法 | |
CN106355011B (zh) | 一种地球化学数据元素序结构分析方法及装置 | |
CN116108758B (zh) | 滑坡易发性评价方法 | |
Pontius Jr et al. | GEOMOD modeling | |
CN102096819B (zh) | 利用稀疏表示与字典学习进行图像分割的方法 | |
CN110929939B (zh) | 一种基于聚类-信息量耦合模型下的滑坡灾害易发性空间预测方法 | |
CN112381644A (zh) | 一种基于空间变量推理的信贷场景风险用户评估方法 | |
CN102122353A (zh) | 利用增量字典学习与稀疏表示进行图像分割的方法 | |
CN109034474A (zh) | 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及系统 | |
CN112131731B (zh) | 一种基于空间特征向量滤波的城市生长元胞模拟方法 | |
CN111797188B (zh) | 一种基于开源地理空间矢量数据的城市功能区定量识别方法 | |
CN109492796A (zh) | 一种城市空间形态自动分区方法与系统 | |
CN108446616A (zh) | 基于全卷积神经网络集成学习的道路提取方法 | |
CN107665376A (zh) | 一种湿地空间分布变化格局模拟与预测方法 | |
CN112365595A (zh) | 基于报警数据点要素的鉴别交通事故多发点的分析方法 | |
CN113393488A (zh) | 一种基于量子游走的行为轨迹序列多特征模拟方法 | |
Liu et al. | Using the ART-MMAP neural network to model and predict urban growth: a spatiotemporal data mining approach | |
CN114239962A (zh) | 一种基于开源信息的精细化空间负荷预测方法 | |
CN110264010B (zh) | 新型乡村电力饱和负荷预测方法 | |
Guedes et al. | Optimization of spatial sample configurations using hybrid genetic algorithm and simulated annealing. | |
CN107644230A (zh) | 一种遥感图像对象的空间关系建模方法 | |
He et al. | Modeling multi-type urban landscape dynamics along the horizontal and vertical dimensions | |
Mora et al. | A spatially constrained ecological classification: rationale, methodology and implementation | |
CN117522652B (zh) | 人居环境脆弱性评价方法、系统、智能终端及存储介质 | |
CN113535861B (zh) | 一种多尺度特征融合与自适应聚类的轨迹预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210219 |