CN117391847A - 一种基于多层多视图学习的用户风险评估方法及系统 - Google Patents

一种基于多层多视图学习的用户风险评估方法及系统 Download PDF

Info

Publication number
CN117391847A
CN117391847A CN202311675215.9A CN202311675215A CN117391847A CN 117391847 A CN117391847 A CN 117391847A CN 202311675215 A CN202311675215 A CN 202311675215A CN 117391847 A CN117391847 A CN 117391847A
Authority
CN
China
Prior art keywords
layer
data
view
feature
loan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311675215.9A
Other languages
English (en)
Inventor
李民
高云
姚磊
肖振峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoren Property Insurance Co ltd
Original Assignee
Guoren Property Insurance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoren Property Insurance Co ltd filed Critical Guoren Property Insurance Co ltd
Priority to CN202311675215.9A priority Critical patent/CN117391847A/zh
Publication of CN117391847A publication Critical patent/CN117391847A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多层多视图学习的用户风险评估方法及系统,其中所述方法包括:步骤S101、收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;步骤S103、对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;步骤S105、将不同贷款平台的特征进行融合;步骤S107、基于融合的特征建立多层多视图学习模型;步骤S109、采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估,本发明通过基于多个贷款平台的特征融合,使能够综合多个来源的数据,更全面地理解和分析数据,可以更准确地预测和推断,提供更全面的贷款评估和决策支持。

Description

一种基于多层多视图学习的用户风险评估方法及系统
技术领域
本发明属于计算机领域,尤其涉及一种基于多层多视图学习的用户风险评估方法及系统。
背景技术
互联网金融是传统金融单位与互联网部门利用IT技术和信通技术实现资金融通、支付、投资和中介服务的新金融业务模式。现有技术中,金融机构对用户的贷款审批时,会综合考虑用户的信用,对其信用及资产情况进行评估,进而确定是否放贷。在用户存在多头借贷时,不能准确对其信用及资产情况进行评估。多头借贷就是一个借款者向二家或二家以上的金融单位提出借贷需求。由于用户的偿还能力是有限的,向多方借款必存在着较高的风险。当超出偿还能力时,只能逾期。由于互金平台的逾期并不计入央行征信,不会对用户借款产生直接影响,也导致一部分用户在逾期时肆无忌惮,同时多头借贷也为各平台审查风控带来巨大挑战。
发明内容
针对上述现有技术中存在的缺陷,本发明提供一种基于多层多视图学习的用户风险评估方法,包括以下步骤:
步骤S101、收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;
步骤S103、对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;
步骤S105、将不同贷款平台的特征进行融合;
步骤S107、基于融合的特征建立多层多视图学习模型;
步骤S109、采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估。
其中,第一贷款平台数据包括借款金额、借款期限、借款目的;第二贷款平台数据包括企业基本信息、财务数据、行业分类;第三贷款平台数据包括房屋项目信息、销售数据、市场环境。
其中,所述步骤S101包括对第一贷款平台的数据进行预处理,提取如下特征:
特征1.1-每月的还款额,假设借款金额为LoanAmount,单位为货币,借款期限为LoanTerm,其单位为月,则每月还款额通过以下公式计算:
MonthlyRepayment = LoanAmount / LoanTerm;
特征1.2-负债比率,其指借款人的债务相对于其收入的比率,假设借款人的月收入为MonthlyIncome,则负债比率通过以下公式计算:
DebtRatio = MonthlyRepayment / MonthlyIncome;
特征1.3-特征编码,将对于借款目的这一分类特征,进行特征编码,将其转换为数值表示,以便于模型的处理。
其中,所述步骤S101包括对第二贷款平台的数据进行预处理:
提取特征2.1-财务指标和特征2.2-特征编码,其中,特征2.1-财务指标为根据小微企业的财务数据,提取常用的财务指标作为特征,以反映企业的经营状况和财务健康度;特征2.2-特征编码,表示为每个行业类别分配一个整数标签;
将特征2.1和特征2.2进行归一化处理。
其中,所述财务指标包括营业收入、净利润、利润率、资产负债率、流动比率。
其中,所述步骤S101包括对第三贷款平台的数据进行预处理:
提取销售指标,其根据项目的销售数据,提取销售指标作为特征;
构建市场环境特征,以提供关于市场供需、房价趋势方面的信息;
将销售指标特征和市场环境特征中的数值型特征进行归一化处理。
其中,所述销售指标包括销售额、销售速度、销售周期、销售增长率;所述市场环境特征包括:房价指数、人口密度、就业率、人均收入。
其中,所述步骤S105具体包括:
将不同贷款平台的特征按照相同的样本顺序进行连接,形成一个新的特征矩阵;
采用主成分分析PCA将融合后的特征矩阵进行降维处理。
其中,所述步骤107包括:
假设三个贷款平台的特征表示分别为X1, X2和X3,每个平台的特征表示维度为D,
输入层接收三个贷款平台的特征表示作为输入:X1, X2, X3;
多层视图模块中包好三个视图模块,其中每个视图模块由卷积层、池化层和全连接层组成,用于提取高层次的抽象特征;
假设每个视图模块包含一个卷积层和一个池化层,每个视图模块的输出维度为F;
特征融合层将来自不同视图模块的特征进行使用特征拼接的方式融合,则融合后的特征维度为F * 3;
输出层接收特征融合层的输出作为输入,进行分类或回归任务;
假设输出层为一个全连接层:
隐层:输出层的节点数量为H;
输出层为softmax层;
则整个多层多视图学习模型的公式表示如下:
输入层:X1, X2, X3;
多层视图模块:
视图1:
Conv1_1 = Convolution(X1);
Pool1_1 = Pooling(Conv1_1);
视图2:
Conv2_1 = Convolution(X2);
Pool2_1 = Pooling(Conv2_1);
视图3:
Conv3_1 = Convolution(X3);
Pool3_1 = Pooling(Conv3_1);
特征融合层:
ConcatenatedFeatures = Concatenate(Pool1_1, Pool2_1, Pool3_1);
输出层:
HiddenLayer = FullyConnected(ConcatenatedFeatures, H);
OutputLayer = Output(HiddenLayer);
其中,Convolution表示卷积操作,Pooling表示池化操作,Concatenate表示特征拼接操作,FullyConnected表示全连接层操作,Output表示输出层操作。
本发明还提出了一种基于多层多视图学习的用户风险评估系统,其包括:
收集模块,其用于收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;
单层视图模块,其用于对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;
特征融合模块,其用于将不同贷款平台的特征进行融合;
多层多视图模块,其用于基于融合的特征建立多层多视图学习模型;
评估模块,其用于采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估。
与现有技术相比,本发明具有如下优点:
1.使用多个贷款平台的特征表示进行学习可以充分利用不同平台之间的差异和互补性。每个视图模块可以专注于提取每个平台的特定特征,并通过特征融合层将它们结合起来,从而提高模型的表达能力和泛化能力。
2.通过多层视图模块,可以逐渐提取更高层次的抽象特征。卷积和池化层可以捕获输入特征的局部和全局信息,并逐渐将其转化为更具有代表性的特征表示。这有助于提高分类或回归任务的性能。
3.特征融合层将来自不同视图模块的特征进行融合,可以通过特征拼接、加权平均等方式实现。这种融合可以有效地结合不同贷款平台的特征信息,提高对整体数据的理解能力。通过综合考虑多个平台的特征,可以更全面地捕捉数据的特点和模式。
4.多层多视图学习模型的层次结构和特征融合机制有助于提高泛化能力。通过逐层学习和特征融合,可以更好地抓住数据中的共性和规律,减少对特定平台的过拟合情况。这使得本发明能够更好地适应新的、未见过的数据,具有较好的泛化性能。
5.基于多个贷款平台的特征融合,使能够综合多个来源的数据,更全面地理解和分析数据。通过学习不同平台之间的关联和影响,可以更准确地预测和推断,提供更全面的贷款评估和决策支持。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种基于多层多视图学习的用户风险评估方法流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实施例一、
如图1所示,本发明公开了一种基于多层多视图学习的用户风险评估方法,包括以下步骤:
步骤S101、收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;
步骤S103、对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;
步骤S105、将不同贷款平台的特征进行融合;
步骤S107、基于融合的特征建立多层多视图学习模型;
步骤S109、采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估。
实施例二、
本发明提供了一种基于多层多视图学习的用户风险评估方法,包括以下步骤:
步骤S101、收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;
步骤S103、对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;
步骤S105、将不同贷款平台的特征进行融合;
步骤S107、基于融合的特征建立多层多视图学习模型;
步骤S109、采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估。
其中,第一贷款平台数据包括借款金额、借款期限、借款目的;第二贷款平台数据包括企业基本信息、财务数据、行业分类;第三贷款平台数据包括房屋项目信息、销售数据、市场环境。
其中,所述步骤S101包括对第一贷款平台的数据进行预处理,提取如下特征:
特征1.1-每月的还款额,假设借款金额为LoanAmount,单位为货币,借款期限为LoanTerm,其单位为月,则每月还款额可以通过以下公式计算:
MonthlyRepayment = LoanAmount / LoanTerm;
特征1.2-负债比率,其指借款人的债务相对于其收入的比率,假设借款人的月收入为MonthlyIncome,则负债比率可以通过以下公式计算:
DebtRatio = MonthlyRepayment / MonthlyIncome;
特征1.3-特征编码,将对于借款目的这一分类特征,进行特征编码,将其转换为数值表示,以便于模型的处理。
在某一实施例中,其可以按照以下方式处理第一贷款平台的数据特征:
计算每月还款额:根据借款金额和借款期限,可以计算每月的还款额。假设借款金额为LoanAmount(单位为货币),借款期限为LoanTerm(单位为月),则每月还款额可以通过以下公式计算:
MonthlyRepayment = LoanAmount / LoanTerm
这样,每月还款额就成为一个新的特征,可以用于后续的建模和预测。
计算负债比率:负债比率是指借款人的债务相对于其收入的比率,用于评估其还款能力。可以通过借款金额和借款期限与借款人的收入信息结合,计算负债比率。假设借款人的月收入为MonthlyIncome,则负债比率可以通过以下公式计算:
DebtRatio = MonthlyRepayment / MonthlyIncome
这样,负债比率就成为另一个特征,可以用于风险评估和预测。
特征编码:对于借款目的这一分类特征,可以进行特征编码,将其转换为数值表示,以便于模型的处理。常用的编码方法包括独热编码(One-Hot Encoding)和标签编码(Label Encoding)。
独热编码:对于借款目的,可以创建一个二进制向量,每个二进制位代表一种借款目的。如果某个样本的借款目的对应的二进制位为1,表示该样本具有该借款目的,否则为0。
标签编码:对于借款目的,可以为每种借款目的分配一个唯一的整数标签,例如1表示购车贷款,2表示旅游贷款等。
特征编码后,可以将借款目的作为一个或多个新的数值特征引入模型中,以提供关于借款目的对风险的额外信息。
其中,所述步骤S101包括对第二贷款平台的数据进行预处理:
提取特征2.1-财务指标和特征2.2-特征编码,其中,特征2.1-财务指标为根据小微企业的财务数据,提取常用的财务指标作为特征,以反映企业的经营状况和财务健康度;特征2.2-特征编码,表示为每个行业类别分配一个整数标签;
将特征2.1和特征2.2进行归一化处理。
其中,所述财务指标包括营业收入、净利润、利润率、资产负债率、流动比率。
在某一实施例中,第一贷款平台提供个人消费贷款,数据包括借款金额、借款期限、借款目的等。
数据预处理:需要处理缺失值和异常值,例如对缺失的借款目的进行填充,对异常的借款金额进行处理。
可以根据借款金额和借款期限计算每月还款额、负债比率等特征,以及根据借款目的进行特征编码。
第二贷款平台提供小微企业贷款,数据包括企业基本信息、财务数据、行业分类等。
数据预处理:需要进行数据清洗和集成,例如处理企业基本信息中的重复记录,对财务数据进行归一化处理。
可以提取企业的财务指标,如营业收入、利润率等,以及根据行业分类进行特征编码或独热编码。
在某一实施例中,按照以下方式处理第二贷款平台的数据特征:
提取财务指标:根据小微企业的财务数据,可以提取一些常用的财务指标作为特征,以反映企业的经营状况和财务健康度。例如,可以计算营业收入、净利润、利润率、资产负债率、流动比率等指标。这些指标可以用于评估企业的盈利能力、偿债能力和流动性等方面。
特征编码或独热编码:对于行业分类这一分类特征,可以进行特征编码或独热编码,以将其转换为数值表示。特征编码可以为每个行业类别分配一个整数标签,而独热编码可以创建一个二进制向量,其中每个二进制位对应一个行业类别。具体选择哪种编码方法取决于行业类别的数量和模型的要求。
数据归一化:对于财务指标等数值型特征,可以进行数据归一化,以消除不同特征之间的量纲差异。常用的归一化方法包括最小-最大缩放和标准化。最小-最大缩放将数据缩放到特定的范围内,例如[0, 1];而标准化将数据转换为均值为0、标准差为1的分布。
通过上述处理,可以得到经过特征工程的数据,其中包含提取的财务指标和编码后的行业分类特征。这些特征可以用于后续的建模和预测,以评估小微企业的信用风险、贷款偿还能力等。
第三贷款平台为房地产开发商提供房地产贷款,数据包括项目信息、销售数据、市场环境等。
数据预处理:需要处理项目信息中的缺失值和异常值,例如填充缺失的销售数据,处理异常的市场环境数据。
可以提取项目的销售指标,如销售额、销售速度等,以及根据市场环境数据构建特征,如房价指数、人口密度等。
其中,所述步骤S101包括对第三贷款平台的数据进行预处理:
提取销售指标,其根据项目的销售数据,提取销售指标作为特征;
构建市场环境特征,以提供关于市场供需、房价趋势方面的信息;
将销售指标特征和市场环境特征中的数值型特征进行归一化处理。
其中,所述销售指标包括销售额、销售速度、销售周期、销售增长率;所述市场环境特征包括:房价指数、人口密度、就业率、人均收入。
在某一实施例中,可以按照以下方式处理第三贷款平台的数据特征:
提取销售指标:根据项目的销售数据,可以提取一些关键的销售指标作为特征。例如,可以计算销售额、销售速度、销售周期、销售增长率等指标。这些指标可以反映项目的销售状况和市场接受程度,对评估贷款风险和项目可行性具有重要意义。
构建市场环境特征:市场环境是影响房地产开发的重要因素之一。可以根据市场环境数据构建一些特征,以提供关于市场供需、房价趋势等方面的信息。例如,可以考虑构建房价指数、人口密度、就业率、人均收入等特征。这些特征可以反映项目所处的市场环境和潜在的市场需求。
数据归一化:对于数值型特征,如销售指标、市场环境数据等,可以进行数据归一化,以消除不同特征之间的量纲差异。归一化方法可以参考最小-最大缩放和标准化等。
通过上述处理,可以得到经过特征工程的数据,其中包含提取的销售指标和构建的市场环境特征。这些特征可以用于后续的建模和预测,以评估房地产项目的风险、贷款偿还能力等。
总之,数据预处理需要进行:
1.数据清洗:检查数据是否存在缺失值、异常值等问题,并进行适当的处理,如填充缺失值或删除异常值。
2.特征选择:通过探索性数据分析和相关性分析等方法,选择与目标变量相关性高的特征,并去除冗余特征,以减少模型复杂度和提高预测性能。
3.特征编码:对于分类特征,可以进行特征编码或独热编码,将其转换为数值表示。
对于某些场景,如个人消费贷款和小微企业贷款,模型的解释性可能是重要的。可以考虑使用可解释性较强的模型,如逻辑回归、决策树等,并进行解释性分析,以便理解和解释模型的决策过程。
其中,步骤S103中,可采用如下算法进行建模:
随机森林(Random Forest):随机森林是一种集成学习算法,它通过建立多个决策树并对它们进行集成来进行预测。随机森林可以有效地处理高维数据和非线性关系,具有较好的准确性和泛化能力。
梯度提升树(Gradient Boosting Tree):梯度提升树也是一种集成学习算法,它通过迭代地训练多个决策树来逐步减小预测误差。梯度提升树在处理非线性关系和处理高维数据方面表现出色,能够捕捉特征之间的复杂交互关系。
神经网络(Neural Network):神经网络是一种模仿人脑神经系统结构和工作原理的机器学习模型。通过多个神经元层的组合和激活函数的非线性变换,神经网络可以学习复杂的非线性关系。深度神经网络(Deep Neural Network)在处理大规模数据和复杂特征时表现出色。
支持向量机(Support Vector Machine):支持向量机是一种二分类模型,通过在特征空间中找到最优的超平面来进行分类。支持向量机在处理高维数据和非线性关系时表现出色,具有较好的泛化能力。
XGBoost:XGBoost是一种梯度提升框架,它结合了梯度提升树和正则化技术,具有较高的准确性和可解释性。XGBoost在处理大规模数据和复杂特征时表现出色,能够处理缺失值和异常值。
集成学习方法(Ensemble Learning):集成学习方法通过组合多个基础模型的预测结果来进行最终的预测。常见的集成学习方法包括投票法(Voting)、堆叠法(Stacking)和提升法(Boosting)。通过集成不同的模型,可以提高预测准确性并降低过拟合的风险。
在某一实施例中,对每个贷款平台的数据视图,使用单独的机器学习模型进行建模和训练,例如决策树、逻辑回归、随机森林等。
对每个数据视图的模型进行评估和调优,选择最优的模型参数和特征。
其中,所述步骤S105具体包括:
将不同贷款平台的特征按照相同的样本顺序进行连接,形成一个新的特征矩阵;
采用主成分分析PCA将融合后的特征矩阵进行降维处理。
将不同贷款平台的特征进行融合,可以使用特征拼接、特征加权等方式。
对融合后的特征进行降维处理,例如主成分分析(PCA)或因子分析等方法,以减少数据维度和提取关键特征。
特征拼接是将不同贷款平台的特征按照相同的样本顺序进行连接,形成一个新的特征矩阵。这种方法适用于特征之间没有明显关联性的情况。
例如,对于个人消费、小微企业和房地产贷款平台,可以将它们的特征按列进行拼接,形成一个包含所有平台特征的新特征矩阵。
在特征融合后,可能会出现高维度的特征空间。为了减少维度和提取关键特征,可以应用降维方法,如主成分分析(PCA)或因子分析。
PCA可以将高维特征空间转换为低维的主成分空间,保留最重要的特征信息。因子分析可以通过发现潜在因子来解释观察到的变量间的相关性。
这些降维方法可以帮助减少数据的冗余和噪声,提高模型的鲁棒性和泛化能力。
在某一实施例中,所述步骤107包括:
建立多层的多视图学习模型,可以使用神经网络、深度学习等模型。
每个层次的模型接收来自上一层次的特征表示,并将其作为输入进行训练和学习。
每个层次的模型可以包括卷积层、池化层、全连接层等,以提取更高层次的抽象特征。
对多层多视图学习模型进行集成,可以使用投票法、加权平均等方式。
对集成模型进行评估和验证,并进行性能调优。
在某一实施例中,所述步骤107包括:
假设所述三个贷款平台的特征表示分别为X1, X2和X3,每个平台的特征表示维度为D,
输入层接收三个贷款平台的特征表示作为输入:X1, X2, X3;
多层视图模块中包好三个视图模块,其中每个视图模块由卷积层、池化层和全连接层组成,用于提取高层次的抽象特征;
假设每个视图模块包含一个卷积层和一个池化层,每个视图模块的输出维度为F;
特征融合层将来自不同视图模块的特征进行使用特征拼接的方式融合,则融合后的特征维度为F * 3;
输出层接收特征融合层的输出作为输入,进行分类或回归任务;
假设输出层为一个全连接层:
隐层:输出层的节点数量为H;
输出层为softmax层;
则整个多层多视图学习模型的公式表示如下:
输入层:X1, X2, X3;
多层视图模块:
视图1:
Conv1_1 = Convolution(X1);
Pool1_1 = Pooling(Conv1_1);
视图2:
Conv2_1 = Convolution(X2);
Pool2_1 = Pooling(Conv2_1);
视图3:
Conv3_1 = Convolution(X3);
Pool3_1 = Pooling(Conv3_1);
特征融合层:
ConcatenatedFeatures = Concatenate(Pool1_1, Pool2_1, Pool3_1);
输出层:
HiddenLayer = FullyConnected(ConcatenatedFeatures, H);
OutputLayer = Output(HiddenLayer);
其中,Convolution表示卷积操作,Pooling表示池化操作,Concatenate表示特征拼接操作,FullyConnected表示全连接层操作,Output表示输出层操作。
使用标注的训练数据对模型进行训练,可以使用反向传播算法和梯度下降优化方法。
在训练过程中,可以使用交叉验证方法评估模型的性能,并进行超参数调优,如学习率、正则化参数等。
使用独立的测试数据集对训练好的模型进行评估,计算评估指标,如准确率、召回率、F1分数等。
对新数据进行推断时,将新数据输入到训练好的模型中,得到相应的预测结果。
实施例三、
再举例来说:
假如第一贷款平台视图模块:
输入特征:借款金额、借款期限、借款目的。
假设使用全连接层进行特征提取和表示:
隐层1:Hidden1 = FullyConnected(X1, H1)
隐层2:Hidden2 = FullyConnected(Hidden1, H2)
第二贷款平台视图模块:
输入特征:业基本信息、财务数据、行业分类。
假设使用全连接层进行特征提取和表示:
隐层1:Hidden3 = FullyConnected(X2, H3)
隐层2:Hidden4 = FullyConnected(Hidden3, H4)
第三贷款平台视图模块:
输入特征:房屋项目信息、销售数据、市场环境。
假设使用全连接层进行特征提取和表示:
隐层1:Hidden5 = FullyConnected(X3, H5)
隐层2:Hidden6 = FullyConnected(Hidden5, H6)
特征融合层:
将来自不同视图模块的特征进行融合,可以通过特征拼接的方式:
融合后的特征:ConcatenatedFeatures = Concatenate(Hidden2, Hidden4,Hidden6)
输出层:
输出层接收特征融合层的输出作为输入,进行分类或回归任务。
假设输出层为一个全连接层:
隐层:Hidden7 = FullyConnected(ConcatenatedFeatures, H7)
输出层:Output = OutputLayer(Hidden7)
其中,FullyConnected表示全连接层操作,Concatenate表示特征拼接操作,OutputLayer表示输出层操作。
实施例四、
假设我们有三个视图模块,分别对应第一贷款平台、第二贷款平台和第三贷款平台的数据。每个视图模块都有自己的特征提取和表示过程。
数据预处理:
在数据预处理阶段,我们可以对每个平台的数据进行标准化处理,使其具有相似的尺度和范围。假设使用z-score标准化方法,对每个特征进行处理,计算公式如下:
第一贷款平台数据预处理:
借款金额:X1_normalized = (X1 - mean(X1)) / std(X1)
借款期限:X2_normalized = (X2 - mean(X2)) / std(X2)
借款目的:X3_normalized = (X3 - mean(X3)) / std(X3)
第二贷款平台数据预处理:
业基本信息:X4_normalized = (X4 - mean(X4)) / std(X4)
财务数据:X5_normalized = (X5 - mean(X5)) / std(X5)
行业分类:X6_normalized = (X6 - mean(X6)) / std(X6)
第三贷款平台数据预处理:
房屋项目信息:X7_normalized = (X7 - mean(X7)) / std(X7)
销售数据:X8_normalized = (X8 - mean(X8)) / std(X8)
市场环境:X9_normalized = (X9 - mean(X9)) / std(X9)
特征提取和表示:
在每个视图模块中,我们使用全连接层进行特征提取和表示。假设每个视图模块的全连接层的输入特征为X_normalized,权重为W,偏置为b,激活函数为ReLU(RectifiedLinear Unit)。
第一贷款平台视图模块:
隐层1:Hidden1 = ReLU(X1_normalized * W1 + b1)
隐层2:Hidden2 = ReLU(Hidden1 * W2 + b2)
第二贷款平台视图模块:
隐层1:Hidden3 = ReLU(X4_normalized * W3 + b3)
隐层2:Hidden4 = ReLU(Hidden3 * W4 + b4)
第三贷款平台视图模块:
隐层1:Hidden5 = ReLU(X7_normalized * W5 + b5)
隐层2:Hidden6 = ReLU(Hidden5 * W6 + b6)
特征融合:
特征融合层将来自不同视图模块的特征进行融合。可以采用特征拼接的方式将各模块的输出连接在一起,形成一个综合的特征向量。
融合后的特征:ConcatenatedFeatures = Concatenate(Hidden2, Hidden4,Hidden6)
输出层:
在融合后的特征基础上,可以添加一个输出层进行最终的分类或回归任务。假设输出层的权重为W7,偏置为b7。
预测输出:Output = ConcatenatedFeatures * W7 + b7
在上述示例中,我们对每个平台的数据进行了标准化处理,然后在每个视图模块中使用全连接层进行特征提取和表示。特征融合层采用特征拼接的方式,将各个视图模块输出的特征连接在一起形成一个综合的特征向量。最后,使用一个输出层对融合后的特征进行进一步处理,得到最终的预测输出。
实施例五、
本发明还提出了一种基于多层多视图学习的用户风险评估系统,其包括:
收集模块,其用于收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;
单层视图模块,其用于对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;
特征融合模块,其用于将不同贷款平台的特征进行融合;
多层多视图模块,其用于基于融合的特征建立多层多视图学习模型;
评估模块,其用于采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估。
实施例六、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种基于多层多视图学习的用户风险评估方法,其特征在于,包括以下步骤:
步骤S101、收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;
步骤S103、对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;
步骤S105、将不同贷款平台的特征进行融合;
步骤S107、基于融合的特征建立多层多视图学习模型;
步骤S109、采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估。
2.如权利要求1所述方法,其特征在于,其中第一贷款平台数据包括借款金额、借款期限、借款目的;第二贷款平台数据包括企业基本信息、财务数据、行业分类;第三贷款平台数据包括房屋项目信息、销售数据、市场环境。
3.如权利要求2所述方法,其特征在于,其中所述步骤S101包括对第一贷款平台的数据进行预处理,提取如下特征:
特征1.1-每月的还款额,假设借款金额为LoanAmount,单位为货币,借款期限为LoanTerm,其单位为月,则每月还款额通过以下公式计算:
MonthlyRepayment = LoanAmount / LoanTerm;
特征1.2-负债比率,其指借款人的债务相对于其收入的比率,假设借款人的月收入为MonthlyIncome,则负债比率通过以下公式计算:
DebtRatio = MonthlyRepayment / MonthlyIncome;
特征1.3-特征编码,将对于借款目的这一分类特征,进行特征编码,将其转换为数值表示,以便于模型的处理。
4.如权利要求2所述方法,其特征在于,其中所述步骤S101包括对第二贷款平台的数据进行预处理:
提取特征2.1-财务指标和特征2.2-特征编码,其中,特征2.1-财务指标为根据小微企业的财务数据,提取常用的财务指标作为特征,以反映企业的经营状况和财务健康度;特征2.2-特征编码,表示为每个行业类别分配一个整数标签;
将特征2.1和特征2.2进行归一化处理。
5.如权利要求4所述方法,其特征在于,其中所述财务指标包括营业收入、净利润、利润率、资产负债率、流动比率。
6.如权利要求2所述方法,其特征在于,其中所述步骤S101包括对第三贷款平台的数据进行预处理:
提取销售指标,其根据项目的销售数据,提取销售指标作为特征;
构建市场环境特征,以提供关于市场供需、房价趋势方面的信息;
将销售指标特征和市场环境特征中的数值型特征进行归一化处理。
7.如权利要求6所述方法,其特征在于,其中所述销售指标包括销售额、销售速度、销售周期、销售增长率;所述市场环境特征包括:房价指数、人口密度、就业率、人均收入。
8.如权利要求2所述方法,其特征在于,其中所述步骤S105具体包括:
将不同贷款平台的特征按照相同的样本顺序进行连接,形成一个新的特征矩阵;
采用主成分分析PCA将融合后的特征矩阵进行降维处理。
9.如权利要求8所述方法,其特征在于,其中所述步骤107包括:
假设三个贷款平台的特征表示分别为X1, X2和X3,每个平台的特征表示维度为D,
输入层接收三个贷款平台的特征表示作为输入:X1, X2, X3;
多层视图模块中包好三个视图模块,其中每个视图模块由卷积层、池化层和全连接层组成,用于提取高层次的抽象特征;
假设每个视图模块包含一个卷积层和一个池化层,每个视图模块的输出维度为F;
特征融合层将来自不同视图模块的特征进行使用特征拼接的方式融合,则融合后的特征维度为F * 3;
输出层接收特征融合层的输出作为输入,进行分类或回归任务;
假设输出层为一个全连接层:
隐层:输出层的节点数量为H;
输出层为softmax层;
则整个多层多视图学习模型的公式表示如下:
输入层:X1, X2, X3;
多层视图模块:
视图1:
Conv1_1 = Convolution(X1);
Pool1_1 = Pooling(Conv1_1);
视图2:
Conv2_1 = Convolution(X2);
Pool2_1 = Pooling(Conv2_1);
视图3:
Conv3_1 = Convolution(X3);
Pool3_1 = Pooling(Conv3_1);
特征融合层:
ConcatenatedFeatures = Concatenate(Pool1_1, Pool2_1, Pool3_1);
输出层:
HiddenLayer = FullyConnected(ConcatenatedFeatures, H);
OutputLayer = Output(HiddenLayer);
其中,Convolution表示卷积操作,Pooling表示池化操作,Concatenate表示特征拼接操作,FullyConnected表示全连接层操作,Output表示输出层操作。
10.一种基于多层多视图学习的用户风险评估系统,其特征在于,包括:
收集模块,其用于收集来自不同贷款平台的数据并进行预处理,其中所述不同贷款平台的数据彼此没有关联性;
单层视图模块,其用于对每个贷款平台的数据视图,采用不同的机器学习模型进行建模和训练;
特征融合模块,其用于将不同贷款平台的特征进行融合;
多层多视图模块,其用于基于融合的特征建立多层多视图学习模型;
评估模块,其用于采用优化后的多层多视图学习模型基于新输入的用户数据进行风险评估。
CN202311675215.9A 2023-12-08 2023-12-08 一种基于多层多视图学习的用户风险评估方法及系统 Pending CN117391847A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311675215.9A CN117391847A (zh) 2023-12-08 2023-12-08 一种基于多层多视图学习的用户风险评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311675215.9A CN117391847A (zh) 2023-12-08 2023-12-08 一种基于多层多视图学习的用户风险评估方法及系统

Publications (1)

Publication Number Publication Date
CN117391847A true CN117391847A (zh) 2024-01-12

Family

ID=89472434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311675215.9A Pending CN117391847A (zh) 2023-12-08 2023-12-08 一种基于多层多视图学习的用户风险评估方法及系统

Country Status (1)

Country Link
CN (1) CN117391847A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934160A (zh) * 2024-03-21 2024-04-26 杭银消费金融股份有限公司 一种基于多模型融合的风险等级划分方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177701A (zh) * 2021-04-15 2021-07-27 国任财产保险股份有限公司 一种用户信用评估方法和装置
CN113240509A (zh) * 2021-05-18 2021-08-10 重庆邮电大学 一种基于多源数据联邦学习的贷款风险评估方法
CN113870259A (zh) * 2021-12-02 2021-12-31 天津御锦人工智能医疗科技有限公司 多模态医学数据融合的评估方法、装置、设备及存储介质
CN115983984A (zh) * 2023-02-20 2023-04-18 杭银消费金融股份有限公司 一种多模型融合的客户风险评级方法
KR102528480B1 (ko) * 2023-02-07 2023-05-03 주식회사 뱅크몰 Ai 및 딥러닝 기술을 이용한 맞춤형 담보대출 검색 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177701A (zh) * 2021-04-15 2021-07-27 国任财产保险股份有限公司 一种用户信用评估方法和装置
CN113240509A (zh) * 2021-05-18 2021-08-10 重庆邮电大学 一种基于多源数据联邦学习的贷款风险评估方法
CN113870259A (zh) * 2021-12-02 2021-12-31 天津御锦人工智能医疗科技有限公司 多模态医学数据融合的评估方法、装置、设备及存储介质
KR102528480B1 (ko) * 2023-02-07 2023-05-03 주식회사 뱅크몰 Ai 및 딥러닝 기술을 이용한 맞춤형 담보대출 검색 시스템
CN115983984A (zh) * 2023-02-20 2023-04-18 杭银消费金融股份有限公司 一种多模型融合的客户风险评级方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934160A (zh) * 2024-03-21 2024-04-26 杭银消费金融股份有限公司 一种基于多模型融合的风险等级划分方法

Similar Documents

Publication Publication Date Title
Milana et al. Artificial intelligence techniques in finance and financial markets: a survey of the literature
US20230260048A1 (en) Implementing Machine Learning For Life And Health Insurance Claims Handling
Bastani et al. Wide and deep learning for peer-to-peer lending
Bartram et al. Artificial intelligence in asset management
Tam et al. Managerial applications of neural networks: the case of bank failure predictions
Bahrammirzaee A comparative survey of artificial intelligence applications in finance: artificial neural networks, expert system and hybrid intelligent systems
Chen et al. Predicting default risk on peer-to-peer lending imbalanced datasets
Rahmaty et al. Customer churn modeling via the grey wolf optimizer and ensemble neural networks
CN117391847A (zh) 一种基于多层多视图学习的用户风险评估方法及系统
Klaas Machine learning for finance: principles and practice for financial insiders
Ping The Machine Learning Solutions Architect Handbook: Create machine learning platforms to run solutions in an enterprise setting
Islam et al. Application of artificial intelligence (artificial neural network) to assess credit risk: a predictive model for credit card scoring
Ferencek et al. Deep learning predictive models for terminal call rate prediction during the warranty period
Manikonda et al. Explainable machine learning for credit lending
Mihov et al. Towards Augmented Financial Intelligence
Zand Towards intelligent risk-based customer segmentation in banking
Roberts et al. Risk Modeling: Practical Applications of Artificial Intelligence, Machine Learning, and Deep Learning
KR102565219B1 (ko) 빅데이터 기반 투자성향 분석 결과에 따른 분산투자 추천 시스템
Rusiñol de Rueda Two-Layer Feed Forward Neural Network (TLFN) in Predicting Loan Default Probability
Ojha et al. Default analysis in mortgage risk with conventional and deep machine learning focusing on 2008–2009
Cooper A Deep Learning Prediction Model for Mortgage Default
Muswere Fraudulent Vehicle Insurance Claims Prediction Model Using Supervised Machine Learning in the Zimbabwean Insurance Industry.
Zakowska A New Credit Scoring Model to Reduce Potential Predatory Lending: A Design Science Approach
US11900268B1 (en) System and methods for modular completion of a pecuniary-related activity
Obunadike Machine learning for credit risk analysis across the United States

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination