CN116205726B - 一种贷款风险预测方法、装置、电子设备及存储介质 - Google Patents
一种贷款风险预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116205726B CN116205726B CN202310474449.0A CN202310474449A CN116205726B CN 116205726 B CN116205726 B CN 116205726B CN 202310474449 A CN202310474449 A CN 202310474449A CN 116205726 B CN116205726 B CN 116205726B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- sub
- unstructured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供一种贷款风险预测方法、装置、电子设备及存储介质,该方法包括:获取用户数据,用户数据包括非结构化用户数据和结构化用户数据;将用户数据输入预设的风险预测模型,获得风险预测结果;风险预测模型包括第一子模型和第二子模型;第一子模型为通过对非结构化训练数据进行训练获得的;第二子模型为通过第一子模型获得数据特征,并对数据特征和结构化训练数据进行训练获得的。第一子模型用于非结构化数据中的信息提取,通过将第一子模型输出的数据特征输入第二子模型,获得风险预测结果。提高非结构化数据中的信息利用率的同时,有效利用逻辑回归或集成决策树的可解释性,提高风险预测模型的风险评估和预测能力。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种贷款风险预测方法、装置、电子设备及存储介质。
背景技术
贷款风险控制是指在贷款还款过程中,通过算法分析借款人的信用数据和还款行为,预测借款人可能出现还款问题的风险。由于贷款业务形式数量巨大,且风险形式多样,因此风险控制是这类业务的核心基础。目前大部分企业是通过风险策略模型或人工进行风险控制,对用户在借款时填写的信息进行分析和整理,从而进行贷款风险的预测。这种方式无法充分利用数据的特点和信息,导致预测精度较低。
发明内容
本发明实施例的目的在于一种贷款风险预测方法、装置、电子设备及存储介质,利用灵活选取结构各异的数据训练风险预测模型,扩充特征的维度,提高风险预测模型的预测能力。
第一方面,本申请实施例提供了一种贷款风险预测方法,包括:获取用户数据,用户数据包括非结构化用户数据和结构化用户数据;将用户数据输入预设的风险预测模型,获得风险预测结果;风险预测模型包括第一子模型和第二子模型;第一子模型为通过对非结构化训练数据进行训练获得的;第二子模型为通过第一子模型获得数据特征,并对数据特征和结构化训练数据进行训练获得的。
在上述的实现过程中,风险预测模型包括第一子模型和第二子模型,第一子模型用于非结构化数据中的信息提取,将通过第一子模型输出的数据特征输入第二子模型,获得风险预测结果。提高非结构化数据中的信息利用率的同时,有效利用逻辑回归或集成决策树的可解释性,提高风险预测模型的风险评估和预测能力。
可选的,在本申请实施例中,非结构化训练数据包括第一非结构化训练数据和第二非结构化训练数据;在将用户数据输入预设的风险预测模型,获得风险预测结果之前,方法还包括:通过第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型;将第二非结构化训练数据输入第一子模型,获得数据特征;通过数据特征和结构化训练数据,对预设的元模型进行训练,获得第二子模型。
在上述的实现过程中,风险预测模型包括第一子模型和第二子模型,利用非结构化训练数据训练第一子模型,利用结构化训练数据训练第二子模型,可以根据风控业务需求,灵活选取结构各异的数据训练风险预测模型,提高风险预测模型的预测能力,实现在较为复杂的情况下进行准确的风险预测。
可选的,在本申请实施例中,通过第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型,包括:基于第一非结构化训练数据,获得向量序列;将向量序列添加对应的标签;通过添加标签后的向量序列,训练神经网络,获得第一子模型。
在上述的实现过程中,通过第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型。使用神经网络来充分利用高维度数据,在原有的结构化特征的基础上,扩充特征的维度。使风险预测模型能使用的数据范围大幅扩大,提高风险预测的准确性。
可选的,在本申请实施例中,第一非结构化训练数据包括事件序列数据;向量序列包括事件向量序列;基于第一非结构化训练数据,获得向量序列,包括:获得事件序列数据的属性信息;基于事件序列数据对应的属性信息,和前一个事件序列数据对应的属性信息,获得事件序列数据的衍生属性信息;将事件序列数据的属性信息和衍生属性信息进行拼接,生成事件序列数据的特征向量;将每一事件序列数据的特征向量按照时间顺序进行拼接,获得事件向量序列。
在上述的实现过程中,通过收集和整合多种来源和不同类型的数据,对事件序列数据进行分析,发现隐藏在数据中的信息,实现对客户的多维度评估,提高模型的精度。
可选的,在本申请实施例中,向量序列包括行为向量序列;基于第一非结构化训练数据,获得向量序列,包括:获得行为序列数据对应的行为时间信息;根据行为时间信息将行为序列数据进行拼接,获得行为向量序列。
在上述的实现过程中,深度利用行为序列数据等高维度复杂结构的数据,提高模型的适用性和准确率。
可选的,在本申请实施例中,通过数据特征和结构化训练数据,对预设的元模型进行训练,获得第二子模型,包括:通过预设的特征生成规则,基于结构化训练数据,生成结构化训练数据特征;将数据特征和结构化训练数据特征加入特征池;对特征池中的数据特征和结构化训练数据特征进行筛选,获得入模特征;通过入模特征对元模型进行训练,获得第二子模型。
在上述的实现过程中,通过分步训练第一子模型和第二子模型,风险预测模型为融合了第一子模型和第二子模型的堆叠模型;同时第二子模型融入了基于规则衍生的具有可解释性的特征,使模型保留了一定程度的可解释性,提高了风险预测模型预测风险的准确性。
可选的,在本申请实施例中,将用户数据输入预设的风险预测模型,获得风险预测结果,包括:将非结构化用户数据输入第一子模型,获得非结构化用户数据特征;基于结构化用户数据,生成结构化用户数据特征;将非结构化用户数据特征和结构化用户数据特征进行拼接,生成拼接特征;将拼接特征输入第二子模型,获得风险预测结果。
在上述的实现过程中,通过将非结构化用户数据特征和结构化用户数据特征进行拼接,生成拼接特征;将拼接特征输入第二子模型,获得风险预测结果。充分利用非结构化用户数据特征,在原有的结构化特征的基础上,扩充特征的维度。使信用和欺诈的综合风险得到精准控制。
第二方面,本申请实施例还提供了一种贷款风险预测装置,包括:获取模块,用于获取用户数据,用户数据包括非结构化用户数据和结构化用户数据;预测模块,用于将用户数据输入预设的风险预测模型,获得风险预测结果;风险预测模型包括第一子模型和第二子模型;第一子模型为通过对非结构化训练数据进行训练获得的;第二子模型为通过第一子模型获得数据特征,并对数据特征和结构化训练数据进行训练获得的。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上面描述的方法。
采用本申请提供贷款风险预测方法、装置、电子设备及存储介质,风险预测模型包括第一子模型和第二子模型,第一子模型用于非结构化数据中的信息提取,通过将第一子模型输出的数据特征输入第二子模型,获得风险预测结果。提高非结构化数据中的信息利用率的同时,有效利用逻辑回归或集成决策树的可解释性,提高风险预测模型的风险评估和预测能力,实现在较为复杂的情况下进行准确的风险预测。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种贷款风险预测方法的流程示意图;
图2为本申请实施例提供的风险预测模型的示意图;
图3为本申请实施例提供的贷款风险预测装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
在本申请实施例的描述中,技术术语“第一”、“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个及以上,除非另有明确具体的限定。
现有的用于评估用户贷款风险的风险预测模型使用的算法以逻辑回归和集成决策树为主。对于风险预测模型的建立,需要先基于特征生成规则,将原始数据进行特征衍生,生成原始数据对应的数据特征,然后使用这些数据特征建立模型。这种方式很难充分利用图像,文字,序列等高维度非结构化数据。基于特征生成规则生成的特征,只能提取非结构化数据中的少量的信息,很难全方面覆盖高维度数据中的信息,从而导致逻辑回归和集成决策树为主的风险预测模型的预测准确率较低。
基于深度神经网络的深度学习模型,更加适用于从高维度数据,即非结构化数据中提取信息。但是若采用深度学习模型取代现有的风险预测模型中的逻辑回归或集成决策树,因为神经网络的可解释性远远低于逻辑回归和决策树,因此,也会导致风险预测模型的预测准确率较低。
现有技术中的反欺诈模型中虽然使用了神经网络,利用了图像等高维度数据,但其应用的场景比较狭窄且分散,仅限于对用户在办理贷款时是否存在他人代办、非本人操作或其他违规操作等欺诈场景进行识别。现有技术的反欺诈模型中的神经网络且并不能和信用模型中的逻辑回归或集成决策树进行有效结合,以实现对用户的还款能力、逾期风险等进行预测。
为了实现对客户进行全面评估,在提高非结构化数据中的信息利用率的同时,有效利用逻辑回归或集成决策树的可解释性,提高风险预测模型的风险评估和预测能力,本申请实施例提供一种贷款风险预测方法,其中,风险预测模型包括第一子模型和第二子模型,第一子模型用于处理非结构化数据中的信息提取,并将第一子模型输出的数据特征输入第二子模型,对用户进行全面的风险预测,提高评估预测的准确性。
请参见图1示出的本申请实施例提供的一种贷款风险预测方法的流程示意图。本申请实施例提供的贷款风险预测方法可以应用于电子设备,该电子设备可以包括终端以及服务器;其中终端具体可以为智能手机、平板电脑、计算机、个人数字助理(PersonalDigital Assitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。该贷款风险预测方法可以包括以下步骤:
步骤S110:获取用户数据,用户数据包括非结构化用户数据和结构化用户数据。
步骤S120:将用户数据输入预设的风险预测模型,获得风险预测结果;风险预测模型包括第一子模型和第二子模型;第一子模型为通过对非结构化训练数据进行训练获得的;第二子模型为通过第一子模型获得数据特征,并对数据特征和结构化训练数据进行训练获得的。
在步骤S110中,用户在进行贷款业务的办理时,通常是通过终端设备中的信贷产品客户端软件进行操作,例如通过手机、平板电脑或计算机中安装的贷款APP(Application,应用程序)内填写个人信息以及进行身份验证等。因此,可以在获得用户授权之后,通过该终端设备对用户数据进行采集。
非结构化用户数据可以为不适用于由数据库二维表来表达和实现的高维度数据。示例性的,非结构化用户数据可以包括图像和视频类数据、文本类数据、序列数据和信号数据等。在贷款风险预测场景中,图像和视频类数据例如活体人脸验证视频以及身份证照片等;文本类数据例如用户填写的申请信息等;序列数据例如通过终端设备获取到的各类页面操作数据以及行为操作数据等;信号数据例如声音信号和传感器信号等。本申请实施例采集的非结构化用户数据可以为上述列举的数据中的一种或多种,还可以为其他非结构化数据。
结构化用户数据可以为由二维表结构来逻辑表达和实现的数据,可以通过关系型数据库进行存储和管理。示例性的,结构化用户数据包括用户个人信息和采集用户数据的终端设备对应的设备信息等。
在步骤S120中,风险预测模型包括第一子模型和第二子模型,风险预测模型可以理解为是由第一子模型和第二子模型组成的堆叠模型。
第一子模型可以为基于深度神经网络的深度学习模型;第一子模型用于提取非结构化用户数据的数据特征信息。每一类非结构化用户数据可以具有对应类型的第一子模型,例如,若非结构化用户数据为图像和视频类数据,则第一子模型可以为利用CNN建立计算机视觉模型;若非结构化用户数据为文本类数据,则第一子模型可以为自然语言处理(NLP)模型;若非结构化用户数据为序列数据,则第一子模型可以为利用LSTM建立的序列处理模型;若非结构化用户数据为信号数据,则第一子模型可以为利用Transformer建立的信号处理模型。
第二子模型包括逻辑回归模型或集成决策树,具体例如GBDT(Gradient BoostingDecision Tree,梯度提升决策树)或广义线性回归模型等。第二子模型用于对根据第一子模型提取的非结构化用户数据的数据特征,以及基于特征衍生规则生成的结构化特征,进行风险预测,获得风险预测结果。
利用风险预测模型获得风险预测结果的过程可以为:将用户数据中的非结构化用户数据输入与之对应的第一子模型,获得数据特征;基于特征衍生规则,根据结构化用户数据生成对应的结构化特征;再将数据特征和结构化特征作为第二子模型的输入,输入第二子模型,获得风险预测结果。风险预测结果可以为用户信用评分、欺诈预测、收入预测或还款逾期风险概率等。
在上述的实现过程中,风险预测模型包括第一子模型和第二子模型,第一子模型用于提取非结构化数据中的特征信息,通过将第一子模型输出的数据特征输入第二子模型,获得风险预测结果。提高非结构化数据中的信息利用率的同时,有效利用结构化数据的可解释性,提高风险预测模型的风险评估和预测能力。
可选的,在本申请实施例中,非结构化训练数据包括第一非结构化训练数据和第二非结构化训练数据;在将用户数据输入预设的风险预测模型,获得风险预测结果之前,方法还包括:通过第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型;将第二非结构化训练数据输入第一子模型,获得数据特征;通过数据特征和结构化训练数据,对预设的元模型进行训练,获得第二子模型。
在具体的实现过程中:第一子模型中的神经网络编码器输出的数据特征,进入第二子模型中的逻辑回归模型或集成决策树,就形成了堆叠模型,即风险预测模型。但由于神经网络与逻辑回归模型或集成决策树的训练方式完全不同,因此,通过第一子模型和第二子模型堆叠组成的风险预测模型,难以直接训练。以GBDT为例,神经网络和GBDT都需要迭代,但神经网络每次迭代时所有参数都会发生变化,而GBDT每次迭代时增加会一部分参数,之前的参数不会改变,这使神经网络和GBDT难以同时迭代,进而无法直接训练。
本申请实施例采用对第一子模型和第二子模型进行分步训练的方式,以实现获得风险预测模型。对于第一子模型的训练过程,具体例如,采集第一非结构化训练数据,这里的非结构化训练数据根据实际风险预测场景进行采集。例如,风险预测场景为对客户的还款逾期风险进行预测,则采集的第一非结构化训练数据可以为通过客户端采集的采集设备中的各类数据,例如手持智能设备上的触控行为;还可以为整个信贷周期中预定义的各类事件,如注册,活体人脸验证等数据。通过上述采集到的第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型。
第二子模型的训练过程,具体例如,将预先采集的第二非结构化训练数据,输入训练好的第一子模型,通过第一子模型对第二非结构化训练数据进行推理,获得第二非结构化训练数据对应的数据特征。
其中,第二非结构化训练数据为相对于第一非结构化训练数据而言新的训练集,其数据类型和采集方式等可以与第一非结构化训练数据相同。通过不同的训练集分别训练第一子模型和第二子模型,改善第一子模型和第二子模型的训练过程采用相同的训练集,造成模型过拟合的问题。
在获取到第二非结构化训练数据对应的数据特征后,通过该数据特征和结构化训练数据,结合预设的标签,对预设的元模型进行训练,获得第二子模型。其中,可以选取GBDT或广义线性回归作为元模型的算法,训练元模型。
元模型的训练标签可以和第一子模型中的神经网络的训练标签相同,也可以不同。作为一种实施方式,第一子模型的标签可以设置为欺诈的相关内容,元模型的标签可以设置为贷款还款、债务违约的相关内容。使用第一子模型提取数据中的欺诈相关的信息,再输入给元模型进行以贷款还款、债务违约等为标签的训练,则第二子模型就可以建立欺诈特征与债务违约之间的联系,实现信用评估和反欺诈的一体化。
在上述的实现过程中,风险预测模型包括第一子模型和第二子模型,利用非结构化训练数据训练第一子模型,利用结构化训练数据训练第二子模型,可以根据风控业务需求,灵活选取结构各异的数据训练风险预测模型,提高风险预测模型的预测能力,实现在较为复杂的情况下进行准确的风险预测。
可选的,在本申请实施例中,通过第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型,包括:基于第一非结构化训练数据,获得向量序列;将向量序列添加对应的标签;通过添加标签后的向量序列,训练神经网络,获得第一子模型。
在具体的实现过程中:训练第一子模型的过程具体可以为:基于第一非结构化训练数据,获得第一非结构化训练数据对应的向量序列。其中,第一非结构化训练数据包括事件序列数据和行为序列数据;相对应的,事件序列数据对应的向量序列为事件向量序列,行为序列数据对应的向量序列为行为向量序列。
对采集到的第一非结构化训练数据进行数据预处理,获得向量序列。根据向量序列中的信息,将向量序列添加对应的标签,标签包括逾期还款、正常还款、贷款代偿或代办欺诈等。通过添加标签后的向量序列,训练神经网络,获得第一子模型。
其中,事件序列数据和行为序列数据可以分别独立训练其对应的神经网络,但使用相同的标签;也可以分别独立训练其对应的神经网络,并使用不相同的标签;还可以将事件序列数据和行为序列数据对应的神经网络集成在一起,使用相同的标签,进行多模态数据的训练。
在上述的实现过程中,通过第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型。通过神经网络来充分利用高维度数据,在原有的结构化的特征的基础上,扩充特征的维度。使风险预测模型能使用的数据范围大幅扩大,提高风险预测的准确性。
可选的,在本申请实施例中,第一非结构化训练数据包括事件序列数据;向量序列包括事件向量序列;基于第一非结构化训练数据,获得向量序列,包括:获得事件序列数据的属性信息;基于事件序列数据对应的属性信息,和前一个事件序列数据对应的属性信息,获得事件序列数据的衍生属性信息;将事件序列数据的属性信息和衍生属性信息进行拼接,生成事件序列数据的特征向量;将每一事件序列数据的特征向量按照时间顺序进行拼接,获得事件向量序列。
在具体的实现过程中:事件序列数据为用户通过终端设备中的信贷产品客户端软件进行操作时,整个操作流程中,记录的每个事件的信息。事件序列数据包括注册、活体认证、申请、提现和/或还款等页面操作事件对应的信息。事件序列数据的属性信息包括事件时间信息和/或事件空间信息;事件时间信息为事件发生的时间,事件空间信息为时间发生的地点,例如GPS定位数据等。
基于事件序列数据对应的属性信息,和前一个事件序列数据对应的属性信息,获得事件序列数据的衍生属性信息。其中,前一个事件序列数据为按照时间顺序排列,在当前事件前一个发生的事件。基于事件序列数据的属性信息中的事件时间信息和/或事件空间信息,计算事件序列数据和前一个事件序列数据的时间位移和/或空间位移,将时间位移和/或空间位移作为事件序列数据的衍生属性信息。
将事件序列数据的属性信息和衍生属性信息进行拼接,生成当前事件序列数据的特征向量,将每一事件序列数据的特征向量按照时间顺序进行拼接,获得事件向量序列。
在一个可选的实施例中,事件序列数据的属性信息还可以包括事件类型,可以将事件序列数据和前一个事件序列数据的类型变化,作为事件序列数据的衍生属性信息。
在上述的实现过程中,通过收集和整合多种来源和不同类型的数据,对事件序列数据进行分析,深度挖掘隐藏在数据中的信息,实现对客户的多维度评估,提高模型的精度。
可选的,在本申请实施例中,向量序列包括行为向量序列;基于第一非结构化训练数据,获得向量序列,包括:获得行为序列数据对应的行为时间信息;根据行为时间信息将行为序列数据进行拼接,获得行为向量序列。
在具体的实现过程中:行为序列数据包括终端设备上的触控行为和还款行为的信息,例如每期还款的具体情况为逾期、正常或代偿,以及还款的方式等。获得行为序列数据对应的行为时间信息,具体可以为每一期还款的时间。按照行为时间信息将行为序列数据进行拼接,获得行为向量序列。
在上述的实现过程中,深度利用行为序列数据等高维度复杂结构的数据,提高模型的适用性和准确率。
可选的,在本申请实施例中,通过数据特征和结构化训练数据,对预设的元模型进行训练,获得第二子模型,包括:通过预设的特征生成规则,基于结构化训练数据,生成结构化训练数据特征;将数据特征和结构化训练数据特征加入特征池;对特征池中的数据特征和结构化训练数据特征进行筛选,获得入模特征;通过入模特征对元模型进行训练,获得第二子模型。
在具体的实现过程中:通过预设的特征生成规则,将结构化训练数据进行映射,生成结构化训练数据特征。特征映射是将数据映射到高维空间。
将数据特征和结构化训练数据特征加入特征池,对特征池中的特征进行特征分析和筛选,特征筛选可以通过以下方式进行,第一种方式:过滤式方法,过滤式方法基于预先定义的标准来筛选特征,例如基于单独特征与目标变量的相关性或单独特征的信息增益来筛选特征。第二种方式:包裹式方法,包裹式方法基于模型性能来筛选特征,例如使用递归特征消除算法来迭代地消除不重要的特征。经过筛选后,保留下来的特征作为入模特征;利用预先设计的标签,将入模特征添加对应的标签,可以选取GBDT或广义线性回归作为元模型的算法,通过入模特征训练元模型,获得第二子模型。
在上述的实现过程中,风险预测模型为融合了第一子模型和第二子模型的堆叠模型;第一子模型获取非结构化数据特征,第二子模型融入了基于规则衍生的具有可解释性的特征,使模型保留了一定程度的可解释性,提高了风险预测模型预测风险的准确性。
请参见图2示出的本申请实施例提供的风险预测模型的示意图。
可选的,在本申请实施例中,将用户数据输入预设的风险预测模型,获得风险预测结果,包括:将非结构化用户数据输入第一子模型,获得非结构化用户数据特征;基于结构化用户数据,生成结构化用户数据特征;将非结构化用户数据特征和结构化用户数据特征进行拼接,生成拼接特征;将拼接特征输入第二子模型,获得风险预测结果。
在具体的实现过程中:如图2所示,非结构化用户数据包括事件序列数据和行为序列数据,具体可以为还款行为序列和事件序列。将还款行为序列和事件序列输入第一子模型中的LSTM模神经网络编码器,获得非结构化用户数据特征,将非结构化用户数据特征加入特征池。
结构化用户数据包括用户个人信息和设备信息,基于业务经验获得特征衍生规则,将结构化用户数据进行特征,生成结构化用户数据特征,将结构化用户数据特征加入特征池。
可以将加入特征池的非结构化用户数据特征和结构化用户数据特征进行特征筛选,将筛选之后的非结构化用户数据特征和结构化用户数据特征进行拼接,生成拼接特征。将拼接特征输入第二子模型,通过GBDT或广义线性回归算法,获得风险预测结果。
这种方式可以使风险预测模型同时神经网络编码的非结构化特征,和与信用评估相关的结构化特征,实现充分利用数据特征的同时兼顾模型可解释性。
第一子模型的标签可以设置为欺诈的相关内容,使用第一子模型提取数据中的欺诈相关的信息,再输入给元模型进行以贷款还款、债务违约等为标签的训练,训练完成的GBDT就可以建立欺诈特征与债务违约之间的联系,实现信用评估和反欺诈的一体化。
在上述的实现过程中,通过将非结构化用户数据特征和结构化用户数据特征进行拼接,生成拼接特征;将拼接特征输入第二子模型,获得风险预测结果。充分利用非结构化用户数据特征,在原有的结构化特征的基础上,扩充特征的维度。使信用和欺诈的综合风险得到精准控制。
在一个可选的实施例中,预先采集用于训练风险预测模型的第一非结构化训练数据和第二非结构化训练数据,通过第一非结构化训练数据训练第一子模型的LSTM神经网络,神经网络的结构分为编码器和预测头,数据输入编码器,输出特征向量,然后进入预测头,输出预测值,最终得到训练完成的第一子模型。
使用训练完成的神经网络编码器提取特征。具体为将第二非结构化训练数据输入第一子模型的神经网络编码器,进行推理,得到特征向量。
获得结构化训练数据,通过预设的特征生成规则,将结构化训练数据进行映射,生成结构化训练数据特征。
将特征向量和结构化训练数据特征加入特征池,对特征池中的特征进行筛选,获得筛选后的特征。
将筛选后的特征作为输入数据,结合设计好的标签,选取GBDT或广义线性回归作为元模型的算法,训练元模型,获得第二子模型,即完成了风险预测模型的训练。
通过风险预测模型对用户的贷款风险进行预测的过程例如:获得需要进行贷款风险预测的用户的数据,用户数据包括非结构化用户数据和结构化用户数据。将非结构化用户数据输入训练好的风险预测模型中的第一子模型,获得非结构化用户数据特征。
基于预设的特征生成规则,将结构化用户数据进行映射,生成结构化用户数据特征。
将非结构化用户数据特征和结构化用户数据特征进行特征筛选,将筛选之后的非结构化用户数据特征和结构化用户数据特征进行拼接,生成拼接特征。将拼接特征输入第二子模型,通过GBDT或广义线性回归算法,获得风险预测结果。风险预测结果可以为用户信用评分、欺诈预测、收入预测或还款逾期风险概率等。
请参见图3示出的本申请实施例提供的贷款风险预测装置的结构示意图;本申请实施例提供了一种贷款风险预测装置200,包括:
获取模块210,用于获取用户数据,用户数据包括非结构化用户数据和结构化用户数据;
预测模块220,用于将用户数据输入预设的风险预测模型,获得风险预测结果;风险预测模型包括第一子模型和第二子模型;第一子模型为通过对非结构化训练数据进行训练获得的;第二子模型为通过第一子模型获得数据特征,并对数据特征和结构化训练数据进行训练获得的。
可选地,在本申请实施例中,贷款风险预测装置,非结构化训练数据包括第一非结构化训练数据和第二非结构化训练数据;还包括:训练模块,用于通过第一非结构化训练数据,对预设的神经网络进行训练,获得第一子模型;将第二非结构化训练数据输入第一子模型,获得数据特征;通过数据特征和结构化训练数据,对预设的元模型进行训练,获得第二子模型。
可选地,在本申请实施例中,贷款风险预测装置,训练模块,还用于基于第一非结构化训练数据,获得向量序列;将向量序列添加对应的标签;通过添加标签后的向量序列,训练神经网络,获得第一子模型。
可选地,在本申请实施例中,贷款风险预测装置,第一非结构化训练数据包括事件序列数据;向量序列包括事件向量序列;训练模块,还用于获得事件序列数据的属性信息;基于事件序列数据对应的属性信息,和前一个事件序列数据对应的属性信息,获得事件序列数据的衍生属性信息;将事件序列数据的属性信息和衍生属性信息进行拼接,生成事件序列数据的特征向量;将每一事件序列数据的特征向量按照时间顺序进行拼接,获得事件向量序列。
可选地,在本申请实施例中,贷款风险预测装置,第一非结构化训练数据包括行为序列数据;向量序列包括行为向量序列;训练模块,还用于获得行为序列数据对应的行为时间信息;根据行为时间信息将行为序列数据进行拼接,获得行为向量序列。
可选地,在本申请实施例中,贷款风险预测装置,训练模块,还用于通过预设的特征生成规则,基于结构化训练数据,生成结构化训练数据特征;将数据特征和结构化训练数据特征加入特征池;对特征池中的数据特征和结构化训练数据特征进行筛选,获得入模特征;通过入模特征对元模型进行训练,获得第二子模型。
可选地,在本申请实施例中,贷款风险预测装置,预测模块,具体用于将非结构化用户数据输入第一子模型,获得非结构化用户数据特征;基于结构化用户数据,生成结构化用户数据特征;将非结构化用户数据特征和结构化用户数据特征进行拼接,生成拼接特征;将拼接特征输入第二子模型,获得风险预测结果。
应理解的是,该装置与上述的贷款风险预测方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300,包括:处理器310和存储器320,存储器320存储有处理器310可执行的机器可读指令,机器可读指令被处理器310执行时执行如上的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory, 简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory, 简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory, 简称EPROM),可编程只读存储器(Programmable Red-Only Memory, 简称PROM),只读存储器(Read-OnlyMemory, 简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (7)
1.一种贷款风险预测方法,其特征在于,包括:
获取用户数据,所述用户数据包括非结构化用户数据和结构化用户数据;
将所述用户数据输入预设的风险预测模型,获得风险预测结果;所述风险预测模型包括第一子模型和第二子模型;所述第一子模型为通过对非结构化训练数据进行训练获得的;所述第二子模型为通过所述第一子模型获得数据特征,并对所述数据特征和结构化训练数据进行训练获得的;
非结构化训练数据包括第一非结构化训练数据和第二非结构化训练数据;在将所述用户数据输入预设的风险预测模型,获得风险预测结果之前,所述方法还包括:
通过所述第一非结构化训练数据,对预设的神经网络进行训练,获得所述第一子模型;
将所述第二非结构化训练数据输入所述第一子模型,获得所述数据特征;
通过所述数据特征和所述结构化训练数据,对预设的元模型进行训练,获得所述第二子模型;
通过所述第一非结构化训练数据,对预设的神经网络进行训练,获得所述第一子模型,包括:
基于所述第一非结构化训练数据,获得向量序列;
将所述向量序列添加对应的标签;
通过添加标签后的所述向量序列,训练所述神经网络,获得所述第一子模型;
所述第一非结构化训练数据包括事件序列数据;所述向量序列包括事件向量序列;基于所述第一非结构化训练数据,获得向量序列,包括:
获得所述事件序列数据的属性信息;所述事件序列数据的属性信息包括事件时间信息和/或事件空间信息;
基于所述事件序列数据对应的属性信息,和前一个所述事件序列数据对应的属性信息,获得所述事件序列数据的衍生属性信息;
将所述事件序列数据的属性信息和所述衍生属性信息进行拼接,生成所述事件序列数据的特征向量;
将每一所述事件序列数据的特征向量按照时间顺序进行拼接,获得所述事件向量序列。
2.根据权利要求1所述的方法,其特征在于,所述第一非结构化训练数据包括行为序列数据;所述向量序列包括行为向量序列;基于所述第一非结构化训练数据,获得向量序列,包括:
获得所述行为序列数据对应的行为时间信息;
根据所述行为时间信息将所述行为序列数据进行拼接,获得所述行为向量序列。
3.根据权利要求1所述的方法,其特征在于,通过所述数据特征和所述结构化训练数据,对预设的元模型进行训练,获得所述第二子模型,包括:
通过预设的特征生成规则,基于所述结构化训练数据,生成结构化训练数据特征;
将所述数据特征和所述结构化训练数据特征加入特征池;
对所述特征池中的所述数据特征和所述结构化训练数据特征进行筛选,获得入模特征;
通过所述入模特征对所述元模型进行训练,获得所述第二子模型。
4.根据权利要求1-3任一所述的方法,其特征在于,将所述用户数据输入预设的风险预测模型,获得风险预测结果,包括:
将所述非结构化用户数据输入所述第一子模型,获得非结构化用户数据特征;
基于所述结构化用户数据,生成结构化用户数据特征;
将所述非结构化用户数据特征和所述结构化用户数据特征进行拼接,生成拼接特征;
将所述拼接特征输入所述第二子模型,获得所述风险预测结果。
5.一种贷款风险预测装置,其特征在于,包括:
获取模块,用于获取用户数据,所述用户数据包括非结构化用户数据和结构化用户数据;
预测模块,用于将所述用户数据输入预设的风险预测模型,获得风险预测结果;所述风险预测模型包括第一子模型和第二子模型;所述第一子模型为通过对非结构化训练数据进行训练获得的;所述第二子模型为通过所述第一子模型获得数据特征,并对所述数据特征和结构化训练数据进行训练获得的;
非结构化训练数据包括第一非结构化训练数据和第二非结构化训练数据;所述装置还包括训练模块,用于通过所述第一非结构化训练数据,对预设的神经网络进行训练,获得所述第一子模型;将所述第二非结构化训练数据输入所述第一子模型,获得所述数据特征;通过所述数据特征和所述结构化训练数据,对预设的元模型进行训练,获得所述第二子模型;
所述训练模块,还用于基于所述第一非结构化训练数据,获得向量序列;将所述向量序列添加对应的标签;通过添加标签后的所述向量序列,训练所述神经网络,获得所述第一子模型;
所述第一非结构化训练数据包括事件序列数据;所述向量序列包括事件向量序列;所述训练模块,还用于获得所述事件序列数据的属性信息;所述事件序列数据的属性信息包括事件时间信息和/或事件空间信息;基于所述事件序列数据对应的属性信息,和前一个所述事件序列数据对应的属性信息,获得所述事件序列数据的衍生属性信息;将所述事件序列数据的属性信息和所述衍生属性信息进行拼接,生成所述事件序列数据的特征向量;将每一所述事件序列数据的特征向量按照时间顺序进行拼接,获得所述事件向量序列。
6.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的方法。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474449.0A CN116205726B (zh) | 2023-04-28 | 2023-04-28 | 一种贷款风险预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474449.0A CN116205726B (zh) | 2023-04-28 | 2023-04-28 | 一种贷款风险预测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116205726A CN116205726A (zh) | 2023-06-02 |
CN116205726B true CN116205726B (zh) | 2023-08-01 |
Family
ID=86513273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310474449.0A Active CN116205726B (zh) | 2023-04-28 | 2023-04-28 | 一种贷款风险预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205726B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992925B (zh) * | 2024-04-03 | 2024-06-14 | 成都新希望金融信息有限公司 | 基于多源异构数据和多模态数据的风险预测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785086A (zh) * | 2021-02-10 | 2021-05-11 | 中国工商银行股份有限公司 | 信贷逾期风险预测方法及装置 |
CN115983982A (zh) * | 2023-01-09 | 2023-04-18 | 深圳前海微众银行股份有限公司 | 信贷风险识别方法、装置、设备及计算机可读存储介质 |
-
2023
- 2023-04-28 CN CN202310474449.0A patent/CN116205726B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116205726A (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113761261A (zh) | 图像检索方法、装置、计算机可读介质及电子设备 | |
CN112819604A (zh) | 基于融合神经网络特征挖掘的个人信用评估方法与系统 | |
CN112800053B (zh) | 数据模型的生成方法、调用方法、装置、设备及存储介质 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN111898675B (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN112862023B (zh) | 对象密度确定方法、装置、计算机设备和存储介质 | |
KR20220076398A (ko) | Ar장치를 위한 객체 인식 처리 장치 및 방법 | |
WO2019167784A1 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN114550053A (zh) | 一种交通事故定责方法、装置、计算机设备及存储介质 | |
CN116205726B (zh) | 一种贷款风险预测方法、装置、电子设备及存储介质 | |
CN114241459B (zh) | 一种驾驶员身份验证方法、装置、计算机设备及存储介质 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN114550051A (zh) | 一种车损检测方法、装置、计算机设备及存储介质 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
CN113221762B (zh) | 代价平衡决策方法、保险理赔决策方法、装置和设备 | |
CN117009873A (zh) | 支付风险识别模型的生成方法、支付风险识别方法及装置 | |
CN116542783A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN115731620A (zh) | 检测对抗攻击的方法和训练对抗攻击检测模型的方法 | |
CN114863430A (zh) | 一种人口信息自动纠错方法、设备及其存储介质 | |
CN115131831A (zh) | 指纹图像分割方法及装置、电子设备及存储介质 | |
CN116266412A (zh) | 人脸真伪检测方法、装置、设备及计算机可读存储介质 | |
CN116823264A (zh) | 风险识别方法、装置、电子设备、介质及程序产品 | |
CN116502173A (zh) | 一种状态识别方法、装置、存储介质及设备 | |
CN115552483A (zh) | 一种数据收集方法、装置、设备及存储介质 | |
CN117992925B (zh) | 基于多源异构数据和多模态数据的风险预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |