CN115409127A - 一种合同违约风险预测模型的训练方法和相关装置 - Google Patents

一种合同违约风险预测模型的训练方法和相关装置 Download PDF

Info

Publication number
CN115409127A
CN115409127A CN202211152021.6A CN202211152021A CN115409127A CN 115409127 A CN115409127 A CN 115409127A CN 202211152021 A CN202211152021 A CN 202211152021A CN 115409127 A CN115409127 A CN 115409127A
Authority
CN
China
Prior art keywords
contract
sample data
training
prediction model
risk prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211152021.6A
Other languages
English (en)
Inventor
谢波
周成阳
蒋洪伟
严欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211152021.6A priority Critical patent/CN115409127A/zh
Publication of CN115409127A publication Critical patent/CN115409127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种合同违约风险预测模型的训练方法和相关装置,获取训练集,该训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据。基于第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型,并将第二样本数据输入至初始合同违约风险预测模型中,得到第二样本数据的伪标签,基于具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,以便基于合同违约风险预测模型预测合同数据的违约风险。由此,通过给无标签的第二样本数据附上伪标签,从而避免了人工标记,不仅可以快速得到合同违约风险预测模型,还能够降低人工打标的成本。

Description

一种合同违约风险预测模型的训练方法和相关装置
技术领域
本发明涉及计算机技术领域,尤其是涉及一种合同违约风险预测模型的训练方法和相关装置。
背景技术
随着市场经济的发展,合同成为企业从事经济活动取得经济效益的重要纽带,而同时,合同违约现象也给企业带来了极大的经济损失。因此,识别合同风险是合同管理一项重要环节。
相关技术中,通过提取已经违约的合同的各个指标,通过提取出的指标不断训练得到合同违约风险预测模型,从而基于合同违约风险预测模型在签约合同前进行合同违约风险预测。
但是,在训练的过程中,需要对样本的标签进行分类,而通常已经标记的样本数量较少,而在短时间内难以完成所有样本的类别标记,进而无法快速得到合同违约风险预测模型,同时,样本的标记一般需要通过人工进行,成本较高。
发明内容
针对上述问题,本申请提供一种合同违约风险模型的训练方法和相关装置,用于提高合同违约风险预测模型的训练速度的同时,降低成本。
基于此,本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种合同违约风险预测模型的训练方法,所述方法包括:
获取训练集,所述训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签用于标识所述第一样本数据是否具有违约风险;
基于所述第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型;
将所述第二样本数据输入至所述初始合同违约风险预测模型中,得到所述第二样本数据的伪标签;
基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,其中,在通过所述半监督学习的方式训练的过程中调整所述伪标签,所述合同违约风险预测模型用于预测合同数据的违约风险。
可选的,所述方法还包括:
获取具有违约风险的合同数据的多个合同要素,所述多个合同要素包括合同名称、合同文本、合同业务类型、发文文号、发文日期、制定机构、失效性和适用产品中的多种组合。
从所述多个合同要素中筛选出关键合同要素,所述关键合同要素与所述合同数据的违约率间的相关性超过预设阈值;
基于所述关键合同要素确定样本数据,所述样本数据包括第一样本数据和所述第二样本数据。
可选的,所述基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,包括:
确定具有约束的损失函数,所述约束包括用于降低复杂度的第一约束、用于防止陷入局部最优的第二约束和用于成对约束监督的第三约束中的一个或多个组合;
基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练使得所述具有约束的损失损失函数最小,得到所述合同违约风险预测模型。
可选的,所述方法还包括:
获取测试集,所述测试集包括至少一条有标签的第三样本数据;
所述基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,包括:
基于具有所述伪标签的第二样本数据、所述第一样本数据和所述测试集,通过半监督学习的方式训练得到合同违约风险预测模型。
可选的,所述方法还包括:
获取通过多个集合分别训练得到的多个待选的合同违约风险预测模型,所述集合为不同的测试集和训练集的组合;
通过广义交互验证的方式从所述多个待选的合同违约风险预测模型中确定合同违约风险预测模型。
可选的,所述方法还包括:
获取待预测的合同数据;
将所述待预测的合同数据输入至所述合同违约风险预测模型中,得到所述待预测的合同数据对应的违约率。
另一方面,本申请提供了一种合同违约风险预测模型的训练装置,所述装置包括:获取单元、有监督训练单元、第一预测单元和半监督训练单元;
所述获取单元,用于获取训练集,所述训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签用于标识所述第一样本数据是否具有违约风险;
所述有监督训练单元,用于基于所述第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型;
所述第一预测单元,用于将所述第二样本数据输入至所述初始合同违约风险预测模型中,得到所述第二样本数据的伪标签;
所述半监督训练单元,用于基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,其中,在通过所述半监督学习的方式训练的过程中调整所述伪标签,所述合同违约风险预测模型用于预测合同数据的违约风险。
可选的,所述装置还包括筛选单元,用于:
获取具有违约风险的合同数据的多个合同要素,所述多个合同要素包括合同名称、合同文本、合同业务类型、发文文号、发文日期、制定机构、失效性和适用产品中的多种组合。
从所述多个合同要素中筛选出关键合同要素,所述关键合同要素与所述合同数据的违约率间的相关性超过预设阈值;
基于所述关键合同要素确定样本数据,所述样本数据包括第一样本数据和所述第二样本数据。
可选的,所述半监督训练单元,具体用于:
确定具有约束的损失函数,所述约束包括用于降低复杂度的第一约束、用于防止陷入局部最优的第二约束和用于成对约束监督的第三约束中的一个或多个组合;
基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练使得所述具有约束的损失损失函数最小,得到所述合同违约风险预测模型。
可选的,所述获取单元,具体用于:
获取测试集,所述测试集包括至少一条有标签的第三样本数据;
所述半监督训练单元,具体用于:
基于具有所述伪标签的第二样本数据、所述第一样本数据和所述测试集,通过半监督学习的方式训练得到合同违约风险预测模型。
可选的,所述装置还包括验证单元,用于:
获取通过多个集合分别训练得到的多个待选的合同违约风险预测模型,所述集合为不同的测试集和训练集的组合;
通过广义交互验证的方式从所述多个待选的合同违约风险预测模型中确定合同违约风险预测模型。
可选的,所述装置还包括应用单元,用于:
获取待预测的合同数据;
将所述待预测的合同数据输入至所述合同违约风险预测模型中,得到所述待预测的合同数据对应的违约率。
另一方面,本申请提供了一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
本申请上述技术方案的优点在于:
获取训练集,该训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签能够标识第一样本数据是否具有合同违约风险。由于第一样本数据具有标签,故可以基于第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型,并将第二样本数据输入至初始合同违约风险预测模型中,得到第二样本数据的伪标签,伪标签是预测得到的、用于标识第二样本数据是否具有合同违约风险,最后基于具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,以便基于合同违约风险预测模型预测合同数据的违约风险。由此,通过给无标签的第二样本数据附上伪标签,从而避免了人工标记,不仅可以快速得到合同违约风险预测模型,还能够降低人工打标的成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种合同违约风险预测模型的训练方法的流程图;
图2为本申请提供的一种合同违约风险预测模型的训练装置的示意图;
图3为本申请实施例提供的一种计算机设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合图1,对本申请实施例提供的一种合同违约风险预测模型的训练方法进行介绍。参见图1,该图为本申请实施例提供的一种合同违约风险预测模型的训练方法的流程图,该方法可以包括S101-S104。
S101:获取训练集。
随着市场经济的快速发展,合同成为企业从事经济活动取得经济效益的重要纽带,而同时,合同违约现象也给企业带来了极大的经济损失。常见解决合同纠纷的方法是协商、调解、仲裁、诉讼等方式。常见合同违约来源包含商品质量等条款未约定或约定不明,支付方式未约定或约定不明等合同内容不全的问题,可通过对合同中的法律风险点进行审查。对于审查后的合同,也存在违反诚信原则的行为,因此,为有效减少企业合同被违约的风险,可以训练,从而从历史的违约合同中提取出“有效信息”,用于新签约合同的风险识别。
其中,训练集中的数据用于训练得到合同违约风险预测模型,训练集包括至少一条第一样本数据和至少一条第二样本数据,第一样本数据均具有标签,第二样本数据不具有标签,标签用于标识第一样本数据是否具有违约风险。
S102:基于第一样本数据,通过有监督学习的方式训练训练得到初始合同违约风险预测模型。
第一样本数据具有标签,可以通过有监督学习的方式训练得到初始合同违约风险预测模型。具体地,将第一样本数据输入至还未训练好的初始合同违约风险预测模型中,得到预测结果,将预测结果和第一样本数据的标签进行比较,基于得到的比较结果调整还未训练好的初始合同违约风险预测模型,直至初始合同违约风险预测模型训练完成,如满足迭代次数、实现收敛等。
S103:将第二样本数据输入至初始合同违约风险预测模型中,得到第二样本数据的伪标签。
训练得到的初始合同违约风险预测模型能够用于预测合同数据是否存在违约风险,但是初始合同违约风险预测模型的准确度与第一样本数据的数量有关,一般情况下,随着第一样本数量的增多,初始合同违约风险预测模型的准确度提高。
但是,在实际应用中,第一样本数据的数量一般较少,从而初始合同违约风险预测模型的准确度较低,无法将初始合同违约风险预测模型直接应用在实际中。基于此,本申请实施例将第二样本数据输入至初始合同违约风险预测模型中,能够得到第二样本数据是否存在违约风险,即第二样本数据的伪标签。
由此,无需人工标注第二样本数据的标签,不仅降低了成本,还免去了人工标注浪费的时间。
S104:基于具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型。
其中,半监督学习是指,在有标记的样本量极小而未标记的样本量较大的情况下,为利用有限的标记样本信息推断未标记样本的标签,人们试着将无标签的样本加入到标记的样本中,利用已标记的样本与未标记样本共同来训练和改进模型的学习性能,产生了半监督学习(Semi-supervised learning,简称SSL)。半监督学习能够有效地利用大量“廉价”的未标记的样本,同时本模型结合有监督和无监督的方法,提高模型的泛化能力和准确度。
第二样本数据具有了伪标签,虽然该伪标签的准确度较低,但是可以通过在通过半监督学习的方式训练的过程中调整该伪标签,提高该伪标签的准确度,相比于仅基于第一样本数据训练得到的初始合同违约风险预测模型,第一样本数据和具有伪标签的第二样本数据的数量更多,从而训练得到的合同违约风险预测模型的准确度更高。从而可以将待预测的合同数据输入至合同违约风险预测模型,得到该合同数据的违约风险的预测结果。
作为一种可能的实现方式,可以采用转导支持向量机(TSVM)作为半监督学习的方式,下面具体说明。
在不考虑未标记样本(第二样本数据)外,支持向量机找到最大间隔划分超平面从而实现分类。多正则化约束半监督学习在支持向量机的基础上,为各个未标记点添加约束,分别假设未标记样本属于两个类别中的一个,并计算属于各类的错分率,最后将最小的错分率的类作为该未标记样本的类。
转导支持向量机(TSVM)用标记样本(第一样本数据)训练初始合同违约风险预测模型,再将未标记样本(第二样本数据)加入模型,并对未标记项施加一定的权重。训练过程中所使用的损失函数如公式(1)所示:
Figure BDA0003857318930000081
其中,第一样本数据为Dl={(x1,y1),...,(xl,yl)},第二样本数据为Du={xl+1,xl+2,...,xl+u},xi∈Rn,l为第一样本数据的数量,其为大于1的整数,u为第二样本数据的数量,其大于l的整数,l+u=m。第二样本数据的伪标记为
Figure BDA0003857318930000082
伪标记可以通过0表示违约,通过1表示未违约,ω,b为所求划分超平面的系数,ξi为松弛向量,Cl,Cu分别为用于平衡模型中第一样本数据和第二样本数据的权重系数。
由上述技术方案可知,获取训练集,该训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签能够标识第一样本数据是否具有合同违约风险。由于第一样本数据具有标签,故可以基于第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型,并将第二样本数据输入至初始合同违约风险预测模型中,得到第二样本数据的伪标签,伪标签是预测得到的、用于标识第二样本数据是否具有合同违约风险,最后基于具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,以便基于合同违约风险预测模型预测合同数据的违约风险。由此,通过给无标签的第二样本数据附上伪标签,从而避免了人工标记,不仅可以快速得到合同违约风险预测模型,还能够降低人工打标的成本。
作为一种可能的实现方式,可以通过建模的方式,从合同数据中挖掘出关键合同要素,进而确定出样本数据,下面通过A1-A3进行说明。
A1:获取具有违约风险的合同数据的多个合同要素。
可以获取合同文本,通过对合同文本进行采集,得到合同数据。合同数据是用于描述合同的详细信息,包括多个合同要素,例如合同名称、合同文本、合同业务类型、发文文号、发文日期、制定机构、失效性和适用产品中的多种组合。
其中,以银行合同为例,合同业务类型包括对公存贷、担保、国际业务、银行卡电子服务、个人存贷、三农、综合业务以及综合管理等,适用产品包括理财、债务融资、信贷业务、对公客户等银行产品。
作为一种可能的实现方式,可以对合同数据进行预处理,预处理包括指标筛选、数据的缺失值和异常值处理等,下面对指标筛选的过程进行说明。
在获取具有违约风险的合同数据后,可以选取多个合同要素,通过归一化、单位化和向量化等方式,实现指标转换,得到参见表1,表1为一些合同要素指标转化的方式。
表1
Figure BDA0003857318930000091
A2:从多个合同要素中筛选出关键合同要素。
由于不是所有的合同要素均与违约率具有关联关系,故可以建立多个合同要素与违约率间的模型,进而得到每个合同要素对于违约率的贡献程度,从而确定出关键合同要素。
其中,关键合同要素与合同数据的违约率间的相关性超过预设阈值。本申请实施例不具体限定预设阈值的大小,本领域技术人员可以根据实际需要进行设置。
作为一种可能的实现方式,可以先确定多个合同要素之间的关联性,从而避免合同要素之间的共线性,从而避免对随机性的影响,提高多个合同要素与违约率间的模型的准确性。
A3:基于关键合同要素确定样本数据。
在确定出关键合同要素后,可以确定出样本数据,进而可以提取样本数据的向量进行模型训练,其中,样本数据包括第一样本数据和第二样本数据。
作为一种可能的实现方式,本申请实施例提供一种S104,即基于具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型的具体实现方式,具体参见B1-B2:
B1:确定具有约束的损失函数。
具有约束的损失函数是在公式(1)的基础上,通过引入成对约束等,从而对半监督学习的方式进行优化和进一步改建,以便更大程度上挖掘样本中的信息。
其中,约束可以包括第一约束、第二约束和第三约束中的一个或多个组合。其中,第一约束用于降低复杂度,第二约束用于防止陷入局部最优,第三约束用于成对约束监督。
作为一种可能的实现方式,损失函数还可以包括最大相关熵准则,下面以包括三个约束和最大相关熵准则的损失函数为例进行说明,参见公式(2):
Figure BDA0003857318930000101
其中,g(.)为满足最大相关熵准则的核损失函数。γAID为正则化参数组,
Figure BDA0003857318930000102
为在希尔伯特再生空间的模,用于衡量模型的复杂度,正则化参数γA为第一约束,通过降低复杂度可防止过拟合。γI为第二约束为流形正则化项参数,使得在局部流形上保持相应的结构,使得在局部流形上尽量保持光滑。当样本为非线性可分时,可结合核函数的方法将样本映射到在希尔伯特再生空间再学习分类模型。γD为第三约束,用于成对约束监督,包含必须关联项和不可关联约束项,必须关联(must-link)将同类的样本点放在在同一个集群中,而不可能关联(cannot-link)约束将类别不同的样本点放置在同一个集群中。对于有标记的样本根据样本类别可构造成对约束项,可进一步利用标记样本信息。S用来利用成对约束监督的正则项。σ是带宽参数。fi为样本i通过决策函数f对应的值,yi为样本i的标签,fI 2为流形正则化项,保证了流形图上的点对之间的光滑性,即相似的样本在流形结构上具有相似的输出。W_c为l+u阶不可能关联矩阵。W_c与W_m都是l+u阶矩阵,即必须关联和不可能关联得到的信息既可以从第一样本数据中获得,也可从第二样本数据
Figure BDA0003857318930000111
中知道样本属于同类与不同类的结果确定。
由此,结合SVM的构造方法,引入一个偏移变量到决策函数,可得到该类的分类目标函数,为得到参数估计,得到了该算法的优化问题,参见公式(3):
Figure BDA0003857318930000112
其中,K为核矩阵,设β=(β12,...,βl),γ=(γ12,...,γl)为拉格朗日系数,将模型第一项表示为向量的形式,记为αTKDα,其中D=diag(fi-yi),i=1,...,l,
Figure BDA0003857318930000113
其中f为样本在有标记与未标记预测结果的列向量。
B2:基于具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练使得具有约束的损失损失函数最小,得到合同违约风险预测模型。
将具有伪标签的第二样本数据和具有标签的第一样本数据,以及分别为用于平衡模型中第一样本数据和第二样本数据的权重系数Cl,Cu输入至未训练完成的合同违约风险预测模型中,在通过半监督学习的方式训练的过程中调整第二样本数据的伪标签,以及调整未训练完成的合同违约风险预测模型中的参数,直至具有约束的损失损失函数最小,得到合同违约风险预测模型。
作为一种可能的实现方式,不仅可以基于训练集得到合同违约风险预测模型,还可以通过测试集进行验证,使得得到的合同违约风险预测模型的准确性较高。具体参见C1-C2:
C1:获取测试集。
其中,测试集包括至少一条有标签的第三样本数据。第三样本数据和第一样本数据一样,具有用于标识是否具有违约风险的标签。
作为一种可能的实现方式,在获得具有标签的一些样本数据后,将其分为两部分,其中一部分作为第一样本数据加入训练集,另一部分作为第三样样本数据加入测试集。
C2:基于具有伪标签的第二样本数据、第一样本数据和测试集,通过半监督学习的方式训练得到合同违约风险预测模型。
例如,通过具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练得到待选的合同违约风险预测模型,再通过测试集验证待选的合同违约风险预测模型的准确性,进而决定是否将待选的合同违约风险预测模型作为后续使用的合同违约风险预测模型。
作为一种可能的实现方式,可以获取通过多个集合分别训练得到的多个待选的合同违约风险预测模型,通过广义交互验证的方式从多个待选的合同违约风险预测模型中确定合同违约风险预测模型。其中,集合为不同的测试集和训练集的组合,由此,不同的训练集与测试集的组合产生不同的待选的合同违约风险预测模型,通过广义交互验证的方式挑选一个最优模型,作为后续使用的合同违约风险预测模型。
其中,广义交互验证(generalized cross-validation,简称GCV)是指,后向剪枝过程中用GCV准则来比较模型子集,以选择最佳子集。GCV值越小,模型越好。GCV准则调节了模型复杂性与拟合度之间的平衡。在这里用残差平方和来比较模型是不准确的,因为当MARS的项数减少时,残差平方和RSS值总会增加。即如果用RSS来比较模型,后向程序总会选择最大的模型,但最大的模型通常预测精度较低。所以用调整的残差平方和即GCV参数来判断,这里包括了对模型复杂度的惩罚,具体参见公式(4):
Figure BDA0003857318930000121
其中,C(M)为待选的合同违约风险预测模型的项的数目,n为样本数量。
作为一种可能的实现方式,获取待预测的合同数据,即待签订合同的合同数据,将待预测的合同数据输入至合同违约风险预测模型中,得到待预测的合同数据对应的违约率。从而在签订合同之前计算该合同的违约率,从而有效识别合同违约风险。
此外,本申请实施例还具有以下优点:
(1)实时性较好:经过充分训练之后的合同违约风险预测模型,可以利用合同违约风险预测模型及时对新的请求处理,能够在毫秒级时间内计算客户合同违约的概率。
(2)预测精度高:由于合同违约风险预测模型是从海量的合同违约数据中训练得到的,使用最大相关熵准则成对约束多正则化约束半监督学习模型能够充分的利用历史合同风险预警的特征并不断的训练模型,确保了本模型对合同风险预警的精确性。
(3)人工干预较少:合同违约风险预测模型的超参数一经确定,合同违约风险预测模型内部的权重矩阵与偏置向量能够在反复的前后向迭代中自动优化。因此,模型可以自主地在训练数据集中学习规律,整个过程无需人工干预。
(4)适宜于海量数据:合同违约风险预测模型包含的网络层数、参数个数众多,使用海量数据能大幅提升模型的预测精度。
(5)定量性:系统输出的结果即能够判断出是否具有合同风险预警,具有良好的定量性。
本申请实施例除了提供的合同违约风险预测模型的训练方法外,还提供了合同违约风险预测模型的训练装置,如图2所示,所述装置包括:获取单元201、有监督训练单元202、预测单元203和半监督训练单元204;
所述获取单元201,用于获取训练集,所述训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签用于标识所述第一样本数据是否具有违约风险;
所述有监督训练单元202,用于基于所述第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型;
所述预测单元203,用于将所述第二样本数据输入至所述初始合同违约风险预测模型中,得到所述第二样本数据的伪标签;
所述半监督训练单元204,用于基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,其中,在通过所述半监督学习的方式训练的过程中调整所述伪标签,所述合同违约风险预测模型用于预测合同数据的违约风险。
作为一种可能的实现方式,所述装置还包括筛选单元,用于:
获取具有违约风险的合同数据的多个合同要素,所述多个合同要素包括合同名称、合同文本、合同业务类型、发文文号、发文日期、制定机构、失效性和适用产品中的多种组合。
从所述多个合同要素中筛选出关键合同要素,所述关键合同要素与所述合同数据的违约率间的相关性超过预设阈值;
基于所述关键合同要素确定样本数据,所述样本数据包括第一样本数据和所述第二样本数据。
作为一种可能的实现方式,所述半监督训练单元204,具体用于:
确定具有约束的损失函数,所述约束包括用于降低复杂度的第一约束、用于防止陷入局部最优的第二约束和用于成对约束监督的第三约束中的一个或多个组合;
基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练使得所述具有约束的损失损失函数最小,得到所述合同违约风险预测模型。
作为一种可能的实现方式,所述获取单元201,具体用于:
获取测试集,所述测试集包括至少一条有标签的第三样本数据;
所述半监督训练单元204,具体用于:
基于具有所述伪标签的第二样本数据、所述第一样本数据和所述测试集,通过半监督学习的方式训练得到合同违约风险预测模型。
作为一种可能的实现方式,所述装置还包括验证单元,用于:
获取通过多个集合分别训练得到的多个待选的合同违约风险预测模型,所述集合为不同的测试集和训练集的组合;
通过广义交互验证的方式从所述多个待选的合同违约风险预测模型中确定合同违约风险预测模型。
作为一种可能的实现方式,所述装置还包括应用单元,用于:
获取待预测的合同数据;
将所述待预测的合同数据输入至所述合同违约风险预测模型中,得到所述待预测的合同数据对应的违约率。
由上述技术方案可知,获取训练集,该训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签能够标识第一样本数据是否具有合同违约风险。由于第一样本数据具有标签,故可以基于第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型,并将第二样本数据输入至初始合同违约风险预测模型中,得到第二样本数据的伪标签,伪标签是预测得到的、用于标识第二样本数据是否具有合同违约风险,最后基于具有伪标签的第二样本数据和第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,以便基于合同违约风险预测模型预测合同数据的违约风险。由此,通过给无标签的第二样本数据附上伪标签,从而避免了人工标记,不仅可以快速得到合同违约风险预测模型,还能够降低人工打标的成本。
本申请实施例还提供了一种计算机设备,参见图3,该图示出了本申请实施例提供的一种计算机设备的结构图,如图3所示,所述设备包括处理器310以及存储器320:
所述存储器310用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器320用于根据所述程序代码中的指令执行上述实施例提供的任一种合同违约风险预测模型的训练方法。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序于执行上述实施例提供的任一种合同违约风险预测模型的训练方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的合同违约风险预测模型的训练方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种合同违约风险预测模型的训练方法,其特征在于,所述方法包括:
获取训练集,所述训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签用于标识所述第一样本数据是否具有违约风险;
基于所述第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型;
将所述第二样本数据输入至所述初始合同违约风险预测模型中,得到所述第二样本数据的伪标签;
基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,其中,在通过所述半监督学习的方式训练的过程中调整所述伪标签,所述合同违约风险预测模型用于预测合同数据的违约风险。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取具有违约风险的合同数据的多个合同要素,所述多个合同要素包括合同名称、合同文本、合同业务类型、发文文号、发文日期、制定机构、失效性和适用产品中的多种组合。
从所述多个合同要素中筛选出关键合同要素,所述关键合同要素与所述合同数据的违约率间的相关性超过预设阈值;
基于所述关键合同要素确定样本数据,所述样本数据包括第一样本数据和所述第二样本数据。
3.根据权利要求1所述的方法,其特征在于,所述基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,包括:
确定具有约束的损失函数,所述约束包括用于降低复杂度的第一约束、用于防止陷入局部最优的第二约束和用于成对约束监督的第三约束中的一个或多个组合;
基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练使得所述具有约束的损失损失函数最小,得到所述合同违约风险预测模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取测试集,所述测试集包括至少一条有标签的第三样本数据;
所述基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,包括:
基于具有所述伪标签的第二样本数据、所述第一样本数据和所述测试集,通过半监督学习的方式训练得到合同违约风险预测模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取通过多个集合分别训练得到的多个待选的合同违约风险预测模型,所述集合为不同的测试集和训练集的组合;
通过广义交互验证的方式从所述多个待选的合同违约风险预测模型中确定合同违约风险预测模型。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述方法还包括:
获取待预测的合同数据;
将所述待预测的合同数据输入至所述合同违约风险预测模型中,得到所述待预测的合同数据对应的违约率。
7.一种合同违约风险预测模型的训练装置,其特征在于,所述装置包括:获取单元、有监督训练单元、第一预测单元和半监督训练单元;
所述获取单元,用于获取训练集,所述训练集包括至少一条有标签的第一样本数据和至少一条无标签的第二样本数据,标签用于标识所述第一样本数据是否具有违约风险;
所述有监督训练单元,用于基于所述第一样本数据,通过有监督学习的方式训练得到初始合同违约风险预测模型;
所述第一预测单元,用于将所述第二样本数据输入至所述初始合同违约风险预测模型中,得到所述第二样本数据的伪标签;
所述半监督训练单元,用于基于具有所述伪标签的第二样本数据和所述第一样本数据,通过半监督学习的方式训练得到合同违约风险预测模型,其中,在通过所述半监督学习的方式训练的过程中调整所述伪标签,所述合同违约风险预测模型用于预测合同数据的违约风险。
8.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任意一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-6任意一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序或指令;当所述计算机程序或指令被处理器执行时,执行权利要求1-6任意一项所述的方法。
CN202211152021.6A 2022-09-21 2022-09-21 一种合同违约风险预测模型的训练方法和相关装置 Pending CN115409127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211152021.6A CN115409127A (zh) 2022-09-21 2022-09-21 一种合同违约风险预测模型的训练方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211152021.6A CN115409127A (zh) 2022-09-21 2022-09-21 一种合同违约风险预测模型的训练方法和相关装置

Publications (1)

Publication Number Publication Date
CN115409127A true CN115409127A (zh) 2022-11-29

Family

ID=84165679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211152021.6A Pending CN115409127A (zh) 2022-09-21 2022-09-21 一种合同违约风险预测模型的训练方法和相关装置

Country Status (1)

Country Link
CN (1) CN115409127A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992855A (zh) * 2024-04-02 2024-05-07 湖南大学 基于半监督学习的电网暂态电压稳定样本标定方法及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992855A (zh) * 2024-04-02 2024-05-07 湖南大学 基于半监督学习的电网暂态电压稳定样本标定方法及设备

Similar Documents

Publication Publication Date Title
US11941650B2 (en) Explainable machine learning financial credit approval model for protected classes of borrowers
Mokhtari et al. Interpreting financial time series with SHAP values
Du et al. New failure mode and effects analysis: an evidential downscaling method
CN106095942B (zh) 强变量提取方法及装置
Mustika et al. Analysis accuracy of xgboost model for multiclass classification-a case study of applicant level risk prediction for life insurance
CN110516950A (zh) 一种面向实体解析任务的风险分析方法
Li et al. A data-driven explainable case-based reasoning approach for financial risk detection
Leevy et al. Comparative analysis of binary and one-class classification techniques for credit card fraud data
Etemadi et al. Earnings per share forecast using extracted rules from trained neural network by genetic algorithm
CN116452052A (zh) 一种专利价值评估方法、系统、装置及存储介质
Tumpach et al. Prediction of the bankruptcy of Slovak companies using neural networks with SMOTE
Chaudhary et al. Comparative analysis of entropy weight method and c5 classifier for predicting employee churn
Han et al. Semi-supervised clustering for financial risk analysis
Haridasan et al. Arithmetic Optimization with Deep Learning Enabled Churn Prediction Model for Telecommunication Industries.
CN115409127A (zh) 一种合同违约风险预测模型的训练方法和相关装置
Hsu A fusion mechanism for management decision and risk analysis
CN116911994B (zh) 对外贸易风险预警系统
Wang et al. Risk assessment of customer churn in telco using FCLCNN-LSTM model
Huang et al. Forecasting bitcoin return: a data mining approach
CN115600226A (zh) 一种仓单质押数据加密方法
Peng Research on credit risk identification of internet financial enterprises based on big data
KR102499182B1 (ko) 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템
Pang et al. WT combined early warning model and applications for loaning platform customers default prediction in smart city
Yang et al. An algorithm for ordinal classification based on pairwise comparison
Fischer et al. AutoXPCR: Automated multi-objective model selection for time series forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination