CN117934154A - 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品 - Google Patents

交易风险预测方法、模型训练方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN117934154A
CN117934154A CN202410107467.XA CN202410107467A CN117934154A CN 117934154 A CN117934154 A CN 117934154A CN 202410107467 A CN202410107467 A CN 202410107467A CN 117934154 A CN117934154 A CN 117934154A
Authority
CN
China
Prior art keywords
information
target user
historical
feature
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410107467.XA
Other languages
English (en)
Inventor
王豆豆
王晓舟
张博
王晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202410107467.XA priority Critical patent/CN117934154A/zh
Publication of CN117934154A publication Critical patent/CN117934154A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本公开提供了一种交易风险预测方法,可以应用于金融技术领域、大数据技术领域、人工智能技术领域。该交易风险预测方法包括:获取目标用户的历史数据,其中,目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息;基于目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息;根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果。本公开还提供了一种模型训练方法、装置、设备、存储介质和程序产品。

Description

交易风险预测方法、模型训练方法、装置、设备、介质和程序 产品
技术领域
本公开涉及金融技术领域、大数据技术领域、人工智能技术领域,更具体地涉及一种交易风险预测方法、模型训练方法、装置、设备、介质和程序产品。
背景技术
个人客户规模大、准入门槛低、存在较大不确定性,容易受到外部因素影响而导致违约,因此金融机构需要加强对个人客户的风险管理,例如,进行个人客户交易风险预测。但是由于交易风险预测中存在个人客户的数据特征种类较少、特征信息不全面的情况,从而影响了交易风险预测效果。
发明内容
鉴于上述问题,本公开提供了一种交易风险预测方法、模型训练方法、装置、设备、介质和程序产品。
本公开的一个方面,提供了一种交易风险预测方法,包括:获取目标用户的历史数据,其中,目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息;基于目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息;根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果。
根据本公开的实施例,第一时间序列信息包括M组第一信息值,M组第一信息值与M个预定时间周期的历史数据关联;第二时间序列信息包括N组第二信息值,各组第二信息值与M个预定时间周期中的L个预定时间周期的历史数据关联,L小于等于M。
根据本公开的实施例,根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果包括:对第一时间序列信息和第二时间序列信息进行特征预处理,得到目标用户的特征集;将目标用户的特征集输入交易风险预测模型,输出目标用户的交易风险预测结果。
根据本公开的实施例,对第一时间序列信息和第二时间序列信息进行特征预处理,得到目标用户的特征集包括:将第一时间序列信息和第二时间序列信息进行特征转换,得到多个转换特征;对各个转换特征进行信息价值计算,得到各个转换特征的信息价值;基于各个转换特征的信息价值进行第一特征筛选,将信息价值大于等于第一预设阈值的转换特征组合得到多个待筛选特征;对多个待筛选特征进行第二特征筛选,得到目标用户的特征集。
根据本公开的实施例,对多个待筛选特征进行第二特征筛选,得到目标用户的特征集包括:确定多个待筛选特征各自的特征重要性;基于多个待筛选特征各自的特征重要性对多个待筛选特征进行多次迭代筛选,得到目标用户的特征集。
本公开的另一个方面提供了一种模型训练方法,包括:获取多个参考用户的训练样本数据,其中,多个参考用户的训练样本数据至少包括多个参考用户基本信息、多个参考用户产品历史持有信息、多个参考用户历史交易行为数据和多个参考用户历史信用记录信息;基于多个参考用户的训练样本数据,构建多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息;基于多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息,训练交易风险预测模型。
根据本公开的实施例,多个参考用户至少包括第一类用户和第二类用户,其中,第一类用户和第二类用户的交易风险程度不同。
本公开的另一个方面提供了一种交易风险预测装置,包括:第一获取模块,用于获取目标用户的历史数据,其中,目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息;第一构建模块,用于基于目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息;以及获得模块,用于根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果。
本公开的另一个方面提供了一种模型训练装置,包括:第二获取模块,用于获取多个参考用户的训练样本数据,其中,多个参考用户的训练样本数据至少包括多个参考用户基本信息、多个参考用户产品历史持有信息、多个参考用户历史交易行为数据和多个参考用户历史信用记录信息;第二构建模块,用于基于多个参考用户的训练样本数据,构建多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息;以及训练模块,用于基于多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息,训练交易风险预测模型。
本公开的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述交易风险预测方法、模型训练方法。
本公开的另一个方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述交易风险预测方法、模型训练方法。
本公开的另一个方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述交易风险预测方法、模型训练方法。
根据本公开的实施例,基于包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息的目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息,对目标用户的历史数据进行深入挖掘,有效构造多组预测数据,以此为基础进行交易风险预测时,准确度较高。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的交易风险预测方法、模型训练方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的交易风险预测方法的流程图;
图3示意性示出了根据本公开实施例的得到目标用户的特征集的流程图;
图4示意性示出了根据本公开实施例的模型训练方法的流程图;
图5示意性示出了根据本公开实施例的模型建立方法的流程图;
图6示意性示出了根据本公开实施例的交易风险预测装置的结构框图;
图7示意性示出了根据本公开实施例的模型训练装置的结构框图;以及
图8示意性示出了根据本公开实施例的适于实现交易风险预测方法、模型训练方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息,例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关国家和地区的相关法律法规和标准,采取了必要保密措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。
在本公开的技术方案中,所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
受经济波动加剧、利差收窄、监管趋严格等因素影响,金融机构市场竞争格局面临改变——个人业务成为各家金融机构竞争的焦点。个人用户规模巨大、准入门槛低、存在较大不确定性,容易受到外部因素影响而导致违约,因此金融机构需要加强对个人客户的风险管理,例如,进行个人客户交易风险预测。
相关方案中,金融机构利用客户的属性、交易行为、资产和负债数据,以及可获取的第三方数据进行分析,探索客户贷前特征与贷后违约行为之间的关系,并将其发展为风险筛查机制,用于对客户的未来信用表现作出预测。当前的个人信用消费贷款贷前准入风险筛查是主要根据专家经验、利用数据统计,对客户违约可能出现的若干信号进行组合和量化,以打分卡的形式展示用户信用状况。相关方案的评分方式对专家经验有强依赖并依据多种规则进行打分,随着规则要求的增多,也加大了对个人客户进行信用评估的难度和工作量。机器学习技术可以从大量已有样本中进行建模学习,并对未知样本进行预测。因此应用机器学习技术进行个人信用消费贷款贷前准入风险筛查是一种值得尝试的方案。
但是由于交易风险预测中存在个人用户的数据特征种类较少、特征信息不全面的情况,从而影响了交易风险预测效果。
为了至少部分地解决相关技术中存在的技术问题,本公开的实施例提供了一种交易风险预测方法,包括:获取目标用户的历史数据,其中,目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息;基于目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息;根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果。
图1示意性示出了根据本公开实施例的交易风险预测方法、模型训练方法、装置、设备、介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的交易风险预测方法、模型训练方法一般可以由服务器105执行。相应地,本公开实施例所提供的交易风险预测装置、模型训练装置一般可以设置于服务器105中。本公开实施例所提供的交易风险预测方法、模型训练方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的交易风险预测装置、模型训练装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图3对公开实施例的交易风险预测方法进行详细描述。
图2示意性示出了根据本公开实施例的交易风险预测方法的流程图。
如图2所示,该实施例的交易风险预测方法200包括操作S210~操作S230。
在操作S210,获取目标用户的历史数据,其中,目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息。
在操作S220,基于目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息。
在操作S230,根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果。
根据本公开的实施例,在操作S210,目标用户可以是待进行交易风险预测的用户。目标用户的交易风险预测可以是申请信用贷款前,用户的违约风险预测,也可以是信用贷款通过后,客户的违约风险预测。
根据本公开的实施例,在操作S210,目标用户的历史数据可以是目标用户进行交易风险预测前某一时间内的历史数据。例如可以是目标用户进行交易风险预测前12个月内的历史数据。在本公开的实施例中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。目标用户基本信息可以包括目标用户的性别、年龄、婚姻状况、等信息。目标用户产品历史持有信息可以包括各类资产余额,例如可以是目标用户的储蓄、金融机构理财产品、股票、债券、公募基金、私募基金、信托、保险、长期强制性养老资产等资产的资产余额。目标用户产品历史持有信息还可以包括各类资产余额的增量以及签约类特征等。目标用户历史交易行为数据可以包括网络金融行为、结算类行为、信用卡行为、借记卡三方支付场所等。目标用户历史信用记录信息可以包括贷款的借还记录信息、信用卡的借还记录信息、个人风险特征等。
根据本公开的实施例,在操作S220,可以根据目标用户的历史数据构建目标用户的衍生特征,包括第一时间序列信息和第二时间序列信息。
根据本公开的实施例,基于包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息的目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息,对目标用户的历史数据进行深入挖掘,有效构造多组预测数据,以此为基础进行交易风险预测时,准确度较高。
根据本公开的实施例,第一时间序列信息包括M组第一信息值,M组第一信息值与M个预定时间周期的历史数据关联;第二时间序列信息包括N组第二信息值,各组第二信息值与M个预定时间周期中的L个预定时间周期的历史数据关联,L小于等于M。
根据本公开的实施例,M、N和L可以是大于等于1的正整数。
根据本公开的实施例,为了减小时间周期对客户信用评估的影响,提高交易风险预测的普适性,可以以不同预定时间周期为时间分隔,分别获取不同预定时间周期内的信息,进而形成第一时间序列信息和第二时间序列信息。预定时间周期可以以任一预定时间为周期,例如可以以7天、1个月、2个月、3个月、6个月、1年等为预定时间周期。
例如,第一时间序列信息可以包括12组第一信息值,12组第一信息值与12个月的历史数据关联。具体地,第一时间序列信息可以参照公式(1)构造。可以使用客户申请前最近自然月月末为观察基点,获取目标用户的历史数据。
Fhis=[featuretime,=1,2,3,4,5,6,7,8,9,10,11,12] (1)
其中,Fhis为第一时间序列信息,featuretime可以与进行交易风险预测前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月、前第七个月、前第八个月、前第九个月、前第十个月、前第十一个月、前第十二个月的历史数据关联。
例如,第二时间序列信息可以包括4组第二信息值,其中,第1组第二信息值可以与12个预定时间周期中的前第1个月~前第3个月的历史数据关联,第2组第二信息值可以与12个预定时间周期中的前第1个月~前第6个月的历史数据关联,第3组第二信息值可以与12个预定时间周期中的前第1个月~前第9个月的历史数据关联,第4组第二信息值可以与12个预定时间周期中的前第1个月~前第12个月的历史数据关联。具体地,第二时间序列信息可以参照公式(2)构造。
Fagg=[f(featuretime),=1-3,1-6,1-9,1-12,] (2)
其中,Fagg为第二时间序列信息,f()可以为平均值Mean()、最大值Max()、最小值Min()、标准差Std(),featuretime可以与进行交易风险预测前1个月、前3个月、前6个月、前第12个月的历史数据关联。例如,第二时间序列信息可以是目标用户进行交易风险预测前3个月储蓄余额的平均值。
根据本公开的实施例,根据M个预定时间周期的历史数据构建M组第一信息值和N组第二信息值,其中第一信息值为不同时间节点的历史信息,第二信息值为不同时间段内历史数据的聚合信息,由此形成的第一时间序列信息和第二时间序列信息,丰富了目标用户的数据特征种类,使目标用户的特征信息更加全面。
根据本公开的实施例,根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果包括:对第一时间序列信息和第二时间序列信息进行特征预处理,得到目标用户的特征集;将目标用户的特征集输入交易风险预测模型,输出目标用户的交易风险预测结果。
根据本公开的实施例,预处理可以包括数据清洗、数据补全、特征转换和特征筛选等,通过预处理得到的目标用户的特征集,可以进一步提高交易风险预测的准确度。
图3示意性示出了根据本公开实施例的得到目标用户的特征集的流程图。
如图3所示,该实施例的得到目标用户的特征集的方法包括操作S301~操作S311。
根据本公开的实施例,根据第一时间序列信息和第二时间序列信息,得到目标用户的特征集包括:
将第一时间序列信息和第二时间序列信息进行特征转换,得到多个转换特征,如图3操作S301;
对各个转换特征进行信息价值计算,得到各个转换特征的信息价值,如图3操作S302;
基于各个转换特征的信息价值进行第一特征筛选,将信息价值大于等于第一预设阈值的转换特征组合得到多个待筛选特征,如图3操作S303~S305;
对多个待筛选特征进行第二特征筛选,得到目标用户的特征集,如图3操作S306~S311。
根据本公开的实施例,对于类别型特征,例如性别、婚姻状况等,可以通过独热编码进行特征转换,得到多个转换特征。对于数值型特征,例如储蓄余额、债券余额等可以进行标准化、归一化、对数转换等。
根据本公开的实施例,可以将第一时间序列信息和第二时间序列信息构建数据宽表。
根据本公开的实施例,信息价值可以是评估变量信息价值的指标。如图3所示,在操作S304,可以第一特征筛选将信息价值小于第一预设阈值的转换特征移除;在操作S305,可以将信息价值大于等于第一预设阈值的转换特征组合得到多个待筛选特征。
根据本公开的实施例,通过第一特征筛选和第二特征筛选,可以得到对交易风险影响较大的特征,以此为基础进行交易风险预测时,可以进一步提高预测的准确度。
根据本公开的实施例,对多个待筛选特征进行第二特征筛选,得到目标用户的特征集包括:确定多个待筛选特征各自的特征重要性;基于多个待筛选特征各自的特征重要性对多个待筛选特征进行多次迭代筛选,得到目标用户的特征集。
例如,如图3所示,在操作S306~S311,可以对待筛选特征执行多轮迭代处理,直到满足预定迭代条件,将满足预定迭代条件的待筛选特征确定为目标用户的特征集。其中,对待筛选特征执行多轮迭代处理可以包括:将与当前轮迭代对应的待筛选特征进行特征筛选,得到筛选后的特征和各特征的特征重要性;将特征重要性大于等于第二预设阈值的特征确定为下一轮迭代对应的待筛选特征。预定迭代条件可以为待筛选特征集中所有特征的特征重要性均大于等于第二预设阈值。
具体地,可以将第一特征筛选得到的多个待筛选特征进行特征筛选,得到多个第一筛选特征和各特征的特征重要性;
将特征重要性大于等于第二预设阈值的特征确定为第二筛选特征;
对多个第二筛选特征进行特征筛选,得到多个第三筛选特征和各特征的特征重要性;
重复上述两步骤,直到多个第N筛选特征中所有特征的特征重要性均大于等于第二预设阈值,将多个第N筛选特征确定为目标用户的特征集。
根据本公开的实施例,可以采用基于决策树算法的分布式梯度提升框架构建特征筛选模型,基于特征筛选模型进行第二特征筛选。
根据本公开的实施例,通过特征重要性对待筛选特征进行多次迭代筛选,得到目标用户的特征集,可以进一步筛选对交易风险影响较大的特征。
根据本公开的实施例,还可以对目标用户的特征集进行共线性诊断和变量相关性检查。通过卡方检验等方法,消除特征间的相关性,最终筛选出与目标用户交易风险关联的特征。
图4示意性示出了根据本公开实施例的模型训练方法的流程图。
如图4所示,该实施例的模型训练方法400包括操作S410~操作S430。
在操作S410,获取多个参考用户的训练样本数据,其中,多个参考用户的训练样本数据至少包括多个参考用户基本信息、多个参考用户产品历史持有信息、多个参考用户历史交易行为数据和多个参考用户历史信用记录信息。
在操作S420,基于多个参考用户的训练样本数据,构建多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息。
在操作S430,基于多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息,训练交易风险预测模型。
根据本公开的实施例,可以满足以下条件即认为参考用户为潜在交易风险用户,此类用户为正样本:用户在申请后6个月内出现违约,或用户频繁关注还款信息(例如,还款金额、还款日期等,说明该用户可能存在潜在还款风险);若条件不满足,则认为此类用户为负样本。
根据本公开的实施例,可以对第一训练样本时间序列信息和第二训练样本时间序列信息进行初步清洗,去掉噪音数据或者不相关数据项,对数据进行规范性处理。对于数据类型不正确的列,可以将其转化成正确的数据类型。对于有缺失值的列,可以进行补全,例如数值特征的缺失值,用“0”补全,非数值特征的缺失值,用“-1”补全。还可以查看正负样本比例,如果出现正负样本占比相差较大情况,通过分层抽样方法,均衡正负样本比例。
图5示意性示出了根据本公开实施例的模型建立方法的流程图。
如图5所示,该实施例的模型建立方法包括操作S501~操作S513。
根据本公开的实施例,如图5所示,在操作S502,可以采用跨期验证的形式划分训练集和测试集,即使用较老的数据进行训练,使用较新的数据进行验证,以验证模型随着时间推移是否仍然有效。例如,可以根据时间节点pt_dt划分模型训练集与测试集,pt_dt值小于基准值pt_dt1的数据划分到训练集T{Train},大于等于基准值pt_dt1的数据作为测试集T{Test}。
根据本公开的实施例,如图5所示,在操作S503,可以基于梯度提升决策树算法,创建交易风险预测模型,并通过网格搜索方式确定模型最优参数。交易风险预测模型训练结束后,可以输出每个入模特征的特征重要性及模型评价结果,可以包括模型提升度、K-S值(Kolmogorov-Smirnov)、AUC值(Area Under the Curve),其中,K-S值是好坏样本之间累计分布的差值,可以用于评估模型的风险区分能力,AUC值是接受者操作特征曲线下与坐标轴围成的面积,可以用于评价模型的分类性能。
根据本公开的实施例,如图5所示,在操作S505~S508,可以针对模型输出的特征重要性进行特征筛选,剔除特征重要性小于第三预设阈值的特征,再度输入交易风险预测模型。重复执行此步骤,直至剩余特征中仅包含特征重要性大于等于第三预设阈值的特征。
根据本公开的实施例,如图5所示,在操作S509~S513,可以将提升度指标与提升度基准值比较,剔除提升度指标小于提升度基准值的特征后重新输入交易风险预测模型,直至模型提升度指标均超过提升度基准值,输出交易风险预测模型。
根据本公开的实施例,可以根据实际业务中的用户特征信息验证模型结果是否正确,即实际相符度。相符度高的模型方为可信赖的模型。
根据本公开的实施例,可以对已贷款的用户进行贷后违约风险判断,挖掘影响用户风险的主要因素。将业务理解与模型结果相结合,进行差异化风险策略设计。结合实际风险控制结果,对贷前准入规则进行优化改进,使得模型结果更加准确、稳健,更符合实际业务需要。
根据本公开的实施例,客户经理期望交易风险预测模型输出风险评分的同时,也输评分形成的原因。例如,模型预测用户贷款后在未来一段时间内有60%的概率违约,模型可以同时输出评分是基于该用户于3个月前资产余额大幅减少等提示信息,便于采取进一步针对性措施。可以使用模型可解释算法技术,来实现此功能。在模型构建过程中,也可以根据模型给出“违约原因”保证模型的解释性自洽,即模型逻辑符合业务经验。对于不满足解释性自洽的模型,会进行模型迭代优化直至模型在重要特征上的判断逻辑符合业务逻辑。
根据本公开的实施例,多个参考用户至少包括第一类用户和第二类用户,其中,第一类用户和第二类用户的交易风险程度不同。
根据本公开的实施例,第一类用户可以包括申请贷款通过的用户,第二类客户可以包括申请贷款未通过的用户。
根据本公开的实施例,可以通过聚类分析刻画申请贷款未通过用户的客户画像,为客户经理做出贷或不贷决策提供依据。
根据本公开的实施例,可以根据交易风险预测模型输出的特征重要性,选取模型最重要的部分特征,例如前20个特征,并结合专家经验选取客户经理审核贷款常用的指标10个,将数据集划分为训练集和测试集,通过聚类算法进行聚类分析,例如可以聚3类用户。此时常常存在一类用户特别多,另外几类用户较少的情况。这种情况下,可以对聚类结果进行分析,选取部分重要特征,例如14个特征,对第一大类客户进行二次聚类,使得每类用户相对均衡。最后可以生成4-5类用户群,将聚类结果结合业务分析形成画像提供给客户经理,帮助客户经理对贷款用户做出贷或者不贷的决策。
基于上述交易风险预测方法,本公开还提供了一种交易风险预测装置。以下将结合图6对该装置进行详细描述。
图6示意性示出了根据本公开实施例的一种交易风险预测装置的结构框图。
如图6所示,该实施例的一种交易风险预测装置600包括第一获取模块610、第一构建模块620和获得模块630。
第一获取模块610用于获取目标用户的历史数据,其中,目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息。在一实施例中,第一获取模块610可以用于执行前文描述的操作S210,在此不再赘述。
第一构建模块620用于基于目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息。在一实施例中,第一构建模块620可以用于执行前文描述的操作S220,在此不再赘述。
获得模块630用于根据第一时间序列信息和第二时间序列信息,得到目标用户的交易风险预测结果。在一实施例中,获得模块630可以用于执行前文描述的操作S230,在此不再赘述。
根据本公开的实施例,获得模块630包括预处理子模块和输出子模块。其中,预处理子模块用于对第一时间序列信息和第二时间序列信息进行特征预处理,得到目标用户的特征集;输出子模块用于将目标用户的特征集输入交易风险预测模型,输出目标用户的交易风险预测结果。
根据本公开的实施例预处理子模块包括特征转换单元、计算单元、第一特征筛选单元和第二特征筛选单元。其中,特征转换单元用于将第一时间序列信息和第二时间序列信息进行特征转换,得到多个转换特征;计算单元用于对各个转换特征进行信息价值计算,得到各个转换特征的信息价值;第一特征筛选单元用于基于各个转换特征的信息价值进行第一特征筛选,将信息价值大于第一预设阈值的转换特征组合得到多个待筛选特征;第二特征筛选单元用于对多个待筛选特征进行第二特征筛选,得到目标用户的特征集。
根据本公开的实施例,第二特征筛选单元包括确定子单元和迭代筛选子单元。其中,确定子单元用于确定多个待筛选特征各自的特征重要性;迭代筛选子单元用于基于多个待筛选特征各自的特征重要性对多个待筛选特征进行多次迭代筛选,得到目标用户的特征集。
根据本公开的实施例,第一获取模块610、第一构建模块620和获得模块630中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块610、第一构建模块620和获得模块630中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块610、第一构建模块620和获得模块630中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
基于上述模型训练方法,本公开还提供了一种模型训练装置。以下将结合图7对该装置进行详细描述。
图7示意性示出了根据本公开实施例的一种模型训练装置的结构框图。
如图7所示,该实施例的一种模型训练装置700包括第二获取模块710、第二构建模块720和训练模块730。
第二获取模块710用于获取多个参考用户的训练样本数据,其中,多个参考用户的训练样本数据至少包括多个参考用户基本信息、多个参考用户产品历史持有信息、多个参考用户历史交易行为数据和多个参考用户历史信用记录信息。
第二构建模块720,用于基于多个参考用户的训练样本数据,构建多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息。
训练模块730,用于基于多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息,训练交易风险预测模型。
根据本公开的实施例,第二获取模块710、第二构建模块720和训练模块730中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第二获取模块710、第二构建模块720和训练模块730中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第二获取模块710、第二构建模块720和训练模块730中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的适于实现交易风险预测方法、模型训练方法的电子设备的方框图。
如图8所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至输入/输出(I/O)接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出(I/O)接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的交易风险预测方法、模型训练方法。
在该计算机程序被处理器801执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分809被下载和安装,和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (12)

1.一种交易风险预测方法,包括:
获取目标用户的历史数据,其中,所述目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息;
基于所述目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息;
根据所述第一时间序列信息和所述第二时间序列信息,得到所述目标用户的交易风险预测结果。
2.根据权利要求1所述的方法,其中,所述第一时间序列信息包括M组第一信息值,所述M组第一信息值与M个预定时间周期的历史数据关联;
所述第二时间序列信息包括N组第二信息值,各组所述第二信息值与所述M个预定时间周期中的L个预定时间周期的历史数据关联,所述L小于等于所述M。
3.根据权利要求1所述的方法,其中,所述根据所述第一时间序列信息和所述第二时间序列信息,得到所述目标用户的交易风险预测结果包括:
对所述第一时间序列信息和所述第二时间序列信息进行特征预处理,得到所述目标用户的特征集;
将所述目标用户的特征集输入交易风险预测模型,输出所述目标用户的交易风险预测结果。
4.根据权利要求3所述的方法,其中,所述对所述第一时间序列信息和所述第二时间序列信息进行特征预处理,得到所述目标用户的特征集包括:
将所述第一时间序列信息和所述第二时间序列信息进行特征转换,得到多个转换特征;
对各个所述转换特征进行信息价值计算,得到各个所述转换特征的信息价值;
基于各个所述转换特征的信息价值进行第一特征筛选,将所述信息价值大于等于第一预设阈值的转换特征组合得到多个待筛选特征;
对所述多个待筛选特征进行第二特征筛选,得到所述目标用户的特征集。
5.根据权利要求4所述的方法,其中,所述对所述多个待筛选特征进行第二特征筛选,得到所述目标用户的特征集包括:
确定所述多个待筛选特征各自的特征重要性;
基于所述多个待筛选特征各自的特征重要性对所述多个待筛选特征进行多次迭代筛选,得到所述目标用户的特征集。
6.一种模型训练方法,包括:
获取多个参考用户的训练样本数据,其中,所述多个参考用户的训练样本数据至少包括多个参考用户基本信息、多个参考用户产品历史持有信息、多个参考用户历史交易行为数据和多个参考用户历史信用记录信息;
基于所述多个参考用户的训练样本数据,构建多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息;
基于所述多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息,训练交易风险预测模型。
7.根据权利要求6所述的方法,其中,多个参考用户至少包括第一类用户和第二类用户,其中,第一类用户和第二类用户的交易风险程度不同。
8.一种交易风险预测装置,包括:
第一获取模块,用于获取目标用户的历史数据,其中,所述目标用户的历史数据至少包括目标用户基本信息、目标用户产品历史持有信息、目标用户历史交易行为数据和目标用户历史信用记录信息;
第一构建模块,用于基于所述目标用户的历史数据,构建目标用户的第一时间序列信息和第二时间序列信息;以及
获得模块,用于根据所述第一时间序列信息和所述第二时间序列信息,得到所述目标用户的交易风险预测结果。
9.一种模型训练装置,包括:
第二获取模块,用于获取多个参考用户的训练样本数据,其中,所述多个参考用户的训练样本数据至少包括多个参考用户基本信息、多个参考用户产品历史持有信息、多个参考用户历史交易行为数据和多个参考用户历史信用记录信息;
第二构建模块,用于基于所述多个参考用户的训练样本数据,构建多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息;以及
训练模块,用于基于所述多个参考用户的第一训练样本时间序列信息和第二训练样本时间序列信息,训练交易风险预测模型。
10.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
CN202410107467.XA 2024-01-25 2024-01-25 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品 Pending CN117934154A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410107467.XA CN117934154A (zh) 2024-01-25 2024-01-25 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410107467.XA CN117934154A (zh) 2024-01-25 2024-01-25 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN117934154A true CN117934154A (zh) 2024-04-26

Family

ID=90753291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410107467.XA Pending CN117934154A (zh) 2024-01-25 2024-01-25 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN117934154A (zh)

Similar Documents

Publication Publication Date Title
US20180260891A1 (en) Systems and methods for generating and using optimized ensemble models
US11226994B2 (en) Modifying data structures to indicate derived relationships among entity data objects
CN112734559B (zh) 企业信用风险评价方法、装置及电子设备
CN114638695A (zh) 信用评估方法、装置、设备及介质
CN114462532A (zh) 模型训练方法、预测交易风险的方法、装置、设备及介质
CN112613978B (zh) 银行资本充足率的预测方法、装置、电子设备及介质
CN112950359B (zh) 一种用户识别方法和装置
CN111695988A (zh) 信息处理方法、装置、电子设备和介质
CN116091249A (zh) 交易风险的评估方法、装置、电子设备和介质
CN115795345A (zh) 信息处理方法、装置、设备及存储介质
CN114782170A (zh) 评估模型风险等级的方法、装置、设备和介质
US20220067460A1 (en) Variance Characterization Based on Feature Contribution
CN114493853A (zh) 信用等级评价方法、装置、电子设备及存储介质
CN113191681A (zh) 网点选址方法、装置、电子设备及可读存储介质
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN117934154A (zh) 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品
CN114239985A (zh) 汇率预测方法、装置、电子设备及存储介质
CN114897564A (zh) 目标客户推荐方法及装置、电子设备和存储介质
CN115062698A (zh) 用户识别方法、装置、设备及介质
CN115409636A (zh) 产品风险预测方法、装置、设备及介质
CN114065050A (zh) 产品推荐的方法、系统、电子设备和存储介质
CN116308615A (zh) 产品推荐方法、装置、电子设备及存储介质
CN115239501A (zh) 交易保证金的确定方法、装置和电子设备
CN115393025A (zh) 产品推荐方法、装置、电子设备和存储介质
CN114781745A (zh) 用于对机构存款业务状况进行预测的方法、装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination