CN115375426A - 数据处理方法、装置、设备、存储介质及程序产品 - Google Patents

数据处理方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115375426A
CN115375426A CN202210991527.XA CN202210991527A CN115375426A CN 115375426 A CN115375426 A CN 115375426A CN 202210991527 A CN202210991527 A CN 202210991527A CN 115375426 A CN115375426 A CN 115375426A
Authority
CN
China
Prior art keywords
user
feature
structural feature
structural
construction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210991527.XA
Other languages
English (en)
Inventor
梁志生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202210991527.XA priority Critical patent/CN115375426A/zh
Publication of CN115375426A publication Critical patent/CN115375426A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备、存储介质及程序产品。该方法包括:对用户的用户信息进行处理,得到所述用户的至少一个第一构造特征,所述第一构造特征至少包括类别型特征、时间型特征以及数值型特征中的一项或多项,根据所述至少一个第一构造特征分别对应的第一重要程度,对所述至少一个第一构造特征进行处理,得到所述用户的至少一个目标构造特征,将所述至少一个目标构造特征输入训练好的目标模型中,得到所述用户的贷款逾期预测值。根据本申请实施例,能够解决现有的数据处理方式的精确性较差的问题。

Description

数据处理方法、装置、设备、存储介质及程序产品
技术领域
本申请属于人工智能技术领域,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。
背景技术
目前银行或金融机构个人贷款业务增长迅速,用户群体基数大,这对个人贷款业务的风险评估提出了极高的时效性及准确性要求。
目前,常用的风险评估方法有人工评估和评分卡模型评估。然而,面对海量复杂的金融指标及用户信息,人工评估法显然无法快速且准确的进行风险评估;评分卡模型在效率上可以达到要求,但其准确性仍有待提高。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备、存储介质及程序产品,能够解决现有的数据处理方式的精确性较差的问题。
第一方面,本申请实施例提供一种数据处理方法,方法包括:
对用户的用户信息进行处理,得到用户的至少一个第一构造特征,第一构造特征至少包括类别型特征、时间型特征以及数值型特征中的一项或多项;
根据至少一个第一构造特征分别对应的第一重要程度,对至少一个第一构造特征进行处理,得到用户的至少一个目标构造特征;
将至少一个目标构造特征输入训练好的目标模型中,得到用户的贷款逾期预测值。
在一些实施例中,根据至少一个第一构造特征分别对应的第一重要程度,对至少一个第一构造特征进行处理,得到用户的至少一个目标构造特征,包括:
基于至少一个第一构造特征,以及至少一个第一构造特征分别对应的第一重要程度,确定用户的至少一个第二构造特征;
其中,目标构造特征为:第二构造特征,或,基于第二构造特征确定。
在一些实施例中,在目标构造特征基于第二构造特征确定的情况下,基于至少一个第一构造特征,以及至少一个第一构造特征分别对应的第一重要程度,确定用户的至少一个第二构造特征之后,方法还包括:
基于用户的至少一个构造特征,以及至少一个构造特征分别对应的第二重要程度,确定至少一个第三构造特征;
其中,至少一个构造特征包括至少一个第一构造特征和至少一个第二构造特征,目标构造特征为第三构造特征。
在一些实施例中,基于至少一个第一构造特征,以及至少一个第一构造特征分别对应的第一重要程度,确定用户的至少一个第二构造特征,包括:
根据至少一个第一构造特征分别对应的第一重要程度,筛选第一数量的第一构造特征;
将第一数量的第一构造特征中第一重要程度最高的第一构造特征分别除以其他的第一构造特征,得到至少一个第二构造特征。
在一些实施例中,基于至少一个第一构造特征,以及至少一个第一构造特征分别对应的第一重要程度,确定用户的至少一个第二构造特征,还可以包括:
根据所述至少一个第一构造特征分别对应的第一重要程度,筛选第二数量的第一构造特征;
对第二数量的第一构造特征中各第一构造特征分别进行分箱操作,得到与第二数量的第一构造特征一一对应的第二数量的第一衍生特征;
将第二数量的各第一构造特征分别对第二数量的各第一衍生特征进行加、减、乘和除的操作,得到至少一个第二构造特征。
在一些实施例中,基于用户的至少一个构造特征,以及至少一个构造特征分别对应的第二重要程度,确定至少一个第三构造特征,包括:
将所述用户的至少一个构造特征中第二重要程度小于第一阈值的构造特征进行压缩,得到第三构造特征;
将所述用户的至少一个构造特征中第二重要程度大于或等于第一阈值的构造特征设置为所述第三构造特征,构造特征为第一构造特征和第二构造特征。
在一些实施例中,对用户的用户信息进行处理,得到用户的至少一个第一构造特征,包括:
在用户信息为借记卡信息和信用卡信息的情况下,根据用户身份信息,对借记卡信息中的第一资产转移数据和信用卡信息中的第二资产转移数据进行聚合;
分别计算聚合后的第一资产转移数据和第二资产转移数据中各项条目的和值、平均值、最大值和最小值;
对各项条目的和值、平均值、最大值和最小值进行拼接,得到数值型特征。
在一些实施例中,对用户的用户信息进行处理,得到用户的至少一个第一构造特征,还包括:
在用户信息为可排序的类别信息的情况下,对可排序的类别信息进行标签编码,得到类别型特征。
在一些实施例中,对用户的用户信息进行处理,得到用户的至少一个第一构造特征,还包括:
在用户信息为不可排序的类别信息的情况下,统计各不可排序的类别信息中的用户数量;
在不可排序的类别信息中用户数量大于第二阈值的情况下,计算不可排序的类别信息中用户的违约次数和违约率;
将违约次数和违约率设置为类别型特征。
第二方面,本申请实施例提供一种数据处理装置,装置包括:
处理模块,用于对用户的用户信息进行处理,得到用户的至少一个第一构造特征,第一构造特征至少包括类别型特征、时间型特征以及数值型特征中的一项或多项;
构造模块,用于根据至少一个第一构造特征分别对应的第一重要程度,对至少一个第一构造特征进行处理,得到用户的至少一个目标构造特征;
预测模块,用于将至少一个目标构造特征输入训练好的目标模型中,得到用户的贷款逾期预测值。
第三方面,本申请实施例提供了一种数据处理设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如上的数据处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如上的数据处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序指令,计算机程序指令被处理器执行时实现如上的数据处理方法。
在本申请中,通过获取丰富的用户信息,并对用户信息进行处理,得到第一构造特征,又基于第一构造特征的重要程度,得到目标构造特征,并将目标构造特征对应的模型输出作为用户的贷款逾期预测值。如此一来,本申请从丰富的用户信息中筛选出对逾期归还贷款贡献较大的特征,并基于这些特征对用户的是否能够按时还贷进行风险评估,能够保证风险评估的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的数据处理方法的流程示意图;
图2是本申请一实施例提供的数据处理设备的硬件结构示意图;
图3是本申请一实施例提供的数据处理装置的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请的更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
目前银行或金融机构个人贷款业务增长迅速,用户群体基数大,这对个人贷款业务的风险评估提出了极高的时效性及准确性要求。
目前,常用的风险评估方法有人工评估和评分卡模型评估。然而,面对海量复杂的金融指标及用户信息,人工评估法显然无法快速且准确的进行风险评估;评分卡模型主要是将模型变量WOE编码方式离散化后运用logistic回归模型进行分类。在逻辑上,评分卡模型指的是针对想要进行个人贷款业务的用户的基本信息、资产、收入、征信、对私流水交易等信息对用户逾期风险进行评估,得到用户的评估分数,并根据评估分数对用户群体进行划分,对不同用户群体赋予不同的授信额度及利率。
由上可知,评分卡模型在效率上可以达到要求,但其准确性仍有待提高。
相关技术中,还可以应用神经网络模型对个人贷款业务进行风险评估。神经网络类模型在准确性上略高于评分卡模型,但神经网络模型类似黑盒模型,无法很好的对预测结果进行解释。即,现有的常规方法无法快速且准确地对个人快贷业务进行风险评估。
为了解决上述的技术问题,本申请提出了一种数据处理方法,基于用户信息和各特征的重要程度,对用户信息进行处理,得到目标构造特征,并将目标构造特征输入训练好的目标模型中,得到用户的贷款逾期预测值。
具体地,为了解决现有技术问题,本申请实施例提供了一种数据处理方法、装置、设备、存储介质及程序产品。下面首先对本申请实施例所提供的数据处理方法进行介绍。
图1示出了本申请一个实施例提供的数据处理方法的流程示意图。该方法包括以下步骤:
S110,对用户的用户信息进行处理,得到用户的至少一个第一构造特征,第一构造特征至少包括类别型特征、时间型特征以及数值型特征中的一项或多项。
在本实施例中,用户信息可以包括用户身份信息、用户行为信息、用户信用评估信息中的一项或多项。
由于本申请中获取的用户信息的种类比较丰富,因此基于用户信息处理得到的第一构造特征也分为多种,第一构造特征可以包括类别型特征、时间型特征、数值型特征和专家法处理得到的特征。
S120,根据至少一个第一构造特征分别对应的第一重要程度,对至少一个第一构造特征进行处理,得到用户的至少一个目标构造特征。
在本实施例中,不同的第一构造特征对应不同的预测结果,而各第一构造特征对于预测结果的贡献各不相同,因此每个第一构造特征的第一重要程度也并不相同,对预测结果贡献更大的第一构造特征的重要程度更高。
在一实施例中,将第一构造特征输入对应的模型中,能够得到各第一构造特征的第一重要程度,再基于各第一构造特征的第一重要程度对第一构造特征进行进一步处理,就能够得到至少一个目标构造特征。
S130,将至少一个目标构造特征输入训练好的目标模型中,得到用户的贷款逾期预测值。
在本实施例中,训练好的目标模型可以是训练好的LightGBM模型,将构造的至少一个目标构造特征输入LightGBM模型中,模型的输出即为用户的贷款逾期预测概率值,用户的贷款逾期预测概率值用于表征用户贷款之后,逾期归还的概率,可以根据用户的贷款逾期预测值为用户设定不同的授信额度及利率。
本申请通过获取丰富的用户信息,并对用户信息进行处理,得到第一构造特征,又基于第一构造特征的重要程度,得到目标构造特征,并将目标构造特征对应的模型输出作为用户的贷款逾期预测值。如此一来,本申请从丰富的用户信息中筛选出对逾期归还贷款贡献较大的特征,并基于这些特征对用户的是否能够按时还贷进行风险评估,能够保证风险评估的准确性。
作为一个可选实施例,为了确定目标构造特征,上述S120,可以包括:
S210,基于至少一个第一构造特征,以及至少一个第一构造特征分别对应的第一重要程度,确定用户的至少一个第二构造特征;
S220,其中,目标构造特征为:第二构造特征,或,基于第二构造特征确定。
在本实施例中,第一构造特征为对用户信息进行处理得到的特征,可以将第一构造特征输入训练好的目标模型,得到各第一构造特征的第一重要程度,并基于第一构造特征分别对应的第一重要程度,确定用户的至少一个第二构造特征,目标构造特征可以是第二构造特征,也可以是基于第二构造特征所确定的。
通过上述特征构造方式,可以从第一构造特征中选择第一重要程度高的特征,并基于第一重要程度高的第一构造特征对特征的数量进行丰富,有效提升风险评估的准确性。
作为一个可选实施例,在目标构造特征基于第二构造特征确定的情况下,上述S210之后,还可以包括:
S310,基于用户的至少一个构造特征,以及至少一个构造特征分别对应的第二重要程度,确定至少一个第三构造特征,至少一个构造特征包括至少一个第一构造特征和至少一个第二构造特征,目标构造特征为第三构造特征。
在本实施例中,可以将第二构造特征作为目标构造特征,也可以基于用户的构造特征的第二重要程度,对用户的构造特征进行进一步处理,得到第三构造特征,并将第三构造特征作为目标构造特征,其中,构造特征包括第一构造特征和第二构造特征。
作为一个可选实施例,为了丰富第一重要程度较高的第二构造特征,上述S210,还可以包括:
S410,根据至少一个第一构造特征分别对应的第一重要程度,筛选第一数量的第一构造特征;
S420,将第一数量的第一构造特征中第一重要程度最高的第一构造特征分别除以其他的第一构造特征,得到至少一个第二构造特征。
在本实施例中,不同的第一构造特征对应不同的第一重要程度,对第一重要程度进行排序,选取第一重要程度最高的,第一数量的第一构造特征,并用第一重要程度最高的第一构造特征分别除以其他选取的第一构造特征,得到至少一个第二构造特征。
在一实施例中,第一数量为12个,选取第一重要程度排在前12 的第一构造特征,其中,第一重要程度最高的第一构造特征为“个人用户评分”,可以将“个人用户评分”分别除以其他的11个第一构造特征,得到11个第二构造特征。
通过上述方式,可以通过比较简便的方式,基于第一重要程度较高的第一构造特征得到第二构造特征,丰富了重要程度比较高的构造特征。
作为一个可选实施例,为了丰富第一重要程度较高的第二构造特征,上述S210,可以包括:
S510,根据所述至少一个第一构造特征分别对应的第一重要程度,筛选第二数量的第一构造特征;
S520,对第二数量的第一构造特征中各第一构造特征分别进行分箱操作,得到与第二数量的第一构造特征一一对应的第二数量的第一衍生特征;
S530,将第二数量的各第一构造特征分别对第二数量的各第一衍生特征进行加、减、乘和除的操作,得到至少一个第二构造特征。
在本实施例中,得到第二构造特征的方式存在多种。例如,可以根据所述至少一个第一构造特征分别对应的第一重要程度,筛选第二数量的第一构造特征,然后对这第二数量的第一构造特征分别进行分箱操作,得到与第一构造特征一一对应的第一衍生特征,并从各第一构造特征和各第一衍生特征中选取两项,进行加、减、乘和除的操作,得到至少一个第二构造特征。
在一实施例中,第二数量为3,第二重要程度排序前三的第一构造特征依次为“个人用户评分”、“申请时间”和“年龄”,可以分别按照50、30和5的间隔分别对“个人用户评分”、“申请时间”和“年龄”进行分箱操作,得到与“个人用户评分”对应的第一衍生特征“个人用户评分_cut”,与“申请时间”对应的第一衍生特征“申请时间_cut”,与“年龄”对应的第一衍生特征“年龄_cut”。
得到三个第一构造特征和三个第一衍生特征之后,可以用这三个第一构造特征和这三个第一衍生特征分别对“申请时间_cut”和“年龄_cut”这两个第一衍生特征进行加、减、乘和除运算,获得48个第二构造特征;还可以选取一个第一构造特征“用户信用评估”,利用“用户信用评估”分别对“个人用户评分_cut”、“申请时间_cut”和“年龄_cut”三个第一衍生特征分别进行乘、除运算,再获得另外六个第二构造特征。
作为一个可选实施例,为了筛选第三构造特征,上述S310,可以包括:
S610,将所述用户的至少一个构造特征中第二重要程度小于第一阈值的构造特征进行压缩,得到第三构造特征;
S620,将所述用户的至少一个构造特征中第二重要程度大于或等于第一阈值的构造特征设置为所述第三构造特征,构造特征为第一构造特征和第二构造特征。
在本实施例中,在得到所有第二构造特征之后,可以将用户的构造特征输入训练好的目标模型中,得到第一构造特征和第二构造特征对应的第二重要程度。
在得到第二重要程度之后,可以将所述用户的至少一个构造特征中第二重要程度小于第一阈值的构造特征进行压缩,得到第三构造特征,并将所述用户的至少一个构造特征中第二重要程度大于或等于第一阈值的构造特征设置为所述第三构造特征。
在一实施例中,筛选出第二重要程度小于10的构造特征,然后使用主成分分析(PCA)模型对筛选出的特征进行压缩,获取PCA 模型中重要程度为99.9%的特征作为第三构造特征,并将第二重要程度大于或等于10的构造特征作为第三构造特征。
通过上述方法,可以保证第三构造特征均为重要程度较高的特征。
作为一个可选实施例,上述S110,可以包括:
S710,在用户信息包括借记卡信息和信用卡信息的情况下,根据用户身份信息,对借记卡信息中的第一资产转移数据和信用卡信息中的第二资产转移数据进行聚合;
S720,分别计算聚合后的第一资产转移数据和第二资产转移数据中各项条目的和值、平均值、最大值和最小值;
S730,对各项条目的和值、平均值、最大值和最小值进行拼接,得到数值型特征。
在本实施例中,可以根据用户ID,将每个用户的借记卡信息和信用卡信息聚合在一起,然后分别计算每个用户的第一资产转移数据和第二资产转移数据中各项条目的和值、平均值、最大值和最小值,并依次对和值、平均值、最大值和最小值进行拼接,得到数值型特征。如此一来,能够结合用户借记卡和信用卡的许多有效信息,从用户的借记卡信息和信用卡信息中得到每个用户的第一构造特征。
此外,还可以将用户信息中的时间处理成第一构造特征中的时间型特征,在一实施例中,可以将时间型特征通过“年-月-日”的形式表达出来,并将时间型特征与“1900-01-01”相减得到时间差值,该时间差值可以作为第一构造特征。
在另一些实施例中,还可以对不同时间特征进行两两相减,来得到更多的第一构造特征:“信用卡最早开卡时间-最早一笔贷款发放时间”、“信用卡最早开卡时间-申请时间”和“申请时间-最早一笔贷款发放时间”。
具体的,如果上述的时间型特征或数值型特征中存在数据的缺失,那么可以利用离群值对缺失的数据进行填充。例如,可以采用“-99999”对数值型特征进行填充,还可以采用“1900-01-01”对时间型特征进行填充,通过这种缺失值的填充方式,可以减少人为误差,减少数据缺失对模型运行结果的准确性的影响。
作为一个可选实施例,为了基于用户信息的分类筛选出第一构造特征,上述S110,可以包括:
S810,在用户信息为可排序的类别信息的情况下,对可排序的类别信息进行标签编码,得到类别型特征。
在本实施例中,对于用户信息中可排序的类别信息,即具有大小或者顺序关系的类别,可以进行标签编码,将标签编码作为类别型特征。例如,将年龄段为30-50的用户进行标签编码为“1”,将年龄段为50-70的用户进行标签编码为“2”。
作为一个可选实施例,为了基于用户信息的分类筛选出第一构造特征,上述S110,可以包括:
S910,在用户信息为不可排序的类别信息的情况下,统计各不可排序的类别信息中的用户数量;
S920,在不可排序的类别信息中用户数量大于第二阈值的情况下,计算不可排序的类别信息中用户的违约次数和违约率;
S930,将违约次数和违约率设置为类别型特征。
在本实施例中,如果用户信息中的类别型特征无法排序,则可以统计各不可排序的类别信息特征中的用户数量。在不可排序的类别信息特征中的用户数量大于第二阈值的情况下,计算该类别的用户的违约次数和违约率,并将该违约次数和违约率作为类别型特征;在在不可排序的类别信息特征中的用户数量小于或等于第二阈值的情况下,将几个用户数量小于或等于第二阈值的类别合并为一种新的类别,使新的类别中用户数量大于第二阈值,计算新的类别中的违约次数和违约率,并将该违约次数和违约率作为类别型特征。
例如,可以按地区划分用户信息的类别,类别为“A地区”的用户数量大于第二阈值,则可以直接计算“A地区”中用户的违约率和违约次数,并将“A地区”中用户的违约率和违约次数作为类别型特征。类别为“B地区”的用户数量,和“C地区”的用户数量均不足第二阈值,但“B地区”和“C地区”的用户数量之和大于第二阈值,那么就可以将“B地区”和“C地区”合并为一个新的类别,计算这个新的类别的违约率和违约次数作为类别型特征。
通过上述方式,可以基于用户信息的分类筛选出一些特征作为第一构造特征。
此外,还可以通过专家法对用户信息进行处理,得到第一构造特征。
另外,本申请选择的模型可以为LightGBM模型,并基于效率和时间上的考虑,采用贪心算法选择模型参数,即先确定模型初步的学习率和迭代次数,然后使用网格搜索法选择最优的max_depth和 num_leaves参数,然后依次确定min_data_in_leaf、max_bin等LightGBM参数,最后降低学习率,并增加迭代次数。
上述的LightGBM模型可以采用AUC作为模型的评价标准,默认binary_logloss作为模型的损失函数。
基于上述实施例提供的数据处理方法,相应地,本申请还提供了数据处理装置的具体实现方式。请参见以下实施例。
首先参见图2,本申请实施例提供的数据处理装置200包括以下模块:
处理模块201,用于对用户的用户信息进行处理,得到用户的至少一个第一构造特征,第一构造特征至少包括类别型特征、时间型特征以及数值型特征中的一项或多项;
构造模块202,用于根据至少一个第一构造特征分别对应的第一重要程度,对至少一个第一构造特征进行处理,得到用户的至少一个目标构造特征;
预测模块203,用于将至少一个目标构造特征输入训练好的目标模型中,得到用户的贷款逾期预测值。
设备可以通过获取丰富的用户信息,并对用户信息进行处理,得到第一构造特征,又基于第一构造特征的重要程度,得到目标构造特征,并将目标构造特征对应的模型输出作为用户的贷款逾期预测值。如此一来,本申请从丰富的用户信息中筛选出对逾期归还贷款贡献较大的特征,并基于这些特征对用户的是否能够按时还贷进行风险评估,能够保证风险评估的准确性。
作为本申请的一种实现方式,为了确定目标构造特征,上述构造模块202还可以包括:
第一构造单元,用于基于至少一个第一构造特征,以及至少一个第一构造特征分别对应的第一重要程度,确定用户的至少一个第二构造特征其中,目标构造特征为:第二构造特征,或,基于第二构造特征确定。
作为本申请的一种实现方式,上述数据处理装置200还可以包括:
第二构造单元,用于基于用户的至少一个构造特征,以及至少一个构造特征分别对应的第二重要程度,确定至少一个第三构造特征,至少一个构造特征包括至少一个第一构造特征和至少一个第二构造特征,目标构造特征为第三构造特征。
作为本申请的一种实现方式,上述第一构造单元还可以包括:
第一筛选单元,根据至少一个第一构造特征分别对应的第一重要程度,筛选第一数量的第一构造特征;
处理单元,将第一数量的第一构造特征中第一重要程度最高的第一构造特征分别除以其他的第一构造特征,得到至少一个第二构造特征。
作为本申请的一种实现方式,上述第一构造单元还可以包括:
第二筛选单元,用于根据所述至少一个第一构造特征分别对应的第一重要程度,筛选第二数量的第一构造特征;
衍生单元,对第二数量的第一构造特征中各第一构造特征分别进行分箱操作,得到与第二数量的第一构造特征一一对应的第二数量的第一衍生特征;
第二处理单元,将第二数量的各第一构造特征分别对第二数量的各第一衍生特征进行加、减、乘和除的操作,得到至少一个第二构造特征。
作为本申请的一种实现方式,上述第二构造单元还可以包括:
压缩单元,用于将所述用户的至少一个构造特征中第二重要程度小于第一阈值的构造特征进行压缩,得到第三构造特征;
设置单元,用于将所述用户的至少一个构造特征中第二重要程度大于或等于第一阈值的构造特征设置为所述第三构造特征,构造特征为第一构造特征和第二构造特征。
作为本申请的一种实现方式,上述处理模块201还可以包括:
聚合单元,用于在用户信息为借记卡信息和信用卡信息的情况下,根据用户身份信息,对借记卡信息中的第一资产转移数据和信用卡信息中的第二资产转移数据进行聚合;
计算单元,用于分别计算聚合后的第一资产转移数据和第二资产转移数据中各项条目的和值、平均值、最大值和最小值;
拼接单元,用于对各项条目的和值、平均值、最大值和最小值进行拼接,得到数值型特征。
作为本申请的一种实现方式,上述处理模块201还可以包括:
编码单元,用于在用户信息为可排序的类别信息的情况下,对可排序的类别信息进行标签编码,得到类别型特征。
作为本申请的一种实现方式,上述处理模块201还可以包括:
统计单元,用于在用户信息为不可排序的类别信息的情况下,统计各不可排序的类别信息中的用户数量;
违约计算单元,用于在不可排序的类别信息中用户数量大于第二阈值的情况下,计算不可排序的类别信息中用户的违约次数和违约率;
第二设置单元,将违约次数和违约率设置为类别型特征。
本发明实施例提供的数据处理装置能够实现上述的方法实施例中的各个步骤,为避免重复,这里不再赘述。
图3示出了本申请实施例提供的数据处理设备的硬件结构示意图。
在数据处理设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,数据处理设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将数据处理设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线 310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该数据处理设备可以基于上述实施例,从而实现结合上述的数据处理方法和装置。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等,在此并不限定。
另外,本申请实施例还提供了一种计算机程序产品,包括计算机程序指令,计算机程序指令被处理器执行时可实现前述方法实施例的步骤及相应内容。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、 CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (13)

1.一种数据处理方法,其特征在于,所述方法包括:
对用户的用户信息进行处理,得到所述用户的至少一个第一构造特征,所述第一构造特征至少包括类别型特征、时间型特征以及数值型特征中的一项或多项;
根据所述至少一个第一构造特征分别对应的第一重要程度,对所述至少一个第一构造特征进行处理,得到所述用户的至少一个目标构造特征;
将所述至少一个目标构造特征输入训练好的目标模型中,得到所述用户的贷款逾期预测值。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述至少一个第一构造特征分别对应的第一重要程度,对所述至少一个第一构造特征进行处理,得到所述用户的至少一个目标构造特征,包括:
基于所述至少一个第一构造特征,以及所述至少一个第一构造特征分别对应的第一重要程度,确定所述用户的至少一个第二构造特征;
其中,所述目标构造特征为:所述第二构造特征,或,基于所述第二构造特征确定。
3.根据权利要求2所述的数据处理方法,其特征在于,在所述目标构造特征基于所述第二构造特征确定的情况下,所述基于所述至少一个第一构造特征,以及所述至少一个第一构造特征分别对应的第一重要程度,确定所述用户的至少一个第二构造特征之后,所述方法还包括:
基于所述用户的至少一个构造特征,以及所述至少一个构造特征分别对应的第二重要程度,确定至少一个第三构造特征;
其中,所述至少一个构造特征包括所述至少一个第一构造特征和所述至少一个第二构造特征,所述目标构造特征为所述第三构造特征。
4.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述至少一个第一构造特征,以及所述至少一个第一构造特征分别对应的第一重要程度,确定所述用户的至少一个第二构造特征,包括:
根据所述至少一个第一构造特征分别对应的第一重要程度,筛选第一数量的第一构造特征;
将所述第一数量的第一构造特征中所述第一重要程度最高的第一构造特征分别除以其他的第一构造特征,得到至少一个第二构造特征。
5.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述至少一个第一构造特征,以及所述至少一个第一构造特征分别对应的第一重要程度,确定所述用户的至少一个第二构造特征,包括:
根据所述至少一个第一构造特征分别对应的第一重要程度,筛选第二数量的第一构造特征;
对所述第二数量的第一构造特征中各所述第一构造特征分别进行分箱操作,得到与所述第二数量的第一构造特征一一对应的所述第二数量的第一衍生特征;
将所述第二数量的各第一构造特征分别对所述第二数量的各第一衍生特征进行加、减、乘和除的操作,得到至少一个第二构造特征。
6.根据权利要求3所述的数据处理方法,其特征在于,所述基于所述用户的至少一个构造特征,以及所述至少一个构造特征分别对应的第二重要程度,确定至少一个第三构造特征,包括:
将所述用户的至少一个构造特征中第二重要程度小于第一阈值的构造特征进行压缩,得到所述第三构造特征;
将所述用户的至少一个构造特征中第二重要程度大于或等于第一阈值的构造特征设置为所述第三构造特征。
7.根据权利要求1所述的数据处理方法,其特征在于,所述对用户的用户信息进行处理,得到所述用户的至少一个第一构造特征,包括:
在所述用户信息包括借记卡信息和信用卡信息的情况下,根据用户身份信息,对所述借记卡信息中的第一资产转移数据和所述信用卡信息中的第二资产转移数据进行聚合;
分别计算聚合后的所述第一资产转移数据和所述第二资产转移数据中各项条目的和值、平均值、最大值和最小值;
对所述各项条目的和值、平均值、最大值和最小值进行拼接,得到所述数值型特征。
8.根据权利要求1所述的数据处理方法,其特征在于,所述对用户的用户信息进行处理,得到所述用户的至少一个第一构造特征,还包括:
在所述用户信息为可排序的类别信息的情况下,对所述可排序的类别信息进行标签编码,得到所述类别型特征。
9.根据权利要求1所述的数据处理方法,其特征在于,所述对用户的用户信息进行处理,得到所述用户的至少一个第一构造特征,还包括:
在所述用户信息为不可排序的类别信息的情况下,统计各不可排序的类别信息中的用户数量;
在所述不可排序的类别信息中用户数量大于第二阈值的情况下,计算所述不可排序的类别信息中用户的违约次数和违约率;
将所述违约次数和所述违约率设置为所述类别型特征。
10.一种数据处理装置,其特征在于,所述装置包括:
处理模块,用于对用户的用户信息进行处理,得到所述用户的至少一个第一构造特征,所述第一构造特征至少包括类别型特征、时间型特征以及数值型特征中的一项或多项;
构造模块,用于根据所述至少一个第一构造特征分别对应的第一重要程度,对所述至少一个第一构造特征进行处理,得到所述用户的至少一个目标构造特征;
预测模块,用于将所述至少一个目标构造特征输入训练好的目标模型中,得到所述用户的贷款逾期预测值。
11.一种数据处理设备,其特征在于,所述数据处理设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-9中任一项所述的数据处理方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9中任一项所述的数据处理方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-9中任一项所述的数据处理方法。
CN202210991527.XA 2022-08-18 2022-08-18 数据处理方法、装置、设备、存储介质及程序产品 Pending CN115375426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210991527.XA CN115375426A (zh) 2022-08-18 2022-08-18 数据处理方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210991527.XA CN115375426A (zh) 2022-08-18 2022-08-18 数据处理方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN115375426A true CN115375426A (zh) 2022-11-22

Family

ID=84066455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210991527.XA Pending CN115375426A (zh) 2022-08-18 2022-08-18 数据处理方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115375426A (zh)

Similar Documents

Publication Publication Date Title
CN112801498B (zh) 风险识别模型的训练方法、风险识别方法、装置及设备
CN111340121B (zh) 目标特征的确定方法及装置
CN110489449A (zh) 一种图表推荐方法、装置和电子设备
US20140316960A1 (en) Merchant bank tool
CN111861521B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN111104590A (zh) 信息推荐方法、装置、介质及电子设备
CN116629937A (zh) 营销策略推荐方法及装置
CN112232950A (zh) 针对借贷风险的评估方法及装置、设备、计算机可读存储介质
CN113159213A (zh) 一种业务分配方法、装置及设备
CN110704706B (zh) 分类模型的训练方法、分类方法及相关设备、分类系统
CN114118816B (zh) 一种风险评估方法、装置、设备及计算机存储介质
CN106897282A (zh) 一种用户群的分类方法和设备
JP7288062B2 (ja) 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN117078016A (zh) 企业风险评估方法及其系统、设备、介质
CN111353015B (zh) 众包题目推荐方法、装置、设备及存储介质
CN110929123A (zh) 一种电商产品竞争分析方法及系统
CN115375426A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN110795537A (zh) 一种确定目标商品的改进策略的方法、装置、设备和介质
CN116383638A (zh) 一种推荐模型的训练方法及装置
CN117076537A (zh) 一种交易流水数据的特征衍生方法、装置和电子设备
CN116258568A (zh) 授信额度推荐方法及系统、设备及计算机可读存储介质
CN115878873A (zh) 异常用户的特征确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination