CN113822464A - 用户信息的处理方法及装置、电子设备、存储介质 - Google Patents
用户信息的处理方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN113822464A CN113822464A CN202110920381.5A CN202110920381A CN113822464A CN 113822464 A CN113822464 A CN 113822464A CN 202110920381 A CN202110920381 A CN 202110920381A CN 113822464 A CN113822464 A CN 113822464A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- sample set
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 7
- 230000010365 information processing Effects 0.000 title description 6
- 238000012549 training Methods 0.000 claims abstract description 93
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000006399 behavior Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了一种用户信息的处理方法及装置、电子设备、存储介质,该方法包括:获取目标用户的用户信息,其中,所述用户信息至少包括用户个人信息和历史金融行为信息;将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出所述目标用户的收入水平信息;其中,所述用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。通过本发明,解决了现有的规则模型对用户收入水平预测不准确的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种用户信息的处理方法及装置、电子设备、存储介质。
背景技术
目前,用户的收入水平为构建用户画像提供了有效的支持,并且收入水平也是影响消费能力的主要因素之一,在商业领域有着不可或缺的需求。然而,由于目前社会收入的多元化,难以精准的体现出用户的收入水平。
现有的评估用户收入水平的常规规则模型,比如关键字匹配,其覆盖用户量少,而且规则具有一定局限性,用户收入评估不准确。
针对上述相关技术中存在的技术问题,目前没有提出有效的解决方案。
发明内容
鉴于上述问题,本发明提出了一种用户信息的处理方法及装置、电子设备、存储介质,以至少解决现有的规则模型对用户收入水平预测不准确的技术问题。
第一方面,本发明提供了一种用户信息的处理方法,包括:获取目标用户的用户信息,其中,所述用户信息至少包括用户个人信息和历史金融行为信息;将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出所述目标用户的收入水平信息;其中,所述用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。
可选的,在将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习之前,所述方法还包括:获取包含多个用户对应的用户信息的用户样本集,其中,所述用户样本集包括各个用户的用户个人信息、各个用户的历史金融行为信息、各个用户的信用卡授信额度和各个用户的历史收入信息;对所述用户样本集进行数据清洗,得到标准化样本集;利用所述标准化样本集训练所述回归树模型,得到所述用户收入水平预测模型。
可选的,所述获取包含多个用户对应的用户信息的用户样本集包括:获取包含多个第一用户对应的用户信息的基础用户样本集;基于所述基础用户样本集中各所述第一用户对应的历史收入信息和信用卡授信额度,从所述多个第一用户中筛选出符合预设条件的多个第二用户;其中,所述预设条件为各个用户的历史收入信息位于[信用卡授信额度/n,信用卡授信额度],n为固定常量;从所述基础用户样本集中筛选出包含所述多个第二用户对应的用户信息的筛选用户样本集,作为所述用户样本集。
可选的,所述用户样本集中每个信息对应一个特征值,所述对所述用户样本集进行数据清洗包括以下至少之一:修正所述用户样本集中存在明显错误的特征值;完善所述用户样本集中存在部分信息遗漏的特征值;对所述用户样本集中的特征值进行特征标准化。
可选的,所述通过将所述标准化样本集输入所述回归树进行训练,生成所述用户收入水平预测模型包括:步骤A,按照预设比例将所述标准化样本集划分为训练集和测试集;步骤B,将所述训练集输入所述回归树模型进行训练,生成预训练模型;步骤C,通过将所述测试集中的用户个人信息和历史金融行为信息输入所述预训练模型进行特征学习,输出所述测试集对应的收入水平信息;步骤D,根据所述测试集对应的收入水平信息和所述测试集中的历史收入信息计算所述预训练模型的误差;循环执行上述步骤A、步骤B、步骤C及步骤D,直到所述误差取得最小值时,结束对所述预训练模型的迭代训练,并将所述误差取最小值时对应的预训练模型作为所述用户收入水平预测模型。
可选的,在将所述训练集输入所述回归树模型进行训练之前,所述方法还包括:利用损失函数搭建所述回归树模型;其中,所述回归树模型通过以下公式表达:其中,l(yi,y′i)是损失函数,用于计算所述误差,yi为样本集中用户实际的历史收入信息,y′i为用户收入水平预测模型输出的用户收入水平信息,Ω(f(t))为损失函数复杂度,Cons为常数项。
可选的,所述回归树模型包括梯度提升决策树GBDT模型。
第二方面,本发明提供了一种用户信息的处理装置,包括:第一获取模块,用于获取目标用户的用户信息,其中,所述用户信息至少包括用户个人信息和历史金融行为信息;学习模块,用于将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出所述目标用户的收入水平信息;其中,所述用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。
可选的,所述装置还包括:第二获取模块,用于在将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习之前,获取包含多个用户对应的用户信息的用户样本集,其中,所述用户样本集包括各个用户的用户个人信息、各个用户的历史金融行为信息、各个用户的信用卡授信额度和各个用户的历史收入信息;清洗模块,用于对所述用户样本集进行数据清洗,得到标准化样本集;训练模块,用于利用所述标准化样本集训练所述回归树模型,得到所述用户收入水平预测模型。
可选的,所述第二获取模块包括:获取单元,用于获取包含多个第一用户对应的用户信息的基础用户样本集;第一筛选单元,用于基于所述基础用户样本集中各所述第一用户对应的历史收入信息和信用卡授信额度,从所述多个第一用户中筛选出符合预设条件的多个第二用户;其中,所述预设条件为各个用户的历史收入信息位于[信用卡授信额度/n,信用卡授信额度],n为固定常量;第二筛选单元,用于从所述基础用户样本集中筛选出包含所述多个第二用户对应的用户信息的筛选用户样本集,作为所述用户样本集。
可选的,所述用户样本集中每个信息对应一个特征值,所述清洗模块包括以下至少之一:修正单元,用于修正所述用户样本集中存在明显错误的特征值;完善单元,用于完善所述用户样本集中存在部分信息遗漏的特征值;标准化单元,用于对所述用户样本集中的特征值进行特征标准化。
可选的,所述训练模块包括:划分单元,用于按照预设比例将所述标准化样本集划分为训练集和测试集;训练单元,用于将所述训练集输入所述回归树模型进行训练,生成预训练模型;学习单元,用于通过将所述测试集中的用户个人信息和历史金融行为信息输入所述预训练模型进行特征学习,输出所述测试集对应的收入水平信息;计算单元,用于根据所述测试集对应的收入水平信息和所述测试集中的历史收入信息计算所述预训练模型的误差;执行单元,用于循环执行上述划分单元、训练单元、学习单元及计算单元对应的操作,直到所述误差取得最小值时,结束对所述预训练模型的迭代训练,并将所述误差取最小值时对应的预训练模型作为所述用户收入水平预测模型。
可选的,所述装置还包括:搭建模块,用于在将所述训练集输入所述回归树模型进行训练之前,利用损失函数搭建所述回归树模型;其中,所述回归树模型通过以下公式表达:其中,l(yi,y′i)是损失函数,用于计算所述误差,yi为样本集中用户实际的历史收入信息,y′i为用户收入水平预测模型输出的用户收入水平信息,Ω(f(t))为损失函数复杂度,Cons为常数项。
可选的,所述回归树模型包括梯度提升决策树GBDT模型。
第三方面,本发明还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
第四方面,本发明还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。
本发明实施例提供的用户信息的处理方法,通过利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集预先训练回归树,得到用户收入水平预测模型,该模型融合了用户信用卡、银行金融、互联网平台信息及用户基本信息,评估模型覆盖的特征维度多,使得模型更加置信;然后输入目标用户的用户信息,通过用户收入水平预测模型进行特征学习,输出目标用户的收入水平信息,准确、合理地评估用户的收入水平,从而解决了现有的规则模型对用户收入水平预测不准确的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种用户信息的处理方法应用于计算机终端的硬件结构框图;
图2是根据本发明实施例提供的一种用户信息的处理方法的流程图;
图3是根据本发明一可选实施例提供的用户信息的处理方法的流程图;
图4是根据本发明实施例提供的一种用户信息的处理装置的结构框图;
图5是根据本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。
为了解决相关技术存在的技术问题,在本实施例中提供了一种用户信息的处理方法。下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明实施例所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例提供的一种用户信息的处理方法应用于计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的用户信息的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器,也可以包括易失性存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
图2是根据本发明实施例提供的一种用户信息的处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取目标用户的用户信息,其中,用户信息至少包括用户个人信息和历史金融行为信息;
在本实施例中,用户个人信息包括用户的年龄分层(比如青少年、青年、中年等)、工作是否稳定、婚姻状态、子女个数、房车资产、职业和学历等;历史金融行为信息包括用户的历史消费、银行贷款等。
步骤S204,将用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出目标用户的收入水平信息;其中,用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。
可选地,回归树模型包括梯度提升决策树GBDT模型。在本实施例中,优选lightGBM模型(全称为Light Gradient Boosting Machine,即光梯度增压机),是GBDT模型的进化版本,采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。使用lightGBM模型具有更快的训练效率,低内存使用,更高的准确率,支持并行化学习,可处理大规模数据。
在本实施例中,用户的历史收入信息包括各个维度的收入,比如用户银行账号转入和月均工资金额等;通过利用用户的个人信息、金融行为信息和相关维度的收入等训练lightGBM模型,来预测用户的收入水平。
本发明实施例提供的用户信息的处理方法,通过利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集预先训练回归树,得到用户收入水平预测模型,该模型融合了用户信用卡、银行金融、互联网平台信息及用户基本信息,评估模型覆盖的特征维度多,使得模型更加置信;然后输入目标用户的用户信息,通过用户收入水平预测模型进行特征学习,输出目标用户的收入水平信息,准确、合理地评估用户的收入水平,从而解决了现有的规则模型对用户收入水平预测不准确的技术问题。
本发明实施例中提供了一种可能的实现方式,在将用户信息输入预先训练的用户收入水平预测模型进行特征学习之前,还包括:获取包含多个用户对应的用户信息的用户样本集,其中,用户样本集包括各个用户的用户个人信息、各个用户的历史金融行为信息、各个用户的信用卡授信额度和各个用户的历史收入信息;对用户样本集进行数据清洗,得到标准化样本集;利用标准化样本集训练回归树模型,得到用户收入水平预测模型。
在本实施例中,训练模型的输入为用户个人信息、用户金融行为统计信息(即上述历史金融行为信息)、用户信用卡授信额度等样本特征(即上述样本集),用户的历史收入水平作为预测模型的因变量y,对样本特征进行数据清洗,即样本特征进行标准化处理,以提高数据处理效率和准确度;接着对lightgbm模型进行训练至收敛。
优选地,获取包含多个用户对应的用户信息的用户样本集包括:获取包含多个第一用户对应的用户信息的基础用户样本集;基于基础用户样本集中各第一用户对应的历史收入信息和信用卡授信额度,从多个第一用户中筛选出符合预设条件的多个第二用户;其中,预设条件为各个用户的历史收入信息位于[信用卡授信额度/n,信用卡授信额度],n为固定常量;从基础用户样本集中筛选出包含多个第二用户对应的用户信息的筛选用户样本集,作为用户样本集。
在本实施例的一个示例中,从获取到的样本集(即上述基础用户样本集)中,保留收入水平小于用户信用卡申请额度(即上述信用卡授信额度),且大于用户信用卡申请额度/10的样本,主要考虑银行可以授予的最大额度应该是月均可支配收入的10倍,这样可以保证月可支配收入至少够还信用卡欠款的最低还款,使得样本更加置信。通过提供一种基于信用卡审批额度,结合用户金融行为信息的方法,准确、合理地评估用户的收入水平。
优选地,用户样本集中每个信息对应一个特征值,对用户样本集进行数据清洗包括以下至少之一:修正用户样本集中存在明显错误的特征值;完善用户样本集中存在部分信息遗漏的特征值;对用户样本集中的特征值进行特征标准化。
在本实施例中,为用户样本集中每个信息标记标签,使得每个信息对应一个特征值;对用户样本集进行数据清洗,包括对数据进行缺失值(即信息遗漏)、特征值标准化、异常值(明显错误特征值)处理等。
例如,用户个人信息的处理包括缺失值的处理、特征数值化等,例如当前的用户基础信息是否显示的用户年龄分层(打标为青少年、青年、中年)、工作打标为是否为稳定工作,学历打标为是否高学历,婚姻状态默认为未婚,子女数量默认为0。
用户金融行为信息包括异常值处理、缺失值处理、特征标准化处理(归一到[-1,1])等。比如,工资相关特征缺失值用最低工资值填充,利用3σ原则对极端数据(即异常值)进行剔除等。
在本案的一个实施例中,通过将标准化样本集输入回归树进行训练,生成用户收入水平预测模型包括:步骤A,按照预设比例将标准化样本集划分为训练集和测试集;步骤B,将训练集输入回归树模型进行训练,生成预训练模型;步骤C,通过将测试集中的用户个人信息和历史金融行为信息输入预训练模型进行特征学习,输出测试集对应的收入水平信息;步骤D,根据测试集对应的收入水平信息和测试集中的历史收入信息计算预训练模型的误差;循环执行上述步骤A、步骤B、步骤C及步骤D,直到误差取得最小值时,结束对预训练模型的迭代训练,并将误差取最小值时对应的预训练模型作为用户收入水平预测模型。
在本实施例中,输入用户个人信息、用户金融行为信息、用户信用卡申请额度作为样本的特征,用户收入水平作为模型的y值,对lightGBM模型进行训练至收敛的过程如下:
对回归树模型进行迭代训练,其中,模型样本的特征X为用户的个人信息、金融行为信息、用户信用卡申请额度,模型样本的Y值为该样本用户的月均收入金额记为Y。
进一步地,通过预设比例(比如7:2:1)将样本集合(即上述样本特征)分割为训练集、验证集、测试集;通过训练集训练模型对Y的预测能力,然后利用测试集进行收入水平预测,记为y,计算测试集样本(Y-y)的RMSE(全称为Root Mean Squared Error,即均方根误差)的和,记为S;然后,不断重新分割训练集和测试集,对模型进行迭代训练,当S取得最小值时,视为模型训练完成。
优选地,模型的训练和预测可使用性能较好的GPU加速。
在本案的一个可选的实施例中,在将训练集输入回归树模型进行训练之前,方法还包括:利用损失函数搭建回归树模型;其中,回归树模型通过以下公式表达:其中,l(yi,y′i)是损失函数,用于计算误差,yi为样本集中用户实际的历史收入信息,y′i为用户收入水平预测模型输出的用户收入水平信息,Ω(f(t))为损失函数复杂度,Cons为常数项。
在本实施例中,通过最小化损失函数来构建最优模型。其中,上述损失函数用来表征训练误差,yi表示训练样本Y值(样本实际收入),y′i表示模型预测Y值(样本预测收入),Ω(f(t))表示的是所有树的复杂度之和,其包含了两个部分,一是叶子结点的总数,一是叶子结点得到的L2正则化项。
根据上述实施例,利用训练好的模型,对测试集样本进行收入水平预测,使用R-square(拟合优度,值范围0-1)、SSE(和方差)和Adjusted R-Square(即调整R方)指标来评估模型的拟合能力。
下面结合一具体实施例对本发明做进一步地说明:
图3是根据本发明一可选实施例提供的用户信息的处理方法的流程图,如图3所示,根据用户的稳定收入和对应的用户信用卡授信额度从原始数据中筛选并提取出符合预设条件的用户集合;然后将用户集合的用户基础信息、用户的金融统计信息(即上述历史金融行为信息)进行数据预处理;接着,将历史收入信息和进行数据预处理后的标准化样本集进行特征整合;将整合后的用户样本集输入LightGBM模型进行迭代训练。
其中,用户基础信息包括用户的年龄、性别、婚姻状态、子女个数、房车资产、工作和学历,具体如表1所示,
表1:
序号 | 特征名称 |
1 | 年龄 |
2 | 性别 |
3 | 是否已婚 |
4 | 是否有孩子 |
5 | 名下是否有房 |
6 | 名下是否有车 |
7 | 工作是否稳定 |
8 | 是否是高学历 |
用户的金融行为信息如表2所示:
表2:
拟合模型的预测,在已训练完成的lightgbm模型中,输入目标用户的用户个人信息、用户金融信息和用户信用卡申请额度,输出拟合模型的y值,即得到用户的收入水平预测结果。
通过上述实施步骤,本发明实施例可以实现精度更准、性能更佳的LightGBM在收入评估水平的应用;融合了用户信用卡申请额度和用户信息特征的收入评估方法,准确、合理地评估用户的收入水平。
基于上文各个实施例提供的用户信息的处理方法,基于同一发明构思,在本实施例中还提供了一种用户信息的处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例提供的一种用户信息的处理装置的结构框图,如图4所示,该装置包括:第一获取模块40,用于获取目标用户的用户信息,其中,用户信息至少包括用户个人信息和历史金融行为信息;学习模块42,连接至上述第一获取模块40,用于将用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出目标用户的收入水平信息;其中,用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。
可选的,上述装置还包括:第二获取模块,用于在将用户信息输入预先训练的用户收入水平预测模型进行特征学习之前,获取包含多个用户对应的用户信息的用户样本集,其中,用户样本集包括各个用户的用户个人信息、各个用户的历史金融行为信息、各个用户的信用卡授信额度和各个用户的历史收入信息;清洗模块,用于对用户样本集进行数据清洗,得到标准化样本集;训练模块,用于利用标准化样本集训练回归树模型,得到用户收入水平预测模型。
可选的,第二获取模块包括:获取单元,用于获取包含多个第一用户对应的用户信息的基础用户样本集;第一筛选单元,用于基于基础用户样本集中各第一用户对应的历史收入信息和信用卡授信额度,从多个第一用户中筛选出符合预设条件的多个第二用户;其中,预设条件为各个用户的历史收入信息位于[信用卡授信额度/n,信用卡授信额度],n为固定常量;第二筛选单元,用于从基础用户样本集中筛选出包含多个第二用户对应的用户信息的筛选用户样本集,作为用户样本集。
可选的,用户样本集中每个信息对应一个特征值,清洗模块包括以下至少之一:修正单元,用于修正用户样本集中存在明显错误的特征值;完善单元,用于完善用户样本集中存在部分信息遗漏的特征值;标准化单元,用于对用户样本集中的特征值进行特征标准化。
可选的,训练模块包括:划分单元,用于按照预设比例将标准化样本集划分为训练集和测试集;训练单元,用于将训练集输入回归树模型进行训练,生成预训练模型;学习单元,用于通过将测试集中的用户个人信息和历史金融行为信息输入预训练模型进行特征学习,输出测试集对应的收入水平信息;计算单元,用于根据测试集对应的收入水平信息和测试集中的历史收入信息计算预训练模型的误差;执行单元,用于循环执行上述划分单元、训练单元、学习单元及计算单元对应的操作,直到误差取得最小值时,结束对预训练模型的迭代训练,并将误差取最小值时对应的预训练模型作为用户收入水平预测模型。
可选的,上述装置还包括:搭建模块,用于在将训练集输入回归树模型进行训练之前,利用损失函数搭建回归树模型;其中,回归树模型通过以下公式表达:其中,l(yi,y′i)是损失函数,用于计算误差,yi为样本集中用户实际的历史收入信息,y′i为用户收入水平预测模型输出的用户收入水平信息,Ω(f(t))为损失函数复杂度,Cons为常数项。
可选的,回归树模型包括梯度提升决策树GBDT模型。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
基于上文各个实施例提供的用户信息的处理方法,基于同一发明构思,在本实施例中还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取目标用户的用户信息,其中,所述用户信息至少包括用户个人信息和历史金融行为信息;
S2,将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出所述目标用户的收入水平信息;其中,所述用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
基于上述图2所示方法和图4所示装置的实施例,为了实现上述目的,本发明实施例还提供了一种电子设备,如图5所示,包括存储器52和处理器51,其中存储器52和处理器51均设置在总线53上存储器52存储有计算机程序,处理器51执行计算机程序时实现图2所示的用户信息的处理方法。
基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种电子设备的结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户信息的处理方法,其特征在于,包括:
获取目标用户的用户信息,其中,所述用户信息至少包括用户个人信息和历史金融行为信息;
将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出所述目标用户的收入水平信息;
其中,所述用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。
2.根据权利要求1所述的方法,其特征在于,在将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习之前,所述方法还包括:
获取包含多个用户对应的用户信息的用户样本集,其中,所述用户样本集包括各个用户的用户个人信息、各个用户的历史金融行为信息、各个用户的信用卡授信额度和各个用户的历史收入信息;
对所述用户样本集进行数据清洗,得到标准化样本集;
利用所述标准化样本集训练所述回归树模型,得到所述用户收入水平预测模型。
3.根据权利要求2所述的方法,其特征在于,所述获取包含多个用户对应的用户信息的用户样本集包括:
获取包含多个第一用户对应的用户信息的基础用户样本集;
基于所述基础用户样本集中各所述第一用户对应的历史收入信息和信用卡授信额度,从所述多个第一用户中筛选出符合预设条件的多个第二用户;其中,所述预设条件为各个用户的历史收入信息位于[信用卡授信额度/n,信用卡授信额度],n为固定常量;
从所述基础用户样本集中筛选出包含所述多个第二用户对应的用户信息的筛选用户样本集,作为所述用户样本集。
4.根据权利要求2所述的方法,其特征在于,所述用户样本集中每个信息对应一个特征值,所述对所述用户样本集进行数据清洗包括以下至少之一:
修正所述用户样本集中存在明显错误的特征值;
完善所述用户样本集中存在部分信息遗漏的特征值;
对所述用户样本集中的特征值进行特征标准化。
5.根据权利要求2所述的方法,其特征在于,所述通过将所述标准化样本集输入所述回归树进行训练,生成所述用户收入水平预测模型包括:
步骤A,按照预设比例将所述标准化样本集划分为训练集和测试集;
步骤B,将所述训练集输入所述回归树模型进行训练,生成预训练模型;
步骤C,通过将所述测试集中的用户个人信息和历史金融行为信息输入所述预训练模型进行特征学习,输出所述测试集对应的收入水平信息;
步骤D,根据所述测试集对应的收入水平信息和所述测试集中的历史收入信息计算所述预训练模型的误差;
循环执行上述步骤A、步骤B、步骤C及步骤D,直到所述误差取得最小值时,结束对所述预训练模型的迭代训练,并将所述误差取最小值时对应的预训练模型作为所述用户收入水平预测模型。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述回归树模型包括梯度提升决策树GBDT模型。
8.一种用户信息的处理装置,其特征在于,包括:
第一获取模块,用于获取目标用户的用户信息,其中,所述用户信息至少包括用户个人信息和历史金融行为信息;
学习模块,用于将所述用户信息输入预先训练的用户收入水平预测模型进行特征学习,输出所述目标用户的收入水平信息;
其中,所述用户收入水平预测模型为利用含有用户个人信息、历史金融行为信息、信用卡授信额度和历史收入信息的用户样本集训练回归树模型得到。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920381.5A CN113822464A (zh) | 2021-08-11 | 2021-08-11 | 用户信息的处理方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920381.5A CN113822464A (zh) | 2021-08-11 | 2021-08-11 | 用户信息的处理方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822464A true CN113822464A (zh) | 2021-12-21 |
Family
ID=78913115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110920381.5A Pending CN113822464A (zh) | 2021-08-11 | 2021-08-11 | 用户信息的处理方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822464A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417817A (zh) * | 2021-12-30 | 2022-04-29 | 中国电信股份有限公司 | 一种会话信息切割方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629632A (zh) * | 2018-05-09 | 2018-10-09 | 北京京东金融科技控股有限公司 | 预测用户收入的方法、装置及计算机可读存储介质 |
CN111626879A (zh) * | 2020-05-28 | 2020-09-04 | 泰康保险集团股份有限公司 | 数据预测方法、装置、设备及存储介质 |
CN112668703A (zh) * | 2021-01-19 | 2021-04-16 | 上海优扬新媒信息技术有限公司 | 一种用户收入确定方法及装置 |
CN113177844A (zh) * | 2021-05-28 | 2021-07-27 | 成都新希望金融信息有限公司 | 一种信贷风险预测方法、装置、设备及存储介质 |
-
2021
- 2021-08-11 CN CN202110920381.5A patent/CN113822464A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629632A (zh) * | 2018-05-09 | 2018-10-09 | 北京京东金融科技控股有限公司 | 预测用户收入的方法、装置及计算机可读存储介质 |
CN111626879A (zh) * | 2020-05-28 | 2020-09-04 | 泰康保险集团股份有限公司 | 数据预测方法、装置、设备及存储介质 |
CN112668703A (zh) * | 2021-01-19 | 2021-04-16 | 上海优扬新媒信息技术有限公司 | 一种用户收入确定方法及装置 |
CN113177844A (zh) * | 2021-05-28 | 2021-07-27 | 成都新希望金融信息有限公司 | 一种信贷风险预测方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
谭波;潘庆雯;程雯;: "基于GBDT的个体收入水平预估", 计算机与数字工程, no. 03, pages 47 - 49 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417817A (zh) * | 2021-12-30 | 2022-04-29 | 中国电信股份有限公司 | 一种会话信息切割方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679946B (zh) | 基金产品推荐方法、装置、终端设备及存储介质 | |
CN111915156B (zh) | 基于用户价值的业务推送方法、电子设备及存储介质 | |
CN110503565A (zh) | 行为风险识别方法、系统、设备及可读存储介质 | |
CN111797320B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112365007B (zh) | 模型参数确定方法、装置、设备及存储介质 | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN110533459A (zh) | 一种基于梯度提升算法的终端更换概率预测方法及装置 | |
CN115170294A (zh) | 一种客户分类方法、装置及服务器 | |
CN111179055B (zh) | 授信额度调整方法、装置和电子设备 | |
CN114428748B (zh) | 一种用于真实业务场景的模拟测试方法及系统 | |
CN113822464A (zh) | 用户信息的处理方法及装置、电子设备、存储介质 | |
CN113313470A (zh) | 一种基于大数据的就业类型评估方法及系统 | |
CN113535848A (zh) | 基于区块链的征信等级确定方法、装置、设备及存储介质 | |
CN108733784B (zh) | 一种教学课件推荐方法、装置及设备 | |
CN116912016A (zh) | 一种账单稽核方法和装置 | |
CN107844874A (zh) | 企业营运问题分析系统及其方法 | |
CN115203556A (zh) | 一种评分预测模型训练方法、装置、电子设备及存储介质 | |
CN114298829A (zh) | 用于授信评估的数据处理方法和装置 | |
CN114897607A (zh) | 产品资源的数据处理方法及装置、电子设备、存储介质 | |
CN110674020B (zh) | App智能推荐方法、装置及计算机可读存储介质 | |
CN113704236A (zh) | 政务系统数据质量评估方法、装置、终端及存储介质 | |
CN113905400B (zh) | 网络优化处理方法、装置、电子设备及存储介质 | |
CN114757763A (zh) | 对象能力的预测方法和装置、存储介质及电子装置 | |
CN116938759A (zh) | 算网服务质量评价方法、装置、电子设备和存储介质 | |
CN117278614A (zh) | 一种资讯信息推送方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |