CN108629632A - 预测用户收入的方法、装置及计算机可读存储介质 - Google Patents

预测用户收入的方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108629632A
CN108629632A CN201810436689.0A CN201810436689A CN108629632A CN 108629632 A CN108629632 A CN 108629632A CN 201810436689 A CN201810436689 A CN 201810436689A CN 108629632 A CN108629632 A CN 108629632A
Authority
CN
China
Prior art keywords
income
sample
user
data
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810436689.0A
Other languages
English (en)
Inventor
张瑞军
程建波
彭南博
敖滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Financial Technology Holding Co Ltd
Original Assignee
Beijing Jingdong Financial Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Financial Technology Holding Co Ltd filed Critical Beijing Jingdong Financial Technology Holding Co Ltd
Priority to CN201810436689.0A priority Critical patent/CN108629632A/zh
Publication of CN108629632A publication Critical patent/CN108629632A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

本公开提供了一种预测用户收入的方法、装置及计算机可读存储介质,涉及计算机技术领域。其中的预测用户收入的方法包括:利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量;将待预测用户的收入特征向量输入预先训练的用户收入预测模型,获得待预测用户的收入。本公开能够更加准确的预测用户的收入,有利于为用户更加准确的划定信用风险等级。

Description

预测用户收入的方法、装置及计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种预测用户收入的方法、装置及计算机可读存储介质。
背景技术
消费金融为消费者提供消费信贷服务。众所周知,金融的核心是风控,消费金融首要任务是要做好用户风险评估与管理,在用户准入以及后续风险额度定价等相关环节,都需要对用户的信用风险做审核评估,而收入与个人信用风险有很高的关联性,因此在互联网消费金融场景下,如何较为准确地预测用户个人收入,对风控管理和应用至关重要。
发明内容
发明人研究发现,目前相关技术中更多是使用历史时间的收入序列预测未来收入,预测准确性较差,缺乏针对用户收入水平连续值域的准确预测。
本公开解决的一个技术问题是,如何更加准确的预测用户的收入。
根据本公开实施例的一个方面,提供了一种预测用户收入的方法,包括:利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量;将待预测用户的收入特征向量输入预先训练的用户收入预测模型,获得待预测用户的收入。
在一些实施例中,利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量包括:对基本信息进行独热编码,基本信息为分类型变量;对行为数据进行z分数标准化,行为数据为连续型变量;将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量。
在一些实施例中,将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量包括:将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理,得到降维后的待预测用户的收入特征向量。
在一些实施例中,用户收入预测模型为梯度提升树模型或深度学习神经网络模型。
在一些实施例中,该方法还包括:利用样本数据中的样本基本信息、样本行为数据,生成样本用户的收入特征向量;将样本用户的收入特征向量作为输入训练参数,将样本数据中的样本用户收入作为输出训练参数,对用户收入预测模型进行训练,使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。
在一些实施例中,在生成样本用户的收入特征向量之前,该方法还包括:若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值,则对缺失的信息数据进行默认值填充;若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值,则删除样本数据;若样本用户收入高于第二阈值或低于第三阈值,则删除样本数据。
在一些实施例中,该方法还包括:在生成样本用户的收入特征向量之前,对样本行为数据预先进行缩尾处理,样本行为数据包括样本用户的网络消费数据以及金融理财数据。
根据本公开实施例的另一个方面,提供了一种预测用户收入的装置,包括:特征向量生成模块,被配置为利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量;用户收入预测模块,被配置为将待预测用户的收入特征向量输入预先训练的用户收入预测模型,获得待预测用户的收入。
在一些实施例中,特征向量生成模块被配置为:对基本信息进行独热编码,基本信息为分类型变量;对行为数据进行z分数标准化,行为数据为连续型变量;将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量。
在一些实施例中,特征向量生成模块被配置为:将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理,得到降维后的待预测用户的收入特征向量。
在一些实施例中,用户收入预测模型为梯度提升树模型或深度学习神经网络模型。
在一些实施例中,特征向量生成模块还被配置为利用样本数据中的样本基本信息、样本行为数据,生成样本用户的收入特征向量;装置还包括预测模型训练模块,被配置为将样本用户的收入特征向量作为输入训练参数,将样本数据中的样本用户收入作为输出训练参数,对用户收入预测模型进行训练,使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。
在一些实施例中,该装置还包括样本数据预处理模块,被配置为:若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值,则对缺失的信息数据进行默认值填充;若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值,则删除样本数据;若样本用户收入高于第二阈值或低于第三阈值,则删除样本数据。
在一些实施例中,该装置还包括行为数据预处理模块,被配置为:在生成样本用户的收入特征向量之前,对样本行为数据预先进行缩尾处理,样本行为数据包括样本用户的网络消费数据以及金融理财数据。
根据本公开实施例的又一个方面,提供了一种预测用户收入的装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的预测用户收入的方法。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的预测用户收入的方法。
本公开能够更加准确的预测用户的收入,有利于为用户更加准确的划定信用风险等级。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开训练梯度提升树模型的流程示意图。
图2示出了本公开一个实施例的预测用户收入的方法的流程示意图。
图3示出了本公开一个实施例的预测用户收入的装置的结构示意图。
图4示出了本公开另一个实施例的预测用户收入的装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
本公开以样本数据中的样本基本信息、样本行为数据以及样本用户收入,采用梯度提升树机器学习算法构建用户收入预测模型为例,描述如何更加准确的预测用户收入。
首先描述收入预测模型的训练过程,该过程主要分为三个部分。
(一)获取样本数据
样本数据具体包括样本基本信息、样本行为数据以及样本用户收入。例如,可以抽取缴纳公积金用户的缴纳基数作为样本用户收入,依托于商城和金融大数据,相应抽取样本用户的样本基本信息、样本行为数据。
样本基本信息具体可以包括性别,年龄,户籍地、常驻地等;样本行为数据具体可以包括网购信息以及金融理财信息。其中,网购信息具体可以包括:(1)综合消费信息,即网购总消费额或笔数、月均消费或笔数、客单价、消费月份数或天数、消费月份账龄比等;(2)优惠信息,即总优惠金额或笔数及其占比、优惠券优惠金额、笔数及其占比等;(3)品类消费信息,即商城各一级类目消费金额、笔数及其占比、最大最小金额、客单价、金额或笔数稳定性(如变异系数、标准差、最大最小差)、各一级类目消费月份数、月消费情况等;(4)浏览信息,即商城各一级类目浏览次数、天数、月数、sku数,各一级类目浏览价格平均、最大、最小、变异系数、最后一次浏览距今天数、最后一次浏览价位、浏览下单转化率、浏览下单平均金额比等。金融理财信息具体可以包括基金、保险理财、券商理财、黄金等是否持有、持有金额、持有天数或月数、持有金额稳定性、各金融理财产品交易频次等。
(二)预处理样本数据
(1)异常样本数据剔除
若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值,则对缺失的信息数据进行默认值填充;若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值,则删除样本数据。若样本用户收入高于第二阈值或低于第三阈值,则删除样本数据。
例如,针对样本用户收入,去除1%分位数以下样本和99%分位数以上样本,避免过大或过小的离群点样本数据点对模型结果造成干扰。对样本基本信息、样本行为数据缺失比例超过一定阈值(如80%)的样本予以剔除,缺失比例过大的样本提供信息较少,同时可能造成模型较大偏差。
(2)样本数据处理
对于样本基本信息等分类型变量,缺失值填充默认类别标签并做one-hot独热编码,例如性别缺失值填充为-2含义为无此信息,常住地填充为-1含义为无此信息,以便为后续one-hot编码做准备)。
因为很多机器学习算法只能处理数值型变量,对分类型变量不可直接处理。one-hot编码后将分类型变量需要数值化,如果每个变量有K个取值,就有K个0-1变量标识,如果数值缺失则K个标识变量全为0,可以起到控制分类型变量各个标签是否出现的开关作用。
对于样本行为数据等连续型变量,可以对1%分位数以下和99%分位数以上样本做Winsorized缩尾处理,消除变量异常值带来的模型不稳定,然后对缺失值处理做样本均值填充或零填充。
(3)特征归一化处理
对于连续型变量可以做Z分数变换标准化,避免由于量纲带来模型偏差,并加速模型训练时的收敛速度。
(4)特征降维主成分提取
由于连续型变量较多,针对样本行为数据可以做PCA主成分分析,通过变量旋转得到旋转后的主成分特征,从而在尽可能保留特征表达信息的基础上,简化特征维度,抽取和聚合出较少特征变量,便于下一步建模训练使用。实验表明,PCA主成分分析后数据变量维度从700维左右降至400维左右。
(5)生成样本用户的收入特征向量
利用预处理后的样本基本信息、样本行为数据,可以生成样本用户的收入特征向量。
(三)构建收入预测模型
收入预测模型的具体形式可以有多种,下面以梯度提升树为例进行描述。梯度提升树是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。梯度提升树的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合,它在被提出之初就和支持向量机一起被认为是泛化能力较强的算法。
为获得特征与收入之间的预测关系f(x),使用xgboost思想原理训练梯度提升树模型。图1示出了本公开训练梯度提升树模型的流程示意图。训练过程简要介绍如下:
(1)设置模型训练参数:迭代学习率(即迭代步长)η,模型训练树棵数(即迭代次数)num_trees,最大树深度max_depth,最小节点分割样本数min_split_sample,样本采样比sample_ratio,特征采样比col_ratio,学习函数选取gbtree,损失函数选取rmse,正则化惩罚项参数γ。
(2)初始化回归树:使用样本收入的均值初始化为只有一个节点(即根节点)的回归树。
(3)每一轮优化目标函数,迭代更新回归树。
目标函数可以定义为为其中,回归树预测函数为即为K棵回归树相加而成的树模型,每棵树的树结构为Qk: 叶子节点数为Tk,叶子节点权重为目标函数包含两部分,一个是损失项为对于收入预测回归树的平方损失函数,另一个是正则项为对于回归树模型复杂度的量度,用于惩罚模型复杂性,增强模型泛化能力。
计算目标函数关于上一轮回归树的目标函数值,及其一阶梯度和二阶梯度,由此获得当前回归树下,目标函数关于上一轮回归树的二阶泰勒展开近似,其为一个二次型函数,在假设给定当前回归树的树结构Q下,得到最优化目标函数的结构得分函数其中gi,hi分别为目标函数在上一轮回归树的一阶梯度和二阶梯度。该得分函数含义为,每给定一种树结构Q下,对于多种不同的叶子节点权重而言,所能达到的最小化的目标函数值即为score(Q),该树结构得分可以理解为度量树结构的不纯度使用。
然后,遍历特征构造回归树,基于此结构得分函数score(Q),得到迭代更新的回归树。具体通过逐步遍历特征以及特征变量取值,来获得当前迭代轮的最优树结构,即为本轮迭代优化更新的回归树
(4)多轮迭代获得最终收入预测回归树模型。
将样本用户的收入特征向量作为输入训练参数,将样本数据中的样本用户收入作为输出训练参数,对用户收入预测模型进行训练,使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。
上述实施例通过抽取样本数据、筛选建模样本以及处理特征数据,进一步训练梯度提升树模型并调优参数获得最优模型结果,能够对收入连续型目标变量进行准确预测。除了梯度提升树模型之外,还可以尝试其它预测方法,如回归方法、支持向量机线性核方法或者深度学习神经网络模型。
下面结合图2描述本公开一个实施例的预测用户收入的方法。
图2示出了本公开一个实施例的预测用户收入的方法的流程示意图。如图2所示,该实施例中的预测用户收入的方法包括步骤S202~步骤S204。
在步骤S202中,利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量。
例如,可以对基本信息进行独热编码,基本信息为分类型变量;对行为数据进行z分数标准化,行为数据为连续型变量;将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量。可选的,可以将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理,得到降维后的待预测用户的收入特征向量。
在步骤S204中,将待预测用户的收入特征向量输入预先训练的用户收入预测模型,获得待预测用户的收入。
其中,收入预测模型具体可以为梯度提升树模型或深度学习神经网络模型。
在使用收入预测模型预测用户收入时,对输入数据的预处理与样本数据的预处理步骤类似,在此不做赘述。
上述实施例中提供了一种基于梯度提升树的用户收入预测方法。该方法能够针对用户收入这种连续型目标变量进行预测,能够更加准确的预测用户收入,对用户收入水平进行更加准确的刻画,进而根据不同用户收入对用户划定不同信用风险等级,有助于更好的防范和管理消费信贷用户信用风险,为风控和营销业务提供不同的风险和消费能力评估维度,提高风险防范能力和营销效果。
下面结合图3描述本公开一个实施例的预测用户收入的装置的结构。
图3示出了本公开一个实施例的预测用户收入的装置的结构示意图。如图3所示,该实施例的预测用户收入的装置30包括:
特征向量生成模块303,被配置为利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量;
用户收入预测模块304,被配置为将待预测用户的收入特征向量输入预先训练的用户收入预测模型,获得待预测用户的收入。
上述实施例中提供了一种基于梯度提升树的用户收入预测方法。该方法能够针对用户收入这种连续型目标变量进行预测,能够更加准确的预测用户收入,对用户收入水平进行更加准确的刻画,进而根据不同用户收入对用户划定不同信用风险等级,有助于更好的防范和管理消费信贷用户信用风险,为风控和营销业务提供不同的风险和消费能力评估维度,提高风险防范能力和营销效果。
在一些实施例中,特征向量生成模块303被配置为:对基本信息进行独热编码,基本信息为分类型变量;对行为数据进行z分数标准化,行为数据为连续型变量;将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量。
在一些实施例中,特征向量生成模块303被配置为:将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理,得到降维后的待预测用户的收入特征向量。
在一些实施例中,用户收入预测模型为梯度提升树模型或深度学习神经网络模型。
在一些实施例中,特征向量生成模块303还被配置为利用样本数据中的样本基本信息、样本行为数据,生成样本用户的收入特征向量;装置30还包括预测模型训练模块302,被配置为将样本用户的收入特征向量作为输入训练参数,将样本数据中的样本用户收入作为输出训练参数,对用户收入预测模型进行训练,使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。
在一些实施例中,装置30还包括样本数据预处理模块300,被配置为:若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值,则对缺失的信息数据进行默认值填充;若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值,则删除样本数据;若样本用户收入高于第二阈值或低于第三阈值,则删除样本数据。
在一些实施例中,装置30还包括行为数据预处理模块301,被配置为:在生成样本用户的收入特征向量之前,对样本行为数据预先进行缩尾处理,样本行为数据包括样本用户的网络消费数据以及金融理财数据。
上述实施例通过抽取样本数据、筛选建模样本以及处理特征数据,进一步训练梯度提升树模型并调优参数获得最优模型结果,能够对收入连续型目标变量进行准确预测。除了梯度提升树模型之外,还可以尝试其它预测方法,如回归方法、支持向量机线性核方法或者深度学习神经网络模型。
图4示出了本公开另一个实施例的预测用户收入的装置的结构示意图。如图4所示,该实施例的预测用户收入的装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行前述任意一个实施例中的预测用户收入的方法。
其中,存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
预测用户收入的装置40还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430,440,450以及存储器410和处理器420之间例如可以通过总线460连接。其中,输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口440为SD卡、U盘等外置存储设备提供连接接口。
本公开还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一个实施例中的预测用户收入的方法。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (16)

1.一种预测用户收入的方法,包括:
利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量;
将待预测用户的收入特征向量输入预先训练的用户收入预测模型,获得待预测用户的收入。
2.如权利要求1所述的方法,其中,所述利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量包括:
对所述基本信息进行独热编码,所述基本信息为分类型变量;
对所述行为数据进行z分数标准化,所述行为数据为连续型变量;
将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量。
3.如权利要求2所述的方法,其中,所述将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量包括:
将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理,得到降维后的待预测用户的收入特征向量。
4.如权利要求1所述的方法,其中,所述用户收入预测模型为梯度提升树模型或深度学习神经网络模型。
5.如权利要求1所述的方法,其中,所述方法还包括:
利用样本数据中的样本基本信息、样本行为数据,生成样本用户的收入特征向量;
将样本用户的收入特征向量作为输入训练参数,将样本数据中的样本用户收入作为输出训练参数,对所述用户收入预测模型进行训练,使所述用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。
6.如权利要求5所述的方法,其中,在生成样本用户的收入特征向量之前,所述方法还包括:
若所述样本基本信息或所述样本行为数据中缺失的信息数据少于第一阈值,则对缺失的信息数据进行默认值填充;
若所述样本基本信息或所述样本行为数据中缺失的信息数据不少于第一阈值,则删除所述样本数据;
若所述样本用户收入高于第二阈值或低于第三阈值,则删除所述样本数据。
7.如权利要求5所述的方法,其中,所述方法还包括:
在生成样本用户的收入特征向量之前,对所述样本行为数据预先进行缩尾处理,所述样本行为数据包括样本用户的网络消费数据以及金融理财数据。
8.一种预测用户收入的装置,包括:
特征向量生成模块,被配置为利用待预测用户的与收入相关的基本信息以及行为数据,生成待预测用户的收入特征向量;
用户收入预测模块,被配置为将待预测用户的收入特征向量输入预先训练的用户收入预测模型,获得待预测用户的收入。
9.如权利要求8所述的装置,其中,所述特征向量生成模块被配置为:
对所述基本信息进行独热编码,所述基本信息为分类型变量;
对所述行为数据进行z分数标准化,所述行为数据为连续型变量;
将独热编码后的基本信息与z分数标准化的行为数据级联,生成待预测用户的收入特征向量。
10.如权利要求9所述的装置,其中,所述特征向量生成模块被配置为:
将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理,得到降维后的待预测用户的收入特征向量。
11.如权利要求8所述的装置,其中,所述用户收入预测模型为梯度提升树模型或深度学习神经网络模型。
12.如权利要求8所述的装置,其中,所述特征向量生成模块还被配置为利用样本数据中的样本基本信息、样本行为数据,生成样本用户的收入特征向量;
所述装置还包括预测模型训练模块,被配置为将样本用户的收入特征向量作为输入训练参数,将样本数据中的样本用户收入作为输出训练参数,对所述用户收入预测模型进行训练,使所述用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。
13.如权利要求12所述的装置,其中,所述装置还包括样本数据预处理模块,被配置为:
若所述样本基本信息或所述样本行为数据中缺失的信息数据少于第一阈值,则对缺失的信息数据进行默认值填充;
若所述样本基本信息或所述样本行为数据中缺失的信息数据不少于第一阈值,则删除所述样本数据;
若所述样本用户收入高于第二阈值或低于第三阈值,则删除所述样本数据。
14.如权利要求12所述的装置,其中,所述装置还包括行为数据预处理模块,被配置为:
在生成样本用户的收入特征向量之前,对所述样本行为数据预先进行缩尾处理,所述样本行为数据包括样本用户的网络消费数据以及金融理财数据。
15.一种预测用户收入的装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至7中任一项所述的预测用户收入的方法。
16.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至7中任一项所述的预测用户收入的方法。
CN201810436689.0A 2018-05-09 2018-05-09 预测用户收入的方法、装置及计算机可读存储介质 Pending CN108629632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810436689.0A CN108629632A (zh) 2018-05-09 2018-05-09 预测用户收入的方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810436689.0A CN108629632A (zh) 2018-05-09 2018-05-09 预测用户收入的方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108629632A true CN108629632A (zh) 2018-10-09

Family

ID=63692296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810436689.0A Pending CN108629632A (zh) 2018-05-09 2018-05-09 预测用户收入的方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108629632A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360032A (zh) * 2018-12-07 2019-02-19 泰康保险集团股份有限公司 客户评估方法、装置、设备以及存储介质
CN110197301A (zh) * 2019-05-27 2019-09-03 深圳乐信软件技术有限公司 一种可支配收入的预测方法、装置、服务器及存储介质
CN111105266A (zh) * 2019-11-11 2020-05-05 中国建设银行股份有限公司 基于改进决策树的客户分群方法及装置
CN111816300A (zh) * 2020-06-30 2020-10-23 平安科技(深圳)有限公司 基于深度强化学习的数据分类方法、装置、设备及介质
CN111967543A (zh) * 2020-10-23 2020-11-20 北京淇瑀信息科技有限公司 用户资源配额确定方法、装置及电子设备
CN112329928A (zh) * 2020-12-30 2021-02-05 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN113537577A (zh) * 2021-06-25 2021-10-22 中国铁路广州局集团有限公司 收入预测方法、系统、电子设备和计算机可读存储介质
CN113822464A (zh) * 2021-08-11 2021-12-21 大箴(杭州)科技有限公司 用户信息的处理方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045673A (zh) * 2017-03-31 2017-08-15 杭州电子科技大学 基于堆模型融合的公共自行车流量变化量预测方法
CN107506703A (zh) * 2017-08-09 2017-12-22 中国科学院大学 一种基于无监督局部度量学习和重排序的行人再识别方法
CN107808220A (zh) * 2017-10-30 2018-03-16 北京金堤科技有限公司 一种收入预测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045673A (zh) * 2017-03-31 2017-08-15 杭州电子科技大学 基于堆模型融合的公共自行车流量变化量预测方法
CN107506703A (zh) * 2017-08-09 2017-12-22 中国科学院大学 一种基于无监督局部度量学习和重排序的行人再识别方法
CN107808220A (zh) * 2017-10-30 2018-03-16 北京金堤科技有限公司 一种收入预测方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360032A (zh) * 2018-12-07 2019-02-19 泰康保险集团股份有限公司 客户评估方法、装置、设备以及存储介质
CN110197301A (zh) * 2019-05-27 2019-09-03 深圳乐信软件技术有限公司 一种可支配收入的预测方法、装置、服务器及存储介质
CN111105266A (zh) * 2019-11-11 2020-05-05 中国建设银行股份有限公司 基于改进决策树的客户分群方法及装置
CN111105266B (zh) * 2019-11-11 2023-10-27 建信金融科技有限责任公司 基于改进决策树的客户分群方法及装置
CN111816300A (zh) * 2020-06-30 2020-10-23 平安科技(深圳)有限公司 基于深度强化学习的数据分类方法、装置、设备及介质
CN111967543A (zh) * 2020-10-23 2020-11-20 北京淇瑀信息科技有限公司 用户资源配额确定方法、装置及电子设备
CN112329928A (zh) * 2020-12-30 2021-02-05 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN112329928B (zh) * 2020-12-30 2021-04-30 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN113537577A (zh) * 2021-06-25 2021-10-22 中国铁路广州局集团有限公司 收入预测方法、系统、电子设备和计算机可读存储介质
CN113822464A (zh) * 2021-08-11 2021-12-21 大箴(杭州)科技有限公司 用户信息的处理方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN108629632A (zh) 预测用户收入的方法、装置及计算机可读存储介质
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN113935434A (zh) 一种数据分析处理系统及自动建模方法
CN108491511A (zh) 基于图数据的数据挖掘方法和装置、模型训练方法和装置
CN106875206A (zh) 信息获取、评估、问卷调查方法、装置及服务器
CN108596495A (zh) 一种零售信贷业务评分系统及方法
US20220138280A1 (en) Digital Platform for Trading and Management of Investment Securities
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN112288455A (zh) 标签生成方法及装置、计算机可读存储介质、电子设备
CN108154311A (zh) 基于随机森林和决策树的优质客户识别方法及装置
CN110046981A (zh) 一种信用评估方法、装置及存储介质
Lu et al. Credit rating change modeling using news and financial ratios
CN115271886A (zh) 金融产品的推荐方法及装置、存储介质、电子设备
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
DE202016009077U1 (de) Segmentierung und Schichtung von Composite-Portfolios von Anlagepapieren
CN107798410B (zh) 一种品类规划方法、装置及电子设备
CN115375471A (zh) 一种基于自适应特征工程的股票市场量化方法
CN111178656A (zh) 信用模型训练方法、信用评分方法、装置及电子设备
US20220083842A1 (en) Optimal policy learning and recommendation for distribution task using deep reinforcement learning model
CN109948913A (zh) 一种基于双层的xgboost算法的多源特征电力用户综合画像系统
CN116503158A (zh) 基于数据驱动的企业破产风险预警方法、系统及装置
Zhang et al. Nowcasting China’s GDP using a Bayesian approach
CN114297052A (zh) 测试数据生成方法及装置
Weiming Mastering Python for Finance: Implement advanced state-of-the-art financial statistical applications using Python
US20200051175A1 (en) Method and System for Predicting and Indexing Probability of Financial Stress

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100176 Beijing Daxing District Beijing Economic Development Zone, Chuang Chuang eleven Street 18 hospital C block 2 floor, 221 rooms.

Applicant after: Jingdong Digital Technology Holding Co., Ltd.

Address before: 100176 Beijing Daxing District Beijing Economic Development Zone, Chuang Chuang eleven Street 18 hospital C block 2 floor, 221 rooms.

Applicant before: Beijing Jingdong Financial Technology Holding Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181009