CN109727125A

CN109727125A - 借款金额预测方法、装置、服务器、存储介质

Info

Publication number: CN109727125A
Application number: CN201910073499.1A
Authority: CN
Inventors: 雒航通; 程佳宇
Original assignee: Shenzhen Lexin Software Technology Co Ltd
Current assignee: Shenzhen Lexin Software Technology Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-07

Abstract

本发明公开了一种借款金额预测方法、装置、服务器、存储介质，该方法包括：根据用户的借款信息生成用户借款特征数据；将所述用户借款特征数据输入预先训练好的借款占比预测模型，输出用户的不同借款占比对应的多个概率值，所述借款占比为用户借款金额在用户剩余可用借款金额中所占的比例；根据所述多个概率值确认最佳借款占比，所述最佳借款占比为最大概率值对应的用户借款占比；根据所述最佳借款占比确认用户当前借款金额。本发明的借款金额预测方法，改善单笔借款金额预测具有很大的随机性，波动性问题，优化用户借款体验，提高用户借款效率，增加单笔借款收益。

Description

借款金额预测方法、装置、服务器、存储介质

技术领域

本发明实施例涉及大数据技术，尤其涉及一种借款金额预测方法、装置、服务器、存储介质。

背景技术

用户在互联网上产生了大量的用户行为数据，如何使得用户的数据产生价值是目前业界研究的热点。通过使用数据分析，数据建模，数据运营，数据驱动的方法，可以达到优化业务，提高业务收益的目的。

在互联网金融平台中用户借款需要自己填写金额，导致用户借款体验差。同时为了得到更高的收益希望用户单笔借款金额尽量高。企业为了给用户提供更好的服务，会对用户的借款金额进行预测，基于预测的用户借款金额，给用户进行借款金额推荐，提升用户体验，提高平台收益，达到一举两得的效果。

目前直接进行用户借款金额预测的难点是：预测用户每一笔借款金额，不同于预测用户每月借款总额、每季度总额、每年总额，具有很大的随机性，波动性，预测的结果往往误差很大。

发明内容

本发明提供一种借款金额预测方法、装置、服务器、存储介质，以实现改善单笔借款金额预测具有很大的随机性，波动性问题。

第一方面，本发明实施例提供了一种借款金额预测方法，包括：

根据用户的借款信息生成用户借款特征数据；

将所述用户借款特征数据输入预先训练好的借款占比预测模型，输出用户的不同借款占比对应的多个概率值，所述借款占比为用户借款金额在用户剩余可用借款金额中所占的比例；

根据所述多个概率值确认最佳借款占比，所述最佳借款占比为最大概率值对应的用户借款占比；

根据所述最佳借款占比确认用户当前借款金额。

可选的，根据用户的借款信息生成用户借款特征数据，包括：

获取用户的借款信息；

根据用户的借款信息提取用户借款特征数据。

可选的，所述根据用户的借款信息生成用户借款特征数据之前，还包括对借款占比预测模型进行训练，所述对借款占比预测模型进行训练包括：

采集多个用户的历史借款信息，以及对应的历史借款占比；

根据所述历史借款信息提取用户的历史借款特征数据；

使用所述对应的历史借款占比对所述历史借款特征数据进行标记，以生成训练样本集；

将所述训练样本集的每个历史借款特征数据输入至待训练的借款占比预测模型进行训练。

可选的，所述对借款占比预测模型进行训练之后，还包括对借款占比预测模型进行检测，所述借款占比预测模型进行检测包括：

采集多个用户的历史借款信息，以及对应的历史借款占比；

根据所述历史借款信息提取用户的历史借款特征数据；

使用所述对应的历史借款占比对所述历史借款特征数据进行标记，以生成检测样本集；

将所述检测样本集的每个历史借款特征数据输入至待训练的借款占比预测模型进行检测，以输出检测结果；

根据所述检测结果与所述历史借款占比的匹配程度，确认所述借款占比预测模型是否需要继续训练。

可选的，所述根据所述历史借款信息提取用户的历史借款特征数据之后，包括：

判断所述借款信息是否存在数据缺失或稀疏；

若是，则删除存在数据缺失或稀疏的特征数据。

可选的，所述根据所述历史借款信息提取用户的历史借款特征数据，包括：

判断所述借款信息是否存在连续的特征数据；

若是，则对所述连续的特征数据进行离散化，以得到离散的特征数据。

可选的，所述得到离散的特征数据之后，包括：

将用户的离散的特征数据中的金额特征与用户特征进行关联以生成新的特征数据。

可选的，根据所述多个概率值确认最佳借款占比，包括：

对所述多个概率值进行排序；

根据排序找到最大概率值对应的用户借款占比。

可选的，根据所述最佳借款占比确认用户当前借款金额，包括：

将所述最佳借款占比乘以用户剩余可用借款金额，得到所述用户当前借款金额。

可选的，所述借款占比预测模型为基于Spark的分布式逻辑回归模型。

第二方面，本发明实施例还提供了一种借款金额预测装置，该装置包括：

数据生成单元，用于根据用户的借款信息生成用户借款特征数据；

模型输入单元，用于将所述借款特征数据输入预先训练好的借款占比预测模型，输出用户的不同借款占比对应的多个概率值，所述借款占比为用户借款金额在用户剩余可用借款金额中所占的比例；

占比确认单元，用于根据所述多个概率值确认最佳借款占比，所述最佳借款占比为最大概率值对应的用户借款占比；

金额确认单元，用于根据所述最佳借款占比确认用户当前借款金额。

第三方面，本发明实施例还提供了一种服务器，所述服务器包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明任意实施例所述的借款金额预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任意实施例所述的借款金额预测方法。

本发明的借款金额预测方法、装置、服务器、存储介质，通过根据用户的借款信息生成用户借款特征数据，将所述用户借款特征数据输入预先训练好的借款占比预测模型，改善单笔借款金额预测具有很大的随机性，波动性问题，优化用户借款体验，提高用户借款效率，增加单笔借款收益。

附图说明

图1是本发明实施例一提供的一种借款金额预测方法的流程示意图；

图2是本发明实施例一提供的借款占比预测模型的训练流程图；

图3是本发明实施例一提供的借款占比预测模型的检测流程图；

图4为本发明实施例二提供的一种借款金额预测装置的结构示意图；

图5为本发明实施例三提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一速度差值为第二速度差值，且类似地，可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值，但其不是同一速度差值。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

实施例一

图1为本发明实施例一提供的借款金额预测方法的流程图，本实施例可适用于预测借款金额的情况，该方法可以由本发明实施例提供的借款金额预测装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在执行本方法的设备中，在本实施例中执行本方法的设备可以是任意一种支持线上服务的智能终端或服务器。参照图1，该方法具体包括如下步骤：

步骤110、根据用户的借款信息生成用户借款特征数据；

具体的，用户的借款信息包括但不限于借款人的借款订单数据，用户身份信息相关数据，用户历史消费习惯数据，用户历史借款记录数据作为样本数据。具体数据包括：性别，年龄，注册天数，学校等级，毕业天数，省份ID，城市ID，用户类别，授信天数，出账日，还款日，当月最后还款日，当月待还账单量，当月待还本金，用户待还本金，已还费用，已还取现金额，当月应还本金，可用额度，可用取现额度，已用额度，授信总额，取现已用额度，取现额度，等等。用户借款特征数据用于输入预先训练好的借款占比预测模型，符合该借款占比预测模型的输入格式。

可选的，根据用户的借款信息生成用户借款特征数据，包括：获取用户的借款信息；根据用户的借款信息提取用户借款特征数据。

步骤120、将所述用户借款特征数据输入预先训练好的借款占比预测模型，输出用户的不同借款占比对应的多个概率值，所述借款占比为用户借款金额在用户剩余可用借款金额中所占的比例；

具体的，设available_limit表示用户剩余可用借款金额，amount表示用户当前借款金额，R＝ceil(amount/available_limit)表示借款占比，则借款占比R的取值范围为{0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9，1}。

示例性的，将用户借款特征数据输入预先训练好的借款占比预测模型，输出用户的不同借款占比对应的多个概率值，如下表所示：

表1

用户id	性别	年龄	。。。	。。。	R(用户借款/可用额度)	借款概率
							456	1	28	0.1	0.3
456	1	28			0.2	0.5
							456	1	28	0.3	0.3
456	1	28			0.4	0.9
							456	1	28	0.5	0.2
456	1	28			0.6	0.5
							456	1	28	0.7	0.6
456	1	28			0.8	0.6
							456	1	28	0.9	0.1
456	1	28			1	0.4
							。。。	。。。
。。。	。。。

如，R＝0.1时的借款概率为0.3，R＝0.2时的借款概率为0.5，R＝0.3时的借款概率为0.3······R＝1时的借款概率为0.4。

步骤130、根据所述多个概率值确认最佳借款占比，所述最佳借款占比为最大概率值对应的用户借款占比；

具体的，在得到不同借款占比对应的多个概率值后，根据上述的多个概率值确认最佳借款占比，其中最佳借款占比为最大概率值对应的用户借款占比，即对于上表的R＝0.4时的借款概率为0.9，属于最佳借款占比。

可选的，根据所述多个概率值确认最佳借款占比，包括：对所述多个概率值进行排序；根据排序找到最大概率值对应的用户借款占比。

步骤140、根据所述最佳借款占比确认用户当前借款金额。

具体的，如表1所示，当R＝0.4时，借款概率为0.9最大，即最佳借款占比为R＝0.4，根据最佳借款占比确认用户当前借款金额。

可选的，据所述最佳借款占比确认用户当前借款金额，包括：将所述最佳借款占比乘以用户剩余可用借款金额，得到所述用户当前借款金额。

具体的，由于R＝amount/available_limit，则amount＝R*available_limit，因此，将所述最佳借款占比乘以用户剩余可用借款金额，得到所述用户当前借款金额。

可选的，借款占比预测模型为基于Spark的分布式逻辑回归模型。

具体的，模型选择了基于Spark的分布式逻辑回归模型(Logistic Regression，LR)，利用划分的数据使用70％的训练数据进行模型训练，利用30％验证集数据进行模型效果检验，当效果可用(如验证集中AUC>0.7，(auc为模型评价指标))，则保存模型。

本发明实施例的技术方案，通过根据用户的借款信息生成用户借款特征数据，将所述用户借款特征数据输入预先训练好的借款占比预测模型，通过改善单笔借款金额预测具有很大的随机性，波动性问题，优化用户借款体验，提高用户借款效率，增加单笔借款收益。

图2是本发明实施例一提供的借款占比预测模型的训练流程图。一般而言，在利用该借款占比预测模型来预测用户的借款金额之前，需要对该借款占比预测模型进行训练，通过训练调整该模型的计算参数，使得在使用时预测得更准确。如图2所示，对借款占比预测模型进行训练包括：

步骤210、采集多个用户的历史借款信息，以及对应的历史借款占比；

示例性的，采集样本数据的70％作为训练集来训练模型，样本数据的30％作为检测集来验证训练的结果。可以理解的，采集样本数据的比例不限于70％和30％，可以根据实际情况随时调整。

步骤220、根据所述历史借款信息提取用户的历史借款特征数据；

可选的，所述根据所述历史借款信息提取用户的历史借款特征数据之后，包括：判断所述借款信息是否存在数据缺失或稀疏；若是，则删除存在数据缺失或稀疏的特征数据。

具体的，对于数据缺失，由于数据收集受很多因素限制，所以拿到的数据存在缺失不完整的情况，对于不完整的数据进行删除，保证数据的完整性。(如：用户X性别缺失，则从样本中删除用户X的数据，将剩余数据作为新的样本集)。在根据历史借款信息提取用户的历史借款特征数据之后，判断该借款信息是否存在数据缺失；若是，则删除存在缺失的特征数据。

对于数据稀疏，处理后的数据存在稀疏的情况(即很多为0)，针对这种情况对数据进行检测，如果样本数据中超过30％为0的特征数据则将特征删除。在根据历史借款信息提取用户的历史借款特征数据之后，判断该借款信息是否存在数据稀疏；若是，则删除存在稀疏的特征数据。

可选的，所述根据所述历史借款信息提取用户的历史借款特征数据之后，包括：判断所述借款信息是否存在连续的特征数据；若是，则对所述连续的特征数据进行离散化，以得到离散的特征数据。

具体的，对于授信天数，出账日，还款日，当月最后还款日，当月待还账单量，当月待还本金，用户待还本金，已还费用，已还取现金额，当月应还本金，可用额度，可用取现额度，已用额度，授信总额，取现已用额度，取现额度，等等连续的特征数据，通过将数据且分为10段进行离散化，从而连续变量变为离散变量。

可选的，所述得到离散的特征数据之后，包括：将用户的离散的特征数据中的金额特征与用户特征进行关联以生成新的特征数据。

具体的，为了构造用户和金额的关联特征通过将，用户特征(包括性别，年龄，注册天数，学校等级，毕业天数，省份ID，城市ID，用户类别，授信天数等)和借款金额(包括R(借款占比)，借款占比对应金额等)相互之间进行乘积运算生成新的特征，扩充特征数量。(如：性别*R(借款占比)得到一个新的特征)。

步骤230、使用所述对应的历史借款占比对所述历史借款特征数据进行标记，以生成训练样本集；

具体的，使用对应的历史借款占比对历史借款特征数据进行标记，以生成训练样本集，示例性的，其中训练样本集占总的历史样本数据的70％。可以理解的，训练样本集占总的历史样本的数据的比例不局限于70％，可以根据实际情况调整。

步骤240、将所述训练样本集的每个历史借款特征数据输入至待训练的借款占比预测模型进行训练；

步骤250、根据所述训练结果与所述历史借款占比的匹配程度，调整所述借款占比预测模型的计算参数以完成训练。

具体的，如果得到的训练结果与历史借款占比相差不大，说明借款占比预测模型比较完善；如果得到的训练结果与历史借款占比相差很大，说明借款占比预测模型还不完善，还需要调整计算参数以完成训练。本实施例中，所述步骤250也可以省略。

本技术方案的借款占比预测模型的训练过程，通过对借款占比预测模型的不断训练，提高了借款占比预测模型输出数据的准确度，带来更好的效果。

图3是本发明实施例一提供的借款占比预测模型的检测流程图。在对借款占比预测模型训练完成之后，还需要对该模型进行检测。如图3所示，对借款占比预测模型进行检测包括：

步骤310、采集多个用户的历史借款信息，以及对应的历史借款占比；

一实施例，采集样本数据的70％作为训练集来训练模型，样本数据的30％作为检测集来验证训练的结果。

步骤320、根据所述历史借款信息提取用户的历史借款特征数据；

步骤330、使用所述对应的历史借款占比对所述历史借款特征数据进行标记，以生成检测样本集；

具体的，使用对应的历史借款占比对历史借款特征数据进行标记，以生成检测样本集，其中检测样本集占总的历史样本数据的30％。可以理解的，检测样本集占总的历史样本的数据的比例不局限于30％，可以根据实际情况调整。

步骤340、将所述检测样本集的每个历史借款特征数据输入至待训练的借款占比预测模型进行检测，以输出检测结果；

步骤350、根据所述检测结果与所述历史借款占比的匹配程度，确认所述借款占比预测模型是否需要继续训练。

具体的，如果得到的检测结果与历史借款占比相差不大，说明借款占比预测模型不需要继续训练；如果得到的检测结果与历史借款占比相差很大，说明借款占比预测模型需要继续训练。

本技术方案的借款占比预测模型的检测过程，通过对借款占比预测模型的不断检测，提高了借款占比预测模型输出数据的准确度，带来更好的效果。

实施例二

本发明实施例所提供的借款金额预测装置可执行本发明任意实施例所提供的借款金额预测方法，具备执行方法相应的功能模块和有益效果。图4为本发明实施例二提供的一种借款金额预测装置的结构示意图。如图4所示，该装置可以包括：

数据生成单元410，用于根据用户的借款信息生成用户借款特征数据；

模型输入单元420，用于将所述借款特征数据输入预先训练好的借款占比预测模型，输出用户的不同借款占比对应的多个概率值，所述借款占比为用户借款金额在用户剩余可用借款金额中所占的比例；

占比确认单元430，用于根据所述多个概率值确认最佳借款占比，所述最佳借款占比为最大概率值对应的用户借款占比；

金额确认单元440，用于根据所述最佳借款占比确认用户当前借款金额。

可选的，所述数据生成单元410包括：

数据获取子模块，用于获取用户的借款信息；

信息提取子模块，用于根据所述用户的借款信息提取用户借款特征数据。

可选的，该装置还包括借款模型训练单元，所述借款模型训练单元包括：

第一采集子模块，用于采集多个用户的历史借款信息，以及对应的历史借款占比；

第一提取子模块，用于根据所述历史借款信息提取用户的历史借款特征数据；

第一标记子模块，用于使用所述对应的历史借款占比对所述历史借款特征数据进行标记，以生成训练样本集；

第一输入子模块，用于将所述训练样本集的每个历史借款特征数据输入至待训练的借款占比预测模型进行训练，以输出训练结果；

第一调整子模块，用于根据所述训练结果与所述历史借款占比的匹配程度，调整所述借款占比预测模型的计算参数以完成训练。

可选的，该装置还包括借款模型检测单元，，所述借款模型检测单元包括：

第二采集子模块，用于采集多个用户的历史借款信息，以及对应的历史借款占比；

第二提取子模块，用于根据所述历史借款信息提取用户的历史借款特征数据；

第二标记子模块，用于使用所述对应的历史借款占比对所述历史借款特征数据进行标记，以生成检测样本集；

第二输入子模块，用于将所述检测样本集的每个历史借款特征数据输入至待训练的借款占比预测模型进行检测，以输出检测结果；

第二确认子模块，用于根据所述检测结果与所述历史借款占比的匹配程度，确认所述借款占比预测模型是否需要继续训练。

判断所述借款信息是否存在数据缺失或稀疏；

若是，则删除存在数据缺失或稀疏的特征数据。

判断所述借款信息是否存在连续的特征数据；

可选的，所述得到离散的特征数据之后，包括：

可选的，所述占比确认单元430包括：

排序子模块，用于对所述多个概率值进行排序；

确认子模块，用于根据排序找到最大概率值对应的用户借款占比。

可选的，金额确认单元440包括：

金额确认子模块，用于将所述最佳借款占比乘以用户剩余可用借款金额，得到所述用户当前借款金额。

本发明实施例的技术方案，改善单笔借款金额预测具有很大的随机性，波动性问题，优化用户借款体验，提高用户借款效率，增加单笔借款收益。

实施例三

图5为本发明实施例三提供的一种服务器的结构示意图，如图5所示，该服务器包括处理器510、存储器520、输入装置530和输出装置540；服务器中处理器510的数量可以是一个或多个，图5中以一个处理器510为例；服务器中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的借款金额预测方法对应的程序指令/模块(例如，借款金额预测装置中的数据生成单元410、模型输入单元420、占比确认单元430、金额确认单元440)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述的借款金额预测方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种借款金额预测方法，该方法包括：

根据用户的借款信息生成用户借款特征数据；

根据所述最佳借款占比确认用户当前借款金额。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的搜索方法中的相关操作.

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种借款金额预测方法，其特征在于，包括：

根据用户的借款信息生成用户借款特征数据；

根据所述最佳借款占比确认用户当前借款金额。

2.根据权利要求1所述的借款金额预测方法，其特征在于，根据用户的借款信息生成用户借款特征数据，包括：

获取用户的借款信息；

根据所述用户的借款信息提取用户借款特征数据。

3.根据权利要求1所述的借款金额预测方法，其特征在于，所述根据用户的借款信息生成用户借款特征数据之前，还包括对借款占比预测模型进行训练，所述对借款占比预测模型进行训练包括：

采集多个用户的历史借款信息，以及对应的历史借款占比；

根据所述历史借款信息提取用户的历史借款特征数据；

4.根据权利要求3所述的借款金额预测方法，其特征在于，所述对借款占比预测模型进行训练之后，还包括对借款占比预测模型进行检测，所述借款占比预测模型进行检测包括：

采集多个用户的历史借款信息，以及对应的历史借款占比；

根据所述历史借款信息提取用户的历史借款特征数据；

5.根据权利要求3或4所述的借款金额预测方法，其特征在于，所述根据所述历史借款信息提取用户的历史借款特征数据之后，包括：

判断所述借款信息是否存在数据缺失或稀疏；

若是，则删除存在数据缺失或稀疏的特征数据。

6.根据权利要求3或4所述的借款金额预测方法，其特征在于，所述根据所述历史借款信息提取用户的历史借款特征数据之后，包括：

判断所述借款信息是否存在连续的特征数据；

7.根据权利要求6所述的借款金额预测方法，其特征在于，所述得到离散的特征数据之后，包括：

8.根据权利要求1所述的借款金额预测方法，其特征在于，根据所述多个概率值确认最佳借款占比，包括：

对所述多个概率值进行排序；

根据排序找到最大概率值对应的用户借款占比。

9.根据权利要求1所述的借款金额预测方法，其特征在于，根据所述最佳借款占比确认用户当前借款金额，包括：

10.根据权利要求1所述的借款金额预测方法，其特征在于，所述借款占比预测模型为基于Spark的分布式逻辑回归模型。

11.一种借款金额预测装置，其特征在于，包括：

12.一种服务器，其特征在于，所述服务器包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的借款金额预测方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的借款金额预测方法。