CN108710965A

CN108710965A - 短期盈利的预测方法、装置、计算机设备和存储介质

Info

Publication number: CN108710965A
Application number: CN201810345257.9A
Authority: CN
Inventors: 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-10-26
Also published as: JP6855604B2; JP2020524346A; WO2019200742A1

Abstract

本申请揭示了一种短期盈利的预测方法、装置、计算机设备和存储介质，用于在区块链上获取到与贷款对象相关的数据量小于预设量时使用，其中预测方法，包括：从区块链上获取与贷款对象相关的第一相关数据；将所述第一相关数据输入到K‑means算法中，进行第一次聚类计算；将第一次聚类计算得到的各类聚类进行预设方式的回归预测，得到第一预测结果；根据所述第一预测结果确定贷款对象的短期盈利能力。本申请解决了银行等金融机构在各企业数据链前期布局阶段相关数据较少的情况下，无法准确预测贷款企业的短期盈利能力的问题，便于相对准确地限定贷款对象的贷款额度，以减小银行机构的借贷风险。

Description

短期盈利的预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及到互联网技术领域，特别是涉及到一种短期盈利的预测方法、装置、计算机设备和存储介质。

背景技术

区块链是一种去中心化、无需信任的新型数据架构，它由网络中所有的节点共同拥有、管理和监督，不接受单一方面的控制。由于区块链是一种新型的数据架构，所以在区块链布局的前期数据量较少，银行等金融机构很难通过目前的“小数据”完成短期盈利预测，从而存在无法发放合适的贷款额度等问题。

发明内容

本申请的主要目的为提供一种在区块链布局前期企业相关数据量少的情况下，对企业的短期盈利的预测方法、装置、计算机设备和存储介质。

本申请提出一种短期盈利的预测方法，用于在区块链上获取到与贷款对象相关的数据量小于预设量时使用，所述预测方法，包括：

从区块链上获取与贷款对象相关的第一相关数据；

将所述第一相关数据输入到K-means算法中，进行第一次聚类计算；

将第一次聚类计算得到的各类聚类进行预设方式的回归预测，得到第一预测结果；

根据所述第一预测结果确定贷款对象的短期盈利能力。

进一步地，所述将第一次聚类计算得到的各类聚类进行预设方式的回归预测的步骤，包括：

将计算得到的各类聚类输入到预设的SVR预测模型中进行回归预测。

进一步地，所述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤，包括：

将所述第一相关数据进行特征提取；

将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据；

将所述第一相关数据中与所述不相关特征数据对应的第一相关数据清除后输入到K-means算法中，进行第一次聚类计算。

进一步地，所述将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：

将所述特征数据制作成散点图，将所述散点图中的离散点对应的特征数据记为所述不相关特征数据。

进一步地，将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：

将所述特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

进一步地，所述根据所述第一预测结果确定贷款对象的短期盈利能力的步骤之后，包括：

获取非区块链上的与所述贷款对象相关的第二相关数据；

将所述第二相关数据输入到K-means算法中，进行第二次聚类计算；

将第二次聚类计算得到的各类聚类进行预设方式的回归预测，得到第二预测结果；

判断所述第一预测结果与所述第二预测结果的差值是否小于预设的阈值；

若所述差值小于所述阈值，则判定根据所述第一预测结果确定贷款对象的短期盈利能力的结果为可用结果。

进一步地，所述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤之前，包括：

判断所述第一相关数据的数据量是否大于预设的数据阈值；

若是，则将所述第一相关数据输入到预设的基于大数据的预测算法中进行预测。

本申请还提供一种短期盈利的预测装置，用于在区块链上获取到与贷款对象相关的数据量小于预设量时使用，所述预测装置，包括：

获取单元，用于从区块链上获取与贷款对象相关的第一相关数据；

聚类单元，用于将所述第一相关数据输入到K-means算法中，进行第一次聚类计算；

回归单元，用于将第一次聚类计算得到的各类聚类进行预设方式的回归预测，得到第一预测结果；

确定单元，用于根据所述第一预测结果确定贷款对象的短期盈利能力。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的短期盈利的预测方法、装置、计算机设备和存储介质，先对获取到的少量数据通过K-means算法进行聚类，然后通过回归算法进行预测得到预测结果，最后根据预测结果确定贷款对象的短期盈利能力。解决了银行等金融机构在各企业数据链前期布局阶段相关数据较少的情况下，无法准确预测贷款企业的短期盈利能力的问题，便于相对准确地限定贷款对象的贷款额度，以减小银行机构的借贷风险。

附图说明

图1为本发明一实施例的短期盈利的预测方法的流程示意图；

图2为本发明一实施例的短期盈利的预测方法的流程示意图；

图3为本发明一实施例的短期盈利的预测装置的结构示意框图；

图4为本发明一实施例的回归单元的结构示意框图；

图5为本发明一实施例的聚类单元的结构示意框图；

图6为本发明一实施例的短期盈利的预测装置的结构示意框图；

图7为本发明一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请提供一种短期盈利的预测方法，用于在区块链上获取到与贷款对象相关的数据量小于预设量时使用。

本申请中，银行等金融机构流动资金贷款一般分为临时贷款、短期贷款和中期贷款，其中短期贷款期限一般为三个月至一年(不含三个月含一年)的流动资金贷款。因为市场变化反复无常，利用历史数据提炼出的规律在一定时间内可能是正确的，但是过一段时间后其正确的概率降低。按预测时间范围长短不同，可将其分为短期预测、中期预测和长期预测三种。一般地，预测时间范围越短，预测质量越高；反之，预测结果的准确性越低。本申请中，区块链上数据量小于预设量是一个限定条件，主要限定本方法针对各企业在数据链布局的前期，各种数据相对较少情况下使用，本申请中“小于预设量的数据量”相对目前“大数据”而言，可以称之为“小数据”。

上述预测方法，包括步骤：

S1、从区块链上获取与贷款对象相关的第一相关数据；

S2、将所述第一相关数据输入到K-means算法中，进行第一次聚类计算；

S3、将第一次聚类计算得到的各类聚类进行预设方式的回归预测，得到第一预测结果；

S4、根据所述第一预测结果确定贷款对象的短期盈利能力。

如上述步骤S1所述，上述贷款对象为需要到银行等金融机构贷款的企业或个人。上述第一相关数据可以是在区块链上与贷款对象相关的全部数据，也可以根据指定要求检索到的数据，比如根据不同的企业或项目，获取区块链上不同的数据，比如采购代理融资企业，其可以获取金融机构区块数据、核心企业区块数据、仓储物流区块数据、经销商区块数据等。

如上述步骤S2所述，上述K-means算法是一种输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足；同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。其原理为：先初设几个中心的位置，计算所有点到这几个中心的距离，然后找出属于这几个中心的点，比如A点与1号中心距离最近就属于1号。将所有属于1号的点求平均就得到新的中心点。不断迭代直到属于每个中心的中心点不变，得到最后的中心位置，以完成数据的聚类。

本申请请中，上述步骤S2的具体过程如下：

S21、对于给定的一个包含n个d维数据点的相关数据的数据集(第一相关数据)X＝{x₁,x₂,…,x_n}，其中，x_i∈R^d，选择数据集中K个点作为初始聚类中心，每个对象代表一个类别的中心μ_k(k＝1,2,…,K)。

S22、计算各点到中心μ_k的欧氏距离，按距离最近的准则分别将它们分配给与其最相似的聚类中心代表的类，形成K个簇C＝{c_k,k＝1,2,…,k}。每个簇c_k代表一个类。计算该类各点到聚类中心μ_k的距离平方和J(c_k):

S23、计算各类样本到其所在类别聚类中心μk总的距离平方和，直至最小：

式中：若x_i∈c_k，d_ki＝1；d_ki＝0，则计算类内所有对象的均值作为该类的新聚类中心。

S24、判断聚类中心和值是否发生改变，若发生改变则转回步骤S22，若不再改变则聚类结束。

本申请使用K-means算法进行数据聚类，简单、快速，算法保持可伸缩性和高效性，当簇接近高斯分布时，效果更佳。

如上述步骤S3所述，上述回归预测就是把预测的相关性原则作为基础，把影响预测目标的各因素找出来，然后找出这些因素和预测目标之间的函数关系的近似表达，并且用数学的方法找出来。上述第一预测结果即为将第一次聚类计算得到的各类聚类通过预设方式的回归预测计算得出的结果，又因为上述第一相关数据是贷款对象的相关数据，所以第一预测结果在一定程度上可以反映贷款对象在短期内的盈利能力。回归预测的基本步骤如下：1、根据预测目标，确定自变量和因变量。具体地，明确预测的具体目标，也就确定了因变量。如预测具体目标是下一年度的销售量，那么销售量Y就是因变量。通过市场调查和查阅资料，寻找与预测目标的相关影响因素，即自变量，并从中选出主要的影响因素。2、建立回归预测模型。具体地，依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析方程，即回归预测模型。3、进行相关分析。具体地，回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时，建立的回归方程才有意义。因此，作为自变量的因素与作为因变量的预测对象是否有关，相关程度如何，以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。进行相关分析，一般要求出相关关系，以相关系数的大小来判断自变量和因变量的相关的程度。4、检验回归预测模型，计算预测误差。具体地，回归预测模型是否可用于实际预测，取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验，且预测误差较小，才能将回归方程作为预测模型进行预测。5、计算并确定预测值。具体地，利用回归预测模型计算预测值，并对预测值进行综合分析，确定最后的预测值。本申请中，先对数据进行聚类，然后在对聚类后数据进行回归预测，预测速度更快。

如上述步骤S4所述，即为根据第一预测结果确定贷款对象的短期盈利能力。然后银行等金融机构既可以根据其盈利能力确定上述贷款对象的贷款额度，即可以给上述贷款对象的贷款金额上限。上述第一预测结果可以是代表等级的数字，比如，分为1-10级，随着等级的提高，代表贷款对象的短期盈利能力越强，其贷款的额度也就相应的越高，本实施例中，贷款额度还与贷款对象的注册资金、市场价值等数据相关。

本实施例中，上述将第一次聚类计算得到的各类聚类进行预设方式的回归预测的步骤S3，包括：

S31、将计算得到的各类聚类输入到预设的SVR预测模型中进行回归预测。

如上述步骤S31所述，上述SVR(Support Vector Regression，支持向量回归)，是支持向量机(SVM)的重要的应用分支。本实施例中，通过极小化目标函数来确定回归函数，回归函数为f(x)＝wx+b。其具体过程为：

限制条件为：(w^TΦ(x_i)+b)-c≤ε+ζ_i

对偶问题为：

限制条件为：e^T(α-α^*)＝0,e^T(α+α^*)≤Cv

近似函数为：

类似于2002年提出的v-SVC,e^T(α+α^*)≤Cv不等式可以由等式进行替换。而且,由于用户经常选择C＝1类似的小常量，导致C/l太小。因此,在LIBSVM(是台湾大学林智仁(LinChih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包)中,将用户指定的参数作为C/l.即,是用户指定的,LIBSVM解决了以下问题:

限制条件为：

ε-SVR在参数下，其与v-SVR在参数下具有相同的解。

上式中，l为训练样本个数，这里l＝k；C为平衡模型复杂性(1/2)w^Tw和训练误差项的权重参数；ε为不敏感损失函数；ζ为松弛因子。K(x_i,x)为核函数。

上述SVR(支持向量回归算法)主要是通过将聚类结果升维后，在高维空间中构造线性决策函数来实现线性回归，用e不敏感损失函数时，其基础主要是e不敏感损失函数和核函数算法。若将拟合的数学模型表达多维空间的某一曲线，则根据e不敏感损失函数所得的结果，就是包括该曲线和训练点的“e管道”。在所有样本点中，只有分布在“管壁”上的那一部分样本点决定管道的位置。这一部分训练样本称为“支持向量”。为适应训练样本集的非线性，传统的拟合方法通常是在线性方程后面加高阶项。此法诚然有效，但由此增加的可调参数未免增加了过拟合的风险。SVR采用核函数解决这一矛盾。用核函数代替线性方程中的线性项可以使原来的线性算法“非线性化”，即能做非线性回归。与此同时，引进核函数达到了“升维”的目的，而增加的可调参数是过拟合依然能控制。本申请，利用技术成熟的SVR算法，计算结果可靠，而且可以达到准确预测的效果。

在一个实施例中，上述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤S2，包括：

S21、将所述第一相关数据进行特征提取；

S22、将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据；

S23、将所述第一相关数据中与所述不相关特征数据对应的第一相关数据清除后输入到K-means算法中，进行第一次聚类计算。

如上述步骤S201至S203所述，将上述贷款对象相关的第一相关数据进行特征提取，进行相关性分析找出特征数据中与其它特征数据不相关的不相关特征数据，然后将这些不相关特征数据对应的第一相关数据从第一相关数据中剔除，使用留下的第一相关数据进行聚类计算，得到的聚类更加准确，因为将不相关特征数据对应的第一相关数据提出，所以提高聚类计算的效率。

本实施例中，对第一相关数据进行特征能提取的方法具体为：使用Relief算法(Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除)进行特征提取。Relief算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M，称为NearMiss，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加，因而运行效率非常高。具体算法如下所示：

设训练数据集为D，样本抽样次数m，特征权重的阈值δ，最近邻样本个数输出为各个特性的特征权重T：

1、置所有特征权重为0，T为空集。

2、for i＝1 to m do

1)、随机选择一个样本R；

2)、从同类样本集中找到R的最近邻H，从不同类样本集中找最近邻样本M。

3)、for A＝1 to N do

W(A)＝W(A)-diff(A，R，H)/m+diff(A，R，M)/m

3、for A＝1 to N do

if W(A)≥δ

把第A个特征添加到T中。

在一个实施例中，上述将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤S202，包括：

S2021、将所述特征数据制作成散点图，将所述散点图中的离散点对应的特征数据记为所述不相关特征数据。

如上述步骤S2021所述，上述散点图(scatter diagram)在回归分析中是指数据点在直角坐标系平面上的分布图；通常用于比较跨类别的聚合数据。散点图中包含的数据越多，比较的效果就越好。本实施例中上述特征数据一般为矩阵，此时可利用散点图矩阵来同时绘制各自变量间的散点图，这样可以快速发现多个变量间的主要相关性。将上述特征数据制作成散点图的过程即为可视化的过程，特征数据可视化处理，所以人可以个通过肉眼在图形或图像上直观的分辨出离散点的存在，然后选择出离散点，计算机设备会将选择的离散点对应的特征数据记为不相关特征数据。

在另一实施例中，上述将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤S202，包括：

S2022、将所述特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

如上述步骤S2022所述，上述相关矩阵也叫相关系数矩阵，其是由矩阵各列间的相关系数构成的。也就是说，相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。本实施例中一般用到协方差矩阵进行分析，协方差用来衡量两个变量的总体误差，如果两个变量的变化趋势一致，协方差就是正值，说明两个变量正相关。如果两个变量的变化趋势相反，协方差就是负值，说明两个变量负相关。如果两个变量相互独立，那么协方差就是0，说明两个变量不相关，当变量大于或等于三组的时候，即会使用相应的协方差矩阵。

参照图2，在本实施例中，上述根据所述第一预测结果确定贷款对象的短期盈利能力的步骤S4之后，包括：

S5、获取非区块链上的与所述贷款对象相关的第二相关数据；

S6、将所述第二相关数据输入到K-means算法中，进行第二次聚类计算；

S7、将第二次聚类计算得到的各类聚类进行预设方式的回归预测，得到第二预测结果；

S8、判断所述第一预测结果与所述第二预测结果的差值是否小于预设的阈值；

S9、若所述差值小于所述阈值，则判定根据所述第一预测结果确定贷款对象的短期盈利能力的结果为可用结果。

如上述步骤S5至S9所述，上述非区块链上的第二相关数据，是指没有记录在区块链上的数据，一般为大数据网络中数据。对第二相关数据的聚类算法和回归预测方法与上述的第一相关数据完全相同，再此不在赘述。本实施例中，将根据第一相关数据得到的第一预测结果与根据第二相关数据得到的第二预测结果进行比较，即为设置一道验证的步骤，以判断第一预测结果是否可用。本申请中，因为主要是针对区块链布局的前期，所以各企业的历史数据会有大量的存在与大数据的互联网上，如企业自己的服务器中，或则与企业相关的其它企业的服务器中，只要在互联网环境中，就有可能被获取到。本步骤中，主要将利用互联网上的“大数据”得到的第二预测结果验证利用区块链上的“小数据”得到的第一预测结果，只有第二预测结果和第一预测结果的差值小于预设的阈值才判定第一预测结果基本正确，可以使用。

在一个实施例中，上述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤S2之前，包括：

S201、判断所述第一相关数据的数据量是否大于预设的数据阈值；

S202、若是，则将所述第一相关数据输入到预设的基于大数据的预测算法中进行预测。

如上述步骤S201和S202所述，就是设定了一个数据阈值，当获取到的第一相关数据的数据量大于数据阈值时，其已经脱离了上述短期盈利的预测方法适用的“小数据”范围，所以会停止后续的聚类、回归预测等步骤，而是切换预测方法。具体切换的方法可以是，将获取到的第一相关数据输入到预设的现有的相对成熟的预测模型中，比如基于TD-ABC模型的企业盈利模型等。

在一个实施例中，还可以分析上述的第一相关数据中是否含有欺诈数据，具体的方法可以为：将获取的第一相关数据进行特征提取，以得到特征数据；在所述特征数据中提取出与其它特征数据不相关的不相关特征数据；然后通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。可以通过欺诈数据的多少等情况，分析出贷款对象的借贷信誉值。然后结合信誉值和短期盈利能力确定贷款对象的贷款额度。

在一具体实施例中，a企业需要找P银行进行贷款，P银行则需要对a企业进行评估，其评估的过程为：1、通过在区块链上收集与该a企业相关的全部数据，如a企业的销售数据、生产数据、财务数据等。然后对获取到的数据进行特征提取，将无用的数据提前删除，已提高后续聚类计算的速度与效率。具体的删除方法为，先将提取出的数据进行可视化地形成散点图，然后将散点图中的离散点删除。2、将从区块链上获取到的a企业的数据通过K-means算法进行聚类计算。3、将聚类计算的结果进行SVR回归预测，进而得到该a企业盈利能力等结果；4、还通过上述欺诈数据的识别方法判断a企业的信誉等；5、P银行根据a企业的信誉、盈利能力等确定是否可以贷款给a企业，以及最大贷款限额等。具体的，如果a企业的信誉小于预设值，则拒绝贷款给a企业；如果a企业的信誉为预设值则可以到款给a企业，此时在结合该a企业的盈利能力，计算最大的贷款限额等，从而有效地提高P银行规避风险的能力。具体获取a企业在数据链上的数据包括：采购货物种类，以及该采购经费数据；海关出口货物、关税，进口货物、关税；国内销售数据；销售产品数据；贷款数据；还贷信誉数据；货物库存数据；物流相关数据(仓库数量、仓库地理分布、每个仓库的存储数据、销售地域分布)等。

本申请的短期盈利的预测方法，先对获取到的“小数据”据通过K-means算法进行聚类，然后通过回归算法进行预测得到预测结果，最后根据预测结果确定贷款对象的短期盈利能力。解决了银行等金融机构在各企业数据链前期布局阶段相关数据较少的情况下，无法准确预测贷款企业的短期盈利能力的问题，便于相对准确地限定贷款对象的贷款额度，以减小银行机构的借贷风险。

参照图3，本申请实施例还提供一种短期盈利的预测装置，用于在区块链上获取到与贷款对象相关的数据量小于预设量时使用。

上述预测装置，包括：

获取单元10，用于从区块链上获取与贷款对象相关的第一相关数据；

聚类单元20，用于将所述第一相关数据输入到K-means算法中，进行第一次聚类计算；

回归单元30，用于将第一次聚类计算得到的各类聚类进行预设方式的回归预测，得到第一预测结果；

确定单元40，用于根据所述第一预测结果确定贷款对象的短期盈利能力.

在上述获取单元10中，上述贷款对象为需要到银行等金融机构贷款的企业或个人。上述第一相关数据可以是在区块链上与贷款对象相关的全部数据，也可以根据指定要求检索到的数据，比如根据不同的企业或项目，获取区块链上不同的数据，比如采购代理融资企业，其可以获取金融机构区块数据、核心企业区块数据、仓储物流区块数据、经销商区块数据等。

在上述聚类单元20中，上述K-means算法是一种输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足；同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。其原理为：先初设几个中心的位置，计算所有点到这几个中心的距离，然后找出属于这几个中心的点，比如A点与1号中心距离最近就属于1号。将所有属于1号的点求平均就得到新的中心点。不断迭代直到属于每个中心的中心点不变，得到最后的中心位置，以完成数据的聚类。

本申请请中，上述的聚类单元20的具体聚类过程如下：

(1)、对于给定的一个包含n个d维数据点的相关数据的数据集(第一相关数据)X＝{x₁,x₂,…,x_n}，其中，x_i∈R^d，选择数据集中K个点作为初始聚类中心，每个对象代表一个类别的中心μ_k(k＝1,2,…,K)。

(2)、计算各点到中心μ_k的欧氏距离，按距离最近的准则分别将它们分配给与其最相似的聚类中心代表的类，形成K个簇C＝{c_k,k＝1,2,…,k}。每个簇c_k代表一个类。计算该类各点到聚类中心μ_k的距离平方和J(c_k):

(3)、计算各类样本到其所在类别聚类中心μk总的距离平方和，直至最小：

(4)、判断聚类中心和值是否发生改变，若发生改变则转回步骤S22，若不再改变则聚类结束。

本申请使用K-means算法进行数据聚类，简单、快速，算法保持可伸缩性和高效性，当簇接近高斯分布时，效果更佳

在上述回归单元30中，上述回归预测就是把预测的相关性原则作为基础，把影响预测目标的各因素找出来，然后找出这些因素和预测目标之间的函数关系的近似表达，并且用数学的方法找出来。上述第一预测结果即为将第一次聚类计算得到的各类聚类通过预设方式的回归预测计算得出的结果，又因为上述第一相关数据是贷款对象的相关数据，所以第一预测结果在一定程度上可以反映贷款对象在短期内的盈利能力。回归预测的基本步骤如下：(1)根据预测目标，确定自变量和因变量。具体地，明确预测的具体目标，也就确定了因变量。如预测具体目标是下一年度的销售量，那么销售量Y就是因变量。通过市场调查和查阅资料，寻找与预测目标的相关影响因素，即自变量，并从中选出主要的影响因素。(2)建立回归预测模型。具体地，依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析方程，即回归预测模型。(3)进行相关分析。具体地，回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时，建立的回归方程才有意义。因此，作为自变量的因素与作为因变量的预测对象是否有关，相关程度如何，以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。进行相关分析，一般要求出相关关系，以相关系数的大小来判断自变量和因变量的相关的程度。(4)检验回归预测模型，计算预测误差。具体地，回归预测模型是否可用于实际预测，取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验，且预测误差较小，才能将回归方程作为预测模型进行预测。(5)计算并确定预测值。具体地，利用回归预测模型计算预测值，并对预测值进行综合分析，确定最后的预测值。本申请中，先对数据进行聚类，然后在对聚类后数据进行回归预测，预测速度更快。

在上述确定单元40中，即为用于根据第一预测结果确定贷款对象的短期盈利能力。然后银行等金融机构既可以根据其盈利能力确定上述贷款对象的贷款额度，即可以给上述贷款对象的贷款金额上限。上述第一预测结果可以是代表等级的数字，比如，分为1-10级，随着等级的提高，代表贷款对象的短期盈利能力越强，其贷款的额度也就相应的越高，本实施例中，贷款额度还与贷款对象的注册资金、市场价值等数据相关。

参照图4，本实施例中，上述回归单元30，包括：

SVR预测模块31，用于将计算得到的各类聚类输入到预设的SVR预测模型中进行回归预测。

在上述SVR预测模块31中，上述SVR(Support Vector Regression，支持向量回归)，是支持向量机(SVM)的重要的应用分支。本实施例中，通过极小化目标函数来确定回归函数，回归函数为f(x)＝wx+b。其具体过程为：

限制条件为：(w^TΦ(x_i)+b)-c≤ε+ζ_i

对偶问题为：

限制条件为：e^T(α-α^*)＝0,e^T(α+α^*)≤Cv

近似函数为：

类似于2002年提出的v-SVC,e^T(α+α^*)≤Cv不等式可以由等式进行替换。而且,由于用户经常选择C＝1类似的小常量，导致C/l太小。因此,在LIBSVM中,将用户指定的参数作为C/l.即,是用户指定的,LIBSVM解决了以下问题:

限制条件为：

ε-SVR在参数下，其与v-SVR在参数下具有相同的解。

参照图5，在一个实施例中，上述聚类单元20，包括：

提取模块21，用于将所述第一相关数据进行特征提取；

分析模块22，用于将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据；

聚类模块23，用于将所述第一相关数据中与所述不相关特征数据对应的第一相关数据清除后输入到K-means算法中，进行第一次聚类计算。

在上述提取模块21、分析模块22和聚类模块23中，将上述贷款对象相关的第一相关数据进行特征提取，进行相关性分析找出特征数据中与其它特征数据不相关的不相关特征数据，然后将这些不相关特征数据对应的第一相关数据从第一相关数据中剔除，使用留下的第一相关数据进行聚类计算，得到的聚类更加准确，因为将不相关特征数据对应的第一相关数据提出，所以提高聚类计算的效率。本实施例中，对第一相关数据进行特征能提取的方法具体为：使用Relief算法(Relief算法是一种特征权重算法(Feature weightingalgorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除)进行特征提取。Relief算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M，称为NearMiss，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加，因而运行效率非常高。具体算法如下所示：

1、置所有特征权重为0，T为空集。

2、for i＝1 to m do

1)、随机选择一个样本R；

3)、for A＝1 to N do

W(A)＝W(A)-diff(A，R，H)/m+diff(A，R，M)/m

3、for A＝1 to N do

if W(A)≥δ

把第A个特征添加到T中。

在一个实施例中，上述分析模块22，包括：可视分析子模块，用于将所述特征数据制作成散点图，将所述散点图中的离散点对应的特征数据记为所述不相关特征数据。

在上述可视分析子模块中，上述散点图(scatter diagram)在回归分析中是指数据点在直角坐标系平面上的分布图；通常用于比较跨类别的聚合数据。散点图中包含的数据越多，比较的效果就越好。本实施例中上述特征数据一般为矩阵，此时可利用散点图矩阵来同时绘制各自变量间的散点图，这样可以快速发现多个变量间的主要相关性。将上述特征数据制作成散点图的过程即为可视化的过程，特征数据可视化处理，所以人可以个通过肉眼在图形或图像上直观的分辨出离散点的存在，然后选择出离散点，计算机设备会将选择的离散点对应的特征数据记为不相关特征数据。

在另一实施例中，上述分析模块22，包括：矩阵分析子模块，用于将所述特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

在上述矩阵分析子模块中，上述相关矩阵也叫相关系数矩阵，其是由矩阵各列间的相关系数构成的。也就是说，相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。本实施例中一般用到协方差矩阵进行分析，协方差用来衡量两个变量的总体误差，如果两个变量的变化趋势一致，协方差就是正值，说明两个变量正相关。如果两个变量的变化趋势相反，协方差就是负值，说明两个变量负相关。如果两个变量相互独立，那么协方差就是0，说明两个变量不相关，当变量大于或等于三组的时候，即会使用相应的协方差矩阵。

参照图6，在本实施例中，上述短期盈利的预测装置，还包括：

数据获取单元50，用于获取非区块链上的与所述贷款对象相关的第二相关数据；

数据聚类单元60，用于将所述第二相关数据输入到K-means算法中，进行第二次聚类计算；

聚类回归单元70，用于将第二次聚类计算得到的各类聚类进行预设方式的回归预测，得到第二预测结果；

比较单元80，用于判断所述第一预测结果与所述第二预测结果的差值是否小于预设的阈值；

判定单元90，用于若所述差值小于所述阈值，则判定根据所述第一预测结果确定贷款对象的短期盈利能力的结果为可用结果。

上述非区块链上的第二相关数据，是指没有记录在区块链上的数据，一般为大数据网络中数据。对第二相关数据的聚类算法和回归预测方法与上述的第一相关数据完全相同，再此不在赘述。本实施例中，将根据第一相关数据得到的第一预测结果与根据第二相关数据得到的第二预测结果进行比较，即为设置一道验证的步骤，以判断第一预测结果是否可用。本申请中，因为主要是针对区块链布局的前期，所以各企业的历史数据会有大量的存在与大数据的互联网上，如企业自己的服务器中，或则与企业相关的其它企业的服务器中，只要在互联网环境中，就有可能被获取到。本步骤中，主要将利用互联网上的“大数据”得到的第二预测结果验证利用区块链上的“小数据”得到的第一预测结果，只有第二预测结果和第一预测结果的差值小于预设的阈值才判定第一预测结果基本正确，可以使用。

在一个实施例中，上述短期盈利的预测装置，还包括：

判断单元，用于判断所述第一相关数据的数据量是否大于预设的数据阈值；

切换单元、用于则将所述第一相关数据输入到预设的基于大数据的预测算法中进行预测。

如上述判断单元和切换单元中，就是设定了一个数据阈值，当获取到的第一相关数据的数据量大于数据阈值时，其已经脱离了上述短期盈利的预测装置的适用的“小数据”范围，所以会停止后续的聚类、回归预测等预测过程，而是切换预测方法。具体切换的方法可以是，将获取到的第一相关数据输入到预设的现有的相对成熟的预测模型中，比如基于TD-ABC模型的企业盈利模型等。

在一个实施例中，上述短期盈利的预测装置还包括：

欺诈分析单元，用于分析上述的第一相关数据中是否含有欺诈数据，具体的方法可以为：将获取的第一相关数据进行特征提取，以得到特征数据；在所述特征数据中提取出与其它特征数据不相关的不相关特征数据；然后通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。可以通过欺诈数据的多少等情况，分析出贷款对象的借贷信誉值。然后结合信誉值和短期盈利能力确定贷款对象的贷款额度。

本申请的短期盈利的预测装置，先对获取到的“小数据”据通过K-means算法进行聚类，然后通过回归算法进行预测得到预测结果，最后根据预测结果确定贷款对象的短期盈利能力。解决了银行等金融机构在各企业数据链前期布局阶段相关数据较少的情况下，无法准确预测贷款企业的短期盈利能力的问题，便于相对准确地限定贷款对象的贷款额度，以减小银行机构的借贷风险。

参照图7，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储获取的第一相关数据和第二相关数据、K-means算法模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种短期盈利的预测方法。

上述处理器执行上述短期盈利的预测方法，用于区块链上数据量小于预设量时的短期盈利预测，所述预测方法，包括：从区块链上获取与贷款对象相关的第一相关数据；将所述第一相关数据输入到K-means算法中，进行第一次聚类计算；将第一次聚类计算得到的各类聚类进行预设方式的回归预测，得到第一预测结果；根据所述第一预测结果确定贷款对象的短期盈利能力。

在一个实施例中，所述将第一次聚类计算得到的各类聚类进行预设方式的回归预测的步骤，包括：将计算得到的各类聚类输入到预设的SVR预测模型中进行回归预测。

在一个实施例中，上述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤，包括：将所述第一相关数据进行特征提取；将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据；将所述第一相关数据中与所述不相关特征数据对应的第一相关数据清除后输入到K-means算法中，进行第一次聚类计算。

在一个实施例中，上述将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：将所述特征数据制作成散点图，将所述散点图中的离散点对应的特征数据记为所述不相关特征数据。

在一个实施例中，上述将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：将所述特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

在一个实施例中，上述根据所述第一预测结果确定贷款对象的短期盈利能力的步骤之后，包括：获取非区块链上的与所述贷款对象相关的第二相关数据；将所述第二相关数据输入到K-means算法中，进行第二次聚类计算；将第二次聚类计算得到的各类聚类进行预设方式的回归预测，得到第二预测结果；判断所述第一预测结果与所述第二预测结果的差值是否小于预设的阈值；若所述差值小于所述阈值，则判定根据所述第一预测结果确定贷款对象的短期盈利能力的结果为可用结果。

在一个实施例中，上述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤之前，包括：判断所述第一相关数据的数据量是否大于预设的数据阈值；若是，则将所述第一相关数据输入到预设的基于大数据的预测算法中进行预测。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本发明实施例的计算机设备，执行的短期盈利的预测方法，先对获取到的少量数据通过K-means算法进行聚类，然后通过回归算法进行预测得到预测结果，最后根据预测结果确定贷款对象的短期盈利能力。解决了银行等金融机构在各企业数据链前期布局阶段相关数据较少的情况下，无法准确预测贷款企业的短期盈利能力的问题，便于相对准确地限定贷款对象的贷款额度，以减小银行机构的借贷风险。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现短期盈利的预测方法，用于区块链上数据量小于预设量时的短期盈利预测，所述预测方法，包括：从区块链上获取与贷款对象相关的第一相关数据；将所述第一相关数据输入到K-means算法中，进行第一次聚类计算；将第一次聚类计算得到的各类聚类进行预设方式的回归预测，得到第一预测结果；根据所述第一预测结果确定贷款对象的短期盈利能力。

上述执行的短期盈利的预测方法，先对获取到的少量数据通过K-means算法进行聚类，然后通过回归算法进行预测得到预测结果，最后根据预测结果确定贷款对象的短期盈利能力。解决了银行等金融机构在各企业数据链前期布局阶段相关数据较少的情况下，无法准确预测贷款企业的短期盈利能力的问题，便于相对准确地限定贷款对象的贷款额度，以减小银行机构的借贷风险。

在一个实施例中，上述处理器所述将第一次聚类计算得到的各类聚类进行预设方式的回归预测的步骤，包括：将计算得到的各类聚类输入到预设的SVR预测模型中进行回归预测。

在一个实施例中，上述处理器将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤，包括：将所述第一相关数据进行特征提取；将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据；将所述第一相关数据中与所述不相关特征数据对应的第一相关数据清除后输入到K-means算法中，进行第一次聚类计算。

在一个实施例中，上述处理器将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：将所述特征数据制作成散点图，将所述散点图中的离散点对应的特征数据记为所述不相关特征数据。

在一个实施例中，上述处理器将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：将所述特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

在一个实施例中，上述处理器根据所述第一预测结果确定贷款对象的短期盈利能力的步骤之后，包括：获取非区块链上的与所述贷款对象相关的第二相关数据；将所述第二相关数据输入到K-means算法中，进行第二次聚类计算；将第二次聚类计算得到的各类聚类进行预设方式的回归预测，得到第二预测结果；判断所述第一预测结果与所述第二预测结果的差值是否小于预设的阈值；若所述差值小于所述阈值，则判定根据所述第一预测结果确定贷款对象的短期盈利能力的结果为可用结果。

在一个实施例中，上述处理器将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤之前，包括：判断所述第一相关数据的数据量是否大于预设的数据阈值；若是，则将所述第一相关数据输入到预设的基于大数据的预测算法中进行预测。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种短期盈利的预测方法，其特征在于，用于在区块链上获取到与贷款对象相关的数据量小于预设量时使用，所述预测方法，包括：

从区块链上获取与贷款对象相关的第一相关数据；

根据所述第一预测结果确定贷款对象的短期盈利能力。

2.根据权利要求1所述的短期盈利的预测方法，其特征在于，所述将第一次聚类计算得到的各类聚类进行预设方式的回归预测的步骤，包括：

3.根据权利要求1所述的短期盈利的预测方法，其特征在于，所述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤，包括：

将所述第一相关数据进行特征提取；

将提取的特征数据进行相关性分析，得到与所述特征数据中的其它特征数据不相关的不相关特征数据；

将所述第一相关数据中与所述不相关特征数据对应的目标数据清除后输入到K-means算法中，进行第一次聚类计算。

4.根据权利要求3所述的短期盈利的预测方法，其特征在于，所述将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：

5.根据权利要求3所述的短期盈利的预测方法，其特征在于，所述将提取的特征数据进行相关性分析，得到与其它特征数据不相关的不相关特征数据的步骤，包括：

6.根据权利要求1所述的短期盈利的预测方法，其特征在于，所述根据所述第一预测结果确定贷款对象的短期盈利能力的步骤之后，包括：

获取非区块链上的与所述贷款对象相关的第二相关数据；

7.根据权利要求1所述的短期盈利的预测方法，其特征在于，所述将所述第一相关数据输入到K-means算法中，进行第一次聚类计算的步骤之前，包括：

判断所述第一相关数据的数据量是否大于预设的数据阈值；

8.一种短期盈利的预测装置，其特征在于，用于在区块链上获取到与贷款对象相关的数据量小于预设量时使用，所述预测装置，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。