CN114529063A

CN114529063A - 一种基于机器学习的金融领域数据预测方法、设备及介质

Info

Publication number: CN114529063A
Application number: CN202210104353.0A
Authority: CN
Inventors: 杨韫涵
Original assignee: Bank of China Financial Technology Co Ltd
Current assignee: Bank of China Financial Technology Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-24

Abstract

本发明涉及一种基于机器学习的金融领域数据预测方法，包括：步骤S1、获取样本数据并进行数据预处理；步骤S2、采用多种机器学习模型对预处理后的样本数据进行分类；采用分类评估指标以及拟合网格图对分类结果进行评估，从中选取两个表现最为出色的机器学习模型；步骤S3、利用基于单特征AUC模型的特征工程筛选最优特征，并采用选出的机器学习模型进行训练，选取分类效果最佳的模型作为最终预测模型；步骤S4、采用SMOTE算法进行数据均衡化处理，优化最终预测模型；步骤S5、采用优化后的最终预测模型对金融领域数据进行预测，得到数据预测结果。与现有技术相比，本发明具有预测准确率高的优点。

Description

一种基于机器学习的金融领域数据预测方法、设备及介质

技术领域

本发明涉及数据预测领域，尤其是涉及一种基于机器学习的金融领域数据预测方法、设备及介质。

背景技术

金融领域的财务危机是一种动态可持续的过程。一家能够达到上市要求的公司，说明其经营状况在一定的时期和程度上都是良好的，所以不会立即陷入财务危机的状况。文献研究表明，进入破产状态的英国公司，从经营状态良好到发生财务风险，最终走向破产最少需要三年时间。这一情况同样也适用于美国公司。这两类公司的共同点在于，公司在申请破产的前两年，就停止提供财务报表。在中国，上市企业连续两年的净利润为负值，就会被标注出来，做特别处理，即被标注ST；而一家上市企业连续三年的净利润为负值，则会收到退市警告，即标注*ST。上市公司陷入财务困境，将会给包括股东、经理、投资者、债权人、供应商、客户等利益相关者带来负面影响，情节严重的会给中国社会经济带来不良的波动。随着这些不良影响带来的是高昂代价，这种代价使得在公司遭遇财务危机之前进行相应的预警十分重要。

针对以上情况，需要设计一种准确性高的金融领域数据预测方法，以应对金融领域企业的财务危机。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种预测准确性高的基于机器学习的金融领域数据预测方法、设备及介质。

本发明的目的可以通过以下技术方案来实现：

根据本发明的第一方面，提供了一种基于机器学习的金融领域数据预测方法，包括：

步骤S1、获取样本数据并进行数据预处理；

步骤S2、采用多种机器学习模型对预处理后的样本数据进行分类；采用分类评估指标以及拟合网格图对分类结果进行评估，从中选取两个表现最为出色的机器学习模型；

步骤S3、利用基于单特征AUC模型的特征工程筛选最优特征，并采用选出的机器学习模型进行训练，选取分类效果最佳的模型作为最终预测模型；

步骤S4、采用SMOTE算法进行数据均衡化处理，优化最终预测模型；

步骤S5、采用优化后的最终预测模型对金融领域数据进行预测，得到数据预测结果。

优选地，所述步骤S1中数据预处理具体为：

S11、样本数据空值处理、样本数据标准化处理；

S12、引入t-SNE降维算法对样本数据进行降维可视化，去除无效数据。

优选地，所述引入t-SNE降维算法对样本数据进行降维可视化具体为：

1)将样本数据点之间的相似度转化为条件概率，原始空间中样本数据点的相似度采用高斯联合分布表示，嵌入空间中样本数据点的相似度由学生t分布表示；

2)将原始空间和嵌入空间的联合概率分布的KL散度作为损失函数，通过梯度下降算法最小化损失函数来评估嵌入效果的好坏；基于将降维可视化结果去除无效样本数据。

优选地，所述步骤S2中的分类评估指标包括准确率、精确率、召回率、F1得分以及AUC值。

优选地，所述步骤S2中多种机器学习模型包括支持向量机SVM模型、逻辑回归模型、随机森林模型、XGBoot模型以及BP神经网络模型。

优选地，所述步骤S3中利用基于单特征AUC模型的特征工程筛选最优特征，具体包括以下子步骤：

步骤S31、利用单特征AUC模型对分别计算预设指标对应的AUC值，并基于AUC值对所述预设指标进行重要性排序；

步骤S32、依据重要性排序结果，增量式逐个增加特征，基于每个特征组合的AUC值选取最优特征组合。

优选地，所述步骤S4包括以下子步骤：

步骤S41、将非平衡的样本数据划分为正类样本和负类样本，其中正类样本为两种样本中样本数量较少的样本集；

步骤S42、对于M个正类样本中，选取每个正类样本对应的K近邻样本，记为a_k,k＝1,2,...,K；

步骤S43、基于正类样本和负类样本的数量差值设定采样倍率N，从K近邻样本a_k中随机选取N个样本，记为b_n,n＝1,2,...,N，采用插值公式进行样本扩展，所述差值公式表达式为：

Z_n＝a_k+rand(0,1)*(b_n-a_k)k＝1,2,…,K

其中，Z_n为生成的新样本，rand(0,1)为0到l之间的一个随机数；b_n表示与正类样本a_k最邻近的第n个正类样本。

优选地，所述步骤S4还包括采用三倍标准差对样本数据中的异常值进行处理。

根据本发明的第二方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现任一项所述的方法。

根据本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现任一项所述的方法。

与现有技术相比，本发明具有以下优点：

1)本发明的方法基于五种机器模型进行训练学习选取最优的两个机器学习模型，在进行单特征AUC模型的特征筛选后，二次筛选得到最终预测模型，采用最优预测模型进行金融领域数据预测，预测的准确性更高；

2)本发明采用t-SNE降维可视化确保样本数据的可分性，提高了样本数据的有效性；采用SMOTE算法进行数据均衡化，有效克服了样本数据不平衡情况下，采用取样控制样本数量相同，导致主观性损失关键信息、信息利用不完全，使得ST公司的财务数据不客观的缺陷，提高了预测结果的准确性；

3)本发明采用单特征AUC模型对预设指标进行筛选，通过寻找具有强代表性的最优特征子集，保证了指标的简洁有效性，降低了特征冗余，减少了模型预测的计算量；

4)本发明将设计基于机器学习的金融领域数据预测方法应用到上市公司财务危机预测的场景中，结合上市公司发生财务危机的根本原因和科技创新型上市公司研发支出巨大以及研发创新成果转化率不确定性的行业特点，改进了原有的财务危机预警指标体系，结合运营能力、创新能力以及审计报告指标，提出的包含7个一级指标41个二级指标的财务危机预警指标体系，更适用于科创型上市公司；

5)本发明的样本数据采用的是A股市场和创业板市场中科技创新型上市公司作为模型研究的混合样本，扩充了样本数据的范围，具有特定代表性，提高了预测的准确性。

附图说明

图1为本发明的基于机器学习的金融领域数据预测方法的方法流程图；

图2为实施例的数据流图；

图3为实施例的技术方案结构示意图；

图4为特征选择的处理流程图；

图5为逻辑回归模型线性可分情况下的最大边缘超平面示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例1

如图1所示，本实施例给出了一种基于机器学习的金融领域数据预测方法，包括：

步骤S1、获取样本数据并进行数据预处理，具体为：

S11、样本数据空值处理、样本数据标准化处理；

S12、引入t-SNE降维算法对样本数据进行降维可视化，去除无效数据，包括：

2)将原始空间和嵌入空间的联合概率分布的KL散度作为损失函数，通过梯度下降算法最小化损失函数来评估嵌入效果的好坏；基于将降维可视化结果去除无效样本数据；

步骤S2、采用多种机器学习模型对预处理后的样本数据进行分类；采用分类评估指标以及拟合网格图对分类结果进行评估，从中选取两个表现最为出色的机器学习模型；所述分类评估指标包括准确率、精确率、召回率、F1得分以及AUC值；所述多种机器学习模型包括支持向量机SVM模型、逻辑回归模型、随机森林模型、XGBoot模型以及BP神经网络模型。

步骤S3、利用基于单特征AUC模型的特征工程筛选最优特征，并采用选出的机器学习模型进行训练，选取分类效果最佳的模型作为最终预测模型，具体为：

步骤S32、依据重要性排序结果，增量式逐个增加特征，基于每个特征组合的AUC值选取最优特征组合；

步骤S4、采用SMOTE算法进行数据均衡化处理，优化最终预测模型，具体为：

Z_n＝a_k+rand(0,1)*(b_n-a_k) k＝1,2,…,K

本发明电子设备包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的计算机程序指令或者从存储单元加载到随机访问存储器(RAM)中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可以存储设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

设备中的多个部件连接至I/O接口，包括：输入单元，例如键盘、鼠标等；输出单元，例如各种类型的显示器、扬声器等；存储单元，例如磁盘、光盘等；以及通信单元，例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元执行上文所描述的各个方法和处理，例如方法S1～S5。例如，在一些实施例中，方法S1～S5可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法S1～S5的一个或多个步骤。备选地，在其他实施例中，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法S1～S5。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

实施例2

科创型上市公司大多成立时间较短，前期投资较大，虽然可能背靠着强大的技术背景，但是其财务方面的危机发生的可能性较大。所以，对科技创新型公司进行财务危机的预警是十分重要的，这样可以很好地帮助利益相关人员对该上市公司股票价值进行一个更全面的计量，也可以帮助该公司的治理者，及时找出问题所在，进行相应地调整，减少未来危机发生的可能性。正应如此，针对科技创新型上市公司进行有效的财务危机预警是十分有必要的。

本实施例将发明的基于机器学习的金融领域数据预测方法应用到对科创型上市公司财务危机预测的场景中，如图2和图3所示。具体包括以下内容：

首先，在结合上市公司发生财务危机的根本原因和科技创新型上市公司研发支出巨大以及研发创新成果转化率不确定性高的行业特点，改进了原有的财务危机预警指标体系，提出了一套7个一级指标41个二级指标的财务危机预警指标体系，为后续模型研究提供指标体系支持。

下表1～7分别对应7个一级指标，依次为：盈利能力指标、偿债能力指标、发展能力指标、现金流分析情况指标、风险水平指标、审计意见指标以及创新能力指标。表中指标为对应的一级指标下的二级指标。

表1

表2

表3

表4

表5

指标名称	计算公式
		财务杠杆X<sub>32</sub>	息税前利润/(息税前利润-利息)
经营杠杆X<sub>33</sub>	息税前利润变动率/产销业务变动率
		综合杠杆X<sub>34</sub>	普通股每股利润变动率/销售量变动率

表6

指标名称	解释
		审计意见类型X<sub>35</sub>	无保留审计意见：0其他：1

表7

其次，为了保证本发明的有效性和实用性，在模型研究前后分别引入t-SNE降维可视化来保证样本数据的可分性、单特征AUC模型保证指标的简洁有效性。

再次，本实施例选择了A股市场和创业板市场中科技创新型上市公司作为模型研究的混合样本，其中有部分企业已经被判定在2020年出现了财务危机；选取了准确率、精确率、召回率、F1得分以及AUC这五个指标评估各个机器学习模型的分类效果。

在模型训练前，引入t-SNE降维算法将高维样本点映射到三维空间中，用三维图来展示样本数据的可分性；接着，通过比较各机器学习模型的五个分类效果评估指标和拟合网格图综合分析得出结论，选取两个在科技创新型上市公司财务预警方面表现较为出色机器学习方法。

接着，以这两个模型为基线，分别对其采用用单特征AUC模型进行特征筛选；将筛选出的最优特征带入筛选出的两个机器学习模型，经后续的优化提升选出分类效果最佳的模型作为最终预测模型。

最后，还引入了新样本企业，利用最终预测模型预测其未来财务危机发生情况。

接下来针对本实施例的各个部分进行详细介绍。

1、五种机器学习模型

1.1、基本分类算法(逻辑回归模型、支持向量机模型SVM)

A逻辑回归模型

逻辑回归是属于广义线性模型的一个分支，是普通线性回归模型的延伸。线性回归模型是在模型中有的变量之间存在线性关系的情况下，通过建立线性组合模型的方式来拟合变量间的关系。在普遍情况下，变量之间的关系可以使用下述表达式来展示：

g(x)＝g_α(x)＝α₀+α₁x₁+α₂x₂+…+α_ix_i (3-1)

其中，x_i表示第i个自变量，α_i(i＝0,1,2,…,i)为变量的参数估计值。

在使用线性回归模型来拟合变量间的关系的时候，通过需要变量符合三个条件假设，分别是同方差性假设、线性假设和正态性的假设。在实际问题解决的过程中往往事与愿违，这样的假设条件看似简单却常常无法满足。如果这种情况发生了，仍然执意使用线性回归的方式进行实证研究，在这种情况下模型的效果通常不会太好。例如，在估计的因变量是分类型变量的情况下，变量就不会再满足上述三个前提假设，这是因为在这种情况下需要被输出的结果的变量类型也是分类型变量。所以，线性回归模型在这种情况下就派不上什么用场了。为了应对这种尴尬的局面，逻辑回归模型应运而生，这种模型就完美地处理了这类问题的尴尬局面。逻辑回归模型的理论基础支撑也是线性回归。它通过将非线性的问题利用对数变换，进而将其简化转变为成线性问题。正因如此，线性回归中关于参数估计的相关理论在逻辑回归中也是也适用。

本发明所研究的科技创新型上市公司财务危机预警模型实际上就是对上市公司的财务状况进行一个二分类的分类评估，判断其是否出现了财务危机。正因如此，逻辑回归适用于本发明的分类场景。

与普通线性回归相应的，逻辑回归模型也是有前提假设的：1)逻辑回归模型要求样本数据要来自随机样本，具有随机性，变量间不可以存在多重共线性的情况；

2)逻辑回归模型要求模型的输出变量必须是二分类变量；3)逻辑回归模型要求变量间要寻在线性函数关系。

逻辑回归中的各变量关系可以用下列数学公式表示：

其中，p_i＝p(y_i＝1|x_1i,x_2i,…,x_ki)，p_i表示自变量的值为x_1i,x_2i,…,x_ki的事件发生的概率；b₀为截距，b_k为自变量系数。

将上述公式(3-2)进行简单的化简变换之后，可以得到：

由式(3-4)可以发现，逻辑回归模型表示的是关于z的递增函数，对p取极限可以得到：

根据(3-5)和(3-6)的极限计算结果及相对应的函数性质可知，逻辑回归模型的结果变量取值区间为(0,1)。

因此，逻辑回归模型中的参数求解问题，可以等价为求解极大似然估计函数最优解的问题。其本文研究中的具体意义体现在，在使用逻辑回归模型对上市公司财务状况进行分类评价时，对于财务状况越良好的公司，模型中p值越接近于0，在这种情况下公司陷入财务危机的概况非常低；相反，对于财务状况越糟糕的公司，模型中的p值越接近于1，当这种情况发生这说明这家公司可能已经出现了财务危机。

B支持向量机模型SVM

支持向量机SVM是一种二分类模型，核心思想是通过找到的一个最优超平面将样本分为两类。

通常在线性可分的情况下，可以找到很多超平面将训练集中的两类样本完全分离，但是最大超平面是支持向量机模型方法中最想找到的超平面，它能使两类样本中离该平面最近的点之间的距离最大。如果面对的是样本数据是非线性可分的情况，则需要引入核函数。核函数可以把低维样本数据通过映射反应到一个更高维的空间中，随后可以在这个更高维的空间中找到最优超平面，进而把样本划分为不同类别。以往的关于数据方面的思路都是把复杂化为简单，把高维数据化为低维数据。非线性支持向量机的提出者则从另一个角度即将低维数据投射高维空间中去，能更好地去区分不同类别的样本。

下面针对超平面以及最大边缘超平面的概念，帮助理解支持向量机模型的基本原理。超平面值得是在几何体中它是一维比其环境空间小的子空间；在二维平面中超平面是直线；在三维空间中，超平面是一个平面。依次推广，可以得知在一个n维空间中，假定n个线性可分的训练样本：(x₁,y₁),(x₂,y₂),…,(x_n,y_n)，则超平面可以用方程表示如下：

a₁x₁+a₂x₂+…+a_nx_n＝0 (3-7)

其中，x_i∈R^d，y_i∈{-1,1}，(x₁,y₁),(x₂,y₂),…,(x_n,y_n),i＝1,2,3,…,n。假设当x_i属于正类时，y_i的取值为1，相反，当x_i属于负类，y_i取值为-1，存在某个超平面，设其为w^Tx+b＝0，使两类样本被正确分开。

如果训练集样本能被某个超平面正确划分出不同的类别，并且此时该超平面两侧的点距离超平面最远，则该超平面就是需要寻找的最大边缘超平面，同时它也被称作做最优超平面。

如图5所示，可以观察到平面上有两种不同类型的样本，而这两种不同的样本分别用矩形和圆形来代表。根据之前的定义可知，在平面中，超平面是一条直线，a表示的是最大边缘超平面，它是分离两种不同类型样本的最佳直线。观察图4可以发现，a周围有一些距a较近的样本点，过这些点作平行于a的直线，即图中所展示的a₁和a₂。通常把这两线之间的距离称作为分类间隔。在这里分类间隔表示的是大样本池中两种不同类型的样本到最大边缘超平面的距离之和。若用||w||表示向量x的模，经过计算之后可以得到最大分类间隔为2/||w||。图4中显示为黑色三角形与黑色圆圈的样本点被称为支持向量，它们代表的是到最大边缘超平面距离最近的两类样本点。

1.2、集成分类算法

集成学习算法的主要运算原理如下：1)以事先确定的规则将多个分类器生成出来；2)再利用事先确定好的组合规则把在第一步生成的分类器进行合理科学的组合，通过这种方法得到比一个分类器泛化效果更出色的元分类器；3)通过综合分析判断生成最终的输出结果。

通过这种算法可以进一步提高单一分类器的算法性能，可以大幅度改善其弊端。一般情况下，集成学习中所得到的也是“弱学习器”，但是优点在于可以再产生多种“弱学习器”，多种“弱学习器”集成便可以得到“强学习器”，这个新生成的学习器具有优化的泛化性能和提高的精度。。

目前，最为成熟和发展最壮大的是Bagging、Boosting、Stacking三种算法。Bagging算法减小了方差，并且可以同时生成多种单一独立的学习器，而Boosting算法中的学习器，前后生成有关联，后一个的产生需要借鉴前一个的结果。Stacking思想是集成学习中的更加泛化的结果，上一阶段形成的模型需要多种基本学习器的学习和拟合结果，才能作为下一阶段的原始数据。第二阶段测算后得出的结果，才是最终的结果。这种模型的优点在于，上一阶段的测算结果可以作为下一阶段的原始输入特征。

A随机森林算法理论

随机森林算法是集成学习方法中较为熟悉的一种算法，随机森林算法在基于Bagging算法，但是又融合了决策树算法。随机森林算法用Bagging算法建立原始学习器作为决策树的基本组成，并且决策树的每一次分裂过程都随机选取原始学习器的特征，这样的优势在于可以大幅提高产生的学习器的种类，并且这种方法产生的原始学习器相互之间没有关联，完全独立，即使引入新的原始学习器样本，对已存在的样本没有影响和扰动。这样可以保证随机森林中的样本的最终票数的绝对公平性，也就是说哪一类票数越多，就可以判别为哪一类。如果涉及到的是回归问题，那么只要计算随机森林模型中所有决策树的预测值的平均值，就能够推算出结果。

除此以外，随机森林测算法也很大程度上应用在特征重要性评估。特征的重要性在随机森林中的得票数越多，说明其贡献越多，对该种特征在森林中的各类树取平均，再判别各类特征的贡献的平均值，即可以比较得出各类特征的重要性差异。

B、XGBoost算法理论

XGBoost算法也又被叫做极端梯度提升算法，该算法以GBDT和Boosting思想为基础。不同点在于，XGBoost算法的目标函数是二次泰勒展开损失函数，而GBDT的算法只是一阶导数，因此XGBoost算法可以使得函数最小化，从而大幅提高整个模型的泛化能力。另外GBDT算法中还融合了近似分割点算法，这一算法的引入也使得模型的运算效率大幅度提高。综上，XGBoost算法高效、准确、泛化能力高，使得其在各类领域中应用前景广阔。

从本质上来说，XGBoost算法是Boosting算法的一种展开模式。它的原理与Boosting算法原理基本一致，用到的模型都是CART回归树模型。因此要弄懂XGBoost算法的原理，其关键在于理解CART回归数模型的原理。回归树模型的基本原理也是数形成的算法，与决策树模型有十分类似。回归树模型中的树形成的叶节点作为连续变量，而决策树模型中树形成的叶节点作为分类变量。CART回归树模型的建立主要分为三步，特征的选择，数模型的形成以及数模型的剪枝。步骤是输入变量X条件，最终得出随机变量Y的条件概率分布。其假设条件是树模型在输入特征X的基础上不断分裂。例如，对基于第j个特征值分裂的树结点，用此节点的左子树表示特征值小于s的样本，右子树表示特征值大于s的样本，于是有：

R₁(j,s)＝{x|x^(j)≤s}andR₂(j,s)＝{x|x^(j)＞s} (3-8)

这是一种基于特征维度划分样本空间的模型构建方法，是一种NP(Non-Deterministic Polynomial，缩写为NP)难问题。其典型的目标函数为：

因此，如果想要得到最佳的切分特征j以及最佳的切分点s，就要求解以下的目标函数：

所有的特征爬过所有的切分点，即可建立一种回归树模型。

XGBoost算法的思想就是源源不断的生成回归树，每一棵树的产生都是通过不断的分裂而存在的。每一棵树生成后，对其残差进行拟合。生成K棵树后。如果要预测某一个样本分数，那么只需要知道该样本在每一棵树上的叶子节点上的分数，就可以进行精确预测。

首先，XGBoost模型的表达式如下：

其中，F＝{f(x)＝ω_q(x)}(q:R^m→T,ω∈R^T)，这里ω_q(x)为叶子节点q的分数，f_k(x_i)为其中一颗回归树，也是第K个基决策树。

XGBoost目标函数(损失函数)定义为：

如(3-12)有两项，经验风险损失函数对模型拟合的准确率的影响较大，具体表现是该数值越小，模型拟合的程度越好。结构风险损失函数可以用来体现模型的复杂度。此项数据越大，模型的性能越好。因此在拟合过程中经验风险损失函数和结构风险损失函数两项数值的取数，对于选用模型的精确度和复杂度起到决定性作用。于是，需要平衡式子(3-12)的两项使模型的表现更优，同时避免过拟合问题的发生。

因此，第t次迭代的目标函数为：

下一步就是寻找使目标函数最小化、残差的拟合误差最小的f_t。XGBoost的思想便是通过在f_t＝0处的泰勒二阶展开式来近似目标函数。因此目标函数近似为：

一阶导数、二阶导数分别用g_i、h_i忽表示：

在优化目标函数时，前t-1棵树的预测分数与y的残差已经确定，可以简化目标函数为：

正则化项包含叶子结点的个数T和叶子节点的分数ω，二者的系数γ和λ分别对T和ω过大加以控制，从而达到避免过拟合的目的。在XGBoost算法中，正则化项定义如下：

在简化的目标函数(3-14)中，将所有样本的损失函数值进行累加。同时，每个样本都可以对应到叶子结点，即每个叶子结点都对应有样本，所以重组所有同一个叶子结点的样本：

最终目标函数(3-19)式改写成为一个关于ω的一元二次函数，那么此时可以有多种方式求解，例如根据顶点公式即可求解最优的国和对应的最优的目标函数值。定义

和

其中I_j＝{i|q(x_i)＝j}表示样本中被分配到第j个叶子节点的样本标签的集合。因此，最优的ω和目标函数最优值分别为：

接下来描述在XGBoost模型的训练过程中，每棵树是如何分裂的。定义第t棵树在切分点a处的特征A_i的信息增益指数为Gain(D,A_i＝a)，其具体表达式：

上式(3-21)式是由新分裂的左右叶上的分数、分裂前叶子结点上的分数和正则化项系数四项构成。于是，其分裂原则为一个节点分裂以后产生的目标函数的增益大于正则化项γ，才允许分裂。相比较CART回归树来说，增添了控制模型复杂度的参数γ和λ，依据各个特征Gain值排序，便可得到最优的特征及最优的切分点。

1.3、BP神经网络基本概述

BP神经网络算法的基本原理也是算法模型中的基本运算规则，这种算法的输入量和输出量之间没有直接的映射关系，当给定输入值和输出值后，得到的结果与预期的结果接近。基于此种算法，BP神经网络模型以梯度下降算法为理论基础，实现多层前馈网络，保证确定输入值和输出值之后，得到的结果与预期的结果的误差最小化。

BP神经元简介：

神经元表示的是第j个基本BP神经单元，也称为节点。其中，x₁,x₂,…,x_n分别代表第1，2，…,i，…,n个神经元的输入；w_j1,w_j2,…,w_jt,…,w_jn则分别表示第j个神经元与神经元1，2，…,i，…,n的连接强度，也就是我们通常所说的权值；b_j表示阈值；传递函数表示为f(·)；第j个神经元的输出表示为y_j。第j个神经元的净输入值S_j表示为：

其中，X＝[x₁,x₂,…,x_i,x_n]^T，W_j＝[w_j1,w_j2,…,w_jt,w_jn]。若视x₀＝1，w_j0＝b_j，则X＝[x₀,x₁,x₂,…,x_i,w_n]^T，W_j＝[w_j0,w_j1,w_j2,…,w_jt,w_jn]。

于是，净输入值S_j简化为：

S_j通过传递函数f(·)后得到输出y_j：

上式成立的条件是，传递函数必须是有界函数，并且是有界的单调上升的函数，借以保证神经元传递的信号无限增加，进而保证最大值的存在。

BP神经网络模型理论：

BP神经网络算法包括数据流的正向传播和误差信号的反向传播。数据流传播过程中上一个节点的状态对下一个节点产生影响，传播途径是输入-隐含-输出。数据输出后经过一系列算法程序即可得到输出结果，假设运算得出结果与预期结果有差别，就重新执行另外一个流程，两种流程是彼此交叉的，可以利用梯度搜索技术进行搜索，寻找误差最小的一组流程，达到运算目的。但是BP神经网络在进行运算时是随机确定初始量的，并且以这一随机确定值为基础进行训练，然后进行优化，因此随机量的获取对最终的算法结果会产生影响。

假设BP神经网络的网络结构输入层、隐含层、输出层分别有n、q、m个节点，相邻两层之间的权值包括输入层与隐含层、隐含层与输出层分别为v_ik、w_jk。f₁(·)、f₂(·)分别表示隐含层、输出层对应的传递函数。我们可以让求和项包含阈值，则将隐含层节点的输出结果如下所示：

输出层节点的输出结果如下所示：

至此，就将BP神经网络的n维空间向量近似地映射到了m维空间向量上。

1)误差函数的定义：一般用x₁,x₂,…,x_p来表示p个学习样本，那么第p个样本直接对应的输出结果为

那么，用

表示期望输出，定义第p个样本的误差屏E_p：

则p个样本的全局误差为：

2)输出层的权值变化

通过BP算法调整w_jk，使全局误差E变小，用η表示学习率，则有：

误差信号可以定义为：

此式的第一项、第二项可以分别化为：

由(3-31)、(3-32)可以将(3-30)化为：

由链式定理可得：

综合上述描述，可以得到调整输出层的全部神经元的权值公式如下所示：

3)隐含层权值的变化

由所述的输出层的权值变化相关情况，同样也可以得到隐含层中的神经元的权值调整公式，其公式如下所示：

2、t-SNE数据降维可视化算法

本发明所做的上市公司财务危机预警，实则是对样本公司的未来财务状况进行一个二分类过程。未了保证二分类的结果有效，且二分类过程是有实际意义的，在进行二分类前需要保证样本公司数据是点点分明，不是严重混杂的。对于严重混杂的数据是没有什么进行二分类的意义的。

实际应用中，往往面对的是高维数据，一个样本的特征是由多个方面的指标数据来呈现的。在对高维数据进行分类时，需要对样本数据的可分性进行评估。这里的可分性指的是同类样本之间的间隔大小，以及不同类样本之间的间隔差异。

可以通过引入t-SNE降维算法，将多维的样本数据投影到2维、3维的空间里，便于对样本进行一个很好的观察分析。可以通过观察样本点在低维空间里的可分性，来衡量评估其在原始的高维空间的可分性。如果降维后的样本在低维空间是可分的，则原数据就是具有可分性的。但是如果在低维空间样本不可分，原因可能不止一个，可能是原高维样本就是不可分的，也可能是如高维度样本不可以映射到低维空间等其他原因。但是，无论如何样本在低维空间可分是保证样本在高维空间可分的充分条件，所以我们如果可以保证，样本数据在低维空间可分，那么其在高维空间就一定具有可分性。

数据降维算法有很多种，最常见的是PCA算法。这种方法是以样本数据协方差矩阵为基础的，这种方法更多地是依靠数据的差异性。所以对于样本数据的相似性以及样本数据的局部分布，类似PCA的线性降维算法是无能为力的。在这种情况下，本研究引入t-SNE这种非线性降维算法，来对样本进行一个降维可视化分析。

t-SNE降维算法实质上是在传统的SNE算法的基础上进行了优化改进的。接下来本节对这两个算法原理进行一个简单的阐述。通过对比，阐明本研究引入t-SNE对样本企业进行降维可视化展示的意义。

A、SNE降维算法原理：

SNE降维算法的核心思想原理是，把高维样本在空间里数据点，以相似的距离映射到低维空间中。我们通常将SNE算法这种距离关系转换方式，称作以条件概率来展示点的相似性。

假设，在高维空间里有x_i和x_j两个点，p_j|i表示中心为x_i时，x_j是其临近点的概率。在x_j越靠近x_i的时候，p_j|i的值越大，反之，概率越小。p_j|i采用高斯分布，公式如下：

对于中心点不同的x_i，其对应的高斯分布的方差σ也不同，因此对于每个点需要分别进行单独计算分析。

同样来说，对于高维空间点x_i和x_j而言，映射到低维空间所对应的点分别为y_i和y_j，其概率分布函数q_j|i具体如下：

通常，在实际应用中为了简化计算，假设所有点的σ均是

在实际应用过程中，为了使高维样本映射到低维空间后保持分布不变。通俗来说就是降维后的样本点远近与降维前保持一致。因此为了保持完后点的分布相同，我们利用KL距离作为衡量方法。

这就将问题转化成了使得代价函数C最小。可以利用梯度下降算法来解决这个问题。此时的梯度函数如下：

但是SNE降维算法也有一定的不足，KL距离具有不对称的性质。其最终可能导致在高维距离较近的样本点在低维时尽可能的会聚在一起。并且可能会考虑不到分类间隔这个问题。反应到降维图中就是得到的图片可能会拥挤，不利于判断样本的可分性。

B、t-SNE降维算法原理:

t-SNE降维算法是在SNE的理论基础上将其进一步的做了改进。t-SNE降维算法使用的是简化后的梯度公式。除此以外，在低维空间中使用了t分布去取代了高斯分布。

在SNE降维算法中的条件分布是不对称的。如高维空间中p_i|j和p_j|i是不相等的。这与实际情景不相符。因为对于两个样本点而言，无论作为中心点的是哪一点，它出现在另一点附近的概率是一样的。因此使用了一个联合概率分布使得这两个值相等，即p_ij＝p_ji。则在高维空间和低维空间中，改进后的概率分布分别如下所示。

为了改进高维空间中异常值对样本点的影响，一般将高维空间中的联合分布如下定义：

改进后的KL距离组成的损失函数为：

改进后的梯度为：

显而易见，在t-NSE降维方法中，梯度公式得到了简化。

关于t-NSE降维算法中的第二个改进为，在低维空间中，利用t分布替代高斯分布。这种改进有利于减少同类样本之间的距离，扩大异类样本间的距离。最终让做出来的图可视化效果更佳，便于对比。

此时低维空间分布函数为：

此时的梯度函数为：

综上所述，在实施例采用t-NSE算法，在对样本数据进行分类预测前事先确定样本企业的可分性。通过t-NSE进行对样本数据的降维可视化，将样本点投射到三维空间里，以直观的方式展现所选取的样本点分布情况。

5、单特征AUC模型

在一个分类预测模型系统中，对分类预测结果产生深远影响的有三大因素，一是模型的选择，二是可用的数据，三是特征。

在数据挖掘中，特征对分类模型的作用和影响是毋庸置疑的，能够直接影响分类预测的结果，所以在此之前准备好的特征越好，则最后得出的分类预测结果会越好，因为从某个方面说优质的特征往往是精确的描述了数据的固有结构。在数据挖掘中的大多数模型，都可以通过优质的特征进行很好效果的学习，即便这些被选取的模型可能不是最优的模型，而且对于初学者可以不用费力的去寻找最优的模型参数。

特征在数据挖掘中有着重要的作用以及意义，由此，特征工程从某种意义上来说就是根据提供的已经整理好的原始数据集，通过一种或者多种数据处理方法将其转化为特征，所谓的特征也就是能够反映具体对象的数据集，它与属性不同的是特征是对问题的解决和分析具有很好地指导作用的属性，它是独立、可测量、包含信息量大和有差别性的属性，选取特征是模式识别中最关键的步骤，特征工程的作用是降低数据集的维度，进而降低算法的训练和学习的复杂度，提高运算速度。

在特征工程中，特征选择是其重要组成之一，特征选择对于数据集处理来说是为了寻找最优特征子集，最优特征子集表示的是一组具有强代表性的特征组合的集合。在使用数据时，一般来说现实世界中的数据复杂冗余、包含大量潜在未挖掘的信息，特征选择可以高效率的抽取特征，特征选择一般选择的是既要类别相关性强又要类间相关性低的特征子集，可以通过特征选择很好地剔除不相关、冗余的特征，以此来达到减少数据集维度的效果，可以在提高模型分析学习效率的基础上提高模型的精确度。

特征选择的一般过程如下图4所示，包括以下步骤：

1)用选定搜索策略得到初步特征子集，其搜索策略有启发式以及随机搜索；

2)通过选取的评价函数评估第一步中产生的特征子集，从而确定特征子集中每个特征的相对优劣；

3)设定特征选择算法停止的条件；

4)验证特征子集的有效性。

根据上述对特征工程以及其子问题特征筛选的介绍，不难发现，特征工程中的子问题特征筛选是非常适合应用于财务危机预警研究的指标筛选的，因为各个财务指标虽然表达的含义各不相同，但是其内在计算逻辑有时会有重合，所以有时会导致指标过分冗余的现象存在。特别是对于那些对公司财务报表了解不够深入，对各个财务指标理解不够细化的非财务出身的模型使用者，在财务危机预警研究的评价指标选取方面常常会出现冗余而无意义的指标被选入，这样只会增加算法运行的计算量，预测精度没有提升。所以在最初的模型建立后，引入特征工程算法，在保证预测精度不下降的情况下，对之前所选取的运用于科技创新型上市公司财务危机预警的财务指标进行适当的筛选，保证所建立的算法模型在精度最优的前提下尽量简洁，减少不必要的指标和运算工作量。

本发明采用单特征AUC模型对所选取的41个二级指标进行筛选，具体为：1)将各个特征输入至机器学习模型，输出每个特征预测得到的AUC，得到每个特征的重要性；2)根据AUC结果进行重要性排序，增量式逐个增加特征，此过程也会输出每个组合的AUC，根据不停地尝试最终得到一个得到最优特征组合，这样可以在保证分类效果的前提下，得到一个最为简洁的指标体系，以便适当减少计算量。

6、数据均衡化-SMOTE算法

国内的上市公司中，企业处于非健康状态的数量相比较而言较少，这也使得不同健康状态的企业的总体样本数目存在较大的差异。这种差异较大的样本体被称为非平衡数据集。

如果使用非平衡数据加以运算，会使得样本数目较多的数据集在运算过程中占据较大优势，使得算法的准确率存在偏差。为了避免上述情况的发生，在传统的财务预警研究中，通常取用的两类样本的数目保持一致，这样可以有效避免出现结果偏向于数目多的一类样本的情况的发生，但在样本的选择上面不够客观，所以采样方法也在很大程度上决定了数据结果的准确性。

本发明采用的SMOTE法是通过人工合成数据来解决采样方法。

由于本发明的研究对象是科技创新型企业上市公司中的财务健康的公司和财务不健康的公司，两者数量相差特别大，如果要控制两种的样本数量相同，在取样过程中可能存在主观性而损失关键信息，导致信息利用不完全，使得ST公司的财务数据不客观。本文对经过特征优化后的模型进行，基于SMOTE算法的数据均衡化，这样能够更有效的利用所有的数据，使模型的更加的完善。在传统的采用方法中，过度采样完全是对样本的机械性的复制，这种采样方法会使得模型出现过度拟合，而SMOTE算法可以有效避免传统采样方法产生的弊端。

SMOTE算法侧重点在于增加正类样本，以此来保证数据集的平衡。假设在非平衡的数据集中，正类样本集中有M个样本a_m(i＝1,2,3,…,M)，然后选择与其最邻近的正类样本K个，根据正负类样本数量的差距，选择采样倍率，假设为N，则从邻近的K个正类样本中选取N个样本b_n(n＝1,2,3,…,N)，然后使用如下插值公式进行样本扩展：

Z_n＝a_m+rand(0,1)*(b_n-a_m)m＝1,2,3,…,M (3-48)

其中rand(0,1)，表示0到l之间的一个随机数，b_n表示与a_m最邻近的第n个正类样本。

通过SMOTE算法来解决样本数据不平衡的问题，进而优化财务预警的模型算法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于机器学习的金融领域数据预测方法，其特征在于，包括：

步骤S1、获取样本数据并进行数据预处理；

2.根据权利要求1所述的一种基于机器学习的金融领域数据预测方法，其特征在于，所述步骤S1中数据预处理具体为：

S11、样本数据空值处理、样本数据标准化处理；

3.根据权利要求2所述的一种基于机器学习的金融领域数据预测方法，其特征在于，所述引入t-SNE降维算法对样本数据进行降维可视化具体为：

4.根据权利要求1所述的一种基于机器学习的金融领域数据预测方法，其特征在于，所述步骤S2中的分类评估指标包括准确率、精确率、召回率、F1得分以及AUC值。

5.根据权利要求1所述的一种基于机器学习的金融领域数据预测方法，其特征在于，所述步骤S2中多种机器学习模型包括支持向量机SVM模型、逻辑回归模型、随机森林模型、XGBoot模型以及BP神经网络模型。

6.根据权利要求5所述的一种基于机器学习的金融领域数据预测方法，其特征在于，所述步骤S3中利用基于单特征AUC模型的特征工程筛选最优特征，具体包括以下子步骤：

7.根据权利要求1所述的一种基于机器学习的金融领域数据预测方法，其特征在于，所述步骤S4包括以下子步骤：

Z_n＝a_k+rand(0,1)*(b_n-a_k)k＝1,2,…,K

8.根据权利要求7所述的一种基于机器学习的金融领域数据预测方法，其特征在于，所述步骤S4还包括采用三倍标准差对样本数据中的异常值进行处理。

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～8任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～8中任一项所述的方法。