CN111612628A

CN111612628A - 一种非平衡数据集的分类方法及系统

Info

Publication number: CN111612628A
Application number: CN202010464999.0A
Authority: CN
Inventors: 袁豪
Original assignee: Shenzhen Bopu Technology Co ltd
Current assignee: Shenzhen Bopu Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-01

Abstract

本发明实施例提供了一种非平衡数据集的分类方法及系统，其中一种非平衡数据集的分类方法包括：获取债券数据样本；对所述债券数据样本进行预处理，得到第一数据样本；采用随机森林算法对所述第一数据样本进行数据特征评估，得到数据特征重要值排序表；根据所述数据特征重要值排序表得到债券风险评估结果；利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。通过采用SMOTE算法均衡扩充少类样本的SVM分类器作为预测模型，其效果好，且样本数据均衡，具有较高的可信度。

Description

一种非平衡数据集的分类方法及系统

技术领域

本发明涉及信息技术领域，特别是涉及一种非平衡数据集的分类方法和一种非平衡数据集的分类系统。

背景技术

近些年来，随着政策的变更债券违约将会成为常见的风险事件。债券违约事件的频繁发生，使得债券投资者所承担的风险剧增，如何对债券进行风险管理成为了一个亟待解决的问题。

现有债券评估的方式较为传统，采用人工对评估对象的经营状况、财务状况以及所属行业行情做出定性的分析，这种方法结合了评估人的经验，是具有一定可信度的。

但传统的定性评估方式缺乏数据支持的问题，其评估不够严谨，评估精确性不高，仍然具有一定的风险。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种非平衡数据集的分类方法和一种非平衡数据集的分类系统。

为了解决上述问题，本发明实施例公开了一种非平衡数据集的分类方法，包括：

获取债券数据样本；

对所述债券数据样本进行预处理，得到第一数据样本；

采用随机森林算法对所述第一数据样本进行数据特征评估，得到数据特征重要值排序表；

根据所述数据特征重要值排序表得到债券风险评估结果；

利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。

进一步地，所述对所述债券数据样本进行预处理，得到第一数据样本的步骤包括：

采用欠采样方法对所述债券数据样本进行多类处理，得到第一预数据；

采用SMOTE算法对所述第一预数据进行少类处理，得到所述第一数据样本。

进一步地，所述采用随机森林算法对所述第一数据样本进行数据特征评估，得到数据特征重要值排序表的步骤，包括：

对于随机森林中的每一棵决策树，使用相应的袋外数据(OOB)据来计算袋外数据的预测误差，记为errOOB1；

随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰，再次计算其袋外数据误差，记为errOOB2；

设随机森林中有N棵树，数据特征X重要值＝∑(eerOOB2-eerOOB1)/N；

对所述数据特征X重要值进行排序，得到数据特征重要值排序表。

本发明实施例公开了一种非平衡数据集的分类系统，包括：

数据获取模块，用于获取债券数据样本；

预处理模块，用于对所述债券数据样本进行预处理，得到第一数据样本；

特征评估模块，用于采用随机森林算法对所述第一数据样本进行数据特征评估，得到数据特征重要值排序表；

风险评估模块，用于根据所述数据特征重要值排序表得到债券风险评估结果；

模型建立模块，用于利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。

进一步地，所述预处理模块包括：

第一预处理单元，用于采用欠采样方法对所述债券数据样本进行多类处理，得到第一预数据；

第二预处理单元，用于采用SMOTE算法对所述第一预数据进行少类处理，得到所述第一数据样本。

进一步地，所述特征评估模块包括：

第一误差计算单元，用于对于随机森林中的每一棵决策树，使用相应的袋外数据(OOB)据来计算袋外数据的预测误差，记为errOOB1；

第二误差计算单元，用于随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰，再次计算其袋外数据误差，记为errOOB2；

重要值计算单元，用于设随机森林中有N棵树，数据特征X重要值＝∑(eerOOB2-eerOOB1)/N；

重要值排序单元，用于对所述数据特征X重要值进行排序，得到数据特征重要值排序表。

本发明实施例公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的非平衡数据集的分类方法的步骤。

本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的非平衡数据集的分类方法的步骤。

本发明实施例包括以下优点：通过采用SMOTE算法均衡扩充少类样本的SVM分类器作为预测模型，其分类效果较好，且样本数据均衡，具有较高的可信度。

附图说明

图1是本发明的一种非平衡数据集的分类方法一实施例的步骤流程图；

图2是本发明的一种非平衡数据集的分类方法另一实施例的步骤流程图；

图3是本发明的一种非平衡数据集的分类方法另一实施例的步骤流程图；

图4是本发明的一种非平衡数据集的分类系统一实施例的结构框图；

图5是本发明的一种非平衡数据集的分类系统另一实施例的结构框图；

图6是本发明的一种非平衡数据集的分类系统另一实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，提供了一种非平衡数据集的分类方法及系统，其中一种非平衡数据集的分类方法包括：获取债券数据样本；对债券数据样本进行预处理，得到第一数据样本；采用随机森林算法对第一数据样本进行数据特征评估，得到数据特征重要值排序表；根据数据特征重要值排序表得到债券风险评估结果；利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型。通过采用SMOTE算法均衡扩充少类样本的SVM分类器作为预测模型，其效果较好，且样本数据均衡，具有较高的可信度。

参照图1，示出了本发明的一种非平衡数据集的分类方法实施例的步骤流程图，具体可以包括如下步骤：

S100获取债券数据样本；

S200对债券数据样本进行预处理，得到第一数据样本；

S300采用随机森林算法对第一数据样本进行数据特征评估，得到数据特征重要值排序表；

S400根据数据特征重要值排序表得到债券风险评估结果；

S500利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型。

参照上述步骤S100获取债券数据样本所述，采集不同类型的债券样本，之后对债券数据样本进行债券样本标记，确定债券样本点的时间粒度，在一具体实施例中，以季度为时间粒度，以一只债券发行期间的一个“有财报季度”所谓一个样本点，若一只债券在全年都处于发行期间，且其债务主体发布了三个季度的财报，则构成三个样本点，其次采用两个不用的标准来标记出正负样本，得到不平衡的债券数据样本。

参照上述步骤S200对债券数据样本进行预处理，得到第一数据样本所述，由于债券违约信息数量太少，导致该类样本(负样本)数目太少，再加上许多违约债券的发行主体是非上市公司，难以获取其详细的财务信息，使得初始正负样本比达到37:227，数据集存在不均衡性，这样的数据集无法训练出有效的模型，因此需要对数据集进行预处理。主要采用欠采样(under-sampling)和过采样(over-sampling)两种方法对所述不平衡的债券数据样本进行预处理，其中欠采样的基本思想是删除部分多数类样本，过采样则是通过增加少类样本的数量来达到均衡样本的目的。欠采样方面，采用欠样的方式删除多类数据样本中的一部分并不会导致分类信息的丢失。过采样方面，采用SMOTE算法，SMOTE算法是通过在一些位置相近的少数类样本中插入行的少数类样本来达到平衡样本的目的。其主要思想为：假设有少数类样本，每一个样本x搜索其k个最邻近少数类样本，若向上采样的倍率取N，则在其k个最邻近样本中随机选择N个样本，记为xi，在少数类样本x与(j＝1，2，...N)进行随机线性插值，构造新的少数类样本。该算法在大数据集上的实验结果优于随机复制的方法。

参照上述步骤S300采用随机森林算法对第一数据样本进行数据特征评估，得到数据特征重要值排序表所述，随机森林算法利用bootstrap重抽样方法从原始训练样本集N中有放回地重复随机抽取K个样本生成新的训练样本合集，然后根据自助样本集生成T个分类树组成随机森林，然后对每个bootstrap样本进行决策树建模，然后组成多棵决策树进行预测，并通过投票得出最终预测结果。采用随机森林算法对第一数据样本进行数据特征评估，得到数据特征重要值排序表。

参照上述步骤S400根据数据特征重要值排序表得到债券风险评估结果所述利用随机森林算法计算出各个数据特征的重要值，并对其重要值进行排序，将随机森林算法应用到特征分析中，每个数据特征一次被随机数替换，模型效果下降程度越明显，特征越重要。计算出每一个选取的特征重要性，并对特征依照重要性排序，从而发现重点需要关注的特征及相关类似信息。

参照上述步骤S500利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型所述，将SMOTE算法与SVM算法结合使用，则可以避免分类超平面偏移的情况，使SVM发挥较好的分类预测效果。且样本数据均衡，具有较高的可信度。

参照图2，在本实施例中，S200对债券数据样本进行预处理，得到第一数据样本的步骤包括：

S210采用欠采样方法对债券数据样本进行多数类处理，得到第一预数据；

S220采用SMOTE算法对第一预数据进行少类处理，得到第一数据样本。

参照图3，在本实施例中，S300采用随机森林算法对第一数据样本进行数据特征评估，得到数据特征重要值排序表的步骤，包括：

S310对于随机森林中的每一棵决策树，使用相应的袋外数据(OOB)据来计算袋外数据的预测误差，记为errOOB1；

S320随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰，再次计算其袋外数据误差，记为errOOB2；

S330设随机森林中有N棵树，数据特征X重要值＝∑(eerOOB2-eerOOB1)/N；

S340对数据特征重要值进行排序，得到数据特征重要值排序表。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种非平衡数据集的分类系统实施例的结构框图，具体可以包括如下模块：

数据获取模块100，用于获取债券数据样本；

预处理模块200，用于对债券数据样本进行预处理，得到第一数据样本；

特征评估模块300，用于采用随机森林算法对第一数据样本进行数据特征评估，得到数据特征重要值排序表；

风险评估模块400，用于根据数据特征重要值排序表得到债券风险评估结果；

模型建立模块500，用于利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型。

参照图5，在本实施例中，预处理模块200包括：

第一预处理单元210，用于采用欠采样方法对债券数据样本进行多数类处理，得到第一预数据；

第二预处理单元220，用于采用SMOTE算法对第一预数据进行少类处理，得到第一数据样本。

参照图6，在本实施例中，特征评估模块300包括：

第一误差计算单元310，用于对于随机森林中的每一棵决策树，使用相应的袋外数据(OOB)据来计算袋外数据的预测误差，记为errOOB1；

第二误差计算单元320，用于随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰，再次计算其袋外数据误差，记为errOOB2；

重要值计算单元330，用于设随机森林中有N棵树，数据特征X重要值＝∑(eerOOB2-eerOOB1)/N；

重要值排序单元340，用于对数据特征重要值进行排序，得到数据特征重要值排序表。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种非平衡数据集的分类方法和一种非平衡数据集的分类系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种非平衡数据集的分类方法，其特征在于，包括：

获取债券数据样本；

对所述债券数据样本进行预处理，得到第一数据样本；

根据所述数据特征重要值排序表得到债券风险评估结果；

2.根据权利要求1所述的方法，其特征在于，所述对所述债券数据样本进行预处理，得到第一数据样本的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述采用随机森林算法对所述第一数据样本进行数据特征评估，得到数据特征重要值排序表的步骤，包括：

4.一种非平衡数据集的分类系统，其特征在于，包括：

数据获取模块，用于获取债券数据样本；

5.根据权利要求1所述的系统，其特征在于，所述预处理模块包括：

6.根据权利要求1所述的系统，其特征在于，所述特征评估模块包括：

7.电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的非平衡数据集的分类方法的步骤。

8.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的非平衡数据集的分类方法的步骤。