CN111612628A - 一种非平衡数据集的分类方法及系统 - Google Patents
一种非平衡数据集的分类方法及系统 Download PDFInfo
- Publication number
- CN111612628A CN111612628A CN202010464999.0A CN202010464999A CN111612628A CN 111612628 A CN111612628 A CN 111612628A CN 202010464999 A CN202010464999 A CN 202010464999A CN 111612628 A CN111612628 A CN 111612628A
- Authority
- CN
- China
- Prior art keywords
- data
- bond
- sample
- data sample
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 238000011156 evaluation Methods 0.000 claims abstract description 32
- 238000007637 random forest analysis Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000012502 risk assessment Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Finance (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Technology Law (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种非平衡数据集的分类方法及系统,其中一种非平衡数据集的分类方法包括:获取债券数据样本;对所述债券数据样本进行预处理,得到第一数据样本;采用随机森林算法对所述第一数据样本进行数据特征评估,得到数据特征重要值排序表;根据所述数据特征重要值排序表得到债券风险评估结果;利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。通过采用SMOTE算法均衡扩充少类样本的SVM分类器作为预测模型,其效果好,且样本数据均衡,具有较高的可信度。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种非平衡数据集的分类方法和一种非平衡数据集的分类系统。
背景技术
近些年来,随着政策的变更债券违约将会成为常见的风险事件。债券违约事件的频繁发生,使得债券投资者所承担的风险剧增,如何对债券进行风险管理成为了一个亟待解决的问题。
现有债券评估的方式较为传统,采用人工对评估对象的经营状况、财务状况以及所属行业行情做出定性的分析,这种方法结合了评估人的经验,是具有一定可信度的。
但传统的定性评估方式缺乏数据支持的问题,其评估不够严谨,评估精确性不高,仍然具有一定的风险。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种非平衡数据集的分类方法和一种非平衡数据集的分类系统。
为了解决上述问题,本发明实施例公开了一种非平衡数据集的分类方法,包括:
获取债券数据样本;
对所述债券数据样本进行预处理,得到第一数据样本;
采用随机森林算法对所述第一数据样本进行数据特征评估,得到数据特征重要值排序表;
根据所述数据特征重要值排序表得到债券风险评估结果;
利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。
进一步地,所述对所述债券数据样本进行预处理,得到第一数据样本的步骤包括:
采用欠采样方法对所述债券数据样本进行多类处理,得到第一预数据;
采用SMOTE算法对所述第一预数据进行少类处理,得到所述第一数据样本。
进一步地,所述采用随机森林算法对所述第一数据样本进行数据特征评估,得到数据特征重要值排序表的步骤,包括:
对于随机森林中的每一棵决策树,使用相应的袋外数据(OOB)据来计算袋外数据的预测误差,记为errOOB1;
随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰,再次计算其袋外数据误差,记为errOOB2;
设随机森林中有N棵树,数据特征X重要值=∑(eerOOB2-eerOOB1)/N;
对所述数据特征X重要值进行排序,得到数据特征重要值排序表。
本发明实施例公开了一种非平衡数据集的分类系统,包括:
数据获取模块,用于获取债券数据样本;
预处理模块,用于对所述债券数据样本进行预处理,得到第一数据样本;
特征评估模块,用于采用随机森林算法对所述第一数据样本进行数据特征评估,得到数据特征重要值排序表;
风险评估模块,用于根据所述数据特征重要值排序表得到债券风险评估结果;
模型建立模块,用于利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。
进一步地,所述预处理模块包括:
第一预处理单元,用于采用欠采样方法对所述债券数据样本进行多类处理,得到第一预数据;
第二预处理单元,用于采用SMOTE算法对所述第一预数据进行少类处理,得到所述第一数据样本。
进一步地,所述特征评估模块包括:
第一误差计算单元,用于对于随机森林中的每一棵决策树,使用相应的袋外数据(OOB)据来计算袋外数据的预测误差,记为errOOB1;
第二误差计算单元,用于随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰,再次计算其袋外数据误差,记为errOOB2;
重要值计算单元,用于设随机森林中有N棵树,数据特征X重要值=∑(eerOOB2-eerOOB1)/N;
重要值排序单元,用于对所述数据特征X重要值进行排序,得到数据特征重要值排序表。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的非平衡数据集的分类方法的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的非平衡数据集的分类方法的步骤。
本发明实施例包括以下优点:通过采用SMOTE算法均衡扩充少类样本的SVM分类器作为预测模型,其分类效果较好,且样本数据均衡,具有较高的可信度。
附图说明
图1是本发明的一种非平衡数据集的分类方法一实施例的步骤流程图;
图2是本发明的一种非平衡数据集的分类方法另一实施例的步骤流程图;
图3是本发明的一种非平衡数据集的分类方法另一实施例的步骤流程图;
图4是本发明的一种非平衡数据集的分类系统一实施例的结构框图;
图5是本发明的一种非平衡数据集的分类系统另一实施例的结构框图;
图6是本发明的一种非平衡数据集的分类系统另一实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,提供了一种非平衡数据集的分类方法及系统,其中一种非平衡数据集的分类方法包括:获取债券数据样本;对债券数据样本进行预处理,得到第一数据样本;采用随机森林算法对第一数据样本进行数据特征评估,得到数据特征重要值排序表;根据数据特征重要值排序表得到债券风险评估结果;利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型。通过采用SMOTE算法均衡扩充少类样本的SVM分类器作为预测模型,其效果较好,且样本数据均衡,具有较高的可信度。
参照图1,示出了本发明的一种非平衡数据集的分类方法实施例的步骤流程图,具体可以包括如下步骤:
S100获取债券数据样本;
S200对债券数据样本进行预处理,得到第一数据样本;
S300采用随机森林算法对第一数据样本进行数据特征评估,得到数据特征重要值排序表;
S400根据数据特征重要值排序表得到债券风险评估结果;
S500利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型。
参照上述步骤S100获取债券数据样本所述,采集不同类型的债券样本,之后对债券数据样本进行债券样本标记,确定债券样本点的时间粒度,在一具体实施例中,以季度为时间粒度,以一只债券发行期间的一个“有财报季度”所谓一个样本点,若一只债券在全年都处于发行期间,且其债务主体发布了三个季度的财报,则构成三个样本点,其次采用两个不用的标准来标记出正负样本,得到不平衡的债券数据样本。
参照上述步骤S200对债券数据样本进行预处理,得到第一数据样本所述,由于债券违约信息数量太少,导致该类样本(负样本)数目太少,再加上许多违约债券的发行主体是非上市公司,难以获取其详细的财务信息,使得初始正负样本比达到37:227,数据集存在不均衡性,这样的数据集无法训练出有效的模型,因此需要对数据集进行预处理。主要采用欠采样(under-sampling)和过采样(over-sampling)两种方法对所述不平衡的债券数据样本进行预处理,其中欠采样的基本思想是删除部分多数类样本,过采样则是通过增加少类样本的数量来达到均衡样本的目的。欠采样方面,采用欠样的方式删除多类数据样本中的一部分并不会导致分类信息的丢失。过采样方面,采用SMOTE算法,SMOTE算法是通过在一些位置相近的少数类样本中插入行的少数类样本来达到平衡样本的目的。其主要思想为:假设有少数类样本,每一个样本x搜索其k个最邻近少数类样本,若向上采样的倍率取N,则在其k个最邻近样本中随机选择N个样本,记为xi,在少数类样本x与(j=1,2,...N)进行随机线性插值,构造新的少数类样本。该算法在大数据集上的实验结果优于随机复制的方法。
参照上述步骤S300采用随机森林算法对第一数据样本进行数据特征评估,得到数据特征重要值排序表所述,随机森林算法利用bootstrap重抽样方法从原始训练样本集N中有放回地重复随机抽取K个样本生成新的训练样本合集,然后根据自助样本集生成T个分类树组成随机森林,然后对每个bootstrap样本进行决策树建模,然后组成多棵决策树进行预测,并通过投票得出最终预测结果。采用随机森林算法对第一数据样本进行数据特征评估,得到数据特征重要值排序表。
参照上述步骤S400根据数据特征重要值排序表得到债券风险评估结果所述利用随机森林算法计算出各个数据特征的重要值,并对其重要值进行排序,将随机森林算法应用到特征分析中,每个数据特征一次被随机数替换,模型效果下降程度越明显,特征越重要。计算出每一个选取的特征重要性,并对特征依照重要性排序,从而发现重点需要关注的特征及相关类似信息。
参照上述步骤S500利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型所述,将SMOTE算法与SVM算法结合使用,则可以避免分类超平面偏移的情况,使SVM发挥较好的分类预测效果。且样本数据均衡,具有较高的可信度。
参照图2,在本实施例中,S200对债券数据样本进行预处理,得到第一数据样本的步骤包括:
S210采用欠采样方法对债券数据样本进行多数类处理,得到第一预数据;
S220采用SMOTE算法对第一预数据进行少类处理,得到第一数据样本。
参照图3,在本实施例中,S300采用随机森林算法对第一数据样本进行数据特征评估,得到数据特征重要值排序表的步骤,包括:
S310对于随机森林中的每一棵决策树,使用相应的袋外数据(OOB)据来计算袋外数据的预测误差,记为errOOB1;
S320随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰,再次计算其袋外数据误差,记为errOOB2;
S330设随机森林中有N棵树,数据特征X重要值=∑(eerOOB2-eerOOB1)/N;
S340对数据特征重要值进行排序,得到数据特征重要值排序表。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种非平衡数据集的分类系统实施例的结构框图,具体可以包括如下模块:
数据获取模块100,用于获取债券数据样本;
预处理模块200,用于对债券数据样本进行预处理,得到第一数据样本;
特征评估模块300,用于采用随机森林算法对第一数据样本进行数据特征评估,得到数据特征重要值排序表;
风险评估模块400,用于根据数据特征重要值排序表得到债券风险评估结果;
模型建立模块500,用于利用SVM算法和债券风险评估结果对第一数据样本进行训练得到分类预测模型。
参照图5,在本实施例中,预处理模块200包括:
第一预处理单元210,用于采用欠采样方法对债券数据样本进行多数类处理,得到第一预数据;
第二预处理单元220,用于采用SMOTE算法对第一预数据进行少类处理,得到第一数据样本。
参照图6,在本实施例中,特征评估模块300包括:
第一误差计算单元310,用于对于随机森林中的每一棵决策树,使用相应的袋外数据(OOB)据来计算袋外数据的预测误差,记为errOOB1;
第二误差计算单元320,用于随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰,再次计算其袋外数据误差,记为errOOB2;
重要值计算单元330,用于设随机森林中有N棵树,数据特征X重要值=∑(eerOOB2-eerOOB1)/N;
重要值排序单元340,用于对数据特征重要值进行排序,得到数据特征重要值排序表。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的非平衡数据集的分类方法的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的非平衡数据集的分类方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种非平衡数据集的分类方法和一种非平衡数据集的分类系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种非平衡数据集的分类方法,其特征在于,包括:
获取债券数据样本;
对所述债券数据样本进行预处理,得到第一数据样本;
采用随机森林算法对所述第一数据样本进行数据特征评估,得到数据特征重要值排序表;
根据所述数据特征重要值排序表得到债券风险评估结果;
利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述债券数据样本进行预处理,得到第一数据样本的步骤,包括:
采用欠采样方法对所述债券数据样本进行多类处理,得到第一预数据;
采用SMOTE算法对所述第一预数据进行少类处理,得到所述第一数据样本。
3.根据权利要求1所述的方法,其特征在于,所述采用随机森林算法对所述第一数据样本进行数据特征评估,得到数据特征重要值排序表的步骤,包括:
对于随机森林中的每一棵决策树,使用相应的袋外数据(OOB)据来计算袋外数据的预测误差,记为errOOB1;
随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰,再次计算其袋外数据误差,记为errOOB2;
设随机森林中有N棵树,数据特征X重要值=∑(eerOOB2-eerOOB1)/N;
对所述数据特征X重要值进行排序,得到数据特征重要值排序表。
4.一种非平衡数据集的分类系统,其特征在于,包括:
数据获取模块,用于获取债券数据样本;
预处理模块,用于对所述债券数据样本进行预处理,得到第一数据样本;
特征评估模块,用于采用随机森林算法对所述第一数据样本进行数据特征评估,得到数据特征重要值排序表;
风险评估模块,用于根据所述数据特征重要值排序表得到债券风险评估结果;
模型建立模块,用于利用SVM算法和所述债券风险评估结果对所述第一数据样本进行训练得到分类预测模型。
5.根据权利要求1所述的系统,其特征在于,所述预处理模块包括:
第一预处理单元,用于采用欠采样方法对所述债券数据样本进行多类处理,得到第一预数据;
第二预处理单元,用于采用SMOTE算法对所述第一预数据进行少类处理,得到所述第一数据样本。
6.根据权利要求1所述的系统,其特征在于,所述特征评估模块包括:
第一误差计算单元,用于对于随机森林中的每一棵决策树,使用相应的袋外数据(OOB)据来计算袋外数据的预测误差,记为errOOB1;
第二误差计算单元,用于随机的对袋外数据OOB所有样本的数据特征X加入噪声干扰,再次计算其袋外数据误差,记为errOOB2;
重要值计算单元,用于设随机森林中有N棵树,数据特征X重要值=∑(eerOOB2-eerOOB1)/N;
重要值排序单元,用于对所述数据特征X重要值进行排序,得到数据特征重要值排序表。
7.电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的非平衡数据集的分类方法的步骤。
8.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的非平衡数据集的分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464999.0A CN111612628A (zh) | 2020-05-28 | 2020-05-28 | 一种非平衡数据集的分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464999.0A CN111612628A (zh) | 2020-05-28 | 2020-05-28 | 一种非平衡数据集的分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111612628A true CN111612628A (zh) | 2020-09-01 |
Family
ID=72201751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010464999.0A Pending CN111612628A (zh) | 2020-05-28 | 2020-05-28 | 一种非平衡数据集的分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612628A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191433A (zh) * | 2021-05-06 | 2021-07-30 | 大路网络科技有限公司 | 一种数据分类方法、装置及设备 |
CN113705910A (zh) * | 2021-08-31 | 2021-11-26 | 深信服科技股份有限公司 | 一种数据样本的扩充方法、装置、设备和介质 |
CN114037122A (zh) * | 2021-10-15 | 2022-02-11 | 青岛民航凯亚系统集成有限公司 | 基于大数据挖掘处理分析的航班延误预测方法 |
CN114742177A (zh) * | 2022-06-08 | 2022-07-12 | 南京信息工程大学 | 基于AGA-XGBoost和GWO-SVM的气象数据分类方法 |
CN117092525A (zh) * | 2023-10-20 | 2023-11-21 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
-
2020
- 2020-05-28 CN CN202010464999.0A patent/CN111612628A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191433A (zh) * | 2021-05-06 | 2021-07-30 | 大路网络科技有限公司 | 一种数据分类方法、装置及设备 |
CN113191433B (zh) * | 2021-05-06 | 2024-05-28 | 大路网络科技有限公司 | 一种数据分类方法、装置及设备 |
CN113705910A (zh) * | 2021-08-31 | 2021-11-26 | 深信服科技股份有限公司 | 一种数据样本的扩充方法、装置、设备和介质 |
CN114037122A (zh) * | 2021-10-15 | 2022-02-11 | 青岛民航凯亚系统集成有限公司 | 基于大数据挖掘处理分析的航班延误预测方法 |
CN114742177A (zh) * | 2022-06-08 | 2022-07-12 | 南京信息工程大学 | 基于AGA-XGBoost和GWO-SVM的气象数据分类方法 |
CN114742177B (zh) * | 2022-06-08 | 2022-09-02 | 南京信息工程大学 | 基于AGA-XGBoost和GWO-SVM的气象数据分类方法 |
CN117092525A (zh) * | 2023-10-20 | 2023-11-21 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
CN117092525B (zh) * | 2023-10-20 | 2024-01-09 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612628A (zh) | 一种非平衡数据集的分类方法及系统 | |
CN109598095B (zh) | 评分卡模型的建立方法、装置、计算机设备和存储介质 | |
CN110443692B (zh) | 企业信贷审核方法、装置、设备及计算机可读存储介质 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN111275503B (zh) | 一种获取流失用户召回成功率的数据处理方法及装置 | |
CN113657993B (zh) | 信用风险识别方法、装置、设备及存储介质 | |
CN114764768A (zh) | 缺陷检测分类方法、装置、电子设备及存储介质 | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
CN106126719A (zh) | 信息处理方法及装置 | |
CN111882426A (zh) | 业务风险分类器训练方法、装置、设备及存储介质 | |
CN111612624A (zh) | 一种数据特征重要性的分析方法及系统 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN112434884A (zh) | 一种供应商分类画像的建立方法及装置 | |
CN114519519A (zh) | 基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质 | |
US11551104B2 (en) | Method and system for exchange of packets pertaining to an instrument | |
CN112434862B (zh) | 上市企业财务困境预测方法及装置 | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
CN117235633A (zh) | 机构分类方法、装置、计算机设备及存储介质 | |
CN111860642A (zh) | 一种不均衡样本分类方法和装置 | |
CN116883179A (zh) | 金融产品投资策略的确定方法、装置、处理器及电子设备 | |
CN114048770B (zh) | 面向数字音频删除和插入篡改操作自动检测方法及系统 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN114358284A (zh) | 一种基于类别信息对神经网络分步训练的方法、装置、介质 | |
Basnayake et al. | Use of change point analysis in seasonal ARIMA models for forecasting tourist arrivals in Sri Lanka | |
CN111612626A (zh) | 一种债券评估数据预处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200901 |
|
RJ01 | Rejection of invention patent application after publication |