CN109543771A

CN109543771A - 一种数据分类的方法及装置

Info

Publication number: CN109543771A
Application number: CN201811463697.0A
Authority: CN
Inventors: 王文潇
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-03-29

Abstract

本发明公开了一种数据分类的方法，包括：确定预测数据集分别属于每个类别的概率；根据所述概率构造所述预测数据集属于各个类别的概率区间；随机生成一个[0，1]之间的随机数，根据所述随机数所在的概率区间确定所述预测数据集的类别。还公开了一种数据分类的装置。本方案主要应用于机器学习领域的多类分类问题，通过本方法进行类别判断，充分考虑训练样本误差带来的影响，不仅丰富了多类逻辑回归算法的内部逻辑结构，同时也增强了多类逻辑回归算法的性能。

Description

一种数据分类的方法及装置

技术领域

本发明涉及数据处理技术，尤指一种数据分类的方法及装置。

背景技术

机器学习中的多类逻辑回归算法一般有两种逻辑结构，一种是根据每个所属类别，建立相应的logistic(逻辑)分类器。另一种是改进逻辑回归的损失函数，以满足多分类问题的需要。第一种算法逻辑结构重复亢长，对于类别非常多的分类问题，分类效率将会大大降低，影响算法性能。对于第二种方法，采取softmax回归方式，但会忽略掉样本中存在的随机因素。

发明内容

为了解决上述技术问题，本发明提供了一种数据分类的方法及装置，能够充分考虑训练样本所携带的随机因素，更加贴近实际的进行分类预测。

为了达到本发明目的，本发明提供了一种数据分类的方法，包括：

确定预测数据集分别属于每个类别的概率；

根据所述概率构造所述预测数据集属于各个类别的概率区间；

随机生成一个[0，1]之间的随机数，根据所述随机数所在的概率区间确定所述预测数据集的类别。

进一步地，所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后，还包括：

根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。

进一步地，所述对预先构造的分类预测模型进行训练的过程中，包括：

将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数，如所述损失函数输出的值小于指定阈值时，输出所述分类预测模型。

进一步地，所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的：

其中，前为条件下，属于第n类的概率；

一种数据分类的装置，包括：存储器和处理器；其中：

所述存储器，用于保存用于数据分类的程序；

所述处理器，用于读取执行所述用于数据分类的程序，执行如下操作：

确定预测数据集分别属于每个类别的概率；

其中，前为条件下，属于第n类的概率；

综上，本发明实施例的方法不需要建立多个逻辑(logistic)分类器，让分类逻辑结构更加清晰，充分考虑训练样本所携带的随机因素，更加贴近实际的进行分类预测。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例的一种数据分类的方法的流程图；

图2为本发明实施例的轮盘赌的选择机制示例图；

图3为本发明实施例的概率区间分层示例图；

图4为本发明实施例的一种数据分类的装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例的一种数据分类的方法的流程图，如图1所示，本实施例的方法可以包括：

步骤101、确定预测数据集分别属于每个类别的类别概率；

步骤102、根据所述类别概率构造各个类别的概率区间；

步骤103、随机生成一个[0，1]之间的随机数，根据所述随机数所在的概率区间确定所述预测数据集的类别。

本发明实施例的方法不需要建立多个逻辑(logistic)分类器，让分类逻辑结构更加清晰，充分考虑训练样本所携带的随机因素，更加贴近实际的进行分类预测。

在一实施例中，所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后，还可以包括：

在一实施例中，所述根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正的过程中，还可以包括：

本发明实施例的方法主要应用于机器学习领域的多类分类问题，通过本方法进行类别判断，充分考虑训练样本误差带来的影响，不仅丰富了多类逻辑回归算法的内部逻辑结构，同时也增强了多类逻辑回归算法的性能。

本发明实施例的方法是基于轮盘赌选择法的多类逻辑回归算法，使用轮盘赌选择法进行多类逻辑回归类别判定。首先计算预测数据集属于某个类别的可能性(所属概率)，通过所得概率数据构造赌轮盘逻辑结构，然后通过轮盘赌选择法进行类别判定。如图2所示，具体实施过程如下：

步骤201：基于公式(1)-(3)计算出预测数据集的所属概率。

其中，x是输入值(多维)，y是输出值，θ是模型中的参数，例如为x的权重。

步骤202：通过轮盘赌选择法判定所属类别；

步骤202.1：根据公式(1)获得的数据集属于每一类别的所属类别概率，建立如图3相似的概率区间。

步骤202.2：随机生成一个[0，1]之间的随机数，假设该随机数属于均匀分布，即产生[0，1]之间任意数值的可能性是相等的。

步骤202.3：判断步骤202.2中生成的随机数属于哪个区间，判定相对应的类别，完成分类。

如图3所示，若随机数在区间[0，0.21]内，则判定数据集属于类别Ⅰ；若随机数在区间[0.21，0.70]内，则判定属于类别Ⅱ；若随机数在[0.70，1]之间，则判定属于类别Ⅲ。

在给定训练集(x，)的情况下，对于一个输入x，训练模型每轮训练都会有个输出值y，这个y和会有一定的差别，根据公式(4)计算这种差别，计算损失函数。

利用梯度优化算法更新θ值，直到算法收敛或者达到最大迭代次数，然后输出基于轮盘赌选择法的多类逻辑回归分类预测模型。对于一般分类问题，损失函数是为了度量预测错误的程度，损失函数值越小，说明模型的预测效果越好。

本发明实施例提出了一种新的多类逻辑回归分类判别方法，横向延展了逻辑回归算法，充分考虑训练样本所携带的随机因素，更加贴近实际的进行分类预测。

图4为本发明实施例的一种数据分类的装置的示意图，如图4所示，本实施例的装置可以包括：存储器和处理器，其中，

所述存储器，用于保存用于数据分类的程序；

确定预测数据集分别属于每个类别的概率；

在一实施例中，所述对预先构造的分类预测模型进行训练的过程中，还可以包括：

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机可执行指令，所述计算机可执行指令被执行时实现所述数据分类的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种数据分类的方法，其特征在于，包括：

确定预测数据集分别属于每个类别的概率；

2.根据权利要求1所述的方法，其特征在于，所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正的过程中，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的：

其中，前为条件下，属于第n类的概率；

5.一种数据分类的装置，包括：存储器和处理器；其特征在于：

所述存储器，用于保存用于数据分类的程序；

确定预测数据集分别属于每个类别的概率；

6.根据权利要求5所述的装置，其特征在于，所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后，还包括：

7.根据权利要求6所述的装置，其特征在于，所述根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正的过程中，包括：

8.根据权利要求1所述的装置，其特征在于，所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的：

其中，前为条件下，属于第n类的概率；