CN109543771A - 一种数据分类的方法及装置 - Google Patents

一种数据分类的方法及装置 Download PDF

Info

Publication number
CN109543771A
CN109543771A CN201811463697.0A CN201811463697A CN109543771A CN 109543771 A CN109543771 A CN 109543771A CN 201811463697 A CN201811463697 A CN 201811463697A CN 109543771 A CN109543771 A CN 109543771A
Authority
CN
China
Prior art keywords
classification
probability
data set
random number
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811463697.0A
Other languages
English (en)
Inventor
王文潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811463697.0A priority Critical patent/CN109543771A/zh
Publication of CN109543771A publication Critical patent/CN109543771A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分类的方法,包括:确定预测数据集分别属于每个类别的概率;根据所述概率构造所述预测数据集属于各个类别的概率区间;随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。还公开了一种数据分类的装置。本方案主要应用于机器学习领域的多类分类问题,通过本方法进行类别判断,充分考虑训练样本误差带来的影响,不仅丰富了多类逻辑回归算法的内部逻辑结构,同时也增强了多类逻辑回归算法的性能。

Description

一种数据分类的方法及装置
技术领域
本发明涉及数据处理技术,尤指一种数据分类的方法及装置。
背景技术
机器学习中的多类逻辑回归算法一般有两种逻辑结构,一种是根据每个所属类别,建立相应的logistic(逻辑)分类器。另一种是改进逻辑回归的损失函数,以满足多分类问题的需要。第一种算法逻辑结构重复亢长,对于类别非常多的分类问题,分类效率将会大大降低,影响算法性能。对于第二种方法,采取softmax回归方式,但会忽略掉样本中存在的随机因素。
发明内容
为了解决上述技术问题,本发明提供了一种数据分类的方法及装置,能够充分考虑训练样本所携带的随机因素,更加贴近实际的进行分类预测。
为了达到本发明目的,本发明提供了一种数据分类的方法,包括:
确定预测数据集分别属于每个类别的概率;
根据所述概率构造所述预测数据集属于各个类别的概率区间;
随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。
进一步地,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还包括:
根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。
进一步地,所述对预先构造的分类预测模型进行训练的过程中,包括:
将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数,如所述损失函数输出的值小于指定阈值时,输出所述分类预测模型。
进一步地,所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的:
其中,前为条件下,属于第n类的概率;
一种数据分类的装置,包括:存储器和处理器;其中:
所述存储器,用于保存用于数据分类的程序;
所述处理器,用于读取执行所述用于数据分类的程序,执行如下操作:
确定预测数据集分别属于每个类别的概率;
根据所述概率构造所述预测数据集属于各个类别的概率区间;
随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。
进一步地,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还包括:
根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。
进一步地,所述对预先构造的分类预测模型进行训练的过程中,包括:
将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数,如所述损失函数输出的值小于指定阈值时,输出所述分类预测模型。
进一步地,所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的:
其中,前为条件下,属于第n类的概率;
综上,本发明实施例的方法不需要建立多个逻辑(logistic)分类器,让分类逻辑结构更加清晰,充分考虑训练样本所携带的随机因素,更加贴近实际的进行分类预测。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例的一种数据分类的方法的流程图;
图2为本发明实施例的轮盘赌的选择机制示例图;
图3为本发明实施例的概率区间分层示例图;
图4为本发明实施例的一种数据分类的装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例的一种数据分类的方法的流程图,如图1所示,本实施例的方法可以包括:
步骤101、确定预测数据集分别属于每个类别的类别概率;
步骤102、根据所述类别概率构造各个类别的概率区间;
步骤103、随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。
本发明实施例的方法不需要建立多个逻辑(logistic)分类器,让分类逻辑结构更加清晰,充分考虑训练样本所携带的随机因素,更加贴近实际的进行分类预测。
在一实施例中,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还可以包括:
根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。
在一实施例中,所述根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正的过程中,还可以包括:
将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数,如所述损失函数输出的值小于指定阈值时,输出所述分类预测模型。
本发明实施例的方法主要应用于机器学习领域的多类分类问题,通过本方法进行类别判断,充分考虑训练样本误差带来的影响,不仅丰富了多类逻辑回归算法的内部逻辑结构,同时也增强了多类逻辑回归算法的性能。
本发明实施例的方法是基于轮盘赌选择法的多类逻辑回归算法,使用轮盘赌选择法进行多类逻辑回归类别判定。首先计算预测数据集属于某个类别的可能性(所属概率),通过所得概率数据构造赌轮盘逻辑结构,然后通过轮盘赌选择法进行类别判定。如图2所示,具体实施过程如下:
步骤201:基于公式(1)-(3)计算出预测数据集的所属概率。
其中,x是输入值(多维),y是输出值,θ是模型中的参数,例如为x的权重。
步骤202:通过轮盘赌选择法判定所属类别;
步骤202.1:根据公式(1)获得的数据集属于每一类别的所属类别概率,建立如图3相似的概率区间。
步骤202.2:随机生成一个[0,1]之间的随机数,假设该随机数属于均匀分布,即产生[0,1]之间任意数值的可能性是相等的。
步骤202.3:判断步骤202.2中生成的随机数属于哪个区间,判定相对应的类别,完成分类。
如图3所示,若随机数在区间[0,0.21]内,则判定数据集属于类别Ⅰ;若随机数在区间[0.21,0.70]内,则判定属于类别Ⅱ;若随机数在[0.70,1]之间,则判定属于类别Ⅲ。
在给定训练集(x,)的情况下,对于一个输入x,训练模型每轮训练都会有个输出值y,这个y和会有一定的差别,根据公式(4)计算这种差别,计算损失函数。
利用梯度优化算法更新θ值,直到算法收敛或者达到最大迭代次数,然后输出基于轮盘赌选择法的多类逻辑回归分类预测模型。对于一般分类问题,损失函数是为了度量预测错误的程度,损失函数值越小,说明模型的预测效果越好。
本发明实施例提出了一种新的多类逻辑回归分类判别方法,横向延展了逻辑回归算法,充分考虑训练样本所携带的随机因素,更加贴近实际的进行分类预测。
图4为本发明实施例的一种数据分类的装置的示意图,如图4所示,本实施例的装置可以包括:存储器和处理器,其中,
所述存储器,用于保存用于数据分类的程序;
所述处理器,用于读取执行所述用于数据分类的程序,执行如下操作:
确定预测数据集分别属于每个类别的概率;
根据所述概率构造所述预测数据集属于各个类别的概率区间;
随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。
在一实施例中,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还可以包括:
根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。
在一实施例中,所述对预先构造的分类预测模型进行训练的过程中,还可以包括:
将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数,如所述损失函数输出的值小于指定阈值时,输出所述分类预测模型。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述数据分类的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (8)

1.一种数据分类的方法,其特征在于,包括:
确定预测数据集分别属于每个类别的概率;
根据所述概率构造所述预测数据集属于各个类别的概率区间;
随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还包括:
根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。
3.根据权利要求2所述的方法,其特征在于,所述根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正的过程中,包括:
将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数,如所述损失函数输出的值小于指定阈值时,输出所述分类预测模型。
4.根据权利要求1所述的方法,其特征在于,所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的:
其中,前为条件下,属于第n类的概率;
5.一种数据分类的装置,包括:存储器和处理器;其特征在于:
所述存储器,用于保存用于数据分类的程序;
所述处理器,用于读取执行所述用于数据分类的程序,执行如下操作:
确定预测数据集分别属于每个类别的概率;
根据所述概率构造所述预测数据集属于各个类别的概率区间;
随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。
6.根据权利要求5所述的装置,其特征在于,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还包括:
根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。
7.根据权利要求6所述的装置,其特征在于,所述根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正的过程中,包括:
将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数,如所述损失函数输出的值小于指定阈值时,输出所述分类预测模型。
8.根据权利要求1所述的装置,其特征在于,所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的:
其中,前为条件下,属于第n类的概率;
CN201811463697.0A 2018-12-03 2018-12-03 一种数据分类的方法及装置 Pending CN109543771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811463697.0A CN109543771A (zh) 2018-12-03 2018-12-03 一种数据分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811463697.0A CN109543771A (zh) 2018-12-03 2018-12-03 一种数据分类的方法及装置

Publications (1)

Publication Number Publication Date
CN109543771A true CN109543771A (zh) 2019-03-29

Family

ID=65852657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811463697.0A Pending CN109543771A (zh) 2018-12-03 2018-12-03 一种数据分类的方法及装置

Country Status (1)

Country Link
CN (1) CN109543771A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381314A (zh) * 2020-11-24 2021-02-19 京东数字科技控股股份有限公司 模型训练、出险率预测方法、装置、电子设备及存储介质
US11023497B2 (en) 2019-09-12 2021-06-01 International Business Machines Corporation Data classification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732242A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN107862336A (zh) * 2017-11-09 2018-03-30 燕山大学 基于距离样本约简的bp分类器改进方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732242A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN107862336A (zh) * 2017-11-09 2018-03-30 燕山大学 基于距离样本约简的bp分类器改进方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023497B2 (en) 2019-09-12 2021-06-01 International Business Machines Corporation Data classification
CN112381314A (zh) * 2020-11-24 2021-02-19 京东数字科技控股股份有限公司 模型训练、出险率预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Chiang et al. Cluster-gcn: An efficient algorithm for training deep and large graph convolutional networks
CN109376615B (zh) 用于提升深度学习网络预测性能的方法、装置及存储介质
CN112669155B (zh) 基于区块链的交易分发执行方法、装置服务器及存储介质
WO2017034820A1 (en) Method for improving performance of a trained machine learning model
CN110290021B (zh) 基于动态规划算法的跨链共识时延优化方法
CN105260696A (zh) 指纹模板的自学习方法及装置
CN108038859A (zh) 基于pso和综合评价准则的pcnn图分割方法及装置
CN109886311B (zh) 增量聚类方法、装置、电子设备和计算机可读介质
CN111914094A (zh) 一种基于三元交互的知识图谱表示学习方法
CN110969200A (zh) 基于一致性负样本的图像目标检测模型训练方法及装置
CN105740280A (zh) 检测变量重要性的方法和装置
CN113283590A (zh) 一种面向后门攻击的防御方法
CN109543771A (zh) 一种数据分类的方法及装置
CN114355790A (zh) 一种有限自动驾驶遍历测试场景设计方法、系统及计算机可读存储介质
KR102039244B1 (ko) 반딧불 알고리즘을 이용한 데이터 클러스터링 방법 및 시스템
CN113472860A (zh) 大数据和数字化环境下的业务资源分配方法及服务器
CN110704620B (zh) 一种基于知识图谱的识别相同实体的方法及装置
CN117472679A (zh) 结合数据流和控制流漂移发现的异常检测方法及系统
CN114495114B (zh) 基于ctc解码器的文本序列识别模型校准方法
US20220284271A1 (en) Sparsity-based neural network mapping to computing units in a system-on-chip
CN107256252A (zh) 一种第三方多维数据迁移方法及装置
CN114819449A (zh) 预测车辆除霜性能的方法、装置、设备及存储介质
CN111932515A (zh) 产品残留类缺陷的短路检测方法及系统及缺陷分类系统
CN104142675A (zh) 可控性检验系统及方法
CN115858418B (zh) 一种数据缓存的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329

RJ01 Rejection of invention patent application after publication