CN109977988A - 针对海量类别数据进行分批分类的机器学习方法及系统 - Google Patents

针对海量类别数据进行分批分类的机器学习方法及系统 Download PDF

Info

Publication number
CN109977988A
CN109977988A CN201811643314.8A CN201811643314A CN109977988A CN 109977988 A CN109977988 A CN 109977988A CN 201811643314 A CN201811643314 A CN 201811643314A CN 109977988 A CN109977988 A CN 109977988A
Authority
CN
China
Prior art keywords
classification
task
similarity
data
magnanimity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811643314.8A
Other languages
English (en)
Inventor
冀辉
裴非
李�昊
袁晓艳
武新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201811643314.8A priority Critical patent/CN109977988A/zh
Publication of CN109977988A publication Critical patent/CN109977988A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种针对海量类别数据进行分批分类的机器学习方法及系统,包括:将海量类别数据拆分成多个子分类任务,每个子分类任务只建立局部类别的分类器,满足内存资源可以实现;多个子分类器结果进行集成,进行二次分类,确定最终的分类结果。通过本发明,可解决分类数量过多时,导致的模型存储空间,超过计算机语言自身限制,导致无法进行机器学习训练问题;可解决将单机训练性能慢,无法满足时间要求问题;可解决单台服务器无法满足训练的资源要求问题。

Description

针对海量类别数据进行分批分类的机器学习方法及系统
技术领域
本发明属于机器学习领域,特别是涉及一种针对海量类别数据进行分批分类的机器学习方法及系统。
背景技术
数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。
目前很多数据挖掘系统都实现的多种数据分类算法,这些分类算法在分类数量较少时(如几个或几十个),工作的非常好。但当分类数量达到成千上万时,分类准确率下降明显,甚至可能因为分类模型过大,导致无法加载到内存问题。尤其在使用JVM技术的分类系统,由于存在整数最大值限制,即使物理服务器配置再大的内存,分类模型大小也无法超过2的31次方大小。这严重限制了高维数据的海量分类应用。
发明内容
有鉴于此,本发明提出一种针对海量类别数据进行分批分类的机器学习方法及系统,将海量类别数据拆成系统能够处理的多个小分类,训练出多个小分类模型。
为达到上述目的,本发明的技术方案是这样实现的:
一种针对海量类别数据进行分批分类的机器学习方法,包括:
S1、将海量类别数据拆分成多个子分类任务,每个子分类任务只建立局部类别的分类器,满足内存资源可以实现;
S2、多个子分类器结果进行集成,进行二次分类,确定最终的分类结果。
进一步的,步骤S1具体包括:
S1.1、将全部数据按类别分隔成系统可以进行训练、或满足训练时间要求的小任务;
S1.2、根据系统要求,对于无需进行类别映射的系统,直接转到步骤S1.3;对于需要进行映射转换的系统,实现不同任务间的类别的映射关系;
S1.3、使用每个任务对应的数据,分别训练各自的模型,得到多个小类别的分类模型。
进一步的,步骤S2包括:
S2.1、对于新的待预测数据,使用多个模型分别进行预测,得到数据在每个模型下的类别相似度;
S2.2、将多个模型的预测值按映射规则进行反向偏移,得到各个模型在新的类别下的相似度;
S2.3、根据类别字典,将多个模型的相似度结果进行拼接,得到完整的各类别相似度;
S2.4、根据预测结果是单分类,还是多分类,从预测值中,选出一个或多个值的索引。
本发明还提供了一种针对海量类别数据进行分批分类的机器学习系统,包括:
拆分模块,将海量类别数据拆分成多个子分类任务,每个子分类任务只建立局部类别的分类器,满足内存资源可以实现;
二次分类模块,用于将多个子分类器结果进行集成,进行二次分类,确定最终的分类结果。
进一步的,拆分模块包括:
分隔单元,用于将全部数据按类别分隔成系统可以进行训练、或满足训练时间要求的小任务;
映射单元,用于根据系统要求,对于无需进行类别映射的系统,直接转到训练单元;对于需要进行映射转换的系统,实现不同任务间的类别的映射关系;
训练单元,用于使用每个任务对应的数据,分别训练各自的模型,得到多个小类别的分类模型。
进一步的,二次分类模块包括:
预测单元,用于对于新的待预测数据,使用多个模型分别进行预测,得到数据在每个模型下的类别相似度;
偏移单元,用于将多个模型的预测值按映射规则进行反向偏移,得到各个模型在新的类别下的相似度;
拼接单元,用于根据类别字典,将多个模型的相似度结果进行拼接,得到完整的各类别相似度;
分类单元,用于根据预测结果是单分类,还是多分类,从预测值中,选出一个或多个值的索引。
与现有技术相比,本发明具有如下的有益效果:
通过本发明,可实现:
1、解决分类数量过多时,导致的模型存储空间,超过计算机语言自身限制,导致无法进行机器学习训练问题;
2、解决将单机训练性能慢,无法满足时间要求问题;
3、解决单台服务器无法满足训练的资源要求问题。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面对本发明的技术方案做进一步的详细说明:
当处理一个分类非常多的问题时,为说明简单,以26个类别为例,26个类别为A到Z。
步骤1
由于系统限制(如软件,服务器资源等)或时间限制(如单机训练时间过长,无法满足要求),可以将全部数据按类别分隔成系统可以进行训练,或满足训练时间要求的小任务。为说明方便,以单个小任务为4个分类为例。通过处理,一个共26个类别的大分类任务,转变为7个最多4个类别的小分类任务。其中最后一个任务,只有2个类别。如下表:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
步骤2
将大分类问题,转换为小分类问题。
根据系统要求,对于无需进行类别映射的系统,可以直接转到步骤3。对于需要进行映射转换的系统,实现不同任务间的类别的映射关系。
为说明方便,以字典偏移方法进行说明。
·以全部类别名称,创建一个字典,类别名称为A-Z。在字典中的索引值为0-25。
·对7个任务进行编码,分别为(橙色任务,0),(蓝色任务,1),(绿色任务,2),(粉色任务,3),(棕色任务,4),(黄色任务,5),(紫色任务,6)。
·新任务的类别为原任务类别在字典中向前偏移(任务ID*任务类别数)。在本例中,橙色任务的任务ID为0,无需进行偏移处理;蓝色任务的ID为1,类别偏移量为4;同理,绿色任务类别偏移量为8,粉色任务类别偏移量为12,棕色任务类别偏移量为16,黄色任务类别偏移量为20,紫色任务类别偏移量为24。
经过映射处理,原大类别分类问题,转换为系统可处理的多个小类别分类问题。如下表:
步骤3
使用每个任务对应的数据,分别训练各自的模型,得到多个小类别的分类模型。
步骤4
对于新的待预测文档,需要使用多个模型分别进行预测,得到文档在每个模型下的类别相似度。
为说明方便,下面以xi代表文档在各模型中与每个类别的相似度。
使用橙色任务模型1的各类别相似度如下:
A B C D
x1 x2 x3 x4
使用蓝色任务模型2的各类别相似度如下:
A B C D
x5 x6 x7 x8
使用绿色任务模型3的各类别相似度如下:
A B C D
x9 x10 x11 x12
使用粉色任务模型4的各类别相似度如下:
A B C D
x13 x14 x15 x16
使用棕色任务模型5的各类别相似度如下:
A B C D
x17 x18 x19 x20
使用黄色任务模型6的各类别相似度如下:
A B C D
x21 x22 x23 x24
使用紫色任务模型7的各类别相似度如下:
A B
x25 x26
步骤5
将多个模型的预测值按步骤2的映射规则进行反向偏移,得到各个模型在新的类别下的相似度。
使用橙色任务模型1的各类别相似度如下:
A B C D
x1 x2 x3 x4
使用蓝色任务模型2的各类别相似度如下:
E F G H
x5 x6 x7 x8
使用绿色任务模型3的各类别相似度如下:
I J K L
x9 x10 x11 x12
使用粉色任务模型4的各类别相似度如下:
M N O P
x13 x14 x15 x16
使用棕色任务模型5的各类别相似度如下:
Q R S T
x17 x18 x19 x20
使用黄色任务模型6的各类别相似度如下:
U V W X
x21 x22 x23 x24
使用紫色任务模型7的各类别相似度如下:
Y Z
x25 x26
步骤6
根据类别字典,将多个模型的相似度结果进行拼接,得到完整的各类别相似度。
在本例中,将6个4类别相似度结果和1个2类别相似度结果拼接,得到1个26类别的相似度结果。
步骤7
根据预测结果是单分类,还是多分类,从预测值中,选出一个或多个值的索引。
如:
对于单分类问题,只需要选择预测结果中相似度值最大的x16所对应的类别P,为目标文档的预测类别。
对于多分类问题,需要选择预测结果中相似度值最大的前4个(x8,x12,x16,x20)对应的索引H,L,P,T,为目标文档的预测类别,其中相似度值最大的x16对应的类别P,可做为主分类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种针对海量类别数据进行分批分类的机器学习方法,其特征在于,包括:
S1、将海量类别数据拆分成多个子分类任务,每个子分类任务只建立局部类别的分类器,满足内存资源可以实现;
S2、多个子分类器结果进行集成,进行二次分类,确定最终的分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体包括:
S1.1、将全部数据按类别分隔成系统可以进行训练、或满足训练时间要求的小任务;
S1.2、根据系统要求,对于无需进行类别映射的系统,直接转到步骤S1.3;对于需要进行映射转换的系统,实现不同任务间的类别的映射关系;
S1.3、使用每个任务对应的数据,分别训练各自的模型,得到多个小类别的分类模型。
3.根据权利要求1所述的方法,其特征在于,步骤S2包括:
S2.1、对于新的待预测数据,使用多个模型分别进行预测,得到数据在每个模型下的类别相似度;
S2.2、将多个模型的预测值按映射规则进行反向偏移,得到各个模型在新的类别下的相似度;
S2.3、根据类别字典,将多个模型的相似度结果进行拼接,得到完整的各类别相似度;
S2.4、根据预测结果是单分类,还是多分类,从预测值中,选出一个或多个值的索引。
4.一种针对海量类别数据进行分批分类的机器学习系统,其特征在于,包括:
拆分模块,将海量类别数据拆分成多个子分类任务,每个子分类任务只建立局部类别的分类器,满足内存资源可以实现;
二次分类模块,用于将多个子分类器结果进行集成,进行二次分类,确定最终的分类结果。
5.根据权利要求4所述的系统,其特征在于,拆分模块包括:
分隔单元,用于将全部数据按类别分隔成系统可以进行训练、或满足训练时间要求的小任务;
映射单元,用于根据系统要求,对于无需进行类别映射的系统,直接转到训练单元;对于需要进行映射转换的系统,实现不同任务间的类别的映射关系;
训练单元,用于使用每个任务对应的数据,分别训练各自的模型,得到多个小类别的分类模型。
6.根据权利要求4所述的系统,其特征在于,二次分类模块包括:
预测单元,用于对于新的待预测数据,使用多个模型分别进行预测,得到数据在每个模型下的类别相似度;
偏移单元,用于将多个模型的预测值按映射规则进行反向偏移,得到各个模型在新的类别下的相似度;
拼接单元,用于根据类别字典,将多个模型的相似度结果进行拼接,得到完整的各类别相似度;
分类单元,用于根据预测结果是单分类,还是多分类,从预测值中,选出一个或多个值的索引。
CN201811643314.8A 2018-12-29 2018-12-29 针对海量类别数据进行分批分类的机器学习方法及系统 Pending CN109977988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811643314.8A CN109977988A (zh) 2018-12-29 2018-12-29 针对海量类别数据进行分批分类的机器学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811643314.8A CN109977988A (zh) 2018-12-29 2018-12-29 针对海量类别数据进行分批分类的机器学习方法及系统

Publications (1)

Publication Number Publication Date
CN109977988A true CN109977988A (zh) 2019-07-05

Family

ID=67076461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811643314.8A Pending CN109977988A (zh) 2018-12-29 2018-12-29 针对海量类别数据进行分批分类的机器学习方法及系统

Country Status (1)

Country Link
CN (1) CN109977988A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688205A (zh) * 2019-08-30 2020-01-14 北京浪潮数据技术有限公司 一种机器学习任务的执行装置、相关方法及相关装置
US12118400B2 (en) 2021-11-29 2024-10-15 International Business Machines Corporation Performing batched training for machine-learning pipelines

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US8543576B1 (en) * 2012-05-23 2013-09-24 Google Inc. Classification of clustered documents based on similarity scores
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106485270A (zh) * 2016-09-30 2017-03-08 天津大学 域自适应学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US8543576B1 (en) * 2012-05-23 2013-09-24 Google Inc. Classification of clustered documents based on similarity scores
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106485270A (zh) * 2016-09-30 2017-03-08 天津大学 域自适应学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁路妍: "多层文本自动分类技术的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688205A (zh) * 2019-08-30 2020-01-14 北京浪潮数据技术有限公司 一种机器学习任务的执行装置、相关方法及相关装置
CN110688205B (zh) * 2019-08-30 2022-06-10 北京浪潮数据技术有限公司 一种机器学习任务的执行装置、相关方法及相关装置
US12118400B2 (en) 2021-11-29 2024-10-15 International Business Machines Corporation Performing batched training for machine-learning pipelines

Similar Documents

Publication Publication Date Title
US20190354554A1 (en) Graphically managing data classification workflows in a social networking system with directed graphs
Rodriguez et al. Clustering by fast search and find of density peaks
CN109977988A (zh) 针对海量类别数据进行分批分类的机器学习方法及系统
US9552408B2 (en) Nearest neighbor clustering determination and estimation algorithm that hashes centroids into buckets and redistributes vectors between clusters
US8897566B2 (en) Image identity scale calculation stystem
CN104794189B (zh) 一种图像筛选方法及筛选系统
JP2015103088A (ja) 画像処理装置、画像処理方法、及びプログラム
US20080077862A1 (en) Techniques for rendering media as layers
CN110147361A (zh) 大数据环境下实现主数据编码规则维护功能的系统及其方法
CN112861894A (zh) 一种数据流分类方法、装置及系统
US10566222B2 (en) Semiconductor device sorting system and semiconductor device
WO2019168573A1 (en) Method and system for background removal from documents
CN115757465A (zh) 一种向量检索方法及装置
US9116970B2 (en) In-database connectivity components analysis of data
US8667008B2 (en) Search request control apparatus and search request control method
CN108804520A (zh) 一种访客行为分类方法及系统
Ciobanu et al. Image categorization based on computationally economic LAB colour features
CN117369971A (zh) 一种基于云计算的创新创业平台服务数据处理系统
US8918406B2 (en) Intelligent analysis queue construction
CN106293650A (zh) 一种文件夹属性设置方法及装置
CN108228759B (zh) 记录集的存储处理方法、装置、计算机设备和存储介质
CN106022374B (zh) 一种对历史流程数据进行分类的方法及装置
CN102474457A (zh) 分组分类
JP2015207047A (ja) 類似特徴抽出装置、方法、及びプログラム
CN105045845B (zh) 一种文档分类管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705