CN109977988A

CN109977988A - 针对海量类别数据进行分批分类的机器学习方法及系统

Info

Publication number: CN109977988A
Application number: CN201811643314.8A
Authority: CN
Inventors: 冀辉; 裴非; 李�昊; 袁晓艳; 武新
Original assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Current assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-07-05

Abstract

本发明提出一种针对海量类别数据进行分批分类的机器学习方法及系统，包括：将海量类别数据拆分成多个子分类任务，每个子分类任务只建立局部类别的分类器，满足内存资源可以实现；多个子分类器结果进行集成，进行二次分类，确定最终的分类结果。通过本发明，可解决分类数量过多时，导致的模型存储空间，超过计算机语言自身限制，导致无法进行机器学习训练问题；可解决将单机训练性能慢，无法满足时间要求问题；可解决单台服务器无法满足训练的资源要求问题。

Description

针对海量类别数据进行分批分类的机器学习方法及系统

技术领域

本发明属于机器学习领域，特别是涉及一种针对海量类别数据进行分批分类的机器学习方法及系统。

背景技术

数据分类就是把具有某种共同属性或特征的数据归并在一起，通过其类别的属性或特征来对数据进行区别。换句话说，就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起，而把相异的和需要分别管理的信息区分开来，然后确定各个集合之间的关系，形成一个有条理的分类系统。

目前很多数据挖掘系统都实现的多种数据分类算法，这些分类算法在分类数量较少时(如几个或几十个)，工作的非常好。但当分类数量达到成千上万时，分类准确率下降明显，甚至可能因为分类模型过大，导致无法加载到内存问题。尤其在使用JVM技术的分类系统，由于存在整数最大值限制，即使物理服务器配置再大的内存，分类模型大小也无法超过2的31次方大小。这严重限制了高维数据的海量分类应用。

发明内容

有鉴于此，本发明提出一种针对海量类别数据进行分批分类的机器学习方法及系统，将海量类别数据拆成系统能够处理的多个小分类，训练出多个小分类模型。

为达到上述目的，本发明的技术方案是这样实现的：

一种针对海量类别数据进行分批分类的机器学习方法，包括：

S1、将海量类别数据拆分成多个子分类任务，每个子分类任务只建立局部类别的分类器，满足内存资源可以实现；

S2、多个子分类器结果进行集成，进行二次分类，确定最终的分类结果。

进一步的，步骤S1具体包括：

S1.1、将全部数据按类别分隔成系统可以进行训练、或满足训练时间要求的小任务；

S1.2、根据系统要求，对于无需进行类别映射的系统，直接转到步骤S1.3；对于需要进行映射转换的系统，实现不同任务间的类别的映射关系；

S1.3、使用每个任务对应的数据，分别训练各自的模型，得到多个小类别的分类模型。

进一步的，步骤S2包括：

S2.1、对于新的待预测数据，使用多个模型分别进行预测，得到数据在每个模型下的类别相似度；

S2.2、将多个模型的预测值按映射规则进行反向偏移，得到各个模型在新的类别下的相似度；

S2.3、根据类别字典，将多个模型的相似度结果进行拼接，得到完整的各类别相似度；

S2.4、根据预测结果是单分类，还是多分类，从预测值中，选出一个或多个值的索引。

本发明还提供了一种针对海量类别数据进行分批分类的机器学习系统，包括：

拆分模块，将海量类别数据拆分成多个子分类任务，每个子分类任务只建立局部类别的分类器，满足内存资源可以实现；

二次分类模块，用于将多个子分类器结果进行集成，进行二次分类，确定最终的分类结果。

进一步的，拆分模块包括：

分隔单元，用于将全部数据按类别分隔成系统可以进行训练、或满足训练时间要求的小任务；

映射单元，用于根据系统要求，对于无需进行类别映射的系统，直接转到训练单元；对于需要进行映射转换的系统，实现不同任务间的类别的映射关系；

训练单元，用于使用每个任务对应的数据，分别训练各自的模型，得到多个小类别的分类模型。

进一步的，二次分类模块包括：

预测单元，用于对于新的待预测数据，使用多个模型分别进行预测，得到数据在每个模型下的类别相似度；

偏移单元，用于将多个模型的预测值按映射规则进行反向偏移，得到各个模型在新的类别下的相似度；

拼接单元，用于根据类别字典，将多个模型的相似度结果进行拼接，得到完整的各类别相似度；

分类单元，用于根据预测结果是单分类，还是多分类，从预测值中，选出一个或多个值的索引。

与现有技术相比，本发明具有如下的有益效果：

通过本发明，可实现：

1、解决分类数量过多时，导致的模型存储空间，超过计算机语言自身限制，导致无法进行机器学习训练问题；

2、解决将单机训练性能慢，无法满足时间要求问题；

3、解决单台服务器无法满足训练的资源要求问题。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面对本发明的技术方案做进一步的详细说明：

当处理一个分类非常多的问题时，为说明简单，以26个类别为例，26个类别为A到Z。

步骤1

由于系统限制(如软件，服务器资源等)或时间限制(如单机训练时间过长，无法满足要求)，可以将全部数据按类别分隔成系统可以进行训练，或满足训练时间要求的小任务。为说明方便，以单个小任务为4个分类为例。通过处理，一个共26个类别的大分类任务，转变为7个最多4个类别的小分类任务。其中最后一个任务，只有2个类别。如下表：

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

步骤2

将大分类问题，转换为小分类问题。

根据系统要求，对于无需进行类别映射的系统，可以直接转到步骤3。对于需要进行映射转换的系统，实现不同任务间的类别的映射关系。

为说明方便，以字典偏移方法进行说明。

·以全部类别名称，创建一个字典，类别名称为A-Z。在字典中的索引值为0-25。

·对7个任务进行编码，分别为(橙色任务，0)，(蓝色任务，1)，(绿色任务，2)，(粉色任务，3)，(棕色任务，4)，(黄色任务，5)，(紫色任务，6)。

·新任务的类别为原任务类别在字典中向前偏移(任务ID*任务类别数)。在本例中，橙色任务的任务ID为0，无需进行偏移处理；蓝色任务的ID为1，类别偏移量为4；同理，绿色任务类别偏移量为8，粉色任务类别偏移量为12，棕色任务类别偏移量为16，黄色任务类别偏移量为20，紫色任务类别偏移量为24。

经过映射处理，原大类别分类问题，转换为系统可处理的多个小类别分类问题。如下表：

步骤3

使用每个任务对应的数据，分别训练各自的模型，得到多个小类别的分类模型。

步骤4

对于新的待预测文档，需要使用多个模型分别进行预测，得到文档在每个模型下的类别相似度。

为说明方便，下面以xi代表文档在各模型中与每个类别的相似度。

使用橙色任务模型1的各类别相似度如下：

A	B	C	D
				x1	x2	x3	x4

使用蓝色任务模型2的各类别相似度如下：

A	B	C	D
				x5	x6	x7	x8

使用绿色任务模型3的各类别相似度如下：

A	B	C	D
				x9	x10	x11	x12

使用粉色任务模型4的各类别相似度如下：

A	B	C	D
				x13	x14	x15	x16

使用棕色任务模型5的各类别相似度如下：

A	B	C	D
				x17	x18	x19	x20

使用黄色任务模型6的各类别相似度如下：

A	B	C	D
				x21	x22	x23	x24

使用紫色任务模型7的各类别相似度如下：

A	B
		x25	x26

步骤5

将多个模型的预测值按步骤2的映射规则进行反向偏移，得到各个模型在新的类别下的相似度。

使用橙色任务模型1的各类别相似度如下：

A	B	C	D
				x1	x2	x3	x4

使用蓝色任务模型2的各类别相似度如下：

E	F	G	H
				x5	x6	x7	x8

使用绿色任务模型3的各类别相似度如下：

I	J	K	L
				x9	x10	x11	x12

使用粉色任务模型4的各类别相似度如下：

M	N	O	P
				x13	x14	x15	x16

使用棕色任务模型5的各类别相似度如下：

Q	R	S	T
				x17	x18	x19	x20

使用黄色任务模型6的各类别相似度如下：

U	V	W	X
				x21	x22	x23	x24

使用紫色任务模型7的各类别相似度如下：

Y	Z
		x25	x26

步骤6

根据类别字典，将多个模型的相似度结果进行拼接，得到完整的各类别相似度。

在本例中，将6个4类别相似度结果和1个2类别相似度结果拼接，得到1个26类别的相似度结果。

步骤7

根据预测结果是单分类，还是多分类，从预测值中，选出一个或多个值的索引。

如：

对于单分类问题，只需要选择预测结果中相似度值最大的x16所对应的类别P，为目标文档的预测类别。

对于多分类问题，需要选择预测结果中相似度值最大的前4个(x8，x12，x16，x20)对应的索引H,L,P,T，为目标文档的预测类别，其中相似度值最大的x16对应的类别P，可做为主分类。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对海量类别数据进行分批分类的机器学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1具体包括：

3.根据权利要求1所述的方法，其特征在于，步骤S2包括：

4.一种针对海量类别数据进行分批分类的机器学习系统，其特征在于，包括：

5.根据权利要求4所述的系统，其特征在于，拆分模块包括：

6.根据权利要求4所述的系统，其特征在于，二次分类模块包括：