CN104616029A

CN104616029A - 数据分类方法及装置

Info

Publication number: CN104616029A
Application number: CN201410838411.8A
Authority: CN
Inventors: 龙飞; 陈志军; 张涛
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2015-05-13
Anticipated expiration: 2034-12-29
Also published as: CN104616029B

Abstract

本公开是关于一种数据分类方法及装置，该方法包括：识别预设样本数据库中每个训练样本的类别；在预设样本数据库中分别选取第一训练样本集和第二训练样本集；确定每一类别的训练样本的平均样本；利用预设迭代算法对所有类别的平均样本进行迭代运算得到第一训练样本集的分类字典；将第二训练样本集中的每个训练样本在分类字典下分解得到一个训练稀疏系数向量；将得到的所有训练稀疏系数向量级联得到训练矩阵；根据第二训练样本集中的每个训练样本的类别确定训练矩阵中每个列向量的类别标签，并保存训练矩阵中每个列向量对应的类别标签。该方法可以使得在数据分类时训练字典的速度提高，消耗的时间减少，提高了数据分类的整体效率。

Description

数据分类方法及装置

技术领域

本公开涉及数据挖掘技术领域，尤其涉及一种数据分类方法及装置。

背景技术

分类可用于预测，预测的目的是从历史数据记录中从而能对未来自动推导出对给定数据的趋势描述，从而能对未来数据进行类预测。数据分类具有广泛的应用，例如：医疗诊断、信用卡系统的信用分级、图像模式识别等领域。

分类的目的是学会一个分类器(分类函数或分类模型)，该分类器能够把数据块中待分类的数据项映射到给定的某个特定类别中。但相关技术中，在训练分类器时，通常利用大量的随机信号作为输入信号用来训练分类字典(即分类器)，这使得分类字典的训练过程复杂而且耗时较长，导致数据分类的速度较慢、效率较低。

发明内容

为克服相关技术中存在的问题，本公开提供一种数据分类方法及装置。

根据本公开实施例的第一方面，提供一种数据分类方法，包括：

识别预设样本数据库中每个训练样本的类别；

在预设样本数据库中分别选取第一训练样本集和第二训练样本集，每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本；

确定所述第一训练样本集中每一类别的训练样本的平均样本；

利用预设迭代算法对所有类别的平均样本进行迭代运算得到所述第一训练样本集的分类字典；

将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量；

将得到的所有训练稀疏系数向量级联得到训练矩阵，所述训练矩阵包含有至少两个列向量；

根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签，并保存所述训练矩阵中每个列向量对应的类别标签。

结合第一方面，在第一方面第一种可能的实现方式中，所述训练样本为图像；

所述确定所述第一训练样本集中每一类别的训练样本的平均样本，包括：

计算所述第一训练样本集中每一类别的多个样本相同位置上像素点的像素值的平均值；

对于每个类别，分别将所有像素点的像素值均为平均值的样本确定为对应类别的平均样本。

结合第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，所述利用预设迭代算法对所有类别的平均样本进行迭代运算得到所述第一训练样本集的分类字典，包括：

利用预设迭代算法对每一类别的平均样本均进行迭代运算得到每个类别的类别字典；

将每个类别的类别字典级联得到所述第一训练样本集的分类字典。

根据本公开实施例的第二方面，提供一种数据分类方法，包括：

在预设样本数据库任意选取一个训练样本作为测试样本；

将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量；

计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离；

根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。

结合第二方面，第二方面第一种可能的实现方式，所述根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别，包括：

比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离；

在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量；

根据所述训练矩阵中每个列向量对应的类别标签，统计所有所述参考列向量对应的每个类别的类别标签的数量；

将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。

根据本公开实施例的第三方面，提供一种数据分类装置，包括：

类别识别模块，用于识别预设样本数据库中每个训练样本的类别；

样本集选取模块，用于在预设样本数据库中分别选取第一训练样本集和第二训练样本集，每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本；

平均样本确定模块，用于确定所述第一训练样本集中每一类别的训练样本的平均样本；

计算模块，用于利用预设迭代算法对所有类别的平均样本进行迭代运算得到所述第一训练样本集的分类字典；

分解模块，用于将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量；

级联模块，用于将得到的所有训练稀疏系数向量级联得到训练矩阵，所述训练矩阵包含有至少两个列向量；

类别标签确定模块，用于根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签，并保存所述训练矩阵中每个列向量对应的类别标签。

结合第三方面，在第三方面第一种可能的实现方式，所述训练样本为图像；

平均样本确定模块，包括：

平均值计算子模块，用于计算所述第一训练样本集中每一类别的多个样本相同位置上像素点的像素值的平均值；

第一确定子模块，用于对于每个类别，分别将所有像素点的像素值均为平均值的样本确定为对应类别的平均样本。

结合第三方面第一种可能的实现方式，在第三方面第二种可能的实现方式，所述预设迭代算法为KSVD算法；

所述计算模块，包括：

迭代运算子模块，用于利用预设迭代算法对每一类别的平均样本均进行迭代运算得到每个类别的类别字典；

级联子模块，用于将每个类别的类别字典级联得到所述第一训练样本集的分类字典。

结合第三方面第二种可能的实现方式，在第三方面第三种可能的实现方式，所述迭代运算子模块，包括：

初始化字典获取子模块，用于获取初始化字典；

第一计算子模块，用于分别利用初始化字典和各个类别平均样本采用正交匹配跟踪算法计算得到各个类别对应的稀疏系数矩阵；

迭代计算子模块，用于根据得到的多个稀疏系数矩阵利用如下公式迭代地更新类别字典与稀疏系数矩阵；

min(X,D)(||Y-DX||_F)²s.t.||x_i||≤T₀，其中X为稀疏系数矩阵，D为类别字典，Y为不同类别的平均样本对应的矩阵。

根据本公开实施例的第四方面，提供一种数据分类装置，包括：

测试样本选取模块，用于在预设样本数据库任意选取一个训练样本作为测试样本；

稀疏系数向量确定模块，用于将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量；

汉明距离计算模块，用于计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离；

目标类别确定模块，用于根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。

结合第四方面，在第四方面第一种可能的实现方式中，所述目标类别确定模块，包括：

汉明距离比较子模块，用于比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离；

参考列向量确定子模块，用于在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量；

类别标签统计子模块，用于根据所述训练矩阵中每个列向量对应的类别标签，统计所有所述参考列向量对应的每个类别的类别标签的数量；

第二确定子模块，用于将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。

根据本公开实施例的第五方面，提供一种数据分类装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

识别预设样本数据库中每个训练样本的类别；

结合第五方面，在第五方面第一种可能的实现方式中，所述处理器还被配置为：

在预设样本数据库任意选取一个训练样本作为测试样本；

将所述测试样本映射到所述的分类字典上得到所述测试样本的稀疏系数向量；

计算所述稀疏系数向量与所述的训练矩阵中每个列向量的汉明距离；

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例提供的该方法，在训练分类字典时，在预设样本数据库中选取部分训练样本作为第一训练样本集，并且确定第一训练样本集中每一类别的训练样本的平均样本，然后在训练字典时，针对每个类别，均将该类别的平均样本作为输入信号进行迭代运算得到与第一训练样本集相对应的分类字典，最后利用该分类字典结合第二训练样本集确定出训练矩阵，以便后续可以利用该分类字典和训练矩阵对数据进行分类。

与相关技术相比，该方法在训练字典时，不再从预设样本数据中随机选取训练样本作为训练字典的输入信号，而是选择能够反映出第一训练样本集每一类别的训练样本平均情况的平均样本作为输入信号进行迭代运算得到需要的分类字典，相比于需要随机选取训练样本需要大量迭代过程才能训练得到字典而言，该方法可以通过较少的迭代次数就可以学习并训练得到有利于分类、且具有分辨能力的字典。

因此，可以使得在数据分类时训练字典的速度提高，消耗的时间减少，提高了数据分类的整体效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种数据分类方法的流程图。

图2是根据一示例性实施例示出的步骤S103的详细流程示意图。

图3是根据一示例性实施例示出的步骤S104的详细流程示意图。

图4是根据一示例性实施例示出的另一种数据分类方法的流程图。

图5是根据一示例性实施例示出的步骤S204的详细流程示意图。

图6是根据一示例性实施例示出的一种数据分类装置的结构示意图。

图7是根据一示例性实施例示出的平均样本确定模块的结构示意图。

图8是根据一示例性实施例示出的计算模块的结构示意图。

图9是根据一示例性实施例示出的迭代运算子模块的结构示意图。

图10是根据一示例性实施例示出的另一种数据分类装置的结构示意图。

图11是根据一示例性实施例示出的目标类别确定模块的结构示意图。

图12是根据一示例性实施例示出的又一种数据分类装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种数据分类方法的流程图，应用于计算机或服务器等具有数据处理能力的设备中，如图1所示，该数据分类方法用于可以包括以下步骤。

在步骤S101中，识别预设样本数据库中每个训练样本的类别。

在预设样本数据库中可以包含有大量的训练样本，这里预设样本数据库可以为用户单独设置的样本数据库，例如：某公司为了方便对数字进行识别，建立了一个包含有多种字体或格式的数字样本数据库，也可以为一些公知的数据库，例如：The Extended YaleFace Database B(人脸数据库)。

预设样本数据中的每个训练样本都有各自的类别，并且在预设样本数据库中，同一类别可以有多个训练样本。

在步骤S102中，在预设样本数据库中分别选取第一训练样本集和第二训练样本集。

每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本。并且第一训练样本集中的训练样本可以与第二训练样本集中的训练样本可以完全不同，也可以部分相同，再或者，全部相同。

在步骤S103中，确定所述第一训练样本集中每一类别的训练样本的平均样本。

针对第一训练样本集中的每一类别的多个训练样本，可以分别确定每个类别对应的平均样本，每一类别的平均样本可以在该类别的所有或大多数训练样本的基础上得到，每一类别平均样本可以反映出该类别的所有或大多数训练样本的平均情况，例如：像素点的像素值或其它参数的平均情况。

在步骤S104中，利用预设迭代算法对所有类别的平均样本进行迭代运算得到所述第一训练样本集的分类字典。

在步骤S105中，将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量。

训练稀疏系数向量是将第二训练样本集中每一类别的训练样本分别映射到各自类别对应的分类字典上，得到的与第二训练样本集中对应类别训练样本相对应的最稀疏的矩阵，即列向量。

在步骤S106中，将得到的所有训练稀疏系数向量级联得到训练矩阵。

通过该步骤中，将所有稀疏系数向量作为一个列向量进行组合，得到训练矩阵，可见，训练矩阵将是多个列向量组成的矩阵，并且在训练矩阵中至少包含有两个列向量。

在步骤S107中，根据第二训练样本集中的每个训练样本的类别确定训练矩阵中每个列向量的类别标签，并保存训练矩阵中每个列向量对应的类别标签。

由于第二训练样本集中每个训练样本的类别已经识别得到，那么针对第二训练样本集中的某一个训练样本A而言，当得到与该训练样本A相对应的稀疏系数向量，那么该稀疏系数向量对应的类别标签，将与该训练样本A类别相同，所以，在该步骤中，可以确定得到训练矩阵中每个列向量的类别标签。

在本公开一实施例中，训练样本为图像，如图2所示，上述步骤S103可以包括以下步骤。

在步骤S1031中，计算所述第一训练样本集中每一类别的多个样本相同位置上像素点的像素值的平均值。

在本公开实施例中，以预设样本数据库中包含有1000个训练样本为例，那么就可以在预设样本数据库中选取200个训练样本作为第一训练样本集，还可以选取剩余的800个训练样本作为第二训练样本集。或者，选取500个训练样本作为第一训练样本集，选取700个训练样本作为第二训练样本集等。

在本公开实施例中，可以将预设样本数据库中的1000个训练样本从0开始编号，并且选取编号为0～299的训练样本作为第一训练样本集，选取编号为300～599的训练样本作为第二训练样本集，即第一训练样本集和第二训练样本集完全不同。以第一训练样本包含有10个类别为例，相应地，在编号0～299的第一训练样本集中，每个类别可以包含有30个训练样本。

另外，以训练样本为人脸图像为例，在该步骤中，可以将每个类别中所有训练样本对应的人脸图像中位置相同的像素点的像素值相加，以人脸图像包含有m×n个像素点，那么对于每个类别中所有训练样本对应的人脸图像，可以将坐标为(a，b)所有像素点的像素值进行相加，其中，0＜a＜m，0＜b＜n，然后将相加得到的总像素值除以300，就可以得到坐标点为(a，b)的像素点的像素值的平均值。

在步骤S1032中，对于每个类别，分别将所有像素点的像素值均为平均值的样本确定为对应类别的平均样本。

对于人脸图像中的所有位置上的像素点(即，所有坐标点的像素点)，都分别按照步骤S1031进行计算像素值的平均值，然后任意选取一个训练样本对应的人脸图像，并且将每个位置上像素点的像素值都替换为该位置上像素点的平均值，即可得到每个类别的训练样本的平均样本。

每一类别的平均样本可以反映出该类别中所有训练样本的平均情况。

在本公开另一实施例中，前述图1所示实施例中的预设迭代算法可以为KSVD(K-means Singular value decomposition，硬聚类奇异值分解)算法。

在该算法的基础上，如图3所示，前述步骤S104可以包括以下步骤。

在步骤S1041中，利用预设迭代算法对每一类别的平均样本均进行迭代运算得到每个类别的类别字典。

针对每一类别，该步骤中可以包括以下步骤：

11)、获取初始化字典。

初始化字典可以为系统默认的字典，也可以为用户自行设置的一个字典。由于初始化字典在设置时的参数都是默认值，所以与期望的类别字典之间偏差较大，因此，需要利用预设样本数据库中每一类别的训练样本对初始化字典进行优化，以便得到最终需要的类别字典。

12)、利用初始化字典和平均样本采用正交匹配跟踪算法计算得到稀疏系数矩阵。

初始化字典通常可以以矩阵进行表示，并且矩阵的行数远小于列数，这样在利用字典进行映射时，可以利用y＝Dx来表示，y为任意一个给定的信号，D为行数远小于列数的初始化字典，x为稀疏系数矩阵，通过上面描述，可以看到对字典的优化过程可以转换为：

min(x)||x||₀ s.t.y＝Dx (1)

对于公式(1)而言，此时零范数代表向量x的非零项。由于零范数的优化问题非凸，根据陶哲轩的理论其可以转换为1范数的凸优化问题。即

min(x)||x||₁ s.t.y＝Dx (2)

对于公式(2)，可以直接利用OMP(Orthogonal Matching Pursuit，正交匹配跟踪)算法即可求解优化问题。

13)、根据得到的稀疏系数矩阵利用公式(3)迭代地更新分类字典与稀疏系数矩阵。

min(X,D)(||Y-DX||_F)²s.t.||x_i||≤T₀ (3)

其中，X为稀疏系数矩阵，D为分类字典，Y为平均样本对应的矩阵。

通过上述步骤，可以将每个类别的平均样本作为一个输入信号进行迭代运算得到该类别需要的类别字典，相比于需要随机选取训练样本需要大量迭代过程才能训练得到类别字典而言，该方法可以通过较少的迭代次数就可以学习并训练得到有利于分类、且具有分辨能力的字典。

在步骤S1042中，将每个类别的类别字典级联得到所述第一训练样本集的分类字典。

在该步骤中，可以将每个类别的分类字典作为一个列向量，将所有类别的分类字典对应的列向量组合成一个矩阵，该矩阵就是第一训练样本集的分类字典。

由于第一训练样本集的分类字典，是由每个类别对应的字典(可以认为是子字典)，并且每个类别对应的字典是由该类别的训练样本对应的平均样本迭代运算得到，所以，每个类别对应的字典用用相比较其它方法得到的字典更加符合该类别，所以更有突出的分解特性，这样当在后续利用该分类字典在分类时进行特征提取环境，可以得到更加有利于分类的特征向量，即可以使得分类的准确率更高。

本公开实施例还提供了一种数据分类方法，图4为本公开实施例提供的数据分类方法的流程示意图。如图4所示，该方法可以包括以下步骤。

在步骤S201中，在预设样本数据库任意选取一个训练样本作为测试样本。

测试样本可以为预设样本数据库中的任意一个训练样本。以上述选取编号为0～299的训练样本作为第一训练样本集，选取编号为300～599的训练样本作为第二训练样本集为例，在本公开实施例中，可以在编号为599～999中的训练样本中任意选取一个训练样本作为测试样本。

在步骤S202中，将所述测试样本映射到上述分类字典上得到所述测试样本的稀疏系数向量。

以第二训练样本集中的训练样本为X1、X2、X3、X4、X5和X6为例，这些训练样本对应的训练稀疏系数向量分别为：

(\begin{matrix} a_{11} \\ a_{21} \\ a_{31} \end{matrix}),

(\begin{matrix} a_{12} \\ a_{22} \\ a_{32} \end{matrix}),

(\begin{matrix} a_{13} \\ a_{23} \\ a_{33} \end{matrix}),

(\begin{matrix} a_{14} \\ a_{24} \\ a_{34} \end{matrix}),

(\begin{matrix} a_{15} \\ a_{25} \\ a_{35} \end{matrix}),

(\begin{matrix} a_{16} \\ a_{26} \\ a_{36} \end{matrix}),

由这些训练稀疏系数向量级联得到的训练矩阵为：

(\begin{matrix} a_{11} & a_{12} & a_{13} & a_{14} & a_{15} & a_{16} \\ a_{21} & a_{22} & a_{23} & a_{24} & a_{25} & a_{26} \\ a_{31} & a_{32} & a_{33} & a_{34} & a_{35} & a_{36} \end{matrix})

如果训练样本X1、X2、X3、X4、X5、X6的类别分别为L1、L2、L3、L1、L2、L4，则训练矩阵第一个列向量所对应的类别为L1，训练矩阵第二个列向量所对应的类别为L2，训练矩阵第三个列向量所对应的类别为L3，训练矩阵第四个列向量所对应的类别为L1，训练矩阵第五个列向量所对应的类别为L2，训练矩阵第六个列向量所对应的类别为L4。

在步骤S203中，计算所述稀疏系数向量与上述训练矩阵中每个列向量的汉明距离。

如果测试样本对应的稀疏系数向量为

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}),

那么在该步骤则分别计算

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{11} \\ a_{21} \\ a_{31} \end{matrix})

之间的汉明距离，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{12} \\ a_{22} \\ a_{32} \end{matrix})

之间的汉明距离，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{13} \\ a_{23} \\ a_{33} \end{matrix})

之间的汉明距离，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{14} \\ a_{24} \\ a_{34} \end{matrix})

之间的汉明距离，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{15} \\ a_{25} \\ a_{35} \end{matrix})

之间的汉明距离，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{16} \\ a_{26} \\ a_{36} \end{matrix})

之间的汉明距离。

另外，在进行比较时，对于每个向量中的变量只需要考虑零与非零两种情况。

举例来讲，稀疏系数向量为

(\begin{matrix} 4 \\ 7 \\ 0 \end{matrix}),

训练矩阵中的某个列向量为

(\begin{matrix} 0 \\ 9 \\ 0 \end{matrix}),

由于对于向量中的变量只需要考虑零与非零两种情况，稀疏系数向量

(\begin{matrix} 4 \\ 7 \\ 0 \end{matrix})

只需改变一个变量，即将4变为0就能得到该列向量，因此这两个向量之间的汉明距离为1。

显然还有其它方法计算汉明距离，本实施例对汉明距离的具体计算方法不作限定。

在步骤S204中，根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。

在本公开实施例中，如图5所示，该步骤S204可以包括以下步骤。

在步骤S2041中，比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离。

仍旧以训练矩阵

(\begin{matrix} a_{11} & a_{12} & a_{13} & a_{14} & a_{15} & a_{16} \\ a_{21} & a_{22} & a_{23} & a_{24} & a_{25} & a_{26} \\ a_{31} & a_{32} & a_{33} & a_{34} & a_{35} & a_{36} \end{matrix})

为例，如果测试样本的稀疏系数向量为

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}),

则计算

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{11} \\ a_{21} \\ a_{31} \end{matrix})

之间的汉明距离为1，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{12} \\ a_{22} \\ a_{32} \end{matrix})

之间的汉明距离为3，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{13} \\ a_{23} \\ a_{33} \end{matrix})

之间的汉明距离为2，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{14} \\ a_{24} \\ a_{34} \end{matrix})

之间的汉明距离为1，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{15} \\ a_{25} \\ a_{35} \end{matrix})

之间的汉明距离为2，

(\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix})

与

(\begin{matrix} a_{16} \\ a_{26} \\ a_{36} \end{matrix})

之间的汉明距离为1。

在步骤S2042中，在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量。

则可知，汉明距离最小值为1，该汉明距离最小值对应的参考列向量分别为：

(\begin{matrix} a_{11} \\ a_{21} \\ a_{31} \end{matrix}),

(\begin{matrix} a_{14} \\ a_{24} \\ a_{34} \end{matrix})

和

(\begin{matrix} a_{16} \\ a_{26} \\ a_{36} \end{matrix}) .

在步骤2043中，根据训练矩阵中每个列向量对应的类别标签，统计所有参考列向量对应的每个类别的类别标签的数量。

在挑选出与汉明距离最小值对应的各个参考列向量后，统计这些参考列向量所对应的每种类别标签的数量。

(\begin{matrix} a_{11} \\ a_{21} \\ a_{31} \end{matrix})

和

(\begin{matrix} a_{14} \\ a_{24} \\ a_{34} \end{matrix})

的类别均为L1，

(\begin{matrix} a_{16} \\ a_{26} \\ a_{36} \end{matrix})

类别为L4，也即统计出的类别标签为L1的列向量的数量为2个，类别标签为L4的列向量的数量为1个。

在步骤2044中，将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。

由于统计出的类别标签为L1的列向量的数量为2个，类别标签为L4的列向量的数量为1个，因此将列别标签L1所指示的类别确定为测试样本的类别。

本公开实施例提供的该方法，在对测试样本进行分类时，利用平均样本得到的分类字典以及训练矩阵，计算测试样本映射到分类字典后的稀疏系数向量与训练矩阵中每个列向量之间的汉明距离，并根据稀疏系数向量与各个列向量之间的汉明距离，最终确定测试样本的类别，由于在测试时只需计算汉明距离就能确定测试样本的类别，所以，可以使得分类的计算过程简单、方便，减少了利用分类字典进行分类时消耗的时间、提高分类的整体效率。

为了执行本公开上述方法实施例，本公开还提供一种数据分类装置，图6是根据一示例性实施例示出的一种数据分类装置的结构示意图。参照图6，该装置包括类别识别模块11、样本集选取模块12、平均样本确定模块13、计算模块14、分解模块15、级联模块16和类别标签确定模块17。

该类别识别模块11，用于识别预设样本数据库中每个训练样本的类别；

该样本集选取模块12，用于在预设样本数据库中分别选取第一训练样本集和第二训练样本集，每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本；

该平均样本确定模块13，用于确定所述第一训练样本集中每一类别的训练样本的平均样本；

该计算模块14，用于利用预设迭代算法对所有类别的平均样本进行迭代运算得到所述第一训练样本集的分类字典；

该分解模块15，用于将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量；

该级联模块16，用于将得到的所有训练稀疏系数向量级联得到训练矩阵，所述训练矩阵包含有至少两个列向量；

该类别标签确定模块17，用于根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签，并保存所述训练矩阵中每个列向量对应的类别标签。

在本公开一个实施例中，训练样本为图像，如图7所示，上述平均样本确定模块13，可以包括：平均值计算子模块131和第一确定子模块132，其中，

该平均值计算子模块131，用于计算所述第一训练样本集中每一类别的多个样本相同位置上像素点的像素值的平均值；

该第一确定子模块132，用于对于每个类别，分别将所有像素点的像素值均为平均值的样本确定为对应类别的平均样本。

在本公开一个实施例中，预设迭代算法为KSVD算法，如图8所示，上述计算模块14可以包括：迭代运算子模块141和级联子模块142，其中，

该迭代运算子模块141被配置为利用预设迭代算法对每一类别的平均样本均进行迭代运算得到每个类别的类别字典；

该级联子模块142被配置为将每个类别的类别字典级联得到所述第一训练样本集的分类字典。

如图9所示，上述迭代运算子模块141可以包括：初始化字典获取子模块1411、第一计算子模块1412和迭代计算子模块1413。

该初始化字典获取子模块1411，用于获取初始化字典；

该第一计算子模块1412，用于分别利用初始化字典和各个类别平均样本采用正交匹配跟踪算法计算得到各个类别对应的稀疏系数矩阵；

该迭代计算子模块1413，用于根据得到的多个稀疏系数矩阵利用公式(3)迭代地更新类别字典与稀疏系数矩阵。

本公开实施例还提供另一种数据分类装置，如图10所示，该数据分类装置可以包括：测试样本选取模块21、稀疏系数向量确定模块22、汉明距离计算模块23和目标类别确定模块24，其中，

该测试样本选取模块21，用于在预设样本数据库任意选取一个训练样本作为测试样本；

该稀疏系数向量确定模块22，用于将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量；

该汉明距离计算模块23，用于计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离；

该目标类别确定模块24，用于根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。

在本公开一实施例中，如图11所示，上述目标类别确定模块24可以包括：汉明距离比较子模块241、参考列向量确定子模块242、类别标签统计子模块243和第二确定子模块244，其中，

汉明距离比较子模块241，用于比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离；

参考列向量确定子模块242，用于在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量；

类别标签统计子模块243，用于根据所述训练矩阵中每个列向量对应的类别标签，统计所有所述参考列向量对应的每个类别的类别标签的数量；

第二确定子模块244，用于将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。

本公开实施例提供的该装置，在对测试样本进行分类时，利用平均样本得到的分类字典以及训练矩阵，计算测试样本映射到分类字典后的稀疏系数向量与训练矩阵中每个列向量之间的汉明距离，并根据稀疏系数向量与各个列向量之间的汉明距离，最终确定测试样本的类别，由于在测试时只需计算汉明距离就能确定测试样本的类别，所以，可以使得分类的计算过程简单、方便，减少了利用分类字典进行分类时消耗的时间、提高分类的整体效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开另一实施例中，还提供了一种数据分类装置，能够实现本公开提供的数据分类方法，该数据分类装置包括：处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对预设样本数据库中训练样本进行识别，得到每个训练样本的类别；

根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本；

利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典；

在本公开另一实施例中，所述处理器还被配置为：

在预设样本数据库任意选取一个训练样本作为测试样本；

图12是根据一示例性实施例示出的一种用于数据分类的装置1900的框图。例如，装置1900可以被提供为一服务器。参照图12，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述数据分类方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据分类方法，其特征在于，包括：

识别预设样本数据库中每个训练样本的类别；

2.根据权利要求1所述的方法，其特征在于，所述训练样本为图像；

3.根据权利要求2所述的方法，其特征在于，所述利用预设迭代算法对所有类别的平均样本进行迭代运算得到所述第一训练样本集的分类字典，包括：

4.一种数据分类方法，其特征在于，包括：

在预设样本数据库任意选取一个训练样本作为测试样本；

将所述测试样本映射到上述权利要求1-3任一项中所述的分类字典上得到所述测试样本的稀疏系数向量；

计算所述稀疏系数向量与上述权利要求1-3任一项中所述的训练矩阵中每个列向量的汉明距离；

5.根据权利要求4所述的方法，其特征在于，所述根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别，包括：

6.一种数据分类装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述训练样本为图像；

平均样本确定模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述预设迭代算法为KSVD算法；

所述计算模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述迭代运算子模块，包括：

初始化字典获取子模块，用于获取初始化字典；

10.一种数据分类装置，其特征在于，包括：

稀疏系数向量确定模块，用于将所述测试样本映射到上述权利要求6-9任一项中所述的分类字典上得到所述测试样本的稀疏系数向量；

汉明距离计算模块，用于计算所述稀疏系数向量与上述权利要求6-9任一项中所述的训练矩阵中每个列向量的汉明距离；

11.根据权利要求10所述的装置，其特征在于，所述目标类别确定模块，包括：

12.一种数据分类装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

识别预设样本数据库中每个训练样本的类别；

13.根据权利要求12所述的装置，其特征在于，所述处理器还被配置为：

在预设样本数据库任意选取一个训练样本作为测试样本；