CN104572930B - 数据分类方法及装置 - Google Patents

数据分类方法及装置 Download PDF

Info

Publication number
CN104572930B
CN104572930B CN201410838127.0A CN201410838127A CN104572930B CN 104572930 B CN104572930 B CN 104572930B CN 201410838127 A CN201410838127 A CN 201410838127A CN 104572930 B CN104572930 B CN 104572930B
Authority
CN
China
Prior art keywords
training
sample
training sample
matrix
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410838127.0A
Other languages
English (en)
Other versions
CN104572930A (zh
Inventor
龙飞
张涛
汪平仄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201410838127.0A priority Critical patent/CN104572930B/zh
Publication of CN104572930A publication Critical patent/CN104572930A/zh
Application granted granted Critical
Publication of CN104572930B publication Critical patent/CN104572930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种数据分类方法及装置,该方法包括:识别预设样本数据库中每个训练样本的类别;在预设样本数据库中分别选取第一训练样本集和第二训练样本集;确定第一训练样本集的平均样本,利用预设迭代算法对平均样本进行迭代运算得到第一训练样本集的分类字典;将第二训练样本集中的每个训练样本在分类字典下分解得到一个训练稀疏系数向量,并将得到的所有训练稀疏系数向量级联得到训练矩阵;根据第二训练样本集中的每个训练样本的类别确定训练矩阵中每个列向量的类别标签,并保存训练矩阵中每个列向量对应的类别标签。该方法可以使得在数据分类时训练字典的速度提高,消耗的时间减少,提高了数据分类的整体效率。

Description

数据分类方法及装置
技术领域
本公开涉及数据挖掘技术领域,尤其涉及一种数据分类方法及装置。
背景技术
分类可用于预测,预测的目的是从历史数据记录中从而能对未来自动推导出对给定数据的趋势描述,从而能对未来数据进行类预测。数据分类具有广泛的应用,例如:医疗诊断、信用卡系统的信用分级、图像模式识别等领域。
分类的目的是学会一个分类器(分类函数或分类模型),该分类器能够把数据块中待分类的数据项映射到给定的某个特定类别中。但相关技术中,在训练分类器时,通常利用大量的随机信号作为输入信号用来训练分类字典(即分类器),这使得分类字典的训练过程复杂而且耗时较长,导致数据分类的速度较慢、效率较低。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据分类方法及装置。
根据本公开实施例的第一方面,提供一种数据分类方法,包括:
识别预设样本数据库中每个训练样的类别;
在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本,并利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量,并将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
结合第一方面,在第一方面第一种可能的实现方式中,所述训练样本为图像;
所述根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本,包括:
计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;
将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本。
结合第一方面,在第一方面第二种可能的实现方式中,所述预设迭代算法为KSVD算法。
结合第一方面第二种可能的实现方式,在第一方面第三种可能的实现方式中,所述利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典,包括:
获取初始化字典;
利用初始化字典和所述平均样本采用正交匹配跟踪算法计算得到稀疏系数矩阵;
根据得到的稀疏系数矩阵利用如下公式迭代地更新分类字典与稀疏系数矩阵;
min(X,D)(||Y-DX||F)2s.t.||xi||≤T0,其中X为稀疏系数矩阵,D为分类字典,Y为平均样本对应的矩阵。
根据本公开实施例的第二方面,提供一种数据分类方法,包括:
在预设样本数据库任意选取一个训练样本作为测试样本;
将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量;
计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离;
根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
结合第二方面,在第二方面第一种可能的实现方式中,所述根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别,包括:
比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;
在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;
根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;
将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。
根据本公开实施例的第三方面,提供一种数据分类装置,包括:
类别识别模块,用于识别预设样本数据库中每个训练样的类别;
样本集选取模块,用于在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
平均样本确定模块,用于根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本;
计算模块,用于利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
分解模块,用于将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;
级联模块,用于将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
类别标签确定模块,用于根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
结合第三方面,在第三方面第一种可能的实现方式中,所述训练样本为图像;
平均样本确定模块,包括:
平均值计算子模块,用于计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;
第一确定子模块,用于将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本。
结合第三方面第一种可能的实现方式,在第三方面第二种可能的实现方式中,所述预设迭代算法为KSVD算法;
所述计算模块,包括:
初始化字典获取子模块,用于获取初始化字典;
第一计算子模块,用于利用初始化字典采用正交匹配跟踪算法计算得到稀疏系数矩阵;
迭代计算子模块,用于根据得到的稀疏系数矩阵利用如下公式迭代地更新分类字典与稀疏系数矩阵;
min(X,D)(||Y-DX||F)2s.t.||xi||≤T0,其中X为稀疏系数矩阵,D为分类字典,Y为平均样本对应的矩阵。
根据本公开实施例的第四方面,提供一种数据分类装置,包括:
测试样本选取模块,用于在预设样本数据库任意选取一个训练样本作为测试样本;
稀疏系数向量确定模块,用于将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量;
汉明距离计算模块,用于计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离;
目标类别确定模块,用于根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
结合第四方面,在第四方面第一种可能的实现方式中,所述目标类别确定模块,包括:
汉明距离比较子模块,用于比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;
参考列向量确定子模块,用于在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;
类别标签统计子模块,用于根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;
第二确定子模块,用于将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。
根据本公开实施例的第五方面,提供一种数据分类装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
识别预设样本数据库中每个训练样的类别;
在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本;
利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;
将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
结合第五方面,在第五方面第一种可能的实现方式中,所述处理器还被配置为:
在预设样本数据库任意选取一个训练样本作为测试样本;
将所述测试样本映射到所述的分类字典上得到所述测试样本的稀疏系数向量;
计算所述稀疏系数向量与所述的训练矩阵中每个列向量的汉明距离;
根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的该方法,在训练分类字典时,在预设样本数据库中选取部分训练样本作为第一训练样本集,并且根据第一训练样本集中的训练样本计算得到第一训练样本集的平均样本,然后在训练字典时,采用该平均样本作为输入信号进行迭代运算得到需要的分类字典,并利用该分类字典结合第二训练样本集确定出训练矩阵。
与相关技术相比,该方法在训练字典时,不再从预设样本数据中随机选取训练样本作为训练字典的输入信号,而是选择能够反映出第一训练样本集的平均情况的平均样本作为输入信号进行迭代运算得到需要的分类字典,相比于需要随机选取训练样本需要大量迭代过程才能训练得到字典而言,该方法可以通过较少的迭代次数就可以学习并训练得到有利于分类、且具有分辨能力的字典。
因此,可以使得在数据分类时训练字典的速度提高,消耗的时间减少,提高了数据分类的整体效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种数据分类方法的流程图。
图2是根据一示例性实施例示出的步骤S103的详细流程示意图。
图3是根据一示例性实施例示出的步骤S104的详细流程示意图。
图4是根据一示例性实施例示出的另一种数据分类方法的流程图。
图5是根据一示例性实施例示出的步骤S204的详细流程示意图。
图6是根据一示例性实施例示出的一种数据分类装置的结构示意图。
图7是根据一示例性实施例示出的平均样本确定模块的结构示意图。
图8是根据一示例性实施例示出的计算模块的结构示意图。
图9是根据一示例性实施例示出的另一种数据分类装置的结构示意图。
图10是根据一示例性实施例示出的目标类别确定模块的结构示意图。
图11是根据一示例性实施例示出的又一种数据分类装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种数据分类方法的流程图,应用于计算机或服务器等具有数据处理能力的设备中,如图1所示,该数据分类方法用于可以包括以下步骤。
在步骤S101中,识别预设样本数据库中每个训练样的类别。
在预设样本数据库中可以包含有大量的训练样本,这里预设样本数据库可以为用户单独设置的样本数据库,例如:某公司为了方便对数字进行识别,建立了一个包含有多种字体或格式的数字样本数据库,也可以为一些公知的数据库,例如:The Extended YaleFace Database B(人脸数据库)。
预设样本数据中的每个训练样本都有各自的类别,并且在预设样本数据库中,同一类别可以有多个训练样本。
在步骤S102中,在预设样本数据库中分别选取第一训练样本集和第二训练样本集。
每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本。并且第一训练样本集中的训练样本可以与第二训练样本集中的训练样本可以完全不同,也可以部分相同,再或者,全部相同。
在步骤S103中,根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本。
平均样本可以在第一训练样本集中所有或大多数训练样本的基础上得到,平均样本可以反映出第一训练样本集中所有或大多数训练样本的平均情况,例如:像素点的像素值或其它参数的平均情况。
在步骤S104中,利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典。
在步骤S105中,将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量。
训练稀疏系数向量是将第二训练样本集中的训练样本映射到分类字典上,得到的与第二训练样本集中训练样本相对应的最稀疏的矩阵,即列向量。
在步骤S106中,将得到的所有训练稀疏系数向量级联得到训练矩阵。
通过该步骤中,将所有稀疏系数向量作为一个列向量进行组合,得到训练矩阵,可见,训练矩阵将是多个列向量组成的矩阵,并且在训练矩阵中至少包含有两个列向量。
在步骤S107中,根据第二训练样本集中的每个训练样本的类别确定训练矩阵中每个列向量的类别标签,并保存训练矩阵中每个列向量对应的类别标签。
由于第二训练样本集中每个训练样本的类别已经识别得到,那么针对第二训练样本集中的某一个训练样本A而言,当得到与该训练样本A相对应的稀疏系数向量,那么该稀疏系数向量对应的类别标签,将与该训练样本A类别相同,所以,在该步骤中,可以确定得到训练矩阵中每个列向量的类别标签。
本公开实施例提供的该方法,在训练分类字典时,在预设样本数据库中选取部分训练样本作为第一训练样本集,并且根据第一训练样本集中的训练样本计算得到第一训练样本集的平均样本,然后在训练字典时,采用该平均样本作为输入信号进行迭代运算得到需要的分类字典,并利用该分类字典结合第二训练样本集确定出训练矩阵。
与相关技术相比,该方法在训练字典时,不再从预设样本数据中随机选取训练样本作为训练字典的输入信号,而是选择能够反映出第一训练样本集的平均情况的平均样本作为输入信号进行迭代运算得到需要的分类字典,相比于需要随机选取训练样本需要大量迭代过程才能训练得到字典而言,该方法可以通过较少的迭代次数就可以学习并训练得到有利于分类、且具有分辨能力的字典。
因此,可以使得在数据分类时训练字典的速度提高,消耗的时间减少,提高了数据分类的整体效率。
在本公开一实施例中,训练样本为图像,如图2所示,上述步骤S103可以包括以下步骤。
在步骤S1031中,计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值。
在本公开实施例中,以预设样本数据库中包含有1000个训练样本为例,那么就可以在预设样本数据库中选取200个训练样本作为第一训练样本集,还可以选取剩余的800个训练样本作为第二训练样本集。或者,选取500个训练样本作为第一训练样本集,选取700个训练样本作为第二训练样本集等。在本公开实施例中,可以将预设样本数据库中的1000个训练样本从0开始编号,并且选取编号为0~299的训练样本作为第一训练样本集,选取编号为300~599的训练样本作为第二训练样本集,即第一训练样本集和第二训练样本集完全不同。
另外,以训练样本为人脸图像为例,在该步骤中,可以将第一训练样本集中所有训练样本对应的人脸图像中位置相同的像素点的像素值相加,以人脸图像包含有m×n个像素点,那么对于第一训练样本中所有训练样本对应的人脸图像,可以将坐标为(a,b)所有像素点的像素值进行相加,其中,0<a<m,0<b<n,然后将相加得到的总像素值除以300,就可以得到坐标点为(a,b)的像素点的像素值的平均值。
在步骤S1032中,将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为第一训练样本集的平均样本。
对于人脸图像中的所有位置上的像素点(即,所有坐标点的像素点),都分别按照步骤S1031进行计算像素值的平均值,然后任意选取一个训练样本对应的人脸图像,并且将每个位置上像素点的像素值都替换为该位置上像素点的平均值,即可得到第一训练样本集的平均样本。
平均样本可以反映出第一训练样本集中所有训练样本的平均情况。
在本公开另一实施例中,前述图1所示实施例中的预设迭代算法可以为KSVD(K-means Singular value decomposition,硬聚类奇异值分解)算法。
在该算法的基础上,如图3所示,前述步骤S104可以包括以下步骤。
在步骤S1041中,获取初始化字典。
初始化字典可以为系统默认的字典,也可以为用户自行设置的一个字典。由于初始化字典在设置时的参数都是默认值,所以与期望的分类字典之间偏差较大,因此,需要利用预设样本数据库中训练样本对初始化字典进行优化,以便得到最终需要的分类字典。
在步骤S1042中,利用初始化字典和所述平均样本采用正交匹配跟踪算法计算得到稀疏系数矩阵。
初始化字典通常可以以矩阵进行表示,并且矩阵的行数远小于列数,这样在利用字典进行映射时,可以利用y=Dx来表示,y为任意一个给定的信号,D为行数远小于列数的初始化字典,x为稀疏系数矩阵,通过上面描述,可以看到对字典的优化过程可以转换为:
min(x)||x||0 s.t.y=Dx (1)
对于公式(1)而言,此时零范数代表向量x的非零项。由于零范数的优化问题非凸,根据陶哲轩的理论其可以转换为1范数的凸优化问题。即
min(x)||x||1 s.t.y=Dx (2)
对于公式(2),可以直接利用OMP(Orthogonal Matching Pursuit,正交匹配跟踪)算法即可求解优化问题。
在步骤S1043中,根据得到的稀疏系数矩阵利用公式(3)迭代地更新分类字典与稀疏系数矩阵。
min(X,D)(||Y-DX||F)2s.t.||xi||≤T0 (3)
其中X为稀疏系数矩阵,D为分类字典,Y为平均样本对应的矩阵。
通过上述步骤,可以将平均样本作为一个输入信号进行迭代运算得到需要的分类字典,相比于需要随机选取训练样本需要大量迭代过程才能训练得到字典而言,该方法可以通过较少的迭代次数就可以学习并训练得到有利于分类、且具有分辨能力的字典。
本公开实施例还提供了一种数据分类方法,图4为本公开实施例提供的数据分类方法的流程示意图。如图4所示,该方法可以包括以下步骤。
在步骤S201中,在预设样本数据库任意选取一个训练样本作为测试样本。
测试样本可以为预设样本数据库中的任意一个训练样本。以上述选取编号为0~299的训练样本作为第一训练样本集,选取编号为300~599的训练样本作为第二训练样本集为例,在本公开实施例中,可以在编号为599~999中的训练样本中任意选取一个训练样本作为测试样本。
在步骤S202中,将所述测试样本映射到上述分类字典上得到所述测试样本的稀疏系数向量。
以第二训练样本集中的训练样本为X1、X2、X3、X4、X5和X6为例,这些训练样本对应的训练稀疏系数向量分别为:
由这些训练稀疏系数向量级联得到的训练矩阵为:
如果训练样本X1、X2、X3、X4、X5、X6的类别分别为L1、L2、L3、L1、L2、L4,则训练矩阵第一个列向量所对应的类别为L1,训练矩阵第二个列向量所对应的类别为L2,训练矩阵第三个列向量所对应的类别为L3,训练矩阵第四个列向量所对应的类别为L1,训练矩阵第五个列向量所对应的类别为L2,训练矩阵第六个列向量所对应的类别为L4。
在步骤S203中,计算所述稀疏系数向量与上述训练矩阵中每个列向量的汉明距离。
如果测试样本对应的稀疏系数向量为那么在该步骤则分别计算之间的汉明距离,之间的汉明距离,之间的汉明距离,之间的汉明距离,之间的汉明距离,之间的汉明距离。
另外,在进行比较时,对于每个向量中的变量只需要考虑零与非零两种情况。
举例来讲,稀疏系数向量为训练矩阵中的某个列向量为由于对于向量中的变量只需要考虑零与非零两种情况,稀疏系数向量只需改变一个变量,即将4变为0就能得到该列向量,因此这两个向量之间的汉明距离为1。
显然还有其它方法计算汉明距离,本实施例对汉明距离的具体计算方法不作限定。
在步骤S204中,根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
在本公开实施例中,如图5所示,该步骤S204可以包括以下步骤。
在步骤S2041中,比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离。
仍旧以训练矩阵为例,如果测试样本的稀疏系数向量为则计算之间的汉明距离为1,之间的汉明距离为3,之间的汉明距离为2,之间的汉明距离为1,之间的汉明距离为2,之间的汉明距离为1。
在步骤S2042中,在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量。
则可知,汉明距离最小值为1,该汉明距离最小值对应的参考列向量分别为:
在步骤2043中,根据训练矩阵中每个列向量对应的类别标签,统计所有参考列向量对应的每个类别的类别标签的数量。
在挑选出与汉明距离最小值对应的各个参考列向量后,统计这些参考列向量所对应的每种类别标签的数量。
的类别均为L1,类别为L4,也即统计出的类别标签为L1的列向量的数量为2个,类别标签为L4的列向量的数量为1个。
在步骤2044中,将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。
由于统计出的类别标签为L1的列向量的数量为2个,类别标签为L4的列向量的数量为1个,因此将列别标签L1所指示的类别确定为测试样本的类别。
本公开实施例提供的该方法,在对测试样本进行分类时,利用平均样本得到的分类字典以及训练矩阵,计算测试样本映射到分类字典后的稀疏系数向量与训练矩阵中每个列向量之间的汉明距离,并根据稀疏系数向量与各个列向量之间的汉明距离,最终确定测试样本的类别,由于在测试时只需计算汉明距离就能确定测试样本的类别,所以,可以使得分类的计算过程简单、方便,减少了利用分类字典进行分类时消耗的时间、提高分类的整体效率。
为了执行本公开上述方法实施例,本公开还提供一种数据分类装置,图6是根据一示例性实施例示出的一种数据分类装置的结构示意图。参照图6,该装置包括类别识别模块11、样本集选取模块12、平均样本确定模块13、计算模块14、分解模块15、级联模块16和类别标签确定模块17。
该类别识别模块11被配置为识别预设样本数据库中每个训练样的类别;
该样本集选取模块12被配置为在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
该平均样本确定模块13被配置为根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本;
该计算模块14被配置为利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
该分解模块15被配置为将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;
该级联模块16被配置为将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
该类别标签确定模块17被配置为根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
与相关技术相比,该装置在训练字典时,不再从预设样本数据中随机选取训练样本作为训练字典的输入信号,而是选择能够反映出第一训练样本集的平均情况的平均样本作为输入信号进行迭代运算得到需要的分类字典,相比于需要随机选取训练样本需要大量迭代过程才能训练得到字典而言,该装置可以通过较少的迭代次数就可以学习并训练得到有利于分类、且具有分辨能力的字典。
在本公开一个实施例中,训练样本为图像,如图7所示,上述平均样本确定模块13,可以包括:平均值计算子模块131和第一确定子模块132,其中,
该平均值计算子模块131被配置为计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;
该第一确定子模块132被配置为将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本。
在本公开一个实施例中,预设迭代算法为KSVD算法,如图8所示,上述计算模块14可以包括:初始化字典获取子模块141、第一计算子模块142和迭代计算子模块143。
该初始化字典获取子模块141被配置为获取初始化字典;
该第一计算子模块142被配置为利用初始化字典采用正交匹配跟踪算法计算得到稀疏系数矩阵;
该迭代计算子模块143被配置为根据得到的稀疏系数矩阵利用公式(3)迭代地更新分类字典与稀疏系数矩阵。
本公开实施例还提供另一种数据分类装置,如图9所示,该数据分类装置可以包括:测试样本选取模块21、稀疏系数向量确定模块22、汉明距离计算模块23和目标类别确定模块24,其中,
该测试样本选取模块21被配置为在预设样本数据库任意选取一个训练样本作为测试样本;
该稀疏系数向量确定模块22被配置为将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量;
该汉明距离计算模块23被配置为计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离;
该目标类别确定模块24被配置为根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
在本公开一实施例中,如图10所示,上述目标类别确定模块24可以包括:汉明距离比较子模块241、参考列向量确定子模块242、类别标签统计子模块243和第二确定子模块244,其中,
汉明距离比较子模块241被配置为比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;
参考列向量确定子模块242被配置为在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;
类别标签统计子模块243被配置为根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;
第二确定子模块244被配置为将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。
本公开实施例提供的该装置,在对测试样本进行分类时,利用平均样本得到的分类字典以及训练矩阵,计算测试样本映射到分类字典后的稀疏系数向量与训练矩阵中每个列向量之间的汉明距离,并根据稀疏系数向量与各个列向量之间的汉明距离,最终确定测试样本的类别,由于在测试时只需计算汉明距离就能确定测试样本的类别,所以,可以使得分类的计算过程简单、方便,减少了利用分类字典进行分类时消耗的时间、提高分类的整体效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开另一实施例中,还提供了一种数据分类装置,能够实现本公开提供的数据分类方法,该数据分类装置包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
识别预设样本数据库中每个训练样的类别;
在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本;
利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;
将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
在本公开另一实施例中,所述处理器还被配置为:
在预设样本数据库任意选取一个训练样本作为测试样本;
将所述测试样本映射到所述的分类字典上得到所述测试样本的稀疏系数向量;
计算所述稀疏系数向量与所述的训练矩阵中每个列向量的汉明距离;
根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
图11是根据一示例性实施例示出的一种用于数据分类的装置1900的框图。例如,装置1900可以被提供为一服务器。参照图11,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述数据分类方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种数据分类方法,其特征在于,包括:
识别预设样本数据库中每个训练样本的类别;所述训练样本为图像;
在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;
将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本;
利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;
将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
2.根据权利要求1所述的方法,其特征在于,所述预设迭代算法为KSVD算法。
3.一种数据分类方法,其特征在于,包括:
在预设样本数据库任意选取一个训练样本作为测试样本;
将所述测试样本映射到上述权利要求1或2中所述的分类字典上得到所述测试样本的稀疏系数向量;
计算所述稀疏系数向量与上述权利要求1或2中所述的训练矩阵中每个列向量的汉明距离;
根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
4.根据权利要求3所述的方法,其特征在于,所述根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别,包括:
比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;
在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;
根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;
将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。
5.一种数据分类装置,其特征在于,包括:
类别识别模块,用于识别预设样本数据库中每个训练样本的类别;所述训练样本为图像;
样本集选取模块,用于在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
平均值计算子模块,用于计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;
第一确定子模块,用于将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本;
计算模块,用于利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
分解模块,用于将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;
级联模块,用于将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
类别标签确定模块,用于根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
6.一种数据分类装置,其特征在于,包括:
测试样本选取模块,用于在预设样本数据库任意选取一个训练样本作为测试样本;
稀疏系数向量确定模块,用于将所述测试样本映射到上述权利要求5中所述的分类字典上得到所述测试样本的稀疏系数向量;
汉明距离计算模块,用于计算所述稀疏系数向量与上述权利要求5中所述的训练矩阵中每个列向量的汉明距离;
目标类别确定模块,用于根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
7.根据权利要求6所述的装置,其特征在于,所述目标类别确定模块,包括:
汉明距离比较子模块,用于比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;
参考列向量确定子模块,用于在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;
类别标签统计子模块,用于根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;
第二确定子模块,用于将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。
8.一种数据分类装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
识别预设样本数据库中每个训练样本的类别;
在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;
将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本;
利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;
将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;
将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;
根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。
9.根据权利要求8所述的装置,其特征在于,所述处理器还被配置为:
在预设样本数据库任意选取一个训练样本作为测试样本;
将所述测试样本映射到所述的分类字典上得到所述测试样本的稀疏系数向量;
计算所述稀疏系数向量与所述的训练矩阵中每个列向量的汉明距离;
根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。
CN201410838127.0A 2014-12-29 2014-12-29 数据分类方法及装置 Active CN104572930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410838127.0A CN104572930B (zh) 2014-12-29 2014-12-29 数据分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410838127.0A CN104572930B (zh) 2014-12-29 2014-12-29 数据分类方法及装置

Publications (2)

Publication Number Publication Date
CN104572930A CN104572930A (zh) 2015-04-29
CN104572930B true CN104572930B (zh) 2017-10-17

Family

ID=53088992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410838127.0A Active CN104572930B (zh) 2014-12-29 2014-12-29 数据分类方法及装置

Country Status (1)

Country Link
CN (1) CN104572930B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304487A (zh) * 2018-01-02 2018-07-20 吉旗(成都)科技有限公司 一种优化搜索引擎多索引的查询方法
CN109446065A (zh) * 2018-09-18 2019-03-08 深圳壹账通智能科技有限公司 用户标签测试方法、装置、计算机设备和存储介质
CN111340057B (zh) * 2018-12-19 2023-07-25 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN113326857B (zh) * 2020-02-28 2022-09-23 合肥美亚光电技术股份有限公司 模型训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096819A (zh) * 2011-03-11 2011-06-15 西安电子科技大学 利用稀疏表示与字典学习进行图像分割的方法
CN102122353A (zh) * 2011-03-11 2011-07-13 西安电子科技大学 利用增量字典学习与稀疏表示进行图像分割的方法
CN102651073A (zh) * 2012-04-07 2012-08-29 西安电子科技大学 基于稀疏动态集成选择的sar图像地物分类方法
CN104239902A (zh) * 2014-09-12 2014-12-24 西安电子科技大学 基于非局部相似性和稀疏编码的高光谱图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330336B2 (en) * 2011-09-16 2016-05-03 Arizona Board of Regents, a body corporate of the State of Arizona, acting for and on behalf of, Arizona State University Systems, methods, and media for on-line boosting of a classifier

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096819A (zh) * 2011-03-11 2011-06-15 西安电子科技大学 利用稀疏表示与字典学习进行图像分割的方法
CN102122353A (zh) * 2011-03-11 2011-07-13 西安电子科技大学 利用增量字典学习与稀疏表示进行图像分割的方法
CN102651073A (zh) * 2012-04-07 2012-08-29 西安电子科技大学 基于稀疏动态集成选择的sar图像地物分类方法
CN104239902A (zh) * 2014-09-12 2014-12-24 西安电子科技大学 基于非局部相似性和稀疏编码的高光谱图像分类方法

Also Published As

Publication number Publication date
CN104572930A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104616029B (zh) 数据分类方法及装置
CN103559504B (zh) 图像目标类别识别方法及装置
CN103403739B (zh) 用于比较图像的方法和系统
EP3853764A1 (en) Training neural networks for vehicle re-identification
Moallem et al. Optimal threshold computing in automatic image thresholding using adaptive particle swarm optimization
CN109816009A (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN106611052A (zh) 文本标签的确定方法及装置
CN102592148A (zh) 基于非负矩阵分解和多种距离函数的人脸识别方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN108229588B (zh) 一种基于深度学习的机器学习识别方法
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN104572930B (zh) 数据分类方法及装置
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
US20210216874A1 (en) Radioactive data generation
CN109766469A (zh) 一种基于深度哈希学习优化的图像检索方法
CN104376308B (zh) 一种基于多任务学习的人体动作识别方法
CN110826056A (zh) 一种基于注意力卷积自编码器的推荐系统攻击检测方法
CN109919246A (zh) 基于自适应特征聚类和多重损失融合的行人重识别方法
CN113033458A (zh) 动作识别方法和装置
CN106845462A (zh) 基于三元组诱导的同时选择特征及聚类的人脸识别方法
US10733499B2 (en) Systems and methods for enhancing computer assisted high throughput screening processes
CN107423771B (zh) 一种两时相遥感图像变化检测方法
CN104298997B (zh) 数据分类方法及装置
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
CN108875445A (zh) 一种行人再识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant