CN104298729B - 数据分类方法及装置 - Google Patents

数据分类方法及装置 Download PDF

Info

Publication number
CN104298729B
CN104298729B CN201410510302.3A CN201410510302A CN104298729B CN 104298729 B CN104298729 B CN 104298729B CN 201410510302 A CN201410510302 A CN 201410510302A CN 104298729 B CN104298729 B CN 104298729B
Authority
CN
China
Prior art keywords
training
training sample
coefficient vector
sparse coefficient
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410510302.3A
Other languages
English (en)
Other versions
CN104298729A (zh
Inventor
龙飞
陈志军
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201410510302.3A priority Critical patent/CN104298729B/zh
Publication of CN104298729A publication Critical patent/CN104298729A/zh
Application granted granted Critical
Publication of CN104298729B publication Critical patent/CN104298729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开揭示了一种数据分类方法及装置,属于数据分类技术领域。所述数据分类方法包括:获取测试数据,通过预定方法计算得到与测试数据对应的稀疏系数向量;根据训练得到的训练矩阵确定稀疏系数向量中的每个非零变量针对每种类别标签的后验概率;根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别。通过确定稀疏系数向量中的每个非零变量针对每种类别的后验概率,将后验概率和值最大的类别确定为测试数据的类别;因此解决了一般的分类方法由于需要训练复杂的分类器且存在大量的模型文件,从而使得分类速度较慢的问题;达到了提高分类效率的效果。

Description

数据分类方法及装置
技术领域
本公开涉及数据分类技术领域,特别涉及一种数据分类方法及装置。
背景技术
分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类器。该分类器能把未知类别的样本映射到给定类别中,如何更好地使用分类器就成了提高分类效果的关键。
相关技术中在字典学习与稀疏分解算法的基础上,一般的分类方法会应用复杂的分类器模型,同时对分类器本身进行训练,并需要大量模型文件。
发明人在实现本公开的过程中,发现相关技术至少存在如下缺陷:一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢。
发明内容
为了解决相关技术中一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢的问题,本公开提供一种数据分类方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种数据分类方法,所述方法包括:
获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;
对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率;
根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;
将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。
可选的,所述方法还包括:
选取第一训练样本集和第二训练样本集;
利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,将所述稀疏系数向量确定为训练稀疏系数向量;
对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概率;
利用各个位置的变量所对应的后验概率组成所述训练矩阵;
其中,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签。
可选的,所述根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概率,包括:
对于所述训练稀疏系数向量中的一个位置,获取各个所述训练稀疏系数向量中所述位置处的变量,利用后验概率公式计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验概率;
其中,所述后验概率公式为:
P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)
其中,先验概率P(Ci)为所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为所述稀疏系数向量中变量xj为非0的概率;条件概率P(xj!=0|C=Ci)为在所述训练稀疏系数向量所对应的训练样本属于第Ci类时,所述稀疏系数向量的变量xj为非0的概率;所述后验概率P(C=Ci|xj!=0)为在所述稀疏系数向量中变量xj为非0时,所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率,i、j为大于0的自然数。
可选的,所述利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,包括:
将所述第一训练样本集中的各个训练样本变换为列向量,将得到的列向量依序排列成矩阵,构成所述字典,利用第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
对于所述第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
根据类别对所述第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量。
其中,所述第一公式为:min(x)||x||1,s.t.y=Dx,所述D为字典,y为所述训练数据,x为上述稀疏系数向量。
可选的,所述通过预定方法计算得到与所述测试数据对应的稀疏系数向量,包括:
利用训练时得到的所述字典以及所述测试数据,得到所述测试数据对应的稀疏系数向量。
根据本公开实施例的第二方面,提供一种数据分类装置,所述装置包括:
第一计算模块,被配置为获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;
第一确定模块,被配置为对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率;
第二计算模块,被配置为根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;
第二确定模块,被配置为将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。
可选的,所述装置还包括:
选取模块,被配置为选取第一训练样本集和第二训练样本集;
第三计算模块,被配置为利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,将所述稀疏系数向量确定为训练稀疏系数向量;
第四计算模块,被配置为对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概率;
组成模块,被配置为利用各个位置的变量所对应的后验概率组成所述训练矩阵;
其中,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签
可选的,所述第四计算模块被配置为对于所述训练稀疏系数向量中的一个位置,获取各个所述训练稀疏系数向量中所述位置处的变量,利用后验概率公式计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验概率;
其中,所述后验概率公式为:
P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)
其中,先验概率P(Ci)为所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为所述稀疏系数向量中变量xj为非0的概率;条件概率P(xj!=0|C=Ci)为在所述训练稀疏系数向量所对应的训练样本属于第Ci类时,所述稀疏系数向量的变量xj为非0的概率;所述后验概率P(C=Ci|xj!=0)为在所述稀疏系数向量中变量xj为非0时,所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率,i、j为大于0的自然数。
可选的,所述第三计算模块,包括:
第一计算子模块,被配置为将所述第一训练样本集中的各个训练样本变换为列向量,将得到的列向量依序排列成矩阵,构成所述字典,利用第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
第二计算子模块,被配置为对于所述第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
第三计算子模块,被配置为根据类别对所述第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的所述字典,,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量。
其中,所述第一公式为:min(x)||x||1,s.t.y=Dx,所述D为字典,y为所述训练数据,x为上述稀疏系数向量。
可选的,所述第一计算模块被配置为利用训练时得到的所述字典以及所述测试数据,得到所述测试数据对应的稀疏系数向量。
根据本公开实施例的第三方面,提供一种数据分类装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;
对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率;
根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;
将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过计算得到与测试数据对应的稀疏系数向量,根据训练得到的训练矩阵确定稀疏系数向量中的每个非零变量针对每种类别标签的后验概率,计算每种类别标签所对应的后验概率之和,将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别;由于只需计算后验概率就能确定测试数据的类别,因此解决了一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢的问题;达到了提高分类效率的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种数据分类方法的流程图;
图2是根据另一示例性实施例示出的一种数据分类方法的流程图;
图3是根据一示例性实施例示出的一种数据分类装置的框图;
图4是根据另一示例性实施例示出的一种数据分类装置的框图;
图5是根据一示例性实施例示出的一种用于对数据进行分类的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种数据分类方法的流程图,如图1所示,该数据分类方法可以包括以下步骤。
在步骤101中,获取测试数据,通过预定方法计算得到与测试数据对应的稀疏系数向量,稀疏系数向量是测试数据映射到训练得到的字典上时得到的系数向量。
在步骤102中,对于稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定非零变量针对每种类别标签的后验概率。
在步骤103中,根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和。
在步骤104中,将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别。
综上所述,本公开实施例中提供的数据分类方法,通过计算得到与测试数据对应的稀疏系数向量,根据训练得到的训练矩阵确定稀疏系数向量中的每个非零变量针对每种类别标签的后验概率,计算每种类别标签所对应的后验概率之和,将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别;由于只需计算后验概率就能确定测试数据的类别,因此解决了一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢的问题;达到了提高分类效率的效果。
图2是根据另一示例性实施例示出的一种数据分类方法的流程图,如图2所示,该数据分类方法可以包括以下步骤。
在步骤201中,选取第一训练样本集和第二训练样本集。
这里的第一训练样本集和第二训练样本集可以是从一个总训练样本集中选取得到,第一训练样本集中的训练样本可以与第二训练样本集中的训练样本相同、部分相同或者全部不同。
举例来讲,在一个总训练样本集中有10000个训练样本,此时可以选取3000个训练样本作为第一训练样本集,选取剩下的7000个训练样本作为第二训练样本集;或者选取6000个训练样本作为第一训练样本集,选取7000个训练样本作为第二训练样本集,其中在第一训练样本集和第二训练样本集中有3000个相同的训练样本;或者选取全部10000个训练样本作为第一训练样本集和第二训练样本集,这样第一训练样本集和第二训练样本集中的训练样本就全部相同。
在步骤202中,利用第一训练样本集得到字典,对于第二训练样本集中的每个训练样本,计算训练样本映射到字典时得到的稀疏系数向量,将稀疏系数向量确定为训练稀疏系数向量。
在利用第一训练样本集获取字典时,可以通过以下三种方式实现。
在第一种实现方式中,将第一训练样本集中的各个训练样本变换为列向量,将得到的列向量依序排列成矩阵,构成字典。
举例来讲,第一训练样本集中有10000张mxn的图像作为训练样本,首先将每幅图像转换为(m*n)x1的列向量,得到10000个列向量,将这10000个列向量级联为一个(m*n)x10000的矩阵,该矩阵即为字典。其中,10000个列向量与10000个训练样本一一对应。
在第二种实现方式中,对于第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到字典。
这里的奇异值分解算法主要步骤为:获取初始化字典,采用正交匹配跟踪算法计算得到稀疏系数矩阵,根据得到的稀疏系数矩阵利用第二公式迭代地更新字典与稀疏系数矩阵。
这里的第二公式为:min(X,D)(||Y-DX||F)2s.t.||xi||≤T0,其中X为稀疏系数矩阵,D为字典,Y为训练样本矩阵。
奇异值分解算法是本领域普通技术人员都能够实现的,这里就不再详述。
在第三种实现方式中,根据类别对第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的字典。
在得到字典后,可以利用第一公式计算第二训练样本集中的各个训练样本映射到字典时得到的稀疏系数向量,并将该稀疏系数向量确定为训练稀疏系数向量。
其中,第一公式为:min(x)||x||1,s.t.y=Dx,D为通过上述三种实现方式中任意一种得到的字典,y为第二训练样本集中的训练样本,x为需要求解的训练稀疏系数向量。
在步骤203中,对于每个类别标签所指示的类别,根据各个训练稀疏系数向量中的位于同一位置的各个变量,利用后验概率公式计算该位置处的变量为非零时,训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验概率。
这里的后验概率公式为:
P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)
其中,先验概率P(Ci)为训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为稀疏系数向量中变量xj为非0的概率;条件概率P(xj!=0|C=Ci)为在训练稀疏系数向量所对应的训练样本属于第Ci类时,稀疏系数向量的变量xj为非0的概率;后验概率P(C=Ci|xj!=0)为在稀疏系数向量中变量xj为非0时,训练稀疏系数向量所对应的训练样本属于第Ci类的概率,i、j为大于0的自然数。
条件概率P(xj!=0|C=Ci)可以根据各个训练稀疏系数向量中的位于同一位置的各个变量,进行相应计算得到。
举例来讲,得到的训练稀疏系数向量分别为其中,训练稀疏系数向量所对应的训练样本属于C1类,训练稀疏系数向量所对应的训练样本属于C2类。
在属于C1类的训练稀疏系数向量中,对应于第一位置的各个变量分别为1、1、0,由此可知,在训练稀疏系数向量所对应的训练样本属于C1类时,其第一位置的变量为非零的概率为2/3;对应于第二位置的各个变量分别为0、2、3,由此可知,在训练稀疏系数向量所对应的训练样本属于C1类时,其第二位置的变量为非零的概率为2/3;对应于第三位置的各个变量分别为0、0、2,由此可知,在训练稀疏系数向量所对应的训练样本属于C1类时,其第三位置的变量为非零的概率为1/3。
在属于C2类的训练稀疏系数向量中,对应于第一位置的各个变量分别为2、0,由此可知,在训练稀疏系数向量所对应的训练样本属于C2类时,其第一位置的变量为非零的概率为1/2;对应于第二位置的各个变量分别为1、2,由此可知,在训练稀疏系数向量所对应的训练样本属于C2类时,其第二位置的变量为非零的概率为1;对应于第三位置的各个变量分别为3、0,由此可知,在训练稀疏系数向量所对应的训练样本属于C2类时,其第三位置的变量为非零的概率为1/2。
需要说明的是,这里的先验概率P(Ci)和P(xj!=0)可以等同于平均分布。
在步骤204中,利用各个位置的变量所对应的后验概率组成训练矩阵。
在计算得到各个变量属于每个类别标签所指示类别的后验概率后,将得到的这些后验概率组成一个训练矩阵,该训练矩阵可以应用于测试中。
训练矩阵中一行的数据分别为各个训练稀疏系数向量中同一个位置的变量所对应的后验概率,训练矩阵的每一行对应各个训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签。
举例来讲,假设共有三类类别标签,计算得到第一位置的变量x1属于C1类的后验概率为30%,属于C2类的后验概率为20%,属于C3类的后验概率为50%;第二位置的变量x2属于C1类的后验概率为20%,属于C2类的后验概率为50%,属于C3类的后验概率为30%。此时将这些后验概率组成的训练矩阵为其中矩阵的第一行代表第一位置的变量x1属于各类类别标签的概率,第二行代表第二位置的变量x2属于各类类别标签的概率,第一列代表各个训练样本属于C1类的概率,第二列代表各个训练样本属于C2类的概率,第三列代表各个训练样本属于C3类的概率。
在步骤205中,获取测试数据,利用训练时得到的字典以及测试数据,得到与测试数据对应的稀疏系数向量。
在获取测试数据和训练时得到的字典后,可以利用第一公式计算与测试数据对应的稀疏系数向量。
这里的第一公式为:min(x)||x||1,s.t.y=Dx,D为通过步骤202中任意一种实现方式得到的字典,y为测试数据,x为需要求解的测试数据的稀疏系数向量。
在步骤206中,对于稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定非零变量针对每种类别标签的后验概率。
由于训练得到的训练矩阵中有各个变量属于每个类别标签所指示类别的后验概率,因此在获得测试数据的稀疏系数向量后,可以根据该训练矩阵得到该稀疏系数向量中每个非零变量针对每种类别标签的后验概率。
举例来讲,训练得到的训练矩阵为测试数据的稀疏系数向量为根据该训练矩阵可以得到测试数据的稀疏系数向量中第一位置的非零变量属于C1类的概率为30%,属于C2类的概率为20%,属于C3类的概率为50%;第二位置的非零变量属于C1类的概率为20%,属于C2类的概率为50%,属于C3类的概率为30%;由于第三位置的变量为零,因此不作考虑。
在步骤207中,根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和。
在获得稀疏系数向量中每个非零变量针对每种类别标签的后验概率后,将每种类别标签对应的后验概率相加,得到每种类别标签对应的后验概率之和。
仍参照上述例子,测试数据的稀疏系数向量为其中,第一位置非零变量属于C1类的概率为30%,属于C2类的概率为20%,属于C3类的概率为50%;第二位置的非零变量属于C1类的概率为20%,属于C2类的概率为50%,属于C3类的概率为30%。将每种类别标签对应的后验概率相加后,得到测试数据属于C1类的后验概率之和为50%,属于C2类的后验概率之和为70%,属于C3类的后验概率之和为80%。
在步骤208中,将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别。
在获得每种类别标签对应的后验概率之和后,将这些后验概率和值进行比较,得出和值最大的后验概率,将后验概率和值最大的类别标签对应的类别确定为测试数据的类别。
仍参照上述例子,在将每种类别标签对应的后验概率相加后,得到测试数据属于C1类的后验概率之和为50%,属于C2类的后验概率之和为70%,属于C3类的后验概率之和为80%。可以得出后验概率之和最大为80%,此时将后验概率之和为80%的类别标签所对应的C3类确定为测试数据的类别。
综上所述,本公开实施例中提供的数据分类方法,通过计算得到与测试数据对应的稀疏系数向量,根据训练得到的训练矩阵确定稀疏系数向量中的每个非零变量针对每种类别标签的后验概率,计算每种类别标签所对应的后验概率之和,将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别;由于只需计算后验概率就能确定测试数据的类别,因此解决了一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢的问题;达到了提高分类效率的效果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据一示例性实施例示出的一种数据分类装置的框图,如图3所示,该数据分类装置可以包括但不限于:第一计算模块302、第一确定模块304、第二计算模块306和第二确定模块308。
该第一计算模块302,被配置为获取测试数据,通过预定方法计算得到与测试数据对应的稀疏系数向量,稀疏系数向量是测试数据映射到训练得到的字典上时得到的系数向量。
该第一确定模块304,被配置为对于稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定非零变量针对每种类别标签的后验概率。
该第二计算模块306,被配置为根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和。
该第二确定模块308,被配置为将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别。
综上所述,本公开实施例中提供的数据分类装置,通过计算得到与测试数据对应的稀疏系数向量,根据训练得到的训练矩阵确定稀疏系数向量中的每个非零变量针对每种类别标签的后验概率,计算每种类别标签所对应的后验概率之和,将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别;由于只需计算后验概率就能确定测试数据的类别,因此解决了一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢的问题;达到了提高分类效率的效果。
图4是根据另一示例性实施例示出的一种数据分类装置的框图,如图4所示,该数据分类装置可以包括但不限于:第一计算模块402、第一确定模块404、第二计算模块406和第二确定模块408。
该第一计算模块402,被配置为获取测试数据,通过预定方法计算得到与测试数据对应的稀疏系数向量,稀疏系数向量是测试数据映射到训练得到的字典上时得到的系数向量。
该第一确定模块404,被配置为对于稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定非零变量针对每种类别标签的后验概率。
该第二计算模块406,被配置为根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和。
该第二确定模块408,被配置为将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别。
在一种可能的实施例中,该装置还包括:选取模块410、第三计算模块412、第四计算模块414和组成模块416。
该选取模块410,被配置为选取第一训练样本集和第二训练样本集。
该第三计算模块412,被配置为利用第一训练样本集得到字典,对于第二训练样本集中的每个训练样本,计算训练样本映射到字典时得到的稀疏系数向量,将稀疏系数向量确定为训练稀疏系数向量。
该第四计算模块414,被配置为对于每个类别标签所指示的类别,根据各个训练稀疏系数向量中的位于同一位置的各个变量,计算该位置处的变量为非零时,训练稀疏系数向量所对应的训练样本属于该类别标签所指示类别的后验概率。
该组成模块416,被配置为利用各个位置的变量所对应的后验概率组成训练矩阵。
其中,训练矩阵中一行的数据分别为各个训练稀疏系数向量中同一个位置的变量所对应的后验概率,训练矩阵的每一行对应各个训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签
在一种可能的实施例中,该第四计算模块414被配置为对于训练稀疏系数向量中的一个位置,获取各个训练稀疏系数向量中该位置处的变量,利用后验概率公式计算该位置处的变量为非零时,训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验概率。
其中,后验概率公式为:
P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)
其中,先验概率P(Ci)为训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为稀疏系数向量中变量xj为非0的概率;条件概率P(xj!=0|C=Ci)为在训练稀疏系数向量所对应的训练样本属于第Ci类时,稀疏系数向量的变量xj为非0的概率;后验概率P(C=Ci|xj!=0)为在稀疏系数向量中变量xj为非0时,训练稀疏系数向量所对应的训练样本属于第Ci类的概率,i、j为大于0的自然数。
在一种可能的实施例中,该第三计算模块412可以包括:第一计算子模块412a、第二计算子模块412b或第三计算子模块412c。
该第一计算子模块412a,被配置为将第一训练样本集中的各个训练样本变换为列向量,将得到的列向量依序排列成矩阵,构成字典,利用第一公式计算得到第二训练样本集中的训练样本的稀疏系数向量。
或,
该第二计算子模块412b,被配置为对于第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到字典,利用第一公式计算得到第二训练样本集中的训练样本的稀疏系数向量。
或,
该第三计算子模块412c,被配置为根据类别对第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的字典,利用第一公式计算得到第二训练样本集中的训练样本的稀疏系数向量。
在一种可能的实施例中,该第一计算模块402被配置为利用训练时得到的字典以及测试数据,得到测试数据对应的稀疏系数向量。
综上所述,本公开实施例中提供的数据分类装置,通过计算得到与测试数据对应的稀疏系数向量,根据训练得到的训练矩阵确定稀疏系数向量中的每个非零变量针对每种类别标签的后验概率,计算每种类别标签所对应的后验概率之和,将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别;由于只需计算后验概率就能确定测试数据的类别,因此解决了一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢的问题;达到了提高分类效率的效果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种数据分类装置,能够实现本公开提供的数据分类方法,该数据分类装置包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取测试数据,通过预定方法计算得到与测试数据对应的稀疏系数向量,稀疏系数向量是测试数据映射到训练得到的字典上时得到的系数向量;
对于稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定非零变量针对每种类别标签的后验概率;
根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;
将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别。
图5是根据一示例性实施例示出的一种用于进行数据分类的装置的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件502,其进一步包括一个或多个处理器,以及由存储器504所代表的存储器资源,用于存储可由处理组件502的执行的指令,例如应用程序。存储器504中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件502被配置为执行指令,以执行上述数据分类方法。
装置500还可以包括一个电源组件506被配置为执行装置500的电源管理,一个有线或无线网络接口508被配置为将装置500连接到网络,和一个输入输出(I/O)接口510。装置500可以操作基于存储在存储器504的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种数据分类方法,其特征在于,所述方法包括:
选取第一训练样本集和第二训练样本集,所述第一训练样本集和所述第二训练样本集中的训练样本为图片;
利用所述第一训练样本集得到字典,对于所述第二训练样本集中的每个训练样本,计算训练样本映射到所述字典时得到的稀疏系数向量,将所述稀疏系数向量确定为训练稀疏系数向量;
对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于类别标签所指示类别的后验概率;
利用各个位置的变量所对应的后验概率组成训练矩阵,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签;
获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;
对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率,所述训练矩阵中包括各个变量属于每个类别标签所指示类别的后验概率;
根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;
将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概率,包括:
对于所述训练稀疏系数向量中的一个位置,获取各个所述训练稀疏系数向量中所述位置处的变量,利用后验概率公式计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验概率;
其中,所述后验概率公式为:
P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)
其中,先验概率P(Ci)为所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为所述稀疏系数向量中变量xj为非0的概率;条件概率P(xj!=0|C=Ci)为在所述训练稀疏系数向量所对应的训练样本属于第Ci类时,所述稀疏系数向量的变量xj为非0的概率;所述后验概率P(C=Ci|xj!=0)为在所述稀疏系数向量中变量xj为非0时,所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率,i、j为大于0的自然数。
3.根据权利要求1所述的方法,其特征在于,所述利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,包括:
将所述第一训练样本集中的各个训练样本变换为列向量,将得到的列向量依序排列成矩阵,构成所述字典,利用第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
对于所述第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
根据类别对所述第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
其中,所述第一公式为:min(x)||x||1,s.t.y=Dx,所述D为字典,y为所述第二训练样本集中的训练样本,x为上述稀疏系数向量。
4.根据权利要求1至3中任一所述的方法,其特征在于,所述通过预定方法计算得到与所述测试数据对应的稀疏系数向量,包括:
利用训练时得到的所述字典以及所述测试数据,得到所述测试数据对应的稀疏系数向量。
5.一种数据分类装置,其特征在于,所述装置包括:
选取模块,被配置为选取第一训练样本集和第二训练样本集,所述第一训练样本集和所述第二训练样本集中的训练样本为图片;
第三计算模块,被配置为利用所述第一训练样本集得到字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,将所述稀疏系数向量确定为训练稀疏系数向量;
第四计算模块,被配置为对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于类别标签所指示类别的后验概率;
组成模块,被配置为利用各个位置的变量所对应的后验概率组成训练矩阵,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签;
第一计算模块,被配置为获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;
第一确定模块,被配置为对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率,所述训练矩阵中包括各个变量属于每个类别标签所指示类别的后验概率;
第二计算模块,被配置为根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;
第二确定模块,被配置为将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。
6.根据权利要求5所述的装置,其特征在于,
所述第四计算模块,被配置为对于所述训练稀疏系数向量中的一个位置,获取各个所述训练稀疏系数向量中所述位置处的变量,利用后验概率公式计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验概率;
其中,所述后验概率公式为:
P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)
其中,先验概率P(Ci)为所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为所述稀疏系数向量中变量xj为非0的概率;条件概率P(xj!=0|C=Ci)为在所述训练稀疏系数向量所对应的训练样本属于第Ci类时,所述稀疏系数向量的变量xj为非0的概率;所述后验概率P(C=Ci|xj!=0)为在所述稀疏系数向量中变量xj为非0时,所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率,i、j为大于0的自然数。
7.根据权利要求5所述的装置,其特征在于,所述第三计算模块,包括:
第一计算子模块,被配置为将所述第一训练样本集中的各个训练样本变换为列向量,将得到的列向量依序排列成矩阵,构成所述字典,利用第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
第二计算子模块,被配置为对于所述第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
或,
第三计算子模块,被配置为根据类别对所述第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;
其中,所述第一公式为:min(x)||x||1,s.t.y=Dx,所述D为字典,y为所述第二训练样本集中的训练样本,x为上述稀疏系数向量。
8.根据权利要求5至7中任一所述的装置,其特征在于,所述第一计算模块被配置为利用训练时得到的所述字典以及所述测试数据,得到所述测试数据对应的稀疏系数向量。
9.一种数据分类装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
选取第一训练样本集和第二训练样本集,所述第一训练样本集和所述第二训练样本集中的训练样本为图片;
利用所述第一训练样本集得到字典,对于所述第二训练样本集中的每个训练样本,计算训练样本映射到所述字典时得到的稀疏系数向量,将所述稀疏系数向量确定为训练稀疏系数向量;
对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于类别标签所指示类别的后验概率;
利用各个位置的变量所对应的后验概率组成训练矩阵,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签;
获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;
对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率,所述训练矩阵中包括各个变量属于每个类别标签所指示类别的后验概率;
根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;
将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。
CN201410510302.3A 2014-09-28 2014-09-28 数据分类方法及装置 Active CN104298729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410510302.3A CN104298729B (zh) 2014-09-28 2014-09-28 数据分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410510302.3A CN104298729B (zh) 2014-09-28 2014-09-28 数据分类方法及装置

Publications (2)

Publication Number Publication Date
CN104298729A CN104298729A (zh) 2015-01-21
CN104298729B true CN104298729B (zh) 2018-02-23

Family

ID=52318454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410510302.3A Active CN104298729B (zh) 2014-09-28 2014-09-28 数据分类方法及装置

Country Status (1)

Country Link
CN (1) CN104298729B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192456A (zh) * 2020-01-14 2020-05-22 泉州市益典信息科技有限公司 一种道路交通运行态势多时间尺度预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN103985143A (zh) * 2014-05-30 2014-08-13 上海交通大学 基于字典学习的视频中判别性在线目标跟踪方法
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7440944B2 (en) * 2004-09-24 2008-10-21 Overture Services, Inc. Method and apparatus for efficient training of support vector machines

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN103985143A (zh) * 2014-05-30 2014-08-13 上海交通大学 基于字典学习的视频中判别性在线目标跟踪方法
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于稀疏表示的代价敏感性人脸识别算法研究;满江月;《中国优秀硕士学位论文全文数据库》;20130215;第I138-1824页 *
基于稀疏表示的目标跟踪算法研究;周围;《中国优秀硕士学位论文全文数据库》;20140615;第I138-834页 *
贝叶斯学习理论及其应用研究;宫秀军;《中国优秀博士学位论文全文数据库》;20070215;第I140-16页 *

Also Published As

Publication number Publication date
CN104298729A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN104063876B (zh) 一种交互式图像分割方法
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
WO2018227800A1 (zh) 一种神经网络训练方法及装置
van De Sande Properties Of The Bayesian Knowledge Tracing Model.
CN104881689B (zh) 一种多标签主动学习分类方法及系统
CN104616029B (zh) 数据分类方法及装置
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN107220277A (zh) 基于手绘草图的图像检索算法
CN110135582B (zh) 神经网络训练、图像处理方法及装置、存储介质
CN103559504A (zh) 图像目标类别识别方法及装置
CN110245080B (zh) 生成场景测试用例的方法及装置
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
US20190012611A1 (en) Information processing system
CN104536881A (zh) 基于自然语言分析的众测错误报告优先级排序方法
CN108596274A (zh) 基于卷积神经网络的图像分类方法
CN109919209A (zh) 一种领域自适应深度学习方法及可读存储介质
CN106156857B (zh) 变分推理的数据初始化的方法和装置
CN110264274A (zh) 客群划分方法、模型生成方法、装置、设备及存储介质
CN104657709A (zh) 人脸图像识别方法、装置及服务器
CN108228684A (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
Chan et al. Leveraging social connections to improve peer assessment in MOOCs
CN103810522A (zh) 一种玉米果穗籽粒计数方法和装置
Webb et al. How does network structure and complexity in river systems affect population abundance and persistence?
CN104298997B (zh) 数据分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant