CN104951791B - 数据分类方法和装置 - Google Patents

数据分类方法和装置 Download PDF

Info

Publication number
CN104951791B
CN104951791B CN201410117603.XA CN201410117603A CN104951791B CN 104951791 B CN104951791 B CN 104951791B CN 201410117603 A CN201410117603 A CN 201410117603A CN 104951791 B CN104951791 B CN 104951791B
Authority
CN
China
Prior art keywords
data
feature
sorted
binaryzation
compressed code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410117603.XA
Other languages
English (en)
Other versions
CN104951791A (zh
Inventor
江焯林
甄毅
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410117603.XA priority Critical patent/CN104951791B/zh
Publication of CN104951791A publication Critical patent/CN104951791A/zh
Application granted granted Critical
Publication of CN104951791B publication Critical patent/CN104951791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据分类方法和装置。其中,方法包括:根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据;利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码;利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别。本发明实施例提供的数据分类方法和装置,可以克服现有技术的数据分类方法计算量过大,计算效率低的问题。

Description

数据分类方法和装置
技术领域
本发明实施例涉及通信技术,尤其涉及一种数据分类方法和装置。
背景技术
数据分类技术一直是IT工业界和学术界的研究热点。数据分类技术可以包括图片场景分类、文本分类(例如应用于多语言文本情感分类领域)、多媒体语义分类(例如应用于多媒体语义识别领域)。图片场景分类可以为图片的后续处理提供方便,一个潜在的应用场合是在手机平台上。随着智能手机的普及,手机拍照已经成为手机的第二大功能。通过手机拍摄场景图片而识别出用户所处的环境,可以为用户提供相关服务,例如判定拍摄图片是在会议厅,自动设置成会议状态模式,使得手机变得更加智能。
现有的数据分类技术是基于实特征向量进行分类,使用实数值的特征表示作为输入进行分类器训练,但这种技术需要耗费大量的计算资源,计算效率低,不适用于大规模数据的分类。
发明内容
本发明实施例提供一种数据分类方法和装置,以克服现有技术的数据分类方法计算量过大,计算效率低的问题。
第一方面,本发明实施例提供一种数据分类方法,包括:
根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据;
利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码;
利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别。
在第一方面的第一种可能的实现方式中,在所述根据从待分类数据中抽取到的至少一个特征对所述原始数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据之前,还包括:
对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,所述样本数据来自于所述待分类数据;
利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,并获得二值化压缩码;
将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器。
根据第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,包括:
利用所述压缩码训练数据,根据以下使分类误差的目标函数最小化的公式进行编码器训练:
其中,αik是权重系数,l(yik·fk(xi))为损失函数,所述损失函数的表达式为l(a)=max(0,1-a),yik∈(-1,1),为xi在第k类别的类别标识,xi为第i个压第m个特征对应的投影矩阵,φ(A(m)xi (m))为哈希函数,N为所述压缩码训练数据的个数,K为所述压缩码训练数据的类别个数,g(W)和h(A)是两个规范化函数,分别用于调整分类参数矩阵W和投影矩阵A的作用,λ1和λ2为两个实数,分别用于调整规范化函数g(W)和h(A);
训练后得到所述投影矩阵A、所述分类参数矩阵W和偏置矩阵B;
并将所述哈希函数:φ(A(m)xi (m))作为二值化压缩码编码器。
根据第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,包括:通过如下函数对所述待分类数据的二值化压缩码进行分类处理:
根据第一方面的第二种或第三种可能的实现方式,在第四种可能的实现方式中,在所述利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练之前,还包括:
为所述样本数据的各个特征分配分类器回归系数或权重的稀疏性限制,以使所述二值化压缩码编码器进行编码时每个特征分配相同或不同的位数。
根据第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述为所述每个特征分配分类器回归系数或权重的稀疏性限制,包括:
引入分类参数矩阵W=[w1…wK]∈RCM×K,其中C表示对每种特征的编码长度,M表示特征的数量,K表示分类目标的类别个数,C、M、K分别为大于1的整数,wk为列向量,表示第k个类别中各个特征对应的分类参数,k={1,…,K}。
根据第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述为所述每个特征分配分类器回归系数或权重的稀疏性限制,包括:
利用L2,1范数对分类参数矩阵W进行稀疏性限制。
在第一方面的第七种可能的实现方式中,在所述根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据之前,还包括:
从所述待分类数据抽取至少一个特征,所述特征反映所述待分类数据的特点。
根据第一方面的第七种可能的实现方式,在第八种可能的实现方式中,所述从所述待分类数据抽取至少一个特征,包括采用以下至少一个算法处理所述待分类数据:尺度不变特征转换SIFT、词袋BOW和面向分类的全局图像特征GIST。
根据第一方面的第一种至第八可能的实现方式中的任意一种,在第九种可能的实现方式中,所述对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,包括:
对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,并对所述样本数据进行类别标记,形成压缩码训练数据。
根据第一方面的第一种至第九可能的实现方式中的任意一种,在第十种可能的实现方式中,所述将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器,包括:
采用支持向量机SVM、贝叶斯模型和逻辑回归函数中的任意一个作为分类器,利用二值化压缩码对分类器进行训练,获得基于所述二值化压缩码的分类器。
第二方面,本发明实施例提供一种数据分类装置,包括:
归一化处理模块,用于根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据;
压缩模块,用于利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码;
分类模块,用于利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别。
在第二方面的第一种可能的实现方式中:
所述归一化处理模块,还用于对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,所述样本数据来自于所述待分类数据;
所述装置还包括:
编码器训练模块,用于利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,并获得二值化压缩码;
分类器训练模块,用于将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器。
根据第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述编码器训练模块,具体用于:
利用所述压缩码训练数据,根据以下使分类误差的目标函数最小化的公式进行编码器训练:
其中,αik是权重系数,l(yik·fk(xi))为损失函数,所述损失函数的表达式为l(a)=max(0,1-a),yik∈(-1,1),为xi在第k类别的类别标识,xi影矩阵,A(m)为第m个特征对应的投影矩阵,φ(A(m)xi (m))为哈希函数,N为所述压缩码训练数据的个数,K为所述压缩码训练数据的类别个数,g(W)和h(A)是两个规范化函数,分别用于调整分类参数矩阵W和投影矩阵A的作用,λ1和λ2为两个实数,分别用于调整规范化函数g(W)和h(A);
训练后得到所述投影矩阵A、所述分类参数矩阵W和偏置矩阵B;
并将所述哈希函数:φ(A(m)xi (m))作为二值化压缩码编码器。
根据第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述分类模块具体用于:
通过如下函数对所述待分类数据的二值化压缩码进行分类处理:
根据第二方面的第二种或第三种可能的实现方式,在第四种可能的实现方式中,编码器训练模块,还用于:
为所述样本数据的各个特征分配分类器回归系数或权重的稀疏性限制,以使所述二值化压缩码编码器进行编码时每个特征分配相同或不同的位数。
根据第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述编码器训练模块具体用于:
引入分类参数矩阵W=[w1…wK]∈RCM×K,其中C表示对每种特征的编码长度,M表示特征的数量,K表示分类目标的类别个数,C、M、K分别为大于1的整数,wk为列向量,表示第k个类别中各个特征对应的分类参数,k={1,…,K}。
根据第二方面的第五种可能的实现方式,在第六种可能的实现方式中,所述编码器训练模块具体用于:
利用L2,1范数对分类参数矩阵W进行稀疏性限制。
在第二方面的第七种可能的实现方式中,还包括:
特征抽取模块,用于从所述待分类数据抽取至少一个特征,所述特征反映所述待分类数据的特点。
根据第二方面的第七种可能的实现方式,在第八种可能的实现方式中,所述特征抽取模块具体用于:采用以下至少一个算法处理所述待分类数据:尺度不变特征转换SIFT、词袋BOW和面向分类的全局图像特征GIST。
根据第二方面的第一种至第八可能的实现方式中的任意一种,在第九种可能的实现方式中,所述归一化处理模块具体用于:
对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,并对所述样本数据进行类别标记,形成压缩码训练数据。
根据第二方面的第一种至第九可能的实现方式中的任意一种,在第十种可能的实现方式中,所述分类器训练模块具体用于:
采用支持向量机SVM、贝叶斯模型和逻辑回归函数中的任意一个作为分类器,利用二值化压缩码对分类器进行训练,获得基于所述二值化压缩码的分类器。
本发明实施例提供的数据分类方法和装置,通过对样本数据进行归一化处理,形成压缩码训练数据,并从该压缩码训练数据中学习得到二值化压缩码的表示函数,即哈希函数,将该哈希函数作为压缩编码模型,用所述哈希函数处理所述预处理后的每个特征对应的数据,得到每个特征对应的二值化压缩码,并将所述二值化压缩码作为分类器训练数据,用于训练分类器,从而获得基于二值化压缩码的分类器,然后利用所述基于所述二值化压缩码的分类器对待分类的数据进行分类,这样,可以减少数据的存储空间,加快运算速度,从而特别地,有利于基于手机平台的场景图片分类器训练和测试。另一方面,由于本发明实施例的数据分类方法在分类过程中所需要的数据量较小,因此占用内存较少,计算效率高,计算速度较快,能够直接在手机等便携设备上完成,避免了将数据传导到服务器上进行分类,能够提升用户使用的便利性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据分类方法实施例一的流程图;
图2为本发明数据分类方法实施例二的流程图;
图3为本发明数据分类方法实施例三的流程图;
图4为本发明数据分类装置实施例一的结构示意图;
图5为本发明数据分类装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
数据分类技术具有广阔的应用前景,但目前的分类结果并不理想,以手机图片的场景分类为例来分析,分类结果不理想的原因有:1)图片质量差别大,如受光照、角度的不同和手机摄影头的不同,即使同一个场景,拍摄的图片也会相差很大(即类内距离很大);2)场景图片种类众多,种类存在一定程度的相似性,种类越多,类间存在相似的机会就越大(及类间距离小);3)现有技术基于实数值特征进行分类,运算量过大,因此现有技术的基于实数值特征的分类器的分类效率低,占用内存较大,甚至不可能在手机等便携设备上部署。
基于上述问题,本发明实施例提出了一种新的数据分类方法,对待分类的数据采用二值码压缩码进行表示,从而降低了运算量。并且,与以往的二值码表示方法不同,本发明从样本数据中学习二值码的表示函数,而样本数据来自于原始数据,以保证分类的正确性。
并且,在一个实施例中,该表示函数可以综合使用多种不同类型的数据特征,并从样本数据中学习出不同特征的重要性,然后根据不同特征的重要性自动判断每种特征对应的压缩码长度,从而提高压缩码的可判别性,即提高分类的准确性。
本发明实施例提供的数据分类方法可以由手机、智能手机、个人电脑、笔记本电脑、平板电脑等设备完成。下面结合几个具体的实施例对本发明的方案进行详细说明。
图1为本发明数据分类方法实施例一的流程图,本实施例所述的数据可以为图片数据、文本数据、多媒体语义数据等。如图1所示,本实施例的方法可以包括:
步骤101、根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据。
具体地,例如对于图片数据而言,特征为颜色和纹理,通常颜色的取值范围为0-255,而纹理的取值范围例如为0-1,归一化处理可以使得所有特征的取值范围一致。
所述待分类数据可以为原始数据。
所述从待分类数据中抽取到的至少一个特征,可以通过特征抽取过程获得。
进一步地,所述特征抽取的过程,可以包括采用以下至少一个算法处理所述待分类数据:尺度不变特征转换(Scale-invariant Feature Transform,简称:SIFT)、词袋(Bagof Word,简称:BOW)和面向分类的全局图像特征(Global Image Features inRecognition,简称:GIST)。
步骤102、利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码。
其中,所述二值化压缩码编码器可以采用样本数据进行学习得到。
步骤103、利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别。
其中,步骤102中的二值化压缩码编码器和步骤103中的基于二值化压缩码的分类器可以采用样本数据进行学习和训练得到,具体的学习和训练过程将在下面的实施例二中介绍。
本实施例,由于采用了二值化压缩码编码器和基于二值化压缩码的分类器,可以减少数据的存储空间,加快运算速度,从而特别地,有利于基于手机平台的场景图片分类器训练和测试。另一方面,由于本发明实施例的数据分类方法在分类过程中所需要的数据量较小,因此占用内存较少,计算效率高,计算速度较快,能够直接在手机等便携设备上完成,避免了将数据传导到服务器上进行分类,能够提升用户使用的便利性。
图2为本发明数据分类方法实施例二的流程图,本实施例在图1所示实施例的基础上,在进行数据分类之前,增加了编码器训练和分类器训练的过程。如图2所示,本实施例的方法可以包括:
步骤201、对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,所述样本数据来自于所述待分类数据。
具体实现时,样本数据可以为待分类数据的一部分,例如待分类数据为100个图片,则可以采用其中的10个图片作为样本数据。
进一步地,步骤201中对数据进行归一化处理,可以包括根据所述至少一个特征对所述数据进行归一化,以使所述样本数据的各个特征对应的数据取值范围一致;可选地,还可以对所述数据进行类别标记。对所述数据进行类别标记,是指将某个数据标记为某个类别。例如,对于图片数据,可以将某个图片标记为会议场景。
步骤202、利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,并获得二值化压缩码。
具体地,可以根据使分类误差的目标函数最小化的函数进行编码器训练,从而学习得到压缩编码模型。
以图片数据的分类为例,假设有N个图片,每个图片具有M个不同的特征,再假设第m个特征可以表示为一个D(m)维的矢量,每个图片属于K个类别中的一个。具体地,可以使用x来代表一个图片,x(m)代表该图片的第m个特征。然后,图片的M个特征中的每一个特征可以学习到一个C维的二值码,其中,C可以由用户定义,M个这样的C维二值码联合起来就构成了该图片的压缩码。假设训练数据为:
所述使分类误差的目标函数最小化的公式为如下的公式(1):
其中,αik是权重系数,l(yik×fk(xi))为损失函数,所述损失函数的表达式为l(a)=max(0,1-a),yik∈(-1,1),为xi在第k类别中的类别标识,xi为第为第m个特征对应的投影矩阵,φ(A(m)xi (m))为哈希函数,N为所述压缩码训练数据的个数,K为所述压缩码训练数据的类别个数,g(W)和h(A)是两个规范化函数,分别用于调整分类参数矩阵W和投影矩阵A的作用,A为投影矩阵,W为分类参数矩阵,λ1和λ2为两个实数,分别用于调整规范化函数g(W)和h(A),B为偏置参数矩阵,B={b1,b2,…,bK}。
将压缩码训练数据代入到公式(1),并求解A、W、B,即利用公式(1)对压缩码训练数据进行学习,可以得到以下哈希函数,即公式(2):
φ(A(m)xi (m)) (2)
其中,哈希函数φ(A(m)xi (m))为元素选择指示函数,当变量大于0时,该函数值为1,否则为零;A为投影矩阵,xi为第i个压缩码训练数据,结合起来,φ(A(m)xi (m))可以将第m个特征映射到一个C维的二值码矢量上,因此,公式(2)所示的哈希函数即可以作为压缩码编码器。对于获得二值化压缩码的过程,具体地,可以将归一化之后的数据输入到公式(2)所示的哈希函数,即代入xi,可以输出二值化压缩码。
步骤202的过程为编码器训练过程,本实施例是通过联合优化一个基本分类误差的目标函数即公式(1)进行的。
步骤203、将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器。
具体地,将步骤202得到的二值化压缩码作为分类器的输入,对分类器进行训练,可以获得基于所述二值化压缩码的分类器。
具体地,所述基于二值化压缩码的分类器可以表示为如下的公式(3)
其中, 代表第k类别中第m个特征对应的分类参数,bk为偏置参数。
假设每个类别有一个对应的分类器,第k个类别的分类器就可以采用公式(3)的形式。
其中,所述分类器可以为以下任意一个分类器:支持向量机(Support VectorMachine,简称:SVM)、贝叶斯模型(Bayesian Model)和逻辑回归(Logistic Regression)。
对于图片数据,该分类器的输入是图片的二值化压缩码,输出是场景类别。
需要说明的是,以上的步骤202中对压缩编码器的训练以及步骤203中对分类器的训练,其输入数据可以为样本数据。上述步骤201~203为步骤204~206的准备过程。
步骤204、根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据。
具体实现时,从待分类数据中抽取到的特征与从样本数据中抽取到的特征相同。
步骤205、利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码。
步骤206、利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别。
本实施例,通过对样本数据进行归一化处理,形成压缩码训练数据,并从该压缩码训练数据中学习得到二值化压缩码的表示函数,即哈希函数,将该哈希函数作为二值化压缩码编码器,用所述哈希函数处理所述预处理后的每个特征对应的数据,得到每个特征对应的二值化压缩码,并将所述二值化压缩码作为分类器训练数据,用于训练分类器,从而获得基于二值化压缩码的分类器,然后利用所述基于所述二值化压缩码的分类器对待分类的数据进行分类,这样,可以减少数据的存储空间,加快运算速度,并且还可以提高分类准确性,从而特别地,有利于基于手机平台的场景图片分类器训练和测试。另一方面,由于本发明实施例的数据分类方法在分类过程中所需要的数据量较小,因此占用内存较少,计算速度较快,能够直接在手机等便携设备上完成,避免了将数据传导到服务器上进行分类,能够提升用户使用的便利性。
进一步地,上述实施例的编码器训练过程中,即步骤202,可以有以下两种方式。
在第一种方式中,对各个特征抽取同样长度的二值码。具体实现时,公式(1)中的规范化函数g(w)可以采用如下的公式(4)的形式:
在第二种方式中,根据不同特征在分类过程中的重要性来选择不同编码长度,即自适应编码,具体实现的思想是通过加入每个特征分配分类器回归系数或权重的稀疏性限制。对于公式(1)和公式(3)中的w,可以写成系数矩阵的表达形式W=[w1…wk]∈RCM×K,其中C表示对每种特征类型的编码长度,M表示特征类型种类,K表示分类目标总数,wi表示列向量。wi向量中每一维数值的大小代表了二值码中相应一位的重要性。
具体实现时,可利用L2,1范数对系数矩阵W进行稀疏性限制。这个稀疏性限制是将W执行关于行向量的稀疏性限制,也就是说大部分W中的行都是零向量,而W中的每一行又对应于二值码的中一个特征维,从而达到特征维数选择的目的。这时,规范化函数g(w)可以采用如下的公式(5)的形式:
采用第二种方式,除了可以从样本数据冲学习到不同类型的特征的表示函数,还可以并从样本数据中学习出不同特征的重要性,然后根据不同特征的重要性自动判断每种特征对应的压缩码长度,从而提高压缩码的可判别性,即提高分类的准确性。
图3为本发明数据分类方法实施例三的流程图,本实施例所述的数据可以为图片数据、文本数据、多媒体语义数据等。本实施例在图2所示方法的基础上,重点介绍了根据数据特征的重要程度自适应的选择压缩码长度,并基于压缩码进行分类的方法,并增加了如何提取特征的步骤。如图3所示,本实施例的方法可以包括:
步骤301、从所述样本数据抽取至少一个特征,所述特征反映所述样本数据的特点。
具体地,抽取特征的过程可以采用现有的方法,对于图片数据,可以从图片数据中抽取反应图像不同特点的图像表达形式,如SIFT,BOW和GIST等。
步骤302、根据所述至少一个特征对所述数据进行归一化处理,形成压缩码训练数据。
其中,还可以对所述数据进行类别标记。
步骤303、为每个特征分配分类器回归系数或权重的稀疏性限制。
具体地,对于分类参数W,可以引入系数矩阵W=[w1…wk]∈RCM×K,其中,代表第k类别中第m个特征对应的分类参数,C表示对每种特征类型的编码长度,M表示特征类型种类,K表示分类目标总数,wi表示列向量。
具体实现时,可以利用L2,1范数对系数矩阵W进行稀疏性限制。
步骤304、利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,并获得二值化压缩码。
需要说明的是,步骤304中压缩码编码器所处理的是样本数据,其输出为样本数据的二值化压缩码。
步骤305、将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器。
具体地,步骤305为利用步骤304中得到的样本数据的二值化压缩码对分类器进行训练,使其成为基于所述二值化压缩码的分类器。
步骤306、根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据。
步骤307、利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码。
步骤308、利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别。
本实施例,通过从样本数据中抽取特征,根据所述特征对所述样本数据进行归一化处理,形成压缩码训练数据,用于训练压缩码编码器,并通过为每个特征分配分类器回归系数或权重的稀疏性限制,从而在编码器训练过程中能够从样本数据中学习出不同特征的重要性,然后根据不同特征的重要性自动判断每种特征对应的压缩码长度,从而提高编码器输出的二值化压缩码的可判别性,从而基于所述二值化压缩码的分类器的分类准确性也能够提高,因此能够提高分类的准确性。
图4为本发明数据分类装置实施例一的结构示意图,如图4所示,本实施例的装置400可以包括:归一化处理模块401、压缩模块402、分类模块403,其中,
归一化处理模块401,用于根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据;
压缩模块402,用于利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码;
分类模块403,用于利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例的装置,由于采用了二值化压缩码编码器和基于二值化压缩码的分类器,可以减少数据的存储空间,加快运算速度,从而特别地,有利于基于手机平台的场景图片分类器训练和测试。另一方面,由于本发明实施例的数据分类方法在分类过程中所需要的数据量较小,因此占用内存较少,计算效率高,计算速度较快,能够直接在手机等便携设备上完成,避免了将数据传导到服务器上进行分类,能够提升用户使用的便利性。
图5为本发明数据分类装置实施例二的结构示意图,如图5所示,本实施例的装置500在图4所示装置的基础上,所述归一化处理模块,还可以用于对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,所述样本数据来自于所述待分类数据;
所述数据分类装置500还可以包括:
编码器训练模块404,用于利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,并获得二值化压缩码;
分类器训练模块405,用于将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器。
可选地,所述编码器训练模块404,具体可以用于:
利用所述压缩码训练数据,根据以下使分类误差的目标函数最小化的公式进行编码器训练:
其中,αik是权重系数,l(yik·fk(xi))是损失函数,所述损失函数的表达式为l(a)=max(0,1-a),yik∈(-1,1),为xi在第k类别的类别标识,xi为第i个压第m个特征对应的投影矩阵,φ(A(m)xi (m))为哈希函数,N为所述样本数据的个数,K为所述样本数据的类别个数,g(W)和h(A)是两个规范化函数,分别用于调整分类参数矩阵W和投影矩阵A的作用,λ1和λ2为两个实数,分别用于调整规范化函数g(W)和h(A);
训练后得到所述投影矩阵A、所述分类参数矩阵W和偏置矩阵B;
并将所述哈希函数:φ(A(m)xi (m))作为二值化压缩码编码器。
其中,该哈希函数φ(A(m)xi (m))为元素选择指示函数,当变量大于0时,该函数值为1,否则为零,xi为第i个数据,结合起来,φ(A(m)xi (m))可以将第m个特征映射到一个C维的二值码矢量上,因此,公式(2)所示的哈希函数即可以作为压缩码编码器。
将所述压缩码训练数据输入到该哈希函数,即可得到样本数据的二值化压缩码,接下来,分类器训练模块405将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器。
具体地,所述基于二值化压缩码的分类器可以表示为如下的公式(3)
其中, 代表第k类别中第m个特征对应的分类参数,bk为偏置参数,A、W、B三个矩阵可由上述编码器训练模块404利用所述压缩码训练数据,根据以下使分类误差的目标函数最小化的公式进行编码器训练的过程获得。
假设每个类别有一个对应的分类器,第k个类别的分类器就可以采用公式(3)的形式。
进一步地,所述编码器训练模块404,还可以用于:
为所述样本数据的各个特征分配分类器回归系数或权重的稀疏性限制,以使所述二值化压缩码编码器进行编码时每个特征分配相同或不同的位数。
进一步地,所述编码器训练模块404具体可以用于:
引入系数矩阵W=[w1…wk]∈RCM×K,其中C表示对每种特征类型的编码长度,M表示特征的数量,K表示分类目标的类别个数,C、M、K分别为大于1的整数,wk为列向量,表示第k个类别中各个特征对应的分类参数,k={1,…,K}。
进一步地,所述编码器训练模块404具体可以用于:
利用L2,1范数对系数矩阵W进行稀疏性限制。
进一步地,本实施例的装置还可以包括:特征抽取模块406,
该特征抽取模块406,可以用于从所述待分类数据抽取至少一个特征,所述特征反映所述待分类数据的特点。
进一步地,所述述特征抽取模块406具体用于:采用以下至少一个算法处理所述待分类数据:尺度不变特征转换SIFT、词袋BOW和面向分类的全局图像特征GIST。
可选地,所述归一化处理模块401具体可以用于:
对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,并对所述样本数据进行类别标记,形成压缩码训练数据。
这种方式适用于已知所述样本数据的类别的场景。
进一步地,所述分类器训练模块405具体可以用于:
采用支持向量机SVM、贝叶斯模型和逻辑回归函数中的任意一个作为分类器,利用二值化压缩码对分类器进行训练,获得基于所述二值化压缩码的分类器。
本实施例的装置,可以用于执行图2或图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种数据分类方法,其特征在于,包括:
根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据;
利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码;
利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别;
在所述根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据之前,还包括:
对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,所述样本数据来自于所述待分类数据;
利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,并获得所述样本数据的二值化压缩码;
将所述样本数据的二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器;
所述利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,包括:
利用所述压缩码训练数据,根据以下使分类误差的目标函数最小化的公式进行编码器训练:
其中,αik是权重系数,l(yik·fk(xi))为损失函数,所述损失函数的表达式为l(a)=max(0,1-a),yik∈(-1,1),为xi在第k类别的类别标识,xi为第i个压缩码训练数据, 为第k类别中,第m个特征对应的分类参数,bk为偏置参数,M为特征的数量,A为投影矩阵,A(m)为第m个特征对应的投影矩阵,φ(A(m)xi (m))为哈希函数,N为所述压缩码训练数据的个数,K为所述压缩码训练数据的类别个数,g(W)和h(A)是两个规范化函数,分别用于调整分类参数矩阵W和投影矩阵A的作用,λ1和λ2为两个实数,分别用于调整规范化函数g(W)和h(A);
训练后得到所述投影矩阵A、所述分类参数矩阵W和偏置矩阵B,B={b1,b2,…,bK};
并将所述哈希函数:φ(A(m)xi (m))作为二值化压缩码编码器。
2.根据权利要求1所述的方法,其特征在于,所述利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,包括:通过如下函数对所述待分类数据的二值化压缩码进行分类处理:
3.根据权利要求1或2所述的方法,其特征在于,在所述利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练之前,还包括:
为所述样本数据的各个特征分配分类器回归系数或权重的稀疏性限制,以使所述二值化压缩码编码器进行编码时每个特征分配相同或不同的位数。
4.根据权利要求3所述的方法,其特征在于,所述为所述每个特征分配分类器回归系数或权重的稀疏性限制,包括:
引入分类参数矩阵W=[w1…wK]∈RCM×K,其中C表示每种特征的编码长度,M表示特征的数量,K表示分类目标的类别个数,C、M、K分别为大于1的整数,wk为列向量,表示第k个类别中各个特征对应的分类参数,k={1,…,K}。
5.根据权利要求4所述的方法,其特征在于,所述为所述每个特征分配分类器回归系数或权重的稀疏性限制,包括:
利用L2,1范数对分类参数矩阵W进行稀疏性限制。
6.根据权利要求1所述的方法,其特征在于,在所述根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据之前,还包括:
从所述待分类数据抽取至少一个特征,所述特征反映所述待分类数据的特点。
7.根据权利要求6所述的方法,其特征在于,所述从所述待分类数据抽取至少一个特征,包括采用以下至少一个算法处理所述待分类数据:尺度不变特征转换SIFT、词袋BOW和面向分类的全局图像特征GIST。
8.根据权利要求1~2、4~7中任一项所述的方法,其特征在于,所述对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,包括:
对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,并对所述样本数据进行类别标记,形成压缩码训练数据。
9.根据权利要求1~2、4~7中任一项所述的方法,其特征在于,所述将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器,包括:
采用支持向量机SVM、贝叶斯模型和逻辑回归函数中的任意一个作为分类器,利用二值化压缩码对分类器进行训练,获得基于所述二值化压缩码的分类器。
10.一种数据分类装置,其特征在于,包括:
归一化处理模块,用于根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理,以使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数据;
压缩模块,用于利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据的二值化压缩码;
分类模块,用于利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,获得所述待分类数据的类别;
所述归一化处理模块,还用于对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,形成压缩码训练数据,所述样本数据来自于所述待分类数据;
所述装置还包括:
编码器训练模块,用于利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器,并获得所述样本数据的二值化压缩码;
分类器训练模块,用于将所述样本数据的二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化压缩码的分类器;
所述编码器训练模块,具体用于:
利用所述压缩码训练数据,根据以下使分类误差的目标函数最小化的公式进行编码器训练:
其中,αik是权重系数,l(yik·fk(xi))为损失函数,所述损失函数的表达式为l(a)=max(0,1-a),yik∈(-1,1),为xi在第k类别的类别标识,xi为第i个压缩码训练数据, 为第k类别中,第m个特征对应的分类参数,bk为偏置参数,M为特征的数量,A为投影矩阵,A(m)为第m个特征对应的投影矩阵,φ(A(m)xi (m))为哈希函数,N为所述压缩码训练数据的个数,K为所述压缩码训练数据的类别个数,g(W)和h(A)是两个规范化函数,分别用于调整分类参数矩阵W和投影矩阵A的作用,λ1和λ2为两个实数,分别用于调整规范化函数g(W)和h(A);
训练后得到所述投影矩阵A、所述分类参数矩阵W和偏置矩阵B,B={b1,b2,…,bK};
并将所述哈希函数:φ(A(m)xi (m))作为二值化压缩码编码器。
11.根据权利要求10所述的装置,其特征在于,所述分类模块具体用于:
通过如下函数对所述待分类数据的二值化压缩码进行分类处理:
12.根据权利要求10或11所述的装置,其特征在于,编码器训练模块,还用于:
为所述样本数据的各个特征分配分类器回归系数或权重的稀疏性限制,以使所述二值化压缩码编码器进行编码时每个特征分配相同或不同的位数。
13.根据权利要求12所述的装置,其特征在于,所述编码器训练模块具体用于:
引入分类参数矩阵W=[w1…wK]∈RCM×K,其中C表示对每种特征的编码长度,M表示特征的数量,K表示分类目标的类别个数,C、M、K分别为大于1的整数,wk为列向量,表示第k个类别中各个特征对应的分类参数,k={1,…,K}。
14.根据权利要求13所述的装置,其特征在于,所述编码器训练模块具体用于:
利用L2,1范数对分类参数矩阵W进行稀疏性限制。
15.根据权利要求10所述的装置,其特征在于,还包括:
特征抽取模块,用于从所述待分类数据抽取至少一个特征,所述特征反映所述待分类数据的特点。
16.根据权利要求15所述的装置,其特征在于,所述特征抽取模块具体用于:采用以下至少一个算法处理所述待分类数据:尺度不变特征转换SIFT、词袋BOW和面向分类的全局图像特征GIST。
17.根据权利要求10~11、13~16中任一项所述的装置,其特征在于,所述归一化处理模块具体用于:
对样本数据进行归一化处理,以使所述样本数据的各个特征对应的数据取值范围一致,并对所述样本数据进行类别标记,形成压缩码训练数据。
18.根据权利要求10~11、13~16中任一项所述的装置,其特征在于,所述分类器训练模块具体用于:
采用支持向量机SVM、贝叶斯模型和逻辑回归函数中的任意一个作为分类器,利用二值化压缩码对分类器进行训练,获得基于所述二值化压缩码的分类器。
CN201410117603.XA 2014-03-26 2014-03-26 数据分类方法和装置 Active CN104951791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410117603.XA CN104951791B (zh) 2014-03-26 2014-03-26 数据分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410117603.XA CN104951791B (zh) 2014-03-26 2014-03-26 数据分类方法和装置

Publications (2)

Publication Number Publication Date
CN104951791A CN104951791A (zh) 2015-09-30
CN104951791B true CN104951791B (zh) 2018-10-09

Family

ID=54166432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410117603.XA Active CN104951791B (zh) 2014-03-26 2014-03-26 数据分类方法和装置

Country Status (1)

Country Link
CN (1) CN104951791B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095769B (zh) * 2016-05-05 2019-04-23 北京思特奇信息技术股份有限公司 一种数据存储、数据读取方法及对应的系统
CN107766319B (zh) * 2016-08-19 2021-05-18 华为技术有限公司 序列转换方法及装置
CN107633304B (zh) * 2017-07-28 2020-12-11 中国电子科技集团公司第四十八研究所 一种睡姿监测的学习方法
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN110633725B (zh) * 2018-06-25 2023-08-04 富士通株式会社 训练分类模型的方法和装置以及分类方法和装置
CN109933705B (zh) * 2019-03-22 2021-10-19 国家电网有限公司 一种大数据平台运维管理系统
CN110427222A (zh) * 2019-06-24 2019-11-08 北京达佳互联信息技术有限公司 数据加载方法、装置、电子设备及存储介质
CN110941734B (zh) * 2019-11-07 2022-09-27 南京理工大学 基于稀疏图结构的深度无监督图像检索方法
CN111192456A (zh) * 2020-01-14 2020-05-22 泉州市益典信息科技有限公司 一种道路交通运行态势多时间尺度预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894130A (zh) * 2010-06-08 2010-11-24 浙江大学 基于稀疏降维的谱哈希索引方法
CN101923640A (zh) * 2010-08-04 2010-12-22 中国科学院自动化研究所 基于鲁棒纹理特征和机器学习对伪造虹膜图像判别的方法
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN103226585A (zh) * 2013-04-10 2013-07-31 大连理工大学 面向图像检索的自适应哈希重排方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894130A (zh) * 2010-06-08 2010-11-24 浙江大学 基于稀疏降维的谱哈希索引方法
CN101923640A (zh) * 2010-08-04 2010-12-22 中国科学院自动化研究所 基于鲁棒纹理特征和机器学习对伪造虹膜图像判别的方法
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN103226585A (zh) * 2013-04-10 2013-07-31 大连理工大学 面向图像检索的自适应哈希重排方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Learning Binary Codes for High-Dimensional Data Using Bilinear Projections";Yunchao Gong ET AL;《2013 IEEE Conference on Computer Vision and Pattern Recognition》;20131231;摘要,第2、7-8页 *
"基于特征降维的场景分类方法研究";付赛男;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130715;第14、33-38页、图4-3 *
"有监督子空间建模和稀疏表示的场景分类";段菲 等;《中国图象图形学报》;20121130;全文 *

Also Published As

Publication number Publication date
CN104951791A (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
CN104951791B (zh) 数据分类方法和装置
Yu et al. Hierarchical deep click feature prediction for fine-grained image recognition
CN105354307B (zh) 一种图像内容识别方法及装置
Avila et al. Pooling in image representation: The visual codeword point of view
Donahue et al. Decaf: A deep convolutional activation feature for generic visual recognition
Sun et al. Facial expression recognition in the wild based on multimodal texture features
CN107256246B (zh) 基于卷积神经网络的印花织物图像检索方法
Trzcinski et al. Learning image descriptors with boosting
CN105095902B (zh) 图片特征提取方法及装置
CN110163115A (zh) 一种视频处理方法、装置和计算机可读存储介质
Sun et al. Combining feature-level and decision-level fusion in a hierarchical classifier for emotion recognition in the wild
CN108280451A (zh) 语义分割及网络训练方法和装置、设备、介质、程序
Jiang et al. Variational deep embedding: A generative approach to clustering
Feng et al. Bag of visual words model with deep spatial features for geographical scene classification
CN103745201A (zh) 一种节目识别方法及装置
Long et al. Image classification based on improved VLAD
Hu et al. Action recognition using multiple pooling strategies of CNN features
Wu et al. Image classification method rationally utilizing spatial information of the image
Akusok et al. Image-based classification of websites
Wang et al. Design and implementation of handwritten digit recognition based on K-nearest neighbor algorithm
Saghafi et al. Efficient 2D viewpoint combination for human action recognition
Yang et al. Real-time face attributes recognition via HPGC: horizontal pyramid global convolution
Liu et al. A scalable unsupervised feature merging approach to efficient dimensionality reduction of high-dimensional visual data
CN114692715A (zh) 一种样本标注方法及装置
Gao et al. Image classification based on support vector machine and the fusion of complementary features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211222

Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee after: xFusion Digital Technologies Co., Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.