CN110046660B - 一种基于半监督学习的乘积量化方法 - Google Patents

一种基于半监督学习的乘积量化方法 Download PDF

Info

Publication number
CN110046660B
CN110046660B CN201910283993.0A CN201910283993A CN110046660B CN 110046660 B CN110046660 B CN 110046660B CN 201910283993 A CN201910283993 A CN 201910283993A CN 110046660 B CN110046660 B CN 110046660B
Authority
CN
China
Prior art keywords
semi
matrix
quantization
algorithm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910283993.0A
Other languages
English (en)
Other versions
CN110046660A (zh
Inventor
张涛
冯长安
刘敏杰
葛格
潘祥
石慧
许志强
崔光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201910283993.0A priority Critical patent/CN110046660B/zh
Publication of CN110046660A publication Critical patent/CN110046660A/zh
Application granted granted Critical
Publication of CN110046660B publication Critical patent/CN110046660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明公开了一种基于半监督学习的乘积量化方法,其是一种基于普通笛卡尔K均值的算法的改进算法,即半监督笛卡尔K均值算法。在本算法中,需要将量化步骤中的传统的最小平方损失函数替换成最优反向预测损失函数。传统的半监督学习会将有标记的数据直接用于模型训练,不同于传统半监督学习模型,有标记的数据必须通过先通过拉普拉斯正则化,才能用于模型训练。

Description

一种基于半监督学习的乘积量化方法
技术领域
本发明涉及数据处理与模式识别技术领域,主要用于图像的分类,特别是一种根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。
背景技术
为了克服以文本关键词为特征的图像检索算法中的弊端,研究者们提出了基于图像内容的图像检索(Content-Based Image Retrieval,CBIR)理念。主要是运用图像的形状、颜色和纹理等特征与数据库中的图像进行相关信息的匹配来得到与之相似的图片,从而避免了人为对图像内容进行分类、标定等繁琐复杂的工作。
现有的大型搜索引擎平台已经推出了以图像内容为特征的图像检索服务,如Google推出的“以图搜图”和百度的“百度识图”以及比价购物的“安图搜”等,都是这种技术的应用[1-2]。就目前来看,这两大搜索引擎在这两项测试中给出的搜索结果是比较令人满意的,而且Google搜索还预测出了图片中的内容,由此看来Google搜索引擎在基于图像内容检索的研究方面是领先于百度公司的。对这两家公司以图搜图的其他测试中,比如将一些测试图片进行旋转或是切割等等,得到的搜索结果却难以令人满意。从目前的测试结果来看,这两家公司基于图像内容的图像检索速度比较慢,难以与当前文本的检索速度相媲美。因此展开基于图像内容的检索的研究是非常有必要的,在基于信息检索、安全监控系统、数字图书馆、军事工业、医疗诊断和知识产权等[2]领域中都有重要的意义[3,4]
而哈希(Hashing)和量化(Quantization)是当前两种基于图像内容对图像进行检索的重要算法[5-9],这两种算法都是基于近似搜索理念提出的。不同于传统的准确搜索理念,近似搜索思想认为在大规模数据检索中,用户更注重检索的效率,而对检索的准确性没有过高的要求,且从检索出的结果中可通过加入人为主观选择来满足个人的需要。所以在现阶段大规模的图像检索中,可以适当牺牲检索精度来换取检索效率上的提升,以满足现实发展的需要。
近似最近邻搜索以其在大型数据集上的高效检索性能成为近年来研究的热点[10-12]。人工神经网络搜索的目的是查找那些与查询数据的欧几里得距离是基础数据集中最小的实例。在神经网络研究中计算查询向量之间的欧几里得距离。而基础数据集中的所有向量都涉及到大量的计算,这对于大尺度和高维情况来说是不可行的。为了消除这些计算,已经提出并开发了许多数据结构和算法,其中一类是基于提升检索结构性能的方法,主要方法大多基于树形结构。另一类主要基于对数据本身的处理,包括哈希算法、矢量量化方法等。
量化在近似最近邻搜索研究工作中发挥着重要作用,它通过采用数据表示策略来解决问题[13-15]。首先采用无监督算法来实现数据聚类任务,使原始数据能够被标记。然后,由聚类中心表示或重建每个集群中的实例。因此,查询数据与基础数据之间的距离计算可以转换为查询数据和基础数据所属的类中心之间的距离计算。换句话说,查询和数据库向量之间的距离由查询数据向量和基础数据向量所属的聚类中心之间的距离近似。
乘积量化把原来的向量空间分解为若干个低维向量空间的笛卡尔积,并对分解得到的低维向量空间分别做量化[13,14,16]。这样每个向量就能由多个低维空间的量化编码组合表示。乘积量化是一种应用近似最近邻搜索任务的有效方法,具有良好的编码速率和较高的检索效率。
自量化算法提出以来,开发了许多扩展算法来提高其搜索性能。笛卡尔K均值扩展了乘积量化算法[17-23,26],并对经典k均值目标函数的线性映射矩阵施加了柱正交约束,使优化过程比传统k均值更有效率。与笛卡尔k均值仅针对子码本进行优化不同,最佳乘积量化在子码本和空间分解方面进行优化,同时找到最优的空间分解方案和旋转矩阵。通过平衡协方差矩阵的特征值,最佳乘积量化可以得到最优空间分解,但强烈的多模态分布可能无法从这种分解中受益。最优笛卡尔k均值不同于以前的编码方案[24-25],在该方案中只选择了相应的子码本中的一个子码字,最优笛卡尔k均值使用多个子码字对数据点的子向量进行编码,性能为在近似最近邻搜索研究实验中,也提出了相同的算法[27-28]
上述算法在产品量化算法的研究上都有了显著的改进,但所有这些算法仍然属于无监督学习框架,这可能会明确限制这些算法的性能。
[1]Li L,Shen F,ShenY,etal.Deep SketchHashing:FastFree-Hand Sketch-Based Image Retrieval[C]//IEEE Conference onComputerVision&PatternRecognition.2017.
[2]傅启明,刘全,王晓燕,et al.遗传反馈的多特征图像检索[J].中国图象图形学报,2018,16(10):1858-1865.
[3]Wei X S,Luo J H,Wu J,et al.Selective Convolutional DescriptorAggregation for Fine-Grained Image Retrieval[J].IEEETransactions onImageProcessingAPublicationofthe IEEE SignalProcessing Society,2017,26(6):2868.
[4]Zhang Z,Zou Q,Wang Q,et al.Instance Similarity Deep Hashing forMulti-Label Image Retrieval[J].2018.
[5]Liu Q,Liu G,Li L,et al.Reversed Spectral Hashing.[J].IEEETransactions on Neural Networks&Learning Systems,2018,29(6):2441-2449.
[6]Karbil L,Daoudi I,Medromi H.A Comparative Experimental StudyofSpectral Hashing[J].2017.
[7]Hong R,Li L,Cai J,et al.Coherent Semantic-Visual Indexing forLarge-Scale Image Retrieval in the Cloud[J].IEEE Transactions on ImageProcessing,2017,26(9):1-12.
[8]Gong Y,Lazebnik S,Gordo A,et al.Iterative quantization:Aprocrustean approach to learning binary codes for large-scale image retrieval[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2916-2929.
[9]García F T,Villalba L J G,Orozco A L S,et al.Locating similarnames through locality sensitive hashing and graph theory[J].MultimediaTools&Applications,2018:1-14.
[10]Andoni A,Laarhoven T,Waingarten E,et al.Optimal hashing-basedtime-space trade-offs for approximate near neighbors[C]//Twenty-eighth Acm-siam Symposium on Discrete Algorithms.2017:47-66.
[11]Aumüller M,Bernhardsson E,Faithfull A.ANN-Benchmarks:ABenchmarking Tool for Approximate Nearest NeighborAlgorithms[C]//2017.
[12]Laarhoven T.Graph-based time-space trade-offs for approximatenear neighbors[J].2018.
[13]Jegou,H.,Douze,M.,Schmid,C.:Product quantization for nearestneighbor search.Pattern Analysis and Machine Intelligence,IEEE Transactionson 33(1),117{128(2011).
[14]Xu D,Tsang I W,Zhang Y.Online Product Quantization[J].IEEETransactions on Knowledge&Data Engineering,2018,PP(99):1-15.
[15]Li L,Hu Q,Han Y,et al.Distribution Sensitive Product Quantization[J].IEEE Transactions on Circuits&Systems for Video Technology,2017,PP(99):1-11.
[16]Jegou H,Douze M,Schmid C.Product quantization for nearestneighbor search[J].IEEE transactions on pattern analysis and machineintelligence,2011,33(1):117-128.
[17]Norouzi M,Fleet D J.Cartesian k-means[C]//Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.2013:3017-3024.
[18]Ge T,He K,Ke Q,et al.Optimized product quantization[J].IEEEtransactions on pattern analysis and machine intelligence,2014,36(4):744-755.
[19]Kalantidis Y,Avrithis Y.Locally optimized product quantizationfor approximate nearest neighbor search[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2014:2321-2328.
[20]Wang J,Wang J,Song J,et al.Optimized cartesian k-means[J].IEEETransactions on Knowledge and Data Engineering,2015,27(1):180-192.
[21]A.Babenko and V.Lempitsky,“Additive quantization for extremevector compression,”in Proc.IEEE Conf.Comput.Vis.PatternRecognition,2014,pp.931–938.
[22]Babenko A,Lempitsky V.Tree quantization for large-scalesimilarity search and classification[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2015:4240-4248.
[23]L.Ai,J.Yu,Z.Wu,Y.He,and T.Guan,Optimizedresidual vectorquantization for efficient approximate nearestneighbor search,”inProc.Multimedia Syst.,Jun.2015,pp.1–13.
[24]Ozan E C,Kiranyaz S,Gabbouj M.K-subspaces quantization forapproximate nearestneighbor search[J].IEEE Transactions onKnowledgeandDataEngineering,2016,28(7):1722-1733.
[25]LiuJ,ZhangY,ZhouJ,etal.Kernelizedproductquantization[J].Neurocomputing,2016.
[26]李明强[1.新的梯度算法求解单位球笛卡尔积约束优化问题[J].应用数学学报,2018,41(1).
[27]Ning Q,Zhu J,Zhong Z,et al.Scalable Image Retrieval by SparseProduct Quantization[J].IEEE Transactions onMultimedia,2016.
[28]文庆福,王建民,朱晗,曹越,龙明盛.面向近似近邻查询的分布式哈希学习方法[J].中国计算机学报,2017,40(1):192-206
[29]Xu,L.,White,M.,Schuurmans,D.:Optimal reverse prediction:a unifiedperspective on supervised,unsupervised and semi-supervised learning.In:Proceedings ofthe 26th Annual International Conference on MachineLearning,pp.1137{1144.ACM(2009)
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述和/或现有的产品量化算法中存在的问题,提出了本发明。
因此,本发明其中的一个目的是提供一种基于半监督学习的乘积量化方法,其利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。实现了图像的高准确率识别。能够有效地减少每个子空间的量化误差,提高检索性能。
为解决上述技术问题,本发明提供如下技术方案:一种基于半监督学习的乘积量化方法,其包括,S1:基于拉普拉斯特征值映射的图像降维算法对高维图像进行降维操作,把这些降维后的数据作为输入样本;S2:根据输入样本的类标签,基于最优反向预测算法来设定目标函数;S3:特征空间最优分解,以得到半监督笛卡尔K均值模型;S4:采用拉普拉斯正则化的最优反向预测算法构建半监督的量化模型;S5:半监督的量化模型的优化以及基于图像内容检索的原型系统实现。
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:所述最优反向预测算法的目标函数包含两项,分别为聚类中心矩阵与标签矩阵均未知的无监督聚类算法以及标签已知的监督学习约束项;
目标函数中的标签变量采用1-K编码方案,可以通过优化聚类中心矩阵和未知标签矩阵变量之间的最小平方损失函数来求解最优反向预测算法,构建的目标函数如下,
Figure GDA0004171746770000051
其中
Figure GDA0004171746770000052
和/>
Figure GDA0004171746770000053
分别是训练实例矩阵和标记矩阵,/>
Figure GDA0004171746770000054
是未标记的数据矩阵,/>
Figure GDA0004171746770000055
是未知的标签矩阵,η2是交易参数,Y(L)和B使用1-K编码方案,P表示实例的维数,NL和NU分别是标记和未标记实例的数量,K是簇的数量。
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:所述特征空间的最优分解包括,
S31:采用乘积量化算法,使得每个子空间中的码字均通过采用K均值聚类生成,该聚类相对于b和C迭代地优化平方失真误差;
S32:笛卡尔K均值通过在公式(1.2)中的映射矩阵C的列上施加正交约束来获得ANN搜索任务的空间分解方法;
Figure GDA0004171746770000056
S33:聚类中心的正交约束保证聚类中心表示为C≡RD,其中R是旋转矩阵,RTR=RRT=I,将公式(1.2)重新表示为公式(1.3),最小化(1.3)关于R,D和B,所获得的旋转矩阵R和聚类中心D再结合公式(1.3)以获得失真误差;
Figure GDA0004171746770000061
M是子空间的编号;
S34:使用公式(1.1)在量化过程中代入公式(1.3)并给出半监督的笛卡尔K均值算法,给定标记数据集
Figure GDA0004171746770000062
和未标记数据集/>
Figure GDA0004171746770000063
其中P是实例的维数,K是量化中心的数量,NL和NU是标记和未标记数据实例的数量;
S35:基于输入空间分解策略,半监督笛卡尔K均值(SSCK)可以表示为
Figure GDA0004171746770000064
Figure GDA0004171746770000065
Figure GDA0004171746770000066
S36:利用希尔伯特-施密特不相关性准则对特征空间进行分解。
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:将拉普拉斯正则化项引入上述公式(1.4),并得到以下公式:
Figure GDA0004171746770000067
Figure GDA0004171746770000068
Figure GDA0004171746770000069
其中,
Figure GDA00041717467700000610
μ是平均值向量输入数据;Y(L)和B都是量化标签且未知,L是拉普拉斯矩阵,L=W-D;
W是相似矩阵,Dii=∑jWi,j
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:优化公式(1.5),且仅保留与Y(L)相关的项:
Figure GDA00041717467700000611
进一步计算得:
Figure GDA0004171746770000071
Figure GDA0004171746770000072
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:在获得量化Y(L)的基础上,通过计算每个量化簇中所有标记数据X(L)的平均值来获得簇中心D;基于预测的聚类中心D,能够通过采用KNN聚类算法获得未标记数据的标签矩阵B,如下:
Figure GDA0004171746770000073
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:根据标记数据X(L),未标记数据X(U)及其量化标签Y(L)和B,更新聚类中心D,如下:
Figure GDA0004171746770000074
Figure GDA0004171746770000075
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:采用笛卡尔K-means算法来更新R,基于:
Figure GDA0004171746770000077
得到:
Figure GDA0004171746770000076
作为本发明所述基于半监督学习的乘积量化方法的一种优选方案,其中:在得到R,D,Y(L)和B的基础上,能够更新变量μ,如下:
μ←mean(X-RDY)
X=[X(L) ηX(U)] Y=[Y(L) ηB]。
与现有技术相比,本发明的有益效果如下:
(1)将标记数据集成到量化步骤中,以提供标签信息,减少数据重建误差。
(2)拉普拉斯矩阵是建立在标记数据的基础上,并添加到最优反向预测函数,以获得半监督笛卡尔K均值。
(3)给出了优化半监督笛卡尔k均值的算法,使函数能够得到最小值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为基于128位MNIST数据集的召回率实验结果比较图。
图2为基于32、64、128位CIFAR10数据集的召回率实验比较图。
图3为基于32、64、128位COIL-100数据集的召回率比较图。
图4为所述基于半监督学习的乘积量化算法的流程图。
图5为手写字符数据相关的应用场景。
图6为一些自然彩色图像应用的场景。
图7为哥伦比亚大学图像数据库的应用场景。
图8为本发明的方法在15个场景数据集上得到的每一类的平均分类率。
图9为本发明的方法在运动场景数据集上得到的每一类的平均分类率。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
参照图4,为本发明的一个实施例,该实施例提供了一种基于半监督学习的乘积量化方法,其是一种半监督笛卡尔k均值算法。本发明将量化步骤中传统的最小平方损失函数替换为最优反向预测损失函数,有标记的数据需要先通过拉普拉斯正则化,然后再用于模型训练,这样就有效地减少每个子空间的量化误差,提高检索性能。
本发明的核心主要包括两部分,首先根据标记数据构造一个拉普拉斯矩阵,主要特征为计算具有相同标签和不同标签样本之间的相似度值,给出两个具有相同标签的样本之间的相似度计算一个较大的值,而属于不同集群的数据则被赋予一个较小的值。然后在损失函数中加入拉普拉斯正则器,构造半监督笛卡尔k均值目标函数。
具体的,所述基于半监督学习的乘积量化方法,其主要包括如下步骤:
S1:数据降维和特征的提取。基于拉普拉斯特征值映射(LE)的图像降维算法对高维图像进行降维操作,然后把这些降维后的数据作为输入样本,并给每个输入样本对应赋予一个其所属类别的类别标签,然后对输入样本(降维后的图像)进行特征提取。
对于图像特征的提取,本专利基于HOG(Histogram of Oriented Gridients)和SIFT算法的特征融合提取图像特征。通过多种图像特征融合的方式对图像进行检索,对于彩色图像,既要提取其颜色特征,也要提取其灰度图像特征,并分别建立彩色图像和灰度图像数据库,同时检索彩色图像库和灰度图像库,将检索的结果分开显示。
针对图像种类的多样性,本专利采取多特征融合的方式构建基于图像内容检索的图像检索系统,系统将主要采用图像颜色特征、形状特征以及基于颜色和形状特征衍生出的其他特征提取算法。
S2:根据输入样本的类别标签,基于最优反向预测算法来设定目标函数。
在现有技术中,Xu等人提出了一种最优反向预测算法[3],其目标函数包含两个项:一个是传统的K均值算法公式(一种无监督聚类算法),其中聚类中心矩阵和标签矩阵都不知道;另一个是监督学习约束项,它与传统的K均值公式类似,但标签是已知的。目标函数中的标签变量采用1-K编码方案。可以通过相对于聚类中心矩阵和未知标签矩阵变量迭代地优化最小平方损失函数来求解最优反向预测算法。
目标函数中的标签变量采用1-K编码方案,可以通过优化聚类中心矩阵和未知标签矩阵变量之间的最小平方损失函数,使得聚类中心和未知标签类之间的差异不断缩小,以此来求解最优反向预测算法,构建的目标函数如下:
Figure GDA0004171746770000091
其中
Figure GDA0004171746770000101
和/>
Figure GDA0004171746770000102
分别是训练实例矩阵和标记矩阵,/>
Figure GDA0004171746770000103
是未标记的数据矩阵,/>
Figure GDA0004171746770000104
是未知的标签矩阵,η2是交易参数,Y(L)和B使用1-K编码方案,P表示实例的维数,NL和NU分别是标记和未标记实例的数量,K是簇的数量。最优反向预测算法是通过最优反向预测的概念统一几种有监督和无监督的训练原则:预测来自目标标签的输入,优化模型参数和任何缺失标签。监督最小二乘法、主成分分析、K均值聚类和归一化图切割都可以表示为相同训练原则的实例。
S3:特征空间最优分解,以得到半监督笛卡尔K均值模型。所述特征空间的最优分解具体包括如下步骤——
S31:采用乘积量化算法,使得每个子空间中的码字均通过采用K均值聚类生成,该聚类相对于b和C迭代地优化平方失真误差。量化算法是基于图像内容对高维图像快速检索的有效手段之一,本专利以基本的乘积量化算法作为基础,对现有的各量化算法进行分析和改进提升。
在计算笛卡尔K均值的过程中,乘积量化(PQ)算法被用于ANN研究任务。高维度输入数据空间被平均分解并表示为M个低维度子空间的笛卡尔积。每个子空间可以通过使用传统的K均值算法生成码本。因此,将为每个子向量生成K个子码字,通过这种方式,M个子向量将生成仅具有O(KP)存储的KM簇,而如果我们采用传统方法通过K-对整个输入数据进行编码意味着需要存储O(KMP),具有相同数量的集群。同时,计算复杂度从O(KMP)降低到O(KP)。在PQ算法中,每个子空间中的码字是通过采用K均值聚类生成的,该聚类相对于b和C迭代地优化平方失真误差。然而,PQ算法没有提出如何获得ANN搜索任务的最优空间分解的方法。
S32:笛卡尔K均值通过在公式(1.2)中的映射矩阵C的列上施加正交约束来获得ANN搜索任务的空间分解方法,解决了上述问题,以隐含地调整实例的维度信息,这使得关于b的优化在正交笛卡尔K均值[4]中变得更易处理。
Figure GDA0004171746770000105
S33:聚类中心的正交约束保证聚类中心表示为C≡RD,其中R是旋转矩阵,RTR=RRT=I,因此公式(1.2)可以重新表示为公式(1.3),最小化公式(1.3)关于R、D和B,所获得的最佳旋转矩阵R和聚类中心D可以帮助公式(1.3)获得较低的失真误差。
Figure GDA0004171746770000111
M是子空间的编号。
S34:构建模型与定义。半监督笛卡尔K均值计算,经典K均值,主成分分析(PCA)和归一化切割可以认为是最优反向预测算法的特例。基于这个概念,可以使用公式(1.1)在量化过程中代入公式(1.3)并给出半监督的笛卡尔K均值算法。给定标记数据集
Figure GDA0004171746770000112
和未标记数据集/>
Figure GDA0004171746770000113
其中P是实例的维数,K是量化中心的数量,NL和NU是标记和未标记数据实例的数量。
S35:基于输入空间分解策略,半监督笛卡尔K均值(SSCK)可以表示如下——
Figure GDA0004171746770000114
Figure GDA0004171746770000115
Figure GDA0004171746770000116
S36:利用希尔伯特-施密特不相关性准则对特征空间进行分解。
本专利将利用基于希尔伯特-施密特不相关性准则(Hilbert-SchmidtIndependence Criterion,HSIC准则构建优化模型来实现特征空间的分解。要达到的目的是:不同子空间之间的数据维数是不相关的,而同一个子空间内部的数据维数是严格相关的。方案是:给定归一化后的训练数据集X∈RD*×N,其中N为样本个数,D为样本的维数,将数据X基于维数进行二等分割得到两个子矩阵
Figure GDA0004171746770000117
和/>
Figure GDA0004171746770000118
这里求解一个线性映射矩阵P1,使得映射后的协方差矩阵呈现对角矩阵块形式,即X1和X2是不相关的:
Figure GDA0004171746770000119
为此就必须使得X1和X2具有最小的相关性。为此本专利参考了周志华老师文章中的算法---基于希尔伯特-施密特不相关性准则(Hilbert-Schmidt IndependenceCriterion,HSIC)来构建数学模型求解映射矩阵P1,使得子空间X1和X2具有最小的相关性。给出优化模型如下所示:
Figure GDA0004171746770000121
其中H=[Hij]N×N
Figure GDA0004171746770000122
δij=1如果i==j,否则δij=0。关于模型最优解的求解,文献[15]中的MDDM算法为我们提供了很好的解决思路。在得到最优值/>
Figure GDA0004171746770000123
后,将X1和X2进行重新映射得到两个不相关的子空间/>
Figure GDA0004171746770000124
和/>
Figure GDA0004171746770000125
然后在X1和X2的基础上按照上述方法继续进行分解,由此可以分解成为4个不相关的子空间,而子空间内部数据是相关的,依次类推,我们就可以得到不相关性子空间的最优分解,在模型建模过程中为了有效的降低码本与数据之间误差,使用旋转矩阵对数据进行相应优化旋转也是所必须的。我们给出了基于希尔伯特-施密特不相关性准则对特征空间分解成为8个子空间的算法流程图。
X1∈RD*×N为原始数据,可称之为第0层,其中D为数据的维数,N为样本数量。在第一层分解中将X1分解成为两层
Figure GDA0004171746770000126
和/>
Figure GDA0004171746770000127
其所对应的原始数据的维数下标分别为/>
Figure GDA0004171746770000128
和/>
Figure GDA0004171746770000129
然后对/>
Figure GDA00041717467700001210
和/>
Figure GDA00041717467700001211
分别进行分解为/>
Figure GDA00041717467700001212
与/>
Figure GDA00041717467700001213
和/>
Figure GDA00041717467700001214
与/>
Figure GDA00041717467700001215
其所对应的原始数据维数下标依次为/>
Figure GDA00041717467700001216
Figure GDA00041717467700001217
和/>
Figure GDA00041717467700001218
第三层分解算法依此类推。
S4:采用拉普拉斯正则化的最优反向预测算法来构建半监督的量化模型;
以量化算法中的笛卡尔K均值为例,构建半监督笛卡尔K均值模型,这里将其称之为第Ⅰ类模型,其算法可以表示成为如下数学模型的优化问题:
Figure GDA00041717467700001219
Figure GDA00041717467700001220
Figure GDA00041717467700001221
在上述公式中X(L)和X(U)分别为有标签数据集和无标签数据集,Y(L)和B分别对应是有标签数据集X(L)和无标签数据集X(U)对应的码本标签矩阵,码本标签矩采用的编码形式是1-of-K形式,L为拉普拉斯矩阵,λ和η为权重因子。在上式中模型的优化问题需要对4个变量,即旋转矩阵R、码本D,无标签数据集的码本标签矩阵B以及有标签数据集的码本标签矩阵Y(L),分别做迭代优化。
基于空间概念:
Figure GDA0004171746770000131
Figure GDA0004171746770000132
||·||F代表是Frobenius范数,公式(1.4)给出的标记数据X(L),Y(L*)和未标记数据X(U),这样就形成了半监督笛卡尔K均值算法,更具体地说,公式(1.4)只是量化问题,是笛卡尔K均值的一部分。
但是,暂时还不能使用公式(1.4)量化标记和未标记的数据,因为此时不知道量化标签矩阵Y(L*)。当在聚类任务中使用最佳反向预测时,公式(1.1)中的标记矩阵Y(L)的符号表示聚类标签或分类标签,其可以从已知的标记数据获得。然而,本专利提出的半监督笛卡尔K均值公式(1.4)中使用的最优反向预测,其作用是量化或编码数据时,标签矩阵Y(L)用于指示量化标签,但它是未知的。
换句话说,量化标签与聚类标签不同,聚类标签可以直接从标记数据中获得,但量化标签不能,因此公式(1.4)不能用于本专利提出的半监督笛卡尔K均值。为了解决这个问题,本专利进一步将拉普拉斯正则化项引入上述半监督笛卡尔K均值模型(见公式1.4)中,并得到以下公式:
Figure GDA0004171746770000133
其中
Figure GDA0004171746770000134
和/>
Figure GDA0004171746770000135
μ是平均值向量输入数据。Y(L)和B都是量化标签且未知,L是拉普拉斯矩阵,L=W-D。W是相似矩阵,Dii=∑jWi,j
S5:半监督的量化模型的优化以及基于图像内容检索的原型系统实现。
我们使用监督方法构造相似性矩阵W,如果xi和xj具有相同的聚类标记,则条目Wij将被赋予大的权重,并且如果xi和xj属于不同的聚类,则将给出小的权重。优化公式(1.5)通常是一项难以处理的工作,因为Y(L)和B是具有1-K编码方案的离散矩阵,离散优化是NP难问题并且在非模块问题中是不同的。
这里提供两种方法来解决这个问题。第一个:采用了详尽搜索方法。我们迭代地彻底检查Y(L)中的所有元素,找到元素使得目标值最小化,并将所有其他元素设置为0;第二个:首先放松将离散变量Y(L)变为连续变量并求解Y(L),然后利用约束优化笛卡尔K均值目标函数得到最优的Y(L),采用阈值法得到离散变量。
一、更新Y(L):为了使用穷举搜索方法针对Y(L)优化公式(1.5),我们可以重写公式(1.5)如下(仅保留与Y(L)相关的那些项):
Figure GDA0004171746770000141
为了得到Y(L)最优值,经过进一步计算如下公式:
Figure GDA0004171746770000142
Figure GDA0004171746770000143
二、更新B:在获得量化Y(L)之后,本专利通过计算每个量化簇中所有标记数据X(L)的平均值来获得簇中心D.基于预测的聚类中心D,然后通过采用KNN聚类算法获得未标记数据的标签矩阵B.更准确地说,通过解决以下问题可以获得关于B的优化,这样才能得到更加鲁棒的特征矩阵:
Figure GDA0004171746770000144
Figure GDA0004171746770000145
三、更新D:根据标记数据X(L),未标记数据X(U)及其量化标签Y(L)和B,为了适应不断变化的数据和调整聚类中心,我们可以通过求解以下内容来更新聚类中心D:
Figure GDA0004171746770000146
Figure GDA0004171746770000147
四、更新R:已经提出了许多算法来解决正交约束优化问题,在实验中,本专利仍然采用笛卡尔K-means算法来解决它的高性能和高效率,通过更新R,能够获得更好的优化策略。
基于:
Figure GDA0004171746770000151
于是:
Figure GDA0004171746770000152
五、更新μ:得到R,D,Y(L)和B后,为了得到最优的参数,本专利使用以下更新变量μ:
μ←mean(X-RDY)
X=[X(L) ηX(U)] Y=[Y(L) ηB]
S3:实验分析。为了验证本专利提出的半监督笛卡尔K均值的性能,在三个公共数据集上进行了一系列ANN搜索实验,验证在3个数据集上的表现。本实验拟从召回率、检索精度这2个指标来评价算法的性能。
方法1:数据集。本专利采用的3个数据集均为公开可得的图像特征集MNIST,CIFAR10和COIL100。
(1)MNIST数据集包括60000个训练样本和10000测试样本。我们将训练数据和测试数据组合在一起,从组合数据集中随机选择65000个样本作为基础数据,其余5000个样本作为查询数据。然后从训练数据中选择每个数字的1000个样本,用于训练笛卡尔K制动器、正交K均值、产品量化、迭代量化和混合量化算法。对于我们的半监督笛卡尔K均值算法,本专利将10000训练实例拆分为两部分,一部分充当标记数据,另一部分充当未标记的数据。本专利对检索样本进行排名,并选择了前1000、2000、4000、6000、8000、10000、15000、20000、25000、30000、35000、40000、45000、50000、52000、65000、65000的计算率。实验中使用了32位、64位和128位代码长度。如下图5(来自MNIST数据库随机选择的样本)所示。
(2)CIFAR-10数据集的实验包括10类60000个32x32的彩色图像,其中每类有6000张图像。现在有50000张训练图像和10000张测试图像,按照MNIST实验的设计,本专利将训练数据和测试数据结合在一起,从组合数据集中随机选择每个类的500个样本作为查询样本,其余样本作为基础数据。然后,本专利从基础数据中每类选择1000个样本,并将它们分成两部分,一部分作为标记数据,另一部分作为未标记的数据,来训练本专利提出的半监督笛卡尔K均值算法。对于其他用来比较的算法,本专利使用10000个实例来训练模型。如下图6(来自CIFAR10数据库随机选择的样本)所示。
(3)Columbia对象图像库(COIL-100)的实验是100个对象的彩色图像数据库。这些物体被放置在黑色背景下的机动转盘上。转盘旋转360度,以相对于固定的彩色相机每间隔为5度改变一次物体的姿势,因此每个物体对应72个姿势。在这个实验中,本专利使用从网页下载的数据。每个图像的大小为32x32像素,每个像素有256个灰度。因此,每个图像由1024维矢量表示。本专利随机选择每个对象的500张图像作为查询数据,其余的用作基本数据。然后从基础数据集中选择每个类的1000个样本来训练比较模型,如笛卡尔K-均值、正交K均值、产品量化和迭代量化算法。对于SSCK模型,10000个样本平均分为两部分,一部分充当标记数据,另一部分作为未标记的数据。如下图7(来自COIL100数据库随机选择的样本)所示。
方法2:对比。将本专利提出的半监督笛卡尔K均值(SSCK)算法与几种最先进的方法相比较,包括:乘积量化(PQ),笛卡尔K均值(CK平均值),正交K手段(OK手段),迭代量化(ITQ)以及混合量化(CQ)。
方法3:结果分析比较。图1,表1是MNIST数据集;在图1中,本专利列出了在MNIST上使用SSCK和其他几种最先进算法的召回率实验结果比较,采用的代码长度为32位、64位和128位。从图2中可以看到,SSCK的性能超过了MNIST数据集上其他先进的算法,但只具有微弱的优势。这是因为本专利还没有找到一个合适的方法来优化Y。图2,表2是CIFAR-10数据集;图3,表3是Columbia数据集。其中,在这些算法的下标中,AQ表示不对称量化距离(asymmetric quantizer distance),AH表示不对称汉明距离(asymmetric hammingdistance),SQ表示对称量化器距离(symmetric quantizer distance),SH表示对称汉明距离(symmetric hamming distance)。
通过图像可以发现与其它方法相比均有更高的召回率。结果如图1,图2和图3所示,可见本专利的方法优于其余方法。通过表格1,表格2和表格3我们可以发现与其它方法相比均有更高的检索精度从结果中清晰可见,本发明的方法优于其它相比较的方法。
表1基于128位MNIST的检索精度比较
Figure GDA0004171746770000171
表2基于32位CIFAR10数据集的检索精度比较
Figure GDA0004171746770000172
表3基于128位COIL100的检索精度比较
Figure GDA0004171746770000173
本发明实施例中,提出了一种基于笛卡尔K均值和正交最优反向预测算法的半监督笛卡尔K均值算法。为了提高传统笛卡尔K均值算法的性能,我们利用样本的标签信息来构造相似矩阵——那些标签相同的样本被赋予较高的权重值,同时将较低的权重值赋给标签不同的样本。标签相同的样本将被分配到量化步骤中的相同或相邻类中聚集。然而,对标签矩阵的目标函数进行优化是一个离散问题,很难解决。于是我们分别优化了方程,并在三个公共数据集上验证了该方程的性能。实验结果表明,该算法比比较算法性能更优。我们在半监督笛卡尔K均值算法的研究中取得了较好的结果,但仍需要进一步的努力来解决一些问题,例如寻找一种更合适的算法来优化半监督笛卡尔K均值目标函数以及更优的半监督量化算法,以提高整体性能。图8和9给出了实际场景中运用本专利得到的实验结果。其中,图8是使用本专利的方法在15个场景数据集上得到的每一类的平均分类率;图9是使用本专利的方法在运动场景数据集上得到的每一类的平均分类率。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于半监督学习的乘积量化方法,其特征在于:包括,
S1:基于拉普拉斯特征值映射的图像降维算法对高维图像进行降维操作,把这些降维后的数据作为输入样本;
S2:根据输入样本的类标签,基于最优反向预测算法来设定目标函数;
所述最优反向预测算法的目标函数包含两项,分别为聚类中心矩阵与标签矩阵均未知的无监督聚类算法以及标签已知的监督学习约束项;
目标函数中的标签变量采用1-K编码方案,通过优化聚类中心矩阵和未知标签矩阵变量之间的最小平方损失函数来求解最优反向预测算法,构建的目标函数如下,
Figure QLYQS_1
其中
Figure QLYQS_2
和/>
Figure QLYQS_3
分别是训练实例矩阵和标记矩阵,/>
Figure QLYQS_4
是未标记的数据矩阵,/>
Figure QLYQS_5
是未知的标签矩阵,η2是交易参数,Y(L)和B使用1-K编码方案,P表示实例的维数,NL和NU分别是标记和未标记实例的数量,K是簇的数量;
S3:特征空间最优分解,以得到半监督笛卡尔K均值模型;
所述特征空间的最优分解包括,
S31:采用乘积量化算法,使得每个子空间中的码字均通过采用K均值聚类生成,该聚类相对于b和C迭代地优化平方失真误差;
S32:笛卡尔K均值通过在公式(1.2)中的映射矩阵C的列上施加正交约束来获得ANN搜索任务的空间分解方法;
Figure QLYQS_6
S33:聚类中心的正交约束保证聚类中心表示为C≡RD,其中R是旋转矩阵,RTR=RRT=I,将公式(1.2)重新表示为公式(1.3),最小化(1.3)关于R,D和B,所获得的旋转矩阵R和聚类中心D再结合公式(1.3)以获得失真误差;
Figure QLYQS_7
M是子空间的编号;
S34:使用公式(1.1)在量化过程中代入公式(1.3)并给出半监督的笛卡尔K均值算法,给定标记数据集
Figure QLYQS_8
和未标记数据集/>
Figure QLYQS_9
其中P是实例的维数,K是量化中心的数量,NL和NU是标记和未标记数据实例的数量;
S35:基于输入空间分解策略,半监督笛卡尔K均值(SSCK)表示为
Figure QLYQS_10
Figure QLYQS_11
Figure QLYQS_12
S36:利用希尔伯特-施密特不相关性准则对特征空间进行分解;
S4:采用拉普拉斯正则化的最优反向预测算法构建半监督的量化模型;
S5:优化基于半监督学习的量化模型以及实现基于图像内容的检索;
将拉普拉斯正则化项引入上述公式(1.4),并得到以下公式:
Figure QLYQS_13
Figure QLYQS_14
Figure QLYQS_15
其中,
Figure QLYQS_16
μ是平均值向量输入数据;Y(L)和B都是量化标签且未知,L是拉普拉斯矩阵,L=W-D;
W是相似矩阵,Dii=∑jWi,j
2.如权利要求1所述的基于半监督学习的乘积量化方法,其特征在于:优化公式(1.5),且仅保留与Y(L)相关的项:
Figure QLYQS_17
Figure QLYQS_18
进一步计算得:
Figure QLYQS_19
Figure QLYQS_20
3.如权利要求2所述的基于半监督学习的乘积量化方法,其特征在于:在获得量化Y(L)的基础上,通过计算每个量化簇中所有标记数据X(L)的平均值来获得簇中心D;基于预测的聚类中心D,能够通过采用KNN聚类算法获得未标记数据的标签矩阵B,如下:
Figure QLYQS_21
4.如权利要求3所述的基于半监督学习的乘积量化方法,其特征在于:根据标记数据X(L),未标记数据X(U)及其量化标签Y(L)和B,更新聚类中心D,如下:
Figure QLYQS_22
Figure QLYQS_23
Y:=[Y(L)ηB](1.9)。
5.如权利要求4任一所述的基于半监督学习的乘积量化方法,其特征在于:采用笛卡尔K-means算法来更新R,基于:
Figure QLYQS_24
得到:
Figure QLYQS_25
6.如权利要求5所述的基于半监督学习的乘积量化方法,其特征在于:在得到R,D,Y(L)和B的基础上,能够更新变量μ,如下:
μ←mean(X-RDY)
X=[X(L) ηX(U)] Y=[Y(L) ηB]。
CN201910283993.0A 2019-04-10 2019-04-10 一种基于半监督学习的乘积量化方法 Active CN110046660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910283993.0A CN110046660B (zh) 2019-04-10 2019-04-10 一种基于半监督学习的乘积量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910283993.0A CN110046660B (zh) 2019-04-10 2019-04-10 一种基于半监督学习的乘积量化方法

Publications (2)

Publication Number Publication Date
CN110046660A CN110046660A (zh) 2019-07-23
CN110046660B true CN110046660B (zh) 2023-06-27

Family

ID=67276571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910283993.0A Active CN110046660B (zh) 2019-04-10 2019-04-10 一种基于半监督学习的乘积量化方法

Country Status (1)

Country Link
CN (1) CN110046660B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298415B (zh) * 2019-08-20 2019-12-03 视睿(杭州)信息科技有限公司 一种半监督学习的训练方法、系统和计算机可读存储介质
CN110704655B (zh) * 2019-10-18 2022-05-13 中国科学技术大学 在线多量化图像检索方法
CN110889015B (zh) * 2019-10-31 2024-01-30 天津工业大学 面向图数据的独立解耦卷积神经网络表征方法
CN111400766B (zh) * 2020-03-25 2021-08-06 支付宝(杭州)信息技术有限公司 针对隐私数据进行多方联合降维处理的方法及装置
CN116127164B (zh) * 2023-04-17 2023-07-18 中国科学技术大学 码本量化模型的训练方法、搜索数据量化方法及其装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943938A (zh) * 2017-11-23 2018-04-20 清华大学 一种基于深度乘积量化的大规模图像相似检索方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943938A (zh) * 2017-11-23 2018-04-20 清华大学 一种基于深度乘积量化的大规模图像相似检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于最优反预测的半监督学习及其应用;于宏斌;《万方智搜https://d.wanfangdata.com.cn/thesis/D01185913》;20171129;第15~25、53~66页 *

Also Published As

Publication number Publication date
CN110046660A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046660B (zh) 一种基于半监督学习的乘积量化方法
Ashraf et al. Content based image retrieval by using color descriptor and discrete wavelet transform
Latif et al. Content-based image retrieval and feature extraction: a comprehensive review
Kumar et al. An efficient content based image retrieval system using BayesNet and K-NN
CN106777318B (zh) 基于协同训练的矩阵分解跨模态哈希检索方法
Shen et al. Inductive hashing on manifolds
US8428397B1 (en) Systems and methods for large scale, high-dimensional searches
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
Shirazi et al. Content-based image retrieval using texture color shape and region
Ahmad et al. Multi-scale local structure patterns histogram for describing visual contents in social image retrieval systems
Prates et al. Kernel cross-view collaborative representation based classification for person re-identification
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
Peng et al. Fast low rank representation based spatial pyramid matching for image classification
CN112163114B (zh) 一种基于特征融合的图像检索方法
Al-Jubouri Content-based image retrieval: Survey
Chandrakala et al. Application of artificial bee colony optimization algorithm for image classification using color and texture feature similarity fusion
Vieira et al. A novel content-based image retrieval system with feature descriptor integration and accuracy noise reduction
Maihami et al. A review on the application of structured sparse representation at image annotation
Phalke et al. A survey on near duplicate video retrieval using deep learning techniques and framework
Zhang et al. Code consistent hashing based on information-theoretic criterion
Bhoir et al. A review on recent advances in content-based image retrieval used in image search engine
Zhang et al. Learning a general assignment model for video analytics
Seth et al. A review on content based image retrieval
CN113538355A (zh) 一种基于乘积量化学习策略的缺陷检测算法
Zheng et al. Deep learning hash for wireless multimedia image content security

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant