CN113177130B - 基于二值语义嵌入的图像检索和识别方法和装置 - Google Patents

基于二值语义嵌入的图像检索和识别方法和装置 Download PDF

Info

Publication number
CN113177130B
CN113177130B CN202110640923.3A CN202110640923A CN113177130B CN 113177130 B CN113177130 B CN 113177130B CN 202110640923 A CN202110640923 A CN 202110640923A CN 113177130 B CN113177130 B CN 113177130B
Authority
CN
China
Prior art keywords
image
binary code
retrieved
binary
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110640923.3A
Other languages
English (en)
Other versions
CN113177130A (zh
Inventor
王少华
刘兴波
聂秀山
刘法胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Shandong Jianzhu University
Original Assignee
Shandong University of Science and Technology
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology, Shandong Jianzhu University filed Critical Shandong University of Science and Technology
Priority to CN202110640923.3A priority Critical patent/CN113177130B/zh
Publication of CN113177130A publication Critical patent/CN113177130A/zh
Application granted granted Critical
Publication of CN113177130B publication Critical patent/CN113177130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是关于一种基于二值语义嵌入的图像检索和识别方法和装置,方法包括:确定目标函数,利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;利用深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到待检索图像对应的第一二值码;计算待检索图像对应的第一二值码与二值码库中的每个第二二值码之间的海明距离,并进行升序排列;根据海明距离的排列结果确定近似最近邻检索结果;采用多数投票的方式,依据近似最近邻检索结果中的图像类别识别待检索图像的类别。通过该技术方案,可以充分嵌入图形知识,提高节点分类的准确性。

Description

基于二值语义嵌入的图像检索和识别方法和装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于二值语义嵌入的图像检索和识别方法和装置。
背景技术
随着社会的进步和科技的飞速发展,城市拥挤状况日益严重,由此带来的交通事故频发的问题也逐渐成为威胁人们生命安全的重要问题。于是,智能交通系统应运而生,这是一种集检测、通讯、控制和计算机技术于一体的综合系统、其核心技术涉及图像处理、数字信号处理、模式识别、人工智能、信息技术、电子技术、通信技术和系统工程技术等。一般来说,智能交通系统主要研究以下几个方面:(1)碰撞识别;(2)道路识别;(3)交通标志识别。近年来,许多研究聚焦于前两者,对于交通标志识别的研究相对较少。事实上,交通标志是道路基础设施的重要组成部分,可以为道路驾驶提供重要的指示信息,同时帮助车辆驾驶人员调整和规范驾驶行为。同时,自动驾驶车辆也需要根据识别和理解交通标志,以确保合乎交通法规。
近年来,深度神经网络因其强大的特征提取和表达能力收到越来越多的关注,海量数据的出现为神经网络参数的训练提供了可能。从特征工程的角度来讲,普遍认为神经网络不同于传统的特征提取方法,它是一个黑盒模型。将大量的训练样本送入神经网络中,通过设计一个合理的目标函数,可以得到对于任务有利的特征表示。然而,巨大的数据量也会带来高检索成本,时间复杂度和空间复杂度太高成为亟待解决的问题。
发明内容
为克服相关技术中存在的问题,本发明提供一种基于二值语义嵌入的图像检索和识别方法和装置,从而实现减少计算复杂度的同时提高图像检索精度和识别的准确性。
根据本发明实施例的第一方面,提供一种基于二值语义嵌入的图像检索和识别方法,所述方法包括:
确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
根据海明距离的排列结果确定近似最近邻检索结果;
采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。
在一个实施例中,优选地,所述目标函数包括:
Figure BDA0003107664670000021
其中,Y表示样本图像的标签矩阵,B表示二值码矩阵,W表示线性映射矩阵,S表示成对相似度矩阵,该矩阵表示训练集中样本图像的相似关系,若两个样本i,j标签相同,则Sij=1,否则,Sij=0,L表示二值码的长度,α,β,γ表示超参数,V表示训练集图像,θ表示所述深度神经网络检索模型的参数,F(V;Θ)|表示深度神经网络检索模型的输出,N表示所述训练集中的样本数目,I表示单位矩阵。
在一个实施例中,优选地,α=1,β=1e-4,γ=1e-3。
在一个实施例中,优选地,利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库,包括:
采用迭代的方式,分别优化W,B和θ;
在优化W时,固定B和θ,由于W满足正交约束,采用奇异值分解的方法,将所述目标函数简化为:
Figure BDA0003107664670000031
在优化B时,采用Discrete Proximal Linearized Minimization(DPLM)算法进行优化;
在优化θ时,将||B-F(V;Θ)||2作为所述深度神经网络检索模型的损失,并通过反向传播算法进行优化。
在一个实施例中,优选地,利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码,包括:
将所述待检索图像输入所述深度神经网络检索模型中,前向传播后得到所述待检索图像对应的第一二值码,如下式所示:
B=sign(F(V;Θ))
其中,V表示所述待检索图像,sign表示量化函数,目的是将深度神经网络检索模型输出的实数值量化为离散的二值码。
在一个实施例中,优选地,计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,包括:
将所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码通过异或运算,计算海明距离;
根据海明距离的排列结果确定近似最近邻检索结果,包括:
将海明距离排列在前的预设数量的检索结果确定为近似最近邻检索结果。
在一个实施例中,优选地,所述样本图像和所述待检索图像包括交通标志图像。
根据本发明实施例的第二方面,提供一种基于二值语义嵌入的图像检索和识别装置,所述装置包括:
训练模块,用于确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
映射模块,用于利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算模块,用于计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
确定模块,用于根据海明距离的排列结果确定近似最近邻检索结果;
识别模块,用于采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。
根据本发明实施例的第三方面,提供一种基于二值语义嵌入的图像检索和识别装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
根据海明距离的排列结果确定近似最近邻检索结果;
采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项所述方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,既利用了深度神经网络强大的特征提取能力,实现了从原始视觉信息到二值语义信息的非线性映射,同时融合了语义标签与成对相似度矩阵中包含的丰富的语义信息来生成高质量的二值码,提高检索精度。与已有方法相比,本发明中提出的方法将深度神经网络学习嵌入到目标函数的优化过程中,而不是简单的使用与训练好的网络来提取特征,减少了计算复杂度的同时提高了检索精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别的流程图。
图2是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别的流程示意图。
图3是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别的流程图,如图1所示,该方法包括:
步骤S101,确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
在该实施例中,设计目标函数,同时利用标签信息,成对相似度矩阵和原始视觉信息,学习样本的二值语义嵌入。训练完成后,训练集中的原始样本对应的二值码将被存储在二值码库中。其中,该模型训练过程可以是离线阶段进行的。
在一个实施例中,优选地,所述目标函数包括:
Figure BDA0003107664670000061
其中,Y表示样本图像的标签矩阵,B表示二值码矩阵,W表示线性映射矩阵,S表示成对相似度矩阵,该矩阵表示训练集中样本图像的相似关系,若两个样本i,j标签相同,则Sij=1,否则,Sij=0,L表示二值码的长度,α,β,γ表示超参数,V表示训练集图像,θ表示所述深度神经网络检索模型的参数,F(V;Θ)|表示深度神经网络检索模型的输出,N表示所述训练集中的样本数目,I表示单位矩阵。
上述公式中的第一项和第二项对称的完成语义标签和二值语义嵌入之间的双向映射,隐含的约束了两者之间的相似关系。公式中的第三项通过内积的形式强制保持映射后的二值码之间的相似关系与原始空间中样本图像的相似关系保持一致。公式中的第四项,表示使用深度神经网络检索模型将原始视觉特征嵌入到二值语义空间中。
在一个实施例中,优选地,α=1,β=1e-4,γ=1e-3。
在一个实施例中,优选地,利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库,包括:
采用迭代的方式,分别优化W,B和θ;
在优化W时,固定B和θ,由于W满足正交约束,采用奇异值分解的方法,将所述目标函数简化为:
Figure BDA0003107664670000071
在优化B时,采用DPLM算法进行优化;
在优化θ时,将||B-F(V;Θ)||2作为所述深度神经网络检索模型的损失,并通过反向传播算法进行优化。具体来说,训练集中的图像输入深度神经网络(仿真实验中选用CNN-F,也可采用其他的深度网络进行训练)首先经过卷积神经网络对每张图得到一个4096维的向量表示,在经过一个全连接层的维度转变后,就可将原始样本映射至哈希空间,得到相应的二值码,然后计算二值码约束项损失,并通过梯度反向传播更新参数,重复上述过程直到达到预设的终止条件。
本发明采用映射W来描述标签矩阵和二值码矩阵之间的双向映射关系,即采用W的逆将二值码矩阵B映射到Y,并采用W将Y映射到二值码矩阵B,从而隐含地保持了二值码的成对相似度关系。此外,将样本图像的成对相似度关系嵌入到哈希学习中,强制保持二值码的成对相似度关系。
步骤S102,利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
在进行近似最近邻检索时,待检索图像的二值码将通过深度神经网络检索模型训练得到的网络参数产生。
具体地,上述步骤S102包括:将所述待检索图像输入所述深度神经网络检索模型中,前向传播后得到所述待检索图像对应的第一二值码,如下式所示:
B=sign(F(V;Θ))
其中,V表示所述待检索图像,sign表示量化函数,目的是将深度神经网络检索模型输出的实数值量化为离散的二值码。
步骤S103,计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
在一个实施例中,优选地,计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,包括:
将所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码通过异或运算,计算海明距离;
步骤S104,根据海明距离的排列结果确定近似最近邻检索结果;
在一个实施例中,优选地,根据海明距离的排列结果确定近似最近邻检索结果,包括:
将海明距离排列在前的预设数量的检索结果确定为近似最近邻检索结果。
步骤S105,采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。
如图2所示,在该实施例中,训练过程中,提出一种新的框架,同时利用语义标签信息,相似度矩阵信息,原始数据特征学习一个从原始空间到二值语义空间的映射。在该框架中还整合了深度神经网络,优化过程中采用迭代优化的方式,分别优化目标函数中变量直至收敛,深度神经网络参数的训练正是二值嵌入框架优化过程的一个步骤。测试过程中,采用已经训练好的网络参数对应生成待检索图像的二值码,并将其与二值码库进行对比,根据海明距离进行排序,得到检索与识别结果。与以往的发明相比,本发明设计了一种新的学习二值嵌入的框架,同时利用正反映射,相似度矩阵来学习原始空间中样本的相似度关系,并将深度神经网络的训练嵌入到该框架中,学习出一种更灵活,更准确的特征映射,提高了大规模检索的性能。
在一个实施例中,优选地,所述样本图像和所述待检索图像包括交通标志图像。
在该实施例中,样本图像和所述待检索图像包括交通标志图像,即上述基于二值语义嵌入的图像检索和识别方法可以应用于大规模交通标志图像的检索和识别,从而提高检索和识别的效率。当然,上述方法也可以应用其他图像的检索和识别。
下面以两个具体实施例来说明本发明的检索和识别效果。
表1和表2是本发明的两个仿真实验。表1为检索结果,在该仿真实验中,分别在16,32,64,128,256个比特位上对比了12种哈希方法,包括SH(Spectral Hashing,谱哈希),PCA-ITQ(Iterative Quantization,迭代量化哈希),PCA-RR(Random Rotation,随即旋转哈希),MFH(Matrix Factorization Hashing,矩阵分解哈希),SDH(Supervised DiscreteHashing,监督离散哈希),NSH(Natural Supervised Hashing,自然监督哈希),FSDH,(FastSupervised Discrete Hashing,快速监督离散哈希),R2SDH(Roubust RotationSupervisedDiscrete Hashing,鲁棒旋转监督离散哈希),FSSH(Fast ScalableSupervised Hashing,快速可扩展监督哈希),SSLH(Supervised Short-Length Hashing,快速监督离散哈希),SDHMLR(Supervised Discrete Hashing with Mutual LinearRegression,双线性映射监督离散哈希),SCDH(Strongly Constrained DiscreteHashing,强约束离散哈希)。采用的评价指标为平均精度均值(mean Average Precision),定义如下:
Figure BDA0003107664670000101
其中,R表示范围中相似图像的总数,K表示总检索范围,Ri表示检索到第i个样本时检索出相似图像的个数。
表1.mAP统计表
Figure BDA0003107664670000102
表2.分类性能
表2为分类结果,同样与上述12中方法进行对比,这里采用4种评价指标,分别是Accuracy(准确率),Precision(查准率),Recall(查全率),和F1-Score(F1-分数)。定义如下:
Figure BDA0003107664670000111
Figure BDA0003107664670000112
Figure BDA0003107664670000113
Figure BDA0003107664670000114
Figure BDA0003107664670000115
其中,TP表示真阳性的样本数,TN表示真阴性的样本数,FP表示假阳性的样本数,FN表示假阴性的样本数。从表1和表2的实验结果可以看出,本发明的方法在检索和识别大规模交通标志的任务中取得了更好的效果。
图3是根据一示例性实施例示出的一种基于对称图卷积神经网络的半监督节点分类装置的框图。
如图3所示,根据本发明实施例的第二方面,提供一种基于二值语义嵌入的图像检索和识别装置,所述装置包括:
训练模块31,用于确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
映射模块32,用于利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算模块33,用于计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
确定模块34,用于根据海明距离的排列结果确定近似最近邻检索结果;
识别模块35,用于采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。
根据本发明实施例的第三方面,提供一种基于二值语义嵌入的图像检索和识别装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
根据海明距离的排列结果确定近似最近邻检索结果;
采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项所述方法的步骤。
传统的哈希检索首先将原始图像进行特征提取,并将原始数据的高维特征表示映射到低维度的二进制二值码空间。本发明通过设计相应的目标函数使映射后的样本点在二进制二值码空间中仍然保持原始空间中的近邻关系,即在原始空间中语义相似的两个样本对应的二值码也应该是相似的。而在检索过程中,将查询图像以相同映射转化为二值码后,将二值码与检索库二值码进行比对,根据海明距离排序来得出最近似的检索样本序列。得益于二值码的存储优势和异或(XOR)运算的运算速度,海明距离计算的时间复杂度和空间复杂度都远远小于欧式距离的计算和存储,从而达到快速近似最近邻检索的目标,可以显著提升大规模检索的速度和性能。
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种基于二值语义嵌入的图像检索和识别方法,其特征在于,所述方法包括:
确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
根据海明距离的排列结果确定近似最近邻检索结果;
采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别;
所述目标函数包括:
Figure FDA0003468635100000011
s.t.diag(WTW)=1,B∈{-1,+l}L×N,B1=0,BBT=IN
其中,Y表示样本图像的标签矩阵,B表示二值码矩阵,W表示线性映射矩阵,S表示成对相似度矩阵,该矩阵表示训练集中样本图像的相似关系,若两个样本i,j标签相同,则Sij=1,否则,Sij=0,L表示二值码的长度,α,β,γ表示超参数,V表示训练集图像,θ表示所述深度神经网络检索模型的参数,F(V;Θ)|表示深度神经网络检索模型的输出,N表示所述训练集中的样本数目,I表示单位矩阵;α=1,β=1e-4,γ=1e-3。
2.根据权利要求1所述的方法,其特征在于,利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库,包括:
采用迭代的方式,分别优化W,B和θ;
在优化W时,固定B和θ,由于W满足正交约束,采用奇异值分解的方法,将所述目标函数简化为:
Figure FDA0003468635100000021
在优化B时,采用DPLM算法进行优化;
在优化θ时,将||B-F(V;Θ)||2作为所述深度神经网络检索模型的损失,并通过反向传播算法进行优化。
3.根据权利要求1所述的方法,其特征在于,利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码,包括:
将所述待检索图像输入所述深度神经网络检索模型中,前向传播后得到所述待检索图像对应的第一二值码,如下式所示:
B=sign(F(V;Θ))
其中,V表示所述待检索图像,sign表示量化函数,目的是将深度神经网络检索模型输出的实数值量化为离散的二值码。
4.根据权利要求1所述的方法,其特征在于,计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,包括:
将所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码通过异或运算,计算海明距离;
根据海明距离的排列结果确定近似最近邻检索结果,包括:
将海明距离排列在前的预设数量的检索结果确定为近似最近邻检索结果。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述样本图像和所述待检索图像包括交通标志图像。
6.一种基于二值语义嵌入的图像检索和识别装置,其特征在于,所述装置包括:
训练模块,用于确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
映射模块,用于利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算模块,用于计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
确定模块,用于根据海明距离的排列结果确定近似最近邻检索结果;
识别模块,用于采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别;
所述目标函数包括:
Figure FDA0003468635100000031
s.t.diag(WTW)=1,B∈I-1,+1}L×N,B1=0,BBT=IN
其中,Y表示样本图像的标签矩阵,B表示二值码矩阵,W表示线性映射矩阵,S表示成对相似度矩阵,该矩阵表示训练集中样本图像的相似关系,若两个样本i,j标签相同,则Sij=1,否则,Sij=0,L表示二值码的长度,α,β,γ表示超参数,V表示训练集图像,θ表示所述深度神经网络检索模型的参数,F(V;Θ)|表示深度神经网络检索模型的输出,N表示所述训练集中的样本数目,I表示单位矩阵;α=1,β=1e-4,γ=1e-3。
7.一种基于二值语义嵌入的图像检索和识别装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定目标函数,并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息,学习从原始图像空间到二值语义空间的映射,得到深度神经网络检索模型和样本图像对应的二值码库;
利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中,以得到所述待检索图像对应的第一二值码;
计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离,并按照海明距离进行升序排列;
根据海明距离的排列结果确定近似最近邻检索结果;
采用多数投票的方式,依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别;
所述目标函数包括:
Figure FDA0003468635100000041
s.t.diag(WTW)=1,B∈{-1,+1}L×N,B1=0,BBT=IN
其中,Y表示样本图像的标签矩阵,B表示二值码矩阵,W表示线性映射矩阵,S表示成对相似度矩阵,该矩阵表示训练集中样本图像的相似关系,若两个样本i,j标签相同,则Sij=1,否则,Sij=0,L表示二值码的长度,α,β,γ表示超参数,V表示训练集图像,θ表示所述深度神经网络检索模型的参数,F(V;Θ)|表示深度神经网络检索模型的输出,N表示所述训练集中的样本数目,I表示单位矩阵;α=1,β=1e-4,γ=1e-3。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
CN202110640923.3A 2021-06-09 2021-06-09 基于二值语义嵌入的图像检索和识别方法和装置 Active CN113177130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110640923.3A CN113177130B (zh) 2021-06-09 2021-06-09 基于二值语义嵌入的图像检索和识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110640923.3A CN113177130B (zh) 2021-06-09 2021-06-09 基于二值语义嵌入的图像检索和识别方法和装置

Publications (2)

Publication Number Publication Date
CN113177130A CN113177130A (zh) 2021-07-27
CN113177130B true CN113177130B (zh) 2022-04-08

Family

ID=76927640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110640923.3A Active CN113177130B (zh) 2021-06-09 2021-06-09 基于二值语义嵌入的图像检索和识别方法和装置

Country Status (1)

Country Link
CN (1) CN113177130B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147667A (zh) * 2022-08-31 2022-10-04 山东省凯麟环保设备股份有限公司 面向无人驾驶智能清扫车的垃圾分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN109344279A (zh) * 2018-12-12 2019-02-15 山东山大鸥玛软件股份有限公司 基于哈希检索的手写英文单词智能识别方法
AU2017324850A1 (en) * 2016-09-07 2019-04-18 Facebook, Inc. Similarity search using polysemous codes
CN109918532A (zh) * 2019-03-08 2019-06-21 苏州大学 图像检索方法、装置、设备及计算机可读存储介质
CN110555121A (zh) * 2019-08-27 2019-12-10 清华大学 基于图神经网络的图像哈希生成方法及装置
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
AU2017324850A1 (en) * 2016-09-07 2019-04-18 Facebook, Inc. Similarity search using polysemous codes
CN109344279A (zh) * 2018-12-12 2019-02-15 山东山大鸥玛软件股份有限公司 基于哈希检索的手写英文单词智能识别方法
CN109918532A (zh) * 2019-03-08 2019-06-21 苏州大学 图像检索方法、装置、设备及计算机可读存储介质
CN110555121A (zh) * 2019-08-27 2019-12-10 清华大学 基于图神经网络的图像哈希生成方法及装置
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于深度学习的图像检索";郑莹雪;《中国优秀硕士学位论文全文数据库》;20160915;全文 *

Also Published As

Publication number Publication date
CN113177130A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN109558823B (zh) 一种以图搜图的车辆识别方法及系统
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN108388656B (zh) 一种基于标记相关性的图片搜索方法
CN113177132A (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
WO2021243947A1 (zh) 对象再识别方法及装置、终端和存储介质
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN115439685A (zh) 一种小样本图像数据集划分方法及计算机可读存储介质
CN113177130B (zh) 基于二值语义嵌入的图像检索和识别方法和装置
CN114239730B (zh) 一种基于近邻排序关系的跨模态检索方法
CN110222772B (zh) 一种基于块级别主动学习的医疗图像标注推荐方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN117725999A (zh) 一种基于提示学习和外部知识嵌入的关系抽取方法
CN115292533B (zh) 视觉定位驱动的跨模态行人检索方法
CN116109834A (zh) 一种基于局部正交特征注意力融合的小样本图像分类方法
CN116206201A (zh) 一种监督目标检测识别方法、装置、设备及存储介质
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN116798004A (zh) 一种车辆重识别方法、系统、装置及存储介质
CN115424275A (zh) 一种基于深度学习技术的渔船船牌号识别方法及系统
CN118536049B (zh) 基于多模态异常内容理解的内容主体发现方法
CN115329755B (zh) 实体链接模型处理方法、装置和实体链接处理方法、装置
CN117218396B (zh) 基于大模型的视觉样本数据自动标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant