CN113177130B

CN113177130B - 基于二值语义嵌入的图像检索和识别方法和装置

Info

Publication number: CN113177130B
Application number: CN202110640923.3A
Authority: CN
Inventors: 王少华; 刘兴波; 聂秀山; 刘法胜
Original assignee: Shandong University of Science and Technology; Shandong Jianzhu University
Current assignee: Shandong University of Science and Technology; Shandong Jianzhu University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-04-08
Anticipated expiration: 2041-06-09
Also published as: CN113177130A

Abstract

本发明是关于一种基于二值语义嵌入的图像检索和识别方法和装置，方法包括：确定目标函数，利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息，学习从原始图像空间到二值语义空间的映射，得到深度神经网络检索模型和样本图像对应的二值码库；利用深度神经网络检索模型将待检索图像映射到二值语义空间中，以得到待检索图像对应的第一二值码；计算待检索图像对应的第一二值码与二值码库中的每个第二二值码之间的海明距离，并进行升序排列；根据海明距离的排列结果确定近似最近邻检索结果；采用多数投票的方式，依据近似最近邻检索结果中的图像类别识别待检索图像的类别。通过该技术方案，可以充分嵌入图形知识，提高节点分类的准确性。

Description

基于二值语义嵌入的图像检索和识别方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于二值语义嵌入的图像检索和识别方法和装置。

背景技术

随着社会的进步和科技的飞速发展，城市拥挤状况日益严重，由此带来的交通事故频发的问题也逐渐成为威胁人们生命安全的重要问题。于是，智能交通系统应运而生，这是一种集检测、通讯、控制和计算机技术于一体的综合系统、其核心技术涉及图像处理、数字信号处理、模式识别、人工智能、信息技术、电子技术、通信技术和系统工程技术等。一般来说，智能交通系统主要研究以下几个方面：(1)碰撞识别；(2)道路识别；(3)交通标志识别。近年来，许多研究聚焦于前两者，对于交通标志识别的研究相对较少。事实上，交通标志是道路基础设施的重要组成部分，可以为道路驾驶提供重要的指示信息，同时帮助车辆驾驶人员调整和规范驾驶行为。同时，自动驾驶车辆也需要根据识别和理解交通标志，以确保合乎交通法规。

近年来，深度神经网络因其强大的特征提取和表达能力收到越来越多的关注，海量数据的出现为神经网络参数的训练提供了可能。从特征工程的角度来讲，普遍认为神经网络不同于传统的特征提取方法，它是一个黑盒模型。将大量的训练样本送入神经网络中，通过设计一个合理的目标函数，可以得到对于任务有利的特征表示。然而，巨大的数据量也会带来高检索成本，时间复杂度和空间复杂度太高成为亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于二值语义嵌入的图像检索和识别方法和装置，从而实现减少计算复杂度的同时提高图像检索精度和识别的准确性。

根据本发明实施例的第一方面，提供一种基于二值语义嵌入的图像检索和识别方法，所述方法包括：

确定目标函数，并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息，学习从原始图像空间到二值语义空间的映射，得到深度神经网络检索模型和样本图像对应的二值码库；

利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中，以得到所述待检索图像对应的第一二值码；

计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离，并按照海明距离进行升序排列；

根据海明距离的排列结果确定近似最近邻检索结果；

采用多数投票的方式，依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。

在一个实施例中，优选地，所述目标函数包括：

其中，Y表示样本图像的标签矩阵，B表示二值码矩阵，W表示线性映射矩阵，S表示成对相似度矩阵，该矩阵表示训练集中样本图像的相似关系，若两个样本i，j标签相同，则S_ij＝1，否则，S_ij＝0，L表示二值码的长度，α，β，γ表示超参数，V表示训练集图像,θ表示所述深度神经网络检索模型的参数，F(V；Θ)|表示深度神经网络检索模型的输出，N表示所述训练集中的样本数目，I表示单位矩阵。

在一个实施例中，优选地，α＝1，β＝1e-4，γ＝1e-3。

在一个实施例中，优选地，利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息，学习从原始图像空间到二值语义空间的映射，得到深度神经网络检索模型和样本图像对应的二值码库，包括：

采用迭代的方式，分别优化W，B和θ；

在优化W时，固定B和θ，由于W满足正交约束，采用奇异值分解的方法，将所述目标函数简化为：

在优化B时，采用Discrete Proximal Linearized Minimization(DPLM)算法进行优化；

在优化θ时，将||B-F(V；Θ)||²作为所述深度神经网络检索模型的损失，并通过反向传播算法进行优化。

在一个实施例中，优选地，利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中，以得到所述待检索图像对应的第一二值码，包括：

将所述待检索图像输入所述深度神经网络检索模型中，前向传播后得到所述待检索图像对应的第一二值码，如下式所示：

B＝sign(F(V；Θ))

其中，V表示所述待检索图像，sign表示量化函数，目的是将深度神经网络检索模型输出的实数值量化为离散的二值码。

在一个实施例中，优选地，计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离，包括：

将所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码通过异或运算，计算海明距离；

根据海明距离的排列结果确定近似最近邻检索结果，包括：

将海明距离排列在前的预设数量的检索结果确定为近似最近邻检索结果。

在一个实施例中，优选地，所述样本图像和所述待检索图像包括交通标志图像。

根据本发明实施例的第二方面，提供一种基于二值语义嵌入的图像检索和识别装置，所述装置包括：

训练模块，用于确定目标函数，并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息，学习从原始图像空间到二值语义空间的映射，得到深度神经网络检索模型和样本图像对应的二值码库；

映射模块，用于利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中，以得到所述待检索图像对应的第一二值码；

计算模块，用于计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离，并按照海明距离进行升序排列；

确定模块，用于根据海明距离的排列结果确定近似最近邻检索结果；

识别模块，用于采用多数投票的方式，依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。

根据本发明实施例的第三方面，提供一种基于二值语义嵌入的图像检索和识别装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据海明距离的排列结果确定近似最近邻检索结果；

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项所述方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，既利用了深度神经网络强大的特征提取能力，实现了从原始视觉信息到二值语义信息的非线性映射，同时融合了语义标签与成对相似度矩阵中包含的丰富的语义信息来生成高质量的二值码，提高检索精度。与已有方法相比，本发明中提出的方法将深度神经网络学习嵌入到目标函数的优化过程中，而不是简单的使用与训练好的网络来提取特征，减少了计算复杂度的同时提高了检索精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别的流程图。

图2是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别的流程示意图。

图3是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于二值语义嵌入的图像检索和识别的流程图，如图1所示，该方法包括：

步骤S101，确定目标函数，并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息，学习从原始图像空间到二值语义空间的映射，得到深度神经网络检索模型和样本图像对应的二值码库；

在该实施例中，设计目标函数，同时利用标签信息，成对相似度矩阵和原始视觉信息，学习样本的二值语义嵌入。训练完成后，训练集中的原始样本对应的二值码将被存储在二值码库中。其中，该模型训练过程可以是离线阶段进行的。

在一个实施例中，优选地，所述目标函数包括：

上述公式中的第一项和第二项对称的完成语义标签和二值语义嵌入之间的双向映射，隐含的约束了两者之间的相似关系。公式中的第三项通过内积的形式强制保持映射后的二值码之间的相似关系与原始空间中样本图像的相似关系保持一致。公式中的第四项，表示使用深度神经网络检索模型将原始视觉特征嵌入到二值语义空间中。

在一个实施例中，优选地，α＝1，β＝1e-4，γ＝1e-3。

采用迭代的方式，分别优化W，B和θ；

在优化B时，采用DPLM算法进行优化；

在优化θ时，将||B-F(V；Θ)||²作为所述深度神经网络检索模型的损失，并通过反向传播算法进行优化。具体来说，训练集中的图像输入深度神经网络(仿真实验中选用CNN-F，也可采用其他的深度网络进行训练)首先经过卷积神经网络对每张图得到一个4096维的向量表示，在经过一个全连接层的维度转变后，就可将原始样本映射至哈希空间，得到相应的二值码，然后计算二值码约束项损失，并通过梯度反向传播更新参数，重复上述过程直到达到预设的终止条件。

本发明采用映射W来描述标签矩阵和二值码矩阵之间的双向映射关系，即采用W的逆将二值码矩阵B映射到Y，并采用W将Y映射到二值码矩阵B，从而隐含地保持了二值码的成对相似度关系。此外，将样本图像的成对相似度关系嵌入到哈希学习中，强制保持二值码的成对相似度关系。

步骤S102，利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中，以得到所述待检索图像对应的第一二值码；

在进行近似最近邻检索时，待检索图像的二值码将通过深度神经网络检索模型训练得到的网络参数产生。

具体地，上述步骤S102包括：将所述待检索图像输入所述深度神经网络检索模型中，前向传播后得到所述待检索图像对应的第一二值码，如下式所示：

B＝sign(F(V；Θ))

步骤S103，计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离，并按照海明距离进行升序排列；

步骤S104，根据海明距离的排列结果确定近似最近邻检索结果；

在一个实施例中，优选地，根据海明距离的排列结果确定近似最近邻检索结果，包括：

步骤S105，采用多数投票的方式，依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。

如图2所示，在该实施例中，训练过程中，提出一种新的框架，同时利用语义标签信息，相似度矩阵信息，原始数据特征学习一个从原始空间到二值语义空间的映射。在该框架中还整合了深度神经网络，优化过程中采用迭代优化的方式，分别优化目标函数中变量直至收敛，深度神经网络参数的训练正是二值嵌入框架优化过程的一个步骤。测试过程中，采用已经训练好的网络参数对应生成待检索图像的二值码，并将其与二值码库进行对比，根据海明距离进行排序，得到检索与识别结果。与以往的发明相比，本发明设计了一种新的学习二值嵌入的框架，同时利用正反映射，相似度矩阵来学习原始空间中样本的相似度关系，并将深度神经网络的训练嵌入到该框架中，学习出一种更灵活，更准确的特征映射，提高了大规模检索的性能。

在该实施例中，样本图像和所述待检索图像包括交通标志图像，即上述基于二值语义嵌入的图像检索和识别方法可以应用于大规模交通标志图像的检索和识别，从而提高检索和识别的效率。当然，上述方法也可以应用其他图像的检索和识别。

下面以两个具体实施例来说明本发明的检索和识别效果。

表1和表2是本发明的两个仿真实验。表1为检索结果，在该仿真实验中，分别在16，32，64，128，256个比特位上对比了12种哈希方法，包括SH(Spectral Hashing，谱哈希)，PCA-ITQ(Iterative Quantization，迭代量化哈希)，PCA-RR(Random Rotation，随即旋转哈希)，MFH(Matrix Factorization Hashing，矩阵分解哈希)，SDH(Supervised DiscreteHashing，监督离散哈希)，NSH(Natural Supervised Hashing，自然监督哈希)，FSDH，(FastSupervised Discrete Hashing,快速监督离散哈希)，R2SDH(Roubust RotationSupervisedDiscrete Hashing,鲁棒旋转监督离散哈希)，FSSH(Fast ScalableSupervised Hashing，快速可扩展监督哈希)，SSLH(Supervised Short-Length Hashing,快速监督离散哈希)，SDHMLR(Supervised Discrete Hashing with Mutual LinearRegression，双线性映射监督离散哈希)，SCDH(Strongly Constrained DiscreteHashing，强约束离散哈希)。采用的评价指标为平均精度均值(mean Average Precision)，定义如下：

其中，R表示范围中相似图像的总数，K表示总检索范围，R_i表示检索到第i个样本时检索出相似图像的个数。

表1.mAP统计表

表2.分类性能

表2为分类结果，同样与上述12中方法进行对比，这里采用4种评价指标，分别是Accuracy(准确率),Precision(查准率),Recall(查全率),和F1-Score(F1-分数)。定义如下：

其中，TP表示真阳性的样本数，TN表示真阴性的样本数，FP表示假阳性的样本数，FN表示假阴性的样本数。从表1和表2的实验结果可以看出，本发明的方法在检索和识别大规模交通标志的任务中取得了更好的效果。

图3是根据一示例性实施例示出的一种基于对称图卷积神经网络的半监督节点分类装置的框图。

如图3所示，根据本发明实施例的第二方面，提供一种基于二值语义嵌入的图像检索和识别装置，所述装置包括：

训练模块31，用于确定目标函数，并利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息，学习从原始图像空间到二值语义空间的映射，得到深度神经网络检索模型和样本图像对应的二值码库；

映射模块32，用于利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中，以得到所述待检索图像对应的第一二值码；

计算模块33，用于计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离，并按照海明距离进行升序排列；

确定模块34，用于根据海明距离的排列结果确定近似最近邻检索结果；

识别模块35，用于采用多数投票的方式，依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据海明距离的排列结果确定近似最近邻检索结果；

传统的哈希检索首先将原始图像进行特征提取，并将原始数据的高维特征表示映射到低维度的二进制二值码空间。本发明通过设计相应的目标函数使映射后的样本点在二进制二值码空间中仍然保持原始空间中的近邻关系，即在原始空间中语义相似的两个样本对应的二值码也应该是相似的。而在检索过程中，将查询图像以相同映射转化为二值码后，将二值码与检索库二值码进行比对，根据海明距离排序来得出最近似的检索样本序列。得益于二值码的存储优势和异或(XOR)运算的运算速度，海明距离计算的时间复杂度和空间复杂度都远远小于欧式距离的计算和存储，从而达到快速近似最近邻检索的目标，可以显著提升大规模检索的速度和性能。

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于二值语义嵌入的图像检索和识别方法，其特征在于，所述方法包括：

根据海明距离的排列结果确定近似最近邻检索结果；

采用多数投票的方式，依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别；

所述目标函数包括：

s.t.diag(W^TW)＝1，B∈{-1，+l}^L×N，B1＝0，BB^T＝I_N，

其中，Y表示样本图像的标签矩阵，B表示二值码矩阵，W表示线性映射矩阵，S表示成对相似度矩阵，该矩阵表示训练集中样本图像的相似关系，若两个样本i，j标签相同，则S_ij＝1，否则，S_ij＝0，L表示二值码的长度，α，β，γ表示超参数，V表示训练集图像,θ表示所述深度神经网络检索模型的参数，F(V；Θ)|表示深度神经网络检索模型的输出，N表示所述训练集中的样本数目，I表示单位矩阵；α＝1，β＝1e-4,γ＝1e-3。

2.根据权利要求1所述的方法，其特征在于，利用训练集中样本图像的标签信息、成对相似度矩阵和原始视觉信息，学习从原始图像空间到二值语义空间的映射，得到深度神经网络检索模型和样本图像对应的二值码库，包括：

采用迭代的方式，分别优化W，B和θ；

在优化B时，采用DPLM算法进行优化；

3.根据权利要求1所述的方法，其特征在于，利用所述深度神经网络检索模型将待检索图像映射到二值语义空间中，以得到所述待检索图像对应的第一二值码，包括：

B＝sign(F(V；Θ))

4.根据权利要求1所述的方法，其特征在于，计算所述待检索图像对应的第一二值码与所述二值码库中的每个第二二值码之间的海明距离，包括：

根据海明距离的排列结果确定近似最近邻检索结果，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述样本图像和所述待检索图像包括交通标志图像。

6.一种基于二值语义嵌入的图像检索和识别装置，其特征在于，所述装置包括：

识别模块，用于采用多数投票的方式，依据所述近似最近邻检索结果中的图像类别识别所述待检索图像的类别；

所述目标函数包括：

s.t.diag(W^TW)＝1，B∈I-1，+1}^L×N，B1＝0，BB^T＝I_N，

7.一种基于二值语义嵌入的图像检索和识别装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据海明距离的排列结果确定近似最近邻检索结果；

所述目标函数包括：

s.t.diag(W^TW)＝1，B∈{-1，+1}^L×N，B1＝0，BB^T＝I_N，

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤。