CN115964527B - 一种用于单标签图像检索的标签表征构建方法 - Google Patents
一种用于单标签图像检索的标签表征构建方法 Download PDFInfo
- Publication number
- CN115964527B CN115964527B CN202310011361.5A CN202310011361A CN115964527B CN 115964527 B CN115964527 B CN 115964527B CN 202310011361 A CN202310011361 A CN 202310011361A CN 115964527 B CN115964527 B CN 115964527B
- Authority
- CN
- China
- Prior art keywords
- image
- label
- tag
- characterization
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 110
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 45
- 238000013139 quantization Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013459 approach Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于单标签图像检索的标签表征构建方法,包括:基于全连接神经网络确定单标签图像的标签表征,并基于标签表征平衡损失以及量化损失反向优化全连接神经网络;基于卷积神经网络提取单标签图像的图像特征,并与对应的标签表征之间的中心相似性损失来优化卷积神经网络;基于卷积神经网络提取待检索单标签图像特征,并符号化为二进制码,并基于二进制码实现对单标签图像的检索。通过确定单标签图像的单标签信息,同时,通过全连接神经网络生成各个标签的表征向量,并鼓励标签表征相互之间保持最大的距离,从而增加标签表征之间的可辨别性,将标签表征作为所有同标签图像特征的类中心,为图像特征学习提供了极大便利。
Description
技术领域
本发明涉及图像检索技术领域,特别涉及一种用于单标签图像检索的标签表征构建方法。
背景技术
目前,生活在互联网大数据时代,爆炸性的数据量以图像、视频、文本和音频等多种形式出现,对现有的搜索引擎和推荐系统带来了很大的挑战,因此使用深度哈希技术对图像进行编码,实现快速图像检索,提高检索效率;
传统的深度哈希方法大多基于成对标签或三元组的方法进行对比学习,但是该方法存在不足:一是对采样策略要求高,二是采样结果对数据分布的覆盖率不足;三是对不平衡数据的有效性较差,在现实场景中,不相似样本对的数量远大于相似样本对的数量。
因此,本发明提供了一种用于单标签图像检索的标签表征构建方法,用以通过确定单标签图像的单标签信息,便于准确生成单标签图像的标签表征,并鼓励标签表征相互之间保持最大的距离,从而增加标签表征之间的可辨别性,确保生成的类中心准确可靠,同时也为单标签图像检索提供了极大便利。
发明内容
本发明提供一种用于单标签图像检索的标签表征构建方法,获取数据集中所有的单标签信息,使用预训练的词向量作为各个标签的初始表征,使用全连接神经网络将其从高维空间中转换到低维度空间,将每个标签用低维度的向量来表征。在全连接神经网络的训练过程中,鼓励各个标签的表征向量互相远离,从而增加表征之间的可辨别性,为后续图像特征学习过程中提供具有辨别力的中心。在图像特征学习阶段,鼓励每一张图像靠近对应的标签表征,所有同标签图像能够靠近同一个标签表征,从而实现所有相似图像,即同标签图像,在特征空间中能够互相靠近。
本发明提供了一种用于单标签图像检索的标签表征构建方法,包括:
步骤1:基于单标签图像数据集获取所有的标签名称,并使用预训练的词向量作为所述标签的初始表征,将所述初始表征输入至全连接神经网络,输出得到各标签的标签表征,计算标签表征平衡损失和量化损失,并基于所述标签表征平衡损失和量化损失反向传播优化所述全连接神经网络;
步骤2:基于卷积神经网络提取单标签图像的图像特征,并将标签表征作为同类单标签图像的特征中心,计算图像特征与对应标签表征之间的余弦距离,且基于所述余弦距离确定中心相似性损失,并基于所述中心相似性损失反向传播优化卷积神经网络;
步骤3:基于训练完成的卷积神经网络提取数据集中所有单标签图像以及待检索单标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索单标签图像与数据集中所有单标签图像之间的相似性,并基于所述相似性完成单标签图像检索。
优选的,一种用于单标签图像检索的标签表征构建方法,步骤1中,基于单标签图像数据集获取所有的标签名称,并使用预训练的词向量作为所述标签的初始表征,将所述初始表征输入至全连接神经网络,输出得到各标签的标签表征,计算标签表征平衡损失和量化损失,并基于所述标签表征平衡损失和量化损失反向传播优化所述全连接神经网络,包括:
基于所述单标签图像数据集获取所述单标签图像的标签,并基于预训练的词向量模型来提取所述标签的词向量,将所述词向量作为各个标签的初始表征;
将各个标签的初始表征输入至全连接神经网络,得到所述各个标签的表征向量,其中,所述全连接神经网络基于最小化标签表征平衡损失和量化损失来优化所得;
其中,所述最小化标签表征平衡损失具体为最大化各个标签表征之前的距离,最小化各个标签表征之间的相似性,其中所述表征向量之间的距离与表征向量之间的相似性呈负相关关系;
其中,标签表征量化损失具体为将各个标签的表征向量的每一维度的值趋近于+1或-1;
基于最小化所述标签表征平衡损失和标签表征量化损失来优化全连接神经网络。
优选的,一种用于单标签图像检索的标签表征构建方法,各个标签的表征向量的维度为预设的哈希码位数,其中,所述预设哈希码位数包括:16比特、32比特和64比特。
优选的,一种用于单标签图像检索的标签表征构建方法,步骤2中,基于卷积神经网络提取单标签图像的图像特征,并将标签表征作为同类单标签图像的特征中心计算图像特征与对应标签表征之间的余弦距离,且基于所述余弦距离确定中心相似性损失,并基于所述中心相似性损失反向传播优化卷积神经网络,包括:
获取单标签图像,对所述单标签图像进行预处理,并将预处理后的单标签图像输入卷积神经网络;
基于所述卷积神经网络提取所述预处理后的单标签图像的图像特征,并将所述图像特征进行特征维度变换,得到所述单标签图像对应的目标维度图像特征;
获取所述单标签图像的标签表征,计算所述单标签图像经过卷积神经网络提取得到的目标维度图像特征和其对应的标签表征之间的余弦距离,并基于所述余弦距离构建中心相似性损失,其中,目标维度图像特征与对应的标签表征具有相同的维度;
基于最小化中心相似性损失来优化卷积神经网络。
优选的,一种用于单标签图像检索的标签表征构建方法,步骤3中,基于训练完成的卷积神经网络提取数据集中所有单标签图像以及待检索单标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索单标签图像与数据集中所有单标签图像之间的相似性,并基于所述相似性完成单标签图像检索,包括:
获取训练完成的卷积神经网络,并基于所述卷积神经网络对数据集中的各单标签图像进行图像特征提取,得到各个单标签图像的图像特征;
将所述各个单标签图像的图像特征符号化为二进制码,并将每各个单标签图像及对应的二进制码存储至数据库;
获取待检索单标签图像,并将所述待检索单标签图像输入所述卷积神经网络,得到所述待检索单标签图像对应的目标二进制码;
确定所述待检索单标签图像的二进制哈希码,与数据库中各个单标签图像的二进制码之间的汉明距离;
若数据库中存在单标签图像与待检索单标签图像对应的二进制码之间的汉明距离小于或等于预设汉明距离阈值,判定数据库中所述单标签图像为待检索单标签图像的相似图像;
返回数据库中与待检索单标签图像相似的图像,其中,所述相似图像即为对待检索单标签图像的检索结果。
优选的,一种用于单标签图像检索的标签表征构建方法,判定数据库中所述单标签图像为待检索单标签图像的相似图像,包括:
获取所述汉明距离小于或等于所述预设汉明距离阈值的二进制码,并调取存储记录表,其中,所述存储记录表中记录所述单标签图像的存储地址、单标签图像信息以及对应的二进制码,且所述存储地址、单标签图像以及对应的二进制码一一对应;
基于所述存储记录表确定所述二进制码对应的单标签图像的存储地址,并基于所述存储地址调取所述单标签图像,并将所述单标签图像传输至检索终端进行显示,完成对待检索单标签图像的检索任务。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于单标签图像检索的标签表征构建方法的流程图;
图2为本发明实施例中一种用于单标签图像检索的标签表征构建方法的原理图;
图3为本发明实例中一种用于单标签图像检索的标签表征构建方法中检索过程的原理图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本实施例提供了一种用于单标签图像检索的标签表征构建方法,如图1所示,包括:
步骤1:基于单标签图像数据集获取所有的标签名称,并使用预训练的词向量作为所述标签的初始表征,将所述初始表征输入至全连接神经网络,输出得到各标签的标签表征,计算标签表征平衡损失和量化损失,并基于所述标签表征平衡损失和量化损失反向传播优化所述全连接神经网络;
步骤2:基于卷积神经网络提取单标签图像的图像特征,并将标签表征作为同类单标签图像的特征中心,计算图像特征与对应标签表征之间的余弦距离,且基于所述余弦距离确定中心相似性损失,并基于所述中心相似性损失反向传播优化卷积神经网络;
步骤3:基于训练完成的卷积神经网络提取数据集中所有单标签图像以及待检索单标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索单标签图像与数据集中所有单标签图像之间的相似性,并基于所述相似性完成单标签图像检索。
该实施例中,训练数据集是提前设定好的,内部存储有多种单标签图像,且每一单标签图像对应一个标签。
该实施例中,标签名称用于描述单标签训练图像的图像内容。
该实施例中,预训练的词向量是提前设定好的,用于作为各个标签的初始表征,且单标签名称中不同词对应不同的词向量。
该实施例中,标签表征平衡损失是用来促进各个标签表征向量之间保持尽量相近且尽量大的距离,该方法首先计算任意两个表征向量之间的余弦相似度,通过最小化任意两个标签表征向量之间相似度的最大值,从而实现标签表征平衡的目的。
该实施例中,初始表征指的是通过采用预训练的词向量作为标签的表征,输入全连接神经网络进行标签表征处理。
该实施例中,全连接神经网络是用来生成高辨别性的标签表征,为生成单标签训练图像的类中心提供了便利。
该实施例中,图像特征指的是单标签图像中的图像主体特征,具体为单标签图像中记录的“人”、“狗”等。
该实施例中,标签表征指的是将单标签训练图像的单标签信息转换为对应的哈希码位数维度的表征向量,包括16比特、32比特、64比特等。
该实施例中,特征中心指的是将某标签表征作为所有对应该标签的图像特征的中心。
该实施例中,中心相似性损失指的是图像特征与其标签表征之间的余弦距离,最小化中心相似性损失促使同标签图像的图像特征靠近特征中心,即其对应的标签表征。
该实施例中,二进制码指的是将单标签训练图像编码成为低维度的二进制数据。
该实施例中,特征中心作为所有同标签图像的目标去靠近,确保所有相似图像的特征能够相互靠近。
该实施例中,待检索单标签图像指的是任意一个需要从数据库中检索出与其相似图像的单标签查询图像。
该实施例中,汉明距离指的是二进制码对应位置的不同字符的个数。
上述技术方案的有益效果是:通过确定单标签图像的单标签信息,同时,通过全连接神经网络生成各个标签的表征向量,并鼓励标签表征相互之间保持最大的距离,从而增加标签表征之间的可辨别性,将标签表征作为所有同标签图像特征的类中心,为图像特征学习提供了极大便利。
实施例2:
在上述实施例1的基础上,本实施例提供了一种用于单标签图像检索的标签表征构建方法,步骤1中,基于单标签图像数据集获取所有的标签名称,并使用预训练的词向量作为所述标签的初始表征,将所述初始表征输入至全连接神经网络,输出得到各标签的标签表征,计算标签表征平衡损失和量化损失,并基于所述标签表征平衡损失和量化损失反向传播优化所述全连接神经网络,包括:
基于所述单标签图像数据集获取所述单标签图像的标签,并基于预训练的词向量模型来提取所述标签的词向量,将所述词向量作为各个标签的初始表征;
将各个标签的初始表征输入至全连接神经网络,得到所述各个标签的表征向量,其中,所述全连接神经网络基于最小化标签表征平衡损失和量化损失来优化所得;
其中,所述最小化标签表征平衡损失具体为最大化各个标签表征之前的距离,最小化各个标签表征之间的相似性,其中所述表征向量之间的距离与表征向量之间的相似性呈负相关关系;
其中,标签表征量化损失具体为将各个标签的表征向量的每一维度的值趋近于+1或-1;
基于最小化所述标签表征平衡损失和标签表征量化损失来优化全连接神经网络。
该实施例中,全连接网络输出的标签表征向量指的是标签的初始表征向量经过维度转换得到的表征向量,最终的维度为预设的二进制哈希码位数,其中所述预设哈希码位数包括:16比特、32比特和64比特。
该实施例中标签表征平衡损失指的是最大化任意两个标签表征之间的距离,即最小化任意两个表征之间的余弦相似度,从而确保得到的图像标签表征更具有分辨性,标签表征平衡损失表示为:
其中,α表示标签表征平衡损失;cm和cn表示第m个和第n个标签表征向量;
M表示数据集中标签的总数。
该实施例中,标签表征向量的每一个维度的值域为(-1,1)。
该实施例中,标签表征量化损失指的是促进各个标签表征向量的每一维度的值都接近于+1或-1,从而减小后续对特征进行符号化导致的信息损失,标签表征量化损失表示为:
其中,γ表示标签表征量化损失;cm,k表示第m个标签表征向量的第k个维度的值;K表示标签表征向量的维度;M表示数据集中标签的总数。
该实施例中,通过最小化标签表征平衡损失和标签表征量化损失的加权总和,来优化全连接神经网络。
上述技术方案的有益效果是:通过确定单标签图像的标签表征的平衡损失以及量化损失,实现对全连接神经网络进行优化,确保能够生成具有高辨别性的标签表征,为后续图像特征学习提供了便利。
实施例3:
在上述实施例1的基础上,本实施例提供了一种用于单标签图像检索的标签表征构建方法,步骤2中,基于卷积神经网络提取单标签图像的图像特征,并将标签表征作为同类单标签图像的特征中心,计算图像特征与对应标签表征之间的余弦距离,且基于所述余弦距离确定中心相似性损失,并基于所述中心相似性损失反向传播优化卷积神经网络,包括:
获取单标签图像,对所述单标签图像进行预处理,并将预处理后的单标签图像输入卷积神经网络;
基于所述卷积神经网络提取所述预处理后的单标签图像的图像特征,并将所述图像特征进行特征维度变换,得到所述单标签图像对应的目标维度图像特征;
获取所述单标签图像的标签表征,计算所述单标签图像经过卷积神经网络提取得到的目标维度图像特征和其对应的标签表征之间的余弦距离,并基于所述余弦距离构建中心相似性损失,其中,目标维度图像特征与对应的标签表征具有相同的维度;
基于最小化中心相似性损失来优化卷积神经网络。
该实施例中,预处理指的是对单标签训练图像进行翻转、裁剪等。
该实施例中,卷积神经网络指的是在大型图像数据集ImageNet是预先训练好的ResNet50、AlexNet等网络。
该实施例中,图像特征通过卷积神经网络提取,并经过哈希层将其高维度图像特征转换至目标维度图像特征,目标维度为预设的二进制哈希码的位数,其中所述预设哈希码位数包括:16比特、32比特和64比特。
该实施例中,将标签表征作为所有同标签图像的目标去靠近,即标签表征作为所有同标签图像的中心,标签表征作为图像特征学习过程中的监督信息,计算图像特征与其对应标签表征之间的中心相似性损失,表示为:
其中,θ表示目标维度图像特征与其对应标签表征之间的中心相似性损失;Ii表示第i张图像的图像特征;li表示第i张图像对应的标签表征;N表示训练图像的总数。
该实施例中,图像特征的每一个维度的值域为(-1,1)。
该实施例中,图像特征量化损失指的是促进图像特征的每一维度的值都接近于+1或-1,从而减小后续对特征进行符号化导致的信息损失,标签表征量化损失表示为:
其中,表示标签表征量化损失;Ii,k表示第i张单标签图像对应特征的第k个维度的值;K表示目标维度图像特征的维度;N表示训练数据集中单标签图像的总数。
该实施例中,通过最小化中心相似性损失和图像特征量化损失的加权总和,来优化卷积神经网络和哈希层,从而使相似图像对应的图像特征能够相互靠近,且特征各个维度值都靠近+1或-1。
上述技术方案的有益效果是:通过单标签图像的图像特征的中心相似性损失以及标签表征量化损失,确保单标签图像的图像特征向同类图像的特征中心进行靠近,为实现单标签图像的检索提供了保障。
实施例4:
在上述实施例1的基础上,本实施例提供了一种用于单标签图像检索的标签表征构建方法,步骤3中,基于训练完成的卷积神经网络提取数据集中所有单标签图像以及待检索单标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索单标签图像与数据集中所有单标签图像之间的相似性,并基于所述相似性完成单标签图像检索,包括:
获取训练完成的卷积神经网络,并基于所述卷积神经网络对数据集中的各单标签图像进行图像特征提取,得到各个单标签图像的图像特征;
将所述各个单标签图像的图像特征符号化为二进制码,并将每各个单标签图像及对应的二进制码存储至数据库;
获取待检索单标签图像,并将所述待检索单标签图像输入所述卷积神经网络,得到所述待检索单标签图像对应的目标二进制码;
确定所述待检索单标签图像的二进制哈希码,与数据库中各个单标签图像的二进制码之间的汉明距离;
若数据库中存在单标签图像与待检索单标签图像对应的二进制码之间的汉明距离小于或等于预设汉明距离阈值,判定数据库中所述单标签图像为待检索单标签图像的相似图像;
返回数据库中与待检索单标签图像相似的图像,其中,所述相似图像为对待检索单标签图像的检索结果。
该实施例中,将图像特征符号化为二进制码的过程可以表示为:
其中,bi表示第i张单标签图像对应的二进制码,sgn()表示符号函数,Ii表示第i张图像对应的图像特征。
该实施例中,目标二进制码指的是对待检索单标签图像的图像特征符号化得到的二进制码。
该实施例中,汉明距离是用来表征目标二进制码与单标签图像对应的二进制码之间的远近程度,汉明距离越小,表明目标检索单表签图像与当前单标签训练图像越相似。
该实施例中,预设汉明距离阈值是提前设定好的,用于衡量目标二进制码与单标签图像对应的二进制码之间的距离是否达到相似要求,是可以是进行调整的。
上述技术方案的有益效果是:通过将图像都用二进制哈希码来表示,并通过二进制哈希码之间的汉明距离来评估两张图像之间的相似度,能够提高相似图像检索的效率。
实施例5:
在上述实施例4的基础上,本实施例提供了一种用于单标签图像检索的标签表征构建方法,判定数据库中所述单标签图像为待检索单标签图像的相似图像,包括:
获取所述汉明距离小于或等于所述预设汉明距离阈值的二进制码,并调取存储记录表,其中,所述存储记录表中记录所述单标签图像的存储地址、单标签图像信息以及对应的二进制码,且所述存储地址、单标签图像以及对应的二进制码一一对应;
基于所述存储记录表确定所述二进制码对应的单标签训练图像的存储地址,并基于所述存储地址调取所述单标签图像,并将所述单标签图像传输至检索终端进行显示,完成对待检索单标签图像的检索任务。
上述技术方案的有益效果是:通过根据存储记录表,实现对检索结果对应的单标签训练图像的存储地址、二进制哈希码以及对应的图像信息的存储位置进行快速准确的判断,从而便于快速将检索结果推送至对应的检索终端,提高了检索的效率以及检索的效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (3)
1.一种用于单标签图像检索的标签表征构建方法,其特征在于,包括:
步骤1:基于单标签图像数据集获取所有的标签名称,并使用预训练的词向量作为标签的初始表征,将所述初始表征输入至全连接神经网络,输出得到各标签的标签表征,计算标签表征平衡损失和量化损失,并基于所述标签表征平衡损失和量化损失反向传播优化所述全连接神经网络;
步骤2:基于卷积神经网络提取单标签图像的图像特征,并将标签表征作为同类单标签图像的特征中心,计算图像特征与对应标签表征之间的余弦距离,且基于所述余弦距离确定中心相似性损失,并基于所述中心相似性损失反向传播优化卷积神经网络;
步骤3:基于训练完成的卷积神经网络提取数据集中所有单标签图像以及待检索单标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索单标签图像与数据集中所有单标签图像之间的相似性,并基于所述相似性完成单标签图像检索;
其中,步骤1中,基于单标签图像数据集获取所有的标签名称,并使用预训练的词向量作为标签的初始表征,将所述初始表征输入至全连接神经网络,输出得到各标签的标签表征,计算标签表征平衡损失和量化损失,并基于所述标签表征平衡损失和量化损失反向传播优化所述全连接神经网络,包括:
基于所述单标签图像数据集获取所述单标签图像的标签,并基于预训练的词向量模型来提取所述标签的词向量,将所述词向量作为各个标签的初始表征;
将各个标签的初始表征输入至全连接神经网络,得到所述各个标签的表征向量,其中,所述全连接神经网络基于最小化标签表征平衡损失和量化损失来优化所得;
其中,所述最小化标签表征平衡损失具体为最大化各个标签表征之前的距离,最小化各个标签表征之间的相似性,其中,所述表征向量之间的距离与表征向量之间的相似性呈负相关关系;
其中,标签表征量化损失具体为将各个标签的表征向量的每一维度的值趋近于+1或-1;
基于最小化所述标签表征平衡损失和标签表征量化损失来优化全连接神经网络;
其中,标签表征平衡损失表示为:
其中,α表示标签表征平衡损失;cm和cn表示第m个和第n个标签表征向量;M表示数据集中标签的总数;
标签表征量化损失表示为:
其中,γ表示标签表征量化损失;cm,k表示第m个标签表征向量的第k个维度的值;K表示标签表征向量的维度;M表示数据集中标签的总数;
步骤2中,基于卷积神经网络提取单标签图像的图像特征,并将标签表征作为同类单标签图像的特征中心,计算图像特征与对应标签表征之间的余弦距离,且基于所述余弦距离确定中心相似性损失,并基于所述中心相似性损失反向传播优化卷积神经网络,包括:
获取单标签图像,对所述单标签图像进行预处理,并将预处理后的单标签图像输入卷积神经网络;
基于所述卷积神经网络提取所述预处理后的单标签图像的图像特征,并将所述图像特征进行特征维度变换,得到所述单标签图像对应的目标维度图像特征;
获取所述单标签图像的标签表征,计算所述单标签图像经过卷积神经网络提取得到的目标维度图像特征和其对应的标签表征之间的余弦距离,并基于所述余弦距离构建中心相似性损失,其中,目标维度图像特征与对应的标签表征具有相同的维度;
基于最小化中心相似性损失来优化卷积神经网络;
其中,
其中,θ表示目标维度图像特征与其对应标签表征之间的中心相似性损失;Ii表示第i张图像的图像特征;li表示第i张图像对应的标签表征;N表示训练图像的总数;
步骤3中,基于训练完成的卷积神经网络提取数据集中所有单标签图像以及待检索单标签图像的图像特征,并将所述图像特征符号化为二进制码,且基于所述二进制码之间的汉明距离评估所述待检索单标签图像与数据集中所有单标签图像之间的相似性,并基于所述相似性完成单标签图像检索,包括:
获取训练完成的卷积神经网络,并基于所述卷积神经网络对数据集中的各单标签图像进行图像特征提取,得到各个单标签图像的图像特征;
将所述各个单标签图像的图像特征符号化为二进制码,并将每各个单标签图像及对应的二进制码存储至数据库;
获取待检索单标签图像,并将所述待检索单标签图像输入所述卷积神经网络,得到所述待检索单标签图像对应的目标二进制码;
确定所述待检索单标签图像的二进制哈希码,与数据库中各个单标签图像的二进制码之间的汉明距离;
若数据库中存在单标签图像与待检索单标签图像对应的二进制码之间的汉明距离小于或等于预设汉明距离阈值,判定数据库中所述单标签图像为待检索单标签图像的相似图像;
返回数据库中与待检索单标签图像相似的图像,其中,所述相似图像为对待检索单标签图像的检索结果。
2.根据权利要求1所述的一种用于单标签图像检索的标签表征构建方法,其特征在于,各个标签的表征向量的维度为预设的哈希码位数,其中,所述预设哈希码位数包括:16比特、32比特和64比特。
3.根据权利要求1所述的一种用于单标签图像检索的标签表征构建方法,其特征在于,判定数据库中所述单标签图像为待检索单标签图像的相似图像,包括:
获取所述汉明距离小于或等于所述预设汉明距离阈值的二进制码,并调取存储记录表,其中,所述存储记录表中记录所述单标签图像的存储地址、单标签图像信息以及对应的二进制码,且所述存储地址、单标签图像以及对应的二进制码一一对应;
基于所述存储记录表确定所述二进制码对应的单标签图像的存储地址,并基于所述存储地址调取所述单标签图像,并将所述单标签图像传输至检索终端进行显示,完成对待检索单标签图像的检索任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310011361.5A CN115964527B (zh) | 2023-01-05 | 2023-01-05 | 一种用于单标签图像检索的标签表征构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310011361.5A CN115964527B (zh) | 2023-01-05 | 2023-01-05 | 一种用于单标签图像检索的标签表征构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115964527A CN115964527A (zh) | 2023-04-14 |
CN115964527B true CN115964527B (zh) | 2023-09-26 |
Family
ID=87359882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310011361.5A Active CN115964527B (zh) | 2023-01-05 | 2023-01-05 | 一种用于单标签图像检索的标签表征构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115964527B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532417A (zh) * | 2019-09-02 | 2019-12-03 | 河北省科学院应用数学研究所 | 基于深度哈希的图像检索方法、装置及终端设备 |
WO2020182019A1 (zh) * | 2019-03-08 | 2020-09-17 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN112925940A (zh) * | 2021-03-04 | 2021-06-08 | 浙江中设天合科技有限公司 | 一种相似图像检索方法、装置、计算机设备及存储介质 |
CN113326390A (zh) * | 2021-08-03 | 2021-08-31 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
CN114329031A (zh) * | 2021-12-13 | 2022-04-12 | 南京航空航天大学 | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 |
CN114780767A (zh) * | 2022-04-14 | 2022-07-22 | 武汉大学 | 一种基于深度卷积神经网络的大规模图像检索方法及系统 |
-
2023
- 2023-01-05 CN CN202310011361.5A patent/CN115964527B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020182019A1 (zh) * | 2019-03-08 | 2020-09-17 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN110532417A (zh) * | 2019-09-02 | 2019-12-03 | 河北省科学院应用数学研究所 | 基于深度哈希的图像检索方法、装置及终端设备 |
CN112925940A (zh) * | 2021-03-04 | 2021-06-08 | 浙江中设天合科技有限公司 | 一种相似图像检索方法、装置、计算机设备及存储介质 |
CN113326390A (zh) * | 2021-08-03 | 2021-08-31 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
CN114329031A (zh) * | 2021-12-13 | 2022-04-12 | 南京航空航天大学 | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 |
CN114780767A (zh) * | 2022-04-14 | 2022-07-22 | 武汉大学 | 一种基于深度卷积神经网络的大规模图像检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115964527A (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111400469A (zh) | 针对语音问答的智能生成系统及其方法 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112069302A (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN112818086A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN111680512A (zh) | 命名实体识别模型、电话总机转接分机方法及系统 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
CN114491023A (zh) | 一种文本处理方法、装置、电子设备和存储介质 | |
CN117558270A (zh) | 语音识别方法、装置、关键词检测模型的训练方法和装置 | |
CN115964527B (zh) | 一种用于单标签图像检索的标签表征构建方法 | |
CN113590867B (zh) | 基于分层度量学习的跨模态信息检索方法 | |
CN114595329A (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN115994237A (zh) | 一种用于多标签图像检索的标签表征构建方法 | |
CN111291788A (zh) | 一种基于神经网络的图像描述方法、系统、设备以及介质 | |
CN113535888A (zh) | 一种情感分析装置、方法、计算设备及可读存储介质 | |
CN117077672B (zh) | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 | |
CN111506691B (zh) | 一种基于深度匹配模型的轨迹匹配方法和系统 | |
CN117520104B (zh) | 一种预测硬盘异常状态的系统 | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |