CN106951911B - 一种快速的多标签图片检索系统及实现方法 - Google Patents

一种快速的多标签图片检索系统及实现方法 Download PDF

Info

Publication number
CN106951911B
CN106951911B CN201710076634.9A CN201710076634A CN106951911B CN 106951911 B CN106951911 B CN 106951911B CN 201710076634 A CN201710076634 A CN 201710076634A CN 106951911 B CN106951911 B CN 106951911B
Authority
CN
China
Prior art keywords
picture
neural network
label
vector
candidate region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710076634.9A
Other languages
English (en)
Other versions
CN106951911A (zh
Inventor
胡焜
白洪亮
董远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU FEISOU TECHNOLOGY Co.,Ltd.
Original Assignee
Suzhou Feisou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Feisou Technology Co ltd filed Critical Suzhou Feisou Technology Co ltd
Priority to CN201710076634.9A priority Critical patent/CN106951911B/zh
Publication of CN106951911A publication Critical patent/CN106951911A/zh
Application granted granted Critical
Publication of CN106951911B publication Critical patent/CN106951911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Abstract

本发明公开了一种快速的多标签图片检索系统及实现方法,方法包括:在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,与数据库中的哈希码对比后,完成图片检索。本发明通过分类与哈希的多任务学习来训练整个网络,从而有效地保证检索的准确性。同时在检索过程中使用汉明距离来度量相似度,大大提升了检索的效率。

Description

一种快速的多标签图片检索系统及实现方法
技术领域
本发明涉及神经卷积网络和图像处理领域,特别涉及一种快速的多标签图片检索系统及实现方法。
背景技术
现如今对于多标签图片检索系统而言,为了提升检索的速度,很多方法都利用哈希方法来对特征二值化,并用汉明距离来度量相似度。在哈希方法方面,主要分为两种:非监督式的和监督式的。
非监督式的方法,例如LSH,通过随机的映射或者随机排列来构成哈希函数,并且不依赖空间中的数据点,这种方法往往需要较长的哈希码才能获得比较好的性能。
监督式的方法,即是通过学习的方法从训练集中学习得到哈希函数,利用了训练集中的标注信息,但是目前的方法大多数单任务的学习,即只利用成对的标注信息。例如DPSH方法是通过一个卷积神经网络结构来学习特征并同时学习哈希函数,在最后一层后面接入一个sigmoid激活层来将特征归一化到0-1,再加入pairwise损失函数来监督学习整个网络的参数。很多类似于DPSH的方法都是只利用到了成对的标签信息,即训练时输入一堆图片及其是否相似的标注信息并且输入的是整张图片。而实际上,对于多标签数据集而言,图片通常包含多个目标以及丰富的多标签信息。
所以,如何在提高检索效率的同时减少存储空间,是现在有待解决的技术问题。
发明内容
本发明要解决的技术问题是,提供减小检索系统中特征存储空间、同时提升检索效率的快速的多标签图片检索方法。
解决上述技术问题,本发明提供了一种快速的多标签图片检索的方法,包括如下步骤:
在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
本发明结合候选区域的信息提取图片中特定区域的特征,并利用到图片的多标签信息,在训练时进行多任务学习来促进哈希函数的学习,提升特征的表达能力。
更进一步,建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
2-1)根据多标签信息得到标签的总个数为C,
2-2)连接一个通道数为C的全连接层后得到一个N*C矩阵,
2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,…,YN分别表示每个候选区域对应的特征向量,再进行如下计算
Figure GDA0002947665360000021
其中yj表示第j类标签对应的特征值,
2-4)经过下面的公式得到一个概率分布p=(p1,p2,…,pC):
Figure GDA0002947665360000022
2-5)通过下述的多标签分类损失函数来训练卷积神经网络:
Figure GDA0002947665360000023
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
更进一步,同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
3-1)设一全连接层的通道数为B,得到一个N*B矩阵,
3-2)在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
3-3)在H中,用Hi表示第i个proposals对应的特征,
3-4)在P中,用
Figure GDA0002947665360000031
表示第i个proposals属于第j个标签的概率,
3-5)通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
Figure GDA0002947665360000032
其中,
Figure GDA0002947665360000033
表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积
Figure GDA0002947665360000034
可以得到一个c*b维的向量:
Figure GDA0002947665360000035
3-6)经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
3-7)用下面的损失函数来训练网络:
Figure GDA0002947665360000036
Figure GDA0002947665360000037
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
更进一步,方法还包括:根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
更进一步,上述每张图片由一个48bit的短向量表示。
基于上述本发明还提供了一种快速的多标签图片检索系统,包括:神经网络训练单元和检索单元,
所述神经网络训练单元,用以在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
所述检索单元,用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
更进一步,所述数据库包括一检索候选集,用以存放每一张图片的哈希码。
更进一步,系统还包括相似度比较单元,用以根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
更进一步,所述神经网络训练单元在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
根据多标签信息得到标签的总个数为C,
连接一个通道数为C的全连接层后得到一个N*C矩阵,
在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,…,YN分别表示每个候选区域对应的特征向量,再进行如下计算
Figure GDA0002947665360000041
其中yj表示第j类标签对应的特征值,经过下面的公式得到一个概率分布p=(p1,p2,…,pC):
Figure GDA0002947665360000042
通过下述的多标签分类损失函数来训练卷积神经网络:
Figure GDA0002947665360000043
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
更进一步,所述神经网络训练单元同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
设一全连接层的通道数为B,得到一个N*B矩阵,
在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
在H中,用Hi表示第i个proposals对应的特征,
在P中,用
Figure GDA0002947665360000051
表示第i个proposals属于第j个标签的概率,
通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
Figure GDA0002947665360000052
其中,
Figure GDA0002947665360000053
表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积
Figure GDA0002947665360000054
可以得到一个c*b维的向量:
Figure GDA0002947665360000055
经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
用下面的损失函数来训练网络:
Figure GDA0002947665360000056
Figure GDA0002947665360000057
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
在测试过程中,通过对特征的量化,每张图片由一个48bit的短向量表示,用汉明距离来度量图片之间的相似性,提升检索效率以及减少特征存储空间。
本发明的有益效果:
本发明主要是基于多标签数据集的,结合数据的多标签信息,引入候选区域信息,通过分类与哈希的多任务学习,来训练整个网络,从而有效地保证检索的准确性,同时通过对特征的二值化使得最后特征占用的存储空间很小,并且在检索过程中使用汉明距离来度量相似度,大大提升了检索的效率。
此外本发明还具备如下的优点:由于卷积神经网络中结合了多标签信息以及候选区域信息,使得检索准确率高。由于特征提取只需要在卷积神经网络中进行单次的前馈计算,使得检索速度快。由于哈希函数二值特征并且长度短,使得检索系统所占用存储空间小。此外,最后哈希码的长度很短,相似度计算很快,所以检索效率得到了有效提高。
附图说明
图1是本发明一实施例中的方法流程示意图;
图2是本发明一实施例中的系统结构示意图;
图3是本发明中的多任务学习训练框架示意图;
图4是本发明中一实施例中的系统原理图。
具体实施方式
现在将参考一些示例实施例描述本公开的原理。可以理解,这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述,而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。
如本文中所述,术语“包括”及其各种变体可以被理解为开放式术语,其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。
在本实施例中的名词的含义如下:
RPN网络,RPN网络的核心思想是使用卷积神经网络直接产生region proposal,使用的方法本质上就是滑动窗口。RPN网络即表示候选区域生成网络。
ROI Pooling为ROI池化,ROI,region of ineterst,特定目标的区域。
卷积特征图包括但不限于,卷积神经网络中卷积层输出的一系列特征。
候选区域包括但不限于,图片中可能包含特定目标的区域。
多标签包括但不限于,图片中同时包含多个标注信息。
图1是本发明一实施例中的方法流程示意图,本实施例中的一种快速的多标签图片检索的方法,包括如下步骤:
步骤S100在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
步骤S101池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
步骤S102通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
步骤S103若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
作为本实施例中的优选,在所述步骤S101中建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
2-1)根据多标签信息得到标签的总个数为C,
2-2)连接一个通道数为C的全连接层后得到一个N*C矩阵,
2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,…,YN分别表示每个候选区域对应的特征向量,再进行如下计算
Figure GDA0002947665360000071
其中yj表示第j类标签对应的特征值,
2-4)经过下面的公式得到一个概率分布p=(p1,p2,…,pC):
Figure GDA0002947665360000072
2-5)通过下述的多标签分类损失函数来训练卷积神经网络:
Figure GDA0002947665360000073
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
本实施例中的基础是一个卷积神经网络,并且假设已经训练好了RPN网络用于提取候选区域。假设经过RPN之后得到N个候选区域(proposals)之后,对于每个proposal,首先进行一个ROI pooling的计算,得到N*D矩阵,其中D表示中间层每个候选区域对应的特征维度,再经过一个全连接层用于特征的变换。
作为本实施例中的优选,在所述步骤S101中同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
3-1)设一全连接层的通道数为B,得到一个N*B矩阵,
3-2)在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
3-3)在H中,用Hi表示第i个proposals对应的特征,
3-4)在P中,用
Figure GDA0002947665360000081
表示第i个proposals属于第j个标签的概率,
3-5)通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
Figure GDA0002947665360000082
其中,
Figure GDA0002947665360000083
表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积
Figure GDA0002947665360000084
可以得到一个c*b维的向量:
Figure GDA0002947665360000085
3-6)经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
3-7)用下面的损失函数来训练网络:
Figure GDA0002947665360000086
Figure GDA0002947665360000087
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
在一些实施例中,还需要在经过ROI Pooling以及一个全连接层之后,再接一个不同的全连接层到另外一个分支,用于哈希函数的学习。
在一些实施例中,方法还包括:根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
在一些实施例中,上述每张图片由一个48bit的短向量表示。
在本实施例中,是基于多标签数据集的、结合数据的多标签信息,再引入候选区域信息,然后通过分类与哈希的多任务学习,来训练整个卷积神经网络,从而有效地保证检索的准确性。同时,通过对特征的二值化(哈希值)使得最后特征占用的存储空间很小,并且在检索过程中使用汉明距离来度量相似度,大大提升了检索的效率。
请参考图3是本发明中的多任务学习训练框架示意图,具体来说,在训练过程中,首先利用数据集中的标注框的信息来训练RPN,用于提取候选区域框,而后固定前面层的参数不更新,随机初始化后面层的参数,通过
Figure GDA0002947665360000091
Figure GDA0002947665360000092
Figure GDA0002947665360000093
的损失函数来训练整个网络,经过一定的迭代次数后终止训练。
请参考图4是本发明中一实施例中的系统原理图,用得到的网络来提取候选集中每一张图片的哈希码并存入数据库,对于每一张查询图片,首先经过网络的前馈计算提取其哈希码,再和数据库中的哈希码两两计算汉明距离,最后排序返回汉明距离更近的样本,即达到了检索的目的。
请参考图2是本发明一实施例中的系统结构示意图,一种快速的多标签图片检索系统,包括:神经网络训练单元1和检索单元2,
所述神经网络训练单元1,用以在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
所述检索单元2,用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
作为本实施例中的优选,所述数据库包括一检索候选集,用以存放每一张图片的哈希码。
作为本实施例中的优选,系统中还包括相似度比较单元,用以根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
作为本实施例中的优选,所述神经网络训练单元1在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
根据多标签信息得到标签的总个数为C,
连接一个通道数为C的全连接层后得到一个N*C矩阵,
在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,…,YN分别表示每个候选区域对应的特征向量,再进行如下计算
Figure GDA0002947665360000101
其中yj表示第j类标签对应的特征值,经过下面的公式得到一个概率分布p=(p1,p2,…,pC):
Figure GDA0002947665360000102
通过下述的多标签分类损失函数来训练卷积神经网络:
Figure GDA0002947665360000103
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
作为本实施例中的优选,所述神经网络训练单元1同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
设一全连接层的通道数为B,得到一个N*B矩阵,
在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
在H中,用Hi表示第i个proposals对应的特征,
在P中,用
Figure GDA0002947665360000111
表示第i个proposals属于第j个标签的概率,
通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
Figure GDA0002947665360000112
其中,
Figure GDA0002947665360000113
表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积
Figure GDA0002947665360000114
可以得到一个c*b维的向量:
Figure GDA0002947665360000115
经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
用下面的损失函数来训练网络:
Figure GDA0002947665360000116
Figure GDA0002947665360000117
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
本实施例中的系统,是结合图片候选区域信息,加入多任务的损失函数来同时学习图片的特征以及特征的哈希函数,从而保证准确率的前提下大大提升检索效率以及特征存储空间。本实施例中的系统,能够结合候选区域的信息提取图片中特定区域的特征,并利用到图片的多标签信息,在训练时进行多任务学习来促进哈希函数的学习,提升特征的表达能力,最后在测试过程中,通过对特征的量化,每张图片由一个48bit的短向量表示,用汉明距离来度量图片之间的相似性,提升检索效率以及减少特征存储空间。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
总体而言,本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施,而其它一些方面可以以固件或软件实施,该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示,但是可以理解本文描述的框、设备、系统、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。
此外,虽然操作以特定顺序描述,但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行,或是要求所有所示的操作被执行以实现期望结果。在一些情形下,多任务或并行处理可以是有利的。类似地,虽然若干具体实现方式的细节在上面的讨论中被包含,但是这些不应被解释为对本公开的范围的任何限制,而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对,在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。

Claims (8)

1.一种快速的多标签图片检索的方法,其特征在于包括如下步骤:
在一卷积神经网络中,部署用于提取候选区域的候选区域生成网络RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络,多标签信息为图片中同时包含的多个标注信息;
通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索;
其中,建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
2-1)根据多标签信息得到标签的总个数为C,
2-2)连接一个通道数为C的全连接层后,输入N个候选区域得到一个N*C矩阵,
2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN分别表示每个候选区域对应的特征向量,再进行如下计算yj=max{Yj 1,Yj 2,...,Yj N}j=1,2,...,C,其中yj表示第j类标签对应的特征值,
2-4)经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
Figure FDA0002947665350000011
2-5)通过下述的多标签分类损失函数来训练卷积神经网络:
Figure FDA0002947665350000012
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
2.根据权利要求1所述方法,其特征在于,同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
3-1)设一全连接层的通道数为B,得到一个N*B矩阵,
3-2)在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
3-3)在H中,用Hi表示第i个候选区域对应的特征,
3-4)在P中,用Pi j表示第i个候选区域属于第j个标签的概率,
3-5)通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
Figure FDA0002947665350000021
其中,
Figure FDA0002947665350000022
表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积
Figure FDA0002947665350000023
可以得到一个c*b维的向量:
Figure FDA0002947665350000024
其中,
Figure FDA0002947665350000025
表示向量Pi的第c维,
Figure FDA0002947665350000026
表示向量Hi的第b维;
3-6)经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
3-7)用下面的损失函数来训练网络:
Figure FDA0002947665350000027
Figure FDA0002947665350000028
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
3.根据权利要求1所述方法,其特征在于,还包括:根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
4.根据权利要求3所述方法,其特征在于,数据库中的每张图片以及待查询的图片都由一个48bit的短向量表示。
5.一种快速的多标签图片检索系统,其特征在于,包括:神经网络训练单元和检索单元,
所述神经网络训练单元,用以在一卷积神经网络中,部署用于提取候选区域的候选区域生成网络RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络,多标签信息为图片中同时包含的多个标注信息;
所述检索单元,用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索;
所述神经网络训练单元在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
根据多标签信息得到标签的总个数为C,
连接一个通道数为C的全连接层后,输入N个候选区域得到一个N*C矩阵,
在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN分别表示每个候选区域对应的特征向量,再进行如下计算yj=max{Yj 1,Yj 2,...,Yj N}j=1,2,...,C,其中yj表示第j类标签对应的特征值,
经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
Figure FDA0002947665350000031
通过下述的多标签分类损失函数来训练卷积神经网络:
Figure FDA0002947665350000041
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
6.根据权利要求5所述系统,其特征在于,所述数据库包括一检索候选集,用以存放每一张图片的哈希码。
7.根据权利要求5所述系统,其特征在于,还包括相似度比较单元,用以根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
8.根据权利要求5所述系统,其特征在于,所述神经网络训练单元同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
设一全连接层的通道数为B,得到一个N*B矩阵,
在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
在H中,用Hi表示第i个候选区域对应的特征,
在P中,用Pi j表示第i个候选区域属于第j个标签的概率,
通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
Figure FDA0002947665350000042
其中,
Figure FDA0002947665350000043
表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积
Figure FDA0002947665350000044
可以得到一个c*b维的向量:
Figure FDA0002947665350000045
其中,
Figure FDA0002947665350000046
表示向量Pi的第c维,
Figure FDA0002947665350000047
表示向量Hi的第b维;
经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
用下面的损失函数来训练网络:
Figure FDA0002947665350000048
Figure FDA0002947665350000051
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
CN201710076634.9A 2017-02-13 2017-02-13 一种快速的多标签图片检索系统及实现方法 Active CN106951911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710076634.9A CN106951911B (zh) 2017-02-13 2017-02-13 一种快速的多标签图片检索系统及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710076634.9A CN106951911B (zh) 2017-02-13 2017-02-13 一种快速的多标签图片检索系统及实现方法

Publications (2)

Publication Number Publication Date
CN106951911A CN106951911A (zh) 2017-07-14
CN106951911B true CN106951911B (zh) 2021-06-29

Family

ID=59466388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710076634.9A Active CN106951911B (zh) 2017-02-13 2017-02-13 一种快速的多标签图片检索系统及实现方法

Country Status (1)

Country Link
CN (1) CN106951911B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090039A1 (en) * 2017-07-17 2020-03-19 Google Llc Learning unified embedding
CN107563418A (zh) * 2017-08-19 2018-01-09 四川大学 一种基于区域敏感得分图谱及多实例学习的图片属性探测方法
CN107480730A (zh) * 2017-09-05 2017-12-15 广州供电局有限公司 电力设备识别模型构建方法和系统、电力设备的识别方法
US10607119B2 (en) * 2017-09-06 2020-03-31 Kla-Tencor Corp. Unified neural network for defect detection and classification
CN107679250B (zh) * 2017-11-01 2020-12-01 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108038122B (zh) * 2017-11-03 2021-12-14 福建师范大学 一种商标图像检索的方法
CN108319633B (zh) * 2017-11-17 2022-02-11 腾讯科技(深圳)有限公司 一种图像处理方法、装置及服务器、系统、存储介质
CN108229503A (zh) * 2018-01-04 2018-06-29 浙江大学 一种针对服装照片的特征提取方法
CN108399185B (zh) * 2018-01-10 2021-12-21 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
CN108257139B (zh) * 2018-02-26 2020-09-08 中国科学院大学 基于深度学习的rgb-d三维物体检测方法
CN108595474B (zh) * 2018-03-09 2022-04-12 中山大学 一种带有物体位置感知的多标签图片哈希方法
CN108664989B (zh) 2018-03-27 2019-11-01 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108764370B (zh) * 2018-06-08 2021-03-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108764208B (zh) * 2018-06-08 2021-06-08 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN109522436A (zh) * 2018-11-29 2019-03-26 厦门美图之家科技有限公司 相似图像查找方法及装置
CN109657596A (zh) * 2018-12-12 2019-04-19 天津卡达克数据有限公司 一种基于深度学习的车辆外观部件识别方法
CN109885716B (zh) * 2019-02-18 2022-10-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109993058A (zh) * 2019-02-27 2019-07-09 北京大学 基于多标签分类的道路交通标志的识别方法
WO2020173503A1 (zh) * 2019-02-28 2020-09-03 上海寒武纪信息科技有限公司 运算方法、装置及相关产品
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110321957B (zh) * 2019-07-05 2023-03-24 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN111125395B (zh) * 2019-10-29 2021-07-20 武汉大学 一种基于双分支深度学习的cad图纸检索方法及系统
CN111506751A (zh) * 2020-04-20 2020-08-07 创景未来(北京)科技有限公司 一种搜索机械制图的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2014154005A (ru) * 2014-12-29 2016-07-20 Российская Федерация, от имени которой выступает Федеральная служба по техническому и экспортному контролю (ФСТЭК России) Способ гарантированного обезличивания электронных документов
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127173B (zh) * 2016-06-30 2019-05-07 北京小白世纪网络科技有限公司 一种基于深度学习的人体属性识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2014154005A (ru) * 2014-12-29 2016-07-20 Российская Федерация, от имени которой выступает Федеральная служба по техническому и экспортному контролю (ФСТЭК России) Способ гарантированного обезличивания электронных документов
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
医学图像检索二进制码学习方法;张明君等;《安徽师范大学学报(自然科学版)》;20170131;第40卷(第1期);43-47 *

Also Published As

Publication number Publication date
CN106951911A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN106951911B (zh) 一种快速的多标签图片检索系统及实现方法
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
Wang et al. Solov2: Dynamic and fast instance segmentation
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
EP4273746A1 (en) Model training method and apparatus, and image retrieval method and apparatus
KR102305568B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
CN110276406B (zh) 表情分类方法、装置、计算机设备及存储介质
CN103403704B (zh) 用于查找最近邻的方法和设备
CN107240087B (zh) 目标检测系统和方法
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN110598603A (zh) 人脸识别模型获取方法、装置、设备和介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN113806580B (zh) 基于层次语义结构的跨模态哈希检索方法
CN113255892B (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN107451617B (zh) 一种图转导半监督分类方法
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN109886160B (zh) 一种非限定条件下的人脸识别方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN114358205A (zh) 模型训练方法、模型训练装置、终端设备及存储介质
Naufal et al. Weather image classification using convolutional neural network with transfer learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210601

Address after: 215123 unit 2-b702, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: SUZHOU FEISOU TECHNOLOGY Co.,Ltd.

Address before: Floor 17, building 7, No.15 Xueyuan South Road, Haidian District, Beijing

Applicant before: BEIJING FEISOU TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant