CN105468596B - 图片检索方法和装置 - Google Patents
图片检索方法和装置 Download PDFInfo
- Publication number
- CN105468596B CN105468596B CN201410395792.7A CN201410395792A CN105468596B CN 105468596 B CN105468596 B CN 105468596B CN 201410395792 A CN201410395792 A CN 201410395792A CN 105468596 B CN105468596 B CN 105468596B
- Authority
- CN
- China
- Prior art keywords
- word
- pictures
- feature vector
- picture
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 173
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 230000001755 vocal effect Effects 0.000 claims description 68
- 239000000284 extract Substances 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 4
- 238000003860 storage Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000010946 fine silver Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图片检索方法和装置,属于图像处理领域。该方法包括:获取每个种子图片的特征向量,该特征向量由神经网络中提取的种子图片的多层特征组成;根据每个种子图片的特征向量,生成每个种子图片的至少一个视觉单词,该至少一个视觉单词用于表示每个种子图片的语义;根据每个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量,进行图片检索。本发明通过将种子图片看作视觉单词的集合,获取种子图片的特征向量,根据特征向量生成至少一个视觉单词,该至少一个视觉单词用于表示种子图片的语义,基于视觉单词进行图片检索时,提高了检索精确度,能够满足用户的检索需求。
Description
技术领域
本发明涉及图像处理领域,特别涉及一种图片检索方法和装置。
背景技术
为了满足用户的视觉需求,目前的很多信息都是图片格式的。计算机可以识别出图片的视觉信息,如图片的颜色、形状、灰度分布等,当用户发起了图片检索指令时,计算机可以根据图片的视觉信息进行图片检索,如根据图片的视觉信息,学习图片的低层特征,再将学习到的多个低层特征组合成高层特征,通过对每个已有图片的高层特征进行匹配,检索出与用户指定的图片相似的图片。
在实现本发明的过程中,发明人发现现有技术存在以下问题:根据图片的视觉信息进行图片检索时,仅能从视觉上对图片进行区分,检索精确度低,无法满足用户的检索需求。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种图片检索方法和装置。所述技术方案如下:
第一方面,提供了一种图片检索方法,所述方法包括:
获取每个种子图片的特征向量,所述特征向量由神经网络中提取的种子图片的多层特征组成;
根据每个种子图片的特征向量,生成每个种子图片的至少一个视觉单词,所述至少一个视觉单词用于表示每个种子图片的语义;
根据每个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量;
基于每个视觉单词的至少一个种子图片和至少一个特征向量进行图片检索。
第二方面,提供了一种图片检索装置,所述装置包括:
特征向量获取模块,用于获取每个种子图片的特征向量,所述特征向量由神经网络中提取的种子图片的多层特征组成;
视觉单词生成模块,用于根据每个种子图片的特征向量,生成每个种子图片的至少一个视觉单词,所述至少一个视觉单词用于表示每个种子图片的语义;
视觉单词索引模块,用于根据每个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量;
图片检索模块,用于基于每个视觉单词的至少一个种子图片和至少一个特征向量进行图片检索。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法和装置,通过将种子图片看作视觉单词的集合,获取种子图片的特征向量,该特征向量由神经网络中提取的种子图片的多层特征组成,根据特征向量生成至少一个视觉单词,该至少一个视觉单词用于表示种子图片的语义,基于视觉单词进行图片检索时,提高了检索精确度,能够满足用户的检索需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图片检索方法的流程图;
图2是本发明实施例提供的一种图片检索方法的流程图;
图3是本发明实施例提供的一种图片检索装置结构示意图;
图4是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种图片检索方法的流程图,参见图1,该方法包括:
101、获取每个种子图片的特征向量,该特征向量由神经网络中提取的种子图片的多层特征组成。
102、根据每个种子图片的特征向量,生成每个种子图片的至少一个视觉单词,该至少一个视觉单词用于表示每个种子图片的语义。
103、根据每个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量。
104、基于每个视觉单词的至少一个种子图片和至少一个特征向量进行图片检索。
本发明实施例提供的方法,通过将种子图片看作视觉单词的集合,获取种子图片的特征向量,该特征向量由神经网络中提取的种子图片的多层特征组成,根据特征向量生成至少一个视觉单词,该至少一个视觉单词用于表示种子图片的语义,基于视觉单词进行图片检索时,提高了检索精确度,能够满足用户的检索需求。
可选地,该基于每个视觉单词的至少一个种子图片和至少一个特征向量进行图片检索包括:
对于待检索的指定图片,获取该指定图片的特征向量,作为第一特征向量,根据该第一特征向量,生成至少一个指定视觉单词;
基于每个视觉单词的至少一个特征向量,确定该至少一个指定视觉单词的至少一个特征向量,作为第二特征向量;
计算该指定特征向量与该至少一个第二特征向量之间的相似度;
按照相似度从大到小的顺序,从该至少一个第二特征向量中,提取至少一个特征向量,作为第三特征向量;
获取该至少一个第三特征向量对应的至少一个种子图片,作为该指定图片的相似图片。
可选地,该方法还包括:
当获取到指定图片的至少一个相似图片时,根据该指定图片与该至少一个相似图片之间的相似度以及该至少一个相似图片的语义,获取该指定图片的语义。
可选地,该根据该指定图片与该至少一个相似图片之间的相似度以及该至少一个相似图片的语义,获取该指定图片的语义包括:
对于每个相似图片,获取该相似图片的至少一个语义单词和该至少一个语义单词的第一权重;
获取该指定图片与该相似图片之间的相似度;
对于该相似图片的每个语义单词,计算该相似度与该语义单词的第一权重的乘积,作为该语义单词的第二权重;
按照第二权重从大到小的顺序,从该至少一个相似图片的至少一个语义单词中,提取至少一个语义单词,作为该指定图片的语义单词。
可选地,该获取该相似图片的至少一个语义单词和该至少一个语义单词的第一权重包括:
获取该相似图片的至少一个文字描述块,为该至少一个文字描述块分配权重;
根据文字描述块中的每个单词的出现次数和该至少一个文字描述块的数目,计算每个单词的逆向频率,该逆向频率用于表示单词对该相似图片的重要程度;
对于每个文字描述块,计算该文字描述块中每个单词的逆向频率与该文字描述块的权重的乘积,作为每个单词的第一权重;
按照第一权重从大到小的顺序,从该至少一个文字描述块中的每个单词中,提取至少一个单词,作为该相似图片的至少一个语义单词;
确定该至少一个语义单词的第一权重。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种图片检索方法的流程图。该发明实施例的执行主体为服务器,参见图2,该方法包括:
201、该服务器获取每个种子图片的特征向量。
其中,该特征向量由神经网络中提取的种子图片的多层特征组成。在神经网络中,将种子图片输入该神经网络的最低层,在每一层提取一个特征,并依次传输至下一层,即上一层提取的特征为下一层的输入。整个神经网络中可以提取到该种子图片的多层特征,根据该多层特征可以组成该种子图片的特征向量。
在本发明实施例中,该服务器可以采用下述神经网络中的任一种提取种子图片的特征:
(1)该神经网络包括五层卷积层和三层全连接层,其中一个完整的卷积层可能包括一层卷积层、一层修正线性单元(Rectified Linear Units)、一层马克斯池(max-pooling)、一层归一化层(normalization)。网络的最低层是种子图片的原始像素点,最高层是种子图片的分类结果。
基于该神经网络提取特征时,可以隐式地从训练数据中学习特征,避免显式的特征提取。提取到的低层特征可以表示图片的细节特征,如纹理、位移、边缘等,提取到的高层特征可以表示图片的语义特征,如场景、类别等。
为了提高特征的准确性,该服务器可以提取该神经网络的第五层到第八层的特征,记为fv5cnn、fv6cnn、fv7cnn、fv8cnn。
可选地,该服务器采用深度卷积神经网络,提取该种子图片的特征向量。通过采用深度卷积神经网络,对从指定网站获取的大量的图片数据进行分类训练,得到深度卷积神经网络模型,测试结果显示该深度卷积神经网络模型的第一层的分类准确率可以达到50%,第五层的分类准确率可以达到85%。
(2)假设该神经网络的输入和输出相同。种子图片经过一层神经网络变换后,输出编码特征,对该编码特征再做一层神经网络变换,输出解码特征,该神经网络中的编码特征即为该种子图片的特征,而该神经网络的训练目标就是尽可能地使该解码特征等于原始输入的种子图片,则基于该训练目标,训练调整该神经网络的参数。进一步地,将上一层的编码特征作为下一层的输入,逐层无监督训练神经网络的参数,再以一个有监督任务进行参数微调,则每一层输出的编码特征都可以作为该种子图片的特征,即可得到种子图片的多层特征。
为了提高特征的准确性,该服务器可以提取该神经网络的第四层和第五层的特征,记为fv4ae、fv5ae。
可选地,该服务器采用深度自动编码器,提取该种子图片的特征向量,该深度自动编码器是一种尽可能复现输入信号的神经网络。
在本发明实施例中,该服务器可以综合上述两种神经网络提取到的特征,将[fv5cnn,fv6cnn,fv7cnn,fv8cnn,fv4ae,fv5ae]作为该种子图片的特征向量。
需要说明的是,种子图片的选取要求可以为:选取的种子图片覆盖图片库中所有的图片类型,且较容易分析语义。该图片类型可以为家具、衣服、食品等,种子图片较容易分析语义是指该服务器容易找到种子图片对应的文字描述,如商品发布者会在发布商品图片时,对应发布商品名称、商品参数、商品功能等文字描述,很容易找到这些文字描述,也很容易根据这些文字描述分析该商品图片的语义。
202、该服务器根据每个种子图片的特征向量,生成每个种子图片的至少一个视觉单词。其中,该视觉单词用于表示种子图片的语义,是可以用来描述种子图片的最小单元。
可选地,该服务器对每个种子图片的特征向量进行k-means聚类,得到k个聚类簇,将得到的k个聚类簇作为k个视觉单词;或者,该服务器将通过图片分类训练该神经网络时得到的m个类别作为种子图片的m个视觉单词。
本发明实施例将图片看做是视觉单词的集合,以视觉单词表示图片的语义,细化了图片语义表示的粒度,提高了检索精确度。
203、该服务器根据每个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量。
可选地,该服务器根据每个种子图片的特征向量和至少一个视觉单词,进行倒排索引,得到每个视觉单词的至少一个种子图片和该至少一个种子图片的至少一个特征向量。该倒排索引的key(键)为视觉单词,value(值)为包含该视觉单词的种子图片和种子图片的特征向量。
每个种子图片的特征向量和至少一个视觉单词如表1所示,则根据每个种子图片的特征向量和至少一个视觉单词进行倒排索引,可以得到每个视觉单词的至少一个种子图片和至少一个特征向量,如表2所示。
表1
种子图片 | 特征向量 | 视觉单词 |
P1 | X1 | word1、word2 |
P2 | X2 | word1、word3、word4、word5 |
P3 | X3 | word1、word2、word3、word4 |
表2
视觉单词 | 种子图片 | 特征向量 |
word1 | P1、P2、P3 | X1、X2、X3 |
word2 | P1、P3 | X1、X3 |
word3 | P2、P3 | X2、X3 |
word4 | P2、P3 | X2、X3 |
word5 | P2 | X2 |
204、对于待检索的指定图片,该服务器获取该指定图片的特征向量,作为第一特征向量,根据该第一特征向量,生成至少一个指定视觉单词。
在本发明实施例中,终端可以向该服务器发送图片检索指令,该图片检索指令携带待检索的指定图片,用于指示该服务器检索与该指定图片相似的图片。当然其他服务器也可以向该服务器发送图片检索指令。当该服务器接收到该图片检索指令时,可以获取该指定图片的特征向量,作为该第一特征向量,根据该第一特征向量,生成至少一个指定视觉单词。根据该第一特征向量生成指定视觉单词的具体过程与该步骤201-202类似,在此不再赘述。
205、该服务器基于每个视觉单词的至少一个特征向量,确定该至少一个指定视觉单词的至少一个特征向量,作为第二特征向量。
该服务器建立倒排索引后,可以根据视觉单词,查询该倒排索引,确定对应的至少一个特征向量,则当该服务器生成该至少一个指定视觉单词时,根据该至少一个指定视觉单词,查询该倒排索引,确定该至少一个指定视觉单词的至少一个特征向量,作为第二特征向量。
基于表2,当该指定视觉单词为“word1”时,可以得到三个第二特征向量X1、X2和X3。
206、该服务器计算该指定特征向量与该至少一个第二特征向量之间的相似度,按照相似度从大到小的顺序,从该至少一个第二特征向量中,提取至少一个特征向量,作为第三特征向量。
在本发明实施例中,对于每个第二特征向量,该指定特征向量与该第二特征向量之间的相似度用于表示该指定图片与该第二特征向量对应的种子图片之间的相似性。该服务器可以计算该指定特征向量与该第二特征向量之间的余弦相似度,余弦相似度越大,表示该指定特征向量与该第二特征向量越相似。该服务器还可以计算该指定特征向量与该第二特征向量之间的欧式距离,欧式距离越小,表示该指定特征向量与该第二特征向量越相似。本发明实施例对该相似度的类型不做限定。
基于步骤205的举例,该指定特征向量为X0时,分别计算X0与X1、X2、X3之间的相似度,得到相似度C1、C2、C3,如表3所示。
表3
可选地,该服务器计算出该指定特征向量与每个第二特征向量之间的相似度后,按照相似度从大到小的顺序,从该至少一个第二特征向量中,提取第一指定数目的特征向量,作为第三特征向量。该第三特征向量与该指定特征向量的相似度较大,则可以认为该第三特征向量对应的种子图片与该指定图片相似。另外,该第一指定数目可以根据该种子图片的数目或者用户选择的数目范围确定,本发明实施例对此不做限定。
参见表1和表3,假设C1>C2>C3,且该第一指定数目为2,则该服务器将X1和X2作为第三特征向量,即种子图片P1和P2与该指定图片相似。
进一步地,当该服务器计算该指定特征向量与该第二特征向量之间的余弦相似度时,按照余弦相似度从大到小的顺序,从该至少一个第二特征向量中,提取该第一指定数目的特征向量,作为第三特征向量。或者,当该服务器计算该指定特征向量与该第二特征向量之间的欧式距离时,按照欧式距离从小到大的顺序,从该至少一个第二特征向量中,提取该第一指定数目的特征向量,作为第三特征向量。
207、该服务器获取该至少一个第三特征向量对应的至少一个种子图片,作为该指定图片的相似图片。
每个特征向量对应一个种子图片,该第三特征向量与该指定特征向量的相似度较大,则该服务器将该至少一个第三特征向量对应的种子图片作为该指定图片的相似图片。
可选地,为了加快图片检索的速度,该服务器采用WAND算法进行检索,得到至少一个种子图片,再计算该指定特征向量与该至少一个种子图片的特征向量之间的相似度,根据计算得到的相似度,从该至少一个种子图片中获取该指定图片的相似图片。
采用本发明实施例提供的方法进行图片检索时,检索出的相似图片不仅在视觉上与该指定图片相似,且在语义上与该指定图片相似。
在该步骤207之后,该方法还可以包括:该服务器向发送该图片检索指令的终端发送该相似图片,该终端接收到该相似图片时,显示该相似图片。实现了图片检索,满足了用户的检索需求。
208、对于每个相似图片,该服务器获取该相似图片的至少一个语义单词和该至少一个语义单词的第一权重。
在本发明实施例中,该服务器较容易找到种子图片对应的文字描述,则该服务器可以获取种子图片的语义。当该服务器从该种子图片中提取出该指定图片的相似图片时,可以根据该指定图片与该相似图片之间的相似度、该相似图片的语义,获取该指定图片的语义。
在本发明实施例中,该服务器以语义单词来表示图片的语义,以语义单词的第一权重表示该语义单词对图片语义的影响程度。则该服务器获取该相似图片的至少一个语义单词和该至少一个语义单词的第一权重。具体地,该步骤208包括下述步骤208a-208d:
208a、该服务器获取该相似图片的至少一个文字描述块,为该至少一个文字描述块分配权重。
具体地,该服务器获取该相似图片的文字描述,对该文字描述进行划分,得到至少一个文字描述块,根据该至少一个文字描述块中的内容与该相似图片的相关性,为该至少一个文字描述块分配权重,使得文字描述块与该相似图片相关性越大,权重越大。可选地,该至少一个文字描述块的权重之和为1。
例如,该相似图片为商品图片时,该服务器获取该商品图片对应的标题描述块、详细内容描述块、商品参数描述块、用户评论描述块,则该服务器为标题描述块分配权重0.5,为详细内容描述块分配权重0.3,为商品参数描述块分配权重0.1,为用户评论描述块分配权重0.1。
208b、该服务器根据文字描述块中的每个单词的出现次数和该至少一个文字描述块的数目,计算每个单词的逆向频率。
其中,该逆向频率用于表示单词对该相似图片的重要程度,可以根据单词在每个文字描述块中的出现次数和该至少一个文字描述块的数目确定。
具体地,对于每个单词,该服务器可以计算该单词在该至少一个文字描述块中的出现次数之和,作为该单词的逆向频率,或者该服务器计算包含该单词的文字描述块的数目与该至少一个文字描述块的数目之商,作为该单词的逆向频率,或者该服务器计算该单词在每个文字描述块中出现次数与相应的文字描述块中的单词数目之商的和,作为该单词的逆向频率,或者该服务器计算该单词在每个文字描述块中出现次数与相应的文字描述块中的单词数目之商的和,以及包含该单词的文字描述块的数目与该至少一个文字描述块的数目之商的对数的乘积,作为该单词的逆向频率。本发明实施例对该逆向频率的计算方式不做限定。
需要说明的是,在计算每个单词的逆向频率之前,该服务器可以对该至少一个文字描述块中的单词进行识别,去除停用词和无用词后,再计算剩余单词的逆向频率。
208c、对于每个文字描述块,该服务器计算该文字描述块中每个单词的逆向频率与该文字描述块的权重的乘积,作为每个单词的第一权重。
每个文字描述块具有权重,对于每个文字描述块,该服务器可以计算该文字描述块中每个单词的逆向频率与该权重的乘积,作为每个单词的第一权重。也即是,应用以下公式,计算单词的第一权重:
Weightword=Tfidfword*Weightregion;其中,Tfidfword为单词word的逆向频率,Weightregion为文字描述块的权重,Weightword为单词word的第一权重。
需要说明的是,来自不同文字描述块的相同单词可以看做是不同的单词,分别计算第一权重。
208d、该服务器按照第一权重从大到小的顺序,从该至少一个文字描述块中的每个单词中,提取至少一个单词,作为该相似图片的至少一个语义单词,确定该至少一个语义单词的第一权重。
可选地,该服务器获取到该至少一个文字描述块中的每个单词的第一权重时,按照第一权重从大到小的顺序进行排序,从该多个单词中提取第二指定数目的单词,作为该相似图片的语义单词。单词的第一权重越大,表示单词越能够影响该相似图片的语义,则该服务器选取第一权重较大的第二指定数目的单词,作为该相似图片的语义单词。
可选地,该服务器获取到相似图片的语义单词时,可以建立相似图片、语义单词以及语义单词的第一权重的映射关系表,根据该映射关系表可以查询每个相似图片的语义单词和语义单词的第一权重。更进一步地,该服务器可以将该相似图片的语义单词和语义单词的第一权重添加至该倒排索引中,倒排索引的key为视觉单词,倒排索引的value为种子图片、种子图片的特征向量、种子图片的语义单词和语义单词的第一权重。
需要说明的是,该步骤208可以在该服务器获取到该指定图片的相似图片后执行,也可以预先对每个种子图片执行,预先获取到每个种子图片的语义单词和语义单词的第一权重,则当该服务器获取到该指定图片的相似图片时,查询该相似图片的语义单词和语义单词的第一权重即可。通过利用大量的网络资源,预先对大量种子图片进行语义分析,能够提高该指定图片的语义精确度。本发明实施例对该步骤208的执行时机不做限定。
209、该服务器获取该指定图片与该相似图片之间的相似度,对于该相似图片的每个语义单词,计算该相似度与该语义单词的第一权重的乘积,作为该语义单词的第二权重。
在步骤206中,该服务器已计算该指定特征向量与每个种子图片的特征向量之间的相似度,也即是该指定图片与每个种子图片的相似度,则该服务器保存计算得到的相似度,当该服务器确定该相似图片时,即可直接查询该指定图片与该相似图片之间的相似度。该服务器计算该相似度与该相似图片的每个语义单词的第一权重的乘积,作为每个语义单词的第二权重。
基于步骤206的举例,该相似图片为P1时,该指定图片与该相似图片之间的相似度为C1,该相似图片P1的至少一个语义单词和该至少一个语义单词的第一权重可以如表4所示,则计算该相似度C1与每个语义单词的第一权重的乘积,得到第二权重。
表4
该第二权重可以综合表示语义单词对该相似图片语义的影响程度以及该相似图片与该指定图片的相似性,则该第二权重可以表示该语义单词对该指定图片语义的影响程度。
210、该服务器按照第二权重从大到小的顺序,从该至少一个相似图片的至少一个语义单词中,提取至少一个语义单词,作为该指定图片的语义单词。
可选地,该服务器按照第二权重从大到小的顺序进行排序,从该至少一个相似图片的至少一个语义单词中,提取第三指定数目的语义单词,作为该指定图片的语义单词。语义单词的第二权重越大,表示该语义单词越能够影响该指定图片的语义,则该服务器选取第二权重较大的第三指定数目的语义单词,作为该指定图片的语义单词。
进一步地,该服务器可以建立该指定图片、该指定图片的语义单词、该语义单词的第二权重的映射关系,添加到已建立的映射关系表中,将该指定图片也作为种子图片,应用于后续其他图片的语义分析过程中。
在本发明实施例中,该服务器获取到图片的语义时,即可进行图片匹配,图片推荐、图片点击率预估和图片转化率预估等过程,准确度高。
需要说明的是,上述步骤208-210为可选步骤,该服务器还可以进进行图片检索,而不进行图片语义分析,本发明实施例对此不做限定。
进一步需要说明的是,本发明实施例以执行主体为该服务器为例进行说明,而在实际应用过程中,执行主体还可以为多个服务器,如图片检索服务器和图片语义分析服务器,该图片检索服务器用于检索该指定图片的相似图片,该图片语义分析服务器用于查询该相似图片的语义单词和语义单词的第一权重,根据该相似图片的语义单词和语义单词的第一权重以及该相似图片与该指定图片的相似度,获取该指定图片的语义单词和语义单词的第二权重。本发明实施例对该执行主体不做限定。
本发明实施例所执行的步骤对应的算法描述可以如下:
加载种子图片的倒排索引;
新图片检索:
检索相似种子图片;
计算种子图片与新图片的相似度;
排序输出Top-N相似种子图片(seedimage_1,similarity_1…seedimage_n,similarity_n);
初始化用于保存新图片语义的new_image_map
Foreach相似种子图片
获取当前种子图片(seedimage_1为例)对应的语义描述(mword_1,weight_1…mword_m,weight_m);
对所有mword的weight乘以当前相似种子图片与新图片的相似度(mword_1,similarity_1*weight_1…mword_m,similarity_1*weight_m);
将所有mword以及weight插入new_image_map;
按照weight从大到小排序输出new_image_map中的Top-W个mwords,即为新图片的语义描述。
采用本发明实施例提供的方法,对一张包含耳坠的图片进行图片语义分析,获取该图片的语义单词和第二权重,得到的部分结果如下表5所示,则可以看出,对该图片的语义分析的粒度非常细且准确。
表5
语义单词 | 第二权重 | 语义单词 | 第二权重 |
饰品 | 7.4477353096 | 耳饰 | 1.68797981739 |
手链 | 5.40597248077 | 礼物 | 1.35670125484 |
水晶 | 4.4204750061 | 纯银 | 2.92155051231 |
耳环 | 2.37848448753 | 首饰 | 2.11447572708 |
本发明实施例提供的方法,通过将种子图片看作视觉单词的集合,获取种子图片的特征向量,该特征向量由神经网络中提取的种子图片的多层特征组成,根据特征向量生成至少一个视觉单词,该至少一个视觉单词用于表示种子图片的语义,基于视觉单词进行图片检索时,提高了检索精确度,能够满足用户的检索需求。进一步地,基于种子图片对应的文字描述块获取种子图片的语义单词,根据种子图片与该指定图片之间的相似度,获取该指定图片的语义单词,以表示该指定图片的语义,细化了图片语义的粒度,有利于进行图片匹配、图片点击率预估和图片转化率预估等过程。
图3是本发明实施例提供的一种图片检索装置结构示意图,参见图3,该装置包括:
特征向量获取模块301,用于获取每个种子图片的特征向量,该特征向量由神经网络中提取的种子图片的多层特征组成;
视觉单词生成模块302与特征向量获取模块301连接,用于根据每个种子图片的特征向量,生成每个种子图片的至少一个视觉单词,该至少一个视觉单词用于表示每个种子图片的语义;
视觉单词索引模块303分别与特征向量获取模块301和视觉单词生成模块302连接,用于根据每个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量;
图片检索模块304与视觉单词索引模块303连接,用于基于每个视觉单词的至少一个种子图片和至少一个特征向量进行图片检索。
本发明实施例提供的装置,通过将种子图片看作视觉单词的集合,获取种子图片的特征向量,该特征向量由神经网络中提取的种子图片的多层特征组成,根据特征向量生成至少一个视觉单词,该至少一个视觉单词用于表示种子图片的语义,基于视觉单词进行图片检索时,提高了检索精确度,能够满足用户的检索需求。
可选地,该图片检索模块304包括:
指定获取单元,用于对于待检索的指定图片,获取该指定图片的特征向量,作为第一特征向量,根据该第一特征向量,生成至少一个指定视觉单词;
第二特征向量确定单元,用于基于每个视觉单词的至少一个特征向量,确定该至少一个指定视觉单词的至少一个特征向量,作为第二特征向量;
相似度计算单元,用于计算该指定特征向量与该至少一个第二特征向量之间的相似度;
第三特征向量提取单元,用于按照相似度从大到小的顺序,从该至少一个第二特征向量中,提取至少一个特征向量,作为第三特征向量;
相似图片获取单元,用于获取该至少一个第三特征向量对应的至少一个种子图片,作为该指定图片的相似图片。
可选地,该装置还包括:
指定语义获取模块,用于当获取到指定图片的至少一个相似图片时,根据该指定图片与该至少一个相似图片之间的相似度以及该至少一个相似图片的语义,获取该指定图片的语义。
可选地,该指定语义获取模块包括:
第一权重获取单元,用于对于每个相似图片,获取该相似图片的至少一个语义单词和该至少一个语义单词的第一权重;
相似度获取单元,用于获取该指定图片与该相似图片之间的相似度;
第二权重获取单元,用于对于该相似图片的每个语义单词,计算该相似度与该语义单词的第一权重的乘积,作为该语义单词的第二权重;
语义单词提取单元,用于按照第二权重从大到小的顺序,从该至少一个相似图片的至少一个语义单词中,提取至少一个语义单词,作为该指定图片的语义单词。
可选地,该第一权重获取单元还用于获取该相似图片的至少一个文字描述块,为该至少一个文字描述块分配权重;根据文字描述块中的每个单词的出现次数和该至少一个文字描述块的数目,计算每个单词的逆向频率,该逆向频率用于表示单词对该相似图片的重要程度;对于每个文字描述块,计算该文字描述块中每个单词的逆向频率与该文字描述块的权重的乘积,作为每个单词的第一权重;按照第一权重从大到小的顺序,从该至少一个文字描述块中的每个单词中,提取至少一个单词,作为该相似图片的至少一个语义单词;确定该至少一个语义单词的第一权重。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的图片检索装置在图片检索时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图片检索装置与图片检索方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本发明实施例提供的一种服务器的结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中该的由服务器所执行的步骤可以基于该图4所示的服务器结构。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种图片检索方法,其特征在于,所述方法包括:
获取多个种子图片的特征向量,所述特征向量由神经网络中提取的种子图片的多层特征组成,所述多个种子图片覆盖图片库中多个图片类型;
根据多个种子图片的特征向量,生成多个种子图片的至少一个视觉单词,所述至少一个视觉单词用于表示多个种子图片的语义;
根据多个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量;
对于待检索的指定图片,获取所述指定图片的特征向量,作为第一特征向量,根据所述第一特征向量,生成至少一个指定视觉单词;
基于每个视觉单词的至少一个特征向量,确定所述至少一个指定视觉单词的至少一个特征向量,作为第二特征向量;
计算所述指定图片的特征向量与所述至少一个第二特征向量之间的相似度;
按照相似度从大到小的顺序,从所述至少一个第二特征向量中,提取至少一个特征向量,作为第三特征向量;
获取所述至少一个第三特征向量对应的至少一个种子图片,作为所述指定图片的相似图片。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当获取到指定图片的至少一个相似图片时,根据所述指定图片与所述至少一个相似图片之间的相似度以及所述至少一个相似图片的语义,获取所述指定图片的语义。
3.根据权利要求2所述的方法,其特征在于,所述根据所述指定图片与所述至少一个相似图片之间的相似度以及所述至少一个相似图片的语义,获取所述指定图片的语义包括:
对于每个相似图片,获取所述相似图片的至少一个语义单词和所述至少一个语义单词的第一权重;
获取所述指定图片与所述相似图片之间的相似度;
对于所述相似图片的每个语义单词,计算所述相似度与所述语义单词的第一权重的乘积,作为所述语义单词的第二权重;
按照第二权重从大到小的顺序,从所述至少一个相似图片的至少一个语义单词中,提取至少一个语义单词,作为所述指定图片的语义单词。
4.根据权利要求3所述的方法,其特征在于,所述获取所述相似图片的至少一个语义单词和所述至少一个语义单词的第一权重包括:
获取所述相似图片的至少一个文字描述块,为所述至少一个文字描述块分配权重;
根据文字描述块中的每个单词的出现次数和所述至少一个文字描述块的数目,计算每个单词的逆向频率,所述逆向频率用于表示单词对所述相似图片的重要程度;
对于每个文字描述块,计算所述文字描述块中每个单词的逆向频率与所述文字描述块的权重的乘积,作为每个单词的第一权重;
按照第一权重从大到小的顺序,从所述至少一个文字描述块中的每个单词中,提取至少一个单词,作为所述相似图片的至少一个语义单词;
确定所述至少一个语义单词的第一权重。
5.一种图片检索装置,其特征在于,所述装置包括:
特征向量获取模块,用于获取多个种子图片的特征向量,所述特征向量由神经网络中提取的种子图片的多层特征组成,所述多个种子图片覆盖图片库中多个图片类型;
视觉单词生成模块,用于根据多个种子图片的特征向量,生成多个种子图片的至少一个视觉单词,所述至少一个视觉单词用于表示多个种子图片的语义;
视觉单词索引模块,用于根据多个种子图片的特征向量和至少一个视觉单词,获取每个视觉单词的至少一个种子图片和至少一个特征向量;
图片检索模块,包括:
指定获取单元,用于对于待检索的指定图片,获取所述指定图片的特征向量,作为第一特征向量,根据所述第一特征向量,生成至少一个指定视觉单词;
第二特征向量确定单元,用于基于每个视觉单词的至少一个特征向量,确定所述至少一个指定视觉单词的至少一个特征向量,作为第二特征向量;
相似度计算单元,用于计算所述指定图片的特征向量与所述至少一个第二特征向量之间的相似度;
第三特征向量提取单元,用于按照相似度从大到小的顺序,从所述至少一个第二特征向量中,提取至少一个特征向量,作为第三特征向量;
相似图片获取单元,用于获取所述至少一个第三特征向量对应的至少一个种子图片,作为所述指定图片的相似图片。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
指定语义获取模块,用于当获取到指定图片的至少一个相似图片时,根据所述指定图片与所述至少一个相似图片之间的相似度以及所述至少一个相似图片的语义,获取所述指定图片的语义。
7.根据权利要求6所述的装置,其特征在于,所述指定语义获取模块包括:
第一权重获取单元,用于对于每个相似图片,获取所述相似图片的至少一个语义单词和所述至少一个语义单词的第一权重;
相似度获取单元,用于获取所述指定图片与所述相似图片之间的相似度;
第二权重获取单元,用于对于所述相似图片的每个语义单词,计算所述相似度与所述语义单词的第一权重的乘积,作为所述语义单词的第二权重;
语义单词提取单元,用于按照第二权重从大到小的顺序,从所述至少一个相似图片的至少一个语义单词中,提取至少一个语义单词,作为所述指定图片的语义单词。
8.根据权利要求7所述的装置,其特征在于,所述第一权重获取单元还用于获取所述相似图片的至少一个文字描述块,为所述至少一个文字描述块分配权重;根据文字描述块中的每个单词的出现次数和所述至少一个文字描述块的数目,计算每个单词的逆向频率,所述逆向频率用于表示单词对所述相似图片的重要程度;对于每个文字描述块,计算所述文字描述块中每个单词的逆向频率与所述文字描述块的权重的乘积,作为每个单词的第一权重;按照第一权重从大到小的顺序,从所述至少一个文字描述块中的每个单词中,提取至少一个单词,作为所述相似图片的至少一个语义单词;确定所述至少一个语义单词的第一权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410395792.7A CN105468596B (zh) | 2014-08-12 | 2014-08-12 | 图片检索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410395792.7A CN105468596B (zh) | 2014-08-12 | 2014-08-12 | 图片检索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105468596A CN105468596A (zh) | 2016-04-06 |
CN105468596B true CN105468596B (zh) | 2019-06-18 |
Family
ID=55606309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410395792.7A Active CN105468596B (zh) | 2014-08-12 | 2014-08-12 | 图片检索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105468596B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9984772B2 (en) * | 2016-04-07 | 2018-05-29 | Siemens Healthcare Gmbh | Image analytics question answering |
WO2017193263A1 (zh) * | 2016-05-09 | 2017-11-16 | 华为技术有限公司 | 数据查询方法、数据查询系统确定方法和装置 |
CN106021364B (zh) * | 2016-05-10 | 2017-12-12 | 百度在线网络技术(北京)有限公司 | 图片搜索相关性预测模型的建立、图片搜索方法和装置 |
CN106649490B (zh) * | 2016-10-08 | 2020-06-16 | 中国人民解放军理工大学 | 一种基于深度特征的图像检索方法及装置 |
CN106886783B (zh) * | 2017-01-20 | 2020-11-10 | 清华大学 | 一种基于区域特征的图像检索方法及系统 |
CN108401005B (zh) * | 2017-02-08 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种表情推荐方法和装置 |
WO2018145577A1 (zh) | 2017-02-08 | 2018-08-16 | 腾讯科技(深圳)有限公司 | 表情推荐方法和装置 |
CN108509466A (zh) * | 2017-04-14 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法和装置 |
CN107067043B (zh) * | 2017-05-25 | 2020-07-24 | 哈尔滨工业大学 | 一种农作物病虫害检测方法 |
CN110147486B (zh) * | 2017-10-16 | 2021-10-29 | 中国电信股份有限公司 | 好友推荐方法和装置 |
CN108875828B (zh) * | 2018-06-19 | 2022-01-28 | 太原学院 | 一种相似图像的快速匹配方法和系统 |
CN112015935B (zh) * | 2020-09-03 | 2022-12-06 | 科大讯飞股份有限公司 | 图像搜索方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853486B (zh) * | 2010-06-08 | 2012-06-13 | 华中科技大学 | 一种基于局部数字指纹的图像拷贝检测方法 |
CN103164433B (zh) * | 2011-12-13 | 2016-06-15 | 阿里巴巴集团控股有限公司 | 一种图像搜索方法、装置及服务器 |
US9063954B2 (en) * | 2012-10-15 | 2015-06-23 | Google Inc. | Near duplicate images |
-
2014
- 2014-08-12 CN CN201410395792.7A patent/CN105468596B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105468596A (zh) | 2016-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468596B (zh) | 图片检索方法和装置 | |
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
US11657084B2 (en) | Correlating image annotations with foreground features | |
Patro et al. | An efficient optimized feature selection with machine learning approach for ECG biometric recognition | |
Bruni et al. | Multimodal distributional semantics | |
CN110209897B (zh) | 智能对话方法、装置、存储介质及设备 | |
CN111615706A (zh) | 基于子流形稀疏卷积神经网络分析空间稀疏数据 | |
US20120254310A1 (en) | Content recommendation device, recommended content search method, and program | |
Özsert Yiğit et al. | Comparison of convolutional neural network models for food image classification | |
Wagner et al. | Semantic stability in social tagging streams | |
CN110353675A (zh) | 基于图片生成的脑电信号情感识别方法及装置 | |
WO2020155877A1 (zh) | 信息推荐 | |
CN107895303B (zh) | 一种基于ocean模型的个性化推荐的方法 | |
Połap | Human-machine interaction in intelligent technologies using the augmented reality | |
CN105740448B (zh) | 面向话题的多微博时序文摘方法 | |
WO2018119593A1 (zh) | 一种语句推荐方法及装置 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN110119479A (zh) | 一种餐馆推荐方法、装置、设备及可读存储介质 | |
CN106686460A (zh) | 一种视频节目推荐方法及视频节目推荐装置 | |
Meng et al. | Few-shot image classification algorithm based on attention mechanism and weight fusion | |
Zhao et al. | Jdnet: A joint-learning distilled network for mobile visual food recognition | |
Angadi et al. | Multimodal sentiment analysis using reliefF feature selection and random forest classifier | |
Tautkute et al. | What looks good with my sofa: Multimodal search engine for interior design | |
CN117271818B (zh) | 视觉问答方法、系统、电子设备及存储介质 | |
CN117033799B (zh) | 资源推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231227 Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd. Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |