CN106649886A - 一种利用三元组标签的深度监督散列进行图像检索方法 - Google Patents

一种利用三元组标签的深度监督散列进行图像检索方法 Download PDF

Info

Publication number
CN106649886A
CN106649886A CN201710025983.8A CN201710025983A CN106649886A CN 106649886 A CN106649886 A CN 106649886A CN 201710025983 A CN201710025983 A CN 201710025983A CN 106649886 A CN106649886 A CN 106649886A
Authority
CN
China
Prior art keywords
image
theta
hash code
hash
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710025983.8A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710025983.8A priority Critical patent/CN106649886A/zh
Publication of CN106649886A publication Critical patent/CN106649886A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种利用三元组标签的深度监督散列进行图像检索方法,其主要内容包括:图像特征学习、散列码学习、损失函数、模型学习、输入图像获得外观相近的其他图像,其过程为,首先建立三元组标签,同时进行图像特征学习和散列码学习,其中采用卷积神经网络学习图像特征,用一个完全连接层输出图像散列码,然后利用损失函数评估所学习的散列码,最后集成于一个网络,通过最小化损失函数训练网络,将新的图像输入训练完成的网络,即可生成散列码,输出与输入图像外观相近的图像。本发明突破传统散列对现成特征的依赖,基于三元组标签同时执行图像特征和散列码的学习,使得图像搜索速度和存储效率均得到提高,使人们图像检索更加方便快捷。

Description

一种利用三元组标签的深度监督散列进行图像检索方法
技术领域
本发明涉及图像检索领域,尤其是涉及了一种利用三元组标签的深度监督散列进行图像检索方法。
背景技术
图像检索常用于日常搜索、公安系统、数字图书馆等领域,具体地,例如谷歌的图片搜索功能,导入图片得到图片相关内容或其他相关图像,使得人们可以在对未知图像无任何语义概念的情况下获得与其形似或同类的其他图像或解释。应用于公安系统可以轻易检索到嫌疑人相关信息加速破案进程,应用于数字化图书馆快速检索藏书信息。然而现有技术依赖于现成特征,散列码学习与图像特征学习无关导致生成的散列码无法达到既定性能,再者其对存储空间和检索时间的要求,面对如今互联网上动辄上亿级别的数据规模,显然不切实际。
本发明提出了一种利用三元组标签的深度监督散列进行图像检索方法,提出了一个模型,基于三元组标签的深度散列方法以端到端的方式同时执行图像特征和散列码学习。首先建立三元组标签,同时进行图像特征学习和散列码学习,其中采用卷积神经网络学习图像特征,用一个完全连接层输出图像散列码,然后利用损失函数评估所学习的散列码,最后集成于一个网络,通过最小化损失函数训练网络,将新的图像输入训练完成的网络,即可生成散列码,输出与输入图像外观相近的图像。本发明突破传统散列对现成特征的依赖,以及因散列码学习与图像特征无关而产生次优散列码的局限,通过最大化给定三元组标签的似然性同时执行图像特征学习和散列码学习,使得图像搜索速度和存储效率均得到提高,优于现有方法。
发明内容
针对现有方法依赖现成特征、存储空间消耗大,检索速度慢等问题,本发明的目的在于提供一种利用三元组标签的深度监督散列进行图像检索方法,通过最大化给定三元组标签的似然性同时执行图像特征学习和散列码学习,使得图像搜索速度和存储效率均得到提高,优于现有方法。
为解决上述问题,本发明提供一种利用三元组标签的深度监督散列进行图像检索方法,其主要内容包括:
(一)图像特征学习;
(二)散列码学习;
(三)损失函数;
(四)模型学习;
(五)输入图像获得外观相近的其他图像。
其中,所述的图像特征学习,采用卷积神经网络学习图像特征,所用的CNN-F网络架构,共有八层,其中最后一层被设计来学习类别标签的概率分布,故仅可使用CNN-F的前7层。
其中,所述的散列码学习,旨在学习图像的散列码,用一个完全连接层输出图像的散列码,并且该层神经元的数量与目标散列码的长度相等,多个完全连接层或其他架构如分割和编码模块也可应用于此。
进一步地,所述的散列码,若一个散列码bn对应一个图像In,其中bn∈{+1,-1}L,L是散列码的长度,散列码应该在Hamming(汉明)空间中尽可能地满足所有三元组标签,更确切地,应该尽可能比小,其中distH(β,γ)表示两个二值码β和γ之间的Hamming距离。
其中,所述的损失函数,用于评估所学习的散列码的质量,其中散列码通过计算给定三元组标签的似然性而得,并将损失函数定义为三元组标签似然性的负对数。
进一步地,所述的三元组标签的似然性,通过最大化三元组标签似然性,可以使查询图像和正图像之间的汉明距离比和负图像之间的更小,并给出如下公式及证明,令θij表示两个散列码bi,bj∈{+1,-1}L点积的一半:
然后将三元组标签似然性公式化为:
以及
其中σ(x)是S形函数α是差值,一个正的超参数,是所有散列码的集合;
首先证明两个二值码之间的汉明距离与其内积之间有以下关系:
根据式4,有
根据式3,可知越大,越大,因为α是一个常数,所以越大,越小,即通过最大化三元组标签似然性保持了查询图像,正图像和负图像之间的相对相似性。
进一步地,所述的损失函数,其定义为三元组标签似然性的负对数,如下:
将式3代入上等式,可得到:
要最小化(7)中定义的损失,将二值码{bn}松弛到真矢量{un},并且重新定义θij
损失函数即化为
其中λ是平衡三元组似然性的负对数和量化误差的超参数,bn=sgn(un),其中sgn()是符号函数且当时,等于1,否则等于-1。
其中,所述的模型学习,模型由前述三个关键部分组成,集成的网络由三个具有相同架构和共享权重的子网络组成,将三元组图像作为输入,输出图像的散列码。
进一步地,所述的网络,通过最小化损失函数得到训练:
其中θ表示子网络的所有参数,un是子网络第n个训练图像的输出,bn=sgn(un),可见L关于un是可积分的,因此,反向传播算法可以应用于此以使损失函数最小化;
一旦训练完成,即可应用模型来为新的图像生成散列码,对于一个新图像I,将其传递到训练过的子网络,并取最后一层u的输出,则图像I的散列码b则有b=sgn(u)。
其中,所述的输入图像获得外观相近的其他图像,将一幅图像输入到搜索引擎中,返回的结果是数据库图像中与输入图像外观相近的其他图像。
附图说明
图1是本发明一种利用三元组标签的深度监督散列进行图像检索方法的系统流程图。
图2是本发明一种利用三元组标签的深度监督散列进行图像检索方法的模型网络概要图。
图3是本发明一种利用三元组标签的深度监督散列进行图像检索方法的图像检索流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种利用三元组标签的深度监督散列进行图像检索方法的系统流程图。主要包括图像特征学习、散列码学习、损失函数、模型学习、输入图像获得外观相近的其他图像。
其中,图像特征学习,采用卷积神经网络学习图像特征,所用的CNN-F网络架构,共有八层,其中最后一层被设计来学习类别标签的概率分布,故仅可使用CNN-F的前7层。
其中,散列码学习,旨在学习图像的散列码,用一个完全连接层输出图像的散列码,并且该层神经元的数量与目标散列码的长度相等,多个完全连接层或其他架构如分割和编码模块也可应用于此。
其中,损失函数,评估所学习的散列码的质量,其中散列码通过计算给定三元组标签的似然性而得。通过最大化三元组标签似然性,可以使查询图像和正图像之间的汉明距离比和负图像之间的更小,并给出如下公式及证明,
令θij表示两个散列码bi,bj∈{+1,-1}L点积的一半:
然后将三元组标签似然性公式化为:
以及
其中σ(x)是S形函数α是差值,一个正的超参数,是所有散列码的集合;
首先证明两个二值码之间的汉明距离与其内积之间有以下关系:
根据式4,有
根据式3,可知越大,越大,因为α是一个常数,所以越大,越小,即通过最大化三元组标签似然性保持了查询图像,正图像和负图像之间的相对相似性。
损失函数定义为三元组标签似然性的负对数,如下:
将式3代入上等式,可得到:
要最小化(7)中定义的损失,将二值码{bn}松弛到真矢量{un},并且重新定义θij
损失函数即化为
其中λ是平衡三元组似然性的负对数和量化误差的超参数,bn=sgn(un),其中sgn()是符号函数且当时,等于1,否则等于-1。
其中,模型学习,由前述三个关键部分组成,集成的网络由三个具有相同架构和共享权重的子网络组成,将三元组图像作为输入,输出图像的散列码。
此网络通过最小化损失函数得到训练:
其中θ表示子网络的所有参数,un是子网络第n个训练图像的输出,bn=sgn(un),可见L关于un是可积分的,因此,反向传播算法可以应用于此以使损失函数最小化;
一旦训练完成,即可应用模型来为新的图像生成散列码,对于一个新图像I,将其传递到训练过的子网络,并取最后一层u的输出,则图像I的散列码b则有b=sgn(u)。
其中,输入图像获得外观相近的其他图像,将一幅图像输入到搜索引擎中,返回的结果是数据库图像中与输入图像外观相近的其他图像。
图2是本发明一种利用三元组标签的深度监督散列进行图像检索方法的模型网络概要图。此网络由三个具有相同架构和共享权重的子网络组成,包括(1)图像特征学习(2)散列码学习(3)损失函数。将三元组图像作为输入,输出图像的散列码,实现基于三元组标签的深度散列方法以端到端的方式同时执行图像特征和散列码学习。
图3是本发明一种利用三元组标签的深度监督散列进行图像检索方法的图像检索流程图。在对某图像进行检索时,在搜索栏中导入该图像,对图像信息进行分析,获得散列码,从而获取与输入图像外观相近的其他图像并输出,为用户提供更快捷有效的图像检索方法。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种利用三元组标签的深度监督散列进行图像检索方法,其特征在于,主要包括图像特征学习(一);散列码学习(二);损失函数(三);模型学习(四);输入图像获得外观相近的其他图像(五)。
2.基于权利要求书1所述的图像特征学习(一),其特征在于,采用卷积神经网络学习图像特征,所用的CNN-F网络架构,共有八层,其中最后一层被设计来学习类别标签的概率分布,故仅可使用CNN-F的前7层。
3.基于权利要求书1所述的散列码学习(二),其特征在于,旨在学习图像的散列码,用一个完全连接层输出图像的散列码,并且该层神经元的数量与目标散列码的长度相等,多个完全连接层或其他架构如分割和编码模块也可应用于此。
4.基于权利要求书3所述的散列码,其特征在于,一个散列码bn对应一个图像In,其中bn∈{+1,-1}L,L是散列码的长度,散列码应该在Hamming(汉明)空间中尽可能地满足所有三元组标签,更确切地,应该尽可能比小,其中distH(β,γ)表示两个二值码β和γ之间的Hamming距离。
5.基于权利要求书1所述的损失函数(三),其特征在于,评估所学习的散列码的质量,其中散列码通过计算给定三元组标签的似然性而得,并将损失函数定义为三元组标签似然性的负对数。
6.基于权利要求书5所述的三元组标签的似然性,其特征在于,通过最大化三元组标签似然性,可以使查询图像和正图像之间的汉明距离比和负图像之间的更小,并给出如下公式及证明,
令θij表示两个散列码bi,bj∈{+1,-1}L点积的一半:
θ i j = 1 2 b i T b j - - - ( 1 )
然后将三元组标签似然性公式化为:
以及
其中σ(x)是S形函数α是差值,一个正的超参数,是所有散列码的集合;
首先证明两个二值码之间的汉明距离与其内积之间有以下关系:
dist H ( b i , b j ) = 1 2 ( L - 2 θ i j ) - - - ( 4 )
根据式4,有
dist H ( b q m , b p m ) - dist H ( b q m , b n m ) = - ( θ q m p m - θ q m n m ) - - - ( 5 )
根据式3,可知越大,越大,因为α是一个常数,所以越大,越小,即通过最大化三元组标签似然性保持了查询图像,正图像和负图像之间的相对相似性。
7.基于权利要求书5所述的损失函数的定义,其特征在于,三元组标签似然性的负对数的定义如下:
将式3代入上等式,可得到:
L = - Σ m = 1 M ( θ q m p m - θ q m n m - α - l o g ( 1 + e θ q m p m - θ q m n m - α ) ) - - - ( 7 )
要最小化(7)中定义的损失,将二值码{bn}松弛到真矢量{un},并且重新定义θij
θ i j = 1 2 u i T u j - - - ( 8 )
损失函数即化为
L = - Σ m = 1 M ( θ q m p m - θ q m n m - α - l o g ( 1 + e θ q m p m - θ q m n m - α ) ) + λ Σ n = 1 N | | b n - u n | | 2 2 - - - ( 9 )
其中λ是平衡三元组似然性的负对数和量化误差的超参数,bn=sgn(un),其中sgn()是符号函数且当时,等于1,否则等于-1。
8.基于权利要求书1所述的模型学习(四),其特征在于,模型由前述三个关键部分组成,集成的网络由三个具有相同架构和共享权重的子网络组成,将三元组图像作为输入,输出图像的散列码。
9.基于权利要求书8所述的网络,其特征在于,此网络通过最小化损失函数得到训练:
L ( θ ) = - Σ m = 1 M ( θ q m p m - θ q m n m - α - l o g ( 1 + e θ q m p m - θ q m n m - α ) ) + λ Σ n = 1 N | | b n - u n | | 2 2 - - - ( 10 )
其中θ表示子网络的所有参数,un是子网络第n个训练图像的输出,bn=sgn(un),可见L关于un是可积分的,因此,反向传播算法可以应用于此以使损失函数最小化;
一旦训练完成,即可应用模型来为新的图像生成散列码,对于一个新图像I,将其传递到训练过的子网络,并取最后一层u的输出,则图像I的散列码b则有b=sgn(u)。
10.基于权利要求书1所述的输入图像获得外观相近的其他图像(五),其特征在于,将一幅图像输入到搜索引擎中,返回的结果是数据库图像中与输入图像外观相近的其他图像。
CN201710025983.8A 2017-01-13 2017-01-13 一种利用三元组标签的深度监督散列进行图像检索方法 Withdrawn CN106649886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710025983.8A CN106649886A (zh) 2017-01-13 2017-01-13 一种利用三元组标签的深度监督散列进行图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710025983.8A CN106649886A (zh) 2017-01-13 2017-01-13 一种利用三元组标签的深度监督散列进行图像检索方法

Publications (1)

Publication Number Publication Date
CN106649886A true CN106649886A (zh) 2017-05-10

Family

ID=58843276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710025983.8A Withdrawn CN106649886A (zh) 2017-01-13 2017-01-13 一种利用三元组标签的深度监督散列进行图像检索方法

Country Status (1)

Country Link
CN (1) CN106649886A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423376A (zh) * 2017-07-10 2017-12-01 上海交通大学 一种有监督深度哈希快速图片检索方法及系统
CN107944363A (zh) * 2017-11-15 2018-04-20 北京达佳互联信息技术有限公司 人脸图像处理方法、系统及服务器
CN108399428A (zh) * 2018-02-09 2018-08-14 哈尔滨工业大学深圳研究生院 一种基于迹比准则的三元组损失函数设计方法
CN110506281A (zh) * 2017-07-17 2019-11-26 谷歌有限责任公司 学习统一嵌入
CN110506274A (zh) * 2017-09-14 2019-11-26 谷歌有限责任公司 图像中的对象检测和表示
CN114897116A (zh) * 2022-05-25 2022-08-12 佳木斯大学 基于物联网的自动化病理科用取样装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOFANG WANG等: "Deep Supervised Hashing with Triplet Labels", 《ARXIV:1612.03900V1》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423376A (zh) * 2017-07-10 2017-12-01 上海交通大学 一种有监督深度哈希快速图片检索方法及系统
CN107423376B (zh) * 2017-07-10 2019-12-27 上海媒智科技有限公司 一种有监督深度哈希快速图片检索方法及系统
CN110506281A (zh) * 2017-07-17 2019-11-26 谷歌有限责任公司 学习统一嵌入
CN110506274A (zh) * 2017-09-14 2019-11-26 谷歌有限责任公司 图像中的对象检测和表示
CN110506274B (zh) * 2017-09-14 2023-11-24 谷歌有限责任公司 图像中的对象检测和表示
CN107944363A (zh) * 2017-11-15 2018-04-20 北京达佳互联信息技术有限公司 人脸图像处理方法、系统及服务器
CN108399428A (zh) * 2018-02-09 2018-08-14 哈尔滨工业大学深圳研究生院 一种基于迹比准则的三元组损失函数设计方法
CN108399428B (zh) * 2018-02-09 2020-04-10 哈尔滨工业大学深圳研究生院 一种基于迹比准则的三元组损失函数设计方法
CN114897116A (zh) * 2022-05-25 2022-08-12 佳木斯大学 基于物联网的自动化病理科用取样装置

Similar Documents

Publication Publication Date Title
CN106649886A (zh) 一种利用三元组标签的深度监督散列进行图像检索方法
CN111460249B (zh) 一种基于学习者偏好建模的个性化学习资源推荐方法
US20220222920A1 (en) Content processing method and apparatus, computer device, and storage medium
CN109447140B (zh) 一种基于神经网络深度学习的图像识别并推荐认知的方法
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN109344285B (zh) 一种面向监控的视频图谱构建和挖掘方法、设备
CN108920544A (zh) 一种基于知识图谱的个性化职位推荐方法
CN108921657B (zh) 一种基于知识增强记忆网络的序列推荐方法
CN111563192B (zh) 实体对齐方法、装置、电子设备及存储介质
CN110110090A (zh) 搜索方法、教育搜索引擎系统及装置
CN113254782B (zh) 问答社区专家推荐方法及系统
CN112733602B (zh) 关系引导的行人属性识别方法
CN114722182A (zh) 一种基于知识图谱的在线课推荐方法及系统
CN114201684A (zh) 一种基于知识图谱的自适应学习资源推荐方法及系统
CN113806630A (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN111930981A (zh) 一种草图检索的数据处理方法
CN114969078A (zh) 一种联邦学习的专家研究兴趣实时在线预测更新方法
CN113361928B (zh) 一种基于异构图注意力网络的众包任务推荐方法
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
Jiang et al. A self-attentive model for tracing knowledge and engagement in parallel
CN111191059B (zh) 图像处理方法、装置、计算机存储介质及电子设备
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
He et al. Two-stage rule-induction visual reasoning on RPMs with an application to video prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170510

WW01 Invention patent application withdrawn after publication