CN108920727A - 视觉检索中的紧凑视觉描述子深度神经网络生成模型 - Google Patents

视觉检索中的紧凑视觉描述子深度神经网络生成模型 Download PDF

Info

Publication number
CN108920727A
CN108920727A CN201810878981.8A CN201810878981A CN108920727A CN 108920727 A CN108920727 A CN 108920727A CN 201810878981 A CN201810878981 A CN 201810878981A CN 108920727 A CN108920727 A CN 108920727A
Authority
CN
China
Prior art keywords
image
network
fisher
function
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810878981.8A
Other languages
English (en)
Inventor
纪荣嵘
林贤明
钱剑强
施明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201810878981.8A priority Critical patent/CN108920727A/zh
Publication of CN108920727A publication Critical patent/CN108920727A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

视觉检索中的紧凑视觉描述子深度神经网络生成模型,涉及图像检索。构建Fisher layer网络;构建分组和二分类模块;基于极大边界条件的损失函数的训练;对于图像库图像和查询图像,首先抽取图像的局部特征,然后用训练好的网络结构对图像的局部特征进行聚合和二值嵌入获得图像的二值编码,根据查询图像的二值编码在图像库中匹配返回相似度高的图像作为粗匹配出候选集,再对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。使用灵活的Fisher网络聚合图像的局部特征生成更高效的全局特征Fisher向量;同时用分组与二分类模块对Fisher向量进行二值编码,得到紧凑的全局二值特征。

Description

视觉检索中的紧凑视觉描述子深度神经网络生成模型
技术领域
本发明涉及图像检索,具体是涉及一种基于Fisher网络和二值嵌入的视觉检索中的紧凑视觉描述子深度神经网络生成模型。
背景技术
随着互联网的快速发展,网络上的多媒体数据呈几何式增长,而图片与视频数据增长尤其迅速。据统计,每秒钟会有大概5h长的视频内容上传到YouTube;根据思科2015年的调查研究,到2017年互联网上大约80%的流量都是视频。因此互联网上的图片和视频数据无时无刻都在增加,目前其数据在现有容量与增长速度上已经远远超过当前技术的处理能力。面对数据量如此之快的增长速度,如何利用好这些数据面临几个需要解决的问题,即如何更加有效地利用存储空间与如何在海量的内容中准确并快速地找到需要的信息,以及如何在计算和存储能力有限的移动或者嵌入式终端设备上快速查找图像库的图像。
大规模图像检索有着广阔的应用范围。大规模图像检索最新的研究进展主要关注局部特征聚合获得有的全局特征。在这些研究当中,Fisher向量是一种非常有效和有区分性的图像全局特征,具有两点显著特征:Fisher向量利用了图像的一阶和二阶信息;Fisher向量对应的视觉词典小,计算快速高效。为了得到图像的Fisher向量,首先抽取图像的局部特征,然后再用混合高斯模型聚合局部特征获得图像全局特征。然而,由于Fisher向量自身超高维度的性质,简单的穷尽搜索面临非常高的时间复杂度的问题,将原始数据从存储中加载到内存也成为了现实应用中所必须解决的一个瓶颈。在大规模图像检索应用中,Fisher向量计算和存储开销巨大,限制了Fisher向量的应用,不能适应大规模图像检索应用。为了解决Fisher向量超高维导致的问题,主要的思路是把高维的实值向量进行二值嵌入,转化为中低维的二值向量。二值嵌入的方法主要有两大类:积量化(productquantization)和哈希(hashing)。传统的Fisher向量对应的混合高斯模型学习和二值嵌入学习分别进行,使得整个优化过程不能达到协同最优。
发明内容
本发明的目的在于针对现有的Fisher向量由于超高维度实值向量性质导致无法适应计算资源和存储资源有限的应用场景这一问题,为了应对并处理大规模图像搜索,用以克服大规模图像检索存在的由于计算和存储开销导致的问题,提供视觉检索中的紧凑视觉描述子深度神经网络生成模型。
本发明包括以下步骤:
1)构建Fisher layer网络;
2)构建分组和二分类模块;
3)基于极大边界条件的损失函数的训练;
4)对于图像库图像和查询图像,首先抽取图像的局部特征,然后用训练好的网络结构对图像的局部特征进行聚合和二值嵌入获得图像的二值编码,根据查询图像的二值编码在图像库中匹配返回相似度高的图像作为粗匹配出候选集,再对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。
在步骤1)中,所述构建Fisher网络的具体方法可为:
将混合高斯模型进行两点简化,假设:
(1)假设GMM中每个高斯函数权重相等,即:ωk=1;
(2)假设GMM中每个高斯函数的协方差矩阵的行列式值|Σk|相等;
简化后的GMM高斯函数uk(xij)可以写为以下形式:
假设wk=1/δk,bk=-μk,最终Fisher网络的形式如下:
其中,⊙为元素乘积运算,γj(k)的计算公式是一个softmax函数,wk,bk是GMM第k个高斯函数的参数;γj(k)的计算公式包含共同计算部分wk⊙(xij+bk)是可微分的,其他计算是线性或者平方操作,是可求导的。经过简化的Fisher向量算法为线性运算,因此Fisher网络耦合其他网络结构并用梯度下降法训练,采用误差反向传播算法来学习参数。
在步骤2)中,所述构建分组与二分类模块的具体方法可为:
首先将Fisher网络输出的Fisher向量x分组获得若干数量的子向量xp,每一个子向量输入两层全连接层,进行非线性转换,神经元激活函数采用非线性整流函数但不限于非线性整流函数,全连接层的激活函数形式如下:
σ(x)=1/(1+exp(-x))
然后用一个线性分类器对非线性转换后的子向量进行二分类,从而把每一个子向量量化成一个比特,线性分类器函数形式如下:
上面公式可改写成如下形式:
子向量量化成一个比特的量化函数如下:
其中,sgn(·)函数是符号函数,自变量大于零取1,小于等于0取-1。
最后把所有子向量对应的比特拼接起来,获得图像的全局二值编码特征:
其中,S是所有子向量的数量。
在步骤3)中,所述基于极大边界条件的损失函数的训练方法,具体如下:
在每一个子向量x(p)对应的子空间中,优化问题目标函数形式如下:
其中,假如第p个子空间中的两个子向量属于同一类,那么li=+1,否则li=-1,N表示训练网络一个批次的数量;使用Hinge loss重新改写上述损失函数,得到如下优化函数:
关于的梯度如下:
累加所有子空间的损失函数,得到网络的最终损失函数形式如下:
在步骤4)中,训练得到的Fisher网络和分组与二分类模块耦合组成的端到端的网络结构,对于图像库图像和查询图像,首先抽取图像的局部特征,然后根据训练得到的网络结构对图像局部特征进行聚合和二值嵌入获得图像的二值编码,之后计算查询图像的二值编码与图像库中的图像特征编码之间的汉明距离,利用汉明距离大小来衡量查询图像与图像库中待检索图像之间的相似性,返回相似度高的图像作为粗匹配出候选集;对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。
本发明主要研究Fisher网络耦合二值嵌入模块组成端到端的网络结构的联合训练优化方法。首先,简化传统的Fisher向量模型,提出一种Fisher网络结构用于局部特征聚合成全局特征Fisher向量。然后,用一个分组与二分类的网络结构对Fisher网络输出的全局特征二值嵌入,获得全局紧凑视觉特征。本发明提供一种基于极大边界条件的损失函数可以有效训练整个网络结构。Fisher网络耦合二值嵌入模块组成端到端的网络结构的联合训练优化,使得Fisher网络和二值嵌入模块达到协同最优。
本发明的优点如下:
本发明使用灵活的Fisher网络聚合图像的局部特征生成更高效的全局特征Fisher向量;同时用分组与二分类模块对Fisher向量进行二值编码,得到紧凑的全局二值特征。分组与二分类模块能够保持Fisher向量的内部数据结构,其中的两层全连接层对子向量进行非线性转换,能把线性不可分的数据映射到另一个空间变成线性可分的数据,从而线性分类器能对数据有效分类。
本发明提出一种基于Fisher网络和分组与二分类模块联合优化的端到端的深度神经网络结构,并且定义一种基于极大边界条件的损失函数高效地训练深度神经网络,使得Fisher网络和分组与二分类模块达到联合最优效果。该网络结构能把图像的局部特征有效聚合成全局紧凑二值特征。检索阶段使用全局紧凑二值特征“粗匹配”出候选集和使用局部特征进行几何一致性检验进行精确匹配,从而使得本发明很好的适应大规模图像检索任务。
附图说明
图1为全局紧凑二值特征聚合网络结构图。
图2为Fisher网络结构图。
图3为分组与二分类模块结构图。
具体实施方式
以下实施例将结合附图对本发明作详细的说明。
本发明包括以下步骤:
1)对于图像库中的图像,随机选取一部分图像作为训练集,并抽取相应的图像局部特征;
2)随机组合图像局部特征集合对,用于训练集离线训练深度神经网络模型;
3)用反向传播算法训练深度神经网络模型;
所述通过反向传播算法训练深度神经网络模型的具体方法为:
a)对于图像局部特征集合对中的每一个批次:
b)每一批次局部特征集合对输入深度神经网络模型,用反向传播算法计算模型所有参数的梯度值;
c)更新模型参数;
d)退出循环。
4)训练好深度神经网络模型之后,输入图像的局部特征集合到模型中,输出全局紧凑二值特征。
检索流程:
对于查询图像和待检索图像库中的图像,抽取图像局部特征,然后输入深度神经网络模型,输出全局紧凑二值特征。之后计算查询图像的哈希编码与图像库中的图像特征编码之间的汉明距离,利用汉明距离大小来衡量查询图像与图像库中待检索图像之间的相似性,匹配出候选集。再在候选集中对局部特征使用几何一致性检验对候选图像进行精确匹配。并返回检索结果。
本发明的紧凑视觉描述子深度神经网络生成模型如图1所示。包括三个部分:1)Fisher layer模块;2)分组与二分类模块;3)基于极大边界条件的损失函数。在局部特征聚合全局紧凑二值特征算法中采用Fisher网络结构(如图2所示)聚合图像的局部特征得到图像的全局特征Fisher Vector;对全局特征分组得到若干数量的子向量,采用若干组由两层全连接层和线性分类器组成的模块分别对每个子向量进行非线性转换和二分类,最终获得紧凑的全局视觉特征(如图2所示)。针对图像检索任务,基于极大边界条件的损失函数能够有效地联合训练优化整个网络结构。
本发明的Fisher网络结构图,在图2中,各模块计算功能如下:
①模块计算yijk_i=wk⊙(xij+bk),特征向量xij对应512高斯函数输出{yij1_2,yij2_2,...,yij512_2};
②模块计算yijk_2=(yijk_1)2,{yij1_1,yij2_1,...,yij512_1}中各元素的平方,输出{yij1_2,yij2_2,...,yij512_2};
③模块计算公式输出{yij1_3,yij2_3,...,yij512_3}。
④模块计算公式输出{yij1_4,yij2_4,...,yij512_4}。
⑤模块计算公式输出{γj(1),γj(2),...,γj(k)}。
⑥模块计算yijk_5=yijk_2-1,输出{yij1_5,yij2_5,...,yij512_5}。
⑦模块计算输出{yij1_6,yij2_6,...,yij512_6}。
⑧模块计算公式输出
⑨模块计算公式输出

Claims (5)

1.视觉检索中的紧凑视觉描述子深度神经网络生成模型,其特征在于包括以下步骤:
1)构建Fisher layer网络;
2)构建分组和二分类模块;
3)基于极大边界条件的损失函数的训练;
4)对于图像库图像和查询图像,首先抽取图像的局部特征,然后用训练好的网络结构对图像的局部特征进行聚合和二值嵌入获得图像的二值编码,根据查询图像的二值编码在图像库中匹配返回相似度高的图像作为粗匹配出候选集,再对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。
2.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型,其特征在于在步骤1)中,所述构建Fisher网络的具体方法为:
将混合高斯模型进行两点简化,假设:
(1)假设GMM中每个高斯函数权重相等,即:ωk=1;
(2)假设GMM中每个高斯函数的协方差矩阵的行列式值|Σk|相等;
简化后的GMM高斯函数uk(xij)写为以下形式:
假设wk=1/δk,bk=-μk,最终Fisher网络的形式如下:
其中,⊙为元素乘积运算,γj(k)的计算公式是一个softmax函数,wk,bk是GMM第k个高斯函数的参数;γj(k)的计算公式包含共同计算部分wk⊙(xij+bk)是可微分的,其他计算是线性或者平方操作,是可求导的;经过简化的Fisher向量算法为线性运算,因此Fisher网络耦合其他网络结构并用梯度下降法训练,采用误差反向传播算法来学习参数。
3.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型,其特征在于在步骤2)中,所述构建分组与二分类模块的具体方法为:
首先将Fisher网络输出的Fisher向量x分组获得若干数量的子向量xp,每一个子向量输入两层全连接层,进行非线性转换,神经元激活函数采用非线性整流函数但不限于非线性整流函数,全连接层的激活函数形式如下:
σ(x)=1/(1+exp(-x))
然后用一个线性分类器对非线性转换后的子向量进行二分类,从而把每一个子向量量化成一个比特,线性分类器函数形式如下:
上面公式可改写成如下形式:
子向量量化成一个比特的量化函数如下:
其中,sgn(·)函数是符号函数,自变量大于零取1,小于等于0取-1;
最后把所有子向量对应的比特拼接起来,获得图像的全局二值编码特征:
其中,S是所有子向量的数量。
4.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型,其特征在于在步骤3)中,所述基于极大边界条件的损失函数的训练方法,具体如下:
在每一个子向量x(p)对应的子空间中,优化问题目标函数形式如下:
其中,假如第p个子空间中的两个子向量属于同一类,那么li=+1,否则li=-1,N表示训练网络一个批次的数量;使用Hinge loss重新改写上述损失函数,得到如下优化函数:
关于的梯度如下:
累加所有子空间的损失函数,得到网络的最终损失函数形式如下:
5.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型,其特征在于在步骤4)中,训练得到的Fisher网络和分组与二分类模块耦合组成的端到端的网络结构,对于图像库图像和查询图像,首先抽取图像的局部特征,然后根据训练得到的网络结构对图像局部特征进行聚合和二值嵌入获得图像的二值编码,之后计算查询图像的二值编码与图像库中的图像特征编码之间的汉明距离,利用汉明距离大小来衡量查询图像与图像库中待检索图像之间的相似性,返回相似度高的图像作为粗匹配出候选集;对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。
CN201810878981.8A 2018-08-03 2018-08-03 视觉检索中的紧凑视觉描述子深度神经网络生成模型 Pending CN108920727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810878981.8A CN108920727A (zh) 2018-08-03 2018-08-03 视觉检索中的紧凑视觉描述子深度神经网络生成模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810878981.8A CN108920727A (zh) 2018-08-03 2018-08-03 视觉检索中的紧凑视觉描述子深度神经网络生成模型

Publications (1)

Publication Number Publication Date
CN108920727A true CN108920727A (zh) 2018-11-30

Family

ID=64393464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810878981.8A Pending CN108920727A (zh) 2018-08-03 2018-08-03 视觉检索中的紧凑视觉描述子深度神经网络生成模型

Country Status (1)

Country Link
CN (1) CN108920727A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818148A (zh) * 2021-04-16 2021-05-18 北京妙医佳健康科技集团有限公司 视觉检索的排序优化方法、装置、电子设备及存储介质
CN112990228A (zh) * 2021-03-05 2021-06-18 浙江商汤科技开发有限公司 图像特征匹配方法和相关装置、设备及存储介质
CN113343020A (zh) * 2021-08-06 2021-09-03 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置及电子设备
CN113821667A (zh) * 2021-06-11 2021-12-21 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989001A (zh) * 2015-01-27 2016-10-05 北京大学 图像搜索方法及装置、图像搜索系统
CN108108770A (zh) * 2017-12-31 2018-06-01 厦门大学 基于CRBM和Fisher网络的移动视觉搜索框架

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989001A (zh) * 2015-01-27 2016-10-05 北京大学 图像搜索方法及装置、图像搜索系统
CN108108770A (zh) * 2017-12-31 2018-06-01 厦门大学 基于CRBM和Fisher网络的移动视觉搜索框架

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANQIANG QIAN等: "Towards Compact Visual Descriptor via Deep Fisher Network with Binary Embedding", 《IEEE》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990228A (zh) * 2021-03-05 2021-06-18 浙江商汤科技开发有限公司 图像特征匹配方法和相关装置、设备及存储介质
CN112990228B (zh) * 2021-03-05 2024-03-29 浙江商汤科技开发有限公司 图像特征匹配方法和相关装置、设备及存储介质
CN112818148A (zh) * 2021-04-16 2021-05-18 北京妙医佳健康科技集团有限公司 视觉检索的排序优化方法、装置、电子设备及存储介质
CN113821667A (zh) * 2021-06-11 2021-12-21 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置及电子设备
CN113821667B (zh) * 2021-06-11 2024-07-02 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置及电子设备
CN113343020A (zh) * 2021-08-06 2021-09-03 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置及电子设备
CN113343020B (zh) * 2021-08-06 2021-11-26 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Liang et al. Transcrowd: weakly-supervised crowd counting with transformers
Guo et al. Depthwise convolution is all you need for learning multiple visual domains
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN108920727A (zh) 视觉检索中的紧凑视觉描述子深度神经网络生成模型
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
Wan et al. Robust facial landmark detection by multiorder multiconstraint deep networks
CN114332545B (zh) 一种基于低比特脉冲神经网络的图像数据分类方法和装置
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN112801138B (zh) 基于人体拓扑结构对齐的多人姿态估计方法
Jiang et al. Boosting facial expression recognition by a semi-supervised progressive teacher
CN111126464A (zh) 一种基于无监督域对抗领域适应的图像分类方法
Hu et al. A spatio-temporal integrated model based on local and global features for video expression recognition
Tong et al. A deep discriminative and robust nonnegative matrix factorization network method with soft label constraint
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Li et al. L-DETR: A light-weight detector for end-to-end object detection with transformers
CN114926742B (zh) 一种基于二阶注意力机制的回环检测及优化方法
Ke et al. A multivariate grey incidence model for different scale data based on spatial pyramid pooling
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
Yuan et al. Auformer: Vision transformers are parameter-efficient facial action unit detectors
KR20210040604A (ko) 행위 인식 방법 및 장치
Gao et al. Dimensionality reduction of SPD data based on Riemannian manifold tangent spaces and local affinity
Li et al. Action recognition with spatio-temporal augmented descriptor and fusion method
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
Qiao et al. Two-Stream Convolutional Neural Network for Video Action Recognition.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130