CN107291945B - 基于视觉注意力模型的高精度服装图像检索方法及系统 - Google Patents

基于视觉注意力模型的高精度服装图像检索方法及系统 Download PDF

Info

Publication number
CN107291945B
CN107291945B CN201710567746.4A CN201710567746A CN107291945B CN 107291945 B CN107291945 B CN 107291945B CN 201710567746 A CN201710567746 A CN 201710567746A CN 107291945 B CN107291945 B CN 107291945B
Authority
CN
China
Prior art keywords
attention
map
feature map
feature
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710567746.4A
Other languages
English (en)
Other versions
CN107291945A (zh
Inventor
张娅
王仲豪
顾宇俊
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Media Intelligence Technology Co., Ltd.
Original Assignee
Shanghai Media Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Media Intelligence Technology Co Ltd filed Critical Shanghai Media Intelligence Technology Co Ltd
Priority to CN201710567746.4A priority Critical patent/CN107291945B/zh
Publication of CN107291945A publication Critical patent/CN107291945A/zh
Application granted granted Critical
Publication of CN107291945B publication Critical patent/CN107291945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种基于视觉注意力模型的高精度服装图像检索方法及系统,所述方法包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取注意力图;注意力结合步骤:对输入的特征图和注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的特征图和注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤。所述系统包括与所述各步骤相对应的模块。本发明能够对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。

Description

基于视觉注意力模型的高精度服装图像检索方法及系统
技术领域
本发明涉及一种计算机视觉和图像处理领域的方法和系统,具体地,涉及一种基于视觉注意力模型的高精度服装图像检索方法及系统。
背景技术
近年来,随着电子商务的发展,服装检索技术由于其对网上购物的帮助而飞速发展。现存的较为成熟的技术一般都是基于关键词的服装检索,由于关键词无法完全地描述商品,在很多情况下消费者没有办法只通过关键词来准确地检索出其所需的商品。为了解决这样的问题,为消费者提供更准确的检索服务,基于图像的服装检索技术被提出和广泛研究。但是由于服装种类过多以及服装图像本身一般经常带有过多背景等无用信息,服装图像检索一直是一个具有挑战性的问题。
随着深度神经网络在图像处理领域逐渐发展,很多服装图像检索技术都开始采用深度神经网络检索图像,并取得了不错的效果。它们一般都是直接将整幅图像输入到深度神经网络中,映射成为特征向量,再通过特征向量之间的距离计算图像之间的相似度,从而完成检索工作。
上述这些工作大部分都是直接整幅图像直接输入到神经网络,而一般的服装图像中都会带有干扰,如背景,遮挡等,这些都会对神经网络产生影响。也有一些工作使用人为设定的一些关键点对图像进行特征增强,但是这种方式会受到数据集的制约,如果没有大量的带有关键点信息的数据集,就无法准确提取出关键点位置,甚至可能导致负面效果。除此之外,人为设定的关键信息不一定是适合神经网络算法进行检索的。
经检索,公开号为CN106250423A的中国发明专利,公开一种基于部分参数共享的深度卷积神经网络跨域服装检索方法。该方法利用了深度神经网络模型中越高层的网络层的特征越具有语义信息,与训练数据所在域的关系越密切,越低层的网络层的特征越具有一般性,越与训练数据所在域无关,依此让传统的深度卷积神经网络跨域服装检索模型中的低层的网络层参数共享,而高层的网络层参数由各个域保有。
但上述专利未对服装图像中的干扰进行主动地处理,如根据关键点信息或注意力模型对图像进行特征增强等,未能提升传统服装检索方法的效果。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于视觉注意力模型的高精度服装图像检索方法及系统,使用注意力图提取模块对输入服装图像提取注意力图,并利用注意力图对深度神经网络提取的特征进行增强,从而得到高精度的图像检索结果。
根据本发明的第一目的,提供一种基于视觉注意力模型的高精度服装图像检索方法,包括:
特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;
特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
本发明所述的基于视觉注意力模型的高精度图像检索方法,是能够进行端到端训练的。
优选地,所述注意力图提取步骤,运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
优选地,所述注意力结合模块,在对模型进行训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
优选地,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
根据本发明的第二目的,提供一种基于视觉注意力模型的高精度服装图像检索系统,包括:
特征图提取模块:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取模块:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合,得到注意力特征图;
特征向量映射模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索模块:根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
优选地,所述注意力图提取模块,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
优选地,所述注意力结合模块,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
优选地,所述特征向量映射模块,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
与现有技术相比,本发明具有如下的有益效果:
本发明对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。
进一步的,本发明中注意力图提取模块能够对输入图像提取注意力图,注意力图会显示输入图像各个部分的重要程度,在注意力图的影响下,输入图像的干扰信息就会被削弱,神经网络能够提取更纯粹的特征向量,从而大大提升图像检索的准确度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中方法流程图;
图2为本发明一实施例中方法具体流程图;
图3为本发明一实施例中注意力结合模块结构图;
图4为本发明一实施例中图像检索结果页面示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,为本发明一种基于视觉注意力模型的高精度服装图像检索方法实施例的流程图,该方法将输入图像处理成为特征图与注意力图,并使用注意力结合步骤将注意力图与特征图结合成为注意力特征图,分别将特征图和注意力特征图映射成为全局特征和注意力特征,最后利用特征之间的距离计算相似度,找到最相似图片完成检索任务。
具体的,参照图1,所述方法包括如下步骤:
特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;
特征向量映射步骤:对输入的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
对应于上述方法,本发明还提供一种基于视觉注意力模型的高精度服装图像检索系统的实施例,包括:
特征图提取模块:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取模块:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合,得到注意力特征图;
特征向量映射模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索模块:根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
上述基于视觉注意力模型的高精度服装图像检索系统各个模块实现的技术特征可以与上述基于视觉注意力模型的高精度服装图像检索方法中对应步骤实现的技术特征相同。
以下对各个步骤和模块的具体实现进行详细的描述,以便理解本发明技术方案。
在本发明部分实施例中,所述注意力图提取步骤,运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
在本发明部分实施例中,所述注意力结合步骤,在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。
在本发明部分实施例中,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
具体的,由特征图提取模块、注意力图提取模块、注意力结合模块、特征向量映射模块组成的特征向量提取网络框架如图2所示,整个网络框架能够端到端地进行训练。
在如图2所示的网络框架中,每张图像都会被同时输送进特征图提取模块和注意力图提取模块:特征图提取模块对输入图像提取低层次的特征,产生特征图;注意力图提取模块对图像每部分的重要程度进行预测,产生注意力图。特征图提取模块产生的特征图被输送到特征向量映射的全局分支以及注意力结合模块。注意力结合模块能够将特征图与注意力图结合,削弱不重要区域的响应,生成注意力特征图。特征图、注意力图和注意力特征图拥有同样的宽度和高度,特征图和注意力特征图还有同样的通道数量。全局分支和注意力分支的深度神经网络拥有同样的结构和参数,用来提升系统的稳定性,它们输出的全局特征向量和注意力特征向量被拼接在一起,当作输入图像的特征向量输出。
在图2所示的网络框架中,图中的视觉注意力模型是为了提取输入图像的注意力图,用来抑制输入图像中的不重要“干扰”部分的响应,注意力图中的值在0到1之间,越重要的区域注意力值越高。在服装图像检索任务中,视觉注意力模型能够在背景和干扰中区分服装区域,并在输出的注意力图中在数值上体现出来。视觉注意力模型是通过注意力图提取步骤或注意力图提取模块实现的。
在一实施例中,本发明的注意力结合模块结构图如图3所示,其具体实施方式是:在注意力图中的每个点都会被视作特征图中对应区域重要的概率,注意力结合模块就利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图。具体流程如图3所示,首先注意力结合模块利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij
P(bij(c)=k)=pij k(1-pij)1-k,k=0or1,c=1…channel
其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率。上标k为指数函数的指数。
在系统训练阶段,正向传播过程中,注意力结合模块对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:
yij=xij·bij
其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量。
在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度
Figure BDA0001348817850000061
与损失函数关于注意力图的回传梯度
Figure BDA0001348817850000062
损失函数关于特征图的回传梯度
Figure BDA0001348817850000063
的计算公式如下:
Figure BDA0001348817850000071
其中Loss是损失函数,
Figure BDA0001348817850000072
是损失函数关于特征图在ij位置上的回传梯度,
Figure BDA0001348817850000073
是损失函数关于注意力特征图在ij位置上的回传梯度。
损失函数关于注意力图的回传梯度
Figure BDA0001348817850000074
的计算公式如下:
Figure BDA0001348817850000075
其中
Figure BDA0001348817850000076
是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,
Figure BDA0001348817850000077
是损失函数关于注意力特征图在ij位置c通道上的回传梯度。
在系统测试阶段,注意力结合模块中的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:
yij=pijxij
本发明部分实施例的图像检索结果页面示意图如图4所示,使用者上传一张带有服装的图片,系统就能够自动地检索出与输入图像中服装种类相同的商品,并依照相似度从高到低的顺序展示出来,得到高精度的图像检索结果。
综上,本发明能够对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。在注意力图的影响下,输入图像的干扰信息就会被削弱,神经网络能够提取更纯粹的特征向量,从而大大提升图像检索的准确度。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (6)

1.一种基于视觉注意力模型的高精度服装图像检索方法,其特征在于包括:
特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;
特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像;
所述注意力结合步骤,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图;
所述注意力结合步骤,其具体如下:在注意力图中的每个点都被视作特征图中对应区域重要的概率,利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图;
首先利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij
P(bij(c)=k)=pij k(1-pij)1-k,k=0 or 1,c=1...channel
其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率,上标k为指数函数的指数;
在系统训练阶段,正向传播过程中,对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:
yij=xij·bij
其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量;
在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度
Figure FDA0002363935840000023
与损失函数关于注意力图的回传梯度
Figure FDA0002363935840000025
损失函数关于特征图的回传梯度
Figure FDA0002363935840000024
的计算公式如下:
Figure FDA0002363935840000021
其中Loss是损失函数,
Figure FDA0002363935840000026
是损失函数关于特征图在ij位置上的回传梯度,
Figure FDA00023639358400000210
是损失函数关于注意力特征图在ij位置上的回传梯度;
损失函数关于注意力图的回传梯度
Figure FDA0002363935840000027
的计算公式如下:
Figure FDA0002363935840000022
其中
Figure FDA0002363935840000028
是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,
Figure FDA0002363935840000029
是损失函数关于注意力特征图在ij位置c通道上的回传梯度;
在系统测试阶段,注意力结合的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:
yij=pijxij
2.根据权利要求1所述的基于视觉注意力模型的高精度服装图像检索方法,其特征在于,所述注意力图提取步骤,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该注意力图对应的区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。
3.根据权利要求1-2任一项所述的基于视觉注意力模型的高精度服装图像检索方法,其特征在于,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
4.一种基于视觉注意力模型的高精度服装图像检索系统,其特征在于包括:
特征图提取模块:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;
注意力图提取模块:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;
注意力结合模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合,得到注意力特征图;
特征向量映射模块:对输入的所述特征图提取模块得到的特征图和所述注意力结合模块得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;
相似图像检索模块:根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像;
所述注意力结合模块,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图;
所述注意力结合模块,其实现如下功能:在注意力图中的每个点都被视作特征图中对应区域重要的概率,所述注意力结合模块利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图;
首先所述注意力结合模块利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij
P(bij(c)=k)=pij k(1-pij)1-k,k=0 or 1,c=1...channel
其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率,上标k为指数函数的指数;
在系统训练阶段,正向传播过程中,所述注意力结合模块对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:
yij=xij·bij
其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量;
在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度
Figure FDA0002363935840000031
与损失函数关于注意力图的回传梯度
Figure FDA0002363935840000033
损失函数关于特征图的回传梯度
Figure FDA0002363935840000032
的计算公式如下:
Figure FDA0002363935840000041
其中Loss是损失函数,
Figure FDA0002363935840000045
是损失函数关于特征图在ij位置上的回传梯度,
Figure FDA0002363935840000047
是损失函数关于注意力特征图在ij位置上的回传梯度;
损失函数关于注意力图的回传梯度
Figure FDA0002363935840000046
的计算公式如下:
Figure FDA0002363935840000042
其中
Figure FDA0002363935840000043
是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,
Figure FDA0002363935840000044
是损失函数关于注意力特征图在ij位置c通道上的回传梯度;
在系统测试阶段,注意力结合中的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:
yij=pijxij
5.根据权利要求4所述的基于视觉注意力模型的高精度服装图像检索系统,其特征在于,所述注意力图提取模块,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该注意力图对应的区域在原图像中是衣服的可能性,该模块能够在整个系统进行端到端训练的过程中被继续学习优化。
6.根据权利要求4-5任一项所述的基于视觉注意力模型的高精度服装图像检索系统,其特征在于,所述特征向量映射模块,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。
CN201710567746.4A 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及系统 Active CN107291945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710567746.4A CN107291945B (zh) 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710567746.4A CN107291945B (zh) 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及系统

Publications (2)

Publication Number Publication Date
CN107291945A CN107291945A (zh) 2017-10-24
CN107291945B true CN107291945B (zh) 2020-03-31

Family

ID=60100683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710567746.4A Active CN107291945B (zh) 2017-07-12 2017-07-12 基于视觉注意力模型的高精度服装图像检索方法及系统

Country Status (1)

Country Link
CN (1) CN107291945B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018232378A1 (en) 2017-06-16 2018-12-20 Markable, Inc. Image processing system
CN108243129B (zh) * 2017-12-15 2019-12-24 西安电子科技大学 基于注意力深度网络的无线电信号特征提取方法
CN108021916B (zh) * 2017-12-31 2018-11-06 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN108509949B (zh) * 2018-02-05 2020-05-15 杭州电子科技大学 基于注意力地图的目标检测方法
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN108764041B (zh) * 2018-04-25 2021-09-14 电子科技大学 用于下部遮挡人脸图像的人脸识别方法
CN108960189B (zh) * 2018-07-20 2020-11-24 南京旷云科技有限公司 图像再识别方法、装置及电子设备
CN109145816B (zh) * 2018-08-21 2021-01-26 北京京东尚科信息技术有限公司 商品识别方法和系统
CN109344920B (zh) * 2018-12-14 2021-02-02 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109815919B (zh) * 2019-01-28 2021-04-20 上海七牛信息技术有限公司 一种人群计数方法、网络、系统和电子设备
CN110120266B (zh) * 2019-06-27 2022-09-30 中国科学技术大学 骨骼年龄评估方法
CN110532409B (zh) * 2019-07-30 2022-09-27 西北工业大学 基于异构双线性注意力网络的图像检索方法
CN110211127B (zh) * 2019-08-01 2019-11-26 成都考拉悠然科技有限公司 基于双相关性网络的图像分割方法
CN110393519B (zh) * 2019-08-19 2022-06-24 广州视源电子科技股份有限公司 心电信号的分析方法、装置、存储介质和处理器
CN110704665A (zh) * 2019-08-30 2020-01-17 北京大学 一种基于视觉注意力机制的图像特征表达方法及系统
CN111488872B (zh) * 2020-03-31 2022-10-25 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备和存储介质
CN113538573B (zh) * 2020-04-20 2023-07-25 中移(成都)信息通信科技有限公司 服饰关键点定位方法、装置、电子设备及计算机存储介质
CN111612790B (zh) * 2020-04-29 2023-10-17 杭州电子科技大学 一种基于t型注意力结构的医学图像分割方法
CN113837172A (zh) * 2020-06-08 2021-12-24 同方威视科技江苏有限公司 货物图像局部区域处理方法、装置、设备及存储介质
CN112036511B (zh) * 2020-09-30 2024-04-30 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
CN106250423B (zh) * 2016-07-25 2019-08-06 上海媒智科技有限公司 基于部分参数共享的深度卷积神经网络跨域服装检索方法
CN106355573B (zh) * 2016-08-24 2019-10-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106339695B (zh) * 2016-09-20 2019-11-15 北京小米移动软件有限公司 人脸相似检测方法、装置及终端
CN106909924B (zh) * 2017-02-18 2020-08-28 北京工业大学 一种基于深度显著性的遥感影像快速检索方法
CN106934397B (zh) * 2017-03-13 2020-09-01 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN107291945A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN107291945B (zh) 基于视觉注意力模型的高精度服装图像检索方法及系统
CN109685121B (zh) 图像检索模型的训练方法、图像检索方法、计算机设备
US20210224586A1 (en) Image privacy perception method based on deep learning
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN110309842B (zh) 基于卷积神经网络的物体检测方法及装置
KR20170122836A (ko) 이미지로부터 상가 발견
CN103810299A (zh) 基于多特征融合的图像检索方法
CN107291845A (zh) 一种基于预告片的电影推荐方法及系统
CN103064903A (zh) 图片检索方法和装置
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN111709331A (zh) 一种基于多粒度信息交互模型的行人重识别方法
An et al. Hypergraph propagation and community selection for objects retrieval
CN111932577A (zh) 文本检测方法、电子设备及计算机可读介质
CN112364747A (zh) 一种有限样本下的目标检测方法
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN108717436B (zh) 一种基于显著性检测的商品目标快速检索方法
CN106599926A (zh) 一种表情图片推送方法及系统
CN116188917B (zh) 缺陷数据生成模型训练方法、缺陷数据生成方法及装置
CN113033194A (zh) 语义表示图模型的训练方法、装置、设备和存储介质
WO2024082602A1 (zh) 一种端到端视觉里程计方法及装置
CN107766881B (zh) 一种基于基础分类器的寻路方法、设备及存储设备
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN115984765A (zh) 基于双流分块网络的行人重识别方法、电子设备和介质
CN115239974A (zh) 融合注意力机制的视觉同步定位与地图构建闭环检测方法
CN113032612A (zh) 一种多目标图像检索模型的构建方法及检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20181016

Address after: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant after: Zhang Ya

Applicant after: Wang Yanfeng

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Shanghai Jiao Tong University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181116

Address after: Room 387, Building 333, Hongqiao Road, Xuhui District, Shanghai 200030

Applicant after: Shanghai Media Intelligence Technology Co., Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Zhang Ya

Applicant before: Wang Yanfeng

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant