CN116071636B - 商品图像检索方法 - Google Patents

商品图像检索方法 Download PDF

Info

Publication number
CN116071636B
CN116071636B CN202310328191.3A CN202310328191A CN116071636B CN 116071636 B CN116071636 B CN 116071636B CN 202310328191 A CN202310328191 A CN 202310328191A CN 116071636 B CN116071636 B CN 116071636B
Authority
CN
China
Prior art keywords
commodity
network
image
branch
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310328191.3A
Other languages
English (en)
Other versions
CN116071636A (zh
Inventor
吴晓富
行阳阳
张索非
李春香
杨孟渭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310328191.3A priority Critical patent/CN116071636B/zh
Publication of CN116071636A publication Critical patent/CN116071636A/zh
Application granted granted Critical
Publication of CN116071636B publication Critical patent/CN116071636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种商品图像检索方法,包括建立商品样本图像识别模型,根据带有多语义尺度标签信息的商品样本图像,训练深度卷积神经网络;将经过标注的商品样本图像经过数据增强操作后,输入深度卷积神经网络的卷积层进行特征提取;指定深度卷积神经网络作为主干网络,复制深度卷积神经网络并形成两个分支网络;将特征向量经过Softmax层输出得到商品类别采样概率,并计算损失函数值;循环步骤直到达到深度卷积神经网络训练所预先设置的条件。相较于现有技术,本发明能够提高商品识检索系统的性能。

Description

商品图像检索方法
技术领域
本发明涉及一种商品图像检索方法,属于商品样本图像检索技术领域。
背景技术
商品检索是一种典型的大规模度量学习任务,因为商品零售平台需要定期导入新的商品类型,现有商品的外观也会不时发生变化。
传统的图像分类模型在这些场景中由于没有识别未知类别的能力导致性能不理想。
有鉴于此,确有必要提出一种商品图像检索方法,以解决上述问题。
发明内容
本发明的目的在于提供一种商品图像检索方法,能够提高商品识检索系统的性能。
为实现上述目的,本发明提供了一种商品图像检索方法,主要包括以下步骤:
步骤S1、建立商品样本图像识别模型,根据带有多语义尺度标签信息的商品样本图像,训练深度卷积神经网络;
步骤S2、将经过标注的商品样本图像经过数据增强操作后,输入深度卷积神经网络的卷积层进行特征提取,获取商品样本图像在细粒度级别的深层特征;
步骤S3、指定深度卷积神经网络作为主干网络,复制深度卷积神经网络并形成两个分支网络,设置协同注意力模块连接两个分支网络并形成第三分支,协同注意力模块的输出经过全局池化操作之后作为商品样本图像识别模型最终输出的特征向量;
步骤S4、将特征向量经过Softmax层输出得到商品类别采样概率,并计算损失函数值,以损失函数最小化为优化目标通过梯度反向传播算法更新模型的参数值;
步骤S5、循环步骤S2-S4直到达到深度卷积神经网络训练所预先设置的条件。
作为本发明的进一步改进,步骤S1中,所述深度卷积神经网络包括残差网络,所述残差网络由若干个卷积层或池化层组成的子网络模块构成,包括Stage-0,Stage-1,…,Stage-4。
作为本发明的进一步改进,步骤S2中,所述数据增强操作包括图像随机擦除、图像随机旋转和图像随机裁剪。
作为本发明的进一步改进,步骤S3中,所述深度卷积神经网络的残差网络被分拆成双分支残差网络,具体分拆过程包括如下步骤:
步骤S31、复制残差网络的主干网络的Stage-4形成双分支网络;
步骤S32、将步骤S31的双分支网络的每一分支分别连接一个全局池化层和一个全连接层;
步骤S33、在步骤S31的双分支网络后并行连接一个协同注意力模块、全局池化层、全连接层形成第三分支,所述第三分支用于输出图像检索所需的特征向量。
作为本发明的进一步改进,所述协同注意力模块包含空间注意力模块和一个通道注意力模块,将提取粗粒度级别的特征
Figure GDA0004227683850000021
和提取的细粒度特征/>
Figure GDA0004227683850000022
输入所述协同注意力模块进行特征融合,先经过空间注意力模块得到一个中间特征Z′,然后再经过通道注意力模块得到最终用于商品图像检索的特征Z,通道注意力模块的具体计算方式为
Z′=attentionp(Xc,Xg)=Vσ(Ap)=Vσ(QTK),
其中,σ(·)表示Softmax函数,查询
Figure GDA0004227683850000023
和键/>
Figure GDA0004227683850000024
是特征Xg分别经过两个核大小为1×1的二维卷积层输出的特征,r为控制空间维数的超参数,值
Figure GDA0004227683850000036
是由特征Xc的前两个维度直接合并得到,Ap=QTK为位置权重矩阵。
作为本发明的进一步改进,根据空间注意力模块产生的中间特征Z'和Xg作为通道注意力模块的输入,具体计算方式为
Figure GDA0004227683850000031
其中,
Figure GDA0004227683850000032
为空间权重矩阵,将Z作为协同注意力模块的最终输出并经过全局池化操作之后作为模型最终输出的特征向量。
作为本发明的进一步改进,步骤S31中,复制残差网络的主干网络Stage-4得到双分支的Stage-4a和Stage-4b,Stage-4a和Stage-4b的初始化权重参数设置为ImageNet预训练模型中Stage-4的权重参数。
作为本发明的进一步改进,步骤S4中,所述损失函数包括三部分,其中,第一部分和第二部分为第一分支Stage-4a和第二分支Stage-4b后连接的全连接层输出的类别信息与商品样本图像的标签信息所得到,第三部分为所述第三分支的协同注意力模块输出的特征经过池化和全连接分类器之后和图像的标签信息所得到。
作为本发明的进一步改进,步骤S4中,所述损失函数为
Figure GDA0004227683850000033
其中,i为商品样本图像的索引值,fi c、fi g分别为商品样本图像经过特征提取网络在Stage4-a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量,fi x为所述第三分支的协同注意力模块输出特征进行全局池化操作之后得到的特征向量,Lce(.)为交叉熵损失函数,σ(·)为Softmax函数,kc、kg和kx分别为三部分损失函数的权重参数,Wg、Wc和Wx分别为对应特征后接全连接层的权重参数,
Figure GDA0004227683850000034
和/>
Figure GDA0004227683850000035
分别是第i个样本的粗粒度和细粒度类别标签。
作为本发明的进一步改进,所述商品图像检索方法还包括测试步骤,主要包括以下步骤:
步骤A1、获取查询图像和所有待查询图像;
步骤A2、将查询图像和所有待查询图像经过预先训练的特征提取网络得到查询图像和所有待查询图像的特征向量;
步骤A3、将查询图像经过模型的特征向量与所有待查询图像经过模型的输出特征向量进行相似度的计算;
步骤A4、根据步骤A3得到的相似度对所有待查询图像进行排序,最后得到若干待查询图像。
本发明的有益效果是:本发明能够提高商品识检索系统的性能。
附图说明
图1为本发明商品图像检索方法的训练实施流程图。
图2为本发明商品图像检索方法的测试实施流程图。
图3为本发明商品图像检索方法的卷积神经网络的模型结构示意图。
图4为本发明商品图像检索方法中协同注意力模型的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
如图1至图4所示,本发明揭示了一种商品图像检索方法,主要包括以下步骤:
步骤S1、建立商品样本图像识别模型,根据带有多语义尺度标签信息的商品样本图像,训练深度卷积神经网络;
步骤S2、将经过标注的商品样本图像经过数据增强操作后,输入深度卷积神经网络的卷积层进行特征提取,获取商品样本图像在细粒度级别的深层特征;
步骤S3、指定深度卷积神经网络作为主干网络,复制深度卷积神经网络并形成两个分支网络,加载公开数据集分类任务预训练网络模型作为网络的初始参数,设置协同注意力模块连接两个分支网络并形成第三分支,协同注意力模块的输出经过全局池化操作之后作为商品样本图像识别模型最终输出的特征向量;
步骤S4、将特征向量经过Softmax层输出得到商品类别采样概率,并计算损失函数值,以损失函数最小化为优化目标通过梯度反向传播算法更新模型的参数值;
步骤S5、循环步骤S2-S4直到达到深度卷积神经网络训练所预先设置的条件。
以下将对步骤S1-S5进行详细说明。
步骤S1中,所述深度卷积神经网络包括残差网络,所述残差网络由若干个卷积层或池化层组成的子网络模块(称为Stage)构成,分别是Stage-0,Stage-1,…,Stage-4,除Stage-0之外的每个Stage都包括若干由卷积层、池化层构成的瓶颈结构。
步骤S2中,所述数据增强操作包括图像随机擦除、图像随机旋转和图像随机裁剪。
步骤S3所述的深度卷积神经网络残差网络被分拆成双分支残差网络,具体分拆包括如下步骤:
步骤S31、复制残差网络的主干网络的Stage-4形成双分支网络。
步骤S32、从步骤S1得到的双分支网络的每一分支分别连接一个全局池化层和一个全连接层。
步骤S33、在步骤S1得到的双分支网络后并行连接一个协同注意力模块、全局池化层、全连接层形成第三分支,该第三分支用于输出图像检索所需的特征向量。
步骤S3中,复制残差网络的主干网络Stage-4得到双分支的Stage-4a和Stage-4b,其初始化权重参数设置为ImageNet预训练模型中Stage-4的权重参数。
步骤S3所述的特征提取模型其主干网在训练之前载入ImageNet数据集分类任务预训练模型。
步骤S4所述计算的损失函数的包括三部分。前两部分为第一分支Stage-4a和第二分支Stage-4b后连接的全连接层输出的类别信息与商品样本图像的标签信息所得到,第三部分为第三分支协同注意力模块输出的特征经过池化和全连接分类器之后和图像的标签信息所得到。
步骤S4、整个网络总的损失函数由三部分组成,计算公式分别为:
Figure GDA0004227683850000061
其中,i为商品样本图像的索引值,fi c、fi g分别为商品样本图像经过特征提取网络在Stage4-a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量,fi x为第三分支协同注意力模块输出特征进行全局池化操作之后得到的特征向量,Lce(·)为交叉熵损失函数,σ(·)为Softmax函数,kc、kg和kx分别为三部分损失函数的权重参数,Wg、Wc和Wx分别为对应特征后全连接层的权重参数,
Figure GDA0004227683850000062
和/>
Figure GDA0004227683850000063
分别是第i个样本的粗粒度和细粒度类别标签。
该方法的模型训练测试包括:获取需要查询的商品样本图像,并输入所述训练完成的商品样本图像识别模型,然后该模型输出查询图像的特征向量与所有待查询图像经过网络得到的特征向量计算特征之间的余弦距离然后根据特征距离大小进行排序并返回和查询商品相似度最高的若干商品样本图像。
下面结合附图,对本发明的一些实施方式作详细说明。
参阅图1,图1所示为本发明方法训练实施流程图,其包括构建模型和实施训练两部分。
构建模型在本实施例中操作如下:主干网采用图3所示的深度神经网络残差网络50,残差网络50作为经典的深度神经网络以其优良的性能已广泛运用于各种特征提取的场景中,残差网络50由5个Stage组成,分别是Stage-0,Stage-1,…,Stage-4,除Stage-0之外的每个Stage都包括若干由卷积层、池化层构成的瓶颈结构。整个残差网络50共包含16个由残差块构成的瓶颈结构组成。复制残差网络的主干网络50的Stage-4形成双分支网络。网络的其中一个分支中获得粗粒度的轮廓特征可用于粗粒度级别的商品样本图像分类,将提取粗粒度级别的轮廓特征
Figure GDA0004227683850000076
和网络另外一个分支提取的细粒度特征/>
Figure GDA0004227683850000077
输入协同注意力模块进行特征融合得到最终用于商品样本图像检索的特征Z。
如图4所示,协同注意力模块包含空间注意力模块一个通道注意力模块,由Xg和Xc经过协同注意力模块得到
Figure GDA0004227683850000078
的具体过程如下:
首先将Xc和Xg经过空间注意力模块,得到一个中间特征
Figure GDA0004227683850000079
具体计算方式为
Z′=attention p(Xc,Xg)=Vσ(Ap)=Vσ(QTK)
其中σ(·)表示softmax函数,查询
Figure GDA0004227683850000071
和键/>
Figure GDA0004227683850000072
是特征Xg分别经过两个核大小为1×1的二维卷积层输出的特征,超参数r设置为8,值/>
Figure GDA0004227683850000073
是由特征Xc的前两个维度直接合并得到,Ap=QTK为位置权重矩阵。然后根据空间注意力模块产生的中间特征Z'和Xg作为通道注意力模块的输入,具体计算方式为:
Figure GDA0004227683850000074
其中,
Figure GDA0004227683850000075
为空间权重矩阵,Z为协同注意力模块的最终输出并经过全局池化操作之后作为模型最终输出的特征向量。
实施训练在实例中包括:根据带有多语义尺度标签信息的商品样本图像,训练深度卷积神经网络,得到一个对商品类别有较好区分能力的图像识别模型。将经过标注的所述商品样本图像先经过一定的数据增强操作,包括图像随机擦除、图像随机旋转和图像随机裁剪。然后以每批次给定数量及类别的样本作为一批次输入所述的深度卷积神经网络的卷积层进行特征提取,获取商品样本图像的深层特征;根据所述商品样本图像识别模型提取到的特征向量再经过Softmax层输出得到商品类别采样概率并计算交叉熵损失函数值,以损失函数最小化为优化目标采用Adam优化器通过梯度反向传播算法更新模型的参数值。具体地,学习率初始设定为0.00035,批次大小为256,动量为0.9,衰减因子为0.1,迭代次数设为50轮,循环进行所述的计算损失函数和梯度反向传播直到达到神经网络训练所预先设置的条件,停止网络训练。训练好的神经网络模型即可用于图像检索;
整个网络总的损失函数由三部分组成,计算公式分别为:
Figure GDA0004227683850000081
其中,i为商品样本图像的索引值。fi c、fi g分别为商品样本图像经过特征提取网络在Stage-4a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量。fi x为协同注意力模块输出特征进行全局池化操作之后得到的特征向量。Lce(·)为交叉熵损失函数,σ(·)为Softmax函数。kc、kg和kx分别为三部分损失函数的权重参数,Wg、Wc和Wx分别为对应特征后全连接层的权重参数,yi g和yi c分别是第i个样本的粗粒度和细粒度类别标签。
参阅图2,图2所示为本发明方法测试实施流程图,其包括以下步骤:
步骤A1、获取查询图像和所有待查询图像;
步骤A2、将查询图像和所有待查询图像经过预先训练的特征提取网络得到查询图像和所有待查询图像的特征向量;
步骤A3、将查询图像经过模型的特征向量与所有待查询图像经过模型的输出特征向量进行相似度的计算;
步骤A4、根据步骤A3得到的相似度对所有待查询图像进行排序,最后得到模型匹配度最高的若干待查询图像。
最后在目前已经公布的大规模商品数据集验证了本发明方法的有效性。
综上所述,本发明通过复制残差网络中的Stage-4使得网络具有对不同粒度级别特征的区分能力,减小不同粒度级别在同一特征空间中的相互干扰。本发明通过使用商品样本图像的多个粒度级别下的标签进行训练,使得网络充分挖掘商品样本图像标签之间的层级关系,并最终有益于细粒度级别的商品检索。本发明引入了第三分支协同注意力模块,对Stage-4a和Stage-4b输出的特征进行特征融合。使得网络提升了对图像重要特征挖掘的能力,从而提高网络模型的检索精度。与传统的度量学习相比,本发明使用商品样本图像多语义尺度的标签信息训练网络显著提高了商品识检索系统的性能。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种商品图像检索方法,其特征在于,主要包括以下步骤:
步骤S1、建立商品样本图像识别模型,根据带有多语义尺度标签信息的商品样本图像,训练深度卷积神经网络;步骤S1中,所述深度卷积神经网络包括残差网络,所述残差网络由若干个卷积层或池化层组成的子网络模块构成,包括Stage-0,Stage-1,…,Stage-4;
步骤S2、将经过标注的商品样本图像经过数据增强操作后,输入深度卷积神经网络的卷积层进行特征提取,获取商品样本图像在细粒度级别的深层特征;
步骤S3、指定深度卷积神经网络作为主干网络,复制深度卷积神经网络并形成两个分支网络,设置协同注意力模块连接两个分支网络并形成第三分支,协同注意力模块的输出经过全局池化操作之后作为商品样本图像识别模型最终输出的特征向量;步骤S3中,所述深度卷积神经网络的残差网络被分拆成双分支残差网络,具体分拆过程包括如下步骤:
步骤S31、复制残差网络的主干网络的Stage-4形成双分支网络;
步骤S32、将步骤S31的双分支网络的每一分支分别连接一个全局池化层和一个全连接层;
步骤S33、在步骤S31的双分支网络后并行连接一个协同注意力模块、全局池化层、全连接层形成第三分支,所述第三分支用于输出图像检索所需的特征向量;
所述协同注意力模块包含空间注意力模块和一个通道注意力模块,将提取粗粒度级别特征和提取的细粒度特征输入所述协同注意力模块进行特征融合,先经过空间注意力模块得到一个中间特征,然后经过通道注意力模块得到最终用于商品图像检索的特征;
步骤S4、将特征向量经过Softmax层输出得到商品类别采样概率,并计算损失函数值,以损失函数最小化为优化目标通过梯度反向传播算法更新模型的参数值;步骤S4中,所述损失函数包括三部分,其中,第一部分和第二部分为第一分支Stage-4a和第二分支Stage-4b后连接的全连接层输出的类别信息与商品样本图像的标签信息所得到,第三部分为所述第三分支的协同注意力模块输出的特征经过池化和全连接分类器之后和图像的标签信息所得到;
步骤S5、循环步骤S2-S4直到达到深度卷积神经网络训练所预先设置的条件。
2.根据权利要求1所述的商品图像检索方法,其特征在于:步骤S2中,所述数据增强操作包括图像随机擦除、图像随机旋转和图像随机裁剪。
3.根据权利要求1所述的商品图像检索方法,其特征在于:所述粗粒度级别特征为
Figure FDA0004227683830000021
细粒度特征为/>
Figure FDA0004227683830000022
所述中间特征为Z′,最终用于商品图像检索的特征为Z,经过空间注意力模块的具体计算方式为
Z′=attentionp(Xc,Xg)=Vσ(QTK)=Vσ(Ap),
其中,σ(·)表示Softmax函数,查询
Figure FDA0004227683830000023
和键/>
Figure FDA0004227683830000024
是特征Xg分别经过两个核大小为1×1的二维卷积层输出的特征,r为控制空间维数的超参数,值
Figure FDA0004227683830000025
是由特征Xc的前两个维度直接合并得到,Ap=QTK为位置权重矩阵。
4.根据权利要求3所述的商品图像检索方法,其特征在于:根据空间注意力模块产生的中间特征Z'和特征Xg后两维合并得到的特征作为通道注意力模块的输入,具体计算方式为
Figure FDA0004227683830000026
其中,
Figure FDA0004227683830000027
为空间权重矩阵,将Z作为协同注意力模块的最终输出并经过全局池化操作之后作为模型最终输出的特征向量。
5.根据权利要求1所述的商品图像检索方法,其特征在于:步骤S31中,复制残差网络的主干网络Stage-4得到双分支的Stage-4a和Stage-4b,Stage-4a和Stage-4b的初始化权重参数设置为ImageNet预训练模型中Stage-4的权重参数。
6.根据权利要求1所述的商品图像检索方法,其特征在于:步骤S4中,所述损失函数为
Figure FDA0004227683830000031
其中,i为商品样本图像的索引值,fi c、fi g分别为商品样本图像经过特征提取网络在Stage4-a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量,fi x为所述第三分支的协同注意力模块输出特征进行全局池化操作之后得到的特征向量,Lce(·)为交叉熵损失函数,σ(·)为Softmax函数,
Figure FDA0004227683830000033
和/>
Figure FDA0004227683830000032
分别是第i个样本的粗粒度和细粒度类别标签,Wg、Wc和Wx分别为对应特征后接全连接层的权重参数,kc、kg和kx分别为三部分损失函数的权重参数。
7.根据权利要求1所述的商品图像检索方法,其特征在于,所述商品图像检索方法还包括测试步骤,主要包括以下步骤:
步骤A1、获取查询图像和所有待查询图像;
步骤A2、将查询图像和所有待查询图像经过预先训练的特征提取网络得到查询图像和所有待查询图像的特征向量;
步骤A3、将查询图像经过模型的特征向量与所有待查询图像经过模型的输出特征向量进行相似度的计算;
步骤A4、根据步骤A3得到的相似度对所有待查询图像进行排序,最后得到若干待查询图像。
CN202310328191.3A 2023-03-30 2023-03-30 商品图像检索方法 Active CN116071636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310328191.3A CN116071636B (zh) 2023-03-30 2023-03-30 商品图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310328191.3A CN116071636B (zh) 2023-03-30 2023-03-30 商品图像检索方法

Publications (2)

Publication Number Publication Date
CN116071636A CN116071636A (zh) 2023-05-05
CN116071636B true CN116071636B (zh) 2023-07-07

Family

ID=86171747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310328191.3A Active CN116071636B (zh) 2023-03-30 2023-03-30 商品图像检索方法

Country Status (1)

Country Link
CN (1) CN116071636B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914107A (zh) * 2020-07-29 2020-11-10 厦门大学 一种基于多通道注意力区域扩展的实例检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991511A (zh) * 2019-11-26 2020-04-10 中原工学院 一种基于深度卷积神经网络的向日葵作物种子分拣方法
CN113191378A (zh) * 2020-01-14 2021-07-30 阿里巴巴集团控股有限公司 图像搜索的预测方法、装置和系统
CN114821238B (zh) * 2022-05-10 2022-09-13 山东建筑大学 基于全局细节补充的卷积神经网络的图像识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914107A (zh) * 2020-07-29 2020-11-10 厦门大学 一种基于多通道注意力区域扩展的实例检索方法

Also Published As

Publication number Publication date
CN116071636A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN106295796B (zh) 基于深度学习的实体链接方法
JP7360497B2 (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
US20210158164A1 (en) Finding k extreme values in constant processing time
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
CN107545276A (zh) 联合低秩表示和稀疏回归的多视角学习方法
CN107590505A (zh) 联合低秩表示和稀疏回归的学习方法
An et al. Hypergraph propagation and community selection for objects retrieval
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN109886315A (zh) 一种基于核保持的图像相似性度量方法
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
CN114556364A (zh) 基于相似度运算符排序的神经架构搜索
CN116071636B (zh) 商品图像检索方法
CN116662566A (zh) 一种基于对比学习机制的异质信息网络链路预测方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN110647630A (zh) 检测同款商品的方法及装置
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN114140826B (zh) 一种基于相机特征分离的目标重识别方法
CN114067385B (zh) 基于度量学习的跨模态人脸检索哈希方法
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN116543237B (zh) 无源域无监督域适应的图像分类方法、系统、设备及介质
CN111414556B (zh) 一种基于知识图谱的服务发现方法
Cho et al. Rank-based voting with inclusion relationship for accurate image search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant