CN114003758B - 图像检索模型的训练方法和装置以及检索方法和装置 - Google Patents

图像检索模型的训练方法和装置以及检索方法和装置 Download PDF

Info

Publication number
CN114003758B
CN114003758B CN202111636300.5A CN202111636300A CN114003758B CN 114003758 B CN114003758 B CN 114003758B CN 202111636300 A CN202111636300 A CN 202111636300A CN 114003758 B CN114003758 B CN 114003758B
Authority
CN
China
Prior art keywords
image
feature vector
text
retrieved
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111636300.5A
Other languages
English (en)
Other versions
CN114003758A (zh
Inventor
经小川
杜婉茹
刘萱
王潇茵
孙鹏程
李瑞群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Hongkang Intelligent Technology Beijing Co ltd
Original Assignee
Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Hongkang Intelligent Technology Beijing Co ltd filed Critical Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority to CN202111636300.5A priority Critical patent/CN114003758B/zh
Publication of CN114003758A publication Critical patent/CN114003758A/zh
Application granted granted Critical
Publication of CN114003758B publication Critical patent/CN114003758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种图像检索模型的训练方法和装置以及检索方法和装置。所述训练方法包括:获取训练图像和用于描述训练图像的训练文本;基于训练图像通过图像信息特征提取过程获得图像区域特征向量和图像全局特征向量;基于训练文本通过文本信息特征提取过程获得文本分词特征向量和文本全局特征向量;基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度;以相似度最大作为目标,对图像检索模型进行训练。

Description

图像检索模型的训练方法和装置以及检索方法和装置
技术领域
本公开涉及一种图像检索模型的训练方法和使用图像检索模型的检索方法,更具体地,涉及一种基于内容的图像检索模型的训练方法和使用图像检索模型的检索方法。
背景技术
在信息爆炸的时代,图像、视频、文本等不同模态的异构数据量都在以极大的速度增长。面向这些包含丰富信息的海量视觉及文本数据,如何快速并准确的从中检索到用户所需的或感兴趣的数据,成为多模态信息检索领域的研究热点。已经开发处基于文本的图像检索和基于内容的图像检索。
基于文本的图像检索是通过文本标注的方式对图像进行描述,即,为每张图像打上描述其内容的各种标签,用户在检索时提供检索关键字,即可检索出与该关键字相关的标签,从而返回给用户相关标签所对应的图像。
基于内容的图像检索不需要对图像进行标签标注工作,通常使用计算机对图像特征进行描述,建立图像特征矢量并存入图像库,当用户输入图像进行查询时,使用同样的方法提取查询图像的特征向量,与图像库中存储的图像信息进行相似度计算,并按照相似度大小进行排序,向用户输出对应的图像,完成检索。
然而,基于文本的图像检索需要大量的人工参与,且极易受到标注人不同的认知水平、言语表达能力及主观判断力的影响;基于内容的图像检索只能完成输入为图像的检索任务,即对单模态(图像)下的特征检索有效。若用户输入为文本,则图像的特征描述与文本特征描述之间存在着语义鸿沟,导致检索无法顺利完成。
发明内容
本公开提供一种图像检索模型的训练方法和装置以及使用图像检索模型的检索方法和装置。
根据本公开实施例的第一方面,提供了一种图像检索模型的训练方法,其特征在于,训练方法包括:获取训练图像和用于描述训练图像的训练文本;基于训练图像通过图像信息特征提取过程获得图像区域特征向量和图像全局特征向量;基于训练文本通过文本信息特征提取过程获得文本分词特征向量和文本全局特征向量;基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度;以相似度最大作为目标,对图像检索模型进行训练,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
Figure 132881DEST_PATH_IMAGE001
其中,
Figure 544271DEST_PATH_IMAGE002
表示相似度,γ 1 γ 2 分别为图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 864697DEST_PATH_IMAGE003
Figure 285314DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度。
在根据发明构思的示例性实施例中,图像信息特征提取过程可以包括:通过卷积网络组从训练图像中提取图像初始特征图;通过区域候选网络对图像初始特征图进行图像区域划分;将图像区域划分的结果和图像初始特征图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;将图像关键区域特征图送入全连接层以获得图像区域特征向量;并且通过自注意力机制聚合图像区域特征向量以获得图像全局特征向量。
在根据发明构思的示例性实施例中,图像区域特征向量可以表示为
Figure 961146DEST_PATH_IMAGE005
,其中,V为图像区域特征向量,v 1 ,v 2 ,v m 为图像关键区域特征图的特征向量,m为图像关键区域特征图的个数,图像全局特征向量可以表示为
Figure 933650DEST_PATH_IMAGE006
,其中,
Figure 593302DEST_PATH_IMAGE007
为图像全局特征向量,α i 为与特征向量
Figure 552031DEST_PATH_IMAGE008
对应的权重。
在根据发明构思的示例性实施例中,文本信息特征提取过程可以包括:通过分词将训练文本划分为n个单词,其中,n为正整数;使用词嵌入方法将n个单词转化为词向量;通过双向门控循环单元对词向量进行编码以获得文本分词特征向量;并且通过自注意力机制聚合文本分词特征向量以获得文本全局特征向量。
在根据发明构思的示例性实施例中,词向量可以表示为
Figure 472582DEST_PATH_IMAGE009
,其中,W为词向量矩阵,w 1 ,w 2 ,w n 为词向量,d word 表示词向量的维度。所述通过双向门控循环单元对词向量进行编码以获得文本分词特征向量的步骤可以包括:通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的包含上下文关系的词特征向量,并由n个单词的词特征向量组成文本分词特征向量。文本分词特征向量可以表示为,
Figure 225774DEST_PATH_IMAGE010
,其中,T为文本分词特征向量,t 1 ,t 2 ,t n 为词的特征向量,文本全局特征向量表示为,
Figure 372722DEST_PATH_IMAGE011
,其中,
Figure 994196DEST_PATH_IMAGE012
为文本全局特征向量,β i 为与词的特征向量对应的权重。
根据本公开实施例的第二方面,提供了一种使用图像检索模型的检索方法,所述检索方法包括:获取待检索数据,待检索数据包括待检索图像和待检索文本中的至少一种;基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量;基于预先设置的图像数据库中的图像的图像区域特征向量和图像全局特征向量,以及待检索局域特征向量和待检索全局特征向量,通过图像检索模型获得相似度;并且按照相似度由大到小的规则排序生成检索结果的候选队列,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
Figure 910200DEST_PATH_IMAGE013
其中,
Figure 99872DEST_PATH_IMAGE002
表示相似度,γ 1 γ 2 分别为图像区域特征向量、图像全局特征向量、待检索局域特征向量和待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 468537DEST_PATH_IMAGE014
Figure 628123DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度。
在根据发明构思的示例性实施例中,待检索数据是待检索图像,图像信息特征提取过程包括:通过卷积网络组从待检索图像中提取图像初始特征图;通过区域候选网络对图像初始特征图进行图像区域划分;将图像区域划分的结果和图像初始特征图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;将图像关键区域特征图送入全连接层以获得待检索图像区域特征向量作为待检索局域特征向量;并且通过自注意力机制聚合图像区域特征向量以获得待检索图像全局特征向量作为待检索全局特征向量。
在根据发明构思的示例性实施例中,待检索图像区域特征向量可以表示为
Figure 664212DEST_PATH_IMAGE005
,其中,V为待检索图像区域特征向量,v 1 ,v 2 ,v m 为图像关键区域特征图的特征向量,m为图像关键区域特征图的个数,待检索图像全局特征向量可以表示为
Figure 24786DEST_PATH_IMAGE006
,其中,
Figure 5380DEST_PATH_IMAGE015
为待检索图像全局特征向量,α i 为与特征向量
Figure 844023DEST_PATH_IMAGE008
对应的权重。
在根据发明构思的示例性实施例中,待检索数据是待检索文本,文本信息特征提取过程可以包括:通过分词将待检索文本划分为n个单词,其中,n为正整数;使用词嵌入方法将n个单词转化为词向量;通过双向门控循环单元对词向量进行编码以获得待检索文本分词特征向量作为待检索局域特征向量;并且通过自注意力机制聚合文本分词特征向量以获得待检索文本全局特征向量作为待检索全局特征向量。
在根据发明构思的示例性实施例中,词向量可以表示为
Figure 734619DEST_PATH_IMAGE009
,其中,W为词向量矩阵,w 1 ,w 2 ,w n 为词向量,d word 表示词向量的维度。通过双向门控循环单元对词向量进行编码以获得待检索文本分词特征向量的步骤可以包括:通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的包含上下文关系的词特征向量,并由n个单词的词特征向量组成待检索文本分词特征向量。待检索文本分词特征向量可以表示为
Figure 390728DEST_PATH_IMAGE010
,其中,T为待检索文本分词特征向量,t 1 ,t 2 ,t n 为词的特征向量,待检索文本全局特征向量可以表示为
Figure 468406DEST_PATH_IMAGE011
,其中,
Figure 110740DEST_PATH_IMAGE012
为文本全局特征向量,β i 为与词的特征向量对应的权重。
在根据发明构思的示例性实施例中,获得相似度的步骤还可以包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度,并且按照最终相似度由大到小的规则排序生成检索结果的候选队列。
根据本公开实施例的第三方面,提供了一种图像检索模型的训练装置,其特征在于,所述装置包括:数据获取单元,被配置为获取训练图像和用于描述训练图像的训练文本;图像特征提取单元,被配置为基于训练图像通过图像信息特征提取过程获得图像区域特征向量和图像全局特征向量;文本特征提取单元,被配置为基于训练文本通过文本信息特征提取过程获得文本分词特征向量和文本全局特征向量;相似度计算单元,被配置为基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度;训练单元,相似度最大作为目标,对图像检索模型进行训练,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
Figure 980476DEST_PATH_IMAGE013
其中,
Figure 682852DEST_PATH_IMAGE002
表示相似度,γ 1 γ 2 分别为图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 513405DEST_PATH_IMAGE014
Figure 959430DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度。
根据本公开实施例的第四方面,提供了一种使用图像检索模型的检索装置,所述装置包括:输入单元,被配置为获取待检索数据,待检索数据可以是待检索图像和待检索文本中的至少一种;输入数据特征提取单元,被配置为基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量;相似度计算单元,被配置为基于预先设置的图像数据库中的图像的图像区域特征向量和图像全局特征向量,以及待检索局域特征向量和待检索全局特征向量,通过图像检索模型获得相似度;并且排序单元,按照相似度由大到小的规则排序生成检索结果的候选队列,其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
Figure 418093DEST_PATH_IMAGE013
其中,
Figure 291371DEST_PATH_IMAGE002
表示相似度,γ 1 γ 2 分别为图像区域特征向量、图像全局特征向量、待检索局域特征向量和待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 609220DEST_PATH_IMAGE014
Figure 717990DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度。
根据本公开实施例的第五方面,提供一种电子设备,所述电子设备包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上描述的图像检索模型的训练方法和使用图像检索模型的检索方法。
根据本公开实施例的第六方面,提供一种存储指令的计算机可读存储介质,当所述指令被至少一个处理器运行时,促使所述至少一个处理器如上描述的图像检索模型的训练方法和使用图像检索模型的检索方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的一个或多个示例性实施例,通过对图像的区域特征进行提取,并基于区域特征建立图像的全局特征向量,提高检测结果准确度;基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度;以相似度最大作为目标,对图像检索模型进行训练,从而完成双模态(图像、文本)之间的语义关联。因此,能够减少人工标注工作,并且能够忽略掉其他无关信息(例如光线、背景、占比等因素)的影响,而更关注图像真正要表达的内容,因此检索结果相比于传统基于内容的检索技术更具有针对性和准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的图像检索模型的训练方法的流程图;
图2是示出根据本公开的图像检索模型的训练方法的详细流程图;
图3是示出根据本公开的图像区域特征向量的示例;
图4是示出根据本公开的使用图像检索模型的检索方法的流程图;
图5是示出根据本公开的图像检索模型的训练装置的示意图;
图6是示出根据本公开的使用图像检索模型的检索装置的示意图;以及
图7是示出根据本公开的示例性实施例的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
下面,将参照图1至图6来详细描述根据本公开的图像检索模型的训练方法和装置以及使用图像检索模型的检索方法和装置。
图1是示出根据本公开的图像检索模型的训练方法的流程图。
参照图1,本公开的示例性实施例提供了一种图像检索模型的训练方法。
具体而言,图像的检索与模态(Modality)有关。简要地讲,每一种信息的来源或者形式,都可以称为一种模态。在本公开中,图像信息、文本信息均可称为一种模态,双模态指图像和文本信息。
在步骤S110中,获取训练图像和用于描述训练图像的训练文本。通过选取的训练集包括训练图像和用于描述训练图像的训练文本,从而解决传统的基于内容的图像检索算法只能对单一模态进行检索的技术问题。
在步骤S120中,基于训练图像通过图像信息特征提取过程获得图像区域特征向量和由图像区域特征向量生成的图像全局特征向量,稍后将参照图2详细描述具体的图像信息特征提取过程。
在步骤S130中,基于训练文本通过文本信息特征提取过程获得文本分词特征向量和由文本分词特征向量生成的文本全局特征向量,稍后将参照图2详细描述具体的文本信息特征提取过程。
在步骤S140中,基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度。其中,通过图像检索模型获得相似度的步骤可以包括通过如下公式获得的相似度:
Figure 172105DEST_PATH_IMAGE016
其中,
Figure 216285DEST_PATH_IMAGE002
表示相似度,γ 1 γ 2 分别为图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 146064DEST_PATH_IMAGE014
Figure 668312DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度。
在步骤S150中,以相似度最大作为目标,对图像检索模型进行训练。
为了使不同模态间的局部特征向量完成对齐匹配,并且保留两个向量之间的相关性。可以首先在步骤S140中计算向量之间的相似度,然后在步骤S150中,以相似度最大作为目标来调整作为权重矩阵的weights,从而实现图像检索模型的训练,并因此实现双模态特征对齐,完成双模态之间的语义关联。
在示例性实施例中,γ 1 γ 2 可以分别为图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量中的一个特征向量。例如,γ 1 γ 2 可以分别为图像区域特征向量v i 和文本分词特征向量t j ,在这种情况下,v i t j 的相似度计算公式为:
Figure 242513DEST_PATH_IMAGE017
在另一实施例中,γ 1 γ 2 可以分别为图像全局特征向量和文本全局特征向量。在又一实施例中,γ 1 γ 2 可以分别为图像全局特征向量和文本分词特征向量。在又一实施例中,γ 1 γ 2 可以分别为图像区域特征向量和文本全局特征向量。在又一实施例中,γ 1 γ 2 可以分别为图像全局特征向量和图像区域特征向量。
图2是示出根据本公开的图像检索模型的训练方法的详细流程图。图3是示出根据本公开的图像区域特征向量的示例。
图2中示出的步骤S110、步骤S140和步骤S150与参照图1描述的步骤S110、步骤S140和步骤S150基本相同或相似,因此将省略重复的描述。
参照图2示出的步骤S120,图像信息特征提取过程可以参照如下步骤执行。
首先,在步骤S121中,通过卷积网络组(Conv Layers)从训练图像中提取图像初始特征图。在示例实施例中,可以将输入的训练图像传入基于循环卷积神经网络的快速目标检测算法(faster R-CNN)模型检测器进行整幅图像的无差别特征提取。在实施例中,完整图像经过一组由conv+relu+pooling三种基础的运算组合而成的卷积网络组,来提取出图像初始特征图(feature maps)。此处所得图像初始特征图为完整图像通过不同的卷积核计算所得的初始特征信息。
然后,在步骤S123中,通过区域候选网络(Region Proposal Networks,RPN网络)对图像初始特征图进行图像区域划分。在示例实施例中,可以将图像初始特征图通过RPN网络提取与图像内容有关的关键区域。例如,对图像初始特征图进行图像区域划分。在实施例中,图像初始特征图通过RPN网络根据图像特征设置稠密的候选区域框,由分类分支进行判断哪些是有目标的有效区域框,哪些是不含有目标的无效区域框。从而忽略冗余的图像信息,仅挑选与图像内容有关的关键信息保留。另一方面,图像初始特征图也会参与到计算与真实边界框的偏移量的过程中,来获得精确的有效区域的位置信息。最后综合图像区域划分的结果(例如,与图像内容有关的关键区域信息以及与边界框的偏移量)来获取更精确的区域信息。若将该过程定义关键区域的个数为m,每个区域的特征维度定义为d region,则此处输出特征矩阵维度为m×d region
这里所称的关键区域指的是由神经网络挖掘到的能够代表图像真正要表达的内容的前景目标。以图3示出的包括熊猫的图像为例,通过上面描述的步骤S121和步骤S123可以从包括熊猫的原始图片中提取多个用于表征图像关键区域的图像区域特征向量。例如,关键区域可以是由图3中黑色的熊猫(black panda)、白色的头(white head)、黑色的眼睛(black eye)等方框标注的区域。图像区域特征向量可以至少包括关键区域的位置信息(例如,坐标和尺寸)和关键区域内的图像像素。在实施例中,关键区域内的图像像素可以是RGB图像数据,也可以是经由预处理而获得的二进制图像数据。
接下来,在步骤S125中,将图像区域划分的结果和图像初始特征图作为输入,通过感兴趣区域池化网络(RoI Pooling网络)提取图像关键区域特征图。在示例实施例中,RoIPooling网络层将收集图像区域划分的结果和图像初始特征图两项数据作为输入,来综合提取出图像关键区域特征图。
然后,在步骤S127中,将图像关键区域特征图送入全连接层以获得图像区域特征向量。例如,在示例实施例中,将图像关键区域特征图送入全连接层,将区域特征图转化为d维的图像区域特征向量
Figure 582227DEST_PATH_IMAGE018
,其中,V为图像区域特征向量,v 1 , v 2 ,v m 为图像关键区域特征图的特征向量,d表示特征向量的维度,m为图像关键区域特征图的个数。
最后,在步骤S129中,通过自注意力机制聚合图像区域特征向量以获得图像全局特征向量。在示例实施例中,执行自注意力机制的方法可以以不同的关注度权重聚合所有区域特征从而获取全局表示。图像全局特征向量的计算公式为
Figure 874668DEST_PATH_IMAGE006
,其中,
Figure 200607DEST_PATH_IMAGE007
为图像全局特征向量,α i 为与特征向量
Figure 629315DEST_PATH_IMAGE019
对应的权重。
需要说明的是,如果直接从训练图像(或图像初始特征图)中直接提取全局特征向量(例如,通过CNN网络直接从训练图像提取全局特征向量),那么在这种情况下,全局特征向量将不包括能够体现图像关键区域的信息特征,而仅包括各区域无差别的全局特征。根据本公开的示例性实施例,在步骤S129中,通过对图像区域特征向量进行聚合得到图像全局特征向量,从而更加关注图像内容中不同要素之间的关系,即更加关注与图像真正要表达的内容相关的区域信息。
首先,通过与三个权值矩阵(设为
Figure 139930DEST_PATH_IMAGE020
Figure 654088DEST_PATH_IMAGE021
Figure 783718DEST_PATH_IMAGE022
)相乘(权值矩阵由模型训练所得),得三个不同的局部特征集:
Figure 457145DEST_PATH_IMAGE023
Figure 748449DEST_PATH_IMAGE024
Figure 749903DEST_PATH_IMAGE025
其中,
Figure 807858DEST_PATH_IMAGE026
Figure 945578DEST_PATH_IMAGE027
,……,
Figure 673363DEST_PATH_IMAGE028
,……以此类推。
然后,计算区域之间关联关系得分:
Figure 286747DEST_PATH_IMAGE029
其中:
Figure 758179DEST_PATH_IMAGE030
举例来说:
Figure 750406DEST_PATH_IMAGE031
接着,归一化得分,稳定梯度:
Figure 39305DEST_PATH_IMAGE032
其中,
Figure 15351DEST_PATH_IMAGE033
Figure 759316DEST_PATH_IMAGE034
,为第
Figure 996263DEST_PATH_IMAGE035
个区域与其余区域关联关系的归一化得分。
接下来,获取区域关注度权重:
Figure 65850DEST_PATH_IMAGE036
其中,
Figure 388247DEST_PATH_IMAGE037
,为第
Figure 201482DEST_PATH_IMAGE035
区域的关注度权重。
最后,聚合图像区域特征向量以获得图像全局特征向量:
Figure 433880DEST_PATH_IMAGE038
参照图2示出的步骤S130,文本信息特征提取过程可以参照如下步骤执行。
首先,在步骤S131中,通过分词将训练文本划分为n个单词,其中,n为正整数,并且使用词嵌入方法将每个词转化为词向量。在示例性实施例中,可以首先使用词嵌入(Word-Embedding)将n个单词转化
Figure 799003DEST_PATH_IMAGE039
维的词向量
Figure 218483DEST_PATH_IMAGE040
,其中,W为词向量矩阵,w 1 ,w 2 ,w n 为词向量,d word 表示词向量的维度。这里,词嵌入是指将人类自然语言表示的词转化成计算机能够理解的向量或者矩阵形式的一种自然语言处理模型。词向量是指词的向量化表示,即,将自然语言文本转化成计算机模型能够接受的词向量形式。以上关于词嵌入的描述仅为便于理解,将不作为对本公开的限制。
然后,在步骤S133中,通过双向门控循环单元(Bidirection Gated RecurrentUnit,Bi-GRU)对词向量进行编码以获得文本分词特征向量。这里,词特征向量是指将词向量作为输入通过Bi-GRU模型,通过学习句子内部的上下文关系,对词向量进行进一步编码,得到词的特征向量。也就是说,词向量不包含该文本句子里的上下文关系,而词特征向量中包含了上下文关系。
在示例实施例中,通过Bi-GRU模型对d word 维的词向量W进行编码,从而得到每个分词(n个单词中的每个单词)的d维的特征向量t。在这种情况下,可以由每个分词的词特征向量t组成文本分词特征向量,文本分词特征向量可以表示为:
Figure 835409DEST_PATH_IMAGE041
,其中,T为文本分词特征向量,t 1 ,t 2 ,t n 为词的特征向量。
最后,在步骤S135中,通过自注意力机制聚合文本分词特征向量以获得文本全局特征向量。在示例实施例中,利用自注意力机制时,可以聚合所有词的特征向量以获取文本全局(例如,句子全局)的特征向量。文本全局特征向量可以表示为:
Figure 46947DEST_PATH_IMAGE011
,其中,
Figure 723916DEST_PATH_IMAGE012
为文本全局特征向量,β i 为与词的特征向量对应的权重。关于文本全局特征向量的计算,除了聚合词的特征向量之外,与上面参照步骤S129描述的图像全局特征向量的计算相同或相似,在此省略冗余的描述。
在根据本公开的示例性实施例中,作为示例,图像全局特征向量和文本全局特征向量之间的相似度可以被表示为:
Figure 630692DEST_PATH_IMAGE042
其中,
Figure 910364DEST_PATH_IMAGE015
为步骤S129中获得的图像全局特征向量,
Figure 117354DEST_PATH_IMAGE012
为步骤S135中获得的文本全局特征向量。
此外,作为又一示例,可以计算图像区域特征向量
Figure 699645DEST_PATH_IMAGE019
和文本分词特征向量
Figure 483931DEST_PATH_IMAGE043
之间的相似度。与图像全局特征向量和文本全局特征向量之间的相似度计算方法略有不同,一种模态的局部特征需要结合另一模态的局部特征,也就是说,可以将图像区域特征向量更新为基于文本分词特征向量生成的新的图像区域特征向量。同样地,可以将文本分词特征向量更新为基于图像区域特征向量生成的新的文本分词特征向量。具体地,以文本模态参与图像模态的特征生成为例:
首先,计算图像区域特征向量与文本分词特征向量的余弦相似度
Figure 442659DEST_PATH_IMAGE044
Figure 238577DEST_PATH_IMAGE045
其次,使用softmax归一化处理余弦相似度并获取注意力权重
Figure 116403DEST_PATH_IMAGE046
Figure 263351DEST_PATH_IMAGE047
通过上述公式获得的注意力权重
Figure 291350DEST_PATH_IMAGE046
使得多个图像区域特征向量仅与与其最接近的文本分词特征向量之间产生关联,从而实现多个图像区域特征向量与多个文本分词特征向量之间的对齐。
然后,生成基于文本分词特征向量的图像区域特征向量(关键区域的特征向量)
Figure 941774DEST_PATH_IMAGE048
Figure 990501DEST_PATH_IMAGE049
代入上面示出的相似度计算公式,那么图像区域特征向量
Figure 624745DEST_PATH_IMAGE019
和文本分词特征向量
Figure 659697DEST_PATH_IMAGE043
的相似度可由下式表示:
Figure 820420DEST_PATH_IMAGE050
在这种情况下,由于新的图像区域特征向量
Figure 915415DEST_PATH_IMAGE048
中包含了与该图像区域最接近的文本分词特征,因此可以减少或消除因文本冗余造成的匹配错误,并可以使得图像区域特征向量
Figure 36955DEST_PATH_IMAGE019
和文本分词特征向量
Figure 232DEST_PATH_IMAGE043
的相似度能够体现捕获特定单词与其对应图像区域之间的相关性,利用更细粒度的视觉语义对齐来提高相似度的预测。
图像模态参与文本模态的特征生成方法与上述方法相同或相似,因此在此省略冗余的描述。
图4是示出根据本公开的使用图像检索模型的检索方法的流程图。
参照图4,本公开的示例性实施例还提供了一种使用图像检索模型的检索方法。
在步骤S210中,获取待检索数据,待检索数据包括待检索图像和待检索文本中的至少一种。
在步骤S220中,基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述图像区域特征向量生成的待检索全局特征向量。在实施例中,如果待检索数据为待检索图像,则可以执行参照图1和图2所描述的图像信息特征提取过程;如果待检索数据为待检索文本,则可以执行参照图1和图2所描述的文本信息特征提取过程;如果待检索数据包括待检索图像和待检索文本两者,则可以将待检索图像与待检索文本分离,并分别执行参照图1和图2所描述的图像信息特征提取过程以及参照图1和图2所描述的文本信息特征提取过程。在此省略冗余的描述。
在步骤S230中,基于预先设置的图像数据库中的图像的图像区域特征向量和由图像区域特征向量生成的图像全局特征向量,以及待检索局域特征向量和所述待检索全局特征向量,通过图像检索模型获得相似度。需要说明的是,对于预先设置的图像数据库中的图像,可以预先执行参照图1和图2所描述的图像信息特征提取过程,从而获得图像数据库中的图像的图像区域特征向量和图像全局特征向量。
其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:
Figure 625248DEST_PATH_IMAGE001
其中,
Figure 156723DEST_PATH_IMAGE002
表示所述相似度,γ 1 γ 2 分别为所述图像区域特征向量、所述图像全局特征向量、所述待检索局域特征向量和所述待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 359035DEST_PATH_IMAGE014
Figure 266948DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度。
在步骤S240中,按照所述相似度由大到小的规则排序生成检索结果的候选队列。在另一实施例中,获得相似度的步骤还可以包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度,并且按照最终相似度由大到小的规则排序生成检索结果的候选队列。
尽管未在图中示出,本公开还提供了一种使用图像检索模型的检索方法。检索方法包括:获取待检索数据,待检索数据包括待检索图像和待检索文本中的至少一种;基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量;基于预先设置的图像数据库中的图像的图像区域特征向量和图像全局特征向量,以及待检索局域特征向量和所述待检索全局特征向量,通过图像检索模型获得相似度;并且按照所述相似度由大到小的规则排序生成检索结果的候选队列。在实施例中,通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度:
Figure 12050DEST_PATH_IMAGE001
其中,
Figure 714427DEST_PATH_IMAGE002
表示相似度,γ 1 γ 2 分别为图像区域特征向量、图像全局特征向量、待检索局域特征向量和待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 404034DEST_PATH_IMAGE014
Figure 850059DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度,其中,当待检索数据包括待检索文本,通过文本信息特征提取过程至少提取文本分词特征向量
Figure 449667DEST_PATH_IMAGE043
,且γ 1 为图像区域特征向量
Figure 447579DEST_PATH_IMAGE019
,作为待检索局域特征向量的γ 2 为所述文本分词特征向量
Figure 499849DEST_PATH_IMAGE043
时,所述相似度通过下式获得:
Figure 483985DEST_PATH_IMAGE050
其中,
Figure 328314DEST_PATH_IMAGE051
Figure 106914DEST_PATH_IMAGE047
Figure 912059DEST_PATH_IMAGE052
其中,
Figure 824520DEST_PATH_IMAGE048
表示基于所述文本分词特征向量
Figure 398721DEST_PATH_IMAGE043
生成的更新的图像区域特征向量,
Figure 348222DEST_PATH_IMAGE046
表示注意力权重,
Figure 499718DEST_PATH_IMAGE053
表示所述图像区域特征向量
Figure 91236DEST_PATH_IMAGE019
与文本分词特征向量
Figure 254364DEST_PATH_IMAGE043
的余弦相似度。
当待检索数据是待检索图像时执行图像信息特征提取过程。图像信息特征提取过程包括:通过卷积网络组从所述待检索图像中提取图像初始特征图;通过区域候选网络对所述图像初始特征图进行图像区域划分;将所述图像区域划分的结果和所述图像初始特征图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;将所述图像关键区域特征图送入全连接层以获得待检索图像区域特征向量作为所述待检索局域特征向量;并且通过自注意力机制聚合所述图像区域特征向量以获得待检索图像全局特征向量作为所述待检索全局特征向量。
在实施例中,待检索图像区域特征向量表示为
Figure 764980DEST_PATH_IMAGE005
其中,V为待检索图像区域特征向量,v 1 ,v 2 ,v m 为图像关键区域特征图的特征向量,m为所述图像关键区域特征图的个数。
在实施例中,待检索图像全局特征向量表示为
Figure 544717DEST_PATH_IMAGE038
其中,
Figure 674347DEST_PATH_IMAGE015
为待检索图像全局特征向量,α i 为与特征向量
Figure 816616DEST_PATH_IMAGE008
对应的权重。
上述执行图像信息特征提取过程的步骤与参照图2描述的步骤S121、S123、S125、S127、S129相同或相似,在此省略冗余的描述。
当待检索数据是待检索文本时执行文本信息特征提取过程。文本信息特征提取过程包括:通过分词将所述待检索文本划分为n个单词,其中,n为正整数;使用词嵌入方法将n个单词转化为词向量;通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量作为所述待检索局域特征向量;并且通过自注意力机制聚合所述文本分词特征向量以获得待检索文本全局特征向量作为所述待检索全局特征向量。
在实施例中,词向量表示为
Figure 639078DEST_PATH_IMAGE054
其中,W为词向量矩阵,w 1 ,w 2 ,w n 为词向量,d word 表示词向量的维度,
通过双向门控循环单元对词向量进行编码以获得待检索文本分词特征向量的步骤可以包括:通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的包含上下文关系的词特征向量,并由n个单词的词特征向量组成待检索文本分词特征向量。所述待检索文本分词特征向量表示为
Figure 640532DEST_PATH_IMAGE010
其中,T为所述待检索文本分词特征向量,t 1 ,t 2 ,t n 为词的特征向量。
在实施例中,待检索文本全局特征向量表示为
Figure 432908DEST_PATH_IMAGE011
其中,
Figure 570628DEST_PATH_IMAGE012
为所述文本全局特征向量,β i 为与所述词的特征向量对应的权重。
上述执行文本信息特征提取过程的步骤与参照图2描述的步骤S131、S133、S135相同或相似,在此省略冗余的描述。
根据本公开的示例实施例,获得相似度的步骤还包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度,并且按照最终相似度由大到小的规则排序生成检索结果的候选队列。
根据本公开的一个或多个示例性实施例,通过对图像的区域特征进行提取,并基于区域特征建立图像的全局特征向量,提高检测结果准确度。因此,能够解决传统检索算法中对图像特征进行全局无差别提取,而忽略图像内容中不同要素之间的关系特征。
根据本公开的一个或多个示例性实施例,基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度;以相似度最大作为目标,对图像检索模型进行训练,从而完成双模态(图像、文本)之间的语义关联。也就是说,在训练过程中,图像检索模型将结合图像和文本两种模态展开对应的局部特征学习,关注不同模态下的区域要素之间的关系,以此来弥补传统技术只能完成单一模态检索的缺陷。
根据本公开的一个或多个示例性实施例,通过训练图像检索模型,仅需要选取训练图像和用于描述训练图像的训练文本,而不用对图像数据库中的全量图像进行人工标注。因此,能够减少人工标注工作。本公开在进行特征提取工作时,更多的是关注图像内容中具体要素之间的关联关系,对于图像整体的特征提取也是基于区域特征的进行聚合得到的,因此,能够忽略掉其他无关信息(例如光线、背景、占比等因素)的影响,而更关注图像真正要表达的内容,因此检索结果相比于传统基于内容的检索技术更具有针对性和准确度。
图5是示出根据本公开的图像检索模型的训练装置10的示意图。
参照图5,本公开的示例性实施例还提供了一种图像检索模型的训练装置10,所述训练装置10包括:数据获取单元110、图像特征提取单元120、文本特征提取单元130、相似度计算单元140和训练单元150。
数据获取单元110被配置为获取训练图像和用于描述训练图像的训练文本。数据获取单元110被配置为用来执行参照图1和图2中的步骤S110描述的方法。
图像特征提取单元120被配置为基于训练图像通过图像信息特征提取过程获得图像区域特征向量和由图像区域特征向量生成的图像全局特征向量。图像特征提取单元120被配置为用来执行参照图1和图2中的步骤S120描述的方法。
文本特征提取单元130被配置为基于训练文本通过文本信息特征提取过程获得文本分词特征向量和由文本分词特征向量生成的文本全局特征向量。文本特征提取单元130被配置为用来执行参照图1和图2中的步骤S130描述的方法。
相似度计算单元140被配置为基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量,通过图像检索模型获得相似度。相似度计算单元140被配置为用来执行参照图1和图2中的步骤S140描述的方法。
训练单元150被配置为将相似度最大作为目标,对图像检索模型进行训练。
在示例实施例中,通过图像检索模型获得相似度的步骤与参照图1至图5描述的获得相似度的步骤相同或相似。
关于上述实施例中的装置,其中各个模块/单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是示出根据本公开的使用图像检索模型的检索装置20的示意图。
参照图6,本公开的示例性实施例还提供了一种使用图像检索模型的检索装置。所述检索装置20包括:输入单元210、输入数据特征提取单元220、相似度计算单元230、排序单元240。
输入单元210被配置为获取待检索数据,待检索数据包括待检索图像和待检索文本中的至少一种。输入单元210被配置为用来执行参照图4中的步骤S210描述的方法。
输入数据特征提取单元220被配置为基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量。输入数据特征提取单元220被配置为用来执行参照图4中的步骤S220描述的方法。
相似度计算单元230被配置为基于预先设置的图像数据库中的图像的图像区域特征向量和由图像区域特征向量生成的图像全局特征向量,以及待检索局域特征向量和待检索全局特征向量,通过图像检索模型获得相似度。相似度计算单元230被配置为用来执行参照图4中的步骤S230描述的方法。
排序单元240按照相似度由大到小的规则排序生成检索结果的候选队列。排序单元240被配置为用来执行参照图4中的步骤S240描述的方法。
在示例实施例中,通过图像检索模型获得相似度的步骤与参照图1至图4描述的获得相似度的步骤相同或相似。
关于上述实施例中的装置,其中各个模块/单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是示出根据本公开的示例性实施例的电子设备700的框图。
参照图7,电子设备700包括至少一个存储器701和至少一个处理器702,所述至少一个存储器701存储计算机可执行指令,当计算机可执行指令被至少一个处理器702执行时,促使至少一个处理器702执行根据本公开的实施例的图像检索模型的训练方法和使用图像检索模型的检索方法。
作为示例,电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令的装置。这里,电子设备700并非必须是单个电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备700中,处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器702可运行存储在存储器701中的指令或代码,其中,存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器701可与处理器702集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器701可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器702能够读取存储在存储器中的文件。
此外,电子设备700还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当存储在计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的实施例的图像检索模型的训练方法和使用图像检索模型的检索方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种图像检索模型的训练方法,其特征在于,所述训练方法包括:
获取训练图像和用于描述所述训练图像的训练文本;
基于所述训练图像通过图像信息特征提取过程获得图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量;
基于所述训练文本通过文本信息特征提取过程获得文本分词特征向量和由所述文本分词特征向量生成的文本全局特征向量;
基于所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量,通过图像检索模型获得相似度;
以所述相似度最大作为目标,对图像检索模型进行训练,
其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:
Figure 980868DEST_PATH_IMAGE001
其中,
Figure 179768DEST_PATH_IMAGE002
表示所述相似度,γ 1 γ 2 分别为所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 51909DEST_PATH_IMAGE003
Figure 904328DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度,
其中,当γ 1 为图像区域特征向量
Figure 861919DEST_PATH_IMAGE005
γ 2 为文本分词特征向量
Figure 130090DEST_PATH_IMAGE006
时,所述相似度通过下式获得:
Figure 981371DEST_PATH_IMAGE007
其中,
Figure 614478DEST_PATH_IMAGE008
Figure 121682DEST_PATH_IMAGE009
Figure 255860DEST_PATH_IMAGE010
其中,
Figure 837014DEST_PATH_IMAGE011
表示基于所述文本分词特征向量
Figure 703339DEST_PATH_IMAGE006
生成的更新的图像区域特征向量,
Figure 760157DEST_PATH_IMAGE012
表示注意力权重,
Figure 307813DEST_PATH_IMAGE013
表示所述图像区域特征向量
Figure 399266DEST_PATH_IMAGE005
与文本分词特征向量
Figure 170913DEST_PATH_IMAGE006
的余弦相似度。
2.根据权利要求1所述的方法,其特征在于,所述图像信息特征提取过程包括:
通过卷积网络组从所述训练图像中提取图像初始特征图;
通过区域候选网络对所述图像初始特征图进行图像区域划分;
将所述图像区域划分的结果和所述图像初始特征图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;
将所述图像关键区域特征图送入全连接层以获得所述图像区域特征向量;并且
通过自注意力机制聚合所述图像区域特征向量以获得所述图像全局特征向量。
3.根据权利要求2所述的方法,其特征在于,所述图像区域特征向量表示为
Figure 590393DEST_PATH_IMAGE014
其中,V为所述图像区域特征向量,v 1 ,v 2 ,v m 为图像关键区域特征图的特征向量,m为所述图像关键区域特征图的个数,
所述图像全局特征向量表示为
Figure 738477DEST_PATH_IMAGE015
其中,
Figure 684437DEST_PATH_IMAGE016
为所述图像全局特征向量,α i 为与特征向量
Figure 564668DEST_PATH_IMAGE005
对应的权重。
4.根据权利要求1所述的方法,其特征在于,所述文本信息特征提取过程包括:
通过分词将所述训练文本划分为n个单词,其中,n为正整数;
使用词嵌入方法将所述n个单词转化为词向量;
通过双向门控循环单元对所述词向量进行编码以获得所述文本分词特征向量;并且
通过自注意力机制聚合所述文本分词特征向量以获得所述文本全局特征向量。
5.根据权利要求4所述的方法,其特征在于,所述词向量表示为
Figure 268182DEST_PATH_IMAGE017
其中,W为词向量矩阵,w 1 ,w 2 ,w n 为词向量,d word 表示词向量的维度,
所述通过双向门控循环单元对所述词向量进行编码以获得所述文本分词特征向量的步骤包括:通过双向门控循环单元对所述词向量进行编码以获得所述n个单词中每个单词的包含上下文关系的词特征向量,并由所述n个单词的所述词特征向量组成所述文本分词特征向量,所述文本分词特征向量表示为
Figure 547853DEST_PATH_IMAGE018
其中,T为所述文本分词特征向量,t 1 ,t 2 ,t n 为所述词特征向量,
所述文本全局特征向量表示为
Figure 958106DEST_PATH_IMAGE019
其中,
Figure 337135DEST_PATH_IMAGE020
为所述文本全局特征向量,β i 为与所述词的特征向量对应的权重。
6.一种使用图像检索模型的检索方法,其特征在于,所述检索方法包括:
获取待检索数据,所述待检索数据包括待检索图像和待检索文本中的至少一种;
基于所述待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述待检索局域特征向量生成的待检索全局特征向量;
基于预先设置的图像数据库中的图像的图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量,以及待检索局域特征向量和所述待检索全局特征向量,通过图像检索模型获得相似度;并且
按照所述相似度由大到小的规则排序生成检索结果的候选队列,
其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:
Figure 590262DEST_PATH_IMAGE001
其中,
Figure 283411DEST_PATH_IMAGE002
表示所述相似度,γ 1 γ 2 分别为所述图像区域特征向量、所述图像全局特征向量、所述待检索局域特征向量和所述待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 876066DEST_PATH_IMAGE021
Figure 488313DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度,
其中,当所述待检索数据包括待检索文本,通过所述文本信息特征提取过程至少提取文本分词特征向量
Figure 104102DEST_PATH_IMAGE006
,且γ 1 为图像区域特征向量
Figure 725577DEST_PATH_IMAGE022
,作为所述待检索局域特征向量的γ 2 为所述文本分词特征向量
Figure 172738DEST_PATH_IMAGE006
时,所述相似度通过下式获得:
Figure 831253DEST_PATH_IMAGE023
其中,
Figure 996655DEST_PATH_IMAGE008
Figure 156241DEST_PATH_IMAGE009
Figure 395592DEST_PATH_IMAGE010
其中,
Figure 287325DEST_PATH_IMAGE011
表示基于所述文本分词特征向量
Figure 2340DEST_PATH_IMAGE006
生成的更新的图像区域特征向量,
Figure 575404DEST_PATH_IMAGE024
表示注意力权重,
Figure 325054DEST_PATH_IMAGE025
表示所述图像区域特征向量
Figure 387688DEST_PATH_IMAGE022
与文本分词特征向量
Figure 199786DEST_PATH_IMAGE006
的余弦相似度。
7.根据权利要求6所述的方法,其特征在于,所述待检索数据是待检索图像,所述图像信息特征提取过程包括:
通过卷积网络组从所述待检索图像中提取图像初始特征图;
通过区域候选网络对所述图像初始特征图进行图像区域划分;
将所述图像区域划分的结果和所述图像初始特征图作为输入,通过感兴趣区域池化网络提取图像关键区域特征图;
将所述图像关键区域特征图送入全连接层以获得待检索图像区域特征向量作为所述待检索局域特征向量;并且
通过自注意力机制聚合所述图像区域特征向量以获得待检索图像全局特征向量作为所述待检索全局特征向量。
8.根据权利要求7所述的方法,其特征在于,所述待检索图像区域特征向量表示为
Figure 373279DEST_PATH_IMAGE026
其中,V为所述待检索图像区域特征向量,v 1 ,v 2 ,v m 为图像关键区域特征图的特征向量,m为所述图像关键区域特征图的个数,
所述待检索图像全局特征向量表示为
Figure 977435DEST_PATH_IMAGE015
其中,
Figure 414233DEST_PATH_IMAGE016
为所述待检索图像全局特征向量,α i 为与特征向量
Figure 838261DEST_PATH_IMAGE022
对应的权重。
9.根据权利要求6所述的方法,其特征在于,所述待检索数据是待检索文本,所述文本信息特征提取过程包括:
通过分词将所述待检索文本划分为n个单词,其中,n为正整数;
使用词嵌入方法将所述n个单词转化为词向量;
通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量作为所述待检索局域特征向量;并且
通过自注意力机制聚合所述文本分词特征向量以获得待检索文本全局特征向量作为所述待检索全局特征向量。
10.根据权利要求9所述的方法,其特征在于,所述词向量表示为
Figure 815444DEST_PATH_IMAGE017
其中,W为词向量矩阵,w 1 ,w 2 ,w n 为词向量,d word 表示词向量的维度,
所述通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量的步骤包括:通过双向门控循环单元对所述词向量进行编码以获得所述n个单词中每个单词的包含上下文关系的词特征向量,并由所述n个单词的所述词特征向量组成所述待检索文本分词特征向量,所述待检索文本分词特征向量表示为
Figure 415053DEST_PATH_IMAGE018
其中,T为所述待检索文本分词特征向量,t 1 ,t 2 ,t n 为词的特征向量,
所述待检索文本全局特征向量表示为
Figure 881806DEST_PATH_IMAGE019
其中,
Figure 465234DEST_PATH_IMAGE020
为所述文本全局特征向量,β i 为与所述词的特征向量对应的权重。
11.根据权利要求6所述的方法,其特征在于,所述获得相似度的步骤还包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度,并且
按照最终相似度由大到小的规则排序生成检索结果的候选队列。
12.一种图像检索模型的训练装置,其特征在于,所述装置包括:
数据获取单元,被配置为获取训练图像和用于描述所述训练图像的训练文本;
图像特征提取单元,被配置为基于所述训练图像通过图像信息特征提取过程获得图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量;
文本特征提取单元,被配置为基于所述训练文本通过文本信息特征提取过程获得文本分词特征向量和由所述文本分词特征向量生成的文本全局特征向量;
相似度计算单元,被配置为基于所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量,通过图像检索模型获得相似度;
训练单元,所述相似度最大作为目标,对图像检索模型进行训练,
其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:
Figure 183792DEST_PATH_IMAGE001
其中,
Figure 762541DEST_PATH_IMAGE002
表示所述相似度,γ 1 γ 2 分别为所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 337878DEST_PATH_IMAGE021
Figure 346286DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度,
其中,当γ 1 为图像区域特征向量
Figure 993168DEST_PATH_IMAGE022
γ 2 为文本分词特征向量
Figure 98527DEST_PATH_IMAGE006
时,所述相似度通过下式获得:
Figure 48028DEST_PATH_IMAGE023
其中,
Figure 933945DEST_PATH_IMAGE008
Figure 791042DEST_PATH_IMAGE009
Figure 954170DEST_PATH_IMAGE010
其中,
Figure 199207DEST_PATH_IMAGE011
表示基于所述文本分词特征向量
Figure 244523DEST_PATH_IMAGE006
生成的更新的图像区域特征向量,
Figure 842995DEST_PATH_IMAGE024
表示注意力权重,
Figure 250843DEST_PATH_IMAGE025
表示所述图像区域特征向量
Figure 542147DEST_PATH_IMAGE022
与文本分词特征向量
Figure 74759DEST_PATH_IMAGE006
的余弦相似度。
13.一种使用图像检索模型的检索装置,其特征在于,所述装置包括:
输入单元,被配置为获取待检索数据,所述待检索数据包括待检索图像和待检索文本中的至少一种;
输入数据特征提取单元,被配置为基于所述待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述待检索局域特征向量生成的待检索全局特征向量;
相似度计算单元,被配置为基于预先设置的图像数据库中的图像的图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量,以及所述待检索局域特征向量和所述待检索全局特征向量,通过图像检索模型获得相似度;并且
排序单元,按照所述相似度由大到小的规则排序生成检索结果的候选队列,
其中,通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度:
Figure 601555DEST_PATH_IMAGE027
其中,
Figure 739276DEST_PATH_IMAGE002
表示所述相似度,γ 1 γ 2 分别为所述图像区域特征向量、所述图像全局特征向量、所述待检索局域特征向量和所述待检索全局特征向量中的一个特征向量,weights为图像检索模型,被构造为用于获取相似度向量的权重矩阵,
Figure 998219DEST_PATH_IMAGE021
Figure 346023DEST_PATH_IMAGE004
的2-范数运算,d表示特征向量的维度,
其中,当所述待检索数据包括待检索文本,通过所述文本信息特征提取过程至少提取文本分词特征向量
Figure 551877DEST_PATH_IMAGE006
,且γ 1 为图像区域特征向量
Figure 340841DEST_PATH_IMAGE022
,作为所述待检索局域特征向量的γ 2 为所述文本分词特征向量
Figure 833002DEST_PATH_IMAGE006
时,所述相似度通过下式获得:
Figure 543469DEST_PATH_IMAGE023
其中,
Figure 349751DEST_PATH_IMAGE008
Figure 55539DEST_PATH_IMAGE009
Figure 125126DEST_PATH_IMAGE010
其中,
Figure 181944DEST_PATH_IMAGE011
表示基于所述文本分词特征向量
Figure 791917DEST_PATH_IMAGE006
生成的更新的图像区域特征向量,
Figure 227578DEST_PATH_IMAGE024
表示注意力权重,
Figure 264804DEST_PATH_IMAGE025
表示所述图像区域特征向量
Figure 808918DEST_PATH_IMAGE022
与文本分词特征向量
Figure 894685DEST_PATH_IMAGE006
的余弦相似度。
14.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到11中的任一所述的方法。
15.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器如权利要求1到11中的任一所述的方法。
CN202111636300.5A 2021-12-30 2021-12-30 图像检索模型的训练方法和装置以及检索方法和装置 Active CN114003758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111636300.5A CN114003758B (zh) 2021-12-30 2021-12-30 图像检索模型的训练方法和装置以及检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111636300.5A CN114003758B (zh) 2021-12-30 2021-12-30 图像检索模型的训练方法和装置以及检索方法和装置

Publications (2)

Publication Number Publication Date
CN114003758A CN114003758A (zh) 2022-02-01
CN114003758B true CN114003758B (zh) 2022-03-08

Family

ID=79932224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111636300.5A Active CN114003758B (zh) 2021-12-30 2021-12-30 图像检索模型的训练方法和装置以及检索方法和装置

Country Status (1)

Country Link
CN (1) CN114003758B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972774A (zh) * 2022-04-20 2022-08-30 平安科技(深圳)有限公司 特定区域的图像描述生成方法、装置、设备及存储介质
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN116226688B (zh) * 2023-05-10 2023-10-31 粤港澳大湾区数字经济研究院(福田) 数据处理、图文检索、图像分类方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101602A (zh) * 2018-08-01 2018-12-28 腾讯科技(深圳)有限公司 图像检索模型训练方法、图像检索方法、设备及存储介质
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111753116A (zh) * 2019-05-20 2020-10-09 北京京东尚科信息技术有限公司 图像检索方法、装置、设备及可读存储介质
CN113283551A (zh) * 2021-07-22 2021-08-20 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089571A1 (en) * 2017-04-10 2021-03-25 Hewlett-Packard Development Company, L.P. Machine learning image search

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN109101602A (zh) * 2018-08-01 2018-12-28 腾讯科技(深圳)有限公司 图像检索模型训练方法、图像检索方法、设备及存储介质
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN111753116A (zh) * 2019-05-20 2020-10-09 北京京东尚科信息技术有限公司 图像检索方法、装置、设备及可读存储介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN113283551A (zh) * 2021-07-22 2021-08-20 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备

Also Published As

Publication number Publication date
CN114003758A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
US11093560B2 (en) Stacked cross-modal matching
JP7193252B2 (ja) 画像の領域のキャプション付加
CN114003758B (zh) 图像检索模型的训练方法和装置以及检索方法和装置
Kaur et al. Comparative analysis on cross-modal information retrieval: A review
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
US8254699B1 (en) Automatic large scale video object recognition
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111105013B (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
US20230102217A1 (en) Translating texts for videos based on video context
US11886815B2 (en) Self-supervised document representation learning
CN113987119A (zh) 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114429566A (zh) 一种图像语义理解方法、装置、设备及存储介质
Li et al. Co-saliency detection based on hierarchical consistency
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN117556067B (zh) 数据检索方法、装置、计算机设备和存储介质
CN115017355A (zh) 图像的提取器训练、搜索方法、电子设备和存储介质
CN114912011A (zh) 一种基于内容提取与评分预测的视频推荐方法
Tüselmann et al. Recognition-free question answering on handwritten document collections
CN116737877A (zh) 基于注意力网络对抗哈希的跨模态检索方法及设备
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN114254151A (zh) 搜索词推荐模型的训练方法、搜索词推荐方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant