CN112269892A - 一种基于多模态多层次统一交互的短语定位识别方法 - Google Patents

一种基于多模态多层次统一交互的短语定位识别方法 Download PDF

Info

Publication number
CN112269892A
CN112269892A CN202011127854.8A CN202011127854A CN112269892A CN 112269892 A CN112269892 A CN 112269892A CN 202011127854 A CN202011127854 A CN 202011127854A CN 112269892 A CN112269892 A CN 112269892A
Authority
CN
China
Prior art keywords
phrase
image
model
positioning
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011127854.8A
Other languages
English (en)
Other versions
CN112269892B (zh
Inventor
刘偲
余天予
惠天瑞
廖越
余志浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011127854.8A priority Critical patent/CN112269892B/zh
Publication of CN112269892A publication Critical patent/CN112269892A/zh
Application granted granted Critical
Publication of CN112269892B publication Critical patent/CN112269892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态多层次统一交互的短语定位识别方法,包括:构建预训练机器阅读模型和预训练目标检测模型;获取图片和针对图片的文字说明;利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征;利用预训练目标检测模型提取图片中的多个图像候选位置,并对图像候选位置对应的低维特征进行优化处理;利用注意力算法模拟各个短语与各个图像候选位置之间的交互;基于交互结果计算各个短语与图像候选位置之间的特征相似度,并以特征相似度作为键值确定各个短语的定位决策结果;利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。本发明大大提高短语定位识别的精确度,且更具鲁棒性。

Description

一种基于多模态多层次统一交互的短语定位识别方法
技术领域
本发明涉及计算机视觉技术和深度学习技术领域,更具体的说是涉及一种基于多模态多层次统一交互的短语定位识别方法。
背景技术
多模态机器学习是指通过机器学习的方法实现处理和理解多源模态信息的能力,如图像、视频、音频、语义之间的多模态学习。现有技术中,图像和文字之间的交互仅仅单纯考虑了图像信息内部的交互或文字信息内部的交互,并没有将语言和图像信息之间的跨模态交互和多个短语的决策过程之间的彼此交互考虑进来,因此,现有技术中,在文字描述或者图像信息较为复杂时,无法准确找到输入短语在图像中的定位。
因此,如何提供一种你能够实现短语在图像中的定位识别的基于多模态多层次统一交互的短语定位识别算法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于多模态多层次统一交互的短语定位识别方法,将文本和图像信息之间的跨模态交互以及多个输入短语的定位决策之间的相互作用纳入了最终定位决策过程的考虑范围内,从而更好地应对复杂或高难度输入的情况,同时能够大大提高短语定位识别的精确度。
为了实现上述目的,本发明采用如下技术方案:
一种基于多模态多层次统一交互的短语定位识别方法,包括:
构建预训练机器阅读模型和预训练目标检测模型;
获取图片和针对所述图片的文字说明;
利用所述预训练机器阅读模型提取所述文字说明中各个短语基于上下文的文本特征;
利用所述预训练目标检测模型提取所述图片中的多个图像候选位置,并对所述图像候选位置对应的低维特征进行优化处理;
利用注意力算法模拟各个所述短语与各个所述图像候选位置之间的交互;
基于交互结果计算各个所述短语与所述图像候选位置之间的特征相似度,并以所述特征相似度作为键值确定各个所述短语的定位决策结果;
利用深度集合模型对各个所述短语的定位决策结果进行整合和正则化处理。
经由上述的技术方案可知,与现有技术相比,本发明具有以下有益效果:
首先,在文字信息部分,利用预训练机器阅读模型提取基于上下文的文本特征,从而能够高效地将文本信息映射到低维空间中并充分利用每个短语的上下文信息。
其次,在图像信息部分,利用预训练目标检测模型为图像提取出多个候选位置及其低维特征表示,再通过局部和全局注意力机制优化候选位置的低维特征,补全因为预训练模型不足导致缺失的特征信息,从而避免预训练目标检测模型的缺陷过多地影响到后续的决策过程。
再次,基于文字和图像这两个模态的信息,利用注意力算法模拟短语和图像候选位置之间的交互。利用注意力算法计算得到的注意力图,为每一个短语和每一个图像侯选位置生成了其在另一个模态对应的上下文信息,并利用这一上下文信息优化特征。
最后,本发明利用上一步的交互结果计算各个短语和图像候选位置的特征相似度,并以此作为键值对候选进行定位。同时,将所有输入短语的定位结果利用深度集合模型整合起来做正则化处理。通过正则化处理方式,不同短语的定位结果能够同时影响到正则化处理的优化目标,从而将这些短语的定位决策之间的互动纳入了优化范围。这样,深度集合模型不再仅仅针对独立的短语定位进行优化,而是以同时定位所有短语为目标,这使得本发明算法更具鲁棒性。
优选的,在上述一种基于多模态多层次统一交互的短语定位识别方法中,所述预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。
优选的,在上述一种基于多模态多层次统一交互的短语定位识别方法中,所述预训练目标检测模型为在Visual-Genome数据库上预训练得到的,并使用ResNet-101作为backbone。
优选的,在上述一种基于多模态多层次统一交互的短语定位识别方法中,利用局部注意力机制和全局注意力机制优化所述图像候选位置的低维特征。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法流程图;
图2附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的跨模态交互过程的整体结构示意图;
图3附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的第一阶段中图像模态内部的交互过程的结构示意图;
图4附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的第一阶段中文字模态内部的交互过程的结构示意图;
图5附图为本发明提供的第二阶段中跨模态交互过程的结构示意图;
图6附图为本发明提供的第三阶段决策结果的计算过程的结构示意图;
图7附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法的可视化跨模态交互结果;
图8附图为本发明提供的基于多模态多层次统一交互的短语定位识别方法在Flickr30K数据集和ReferItGame数据集上的接地识别结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例公开了一种基于多模态多层次统一交互的短语定位识别方法,包括以下步骤:
S1、构建预训练机器阅读模型和预训练目标检测模型;
S2、获取图片和针对图片的文字说明;
S3、利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征;
S4、利用预训练目标检测模型提取图片中的多个图像候选位置,并对图像候选位置对应的低维特征进行优化处理;
S5、利用注意力算法模拟各个短语与各个图像候选位置之间的交互;
S6、基于交互结果计算各个短语与图像候选位置之间的特征相似度,并以特征相似度作为键值确定各个短语的定位决策结果;
S7、利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。
具体的,S1中预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。预训练目标检测模型为在Visual-Genome数据库上预训练得到的,并使用ResNet-101作为backbone。
S4中,利用局部注意力机制和全局注意力机制优化图像候选位置的低维特征。
其中,利用局部注意力机制优化图像候选位置的低维特征的计算公式如下:
Figure BSA0000222270720000041
Figure BSA0000222270720000051
li表示第i个图像区域的局部上下文信息,其中Ri为该图像区域的原始特征(由预训练目标检测模型产生),
Figure BSA0000222270720000052
为该图像区域的k近邻的原始图像信息(由预训练的目标检测模型产生)。
Figure BSA0000222270720000053
表示两个图像区域的原始特征相似度的归一化结果(利用softmax进行归一化);
Figure BSA0000222270720000054
为利用该归一化的相似度结果作为权重对k近邻特征加权求和的结果;
Figure BSA0000222270720000055
为将图像区域的原始特征和局部上下文特征合并后进行线性变化的结果。
利用全局注意力机制优化图像候选位置的低维特征的计算公式如下:
Figure BSA0000222270720000056
Figure BSA0000222270720000057
公式(3)为将图像区域的像素特征
Figure BSA0000222270720000058
和空间特征si相加后利用自注意力算法处理得到的新的图像区域特征。公式为(4)为自注意力算法,att表示注意力。
S5中跨模态交互过程的计算过程如下:
Figure BSA0000222270720000059
Figure BSA00002222707200000510
Figure BSA00002222707200000511
Figure BSA0000222270720000061
上式中,公式(5)表示将图像区域特征vi和文本单元特征wj通过线性变化映射到同一线性空间中。sij表示第i个图像区域对第j个短语的响应度。
公式(7)表示将上面得到的响应度分别按照图像区域和按照单词进行归一化(基于softmax),从而得到图像到文本的注意力图AV→L和文本到图像的注意力图的AL→V。最后利用这两个响应度矩阵作为权重,可以得到图像区域和单词的跨模态上下文
Figure BSA0000222270720000062
然后将这一上下文信息和图像区域或者单词的原始特征合并,得到每个区域和单词的最终表示。
S6中各个短语与图像候选位置之间的特征相似度的计算过程如下:
Figure BSA0000222270720000063
c=MLP([w1,wN]) (10);
Sij=<Ic,c> (11)。
上式中,公式(9)表示计算图像区域i和短语j的匹配度。其中vi,wi分别为图像区域和短语的特征。W1,W2,Sij为训练参数。公式(10)中,w1和wN表示输入的第一个和最后一个短语在预训练的BERT模型中的输出结果,MLP为一个可训练的多层感知机模型,然后利用公式
Figure BSA0000222270720000064
得到图像的表示,其中
Figure BSA0000222270720000065
为对第k个单词响应最高的top-3图像区域中的随机一个的图像特征。()表示DeepSet模型,即将这k个图像区域的特征输入给DeepSet模型。公式(11)表示图片和文本的匹配度,<>表示余弦距离。
如图2所示,为本发明跨模态交互过程中的整体结构,其中,第一阶段(a)和(b)分别在图像和文字模态内部模拟信息单元的交互并生成上下文信息。第二阶段(c)利用两个模态的信息模拟跨模态信息交互。第三阶段(d)对所有短语的定位决策交互进行建模并优化。
(e)表示本发明的任务示例,下方的单词短语被定位到了其上方图像框对应的位置。
如图3所示,表示本发明第一阶段中图像模态内部的交互过程。首先利用每个图像候选位置的临近候选位置的特性信息优化特征,减少检测器带来的错误。然后模拟全局的图像候选位置交互,进一步完善图像特征信息。
如图4所示,表示本发明第一阶段中文字模态内部的交互过程,使用预训练的BERT模型提取文本特征。
如图5所示,表示本发明第二阶段的跨模态交互过程。本发明利用来自两个模态的图像和文字特征信息进行交互并得到所有输入短语和图像候选位置的多模态特征。此多模态特征被用来计算短语和图像候选位置之间的相似度得分并得到定位决策结果。
如图6所示,表示本发明第三阶段决策结果的计算过程,I表示图像特征,c表示文本特征。Sim(I,c)表示图像特征和文本特征之间的相似性。根据第二阶段得到的定位决策结果,应用DeepSet模型得到基于决策结果的全图图像特征表示和文本特征表示。利用这两个特征优化图像取回任务的损失函数,即将决策结果之间的交互纳入了优化范围。
下面利用Flickr30K数据集和ReferItGame数据集对本发明提供的基于多模态多层次统一交互的短语定位识别方法进行评估。
Flickr30k数据集是基于句子的图像描述的标准,包含海量的图像和针对图像的描述语言,共包含31873个图像和相应的语言描述。在训练、验证和测试分割中,图像的数量分别为29873、1000、1000。每个图像与5个标题相关联,且有276K注释包围框引用360K查询短语,它们是对应于图像区域的片段标题。所有查询的词汇表大小为17150,查询短语的最大长度为19个单词。
ReferItGame数据集包含19894张自然场景照片中的96654个不明确的对象。查询的词汇表大小为8800,最大查询长度为19个单词,与Flickr30K数据集相同。
具体实验过程如下:
视觉特征提取:首先应用以ResNet-101网络作为基础的Faster-RCNN模型提取图片中的所有目标对象和对应的原始图像特征。对于Flickr30K数据集和ReferItGame数据集,选择对象最大检测置信度等于或大于0.05的图像区域作为我们采用的输入。如果合格的图像区域数量小于10,选择排名前10的检测置信度的区域作为输入。如果合格区域的数量大于100,我们选择排名前100检测置信度的区域作为输入。
评价指标:为了评估本发明,从输入区域中选择前1、5、10个区域作为正区域来计算召回率。如果选择的图像区域和标注区域的IoU等于或大于0.5,则预测被认为是正确的。
现将本发明与现有技术中的几种模型进行比较,比较结果如表1和表2所示。
表1 在F1ickr30k数据集上评估本发明与现有模型
模型种类 结果(%)
Similarity Network 51.05
RPN+QRN 53.48
IGOP 53.97
SPC+PPC 55.49
SS+QRN 55.99
CITE 59.27
SeqGROUND 61.60
G3RAPHGROUND++ 66.93
Visual-BERT 71.33
Contextual Grounding 71.36
本发明 77.51
表1表示本发明方法在Flickr30k数据集测试拆分上的性能。可以得出:本发明方法优于最先进的结果,本发明精度为77.66%,较Contextual Grounding提高了6.15%。与Visual-BERT相比,本发明计算方法的准确率提高了6.18%。
表2 在ReferItGame数据集上评估本发明与现有模型
Figure BSA0000222270720000081
Figure BSA0000222270720000091
表2表示本发明计算方法在ReferItGame数据集上测试拆分上的结果。本发明将精度提高到66.16%,远远高于现有技术中的模型。虽然ReferitGame中输入的是单独的短语,而不是句子,但本发明计算方法也可以学习图像区域和查询短语之间的对应关系,证明本发明适应不同情况,鲁棒性更佳。
如图7所示,对于给定的短语,本发明能够区分相关的图像区域和其他区域。例如,在7(a)中,短语“A parking lot”对右边相应的候选区域有一个重要的响应,几乎没有响应到任何其他区域,在7(b)短语“white tennis shoes”与右栏中的两个相应的区域准确相关。此外,本发明还能够捕捉短语和图像区域之间的对应关系,即使给定的短语不是名词短语。例如,在7(a)中,“fun”这个形容词对含有笑脸的区域的注意力分数要高得多。
例如,在图8(d)中,本发明能够区分站在海滩上的人和亭子里的人。在图8(j)中,本发明可以很好理解输入的文本信息,并从许多建筑区域中找到“biggest building”的对应区域。在图8(a)中,本发明能够识别到靠近窗户的黑色椅子,即便图片中还有另一个椅子存在。
此外,本发明提供的方法在Flickr30K数据集和ReferItGame数据集上的接地识别精度有了很大的提高,分别为6.15%和21.25%。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于多模态多层次统一交互的短语定位识别方法,其特征在于,包括:
构建预训练机器阅读模型和预训练目标检测模型;
获取图片和针对所述图片的文字说明;
利用所述预训练机器阅读模型提取所述文字说明中各个短语基于上下文的文本特征;
利用所述预训练目标检测模型提取所述图片中的多个图像候选位置,并对所述图像候选位置对应的低维特征进行优化处理;
利用注意力算法模拟各个所述短语与各个所述图像候选位置之间的交互;
基于交互结果计算各个所述短语与所述图像候选位置之间的特征相似度,并以所述特征相似度作为键值确定各个所述短语的定位决策结果;
利用深度集合模型对各个所述短语的定位决策结果进行整合和正则化处理。
2.根据权利要求1所述的一种基于多模态多层次统一交互的短语定位识别方法,其特征在于,所述预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。
3.根据权利要求1所述的一种基于多模态多层次统一交互的短语定位识别方法,其特征在于,所述预训练目标检测模型为在Visual-Genome数据库上预训练得到的,并使用ResNet-101作为backbone。
4.根据权利要求1所述的一种基于多模态多层次统一交互的短语定位识别方法,其特征在于,利用局部注意力机制和全局注意力机制优化所述图像候选位置的低维特征。
CN202011127854.8A 2020-10-11 2020-10-11 一种基于多模态多层次统一交互的短语定位识别方法 Active CN112269892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011127854.8A CN112269892B (zh) 2020-10-11 2020-10-11 一种基于多模态多层次统一交互的短语定位识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011127854.8A CN112269892B (zh) 2020-10-11 2020-10-11 一种基于多模态多层次统一交互的短语定位识别方法

Publications (2)

Publication Number Publication Date
CN112269892A true CN112269892A (zh) 2021-01-26
CN112269892B CN112269892B (zh) 2023-04-07

Family

ID=74342532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011127854.8A Active CN112269892B (zh) 2020-10-11 2020-10-11 一种基于多模态多层次统一交互的短语定位识别方法

Country Status (1)

Country Link
CN (1) CN112269892B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
CN113469197A (zh) * 2021-06-29 2021-10-01 北京达佳互联信息技术有限公司 图文匹配方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228461A1 (en) * 2016-02-04 2017-08-10 Gartner, Inc. Methods and systems for finding and ranking entities in a domain specific system
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110851641A (zh) * 2018-08-01 2020-02-28 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN111598214A (zh) * 2020-04-02 2020-08-28 浙江工业大学 一种基于图卷积神经网络的跨模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228461A1 (en) * 2016-02-04 2017-08-10 Gartner, Inc. Methods and systems for finding and ranking entities in a domain specific system
CN110851641A (zh) * 2018-08-01 2020-02-28 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN111598214A (zh) * 2020-04-02 2020-08-28 浙江工业大学 一种基于图卷积神经网络的跨模态检索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
CN113469197A (zh) * 2021-06-29 2021-10-01 北京达佳互联信息技术有限公司 图文匹配方法、装置、设备以及存储介质
CN113469197B (zh) * 2021-06-29 2024-03-22 北京达佳互联信息技术有限公司 图文匹配方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN112269892B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
KR102458463B1 (ko) 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
CN112905827B (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN112269892B (zh) 一种基于多模态多层次统一交互的短语定位识别方法
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN111105013A (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
CN113297410A (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN114461821A (zh) 一种基于自注意力推理的跨模态图文互索方法
CN107391599B (zh) 基于风格特征的图像检索方法
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
CN110704665A (zh) 一种基于视觉注意力机制的图像特征表达方法及系统
CN117829243A (zh) 模型训练方法、目标检测方法、装置、电子设备及介质
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN117009570A (zh) 一种基于位置信息与置信度感知的图文检索方法及装置
CN116434058A (zh) 基于视觉文本对齐的影像描述生成方法及系统
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant