CN114663915B - 基于Transformer模型的图像人-物交互定位方法及系统 - Google Patents
基于Transformer模型的图像人-物交互定位方法及系统 Download PDFInfo
- Publication number
- CN114663915B CN114663915B CN202210213195.2A CN202210213195A CN114663915B CN 114663915 B CN114663915 B CN 114663915B CN 202210213195 A CN202210213195 A CN 202210213195A CN 114663915 B CN114663915 B CN 114663915B
- Authority
- CN
- China
- Prior art keywords
- image
- human
- positioning
- predicted
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000004927 fusion Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 24
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000004807 localization Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Transformer模型的图像人‑物交互定位方法及系统,所述方法包括以下步骤:获取待预测图像以及描述性短语;其中,所述描述性短语用于描述待预测图像中的人‑物交互关系;所述待预测图像包括人‑物交互场景;对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征;将图像特征以及语言特征输入预训练好的人‑物交互定位模型,输出获得待预测图像所有符合描述性短语的人、物定位框,实现人‑物交互定位。本发明中将多实例定位问题转化为集合预测问题,可直接从跨模态特征中预测出结果,且预测准确率较高。
Description
技术领域
本发明属于计算机视觉的视觉定位技术领域,涉及人物交互定位及跨模态学习,特别涉及一种基于Transformer模型的图像人-物交互定位方法及系统。
背景技术
视觉定位(Visual Grounding)旨在通过给定的语言在图像中定位所描述实例的边界框,其在场景理解、公共安全监视、机器人导航和多模态理解等应用中有着重要意义,目前受到越来越多的关注。
视觉定位问题主要分为两阶段方法和一阶段(端到端)方法:
大多数两阶段方法首先通过预训练的目标检测器生成一些候选区域,然后根据描述语言对候选区域进行排序和选择,这些方法的主要焦点是第二阶段的架构。然而,两阶段方法的性能往往受到预训练检测器的限制;
单阶段方法专注于直接使用图像和文本信息定位目标,如将语言嵌入(embedding)融合到一阶段的对象检测器中以进行边界框预测,并且可以通过在图像特征和构造子查询(sub-query)之间进行推理;可以使用语言embedding对视觉embedding进行解码,以预测单个边界框。
基于上述陈述,虽然视觉定位在过去几年取得了显著进展,但现有的大多数定位方法都是为单目标定位而设计的,且只输出表达式中主语的边界框,无法解决以人为中心的多实例定位问题。
指称关系(referring relationships)任务旨在预测一个关系中主语和宾语的位置,它对关系建模的能力尚不清楚,并且将多个同时出现的实例的边界框合并为一个,从而无法消除不同实例的歧义,也丢失了细粒度信息。另外,最近的方法对语言和视觉之间进行对比学习,来定位描述语句中所有提到的目标;然而当有多个符合条件的实例需要定位时,这些方法仍然受限于歧义的表达,且其使用的评估指标不适合用于多实例场景,例如在有两个或多个人骑马的场景下,给定输入短语“Person ride horse”,视觉模型将输出单个符合描述的人的边界框,但是当图像包含多个满足描述实例,其余的人以及马将被模型忽略,如图1所示。
综上所述,对于前述描述人-物交互(Human-Object Interactions),且存在多个人或物实例的问题目前尚缺乏有效解决手段。
发明内容
本发明的目的在于提供一种基于Transformer模型的图像人-物交互定位方法及系统,以解决上述存在的一个或多个技术问题。本发明中,人物交互定位(Human-ObjectInteractions Grounding),即给定输入<human,interaction,object>短语和图像,任务要求定位所有符合所描述交互关系的人、物对实例,以边界框的形式给出,具体将多实例定位问题转化为集合预测问题,可直接从跨模态特征中预测出结果,且预测准确率较高。
为达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于Transformer模型的图像人-物交互定位方法,包括以下步骤:
获取待预测图像以及描述性短语;其中,所述描述性短语用于描述待预测图像中的人-物交互关系;所述待预测图像包括人-物交互场景;
对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征;
将图像特征以及语言特征输入预训练好的人-物交互定位模型,输出获得待预测图像所有符合描述性短语的人、物定位框,实现人-物交互定位;
其中,所述人-物交互定位模型包括:
融合编码器,用于输入待融合的视觉-语言特征并进行跨模态融合,获得融合后的跨模态特征;其中,所述待融合的视觉-语言特征的为将图像特征以及语言特征映射至一致的通道,并沿特征维度拼接形成的特征;
解码器及预测头,用于输入融合后的跨模态特征并进行解码,通过预测头预测获得待预测图像中所有符合描述性短语的人、物定位框,实现人-物交互定位;
所述融合编码器为第一预设层数的自注意力编码器;所述解码器为第二预设层数的自注意力解码器。
本发明方法的进一步改进在于,所述描述性短语的表述形式为<human,interaction,object>三元组。
本发明方法的进一步改进在于,所述对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征的步骤具体包括:
对待预测图像采用预训练的backbone卷积神经网络以及Transformer编码器进行特征提取,得到图像特征;
对描述性短语采用预训练的BERT模型进行特征提取,得到语言特征。
本发明方法的进一步改进在于,第一预设层数和第二预设层数均为6层。
本发明方法的进一步改进在于,所述预训练好的人-物交互定位模型的获取步骤包括:
获取训练样本集;所述训练样本集的每个样本均包括:图像样本、描述性短语样本以及图像样本中满足描述性短语样本的所有人、物边界框坐标标签;
基于训练样本集中每个训练样本,对预测结果集合和标签真值间进行匈牙利匹配,对每种匹配组合σ(i)计算代价函数,通过最小化综合匹配代价函数以获得最优匹配结果;其中,所述代价函数包括:人-物边界框L1距离代价人-物边界框GIoU代价/>以及交互得分代价/>表达式分别为:
式中,分别为第i对中人、物边界框坐标真值,/>分别为第i种匹配中人、物边界框坐标预测结果,Φ为无真值匹配的检测结果集,αb、αg、αs分别为人-物边界框L1距离代价/>人/-物边界框GIoU代价/>以及交互得分代价/>的权重,si为第i对人/物对的交互得分;
基于最优匹配结果计算训练损失,达到预设收敛条件完成训练;其中,训练损失包括人-物边界框L1距离损失、人-物边界框GIoU损失以及交互得分损失,表达式分别为:
式中,为匹配得到的最优匹配,/>为有真值匹配的检测结果集,βb、βg、βs为各损失函数的权重,γ为二值交叉熵损失/>的样本不均衡权重,/>为第i对人-物对的预测交互得分,当该人-物对有真值匹配时yi取1,否则取0,Nq为输出人-物对数目。
本发明提供的一种基于Transformer模型的图像人-物交互定位系统,包括:
获取模块,用于获取待预测图像以及描述性短语;其中,所述描述性短语用于描述待预测图像中的人-物交互关系;所述待预测图像包括人-物交互场景;
特征提取模块,用于对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征;
预测定位模块,用于将图像特征以及语言特征输入预训练好的人-物交互定位模型,输出获得待预测图像所有符合描述性短语的人、物定位框,实现人-物交互定位;
其中,所述人-物交互定位模型包括:
融合编码器,用于输入待融合的视觉-语言特征并进行跨模态融合,获得融合后的跨模态特征;其中,所述待融合的视觉-语言特征的为将图像特征以及语言特征映射至一致的通道,并沿特征维度拼接形成的特征;
解码器及预测头,用于输入融合后的跨模态特征并进行解码,通过预测头预测获得待预测图像中所有符合描述性短语的人、物定位框,实现人-物交互定位;
所述融合编码器为第一预设层数的自注意力编码器;所述解码器为第二预设层数的自注意力解码器。
本发明系统的进一步改进在于,所述获取模块中,描述性短语的表述形式为<human,interaction,object>三元组。
本发明系统的进一步改进在于,所述特征提取模块中,对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征的步骤具体包括:
对待预测图像采用预训练的backbone卷积神经网络以及Transformer编码器进行特征提取,得到图像特征;
对描述性短语采用预训练的BERT模型进行特征提取,得到语言特征。
本发明系统的进一步改进在于,所述预测定位模块中,第一预设层数和第二预设层数均为6层。
本发明系统的进一步改进在于,所述预测定位模块中,预训练好的人-物交互定位模型的获取步骤包括:
获取训练样本集;所述训练样本集的每个样本均包括:图像样本、描述性短语样本以及图像样本中满足描述性短语样本的所有人、物边界框坐标标签;
基于训练样本集中每个训练样本,对预测结果集合和标签真值间进行匈牙利匹配,对每种匹配组合σ(i)计算代价函数,通过最小化综合匹配代价函数以获得最优匹配结果;其中,所述代价函数包括:人-物边界框L1距离代价人-物边界框GIoU代价/>以及交互得分代价/>表达式分别为:
式中,分别为第i对中人、物边界框坐标真值,/>分别为第i种匹配中人、物边界框坐标预测结果,Φ为无真值匹配的检测结果集,αb、αg、αs分别为人-物边界框L1距离代价/>人/-物边界框GIoU代价/>以及交互得分代价/>的权重,si为第i对人/物对的交互得分;
基于最优匹配结果计算训练损失,达到预设收敛条件完成训练;其中,训练损失包括人-物边界框L1距离损失、人-物边界框GIoU损失以及交互得分损失,表达式分别为:
式中,为匹配得到的最优匹配,/>为有真值匹配的检测结果集,βb、βg、βs为各损失函数的权重,γ为二值交叉熵损失/>的样本不均衡权重,/>为第i对人-物对的预测交互得分,当该人-物对有真值匹配时yi取1,否则取0,Nq为输出人-物对数目。
与现有技术相比,本发明具有以下有益效果:
本发明具体提供的方法,将多实例定位问题转化为集合预测问题,可直接从跨模态特征中预测出结果,且预测准确率较高。具体解释性的,尽管现有方法试图从视觉特征和语言特征中捕获上下文信息,但在直接连接或形式上处理的方法是不够的,跨模态特征缺乏连接,导致对其的使用不足。本发明通过Transformer编码器来建立图像文本间的语义连接,以更深入地挖掘跨模态信息;同时,本发明是一阶段的端到端模型,不依赖预训练的目标检测器,不会受到其带来的性能限制,可以进行端到端训练,并直接输出预测结果,不需要后处理或非极大值抑制等操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提出的人物交互定位(HOI Grounding)与传统视觉定位(VisualGrounding)效果对比示意图;
图2是本发明实施例的一种基于Transformer模型的图像人-物交互定位方法的流程示意图;
图3是本发明实施例的定位结果可视化示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
请参阅图1和图2,本发明实施例的一种基于Transformer模型的图像人-物交互定位方法,具体设计了一个基于Transformer编码器-解码器(encoder-decoder)结构来对描述的人物交互实例进行配对和定位,采用集合预测方法输出结果,具体包括以下步骤:
获取待预测图像以及描述性短语;其中,所述描述性短语用于描述待预测图像中的人-物交互关系;所述待预测图像包括人-物交互场景;具体示例性,所述描述性短语的表述形式为<human,interaction,object>三元组;
分别对待预测图像以及描述性短语进行特征提取,获得图像特征和语言特征;
将图像特征和语言特征输入人-物交互定位模型,输出获得待预测图像所有符合描述性短语的人、物定位框,实现人-物交互定位;
所述人-物交互定位模型包括:
融合编码器,用于输入待融合的视觉-语言特征并进行跨模态融合,获得融合后的跨模态特征;其中,所述待融合的视觉-语言特征的获取步骤包括:将图像特征和语言特征映射至一致的通道,沿特征维度拼接形成待融合的视觉-语言特征
解码器和预测头,用于输入融合后的跨模态特征并进行解码,通过预测头预测获得待预测图像所有符合描述性短语的人、物定位框,实现人-物交互定位。
本发明实施例示例性的,分别对待预测图像以及描述性短语进行特征提取,获得图像特征和语言特征的步骤包括:
对于输入的图像,采用预训练的backbone卷积神经网络以及Transformer编码器进行特征提取,得到图像特征tokens fv;
对于输入的描述性短语,采用预训练的BERT模型进行特征提取,得到语言特征tokens fl。
本发明实施例优选的,所述融合编码器为第一预设层数的自注意力编码器;所述解码器为第二预设层数的自注意力解码器。
本发明实施例优选的,所述人-物交互定位模型的训练步骤包括:
获取训练样本集;所述训练样本集的每个样本均包括:图像样本、描述性短语样本以及图像样本中满足描述性短语样本的所有人、物边界框坐标;
基于训练样本集中每个训练样本,对预测结果集合和标签真值间进行匈牙利匹配,对每种匹配组合σ(i)计算以下代价函数:人-物边界框L1距离代价人/-物边界框GIoU代价/>以及交互得分代价/>
式中,分别为第i对中人、物边界框坐标真值,/>分别为第i种匹配中人、物边界框坐标预测结果,Φ为无真值匹配的检测结果集,αb、αg、αs分别为人-物边界框L1距离代价/>人/-物边界框GIoU代价/>以及交互得分代价/>的权重,si为第i对人/物对的交互得分;
通过最小化综合匹配代价函数以获得最优匹配结果。
基于最优匹配结果计算训练损失,达到预设收敛条件完成训练;其中,训练损失包括人-物边界框L1距离损失,人-物边界框GIoU损失,以及交互得分损失,损失函数表达式为:
式中,为匹配得到的最优匹配,/>为有真值匹配的检测结果集,βb、βg、βs为各损失函数的权重,γ为二值交叉熵损失/>的样本不均衡权重,/>为第i对人-物对的预测交互得分,当该人-物对有真值匹配时yi取1,否则取0,Nq为输出人-物对数目。
综上,本发明实施例公开了一种图像人物交互定位(Human-Object InteractionsGrounding)任务,以及一个基于Transformer定位模型,属于计算机视觉领域。该任务要求在给定图像和<人,交互行为,物>短语下,在图中定位出满足短语描述的人和物的边界框。本发明实施例方法基于Transformer编码器-解码器架构将定位问题视为集合预测问题,解决了人物交互场景下的多实例定位问题;不需要预训练的目标检测器或后处理,可实现端到端训练;并利用视觉-语言特征融合,深度挖掘跨模态信息,对交互关系进行建模。该方法能够高效准确地对复杂场景下的人物交互进行定位。
具体实施例,本发明实施例的一种基于Transformer模型的图像人-物交互定位方法,包括以下步骤:
步骤1:视觉模态与语言模态特征提取。
对于输入的图像,首先将尺寸调整到640×640,用预训练的backbone卷积神经网络ResNet50提取卷积特征图,再展平为其中Cv为通道数,Nv为特征token数目。将展平后的图像特征经过6层Transformer编码器进行编码,得到图像tokens fv。
对于输入的语言短语,将单词对应的word ID经过token嵌入转为token后,输入BERT模型进行编码,得到语言tokens其中,Cl为通道数,Nl为特征token数目。
步骤2:视觉-语言特征融合。将视觉tokens和语言tokens映射至一致的通道数,沿token数维度拼接输入视觉-语言融合编码器进行特征融合。其中,编码器主要有6个相同的encoder层组成,其中每个encoder层主要包含一个多头多尺度自注意力(multi-headmulti-scale self-attention)模块和一个前馈网络(feed-forward network),这两个部分都有一个残差连接(residual connection),后接一个层标准化(LayerNormalization)。
在编码器中,输入的视觉-语言特征为值(Values)Vf,生成可学习的融合位置编码,作为视觉-语言融合编码与视觉-语言特征相加,作为查询(Queries)Qf和键(Keys)Kf,输入层数为6的融合编码器进行自注意力(self-attention)操作:
其中为输入第i层编码器的融合特征,/>为缩放因子;融合编码器的输出Eenc包含跨模态全局记忆,与xi维度相同。通过视觉-语言特征中的自注意力,融合编码器可以在不同模态的tokens间建立语义联系。
步骤3:定位解码。解码器将Nq个HOI Quries解码为Nq个输出embedding 解码器同样6个相同的encoder层组成,其中每个encoder层主要包含一个多头多尺度自注意力(multi-head multi-scale self-attention)模块和一个前馈网络(feed-forward network),都由残差连接(residual connection),后接一个层标准化(Layer Normalization)。
步骤4:定位预测。预测头进一步使用解码后的输出embeddingEdec生成Nq个预测结果。对应的人-物对的边界框,可以通过人边界框预测头和物边界框预测头分别得到,每一对边界框的交互得分则通过交互预测头得到,预测头都是简单的MLP层。此外,与单目标定位的输出不同,Nq通常大于图像中包含的HOI的数量。因此,模型会学习一个额外的交互得分,来模拟一对人-物之间的存在对应交互的概率,以表征人-物对之间的交互关系;通过交互预测头,配对不正确、交互关系不符、或是重复的人-物边界框对,都会被分配较低的分数。
请参阅图3,本发明实施例提出的模型在HOI数据集V-COCO上进行了测试,该数据集包含多种场景、由简单到复杂、由单实例到多实例的HOI场景。在两个数据集上测试3个定位评价指标:准确度,人边界框平均IoU,以及物边界框平均IoU。同时基于现有先进方法设计了的2个对比模型:其中VG(Visual Grounding)模型(具体解释性的可参阅,JiajunDeng,Zhengyuan Yang,Tianlang Chen,Wengang Zhou,and Houqiang Li,“Transvg:End-to-end visual grounding with transformers,”in ICCV,2021.)由基于Transformer编码器的跨模态视觉定位模型改进得到其仅能输出单个实例结果;HOI-Det(HOI Detection)模型(具体解释性的可参阅,Masato Tamura,Hiroki Ohashi,and Tomoaki Yoshinaga,“Qpic:Query-based pairwise human-object interaction detection with image-widecontextual information,”in CVPR,2021.)由基于Transformer编码器-解码器的HOI检测模型改进得到,其无法利用语言特征。本发明提出的模型与对比模型的性能比较结果如表1所示。
表1.与两个对比模型在V-COCO数据集上的评价结果比较
本发明实施例的方法在多个指标下的表现均超过了比较模型,能够准确匹配和定位场景中的人物交互实例,处于此任务的领先水平。本发明解决了描述人物交互,并且存在多个人/物实例的问题,可以准确定位并匹配复杂场景下的多个人/物实例;本发明为端到端的可学习框架,省去了复杂的多阶段以及后处理流程,简化了定位流程以及训练过程;采用优越的编码器-解码器架构,极大提高了定位的准确性和性能表现。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
本发明再一实施例中,本发明实施例提供的一种基于Transformer模型的图像人-物交互定位系统,包括:
获取模块,用于获取待预测图像以及描述性短语;其中,所述描述性短语用于描述待预测图像中的人-物交互关系;所述待预测图像包括人-物交互场景;
特征提取模块,用于对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征;
预测定位模块,用于将图像特征以及语言特征输入预训练好的人-物交互定位模型,输出获得待预测图像所有符合描述性短语的人、物定位框,实现人-物交互定位;
其中,所述人-物交互定位模型包括:
融合编码器,用于输入待融合的视觉-语言特征并进行跨模态融合,获得融合后的跨模态特征;其中,所述待融合的视觉-语言特征的为将图像特征以及语言特征映射至一致的通道,并沿特征维度拼接形成的特征;
解码器及预测头,用于输入融合后的跨模态特征并进行解码,通过预测头预测获得待预测图像中所有符合描述性短语的人、物定位框,实现人-物交互定位;
所述融合编码器为第一预设层数的自注意力编码器;所述解码器为第二预设层数的自注意力解码器。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于Transformer模型的图像人-物交互定位方法,其特征在于,包括以下步骤:
获取待预测图像以及描述性短语;其中,所述描述性短语用于描述待预测图像中的人-物交互关系;所述待预测图像包括人-物交互场景;
对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征;
将图像特征以及语言特征输入预训练好的人-物交互定位模型,输出获得待预测图像所有符合描述性短语的人、物定位框,实现人-物交互定位;
其中,所述人-物交互定位模型包括:
融合编码器,用于输入待融合的视觉-语言特征并进行跨模态融合,获得融合后的跨模态特征;其中,所述待融合的视觉-语言特征的为将图像特征以及语言特征映射至一致的通道,并沿特征维度拼接形成的特征;
解码器及预测头,用于输入融合后的跨模态特征并进行解码,通过预测头预测获得待预测图像中所有符合描述性短语的人、物定位框,实现人-物交互定位;
所述融合编码器为第一预设层数的自注意力编码器;所述解码器为第二预设层数的自注意力解码器。
2.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法,其特征在于,所述描述性短语的表述形式为<human,interaction,object>三元组。
3.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法,其特征在于,所述对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征的步骤具体包括:
对待预测图像采用预训练的backbone卷积神经网络以及Transformer编码器进行特征提取,得到图像特征;
对描述性短语采用预训练的BERT模型进行特征提取,得到语言特征。
4.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法,其特征在于,第一预设层数和第二预设层数均为6层。
5.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法,其特征在于,所述预训练好的人-物交互定位模型的获取步骤包括:
获取训练样本集;所述训练样本集的每个样本均包括:图像样本、描述性短语样本以及图像样本中满足描述性短语样本的所有人、物边界框坐标标签;
基于训练样本集中每个训练样本,对预测结果集合和标签真值间进行匈牙利匹配,对每种匹配组合σ(i)计算代价函数,通过最小化综合匹配代价函数以获得最优匹配结果;其中,所述代价函数包括:人-物边界框L1距离代价人-物边界框GIoU代价/>以及交互得分代价/>表达式分别为:
式中,分别为第i对中人、物边界框坐标真值,/>分别为第i种匹配中人、物边界框坐标预测结果,Φ为无真值匹配的检测结果集,αb、αg、αs分别为人-物边界框L1距离代价/>人/-物边界框GIoU代价/>以及交互得分代价/>的权重,si为第i对人/物对的交互得分;
基于最优匹配结果计算训练损失,达到预设收敛条件完成训练;其中,训练损失包括人-物边界框L1距离损失、人-物边界框GIoU损失以及交互得分损失,表达式分别为:
式中,为匹配得到的最优匹配,/>为有真值匹配的检测结果集,βb、βg、βs为各损失函数的权重,γ为二值交叉熵损失/>的样本不均衡权重,/>为第i对人-物对的预测交互得分,当该人-物对有真值匹配时yi取1,否则取0,Nq为输出人-物对数目。
6.一种基于Transformer模型的图像人-物交互定位系统,其特征在于,包括:
获取模块,用于获取待预测图像以及描述性短语;其中,所述描述性短语用于描述待预测图像中的人-物交互关系;所述待预测图像包括人-物交互场景;
特征提取模块,用于对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征;
预测定位模块,用于将图像特征以及语言特征输入预训练好的人-物交互定位模型,输出获得待预测图像所有符合描述性短语的人、物定位框,实现人-物交互定位;
其中,所述人-物交互定位模型包括:
融合编码器,用于输入待融合的视觉-语言特征并进行跨模态融合,获得融合后的跨模态特征;其中,所述待融合的视觉-语言特征的为将图像特征以及语言特征映射至一致的通道,并沿特征维度拼接形成的特征;
解码器及预测头,用于输入融合后的跨模态特征并进行解码,通过预测头预测获得待预测图像中所有符合描述性短语的人、物定位框,实现人-物交互定位;
所述融合编码器为第一预设层数的自注意力编码器;所述解码器为第二预设层数的自注意力解码器。
7.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统,其特征在于,所述获取模块中,描述性短语的表述形式为<human,interaction,object>三元组。
8.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统,其特征在于,所述特征提取模块中,对待预测图像以及描述性短语分别进行特征提取,获得图像特征以及语言特征的步骤具体包括:
对待预测图像采用预训练的backbone卷积神经网络以及Transformer编码器进行特征提取,得到图像特征;
对描述性短语采用预训练的BERT模型进行特征提取,得到语言特征。
9.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统,其特征在于,所述预测定位模块中,第一预设层数和第二预设层数均为6层。
10.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统,其特征在于,所述预测定位模块中,预训练好的人-物交互定位模型的获取步骤包括:
获取训练样本集;所述训练样本集的每个样本均包括:图像样本、描述性短语样本以及图像样本中满足描述性短语样本的所有人、物边界框坐标标签;
基于训练样本集中每个训练样本,对预测结果集合和标签真值间进行匈牙利匹配,对每种匹配组合σ(i)计算代价函数,通过最小化综合匹配代价函数以获得最优匹配结果;其中,所述代价函数包括:人-物边界框L1距离代价人-物边界框GIoU代价/>以及交互得分代价/>表达式分别为:
式中,分别为第i对中人、物边界框坐标真值,/>分别为第i种匹配中人、物边界框坐标预测结果,Φ为无真值匹配的检测结果集,αb、αg、αs分别为人-物边界框L1距离代价/>人/-物边界框GIoU代价/>以及交互得分代价/>的权重,si为第i对人/物对的交互得分;
基于最优匹配结果计算训练损失,达到预设收敛条件完成训练;其中,训练损失包括人-物边界框L1距离损失、人-物边界框GIoU损失以及交互得分损失,表达式分别为:
式中,为匹配得到的最优匹配,/>为有真值匹配的检测结果集,βb、βg、βs为各损失函数的权重,γ为二值交叉熵损失/>的样本不均衡权重,/>为第i对人-物对的预测交互得分,当该人-物对有真值匹配时yi取1,否则取0,Nq为输出人-物对数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210213195.2A CN114663915B (zh) | 2022-03-04 | 2022-03-04 | 基于Transformer模型的图像人-物交互定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210213195.2A CN114663915B (zh) | 2022-03-04 | 2022-03-04 | 基于Transformer模型的图像人-物交互定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114663915A CN114663915A (zh) | 2022-06-24 |
CN114663915B true CN114663915B (zh) | 2024-04-05 |
Family
ID=82028400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210213195.2A Active CN114663915B (zh) | 2022-03-04 | 2022-03-04 | 基于Transformer模型的图像人-物交互定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114663915B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973333B (zh) * | 2022-07-13 | 2023-07-25 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN115097941B (zh) * | 2022-07-13 | 2023-10-10 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN115019314A (zh) * | 2022-08-08 | 2022-09-06 | 浪潮电子信息产业股份有限公司 | 一种商品价格识别方法、装置、设备及存储介质 |
CN115063640B (zh) * | 2022-08-15 | 2022-12-16 | 阿里巴巴(中国)有限公司 | 交互检测方法、交互检测模型的预训练方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210040326A (ko) * | 2020-03-30 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체 |
CN113449801A (zh) * | 2021-07-08 | 2021-09-28 | 西安交通大学 | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN113792113A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言模型获得及任务处理方法、装置、设备及介质 |
CN114005178A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
CN114005177A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
-
2022
- 2022-03-04 CN CN202210213195.2A patent/CN114663915B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210040326A (ko) * | 2020-03-30 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN113792113A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言模型获得及任务处理方法、装置、设备及介质 |
CN113449801A (zh) * | 2021-07-08 | 2021-09-28 | 西安交通大学 | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 |
CN114005178A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
CN114005177A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
Non-Patent Citations (2)
Title |
---|
跨层多模型特征融合与因果卷积解码的图像描述;罗会兰;岳亮亮;;中国图象图形学报;20200812(08);全文 * |
通过细粒度的语义特征与Transformer丰富图像描述;王俊豪;罗轶凤;;华东师范大学学报(自然科学版);20200925(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114663915A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114663915B (zh) | 基于Transformer模型的图像人-物交互定位方法及系统 | |
CN107273458B (zh) | 深度模型训练方法及装置、图像检索方法及装置 | |
CN112734881B (zh) | 基于显著性场景图分析的文本合成图像方法及系统 | |
CN110633683A (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
WO2021243903A1 (zh) | 自然语言至结构化查询语言的转换方法及系统 | |
CN114092707A (zh) | 一种图像文本视觉问答方法、系统及存储介质 | |
CN113902964A (zh) | 基于关键词感知的多模态注意力视频问答方法与系统 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113449085A (zh) | 多模态情感分类方法、装置以及电子设备 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
WO2022206094A1 (zh) | 用于生成字幕器以及输出字幕的方法和装置 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN115169448A (zh) | 一种基于深度学习的三维描述生成和视觉定位的统一方法 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN114821424A (zh) | 视频分析方法、视频分析装置、计算机设备、存储介质 | |
CN114707017A (zh) | 视觉问答方法、装置、电子设备和存储介质 | |
CN103793720A (zh) | 一种眼睛定位方法和系统 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
CN112287690A (zh) | 基于条件句子生成和跨模态重排的手语翻译方法 | |
CN116311535B (zh) | 基于人物交互检测的危险行为分析方法及系统 | |
CN117173731B (zh) | 一种模型训练的方法、图像处理的方法以及相关装置 | |
Liang et al. | Language-Guided Visual Aggregation Network for Video Question Answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |