CN114913546A - 一种人物交互关系检测方法及系统 - Google Patents

一种人物交互关系检测方法及系统 Download PDF

Info

Publication number
CN114913546A
CN114913546A CN202210457706.5A CN202210457706A CN114913546A CN 114913546 A CN114913546 A CN 114913546A CN 202210457706 A CN202210457706 A CN 202210457706A CN 114913546 A CN114913546 A CN 114913546A
Authority
CN
China
Prior art keywords
level
interaction
interactive
relationship
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210457706.5A
Other languages
English (en)
Inventor
彭欢
高常鑫
桑农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210457706.5A priority Critical patent/CN114913546A/zh
Publication of CN114913546A publication Critical patent/CN114913546A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人物交互关系检测方法及系统,属于计算机视觉技术领域。现有的人物交互关系检测方法需要用一个共享的预测器同时检测人、物体和它们对应的交互关系,会造成实例级和交互关系级在注意力视野上的不一致。为此,本发明提出一种并行推理网络,其同时包含了两个分别针对实例级定位和交互关系级语义理解的独立预测器。前者通过感知实例的末端区域从而聚焦于实例级的定位;后者扩散视野到交互关系区域,从而更好地理解交互关系级语义。并且本发明的实例级预测器的实例级查询向量和关系级预测器的交互关系级查询向量是一一对应的关系,因此它们之间并不需要任何实例与关系的匹配程序,从而大大减轻了计算负担。

Description

一种人物交互关系检测方法及系统
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种人物交互关系检测方法及系统。
背景技术
现实世界中包含大量的复杂的以人为中心的活动,而这些以人为中心的活动主要由人物交互关系构成。为了让机器充分理解这些复杂人类活动,本发明便需要进行人物交互关系检测。具体来讲,人物交互关系检测任务由实例检测和关系识别两个子任务构成。只有同时完成好这两个子任务,才有可能构建出好的人物交互关系检测器。
以往的人物交互关系检测方法对这两个子任务的处理方式各有不同。早期传统的两阶段人物交互关系检测方法首先利用现成的(off-the-shelf)目标检测器去定位出所有物体并提取出对应物体的特征。之后再利用各种特征融合以及人物配对的方法,构建出人-物匹配对。此时可以认为这些人-物匹配对之间更可能存在交互关系。再以这些人-物匹配对作为输入,送入到关系理解网络中,分类输出人物交互关系,从而得到人-物位置和对应的交互关系类别。这些方法由于目标检测和关系理解两个任务分开学习,无法端到端训练,因此无法很好地检测出那些存在交互关系的实例。
后面出现的一阶段的人物交互关系检测器为了缓解这些问题,提出利用多任务学习方式同时完成两个子任务。这些方法并行处理两个子任务时仍然需要一个交互关系与人物匹配的过程,才能有效地区分开不同的人物交互关系实例。因此以往并行处理的方法效率并不高。另一些方法利用共享预测器同时预测人-物对和交互关系的方法虽然不需要匹配过程。但又由于实例(人和物体)定位任务与关系理解任务被捆绑在一起完成,而这两个任务所关注的重点区域聚焦并不一致,导致最终的人物交互关系检测效果不够好,无法有效地理解一些复杂的容易让人混淆的交互关系。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种人物交互关系检测方法及系统,旨在解决多任务注意力视野范围不一致的技术问题。
为实现上述目的,第一方面,本发明提供了一种人物交互关系检测方法,包括:
提取待识别图像的特征,并利用Transformer编码器对提取的特征进行全局上下文信息编码;
将编码后的特征同时输入并行的实例级预测器和交互关系级预测器,并将所述实例级预测器和交互关系级预测器的输出一一对应进行组合,得到至少一组人物交互关系;
其中:
所述实例级预测器包括第一Transformer解码器和三个前馈神经网络,所述第一Transformer解码器利用第一查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述三个前馈神经网络,分别得到人体边界框、物体边界框和物体类别;
所述交互关系级预测器包括第二Transformer解码器和两个前馈神经网络,所述第二Transformer解码器利用第二查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述两个前馈神经网络,分别得到交互关系边界框和交互关系类别;
所述第一查询向量和第二查询向量一一对应。
进一步地,获得至少一组人物交互关系之后,利用公式
Figure BDA0003619335520000021
Figure BDA0003619335520000022
计算第i组人物交互关系预测分数;滤除预测分数低于分数阈值的人物交互关系组;
其中,
Figure BDA0003619335520000031
代表第i组人物交互关系预测分数,
Figure BDA0003619335520000032
代表实例级预测器中第i个输出物体的最大类别概率的得分,
Figure BDA0003619335520000033
代表交互关系级预测器中第i个输出关系的多类别概率得分。
进一步地,对剩余人物交互关系组进行去重,获得不重复的人物交互关系。
进一步地,所述对剩余人物交互关系组进行去重,获得不重复的人物交互关系,包括:
计算剩余人物交互关系组中任意两组人物交互关系预测之间的三叉戟交并比,若所述三叉戟交并比高于重叠阈值,则滤除其中人物交互关系预测分数较低的人物交互关系组。
进一步地,所述第一Transformer解码器和第二Transformer解码器为三层Transformer解码器。
进一步地,根据损失函数更新所述人物交互关系检测系统的模型参数,所述损失函数包括人体边界框、物体边界框回归损失,人体边界框、物体边界框交并比损失,物体类别损失,交互关系边界框回归损失,交互关系交并比损失,交互关系类别损失,人体与物体的联合边界框与交互关系边界框的一致性约束损失。
第二方面,本发明提供了一种人物交互关系检测系统,包括:图像特征提取器,实例级预测器、交互关系级预测器以及后处理单元;其中,
所述图像特征提取器,用于提取待识别图像的特征,并利用Transformer编码器对提取的特征进行全局上下文信息编码;并将编码后的特征同时输入并行的实例级预测器和交互关系级预测器;
所述实例级预测器包括第一Transformer解码器和三个前馈神经网络,所述第一Transformer解码器利用第一查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述三个前馈神经网络,分别得到人体边界框、物体边界框和物体类别;
所述交互关系级预测器包括第二Transformer解码器和两个前馈神经网络,所述第二Transformer解码器利用第二查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述两个前馈神经网络,分别得到交互关系边界框和交互关系类别;且所述第二查询向量和第一查询向量一一对应;
所述后处理单元,用于将所述实例级预测器和交互关系级预测器的输出一一对应进行组合,得到至少一组人物交互关系。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明的实例级预测器的实例级查询向量和关系级预测器的交互关系级查询向量是一一对应的关系,因此他们之间并不需要任何实例与关系的匹配程序,从而在不增加额外的计算量的前提下更好地理解一些复杂的容易让人混淆的交互关系。
(2)本发明在训练过程中设计了一个人体与物体的联合边界框与交互关系边界框的一致性约束损失,从而使得人-物对定位框的联合区域与关系理解的整体关注区域尽可能一致,避免关系理解偏离了人-物对本身。
(3)在推理过程中,本发明设计了三叉戟型非极大值抑制后处理模块(Trident-NMS),综合考虑人、物以及关系区域的重叠性,从而达到更好的后处理效果。
附图说明
图1是本发明提供的一种人物交互关系检测方法的流程示意图;
图2是本发明提供的一种人物交互关系检测系统的框图。
具体实施方式
为了使本发明的目的、系统组成、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限制本发明。此外,下面所述的本发明的各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互结合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
参阅图1,本发明提供了一种人物交互关系检测方法,该方法基于本发明提出的并行推理网络来解决多任务注意力视野范围并不一致的问题,目标是在不增加额外的计算量的前提下更好地理解一些复杂的容易让人混淆的交互关系。具体地,并行推理网络包含了两个并行的预测器,他们分别关注实例级定位和关系级理解。并且本发明的实例级预测器的实例级查询向量和关系级预测器的交互关系级查询向量是一一对应的关系,因此他们之间并不需要任何实例与关系的匹配程序,从而大大减轻了计算负担。除此以外,本发明在训练过程中设计了一个人-物框与关系框的一致性约束损失,从而使得人-物对定位框的联合区域与关系理解的整体关注区域尽可能一致,避免关系理解偏离了人-物对本身。在推理过程中,本发明设计了三叉戟型非极大值抑制后处理模块(Trident-NMS),综合考虑人、物以及关系区域的重叠性,从而达到更好的后处理效果。
参阅图2,展示了并行推理网络的整体框架。并行推理网络在结构上主要包含图像全局特征提取及信息交互模块和两个平行预测器模块(实例级预测器和交互关系级预测器)。两个预测器分别用来解耦实例信息(比如人体边界框,物体边界框,物体类别)和交互关系信息(交互关系边界框,交互关系类别)。此后,分别利用分别针对实例级和交互关系级的损失函数来学习实例的位置和每一个人-物体对之间的交互关系。最后,引入三叉戟型非极大值抑制来有效地滤除重复的人物交互关系预测。图2中的整体框架包含四部分:图像特征提取模块,实例级预测器和交互关系级预测器,训练和后处理单元。本发明首先利用CNN和Transformer结合的结构提取序列化的视觉特征。再利用实例级预测器预测出人和物体的类别和边界框,利用交互关系级预测器预测出交互关系的类别和联合框。训练过程中采用多个损失函数联合组成的多任务训练联合方式,评估过程中本发明使用了三叉戟型非极大值抑制方法。
(1)图像特征提取模块
整个图像全局特征提取及信息交互模块包括一个标准的卷积神经网络主干(CNNBackbone)fc和一个Transformer编码器fe。前置的常规卷积神经网络主干将输入图像x∈R3 ×H×W转变成全局上下文特征图z∈Rc×H′×W′,其中图像被下采样到通道维度为c且空间尺寸为(H′,W′)的形状。然后,全局上下文特征图被序列化为连续的标记序列,其中特征图的空间结构被折叠成一个维度为H′×W′的标记序列。之后,标记序列会被线性映射为T={ti|ti∈Rc′},其中Nq=H′×W′。最后,这些被映射完成的标记序列会被送入Transformer编码器。
对于Transformer编码器部分,每个编码器层都依照标准的Transformer架构,其中包括多头自注意力模块(Multi-head Self Attention,MSA)和前馈神经网络(FeedForward Network,FFN)。额外的位置嵌入qe∈Rc′×H′×W′也会被添加到序列化的连续标记中从而补充位置信息。在自注意力交互层的基础上,编码器可以将前面CNN输出的全局上下文特征图映射成上下文信息更丰富的特征图。最后,这些编码好的图像特征集合{di|di∈Rc′}会被表征为视觉记忆E=fe(T,qe)。这个视觉记忆E包括了图像中完整且丰富的上下文信息。
(2)实例级预测器
实例级预测器包括一个三层的标准Transformer解码器和三个小的前馈神经网络(Feed Forward Networks,FFNs)。Transformer解码器fip会对视觉记忆E依据一系列随机初始化可学习的实例级查询向量
Figure BDA0003619335520000061
进行解码,其中每个查询向量均会加上正弦型位置嵌入
Figure BDA0003619335520000071
实例级查询向量被用来训练学习出更精准的实例位置,其注意力更集中在那些有关于实例位置的局部信息。三个小的前馈神经网络(FFN)包括人体边界框FFNφhb,物体边界框FFNφob,物体类别FFNφoc,它们分别是针对人体边界框
Figure BDA0003619335520000072
物体边界框
Figure BDA0003619335520000073
和物体类别
Figure BDA0003619335520000074
的特征变换。具体可由如下公式表示为:
Figure BDA0003619335520000075
Figure BDA0003619335520000076
Figure BDA0003619335520000077
可以理解的是,一个实例级查询向量对应一组人体边界框、物体边界框和物体类别。
(3)交互关系级预测器
本发明将交互关系理解问题从人物交互关系检测(HOI Detection)问题中解耦出来,并用一个交互关系级预测器从更大尺度范围的语义中推理出交互关系。本发明提出用一个交互关系边界框去指导交互关系级预测器感知人和物体之间的语义关系。交互关系级预测器包含一个三层的标准Transformer解码器frp和两个小的前馈神经网络FFNs。交互关系级查询向量
Figure BDA0003619335520000078
被随机初始化,交互关系级位置嵌入
Figure BDA0003619335520000079
被设定为正弦模式,两者相加之后一起送入Transformer解码器frp中,利用其对视觉记忆E进行交互关系级的解码,获取到图像中交互关系级的特征。再将从Transformer解码器frp输出的交互关系特征分别送入交互关系边界框FFNφrb和交互关系类别FFNφrc,它们分别可解耦出交互关系边界框
Figure BDA00036193355200000710
和交互关系类别
Figure BDA00036193355200000711
具体可由如下公式表示为:
Figure BDA00036193355200000712
Figure BDA0003619335520000081
可以理解的是,一个交互关系级查询向量对应一组交互关系边界框和交互关系类别。
归因于交互关系边界框的约束,交互关系级预测器中的Transformer解码器会被指导去扩大注意力视野(此现象可从图2中观察到)。交互关系级查询向量Qr也会更多地关注人和物体发生交互关系的整个区域,而不是局限于交互关系中的某一个人或者物体。因此,相比于以往的交互关系预测方法,本发明的交互关系预测器可以更全面细致地理解关系语义,从而能更准确地识别出复杂的交互关系。
另外,为了将交互关系级预测器输出的交互关系类别
Figure BDA0003619335520000082
与实例级预测器输出的体边界框
Figure BDA0003619335520000083
物体边界框
Figure BDA0003619335520000084
和物体类别
Figure BDA0003619335520000085
相匹配,本发明采取了交互关系级查询向量Qr与实例级查询向量Qi一对一按顺序捆绑的方式进行预测。具体地,对于实例级预测器的第i个实例输出
Figure BDA0003619335520000086
和交互关系级预测器的第i个交互关系输出
Figure BDA0003619335520000087
其对应的人物交互关系标签会是同一个,
Figure BDA0003619335520000088
描述的是人体框
Figure BDA0003619335520000089
和物体框
Figure BDA00036193355200000810
之间的交互关系。这样的简单设计可以让不同级别的预测器聚焦于不同大小的注意力视野的同时,摒弃掉以往复杂的实例和交互关系匹配步骤比如HOTR中HOPointer,从而在更小的计算量下达到更好的人物交互关系检测性能。
(4)训练和后处理单元
并行推理网络的训练损失函数计算步骤包含两部分:交互关系预测和标签之间的二分图匹配和交互关系匹配对的损失计算。
对于二分图匹配部分,本发明依据DETR的匹配步骤使用匈牙利匹配算法。首先利用φ(无交互关系)将每张图像中的人物交互关系标签填充到长度为Nq的序列。然后利用匈牙利算法在Nq个元素的序列
Figure BDA00036193355200000811
的所有可能排列中找到最优的标签分配方案
Figure BDA00036193355200000812
具体可由如下公式表示为:
Figure BDA0003619335520000091
其中
Figure BDA0003619335520000092
代表第i个人物交互关系标签和第j个人物交互关系预测之间的匹配代价,ω(i)代表与第i个人物交互关系标签匹配上的人物交互关系预测,
Figure BDA0003619335520000093
代表序列长度为Nq的预测与标签之间所有可能的匹配排列。
匹配代价
Figure BDA0003619335520000094
包含六种类型的代价:实例边界框回归代价
Figure BDA0003619335520000095
交并比(IoU)代价
Figure BDA0003619335520000096
物体类别代价
Figure BDA0003619335520000097
交互关系类别代价
Figure BDA0003619335520000098
交互关系边界框回归代价
Figure BDA0003619335520000099
交互关系交并比代价
Figure BDA00036193355200000910
上述的这些代价可用公式表示为:
Figure BDA00036193355200000911
Figure BDA00036193355200000912
Figure BDA00036193355200000913
Figure BDA00036193355200000914
Figure BDA00036193355200000915
Figure BDA00036193355200000916
Figure BDA00036193355200000917
其中ηb、ηu、ηc、ηr、ηrb和ηru是调整每类代价的权重值的超参数,Φ代表对应到φ(无交互关系预测)的标签索引集合,
Figure BDA00036193355200000918
在第i个人物交互关系标签不属于空标签时为1,否则为0,∈是一个避免出现除数为零的较小常量,GIoU(·,·)代表广义的交并比(Generalized IoU),
Figure BDA00036193355200000919
Figure BDA00036193355200000920
代表第i个正则化到[0,1]4之间的人体边界框标签、物体边界框标签和交互关系边界框标签,
Figure BDA00036193355200000921
Figure BDA00036193355200000922
代表第j个正则化到[0,1]4之间的人体边界框预测、物体边界框预测和交互关系边界框预测,
Figure BDA0003619335520000101
代表第i个长度为Nobj的物体类别独热标签向量,
Figure BDA0003619335520000102
代表第i个长度为Nrel的交互关系多类别标签向量,
Figure BDA0003619335520000103
代表第j个长度为Nobj+1的物体类别预测概率向量,其中包含了背景类别概率预测,
Figure BDA0003619335520000104
代表第j个长度为Nrel的交互关系多类别预测概率向量,多个交互关系可同时存在。
上述匹配代价中的前两项边界框匹配代价
Figure BDA0003619335520000105
和交并比匹配代价
Figure BDA0003619335520000106
都是依据DETR设定的。在计算
Figure BDA0003619335520000107
Figure BDA0003619335520000108
时,并没有选择最小化人体和物体边界框的平均匹配代价,而是最小化两者中较大的匹配代价,从而避免出现由于其中一个匹配代价显著低于另一个时匹配出偏差甚远的预测结果。物体类别匹配代价
Figure BDA0003619335520000109
表征为物体标签类别的预测概率的负数,对应真值标签的预测概率越大,则物体类别匹配代价越小。交互关系类别匹配代价
Figure BDA00036193355200001010
表征为一对人和物体之间所有正负交互关系样本的预测概率加权和。交互关系类别匹配代价
Figure BDA00036193355200001011
同时考虑了正负交互关系样本,并且利用正样本数量的倒数作为交互关系类别匹配代价中正样本部分的权重,反之亦然。由于通常交互关系正样本的数量会比负样本的少很多,因此两者之间的平衡非常有必要。交互关系边界框回归代价
Figure BDA00036193355200001012
表征为交互关系预测边界框与人物联合边界框标签之间的
Figure BDA00036193355200001013
距离。交互关系交并比代价
Figure BDA00036193355200001014
表征为交互关系预测边界框与人物联合边界框标签之间的广义交并比的负数。
训练过程中需要优化的损失函数可依据交互关系匹配对的原则按照如下公式进行计算:
Figure BDA00036193355200001015
Figure BDA00036193355200001016
Figure BDA0003619335520000111
Figure BDA0003619335520000112
Figure BDA0003619335520000113
Figure BDA0003619335520000114
Figure BDA0003619335520000115
Figure BDA0003619335520000116
其中,
Figure BDA0003619335520000117
为人体边界框、物体边界框回归损失,
Figure BDA0003619335520000118
为人体边界框、物体边界框交并比损失,
Figure BDA0003619335520000119
为物体类别损失,
Figure BDA00036193355200001110
为交互关系类别损失,λrb为交互关系边界框回归损失,
Figure BDA00036193355200001111
为交互关系交并比损失,
Figure BDA00036193355200001112
为人体与物体的联合边界框与交互关系边界框的一致性约束损失。需要说明的是,人体与物体的联合边界框就是能同时包含住人体边界框和物体边界框的边界框。λb、λu、λc、λr、λrb、λru和λconsis是调整每个损失函数的权重值的超参数,Nq是预测序列长度,
Figure BDA00036193355200001113
是第i个交互关系标签匹配到的交互关系预测索引,
Figure BDA00036193355200001114
是对应到真实标签的索引集合,
Figure BDA00036193355200001115
是真实标签指示器,如果存在真实标签则为1,
Figure BDA0003619335520000121
是空标签指示器,如果存在空标签则为1,lf(·,·)是以元素为单位的焦点损失函数(element-wise focalloss function)。对于focal loss的超参数,本发明使用focal loss中的默认设定,其余变量含义参照匹配代价
Figure BDA0003619335520000122
中公式的解释说明。
并行推理网络的测试过程可以被分为两部分:人物交互关系的预测结果计算和三叉戟型非极大值抑制后处理模块。
为了获取最终的人物交互关系检测结果,本发明需要利用实例级预测器输出人体边界框、物体边界框和物体类别,利用交互关系级预测器输出交互关系类别。基于上述的这种预测,本发明可以按如下公式计算最终的人物交互关系预测分数:
Figure BDA0003619335520000123
其中
Figure BDA0003619335520000124
代表实例级预测器中第i个输出物体的最大类别概率的得分,
Figure BDA0003619335520000125
代表交互关系级预测器中第i个输出关系的多类别概率得分。值得注意的是每个人-物体对仅包含一个确定类别的物体,但在这个人-物体对中却可能存在多个人物交互关系。
对于图像中预测的每类人物交互关系(HOI),本发明都依据上述公式计算出的人物交互关系预测得分,通过本发明提出的三叉戟型非极大值抑制后处理模块进行重复预测滤除。具体地,如果第i个和第j个人物交互关系预测之间的三叉戟交并比TriIoU(i,j)高于重叠阈值Thresnms,便会滤除其中人物交互关系预测得分较低的预测。TriIoU(i,j)的计算公式如下:
Figure BDA0003619335520000126
其中
Figure BDA0003619335520000127
Figure BDA0003619335520000128
分别代表第i个和j个人体边界框、物体边界框以及交互关系边界框之间的交并比。Wh、Wo和Wrel分别代表人体交并比、物体交并比以及交互关系交并比对应的权重。
为进一步验证本发明的实用性,本发明使用ResNet-50和ResNet-101作为并行推理网络的骨干特征提取器。并行推理网络中的Transformer编码器为6层,每层中的多头注意力模块(Multi-Head Self Attention Module)的头数设定为8个。实例级预测器和交互关系级预测器中的Transformer层数均设定为3层。并行推理网络中的视觉记忆(VisualMemory)的隐藏层维数设定为256。实例级查询向量和交互关系级查询向量的数量都设定为100个。针对人体边界框、物体边界框和交互关系边界框预测的前馈神经网络(Feed-Forward Networks,FFNs)均设定为三层配备ReLU非线性映射函数的全连接层,而针对物体类别和交互关系类别预测的前馈神经网络(Feed-Forward Networks,FFNs)分别设定为一层配备Softmax和Sigmoid非线性映射函数的全连接层。在训练过程中,本发明使用在MS-COCO数据集上训练过的DETR参数对并行推理网络进行网络权值初始化。本发明将边界框回归(包括人体、物体和交互关系)、边界框广义交并比(包括人体、物体和交互关系)、物体类别、交互关系类别和交互关系一致性的损失函数权重系数和匹配代价权重系数均分别设定为2.5、1、1、1和0.5。本发明通过AdamW优化器对整个并行推理网络进行优化,其中权值衰减(weight decay)设定为10-4。本发明对模型进行了150个周期(epoch)的训练,其中骨干特征网络的学习率设定为10-5,网络其余部分的学习率设定为10-4,学习率会分别在第100和130个周期时下降10倍。整个训练过程中每一次迭代的批次大小(batch size)被设定为16。
本发明的并行推理网络选择得分最高的100个检测结果进行验证评估,并在其后使用本发明提出的三叉戟型非极大值抑制模块(Trident-NMS)对并行推理网络输出的人物交互关系检测结果进行更进一步的重叠过滤。试验表明,本发明的并行推理网络可以在人物交互关系检测的两个公开评测基准HICO-DET和V-COCO上分别实现32.86和62.9的平均精度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种人物交互关系检测方法,其特征在于,包括:
提取待识别图像的特征,并利用Transformer编码器对提取的特征进行全局上下文信息编码;
将编码后的特征同时输入并行的实例级预测器和交互关系级预测器,并将所述实例级预测器和交互关系级预测器的输出一一对应进行组合,得到至少一组人物交互关系;
其中:
所述实例级预测器包括第一Transformer解码器和三个前馈神经网络,所述第一Transformer解码器利用第一查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述三个前馈神经网络,分别得到人体边界框、物体边界框和物体类别;
所述交互关系级预测器包括第二Transformer解码器和两个前馈神经网络,所述第二Transformer解码器利用第二查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述两个前馈神经网络,分别得到交互关系边界框和交互关系类别;
所述第一查询向量和第二查询向量一一对应。
2.根据权利要求1所述的人物交互关系检测方法,其特征在于,获得至少一组人物交互关系之后,利用公式
Figure FDA0003619335510000011
计算第i组人物交互关系预测分数;滤除预测分数低于分数阈值的人物交互关系组;
其中,
Figure FDA0003619335510000012
代表第i组人物交互关系预测分数,
Figure FDA0003619335510000013
代表实例级预测器中第i个输出物体的最大类别概率的得分,
Figure FDA0003619335510000014
代表交互关系级预测器中第i个输出关系的多类别概率得分。
3.根据权利要求2所述的人物交互关系检测方法,其特征在于,对剩余人物交互关系组进行去重,获得不重复的人物交互关系。
4.根据权利要求3所述的人物交互关系检测方法,其特征在于,所述对剩余人物交互关系组进行去重,获得不重复的人物交互关系,包括:
计算剩余人物交互关系组中任意两组人物交互关系预测之间的三叉戟交并比,若所述三叉戟交并比高于重叠阈值,则滤除其中人物交互关系预测分数较低的人物交互关系组。
5.根据权利要求1至4任一项所述的人物交互关系检测方法,其特征在于,所述第一Transformer解码器和第二Transformer解码器为三层Transformer解码器。
6.根据权利要求1所述的人物交互关系检测方法,其特征在于,根据损失函数更新所述实例级预测器和交互关系级预测器的网络参数,所述损失函数包括人体边界框、物体边界框回归损失,人体边界框、物体边界框交并比损失,物体类别损失,交互关系边界框回归损失,交互关系交并比损失,交互关系类别损失,人体与物体的联合边界框与交互关系边界框的一致性约束损失。
7.一种人物交互关系检测系统,其特征在于,包括:图像特征提取器,实例级预测器、交互关系级预测器以及后处理单元;其中,
所述图像特征提取器,用于提取待识别图像的特征,并利用Transformer编码器对提取的特征进行全局上下文信息编码;并将编码后的特征同时输入并行的实例级预测器和交互关系级预测器;
所述实例级预测器包括第一Transformer解码器和三个前馈神经网络,所述第一Transformer解码器利用第一查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述三个前馈神经网络,分别得到人体边界框、物体边界框和物体类别;
所述交互关系级预测器包括第二Transformer解码器和两个前馈神经网络,所述第二Transformer解码器利用第二查询向量对编码后的特征进行解码,并将解码得到的特征向量分别输入所述两个前馈神经网络,分别得到交互关系边界框和交互关系类别;且所述第二查询向量和第一查询向量一一对应;
所述后处理单元,用于将所述实例级预测器和交互关系级预测器的输出一一对应进行组合,得到多组人物交互关系,并进行低分预测过滤和重复预测过滤。
CN202210457706.5A 2022-04-27 2022-04-27 一种人物交互关系检测方法及系统 Pending CN114913546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210457706.5A CN114913546A (zh) 2022-04-27 2022-04-27 一种人物交互关系检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210457706.5A CN114913546A (zh) 2022-04-27 2022-04-27 一种人物交互关系检测方法及系统

Publications (1)

Publication Number Publication Date
CN114913546A true CN114913546A (zh) 2022-08-16

Family

ID=82763849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210457706.5A Pending CN114913546A (zh) 2022-04-27 2022-04-27 一种人物交互关系检测方法及系统

Country Status (1)

Country Link
CN (1) CN114913546A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662587A (zh) * 2023-07-31 2023-08-29 华侨大学 基于查询生成器的人物交互检测方法、装置及设备
CN117953590A (zh) * 2024-03-27 2024-04-30 武汉工程大学 一种三元交互动作检测方法、系统、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662587A (zh) * 2023-07-31 2023-08-29 华侨大学 基于查询生成器的人物交互检测方法、装置及设备
CN116662587B (zh) * 2023-07-31 2023-10-03 华侨大学 基于查询生成器的人物交互检测方法、装置及设备
CN117953590A (zh) * 2024-03-27 2024-04-30 武汉工程大学 一种三元交互动作检测方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN113158875B (zh) 基于多模态交互融合网络的图文情感分析方法及系统
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
CN105447473B (zh) 一种基于PCANet-CNN的任意姿态人脸表情识别方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109885671B (zh) 基于多任务学习的问答方法
CN112613303A (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN109443382A (zh) 基于特征提取与降维神经网络的视觉slam闭环检测方法
CN114913546A (zh) 一种人物交互关系检测方法及系统
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111985205A (zh) 一种方面级情感分类模型
CN110349229A (zh) 一种图像描述方法及装置
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN113298816A (zh) 一种遥感图像语义分割方法、装置和计算机设备
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
CN113129234A (zh) 一种场内外特征融合的残缺图像精细修复方法
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN112734037A (zh) 基于记忆引导的弱监督学习方法、计算机设备和存储介质
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination