CN111914622A - 一种基于深度学习的人物交互检测方法 - Google Patents

一种基于深度学习的人物交互检测方法 Download PDF

Info

Publication number
CN111914622A
CN111914622A CN202010548298.5A CN202010548298A CN111914622A CN 111914622 A CN111914622 A CN 111914622A CN 202010548298 A CN202010548298 A CN 202010548298A CN 111914622 A CN111914622 A CN 111914622A
Authority
CN
China
Prior art keywords
human
detection
interaction
semantic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010548298.5A
Other languages
English (en)
Other versions
CN111914622B (zh
Inventor
孔德慧
王志凯
吴永鹏
王少帆
李敬华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010548298.5A priority Critical patent/CN111914622B/zh
Publication of CN111914622A publication Critical patent/CN111914622A/zh
Application granted granted Critical
Publication of CN111914622B publication Critical patent/CN111914622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

公开一种基于深度学习的人物交互检测方法,其能够提升预测精度,使模型推理速度更快。该方法包括:(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人‑物体>对实例的人物交互检测;(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA‑Net来进行人物交互检测。

Description

一种基于深度学习的人物交互检测方法
技术领域
本发明涉及计算机视觉和人物交互检测的技术领域,尤其涉及一种基于深度学习的人物交互检测方法。
背景技术
行为识别在计算机视觉领域颇受关注,但是基于视频的行为识别大多是检测一个不足以代表真实生活场景的简单动作,扩展基于RGB图像的人类行为识别成为可行及必然的任务。人物交互检测(HOI Detection)要求模型明确地定位图像中人与物体的位置,同时正确预测其交互行为。通过研究人物交互检测来模拟人类认识周围世界的方式,可以促进服务型机器人技术的研究。同时,识别图像蕴含的人物交互行为,是实现机器自动理解图像主题、自动描述图像主要内容的关键技术之一。
近年来,随着深度学习的发展和人物交互检测数据集的公布,为高精度人物交互检测方法带来了新思路。基于深度学习的人物交互检测,大多通过提取人与物体的区域特征和人与物体粗糙的空间特征进行人物交互检测(例如iCAN),但是这些算法精度不高。为了进一步提高算法精度,PMFNet在人物交互检测中融入人体姿态信息,但是从不同角度、以不同焦距拍摄的同一人物交互行为在姿态上差异很大,利用人体姿态信息训练的模型鲁棒性不高;并且随着场景中人的数量的增加,提取场景中所有人的姿态信息会占用相当长的推理时间,使模型推理速度很慢,很难应用在实际产品中,以此代价换取细微的精度提升并不是解决问题的有效方法。另一个值得关注的问题是真实世界的数据往往面临着长尾分布这种极端不平衡问题,人物交互检测数据也存在天然的类别长尾现象。为了提升人物交互检测的罕见类别的性能,Xu et.al等人使用语义知识进行多模态联合嵌入学习,该模型学习了一个语义结构感知的动词嵌入空间,在推理阶段利用视觉特征和动词语义特征之间的语义相似度来检索最能描述被检测到的人、物对的动词。视觉特征和语义特征隶属不同模态的特征,利用彼此的语义相似度系数进行动词预测,弱化了视觉特征对模型的关键作用;并且语义特征并未融入模型中,导致该算法在罕见类别上精度有所提升,但在整体性能上仍然面临着精度低的问题。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于深度学习的人物交互检测方法,该方法通过构建面向人物交互检测的语义知识图和动词特征表示并使用空间先验知识作为注意力引导视觉特征的优化,不仅能够提升模型整体预测精度、保证模型推理速度,而且可以较好的对罕见类人物交互行为进行准确预测。
本发明的技术方案是:一种基于深度学习的人物交互检测方法,该方法包括以下阶段:
(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,
SKA-Net主要创新性包括:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据;其二,使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为;其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征;
所述阶段(1)中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器;
所述阶段(2)中,SKA-Net的输入为RGB图像
Figure BDA0002541543620000031
人的检测框信息
Figure BDA0002541543620000032
物体的检测框信息
Figure BDA0002541543620000033
输出为图像中所有的<人-物体>
对实例的交互行为得分
Figure BDA0002541543620000034
用公式(1)描述:
Figure BDA0002541543620000035
其中,
Figure BDA0002541543620000036
为图像
Figure BDA00025415436200000312
中m个人的集合,
Figure BDA0002541543620000038
为图像
Figure BDA0002541543620000039
中n个物体的集合,函数
Figure BDA00025415436200000310
对应SKA-Net算法模型,
Figure BDA00025415436200000311
表示m个人与n个物体交互所产生的m*n个<人-物体>对实例的交互行为得分。
本发明通过准确地预测人物交互行为以及更好的预测类别长尾数据,来提升预测精度;通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征,从而使模型推理速度更快。
附图说明
图1示出了根据本发明的基于深度学习的人物交互检测方法的SKA-Net整体流程图。
图2示出了根据本发明的基于深度学习的人物交互检测方法的SKA-Net网络结构设计。
图3示出了根据本发明的基于深度学习的人物交互检测方法的流程图。
具体实施方式
如图3所示,这种基于深度学习的人物交互检测方法,该方法包括以下阶段:
(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,
SKA-Net主要创新性包括:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据;其二,使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为;其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征;
所述阶段(1)中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器;
所述阶段(2)中,SKA-Net的输入为RGB图像
Figure BDA0002541543620000041
人的检测框信息
Figure BDA0002541543620000042
物体的检测框信息
Figure BDA0002541543620000043
输出为图像中所有的<人-物体>
对实例的交互行为得分
Figure BDA0002541543620000044
用公式(1)描述:
Figure BDA0002541543620000045
其中,
Figure BDA0002541543620000046
为图像
Figure BDA0002541543620000047
中m个人的集合,
Figure BDA0002541543620000048
为图像
Figure BDA0002541543620000049
中n个物体的集合,函数
Figure BDA00025415436200000410
对应SKA-Net算法模型,
Figure BDA00025415436200000411
表示m个人与n个物体交互所产生的m*n个<人-物体>对实例的交互行为得分。
本发明通过准确地预测人物交互行为以及更好的预测类别长尾数据,来提升预测精度;通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征,从而使模型推理速度更快。
优选地,SKA-Net采用多流网络结构,多流网络结构由人流、语义&物体流、动词流和空间流构成;为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征;原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图,并对全局特征图中人、物体位置进行感兴趣池化ROI Pooling操作以提取人、物体区域的特征图,最后对特征图进行最大池化Max Pooling操作得到最终的人、物体特征图;为了得到人、物体的视觉特征向量,使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层GAP将特征图池化为f维向量Ff,其中Ff表示人、物体的f维视觉特征向量。
优选地,对于空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp,空间特征图Msp的编码规则为:对于每一对<人、物体>对,空间特征图的第一通道称为人通道,对应人的检测框内的像素为1、检测框外的像素为0;空间特征图的第二通道称为物体通道,对应物体的检测框内的像素为1、检测框外的像素为0;最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域,并缩放为(64,64,2)的大小;
Msp通过浅层卷积神经网络fcnn进行特征提取,并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测,用公式(2)、(3)描述:
Figure BDA0002541543620000051
Figure BDA0002541543620000052
其中,
Figure BDA0002541543620000053
表示全连接层参数矩阵。
优选地,对于人流分支,输入为人的f维视觉特征向量
Figure BDA0002541543620000061
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算人流特征在各交互类别上的概率得分
Figure BDA0002541543620000062
用公式(4)-(6)描述:
Figure BDA0002541543620000063
Figure BDA0002541543620000064
Figure BDA0002541543620000065
其中,公式(4)和公式(6)表示两个全连接层运算,公式(5)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。
优选地,关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程,为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征,忽视无关位置特征,采用残差结构对视觉特征进行特征增强,语义注意力引导用公式(14)描述:
Figure BDA0002541543620000066
其中,
Figure BDA00025415436200000611
表示任意分支的视觉特征
Figure BDA00025415436200000612
经过语义注意力引导后的视觉特征,
Figure BDA00025415436200000613
表示由人-物体对位置信息构成的空间特征,
Figure BDA00025415436200000621
和表示特征向量对应元素相加,
Figure BDA00025415436200000614
表示特征向量对应元素相乘,通过
Figure BDA00025415436200000622
对视觉特征
Figure BDA00025415436200000615
各位置的注意力加权,增强视觉特征
Figure BDA00025415436200000616
的表达能力,突出与人物交互相关的区域特征,过滤与人物交互无关的区域特征。
优选地,对于语义&物体流分支,输入为物体的f维视觉特征向量
Figure BDA00025415436200000617
和面向人物交互检测的语义知识图输出的语义特征向量
Figure BDA00025415436200000618
的拼接向量
Figure BDA0002541543620000067
Figure BDA00025415436200000619
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算语义对象视觉特征在各交互类别上的概率得分
Figure BDA00025415436200000620
用公式(7)-(9)描述:
Figure BDA0002541543620000068
Figure BDA0002541543620000069
Figure BDA00025415436200000610
优选地,对于面向人物交互检测的语义知识图的构建及运算模式,首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量,并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行对象-动词的无向连接,由此构建了初始状态下的语义知识图;为了使得语义对象的特征表达能力更强,对初始状态下的语义知识图进行学习,使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力;使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习,使其聚集其它结点的语义信息;图卷积的第k层卷积运算过程用公式(15)、(16)描述:
Figure BDA0002541543620000071
Dii=∑j(A+I)ij (16)
其中,A为构建的语义知识图的邻接矩阵,表示图中各结点之间的连接情况,
Figure BDA0002541543620000072
表示邻接矩阵A被结点的度矩阵D归一化的过程,Fk是第k层结点的输入特征矩阵,Wk为第k层卷积操作的参数矩阵,Fk+1是经过第k层卷积学习后输出的结点特征矩阵,对于图卷积网络的输出特征Fk,在语义&物体流分支加以使用,为语义对象特征
Figure BDA0002541543620000073
优选地,对于动词流分支,输入为动词特征表示
Figure BDA0002541543620000074
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算动词特征表示在各交互类别上的概率得分
Figure BDA0002541543620000075
用公式(11)-(13)描述:
Figure BDA0002541543620000076
Figure BDA0002541543620000077
Figure BDA0002541543620000078
以下更详细地说明本发明。
本发明所提出的基于深度学习的人物交互检测算法可以分解为两阶段。1)目标检测:检测输入图像中的所有对象实例。2)人物交互检测:对图像中所有的<人-物体>对实例进行人物交互检测。SKA-Net网络结构设计如图2所示。
1)目标检测:该部分主要负责对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测。在实验中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器。
2)人物交互检测:人物交互行为的场景复杂,一个人可以同时对不同的对象进行交互,例如:“人坐在椅子上玩电脑”,简单地利用视觉特征不可能得到高性能预测。人物交互检测的本质是动词检测,需要通过对视觉特征的学习抽象出动词表示特征。同时,考虑到人物交互检测数据存在天然的类别长尾现象,如果在视觉特征中融入语义知识,不仅可以提高整体性能,还可以兼顾罕见类别的性能。基于这些动机,提出了基于深度学习的人物交互检测算法SKA-Net。
SKA-Net的创新点主要包括以下三点。其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据。其二,考虑到人物交互检测是检测三元组<主语,谓语,宾语>,而“宾语”其实是在目标检测阶段完成,即人物交互检测的本质是动词检测。而不同人-物体对进行的人类活动抽象出的同一交互行为在理想情况下的特征表示向量基本相同。基于此假设,提出一种使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为(例如:吃、骑、打开等)和非交互类行为(即:没有交互发生)。其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征,使SKA-Net在人物交互检测性能上获得进一步提升。
人物交互检测算法SKA-Net的输入为RGB图像
Figure BDA0002541543620000091
人的检测框信息
Figure BDA0002541543620000092
物体的检测框信息
Figure BDA0002541543620000093
输出为图像中所有的<人-物>对实例的交互行为得分
Figure BDA0002541543620000094
用公式描述如下:
Figure BDA0002541543620000095
其中,
Figure BDA0002541543620000096
为图像
Figure BDA0002541543620000097
中m个人的集合,
Figure BDA0002541543620000098
为图像
Figure BDA00025415436200000911
中n个物体的集合,函数
Figure BDA0002541543620000099
对应本文的SKA-Net算法模型。因此,
Figure BDA00025415436200000910
表示m个人与n个物体交互所产生的m*n个<人-物体>对实例的交互行为得分。
人物交互检测算法SKA-Net采用多流网络结构设计,主要由人流分支、语义&物体流分支、动词流分支和空间流分支构成。为清晰可见,首先介绍多流网络结构的各分支的整体流程,然后以小节形式单独介绍其中涉及的注意力机制、面向人物交互检测的语义知识图的构建及其运算模式等组件。
i.多流网络结构
多流网络结构由人流、语义&物体流、动词流和空间流构成。为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征。原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图,并对全局特征图中人、物体位置进行感兴趣池化(ROI Pooling)操作以提取人、物体区域的特征图,最后对特征图进行最大池化(Max Pooling)操作得到最终的人、物体特征图。为了得到人、物体的视觉特征向量,使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层(GAP)将特征图池化为f维向量Ff。简言之,主干网络的视觉特征向量提取过程为:Image→Resnet50→ROI Pooling→Max Pooling→Res5→GAP→Ff,其中Ff表示人、物体的f维视觉特征向量。SKA-Net整体流程图如图1所示。
空间流分支:对于空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp。空间特征图Msp的编码规则为:对于每一对<人、物体>对,空间特征图的第一通道称为人通道,对应人的检测框内的像素为1、检测框外的像素为0;空间特征图的第二通道称为物体通道,对应物体的检测框内的像素为1、检测框外的像素为0;最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域,并缩放为(64,64,2)的大小。
Msp通过浅层卷积神经网络fcnn进行特征提取,并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测,用公式(2)、(3)描述:
Figure BDA0002541543620000101
Figure BDA0002541543620000102
其中,
Figure BDA00025415436200001016
表示全连接层参数矩阵。
1.人流分支:对于人流分支,输入为人的f维视觉特征向量
Figure BDA0002541543620000103
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算人流特征在各交互类别上的概率得分
Figure BDA0002541543620000104
用公式(4)-(6)描述:
Figure BDA0002541543620000105
Figure BDA0002541543620000106
Figure BDA0002541543620000107
其中,公式(4)和公式(6)表示两个全连接层运算,公式(5)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程将在ii.注意力机制小节解释其动机和具体实现过程。
语义&物体流分支:对于语义&物体流分支,输入为物体的f维视觉特征向量
Figure BDA0002541543620000108
和面向人物交互检测的语义知识图输出的语义特征向量
Figure BDA0002541543620000109
的拼接向量
Figure BDA00025415436200001010
Figure BDA00025415436200001011
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算语义对象视觉特征在各交互类别上的概率得分
Figure BDA00025415436200001012
用公式(7)-(9)描述:
Figure BDA00025415436200001013
Figure BDA00025415436200001014
Figure BDA00025415436200001015
其中,为了清晰地表述算法的整体流程及局部细节,对于面向人物交互检测的语义知识图的构建及运算模式,将在iii.基于生活场景的人物交互语义知识图的构建与学习小节进行详细叙述。
动词流分支:考虑到人物交互检测是检测三元组<主语,谓语(动词),宾语>,而“主语”永远被视为人,“宾语”则是在目标检测阶段完成,即人物交互检测的本质是动词检测。以矢量三角形为出发点,将三元组建模为矢量关联关系
Figure BDA0002541543620000111
其中g(x)表示对主语特征
Figure BDA0002541543620000116
和宾语特征
Figure BDA0002541543620000117
的某种函数映射,而不同<人-物体>对构成的人类活动抽象出的同一交互行为的特征表示
Figure BDA0002541543620000118
可以通过三元组的矢量三角形推理得到。基于此假设,提出一种使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为。
动词的特征表示的建模与主语特征、宾语特征相关,但矢量关联关系相对复杂。在实验中,从语言学角度出发,假设其矢量关联关系是线性的,利用主语与宾语的嵌入空间的特征差分运算代数化地表示词关联关系,用公式描述如下:
Figure BDA0002541543620000112
其中,
Figure BDA0002541543620000119
表示差分嵌入运算,即主语特征
Figure BDA00025415436200001110
与宾语特征
Figure BDA00025415436200001113
对应元素做差。
1.对于动词流分支,输入为动词特征表示
Figure BDA00025415436200001111
Figure BDA00025415436200001112
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算动词特征表示在各交互类别上的概率得分
Figure BDA00025415436200001114
用公式描述如下:
Figure BDA0002541543620000113
Figure BDA0002541543620000114
Figure BDA0002541543620000115
其中,公式(11)和公式(13)表示两个全连接层运算,公式(12)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。
ii.注意力机制
由人-物对位置信息构成的相对空间特征已经被验证可以提升人物交互检测的性能,但是以前的研究使用空间特征作为单独的分支进行预测,并未与视觉特征进行信息融合。如果可以将空间特征作为某种先验知识融入视觉特征之中,不仅可以优化视觉特征,而且可以使视觉特征具有表达人物交互的某种空间先验知识的能力。因此,提出使用空间特征作为语义注意力引导人流分支、语义&物体流分支和动词流分支的特征的优化,使视觉特征关注与人物交互相关的区域特征,过滤与人物交互无关的区域特征。
2.具体地,为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征,忽视无关位置特征。采用残差结构对视觉特征进行特征增强,语义注意力引导用公式描述如下:
Figure BDA0002541543620000121
其中,
Figure BDA0002541543620000122
表示任意分支的视觉特征
Figure BDA0002541543620000123
经过语义注意力引导后的视觉特征,
Figure BDA0002541543620000124
表示由人-物体对位置信息构成的空间特征,
Figure BDA0002541543620000128
和表示特征向量对应元素相加,
Figure BDA0002541543620000125
表示特征向量对应元素相乘,通过
Figure BDA0002541543620000129
对视觉特征
Figure BDA0002541543620000126
各位置的注意力加权,增强视觉特征
Figure BDA0002541543620000127
的表达能力,突出与人物交互相关的区域特征,过滤与人物交互无关的区域特征。
iii.面向人物交互检测的语义知识图的构建及其运算模式
考虑到人物交互检测数据存在天然的类别长尾现象,如果能在视觉特征的基础上合理的融入语义知识特征,不仅可以提高整体性能,还可以兼顾罕见类别的性能。因此,基于生活场景的人物交互实例构建了面向人物交互检测的语义知识图,并使用图卷积网络(GCN)对人物交互语义知识图进行聚类学习后融入到物体的视觉特征中,使目标检测阶段的物体在人物交互预测阶段具备人物交互语义先验知识。
具体地,首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量,并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行“对象-动词”的无向连接(这里并没有连接“对象-对象”和“动词-动词”),由此构建了初始状态下的语义知识图。为了使得语义对象的特征表达能力更强,需要对初始状态下的语义知识图进行学习,使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力。为了达到这一目的,使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习,使其聚集其它结点的语义信息。图卷积的第k层卷积运算(学习)过程用公式描述如下:
Figure BDA0002541543620000131
Dii=∑j(A+I)ij (16)
其中,A为构建的语义知识图的邻接矩阵,表示图中各结点之间的连接情况。
Figure BDA0002541543620000132
表示邻接矩阵A被结点的度矩阵D归一化的过程,Fk是第k层结点的输入特征矩阵,Wk为第k层卷积操作的参数矩阵,Fk+1是经过第k层卷积学习后输出的结点特征矩阵。对于图卷积网络的输出特征Fk,在语义&物体流分支加以使用,即语义对象特征
Figure BDA0002541543620000133
在实验中,使用两层图卷积网络对初始状态的语义知识图进行学习(即k=2)。初始状态下输入结点的维度为300维,隐藏层结点的维度为512维,第二层图卷积网络输出结点的维度为512维,即fw=512。
iv.动词嵌入空间表示
对于动词嵌入空间表示的原理已经在i.多流网络结构小节动词流分支进行了详细描述。在这里主要补充正负样本对学习策略的出发动机。
在V-COCO数据集的实验中,发现动词嵌入空间表示在只使用正样本人-物体对进行模型训练时,只能获得不显著的性能提升。认为在推理阶段模型将不存在交互行为的负样本<人-物体>对尽可能地拟合为某一具体的交互行为,而在训练中并没有让模型学习到非交互行为样本的特征。因此,在模型训练阶段使用正负样本共同参与训练的学习策略训练模型,获得了显著性性能提升。
v.模型优化与交互得分融合
损失函数:为了训练最优化模型,目标是最小化真实标签和预测的动作概率之间的损失。该部分的损失函数主要由i.多流网络结构部分的空间流分支分类损失Lsp、人流分支分类损失Lh、语义&物体流分支分类损失Lso和动词流分支分类损失Lv构成。在实验中,对于C类交互行为的分类问题,使用多分类二元交叉熵损失函数LBCE
Figure BDA0002541543620000141
人物交互预测的总损失losshoi为各分支损失之和:
Figure BDA0002541543620000142
其中,
Figure BDA0002541543620000143
Figure BDA0002541543620000144
为多流网络结构中各分支预测的交互类别的概率得分。实验中,为了表达不同分支的不同贡献能力,使用不同的权重系数α=2、β=2和λ=1.5对各分支损失进行加权。
交互得分融合:对于多流网络结构,不同分支具有不同的预测得分,为了利用不同分支的预测得分,以提高最终预测结果的准确性,采用如下公式对人物交互检测得分进行融合:
Figure BDA0002541543620000145
其中,Shoi为人物交互检测的最终得分,sh和so为目标检测得分,
Figure BDA0002541543620000146
为在C类交互行为分类任务中属于每一类别的概率得分向量,
Figure BDA0002541543620000147
中角标*表示不同的分支。
在实验中,为了调节不同目标检测器对检测得分的设计规则不同,“提升”高目标检测得分的重视度,“弱化”低目标检测得分的重视度,使用低级实例抑制函数
Figure BDA0002541543620000148
对检测得分进行调整。其中,在HICO-DET数据集中的超参数为a=6、b=10、c=1.4和d=0;在V-COCO数据集中的超参数为a=6、b=9、c=10和d=0。
3)实验细节:SKA-Net的视觉特征提取网络ResNet-50和多流网络结构的主要设计参数如表1和表2所示。为了保证实验的公平性,使用与iCAN相同的训练、测试数据,预训练权重和对象检测结果。
为了训练网络,在V-COCO数据集中使用SGD和指数衰减学习率,其初始学习率为1e-3,权重衰减为1e-4,动量为0.9,正负样本比例为1∶2,正样本数量为16/Batch,迭代次数为300k;在HICO-DET数据集中使用SGD和余弦衰减学习率,其初始化学习率为1e-3,衰减步数80k/T,正负样本比例为1:1,正样本数量为16/Batch,迭代次数为300k。在推理阶段,对测试集的目标检测结果进行过滤,过滤掉物体得分小于0.3的检测框和人得分小于0.6的检测框后对图像中剩余的<人-物体>对进行人物交互检测。所有实验均在单张GeForce RTX2080GPU上进行,在Linux系统上训练一个最优模型大约花费11小时。
值得注意的是,在HICO-DET训练集中存在严重的类别不平衡现象。为了尽可能地缓解类别不平衡现象带来的消极影响,在HICO-DET和V-COCO数据集的训练过程中,对损失函数LBCE进行加权损失,属于第c类交互行为的权重被计算为
Figure BDA0002541543620000151
其中,C是交互行为类别数,nc是训练集中属于第c类交互行为的样本数量,常数k为权重缩放因子。因此,少数类中的交互行为将被赋予更大的权重,并且在损失中比多数类中的交互行为受到更多的惩罚。
表1
Figure BDA0002541543620000152
表2
Stream Input Size Architecture Output Sizes
H Stream 1x2048 FC1,FC2 1x117/1x29
S&O Stream 1x2048 FC1,FC2 1x117/1x29
V Stream 1x2048 FC1,FC2 1x117/1x29
SP Stream 64x64x2 CNN,FC1,FC2 1x117/1x29
为了验证SKA-Net的实际效果,使用公开的人物交互检测数据集HICO-DET和V-COCO进行人物交互检测性能评估。跟随前人的评估方法,使用平均精度AP评估每一类人物交互行为的精度,然后对所有类别的AP再取平均值得到最终的平均精度mAP。
对于图像中的一个人-物体对实例,如果人的检测框和物体的检测框与各自的真实矩形框的交并比IoU(Intersection-over-Union)大于0.5,并且当前人-物体对的人物交互类别标签预测正确,那么当前人-物体对为一个正样本。
为了说明本发明的积极效果,将提出的SKA-Net与最新的人物交互检测方法:iCAN、Interactiveness和PMFNet等进行了比较,通过表3和表4可以看出,本方法取得了更高的精度。具体地,SKA-Net在HICO-DET数据集上获得了18.80mAP的精度,并且在罕见类别上获得了16.81mAP的精度,与最新的人物交互检测算法PMFNet相比,其相对增益分别为7.67%和7.41%;在V-COCO数据集上也获得了51.46mAP的最佳精度。其中,附表1为本发明方法SKA-Net与最新人物交互检测方法在不同类别上的精度比较,也表明本方法的有效性。
表3
Figure BDA0002541543620000161
表4
Paper Publish mAP(Sc.1) mAP(Sc.2)
InteractNet CVPR 2018 40.0 47.98
GPNN ECCV 2018 44.0 -
iCAN BMVC 2018 45.3 52.4
Xu et.al CVPR 2019 45.9 -
Interactiveness CVPR 2019 47.8 54.2
PMFNet ICCV 2019 52.0 -
SKA-Net(Ours) - 51.46 58.85
同时,为了验证本模型各部分的效果,在V-COCO数据集上对模型进行了对比试验,对比实验结果如表5所示。其中,将SKA-Net的基线模型SKA-Net[B]定义为由简单的人流分支(H Stream)、物体流分支(O Stream)、空间流分支(SP Stream)构成的模型,此时人物交互检测在V-COCO数据集上的性能为47.46mAP。为表述方便,将SKA-Net的Baseline、VerbStream、语义知识图HOI-Graph和语义空间注意力Attention分别用B、V、G和A进行表示。
表5
Model mAP(Sc.1)
SKA-Net[B] 49.82
SKA-Net[BV] 50.85
SKA-Net[BVG] 51.21
SKA-Net[BVGA](Ours) 51.46
SKA-Net[BV]:为了验证通过视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为的正负样本对学习策略的增益。与SKA-Net[B]模型相比,SKA-Net[BV]模型性能从49.82mAP增加到50.85mAP,增益1.03mAP。
SKA-Net[BVG]:为了验证语义知识图(G)对人物交互检测性能的影响,提出面向人物交互检测的语义知识图的构建,并将与物体分支流融合,共同构成语义&物体分支流。与SKA-Net[BV]模型相比,SKA-Net[BVG]模型性能从50.85mAP增加到51.21mAP,增益0.36mAP。
SKA-Net[BVGA]:为了使视觉特征关注不同人物交互行为更有辨别力的位置特征,忽视无关位置特征,提出使用人-物体空间特征作为语义注意力引导视觉分支的特征优化。与SKA-Net[BVG]模型相比,SKA-Net[BVGA]模型性能从51.21mAP增加到51.46mAP,增益0.25mAP。
综上分析,本发明所提出的人物交互检测算法SKA-Net通过在视觉特征中融入真实生活场景的语义知识,并提出通过视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为的正负样本对学习策略,同时,提出使用空间特征作为语义注意力引导视觉特征的优化,共同完成了对人物交互检测性能的进一步提升。SKA-Net在HICO-DET数据集及其罕见(Rare)类别上的检测性能都取得了当前最好效果,优于2019年最新的人物交互检测算法。
附表1
HOI Class #pos iCAN Interactiveness(RP<sub>T2</sub>C<sub>D</sub>) SKA-Net(Ours)
hold-obj 3608 29.06 37.33 39.45
sit-instr 1916 26.04 31.62 41.00
ride-instr 556 61.90 66.28 71.18
look-obj 3347 26.49 32.25 36.93
hit-instr 349 74.11 74.40 75.96
hit-obj 349 46.13 52.59 52.99
eat-obj 521 37.73 39.14 42.58
eat-instr 521 8.26 9.40 16.18
jump-instr 635 51.45 53.83 54.84
lay-instr 387 22.40 29.57 31.74
talk_on_phone 285 52.81 53.59 53.99
carry-obj 472 32.02 40.82 41.54
throw-obj 244 40.62 43.27 45.48
catch-obj 246 47.61 48.38 47.69
cut-instr 269 37.18 41.63 42.16
cut-obj 269 34.76 40.14 39.61
work_on_comp 410 56.29 65.51 67.24
ski-instr 424 41.69 49.95 48.84
surf-instr 486 77.15 79.70 77.65
skateboard-instr 417 79.35 83.39 85.59
drink-instr 82 32.19 34.36 40.81
kick-obj 180 66.89 66.26 69.86
read-obj 111 30.74 29.94 37.88
snowboard-instr 277 74.35 71.59 73.81
Average mAP 682 45.30 48.96 51.46
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (9)

1.一种基于深度学习的人物交互检测方法,其特征在于:该方法包括以下阶段:
(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,
SKA-Net突出特征有:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据;其二,使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为;其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,
过滤与人物交互行为无关的区域特征;
所述阶段(1)中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器;
所述阶段(2)中,SKA-Net的输入为RGB图像
Figure FDA0002541543610000011
人的检测框信息
Figure FDA0002541543610000012
物体的检测框信息
Figure FDA0002541543610000013
输出为图像中所有的<人-物体>对实例的交互行为得分
Figure FDA0002541543610000014
用公式(1)描述:
Figure FDA0002541543610000015
其中,
Figure FDA0002541543610000016
为图像
Figure FDA0002541543610000017
中m个人的集合,
Figure FDA0002541543610000018
为图像
Figure FDA0002541543610000021
中n个物体的集合,函数
Figure FDA0002541543610000022
对应SKA-Net算法模型,
Figure FDA0002541543610000023
表示m个人与n个物体交互所产生的m*n个<人-物体>对实例的交互行为得分。
2.根据权利要求1所述的基于深度学习的人物交互检测方法,其特征在于:SKA-Net采用多流网络结构,多流网络结构由人流、语义&物体流、动词流和空间流构成;为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征;原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图,并对全局特征图中人、物体位置进行感兴趣池化ROI Pooling操作以提取人、物体区域的特征图,最后对特征图进行最大池化Max Pooling操作得到最终的人、物体特征图;为了得到人、物体的视觉特征向量,使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层GAP将特征图池化为f维向量Ff,其中Ff表示人、物体的f维视觉特征向量。
3.根据权利要求2所述的基于深度学习的人物交互检测方法,其特征在于:对于空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp,空间特征图Msp的编码规则为:对于每一对<人、物体>对,空间特征图的第一通道称为人通道,对应人的检测框内的像素为1、检测框外的像素为0;空间特征图的第二通道称为物体通道,对应物体的检测框内的像素为1、检测框外的像素为0;最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域,并缩放为(64,64,2)的大小;
Msp通过浅层卷积神经网络fcnn进行特征提取,并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测,用公式(2)、(3)描述:
Figure FDA0002541543610000031
Figure FDA0002541543610000032
其中,
Figure FDA0002541543610000033
表示全连接层参数矩阵。
4.根据权利要求3所述的基于深度学习的人物交互检测方法,其特征在于:对于人流分支,输入为人的f维视觉特征向量
Figure FDA0002541543610000034
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算人流特征在各交互类别上的概率得分
Figure FDA0002541543610000035
用公式(4)-(6)描述:
Figure FDA0002541543610000036
Figure FDA0002541543610000037
Figure FDA0002541543610000038
其中,公式(4)和公式(6)表示两个全连接层运算,公式(5)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。
5.根据权利要求4所述的基于深度学习的人物交互检测方法,其特征在于:关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程,为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征,忽视无关位置特征,采用残差结构对视觉特征进行特征增强,语义注意力引导用公式(14)描述:
Figure FDA0002541543610000039
其中,
Figure FDA00025415436100000310
表示任意分支的视觉特征
Figure FDA00025415436100000311
经过语义注意力引导后的视觉特征,
Figure FDA00025415436100000312
表示由人-物体对位置信息构成的空间特征,
Figure FDA00025415436100000313
和表示特征向量对应元素相加,
Figure FDA00025415436100000314
表示特征向量对应元素相乘,通过
Figure FDA00025415436100000315
对视觉特征
Figure FDA0002541543610000041
各位置的注意力加权,增强视觉特征
Figure FDA0002541543610000042
的表达能力,突出与人物交互相关的区域特征,过滤与人物交互无关的区域特征。
6.根据权利要求5所述的基于深度学习的人物交互检测方法,其特征在于:对于语义&物体流分支,输入为物体的f维视觉特征向量
Figure FDA0002541543610000043
和面向人物交互检测的语义知识图输出的语义特征向量
Figure FDA0002541543610000044
的拼接向量
Figure FDA0002541543610000045
Figure FDA0002541543610000046
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算语义对象视觉特征在各交互类别上的概率得分
Figure FDA0002541543610000047
用公式(7)-(9)描述:
Figure FDA0002541543610000048
Figure FDA0002541543610000049
Figure FDA00025415436100000410
7.根据权利要求6所述的基于深度学习的人物交互检测方法,其特征在于:对于面向人物交互检测的语义知识图的构建及运算模式,首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量,并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行对象-动词的无向连接,由此构建了初始状态下的语义知识图;为了使得语义对象的特征表达能力更强,对初始状态下的语义知识图进行学习,使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力;使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习,使其聚集其它结点的语义信息;图卷积的第k层卷积运算过程用公式(15)、(16)描述:
Figure FDA00025415436100000411
Dii=∑j(A+I)ij (16)
其中,A为构建的语义知识图的邻接矩阵,表示图中各结点之间的连接情况,
Figure FDA0002541543610000051
表示邻接矩阵A被结点的度矩阵D归一化的过程,Fk是第k层结点的输入特征矩阵,Wk为第k层卷积操作的参数矩阵,Fk+1是经过第k层卷积学习后输出的结点特征矩阵,对于图卷积网络的输出特征Fk,在语义&物体流分支加以使用,为语义对象特征
Figure FDA0002541543610000052
8.根据权利要求7所述的基于深度学习的人物交互检测方法,其特征在于:对于动词流分支,输入为动词特征表示
Figure FDA0002541543610000053
通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算动词特征表示在各交互类别上的概率得分
Figure FDA0002541543610000054
用公式(11)-(13)描述:
Figure FDA0002541543610000055
Figure FDA0002541543610000056
Figure FDA0002541543610000057
9.根据权利要求8所述的基于深度学习的人物交互检测方法,其特征在于:对于SKA-Net损失函数,由空间流分支分类损失Lsp、人流分支分类损失Lh、语义&物体流分支分类损失Lso和动词流分支分类损失Lv构成;对于C类交互行为的分类问题,使用多分类二元交叉熵损失函数LBCE
Figure FDA0002541543610000058
人物交互预测的总损失losshoi为各分支损失之和:
Figure FDA0002541543610000061
其中,
Figure FDA0002541543610000062
Figure FDA0002541543610000063
为多流网络结构中各分支预测的交互类别的概率得分。
CN202010548298.5A 2020-06-16 2020-06-16 一种基于深度学习的人物交互检测方法 Active CN111914622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010548298.5A CN111914622B (zh) 2020-06-16 2020-06-16 一种基于深度学习的人物交互检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010548298.5A CN111914622B (zh) 2020-06-16 2020-06-16 一种基于深度学习的人物交互检测方法

Publications (2)

Publication Number Publication Date
CN111914622A true CN111914622A (zh) 2020-11-10
CN111914622B CN111914622B (zh) 2024-03-26

Family

ID=73237875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010548298.5A Active CN111914622B (zh) 2020-06-16 2020-06-16 一种基于深度学习的人物交互检测方法

Country Status (1)

Country Link
CN (1) CN111914622B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699846A (zh) * 2021-01-12 2021-04-23 武汉大学 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置
CN112800854A (zh) * 2021-01-04 2021-05-14 中南大学 一种基于图像的机车乘务员作业自动分析系统
CN113128368A (zh) * 2021-04-01 2021-07-16 西安电子科技大学广州研究院 一种人物交互关系的检测方法、装置及系统
CN113469056A (zh) * 2021-07-02 2021-10-01 上海商汤智能科技有限公司 行为识别方法、装置、电子设备及计算机可读存储介质
CN113657116A (zh) * 2021-08-05 2021-11-16 天津大学 基于视觉语义关系的社交媒体流行度预测方法及装置
CN113887468A (zh) * 2021-10-14 2022-01-04 西安交通大学 一种三阶段网络框架的单视角人-物交互的识别方法
CN114005181A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 交互关系的识别方法、装置及电子设备
CN114066810A (zh) * 2021-10-11 2022-02-18 安庆师范大学 一种包装盒凹凸点缺陷检测方法及装置
CN114529842A (zh) * 2022-02-23 2022-05-24 北京大学深圳研究生院 一种基于知识引导下双向注意力机制的人物交互检测方法
CN114550223A (zh) * 2022-04-25 2022-05-27 中国科学院自动化研究所 人物交互检测方法、装置及电子设备
WO2022188493A1 (zh) * 2021-03-12 2022-09-15 北京沃东天骏信息技术有限公司 物体可供性的检测方法和装置
WO2022262829A1 (en) * 2021-06-18 2022-12-22 Huawei Technologies Co., Ltd. Systems and methods to automatically determine human-object interactions in images
CN115705708A (zh) * 2021-08-05 2023-02-17 豪威科技股份有限公司 用于检测人-物交互的成像系统及用于检测人-物交互的方法
CN115937743A (zh) * 2022-12-09 2023-04-07 武汉星巡智能科技有限公司 基于图像融合的婴幼儿看护行为识别方法、装置及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120020558A1 (en) * 2010-07-24 2012-01-26 Canon Kabushiki Kaisha Method for estimating attribute of object, apparatus thereof, and storage medium
CN111209915A (zh) * 2019-12-25 2020-05-29 上海航天控制技术研究所 一种基于深度学习的三维图像同步识别和分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120020558A1 (en) * 2010-07-24 2012-01-26 Canon Kabushiki Kaisha Method for estimating attribute of object, apparatus thereof, and storage medium
CN111209915A (zh) * 2019-12-25 2020-05-29 上海航天控制技术研究所 一种基于深度学习的三维图像同步识别和分割方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800854A (zh) * 2021-01-04 2021-05-14 中南大学 一种基于图像的机车乘务员作业自动分析系统
CN112699846A (zh) * 2021-01-12 2021-04-23 武汉大学 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置
CN112699846B (zh) * 2021-01-12 2022-06-07 武汉大学 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置
WO2022188493A1 (zh) * 2021-03-12 2022-09-15 北京沃东天骏信息技术有限公司 物体可供性的检测方法和装置
CN113128368A (zh) * 2021-04-01 2021-07-16 西安电子科技大学广州研究院 一种人物交互关系的检测方法、装置及系统
WO2022262829A1 (en) * 2021-06-18 2022-12-22 Huawei Technologies Co., Ltd. Systems and methods to automatically determine human-object interactions in images
CN113469056A (zh) * 2021-07-02 2021-10-01 上海商汤智能科技有限公司 行为识别方法、装置、电子设备及计算机可读存储介质
CN113657116A (zh) * 2021-08-05 2021-11-16 天津大学 基于视觉语义关系的社交媒体流行度预测方法及装置
CN115705708B (zh) * 2021-08-05 2024-02-20 豪威科技股份有限公司 用于检测人-物交互的成像系统及用于检测人-物交互的方法
CN113657116B (zh) * 2021-08-05 2023-08-08 天津大学 基于视觉语义关系的社交媒体流行度预测方法及装置
CN115705708A (zh) * 2021-08-05 2023-02-17 豪威科技股份有限公司 用于检测人-物交互的成像系统及用于检测人-物交互的方法
CN114066810A (zh) * 2021-10-11 2022-02-18 安庆师范大学 一种包装盒凹凸点缺陷检测方法及装置
CN113887468A (zh) * 2021-10-14 2022-01-04 西安交通大学 一种三阶段网络框架的单视角人-物交互的识别方法
CN113887468B (zh) * 2021-10-14 2023-06-16 西安交通大学 一种三阶段网络框架的单视角人-物交互的识别方法
CN114005181A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 交互关系的识别方法、装置及电子设备
CN114529842A (zh) * 2022-02-23 2022-05-24 北京大学深圳研究生院 一种基于知识引导下双向注意力机制的人物交互检测方法
CN114529842B (zh) * 2022-02-23 2024-04-26 北京大学深圳研究生院 一种基于知识引导下双向注意力机制的人物交互检测方法
CN114550223B (zh) * 2022-04-25 2022-07-12 中国科学院自动化研究所 人物交互检测方法、装置及电子设备
CN114550223A (zh) * 2022-04-25 2022-05-27 中国科学院自动化研究所 人物交互检测方法、装置及电子设备
CN115937743A (zh) * 2022-12-09 2023-04-07 武汉星巡智能科技有限公司 基于图像融合的婴幼儿看护行为识别方法、装置及系统
CN115937743B (zh) * 2022-12-09 2023-11-14 武汉星巡智能科技有限公司 基于图像融合的婴幼儿看护行为识别方法、装置及系统

Also Published As

Publication number Publication date
CN111914622B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN111914622A (zh) 一种基于深度学习的人物交互检测方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN111061843B (zh) 一种知识图谱引导的假新闻检测方法
CN106650725B (zh) 基于全卷积神经网络的候选文本框生成和文本检测方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
Nguyen et al. A multimodal convolutional neuro-fuzzy network for emotion understanding of movie clips
CN111061961A (zh) 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
Bu et al. A hybrid deep learning system of CNN and LRCN to detect cyberbullying from SNS comments
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN109766557A (zh) 一种情感分析方法、装置、存储介质及终端设备
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN115035418A (zh) 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及系统
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN114332288B (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
Pise et al. Relational reasoning using neural networks: a survey
CN112183645B (zh) 基于上下文感知的注意力机制的图像美学质量评价方法
CN114168769B (zh) 基于gat关系推理的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant