CN107491735B - 人类行为识别的标签和交互关系联合学习方法 - Google Patents

人类行为识别的标签和交互关系联合学习方法 Download PDF

Info

Publication number
CN107491735B
CN107491735B CN201710593912.8A CN201710593912A CN107491735B CN 107491735 B CN107491735 B CN 107491735B CN 201710593912 A CN201710593912 A CN 201710593912A CN 107491735 B CN107491735 B CN 107491735B
Authority
CN
China
Prior art keywords
interaction
term
person
persons
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710593912.8A
Other languages
English (en)
Other versions
CN107491735A (zh
Inventor
王振华
金佳丽
刘盛
张剑华
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710593912.8A priority Critical patent/CN107491735B/zh
Publication of CN107491735A publication Critical patent/CN107491735A/zh
Application granted granted Critical
Publication of CN107491735B publication Critical patent/CN107491735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种用于人类行为识别的标签和交互关系联合学习方法,包括以下步骤:1),使用CNN特征、HOG特征、HOF特征及人与人之间的距离、头部朝向等信息构造能量函数,包含一元能量项、二元能量项、交互能量项和正则化项;2)使用大间隔结构化学习训练所有模型参数;3)标签和交互关系预测,使用交替搜索策略求解复杂推理问题,在迭代中交替优化标签和交互结构。本发明适用于包含多人、多行为类别的图像和视频,能够同时识别个人行为和人与人之间的交互行为。

Description

人类行为识别的标签和交互关系联合学习方法
技术领域
本发明属于计算机视觉中的行为识别领域,涉及一种人类的行为识别方法。该发明在识别个人行为的同时判断人之间的交互。
背景技术
识别图像或视频中的人类行为在计算机视觉中是一个基本的问题,这在许多应用如运动视频分析,监控系统和视频检索中至关重要。最近的工作中,深度学习明显提高了行为识别的性能。然而,这些工作不适用于处理包含多人互动的数据。首先,他们专注于分给每个图像一个行为标签,这不适用于包含多个行为类别的图像。第二,他们忽视了人之间的相互关系为识别复杂的人类活动像握手,战斗和足球比赛等提供了重要的语境信息。
为了表示人之间的交互,大多数CRF模型使用预定义的图形结构,通常使用领域知识或启发式方法来确定其结构,例如,人之间的距离,但是其对数据变化和成像条件的变化不敏感。使用这样的图通常导致不良的识别性能。更好的策略是从数据中学习CRF图。然而,人类交互结构通常是多样化的,这使得传统的图学习方法无效。Lan等提出通过潜在的结构化SVM来联合估计个人行为和交互,其中交互被视为隐含变量,这导致非凸的训练问题。
发明内容
为了克服已有的人类行为识别方式无法适用于多个行为类别的图像、无法识别交互行为的不足,以及交互作为隐含变量导致非凸的训练问题的缺点,本发明提供了一种人类行为识别的标签和交互关系联合学习方法,适用于包含多个行为类别的图像,能够在不使用隐含变量的情况下共同学习互动和个人行为的全新的训练框架,并提出了一种有效解决相应推理问题的算法。
本发明解决其技术问题所采用的技术方案是:
一种用于人类行为识别的联合标签交互学习的方法,所述方法包括以下步骤:
1)构造能量函数
令G=(V,E)表示图,其中节点集V表示所有人的个人行为,边集E表示他们的交互信息,例如,eij∈E表示人i和人j之间有交互,而边est的缺失则表示人s与人t之间没有交互。I表示一张图像,
Figure GDA0002376800500000021
是人i的个人行为标签,a=[ai]i=1,…,n是包含n个人的个人行为标签的向量;
给定一个新的输入I,目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息G;
Figure GDA0002376800500000022
其中
Figure GDA0002376800500000023
其中
Figure GDA0002376800500000024
是一个指示函数,如果ai=s,它的值为1,反之则为0;当eij=z时指示函数
Figure GDA0002376800500000025
的值为1,反之则为0;同样地,当ai=s且aj=t时,指示函数
Figure GDA0002376800500000026
为1,反之为0;
2)训练模型的参数
训练样本集
Figure GDA0002376800500000027
Gk=(Vk,Ek),边集Ek表示在第k张训练样本的图片中,人之间的真实的交互信息,ek是Ek的向量形式,使用下面的最大边距式公式来训练所有的模型参数w=[wu,wc,wτ,wr,ωs]:
Figure GDA0002376800500000028
标签代价,即错误预测的惩罚为:
Figure GDA0002376800500000029
其中δ(·)是指示函数,当测试情况为真时取1,反之为0;m表示人的个数;
3)解决推理问题
通过固定参数θ来解决推理问题(1),初始化e为一个全连接的结构,在每次迭代中,首先固定图结构e,用
Figure GDA0002376800500000038
表示,然后解决剩余的问题:
Figure GDA0002376800500000031
通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题;
Figure GDA0002376800500000032
来表示a的当前解,把
Figure GDA0002376800500000033
代入公式(1),推理问题缩减为:
Figure GDA0002376800500000034
重整方程式(12),得到下面的形式:
Figure GDA0002376800500000035
每个eij和所有的余下的变量e没有相互作用,因此eij的最佳值仅依赖于它的系数值,最小化关于变量e的表达式,如果
Figure GDA0002376800500000036
的值为负,eij的最佳值为1;如果
Figure GDA0002376800500000037
的值不为负,eij的最佳值为0。
本发明提出一个框架来同时学习交互关系和个人行为,这个框架使用从深层神经网络学到的特征和人类交互环境等信息构建了一个势函数。避免了训练函数的非凸性,并提出一种迭代的方法来有效并近似地解决相应的推理问题。
本发明的有益效果主要表现在:适用于包含多个行为类别的图像,能够同时识别个人行为和交互。
具体实施方式
下面对本发明作进一步描述。
一种用于人类行为识别的联合标签交互学习的方法,包括以下步骤:
1)构造能量函数
令G=(V,E)表示图,其中节点集V表示所有人的个人行为,边集E表示他们的交互信息,例如,eij∈E表示人i和人j之间有交互,而边est的缺失则表示人s与人t之间没有交互,I表示一张图像,
Figure GDA0002376800500000041
是人i的个人行为标签,a=[ai]i=1,...,n是包含n个人的个人行为标签的向量;
给定一个新的输入I,目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息G;
Figure GDA0002376800500000042
其中
Figure GDA0002376800500000043
其中
Figure GDA0002376800500000044
是一个指示函数,如果ai=s,它的值为1,反之则为0;当eij=z时指示函数
Figure GDA0002376800500000045
的值为1,反之则为0;同样地,当ai=s且aj=t时,指示函数
Figure GDA0002376800500000046
为1,反之为0;
一元能量项θi;s的定义如下:
Figure GDA0002376800500000047
其中wu是一元能量函数的权重项,
Figure GDA0002376800500000048
是指示向量,在s这个位置时取1,其他情况都为0,pi;s是把标签s分配给i时的判别得分。为了计算这个判别得分,把通过深度卷积神经网络(CNNs)学到的特征、人身体区域的HOG和HOF特征串联起来,训练一个支持向量机(SVM)分类器;
二元能量项的定义如下:
Figure GDA0002376800500000049
其中wc衡量两个交互的人的个人行为标签s和t之前的兼容性,
Figure GDA00023768005000000410
是指示向量,在下标是(li,j,pi,pj,s,t)的位置取1,其他情况下取0.
Figure GDA00023768005000000411
表示人i和人j之间的相对距离,定义为:
Figure GDA00023768005000000412
设ri,rj是人i和j的包围框的宽度,设di,j是这些成对包围框的中心的欧几里得距离,计算hi,j为:
Figure GDA0002376800500000051
在方程式(5)中,
Figure GDA0002376800500000052
表示从训练样本中筛选的所有的交互项(i,j)的平均值;
像一般的行为识别做的,把人的头部朝向分为5类,分别为{profile-left,profile-right,frontal-left,frontal-right,backwards},为了确定每个人的头部朝向,使用手工特征和ConvNet学到的特征,训练了一个线性大间隔分类器。
考虑到人之间交互的存在,此能量项规定了负的信任值。定义如下:
Figure GDA0002376800500000053
wτ是得分项pi,j;z的权重项,表示两个人(i,j)之间有(z=1)无(z=0)交互的可能性。为了得分项pi,j;z,使用从人i和j的包围框区域提取的特征,再次训练一个SVM分类器,这边使用的特征表示和用来计算pi;s用的特征表示是类似的。1τ(z)∈{0,1}2是指示向量,在z的位置取1,其他情况取0;
wr评估交互信息(由z编码),相对距离li,j和头部朝向pi,pj之间的兼容性。此项的目的是利用语境线索来提高交互和非交互识别的判别能力;当根据得分pi,j;z得到的预测不正确时,方程式(7)中的第二项可以用来纠正预测结果;
在方程式(1)中引入的正则项定义如下:
Figure GDA0002376800500000054
其中θ0=ws,ws∈R。当松弛变量e∈{0,1}为e∈[0,1]此正则项满足L1正则化的定义。因此,使用此项来加强稀疏的人交互的学习;
2)训练模型的参数
假设有一个训练样本集
Figure GDA0002376800500000055
Gk=(Vk,Ek),边集Ek表示在第k张训练样本的图片中,人之间的真实的交互信息,ek是Ek的向量形式,使用下面的最大边距式公式来训练所有的模型参数w=[wu,wc,wτ,wr,ωs]:
Figure GDA0002376800500000061
标签代价,即错误预测的惩罚为:
Figure GDA0002376800500000062
其中δ(·)是指示函数,当测试情况为真时取1,反之为0。m表示人的个数,问题(9)是凸的,可以通过切平面算法解决;
3)解决推理问题
通过固定参数θ来解决推理问题(1),因为这个问题是NP问题,一般而言,是不可能得到它的全局解的。一种方法是松弛方程使之变成一个线性规划问题(通过引入许多辅助变量),然后通过分支界定法来解决这个松弛后的问题。然而使用交替搜索策略来解决这个推理问题;
在迭代中交替优化标签空间和交互结构空间,初始化e为一个全连接的结构,在每次迭代中,首先固定图结构e,用
Figure GDA0002376800500000069
表示,然后解决剩余的问题:
Figure GDA0002376800500000063
可以通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题;
Figure GDA0002376800500000064
来表示a的当前解,把
Figure GDA0002376800500000065
代入公式(1),推理问题缩减为:
Figure GDA0002376800500000066
重整方程式(12),得到下面的形式:
Figure GDA0002376800500000067
每个eij和所有的余下的变量e没有相互作用,因此eij的最佳值仅依赖于它的系数值,最小化关于变量e的表达式,如果
Figure GDA0002376800500000068
的值为负,eij的最佳值为1;如果
Figure GDA0002376800500000071
的值不为负,eij的最佳值为0。
本发明提出了一种在联合框架中学习人类互动及其个人行为标签的方法。使用深度神经网络特征和上下文语义信息,以监督的方式学习个人行为和交互。使用大间隔结构化学习方法来学习模型参数,并提出了一种有效的优化算法来解决相关推理问题,提出的方法大大优于基准方法,与已知最好结果相比具有很强的竞争力。

Claims (1)

1.一种用于人类行为识别的联合标签交互学习的方法,其特征在于:所述方法包括以下步骤:
1)构造能量函数
令G=(V,E)表示图,其中节点集V表示所有人的个人行为,边集E表示他们的交互信息,eij∈E表示人i和人j之间有交互,而边est的缺失则表示人s与人t之间没有交互,I表示一张图像,
Figure FDA0002526155990000019
是人i的个人行为标签,a=[ai]i=1,...,n是包含n个人的个人行为标签的向量;
给定一个新的输入I,目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息E;
Figure FDA0002526155990000011
其中
Figure FDA0002526155990000012
其中
Figure FDA0002526155990000013
是一个指示函数,如果ai=s,它的值为1,反之则为0;当eij=z时指示函数
Figure FDA0002526155990000014
的值为1,反之则为0;同样地,当ai=s且aj=t时,指示函数
Figure FDA0002526155990000015
为1,反之为0;
一元能量项θi;s的定义如下:
Figure FDA0002526155990000016
其中wu是一元能量函数的权重项,
Figure FDA0002526155990000017
是指示向量,在s这个位置时取1,其他情况都为0,pi;s是把标签s分配给i时的判别得分,为了计算这个判别得分,把通过深度卷积神经网络学到的特征、人身体区域的HOG和HOF特征串联起来,训练一个支持向量机分类器;
二元能量项的定义如下:
Figure FDA0002526155990000018
其中wc衡量两个交互的人的个人行为标签s和t之前的兼容性,
Figure FDA0002526155990000021
是一个指示向量,在(s,t,li,j,pi,pj)对应的位置取1,其它位置均为0,
Figure FDA0002526155990000022
表示人i和人j之间的相对距离,定义为:
Figure FDA0002526155990000023
设ri,rj是人i和j的包围框的宽度,设di,j是这些成对包围框的中心的欧几里得距离,计算hi,j为:
Figure FDA0002526155990000024
在方程式(5)中,
Figure FDA0002526155990000027
表示从训练样本中筛选的所有的交互项(i,j)的平均值;
像一般的行为识别做的,把人的头部朝向分为5类,分别为{profile-left,profile-right,frontal-left,frontal-right,backwards},为了确定每个人的头部朝向,使用手工特征和ConvNet学到的特征,训练了一个线性大间隔分类器;
考虑到人之间交互的存在,θij;z规定了负的信任值,定义如下:
Figure FDA0002526155990000025
wτ是得分项pi,j;z的权重项,表示两个人(i,j)之间有无交互的可能性,有交互时z=1,无交互时z=0,为了计算得分项pi,j;z,使用从人i和j的包围框区域提取的特征,再次训练一个SVM分类器,这边使用的特征表示和用来计算pi;s用的特征表示是一致的,1τ(z)∈{0,1}2是指示向量,在z的位置取1,其他情况取0;
wr评估交互信息由z编码,相对距离li,j和头部朝向pi,pj之间的兼容性,此项的目的是利用语境线索来提高交互和非交互识别的判别能力;当根据得分pi,j;z得到的预测不正确时,方程式(7)中的第二项可以用来纠正预测结果;
在方程式(1)中引入的正则项定义如下:
Figure FDA0002526155990000026
其中θ0=ws,ws∈R,当松弛变量e∈{0,1}为e∈[0,1]此正则项满足L1正则化的定义,因此,使用此项来加强稀疏的人交互的学习;
2)训练模型的参数
训练样本集
Figure FDA0002526155990000031
边集Ek表示在第k张训练样本的图片中,人之间的真实的交互信息,ek是Ek的向量形式,使用下面的最大边距式公式来训练所有的模型参数w=[wu,wc,wτ,wr,ws]:
Figure FDA0002526155990000032
标签代价,即错误预测的惩罚为:
Figure FDA0002526155990000033
其中δ(·)是指示函数,当测试情况为真时取1,反之为0;m表示人的个数;
3)解决推理问题
通过固定参数θ来解决推理问题(1),初始化e为一个全连接的结构,在每次迭代中,首先固定图结构e,用
Figure FDA0002526155990000034
表示,然后解决剩余的问题:
Figure FDA0002526155990000035
通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题;
Figure FDA0002526155990000036
来表示a的当前解,把
Figure FDA0002526155990000037
代入公式(1),推理问题缩减为:
Figure FDA0002526155990000038
重整方程式(12),得到下面的形式:
Figure FDA0002526155990000039
每个eij和所有的余下的变量e没有相互作用,因此eij的最佳值仅依赖于它的系数值,最小化关于变量e的表达式,如果
Figure FDA00025261559900000310
的值为负,eij的最佳值为1;如果
Figure FDA00025261559900000311
的值不为负,eij的最佳值为0。
CN201710593912.8A 2017-07-20 2017-07-20 人类行为识别的标签和交互关系联合学习方法 Active CN107491735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710593912.8A CN107491735B (zh) 2017-07-20 2017-07-20 人类行为识别的标签和交互关系联合学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710593912.8A CN107491735B (zh) 2017-07-20 2017-07-20 人类行为识别的标签和交互关系联合学习方法

Publications (2)

Publication Number Publication Date
CN107491735A CN107491735A (zh) 2017-12-19
CN107491735B true CN107491735B (zh) 2020-08-18

Family

ID=60643441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710593912.8A Active CN107491735B (zh) 2017-07-20 2017-07-20 人类行为识别的标签和交互关系联合学习方法

Country Status (1)

Country Link
CN (1) CN107491735B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI665609B (zh) 2018-11-14 2019-07-11 財團法人工業技術研究院 住戶行為辨識系統與住戶行為辨識方法
CN110263723A (zh) * 2019-06-21 2019-09-20 王森 室内空间的姿态识别方法、系统、介质、设备
CN110738256A (zh) * 2019-10-15 2020-01-31 四川长虹电器股份有限公司 基于统计学习模型的图像隐含信息挖掘方法及装置
WO2022193312A1 (zh) * 2021-03-19 2022-09-22 京东方科技集团股份有限公司 基于多导联的心电信号识别方法和心电信号识别装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740815A (zh) * 2016-01-29 2016-07-06 南京邮电大学 一种基于深度递归分层条件随机场的人体行为识别方法
CN106815600A (zh) * 2016-12-27 2017-06-09 浙江工业大学 用于人类行为识别的深度联合结构化和结构化学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861870B2 (en) * 2011-02-25 2014-10-14 Microsoft Corporation Image labeling with global parameters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740815A (zh) * 2016-01-29 2016-07-06 南京邮电大学 一种基于深度递归分层条件随机场的人体行为识别方法
CN106815600A (zh) * 2016-12-27 2017-06-09 浙江工业大学 用于人类行为识别的深度联合结构化和结构化学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Convergent Tree-Reweighted Message Passing for Energy Minimizati;Vladimir Kolmogorov;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20061130;全文 *
图像序列中人的行为分析和识别方法;韩磊;《中国博士学位论文全文数据库》;20110515;全文 *

Also Published As

Publication number Publication date
CN107491735A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
Stock et al. Convnets and imagenet beyond accuracy: Understanding mistakes and uncovering biases
CN107491735B (zh) 人类行为识别的标签和交互关系联合学习方法
CN113159283B (zh) 一种基于联邦迁移学习的模型训练方法及计算节点
Xu et al. 3D attention-driven depth acquisition for object identification
Ridge et al. Self-supervised cross-modal online learning of basic object affordances for developmental robotic systems
US20210326638A1 (en) Video panoptic segmentation
CN114912612A (zh) 鸟类识别方法、装置、计算机设备及存储介质
Zhang et al. Relative hidden markov models for video-based evaluation of motion skills in surgical training
Wang et al. Rethinking the learning paradigm for dynamic facial expression recognition
Rudolph et al. Structuring autoencoders
Huang et al. Uncertainty-aware learning against label noise on imbalanced datasets
Cai et al. Dspm: Dynamic structure preserving map for action recognition
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN107993311B (zh) 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法
CN111160161B (zh) 一种基于噪声剔除的自步学习人脸年龄估计方法
CN111160170A (zh) 一种自学习的人体行为识别与异常检测方法
Kamil et al. Literature Review of Generative models for Image-to-Image translation problems
CN116051924A (zh) 一种图像对抗样本的分治防御方法
Zhang et al. Relative hidden markov models for evaluating motion skill
Zabihi et al. Generalized fuzzy C‐means clustering with improved fuzzy partitions and shadowed sets
CN114462526A (zh) 一种分类模型训练方法、装置、计算机设备及存储介质
Khamis et al. Walking and talking: A bilinear approach to multi-label action recognition
CN114818979A (zh) 一种基于最大化间隔机制的含噪多标记分类方法
CN114595695A (zh) 一种用于少样本意图识别系统的自训练模型构建方法
Leake et al. Enhancing Case-Based Reasoning with Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant