CN107491735B - 人类行为识别的标签和交互关系联合学习方法 - Google Patents
人类行为识别的标签和交互关系联合学习方法 Download PDFInfo
- Publication number
- CN107491735B CN107491735B CN201710593912.8A CN201710593912A CN107491735B CN 107491735 B CN107491735 B CN 107491735B CN 201710593912 A CN201710593912 A CN 201710593912A CN 107491735 B CN107491735 B CN 107491735B
- Authority
- CN
- China
- Prior art keywords
- interaction
- term
- person
- persons
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种用于人类行为识别的标签和交互关系联合学习方法,包括以下步骤:1),使用CNN特征、HOG特征、HOF特征及人与人之间的距离、头部朝向等信息构造能量函数,包含一元能量项、二元能量项、交互能量项和正则化项;2)使用大间隔结构化学习训练所有模型参数;3)标签和交互关系预测,使用交替搜索策略求解复杂推理问题,在迭代中交替优化标签和交互结构。本发明适用于包含多人、多行为类别的图像和视频,能够同时识别个人行为和人与人之间的交互行为。
Description
技术领域
本发明属于计算机视觉中的行为识别领域,涉及一种人类的行为识别方法。该发明在识别个人行为的同时判断人之间的交互。
背景技术
识别图像或视频中的人类行为在计算机视觉中是一个基本的问题,这在许多应用如运动视频分析,监控系统和视频检索中至关重要。最近的工作中,深度学习明显提高了行为识别的性能。然而,这些工作不适用于处理包含多人互动的数据。首先,他们专注于分给每个图像一个行为标签,这不适用于包含多个行为类别的图像。第二,他们忽视了人之间的相互关系为识别复杂的人类活动像握手,战斗和足球比赛等提供了重要的语境信息。
为了表示人之间的交互,大多数CRF模型使用预定义的图形结构,通常使用领域知识或启发式方法来确定其结构,例如,人之间的距离,但是其对数据变化和成像条件的变化不敏感。使用这样的图通常导致不良的识别性能。更好的策略是从数据中学习CRF图。然而,人类交互结构通常是多样化的,这使得传统的图学习方法无效。Lan等提出通过潜在的结构化SVM来联合估计个人行为和交互,其中交互被视为隐含变量,这导致非凸的训练问题。
发明内容
为了克服已有的人类行为识别方式无法适用于多个行为类别的图像、无法识别交互行为的不足,以及交互作为隐含变量导致非凸的训练问题的缺点,本发明提供了一种人类行为识别的标签和交互关系联合学习方法,适用于包含多个行为类别的图像,能够在不使用隐含变量的情况下共同学习互动和个人行为的全新的训练框架,并提出了一种有效解决相应推理问题的算法。
本发明解决其技术问题所采用的技术方案是:
一种用于人类行为识别的联合标签交互学习的方法,所述方法包括以下步骤:
1)构造能量函数
令G=(V,E)表示图,其中节点集V表示所有人的个人行为,边集E表示他们的交互信息,例如,eij∈E表示人i和人j之间有交互,而边est的缺失则表示人s与人t之间没有交互。I表示一张图像,是人i的个人行为标签,a=[ai]i=1,…,n是包含n个人的个人行为标签的向量;
给定一个新的输入I,目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息G;
其中
2)训练模型的参数
标签代价,即错误预测的惩罚为:
其中δ(·)是指示函数,当测试情况为真时取1,反之为0;m表示人的个数;
3)解决推理问题
通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题;
重整方程式(12),得到下面的形式:
本发明提出一个框架来同时学习交互关系和个人行为,这个框架使用从深层神经网络学到的特征和人类交互环境等信息构建了一个势函数。避免了训练函数的非凸性,并提出一种迭代的方法来有效并近似地解决相应的推理问题。
本发明的有益效果主要表现在:适用于包含多个行为类别的图像,能够同时识别个人行为和交互。
具体实施方式
下面对本发明作进一步描述。
一种用于人类行为识别的联合标签交互学习的方法,包括以下步骤:
1)构造能量函数
令G=(V,E)表示图,其中节点集V表示所有人的个人行为,边集E表示他们的交互信息,例如,eij∈E表示人i和人j之间有交互,而边est的缺失则表示人s与人t之间没有交互,I表示一张图像,是人i的个人行为标签,a=[ai]i=1,...,n是包含n个人的个人行为标签的向量;
给定一个新的输入I,目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息G;
其中
一元能量项θi;s的定义如下:
其中wu是一元能量函数的权重项,是指示向量,在s这个位置时取1,其他情况都为0,pi;s是把标签s分配给i时的判别得分。为了计算这个判别得分,把通过深度卷积神经网络(CNNs)学到的特征、人身体区域的HOG和HOF特征串联起来,训练一个支持向量机(SVM)分类器;
二元能量项的定义如下:
像一般的行为识别做的,把人的头部朝向分为5类,分别为{profile-left,profile-right,frontal-left,frontal-right,backwards},为了确定每个人的头部朝向,使用手工特征和ConvNet学到的特征,训练了一个线性大间隔分类器。
考虑到人之间交互的存在,此能量项规定了负的信任值。定义如下:
wτ是得分项pi,j;z的权重项,表示两个人(i,j)之间有(z=1)无(z=0)交互的可能性。为了得分项pi,j;z,使用从人i和j的包围框区域提取的特征,再次训练一个SVM分类器,这边使用的特征表示和用来计算pi;s用的特征表示是类似的。1τ(z)∈{0,1}2是指示向量,在z的位置取1,其他情况取0;
wr评估交互信息(由z编码),相对距离li,j和头部朝向pi,pj之间的兼容性。此项的目的是利用语境线索来提高交互和非交互识别的判别能力;当根据得分pi,j;z得到的预测不正确时,方程式(7)中的第二项可以用来纠正预测结果;
在方程式(1)中引入的正则项定义如下:
其中θ0=ws,ws∈R。当松弛变量e∈{0,1}为e∈[0,1]此正则项满足L1正则化的定义。因此,使用此项来加强稀疏的人交互的学习;
2)训练模型的参数
假设有一个训练样本集Gk=(Vk,Ek),边集Ek表示在第k张训练样本的图片中,人之间的真实的交互信息,ek是Ek的向量形式,使用下面的最大边距式公式来训练所有的模型参数w=[wu,wc,wτ,wr,ωs]:
标签代价,即错误预测的惩罚为:
其中δ(·)是指示函数,当测试情况为真时取1,反之为0。m表示人的个数,问题(9)是凸的,可以通过切平面算法解决;
3)解决推理问题
通过固定参数θ来解决推理问题(1),因为这个问题是NP问题,一般而言,是不可能得到它的全局解的。一种方法是松弛方程使之变成一个线性规划问题(通过引入许多辅助变量),然后通过分支界定法来解决这个松弛后的问题。然而使用交替搜索策略来解决这个推理问题;
可以通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题;
重整方程式(12),得到下面的形式:
本发明提出了一种在联合框架中学习人类互动及其个人行为标签的方法。使用深度神经网络特征和上下文语义信息,以监督的方式学习个人行为和交互。使用大间隔结构化学习方法来学习模型参数,并提出了一种有效的优化算法来解决相关推理问题,提出的方法大大优于基准方法,与已知最好结果相比具有很强的竞争力。
Claims (1)
1.一种用于人类行为识别的联合标签交互学习的方法,其特征在于:所述方法包括以下步骤:
1)构造能量函数
令G=(V,E)表示图,其中节点集V表示所有人的个人行为,边集E表示他们的交互信息,eij∈E表示人i和人j之间有交互,而边est的缺失则表示人s与人t之间没有交互,I表示一张图像,是人i的个人行为标签,a=[ai]i=1,...,n是包含n个人的个人行为标签的向量;
给定一个新的输入I,目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息E;
其中
一元能量项θi;s的定义如下:
其中wu是一元能量函数的权重项,是指示向量,在s这个位置时取1,其他情况都为0,pi;s是把标签s分配给i时的判别得分,为了计算这个判别得分,把通过深度卷积神经网络学到的特征、人身体区域的HOG和HOF特征串联起来,训练一个支持向量机分类器;
二元能量项的定义如下:
设ri,rj是人i和j的包围框的宽度,设di,j是这些成对包围框的中心的欧几里得距离,计算hi,j为:
像一般的行为识别做的,把人的头部朝向分为5类,分别为{profile-left,profile-right,frontal-left,frontal-right,backwards},为了确定每个人的头部朝向,使用手工特征和ConvNet学到的特征,训练了一个线性大间隔分类器;
考虑到人之间交互的存在,θij;z规定了负的信任值,定义如下:
wτ是得分项pi,j;z的权重项,表示两个人(i,j)之间有无交互的可能性,有交互时z=1,无交互时z=0,为了计算得分项pi,j;z,使用从人i和j的包围框区域提取的特征,再次训练一个SVM分类器,这边使用的特征表示和用来计算pi;s用的特征表示是一致的,1τ(z)∈{0,1}2是指示向量,在z的位置取1,其他情况取0;
wr评估交互信息由z编码,相对距离li,j和头部朝向pi,pj之间的兼容性,此项的目的是利用语境线索来提高交互和非交互识别的判别能力;当根据得分pi,j;z得到的预测不正确时,方程式(7)中的第二项可以用来纠正预测结果;
在方程式(1)中引入的正则项定义如下:
其中θ0=ws,ws∈R,当松弛变量e∈{0,1}为e∈[0,1]此正则项满足L1正则化的定义,因此,使用此项来加强稀疏的人交互的学习;
2)训练模型的参数
标签代价,即错误预测的惩罚为:
其中δ(·)是指示函数,当测试情况为真时取1,反之为0;m表示人的个数;
3)解决推理问题
通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题;
重整方程式(12),得到下面的形式:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710593912.8A CN107491735B (zh) | 2017-07-20 | 2017-07-20 | 人类行为识别的标签和交互关系联合学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710593912.8A CN107491735B (zh) | 2017-07-20 | 2017-07-20 | 人类行为识别的标签和交互关系联合学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491735A CN107491735A (zh) | 2017-12-19 |
CN107491735B true CN107491735B (zh) | 2020-08-18 |
Family
ID=60643441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710593912.8A Active CN107491735B (zh) | 2017-07-20 | 2017-07-20 | 人类行为识别的标签和交互关系联合学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491735B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI665609B (zh) | 2018-11-14 | 2019-07-11 | 財團法人工業技術研究院 | 住戶行為辨識系統與住戶行為辨識方法 |
CN110263723A (zh) * | 2019-06-21 | 2019-09-20 | 王森 | 室内空间的姿态识别方法、系统、介质、设备 |
CN110738256A (zh) * | 2019-10-15 | 2020-01-31 | 四川长虹电器股份有限公司 | 基于统计学习模型的图像隐含信息挖掘方法及装置 |
WO2022193312A1 (zh) * | 2021-03-19 | 2022-09-22 | 京东方科技集团股份有限公司 | 基于多导联的心电信号识别方法和心电信号识别装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740815A (zh) * | 2016-01-29 | 2016-07-06 | 南京邮电大学 | 一种基于深度递归分层条件随机场的人体行为识别方法 |
CN106815600A (zh) * | 2016-12-27 | 2017-06-09 | 浙江工业大学 | 用于人类行为识别的深度联合结构化和结构化学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8861870B2 (en) * | 2011-02-25 | 2014-10-14 | Microsoft Corporation | Image labeling with global parameters |
-
2017
- 2017-07-20 CN CN201710593912.8A patent/CN107491735B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740815A (zh) * | 2016-01-29 | 2016-07-06 | 南京邮电大学 | 一种基于深度递归分层条件随机场的人体行为识别方法 |
CN106815600A (zh) * | 2016-12-27 | 2017-06-09 | 浙江工业大学 | 用于人类行为识别的深度联合结构化和结构化学习方法 |
Non-Patent Citations (2)
Title |
---|
Convergent Tree-Reweighted Message Passing for Energy Minimizati;Vladimir Kolmogorov;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20061130;全文 * |
图像序列中人的行为分析和识别方法;韩磊;《中国博士学位论文全文数据库》;20110515;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107491735A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stock et al. | Convnets and imagenet beyond accuracy: Understanding mistakes and uncovering biases | |
CN107491735B (zh) | 人类行为识别的标签和交互关系联合学习方法 | |
CN113159283B (zh) | 一种基于联邦迁移学习的模型训练方法及计算节点 | |
Xu et al. | 3D attention-driven depth acquisition for object identification | |
Ridge et al. | Self-supervised cross-modal online learning of basic object affordances for developmental robotic systems | |
US20210326638A1 (en) | Video panoptic segmentation | |
CN114912612A (zh) | 鸟类识别方法、装置、计算机设备及存储介质 | |
Zhang et al. | Relative hidden markov models for video-based evaluation of motion skills in surgical training | |
Wang et al. | Rethinking the learning paradigm for dynamic facial expression recognition | |
Rudolph et al. | Structuring autoencoders | |
Huang et al. | Uncertainty-aware learning against label noise on imbalanced datasets | |
Cai et al. | Dspm: Dynamic structure preserving map for action recognition | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN107993311B (zh) | 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法 | |
CN111160161B (zh) | 一种基于噪声剔除的自步学习人脸年龄估计方法 | |
CN111160170A (zh) | 一种自学习的人体行为识别与异常检测方法 | |
Kamil et al. | Literature Review of Generative models for Image-to-Image translation problems | |
CN116051924A (zh) | 一种图像对抗样本的分治防御方法 | |
Zhang et al. | Relative hidden markov models for evaluating motion skill | |
Zabihi et al. | Generalized fuzzy C‐means clustering with improved fuzzy partitions and shadowed sets | |
CN114462526A (zh) | 一种分类模型训练方法、装置、计算机设备及存储介质 | |
Khamis et al. | Walking and talking: A bilinear approach to multi-label action recognition | |
CN114818979A (zh) | 一种基于最大化间隔机制的含噪多标记分类方法 | |
CN114595695A (zh) | 一种用于少样本意图识别系统的自训练模型构建方法 | |
Leake et al. | Enhancing Case-Based Reasoning with Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |