CN110765956A - 基于部件特征的双人交互行为识别方法 - Google Patents

基于部件特征的双人交互行为识别方法 Download PDF

Info

Publication number
CN110765956A
CN110765956A CN201911027700.9A CN201911027700A CN110765956A CN 110765956 A CN110765956 A CN 110765956A CN 201911027700 A CN201911027700 A CN 201911027700A CN 110765956 A CN110765956 A CN 110765956A
Authority
CN
China
Prior art keywords
double
layer
person
lstm
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911027700.9A
Other languages
English (en)
Other versions
CN110765956B (zh
Inventor
高大化
张中强
石光明
刘丹华
林杰
牛毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201911027700.9A priority Critical patent/CN110765956B/zh
Publication of CN110765956A publication Critical patent/CN110765956A/zh
Application granted granted Critical
Publication of CN110765956B publication Critical patent/CN110765956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于部件特征的双人交互行为识别方法,通过生成双人交互行为数据集并搭建双人交互行为识别网络,克服了现有技术中识别网络没有关注到人的身体部件,引入无用的部件特征,加重了识别网络学习负担,数据集的复用性和扩展性差的问题。本发明实现的步骤是:(1)双人交互行为识别网络;(2)生成双人交互行为训练集;(3)训练双人交互行为识别网络;(4)进行双人交互行为识别。本发明具有双人交互识别网络检测交互行为识别率高、网络结构简单、数据集复用性和扩展行强的优点,可用于自然图像中双人交互行为的识别。

Description

基于部件特征的双人交互行为识别方法
技术领域
本发明属于图像处理技术领域,更进一步涉及图像识别技术领域中的一种基于部件特征的双人交互行为识别方法。本发明可用于对自然图像中双人交互行为进行识别。
背景技术
双人交互行为识别是视频分析、图像处理领域中很重要的一个问题,是计算机视觉领域中重要任务之一。图像中双人交互行为主要涉及到人与人之间进行握手、拥抱、击掌等行为,为安全监控、治安机构判断双人交互行为是否存在安全隐患提供依据。然而现有的一般的方法对图像中两个人整个身体做处理,获取双人整个身体的特征信息进行交互行为识别,这种方法引入了无用的部件特征,加重网络学习负担,进而影响最终的双人交互行为类别。
Alonso Patron等人在其发表的论文“High five:Recognising humaninteractions in TV shows”(In Proceedings of the British Machine VisionConference,2010)中提出了一种利用结构SVM的分类器对双人交互行为进行识别的方法。该方法采用多层卷积网络从含有双人交互行为的图像中提取更高级别的特征,更高级别的特征是以加权的形式将较低级的特征组合在一起,即前一层的激活与下一层神经元的权重相乘并相加,然后传递到激励函数中,最后将更高级别的特征输入到结构SVM分类器中预测图像中双人的交互行为。该方法存在的不足之处是:在双人交互行为识别中,由于结构SVM分类器针对的是两个人的整个身体特征,并没有具体到每个人的交互身体部件特征上,从而导致该方法在识别双人行为时主要依赖大量的训练数据,倾向于记忆数据集而不是学习到每个人的交互身体部件特征之间的空间关系来识别双人行为,引入了无用的非交互每个人身体部件特征,加重了网络学习负担。
Xiangbo Shu等人在其发表的论文“Concurrence-Aware Long Short-Term Sub-Memories for Person-Person Action Recognition”(IEEE Conference on ComputerVision and Pattern Recognition Workshops,2017)中提出了一种基于共现长短时记忆LSTM的网络对双人交互行为进行识别的方法。该方法采用包含两个子存储器的共现长短时记忆LSTM单元来存储双人交互视频中两个人的全部整体运动信息,再用一个共现细胞来选择性的从共现长短时记忆LSTM单元中的两个子存储器提取两个人的交互运动信息,两个人的运动信息在分别通过两个LSTM网络获得高级向量特征,该高级向量特征再通过简单的softmax分类器预测图像中双人的交互行为。该方法存在的不足之处是:在双人交互行为识别中,用两个子存储器存储两个人所有的运动信息计算量大,网络结构复杂,耗费时间长;同时对每个人的整体特征数据进行处理,容易受到双人交互行为数据集样本少和类别不均匀的影响,从而导致双人交互行为识别准确率低。
除此上述列举的双人交互行为识别方法之外,目前基于分类器和深度网络的双人交互行为识别方法都与上述两个方法类似,但是他们都有一个共性,通过学习每个人整个身体特征,而没有具体到交互行为的本质(每个人身体部件之间的空间关系)。引入了无用的部件特征,加重网络学习负担,进而影响最终的双人交互识别准确率。
发明内容
本发明的目的在于针对上述现有技术的不足,提出了一种基于部件特征的双人交互行为识别方法,以解决自然图像中双人交互行为不能准确识别的问题。
实现本发明目的的思路是,依据人眼视觉系统对双人交互行为的识别:人眼很容易关注到双人交互时每个人的重要身体部件的空间关系,以两个人拥抱、接吻交互行为为例,人眼很容易关注到两个人在拥抱时一个人的手和另一个人的背这两个部件及它们的空间关系。在两个人接吻时,人眼很容易关注到两个人的头这两个部件及它们的空间关系。这种机制主要是人在学习的时候依据了很多以前习得的先验知识,这些先验知识可以帮助神经网络更加快速的定位到所需关注的身体部件上而不是对整个人身体特征进行学习,本发明提出在神经网络的学习过程中,首先关注到图像中每个人的身体部件特征,以指导神经网络对部件特征的学习,本发明将模拟人利用先验这种机制,构建一个基于部件特征的双人交互行为识别网络。
这些先验信息主要包括两个部分,其一是依据人类知识和经验获得图像中每个人在一些交互行为中具有语义信息的部件,如手、头、背等,这些部件特征作为双人交互行为的基本组成元素,其二是依据视觉获取的图像中人的身体部件元素之间的空间关系,形如握手时两只手紧握的空间关系,拥抱时一个人的手与另一个人的背部接触的空间关系。因此双人交互识别网络首先通过卷积网络VGG16特征提取子模块和区域提取网络RPN(regionproposal network)子模块搭建的部件检测模块来提取图像中每个人交互身体部件特征,再通过双向长短时记忆LSTM(Long Short-Term Memory)子模块和正向LSTM子模块搭建的部件文本模块来获得每个人交互身体部件的文本特征和预测类别,最后通过双向长短时记忆LSTM(Long Short-Term Memory)子模块和解码子模块搭建的关系文本模块来识别双人交互行为。该双人交互识别网络可以用来解决现有技术中双人交互行为不能准确识别的问题。
为实现上述目的,本发明的具体步骤如下:
(1)构建双人交互识别网络:
(1a)搭建一个由VGG16特征提取子模块和区域建议子模块RPN串联组成部件检测模块;
所述VGG16特征提取子模块结构依次为:第一卷积层→第一池化层→第二卷积层→第二池化层→第三卷积层→第三池化层→第四卷积层→第四池化层→第五卷积层→第五池化层→第六卷积层→第六池化层→第七卷积层→第七池化层→第八卷积层→第八池化层→第九卷积层→第九池化层→第十卷积层→第十池化层→第十一卷积层→第十一池化层→第十二卷积层→第十二池化层→第十三卷积层→第十三池化层→三个依次相连的全连接层;
设置VGG16特征提取子模块中每层参数如下:第一至十三卷积层的卷积核个数依次为64、64、128、128、256、256、256、512、512、512、512、512、512,卷积核大小均为3*3,每个池化层均采用最大池化方式,每个池化层的池化核大小均设置为2*2;
所述区域建议子模块RPN结构由三个卷积层构成,第一卷积层的输出分别与第二卷积层、第三卷积层的输入相连,第一至三卷积层的卷积核大小依次为512、18、36,卷积核大小依次为3*3、1*1、1*1;
(1b)搭建一个由双向长短期记忆LSTM和时间正向长短期记忆LSTM串联组成部件文本模块;
所述双向长短期记忆LSTM由两个时间相反的长短期记忆LSTM并联组成,每个长短期记忆LSTM由至少3个长短期记忆LSTM单元串联组成;
利用参数设定公式,分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞状态和隐藏状态结构参数;
(1c)搭建一个由双向长短期记忆LSTM、解码子模块组成关系文本模块;
所述双向长短期记忆LSTM与步骤(2b)中的双向长短期记忆LSTM的结构和参数一样;
所述解码子模块是由可分别执行向量均分操作、点乘操作、softmax操作三个子模块串联组成;
(1d)将部件检测模块、部件文本模块、关系文本模块串联组成双人交互行为识别网络;
(2)生成双人交互行为训练集:
(2a)将摄像机获取的含有双人交互行为的至少10000张图像组成样本集;
(2b)对样本集中每张含有双人交互行为的图像标注每个人的部件坐标位置,并划分每张图像中双人交互行为的真值类别,将所有划分好真值类别的双人交互行为的图像组成训练集;
(3)训练双人交互行为识别网络:
将训练集中所有划分好类别的双人交互行为的图像,输入到双人交互行为识别网络中,利用反向传播梯度下降法,更新迭代双人交互行为识别网络参数直到目标函数收敛,得到训练好的双人交互行为识别网络;
(4)进行双人交互行为识别:
将待识别的双人交互行为识别图像输入部件检测模块中获得图像中每个人的交互部件特征,再将每个人的交互部件特征输入到部件文本模块获得部件文本特征和部件预测类别,最后将部件文本特征和部件预测类别输入到关系文本模块中,获得双人交互行为识别图像的预测类别。
本发明与现有的技术相比具有以下优点:
第一,由于本发明在生成双人交互数据集时,用边界框标注了双人交互行为图像中每个人的身体部件,克服了现有技术中双人交互行为识别时主要依赖大量的训练数据,倾向于记忆数据集而不是学习到每个人的交互身体部件特征之间的空间关系的问题,使得本发明能够直接的促进双人交互识别网络定位到每个人的交互身体部件上,使得本发明更容易检测到每个人的交互部件特征,提高了双人交互识别准确率。
第二,由于本发明是依据了双人交互行为的类别来标注双人交互行为数据集中每个人的交互身体部件坐标位置,因此该数据集可以根据不同的交互行为来标注不同的部件位置,克服了现有技术中双人交互行为数据集样本少和类别不均匀的问题,使得本发明生成的双人交互数据集提高了其在其他交互行为任务中复用性和扩展性。
第三,由于本发明搭建的双人交互识别网络中的部件检测模块只需检测图像中每个人的交互身体部件特征,部件检测模块结构简单,克服了现有技术中提取图像特征所需的深度神经网络结构复杂,训练耗费时间长的问题,使得本发明在双人交互行为识别时具有速度快的优点。
附图说明
图1是本发明的流程图;
图2是本发明双人交互行为识别网络的结构示意图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照附图1,对本发明的实现具体步骤做进一步的描述。
步骤1,构建双人交互行为识别网络。
参照附图2,双人交互行为识别网络由三个模块组成:部件检测模块、部件文本模块、关系文本模块组成。
搭建一个由VGG16特征提取子模块和区域建议子模块RPN串联组成部件检测模块。
所述VGG16特征提取子模块结构依次为:第一卷积层→第一池化层→第二卷积层→第二池化层→第三卷积层→第三池化层→第四卷积层→第四池化层→第五卷积层→第五池化层→第六卷积层→第六池化层→第七卷积层→第七池化层→第八卷积层→第八池化层→第九卷积层→第九池化层→第十卷积层→第十池化层→第十一卷积层→第十一池化层→第十二卷积层→第十二池化层→第十三卷积层→第十三池化层→三个依次相连的全连接层。
设置VGG16特征提取子模块中每层参数如下:第一至十三卷积层的卷积核个数依次为64、64、128、128、256、256、256、512、512、512、512、512、512,卷积核大小均为3*3,每个池化层均采用最大池化方式,每个池化层的池化核大小均设置为2*2,VGG16特征提取子模块用于提取图像特征。
所述区域建议子模块RPN结构由三个卷积层构成,第一卷积层的输出分别与第二卷积层、第三卷积层的输入相连,第一至三卷积层的卷积核大小依次为512、18、36,卷积核大小依次为3*3、1*1、1*1,区域建议子模块RPN用于从VGG16提取的图像特征中选择出每个人的交互身体部件特征。
搭建一个由双向长短期记忆LSTM和时间正向长短期记忆LSTM串联组成部件文本模块。
所述双向长短期记忆LSTM由两个时间相反的长短期记忆LSTM并联组成,每个长短期记忆LSTM由至少3个长短期记忆LSTM单元串联组成。
利用参数设定公式,分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞状态和隐藏状态结构参数。
所述的参数设定公式如下:
Figure BDA0002249163870000061
Figure BDA0002249163870000062
Figure BDA0002249163870000063
Figure BDA0002249163870000064
Figure BDA0002249163870000065
其中,im,t表示双向LSTM在第m层t时刻LSTM单元的输入门,e(·)表示以自然常数e为底数的指数操作,Wi m表示输入门im,t与第m层t时刻LSTM单元的拼接向量
Figure BDA0002249163870000071
之间的权重,表示第m层t+km时刻LSTM单元的隐藏状态,km的取值为1或-1,当第m层t时刻时间为反向时LSTM单元的km=1,正向时km=-1,xm,t表示第m层t时刻LSTM单元的输入向量,·表示矩阵相乘操作,[·]表示拼接操作,
Figure BDA0002249163870000073
表示输入门im,t与拼接向量
Figure BDA0002249163870000074
之间的偏置,fm,t表示第m层t时刻LSTM单元的遗忘门,Wf m表示遗忘门fm,t与拼接向量之间的权重,
Figure BDA0002249163870000076
表示遗忘门fm,t与拼接向量
Figure BDA0002249163870000077
之间的偏置,om,t表示第m层t时刻LSTM单元的输出门,
Figure BDA0002249163870000078
表示输出门om,t与拼接向量
Figure BDA0002249163870000079
之间的权重,
Figure BDA00022491638700000710
表示输出门om,t与拼接向量
Figure BDA00022491638700000711
之间的偏置,cm,t表示第m层t时刻LSTM单元的细胞状态,*表示向量中元素相乘操作,
Figure BDA00022491638700000712
表示细胞状态cm,t与拼接向量
Figure BDA00022491638700000713
之间的权重,表示细胞状态cm,t与拼接向量
Figure BDA00022491638700000715
之间的偏置,hm,t表示第m层t时刻LSTM单元的隐藏状态。
搭建一个由双向长短期记忆LSTM和解码子模块组成关系文本模块。
所述双向长短期记忆LSTM与部件文本模块中的双向长短期记忆LSTM的结构和参数一样。
所述解码子模块是由可分别执行向量均分操作、点乘操作、softmax操作三个子模块串联组成。
softmax操作指的是向量中每一个元素的指数值和所有元素指数值和的比值;
将部件检测模块、部件文本模块、关系文本模块串联组成双人交互行为识别网络。
步骤2,生成双人交互行为训练集。
将摄像机获取的含有双人交互行为的至少10000张图像组成样本集。
对样本集中每张含有双人交互行为的图像标注每个人的部件坐标位置,并划分每张图像中双人交互行为的真值类别,将所有划分好类别的双人交互行为的图像组成训练集。
步骤3,训练双人交互行为识别网络。
将训练集中所有划分好类别的双人交互行为的图像,输入到双人交互识别网络中,输出图像的双人交互行为预测类别,利用反向传播梯度下降法,更新迭代双人交互识别网络参数直到目标函数收敛,得到训练好的双人交互识别网络。
所述的目标函数指的是预测类别向量和输入的双人交互行为图像真值类别做交叉熵的值。
步骤4,进行双人交互行为识别。
将待识别的双人交互行为图像输入部件检测模块中获得图像中每个人的交互部件特征,再将每个人的交互部件特征输入到部件文本模块获得部件文本特征和部件预测类别,最后将部件文本特征和部件预测类别输入到关系文本模块中,获得双人交互行为图像的预测类别。
下面结合仿真实验对本发明的效果做进一步说明。
1.仿真实验条件:
本发明的仿真实验的硬件平台为:Inter core i7-6700,频率为3.4GHz,NvidiaGeForce GTX1080Ti。本发明的仿真实验的软件使用pytorch。
2.仿真内容:
本发明的仿真实验是采用本发明和现有技术消息传递方法分别对TV shows和SBU双人交互数据集进行识别,得到数据集中每一幅双人交互图像中部件的位置,部件的预测类别和双人交互行为类别。
本发明仿真实验采用的现有技术消息传递方法是指:Danfei Xu等人在“SceneGraph Generation by Iterative Message Passing”(IEEE Conference on ComputerVision and Pattern Recognition 2017)中提出的双人交互行为识别方法,简称消息传递方法。
本发明仿真实验所使用的数据集TV shows是由英国牛津大学Alonso Patron-Perez等人建立的用于人与人之间交互行为识别的数据集,网址:http://www.robots.ox.ac.uk/~vgg/data/tv_human_interactions/index.html。该数据集一共包含四种交互行为:握手,击掌,拥抱和接吻。
SBU是由石溪大学的Kiwon Yun等人建立双人交互行为识别的数据集,网址:http://www3.cs.stonybrook.edu/~kyun/research/kinect_interaction/index.html。该数据集一共包含八种交互行为:握手,拥抱,交换,靠近,离去,推,踢,拳打。
下面分别采用预测类别、场景图分类、场景图生成三种评价指标,衡量本发明和现有技术消息传递方法在TV shows和SBU双人交互数据集的性能。
第一个评价指标是预测类别PREDCLS,在已知目标部件位置和标签的情况下预测双人交互行为类别,该指标数值越高,表示该方法预测双人交互行为的能力越强。其计算公式如下:
Figure BDA0002249163870000091
第二个评价指标是场景图分类SGCLS,在已知部件坐标位置的情况下预测部件的标签和双人交互行为类别,该指标数值越高,表示该方法预测部件的标签和双人交互行为类别能力越强。其计算公式如下:
Figure BDA0002249163870000092
第三个评价指标是场景图生成SGGEN,对输入的图片预测部件的位置、部件的标签和双人交互行为类别。其计算公式如下:
Figure BDA0002249163870000093
本发明仿真实验中R表示双人交互识别准确率,R@20,R@50,R@100分别表示双人交互行为正确的识别结果在前20个,50个,100个的预测识别结果下的准确率。
将本发明和现有技术消息传递方法在TV shows和SBU数据集中的测试集上计算结果绘制成表1。
表1为本发明方法与消息传递方法分别在TV shows和SBU数据集上训练后,对测试集识别准确率的比较情况,由表1可以看出,本发明在TV shows和SBU数据集下,获得较高的识别准确率,这直接说明了本发明所提出的方法可以更加准确的识别出图像中双人交互行为。
以上仿真实验表明:本发明方法利用生成的数据集,能够获取人的部件坐标位置,利用搭建的双人交互识别网络,首先通过部件检测模块获得图中每个人的交互身体部件特征,然后利用部件文本模块获得人的身体部件文本信息和部件预测类别,最后通过关系文本模块获得双人交互行为的类别,解决了现有技术方法中存在的数据集的复用性和扩展性差,网路没有关注到人的身体部件特征,网络结构复杂。从而导致在识别双人交互行为时出现识别错误或识别准确率不高的情况,是一种非常实用的针对双人交互识别问题的识别方法。
表1本发明仿真实验的定量分析表(%)。
Figure BDA0002249163870000101

Claims (3)

1.一种基于部件特征的双人交互行为识别方法,其特征在于,生成一个双人交互行为训练集,标注训练集中每张图像每个人的部件坐标位置,划分每张图像中双人交互行为的真值类别,搭建双人交互行为识别网络并用训练集训练双人交互行为识别网络,该方法的具体步骤包括如下:
(1)构建双人交互识别网络:
(1a)搭建一个由VGG16特征提取子模块和区域建议子模块RPN串联组成部件检测模块;
所述VGG16特征提取子模块结构依次为:第一卷积层→第一池化层→第二卷积层→第二池化层→第三卷积层→第三池化层→第四卷积层→第四池化层→第五卷积层→第五池化层→第六卷积层→第六池化层→第七卷积层→第七池化层→第八卷积层→第八池化层→第九卷积层→第九池化层→第十卷积层→第十池化层→第十一卷积层→第十一池化层→第十二卷积层→第十二池化层→第十三卷积层→第十三池化层→三个依次相连的全连接层;
设置VGG16特征提取子模块中每层参数如下:第一至十三卷积层的卷积核个数依次为64、64、128、128、256、256、256、512、512、512、512、512、512,卷积核大小均为3*3,每个池化层均采用最大池化方式,每个池化层的池化核大小均设置为2*2;
所述区域建议子模块RPN结构由三个卷积层构成,第一卷积层的输出分别与第二卷积层、第三卷积层的输入相连,第一至三卷积层的卷积核大小依次为512、18、36,卷积核大小依次为3*3、1*1、1*1;
(1b)搭建一个由双向长短期记忆LSTM和时间正向长短期记忆LSTM串联组成部件文本模块;
所述双向长短期记忆LSTM由两个时间相反的长短期记忆LSTM并联组成,每个长短期记忆LSTM由至少3个长短期记忆LSTM单元串联组成;
利用参数设定公式,分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞状态和隐藏状态结构参数;
(1c)搭建一个由双向长短期记忆LSTM、解码子模块组成关系文本模块;
所述双向长短期记忆LSTM与步骤(2b)中的双向长短期记忆LSTM的结构和参数一样;
所述解码子模块是由可分别执行向量均分操作、点乘操作、softmax操作三个子模块串联组成;
(1d)将部件检测模块、部件文本模块、关系文本模块串联组成双人交互行为识别网络;
(2)生成双人交互行为训练集:
(2a)将摄像机获取的含有双人交互行为的至少10000张图像组成样本集;
(2b)对样本集中每张含有双人交互行为的图像标注每个人的部件坐标位置,并划分每张图像中双人交互行为的真值类别,将所有划分好真值类别的双人交互行为的图像组成训练集;
(3)训练双人交互行为识别网络:
将训练集中所有划分好类别的双人交互行为的图像,输入到双人交互行为识别网络中,利用反向传播梯度下降法,更新迭代双人交互行为识别网络参数直到目标函数收敛,得到训练好的双人交互行为识别网络;
(4)进行双人交互行为识别:
将待识别的双人交互行为识别图像输入部件检测模块中获得图像中每个人的交互部件特征,再将每个人的交互部件特征输入到部件文本模块获得部件文本特征和部件预测类别,最后将部件文本特征和部件预测类别输入到关系文本模块中,获得双人交互行为识别图像的预测类别。
2.根据权利要求1所述的基于部件特征的双人交互行为识别方法,其特征在于,步骤(2b)中所述的双人交互行为类别包括:人手部件的拥抱、握手、推、击掌、交物,人头部件的接吻,人腿部件的走进、离开、踢。
3.根据权利要求1所述的基于部件特征的双人交互行为识别方法,其特征在于,步骤(1b)中所述的参数设定公式如下:
Figure FDA0002249163860000031
Figure FDA0002249163860000032
Figure FDA0002249163860000033
其中,im,t表示双向LSTM在第m层t时刻LSTM单元的输入门,e(·)表示以自然常数e为底数的指数操作,Wi m表示输入门im,t与第m层t时刻LSTM单元的拼接向量
Figure FDA0002249163860000036
之间的权重,
Figure FDA0002249163860000037
表示第m层t+km时刻LSTM单元的隐藏状态,km的取值为1或-1,当第m层t时刻时间为反向时LSTM单元的km=1,正向时km=-1,xm,t表示第m层t时刻LSTM单元的输入向量,·表示矩阵相乘操作,[·]表示拼接操作,
Figure FDA0002249163860000038
表示输入门im,t与拼接向量
Figure FDA0002249163860000039
之间的偏置,fm,t表示第m层t时刻LSTM单元的遗忘门,
Figure FDA00022491638600000310
表示遗忘门fm,t与拼接向量
Figure FDA00022491638600000311
之间的权重,
Figure FDA00022491638600000312
表示遗忘门fm,t与拼接向量
Figure FDA00022491638600000313
之间的偏置,om,t表示第m层t时刻LSTM单元的输出门,
Figure FDA00022491638600000314
表示输出门om,t与拼接向量
Figure FDA00022491638600000315
之间的权重,
Figure FDA00022491638600000316
表示输出门om,t与拼接向量
Figure FDA00022491638600000317
之间的偏置,cm,t表示第m层t时刻LSTM单元的细胞状态,*表示向量中元素相乘操作,
Figure FDA0002249163860000041
表示细胞状态cm,t与拼接向量之间的权重,
Figure FDA0002249163860000043
表示细胞状态cm,t与拼接向量
Figure FDA0002249163860000044
之间的偏置,hm,t表示第m层t时刻LSTM单元的隐藏状态。
CN201911027700.9A 2019-10-28 2019-10-28 基于部件特征的双人交互行为识别方法 Active CN110765956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911027700.9A CN110765956B (zh) 2019-10-28 2019-10-28 基于部件特征的双人交互行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911027700.9A CN110765956B (zh) 2019-10-28 2019-10-28 基于部件特征的双人交互行为识别方法

Publications (2)

Publication Number Publication Date
CN110765956A true CN110765956A (zh) 2020-02-07
CN110765956B CN110765956B (zh) 2021-10-29

Family

ID=69333926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911027700.9A Active CN110765956B (zh) 2019-10-28 2019-10-28 基于部件特征的双人交互行为识别方法

Country Status (1)

Country Link
CN (1) CN110765956B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625998A (zh) * 2020-05-29 2020-09-04 华中科技大学 一种层叠太阳能电池结构优化方法
CN112149616A (zh) * 2020-10-13 2020-12-29 西安电子科技大学 基于动态信息的人物交互行为识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002322B1 (en) * 2017-04-06 2018-06-19 The Boston Consulting Group, Inc. Systems and methods for predicting transactions
CN108446605A (zh) * 2018-03-01 2018-08-24 南京邮电大学 复杂背景下双人交互行为识别方法
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN109446927A (zh) * 2018-10-11 2019-03-08 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN109446872A (zh) * 2018-08-24 2019-03-08 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN109460974A (zh) * 2018-10-29 2019-03-12 广州皓云原智信息科技有限公司 一种基于姿态识别的考勤系统
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
WO2019191002A1 (en) * 2018-03-26 2019-10-03 Nvidia Corporation Object movement behavior learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002322B1 (en) * 2017-04-06 2018-06-19 The Boston Consulting Group, Inc. Systems and methods for predicting transactions
CN108446605A (zh) * 2018-03-01 2018-08-24 南京邮电大学 复杂背景下双人交互行为识别方法
WO2019191002A1 (en) * 2018-03-26 2019-10-03 Nvidia Corporation Object movement behavior learning
CN109446872A (zh) * 2018-08-24 2019-03-08 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN109446927A (zh) * 2018-10-11 2019-03-08 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN109460974A (zh) * 2018-10-29 2019-03-12 广州皓云原智信息科技有限公司 一种基于姿态识别的考勤系统
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. AZIZ SHARFUDDIN等: "A Deep Recurrent Neural Network with BiLSTM model for Sentiment Classification", 《2018 INTERNATIONAL CONFERENCE ON BANGLA SPEECH AND LANGUAGE PROCESSING (ICBSLP)》 *
孙亚圣等: "基于注意力机制的行人轨迹预测生成模型", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625998A (zh) * 2020-05-29 2020-09-04 华中科技大学 一种层叠太阳能电池结构优化方法
CN112149616A (zh) * 2020-10-13 2020-12-29 西安电子科技大学 基于动态信息的人物交互行为识别方法
CN112149616B (zh) * 2020-10-13 2023-10-20 西安电子科技大学 基于动态信息的人物交互行为识别方法

Also Published As

Publication number Publication date
CN110765956B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN110852368B (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111291181B (zh) 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
Singh et al. Image classification: a survey
CN114095381B (zh) 多任务模型训练方法、多任务预测方法及相关产品
CN110765956B (zh) 基于部件特征的双人交互行为识别方法
Patel American sign language detection
CN116229530A (zh) 图像处理方法、装置、存储介质及电子设备
Pan et al. Driver activity recognition using spatial‐temporal graph convolutional LSTM networks with attention mechanism
CN116704431A (zh) 水污染的在线监测系统及其方法
Savchenko Emotieffnet facial features in uni-task emotion recognition in video at abaw-5 competition
Mustapha et al. Age Group Classification using Convolutional Neural Network (CNN)
Alon et al. Deep-hand: a deep inference vision approach of recognizing a hand sign language using american alphabet
US20220086401A1 (en) System and method for language-guided video analytics at the edge
Zhu et al. NAGNet: A novel framework for real‐time students' sentiment analysis in the wisdom classroom
Asaju et al. A temporal approach to facial emotion expression recognition
Suman et al. Age gender and sentiment analysis to select relevant advertisements for a user using cnn
Tewari et al. Real Time Sign Language Recognition Framework For Two Way Communication
Pan et al. An Improved Two-stream Inflated 3D ConvNet for Abnormal Behavior Detection.
Rawat et al. Indian Sign Language Recognition System for Interrogative Words Using Deep Learning
Latif et al. Development of image-based emotion recognition using convolutional neural networks
Shylaja et al. Facial emotion recognition based scoring system
Hussain et al. Intra-class recognition of fruits using dcnn for commercial trace back-system
CN117540024B (zh) 一种分类模型的训练方法、装置、电子设备和存储介质
CN117576279B (zh) 基于多模态数据的数字人驱动方法及系统
LeCun Energy-Based Self-Supervised Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant