CN108416288A - 基于全局与局部网络融合的第一视角交互动作识别方法 - Google Patents

基于全局与局部网络融合的第一视角交互动作识别方法 Download PDF

Info

Publication number
CN108416288A
CN108416288A CN201810177014.9A CN201810177014A CN108416288A CN 108416288 A CN108416288 A CN 108416288A CN 201810177014 A CN201810177014 A CN 201810177014A CN 108416288 A CN108416288 A CN 108416288A
Authority
CN
China
Prior art keywords
action
sample
video
situation
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810177014.9A
Other languages
English (en)
Inventor
宋砚
法羚玲
唐金辉
舒祥波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201810177014.9A priority Critical patent/CN108416288A/zh
Publication of CN108416288A publication Critical patent/CN108416288A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于全局与局部网络融合的第一视角交互动作识别方法,包括:对视频进行采样获取不同动作,得到图像组成动作样本;将采样得到的动作片段进行尺寸的统一化处理,并进行数据增强,训练基于全局图像为输入的3D卷积网络,学习全局的动作的时空特征得到网络分类模型;采用稀疏光流来定位动作片段中显著性动作发生的局部区域;将不同动作的局部区域进行尺寸统一处理后,调整网络的超参数,训练基于局部图像为输入的3D卷积网络,学习局部的显著性动作特征得到网络分类模型;对同一个视频多次采样得到动作样本,按投票法将全局与局部模型给出的预测次数统计排序,其中预测最多的类别作为识别的动作标签。

Description

基于全局与局部网络融合的第一视角交互动作识别方法
技术领域
本发明涉及一种交互动作识别与图像处理技术,特特别是一种基于全局与局部网络融合的第一视角交互动作识别方法。
背景技术
近几年来,随着可携带设备的发展,头戴式摄像头的普及已经产生了越来越多的第一视角的视频,这带来了以第一视角来分析人体行为的需求。第一视角的视频对捕捉社会交互和物体交互带来了全新的视角,但是来自头部摄像头的常开模式的带来的长时间的动作和无结构的拍摄场景,使得第一视角视频的动作解析变得很有挑战。第一视角中的交互动作包括了两种类型,一种是来自于观察者的自我运动,一种是来自于交互者的动作。通常,交互会影响到观察者,所以视频中会出现大量的自我运动。这使得传统的动作识别的单一分类器方法无法得到高精度的识别效果,因此需要基于全局与局部结合的方法来精细分析动作特征,得到高效的表示。
发明内容
本发明的目的在于提供一种基于全局与局部网络融合的第一视角交互动作识别方法,包含以下步骤:
步骤1,对视频进行采样获取不同动作,得到16帧的图像组成动作样本;
步骤2,将采样得到的动作片段进行尺寸的统一化处理,并进行数据增强,训练基于全局图像为输入的3D卷积网络,学习全局的动作的时空特征得到网络分类模型;
步骤3,采用稀疏光流来定位动作片段中显著性动作发生的局部区域;
步骤4,将不同动作的局部区域进行尺寸统一处理后,调整网络的超参数,训练基于局部图像为输入的3D卷积网络,学习局部的显著性动作特征得到网络分类模型;
步骤5,将全局与局部的特征进行融合,融合的过程为对同一个视频多次采样得到动作样本,按投票法将全局与局部模型给出的预测次数统计排序,其中预测最多的类别作为识别的动作标签。
本发明与现有技术相比,具有以下优点:(1)本发明采用了设置片段间隔来平衡数据类别以及设置帧间隔增强动作片段表示的多次采样方式,尽可能去除相邻帧的动作表示的冗余,覆盖更多的关键帧;(2)本发明基于第一视角下交互动作的特点,提出全局动作表示与局部显著性动作表示融合的方法,更好的挖掘交互动作的表示方式;(3)本发明基于稀疏光流的方法定位动作显著性区域,经2步去噪后,可得到精准的局部交互者的显著性动作区域;(4)本发明应用深度学习中的3D卷积网络训练分类器模型,3D卷积网络以3D形式的过滤核视频中相关的物体,场景和动作的信息,有效提取视频特征。
下面结合说明书对本发明作进一步描述。
附图说明
图1是本发明基于全局与局部网络融合的第一视角人机交互视频动作识别的方法流程图。
图2是基于视频的动作片段采样规则示意图。
图3是3D卷积网络的结构图。
图4是经过2次去噪的基于稀疏光流的定位出的局部区域示意图。
图5是不同动作类别得到的显著性区域示意图。
图6是显示了人机交互动作分析的基于全局与局部双流融合网络示意图。
图7是双流网络对视频分析的标签输出示意图。
具体实施方式
结合图1,基于全局与局部网络融合的第一视角人机交互视频动作识别的方法,包括以下步骤:
步骤1,对视频进行采样获取不同动作,得到16帧的图像组成动作样本;
步骤2,将采样得到的动作片段进行尺寸的统一化处理,并进行数据增强,训练基于全局图像为输入的3D卷积网络,学习全局的动作的时空特征得到网络分类模型;
步骤3,采用稀疏光流来定位动作片段中显著性动作发生的局部区域;
步骤4,将不同动作的局部区域进行尺寸统一处理后,调整网络的超参数,训练基于局部图像为输入的3D卷积网络,学习局部的显著性动作特征得到网络分类模型;
步骤5,将全局与局部的特征进行融合,融合的过程为对同一个视频多次采样得到动作样本,按投票法将全局与局部模型给出的预测次数统计排序,其中预测最多的类别作为识别的动作标签。
步骤1中对视频进行平衡数据类别和增强动作片段表达性能的采样,假设一个动作视频序列有N帧,表示为I={I1,I2,...,IN},动作标签表示为y,本文从视频中提取T个样本。本文为每个样本设置开始帧,开始帧的个数等于最后从该视频中提取出的样本数目。本文设置样本的间隔为U,开始帧的下标可以表示为S={1,1+U,1+2U,...,1+(T-1)U},其中U是通过N/T计算得到。为了每个样本能覆盖更多的关键帧,本文使用采样的帧间隔R得到L帧的样本。因此,对于第i个样本,采样组成的帧的下标为Ci={Si,Si+R,Si+2R,...,Si+(L-1)R},其中Si是它的起始帧下标。视频中采样的每个样本的标签为y。图2显示了采样的规则。
步骤2中将采样得到的动作片段进行尺寸的统一化处理,通过数据增强的方式来防止过拟合,训练基于全局的3D卷积网络,提取全局的动作的时空特征。对于全局网络的输入,将采样得到的视频帧大小统一缩小为128×171。每个视频被分为16帧的样本输入网络。通过随机裁剪等数据增强方式来防止过拟合,视频基于采样规则多次采样,然后使用softmax为loss函数训练全局3D深度神经网络。采用的3D卷积网络的结构图如图3。对于动作视频块中位置(x,y,z)的值在3D卷积网络中第i层第j个特征映射图中是:
Ri是动作时间维度的3D核的大小,是对应于上一层中第m个特征映射的核的第(p,q,r)个值。按照上述公式反向传播更新参数,训练得到基于全局的网络分类模型。
步骤3中采用稀疏光流来定位显著性动作发生的局部区域。光流可以找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一阶泰勒级数展开,
那么在的假设下,使用最小二乘法,求解光流。
在视频的整张图片帧上提取相邻帧的光流,然后去除不相关的噪声动作,基于显著性光流设置局部边框。为了检测光流,降噪包含两步。观察所得,噪声类别大致分为两类,第一类是与显著性动作无关的弱的摄像头运动。本发明通过设置连续帧之间的光流点的位移值将其过滤。其次,另一种光流主要来自周围不相关的人。在第一视角的视频中,这部分噪声主要出现在图像的边缘区域,因此,本发明使用边缘区域的光流点的个数来决定是否是来自不相关的人的噪声运动。图4是经过2次去噪的基于稀疏光流的定位出的局部区域。
步骤4中对每个动作类别得到的局部区域进行预处理。不同动作类别得到的显著性大小不一致,如图5。因为3D核是对输入3D卷积网络中的视频样本进行窗口的滑动提取深度特征,输入的视频帧需要对准。所有的局部动作区域的输入大小设置为116×144,在网络中随意裁剪为112×112来增强数据。本发明设置学习率为0.0001。训练局部3D卷积网络,迭代至损失函数收敛。
步骤5中将全局与局部的特征进行融合,对多次采样的同一个视频下的动作样本,按投票法,将预测次数最多的类别作为模型识别的动作标签。对于全局网络,本发明输入视频片段中的整张图片的序列,包含了全局表观的大量的自我运动。对于局部网络,在两次降噪处理后,本发明检测出交互者的显著动作区域,然后裁剪出该区域作为局部网络的输入。训练完这两个网络,本文组合全局网络和局部网络的结果进行视频的最后动作类型的输出。按类别个数投票,得到分类器对每个视频多个样本的类别输出O={o1,o2,...,oN},假设一个视频采样N个样本,对这N个样本统计预测最多的类别,并将其作为最终的预测标签。最大分数显示了标签预测的置信分数。图6是显示了人机交互动作分析的基于全局与局部双流融合网络。图7是双流网络对视频分析的标签输出。

Claims (6)

1.一种基于全局与局部网络融合的第一视角交互动作识别方法,其特征在于,包含以下步骤:
步骤1,对视频进行采样获取不同动作,得到16帧的图像组成动作样本;
步骤2,将采样得到的动作片段进行尺寸的统一化处理,并进行数据增强,训练基于全局图像为输入的3D卷积网络,学习全局的动作的时空特征得到网络分类模型;
步骤3,采用稀疏光流来定位动作片段中显著性动作发生的局部区域;
步骤4,将不同动作的局部区域进行尺寸统一处理后,调整网络的超参数,训练基于局部图像为输入的3D卷积网络,学习局部的显著性动作特征得到网络分类模型;
步骤5,将全局与局部的特征进行融合,融合的过程为对同一个视频多次采样得到动作样本,按投票法将全局与局部模型给出的预测次数统计排序,其中预测最多的类别作为识别的动作标签。
2.根据权利要求1所述的方法,其特征在于,步骤1中对动作视频进行调整采样帧间隔的多次采样方法,具体过程为:
假设一个动作视频序列有N帧,表示为I={I1,I2,...,IN},动作标签表示为y,从动作视频中多次采样,提取出T个动作样本;
为每个样本设置开始帧,开始帧的个数等于最后从该视频中提取出的样本数目;
设置样本的间隔为U,开始帧的下标表示为S={1,1+U,1+2U,...,1+(T-1)U},其中U=N/T;
使用采样的帧间隔R得到L帧的样本。因此,对于第i个样本,采样组成的帧的下标为Ci={Si,Si+R,Si+2R,...,Si+(L-1)R},其中Si是它的起始帧下标;
视频中采样的每个样本的标签为y。
3.根据权利要求1所述的方法,其特征在于,步骤2的具体过程为:
步骤2.1,对基于全局的动作片段进行预处理,将采样的动作片段帧大小统一为128×171;
步骤2.2,采用随机裁剪等方式对动作样本进行数据增强输入到5层的3D卷积网络中;
步骤2.3,对于动作样本组成的视频块中位置(x,y,z)的值在3D卷积网络中第i层第j个特征映射图中是:
pi和qi是3D核空间维度的大小,Ri是3D核时间维度的大小,是对应于上一层中第m个特征映射的核的(p,q,r)的权重参数值,bij是对应于上一层中第m个特征映射的核的(p,q,r)的偏重参数值,是动作样本的(x,y,z)的位置在上一层中第m个特征映射后的图像值;
步骤2.4,按照式(1)按损失函数梯度反向传播更新模型每一层的学习参数w和b,训练得到基于全局的网络分类模型。
4.根据权利要求1所述的方法,其特征在于,步骤3中在动作片段的整张图片帧上提取光流,然后设置阈值去除不相关的噪声光流,最终基于剩下的显著性光流设置局部边框,具体过程为:
步骤3.1,根据光流找到图像中每个像素点的速度向量;
步骤3.2,根据光流的微小运动和亮度恒定的假设,得到
I(x,y,t)=I(x+dx,y+dy,t+dt) (2)
I为(x,y,t)时刻的图像的像素亮度表示,x、y为空间坐标,t为时刻。
步骤3.3,将式(2)用一阶泰勒级数展开得到
步骤3.4,令的假设下,Ixu+Iyv=-It,求解u,v;
步骤3.5,对于与显著性动作无关的弱的摄像头光流,通过设置连续帧之间的光流点的位移值将其过滤;对于周围不相关的人产生的运动光流,使用边缘区域的光流点的个数来决定是否是来自不相关的人的噪声运动。
5.根据权利要求1所述的方法,其特征在于,步骤4中
所有的局部动作区域的输入大小设置为116×144,
在网络中随意裁剪为112×112来增强数据,
设置参数更新的超参数学习率为0.0001。
6.根据权利要求1所述的方法,其特征在于,步骤5的具体过程为:
按类别个数投票,得到分类器对每个视频多个样本的类别输出O={o1,o2,...,oN};
对一个视频采样的N个样本统计,预测最多的类别,并将其作为最终的预测标签。
CN201810177014.9A 2018-03-04 2018-03-04 基于全局与局部网络融合的第一视角交互动作识别方法 Pending CN108416288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810177014.9A CN108416288A (zh) 2018-03-04 2018-03-04 基于全局与局部网络融合的第一视角交互动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810177014.9A CN108416288A (zh) 2018-03-04 2018-03-04 基于全局与局部网络融合的第一视角交互动作识别方法

Publications (1)

Publication Number Publication Date
CN108416288A true CN108416288A (zh) 2018-08-17

Family

ID=63129725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810177014.9A Pending CN108416288A (zh) 2018-03-04 2018-03-04 基于全局与局部网络融合的第一视角交互动作识别方法

Country Status (1)

Country Link
CN (1) CN108416288A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446991A (zh) * 2018-10-30 2019-03-08 北京交通大学 基于全局和局部特征融合的步态识别方法
CN110533184A (zh) * 2019-08-31 2019-12-03 南京人工智能高等研究院有限公司 一种网络模型的训练方法及装置
CN110610145A (zh) * 2019-08-28 2019-12-24 电子科技大学 一种结合全局运动参数的行为识别方法
CN111353519A (zh) * 2018-12-24 2020-06-30 北京三星通信技术研究有限公司 用户行为识别方法和系统、具有ar功能的设备及其控制方法
CN111460876A (zh) * 2019-06-05 2020-07-28 北京京东尚科信息技术有限公司 用于识别视频的方法和装置
CN112416114A (zh) * 2019-08-23 2021-02-26 宏碁股份有限公司 电子装置及其画面视角识别方法
CN112489092A (zh) * 2020-12-09 2021-03-12 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112580580A (zh) * 2020-12-28 2021-03-30 厦门理工学院 一种基于数据增强与模型融合的病理性近视识别方法
CN112749666A (zh) * 2021-01-15 2021-05-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
CN113034412A (zh) * 2021-02-25 2021-06-25 北京达佳互联信息技术有限公司 视频处理方法及装置
CN115294639A (zh) * 2022-07-11 2022-11-04 惠州市慧昊光电有限公司 色温可调灯带及其控制方法
CN112749666B (zh) * 2021-01-15 2024-06-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN106022355A (zh) * 2016-05-09 2016-10-12 西北工业大学 基于3dcnn的高光谱图像空谱联合分类方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN106022355A (zh) * 2016-05-09 2016-10-12 西北工业大学 基于3dcnn的高光谱图像空谱联合分类方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LINGLING FA ET.AL: "Global and Local C3D Ensemble System for First Person Interactive Action Recognition", 《MMM2018》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446991A (zh) * 2018-10-30 2019-03-08 北京交通大学 基于全局和局部特征融合的步态识别方法
CN111353519A (zh) * 2018-12-24 2020-06-30 北京三星通信技术研究有限公司 用户行为识别方法和系统、具有ar功能的设备及其控制方法
CN111460876A (zh) * 2019-06-05 2020-07-28 北京京东尚科信息技术有限公司 用于识别视频的方法和装置
CN111460876B (zh) * 2019-06-05 2021-05-25 北京京东尚科信息技术有限公司 用于识别视频的方法和装置
US11967134B2 (en) 2019-06-05 2024-04-23 Beijing Jingdong Shangke Information Technology Co., Ltd. Method and device for identifying video
CN112416114B (zh) * 2019-08-23 2023-08-04 宏碁股份有限公司 电子装置及其画面视角识别方法
CN112416114A (zh) * 2019-08-23 2021-02-26 宏碁股份有限公司 电子装置及其画面视角识别方法
CN110610145A (zh) * 2019-08-28 2019-12-24 电子科技大学 一种结合全局运动参数的行为识别方法
CN110533184A (zh) * 2019-08-31 2019-12-03 南京人工智能高等研究院有限公司 一种网络模型的训练方法及装置
CN112489092A (zh) * 2020-12-09 2021-03-12 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112489092B (zh) * 2020-12-09 2023-10-31 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112580580A (zh) * 2020-12-28 2021-03-30 厦门理工学院 一种基于数据增强与模型融合的病理性近视识别方法
CN112749666A (zh) * 2021-01-15 2021-05-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
WO2022152104A1 (zh) * 2021-01-15 2022-07-21 百果园技术(新加坡)有限公司 动作识别模型的训练方法及装置、动作识别方法及装置
CN112749666B (zh) * 2021-01-15 2024-06-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
CN113034412B (zh) * 2021-02-25 2024-04-19 北京达佳互联信息技术有限公司 视频处理方法及装置
CN113034412A (zh) * 2021-02-25 2021-06-25 北京达佳互联信息技术有限公司 视频处理方法及装置
CN115294639A (zh) * 2022-07-11 2022-11-04 惠州市慧昊光电有限公司 色温可调灯带及其控制方法

Similar Documents

Publication Publication Date Title
CN108416288A (zh) 基于全局与局部网络融合的第一视角交互动作识别方法
CN107423398B (zh) 交互方法、装置、存储介质和计算机设备
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN108921042A (zh) 一种基于深度学习的人脸序列表情识别方法
KR101996371B1 (ko) 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램
CN110334718A (zh) 一种基于长短期记忆的二维视频显著性检测方法
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
CN111428583A (zh) 一种基于神经网络和触觉点阵的视觉补偿方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN109446897A (zh) 基于图像上下文信息的场景识别方法及装置
Al-Obodi et al. A Saudi Sign Language recognition system based on convolutional neural networks
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
Koli et al. Human action recognition using deep neural networks
Vanaja et al. Hand Gesture Recognition for Deaf and Dumb Using CNN Technique
CN114780775A (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
CN110766645A (zh) 基于人物识别与分割的目标人物复现图生成方法
CN114387610A (zh) 一种基于增强特征金字塔网络的任意形状场景文本检测方法
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection
CN115953832A (zh) 一种基于语义解耦的自注意力模型的组合动作识别方法
CN110796150B (zh) 一种基于情感显著性区域检测的图片情感识别方法
KR102591835B1 (ko) 딥러닝 기반 의상 속성 분류 장치 및 방법
CN113887373A (zh) 基于城市智慧体育的并行融合网络的姿态识别方法和系统
Jebakani et al. Hand gesture interpretation model for Indian sign language using neural networks
Savant et al. Indian sign language recognition system for deaf and dumb using image processing and fingerspelling: a technical review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180817