CN111860148A - 一种基于时序移位的自纠错人类行为识别方法 - Google Patents
一种基于时序移位的自纠错人类行为识别方法 Download PDFInfo
- Publication number
- CN111860148A CN111860148A CN202010529683.5A CN202010529683A CN111860148A CN 111860148 A CN111860148 A CN 111860148A CN 202010529683 A CN202010529683 A CN 202010529683A CN 111860148 A CN111860148 A CN 111860148A
- Authority
- CN
- China
- Prior art keywords
- frame
- behavior recognition
- prediction result
- time sequence
- rgb image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于时序移位的自纠错人类行为识别方法,属于计算机视觉技术领域;具体步骤包括:(1)、将视频帧等分为若干部分,每部分随机选取一帧RGB图像,将其组成行为识别网络的输入;(2)、对选取的RGB图像分别进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,并进行移位操作;(3)、使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射,给出最终的行为预测结果;(4)、针对行为预测结果,对预测结果进行优化调整。本发明去除视频中一部分冗余信息,显著减少了计算量,使不同时间的特征发生相互作用,高效地捕捉到了时序特征;并能针对行为预测结果进行优化调整,提高预测准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于时序移位的自纠错人类行为识别方法。
背景技术
基于视频的人类行为识别一直是计算机视觉领域中极具挑战的问题之一。行为识别在现实生活中的多个方面均有重要的应用价值,如视频理解、安防领域、自动驾驶和人机交互等。随着近年来大规模视频数据的出现,传统的通过人工对视频进行人类行为分析和识别,准确率低,处理速度慢,已无法满足视频实时分析的需求,因此,准确且高效的视频行为分析方法显得至关重要。
目前现有的深度学习行为识别方法,包括2D卷积神经网络模型(2D CNN)和3D卷积网络模型(3D CNN)。直接使用2D CNN进行视频行为识别时,其参数量小,计算成本低,但存在的问题是,视频中相邻帧之间相似度高,存在大量冗余;2D CNN仅仅对单帧的图片进行空间特征的提取,无法提取视频中的时序特征,准确度较低。而使用3D CNN可以同时提取视频中的空间特征和时序特征,准确度较高,但是较2D CNN而言,参数量大,计算成本高,难以部署在算力受限的嵌入式设备上。
发明内容
针对上述问题,本发明提供了一种基于时序移位的自纠错人类行为识别方法,使用2DCNN,本发明在不添加参数量的前提下,可以融合视频中的时序特征,实现高效且准确的视频行为识别。
本发明的技术方案是:一种基于时序移位的自纠错人类行为识别方法,操作步骤具体如下:
步骤(1.1),将视频帧等分为若干部分,每部分随机选取一帧RGB图像,将选取的RGB图像组成行为识别网络的输入;
步骤(1.2),对选取的RGB图像分别进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,并进行移位操作,融合不同时间的特征;
步骤(1.3),使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射,通过分类器给出最终的行为预测结果;
步骤(1.4),针对所述行为预测结果,依据动作状态变化合理性,对预测结果进行优化调整。
进一步的,所述步骤(1.1)中将RGB图像组成行为识别网络的输入的具体方法:
利用ffmpeg将视频转换为图片帧,并进行等分,记为S1,S2,S3…Sn;采取稀疏采样策略,分别对所述视频帧等分后的每个部分,从中随机抽取一帧图片,记为F1,F2,F3…Fn,组成行为识别网络的输入,记为(F1,F2,F3…Fn)。
进一步的,所述步骤(1.2)的具体操作步骤如下:
步骤(1.2.1)、将所述行为识别网络的输入(F1,F2,F3…Fn),进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,记为式(1):
步骤(1.2.2)、在通道维度和时序维度上,对所述每帧RGB图像对应的特征映射,进行移位操作,将第一个通道的特征向左平移,将第二个通道维度的特征向右平移,即不同时间的图片特征发生相互作用;移位之后特征映射的空位使用0进行填充,记为emt,移位生成的最终特征映射记为式(2):
进一步的,所述步骤(1.3)中最终的预测结果如式3所示:
Res(F1,F2,F3…Fn)=H(g(O(F1;W),O(F2;W),…,O(Fn;W)) (3)
进一步的,所述步骤(1.4)的具体操作步骤如下:
通过行为识别网络输出最终的预测结果时,产生动作的误判;此时根据动作状态变化合理性,调整所述误判动作类别对应的网络参数权重,重新输出优化调整后的预测结果。
本发明的有益效果是:本发明使用稀疏采样策略,在对视频进行抽帧时,去除了一部分冗余信息,在保证准确率的前提下,显著减少了计算量。对特征映射采用了移位操作,可以使不同时间的特征发生相互作用,在不增加参数的前提下,高效地捕捉到了时序特征,并能针对行为预测结果,依据动作状态变化的合理性,对预测结果进行优化调整,提高了预测准确率。
附图说明
图1为本发明的结构流程图;
图2为本发明中移位操作的实例示意图;
图3为本发明中网络框架的结构示意图;
图4为本发明中对预测结果优化调整的结构示意图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面将对本发明中进行进一步的叙述;显而易见地,下面描述中的仅仅是一部分的实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些将本发明所述的技术方案应用于其它类似情景;为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,一种基于时序移位的自纠错人类行为识别方法,其特征在于,操作步骤具体如下:
步骤(1.1),将视频帧等分为若干部分,每部分随机选取一帧RGB图像,将选取的RGB图像组成行为识别网络的输入,
利用ffmpeg将视频转换为图片帧,并进行等分,记为S1,S2,S3…Sn;采取稀疏采样策略,分别对所述视频帧等分后的每个部分,从中随机抽取一帧图片,记为F1,F2,F3…Fn,组成行为识别网络的输入,记为(F1,F2,F3…Fn);
步骤(1.2),对选取的RGB图像分别进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,并进行移位操作,融合不同时间的特征;其具体步骤如下:
步骤(1.2.1)、将所述行为识别网络的输入(F1,F2,F3…Fn),进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,记为式(1):
具体地,其中F1_C1表示第一帧第一个通道的特征,F1_C2表示第一帧第二个通道的特征,依次类推,Fn_Cn表示第n帧第n个通道的特征;
步骤(1.2.2)、在通道维度和时序维度上,对所述每帧RGB图像对应的特征映射,进行移位操作,将第一个通道的特征向左平移,将第二个通道维度的特征向右平移,即不同时间的图片特征发生相互作用;移位之后特征映射的空位使用0进行填充,记为emt,移位生成的最终特征映射记为式(2):
所述不同的图片特征发生相互作用,表示进行移位操作后,当前帧的图片特征融合了前一帧的图片特征以及后一帧的图片特征;
步骤(1.3),使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射,通过分类器给出最终的行为预测结果;
最终的预测结果如式3所示:
Res(F1,F2,F3…Fn)=H(g(O(F1;W),O(F2;W),…,O(Fn;W)) (3)
式3中,其中(F1,F2,F3…Fn)为网络输入;W表示网络参数;O(F1;W)表示行为识别网络对移位生成的每帧图片最终特征映射进行处理后的输出,即预测的每个行为类别对应的得分;g表示融合函数,对所有输出属于同一类别的得分取平均;H表示使用softmax分类器根据得分计算每个类别对应的概率;
所述softmax分类器,可将多个输出得分,记为(K1,K2,K3…Kn),映射成(0,1)区间内的值,记为(P1,P2,P3…Pn),即每个行为类别对应的预测概率,且P1+P2+P3+…+Pn=1,并选取概率最高项;
所述最终的预测结果Res(F1,F2,F3…Fn)即为H中概率最高项对应的类别;
步骤(1.4),针对所述行为预测结果,依据动作状态变化合理性,对预测结果进行优化调整,
所述动作状态变化合理性,表示执行动作的主体,在一段时间间隔内从第一所述状态变化到第二所述状态,再从第二所述状态变化到第三所述状态,直至变化到最终所述状态,这种动作状态转变的过程是符合客观现实中动作执行先后顺序的,是无法从第一所述状态变化到除第二所述状态的其他状态的;
具体操作步骤如下:
通过行为识别网络输出最终的预测结果时,产生动作的误判;此时根据动作状态变化合理性,调整所述误判动作类别对应的网络参数权重,重新输出优化调整后的预测结果。
如图2所示,本发明提供一个移位操作实例示意图;所述一个移位操作实例示意图,是由5个不同时刻(t=0,t=1,t=2,t=3,t=4)的5张RGB图像(F1,F2,F3,F4,F5)作为输入,进行一次2D卷积运算后,生成的每帧图像对应的特征映射组合而成的,记为(4):
其中F1_C1表示第一帧第一个通道的特征,F1_C2表示第一帧第二个通道的特征,依次类推,F5_C5表示第5帧第5个通道的特征;在通道维度和时序维度上,对所述每帧RGB图像对应的特征映射,进行移位操作,将第一个通道的特征向左平移,将第二个通道维度的特征向右平移,即不同时刻的每帧RGB图像特征发生相互作用;移位之后特征映射的空位使用0进行填充,记为emt,移位生成的最终特征映射记为(5):
所述移位操作结束后,当前帧的RGB图像特征融入了前一帧的RGB图像特征和后一帧的RGB图像特征。
如图3所示,本发明提供一个网络框架示意图;所述行为识别网络框架,表示将视频帧等分为若干部分,记为S1,S2,S3…Sn;采取稀疏采样策略,分别对所述视频帧等分后的每个部分,从中随机抽取一帧图片,组成行为识别网络的输入,记为(F1,F2,F3…Fn);将所述行为识别网络的输入,进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,并利用移位操作,再对所述移位操作生成的每帧RGB图像最终特征映射进行处理。
如图4所示,本发明提供一个对预测结果优化调整示意图示意图;所述对预测结果优化调整示意图,针对一段时间间隔内的跳远动作,执行动作的主体,从第一所述站立备跑状态变化到第二所述奔跑状态,再从第二所述奔跑状态变化到第三所述跳跃状态,最后从第三所述状态变化到最终所述落地状态,所述动作状态转变的过程是合理且符合客观现实中动作执行先后顺序的,是无法从第一所述站立备跑状态变化到除第二所述奔跑状态的其他状态的;行为识别网络输出预测结果时,即输出类别为:“站立备跑”,“跳跃”,“跳跃”,“落地”,产生了动作的误判,且不符合所述动作状态变化合理性。此时会根据所述动作状态变化合理性,调整所述误判动作类别“跳跃”对应的网络参数权重W,提高第二所述状态中“奔跑”的动作权重,重新输出优化调整后的预测结果,即输出类别为:“站立备跑”,“奔跑”,“跳跃”,“落地”,提高了预测准确率。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。
Claims (5)
1.一种基于时序移位的自纠错人类行为识别方法,其特征在于,操作步骤具体如下:
步骤(1.1),将视频帧等分为若干部分,每部分随机选取一帧RGB图像,将选取的RGB图像组成行为识别网络的输入;
步骤(1.2),对选取的RGB图像分别进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,并进行移位操作,融合不同时间的特征;
步骤(1.3),使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射,通过分类器给出最终的行为预测结果;
步骤(1.4),针对所述行为预测结果,依据动作状态变化合理性,对预测结果进行优化调整。
2.根据权利要求1所述的一种基于时序移位的自纠错人类行为识别方法,其特征在于,所述步骤(1.1)中将RGB图像组成行为识别网络的输入的具体方法:
利用ffmpeg将视频转换为图片帧,并进行等分,记为S1,S2,S3…Sn;采取稀疏采样策略,分别对所述视频帧等分后的每个部分,从中随机抽取一帧图片,记为F1,F2,F3…Fn,组成行为识别网络的输入,记为(F1,F2,F3…Fn)。
4.根据权利要求1所述的一种基于时序移位的自纠错人类行为识别方法,其特征在于,所述步骤(1.3)中最终的预测结果如式3所示:
Res(F1,F2,F3 … Fn)=Η(g(O(F1;W),O(F2;W),…,O(Fn;W)) (3)
5.根据权利要求1所述的一种基于时序移位的自纠错人类行为识别方法,其特征在于,所述步骤(1.4)的具体操作步骤如下:
通过行为识别网络输出最终的预测结果时,产生动作的误判;此时根据动作状态变化合理性,调整所述误判动作类别对应的网络参数权重,重新输出优化调整后的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010529683.5A CN111860148B (zh) | 2020-06-11 | 2020-06-11 | 一种基于时序移位的自纠错人类行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010529683.5A CN111860148B (zh) | 2020-06-11 | 2020-06-11 | 一种基于时序移位的自纠错人类行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860148A true CN111860148A (zh) | 2020-10-30 |
CN111860148B CN111860148B (zh) | 2022-08-26 |
Family
ID=72986475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010529683.5A Active CN111860148B (zh) | 2020-06-11 | 2020-06-11 | 一种基于时序移位的自纠错人类行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860148B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
-
2020
- 2020-06-11 CN CN202010529683.5A patent/CN111860148B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111860148B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN109614921B (zh) | 一种基于对抗生成网络的半监督学习的细胞分割方法 | |
CN112149459B (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN112132197B (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN109919122A (zh) | 一种基于3d人体关键点的时序行为检测方法 | |
CN111028235B (zh) | 一种利用特征融合增强边缘和细节信息的图像分割方法 | |
CN110889375B (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN109874053A (zh) | 基于视频内容理解和用户动态兴趣的短视频推荐方法 | |
CN110569773B (zh) | 基于时空显著性行为注意力的双流网络行为识别方法 | |
EP3627379A1 (en) | Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium | |
CN112906631B (zh) | 一种基于视频的危险驾驶行为检测方法和检测系统 | |
CN108734169A (zh) | 一种基于全卷积网络改进的场景文本提取方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN111582230A (zh) | 基于空时特征的视频行为分类方法 | |
CN115862066A (zh) | 一种改进YOLOv5的轻量化社区场景下行人检测方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
Wang et al. | Collision risk rating of traffic scene from dashboard cameras | |
WO2024175099A1 (zh) | 图像处理方法、装置和存储介质 | |
CN111145277A (zh) | 一种深度语义感知与bpg压缩工具的图像压缩方法 | |
KR20210011707A (ko) | Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치 | |
CN115205768B (zh) | 一种基于分辨率自适应网络的视频分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |