CN113343950B - 一种基于多特征融合的视频行为识别方法 - Google Patents
一种基于多特征融合的视频行为识别方法 Download PDFInfo
- Publication number
- CN113343950B CN113343950B CN202110891347.XA CN202110891347A CN113343950B CN 113343950 B CN113343950 B CN 113343950B CN 202110891347 A CN202110891347 A CN 202110891347A CN 113343950 B CN113343950 B CN 113343950B
- Authority
- CN
- China
- Prior art keywords
- full
- sequence
- join
- image
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像识别技术领域,涉及一种基于多特征融合的视频行为识别方法,通过将采集的视频信息从多个视角进行处理,对视频信息进行图像帧采样,进行人物的骨骼点信息提取,获得视频中人物行为的关键点热度图信息,人物的前景语义分割信息,并与RGB信息进行融合,从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较,通过提取的骨骼点信息可以更多的关注人物的动作信息,通过语义分割网络,获取场景中的前景信息,屏蔽无关的背景干扰,通过这三者的融合进行特征的互补,提高行为识别的准确率。
Description
技术领域
本发明属于图像识别技术领域,涉及一种基于多特征融合的视频行为识别方法。
背景技术
行为识别是视频理解中的一个重要任务,在视频推荐系统,人机交互,游戏娱乐等领域有重要的应用。
为了更好的理解行为识别,需要从多个角度对视频中的信息进行分析。目前人们常采集RGB信息,通过端到端的方法对视频中的行为进行分类。
随着传感器和多种信息提取算法的出现,人们可以从多个视角来提取对特定人物有用的信息。目前多特征融合的行为识别方法,如通过提取光流信息和图像空间信息,对动作和外形信息进行融合,如slowfast,通过两个支路,提取空间和时间的信息进行融合。视频中的人体骨骼信息,常常作为简单行为识别的特征描述。语义分割信息,可以用以区分前景和背景信息,屏蔽无效的背景信息。
基于上述有效信息,本发明针对单一特征表达能力有限的问题,通过提取多个视角的特征,进行互补性的融合操作,对识别效果进行增强,视频中的行为,人物和场景信息对行为识别而言,都是重要的线索。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于多特征融合的视频行为识别方法,其具体技术方案如下:
一种基于多特征融合的视频行为识别方法,包括如下步骤:
步骤三,对原始的RGB图像序列进行语义分割,获取语义分割热度图序列,将语义分割热度图序列跟对应的原始的RGB图像序列进行与操作,生
成前景分割图像序列,再将送入3DCNN网络中进行特征提取,获取
特征后通过全连接进行全连接维度变换生成;
进一步的,所述3DCNN网络包括8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。
进一步的,所述步骤二,具体包括:
进一步的,所述OpenPose网络,首先检测属于图像中每个人骨骼点,输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图,通过关键点亲和力图将关键点进行分组,指定给不同的个体,然后对属于同一个个体的关键点进行连接,生成关键点连接图。
进一步的,所述步骤三,具体包括:
进一步的,所述步骤四,具体包括如下步骤:
本发明通过对RGB视频信息进行骨骼点信息提取,语义分割信息的提取,结合RGB信息,对这三者信息进行融合,提高特征提取的多样性,结合多个特征之间的互补关系,从而更好的识别视频中的行为。
附图说明
图 1 为本发明方法的流程图;
图 2 为本发明采用的3DCNN网络结构图;
图 3 为本发明的骨骼点连接图示例;
图 4 为本发明的语义分割Mask图示例;
图 5 为本发明的多特征融合的结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,本发明的一种基于多特征融合的视频行为识别方法,将视频序列按照一定的帧率进行采样,采样后的图像序列进行三种处理方式:第一种图像序列为原始的RGB图像序列,即原始图像序列进行关键帧采样后的图像序列;第二种图像序列为骨骼点图像序列;第三种图像序列为前景分割后的图像序列;再分别送入3DCNN网络进行特征提取,后融合输出,具体步骤如下:
步骤三,对原始的RGB图像序列进行语义分割,获取语义分割热度图序列,将语义分割热度图序列跟对应的原始的RGB图像序列进行与操作,生
成前景分割图像序列,再将送入3DCNN网络中进行特征提取,获取
特征后通过全连接进行全连接维度变换生成;
卷积网络CNN具有强大的空间特征提取能力。传统的2DCNN没有考虑时间维度上帧间的运动信息,3DCNN能够捕获视频中时间和空间的特征信息,同时对外观和运动进行建模,相对于2DCNN多了一个维度,可以捕获运动信息,是目前行为识别中获取空间和时间特征的常用方法。其中3DCNN的网络结构,如图2所示,即本发明采用的C3D网络,用于提取三种输入的特征,所述C3D网络共8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。
所述步骤二,具体包括:
所述关键点热度图视频序列的获取采用现成的骨骼点提取算法
Openpose获取骨骼点连接图。对于OpenPose网络,是用于多人人体姿势估计的自下而上算
法,首先检测属于图像中每个人骨骼点,然后将部件分配给不同的个体。OpenPose输出表征
关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图,通过关键点亲
和力图将关键点进行分组,指定给不同的个体,然后对属于同一个个体的关键点进行连接,
生成关键点连接图,最终生成的人体骨架示例图,如图3所示。
所述步骤三,具体包括:
所述语义分割网络Unet对于每一帧进行语义分割处理之后,对于像素分类属于前景的像素赋值为1,对于像素分类属于背景的像素赋值为0,其中分割处理后生成的图片序列为mask。Unet网络是一个对称的结构,左半边是Encoder,右半边是Decoder,先经过Encoder处理,再经过Decoder处理,最终实现对图像中的像素进行分类,如图4所示。
综上所述,本发明通过将采集的视频信息从多个视角进行处理,对视频信息进行骨骼点信息提取,获得视频中人物行为的骨骼点信息,包含人物的前景语义分割信息,并与RGB信息进行融合,从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较,通过提取的骨骼点信息可以更多的关注人物的动作信息,通过语义分割网络,获取场景中的前景信息,屏蔽无关的背景干扰。通过这三者的融合进行特征的互补,提高行为识别的准确率。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于多特征融合的视频行为识别方法,其特征在于,包括如下步骤:
步骤三,对原始的RGB图像序列进行语义分割,获取语义分割热度图序列,将语义分割热度图序列跟对应的原始的RGB图像序列进行与操作,生成前景分割图像序列,再将送入3DCNN网络中进行特征提取,获取特征后通过全连接进行全连接维度变换生成;
2.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述3DCNN网络包括8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。
5.如权利要求4所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述OpenPose网络,首先检测属于图像中每个人骨骼点,输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图,通过关键点亲和力图将关键点进行分组,指定给不同的个体,然后对属于同一个个体的关键点进行连接,生成关键点连接图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110891347.XA CN113343950B (zh) | 2021-08-04 | 2021-08-04 | 一种基于多特征融合的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110891347.XA CN113343950B (zh) | 2021-08-04 | 2021-08-04 | 一种基于多特征融合的视频行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343950A CN113343950A (zh) | 2021-09-03 |
CN113343950B true CN113343950B (zh) | 2021-11-16 |
Family
ID=77480582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110891347.XA Active CN113343950B (zh) | 2021-08-04 | 2021-08-04 | 一种基于多特征融合的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343950B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114063860A (zh) * | 2021-11-10 | 2022-02-18 | 西安维沃软件技术有限公司 | 图像显示方法及其装置 |
CN115097946B (zh) * | 2022-08-15 | 2023-04-18 | 汉华智能科技(佛山)有限公司 | 基于物联网的远程祭拜方法、系统及存储介质 |
CN115063731B (zh) * | 2022-08-16 | 2022-11-11 | 之江实验室 | 基于两阶段运动建模和注意力的动作视频分类方法和系统 |
CN116719419B (zh) * | 2023-08-09 | 2023-11-03 | 世优(北京)科技有限公司 | 元宇宙的智能交互方法及其系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096950A (zh) * | 2019-03-20 | 2019-08-06 | 西北大学 | 一种基于关键帧的多特征融合行为识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10984575B2 (en) * | 2019-02-06 | 2021-04-20 | Snap Inc. | Body pose estimation |
CN112381837A (zh) * | 2020-11-12 | 2021-02-19 | 联想(北京)有限公司 | 一种图像处理方法及电子设备 |
CN112560618B (zh) * | 2020-12-06 | 2022-09-16 | 复旦大学 | 基于骨架和视频特征融合的行为分类方法 |
CN112906604B (zh) * | 2021-03-03 | 2024-02-20 | 安徽省科亿信息科技有限公司 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 |
CN113128425A (zh) * | 2021-04-23 | 2021-07-16 | 上海对外经贸大学 | 基于骨架序列的人类动作识别的语义自适应图网络方法 |
-
2021
- 2021-08-04 CN CN202110891347.XA patent/CN113343950B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096950A (zh) * | 2019-03-20 | 2019-08-06 | 西北大学 | 一种基于关键帧的多特征融合行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113343950A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343950B (zh) | 一种基于多特征融合的视频行为识别方法 | |
Wang et al. | Few-shot video-to-video synthesis | |
Sabir et al. | Recurrent convolutional strategies for face manipulation detection in videos | |
Cho et al. | Self-attention network for skeleton-based human action recognition | |
Bansal et al. | Recycle-gan: Unsupervised video retargeting | |
Ke et al. | A new representation of skeleton sequences for 3d action recognition | |
Cao et al. | Egocentric gesture recognition using recurrent 3d convolutional neural networks with spatiotemporal transformer modules | |
Song et al. | Temporal–spatial mapping for action recognition | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN111274921B (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
Hu et al. | Hand-model-aware sign language recognition | |
CN112364757B (zh) | 一种基于时空注意力机制的人体动作识别方法 | |
Deng et al. | MVF-Net: A multi-view fusion network for event-based object classification | |
Sincan et al. | Using motion history images with 3d convolutional networks in isolated sign language recognition | |
KR101563297B1 (ko) | 영상에서 행동을 인식하는 방법 및 장치 | |
Sharma et al. | Vision-based sign language recognition system: A Comprehensive Review | |
CN110728183A (zh) | 一种基于注意力机制的神经网络的人体动作识别方法 | |
Aubry et al. | Action recognition based on 2D skeletons extracted from RGB videos | |
Rao et al. | Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera. | |
CN112906545A (zh) | 一种针对多人场景的实时动作识别方法及系统 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
Gammulle et al. | Coupled generative adversarial network for continuous fine-grained action segmentation | |
CN112036379A (zh) | 基于注意力时间池化图卷积的骨架动作识别方法 | |
CN112749671A (zh) | 一种基于视频的人体行为识别方法 | |
CN112668550A (zh) | 基于关节点-深度联合关注rgb模态数据的双人交互行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |