CN113343950B - 一种基于多特征融合的视频行为识别方法 - Google Patents

一种基于多特征融合的视频行为识别方法 Download PDF

Info

Publication number
CN113343950B
CN113343950B CN202110891347.XA CN202110891347A CN113343950B CN 113343950 B CN113343950 B CN 113343950B CN 202110891347 A CN202110891347 A CN 202110891347A CN 113343950 B CN113343950 B CN 113343950B
Authority
CN
China
Prior art keywords
full
sequence
join
image
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110891347.XA
Other languages
English (en)
Other versions
CN113343950A (zh
Inventor
李太豪
马诗洁
刘昱龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110891347.XA priority Critical patent/CN113343950B/zh
Publication of CN113343950A publication Critical patent/CN113343950A/zh
Application granted granted Critical
Publication of CN113343950B publication Critical patent/CN113343950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像识别技术领域,涉及一种基于多特征融合的视频行为识别方法,通过将采集的视频信息从多个视角进行处理,对视频信息进行图像帧采样,进行人物的骨骼点信息提取,获得视频中人物行为的关键点热度图信息,人物的前景语义分割信息,并与RGB信息进行融合,从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较,通过提取的骨骼点信息可以更多的关注人物的动作信息,通过语义分割网络,获取场景中的前景信息,屏蔽无关的背景干扰,通过这三者的融合进行特征的互补,提高行为识别的准确率。

Description

一种基于多特征融合的视频行为识别方法
技术领域
本发明属于图像识别技术领域,涉及一种基于多特征融合的视频行为识别方法。
背景技术
行为识别是视频理解中的一个重要任务,在视频推荐系统,人机交互,游戏娱乐等领域有重要的应用。
为了更好的理解行为识别,需要从多个角度对视频中的信息进行分析。目前人们常采集RGB信息,通过端到端的方法对视频中的行为进行分类。
随着传感器和多种信息提取算法的出现,人们可以从多个视角来提取对特定人物有用的信息。目前多特征融合的行为识别方法,如通过提取光流信息和图像空间信息,对动作和外形信息进行融合,如slowfast,通过两个支路,提取空间和时间的信息进行融合。视频中的人体骨骼信息,常常作为简单行为识别的特征描述。语义分割信息,可以用以区分前景和背景信息,屏蔽无效的背景信息。
基于上述有效信息,本发明针对单一特征表达能力有限的问题,通过提取多个视角的特征,进行互补性的融合操作,对识别效果进行增强,视频中的行为,人物和场景信息对行为识别而言,都是重要的线索。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于多特征融合的视频行为识别方法,其具体技术方案如下:
一种基于多特征融合的视频行为识别方法,包括如下步骤:
步骤一,对视频序列进行图像帧采样,得到原始的RGB图像序列
Figure 455563DEST_PATH_IMAGE001
,后送入 3DCNN网络进行特征提取,获取特征
Figure 513387DEST_PATH_IMAGE002
后通过全连接进行全连接维度变换生成
Figure 399303DEST_PATH_IMAGE003
步骤二,对原始的RGB图像序列
Figure 725243DEST_PATH_IMAGE001
进行 skeleton提取,获取关键点热度图 视频序列
Figure 763737DEST_PATH_IMAGE004
,后送入3DCNN网络中进行特征提取,获取特征
Figure 884140DEST_PATH_IMAGE005
后通过全连接进行 全连接变换生成
Figure 522931DEST_PATH_IMAGE006
步骤三,对原始的RGB图像序列
Figure 386982DEST_PATH_IMAGE001
进行语义分割,获取语义分割热度图序列
Figure 778518DEST_PATH_IMAGE007
,将语义分割热度图序列
Figure 335401DEST_PATH_IMAGE007
跟对应的原始的RGB图像序列
Figure 195910DEST_PATH_IMAGE001
进行与操作,生 成前景分割图像序列
Figure 598073DEST_PATH_IMAGE008
,再将
Figure 611159DEST_PATH_IMAGE008
送入3DCNN网络中进行特征提取,获取 特征
Figure 73364DEST_PATH_IMAGE009
后通过全连接进行全连接维度变换生成
Figure 155590DEST_PATH_IMAGE010
步骤四,将
Figure 627023DEST_PATH_IMAGE003
Figure 727571DEST_PATH_IMAGE006
Figure 219733DEST_PATH_IMAGE010
通过全连接,进行全连接维度变换后融合,进行分类操作。
进一步的,所述3DCNN网络包括8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。
进一步的,所述原始的RGB图像序列
Figure 930200DEST_PATH_IMAGE001
的大小为T×3×H×W,其中T为视频 采样的帧数,3为图像的通道数,H为图像高度,W为图像宽度;其中的
Figure 549531DEST_PATH_IMAGE002
Figure 520898DEST_PATH_IMAGE005
Figure 324906DEST_PATH_IMAGE009
是进行展平 之后的一维特征向量。
进一步的,所述步骤二,具体包括:
步骤201,将原始的RGB图像序列
Figure 958887DEST_PATH_IMAGE001
送入用于处理二维图像的人体关键点检 测网络OpenPose网络中进行处理,输出骨骼点和骨骼点之间的关系生成骨骼图序列
Figure 772123DEST_PATH_IMAGE004
,即关键点热度图视频序列;
步骤202,将骨骼图序列
Figure 614308DEST_PATH_IMAGE004
送入 3DCNN中进行特征提取,获取特征
Figure 589217DEST_PATH_IMAGE005
, 然后通过全连接进行全连接维度变换生成
Figure 133331DEST_PATH_IMAGE006
进一步的,所述OpenPose网络,首先检测属于图像中每个人骨骼点,输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图,通过关键点亲和力图将关键点进行分组,指定给不同的个体,然后对属于同一个个体的关键点进行连接,生成关键点连接图。
进一步的,所述步骤三,具体包括:
步骤301,将原始的RGB图像序列
Figure 593000DEST_PATH_IMAGE001
送入语义分割网络Unet网络中进行语义 分割,即对每个像素点进行分类,获取每张图像的语义分割结果Mask,即语义分割热度图序 列Mask;
步骤302,将Mask同
Figure 414325DEST_PATH_IMAGE001
进行与操作,获取前景信息,背景信息置0,生成前景 分割图像序列
Figure 684770DEST_PATH_IMAGE008
步骤303,将前景分割图像序列
Figure 325967DEST_PATH_IMAGE008
送入 3DCNN中进行特征提取,获取特 征
Figure 356371DEST_PATH_IMAGE009
,然后通过全连接进行全连接维度变换生成
Figure 32203DEST_PATH_IMAGE010
进一步的,所述步骤四,具体包括如下步骤:
步骤401,将提取生成的特征
Figure 739128DEST_PATH_IMAGE003
Figure 264959DEST_PATH_IMAGE006
Figure 692530DEST_PATH_IMAGE010
进行全连接操作后,映射为
Figure 613081DEST_PATH_IMAGE011
Figure 976061DEST_PATH_IMAGE012
Figure 591850DEST_PATH_IMAGE013
步骤402,将
Figure 213324DEST_PATH_IMAGE011
Figure 863748DEST_PATH_IMAGE012
Figure 161743DEST_PATH_IMAGE013
进行concat操作生成
Figure 264828DEST_PATH_IMAGE014
步骤403,将
Figure 424414DEST_PATH_IMAGE014
进行全连接操作后,映射为
Figure 929345DEST_PATH_IMAGE015
步骤404,将
Figure 634127DEST_PATH_IMAGE015
进行sigmoid激活,生成的向量元素值介于0~1之间,以及split操 作,分为
Figure 349142DEST_PATH_IMAGE016
Figure 187785DEST_PATH_IMAGE017
Figure 921123DEST_PATH_IMAGE018
,分别与
Figure 187020DEST_PATH_IMAGE003
Figure 389331DEST_PATH_IMAGE006
Figure 375873DEST_PATH_IMAGE010
进行点成操作生成
Figure 855395DEST_PATH_IMAGE019
Figure 151248DEST_PATH_IMAGE020
Figure 716221DEST_PATH_IMAGE021
步骤405,将
Figure 4989DEST_PATH_IMAGE019
Figure 463652DEST_PATH_IMAGE020
Figure 71351DEST_PATH_IMAGE021
进行concat操作输出
Figure 61304DEST_PATH_IMAGE022
;,
步骤406,
Figure 357025DEST_PATH_IMAGE022
全连接操作映射为
Figure 670194DEST_PATH_IMAGE023
,;
步骤407,
Figure 793002DEST_PATH_IMAGE023
全连接操作映射为
Figure 926043DEST_PATH_IMAGE024
并进行分类。
本发明通过对RGB视频信息进行骨骼点信息提取,语义分割信息的提取,结合RGB信息,对这三者信息进行融合,提高特征提取的多样性,结合多个特征之间的互补关系,从而更好的识别视频中的行为。
附图说明
图 1 为本发明方法的流程图;
图 2 为本发明采用的3DCNN网络结构图;
图 3 为本发明的骨骼点连接图示例;
图 4 为本发明的语义分割Mask图示例;
图 5 为本发明的多特征融合的结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,本发明的一种基于多特征融合的视频行为识别方法,将视频序列按照一定的帧率进行采样,采样后的图像序列进行三种处理方式:第一种图像序列为原始的RGB图像序列,即原始图像序列进行关键帧采样后的图像序列;第二种图像序列为骨骼点图像序列;第三种图像序列为前景分割后的图像序列;再分别送入3DCNN网络进行特征提取,后融合输出,具体步骤如下:
步骤一,对视频序列进行图像帧采样,得到原始的RGB图像序列
Figure 448292DEST_PATH_IMAGE001
,后送入 3DCNN网络进行特征提取,获取特征
Figure 301454DEST_PATH_IMAGE002
后通过全连接进行全连接维度变换生成
Figure 93698DEST_PATH_IMAGE003
步骤二,对原始的RGB图像序列
Figure 258575DEST_PATH_IMAGE001
进行 skeleton提取,获取关键点热度图 视频序列
Figure 755154DEST_PATH_IMAGE004
,后送入3DCNN网络中进行特征提取,获取特征
Figure 918282DEST_PATH_IMAGE005
后通过全连接进行 全连接变换生成
Figure 897739DEST_PATH_IMAGE006
步骤三,对原始的RGB图像序列
Figure 21684DEST_PATH_IMAGE001
进行语义分割,获取语义分割热度图序列
Figure 321953DEST_PATH_IMAGE007
,将语义分割热度图序列
Figure 214954DEST_PATH_IMAGE007
跟对应的原始的RGB图像序列
Figure 99733DEST_PATH_IMAGE001
进行与操作,生 成前景分割图像序列
Figure 678351DEST_PATH_IMAGE008
,再将
Figure 346093DEST_PATH_IMAGE008
送入3DCNN网络中进行特征提取,获取 特征
Figure 874026DEST_PATH_IMAGE009
后通过全连接进行全连接维度变换生成
Figure 680439DEST_PATH_IMAGE010
步骤四,将
Figure 903610DEST_PATH_IMAGE003
Figure 499676DEST_PATH_IMAGE006
Figure 491903DEST_PATH_IMAGE010
通过全连接,进行全连接维度变换后融合,进行分类操作。
其中,所述原始的RGB图像序列
Figure 256770DEST_PATH_IMAGE001
的大小为T×3×H×W,其中T为视频采样 的帧数,3为图像的通道数,H为图像高度,W为图像宽度。
其中的
Figure 967237DEST_PATH_IMAGE002
Figure 101415DEST_PATH_IMAGE005
Figure 948148DEST_PATH_IMAGE009
是进行展平之后的一维特征向量。
卷积网络CNN具有强大的空间特征提取能力。传统的2DCNN没有考虑时间维度上帧间的运动信息,3DCNN能够捕获视频中时间和空间的特征信息,同时对外观和运动进行建模,相对于2DCNN多了一个维度,可以捕获运动信息,是目前行为识别中获取空间和时间特征的常用方法。其中3DCNN的网络结构,如图2所示,即本发明采用的C3D网络,用于提取三种输入的特征,所述C3D网络共8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。
所述步骤二,具体包括:
步骤201,将原始的RGB图像序列
Figure 893101DEST_PATH_IMAGE001
送入用于处理二维图像的人体关键点检 测网络OpenPose网络中进行处理,输出骨骼点和骨骼点之间的关系生成骨骼图序列
Figure 825285DEST_PATH_IMAGE004
,即关键点热度图视频序列;
步骤202,将骨骼图序列
Figure 763154DEST_PATH_IMAGE004
送入 3DCNN中进行特征提取,获取特征
Figure 572716DEST_PATH_IMAGE005
, 然后通过全连接进行全连接维度变换生成
Figure 813205DEST_PATH_IMAGE006
所述关键点热度图视频序列
Figure 357318DEST_PATH_IMAGE004
的获取采用现成的骨骼点提取算法 Openpose获取骨骼点连接图。对于OpenPose网络,是用于多人人体姿势估计的自下而上算 法,首先检测属于图像中每个人骨骼点,然后将部件分配给不同的个体。OpenPose输出表征 关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图,通过关键点亲 和力图将关键点进行分组,指定给不同的个体,然后对属于同一个个体的关键点进行连接, 生成关键点连接图,最终生成的人体骨架示例图,如图3所示。
所述步骤三,具体包括:
步骤301,将原始的RGB图像序列
Figure 443086DEST_PATH_IMAGE001
送入语义分割网络Unet网络中进行语义 分割,即对每个像素点进行分类,获取每张图像的语义分割结果Mask,即语义分割热度图序 列Mask;
步骤302,将Mask同
Figure 139778DEST_PATH_IMAGE001
进行与操作,获取前景信息,背景信息置0,生成前景 分割图像序列
Figure 410222DEST_PATH_IMAGE008
步骤303,将前景分割图像序列
Figure 316998DEST_PATH_IMAGE008
送入 3DCNN中进行特征提取,获取特 征
Figure 845937DEST_PATH_IMAGE009
,然后通过全连接进行全连接维度变换生成
Figure 521769DEST_PATH_IMAGE010
所述语义分割网络Unet对于每一帧进行语义分割处理之后,对于像素分类属于前景的像素赋值为1,对于像素分类属于背景的像素赋值为0,其中分割处理后生成的图片序列为mask。Unet网络是一个对称的结构,左半边是Encoder,右半边是Decoder,先经过Encoder处理,再经过Decoder处理,最终实现对图像中的像素进行分类,如图4所示。
所述步骤四,将
Figure 963115DEST_PATH_IMAGE003
Figure 357187DEST_PATH_IMAGE006
Figure 925703DEST_PATH_IMAGE010
进行融合,融合方式如图5所示,采用自适应的方式进行 融合,融合的权值通过网络进行自适应学习而得到,然后将
Figure 987200DEST_PATH_IMAGE003
Figure 333868DEST_PATH_IMAGE006
Figure 215236DEST_PATH_IMAGE010
与学习的权值
Figure 85978DEST_PATH_IMAGE019
Figure 595457DEST_PATH_IMAGE020
Figure 519550DEST_PATH_IMAGE021
加权融合,具体包括如下步骤:
步骤401,将提取生成的特征
Figure 498002DEST_PATH_IMAGE003
Figure 532954DEST_PATH_IMAGE006
Figure 896939DEST_PATH_IMAGE010
进行全连接操作后,映射为
Figure 365835DEST_PATH_IMAGE011
Figure 956217DEST_PATH_IMAGE012
Figure 919493DEST_PATH_IMAGE013
步骤402,将
Figure 544510DEST_PATH_IMAGE011
Figure 420193DEST_PATH_IMAGE012
Figure 497871DEST_PATH_IMAGE013
进行concat操作生成
Figure 999259DEST_PATH_IMAGE014
步骤403,将
Figure 478782DEST_PATH_IMAGE014
进行全连接操作后,映射为
Figure 289481DEST_PATH_IMAGE015
步骤404,将
Figure 713509DEST_PATH_IMAGE015
进行sigmoid激活,生成的向量元素值介于0~1之间,以及split操 作,分为
Figure 628375DEST_PATH_IMAGE016
Figure 837771DEST_PATH_IMAGE017
Figure 445470DEST_PATH_IMAGE018
,分别与
Figure 622373DEST_PATH_IMAGE003
Figure 245990DEST_PATH_IMAGE006
Figure 309892DEST_PATH_IMAGE010
进行点成操作生成
Figure 88493DEST_PATH_IMAGE019
Figure 752692DEST_PATH_IMAGE020
Figure 274940DEST_PATH_IMAGE021
步骤405,将
Figure 957463DEST_PATH_IMAGE019
Figure 906965DEST_PATH_IMAGE020
Figure 58460DEST_PATH_IMAGE021
进行concat操作输出
Figure 118820DEST_PATH_IMAGE022
;,
步骤406,
Figure 157314DEST_PATH_IMAGE022
全连接操作映射为
Figure 543296DEST_PATH_IMAGE023
,;
步骤407,
Figure 916509DEST_PATH_IMAGE023
全连接操作映射为
Figure 780560DEST_PATH_IMAGE024
并进行分类。
综上所述,本发明通过将采集的视频信息从多个视角进行处理,对视频信息进行骨骼点信息提取,获得视频中人物行为的骨骼点信息,包含人物的前景语义分割信息,并与RGB信息进行融合,从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较,通过提取的骨骼点信息可以更多的关注人物的动作信息,通过语义分割网络,获取场景中的前景信息,屏蔽无关的背景干扰。通过这三者的融合进行特征的互补,提高行为识别的准确率。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于多特征融合的视频行为识别方法,其特征在于,包括如下步骤:
步骤一,对视频序列进行图像帧采样,得到原始的RGB图像序列
Figure DEST_PATH_IMAGE001
,后送入3DCNN网络进行特征提取,获取特征
Figure DEST_PATH_IMAGE002
后通过全连接进行全连接维度变换生成
Figure DEST_PATH_IMAGE003
步骤二,对原始的RGB图像序列
Figure 760311DEST_PATH_IMAGE001
进行 skeleton提取,获取关键点热度图视频序列
Figure DEST_PATH_IMAGE004
,后送入3DCNN网络中进行特征提取,获取特征
Figure DEST_PATH_IMAGE005
后通过全连接进行全连接变换生成
Figure DEST_PATH_IMAGE006
步骤三,对原始的RGB图像序列
Figure 578225DEST_PATH_IMAGE001
进行语义分割,获取语义分割热度图序列
Figure DEST_PATH_IMAGE007
,将语义分割热度图序列
Figure 829209DEST_PATH_IMAGE007
跟对应的原始的RGB图像序列
Figure 718668DEST_PATH_IMAGE001
进行与操作,生成前景分割图像序列
Figure DEST_PATH_IMAGE008
,再将
Figure 253554DEST_PATH_IMAGE008
送入3DCNN网络中进行特征提取,获取特征后通过全连接进行全连接维度变换生成
Figure DEST_PATH_IMAGE009
步骤四,将
Figure 180053DEST_PATH_IMAGE003
Figure 698759DEST_PATH_IMAGE006
Figure 391909DEST_PATH_IMAGE009
通过全连接,进行全连接维度变换后融合,进行分类操作,具体包括以下步骤:
步骤401,将提取生成的特征
Figure 794684DEST_PATH_IMAGE003
Figure 547876DEST_PATH_IMAGE006
Figure 553878DEST_PATH_IMAGE009
进行全连接操作后,映射为
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
步骤402,将
Figure 457243DEST_PATH_IMAGE010
Figure 904405DEST_PATH_IMAGE011
Figure 562919DEST_PATH_IMAGE012
进行concat操作生成
Figure DEST_PATH_IMAGE013
步骤403,将
Figure 275792DEST_PATH_IMAGE013
进行全连接操作后,映射为
Figure DEST_PATH_IMAGE014
步骤404,将
Figure 904219DEST_PATH_IMAGE014
进行sigmoid激活,生成的向量元素值介于0~1之间,以及split操作,分为
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
,分别与
Figure 81254DEST_PATH_IMAGE003
Figure 777247DEST_PATH_IMAGE006
Figure 633207DEST_PATH_IMAGE009
进行点乘操作生成
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
步骤405,将
Figure 206271DEST_PATH_IMAGE018
Figure 565708DEST_PATH_IMAGE019
Figure 706971DEST_PATH_IMAGE020
进行concat操作输出
Figure DEST_PATH_IMAGE021
步骤406,
Figure 378123DEST_PATH_IMAGE021
全连接操作映射为
Figure DEST_PATH_IMAGE022
步骤407,
Figure 364665DEST_PATH_IMAGE022
全连接操作映射为
Figure DEST_PATH_IMAGE023
并进行分类。
2.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述3DCNN网络包括8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。
3.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述原始的RGB图像序列
Figure 437663DEST_PATH_IMAGE001
的大小为T×3×H×W,其中T为视频采样的帧数,3为图像的通道数,H为图像高度,W为图像宽度;其中的
Figure 874461DEST_PATH_IMAGE002
Figure 311871DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE024
是进行展平之后的一维特征向量。
4.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述步骤二,具体包括:
步骤201,将原始的RGB图像序列
Figure 85792DEST_PATH_IMAGE001
送入用于处理二维图像的人体关键点检测网络OpenPose网络中进行处理,输出骨骼点和骨骼点之间的关系生成骨骼图序列
Figure 419821DEST_PATH_IMAGE004
,即关键点热度图视频序列;
步骤202,将骨骼图序列
Figure 902886DEST_PATH_IMAGE004
送入 3DCNN中进行特征提取,获取特征
Figure 955156DEST_PATH_IMAGE005
,然后通过全连接进行全连接维度变换生成
Figure 798347DEST_PATH_IMAGE006
5.如权利要求4所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述OpenPose网络,首先检测属于图像中每个人骨骼点,输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图,通过关键点亲和力图将关键点进行分组,指定给不同的个体,然后对属于同一个个体的关键点进行连接,生成关键点连接图。
6.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述步骤三,具体包括:
步骤301,将原始的RGB图像序列
Figure 252462DEST_PATH_IMAGE001
送入语义分割网络Unet网络中进行语义分割,即对每个像素点进行分类,获取每张图像的语义分割结果Mask,即语义分割热度图序列Mask;
步骤302,将Mask同
Figure 906428DEST_PATH_IMAGE001
进行与操作,获取前景信息,背景信息置0,生成前景分割图像序列
Figure 445994DEST_PATH_IMAGE008
步骤303,将前景分割图像序列
Figure 92876DEST_PATH_IMAGE008
送入 3DCNN中进行特征提取,获取特征
Figure 401498DEST_PATH_IMAGE024
,然后通过全连接进行全连接维度变换生成
Figure 226365DEST_PATH_IMAGE009
CN202110891347.XA 2021-08-04 2021-08-04 一种基于多特征融合的视频行为识别方法 Active CN113343950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110891347.XA CN113343950B (zh) 2021-08-04 2021-08-04 一种基于多特征融合的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110891347.XA CN113343950B (zh) 2021-08-04 2021-08-04 一种基于多特征融合的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN113343950A CN113343950A (zh) 2021-09-03
CN113343950B true CN113343950B (zh) 2021-11-16

Family

ID=77480582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110891347.XA Active CN113343950B (zh) 2021-08-04 2021-08-04 一种基于多特征融合的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN113343950B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114063860A (zh) * 2021-11-10 2022-02-18 西安维沃软件技术有限公司 图像显示方法及其装置
CN115097946B (zh) * 2022-08-15 2023-04-18 汉华智能科技(佛山)有限公司 基于物联网的远程祭拜方法、系统及存储介质
CN115063731B (zh) * 2022-08-16 2022-11-11 之江实验室 基于两阶段运动建模和注意力的动作视频分类方法和系统
CN116719419B (zh) * 2023-08-09 2023-11-03 世优(北京)科技有限公司 元宇宙的智能交互方法及其系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984575B2 (en) * 2019-02-06 2021-04-20 Snap Inc. Body pose estimation
CN112381837A (zh) * 2020-11-12 2021-02-19 联想(北京)有限公司 一种图像处理方法及电子设备
CN112560618B (zh) * 2020-12-06 2022-09-16 复旦大学 基于骨架和视频特征融合的行为分类方法
CN112906604B (zh) * 2021-03-03 2024-02-20 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
CN113128425A (zh) * 2021-04-23 2021-07-16 上海对外经贸大学 基于骨架序列的人类动作识别的语义自适应图网络方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法

Also Published As

Publication number Publication date
CN113343950A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113343950B (zh) 一种基于多特征融合的视频行为识别方法
Wang et al. Few-shot video-to-video synthesis
Sabir et al. Recurrent convolutional strategies for face manipulation detection in videos
Cho et al. Self-attention network for skeleton-based human action recognition
Bansal et al. Recycle-gan: Unsupervised video retargeting
Ke et al. A new representation of skeleton sequences for 3d action recognition
Cao et al. Egocentric gesture recognition using recurrent 3d convolutional neural networks with spatiotemporal transformer modules
Song et al. Temporal–spatial mapping for action recognition
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
Hu et al. Hand-model-aware sign language recognition
CN112364757B (zh) 一种基于时空注意力机制的人体动作识别方法
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
Sincan et al. Using motion history images with 3d convolutional networks in isolated sign language recognition
KR101563297B1 (ko) 영상에서 행동을 인식하는 방법 및 장치
Sharma et al. Vision-based sign language recognition system: A Comprehensive Review
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
Aubry et al. Action recognition based on 2D skeletons extracted from RGB videos
Rao et al. Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera.
CN112906545A (zh) 一种针对多人场景的实时动作识别方法及系统
Wang et al. Multiscale deep alternative neural network for large-scale video classification
Gammulle et al. Coupled generative adversarial network for continuous fine-grained action segmentation
CN112036379A (zh) 基于注意力时间池化图卷积的骨架动作识别方法
CN112749671A (zh) 一种基于视频的人体行为识别方法
CN112668550A (zh) 基于关节点-深度联合关注rgb模态数据的双人交互行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant