CN112990013B - 一种基于稠密边界时空网络的时序行为检测方法 - Google Patents

一种基于稠密边界时空网络的时序行为检测方法 Download PDF

Info

Publication number
CN112990013B
CN112990013B CN202110275575.4A CN202110275575A CN112990013B CN 112990013 B CN112990013 B CN 112990013B CN 202110275575 A CN202110275575 A CN 202110275575A CN 112990013 B CN112990013 B CN 112990013B
Authority
CN
China
Prior art keywords
time
dense
time sequence
boundary
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110275575.4A
Other languages
English (en)
Other versions
CN112990013A (zh
Inventor
潘晓英
薛玉锋
刘妮
王红玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202110275575.4A priority Critical patent/CN112990013B/zh
Publication of CN112990013A publication Critical patent/CN112990013A/zh
Application granted granted Critical
Publication of CN112990013B publication Critical patent/CN112990013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于稠密边界时空网络的时序行为检测方法,包括如下步骤:步骤1:采用two‑stream提取待检测视频的时空特征,得到时空特征图;步骤2:采用LSTM学习视频信息中的长期依赖关系,增强上下文信息特征,获得多尺度的稠密边界特征;步骤3:采用稠密边界提取模块,得到尽可能多的候选提议时序片段,并预测所述候选提议时序片段的置信度得分;步骤4:采用Soft‑NMS方法对提取出的若干候选片段进行筛选,去除视频中的冗余片段。本发明方法能够提高特征的多样性,保证时序定位的精度,生成精准的时间边界候选,从而提升时序行为检测的召回率和AreaUnder Curve(AUC)大小。

Description

一种基于稠密边界时空网络的时序行为检测方法
技术领域
本发明属于计算机视觉和模式识别技术领域,具体涉及一种基于稠密边界时空网络的时序行为检测方法。
背景技术
随着目前信息数据爆炸式增长,视频数据成为当代社会的主流数据,特别地,视频大多数是人体的行为活动,为了有效地解释这些数据,人体时序行为检测成为计算机视觉领域中非常重要的课题。时序行为检测作为视频理解的基石,其目的是在一段未剪辑的视频中找到动作的开始时间点和结束时间点。目前时序行为检测技术已应用于多个领域,例如教育、社交、娱乐、短视频等多个场景。以短视频领域为例,用户在上传一段原始视频后,可以通过时序行为检测算法功能接口完成动作视频的提取,并且进行智能剪辑,帮助用户自动生成更加专业的视频。
时序行为检测分为两个步骤:首先,尽可能多的生成动作开始时间与结束时间提名;其次,通过对提取出的开始时间、结束时间提名进行评估,最终得到高精度、高召回率的动作提名。现阶段主流的时序行为检测方法是滑动窗口法(sliding-windows)和片段级别的动作概率法(snippet-level actionness score)。但是,这两种检测方法对时序行为检测的精度普遍偏低。
发明内容
本发明的目的是提供一种基于稠密边界时空网络的时序行为检测方法,解决现有技术中检测方法对时序行为检测的精度普遍偏低的缺点。
为了达到上述目的,本发明的技术方案是:
一种基于稠密边界时空网络的时序行为检测方法,包括以下步骤:
步骤1:采用two-stream提取待检测视频的时空特征,生成RGB特征和光流特征;
步骤2:将RGB特征和光流特征分别通过堆叠的两层一维卷积,然后融合得到融合特征;将3路特征序列再分别通过LSTM网络与一维卷积网络,产生3路增强特征序列,然后将3路增强特征序列进行融合,得到动作概率特征;
步骤3:将动作概率特征和融合特征输入候选特征生成层,将这两类特征转化为特征序列,输入到稠密边界提取模块。动作概率特征序列通过3层二维卷积得到动作完整性置信度图,融合特征序列通过1个三维卷积和2个二维卷积得到边界置信度图;
步骤4:采用Soft-NMS方法对提取出的若干候选片段进行筛选,去除视频中的冗余片段。
进一步的,步骤2中,针对视频上下文信息的时序性,使用长短期记忆网络,增强上下文信息信息的特征,获得动作概率特征和融合特征。
进一步的,步骤3中,所述稠密边界提取模块采用稠密动作概率生成子模块和稠密边界生成子模块,得到动作完整性置信度图与边界置信度图。
一种基于稠密边界时空网络的时序行为检测系统,包括:
特征提取模块,采用two-stream提取待检测视频的时空特征,得到时空特征图;
时序增强模块,采用LSTM学习视频信息中的长期依赖关系,增强上下文信息的特征,获得多尺度的稠密边界特征。
稠密边界提取模块,采用稠密动作概率生成子模块和稠密边界生成子模块,得到尽可能多地选提议时序片段,并预测所述候选提议时序片段的置信度得分;
后处理模块,采用Soft-NMS方法对提取出的若干候选片段进行筛选。
与现有技术相比,本发明的有益效果:
本发明提供的稠密边界时空网络(Dense boundary Space-Time Network,DBST)的时序行为检测方法,采用two-stream提取待检测视频的时空特征,生成两种更具区分性的特征。同时利用LSTM学习视频信息中的长期依赖关系,增强上下文信息的特征,获得多尺度的稠密边界特征。然后,采用稠密动作概率生成子模块(DBE-A)来预测精准的时间边界,并采用稠密边界生成子模块(DBE-B)来得到候选提议时序片段的动作置信度得分,在activitynet-1.3数据集上进行了综合实验,有效提高了时序行为检测的召回率和AUC值,结果表明了本方法与目前最先进的方法相比具有优越性。
附图说明
图1为本发明实施例中于稠密边界时空网络的时序行为检测方法框架图;
图2为本发明实施例中用于特征提取的two-stream网络结构图;
图3为本发明实施例中TEFE模块结构图;
图4为本发明实施例中产生时序上下文特征的关键模块示意图;
图5为本发明实施例中IOU阈值对平均召回率的影响图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合实施例对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提供的基于稠密边界时空网络的时序行为检测方法包括以下步骤:
步骤1:采用two-stream提取待检测视频的时空特征,得到时空特征图;
步骤2:采用LSTM学习视频中的长期依赖关系,增强上下文信息特征,获得多尺度的稠密边界特征;
步骤3:采用稠密边界提取模块(Dense boundary extraction,DBE),得到尽可能多的候选提议时序片段,并预测所述候选提议时序片段的置信度得分;
步骤4:采用Soft-NMS方法对提取出的若干候选片段进行筛选。
本发明提供的基于稠密边界时空网络的时序行为检测方法由三部分组成:two-stream特征提取阶段、时序稠密边界生成阶段和后处理阶段。时序稠密边界生成阶段分为时序增强特征提取模块和稠密边界提取模块。
为了实现端到端的训练,将动作概率特征和融合特征输入候选特征生成层(Proposalfeaturegenerationlayer,PFG),转化为特征序列,再输入到稠密边界提取模块,该模块分为稠密动作概率生成子模块(DBE-A)和稠密边界生成子模块(DBE-B),分别得到动作完整性置信度图与边界置信度图。
在上述实施例的基础上,作为本发明的一个实施例,如给定一段视频序列,我们使用two-stream提取丰富的时空特征来表示视频。two-stream的网络结构如图2所示,会生成RGB特征和光流特征。时序增强模块框架图如图3所示,将RGB特征和光流特征通过堆叠的两层一维卷积处理再通过融合得到的融合特征,将三种特征分别通过LSTM网络与一维卷积网络,产生3路增强特征序列,然后将3路增强特征序列进行融合,产生动作概率特征。如图3所示,是特征提取阶段的结构表,融合特征和动作概率特征的特征图大小均为L×128。
具体地,
sf=Fconv12(Fconv11(St)) (1)
tf=Fconv22(Fconv21(Tt)) (2)
df=Fsum(sf,tf) (3)
式中,采用两层一维卷积处理RGB特征和光流特征,将RGB特征的输出表示为空间流特征sf,光流的输出表示为时间流特征tf,然后将空间流与时间流的输出相结合,得到融合特征df
Pa1=(Fconv13(Flstm21(Flstm11(sf)))) (4)
Pa2=(Fconv23(Flstm22(Flstm12(sf)))) (5)
Pa3=(Fconv33(Flstm23(Flstm13(sf)))) (6)
Af=Favg(pa1+pa2+pa3) (7)
式中,sf,tf,df作为获取动作概率特征的输入,分别通过LSTM网络与一维卷积网络,产生3路特征序列:Pa1,Pa2,Pa3,将3路特征序列进行融合,产生动作概率特征Af。pa表示动作概率分数序列,Af表示特征的平均融合。如表1所示,是时序特征增强阶段的结构表。
表1时序特征增强阶段结构表
在上述实施例中,我们采用稠密边界生成模块,使得模型能够得到尽可能多的候选片段。候选特征生成层(Proposal feature generation layer,PFG)的输入是动作概率特征和融合特征,将这两类特征转化为特征序列,再输入到稠密边界提取模块,该模块分为稠密动作概率生成子模块(DBE-A)和稠密边界生成子模块(DBE-B),分别得到动作完整性置信度图与边界置信度图。
PFG模块是实现端到端网络、产生时序上下文特征的关键模块。PEG模块图如图4所示,此模块的输入是L*C,经过PFG模块后产生的特征维度为L*L*N*C,其中,L为特征长度,N为采样点数,C为通道数。如表2所示,是稠密边界生成阶段的结构表。
表2稠密边界生成阶段结构表
为了使用较少的候选片段得到较高的召回率,本发明使用Soft-NMS对提取出的若干候选片段进行筛选。具体步骤如下:
(1)根据所有候选提议的置信度得分进行排序;
(2)选择置信度最高的候选提议框并添加到最终输出列表中;
(3)计算所有候选提议框的面积;
(4)计算置信度最高的候选提议框与其它候选框的IoU;
(5)删除IoU大于阈值的候选提议框,即将该候选提议框对应的置信度分数设为0;
(6)重复上述过程,直至将所有候选提议框均进行处理。
采用常用数据集ActivityNet来验证本发明提供的时序行为检测方法的有效性。本文采用的1.3版本包含19994个带有5个动作大类,200个动作小类标注的视频。下面对实验细节和设置进行简单介绍如下:我们将所有视频划分为三部分,其中10024个训练视频,4926个验证视频,5044个测试视频,使模型得到最优的参数设置。由于GPU显存有限,我们batch size设置为8,使用RMSProp优化器,在前8个时期,学习速率被设置为10-3,在另外4个时期,我们将其衰减为10-4。最终我们在数据集ActivityNet1.3,设置IoU阈值为[0.5:0.05:0.95],如图5所示,虚线阈值0.5、0.6、0.7、0.8、0.9下的AR-AN曲线,实线为平均的AR-AN曲线。当IoU为0.5时,平均召回率达到了83.3%。
本发明提供的稠密边界时空网络的时序行为检测方法,采用two-stream提取待检测视频的时空特征,得到RGB特征和光流特征;采用LSTM学习视频信息中的长期依赖关系,增强上下文信息的特征,获得多尺度的稠密边界特征。采用稠密动作概率生成子模块(DBE-A)和稠密边界生成子模块(DBE-B),得到尽可能多的候选提议时序片段,并预测所述候选提议时序片段的置信度得分;采用Soft-NMS方法对提取出的若干候选片段进行筛选;可见,本发明方法能够提高特征的多样性,保证时序定位的精度,生成精准的时间边界候选,从而提升时序行为检测的召回率和AreaUnder Curve(AUC)大小。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。任何熟悉该技术的人在本发明所揭露的技术范围内的局部修改或替换,都应涵盖在本发明的包含范围之内。

Claims (2)

1.一种基于稠密边界时空网络的时序行为检测方法,其特征在于,包括以下步骤:
步骤1:采用two-stream提取待检测视频的时空特征,生成RGB特征和光流特征;
步骤2:将RGB特征和光流特征分别通过堆叠的两层一维卷积,然后融合得到融合特征;将3路特征序列再分别通过LSTM网络与一维卷积网络,产生3路增强特征序列,然后将3路增强特征序列进行融合,得到动作概率特征;
步骤3:将动作概率特征和融合特征输入候选特征生成层,将这两类特征转化为特征序列,输入到稠密边界提取模块;动作概率特征序列通过3层二维卷积得到动作完整性置信度图,融合特征序列通过1个三维卷积和2个二维卷积得到边界置信度图;
步骤4:采用Soft-NMS方法对提取出的若干候选片段进行筛选,去除视频中的冗余片段;
步骤2中,针对视频上下文信息的时序性,使用长短期记忆网络,增强上下文信息信息的特征,获得动作概率特征和融合特征;
步骤3中,所述稠密边界提取模块采用稠密动作概率生成子模块和稠密边界生成子模块,得到动作完整性置信度图与边界置信度图。
2.一种基于稠密边界时空网络的时序行为检测系统,其应用如权利要求1所述的基于稠密边界时空网络的时序行为检测方法,其特征在于,包括:
特征提取模块,采用two-stream提取待检测视频的时空特征,得到时空特征图;
时序增强模块,采用LSTM学习视频信息中的长期依赖关系,增强上下文信息的特征,获得多尺度的稠密边界特征;
稠密边界提取模块,采用稠密动作概率生成子模块和稠密边界生成子模块,得到尽可能多的候选提议时序片段,并预测所述候选提议时序片段的置信度得分;
后处理模块,采用Soft-NMS方法对提取出的若干候选片段进行筛选。
CN202110275575.4A 2021-03-15 2021-03-15 一种基于稠密边界时空网络的时序行为检测方法 Active CN112990013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275575.4A CN112990013B (zh) 2021-03-15 2021-03-15 一种基于稠密边界时空网络的时序行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275575.4A CN112990013B (zh) 2021-03-15 2021-03-15 一种基于稠密边界时空网络的时序行为检测方法

Publications (2)

Publication Number Publication Date
CN112990013A CN112990013A (zh) 2021-06-18
CN112990013B true CN112990013B (zh) 2024-01-12

Family

ID=76335265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275575.4A Active CN112990013B (zh) 2021-03-15 2021-03-15 一种基于稠密边界时空网络的时序行为检测方法

Country Status (1)

Country Link
CN (1) CN112990013B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280406A (zh) * 2017-12-30 2018-07-13 广州海昇计算机科技有限公司 一种基于分段双流模型的行为识别方法、系统及装置
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108416736A (zh) * 2018-03-21 2018-08-17 西安邮电大学 一种基于二次锚点邻域回归的图像超分辨率重建方法
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN110188733A (zh) * 2019-06-10 2019-08-30 电子科技大学 基于3d区域卷积神经网络的时序行为检测方法及系统
CN110532959A (zh) * 2019-08-30 2019-12-03 大连海事大学 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN110852256A (zh) * 2019-11-08 2020-02-28 腾讯科技(深圳)有限公司 时序动作提名的生成方法、装置、设备及存储介质
CN111586809A (zh) * 2020-04-08 2020-08-25 西安邮电大学 一种基于sdn的异构无线网络接入选择方法及系统
CN111898461A (zh) * 2020-07-08 2020-11-06 贵州大学 一种时序行为片段生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280406A (zh) * 2017-12-30 2018-07-13 广州海昇计算机科技有限公司 一种基于分段双流模型的行为识别方法、系统及装置
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108416736A (zh) * 2018-03-21 2018-08-17 西安邮电大学 一种基于二次锚点邻域回归的图像超分辨率重建方法
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN110188733A (zh) * 2019-06-10 2019-08-30 电子科技大学 基于3d区域卷积神经网络的时序行为检测方法及系统
CN110532959A (zh) * 2019-08-30 2019-12-03 大连海事大学 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN110852256A (zh) * 2019-11-08 2020-02-28 腾讯科技(深圳)有限公司 时序动作提名的生成方法、装置、设备及存储介质
CN111586809A (zh) * 2020-04-08 2020-08-25 西安邮电大学 一种基于sdn的异构无线网络接入选择方法及系统
CN111898461A (zh) * 2020-07-08 2020-11-06 贵州大学 一种时序行为片段生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种基于时序分析异常数据的跌倒行为监测方法;王忠民;张新平;梁琛;;计算机应用研究(第03期);全文 *
一种改进的基于3D-BN-GRU网络的行为识别算法;吴进;李聪;徐一欢;闵育;安怡媛;;电讯技术(第04期);全文 *
时域候选优化的时序动作检测;熊成鑫;郭丹;刘学亮;;中国图象图形学报(第07期);全文 *
深度残差网络和LSTM结合的图像序列表情识别;马玉环;张瑞军;武晨;屈军锁;;重庆邮电大学学报(自然科学版)(第05期);全文 *

Also Published As

Publication number Publication date
CN112990013A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及系统
CN108491836B (zh) 一种自然场景图像中中文文本整体识别方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN110458235B (zh) 一种视频中运动姿势相似度比对方法
CN111382305B (zh) 一种视频去重方法、装置、计算机设备和存储介质
CN112364712A (zh) 一种基于人体姿态的坐姿识别方法、系统及计算机可读存储介质
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN111507215A (zh) 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
CN108446605A (zh) 复杂背景下双人交互行为识别方法
CN112818958B (zh) 动作识别方法、装置及存储介质
CN113743277A (zh) 一种短视频分类方法及系统、设备和存储介质
CN113011396A (zh) 基于深度学习级联特征融合的步态识别方法
CN112990013B (zh) 一种基于稠密边界时空网络的时序行为检测方法
CN112434798A (zh) 一种基于半监督学习的多尺度图像翻译方法
CN113128461B (zh) 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN115272660A (zh) 一种基于双流神经网络的唇语识别方法及系统
CN113420608A (zh) 一种基于密集时空图卷积网络的人体异常行为识别方法
CN108229501B (zh) 融合纹理特征与形状特征的时序性的草图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant