CN113536898B - 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 - Google Patents

全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 Download PDF

Info

Publication number
CN113536898B
CN113536898B CN202110603903.9A CN202110603903A CN113536898B CN 113536898 B CN113536898 B CN 113536898B CN 202110603903 A CN202110603903 A CN 202110603903A CN 113536898 B CN113536898 B CN 113536898B
Authority
CN
China
Prior art keywords
convolution
layer
receptive field
feature
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110603903.9A
Other languages
English (en)
Other versions
CN113536898A (zh
Inventor
毛琳
曹哲
杨大伟
张汝波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202110603903.9A priority Critical patent/CN113536898B/zh
Publication of CN113536898A publication Critical patent/CN113536898A/zh
Application granted granted Critical
Publication of CN113536898B publication Critical patent/CN113536898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质,属于视频理解与分析中的视频动作分割技术领域,为了解决动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低的问题,将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入,分别提取特征后将两特征矩阵拼接;S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接,使用通道调整卷积获取第二特征矩阵,识别动作分类输出,效果是提高视频特征提取能力。

Description

全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系 统和介质
技术领域
本发明属于视频理解与分析中的视频动作分割技术领域,涉及一种全面特征捕捉型时间卷积网络的视频动作分割方法。
背景技术
在大数据时代,视频凭借其广泛的应用性和丰富的表现能力成为十分重要的传播媒介,各个领域无时无刻不在使用视频传播与记录信息。视频理解已成为计算机视觉领域的研究热点,尤其是视频动作分割。动作分割任务适用于多种动作连续发生的细致场景,例如生产线上、视频监控等单一场景连续动作的检测与识别。专利《一种基于边界搜索智能体的时序动作片段分割方法》(公开号:CN111950393A),提出边界搜索智能体,生成动作单元所属动作片段的时序边界,结合动作发现网络,提升了时序动作片段分割的平均精度。专利《通过混合时域自适应的视频动作分割》(公开号:CN112528780A),公开了一种域自适应时间卷积网络,将动作标签分配给视频的帧,解决了繁琐的视频数据集密集标注问题。专利《一种基于混合时间卷积和循环网络的视频动作分割方法》(公开号:CN107423725A),提出一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架,可以处理不同压缩程度的视频信号,提供一个混合时间网络来解决视频动作分割,提高了动作内容识别精度与效率。
视频动作分割任务需要网络抓取长时依赖关系,对于现有的动作分割网络模型,其骨干网络都起源于时间卷积网络,通过感受野不断扩张的多层空洞卷积提取较长的时序特征,根据这些视频特征的长时信息,得出每一帧最终的预测结果。
尽管这些模型取得不错的预测效果,但由于其结构设计原因,导致扩张到高层的卷积核感受野很大,对特征序列提取间隔过大,必然会漏掉一些重要信息。这导致网络漏掉有助于预测正确的关键特征,对一些细微动作或者小目标的动作识别效果差。动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低。因此需要一种感受野补足的全面特征捕捉方法,实现对视频特征序列的完整利用。
发明内容
为了解决动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低的问题,本发明提出如下方案:
全面特征捕捉型时间卷积网络的视频动作分割方法,包括如下步骤:S1.对单个视频采样,获取视频帧序列集合;S2.视频帧序列集合输入特征提取网络,获取帧级特征;S3.对帧级特征使用通道调整卷积,得到第一特征矩阵;S4.将第一特征矩阵分别输入时间卷积网络的第一基本单元的感受野递增时间卷积和感受野递减时间卷积,分别提取特征后将两特征矩阵拼接;S5.将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入,分别提取特征后将两特征矩阵拼接;S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接,使用通道调整卷积获取第二特征矩阵,识别动作分类输出。
有益效果
(1)提高视频特征提取能力
本发明通过使用感受野递增和递减的两种时间卷积的结合,能够互相弥补二者存在的缺失特征。针对未裁剪视频的动作分割任务,能够防止重要特征的丢失,提高特征丰富性,捕捉动作分类所需要的关键信息,对细微动作和小目标动作的识别更加精确。
(2)适用于时序信息处理任务
在涉及时序建模的多种任务中,如语音合成、自然语言处理、动作分割等,需要捕捉长时信息,本发明提供的全面特征捕捉型时间卷积对时序信息的提取更加全面,可以提高多种时序建模任务的准确性。
(3)适用于生产线机械手动作识别
本发明为计算机视觉视频理解技术中的动作分割,适用于背景单一的连续动作检测,能够对工厂中自动化生产线上的机械手进行动作识别,使计算机能够检测机械手做出的动作,对比程序设置的动作流程,自动检测机械手对动作指令的执行情况,进一步实现生产线的无人化管理。
(4)适用于生产线机械手故障检测
本发明适用于自动化生产线上的机械手故障检测,提供的全面特征捕捉型时间卷积网络,对特征捕捉更全面,避免特征丢失,不仅能够检测死机、冒烟等明显故障,对机械手执行动作指令中出现的卡顿、偏移等细微错误也有鉴别能力。
(5)适用于生产线机械手危险动作检测
本发明适用于自动化生产线上的机械手危险检测,在需要人为控制、调试或人机协作等有人参与的生产线中,保证人的安全是重中之重,依靠本发明对动作的识别精度和速度,能够迅速识别出机械手做出打中人体或夹住人手等威胁工人安全的行为,使系统立即停止对人类的伤害动作,保证参与生产的工人和技术人员安全。
附图说明
图1是本方法的整体框架示意图
图2是实施实例1中机械手动作识别结果图
图3是实施实例2中机械手故障检测结果图
图4是实施实例3中机械手危险动作检测结果图
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
全面特征捕捉型时间卷积网络,其逻辑如图1所示,利用其具体实施视频动作分割的步骤如下:
第1步:对单个视频采样获取视频帧序列集合bt为视频中第t帧宽为w高为h的RGB三通道图像,通过训练好的三维特征提取网络,获得尺寸大小为2048×T的特征矩阵作为输入帧特征,其中T为视频总帧数;
第2步:对第1步得到的帧级特征使用通道调整卷积,得到尺寸大小为64×T的特征矩阵,输入双通道时间卷积构成的基本单元中;
第3步:将第2步得到的特征矩阵输入感受野递增时间卷积中,经多层卷积提取后,使用通道调整卷积,得到尺寸大小为64×T的特征矩阵;
第4步:将第2步得到的特征矩阵输入感受野递减时间卷积中,经多层卷积提取后,使用通道调整卷积卷积,得到尺寸大小为64×T的特征矩阵;
第5步:将第3步和第4步得出的特征矩阵使用拼接处理,再使用通道调整卷积,得到尺寸大小为64×T的特征矩阵,将其输入下一基本单元;
第6步:连续使用N个基本单元后,对最后一个基本单元的输出特征使用通道调整卷积得到尺寸大小为C×T的特征矩阵,其中C为该视频动作总类数,再通过Softmax函数得出最终分类结果。
1.技术方案
通常情况下,用于动作分割的多层时间卷积网络随着层数增加其感受野不断递增。为满足对于视频特征序列的全面捕捉需求,本发明提出一种感受野递增与递减的双通道时间卷积结构组成的全面特征捕捉型时间卷积网络。感受野递增时间卷积由多层空洞卷积构成,每层空洞卷积的空洞率随着卷积层数的增加而增加,使每层卷积的感受野随着卷积层数增加而扩大。感受野递减时间卷积由多层空洞卷积构成,每层空洞卷积的空洞率随着卷积层数的增加而减小,使每层卷积的感受野随着卷积层数增加而缩小。全面特征捕捉型时间卷积网络由多个基本单元组成,一个基本单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。基本单元可以首尾连接使用,网络中基本单元的使用数量将决定网络对分割结果的优化程度。
2.全面特征捕捉型时间卷积网络
全面特征捕捉型时间卷积网络定义:全面特征捕捉型时间卷积网络由多个基本单元组成,一个基本单元包含一个感受野递增时间卷积和一个感受野递减时间卷积。全面特征捕捉型时间卷积网络的输入是帧特征集合其中T是输入视频的总帧数,mt是第t帧的特征向量,帧特征集合M包含每一视频帧的特征。对帧特征集合M使用通道调整卷积后得出特征集合/>将其输入第一个基本单元,其中x1 t表示第一个基本单元的输入特征中的第t帧特征向量。经过多个基本单元连续计算,对最后一个基本单元的输出添加神经网络通用分类器,得出全面特征捕捉型时间卷积网络的输出,即预测结果集合其中/>代表第t帧的分类结果。
(1)双通道时间卷积
定义1:双通道时间卷积构成的基本单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。
定义2:感受野递增时间卷积由多层空洞卷积组成,首先对特征集合X1使用感受野较小的第一层一维空洞卷积,密集提取视频特征,经过激活函数Relu和通道调整卷积后,为保持深度网络模型不退化,根据残差网络特性,将每一层空洞卷积的输出特征都与其输入特征相加,再使用通道调整卷积得到第一层输出的特征序列X2,其计算方式如下:
f1=D(R(w1X1+b1)) (1)
其中,f1表示第一层空洞卷积计算,R(·)表示激活函数Relu,D(·)代表通道调整卷积,w1是第一层空洞卷积的权重矩阵,b1是第一层空洞卷积的偏置项,是第一层空洞卷积输出特征中的第t帧特征向量。将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率提升使得感受野增加,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列X3。其计算方式如下:
f2=D{R(w2X2+b2)} (3)
其中,f2表示第二层空洞卷积计算,w2是第二层空洞卷积的权重矩阵,b2是第二层空洞卷积的偏置项。是第二层空洞卷积输出特征中的第t帧特征向量。以此类推,可知任意一层空洞卷积输出的计算过程为:
fi=D{R(wiXi+bi)} (5)
其中,fi表示第i层空洞卷积计算,wi是第i层空洞卷积的权重矩阵,bi是第i层空洞卷积的偏置项,是第i层空洞卷积输出特征中的第t帧特征向量。随着卷积层数的增加,卷积核的感受野逐渐增大,感受野递增时间卷积的感受野计算公式如下:
P(i)=2i+1-1 (7)
其中,i代表卷积层数,P(i)为第i层空洞卷积的感受野大小。经过多层空洞卷积的连续运算,得出任意一个基本单元中感受野递增时间卷积的输出特征序列其中k为基本单元个数,/>为第k个基本单元中的感受野递增时间卷积的输出特征中的第t帧特征向量。
定义3:感受野递减时间卷积同样由多层空洞卷积组成,首先对特征集合X1使用感受野较大的第一层一维空洞卷积,大跨度提取视频特征,经过激活函数Relu、通道调整卷积和残差运算,再使用通道调整卷积得到第一层空洞卷积的输出特征序列O2,其计算方式如下:
g1=D{R(λ1X11)} (8)
其中,g1表示第一层空洞卷积计算,λ1是第一层空洞卷积的权重矩阵,δ1是第一层空洞卷积的偏置项,是第一层空洞卷积输出特征中的第t帧特征向量。将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率降低使得感受野缩小,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列O3,其计算方式如下:
g2=D{R(λ2X22)} (10)
其中,g2表示第二层空洞卷积计算,λ2是第二层空洞卷积的权重矩阵,δ2是第二层空洞卷积的偏置项,是第二层空洞卷积输出特征中的第t帧特征向量。以此类推,任意一层卷积计算方式如下:
gi=D{R(λiXii)} (12)
其中,λi是第i层空洞卷积的权重矩阵,δi是第i层空洞卷积的偏置项,是第i层空洞卷积输出特征中的第t帧特征向量。随着卷积层数的增加,卷积核的感受野逐渐减小,感受野递增时间卷积的感受野计算公式如下:
Q(i)=2L-i+1-1 (14)
其中,L为总层数,Q(i)为第i层空洞卷积的感受野大小。经过多层空洞卷积的连续运算,得出第任意一个基本单元中的感受野递减时间卷积的输出其中k为基本单元个数,/>为第k个基本单元中的感受野递减时间卷积的输出特征中的第t帧特征向量。
定义4:基本单元的输出由感受野递增时间卷积和感受野递减时间卷积二者的输出拼接而成,对拼接结果使用通道调整卷积得出第k个基本单元的输出Yk,其计算方式如下:
其中,为两个特征张量的拼接运算。以此类推,可计算出每个基本单元的输出特征。
(2)整体网络结构
定义5:全面特征捕捉型时间卷积网络由多个基本单元连接而成,任意一个由双通道时间卷积构成的基本单元Sk的计算方式如下:
其中,Fk表示第k个基本单元中的感受野递增时间卷积,Gk表示第k个基本单元中的感受野递减时间卷积。原始特征X1经过第一个基本单元S1计算,得出第一个基本单元的输出Y1,将其输入第二个基本单元S2,以此类推,可计算出最后一个基本单元的输出特征YN,N为网络总的基本单元总数。YN经过分类器计算得出最终动作分割结果
3约束条件
特征尺寸:
(1)全面特征捕捉型时间卷积网络的输入是视频帧特征,帧特征是尺寸大小为[2048×T]的二维矩阵,其中2048代表特征维度,T是视频帧数。
(2)感受野递增时间卷积输入特征是尺寸大小为[64×T]的二维矩阵。
(3)感受野递增时间卷积输出特征是尺寸大小为[64×T]的二维矩阵。
(4)感受野递减时间卷积输入特征是尺寸大小为[64×T]的二维矩阵。
(5)感受野递减时间卷积输出特征是尺寸大小为[64×T]的二维矩阵。
(6)全面特征捕捉型时间卷积网络的输出为[C×T]的二维矩阵,C为视频包含的动作类别数。
网络规模:
(7)感受野递增时间卷积的空洞卷积层数为12-15层,包括12、13、14、15层。
(8)感受野递减时间卷积的空洞卷积层数为12-15层,包括12、13、14、15层。
(9)使用的基本单元数在3-10之间,包括3、4、5、6、7、8、9、10个基本单元。
其他参数:
(10)感受野递增时间卷积和感受野递减时间卷积的卷积核大小都为3。
(11)通道调整卷积为1×1卷积,用于调整输入输出特征尺寸。
(12)分类器使用Softmax函数。
4.原理分析
全面特征捕捉型时间卷积网络的基本单元由感受野递增和递减的两个时间卷积组成。
感受野递增时间卷积在底层使用感受野最小的卷积核,对原始特征进行密集采集,随着卷积层数的增加,空洞卷积的空洞率扩大,使卷积核感受野逐渐增大,层数越高的卷积对特征的提取跨度越大,构成下层密集、上层稀疏的采样方式。
感受野递减时间卷积在底层使用感受野最大的卷积核,对原始特征进行大跨度采集,随着卷积层书的增加,空洞卷积的空洞率减小,使卷积核感受野逐渐减小,层数越高的卷积核对特征的提取越密集,构成下层稀疏、上层密集的采样方式。
基本单元的感受野递增和递减时间卷积分别构成下层密集、上层稀疏和下层稀疏、上层密集两种采样方式,使二者对特征的提取得到互补,弥补各自结构设计导致的特征缺失,同时又不会造成特征的重复提取。
全面特征捕捉型时间卷积网络利用多个基本单元的连接,对特征进行不断的优化处理,为防止网络加深导致模型能力退化,每个基本单元的感受野递增时间卷积和感受野递减时间卷积都采用残差思想,使用跳线连接,保持深度网络中的特征传输。最终经过分类器对特征分类得出动作分割结果。
此前的动作分割算法普遍采用单一种类的时间卷积网络,即感受野递增时间卷积,虽然其广泛的特征捕捉能力适用于时序问题的处理,但其对特征的提取不全面。有的工作致力于弥补感受野递增时间卷积的视野缺失,如MS-TCN++,提出感受野递减的时间卷积层,将时间卷积网络的每层卷积改为感受野递增的空洞卷积和感受野递减的空洞卷积二者的双层叠加,这样的方式弥补了常规的感受野递增时间卷积的感受野缺失,但该方法由于感受野递增卷积与感受野递减卷积是在一个时间卷积网络块中逐层联合使用,并未分别对两种感受野组成的时间卷积网络进行显式建模,没有充分发挥两种结构的优势,而且该方法在多阶段的网络结构中,仅在第一阶段使用了感受野递增卷积与感受野递减卷积的融合方式,后续阶段仍使用种类单一的感受野递增时间卷积。本发明提出的全面特征捕捉型时间卷积网络,对感受野递增时间卷积与感受野递减时间卷积分别建模,利用感受野递增空洞卷积和感受野递减空洞卷积分别组成感受野递增时间卷积和感受野递减时间卷积,将两种时间卷积并联形成一个基本单元,基本单元的输出为感受野递增时间卷积和感受野递减时间卷积的融合特征。一个基本单元中的两种时间卷积块,一个为感受野递增的多层卷积结构,一个为感受野递减的多层网络结构,充分提取两种不同类型特征后,将两种特征进行融合,分别发挥两种结构的优势,互相弥补,丰富了特征,提高特征表达能力。并且随着多个基本单元的叠加,逐渐对特征进行细致优化,使最终预测结果趋于准确。
为测试本发明提出的全面特征捕捉型时间卷积网络的有效性,表1中给出了本发明的网络于MS-TCN++的测试对比,测试指标包含帧级准确率(Acc)、分段编辑分数(Edit)和IoU阈值为10%、25%、50%的分段F1得分,表示为F1@k(k=10;25;50)。其中Acc为常用的准确率评判标准,但其对于不符合人体行为认知的错误时序片段不敏感,对于短暂的错误预测也不敏感,无法反映过分割错误。而分段编辑分数通过测量预测结果中动作分段顺序来惩罚过分割错误,F1分数由动作总数确定,同样惩罚过分割错误,使用这三种指标作为评价机制。
测试结果表明,在三个动作分割数据集中,全面特征捕捉型时间卷积网络表现优于具有同类性质的其他网络(MS-TCN++)。其中全面特征捕捉型时间卷积网络的F1分数在三个数据集上平均以4.2%优于MS-TCN++,Edit分数以2.4%优于MS-TCN++,Acc以2.1%优于MS-TCN++。实验结果表明,全面特征捕捉型时间卷积网络利用其提取特征的丰富性,提高特征表达能力,使动作段的预测结果更加准确。
表1测试结果对比
在一种实施例中,本发明涉及的方法步骤由软件实现,该实施例提供一种计算机系统,包括:处理器;以及存储器,其中,所述存储器中存储有计算机指令,所述处理器执行所述计算机指令以实现任一项所述的方法的步骤。并提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令在被处理器执行时,实现任一项所述的方法的步骤。
实施例1:
本实施实例为,将机械手工作流程视频输入到网络模型中,对机械手进行动作识别。机械手动作识别结果如图2。
实施例2:
本实施实例为,将机械手发生故障视频输入到网络模型中,对工作中的机械手进行故障检测。机械手故障检测结果如图3。
实施例3:
本实施实例为,将机械手做出威胁人体安全动作视频输入到网络模型中,对机械手进行危险动作识别。机械手危险动作识别结果如图4。

Claims (3)

1.一种全面特征捕捉型时间卷积网络的视频动作分割方法,其特征在于,包括如下步骤:
S1.对单个视频采样,获取视频帧序列集合;
S2.视频帧序列集合输入特征提取网络,获取帧级特征;
S3.对帧级特征使用通道调整卷积,得到第一特征矩阵;
S4.将第一特征矩阵分别输入时间卷积网络的第一基本单元的感受野递增时间卷积和感受野递减时间卷积,分别提取特征后将两特征矩阵拼接;
S5.将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入,分别提取特征后将两特征矩阵拼接;
S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接,使用通道调整卷积获取第二特征矩阵,识别动作分类输出;
作为第一特征矩阵的帧特征集合其中T是输入视频的总帧数,mt是第t帧的特征向量,帧特征集合M包含每一视频帧的特征,对帧特征集合M使用通道调整卷积后得出特征集合/>将其输入第一个基本单元,其中/>表示第一个基本单元的输入特征中的第t帧特征向量;
所述的单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积;
感受野递增时间卷积由多层空洞卷积组成,对特征集合X1使用感受野较小的第一层一维空洞卷积,密集提取视频特征,经过激活函数Relu和通道调整卷积后,为保持深度网络模型不退化,根据残差网络特性,将每一层空洞卷积的输出特征都与输入特征相加,再使用通道调整卷积得到第一层输出的特征序列X2
f1=D(R(w1X1+b1)) (1)
其中,f1表示第一层空洞卷积计算,R(·)表示激活函数Relu,D(·)代表通道调整卷积,w1是第一层空洞卷积的权重矩阵,b1是第一层空洞卷积的偏置项,是第一层空洞卷积输出特征中的第t帧特征向量;
将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率提升使得感受野增加,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列X3
f2=D{R(w2X2+b2)} (3)
其中,f2表示第二层空洞卷积计算,w2是第二层空洞卷积的权重矩阵,b2是第二层空洞卷积的偏置项,是第二层空洞卷积输出特征中的第t帧特征向量;
将第i-1层空洞卷积的输出特征输入第i层一维空洞卷积,第i层空洞卷积输出为:
fi=D{R(wiXi+bi)} (5)
其中,fi表示第i层空洞卷积计算,wi是第i层空洞卷积的权重矩阵,bi是第i层空洞卷积的偏置项,是第i层空洞卷积输出特征中的第t帧特征向量;
随着卷积层数的增加,卷积核的感受野逐渐增大,感受野递增时间卷积的感受野计算公式如下:
P(i)=2i+1-1 (7)
其中,i代表卷积层数,P(i)为第i层空洞卷积的感受野大小,经过多层空洞卷积的连续运算,得出任意一个基本单元中感受野递增时间卷积的输出特征序列其中k为基本单元个数,/>为第k个基本单元中的感受野递增时间卷积的输出特征中的第t帧特征向量;
感受野递减时间卷积同样由多层空洞卷积组成,对特征集合X1使用感受野较大的第一层一维空洞卷积大跨度提取视频特征,经过激活函数Relu、通道调整卷积和残差运算,再使用通道调整卷积得到第一层空洞卷积的输出特征序列O2
g1=D{R(λ1X11)} (8)
其中,g1表示第一层空洞卷积计算,λ1是第一层空洞卷积的权重矩阵,δ1是第一层空洞卷积的偏置项,是第一层空洞卷积输出特征中的第t帧特征向量;
将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率降低使得感受野缩小,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列O3
g2=D{R(λ2X22)} (10)
其中,g2表示第二层空洞卷积计算,λ2是第二层空洞卷积的权重矩阵,δ2是第二层空洞卷积的偏置项,是第二层空洞卷积输出特征中的第t帧特征向量;
将第i-1层空洞卷积的输出特征输入第i层一维空洞卷积,第i层空洞卷积输出为:
gi=D{R(λiXii)} (12)
其中,λi是第i层空洞卷积的权重矩阵,δi是第i层空洞卷积的偏置项,oi t是第i层空洞卷积输出特征中的第t帧特征向量;
随着卷积层数的增加,卷积核的感受野逐渐减小,感受野递增时间卷积的感受野计算公式如下:
Q(i)=2L-i+1-1 (14)
其中,L为总层数,Q(i)为第i层空洞卷积的感受野大小;
经过多层空洞卷积的连续运算,得出第任意一个基本单元中的感受野递减时间卷积的输出其中k为基本单元个数,/>为第k个基本单元中的感受野递减时间卷积的输出特征中的第t帧特征向量;
基本单元的输出由感受野递增时间卷积和感受野递减时间卷积二者的输出拼接而成,对拼接结果使用通道调整卷积得出第k个基本单元的输出Yk,其计算方式如下:
其中,为两个特征张量的拼接运算;
以此类推,计算出每个基本单元的输出特征;
全面特征捕捉型时间卷积网络由多个基本单元连接而成,任意一个由双通道时间卷积构成的基本单元Sk的计算方式如下:
其中,Fk表示第k个基本单元中的感受野递增时间卷积,Gk表示第k个基本单元中的感受野递减时间卷积,原始特征X1经过第一个基本单元S1计算,得出第一个基本单元的输出Y1,将其输入第二个基本单元S2,以此类推,计算出最后一个基本单元的输出特征YN,N为网络总的基本单元总数,YN经过分类器计算得出最终动作分割结果
2.一种计算机系统,包括:处理器;以及存储器,其中,所述存储器中存储有计算机指令,所述处理器执行所述计算机指令以实现如权利要求1所述的方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令在被处理器执行时,实现如权利要求1所述的方法的步骤。
CN202110603903.9A 2021-05-31 2021-05-31 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 Active CN113536898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110603903.9A CN113536898B (zh) 2021-05-31 2021-05-31 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110603903.9A CN113536898B (zh) 2021-05-31 2021-05-31 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质

Publications (2)

Publication Number Publication Date
CN113536898A CN113536898A (zh) 2021-10-22
CN113536898B true CN113536898B (zh) 2023-08-29

Family

ID=78124516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110603903.9A Active CN113536898B (zh) 2021-05-31 2021-05-31 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质

Country Status (1)

Country Link
CN (1) CN113536898B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111859023A (zh) * 2020-06-11 2020-10-30 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784654B (zh) * 2016-08-26 2020-09-25 杭州海康威视数字技术股份有限公司 图像分割方法、装置及全卷积网络系统
US11521044B2 (en) * 2018-05-17 2022-12-06 International Business Machines Corporation Action detection by exploiting motion in receptive fields

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111859023A (zh) * 2020-06-11 2020-10-30 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
(2+1)D多时空信息融合模型及在行为识别的应用;谈咏东;王永雄;陈姝意;缪银龙;;信息与控制(第06期);全文 *

Also Published As

Publication number Publication date
CN113536898A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN112131760B (zh) 基于cbam模型的航空发动机剩余寿命预测方法
CN109740419B (zh) 一种基于Attention-LSTM网络的视频行为识别方法
Jeong et al. Audio Event Detection Using Multiple-Input Convolutional Neural Network.
CN111913803B (zh) 一种基于akx混合模型的服务负载细粒度预测方法
CN108549841A (zh) 一种基于深度学习的老人跌倒行为的识别方法
CN112819136A (zh) 基于cnn-lstm神经网络模型与arima模型的时间序列预测方法及系统
CN112052763A (zh) 基于双向回顾生成对抗网络的视频异常事件检测方法
WO2023216721A1 (zh) 一种混凝土大坝缺陷时序图像智能识别方法
CN111709321A (zh) 一种基于图卷积神经网络的人体行为识别方法
CN112836105B (zh) 一种基于运动生理表征融合的大规模学生有氧能力分群方法
CN109655815A (zh) 基于ssd的声呐目标检测方法
CN111198966B (zh) 基于多智能体边界感知网络的自然语言视频片段检索方法
WO2023115598A1 (zh) 一种基于生成式对抗网络的平面叶栅定常流动预测方法
CN113297994B (zh) 一种飞行员行为分析方法及系统
CN114880925A (zh) 基于时间卷积网络和多层自注意力的装备寿命预测方法
CN110263733A (zh) 图像处理方法、提名评估方法及相关装置
CN115510950A (zh) 基于时间卷积网络的飞行器遥测数据异常检测方法及系统
CN113033547A (zh) 一种基于MobileNetV2的焊接状态分类方法
CN113536898B (zh) 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质
Xu et al. Global attention mechanism based deep learning for remaining useful life prediction of aero-engine
CN116560341A (zh) 工业机器人故障诊断模型及故障诊断方法
CN116503379A (zh) 基于轻量化改进YOLOv5的零件识别方法
Gao et al. Safety helmet detection based on YOLOV4-M
CN110610140A (zh) 人脸识别模型的训练方法、装置、设备及可读存储介质
CN115830707A (zh) 一种基于超图学习的多视角人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant