CN113536898A

CN113536898A - 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质

Info

Publication number: CN113536898A
Application number: CN202110603903.9A
Authority: CN
Inventors: 毛琳; 曹哲; 杨大伟; 张汝波
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-10-22
Anticipated expiration: 2041-05-31
Also published as: CN113536898B

Abstract

全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质，属于视频理解与分析中的视频动作分割技术领域，为了解决动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低的问题，将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入，分别提取特征后将两特征矩阵拼接；S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接，使用通道调整卷积获取第二特征矩阵，识别动作分类输出，效果是提高视频特征提取能力。

Description

全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质

技术领域

本发明属于视频理解与分析中的视频动作分割技术领域，涉及一种全面特征捕捉型时间卷积网络的视频动作分割方法。

背景技术

在大数据时代，视频凭借其广泛的应用性和丰富的表现能力成为十分重要的传播媒介，各个领域无时无刻不在使用视频传播与记录信息。视频理解已成为计算机视觉领域的研究热点，尤其是视频动作分割。动作分割任务适用于多种动作连续发生的细致场景，例如生产线上、视频监控等单一场景连续动作的检测与识别。专利《一种基于边界搜索智能体的时序动作片段分割方法》(公开号：CN111950393A)，提出边界搜索智能体，生成动作单元所属动作片段的时序边界，结合动作发现网络，提升了时序动作片段分割的平均精度。专利《通过混合时域自适应的视频动作分割》(公开号：CN112528780A)，公开了一种域自适应时间卷积网络，将动作标签分配给视频的帧，解决了繁琐的视频数据集密集标注问题。专利《一种基于混合时间卷积和循环网络的视频动作分割方法》(公开号：CN107423725A)，提出一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架，可以处理不同压缩程度的视频信号，提供一个混合时间网络来解决视频动作分割，提高了动作内容识别精度与效率。

视频动作分割任务需要网络抓取长时依赖关系，对于现有的动作分割网络模型，其骨干网络都起源于时间卷积网络，通过感受野不断扩张的多层空洞卷积提取较长的时序特征，根据这些视频特征的长时信息，得出每一帧最终的预测结果。

尽管这些模型取得不错的预测效果，但由于其结构设计原因，导致扩张到高层的卷积核感受野很大，对特征序列提取间隔过大，必然会漏掉一些重要信息。这导致网络漏掉有助于预测正确的关键特征，对一些细微动作或者小目标的动作识别效果差。动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低。因此需要一种感受野补足的全面特征捕捉方法，实现对视频特征序列的完整利用。

发明内容

为了解决动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低的问题，本发明提出如下方案：

全面特征捕捉型时间卷积网络的视频动作分割方法，包括如下步骤：S1.对单个视频采样，获取视频帧序列集合；S2.视频帧序列集合输入特征提取网络，获取帧级特征；S3.对帧级特征使用通道调整卷积，得到第一特征矩阵；S4.将第一特征矩阵分别输入时间卷积网络的第一基本单元的感受野递增时间卷积和感受野递减时间卷积，分别提取特征后将两特征矩阵拼接；S5.将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入，分别提取特征后将两特征矩阵拼接；S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接，使用通道调整卷积获取第二特征矩阵，识别动作分类输出。

有益效果

(1)提高视频特征提取能力

本发明通过使用感受野递增和递减的两种时间卷积的结合，能够互相弥补二者存在的缺失特征。针对未裁剪视频的动作分割任务，能够防止重要特征的丢失，提高特征丰富性，捕捉动作分类所需要的关键信息，对细微动作和小目标动作的识别更加精确。

(2)适用于时序信息处理任务

在涉及时序建模的多种任务中，如语音合成、自然语言处理、动作分割等，需要捕捉长时信息，本发明提供的全面特征捕捉型时间卷积对时序信息的提取更加全面，可以提高多种时序建模任务的准确性。

(3)适用于生产线机械手动作识别

本发明为计算机视觉视频理解技术中的动作分割，适用于背景单一的连续动作检测，能够对工厂中自动化生产线上的机械手进行动作识别，使计算机能够检测机械手做出的动作，对比程序设置的动作流程，自动检测机械手对动作指令的执行情况，进一步实现生产线的无人化管理。

(4)适用于生产线机械手故障检测

本发明适用于自动化生产线上的机械手故障检测，提供的全面特征捕捉型时间卷积网络，对特征捕捉更全面，避免特征丢失，不仅能够检测死机、冒烟等明显故障，对机械手执行动作指令中出现的卡顿、偏移等细微错误也有鉴别能力。

(5)适用于生产线机械手危险动作检测

本发明适用于自动化生产线上的机械手危险检测，在需要人为控制、调试或人机协作等有人参与的生产线中，保证人的安全是重中之重，依靠本发明对动作的识别精度和速度，能够迅速识别出机械手做出打中人体或夹住人手等威胁工人安全的行为，使系统立即停止对人类的伤害动作，保证参与生产的工人和技术人员安全。

附图说明

图1是本方法的整体框架示意图

图2是实施实例1中机械手动作识别结果图

图3是实施实例2中机械手故障检测结果图

图4是实施实例3中机械手危险动作检测结果图

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

全面特征捕捉型时间卷积网络，其逻辑如图1所示，利用其具体实施视频动作分割的步骤如下：

第1步：对单个视频采样获取视频帧序列集合

b^t为视频中第t帧宽为w高为h的RGB三通道图像，通过训练好的三维特征提取网络，获得尺寸大小为2048×T的特征矩阵作为输入帧特征，其中T为视频总帧数；

第2步：对第1步得到的帧级特征使用通道调整卷积，得到尺寸大小为64×T的特征矩阵，输入双通道时间卷积构成的基本单元中；

第3步：将第2步得到的特征矩阵输入感受野递增时间卷积中，经多层卷积提取后，使用通道调整卷积，得到尺寸大小为64×T的特征矩阵；

第4步：将第2步得到的特征矩阵输入感受野递减时间卷积中，经多层卷积提取后，使用通道调整卷积卷积，得到尺寸大小为64×T的特征矩阵；

第5步：将第3步和第4步得出的特征矩阵使用拼接处理，再使用通道调整卷积，得到尺寸大小为64×T的特征矩阵，将其输入下一基本单元；

第6步：连续使用N个基本单元后，对最后一个基本单元的输出特征使用通道调整卷积得到尺寸大小为C×T的特征矩阵，其中C为该视频动作总类数，再通过Softmax函数得出最终分类结果。

1.技术方案

通常情况下，用于动作分割的多层时间卷积网络随着层数增加其感受野不断递增。为满足对于视频特征序列的全面捕捉需求，本发明提出一种感受野递增与递减的双通道时间卷积结构组成的全面特征捕捉型时间卷积网络。感受野递增时间卷积由多层空洞卷积构成，每层空洞卷积的空洞率随着卷积层数的增加而增加，使每层卷积的感受野随着卷积层数增加而扩大。感受野递减时间卷积由多层空洞卷积构成，每层空洞卷积的空洞率随着卷积层数的增加而减小，使每层卷积的感受野随着卷积层数增加而缩小。全面特征捕捉型时间卷积网络由多个基本单元组成，一个基本单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。基本单元可以首尾连接使用，网络中基本单元的使用数量将决定网络对分割结果的优化程度。

2.全面特征捕捉型时间卷积网络

全面特征捕捉型时间卷积网络定义：全面特征捕捉型时间卷积网络由多个基本单元组成，一个基本单元包含一个感受野递增时间卷积和一个感受野递减时间卷积。全面特征捕捉型时间卷积网络的输入是帧特征集合

其中T是输入视频的总帧数，m^t是第t帧的特征向量，帧特征集合M包含每一视频帧的特征。对帧特征集合M使用通道调整卷积后得出特征集合

将其输入第一个基本单元，其中x₁ ^t表示第一个基本单元的输入特征中的第t帧特征向量。经过多个基本单元连续计算，对最后一个基本单元的输出添加神经网络通用分类器，得出全面特征捕捉型时间卷积网络的输出，即预测结果集合

其中

代表第t帧的分类结果。

(1)双通道时间卷积

定义1：双通道时间卷积构成的基本单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。

定义2：感受野递增时间卷积由多层空洞卷积组成，首先对特征集合X₁使用感受野较小的第一层一维空洞卷积，密集提取视频特征，经过激活函数Relu和通道调整卷积后，为保持深度网络模型不退化，根据残差网络特性，将每一层空洞卷积的输出特征都与其输入特征相加，再使用通道调整卷积得到第一层输出的特征序列X₂，其计算方式如下：

f₁＝D(R(w₁X₁+b₁)) (1)

其中，f₁表示第一层空洞卷积计算，R(·)表示激活函数Relu，D(·)代表通道调整卷积，w₁是第一层空洞卷积的权重矩阵，b₁是第一层空洞卷积的偏置项，

是第一层空洞卷积输出特征中的第t帧特征向量。将第一层空洞卷积的输出特征输入第二层一维空洞卷积，第二层空洞卷积的空洞率提升使得感受野增加，经过激活函数Relu、通道调整卷积和残差运算后，再使用通道调整卷积得到第二层空洞卷积的输出特征序列X₃。其计算方式如下：

f₂＝D{R(w₂X₂+b₂)} (3)

其中，f₂表示第二层空洞卷积计算，w₂是第二层空洞卷积的权重矩阵，b₂是第二层空洞卷积的偏置项。

是第二层空洞卷积输出特征中的第t帧特征向量。以此类推，可知任意一层空洞卷积输出的计算过程为：

f_i＝D{R(w_iX_i+b_i)} (5)

其中，f_i表示第i层空洞卷积计算，w_i是第i层空洞卷积的权重矩阵，b_i是第i层空洞卷积的偏置项，

是第i层空洞卷积输出特征中的第t帧特征向量。随着卷积层数的增加，卷积核的感受野逐渐增大，感受野递增时间卷积的感受野计算公式如下：

P(i)＝2ⁱ⁺¹-1 (7)

其中，i代表卷积层数，P(i)为第i层空洞卷积的感受野大小。经过多层空洞卷积的连续运算，得出任意一个基本单元中感受野递增时间卷积的输出特征序列

其中k为基本单元个数，

为第k个基本单元中的感受野递增时间卷积的输出特征中的第t帧特征向量。

定义3：感受野递减时间卷积同样由多层空洞卷积组成，首先对特征集合X₁使用感受野较大的第一层一维空洞卷积，大跨度提取视频特征，经过激活函数Relu、通道调整卷积和残差运算，再使用通道调整卷积得到第一层空洞卷积的输出特征序列O₂，其计算方式如下：

g₁＝D{R(λ₁X₁+δ₁)} (8)

其中，g₁表示第一层空洞卷积计算，λ₁是第一层空洞卷积的权重矩阵，δ₁是第一层空洞卷积的偏置项，

是第一层空洞卷积输出特征中的第t帧特征向量。将第一层空洞卷积的输出特征输入第二层一维空洞卷积，第二层空洞卷积的空洞率降低使得感受野缩小，经过激活函数Relu、通道调整卷积和残差运算后，再使用通道调整卷积得到第二层空洞卷积的输出特征序列O₃，其计算方式如下：

g₂＝D{R(λ₂X₂+δ₂)} (10)

其中，g₂表示第二层空洞卷积计算，λ₂是第二层空洞卷积的权重矩阵，δ₂是第二层空洞卷积的偏置项，

是第二层空洞卷积输出特征中的第t帧特征向量。以此类推，任意一层卷积计算方式如下：

g_i＝D{R(λ_iX_i+δ_i)} (12)

其中，λ_i是第i层空洞卷积的权重矩阵，δ_i是第i层空洞卷积的偏置项，

是第i层空洞卷积输出特征中的第t帧特征向量。随着卷积层数的增加，卷积核的感受野逐渐减小，感受野递增时间卷积的感受野计算公式如下：

Q(i)＝2^L-i+1-1 (14)

其中，L为总层数，Q(i)为第i层空洞卷积的感受野大小。经过多层空洞卷积的连续运算，得出第任意一个基本单元中的感受野递减时间卷积的输出

其中k为基本单元个数，

为第k个基本单元中的感受野递减时间卷积的输出特征中的第t帧特征向量。

定义4：基本单元的输出由感受野递增时间卷积和感受野递减时间卷积二者的输出拼接而成，对拼接结果使用通道调整卷积得出第k个基本单元的输出Y_k，其计算方式如下：

其中，

为两个特征张量的拼接运算。以此类推，可计算出每个基本单元的输出特征。

(2)整体网络结构

定义5：全面特征捕捉型时间卷积网络由多个基本单元连接而成，任意一个由双通道时间卷积构成的基本单元S_k的计算方式如下：

其中，F_k表示第k个基本单元中的感受野递增时间卷积，G_k表示第k个基本单元中的感受野递减时间卷积。原始特征X₁经过第一个基本单元S₁计算，得出第一个基本单元的输出Y₁，将其输入第二个基本单元S₂，以此类推，可计算出最后一个基本单元的输出特征Y_N，N为网络总的基本单元总数。Y_N经过分类器计算得出最终动作分割结果

3约束条件

特征尺寸：

(1)全面特征捕捉型时间卷积网络的输入是视频帧特征，帧特征是尺寸大小为[2048×T]的二维矩阵，其中2048代表特征维度，T是视频帧数。

(2)感受野递增时间卷积输入特征是尺寸大小为[64×T]的二维矩阵。

(3)感受野递增时间卷积输出特征是尺寸大小为[64×T]的二维矩阵。

(4)感受野递减时间卷积输入特征是尺寸大小为[64×T]的二维矩阵。

(5)感受野递减时间卷积输出特征是尺寸大小为[64×T]的二维矩阵。

(6)全面特征捕捉型时间卷积网络的输出为[C×T]的二维矩阵，C为视频包含的动作类别数。

网络规模：

(7)感受野递增时间卷积的空洞卷积层数为12-15层，包括12、13、14、15层。

(8)感受野递减时间卷积的空洞卷积层数为12-15层，包括12、13、14、15层。

(9)使用的基本单元数在3-10之间，包括3、4、5、6、7、8、9、10个基本单元。

其他参数：

(10)感受野递增时间卷积和感受野递减时间卷积的卷积核大小都为3。

(11)通道调整卷积为1×1卷积，用于调整输入输出特征尺寸。

(12)分类器使用Softmax函数。

4.原理分析

全面特征捕捉型时间卷积网络的基本单元由感受野递增和递减的两个时间卷积组成。

感受野递增时间卷积在底层使用感受野最小的卷积核，对原始特征进行密集采集，随着卷积层数的增加，空洞卷积的空洞率扩大，使卷积核感受野逐渐增大，层数越高的卷积对特征的提取跨度越大，构成下层密集、上层稀疏的采样方式。

感受野递减时间卷积在底层使用感受野最大的卷积核，对原始特征进行大跨度采集，随着卷积层书的增加，空洞卷积的空洞率减小，使卷积核感受野逐渐减小，层数越高的卷积核对特征的提取越密集，构成下层稀疏、上层密集的采样方式。

基本单元的感受野递增和递减时间卷积分别构成下层密集、上层稀疏和下层稀疏、上层密集两种采样方式，使二者对特征的提取得到互补，弥补各自结构设计导致的特征缺失，同时又不会造成特征的重复提取。

全面特征捕捉型时间卷积网络利用多个基本单元的连接，对特征进行不断的优化处理，为防止网络加深导致模型能力退化，每个基本单元的感受野递增时间卷积和感受野递减时间卷积都采用残差思想，使用跳线连接，保持深度网络中的特征传输。最终经过分类器对特征分类得出动作分割结果。

此前的动作分割算法普遍采用单一种类的时间卷积网络，即感受野递增时间卷积，虽然其广泛的特征捕捉能力适用于时序问题的处理，但其对特征的提取不全面。有的工作致力于弥补感受野递增时间卷积的视野缺失，如MS-TCN++，提出感受野递减的时间卷积层，将时间卷积网络的每层卷积改为感受野递增的空洞卷积和感受野递减的空洞卷积二者的双层叠加，这样的方式弥补了常规的感受野递增时间卷积的感受野缺失，但该方法由于感受野递增卷积与感受野递减卷积是在一个时间卷积网络块中逐层联合使用，并未分别对两种感受野组成的时间卷积网络进行显式建模，没有充分发挥两种结构的优势，而且该方法在多阶段的网络结构中，仅在第一阶段使用了感受野递增卷积与感受野递减卷积的融合方式，后续阶段仍使用种类单一的感受野递增时间卷积。本发明提出的全面特征捕捉型时间卷积网络，对感受野递增时间卷积与感受野递减时间卷积分别建模，利用感受野递增空洞卷积和感受野递减空洞卷积分别组成感受野递增时间卷积和感受野递减时间卷积，将两种时间卷积并联形成一个基本单元，基本单元的输出为感受野递增时间卷积和感受野递减时间卷积的融合特征。一个基本单元中的两种时间卷积块，一个为感受野递增的多层卷积结构，一个为感受野递减的多层网络结构，充分提取两种不同类型特征后，将两种特征进行融合，分别发挥两种结构的优势，互相弥补，丰富了特征，提高特征表达能力。并且随着多个基本单元的叠加，逐渐对特征进行细致优化，使最终预测结果趋于准确。

为测试本发明提出的全面特征捕捉型时间卷积网络的有效性，表1中给出了本发明的网络于MS-TCN++的测试对比，测试指标包含帧级准确率(Acc)、分段编辑分数(Edit)和IoU阈值为10％、25％、50％的分段F1得分，表示为F1@k(k＝10；25；50)。其中Acc为常用的准确率评判标准，但其对于不符合人体行为认知的错误时序片段不敏感，对于短暂的错误预测也不敏感，无法反映过分割错误。而分段编辑分数通过测量预测结果中动作分段顺序来惩罚过分割错误，F1分数由动作总数确定，同样惩罚过分割错误，使用这三种指标作为评价机制。

测试结果表明，在三个动作分割数据集中，全面特征捕捉型时间卷积网络表现优于具有同类性质的其他网络(MS-TCN++)。其中全面特征捕捉型时间卷积网络的F1分数在三个数据集上平均以4.2％优于MS-TCN++，Edit分数以2.4％优于MS-TCN++，Acc以2.1％优于MS-TCN++。实验结果表明，全面特征捕捉型时间卷积网络利用其提取特征的丰富性，提高特征表达能力，使动作段的预测结果更加准确。

表1测试结果对比

在一种实施例中，本发明涉及的方法步骤由软件实现，该实施例提供一种计算机系统，包括：处理器；以及存储器，其中，所述存储器中存储有计算机指令，所述处理器执行所述计算机指令以实现任一项所述的方法的步骤。并提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令在被处理器执行时，实现任一项所述的方法的步骤。

实施例1：

本实施实例为，将机械手工作流程视频输入到网络模型中，对机械手进行动作识别。机械手动作识别结果如图2。

实施例2：

本实施实例为，将机械手发生故障视频输入到网络模型中，对工作中的机械手进行故障检测。机械手故障检测结果如图3。

实施例3：

本实施实例为，将机械手做出威胁人体安全动作视频输入到网络模型中，对机械手进行危险动作识别。机械手危险动作识别结果如图4。

Claims

1.一种全面特征捕捉型时间卷积网络的视频动作分割方法，其特征在于，包括如下步骤：

S1.对单个视频采样，获取视频帧序列集合；

S2.视频帧序列集合输入特征提取网络，获取帧级特征；

S3.对帧级特征使用通道调整卷积，得到第一特征矩阵；

S4.将第一特征矩阵分别输入时间卷积网络的第一基本单元的感受野递增时间卷积和感受野递减时间卷积，分别提取特征后将两特征矩阵拼接；

S5.将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入，分别提取特征后将两特征矩阵拼接；

S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接，使用通道调整卷积获取第二特征矩阵，识别动作分类输出。

2.如权利要求1所述的全面特征捕捉型时间卷积网络的视频动作分割方法，其特征在于，作为第一特征矩阵的帧特征集合

其中T是输入视频的总帧数，m^t是第t帧的特征向量，帧特征集合M包含每一视频帧的特征，对帧特征集合M使用通道调整卷积后得出特征集合

将其输入第一个基本单元，其中

表示第一个基本单元的输入特征中的第t帧特征向量。

3.如权利要求4所述的全面特征捕捉型时间卷积网络的视频动作分割方法，其特征在于，

所述的单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积；

感受野递增时间卷积由多层空洞卷积组成，对特征集合X₁使用感受野较小的第一层一维空洞卷积，密集提取视频特征，经过激活函数Relu和通道调整卷积后，为保持深度网络模型不退化，根据残差网络特性，将每一层空洞卷积的输出特征都与输入特征相加，再使用通道调整卷积得到第一层输出的特征序列X₂：

f₁＝D(R(w₁X₁+b₁)) (1)

是第一层空洞卷积输出特征中的第t帧特征向量；

将第一层空洞卷积的输出特征输入第二层一维空洞卷积，第二层空洞卷积的空洞率提升使得感受野增加，经过激活函数Relu、通道调整卷积和残差运算后，再使用通道调整卷积得到第二层空洞卷积的输出特征序列X₃：

f₂＝D{R(w₂X₂+b₂)} (3)

是第二层空洞卷积输出特征中的第t帧特征向量；

将第i-1层空洞卷积的输出特征输入第i层一维空洞卷积，第i层空洞卷积输出为：

f_i＝D{R(w_iX_i+b_i)} (5)

是第i层空洞卷积输出特征中的第t帧特征向量；

随着卷积层数的增加，卷积核的感受野逐渐增大，感受野递增时间卷积的感受野计算公式如下：

P(i)＝2ⁱ⁺¹-1 (7)

其中，i代表卷积层数，P(i)为第i层空洞卷积的感受野大小，经过多层空洞卷积的连续运算，得出任意一个基本单元中感受野递增时间卷积的输出特征序列

其中k为基本单元个数，

为第k个基本单元中的感受野递增时间卷积的输出特征中的第t帧特征向量；

感受野递减时间卷积同样由多层空洞卷积组成，对特征集合X₁使用感受野较大的第一层一维空洞卷积大跨度提取视频特征，经过激活函数Relu、通道调整卷积和残差运算，再使用通道调整卷积得到第一层空洞卷积的输出特征序列O₂：

g₁＝D{R(λ₁X₁+δ₁)} (8)

是第一层空洞卷积输出特征中的第t帧特征向量；

将第一层空洞卷积的输出特征输入第二层一维空洞卷积，第二层空洞卷积的空洞率降低使得感受野缩小，经过激活函数Relu、通道调整卷积和残差运算后，再使用通道调整卷积得到第二层空洞卷积的输出特征序列O₃：

g₂＝D{R(λ₂X₂+δ₂)} (10)

是第二层空洞卷积输出特征中的第t帧特征向量；

g_i＝D{R(λ_iX_i+δ_i)} (12)

是第i层空洞卷积输出特征中的第t帧特征向量；

随着卷积层数的增加，卷积核的感受野逐渐减小，感受野递增时间卷积的感受野计算公式如下：

Q(i)＝2^L-i+1-1 (14)

其中，L为总层数，Q(i)为第i层空洞卷积的感受野大小；

经过多层空洞卷积的连续运算，得出第任意一个基本单元中的感受野递减时间卷积的输出

其中k为基本单元个数，

为第k个基本单元中的感受野递减时间卷积的输出特征中的第t帧特征向量；

基本单元的输出由感受野递增时间卷积和感受野递减时间卷积二者的输出拼接而成，对拼接结果使用通道调整卷积得出第k个基本单元的输出Y_k，其计算方式如下：

其中，

为两个特征张量的拼接运算；

以此类推，计算出每个基本单元的输出特征；

全面特征捕捉型时间卷积网络由多个基本单元连接而成，任意一个由双通道时间卷积构成的基本单元S_k的计算方式如下：

其中，F_k表示第k个基本单元中的感受野递增时间卷积，G_k表示第k个基本单元中的感受野递减时间卷积，原始特征X₁经过第一个基本单元S₁计算，得出第一个基本单元的输出Y₁，将其输入第二个基本单元S₂，以此类推，计算出最后一个基本单元的输出特征Y_N，N为网络总的基本单元总数，Y_N经过分类器计算得出最终动作分割结果

4.一种计算机系统，包括：处理器；以及存储器，其中，所述存储器中存储有计算机指令，所述处理器执行所述计算机指令以实现如权利要求1-3中任一项所述的方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令在被处理器执行时，实现如权利要求1-3中任一项所述的方法的步骤。

6.一种全面特征捕捉型时间卷积网络，其特征在于，网络包括若干单元，所述的单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。