CN117765432A

CN117765432A - 一种基于动作边界预测的中学理化生实验动作检测方法

Info

Publication number: CN117765432A
Application number: CN202311558506.XA
Authority: CN
Inventors: 刘峰; 王慧; 宋婉茹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-03-26

Abstract

本发明提供一种基于动作边界预测的中学理化生实验动作检测方法，包括：获取待测实验视频；利用特征提取网络对待测实验视频进行特征提取得到视频特征；利用边界匹配网络对视频特征进行边界匹配得到动作开始时间和结束时间组合成的时序片段；边界匹配网络包含两个支路，在第一支路中，经过时序卷积处理后，对每一帧使用可学习的高斯分布进行建模，区分背景帧和动作帧，得到起始边界概率序列；在第二支路中处理得到动作起始位置匹配的二维置信度图，将起始边界概率序列和动作起始位置匹配的二维置信度图通过后处理得到时序片段；最后利用片段分类网络对时序片段进行分类，得到实验动作检测结果。本发明有效提升了片段生成效率及动作检测的准确率。

Description

一种基于动作边界预测的中学理化生实验动作检测方法

技术领域

本发明涉及一种基于动作边界预测的中学理化生实验动作检测方法，属于视频理解中的时序动作定位技术领域。

背景技术

随着人工智能技术的不断发展，其在教育领域的应用也越来越广泛。传统的中学理化生实验考试需要老师亲自批改学生的实验报告，这不仅费时费力，而且还存在主观因素。为了契合以创新技术促进教育智能化转型的趋势，推出AI赋能理化生实验操作考试解决方案，构建教育细分领域落地新场景，这种智能评分系统则可以通过人工智能技术对学生的实验报告进行自动评分，不仅可以提高评分的准确性，还可以节省老师的时间和精力。

时序动作检测可以看作由两个子任务组成，一个子任务是预测动作的起止时序区间，另一个子任务是预测动作的类别。由于动作识别领域经过近年来的发展，预测动作类别的算法逐渐成熟，因此时序动作定位的关键是预测动作的起止时序区间。

当前动作定位及分类技术，传统方法有聚类、基于特征相似性等，这些方法通常依赖于手工设计的特征或规则，无法捕捉到复杂的视频场景和语义信息。

发明内容

本发明主要研究在理化生实验智能考评系统中时序动作检测算法，旨在通过一定的技术手段去除视频中的冗余信息，并生成视频中关键动作片段。一方面在评分系统中可以提供关键技术支撑，将片段用在判分模块之前，节约运行时间，加快系统判分；另一方面可以通过这些生成关键动作作为摘要保留，便于后期用户审核，追溯复查，有效减少工作量。

目的：鉴于以上技术问题中的至少一项，本发提供一种基于动作边界预测的中学理化生实验动作检测方法。

本发明采用的技术方案为：

第一方面，本发明提供一种基于动作边界预测的中学理化生实验动作检测方法，包括：

获取待测实验视频；其中所述待测实验视频为包含有中学理化生实验动作的视频；

利用特征提取网络对所述待测实验视频进行特征提取得到视频特征；

利用边界匹配网络对所述视频特征进行边界匹配得到动作开始时间和结束时间组合成的时序片段；其中所述边界匹配网络包含两个支路，在第一支路中，经过时序卷积处理后，对每一帧使用可学习的高斯分布进行建模，区分背景帧和动作帧，得到起始边界概率序列；在第二支路中处理得到动作起始位置匹配的二维置信度图，将起始边界概率序列和动作起始位置匹配的二维置信度图通过后处理得到时序片段；

利用片段分类网络对所述时序片段进行分类，得到实验动作检测结果。

在一些实施例中，其中所述特征提取网络采用I3D网络、变速网络Slowfast、稀疏时间采样网络TSN、或三维卷积网络C3D。

在一些实施例中，其中所述片段分类网络采用长短期记忆网络、图卷积网络或循环神经网络RNN。

利用特征提取网络对所述待测实验视频进行特征提取得到视频特征，包括：

对待测实验视频以每秒25帧进行处理，确定一个滑动窗口，滑动窗口对视频不重叠切分，得到图片；

每次输入16帧尺寸为C×C的图片经过特征提取网络I3D网络，得到输出的图像RGB特征；

通过引入L1范数利用光流估计算法得到相邻帧图像的光流，计算一个流场来估计两个连续图像帧中像素的运动，通过光流估计得到动作位于水平和垂直方向的光流效果，相叠加形成光流图，最终输出结果为光流特征；

将图像RGB特征和光流特征进行特征融合，得到视频特征。

进一步地，在一些实施例中，每次输入16帧尺寸为C×C的图片经过特征提取网络I3D网络，得到输出的图像RGB特征，具体包括：每次输入16帧图片进行一次7×7×7的三维卷积和一个1×3×3的最大池化，输出第一层特征图N1；将第一层特征图N1再进行一个1×1×1的三维卷积和一个3×3×3的三维卷积后，进行降采样后得到第二层特征图N2；将第二层特征图N2经过两个残差模块后再进行一个3×3×3最大池化，得到第三层特征图N3；将第三层特征图N3经过5个相同的残差模块，进行步长为2的降采样，得到最后输出图像RGB特征；其中所述残差模块包括四个支路，残差模块的四个支路都是以上一个模块的输出作为输入，第一支路经过一个1×1×1的三维卷积，第二支路和第三支路都经过一个1×1×1和一个3×3×3的三维卷积，第四支路先进行一个3×3×3最大池化降采样后，再进行1×1×1的三维卷积，最后将这四个支路的输出进行特征融合后，进行步长为2的降采样。

在一些实施例中，其中通过全变分算法得到相邻帧图像的光流，构造如下目标函数：

其中x表示图像任一像素点的位置，I₀(x)表示前一帧图像在像素点x位置上的图像强度值，u₁(x)表示前一帧图像在像素点x位置上光流的位移，u₂(x)表示后一帧图像在像素点x位置上光流的位移，I₁(x+u(x))表示后一帧图在像素点x+u(x)位置上的图像强度值，为计算梯度的哈密顿算子，前一项/>表示获得平滑位移的正则项，λ为用来控制正则化影响的权重系数，第二项∫_Ω(I₁(x+u(x))-I₀(x))²dΩ为光流约束的数据项；

通过向目标函数中添加正则化，使得学习得到的结果满足稀疏化，最后迭代得到动作位于水平和垂直方向的光流效果，相叠加形成光流图，最终输出结果为光流特征。

在一些实施例中，利用边界匹配网络对所述视频特征进行边界匹配得到动作开始时间和结束时间组合成的时序片段，包括：

将视频特征输入到两个3×3、步长为1的卷积层，处理得到时序特征序列，分别输入两个分支；

时序特征序列经过第一分支处理，即两个3×3的卷积层和最大池化后，再进行深度为2的归一化，并在第一分支引入动作重要性对比学习，即结合对每一帧使用可学习的高斯分布进行建模，区分背景帧和动作帧根据动作重要程度调整每个帧在训练中的权重，最后输出起始边界概率序列，即开始概率序列和结束概率序列；

时序特征序列经过第二分支处理，先经过一个边界匹配层，确定一个大小为16的滑动窗口，用T表示样本最大的片段长度，从输入的时序特征序列在其时序范围内均匀采样N个点，构成一张N×T的掩码权重，得到对于第n个采样点的从时序特征序列生成C×T的时序特征图，其中N是在一段视频中的采样点个数，其中C是特征的维度数；根据采样点对应的权重矩阵，与C×T的时序特征图加权，计算生成一张C×N的特征图；

将C×N的特征图进行32×1×1的三维卷积，将特征维数降到1，再进行1×1和3×3的卷积后，通过sigmoid函数激活生成通道维度为2的置信度，得到最终输出的动作起始位置匹配的二维置信度图，所述二维置信度图中分布在同一行的片段拥有相同的持续长度，分布在同一列的拥有相同的开始边界；

将起始边界概率序列和动作起始位置匹配的二维置信度图，进行相乘融合，生成每个动作片段的置信度；

根据动作片段的置信度，采用非极大抑制方法来去除冗余，得到最终候选的动作片段，形成时序片段。

进一步地，在第一分支引入动作重要性对比学习，具体包括：

利用一个可学习的高斯分布来建模动作重要性，明确地分配类高斯权重来模拟动作定位的准确度；针对每帧的动作重要性p^loc建模为：

其中，来模拟第i帧起始时间定位准确度，/>来模拟第i帧结束时间定位准确度；

其中，μ_s和σ_s为可学习的参数，表示每个类别c在起始时间的动作重要程度分布的均值和方差，μ_e和σ_e为每个类别c在结束时间的动作重要程度分布的均值和方差，d(i)表示训练过程中从当前第i帧的真实标注片段的中心点的距离；

通过上述建模学习得到帧的重要性序列；

将重要性序列与时序特征序列进行累加融合，得到起始边界概率序列。

进一步地，将起始边界概率序列和动作起始位置匹配的二维置信度图，进行相乘融合，生成每个动作片段的置信度p_f，包括：

其中,t_s表示动作片段的开始时刻，t_e表示动作片段的结束时刻，为动作片段在开始时刻t_s的概率，/>为动作片段在结束时刻t_e的概率，p_cc为分类置信度，p_cr为回归置信度。

进一步地，根据动作片段的置信度，采用非极大抑制方法来去除冗余，得到最终候选的动作片段，包括：

在每次取出置信度最大的动作片段后，计算此动作片段的起始位置与其他动作片段的重合程度，若重合程度超过阈值则去除，得到最终候选的动作片段，其中所述动作片段包括动作开始时间、动作结束时间以及置信度。

在一些实施例中，所述片段分类网络采用长短期记忆网络，则利用片段分类网络对所述时序片段进行分类，包括：

将时序片段输入长短期记忆网络，此时刻为t，输入特征向量为n_t，由三个门控机制和细胞记忆单元实现对信息的更新与保留，其中三个门控包括遗忘门、输入门与输出门；

将上一时刻t-1的输出特征向量h_t-1和输入特征向量n_t进行拼接，形成特征矩阵M输入到遗忘门，此时得到通过遗忘门的输出状态信息向量f_t；

f_t＝σ(W_f*M+b_f)

其中，W_f、b_f分别表示遗忘门的权重矩阵和偏置值向量，σ表示sigmoid激活函数；

将特征矩阵M输入到输入门，通过输入门后得到输出状态信息矩阵f_i，同时得到未更新的细胞状态向量

f_i＝σ(W_i*M+b_i)

其中，W_i、b_i分别表示输入门的权重矩阵和偏置值向量，W_c、b_c分别表示细胞记忆单元的权重矩阵和偏置值向量，tanh表示tanh激活函数；

基于未更新的细胞状态向量将状态信息向量f_t和f_i，进行更新存储，得到细胞更新向量C_t；

其中，C_t-1为上一时刻t-1的细胞更新向量；

将细胞更新向量C_t通过输出门后，决定当前的C_t中的有效信息输出向量h_t，表达式如下：

h_t＝σ(W_o*M+b_o)*tanh(C_t)

其中，W_o、b_o分别表示输出门的权重矩阵和偏置值向量；

将有效信息输出向量h_t通过全连接层，进行片段的类别预测，生成实验动作检测结果。

第二方面，本发明提供了一种基于动作边界预测的中学理化生实验动作检测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述的方法。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

第四方面，本发明提供了一种设备，包括，

存储器；

处理器；

以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现上述第一方面所述的方法。

本发明的有益效果是：

(1)本申请的应用场景是基于中学理化实验视频中关键动作检测，采用先进行时序动作定位生成片段，再进行动作片段识别的两阶段式方法，具有更高的动作片段识别准确度。

(2)在未剪辑的视频中有大量的背景片段，检测难度大，难以准确定位动作，本申请建立在全监督数据集进行训练的前提下，提出动作重要性学习，对于每一帧的动作重要程度进行建模，并将学习到的权重应用于损失函数中，在此基础上每一帧的损失函数前再乘以学习到的动作重要度，以促进模型更关注重要的帧，从而更好的训练。

附图说明

图1是本发明实施例中时序动作检测流程示意图。

图2是本发明实施例中特征提取网络结构示意图。

图3是本发明实施例中边界匹配网络的结构示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

实施例1

第一方面，本实施例提供了一种基于动作边界预测的中学理化生实验动作检测方法，包括：

在一些实施例中，所述特征提取网络可以采用I3D网络、变速网络Slowfast、稀疏时间采样网络TSN、或三维卷积网络C3D。

在一些实施例中，所述片段分类网络可以采用长短期记忆网络、图卷积网络或循环神经网络RNN。

本实施例中，以特征提取网络采用I3D网络，片段分类网络采用长短期记忆网络进行展开进一步的详细描述。

在一些具体实施例中，如图1所示，一种基于动作边界预测的中学理化生实验动作检测方法，包括以下步骤：

步骤1：利用专用硬件设备，统一视角范围及镜头高度，模拟中学生实验考试进行视频采集，保证数据贴合实际场景，然后制作训练数据集，JSON标签按照如下格式进行准备：每个视频中包含每段视频中的动作信息、动作类别标签、类别名称、开始帧数和结束帧数。标签包括移动滑动变阻器、打开开关、对电表调零等。

步骤2：构建时序动作检测网络，包括特征提取网络、边界匹配网络、片段分类网络；获取实验动作数据集并对特征提取网络进行训练，得到视频特征；对视频特征进行标注后构成带标签动作开始时间和结束时间的视频特征数据集，利用视频特征数据集对边界匹配网络进行训练，得到时序片段；对时序片段进行标注后构成带类别标签的时序片段数据集，利用时序片段数据集对片段分类网络进行训练，得到预训练好的特征提取网络、边界匹配网络、片段分类网络。

步骤3：如图2所示，获取待测实验视频送入I3D网络提取视频特征，具体步骤如下：

(3.1)对待测实验视频以每秒25帧进行处理，确定一个滑动窗口，大小设置为16，滑动窗口对视频不重叠切分；

(3.2)对于图像RGB特征提取，每次输入16帧尺寸为C×C的图片经过I3D网络，得到输出的图像RGB特征；

具体包括：每次输入16帧图片经过I3D网络，步骤如下：进行一次7×7×7的三维卷积和一个1×3×3的最大池化，输出第一层特征图N1；将第一层特征图N1再进行一个1×1×1的三维卷积和一个3×3×3的三维卷积后，进行降采样后得到第二层特征图N2；再将第二层特征图N2经过两个残差网络，其中包含四个支路，都将N1作为输入，第一支路经过一个1×1×1的三维卷积，第二支路和第三支路都经过一个1×1×1和一个3×3×3的三维卷积，第四支路先进行最大池化降采样后，进行1×1×1的三维卷积，最后将这四个支路的输出进行特征融合，后，进行步长为2的降采样，得到第三层特征图N3；最后将N3经过5个同样的残差网络后，进行步长为2的降采样，得到最后输出图像RGB特征；

(3.3)对于光流特征提取，通过引入L1范数通过光流估计算法得到相邻帧图像的光流，计算一个流场来估计两个连续图像帧中像素的运动，通过光流估计得到动作位于水平和垂直方向的光流效果，相叠加形成光流图，最终输出结果为光流特征；具体包括：

通过全变分算法得到相邻帧图像的光流，构造如下目标函数：

其中x表示图像任一像素点的位置，I₀(x)表示前一帧图像在像素点x位置上的图像强度值，u₁(x)表示前一帧图像在像素点x位置上光流的位移，u₂(x)表示后一帧图像在像素点x位置上光流的位移，I₁(x+u(x))表示后一帧图在像素点x+u(x)位置上的图像强度值，为计算梯度的哈密顿算子，前一项/>表示获得平滑位移的正则项，λ为用来控制正则化影响的权重系数，第二项∫_Ω(I₁(x+u(x))-I₀(x))²dΩ为光流约束的数据项。

通过向目标函数中添加正则化，使得学习得到的结果满足稀疏化，最后得到动作位于水平和垂直方向的光流效果，相叠加形成光流图，最终输出结果为光流特征；

(3.4)将图像RGB特征和光流特征进行特征融合后得到视频特征。

步骤4：将提取到的视频特征输入边界匹配网络，如图3所示，边界匹配网络包含两个支路，在第一支路中，经过时序卷积处理后，对每一帧使用可学习的高斯分布进行建模，区分背景帧和动作帧，得到起始边界概率序列，在第二支路中处理得到动作起始位置匹配的二维置信度图，最后将两支路的输出通过后处理得到动作开始时间和结束时间组合成的时序片段，具体步骤如下：

(4.1)首先步骤3得到的视频特征输入到两个3×3步长为1的卷积层，处理输入的特征序列，作为后续两个模块所共享的时序特征序列；

(4.2)然后将处理好的特征序列输入到时序评估模块，时序评估模块包含两个3×3的卷积层和最大池化后，再进行深度为2的归一化，并在此模块引入动作重要性对比学习分支，根据动作重要程度调整每个帧在训练中的权重。

由于视频本身信息具有连续性，且存在一些关键帧，因此利用一个可学习的高斯分布来建模动作重要性，明确地分配类高斯权重来模拟动作定位的准确度。针对每帧的动作重要性p^loc建模为：

其中来模拟第i帧对于起始时间定位准确度，/>来模拟第i帧对于结束时间定位准确度。表达式分别如下：

其中，μ_s和σ_s为可学习的参数，表示每个类别c在起始时间的动作重要程度分布的均值和方差，且初始化为μ_s＝-0.5，σ_s＝1，μ_e和σ_e为每个类别c在结束时间的动作重要程度分布的均值和方差，且初始化为μ_e＝0.5，σ_e＝1。d(i)表示训练过程中从当前第i帧的真实标注片段的中心点的距离；

(4.3)然后将一开始处理好的特征序列输入片段生成模块，首先经过一个边界匹配层，确定一个大小为16的滑动窗口，用T表示样本最大的片段长度，从输入的特征序列在其时序范围内均匀采样N个点，构成一张N×T的掩码权重，其中N是在一段视频中的采样点个数，则得到对于第n个采样点的从时序特征序列生成C×T的特征图，其中C是特征的维度数；根据采样点对应的权重矩阵，与C×T的时序特征图加权，计算生成一张C×N的特征图；将此特征图进行32×1×1的三维卷积，将特征维数降到1，再进行1×1和3×3的卷积后，通过sigmoid函数激活生成通道维度为2的置信度，即得到最终输出为动作起始位置匹配的二维置信度图，其中分布在同一行的片段拥有相同的持续长度，分布在同一列的拥有相同的开始边界；

(4.4)将(4.2)和(4.3)产生的起始边界概率序列和动作起始位置匹配的二维置信度图，进行相乘融合，生成每个片段的置信度p_f。公式如下：

其中,t_s表示动作片段的开始时刻，t_e表示动作片段的结束时刻，为动作片段在开始时刻t_s的概率，/>为动作片段在结束时刻t_e的概率，p_cc为分类置信度，p_cr为回归置信度；

(4.5)最后采用非极大抑制方法来去除了冗余，得到最终候选的动作片段，包括动作开始时间、结束时间以及置信度。

步骤5：构建片段识别的长短期记忆网络，由步骤4生成候选的时序片段特征进行归一化后输入到长短期记忆网络，进行类别预测，生成最终结果，具体步骤如下：

(5.1)将时序片段(步骤(4)生成候选的动作片段)输入长短期记忆网络，此时刻为t，输入特征向量为n_t，由三个门控机制和细胞记忆单元实现对信息的更新与保留，其中三个门控包括遗忘门、输入门与输出门；

(5.2)将上一时刻t-1的输出特征向量h_t-1和输入特征向量n_t进行拼接，形成特征矩阵M输入到遗忘门，此时得到通过遗忘门的输出状态信息向量f_t，表达式如下：

f_t＝σ(W_f*M+b_f)

(5.3)将上述的特征矩阵M输入到输入门，通过输入门后得到输出状态信息矩阵f_i，同时也得到未更新的细胞状态向量表达式如下：

f_i＝σ(W_i*M+b_i)

(5.4)将上述的状态信息向量f_t和f_i，进行更新存储，得到细胞更新向量C_t，表达式如下：

其中，C_t-1为上一时刻d-1的细胞更新向量，为当前未更新的细胞状态向量；

(5.5)将上述的细胞更新向量C_t通过输出门后，决定当前的C_t中的有效信息输出向量h_t，表达式如下：

h_t＝σ(W_o*M+b_o)*tanh(C_t)

其中，W_o、b_o分别表示输出门的权重矩阵和偏置值向量；

(5.5)将最后有效信息输出向量h_t通过全连接层，进行片段的类别预测，生成最终动作检测结果。

实施例2

第二方面，基于实施例1，本实施例提供了一种基于动作边界预测的中学理化生实验动作检测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述的方法。

实施例3

第三方面，基于实施例1，本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述的方法。

实施例4

第四方面，基于实施例1，本实施例提供了一种设备，包括，

存储器；

处理器；

以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现实施例1所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于动作边界预测的中学理化生实验动作检测方法，其特征在于，包括：

2.根据权利要求1所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，利用特征提取网络对所述待测实验视频进行特征提取得到视频特征，包括：

通过引入L1范数利用光流估计算法得到相邻帧图像的光流，计算一个流场来估计两个连续图像帧中像素的运动，利用光流估计得到动作位于水平和垂直方向的光流效果，相叠加形成光流图，最终输出结果为光流特征；

将图像RGB特征和光流特征进行特征融合，得到视频特征。

3.根据权利要求2所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，每次输入16帧尺寸为C×C的图片经过特征提取网络I3D网络，得到输出的图像RGB特征，具体包括：每次输入16帧图片进行一次7×7×7的三维卷积和一个1×3×3的最大池化，输出第一层特征图N1；将第一层特征图N1再进行一个1×1×1的三维卷积和一个3×3×3的三维卷积后，进行降采样后得到第二层特征图N2；将第二层特征图N2经过两个残差模块后再进行一个3×3×3最大池化，得到第三层特征图N3；将第三层特征图N3经过5个相同的残差模块，进行步长为2的降采样，得到最后输出图像RGB特征；其中所述残差模块包括四个支路，残差模块的四个支路都是以上一个模块的输出作为输入，第一支路经过一个1×1×1的三维卷积，第二支路和第三支路都经过一个1×1×1和一个3×3×3的三维卷积，第四支路先进行一个3×3×3最大池化降采样后，再进行1×1×1的三维卷积，最后将这四个支路的输出进行特征融合后，进行步长为2的降采样。

4.根据权利要求2所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，其中通过全变分算法得到相邻帧图像的光流，构造如下目标函数：

5.根据权利要求1所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，利用边界匹配网络对所述视频特征进行边界匹配得到动作开始时间和结束时间组合成的时序片段，包括：

时序特征序列经过第一分支处理，即两个3×3的卷积层和最大池化后，再进行深度为2的归一化，并在第一分支引入动作重要性对比学习，即对每一帧使用可学习的高斯分布进行建模，区分背景帧和动作帧根据动作重要程度调整每个帧在训练中的权重，最后输出起始边界概率序列，即开始概率序列和结束概率序列；

6.根据权利要求5所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，在第一分支引入动作重要性对比学习，具体包括：

通过上述建模学习得到帧的重要性序列；

7.根据权利要求5所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，将起始边界概率序列和动作起始位置匹配的二维置信度图，进行相乘融合，生成每个动作片段的置信度p_f，包括：

8.根据权利要求5所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，根据动作片段的置信度，采用非极大抑制方法来去除冗余，得到最终候选的动作片段，包括：

9.根据权利要求1所述的基于动作边界预测的中学理化生实验动作检测方法，其特征在于，所述片段分类网络采用长短期记忆网络，则利用片段分类网络对所述时序片段进行分类，包括：

f_t＝σ(W_f*M+b_f)

f_i＝σ(W_i*M+b_i)

其中，C_t-1为上一时刻t-1的细胞更新向量；

h_t＝σ(W_o*M+b_o)*tanh(C_t)

其中，W_o、b_o分别表示输出门的权重矩阵和偏置值向量；

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。