CN112487913A

CN112487913A - 一种基于神经网络的标注方法、装置及电子设备

Info

Publication number: CN112487913A
Application number: CN202011331317.5A
Authority: CN
Inventors: 李威; 姚娟娟; 宗立明; 路堃; 罗捷
Original assignee: Subway Operation Technology R & D Center Beijing Subway Operation Co ltd; Operating No4 Branch Beijing Subway Operation Co ltd; CRRC Industry Institute Co Ltd
Current assignee: Subway Operation Technology R & D Center Beijing Subway Operation Co ltd; Operating No4 Branch Beijing Subway Operation Co ltd; CRRC Industry Institute Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-12

Abstract

本发明提供一种基于神经网络的标注方法、装置及电子设备，包括：获取司机操作列车的视频图像，所述视频图像中包含待标注的司机动作；通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点；其中，所述动作检测神经网络包括用于提取所述视频图像的视频时序特征的时序特征提取网络、用于初步给出视频中人物动作的开始和结束节点的动作边界预测网络，以及用于判断所述动作边界预测网络输出结果是否正确并将最终标注结果输出的动作辨识网络。本发明通过动作检测神经网络能够标注预测司机操作列车的动作开始和结束节点，从而可以减少人工观看的视频量，提升标注效率。

Description

一种基于神经网络的标注方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于神经网络的标注方法、装置及电子设备。

背景技术

实时监控轨道交通司机的操作行为是提升列车运行安全的有效手段，基于深度学习的行为识别司机监控视频方面初步具备良好的应用前景。通过监督学习的形式可以明确监控算法的学习目标，从而快速提升对司机操作行为辨识的准确率。

然而监督学习需要提供人为标注样本的属性，所以通过人工的方式对司机操作列车视频进行标注的过程，费时费力，因此需要一个优化的标注方法，提升标注效率，成为亟待解决的问题。

发明内容

本发明提供一种基于神经网络的标注方法、装置及电子设备，用以解决现有技术中通过人工标注比较费时费力的缺陷，通过动作检测神经网络能够自动标注司机动作的节点。

本发明提供一种基于神经网络的标注方法，包括：

获取司机操作列车的视频图像，所述视频图像中包含待标注的司机动作；

通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点；

其中，所述动作检测神经网络包括用于提取所述视频图像的视频时序特征的时序特征提取网络、用于初步给出视频中人物动作的开始和结束节点的动作边界预测网络，以及用于判断所述动作边界预测网络输出结果是否正确并将最终标注结果输出的动作辨识网络。

根据本发明提供一种基于神经网络的标注方法，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点之前，包括：

识别所述视频图像中的司机位置以及骨骼特征点，并判断所述骨骼特征点是否被遮挡；

如果判断出所述骨骼特征点被遮挡，则通过正反卷积动作检测神经网络去除遮挡物并将因去除遮挡物造成关键信息缺失的画面进行补全。

根据本发明提供一种基于神经网络的标注方法，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点，包括：

将视频图像按照预设间隔帧数设置多个截取点，并从每个截取点截取预设帧数作为帧合集；

将每个帧合集输入至所述时序特征提取网络，以获得每个帧合集的视频时序特征；

其中，所述时序特征提取网络的结构为：

第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3a)、第四卷积层(Conv3b)、第三池化层(Pool3)、第五卷积层(Conv4a)、第六卷积层(Conv4b)、第四池化层(Pool4)、第七卷积层(Conv5a)、第八卷积层(Conv5b)、第五池化层(Pool5)、全连接层(fc6)以及长短期记忆层(lstm)。

根据本发明提供一种基于神经网络的标注方法，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点，还包括：

将每个帧合集的视频时序特征依次输入至所述动作边界预测网络；

所述动作边界预测网络针对每个帧合集的视频时序特征给出三个值，表示视频时序特征对应的帧合集是视频中人物动作开始的概率、动作结束的概率、既不是动作开始也不是动作结束的概率；

其中，所述动作边界预测网络的结构为：

第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)、第三池化层(Pool3)、第四卷积层(Conv4)、第四池化层(Pool4)、第五卷积层(Conv5)以及输出层(Softmax)。

根据本发明提供一种基于神经网络的标注方法，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点，进一步包括：

将所述动作边界预测网络输出的所有开始和结束的视频片段，依次输入至所述动作辨识网络；

所述动作辨识网络给出所述视频片段是否包含动作片段的评估结果；

其中，所述动作辨识网络的结构为：

第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)、第三池化层(Pool3)、第一全连接层(fc4)、第二全连接层(fc5)以及输出层(Softmax)。

对所述时序特征提取网络和所述动作边界预测网络进行训练；

对所述动作辨识网络进行训练。

根据本发明提供一种基于神经网络的标注方法，所述对所述时序特征提取网络和所述动作边界预测网络进行训练，包括：

将样本视频切分成若干个预设帧合集的片段，并将所述片段输入至所述时序特征提取网络和所述动作边界预测网络；

输入样本视频的标签，并计算损失函数，以损失函数小于预设阈值为目标对所述动作检测神经网络的权重进行更新，以训练所述动作检测神经网络；

输出所述片段是开始、结束、或者两者都不是的概率；

其中，所述损失函数为：

其中，L表示损失函数的值；N为一次训练过程中所用的样本数量；M为所有数据类型的总数；y_ic代表第n个样本数据的真实类型，如果是c类其值为1，反之则为0；p_ic代表动作检测神经网络对第n个样本数据进行评估后，认为其是第c类数据的概率。

根据本发明提供一种基于神经网络的标注方法，所述通过正反卷积动作检测神经网络去除遮挡物并将因去除遮挡物造成关键信息缺失的画面进行补全，包括：

对从所述视频图中截取若干图像作为标签，并随机生成遮挡模板，使用所述遮挡模板将原图用黑色像素遮盖，生成训练样本；

在训练过程中，将所述遮挡模板和被遮盖的图像输入所述正反卷积动作检测神经网络，经过计算得到去除遮挡物的图像；

将生成的图像和未被遮盖的图像进行对比，针对每个像素值计算损失函数，以损失函数小于一定阈值为目标对所述动作检测神经网络的权重更新，以训练所述动作检测神经网络；

其中，所述损失函数为：

其中，L表示损失函数的值，N为一次训练过程中所用的样本数量，I为一个样本图片中所包含的像素点总量。y′_i表示网络输出图片中第i个像素点的像素值，y_i表示真实图片中第i个像素点的像素值，即标签。

本发明还提供一种基于动作检测神经网络的标注装置，包括：

获取模块，用于获取司机操作列车的视频图像，所述视频图像中包含待标注的司机动作；

标注模块，用于通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于动作检测神经网络的标注方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于神经网络的标注方法的步骤。

本发明提供的一种基于神经网络的标注方法、装置及电子设备，通过动作检测神经网络能够标注预测司机操作列车的动作开始和结束节点，从而可以减少人工观看的视频量，提升标注效率；

进一步的，本发明还能够对获取的视频图像中可能缺失的关键信息进行画面补全，以提升样本质量和可用性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于神经网络的标注方法的流程示意图；

图2是本发明提供的动作检测神经网络的结构示意图；

图3是本发明提供的提取视频时序特征的流程示意图；

图4是本发明提供的预测司机动作节点的流程示意图；

图5是本发明提供的评估司机动作节点的流程示意图；

图6a是本发明提供的训练动作检测神经网络的流程示意图之一；

图6b是本发明提供的训练动作检测神经网络的流程示意图之二；

图7a是本发明提供的实现对画面进行补全的流程示意图；

图7b是本发明提供的正反卷积动作检测神经网络的结构示意图；

图8是本发明提供的基于动作检测神经网络的标注装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工神经网络(artificial neural network，ANN)，简称神经网络(neuralnetwork，NN)，是一种模仿生物动作检测神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具，常用来对输入和输出间复杂的关系进行建模，或用来探索数据的模式。

神经网络是一种运算模型，由大量的节点(或称“神经元”)和之间相互的联接构成。每个节点代表一种特定的输出函数，称为激励函数、激活函数(activation function)。每两个节点间的联接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。

本发明实施例通过提供一种基于神经网络的标注方法、装置及电子设备，解决了现有技术中通过人工的方式对司机操作列车视频进行标注的过程比较费时费力的问题，通过动作检测神经网络能够自动标注司机动作的节点。而且，本发明实施例标注司机动作节点的结果可用于训练司机动作辨识模型。

为了更好地理解上述技术方案，下面将结合说明书附图图1-图9以及具体的实施方式对上述技术方案进行详细的说明。

图1是本发明提供的基于神经网络的标注方法的流程示意图，如图所示。

步骤100，获取司机操作列车的视频图像，所述视频图像中包含待标注的司机动作。

其中，所述视频图像可以是通过摄像头无间断拍摄司机操作列车的工作视频。

步骤102，通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点。

其中，所述动作检测神经网络的结构示意图如图2所示，所述动作检测神经网络包括用于提取所述视频图像的视频时序特征的时序特征提取网络、用于初步给出视频中人物动作的开始和结束节点的动作边界预测网络，以及用于判断所述动作边界预测网络输出结果是否正确并将最终标注结果输出的动作辨识网络。

具体的，所述时序特征提取网络包括C3D(3D卷积网络)动作检测神经网络，所述动作边界预测网络包括一个一维扩张卷积网络，所述动作辨识网络包括一个传统卷积动作检测神经网络。

因此，通过所述时序特征提取网络、所述动作边界预测网络、所述动作辨识网络，可将输入的视频图像输出标注预测司机动作的开始节点和结束节点，以下将通过具体实施例对所述时序特征提取网络、所述动作边界预测网络、所述动作辨识网络的工作步骤进行详细说明。

图3是本发明提供的提取视频时序特征的流程示意图，如图所示。所述提取视频时序特征包括如下步骤：

步骤300，将视频图像按照预设间隔帧数设置多个截取点，并从每个截取点截取预设帧数作为帧合集。

步骤302，将每个帧合集输入至所述时序特征提取网络，以获得每个帧合集的视频时序特征。

例如，将视频分辨率降为224*224，然后以一段视频的第8n+1帧为截取点，即第1帧、第9帧、第17帧等等，假设该视频共有1600帧，则其会生成200个截取点。从截取点向后取16帧作为一个帧合集(共截取到200个帧合集)，输入时序特征提取网络，以获得该帧合集的时序特征。此时，所述时序特征提取网络的结构为：

第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3a)、第四卷积层(Conv3b)、第三池化层(Pool3)、第五卷积层(Conv4a)、第六卷积层(Conv4b)、第四池化层(Pool4)、第七卷积层(Conv5a)、第八卷积层(Conv5b)、第五池化层(Pool5)、全连接层(fc6)以及长短期记忆层(lstm)，即：

Conv1→Pool1→Conv2→Pool2→Conv3a→Conv3b→Pool3→Conv4a→Conv4b→Pool4→Conv5a→Conv5b→Pool5→fc6→lstm7。

上述中，首层Conv1，接收一个16*224*224*3的输入，其中224*224是指输入图片的宽度和高度，16是指连续16帧图，3是指图片的RGB三通道。经过3D卷积网络操作后，Conv1会输出16*224*224*64的特征图，64是指从输入的3通道原始图经过卷积过程生成了64通道的特征图，其余维度没变。次层Pool1，接受16*224*224*64特征图的输入，用于对特征图降维，从而输出8*112*112*64的特征图。其余Conv的操作和Conv1类似，用于增加特征图的通道数量。其余Pool操作和Pool1类似，用于降低特征图维度。经过多层Conv和Pool操作，最后Pool5输出1*7*7*1024的特征图给全连接层fc6。Fc6将该特征图转化成一个128维的特征向量，输入lstm7，最后提取出一个128维的时序特征。

图4是本发明提供的预测司机动作节点的流程示意图，如图所示。所述预测司机动作节点包括如下步骤：

步骤400，将每个帧合集的视频时序特征依次输入至所述动作边界预测网络。

步骤402，所述动作边界预测网络针对每个帧合集的视频时序特征给出三个值，表示视频时序特征对应的帧合集是视频中人物动作开始的概率、动作结束的概率、既不是动作开始也不是动作结束的概率。

基于上述的实施例，依次将200个帧合集输入所述时序特征提取网络，则能够得到200个视频时序特征，然后将这200个视频时序特征依次输入动作边界预测网络，动作边界预测网络将针对每个视频时序特征给出三个值，表示该视频时序特征对应的帧合集是视频中人物动作开始的概率、动作结束的概率、既不是动作开始也不是动作结束的概率。

此时，动作边界预测网络是一个扩张卷积网络，具备结构如下：

第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)、第三池化层(Pool3)、第四卷积层(Conv4)、第四池化层(Pool4)、第五卷积层(Conv5)以及输出层(Softmax)，即：

Conv1→Pool1→Conv2→Pool2→Conv3→Pool3→Conv4→Pool4→Conv5→Softmax。

图5是本发明提供的评估司机动作节点的流程示意图，如图所示。所述评估司机动作节点包括如下步骤：

步骤500，将所述动作边界预测网络输出的所有开始和结束的视频片段，依次输入至所述动作辨识网络。

步骤502，所述动作辨识网络给出所述视频片段是否包含动作片段的评估结果。

基于上述的实施例，由于输入是128维的特征向量，因此该网络中每一个卷积都是一维卷积，在卷积过程中，每个卷积层的卷积核大小都是固定的，其大小为3。但是在卷积核跨度会逐渐增加，在第一层中，卷积核将对相邻的三个值进行卷积，第二层中，卷积核将对中间隔一个数的三个值进行卷积，第n层中，卷积核将对中间隔n-1个数的三个值进行卷积。从而使得动作检测神经网络获得更大的感受野，实现从全局的特征出发给出判断，而非针对局部特征给出判断。最终输出三个概率值。

此时，本发明已经能够针对一个视频给出初步的动作开始和结束节点，然后挑选出所有开始和结束的视频片段组合，将它们依次输入动作辨识网络，获得评估结果。例如，假设在上述200个帧合集片段中，第a个为开始，第b个为结束，对于这个b-a个片段，先针对每个片段将动作边界预测网络给出的三个概率值补充到128维特征的后部，使特征向量变成131维，然后将这些片段的特征拼合成一个(131，b-a)的特征图，将其分辨率变更成224*224后输入动作辨识网络，动作辨识网络包含一个传统的卷积动作检测神经网络，所述动作辨识网络的结构为：

第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)、第三池化层(Pool3)、第一全连接层(fc4)、第二全连接层(fc5)以及输出层(Softmax)，即：

Conv1→Pool1→Conv2→Pool2→Conv3→Pool3→fc4→fc5→Softmax。

上述中，首层Conv1，接受224*224*1的输入。其中224*224是指输入特征图的宽度和高度，1是指图片的单通道特征。Pool1将特征图从224*224*1降维成112*112*1。Conv2将特征图从112*112*1变成112*112*64。Pool2将特征图从112*112*64降维成56*56*64。Conv3将特征图从56*56*64变成56*56*128。Pool3将特征图从56*56*128降维成28*28*128。fc4将28*28*128的特征图转变成128维特征向量。Fc5对128维度特征向量降低成32维，输入softmax，最后softmax给出该视频片段是否是包含动作的片段的评估结果。

综上所述，一个司机操作列车的视频图像经过上述时序特征提取网络、动作边界预测网络以及动作辨识网络的识别后，由可能被预测出多个有一定重复性的结果，此时使用非极大值抑制算法(Non-maximum suppression，简称NMS)去除重复的预测结果，最后输出若干个非重复的时间节点，表示这个视频图像内可能出现动作的时间区间。

其中，非极大值抑制算法是一种去除非极大值的算法，其思想是搜素局部最大值，抑制极大值。

在训练动作检测神经网络的过程中，可以使用现有的数据集(例如Kinetics700数据集、ActivityNet数据集)进行训练，以节省人工标注成本。上述数据集中的样本都是针对一个视频标注了其中动作开始和结束的时间点，因此可以直接使用。

图6a本发明提供的训练动作检测神经网络的流程示意图之一，图6b是本发明提供的训练动作检测神经网络的流程示意图之二，如图所示。

训练动作检测神经网络包括以下步骤：

步骤600，对所述时序特征提取网络和所述动作边界预测网络进行训练。

训练动作检测神经网络的过程分为两步，首先训练时序特征提取网络和动作边界预测网络，将一个样本视频切分成若干个16帧合集的片段，并将这些片段输入至特征提取网络和动作边界预测网络，最后输出这个片段是开始、结束、或者两者都不是的概率。此时输入样本视频的标签，并计算损失函数，以损失函数小于一定阈值为目标进行动作检测神经网络的权重更新，损失函数为：

其中，L代表损失函数的值；N为一次训练过程中所用的样本数量；M为所有数据类型的总数，此时M的值为3；y_ic代表第n个样本数据的真实类型，如果是c类其值为1，反之则为0；p_ic代表动作检测神经网络对第n个样本数据进行评估后，认为其是第c类数据的概率。

步骤602，对所述动作辨识网络进行训练。

上述步骤600进行了第一步训练，然后步骤602进行第二步训练，根据第一步得到的司机动作开始与结束时间，提取出多个视频片段，并将对应的视频时序特征转换成特征图输入动作辨识网络，计算出这些视频片段是否是一个动作视频的概率。此时输入样本视频的标签，并计算损失函数，以损失函数小于一定阈值为目标进行动作检测神经网络的权重更新，损失函数为：

其中，L代表损失函数的值；N为一次训练过程中所用的样本数量；M为所有数据类型的总数，此时M的值为2；y_ic代表第n个样本数据的真实类型，如果是c类其值为1，反之则为0；p_ic代表动作检测神经网络对第n个样本数据进行评估后，认为其是第c类数据的概率。

综上所述，本发明提供的一种基于神经网络的标注方法、装置及电子设备，通过动作检测神经网络能够标注预测司机操作列车的动作开始和结束节点，从而可以减少人工观看的视频量，提升标注效率。

图7a是本发明提供的实现对画面进行补全的流程示意图，如图所示，通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点之前，包括：

步骤700，识别所述视频图像中的司机位置以及骨骼特征点。

步骤702，判断所述骨骼特征点是否被遮挡。

步骤704，如果判断出所述骨骼特征点被遮挡，则通过正反卷积动作检测神经网络去除遮挡物并将因去除遮挡物造成关键信息缺失的画面进行补全。

具体的，通过动作检测神经网络完成包含待标注司机动作的视频图像的提取后，再针对视频片段中的每帧图片，自动寻找司机位置与其骨骼特征点，并判断骨骼特征点是否被其他物体遮挡，并根据周围环境去除遮挡物。

可选的，本发明实施例可通过现有开源人体骨骼提取网络实现骨骼提取。然后对骨骼检测中缺失指定骨骼点(例如：左右手、左右手臂)的图片中人物区域进行遮挡物消除。

可选的，本发明实施例可通过提供一种正反卷积神经网络实现遮挡物的去除功能，如图7b所示。

所述正反卷积神经网络通过卷积提取被遮挡图像的特征图集合，然后根据需要去除遮挡的位置信息，利用全连接神经网络内置的权重参数自行对特征图集合进行特征转换，最后利用反卷积神经网络将特征图上采样为原图大小，由于特征图经过转换，因此还原的图片所存在的遮档物被去除了。

具体在实施中，将一张司机身躯被部分遮挡的图像转换为224*224大小，并根据骨骼检测的缺失点位生成待去除遮挡位置模板图，将其一起输入卷积神经网络，其结构可以如下：

第一卷积层(Conv1)、第二池化层(Pool2)、第三卷积层(Conv3)、第四池化层(Pool4)、第五卷积层(Conv5)、第六连接层(fc6)、第七卷积层(Conv7)、第八池化层(Pool9)、第九卷积层(Conv9)、第十池化层(Pool10)、第十一卷积层(Conv11)，即：

Conv1→Pool2→Conv3→Pool4→Conv5→fc6→Conv7→Pool8→Conv9→Pool10→Conv11。

首层Conv1，接收224*224*4的输入。其中224*224是指输入图片集的宽度和高度，4是指图片的RGB三通道和一张包含待处理位置信息的模板图。前5层的卷积为传统卷积神经网络，将特征图维度依次变为：

224*224*64→56*56*64→56*56*128→7*7*128→7*7*256。

最后，输出7*7*256的特征图集合。随后将特征图集合输入12544的全连接神经网络进行特征转换，实现遮挡物体特征被周围环境生成的特征所替代过程，然后后5层为反卷积神经网络，用于将图片重新还原回224*224*3的大小，从而生成遮挡去除的图片。

在开始训练前，数据集的生成可以有电脑自动生成，以节省人工标注成本。首先从视频中截取若干图像作为标签，然后随机生成遮挡模板，并使用模板将原图用黑色像素遮盖，生成训练样本。

在训练过程中，将模板和被遮盖的图像输入正反卷积神经网络，经过计算能够得到去除遮挡的图像，将生成的图像和未被遮盖的图像进行对比，针对每个像素值计算损失函数，以损失函数小于一定阈值为目标进行神经网络的权重更新，以训练神经网络。其损失函数为：

其中，L代表损失函数的值，N为一次训练过程中所用的样本数量，I为一个样本图片中所包含的像素点总量。y′_i表示网络输出图片中第i个像素点的像素值，y_i表示真实图片中第i个像素点的像素值，即标签。

下面对本发明提供的基于动作检测神经网络的标注装置进行描述，下文描述的基于动作检测神经网络的标注装置与上文描述的基于神经网络的标注方法可相互对应参照。

综上所述，本发明还能够对获取的视频图像中可能缺失的关键信息进行画面补全，以提升样本质量和可用性。

图8是本发明提供的基于动作检测神经网络的标注装置的结构示意图，如图所示。一种基于动作检测神经网络的标注装置800，包括获取模块801和标注模块802。

其中，获取模块801用于获取司机操作列车的视频图像，所述视频图像中包含待标注的司机动作。

其中，标注模块802用于通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述所述基于动作检测神经网络的标注方法的步骤。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述所提供的基于动作检测神经网络的标注方法的步骤。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述基于动作检测神经网络的标注方法的步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于神经网络的标注方法，其特征在于，包括：

2.根据权利要求1所述的标注方法，其特征在于，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点之前，包括：

3.根据权利要求1所述的标注方法，其特征在于，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点，包括：

其中，所述时序特征提取网络的结构为：

4.根据权利要求3所述的标注方法，其特征在于，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点，还包括：

其中，所述动作边界预测网络的结构为：

5.根据权利要求4所述的标注方法，其特征在于，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点，进一步包括：

其中，所述动作辨识网络的结构为：

6.根据权利要求1所述的标注方法，其特征在于，所述通过动作检测神经网络实现对所述司机动作的提取，并标注所述司机动作的开始节点和结束节点，还包括：

对所述动作辨识网络进行训练。

7.根据权利要求6所述的标注方法，其特征在于，所述对所述时序特征提取网络和所述动作边界预测网络进行训练，包括：

输出所述片段是开始、结束、或者两者都不是的概率；

其中，所述损失函数为：

8.根据权利要求2所述的标注方法，其特征在于，所述通过正反卷积动作检测神经网络去除遮挡物并将因去除遮挡物造成关键信息缺失的画面进行补全，包括：

其中，所述损失函数为：

9.一种基于动作检测神经网络的标注装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于神经网络的标注方法的步骤。