CN117196449B

CN117196449B - 一种视频识别方法、系统以及相关装置

Info

Publication number: CN117196449B
Application number: CN202311481028.7A
Authority: CN
Inventors: 黄辉; 吕军; 刘江; 赵磊; 刘文超
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-04-09
Anticipated expiration: 2043-11-08
Also published as: CN117196449A

Abstract

本申请公开了一种视频识别方法、系统以及相关装置，该方法包括：获取实时采集到的原始视频流，从所述原始视频流中提取待识别视频流；其中，所述待识别视频流中包括动态目标；获取所述待识别视频流中的短时动作和长时动作，对所述短时动作进行特征提取，得到短时特征；以及，对所述长时动作进行特征提取，得到长时特征；基于所述短时特征和所述长时特征之间的关联性信息，获取所述原始视频流对应的目标特征；基于所述目标特征，获取所述原始视频流的目标识别结果；其中，所述目标识别结果包括目标动作类别以及所述目标动作类别对应的时序信息。通过上述方式，本申请能够提高对实时采集到的原始视频流进行识别的效率和准确性。

Description

一种视频识别方法、系统以及相关装置

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频识别方法、系统以及相关装置。

背景技术

危险货物在运输过程中的装载和拆卸流程往往有着严格的执行标准，目前判断装载或拆卸的流程是否符合相应执行标准的方式主要为在流程结束之后，由人工对当时的视频内容进行检查，以判断相应流程是否符合执行标准。该方式需要消耗大量的人工成本且无法在装载或拆卸的过程中及时指出不规范操作，存在相应的安全隐患。有鉴于此，如何对实时采集的视频内容进行自动识别并判断当前的操作流程是否符合预设执行标准，成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种视频识别方法、系统以及相关装置，能够提高对实施采集到的原始视频流进行识别的效率和准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种视频识别方法、系统以及相关装置，包括：获取实时采集到的原始视频流，从所述原始视频流中提取待识别视频流；其中，所述待识别视频流中包括动态目标；获取所述待识别视频流中的短时动作和长时动作，对所述短时动作进行特征提取，得到短时特征；以及，对所述长时动作进行特征提取，得到长时特征；基于所述短时特征和所述长时特征之间的关联性信息，获取所述原始视频流对应的目标特征；基于所述目标特征，获取所述原始视频流的目标识别结果；其中，所述目标识别结果包括目标动作类别以及所述目标动作类别对应的时序信息。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种视频识别系统，包括：获取模块，用于获取实时采集到的原始视频流，从所述原始视频流中提取待识别视频流；其中，所述待识别视频流中包括动态目标；特征提取模块，用于获取所述待识别视频流中的短时动作和长时动作，对所述短时动作进行特征提取，得到短时特征；以及，对所述长时动作进行特征提取，得到长时特征；处理模块，用于基于所述短时特征和所述长时特征之间的关联性信息，获取所述原始视频流对应的目标特征；识别模块，用于基于所述目标特征，获取所述原始视频流的目标识别结果；其中，所述目标识别结果包括目标动作类别以及所述目标动作类别对应的时序信息。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括：相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现如上述技术方案中提到的视频识别方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现如上述技术方案中提到的视频识别方法。

本申请的有益效果是：区别于现有技术的情况，本申请提出的视频识别方法，通过从获取到的原始视频流中提取出包括动态目标的待识别视频流，以节省对至少部分静态区域进行识别的计算成本。获取与待识别视频流中的短时动作对应的短时特征和与长时动作对应的长时特征，并结合短时特征和长时特征之间的关联性信息，确定目标特征。通过对该目标特征进行识别，以提高识别得到的目标识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请视频识别方法一实施方式的流程示意图；

图2是步骤S101对应一实施方式的流程示意图；

图3是目标分析网络一实施方式的结构示意图；

图4是步骤S103对应一实施方式的流程示意图；

图5是目标特征获取网络一实施方式的结构示意图；

图6是本申请视频识别系统对应一实施方式的结构示意图；

图7是本申请电子设备一实施方式的结构示意图；

图8是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请视频识别方法一实施方式的流程示意图，该方法包括：

S101：获取实时采集到的原始视频流，从原始视频流中提取待识别视频流。其中，待识别视频流中包括动态目标。

在一实施方式中，获取监控设备实时采集到的对应场景的原始视频流。

进一步地，请参阅图2，图2是步骤S101对应一实施方式的流程示意图。具体地，在获取到原始视频流后，步骤S101还包括：

S201：获取原始视频流中的至少部分参考图像帧，将所有参考图像帧按照对应的时间戳顺序进行排列，得到参考集合。

在一实施方式中，获取到的原始视频流中包含多个图像帧，每个图像帧包含对应的时间戳，该时间戳与对应图像帧的采集时间匹配。从原始视频流中提取出至少部分图像帧以作为参考图像帧，并按照每个参考图像帧对应的时间戳顺序，将所有参考图像帧进行排序，以得到参考集合。

在一实施场景中，将原始视频流中的所有图像帧划分为多个的原始视频段，且每个原始视频段中包含预设数量的图像帧。从每个原始视频段中抽取一个图像帧以作为参考图像帧。将得到的所有参考图像帧按照对应的时间戳顺序进行排序，以得到参考集合。其中，划分后每个原始视频段中图像帧的预设数量可以根据实际需求进行设置。

在另一实施方式中，也可以直接将原始视频流中的所有关键帧作为参考图像帧，并按照对应的时间戳顺序，将所有参考图像帧进行排序，以得到参考集合。

上述实施方式，通过从原始视频流中选取部分图像帧作为参考图像帧，以避免对原始视频流中的所有图像帧进行分析，从而节省后续的运算成本，提高视频识别的效率。

在又一实施方式中，为避免部分图像帧中的信息被忽视，也可以将原始视频流中的所有图像帧作为参考图像帧，并基于对应的时间戳顺序将各个参考图像帧进行排序，以得到参考集合。

S202：基于参考集合，获取原始视频流中动态目标对应的动态区域和静态目标对应的静态区域。

在一实施方式中，响应于原始视频流中正在运动的人员或物体的位置和姿态往往是不断变化的，而原始视频流中固定的物体或背景对应的位置和姿态不会随时间变化而变化，因此，将参考集合输入至目标分析网络，以使得上述目标分析网络对参考集合中各个参考图像帧进行特征提取。将提取出的图像特征进行比对，以根据在较短时间维度上不同参考图像帧之间的图像特征变化，来确定动态目标；以及，根据在较长时间维度上不同参考图像帧之间的相同或相近的图像特征，来确定原始视频数据中的静态目标。在确定动态目标和静态目标之后，将动态目标所在的区域作为动态区域，将静态目标所在的区域作为静态区域。

在一实施场景中，请参阅图3，图3是目标分析网络一实施方式的结构示意图。确定动态目标的过程包括：将参考集合输入至目标分析网络10中的动态目标检测子网络11，以使得该动态目标检测子网络11先将每个参考图像帧依次输入至1×1的二维卷积层和时间拆分层，以减少相应的通道数并得到不同时刻每个参考图像帧对应的特征，并将当前时刻对应的参考图像帧的特征作为第一特征，以及将与上述当前时刻相邻的下一时刻对应的参考图像帧的特征作为第二特征。然后，将上述第二特征输入3×3的二维卷积层后与第一特征进行特征相减，以得到对应的差异特征。将参考集合中所有相邻参考图像帧分别对应的差异特征经过连接函数进行连接后，得到差异特征序列。将该差异特征序列输入至池化层以进行下采样处理，将下采样处理后的差异特征序列输入至1×1的二维卷积层，并利用激活函数进行处理以得到动态权重。通过将动态权重与参考集合相乘，并将得到的乘积与参考集合相加，以得到动态检测结果，该动态检测结果中包括相应的参考图像帧中突出显示相应的动态目标。

其中，上述将相邻的两个参考图像帧分别对应的第一特征进行特征相减，以得到对应的差异特征的公式如下：

其中，M（t）表示当前t时刻的参考图像帧对应的差异特征，conv_trans为3×3的2Dchannel-wise卷积，X^r（t+1）表示t+1时刻的参考图像帧的第二特征，X^r（t）表示t时刻的参考图像帧的第一特征。

在一实施场景中，请继续参阅图3，确定静态目标的过程包括：将参考集合输入至目标分析网络10中的静态目标检测子网络12，以使得该静态目标检测子网络12中的通道分片网络去除各个参考图像帧中的冗余特征后，将所有参考图像帧均匀划分为四个子集，即图3中的第一子集、第二子集、第三子集和第四子集，并对每个子集进行相应的卷积处理以输出对应的检测结果，即第一结果、第二结果、第三结果和第四结果。根据所有检测结果和连接函数，得到静态检测结果，该静态检测结果中包括相应的参考图像帧中突出显示相应的静态目标。其中，上述通道分片网络可以为神经网络中的Channel Split层。以及，上述过程的具体计算公式如下：

其中，X_i ⁰表示每个子集对应的检测结果，例如，i=1时，X_i ⁰为第一子集X_i对应的第一结果；i=2时，X_i ⁰为第二子集X_i对应的第二结果；conv_temp表示卷积核为3的channel-wise时序卷积，conv_spa表示3×3的2D空间卷积。

在另一实施方式中，上述步骤S203也可以通过slowfast模型对待识别视频流进行处理，以提取出其中的动态目标和静态目标；从而根据提取出的动态目标和静态目标确定动态区域和静态区域。其中，利用slowfast模型对待识别视频流进行处理的具体过程可参照现有技术，在此不进行详细阐述。

S203：基于动态区域和静态区域，从原始视频流中提取待识别视频流。其中，至少部分静态区域在待识别视频流中被隐藏。

在一实施方式中，在确定参考集合中各个参考图像帧中的动态区域和静态区域后，从原始视频流中的每个图像帧中提取出动态区域，以作为待识别视频流。其中，对于原始视频流中除参考图像帧以外的图像帧，可以根据距离最近的参考图像帧中的动态区域和静态区域进行预测，以确定对应的动态区域和静态区域。

在另一实施方式中，为提高动态区域提取的准确性，在从原始视频流中提取出动态区域后，将提取出的动态区域与静态区域进行比对，若存在动态区域与静态区域重叠，将重叠的部分隐藏。

在又一实施方式中，响应于部分场景下需要相应的操作人员在静态物体上进行相应的操作，若将所有静态区域进行隐藏将影响后续识别的准确性。因此，在获取到原始视频流中的动态区域和静态区域后，将原始视频流中的动态区域进行适当外扩得到目标区域，并将目标区域以外的静态区域隐藏，从而得到待识别视频流。通过该方式得到的待识别视频流保留了距离动态目标在预设范围内的静态目标，以提高后续对动态目标的动作类别进行识别的准确性。

S102：获取待识别视频流中的短时动作和长时动作，对短时动作进行特征提取，得到短时特征；以及对长时动作进行特征提取，得到长时特征。

在一实施方式中，响应于待识别视频流中包括多个候选图像帧，上述步骤S102包括：在待识别视频流中，将当前时刻之前第一数量的候选图像帧组成短时动作；以及，将当前时刻之前第二数量的候选图像帧组成长时动作。其中，第一数量小于第二数量，且第一数量和第二数量的具体数值可以根据实际需求进行设置。

具体地，响应于待识别视频流中的各个候选图像帧对应有相应的时间戳，将对应时间戳在当前时刻之前的第一数量的候选图像帧组成短时动作；以及，将对应时间戳在当前时刻之前的第二数量的候选图像帧组成长时动作。例如，将当前时刻之前200帧的候选图像帧作为长时动作，将当前时刻之前5帧的候选图像作为短时动作。

在另一实施方式中，也可以仅将最新获得的一个图像帧作为短时动作。

进一步地，对短时动作和长时动作分别进行特征提取，以得到短时动作对应的短时特征，以及长时动作对应的长时特征。

S103：基于短时特征和长时特征之间的关联性信息，获取原始视频流对应的目标特征。

在一实施方式中，请参阅图4和图5，图4是步骤S103对应一实施方式的流程示意图，图5是目标特征获取网络一实施方式的结构示意图。具体地，步骤S103包括：

S301：获取短时特征和长时特征之间的关联特征。其中，该关联特征用于表征短时特征与长时特征之间的关联性信息。

在一实施方式中，如图5所示，将短时特征和长时特征分别输入至目标特征获取网络中对应的线性层后进行卷积处理，并利用缩放层对卷积后得到的特征进行缩小处理后，输入至全连接层，以得到用于表征短时特征与长时特征之间的关联性信息的关联特征。其中，上述线性层可以为神经网络中的Linear层，上述缩放层可以为神经网络中的Scale层。

在一实施场景中，上述关联特征可以用于表征对应的短时动作与对应的长时动作是否属于同一操作流程。例如，响应于工作人员对待搬运物品进行搬运时，对应的搬运动作可以拆分为：搬起物品、移动至卸货点以及放下物品。当长时动作包括“搬起物品”、“移动至卸货点”以及“放下物品”，短时动作包括“放下物品”，则通过对短时动作和长时动作分别进行特征提取以得到对应的短时特征和长时特征后，根据短时特征和长时特征得到的关联特征用于表示对应的短时动作和长时动作属于一套完整的搬运流程。

S302：将关联特征和长时特征进行特征融合，得到参考特征。

在一实施方式中，请继续参阅图5，将得到的关联特征和长时特征进行卷积处理后得到的特征依次输入至归一化层、激活函数层、线性层和随机丢弃层后，得到参考特征。其中，上述归一化层可以为神经网络中的LN（Layer Normalization，层标准化）层；上述激活函数层可以为神经网络中的ReLU层；上述线性层可以为神经网络中的Linear层；上述随机丢弃层可以为神经网络中的Dropout层。

S303：将参考特征与短时特征进行特征融合，得到原始视频流对应的目标特征。

在一实施方式中，请继续参阅图5，将参考特征与短时特征进行特征融合，得到原始视频流对应的目标特征。该目标特征中包含短时动作和长时动作分别对应的特征信息、以及短时动作和长时动作之间的关联性信息，以使得基于该目标特征进行识别得到的目标识别结果的准确性较高。其中，可以通过特征相加的方式将参考特征和与短时特征进行特征融合。

通过上述方案，使得获取到的目标特征不仅包括短时动作和长时动作分别对应的特征，也包括短时动作和长时动作之间的关联性信息，从而使得利用目标特征进行分析时，能提高视频识别的准确性。

可选地，在另一实施方式中，步骤S103还可以包括：获取短时特征和长时特征之间的关联特征。将关联特征和长时特征进行特征融合，得到参考特征，并将该参考特征作为目标特征。该方式无需将参考特征与短时特征融合，从而提高了目标特征的获取效率。其中，本实施方式中的关联特征和参考特征的获取过程可参照上述实施方式，在此不再详细阐述。

S104：基于目标特征，获取原始视频流的目标识别结果。其中，目标识别结果包括目标动作类别以及该目标动作类别对应的时序信息。

在一实施方式中，步骤S104之前，还包括：响应于目标特征中包括多个第一动作序列，获取每个第一动作序列对应的时序信息；以及，响应于短时特征中包括至少部分第二动作序列，获取每个第二动作序列对应的时序信息。其中，第一动作序列可以是目标特征中的特征片段，第二动作序列可以是短时特征中的特征片段，且每个第一动作序列和每个第二动作序列都对应一个动作类别。

在一实施场景中，将包括多个第一动作序列的目标特征输入至构建的时间序列网络，以使得该时间序列网络输出目标特征中对应的多个时序信息，即得到每个第一动作序列对应的时序信息。以及，将短时特征输入至时间序列网络，以使得该时间序列网络输出短时特征中对应的多个时序信息，即得到每个第二动作序列对应的时序信息。通过获取上述时序信息，以确定原始视频流中不同动作类别之间的时序关系，从而提高视频识别的准确性。其中，时间序列网络的结构可参照隐马尔可夫模型（Hidden Markov Models，HMM）、条件随机场（Conditional Random Fields，CRF）、循环神经网络（Recurrent Neural Networks，RNN）等中的任意一种。

进一步地，步骤S104包括：将目标特征中所有第一动作序列及其对应的时序信息输入至训练后的识别模型，得到与目标特征匹配的第一识别结果。以及，将短时特征中所有第二动作序列及其对应的时序信息输入至训练后的识别模型，得到与短时特征匹配的第二识别结果。其中，识别模型是利用多个训练视频进行训练得到的，训练视频中包括预先标注的动作类别标签。

在一实施场景中，具体的训练过程包括将多个训练视频输入至预先构建的识别模型，以使得识别模型输出每个训练视频对应的预测结果，该预测结果中包括至少部分预测动作类别。利用损失函数来根据预测结果中预测动作类别和动作类别标签计算损失值，并利用该损失值对识别模型中的参数进行调节，直到识别模型满足收敛条件。

其中，识别模型中还包括特征提取网络、目标特征获取网络和时间序列网络，特征提取网络用于对短时动作和长时动作分别进行特征提取，得到对应的短时特征和长时特征，具体过程可参照上述步骤S102；目标特征获取网络用于获取目标特征，具体过程可参照上述步骤S103；时间序列网络用于获取目标特征和短时特征中动作序列对应的时序信息；利用上述损失值对识别模型中的参数进行调节也包括对特征提取网络、目标特征获取网络和时间序列网络中的参数进行调节。

另外，为防止训练过程中识别模型输出的预测结果中所包括的预测动作类别的数量与对应的动作类别标签数量不一致，本申请在对识别模型进行训练时，使用CTC（Connectionist Temporal Classification，连接时序分类）损失函数来计算模型损失值，以保证识别模型的训练效果。

进一步地，基于第一识别结果和第二识别结果，获取原始视频流的目标识别结果。

在一实施场景中，第一识别结果为根据长时动作预测得到的，其表示一段时间内相应动态目标所执行的一套操作流程的动作类别，而第二识别结果为识别模型预测的相关动态目标在当前时刻或距离当前时刻较短时长内的动作类别，其往往表示相应的动态目标执行的某一动作的动作类别。

在一具体应用场景中，当在油品输送过程中，为提高输油效率需要相关工作人员执行“托举输油管道”这一操作流程，完整的操作流程包括先举起管道，再保持托举状态，在完成输油后放下管道。当根据采集得到的原始视频流所提取到的长时动作为从“举起管道”至“保持托举状态”、短时动作为“保持托举状态”。此时识别模型根据利用长时动作和短时动作得到的目标特征预测得到第一识别结果，并认为当前正在执行的操作流程为“托举输油管道”；以及，识别模型根据利用短时动作得到的短时特征预测得到第二识别结果，并认为当前时刻相关工作人员正执行的动作为“托举”。根据第一识别结果和第二识别结果得到目标识别结果为相关人员正在执行“托举输油管道”且并未完成完整的流程。

或者，当根据采集得到的原始视频流所提取到的长时动作为从“举起管道”至“放下管道”、短时动作为“放下管道”，则识别模型预测得到的第一识别结果为相关工作人员正在执行的操作流程为“托举输油管道”；第二识别结果为相关工作人员正执行的动作为“放下管道”，且该“放下管道”为对应操作流程的终止动作，则最终根据第一识别结果和第二识别结果得到的目标识别结果为相关人员完成完整的“托举输油管道”的流程。

上述方案，第一识别结果为预测的当前时刻之前一段时间内的动作类别，而第二识别结果用于识别当前时刻短时动作对应的动作类别，其用于判断当前时刻的短时动作是否为某一操作流程中的起始动作、中间动作或终止动作。通过结合第一识别结果和第二识别结果，有助于将不同操作流程进行区分，提高了对视频流中对动作类别进行识别的准确性。

当然，可选地，在另一实施方式中，为提高识别效率，步骤S104还可以包括：将目标特征输入至训练后的识别模型，得到与目标特征匹配的第一识别结果，并将该第一识别结果直接作为原始视频流的目标识别结果。

本申请提出的视频识别方法，通过从获取到的原始视频流中提取出包括动态目标的待识别视频流，以节省对至少部分静态区域进行识别的计算成本。获取与待识别视频流中的短时动作对应的短时特征和与长时动作对应的长时特征，并结合短时特征和长时特征之间的关联性信息，确定目标特征。通过对该目标特征进行识别，以提高识别得到的目标识别结果的准确性。

在另一实施方式中，为提高视频识别效率并降低识别成本，本申请在获取到监控设备采集到的视频流后，利用VPSS（Video Process Sub System，视频处理子系统）生成该原始视频流对应的子码流和主码流，并对子码流进行目标检测，当检测到预设目标后，根据子码流与主码流之间的对应关系，将包含预设目标的主码流提取出来，以作为原始视频流，并利用上述任一实施方式提到的视频识别方法对原始视频流进行识别。其中，子码流分辨率较低，主码流分辨率较高，对子码流进行目标检测所消耗的计算量较少；上述预设目标可以为行人或车辆等。另外，上述对子码流进行目标检测的具体过程可参照现有的开源算法。

在另一实施方式中，本申请提出的视频识别方法可以应用于包括多个监控设备的监控场景，且每个监控设备分别采集有原始视频流，所有原始视频流的目标识别结果用于确定场景检测结果。其中，场景检测结果表征监控场景内的操作流程是否符合预设标准。

具体地，每个监控设备采集对应的原始视频流，并对原始视频流进行视频识别，以获取对应的目标识别结果。响应于每个目标识别结果中都包括目标动作类别以及目标动作类别对应的时序信息，根据时序信息将对应的目标动作类别与预设标准进行比对，以确定用于表征各个监控场景内的操作流程是否符合预设标准的场景检测结果。其中，获取对应的目标识别结果的具体过程可参照上述任一实施方式中提到的视频识别方法。

在另一实施方式中，为提高实时检测效率，上述监控场景中的每个监控设备都连接有匹配的处理端，在监控设备采集到原始视频流后，由匹配的处理端对原始视频流进行视频识别，以输出对应的目标识别结果，通过多个处理端之间的目标识别结果共享，以判断相应的操作流程是否符合预设标准。该方式无需将各个监控设备采集到的原始视频流发送至云端处理器，从而提高监控场景下的视频识别效率以及提高获取目标识别结果的实时性。

在一具体应用场景中，以加油站卸油的场景为例，标准的卸油流程包括油罐车引导、安全检查、安全防护、卸油前确认、油品接卸、接卸监护、进货验收和卸后处理。为了自动识别加油站卸油过程的是否符合标准流程，在加油站内设置覆盖卸油区域的多个监控设备，以采集卸油区域内不同位置处的视频流。其中，多个监控设备分别匹配有对应的处理端以对原始视频流进行视频识别，具体工作流程包括：

首先，采集油罐车进入加油站的原始视频流，并检测油罐车从行驶状态到停止状态后，是否停放在卸油区域内的指定停车位置、油罐车每个车轮处是否放置三角木以防止油罐车移动、以及油罐车停止后的稳油时间是否达到预设时长。若是，监控设备匹配的处理端判定当前的操作符合相应的标准流程，并继续对实时采集到的原始视频流进行识别。若否，则判定当前操作不符合标准流程，并发出警报。

其中，监控设备匹配的处理端判断油罐车是否停放在指定停车位置的具体过程可以是利用上述任一实施方式中提出的视频识别方法判断停止状态的油罐车是否在指定停车位置内；检测油罐车每个车轮处是否放置三角木的过程可以是：利用上述视频识别方法判断相关工作人员是否正确放置三角木；以及，检测油罐车的稳油时间是否达到预设时长的过程可以为：利用上述视频识别方法判断油罐车在停止状态后的预设时长内是否发生移动。另外，上述警报可以通过加油站内的扬声器发出，以提示相关工作人员相应的操作不符合标准流程。

进一步地，检测安全检测流程是否符合标准流程。具体地，监控设备采集静电接地设备以及油罐车静电释放区域的原始视频流，并利用上述视频识别方法检测相关工作人员将静电接地设备中的接线夹安装至油罐车的静电释放区域的操作是否标准。其中，响应于功能正常的静电接地设备在打开接线夹时伴随蜂鸣声，且在安装至油罐车上后蜂鸣声消失，因此在检测安全流程是否符合标准流程时还需结合原始视频流中的音频流进行判断。

另外，在检测安全流程是否符合标准流程时，还包括检测各个工作人员是否进行放电处理，相应的监控设备采集人员放电装置对应位置的原始视频流，并判断工作人员是否依次正确触摸放电装置。

又或者，相应监控设备的处理端还与静电接地设备和放电装置连接，在检测安全检测流程是否符合标准流程时，处理端还会根据静电接地设备和放电装置发送的放电数据，并且同时结合对原始视频流进行识别得到的目标识别结果以及放电数据判断安全流程是否符合标准流程。

进一步地，检测安全防护流程是否符合标准流程。具体地，相应监控设备采集卸油区域内的原始视频流，并利用上述视频识别方法检测工作人员是否将消防设备取出并放置于预设区域。

另外，在检测安全防护流程是否符合标准流程时，还包括对工作人员的穿着装备进行识别，以判断工作人员是否正确佩戴安全帽和防护服等装备。

进一步地，检测卸油前确认流程是否符合标准流程。具体地，由相应的监控设备采集工作人员进行卸油前确认流程的原始视频流，响应于标准的确认流程包括铅封检查、油品和油号检查，利用上述视频识别方法对相应的原始视频流进行识别，以检测卸油前确认流程是否符合标准流程化。其中，需要说明的是，由于卸油前确认流程包括较多细节动作，需要将相应的监控设备设置于特定位置以使得能够采集得到清晰的原始视频流。

进一步地，检测油品接卸流程是否符合标准流程。具体地，利用上述视频识别方法对相应的监控设备采集的油品接卸区域的原始视频流进行识别，以检测加油站工作人员是否将输油管与对应油号的卸油接口连接。其中，为方便检测输油管所连接的卸油接口对应的油号，油品接卸区域内的卸油接口被设置成不同颜色；例如，将95号汽油接口设置为绿色、将92号汽油接口设置为红色。

另外，由于油品接卸流程在空间上存在一定的跨度，可以通过设置多个监控设备分别采集相应区域的原始视频流，并利用上述视频识别方法对每个监控设备采集到的原始视频流进行识别和规整，以确定对应的目标识别结果，根据各个目标识别结果中的目标动作类别以及时序信息，判断接卸流程是否符合标准流程。

进一步地，检测接卸监护流程是否符合标准流程。具体地，在接卸开始后，相应的监控设备实时采集卸油区域内的原始视频流，并检测该卸油区域内是否一直有工作人员监护，以及检测是否有非工作人员进入该卸油区域。若卸油区域内无工作人员监护和/或非工作人员进行卸油区域，则认为接卸监护流程不符合标准流程，并发起警报。其中，可以通过穿着比对来区分工作人员和非工作人员。

进一步地，由相应的监控设备检测进货验收流程是否符合标准流程。具体地，在完成卸油后，利用上述视频识别方法对验收区域内的原始视频流进行识别，以检测加油站工作人员与运油人员是否完成验收签单。

进一步地，检测卸后处理流程是否符合标准流程。具体地，在完成卸油后以及进货验收流程后，利用上述视频识别方法检测工作人员是否正确执行将测验油品和余油倒回储油罐、是否对油管内的余油进行回灌操作以及是否核对损耗、封闭铅封、开启通气管阀门并引导卸油车按照指定路径驶出加油站。

上述方案，通过在加油站卸油区域内设置多个监控设备，并对每个监控设备采集到的原始视频流进行识别，得到对应的目标识别结果。根据各个目标结果中包括的目标动作类别以及对应的时序信息判断相关工作人员是否遗漏部分操作流程，以及执行的每个操作流程的时序是否符合标准流程，从而提高了油罐车卸油的规范性和安全性。

当然，除油罐车卸油外，其他具体实施场景中也可以通过设置多个监控设备，并对监控设备采集到的原始视频流进行识别得到目标识别结果，并根据所有目标识别结果确定用于表征操作流程是否符合预设标准的场景检测结果；例如，锂电池的装载和拆卸等。

在一实施方式中，请参阅图6，图6是本申请视频识别系统对应一实施方式的结构示意图。该视频识别系统包括相互耦接的获取模块20、特征提取模块30、处理模块40和识别模块50。具体而言：

获取模块20用于获取实时采集到的原始视频流，从原始视频流中提取待识别视频流；其中，待识别视频流中包括动态目标。

特征提取模块30用于获取待识别视频流中的短时动作和长时动作，对短时动作进行特征提取，得到短时特征；以及，对长时动作进行特征提取，得到长时特征。

处理模块40用于基于短时特征和长时特征之间的关联性信息，获取原始视频流对应的目标特征。

识别模块50用于基于目标特征，获取原始视频流的目标识别结果；其中，目标识别结果包括目标动作类别以及目标动作类别对应的时序信息。

在一实施方式中，获取模块20从原始视频流中提取待识别视频流，包括：获取原始视频流中的至少部分参考图像帧，将所有参考图像帧按照对应的时间戳顺序进行排列，得到参考集合；基于参考集合，获取原始视频流中动态目标对应的动态区域和静态目标对应的静态区域；基于动态区域和静态区域，从原始视频流中提取待识别视频流；其中，至少部分静态区域在待识别视频流中被隐藏。

在一实施方式中，请继续参阅图6，本申请提出的视频识别系统中还包括与特征提取模块30耦接的长短时动作获取子模块31，响应于待识别视频流中包括多个候选图像帧，该长短时动作获取子模块31用于在待识别视频流中，将当前时刻之前第一数量的候选图像帧组成短时动作；以及，将当前时刻之前第二数量的候选图像帧组成长时动作；其中，第一数量小于第二数量。

在一实施方式中，处理模块40基于短时特征和长时特征之间的关联性信息，获取原始视频流对应的目标特征，包括：获取短时特征和长时特征之间的关联特征；其中，关联特征用于表征短时特征与长时特征之间的关联性信息；将关联特征和长时特征进行特征融合，得到参考特征；将参考特征与短时特征进行特征融合，得到原始视频流对应的目标特征。

在一实施方式中，请继续参阅图6，本申请提出的视频识别系统中还包括与识别模块50耦接的时序获取子模块51，该时序获取子模块51用于在基于目标特征，获取原始视频流的目标识别结果之前，包括：响应于目标特征中包括多个第一动作序列，获取每个第一动作序列对应的时序信息；以及，响应于短时特征中包括至少部分第二动作序列，获取每个第二动作序列对应的时序信息。

在一实施方式中，识别模块50基于目标特征，获取原始视频流的目标识别结果，包括：将目标特征中所有第一动作序列及其对应的时序信息输入至训练后的识别模型，得到与目标特征匹配的第一识别结果；以及，将短时特征中所有第二动作序列及其对应的时序信息输入至训练后的识别模型，得到与短时特征匹配的第二识别结果；其中，识别模型是利用多个训练视频进行训练得到的，训练视频中包括预先标注的动作类别标签；基于第一识别结果和第二识别结果，获取原始视频流的目标识别结果。

在一实施方式中，请继续参阅图6，本申请提出的视频识别系统中还包括与识别模块50耦接的场景检测模块60。响应于监控场景内包括多个监控设备，且每个监控设备分别采集有原始视频流，所有原始视频流的目标识别结果用于确定场景检测结果；其中，场景检测结果表征监控场景内的操作流程是否符合预设标准。

请参阅图7，图7是本申请电子设备一实施方式的结构示意图。该电子设备包括：相互耦接的存储器70和处理器80。存储器70中存储有程序指令，处理器80用于执行程序指令以实现上述任一实施方式中提到的视频识别方法。具体地，电子设备包括但不限于：台式计算机、笔记本电脑、平板电脑、服务器等，在此不做限定。此外，处理器80还可以称为CPU（Center Processing Unit,中央处理单元）。处理器80可能是一种集成电路芯片，具有信号处理能力。处理器80还可以是、通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable Gate Array, FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器80可以由集成电路芯片共同实现。

请参阅图8，图8是本申请计算机可读存储介质一实施方式的结构示意图，该计算机可读存储介质90上存储有能够被处理器运行的程序指令95，程序指令95被处理器执行时实现上述任一实施例中提到的视频识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频识别方法，其特征在于，包括：

获取实时采集到的原始视频流，从所述原始视频流中提取待识别视频流；其中，所述待识别视频流中包括动态目标；

获取所述待识别视频流中的短时动作和长时动作，对所述短时动作进行特征提取，得到短时特征；以及，对所述长时动作进行特征提取，得到长时特征；其中，所述获取所述待识别视频流中的短时动作和长时动作，包括：在所述待识别视频流中，将当前时刻之前第一数量的候选图像帧组成所述短时动作；以及，将所述当前时刻之前第二数量的所述候选图像帧组成所述长时动作，所述第一数量小于所述第二数量；

基于所述短时特征和所述长时特征之间的关联性信息，获取所述原始视频流对应的目标特征；具体而言，获取所述短时特征和所述长时特征之间的关联特征；其中，所述关联特征用于表征所述短时特征与所述长时特征之间的关联性信息；将所述关联特征和所述长时特征进行特征融合，得到参考特征；将所述参考特征与所述短时特征进行特征融合，得到所述原始视频流对应的所述目标特征；

基于所述目标特征，获取所述原始视频流的目标识别结果；其中，所述目标识别结果包括目标动作类别以及所述目标动作类别对应的时序信息。

2.根据权利要求1所述的方法，其特征在于，所述从所述原始视频流中提取待识别视频流，包括：

获取所述原始视频流中的至少部分参考图像帧，将所有所述参考图像帧按照对应的时间戳顺序进行排列，得到参考集合；

基于所述参考集合，获取所述原始视频流中动态目标对应的动态区域和静态目标对应的静态区域；

基于所述动态区域和所述静态区域，从所述原始视频流中提取所述待识别视频流；其中，至少部分所述静态区域在所述待识别视频流中被隐藏。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标特征，获取所述原始视频流的目标识别结果之前，包括：

响应于所述目标特征中包括多个第一动作序列，获取每个所述第一动作序列对应的时序信息；以及，响应于所述短时特征中包括至少部分第二动作序列，获取每个所述第二动作序列对应的时序信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标特征，获取所述原始视频流的目标识别结果，包括：

将所述目标特征中所有所述第一动作序列及其对应的时序信息输入至训练后的识别模型，得到与所述目标特征匹配的第一识别结果；以及，将所述短时特征中所有所述第二动作序列及其对应的时序信息输入至训练后的所述识别模型，得到与所述短时特征匹配的第二识别结果；其中，所述识别模型是利用多个训练视频进行训练得到的，所述训练视频中包括预先标注的动作类别标签；

基于所述第一识别结果和所述第二识别结果，获取所述原始视频流的所述目标识别结果。

5.根据权利要求1-4任一项所述的方法，其特征在于，监控场景内包括多个监控设备，且每个所述监控设备分别采集有所述原始视频流，所有所述原始视频流的目标识别结果用于确定场景检测结果；其中，所述场景检测结果表征所述监控场景内的操作流程是否符合预设标准。

6.一种视频识别系统，其特征在于，包括：

获取模块，用于获取实时采集到的原始视频流，从所述原始视频流中提取待识别视频流；其中，所述待识别视频流中包括动态目标；

特征提取模块，用于获取所述待识别视频流中的短时动作和长时动作，对所述短时动作进行特征提取，得到短时特征；以及，对所述长时动作进行特征提取，得到长时特征；其中，所述获取所述待识别视频流中的短时动作和长时动作，包括：在所述待识别视频流中，将当前时刻之前第一数量的候选图像帧组成所述短时动作；以及，将所述当前时刻之前第二数量的所述候选图像帧组成所述长时动作，所述第一数量小于所述第二数量；

处理模块，用于基于所述短时特征和所述长时特征之间的关联性信息，获取所述原始视频流对应的目标特征；具体而言，获取所述短时特征和所述长时特征之间的关联特征；其中，所述关联特征用于表征所述短时特征与所述长时特征之间的关联性信息；将所述关联特征和所述长时特征进行特征融合，得到参考特征；将所述参考特征与所述短时特征进行特征融合，得到所述原始视频流对应的所述目标特征；

识别模块，用于基于所述目标特征，获取所述原始视频流的目标识别结果；其中，所述目标识别结果包括目标动作类别以及所述目标动作类别对应的时序信息。

7.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-5中任一项所述的视频识别方法。

8.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-5中任一项所述的视频识别方法。