CN112489092B

CN112489092B - 细粒度工业运动模态分类方法、存储介质、设备和装置

Info

Publication number: CN112489092B
Application number: CN202011449815.XA
Authority: CN
Inventors: 刘志勇; 周曼; 陈梦迟; 王得磊; 刘得斌
Original assignee: Zhejiang Supcon Technology Co Ltd
Current assignee: Zhongkong Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2023-10-31
Anticipated expiration: 2040-12-09
Also published as: WO2022121543A1; CN112489092A

Abstract

本发明涉及一种细粒度工业运动模态分类方法，包括：S1、获取待测视频序列及其光流图；S2、将视频序列输入第一分类模型，获得考虑全局空间特征对目标运动模态进行分类的第一概率分布，将光流图输入第二分类模型，获得考虑全局时域特征对目标运动模态进行分类的第二概率分布，将视频序列和光流图输入第三分类模型，获得考虑目标运动细节特征对目标运动模态进行分类的第三概率分布；S3、对第一概率分布、第二概率分布和第三概率分布进行加权融合，以根据融合后的结果输出目标运动模态的分类结果。能够对工业现场的运动模态进行细粒度识别。此外，本发明还提供一种细粒度工业运动模态分类装置、计算机设备和计算机可读存储介质。

Description

细粒度工业运动模态分类方法、存储介质、设备和装置

技术领域

本发明涉及机器视觉技术领域，尤其涉及一种细粒度工业运动模态分类方法、存储介质、计算机设备和装置。

背景技术

近年来，随着人工智能技术的发展，机器视觉系统的技术路线正慢慢地由原来传统的数字图像处理技术转向数字图像处理和深度卷积神经网络(Convolutional NeuralNetwork,CNN)相结合的方向发展。深度学习强大的特征拟合能力、泛化能力进一步提升了机器视觉技术的准确性和智能性。目前，机器视觉任务主要的应用对象都是基于单帧图像的识别，例如表面瑕疵检测、尺寸测量、仪表识别等，此类识别任务的总体解决方案主要是围绕单帧图像处理空间特征关系而不需要考虑检测对象多帧之间的时序特征关系。

然而，工业现场仍有许多运动模态的识别任务，例如流水线传送带上原料状态监控、药物生产过程中化学反应进度监控等，这些任务往往需要从连续的多帧图像中提取动态特征进行状态判别。

双流网络是常见的融合不同模态的视频编码特征的网络结构，该方法同时结合了视频输入的RGB图像信息和光流信息，对比纯粹的RGB图像输入，双流网络能够在其基础上进一步提升网络性能。双流网络采用了两路网络，分别提取RGB视频的单帧图像信息和对应帧的光流信息，将单帧RGB图像输入一路网络，将多帧光流信息输入另一路网络，然后将两路网络输出的结果进行特征融合，最后获得动作的类别。

某些特殊的运动模态识别任务具有背景单一、类间特征差异小的特点，需要对运动模态进行细粒度识别。在细粒度运动分析问题中，类别之间在整体上通常具有非常高的相似性，运动之间的区别往往存在于视频的局部区域，然而，目前基于双流网络的运动分析模型大都从视频的全局进行特征提取，旨在从整体上区分不同的运动类别，通常对类别间局部的差异不敏感。因此，现有双流网络架构算法存在细粒度的运动特征刻画功能不足的问题。

故，亟需一种细粒度工业运动模态分类方法、存储介质、计算机设备和装置。

发明内容

(一)要解决的技术问题

鉴于上述技术中存在的问题，本发明至少从一定程度上进行解决。为此，本发明的一个目的在于提出了一种细粒度工业运动模态分类方法，能够对工业现场的运动模态进行细粒度识别。

本发明的第二个目的在于提出一种工业运动模态分类装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

(二)技术方案

为了达到上述目的，本发明一方面提供一种工业运动模态分类方法，包括以下步骤：

步骤S1、获取待测视频序列，视频序列包括连续的视频帧，连续的视频帧存在目标运动模态；

步骤S2、根据视频序列，获取光流图；

步骤S3、将视频序列输入第一分类模型，获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布；

将光流图输入第二分类模型，获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布；

将视频序列和光流图输入第三分类模型，获得对目标运动模态进行分类的第三概率分布；

第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络，根据第一全卷积网络从视频序列中提取高维度空间特征，根据第二全卷积网络从光流图中提取高维度时间特征，将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域，根据卷积神经网络对感兴趣区域进行特征提取，获得运动细节特征，根据运动细节特征，获得对目标运动模态进行分类的第三概率分布；

步骤S4、对第一概率分布、第二概率分布和第三概率分布进行加权融合，根据融合后的结果输出目标运动模态的分类结果。

进一步地，第三分类模型还包括人工神经网络，根据人工神经网络对运动细节特征进行回归处理，输出第三概率分布的置信度。

进一步地，在步骤S1之前，还包括：获取数据标注的视频序列作为训练集，数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注；

根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型。

进一步地，损失函数包括：

Loss＝λ_classLclass+λ_ROIL_ROI+λ_ANNL_ANN

L_ANN＝∑(y_con-con)²

其中，L_class为三个分类模型的类交叉熵损失，L_ROI为感兴趣区域定位的位置损失，L_ANN为神经网络回归的均方误差损失；在L_class中，C表示类别总数，x表示输入数据，y_i表示输入数据所对应的类别标签，p_s、p_t、p_st分别表示第一分类模型、第二分类模型和第三分类模型获得的概率分布；在L_ROI中，S²为全卷积网络输出的特征层尺寸，k为每段视频序列需要选取的感兴趣区域的数量，(x_ij,y_ij,w_ij,h_ij)表示目标运动区域的预测值，表示目标运动区域的标定值；在L_ANN中，y_con为输出的置信度结果，con为置信度标定值；λ_class、λ_ROI、λ_ANN分别为L_class的权重、L_ROI的权重和L_ANN的权重。

进一步地，第一分类模型包括多层卷积神经网络和Softmax层；根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征，根据Softmax层对全局空间特征进行处理，获得对目标运动模态进行分类的第一概率分布。

进一步地，第二分类模型包括多层卷积神经网络和Softmax层；根据多层卷积神经网络从光流图中提取全局时域特征，根据Softmax层对全局时域特征进行处理，获得对目标运动模态进行分类的第二概率分布。

进一步地，第三分类模型还包括Softmax层，根据Softmax层对运动细节特征进行处理，获得对目标运动模态进行分类的第三概率分布。

为达到上述目的，本发明另一方面提供的一种细粒度工业运动模态分类装置，包括获取模块、光流模块和分类模块；

获取模块用于获取待测视频序列，视频序列包括连续的视频帧，连续的视频帧存在目标运动模态；

光流模块用于根据视频序列，获取光流图；

分类模块用于使用第一分类模型对视频序列进行处理，获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布；

分类模块用于使用第二分类模型对光流图进行处理，获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布；

分类模块用于使用第三分类模型对视频序列和光流图进行处理，获得对目标运动模态进行分类的第三概率分布；

分类模块还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合，根据融合后的结果输出目标运动模态的分类结果。

此外，本发明实施例还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序，处理器执行工业运动模态分类程序时，实现如上所述的细粒度工业运动模态分类方法。

此外，本发明实施例还提出一种计算机可读存储介质，其上存储有工业运动模态分类程序，该工业运动模态分类程序被处理器执行时实现如上所述的细粒度工业运动模态分类方法。

(三)有益效果

本发明的有益效果是：

1、本发明实施例提供的工业运动模态分类方法及分类装置，在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上，还通过对待测视频序列在空间和时域两个方面进行约束以提取局部目标运动的注意力特征，从而考虑了目标运动细节特征，然后根据全局空间特征、全局时域特征和目标运动细节特征对目标运动模态进行分类，能够从局部上区分不同的运动类别，实现对工业现场的运动模态进行细粒度识别。

2、在本发明实施例提供的工业运动模态分类方法中，通过引入基于神经网络回归的过渡态量化网络，将人工难以明确判定运动模态的过程赋予一种置信度的量化方式，不同的工艺需求可以通过设置不同置信度阈值进行进一步的模式判别。

附图说明

本发明借助于以下附图进行描述：

图1为根据本发明一个实施例的细粒度工业运动模态分类方法的流程图；

图2为根据本发明一个实施例的细粒度工业运动模态分类装置的方框示意图。

【附图标记说明】

1：获取模块；

2：光流模块；

3：分类模块。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本发明实施例提出的工业运动模态分类方法和分类装置，通过对待测视频序列在空间和时域两个方面进行约束以提取局部目标运动的注意力特征，从而考虑了目标运动细节特征，然后根据目标运动细节特征对目标运动模态进行分类，能够从局部上区分不同的运动类别，实现对工业现场的运动模态进行细粒度识别。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

下面就参照附图来描述根据本发明实施例提出的工业运动模态分类方法和工业运动模态分类装置。

本发明实施例提供的工业运动模态分类方法包括以下步骤：

步骤101、获取待测视频序列，该视频序列包括连续的视频帧，该连续的视频帧存在目标运动模态。

作为一个示例，待测视频序列包括连续的RGB图像帧。

步骤102、根据视频序列，获取光流图。

具体地，根据连续的RGB图像帧，采用Farneback光流法，获得光流图。当然，采用Farneback光流法获得光流图仅仅是优选，可以想见，采用Lucas-Kanade光流法或TV-L1光流法获得光流图，也可以实现类似的效果。

步骤103、将视频序列输入第一分类模型，获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布；

第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络，如图1所示，根据第一全卷积网络从视频序列中提取高维度空间特征，根据第二全卷积网络从光流图中提取高维度时间特征，将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域，根据卷积神经网络对感兴趣区域进行特征提取，获得运动细节特征，根据运动细节特征，获得对目标运动模态进行分类的第三概率分布。

其中，目标运动模态的感兴趣区域即为对待测视频序列在空间和时域两个方面进行约束后的敏感特征区域。

具体地，作为一个实施例，第一分类模型包括多层卷积神经网络和Softmax层，如图1所示；根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征，根据Softmax层对全局空间特征进行处理，获得对目标运动模态进行分类的第一概率分布。进一步地，从视频序列的每一帧中提取全局空间特征，包括：根据残差网络ResNet50从视频序列的每一帧中提取全局空间特征。可见，本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中单帧图像的全局空间特征。

具体地，作为一个实施例，第二分类模型包括多层卷积神经网络和Softmax层，如图1所示；根据多层卷积神经网络从光流图中提取全局时域特征，根据Softmax层对全局时域特征进行处理，获得对目标运动模态进行分类的第二概率分布。进一步地，从光流图中提取全局时域特征，包括：根据残差网络ResNet50从光流图中提取全局时域特征。可见本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中多帧图像之间的全局时域特征。

进一步地，根据第一全卷积网络从视频序列中提取高维度空间特征，包括：根据第一U-net网络从视频序列中提取高维度空间特征；根据第二全卷积网络从光流图中提取高维度时间特征，包括：根据第二U-net网络从光流图中提取高维度时间特征。

进一步地，将高维度空间特征和高维度时间特征进行融合，包括：采用concatenate方法将高维度空间特征和高维度时间特征进行融合。

进一步地，根据卷积神经网络对感兴趣区域进行特征提取，获得运动细节特征，包括：根据残差网络ResNet50对感兴趣区域进行特征提取，获得运动细节特征。其中，感兴趣区域为对待测视频序列在空间和时域两个方面进行约束后的敏感特征区域，实现了提取局部目标运动的注意力特征。

进一步地，第三分类模型还包括Softmax层，根据Softmax层对运动细节特征进行处理，获得对目标运动模态进行分类的第三概率分布。可见，本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中的目标运动细节特征。

具体地，作为一个实施例，第三分类模型还包括人工神经网络，如图1所示，根据人工神经网络对运动细节特征进行回归处理，输出第三概率分布的置信度。进一步地，人工神经网络采用四层的神经网络结构，输入层节点数为处理感兴趣区域的ResNet50网络特征拉伸后的长度，第一个隐藏层节点数为输入层的一半，第二个隐藏层节点为10，最后输出层节点数为1。通过引入基于神经网络回归的过渡态量化网络，将人工难以明确判定运动模态的过程赋予一种置信度的量化方式，不同的工艺需求可以通过设置不同置信度阈值进行进一步的模式判别。

步骤104、对第一概率分布、第二概率分布和第三概率分布进行加权融合，根据融合后的结果输出目标运动模态的分类结果。

具体地，对第一概率分布、第二概率分布和第三概率分布进行加权融合，包括：

Prob＝α₁Prob_s+α₂Prob_t+α₃Prob_st

其中，Prob_s、Prob_t、Prob_st分别为第一概率分布、第二概率分布和第三概率分布，α₁、α₂、α₃分别为第一概率分布的权重、第二概率分布的权重和第三概率分布的权重。

综上所述，本发明实施例提出的工业运动模态分类方法，在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上，还考虑了待测视频序列中的目标运动细节特征，能够对工业现场的运动模态进行细粒度识别。

进一步地，在步骤101之前，还包括：

步骤100-1、获取数据标注的视频序列作为训练集，数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注。

其中，标注的目标运动区域包括用矩形框标出视频序列中每一帧的目标运动区域(x,y,w,h)，x、y、w、h分别表示矩形框的左上角横坐标、左上角纵坐标、宽度和高度。目标运动模态类型的置信度标注

其中，标注的目标运动模态类型的置信度若能明确判别目标运动模态类型，则置信度为1，若难以明确判别目标运动模态类型，则根据人工经验设置置信度。

进一步地，数据标注还包括像素点标注，属于目标运动区域内的像素点标记为M，属于目标运动区域外的像素点标记为

步骤100-2、根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型。

具体地，作为一个实施例，损失函数包括：

Loss＝λ_classL_class+λ_ROIL_ROI+λ_ANNL_ANN

L_ANN＝∑(y_con-con)²

图2为本发明一个实施例的细粒度工业运动模态分类装置的方框示意图。

如图2所示，该工业运动模态分类装置包括：获取模块1、光流模块2和分类模块3。

其中，获取模块1用于获取待测视频序列，该视频序列包括连续的视频帧，该连续的视频帧存在目标运动模态。

光流模块2用于根据视频序列，获取光流图。

分类模块3用于使用第一分类模型对视频序列进行处理，获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布；分类模块3用于使用第二分类模型对光流图进行处理，获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布；分类模块3用于使用第三分类模型对视频序列和光流图进行处理，获得对目标运动模态进行分类的第三概率分布。

其中，第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络，根据第一全卷积网络从视频序列中提取高维度空间特征，根据第二全卷积网络从光流图中提取高维度时间特征，将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域，根据卷积神经网络对感兴趣区域进行特征提取，获得运动细节特征，根据运动细节特征，获得对目标运动模态进行分类的第三概率分布。

分类模块3还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合，根据融合后的结果输出目标运动模态的分类结果。

需要说明的是，本实施例提供的工业运动模态分类装置中各模块的具体功能，及工业运动模态分类装置流程，可参照上述实施例1提供的工业运动模态分类方法的详细描述，此处不再赘述。

综上所述，本发明实施例提供的细粒度工业运动模态分类装置，在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上，还考虑了待测视频序列中的目标运动细节特征，能够对工业现场的运动模态进行细粒度识别。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种细粒度工业运动模态分类方法，其特征在于，包括以下步骤：

步骤S1、获取待测视频序列，所述视频序列包括连续的视频帧，所述连续的视频帧存在目标运动模态；

步骤S2、根据所述视频序列，获取光流图；

步骤S3、将所述视频序列输入第一分类模型，获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布；

将所述光流图输入第二分类模型，获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布；

将所述视频序列和所述光流图输入第三分类模型，获得对目标运动模态进行分类的第三概率分布；

所述第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络，根据第一全卷积网络从所述视频序列中提取高维度空间特征，根据第二全卷积网络从所述光流图中提取高维度时间特征，将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域，根据卷积神经网络对所述感兴趣区域进行特征提取，获得运动细节特征，根据所述运动细节特征，获得对目标运动模态进行分类的第三概率分布；

步骤S4、对第一概率分布、第二概率分布和第三概率分布进行加权融合，根据融合后的结果输出目标运动模态的分类结果；

在所述步骤S1之前，还包括：获取数据标注的视频序列作为训练集，数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注；根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型；

所述损失函数包括：

Loss＝λ_classL_class+λ_ROIL_ROI+λ_ANNL_ANN

L_ANN＝∑(y_con-cin)²

2.根据权利要求1所述的方法，其特征在于，所述第三分类模型还包括人工神经网络，根据人工神经网络对运动细节特征进行回归处理，输出第三概率分布的置信度。

3.根据权利要求1所述的方法，其特征在于，所述第一分类模型包括多层卷积神经网络和Softmax层；

根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征，根据Softmax层对所述全局空间特征进行处理，获得对目标运动模态进行分类的第一概率分布。

4.根据权利要求1所述的方法，其特征在于，所述第二分类模型包括多层卷积神经网络和Softmax层；

根据多层卷积神经网络从光流图中提取全局时域特征，根据Softmax层对所述全局时域特征进行处理，获得对目标运动模态进行分类的第二概率分布。

5.根据权利要求1所述的方法，其特征在于，所述第三分类模型还包括Softmax层，根据Softmax层对所述运动细节特征进行处理，获得对目标运动模态进行分类的第三概率分布。

6.一种细粒度工业运动模态分类装置，其特征在于，包括获取模块(1)、光流模块(2)和分类模块(3)；

获取模块(1)用于获取待测视频序列，所述视频序列包括连续的视频帧，所述连续的视频帧存在目标运动模态；

光流模块(2)用于根据所述视频序列，获取光流图；

分类模块(3)用于使用第一分类模型对视频序列进行处理，获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布；

分类模块(3)用于使用第二分类模型对光流图进行处理，获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布；

分类模块(3)用于使用第三分类模型对视频序列和光流图进行处理，获得对目标运动模态进行分类的第三概率分布；

分类模块(3)还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合，根据融合后的结果输出目标运动模态的分类结果。

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序，所述处理器执行所述工业运动模态分类程序时，实现如权利要求1-5中任一项所述的细粒度工业运动模态分类方法。

8.一种计算机可读存储介质，其特征在于，其上存储有工业运动模态分类程序，该工业运动模态分类程序被处理器执行时实现如权利要求1-5中任一项所述的细粒度工业运动模态分类方法。