CN113283849B

CN113283849B - 基于视频上下文联系的物流异常智能检测方法

Info

Publication number: CN113283849B
Application number: CN202110840803.8A
Authority: CN
Inventors: 聂秀山; 李道恒; 王春涛; 陶鹏; 郭杰; 李晓峰; 王少华
Original assignee: Shandong New Beiyang Information Technology Co Ltd; Shandong Jianzhu University
Current assignee: Shandong New Beiyang Information Technology Co Ltd; Shandong Jianzhu University
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-02
Anticipated expiration: 2041-07-26
Also published as: CN113283849A

Abstract

一种基于视频上下文联系的物流异常智能检测方法，通过两个时序方向得到的预测帧综合判断当前视频帧是否是异常事件。避免了人工检测方法存在的异常定义模糊、特征提取繁琐的问题。通过联系上下文语义的方法可以解决物流异常智能检测方法及系统上缺乏视频上下文信息的问题，完善视频上下文的概念能全面地判断视频帧发生的事件是否为异常事件。此外，生成对抗网络中两个生成器的分支不仅用于预测与回溯，因为两个生成器在时序上生成的是同一个视频帧，所以两个生成器的结果对比使得生成的视频帧更加相同，增加生成器的约束。

Description

基于视频上下文联系的物流异常智能检测方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于视频上下文联系的物流异常智能检测方法。

背景技术

人工智能被运用到物流中做分拣、运送、识别等领域，实现识别流程监控，商品仓储、配送流程监控等环节中的多种功能，随着生产、物流或仓储配送过程中的物品、设备、人物等目标物流量的数量的不断增多，难免在进行以上流程中会发生异常事件。例如，在物流进行分拣时，若物流的处理方式出现不同于其他正常的事件则发生异常，出现如机器停顿，故障失控，以及部件损坏等异常事件。在工业生产流程中，出现操作人员错误操作等异常行为。这些异常事件或行为仅靠人工的识别和查看，显然费事费力，效率低下。因此，人工智能技术的应用是非常必要的，但是现有技术中，上下文语境的技术还没有应用到视频异常检测中使用。现有基于深度学习的方法，在单一时序上预测未来的视频帧，这样的视频异常检测技术由于没有考虑到当前视频帧的上下文语境，缺少可解释性，所以还不能够精确的判断与检测。

发明内容

本发明为了克服以上技术的不足，提供了一种综合物流对象的前后行为判断是否发生异常事件，提高物流异常智能检测的精确度的基于视频上下文联系的物流异常智能检测方法。

本发明克服其技术问题所采用的技术方案是：

一种基于视频上下文联系的物流异常智能检测方法，包括如下步骤：

a)将N条监控视频作为训练集，每条监控视频划分为K张视频帧，从K张视频帧中取9张视频帧构成视频帧集合I，

，

为时刻

的视频帧；

b)对视频帧集合

做调换视频帧顺序处理，形成正向输入视频帧片段

、逆向输入视频片段

以及作为与生成帧做误差分析的视频帧

；

c)将正向输入视频帧片段

和逆向输入视频片段

分别输入到GAN网络的生成器中，分别得到在

时刻富含多等级特征的预测帧

和

；

d)计算损失函数；

e)利用损失函数优化GAN网络判别器，得到优化的生成器模型；

f)重复步骤c)至步骤e)M次，得到迭代后的生成器模型；

g)将一监控视频输入至步骤f)中迭代后的生成器模型中，分别计算时刻

的视频帧

与预测帧

的PSNR值

和视频帧

与预测帧

的PSNR值

；

h)通过公式

将两个PSNR值加权计算，得到当前视频帧的总和正常事件得分

；

i)如果

，则表明当前视频帧发生异常事件，如果

，则表明当前视频帧没有发生异常事件，

为人为设定的正常事件得分阈值。

进一步的，步骤d)包括如下步骤：

d-1)通过公式

计算梯度损失值

，式中

为二维图像的横坐标，

为二维图像的纵坐标，

为计算二维图像中沿

轴的梯度，

轴为横坐标轴

和纵坐标轴

的集合；

d-2)通过公式

计算得到强度损失值

，式中

为将视频帧转换为数值矩阵的函数；

d-3)通过公式

计算得到光流损失值

，式中

为时刻

的视频帧

与前一帧的光流向量，

为时刻

的预测帧

与前一帧的光流向量，

为时刻

的预测帧

与前一帧的光流向量，

为光流向量转化为浮点数值的函数；

d-4)视频帧被分为

个块，通过公式

计算对抗损失值

，

为GAN网络中判别器在图像空间的特征提取函数；

d-5)通过公式

计算判别器损失函数

。

进一步的，步骤e)中：将梯度损失值

、强度损失值

、光流损失值

、对抗损失值

、判别器损失函数

加和计算，将加和后的损失函数优化GAN网络生成器，得到优化后的生成器模型。

优选的，步骤f)中M的取值大于10000。

进一步的，步骤i)中判定的发生异常事件的视频帧以高亮的形式在视频中显示。

本发明的有益效果是：通过两个时序方向得到的预测帧综合判断当前视频帧是否是异常事件。避免了人工检测方法存在的异常定义模糊、特征提取繁琐的问题。通过联系上下文语义的方法可以解决物流异常智能检测方法及系统上缺乏视频上下文信息的问题，完善视频上下文的概念能全面地判断视频帧发生的事件是否为异常事件。此外，生成对抗网络中两个生成器的分支不仅用于预测与回溯，因为两个生成器在时序上生成的是同一个视频帧，所以两个生成器的结果对比使得生成的视频帧更加相同，增加生成器的约束。

具体实施方式

下面对本发明做进一步说明。

a)将N条监控视频作为训练集，每条监控视频划分为K张视频帧。将视频划分为多个连续9张视频帧作为检测的输入单位，具体的从K张视频帧中取9张视频帧构成视频帧集合I，

，

为时刻

的视频帧。

b)训练数据中，需要逆置输入视频帧的顺序，即正向输入视频帧片段和逆向输入视频帧片段，具体的对视频帧集合

做调换视频帧顺序处理，形成正向输入视频帧片段

、逆向输入视频片段

以及作为与生成帧做误差分析的视频帧

（真实帧）。

c)将正向输入视频帧片段

和逆向输入视频片段

分别输入到GAN网络的生成器中，分别得到在

时刻富含多等级特征的预测帧

和

。具体的生成器的卷积神经网络学习正常事件视频帧的不同等级的特征信息，包括高级特征

、中级特征

和低级特征

，通过四张连续的视频帧的多等级特征“预测”未来视频帧。由高级特征

开始进行逆卷积操作，得到的特征图尺寸到达中级特征

时将其进行叠操作，即同时运用中级特征

完成下一步逆卷积操作；得到的特征图尺寸到达低级特征

时将其进行叠操作，即同时运用低级特征

完成下一步逆卷积操作，最终前向和逆向预测生成器分别得到在

时刻富含多等级特征的预测帧

和

。

d)生成的预测帧

和

需要与视频帧

作对比得到误差，误差由多项约束条件组成，以不断生成更加真实的视频帧。由于两个生成器同时预测同一视频帧，所有在以下部分约束条件中生成得到的未来帧

和

之间同样存在对应的约束条件，各个约束条件为损失函数。

f)重复步骤c)至步骤e)M次，得到迭代后的生成器模型；

的视频帧

与预测帧

的PSNR值

和视频帧

与预测帧

的PSNR值

；

h)通过公式

将两个PSNR值加权计算，得到当前视频帧的总和正常事件得分

；

i)如果

，则表明当前视频帧发生异常事件，如果

，则表明当前视频帧没有发生异常事件，

为人为设定的正常事件得分阈值。

通过生成对抗网络进行上下文联系的物流异常智能检测方法及系统建立在人工智能的技术的基础上实现，采用深度学习的框架完成。利用深度学习的框架结合视频的上下文信息实现对当前视频的预测帧与回溯帧进行预测，基于U-Net网络使用两个生成器，分别得到预测帧和回溯帧，通过两个时序方向得到的预测帧综合判断当前视频帧是否是异常事件。避免了人工检测方法存在的异常定义模糊、特征提取繁琐的问题。同时，基于深度学习的方法，物流异常智能检测方法及系统的训练阶段不需要做复杂的标注，只需要在训练集中放入正常事件供网络学习即可。除此之外，该技术的网络模型结构直观，容易部署实现。在物流异常智能检测中可以无错误的完成检测工作，以设定的综合正常得分阈值为准判断当前视频帧是否发生异常事件。而且，通过联系上下文语义的方法可以解决物流异常智能检测方法及系统上缺乏视频上下文信息的问题，完善视频上下文的概念能全面地判断视频帧发生的事件是否为异常事件。此外，生成对抗网络中两个生成器的分支不仅用于预测与回溯，因为两个生成器在时序上生成的是同一个视频帧，所以两个生成器的结果对比使得生成的视频帧更加相同，增加生成器的约束。

进一步的，步骤d)包括如下步骤：

d-1)生成的帧的大小和真实帧应该是一样的，所以增加一个梯度损失可以帮助保持所有帧的大小，具体的，通过公式

计算梯度损失值

，式中

为二维图像的横坐标，

为二维图像的纵坐标，

为计算二维图像中沿

轴的梯度，

轴为横坐标轴

和纵坐标轴

的集合。以该公式计算，比简单的长宽像素值比做差更加精确，并且能够同时约束前向和逆向两张视频帧的生成效果。

d-2)因为生成帧的图像应该接近真实帧的颜色，所以需要对其进行约束，使所有像素分布在同一个RGB空间中，因此通过公式

计算得到强度损失值

，式中

为将视频帧转换为数值矩阵的函数。以该公式计算，能够同时约束前向和逆向两张视频帧的生成效果。

d-3) 视频异常检测中对象的动作是非常重要的，在此技术中，使用光流信息表示对象的动作，具体的：

通过公式

计算得到光流损失值

，式中

为时刻

的视频帧

与前一帧的光流向量，

为时刻

的预测帧

与前一帧的光流向量，

为时刻

的预测帧

与前一帧的光流向量，

为光流向量转化为浮点数值的函数。

d-4) 为了向生成器添加约束，我们的技术中考虑了对抗性损失，使用鉴别器对生成的视频帧进行判断，如果鉴别器认为生成器得到的生成帧不是真实帧，则视频帧被分为

个块，通过公式

计算对抗损失值

，

为GAN网络中判别器在图像空间的特征提取函数。前向和逆向预测视频帧的特征作乘积后和全为1的特征向量作对比，以此约束生成的视频帧与真实帧之间的误差。

d-5)GAN网络的判别器对视频帧进行判断，判别器在图像空间中需要不断训练以提高其鉴别视频帧真伪的能力，具体的通过公式

计算判别器损失函数

。前向和逆向预测视频帧的特征作乘积后和全为1的特征向量作对比，以此约束生成的视频帧与真实帧之间的损失计算。同时两张生成的视频帧应该尽可能的相同，所以将两张生成的视频帧也做损失计算，以此提高鉴别器对时刻

的生成帧

和

的判断能力。

进一步的，步骤e)中：将梯度损失值

、强度损失值

、光流损失值

、对抗损失值

、判别器损失函数

优选的，步骤f)中M的取值大于10000。

优选的，步骤i)中判定的发生异常事件的视频帧以高亮的形式在视频中显示。通过高亮显示异常的视频帧可以起到警示作用。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。