CN114648534A

CN114648534A - 基于视频帧聚类的管网缺陷智能识别方法及装置、介质

Info

Publication number: CN114648534A
Application number: CN202210566909.8A
Authority: CN
Inventors: 周政瀚; 罗标; 肖淼文; 张雪; 侯智焱
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-06-21

Abstract

基于视频帧聚类的管网缺陷智能识别方法及装置、介质，所述方法包括：提取视频数据中每个视频帧特征值,并生成特征值集；输入视频帧特征值集并预设阈值，划分为第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心，并将之后每个视频帧特征值有序的与已有i类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分为新的第i+1个类别并将它划分为新类别的质心；选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值。本发明不仅提高了管网缺陷自动化检测效率以及准确性，还减少了工作人员劳动强度，在管网视频缺陷检测中具有巨大的推广应用价值。

Description

基于视频帧聚类的管网缺陷智能识别方法及装置、介质

技术领域

本发明涉及管网缺陷智能检测技术领域，具体为涉及一种基于视频帧聚类的管网缺陷智能识别方法及装置、介质。

背景技术

地下排水管网是城市排水的重要组成部分，随着地下排水管网使用年限的增加，排水管道将逐渐出现变形、破损、腐蚀、断裂、渗漏等缺陷，导致管道爆裂、内涝、路面坍陷等重大危害，造成极大经济损失和人身危害。

目前的地下管网检测主要为人工检测和管道闭路电视系统(Closed CircuitTelevision Inspection，CCTV)机器人检测。两类检测方法的差别在于视频数据获取方法不同，人工检测由人工获取视频数据，CCTV机器人检测由机器人摄像头获取视频数据。两类方法采集到的视频数据都由人工进行判读，然后进行管道缺陷评估，并生成行业检测报告。这两类方法在管道缺陷检测阶段必须依靠经验丰富的作业人员进行判断，而业内作业人员水平参差不齐、流动性强，对行业规程和标准掌握不足。此外，这两类方法需要工作人员到实地对设备与环境进行检查，耗时长、人员需求量大、效率低、准确性差。因此，现有管网缺陷检测方法具有较大局限性，存在很大改进空间。

发明内容

本发明提供了一种基于视频帧聚类的管网缺陷智能识别方法及装置，能够提高管网缺陷检测效率，以及提升管网缺陷检测准确率。

本发明的具体技术方案如下：

根据本发明的第一技术方案，提供一种基于视频帧聚类管网缺陷智能识别方法，所述方法包括：提取视频数据中各视频帧特征值，生成视频帧特征值集X={x₁… x_k…x_n},并预先设定阈值；划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心，并将之后的每个视频帧特征值有序的与已有i（1≤i≤n）类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心；

选择每个类别中距离对应质心最近的视频帧作为关键帧，如果某一类存在多个与质心距离最近的视频帧特征值时，将这些视频帧特征值取算术平均作为该类的关键帧特征值。

根据本发明的第二技术方案，提供一种基于视频帧聚类管网缺陷智能识别装置，所述装置包括计算单元，所述计算单元配置为：提取视频数据中各视频帧特征值，生成视频帧特征值集X={x₁…x_k…x_n}, 并预先设定阈值；

确定第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心，并将之后的每个视频帧特征值有序的与已有i (1≤i≤n）类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心。具体为计算第k个视频帧特征值与第j（1≤j≤i）类质心的欧式距离，若该欧式距离值小于预设阈值时，则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心，若该欧式距离值大于等于预先设定的阈值且j不等于i时，则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较，若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时，则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心；

选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值，如果某一类存在多个与质心距离最近的视频帧特征值时，将这些视频帧特征值取算术平均作为该类的关键帧特征值。

根据本发明的第三技术方案，提供一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行本发明任一实施例所述的方法。

根据本发明每个实施例公开的一种基于视频帧聚类的管网缺陷智能识别方法及装置、介质，不仅可以提高管网缺陷自动化检测效率以及准确性，而且可以减少工作人员的劳动强度，在管网视频缺陷检测中具有巨大的推广应用价值。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了根据本发明实施例的一种基于视频帧聚类的管网缺陷智能识别方法的流程图。

图2示出了根据本发明实施例的视频帧聚类方法的流程图。

图3示出了根据本发明实施例的一种基于视频帧聚类的管网缺陷智能识别方法的聚类结果图。

图4示出了根据本发明实施例的AlexNet网络模型的网络结构图。

图5示出了根据本发明实施例的一种分类器的示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

图1示出了根据本发明实施例的一种基于视频帧聚类的管网缺陷智能识别方法的流程图。本发明实施例提供一种基于视频帧聚类的管网缺陷智能识别方法，如图1所示，该方法始于步骤S100，提取视频数据中各视频帧特征值，生成视频帧特征值集X={x₁…x_k…x_n}, 并预先设定阈值。

在步骤S200，确定第一个类别并将视频帧特征值集中的第一个视频帧特征值划分为第一类质心，并将之后每个视频帧特征值有序的与已有i（1≤i≤n）类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分为新的第i+1个类别并将它划分为新类别的质心。

其中，步骤S200具体实现为：计算第k个视频帧特征值与第j（1≤j≤i）类质心的欧式距离，若该欧式距离值小于预设阈值时，则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心，若该欧式距离值大于等于预先设定的阈值且j不等于i时，则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较，若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时，则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或产生一个新的类别并将该视频特征值作为新的一类的质心。以此类推，将视频帧特征值集X中每一个特征值进行如上处理，可以获得多个类别和多个类别的质心，进而可以获得所有视频帧特征值的聚类图。

步骤S300，选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值，如果某一类存在多个与质心距离最近的视频帧特征值时，将这些视频帧特征值取算术平均作为该类的关键帧特征。通过关键帧特征值可以基本反应出管网不同类别缺陷特征，以此来提升缺陷自动检测效率。

所述的欧式距离计算公式如公式（1）所示：

公式（1）

式中，

为某视频帧特征值与某质心的欧式距离，质心包括第一类质心和新一类质心，其中

为某视频帧特征值所在m维欧式空间中的点,

为某质心所在m维欧式空间中的点, m为视频帧特征值所包含的多个特征，

为第k个视频帧特征值在m维欧式空间中第i维的值，

为第 j类质心的特征值在m维欧式空间中第i维的值。

通过如下公式（2）对第一类中所有视频帧特征值取算术平均以更新第i类质心：

公式（2）

式中

代表更新的第j类质心，

代表属于第j类别中的特征值集，

应为属于

的某视频帧的特征值。

示例性的，如图2所示，输入视频帧特征值集X={x₁…x_k…x_n}，并预设阈值。划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心，并将之后的每个视频帧特征值有序的与已有 i(1≤i≤n）类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它作为新的类别的质心。具体为计算第k个视频帧特征值与第j（1≤j≤i）类质心的欧式距离，若该欧式距离值小于预设阈值时，则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心，若该欧式距离值大于等于预先设定的阈值且j不等于i时，则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较，若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时，则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或产生一个新的类别并将该视频特征值划分为新的一类的质心。以此类推，将视频帧特征值集X中每一个特征值进行如上处理，可以获得多个类别和多个类别的质心，进而获得所有视频帧特征值聚类图。如图3所示，将i类中距离本类质心最近的视频帧特征值划分为关键帧特征值输出。若某一类存在多个与质心距离最近的视频帧特征值时，将这些视频帧特征值取算术平均作为该类的关键帧特征值。

在一些实施例中，如图1所示，在步骤S300之后，还包括步骤S400，利用分类器对所述关键帧进行二分类，输出管网缺陷识别结果。

在一些实施例中，管网缺陷识别流程以管道闭路电视视频为输入，首先将视频切分为连续图像帧，然后将每帧图像送入训练好的AlexNet网络中进行特征提取，提取视频数据中各视频帧特征值，生成视频帧特征值集X={x₁…x_k…x_n}, 并预先设定阈值；划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心，并将之后的每个视频帧特征值有序的与已有i（1≤i≤n）类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者产生新的第i+1个类别并将它划分为新的类别的质心。具体为计算第k个视频帧特征值与第j（1≤j≤i）类质心的欧式距离，若该欧式距离值小于预设阈值时，则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心，若该欧式距离值大于等于预先设定的阈值且j不等于i时，则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较，若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时，则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或划分一个新的类别并将该视频特征值划分为新的一类的质心。以此类推，将视频帧特征值集X中每一个特征值进行如上处理，可以获得多个类别和多个类别的质心，进而获得所有视频帧聚类图；选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值，如果某一类存在多个与质心距离最近的视频帧特征值时，将这些视频帧特征值取算术平均作为该类的关键帧特征值。

本发明实施例所述的网络模型可以是AlexNet 神经网络，所述AlexNet 神经网络主要由卷积层，最大池化层，激活函数，局部响应归一化（Local ResponseNormalization），全连接层组成。所述分类器可以是支持向量机SVM。AlexNet 神经网络和支持向量机SVM可以基于一个数据集并通过如下地方法进行训练，以分别实现对视频数据中每个视频帧特征值提取以及对所述关键帧特征值进行二分类，输出管网缺陷识别结果。

具体说来，利用AlexNet神经网络模型对输入视频帧图像进行特征提取，建立完整AlexNet神经网络, 利用训练数据进行训练，保存训练好的模型。把训练数据输入到模型中获得特征值，随后将视频帧特征值作为SVM分类器的输入数据以训练SVM分类器。测试时，同样提取视频帧特征值用SVM预测结果，保存每个SVM的最优模型。

对AlexNet神经网络模型进行训练流程如下。建立数据集：从历史管网检测数据及排水管网拍摄视频中抽取视频帧并建立数据集，对于数据集中每帧图像，按照排水管网检测与评估规章中要求对提取视频帧进行标注，形成管道图像集S和图像标签集L，对于管道图像集S里的每个图像X(n)，有与之对应的图像标签集L，L＝(L(1) ,L(2) ,… L(o))，L(o)表示第X(n)张图像所属管道异常类型；并将数据集S按照60％，20％，20％比例将所述管道图像集划分成训练集S1、验证集S2和测试集S3。对训练集S1图像进行裁剪，然后使用训练集S1训练AlexNet网络。

如图4所示的AlexNet神经网络模型网络结构主要包含5层卷积层，3池化层，3层全连接层, 其中第一卷积层主要采用96个卷积核大小为11*11*3的核，步长stride=4，扩充边缘pad = 0；激活函数ReLU，并进行局部归一化（LRN）；然后进行最大池化，池化大小为3*3，步长stride=2；第二卷积层，采用256个卷积核大小为5*5*48的核，步长stride=1，扩充边缘pad=2；激活函数ReLU, 并进行局部归一化（LRN）；然后进行最大池化，池化大小为3*3，步长stride=2；第三卷积层，采用384个卷积核大小为3*3*256核，步长stride=1，扩充边缘pad=1；然后使用ReLU激活；第四层卷积层，采用384个卷积核大小为3*3*256核，步长stride=1，扩充边缘pad=1；然后使用ReLU激活；第五层卷积层，采用256个卷积核大小为3*3*256核，步长stride=1，扩充边缘pad=1；然后使用ReLU激活，之后使用最大池化层，池化大小为3*3，步长stride=2；第六层为全连接层，神经元个数为4096；ReLU激活函数生成4096个值；第七层为全连接层，神经元个数为4096；ReLU激活函数生成4096个值；第八层为输出层，将第七层输出的4096个数据与第八层的1000个神经元进行全连接，输出特征值。

在神经网络中，ReLU函数通常用于增加非线性因素，引入非线性可以有效缓解梯度消失问题以及增加网络的表达能力，如公式（3）所示：

公式（3）

式中，x表示所连接的上一层网络结构的输出。

在神经网络中，用激活函数将神经元输出做一个非线性映射, 但是为了防止梯度爆炸,以及为了提高模型的泛化能力，所以要对ReLU得到的结果进行归一化，归一化公式如公式（4）所示：

公式（4）

式中，

是归一化后的值，

代表激活函数的输出值，其中a表示所需计算的卷积核，t表示第t个通道，g, h 表示要进行归一化的这个值的位置坐标及宽高维度所在的位置，其大小不超过图片经卷积后的图像的宽高；

代表所需计算的卷积核在第d个通道的特征，d代表取0到

最大值，z代表

邻域的范围，如果遇到边界情况，则用0补全；N代表卷积核总数量；

表示为了防止发生除0的情况的常数，

表示常数均为可调整的参数，

表示常数，

均为手动设置的超参数。

使用AlexNet网络中提取图像帧特征值作为训练集，训练支持向量机SVM，对提取关键帧进行二分类，SVM个数由管网缺陷类别个数决定。

具体的，首先输入数据和学习目标，其中数据为每个图像帧的特征向量由此构成特征空间，并设定学习目标为二元变量

表示无缺类和具有某种缺陷类。输入数据所在的特征空间使用决策边界（decision boundary）超平面将学习目标按无缺陷类和有缺陷类（有某种缺陷）分开。

上述分隔超平面决策边界计算公式为：

公式（5）

其中

代表超平面的法向量，T代表转置，f代表超平面截距，X代表输入的某个训练样本的特征值。

只要确定了法向量

和截距f，就可以唯一地确定一个划分的超平面。决策边界将基础向量空间划分为两个集合，分类器将决策边界一侧的所有点分类为属于一个类，而将另一侧的所有点分类为属于另一个类。

计算超平面两侧的点到超平面的距离公式为：

公式（6）

其中，d代表超平面两侧的点到超平面距离，

代表超平面的法向量，T代表转置，f 代表超平面的截距，X代表输入的某个训练样本的特征值;

使用S2验证集对训练完的SVM进行验证，判断所训练的SVM是否具有最优超平面并通过调整超参数，让模型处于最佳状态。选择最佳模型，使用S3测试集进行测试，估计模型泛化能力并选择泛化能力强的模型，将待检测管网图像输入模型进行缺陷检测，获得模型输出结果。如图5所示多个SVM分类器被用于输出视频帧的缺陷类别。

综上，根据本发明实施例提供的一种基于视频帧聚类的管网缺陷智能识别方法，通过AlexNet神经网络对每帧图像进行特征提取，并将每帧图像使用欧式距离进行聚类，最后提取关键帧并使用SVM进行缺陷分类, 实现了对排水管道缺陷类别准确判断。不仅可以提高管网缺陷自动化检测效率以及准确性，而且可以减少工作人员的劳动强度，在管网视频缺陷检测中具有巨大的推广应用价值。

本发明实施例还提供一种基于视频帧聚类的管网缺陷智能识别装置，所述装置包括计算单元，所述计算单元配置为：提取视频数据中各视频帧特征值，生成视频帧特征值集X={x₁…x_k…x_n}, 并预先设定阈值；

划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心，并将之后的每个视频帧特征值有序的与已有 i(1≤i≤n）类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心。具体为计算第k个视频帧特征值与第j（1≤j≤i）类质心的欧式距离，若该欧式距离值小于预设阈值时，则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心，若该欧式距离值大于等于预先设定的阈值且j不等于i时，则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较，若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时，则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或划分一个新的类别并将该视频特征值划分为新的一类的质心。以此类推，将视频帧特征值集X中每一个特征值进行如上处理，可以获得多个类别和多个类别的质心，进而获得所有视频帧特征值的聚类图；

在一些实施例中，所述欧式距离计算公式如公式（1）所示：

公式（1）

式中，

为某视频帧特征值所在m维欧式空间中的点,

为第k个视频帧特征值在m维欧式空间中第i维的值，

为第 j类质心的特征值在 m维欧式空间中第i维的值。

在一些实施例中，所述计算单元进一步配置为：通过如下公式（2）对第一类中所有视频帧特征值取算术平均以更新第i类质心：

公式（2）

式中

代表更新的第j类质心，

代表属于第j类别中的特征值集，

应为属于

的某视频帧的特征值。

在一些实施例中，所述装置还包括网络模型，所述网络模型配置为提取视频数据中每个视频帧特征值。

在一些实施例中，所述网络模型包括依次连接的5个卷积层以及2个全连接层；在第一层、第二层以及第五层卷积层之后分别设有池化层，各层设有激活函数，将输入视频帧进行前向传播，并将第7层全连接层特征作为输出，得到对应视频帧特征值；所述激活函数如公式（3）所示：

公式（3）

其中，x为所连接的上一层网络结构的输出。

在一些实施例中，所述的第一层和第二层卷积后的激活函数经过使用后利用公式（4）进行局部响应归一化：

公式（4）

式中，

是归一化后的值，

代表所需计算的卷积核在第d个通道的特征，d代表取0到

最大值，z代表

表示为了防止发生除0的情况的常数，

表示常数均为可调整的参数，

表示常数，

均为手动设置的超参数。

在一些实施例中，所述装置还包括分类器，其配置为对所述关键帧进行二分类，输出管网缺陷识别结果。

在一些实施例中，所述分类器通过如下方法训练得到：

基于输入数据和学习目标，输入数据所在特征空间使用决策边界的超平面将学习目标按无缺陷类和有缺陷类（有某种缺陷）分开；所述输入数据为每个视频帧特征向量，并将学习目标设为二元变量表示无缺陷类和有缺陷类（有某种缺陷）；

分隔超平面的决策边界计算公式为：

公式（5）

其中，

代表超平面的法向量，T代表转置，f代表超平面的截距，X代表输入的某个训练样本的特征值；

通过公式（6）计算超平面两侧的点到超平面的距离：

公式（6）

其中，d代表超平面两侧的点到超平面距离，

代表超平面的法向量，T代表转置，f 代表超平面的截距，X代表输入的某个训练样本的特征值；

利用验证集来评估超平面，不断更新法向量

和截距f，以确定一个最佳的超平面。

本发明实施例所提供的基于视频帧聚类管网缺陷智能识别装置与在前阐述方法技术效果基本一致，在此不累述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行本发明任一实施例所述的方法。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细说明，本领域普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于视频帧聚类的管网缺陷智能识别方法，其特征在于，所述方法包括：

提取视频数据中各视频帧特征值，生成视频帧特征值集X={x₁…x_k…x_n}, 并预先设定阈值；

确定第一个类别并将视频帧特征值集中的第一个视频帧特征值划分为第一类质心，并将之后每个视频帧特征值有序的与已有i类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分为新的第i+1个类别并将它划分为新类别的质心：

计算第k个视频帧特征值与第j类质心的欧式距离，若该欧式距离值小于预设阈值时，则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心，若该欧式距离值大于等于预先设定的阈值且j不等于i时，则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较，若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时，则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心；

2.根据权利要求1所述的方法，其特征在于，所述的欧式距离的计算公式如公式（1）所示：

公式（1）

式中，

为某视频帧特征值所在m维欧式空间中的点,

为第k个视频帧特征值在m维欧式空间中第i维的值，

为第 j类质心的特征值在m维欧式空间中第i维的值。

3.根据权利要求1所述的方法，其特征在于，通过如下公式（2）对第i类中所有视频帧特征值取算术平均以更新第i类质心：

公式（2）

式中

代表更新的第j类质心，

代表属于第j类别中的特征值集，

应为属于

的某视频帧的特征值。

4.根据权利要求1所述的方法，其特征在于，所述提取视频数据中每个视频帧特征值，包括：

利用AlexNet神经网络模型提取视频数据中每个视频帧的特征值。

5.根据权利要求4所述的方法，其特征在于，所述AlexNet神经网络模型包括依次连接5个卷积层以及2个全连接层；在第一层、第二层以及第五层的卷积层之后分别设有池化层，各层设有激活函数，将输入视频帧进行前向传播，并将第7层全连接层特征作为输出，得到对应视频帧特征值；所述激活函数如公式（3）所示：

公式（3）

式中，x为所连接的上一层网络结构的输出。

6.根据权利要求5所述的方法，其特征在于，所述第一层和第二层卷积后的激活函数经过使用后，利用公式（4）进行局部响应归一化：

公式（4）

式中，

是归一化后的值，

代表所需计算的卷积核在第d个通道的特征，d代表取0到

最大值，z代表

表示为了防止发生除0的情况的常数，

表示常数均为可调整的参数，

表示常数，

均为手动设置的超参数。

7.根据权利要求1-6任一项所述方法，其特征在于，在选择每个类别中距离对应质心最近视频帧特征值作为关键帧特征值之后，所述方法还包括：

利用分类器对所述关键帧特征值进行二分类，输出管网缺陷识别结果。

8.根据权利要求7所述方法，其特征在于，所述分类器通过如下方法训练得到：

基于输入数据和学习目标，输入数据所在特征空间使用决策边界超平面将学习目标按无缺陷类和有缺陷类分开；所述输入数据为每个视频帧特征值，所述学习目标为二元变量

表示无缺陷类和有缺陷类；

分隔超平面决策边界计算公式为：

公式（5）

式中，

代表超平面的法向量，T代表转置，

代表超平面截距，X代表输入的某个训练样本的特征值；

通过公式（6）计算超平面两侧的点到超平面距离：

公式（6）

其中，d代表超平面两侧的点到超平面距离，

代表超平面的法向量，T代表转置，

代表超平面截距，X代表输入的某个训练样本的特征值。

9.一种基于视频帧聚类的管网缺陷智能识别装置，其特征在于，所述装置包括计算单元，所述计算单元配置为：

提取视频数据中各视频帧特征值，生成视频帧特征值集X={x₁… x_k…x_n}, 并预先设定阈值；

划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心，并将之后的每个视频帧特征值有序的与已有i类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心，具体为计算第k个视频帧特征值与第j类质心的欧式距离，若该欧式距离值小于预设阈值时，则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心，若该欧式距离值大于等于预先设定的阈值且j不等于i时，则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较，若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时，则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心；

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-8中的任一项所述方法。