CN114648534A - 基于视频帧聚类的管网缺陷智能识别方法及装置、介质 - Google Patents

基于视频帧聚类的管网缺陷智能识别方法及装置、介质 Download PDF

Info

Publication number
CN114648534A
CN114648534A CN202210566909.8A CN202210566909A CN114648534A CN 114648534 A CN114648534 A CN 114648534A CN 202210566909 A CN202210566909 A CN 202210566909A CN 114648534 A CN114648534 A CN 114648534A
Authority
CN
China
Prior art keywords
video frame
characteristic value
centroid
value
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210566909.8A
Other languages
English (en)
Inventor
周政瀚
罗标
肖淼文
张雪
侯智焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN202210566909.8A priority Critical patent/CN114648534A/zh
Publication of CN114648534A publication Critical patent/CN114648534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

基于视频帧聚类的管网缺陷智能识别方法及装置、介质,所述方法包括:提取视频数据中每个视频帧特征值,并生成特征值集;输入视频帧特征值集并预设阈值,划分为第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心,并将之后每个视频帧特征值有序的与已有i类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分为新的第i+1个类别并将它划分为新类别的质心;选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值。本发明不仅提高了管网缺陷自动化检测效率以及准确性,还减少了工作人员劳动强度,在管网视频缺陷检测中具有巨大的推广应用价值。

Description

基于视频帧聚类的管网缺陷智能识别方法及装置、介质
技术领域
本发明涉及管网缺陷智能检测技术领域,具体为涉及一种基于视频帧聚类的管网缺陷智能识别方法及装置、介质。
背景技术
地下排水管网是城市排水的重要组成部分,随着地下排水管网使用年限的增加,排水管道将逐渐出现变形、破损、腐蚀、断裂、渗漏等缺陷,导致管道爆裂、内涝、路面坍陷等重大危害,造成极大经济损失和人身危害。
目前的地下管网检测主要为人工检测和管道闭路电视系统(Closed CircuitTelevision Inspection,CCTV)机器人检测。两类检测方法的差别在于视频数据获取方法不同,人工检测由人工获取视频数据,CCTV机器人检测由机器人摄像头获取视频数据。两类方法采集到的视频数据都由人工进行判读,然后进行管道缺陷评估,并生成行业检测报告。这两类方法在管道缺陷检测阶段必须依靠经验丰富的作业人员进行判断,而业内作业人员水平参差不齐、流动性强,对行业规程和标准掌握不足。此外,这两类方法需要工作人员到实地对设备与环境进行检查,耗时长、人员需求量大、效率低、准确性差。因此,现有管网缺陷检测方法具有较大局限性,存在很大改进空间。
发明内容
本发明提供了一种基于视频帧聚类的管网缺陷智能识别方法及装置,能够提高管网缺陷检测效率,以及提升管网缺陷检测准确率。
本发明的具体技术方案如下:
根据本发明的第一技术方案,提供一种基于视频帧聚类管网缺陷智能识别方法,所述方法包括:提取视频数据中各视频帧特征值,生成视频帧特征值集X={x1… xk…xn},并预先设定阈值;划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心,并将之后的每个视频帧特征值有序的与已有i(1≤i≤n)类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心;
选择每个类别中距离对应质心最近的视频帧作为关键帧,如果某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征值。
根据本发明的第二技术方案,提供一种基于视频帧聚类管网缺陷智能识别装置,所述装置包括计算单元,所述计算单元配置为:提取视频数据中各视频帧特征值,生成视频帧特征值集X={x1…xk…xn}, 并预先设定阈值;
确定第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心,并将之后的每个视频帧特征值有序的与已有i (1≤i≤n)类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心。具体为计算第k个视频帧特征值与第j(1≤j≤i)类质心的欧式距离,若该欧式距离值小于预设阈值时,则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心,若该欧式距离值大于等于预先设定的阈值且j不等于i时,则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较,若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时,则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心;
选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值,如果某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征值。
根据本发明的第三技术方案,提供一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行本发明任一实施例所述的方法。
根据本发明每个实施例公开的一种基于视频帧聚类的管网缺陷智能识别方法及装置、介质,不仅可以提高管网缺陷自动化检测效率以及准确性,而且可以减少工作人员的劳动强度,在管网视频缺陷检测中具有巨大的推广应用价值。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了根据本发明实施例的一种基于视频帧聚类的管网缺陷智能识别方法的流程图。
图2示出了根据本发明实施例的视频帧聚类方法的流程图。
图3示出了根据本发明实施例的一种基于视频帧聚类的管网缺陷智能识别方法的聚类结果图。
图4示出了根据本发明实施例的AlexNet网络模型的网络结构图。
图5示出了根据本发明实施例的一种分类器的示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
图1示出了根据本发明实施例的一种基于视频帧聚类的管网缺陷智能识别方法的流程图。本发明实施例提供一种基于视频帧聚类的管网缺陷智能识别方法,如图1所示,该方法始于步骤S100,提取视频数据中各视频帧特征值,生成视频帧特征值集X={x1…xk…xn}, 并预先设定阈值。
在步骤S200,确定第一个类别并将视频帧特征值集中的第一个视频帧特征值划分为第一类质心,并将之后每个视频帧特征值有序的与已有i(1≤i≤n)类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分为新的第i+1个类别并将它划分为新类别的质心。
其中,步骤S200具体实现为:计算第k个视频帧特征值与第j(1≤j≤i)类质心的欧式距离,若该欧式距离值小于预设阈值时,则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心,若该欧式距离值大于等于预先设定的阈值且j不等于i时,则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较,若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时,则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或产生一个新的类别并将该视频特征值作为新的一类的质心。以此类推,将视频帧特征值集X中每一个特征值进行如上处理,可以获得多个类别和多个类别的质心,进而可以获得所有视频帧特征值的聚类图。
步骤S300,选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值,如果某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征。通过关键帧特征值可以基本反应出管网不同类别缺陷特征,以此来提升缺陷自动检测效率。
所述的欧式距离计算公式如公式(1)所示:
Figure 786013DEST_PATH_IMAGE001
公式(1)
式中,
Figure 704290DEST_PATH_IMAGE002
为某视频帧特征值与某质心的欧式距离,质心包括第一类质心和新 一类质心,其中
Figure 355983DEST_PATH_IMAGE003
为某视频帧特征值所在m维欧式空间中的点,
Figure 43316DEST_PATH_IMAGE004
为某质心所在m维欧式空间中的点, m为视频帧特征值所包含的多个 特征,
Figure 637108DEST_PATH_IMAGE005
为第k个视频帧特征值在m维欧式空间中第i维的值,
Figure 777103DEST_PATH_IMAGE006
为第 j类质心的特征值 在m维欧式空间中第i维的值。
通过如下公式(2)对第一类中所有视频帧特征值取算术平均以更新第i类质心:
Figure 456653DEST_PATH_IMAGE007
公式(2)
式中
Figure 998492DEST_PATH_IMAGE008
代表更新的第j类质心,
Figure 763186DEST_PATH_IMAGE009
代表属于第j类别中的特征值集,
Figure 141209DEST_PATH_IMAGE010
应为属于
Figure 649551DEST_PATH_IMAGE009
的某视频帧的特征值。
示例性的,如图2所示,输入视频帧特征值集X={x1…xk…xn},并预设阈值。划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心,并将之后的每个视频帧特征值有序的与已有 i(1≤i≤n)类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它作为新的类别的质心。具体为计算第k个视频帧特征值与第j(1≤j≤i)类质心的欧式距离,若该欧式距离值小于预设阈值时,则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心,若该欧式距离值大于等于预先设定的阈值且j不等于i时,则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较,若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时,则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或产生一个新的类别并将该视频特征值划分为新的一类的质心。以此类推,将视频帧特征值集X中每一个特征值进行如上处理,可以获得多个类别和多个类别的质心,进而获得所有视频帧特征值聚类图。如图3所示,将i类中距离本类质心最近的视频帧特征值划分为关键帧特征值输出。若某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征值。
在一些实施例中,如图1所示,在步骤S300之后,还包括步骤S400,利用分类器对所述关键帧进行二分类,输出管网缺陷识别结果。
在一些实施例中,管网缺陷识别流程以管道闭路电视视频为输入,首先将视频切分为连续图像帧,然后将每帧图像送入训练好的AlexNet网络中进行特征提取,提取视频数据中各视频帧特征值,生成视频帧特征值集X={x1…xk…xn}, 并预先设定阈值;划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心,并将之后的每个视频帧特征值有序的与已有i(1≤i≤n)类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者产生新的第i+1个类别并将它划分为新的类别的质心。具体为计算第k个视频帧特征值与第j(1≤j≤i)类质心的欧式距离,若该欧式距离值小于预设阈值时,则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心,若该欧式距离值大于等于预先设定的阈值且j不等于i时,则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较,若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时,则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或划分一个新的类别并将该视频特征值划分为新的一类的质心。以此类推,将视频帧特征值集X中每一个特征值进行如上处理,可以获得多个类别和多个类别的质心,进而获得所有视频帧聚类图;选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值,如果某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征值。
本发明实施例所述的网络模型可以是AlexNet 神经网络,所述AlexNet 神经网络主要由卷积层,最大池化层,激活函数,局部响应归一化(Local ResponseNormalization),全连接层组成。所述分类器可以是支持向量机SVM。AlexNet 神经网络和支持向量机SVM可以基于一个数据集并通过如下地方法进行训练,以分别实现对视频数据中每个视频帧特征值提取以及对所述关键帧特征值进行二分类,输出管网缺陷识别结果。
具体说来,利用AlexNet神经网络模型对输入视频帧图像进行特征提取,建立完整AlexNet神经网络, 利用训练数据进行训练,保存训练好的模型。把训练数据输入到模型中获得特征值,随后将视频帧特征值作为SVM分类器的输入数据以训练SVM分类器。测试时,同样提取视频帧特征值用SVM预测结果,保存每个SVM的最优模型。
对AlexNet神经网络模型进行训练流程如下。建立数据集:从历史管网检测数据及排水管网拍摄视频中抽取视频帧并建立数据集,对于数据集中每帧图像,按照排水管网检测与评估规章中要求对提取视频帧进行标注,形成管道图像集S和图像标签集L,对于管道图像集S里的每个图像X(n),有与之对应的图像标签集L,L=(L(1) ,L(2) ,… L(o)),L(o)表示第X(n)张图像所属管道异常类型;并将数据集S按照60%,20%,20%比例将所述管道图像集划分成训练集S1、验证集S2和测试集S3。对训练集S1图像进行裁剪,然后使用训练集S1训练AlexNet网络。
如图4所示的AlexNet神经网络模型网络结构主要包含5层卷积层,3池化层,3层全连接层, 其中第一卷积层主要采用96个卷积核大小为11*11*3的核,步长stride=4,扩充边缘pad = 0;激活函数ReLU,并进行局部归一化(LRN);然后进行最大池化,池化大小为3*3,步长stride=2;第二卷积层,采用256个卷积核大小为5*5*48的核,步长stride=1,扩充边缘pad=2;激活函数ReLU, 并进行局部归一化(LRN);然后进行最大池化,池化大小为3*3,步长stride=2;第三卷积层,采用384个卷积核大小为3*3*256核,步长stride=1,扩充边缘pad=1;然后使用ReLU激活;第四层卷积层,采用384个卷积核大小为3*3*256核,步长stride=1,扩充边缘pad=1;然后使用ReLU激活;第五层卷积层,采用256个卷积核大小为3*3*256核,步长stride=1,扩充边缘pad=1;然后使用ReLU激活,之后使用最大池化层,池化大小为3*3,步长stride=2;第六层为全连接层,神经元个数为4096;ReLU激活函数生成4096个值;第七层为全连接层,神经元个数为4096;ReLU激活函数生成4096个值;第八层为输出层,将第七层输出的4096个数据与第八层的1000个神经元进行全连接,输出特征值。
在神经网络中,ReLU函数通常用于增加非线性因素,引入非线性可以有效缓解梯度消失问题以及增加网络的表达能力,如公式(3)所示:
Figure 311476DEST_PATH_IMAGE011
公式(3)
式中,x表示所连接的上一层网络结构的输出。
在神经网络中,用激活函数将神经元输出做一个非线性映射, 但是为了防止梯度爆炸,以及为了提高模型的泛化能力,所以要对ReLU得到的结果进行归一化,归一化公式如公式(4)所示:
Figure 981492DEST_PATH_IMAGE012
公式(4)
式中,
Figure 79767DEST_PATH_IMAGE013
是归一化后的值,
Figure 126220DEST_PATH_IMAGE014
代表激活函数的输出值,其中a表示所需计 算的卷积核,t表示第t个通道,g, h 表示要进行归一化的这个值的位置坐标及宽高维度所 在的位置,其大小不超过图片经卷积后的图像的宽高;
Figure 908231DEST_PATH_IMAGE015
代表所需计算的卷积核在第d个通道的特征,d代表取0到
Figure 499881DEST_PATH_IMAGE016
最大值,z代表
Figure 836184DEST_PATH_IMAGE017
邻域的范围,如果遇到边界情况, 则用0补全;N代表卷积核总数量;
Figure 420749DEST_PATH_IMAGE018
表示为了防止发生除0的情况的常数,
Figure 791688DEST_PATH_IMAGE019
表示常数均为 可调整的参数,
Figure 321283DEST_PATH_IMAGE020
表示常数,
Figure 410461DEST_PATH_IMAGE021
均为手动设置的超参数。
使用AlexNet网络中提取图像帧特征值作为训练集,训练支持向量机SVM,对提取关键帧进行二分类,SVM个数由管网缺陷类别个数决定。
具体的,首先输入数据和学习目标,其中数据为每个图像帧的特征向量由此构成 特征空间,并设定学习目标为二元变量
Figure 533138DEST_PATH_IMAGE022
表示无缺类和具有某种缺陷类。输入数据 所在的特征空间使用决策边界(decision boundary)超平面将学习目标按无缺陷类和有缺 陷类(有某种缺陷)分开。
上述分隔超平面决策边界计算公式为:
Figure 24162DEST_PATH_IMAGE023
公式(5)
其中
Figure 957615DEST_PATH_IMAGE024
代表超平面的法向量,T代表转置,f代表超平面截距,X代表输入的某个训练 样本的特征值。
只要确定了法向量
Figure 534089DEST_PATH_IMAGE024
和截距f,就可以唯一地确定一个划分的超平面。决策边界将 基础向量空间划分为两个集合,分类器将决策边界一侧的所有点分类为属于一个类,而将 另一侧的所有点分类为属于另一个类。
计算超平面两侧的点到超平面的距离公式为:
Figure 460457DEST_PATH_IMAGE025
公式(6)
其中,d代表超平面两侧的点到超平面距离,
Figure 55255DEST_PATH_IMAGE024
代表超平面的法向量,T代表转置,f 代表超平面的截距,X代表输入的某个训练样本的特征值;
使用S2验证集对训练完的SVM进行验证,判断所训练的SVM是否具有最优超平面并通过调整超参数,让模型处于最佳状态。选择最佳模型,使用S3测试集进行测试,估计模型泛化能力并选择泛化能力强的模型,将待检测管网图像输入模型进行缺陷检测,获得模型输出结果。如图5所示多个SVM分类器被用于输出视频帧的缺陷类别。
综上,根据本发明实施例提供的一种基于视频帧聚类的管网缺陷智能识别方法,通过AlexNet神经网络对每帧图像进行特征提取,并将每帧图像使用欧式距离进行聚类,最后提取关键帧并使用SVM进行缺陷分类, 实现了对排水管道缺陷类别准确判断。不仅可以提高管网缺陷自动化检测效率以及准确性,而且可以减少工作人员的劳动强度,在管网视频缺陷检测中具有巨大的推广应用价值。
本发明实施例还提供一种基于视频帧聚类的管网缺陷智能识别装置,所述装置包括计算单元,所述计算单元配置为:提取视频数据中各视频帧特征值,生成视频帧特征值集X={x1…xk…xn}, 并预先设定阈值;
划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心,并将之后的每个视频帧特征值有序的与已有 i(1≤i≤n)类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心。具体为计算第k个视频帧特征值与第j(1≤j≤i)类质心的欧式距离,若该欧式距离值小于预设阈值时,则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心,若该欧式距离值大于等于预先设定的阈值且j不等于i时,则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较,若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时,则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心。将第k个视频帧特征值循环上述过程直到属于已有i类别中的某一类或划分一个新的类别并将该视频特征值划分为新的一类的质心。以此类推,将视频帧特征值集X中每一个特征值进行如上处理,可以获得多个类别和多个类别的质心,进而获得所有视频帧特征值的聚类图;
选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值,如果某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征值。
在一些实施例中,所述欧式距离计算公式如公式(1)所示:
Figure 408876DEST_PATH_IMAGE026
公式(1)
式中,
Figure 207068DEST_PATH_IMAGE027
为某视频帧特征值与某质心的欧式距离,质心包括第一类质心和新 一类质心,其中
Figure 202706DEST_PATH_IMAGE028
为某视频帧特征值所在m维欧式空间中的点,
Figure 153475DEST_PATH_IMAGE029
为某质心所在m维欧式空间中的点, m为视频帧特征值所包含的多个特 征,
Figure 677998DEST_PATH_IMAGE005
为第k个视频帧特征值在m维欧式空间中第i维的值,
Figure 963486DEST_PATH_IMAGE006
为第 j类质心的特征值在 m维欧式空间中第i维的值。
在一些实施例中,所述计算单元进一步配置为:通过如下公式(2)对第一类中所有视频帧特征值取算术平均以更新第i类质心:
Figure 497235DEST_PATH_IMAGE030
公式(2)
式中
Figure 69555DEST_PATH_IMAGE031
代表更新的第j类质心,
Figure 764979DEST_PATH_IMAGE032
代表属于第j类别中的特征值集,
Figure 537763DEST_PATH_IMAGE033
应为属于
Figure 360356DEST_PATH_IMAGE032
的某视频帧的特征值。
在一些实施例中,所述装置还包括网络模型,所述网络模型配置为提取视频数据中每个视频帧特征值。
在一些实施例中,所述网络模型包括依次连接的5个卷积层以及2个全连接层;在第一层、第二层以及第五层卷积层之后分别设有池化层,各层设有激活函数,将输入视频帧进行前向传播,并将第7层全连接层特征作为输出,得到对应视频帧特征值;所述激活函数如公式(3)所示:
Figure 534986DEST_PATH_IMAGE034
公式(3)
其中,x为 所连接的上一层网络结构的输出。
在一些实施例中,所述的第一层和第二层卷积后的激活函数经过使用后利用公式(4)进行局部响应归一化:
Figure 666890DEST_PATH_IMAGE035
公式(4)
式中,
Figure 661391DEST_PATH_IMAGE036
是归一化后的值,
Figure 51790DEST_PATH_IMAGE037
代表激活函数的输出值,其中a表示所需计 算的卷积核,t表示第t个通道,g, h 表示要进行归一化的这个值的位置坐标及宽高维度所 在的位置,其大小不超过图片经卷积后的图像的宽高;
Figure 815346DEST_PATH_IMAGE015
代表所需计算的卷积核在第d个通道的特征,d代表取0到
Figure 383731DEST_PATH_IMAGE016
最大值,z代表
Figure 616260DEST_PATH_IMAGE038
邻域的范围,如果遇到边界情况,则 用0补全;N代表卷积核总数量;
Figure 295503DEST_PATH_IMAGE018
表示为了防止发生除0的情况的常数,
Figure 179146DEST_PATH_IMAGE019
表示常数均为可 调整的参数,
Figure 170629DEST_PATH_IMAGE020
表示常数,
Figure 139722DEST_PATH_IMAGE021
均为手动设置的超参数。
在一些实施例中,所述装置还包括分类器,其配置为对所述关键帧进行二分类,输出管网缺陷识别结果。
在一些实施例中,所述分类器通过如下方法训练得到:
基于输入数据和学习目标,输入数据所在特征空间使用决策边界的超平面将学习目标按无缺陷类和有缺陷类(有某种缺陷)分开;所述输入数据为每个视频帧特征向量,并将学习目标设为二元变量表示无缺陷类和有缺陷类(有某种缺陷);
分隔超平面的决策边界计算公式为:
Figure 357076DEST_PATH_IMAGE039
公式(5)
其中,
Figure 95225DEST_PATH_IMAGE024
代表超平面的法向量,T代表转置,f代表超平面的截距,X代表输入的某个 训练样本的特征值;
通过公式(6)计算超平面两侧的点到超平面的距离:
Figure 756145DEST_PATH_IMAGE040
公式(6)
其中,d代表超平面两侧的点到超平面距离,
Figure 212534DEST_PATH_IMAGE024
代表超平面的法向量,T代表转置,f 代表超平面的截距,X代表输入的某个训练样本的特征值;
利用验证集来评估超平面,不断更新法向量
Figure 233580DEST_PATH_IMAGE041
和截距f,以确定一个最佳的超平面。
本发明实施例所提供的基于视频帧聚类管网缺陷智能识别装置与在前阐述方法技术效果基本一致,在此不累述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行本发明任一实施例所述的方法。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细说明,本领域普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于视频帧聚类的管网缺陷智能识别方法,其特征在于,所述方法包括:
提取视频数据中各视频帧特征值,生成视频帧特征值集X={x1…xk…xn}, 并预先设定阈值;
确定第一个类别并将视频帧特征值集中的第一个视频帧特征值划分为第一类质心,并将之后每个视频帧特征值有序的与已有i类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分为新的第i+1个类别并将它划分为新类别的质心:
计算第k个视频帧特征值与第j类质心的欧式距离,若该欧式距离值小于预设阈值时,则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心,若该欧式距离值大于等于预先设定的阈值且j不等于i时,则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较,若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时,则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心;
选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值,如果某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征值。
2.根据权利要求1所述的方法,其特征在于,所述的欧式距离的计算公式如公式(1)所示:
Figure 367809DEST_PATH_IMAGE001
公式(1)
式中,
Figure 753791DEST_PATH_IMAGE002
为某视频帧特征值与某质心的欧式距离,质心包括第一类质心和新一 类质心,其中
Figure 127004DEST_PATH_IMAGE003
为某视频帧特征值所在m维欧式空间中的点,
Figure 787792DEST_PATH_IMAGE004
为某质心所在m维欧式空间中的点, m为视频帧特征值所包含的 多个特征,
Figure 71006DEST_PATH_IMAGE005
为第k个视频帧特征值在m维欧式空间中第i维的值,
Figure 237677DEST_PATH_IMAGE006
为第 j类质心的 特征值在m维欧式空间中第i维的值。
3.根据权利要求1所述的方法,其特征在于,通过如下公式(2)对第i类中所有视频帧特征值取算术平均以更新第i类质心:
Figure 707972DEST_PATH_IMAGE007
公式(2)
式中
Figure 500348DEST_PATH_IMAGE008
代表更新的第j类质心,
Figure 638068DEST_PATH_IMAGE009
代表属于第j类别中的特征值集,
Figure 897011DEST_PATH_IMAGE010
应为属于
Figure 995548DEST_PATH_IMAGE011
的 某视频帧的特征值。
4.根据权利要求1所述的方法,其特征在于,所述提取视频数据中每个视频帧特征值,包括:
利用AlexNet神经网络模型提取视频数据中每个视频帧的特征值。
5.根据权利要求4所述的方法,其特征在于,所述AlexNet神经网络模型包括依次连接5个卷积层以及2个全连接层;在第一层、第二层以及第五层的卷积层之后分别设有池化层,各层设有激活函数,将输入视频帧进行前向传播,并将第7层全连接层特征作为输出,得到对应视频帧特征值;所述激活函数如公式(3)所示:
Figure 935822DEST_PATH_IMAGE012
公式(3)
式中,x为所连接的上一层网络结构的输出。
6.根据权利要求5所述的方法,其特征在于,所述第一层和第二层卷积后的激活函数经过使用后,利用公式(4)进行局部响应归一化:
Figure 52683DEST_PATH_IMAGE013
公式(4)
式中,
Figure 951369DEST_PATH_IMAGE014
是归一化后的值,
Figure 458573DEST_PATH_IMAGE015
代表激活函数的输出值,其中a表示所需计算的 卷积核,t表示第t个通道,g, h 表示要进行归一化的这个值的位置坐标及宽高维度所在的 位置,其大小不超过图片经卷积后的图像的宽高;
Figure 77905DEST_PATH_IMAGE016
代表所需计算的卷积核在第d个 通道的特征,d代表取0到
Figure 190217DEST_PATH_IMAGE017
最大值,z代表
Figure 853280DEST_PATH_IMAGE018
邻域的范围,如果遇到边界情况,则 用0补全;N代表卷积核总数量;
Figure 51043DEST_PATH_IMAGE019
表示为了防止发生除0的情况的常数,
Figure 395437DEST_PATH_IMAGE020
表示常数均为可 调整的参数,
Figure 237622DEST_PATH_IMAGE021
表示常数,
Figure 212531DEST_PATH_IMAGE022
均为手动设置的超参数。
7.根据权利要求1-6任一项所述方法,其特征在于,在选择每个类别中距离对应质心最近视频帧特征值作为关键帧特征值之后,所述方法还包括:
利用分类器对所述关键帧特征值进行二分类,输出管网缺陷识别结果。
8.根据权利要求7所述方法,其特征在于,所述分类器通过如下方法训练得到:
基于输入数据和学习目标,输入数据所在特征空间使用决策边界超平面将学习目标按 无缺陷类和有缺陷类分开;所述输入数据为每个视频帧特征值,所述学习目标为二元变量
Figure 756645DEST_PATH_IMAGE023
表示无缺陷类和有缺陷类;
分隔超平面决策边界计算公式为:
Figure 107992DEST_PATH_IMAGE024
公式(5)
式中,
Figure 726055DEST_PATH_IMAGE025
代表超平面的法向量,T代表转置,
Figure 12811DEST_PATH_IMAGE026
代表超平面截距,X代表输入的某个训练 样本的特征值;
通过公式(6)计算超平面两侧的点到超平面距离:
Figure 654008DEST_PATH_IMAGE027
公式(6)
其中,d代表超平面两侧的点到超平面距离,
Figure 668100DEST_PATH_IMAGE028
代表超平面的法向量,T代表转置,
Figure 609511DEST_PATH_IMAGE029
代 表超平面截距,X代表输入的某个训练样本的特征值。
9.一种基于视频帧聚类的管网缺陷智能识别装置,其特征在于,所述装置包括计算单元,所述计算单元配置为:
提取视频数据中各视频帧特征值,生成视频帧特征值集X={x1… xk…xn}, 并预先设定阈值;
划分第一个类别并将视频帧特征集中的第一个视频帧特征值划分为第一类质心,并将之后的每个视频帧特征值有序的与已有i类别的质心计算欧式距离并与预设阈值比较进而将它归属于已有i类别中的某一类或者划分新的第i+1个类别并将它划分为新的类别的质心,具体为计算第k个视频帧特征值与第j类质心的欧式距离,若该欧式距离值小于预设阈值时,则将该视频帧特征值归入到第j类中并对第j类中所有视频帧特征值取算术平均以更新第j类质心,若该欧式距离值大于等于预先设定的阈值且j不等于i时,则计算第k个视频帧特征值与第j+1类质心的欧式距离并再次与预设阈值进行比较,若计算的欧式距离大于等于预先设定的第j类阈值且j等于i时,则划分第i+1个类别并将该视频帧特征值划分为第i+1类质心;
选择每个类别中距离对应质心最近的视频帧特征值作为关键帧特征值,如果某一类存在多个与质心距离最近的视频帧特征值时,将这些视频帧特征值取算术平均作为该类的关键帧特征值。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-8中的任一项所述方法。
CN202210566909.8A 2022-05-24 2022-05-24 基于视频帧聚类的管网缺陷智能识别方法及装置、介质 Pending CN114648534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210566909.8A CN114648534A (zh) 2022-05-24 2022-05-24 基于视频帧聚类的管网缺陷智能识别方法及装置、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210566909.8A CN114648534A (zh) 2022-05-24 2022-05-24 基于视频帧聚类的管网缺陷智能识别方法及装置、介质

Publications (1)

Publication Number Publication Date
CN114648534A true CN114648534A (zh) 2022-06-21

Family

ID=81996677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210566909.8A Pending CN114648534A (zh) 2022-05-24 2022-05-24 基于视频帧聚类的管网缺陷智能识别方法及装置、介质

Country Status (1)

Country Link
CN (1) CN114648534A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800824A (zh) * 2019-02-25 2019-05-24 中国矿业大学(北京) 一种基于计算机视觉与机器学习的管道缺陷识别方法
CN110910021A (zh) * 2019-11-26 2020-03-24 上海华力集成电路制造有限公司 一种基于支持向量机监控在线缺陷的方法
WO2020062433A1 (zh) * 2018-09-29 2020-04-02 初速度(苏州)科技有限公司 一种神经网络模型训练及通用接地线的检测方法
CN111695482A (zh) * 2020-06-04 2020-09-22 华油钢管有限公司 一种管道缺陷识别方法
CN112070044A (zh) * 2020-09-15 2020-12-11 北京深睿博联科技有限责任公司 一种视频物体分类方法及装置
CN113221710A (zh) * 2021-04-30 2021-08-06 深圳市水务工程检测有限公司 基于神经网络的排水管道缺陷识别方法、装置、设备及介质
CN113766330A (zh) * 2021-05-26 2021-12-07 腾讯科技(深圳)有限公司 基于视频生成推荐信息的方法和装置
WO2022016328A1 (zh) * 2020-07-20 2022-01-27 深圳大学 金属异物检测方法、装置及终端设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020062433A1 (zh) * 2018-09-29 2020-04-02 初速度(苏州)科技有限公司 一种神经网络模型训练及通用接地线的检测方法
CN109800824A (zh) * 2019-02-25 2019-05-24 中国矿业大学(北京) 一种基于计算机视觉与机器学习的管道缺陷识别方法
CN110910021A (zh) * 2019-11-26 2020-03-24 上海华力集成电路制造有限公司 一种基于支持向量机监控在线缺陷的方法
CN111695482A (zh) * 2020-06-04 2020-09-22 华油钢管有限公司 一种管道缺陷识别方法
WO2022016328A1 (zh) * 2020-07-20 2022-01-27 深圳大学 金属异物检测方法、装置及终端设备
CN112070044A (zh) * 2020-09-15 2020-12-11 北京深睿博联科技有限责任公司 一种视频物体分类方法及装置
CN113221710A (zh) * 2021-04-30 2021-08-06 深圳市水务工程检测有限公司 基于神经网络的排水管道缺陷识别方法、装置、设备及介质
CN113766330A (zh) * 2021-05-26 2021-12-07 腾讯科技(深圳)有限公司 基于视频生成推荐信息的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何江 等: "基于机器视觉的AlexNet网络煤矸石检测系统", 《煤炭技术》 *
张玉辉 等: "基于 KNN算法的特征过滤预处理研究", 《现代信息科技》 *
王冬雪: "基于多特征的多视角人脸表情识别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN108830188B (zh) 基于深度学习的车辆检测方法
CN109784203B (zh) 基于分层传播和激活的弱监督x光图像违禁品检查方法
CN107944396B (zh) 一种基于改进深度学习的刀闸状态识别方法
CN106845421B (zh) 基于多区域特征与度量学习的人脸特征识别方法及系统
CN109118479B (zh) 基于胶囊网络的绝缘子缺陷识别定位装置及方法
Hassanin et al. A real-time approach for automatic defect detection from PCBs based on SURF features and morphological operations
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
WO2023155069A1 (zh) 一种基于深度学习的手机电池表面缺陷检测方法
CN111784633B (zh) 一种面向电力巡检视频的绝缘子缺损自动检测算法
CN111612784A (zh) 一种基于分类优先yolo网络的钢板表面缺陷检测方法
CN112200121B (zh) 基于evm和深度学习的高光谱未知目标检测方法
CN112949572A (zh) 基于Slim-YOLOv3的口罩佩戴情况检测方法
CN111242899B (zh) 基于图像的瑕疵检测方法及计算机可读存储介质
CN111242144B (zh) 电网设备异常的检测方法和装置
CN110659550A (zh) 交通标志牌识别方法、装置、计算机设备和存储介质
CN112365497A (zh) 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统
CN114694178A (zh) 基于Faster-RCNN算法的电力作业中安全帽监测方法及系统
CN111582126A (zh) 基于多尺度行人轮廓分割融合的行人重识别方法
CN114926391A (zh) 基于改进ransac算法的透视变换方法
CN111209935A (zh) 基于自适应域转移的无监督目标检测方法及系统
CN113781483B (zh) 工业产品外观缺陷检测方法和装置
Mandyartha et al. Global and adaptive thresholding technique for white blood cell image segmentation
CN105354547A (zh) 一种结合纹理和彩色特征的行人检测方法
CN116740652B (zh) 一种基于神经网络模型的锈斑面积扩大的监测方法与系统
Fujita et al. Fine-tuned pre-trained mask R-CNN models for surface object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination