CN114648669A - 一种域自适应双目视差计算的动车组故障检测方法及系统 - Google Patents

一种域自适应双目视差计算的动车组故障检测方法及系统 Download PDF

Info

Publication number
CN114648669A
CN114648669A CN202210547084.5A CN202210547084A CN114648669A CN 114648669 A CN114648669 A CN 114648669A CN 202210547084 A CN202210547084 A CN 202210547084A CN 114648669 A CN114648669 A CN 114648669A
Authority
CN
China
Prior art keywords
domain
disparity
network
train unit
motor train
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210547084.5A
Other languages
English (en)
Inventor
李经伟
史铁林
刘高坤
白丹辉
何武山
詹小斌
段暕
熊盛
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
China Railway Siyuan Survey and Design Group Co Ltd
Original Assignee
Huazhong University of Science and Technology
China Railway Siyuan Survey and Design Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, China Railway Siyuan Survey and Design Group Co Ltd filed Critical Huazhong University of Science and Technology
Priority to CN202210547084.5A priority Critical patent/CN114648669A/zh
Publication of CN114648669A publication Critical patent/CN114648669A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于城市轨道交通设备技检测术领域,并具体公开了一种域自适应双目视差计算的动车组故障检测方法及系统。所述方法包括:采用双目相机采集动车组的左、右立体图像,构建域自适应双目视差网络,对立体图进行归一化处理,然后计算输出密集视差图,采用Conf‑CNN网络模型对密集视差图进行置信度过滤,选出训练数据集中用于训练的正样本;采用正样本对域自适应双目视差网络进行训练,以获取网络的预训练权重,将双目相机实施采集的动车组的左、右立体图像输入至步骤S3获取的域自适应双目视差网络中,以输出动车组的预测图,并根据该预测图对动车组进行故障检测。本发明预测效果好,获取预测图的精度高,能实现对动车组故障的精确检测。

Description

一种域自适应双目视差计算的动车组故障检测方法及系统
技术领域
本发明属于轨道交通设备检测技术领域,更具体地,涉及一种域自适应双目视差计算的动车组故障检测方法及系统。
背景技术
我国铁路事业迅速发展,普铁、动车、地铁的大规模的应用带动了我国区域、地区的经济发展,给人们的生活带来了便利,但同时也为铁路安全检测的带来了挑战。保证安全是始终铁路运输的第一要务。铁路工作者的付出对铁路的发展和行车安全做出了重大贡献,但人眼并不能实时保证高效无差别的对铁路的关键部件进行检测。人工检查由于容易受到主观因素的影响而造成漏检、误检,容易给铁路运行安全隐患。自动化设备虽然减轻了检修人员的工作压力,但是还有很多检修项点受限于技术限制没能有效释放人力。当前,机车车底关键部件的安全检修还有大量检修项点依赖人力完成。
双目立体视觉技术一直是计算机视觉的一个研究热点,被广泛应用于自动驾驶、三维重建、工业检测等领域。随着卷积神经网络被广泛应用于立体匹配,视差计算的精度有了显著的提升,但是网络的跨域能力却明显不如传统算法。传统的立体匹配算法经过了几十年的发展,在视差图的精度和算法的运行效率上已经有了很大的提升,但是在一些遮挡区域和重复纹理区域的视差的精确度还比较差。目前来看基于深度学习的立体匹配算法无论在精度还是效率都超过了传统的立体匹配算法。同时,通过加入一些困难场景的数据集,如:无纹理、重复纹理、曝光、雾天等困难场景的数据后,在相似场景中立体匹配网络估计的视差相对于大部分的传统算法效果也更好。同时,由于立体匹配网络跨域能力差,严重阻碍了其在现实应用中的落地。因此,研究如何提升立体匹配网络能够在大量真实场景中预测视差能力是非常有必要的。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种域自适应双目视差计算的动车组故障检测方法及系统,通过提出的域自适应模块和特征归一化方法共同提升了立体网络的跨域泛化性,通过设计一个视差置信度网络提取出视差的正确部分,将保留下来的视差作为新域的监督标签,最后使用立体网络进行监督训练。整个系统被封装成无需外部提供监督标签的网络,该方法在跨域后能获得精度较高的视差输出。本发明跨域视差预测效果好,获取预测图的精度高,能实现对动车组故障的精确检测。
为实现上述目的,本发明提出了一种域自适应双目视差计算的动车组故障检测方法,包括以下步骤:
S1采用双目相机采集动车组的左、右立体图像,将一组左、右立体图像作为一个样本,构建数据集,并将上述数据集按照指定比例分为训练数据集和测试数据集;
S2以PSMnet网络为基础框架构建域自适应双目视差网络,采用跨域特征提取方法分别提取左、右立体图像的域特征,在域特征提取过程中,对立体图像的不同尺度特征进行指定比例的融合,以获取特征x,对特征x进行像素维度归一化和特征通道维度归一化,然后将归一化处理后的特征进行3D代价体积计算以实现代价融合,并采用损失函数计算输出密集视差图,采用Conf-CNN网络模型对密集视差图进行置信度过滤,选出训练数据集中用于训练的正样本;
S3然后采用正样本对域自适应双目视差网络进行训练,以获取网络的预训练权重,再通过调整学习率,继续采用正样本对域自适应双目视差网络进行训练,直至满足训练结束条件,获取最终的域自适应双目视差网络;
S4将双目相机实施采集的动车组的左、右立体图像输入至步骤S3获取的域自适应双目视差网络中,以输出动车组的预测图,并根据该预测图对动车组进行故障检测。
作为进一步优选的,步骤S2中,跨域特征提取方法具体如下:获取左、右立体图像的每个尺度输出特征,每个尺度输出特征都需要经过一个低层特征层和深层特征层,将尺度输出特征经池化层转化为指定尺寸,然后将低层特征和深层特征按照指定比例连接在一起,并应用卷积层和FN层输出,得到特征x
作为进一步优选的,步骤S2中,对特征x进行像素维度归一化具体如下:
Figure 509220DEST_PATH_IMAGE001
Figure 672348DEST_PATH_IMAGE002
上式中,
Figure 527172DEST_PATH_IMAGE003
为图像h×w上像素维度的均值,H为图像的高度,W为图像的宽 度,h为特征x的高度,w为特征x的宽度,
Figure 41330DEST_PATH_IMAGE004
为高度为h宽度为w的特征,
Figure 141266DEST_PATH_IMAGE005
为图 像h×w上像素维度的标准差,
Figure 158901DEST_PATH_IMAGE006
为常数。
作为进一步优选的,步骤S2中,对特征x进行特征通道维度归一化具体如下:
Figure 981363DEST_PATH_IMAGE007
Figure 451659DEST_PATH_IMAGE008
上式中,c是通道维度的位置,C是通道维度的长度,
Figure 384980DEST_PATH_IMAGE009
是通道c上像素维度的 均值,
Figure 991542DEST_PATH_IMAGE010
是通道c上像素维度的标准差,x为通道c上的特征,
Figure 719326DEST_PATH_IMAGE006
为常数。
作为进一步优选的,步骤S2中:
输出大小为C×H×W的左特征图和右特征图,通过在每个视差层上对左、右特征图进行拼接,然后平移进入下一个视差层级,最终获取大小为2C×H×W×( D+1)的代价体积,
将上述2C×H×W×( D+1)的代价体积进行三维卷积计算,得到大小为D×H×W的视差体积,采用可微的soft argmin函数获取视差体积中视差维度代价最小的值作为密集视差图的预测视差;
其中,C是特征体积的通道数, D为训练数据集的最大视差,H为图像的高度,W为图像的宽度。
作为进一步优选的,所述可微的soft argmin函数为:
Figure 441032DEST_PATH_IMAGE011
式中,
Figure 646886DEST_PATH_IMAGE012
softmax运算,d为视差层级,C d 为视差层级d的代价值,D max 是视差层 级的最大值,
Figure 904692DEST_PATH_IMAGE013
为视差估计值。
作为进一步优选的,步骤S2中,所述Conf-CNN网络模型使用的是AD-Census算法在Kitti数据集上训练的模型,且在Conf-CNN网络模型中,置信度的取值为0.9。
作为进一步优选的,正样本的挑选策略为:
将AD-Census算法获取的视差值减去真实视差值,若两者的差值大于阈值,则认为是正样本,否则,认为是负样本。
作为进一步优选的,所述数据集的评价标准包括3像素误差,该3像素误差的计算模型如下:
Figure 537798DEST_PATH_IMAGE014
Figure 982686DEST_PATH_IMAGE015
式中,
Figure 992230DEST_PATH_IMAGE016
为3像素误差,N为像素个数,
Figure 104543DEST_PATH_IMAGE017
是网络预测的视差值,
Figure 908551DEST_PATH_IMAGE018
是标准视差图的视差值,x、y为像素点坐标值,p是左图像中的像素位置,q 是左图像中的像素位置。
按照本发明的另一个方面,还提出了一种域自适应双目视差计算的动车组故障检测系统,包括:
跨域特征提取模块,用于采用跨域特征提取方法分别提取左、右立体图像的域特征,在域特征提取过程中,对立体图像的不同尺度特征进行指定比例的融合,以获取特征x,对特征x进行像素维度归一化和特征通道维度归一化,然后将归一化处理后的特征进行3D代价体积计算以实现代价融合;
视差图提取模块,用于用损失函数计算输出密集视差图;
Conf-CNN网络模型模块,用于密集视差图进行置信度过滤,选出训练数据集中用于训练的正样本;
域自适应双目视差网络模块,用于用正样本进行训练,以获取网络的预训练权重,再通过调整学习率,继续采用正样本对域自适应双目视差网络进行训练,直至满足训练结束条件,获取最终的域自适应双目视差网络;以及,
故障检测模块,用于将最终的域自适应双目视差网络输出的动车组的预测图进行故障检测。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:
1.本发明通过提出的域自适应模块和特征归一化方法共同提升了立体网络的跨域泛化性,通过设计一个视差置信度网络提取出视差的正确部分,将保留下来的视差作为新域的监督标签,最后使用立体网络进行监督训练。整个系统被封装成无需外部提供监督标签的网络,该方法在跨域后能获得精度较高的视差输出。本发明跨域视差预测效果都好,获取预测图的精度高,能实现对动车组故障的精确检测。
2.本发明构建的新颖DAFE不需要特征学习,因为它已经包含了大多数领域的场景信息。并且它避免了在跨域期间特征提取模块的自适应问题。之后,构建一个简单的尺度融合模块以融合低级像素特征和深层特征。并且在该模块中使用了FN模块,以使网络对域转移更加不敏感。。
3.本发明先使用传统的AD-Census或SGM算法计算出目标域中的数据集的密集视差图;然后提出了一个置信度的网络,它可以对对视差图进行置信度评估,随后设置阈值,保留置信度较高的视差值作为目标域中的监督标签。最后使用当前主流的立体匹配网络对其进行监督训练,获得目标域中精确的视差图。以解决现有技术中真实域中的数据集很少,不能覆盖大部分的场景信息,最终导致网络的泛化能力较差的问题。
4.本发明使用大小为1×1卷积核代替全连接层,整个网络为全连接网络。最终输出该图像块的中心像素的正确视差概率,有的卷积层都没有填充和跨步操作。因为Conf-CNN是一个全卷积网络,可以端到端的估计整个密集的视差图的置信度概率。在预测时,需要在完整的视差图边缘填充4个像素的零值。原来的视差图像尺度为H×W,则在预测时填充后的尺度为(H+8)×(W+8)。以此方式,克服了现有技术中,在分类任务的最后部分会通过全连接层来计算最终的分类结果,但是这种方式限制了网络图像的输入分辨率的问题。
5. 本发明基于域自适应双目视差网络所训练的模型,其准确性和可靠性相较于传统的人工复检,均得到了提升。
附图说明
图1是本发明实施例涉及的一种域自适应双目视差计算的动车组故障检测方法的流程图;
图2是本发明实施例涉及的立体匹配模型的俯视图;
图3是本发明实施例涉及的以PSMnet网络为基础框架的域自适应双目视差网络图;
图4是本发明实施例涉及的域自适应双目视差网络中涉及的域自适应特征提取网络及特征归一化流程图;
图5是本发明实施例涉及的采用 DANet对列车车底数据集的跨域表现示意图;
图6为用Conf-CNN置信度网络模型保留正确的视差的示意图,其中,图6中的(a)为数据集,图6中的(b)为AD-Census计算的视差,6中的(c)为使用Conf-CNN置信度网络保留正确的视差。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明实施例涉及的一种域自适应双目视差计算的动车组故障检测方法,包括以下步骤:
步骤一,采用双目相机采集动车组的左、右立体图像,将一组左、右立体图像作为一个样本,构建数据集,并将上述数据集按照指定比例分为训练数据集和测试数据集。
在本步骤中,立体图像的获取的步骤大致可以概述如下:(1)图像采集;(2)相机标定;(3)图像畸变校正;(4)双目立体校正;(5)立体匹配;(6)三角剖分计算深度。通过上面的几个步骤,就可以恢复出现实场景的三维信息。
在立体匹配步骤中,首先,需要搭建一个双目立体相机平台。然后对相机进行标定,然后进行坐标系转换,相机的坐标变换从世界坐标系(三维,相机原点)转换到图像平面坐标系(二维)最后转入像素坐标系,将世界坐标系中的3D点X映射到像素坐标系的2D点x。在成像平面坐标系的x转像素坐标系的点xp之前,还需要考虑实际相机引入的畸变和倾斜模型。还需要对相机进行标定,本发明中可采用张正友标定法,拍摄多组棋盘标定图片,然后使用角点提取算法获得图像的二维角点信息,转化为实际空间中的三维角点信息,从而计算出相机的内参数和畸变系数。
本步骤中涉及的双目成像方法如下:
建立一个的立体视觉模型,假设空间中点P(x,y,z)在成像系统O l 的像平面π1上映 射的点为(Xl,Yl); 在成像系统O r 的像平面π2上的点为(Xr,Yr),成像系统O l 的焦距为
Figure 371893DEST_PATH_IMAGE019
,而 成像系统O r 的焦距为
Figure 155435DEST_PATH_IMAGE020
。从左相机坐标系转换到右坐标系中,只需要一个旋转矩阵R和一个 平移矩阵T。
令左相机坐标系转换到右坐标系的旋转矩阵R为:
Figure 122254DEST_PATH_IMAGE021
平移矩阵T为:
Figure 97163DEST_PATH_IMAGE022
那么两个坐标系的转换可以用一个矩阵来进行:
Figure 47802DEST_PATH_IMAGE023
通过求解出空间中任一点对应两个图像坐标系中像素位置之后,即可使用下式求解出该点的空间三维坐标:
Figure 399148DEST_PATH_IMAGE024
通过上式可以计算空间中被测点的三维信息。在本发明的优选实施例中,双目图像对之间的同名点在各自成像系统的极线上。根据这样的特性,在立体匹配搜索过程中,可以仅在极线上搜索对应的特征点。但是,在程序设计时,这种方法反而会增加计算量。所以,在做立体匹配计算之前,需要把两图像平面应映射到与基线平行的位置,即立体校正。立体校正的目的是将极线与两图像的行对齐。通过这一步骤,立体匹配在寻找对应特征点时只需要搜索图像中同一行上的像素即可。通过立体校正操作,降低了两图像匹配不相关的可能性,匹配搜索空间从二维减少到一维,提高计算速度,更重要的是,此变换还可以使三维点的深度与其投影在两个视图中的视差之间呈简单的倒数关系,从而无需使用三角剖分即可恢复出对应像素的深度(Z轴)关系。
经过上一步的立体校正之后,两图像对应的特征点位于同一水平线上。如图2所示,P是三维空间中的点,映射到左右图像中的点为Pl和PR,xL和xR是左右图像的水平像素位置。立体校正之后,两个相机之间的基线与图像平面的平行,两相机的光轴也保持平行。令3D空间中的一点为P=[X,Y,Z]T,由平移矩阵T计算得到该3D点投影到左相机像素坐标系下的像素位置,其计算公式为:
Figure 220474DEST_PATH_IMAGE025
同样的,该空间点在右相机像素坐标系下的像素位置也可以计算出来。
点P在右相机坐标系下的空间位置为P=[X - b, Y, Z]T,那么该点映射到右像素坐标系的像素位置可以通过下计算得到:
Figure 366284DEST_PATH_IMAGE026
现在已知了两个图像点
Figure 771596DEST_PATH_IMAGE027
,视差d被定义两图像中同名 点的像素水平平移距离:
Figure 661054DEST_PATH_IMAGE028
Figure 868045DEST_PATH_IMAGE029
Figure 919177DEST_PATH_IMAGE030
代入上式得到:
Figure 313250DEST_PATH_IMAGE031
相应的X和Y轴的值就可以通过下式得到:
Figure 6399DEST_PATH_IMAGE032
Figure 536738DEST_PATH_IMAGE033
过相机立体校正之后,原来复杂的三维复原公式被简化为了上面的三个式子。
步骤二,以PSMnet网络为基础框架,该构建域自适应双目视差网络,该域自适应双目视差网络中,采用跨域特征提取方法分别提取左、右立体图像的域特征,在域特征提取过程中,对立体图像的不同尺度特征进行指定比例的融合,以获取特征x,对特征x进行像素维度归一化和特征通道维度归一化,然后将归一化处理后的特征进行3D代价体积计算以实现代价融合,并采用损失函数计算输出密集视差图,采用Conf-CNN网络模型对密集视差图进行视差计算,以获取精确的视差图,从而复原三维形貌。
本发明中,基于3D代价体积的立体匹配算法步骤包括:特征提取、代价计算、代价 聚合以及最后的视差计算。具体的,如图3所示,本发明以PSMnet网络为基础框架,该构建域 自适应双目视差网络。网络框架可大致分为四个部分:特征提取、计算代价体积、3D CNN以 及视差回归。首先,网络的输入是一对校正后的彩色立体图像,
Figure 289930DEST_PATH_IMAGE034
and
Figure 684482DEST_PATH_IMAGE035
Figure 915743DEST_PATH_IMAGE036
, 其中HW是图像的高度和宽度。然后应用跨域特征提取模块来提取域特征,输出的特征图 的大小为1/4H×1/4W。进一步的,使用特征归一化FN模块减小不同域之间的差异。3D代价体 积的计算包括级联和分组相关两种计算方式,分别采用了PSMNet和GwcNet-g中的代价计算 模块,代价聚合使用的是PSMNet的堆叠沙漏网络。最后,采用平滑的L1损失函数计算输出大 小为H×W的密集视差图
Figure 566167DEST_PATH_IMAGE037
。本发明DAFE不需要特征学习,因为它已经包含了大多数领域的 场景信息。并且它避免了在跨域期间特征提取模块的自适应问题,本发明构建一个简单的 尺度融合模块以融合低级像素特征和深层特征。并且在该模块中使用了FN模块,以使网络 对域转移更加不敏感。
在本发明的一个实施例中,获取左、右立体图像的每个尺度输出特征,每个尺度输出特征都需要经过一个标准块层和转化块层,将尺度输出特征经标准块层和转化块层转化为指定尺寸,然后将低层特征和深层特征按照指定比例连接在一起,并应用卷积层和FN层输出,得到特征x。更具体的,跨域特征提取方法具体如下:获取左、右立体图像的每个尺度输出特征,每个尺度输出特征都需要经过一个标准块层和转化块层,即Norm Block层和conv Block层,其中,尺度为1和尺度为1/2的特征需要经过池化层将尺度缩小为1/4,尺度为1/8的特征需要进行上采样转化为1/4,然后将低层特征和深层特征按照1:1::2:2的比例连接在一起,并应用卷积层和FN层输出,得到特征x。更具体的,本实施例以VGG16网络作为DAFE模块,不更改模块的任何卷积层和权重,而是将卷积层截取为1 / 8H×1 / 8W的大小。Scale Fusion部分接收DAFE模块中的每个尺度输出特征。然后,每个尺度的输出特征都需要经过一个Norm Block和conv Block层。不同的是,尺度为1和尺度为1/2的特征需要经过池化层将尺度缩小为1/4。而尺度为1/8的特征需要进行上采样操作。之后,将低层特征和深层特征按照1:1::2:2的比例连接在一起。随后,应用卷积层和FN层输出,得到最终的32×1/4H×1/4W特征量。
本发明中,为了确定影响立体匹配网络的泛化性能的内在因素,首先,把PSMNet在Sceneflow数据集训练到收敛,然后,在测试中把不同域中的特征提取层的结果进行可视化对比分析。本步骤中,特征归一化的步骤如下:在域适应特征提取之后,尺寸大小为N×C×H×W的特征x进行像素维度(H × W)归一化和特征维度(C)归一化。在批量归一化BN层中,通过在特征维度(N×H×W)上进行归一化,并与批次中其他样本的特征进行归一化以提高泛化性,在使用相关或级联方法计算成本量时,必须严格分别操作批处理中的每个特征量以获得高质量的代价体积。
如图4所示,特征归一化FN层在图像尺寸(H×W)和通道尺寸(C)上均对该体积进行归一化。此操作强调了每一个特征层的独立性。更进一步的,通过对每一个通道进行规划减少了不同域上的噪声响应。在深度学习中,归一化方法一般采用标准差归一化,其公式可以表示为:
Figure 490261DEST_PATH_IMAGE038
其中,x为输入的特征,μ是均值,δ是标准差,γβ是需要学习的线性因子。
对特征x进行像素维度归一化具体如下:
Figure 858925DEST_PATH_IMAGE039
Figure 893878DEST_PATH_IMAGE040
上式中,
Figure 398808DEST_PATH_IMAGE041
为图像h×w上像素维度的均值,H为图像的高度,W为图像的宽 度,h为特征x的高度,w为特征x的宽度,
Figure 493803DEST_PATH_IMAGE042
为高度为h宽度为w的特征,
Figure 848299DEST_PATH_IMAGE043
为图 像h×w上像素维度的标准差,
Figure 421363DEST_PATH_IMAGE044
为常数。
对特征x进行特征通道维度归一化具体如下:
Figure 780800DEST_PATH_IMAGE007
Figure 312275DEST_PATH_IMAGE045
上式中,c是通道维度的位置,C是通道维度的长度,
Figure 389953DEST_PATH_IMAGE046
是通道c上像素维度的 均值,
Figure 32287DEST_PATH_IMAGE047
是通道c上像素维度的标准差,x为通道c上的特征,
Figure 511810DEST_PATH_IMAGE044
为常数。
本发明中,在进行融合时,输出大小为C×H×W的左特征图和右特征图,通过在每个视差层上对左、右特征图进行拼接,然后平移进入下一个视差层级,最终获取大小为2C×H×W×( D+1)的代价体积,
将上述2C×H×W×( D+1)的代价体积进行三维卷积计算,得到大小为D×H×W的视差体积,采用可微的soft argmin函数获取视差体积中视差维度代价最小的值作为密集视差图的预测视差;
其中,C是特征体积的通道数, D为训练数据集的最大视差,H为图像的高度,W为图像的宽度。
所述可微的soft argmin函数为:
Figure 948607DEST_PATH_IMAGE048
式中,
Figure 15045DEST_PATH_IMAGE012
softmax运算,d为视差层级,C d 为视差层级d的代价值,D max 是视差层 级的最大值。
采用Conf-CNN网络模型对密集视差图进行视差计算,所述Conf-CNN网络模型使用的是AD-Census算法在Kitti数据集上训练的模型,且在Conf-CNN网络模型中,置信度的取值为0.9。Conf-CNN置信度网络模型构建的具体步骤如下:
在Conf-CNN网络中,在每一个视差图中提取以某一像素为中心的大小为9×9的图像块,随后送入网络中。网络的第一个分支是大小为9×9×32的卷积层。它可以表示整个图像块的对应关系,即该卷积核具有全局的感受野。另一个分支都是3×3的卷积核,在使用了4个卷积层之后尺度减小到了1×1,然后和第一个分支的结果进行级联。通常在分类任务的最后部分会通过全连接层来计算最终的分类结果,但是这种方式限制了网络图像的输入分辨率。为了解决这个问题,本发明使用大小为1×1卷积核代替全连接层,整个网络为全连接网络。最终输出该图像块的中心像素的正确视差概率,所有的卷积层都没有填充和跨步操作。因为Conf-CNN是一个全卷积网络,可以端到端的估计整个密集的视差图的置信度概率。在预测时,需要在完整的视差图边缘填充4个像素的零值。原来的视差图像尺度为H×W,则在预测时填充后的尺度为(H+8)×(W+8)。
步骤三,采用训练数据集对域自适应双目视差网络进行训练,以获取网络的预训练权重,再通过调整学习率,继续采用训练数据集对域自适应双目视差网络进行训练,直至满足训练结束条件,获取最终的域自适应双目视差网络。
训练过程中,本发明中采用立体图像的Kittti数据集作为训练集,剩余的作为本域中的验证集。以AD-Census算法在Kitti数据集中制作数据样本为例,以可用的视差值为中心,在AD-Census方法计算的视差图中对应的位置裁剪出9×9窗口大小的小图像作为训练样本。正负样本的挑选策略为:
Figure 929912DEST_PATH_IMAGE049
其中,T表示阈值大小,
Figure 529520DEST_PATH_IMAGE050
为AD-Census算法获取的视差值,
Figure 871640DEST_PATH_IMAGE051
为真实视差值(Ground Truth视差)。本发明的一个实施例中,T被设置为3,也 就是AD-Census视差和Ground Truth视差的差值小于3个像素时,样本被标记为正样本,其 余的为负样本。Kitti2012的前30对图像制作的总样本数约为390万。Ground Truth的视差 图像选用noc视差图。结果显示为:AD-Census计算的视差bad3错误率约为35.7%。按照正负 样本1:1的比例,最终将样本总数调整为280万左右用于网络的训练。
在最后一个1×1的卷积层之后,连接了一个Sigmoid函数,它可以让网络输出的值限制在(0,1)之间。Sigmoid函数如下:
Figure 923910DEST_PATH_IMAGE052
其中,X为隐层神经元的输入值,
Figure 642467DEST_PATH_IMAGE053
为隐层神经元的输出值。
损失函数选用二值交叉熵(binary cross-entropy,BCE)损失函数,定义为:
Figure 96582DEST_PATH_IMAGE054
其余的,如基于SGM算法在Kitti或是Middlebury数据集、AD-Census算法在Middlebury数据集、阈值选取等训练的模型都是基于这一套框架进行的。所有的模型训练和评估都是在非遮挡区域(noc)视差中进行的,每一个实验的训练集的正负样本保持1:1的比例。
本发明中,在Conf-CNN体系框架是使用pytorch实现的。所有模型使用Adam梯度下降法(β1=0.9, β2=0.999)进行端到端训练(momentum=0.9)。初始学习率设置为0.003,训练10个epoch之后学习率下降到0.0003,共训练14个epoch。本实验只对视差进行归一化处理,其余的不进行任何图像处理。进一步的,由于Conf-CNN网络非常轻量级,在CPU的设备就能训练网络,并且Batch size设置为64。
在本发明的一个实施例中,对不同策略训练出来的模型进行交叉验证,以评估模型的稳定性和泛化性。如使用Kitti 2012数据集的前30个立体图像对训练Conf-CNN网络,在Kitti2015和Middlebury数据集进行泛化性评估。
本发明中,所述数据集的评价标准包括3像素误差,该3像素误差的计算模型如下:
Figure 373717DEST_PATH_IMAGE055
Figure 913283DEST_PATH_IMAGE056
式中,
Figure 435531DEST_PATH_IMAGE057
为3像素误差,N为像素个数,
Figure 744153DEST_PATH_IMAGE017
是网络预测的视差值,
Figure 693654DEST_PATH_IMAGE018
是标准视差图的视差值,x、y为像素点坐标值,p是左图像中的像素位置,q是 左图像中的像素位置。
步骤四,将双目相机实施采集的动车组的左、右立体图像输入至步骤S3获取的域自适应双目视差网络中,以输出动车组的预测图,并根据该预测图对动车组进行故障检测。该步骤中,可通过认为的对预测图进行故障判断,也可通过将预测图与无故障的图片进行比对,从而进行故障分析。
整个列车车底数据集共计530组立体图像,基本包含了列车车底的全貌。列车车底图像有着高曝光、弱纹理、光照不均匀等缺点。除此之外,室外铁路上的双目相机标定也带来了一定的困难,随之而来的是立体校正图像可能会出错。另一方面,所提出的视差估计方法如果能够在这样艰苦的环境中还能有不错的性能,更能说明方法的鲁棒性和可行性。
本实施例中,采用上述训练后的域自适应双目视差网络对双目相机获取的照片进行预测,视差估计结果如图5所示。可以看到,虽然列车车底采集的图集非常恶劣,但视场内主体单位上的视差层级分布比较正确,符合视差的颜色分布情况。主体边缘、细小单位的视差估计较好。然后使用Conf-CNN网络对该视差图进行置信度过滤。其中,Conf-CNN网络模型使用的是AD-Census算法在Kitti数据集上训练的模型。置信度δ的取值为0.9。在列车车底数据集中使用Conf-CNN网络进行置信度评估的结果如图6所示。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种域自适应双目视差计算的动车组故障检测方法,其特征在于,包括以下步骤:
S1采用双目相机采集动车组的左、右立体图像,将一组左、右立体图像作为一个样本,构建数据集,并将上述数据集按照指定比例分为训练数据集和测试数据集;
S2以PSMnet网络为基础框架构建域自适应双目视差网络,采用跨域特征提取方法分别提取左、右立体图像的域特征,在域特征提取过程中,对立体图像的不同尺度特征进行指定比例的融合,以获取特征x,对特征x进行像素维度归一化和特征通道维度归一化,然后将归一化处理后的特征进行3D代价体积计算以实现代价融合,并采用损失函数计算输出密集视差图,采用Conf-CNN网络模型对密集视差图进行置信度过滤,选出训练数据集中用于训练的正样本;
S3采用正样本对域自适应双目视差网络进行训练,以获取网络的预训练权重,再通过调整学习率,继续采用正样本对域自适应双目视差网络进行训练,直至满足训练结束条件,获取最终的域自适应双目视差网络;
S4将双目相机实施采集的动车组的左、右立体图像输入至步骤S3获取的域自适应双目视差网络中,以输出动车组的预测图,并根据该预测图对动车组进行故障检测。
2.根据权利要求1所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,步骤S2中,跨域特征提取方法具体如下:获取左、右立体图像的每个尺度输出特征,每个尺度输出特征都需要经过包括有标准块层和转化块层的池化层,将尺度输出特征经池化层转化为指定尺寸,然后将低层特征和深层特征按照指定比例连接在一起,并应用卷积层和FN层输出,得到特征x
3.根据权利要求1所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,步骤S2中,对特征x进行像素维度归一化具体如下:
Figure 773102DEST_PATH_IMAGE001
Figure 705286DEST_PATH_IMAGE002
上式中,
Figure 518522DEST_PATH_IMAGE003
为图像h×w上像素维度的均值,H为图像的高度,W为图像的宽度,h为 特征x的高度,w为特征x的宽度,
Figure 998524DEST_PATH_IMAGE004
为高度为h宽度为w的特征,
Figure 973433DEST_PATH_IMAGE005
为图像h×w 上像素维度的标准差,
Figure 392913DEST_PATH_IMAGE006
为常数。
4.根据权利要求1所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,步骤S2中,对特征x进行特征通道维度归一化具体如下:
Figure 744260DEST_PATH_IMAGE007
Figure 565586DEST_PATH_IMAGE008
上式中,c是通道维度的位置,C是通道维度的长度,
Figure 711396DEST_PATH_IMAGE009
是通道c上像素维度的均 值,
Figure 618172DEST_PATH_IMAGE010
是通道c上像素维度的标准差,x为通道c上的特征,
Figure 773210DEST_PATH_IMAGE006
为常数。
5.根据权利要求1所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,步骤S2中:
输出大小为C×H×W的左特征图和右特征图,通过在每个视差层上对左、右特征图进行拼接,然后平移进入下一个视差层级,最终获取大小为2C×H×W×( D+1)的代价体积,
将上述2C×H×W×( D+1)的代价体积进行三维卷积计算,得到大小为D×H×W的视差体积,采用可微的soft argmin函数获取视差体积中视差维度代价最小的值作为密集视差图的预测视差;
其中,C是特征体积的通道数, D为训练数据集的最大视差,H为图像的高度,W为图像的宽度。
6.根据权利要求5所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,所述可微的soft argmin函数为:
Figure 947577DEST_PATH_IMAGE011
式中,
Figure 529868DEST_PATH_IMAGE012
softmax运算,d为视差层级,C d 为视差层级d的代价值,D max 是视差层级的最 大值,
Figure 189520DEST_PATH_IMAGE013
为估计值。
7.根据权利要求1所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,步骤S2中,所述Conf-CNN网络模型使用的是AD-Census算法在Kitti数据集上训练的模型,且在Conf-CNN网络模型中,置信度的取值为0.9。
8.根据权利要求7所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,正样本的挑选策略为:
将AD-Census算法获取的视差值减去真实视差值,若两者的差值大于阈值,则认为是正样本,否则,认为是负样本。
9.根据权利要求1-8任一项所述的一种域自适应双目视差计算的动车组故障检测方法,其特征在于,所述数据集的评价标准包括3像素误差,该3像素误差的计算模型如下:
Figure 617090DEST_PATH_IMAGE014
Figure 413008DEST_PATH_IMAGE015
式中,
Figure 166200DEST_PATH_IMAGE016
为3像素误差,N为像素个数,
Figure 781989DEST_PATH_IMAGE017
是网络预测的视差值,
Figure 278830DEST_PATH_IMAGE018
是标准视差图的视差值,x、y为像素点坐标值,p是左图像中的像素位置,q是左 图像中的像素位置。
10.一种域自适应双目视差计算的动车组故障检测系统,其特征在于,用于实现权利要求1-9任一项所述的方法,包括:
跨域特征提取模块,用于采用跨域特征提取方法分别提取左、右立体图像的域特征,在域特征提取过程中,对立体图像的不同尺度特征进行指定比例的融合,以获取特征x,对特征x进行像素维度归一化和特征通道维度归一化,然后将归一化处理后的特征进行3D代价体积计算以实现代价融合;
视差图提取模块,用于用损失函数计算输出密集视差图;
Conf-CNN网络模型模块,用于密集视差图进行置信度过滤,选出训练数据集中用于训练的正样本;
域自适应双目视差网络模块,用于用正样本进行训练,以获取网络的预训练权重,再通过调整学习率,继续采用正样本对域自适应双目视差网络进行训练,直至满足训练结束条件,获取最终的域自适应双目视差网络;以及,
故障检测模块,用于将最终的域自适应双目视差网络输出的动车组的预测图进行故障检测。
CN202210547084.5A 2022-05-20 2022-05-20 一种域自适应双目视差计算的动车组故障检测方法及系统 Pending CN114648669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210547084.5A CN114648669A (zh) 2022-05-20 2022-05-20 一种域自适应双目视差计算的动车组故障检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210547084.5A CN114648669A (zh) 2022-05-20 2022-05-20 一种域自适应双目视差计算的动车组故障检测方法及系统

Publications (1)

Publication Number Publication Date
CN114648669A true CN114648669A (zh) 2022-06-21

Family

ID=81996423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210547084.5A Pending CN114648669A (zh) 2022-05-20 2022-05-20 一种域自适应双目视差计算的动车组故障检测方法及系统

Country Status (1)

Country Link
CN (1) CN114648669A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998453A (zh) * 2022-08-08 2022-09-02 国网浙江省电力有限公司宁波供电公司 一种基于高尺度单元的立体匹配模型及其应用方法
CN115170638A (zh) * 2022-07-13 2022-10-11 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法
CN117078984A (zh) * 2023-10-17 2023-11-17 腾讯科技(深圳)有限公司 双目图像处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600581A (zh) * 2016-12-02 2017-04-26 北京航空航天大学 一种基于双目立体视觉的列车运行故障自动检测系统及方法
CN110070574A (zh) * 2019-04-29 2019-07-30 优乐圈(武汉)科技有限公司 一种基于改进PSMNet的双目视觉立体匹配算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600581A (zh) * 2016-12-02 2017-04-26 北京航空航天大学 一种基于双目立体视觉的列车运行故障自动检测系统及方法
CN110070574A (zh) * 2019-04-29 2019-07-30 优乐圈(武汉)科技有限公司 一种基于改进PSMNet的双目视觉立体匹配算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MATTEO POGGI 等: "Good cues to learn from scratch a confidence measure for passive depth sensors", 《IEEE SENSORS》 *
SCURRY: "PSMNet学习记录:基于深度学习的双⽬⽴体匹配算法", 《CSDN》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170638A (zh) * 2022-07-13 2022-10-11 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法
CN115170638B (zh) * 2022-07-13 2023-04-18 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法
CN114998453A (zh) * 2022-08-08 2022-09-02 国网浙江省电力有限公司宁波供电公司 一种基于高尺度单元的立体匹配模型及其应用方法
CN117078984A (zh) * 2023-10-17 2023-11-17 腾讯科技(深圳)有限公司 双目图像处理方法、装置、电子设备及存储介质
CN117078984B (zh) * 2023-10-17 2024-02-02 腾讯科技(深圳)有限公司 双目图像处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109655019B (zh) 一种基于深度学习和三维重建的货物体积测量方法
Cheng et al. Noise-aware unsupervised deep lidar-stereo fusion
CN106504248B (zh) 基于计算机视觉的车辆损伤判别方法
CN114648669A (zh) 一种域自适应双目视差计算的动车组故障检测方法及系统
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
CN110070025B (zh) 基于单目图像的三维目标检测系统及方法
CN113177565B (zh) 一种基于深度学习的双目视觉位置测量系统及方法
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
CN110197505B (zh) 基于深度网络及语义信息的遥感图像双目立体匹配方法
CN104517095B (zh) 一种基于深度图像的人头分割方法
CN102982334B (zh) 基于目标边缘特征与灰度相似性的稀疏视差获取方法
CN114067197B (zh) 一种基于目标检测及双目视觉的管道缺陷识别与定位方法
CN115272271A (zh) 一种基于双目立体视觉的管道缺陷检测与定位测距系统
WO2020221443A1 (en) Scale-aware monocular localization and mapping
CN113393439A (zh) 一种基于深度学习的锻件缺陷检测方法
CN114359181A (zh) 一种基于图像和点云的智慧交通目标融合检测方法及系统
CN112365586A (zh) 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN116071424A (zh) 基于单目视觉的果实空间坐标定位方法
CN116664856A (zh) 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质
CN115019208A (zh) 一种面向动态交通场景的路面三维重建方法和系统
CN111105451A (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN110349209A (zh) 基于双目视觉的振捣棒定位方法
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220621

RJ01 Rejection of invention patent application after publication