CN116503664A - 一种区分高相似度目标物体的分类方法 - Google Patents
一种区分高相似度目标物体的分类方法 Download PDFInfo
- Publication number
- CN116503664A CN116503664A CN202310546767.3A CN202310546767A CN116503664A CN 116503664 A CN116503664 A CN 116503664A CN 202310546767 A CN202310546767 A CN 202310546767A CN 116503664 A CN116503664 A CN 116503664A
- Authority
- CN
- China
- Prior art keywords
- images
- objects
- similarity
- classification
- proportion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000007613 environmental effect Effects 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000008859 change Effects 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 6
- 206010010688 Conjoined twins Diseases 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 34
- 238000012360 testing method Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013178 mathematical model Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282465 Canis Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种区分高相似度目标物体的分类方法,包括:定义高相似度对象集,其中包括易错类别、关联类别等;获取无人驾驶汽车公路正常行驶中不同位置环境图像;利用目标检测技术检测环境图像中多个对象;筛选对象标签类别属于高相似度对象集合;利用元学习的思想训练孪生神经网络,使其具备判断图像中主体像素比例是否改变的能力;将不同位置环境图像中的同一对象的前后对比照片输入孪生神经网络,获取分类结果;根据距离不同物体像素比例变化率不同这一透视投影效应,变化率较小为远处对象,变化率较大为近处对象,物体像素比例变化率映射为距离因素精确区分高相似度物体,从而有效提升分类效果。
Description
技术领域
本发明涉及目标检测框架中的图像分类领域,具体涉及一种区分高相似度目标物体的分类方法。
背景技术
目标检测是计算机视觉领域中的一项重要任务,其目的是在图像或视频中识别出目标物体的位置和类别信息。在计算机视觉中,目标检测是一项非常重要的任务,它广泛应用于智能交通、安防监控、自动驾驶、人脸识别等领域。目标检测通常可以分为两个阶段:目标提取和目标分类。目标提取通常使用边缘检测、图像分割或特征提取等技术,将图像中的目标从背景中分离出来;目标分类则是将提取的目标分为不同的类别,通常使用深度学习算法进行实现,例如循环神经网络、卷积神经网络等。
近年来,深度学习方法在目标分类任务中表现出了很好的性能,特别是卷积神经网络在目标分类任务中表现良好。其基本思路是通过多层卷积层和池化层提取图像特征,并通过全连接层进行分类。深度学习方法在大规模数据集上进行训练,可以自动学习到图像的深层特征,因此在目标分类任务中具有更好的性能和泛化能力。目标分类同样也是计算机视觉领域的一项基础任务,其目的是将输入的图像或视频中的物体分为不同的预定义类别。但当目标之间的相似度较高时,分类模型会出现错误分类的情况。
在现实场景中,由于高相似度物体引发误分类的情况发生于特斯拉车型的全面自动驾驶功能(FSD)中,系统错误地将月亮识别为黄灯,并使得在高速巡航行驶中的车辆减速,这是由于月亮和黄灯的特征相似度较高,导致卷积神经网络无法正确区分二者。类似的误分类问题不仅存在于无人驾驶汽车领域,也存在于其他领域。例如,无人战斗机在视觉导航的过程中或者在丛林、低空建筑群作战时,也存在相似目标识别困难的问题。这些误分类问题的根本原因是目标之间在特征向量中的数值差异较小,导致模型难以区分它们。然而,目前的卷积神经网络在应对高相似度对象时仍然无法避免出现误分类的情况,这会导致模型做出错误的决策,从而产生负面的影响。如上述例子中,模型错误分类可能引发严重的交通事故从而造成重大损失。因此,改善并解决高相似度目标在神经网络误分类的情况迫在眉睫。
发明内容
针对现有技术存在的不足,本发明引入元学习机制克服小样本训练困难,并利用非视觉因素完成高相似目标准确识别的目的;提供一种区分高相似度目标物体的分类方法,以解决现有的在应对高相似目标场景下错误分类的问题,有效地提高神经网络分类准确率。
一种区分高相似度目标物体的分类方法,具体包括以下内容:
步骤1:定义高相似度类别集;
所述高相似度类别具体为:在数据集中具有相似特征或属性的成对、成组类别,在颜色、形状和纹理方面均高度相似;
所述高相似度类别集包括易错类别、同一类别和相似类别;
所述易错类别:对象在外观、形状或者功能上与其他对象非常相似,容易混淆或者弄错;
所述同一类别:多个对象属于同一种类别,这一类别物体具备相同的特征或者功能;
所述相似类别:同一类别的对象具有相似形状、纹理或颜色的外观特征;
步骤2:利用YOLO v3目标检测框架筛选识别高相似度类别的对象;
通过设备搭载传感器获取其运动过程中不同位置的环境图像,将设备所处不同位置的环境源图像输入YOLO v3目标检测框架;YOLO v3目标检测框架输出为检测到的目标物体的位置、类别和置信度信息;对每一目标物体检测结果进行筛选,要求其置信度高于预设阈值,并且目标物体类别属于高相似度类别集,从而筛选获得易混淆目标信息;
所述设备为有目标检测需求的终端和智能系统;所述设备搭载的传感器是用于捕捉图像和视频的仪器,用于实现目标检测应用;
所述获取运动过程中不同位置的环境图像,其中,获取环境图像位置距离间隔遵循动态调整机制,间隔距离长短根据上一个位置获取环境源图像的目标检测输出结果决定;环境源图像检测存在物体属于高相似度对象集则增加环境采集频率;反之则降低环境采集频率;
步骤3:分组预训练Siamese孪生神经网络;
所述Siamese孪生神经网络由两个完全相同的子网络组成,每个子网络都有相同的结构和权重,用于处理成对的输入,学习成对图像之间的相似性和差异性;
采用元学习的思想训练Siamese孪生神经网络,使其能够准确判断两个图像中主体部分像素比例是否发生变化;步骤如下:
步骤3.1:数据集预处理:基于ImageNet数据集,并且将数据集按照8:2的比例分配为训练集和测试集;将两个数据集分别分为两组进行训练和测试;一组改变图像主体部分像素比例大小,标签为1;另一组是未改变像素比例的图像,标签为0;所述像素比例,用于描述在图像中物体像素数目占图像的总像素数目的比例,是物体占总图像面积的比例;
步骤3.2:构建Siamese孪生神经网络:使用卷积神经网络作为Siamese孪生神经网络的基础结构;Siamese孪生网络数学模型如下:
其中θ为模型参数,N表示数据集中样本数量,Li()表示第i对样本的损失函数,和/>分别表示用于训练和测试样本集合;
步骤3.3:定义损失函数:基于二分类问题,使用二元交叉熵损失函数来衡量Siamese孪生神经网络预测结果与真实标签之间的差异;损失函数表达式如下:
其中N是数据集中样本数量,yi是第i对样本的真实标签,pi是Siamese孪生网络预测的标签;
损失函数衡量了Siamese孪生网络对于输入图像的预测结果与真实标签之间的差异;当孪生网络对一对输入图像的预测结果与它们的真实标签相同时,损失函数值较小;反之,当预测结果与真实标签不同时,损失函数值较大;通过最小化损失函数,Siamese孪生网络会逐步学习到如何判断两张图像中的物体像素比例是否发生变化的规律,并通过调整参数的方式实现更准确的预测结果;
步骤3.4:按照上述步骤对Siamese孪生网络进行分组预训练:将成对图像作为Siamese孪生网络的输入,并计算损失函数,最后使用反向传播算法更新网络的参数;
步骤4:利用步骤3训练完成的Siamese孪生网络进行目标分类,输出标签分类结果;
训练得到的Siamese孪生网络用于目标检测框架的目标物体分类任务;通过在步骤2中不同位置的环境源图像中筛选获取同一易混淆对象信息的图像,在不同位置截取同一对象图像成对输入Siamese孪生网络,输出分类结果;如两张图像中主体部分像素比例变化较大,则输出标签为1;如主体部分像素比例变化较小,则输出标签为0;
步骤5:根据标签分类结果区分高相似度物体对象;
步骤5.1:获取Siamese孪生网络分类结果标签:如分类结果标签为1则表示对象像素比例发生明显变化,反之标签为0则表示对象像素比例未发生明显变化;
步骤5.2:根据透视投影效应,在三维空间中的物体距离观察者越近,在二维图像的投影越大,而三维空间中的物体越远,在二维图像的投影就越小;对象在不同位置的图像中如像素比例未发生变化则表示该对象距离设备传感器较远,反之像素比例发生明显变化则表示该对象距离设备传感器较近;依据距离这一非视觉属性成功区分高相似度物体。
本发明具有以下有益技术效果:
区分高相似度物体是计算机视觉领域中的一个重要研究方向,本发明通过提升图像分类准确性以及泛化能力,在无人驾驶、医疗诊断、工业生产等领域能成功区分高相似度物体,提高安全性以及生产效率,推动计算机视觉领域的进步和发展。
附图说明
图1为本发明一种区分高相似度目标的分类方法流程图。
图2为实际应用中无人驾驶汽车误分类的实际案例。
图3为本发明预训练Siamese孪生神经网络框架图。
图4为本发明模拟无人驾驶汽车的目标检测框架检测结果图,距离交通指示灯较远位置拍摄场景图像。
图5为本发明模拟无人驾驶汽车的目标检测框架检测结果图,距离交通指示灯较近位置拍摄场景图像。
图6为本发明预训练Siamese孪生网络所用到的分组训练集示例。
具体实施方式
下面结合附图和实施例对本发明做进一步说明;
目前主流的分类网络不足以区分具有高相似度特征以及外观高度一致的物体;本发明应用实例为无人驾驶汽车目标检测框架的后置分类优化部分,图2为特斯拉汽车无人驾驶汽车搭载的神经网络错误的将月亮识别为黄灯,进而影响整车的行车逻辑,有不断地轻踩刹车的行为。这种误分类的情况发生在无人驾驶领域时时可能引发严重的交通安全事故,进而严重威胁人的生命财产安全。为此,本发明提供一种区分高相似度目标的分类方法,可以应用于交通识别、医疗诊断等场景中,通过元学习思想与非视觉因素的进一步结合实现对高相似度物体精准分类,可以有效解决复杂场景下高相似物体的误分类问题,从而提高无人驾驶汽车的交通安全性。
一种区分高相似度目标的分类方法,如附图1所示,具体包括以下内容:
步骤1:定义高相似度类别集;
所述高相似度类别具体为:在数据集中具有相似特征或属性的成对、成组类别,在颜色、形状和纹理方面均高度相似。由于高相似度类别之间的特征差异较小,导致普通神经网络无法准确区分;
所述高相似度类别集包括易错类别、同一类别和相似类别,普通图像分类网络和模块无法正确区分的类别或易混淆类别;所述高相似对象集合是指在数据集中具有相似特征或属性的样本类别。这些类别通常外观、特征、属性等方面都高度相似,甚至人眼都难以分辨。在分类问题中,高相似度类别可能会导致图像分类器难以准确地区分不同类别之间的样本,从而影响分类器的性能。
所述易错类别:对象在外观、形状或者功能上与其他对象非常相似,容易混淆或者弄错;
所述同一类别:多个对象属于同一种类别,同一类别物体具备相同的特征或者功能;例如,所有的狗都属于犬科,不同种类狗之间只有细微区别,此时神经网络难以察觉不同种类狗之间的细微区别,从而导致误分类的结果。
所述相似类别:同一类别的对象具有相似的形状、纹理或颜色等外观特征;例如,所有圆形物体以及具有相似纹理特征的物体。
本发明实施中,将高相似对象集合S定义为:S={(月亮,黄灯),(太阳,红灯),(云朵贴纸,天空真实云朵)}。本发明实施设定高相似对象集合S中元素通常成对或成组存在,集合中每一组元素的类别之间互为高相似度关系,如:月亮和黄灯为高相似度关系,普通分类神经网络难以准确区分这两类。本发明所列举高相似对象集合S包括但不限于以上所列举三组元素类别,可以根据现实实际情况需要进行补充修改。
步骤2:利用YOLO v3目标检测框架识别高相似度类别的对象;
通过设备搭载传感器获取其运动过程中不同位置的环境图像,将设备所处不同位置的环境源图像输入YOLO v3目标检测框架;YOLO v3目标检测框架输出为检测到的目标物体的位置、类别和置信度信息;对每一目标物体检测结果进行筛选,要求其置信度高于预设阈值,并且目标物体类别属于高相似度类别集,从而获得易混淆目标的信息;
所述设备为有目标检测需求的终端和智能系统;所述设备搭载的传感器是用于捕捉图像和视频的仪器,用于实现目标检测应用;
所述获取运动过程中不同位置的环境图像,其中,获取环境图像位置距离间隔遵循动态调整机制,间隔距离长短根据上一个位置获取环境源图像的目标检测输出结果决定;环境源图像检测存在物体属于高相似度对象集则增加环境采集频率,以便及时修正物体分类结果;反之则降低环境采集频率以节约计算成本;
本发明实施例,获取无人驾驶汽车在公路正常行驶状态不同位置图像,如图4、5所示。无人驾驶汽车公路正常行驶拍摄第一张环境源图像P1,行驶一段路程d后拍摄第二张图像P2,路程d的大小设置取决于上一次识别拍摄环境源图像P1的目标检测输出结果中是否存在相似类别集S中的类别;如上一次识别图片P1检测结果存在高相似类别集合S中的类别,则行驶路程d适当减小,在较短的路程间隔内增加识别频率以快速校准分类检测结果。
本发明实施例将YOLO v3用于模拟真实无人驾驶汽车上搭载的目标检测框架,解决普通目标检测框架的分类模块存在的误分类的问题。利用YOLO v3模拟目标检测框架的检测输出结果;将拍摄环境源图像P1、P2按照拍摄先后顺序依次输入目标检测框架中,输出为环境图像中每一个目标对象划分位置信息以及类型信息O={bbox,score,label},其中bbox=(x1,y1,x2,y2)中包含对象的边界信息,score,label分别表示分类的置信度以及对象分类的类别。
设置条件筛选标签属于上述相似类别集的对象label in S,并且要求相应的置信度大于额定阈值score>value(0.3),此处额定阈值取0.3以确保相应分类类别拥有较高的置信度。通过条件筛选环境源图像P1、P2的目标检测输出结果后可获取拥有高相似度的成对物体,如:O11、O12和O21、O22。
步骤3:分组预训练Siamese孪生神经网络;如附图3所示;
所述Siamese孪生神经网络由两个完全相同的子网络组成,每个子网络都有相同的结构和权重,用于处理成对的输入,学习成对图像之间的相似性和差异性;
采用元学习的思想训练Siamese孪生神经网络,使其能够准确判断两个图像中主体部分像素比例是否发生变化;步骤如下:
步骤3.1:数据集预处理:采用ImageNet Nips2017竞赛数据集,其中包含1000张不同类别的图像样本。将数据集按照8:2的比例分配为训练集和测试集,800张图像样本用于训练集,200张图像样本用于测试集本发明实施例引用的分组训练集如附图6所示,利用YOLO v3框架从训练数据中截取包含主体对象的图像区域。将整个训练数据集分为两组,各包含400张图像。在第一组中,对图像主体对象进行拉伸变换,并将这些图像标注为在第二组中,保持图像不变,标注为(x,x,0)。在这些成对的训练数据中,标签1表示一对图像中的一张对主体对象进行了拉伸变换,改变了主体在图像中的像素比例。标签0表示图像主体对象未经变换。所述像素比例,用于描述在图像中物体像素数目占图像的总像素数目的比例,是物体占总图像面积的比例;
步骤3.2:构建Siamese孪生神经网络:使用卷积神经网络作为Siamese孪生神经网络的基础结构;Siamese孪生网络数学模型如下:
其中θ为模型参数,N表示数据集中样本数量,Li()表示第i对样本的损失函数,和/>分别表示用于训练和测试样本集合;
步骤3.3:定义损失函数:基于二分类问题,使用二元交叉熵损失函数来衡量Siamese孪生神经网络预测结果与真实标签之间的差异;损失函数表达式如下:
其中N是数据集中样本数量,yi是第i对样本的真实标签,pi是Siamese孪生网络预测的标签;
损失函数衡量了Siamese孪生网络对于输入图像的预测结果与真实标签之间的差异;当孪生网络对一对输入图像的预测结果与它们的真实标签相同时,损失函数值较小;反之,当预测结果与真实标签不同时,损失函数值较大;通过最小化损失函数,Siamese孪生网络会逐步学习到如何判断两张图像中的物体像素比例是否发生变化的规律,并通过调整参数的方式实现更准确的预测结果;
步骤3.4:按照上述步骤对Siamese孪生网络进行分组预训练:将成对图像作为Siamese孪生网络的输入,并计算损失函数,最后使用反向传播算法更新网络的参数;Siamese孪生网络通过二分类器来判断两张图片主体部分像素比例是否发生变化。二分类器的输出表示为y={0,1},其中y=0表示两种图片中主体的像素比例没有发生变化,y=1表示发生了变化。
预训练完成后,在包含200对图像样本的测试集上评估Siamese孪生网络的性能。采用与训练集同样的方法,对100张图像中的主体部分进行拉伸变换,改变主体对象的像素比例,以测试孪生网络是否能够区分两张图像中主体对象的像素比例的变化。使用预训练后的Siamese孪生网络在处理过的测试集上进行预测,并计算平均准确率来评估孪生网络性能。最终的实验结果显示,预训练后的Siamese孪生网络在测试集上的准确率可以达到100%。这意味着,孪生网络具有很强的区分图像样本中主体对象像素比例是否变化的能力。
步骤4:利用步骤3训练完成的Siamese孪生网络进行目标分类,输出标签分类结果;
如第三步分组预训练Siamese孪生网络所述,基于元学习的Siamese孪生网络具有很强的泛化能力和适应性,能够快速适应新的未见过的任务。
训练得到的Siamese孪生网络用于目标检测框架的目标物体分类任务;如步骤2所述,将目标检测框架的对象检测结果进行筛选,获得易混淆目标信息。通过在不同位置的环境源图像中获取同一易混淆对象信息的图像,将他们作为成对图像输入Siamese孪生网络,输出分类结果;如两张图像中主体部分像素比例变化较大,则输出标签为1;如主体部分像素比例变化较小,则输出标签为0;
本发明实施中,将无人驾驶汽车在远近不同位置拍摄的环境源图像分别输入YOLOv3目标检测框架,通过目标检测框架输出结果条件筛选后获取同一易混淆物体在远近不同位置情况下的一组对象O11和O12。对象表示为O={bbbox,lable,score}。对比包含同一对象物体的两张图像中的边界框,选择像素面积更大的边界框作为标准。随后拉伸扩展另一张图像中较小的边界框,使其范围匹配标准边界框。通过此方式获得两张包含同一物体的图像,但物体在图像中的像素面积比例不同。将处理后的两张图像输入Siamese孪生网络中构建支持集(support set)和查询集(query set),Siamese孪生网络输出预测结果判断两张图片是否发生明显的像素比例变化。如孪生网络输出结果为1,则两张图像中主体部分像素比例变化较大;如孪生网络输出结果为0,则两张图像中主体部分像素比例变化较小。
步骤5:根据标签分类结果区分高相似度物体对象;
普通分类神经网络难以正确区分高相似度物体,这主要是因为从图像特征的角度来看,高相似度物体之间的特征存在很大程度的重叠。因此,本研究引入了距离这一非视觉属性,以帮助有效区分高相似度物体。具体步骤如下:
步骤5.1:获取Siamese孪生网络分类结果标签:如步骤4所述,将同一易混淆对象所在不同位置图像成对输入Siamese孪生网络;如Siamese孪生网络输出分类结果标签为1则表示对象像素比例发生明显变化,反之标签为0则表示对象像素比例未发生明显变化;
步骤5.2:根据透视投影效应,在三维空间中的物体距离观察者越近,在二维图像的投影越大,而三维空间中的物体越远,在二维图像的投影就越小;易混淆对象在不同位置的图像中如像素比例未发生变化则表示该易混淆对象距离设备传感器较远,反之像素比例发生明显变化则表示该易混淆对象距离设备传感器较近。本发明实施中,如图2所示,在无人驾驶汽车环境下车载目标检测框架的分类模块错误将月亮识别为黄灯。从图像特征角度分析月亮和黄灯类别颜色、形状等外观特征非常相似,因此本发明引入距离这一非视觉属性用于区分高相似度物体。在此实例中,无人驾驶汽车如识别到属于高相似度类别集中的黄灯类别,则会迅速缩短检测间隔d,通过截取不同位置同一黄灯对象图像同时输入Siamese孪生网络,如孪生网络输出标签结果为0,则表示这一目标对象像素比例变化较小,距离当前汽车较远,此时当前高相似度对象为月亮类而并非黄灯类,通过本发明可及时验证高相似度对象类别,有效避免误分类的情况。
根据距离这一非视觉属性区分高相似度物体有效避免视觉上的相似度误判同时有效提高识别准确性和泛化能力;同时距离作为一种通用属性,不仅适用于相似物体,也同样适用于不同种类的物体,这使得用距离因素提升分类网络鲁棒性的方法具有更广泛的应用前景。
Claims (7)
1.一种区分高相似度目标物体的分类方法,其特征在于,具体包括以下内容:
步骤1:定义高相似度类别集;
步骤2:利用YOLO v3目标检测框架筛选识别高相似度类别的对象;
步骤3:分组预训练Siamese孪生神经网络;
步骤4:利用步骤3训练完成的Siamese孪生网络进行目标分类,输出标签分类结果;
步骤5:根据标签分类结果区分高相似度物体对象。
2.根据权利要求1所述的一种区分高相似度目标物体的分类方法,其特征在于,步骤1所述高相似度类别具体为:在数据集中具有相似特征或属性的成对、成组类别,在颜色、形状和纹理方面均高度相似;
所述高相似度类别集包括易错类别、同一类别和相似类别;
所述易错类别:对象在外观、形状或者功能上与其他对象非常相似,容易混淆或者弄错;
所述同一类别:多个对象属于同一种类别,这一类别物体具备相同的特征或者功能;
所述相似类别:同一类别的对象具有相似形状、纹理或颜色的外观特征。
3.根据权利要求1所述的一种区分高相似度目标物体的分类方法,其特征在于,步骤2具体为:
通过设备搭载传感器获取其运动过程中不同位置的环境图像,将设备所处不同位置的环境源图像输入YOLO v3目标检测框架;YOLO v3目标检测框架输出为检测到的目标物体的位置、类别和置信度信息;对每一目标物体检测结果进行筛选,要求其置信度高于预设阈值,并且目标物体类别属于高相似度类别集,从而筛选获得易混淆目标信息。
4.根据权利要求3所述的一种区分高相似度目标物体的分类方法,其特征在于,所述设备为有目标检测需求的终端和智能系统;所述设备搭载的传感器是用于捕捉图像和视频的仪器,用于实现目标检测应用;
所述获取运动过程中不同位置的环境图像,其中,获取环境图像位置距离间隔遵循动态调整机制,间隔距离长短根据上一个位置获取环境源图像的目标检测输出结果决定;环境源图像检测存在物体属于高相似度对象集则增加环境采集频率;反之则降低环境采集频率。
5.根据权利要求1所述的一种区分高相似度目标物体的分类方法,其特征在于,步骤3所述Siamese孪生神经网络由两个完全相同的子网络组成,每个子网络都有相同的结构和权重,用于处理成对的输入,学习成对图像之间的相似性和差异性;
采用元学习的思想训练Siamese孪生神经网络,使其能够准确判断两个图像中主体部分像素比例是否发生变化;步骤如下:
步骤3.1:数据集预处理:基于ImageNet数据集,并且将数据集按照8:2的比例分配为训练集和测试集;将两个数据集分别分为两组进行训练和测试;一组改变图像主体部分像素比例大小,标签为1;另一组是未改变像素比例的图像,标签为0;所述像素比例,用于描述在图像中物体像素数目占图像的总像素数目的比例,是物体占总图像面积的比例;
步骤3.2:构建Siamese孪生神经网络:使用卷积神经网络作为Siamese孪生神经网络的基础结构;Siamese孪生网络数学模型如下:
其中θ为模型参数,N表示数据集中样本数量,Li()表示第i对样本的损失函数,和/>分别表示用于训练和测试样本集合;
步骤3.3:定义损失函数:基于二分类问题,使用二元交叉熵损失函数来衡量Siamese孪生神经网络预测结果与真实标签之间的差异;损失函数表达式如下:
其中N是数据集中样本数量,yi是第i对样本的真实标签,pi是Siamese孪生网络预测的标签;
损失函数衡量了Siamese孪生网络对于输入图像的预测结果与真实标签之间的差异;当孪生网络对一对输入图像的预测结果与它们的真实标签相同时,损失函数值较小;反之,当预测结果与真实标签不同时,损失函数值较大;通过最小化损失函数,Siamese孪生网络会逐步学习到如何判断两张图像中的物体像素比例是否发生变化的规律,并通过调整参数的方式实现更准确的预测结果;
步骤3.4:按照上述步骤对Siamese孪生网络进行分组预训练:将成对图像作为Siamese孪生网络的输入,并计算损失函数,最后使用反向传播算法更新网络的参数。
6.根据权利要求1所述的一种区分高相似度目标物体的分类方法,其特征在于,步骤4具体为:
训练得到的Siamese孪生网络用于目标检测框架的目标物体分类任务;通过在步骤2中不同位置的环境源图像中筛选获取同一易混淆对象信息的图像,在不同位置截取同一对象图像成对输入Siamese孪生网络,输出分类结果;如两张图像中主体部分像素比例变化较大,则输出标签为1;如主体部分像素比例变化较小,则输出标签为0。
7.根据权利要求1所述的一种区分高相似度目标物体的分类方法,其特征在于,步骤5具体为:
步骤5.1:获取Siamese孪生网络分类结果标签:如分类结果标签为1则表示对象像素比例发生明显变化,反之标签为0则表示对象像素比例未发生明显变化;
步骤5.2:根据透视投影效应,在三维空间中的物体距离观察者越近,在二维图像的投影越大,而三维空间中的物体越远,在二维图像的投影就越小;对象在不同位置的图像中如像素比例未发生变化则表示该对象距离设备传感器较远,反之像素比例发生明显变化则表示该对象距离设备传感器较近;依据距离这一非视觉属性成功区分高相似度物体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310546767.3A CN116503664A (zh) | 2023-05-16 | 2023-05-16 | 一种区分高相似度目标物体的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310546767.3A CN116503664A (zh) | 2023-05-16 | 2023-05-16 | 一种区分高相似度目标物体的分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503664A true CN116503664A (zh) | 2023-07-28 |
Family
ID=87328336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310546767.3A Pending CN116503664A (zh) | 2023-05-16 | 2023-05-16 | 一种区分高相似度目标物体的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503664A (zh) |
-
2023
- 2023-05-16 CN CN202310546767.3A patent/CN116503664A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101175B (zh) | 基于局部图像的高速公路车辆检测及多属性特征提取方法 | |
Li et al. | Traffic light recognition for complex scene with fusion detections | |
CN108921083B (zh) | 基于深度学习目标检测的非法流动摊贩识别方法 | |
CN111723748A (zh) | 一种红外遥感图像舰船检测方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN107273832B (zh) | 基于积分通道特征与卷积神经网络的车牌识别方法及系统 | |
CN111723654A (zh) | 基于背景建模、YOLOv3与自优化的高空抛物检测方法及装置 | |
CN111680632A (zh) | 基于深度学习卷积神经网络的烟火检测方法及系统 | |
CN112633149B (zh) | 一种域自适应雾天图像目标检测方法和装置 | |
CN109376580B (zh) | 一种基于深度学习的电力塔架部件识别方法 | |
CN110598693A (zh) | 一种基于Faster-RCNN的船牌识别方法 | |
CN108073940B (zh) | 一种非结构化环境中的3d目标实例物体检测的方法 | |
CN104615986A (zh) | 利用多检测器对场景变化的视频图像进行行人检测的方法 | |
CN112818905B (zh) | 一种基于注意力和时空信息的有限像素车辆目标检测方法 | |
KR20210151773A (ko) | 대상 재인식 방법 및 장치, 단말 및 저장 매체 | |
CN112084890A (zh) | 基于gmm和cqfl的多尺度识别交通信号标志的方法 | |
CN111950583B (zh) | 一种基于gmm聚类的多尺度识别交通信号标志的方法 | |
CN116385958A (zh) | 一种用于电网巡检和监控的边缘智能检测方法 | |
CN114841920A (zh) | 基于图像处理的火焰识别方法、装置及电子设备 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
CN107862341A (zh) | 一种车辆检测方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN117475353A (zh) | 基于视频的异常烟雾识别方法及系统 | |
CN106446832B (zh) | 一种基于视频的实时检测行人的方法 | |
CN112347967A (zh) | 一种复杂场景下融合运动信息的行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |