CN112163490A - 一种基于场景图片的目标检测方法 - Google Patents

一种基于场景图片的目标检测方法 Download PDF

Info

Publication number
CN112163490A
CN112163490A CN202010995193.4A CN202010995193A CN112163490A CN 112163490 A CN112163490 A CN 112163490A CN 202010995193 A CN202010995193 A CN 202010995193A CN 112163490 A CN112163490 A CN 112163490A
Authority
CN
China
Prior art keywords
target detection
network
module
picture
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010995193.4A
Other languages
English (en)
Inventor
颜成钢
王灵波
吴嘉琪
孙垚棋
张继勇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010995193.4A priority Critical patent/CN112163490A/zh
Publication of CN112163490A publication Critical patent/CN112163490A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于场景图片的目标检测方法,本发明对训练数据集进行图像预处理,然后搭建基于U‑net网络的目标检测网络,将U‑net的encoder部分替换为为协同提取模块,所述的协同提取模块包括主、副两条支路和桥接模块,通过concatenate操作将两条支路处理完成的信息进行融合,通过桥接模块进行进一步处理,最后将桥接模块处理后的数据输入decoder部分,通过训练数据集训练目标检测网络,最后将待检测图像输入训练好的目标检测网络中进行图像目标检测。本发明利用了相同物品场景图之间的相关性信息,并对siamese net、U‑net进行改进,使得图像的特征提取和相关性提取都得到了更好的结果。

Description

一种基于场景图片的目标检测方法
技术领域
本发明属于计算机视觉领域,特别是显著性检测和注意力网络的应用领域,具体涉及一种基于场景图片的目标检测方法。
背景技术
随着深度学习、神经网络的飞速发展,计算机视觉领域实现了前所未有的跨越。目标检测作为计算机视觉领域一个经典大类,受到广泛的研究和探讨,在显著性检测、行人重识别、图像数据评估等各个方向都取得了巨大进步。在生活中,面部扫描、车牌扫描、天网工程等都利用到了目标检测的相关技术。
现如今,如行人重识别这样的多数的目标检测工作大多利用标签数据集进行训练,数据集中待检测的目标使用方框框出,在训练时一般将数据集送入VGG、Resnet等经典网络中做编码,之后将得到的特征图进行加工,从而获得自己想要的模型结果。
孪生神经网络,即siamese network,是一种较为经典的网络结构。在计算机视觉领域,有许多问题需要考虑到输入数据的相似度问题。以往孪生神经网络通过共享两个网络的权值数据,对两个输入数据进行评估,计算图像的相似度特性,常用来做手写体识别或图像比较。
显著性检测是计算机视觉领域的经典内容,其成果也对包括如行人重识别、人脸识别等的图像处理和包括视频分割、视频检测等的视频处理作出了巨大贡献。在图像方面,有大量的数据集(像素级标注)可供选择训练,对模型准确度的提升起到了巨大帮助。
U-Net是现在最为流行的图像分割网络,网络主要包括下采样和上采样两个部分,通过下采样对图片特征进行提取处理,而上采样则可以将特征信息进行还原,使得网络最后输出为一个完整图像。
尽管目标检测已有巨大发展,在检测精度以及检测速度上都有巨大进步,但是目标检测较少关注于上下文内容,这也使得同一物体在不同场景的检测中容易出现偏差和瑕疵,对于未在数据集中出现过的目标,或者含有多个显著性物体的图片中难以有效地找到所需对象。
发明内容
针对现有技术存在的问题,本发明提供一种基于场景图片的目标检测方法。本发明在目标检测的过程中利用同一物体在多幅图片中相关性信息,提供了一种在多图片中找到目标物体的办法,使得待检测目标寻找更精确,分割更清晰,得到较好结果。
一种基于场景图片的目标检测方法,步骤如下:
步骤1、图像数据预处理:
采用协同显著性图像数据集作为训练数据集,对训练数据集进行图像预处理,除去图片相关噪声干扰,将训练数据集中的RGB图像和ground truth进行一一配对。
步骤2、搭建目标检测网络:
网络主要结构如图1,本方法采用encoder-decoder办法,目标检测网络基于U-net网络,将U-net的encoder部分替换为类似孪生神经网络siamese net的结构,称之为协同提取模块,所述的协同提取模块包括主、副两条支路和桥接模块,两条支路的输入共享权重数据,且每条支路均由两部分组成,第一部分为resnet34,用于提取图片初步特征,第二部分包括空洞卷积模块(aspp)和attention模块,用于进一步提取到更精确的目标信息,其中模块只采用了一次卷积和softmax层以提高数据处理速度;所述的桥接模块包括三个卷积加激活层;协同提取模块通过concatenate操作将两条支路处理完成的信息进行融合,通过桥接模块进行进一步处理,最后将桥接模块处理后的数据输入decoder部分,将图片上采样还原为原始尺寸,在上采样过程中采用与U-net相同的skip connection操作保留图片信息,利用相关函数loss对输出进行约束。
步骤3、训练目标检测网络:
训练时将训练数据集同一类别中的每张图片依次作为主输入输入到网络中,对于每张作为主输入的图片,其余图片也依次作为副输入输入到网络当中以实现数据的增强。使用主输入图片对应的ground truth来作为网络输出的ground truth,遍历所有类别后完成训练,保存效果最好的网络参数。
步骤4、将待检测图像进行预处理,除去图片相关噪声干扰,然后输入训练好的目标检测网络中进行图像目标检测。
进一步的,为了得到较好的训练结果可以使用其他显著性数据集对resnet34网络进行预训练,所述的其他显著性数据集包括DUT、MASR、COCO。
进一步的,训练目标检测网络过程中,激活函数选择Relu,使用SGD优化器算法,学习率设置为0.000001。
本发明有益效果如下:
在不同场景下检测同一目标时,图片之间能够共享一部分目标信息,这个目标信息可以作为辅助来指导目标检测,因此本发明方法利用协同显著性数据集对网络进行训练,使得网络可以学习到同一目标在不同场景下的共性,从而有效提高目标检测精度。
本发明利用了相同物品场景图之间的相关性信息,并对siamese net、U-net进行改进,使得图像的特征提取和相关性提取都得到了更好的结果。
附图说明
图1为本发明目标检测网络结构图;
图2为本发明目标检测网络训练流程图;
图3为本发明目标检测网络测试流程图。
具体实施方式
下面结合附图与实施例对本发明进行详细的说明。
一种基于场景图片的目标检测方法,步骤如下:
步骤1、对训练数据集进行图像预处理,除去图片相关噪声干扰,所述的训练数据集可以选择iCoseg dataset等协同显著性检测数据集或者视频数据集,将训练数据集中的RGB图像和ground truth进行一一配对。
步骤2、搭建目标检测网络:
目标检测网络结构如图1所示,本发明采用encoder-decoder办法,目标检测网络基于U-net网络,将U-net的encoder部分替换为类似孪生神经网络siamesenet的结构,称之为协同提取模块,所述的协同提取模块包括主、副两条支路和桥接模块,两条支路的输入共享权重数据,且每条支路均由两部分组成,第一部分为resnet34,用于提取图片初步特征,第二部分包括空洞卷积模块(aspp)和attention模块,用于进一步提取到更精确的目标信息,其中attention模块只采用了一次卷积和softmax层以提高数据处理速度;所述的桥接模块包括三个卷积加激活层;协同提取模块通过concatenate操作将两条支路处理完成的信息进行融合,通过桥接模块进行进一步处理,最后将桥接模块处理后的数据输入decoder部分,将图片上采样还原为原始尺寸,在上采样过程中采用与U-net相同的skipconnection操作保留图片信息。
在训练时将同一类别中的两张图片输入目标检测网络的主支路和副支路,其中输入图片设置为三通道图片,通过主支路和副支路resnet34网络提取出输入图片的特征F1和F2,将提取出的特征再送入空洞卷积模块aspp中,这样一张图片内的内部信息可以被提取出来。之后空洞卷积模块输出的特征数据将会送到attention模块中,通过attention模块使得图片的主体信息更加充分,有利于目标提取。attention模块采用了CBAMBlock,并进行了相应的简化,只采用了一次卷积和softmax层以提高数据处理速度。最后通过concatenate操作将两条支路处理完成的信息进行融合,通过桥接模块进行进一步处理,最后将桥接模块处理后的数据输入decoder部分,通过上采样还原图片信息,并利用loss函数进行约束。最后输出灰度图像,灰度图像中白色部分为分割出的物体区域。
为了将背景与目标分割开,Loss采用交叉熵损失函数:
l=-∑labelxlog(outx)+(1-labelx)log(1-outx)
其中labelx表示像素样本x的标签label=0或1,outx表示像素x的预测分。
步骤3、训练目标检测网络:
如图2所示,训练时将训练数据集同一类别中的每张图片依次作为主输入输入到网络中,对于每张作为主输入的图片,其余图片也依次作为副输入输入到网络当中以实现数据的增强。使用主输入图片对应的ground truth来作为网络输出的ground truth,遍历所有类别后完成训练。其中激活函数选择Relu,使用SGD优化器算法,学习率设置为0.000001。
步骤4、将待检测图像进行预处理,除去图片相关噪声干扰,然后输入训练好的目标检测网络中进行图像目标检测。
图3为本发明方法目标检测网络测试流程图。
本发明利用了相同物品场景图之间的相关性信息,并对siamese net、U-net进行改进,使得图像的特征提取和相关性提取都得到了较好的结果。

Claims (4)

1.一种基于场景图片的目标检测方法,其特征在于,步骤如下:
步骤1、图像数据预处理:
采用协同显著性图像数据集作为训练数据集,对训练数据集进行图像预处理,除去图片相关噪声干扰,将训练数据集中的RGB图像和ground truth进行一一配对;
步骤2、搭建目标检测网络:
目标检测网络基于U-net网络,将U-net的encoder部分替换为类似孪生神经网络siamese net的结构,称之为协同提取模块,所述的协同提取模块包括主、副两条支路和桥接模块,两条支路的输入共享权重数据,且每条支路均由两部分组成,第一部分为resnet34,用于提取图片初步特征,第二部分包括空洞卷积模块(aspp)和attention模块,用于进一步提取到更精确的目标信息,其中模块只采用了一次卷积和softmax层以提高数据处理速度;所述的桥接模块包括三个卷积加激活层;协同提取模块通过concatenate操作将两条支路处理完成的信息进行融合,通过桥接模块进行进一步处理,最后将桥接模块处理后的数据输入decoder部分,将图片上采样还原为原始尺寸,在上采样过程中采用与U-net相同的skip connection操作保留图片信息,利用相关函数loss对输出进行约束;
步骤3、训练目标检测网络:
训练时将训练数据集同一类别中的每张图片依次作为主输入输入到网络中,对于每张作为主输入的图片,其余图片也依次作为副输入输入到网络当中以实现数据的增强;使用主输入图片对应的ground truth来作为网络输出的ground truth,遍历所有类别后完成训练,保存效果最好的网络参数;
步骤4、将待检测图像进行预处理,除去图片相关噪声干扰,然后输入训练好的目标检测网络中进行图像目标检测。
2.根据权利要求1所述的一种基于场景图片的目标检测方法,其特征在于,在训练时将同一类别中的两张图片输入目标检测网络的主支路和副支路,其中输入图片设置为三通道图片,通过主支路和副支路resnet34网络提取出输入图片的特征F1和F2,将提取出的特征再送入空洞卷积模块aspp中,这样一张图片内的内部信息可以被提取出来;之后空洞卷积模块输出的特征数据将会送到attention模块中,通过attention模块使得图片的主体信息更加充分,有利于目标提取;attention模块采用了CBAMBlock,并进行了相应的简化,只采用了一次卷积和softmax层以提高数据处理速度;最后通过concatenate操作将两条支路处理完成的信息进行融合,通过桥接模块进行进一步处理,最后将桥接模块处理后的数据输入decoder部分,通过上采样还原图片信息,并利用loss函数进行约束;最后输出灰度图像,灰度图像中白色部分为分割出的物体区域;
为了将背景与目标分割开,Loss采用交叉熵损失函数:
l=-∑labelxlog(outx)+(1-labelx)log(1-outx)
其中labelx表示像素样本x的标签label=0或1,outx表示像素x的预测分。
3.根据权利要求1所述的一种基于场景图片的目标检测方法,其特征在于,进一步的,为了得到较好的训练结果可以使用其他显著性数据集对resnet34网络进行预训练,所述的其他显著性数据集包括DUT、MASR、COCO。
4.根据权利要求1所述的一种基于场景图片的目标检测方法,其特征在于,进一步的,训练目标检测网络过程中,激活函数选择Relu,使用SGD优化器算法,学习率设置为0.000001。
CN202010995193.4A 2020-09-21 2020-09-21 一种基于场景图片的目标检测方法 Withdrawn CN112163490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010995193.4A CN112163490A (zh) 2020-09-21 2020-09-21 一种基于场景图片的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010995193.4A CN112163490A (zh) 2020-09-21 2020-09-21 一种基于场景图片的目标检测方法

Publications (1)

Publication Number Publication Date
CN112163490A true CN112163490A (zh) 2021-01-01

Family

ID=73863096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010995193.4A Withdrawn CN112163490A (zh) 2020-09-21 2020-09-21 一种基于场景图片的目标检测方法

Country Status (1)

Country Link
CN (1) CN112163490A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113003033A (zh) * 2021-02-19 2021-06-22 南京机电职业技术学院 基于StEMD_VGG的智能垃圾分类抓取机械手臂及控制方法
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113450394A (zh) * 2021-05-19 2021-09-28 浙江工业大学 一种基于Siamese网络的异尺寸图像配准方法
CN114627299A (zh) * 2022-04-21 2022-06-14 杭州电子科技大学 一种模仿人类视觉系统对伪装目标检测与分割方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113003033A (zh) * 2021-02-19 2021-06-22 南京机电职业技术学院 基于StEMD_VGG的智能垃圾分类抓取机械手臂及控制方法
CN113003033B (zh) * 2021-02-19 2022-06-07 南京机电职业技术学院 基于StEMD_VGG的智能垃圾分类抓取机械手臂及控制方法
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113450394A (zh) * 2021-05-19 2021-09-28 浙江工业大学 一种基于Siamese网络的异尺寸图像配准方法
CN113450394B (zh) * 2021-05-19 2022-12-06 浙江工业大学 一种基于Siamese网络的异尺寸图像配准方法
CN114627299A (zh) * 2022-04-21 2022-06-14 杭州电子科技大学 一种模仿人类视觉系统对伪装目标检测与分割方法
CN114627299B (zh) * 2022-04-21 2023-10-27 杭州电子科技大学 一种模仿人类视觉系统对伪装目标检测与分割方法

Similar Documents

Publication Publication Date Title
CN111311563B (zh) 一种基于多域特征融合的图像篡改检测方法
CN108399419B (zh) 基于二维递归网络的自然场景图像中中文文本识别方法
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN112163490A (zh) 一种基于场景图片的目标检测方法
CN108491836B (zh) 一种自然场景图像中中文文本整体识别方法
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN111460936A (zh) 基于U-Net网络的遥感影像建筑物提取方法、系统、电子设备
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN114067143A (zh) 一种基于双子网络的车辆重识别方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN112365478A (zh) 一种基于语义分割的电机换向器表面缺陷检测模型
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN115393928A (zh) 基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN114529894A (zh) 一种融合空洞卷积的快速场景文本检测方法
CN117058386A (zh) 基于改进DeepLabv3+网络的沥青道路裂缝检测方法
CN112418229A (zh) 一种基于深度学习的无人船海上场景图像实时分割方法
CN117078656A (zh) 一种新型基于多模态提示学习的无监督图像质量评估方法
CN116091862A (zh) 一种画质识别方法、装置、设备、存储介质及产品
CN116089944A (zh) 基于迁移学习的跨平台应用程序异常检测方法、系统
CN111931689B (zh) 一种在线提取视频卫星数据鉴别特征的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Wang Lingbo

Inventor after: Wu Jiaqi

Inventor after: Shi Zhiguo

Inventor after: Sun Yaoqi

Inventor after: Zhang Jiyong

Inventor after: Zhang Yongdong

Inventor before: Yan Chenggang

Inventor before: Wang Lingbo

Inventor before: Wu Jiaqi

Inventor before: Sun Yaoqi

Inventor before: Zhang Jiyong

Inventor before: Zhang Yongdong

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210101