CN112132810B - 基于感知逻辑和特征对比的图像显著性检测方法 - Google Patents
基于感知逻辑和特征对比的图像显著性检测方法 Download PDFInfo
- Publication number
- CN112132810B CN112132810B CN202011013434.7A CN202011013434A CN112132810B CN 112132810 B CN112132810 B CN 112132810B CN 202011013434 A CN202011013434 A CN 202011013434A CN 112132810 B CN112132810 B CN 112132810B
- Authority
- CN
- China
- Prior art keywords
- module
- convolution
- sub
- layer
- convolution layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 230000008447 perception Effects 0.000 title claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 77
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000012805 post-processing Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 13
- 238000012545 processing Methods 0.000 abstract description 10
- 241000282414 Homo sapiens Species 0.000 abstract description 7
- 230000016776 visual perception Effects 0.000 abstract description 5
- 238000004088 simulation Methods 0.000 description 15
- 230000000007 visual effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于感知逻辑和特征对比的图像显著性检测方法,本发明的具体步骤如下:(1)通用特征提取;(2)特征预处理;(3)高阶特征提取;(4)特征后处理;(5)网络决策。本发明本发明基于人类视觉感知逻辑构建了一个由通用特征提取模块、特征预处理模块、高阶特征提取模块、高阶特征后处理模块与网络决策模块组成的卷积神经网络,克服了现有目标检测方法中只在简单背景下检测效果好,但对于复杂背景下检测效果差问题,使得本发明不仅在训练阶段耗时短,而且在检测阶段能够准确识别复杂背景下的显著性目标。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及图像分类和检测技术领域的一种基于感知逻辑和特征对比的图像显著性检测方法。本发明可用于检测图像中的显著性目标。
背景技术
随着人工智能领域的不断发展,显著性目标检测在计算机视觉领域的应用变得越来越广泛,逐渐成为了计算机视觉中的一个基础的问题。也是计算机视觉领域中的一项有很强挑战性的任务,它的目的在于针对任务要求自动检测出图像中最明显的物体或区域。可以应用在很多图像处理和深度学习任务中。
现有的大量视觉显著性检测方法在自然数据集上都有较好的检测效果,但依然存在很多问题亟待解决。例如目前绝大多数的网络使用的backbone的网络,在使用模型时都需要重新训练,让backbone模型重新训练出一套针对当前目标任务的参数,而这种在训练过程中让网络的所有参数都参与梯度更新的方法,会使得参数数量提升,从而导致训练的速度下降,同时巨大的参数量所要求的硬件配置也会相对提高。例如在一个检测任务中,若检测对象形态类别等信息未知,目标形态多变的情况下,很难一次性训练出匹配此类通用型目标的backbone,现有的检测网络并不适用于此类目标形态未知或目标形态多变的检测场景。
其次,现有显著性目标检测网络完全是数据驱动类型,需要大量数据集进行训练,同时网络存在显著性表达不明显等缺陷,无法达到显著性检测的精度要求。例如在一些背景略复杂的检测场景下,网络在显著性目标检测时倾向于进行前景背景分割,而忽略真正的检测目标。
南京理工大学在其申请的专利文献“基于特征选择和特征融合的图像显著性检测方法”(专利申请号CN202010030505.8,申请公开号CN111275076A)中公开了一种基于卷积神经网络和注意力机制的显著性目标检测方法。该方法采用注意力模型对图像的特征进行特征选择,增强图像中目标区域的响应,使得特征更加有效,并采用自底向上的特征融合结构,将底层的细节特征和高层的语义特征进行了有效融合。此方法虽然可以在一定程度上提升网络的表征能力,但是,该方法仍然存在的不同之处是:缺少对图像内部不同区域间交互信息的应用,对于复杂背景下的显著性检测,由于其显著性特征提取不明显,此方法效果并不是很好。
Wenguan Wang等人在其发表的论文“Deep Visual Attention Prediction”(TheIEEE Transactions on Image Processing,2018,27(5):2368–2378.doi:10.1109/TIP.2017.2787612.)中公开了一种基于深度视觉注意力的显著性检测方法DVA,该方法基于VGG16 backbone和反卷积结构结合,使用深度有监督训练方法,以期提高网络检测正确率。网络先通过VGG16得到图像不同尺度的特征图,然后通过反卷积操作生成不同尺度的显著图,最后进行跨尺度的特征融合,并且每一个尺度都进行损失计算,此类方法提高了显著性检测效果。但是该方法仍然存在的不同之处是:由于此网络用于显著性检测任务,使用此网络时,网络中的backbone需要使用显著性检测数据集重新训练,网络部署调参耗时长;同时由于此类网络严重依赖于显著性检测数据集,网络显著性表达能力弱,无法实现背景复杂场景下的高精度显著性检测任务。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提供一种基于感知逻辑和特征对比的图像显著性检测方法,解决现有技术中存在的显著性检测网络训练时间长,没有有效利用人类视觉感知逻辑,以及高度依赖此类显著性检测数据集,前后景对比特征没有有效利用造成的显著性表达能力弱等问题。本发明中的方法,有效提高了复杂背景环境和不同尺度下的视觉显著性目标检测效果。
实现本发明目的的技术思路主要是,参考人类视觉感知显著性目标的逻辑,人类视觉感知系统具有很强大的环境迁移能力,对不同环境和应用目标可以很快的迁移并学习,针对不同的实际显著性检测任务,只需要针对此类任务稍作适应,人类就可以达到很好的检测效果。基于以上思路,本发明构建一个卷积神经网络输出显著性目标,此网络中的backbone在训练阶段不需要针对次特定任务重新训练,这部分的backbone训练阶段不参与梯度更新,backbone可直接使用在Imagenet数据集上训练好的预训练模型,这样不仅有效提升了网络训练的速度,而且实验效果也证明了次方法的可行性和优越性;其次,本发明强调特征对比,重视图像中每一个像素与周围像素的对比,发明中提出了一种高级特征提取模块,将输入图像自身的显著性信息加入了神经网络的计算中,此模块可以有效提取出图像像素之间的对比信息,模块输出的高级对比特征,是构成网络显著特征的关键,可有效增强网络的显著性表达能力。同时,此模块使得网络的训练由数据和输入图像自身同时驱动,克服了现有方法严重依赖训练数据集的缺陷,有效增强了网络的鲁棒性,扩展了应用场景范围。此外,对比现有方法在复杂背景环境和各类尺度大小的目标检测场景中的效果,本发明可以在不同的环境以及多尺度的目标检测下都具有更好的检测效果。
本发明的具体实现步骤如下:
步骤1,构建子卷积神经网络:
第一步,搭建一个由5个相同结构的子模块并联组成的特征预处理模块,每个子模块的结构依次为:第一卷积层→第二卷积层→Batch Normalization层→PReLu层;
每个子模块中所有层的卷积核大小均为3*3,步长均设置为1;第一个子模块中第一、第二卷积层的卷积核个数均为64;第二个子模块中第一、第二卷积层的卷积核个数均为256;第三个子模块中第一、第二卷积层的卷积核个数均为512;第四个子模块中第一、第二卷积层的卷积核个数均为1024;第五个子模块中第一、第二卷积层的卷积核个数均为2048。
第二步,搭建一个由5个相同结构的子模块并联组成的高阶特征提取模块,每个子模块的结构依次为:第一卷积层→第二卷积层→第一特征融合层→显著性计算层→第二特征融合层;其中第一卷积层和第二卷积层并联;
每个子模块中第一卷积层的卷积核大小均为1*3;每个子模块中第二卷积层的卷积核大小均为3*1;每个子模块中所有层的卷积核步长均为设置为1;第一个子模块中第一、第二卷积层的卷积核个数均为320;第二个子模块中第一、第二卷积层的卷积核个数均为832;第三个子模块中第一、第二卷积层的卷积核个数均为1792;第四个子模块中第一、第二卷积层的卷积核个数均为3584;第五个子模块中第一、第二卷积层的卷积核个数均为3072;
第三步,搭建一个由5个相同结构的子模块并联组成的高阶特征后处理模块,每个子模块的结构依次为:第一卷积层→上采样层;
每个子模块的卷积层大小均为3*3,步长均设置为1;第一个子模块中第一卷积层的卷积核个数均为320;第二个子模块中第一卷积层的卷积核个数均为832;第三个子模块中第一卷积层的卷积核个数均为1792;第四个子模块中第一卷积层的卷积核个数均为3584;第五个子模块中第一卷积层的卷积核个数均为3072;上采样层中的采样方法设置为双线性插值法;
所述的第一特征融合层采用下述的计算公式:
其中,E表示高阶特征提取模块中的第一特征融合层输出的一组特征图,Cx表示高阶特征提取模块中第一卷积层输出的特征图,Cy表示高阶特征提取模块中第二卷积层输出的特征图。
所述的显著性计算层采用下述的计算公式:
其中,S表示高阶特征提取模块中的显著性计算层输出的显著性特征图,C表示由特征预处理模块提取并向高阶特征提取模块输入的一组特征图。
第四步,搭建1个由concat层和第一卷积层的两层的网络决策模块;其中,卷积核的大小为1*1,步长为1,卷积核的个数为5。
第五步,将特征预处理模块、高阶特征提取模块、高阶特征后处理模块与网络决策模块依次连接组成子卷积神经网络;
步骤2,生成训练集:
第一步,选取至少10000张图片,每张中均包含简单背景与复杂背景且含有显著性目标,图片的格式为jpg格式;
第二步,对每张图片中的像素点进行标注,将含有目标的像素值设置为255;不含有目标的像素值设置为0,标注后的图像保存为png格式文件;将带有标注的图片组成训练集;
步骤3,训练子卷积神经网络:
将训练集输入到子卷积神经网络中,迭代更新子卷积神经网络的权值,直至网络损失函数值下降到1.0以下且不再有较大波动为止,得到训练好的子卷积神经网络,网络参数中学习率设置为0.001;
所述的网络损失函数如下:
其中,W表示训练集中所有图片对应的标注值的损失值之和,n表示训练集中图片的总数,i表示输入到子卷积神经网络中图片的序号,yi表示与输入到子卷积神经网络中的第i张图片对应的标注值,log表示以10为底的对数操作,xi表示输入到子卷积神经网络中的第i张图片的输出。
步骤4,生成卷积神经网络:
将训练好的ResneXt-101网络模型作为通用特征提取模块,与训练好的子卷积神经网络组成卷积神经网络;
步骤5,对待检测目标进行检测:
将含有显著性目标的待检测的每张图片输入到训练好的卷积神经网络中。输出该图片中显著性目标的分割图。
与现有技术相比,本发明具有以下优点:
第一,由于本发明将训练好的ResneXt-101网络模型作为通用特征提取模块,与训练好的子卷积神经网络组成卷积神经网络,通用特征提取模块可以直接引入现有网络的backbone,从而在面对不同视觉检测任务时,不需要对backbone进行重新训练,可以避免重复训练backbone所需的巨大算力需要,该网络基于人类对不同视觉任务的感知逻辑,设计了一种包含通用特征提取—预处理—高阶特征提取—综合决策四个阶段的网络结构,克服了现有技术中存在的显著性检测网络训练时间长的问题,使得本发明具有了训练阶段消耗算力低,速度快的优点。
第二,由于本发明构建了一个由5个相同结构的子模块并联组成的高阶特征提取模块,该高阶特征提取模块可以针对具体的视觉任务,设计专用、高效的特征学习模块,提高整体网络的效率和效果,有效地实现了图像中不同区域间之间特征的对比,从而赋予显著性目标检测方法更强的语义特征,克服了现有技术没有有效利用人类视觉感知逻辑,以及高度依赖此类显著性检测数据集,前后景对比特征没有有效利用造成的显著性表达能力弱的问题,使得本发明具有了对复杂背景下的图像中显著性目标检测精度高的优点。
附图说明
图1为本发明的流程图;
图2为本发明高阶特征提取模块的结构示意图;
图3为本发明卷积神经网络的结构示意图;
图4为本发明的仿真效果图,其中图4(a)与图4(c)分别为输入的测试图,图4(b)和图4(d)分别为图4(a)与图4(c)的检测结果图。
具体实施方式
下面结合附图对本发明的做进一步的描述。
结合附图1对本发明的实现步骤做进一步的描述。
步骤1,构建子卷积神经网络。
第一步,搭建一个由5个相同结构的子模块并联组成的特征预处理模块,每个子模块的结构依次为:第一卷积层→第二卷积层→Batch Normalization层→PReLu层。
每个子模块中所有层的卷积核大小均为3*3,步长均设置为1;第一个子模块中第一、第二卷积层的卷积核个数均为64;第二个子模块中第一、第二卷积层的卷积核个数均为256;第三个子模块中第一、第二卷积层的卷积核个数均为512;第四个子模块中第一、第二卷积层的卷积核个数均为1024;第五个子模块中第一、第二卷积层的卷积核个数均为2048。
第二步,搭建一个由5个相同结构的子模块并联组成的高阶特征提取模块,每个子模块的结构依次为:第一卷积层→第二卷积层→第一特征融合层→显著性计算层→第二特征融合层;其中第一卷积层和第二卷积层并联。
结合附图2对高阶特征提取模块做进一步的描述。图2中input为子卷积神经网络中特征预处理模块输出的特征图,X轴特征提取对应高阶特征提取模块的第一卷积层,Y轴特征提取对应高阶特征提取模块的第二卷积层,第一个特征融合对应高阶特征提取模块的第一特征融合层,对比显著性计算对应高阶特征提取模块的显著性计算层,第二特征融合对应高阶特征提取模块的第二特征融合层,output为高阶特征提取模块输出的特征图。
每个子模块中第一卷积层的卷积核大小均为1*3;每个子模块中第二卷积层的卷积核大小均为3*1;每个子模块中所有层的卷积核步长均为设置为1;第一个子模块中第一、第二卷积层的卷积核个数均为320;第二个子模块中第一、第二卷积层的卷积核个数均为832;第三个子模块中第一、第二卷积层的卷积核个数均为1792;第四个子模块中第一、第二卷积层的卷积核个数均为3584;第五个子模块中第一、第二卷积层的卷积核个数均为3072。
第三步,搭建一个由5个相同结构的子模块并联组成的高阶特征后处理模块,每个子模块的结构依次为:第一卷积层→上采样层。
每个子模块的卷积层大小均为3*3,步长均设置为1;第一个子模块中第一卷积层的卷积核个数均为320;第二个子模块中第一卷积层的卷积核个数均为832;第三个子模块中第一卷积层的卷积核个数均为1792;第四个子模块中第一卷积层的卷积核个数均为3584;第五个子模块中第一卷积层的卷积核个数均为3072;上采样层中的采样方法设置为双线性插值法。
所述的第一特征融合层采用下述的计算公式:
其中,E表示高阶特征提取模块中的第一特征融合层输出的一组特征图,Cx与Cy分别表示高阶特征提取模块中第一卷积层和第二卷积层输出的两组特征图。
所述的显著性计算层采用下述的计算公式:
其中,S表示高阶特征提取模块中的显著性计算层输出的显著性特征图,C表示由特征预处理模块提取并向高阶特征提取模块输入的一组特征图。
第四步,搭建1个由concat层和第一卷积层的两层的网络决策模块;其中,卷积核的大小为1*1,步长为1,卷积核的个数为5。
第五步,将特征预处理模块、高阶特征提取模块、高阶特征后处理模块与网络决策模块依次连接组成子卷积神经网络。其中,
所述特征预处理模块与高阶特征提取模块交叉连接,每个特征预处理模块的子模块与两个或三个高阶特征提取模块的子模块连接;具体地,特征预处理模块的第1个子模块分别与高阶特征提取模块的第1个和第2个子模块连接,特征预处理模块的第2个子模块分别与高阶特征提取模块的第1个、第2个和第3个子模块连接,特征预处理模块的第3个子模块分别与高阶特征提取模块的第2个、第3个和第4个子模块连接,特征预处理模块的第4个子模块分别与高阶特征提取模块的第3个、第4个和第5个子模块连接,特征预处理模块的第5个子模块与高阶特征提取模块的第4个和第5个子模块连接。
高阶特征提取模块与高阶特征后处理模块串联,具体操作为,高阶特征提取模块的第i个子模块与高阶特征后处理模块的子模块中第j个子模块串联相接;i=1,2,…,5,j的取值与i对应相等。
高阶特征后处理模块的子模块并联接入网络决策模块的concat层。
步骤2,生成训练集:
第一步,选取至少10000张图片,每张中均包含简单背景与复杂背景且含有显著性目标,图片的格式为jpg格式。
第二步,对每张图片中的像素点进行标注,将含有目标的像素值设置为255;不含有目标的像素值设置为0,标注后的图像保存为png格式文件;将带有标注的图片组成训练集。
步骤3,训练子卷积神经网络:
将训练集输入到子卷积神经网络中,迭代更新子卷积神经网络的权值,直至网络损失函数值下降到1.0以下且不再有较大波动为止,得到训练好的子卷积神经网络,网络参数中学习率设置为0.001。
所述的网络损失函数如下:
其中,W表示输入到子卷积神经网络中的每张图片与与之对应的标注值的损失值的平均值,n表示训练集中图片的总数,i表示输入到子卷积神经网络中图片的序号,yi表示与输入到子卷积神经网络中的第i张图片对应的标注值,log表示以10为底的对数操作,xi表示输入到子卷积神经网络中的第i张图片的输出。
步骤4,生成卷积神经网络:
将训练好的ResneXt-101网络模型作为特征提取模块,与训练好的子卷积神经网络组成卷积神经网络。
结合附图3对卷积神经网络做进一步的描述。
特征预处理模块和高阶特征提取模块交叉连接,每个特征与处理模块的子模块与两个或三个高阶特征提取模块的子模块连接;所述特征与处理模块的第1个子模块与高阶特征提取模块的第1个和第2个子模块连接,特征与处理模块的第2个子模块与高阶特征提取模块的第1个、第2个和第3个子模块连接,特征与处理模块的第3个子模块与高阶特征提取模块的第2个、第3个和第4个子模块连接,特征与处理模块的第4个子模块与高阶特征提取模块的第3个、第4个和第5个子模块连接,特征与处理模块的第5个子模块与高阶特征提取模块的第4个和第5个子模块连接。
每个高阶特征提取模块的每个子模块与其对应的高阶特征后处理模块的子模块串联相接。
高阶特征后处理模块的子模块并联接入网络决策模块的concat层。
图3中input为输入卷积神经网络的自然图像,Block1、Block2、Block3、Block4、Block5分别为组成ResneXt-101网络模型的5个部分,特征预处理对应卷积神经网络的特征预处理模块,高级特征提取对应卷积神经网络的高阶特征提取模块,通道压缩与上采样对应卷积神经网络的高阶特征后处理模块,BCEloss对应卷积神经网络使用的损失函数,Concat对应卷积神经网络的决策模块,output为卷积神经网络输出的检测结果。
步骤5,对待检测目标进行检测:
将含有显著性目标的待检测的每张图片输入到训练好的卷积神经网络中。输出该图片中显著性目标的分割图。
下面结合仿真实验对本发明的效果做进一步的说明:
1.仿真实验条件:
本发明的仿真实验的硬件平台为:处理器为Intel i5-8500 CPU,主频为3.0GHz,内存16GB。
本发明的仿真实验的软件平台为:unbutu18.04操作系统、pytorch深度学习框架和python 3.6。
本发明仿真实验所使用的训练集为THUS-HR数据集,该数据集包含10556张自然图片,图像格式为jpg;使用的测试集为Pascals、Ecssd、HKU-IS、SOD和DUT-OMRON等5个数据集,这5个数据集共包含12000张自然图片,图像格式为jpg。
2.仿真内容及其结果分析:
本发明仿真实验是采用本发明和六个现有技术(显著性目标检测网络PiCANet、显著性目标检测网络AFNet、显著性目标检测网络DGRL、显著性目标检测网络SRM、显著性目标检测网络R3Net和显著性目标检测网络CPD)分别对测试集的所有自然图像进行显著性检测,获得检测结果图。
在本发明仿真实验中采用的六个现有技术是指:
现有显著性目标检测网络PiCANet是指,Nian Liu等人在“IEEE Conference onComputer Vision and Pattern Recognition,pages 3089–3098,2018”中提出的显著性检测方法,简称显著性目标检测网络PiCANet。
现有显著性目标检测网络AFNet是指,Mengyang Feng等人在“IEEE Conferenceon Computer Vision and Pattern Recognition,pages 1623–1632,2019”中提出的显著性检测方法,简称显著性目标检测网络AFNet。
现有显著性目标检测网络DGRL是指,TiantianWang等人在“IEEEConferenceonComputerVisionandPattern Recognition,pages 3127–3135,2018”中提出的显著性检测方法,简称显著性目标检测网络DGRL。
现有显著性目标检测网络SRM是指,Tiantian Wang等人在“IEEE InternationalConference on Computer Vision,pages 4039–4048,2017”中提出的显著性检测方法,简称显著性目标检测网络SRM。
现有显著性目标检测网络R3Net是指,Zijun Deng等人在“International JointConference on Artificial Intelligence,pages 684–690.AAAI Press,2018”中提出的显著性检测方法,简称显著性目标检测网络R3Net。
现有显著性目标检测网络CPD是指,Zhe Wu等人在“IEEE Conference onComputer Vision and Pattern Recognition,pages 3907–3916,2019”中提出的显著性检测方法,简称显著性目标检测网络CPD。
结合附图4对仿真结果做进一步的描述。图4中图4(a)与图4(c)均为来自Pascals数据集的两张自然图像,图4(b)与图4(d)分别为本发明对图4(a)与图4(c)的仿真结果。
为了评价本发明仿真实验的效果,利用一个评价指标F-measures分别对六种方法及本发明的方法进行评价。
评价指标计算公式如下:
其中,P为精确率,代表被分为正样本中实际为正的比例;R为召回率,度量有多少个正例被分为正例;TP、FP、FN分别表示将正类预测为正类的数量、将负类预测为正类的数量以及将正类预测为负类的数量。
其中Fm为评估指标,ɑ为调和系数,在本发明的仿真实验中取ɑ2=0.3来强调精确率的重要性。
表中,PiCANet、AFNet、DGRL、SRM、R3Net与CPD分别代表现有的六种显著性检测方法,Ours代表本发明中的显著性检测方法;ECSSD、HKU-IS、Pascals、SOD和DUT-OMRON分别代表用于测试的五个自然数据集;表中斜体加粗部分的数据代表在当前数据集下效果最好的方法对应的指标值。其中,在ECSSD、HKU-IS与Pascals三个数据集上本发明的指标值最高;而在SOD与DUT-OMRON数据集上,本发明的指标尽管没有达到最高,但是与最高指标相差不大。
结合表1可以看出,本发明的方法在五个数据集的检测结果中有三个数据集上的指标均高于现有的六种方法,证明本发明可以得到更高的图像分类精度。
本发明的仿真实验表明:本发明方法利用设计的通用特征提取—预处理—专用特征提取—综合决策的深度学习神经网络结构,能够有效地复现人类对于视觉信息的感知逻辑,利用了设计的高级特征提取模块,能够精确地提取图像的显著特征,解决了现有技术方法中存在的过度依赖数据集,无法有效利用图像间的交互信息以及重复训练backbone参数,导致复杂背景下检测效果差、算力需求大的问题,是一种非常高效实用的显著性检测方法。
表1.仿真实验中本发明和各现有方法分类结果的指标对比表
ECSSD | HKU-IS | Pascals | SOD | DUT-OMRON | |
PiCANet | 0.931 | 0.921 | 0.856 | 0.854 | 0.794 |
AFNet | 0.935 | 0.923 | 0.863 | 0.856 | 0.797 |
DGRL | 0.925 | 0.913 | 0.848 | 0.848 | 0.779 |
SRM | 0.917 | 0.906 | 0.838 | 0.843 | 0.769 |
R3Net | 0.935 | 0.916 | 0.845 | 0.847 | 0.805 |
CPD | 0.939 | 0.925 | 0.861 | 0.860 | 0.797 |
Ours | 0.941 | 0.946 | 0.881 | 0.833 | 0.791 |
Claims (2)
1.一种基于感知逻辑和特征对比的图像显著性检测方法,其特征在于,使用基于特征对比的高阶特征提取模块获得待检测目标的显著性特征,使用训练好的基于感知逻辑的深度神经网络检测显著性目标;该方法的步骤包含如下:
步骤1,构建子卷积神经网络:
第一步,搭建一个由5个相同结构的子模块并联组成的特征预处理模块,每个子模块的结构依次为:第一卷积层→第二卷积层→Batch Normalization层→PReLu层;
每个子模块中所有层的卷积核大小均为3*3,步长均设置为1;第一个子模块中第一、第二卷积层的卷积核个数均为64;第二个子模块中第一、第二卷积层的卷积核个数均为256;第三个子模块中第一、第二卷积层的卷积核个数均为512;第四个子模块中第一、第二卷积层的卷积核个数均为1024;第五个子模块中第一、第二卷积层的卷积核个数均为2048;
第二步,搭建一个由5个相同结构的子模块并联组成的高阶特征提取模块,每个子模块的结构依次为:第一卷积层→第二卷积层→第一特征融合层→显著性计算层→第二特征融合层;其中第一卷积层和第二卷积层并联;
所述第一特征融合层采用公式实现;其中,E表示高阶特征提取模块中的第一特征融合层输出的一组特征图,Cx表示高阶特征提取模块中第一卷积层输出的特征图,Cy表示高阶特征提取模块中第二卷积层输出的特征图;
所述显著性计算层采用公式实现;其中,S表示高阶特征提取模块中的显著性计算层输出的显著性特征图,C表示由特征预处理模块提取并向高阶特征提取模块输入的一组特征图;
每个子模块中第一卷积层的卷积核大小均为1*3;每个子模块中第二卷积层的卷积核大小均为3*1;每个子模块中所有层的卷积核步长均为设置为1;第一个子模块中第一、第二卷积层的卷积核个数均为320;第二个子模块中第一、第二卷积层的卷积核个数均为832;第三个子模块中第一、第二卷积层的卷积核个数均为1792;第四个子模块中第一、第二卷积层的卷积核个数均为3584;第五个子模块中第一、第二卷积层的卷积核个数均为3072;
第三步,搭建一个由5个相同结构的子模块并联组成的高阶特征后处理模块,每个子模块的结构依次为:第一卷积层→上采样层;
每个子模块的卷积层大小均为3*3,步长均设置为1;第一个子模块中第一卷积层的卷积核个数均为320;第二个子模块中第一卷积层的卷积核个数均为832;第三个子模块中第一卷积层的卷积核个数均为1792;第四个子模块中第一卷积层的卷积核个数均为3584;第五个子模块中第一卷积层的卷积核个数均为3072;上采样层中的采样方法设置为双线性插值法;
第四步,搭建1个由concat层和第一卷积层的两层的网络决策模块;其中,卷积核的大小为1*1,步长为1,卷积核的个数为5;
第五步,将特征预处理模块、高阶特征提取模块、高阶特征后处理模块与网络决策模块依次连接组成子卷积神经网络;其中,
所述特征预处理模块与高阶特征提取模块交叉连接,每个特征预处理模块的子模块与两个或三个高阶特征提取模块的子模块连接;具体地,特征预处理模块的第1个子模块分别与高阶特征提取模块的第1个和第2个子模块连接,特征预处理模块的第2个子模块分别与高阶特征提取模块的第1个、第2个和第3个子模块连接,特征预处理模块的第3个子模块分别与高阶特征提取模块的第2个、第3个和第4个子模块连接,特征预处理模块的第4个子模块分别与高阶特征提取模块的第3个、第4个和第5个子模块连接,特征预处理模块的第5个子模块与高阶特征提取模块的第4个和第5个子模块连接;
高阶特征提取模块与高阶特征后处理模块串联,具体操作为,高阶特征提取模块的第i个子模块与高阶特征后处理模块的子模块中第j个子模块串联相接;i=1,2,…,5,j的取值与i对应相等;
高阶特征后处理模块的子模块并联接入网络决策模块的concat层;
步骤2,生成训练集:
第一步,选取至少10000张图片,每张中均包含简单背景与复杂背景且含有显著性目标,图片的格式为jpg格式;
第二步,对每张图片中的像素点进行标注,将含有目标的像素值设置为255;不含有目标的像素值设置为0,标注后的图像保存为png格式文件;将带有标注的图片组成训练集;
步骤3,训练子卷积神经网络:
将训练集输入到子卷积神经网络中,迭代更新子卷积神经网络的权值,直至网络损失函数值下降到1.0以下且不再有较大波动为止,得到训练好的子卷积神经网络,网络参数中学习率设置为0.001;
步骤4,生成卷积神经网络:
将训练好的ResneXt-101网络模型作为特征提取模块,与训练好的子卷积神经网络组成卷积神经网络;
步骤5,对待检测目标进行检测:
将含有显著性目标的待检测的每张图片输入到训练好的卷积神经网络中;输出该图片中显著性目标的分割图。
2.根据权利要求1所述的基于感知逻辑和特征对比的图像显著性检测方法,其特征在于,步骤3中所述损失函数公式如下:
其中,W表示输入到子卷积神经网络中的每张图片与之对应的标注值的损失值的平均值,n表示训练集中图片的总数,i表示输入到子卷积神经网络中图片的序号,yi表示与输入到子卷积神经网络中的第i张图片对应的标注值,log表示以10为底的对数操作,xi表示输入到子卷积神经网络中的第i张图片的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011013434.7A CN112132810B (zh) | 2020-09-24 | 2020-09-24 | 基于感知逻辑和特征对比的图像显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011013434.7A CN112132810B (zh) | 2020-09-24 | 2020-09-24 | 基于感知逻辑和特征对比的图像显著性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112132810A CN112132810A (zh) | 2020-12-25 |
CN112132810B true CN112132810B (zh) | 2023-09-12 |
Family
ID=73839576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011013434.7A Active CN112132810B (zh) | 2020-09-24 | 2020-09-24 | 基于感知逻辑和特征对比的图像显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132810B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3032487A1 (en) * | 2016-08-03 | 2018-02-08 | Jiangsu University | Saliency-based method for extracting road target from night vision infrared image |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
WO2019198076A1 (en) * | 2018-04-11 | 2019-10-17 | Ionterra Transportation And Aviation Technologies Ltd. | Real-time raw data- and sensor fusion |
CN110555434A (zh) * | 2019-09-03 | 2019-12-10 | 浙江科技学院 | 一种局部对比和全局指导的立体图像视觉显著性检测方法 |
CN110781962A (zh) * | 2019-10-28 | 2020-02-11 | 西安电子科技大学 | 基于轻量级卷积神经网络的目标检测方法 |
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3732631A1 (en) * | 2018-05-29 | 2020-11-04 | Google LLC | Neural architecture search for dense image prediction tasks |
-
2020
- 2020-09-24 CN CN202011013434.7A patent/CN112132810B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3032487A1 (en) * | 2016-08-03 | 2018-02-08 | Jiangsu University | Saliency-based method for extracting road target from night vision infrared image |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
WO2019198076A1 (en) * | 2018-04-11 | 2019-10-17 | Ionterra Transportation And Aviation Technologies Ltd. | Real-time raw data- and sensor fusion |
CN110555434A (zh) * | 2019-09-03 | 2019-12-10 | 浙江科技学院 | 一种局部对比和全局指导的立体图像视觉显著性检测方法 |
CN110781962A (zh) * | 2019-10-28 | 2020-02-11 | 西安电子科技大学 | 基于轻量级卷积神经网络的目标检测方法 |
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
Non-Patent Citations (1)
Title |
---|
基于时空显著特征的运动目标检测方法研究;徐金婧 等,;《长春理工大学学报(自然科学版)》;20200831;第43卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112132810A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN109190752B (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
Fu et al. | MCFF-CNN: Multiscale comprehensive feature fusion convolutional neural network for vehicle color recognition based on residual learning | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN111640125A (zh) | 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置 | |
CN110569738A (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN105205449A (zh) | 基于深度学习的手语识别方法 | |
CN109299303B (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
CN112529005B (zh) | 基于语义特征一致性监督金字塔网络的目标检测方法 | |
CN112365497A (zh) | 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统 | |
CN111340034A (zh) | 一种针对自然场景的文本检测与识别方法及系统 | |
Akhlaghi et al. | Farsi handwritten phone number recognition using deep learning | |
CN116740528A (zh) | 一种基于阴影特征的侧扫声呐图像目标检测方法及系统 | |
CN117197462A (zh) | 基于多尺度特征融合和对齐的轻量地基云分割方法及系统 | |
CN111860465A (zh) | 基于超像素的遥感图像提取方法、装置、设备及存储介质 | |
CN115761235A (zh) | 基于知识蒸馏的零样本语义分割方法、系统、设备及介质 | |
Sun et al. | Marine ship instance segmentation by deep neural networks using a global and local attention (GALA) mechanism | |
Yang et al. | Defect detection scheme of pins for aviation connectors based on image segmentation and improved RESNET-50 | |
Yan et al. | 3MNet: Multi-task, multi-level and multi-channel feature aggregation network for salient object detection | |
CN112132810B (zh) | 基于感知逻辑和特征对比的图像显著性检测方法 | |
Si | Analysis of calligraphy Chinese character recognition technology based on deep learning and computer-aided technology | |
CN114998702B (zh) | 基于BlendMask的实体识别、知识图谱生成方法及系统 | |
CN116452900A (zh) | 一种基于轻量级神经网络的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |