CN112036408B - 一种复杂场景底层视觉信息提取方法 - Google Patents

一种复杂场景底层视觉信息提取方法 Download PDF

Info

Publication number
CN112036408B
CN112036408B CN202010758709.3A CN202010758709A CN112036408B CN 112036408 B CN112036408 B CN 112036408B CN 202010758709 A CN202010758709 A CN 202010758709A CN 112036408 B CN112036408 B CN 112036408B
Authority
CN
China
Prior art keywords
scene
semantics
convolution
result
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010758709.3A
Other languages
English (en)
Other versions
CN112036408A (zh
Inventor
杜俊敏
顾昊舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010758709.3A priority Critical patent/CN112036408B/zh
Publication of CN112036408A publication Critical patent/CN112036408A/zh
Application granted granted Critical
Publication of CN112036408B publication Critical patent/CN112036408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于场景视觉认知领域,特别涉及一种复杂场景底层视觉信息提取方法。为了解决复杂场景的底层特征值提取问题。本发明引入改进的卷积神经网络结构,利用四种卷积滤波器,组成多深度分析集对场景图像进行图像语义分割;引入特征卷积滤波器筛选提取复杂场景的区域语义,再对提取结果使用转置卷积进行场景图像在语义上的区域分割;场景语义的区域分割结果作为激活偏置代入最后的底层视觉信息特征值提取网络,可以确保各种类型的场景细节均不会丢失。经过场景区域语义分割后,本发明能够很好地提取出认知实验所需的场景底层信息特征值,能较好地保留了复杂场景中的细节。

Description

一种复杂场景底层视觉信息提取方法
技术领域
本发明属于场景视觉认知领域,特别涉及一种复杂场景底层视觉信息提取方法。本发明主要针对复杂的视觉认知实验场景通过算法实现,提取全局场景中的三类显性底层视觉注意力资源。
背景技术
人的底层视觉处理机制与神经科学对视细胞的研究指出,人在对场景进行没有既有观念影响的观察时,人类倾向于将视觉注意力资源分配给场景中的色彩饱和度大的区域、色彩对比度高的区域以及具有边缘/方向性特征的区域。这三类注意力资源内容被称为显性(Overt)的底层视觉特征,在人的视觉注意力的神经信号中,这三类特征占据了大多数的信息空间。在人因的视觉认知实验中,这类底层视觉信息的特征值是一项很重要的考量因素。实验中通过对场景中的底层视觉信息的特征值打分,可以确定该场景中各元素对人的自底向上的认知影响。
对于一个场景中的底层视觉信息的提取,在应用中,实际上就是对场景进行图像处理。例如早期利用场景图像的全局特征值与像素特征值进行对比,目前应用较为广泛的是全局直方图算法。这些方法均能利用计算机处理获取简单场景中的特征值,但是当场景的全局复杂度提高时,这类基于全局的特征值提取方法会丢失大量细节。
例如,研究驾驶员在飞机驾驶舱中的视觉认知分配机制时,由于飞机驾驶舱中有大量的仪表开关以及显示屏,全局的方法往往会丢失场景中相较于姿态仪等大型仪表来说较为细小的开关及标注。如果不能有效提取这些细节处的底层信息特征值,研究中飞行员对于这些开关标识的认知程度的内容将会受到较大的影响。
发明内容
针对现有的底层视觉信息特征值方法在提取时特征值细节丢失的缺陷,该缺陷会导致复杂场景的视觉认知实验在场景分析时无法获取有效的底层视觉特征值,这部分的缺失会极大影响认知分析的可靠性。本发明引入多层感知卷积滤波器,基于network innetwork思想,在特征值提取网络中对复杂场景图像进行转置卷积操作以实现复杂场景的区域语义分割(Semantic Segmentation),将大复杂度的场景分割后的各个区域再行进行特征值的提取,以避免全局复杂度引发的信息噪音问题,最终获得不丢失细节的提取结果。
本发明提供了一种复杂场景底层视觉信息提取方法,包括如下步骤:
S1:将待分析场景图像进行RGB归一化处理,经处理后的场景图像复制为多层的数据集,组成多深度分析集;
S2:在卷积层利用M-P神经网络对步骤S1中组成的多深度分析集进行卷积处理,获得场景整体细节卷积结果;
S3:将步骤S2中获得的场景整体细节卷积结果与所需分割的语义在局部子区域做补零处理,在池化层降低不同特征值的数据维度并做全局均值池化,然后做差值计算分割区域语义;
S4:在区域语义输出层将步骤S4中的全局均值池化结果利用转置矩阵返回特征值,作特征图输出,实现对场景图像进行语义上的区域分割;
S5:将步骤S4中的场景语义的区域分割结果作为特征值提取的激活偏置,激活值σ为:
Figure BDA0002612442620000031
式中,wi为第i个神经元的连接权重值;xi为第i个神经元的输出值;b为当前神经网络深度切片内的神经激活偏置;n为神经元的数量。
定义激活函数f(σ):
Figure BDA0002612442620000032
式中,θ为激活函数阈值;
S6:通过步骤S5中定义的激活函数f(σ)输出最后的场景底层信息激活值,最终值表由二维的归一矩阵结果呈现以便后续分析应用。
进一步,步骤S2中,利用四种卷积滤波器对步骤S1中组成的多深度分析集进行卷积处理,所述四种卷积滤波器包括色彩饱和度滤波器、色彩对比度滤波器、形状边缘滤波器以及整体细节滤波器。
本发明的有益效果:
1)本发明提出的对场景先分割后分类提取的方法,能够实现在对例如飞机驾驶舱等复杂场景进行特征值提取时不丢失细节;
2)本发明能够保障视觉认知实验在复杂场景认知分析中的有效性,保证了实验的准确性,为后续的分析提供完整的数据基础。
附图说明
图1为本发明实施例的飞机驾驶舱场景;
图2为本发明的M-P神经网络结构示意图;
图3为本实施例的复杂场景底层视觉信息提取方法流程图;
图4为本发明实施例的四种卷积滤波器的Kernel内核表;
图5为本发明实施例对图1的底层视觉信息提取结果;
图6为利用现有技术的全局直方图方法对图1的底层视觉信息提取结果。
具体实施方式
下面结合附图和实施例进一步描述本发明,应该理解,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本实施例以飞机驾驶舱场景为例,如图1所示,飞机驾驶舱等复杂场景由于具有较高的全局复杂度,在进行底层视觉信息特征值提取时会受到信息噪声影响丢失局部细节。本发明引入改进的卷积神经网络结构,如图2所示,利用四种卷积滤波器,组成多深度分析集对场景图像进行图像语义分割。引入特征卷积滤波器筛选提取复杂场景的区域语义,再对提取结果使用转置卷积进行场景图像在语义上的区域分割;场景语义的区域分割结果作为激活偏置代入最后的底层视觉信息特征值提取网络,可以确保各种类型的场景细节均不会丢失。本实施例中复杂场景底层视觉信息提取方法具体包括如下步骤,如图3所示:
S1:前处理
将待分析场景图像进行RGB归一化处理,经处理后的场景图像复制为多层的数据集,组成多深度分析集。
S2:卷积处理
在卷积层利用M-P神经网络结构对步骤S1中组成的多深度分析集进行运算(即卷积处理),获得场景整体细节卷积结果。本实施例中使用的四种卷积滤波器如下图4所示,其中,色彩饱和度滤波器KERNEL_G将场景图像中的边缘与对比度特征弱化,强化场景图像中的色彩饱和度特征;色彩对比度滤波器KERNEL_S用于加强场景图像的对比图特征;形状边缘滤波器KERNEL_E将场景图像中的色彩特征全部剔除,只留下场景图像中的边缘线条;整体细节滤波器KERNEL_UM是作为上述三种滤波器的补充,该滤波器的引入主要考虑上述三种滤波器会对场景图像中的某些特征产生双重响应,利用其为图像进行平滑处理,确保结果中不带有不必要的双重响应,获得场景整体细节卷积结果。在深度分析集中,通过上述四种卷积滤波器的多次滚卷运算,可以强化相应的底层视觉特征。
S3和S4:全局均值池化即区域分割
S3:将步骤S2中获得的场景整体细节卷积结果与所需分割的语义在局部子区域做补零处理,在池化层降低不同特征值的数据维度并做全局均值池化,然后做差值计算分割区域语义。
S4:在区域语义输出层将步骤S4中的全局均值池化结果利用转置矩阵作特征图输出,实现对场景图像进行语义上的区域分割。
S5和S6:输出底层信息激活值
S5:将步骤S4中的场景语义的区域分割结果作为特征值提取的激活偏置,激活值σ为:
Figure BDA0002612442620000051
式中,wi为第i个神经元的连接权重值;xi为第i个神经元的输出值;b为当前神经网络深度切片内的神经激活偏置;n为神经元的数量。
定义激活函数f(σ):
Figure BDA0002612442620000052
式中,θ为激活函数阈值。
S6:通过步骤S5中定义的激活函数f(σ)输出最后的场景底层信息激活值,最终值表由二维的归一矩阵结果呈现以便后续分析应用。经过本发明的区域分割后的场景底层视觉信息特征值提取可视化结果如图5所示,其中图a)为提取出的场景的色彩饱和度特征值;图b)为提取出的场景的色彩对比度特征值;图c)为提取出的场景的边缘特征值。相较于利用全局直方图方法得到的结果,如图6所示,本方法获得了飞机驾驶舱场景细节。
综上,本发明能够很好地提取出认知实验所需的场景底层信息特征值,能较好地保留了复杂场景中的细节。因此,在人的视觉认知实验中,本发明可对复杂的实验场景进行特征值打分,确保了视觉认知实验在复杂场景中的严谨性。此外,本发明也可用于机器视觉对复杂场景的底层信息提取,确保保留复杂场景中的全部信息而不丢失细节。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例作出若干变型和改进,这些都属于本发明的保护范围。

Claims (1)

1.一种复杂场景底层视觉信息提取方法,其特征在于,包括如下步骤:
S1:将待分析场景图像进行RGB归一化处理,经处理后的场景图像复制为多层的数据集,组成多深度分析集;
S2:在卷积层利用M-P神经网络对步骤S1中组成的多深度分析集进行卷积处理,获得场景整体细节卷积结果;
S3:将步骤S2中获得的场景整体细节卷积结果与所需分割的语义在局部子区域做补零处理,在池化层降低不同特征值的数据维度并做全局均值池化,然后做差值计算分割区域语义;
S4:在区域语义输出层将步骤S3中的全局均值池化结果利用转置矩阵返回特征值,作特征图输出,实现对场景图像进行语义上的区域分割;
S5:将步骤S4中的场景语义的区域分割结果作为特征值提取的激活偏置,激活值σ为:
Figure FDA0003534297320000011
式中,wi为第i个神经元的连接权重值;xi为第i个神经元的输出值;b为当前神经网络深度切片内的神经激活偏置;n为神经元的数量;
定义激活函数f(σ):
Figure FDA0003534297320000012
式中,θ为激活函数阈值;
S6:通过步骤S5中定义的激活函数f(σ)输出最后的场景底层信息激活值,最终值表由二维的归一矩阵结果呈现以便后续分析应用;
步骤S2中,利用四种卷积滤波器对步骤S1中组成的多深度分析集进行卷积处理,所述四种卷积滤波器包括色彩饱和度滤波器、色彩对比度滤波器、形状边缘滤波器以及整体细节滤波器。
CN202010758709.3A 2020-07-31 2020-07-31 一种复杂场景底层视觉信息提取方法 Active CN112036408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010758709.3A CN112036408B (zh) 2020-07-31 2020-07-31 一种复杂场景底层视觉信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010758709.3A CN112036408B (zh) 2020-07-31 2020-07-31 一种复杂场景底层视觉信息提取方法

Publications (2)

Publication Number Publication Date
CN112036408A CN112036408A (zh) 2020-12-04
CN112036408B true CN112036408B (zh) 2022-04-12

Family

ID=73583737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010758709.3A Active CN112036408B (zh) 2020-07-31 2020-07-31 一种复杂场景底层视觉信息提取方法

Country Status (1)

Country Link
CN (1) CN112036408B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446833B (zh) * 2016-09-27 2019-08-02 湖南商学院 一种用于复杂场景图像识别的多通道仿生视觉方法
CN107066916B (zh) * 2016-10-26 2020-02-07 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN107564009B (zh) * 2017-08-30 2021-02-05 电子科技大学 基于深度卷积神经网络的室外场景多目标分割方法
US10410350B2 (en) * 2017-10-30 2019-09-10 Rakuten, Inc. Skip architecture neural network machine and method for improved semantic segmentation
CN110969171A (zh) * 2019-12-12 2020-04-07 河北科技大学 基于改进卷积神经网络的图像分类模型、方法及应用

Also Published As

Publication number Publication date
CN112036408A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
Li et al. Visual saliency based on scale-space analysis in the frequency domain
Rehman et al. Microscopic malaria parasitemia diagnosis and grading on benchmark datasets
CN103020965B (zh) 一种基于显著性检测的前景分割方法
CN107358258B (zh) 基于nsct双cnn通道和选择性注意机制的sar图像目标分类
EP3101594A1 (en) Saliency information acquisition device and saliency information acquisition method
Savkare et al. Automated system for malaria parasite identification
CN109544564A (zh) 一种医疗图像分割方法
Zarie et al. Contrast enhancement using triple dynamic clipped histogram equalization based on mean or median
CN116129129B (zh) 一种人物交互检测模型及检测方法
CN111160194A (zh) 一种基于多特征融合的静态手势图像识别方法
Jaya et al. Image registration based cervical cancer detection and segmentation using ANFIS classifier
CN112036408B (zh) 一种复杂场景底层视觉信息提取方法
Dogra et al. An efficient image integration algorithm for night mode vision applications
Kia et al. A novel scheme for intelligent recognition of pornographic images
Mustafa et al. Obscenity detection using haar-like features and gentle Adaboost classifier
Rahim et al. Hand gesture-based sign alphabet recognition and sentence interpretation using a convolutional neural network
Pattanaik et al. Vision-based malaria parasite image analysis: a systematic review
Khairudin et al. A fast and efficient segmentation of soil-transmitted helminths through various color models and k-Means clustering
Li Saliency prediction based on multi-channel models of visual processing
CN106446909A (zh) 一种中餐食物图像特征提取方法
Kumar et al. Signal and image processing in medical applications
CN110472490A (zh) 基于改进VGGNet的动作识别方法及装置、存储介质和终端
EP2806403A1 (en) Method and device for processing a picture
CN113673347A (zh) 一种基于Wasserstein距离的表征相似对抗网络
Wu et al. Image Edge Detection Based on Sobel with Morphology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant