CN112036408A - 一种复杂场景底层视觉信息提取方法 - Google Patents
一种复杂场景底层视觉信息提取方法 Download PDFInfo
- Publication number
- CN112036408A CN112036408A CN202010758709.3A CN202010758709A CN112036408A CN 112036408 A CN112036408 A CN 112036408A CN 202010758709 A CN202010758709 A CN 202010758709A CN 112036408 A CN112036408 A CN 112036408A
- Authority
- CN
- China
- Prior art keywords
- scene
- semantics
- convolution
- result
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于场景视觉认知领域,特别涉及一种复杂场景底层视觉信息提取方法。为了解决复杂场景的底层特征值提取问题。本发明引入改进的卷积神经网络结构,利用四种卷积滤波器,组成多深度分析集对场景图像进行图像语义分割;引入特征卷积滤波器筛选提取复杂场景的区域语义,再对提取结果使用转置卷积进行场景图像在语义上的区域分割;场景语义的区域分割结果作为激活偏置代入最后的底层视觉信息特征值提取网络,可以确保各种类型的场景细节均不会丢失。经过场景区域语义分割后,本发明能够很好地提取出认知实验所需的场景底层信息特征值,能较好地保留了复杂场景中的细节。
Description
技术领域
本发明属于场景视觉认知领域,特别涉及一种复杂场景底层视觉信息提取方法。本发明主要针对复杂的视觉认知实验场景通过算法实现,提取全局场景中的三类显性底层视觉注意力资源。
背景技术
人的底层视觉处理机制与神经科学对视细胞的研究指出,人在对场景进行没有既有观念影响的观察时,人类倾向于将视觉注意力资源分配给场景中的色彩饱和度大的区域、色彩对比度高的区域以及具有边缘/方向性特征的区域。这三类注意力资源内容被称为显性(Overt)的底层视觉特征,在人的视觉注意力的神经信号中,这三类特征占据了大多数的信息空间。在人因的视觉认知实验中,这类底层视觉信息的特征值是一项很重要的考量因素。实验中通过对场景中的底层视觉信息的特征值打分,可以确定该场景中各元素对人的自底向上的认知影响。
对于一个场景中的底层视觉信息的提取,在应用中,实际上就是对场景进行图像处理。例如早期利用场景图像的全局特征值与像素特征值进行对比,目前应用较为广泛的是全局直方图算法。这些方法均能利用计算机处理获取简单场景中的特征值,但是当场景的全局复杂度提高时,这类基于全局的特征值提取方法会丢失大量细节。
例如,研究驾驶员在飞机驾驶舱中的视觉认知分配机制时,由于飞机驾驶舱中有大量的仪表开关以及显示屏,全局的方法往往会丢失场景中相较于姿态仪等大型仪表来说较为细小的开关及标注。如果不能有效提取这些细节处的底层信息特征值,研究中飞行员对于这些开关标识的认知程度的内容将会受到较大的影响。
发明内容
针对现有的底层视觉信息特征值方法在提取时特征值细节丢失的缺陷,该缺陷会导致复杂场景的视觉认知实验在场景分析时无法获取有效的底层视觉特征值,这部分的缺失会极大影响认知分析的可靠性。本发明引入多层感知卷积滤波器,基于network innetwork思想,在特征值提取网络中对复杂场景图像进行转置卷积操作以实现复杂场景的区域语义分割(Semantic Segmentation),将大复杂度的场景分割后的各个区域再行进行特征值的提取,以避免全局复杂度引发的信息噪音问题,最终获得不丢失细节的提取结果。
本发明提供了一种复杂场景底层视觉信息提取方法,包括如下步骤:
S1:将待分析场景图像进行RGB归一化处理,经处理后的场景图像复制为多层的数据集,组成多深度分析集;
S2:在卷积层利用M-P神经网络对步骤S1中组成的多深度分析集进行卷积处理,获得场景整体细节卷积结果;
S3:将步骤S2中获得的场景整体细节卷积结果与所需分割的语义在局部子区域做补零处理,在池化层降低不同特征值的数据维度并做全局均值池化,然后做差值计算分割区域语义;
S4:在区域语义输出层将步骤S4中的全局均值池化结果利用转置矩阵返回特征值,作特征图输出,实现对场景图像进行语义上的区域分割;
S5:将步骤S4中的场景语义的区域分割结果作为特征值提取的激活偏置,激活值σ为:
式中,wi为第i个神经元的连接权重值;xi为第i个神经元的输出值;b为当前神经网络深度切片内的神经激活偏置;n为神经元的数量。
定义激活函数f(σ):
式中,θ为激活函数阈值;
S6:通过步骤S5中定义的激活函数f(σ)输出最后的场景底层信息激活值,最终值表由二维的归一矩阵结果呈现以便后续分析应用。
进一步,步骤S2中,利用四种卷积滤波器对步骤S1中组成的多深度分析集进行卷积处理,所述四种卷积滤波器包括色彩饱和度滤波器、色彩对比度滤波器、形状边缘滤波器以及整体细节滤波器。
本发明的有益效果:
1)本发明提出的对场景先分割后分类提取的方法,能够实现在对例如飞机驾驶舱等复杂场景进行特征值提取时不丢失细节;
2)本发明能够保障视觉认知实验在复杂场景认知分析中的有效性,保证了实验的准确性,为后续的分析提供完整的数据基础。
附图说明
图1为本发明实施例的飞机驾驶舱场景;
图2为本发明的M-P神经网络结构示意图;
图3为本实施例的复杂场景底层视觉信息提取方法流程图;
图4为本发明实施例的四种卷积滤波器的Kernel内核表;
图5为本发明实施例对图1的底层视觉信息提取结果;
图6为利用现有技术的全局直方图方法对图1的底层视觉信息提取结果。
具体实施方式
下面结合附图和实施例进一步描述本发明,应该理解,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本实施例以飞机驾驶舱场景为例,如图1所示,飞机驾驶舱等复杂场景由于具有较高的全局复杂度,在进行底层视觉信息特征值提取时会受到信息噪声影响丢失局部细节。本发明引入改进的卷积神经网络结构,如图2所示,利用四种卷积滤波器,组成多深度分析集对场景图像进行图像语义分割。引入特征卷积滤波器筛选提取复杂场景的区域语义,再对提取结果使用转置卷积进行场景图像在语义上的区域分割;场景语义的区域分割结果作为激活偏置代入最后的底层视觉信息特征值提取网络,可以确保各种类型的场景细节均不会丢失。本实施例中复杂场景底层视觉信息提取方法具体包括如下步骤,如图3所示:
S1:前处理
将待分析场景图像进行RGB归一化处理,经处理后的场景图像复制为多层的数据集,组成多深度分析集。
S2:卷积处理
在卷积层利用M-P神经网络结构对步骤S1中组成的多深度分析集进行运算(即卷积处理),获得场景整体细节卷积结果。本实施例中使用的四种卷积滤波器如下图4所示,其中,色彩饱和度滤波器KERNEL_G将场景图像中的边缘与对比度特征弱化,强化场景图像中的色彩饱和度特征;色彩对比度滤波器KERNEL_S用于加强场景图像的对比图特征;形状边缘滤波器KERNEL_E将场景图像中的色彩特征全部剔除,只留下场景图像中的边缘线条;整体细节滤波器KERNEL_UM是作为上述三种滤波器的补充,该滤波器的引入主要考虑上述三种滤波器会对场景图像中的某些特征产生双重响应,利用其为图像进行平滑处理,确保结果中不带有不必要的双重响应,获得场景整体细节卷积结果。在深度分析集中,通过上述四种卷积滤波器的多次滚卷运算,可以强化相应的底层视觉特征。
S3和S4:全局均值池化即区域分割
S3:将步骤S2中获得的场景整体细节卷积结果与所需分割的语义在局部子区域做补零处理,在池化层降低不同特征值的数据维度并做全局均值池化,然后做差值计算分割区域语义。
S4:在区域语义输出层将步骤S4中的全局均值池化结果利用转置矩阵作特征图输出,实现对场景图像进行语义上的区域分割。
S5和S6:输出底层信息激活值
S5:将步骤S4中的场景语义的区域分割结果作为特征值提取的激活偏置,激活值σ为:
式中,wi为第i个神经元的连接权重值;xi为第i个神经元的输出值;b为当前神经网络深度切片内的神经激活偏置;n为神经元的数量。
定义激活函数f(σ):
式中,θ为激活函数阈值。
S6:通过步骤S5中定义的激活函数f(σ)输出最后的场景底层信息激活值,最终值表由二维的归一矩阵结果呈现以便后续分析应用。经过本发明的区域分割后的场景底层视觉信息特征值提取可视化结果如图5所示,其中图a)为提取出的场景的色彩饱和度特征值;图b)为提取出的场景的色彩对比度特征值;图c)为提取出的场景的边缘特征值。相较于利用全局直方图方法得到的结果,如图6所示,本方法获得了飞机驾驶舱场景细节。
综上,本发明能够很好地提取出认知实验所需的场景底层信息特征值,能较好地保留了复杂场景中的细节。因此,在人的视觉认知实验中,本发明可对复杂的实验场景进行特征值打分,确保了视觉认知实验在复杂场景中的严谨性。此外,本发明也可用于机器视觉对复杂场景的底层信息提取,确保保留复杂场景中的全部信息而不丢失细节。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例作出若干变型和改进,这些都属于本发明的保护范围。
Claims (2)
1.一种复杂场景底层视觉信息提取方法,其特征在于,包括如下步骤:
S1:将待分析场景图像进行RGB归一化处理,经处理后的场景图像复制为多层的数据集,组成多深度分析集;
S2:在卷积层利用M-P神经网络对步骤S1中组成的多深度分析集进行卷积处理,获得场景整体细节卷积结果;
S3:将步骤S2中获得的场景整体细节卷积结果与所需分割的语义在局部子区域做补零处理,在池化层降低不同特征值的数据维度并做全局均值池化,然后做差值计算分割区域语义;
S4:在区域语义输出层将步骤S4中的全局均值池化结果利用转置矩阵返回特征值,作特征图输出,实现对场景图像进行语义上的区域分割;
S5:将步骤S4中的场景语义的区域分割结果作为特征值提取的激活偏置,激活值σ为:
式中,wi为第i个神经元的连接权重值;xi为第i个神经元的输出值;b为当前神经网络深度切片内的神经激活偏置;n为神经元的数量;
定义激活函数f(σ):
式中,θ为激活函数阈值;
S6:通过步骤S5中定义的激活函数f(σ)输出最后的场景底层信息激活值,最终值表由二维的归一矩阵结果呈现以便后续分析应用。
2.根据权利要求1所述的方法,其特征在于,步骤S2中,利用四种卷积滤波器对步骤S1中组成的多深度分析集进行卷积处理,所述四种卷积滤波器包括色彩饱和度滤波器、色彩对比度滤波器、形状边缘滤波器以及整体细节滤波器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758709.3A CN112036408B (zh) | 2020-07-31 | 2020-07-31 | 一种复杂场景底层视觉信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758709.3A CN112036408B (zh) | 2020-07-31 | 2020-07-31 | 一种复杂场景底层视觉信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112036408A true CN112036408A (zh) | 2020-12-04 |
CN112036408B CN112036408B (zh) | 2022-04-12 |
Family
ID=73583737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010758709.3A Active CN112036408B (zh) | 2020-07-31 | 2020-07-31 | 一种复杂场景底层视觉信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036408B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446833A (zh) * | 2016-09-27 | 2017-02-22 | 湖南商学院 | 一种用于复杂场景图像识别的多通道仿生视觉方法 |
CN107066916A (zh) * | 2016-10-26 | 2017-08-18 | 中国科学院自动化研究所 | 基于反卷积神经网络的场景语义分割方法 |
CN107564009A (zh) * | 2017-08-30 | 2018-01-09 | 电子科技大学 | 基于深度卷积神经网络的室外场景多目标分割方法 |
US20190130573A1 (en) * | 2017-10-30 | 2019-05-02 | Rakuten, Inc. | Skip architecture neural network machine and method for improved semantic segmentation |
CN110969171A (zh) * | 2019-12-12 | 2020-04-07 | 河北科技大学 | 基于改进卷积神经网络的图像分类模型、方法及应用 |
-
2020
- 2020-07-31 CN CN202010758709.3A patent/CN112036408B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446833A (zh) * | 2016-09-27 | 2017-02-22 | 湖南商学院 | 一种用于复杂场景图像识别的多通道仿生视觉方法 |
CN107066916A (zh) * | 2016-10-26 | 2017-08-18 | 中国科学院自动化研究所 | 基于反卷积神经网络的场景语义分割方法 |
CN107564009A (zh) * | 2017-08-30 | 2018-01-09 | 电子科技大学 | 基于深度卷积神经网络的室外场景多目标分割方法 |
US20190130573A1 (en) * | 2017-10-30 | 2019-05-02 | Rakuten, Inc. | Skip architecture neural network machine and method for improved semantic segmentation |
CN110969171A (zh) * | 2019-12-12 | 2020-04-07 | 河北科技大学 | 基于改进卷积神经网络的图像分类模型、方法及应用 |
Non-Patent Citations (3)
Title |
---|
DU JUNMIN 等: "Effect of Passenger Behaviors and Psychological Characteristics on Emergency Evacuation", 《SCIENCEDIRECT》 * |
张海玉: "基于卷积神经网络的夜间车辆目标检测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅱ辑》 * |
李银霞 等: "歼击机座舱工效学评价指标权重系数的确定", 《航空学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112036408B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Visual saliency based on scale-space analysis in the frequency domain | |
EP3101594A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
CN107358258B (zh) | 基于nsct双cnn通道和选择性注意机制的sar图像目标分类 | |
Flores et al. | Application of convolutional neural networks for static hand gestures recognition under different invariant features | |
Oloyede et al. | Improving face recognition systems using a new image enhancement technique, hybrid features and the convolutional neural network | |
CN109544564A (zh) | 一种医疗图像分割方法 | |
Zarie et al. | Contrast enhancement using triple dynamic clipped histogram equalization based on mean or median | |
CN116129129B (zh) | 一种人物交互检测模型及检测方法 | |
Shariatmadar et al. | Visual saliency detection via integrating bottom-up and top-down information | |
Dogra et al. | An efficient image integration algorithm for night mode vision applications | |
Rachmad et al. | Classification of mycobacterium tuberculosis based on color feature extraction using adaptive boosting method | |
CN112036408B (zh) | 一种复杂场景底层视觉信息提取方法 | |
Uejima et al. | Proto-object based saliency model with texture detection channel | |
DE112019004112T5 (de) | System und verfahren zur analyse mikroskopischer bilddaten und zur erzeugung eines annotierten datensatzes zum training der klassifikatoren | |
CN110472490A (zh) | 基于改进VGGNet的动作识别方法及装置、存储介质和终端 | |
CN114037618A (zh) | 基于保边滤波和平滑滤波融合的去雾方法、系统及存储介质 | |
EP2806403A1 (en) | Method and device for processing a picture | |
Fan et al. | Two-stage salient region detection by exploiting multiple priors | |
Li | Saliency prediction based on multi-channel models of visual processing | |
Joon et al. | Lung cancer detection using image processing techniques | |
CN115170956A (zh) | 基于多尺度熵率超像素的后验概率高光谱图像分类方法 | |
Fareed et al. | Saliency detection by exploiting multi-features of color contrast and color distribution | |
Liu et al. | DSFusion: Infrared and visible image fusion method combining detail and scene information | |
Kanojia et al. | Automatic identification of malaria using image processing and artificial neural network | |
Chen et al. | Attention region detection based on closure prior in layered bit planes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |