CN108334830B

CN108334830B - 一种基于目标语义和深度外观特征融合的场景识别方法

Info

Publication number: CN108334830B
Application number: CN201810071440.4A
Authority: CN
Inventors: 孙宁; 李文丽; 李晓飞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2022-10-04
Anticipated expiration: 2038-01-25
Also published as: CN108334830A

Abstract

一种基于目标语义和深度外观特征融合的场景识别方法，具体步骤为：获取待识别的场景图像；提取场景图像的目标语义信息，生成保持空间布局信息的目标语义特征；提取场景图像的外观上下文信息，生成外观上下文特征；提取场景图像的外观全局信息，生成外观全局特征；根据目标语义特征、外观上下文特征和外观全局特征，获取场景图像的识别结果。本发明采用多类目标检测器算法，精准地获取关键目标、类别及其布局信息；通过SFV模型获取室内场景图像的目标语义特征；卷积层和LSTM层组成端到端可训练的混合DNN网络结构可以有效提取场景图像的上下文相信息。该方法融合了目标语义信息、全局外观信息和外观的上下文特征，提高了识别算方法的识别率和鲁棒性。

Description

一种基于目标语义和深度外观特征融合的场景识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于目标语义和深度外观特征融合的场景识别方法。

背景技术

场景识别是计算机视觉的重要课题之一,并广泛应用于许多领域，主要包括大型数据库的图像信息检索、机器人的移动定位与环境交互、安防监控领域的事件检测等。

自2006年以来，深度学习理论开始成为机器学习和人工智能领域的研究热点，深度学习建立深层网络结构模拟人脑的认知机制，通过深度多层次网络对输入数据进行逐层非线性提取，形成从底层信号到高层语义的映射关系。深度学习架构在面向大数据的自然语言处理和图像分析处理等人工智能领域取得了巨大的成功。深度网络架构具备更深的网络层次，将特征提取和分类判别过程统一在一个学习模型下，通过多层深度结构从图像中提取目标属性的内在非线性特征，使得其在处理图像和视频等高维数据时具有显著的优势。

据申请人了解，Guo-Sen Xie等人提出了一种基于字典的混合CNN场景识别模型，其对卷积层和全连接层的数据做进一步处理，比单纯利用CNN进行分类的效果好。ShengGuo和Weilin Huang 等人注意到，卷积特征捕捉局部对象和场景图像细微结构，而这些特征在高压缩FC（full connection）表示中被显著消除，所以提出了一个新的局部监督深度混合模型（LS-DHM）有效地提高了卷积特征在场景识别中的应用。以上均是对CNN网络中某层的数据做进一步处理，或者改变网络的框架结构，取得了不错的效果，但是并没有考虑目标及其位置的重要信息，图片信息没有得到充分挖掘利用。为了考虑图像的不同区域之间的依赖，Zhen Zuo 和Bing Shuai 等人从上下文语义联系的角度出发提出了层次型（hrnns）编码在图像表示的语境依赖性。例如，在“海滩”标签的图像中，如果“沙”区域以“海”区域为参照，则将“沙”和“沙漠”就可以区分开来。

然而，当把上述方法应用在室内场景识别时，识别效果下降，究其原因是室内场景主要存在类内差异大类间差异小等。

本申请中的多类别目标检测器YOLOv2算法详见（Redmon J, Farhadi A.YOLO9000: better, faster, stronger[J]. arXiv preprint arXiv:1612.08242,2016.），准确识别出每张室内场景图片中物体的类别、大小、位置和分值信息，将这些信息通过空间Fisher向量（Spatial Fisher Vector，SFV）编码，详见（Krapac J, Verbeek J,Jurie F. Modeling spatial layout with fisher vectors for image categorization[C]// International Conference on Computer Vision. IEEE Computer Society,2011:1487-1494.）；提取全局外观特征的VGG16模型详见（Simonyan, Karen, and A.Zisserman. "Very Deep Convolutional Networks for Large-Scale ImageRecognition." Computer Science(2014).），其倒数第二层为全连接层的输出；SVM分类方法通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题.简单地说，就是升维和线性化。

发明内容

本发明的目的在于：提供一种基于目标语义和深度外观特征融合的场景识别方法，融合目标语义信息、全局外观信息和外观的上下文特征，有效提高室内场景识别方法的识别率和鲁棒性。

为了达到以上目的，一种基于目标语义和深度外观特征融合的场景识别方法，具体步骤为：

获取待识别的场景图像；

提取场景图像的目标语义信息，生成保持空间布局信息的目标语义特征；

提取场景图像的外观上下文信息，生成外观上下文特征；

提取场景图像的外观全局信息，生成外观全局特征；

根据目标语义特征、外观上下文特征和外观全局特征，获取场景图像的识别结果。

本发明的优选方案是：生成保持空间布局信息的目标语义特征的具体方法为：

从数据库中收集类目标图像，训练相对应的多类目标检测器；

输入场景图像，输出对应的矩阵；

根据类别得分，对矩阵中网格单元的锚点的数据进行最大池化，获取底层特征；

根据SFV模型将底层特征转化为目标语义特征。

优选地，数据库为ImageNet数据库，类目标图像的数量为177；场景图像像素为608×608，矩阵的维度为19×19×(5+177)×5=328,510，其中，19×19为输出的网格单元的宽和高，括号内的5为目标的位置坐标，大小和置信度，括号外的5为5个锚点，177为类别得分的维度；根据类别得分，最大池化每个网格单元中的5个锚点的数据，获取维度为65702的底层特征；SFV模型提取的初始维度为92928，在SFV模型中，利用128维高斯核生成外观模型和一个混合高斯核生成每个视觉词汇的空间模型，再通过主成分分析降维至4096维，获取目标语义特征。

优选地，生成外观上下文特征具体方法为：构建混合DNN网络模型，将场景图像输入混合DNN网络模型提取出场景外观上下文特征。

更优选地，混合DNN网络模型包括1个输入、13个卷积层、4个最大池化层、2个四方向长短期记忆网络LSTM层和1个输出层，输入为256×256的RGB图像，池化层的卷积核为2×2，步长为2，卷积层的卷积核为3×3，卷积的步长为1，卷积层的输入为空间填充。

更优选地，混合DNN网络模型的前17层依次为：2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层；其中，第13层和第17层的卷积层后分别拼接四方向长短期记忆网络LSTM层，四方向长短期记忆网络LSTM层包含水平方向从左到右、水平方向从右至左、垂直方向从上至下、垂直方向从下至上四种方向，具有四个输出；2个四方向长短期记忆网络LSTM层的8个LSTM输出串接作为混合DNN网络模型的输出，生成外观上下文特征；输出的维度为4096维。

更优选地，四方向长短期记忆网络LSTM层内有一个隐含层，隐含层的输入为512维，输出为512维。

优选地，生成外观全局特征具体方法为：将场景图像输入卷积神经网络VGG16模型中，提取倒数第二层的全连接层输出作为外观全局特征。

优选地，获取场景图像的识别结果具体方法为：将目标语义特征、外观上下文特征和外观全局特征得分融合，训练SVM分类器，获取场景图像的识别结果。

本发明有益效果为：采用多类目标检测器算法，可以精准地得到关键目标、类别及其布局信息；通过SFV模型，将室内场景图像中的空间位置信息考虑在内，较好的得到了室内场景图像的目标语义特征，解决了“语义鸿沟”问题，提高了室内场景的识别正确率；卷积层和LSTM组成端到端可训练的混合DNN网络结构可以有效提取场景图像的上下文相信息。该方法融合了目标语义信息、全局外观信息和外观的上下文特征，提高了室内场景识别方法的识别率和鲁棒性。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的识别方法流程图；

图2为本发明的四方向长短期记忆网络LSTM层输入顺序。

具体实施方式

实施例一

请参阅图1，本实施例提供的一种基于目标语义和深度外观特征融合的场景识别方法，具体步骤为：

获取待识别的场景图像；

提取场景图像的外观上下文信息，生成外观上下文特征；

提取场景图像的外观全局信息，生成外观全局特征；

以下将对上述步骤的操作规则、方式等进行详细说明。

生成保持空间布局信息的目标语义特征的具体方法为：

基于多目标检测器YOLOv2算法，从目前世界上图像识别最大的数据库ImageNet数据集中收集177类目标图像，训练相对应177类的多类目标检测器，构建场景图像字典；

输入608x608场景图像，输出矩阵的维度为19×19×(5+177)×5=328,510。其中19×19表示输出的网格单元的宽和高，括号内5表示目标的位置坐标，大小和置信度，括号外5表示5个锚点，177表示类别得分的维度；

根据类别得分，对每个网格单元中的5个锚点的数据进行最大池化，获取维度为65,702的底层特征；

SFV模型提取的初始维度为92928，在SFV模型中，利用128维高斯核生成外观模型和一个混合高斯核生成每个视觉词汇的空间模型，再通过主成分分析降维至4096维，获取目标语义特征。

生成外观上下文特征具体方法为：构建混合DNN网络模型，将场景图像输入混合DNN网络模型提取出场景外观上下文特征。

混合DNN网络模型包括1个输入、13个卷积层、4个最大池化层、2个四方向长短期记忆网络LSTM层（Long Short-Term Memory）和1个输出层，输入为256×256的RGB图像，池化层的卷积核为2×2，步长为2，卷积层的卷积核为3×3，卷积的步长为1，卷积层的输入为空间填充，使得卷积之后分辨率保持不变。

混合DNN网络模型的前17层依次为：2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层；其中，第13层和第17层的卷积层后分别拼接四方向长短期记忆网络LSTM层，四方向长短期记忆网络LSTM层内有一个隐含层，隐含层的输入为512维，输出为512维。四方向长短期记忆网络LSTM层如图2所示，包含水平方向从左到右、水平方向从右至左、垂直方向从上至下、垂直方向从下至上四种方向，具有四个输出；2个四方向长短期记忆网络LSTM层的8个LSTM输出串接作为混合DNN网络模型的输出，生成外观上下文特征；混合DNN网络模型输出的维度为4096维，不同卷积层的输出可以在不同尺度下提供具有不同特征的场景图像特征图。四方向的LSTM层被连接到不同卷积层的输出，更好地表示场景图像的多方向上下文信息。

将国际公开的MIT-67室内场景库和SUN397场景库分别输入到混合DNN模型，得到场景图像的外观上下文特征。

生成外观全局特征具体方法为：将国际公开的MIT-67室内场景库和SUN397场景库分别输入卷积神经网络VGG16模型中，提取倒数第二层的全连接层输出作为外观全局特征。

获取场景图像的识别结果具体方法为：将目标语义特征、外观上下文特征和外观全局特征进行得分融合，训练SVM分类器，获取场景图像的识别结果。

本实施例采用YOLOv2多类目标检测器算法，可以精准地得到关键目标、类别及其布局信息；通过SFV模型，将室内场景图像中的空间位置信息考虑在内，较好的得到了室内场景图像的目标语义特征，解决了“语义鸿沟”问题，提高了室内场景的识别正确率；卷积层和LSTM层组成端到端可训练的混合DNN网络结构可以有效提取场景图像的上下文相信息。该方法融合了目标语义信息、全局外观信息和外观的上下文特征，提高了室内场景识别算法的识别率和鲁棒性。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于目标语义和深度外观特征融合的场景识别方法，其特征在于，具体步骤为：

获取待识别的场景图像；

提取场景图像的外观上下文信息，生成外观上下文特征；

提取场景图像的外观全局信息，生成外观全局特征；

根据所述目标语义特征、所述外观上下文特征和所述外观全局特征，获取所述场景图像的识别结果；

所述生成保持空间布局信息的目标语义特征的具体方法为：

输入场景图像，输出对应的矩阵；

根据类别得分，对矩阵中网格单元的锚点的数据进行最大池化，获取底层特征；根据SFV模型将底层特征转化为目标语义特征。

所述数据库为ImageNet数据库，所述类目标图像的数量为177；

所述场景图像像素为608×608，所述矩阵的维度为19×19×(5+177)×5＝328510，其中，19×19为输出的网格单元的宽和高，括号内的5为目标的位置坐标，大小和置信度，括号外的5为5个锚点，177为类别得分的维度；根据类别得分，最大池化每个网格单元中的5个锚点的数据，获取维度为65702的底层特征；所述SFV模型提取的初始维度为92928，在SFV模型中，利用128维高斯核生成外观模型和一个混合高斯核生成每个视觉词汇的空间模型，再通过主成分分析降维至4096维，获取目标语义特征。

2.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法，其特征在于，所述生成外观上下文特征具体方法为：构建混合DNN网络模型，将场景图像输入混合DNN网络模型提取出场景外观上下文特征。

3.根据权利要求2所述的一种基于目标语义和深度外观特征融合的场景识别方法，其特征在于，所述混合DNN网络模型包括1个输入、13个卷积层、4个最大池化层、2个四方向长短期记忆网络LSTM层和1个输出层，所述输入为256×256 的RGB图像，所述池化层的卷积核为2×2，步长为2，所述卷积层的卷积核为3×3，卷积的步长为1，所述卷积层的输入为空间填充。

4.根据权利要求3所述的一种基于目标语义和深度外观特征融合的场景识别方法，其特征在于，所述混合DNN网络模型的前17层依次为：2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层；其中，第13层和第17层的卷积层后分别拼接四方向长短期记忆网络LSTM层，所述四方向长短期记忆网络LSTM层包含水平方向从左到右、水平方向从右至左、垂直方向从上至下、垂直方向从下至上四种方向，具有四个输出；2个所述四方向长短期记忆网络LSTM层的8个LSTM输出串接作为所述混合DNN网络模型的输出，生成外观上下文特征；所述输出的维度为4096维。

5.根据权利要求4所述的一种基于目标语义和深度外观特征融合的场景识别方法，其特征在于，所述四方向长短期记忆网络LSTM层内有一个隐含层，所述隐含层的输入为512维，输出为512维。

6.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法，其特征在于，所述生成外观全局特征具体方法为：将场景图像输入卷积神经网络VGG16模型中，提取倒数第二层的全连接层输出作为外观全局特征。

7.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法，其特征在于，所述获取所述场景图像的识别结果具体方法为：将所述目标语义特征、所述外观上下文特征和所述外观全局特征进行得分融合，训练SVM分类器，获取所述场景图像的识别结果。