CN106096542B

CN106096542B - 基于距离预测信息的图像视频场景识别方法

Info

Publication number: CN106096542B
Application number: CN201610404156.5A
Authority: CN
Inventors: 郑莹斌; 汪宏; 叶浩
Original assignee: Shanghai Information Technology Research Center; Shanghai Advanced Research Institute of CAS
Current assignee: Shanghai Information Technology Research Center; Shanghai Advanced Research Institute of CAS
Priority date: 2016-06-08
Filing date: 2016-06-08
Publication date: 2020-02-11
Anticipated expiration: 2036-06-08
Also published as: CN106096542A

Abstract

本发明提供一种基于距离预测信息的图像视频场景识别方法，所述方法至少包括：步骤一、采用已有的图像训练集训练获得距离预测模型，将所述距离预测模型应用于待预测的RGB图像，获取所述RGB图像对应的距离预测信息，再从所述距离预测信息中提取距离特征；步骤二、采用已有的图像视频集训练获得特征分类器，利用所述特征分类器和所述距离特征进行预测，得到图像视频的场景类别。本发明的图像视频场景识别的方法，利用基于RGB图像内容的距离预测信息，获取表示距离预测信息及视觉颜色信息等图像特征，再利用训练的各种分类器，对待预测RGB图像进行场景识别，提高了图像视频场景识别的能力。

Description

基于距离预测信息的图像视频场景识别方法

技术领域

本发明属于信息技术领域，涉及一种图像视频场景识别方法，特别是涉及一种基于距离预测信息的图像视频场景识别方法。

背景技术

场景理解是计算机视觉领域的一个重要问题。图像视频场景识别作为场景理解的一个主要任务，是指利用图像视频中的视觉信息，自动对其进行处理和分析，并判断出其中所带有的特定场景。随着过去几十年来互联网技术和大容量存储技术的快速发展，大规模图像视频数据集陆续出现，各类场景识别方法被提出，其一般步骤包括：先对图像视频的视觉信息进行描述，也被称为视觉特征提取；再使用已经获取的针对不同场景的识别模型对上述视觉特征进行特征匹配和分类，最终得到图像视频场景识别的结果。

视觉特征大致包括底层视觉特征、中层视觉特征和基于学习的特征。底层视觉特征主要是对图像视频颜色、纹理等视觉信息的直接描述。中层视觉特征通常需要设计大量的视觉概念检测器，或挑选出较有区分性的图像区域，再利用概念检测器的结果或图像区域的特征连接构成中层特征表示。基于学习的特征通过训练特征学习模型，例如深度神经网络模型，将模型的输出或中间结果作为特征表示。上述几类视觉特征都是基于图像视频的视觉内容信息，而根据认知科学的研究，视觉画面的距离信息或深度信息对人类识别所处的场景能够起到重要的作用。

近年来，随着以Kinect为代表的摄像机的出现，人们可以更加容易的获取带有距离信息的图像视频，这类图像被称为RGB-D图像/视频(RGB-D分别代表Red Green BlueDepth通道)，而传统摄像机获取的不带有距离信息的图像也可称为RGB图像/视频。基于RGB-D图像的方法在姿态识别、图像分割、物体检测等任务上取得了性能的提升。在场景识别领域，使用基于RGB-D图像训练的模型也进一步提升了RGB-D图像的识别精度。但是，这类方法还有较大的局限性，包括：

1、方法的测试和使用是针对带有距离信息的RGB-D图像，而实际应用过程中，大多数摄像头都只能采集RGB信息而不能获取距离信息，这就限制了模型的可用性；

2、用于训练模型的是RGB-D数据集，但RGB-D图像视频数据数量大大小于仅包含RGB信息的数据，这将影响到模型最终的识别效果。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于距离预测信息的图像视频场景识别方法，用于解决现有技术中场景识别精度低、效果差的问题。

为实现上述目的及其他相关目的，本发明提供一种基于距离预测信息的图像视频场景识别方法，所述识别方法至少包括：

步骤一、采用已有的图像训练集训练获得距离预测模型，将所述距离预测模型应用于待预测的RGB图像，获取所述RGB图像对应的距离预测信息，再从所述距离预测信息中提取距离特征；

步骤二、采用已有的图像视频集训练获得特征分类器，利用所述特征分类器和所述距离特征进行预测，得到图像视频的场景类别。

优选地，所述步骤一中，采用已有的RGB-D图像训练集训练多尺度下的距离预测模型，并将所述多尺度下的距离预测模型合并得到最终的预测模型，利用最终的预测模型获取所述RGB图像对应的距离预测信息后，从所述距离预测信息中直接提取距离特征。

优选地，所述RGB-D图像训练集还包含一部分带有距离标注信息的RGB图像。

优选地，对获取的所述距离预测信息进行数值变换，从变换后的距离预测信息中提取距离特征。

优选地，进行数值变化之前，将获得所述距离预测信息结合待预测的RGB图像生成新的RGB-D图像，再将新的RGB-D图像加入已有的RGB-D图像训练集，从而扩展已有的RGB-D图像训练集。

优选地，所述步骤一中，采用全卷积神经网络或者条件随机场算法训练获得所述距离预测模型。

优选地，所述步骤一中，从所述距离预测信息中提取距离特征的方法为：直接提取RGB图像上的全局统计信息和局部纹理信息，进而生成全局或局部的距离特征表示，或者使用基于全卷积神经网络的机器学习的特征提取算法生成特征提取模型，进而生成深度信息图像的高层语义距离特征表示。

优选地，所述步骤二中，所述特征分类器为SVM、神经网络或者决策树。

优选地，所述步骤二中，所述特征分类器包括距离特征分类器，利用所述距离特征分类器和所述距离特征进行预测，得到图像视频的场景类别。

优选地，所述步骤二中，所述特征分类器包括距离特征分类器和视觉特征分类器，先通过所述步骤一提取所述距离特征，同时从待预测的RGB图像提取视觉特征，对所述距离特征，利用所述距离特征分类器进行预测，获得所述距离特征的场景识别置信度，对所述视觉特征，利用所述视觉特征分类器进行预测，获得所述视觉特征的场景识别置信度，最后融合距离特征的场景识别置信度和视觉特征景识别置信度，得到图像视频的场景类别。

优选地，所述特征分类器包括融合特征分类器，通过所述步骤一提取所述距离特征，同时从待预测的RGB图像提取视觉特征，将所述距离特征和视觉特征进行融合，获得融合后的图像特征，再利用已有的图像视频集训练获得所述融合特征分类器，对所述融合后的图像特征，利用所述融合特征分类器进行预测，得到图像视频的场景类别。

如上所述，本发明的基于距离预测信息的图像视频场景识别方法，所述方法至少包括：步骤一、采用已有的图像训练集训练获得距离预测模型，将所述距离预测模型应用于待预测的RGB图像，获取所述RGB图像对应的距离预测信息，再从所述距离预测信息中提取距离特征；步骤二、采用已有的图像视频集训练获得特征分类器，利用所述特征分类器和所述距离特征进行预测，得到图像视频的场景类别。本发明的图像视频场景识别的方法，利用基于视觉内容的距离预测信息，获取表示距离预测信息及视觉颜色信息等视觉特征，再利用训练的各种分类器，对RGB图像进行场景识别，提高了图像视频场景识别的能力。

附图说明

图1是本发明实施例一中的距离预测信息的特征表示的流程示意图。

图2是本发明实施例二中的距离预测信息的特征表示的流程示意图。

图3是本发明实施例三中场景识别的方法其中一种流程示意图。

图4是本发明实施例四中场景识别的方法另一种流程示意图。

图5是本发明实施例五中场景识别的方法再一种流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅附图。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一

请参阅附图1，该附图为从距离预测信息中提取距离特征的流程示意图，即为本发明基于距离预测信息的图像视频场景识别方法的步骤一，本实施例从距离预测信息中提取距离特征的的流程包括：

1)采用已有的图像训练集(或者训练图像集)训练获得距离预测模型。具体地，图像训练集由使用RGB-D摄像头获取的RGB-D图像组成，每张图像均包含各位置的距离信息。可选地，训练图像集还可以包含部分RGB图像，这些图像带有少量距离标注信息，用于提升距离预测模型的精度。训练距离预测模型以多个尺度下的图像的RGB信息作为输入，以RGB-D图像的D通道上的深度信息和/或RGB图像的距离标注作为拟合目标。例如，可以使用全卷积神经网络(Fully Convolutional Neural Networks)训练距离预测模型，也可以使用条件随机场算法(Conditional Random Field)训练模型。

2)使用距离预测模型对RGB图像预测每个像素点的距离信息。具体地，给定一张RGB图像，将其输入距离预测模型，通过计算模型(距离预测模型)将预测每个像素点的距离信息。

3)结合RGB图像与距离预测信息生成表示距离的特征。具体地，将生成的距离预测信息作为一张二维灰度图像信息，提取其中带有的信息。具体的提取方法可以分为两类：直接提取灰度图像上的全局统计信息和局部纹理信息，进而生成全局或局部的特征表示；使用基于机器学习的特征提取算法，如使用基于全卷积神经网络(Convolutional NeuralNetworks)生成的特征提取模型，生成深度信息图像的高层语义表示。

实施例二

请参阅附图2，该附图为从距离预测信息中提取距离特征的另一流程示意图，也为本发明基于距离预测信息的图像视频场景识别方法的步骤一，本实施例从距离预测信息中提取距离特征的的流程包括：

1)采用已有的图像训练集(或者训练图像集)训练获得距离预测模型。该步骤与实施例一中的步骤1)相同。

2)使用距离预测模型对RGB图像预测每个像素点的距离信息。该步骤与实施例一中的步骤2)相同。

3)使用预测的距离信息扩展RGB-D图像训练集。该步骤为可选步骤，其主要作用是利用步骤2)生成的距离预测信息结合原有图像的RGB通道(可以是待预测的RGB图像，也可以是待预测RGB图像以外的、与待预测图像带有类似内容的其他RGB图像)，生成新的RGB-D图像，并用于扩充步骤1)中的图像训练集，从而提高距离预测的精度。

4)对图像的距离预测信息进行数值变换。该步骤的主要目的在于进一步挖掘距离信息的表示能力。例如，将每个像素点的深度预测信息直接量化到灰度图像的数值区间，从而将其距离预测信息转化为灰度图像；再将灰度图像通过着色的方法转换为RGB信息，生成RGB图像。又例如，结合图像上物体的几何分布信息，将预测的距离信息转化为带有更强分辨能力的信息，如图像中每个像素点的角度信息、像素点对应物体离地高度信息、相对距离信息等，并将各类信息量化到图像的数值区间，从而整合为一张新的RGB图像。

5)结合RGB图像与距离预测信息生成表示距离的特征(即从所述距离预测信息中提取距离特征)。利用步骤4生成的表征距离信息的RGB通道信息提取其中带有的信息。具体的提取方法可以分为两类：直接提取彩色图像上的全局统计信息和局部纹理信息，进而生成全局或局部的特征表示；使用基于机器学习的特征提取算法，如使用全卷积神经网络(Convolutional Neural Networks)，生成深度信息图像的高层语义表示。

实施例三

请参阅附图3，该附图为本发明基于距离预测信息的图像视频场景识别方法的其中一种流程示意图，识别方法的流程包括：

1)提取图像距离特征(即距离预测信息中提取距离特征)。具体是，给定一张RGB图像，然后使用实施例一或实施例二提供的流程提取出对应的图像距离特征。

2)利用预训练的距离特征分类器对该给定图像进行场景识别，获取场景识别结果。给定一个场景，使用带该场景标注的RGB图像数据集(即图像视频集)，每张数据集图像分别提取步骤1)的距离特征，再针对场景类别训练距离特征分类器，例如，可以利用线性核函数的支撑向量机(Support Vector Machines)或随机森林(Random Forest)。如果有多个场景类别，则分别训练多个分类器(可以是SVM、神经网络或者决策树)。对于输入图像，利用训练好的场景分类器进行分类，输出为分类器对应场景类别的识别置信度，其中置信度最高的场景类别即为最终的图像识别类别。

实施例四

请参阅附图4，该附图为本发明基于距离预测信息的图像视频场景识别方法的另一种流程示意图，识别方法的流程包括：

1)提取图像距离特征和图像视觉特征。具体地，提取图像距离特征与实施例三中步骤1)相同，另外，还需提取RGB图像上的视觉特征，如颜色特征、纹理特征等。

2)对距离特征和视觉特征，分别利用预训练的分类器对该给定图像进行场景识别，获取各类特征对应的场景识别置信度。该步骤的分类器训练与识别流程与实施例三中的步骤2)相同。具体地，对所述距离特征，利用所述距离特征分类器(可以是SVM、神经网络或者决策树)进行预测，获得所述距离特征的场景识别置信度，对所述视觉特征，利用所述视觉特征分类器(SVM、神经网络或者决策树)进行预测，获得所述视觉特征的场景识别置信度。

3)融合获取的所有场景识别置信度，得到场景识别结果(即得到图像视频的场景类别)。对各类特征获取的场景识别置信度，首先进行归一化，例如，采用Soft-max归一化方法。对归一化后的置信度进行融合可以采用两类方法：直接对置信度相加或相乘；或再训练一个用于融合的分类器，将分类结果作为场景识别的结果。

实施例五

请参阅附图5，该附图为本发明基于距离预测信息的图像视频场景识别方法的再一种流程示意图，识别方法的流程包括：

1)提取图像距离特征和图像视觉特征。该步骤与实施例四种的步骤1)相同。

2)对距离特征和视觉特征进行特征融合。首先对每个特征进行特征内归一化，将所有特征串联成一个更高维度的图像特征。可选地，采用主成分分析(PrincipalComponent Analysis)等方法，对融合后的特征进行特征变换，得到维度更低的特征。

3)对融合后的图像特征，利用预训练的分类器(融合特征分类器)对该给定图像进行场景识别，获取场景识别结果(即得到图像视频的场景类别)。该步骤的分类器训练与识别流程与实施例3中的步骤2)相同。

需要说明的是，所有实施例中，训练距离特征分类器、视觉特征分类器以及融合特征分类器的方法均相同，只是训练的参数不同而已。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于距离预测信息的图像视频场景识别方法，其特征在于，所述识别方法至少包括：

步骤一、采用已有的RGB-D图像训练集训练多尺度下的距离预测模型，并将所述多尺度下的距离预测模型合并得到最终的预测模型，利用最终的预测模型获取待预测的RGB图像对应的距离预测信息后，将所述距离预测信息转化为灰度图像，再将灰度图像通过着色的方法转换为RGB信息以生成新的RGB图像，或者结合所述待预测的RGB图像上物体的几何分布信息对所述距离预测信息进行转换以生成新的RGB图像，直接提取所述新的RGB图像上的全局统计信息和局部纹理信息，进而生成全局或局部的距离特征表示；

步骤二、采用已有的图像视频集训练获得特征分类器，利用所述特征分类器和所述距离特征进行预测，得到图像视频的场景类别；所述特征分类器包括距离特征分类器和视觉特征分类器，先通过所述步骤一提取所述距离特征，同时从待预测的RGB图像提取视觉特征，对所述距离特征，利用所述距离特征分类器进行预测，获得所述距离特征的场景识别置信度，对所述视觉特征，利用所述视觉特征分类器进行预测，获得所述视觉特征的场景识别置信度，最后融合距离特征的场景识别置信度和视觉特征景识别置信度，得到图像视频的场景类别。

2.根据权利要求1所述的基于距离预测信息的图像视频场景识别方法，其特征在于：所述RGB-D图像训练集还包含一部分带有距离标注信息的RGB图像。

3.根据权利要求1所述的基于距离预测信息的图像视频场景识别方法，其特征在于：对获取的所述距离预测信息提取距离特征之前，将获得所述距离预测信息结合待预测的RGB图像生成新的RGB-D图像，再将新的RGB-D图像加入已有的RGB-D图像训练集，从而扩展已有的RGB-D图像训练集。

4.根据权利要求1所述的基于距离预测信息的图像视频场景识别方法，其特征在于：所述步骤一中，采用全卷积神经网络或者条件随机场算法训练获得所述距离预测模型。

5.根据权利要求1所述的基于距离预测信息的图像视频场景识别方法，其特征在于：所述特征分类器包括融合特征分类器，通过所述步骤一提取所述距离特征，同时从待预测的RGB图像提取视觉特征，将所述距离特征和视觉特征进行融合，获得融合后的图像特征，再利用已有的图像视频集训练获得所述融合特征分类器，对所述融合后的图像特征，利用所述融合特征分类器进行预测，得到图像视频的场景类别。