CN109784237A

CN109784237A - 基于迁移学习的残差网络训练的场景分类方法

Info

Publication number: CN109784237A
Application number: CN201811640403.7A
Authority: CN
Inventors: 徐汕; 刘强; 张晶亮; 杨端; 单酉; 姜桥
Original assignee: Beijing Aerospace Cloud Co Ltd
Current assignee: Beijing Aerospace Cloud Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-21

Abstract

本发明公开了一种基于迁移学习的残差网络训练的场景分类方法，包括S1.采集数据集；S2.导入标注好的训练数据集；S3.将导入的图片预处理后的向量作为ResNet18_Places365模型的输入；S4.加载深度残差网络模型；S5.设置平方层；S6.过全连接的softmax分类器对平方层输出的产生最终的预测，输出预测图片所属的类别；S7.以算法在测试集图片上的预测正确率作为最终评价标准对场景分类方法进行评价。本发明的有益效果：提出一种基于迁移学习的残差网络训练的场景分类方法，从本质上解决当神经网络算法层次比较深的时候无法训练的问题，通过建立动态的神经网络算法，并在框架中用PyTorch替换numpy的模块，有限提高了场景分类的准确率。

Description

基于迁移学习的残差网络训练的场景分类方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于迁移学习的残差网络训练的场景分类方法。

背景技术

场景分类，或场景识别，是场景理解领域一个重要的研究方向，其依据就是按照人类视觉的组织原理，将不同的场景图像按照其语义信息划为不同的类别。在场景分类领域，一直都是采取人工提取图像特征的方式，这种方式提取特征单一，不能很好描述各类场景，导致场景分类精度较低。

场景分类是利用机器学习方法，得到图片所代表的场景类别。它在场景识别中有非常重要的作用。场景识别的应用领域主要在为遥感图像解释、目标识别和理解、基于内容和图像和视频检索。

现有场景分类做法是，对于每一幅图片，提取出一个向量(也就是1*n的数组)来表示它。然后把训练图片的向量和其类别送入SVM(支持向量机)进行训练，得到每个场景类别的分类器。对于测试图像，也提取出相应的向量，根据训练得到的分类器获得它的场景类别。但是传统的软分配、硬分配算法，都没有考虑高维图像特征点的流形特征。流形计算的效率很差，而且如何建立数据的流形结构也是一个问题。采用谱图分配的方法可以显著的提高算法的准确度，但是，谱图算法需要对拉普拉斯矩阵求逆，使得算法的效率不如传统的线性分配方法。并且统计图像的直方图向量较短，识别率较差。

场景分类的目标是得到输入图像的符合人类普遍认知的宏观语义信息，是计算机视觉中的图像理解技术的重要组成内容。它需要建立底层图像视觉特征(如颜色、边缘、纹理等)和高层场景语义概念的联系，得到一些基本的场景类别信息(如森林、城市、海岸、天空、室内等等)。随着数字图像获取技术的不断发展，图像数据库的内容越来越庞大，传统的人工手工标注变得越来越困难，所以利用计算机自动标注符合人类认知的语义信息就成为了研究的焦点。它不仅表示了人们对图像的整体认识，而且也能为图像中的目标识别提供环境，从而提高算法的准确率。

近几年来，在文本识别中的特征包(bag-of-features)的方法被引入到场景分类中，取得了重要的研究成果，并成为了主流技术。现有基于特征包的场景分类方法的缺点在于码字分配中，只利用每个SIFT特征和码字的欧式距离来确定它们之间的隶属度。而它们是分布在高维(128维)上的数据，直接使用欧式距离会丢失大量的非线性信息，从而降低分类的效果。

目前，随着越来越多智能移动机器人走进人们的日常生活，并在军事、商场、医院、家庭等各种领域发挥重要作用，人们对智能移动机器人系统的自动定位需求越来越迫切。移动机器人只有准确地知道自身的位置以及所处的工作空间，才能安全有效地进行自主运动，为人类服务。场景图像分类作为图像理解的重要研究内容，是机器视觉和模式识别领域的重要研究问题。应用于移动机器人的场景图像分类，旨在使机器人能够像人一样认知和理解场景所包含的语义信息，以增强移动机器人对场景理解的能力。其难点在于如何有效地区分场景类内的差异性和场景类间的相似性。

基于场景识别的机器人视觉自定位方法使用人类能够直接理解的高层语义信息如“走廊”、“厨房”等作为视觉特征，非常适合于机器人在复杂环境中的自定位问题。李桂芝等使用多通道Gabor滤波器提取场景图像的全局纹理特征，并使用支持向量机来分类识别室内、走廊、门厅等场景，进而实现机器人的逻辑定位。Ullah等使用Harris角点特征检测子和SIFT特征描述子提取局部特征，并使用支持向量机作为分类器实现基于局部特征的地点识别。局部特征虽然在精确特征匹配方面能够获得较好的效果，但是由于缺乏中高层语义，导致推广能力不尽人意。

在日常生活中，人类的视觉系统总能够寻找场景中最具代表性的某些区域来进行对场景的理解和识别。即人类视觉系统能够快速地从场景图像中提取表征场景内容的中层特征。与底层特征相比，由于图像的中层特征更接近于人类认知场景的行为过程，近几年，基于中层特征的图像分类吸引越来越多的研究人员的注意。图像中层特征与图像的低层特征相比，包含的信息更加丰富，更适合描述现实世界的表象分布，同时也不需要高层特征实体的语义基础。所以，将中层特征应用于场景分类领域，具有巨大的优势和潜力。

车辆智能化是当今汽车工业发展的三大核心科技之一，对道路交通场景的分类是提高智能车辆和高级辅助驾驶系统(ADAS)智能化程度的重要前提和基础。交通场景分类是指基于车载摄像机拍摄交通场景图像，采用不同的机器学习方法，模拟人类的视觉感知过程，实现对所拍摄视景内车辆、行人、道路、环境元素进行分类标记。目前，按照机器学习模型层次结构的深度不同，可以将交通场景的分类方法分为基于浅层学习的方法和基于深度学习的方法两种。浅层学习有限的模型复杂度和表达能力难以应对交通场景的多目标分类问题。随着分类复杂度的增加，需要的参数和样本巨大，会导致浅层学习模型的学习结构效率低下，难以实现。此外，显性特征的确定及提取需要以丰富的专家经验为基础。深度学习方法能够直接作用于原始图像数据，能够提取反映数据本质的隐性特征，具有足够的模型复杂度，可以实现交通场景中多目标分类，但深度学习方法的模型结构多样，仍存在很大的发展与优化空间，在现有的深度学习方法中分类图像的轮廓清晰度和准确性需要提高。因此，需要设计一种能够提高分类图像轮廓清晰度和准确性的交通场景多目标分类方法。

随着计算机多媒体技术、数据库技术的飞速发展，图像信息量迅猛增加，依靠人眼对海量的图像进行分类和标注的方法已经无法满足当前的需求。因此，利用计算机技术自动对场景图像分类成为一个研究热点。场景图像的分类在军事监测，地形探测，森林防火等领域得到了广泛的应用。如何快速、准确的提取大量图像中所包含的地物信息并识别场景类别是研究重点。

现有的场景分类算法主要包括两类：一类是基于图像底层特征的分类，通过提取图像的纹理，空间，颜色等全局特征，建立图像场景分类模型，但其缺少高层语义的图像表示，容易局部细节丢失且泛化能力弱，不适用训练样本以外的图像；另一类是基于语义特征的分类，此方法中具有代表性的是BoVW模型，核心思想是将底层特征聚类为视觉单词，以视觉单词的分布建立与图像语义之间的联系，从而表达图像的场景内容，该模型有效的克服了底层特征与图像高层语义之间的鸿沟。在BoVW模型中，底层特征提取是算法的开始，在很大程度上影响算法的性能，传统的SIFT，SURF等算子是通过线性高斯分解提取特征点，容易造成边界模糊、细节丢失，因此选择一个鲁棒性好，对特征描述全面，准确率高的特征描述子是十分重要的。

近年来，汽车智能化技术发展迅速。在汽车智能化技术分级标准中，辅助驾驶技术与部分自动驾驶技术已进入到产业化阶段；有条件的自动驾驶与高度自动化驾驶技术进入测试验证阶段。图像处理与识别技术是智能驾驶辅助系统与无人驾驶车辆进行环境感知的关键基础技术，应用愈发广泛。基于车载前向视觉传感器能够精准的获得各种道路环境信息。车辆通过对环境信息的感知，可以识别不同的道路场景；针对不同的道路场景，车辆可以自主的切换不同的驾驶模式，自适应改变系统的决策控制方案，进而调整车辆自身的行驶状态和执行与道路工况相应的操作指令，实现高效、节能、环保的驾驶功能。

然而，交通场景较为复杂，具有不同交通场景类内间距较大，类间间距小的特点。进行交通场景识别前必须提取特征，由于交通场景图片的多变性和复杂性，显式的特征提取并不容易。

移动互联网时代的开启使得图片的获取与分享越来越容易，图片已经成为人们交互的重要媒介。如何根据图像的视觉内容为图像赋予一个语义类别(例如，教室、街道等)是图像场景分类的目标，也是图像检索、图像内容分析和目标识别等问题的基础。但由于图片的尺度、角度、光照等因素的多样性以及场景定义的复杂性，场景分类一直是计算机视觉中的一个挑战性问题。

目前的场景识别分类方法主要包括空间金字塔法、基于高层次语义信息的方法和基于结构简单的卷积神经网络(Alexnet、Googlenet)的方法。

这些方法有着明显的缺陷，空间金字塔法的特征表示只依赖于低层次的几何信息，缺少对高层次语义信息的提取，识别场景的能力很受限制，基于高层次语义信息的场景识别方法受限于所选物体的范围，大大地影响了模型分类的能力，基于结构简单的卷积神经网络的方法主要缺点在于由于特征提取的不充分从而导致较低的识别率。

近几年来，在文本识别中的特征包(bag-of-features)的方法被引入到场景分类中，取得了重要的研究成果，并成为了主流技术。现有基于特征包的场景分类方法的缺点在于码字分配中，只利用每个SIFT特征和码字的欧式距离来确定它们之间的隶属度。而它们均为分布是分布在高维(128维)上的数据，直接使用欧式距离会丢失大量的非线性信息，从而降低分类的效果。

在机器学习领域中，针对多类标学习的研究对于多义性对象学习建模具有十分重要的意义，现在已经逐渐成为国际机器学习界一个新的研究热点。由于客观事物本身的复杂性，一个事物对象可以用单个实例来表示，并且该实例属于多个类别标签，即单实例多类标。单实例多标签的学习方法对图像分类的问题具有重要的意义，但是该方法却很少被应用到SAR图像的场景分类当中。

随着合成孔径雷达SAR技术的发展，SAR图像在分辨率、图像内容和数量上都达到了一定的高度，其应用也越来越广泛。SAR图像的场景分类不同于传统的SAR图像分类技术，场景分类中并不严格追求同类图像间的内容相似性，而是关注于通过某种学习方法挖掘图像内在的语义信息。近年来，学者们针对该问题也做出了一些研究。

武汉大学的殷慧在其博士学位论文“基于局部特征表达的高分辫率SAR图像城区场景分类方法”中研究了高分辨率SAR图像的城区场景解译应用。该论文涉及到局部特征表达和分类技术，中间表达和主题提取技术。主要提出了两种分类算法，分别是：1.基于多维金字塔表达算法和AdaBoost的高分辨率SAR图像的城区场景分类算法；2.基于多维金字塔匹配核和支持向量机的高分辨率SAR图像城区场景分类算法。还提出了两种分类框架，分别是：1.基于两级地物语义的高分辨率SAR图像的城区场景分类框架；2.基于中间表达式和线性判别分析法的高分辨率SAR图像城区场景分类框架。从分类结果看，其研究结果存在的不足是各算法的分类准确率较低，分类时间较长。

深度学习理论是建立在人工智能的基础之上，能够有效的描述图像的语义信息，准确地判断场景与场景和目标与目标之间的差异性和相似性。深度学习作为一种新的方法被广泛运用于机器学习的各个领域。深度学习被引入到图像识别以来得到了很快的发展。基于深度学习的图像识别算法所采用的特征是从大数据自动学习得到，而不是通过人工进行特征设计。其中卷积神经网络是在传统多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。卷积神经网络使用了针对图像识别的特殊结构，可以进行快速训练。进而能够有效的利用多层神经网络结构模型，而多层结构在识别准确率上又很大优势。因此，将卷积神经网络用于解决智能汽车的驾驶场景分类问题具有较好的可行性。

残差网络是2015年提出的深度卷积网络，残差网络更容易优化，并且能够通过增加相当的深度来提高准确率。核心是解决了增加深度带来的副作用(退化问题)，相当于旁边专门开个通道使得输入可以直达输出，而优化的目标由原来的拟合输出H(x)变成输出和输入的差H(x)-x，其中H(X)是某一层原始的的期望映射输出，x是输入，这样能够通过单纯地增加网络深度，来提高网络性能。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于迁移学习的残差网络训练的场景分类方法，具有连接方便，密封性好的优点。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于迁移学习的残差网络训练的场景分类方法，包括以下步骤：

S1.采集数据集，从互联网上采集若干个场景类别的图像并编号作为数据集，在数据集中随机选取70％作为训练数据集，随机选取15％作为验证数据集，随机选取15％作为测试数据集，使用json字符串对图像进行标注；

S2.导入标注好的训练数据集，对图像进行预处理，把像素点按照三原色的RGB值生成向量；

S3.加载ResNet18_Places365模型迁移到当前的数据集中，将导入的图片预处理后的向量作为ResNet18_Places365模型的输入，通过模型的计算输出图片的特征向量f_a并映射为N维向量；

S4.加载深度残差网络模型，将导入图片预处理后的向量作为深度残差网络模型的输入，通过模型计算出图片的特性向量f_b并映射为N为向量；

S5.设置平方层，将两个模型输出的特征向量f_a，f_b取差值平方，得到f_s＝(f_a-f_b)²；

S6.过全连接的softmax分类器对平方层输出的产生最终的预测，输出预测图片所属的类别；

S7.以算法在测试集图片上的预测正确率作为最终评价标准对场景分类方法进行评价。

进一步的，所述S1中json字符串包括image_id以及label_id，所述image_id为数据集中图像的Id，所述label_id为图像标注的场景编号。

进一步的，所述S2中通过Image_Id导入相应的图像，并将图像按256*256进行分割。

进一步的，所述S3中ResNet18_Places365模型是由180万张图像，包含356个场景，每个类别最多有5000张图像的数据集，采用resnet18算法进行训练得到的开放模型。

根据权利要求1所述的一种基于迁移学习的残差网络训练的场景分类方法，其特征在于，所述S6中经过softmax分类器的输出是一个N维的向量，向量中第i个值是当前图片属于第i类的概率值，计算公式如下：

其中，为输入的特征向量的第i个值，N为分类的个数。

本发明的有益效果：提出一种基于迁移学习的残差网络训练的场景分类方法，从本质上解决当神经网络算法层次比较深的时候无法训练的问题，通过建立动态的神经网络算法，并在框架中用PyTorch替换numpy的模块，有限提高了场景分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的一种基于迁移学习的残差网络训练的场景分类方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明实施例的一种基于迁移学习的残差网络训练的场景分类方法，包括以下步骤：

S1.采集数据集，从互联网上下载的8万张图片，包括80个日常场景类别，每个场景类别包含600-1100张图片，具体场景及编号和标签如下：

0/航站楼：airport_terminal 1/停机坪：landing_field

2/机舱：airplane_cabin 3/游乐场：amusement_park

4/冰场：skating_rink 5/舞台：arena/performance

6/艺术室：art_room 7/流水线：assembly_line

8/棒球场：baseball_field 9/橄榄球场：football_field

10/足球场：soccer_field 11/排球场：volleyball_court

12/高尔夫球场：golf_course 13/田径场：athletic_field

14/滑雪场：ski_slope 15/篮球馆(场)：basketball_court

16/健身房：gymnasium 17/保龄球馆：bowling_alley

18/游泳池：swimming_pool 19/拳击场：boxing_ring

20/跑马场：racecourse 21/田地/农场：farm/farm_field

22/果园菜园：orchard/vegetable 23/牧场：pasture

24/乡村：countryside 25/温室：greenhouse

26/电视台：television_studio 27/亚洲寺庙：templeeast_asia

28/亭子：pavilion 29/塔：tower

30/宫殿：palace 31/西式教堂：church

32/街道：street 33/餐厅食堂：dining_room

34/咖啡厅：coffee_shop 35/厨房：kitchen

36/广场：plaza 37/实验室：laboratory

38/酒吧：bar 39/会议室：conference_room

40/办公室：office 41/医院：hospital

42/售票处:ticket_booth 43/露营地：campsite

44/音乐工作室：music_studio 45/电梯/楼梯：elevator/staircase

46/公园/花园：garden 47/建筑工地：construction_site

48/综合超市：general_store 49/商店：specialized_shops

50/集市：bazaar 51图书馆/书店：library/bookstore

52/教室：classroom 53/海洋/沙滩：ocean/beach

54/消防：firefighting 55/加油站：gas_station

56/垃圾场：landfill 57/阳台：balcony

58/游戏室：recreation_room 59/舞厅：discotheque

60/博物馆：museum 61/沙漠：desert/sand

62/漂流：raft 63/树林：forest

64/桥：bridge 65/住宅：residential_neighborhood

66/汽车展厅：auto_showroom 67/河流湖泊：lake/river

68/水族馆:aquarium 69/沟渠:aqueduct

70/宴会厅:banquet_hall 71/卧室:bedchamber

72/山:mountain 73/站台:station/platform

74/草地:lawn 75/育儿室:nursery

76/美容/美发店:beauty_salon 77修理店:repair_shop

78/斗牛场:rodeo 79/雪屋/冰雕:igloo,ice_engraving

图像的标注格式为json字符串，如下所示：

其中，image_id为数据集中图片的Id，label_id为图片标注的场景编号；在数据集中随机选取70％作为训练数据集，随机选取15％作为验证数据集，随机选取15％作为测试数据集。

S2.导入标注好的训练数据集，对图像进行预处理，通过Image_Id导入相应的图像，并将图像按256*256进行分割，把像素点按照三原色的RGB值生成向量，如下图所示：

将图中左边的RGB映射图转化为右边的向量。

S3.加载ResNet18_Places365模型迁移到当前的数据集中，将导入的图片预处理后的向量作为ResNet18_Places365模型的输入，通过模型的计算输出图片的特征向量f_a并映射为N维向量：

f_a＝{x₁,x₂,x₃,x₄,x₅…x_N}

其中，N分类的个数，x_N为由模型神经单元计算输出的映射值；

ResNet18_Places365模型模型是由180万张图像，包含356个场景，每个类别最多有5000张图像的数据集，采用resnet18算法进行训练得到的开放模型。

S4.1构建深度残差网络模型，复制迁移模型ResNet18_Places365的残差网络结构，去掉基于ImageNet数据集训练的参数，只保留其算法的网络结构，在当前数据集中进行训练。通过ResNet18的输入和输出定义残差网络模型的损失函数：

Loss＝∑_i-XLog(Y)

其中，i表示输入的图片，X为残差网络的输入，Y表示残差网络的输出；

S4.2加载深度残差网络模型，将导入图片预处理后的向量作为深度残差网络模型的输入，通过模型计算出图片的特性向量f_b并映射为N为向量。

经过softmax分类器的输出是一个N维的向量，向量中第i个值是当前图片属于第i类的概率值，计算公式如下：

其中，为输入的特征向量的第i个值，N为分类的个数。

S7.对场景分类方法进行评价；

评价方法为：

以算法在测试集图片上的预测正确率作为最终评价标准，总体正确率函数S为：

其中，N为测试集图片数目，P_i为第i张图片的准确度。算法模型结果以置信度递减的顺序提供三个分类的标签号，记为l_j(j＝1,2,3)。对图片i的真实标签值记为g_i，如果三个预测标签中包含真实标签值，则预测准确度为1，否则准确度为0，即

其中，当l_j＝g_j时，d(l_j,g_j)＝1；否则为0。

本发明提出一种基于迁移学习的残差网络训练的场景分类方法，从本质上解决当神经网络算法层次比较深的时候无法训练的问题，通过建立动态的神经网络算法，并在框架中用PyTorch替换numpy的模块，有限提高了场景分类的准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于迁移学习的残差网络训练的场景分类方法，其特征在于，包括以下步骤：

S1.采集数据集，从互联网上采集若干个场景类别的图像并编号作为数据集，在数据集中随机选取70% 作为训练数据集，随机选取15%作为验证数据集，随机选取15%作为测试数据集，使用json字符串对图像进行标注；

S5.设置平方层，将两个模型输出的特征向量f_a，f_b取差值平方，得到f_s=(f_a-f_b)²；

2.根据权利要求1所述的一种基于迁移学习的残差网络训练的场景分类方法，其特征在于，所述S1中json字符串包括image_id以及 label_id，所述image_id为数据集中图像的Id，所述label_id为图像标注的场景编号。

3.根据权利要求1所述的一种基于迁移学习的残差网络训练的场景分类方法，其特征在于，所述S2中通过Image_Id导入相应的图像，并将图像按256*256进行分割。

4.根据权利要求1所述的一种基于迁移学习的残差网络训练的场景分类方法，其特征在于，所述S3中ResNet18_Places365模型是由180万张图像，包含356个场景，每个类别最多有5000张图像的数据集，采用resnet18算法进行训练得到的开放模型。

5.根据权利要求1所述的一种基于迁移学习的残差网络训练的场景分类方法，其特征在于，所述S6中经过softmax分类器的输出是一个N维的向量，向量中第i个值是当前图片属于第i类的概率值，计算公式如下：

其中，为输入的特征向量的第i个值，N为分类的个数。