CN105868797A - 网络参数训练方法、景物类型识别方法及装置 - Google Patents

网络参数训练方法、景物类型识别方法及装置 Download PDF

Info

Publication number
CN105868797A
CN105868797A CN201510031685.0A CN201510031685A CN105868797A CN 105868797 A CN105868797 A CN 105868797A CN 201510031685 A CN201510031685 A CN 201510031685A CN 105868797 A CN105868797 A CN 105868797A
Authority
CN
China
Prior art keywords
pixel
image
data
artwork
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510031685.0A
Other languages
English (en)
Other versions
CN105868797B (zh
Inventor
徐昆
邓海峰
梁缘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201510031685.0A priority Critical patent/CN105868797B/zh
Publication of CN105868797A publication Critical patent/CN105868797A/zh
Application granted granted Critical
Publication of CN105868797B publication Critical patent/CN105868797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种网络参数训练方法、景物类型识别方法及装置,属于图像处理领域。所述方法包括:获取目标图像;将所述目标图像输入卷积神经网络中,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集中的样本图像是按照像素级别进行景物类型标注后的图像;根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。本发明解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。

Description

网络参数训练方法、景物类型识别方法及装置
技术领域
本发明实施例涉及图像处理领域,特别涉及一种网络参数训练方法、景物类型识别方法及装置。
背景技术
街景地图是一种提供有街景图片的地图。对街景图片中不同区域所对应的景物类型进行识别是一项重要的处理技术。景物类型可以包括:天空、树木、建筑和路面等。
相关技术中,提供了一种基于分块Gabor特征的静态图片中景物类型识别的方法,该方法包括两个阶段:在进行景物类型识别前,先建立所要识别景物类型的SVM(Support Vector Machine,支持向量机)分类模型;对样本图像集提取图像特征,用SVM分类模型进行训练得分类模型。然后,在进行场景识别时,通过提取街景图片中不同分块、不同方向和不同尺度的直方图统计值,作为图像特征,输入训练好的分类模型中得出街景图片中景物类型的识别结果。
在实现本发明实施例的过程中,发明人发现上述技术至少存在以下问题:上述方法是在图像层进行景物类型的识别,仅能够得到一张街景图片的整体的景物类型,或者,一张街景图片中某个区域的景物类型。
发明内容
为了解决上述技术的问题,本发明实施例提供了一种网络参数训练方法、景物类型识别方法及装置。所述技术方案如下:
第一方面,提供了一种网络参数训练方法,其特征在于,所述方法包括:
获取由不同随机数组成的初始网络参数;
获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类型。
第二方面,提供了一种景物类型识别方法,所述方法包括:
获取目标图像;
将所述目标图像输入卷积神经网络中,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。
第三方面,提供了一种网络参数训练装置,所述装置包括:
初始化模块,用于获取由不同随机数组成的初始网络参数;
获取模块,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
训练模块,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类型。
第四方面,提供了一种景物类型识别装置,所述装置包括:
获取模块,用于获取目标图像;
识别模块,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
输出模块,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。
本发明实施例提供的技术方案带来的有益效果是:
通过将目标图像输入卷积神经网络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的网络参数训练方法的方法流程图。
图2是本发明一个实施例提供的景物类型识别方法的方法流程图。
图3是本发明另一个实施例提供的网络参数训练方法的方法流程图。
图4是本发明另一个实施例提供的网络参数训练方法的方法流程图。
图5是本发明另一个实施例提供的网络参数训练方法的方法流程图。
图6是本发明另一个实施例提供的网络参数训练方法的方法流程图。
图7是本发明另一个实施例提供的景物类型识别方法的方法流程图。
图8是本发明另一个实施例提供的景物类型识别方法的方法流程图。
图9是本发明另一个实施例提供的网络参数训练方法的方法流程图。
图10是本发明另一个实施例提供的景物类型识别方法的方法流程图。
图11是本发明一个实施例提供的网络参数训练装置的结构示意图。
图12是本发明一个实施例提供的网络参数训练装置的结构示意图。
图13是本发明一个实施例提供的卷积单元的结构示意图。
图14是本发明一个实施例提供的网络参数训练装置的结构示意图。
图15是本发明一个实施例提供的景物类型识别装置的结构示意图。
图16是本发明另一个实施例提供的景物类型识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
卷积神经网络是图像识别领域的研究热点。卷积神经网络是一个多层的神经网络,每层包括多个二维平面,而每个平面包括多个独立神经元,每个神经元对应有权值参数。卷积神经网络中的神经元可以通过合适的权值参数做出识别结果,这些神经元的具体形式可以是卷积核,这些权值参数可以统称为网络参数。
本发明实施例分为2个阶段:训练阶段和识别阶段。如下所示,图1示出了训练阶段的步骤,图2示出了识别阶段的步骤。
请参考图1,其示出了一种网络参数训练方法的方法流程图。该网络参数训练方法可以应用在具有计算能力的终端中。该网络参数训练方法,包括:
步骤101,获取由不同随机数组成的初始网络参数;
网络参数是指卷积神经网络中所使用的参数,网络参数通常包括张量、向量和矩阵。
步骤102,获取样本图像集,样本图像集包括若干张样本图像,每个样本图像中的每个像素点对应有标注后的景物类型;
样本图像集可以由街景图像组成。每个街景图像中的每个像素点都对应有标注后的景物类型。标注过程可以由人工完成。
步骤103,将样本图像输入卷积神经网络中,对初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数。
该网络参数用于识别目标图像中像素点的景物类型。
综上所述,本实施例提供的网络参数训练方法,通过按照像素级别进行景物类型标注后的样本图像对卷积神经网络所使用的网络参数进行训练,得到识别误差符合预设要求的网络参数,训练得到的该网络参数可以用于后续的识别过程中。
请参考图2,其示出了一种景物类型识别方法的方法流程图。该景物类型识别方法可以应用在具有计算能力的终端中。该景物类型识别方法,包括:
步骤201,获取目标图像。
目标图像可以是需要识别景物类型的街景图像。
步骤202,将目标图像输入卷积神经网络中进行识别处理,该卷积神经网络载入有预先根据样本图像集训练得到的网络参数,样本图像集包括若干张样本图像,样本图像中的每个像素点对应有标注后的景物类型。
该网络参数是图1所示实施例所训练得到的网络参数。
步骤203,根据卷积神经网络的识别结果,获得目标图像中的像素点对应的景物类型。
综上所述,本实施例提供的景物类型识别方法,通过将目标图像输入卷积神经网络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
作为一种可选的实现方式,步骤103可以包括如图3所示的步骤:
步骤301,对于第i次迭代过程,将样本图像的每个像素点的原始的n1个通道的数据,输入卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,原始的n1个通道是由样本图像输入卷积神经网络时的颜色空间所确定的颜色通道;
比如,样本图像中每个像素点的原始状态可以是6个通道的数据,这6个通道的数据可以根据样本图像的颜色空间所确定的颜色通道来获得,在输入卷积神经网络中进行处理后,可以得到每个像素点的384个通道的数据。
步骤302,根据样本图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率;
比如,景物类型分为4种:天空、树木、建筑和路面,根据每个像素点的384个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率,也即每个像素点对应于天空的预测概率、对应于树木的预测概率、对应于建筑的预测概率和对应于路面的预测概率。
步骤303,根据每个像素点对应的标注后的景物类型,计算像素点对应的景物类型的预测概率的误差;
由于样本图像中的每个像素点对应有标注后的景物类型,所以可以计算出步骤202的预测概率的误差。
比如,像素点X标注的景物类型为天空,而步骤202中将像素点X的景物类型预测为天空的概率是Ppred(天空)=0.6,则该像素点的误差可以为:1-log(Ppred(天空))。
步骤304,统计样本图像中各个像素点的误差和,检测该误差和是否达到最小或低于预设阈值;
步骤305,若样本图像的误差和未达到最小或低于预设阈值,则采用梯度下降法对第i次迭代过程中使用的网络参数进行调整,并执行第i+1次迭代过程;
其中,第1次迭代过程中使用的网络参数是初始网络参数。
若样本图像的误差和达到最小或者低于预设阈值,则将第i次迭代过程中使用的网络参数确定为识别误差符合预设要求的网络参数。
该识别误差符合预设要求的网络参数可以存储在指定位置,以便在识别阶段使用。如果执行训练过程的终端与执行识别过程的终端是不同的终端,则该网络参数可以由执行训练过程的终端发送给执行识别过程的终端。
在本实现方式中,步骤301中将每个像素点的n1个通道的数据,转换至n2个通道的数据,可以使得预测过程中可供参考的数据信息更多,增大识别准确率。其中,n2的大小可以与景物类型的多少呈正相关关系。也即,如果景物类型的类型数量大,则n2的数量也相应增大;如果景物类型的类型数量小,则n2的数量也可以相应减小,从而减少计算量。
作为一种可选的实现方式,步骤301可以包括如图4所示的步骤:
步骤401,将样本图像的每个像素点的原始的n1个通道的数据,输入卷积神经网络中进行至少一层多维卷积处理,变换得到n3-2个通道的数据,每层多维卷积处理所使用的张量和纠偏向量是网络参数中的一部分;
多维卷积处理可以是采用张量和纠偏向量对输入数据进行多维卷积的一种运算过程。
比如,将样本图像的每个像素点的原始的6个通道的数据,输入卷积神经网络中进行一层多维卷积处理,变换得252个通道的数据。
又比如,为了避免单次多维卷积处理的运算量过大,可以将一层多维卷积处理拆分为若干层多维卷积处理,第一层多维卷积处理时,先将每个像素点由原始的6个通道的数据转换为16个通道的数据;第二层多维卷积处理时,将每个像素点由16个通道的数据转换为48个通道的数据;第三层多维卷积处理时,将每个像素点由48个通道的数据转换为84个通道的数据,诸如此类,不一一赘述。
步骤402,将每个像素点的x坐标和y坐标生成为2个通道的数据,与n3-2个通道的数据合并为n3个通道的数据;
由于景物类型在一定程度上与像素点在图片中的坐标位置有关,比如景物类型为天空的像素点通常在图像上方,景物类型为路面的像素点通常在图像下方。本实现方式中,还可以将每个像素点的x坐标和y坐标生成为2个通道的数据,与上一步骤中得到的252个通道的数据合并为254个通道的数据。
步骤403,将每个像素点的n3个通道的数据使用变换为n2个通道的数据;其中,矩阵W为n2*n3的矩阵,向量b为一个长度为n2的向量,矩阵W和向量是网络参数中的另一部分。
在本实现方式中,步骤302中将每个像素点的x坐标和y坐标生成为2个通道的数据,能够将像素点的坐标作为预测过程中可供参考的数据信息,使得识别准确率更进一步地提高。特别地,对于诸如天空、地面、路面之类与坐标有关的景物类型的识别准确率有较好的提升。
作为一种可选的实现方式,每个样本图像又包括有m个不同尺度的图像,其中1个尺度的图像为原始大小的原图,其它m-1个尺度的图像为该原图的缩放图像。此时,上述步骤401可以包括如图5所示的步骤:
步骤501,对于样本图像中的每一尺度的图像,将该图像中每个像素点的n1个通道的数据,输入卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的n4个通道的数据;
以m=3,n4=84为例,若对每一个尺度的图像进行三层多维卷积处理,则可以在第一层多维卷积处理时,先将每个像素点由原始的6个通道的数据转换为16个通道的数据;第二层多维卷积处理时,将每个像素点由16个通道的数据转换为48个通道的数据;第三层多维卷积处理时,将每个像素点由48个通道的数据转换为84个通道的数据。
步骤502,将m-1个缩放图像根据插值算法还原为原始大小的图像,与原图一起组成m个原始大小的图像;
以m=3为例,若第1个缩放图像是原图的1/2大小,则根据插值算法将第1个缩放图像由1/2大小还原为原始大小;若第2个缩放图像是原图的1/4大小,则根据插值算法将第2个缩放图像由1/4大小还原为原始大小,最终得到3张原始大小的图像,每个图像中的像素点都有84个通道的数据。
步骤503,将m个原始大小的图像中每个像素点的n4个通道的数据进行叠加,得到每个像素点的n3-2个通道的数据,m*n4=n3-2。
以m=3为例,若3张原始大小的图像中的每个像素点的84个通道叠加后,得到每个像素点的252个通道的数据。
在本实现方式中,通过将原图和缩放图像组成多个不同尺度的样本图像来对网络参数进行训练。当训练得到的网络参数用于识别过程时,可以对不同尺度的目标图像都有较好的适用性,尽量消除尺度差异对识别结果的影响。
需要说明的是,本发明实施例对步骤501中进行几层多维卷积处理不做具体限定,本领域技术人员可以视运算量要求和终端的实际计算能力而定。多维卷积处理可以使用已有的多维卷积处理过程。作为一种示意性的例子:
对于每层多维卷积处理,设na是每个像素点在处理前的通道数,nb是每个像素点在处理后的通道数,则一层多维卷积处理包括:
1、使用nb*na*m*m的张量对每个像素点的na个通道的数据进行多维卷积运算;
该多维卷积运算相当于对na个通道的数据分别应用nb个m*m的卷积过程,每个通道得到nb组卷积输出,然后将na个通道中每个通道对应的第i组卷积输出叠加,1≤i≤nb,得到nb个通道的数据。其中,m为奇数。
2、将nb个通道的数据与长度为nb的纠偏向量相加,得到纠偏后的nb个通道的数据;
3、将纠偏后的nb个通道的数据应用双曲正切函数处理,得到每个像素点的nb个通道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1)。
4、在包括下一层多维卷积处理时,对于当前层多维卷积处理输出的每个图像,将当前图像划分为a*a大小的小块,将每个小块中的各个像素点的每个通道取最大值作为下采样结果,并将下采样后的输出数据作为下一层多维卷积处理的输入数据。
其中,下采样过程用于保留当前层多维卷积处理提取的图像特征。
作为一种可能的实现方式,在将样本图像输入卷积神经网络中之前,也即步骤103之前,还需要将样本图像预处理为符合卷积神经网络的输入要求的样本图像。此时,在步骤103之前,还可以包括如图6所示的步骤:
步骤601,将样本图像的原图由原始颜色空间转换到目标颜色空间,目标颜色空间包括n个颜色通道;
最初版本的样本图像可以仅包括原图。此时,可以将样本图像的原图由原始颜色空间转换到目标颜色空间,目标颜色空间可以是国际照明委员会CIE系统制定的更符合人眼认知习惯的LAB颜色空间。LAB颜色空间包括三个颜色通道,其中,L表示亮度,a表示从洋红色至绿色的范围,b表示从黄色至蓝色的范围。
若样本图像的原图是RGB(Red Green Blue,红绿蓝)颜色空间,则可以将样本图像的原图由RGB颜色空间转换到LAB颜色空间。
步骤602,将原图中的每个像素点,根据n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的原图;
比如,将原图划分为H*H大小的分块,对于每个颜色通道,计算每个分块中各个像素点在该颜色通道上的平均值和标准差Δ,之后对各个像素点进行如下变形:
x ′ = x - x ‾ Δ ,
在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为1。H是原图的行和列能够整除的正整数,比如,原图为分辨率320*240的图像,则H可以为16。
步骤603,将原图和平滑处理后的原图合并为拥有2n个颜色通道的原图,2n=n1
原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
步骤604,将拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
以m=3为例,将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩放为1/4大小的一张缩放图像。
步骤605,将拥有n1个颜色通道的原图和m-1个缩放图像作为符合卷积神经网络的输入要求的样本图像。
将原图和两张缩放图像作为同一个样本图像的三个不同尺度的图像,作为符合卷积神经网络的输入要求的样本图像。
在本实现方式中,通过将原图由原始颜色空间转换至目标颜色空间,使得识别结果更符合人眼认知习惯,增加识别准确率。但需要说明的是,步骤601为可选步骤。
在本实现方式中,还通过将原图和缩放图像组成多个不同尺度的样本图像来对网络参数进行训练。当训练得到的网络参数用于识别过程时,可以对不同尺度的目标图像都有较好的适用性,尽量消除尺度差异对识别结果的影响。
识别阶段与训练阶段的处理过程有一定程度的相似,如下所述:
作为一种可能的实现方式,在将目标图像输入卷积神经网络中之前,也即步骤202之前,还需要将目标图像预处理为符合卷积神经网络的输入要求的目标图像。此时,在步骤202之前,还可以包括如图7所示的步骤:
步骤701,将目标图像的原图由原始颜色空间转换到目标颜色空间,目标颜色空间包括n个颜色通道;
最初版本的目标图像可以仅包括原图。此时,可以将目标图像的原图由原始颜色空间转换到目标颜色空间,目标颜色空间可以是国际照明委员会CIE系统制定的更符合人眼认知习惯的LAB颜色空间。LAB颜色空间包括三个颜色通道,其中,L表示亮度,a表示从洋红色至绿色的范围,b表示从黄色至蓝色的范围。
若目标图像的原图是RGB(Red Green Blue,红绿蓝)颜色空间,则可以将目标图像的原图由RGB颜色空间转换到LAB颜色空间。
步骤702,将原图中的每个像素点,根据n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的原图;
比如,将原图划分为H*H大小的分块,对于每个颜色通道,计算每个分块中各个像素点在该颜色通道上的平均值和标准差Δ,之后对各个像素点进行如下变形:
x ′ = x - x ‾ Δ ,
在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为1。H是原图的行和列能够整除的正整数,比如,原图为分辨率320*240的图像,则H可以为16。
步骤703,将原图和平滑处理后的原图合并为拥有2n个颜色通道的原图,2n=n1
原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
步骤704,将拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
以m=3为例,将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩放为1/4大小的一张缩放图像。
步骤705,将拥有n1个颜色通道的原图和m-1个缩放图像作为符合卷积神经网络的输入要求的目标图像。
将原图和两张缩放图像作为同一个目标图像的三个不同尺度的图像,作为符合卷积神经网络的输入要求的目标图像。
作为一种可能的实现方式,步骤202还包括如图8所示的步骤:
步骤801,将目标图像的每个像素点的原始的n1个通道的数据,输入卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,原始的n1个通道是由目标图像输入卷积神经网络时的颜色空间所确定的颜色通道,该卷积神经网络中载入有预先根据样本图像集训练得到的网络参数;
该步骤的实现方式与步骤301基本相同,区别仅在于步骤301为对样本图像的处理,卷积神经网络中载入的网络参数是未训练好的网络参数;而步骤801为对目标图像的处理,卷积神经网络中载入的网络参数是已训练好的网络参数。相应的处理细节可以参考上述步骤301的子步骤,本文不再赘述。
步骤802,根据目标图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率。
对应地,步骤203包括如下步骤803:
步骤803,对于每个像素点,将该像素点对应于各个景物类型的预测概率中,最高的一个预测概率所对应的景物类型,作为该像素点的景物类型。
为了更详细、直观地阐述本发明实施例,下述两个实施例采用具体的各个参数来分别阐述上述训练过程和识别过程,但是并不对各个参数的具体取值进行限定,仅为示意说明。并且,这2个实施例可以由同一个终端执行,也可以由不同的终端执行。
请参考图9,其示出了本发明一个实施例提供的网络参数训练方法的方法流程图。该网络参数训练方法可以应用在具有计算能力的终端中。该网络参数训练方法,包括:
一、样本图像预处理阶段。
步骤901,获取样本图像集,样本图像集包括若干张样本图像,每个样本图像中的每个像素点对应有标注后的景物类型;
样本图像集可以由街景图像组成。每个街景图像中的每个像素点都对应有标注后的景物类型。标注过程可以由人工完成。
每个像素点的景物类型可以是天空、树木、建筑和路面中的一种。
步骤902,将样本图像的原图由RGB颜色空间转换到LAB颜色空间,LAB颜色空间包括3个颜色通道;
样本图像初始仅包括采用RGB颜色空间表示的原图。此时,将样本图像的原图由RGB颜色空间转换到LAB颜色空间。
步骤903,将原图中的每个像素点,根据3个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的原图;
将原图划分为32像素*32像素大小的分块,对于每个颜色通道,计算每个分块中各个像素点在该颜色通道上的平均值和标准差Δ,之后对各个像素点进行如下变形:
x ′ = x - x ‾ Δ ,
在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为1。
步骤904,将原图和平滑处理后的原图合并为拥有6个颜色通道的原图;
原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
步骤905,将原图根据不同的缩放比例缩放得到2个缩放图像;
将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩放为1/4大小的一张缩放图像。
步骤906,将原图和2个缩放图像作为符合卷积神经网络的输入要求的样本图像;
将原图和两张缩放图像作为同一个样本图像的三个不同尺度的图像,作为符合卷积神经网络的输入要求的样本图像。
显然,对于样本图像集中的每个样本图像,都包括有三个不同尺度的图像。
二、参数训练阶段。
下述步骤907至步骤915示出了一次迭代过程:
步骤907,对于样本图像中的每一尺度的图像,将该图像中每个像素点的6个通道的数据,输入卷积神经网络中进行3层多维卷积处理,变换得到每个像素点的84个通道的数据;
在第一层多维卷积处理时,使用一个16*6*7*7的第一张量对每个像素点的6个通道的数据进行多维卷积处理,该多维卷积处理相当于对6个通道的数据分别应用16个7*7的卷积过程,每个通道得到16组卷积输出,然后将6个通道中每个通道对应的第i组卷积输出叠加,1≤i≤16,得到每个像素点的16个通道的数据。
然后将每个像素点的16个通道的数据与长度为16的第一纠偏向量相加,得到每个像素点纠偏后的16个通道的数据,再对将纠偏后的16个通道的数据应用双曲正切函数处理,得到每个像素点的16个通道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1);
然后,对第一层多维卷积处理输出的每个图像,将该图像划分为2像素*2像素大小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采样后的输出数据作为第二层多维卷积处理的输入数据。
在第二层多维卷积处理时,使用一个48*16*7*7的第二张量对每个像素点的16个通道的数据进行多维卷积处理,该多维卷积处理相当于对16个通道的数据分别应用48个7*7的卷积过程,每个通道得到48组卷积输出,然后将16个通道中每个通道对应的第i组卷积输出叠加,1≤i≤48,得到每个像素点的48个通道的数据。
然后将每个像素点的48个通道的数据与长度为48的第二纠偏向量相加,得到每个像素点纠偏后的48个通道的数据,再对将纠偏后的48个通道的数据应用双曲正切函数处理,得到每个像素点的48个通道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1);
然后,对第二层多维卷积处理输出的每个图像,将该图像划分为2像素*2像素大小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采样后的输出数据作为第三层多维卷积处理的输入数据。
在第三层多维卷积处理时,使用一个84*48*7*7的第二张量对每个像素点的48个通道的数据进行多维卷积处理,该多维卷积处理相当于对48个通道的数据分别应用48个7*7的卷积过程,每个通道得到84组卷积输出,然后将48个通道中每个通道对应的第i组卷积输出叠加,1≤i≤84,得到每个像素点的84个通道的数据。
然后将每个像素点的84个通道的数据与长度为84的第三纠偏向量相加,得到每个像素点纠偏后的84个通道的数据,再对将纠偏后的84个通道的数据应用双曲正切函数处理,得到每个像素点的84个通道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1)。
步骤908,将2个缩放图像根据插值算法还原为原始大小的图像,与原图一起组成3个原始大小的图像;
由于同一个样本图像包括原图、第1个缩放图像和第2个缩放图像,第1个缩放图像是原图的1/2大小,则根据插值算法将第1个缩放图像由1/2大小还原为原始大小;第2个缩放图像是原图的1/4大小,则根据插值算法将第2个缩放图像由1/4大小还原为原始大小,最终得到3张原始大小的图像,每个图像中的像素点都有84个通道的数据。
步骤909,将3个原始大小的图像中每个像素点的84个通道的数据进行叠加,得到每个像素点的252个通道的数据;
对于同一个样本图像的3个原始大小的图像,将3个图像中每个像素点的84个通道的数据进行叠加,得到每个像素点的252个通道的数据。
步骤910,将每个像素点的x坐标和y坐标生成为2个通道的数据,与252个通道的数据合并为254个通道的数据;
由于景物类型在一定程度上与像素点在图片中的坐标位置有关,比如景物类型为天空的像素点通常在图像上方,景物类型为路面的像素点通常在图像下方。将每个像素点的x坐标和y坐标生成为2个通道的数据,与上一步骤中得到的252个通道的数据合并为254个通道的数据。
步骤911,将每个像素点的252个通道的数据使用变换为384个通道的数据;其中,矩阵W为384*252的矩阵,向量为一个长度为384的向量。
至此,每个样本图像都变成一张原始大小的图像,该图像中的每个像素点拥有384个通道。
步骤912,根据样本图像的每个像素点的384个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于4种景物类型的预测概率;
根据每个像素点的384个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于天空的预测概率、对应于树木的预测概率、对应于建筑的预测概率和对应于路面的预测概率。
步骤913,根据每个像素点对应的标注后的景物类型,计算像素点对应的景物类型的预测概率的误差;
由于样本图像中的每个像素点对应有标注后的景物类型,所以可以计算出步骤912的预测概率的误差。
如果采用负对数信度作为误差的量化标准,对于一个像素点,如果它被标注为景物类别i,且在步骤912中被预测为景物类别i的概率为Ppred(i),则该像素点的误差为-log(Ppred(i))。
比如,像素点X被标注的景物类型为天空,而步骤912中将像素点X的景物类型预测为天空的概率是Ppred(天空)=0.6,则该像素点的误差可以为:1-log(Ppred(天空))。
步骤914,统计样本图像中各个像素点的误差和,检测该误差和是否达到最小或低于预设阈值;
步骤915,若样本图像的误差和未达到最小或低于预设阈值,则采用梯度下降法对本次迭代过程中使用的网络参数进行调整,并执行下一次迭代过程;
其中,第1次迭代过程中使用的网络参数是初始网络参数,也即通过不同随机数所组成的初始网络参数。
网络参数包括每次多维卷积处理中所使用的张量和向量、矩阵W和向量比如本实施例中的第一张量、第一向量、第二张量、第二向量、第三张量、第三向量、矩阵W和向量
步骤916,若样本图像的误差和达到最小或者低于预设阈值,则将最后一次迭代过程中使用的网络参数确定为识别误差符合预设要求的网络参数。
当样本图像的误差和达到最小或者低于预设阈值,训练过程完毕,则将最后一次迭代过程中使用的网络参数确定为识别误差符合预设要求的网络参数。
该识别误差符合预设要求的网络参数可以存储在指定位置,以便在识别阶段使用。如果执行训练过程的终端与执行识别过程的终端是不同的终端,则该网络参数可以由执行训练过程的终端发送给执行识别过程的终端。
请参考图10,其示出了本发明一个实施例示出的景物类别识别方法的方法流程图。该景物类型识别方法可以应用在具有计算能力的终端中。该景物类型识别方法,包括:
一、目标图像预处理阶段。
步骤1001,获取目标图像;
目标图像可以街景图像。
步骤1002,将目标图像的原图由RGB颜色空间转换到LAB颜色空间,LAB颜色空间包括3个颜色通道;
目标图像初始仅包括采用RGB颜色空间表示的原图。此时,将目标图像的原图由RGB颜色空间转换到LAB颜色空间。
步骤1003,将原图中的每个像素点,根据3个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的原图;
将原图划分为32像素*32像素大小的分块,对于每个颜色通道,计算每个分块中各个像素点在该颜色通道上的平均值和标准差Δ,之后对各个像素点进行如下变形:
x ′ = x - x ‾ Δ ,
在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为1。
步骤1004,将原图和平滑处理后的原图合并为拥有6个颜色通道的原图,2n=n1
原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
步骤1005,将原图根据不同的缩放比例缩放得到2个缩放图像;
将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩放为1/4大小的一张缩放图像。
步骤1006,将原图和2个缩放图像作为符合卷积神经网络的输入要求的目标图像;
将原图和两张缩放图像作为同一个目标图像的三个不同尺度的图像,作为符合卷积神经网络的输入要求的目标图像。
二、识别阶段。
步骤1007,对于目标图像中的每一尺度的图像,将该图像中每个像素点的6个通道的数据,输入卷积神经网络中进行3层多维卷积处理,变换得到每个像素点的84个通道的数据,该卷积神经网络中载入有预先根据样本图像集训练得到的网络参数;
该网络参数可以是图9实施例所训练得到的网络参数。
在第一层多维卷积处理时,使用一个16*6*7*7的第一张量对每个像素点的6个通道的数据进行多维卷积处理,该多维卷积处理相当于对6个通道的数据分别应用16个7*7的卷积过程,每个通道得到16组卷积输出,然后将6个通道中每个通道对应的第i组卷积输出叠加,1≤i≤16,得到每个像素点的16个通道的数据。
然后将每个像素点的16个通道的数据与长度为16的第一纠偏向量相加,得到每个像素点纠偏后的16个通道的数据,再对将纠偏后的16个通道的数据应用双曲正切函数处理,得到每个像素点的16个通道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1);
然后,对第一层多维卷积处理输出的每个图像,将该图像划分为2像素*2像素大小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采样后的输出数据作为第二层多维卷积处理的输入数据。
在第二层多维卷积处理时,使用一个48*16*7*7的第二张量对每个像素点的16个通道的数据进行多维卷积处理,该多维卷积处理相当于对16个通道的数据分别应用48个7*7的卷积过程,每个通道得到48组卷积输出,然后将16个通道中每个通道对应的第i组卷积输出叠加,1≤i≤48,得到每个像素点的48个通道的数据。
然后将每个像素点的48个通道的数据与长度为48的第二纠偏向量相加,得到每个像素点纠偏后的48个通道的数据,再对将纠偏后的48个通道的数据应用双曲正切函数处理,得到每个像素点的48个通道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1);
然后,对第二层多维卷积处理输出的每个图像,将该图像划分为2像素*2像素大小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采样后的输出数据作为第三层多维卷积处理的输入数据。
在第三层多维卷积处理时,使用一个84*48*7*7的第二张量对每个像素点的48个通道的数据进行多维卷积处理,该多维卷积处理相当于对48个通道的数据分别应用48个7*7的卷积过程,每个通道得到84组卷积输出,然后将48个通道中每个通道对应的第i组卷积输出叠加,1≤i≤84,得到每个像素点的84个通道的数据。
然后将每个像素点的84个通道的数据与长度为84的第三纠偏向量相加,得到每个像素点纠偏后的84个通道的数据,再对将纠偏后的84个通道的数据应用双曲正切函数处理,得到每个像素点的84个通道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1)。
步骤1008,将2个缩放图像根据插值算法还原为原始大小的图像,与原图一起组成3个原始大小的图像;
由于输入的目标图像包括原图、第1个缩放图像和第2个缩放图像,第1个缩放图像是原图的1/2大小,则根据插值算法将第1个缩放图像由1/2大小还原为原始大小;第2个缩放图像是原图的1/4大小,则根据插值算法将第2个缩放图像由1/4大小还原为原始大小,最终得到3张原始大小的图像,每个图像中的像素点都有84个通道的数据。
步骤1009,将3个原始大小的图像中每个像素点的84个通道的数据进行叠加,得到每个像素点的252个通道的数据;
对于目标图像的3个原始大小的图像,将3个图像中每个像素点的84个通道的数据进行叠加,得到每个像素点的252个通道的数据。
步骤1010,将每个像素点的x坐标和y坐标生成为2个通道的数据,与252个通道的数据合并为254个通道的数据;
将每个像素点的x坐标和y坐标生成为2个通道的数据,与上一步骤中得到的252个通道的数据合并为254个通道的数据。
步骤1011,将每个像素点的252个通道的数据使用变换为384个通道的数据;其中,矩阵W为384*252的矩阵,向量为一个长度为384的向量。
至此,目标图像变成一张原始大小的图像,该图像中的每个像素点拥有384个通道。
步骤1012,根据目标图像的每个像素点的384个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于4种景物类型的预测概率;
根据每个像素点的384个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于天空的预测概率、对应于树木的预测概率、对应于建筑的预测概率和对应于路面的预测概率。
步骤1013,对于每个像素点,将该像素点对应于各个景物类型的预测概率中,最高的一个预测概率所对应的景物类型,作为该像素点的景物类型。
比如,对于1个像素点,对应于天空的预测概率为0.1、对应于树木的预测概率为0.05、对应于建筑的预测概率为0.05和对应于路面的预测概率为0.8,则将路面作为该像素点的景物类型。
以下为本发明的装置实施例,其中未详细阐述的部分可以参考上述对应的方法实施例。
请参考图11,其示出了本发明一个实施例提供的网络参数训练装置的结构示意图。该网络参数训练装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该网络参数训练装置包括:
初始化模块1110,用于获取由不同随机数组成的初始网络参数;
获取模块1120,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
训练模块1130,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类型。
综上所述,本实施例提供的网络参数训练装置,通过按照像素级别进行景物类型标注后的样本图像对卷积神经网络所使用的网络参数进行训练,得到识别误差符合预设要求的网络参数,训练得到的该网络参数可以用于后续的识别过程中。
请参考图12,其示出了本发明另一个实施例提供的景物类型识别装置的结构方框图。该景物类型识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该景物类型识别装置包括:
初始化模块1110,用于获取由不同随机数组成的初始网络参数;
获取模块1120,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
训练模块1130,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类型。
可选地,所述训练模块1130,包括:
卷积单元1131,用于对于第i次迭代过程,将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,所述原始的n1个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道;
分析单元1132,用于根据所述样本图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率;
计算单元1133,用于根据每个像素点对应的标注后的景物类型,计算所述像素点对应的景物类型的预测概率的误差;
统计单元1134,用于统计所述样本图像各个像素点的误差和,检测所述误差和是否达到最小或低于预设阈值;
迭代单元1135,用于若所述样本图像的误差和未达到最小或低于预设阈值,则采用梯度下降法对所述第i次迭代过程中使用的网络参数进行调整,并执行第i+1次迭代过程;
其中,第1次迭代过程中使用的网络参数是所述初始网络参数。
可选地,所述卷积单元1131,包括如图13所示的子单元:
卷积子单元1131a,用于将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到n3-2个通道的数据,每层多维卷积处理所使用的张量和纠偏向量是所述网络参数中的一部分;
坐标子单元1131b,用于将每个像素点的11坐标和y坐标生成为2个通道的数据,与所述n3-2个通道的数据合并为n3个通道的数据;
变换子单元1131c,用于将每个像素点的n3个通道的数据使用变换为所述n2个通道的数据;其中,矩阵W为n2*n3的矩阵,向量为一个长度为n2的向量,所述矩阵W和所述向量是所述网络参数中的另一部分。
可选地,所述样本图像包括m个不同尺度的图像,其中1个尺度的图像为原始大小的原图,其它m-1个尺度的图像为所述原图的缩放图像;
所述卷积子单元1131a,具体用于:
对于所述样本图像中的每一尺度的图像,将所述图像中每个像素点的n1个通道的数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的n4个通道的数据;
将所述m-1个缩放图像根据插值算法还原为原始大小的图像,与所述原图一起组成m个原始大小的图像;
将所述m个原始大小的图像中每个像素点的n4个通道的数据进行叠加,得到每个像素点的n3-2个通道的数据,m*n4=n3-2。
可选地,所述装置,还包括:样本预处理模块1125,如图14所示。
样本预处理模块1125,用于将所述样本图像预处理为符合所述卷积神经网络的输入要求的样本图像。
可选地,所述样本预处理模块1125,用于:
将所述样本图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括n个颜色通道;
将所述原图中的每个像素点,根据所述n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的所述原图;
将所述原图和平滑处理后的所述原图合并为拥有2n个颜色通道的原图,2n=n1
将所述拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
将所述拥有n1个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经网络的输入要求的样本图像。
综上所述,本实施例提供的景物类型识别装置,通过将目标图像输入卷积神经网络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
需要说明的是:上述实施例提供的网络参数训练装置在训练网络参数时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网络参数训练装置与网络参数训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图15,其示出了本发明一个实施例提供的景物类型识别装置的结构方框图。该景物类型识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该景物类型识别装置包括:
获取模块1140,用于获取目标图像;
识别模块1150,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
输出模块1160,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。
综上所述,本实施例提供的景物类型识别装置,通过将目标图像输入卷积神经网络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
请参考图16,其示出了本发明一个实施例提供的景物类型识别装置的结构方框图。该景物类型识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该景物类型识别装置包括:
获取模块1140,用于获取目标图像;
识别模块1150,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
输出模块1160,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。
可选地,所述装置,还包括:目标预处理模块1155。
目标预处理模块1155,用于将所述目标图像预处理为符合所述卷积神经网络的输入要求的目标图像。
可选地,所述目标预处理模块1155,用于:
将所述目标图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括n个颜色通道;
将所述原图中的每个像素点,根据所述n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的所述原图;
将所述原图和平滑处理后的所述原图合并为拥有2n个颜色通道的原图,2n=n1
将所述拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
将所述拥有n1个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经网络的输入要求的目标图像。
可选地,所述识别模块1150,包括:
输入单元,用于将所述目标图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,所述原始的n1个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道。
分析单元,用于根据所述目标图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率。
可选地,所述输出模块1160,用于对于每个像素点,将所述像素点对应于各个景物类型的预测概率中,最高的一个预测概率所对应的景物类型,作为所述像素点的景物类型。
综上所述,本实施例提供的景物类型识别装置,通过将目标图像输入卷积神经网络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
需要说明的是:上述实施例提供的景物类型识别装置在识别景物类型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的景物类型识别装置与景物类型识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种网络参数训练方法,其特征在于,所述方法包括:
获取由不同随机数组成的初始网络参数;
获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类型。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,包括:
对于第i次迭代过程,将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,所述原始的n1个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道;
根据所述样本图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率;
根据每个像素点对应的标注后的景物类型,计算所述像素点对应的景物类型的预测概率的误差;
统计所述样本图像中各个像素点的误差和,检测所述误差和是否达到最小或低于预设阈值;
若所述误差和未达到最小或低于预设阈值,则采用梯度下降法对所述第i次迭代过程中使用的网络参数进行调整,并执行第i+1次迭代过程;
其中,第1次迭代过程中使用的网络参数是所述初始网络参数。
3.根据权利要求2所述的方法,其特征在于,所述将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行处理,变换得到每个像素点的n2个通道的数据,包括:
将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到n3-2个通道的数据,每层多维卷积处理所使用的张量和纠偏向量是所述网络参数中的一部分;
将每个像素点的x坐标和y坐标生成为2个通道的数据,与所述n3-2个通道的数据合并为n3个通道的数据;
将每个像素点的n3个通道的数据使用变换为所述n2个通道的数据;其中,矩阵W为n2*n3的矩阵,向量为一个长度为n2的向量,所述矩阵W和所述向量是所述网络参数中的另一部分。
4.根据权利要求3所述的方法,其特征在于,所述样本图像包括m个不同尺度的图像,其中1个尺度的图像为原始大小的原图,其它m-1个尺度的图像为所述原图的缩放图像;
所述将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到n3-2个通道的数据,包括:
对于所述样本图像中的每一尺度的图像,将所述图像中每个像素点的n1个通道的数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的n4个通道的数据;
将所述m-1个缩放图像根据插值算法还原为原始大小的图像,与所述原图一起组成m个原始大小的图像;
将所述m个原始大小的图像中每个像素点的n4个通道的数据进行叠加,得到每个像素点的n3-2个通道的数据,m*n4=n3-2。
5.根据权利要求1至4任一所述的方法,其特征在于,所述将所述样本图像输入卷积神经网络中进行识别处理之前,还包括:
将所述样本图像预处理为符合所述卷积神经网络的输入要求的样本图像。
6.根据权利要求5所述的方法,其特征在于,所述将所述样本图像预处理为符合所述卷积神经网络的输入要求的样本图像,包括:
将所述样本图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括n个颜色通道;
将所述原图中的每个像素点,根据所述n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的所述原图;
将所述原图和平滑处理后的所述原图合并为拥有2n个颜色通道的原图,2n=n1
将所述拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
将所述拥有n1个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经网络的输入要求的样本图像。
7.一种景物类型识别方法,其特征在于,所述方法包括:
获取目标图像;
将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。
8.根据权利要求7所述的方法,其特征在于,所述将所述目标图像输入卷积神经网络中进行识别处理,包括:
将所述目标图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,所述原始的n1个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道;
根据所述目标图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率;
对于每个像素点,将所述像素点对应于各个景物类型的预测概率中,最高的一个预测概率所对应的景物类型,作为所述像素点的景物类型。
9.根据权利要求7或8所述的方法,其特征在于,所述将所述目标图像输入卷积神经网络之前,包括:
将所述目标图像预处理为符合所述卷积神经网络的输入要求的目标图像。
10.根据权利要求9所述的方法,其特征在于,所述将所述目标图像预处理为符合所述卷积神经网络的输入要求的目标图像,包括:
将所述目标图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括n个颜色通道;
将所述原图中的每个像素点,根据所述n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的所述原图;
将所述原图和平滑处理后的所述原图合并为拥有2n个颜色通道的原图,2n=n1
将所述拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
将所述拥有n1个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经网络的输入要求的目标图像。
11.一种网络参数训练装置,其特征在于,所述装置,还包括:
初始化模块,用于获取由不同随机数组成的初始网络参数;
获取模块,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
训练模块,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类型。
12.根据权利要求11所述的装置,其特征在于,所述训练模块,包括:
卷积单元,用于对于第i次迭代过程,将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,所述原始的n1个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道;
分析单元,用于根据所述样本图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率;
计算单元,用于根据每个像素点对应的标注后的景物类型,计算所述像素点对应的景物类型的预测概率的误差;
统计单元,用于统计所述样本图像中各个像素点的误差和,检测所述误差和是否达到最小或低于预设阈值;
迭代单元,用于若所述样本图像的误差和未达到最小或低于预设阈值,则采用梯度下降法对所述第i次迭代过程中使用的网络参数进行调整,并执行第i+1次迭代过程;
其中,第1次迭代过程中使用的网络参数是所述初始网络参数。
13.根据权利要求12所述的装置,其特征在于,所述卷积单元,包括:
卷积子单元,用于将所述样本图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到n3-2个通道的数据,每层多维卷积处理所使用的张量和纠偏向量是所述网络参数中的一部分;
坐标子单元,用于将每个像素点的x坐标和y坐标生成为2个通道的数据,与所述n3-2个通道的数据合并为n3个通道的数据;
变换子单元,用于将每个像素点的n3个通道的数据使用变换为所述n2个通道的数据;其中,矩阵W为n2*n3的矩阵,向量为一个长度为n2的向量,所述矩阵W和所述向量是所述网络参数中的另一部分。
14.根据权利要求13所述的装置,其特征在于,所述样本图像包括m个不同尺度的图像,其中1个尺度的图像为原始大小的原图,其它m-1个尺度的图像为所述原图的缩放图像;
所述卷积子单元,具体用于:
对于所述样本图像中的每一尺度的图像,将所述图像中每个像素点的n1个通道的数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的n4个通道的数据;
将所述m-1个缩放图像根据插值算法还原为原始大小的图像,与所述原图一起组成m个原始大小的图像;
将所述m个原始大小的图像中每个像素点的n4个通道的数据进行叠加,得到每个像素点的n3-2个通道的数据,m*n4=n3-2。
15.根据权利要求11至14任一所述的装置,其特征在于,所述装置,还包括:
样本预处理模块,用于将所述样本图像预处理为符合所述卷积神经网络的输入要求的样本图像。
16.根据权利要求15所述的装置,其特征在于,所述样本预处理模块,用于:
将所述样本图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括n个颜色通道;
将所述原图中的每个像素点,根据所述n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的所述原图;
将所述原图和平滑处理后的所述原图合并为拥有2n个颜色通道的原图,2n=n1
将所述拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
将所述拥有n1个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经网络的输入要求的样本图像。
17.一种景物类型识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标图像;
识别模块,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
输出模块,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。
18.根据权利要求17所述的装置,其特征在于,
所述识别模块,包括:输入单元和分析单元;
所述输入单元,用于将所述目标图像的每个像素点的原始的n1个通道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,n2>n1,所述原始的n1个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道;
所述分析单元,用于根据所述目标图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率;
所述输出模块,用于对于每个像素点,将所述像素点对应于各个景物类型的预测概率中,最高的一个预测概率所对应的景物类型,作为所述像素点的景物类型。
19.根据权利要求17或18所述的装置,其特征在于,所述装置,还包括:
目标预处理模块,用于将所述目标图像预处理为符合所述卷积神经网络的输入要求的目标图像。
20.根据权利要求19所述的装置,其特征在于,所述目标预处理模块,用于:
将所述目标图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括n个颜色通道;
将所述原图中的每个像素点,根据所述n个颜色通道中的每个颜色通道分别进行对比度平滑处理,得到平滑处理后的所述原图;
将所述原图和平滑处理后的所述原图合并为拥有2n个颜色通道的原图,2n=n1
将所述拥有n1个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
将所述拥有n1个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经网络的输入要求的目标图像。
CN201510031685.0A 2015-01-22 2015-01-22 识别景物类型的网络参数训练方法、景物类型识别方法及装置 Active CN105868797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510031685.0A CN105868797B (zh) 2015-01-22 2015-01-22 识别景物类型的网络参数训练方法、景物类型识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510031685.0A CN105868797B (zh) 2015-01-22 2015-01-22 识别景物类型的网络参数训练方法、景物类型识别方法及装置

Publications (2)

Publication Number Publication Date
CN105868797A true CN105868797A (zh) 2016-08-17
CN105868797B CN105868797B (zh) 2019-09-13

Family

ID=56623205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510031685.0A Active CN105868797B (zh) 2015-01-22 2015-01-22 识别景物类型的网络参数训练方法、景物类型识别方法及装置

Country Status (1)

Country Link
CN (1) CN105868797B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780543A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于卷积神经网络的双框架估计深度和运动方法
CN107194404A (zh) * 2017-04-13 2017-09-22 哈尔滨工程大学 基于卷积神经网络的水下目标特征提取方法
CN107392252A (zh) * 2017-07-26 2017-11-24 上海城诗信息科技有限公司 计算机深度学习图像特征并量化感知度的方法
CN107452025A (zh) * 2017-08-18 2017-12-08 成都通甲优博科技有限责任公司 目标跟踪方法、装置及电子设备
CN107590482A (zh) * 2017-09-29 2018-01-16 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN107609536A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN107622498A (zh) * 2017-09-29 2018-01-23 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN107679490A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
WO2018036286A1 (zh) * 2016-08-26 2018-03-01 深圳光启合众科技有限公司 目标对象的识别方法和装置,及机器人
CN108230390A (zh) * 2017-06-23 2018-06-29 北京市商汤科技开发有限公司 训练方法、关键点检测方法、装置、存储介质和电子设备
CN110348404A (zh) * 2019-07-16 2019-10-18 湖南人文科技学院 一种农村道路景观视觉评价分析方法
CN110762943A (zh) * 2018-07-26 2020-02-07 珠海格力电器股份有限公司 物品的展示方法、装置以及家电设备
CN111880558A (zh) * 2020-07-06 2020-11-03 广东技术师范大学 植保无人机避障喷施方法、装置、计算机设备和存储介质
CN112889065A (zh) * 2018-10-25 2021-06-01 莱雅公司 用于使用深度学习来提供个性化产品推荐的系统和方法
US11423634B2 (en) 2018-08-03 2022-08-23 Huawei Cloud Computing Technologies Co., Ltd. Object detection model training method, apparatus, and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925099B2 (en) * 2007-04-03 2011-04-12 Hewlett-Packard Development Company, L.P. Universal-denoiser context-modeling component and context-modeling method
CN102436583A (zh) * 2011-09-26 2012-05-02 哈尔滨工程大学 基于对标注图像学习的图像分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925099B2 (en) * 2007-04-03 2011-04-12 Hewlett-Packard Development Company, L.P. Universal-denoiser context-modeling component and context-modeling method
CN102436583A (zh) * 2011-09-26 2012-05-02 哈尔滨工程大学 基于对标注图像学习的图像分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CLEMENT FARABET ET.AL: "Learning Hierarchical Features for Scene Labeling", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
HANNES SCHULZ ET.AL: "Learning Object-Class Segmentation with Convolutional Neural Networks", 《IN PROCEEDINGS OF THE EUROPEAN SYMPOSIUM ON ARTIFICIAL NEURAL NETWORKS (ESANN)》 *
PEDRO O.PINHERIRO ET.AL: "Recurrent Convolutional Neural Networks for Scene Labeling", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036286A1 (zh) * 2016-08-26 2018-03-01 深圳光启合众科技有限公司 目标对象的识别方法和装置,及机器人
CN106780543A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于卷积神经网络的双框架估计深度和运动方法
CN107194404A (zh) * 2017-04-13 2017-09-22 哈尔滨工程大学 基于卷积神经网络的水下目标特征提取方法
CN108230390A (zh) * 2017-06-23 2018-06-29 北京市商汤科技开发有限公司 训练方法、关键点检测方法、装置、存储介质和电子设备
CN107392252A (zh) * 2017-07-26 2017-11-24 上海城诗信息科技有限公司 计算机深度学习图像特征并量化感知度的方法
CN107452025A (zh) * 2017-08-18 2017-12-08 成都通甲优博科技有限责任公司 目标跟踪方法、装置及电子设备
CN107679490B (zh) * 2017-09-29 2019-06-28 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
CN107679490A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
CN107622498A (zh) * 2017-09-29 2018-01-23 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN107609536A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN107590482A (zh) * 2017-09-29 2018-01-16 百度在线网络技术(北京)有限公司 信息生成方法和装置
US10853623B2 (en) 2017-09-29 2020-12-01 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating information
CN107622498B (zh) * 2017-09-29 2021-06-04 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN110762943A (zh) * 2018-07-26 2020-02-07 珠海格力电器股份有限公司 物品的展示方法、装置以及家电设备
US11605211B2 (en) 2018-08-03 2023-03-14 Huawei Cloud Computing Technologies Co., Ltd. Object detection model training method and apparatus, and device
US11423634B2 (en) 2018-08-03 2022-08-23 Huawei Cloud Computing Technologies Co., Ltd. Object detection model training method, apparatus, and device
CN112889065A (zh) * 2018-10-25 2021-06-01 莱雅公司 用于使用深度学习来提供个性化产品推荐的系统和方法
CN110348404A (zh) * 2019-07-16 2019-10-18 湖南人文科技学院 一种农村道路景观视觉评价分析方法
CN110348404B (zh) * 2019-07-16 2023-05-02 湖州学院 一种农村道路景观视觉评价分析方法
CN111880558B (zh) * 2020-07-06 2021-05-11 广东技术师范大学 植保无人机避障喷施方法、装置、计算机设备和存储介质
CN111880558A (zh) * 2020-07-06 2020-11-03 广东技术师范大学 植保无人机避障喷施方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN105868797B (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN105868797A (zh) 网络参数训练方法、景物类型识别方法及装置
US9626598B2 (en) Method and apparatus for image processing
CN108717524B (zh) 一种基于双摄手机和人工智能系统的手势识别系统
JP2021517330A (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
CN108230233A (zh) 数据增强、处理方法和装置、电子设备和计算机存储介质
CN103914699A (zh) 一种基于色彩空间的自动唇彩的图像增强的方法
CN112862792B (zh) 一种用于小样本图像数据集的小麦白粉病孢子分割方法
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN107169508B (zh) 一种基于融合特征的旗袍图像情感语义识别方法
CN113505768A (zh) 模型训练、人脸识别方法、电子设备及存储介质
CN112307853A (zh) 航拍图像的检测方法、存储介质和电子装置
CN116681636B (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
CN109920018A (zh) 基于神经网络的黑白照片色彩恢复方法、装置及存储介质
CN112837344A (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
CN110163864A (zh) 图像分割方法、装置、计算机设备和存储介质
CN104732534B (zh) 一种图像中显著目标的抠取方法及系统
JP7463186B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113128308B (zh) 一种港口场景下的行人检测方法、装置、设备及介质
CN110796716B (zh) 一种基于多重残差网络和正则化迁移学习的图像着色方法
CN113284055A (zh) 一种图像处理的方法以及装置
CN111738964A (zh) 一种基于建模的图像数据增强的方法
CN107368847A (zh) 一种作物叶部病害识别方法及系统
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN111091055A (zh) 脸型识别方法、装置、设备及计算机可读存储介质
CN110059742A (zh) 基于深度学习的安全护具穿戴识别方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170901

Address after: 100084 Haidian District Tsinghua Yuan Beijing No. 1

Applicant after: Tsinghua University

Applicant after: Shenzhen Tencent Computer System Co., Ltd.

Address before: The South Road in Guangdong province Shenzhen city Fiyta building 518000 floor 5-10 Nanshan District high tech Zone

Applicant before: Shenzhen Tencent Computer System Co., Ltd.

GR01 Patent grant
GR01 Patent grant