CN108268882A

CN108268882A - 一种互联网图片场景分类方法及其系统

Info

Publication number: CN108268882A
Application number: CN201611265192.4A
Authority: CN
Inventors: 王康; 李峰岳; 李倩玉; 王明良; 汤鲲
Original assignee: Nanjing Fiberhome Software Technology Co Ltd
Current assignee: NANJING FENGHUO TIANDI COMMUNICATION TECHNOLOGY Co.,Ltd.
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10

Abstract

本发明属于互联网信息处理技术领域，公开了一种互联网图片场景分类方法及其系统，包括：S101、对输入的海量互联网图片进行预处理；S102、对经过预处理后的互联网图片进行图像场景的深度感知特征提取；S103、将提取后的深度感知特征输入分类器，用于判别最终场景类别；本发明提供的技术方案能够做到真正意义上的互联网数据场景分类，从而利用图片标签类别对图片进行快速检索，实现海量互联网图片信息价值的充分挖掘。

Description

一种互联网图片场景分类方法及其系统

技术领域

本发明属于互联网信息处理技术领域，具体涉及一种互联网图片场景分类方法及其系统。

背景技术

在互联网社会，网络上存在大量的多媒体数据，其中图片数据占据着极大的比重，图片作为一种信息载体，蕴含了大量有价值的信息，如何去充分挖掘图片的价值，成了当前研究的热点。图像场景分类立足于快速的对图像场景信息的描述，例如对车辆、行人、包、鞋子、建筑等不同图像场景信息的描述，目前市面上还没有对互联网图片数据进行充分类别描述的相关产品。

目前的现有产品都只能分辨有限类的场景类别，具体存在如下问题：类别描述不充分，对图像场景的理解局限于对图像颜色、纹理等浅层的特征，无法感知图像的场景内容信息，并且对于多个类别的描述，效率非常低下。传统方法在对多类别场景进行分类描述时需要多个分类器的级联，每增加一个场景类别分类所用的时间都需要增加，且采用传统方法进行场景分类时提取的是图像的纹理、颜色等信息，没有高级语义特征，在复杂场景下分类效果不理想。

发明内容

本发明克服现有技术存在的不足，所要解决的技术问题为：提供一种能够充分感知互联网图像数据的场景类别信息，进而为互联网上海量图片的信息挖掘与快速检索提供便捷的互联网图片场景分类方法及其系统。

本发明提供的互联网图片场景分类方法包括：

S101、对输入的海量互联网图片进行预处理；

S102、对经过预处理后的互联网图片进行图像场景的深度感知特征提取；

S103、将提取后的深度感知特征输入分类器，用于判别最终场景类别。

进一步地，所述对输入的海量互联网图片进行预处理包括以下步骤：

首先对输入的海量互联网图片进行MD5特征去重，去除重复照片；

然后对经去重后的互联网图片进行解码，筛除解码失败的图片，对解码成功的图片进行归一化处理。

进一步的，所述对经过预处理的互联网图片进行图像场景的深度感知特征提取包括以下步骤：

S1021、将经过预处理后的互联网图片输入第一层卷积层进行处理；

S1022、将经过第一层卷积层处理后的互联网图片输入第二层卷积层进行处理；

S1023、将经过第二层卷积层处理后的互联网图片输入第三层卷积层进行处理；

S1024、将经过第三层卷积层处理后的互联网图片输入第四层卷积层进行处理；

S1025、将经过第四层卷积层处理后的互联网图片输入第五层卷积层进行处理；

S1026、将经过第五层卷积层处理后的互联网图片输入第一层全连接层进行处理；

S1027、将经过第一层全连接层处理后的互联网图片输入第二层全连接层进行处理；

更进一步的，在所述步骤S1011中还包括对经过第一层卷积层卷积处理后的互联网图片进行一次Relu激励以及数据的规则化，然后进行最大值池化处理；

在所述步骤S1022中还包括对经过第二层卷积层卷积处理后的互联网图片进行最大值池化处理；

在在所述步骤S1025中还包括对经过第五层卷积层卷积处理后的互联网图片进行最大值池化处理。

本发明提供的实现互联网图片场景分类的系统，包括：

海量图片预处理模块：用于对输入的海量互联网图片进行预处理；

图像场景的深度感知特征提取模块：用于对经过预处理后的互联网图片进行图像场景的深度感知特征提取；

图片分类模块：用于判别互联网图片的最终场景类别。

进一步的，所述海量图片预处理模块包括MD5特征去重单元和解码处理单元；

所述MD5特征去重单元用于对输入的海量互联网图片进行MD5特征去重，去除重复照片；

所述解码处理单元用于对经去重后的互联网图片进行解码，筛除解码失败的图片，对解码成功的图片进行归一化处理。

所述图像场景的深度感知特征提取模块包括：

第一卷积单元：用于对经过预处理后的互联网图片进行第一层卷积处理；

第二卷积单元：用于对经过第一层卷积处理后的互联网图片进行第二层卷积处理；

第三卷积单元：用于对经过第二层卷积处理后的互联网图片进行第三层卷积处理；

第四卷积单元：用于对经过第三层卷积处理后的互联网图片进行第四层卷积处理；

第五卷积单元：用于对经过第四层卷积处理后的互联网图片进行第五层卷积处理；

第一全连接单元：用于对经过第五层卷积处理后的互联网图片进行第一层全连接处理；

第二全连接单元：用于对经过第一层全连接处理后的互联网图片进行第二层全连接处理。

更进一步的，所述图像场景的深度感知特征提取模块还包括：

第一池化单元：用于对经过第一层卷积层卷积处理后的互联网图片进行最大值池化操作；

第二池化单元：用于对经过第二层卷积层卷积处理后的互联网图片进行最大值池化操作；

第三池化单元：用于对经过第五层卷积层卷积处理后的互联网图片进行最大值池化操作。

本发明与现有技术相比具有以下有益效果：

1、本发明提供的技术方案对传统的图片场景分类方法采用的类别进行了重新调整，对图片的内容信息感知使用了深度感知模型去感知图片本身的高级语义特征，使用实际图片类别更加贴近于互联网真实数据，能够真正意义上做到对互联网图片数据的分拣、打标，并采用GPU加速的方法对数据进行处理，做到真正意义上的互联网数据场景分类，从而利用图片标签类别对图片进行快速检索，实现海量互联网图片信息价值的充分挖掘。

2、相对与传统场景分类的方法，本发明提供的技术方案在对于多类场景的分类问题在场景类别增加的情况下几乎不增加时间开销，在Nvidia K40GPU上场景分类可以做到每秒900张以上的图片数量，做到了海量数据实时处理。

附图说明

下面结合附图对本发明做进一步详细的说明；

图1为本发明实施例一提供的互联网图片场景分类方法的流程示意图；

图2为图1的流程细化示意图；

图3为本发明实施例一提供的实现互联网图片场景分类方法的系统的结构示意图；

图4为图3的结构细化示意图；

图中：101为海量图片预处理模块，102为图像场景的深度感知特征提取模块，103为图片分类模块，1011为MD5特征去重单元，1012为解码处理单元，1021为第一卷积单元，1022为第二卷积单元，1023为第三卷积单元，1024为第四卷积单元，1025为第五卷积单元，1026为第一全连接单元，1027为第二全连接单元，10211为第一池化单元，10221为第二池化单元，10251为第三池化单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-2所示，本发明提供的互联网图片场景分类方法，包括：

S101、对输入的海量互联网图片进行预处理；

在所述步骤S1025中还包括对经过第五层卷积层卷积处理后的互联网图片进行最大值池化处理。

具体地，对输入的海量互联网图片，首先对其进行MD5特征去重去除互联网上大量的重复图片，并对解码失败的图片进行筛选，对于解码成功的图片进行归一化处理，将其归一化到：227*227*3，其中227是图片的长、宽，3为图像的通道数，即为3通道的RGB图像。

然后将预处理为固定大小的图片进行图像场景的深度感知特征提取，首先将预处理为固定大小的图片输入至卷积层，卷积层使用多个卷积核对输入的图像特征进行卷积操作，得出经卷积核卷积后的更高级的特征。卷积层对输入图像特征进行二维卷积和偏置操作，再使用非线性激活函数，获得一个卷积结果，即图像的特征其表达式为：

其中，n代表网络层数，U代表第n层的神经元个数，w_i,j表示第i个输入图像和第j个输出图像的卷积权重，b_j代表第j个图像的输出偏置，f(·)为神经元激活函数，这里为Relu函数，f(x)＝max(0,x)。

上述卷积层包括5个卷积层，其中第一层卷积层、第二层卷积层和第五层卷积层中还分别加入了池化层，所述池化层用于对输入的图像特征进行最大值池化操作，将所述的图像特征进行降低维度并提高特征对旋转及偏移的鲁棒性。

卷积处理完成后的图像特征输入至全连接层，全连接层用于连接当前层神经元与前一层神经元，上述全连接层包括2层全连接层，图像数据经过两层全连接层后得到图像的内容高级特征，这些特征作为分类器softmax函数的输入，通过softmax函数计算分类结果，实现图片最终场景类别的判别。

其中，k代表输出层的类别数，M为最后一个全连接层的神经元数目，N代表网络的总层数，f(·)为softmax函数，

更为具体的，采用上述提供的图像场景的深度感知特征提取步骤进行具体图片的场景分类训练，首先

针对于互联网中的图片类型种类众多，采样使用10w张图片进行样本的标注，将标注后的图片划分为N种类别，比如：人(一人、两人、3-5人、多人)，车(各种类型的车)，动物(各种动物)，衣服等，每种类别图片的数量为200-1000张不等，对所有的样本图片进行标注。

然后使用imageNet公开数据集(100w张图片，1000类类别)进行预训练，对整个5层卷积层构成的卷积网络的权值进行调整，从而具有对图像的泛型理解能力，从而更好的对互联网数据进行认知。

在预训练完成后，利用互联网中的10w张采样标注图片进行最终的训练，将最终的分类器输出节点数改为N个节点(N对应着图片的类别数)，输出分别代表原始图片所属的类别数，整卷积网络的每个节点的参数通过反向传导算法进行训练，在反向传导算法中采用梯度下降法调整各层神经元的权重和偏置，最终输出层的误差函数为：

卷积层的梯度：其中μ(x)＝x*l_nxn,，是上采样的操作，这是由于池化处理进行了下采样操作，为了补偿前一轮卷积层的数据损失，在对卷积层使用梯度下降算法时，需要对池化处理的偏导误差进行上采样操作。

对于偏置

对卷积核权重这里，与逐元素相乘的patch结果。

下采样层梯度：其中，conv(·)是卷积操作。

当训练轮数达到预先设定的迭代轮数时，训练结束，并保存各层的权重和阈值。

在经过50轮迭代后，最终得到整个训练网络的参数，具体训练流程如下：

1)在第一层卷积层中，输入的神经元的个数为224*224*3＝150528，采用了96个11*11*3的kernel，stride＝4，对输入的224*224*3的图像进行滤波。输出的神经元的数量为55*55*96＝290400个，在第一层卷积层过后进行一次Relu激励以及数据的规则化，并进行极大值pooling，将输出传递到第二层卷积层，作为第二层卷积层的输入；

2)第二层卷积层采用与第一层卷积层相似的方法进行处理，采用256个5*5的kernel进行卷积滤波，然后采用极大值pooling，第二层卷积层得到的输出神经元的个数为27*27*256＝186642个。

3)第三层卷积层采用的是384个3*3的kernel进行卷积滤波，得出的神经元的个数为13*13*384＝64896。

4)第四层卷积层采用与第三层卷积层相同的处理方法。

5)第五层卷积层采用256个3*3的kernel进行卷积滤波，并且采用极大值pooling，得出的输出节点数为13*13*256＝43264，然后将输出传递到第一全连接层。

6)第一全连接层得到4096个输出节点。

7)第二全连接层对第一全连接层进行全连接，并且输出连接至softmax分类器。

8)softmax分类器输出的节点数量为N个，对应着N类互联网数据类别。在训练的过程中，训练轮数设定为50000轮，

如图3-4所示，本发明还提供了一种实现互联网图片场景分类方法的系统，包括海量图片预处理模块101：用于对输入的海量互联网图片进行预处理；

图像场景的深度感知特征提取模块102：用于对经过预处理后的互联网图片进行图像场景的深度感知特征提取；

图片分类模块103：用于判别互联网图片的最终场景类别。

进一步的，所述海量图片预处理模块101包括MD5特征去重单元1011和解码处理单元1012；

所述MD5特征去重单元1011用于对输入的海量互联网图片进行MD5特征去重，去除重复照片；

所述解码处理单元1012用于对经去重后的互联网图片进行解码，筛除解码失败的图片，对解码成功的图片进行归一化处理。

进一步的，所述深图像场景的深度感知特征提取模块102包括：

第一卷积单元1021：用于对经过预处理后的互联网图片进行第一层卷积处理；

第二卷积单元1022：用于对经过第一层卷积处理后的互联网图片进行第二层卷积处理；

第三卷积单元1023：用于对经过第二层卷积处理后的互联网图片进行第三层卷积处理；

第四卷积单元1024：用于对经过第三层卷积处理后的互联网图片进行第四层卷积处理；

第五卷积单元1025：用于对经过第四层卷积处理后的互联网图片进行第五层卷积处理；

第一全连接单元1026：用于对经过第五层卷积处理后的互联网图片进行第一层全连接处理；

第二全连接单元1027：用于对经过第一层全连接处理后的互联网图片进行第二层全连接处理。

更进一步的，所述图像场景的深度感知特征提取模块102还包括：

第一池化单元10211：用于对经过第一层卷积层卷积处理后的互联网图片进行最大值池化操作；

第二池化单元10221：用于对经过第二层卷积层卷积处理后的互联网图片进行最大值池化操作；

第三池化单元10251：用于对经过第五层卷积层卷积处理后的互联网图片进行最大值池化操作。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种互联网图片场景分类方法，其特征在于，包括：

S101、对输入的海量互联网图片进行预处理；

2.根据权利要求1所述的互联网图片场景分类方法，其特征在于，所述对输入的海量互联网图片进行预处理包括以下步骤：

S1011、首先对输入的海量互联网图片进行MD5特征去重，去除重复照片；

S1012、然后对经去重后的互联网图片进行解码，筛除解码失败的图片，对解码成功的图片进行归一化处理。

3.根据权利要求1所述的互联网图片场景分类方法，其特征在于，所述对经过预处理的互联网图片进行图像场景的深度感知特征提取包括以下步骤：

S1027、将经过第一层全连接层处理后的互联网图片输入第二层全连接层进行处理。

4.根据权利要求3所述的互联网图片场景分类方法，其特征在于，

在所述步骤S1021中还包括对经过第一层卷积层卷积处理后的互联网图片进行一次Relu激励以及数据的规则化，然后进行最大值池化处理；

5.一种实现互联网图片场景分类的系统，其特征在于，包括：

海量图片预处理模块(101)：用于对输入的海量互联网图片进行预处理；

图像场景的深度感知特征提取模块(102)：用于对经过预处理后的互联网图片进行图像场景的深度感知特征提取；

图片分类模块(103)：用于判别互联网图片的最终场景类别。

6.根据权利要求5所述的实现互联网图片场景分类的系统，其特征在于，所述海量图片预处理模块(101)包括MD5特征去重单元(1011)和解码处理单元(1012)；

所述MD5特征去重单元(1011)用于对输入的海量互联网图片进行MD5特征去重，去除重复照片；

所述解码处理单元(1012)用于对经去重后的互联网图片进行解码，筛除解码失败的图片，对解码成功的图片进行归一化处理。

7.根据权利要求5所述的实现互联网图片场景分类的系统，其特征在于，所述图像场景的深度感知特征提取模块(102)包括：

第一卷积单元(1021)：用于对经过预处理后的互联网图片进行第一层卷积处理；

第二卷积单元(1022)：用于对经过第一层卷积处理后的互联网图片进行第二层卷积处理；

第三卷积单元(1023)：用于对经过第二层卷积处理后的互联网图片进行第三层卷积处理；

第四卷积单元(1024)：用于对经过第三层卷积处理后的互联网图片进行第四层卷积处理；

第五卷积单元(1025)：用于对经过第四层卷积处理后的互联网图片进行第五层卷积处理；

第一全连接单元(1026)：用于对经过第五层卷积处理后的互联网图片进行第一层全连接处理；

第二全连接单元(1027)：用于对经过第一层全连接处理后的互联网图片进行第二层全连接处理。

8.根据权利要求7所述的实现互联网图片场景分类的系统，其特征在于，所述图像场景的深度感知特征提取模块(102)还包括：

第一池化单元(10211)：用于对经过第一层卷积层卷积处理后的互联网图片进行最大值池化操作；

第二池化单元(10221)：用于对经过第二层卷积层卷积处理后的互联网图片进行最大值池化操作；

第三池化单元(10251)：用于对经过第五层卷积层卷积处理后的互联网图片进行最大值池化操作。