CN111222557A

CN111222557A - 图像分类方法、装置、存储介质及电子设备

Info

Publication number: CN111222557A
Application number: CN201911414376.6A
Authority: CN
Inventors: 孙莹莹
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02
Also published as: WO2021136060A1

Abstract

本申请实施例公开了一种图像分类方法、装置、存储介质及电子设备，其中，本申请首先确定需要进行图像分类的目标图像，然后调用预训练的图像分类模型，该图像分类模型包括特征提取模块和分类模块，其中特征提取模块包括依次连接的多个ShuffleNet v2单元，ShuffleNet v2单元采用Leaky ReLu函数作为激活函数，利用基于多个ShuffleNet v2单元逐层对目标图像进行特征提取，得到目标图像的图像特征，最后基于分类模块对图像特征进行分类预测，得到目标图像的预测类别。相较于相关技术，无需用户手动对电子设备上的图像进行分类，能够有效提高电子设备进行图像分类的效率。

Description

图像分类方法、装置、存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，具体涉及一种模型训练方法、图像分类方法、装置、介质及电子设备。

背景技术

目前，用户可以将大量的图像(比如拍摄得到的图像，从网络下载的图像等)存储在如手机、平板电脑等电子设备上，从而可以随时随地的进行浏览。为了便于准确的查找到的需要浏览的目标图像，相关技术可由用户对电子设备上的图像进行手动分类，从而在需要时依类查找目标图像。然而，随着电子设备中图像数量的不断增加，传统的手动分类方法将无法有效的对图像进行分类管理。

发明内容

本申请实施例提供了一种图像分类方法、装置、存储介质及电子设备，能够提高电子设备进行图像分类的效率。

本申请实施例提供的图像分类方法，包括：

确定需要进行图像分类的目标图像；

调用预训练的图像分类模型，所述图像分类模型包括特征提取模块和分类模块，所述特征提取模块包括依次连接的多个ShuffleNet v2单元，所述ShuffleNet v2单元采用Leaky ReLu函数作为激活函数；

基于所述多个ShuffleNet v2单元逐层对所述目标图像进行特征提取，得到所述目标图像的图像特征；

基于所述分类模块对所述图像特征进行分类预测，得到所述目标图像的预测类别。

本申请实施例提供的图像分类装置，包括：

图像确定组件，用于确定需要进行图像分类的目标图像；

模型调用组件，用于调用预训练的图像分类模型，所述图像分类模型包括特征提取模块和分类模块，所述特征提取模块包括依次连接的多个ShuffleNet v2单元，所述ShuffleNet v2单元采用Leaky ReLu函数作为激活函数；

特征提取组件，用于基于所述多个ShuffleNet v2单元逐层对所述目标图像进行特征提取，得到所述目标图像的图像特征；

图像分类组件，用于基于所述分类模块对所述图像特征进行分类预测，得到所述目标图像的预测类别。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器加载时执行如本申请提供的图像分类方法。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器存有计算机程序，所述处理器通过加载所述计算机程序，用于执行如本申请提供的图像分类方法。

本申请首先确定需要进行图像分类的目标图像，然后调用预训练的图像分类模型，该图像分类模型包括特征提取模块和分类模块，其中特征提取模块包括依次连接的多个ShuffleNet v2单元，ShuffleNet v2单元采用Leaky ReLu函数作为激活函数，利用基于多个ShuffleNet v2单元逐层对目标图像进行特征提取，得到目标图像的图像特征，最后基于分类模块对图像特征进行分类预测，得到目标图像的预测类别。相较于相关技术，无需用户手动对电子设备上的图像进行分类，能够有效提高电子设备进行图像分类的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的图像分类方法的流程示意图。

图2是本申请实施例中触发进行图像分类的示例图。

图3是本申请实施例提供的图像分类模型的一结构示意图。

图4是本申请实施例提供的图像分类模型的另一结构示意图。

图5是本申请实施例中显示不同图像类别的文件夹的示例图。

图6是本申请实施例中获取样本图像的示意图。

图7是本申请实施例中训练得到图像分类模型的示意图。

图8是本申请实施例提供的模型训练方法的流程示意图。

图9是本申请实施例提供的图像分类装置的结构示意图。

图10是本申请实施例提供的电子设备的一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

本申请实施例提供一种图像分类方法、图像分类装置、存储介质以及电子设备，其中，该图像分类方法的执行主体可以是本申请实施例中提供的图像分类装置，或者集成了该图像分类装置的电子设备，其中该图像分类装置可以采用硬件或软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器(包括但不限于通用处理器、定制化处理器等)而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的图像分类方法的流程示意图，该图像分类方法的流程可以如下：

在101中，确定需要进行图像分类的目标图像。

本申请实施例中，电子设备可以基于预设的图像分类周期，按照预设的图像选取规则，确定需要进行图像分类的目标图像，或者是在接收到用户输入的图像分类指令时，根据用户输入的图像分类指令确定需要进行图像分类的目标图像，等等。

需要说明的是，本申请实施例对于图像分类周期、图像选取规则以及图像分类操作的设置均不做具体限定，可由电子设备根据用户输入进行设置，也可由电子设备的生产厂商对电子设备进行缺省设置，等等。

比如，假设图像分类周期被预先配置为以周一为起点的自然周，且图像选取规则被配置为“选取拍摄的图像进行图像分类”这样，电子设备可以在每周一自动触发进行图像分类，将拍摄得到的图像确定为需要进行图像分类的目标图像。

又比如，请参照图2，电子设备在一图像浏览界面中提供有用于触发进行图像分类的“分类”控件”。其中，图示矩形表示不同的图像，矩形中的圆形框表示用于选择对应图像的“选择”控件。用户可以点击某图像对应的选择控件以选中该图像，并可以再次点击该图像对应的选择控件来撤销对该图像的选中。如图5所示，当用户选中需要进行分类的图像之后，通过点击分类控件来向电子设备输入图像分类指令，其中，该图像分类指令携带有指示用户选中的图像的指示信息。相应的，电子设备根据用户输入的图像分类指令中的指示信息，将用户选中的图像确定为需要进行图像分类的目标图像。

在102中，调用预训练的图像分类模型，图像分类模型包括特征提取模块和分类模块，特征提取模块包括依次连接的多个ShuffleNet v2单元，ShuffleNet v2单元采用LeakyReLu函数作为激活函数。

应当说明的是，本申请预先采用机器学习方法预先训练有图像分类模型，请参照图3，该图像分类模型由两部分组成，分别为特征提取模块和分类模块。其中，特征提取模块用于对图像进行特征提取，分类模块用于基于提取到的特征对图像进行分类。

应当说明的是，特征提取模块包括依次连接的多个ShuffleNet v2单元，且ShuffleNet v2单元采用Leaky ReLu函数作为激活函数。

其中，本申请对组成特征提取模块的ShuffleNet v2单元数量不做具体限制，可由本领域普通技术人员根据实际需要进行设置。比如，本申请中特征提取模块包括依次；连接的16个ShuffleNet v2单元。

应当说明的是，激活函数是在激活神经网络中某一部分神经元运行时，将激活后的信息向后传入下一层，它具有非线性、可微和单调性。传统的ShuffleNet v2单元采用ReLU函数作为激活函数，虽然ReLU函数通过增加神经网络结构各层之间的非线性映射，能够有效的避免过拟合，但是对于深层网络，采用传统的ReLU函数会使一部分神经元的输出为0，缓解了过拟合问题的发生。但是，如果后层的某一个梯度特别大，导致更新后权重变大，造成该层的输入小于0，如果输入小于0，那么输出为0，这时该层就会出现“死亡”现象。为此，本申请中将ShuffleNet v2单元中ReLU函数替换为Leaky ReLU函数，采用Leaky ReLU函数作为激活函数，Leaky ReLU在修正了数据分布的同时又保留了一些负轴的值，使得负轴信息不会全部丢失，不仅可以避免梯度消失问题，又可以解决神经元“死亡”现象的问题。

在103中，基于多个ShuffleNet v2单元逐层对目标图像进行特征提取，得到目标图像的图像特征。

比如，假设特征提取模块包括N个ShuffleNet v2单元，在对目标图像进行特征提取时，电子设备首先基于第1个ShuffleNet v2单元对目标图像进行卷积计算，得到第1个卷积结果，然后基于第2个ShuffleNet v2单元对第1个卷积结果进行卷积计算，得到第2个卷积结果，以此类推，直至基于第N个ShuffleNet v2单元对第N-1个卷积结果进行卷积计算，得到第N个卷积结果，将第N个卷积结果作为提取到的目标图像的图像特征。

在104中，基于分类模块对图像特征进行分类预测，得到目标图像的预测类别。

示例性的，分类模块可以采用Softmax分类器，则分类模块的输出实际为[0,1]之间的数值。

比如，假设图像分类模型在训练时定义了8个类别，则图像分类模型的输出为{P1、P2、P3、P4、P5、P6、P7、P8}，其中P1到P8均位于[0,1]，可以将其看做是对应图像类别的概率。换言之，对于任一目标图像，图像分类模型输出的是该目标图像为某一类别的概率。

相应的，对应任一目标图像，电子设备可以确定出各类别中对应概率最高且达到预设概率的类别，作为该目标图像的预测类别，此外，若各类别的概率均未达到预设概率，则电子设备将该目标图像的类别标记为“其它”。

其中，预设概率可由本领域普通技术人员根据实际需要取经验值，比如，本申请实施例中将预设概率配置为51％。

如上所述，假设图像分类模型训练时定义了八个类别，则电子设备最终分类得到预测类别除了包括定义的八个类别之外，还包括类别“其它”，共九个类别。

由上可知，本申请首先确定需要进行图像分类的目标图像，然后调用预训练的图像分类模型，该图像分类模型包括特征提取模块和分类模块，其中特征提取模块包括依次连接的多个ShuffleNet v2单元，ShuffleNet v2单元采用Leaky ReLu函数作为激活函数，利用基于多个ShuffleNet v2单元逐层对目标图像进行特征提取，得到目标图像的图像特征，最后基于分类模块对图像特征进行分类预测，得到目标图像的预测类别。相较于相关技术，无需用户手动对电子设备上的图像进行分类，能够有效提高电子设备进行图像分类的效率。

在一实施例中，确定需要进行图像分类的目标图像，包括：

当到达图像分类周期时，将图像分类周期内新增的图像作为目标图像。

本申请实施例中，电子设备在到达图像分类周期时，触发确定需要进行图像分类的目标图像。其中，电子设备可以直接将该图像分类周期内新增的图像作为目标图像。比如，在一个图像分类周期内，电子设备新增了20个图像，则电子设备将这20个图像作为需要进行图像分类的目标图像。

在一实施方式中，“确定需要进行图像分类的目标图像”，包括：

将预设储存路径下的图像确定为目标图像；或者，

将预设图像格式的图像确定为目标图像；或者，

将预设储存路径下的预设图像格式的图像确定为目标图像。

其中，本申请实施例对于预设存储路径以及预设图像格式的设置不做具体限定，可由电子设备根据用户输入进行设置，也可由电子设备的生产厂商对电子设备进行缺省设置。需要说明的是，预设存储路径可以配置为一个，也可以配置为多个，相应的，预设图像格式可以配置为一个，也可以配置为多个。

比如，假设用户需要电子设备对拍摄得到的图像进行分类，则可以将预设存储路径配置为电子设备拍摄图像的存储路径，示例性的，若电子设备基于安卓系统，则将预设存储路径配置为“/storage/0/DCIM”，这样，电子设备将把/storage/0/DCIM对应的文件目录“DCIM”中的所有图像确定为需要进行图像分类的目标图像。

又比如，假设用户需要电子设备对某图像格式的图像进行分类，则可以将预设图像格式配置为用户指定的图像格式，示例性的，若用户需要电子设备对“JPG”格式的图像进行分类，则将预设图像格式配置为“JPG”格式，这样，电子设备将把本地所有“JPG”格式的图像确定为需要进行图像分类的目标图像。

又比如，假设用户需要电子设备对拍摄得到的某种图像格式的图像进行分类，则可以将预设存储路径配置为电子设备拍摄图像的存储路径，将预设图像格式配置为用户指定的图像格式，示例性的，若电子设备基于安卓系统，则将预设存储路径配置为“/storage/0/DCIM”，此外，若用户需要电子设备的拍摄得到的“JPG”格式的图像进行分类，则将预设图像格式配置为“JPG”格式，这样，电子设备将把/storage/0/DCIM对应的文件目录“DCIM”中的所有“JPG”格式的图像确定为需要进行图像分类的目标图像。

在一实施例中，图像分类模型还包括降维模块，基于分类模块对图像特征进行分类预测，得到目标图像的预测类别之前，还包括：

基于降维模块对图像特征进行特征降维，得到降维后的图像特征；

基于分类模块对图像特征进行分类预测，得到目标图像的预测类别，包括：

基于分类模块对降维后的图像特征进行分类预测，得到目标图像的预测类别。

请参照图4，本申请提供的图像分类模型还包括降维模块，该降维模块可以为池化层。如图4所示，该降维模块一端与特征提取模块连接，另一端与分类模块连接。

本申请实施例中，电子设备基于特征提取模块提取到目标图像的图像特征之后，并不直接将该图像特征输入分类模块进行分类，而是先将该图像特征输入降维模块，基于降维模块对图像特征进行降维处理得到降维后的图像特征，再将降维后的图像特征输入分类模块，从而基于分类模块对降维后的图像特征进行分类预测，相应得到目标图像的分类类别。

在一实施例中，基于分类模块对图像特征进行分类预测，得到目标图像的预测类别之后，还包括：

根据预测类别为目标图像分配存储路径，并将目标图像存储至储存路径中。

本申请实施例中，为了便于用户浏览图像，电子设备还根据对目标图像进行细粒度分类得到的细粒度类别，对目标图像进行分类存储。

其中，电子设备可以为每一细粒度类别分配一储存路径，并将对应的目标图像存储至分配的存储路径中。比如，若目标图像被分类为九个类别，则电子设备将对应分配九个不同的储存路径，分别用于存储对应类别的目标图像。

在一实施例中，“将目标图像存储至分配储存路径中”之后，还包括：

接收图像浏览应用的启动请求；

根据接收到的启动请求启动图像浏览应用，并在图像浏览应用的应用界面中显示对应不同储存路径的文件夹，文件夹包括其对应的储存路径中所存储的目标图像。

其中，图像浏览应用可以为电子设备的系统类图像浏览应用，也可以为第三方图像浏览应用，示例性的，图像浏览应用可以为电子设备的系统应用“图库”、“相册”，等等。

本申请实施例中，电子设备可以接收图像浏览应用的启动请求，并根据接收到的启动请求启动图像浏览应用，并在图像浏览应用的应用界面中显示对应不同储存路径的文件夹，文件夹包括其对应的储存路径中所存储的目标图像。

比如，请参照图5，电子设备的界面中显示有多个不同应用的应用入口，包括“相机”应用入口、“时钟”应用入口、“电话”应用入口、“联系人”应用入口、“图库”应用入口以及“信息”应用入口，用户可以点击图库应用入口，来向电子设备输入图像浏览应用“图库”的启动请求。相应的，电子设备根据对“图库”的启动请求，启动图库，并在图库的应用界面中显示对应储存路径A的文件夹A、对应储存路径B的文件夹B以及对应储存路径C的文件夹C，其中，储存路径A对应分类得到图像类别“类别A”，储存路径B对应分类得到的图像类别“类别B”，存储路径C对应分类得到的图像类别“类别C”等，如图5所示，在图库的应用界面还显示有对应文件夹A的图像类别“类别A”以及其中的图像数量“5”，还显示有对应文件夹B的图像类别“类别B”以及其中的图像数量“27”，还显示有对应文件夹C的图像类别“类别C”以及其中的图像数量“89”。

在一实施例中，将目标图像存储至分配储存路径中之后，还包括：

对于每一储存路径中的目标图像，获取用户浏览各目标图像的浏览行为数据，以及获取各目标图像的创建时长；

对各目标图像的浏览行为数据和创建时长进行加权求和，得到各目标图像的加权和值；

根据各目标图像的加权和值对各目标图像进行排序。

本申请实施例中，在对目标图像进行分类之后，还对每一类的目标图像(即每一储存路径下的目标图像)进行排序。

其中，浏览行为数据包括描述用户浏览行为的相关数据，比如，浏览行为数据包括用户浏览目标图像的次数，以及用户每次浏览目标图像的打开时刻和关闭时刻，等等。

电子设备除了获取用户浏览各目标图像的浏览行为数据之外，还获取各目标图像的创建时长。其中，创建时长为当前时刻与目标图像的生成时刻的差值。

需要说明的是，上述当前时刻并不特指某一时刻，而是代指电子设备执行“获取各目标图像的创建时长”这一操作的时刻。此外，本申请实施例对目标图像的生成方式不做具体限制，比如，某目标图像为电子设备通过拍摄的方式生成，则该目标图像的生成时刻即为电子设备拍摄得到该目标图像的拍摄时刻；又比如，某目标图像为电子设备通过互联网下载的方式生成，则该目标图像的生成时刻即为电子设备通过互联网下载得到该目标图像的下载时刻，等等。

本申请实施例中，电子设备在获取到各目标图像的浏览行为数据以及创建时长之后，根据预设的加权求和算法对获取到的浏览行为数据和创建时长进行加权求和，得到对应各目标图像的加权和值。

其中，浏览行为数据能够反映用户浏览行为的特征，而创建时长则为图像自身的特征，电子设备对获取到的浏览行为数据和创建时长进行加权求和的目的在于：结合目标图像的自身特征以及图像之外的用户特征对目标图像进行综合评价，这样，加权求和得到加权和值也即是对目标图像进行综合评价所得到的“评分”，这个评分的高低也就反映了目标图像可能被用户浏览的概率大小。

本申请实施例中，电子设备在得到各目标图像的加权和值之后，根据加权和值由大至小的顺序进行排序。

在一实施例中，对各目标图像的浏览行为数据和创建时长进行加权求和，得到各目标图像的加权和值，包括：

根据各目标图像的浏览行为数据，获取各目标图像的浏览次数以及每次浏览时的浏览时长；

根据各目标图像的浏览次数以及每次浏览时的浏览时长，获取各目标图像的平均浏览时长；

对各目标图像的浏览次数、平均浏览时长以及创建时长进行归一化处理；

对各目标图像归一化后的浏览次数、平均浏览时长以及创建时长进行加权求和，得到各目标图像的加权和值。

本申请实施例中，电子设备在目标图像被用户浏览时，记录用户浏览该目标图像的浏览行为数据，其中，该浏览行为数据包括但不限于用户浏览该目标图像的次数，以及用户每次浏览该目标图像的打开时刻和关闭时刻，等等。

由此，电子设备在对各目标图像的浏览行为数据和创建时长进行加权求和时，可以直接从各目标图像的浏览行为数据中提取出各目标图像的浏览次数(即用户浏览目标图像的次数)，并根据各目标图像的浏览行为数据中“用户每次浏览目标图像的打开时刻和关闭时刻”，得到各目标图像每次浏览时的浏览时长。

电子设备在获取到各目标图像的浏览次数以及每次浏览时的浏览时长之后，进一步根据各目标图像的浏览次数以及每次浏览时的浏览时长，计算得到各目标图像的平均浏览时长。需要说明的是，本领域普通技术人员可以理解的是，此处所指平均浏览时长为单一目标图像的平均浏览时长，而不是多个目标图像的平均浏览时长。

此外，本申请实施例中，对于浏览次数、平均浏览时长以及创建时长这三种数据，分别预先分配有对应的权重值，但对于浏览次数、平均浏览时长以及创建时长各自对应权重值的取值不做具体限定，可由本领域普通技术人员根据实际需要进行设置。比如，可以设置浏览次数对应的权重值为0.3，设置平均浏览时长对应的权重值为0.2，设置创建时长对应的权重值为0.5。

为了提升加权求和的效率，电子设备在对各目标图像的浏览次数、平均浏览时长以及创建时长进行加权求和时，首先对各目标图像的浏览次数、平均浏览时长以及创建时长进行归一化处理，将各目标图像的浏览次数、平均浏览时长以及创建时长归一化到同一数值区间内。

然后，电子设备再根据预设的加权求和算法对各目标图像归一化后的浏览次数、平均浏览时长以及创建时长进行加权求和，得到对应各目标图像的加权和值。

在一实施例中，确定需要进行图像分类的目标图像之前，还包括：

调用TensorFlow框架，基于TensorFlow框架构建图像分类模型；

获取样本图像，并根据样本图像对图像分类模型进行训练，直至满足预设训练停止条件。

本申请实施例提供一可选的训练图像分类模型的方案。

其中，电子设备安装有TensorFlow框架，电子设备首先调用TensorFlow框架并利用TensorFlow框架中“tf.keras.Model”来实现ShuffleNet v2单元，从而构建以上实施例中提及的图像分类模型。

可以理解的是，按照不同分类规则，对于同一图像存在不同的分类类别。本申请实施例中，可由本领域普通技术人员根据实际需要选取分类规则，包括但不限于按照图像的内容、拍摄时间、拍摄地点等。比如，本申请实施例中基于图像的内容进行分类。

其中，预先定义对图像分类的类别，具体可由本领域普通技术人员根据实际需要进行定义，比如，本申请实施例中按图像内容定义图像分类的类别为“文本”、“美食”、“自拍”、“风景”、“衣服”、“鞋子”，“建筑”以及“动物”这八大类，。

其中，对于学生和工作人群，经常会拍摄黑板或者演示文稿等包含大量文字信息的内容，“文本”类别主要针对这一类目标用户；随着旅游、餐饮等服务行业的发展，美食和风景经常是用户拍摄的首选，因此增加“美食”和“风景”这两种类别；对于一些年轻人来说，尤其是年轻女性，喜欢自拍并分享到朋友圈，增加“自拍”这一类别；此外，随着电子商务的发展使得以图搜图的功能顺势而生，因此衣服和鞋子是搜图的两个重要类目，并且衣服和鞋子也是网购的热点，因此加入“衣服”和“鞋子”这两种类别。

本申请实施例中，还根据预先定义的图像分类的类别，获取这些已知类别的样本图像。

示例性的，请参照图6，对于其中一部分已知类别的样本图像，可以预先从ImageNet数据集中获取，并存储在电子设备中；对于另一部分已知类别的样本图像，可以从网络采集或者通过爬虫技术从网络上自动采集得到，并存储在电子设备上。比如，“文本”、“风景”以及“建筑”类别的样本图像是从网络手动采集得到的，“自拍”、“美食”、“衣服”、“鞋子”类别的样本图像是通过爬虫技术从网络上自动采集得到的，而“动物”类别的样本图像则是从ImageNet数据集中抽取的。由此，当电子设备需要获取已知类别的样本图像时，可以直接从本地的存储空间中获取到这些已知类别的样本图像。比如，对于每一已知类别的样本图像，电子设备均获取3000个。

在获取到样本图像之后，电子设备即可根据样本图像对图像分类模型进行训练，直至满足预设训练停止条件。

其中，电子设备将样本图像输入构建的卷积神经网络中进行分类预测，得到样本图像的预测类别，然后，根据预测类别与已知类别之间的差异，对图像分类模型的参数进行调整，直至满足预设训练停止条件。

应当说明的是，电子设备在构建基于ShuffleNet v2单元的图像分类模型的同时，还构建对应该图像分类模型的损失函数，具体可由本领域普通技术人员根据实际需要预先设置电子设备构建损失函数的类型，比如，本申请实施例中采用交叉熵损失函数。

相应的，电子设备在得到样本图像的预测类别之后，将预测类别以及样本图像对应的已知类别带入损失函数计算得到损失值，作为预测类别与已知类别之间的差异。

在得到样本图像的预测类别与其已知类别之间的差异之后，电子设备即可根据该差异对图像分类模型的参数进行调整，也即是求解损失函数的最小值。其中，电子设备利用梯度下降算法来迭代图像分类模型的参数，从而得到最小化的损失值和对应的模型参数值。

其中，对于采用何种梯度下降算法，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要选择。示例性的，本申请实施例中采用Adam梯度下降算法来求解损失函数，相应的，还预先设置对应的批次大小，该批次大小用于描述迭代一次参数所需的样本图像的数量，可由本领域普通技术人员根据实际需要进行设置，比如，本申请实施例中设置批次大小为64。

应当说明的是，预设训练停止条件用于描述在合适停止对构建的图像分类模型的训练，可由本领域普通技术人员根据实际需要进行设置。比如，可以设置预设训练停止条件为：对构建的图像分类模型的参数迭代参数达到预设迭代参数(可由本领域普通技术人员根据实际需要取经验值，比如90)；还可以设置预设训练停止条件为：样本图像的损失值小于预设损失值(可由本领域普通技术人员根据实际需要取经验值)。

相应的，电子设备在每次调整图像分类模型的参数后，即判断是否满足预设训练停止条件，若不满足则继续将样本图像输入图像分类模型中进行训练，直至满足预设训练停止条件。

当满足预设训练停止条件时，电子设备停止对图像分类模型的训练，判定该图像分类模型能够准确的对图像进行分类。

可选的，请参照图7，本申请实施例中，在对构建的图像分类模型进行训练时，电子设备并不利用所有获取到的样本图像来对构建的图像分类模型进行训练。

其中，电子设备首先按照预设划分比例将获取到的样本图像划分为两部分，一部分用于对构建的图像分类模型进行训练，记为训练样本图像，另一部分用于对满足预设训练停止条件的图像分类模型进行测试，记为测试样本图像。其中，预设划分比例可由本领域普通技术人员根据实际需要进行设置，比如，本申请实施例中将预设划分比例配置为8:2，即将所有的样本图像中的80％作为训练样本图像，将另外20％作为测试样本图像。

在完成训练样本图像和测试样本图像的划分之后，电子设备将训练样本图像输入构建的图像分类模型进行分类预测，对该图像分类模型进行训练，直至满足预设训练停止条件，具体可参照以上实施例中的相关描述，此处不再赘述。

在利用训练样本图像训练得到满足预设训练条件的图像分类模型后，电子设备将测试样本图像输入满足预设训练停止条件的图像分类模型进行分类预测，得到对应测试样本图像的预测类别；当测试样本图像的预测类别与其对应的已知类别不一致时，根据测试样本图像的预测类别与其对应的已知类别之间的差异再次对图像分类模型的参数进行调整，直至满足预设调整停止条件。其中，对于如何根据测试样本图像的预测类别与其对应的已知类别之间的差异再次对图像分类模型的参数进行调整，具体可参照以上训练过程中的参数调整方式相应实施，此处不再赘述。

其中，预设调整停止条件可由本领域普通技术人员根据实际需要进行设置，比如，可以设置预设调整停止条件为：对满足预设训练停止条件的图像分类模型的参数调整参数达到预设次数(可由本领域普通技术人员根据实际需要进行取经验值，比如取值为10)；还可以设置预设调整停止条件为：满足预设训练停止条件的图像分类模型的预测准确率达到预设准确率(可由本领域普通技术人员根据实际需要进行取经验值，比如取值为90％)。

在满足预设调整停止条件时，电子设备停止对图像分类模型的训练。

在一实施例中，根据样本图像对图像分类模型进行训练之前，还包括：

利用ImageNet数据集对图像分类模型进行预训练，得到预训练后的图像分类模型；

根据样本图像对图像分类模型进行训练，包括：

根据样本图像对预训练后的图像分类模型进行训练。

本申请实施例中，为了提高对构建的图像分类模型的训练效率，在开始对图像分类模型进行训练之前，电子设备还利用ImageNet数据集对图像分类模型进行预训练，也即是对构建的图像分类模型进行粗粒度的训练。

在完成对图像分类模型的预训练之后，电子设备即可将样本图像输入预训练后的图像分类模型进行分类预测，对该图像分类模型进行细粒度训练，得到图像分类模型，具体可参照以上实施例中的相关描述，此处不再赘述。

在一实施例中，根据样本图像对预训练后的图像分类模型进行训练，包括：

对样本图像进行预处理，得到预处理后的样本图像；

根据预处理后的样本图像对预训练后的图像分类模型进行训练。

本申请实施例中，对样本图像的预处理包括但不限于样本扩充处理和归一化处理。

比如，以某样本图像A为例，电子设备可以通过如下方式来进行样本扩充：

(1)对样本图像A按照预设方向进行翻转，比如水平翻转或垂直翻转等，将翻转后的样本图像A作为新的样本图像；

(2)对样本图像A按照预设方向进行旋转，将旋转后的样本图像A作为新的样本图像；

(3)对样本图像A按比例进行放大，然后从中裁剪除样本图像A相同大小的部分作为新的的样本图像；

(4)对样本图像A进行随机裁剪，将裁剪部分调整为与样本图像A大小相同，作为新的样本图像；

(5)对样本图像A进行平移，将平移后的样本图像A作为新的样本图像；

(6)为样本图像A添加随机噪声，将添加随机噪声后的样本图像A作为新的样本图像。

此外，电子设备在对样本图像进行归一化处理时，包括但不限于对样本图像的尺度和像素值进行归一化。比如，将样本图像的像素值由[0,255]归一化至[0,1]区间内。

请参照图8，本申请还提供一种模型训练方法，该模型训练方法的流程可以如下：

在201中，获取已知类别的样本图像。

本申请实施例中，首先根据预先定义的图像分类的类别，获取这些已知类别的样本图像。

在202中，构建基于ShuffleNet v2单元的卷积神经网络，并将样本图像输入卷积神经网络进行分类预测，得到样本图像的预测类别。

本申请实施例中，电子设备还构建基于ShuffleNet v2单元的卷积神经网络，作为模型训练的基础模型。其中，Shufflenet V2网络结构借鉴了Xception网络结构的深度可分离卷积操作(先进行通道的空间卷积，再进行1*1卷积)，在原来的基础上修改了深度可分离卷积，提出使用逐点分组卷积来的代替原来的结构，然后再进行通道混合。比如，电子设备构建采用了16个ShuffleNet v2单元的卷积神经网络。

在构建得到基于ShuffleNet v2单元的卷积神经网络之后，电子设备将样本图像输入构建的卷积神经网络中进行分类预测，得到样本图像的预测类别。

比如，构建的卷积神经网络采用Softmax分类器作为输出层，样本图像在输入卷积神经网络后，首先对数据集进行卷积运算，提取图像特征，形成特征图。之后再通过Shufflenet V2单元特有的逐点分组卷积运算和通道混合操作向后传播，经过若干卷积层和池化层后，使得Softmax分类器逼近到网络从而得到预测类别。

在203中，根据预测类别与已知类别之间的差异，对卷积神经网络的参数进行调整，直至满足预设训练停止条件。

应当说明的是，电子设备在构建基于ShuffleNet v2单元的卷积神经网络的同时，还构建对应该卷积神经网络的损失函数，具体可由本领域普通技术人员根据实际需要预先设置电子设备构建损失函数的类型，比如，本申请实施例中采用交叉熵损失函数。

在得到样本图像的预测类别与其已知类别之间的差异之后，电子设备即可根据该差异对卷积神经网络的参数进行调整，也即是求解损失函数的最小值。其中，电子设备利用梯度下降算法来迭代卷积神经网络的参数，从而得到最小化的损失值和对应的模型参数值。

应当说明的是，预设训练停止条件用于描述在合适停止对构建的卷积神经网络的训练，可由本领域普通技术人员根据实际需要进行设置。比如，可以设置预设训练停止条件为：对构建的卷积神经网络的参数迭代参数达到预设迭代参数(可由本领域普通技术人员根据实际需要取经验值，比如90)；还可以设置预设训练停止条件为：样本图像的损失值小于预设损失值(可由本领域普通技术人员根据实际需要取经验值)。

相应的，电子设备在每次调整卷积神经网络的参数后，即判断是否满足预设训练停止条件，若不满足则继续将样本图像输入卷积神经网络中进行训练，直至满足预设训练停止条件。

在204中，将满足预设训练停止条件的卷积神经网络作为用于图像分类的图像分类模型。

在构建的卷积神经网络满足预设训练停止条件时，电子设备判定此时的卷积神经网络能够准确的对图像进行分类，将满足预设训练停止条件的卷积神经网络作为用于图像分类的图像分类模型。之后，电子设备即可在需要对图像进行分类时，利用该图像分类模型对需要分类的图像进行分类。

在一实施例中，构建基于ShuffleNet v2单元的卷积神经网络，包括：

利用TensorFlow框架构建基于ShuffleNet v2单元的卷积神经网络，卷积神经网络采用Leaky ReLu函数作为激活函数。

其中，电子设备安装有TensorFlow框架，在构建基于ShuffleNet v2单元的卷积神经网络时，电子设备可以利用TensorFlow框架中“tf.keras.Model”来实现ShuffleNet v2单元，从而构建基于ShuffleNet v2单元的卷积神经网络。

在一实施例中，还提供一种图像分类装置。请参照图9，图8为本申请实施例提供的图像分类装置的结构示意图。其中该图像分类装置应用于电子设备，该图像分类装置包括图像确定组件301、模型调用组件302、特征提取组件303以及图像分类组件304，如下：

图像确定组件301，用于确定需要进行图像分类的目标图像；

模型调用组件302，用于调用预训练的图像分类模型，图像分类模型包括特征提取模块和分类模块，特征提取模块包括依次连接的多个ShuffleNet v2单元，ShuffleNet v2单元采用Leaky ReLu函数作为激活函数；

特征提取组件303，用于基于多个ShuffleNet v2单元逐层对目标图像进行特征提取，得到目标图像的图像特征；

图像分类组件304，用于基于分类模块对图像特征进行分类预测，得到目标图像的预测类别。

在一实施例中，在确定需要进行图像分类的目标图像时，图像确定组件301用于：

在一实施例中，图像分类模型还包括降维模块，在基于分类模块对图像特征进行分类预测，得到目标图像的预测类别之前，图像分类组件304还用于：

在基于分类模块对图像特征进行分类预测，得到目标图像的预测类别时，图像分类组件304用于：

在一实施例中，在基于分类模块对图像特征进行分类预测，得到目标图像的预测类别之后，图像分类组件304还用于：

在一实施例中，本申请提供的图像分类装置还包括模型训练组件，在确定需要进行图像分类的目标图像之前，用于：

调用TensorFlow框架，基于TensorFlow框架构建图像分类模型；

在一实施例中，在根据样本图像对图像分类模型进行训练之前，模型训练组件还用于：

在根据样本图像对图像分类模型进行训练时，模型训练组件用于：

根据样本图像对预训练后的图像分类模型进行训练。

在一实施例中，在根据样本图像对预训练后的图像分类模型进行训练时，模型训练组件用于：

对样本图像进行预处理，得到预处理后的样本图像；

应当说明的是，本申请实施例提供的图像分类装置与上文实施例中的图像分类方法属于同一构思，在图像分类装置上可以运行图像分类方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图10，电子设备包括处理器501和存储器502。

本申请实施例中的处理器501是通用处理器，比如ARM架构的处理器。

存储器502中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502中计算机程序的访问，执行以上实施例提供的模型训练方法，比如：

获取已知类别的样本图像；

构建基于ShuffleNet v2单元的卷积神经网络，并将样本图像输入卷积神经网络进行分类预测，得到样本图像的预测类别；

根据预测类别与已知类别之间的差异，对卷积神经网络的参数进行调整，直至满足预设训练停止条件；

将满足预设训练停止条件的卷积神经网络作为用于图像分类的图像分类模型。

或者，执行以上实施例提供的图像分类方法，比如：

确定需要进行图像分类的目标图像；

调用预训练的图像分类模型，图像分类模型包括特征提取模块和分类模块，特征提取模块包括依次连接的多个ShuffleNet v2单元，ShuffleNet v2单元采用Leaky ReLu函数作为激活函数；

基于多个ShuffleNet v2单元逐层对目标图像进行特征提取，得到目标图像的图像特征；

基于分类模块对图像特征进行分类预测，得到目标图像的预测类别。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的模型训练方法/图像分类方法属于同一构思，在电子设备上可以运行模型训练方法/图像分类方法实施例中提供的任一方法，其具体实现过程详见模型训练方法/图像分类方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的模型训练方法/图像分类方法而言，本领域普通技术人员可以理解实现本申请实施例的模型训练方法/图像分类方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器执行，在执行过程中可包括如模型训练方法/图像分类方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种图像分类方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像分类方法，其特征在于，包括：

确定需要进行图像分类的目标图像；

2.根据权利要求1所述的图像分类方法，其特征在于，所述确定需要进行图像分类的目标图像，包括：

当到达图像分类周期时，将所述图像分类周期内新增的图像作为所述目标图像。

3.根据权利要求1所述的图像分类方法，其特征在于，所述图像分类模型还包括降维模块，所述基于所述分类模块对所述图像特征进行分类预测，得到所述目标图像的预测类别之前，还包括：

基于所述降维模块对所述图像特征进行特征降维，得到降维后的图像特征；

所述基于所述分类模块对所述图像特征进行分类预测，得到所述目标图像的预测类别，包括：

基于所述分类模块对所述降维后的图像特征进行分类预测，得到所述目标图像的预测类别。

4.根据权利要求1所述的图像分类方法，其特征在于，所述基于所述分类模块对所述图像特征进行分类预测，得到所述目标图像的预测类别之后，还包括：

根据所述预测类别为所述目标图像分配存储路径，并将所述目标图像存储至所述储存路径中。

5.根据权利要求1所述的图像分类方法，其特征在于，所述确定需要进行图像分类的目标图像之前，还包括：

调用TensorFlow框架，基于所述TensorFlow框架构建所述图像分类模型；

获取样本图像，并根据所述样本图像对所述图像分类模型进行训练，直至满足预设训练停止条件。

6.根据权利要求5所述的图像分类方法，其特征在于，所述根据所述样本图像对所述图像分类模型进行训练之前，还包括：

利用ImageNet数据集对所述图像分类模型进行预训练，得到预训练后的图像分类模型；

所述根据所述样本图像对所述图像分类模型进行训练，包括：

根据所述样本图像对所述预训练后的图像分类模型进行训练。

7.根据权利要求6所述的图像分类方法，其特征在于，所述根据所述样本图像对所述预训练后的图像分类模型进行训练，包括：

对所述样本图像进行预处理，得到预处理后的样本图像；

根据所述预处理后的样本图像对所述预训练后的图像分类模型进行训练。

8.一种图像分类装置，其特征在于，包括：

图像确定组件，用于确定需要进行图像分类的目标图像；

9.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1至7任一项所述的图像分类方法。

10.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1至7任一项所述的图像分类方法。