CN115035353B

CN115035353B - 图像分类方法、图像分类模型、智能终端及存储介质

Info

Publication number: CN115035353B
Application number: CN202210961080.1A
Authority: CN
Inventors: 齐宪标; 陈意浩; 王佳楠; 石喻凯; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-12-23
Anticipated expiration: 2042-08-11
Also published as: CN115035353A

Abstract

本发明公开了图像分类方法、图像分类模型、智能终端及存储介质，其中，上述方法包括：获取待分类图像；获取预先训练好的图像分类模型，基于上述预先训练好的图像分类模型对上述待分类图像进行图像分类并输出分类结果，其中，上述图像分类模型在进行图像分类的过程中所对应的操作函数是满足利普希茨连续条件的函数，且上述图像分类模型在预先训练时直接使用预设的目标学习率开始训练，上述预设的目标学习率在1×

到1×

的范围之内。与现有技术中相比，本发明中的图像分类方法所使用的图像分类模型不需要进行学习率预热，在进行图像分类时可以减少训练时间，有利于提高模型训练和进行图像分类的效率。

Description

图像分类方法、图像分类模型、智能终端及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及的是一种图像分类方法、图像分类模型、智能终端及存储介质。

背景技术

随着科学技术的发展，基于计算机视觉的图像处理、图像分类等技术的应用越来越广泛，图像分类是计算机视觉中的一个重要基础任务。目前，可以采用视觉基础模型（ViT，Vision Transformer）执行图像分类等任务。

现有技术中，通常直接采用ViT模型进行图像分类，在进行图像分类过程中，需要先对所采用的如ViT模型进行预先训练。现有技术的问题在于，ViT模型在训练过程中需要先进行学习率预热才能保障模型的稳定训练。即在训练开始时先使用一个较小的学习率进行训练，等模型稳定时才修改为想要的目标学习率进行训练，因此进行图像分类时需要先耗费较多的训练时间，不利于提高模型训练和进行图像分类的效率。

因此，现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种图像分类方法、图像分类模型、智能终端及存储介质，旨在解决现有技术中进行图像分类时图像分类模型预训练过程中进行学习率预热不利于提高图像分类的效率的问题。

为了实现上述目的，本发明第一方面提供一种图像分类方法，其中，上述图像分类方法包括：

获取待分类图像；

获取预先训练好的图像分类模型，基于上述预先训练好的图像分类模型对上述待分类图像进行图像分类并输出分类结果，其中，上述图像分类模型在进行图像分类的过程中所对应的操作函数是满足利普希茨连续条件的函数，且上述图像分类模型在预先训练时直接使用预设的目标学习率开始训练，上述预设的目标学习率在1×

到1×

的范围之内。

可选的，上述图像分类模型包括特征提取模块和特征分类模块；

上述特征提取模块用于对输入的上述待分类图像进行特征提取并将提取获得的目标特征输出到上述特征分类模块，其中，上述特征提取模块所对应的操作函数满足利普希茨连续条件；

上述特征分类模块用于根据上述目标特征进行图像分类获得上述待分类图像对应的目标类别，将上述目标类别作为上述分类结果并输出。

可选的，上述特征提取模块包括一个或多个串联的特征提取子模块；

当上述特征提取模块包括多个串联的特征提取子模块时，各上述特征提取子模块分别包括一个图块合并单元和一个利普希茨特征提取单元，上述图块合并单元用于对该特征提取子模块的输入数据进行降维处理获得降维数据，上述利普希茨特征提取单元用于对上述降维数据进行特征提取以获得该特征提取子模块的输出数据并输出；

第i个特征提取子模块的输入数据是第i-1个特征提取子模块的输出数据，i为大于1的整数，第1个特征提取子模块的输入数据是上述待分类图像，上述目标特征是最后一个特征提取子模块的输出数据；

上述利普希茨特征提取单元所对应的操作函数是满足利普希茨连续条件的函数。

可选的，上述利普希茨特征提取单元包括依次连接的卷积子单元、自注意力子单元和前向多层感知器子单元，上述卷积子单元、上述自注意力子单元和上述前向多层感知器子单元所对应的操作函数都是满足利普希茨连续条件的函数；

其中，各上述操作函数中分别包括一个用于控制该操作函数对应的输出值变化幅度的模型参数，各上述操作函数分别使用一个概率函数生成概率值来确定是否保留该操作函数对应的模型参数的值。

可选的，上述卷积子单元所对应的操作函数为

，其中，

代表上述卷积子单元所对应的操作函数的第一分支，当第一概率值满足预设的第一概率条件时上述第一分支的第一模型参数

保留，否则上述第一分支的第一模型参数

不保留，上述第一概率值是根据第一概率函数计算获得的概率值，上述第一概率函数是预先设置的与上述卷积子单元对应的DropPath函数，

是上述卷积子单元的输出数据，

是上述卷积子单元的输入数据，⊙代表逐点相乘，Convs是预先设置的一组卷积函数，

是上述卷积子单元对应的第一预设矩阵，

是上述图像分类模型经过预先训练确定的第一模型参数；

上述自注意力子单元所对应的操作函数为

，其中，

代表上述自注意力子单元所对应的操作函数的第二分支，当第二概率值满足预设的第二概率条件时上述第二分支的第二模型参数

保留，否则上述第二分支的第二模型参数

不保留，上述第二概率值是根据第二概率函数计算获得的概率值，上述第二概率函数是预先设置的与上述自注意力子单元对应的DropPath函数，

是上述自注意力子单元的输出数据，

是上述自注意力子单元的输入数据，SelfAttention是预先设置的自注意力函数，

是上述自注意力子单元对应的第二预设矩阵，

是上述图像分类模型经过预先训练确定的第二模型参数；

上述前向多层感知器子单元所对应的操作函数为

，其中，

代表上述前向多层感知器子单元所对应的操作函数的第三分支，当第三概率值满足预设的第三概率条件时上述第三分支的第三模型参数

保留，否则上述第三分支的第三模型参数

不保留，上述第三概率值是根据第三概率函数计算获得的概率值，上述第三概率函数是预先设置的与上述前向多层感知器子单元对应的DropPath函数，

是上述前向多层感知器子单元的输出数据，

是上述前向多层感知器子单元的输入数据，FeedForward是预先设置的自注意力函数，

是上述前向多层感知器子单元对应的第三预设矩阵，

是上述图像分类模型经过预先训练确定的第三模型参数。

可选的，上述利普希茨特征提取单元还包括两个中心归一化子单元，一个上述中心归一化子单元设置于上述自注意力子单元和上述前向多层感知器子单元之间，另一个上述中心归一化子单元设置于上述自注意力子单元之后，上述中心归一化子单元用于根据其预设的操作函数对输入该中心归一化子单元的数据的值进行中心归一化处理后输出，且上述中心归一化子单元的操作函数满足利普希茨连续条件。

可选的，上述图像分类模型通过如下步骤进行预先训练：

将训练数据中的训练图像输入图像分类模型，通过上述图像分类模型对上述训练图像进行图像分类并获取上述训练图像对应的分类物体类别，其中，上述训练数据包括多组训练图像数据组，每一组训练图像数据组包括训练图像及其对应的标注物体类别；

根据上述训练图像对应的标注物体类别和上述训练图像对应的分类物体类别，对上述图像分类模型的模型参数进行调整，并继续执行上述将训练数据中的训练图像输入图像分类模型的步骤，直至满足预设训练条件，以得到训练好的图像分类模型。

本发明第二方面提供一种图像分类模型，其中，上述图像分类模型包括：

特征提取模块和特征分类模块；

上述特征提取模块用于对输入的待分类图像进行特征提取并将提取获得的目标特征输出到上述特征分类模块，其中，上述特征提取模块所对应的操作函数满足利普希茨连续条件；

上述特征分类模块用于根据上述目标特征进行图像分类获得上述待分类图像对应的目标类别，将上述目标类别作为分类结果并输出。

本发明第三方面提供一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的图像分类程序，上述图像分类程序被上述处理器执行时实现任意一项上述图像分类方法的步骤。

本发明第四方面提供一种计算机可读存储介质，上述计算机可读存储介质上存储有图像分类程序，上述图像分类程序被处理器执行时实现任意一项上述图像分类方法的步骤。

由上可见，本发明方案中，获取待分类图像；获取预先训练好的图像分类模型，基于上述预先训练好的图像分类模型对上述待分类图像进行图像分类并输出分类结果，其中，上述图像分类模型在进行图像分类的过程中所对应的操作函数是满足利普希茨连续条件的函数，且上述图像分类模型在预先训练时直接使用预设的目标学习率开始训练，上述预设的目标学习率在1×

到1×

的范围之内。

与现有技术中使用的现有的ViT模型相比，本发明中使用的图像分类模型所对应的操作函数是满足利普希茨连续条件的函数，因此在预先训练时可以不进行学习率预热，即在预先训练的初始阶段就可以使用较大的目标学习率，并且可以保持全程平稳训练。如此，本发明中的图像分类方法所使用的图像分类模型不需要进行学习率预热，在进行图像分类时可以减少训练时间，有利于提高模型训练和进行图像分类的效率。在此基础上，图像分类模型可以保持平稳训练，有利于提高模型的训练效果，从而有利于提高图像分类的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种图像分类方法的流程示意图；

图2是本发明实施例提供的一种图像分类模型的组成模块示意图；

图3是本发明实施例提供的一种特征提取模块的具体结构示意图；

图4是本发明实施例提供的一种利普希茨特征提取单元的具体结构示意图；

图5是本发明实施例提供的另一种利普希茨特征提取单元的具体结构示意图；

图6是本发明实施例提供的一种图像分类的具体流程示意图；

图7是本发明实施例提供的一种利普希茨特征提取单元的具体网络结构示意图；

图8是本发明实施例提供的利普希茨特征提取单元的结构与现有技术中其他三种用于进行特征提取的网络结构的对比示意图；

图9是本发明实施例提供的一种图像分类模型的组成模块示意图；

图10是本发明实施例图9中特征提取模块1的具体结构示意图；

图11是本发明实施例提供的三个不同版本的图像分类模型的参数细节示意图；

图12是本发明实施例提供的模型训练参数示意图；

图13是本发明实施例提供的一种实验结果示意图；

图14是本发明实施例提供的一种智能终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于分类到”。类似的，短语“如果确定”或“如果分类到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦分类到[所描述的条件或事件]”或“响应于分类到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

随着科学技术的发展，基于计算机视觉的图像处理、图像分类等技术的应用越来越广泛，图像分类是计算机视觉中的一个重要基础任务。目前，可以采用视觉基础模型（ViT，Vision Transformer）执行图像分类等任务，Transformer仍然是NLP、计算机视觉和许多其他AI应用的主导架构。

现有技术中，通常直接采用ViT模型进行图像分类，在进行图像分类过程中，需要先对所采用的如ViT模型进行预先训练。现有技术的问题在于，ViT模型在训练过程中需要先进行学习率预热才能保障模型的稳定训练。即在训练开始时先使用一个较小的学习率进行训练，等模型稳定时才修改为想要的目标学习率进行训练，因此进行图像分类时需要先耗费较多的训练时间，不利于提高模型训练和进行图像分类的效率。如果不进行学习率预热，则模型的训练过程不稳定，不利于提高模型的训练效果，且不利于提高图像分类的准确性。

在一种应用场景中，可以通过改进归一化方法提高Transformer训练的稳定性，例如，前归一化（Pre-LN）比后归一化（Post-LN）更稳定。可以引入自适应模型初始化（Admin）来缓解放大效应，或者可以引入DeepNorm和特定深度的初始化来稳定Post-LN，但学习率预热（Warmup）仍然是训练稳定的必要条件。学习率预热就是在刚开始训练的时候先使用一个较小的学习率训练一些epoches或iterations，等模型稳定时再修改为预先设置的学习率进行训练，因此学习率预热过程需要耗费大量的时间，而不使用学习率预热则会导致模型训练过程不平稳并使得模型训练效果降低，影响图像分类的准确性。同时，目前的改进都是针对单个方面对训练过程中的问题进行改进，没有从网络的整体属性考虑网络的不稳定性，无法系统的解决模型训练中的问题。

具体的，现有的用于进行图像分类的模型的网络设计不是利普希茨连续的，在训练时容易出现不稳定的情况，影响训练效果，从而影响图像分类的准确性。同时，现有的模型由于在初始阶段需要一段时间的小的学习率预热才能切换到大学习率，因此收敛速率会慢很多。同时，现有的模型仅采用自注意力（self-attention）模块和多次感知器（MLP）模块而忽略了传统卷积模块的价值，因而性能不够高。

为了解决上述多个问题中的至少一个问题，本发明方案中，获取待分类图像；获取预先训练好的图像分类模型，基于上述预先训练好的图像分类模型对上述待分类图像进行图像分类并输出分类结果，其中，上述图像分类模型在进行图像分类的过程中所对应的操作函数是满足利普希茨连续条件的函数，且上述图像分类模型在预先训练时直接使用预设的目标学习率开始训练，上述预设的目标学习率在1×

到1×

的范围之内。

与现有技术中使用的现有的ViT模型相比，本发明将利普希茨连续性引入到图像分类模型中，以解决训练不稳定、训练初始阶段一定需要学习率预热等问题。具体的，本发明中使用的图像分类模型所对应的操作函数是满足利普希茨连续条件的函数，因此在预先训练时可以不进行学习率预热，即在预先训练的初始阶段就可以使用较大的目标学习率，并且可以保持全程平稳训练。如此，本发明中的图像分类方法所使用的图像分类模型不需要进行学习率预热，在进行图像分类时可以减少训练时间，有利于提高模型训练和进行图像分类的效率。在此基础上，图像分类模型可以保持平稳训练，可以同时提高模型训练效率和效果，从而有利于提高图像分类的准确性。

示例性方法

如图1所示，本发明实施例提供一种图像分类方法，具体的，上述方法包括如下步骤：

步骤S100，获取待分类图像。

其中，上述待分类图像是需要进行图像分类的图像，上述待分类图像可以通过直接采集获得，也可以由用户或其它设备输入，在此不作具体限定。需要说明的是，本实施例中通过图像分类模型对上述待分类图像进行图像分类并输出其中包括的对象所对应的类别，例如，待分类图像中包括北极熊则可以通过图像分类模型进行分类后输出“Ice bear”。

步骤S200，获取预先训练好的图像分类模型，基于上述预先训练好的图像分类模型对上述待分类图像进行图像分类并输出分类结果，其中，上述图像分类模型在进行图像分类的过程中所对应的操作函数是满足利普希茨连续条件的函数，且上述图像分类模型在预先训练时直接使用预设的目标学习率开始训练，上述预设的目标学习率在1×

到1×

的范围之内。

本实施例中，使用预先训练好的图像分类模型进行图像分类。在一种应用场景中，上述图像分类模型可以是引入利普希茨连续性的ViT模型，通过考虑模型整体的利普希茨连续性，能够保证网络在初始阶段就可以使用大的学习率并能实现全程平稳训练，如此，对应的图像分类模型在训练时可以加速收敛，提升性能，从而可以提高训练效率和图像分类的准确性。

上述目标学习率是预先设置的在图像分类模型训练过程中需要使用的学习率。现有技术中，模型训练时不能直接使用目标学习率开始训练，需要先使用一个较小的学习率（例如，预热时使用的较小的学习率可以为1×

）进行学习率预热，在模型稳定之后再切换到较大的目标学习率。而对于本申请中的图像分类模型，可以直接使用较大的目标学习率（例如，目标学习率可以是1×

到1×

这个范围中的任意一个值）开始训练。具体的，上述操作函数是图像分类模型在使用过程中需要实际执行以实现数据处理的全部或部分函数。本实施例中的操作函数满足利普希茨连续条件，能够保证模型训练时的平稳性，并且提高模型收敛速度。

图2是本发明实施例提供的一种图像分类模型的组成模块示意图，如图2所示，本实施例中，上述图像分类模型包括特征提取模块和特征分类模块；上述特征提取模块用于对输入的上述待分类图像进行特征提取并将提取获得的目标特征输出到上述特征分类模块，其中，上述特征提取模块所对应的操作函数满足利普希茨连续条件；上述特征分类模块用于根据上述目标特征进行图像分类获得上述待分类图像对应的目标类别，将上述目标类别作为上述分类结果并输出。

进一步的，本实施例中，上述特征提取模块包括一个或多个串联的特征提取子模块。图3是本发明实施例提供的一种特征提取模块的具体结构示意图，如图3所示，本实施例中，当上述特征提取模块包括多个串联的特征提取子模块时，各上述特征提取子模块分别包括一个图块合并单元和一个利普希茨特征提取单元，上述图块合并单元用于对该特征提取子模块的输入数据进行降维处理获得降维数据，上述利普希茨特征提取单元用于对上述降维数据进行特征提取以获得该特征提取子模块的输出数据并输出；第i个特征提取子模块的输入数据是第i-1个特征提取子模块的输出数据，i为大于1的整数，第1个特征提取子模块的输入数据是上述待分类图像，上述目标特征是最后一个特征提取子模块的输出数据；上述利普希茨特征提取单元所对应的操作函数是满足利普希茨连续条件的函数。

图3中以特征提取模块包括4个特征提取子单元为例进行说明，但不作为具体限定。需要说明的是，当上述特征提取模块只包括一个特征提取子模块时，该特征提取子模块可以仅包括一个利普希茨特征提取单元，而不包括图块合并单元，即不需要对输入的待分类图像进行降维处理。本实施例中，通过图块合并单元逐步对图像进行降维，可以减小计算量，提高模型训练和处理数据的效率。其中，4×4图块合并单元代表该图块合并单元将输入的图像的高度和宽度都缩小为四分之一，2×2图块合并单元代表该图块合并单元将输入的图像的高度和宽度都缩小为二分之一，本实施例中各个图块合并单元的缩小比例仅作为示例，但不作为具体限定。

图4是本发明实施例提供的一种利普希茨特征提取单元的具体结构示意图，如图4所示，本实施例中，上述利普希茨特征提取单元包括依次连接的卷积子单元、自注意力子单元和前向多层感知器子单元，上述卷积子单元、上述自注意力子单元和上述前向多层感知器子单元所对应的操作函数都是满足利普希茨连续条件的函数；其中，各上述操作函数中分别包括一个用于控制该操作函数对应的输出值变化幅度的模型参数，各上述操作函数分别使用一个概率函数生成概率值来确定是否保留该操作函数对应的模型参数的值。

图5是本发明实施例提供的另一种利普希茨特征提取单元的具体结构示意图，如图5所示，上述利普希茨特征提取单元还可以包括两个中心归一化子单元，一个上述中心归一化子单元设置于上述自注意力子单元和上述前向多层感知器子单元之间，另一个上述中心归一化子单元设置于上述自注意力子单元之后，上述中心归一化子单元用于根据其预设的操作函数对输入该中心归一化子单元的数据的值进行中心归一化处理后输出，且上述中心归一化子单元的操作函数满足利普希茨连续条件。需要说明的是，中心化归一子单元可以用于将处理过程中的数据值统一进行中心归一化处理，合理减小所有数据的数据值大小，从而可以减小后续处理过程中的计算量。因此在模型训练和模型使用过程中，增加的中心化归一子单元都有利于提升处理效率，从而提高模型训练和收敛效率以及图像分类的效率。

具体的，本实施例中，上述卷积子单元所对应的操作函数如下公式（1）所示：

其中，

代表上述卷积子单元所对应的操作函数的第一分支，当第一概率值满足预设的第一概率条件时上述第一分支保留的第一模型参数

，否则上述第一分支的第一模型参数

是上述卷积子单元的输出数据，

是上述卷积子单元对应的第一预设矩阵，

是上述图像分类模型经过预先训练确定的第一模型参数；

上述自注意力子单元所对应的操作函数如下公式（2）所示：

其中，

保留，否则上述第二分支的第二模型参数

是上述自注意力子单元的输出数据，

是上述自注意力子单元对应的第二预设矩阵，

是上述图像分类模型经过预先训练确定的第二模型参数；

上述前向多层感知器子单元所对应的操作函数如下公式（3）所示：

其中，

保留，否则上述第三分支的第三模型参数

是上述前向多层感知器子单元的输出数据，

是上述前向多层感知器子单元对应的第三预设矩阵，

是上述图像分类模型经过预先训练确定的第三模型参数。

需要说明的是，上述过程中某一个模型参数不保留则代表在对应的操作函数中不使用该模型参数进行计算，但操作函数的其它部分不改变。例如，在上述公式（3）中第三模型参数不保留时，

是

直接与

相加后的值。

进一步的，上述中心归一化子单元所对应的操作函数如下公式（4）所示：

其中，

是上述中心归一化子单元的输出数据，

是上述中心归一化子单元的输入数据，

和

分别是上述图像分类模型经过预先训练确定的第四模型参数和第五模型参数，

是该中心归一化子单元的输入数据

的维度，

是一个

的单位矩阵。

代表列向量

与其转置相乘，

是一个全1的

维列向量。

本实施例中，还基于一种具体应用场景对上述图像分类方法进行具体说明，图6是本发明实施例提供的一种图像分类的具体流程示意图，如图6所示，本实施例中的待分类图像是一个高度为H，宽度为W的图像，需要说明的是，上述待分类图像的图像处理通道数为C，例如对于RGB图像则通道数为3。图6中，通过训练好的图像分类模型对待分类进行四个阶段的特征提取，然后输入到特征分类模块（即Pooling&FC），获得待分类图像对应的目标类别（例如北极熊）并输出。具体的，本实施例中，上述特征分类模块由一个池化分类全连接层构成。

进一步的，本实施例中四个阶段的特征提取过程中，每一个阶段的特征提取分别由一个特征提取子模块进行。每一个特征提取子模块分别包括一个图块合并单元（即PatchMerging）和一个利普希茨特征提取单元（即LipsFormer Block）。上述图块合并单元用于进行降维，使得计算量变小；降维后一个像素代表的信息更多，对图像的感知区域变大。需要说明的是，本实施例中，图块合并单元不是必须的模块，没有图块合并单元时，原图像的像素在处理中不做变化，并且仅进行一个阶段的特征提取也可以实现图像分类。在一种应用场景中，只有在仅使用一个特征提取子模块进行一个阶段的特征提取时，该特征提取子模块中才省略图块合并单元。而在使用多个特征提取子模块时各个特征提取子模块中都设置有图块合并单元，有利于提高处理效率，从而提高图像分类的效率或模型训练的效率。

需要说明的是，上述图块合并单元进行处理时会缩小其对应的输入图像的尺寸，其中，4×4 图块合并单元代表该图块合并单元将其获取的输入图像的高度和宽度都缩小为四分之一，2×2 图块合并单元代表该图块合并单元将其获取输入图像的高度和宽度都缩小为二分之一。因此，如图6所示，第一个特征提取子模块中的利普希茨特征提取单元所处理的图像的尺寸为

，第二个特征提取子模块中的利普希茨特征提取单元所处理的图像的尺寸为

，以此类推，在此不再赘述。

同时，

分别代表各个特征提取子模块中利普希茨特征提取单元的执行次数，

的具体数值可以根据实际需求设置或调整，在此不做具体限定。如图6所示，第一个特征提取子模块中利普希茨特征提取单元会执行

次，第二个特征提取子模块中利普希茨特征提取单元会执行

次，以提高提取的特征的准确性，从而有利于提高图像分类的准确性。在一种应用场景中，利普希茨特征提取单元重复执行的过程中，第一次执行时的输入数据是对应的图块合并单元处理后的图像数据，而第一次执行时的输出数据作为第二次执行时的输入数据，以此类推，在此不再赘述。

本实施例中，利普希茨特征提取单元中的卷积子单元和自注意力子单元基于其网络结构实现其操作函数的分支中对应的模型参数的选择（即选择是否保留分支中对应的模型参数），从而实现满足利普希茨连续条件。

图7是本发明实施例提供的一种利普希茨特征提取单元的具体网络结构示意图，并且图7中具体展示了利普希茨特征提取单元中各个子单元的网络结构。如图7所示，上述卷积子单元是由卷积结构部分（Conv Blocks）和可学习的残差结构部分所组成的，且卷积子单元满足利普希茨连续条件。卷积子单元的具体实现方式如公式（1）所示，其中，

是上述第一概率值，

可以是根据DropPath函数随机生成的值，也可以是根据预先设置的与该卷积子单元对应的DropPath函数针对该卷积子单元的输入数据

计算获得的。第一概率值

满足预设的第一概率条件时第一模型参数

所对应的分支保留，反之则不保留。其中，第一概率条件可以根据实际需求进行预先设置和调整，例如，在一种应用场景中第一概率条件可以是

大于预设的第一概率阈值p（例如0.5）。如此，可以根据预先设置的第一概率阈值对操作函数的输出值进行随机的限制（drop）。具体的，上述公式（1）中Convs是预先设置的一组卷积函数，⊙代表逐点相乘（即计算哈达玛积），逐点相乘后的结果的维度与

、

相同。卷积子单元中基于第一概率值决定是否放弃对应的分支，可以有效地降低利普希茨常量值。具体的，在训练时随机drop可以降低利普希茨常量值，可以让网络训练更稳定。

需要说明的是，

与

相似，分别代表对应的第二模型参数

、第三模型参数

是否保留或是否放弃的概率，

也是分别根据对应子单元中预先设置的DropPath函数针对该子单元的输入数据计算获得的。其中，第一模型参数、第二模型参数和第三模型参数可以分别包括一组经过训练获得的参数。第一预设矩阵

、第二预设矩阵

和第三预设矩阵

分别是预先设置的参数矩阵，矩阵的大小与对应的输入数据相关，且矩阵中的参数可以随机生成或由用户设置，在此不作具体限定。其中，第一模型参数

、第二模型参数

和第三模型参数

的取值较小，目的是避免对应的输出值（

、

、

）过大，从而保障整个输出比较稳定。具体的，第一模型参数

、第二模型参数

和第三模型参数

是分别训练的，三者的取值没有关联。

如图7所示，上述自注意力子单元由可学习的尺度化的余弦相似性自注意力结构部分（Cosin Self-Attention）和可学习的权重化的残差部分组成，其具体实现方式如公式（2）所示。其中，SelfAttention是预先设置的一个自注意力函数。在自注意力子单元中，基于对应的DropPath函数所计算出的第二概率值

进行分支的保留或放弃，能够控制该自注意力子单元的利普希茨常量保持在1附近，从而保证网络的稳定性。

图7中还示出了中心归一化子单元（CenterNorm），本实施例中，以第一个中心归一化子单元为例进行具体说明，第二个中心归一化子单元的操作函数和具体实现过程与第一个中心归一化子单元相似，因此不再赘述。具体的，本实施例中，上述中心归一化子单元的实现方式如公式（4）所示，上述中心归一化子单元可以根据公式（4）的操作将处理的数据的值拉回到接近于原点（即0）的位置，即尽可能的减小需要处理的数据的数值，以减小计算量。上述中心归一化子单元的利普希茨常量约等于1。

如图7所示，上述前向多层感知器子单元由前馈神经网络部分（Feed-Forward）和可学习的权重化残差部分组成，其具体实现方式如公式（3）所示。其中，FeedForward是一个自注意力函数，FeedForward所对应的输入数据为

，所对应的参数为

。基于上述公式（3）所示的操作函数可以有效地控制前向多层感知器子单元的利普希茨连续性。

需要说明的是，本实施例中，上述自注意子单元的输入数据

是上述卷积子单元的输出数据

，第一个中心归一化子单元的输入数据

是自注意力子单元的输出数据

，以此类推，具体可以参照图7中的连接关系。且上述各个子单元处理过程中的数据（例如输入数据

）可以是待分类图像或降维后的图像中各个像素点所对应的特征向量。

图8是本发明实施例提供的利普希茨特征提取单元的结构与现有技术中其他三种用于进行特征提取的网络结构的对比示意图。其中，第四种结构代表本实施例中的利普希茨特征提取单元，其他三种则分别是现有的ConvNeXt、Transformer和Swin-Transformer中对应的特征提取部分的结构，其中，深度卷积模块代表Depth Conv，归一化层代表LayerNorm，自注意力模块代表Self-Attention。如图8所示，本实施例的利普希茨特征提取单元的结构与现有技术中其它用于进行特征提取的网络结构并不相同，且本实施例中利普希茨特征提取单元的结构可以满足利普希茨连续性的要求。

进一步的，本实施例中，上述图像分类模型通过如下步骤进行预先训练：

其中，上述图像分类模型在预先训练时直接使用预设的学习率开始训练，不进行学习率预热。如此，既可以减小模型训练所需要的时间，又可以基于上述图像分类模型的利普希茨连续性保证模型的训练过程是稳定的，提高图像分类的效率和准确性。

其中，上述图像分类模型中需要进行调整的模型参数包括第一模型参数、第二模型参数和第三模型参数，进一步的还可以包括第四模型参数和第五模型参数，这些模型参数经过训练并在模型训练完成后获得对应的

、

、

、

和

。上述预设训练条件是预先设置的停止训练的条件，可以包括迭代次数达到预设的迭代阈值，或者根据预先设置的损失函数针对标注物体类别和分类物体类别计算获得的损失值小于预设的损失阈值，还可以包括其它条件，在此不作具体限定。

由上可见，本发明实施例提供的图像分类方法中，使用的图像分类模型所对应的操作函数是满足利普希茨连续条件的函数，因此在预先训练时可以不进行学习率预热，即在预先训练的初始阶段就可以使用较大的目标学习率，并且可以保持全程平稳训练。如此，本发明中的图像分类方法所使用的图像分类模型不需要进行学习率预热，在进行图像分类时可以减少训练时间，有利于提高模型训练和进行图像分类的效率。在此基础上，图像分类模型可以保持平稳训练，有利于提高模型的训练效果，从而有利于提高图像分类的准确性。

示例性设备

如图9中所示，对应于上述图像分类方法，本发明实施例还提供一种图像分类模型，上述图像分类模型包括：

特征提取模块1和特征分类模块2；

上述特征提取模块1用于对输入的待分类图像进行特征提取并将提取获得的目标特征输出到上述特征分类模块2，其中，上述特征提取模块1所对应的操作函数满足利普希茨连续条件；

上述特征分类模块2用于根据上述目标特征进行图像分类获得上述待分类图像对应的目标类别，将上述目标类别作为分类结果并输出。

其中，上述特征提取模块1包括一个或多个依次串联的特征提取子模块11，本实施例中，以特征提取模块1包括多个依次串联的特征提取子模块11为例进行说明。

图10是本发明实施例图9中特征提取模块1的具体结构示意图，如图9所示，上述特征提取模块1包括四个依次串联的特征提取子模块11，且各上述特征提取子模块11分别包括一个图块合并单元111和一个利普希茨特征提取单元112，上述图块合并单元111用于对该特征提取子模块11的输入数据进行降维处理获得降维数据，上述利普希茨特征提取单元112用于对上述降维数据进行特征提取以获得该特征提取子模块11的输出数据并输出；

第i个特征提取子模块11的输入数据是第i-1个特征提取子模块11的输出数据，i为大于1的整数，第1个特征提取子模块11的输入数据是上述待分类图像，上述目标特征是最后一个特征提取子模块11的输出数据；

上述利普希茨特征提取单元112所对应的操作函数是满足利普希茨连续条件的函数。

具体的，本实施例中的图像分类模型在训练过程中不需要进行学习率预热，可以直接使用预先设置的一个较大的目标学习率开始训练和学习，并且在训练过程中可以保持模型训练的稳定性。

进一步的，上述利普希茨特征提取单元112中可以包括多个利普希茨连续的子单元或组成部分，例如CenterNorm（中心归一化），Spectral-based Initialization（基于谱的初始化），scaled cosine similarity attention（尺度拉升的余弦相似注意力计算）和weighted residual shortcut（权重化的残差链接）等，这些部分都是满足利普希茨连续条件的。

需要说明的是，上述图像分类模型及其各个模块或单元的具体结构和实现方式可以参照上述方法实施例中的对应描述，在此不再赘述。

需要说明的是，上述图像分类模型的各个模块的划分方式并不唯一，在此也不作为具体限定。

本实施例中，还对模型的通道数和其中利普希茨特征提取单元112的个数进行调整，设计出3个不同版本的图像分类模型。图11是本发明实施例提供的3个不同版本的图像分类模型的参数细节示意图，如图11所示，本实施例中包括tiny、small和base版本的图像分类模型，分别用LipsFormer-T、LipsFormer-S和LipsFormer-B表示。

图12是本发明实施例提供的模型训练参数示意图，如图12所示，本实施例中对设计出的三个不同版本的图像分类模型进行训练。具体的，在标准的ImageNet-1K数据集上评估LipsFormer，该数据集由128万张图像和1000个类组成。为了公平起见，采用与CSwinTransformer类似的训练策略。具体的，使用AdamW优化器，LipsFormer-T/S的权重衰减为0.05，LipsFormer-T/S的权重衰减为0.1。LipsFormer-B则使用0.1。默认情况下，所有的模型都训练了300个epochs，输入图像尺寸为224×224。对于LipsFormer，训练批次大小为2048，初始学习率为0.002。速率为0.002，采用标准余弦学习速率衰减，没有学习速率预热。对LipsFormer-T、LipsFormer-S和LipsFormer-B应用随机深度，其最大的DropPath率分别为0.2、0.4和0.5。对于消融研究，对每个模型进行100 Epochs。

图13是本发明实施例提供的一种实验结果示意图，具体的，图13是根据训练好的模型进行图像分类时的结果示意图。根据图13可知，LipsFormer好于近似参数量条件下的Swin-Transformer、CSwin、CvT、NaT等模型。例如，LipsFormer-T的性能（即图像分类的准确率）比Swin-Transformer高出2.2%，比CSwin高出0.8%。同时LipsFormer-B的性能也比Swin-Transformer高出1.1%，比CSwin高出0.4%。

如此，基于本实施例中提供的图像分类模型进行图像分类时，可以让网络不需要先进行学习率预热就可以完成有效的训练，并且加速了模型的收敛。本实施例中的LipsFormer和传统的Cswin-Transformer、Swin-Transformer、CvT相比，在100 epochs训练条件下，获得了更好的训练效果。本实施例还有效地解释了网络训练的不稳定的原因，且提升了图像分类模型的性能，在ImageNet数据集上面，本实施例中的图像分类模型获得了非常好的性能（即图像分类的准确率），比swin-transformer高2.3%，比cswin-transformer高0.8%。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图14所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和图像分类程序。该内存储器为非易失性存储介质中的操作系统和图像分类程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该图像分类程序被处理器执行时实现上述任意一种图像分类方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图14中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的图像分类程序，上述图像分类程序被上述处理器执行时实现本发明实施例提供的任意一种图像分类方法的步骤。

本发明实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有图像分类程序，上述图像分类程序被处理器执行时实现本发明实施例提供的任意一种图像分类方法的步骤。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的系统/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种图像分类方法，其特征在于，所述图像分类方法包括：

获取待分类图像；

获取预先训练好的图像分类模型，基于所述预先训练好的图像分类模型对所述待分类图像进行图像分类并输出分类结果，其中，所述图像分类模型在进行图像分类的过程中所对应的操作函数是满足利普希茨连续条件的函数，且所述图像分类模型在预先训练时直接使用预设的目标学习率开始训练，所述预设的目标学习率在1×

到1×

的范围之内；

所述图像分类模型包括特征提取模块和特征分类模块，所述特征提取模块用于对输入的所述待分类图像进行特征提取并将提取获得的目标特征输出到所述特征分类模块，其中，所述特征提取模块所对应的操作函数满足利普希茨连续条件，所述操作函数决定其分支对应的模型参数是否保留以满足所述利普希茨连续条件；

其中，各所述操作函数中分别包括一个用于控制该操作函数对应的输出值变化幅度的模型参数，各所述操作函数分别使用一个概率函数生成概率值以确定是否保留该操作函数对应的模型参数的值。

2.根据权利要求1所述的图像分类方法，其特征在于，所述特征分类模块用于根据所述目标特征进行图像分类获得所述待分类图像对应的目标类别，将所述目标类别作为所述分类结果并输出。

3.根据权利要求2所述的图像分类方法，其特征在于，所述特征提取模块包括一个或多个串联的特征提取子模块；

当所述特征提取模块包括多个串联的特征提取子模块时，各所述特征提取子模块分别包括一个图块合并单元和一个利普希茨特征提取单元，所述图块合并单元用于对该特征提取子模块的输入数据进行降维处理获得降维数据，所述利普希茨特征提取单元用于对所述降维数据进行特征提取以获得该特征提取子模块的输出数据并输出；

第i个特征提取子模块的输入数据是第i-1个特征提取子模块的输出数据，i为大于1的整数，第1个特征提取子模块的输入数据是所述待分类图像，所述目标特征是最后一个特征提取子模块的输出数据；

所述利普希茨特征提取单元所对应的操作函数是满足利普希茨连续条件的函数。

4.根据权利要求3所述的图像分类方法，其特征在于，所述利普希茨特征提取单元包括依次连接的卷积子单元、自注意力子单元和前向多层感知器子单元，所述卷积子单元、所述自注意力子单元和所述前向多层感知器子单元所对应的操作函数都是满足利普希茨连续条件的函数。

5.根据权利要求4所述的图像分类方法，其特征在于，所述卷积子单元所对应的操作函数为

，其中，

代表所述卷积子单元所对应的操作函数的第一分支，当第一概率值满足预设的第一概率条件时所述第一分支的第一模型参数

保留，否则所述第一分支的第一模型参数

不保留，所述第一概率值是根据第一概率函数计算获得的概率值，所述第一概率函数是预先设置的与所述卷积子单元对应的DropPath函数，

是所述卷积子单元的输出数据，

是所述卷积子单元的输入数据，⊙代表逐点相乘，Convs是预先设置的一组卷积函数，

是所述卷积子单元对应的第一预设矩阵，

是所述图像分类模型经过预先训练确定的第一模型参数；

所述自注意力子单元所对应的操作函数为

，其中，

代表所述自注意力子单元所对应的操作函数的第二分支，当第二概率值满足预设的第二概率条件时所述第二分支的第二模型参数

保留，否则所述第二分支的第二模型参数

不保留，所述第二概率值是根据第二概率函数计算获得的概率值，所述第二概率函数是预先设置的与所述自注意力子单元对应的DropPath函数，

是所述自注意力子单元的输出数据，

是所述自注意力子单元的输入数据，SelfAttention是预先设置的自注意力函数，

是所述自注意力子单元对应的第二预设矩阵，

是所述图像分类模型经过预先训练确定的第二模型参数；

所述前向多层感知器子单元所对应的操作函数为

，其中，

代表所述前向多层感知器子单元所对应的操作函数的第三分支，当第三概率值满足预设的第三概率条件时所述第三分支的第三模型参数

保留，否则所述第三分支的第三模型参数

不保留，所述第三概率值是根据第三概率函数计算获得的概率值，所述第三概率函数是预先设置的与所述前向多层感知器子单元对应的DropPath函数，

是所述前向多层感知器子单元的输出数据，

是所述前向多层感知器子单元的输入数据，FeedForward是预先设置的自注意力函数，

是所述前向多层感知器子单元对应的第三预设矩阵，

是所述图像分类模型经过预先训练确定的第三模型参数。

6.根据权利要求4或5所述的图像分类方法，其特征在于，所述利普希茨特征提取单元还包括两个中心归一化子单元，一个所述中心归一化子单元设置于所述自注意力子单元和所述前向多层感知器子单元之间，另一个所述中心归一化子单元设置于所述自注意力子单元之后，所述中心归一化子单元用于根据其预设的操作函数对输入该中心归一化子单元的数据的值进行中心归一化处理后输出，且所述中心归一化子单元的操作函数满足利普希茨连续条件。

7.根据权利要求1所述的图像分类方法，其特征在于，所述图像分类模型通过如下步骤进行预先训练：

将训练数据中的训练图像输入图像分类模型，通过所述图像分类模型对所述训练图像进行图像分类并获取所述训练图像对应的分类物体类别，其中，所述训练数据包括多组训练图像数据组，每一组训练图像数据组包括训练图像及其对应的标注物体类别；

根据所述训练图像对应的标注物体类别和所述训练图像对应的分类物体类别，对所述图像分类模型的模型参数进行调整，并继续执行所述将训练数据中的训练图像输入图像分类模型的步骤，直至满足预设训练条件，以得到训练好的图像分类模型。

8.一种图像分类模型，其特征在于，所述图像分类模型包括：

特征提取模块和特征分类模块；

所述特征提取模块用于对输入的待分类图像进行特征提取并将提取获得的目标特征输出到所述特征分类模块，其中，所述特征提取模块所对应的操作函数满足利普希茨连续条件，所述操作函数决定其分支对应的模型参数是否保留以满足所述利普希茨连续条件；

所述特征分类模块用于根据所述目标特征进行图像分类获得所述待分类图像对应的目标类别，将所述目标类别作为分类结果并输出；

9.根据权利要求8所述的图像分类模型，其特征在于，所述特征提取模块包括一个或多个串联的特征提取子模块；

10.一种智能终端，其特征在于，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的图像分类程序，所述图像分类程序被所述处理器执行时实现如权利要求1-7任意一项所述图像分类方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像分类程序，所述图像分类程序被处理器执行时实现如权利要求1-7任意一项所述图像分类方法的步骤。