CN115496916B

CN115496916B - 图像识别模型的训练方法、图像识别方法以及相关装置

Info

Publication number: CN115496916B
Application number: CN202211231831.0A
Authority: CN
Inventors: 谌强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-08-22
Anticipated expiration: 2042-09-30
Also published as: CN115496916A

Abstract

本公开提供了一种图像识别模型的训练方法、图像识别方法以及相关装置，涉及人工智能技术领域，尤其涉及深度学习、图像处理、大模型、计算机视觉技术领域。具体实现方案为：获取初始模型的骨干网络包含的模型参数，对模型参数进行特征分解，得到模型参数的至少两个子参数，基于图像样本数据对初始模型进行迭代训练，以获得图像识别模型，在任一次迭代训练的过程中，基于本次迭代训练的输出结果和图像样本数据的样本标签，调整第一子参数，第二子参数保持不变。如此，达到了对骨干网络中少量参数进行微调的效果，能够在避免模型过拟合的情况下提升骨干网络的训练效果，能够训练得到能力更好的模型，从而提升了图像识别的准确性。

Description

图像识别模型的训练方法、图像识别方法以及相关装置

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、大模型、计算机视觉技术领域，具体涉及一种图像识别模型的训练方法、图像识别方法以及相关装置。

背景技术

深度学习的出现，不仅拓展了人工智能的领域范围，还促进了人工智能的发展。其中，小样本学习的研究对响应当前人工智能的发展规划以及突破人工智能的理论瓶颈具有重要的意义。小样本学习的目标是通过少量样本数据的学习，使得机器模型能够获得与人类水平相当的识别能力。

发明内容

本公开提供了一种图像识别模型的训练方法、图像识别方法以及相关装置。

根据本公开的一方面，提供了一种图像识别模型的训练方法，该方法包括：

获取初始模型的骨干网络包含的模型参数，其中，用于训练该初始模型的图像样本数据的数量小于阈值；

对该模型参数进行特征分解，得到该模型参数的至少两个子参数，该至少两个子参数包括第一子参数和第二子参数；

基于该图像样本数据对该初始模型进行迭代训练，以获得该图像识别模型；

在任一次迭代训练的过程中，将该图像样本数据输入上一次迭代训练后得到的模型中，以获得本次迭代训练的输出结果，根据该输出结果和该图像样本数据的样本标签，调整该第一子参数，该第二子参数保持不变；该样本标签用于指示该图像样本数据的图像信息。

根据本公开的一方面，提供了一种图像识别方法，该方法包括：

获取待识别图像；

将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行处理，以获得处理结果，该处理包括分类处理、分割处理或预测处理中的任一项；

其中，该图像识别模型是采用数量小于阈值的图像样本数据对初始模型进行训练得到的；在采用该图像样本数据对该初始模型进行训练的过程中，该初始模型的骨干网络中包含的第一子参数被调整，除该第一子参数外的其他该骨干网络的第二子参数保持不变。

根据本公开的一方面，提供了一种图像识别模型的训练装置，该装置包括：

获取模块，用于获取初始模型的骨干网络包含的模型参数，其中，用于训练该初始模型的图像样本数据的数量小于阈值；

分解模块，用于对该模型参数进行特征分解，得到该模型参数的至少两个子参数，该至少两个子参数包括第一子参数和第二子参数；

训练模块，用于基于该图像样本数据对该初始模型进行迭代训练，以获得该图像识别模型；

调整模块，用于在任一次迭代训练的过程中，将该图像样本数据输入上一次迭代训练后得到的模型中，以获得本次迭代训练的输出结果，根据该输出结果和该图像样本数据的样本标签，调整该第一子参数，该第二子参数保持不变；该样本标签用于指示该图像样本数据的图像信息。

根据本公开的一方面，提供了一种图像识别装置，该装置包括：

获取模块，用于获取待识别图像；

处理模块，用于将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行处理，以获得处理结果，该处理包括分类处理、分割处理或预测处理中的任一项；

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开所提供的图像识别模型的训练方法或图像识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行本公开所提供的图像识别模型的训练方法或图像识别方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开所提供的图像识别模型的训练方法或图像识别方法。

本公开所提供的技术方案，在基于小样本学习的模型训练场景下，对骨干网络中的一部分子参数进行固定，对骨干网络中的另一部分子参数进行调整，达到了对骨干网络中少量参数进行微调的效果，能够在避免模型过拟合的情况下提升骨干网络的训练效果，能够训练得到能力更好的模型，进而，利用训练得到的图像识别模型来进行图像识别时，提升了图像识别的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例示出的一种图像识别模型的训练方法或图像识别方法的实施环境示意图；

图2是根据本公开实施例示出的一种图像识别模型的训练方法的流程示意图；

图3是根据本公开实施例示出的一种图像识别方法的流程示意图；

图4是根据本公开实施例示出的一种图像识别方法的流程示意图；

图5是根据本公开实施例示出的一种特征分解的示意图；

图6是根据本公开实施例示出的一种图像识别模型的训练装置的结构框图；

图7是根据本公开实施例示出的一种图像识别装置的结构框图；

图8是用来实现本公开实施例的图像识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

首先，针对本公开实施例涉及的应用场景进行描述，本公开实施例提供的图像识别模型的训练方法，可应用在基于小样本学习的模型训练场景下，也即是在少量样本数据(或称作训练数据)的基础上进行模型训练的场景。

应理解地，深度学习模型往往需要大量的样本数据才能够取得较好的训练效果，而在实际场景下，往往很难获得特定训练任务下的大量标注数据。因此，基于小样本学习的模型训练显得十分重要。然而，对于深度学习模型来说，在少量样本数据的基础上进行模型训练，很容易使得模型过拟合少量样本数据，从而失去泛化性，在其他场景效果变差。

相关技术中，在基于小样本学习的模型训练场景下，为了避免上述过拟合的问题，通常会固定住骨干网络(Freeze backbone)，这样，使得模型后面与任务相关的网络被训练，而模型前面的骨干网络保持不变，能够有效缓解上述模型过拟合的问题。然而，固定住骨干网络，限制了骨干网络的学习能力，也即限制了模型的学习能力，导致模型的训练效果不好。

在本公开实施例中，通过对骨干网络中的一部分子参数进行固定，对骨干网络中的另一部分子参数进行调整，在保证模型不会过拟合的情况下，还能够达到更好的训练效果，能够训练得到能力更好的模型。相比相关技术中全部固定住骨干网络的模型参数，提升了模型的学习能力，相比全部微调骨干网络的模型参数，还避免了模型学习能力太强而导致的过拟合问题，也即实现了在避免过拟合问题的前提下还提升了模型的学习能力的效果。

进一步地，本公开实施例还提供了一种图像识别方法，可应用在图像识别的场景下，具体可以是图像分类、图像分割或图像预测的场景。在本公开实施例中，利用上述图像识别模型的训练方法所训练得到的图像识别模型，来进行图像识别，能够提升图像识别的准确性。

图1是根据本公开实施例示出的一种图像识别模型的训练方法或图像识别方法的实施环境示意图，参见图1，该实施环境包括终端101和服务器102。

其中，终端101为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。在一种可能的实现方式中，终端101具有通信功能，能够接入有线网络或无线网络。终端101可以泛指多个终端中的一个，本公开实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。

服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式文件系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基本云计算服务的云服务器中的至少一种，本公开实施例对此不加以限定。在一些实施例中，服务器102与终端101通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。在一种可能的实现方式中，上述服务器102的数量能够更多或更少，本公开实施例对此不加以限定。当然，服务器102还能够包括其他功能服务器，以便提供更全面多样化的服务。

在一种可能的实现方式中，本公开实施例提供的图像识别模型的训练方法由终端101执行。例如，终端101响应于针对图像识别模型的训练指令，触发执行模型训练的过程，进而利用本公开实施例提供的图像识别模型的训练方法，对初始模型进行模型训练；或者，在另一种可能的实现方式中，本公开实施例提供的图像识别模型的训练方法由服务器102执行，例如，服务器102响应于接收针对图像识别模型的训练请求，利用本公开实施例提供的图像识别模型的训练方法，对初始模型进行模型训练；或者，在另一种可能的实现方式中，本公开实施例提供的图像识别模型的训练方法由终端101和服务器102共同执行，例如，终端101响应于针对图像识别模型的训练指令，向服务器102发送针对该图像识别模型的训练请求，则服务器102接收到训练请求后，利用本公开实施例提供的图像识别模型的训练方法，对初始模型进行模型训练。

在一种可能的实现方式中，本公开实施例提供的图像识别方法由终端101执行。例如，终端101响应于针对待识别图像的图像识别操作，触发执行获取待识别图像的过程，进而利用本公开实施例提供的图像识别方法，对该待识别图像进行处理；或者，在另一种可能的实现方式中，本公开实施例提供的图像识别方法由服务器102执行，例如，服务器102响应于接收针对待识别图像的图像识别请求，获取该待识别图像，进而利用本公开实施例提供的图像识别方法，对该待识别图像进行处理；或者，在另一种可能的实现方式中，本公开实施例提供的图像识别方法由终端101和服务器102共同执行，例如，终端101响应于针对待识别图像的图像识别操作，向服务器102发送针对该待识别图像的图像识别请求，则服务器102接收到该图像识别请求后，获取该待识别图像，进而利用本公开实施例提供的图像识别方法，对该待识别图像进行处理。

图2是根据本公开实施例示出的一种图像识别模型的训练方法的流程示意图，在一种可能的实现方式中，该图像识别模型的训练方法由电子设备执行，该电子设备可提供为上述图1所示出的终端或服务器。如图2所示，该方法包括以下步骤。

在步骤S201中，获取初始模型的骨干网络包含的模型参数，其中，用于训练该初始模型的图像样本数据的数量小于阈值。

在步骤S202中，对该模型参数进行特征分解，得到该模型参数的至少两个子参数，该至少两个子参数包括第一子参数和第二子参数。

在步骤S203中，基于该图像样本数据对该初始模型进行迭代训练，以获得该图像识别模型。

在步骤S204中，在任一次迭代训练的过程中，将该图像样本数据输入上一次迭代训练后得到的模型中，以获得本次迭代训练的输出结果，根据该输出结果和该图像样本数据的样本标签，调整该第一子参数，该第二子参数保持不变；该样本标签用于指示该图像样本数据的图像信息。

上述图2示出了一种图像识别模型的训练方法，能够训练得到具备图像识别功能的图像识别模型，基于该图像识别模型，能够实现对待识别图像的图像识别，下面基于图3对图像识别的过程进行说明。图3是根据本公开实施例示出的一种图像识别方法的流程示意图，在一种可能的实现方式中，该图像识别方法由电子设备执行，该电子设备可提供为上述图1所示出的终端或服务器。如图3所示，该方法包括以下步骤。

在步骤S301中，获取待识别图像。

在步骤S302中，将该待识别图像输入图像识别模型，通过图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行处理，以获得处理结果，该处理包括分类处理、分割处理或预测处理中的任一项；其中，该图像识别模型是采用数量小于阈值的图像样本数据对初始模型进行训练得到的；在采用该图像样本数据对该初始模型进行训练的过程中，该初始模型的骨干网络中包含的第一子参数被调整，除该第一子参数外的其他骨干网络的第二子参数保持不变。

本公开实施例提供的技术方案，在基于小样本学习的模型训练场景下，对骨干网络中的一部分子参数进行固定，对骨干网络中的另一部分子参数进行调整，达到了对骨干网络中少量参数进行微调的效果，能够在避免模型过拟合的情况下提升骨干网络的训练效果，能够训练得到能力更好的模型，进而，利用训练得到的图像识别模型来进行图像识别时，提升了图像识别的准确性。

上述图3为本公开所提供的一种简单实施例，下面基于一种具体实施例，来对本公开所提供的图像识别方法进行详细说明。图4是根据本公开实施例示出的一种图像识别方法的流程示意图，在一种可能的实现方式中，该图像识别方法由电子设备执行，该电子设备可提供为上述图1所示出的终端或服务器。如图4所示，以执行主体为电子设备，该方法包括以下步骤。

在步骤S401中，电子设备获取待识别图像。

在一种可能的实现方式中，电子设备响应于对待识别图像的上传操作，获取该待识别图像。示例地，以电子设备为终端为例，若用户想要对图像进行图像识别，则可以在终端上进行操作，将待识别图像上传至终端，则终端响应于对待识别图像的上传操作，获取该待识别图像，以便基于该待识别图像执行后续图像识别的过程。

在另一种可能的实现方式中，电子设备响应于接收到对待识别图像的处理请求，则电子设备获取该处理请求携带的待识别图像，该处理请求用于请求对待识别图像进行图像识别。示例地，以电子设备为服务器为例，该处理请求可以是终端向服务器所发送的处理请求。相应地，在一种可能的实现方式中，终端向服务器发送携带该待识别图像的处理请求，服务器接收该处理请求，获取该处理请求携带的待识别图像，以便基于该待识别图像执行后续图像识别的过程。

需要说明的是，上述两种获取待识别图像的实现方式仅作为一种示例，来对电子设备获取待识别图像的过程进行说明，而在另一些实施例中，电子设备还能够采用其他方式，来获取该待识别图像，例如，电子设备从该电子设备所关联的图像信息库中获取该待识别图像，该图像信息库中用于存储至少一个待识别图像。本公开实施例对如何获取待识别图像的过程不作限定。

在步骤S402中，电子设备获取图像识别模型。

其中，图像识别模型为具备图像识别能力的深度学习模型。在一种可能的实现方式中，该图像识别模型为图像分类模型、图像分割模型、图像预测模型中的任一项。当然，该图像识别模型还能够为其他类型的图像识别模型，如目标检测模型、目标定位模型等等，本公开实施例对此不作限定。示例地，以图像分割模型为例，该图像识别模型可提供为语义分割模型或实例分割模型。其中，语义分割模型提供有逐像素进行图像分类的功能，实例分割模型提供有区分属于相同类别的不同实例的功能。本公开实施例后续以图像分割模型为例对方案进行说明。

在本公开实施例中，该图像识别模型是采用数量小于阈值的图像样本数据对初始模型进行训练得到的。进一步地，在一种可能的实现方式中，在采用该图像样本数据对该初始模型进行训练的过程中，该初始模型的骨干网络中包含的第一子参数被调整，除该第一子参数外的其他骨干网络的第二子参数保持不变。如此，在基于小样本学习的模型训练场景下，利用本公开实施例所提供的训练方法，达到了对骨干网络中少量参数进行微调的效果，能够在避免模型过拟合的情况下提升骨干网络的训练效果，从而训练得到能力更好的模型。

下面基于下述步骤(1)至步骤(4)，对图像识别模型的训练过程进行说明。

(1)电子设备获取该初始模型的骨干网络包含的模型参数。

其中，初始模型是指待进行模型训练的基础模型。在一种可能的实现方式中，初始模型包括骨干网络和任务网络。应理解地，在想要训练一个特定任务(如图像分割任务)的模型时，通过在骨干网络后面加上该特定任务的任务网络，再进行模型训练的过程即可。示例地，以想要训练得到一个图像分割模型为例，该初始模型包括骨干网络和分割任务网络。

骨干网络是指模型中用于提取特征信息的网络，其作用是提取特征信息以供后面的任务网络使用。在一种可能的实现方式中，骨干网络为预训练的特征提取网络。示例地，骨干网络可以为ResNet(Residual Network，残差神经网络)、VGGNet(Visual GeometryGroup Network，VGG网络)、ResNeSt(Split-Attention Networks，拆分注意力网络)或其他类型的骨干网络。

在一种可能的实现方式中，骨干网络包括卷积层、池化层、BN(BatchNormalization)层或全连接层等。其中，卷积层用于提取输入数据的特征信息；池化层用于对输入数据进行压缩和降维等处理；BN层用于加速网络的收敛速度；全连接层用于整合卷积层或池化层中的特征信息。本公开实施例后续以网络层来指代该骨干网络中除该卷积层以外的其他层。

在一种可能的实现方式中，该模型参数包括该骨干网络中卷积层包含的模型参数与该骨干网络中的网络层包含的模型参数中的至少一项。示例地，以卷积层为例，卷积层包含的模型参数可以是卷积核。在一种可能的实现方式中，模型参数为矩阵的形式。在该实施例中，通过获取骨干网络中卷积层或网络层包含的模型参数，均能够快速获取到骨干网络的模型参数，以便后续基于该模型参数来进行后续部分调参的过程，提高了获取模型参数的效率，进而提高了模型训练的效率。

在一种可能的实现方式中，该模型参数包括该骨干网络中全部卷积层包含的模型参数或部分卷积层包含的模型参数。相应地，电子设备获取模型参数的过程为：电子设备从该骨干网络中，获取该骨干网络中全部卷积层包含的模型参数，或者，电子设备从该骨干网络中，选取第一数量的卷积层，进而获取该第一数量的卷积层包含的模型参数。其中，第一数量为预先设定的固定数量，如10、15或其他数值。

进一步地，在一种可能的实现方式中，电子设备选取该第一数量的卷积层的过程为：电子设备从该骨干网络所包括的多个卷积层中，随机选取该第一数量的卷积层；或者，电子设备从该骨干网络所包括的多个卷积层中，每间隔预设层选取一个卷积层，以选取得到该第一数量的卷积层。当然，在另一种可能的实现方式中，电子设备还能够采用其他的方式来选取该第一数量的卷积层，本公开实施例对此不加以限定。

在上述实施例中，通过获取骨干网络中卷积层包含的模型参数，由于卷积层作为骨干网络中的重要层，因此所获取的模型参数能够包含重要且丰富的特征，以便后续基于该模型参数来进行后续部分调参的过程，提高了模型训练的准确性，能够训练得到能力更好的模型。

在另一种可能的实现方式中，该骨干网络中的全部网络层包含的模型参数或该骨干网络中的部分网络层包含的模型参数。相应地，电子设备获取模型参数的过程为：电子设备从该骨干网络中，获取该骨干网络中全部网络层包含的模型参数，或者，电子设备从该骨干网络中，选取第二数量的网络层，进而获取该第二数量的网络层包含的模型参数。其中，第二数量为预先设定的固定数量，如10、15或其他数值。

进一步地，在一种可能的实现方式中，电子设备选取该第二数量的网络层的过程为：电子设备从该骨干网络所包括的多个网络层中，随机选取该第二数量的网络层；或者，电子设备从该骨干网络所包括的多个网络层中，每间隔预设层选取一个网络层，以选取得到该第二数量的网络层。当然，在另一种可能的实现方式中，电子设备还能够采用其他的方式来选取该第二数量的网络层，本公开实施例对此不加以限定。

在上述实施例中，通过获取骨干网络中网络层包含的模型参数，同样能够快速获取到骨干网络的模型参数，以便后续基于该模型参数来进行后续部分调参的过程，确保了模型训练的效率。

在上述实施例中，分别对该模型参数包括卷积层包含的模型参数的情况下，获取该卷积层包含的模型参数的过程，以及该模型参数包括网络层包含的模型参数的情况下，获取该网络层包括的模型参数的过程进行了说明。在另一种可能的实现方式中，在该模型参数包括卷积层包含的模型参数和网络层包含的模型参数的情况下，电子设备获取该模型参数的过程为：电子设备获取该骨干网络中全部层所包括的模型参数；或者，电子设备从该骨干网络所包括的多个层中，选取第三数量的层，进而获取该第三数量的网络层包含的模型参数。

其中，第三数量为预先设定的固定数量，如10、15或其他数值。需要说明的是，本公开实施例所设置的第一数量、第二数量和第三数量可能相同也可能不同，本公开实施例对此不加以限定。进一步地，在一种可能的实现方式中，电子设备选取该第三数量的层的过程为：电子设备从该骨干网络所包括的多个层中，随机选取该第三数量的层；或者，电子设备从该骨干网络所包括的多个层中，每间隔预设层选取一个层，以选取得到该第三数量的层。当然，在另一种可能的实现方式中，电子设备还能够采用其他的方式来选取该第三数量的层，本公开实施例对此不加以限定。

在上述实施例中，在图像识别模型的迭代训练之前，通过获取初始训练模型中的骨干网络包含的模型参数，以便后续基于该模型参数来进行后续的模型训练过程，在提升了模型训练效率的同时还提升了模型训练的准确度。

在一种可能的实现方式中，以电子设备为终端为例，终端响应于针对图像识别模型的训练操作，获取初始模型以及该初始模型的图像样本数据，进而执行上述模型训练的过程。或者，在另一种可能的实现方式中，以电子设备为服务器为例，服务器响应于接收针对图像识别模型的训练请求，获取初始模型以及该初始模型的图像样本数据，进而执行上述模型训练的过程。或者，在另一种可能的实现方式中，上述模型训练的过程由终端和服务器共同执行，相应过程为：终端响应于针对图像识别模型的训练操作，向服务器发送针对图像识别模型的训练请求，则服务器接收到该训练请求后，获取初始模型以及该初始模型的样本数据，进而执行上述模型训练的过程。本公开实施例对上述步骤(1)的触发条件不作限定。

(2)电子设备对该模型参数进行特征分解，得到该模型参数的至少两个子参数，该至少两个子参数包括第一子参数和第二子参数。

在一种可能的实现方式中，电子设备对该模型参数进行奇异值分解或正交三角分解，得到该至少两个子参数。

其中，奇异值分解(Singular Value Decomposition，SVD)和正交三角分解(QRDecomposition)均为一种矩阵分解技术。通过该奇异值分解或正交三角分解对矩阵进行分解，能够提取出该矩阵所包含的关键信息。在一种可能的实现方式中，利用奇异值分解对矩阵进行特征分解，能够分解得到三个子矩阵。可理解地，奇异值分解是采用三个子矩阵来表示一个大的矩阵。在一种可能的实现方式中，利用正交三角分解对矩阵进行特征分解，能够分解得到两个子矩阵。可理解地，正交三角分解是采用两个子矩阵来表示一个大的矩阵。

在上述实施例中，通过奇异值分解或正交三角分解的方式，均能够快速地分解得到该模型参数的子参数，提升了特征分解的效率，也就提升了模型训练的效率。本公开实施例以奇异值分解和正交三角分解为例，对特征分解的过程进行了说明。而在另一种可能的实现方式中，电子设备还能够采用其他类型的特征分解方式，来执行上述特征分解的过程，如基于实对称矩阵的特征分解、三角分解(LU Decomposition)等等。本公开实施例对此不作限定。本公开实施例后续以奇异值分解为例对方案进行说明。

在一种可能的实现方式中，该至少两个子参数包括：特征子参数和权重子参数。其中，该特征子参数表示基于该模型参数所确定的语义特征，该权重子参数表示该特征子参数的权重比例。如此，由于权重子参数用于表示特征子参数对应的权重比例，因此，在后续模型训练过程中，通过调整权重子参数，能够调整模型训练中针对特征子参数的关注度，从而能够识别得到更准确的结果，提高了模型训练的准确度。

(3)电子设备基于该图像样本数据对该初始模型进行迭代训练，以获得该图像识别模型。

(4)电子设备在任一次迭代训练的过程中，将该图像样本数据输入上一次迭代训练后得到的模型中，以获得本次迭代训练的输出结果，根据该输出结果和该图像样本数据的样本标签，调整该第一子参数，该第二子参数保持不变。

其中，样本标签用于指示该图像样本数据的图像信息。以训练一个图像分类模型为例，样本标签可提供为样本分类标签，用于指示该图像样本数据的类别。

在一种可能的实现方式中，电子设备根据该输出结果与该图像样本数据的样本标签，确定本次迭代训练的模型损失值，根据该模型损失值，调整该第一子参数，该第二子参数保持不变。在一种可能的实现方式中，第一子参数包括该权重子参数，第二子参数包括该特征子参数。相应地，电子设备根据该输出结果和该图像样本数据的样本标签，调整该至少两个子参数中的权重子参数，该特征子参数保持不变。如此，由于权重子参数用于表示特征子参数对应的权重比例，因此，通过调整权重子参数，能够调整模型训练中针对特征子参数的关注度，从而能够识别得到更准确的结果，提高了模型训练的准确度。

示例地，图5是根据本公开实施例示出的一种特征分解的示意图，参见图5，针对预训练的骨干网络，对该骨干网络中的模型参数(也即图5所示出的W)进行SVD分解，即W＝U×S×V，能够分解得到三个子矩阵，分别是U矩阵、V矩阵和S矩阵。在本公开实施例中，U矩阵和V矩阵均为特征子参数，用于表征语义，如前景语义、背景语义等不同维度的语义。S矩阵为权重子参数，用于表征U矩阵或V矩阵的权重比例。例如，以S矩阵用于表征U矩阵的权重比例为例，S矩阵的值越大，则表示着重关注该U矩阵的语义，也即着重采用该U矩阵的语义来进行后续的图像识别。相应地，在模型训练过程中，U矩阵和V矩阵保持不变，S矩阵则可以基于模型训练的输出结果以及样本标签来进行调整。

针对上述调整权重子参数的过程，在一种可能的实现方式中，电子设备根据该输出结果与该图像样本数据的样本标签，确定本次迭代训练过程的模型损失值，根据该模型损失值，调整该至少两个子参数中的一部分子参数。

其中，模型损失值用于表示模型的输出结果与样本标签之间的差异。

在一种可能的实现方式中，该模型损失值为交叉熵损失值(Cross EntropyLoss)，相应地，电子设备根据该输出结果与该图像样本数据的样本标签，确定该输出结果与该样本标签之间的交叉熵损失值，以获得本次迭代训练过程的模型损失值，进而根据该模型损失值，执行上述调整权重子参数的过程。

在另一种可能的实现方式中，该模型损失值为均方误差损失值(Mean SquareError，MSE)，相应地，电子设备根据该输出结果与该图像样本数据的样本标签，确定该输出结果与该样本标签之间的均方误差损失值，以获得本次迭代训练过程的模型损失值，进而根据该模型损失值，执行上述调整权重子参数的过程。

在上述实施例中，通过确定模型损失值，由于该模型损失值用于表示模型的输出结果与样本标签之间的差异，因此根据该模型损失值来进行参数的调整，能够提升模型的学习能力，从而训练得到学习能力更好的模型。当然，在另一种可能的实现方式中，电子设备还能够获取其他类型的模型损失值，以根据该模型损失值，执行上述调整权重子参数的过程。本公开实施例对此不作限定。

在基于上述步骤(4)调整权重子参数之后，在模型训练不满足目标条件的情况下，基于调整后的该权重子参数执行下一次迭代训练，重复上述迭代训练过程，直至模型训练满足目标条件。在一种可能的实现方式中，该目标条件满足下述条件中的至少一项：模型训练的迭代次数达到目标次数；或者，模型损失值小于或等于目标阈值。其中，目标次数为预先设定的训练迭代次数，如迭代次数达到100。目标阈值为预先设定的固定阈值，如模型损失值小于0.0001。

在上述步骤(3)至步骤(4)中，电子设备在采用该图像样本数据对该图像识别模型进行训练的过程中，根据输出结果以及样本标签调整该至少两个子参数中的一部分子参数，另一部分子参数保持不变。如此，达到了对骨干网络中少量参数进行微调的效果，能够在避免模型过拟合的情况下提升骨干网络的训练效果，从而训练得到能力更好的模型。

在本公开实施例中，该图像识别模型还包括图像识别网络，相应地，电子设备在根据输出结果调整该至少两个子参数中的一部分子参数的同时，电子设备还根据输出结果调整该图像识别网络的模型参数，以实现对图像识别网络学习能力的训练，从而得到图像识别能力较强的模型。

具体地，上述迭代训练的过程包括：在第一次迭代过程中，将图像样本数据输入初始模型，得到第一次迭代过程的输出结果；基于第一次迭代过程的输出结果与图像样本数据的样本标签，确定模型损失值，基于模型损失值，对初始模型中的模型参数进行调整，具体是对骨干网络中的权重子参数进行调整，对图像识别网络中的模型参数进行调整；将第一次迭代调整后的模型参数作为第二次迭代的模型参数，再进行第二次迭代；重复多次上述迭代过程，在第N次过程中，以第N-1次迭代调整后的模型参数作为新的模型参数，进行模型训练，直到训练满足目标条件，则将满足目标条件的迭代过程所对应的模型获取为图像识别模型。其中，N为正整数，且N大于1。

在步骤S403中，电子设备将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行处理，以获得处理结果。

其中，该图像识别模型包括特征提取层，该特征提取层提供有提取图像特征的功能。例如，该特征提取层可提供为卷积层。在一种可能的实现方式中，通过该图像识别模型的特征提取层对该待识别图像进行特征提取，能够得到预定维数的图像特征，以便后续基于所提取的图像特征来进行图像处理的过程。

在本公开实施例中，该处理包括分类处理，分割处理或预测处理中的任一项。如此，通过提供多种类型的处理方式，能够实现多种类型的图像识别，拓展了基于深度学习来进行图像识别的领域范围，也即丰富了模型的使用场景。

在一种可能的实现方式中，以分类处理为例，电子设备将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行图像分类处理，以获得图像分类结果，该图像分类结果用于指示该图像的类别。在又一种可能的实现方式中，以分割处理为例，电子设备将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行图像分割处理，以获得图像分割结果，该图像分割结果用于指示该图像在像素维度上的类别。在另一种可能的实现方式中，以预测处理为例，电子设备将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行图像预测处理，以获得图像预测结果，该图像预测结果为预测图像。

图6是根据本公开实施例示出的一种图像识别模型的训练装置的结构框图，参见图6，该装置包括获取模块601、分解模块602、训练模块603和调整模块604，其中：

获取模块601，用于获取初始模型的骨干网络包含的模型参数，其中，用于训练该初始模型的图像样本数据的数量小于阈值；

分解模块602，用于对该模型参数进行特征分解，得到该模型参数的至少两个子参数，该至少两个子参数包括第一子参数和第二子参数；

训练模块603，用于基于该图像样本数据对该初始模型进行迭代训练，以获得该图像识别模型；

调整模块604，用于在任一次迭代训练的过程中，将该图像样本数据输入上一次迭代训练后得到的模型中，以获得本次迭代训练的输出结果，根据该输出结果和该图像样本数据的样本标签，调整该第一子参数，该第二子参数保持不变；该样本标签用于指示该图像样本数据的图像信息。

在一种可能的实现方式中，该模型参数包括以下至少一项：

该骨干网络中卷积层包含的模型参数；

该骨干网络中的网络层包含的模型参数。

在一种可能的实现方式中，该第一子参数包括：权重子参数；该第二子参数包括：特征子参数；该权重子参数表示该特征子参数的权重比例，该特征子参数表示基于该模型参数所确定的语义特征。

在一种可能的实现方式中，该分解模块602，用于：

对该模型参数进行奇异值分解或正交三角分解，得到该至少两个子参数。

在一种可能的实现方式中，该调整模块604，用于：

根据该输出结果与该图像样本数据的样本标签，确定本次迭代训练的模型损失值；

根据该模型损失值，调整该第一子参数。

在一种可能的实现方式中，该获取模块601，还用于获取待识别图像；

该装置还包括处理模块，用于将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行处理，以获得处理结果，该处理包括分类处理、分割处理或预测处理中的任一项。

图7是根据本公开实施例示出的一种图像识别装置的结构框图，参见图7，该装置包括获取模块701和处理模块702，其中：

获取模块701，用于获取待识别图像；

处理模块702，用于将该待识别图像输入图像识别模型，通过该图像识别模型提取该待识别图像的图像特征，基于该图像特征对该待识别图像进行处理，以获得处理结果，该处理包括分类处理、分割处理或预测处理中的任一项；

在一种可能的实现方式中，该获取模块701，还用于获取该初始模型的骨干网络包含的模型参数；

该装置还包括：

分解模块，用于对该模型参数进行特征分解，得到该模型参数的至少两个子参数，该至少两个子参数包括该第一子参数和该第二子参数；

根据本公开的实施例，本公开还提供了一种电子设备，包括至少一个处理器；以及与该至少一个处理器通信连接的存储器；其中，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开所提供的图像识别方法或图像识别模型的训练方法。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行本公开所提供的图像识别方法或图像识别模型的训练方法。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开所提供的图像识别方法或图像识别模型的训练方法。

在一种可能的实现方式中，电子设备可提供为上述图1中所示出的终端或服务器。图8是用来实现本公开实施例的图像识别方法的电子设备800的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(Read OnlyMemory，ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RandomAccess Memory，RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(In put/Out put，I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processing，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图像识别方法或图像识别模型的训练方法。例如，在一些实施例中，图像识别方法或图像识别模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图像识别方法或图像识别模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别方法或图像识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Parts，ASSP)、芯片上系统的系统(System On Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，Cathode Ray Tube，CRT或者Liquid CrystalDisplay，LCD)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像识别模型的训练方法，所述方法包括：

获取初始模型的骨干网络包含的模型参数，其中，用于训练所述初始模型的图像样本数据的数量小于阈值；

对所述模型参数进行特征分解，得到所述模型参数的至少两个子参数，所述至少两个子参数包括第一子参数和第二子参数；所述第一子参数包括：权重子参数；所述第二子参数包括：特征子参数；所述权重子参数表示所述特征子参数的权重比例，所述特征子参数表示基于所述模型参数所确定的语义特征；

基于所述图像样本数据对所述初始模型进行迭代训练，以获得所述图像识别模型；

在任一次迭代训练的过程中，将所述图像样本数据输入上一次迭代训练后得到的模型中，以获得本次迭代训练的输出结果，根据所述输出结果和所述图像样本数据的样本标签，调整所述第一子参数，所述第二子参数保持不变；所述样本标签用于指示所述图像样本数据的图像信息。

2.根据权利要求1所述的方法，其中，所述模型参数包括以下至少一项：

所述骨干网络中卷积层包含的模型参数；

所述骨干网络中的网络层包含的模型参数。

3.根据权利要求1所述的方法，其中，所述对所述模型参数进行特征分解，得到所述模型参数的至少两个子参数，包括：

对所述模型参数进行奇异值分解或正交三角分解，得到所述至少两个子参数。

4.根据权利要求1所述的方法，其中，所述根据所述输出结果和所述图像样本数据的样本标签，调整所述第一子参数，包括：

根据所述输出结果与所述图像样本数据的样本标签，确定本次迭代训练的模型损失值；

根据所述模型损失值，调整所述第一子参数。

5.根据权利要求1所述的方法，还包括：

获取待识别图像；

将所述待识别图像输入所述图像识别模型，通过所述图像识别模型提取所述待识别图像的图像特征，基于所述图像特征对所述待识别图像进行处理，以获得处理结果，所述处理包括分类处理、分割处理或预测处理中的任一项。

6.一种图像识别方法，所述方法包括：

获取待识别图像；

将所述待识别图像输入图像识别模型，通过所述图像识别模型提取所述待识别图像的图像特征，基于所述图像特征对所述待识别图像进行处理，以获得处理结果，所述处理包括分类处理、分割处理或预测处理中的任一项；

其中，所述图像识别模型是采用数量小于阈值的图像样本数据对初始模型进行训练得到的；在采用所述图像样本数据对所述初始模型进行训练的过程中，所述初始模型的骨干网络中包含的第一子参数被调整，除所述第一子参数外的其他所述骨干网络的第二子参数保持不变；所述第一子参数包括：权重子参数；所述第二子参数包括：特征子参数；所述权重子参数表示所述特征子参数的权重比例，所述特征子参数表示基于所述模型参数所确定的语义特征。

7.根据权利要求6所述的方法，还包括：

获取所述初始模型的骨干网络包含的模型参数；

对所述模型参数进行特征分解，得到所述模型参数的至少两个子参数，所述至少两个子参数包括所述第一子参数和所述第二子参数；

8.一种图像识别模型的训练装置，所述装置包括：

获取模块，用于获取初始模型的骨干网络包含的模型参数，其中，用于训练所述初始模型的图像样本数据的数量小于阈值；

分解模块，用于对所述模型参数进行特征分解，得到所述模型参数的至少两个子参数，所述至少两个子参数包括第一子参数和第二子参数；所述第一子参数包括：权重子参数；所述第二子参数包括：特征子参数；所述权重子参数表示所述特征子参数的权重比例，所述特征子参数表示基于所述模型参数所确定的语义特征；

训练模块，用于基于所述图像样本数据对所述初始模型进行迭代训练，以获得所述图像识别模型；

调整模块，用于在任一次迭代训练的过程中，将所述图像样本数据输入上一次迭代训练后得到的模型中，以获得本次迭代训练的输出结果，根据所述输出结果和所述图像样本数据的样本标签，调整所述第一子参数，所述第二子参数保持不变；所述样本标签用于指示所述图像样本数据的图像信息。

9.根据权利要求8所述的装置，其中，所述模型参数包括以下至少一项：

所述骨干网络中卷积层包含的模型参数；

所述骨干网络中的网络层包含的模型参数。

10.根据权利要求8所述的装置，其中，所述分解模块，用于：

11.根据权利要求8所述的装置，其中，所述调整模块，用于：

根据所述模型损失值，调整所述第一子参数。

12.根据权利要求8所述的装置，所述获取模块，还用于获取待识别图像；

所述装置还包括处理模块，用于将所述待识别图像输入所述图像识别模型，通过所述图像识别模型提取所述待识别图像的图像特征，基于所述图像特征对所述待识别图像进行处理，以获得处理结果，所述处理包括分类处理、分割处理或预测处理中的任一项。

13.一种图像识别装置，所述装置包括：

获取模块，用于获取待识别图像；

处理模块，用于将所述待识别图像输入图像识别模型，通过所述图像识别模型提取所述待识别图像的图像特征，基于所述图像特征对所述待识别图像进行处理，以获得处理结果，所述处理包括分类处理、分割处理或预测处理中的任一项；

14.根据权利要求13所述的装置，所述获取模块，还用于获取所述初始模型的骨干网络包含的模型参数；

所述装置还包括：

分解模块，用于对所述模型参数进行特征分解，得到所述模型参数的至少两个子参数，所述至少两个子参数包括所述第一子参数和所述第二子参数；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5或6-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5或6-7中任一项所述的方法。