CN113792804B

CN113792804B - 图像识别模型的训练方法、图像识别方法、装置及设备

Info

Publication number: CN113792804B
Application number: CN202111089355.9A
Authority: CN
Inventors: 杨馥魁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-11-21
Anticipated expiration: 2041-09-16
Also published as: CN113792804A

Abstract

本公开提供了一种图像识别模型的训练方法、图像识别方法、装置及设备，本公开涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于人脸识别等场景下。具体方案为：获取样本图像的图像特征；将图像特征输入到图像识别模型中的动态卷积层；通过动态卷积层将图像特征拆分成第一子特征和第二子特征；基于第一子特征和/或第二子特征确定目标子特征，基于目标子特征获取目标卷积特征；基于目标卷积特征输出样本图像的识别结果，通过识别结果和样本图像的实际结果确定损失函数；基于损失函数训练图像识别模型，获得目标图像识别模型。上述训练方法所得到的图像识别模型可提高图像识别的速度和效率。

Description

图像识别模型的训练方法、图像识别方法、装置及设备

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于人脸识别等场景下。

背景技术

在一些计算机视觉业务场景中，需要对图像进行识别以获取识别结果，然而，利用现有的图像识别算法进行图像识别会存在较多的冗余计算，影响图像识别的速度和效率。

发明内容

本公开提供了一种图像识别模型的训练方法、图像识别方法、装置及设备。

根据本公开的第一方面，提供了一种图像识别模型的训练方法，包括：

获取样本图像的图像特征；

将图像特征输入到图像识别模型中的动态卷积层；

通过动态卷积层将图像特征拆分成第一子特征和第二子特征；

基于第一子特征和/或第二子特征确定目标子特征，基于目标子特征获取目标卷积特征；

基于目标卷积特征输出样本图像的识别结果，通过识别结果和样本图像的实际结果确定损失函数；

基于损失函数训练图像识别模型，获得目标图像识别模型。

根据本公开的第二方面，提供了一种图像识别方法，包括：

获取待识别图像；

将待识别图像输入至目标图像识别模型中，目标图像识别模型是由本公开的第一方面提供的图像识别模型的训练方法获得；

获取待识别图像的识别结果。

根据本公开的第三方面，提供了一种图像识别模型的训练装置，包括：

图像特征获取模块，用于获取样本图像的图像特征；

特征输入模块，用于将图像特征输入到图像识别模型中的动态卷积层；

特征拆分模块，用于通过动态卷积层将图像特征拆分成第一子特征和第二子特征；

目标特征获取模块，用于基于第一子特征和/或第二子特征确定目标子特征，基于目标子特征获取目标卷积特征；

损失确定模块，用于基于目标卷积特征输出样本图像的识别结果，通过识别结果和样本图像的实际结果确定损失函数；

模型训练模块，用于基于损失函数训练图像识别模型，获得目标图像识别模型。

根据本公开的第四方面，提供了一种图像识别装置，包括：

图像获取模块，用于获取待识别图像；

图像输入模块，用于将待识别图像输入至目标图像识别模型中，目标图像识别模型是由本公开的第一方面提供的图像识别模型的训练方法获得；

结果获取模块，用于获取待识别图像的识别结果

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的图像识别模型的训练方法或图像识别方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的图像识别模型的训练方法或图像识别方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述的图像识别模型的训练方法或图像识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本公开提供的技术方案带来的有益效果是：

在本公开的技术方案中，可以将图像的图像特征拆分成第一子特征和第二子特征，允许基于一个子特征确定出目标子特征，并将另一个子特征视为冗余特征并舍弃。这样可以在后续步骤只利用一个子特征进行图像识别，相当于减少了图像特征中需要处理的特征数量，从而减少了计算量，有助于提高图像识别的速度和效率。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开提供了一种图像识别模型的示例性的结构示意图；

图2示出了本公开实施例提供的一种图像识别方法的流程示意图；

图3示出了本公开实施例提供的一种获取目标卷积特征的方法的流程示意图；

图4示出了本公开实施例提供的一种图像识别装置的示意图之一；

图5示出了本公开实施例提供的一种图像识别装置的示意图之二；

图6示出了本公开实施例提供的一种图像识别装置的示意图；

图7示出了可以用来实施本公开实施例提供的图像识别方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一些计算机视觉业务场景中，需要对图像进行识别以获取识别结果，然而，利用现有的图像识别算法进行图像识别会存在较多的冗余计算。具体来说，目前的图像识别算法通常是利用卷积层提取图像的特征，之后基于提取到的所有特征确定图像的识别结果。但是，卷积层所提取的特征中可能存在部分冗余特征，这会导致图像识别过程中存在较多的冗余计算，影响图像识别的速度和效率。尤其在计算资源有限的情况下，冗余特征对图像识别的速度和效率的影响会更加明显。

本公开实施例提供的图像识别模型的训练方法、图像识别方法、装置及设备，旨在解决现有技术的如上技术问题中的至少一个。

本公开提供了一种预训练的图像识别模型，基于该图像识别模型可以执行本公开提供的图像识别方法。在对图像识别模型进行训练时，可以预先获取多个样本图像作为训练集，基于训练集对图像识别模型进行训练。

图1示出了本公开提供了一种图像识别模型的示例性的结构示意图，如图1所示，图像识别模型可以包括基础卷积层、动态卷积层、全连接层和结果识别层(如分类器)。其中，在将图片输入到图像识别模型之后，基于基础卷积层可以提取图像的图像特征，并将图像特征输入到的动态卷积层；通过动态卷积层将图像特征拆分成第一子特征和第二子特征，基于第一子特征和/或第二子特征确定出目标子特征，并基于目标子特征获取目标卷积特征，之后将目标卷积特征输入到全连接层；基于全连接层和结果识别层可以确定图像的识别结果。

可选地，动态卷积层可以包括M个串联的卷积单元，第1个卷积单元的输入特征为图像特征，第(N+1)个卷积单元的输入特征为第N个卷积单元输出的卷积特征。每个卷积单元可以将其输入特征拆分成第一子特征和第二子特征，基于至少一个子特征确定出目标子特征，并基于目标子特征输出卷积特征。可以理解，可以将最后一个卷积单元(即第M个卷积单元)输出的卷积特征确定为目标卷积特征。

图2示出了本公开实施例提供的一种图像识别模型的训练方法的流程示意图，如图2所示，该方法主要可以包括以下步骤：

S210：获取样本图像的图像特征。

如前文所述，图像识别模型可以包括相连接的基础卷积层，公开实施例可以将样本图像输入到基础卷积层，基于基础卷积层提取图像的图像特征，例如，基础卷积层所提取的样本图像的图像特征的维度是126×126× 3，其中，3代表该图像特征的通道数量。

S220：将图像特征输入到图像识别模型中的动态卷积层。

如前文所述，图像识别模型可以包括与基础卷积层相连接的动态卷积层，基础卷积层在将提取到的图像特征之后，可以将图像特征输入至动态卷积层，作为动态卷积层的输入特征。

S230：通过动态卷积层将图像特征拆分成第一子特征和第二子特征。

在该步骤中，可以通过动态卷积层将图像特征根据通道数以预设比例拆分成第一子特征和第二子特征。此需要说明的是，第一子特征和第二子特征的通道数之和与图像特征的通道数相等。例如，图像特征的维度是 126×126×3，第一子特征和第二子特征的维度可以分别为126×126×1 和126×126×2。

可选地，本公开实施例可以设置一个以随机概率f，基于随机概率f来确定图像特征所拆分出的第一子特征和第二子特征的通道数。具体来说，以C来表示图像特征的通达数，图像特征所拆分出的第一子特征和第二子特征的通道数分别是C×f和C×(1-f)。如果C×f和C×(1-f)为非整数，可以对C×f和C×(1-f)取整(如四舍五入)，并且确保取整后的两个数之和为图像特征的通道数。

如前文所述，动态卷积层可以包括M个串联的卷积单元。第1个卷积单元的输入特征为图像特征，第(N+1)个卷积单元的输入特征为第N个卷积单元输出的卷积特征，其中，N和M为整数，1<N<M。

可选地，M个卷积单元中的每个卷积单元都可以将其输入特征拆分成第一子特征和第二子特征，其中，第1个卷积单元可以将上述图像特征拆分成第一子特征和第二子特征。在该步骤中，本公开实施例针对M个串联的卷积单元中的每个卷积单元，可以通过卷积单元将对应的输入特征拆分成两个第一子特征和第二子特征。

S240：基于第一子特征和/或第二子特征确定目标子特征，基于目标子特征获取目标卷积特征。

在本公开实施例中，对于图像特征所拆分出的第一子特征和第二子特征，可以基于其中一个子特征确定出目标子特征，也基于第一子特征和第二子特征确定目标子特征。当基于一个子特征确定出目标子特征时，可以将另外一个子特征视为冗余特征并舍弃，后续步骤只要利用一个子特征进行图像识别，相当于减少了图像特征中需要处理的特征数量。

如前文所述，动态卷积层可以包括M个串联的卷积单元。在该步骤中，本公开实施例可以针对每个卷积单元，计算第一子特征与卷积单元中的第一卷积函数的第一卷积子特征；基于卷积单元对应的目标门函数计算第一卷积子特征的函数值；当函数值为第一预设值时，将第一卷积子特征确定为卷积单元对应的目标子特征，基于目标子特征输出卷积单元对应的卷积特征；当函数值为第二预设值时，计算第二子特征与卷积单元中的第二卷积函数的第二卷积子特征，并将第一卷积子特征和第二卷积子特征确定为卷积单元对应的目标子特征，基于目标子特征输出卷积单元对应的卷积特征；将第M个卷积单元对应的卷积特征确定为目标卷积特征。具体来说，第1个卷积单元可以基于其输入特征获取对应的卷积特征，并将卷积特征作为第2个卷积单元的输入特征；第2个卷积单元可以基于其输入特征获取对应的卷积特征，并将卷积特征作为第3个卷积单元的输入特征。M个串联的卷积单元依次执行上述步骤，直至最后一个卷积单元(即第M个卷积单元)基于其输入特征获取对应的卷积特征，将第M个卷积单元对应的卷积特征确定为目标卷积特征。

S250：基于目标卷积特征输出样本图像的识别结果，通过识别结果和样本图像的实际结果确定损失函数。

如前文所述，图像识别模型还可以包括全连接层和结果识别层。动态卷积层获取到目标卷积特征之后，将目标卷积特征输入到全连接层，基于全连接层和结果识别层可以确定图像的识别结果。可以理解，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来，之后将特征输入至结果识别层，结果识别层基于这些特征输出样本图像的识别结果。本公开实施例提供的图像识别方法可以应用于多种图像的业务场景，如人脸识别场景、活体检测场景和目标检测场景等，本公开实施例所确定的样本图像的识别结果的具体内容，可以基于实际的应用场景而定。可以理解，本公开实施例在通过图像识别模型得到样本图像的识别结果之后，可以确定识别结果和样本图像的实际结果之间的差异结果，将该差异结果作为损失函数。

S260：基于损失函数训练图像识别模型，获得目标图像识别模型。

在本公开实施例中，可以基于损失函数调整图像识别模型，以使得损失函数达到预设的损失值。当损失函数达到预设的损失值时，结束针对图像识别模型的训练过程，将此时的图像识别模型作为目标图像识别模型。

在本公开实施例中，损失函数的类型可以根据具体的应用场景和实际的设计需要而定。例如，L1范数损失函数(也被称为最小绝对值偏差)、 L2范数损失函数(也被称为最小平方误差)和Huber损失函数(也被称为平滑的平均绝对误差)等。

通过本公开实施例提供的图像识别模型的训练方法所得到的目标图像识别模型，可以将图像的图像特征拆分成第一子特征和第二子特征，允许基于一个子特征确定出目标子特征，并将另一个子特征视为冗余特征并舍弃。这样可以在后续步骤只利用一个子特征进行图像识别，换言之，本公开可以利用一个图像的图像特征中的部分特征进行图像识别，这相当于减少了图像特征中需要处理的特征数量，从而减少了计算量，有助于提高图像识别的速度和效率。

图3示出了本公开实施例提供的一种获取目标卷积特征的方法的流程示意图，如图3所示，该方法主要可以包括步骤S310至步骤S340，其中，步骤S310至步骤S330为每个卷积单元获取对应的卷积特征的步骤。可以理解，针对一个样本图像，M个卷积单元依次执行一次S310至步骤S330，当最后一个卷积单元(即第M个卷积单元)执行一次S310至步骤S330之后，继续执行步骤S340。下面对步骤S310至步骤S340做具体介绍：

S310：通过卷积单元将对应的输入特征拆分成第一子特征和第二子特征。

在本公开实施例中，第一子特征和第二子特征的通道数之和与输入特征的通道数相等，并且第一子特征的通道数大于或等于第二子特征的通道数。在该步骤中，可以通过卷积单元可以根据输入特征通道数，将输入特征以预设比例拆分成第一子特征和第二子特征。例如，输入特征的维度是 126×126×3，第一子特征的维度可以是126×126×2，第二子特征的维度可以是126×126×1，第一子特征的通道数(2)大于或等于第二子特征的通道数(1)。

本公开实施例可以设置一个以随机概率f，基于随机概率f来确定输入特征所拆分出的第一子特征和第二子特征的通道数。具体来说，以C来表示输入特征的通达数，输入特征所拆分出的第一子特征和第二子特征的通道数分别是C×f和C×(1-f)。如果C×f和C×(1-f)为非整数，可以对C ×f和C×(1-f)取整(如四舍五入)，确保取整后的两个数之和为输入特征的通道数，并且第一子特征的通道数大于或等于第二子特征的通道数。

S320：基于第一子特征和/或第二子特征确定目标子特征。

在本公开实施例中，每个卷积单元对于其输入特征所拆分出的第一子特征和第二子特征，可以基于第一子特征确定目标子特征，也基于第一子特征和第二子特征确定目标子特征。当基于第一子特征确定目标子特征时，可以将第二子特征视为冗余特征并舍弃，后续步骤只要利用第一子特征进行图像识别，相当于减少了图像特征中需要处理的特征数量。可以理解，上述两种情况都可以确保能够基于第一子特征确定目标子特征，由于第一子特征的通道数大于或等于第二子特征的通道数，图像特征中的较大部分的特征在后续的步骤中被使用到，确保识别结果的准确性。

可选地，可以计算第一子特征与卷积单元中的第一卷积函数的第一卷积子特征，基于卷积单元对应的目标门函数计算第一卷积子特征的函数值。当函数值为第一预设值时，将第一卷积子特征确定为卷积单元对应的目标子特征。当函数值为第二预设值时，计算第二子特征与卷积单元中的第二卷积函数的第二卷积子特征，并将第一卷积子特征和第二卷积子特征确定为卷积单元对应的目标子特征。

在本公开实施例中，卷积单元针对第一子特征和第二子特征分别配置了第一卷积函数和第二卷积函数，基于第一卷积函数对第一子特征进行卷积计算可以得到第一卷积子特征，基于第二卷积函数对第二子特征进行卷积计算可以得到第二卷积子特征。这里，第一卷积函数和第二卷积函数是图像识别模型训练过程中需要调节的参数。可以理解，第一卷积函数和第二卷积函数可以表征为卷积核，第一子特征和第二子特征可以分别与对应的卷积核相乘，从而得到第一卷积子特征和第二卷积子特征。

本公开实施例可以计算第一子特征与卷积单元中的第一卷积函数的第一卷积子特征，基于卷积单元对应的目标门函数计算第一卷积子特征的函数值。其中，第一卷积子特征是第一子特征与第一卷积函数相乘得到的结果，将第一卷积子特征代入到目标门函数，即可得到第一卷积子特征的函数值。

在本公开实施例中，卷积单元包含有激活函数，每种激活函数具有对应的门函数，可以在基于卷积单元对应的目标门函数计算第一卷积子特征的函数值之前，可以确定卷积单元的激活函数的类型，将与激活函数的类型对应的门函数确定为目标门函数。激活函数的类型可以包括修正线性单元(Rectified Linear Unit，ReLU)函数和Sigmoid函数，不同类型的激活函数对应不同的门函数，当然，激活函数还可以分为其他类型，此处不再一一列举。

可选地，当激活函数为ReLU函数时，目标门函数的表达式为：

S＝δ(∑δ(a-T)-β)，其中，S为第一卷积子特征的函数值，δ()为跃迁函数，a为第一卷积子特征中的特征值，T和β为预设的阈值。

可以理解，第一卷积子特征是一个特征矩阵，特征矩阵中的各个元素就是第一卷积子特征中的特征值，可以将特征矩阵中的各个元素依次代入到上述目标门函数的表达式中，从而得到第一卷积子特征的函数值S。

可选地，当激活函数为Sigmoid函数时，目标门函数的表达式为：

S＝δ(∑δ((T1-a)*δ(a-T2))-β)，其中，S为第一卷积子特征的函数值，δ()为跃迁函数，a为第一卷积子特征中的特征值，T1、T2和β为预设的阈值。

可以理解，对于阶跃函数来说，当前自变量大于1时，阶跃函数的函数值为1；当前自变量小于1时，阶跃函数的函数值为。因此，从目标门函数的表达式可以看出，第一卷积子特征的函数值只有1和0两种情况。

当函数值为第一预设值时，将第一卷积子特征确定为目标子特征。第一预设值的可以根据实际的设计需要而定，如前文所述，第一卷积子特征的函数值只有1和0两种情况，因此可以将第一预设值设置为0。

可以理解，在这种情况下，将第二子特征视为冗余特征并舍弃，后续步骤只要利用第一子特征进行图像识别，相当于减少了输入特征需要处理的特征数量，从而减少计算量，有助于提升图像识别的速度和效率。

当函数值为第二预设值时，计算第二子特征与卷积单元中的第二卷积函数的第二卷积子特征，并将第一卷积子特征和第二卷积子特征确定为目标子特征。

第二预设值的可以根据实际的设计需要而定，第一预设值和第二预设值需要设置为不同的值。如前文所述，第一卷积子特征的函数值只有1和 0两种情况，当第一预设值设置为0时，将第二预设值设置为1。

S330：基于目标子特征输出卷积单元对应的卷积特征。

本公开实施例可以将目标子特征输入到卷积单元的激活函数，通过激活函数输出卷积单元对应的卷积特征。在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数，又称激励函数(Activation Function)。如前文所述，卷积单元的激活函数的类型可以包括ReLU函数和Sigmoid函数，当然，激活函数还可以分为其他类型，此处不再一一列举。可以理解，针对一个样本图像，M个卷积单元依次执行一次S310至步骤S330，当最后一个卷积单元(即第M个卷积单元)执行一次S310至步骤S330之后，继续执行步骤S340。

S340：将第M个卷积单元输出的卷积特征确定为目标卷积特征。

动态卷积层中的M个卷积单元为串联关系，第M个卷积单元作为动态卷积层中最后一个卷积单元，其输出的卷积特征就是动态卷积层最终输出的卷积特征，因此可以将第M个卷积单元输出的卷积特征确定为目标卷积特征。具体来说，第1个卷积单元可以基于其输入特征获取对应的卷积特征，并将卷积特征作为第2个卷积单元的输入特征；第2个卷积单元可以基于其输入特征获取对应的卷积特征，并将卷积特征作为第3个卷积单元的输入特征。M个串联的卷积单元依次执行上述步骤，直至最后一个卷积单元(即第M个卷积单元)基于其输入特征获取对应的卷积特征，将第 M个卷积单元对应的卷积特征确定为目标卷积特征。

有每个卷积单元都需要执行一次上述的步骤S310至步骤S330，因此，每个卷积单元都有将其对应的第二子特征确定为冗余特征的机会，增加了舍弃图像特征的冗余特征数量和概率，多个卷积单元的输入特征中需要处理的特征数量，从而减少了计算量，有助于提高图像识别的速度和效率。

图4示出了本公开实施例提供的一种图像识别方法的流程示意图，如图4所示，该方法主要可以包括以下步骤：

S410：获取待识别图像。

S430：将待识别图像输入至目标图像识别模型中。

可以理解，目标图像识别模型是由上述的图像识别模型训练方法获得。

S430：获取待识别图像的识别结果。

可以理解，图像识别模型可以包括基础卷积层、动态卷积层、全连接层和结果识别层(如分类器)。可以将待识别图像输入到基础卷积层，基于基础卷积层提取图像的图像特征，并将图像特征输入到的动态卷积层，通过动态卷积层将图像特征拆分成第一子特征和第二子特征，基于第一子特征和/或第二子特征确定目标子特征，基于目标子特征获取目标卷积特征。动态卷积层获取到目标卷积特征之后，将目标卷积特征输入到全连接层，基于全连接层和结果识别层可以确定图像的识别结果。

本公开实施例提供的图像识别方法，通过目标图像识别模型可以将图像的图像特征拆分成第一子特征和第二子特征，允许基于一个子特征确定出目标子特征，并将另一个子特征视为冗余特征并舍弃。这样可以在后续步骤只利用一个子特征进行图像识别，换言之，本公开可以利用一个图像的图像特征中的部分特征进行图像识别，这相当于减少了图像特征中需要处理的特征数量，从而减少了计算量，有助于提高图像识别的速度和效率。

基于与上述的图像识别模型的训练装方法相同的原理，图5示出了本公开实施例提供的一种图像识别模型的训练装置的示意图。如图5所示，图像识别模型的训练装置500包括图像特征获取模块510、特征输入模块 520、特征拆分模块530、目标特征获取模块540、损失确定模块550和模型训练模块560。

图像特征获取模块510用于获取样本图像的图像特征。

特征输入模块520用于将图像特征输入到图像识别模型中的动态卷积层。

特征拆分模块530用于通过动态卷积层将图像特征拆分成第一子特征和第二子特征。

目标特征获取模块540用于基于第一子特征和/或第二子特征确定目标子特征，基于目标子特征获取目标卷积特征。

损失确定模块550用于基于目标卷积特征输出样本图像的识别结果，通过识别结果和样本图像的实际结果确定损失函数。

模型训练模块560用于基于损失函数训练图像识别模型，获得目标图像识别模型。

通过本公开实施例提供的图像识别模型的训练装置所得到的目标图像识别模型，可以将图像的图像特征拆分成第一子特征和第二子特征，允许基于一个子特征确定出目标子特征，并将另一个子特征视为冗余特征并舍弃。这样可以在后续步骤只利用一个子特征进行图像识别，换言之，本公开可以利用一个图像的图像特征中的部分特征进行图像识别，这相当于减少了图像特征中需要处理的特征数量，从而减少了计算量，有助于提高图像识别的速度和效率。

在本公开实施例中，动态卷积层包括M个串联的卷积单元，第1个卷积单元的输入特征为图像特征，第(N+1)个卷积单元的输入特征为第N 个卷积单元输出的卷积特征，其中，N和M为整数，1<N<M。

在本公开实施例中，特征拆分模块530在用于通过动态卷积层将图像特征拆分成第一子特征和第二子特征时，具体用于：

通过动态卷积层将图像特征根据通道数以预设比例拆分成第一子特征和第二子特征，第一子特征和第二子特征的通道数之和与图像特征的通道数相等。

在本公开实施例中，目标特征获取模块540在用于基于第一子特征和/ 或第二子特征确定目标子特征，基于目标子特征获取目标卷积特征时，具体用于：

针对每个卷积单元，计算第一子特征与卷积单元中的第一卷积函数的第一卷积子特征；

基于卷积单元对应的目标门函数计算第一卷积子特征的函数值；

当函数值为第一预设值时，将第一卷积子特征确定为卷积单元对应的目标子特征，基于目标子特征输出卷积单元对应的卷积特征；

当函数值为第二预设值时，计算第二子特征与卷积单元中的第二卷积函数的第二卷积子特征，并将第一卷积子特征和第二卷积子特征确定为卷积单元对应的目标子特征，基于目标子特征输出卷积单元对应的卷积特征；

将第M个卷积单元对应的卷积特征确定为目标卷积特征。

在本公开实施例中，每种激活函数具有对应的门函数；目标特征获取模块540还用于：

确定卷积单元的激活函数的类型；

将与激活函数的类型对应的门函数确定为目标门函数。

在本公开实施例中，当激活函数为ReLU函数时，目标门函数的表达式为：S＝δ(∑δ(a-T)-β)；

S为第一卷积子特征的函数值，δ()为跃迁函数，a为第一卷积子特征中的特征值，T和β为预设的阈值。

在本公开实施例中，当激活函数为Sigmoid函数时，目标门函数的表达式为：S＝δ(∑δ((T1-a)*δ(a-T2))-β)；

S为第一卷积子特征的函数值，δ()为跃迁函数，a为第一卷积子特征中的特征值，T1、T2和β为预设的阈值。

在本公开实施例中，目标特征获取模块540在用于基于目标子特征输出卷积单元对应的卷积特征时，具体用于：将目标子特征输入到卷积单元的激活函数，通过激活函数输出卷积单元对应的卷积特征。

可以理解的是，本公开实施例中的图像识别模型的训练装置的上述各模块具有实现上述的图像识别模型的训练方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述图像识别模型的训练装置的各模块的功能描述具体可以参见上述的图像识别模型的训练方法的对应描述，在此不再赘述。

基于与上述的图像识别方法相同的原理，图6示出了本公开实施例提供的一种图像识别装置的示意图。如图6所示，图像识别装置600包括图像获取模块610、图像输入模块620和结果获取模块630。

图像获取模块610用于获取待识别图像。

图像输入模块620用于将待识别图像输入至目标图像识别模型中，目标图像识别模型是由上述的图像识别模型训练方法获得。

结果获取模块630用于获取待识别图像的识别结果。

本公开实施例提供的图像识别装置，通过目标图像识别模型可以将图像的图像特征拆分成第一子特征和第二子特征，允许基于一个子特征确定出目标子特征，并将另一个子特征视为冗余特征并舍弃。这样可以在后续步骤只利用一个子特征进行图像识别，换言之，本公开可以利用一个图像的图像特征中的部分特征进行图像识别，这相当于减少了图像特征中需要处理的特征数量，从而减少了计算量，有助于提高图像识别的速度和效率。

可以理解的是，本公开实施例中的图像识别装置的上述各模块具有实现上述的图像识别方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述图像识别装置的各模块的功能描述具体可以参见上述的图像识别方法的对应描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开实施例提供的图像识别方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

图7示出了可以用来实施本公开实施例提供的图像识别模型的训练方法或图像识别方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出 (I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如图像识别模型的训练方法或图像识别方法。例如，在一些实施例中，图像识别模型的训练方法或图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图像识别模型的训练方法或图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元701 可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别模型的训练方法或图像识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路 (ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器 (ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像识别模型的训练方法，包括：

获取样本图像的图像特征；

将所述图像特征输入到图像识别模型中的动态卷积层；

通过所述动态卷积层将所述图像特征拆分成第一子特征和第二子特征；

基于所述第一子特征，或，基于所述第一子特征和所述第二子特征确定目标子特征，基于所述目标子特征获取目标卷积特征；

基于所述目标卷积特征输出所述样本图像的识别结果，通过所述识别结果和所述样本图像的实际结果确定损失函数；

基于所述损失函数训练所述图像识别模型，获得目标图像识别模型；

所述动态卷积层包括M个串联的卷积单元，第1个卷积单元的输入特征为所述图像特征，第（N+1）个卷积单元的输入特征为第N个卷积单元输出的卷积特征，其中，N和M为整数，1<N<M；

所述基于所述第一子特征，或，基于所述第一子特征和所述第二子特征确定目标子特征，基于所述目标子特征获取目标卷积特征，包括：

针对每个所述卷积单元，计算所述第一子特征与所述卷积单元中的第一卷积函数的第一卷积子特征；

基于所述卷积单元对应的目标门函数计算所述第一卷积子特征的函数值；

当所述函数值为第一预设值时，将所述第一卷积子特征确定为所述卷积单元对应的目标子特征，基于所述目标子特征输出所述卷积单元对应的卷积特征；

当所述函数值为第二预设值时，计算所述第二子特征与所述卷积单元中的第二卷积函数的第二卷积子特征，并将所述第一卷积子特征和所述第二卷积子特征确定为所述卷积单元对应的目标子特征，基于所述目标子特征输出所述卷积单元对应的卷积特征；

将第M个所述卷积单元对应的卷积特征确定为目标卷积特征。

2.根据权利要求1所述的方法，其中，所述通过所述动态卷积层将所述图像特征拆分成第一子特征和第二子特征，包括：

通过所述动态卷积层将图像特征根据通道数以预设比例拆分成第一子特征和第二子特征，所述第一子特征和所述第二子特征的通道数之和与所述图像特征的通道数相等。

3.根据权利要求1所述的方法，所述卷积单元包含激活函数；每种所述激活函数具有对应的门函数；在所述基于所述卷积单元对应的目标门函数计算所述第一卷积子特征的函数值之前，还包括：

确定所述卷积单元的激活函数的类型；

将与所述激活函数的类型对应的门函数确定为目标门函数。

4.根据权利要求3所述的方法，当所述激活函数为修正线性单元函数时，所述目标门函数的表达式为：S=(/>；

S为所述第一卷积子特征的函数值，为跃迁函数，/>为所述第一卷积子特征中的特征值，/>和/>为预设的阈值。

5.根据权利要求3所述的方法，当所述激活函数为Sigmoid函数时，所述目标门函数的表达式为：S=(/>；

S为所述第一卷积子特征的函数值，为跃迁函数，/>为所述第一卷积子特征中的特征值，/>、/>和/>为预设的阈值。

6.根据权利要求2所述的方法，其中，所述基于所述目标子特征输出所述卷积单元对应的卷积特征，包括：

将所述目标子特征输入到所述卷积单元的激活函数，通过所述激活函数输出所述卷积单元对应的卷积特征。

7.一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入至目标图像识别模型中，所述目标图像识别模型是由权利要求1-6中任一项所述图像识别模型的训练方法获得；

获取所述待识别图像的识别结果。

8.一种图像识别模型的训练装置，包括：

图像特征获取模块，用于获取样本图像的图像特征；

特征输入模块，用于将所述图像特征输入到图像识别模型中的动态卷积层；

特征拆分模块，用于通过所述动态卷积层将所述图像特征拆分成第一子特征和第二子特征；

目标特征获取模块，用于基于所述第一子特征，或，基于所述第一子特征和所述第二子特征确定目标子特征，基于所述目标子特征获取目标卷积特征；

损失确定模块，用于基于所述目标卷积特征输出所述样本图像的识别结果，通过所述识别结果和所述样本图像的实际结果确定损失函数；

模型训练模块，用于基于所述损失函数训练所述图像识别模型，获得目标图像识别模型；

所述动态卷积层包括M个串联的卷积单元，第1个卷积单元的输入特征为所述图像特征，第（N+1）个卷积单元的输入特征为第N个卷积单元输出的卷积特征，其中， N和M为整数，1<N<M；

所述目标特征获取模块在用于基于所述第一子特征，或，基于所述第一子特征和所述第二子特征确定目标子特征，基于所述目标子特征获取目标卷积特征时，具体用于：

将第M个所述卷积单元对应的卷积特征确定为目标卷积特征。

9.根据权利要求8所述的装置，其中，所述特征拆分模块在用于通过所述动态卷积层将所述图像特征拆分成第一子特征和第二子特征时，具体用于：

10.根据权利要求8所述的装置，所述卷积单元包含激活函数；每种所述激活函数具有对应的门函数；所述目标特征获取模块还用于：

确定所述卷积单元的激活函数的类型；

将与所述激活函数的类型对应的门函数确定为目标门函数。

11.根据权利要求10所述的装置，当所述激活函数为修正线性单元函数时，所述目标门函数的表达式为：S=(/>；

12.根据权利要求10所述的装置，当所述激活函数为Sigmoid函数时，所述目标门函数的表达式为：S=(/>；

13.根据权利要求9所述的装置，其中，所述目标特征获取模块在用于基于所述目标子特征输出所述卷积单元对应的卷积特征时，具体用于：

14.一种图像识别装置，包括：

图像获取模块，用于获取待识别图像；

图像输入模块，用于将所述待识别图像输入至目标图像识别模型中，所述目标图像识别模型是由权利要求1-6中任一项所述图像识别模型的训练方法获得；

结果获取模块，用于获取所述待识别图像的识别结果。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法或权要求7所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法或权要求7所述的方法。