CN116977668A

CN116977668A - 图像识别方法、装置、计算机设备及计算机存储介质

Info

Publication number: CN116977668A
Application number: CN202310208250.3A
Authority: CN
Inventors: 朱城
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-10-31

Abstract

本申请公开了一种图像识别方法、装置、计算机设备及计算机存储介质，适于云技术、人工智能及智慧交通等场景，其方法包括：获取待识别的目标图像，目标图像包含至少两个图像元素；对目标图像进行特征提取，得到目标图像中各个图像元素的元素识别特征；根据目标图像中各个图像元素的元素识别特征进行特征增强处理，得到目标图像的增强特征，增强特征用于表征目标图像中各个图像元素之间的关联信息；基于目标图像中各个图像元素的元素识别特征，及目标图像的增强特征所表征的关联信息，对目标图像进行图像识别，得到目标图像的图像识别结果，图像识别结果用于指示目标图像中各个图像元素的元素类别。采用本申请可以得到准确度较高的图像识别结果。

Description

图像识别方法、装置、计算机设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像识别方法、装置、计算机设备及计算机存储介质。

背景技术

当前计算机技术可以被应用在图像识别领域，而图像识别的具体应用场景可以如确定图像中是否包含目标元素。这一过程可以看作是对比目标元素进行识别的过程，而识别可以具体指判别图片中的元素所属的类别。其中，图像识别可以基于识别模型来实现，具体来说，可以先收集一些图像，然后基于深度学习技术和收集到的图像进行模型优化，得到一个识别模型，进而采用识别模型对需要进行识别的目标图像进行图像识别，得到相应的图像识别结果。

然而，针对包含多个图像元素的目标图像，传统的图像识别方法对该目标图像进行图像识别，以确定该目标图像是否包含目标图像元素时，通常无法提取到有效的特征信息，从而导致图像识别结果存在准确度低下的问题。那么，如何提取有效特征信息以提升图像识别结果的准确度，成了当下的研究热点。

发明内容

本申请实施例提供了一种图像识别方法、装置、计算机设备及计算机存储介质，可以提升图像识别的准确度。

一方面，本申请实施例提供了一种图像识别方法，包括：

获取待识别的目标图像，所述目标图像包含至少两个图像元素；

对所述目标图像进行特征提取，得到所述目标图像中各个图像元素的元素识别特征；

根据所述目标图像中各个图像元素的元素识别特征进行特征增强处理，得到所述目标图像的增强特征，所述增强特征用于表征所述目标图像中各个图像元素之间的关联信息；

基于所述目标图像中各个图像元素的元素识别特征，及所述目标图像的增强特征所表征的关联信息，对所述目标图像进行图像识别，得到所述目标图像的图像识别结果，所述图像识别结果用于指示所述目标图像中各个图像元素的元素类别。

再一方面，本申请实施例提供了一种图像识别装置，包括：

获取单元，用于获取待识别的目标图像，所述目标图像包含至少两个图像元素；

特征提取单元，用于对所述目标图像进行特征提取，得到所述目标图像中各个图像元素的元素识别特征；

特征增强单元，用于根据所述目标图像中各个图像元素的元素识别特征进行特征增强处理，得到所述目标图像的增强特征，所述增强特征用于表征所述目标图像中各个图像元素之间的关联信息；

图像识别单元，用于基于所述目标图像中各个图像元素的元素识别特征，及所述目标图像的增强特征所表征的关联信息，对所述目标图像进行图像识别，得到所述目标图像的图像识别结果，所述图像识别结果用于指示所述目标图像中各个图像元素的元素类别。

再一方面，本申请实施例提供了一种计算机设备，包括：

处理器，所述处理器用于实现一条或多条计算机程序；

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并实现如第一方面的图像识别方法。

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并实现如第一方面的图像识别方法。

再一方面，本申请实施例提供了一种程序产品，该程序产品包括计算机程序，所述计算机程序适于由处理器加载并执行如第一方面的图像识别方法。

在本申请实施例中，计算机设备在对目标图像进行图像识别时，通过对目标图像进行特征提取，得到了各个图像元素的元素识别特征，并进一步基于各个图像元素的元素识别特征执行了特征增强处理，以得到了用于表征目标图像中各个图像元素之间关联信息的增强特征，而计算机设备实现对各个图像元素的元素类别的识别时，是基于各个图像元素的元素识别特征以及增强特征所表征的关联信息共同执行的。也就是说，在本申请实施例中，计算机设备在对各个图像元素的元素类别进行识别时，不仅利用了各个图像元素的元素识别特征，还参考了各个图像元素涉及的关联关系，进一步使得计算机设备可以参考该关联关系指示的关联元素的元素识别特征，来对各个图像元素进行识别，极大地丰富了计算机设备所参考的特征信息，从而使得图像识别结果的准确度得到了有效提升。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种图像以及图像元素的示意图；

图1b是本申请实施例提供的又一种图像以及图像元素的示意图；

图2是本申请实施例提供的一种图像识别方法的示意流程图；

图3是本申请实施例提供的一种元素识别特征的提取方式示意图；

图4是本申请实施例提供的又一种图像识别方法的示意流程图；

图5是本申请实施例提供的一种第二图像的合成方法的示意流程图；

图6是本申请实施例提供的一种图像合成的原理示意图；

图7是本申请实施例提供的一种特征增强处理的流程示意图；

图8是本申请实施例提供的一种模型优化方法的流程示意图；

图9是本申请实施例提供的一种目标神经网络模型执行图像识别的流程示意图；

图10是本申请实施例提供的一种图像识别装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例所提供的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。需要说明的是，本申请实施例中描述的各个具体实施例只是本申请一部分实施例，而不是全部的实施例。基于本申请中的各个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例重点提出了一种图像识别方案，采用该方案可以在图像识别过程中有效提取到相关图像特征，丰富计算机设备在执行图像识别时所参考的特征信息，进而使得图像识别结果具有较高的准确度。具体来说，该方案指出：针对包含多个图像元素的目标图像，当需要对该目标图像中的各个图像元素的元素类别进行识别时，计算机设备可以在对目标图像进行特征提取，得到该目标图像中各个图像元素的元素识别特征后，根据各个图像元素的元素识别特征进行特征增强处理，以得到该目标图像的图像增强特征。其中，特征增强处理本质上是基于各个图像元素的元素识别特征提取到目标图像中更为复杂和全面的特征信息，使得计算机设备得到的图像增强特征可以用于表征目标图像中各个图像元素之间的关联信息。那么，计算机设备可以根据目标图像中各个图像元素的元素识别特征及图像增强特征所表征的关联信息，对目标图像进行图像识别，从而得到该目标图像中各个图像元素的元素类别。由于在本申请实施例中，计算机设备基于各个图像元素的元素识别特征进一步执行了特征增强处理，使得计算机设备可以在对各个图像元素的元素类别进行识别时，利用到各个图像元素之间的关联关系。那么，在对任一图像元素进行识别时，计算机设备则不仅可以利用该图像元素的元素识别特征，还可以利用该图像元素涉及的关联关系，甚至可以参考该关联关系指示的关联元素的元素识别特征，来对该图像元素进行识别，从而极大地丰富了计算机设备所参考的特征信息，进一步也就可以有效提升图像识别结果的准确度。

在一个实施例中，图像元素是指图像中包含的各类对象，如花、草、树、人、桌子以及动物等。具体地，目标图像可以包含多个图像元素，且这多个图像元素中可以存在类别相同的图像元素，也可以存在类别不相同的图像元素。示例性地，目标图像可以如图1a所示，那么，图1a中由101标记的机器人可以理解为目标图像中的一个图像元素，由102标记的人也可以理解为目标图像中的一个图像元素，此时目标图像中包含多个类别不相同的图像元素。再示例性地，目标图像可以如图1b所示，那么，图1b中由103标记的餐刀可以作为该目标图像中的一个图像元素，而由104标记的餐刀也可以作为该目标图像中的一个图像元素，此时目标图像中即包含多个类别相同的图像元素。其中，不同的图像元素对应不同的特征信息(如形状信息、尺寸信息、颜色信息、纹理信息以及位置信息等)，以用于将各个图像元素区分开来，而计算机设备为了获取这些特征信息，则需要对目标图像进行特征提取，以得到各个图像元素的元素识别特征。也就是说，本申请实施例中，采用图像元素的元素识别特征来表征该图像元素的特征信息。

在一个实施例中，用于执行上述图像识别方案的计算机设备可以包括终端设备和服务器中的一种或两种。当计算机设备包括终端设备时，终端设备内可以运行用于实现图像识别的应用程序，而该应用程序是基于本申请实施例提供的图像识别方案而开发的。当然，终端设备内还可以运行其他各式各样的应用程序，具体包括但不限于图像处理类的其他应用程序(如图像美化应用程序、图像制作应用程序等)、多媒体播放类的应用程序以及导航类应用程序等。用于运行这些应用程序的终端设备则可以具体包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、车载终端、智能家电、游戏机、智能手表、智能机器人等。此外，当计算机设备包括服务器时，服务器可以为提供图像识别业务的客户端(或应用程序)建立有通信连接，以向该客户端(或应用程序)提供数据计算服务以及数据存储服务等支撑服务。其中，服务器可以具体包括但不限于独立的物理服务器，多个物理服务器构成的服务器集群或者分布式系统，以及提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等中的一种或多种，本申请实施例对此不作具体限制。

基于上述图像识别方案，本申请实施例还提出了一种图像识别方法，该图像识别方法的具体流程可以参见图2，且该图像识别方法可以由上述提及的计算机设备来执行。如图2所示，该方法可以包括步骤S201-S204：

S201、获取待识别的目标图像，目标图像包含至少两个图像元素。

在一个实施例中，目标图像可以的数量可以为一个或多个，每个目标图像均包含至少两个图像元素。而目标图像的获取方式可以是，接收客户端发送的图像识别请求，该图像识别请求携带或包含了需要识别的图像，那么，计算机设备可以通过对图像识别请求进行解析得到该图像，进而将该图像作为待识别的目标图像进行后续图像识别处理。可选地，在其他应用场景，目标图像也可以是计算机设备通过与目标设备之间的通信连接，从目标设备中获取的。并且，具体地，计算机设备在从目标设备中获取目标图像时，可以先按照预设条件(如图像至少包含两个图像元素，或图像至少包含图像元素A和图像元素B)从目标设备的数据库中进行图像筛选，得到多个候选图像，进而计算机设备可以从多个候选图像中随机选取或顺序选取一个或多个图像作为目标图像。当然，在其他应用场景中，目标图像也可以是采用其他方式获取的，本申请实施例对此不作限制。

S202、对目标图像进行特征提取，得到目标图像中各个图像元素的元素识别特征。

在一个实施例中，在对目标图像进行特征提取之前，计算机设备可以先对目标图像进行图像预处理，图像预处理的目的是抑制不想要的变形或者增强某些对于后续处理重要的图像特征，从而使得计算机设备可以有效提取到的元素识别特征，减少冗余特征的提取。其中，图像预处理可以包括但不限于：图像尺寸归一化处理(如将目标图像的尺寸调整为w×h)，像素亮度变化处理(如亮度变换、灰度处理等)、几何变换(如图像裁剪、图像旋转等)等等。在对目标图像进行特征提取时，计算机设备可以通过对目标图像进行图像卷积来实。示例性地，计算机设备可以采用Resnet50(具有50个层的残差网络)作为特征提取的主要网络，而采用Resnet50进行特征提取时的主要流程可以参见图3所示，其中，目标图像可以如图3中由301标记的图像所示，而Resnet50的基本结构则可以如图3中由302标记的结构所示。

S203、根据目标图像中各个图像元素的元素识别特征进行特征增强处理，得到目标图像的增强特征，增强特征用于表征目标图像中各个图像元素之间的关联信息。

在一个实施例中，图像元素之间的关联信息主要用于指示相应的两个图像元素之间是否存在关联关系，而存在关联关系的两个图像元素在同一图像中出现的概率较大。如：当目标图像为西餐文化的相关图像时，餐刀和餐叉共同出现的概率较高，而当目标图像包含桌子时，椅子或凳子等图像元素与其共同出现的概率较高。因而，计算机设备可以基于关联关系，辅助确定当前的元素识别特征所指示的图像元素，从而使得计算机设备可以参考增强特征所表征的关联信息，对目标图像中的各个图像元素进行准确地识别。

在一种具体的实现方式中，计算机设备可利用自注意力学习机制对各个图像元素识别之间的关联关系进行提取，从而得到目标图像的增强特征。在又一种实现方式中，计算机设备也可以先分别对各个图像元素的元素识别特征进行特征上采样处理，得到相应的上采样特征。上采样特征相对于元素识别特征而言，具有更多的特征维度，从而使得上采样特征的表达能力强于元素识别特征，所表达的特征信息也比元素识别特征所表达的特征信息更加丰富。那么，进一步地，计算机设备可以对各个元素识别特征对应的上采样特征进行特征融合，得到融合特征，并将该融合特征作为目标图像的增强特征。可选地，在其他实施例中，为了降低计算机设备的计算量，从而提升计算机设备在执行图像识别时的效率，计算机设备也可以得到融合特征之后，对融合特征进行特征降维，以去除融合特征中的冗余特征，减少计算机设备的数据处理量，本申请对特征降维的具体方式不作限制也不作详述。

其中，计算机设备在对各个元素识别特征对应的上采样特征进行特征融合时，可以采用CCA(Canonical Correlation Analysis，典型关联分析)的融合方法实现，也可以采用DCA(Discriminate Component Analysis，判别分量分析)的融合方法来实现。当然，也可以采用其他方式实现，如特征拼接、特征求和(均值、池化、加权求和)、特征之间对应元素相乘、特征之间求外积并展开之后经过MLP(Multilayer Perceptron，多层感知机)、反卷积、注意力机制(包括self-attention)以及mask(掩码)机制等等，本申请实施例对此并不做限制。

S204、基于目标图像中各个图像元素的元素识别特征，及目标图像的增强特征所表征的关联信息，对目标图像进行图像识别，得到目标图像的图像识别结果，图像识别结果用于指示目标图像中各个图像元素的元素类别。

在一个实施例中，本申请实施例的图像识别方法也可以应用于图像检索场景。具体来说，计算机设备可以先确定检索目标，也即确定检索出的图像所应包含的图像元素的元素类别，进而可以对检索库里面的各个图像进行图像识别，从而得到各个图像的图像识别结果。而图像识别结果用于指示了该图像中所包含的各个图像元素的元素类别，那么，基于此，计算机设备则可以根据各个图像元素的图像识别结果，确定相应图像中是否包含检索目标对应的元素类别下的图像元素，使得计算机设备最终生成包含检索图像的图像检索结果。其中，检索图像是指：包含检索目标对应的元素类别下的图像元素的图像。

基于上述图像识别方案以及图像识别方法，本申请实施例还提出了又一种图像识别方法，该图像识别方法的具体流程可以参见图4，且该图像识别方法仍然可以由上述提及的计算机设备来执行。如图4所示，该方法可以包括步骤S401-S404：

S401、获取待识别的目标图像，目标图像包含至少两个图像元素。

在一个实施例中，步骤S401的相关实现方式，可以参见上述步骤S201的具体实施例，本申请实施例在此不再赘述。

S402、对目标图像进行特征提取，得到目标图像中各个图像元素的元素识别特征。

在一个实施例中，计算机设备可以采用优化后的特征提取网络对目标图像进行特征提取，而该特征提取网络的主要结构可以示例性地如上述Resnet50的结构。其中，对特征提取网络进行优化以得到优化后的特征提取网络的方式可以如下：计算机设备先获取训练样本及该训练样本的标签信息，其中，该训练样本中存在一个待识别的图像元素，而该训练样本的标签信息则用于指示该待识别的图像元素的元素类别。需要说明的是，训练样本中存在一个待识别的图像元素，是指在训练样本包含的至少一个图像元素中，存在一个图像元素是待识别的图像元素，而并不是说训练样本只包含一个图像元素，而该图像元素为待识别的图像元素。当计算机设备获取到训练样本之后，可以采用特征提取网络对该训练样本进行特征提取，以得到该训练样本的样本识别特征。进一步地，计算机设备可以基于样本识别特征对训练样本中待识别的图像元素进行识别，得到该图像元素的元素类别。计算机设备识别得到的元素类别与标签信息指示的元素类别之间的差异，可以用于衡量特征提取网络所提取到的样本识别特征的有效性，有效的特征将利于计算机设备识别出准确的元素类别，使得计算机设备识别得到的元素类别与标签信息指示的元素类别之间的差异较小。因此，在实际优化过程中，计算机设备可以向着减小计算机设备识别得到的元素类别与标签信息指示的元素类别之间的差异的方向，对特征提取网络进行优化处理，以得到优化后的特征提取网络，使得采用优化后的特征提取网络对训练样本特征提取后，计算机设备可以基于提取到的特征识别出与标签信息指示的元素类别之间的差异小于或等于预设差异的元素类别。

S403、获取训练数据；其中，训练数据包括第一图像中目标图像元素的元素识别特征，第二图像中目标图像元素的元素识别特征，第二图像中参考图像元素的元素识别特征，以及第二图像的标注信息，标注信息用于指示参考图像元素与目标图像元素之间是否存在关联关系。

在一个实施例中，第一图像包含的图像元素要少于第二图像包含的图像元素。具体地，第一图像包含目标图像元素，而第二图像至少包含参考图像元素与目标图像元素。其中，目标图像元素的元素类别可以是预先指定的，使得第一图像可以计算机设备是从多个图像中筛选出的包含该元素类别下的图像元素的图像。此外，第二图像可以是通过在第一图像中添加参考图像元素之后得到的，使得第一图像中的目标图像元素与第二图像中的目标图像元素相同。其中，参考图像元素和目标图像元素之间可以不存在关联关系，如：参考图像元素与目标图像元素可以是树和人，也可以是杯子和玩具车等。可选地，参考图像元素与目标图像元素也可以是存在关联关系的两个图像元素，如：第二图像中的参考图像元素和目标图像元素可以是餐刀和餐叉，也可以是桌子和椅子，还可以是显示器与键盘等。第二图像的标注信息可以是人为标注的，也可以是计算机设备基于相关图像信息生成的。具体来说，可以在获取到第二图像之后，人为地识别图像中各个图像元素的元素类别，进而针对该第二图像生成相应的标注信息，或者将元素类别输入至计算机设备，以使得计算机设备可以生成相应的标注信息。

在一种实现方式中，第二图像可以是计算机设备基于第一图像以及参考图像元素进行图像合成处理后得到的，且参考图像元素和目标图像元素之间可以存在关联关系，以使得计算机设备可以基于第二图像学习到相应图像元素之间的关联信息的特征表达。具体来说，计算机设备合成第二图像的具体过程可以示例性地参见图5或图6所示。如图5可见，在合成第二图像时，计算机设备可以在获取到第一图像后，确定与目标图像元素的元素类别具有关联关系的参考类别，并获取参考类别下的图像元素，以得到参考图像元素，使得计算机设备最终可以基于第一图像及参考图像元素，合成第二图像。不难看出，合成第二图像的本质就是在第一图像的基础上不断添加相关的特征(如图6中的特征1和/或特征2)，最终得到第二图像。

其中，第二图像可以是计算机设备通过调用目标图像生成模型来生成的，而目标图像生成模型是基于第一图像对参考图像生成模型进行模型优化后得到的。为了便于说明，以下假设第一图像包含的目标图像元素的元素类别为目标类别。在此情况下，计算机设备在对参考图像生成模型进行优化时，可以先采用参考图像生成模型确定与目标类别具有关联关系的关联类别，并获取或生成关联类别下的图像元素，得到关联图像元素，使得计算机设备可以根据第一图像及关联图像元素执行图像合成处理，得到合成图像。此外，计算机设备可以获取参考图像，参考图像是指：基于第一图像以及与目标图像元素具有关联关系的图像元素所合成的、符合预期图像质量需求的图像。也就是说，参考图像包含目标图像元素，以及与目标图像元素之间存在关联关系的图像元素。那么，合成图像与参考图像之间的相似度，也就可以用于衡量参考图像生成模型所生成的图像的质量，且相似度越高，说明参考图像生成模型确定出的关联图像元素越准确，从而生成的图像质量也就越高，在视觉效果上越真实，而本申请实施例中，对参考图像生成模型的优化目标便是：让参考图像生成模型可以准确地确定出与目标图像元素具有关联关系的图像元素，进而得到与参考图像之间的相似度大于或等于相似度阈值的合成图像。有鉴于此，计算机设备可以向着增大合成图像与参考图像之间相似度的方向，对参考图像生成模型进行模型优化处理，以得到目标图像生成模型。

其中，计算机设备在基于合成图像与参考图像之间的相似度对参考图像生成模型进行模型优化时，可以具体通过如下方式实现：获取参考图像的像素点标注信息，该像素点标注信息用于指示参考图像中各个参考像素点所属的图像元素对应的元素类别。此外，计算机设备还需要确定合成图像中各个像素点所属的图像元素对应的元素类别。其中，合成图像中的像素点与参考图像中的参考像素点一一对应，且合成图像中各个像素点所属的图像元素对应的元素类别，可以是计算机设备根据各个图像元素的元素识别特征，对目标图像进行图像识别后确定的。最后，计算机设备可以向着增大合成图像中每个像素点所属的图像元素对应的元素类别，与相应参考像素点所属的图像元素对应的元素类别之间的相似度的方向，对参考图像生成模型进行模型优化处理，以得到目标图像生成模型。

示例性地，计算机设备可以采用如式1所示的方式，基于合成图像中每个像素点所属的图像元素对应的元素类别，以及相应参考像素点所属的图像元素对应的元素类别，确定模型损失值，进而向着减小损失值的方向对参考图像生成模型进行模型优化处理，以得到目标图像生成模型。在式1中，l_con表示参考图像生成模型的模型损失值，N表示参考图像中参考像素点的数量，也表示合成图像中像素点的数量；y_{i_}表示参考图像中第i个参考像素点所属的图像元素对应的元素类别，而y_{i_d}则表示合成图像中第i个像素点所属的图像元素对应的元素类别。

S404、采用参考特征提取模型，根据第一图像中目标图像元素的元素识别特征，第二图像中目标图像元素的元素识别特征，以及第二图像中参考图像元素的元素识别特征进行特征增强处理，得到第二图像的增强特征，第二图像的增强特征用于指示：第二图像中的目标图像元素与参考图像元素之间是否存在关联关系。

在一个实施例中，计算机设备在得到第二图像的增强特征时，可以通过第二特征提取模块对第一图像进行特征提取，以得到第一图像中目标图像元素的元素识别特征。此外，计算机设备可以采用第一特征提取模块对第二图像进行特征提取，得到第二图像中目标图像元素以及参考图像元素的元素识别特征，使得计算机设备可以基于第一图像中目标图像元素的元素识别特征，以及第二图像中各个图像元素的元素识别特征进行特征融合，得到第二图像的参考识别特征。进一步地，计算机设备还可以采用第三特征提取模块对第二图像进行特征提取，得到第二图像中目标图像元素的元素识别特征，以在此之后，基于参考识别特征及第二图像中目标图像元素的元素识别特征，生成第二图像的增强特征。值得一提的是，第一特征提取模块、第二特征提取模块以及第三特征提取模块的结构可以相同，但特征提取的目标可以不相同，也即：第一特征提取模块、第二特征提取模块以及第三特征提取模块，可以分别用于针对不同对象提取特征。

其中，示例性地，计算机设备可以具体采用如图7所示的方式来生成增强特征。如图7所示，计算机设备可以对第一图像中目标图像元素的元素识别特征，以及第二图像中各个图像元素的元素识别特征进行向量外积，得到参考识别特征，并进而根据参考识别特征及第三特征提取模块提取到的第二图像中目标图像元素的元素识别特征，进行向量外积，最终得到第二图像的增强特征。其中，向量外积是一种有效的特征提取方法，它可以将原始特征向量映射到一个更高维度的特征空间中，从而增强了原始特征向量的表达能力，使得外积处理可以有效地提高计算机设备基于相关特征进行图像识别的准确性，并且可以减少计算机设备过拟合的概率。

S405、向着减小第二图像的标注信息与第二图像的增强特征所指示的信息之间的差异的方向，对参考特征提取模型进行模型优化处理，以得到目标特征提取模型。

在一个实施例中，计算机设备可以在优化目标特征提取模型的同时，优化参考图像生成模型。在此情况下，计算机设备在对参考特征提取模型进行模型优化处理时，可以先获取第一图像及参考合成图像，并根据第一图像中目标图像元素的元素识别特征，确定与目标类别具有关联关系的参考类别，进而获取参考类别下的图像元素，得到参考图像元素，以根据第一图像及参考图像元素，合成第二图像，最终使得计算机设备可以向着减小第二图像的标注信息与第二图像的增强特征所指示的信息之间的差异，以及增大第二图像与参考合成图像之间相似度的方向，对参考特征提取模型进行模型优化处理，以得到目标特征提取模型。其中，参考合成图像是指期望生成的第二图像，同理地，参考合成图像中的像素点，与第二图像中的像素点一一对应。

S406、采用目标特征提取模型，根据目标图像中各个图像元素的元素识别特征进行特征增强处理，得到目标图像的增强特征，增强特征用于表征目标图像中各个图像元素之间的关联信息。

S407、基于目标图像中各个图像元素的元素识别特征，及目标图像的增强特征所表征的关联信息，对目标图像进行图像识别，得到目标图像的图像识别结果，图像识别结果用于指示目标图像中各个图像元素的元素类别。

在本申请实施例中，计算机设备在对目标图像进行图像识别时，通过对目标图像进行特征提取，得到了各个图像元素的元素识别特征，并进一步调用目标特征提取模型基于各个图像元素的元素识别特征执行了特征增强处理，得到了用于表征目标图像中各个图像元素之间关联信息的增强特征，而目标特征提取模型是采用包含具有关联关系的图像元素的第二图像，对参考特征提取模型进行优化后得到的，因而计算机设备调用目标特征提取模型，可以针对目标图像提取得到准确的增强特征，从而使得计算机设备可以获取到目标图像的图像元素之间准确度较高的关联信息。那么，计算机设备在基于各个图像元素的元素识别特征以及增强特征所表征的关联信息，实现对目标图像中各个图像元素的识别时，不仅可以利用各个图像元素的元素识别特征，还可以参考各个图像元素涉及的关联关系，使得计算机设备所参考的特征信息得到了极大地丰富，而图像识别结果的准确度也可以得到有效提升。

基于上述图2以及图4所示的方法，本申请实施例提出了再一种图像识别方法，该图像识别方法中，计算机设备是通过调用目标神经网络模型对目标图像进行图像识别的，而得到目标神经网络模型的流程可以示例性地参见图8。也即是说，图8所示的是一种模型优化方法的流程示意图，该方法可以由上述提及的计算机设备执行，也可以由不同于上述计算机设备的模型优化设备来执行，本申请实施例对此不作限制。为了便于说明，以下以计算机设备执行该模型优化方法为例进行相关阐述。在图8所示的流程图中，计算机设备为了得到目标神经网络模型，执行了三个阶段的模型优化。以下分别对这三个阶段的模型优化方式进行详细阐述。

第一阶段的模型优化：计算机设备先获取第一图像，以及第一图像中目标图像元素的标注类别，进而采用第一神经网络模型(如图8中由801标记的结构)对第一图像进行特征提取，以基于提取出的特征对第一图像中包含的目标图像元素的元素类别进行识别，得到目标图像元素的识别类别，使得计算机设备可以基于目标图像元素的识别类别与标注类别之间的差异，对第一神经网络模型进行优化处理，得到优化后的第一神经网络模型。其中，优化后的第一神经网络模型可以用于对第一图像中的目标图像元素进行准确地识别，得到与标注类别高度相似甚至相同的识别类别。

第二阶段的模型优化：计算机设备获取第一图像及第一图像中目标图像元素的标注类别，并利用优化后的第一神经网络模型对第一图像进行特征提取，以得到第一图像中目标图像元素的元素识别特征。此后，计算机设备将基于提取到的元素识别特征，对第一图像中目标图像元素的元素类别进行识别，得到目标图像元素的识别类别。另外，计算机设备还将采用第二神经网络模型(如图8中由802标记的结构)根据得到的元素识别特征，确定出与目标图像元素的元素类别(即目标类别)具有关联关系的关联类别，进而获取关联类别下的图像元素作为关联图像元素，最终使得第二神经网络模型根据关联图像元素及第一图像执行图像合成处理，得到合成图像。其中，计算机设备可以调用用第二神经网络模型中的BERT(Bidirectional Encoder Representation from Transformers，基于语义理解的双向编码)模块，确定上述关联类别，以及调用第二神经网络模型中的自适应调整模块执行图像合成处理。此外，计算机设备可以获取参考图像，而参考图像是基于第一图像以及与目标图像元素具有关联关系的参考图像元素合成的，用于表征期望计算机设备采用第二神经网络模型合成的图像。那么，计算机设备则可以向着减小合成图像与参考图像之间的差异，以及减小目标图像元素的识别类别与标注类别之间的差异的方向，对优化后的第一神经网络模型以及第二神经网络模型进行模型优化处理，以得到再次优化后的第一神经网络模型，以及优化后的第二神经网络模型。

其中，计算机设备可以示例性地采用式2的方式，确定计算机设备在对优化后的第一神经网络模型以及第二神经网络模型进行模型优化处理时参考的损失值。在式2中，L2表示损失值，l_con表示第二神经网络模型的损失值，l_cls表示优化后的第一神经网络模型的损失值，a和b分别表示第二神经网络模型的权重和优化后的第一神经网络模型的权重，a和b可以是预先设置的，如a＝b＝1。此外，l_con可以是采用上述式1的方式计算得到的，l_cls可以是采用交叉熵损失函数计算得到的，本申请实施例对此不作详述。

L2＝a*l_con+b*l_cl5 式2

第三阶段的模型优化：计算机设备采用再次优化后的第一神经网络模型，对第一图像进行特征提取，并基于提取出的特征对第一图像中目标图像元素的元素类别进行识别，得到相应识别类别，进而基于识别类别与第一图像的标注类别之间的差异，确定第一损失值。此外，计算机设备还将采用优化后的第二神经网络模型，确定出与目标图像元素具有关联关系的参考图像元素，并基于确定出的参考图像元素以及第一图像，合成第二图像，进而根据第二图像与参考图像之间的差异确定第二损失值。其中，此处的参考图像是指期望优化后的第二神经网络模型所合成的第二图像。进一步地，计算机设备还将采用第三神经网络模型(如图8中由803标记的结构)分别对第一图像和第二图像进行特征提取，得到第二图像中各个图像元素的元素识别特征，以及第二图像中各个图像元素之间的关联信息(具体方式可以参见上述步骤S404的相关描述)，使得计算机设备可以调用第三神经网络模型基于各个图像元素的元素识别特征及关联信息，识别得到第二图像的识别结果，该识别结果可以用于指示目标图像元素及参考图像元素的元素类别。基于此，计算机设备可以根据第二图像的识别结果与第二图像的标注识别结果之间的差异，确定第三损失值。其中，第二图像的标注识别结果用于指示期望第三神经网络模型识别得到的识别结果。最终，计算机设备将基于第一损失值、第二损失值以及第三损失值，来确定用于对第三神经网络模型进行优化的目标损失值。

示例性地，计算机设备可以采用式3所示的方式确定目标损失值。在式3中，L_total表示目标损失值，l_cls表示第一损失值，l_con表示第二损失值，l_gcls表示第三损失值，其确定方式可以如式4。此外，x、y、z分别表示第一损失值的权重、第二损失值的权重以及第三损失值的权重，且x、y、z可以是预先设置的固定值，也可以是根据相应损失值的数值进行动态配置的，本申请实施例对此不作限制。

L_total＝x*l_con+y*l_cls+z*l_gcls 式3

在式4中，λ表示调节参数，通常情况下λ＝0.2，当然也可以为其他值，本申请实施例对此不作限制。Y_{pred_a}表示第三神经网络模型确定出的目标图像元素的元素类别，Y_a表示第二图像的标注识别结果中指示的目标图像元素的元素类别；同理地，Y_{pred_b}表示第三神经网络模型确定出的参考图像元素的元素类别，Y_b表示第二图像的标注识别结果中指示的参考图像元素的元素类别。l_CE()表示交叉熵损失函数。

l_gcls＝λl_CE(Y_{pred_a}，Y_a)+(1-λ)l_CE(Y_{pred_b}，Y_b) 式4

值得一提的是，在计算机设备对第三神经网络模型优化的过程中，也可以参考目标损失值对再次优化后的第一神经网络模型，以及优化后的第二神经网络模型进行模型优化处理，而在一种实现方式中，第一神经网络模型和第二神经网络模型可以是同一模型，也可以是同一模型中的不同模块，本申请实施例对此不作限制。此外，当第三神经网络模型的训练收敛之后，计算机设备便可以采用优化后的第三神经网络模型，对目标图像进行图像识别，以得到目标图像的图像识别结果，其示例性的流程示意图可以参见图9，而图9中各个流程的具体实现可以参考上述图2以及图4中相关步骤的描述，故而本申请实施例在此不对图9进行详述。

基于上述图2以及图4的相关实施例，本申请实施例还提出了一种图像识别装置，该装置可以是运行于上述计算机设备中的一个计算机程序。在具体实施例中，该图像识别装置可以用于执行如图2以及图4所示的图像识别方法的相关步骤。请参见图5，该图像识别装置至少包括获取单元1001、特征提取单元1002、特征增强单元1003以及图像识别单元1004，其中：

获取单元1001，用于获取待识别的目标图像，所述目标图像包含至少两个图像元素；

特征提取单元1002，用于对所述目标图像进行特征提取，得到所述目标图像中各个图像元素的元素识别特征；

特征增强单元1003，用于根据所述目标图像中各个图像元素的元素识别特征进行特征增强处理，得到所述目标图像的增强特征，所述增强特征用于表征所述目标图像中各个图像元素之间的关联信息；

图像识别单元1004，用于基于所述目标图像中各个图像元素的元素识别特征，及所述目标图像的增强特征所表征的关联信息，对所述目标图像进行图像识别，得到所述目标图像的图像识别结果，所述图像识别结果用于指示所述目标图像中各个图像元素的元素类别。

在一种实施方式中，所述目标图像的增强特征是是调用目标特征提取模型得到的；特征增强单元1003在用于得到所述目标特征提取模型时，可以具体用于执行：

获取训练数据；其中，所述训练数据包括第一图像中目标图像元素的元素识别特征，第二图像中目标图像元素的元素识别特征，所述第二图像中参考图像元素的元素识别特征，以及所述第二图像的标注信息，所述标注信息用于指示所述参考图像元素与所述目标图像元素之间是否存在关联关系；

采用参考特征提取模型，根据所述第一图像中目标图像元素的元素识别特征，所述第二图像中目标图像元素的元素识别特征，以及所述第二图像中参考图像元素的元素识别特征进行特征增强处理，得到所述第二图像的增强特征，所述第二图像的增强特征用于指示：所述第二图像中的目标图像元素与参考图像元素之间是否存在关联关系；

向着减小所述第二图像的标注信息与所述第二图像的增强特征所指示的信息之间的差异的方向，对所述参考特征提取模型进行模型优化处理，以得到所述目标特征提取模型。

在又一种实施方式中，特征增强单元1003还可以具体用于执行：

对所述第一图像中目标图像元素的元素识别特征，及所述第二图像中各个图像元素的元素识别特征进行特征融合，得到所述第二图像的参考识别特征；

基于所述参考识别特征及所述第二图像中所述目标图像元素的元素识别特征，生成所述第二图像的增强特征。

获取所述第一图像，所述第一图像中的目标图像元素的元素类别为目标类别；

确定与所述目标类别具有关联关系的参考类别，并获取所述参考类别下的图像元素，得到所述参考图像元素；

基于所述第一图像及所述参考图像元素，合成所述第二图像。

在又一种实施方式中，所述第二图像是采用目标图像生成模型生成的，特征增强单元1003得到所述目标图像生成模型时，可以具体用于执行：

采用参考图像生成模型，确定与所述目标类别具有关联关系的关联类别，并获取所述关联类别下的图像元素，得到关联图像元素；

根据所述第一图像及所述关联图像元素执行图像合成处理，得到合成图像；

获取参考图像，所述参考图像包含所述目标图像元素，以及与所述目标图像元素之间存在关联关系的图像元素；

向着增大所述合成图像与所述参考图像之间相似度的方向，对所述参考图像生成模型进行模型优化处理，以得到所述目标图像生成模型。

获取所述参考图像的像素点标注信息，所述像素点标注信息用于指示所述参考图像中各个参考像素点所属的图像元素对应的元素类别；

确定所述合成图像中各个像素点所属的图像元素对应的元素类别，所述合成图像中的像素点与所述参考图像中的参考像素点一一对应；

向着增大所述合成图像中每个像素点所属的图像元素对应的元素类别，与相应参考像素点所属的图像元素对应的元素类别之间的相似度的方向，对所述参考图像生成模型进行模型优化处理，以得到所述目标图像生成模型。

获取所述第一图像以及参考合成图像，所述第一图像中的目标图像元素的元素类别为目标类别，所述参考合成图像包含所述目标图像元素，以及与所述目标图像元素之间存在关联关系的图像元素；

根据所述第一图像中目标图像元素的元素识别特征，确定与所述目标类别具有关联关系的参考类别；

获取所述参考类别下的图像元素，得到所述参考图像元素，并根据所述第一图像及所述参考图像元素，合成所述第二图像；

所述向着减小所述第二图像的标注信息与所述第二图像的增强特征所指示的信息之间的差异的方向，对所述参考特征提取模型进行模型优化处理，以得到所述目标特征提取模型，包括：

向着减小所述第二图像的标注信息与所述第二图像的增强特征所指示的信息之间的差异，以及增大所述第二图像与所述参考合成图像之间相似度的方向，对所述参考特征提取模型进行模型优化处理，以得到所述目标特征提取模型。

根据本申请的一个实施例，图10所示的图像识别装置中的各个单元是基于逻辑功能划分的，上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者，其中的某个(某些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。在本申请的其他实施例中，上述图像识别装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协助实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如上述计算机设备的通用通信设备上，运行能够执行如图2和图4所示的方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图10所示的图像识别装置，以及来实现本申请实施例的图像识别方法。计算机程序可以记载于例如计算机存储介质上，并通过计算机存储介质装载于上述计算机设备中，并在其中运行。

在本申请实施例中，图像识别装置在对目标图像进行图像识别时，通过对目标图像进行特征提取，得到了各个图像元素的元素识别特征，并进一步基于各个图像元素的元素识别特征执行了特征增强处理，以得到了用于表征目标图像中各个图像元素之间关联信息的增强特征，而图像识别装置实现对各个图像元素的元素类别的识别时，是基于各个图像元素的元素识别特征以及增强特征所表征的关联信息共同执行的。也就是说，在本申请实施例中，图像识别装置在对各个图像元素的元素类别进行识别时，不仅利用了各个图像元素的元素识别特征，还参考了各个图像元素涉及的关联关系，进一步使得图像识别装置可以参考该关联关系指示的关联元素的元素识别特征，来对各个图像元素进行识别，极大地丰富了图像识别装置所参考的特征信息，从而使得图像识别结果的准确度得到了有效提升。

基于上述方法实施例以及装置实施例的相关描述，本申请实施例还提供了一种计算机设备。请参见图11。该计算机设备至少包括处理器1101以及计算机存储介质1102，且处理器1101以及计算机存储介质1102通过总线或其他方式连接。其中，上述提及的计算机存储介质1102是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质1102既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质1102提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器1101加载并执行的一条或多条的计算机程序，这些计算机程序可以是一个或一个以上的程序代码。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的存储介质。处理器1101(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。

在一个实施例中，可以由处理器1101加载并执行计算机存储介质1102中存放的一条或多条计算机程序，以实现上述有关图2以及图4所示的方法实施例中的相应方法步骤。在具体实现中，计算机存储介质1102中的一条或多条计算机程序可以由处理器1101加载并执行如下步骤：

在一种实施方式中，所述目标图像的增强特征是是调用目标特征提取模型得到的；所述处理器1101可以具体用于加载并执行：

在又一种实施方式中，所述处理器1101还可以具体用于加载并执行：

在又一种实施方式中，所述第二图像是采用目标图像生成模型生成的，所述处理器1101还可以具体用于加载并执行：

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储了上述图像识别方法对应的一条或多条计算机程序，当处理器加载并执行该一条或多条计算机程序，可以实现实施例中对图像识别方法的描述，本申请实施例在此不再赘述。对应地，对采用相同方法的有益效果的描述，在此也不再赘述。此外，值得一提的是，计算机程序可以被部署在一个或多个能够相互通信的设备上执行。

此外，需要说明的是，根据本申请实施例的一个方面，还提供了一种程序产品或计算机程序，该程序产品包括计算机程序，该计算机程序存储在计算机存储介质中。计算机设备中的处理器从计算机存储介质读取该计算机程序，然后执行该计算机程序，进而使得该计算机设备能够执行上述图2以及图4所示的图像识别方法的相关实施例中，针对各方面的各种可选方式所提出的实现方法。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，而计算机程序可存储于计算机存储介质中，并且该计算机程序在执行时，可包括上述图像识别方法的全部实施例相关的流程。其中，计算机存储介质可包括磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

另外，可以理解的是，以上所揭露的仅为本申请的局部实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种图像识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标图像的增强特征是是调用目标特征提取模型得到的；得到所述目标特征提取模型的方式包括：

3.根据权利要求2所述的方法，其特征在于，所述采用参考特征提取模型，根据所述第一图像中目标图像元素的元素识别特征，所述第二图像中目标图像元素的元素识别特征，以及所述第二图像中参考图像元素的元素识别特征进行特征增强处理，得到所述第二图像的增强特征，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述第二图像是采用目标图像生成模型生成的，得到所述目标图像生成模型的方式包括：

6.根据权利要求5所述的方法，其特征在于，所述向着增大所述合成图像与所述参考图像之间相似度的方向，对所述参考图像生成模型进行模型优化处理，以得到所述目标图像生成模型，包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.一种图像识别装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

处理器，所述处理器用于实现一条或多条计算机程序；

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并实现如权利要求1-7任一项所述的图像识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并实现如权利要求1-7任一项所述的图像识别方法。