CN115331062B

CN115331062B - 图像识别方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN115331062B
Application number: CN202211040568.7A
Authority: CN
Inventors: 申世伟; 李家宏
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2023-08-08
Anticipated expiration: 2042-08-29
Also published as: CN115331062A

Abstract

本公开关于一种图像识别方法、装置、电子设备和计算机可读存储介质，图像识别方法包括：获取待识别图像；利用图像识别模型的特征提取网络，提取待识别图像的图像特征向量，将图像特征向量按照预设比例分割为第一特征向量和第二特征向量；将第一特征向量输入图像识别模型的分类网络，得到候选预估类别及其预估概率；在预估概率小于概率阈值的情况下，获取多个预先配置的携带有类别标签的检索特征向量；根据第二特征向量和检索特征向量，确定预估类别。本公开能够较好地结合图像分类的基于大数据统计的归纳推理能力和图像检索的局部泛化能力，提升图像识别模型整体识别效果。

Description

图像识别方法、装置、电子设备和计算机可读存储介质

技术领域

本公开涉及图像技术领域，尤其涉及一种图像识别方法、装置、电子设备和计算机可读存储介质。

背景技术

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，作为人工智能的一个重要领域，在日常生活中得到了日渐广泛的应用。

分类和检索是解决识别类型问题的两种常用方式。其中，分类是基于大量的样本学习归纳总结出某个类别的常用知识，进而推理待识别图像是否属于该类别。检索是从单一样本出发，通过计算待识别图像的特征与样本的特征之间的相似度，来判断待识别图像是否与该样本为同一类别。从侧重方向上来说，图像分类侧重从整体出发，图像检索则侧重从局部出发。虽然侧重方向不同，但现有的图像分类或者图像检索都是从单一维度进行识别，识别能力有限，在某些高准召指标要求的业务中，例如安全业务、内容运营业务，较难满足业务要求。

发明内容

本公开提供一种图像识别方法、装置、电子设备和计算机可读存储介质，以至少解决相关技术中的如何提升图像识别效果的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种图像识别方法，所述图像识别方法包括：获取待识别图像；利用图像识别模型的特征提取网络，提取所述待识别图像的图像特征向量，将所述图像特征向量按照预设比例分割为第一特征向量和第二特征向量，其中，所述第一特征向量用于图像分类，所述第二特征向量用于图像检索；将所述第一特征向量输入所述图像识别模型的分类网络，得到候选预估类别及其预估概率；在所述预估概率小于概率阈值的情况下，获取多个预先配置的携带有类别标签的检索特征向量；根据所述第二特征向量和所述检索特征向量，确定所述预估类别。

可选地，所述携带有类别标签的检索特征向量通过以下步骤得到：获取携带有所述类别标签的第一样本图像；利用所述特征提取网络，提取所述第一样本图像的图像特征向量，将所述第一样本图像的图像特征向量按照所述预设比例分割为第三特征向量和第四特征向量；其中，所述第三特征向量用于图像分类，所述第四特征向量用于图像检索；将所述第一样本图像的图像特征向量中的所述第三特征向量输入所述分类网络，得到所述第一样本图像的候选预估类别及其预估概率；针对所述第一样本图像，在所述预估概率小于所述概率阈值、且所述候选预估类别与所述第一样本图像的所述类别标签相符的情况下，将所述第一样本图像的所述图像特征向量中的所述第四特征向量作为所述检索特征向量，并与所述第一样本图像的所述类别标签相关联，得到所述携带有类别标签的检索特征向量。

可选地，所述根据所述第二特征向量和所述检索特征向量，确定所述预估类别，包括：计算所述第二特征向量与各个所述检索特征向量的相似度；根据各个所述相似度，确定所述预估类别。

可选地，所述根据各个所述相似度，确定所述预估类别，包括：确定各个所述相似度中的最大值，作为候选相似度；在所述候选相似度大于或等于相似度阈值的情况下，将所述候选相似度对应的所述类别标签的类别，作为所述预估类别。

可选地，所述图像识别模型通过以下步骤训练得到：获取第二样本图像；对所述第二样本图像进行至少两次不同的数据增广处理，得到所述第二样本图像对应的至少两个增广图像；利用待训练的图像识别模型，提取每个所述增广图像的图像特征向量，将每个所述增广图像的图像特征向量按照所述预设比例分割为第五特征向量和第六特征向量；其中，所述第五特征向量用于图像分类，所述第六特征向量用于图像检索；将每个所述增广图像的所述第五特征向量输入所述图像识别模型的分类网络，获得每个所述增广图像的候选预估类别；根据每个所述增广图像的候选预估类别和所述第二样本图像的类别标签，确定第一损失值；对比所述至少两个增广图像的图像特征向量中的所述第六特征向量，确定第二损失值；根据所述第一损失值和所述第二损失值，确定总损失值；基于所述总损失值，调整所述待训练的图像识别模型的特征提取网络和分类网络的参数，得到所述图像识别模型。

可选地，所述根据每个所述增广图像的所述候选预估类别和所述第二样本图像的类别标签，确定第一损失值，包括：在所述第二样本图像未携带所述类别标签的情况下，将预设损失值作为所述第一损失值。

可选地，在所述将所述第一特征向量输入所述图像识别模型的分类网络，得到候选预估类别及其预估概率之后，所述图像识别方法还包括：在所述预估概率大于或等于所述概率阈值的情况下，将所述候选预估类别作为预估类别。

根据本公开的第二方面，提供了一种图像识别装置，所述图像识别装置包括：获取单元，被配置为执行获取待识别图像；提取单元，被配置为执行利用图像识别模型的特征提取网络，提取所述待识别图像的图像特征向量，将所述图像特征向量按照预设比例分割为第一特征向量和第二特征向量，其中，所述第一特征向量用于图像分类，所述第二特征向量用于图像检索；分类单元，被配置为执行将所述第一特征向量输入所述图像识别模型的分类网络，得到候选预估类别及其预估概率；所述获取单元还被配置为执行在所述预估概率小于概率阈值的情况下，获取多个预先配置的携带有类别标签的检索特征向量；确定单元，被配置为执行根据所述第二特征向量和所述检索特征向量，确定所述预估类别。

可选地，所述确定单元还被配置为执行计算所述第二特征向量与各个所述检索特征向量的相似度；根据各个所述相似度，确定所述预估类别。

可选地，所述确定单元还被配置为执行确定各个所述相似度中的最大值，作为候选相似度；在所述候选相似度大于或等于相似度阈值的情况下，将所述候选相似度对应的所述类别标签的类别，作为所述预估类别。

可选地，所述确定单元还被配置为执行在所述预估概率大于或等于所述概率阈值的情况下，将所述候选预估类别作为预估类别。

根据本公开的第三方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的图像识别方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的图像识别方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的图像识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例的图像识别方法、装置、电子设备和计算机可读存储介质，通过优先结合第一特征向量使用图像分类的全局召回能力进行识别，并针对图像分类时预估概率较小的情况，结合第二特征向量使用图像检索的局部召回能力进行识别，能够较好地结合图像分类的基于大数据统计的归纳推理能力和图像检索的局部泛化能力，辅助图像识别模型整体识别效果的进一步提升。此外，图像识别模型的特征提取网络可按照常规方式提取图像特征向量，通过将提取到的图像特征向量按照预设比例分割为第一特征向量和第二特征向量，分别应用于图像分类和图像检索，一方面能够令两种不同类型的识别进程相对独立，保障两种识别各自相对准确、可靠，另一方面又不必改变特征提取网络的结构来分别提取第一特征向量和第二特征向量，可降低图像识别模型的优化成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出相关技术中的图像分类的流程示意图。

图2是示出相关技术中的图像检索的流程示意图。

图3是示出根据本公开的示例性实施例的图像识别方法的流程图。

图4是示出根据本公开的示例性实施例的图像识别模型的训练方法的流程图。

图5是示出根据本公开的示例性实施例的图像识别模型的训练方法的流程示意图。

图6是示出根据本公开的示例性实施例的图像识别装置的框图。

图7是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，作为人工智能的一个重要领域，在日常生活中得到了日渐广泛的应用。

图像的传统识别流程分为四个步骤：图像采集→图像预处理→特征提取→图像识别。图像采集就是指获取到待识别的图像。图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像识别的可靠性。特征提取是对预处理后的图像数据进行多次变换计算，最后提取出图像中特征性的信息，该信息常以特征向量的形式存在。最后通过分析提取到的特征，实现对图像类型的识别。分类和检索是解决识别类型问题的两种常用方式。

分类是基于大量的样本学习归纳总结出某个类别的常用知识，进而推理待识别图像是否属于该类别。参照图1，图像分类可以认为是由特征提取器和分类器组成，分类器可利用特征提取器提取到的特征，计算待识别图像属于某个类别的概率，进而基于概率判断是否属于该类别，例如图1所示的判断待识别图像中是否为“狗”。

检索是从单一样本出发，通过计算待识别图像的特征与样本的特征之间的相似度，来判断待识别图像是否与该样本为同一类别。参照图2，图像检索可以认为是由特征提取器和度量器组成，其中度量器主要是将待识别的图像提取后的特征与检索库的特征做特征比对，找出相似度较高的top N，待识别图像的标签由这N个相似度较高的图像的标签决定，比如N＝1，则直接取最相似的图像的标签。仍以图1所示的待识别图像为例，图2采用图像检索的方法，从检索库中找出了相似度最高(为0.95)的top 1，实现识别。

从侧重方向上来说，图像分类侧重从整体出发，图像检索则侧重从局部出发。虽然侧重方向不同，但现有的图像分类或者图像检索都是从单一维度进行识别，识别能力有限，在某些高准召指标要求的业务中，例如安全业务、内容运营业务，较难满足业务要求。

根据本公开的示例性实施例的图像识别方法，考虑到图像检索具备较强的局部泛化能力，在全局上相较于图像分类，准确率高但召回率低些，通过优先结合待识别图像的第一特征向量，使用图像分类的全局召回能力进行识别，并针对图像分类时预估概率较小的情况，结合待识别图像的第二特征向量，使用图像检索的局部召回能力进行识别，能够较好地结合图像分类的基于大数据统计的归纳推理能力和图像检索的局部泛化能力，辅助图像识别模型整体识别效果的进一步提升。此外，图像识别模型的特征提取网络可按照常规方式提取图像特征向量，通过将提取到的图像特征向量按照预设比例分割为第一特征向量和第二特征向量，分别应用于图像分类和图像检索，一方面能够令两种不同类型的识别进程相对独立，保障两种识别各自相对准确、可靠，另一方面又不必改变特征提取网络的结构来分别提取第一特征向量和第二特征向量，可降低图像识别模型的优化成本。

下面，将参照图3至图7具体描述根据本公开的示例性实施例的图像识别方法和图像识别装置。

图3是示出根据本公开的示例性实施例的图像识别方法的流程图。应理解，根据本公开的示例性实施例的图像识别方法可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中实现，也可以在诸如服务器的设备中实现。

参照图3，在步骤301，获取待识别图像。

在步骤302，利用图像识别模型的特征提取网络，提取待识别图像的图像特征向量，将图像特征向量按照预设比例分割为第一特征向量和第二特征向量。其中，第一特征向量用于图像分类，第二特征向量用于图像检索。特征提取网络可按照常规方式提取图像特征向量，作为示例，特征提取网络例如为resnet50、inception-v3。分割图像特征向量时，可将图像特征向量二等分，即预设比例为1:1，得到第一特征向量和第二特征向量。

在步骤303，将第一特征向量输入图像识别模型的分类网络，得到候选预估类别及其预估概率。此步骤可利用图像分类技术识别待识别图像。

可选地，在步骤303得到的预估概率大于或等于概率阈值的情况下，将候选预估类别作为预估类别。也就是在预估概率足够大时，可认为识别结果可靠，直接使用其识别结果。

在步骤304，在预估概率小于概率阈值的情况下，获取多个预先配置的携带有类别标签的检索特征向量。

在步骤305，根据第二特征向量和检索特征向量，确定预估类别。在图像分类的预估概率较小时，使用图像检索，通过比对第二特征向量和检索特征向量，实现识别。

可选地，携带有类别标签的检索特征向量通过以下步骤得到：获取携带有类别标签的第一样本图像；利用特征提取网络，提取第一样本图像的图像特征向量，将第一样本图像的图像特征向量按照预设比例分割为第三特征向量和第四特征向量；其中，第三特征向量用于图像分类，第四特征向量用于图像检索；将第一样本图像的图像特征向量中的第三特征向量输入分类网络，得到第一样本图像的候选预估类别及其预估概率；针对第一样本图像，在预估概率小于概率阈值、且候选预估类别与第一样本图像的类别标签相符的情况下，将第一样本图像的图像特征向量中的第四特征向量作为检索特征向量，并与第一样本图像的类别标签相关联，得到携带有类别标签的检索特征向量。预估概率小于概率阈值、且候选预估类别与类别标签相符的第一样本图像，可认为是未能通过图像分类较可靠地识别出类别的样本，与需要利用图像检索来补充识别的待识别图像所面临的情况相似。通过将这部分第一样本图像的第四特征向量作为检索特征向量，能够增强利用图像检索实现补充识别的识别效果。

可选地，步骤305包括：计算第二特征向量与各个检索特征向量的相似度；根据各个相似度，确定预估类别。通过计算相似度，可以形象将第二特征向量与检索特征向量的对比量化，实现可靠识别。

对于根据各个相似度，确定预估类别的步骤，在一些实施例中，该步骤包括：确定各个相似度中数值最大的相似度对应的类别标签的类别，作为预估类别。该实施例符合常规图像检索的方案，可从检索特征向量对应的类别中选择与待识别图像的第二特征向量最接近的一个，作为预估类别，实现基于图像检索的图像识别。

在另一些实施例中，该步骤包括：确定各个相似度中的最大值，作为候选相似度；在候选相似度大于或等于相似度阈值的情况下，将候选相似度对应的类别标签的类别，作为预估类别。通过进一步配置相似度阈值，能够在数值最大的相似度(即候选相似度)足够大时，才将其对应的类别作为预估类别，能够降低将假类误判为正类的可能，进一步提升识别的准确率，提升识别效果。作为示例，在候选相似度小于相似度阈值的情况下，将待识别图像判定为“置信度较低，无法识别图像类别”。

接下来对图像识别模型的训练流程进行介绍。

参照图4，在步骤401，获取第二样本图像。应理解，为实现训练，第二样本图像的数量通常为多个，训练时可针对每个第二样本图像逐个执行训练流程，也可以将全部第二样本图像分为多组，逐组执行训练流程，后一次执行训练流程时，是基于前一次执行训练流程得到的图像识别模型继续进行的。每次执行训练流程所能使用的图像数量由硬件设备的容量决定。此外，至少部分第二样本图像需携带有类别标签，以实现强监督训练。后续将对此做进一步说明。

在步骤402，对第二样本图像进行至少两次不同的数据增广处理，得到第二样本图像对应的至少两个增广图像。单幅图像的常用数据增广方法包括图像裁剪和图像变换，作为示例，可对样本图像进行随机裁剪，又如可变换样本图像的亮度、色差、对比度、灰白等。应理解，由相同的第二样本图像得到的不同增广图像虽然为不同的图像，但实质内容相同。此外，由于每次执行训练流程所能使用的图像数量有限，若单个第二样本图像对应得到的增广图像越多，那么一次训练能够使用的第二样本图像就会相应减少，所以需要合理选择数据增广处理的次数。

在步骤403，利用待训练的图像识别模型，提取每个增广图像的图像特征向量，将图像特征向量按照预设比例分割为第一特征向量和第二特征向量，并获得每个增广图像的候选预估类别。

在步骤404，根据每个增广图像的候选预估类别和第二样本图像的类别标签，确定第一损失值。该步骤对应于基于图像分类的强监督训练。通过针对各个增广图像分别执行基于图像分类的强监督训练，能够提升强监督训练的样本数据量，提升分类识别效果。具体来说，根据单个增广图像的候选预估类别和该增广图像对应的第二样本图像的类别标签，可计算出一个分类损失，再计算这些分类损失的统计值，例如，但不限于，平均值、中位数、众数等(后续描述的统计值与之同理，不再赘述)，作为第一损失值。应理解，当一次训练使用多个第二样本图像时，可计算这些第二样本图像对应的全部增广图像的分类损失的统计值，作为第一损失值。如前所述，分类网络在得到候选预估类别时还会一并得到预估概率，用于反映所识别的图像属于候选预估类别的可能性，分类损失可以是该预估概率与类别标签对应的类别的交叉熵损失。交叉熵损失是分类问题中常用的一种损失函数，属于本领域成熟技术，在此不作展开说明。

在步骤405，对比至少两个增广图像的图像特征向量中的第二特征向量，确定第二损失值。该步骤对应于基于图像检索的自监督训练。通过对比由同一第二样本图像得到的形式不同、实质内容相同的增广图像，进行自监督训练，可令训练得到的图像识别模型具备针对实质内容相同的不同图像提取到相近的图像特征向量的能力，从而提升训练得到的图像识别模型所提取的图像特征向量的泛化性，提升训练得到的图像识别模型推理的鲁棒性。作为示例，若同一第二样本图像得到的增广图像的数量为两个，可直接计算二者的特征向量之间的距离，例如计算cos距离，作为该第二样本图像的对比损失；若同一第二样本图像得到的增广图像是数量大于两个，则可先以一定的方式构建多个增广图像对，计算这些增广图像对的特征向量的距离统计值，作为该第二样本图像的对比损失。构建增广图像对的方法例如是穷举所有增广图像对，又如是将其中一个增广图像与其他所有增广图像分别成对，本公开对此不作限制。此外，对于一次训练只使用一个第二样本图像的情况，可直接将该第二样本图像的对比损失作为第二损失值；对于一次训练使用多个第二样本图像的情况，可将当次使用的全部第二样本图像的对比损失的统计值作为第二损失值。

应理解，步骤404和步骤405的执行顺序无需限制。通过将自监督和强监督的训练方式相结合，可实现多任务训练，相比只用有监督训练，得到的图像识别模型能够在多个业务场景下稳定获得识别效果的提升。

在步骤406，根据第一损失值和第二损失值，确定总损失值。作为示例，可将第一损失值与第二损失值的和值作为总损失值。

在步骤407，基于总损失值，调整待训练的图像识别模型的特征提取网络和分类网络的参数，得到图像识别模型。参照步骤401的描述，在所有第二样本图像都参与训练流程来调整模型参数后，就可得到训练后的图像识别模型。

此外，上文描述到，至少部分第二样本图像需携带有类别标签，以实现强监督训练。这意味着，还可以有部分第二样本图像是未携带类别标签的。基于此，步骤404可包括：在第二样本图像未携带类别标签的情况下，将预设损失值作为第一损失值。携带有类别标签的第二样本图像数量相对较少，与之形成鲜明对比的是大量的无标注图像，通过将这些图像作为未携带类别标签的第二样本图像，可大幅增加训练的样本数据量，有助于提升训练效果。对于这些未携带类别标签的第二样本图像，第二损失值(或者说对比损失)可以正常计算得到，但由于没有类别标签，无法计算第一损失值(或者说分类损失)。通过配置预设损失值，直接将预设损失值作为未携带类别标签的第二样本图像对应的分类损失，可保障训练的顺利进行。作为示例，预设损失值可为0，也就是默认分类网络对未携带类别标签的第二样本图像的识别结果是正确的。当然，预设损失值也可以设置为其他值，以提升方案灵活性。应理解，携带有类别标签的第二样本图像需占到全部第二样本图像中的至少一部分，也就是不能仅使用未携带类别标签的第二样本图像。

参照图5，在该具体实施例中，对于单次的训练流程，首先获取N个图像作为第二样本图像。对每个第二样本图像，通过随机裁剪，得到两个不同的增广图像，即图5所示的增广图像1和增广图像2，进而得到2N个增广图像。

然后，将这2N个增广图像输入到图像识别模型的特征提取网络，假设得到的图像特征向量是维度为2D的特征向量(一般为2048维或1024维)，将该特征向量二等分，得到两个D维向量，分别作为第五特征向量和第六特征向量。

接下来计算总损失值。一方面，将上述2N个增广图像的第五特征向量输入图像识别模型的分类网络，得到每个增广图像的候选预估类别和预估概率，继而结合增广图像对应的第二样本图像的类别标签，计算得到每个增广图像的分类损失，再将2N个增广图像的分类损失的平均值作为第一损失值L1。另一方面，计算同一第二样本图像对应的两个增广图像的第六特征向量的距离，作为该第二样本图像的对比损失，再将N个第二样本图像的对比损失的平均值作为第二损失值L2。即

其中，D_i1表示第i个第二样本图像的第1个增广图像的第六特征向量，D_i2表示第i个第二样本图像的第2个增广图像的第六特征向量，||||符号表示两个特征向量之间的距离度量(一般采用cos距离)，第二损失值L2就等于N个第二样本图像的两个增广图像间的第六特征向量距离的平均值。最后总损失值Loss＝L1+L2。

最后基于总损失值调整模型参数。设置学习率为0.01，优化器为SGD(StochasticGradient Descent，随机梯度下降)，迭代次数为20万次，且使用label-smoothing来平滑标签，提升模型的泛化性，优化上述总损失值Loss，直到总损失值不再下降或者达到总的迭代次数。

图6是示出根据本公开的示例性实施例的图像识别装置的框图。应理解，根据本公开的示例性实施例的图像识别装置可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中以软件、硬件或软件硬件结合的方式实现，也可以在诸如服务器的设备中实现。

参照图6，图像识别装置600包括获取单元601、提取单元602、分类单元603、确定单元604。

获取单元601可获取待识别图像。

提取单元602可利用图像识别模型的特征提取网络，提取待识别图像的图像特征向量，将图像特征向量按照预设比例分割为第一特征向量和第二特征向量，其中，第一特征向量用于图像分类，第二特征向量用于图像检索。

分类单元603可将第一特征向量输入图像识别模型的分类网络，得到候选预估类别及其预估概率。

获取单元601还可在预估概率概率阈值的情况下，获取多个预先配置的携带有类别标签的检索特征向量。

确定单元604可根据第二特征向量和检索特征向量，确定预估类别。

确定单元604还可在预估概率大于或等于概率阈值的情况下，将候选预估类别作为预估类别。

可选地，携带有类别标签的检索特征向量通过以下步骤得到：获取携带有类别标签的第一样本图像；利用特征提取网络，提取第一样本图像的图像特征向量，将第一样本图像的图像特征向量按照预设比例分割为第三特征向量和第四特征向量；其中，第三特征向量用于图像分类，第四特征向量用于图像检索；将第一样本图像的图像特征向量中的第三特征向量输入分类网络，得到第一样本图像的候选预估类别及其预估概率；针对第一样本图像，在预估概率小于概率阈值、且候选预估类别与第一样本图像的类别标签相符的情况下，将第一样本图像的图像特征向量中的第四特征向量作为检索特征向量，并与第一样本图像的类别标签相关联，得到携带有类别标签的检索特征向量。

可选地，确定单元604还可计算第二特征向量与各个检索特征向量的相似度；根据各个相似度，确定预估类别。

可选地，确定单元604还可确定各个相似度中的最大值，作为候选相似度；在候选相似度大于或等于相似度阈值的情况下，将候选相似度对应的类别标签的类别，作为预估类别。

可选地，图像识别模型通过以下步骤训练得到：获取第二样本图像；对第二样本图像进行至少两次不同的数据增广处理，得到第二样本图像对应的至少两个增广图像；利用待训练的图像识别模型，提取每个增广图像的图像特征向量，将每个增广图像的图像特征向量按照预设比例分割为第五特征向量和第六特征向量；其中，第五特征向量用于图像分类，第六特征向量用于图像检索；将每个增广图像的第五特征向量输入图像识别模型的分类网络，获得每个增广图像的候选预估类别；根据每个增广图像的候选预估类别和第二样本图像的类别标签，确定第一损失值；对比至少两个增广图像的图像特征向量中的第六特征向量，确定第二损失值；根据第一损失值和第二损失值，确定总损失值；基于总损失值，调整待训练的图像识别模型的特征提取网络和分类网络的参数，得到图像识别模型。

可选地，根据每个增广图像的候选预估类别和第二样本图像的类别标签，确定第一损失值，包括：在第二样本图像未携带类别标签的情况下，将预设损失值作为第一损失值。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据本公开的示例性实施例的电子设备的框图。

参照图7，电子设备700包括至少一个存储器701和至少一个处理器702，所述至少一个存储器701中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器702执行时，执行根据本公开的示例性实施例的图像识别模型的训练方法或图像识别方法。

作为示例，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备700并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备700中，处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器701中的指令或代码，其中，存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器701可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器702能够读取存储在存储器中的文件。

此外，电子设备700还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的图像识别模型的训练方法或图像识别方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的图像识别模型的训练方法或图像识别方法。

根据本公开的示例性实施例的图像识别方法、装置、电子设备和计算机可读存储介质，通过优先结合第一特征向量使用图像分类的全局召回能力进行识别，并针对图像分类时预估概率较小的情况，结合第二特征向量使用图像检索的局部召回能力进行识别，能够较好地结合图像分类的基于大数据统计的归纳推理能力和图像检索的局部泛化能力，辅助图像识别模型整体识别效果的进一步提升。此外，图像识别模型的特征提取网络可按照常规方式提取图像特征向量，通过将提取到的图像特征向量按照预设比例分割为第一特征向量和第二特征向量，分别应用于图像分类和图像检索，一方面能够令两种不同类型的识别进程相对独立，保障两种识别各自相对准确、可靠，另一方面又不必改变特征提取网络的结构来分别提取第一特征向量和第二特征向量，可降低图像识别模型的优化成本。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，所述图像识别方法包括：

获取待识别图像；

利用图像识别模型的特征提取网络，提取所述待识别图像的图像特征向量，将所述图像特征向量按照预设比例分割为第一特征向量和第二特征向量，其中，所述第一特征向量用于图像分类，所述第二特征向量用于图像检索；

将所述第一特征向量输入所述图像识别模型的分类网络，得到候选预估类别及其预估概率；

在所述预估概率小于概率阈值的情况下，获取多个预先配置的携带有类别标签的检索特征向量；

根据所述第二特征向量和所述检索特征向量，确定所述预估类别；

其中，所述携带有类别标签的检索特征向量通过以下步骤得到：

获取携带有所述类别标签的第一样本图像；

利用所述特征提取网络，提取所述第一样本图像的图像特征向量，将所述第一样本图像的图像特征向量按照所述预设比例分割为第三特征向量和第四特征向量；其中，所述第三特征向量用于图像分类，所述第四特征向量用于图像检索；

将所述第一样本图像的图像特征向量中的所述第三特征向量输入所述分类网络，得到所述第一样本图像的候选预估类别及其预估概率；

针对所述第一样本图像，在所述预估概率小于所述概率阈值、且所述候选预估类别与所述第一样本图像的所述类别标签相符的情况下，将所述第一样本图像的所述图像特征向量中的所述第四特征向量作为所述检索特征向量，并与所述第一样本图像的所述类别标签相关联，得到所述携带有类别标签的检索特征向量。

2.如权利要求1所述的图像识别方法，其特征在于，所述根据所述第二特征向量和所述检索特征向量，确定所述预估类别，包括：

计算所述第二特征向量与各个所述检索特征向量的相似度；

根据各个所述相似度，确定所述预估类别。

3.如权利要求2所述的图像识别方法，其特征在于，所述根据各个所述相似度，确定所述预估类别，包括：

确定各个所述相似度中的最大值，作为候选相似度；

在所述候选相似度大于或等于相似度阈值的情况下，将所述候选相似度对应的所述类别标签的类别，作为所述预估类别。

4.如权利要求1到3中的任一权利要求所述的图像识别方法，其特征在于，所述图像识别模型通过以下步骤训练得到：

获取第二样本图像；

对所述第二样本图像进行至少两次不同的数据增广处理，得到所述第二样本图像对应的至少两个增广图像；

利用待训练的图像识别模型，提取每个所述增广图像的图像特征向量，将每个所述增广图像的图像特征向量按照所述预设比例分割为第五特征向量和第六特征向量；其中，所述第五特征向量用于图像分类，所述第六特征向量用于图像检索；

将每个所述增广图像的所述第五特征向量输入所述图像识别模型的分类网络，获得每个所述增广图像的候选预估类别；

根据每个所述增广图像的候选预估类别和所述第二样本图像的类别标签，确定第一损失值；

对比所述至少两个增广图像的图像特征向量中的所述第六特征向量，确定第二损失值；

根据所述第一损失值和所述第二损失值，确定总损失值；

基于所述总损失值，调整所述待训练的图像识别模型的特征提取网络和分类网络的参数，得到所述图像识别模型。

5.如权利要求4所述的图像识别方法，其特征在于，所述根据每个所述增广图像的所述候选预估类别和所述第二样本图像的类别标签，确定第一损失值，包括：

在所述第二样本图像未携带所述类别标签的情况下，将预设损失值作为所述第一损失值。

6.如权利要求1到3中的任一权利要求所述的图像识别方法，其特征在于，在所述将所述第一特征向量输入所述图像识别模型的分类网络，得到候选预估类别及其预估概率之后，所述图像识别方法还包括：

在所述预估概率大于或等于所述概率阈值的情况下，将所述候选预估类别作为预估类别。

7.一种图像识别装置，其特征在于，所述图像识别装置包括：

获取单元，被配置为执行获取待识别图像；

提取单元，被配置为执行利用图像识别模型的特征提取网络，提取所述待识别图像的图像特征向量，将所述图像特征向量按照预设比例分割为第一特征向量和第二特征向量，其中，所述第一特征向量用于图像分类，所述第二特征向量用于图像检索；

分类单元，被配置为执行将所述第一特征向量输入所述图像识别模型的分类网络，得到候选预估类别及其预估概率；

所述获取单元还被配置为执行在所述预估概率小于概率阈值的情况下，获取多个预先配置的携带有类别标签的检索特征向量；

确定单元，被配置为执行根据所述第二特征向量和所述检索特征向量，确定所述预估类别；

获取携带有所述类别标签的第一样本图像；

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的图像识别方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的图像识别方法。