CN112241764B

CN112241764B - 图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN112241764B
Application number: CN202011148154.7A
Authority: CN
Inventors: 杨敏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2023-08-08
Anticipated expiration: 2040-10-23
Also published as: CN112241764A; US20210326639A1; EP3869403A2; US11899710B2; EP3869403A3

Abstract

本申请公开了图像识别方法、装置、电子设备及存储介质，涉及人工智能领域、计算机视觉、深度学习以及图像处理等领域。具体实现方案为：采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，得到训练后的目标分类网络，其中，所述第一子网络及所述第二子网络为网络结构一致且共享一套权重的双胞胎网络；将待识别的图像数据，输入所述目标分类网络，得到识别结果。采用本申请实施例，可以提高图像识别的准确性。

Description

图像识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能领域。本申请尤其涉及计算机视觉、深度学习以及图像处理等领域。

背景技术

随着便携设备、手机终端等电子设备相比以往更加智能化，芯片的解析能力更强，尤其对视频信息的解析、画面渲染等比以往更快、更清晰，使得对图像识别的便捷性及准确性有了更高的需求。而目前的图像识别手段比较单一，图像识别的准确性低下。

发明内容

本申请提供了一种图像识别方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种图像识别方法，包括：

采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，得到训练后的目标分类网络，其中，所述第一子网络及所述第二子网络为网络结构一致且共享一套权重的双胞胎网络；

将待识别的图像数据，输入所述目标分类网络，得到识别结果。

根据本申请的另一方面，提供了一种图像识别装置，包括：

训练模块，用于采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，得到训练后的目标分类网络，其中，所述第一子网络及所述第二子网络为网络结构一致且共享一套权重的双胞胎网络；

识别模块，用于将待识别的图像数据，输入所述目标分类网络，得到识别结果。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

采用本申请，可以采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，得到训练后的目标分类网络。其中，该第一子网络及该第二子网络为网络结构一致且共享一套权重的双胞胎网络。可以将待识别的图像数据输入该目标分类网络，得到识别结果，由于该目标分类网络是经第一子网络及第二子网络联合训练得到的，可以得到更加精确的特征分类，因此，根据该更加精确的特征分类，可以提高图像识别的准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的图像识别方法的流程示意图；

图2是根据本申请实施例的用于图像识别方法的网络训练流程示意图；

图3是根据本申请实施例的分类网络训练过程的示意图；

图4是根据本申请实施例的图像识别装置的组成结构示意图；

图5是用来实现本申请实施例的图像识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

细粒度识别，顾名思义，是对某一类物体进行准确、精细的子类别物体的区分识别。这些子类别在视觉上是极其相似的目标，不管是对于人们还是对于算法都是很大的挑战，比如不同种类的鸟类、狗、花卉和汽车等，如果不具备相应的专业知识，一般很难判别。细粒度识别相对于物体的一般识别分析来说更加复杂和困难，对于生活和实践的指导借鉴意义更大。

识别及检索这两个任务在很多方面都是相辅相成的，对检索结果获取相应的物体信息即可完成识别任务。细粒度领域也分为细粒度识别与细粒度检索，当前这两个领域的研究基本是分开的，识别任务就是训练分类网络，通过挖掘各种注意力机制进行更好的分类，而检索任务则是用度量学习的方法训练具有区分性的特征。目前是针对识别及检索这两个任务分别训练，但是这种训练方法比较单一，没有考虑二者的相关性，导致图像识别的准确率低下。采用本申请，考虑了识别及检索这两个任务之间的相关性，还可以基于飞浆(paddlepaddle)框架构建双胞胎网络，paddlepaddle作为一个深度学习框架，其对深度学习模型开发有着良好的支持，从而基于paddlepaddle框架构建的双胞胎网络将分类与特征学习的方式一起训练，提高识别或者检索的效果。

根据本申请的实施例，提供了一种图像识别方法，图1是根据本申请实施例的图像识别方法的流程示意图，该方法可以应用于图像识别装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行基于训练数据的联合训练、图像识别等等。其中，终端可以为用户设备(UE，User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

S101、采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，得到训练后的目标分类网络，其中，所述第一子网络及所述第二子网络为网络结构一致且共享一套权重的双胞胎网络。

一示例中，第一子网络和第二子网络都可以是主干网络，可以为基于卷积神经网络(CNN)的主干网络，该主干网络主要用于特征提取，可以进行特征提取的神经网络都在本申请的保护范围之内。

该双胞胎网络也可以称为孪生神经网络，是一类包含两个或更多个相同子网络的神经网络架构。一示例中，该第一子网络及该第二子网络的网络结构一致且具有相同的配置(即具有相同的网络参数及共享一套权重)。在联合训练的过程中对网络参数进行调参可以是：参数更新在两个该第一子网络及该第二子网络上共同进行，以便在识别及检索这两个相关任务中发现特征的相似性或两个可比较的特征之间的关系，以便得到更加精确的分类特征。

S102、将待识别的图像数据，输入所述目标分类网络，得到识别结果。

一示例中，待识别的图像数据中可以包括多个目标对象，如花、草、人等，需要对其进行识别。将该待识别的图像数据输入目标分类网络，可以分别提取花、草、人等的特征，对特征在第一子网络中进行特征分类，对特征在第一子网络及第二子网络中进行特征比对，最终，结合该特征分类及该特征比对得到所需的分类特征，以根据该分类特征得到识别结果，即从该待识别的图像数据中识别出花、草、人等。

对于如花、草等识别的细粒度识别处理中，如果采用单一的分类手段，第一方面，将其作为一般的识别分类来做，包括如下内容：

如，可以使用带有注意力机制和特征重用机制的模型，比如SeNet、DenseNet、Res2Net，在大数据集合上进行训练，做大量的图像样本变化，以训练一个分类模型，根据分类模型得到识别结果。由于训练过程中需要依赖大量的数据才能得到相对准确的识别效果，如果数据量较少，识别效果可能不太理想。又如，对于该分类模型的训练，还可以应用采用注意力机制，且在训练过程中让网络自己去关注图像样本中重要的区域，进而产生一个掩膜图像，将该掩膜图像与该图像样本相乘(为了可以进行梯度的反向传播)，一起进行训练，以训练该分类模型，根据分类模型得到识别结果。

采用单一的分类手段的第二方面，细粒度检索的方法在模型方面与识别方法较为类似，都是基于特征提取而展开，只是就第一方面而言，是基于特征提取来完成识别任务，而该第二方面，是基于特征提取来完成检索任务。也就是说，对于识别任务及检索任务，可以理解为主干网络一致，也同样可以使用注意力机制，但是特征提取后的分类头不同，即：对于识别任务而言，分类是经过归一化指数(softmax)函数之后使用交叉熵损失，而对于检索任务则是直接将特征去计算对比损失，三元组损失等等。

如果采用上述单一的分类手段，将采用上述分类的方法训练出来的特征直接做检索，则对图像数据的识别效果较差；而用检索的训练方式去训练分类，精度也不高。也就是说，将这两个相关的任务，割裂开来去分别训练，不考虑二者之间的相关性，对图像数据的识别效果低下。即便是在训完分类之后再用特征学习的方法微调模型也并不能显著提高识别效果，且增加了处理时间，导致时间成本较高。

根据本申请的实施例，提供了一种图像识别方法，图2是根据本申请实施例的图像识别方法的流程示意图，如图2所示，包括：

S201、针对分类网络中的第一子网络，根据训练数据中的第一样本数据及相应数据的分类标签，对第一子网络进行训练，对该第一子网络进行训练的过程中，可以将第一子网络最后一个卷积层输出的第一特征送入分类器进行特征分类后输出得到第一损失函数。

一示例中，分类标签可以为用于区分花、草、鸟、人、车等的分类标签。

一示例中，还可以将第一子网络最后一个卷积层输出的第一特征送入分类器(如softmax分类器)进行特征分类后进行交叉熵损失运算，以得到该第一损失函数。其中，熵是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。交叉熵是深度学习中常用的一个概念，一般用来求目标值(真实分布)与预测值(非真实分布)之间的差距，可以通过该交叉熵来评估分类的准确率，交叉熵越小，表明目标值(真实分布)与预测值(非真实分布)之间的差距越接近，则越准确。

S202、针对分类网络中的第二子网络，根据训练数据中的第一样本数据随机生成第一样本数据对，根据第一样本数据对及相应数据对的标识标签，对所述第二子网络进行训练，对该第二子网络进行训练的过程中，可以将该第二子网络最后一个卷积层输出的第二特征与将第一子网络最后一个卷积层输出的第一特征进行特征比对后输出得到第二损失函数。

一示例中，该第一样本数据对包括正样本数据对及负样本数据对。其中，第一样本数据对中的两个样本数据对为同一类别，则第一样本数据对为正样本数据对，相应的，该标识标签可以记为标签1。该第一样本数据对中的两个样本数据对为不同类别，则第一样本数据对为负样本数据对，相应的，该标识标签可以记为标签0。由于第二子网络需要进行特征比对，所以需要一对样本数据，即第一样本数据对可以包括正样本数据对及负样本数据对，从而根据该正样本数据对及负样本数据对进行训练，可以得到相对性能优良的分类结果。训练数据中的第一样本数据可以是无限多的，而且训练数据可以覆盖实际应用过程中可能发生的各种情况。

S203、根据所述第一损失函数和所述第二损失函数，得到第三损失函数，根据该第三损失函数的反向传播来完成对该第一子网络及该第二子网络的联合训练，以得到目标分类网络。

采用本申请，是对于同一组训练数据，采用识别与检索的联合训练，得到总的损失函数，具体的，是采用同一组训练数据，对用于实现识别与检索的双胞胎网络中的第一子网络(识别)及第二子网络(检索)进行联合训练，得到训练后的目标分类网络，构成该目标分类网络的第一子网络及第二子网络为：网络结构一致且共享一套权重的双胞胎网络。其中，将第一子网络最后一个卷积输出的特征送入softmax分类器接交叉熵损失后得到的损失记为“第一损失函数”；将第二子网络最后一个卷积输出的特征与该第一子网络的最后一个卷积输出的特征一起计算对比特征后得到的损失，记为“第二损失函数”；将“第一损失函数”和“第二损失函数”这两个损失函数进行求和后得到总的损失函数，记为“第三损失函数”，通过该第三损失函数反向传播以调整网络参数，以完成对第一子网络及第二子网络的联合训练，直至网络收敛，从而网络训练结束，训练后得到所述目标分类网络，从而将该目标分类网络应用于图像识别、图像检索等图像处理领域，可以显著提高图像识别的准确性。

应用示例：

考虑到识别与检索之间的相关性，基于paddlepaddle框架，构建双胞胎网络，第一子网络接分类损失函数，第二子网络接对比损失函数一起训练，以提高识别或者检索的效果。图3是根据本申请实施例的分类网络训练过程的示意图，如图3所示，包括如下内容：

一、获取训练数据，训练数据构成数据层

可以利用分类的标注生成第一子网络及第二子网络联合训练所需的数据格式。比如，可以将所有的训练数据打乱，每一个样本数据都随机生成一个样本数据对，标签至少包括两列，第一列是原始的分类标签(主要用于第一子网络的训练过程)，第二列是表示样本数据对是正样本数据对还是负样本数据对的标识，用0和1表示，数据格式如下表1所示。

表1

表1中，第一列“类别”：表示各个样本数据对应的类别信息并作为分类标签，第二列“P/N”：表示样本数据对的标识标签，如第一行的两个样本“Sample1_xxx.jpg”与“Sample2_xxx.jpg”为同一类，对应的标识标签为P，P表示正样本数据对的标识标签，记为标签“1”；如第二行的两个样本“Sample3_xxx.jpg”与“Sample4_xxx.jpg”为不同类，对应的标识标签为N，N表示负样本数据对的标识标签，可以记为标签“0”。

二、基于paddlepaddle框架构建的该双胞胎网络，第一子网络接分类损失函数，第二子网络接对比损失函数一起训练，且第一子网络及第二子网络采用相同的网络结构及配置(共享网络参数及共享权重)，都可以采用主干网络(如resnet主干网络)。将第一子网络最后一个卷积层的第一特征送入softmax分类器接交叉熵损失运算，得到softmax分类损失函数；将第二子网络最后一个卷积层的第二特征与第一子网络最后一个卷积层的第一特征进行特征对比损失运算，得到对比损失函数，将softmax分类损失函数和对比损失函数这两个损失求和后得到总的损失函数，将该总的损失函数进行反向传播，以实现第一子网络及第二子网络接的联合训练。

采用本应用示例，将细粒度识别与细粒度检索进行结合，基于paddlepaddle框架实现了双胞胎网络的联合训练，通过进行一次训练，就有效提高细粒度识别的精度，高层特征也更有区分性，可以直接拓展到检索应用上，具有很好的应用价值。

根据本申请的实施例，提供了一种图像识别装置，图4是根据本申请实施例的图像识别装置的组成结构示意图，如图4所示，所述装置包括：训练模块41，用于采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，得到训练后的目标分类网络，其中，所述第一子网络及所述第二子网络为网络结构一致且共享一套权重的双胞胎网络；识别模块42，用于将待识别的图像数据，输入所述目标分类网络，得到识别结果。

一实施方式中，所述训练模块，包括：第一训练子模块，用于针对所述第一子网络，根据所述训练数据中的第一样本数据及相应数据的分类标签，对所述第一子网络进行训练；第二训练子模块，用于针对所述第二子网络，根据所述训练数据中的第一样本数据随机生成第一样本数据对，根据所述第一样本数据对及相应数据对的标识标签，对所述第二子网络进行训练。

一实施方式中，所述第一样本数据对包括正样本数据对及负样本数据对；所述第一样本数据对中的两个样本数据对为同一类别，所述第一样本数据对为所述正样本数据对；所述第一样本数据对中的两个样本数据对为不同类别，所述第一样本数据对为所述负样本数据对。

一实施方式中，所述第一训练子模块，用于对所述第一子网络进行训练的过程中，将所述第一子网络最后一个卷积层输出的第一特征送入分类器进行特征分类后输出得到第一损失函数。

一实施方式中，所述第一训练子模块，用于将所述第一子网络最后一个卷积层输出的第一特征送入分类器进行特征分类后进行交叉熵损失运算，得到所述第一损失函数。

一实施方式中，所述第二训练子模块，用于对所述第二子网络进行训练的过程中，将所述第二子网络最后一个卷积层输出的第二特征与所述第一特征进行特征比对后输出得到第二损失函数。

一实施方式中，装置还包括反向传播模块，用于根据所述第一损失函数和所述第二损失函数，得到第三损失函数；根据所述第三损失函数的反向传播来完成对所述第一子网络及所述第二子网络的联合训练，以得到所述目标分类网络。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图5所示，是用来实现本申请实施例的图像识别方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的图像识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像识别方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像识别方法对应的程序指令/模块(例如，附图4所示的训练模块、识别模块等模块)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像识别方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图像识别方法的电子设备，还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像识别方法，所述方法包括：

采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，得到训练后的目标分类网络，其中，所述第一子网络及所述第二子网络为网络结构一致且共享一套权重的双胞胎网络；所述第一子网络用于细粒度识别；所述第二子网络用于细粒度检索；

将待识别的图像数据，输入所述目标分类网络，得到识别结果；

其中，所述采用同一组训练数据，对分类网络中用于识别处理的第一子网络及用于检索处理的第二子网络进行联合训练，包括：

针对所述第一子网络，根据所述训练数据中的第一样本数据及相应数据的分类标签，对所述第一子网络进行训练；

针对所述第二子网络，根据所述训练数据中的第一样本数据随机生成第一样本数据对，根据所述第一样本数据对及相应数据对的标识标签，对所述第二子网络进行训练；

对所述第一子网络进行训练的过程中，将所述第一子网络最后一个卷积层输出的第一特征送入分类器进行特征分类后输出得到第一损失函数；

对所述第二子网络进行训练的过程中，将所述第二子网络最后一个卷积层输出的第二特征与所述第一特征进行特征比对后输出得到第二损失函数；

根据所述第一损失函数和所述第二损失函数，得到第三损失函数；

根据所述第三损失函数的反向传播来完成对所述第一子网络及所述第二子网络的联合训练，以得到所述目标分类网络。

2.根据权利要求1所述的方法，其中，所述第一样本数据对包括正样本数据对及负样本数据对；

所述第一样本数据对中的两个样本数据对为同一类别，所述第一样本数据对为所述正样本数据对；

所述第一样本数据对中的两个样本数据对为不同类别，所述第一样本数据对为所述负样本数据对。

3.根据权利要求1所述的方法，其中，所述将所述第一子网络最后一个卷积层输出的第一特征送入分类器进行特征分类后输出得到第一损失函数，包括：

将所述第一子网络最后一个卷积层输出的第一特征送入分类器进行特征分类后进行交叉熵损失运算，得到所述第一损失函数。

4.一种图像识别装置，所述装置包括：

识别模块，用于将待识别的图像数据，输入所述目标分类网络，得到识别结果；

其中，所述训练模块，包括：

第一训练子模块，用于针对所述第一子网络，根据所述训练数据中的第一样本数据及相应数据的分类标签，对所述第一子网络进行训练；

第二训练子模块，用于针对所述第二子网络，根据所述训练数据中的第一样本数据随机生成第一样本数据对，根据所述第一样本数据对及相应数据对的标识标签，对所述第二子网络进行训练；所述第一子网络用于细粒度识别；所述第二子网络用于细粒度检索；

第一训练子模块，用于：

所述第二训练子模块，用于：

还包括反向传播模块，用于：

5.根据权利要求4所述的装置，其中，所述第一样本数据对包括正样本数据对及负样本数据对；

6.根据权利要求4所述的装置，其中，所述第一训练子模块，用于：

7.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法。