CN112214626B

CN112214626B - 图像识别方法、装置、可读存储介质及电子设备

Info

Publication number: CN112214626B
Application number: CN201910615096.5A
Authority: CN
Inventors: 徐麟; 徐军
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2024-03-19
Anticipated expiration: 2039-07-09
Also published as: CN112214626A

Abstract

本公开实施例公开了一种图像识别方法和装置，其中，该方法包括：获取待检索图像；将待检索图像输入预先训练的第一识别模型，生成待检索图像的语言描述信息；将待检索图像和语言描述信息输入预先训练的第二识别模型，得到待检索图像中的物体特征数据；在数据库中检索与物体特征数据相对应的物体信息。本公开实施例实现了在图像中生成相应的语言描述信息，以及将图像和语言描述信息相结合进行物体图像识别的新方法，使得到的物体特征数据更加丰富，提高了图像识别的准确性。

Description

图像识别方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种图像识别方法、装置、计算机可读存储介质及电子设备。

背景技术

物体识别技术是一种对图像进行识别，从中提取目标物体图像，并对目标物体图像进行检索、匹配等操作的技术。物体识别技术可以应用在领域。例如，行人重识别领域。行人重识别是一种在不同摄像头拍摄的图像中找到目标行人的技术，在计算机视觉、智能监控中有着广泛地应用场景。行人重识别的难点在于如何精确地匹配表观变化巨大的行人，例如姿态、摄像头视角、光照条件等造成的差异。随着深度学习的发展以及大样本数据集的出现，深度神经网路也被引入行人重识别领域，大大提高了识别性能。

发明内容

本公开的实施例提供了一种图像识别方法、装置、计算机可读存储介质及电子设备。

根据本公开实施例的一个方面，提供了一种图像识别方法，该方法包括：获取待检索图像；将待检索图像输入预先训练的第一识别模型，生成待检索图像的语言描述信息；将待检索图像和语言描述信息输入预先训练的第二识别模型，得到待检索图像中的物体特征数据；在数据库中检索与物体特征数据相对应的物体信息。

根据本公开实施例的另一个方面，提供了一种图像识别装置，该装置包括：获取模块，用于获取待检索图像；第一识别模块，用于将待检索图像输入预先训练的第一识别模型，生成待检索图像的语言描述信息；第二识别模块，用于将待检索图像和语言描述信息输入预先训练的第二识别模型，得到待检索图像中的物体特征数据；检索模块，用于在数据库中检索与物体特征数据相对应的物体信息。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述图像识别方法。

根据本公开实施例的另一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述图像识别方法。

基于本公开上述实施例提供的图像识别方法、装置、计算机可读存储介质及电子设备，通过使用第一识别模型，得到待检索图像的语言描述信息，将语言描述信息和待检索图像输入第二识别模型，得到待检索图像中的物体特征数据，最后在数据库中检索与物体特征数据对应的物体信息。从而实现了在图像中生成相应的语言描述信息，以及将图像和语言描述信息相结合进行物体图像识别的新方法，使得到的物体特征数据更加丰富，提高了图像识别的准确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的图像识别方法的流程示意图。

图3是本公开一示例性实施例提供的第二识别模型的结构示意图。

图4是本公开的实施例的图像识别方法的一个应用场景的示意图。

图5是本公开另一示例性实施例提供的图像识别方法的流程示意图。

图6是本公开一示例性实施例提供的图像识别装置的结构示意图。

图7是本公开另一示例性实施例提供的图像识别装置的结构示意图。

图8是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

物体识别技术(例如行人重识别)是一种对图像进行识别，从中提取目标物体图像，并对目标物体图像进行匹配、检索等操作的技术。目前，对物体图像进行检索主要依赖于深度神经网络提取图片的视觉特征，根据计算两张图片之间的相似度，从而搜索出与目标物体图像最相似物体图像。

图片的视觉特征容易受到物体姿态、拍摄角度和光线变化等原因影响。为了提升性能，可以在进行物体识别时加入各种图像附属信息，例如物体图片的语言描述信息。图像语言描述在语义上比视觉特征更加丰富、一致，可以显著减轻视觉差异。但是，物体语言描述信息往往较难获取，需要依靠大量的人工手动标注。为解决这一问题，需要一种新的方法，可以自动生成图像的语言描述信息，并同时从图像和语言描述信息中提取视觉特征和语言特征来提高物体识别的能力。

示例性系统

图1示出了可以应用本公开的实施例的图像识别方法或图像识别装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如搜索类应用、拍摄类应用、网页浏览器应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的图像进行分析的后台图像服务器。后台图像服务器可以对接收到的图像进行处理，得到处理结果(例如物体特征数据、与物体特征数据对应的物体信息)。

需要说明的是，本公开的实施例所提供的图像识别方法可以由服务器103执行，也可以由终端设备101执行，相应地，图像识别装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

示例性方法

图2是本公开一示例性实施例提供的图像识别方法的流程示意图。本实施例可应用在图1所述的终端设备101或者服务器103上，下面的描述以终端设备101执行本公开实施例的方法流程为例进行示例性说明，如图2所示，包括如下步骤：

步骤201，获取待检索图像。

在本实施例中，终端设备101可以获取待检索图像。其中，待检索图像可以是包含各种物体图像的图像，例如，可以是监控摄像头针对行人拍摄的图像，也可以是对动物、车辆等拍摄的图像。

步骤202，将待检索图像输入预先训练的第一识别模型，生成待检索图像的语言描述信息。

在本实施例中，终端设备101可以将待检索图像输入预先训练的第一识别模型，生成待检索图像的语言描述信息。其中，第一识别模型用于表征图像与语言描述信息的对应关系。

作为示例，第一识别模型可以是利用预设的第一训练样本集合，基于机器学习方法，对初始模型(例如循环神经网络，卷积神经网络)进行训练得到的图像描述生成器。第一训练样本集合中的训练样本可以包括样本图像和对应的样本语言描述信息，训练时，将样本图像作为输入，将样本语言描述信息作为期望输出，对初始模型进行训练，得到第一识别模型。

上述语言描述信息可以是用于描述待检索图像的主要特征的信息，通常，语言描述信息可以包括文字信息。

作为示例，待检索图像是行人的图像，则语言描述信息可以包括如下文字：“一位身穿黑色上衣，黑色裤子，白色鞋子，身后背黑书包的男性”。

可选的，可以将生成的语言描述信息以字幕的方式显示在上述待检索图像上，从而可以便于用户同时查看待检索图像和生成的语言描述信息。

步骤203，将待检索图像和语言描述信息输入预先训练的第二识别模型，得到待检索图像中的物体特征数据。

在本实施例中，终端设备101可以将待检索图像和语言描述信息输入预先训练的第二识别模型，得到待检索图像中的物体特征数据。

其中，第二识别模型用于表征图像、语言描述信息与物体特征数据的对应关系。作为示例，第二识别模型可以是利用预设的第二训练样本集合，基于机器学习方法，对初始模型(例如包括循环神经网络，卷积神经网络等)进行训练得到的模型。第二训练样本集合中的训练样本可以包括样本图像、样本语言描述信息，以及对应的样本物体特征数据。训练时，将样本图像、样本语言描述信息作为输入，将与输入的样本图像、样本语言描述信息对应的样本物体特征数据作为期望输出，对初始模型进行训练，得到第二识别模型。

可选的，可以采用度量学习方法，对第二识别模型进行训练。具体地，每次训练时，输入一组样本，包括基准样本、正样本和负样本，利用三元组损失函数和多类交叉熵损失函数，计算损失值(例如对三元组损失函数和多类交叉熵损失函数进行加权求和，得到损失值)。其中，利用三元组损失函数，可以使基准样本与正样本之间的距离逐渐接近，使基准样本与负样本之间的距离逐渐增大。使用多类交叉熵损失函数，可以实现对输入的样本进行分类。通过调整初始模型的参数，使损失值最小，从而将调整参数后的初始模型确定为第二识别模型。

步骤204，在数据库中检索与物体特征数据相对应的物体信息。

在本实施例中，终端设备101可以在数据库中检索与物体特征数据相对应的物体信息。其中，数据库可以设置在上述终端设备101中，也可以设置在与上述终端设备101通信连接的其他电子设备(例如图1所示的服务器103)中。通常，数据库中可以包括大量物体特征数据，以及与每个物体特征数据分别对应的物体信息。例如，物体信息可以是关于行人的信息(例如人的性别、年龄、外貌特征等)。终端设备101可以将步骤203中得到的物体特征数据与数据库中的物体特征数据进行匹配，将与步骤203中得到的物体特征数据相匹配的物体特征数据对应的物体信息确定为与上述待检索图像对应的物体信息。

在一些可选的实现方式中，数据库包括物体特征数据和与物体特征数据对应的物体信息。步骤204可以如下执行：

步骤一，确定物体特征数据与数据库中的物体特征数据的距离。通常，物体特征数据可以是向量的形式，终端设备101可以确定向量之间的距离。距离可以是欧氏距离、余弦距离、汉明距离等。

步骤二，将符合预设条件的距离对应的物体信息确定为与待检索图像对应的物体信息。作为示例，当距离为欧式距离时，由于距离越大，两个物体特征数据的相似性越小，则预设条件可以是：物体特征数据之间的距离最小，或物体特征数据之间的距离小于或等于预设的距离阈值。当距离为预先距离时，由于距离越大，物体特征数据之间的相似性越大，则预设条件可以是：物体特征数据之间的距离最大，或物体特征数据之间的距离大于或等于预设的距离阈值。

通过基于距离确定物体信息，可以准确地从数据库中检索到与待检索图像相应的物体信息。

在一些可选的实现方式中，第二识别模型可以包括视觉特征提取模型和语言特征提取模型。其中，视觉特征提取模型可以用于提取待检索图像的视觉特征(例如颜色特征、纹理特征、线条形状特征等)数据。作为示例，视觉特征提取模型可以包括CNN(Convolutional Neural Networks，卷积神经网络)，并且，CNN可以为各种结构(例如现有的ResNet(Residual Network，残差网络))。语言特征提取模型可以用于提取语言描述信息的语言特征(例如包括的文字的词义、词性等特征)数据。作为示例，语言特征提取模型可以包括用于处理时序信息的网络(例如RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等)。步骤203可以如下执行：

首先，将待检索图像输入视觉特征提取模型，通过视觉特征提取模型得到视觉特征数据。

然后，将语言描述信息输入语言特征提取模型，通过语言特征提取模型得到语言特征数据。

最后，基于视觉特征数据和语言特征数据，生成待检索图像中的物体特征数据。通常，上述视觉特征数据和语言特征数据可以为向量的形式，终端设备101可以将该两个向量合并，从而得到的新的向量即为物体特征数据。

通过使用上述第二识别模型(这里可以称为分层双流循环网络HorNet)，可以实现提取待检索图像的视觉特征和语言描述信息的语言特征，并将两种特征相结合，从而使生成的物体特征数据可以更全面、准确地表征待检索图像，有助于提高物体识别的准确性和针对性。

在一些可选的实现方式中，终端设备101可以按照如下步骤，得到语言特征数据：

首先，将语言描述信息输入语言特征提取模型包括的第一层网络，得到语言描述信息包括的每个词语的词语特征数据。语言特征提取模型可以包括第一层网络、门控制单元和第二层网络。其中，第一层网络用于接收输入的语言描述信息，并确定语言描述信息包括的每个词语的特征数据。如图3所示，为分层双流循环网络的结构示意图，其中，第一层网络301和第二层网络302均为LSTM网络。

然后，基于语言特征提取模型包括的门控制单元，对所得到的词语特征数据进行筛选，得到筛选后词语特征数据。具体地，每个词语特征数据对应于一个门控单元，门控单元用于确定对应的词语特征数据是否被筛选掉。作为示例，如图3所示，分层双流循环网络包括门控单元303，门控单元303可以利用耿贝尔S型(Gumbel sigmoid)函数，结合ResNet50网络输出的特征数据进行分析，使语言描述信息中的关键词语的词语特征数据通过，将非关键词语的词语特征数据过滤掉。

最后，将筛选后词语特征数据输入语言特征提取模型包括的第二层网络，得到语言特征数据。如图3所示，筛选后词语特征数据经过第二层网络302的处理，得到语言特征数据。随后，语言特征数据与视觉特征数据组合，得到物体特征数据。

本可选的实现方式，通过使用包括双层网络的语言特征提取模型，以及通过门控开关对词语特征数据进行筛选，可以更准确地从语言描述信息中确定关键词语，从而使提取的语言特征数据更加准确。

参见图4，图4是根据本实施例的图像识别方法的应用场景的一个示意图。在图4的应用场景中，终端设备401首先获取摄像头402拍摄的待检索图像403(即执行步骤201)。其中，待检索图像403为摄像头402对拍摄范围内的行人拍摄的图像。然后，终端设备401将待检索图403像输入预先训练的第一识别模型404，生成待检索图像403的语言描述信息405(即执行步骤202)。随后，终端设备401将待检索图像403和语言描述信息405输入预先训练的第二识别模型406(例如上述分层双流循环网络)，得到待检索图像401中的物体特征数据407(即执行步骤203)。例如，第二识别模型406可以包括视觉特征提取模型和语言特征提取模型，分别提取待检索图像403的视觉特征数据和语言描述信息405的语言特征数据，再将视觉特征数据和语言特征数据组合为物体特征数据407。最后，终端设备401在数据库408中检索与物体特征数据相对应的物体信息409(即执行步骤205)。其中，物体信息409可以包括行人的编号(例如A008)、行人的外貌特征信息(例如“身材较瘦”)、行人的性别(例如“男”)、行人的年龄段(例如“30-50岁”)等。

本公开的上述实施例提供的方法，通过使用第一识别模型，得到待检索图像的语言描述信息，将语言描述信息和待检索图像输入第二识别模型，得到待检索图像中的物体特征数据，最后在数据库中检索与物体特征数据对应的物体信息。从而实现了在图像中生成相应的语言描述信息，以及将图像和语言描述信息相结合进行物体图像识别的新方法，使得到的物体特征数据更加丰富，提高了图像识别的准确性。

进一步参考图5，示出了图像识别方法的又一个实施例的流程示意图。如图5所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，获取待转换图像。

在本实施例中，终端设备101可以通过各种方式获取待转换图像。作为示例，待转换图像可以是预设的摄像头对行人进行拍摄得到的图像。

步骤2012，确定待转换图像的图像风格是否为预设风格。

在本实施例中，终端设备101可以确定待转换图像的图像风格是否为预设风格。其中，图像风格可以用图像的各种特征表征，例如图像的拍摄角度、图像的亮度、图像的色调等。作为示例，上述预设风格可以是图像的亮度处于预设的亮度范围内，图像的色调处于预设的色调范围内等。

步骤2013，如果是，将待转换图像确定为待检索图像。

在本实施例中，如果待转换图像的图像风格为预设风格，终端设备101可以将待转换图像确定为待检索图像。待检索图像即为上述图2对应实施例中描述的待检索图像。

步骤2014，如果否，将待转换图像输入预先训练的生成对抗网络，得到符合预设风格的图像作为待检索图像。

在本实施例中，如果待转换图像的图像风格不是预设风格，终端设备101可以将待转换图像输入预先训练的生成对抗网络(Generative Adversarial Nets，GAN)，得到符合预设风格的图像作为待检索图像。通常，由于用来提取物体特征数据的图像的风格可能不一致，这样在利用上述第一识别模型和第二识别模型进行识别时，会导致识别准确性降低。因此，需要将待输入上述第一识别模型和第二识别模型的图像转换为预设风格。

通常，在训练上述第一识别模型和第二识别模型时，需要使用不同的数据集作为训练样本。例如数据集包括Duke-MTMC数据集和CUHK-PEDES数据集，因此可以使用上述两种数据集训练生成对抗网络，将Duke-MTMC数据集中的图像转换为与CUHK-PEDES数据集中的图像的风格(即预设风格)。

上述生成对抗网络可以包括生成网络和判别网络，在训练生成对抗网络时，可以将样本待转换图像(即Duke-MTMC数据集中的图像)输入生成网络，生成网络对所输入的样本待转换图像进行图像风格调整并输出调整后的图像，上述判别网络可以用于确定输入判别网络的图像是否为上述生成网络所输出的图像。即，将生成网络输出的图像的风格与预设的基准图像(即CUHK-PEDES数据集中的图像)的风格进行比较，调整网络参数使判别网络逐渐无法正确判别输入其中的图像的风格。需要说明的是，上述生成网络可以是用于进行图像处理的卷积神经网络(例如包含卷积层、池化层、反池化层、反卷积层的各种卷积神经网络结构，可以依次进行降采样和上采样)；上述判别网络可以是卷积神经网络(例如包含全连接层的各种卷积神经网络结构，其中，上述全连接层可以实现分类功能)。此外，上述判别网络也可以是可以用于实现分类功能(即确定输入的图像属于何种图像风格)的其他模型结构，例如支持向量机(Support Vector Machine，SVM)。

需要说明的是，上述生成对抗网络可以是各种类型的生成对抗网络，例如SPGAN(Similarity Preserving GAN，相似性保护生成对抗网络)。步骤2014中，可以将待转换图像输入训练完成的生成对抗网络包括的生成网络，输出符合预设风格的图像。

上述图5对应实施例提供的方法，突出了将待转换图像进行图像风格转换得到待检索图像的步骤，从而使待检索图像的风格转换为预设风格，避免了因图像风格各异导致的识别准确性降低的问题，进一步提高了物体识别的准确性。

本公开实施例提供的任一种图像识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种图像识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像识别方法。下文不再赘述。

示例性装置

图6是本公开一示例性实施例提供的图像识别装置的结构示意图。本实施例可应用在如图1所示的终端设备101或服务器103上，如图6所示，图像识别装置包括：获取模块601，用于获取待检索图像；第一识别模块602，用于将待检索图像输入预先训练的第一识别模型，生成待检索图像的语言描述信息；第二识别模块603，用于将待检索图像和语言描述信息输入预先训练的第二识别模型，得到待检索图像中的物体特征数据；检索模块604，用于在数据库中检索与物体特征数据相对应的物体信息。

在本实施例中，获取模块601可以获取待检索图像。其中，待检索图像可以是包含各种物体图像的图像，例如，可以是监控摄像头针对行人拍摄的图像，也可以是对动物、车辆等拍摄的图像。

在本实施例中，第一识别模块602可以将待检索图像输入预先训练的第一识别模型，生成待检索图像的语言描述信息。其中，第一识别模型用于表征图像与语言描述信息的对应关系。

作为示例，待检索图像是行人的图像，则语言描述信息可以包括如下文字：“一位身穿黑色上衣，黑色裤子，白色鞋子，身后背黑书包的男性。”

在本实施例中，第二识别模块603可以将待检索图像和语言描述信息输入预先训练的第二识别模型，得到待检索图像中的物体特征数据。

在本实施例中，检索模块604可以在数据库中检索与物体特征数据相对应的物体信息。其中，数据库可以设置在上述图像识别装置中，也可以设置在与上述图像识别装置通信连接的其他电子设备中。通常，数据库中可以包括大量物体特征数据，以及与每个物体特征数据分别对应的物体信息。例如，物体信息可以是关于行人的信息(例如人的性别、年龄、外貌特征等)。检索模块604可以将步骤203中得到的物体特征数据与数据库中的物体特征数据进行匹配，将与步骤203中得到的物体特征数据相匹配的物体特征数据对应的物体信息确定为与上述待检索图像对应的物体信息。

参照图7，图7是本公开另一示例性实施例提供的图像识别装置的结构示意图。

在一些可选的实现方式中，第二识别模型包括视觉特征提取模型和语言特征提取模型；第二识别模块603可以包括：第一提取单元6031，用于将待检索图像输入视觉特征提取模型，通过视觉特征提取模型得到视觉特征数据；第二提取单元6032，用于将语言描述信息输入语言特征提取模型，通过语言特征提取模型得到语言特征数据；生成单元6033，用于基于视觉特征数据和语言特征数据，生成待检索图像中的物体特征数据。

在一些可选的实现方式中，第二提取单元6032可以包括：第一生成子单元60321，用于将语言描述信息输入语言特征提取模型包括的第一层网络，得到语言描述信息包括的每个词语的词语特征数据；筛选子单元60322，用于基于语言特征提取模型包括的门控制单元，对所得到的词语特征数据进行筛选，得到筛选后词语特征数据；第二生成子单元60323，用于将筛选后词语特征数据输入语言特征提取模型包括的第二层网络，得到语言特征数据。

在一些可选的实现方式中，获取模块601可以包括：获取单元6011，用于获取待转换图像；第一确定单元6012，用于确定待转换图像的图像风格是否为预设风格；第二确定单元6013，用于如果是，将待转换图像确定为待检索图像；转换单元6014，用于如果否，将待转换图像输入预先训练的生成对抗网络，得到符合预设风格的图像作为待检索图像。

在一些可选的实现方式中，数据库包括物体特征数据和与物体特征数据对应的物体信息；以及检索模块604可以包括：第三确定单元6041，用于确定物体特征数据与数据库中的物体特征数据的距离；第四确定单元6042，用于将符合预设条件的距离对应的物体信息确定为与待检索图像对应的物体信息。

本公开上述实施例提供的图像识别装置，通过使用第一识别模型，得到待检索图像的语言描述信息，将语言描述信息和待检索图像输入第二识别模型，得到待检索图像中的物体特征数据，最后在数据库中检索与物体特征数据对应的物体信息。从而实现了在图像中生成相应的语言描述信息，以及将图像和语言描述信息相结合进行物体图像识别的新方法，使得到的物体特征数据更加丰富，提高了图像识别的准确性。

示例性电子设备

下面，参考图8来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图8图示了根据本公开实施例的电子设备的框图。

如图8所示，电子设备800包括一个或多个处理器801和存储器802。

处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备800中的其他组件以执行期望的功能。

存储器802可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器801可以运行程序指令，以实现上文的本公开的各个实施例的图像识别方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备800还可以包括：输入装置803和输出装置804，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置803可以是摄像头、鼠标、键盘等设备，用于输入图像。在该电子设备是单机设备时，该输入装置803可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的图像。

该输出装置804可以向外部输出各种信息，包括检索出的物体信息。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备800中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备800还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像识别方法，包括：

获取待检索图像；

将所述待检索图像输入预先训练的第一识别模型，生成所述待检索图像的语言描述信息，所述语言描述信息为用于描述待检索图像的主要特征的信息；

将所述待检索图像和所述语言描述信息输入预先训练的第二识别模型，得到所述待检索图像中的物体特征数据；

在数据库中检索与所述物体特征数据相对应的物体信息，其中，所述数据库包括多个物体特征数据和与每个物体特征数据对应的物体信息。

2.根据权利要求1所述的方法，其中，所述第二识别模型包括视觉特征提取模型和语言特征提取模型；所述将所述待检索图像和所述语言描述信息输入预先训练的第二识别模型，得到所述待检索图像中的物体特征数据，包括：

将所述待检索图像输入所述视觉特征提取模型，通过所述视觉特征提取模型得到视觉特征数据；

将所述语言描述信息输入所述语言特征提取模型，通过所述语言特征提取模型得到语言特征数据；

基于所述视觉特征数据和所述语言特征数据，生成所述待检索图像中的物体特征数据。

3.根据权利要求2所述的方法，其中，所述将所述语言描述信息输入所述语言特征提取模型，通过所述语言特征提取模型得到语言特征数据，包括：

将所述语言描述信息输入所述语言特征提取模型包括的第一层网络，得到所述语言描述信息包括的每个词语的词语特征数据；

基于所述语言特征提取模型包括的门控制单元，对所得到的词语特征数据进行筛选，得到筛选后词语特征数据；

将所述筛选后词语特征数据输入所述语言特征提取模型包括的第二层网络，得到语言特征数据。

4.根据权利要求1所述的方法，其中，所述获取待检索图像，包括：

获取待转换图像；

确定所述待转换图像的图像风格是否为预设风格；

如果是，将所述待转换图像确定为待检索图像；

如果否，将所述待转换图像输入预先训练的生成对抗网络，得到符合所述预设风格的图像作为待检索图像。

5.根据权利要求1-4之一所述的方法，其中，所述数据库包括物体特征数据和与物体特征数据对应的物体信息；以及

所述在数据库中检索与所述物体特征数据相对应的物体信息，包括：

确定所述物体特征数据与所述数据库中的物体特征数据的距离；

将符合预设条件的距离对应的物体信息确定为与所述待检索图像对应的物体信息。

6.一种图像识别装置，包括：

获取模块，用于获取待检索图像；

第一识别模块，用于将所述待检索图像输入预先训练的第一识别模型，生成所述待检索图像的语言描述信息，所述语言描述信息为用于描述待检索图像的主要特征的信息；

第二识别模块，用于将所述待检索图像和所述语言描述信息输入预先训练的第二识别模型，得到所述待检索图像中的物体特征数据；

检索模块，用于在数据库中检索与所述物体特征数据相对应的物体信息，其中，所述数据库包括多个物体特征数据和与每个物体特征数据对应的物体信息。

7.根据权利要求6所述的装置，其中，所述第二识别模型包括视觉特征提取模型和语言特征提取模型；所述第二识别模块包括：

第一提取单元，用于将所述待检索图像输入所述视觉特征提取模型，通过所述视觉特征提取模型得到视觉特征数据；

第二提取单元，用于将所述语言描述信息输入所述语言特征提取模型，通过所述语言特征提取模型得到语言特征数据；

生成单元，用于基于所述视觉特征数据和所述语言特征数据，生成所述待检索图像中的物体特征数据。

8.根据权利要求7所述的装置，其中，所述第二提取单元包括：

第一生成子单元，用于将所述语言描述信息输入所述语言特征提取模型包括的第一层网络，得到所述语言描述信息包括的每个词语的词语特征数据；

筛选子单元，用于基于所述语言特征提取模型包括的门控制单元，对所得到的词语特征数据进行筛选，得到筛选后词语特征数据；

第二生成子单元，用于将所述筛选后词语特征数据输入所述语言特征提取模型包括的第二层网络，得到语言特征数据。

9.根据权利要求6所述的装置，其中，所述获取模块包括：

获取单元，用于获取待转换图像；

第一确定单元，用于确定所述待转换图像的图像风格是否为预设风格；

第二确定单元，用于如果是，将所述待转换图像确定为待检索图像；

转换单元，用于如果否，将所述待转换图像输入预先训练的生成对抗网络，得到符合所述预设风格的图像作为待检索图像。

10.根据权利要求6-9之一所述的装置，其中，所述数据库包括物体特征数据和与物体特征数据对应的物体信息；以及

所述检索模块包括：

第三确定单元，用于确定所述物体特征数据与所述数据库中的物体特征数据的距离；

第四确定单元，用于将符合预设条件的距离对应的物体信息确定为与所述待检索图像对应的物体信息。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-5任一所述的方法。