CN108229287B

CN108229287B - 图像识别方法和装置、电子设备和计算机存储介质

Info

Publication number: CN108229287B
Application number: CN201710405291.6A
Authority: CN
Inventors: 李怡康; 欧阳万里; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2020-05-22
Anticipated expiration: 2037-05-31
Also published as: CN108229287A

Abstract

本发明实施例公开了一种图像识别方法、装置、电子设备和计算机介质，其中，方法包括：获取待识别图像的物体候选区、语义标注候选区和短语标注候选区；基于物体候选区提取初始物体特征信息，基于语义标注候选区提取初始语义特征信息，基于短语标注候选区提取初始短语特征信息；基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。本发明提升了对待识别图像的物体识别、场景图生成和图片区域标注的准确率。

Description

图像识别方法和装置、电子设备和计算机存储介质

技术领域

本发明涉及图像处理技术，尤其是一种图像识别方法和装置、电子设备和计算机存储介质。

背景技术

物体识别用于检测图像中的物体，场景图生成用于通过“成对的物体之间的关系”来将一张图像抽象成一系列物体以及其关系组成的场景图(Scene Graph)，图片区域标注用于通过一句话描述一个图像或者图像中的一个区域中的主要信息，包括物体、关系、属性等。现有技术中，对于图像单独进行物体识别、场景图生成和图片区域标注等操作。

发明内容

本发明实施例提供一种利用候选区之间的关系实现图像识别的技术。

根据本发明实施例的一个方面，提供的一种图像识别方法，包括：

获取待识别图像的物体候选区、语义标注候选区和短语标注候选区；所述物体候选区用于表征可能存在物体的区域；所述语义标注候选区用于表征包括可识别信息的区域；所述短语标注候选区用于表征存在关联关系的两个物体的区域；

基于所述物体候选区提取初始物体特征信息，基于所述语义标注候选区提取初始语义特征信息，基于所述短语标注候选区提取初始短语特征信息；

基于所述初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系，分别对所述初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

根据本发明实施例的一个方面，提供的一种图像识别装置，其特征在于，包括：

区域获取单元，用于获取待识别图像的物体候选区、语义标注候选区和短语标注候选区；所述物体候选区用于表征可能存在物体的区域；所述语义标注候选区用于表征包括可识别信息的区域；所述短语标注候选区用于表征存在关联关系的两个物体的区域；

信息获取单元，用于基于所述物体候选区提取初始物体特征信息，基于所述语义标注候选区提取初始语义特征信息，基于所述短语标注候选区提取初始短语特征信息；

修正单元，用于基于所述初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系，分别对所述初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的图像识别装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述图像识别方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述图像识别方法的操作。

基于本发明上述实施例提供的图像识别方法和装置、电子设备、计算机存储介质，通过同时获取待识别图像的物体候选区、语义标注候选区和短语标注候选区，实现同时对图像进行物体识别、图片区域标注和场景图生成；分别基于所述物体候选区提取初始物体特征信息，基于所述语义标注候选区提取初始语义特征信息，基于所述短语标注候选区提取初始短语特征信息，由于物体识别、场景图生成和图片区域标注是分别从不同层次对图像进行描述，物体识别、场景图生成和图片区域标注之间存在关联性；基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正；使每个特征信息会包含更多有用的信息，从而提升了对待识别图像的物体识别、场景图生成和图片区域标注的准确率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明图像识别方法一个实施例的流程图。

图2为本发明图像识别方法又一个实施例的流程图。

图3a为本发明具体示例中待识别图像的示意图。

图3b为本发明具体示例中物体候选区、语义标注候选区和短语标注候选区的示意图。

图3c为本发明具体示例中建立的动态连接图。

图4为本发明图像识别方法还一个实施例的流程图。

图5为本发明图像识别装置一个实施例的结构示意图。

图6为本发明各图像识别装置另一个实施例的结构示意图。

图7为本发明图像识别装置又一个实施例的结构示意图。

图8为本发明图像识别装置还一个实施例的结构示意图。

图9为本发明电子设备一个实施例的结构示意图

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本发明图像识别方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，获取待识别图像的物体候选区、语义标注候选区和短语标注候选区。

其中，物体候选区用于表征可能存在物体的矩形区域；语义标注候选区表征包括可识别信息的区域，即拥有明显语义信息的矩形区域；短语标注候选区用于表征存在关联关系的两个物体的区域，即可以包含两个物体的最小的矩形区域。在本实施例中首先同时获得物体候选区和语义标注候选区，在基于物体候选区通过排列组合，基于获得的两两物体候选区之间的关系确定短语标注候选区，因此，短语标注候选区是通过两个物体候选区叠加获得的。

步骤102，基于物体候选区提取初始物体特征信息，基于语义标注候选区提取初始语义特征信息，基于短语标注候选区提取初始短语特征信息。

其中，每个初始物体特征信息用于表征一个物体候选区，一个物体候选区中通常仅包括一个物体，因此，通过对应该物体的初始物体特征信息即可表征该物体候选区，该初始物体特征信息对应现有技术中的物体识别；每个初始语义特征信息用于表征一个语义标注候选区，一个语义标注候选区通常仅包括一个可识别信息，因此，通过对应该可识别信息的语义特征信息即可表征该语义标注候选区，该初始语义特征信息对应现有技术中的图片区域标注；每个初始短语特征信息用于表征一个短语标注候选区，一个短语标注候选区通常包括一个由两个物体，且这两个物体能够组成一个主语、谓语和宾语构成的短语，因此，通过对应该短语的初始短语特征信息即可表征该短语标注候选区并用于预测两物体之间的关系，初始短语特征信息对应现有技术中的场景图生成。

步骤104，基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

对图像进行物体识别、场景图生成和图片区域标注是相互关联，却又各有侧重的视觉任务；物体识别重点在于检测图片中的物体，而场景图生成则关注通过“成对的物体之间的关系”来将一张图片抽象成一系列物体以及其关系组成的“场景图(Scene Graph)”，图片区域标注则是用一句话描述一幅图片或者图片中的一个区域中的主要信息(包括：物体、关系、属性等)。由此可以得出，三个任务实际上是从不同语义层面上对图片内容进行理解，相应地，三个模型实际上能够学习不同语义层次的特征。本实施例利用不同视觉任务学习出的特征信息之间的互补性，提升特征信息的表征能力。

基于本发明上述实施例提供的一种图像识别方法，通过同时获取待识别图像的物体候选区、语义标注候选区和短语标注候选区，实现同时对图像进行物体识别、图片区域标注和场景图生成；分别基于所述物体候选区提取初始物体特征信息，基于所述语义标注候选区提取初始语义特征信息，基于所述短语标注候选区提取初始短语特征信息，由于物体识别、场景图生成和图片区域标注是分别从不同层次对图像进行描述，物体识别、场景图生成和图片区域标注之间存在关联性；基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正；使每个特征信息会包含更多有用的信息，从而提升了对待识别图像的物体识别、场景图生成和图片区域标注的准确率。

在本发明各图像识别方法实施例的一个具体示例中，连接关系包括语义关系及空间关系，步骤102和步骤104之间还可以包括：

基于物体候选区和短语标注候选区之间的语义关系，获得物体特征信息和短语特征信息之间的连接关系；基于短语标注区和语义标注候选区之间的空间关系，获得语义特征信息和短语特征信息之间的连接关系。

其中，物体特征信息和短语特征信息之间的连接关系用于表征物体特征信息和短语特征信息之间是否存在关联；语义特征信息和短语特征信息之间的连接关系用于表征所述语义特征信息和短语特征信息之间是否存在关联；短语标注区和语义标注候选区之间的空间关系具体可以指：语义标注候选区与短语标注候选区重叠部分在短语标注候选区中所占比例，可以设定一个预设比例，当语义标注候选区与短语标注候选区重叠部分在短语标注候选区中所占比例达到或超出预设比例，确定在语义特征信息和短语特征信息之间建立连接。

在本发明各图像识别方法实施例的一个具体示例中，步骤101，具体可以包括：

基于卷积神经网络提取待识别图像中每个可能存在物体的区域作为物体候选区，提取待识别图像中每个具有可识别信息的区域作为语义标注候选区；

将所有物体候选区进行排列组合，每两个物体候选区结合构成短语标注候选区。

在本实施例中，基于卷积神经网络同时实现对物体候选区和语义标注候选区的提取，具体提取可以采用了Ren等人提出的Region Proposal Network(RPN)区域方案网络，提取可能存在物体的物体候选区域和有显著语义的语义标注候选区，物体候选区和语义标注候选区分别用于物体识别和区域标注(region captioning)，分别对应于物体层次和描述区域层次的图片理解，而短语层次的短语标注候选区域则通过排列组合物体候选区域得出；三组候选区域，分别对应于不同的视觉任务。

图2为本发明图像识别方法另一个实施例的流程图。如图2所示，在上述各实施例的基础上，该实施例方法包括：

其中，物体候选区用于表征可能存在物体的区域；语义标注候选区表征包括可识别信息的区域；短语标注候选区表征存在关联关系的两个物体的区域。在具体实施时，其中提取候选区的网络采用了Ren等人所提出的Region Proposal Network(RPN)区域方案网络，提取可能存在物体的候选区域和有显著语义的区域分别用于物体识别和区域标注region captioning，得到的物体候选区和语义标注候选区分别对应于物体层次和描述区域层次的图片理解。而短语标注候选区则通过排列组合物体候选区得出，并应用于短语层次的图片理解。

其中，每个初始物体特征信息用于表征一个物体候选区；每个初始语义特征信息用于表征一个语义标注候选区；每个初始短语特征信息用于表征一个短语标注候选区。

步骤203，将初始物体特征信息、初始语义特征信息和初始短语特征信息分别作为物体节点、语义节点和短语节点，将初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系作为边，构建动态连接图。

步骤204，基于动态连接图，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

在具体实施过程中，步骤101中提取候选区的网络与后续步骤中涉及的网络共享卷积层，即多个网络均采用一套卷积层获得的特征地图feature map进行其他操作(如：全连接层等)，这样次就能避免每个网络进行正向传播的时候重复进行卷积操作，从而降低效率。

本实施例中通过建立动态连接图，明确了初始物体特征信息、初始语义特征信息和初始短语特征信息之间的关系，并通过边把初始物体特征信息、初始语义特征信息和初始短语特征信息之间连接起来，基于边使初始物体特征信息、初始语义特征信息和初始短语特征信息之间的信息互通，充分利用了三个视觉任务之间的互补性，提升了特征信息的表征能力，使修正后的目标物体特征信息、目标语义特征信息和目标短语特征信息能更好的表达图像信息，通过在Visual Genome视觉基因组数据库上的实验结果表明，本实施例方法超过了现有技术最好的场景图生成算法，并在物体检测、图片/区域标注的准确度方面超过了通过单个任务训练出来的模型。

在本发明各图像识别方法实施例的一个具体示例中，步骤203构建动态连接图的过程可以包括：

对所有物体节点进行排列组合，其中，任意两个物体节点组合对应于一个短语节点，基于物体节点与短语节点的关系，将存在关系的两个物体节点与对应该关系的短语节点通过一条边建立连接；

当语义标注候选区与短语标注候选区重叠部分达到短语标注候选区设定比例，将语义标注候选区对应的语义节点与短语标注候选区对应的短语节点通过一条边建立连接。

在本实施例中，基于语义和空间联系建立动态连接图。具体应用如图3所示，图3a为本发明具体示例中待识别图像的示意图。图3b为本发明具体示例中物体候选区、语义标注候选区和短语标注候选区的示意图。图3c为本发明具体示例中建立的动态连接图。由于短语标注候选区域时物体候选区域通过排列组合获得，短语特征信息的结构包括：<主语物体-关系-宾语物体>短语，物体候选区排列组合的过程便建立起了短语节点和物体节点之间的语义联系，在图3c中表现为短语节点32和物体节点31之间的连接，其中实线和虚线分别代表短语节点与主语物体和宾语物体之间的联系。

短语节点和语义节点之间的联系则是通过空间联系建立起来的。当语义标注候选区与短语标注候选区重叠的部分达到短语标注候选区设定比例(如：设定为0.7，即语义标注候选区与短语标注候选区重叠的部分大于或等于短语标注候选区的70％)时，便建立起短语节点与语义节点之间的联系，图3c中表示为短语节点32与语义节点33之间的连接。由于物体节点与语义节点之间可以通过短语节点相连接，出于简化模型的需要，忽略物体节点与语义节点之间的直接联系。

在本发明各图像识别方法实施例的一个具体示例中，基于物体候选区提取初始物体特征信息，基于语义标注候选区提取初始语义特征信息，基于短语标注候选区提取初始短语特征信息；可以通过兴趣区域池化ROI-pooling从特征图中，选取出与三组候选区域相对应的特征信息用以表征特征区域。此处直接采用Fast R-CNN中提出的兴趣区域池化ROIPooling。此时，便可以得到与候选区域相对应的不同语义层次的特征信息。

本发明图像识别方法的又一个实施例中，在上述各实施例的基础上，步骤104中的修正过程，具体可以包括：

初始短语特征信息接收通过动态连接图中的边传输的初始物体特征信息和初始语义特征信息，基于初始物体特征信息和初始语义特征信息对初始短语特征信息进行修正。

初始物体特征信息接收通过动态连接图中的边传输的初始短语特征信息，基于初始短语特征信息对初始物体特征信息进行修正。

初始语义特征信息接收通过动态连接图中的边传输的初始短语特征信息，基于初始短语特征信息对初始语义特征信息进行修正。

在本实施例中，对于初始短语特征信息、初始物体特征信息和初始语义特征信息的修正是同时进行的，不存在先后顺序，本实施例中提供了通过动态连接图中的边传递的，并且，由于语义节点和物体节点之间不存在直接连接的边，因此两者之间的信息传递是通过短语节点实现的间接传递。

在本发明各图像识别方法各实施例的一个具体示例中，初始短语特征信息接收通过动态连接图中的边传输的初始物体特征信息和初始语义特征信息，基于初始物体特征信息和初始语义特征信息对初始短语特征信息进行修正，包括：

分别对初始物体特征信息和初始语义特征信息进行归一化处理，将归一化处理后的初始物体特征信息和初始语义特征信息分别经过非线性变换，分别获得物体残差和语义残差；

将物体残差和语义残差与初始短语特征信息相加获得修正短语特征信息；

将修正短语特征信息作为初始短语特征信息，重复执行修正操作，直到修正次数达到预设次数，输出最后一次修正后的修正短语特征信息作为目标短语特征信息。

由于短语节点与物体节点存在两种连接方式，即“主语-谓语”和“谓语-宾语”，所短语残差包括主语残差和宾语残差。因此，初始物体特征信息包括与初始短语特征信息存在关联关系的初始主语特征信息和初始宾语特征信息，基于初始主语特征信息和初始宾语特征信息获得的物体残差包括主语残差和宾语残差。

本实施例中进行归一化处理的原因在于与短语节点连接的物体节点和语义节点的数量是不确定的，并且有时数目巨大，因此对所有物体节点对应的物体特征信息进行归一化，获得平均值，使归一化处理后的物体特征信息在一定的范围内，以下以初始短语特征信息的修正为例描述整个过程：

将所有与该短语节点相连接的语义节点的语义特征信息进行归一化处理，归一化处理公式如下：

其中，

表示门函数(gate function)，用以控制语义标注候选区的信息是否传递给短语节点；j表示一个短语节点，k表示一个语义节点，r表示语义标注区域，X_k ^(r)表示语义节点k的特征信息，各个字母的取值范围可以根据实验需求调整的。

表示短语节点j的特征信息；||E_j,r||表示与短语节点j相连的所有语义节点的个数，E_p,r表示连接短语节点与语义节点的边的集合。

门函数的计算公式如下：

其中，G表示门函数的模板个数，权重

通过训练模型得到，sigmoid函数是一个在生物学中常见的S型的函数，也称为S型生长曲线，数值范围在0到1之间，通常用于表示概率。

基于以上公式，对与短语节点相连接的物体节点进行归一化，可以得到归一化的主语特征信息

和宾语特征信息

基于上述归一化获得的初始语义特征信息

初始主语特征信息

和初始宾语特征信息

获得修正短语特征信息的公式如下：

其中F(x)＝fc(ReLU(x))，

和

分别表示初始短语特征信息和修正短语特征信息。

在此公式中，将

作为语义残差，将

作为主语残差，将

作为宾语残差，命门为残差的原因在于残差为修正短语特征信息与初始短语特征信息的差值。

在本发明各图像识别方法各实施例的一个具体示例中，初始物体特征信息接收通过动态连接图中的边传输的初始短语特征信息，基于初始短语特征信息对初始物体特征信息进行修正，包括：

对初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语物体残差；

将短语物体残差与初始物体特征信息相加获得修正物体特征信息；

重复执行修正操作，直到修正次数达到预设次数，输出最后一次修正后的修正物体特征信息作为目标物体特征信息。

在本实施例中，通过对与初始物体特征信息存在直接连接的初始短语特征信息进行归一化处理和非线性变换，并将得到的短语物体残差发送给物体节点，初始物体特征信息与短语物体残差相加后获得修正物体特征信息，其具体应用过程与初始短语特征信息修正过程的区别仅在于连接的节点类别和类别数量不同，因此，类似的，得到计算修正物体特征信息的公式如下：

其中，

和

分别为初始物体特征信息和修正物体特征信息，

和

分别为短语节点传递给主语节点和短语节点传递给宾语节点的残差，累加为短语物体残差。

在本发明各图像识别方法各实施例的一个具体示例中，初始语义特征信息接收通过动态连接图中的边传输的初始短语特征信息对初始语义特征信息进行修正，包括：

对初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语语义残差；

将短语语义残差与初始语义特征信息相加获得修正语义特征信息；

将修正语义特征信息作为初始语义特征信息，重复执行修正操作，直到修正次数达到预设次数，输出最后一次修正后的修正语义特征信息作为目标语义特征信息。

在本实施例中，通过对与初始语义特征信息存在直接连接的初始短语特征信息进行归一化处理和非线性变换，并将得到的短语语义残差发送给语义节点，初始语义特征信息与短语语义残差相加后获得修正语义特征信息，其具体应用过程与初始短语特征信息修正过程的区别仅在于连接的节点类别和类别数量不同，因此，类似的，得到计算修正语义特征信息的公式如下：

其中，

和

分别为修正前和修正后的物体特征信息，

为短语语义残差。

上述特征修正操作可以不断迭代，每次修正都以上一次修正获得的短语特征信息、物体特征信息和语义特征信息为基础，直至收敛。但是，当迭代修正次数增加时，模型训练复杂度也会相应增加，并与迭代次数增加所带来的增益相抵消。因此，需要通过实验来确定最终的迭代修正次数，在本实施例中，通过实验结果确定，当迭代修正次数为2时，模型的场景图生成准确率最高，但是，修正次数也可以设定为其他数值。

图4为本发明图像识别方法还一个实施例的流程图。如图4所示，在上述各实施例的基础上，该实施例方法包括：

其中，物体候选区用于表征可能存在物体的区域；语义标注候选区表征包括可识别信息的区域；短语标注候选区表征存在关联关系的两个物体的区域。

步骤405，对目标物体特征信息进行识别，得到待识别图像中包含的物体类别；和/或对目标语义特征信息进行识别，得到待识别图像中具有可识别信息的区域的语言描述；和/或对目标短语特征信息进行识别，得到待识别图像中物体之间的关系类别。

在本实施例中，目标物体特征信息用于预测物体种类，目标短语特征信息用于预测与之相连的两个物体之间的关系类别，目标语义特征信息用于输入到一个基于LSTM时间递归神经网络的语言模型用于生成一句描述相应区域的语句，该语言模型直接采用Densecap全卷积定位神经网络模型中的语言模型。此时，便可以检测出一张图像中的物体，识别出物体之间的关系，并对该图像中显著区域的进行语言描述。

在本发明图像识别方法的再一个实施例中，基于上述各实施例的基础上，本实施例方法，还包括训练过程：

待识别图像具体为样本图像，样本图像标注有图像中物体位置及类别、物体之间的类别关系和有显著语义区域的语言描述；

迭代执行上述任一实施例图像识别方法的操作，直到最终输出的基于目标物体特征信息得到的物体类别、基于目标短语特征信息得到的相应物体之间的关系类别和基于目标语义特征信息得到的语言描述与样本图像具有的标注信息的差异小于或等于预设阈值。

经过本实施例提供的训练方法对图像识别方法涉及的模型进行训练，使得到输出结果更好，并且由于图像识别方法中传输的信息为残差，简化了网络训练过程中误差反向传播的路径，提升了网络训练的效率。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本发明图像识别装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示，该实施例的装置包括：

区域获取单元51，用于获取待识别图像的物体候选区、语义标注候选区和短语标注候选区。

其中，物体候选区用于表征可能存在物体的区域；语义标注候选区表征包括可识别信息的区域；短语标注候选区用于表征存在关联关系的两个物体的区域。

信息获取单元52，用于基于物体候选区提取初始物体特征信息，基于语义标注候选区提取初始语义特征信息，基于短语标注候选区提取初始短语特征信息。

修正单元54，用于基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

基于本发明上述实施例提供的一种图像识别装置，通过同时获取待识别图像的物体候选区、语义标注候选区和短语标注候选区，实现同时对图像进行物体识别、图片区域标注和场景图生成；分别基于所述物体候选区提取初始物体特征信息，基于所述语义标注候选区提取初始语义特征信息，基于所述短语标注候选区提取初始短语特征信息，由于物体识别、场景图生成和图片区域标注是分别从不同层次对图像进行描述，物体识别、场景图生成和图片区域标注之间存在关联性；基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正；使每个特征信息会包含更多有用的信息，从而提升了对待识别图像的物体识别、场景图生成和图片区域标注的准确率。

在本发明各图像识别装置各实施例的一个具体示例中，连接关系包括语义关系及空间关系，本实施例装置还包括：关系建立单元，用于基于物体候选区和短语标注候选区之间的语义关系，获得物体特征信息和短语特征信息之间的连接关系；基于短语标注区和语义标注候选区之间的空间关系，获得语义特征信息和短语特征信息之间的连接关系。

其中，物体特征信息和短语特征信息之间的连接关系用于表征所述物体特征信息和短语特征信息之间是否存在关联；语义特征信息和短语特征信息之间的连接关系用于表征语义特征信息和短语特征信息之间是否存在关联。

在本发明各图像识别装置各实施例的一个具体示例中，区域获取单元51，具体用于基于卷积神经网络提取待识别图像中每个可能存在物体的区域作为物体候选区，提取待识别图像中每个具有可识别信息的区域作为语义标注候选区；将所有物体候选区进行排列组合，每两个物体候选区结合构成短语标注候选区。

图6为本发明各图像识别装置另一个实施例的结构示意图。如图6所示，在上述各实施例的基础上，该实施例装置中，还包括：图建立单元63，用于将初始物体特征信息、初始语义特征信息和初始短语特征信息分别作为物体节点、语义节点和短语节点，将初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系作为边，构建动态连接图。

本实施例中通过建立动态连接图，明确了初始物体特征信息、初始语义特征信息和初始短语特征信息之间的关系，并通过边把初始物体特征信息、初始语义特征信息和初始短语特征信息之间连接起来，基于边使初始物体特征信息、初始语义特征信息和初始短语特征信息之间的信息互通，充分利用了三个视觉任务之间的互补性，提升了特征信息的表征能力，使目标物体特征信息、目标语义特征信息和目标短语特征信息能更好的表达图像信息，通过在Visual Genome视觉基因组数据库上的实验结果表明，本实施例方法超过了现有技术最好的场景图生成算法，并在物体检测、图片/区域标注的准确度方面超过了通过单个任务训练出来的模型。

在本发明各图像识别装置各实施例的一个具体示例中，图建立单元63，具体用于对所有物体节点进行排列组合，其中，任意两个物体节点组合对应于一个短语节点，基于物体节点与短语节点的关系，将存在关系的两个物体节点与对应该关系的短语节点通过一条边建立连接；

图7为本发明图像识别装置又一个实施例的结构示意图。如图7所示，在上述各实施例的基础上，本实施例装置中，修正单元54，包括：

短语修正模块71，用于接收通过动态连接图中的边传输的初始物体特征信息和初始语义特征信息，基于初始物体特征信息和初始语义特征信息对初始短语特征信息进行修正。

物体修正模块72，用于接收通过动态连接图中的边传输的初始短语特征信息，基于初始短语特征信息对初始物体特征信息进行修正。

语义修正模块73，用于接收通过动态连接图中的边传输的初始短语特征信息，基于初始短语特征信息对初始语义特征信息进行修正。

在本发明各图像识别装置各实施例的一个具体示例中，短语修正模块71，具体用于分别对初始物体特征信息和初始语义特征信息进行归一化处理，将归一化处理后的初始物体特征信息和初始语义特征信息分别经过非线性变换，分别获得物体残差和语义残差；

在本发明各图像识别装置各实施例的一个具体示例中，初始物体特征信息包括与初始短语特征信息存在关联关系的初始主语特征信息和初始宾语特征信息，基于初始主语特征信息和初始宾语特征信息获得的物体残差包括主语残差和宾语残差。

在本发明各图像识别装置各实施例的一个具体示例中，物体修正模块72，具体用于对初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语物体残差；

将短语残差与初始物体特征信息相加获得修正物体特征信息；

将修正物体特征信息作为初始物体特征信息，重复执行修正操作，直到修正次数达到预设次数，输出最后一次修正后的修正物体特征信息作为目标物体特征信息。

在本发明各图像识别装置各实施例的一个具体示例中，语义修正模块73，具体用于对初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语语义残差；

图8为本发明图像识别装置还一个实施例的结构示意图。如图8所示，在上述各实施例的基础上，该实施例装置还包括：修正应用单元85，用于对目标物体特征信息进行识别，得到待识别图像中相应区域包含的物体类别；和/或对目标语义特征信息进行识别，得到待识别图像中具有可识别信息的区域的语言描述；和/或对目标短语特征信息进行识别，得到待识别图像中物体之间的关系类别。

在本发明图像识别装置的再一个实施例中，基于上述各实施例的基础上，本实施例装置，还包括训练单元，用于将待识别图像具体为样本图像待识别图像，样本图像标注有图像中物体位置及类别、物体之间的类别关系和有显著语义区域的语言描述；

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明图像识别装置各实施例中的任意一项。

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明图像识别方法各实施例中的任意一项的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行本发明图像识别方法各实施例中的任意一项的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图9，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备900的结构示意图：如图9所示，计算机系统900包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)901，和/或一个或多个图像处理器(GPU)913等，处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。通信部912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器902和/或随机访问存储器930中通信以执行可执行指令，通过总线904与通信部912相连、并经通信部912与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，获取待识别图像的物体候选区、语义标注候选区和短语标注候选区；物体候选区用于表征可能存在物体的区域；语义标注候选区用于表征包括可识别信息的区域；短语标注候选区用于表征存在关联关系的两个物体的区域；基于物体候选区提取初始物体特征信息，基于语义标注候选区提取初始语义特征信息，基于短语标注候选区提取初始短语特征信息；基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

此外，在RAM 903中，还可存储有装置操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。在有RAM903的情况下，ROM902为可选模块。RAM903存储可执行指令，或在运行时向ROM902中写入可执行指令，可执行指令使处理器901执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至总线904。通信部912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

需要说明的，如图9所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，获取待识别图像的物体候选区、语义标注候选区和短语标注候选区；物体候选区用于表征可能存在物体的区域；语义标注候选区用于表征包括可识别信息的区域；短语标注候选区用于表征存在关联关系的两个物体的区域；基于物体候选区提取初始物体特征信息，基于语义标注候选区提取初始语义特征信息，基于短语标注候选区提取初始短语特征信息；基于初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系，分别对初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像识别方法，其特征在于，包括：

基于所述初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系构建动态连接图，基于所述动态连接图分别对所述初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

2.根据权利要求1所述的方法，其特征在于，所述连接关系包括语义关系及空间关系，所述方法还包括：

基于所述物体候选区和短语标注候选区之间的语义关系，获得所述物体特征信息和短语特征信息之间的连接关系；

基于所述短语标注区和语义标注候选区之间的空间关系，获得所述语义特征信息和短语特征信息之间的连接关系；

其中，所述物体特征信息和短语特征信息之间的连接关系用于表征所述物体特征信息和短语特征信息之间是否存在关联；所述语义特征信息和短语特征信息之间的连接关系用于表征所述语义特征信息和短语特征信息之间是否存在关联。

3.根据权利要求1或2所述的方法，其特征在于，所述获取待识别图像的物体候选区、语义标注候选区和短语标注候选区，包括：

将所有所述物体候选区进行排列组合，每两个物体候选区结合构成短语标注候选区。

4.根据权利要求3所述的方法，其特征在于，对所述初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正之前，还包括：

将所述初始物体特征信息、初始语义特征信息和初始短语特征信息分别作为物体节点、语义节点和短语节点，将所述初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系作为边，构建动态连接图。

5.根据权利要求4所述的方法，其特征在于，所述构建动态连接图，包括：

对所有所述物体节点进行排列组合，其中，任意两个物体节点组合对应于一个短语节点，基于物体节点与短语节点的关系，将存在关系的两个物体节点与对应该关系的短语节点通过一条边建立连接；

当所述语义标注候选区与所述短语标注候选区重叠部分达到所述短语标注候选区设定比例，将所述语义标注候选区对应的语义节点与所述短语标注候选区对应的短语节点通过一条边建立连接。

6.根据权利要求5所述的方法，其特征在于，所述分别对所述初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，包括：

所述初始短语特征信息接收通过所述动态连接图中的边传输的初始物体特征信息和初始语义特征信息，基于所述初始物体特征信息和初始语义特征信息对初始短语特征信息进行修正；

所述初始物体特征信息接收通过所述动态连接图中的边传输的初始短语特征信息，基于所述初始短语特征信息对所述初始物体特征信息进行修正；

所述初始语义特征信息接收通过所述动态连接图中的边传输的初始短语特征信息，基于所述初始短语特征信息对所述初始语义特征信息进行修正。

7.根据权利要求6所述的方法，其特征在于，所述初始短语特征信息接收通过所述动态连接图中的边传输的初始物体特征信息和初始语义特征信息，基于所述初始物体特征信息和初始语义特征信息对初始短语特征信息进行修正，包括：

将所述物体残差和语义残差与所述初始短语特征信息相加获得修正短语特征信息；

8.根据权利要求7所述的方法，其特征在于，所述初始物体特征信息包括与初始短语特征信息存在关联关系的初始主语特征信息和初始宾语特征信息，基于初始主语特征信息和初始宾语特征信息获得的物体残差包括主语残差和宾语残差。

9.根据权利要求6所述的方法，其特征在于，所述初始物体特征信息接收通过所述动态连接图中的边传输的初始短语特征信息，基于所述初始短语特征信息对所述初始物体特征信息进行修正，包括：

对所述初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语物体残差；

将所述短语物体残差与所述初始物体特征信息相加获得修正物体特征信息；

10.根据权利要求6所述的方法，其特征在于，所述初始语义特征信息接收通过所述动态连接图中的边传输的初始短语特征信息对所述初始语义特征信息进行修正，包括：

对所述初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语语义残差；

将所述短语语义残差与所述初始语义特征信息相加获得修正语义特征信息；

11.根据权利要求9所述的方法，其特征在于，所述初始语义特征信息接收通过所述动态连接图中的边传输的初始短语特征信息对所述初始语义特征信息进行修正，包括：

12.根据权利要求1所述的方法，其特征在于，还包括：

对目标物体特征信息进行识别，得到所述待识别图像中相应区域包含的物体类别；和/或，

对目标语义特征信息进行识别，得到所述待识别图像中具有可识别信息的区域的语言描述；和/或，

对目标短语特征信息进行识别，得到所述待识别图像中物体之间的关系类别。

13.根据权利要求3所述的方法，其特征在于，还包括：

14.根据权利要求1所述的方法，其特征在于，所述待识别图像具体为样本图像，所述样本图像标注有图像中物体位置及类别、物体之间的类别关系和有显著语义区域的语言描述；

迭代执行权利要求1所述图像识别方法的操作，直到最终输出的基于所述目标物体特征信息得到的物体类别、基于所述目标短语特征信息得到的相应物体之间的关系类别和基于所述目标语义特征信息得到的语言描述与所述样本图像具有的标注信息的差异小于或等于预设阈值。

15.根据权利要求3所述的方法，其特征在于，所述待识别图像具体为样本图像，所述样本图像标注有图像中物体位置及类别、物体之间的类别关系和有显著语义区域的语言描述；

迭代执行权利要求3所述图像识别方法的操作，直到最终输出的基于所述目标物体特征信息得到的物体类别、基于所述目标短语特征信息得到的相应物体之间的关系类别和基于所述目标语义特征信息得到的语言描述与所述样本图像具有的标注信息的差异小于或等于预设阈值。

16.一种图像识别装置，其特征在于，包括：

修正单元，用于基于所述初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系构建动态连接图，基于所述动态连接图分别对所述初始物体特征信息、初始语义特征信息和初始短语特征信息进行修正，得到目标物体特征信息、目标语义特征信息和目标短语特征信息。

17.根据权利要求16所述的装置，其特征在于，所述连接关系包括语义关系及空间关系，所述装置还包括：

关系建立单元，用于基于所述物体候选区和短语标注候选区之间的语义关系，获得所述物体特征信息和短语特征信息之间的连接关系；基于所述短语标注区和语义标注候选区之间的空间关系，获得所述语义特征信息和短语特征信息之间的连接关系；

18.根据权利要求16或17所述的装置，其特征在于，所述区域获取单元，具体用于基于卷积神经网络提取待识别图像中每个可能存在物体的区域作为物体候选区，提取待识别图像中每个具有可识别信息的区域作为语义标注候选区；将所有所述物体候选区进行排列组合，每两个物体候选区结合构成短语标注候选区。

19.根据权利要求18所述的装置，其特征在于，还包括：图建立单元，用于将所述初始物体特征信息、初始语义特征信息和初始短语特征信息分别作为物体节点、语义节点和短语节点，将所述初始物体特征信息、初始语义特征信息和初始短语特征信息之间的连接关系作为边，构建动态连接图。

20.根据权利要求19所述的装置，其特征在于，所述图建立单元，具体用于对所有所述物体节点进行排列组合，其中，任意两个物体节点组合对应于一个短语节点，基于物体节点与短语节点的关系，将存在关系的两个物体节点与对应该关系的短语节点通过一条边建立连接；

21.根据权利要求20所述的装置，其特征在于，所述修正单元，包括：

短语修正模块，用于接收通过所述动态连接图中的边传输的初始物体特征信息和初始语义特征信息，基于所述初始物体特征信息和初始语义特征信息对初始短语特征信息进行修正；

物体修正模块，用于接收通过所述动态连接图中的边传输的初始短语特征信息，基于所述初始短语特征信息对所述初始物体特征信息进行修正；

语义修正模块，用于接收通过所述动态连接图中的边传输的初始短语特征信息，基于所述初始短语特征信息对所述初始语义特征信息进行修正。

22.根据权利要求21所述的装置，其特征在于，所述短语修正模块，具体用于分别对初始物体特征信息和初始语义特征信息进行归一化处理，将归一化处理后的初始物体特征信息和初始语义特征信息分别经过非线性变换，分别获得物体残差和语义残差；

将所述物体残差和语义残差与所述初始短语特征信息相加获得修正后的短语特征信息；

23.根据权利要求22所述的装置，其特征在于，所述初始物体特征信息包括与初始短语特征信息存在关联关系的初始主语特征信息和初始宾语特征信息，基于初始主语特征信息和初始宾语特征信息获得的物体残差包括主语残差和宾语残差。

24.根据权利要求21所述的装置，其特征在于，所述物体修正模块，具体用于对所述初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语物体残差；

将所述短语残差与所述初始物体特征信息相加获得修正物体特征信息；

25.根据权利要求21所述的装置，其特征在于，所述语义修正模块，具体用于对所述初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语语义残差；

26.根据权利要求24所述的装置，其特征在于，所述语义修正模块，具体用于对所述初始短语特征信息进行归一化处理，将归一化处理后的初始短语特征信息经过非线性变换，得到短语语义残差；

27.根据权利要求16所述的装置，其特征在于，还包括：修正应用单元，用于对目标物体特征信息进行识别，得到所述待识别图像中相应区域包含的物体类别；和/或对目标语义特征信息进行识别，得到所述待识别图像中具有可识别信息的区域的语言描述；和/或对目标短语特征信息进行识别，得到所述待识别图像中物体之间的关系类别。

28.根据权利要求18所述的装置，其特征在于，还包括：修正应用单元，用于对目标物体特征信息进行识别，得到所述待识别图像中相应区域包含的物体类别；和/或对目标语义特征信息进行识别，得到所述待识别图像中具有可识别信息的区域的语言描述；和/或对目标短语特征信息进行识别，得到所述待识别图像中物体之间的关系类别。

29.根据权利要求16所述的装置，其特征在于，还包括训练单元，用于将所述待识别图像具体为样本图像待识别图像，所述样本图像标注有图像中物体位置及类别、物体之间的类别关系和有显著语义区域的语言描述；

迭代执行权利要求16所述图像识别方法的操作，直到最终输出的基于所述目标物体特征信息得到的物体类别、基于所述目标短语特征信息得到的相应物体之间的关系类别和基于所述目标语义特征信息得到的语言描述与所述样本图像具有的标注信息的差异小于或等于预设阈值。

30.根据权利要求18所述的装置，其特征在于，还包括训练单元，用于将所述待识别图像具体为样本图像待识别图像，所述样本图像标注有图像中物体位置及类别、物体之间的类别关系和有显著语义区域的语言描述；

迭代执行权利要求18所述图像识别方法的操作，直到最终输出的基于所述目标物体特征信息得到的物体类别、基于所述目标短语特征信息得到的相应物体之间的关系类别和基于所述目标语义特征信息得到的语言描述与所述样本图像具有的标注信息的差异小于或等于预设阈值。

31.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求16至30任意一项所述的图像识别装置。

32.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至15任意一项所述图像识别方法的操作。

33.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至15任意一项所述图像识别方法的操作。