CN114332809A

CN114332809A - 一种图像识别方法、装置、电子设备和存储介质

Info

Publication number: CN114332809A
Application number: CN202111453600.XA
Authority: CN
Inventors: 燕旭东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-12

Abstract

本申请公开了一种图像识别方法、装置、电子设备和存储介质，所述方法可以对待处理图像进行对象检测，得到对象检测图像，将对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息，将多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息，将重组特征信息输入到图像识别网络中进行类型识别，得到对象检测图像对应的目标类型信息。该方法可以提取对象检测图像中的局部特征信息，并对局部特征信息进行重组，从而提高模型对局部特征信息辨识能力，减少对象检测图像的类间干扰，提高了对对象检测图像识别的准确性和稳定性。

Description

一种图像识别方法、装置、电子设备和存储介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种图像识别方法、装置、电子设备和存储介质。

背景技术

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。现有技术中，在对复杂图像进行识别时，往往采用将复杂图像整体作为标注信息，训练卷积神经网络对图像进行高级语义特征提取并识别的方式，但在复杂图像存在多种相似类型的情况下，使用该方法会导致较大的类间干扰，从而使得图像识别的准确性和稳定性下降，导致误检测、识别类型错误等问题。

发明内容

本申请提供了一种图像识别方法、装置、电子设备和存储介质，可以得到减少对象检测图像的类间干扰，提高对象检测图像识别的准确性和稳定性。

一方面，本申请提供了一种图像识别方法，所述方法包括：

对待处理图像进行对象检测，得到对象检测图像，所述对象检测图像为所述待处理图像中位于同一连通区域的至少两个对象的对象图像；

将所述对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息，所述局部特征信息为所述至少两个对象中每个对象对应的特征信息；

将所述多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息；

将所述重组特征信息输入到图像识别网络中进行类型识别，得到所述对象检测图像对应的目标类型信息。

另一方面提供了一种图像识别装置，所述装置包括：

对象检测模块，用于对待处理图像进行对象检测，得到对象检测图像，所述对象检测图像为所述待处理图像中位于同一连通区域的至少两个对象的对象图像；

特征提取模块，用于将所述对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息，所述局部特征信息为所述至少两个对象中每个对象对应的特征信息；

特征重组模块，用于将所述多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息；

类型识别模块，用于将所述重组特征信息输入到图像识别网络中进行类型识别，得到所述对象检测图像对应的目标类型信息。

另一方面提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的一种图像识别方法。

另一方面提供了一种计算机可读存储介质，所述存储介质包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的一种图像识别方法。

另一方面提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述所述的图像识别方法。

本申请提供的一种图像识别方法、装置、电子设备和存储介质，所述方法可以对待处理图像进行对象检测，得到对象检测图像，将对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息，将多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息，将重组特征信息输入到图像识别网络中进行类型识别，得到对象检测图像对应的目标类型信息。该方法可以提取对象检测图像中的局部特征信息，并对局部特征信息进行重组，从而提高模型对局部特征信息辨识能力，减少对象检测图像的类间干扰，提高了对对象检测图像识别的准确性和稳定性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像识别方法的应用场景示意图；

图2为本申请实施例提供的一种图像识别方法的流程图；

图3为本申请实施例提供的一种图像识别方法中目标对象检测网络的结构示意图；

图4为本申请实施例提供的一种图像识别方法中目标对象检测网络的候选框示意图；

图5为本申请实施例提供的一种图像识别方法中确定局部特征信息的流程图；

图6为本申请实施例提供的一种图像识别方法中获取重组特征信息的流程图；

图7为本申请实施例提供的一种图像识别方法中基于目标距离进行特征融合的流程图；

图8为本申请实施例提供的一种图像识别方法中进行模型训练的方法的流程图；

图9为本申请实施例提供的一种图像识别方法中计算目标损失信息的流程图；

图10为本申请实施例提供的一种图像识别方法应用在交通标志牌识别场景中的示意图；

图11为本申请实施例提供的一种图像识别装置的结构示意图；

图12为本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。而且，术语“第一”、“第二”等适用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

请参见图1，其显示了本申请实施例提供的一种图像识别方法的应用场景示意图，应用场景包括客户端110和服务器120，客户端110进行图像采集，得到待处理图像。服务器120可以接收客户端110发送的待处理图像，服务器120从待处理图像中获取对象检测图像，并对对象检测图像进行特征提取，得到每个对象对应的局部特征信息。服务器120对局部特征信息进行特征重组，得到重组特征信息，并对重组特征信息进行类型识别，得到对象检测图像对应的目标类型信息。服务器120将目标类型信息发送到客户端110中。

在申请实施例中，客户端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。客户端110包括UI(User Interface，用户界面)层，客户端110通过UI层对外提供待处理图像的显示以及目标类型信息的显示，另外，基于API(Application Programming Interface，应用程序接口)将图像识别所需的数据发送给服务器120。

在申请实施例中，服务器120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。具体的，服务器120可以用于对对象检测图像进行特征提取，得到每个对象对应的局部特征信息，并对局部特征信息进行特征重组，得到重组特征信息，再对重组特征信息进行类型识别，得到对象检测图像对应的目标类型信息。

请参见图2，其显示了一种图像识别方法，可应用于服务器侧，该方法包括：

S210.对待处理图像进行对象检测，得到对象检测图像，对象检测图像为待处理图像中位于同一连通区域的至少两个对象的对象图像；

在一些实施例中，连通区域为待处理图像中具有闭合边界的区域，即该区域的边界是首尾相连的。连通区域中可以包括至少两个对象，该至少两个对象完全属于该连通区域。例如，交通标志牌通常为方形、圆形或者三角形的形状，其边界均是闭合边界。在交通标志牌可以包括了图案或者文字等至少两个对象，且这些图案或文字均完全位于该交通标志牌的边界内，因此可以将该交通标志牌视为待处理图像中的一个连通区域。对待处理图像进行对象检测，可以得到待处理图像中的对象检测图像，对象检测图像为待处理图像中位于同一连通区域的至少两个对象的对象图像，该至少两个对象可以为同一类别的对象，也可以为不同类别的对象，该对象可以为待处理图像中的要素，例如交通道路图像中的交通标志牌。例如，在该至少两个对象的类别均为图像的情况下，该至少两个对象可以为至少两种不同的图像信息。在该至少两个对象的类别包括图像和文本的情况下，该至少两个对象也可以为至少一种图像信息和至少一种文本信息。对象检测图像为种类多、类间识别干扰大，并且包含了丰富信息的图像，例如交通标志牌、商店招牌等，这些图像往往由多个图案组成，有的还会包括文字信息。例如交通标志牌中的指示箭头就可以包括直行、左转、右转、左转直行、右转直行、掉头、左转掉头、斜右上、斜左上、斜右下、斜左下、向左、向右、向下等等多种类型，此外还有很多不规则的局部图像，如指示公交车专用道的公交车图案，指示非机动车道的自行车图像，指示机动车道的小轿车图案、指示过街天桥、地下通道的阶梯图案，以及指示区间测速的摄像头图案等。这些局部图像还可以根据实际应用进行组合，因此导致了识别难度大的问题。商店招牌同样如此，商店招牌可以包括不同的字体和图案，且对应商店的类型，可能存在异形字体，或者在文字中嵌入图案等，也存在较大的识别难度。

在一些实施例中，对待处理图像进行对象检测，得到对象检测图像包括：

将待处理图像输入到目标对象检测网络中进行对象检测，得到对象检测图像。

在一些实施例中，请参见图3，如图3所示为目标对象检测网络的结构示意图，目标对象检测网络包括卷积层、归一化层和激活层。卷积层可以用于进行边缘、纹理等基础特征的提取，归一化层可以用于将卷积层提取到的特征按照正态分布进行归一化处理，过滤掉卷积层提取到的特征中的噪声特征。激活层可以用于对卷积层提取到的特征进行非线性映射。将待处理图像输入到卷积层中进行特征提取，得到初始特征信息，再将初始特征信息输入到归一化层中进行归一化处理，并将归一化处理后的初始特征信息输入到激活层中进行非线性映射，可以得到目标特征信息。

请参见图4，如图4所示为目标对象检测网络进行对象检测时的候选框示意图。可以以目标特征信息中每一个特征点作为中心点，选取长宽比为1:1，长宽比为2:1，以及长宽比为1:2的三种候选框，且每种候选框均包括尺度分别为1个特征点、2个特征点和3个特征点的三个候选框。基于目标特征信息和目标特征信息对应的候选框，可以确定对象检测图像。

从待处理图像中确定对象检测图像，从而区分待处理图像中识别难度大的区域和识别难度小的区域，从而可以对识别难度大的区域进行特征重组再识别，提高对对象检测图像进行识别的准确性。

S220.将对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息，局部特征信息为至少两个对象中每个对象对应的特征信息；

在一些实施例中，将对象检测图像输入到局部特征提取网络中进行特征提取时，可以得到对象检测图像中的每个对象对应的局部特征信息，并同时去除了与对象识别无关的信息。对象检测图像中包括至少两个对象，则可以得到至少两个局部特征信息。该局部特征信息可以为含义丰富的语义特征信息，基于该局部特征信息可以对对象检测图像中各个对象进行识别。

在一些实施例中，请参见图5，局部特征提取网络包括图像特征提取网络和局部语义识别网络，将对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息包括：

S510.将对象检测图像输入到图像特征提取网络中进行特征提取，得到检测图像特征信息；

S520.将检测图像特征信息输入到局部语义识别网络中进行语义识别，得到每个对象对应的局部特征信息；

将多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息包括：

S530.将检测图像特征信息和多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息。

在一些实施例中，将对象检测图像输入到图像特征提取网络前，可以对对象检测图像进行图像处理，对对象检测图像进行缩放，使得对象检测图像与预设尺寸匹配。例如，设置预设尺寸为300x300像素，将对象检测图像先缩放到300x300像素，再作为图像特征提取网络的输入。

在一些实施例中，局部特征提取网络包括图像特征提取网络和局部语义识别网络，图像特征提取网络用于对对象检测图像中的对象进行特征提取，并基于预设的标注框和提取到的特征信息，确定不同的对象在对象检测图像中的位置。将对象检测图像输入到图像特征提取网络中进行特征提取，可以得到检测图像特征信息，检测图像特征信息为对象检测图像对应的整体特征性信息，在检测图像特征信息中不同的区域具有不同的特征值，基于不同的特征值可以确定对象检测图像中的对象。图像特征提取网络可以为Resnet卷积神经网络。

在一些实施例中，将检测图像特征信息输入到局部语义识别网络中进行语义识别，根据检测图像特征信息中不同的特征值确定各个对象分别对应的局部区域，获取每个局部区域对应的特征信息，并对每个局部区域对应的特征信息进行均值池化，将每个局部区域对应的特征信息统一到同一尺度，从而可以得到每个对象对应的局部特征信息。例如，将具有箭头图案和高速出口名称的交通标志牌输入到图像特征提取网络中进行特征提取，得到检测图像特征信息，再将检测图像特征信息输入到局部语义识别网络中进行语义识别，就可以得到箭头图案对应的局部特征信息，以及高速出口名称对应的局部特征信息。

在一些实施例中，在获取检测图像特征信息和局部特征信息之后，将检测图像特征信息和局部特征信息输入到局部特征重组网络中，基于图像特征信息，对局部特征信息对应的检测位置信息进行校准，再基于校准后的检测位置信息，对局部特征信息进行特征重组，可以得到重组特征信息。

对对象检测图像中各个对象的局部特征信息进行提取，从而将待处理图像中具有丰富语义信息的区域提取出来，使得局部特征重组网络能够更加关注具有丰富语义信息的区域的特征，去除对象检测图像中的无用信息，提高了局部特征提取的有效性。

S230.将多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息；

在一些实施例中，将多个局部特征信息输入到局部特征重组网络中，基于每个局部特征信息对应的位置信息，对局部特征信息进行拼接，可以得到重组特征信息。

在一些实施例中，请参见图6，局部特征重组网络包括位置特征提取网络和特征融合网络，将检测图像特征信息和多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息包括：

S610.将检测图像特征信息输入位置特征提取网络中进行位置特征提取，得到每个对象对应的位置校准信息，位置校准信息为每个对象在对象检测图像中的检测位置的校准信息；

S620.将多个局部特征信息和每个局部图像对应的位置校准信息输入到特征融合网络中进行特征融合，得到重组特征信息。

在一些实施例中，将检测图像特征信息输入位置特征提取网络中进行位置特征提取，获取检测图像特征信息中每个对象的检测位置的偏移量，可以得到位置校准信息。例如，检测图像特征信息中对象A的检测位置信息为坐标(x，y)，在将检测图像特征信息输入到位置特征提取网络中进行位置特征提取时，得到对象A的位置校准信息为(x1，y1)，则对象A的实际位置信息为(x+x1，y+y1)。

位置校准信息可以为位置势场，位置势场为一个二维方向向量，可以表征对应的对象在对象检测图像中的位置趋势，也就是说表征局部特征信息在对象检测图像对应的图像特征信息中应处的位置。例如一个对象应处在对象检测图像的左上角，则位置势场方向趋向于指向左上方向。

基于位置校准信息，可以确定实际位置相比于检测位置偏移了多少距离的信息，因此，基于位置校准信息，可以对每个局部特征信息对应的检测位置信息进行调整，例如，对象B的检测位置信息与实际位置信息相比向左偏移了两个像素点，则可以确定对象B的位置校准信息，对对象B的检测位置信息进行调整，使得对象B的检测位置信息右移两个像素点，从而与实际位置信息匹配。

在一些实施例中，将多个局部特征信息和每个局部图像对应的位置校准信息输入到特征融合网络中，基于位置校准信息，对每个局部特征信息对应的检测位置信息进行校准，再基于校准后的检测位置信息，对多个局部特征信息进行特征融合，得到重组特征信息。

对多个具有丰富语义信息的局部特征信息进行特征融合，可以整合对象检测图像内部较为复杂的空间信息，从而提高了特征融合的有效性。并且通过先识别局部特征信息，再重组局部特征信息的方法，可以提高模型对局部特征信息的辨识能力，从而提高了后续步骤中对对象检测图像进行识别的准确性和稳定性。

在一些实施例中，请参见图7，将多个局部特征信息和每个局部图像对应的位置校准信息输入到特征融合网络中进行特征融合，得到重组特征信息包括：

S710.将多个局部特征信息和每个局部图像对应的位置校准信息输入到特征融合网络中，基于每个局部特征信息对应的检测位置信息和每个局部特征信息对应的位置校准信息，确定每个局部特征信息与预设起始融合位置间的目标距离；

S720.基于目标距离，对多个局部特征信息进行特征融合，得到重组特征信息。

在一些实施例中，检测位置信息对应的坐标与位置校准信息对应的坐标相加后即为校准后的位置信息。在进行特征融合时，可以先确定预设起始融合位置。则每个局部特征信息到预设起始融合位置的目标距离，可以通过检测位置信息和位置校准信息相加后得到的校准后的位置信息进行计算，如下述公式所示：

其中，d为目标距离，(x，y)为检测位置信息，(x1，y1)为位置校准信息。目标距离越小，则表示局部特征信息的位置距离预设起始融合位置越近，目标距离越大，则表示局部特征信息的位置距离预设起始融合位置越远。例如，设置预设起始融合位置为对象检测图像的左上角顶点，则计算每个局部特征信息到左上角顶点的目标距离，目标距离越小，则局部特征信息越靠近左上角顶点。

在一些实施例中，基于目标距离，可以确定每个局部特征信息的重组权重，基于重组权重确定融合序列，再对局部特征信息进行融合，重组权重用于表示每个局部特征信息在进行特征融合时被选中的概率，目标距离越小，重组权重越大，则局部特征信息被选中的概率越大，因此融合序列也就越靠前，因此，在对局部特征信息进行融合时，重组权重大的局部特征信息排在融合序列的前列，先被选中进行融合，重组序列小的局部特征信息排在融合序列的后面，后被选中进行融合，也就是以预设起始融合位置为起点，以预设起始融合位置的对角顶点为终点，按照起点到终点的方式，对局部特征信息进行融合。计算重组权重时，如下述公式所示：

其中，p_i表示重组权重，n表示局部特征信息的个数，i表示第i个局部特征信息。在计算得到每个局部特征信息对应的重组权重后，可以按照重组权重的大小，依次确定局部特征信息对应的融合序列。

在一些实施例中，可以先确定融合序列为1的局部特征信息，将融合序列为1的局部特征信息去除后，基于局部特征信息中除融合序列为1的局部特征信息以外的其他局部特征信息，继续确定融合序列为2的局部特征信息，以此类推，每确定一个融合序列对应的局部特征信息后，则将该局部特征信息删除，利用剩下的局部特征信息确定下一个融合序列对应的局部特征信息。直到确定完全部局部特征信息的融合序列。

对局部特征信息的位置进行校准后，再进行特征融合，可以使得局部特征信息对应的位置与原始位置更加匹配，从而提高特征融合的准确性。

S240.将重组特征信息输入到图像识别网络中进行类型识别，得到对象检测图像对应的目标类型信息。

在一些实施例中，在图像识别网络中识别重组特征信息对应的类型信息，可以得到对象检测图像对应的目标类型信息。重组特征信息是对象检测图像中具有丰富语义的区域的特征信息，例如对象检测图像中的图案和文字等。目标类型信息为对象检测图像的整体识别结果，例如对象检测图像为交通标志牌，则目标类型信息为该交通标志牌的类型。

在一些实施例中，在进行模型训练时，请参见图8，该方法还包括：

S810.获取样本图像中的样本检测图像、样本检测图像对应的标注类型信息、以及样本检测图像中各个样本对象对应的标注位置信息，样本检测图像为样本图像中位于同一连通区域的至少两个样本对象的对象图像；

S820.将样本检测图像输入到第一待训练网络中进行特征提取，得到多个样本局部特征信息和每个样本局部特征信息对应的训练检测位置信息，样本局部特征信息为至少两个样本对象中每个样本对象对应的特征信息；

S830.将多个样本局部特征信息输入到第二待训练网络中进行特征重组，得到训练重组特征信息；

S840.将训练重组特征信息输入到第三待训练网络中进行类型识别，得到样本检测图像对应的训练类型信息；

S850.基于训练类型信息、标注类型信息、标注位置信息和训练检测位置信息，确定目标损失信息；

S860.基于目标损失信息，对第一待训练网络、第二待训练网络和第三待训练网络进行模型训练，得到局部特征提取网络、局部特征重组网络和图像识别网络。

在一些实施例中，从样本图像中确定样本检测图像，样本检测图像为样本图像中位于同一连通区域的至少两个样本对象的对象图像，样本检测图像是已知类型的图像信息，将样本检测图像对应的类型信息作为标注类型信息。并将样本检测图像中各个样本对象对应的原始位置作为标注位置信息。

第一待训练网络包括待训练图像特征提取网络和待训练语义识别网络，将样本检测图像输入到待训练图像特征提取网络中进行特征提取，可以得到训练图像特征信息，再将训练图像特征信息输入到待训练语义识别网络中进行局部语义识别，可以得到每个样本对象对应的样本局部特征信息和每个样本局部特征信息对应的训练检测位置信息。

将训练图像特征信息和样本局部特征信息输入到第二待训练网络中进行特征重组，可以得到训练重组特征信息。第二待训练网络包括待训练位置特征提取网络和待训练特征融合网络，将训练图像特征信息输入到待训练位置特征提取网络中进行位置特征提取，可以得到训练位置校准信息。将训练位置校准信息和样本局部特征信息对应的训练检测位置信息输入到待训练特征融合网络中，基于训练位置校准信息和训练检测位置信息，确定样本局部特征信息到预设起始融合位置间的样本距离，基于该样本距离，对局部特征信息进行特征融合，可以得到训练重组特征信息。

将训练重组特征信息输入到第三待训练网络中进行类型识别，可以得到样本检测图像对应的训练类型信息。

基于训练类型信息、标注类型信息、标注位置信息和训练检测位置信息，可以确定目标损失信息。基于目标损失信息，对第一待训练网络、第二待训练网络和第三待训练网络进行模型训练，从而可以得到局部特征提取网络、局部特征重组网络和图像识别网络。

基于训练类型信息、标注类型信息、标注位置信息和训练检测位置信息，确定目标损失信息并进行模型训练，可以同时对局部特征提取和分类结果进行训练，从而提高了局部特征提取网络、局部特征重组网络和图像识别网络的准确性。

在一些实施例中，请参见图9，基于训练类型信息、标注类型信息、标注位置信息和训练检测位置信息，确定目标损失信息包括：

S910.基于训练类型信息和标注类型信息，确定分类损失信息；

S920.基于标注位置信息和训练检测位置信息，确定位置损失信息；

S930.根据分类损失信息和位置损失信息，确定目标损失信息。

在一些实施例中，基于训练类型信息和标注类型信息，可以确定分类损失信息。分类损失信息为训练类型信息和标注类型信息间的差值，因此分类损失信息可以衡量第一待训练网络、第二待训练网络和第三待训练网络在类型识别方面的准确程度。分类损失信息可以为交叉熵。

基于标注位置信息和训练检测位置信息，可以确定位置损失信息。位置损失信息为样本检测图像中各个样本对象的检测位置和样本对象的实际位置间的差值，因此位置损失信息可以衡量样本局部特征信息的准确程度。位置损失信息可以为回归损失信息，例如smooth L1，即光滑处理后的L1范数损失函数。

对分类损失信息和位置损失信息进行融合，可以得到目标损失信息。再基于目标损失信息进行对第一待训练网络、第二待训练网络和第三待训练网络进行模型训练。

在一些实施例中，计算得到目标损失信息的公式如下所示：

其中，L为目标损失信息，

为位置损失信息，

为分类损失信息，t_i表示标注位置信息，t'_i表示训练位置信息，M表示样本检测图像的类型数量，y_ic为指示变量，在训练类型信息和标注类型信息相同时指示为1，在训练类型信息和标注类型信息不同时指示为0，p_ic表示样本检测对象i属于类别c的概率。

其中，smooth L1的计算公式如下：

smooth_L1(x)＝0.5x² if|x|＜1

smooth_L1(x)＝|x|-0.5 otherwise

在本申请实施例提出的图像识别方法中，x为(t_i-t'_i)。

通过位置信息信息和分类损失信息，可以对局部特征提取和分类识别进行校正，从而提高模型训练的准确性。

在一些实施例中，请参见图10，如图10所示为一种图像识别方法应用在交通标志牌识别场景中的示意图。客户端可以为车载终端，待处理图像为车载终端采集到的道路图像，对象检测图像为交通标志牌。车载终端采集道路图像，将道路图像发送到服务器中，服务器从道路图像中确定交通标志牌的图像信息，交通标志牌中可以包括箭头、文字、道路、非机动车图案等。

局部特征提取网络包括图像特征提取网络和局部语义识别网络，将交通标志牌输入到图像特征提取网络中进行特征提取，可以得到交通标志牌对应的图像特征信息，再将图像特征信息输入到局部语义识别网络中进行局部语义识别，可以得到箭头图案对应的局部特征信息、文字对应的局部特征信息、道路图案对应的局部特征信息和非机动车图案对应的局部特征信息等。

将交通标志牌对应的图像特征信息和各个对象对应的局部特征信息输入到局部特征重组网络中进行特征重组，可以得到重组特征信息。局部特征重组网络包括位置特征提取网络和特征融合网络，将图像特征信息输入到位置特征提取网络中进行位置特征提取，可以得到箭头图案对应的位置校准信息、文字对应的位置校准信息、道路图案对应的位置校准信息和非机动车图案对应的位置校准信息等。例如，非机动车图案位于交通标志牌的右下角，则位置校准信息对应的位置势场方向趋向于指向右下方向。

将位置校准信息和局部特征信息对应的检测位置信息输入到特征融合网络中，基于位置校准信息和检测位置信息，确定局部特征信息到预设起始融合位置间的目标距离，基于该目标距离，对局部特征信息进行特征融合，可以得到重组特征信息。将重组特征信息输入到图像识别网络中进行类型识别，得到交通标志牌对应的目标类型信息。服务器将目标类型信息发送到车载终端，车载终端显示该目标类型信息，对用户进行提示。

本申请实施例提供了一种图像识别方法，该方法包括：对待处理图像进行对象检测，得到对象检测图像，将对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息，将多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息，将重组特征信息输入到图像识别网络中进行类型识别，得到对象检测图像对应的目标类型信息。该方法可以提取对象检测图像中的局部特征信息，并对局部特征信息进行重组，从而提高模型对局部特征信息辨识能力，减少对象检测图像的类间干扰，提高了对对象检测图像识别的准确性和稳定性。

本申请实施例还提供了一种图像识别装置，请参见图11，如图11所示，该装置包括：

对象检测模块1110，用于对待处理图像进行对象检测，得到对象检测图像，对象检测图像为待处理图像中位于同一连通区域的至少两个对象的对象图像；

特征提取模块1120，用于将对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息，局部特征信息为至少两个对象中每个对象对应的特征信息；

特征重组模块1130，用于将多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息；

类型识别模块1140，用于将重组特征信息输入到图像识别网络中进行类型识别，得到对象检测图像对应的目标类型信息。

在一些实施例中，局部特征提取网络包括图像特征提取网络和局部语义识别网络，特征提取模块1120包括：

图像特征提取单元，用于将对象检测图像输入到图像特征提取网络中进行特征提取，得到检测图像特征信息；

语义识别单元，用于将检测图像特征信息输入到局部语义识别网络中进行语义识别，得到每个对象对应的局部特征信息；

特征重组模块1130包括：

特征重组子单元，用于将检测图像特征信息和多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息。

在一些实施例中，局部特征重组网络包括位置特征提取网络和特征融合网络，特征重组子单元包括：

位置特征提取单元，用于将检测图像特征信息输入位置特征提取网络中进行位置特征提取，得到每个对象对应的位置校准信息，位置校准信息为每个局部图像在对象检测图像中的检测位置的校准信息；

特征融合单元，将多个局部特征信息和每个对象对应的位置校准信息输入到特征融合网络中进行特征融合，得到重组特征信息。

在一些实施例中，特征融合单元包括：

目标距离确定单元，用于将多个局部特征信息和每个对象对应的位置校准信息输入到特征融合网络中，基于每个局部特征信息对应的检测位置信息和每个局部特征信息对应的位置校准信息，确定每个局部特征信息与预设起始融合位置间的目标距离；

局部特征融合单元，用于基于目标距离，对多个局部特征信息进行特征融合，得到重组特征信息。

在一些实施例中，对象检测模块1110包括：

对象检测子单元，用于将待处理图像输入到目标对象检测网络中进行对象检测，得到对象检测图像。

在一些实施例中，该装置还包括：

样本信息获取模块，用于获取样本图像中的样本检测图像、样本检测图像对应的标注类型信息、以及样本检测图像中各个样本对象对应的标注位置信息，样本检测图像为样本图像中位于同一连通区域的至少两个样本对象的对象图像；

样本特征提取模块，用于将样本检测图像输入到第一待训练网络中进行特征提取，得到多个样本局部特征信息和每个样本局部特征信息对应的训练检测位置信息，样本局部特征信息为至少两个样本对象中每个样本对象对应的特征信息；

样本特征重组模块，用于将多个样本局部特征信息输入到第二待训练网络中进行特征重组，得到训练重组特征信息；

训练类型识别模块，用于将训练重组特征信息输入到第三待训练网络中进行类型识别，得到样本检测图像对应的训练类型信息；

目标损失计算模块，用于基于训练类型信息、标注类型信息、标注位置信息和训练检测位置信息，确定目标损失信息；

模型训练模块，用于基于目标损失信息，对第一待训练网络、第二待训练网络和第三待训练网络进行模型训练，得到局部特征提取网络、局部特征重组网络和图像识别网络。

在一些实施例中，目标损失计算模块包括：

分类损失计算单元，用于基于训练类型信息和标注类型信息，确定分类损失信息；

位置损失计算单元，用于基于标注位置信息和训练检测位置信息，确定位置损失信息；

目标损失确定单元，用于根据分类损失信息和位置损失信息，确定目标损失信息。

上述实施例中提供的装置可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的一种图像识别方法。

本实施例还提供了一种计算机可读存储介质，存储介质中存储有计算机可执行指令，计算机可执行指令由处理器加载并执行本实施例上述的一种图像识别方法。

本实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像识别的各种可选实现方式中提供的方法。

本实施例还提供了一种电子设备，该电子设备包括处理器和存储器，其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行本实施例上述的一种图像识别方法。

设备可以为计算机终端、移动终端或服务器，设备还可以参与构成本申请实施例所提供的装置或系统。如图12所示，服务器12可以包括一个或多个(图中采用1202a、1202b，……，1202n来示出)处理器1202(处理器1202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1204、以及用于通信功能的传输装置1206。除此以外，还可以包括：输入/输出接口(I/O接口)、网络接口。本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器12还可包括比图12中所示更多或者更少的组件，或者具有与图12所示不同的配置。

应当注意到的是上述一个或多个处理器1202和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到服务器12中的其他元件中的任意一个内。

存储器1204可用于存储应用软件的软件程序以及模块，如本申请实施例中的方法对应的程序指令/数据存储装置，处理器1202通过运行存储在存储器1204内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于自注意力网络的时序行为捕捉框生成方法。存储器1204可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1204可进一步包括相对于处理器1202远程设置的存储器，这些远程存储器可以通过网络连接至服务器12。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器12的通信供应商提供的无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。

本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或中断产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。应当理解到，本实施例中所揭露的方法、装置等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元模块的间接耦合或通信连接。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到，结合本说明书所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像识别方法，其特征在于，所述局部特征提取网络包括图像特征提取网络和局部语义识别网络，所述将所述对象检测图像输入到局部特征提取网络中进行特征提取，得到多个局部特征信息包括：

将所述对象检测图像输入到所述图像特征提取网络中进行特征提取，得到检测图像特征信息；

将所述检测图像特征信息输入到所述局部语义识别网络中进行语义识别，得到每个对象对应的局部特征信息；

所述将所述多个局部特征信息输入到局部特征重组网络中进行特征重组，得到重组特征信息包括：

将所述检测图像特征信息和所述多个局部特征信息输入到所述局部特征重组网络中进行特征重组，得到重组特征信息。

3.根据权利要求2所述的图像识别方法，其特征在于，所述局部特征重组网络包括位置特征提取网络和特征融合网络，所述将所述检测图像特征信息和所述多个局部特征信息输入到所述局部特征重组网络中进行特征重组，得到重组特征信息包括：

将所述检测图像特征信息输入所述位置特征提取网络中进行位置特征提取，得到每个对象对应的位置校准信息，所述位置校准信息为所述每个局部图像在所述对象检测图像中的检测位置的校准信息；

将所述多个局部特征信息和所述每个对象对应的位置校准信息输入到所述特征融合网络中进行特征融合，得到所述重组特征信息。

4.根据权利要求3所述的图像识别方法，其特征在于，所述将所述多个局部特征信息和所述每个对象对应的位置校准信息输入到所述特征融合网络中进行特征融合，得到所述重组特征信息包括：

将所述多个局部特征信息和所述每个对象对应的位置校准信息输入到所述特征融合网络中，基于每个局部特征信息对应的检测位置信息和所述每个局部特征信息对应的位置校准信息，确定所述每个局部特征信息与预设起始融合位置间的目标距离；

基于所述目标距离，对所述多个局部特征信息进行特征融合，得到所述重组特征信息。

5.根据权利要求1所述的图像识别方法，其特征在于，所述对待处理图像进行对象检测，得到对象检测图像包括：

将所述待处理图像输入到目标对象检测网络中进行对象检测，得到所述对象检测图像。

6.根据权利要求1所述的图像识别方法，其特征在于，所述方法还包括：

获取样本图像中的样本检测图像、所述样本检测图像对应的标注类型信息、以及所述样本检测图像中各个样本对象对应的标注位置信息，所述样本检测图像为所述样本图像中位于同一连通区域的至少两个样本对象的对象图像；

将所述样本检测图像输入到第一待训练网络中进行特征提取，得到多个样本局部特征信息和每个样本局部特征信息对应的训练检测位置信息，所述样本局部特征信息为所述至少两个样本对象中每个样本对象对应的特征信息；

将所述多个样本局部特征信息输入到第二待训练网络中进行特征重组，得到训练重组特征信息；

将所述训练重组特征信息输入到第三待训练网络中进行类型识别，得到所述样本检测图像对应的训练类型信息；

基于所述训练类型信息、所述标注类型信息、所述标注位置信息和所述训练检测位置信息，确定目标损失信息；

基于所述目标损失信息，对所述第一待训练网络、所述第二待训练网络和第三待训练网络进行模型训练，得到所述局部特征提取网络、所述局部特征重组网络和所述图像识别网络。

7.根据权利要求6所述的图像识别方法，其特征在于，所述基于所述训练类型信息、所述标注类型信息、所述标注位置信息和所述训练检测位置信息，确定目标损失信息包括：

基于所述训练类型信息和所述标注类型信息，确定分类损失信息；

基于所述标注位置信息和所述训练检测位置信息，确定位置损失信息；

根据所述分类损失信息和所述位置损失信息，确定所述目标损失信息。

8.一种图像识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的一种图像识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的一种图像识别方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的图像识别方法。