CN114241231A

CN114241231A - 基于层级标签注意力的识别方法及装置

Info

Publication number: CN114241231A
Application number: CN202111382923.4A
Authority: CN
Inventors: 闫军; 阳平
Original assignee: Super Vision Technology Co Ltd
Current assignee: Super Vision Technology Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-25

Abstract

本申请公开一种基于层级标签注意力的识别方法及装置。基于层级标签注意力的识别方法包括：对每个原始图像的目标区域进行标注，形成检测训练集，并基于检测训练集，训练形成目标位置检测模型；根据目标位置检测模型，对每个原始图像进行划分，形成多个目标区域图像；对每个目标区域图像进行至少两层包含关系标签的标注，形成识别训练集，并基于识别训练集，训练形成层级标签注意力神经网络模型；根据目标位置检测模型与层级标签注意力神经网络模型，对待检测图像进行检测识别。本申请实现对图像信息进行逐层识别，实现了对不同类别之间的非平行标签的处理，通过不同层级之间对识别的指导行为，提高了识别准确率。

Description

基于层级标签注意力的识别方法及装置

技术领域

本申请涉及计算机视觉模式识别技术领域，特别是涉及一种基于层级标签注意力的识别方法及装置。

背景技术

模式识别是计算机视觉领域的一个重要分支，被广泛应用于车辆识别、物种识别、视频监控、人脸识别等领域。随着科学技术的发展，深度学习技术大量应用于模式识别任务中，使得完成了从手动提取特征到应用神经网络自动提取特征的转变，极大的提高了特征提取速度与准确度，使得基于深度学习的模式识别成为图像处理领域研究的主流方案。

然而，传统的模式识别任务以平行标签为主，不同类别按平等方式处理，不适于具体的层级关系标签的处理。

申请内容

本申请的目的是解决传统识别任务方法中以平行标签的分类为主，不同类别之间以平等方式不适于具有层级关系标签的识别任务的技术问题。为实现上述目的，本申请提供一种基于层级标签注意力的识别方法及装置。

本申请提供一种基于层级标签注意力的识别方法，包括：

获取多个原始图像；

对所述多个原始图像中每个原始图像的目标区域进行标注，形成检测训练集，并基于所述检测训练集，训练形成目标位置检测模型；

根据所述目标位置检测模型，对所述多个原始图像中每个原始图像进行划分，形成多个目标区域图像；

对所述多个目标区域图像中每个目标区域图像进行至少两层包含关系标签的标注，形成识别训练集，并基于所述识别训练集，训练形成层级标签注意力神经网络模型；

根据所述目标位置检测模型与所述层级标签注意力神经网络模型，对待检测图像进行检测识别。

本申请提供一种基于层级标签注意力的识别装置，包括：

图像获取模块，用于获取多个原始图像；

目标位置检测模型生成模块，用于对所述多个原始图像中每个原始图像的目标区域进行标注，形成检测训练集，并基于所述检测训练集，训练形成目标位置检测模型；

目标区域图像生成模块，用于根据所述目标位置检测模型，对所述多个原始图像中每个原始图像进行划分，形成多个目标区域图像；

层级标签注意力神经网络模型生成模块，用于对所述多个目标区域图像中每个目标区域图像进行至少两层包含关系标签的标注，形成识别训练集，并基于所述识别训练集，训练形成层级标签注意力神经网络模型；

检测识别模块，用于根据所述目标位置检测模型与所述层级标签注意力神经网络模型，对待检测图像进行检测识别。

上述基于层级标签注意力的识别方法中，通过本申请提出的基于层级标签注意力的识别方法，对原始图像的目标区域进行提取，减少了其它非目标区域部分的干扰，有利于进一步对目标区域图像进行多层层级关系的细分。进而，在目标区域图像的基础上进一步对多层层级关系实行建模，可以实现对图像信息进行逐层识别，实现了识别任务中的非平行标签的处理。从而，通过本申请提出的基于层级标签注意力的识别方法，利用不同层次标签的包含关系的指导作用，可以实现多层级标签的图像信息的准确识别，提高了识别准确率。

附图说明

图1是本申请提供的基于层级标签注意力的识别方法的步骤流程图；

图2是本申请提供的层级标签注意力神经网络模型的结构示意图；

图3是本申请提供的相机预设位置及应用场景的示意图；

图4是本申请提供的标注车脸区域和车尾区域的示意图；

图5是本申请提供的基于Yolov3算法的目标位置检测模型示意图；

图6是本申请提供的车辆信息的层级标签示意图；

图7是本申请提供的基于层级标签注意力的识别装置的结构示意图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

请参见图1，本申请提供一种基于层级标签注意力的识别方法，包括：

S10，获取多个原始图像；

S20，对多个原始图像中每个原始图像的目标区域进行标注，形成多个目标标注图像，多个目标标注图像形成检测训练集，并基于检测训练集，训练形成目标位置检测模型；

S30，根据目标位置检测模型，对每个原始图像进行划分，形成多个目标区域图像；

S40，对多个目标区域图像中每个目标区域图像进行至少两层包含关系标签的标注，形成多个层级标注图像，多个层级标注图像形成识别训练集，并基于识别训练集，训练形成层级标签注意力神经网络模型；

S50，根据目标位置检测模型与层级标签注意力神经网络模型，对待检测图像进行检测识别。

在S10中，多个原始图像可以为车辆图像、人物图像、物体图像等。原始图像的目标区域可以为某一个特定的区域，用于识别的主要图像区域。例如：车辆图像的目标区域可以为车辆的车脸或者车尾等；人物图像的目标区域可以为人物的全身或者脸部等。物体图像的目标区域可以为物体的整体或者局部部件等。

在S20中，通过对原始图像的目标区域进行标注，可以获得对应的表征每个原始图像的特征参数。多个目标特征参数可以包括车辆图像对应的车脸或车尾的最小矩形框的中心点坐标与宽高等信息，也可以包括物体图像对应的长度与宽度等信息。

每个原始图像对应多个目标特征参数，形成用于训练目标位置检测模型的训练集。在一个实施例中，基于Yolov3算法、SSD算法或者faster-rcnn算法，并根据检测训练集，训练形成目标位置检测模型。在一个实施例中，采用随机梯度下降算法SGD，对选择的基于Darknet-50骨干网络Yolov3目标检测模型进行优化，获得基于Yolov3算法的目标位置检测模型。

在S30中，多个目标特征参数可以表征用于识别的主要图像区域。通过对每个原始图像进行划分，可以获得对应的目标区域图像，进而可以减少其它视角、外观及其它部件的干扰，缩小识别区域，进一步提高识别准确率。

在S40中，对每个目标区域图像进行至少两层标签的标注，可以理解为对每个目标区域图像进行两层、三层、四层或者五层标签的标注。层级标签之间呈现逐步递进的趋势，也可以理解为呈现层级标签包含关系。例如：对于车辆的目标区域图像进行标注时，可以实现第一层标签为车辆品牌信息，第二层标签为车辆型号信息，第三层标签为车辆年款信息的标注；对于物体的目标区域图像进行标注时，可以实现第一层标签为物体种类，例如动物、植物或者工具等物体，第二层标签为物体品种，例如动物包括猫、狗或者兔子等，植物包括花、树或者草等。在一个实施例中，基于卷积神经网络ResNet-50的分类模型，并根据识别训练集，训练形成层级标签注意力神经网络模型。

在S50中，根据目标位置检测模型可以实现对待检测图像中目标区域图像的位置进行检测，进一步裁剪形成目标区域图像。根据层级标签注意力神经网络模型可以实现对目标区域图像进行识别。例如：根据目标位置检测模型与层级标签注意力神经网络模型，可以实现对车辆图像的车辆品牌信息、车辆型号信息与车辆年款信息进行识别；根据目标位置检测模型与层级标签注意力神经网络模型，可以实现对物体图像的不同层次划分的种类信息进行识别。

通过本申请提出的基于层级标签注意力的识别方法，对原始图像的目标区域进行提取，减少了其它非目标区域部分的干扰，有利于进一步对目标区域图像进行多层层级关系的细分。进而，在目标区域图像的基础上进一步对多层层级关系实行建模，可以实现对图像信息进行逐层识别，实现了对不同类别之间的非平行标签的处理。从而，通过本申请提出的基于层级标签注意力的识别方法，利用不同层级标签之间的关系指导作用，可以实现多层级标签的图像信息的准确识别，提高了识别准确率。

请参见图2，在一个实施例中，S40，对每个目标区域图像进行至少两层包含关系标签的标注，形成识别训练集，并基于识别训练集，训练形成层级标签注意力神经网络模型，包括：

S410，采用残差网络对多个目标区域图像进行特征提取，形成第一层标签特征分支与第二层标签特征分支；

S420，在第一层标签特征分支上使用分类函数，获取每个目标区域图像对应的第一层标签对应的各个类别的概率与第一层标签的识别结果，在模型训练时计算第一交叉熵损失函数；其中，第一交叉熵损失函数为：

N表示多个目标区域图像的数量，

表示第i个目标区域图像对应的第一层标签对应的类别，

表示第i个目标区域图像对应的第一层标签对应的各个类别的概率；

S430，将每个目标区域图像对应的第一层标签对应的各个类别的概率，融合至第二层标签特征分支上，形成新第二层标签特征分支；

S440，在新第二层标签特征分支上使用分类函数，获取每个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率与第二层标签的识别结果，在模型训练时计算第二交叉熵损失函数；其中，第二交叉熵损失函数为：

表示第i个目标区域图像对应的第一层标签下对应的第二层标签对应的类别，

表示第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率；

S450，根据第一交叉熵损失函数与第二交叉熵损失函数，计算第一总损失函数，并当第一总损失函数达到平衡状态时，形成稳定的层级标签注意力神经网络模型；其中，第一总损失函数为：

L_total1＝αL₁+βL₂；α,β分别为第一层标签特征分支上对应的损失平衡因子和新第二层标签特征分支上对应的损失平衡因子。

在S410中，残差网络可以为ResNet-50，也可以称为层级标签注意力神经网络模型HLANet的骨干网络。目标区域图像通过ResNet-50提取特征f后输出多个特征分支，可以分别用于识别第一层标签、第二层标签、第三层标签、第四层标签等多层标签。

在S420中，在第一层标签特征分支上，也可以理解为在第一层标签的特征f₁上添加分类函数。分类函数包括softmax函数等。在第一层标签的特征f₁上添加softmax函数，输出第一层标签对应的各个类别的概率p₁，并得到对应的识别结果。进一步，在训练时，使用

作为监督，计算第一层标签特征分支上的第一交叉熵损失函数。其中，

为一层标签的独热编码，例如[1，0，0]代表了第i个目标区域图像对应的第一层标签对应的第1个类别；[0，1，0]代表了第i个目标区域图像对应的第一层标签对应的第2个类别；[0，0，1]代表了第i个目标区域图像对应的第一层标签对应的第3个类别，以此类推。

在S430中，在第二层标签特征分支上，也可以理解为在第二层标签的特征f₂上，采用注意力机制，使预测的第一层标签对应的信息融合到第二层标签识别的特征上，形成新的第二层标签特征分支，以指导对第二层标签进行识别。

在一个实施例中，S430包括：

S431，在第二层标签特征分支上，将第i个目标区域图像对应的第一层标签对应的各个类别的概率

的维度拓展为第二层标签特征分支的特征

对应的维度，获得第一注意力权重

S432，根据第一注意力权重

计算第二层标签特征分支的新特征

形成新第二层标签特征分支；其中，第二层标签特征分支的新特征

为：

表示第i个目标区域图像对应的第一层标签对应的各个类别的概率，

表示第一注意力权重，

表示第二层标签特征分支的特征，o表示两向量的点乘运算，也可以理解为Hadamard积。

在S431中，将

拓展为

使得在第一层标签特征分支上获得的各个类别的概率

适用于第二层标签特征分支。其中，x表示概率值，C₀表示第一层标签的类别数量。x₁,x₁,...,x₁的个数m₁，x₂,x₂,...x₂的个数m₂，x_c0,x_c0,...x_c0的个数m_c0，分别表示第一层标签下第二层标签对应的第1类别、第2类别和第C₀类别下对应的数量。

在S432中，通过计算融合，获得第二层标签特征分支的新特征，形成了新第二层标签特征分支。进而，在新第二层标签特征分支上继续运行分类函数。

在S440中，第一层标签包含了第二层标签，两者属于包含与被包含的关系。在新第二层标签特征分支上，也可以理解为在第二层标签特征分支的新特征

上添加分类函数。分类函数包括softmax函数等。在第二层标签特征分支的新特征

上添加softmax函数，输出第二层标签对应的各个类别的概率

并得到对应的识别结果。进一步，在训练时，使用

作为监督，计算第二层标签特征分支上的第二交叉熵损失函数。其中，

表现第二层标签的独热编码，例如[1，0，0]代表了第二层标签对应的第1个类别；[0，1，0]代表了第二层标签对应的第2个类别；[0，0，1]代表了第二层标签对应的第3个类别，以此类推。

在S450中，经过第一层标签特征分支与第二层标签特征分支上的计算后，获得层级标签注意力神经网络模型的第一总损失函数。在训练过程中，第一总损失函数的数值不断下降，最终趋于平衡状态。当第一总损失函数达到平衡状态时，层级标签注意力神经网络模型中的网络达到最优，形成稳定的层级标签注意力神经网络模型。

通过S410至S450，形成了具有两层标签的层级标签注意力神经网络模型，实现了对两层层级关系进行建模，进而可以实现对图像信息的逐层识别，实现了对不同类别之间的非平行标签的处理。因此，通过本申请提出的基于层级标签注意力的识别方法，使得第一层标签对第二层标签识别分类具有指导行为，可以实现两层标签的图像信息的准确识别，提高了识别准确率。

在一个实施例中，S410中，采用所述残差网络对多个目标区域图像进行特征提取，还形成第三层标签特征分支。第一层标签、第二层标签、第三层标签之间存在包含与被包含的关系。第一层标签包含第二层标签，第二层标签包含第三层标签。进而，S40还包括：

S460，将每个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率，融合至第三层标签特征分支上，形成新第三层标签特征分支；

S470，在新第三层标签特征分支上运行分类函数，获取每个目标区域图像对应的第二层标签下对应的第三层标签对应的各个类别的概率与第三层标签的识别结果，在训练过程中，计算第三交叉熵损失函数；其中，第三交叉熵损失函数为：

表示第i个目标区域图像对应的第二层标签下对应的第三层标签对应的类别，

表示第i个目标区域图像对应的第二层标签下对应的第三层标签对应的各个类别的概率；

S480，根据第一交叉熵损失函数、第二交叉熵损失函数以及第三交叉熵损失函数，计算第二总损失函数，并当第二总损失函数达到平衡状态时，形成稳定的层级标签注意力神经网络模型；其中，第二总损失函数为：

L_total2＝αL₁+βL₂+λL₃；α,β,λ分别为第一层标签特征分支上对应的损失平衡因子、新第二层标签特征分支上对应的损失平衡因子以及新第三层标签特征分支上对应的损失平衡因子。

在S460中，在第三层标签特征分支上，也可以理解为在第三层标签的特征f₃上，采用注意力机制，使预测的第二层标签对应的信息融合到第三层标签识别的特征上，形成新的第三层标签特征分支，以指导对第三层标签进行识别。

在一个实施例中，S460包括：

S461，在第三层标签特征分支上，将第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率

的维度拓展为第三层标签特征分支的特征f₃对应的维度，获得第二注意力权重

S462，根据第二注意力权重

计算第三层标签特征分支的新特征

形成新第三层标签特征分支；其中，第三层标签特征分支的新特征

为：

表示第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率，

表示第二注意力权重，

表示第三层标签特征分支的特征，o表示两向量的点乘运算，也可以理解为Hadamard积。

在S461中，将

拓展为

使得在第二层标签特征分支上获得的各个类别的概率

适用于第三层标签特征分支。其中，C₁表示第二层标签的类别数量。x₁,x₁,...,x₁的个数n₁，x₂,x₂,...x₂的个数n₂，x_c1,x_c1,...x_c1的个数n_c0，分别表示第二层标签下第三层标签对应的第1类别、第2类别和第C₁类别下对应的数量。

在S462中，通过计算融合，获得第三层标签特征分支的新特征

形成了新第三层标签特征分支。进而，在新第三层标签特征分支上继续运行分类函数。

在S470中，在新第三层标签特征分支上，也可以理解为在第三层标签特征分支的新特征

上添加分类函数。在第三层标签特征分支的新特征

上添加softmax函数，输出第三层标签对应的各个类别的概率

并得到对应的识别结果。进一步，在训练时，使用

作为监督，计算第三层标签特征分支上的第三交叉熵损失函数。其中，

表现为独热编码，例如[1，0，0]代表了第三层标签对应的第1个类别；[0，1，0]代表了第三层标签对应的第2个类别；[0，0，1]代表了第三层标签对应的第3个类别，以此类推。

在S480中，经过第一层标签特征分支、第二层标签特征分支以及第三层标签特征分支上的计算后，获得层级标签注意力神经网络模型的第二总损失函数。在训练过程中，第二总损失函数会不断的下降，最终趋于平衡状态。当第二总损失函数达到平衡状态时，层级标签注意力神经网络模型中的网络达到最优，形成稳定的层级标签注意力神经网络模型。

通过S460至S480，形成了具有三层标签的层级标签注意力神经网络模型，实现了对三层层级关系进行建模，进而可以实现对图像信息的逐层检测识别，实现了对不同类别之间的非平行标签的处理。因此，通过本申请提出的基于层级标签注意力的识别方法，使得三层标签对识别分类具有指导行为，可以实现三层标签的图像信息的准确识别，提高了识别准确率。

在一个实施例中，多个原始图像为多个原始车辆图像，多个目标特征参数包括原始车辆图像对应的车脸或车尾的最小矩形框的中心点坐标与宽高信息。第一层标签为车辆品牌信息，第二层标签为车辆型号信息，第三层标签为车辆年款信息。

根据基于层级标签注意力的识别方法，对车辆信息进行识别为例进行详细说明，以提高车辆信息的层级标签的识别准确率。

请参见图3，在S10中，通过对监控相机的位置进行预设，采集原始车辆图像。在具体地应用场景中，设置监控相机位置，使之能够从正面视角抓拍车辆的车脸或者车尾部件，进一步在监控相机中获取含有车辆目标的图像数据。通过预设监控相机的位置，使之能够从正面视角抓拍车辆，获取车辆的车脸或车尾的正面朝向，以减少不同视角影响车辆信息的识别。进而，在监控相机中获取含有车辆目标的图像数据。

请参见图4，在S20中，对获取的原始车辆图像进行车脸和车尾的位置标注。由于车辆的信息可由车辆部件中的车脸和车尾表现出来。为了减少车辆视角、外观及其它部件的干扰因素，本步骤中对原始车辆图像的车辆和车尾的位置进行标注。对原始车辆图像的车辆和车尾的位置进行标注包括：绘制原始车辆图像中包含车脸或车尾的最小矩形框；记录最小矩形框的中心点坐标与宽高信息，获取多个目标特征参数。多个目标特征参数包括目标类别(车脸或车尾)、最小矩形框的中心点坐标以及宽高信息。通过对原始图像的目标区域进行标注，进一步提高了识别车辆信息的准确率，更具有针对性。

在S20中，每个原始车辆图像对应目标类别(车脸或车尾)、最小矩形框的中心点坐标以及宽高信息的目标特征参数。多个原始车辆图像形成了多个目标特征参数，进而可以形成以车脸和车尾为目标的检测模型的训练集。根据标注形成的检测训练集，训练基于Yolov3算法的目标位置检测模型，也可以理解为针对车脸和车尾的检测模型。

请参见图5，在S20中，Yolov3算法的骨干网络Darknet-50，采用全卷积层和残差结构提取原始车辆图像的图像特征。每个卷积层包括二维卷积、归一化以及分类函数三个操作。通过特征金字塔融合不同分辨率、不同语义强度的特征来检测不同尺度的原始车辆图像的单阶段目标检测模型。在一个实施例中，相机获得的原始车辆图像的大小可以为414×416像素，经过伸缩调整为416×416像素，作为输入图像大小。原始车辆图像经过Yolov3算法的骨干网络Darknet-50后，生成13×13、26×26、52×52的三个尺度的特征，进而输出目标位置检测模型的最小矩形框的矩形位置，目标置信度以及目标类别(车脸或车尾)。根据生成的多个特征参数构成检测训练集，并使用梯度下降算法训练目标位置检测模型，最终形成目标位置检测模型。

在S30中，目标区域图像可以理解为含有目标检测信息的图像，是对原始车辆图像进行剪裁后形成的图像。通过对原始车辆图像进行裁剪，可以将检测的位置进一步进行锁定，使得检测的位置更具有目标性，进而可以提高识别的准确率。

请参见图6，在S40之前，也就是在对车脸或者车尾区域进行由粗到细地标注三层标签之前，首先确定车辆信息的标签及其层级关系。例如：

车辆信息包括车辆品牌信息、车辆型号信息以及车辆年款信息。通过车辆销售网站可以获得车辆信息的品牌信息包括红旗、大众、福特、铃木、本田、丰田、雪铁龙、标致、马自达、福特等264种。车辆品牌信息属于第一层标签。车辆型号信息收集有3904个类别，属于第二层标签。例如：红旗品牌(可以理解为第一层标签)包含的车辆型号信息(可以理解为第二层标签)包括L5、H5、H7、L7、L9、E-HS3、世纪星、红旗盛世等。车辆年款信息收集了14530个类别，属于第三层标签。例如：红旗品牌(可以理解为第一层标签)包含的L5(可以理解为第二层标签)包含的车辆年款信息(可以理解为第三层标签)包括2014款和2019款两类。

在S40中，对车脸区域或者车尾区域进行由粗到细地标注上述三层标签(如车辆品牌信息、车辆型号信息以及车辆年款信息)，构建识别训练集。设计层级标签注意力机制的神经网络HLANet，并根据识别训练集训练神经网络HLANet，也可以理解为训练层级标签注意力神经网络模型。

对车脸区域或者车尾区域进行由粗到细地标注三层标签，形成车辆信息识别训练数据集。第一层标签为车辆品牌信息、第二层标签为车辆型号信息、第三层标签为车辆年款信息用于车辆信息识别模型的训练。

请参见图2，残差网络ResNet可以用于解决深度神经网络层数据不断增加时产生梯度消失和网络性能退化现象,将浅层网络模型和自身映射的叠加层通过残差单元连接在一起，通过捷径方式将输入信息跨层传递然后与经过卷积后的输出相加达到充分训练底层网络的效果。ResNet-50为具有50个参数层的残差网络，具体精度高速度快的特征。

输入的目标区域图像通过骨干网络ResNet-50提取特征f后输出三个特征分支，分别为第一层标签特征分支、第二层标签特征分支以及第三层标签特征分支，可以分别用于识别车辆品牌信息、车辆型号信息以及车辆年款信息。将三层级标签分成三个阶段进行识别。也可以理解为，目标区域图像通过骨干网络ResNet-50提取特征f后输出三个特征分支，分别为车辆品牌信息特征分支、车辆型号信息特征分支以及车辆年款信息特征分支。

在车辆品牌信息识别的特征f₁上添加softmax函数，输出各个品牌的概率p₁，并得到各个品牌识别结果。例如：红旗品牌的概率为80％、大众品牌的概率为15％等。在训练时使用车辆品牌的类别y₁作为监督，计算车辆品牌分支上的交叉熵损失函数为：

其中，

表示第i个目标区域图像对应的车辆品牌标签对应的类别。例如：第1个类别为红旗品牌、第2个类别为大众品牌等。

表示第i个目标区域图像预测输出的所属各品牌的概率。例如：红旗品牌的概率为80％、大众品牌的概率为15％等。

在车辆型号信息识别的特征f₂上，采用注意力机制使预测的车辆品牌信息融合到车辆型号信息识别的特征上以指导车辆型号信息的识别。例如针对第i个目标区域图像，将预测的车辆品牌的概率

拓展成

例如：将

拓展为

使用

与车辆型号特征

的维度相同。计算融合后的车辆型号特征，也就是车辆型号特征分支对应的新特征如下：

进而，在特征

上采用softmax函数，输出各个车辆型号信息的概率

并得到车辆型号信息的识别结果。例如：红旗品牌下的L5型号对应的概率为85％，红旗品牌下的H7型号对应的概率为7％等。在训练时，使用车辆型号的类别y₂作为监督，计算车辆型号分支上的交叉熵损失函数为：

其中，

表示第i个目标区域图像对应的车辆型号标签对应的类别。例如：第1个类别为红旗品牌下的L5型号，第2个类别为红旗品牌下的H7型号等。

表示第i个目标区域图像预测输出的所属各型号的概率。例如：红旗品牌下的L5型号对应的概率为85％，红旗品牌下的H7型号对应的概率为7％等。

在车辆年款信息识别的特征f₃上，采用注意力机制使用车辆型号信息融合到车辆年款信息识别的特征上，以指导车辆年款信息的识别。例如针对第i个目标区域图像，将预测的车辆型号的概率

拓展成

例如：将

拓展为

使用

与车辆年款分支上的特征

的维度相同。计算融合后的车辆年款特征，也就是车辆年款特征分支对应的新特征如下：

进而，在特征

上采用softmax函数，输出各个车辆年款的概率

并得到车辆年款信息的识别结果。例如：红旗品牌下的L5型号下2014年对应的概率为56％，红旗品牌下的L5型号下2019年对应的概率为15％等。在训练时，使用车辆年款的类别y₃作为监督，计算车辆年款分支上的交叉熵损失函数为：

其中，

表示第i个目标区域图像对应的车辆年款标签对应的类别。例如：第1个类别为红旗品牌下的L5型号的2014年款，第2个类别为红旗品牌下的L5型号的2019年款。

表示第i个目标区域图像预测输出的所属各年款的概率。例如：红旗品牌下的L5型号下2014年款对应的概率为89％，红旗品牌下的L5型号下2019年款对应的概率为11％等。

经过上述三个层级的计算后，层级标签注意力神经网络模型的总损失函数为：

L_total＝αL₁+βL₂+λL₃。

其中，α,β,λ分别为车辆品牌对应的损失平衡因子、车辆型号对应的损失平衡因子以及车辆年款对应的损失平衡因子，使得训练时对三个分支进行平衡，不偏向于某一个分支，可以根据实际经验进行设定。

当总损失函数达到平衡状态时，形成稳定的层级标签注意力神经网络模型，用于实现对车辆信息的准确识别。

在一个实施例中，基于ResNet-50层级标签注意力车辆信息识别网络HLANet的训练阶段，采用标注的车辆信息(如车辆品牌、车辆型号以及车辆年款信息)作为训练数据集，并以车辆三层级信息y₁,y₂和y₃作为网络监督训练的标签，采用梯度下降算法得到HLANet网络中每个特征分支上的参数。

在一个实施例中，由于标注车辆信息训练集时，年款类别多且辨识困难。所以，在训练集中会存在未标注年款的数据。进而，在训练过程中，对于未标注年款的数据，不进行年款信息识别的误差计算，只计算车辆品牌与车辆型号识别的误差，进行反馈传播，并且不更新HLANet网络中车辆年款分支上的参数。

在一个实施例中，针对不同类别的训练集数据不平衡的问题，在训练HLANet网络时，在每轮训练后进行重新采样。重新采样时，可以通过剔除识别样本，并保留错误和易错样本组成新的训练集，进行下一轮的训练或微调，从而可以实现网络的快速收敛，能够有效提高车辆信息识别的准确度。

因此，在第一阶段中，在车辆品牌识别分支上采用softmax函数输出所属各个车辆品牌的概率，并得到车辆品牌识别结果。在第二阶段中，将第一阶段的所属各个车辆品牌的概率与车辆型号识别分支的特征进行融合，使用网络预测的车辆品牌概率作为车辆型号分支特征注意力机制的系数，在车辆型号识别时使得车辆型号的识别结果趋向于已经在第一阶段识别到的车辆品牌下的车辆型号。进而，将注意力机制处理后的车辆型号分支特征输入softmax函数，输出所属各个车辆型号的概率，并得到车辆型号的识别结果。在第三阶段中，将第二阶段的所属车辆型号的概率与车辆年款识别分支的特征进行融合。将融合后的车辆年款分支特征输入softmax函数，输出所属各个车辆年款的概率并得到车辆年款的识别结果。

在一个实施例中，S50，根据目标位置检测模型与层级标签注意力神经网络模型，对待检测图像进行检测识别，包括：

S510，获取待检测车辆图像；

S520，将待检测车辆图像输入至目标位置检测模型，输出待检测车辆图像对应的多个目标特征参数，并根据多个目标特征参数，对待检测车辆图像进行裁剪，形成待检测车辆目标区域图像；

S530，将待检测车辆目标区域图像输入至层级标签注意力神经网络模型，输出车辆品牌信息、车辆型号信息以及车辆年款信息。

根据训练形成的目标位置检测模型与层级标签注意力神经网络模型，对待检测车辆图像进行车辆信息识别。根据目标位置检测模型，对待检测车辆图像进行车脸区域或者车尾区域的检测，输出待检测车辆图像中所含车脸或者车尾的位置坐标。根据车脸或者车尾的位置坐标，对待检测车辆图像裁剪生成目标区域图像，也可以理解为车脸或者车尾的图像。

将车脸或者车尾的图像输入层级标签注意力神经网络模型中进行车辆信息识别，输出对应的车辆品牌、车辆型号以及车辆年款信息，从而实现了对车辆信息的准确识别。

在一个实施例中，基于层级标签注意力的识别方法还可以应用于对物体图像的识别，目标位置检测模型与层级标签注意力神经网络模型的建模原理过程与上述实施例相同。基于层级标签注意力的识别方法对物体图像进行识别时，第一层标签为物体种类，例如动物、植物或者工具等物体，第二层标签为物体品种，例如动物包括猫、狗或者兔子等，植物包括花、树或者草等。多层标签之间呈现包含的关系均可以用于本申请提供的基于层级标签注意力的识别方法进行识别。

请参见图7，在一个实施例中，本申请提供一种基于层级标签注意力的识别装置100包括图像获取模块10、目标位置检测模型生成模块20、目标区域图像生成模块30、层级标签注意力神经网络模型生成模块40以及检测识别模块50。图像获取模块10用于获取多个原始图像。目标位置检测模型生成模块20用于对每个所述原始图像的目标区域进行标注，形成检测训练集，并基于所述检测训练集，训练形成目标位置检测模型。目标区域图像生成模块30用于根据所述目标位置检测模型，对每个所述原始图像进行划分，形成多个目标区域图像。层级标签注意力神经网络模型生成模块40用于对每个所述目标区域图像进行至少两层包含关系标签的标注，形成识别训练集，并基于所述识别训练集，训练形成层级标签注意力神经网络模型。检测识别模块50用于根据所述目标位置检测模型与所述层级标签注意力神经网络模型，对待检测图像进行检测识别。

本实施例中的相关描述可参考上述方法步骤实施例中的描述。

在一个实施例中，所述层级标签注意力神经网络模型生成模块40包括标签特征分支生成模块(图中未标出)、第一层标签特征分支运行模块(图中未标出)、新第二层标签特征分支生成模块(图中未标出)、新第二层标签特征分支运行模块(图中未标出)以及第一损失函数调整模块(图中未标出)。

标签特征分支生成模块用于采用残差网络对所述多个目标区域图像进行特征提取，形成第一层标签特征分支与第二层标签特征分支。第一层标签特征分支运行模块用于在所述第一层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第一层标签对应的各个类别的概率与第一层标签识别结果，在模型训练时计算第一交叉熵损失函数。其中，所述第一交叉熵损失函数为：

N表示所述多个目标区域图像的数量，

表示第i个目标区域图像对应的第一层标签对应的类别，

表示第i个目标区域图像对应的第一层标签对应的各个类别的概率。

新第二层标签特征分支生成模块用于将每个所述目标区域图像对应的第一层标签对应的各个类别的概率，融合至所述第二层标签特征分支上，形成新第二层标签特征分支。

新第二层标签特征分支运行模块用于在所述新第二层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率与第二层标签识别结果，在模型训练时计算第二交叉熵损失函数。其中，所述第二交叉熵损失函数为：

表示第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率。

第一损失函数调整模块用于根据所述第一交叉熵损失函数与所述第二交叉熵损失函数，计算第一总损失函数，并当所述第一总损失函数达到平衡状态时，形成稳定的所述层级标签注意力神经网络模型。其中，所述第一总损失函数为：

L_total1＝αL₁+βL₂。

α,β分别为所述第一层标签特征分支上对应的损失平衡因子和所述新第二层标签特征分支上对应的损失平衡因子，L₁为所述第一交叉熵损失函数，L₂为所述第二交叉熵损失函数。

在一个实施例中，所述标签特征分支生成模块还用于形成第三层标签特征分支(图中未标出)。所述层级标签注意力神经网络模型生成模块还包括新第三层标签特征分支生成模块(图中未标出)、新第三层标签特征分支运行模块(图中未标出)以及第二损失函数调整模块(图中未标出)。

新第三层标签特征分支生成模块用于将每个所述目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率，融合至所述第三层标签特征分支上，形成新第三层标签特征分支。

新第三层标签特征分支运行模块用于在所述新第三层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第二层标签下对应的第三层标签对应的各个类别的概率与第三层标签识别结果，在模型训练时计算第三交叉熵损失函数。其中，所述第三交叉熵损失函数为：

表示第i个目标区域图像对应的第二层标签下对应的第三层标签对应的各个类别的概率。

第二损失函数调整模块用于根据所述第一交叉熵损失函数、所述第二交叉熵损失函数以及所述第三交叉熵损失函数，计算第二总损失函数，并当所述第二总损失函数达到平衡状态时，形成稳定的所述层级标签注意力神经网络模型。其中，所述第二总损失函数为：

L_total2＝αL₁+βL₂+λL₃；

α,β,λ分别为所述第一层标签特征分支上对应的损失平衡因子、所述新第二层标签特征分支上对应的损失平衡因子以及所述新第三层标签特征分支上对应的损失平衡因子，L₁为所述第一交叉熵损失函数，L₂为所述第二交叉熵损失函数，L₃为所述第三交叉熵损失函数。

在一个实施例中，所述新第二层标签特征分支生成模块包括第一注意力权重生成模块(图中未标出)、第二层标签特征分支的新特征生成模块(图中未标出)。

第一注意力权重生成模块用于在所述第二层标签特征分支上，将所述第i个目标区域图像对应的第一层标签对应的各个类别的概率的维度拓展为所述第二层标签特征分支的特征对应的维度，获得第一注意力权重。

第二层标签特征分支的新特征生成模块用于根据所述第一注意力权重，计算所述第二层标签特征分支的新特征，形成所述新第二层标签特征分支。

其中，所述第二层标签特征分支的新特征为：

表示所述第i个目标区域图像对应的第一层标签对应的各个类别的概率，

表示所述第一注意力权重，

表示所述第二层标签特征分支的特征，o表示两向量的点乘运算，也可以理解为Hadamard积。

在一个实施例中，所述新第三层标签特征分支生成模块包括第二注意力权重生成模块(图中未标出)与第三层标签特征分支的新特征生成模块(图中未标出)。

第二注意力权重生成模块用于在所述第三层标签特征分支上，将所述第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率的维度拓展为所述第三层标签特征分支的特征对应的维度，获得第二注意力权重。

第三层标签特征分支的新特征生成模块用于根据所述第二注意力权重，计算所述第三层标签特征分支的新特征，形成所述新第三层标签特征分支。

其中，所述第三层标签特征分支的新特征为：

表示所述第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率，

表示所述第二注意力权重，

表示所述第三层标签特征分支的特征，o表示两向量的点乘运算，也可以理解为Hadamard积。

上述各个实施例中，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

本领域技术人员还可以了解到本申请实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本申请实施例保护的范围。

本申请实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于层级标签注意力的识别方法，其特征在于，包括：

获取多个原始图像；

2.根据权利要求1所述的基于层级标签注意力的识别方法，其特征在于，所述对所述多个目标区域图像中每个目标区域图像进行至少两层包含关系标签的标注，形成识别训练集，并基于所述识别训练集，训练形成层级标签注意力神经网络模型，包括：

采用残差网络对所述多个目标区域图像中每个目标区域图像进行特征提取，形成第一层标签特征分支与第二层标签特征分支；

在所述第一层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第一层标签对应的各个类别的概率与第一层标签识别结果，在模型训练时计算第一交叉熵损失函数；其中，所述第一交叉熵损失函数为：

N表示所述多个目标区域图像的数量，

表示第i个目标区域图像对应的第一层标签对应的类别，

将每个所述目标区域图像对应的第一层标签对应的各个类别的概率，融合至所述第二层标签特征分支上，形成新第二层标签特征分支；

在所述新第二层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率与第二层标签识别结果，在模型训练时计算第二交叉熵损失函数；其中，所述第二交叉熵损失函数为：

根据所述第一交叉熵损失函数与所述第二交叉熵损失函数，计算第一总损失函数，并当所述第一总损失函数达到平衡状态时，形成稳定的所述层级标签注意力神经网络模型；其中，所述第一总损失函数为：

L_total1＝αL₁+βL₂；

3.根据权利要求2所述的基于层级标签注意力的识别方法，其特征在于，采用所述残差网络对所述多个目标区域图像中每个所述目标区域图像进行特征提取，还形成第三层标签特征分支；

所述对每个所述目标区域图像进行至少两层包含关系标签的标注，形成识别训练集，并基于所述识别训练集，训练形成层级标签注意力神经网络模型，还包括：

将每个所述目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率，融合至所述第三层标签特征分支上，形成新第三层标签特征分支；

在所述新第三层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第二层标签下对应的第三层标签对应的各个类别的概率与第三层标签识别结果，在模型训练时计算第三交叉熵损失函数；其中，所述第三交叉熵损失函数为：

根据所述第一交叉熵损失函数、所述第二交叉熵损失函数以及所述第三交叉熵损失函数，计算第二总损失函数，并当所述第二总损失函数达到平衡状态时，形成稳定的所述层级标签注意力神经网络模型；其中，所述第二总损失函数为：

L_total2＝αL₁+βL₂+λL₃；

4.根据权利要求2所述的基于层级标签注意力的识别方法，其特征在于，所述将每个所述目标区域图像对应的第一层标签对应的各个类别的概率，融合至所述第二层标签特征分支上，形成新第二层标签特征分支，包括：

在所述第二层标签特征分支上，将所述第i个目标区域图像对应的第一层标签对应的各个类别的概率的维度拓展为所述第二层标签特征分支的特征对应的维度，获得第一注意力权重；

根据所述第一注意力权重，计算所述第二层标签特征分支的新特征，形成所述新第二层标签特征分支；其中，所述第二层标签特征分支的新特征为：

表示所述第一注意力权重，f₂ ⁽ⁱ⁾表示所述第二层标签特征分支的特征，o表示两向量的点乘运算。

5.根据权利要求3所述的基于层级标签注意力的识别方法，其特征在于，所述将每个所述目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率，融合至所述第三层标签特征分支上，形成新第三层标签特征分支，包括：

在所述第三层标签特征分支上，将所述第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率的维度拓展为所述第三层标签特征分支的特征对应的维度，获得第二注意力权重；

根据所述第二注意力权重，计算所述第三层标签特征分支的新特征，形成所述新第三层标签特征分支；其中，所述第三层标签特征分支的新特征为：

表示所述第二注意力权重，f₃ ⁽ⁱ⁾表示所述第三层标签特征分支的特征，o表示两向量的点乘运算。

6.根据权利要求1所述的基于层级标签注意力的识别方法，其特征在于，所述获取多个原始图像中，所述多个原始图像包括多个原始车辆图像；

所述对所述多个原始图像中每个所述原始图像的目标区域进行标注，形成检测训练集，并基于所述检测训练集，训练形成目标位置检测模型中，对每个所述原始图像的目标区域进行标注形成多个目标特征参数，所述多个目标特征参数包括所述原始车辆图像对应的车脸或车尾的最小矩形框的中心点坐标与宽高信息。

7.根据权利要求6所述的基于层级标签注意力的识别方法，其特征在于，所述对所述多个目标区域图像中每个目标区域图像进行至少两层标签的标注中，所述至少两层标签包括第一层标签、第二层标签以及第三层标签，所述第一层标签为车辆品牌信息，所述第二层标签为车辆型号信息，所述第三层标签为车辆年款信息。

8.根据权利要求7所述的基于层级标签注意力的识别方法，其特征在于，所述根据所述目标位置检测模型与所述层级标签注意力神经网络模型，对待检测图像进行检测识别，包括：

获取待检测车辆图像；

将所述待检测车辆图像输入至所述目标位置检测模型，输出所述待检测车辆图像对应的多个目标特征参数，并根据所述多个目标特征参数对所述待检测车辆图像进行裁剪，形成待检测车辆目标区域图像；

将所述待检测车辆目标区域图像输入至所述层级标签注意力神经网络模型，输出车辆品牌信息、车辆型号信息以及车辆年款信息。

9.一种基于层级标签注意力的识别装置，其特征在于，包括：

图像获取模块，用于获取多个原始图像；

10.根据权利要求9所述的基于层级标签注意力的识别装置，其特征在于，所述层级标签注意力神经网络模型生成模块包括：

标签特征分支生成模块，用于采用残差网络对所述多个目标区域图像中每个目标区域图像进行特征提取，形成第一层标签特征分支与第二层标签特征分支；

第一层标签特征分支运行模块，用于在所述第一层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第一层标签对应的各个类别的概率与第一层标签识别结果，在模型训练时计算第一交叉熵损失函数；其中，所述第一交叉熵损失函数为：

N表示所述多个目标区域图像的数量，

表示第i个目标区域图像对应的第一层标签对应的类别，

新第二层标签特征分支生成模块，用于将每个所述目标区域图像对应的第一层标签对应的各个类别的概率，融合至所述第二层标签特征分支上，形成新第二层标签特征分支；

新第二层标签特征分支运行模块，用于在所述新第二层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率与第二层标签识别结果，在模型训练时计算第二交叉熵损失函数；其中，所述第二交叉熵损失函数为：

第一损失函数调整模块，用于根据所述第一交叉熵损失函数与所述第二交叉熵损失函数，计算第一总损失函数，并当所述第一总损失函数达到平衡状态时，形成稳定的所述层级标签注意力神经网络模型；其中，所述第一总损失函数为：

L_total1＝αL₁+βL₂；

11.根据权利要求10所述的基于层级标签注意力的识别装置，其特征在于，所述标签特征分支生成模块还用于形成第三层标签特征分支；

所述层级标签注意力神经网络模型生成模块还包括：

新第三层标签特征分支生成模块，用于将每个所述目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率，融合至所述第三层标签特征分支上，形成新第三层标签特征分支；

新第三层标签特征分支运行模块，用于在所述新第三层标签特征分支上运行分类函数，获取每个所述目标区域图像对应的第二层标签下对应的第三层标签对应的各个类别的概率与第三层标签识别结果，在模型训练时计算第三交叉熵损失函数；其中，所述第三交叉熵损失函数为：

第二损失函数调整模块，用于根据所述第一交叉熵损失函数、所述第二交叉熵损失函数以及所述第三交叉熵损失函数，计算第二总损失函数，并当所述第二总损失函数达到平衡状态时，形成稳定的所述层级标签注意力神经网络模型；其中，所述第二总损失函数为：

L_total2＝αL₁+βL₂+λL₃；

12.根据权利要求10所述的基于层级标签注意力的识别装置，其特征在于，所述新第二层标签特征分支生成模块包括：

第一注意力权重生成模块，用于在所述第二层标签特征分支上，将所述第i个目标区域图像对应的第一层标签对应的各个类别的概率的维度拓展为所述第二层标签特征分支的特征对应的维度，获得第一注意力权重；

第二层标签特征分支的新特征生成模块，用于根据所述第一注意力权重，计算所述第二层标签特征分支的新特征，形成所述新第二层标签特征分支；其中，所述第二层标签特征分支的新特征为：

13.根据权利要求11所述的基于层级标签注意力的识别装置，其特征在于，所述新第三层标签特征分支生成模块包括：

第二注意力权重生成模块，用于在所述第三层标签特征分支上，将所述第i个目标区域图像对应的第一层标签下对应的第二层标签对应的各个类别的概率的维度拓展为所述第三层标签特征分支的特征对应的维度，获得第二注意力权重；

第三层标签特征分支的新特征生成模块，用于根据所述第二注意力权重，计算所述第三层标签特征分支的新特征，形成所述新第三层标签特征分支；其中，所述第三层标签特征分支的新特征为：