CN117372787A

CN117372787A - 一种图像多类别识别方法及装置

Info

Publication number: CN117372787A
Application number: CN202311649289.5A
Authority: CN
Inventors: 陈翔宇; 朱雅都; 张迪勇; 黄尚强; 郑佳勇; 方卫洪; 魏明欣; 席力凡; 陈曦; 范红霞; 李丹
Original assignee: Same Side Seville Information Technology Co ltd
Current assignee: Same Side Seville Information Technology Co ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-01-09
Anticipated expiration: 2043-12-05
Also published as: CN117372787B

Abstract

本发明公开了一种图像多类别识别方法及装置，所述方法包括以下步骤：训练目标检测模型及图像相似度模型；确定需要分类的类别并进行相应的配置；获取待分类的图像；通过目标检测识别图像中主要目标的位置及类别；将检测出的主要目标进行截取，对图像进行纠偏并用相似度模型提取图像特征，并与已知分类的特征依次进行对比；对比结果中概率最高的类别与目标检测结果组成最终类别。本发明提供的图像多类别识别方法及装置在有限多的数据量且需要分类的类别很多的情况下，实现较高精度的图像识别。

Description

一种图像多类别识别方法及装置

技术领域

本发明涉及图像识别领域，特别是涉及一种图像多类别识别方法及装置。

背景技术

像识别是计算机视觉中应用最广泛的技术之一，图像识别通常是指输入图像，判断图像中内容的类别，具体为以图像数据及其对应的类别标签组成的数据集训练图像识别模型。

然而，图像识别往往面对两个问题：一方面是真实应用场景的数据难以获取；另一方面是随着需要分类的类别数量增多，所训练出的模型精度将下降，需求的数据量也大幅增加。

发明内容

本发明的目的在于克服现有技术的不足，提供一种图像多类别识别方法及装置，在有限多的数据量且需要分类的类别很多的情况下，实现较高精度的图像识别。

本发明的目的是通过以下技术方案来实现的：

一种图像多类别识别方法，包括以下步骤：

训练目标检测模型及图像相似度模型

确定需要分类的类别并进行相应的配置；

所述确定需要分类的类别并进行相应的配置包括：

预先确定所有需要分类的类别，并且每一类找到至少一张包含主要目标的图片，该图片通过相似度模型的特征抽取后，将抽取后得到的特征向量存储起来，并将该向量与类别对应，所述主要目标是指类别的唯一标识，如品牌logo。

获取待分类的图像；

训练目标检测模型并通过目标检测识别图像中主要目标的位置及类别，将目标检测模型识别到的类别作为一级分类；

由于需要分类的类别过多，例如800种，仅用目标检测算法很难达到预期的精度，且数据集的收集非常困难，因此我们需要将这800种类别作为二级分类，并根据其特征制定其一级分类，主要目标则包括物品和唯一标识，物品的标签为位置信息及其一级类别，位置信息为物品在图像坐标系中左上角的坐标及右下角的坐标，唯一标识是指物品上可代表物品具体分类的标识，例如logo、文字等，不同类别物品中的唯一标识可以划分为一个统一的类别。

训练图像相似度模型，将识别出的主要目标进行截取，对图像进行纠偏并用相似度模型提取图像特征，并与已知分类的特征依次进行对比：

所述对图像进行纠偏，采用霍夫变换实现，所述霍夫变换是一种利用图像几何变换的方法，通过检测图像中的形状或线条，将其映射到另一个空间中，从而实现对图像的纠偏。

图片纠偏非常必要，在实际应用中，由于我们待分类图像的唯一标识是从图片中截取的结果，因此图像会有不同程度的旋转，将图像纠偏会一定程度提高相似度对比的准确率；使用相似度模型进行特征抽取是指我们将会用训练一个相似度模型，并从相似度模型中抽取部分层作为特征提取工具，具体的训练方法以及模型层的选择将在后面提到；特征抽取的结果为一个多维向量，且已知类别的多维向量已经被存储，因此将抽取结果与存储的多维向量进行对比即可，具体的对比方法包括但不限于余弦相似度、欧氏距离，余弦相似度的公式为：

式子中的x代表待分类图像提取的向量，y代表已知类别向量，欧氏距离的公式如下：

式子中的x代表待分类图像提取的向量与已知类别向量之差，本方法对具体的对比方法不做限定。

将对比结果中概率最高的类别作为二级分类，与一级分类组成最终类别。

所述对比结果中概率最高的类别通过如下方式得到：

将图像依次与已存储的唯一标识依次进行对比，以余弦相似度为评判标准，认为余弦相似度最高的类别即为概率最高的类别，也就是最终的二级分类。以手机为例，最终的结果为某品牌（二级分类）手机（一级分类）；

进一步地，所述目标检测通过目标检测模型实现，目标检测模型训练选用yolov5模型，目标检测模型训练过程：

确定需要进行划分的二级类别，即最终需要识别的类别；

将二级类别进行合并组成一级类别，例如将某品牌的手机（二级分类）与另一个品牌的手机（二级分类）合并为手机（一级分类），将所有类别中的唯一标识作为额外类别，例如品牌logo；

数据标注，使用矩形锚框对数据集中的一级类别及唯一标识类别进行标注；

进行目标检测模型训练，将数据集图像作为模型的输入、将图像中目标锚框的坐标及其对应的类别作为标签，本申请可以基于yolov5官方提供的基于coco数据集的预训练模型进行迁移学习，其中coco数据集是一个大规模的图像数据集，主要用于图像检测、语义分割和图像标题生成等任务。它包含超过330K张图像，其中有220K张带有标注的图像，以及150万个目标,是当前最流行的图像识别数据集之一。具体训练过程为：加载官方提供的预训练模型，由于模型特征提取的通用性，冻结模型权重的特征提取层，仅对回归层权重进行迭代训练100轮，之后解放特征提取层权重，对整体权重进行迭代训练100轮，训练过程使用Adam优化器，其中Adam优化器是一种自适应优化算法，主要用于训练神经网络和其他机器学习模型。它结合了自适应学习率和动量方法，能够有效地调整学习率并在训练过程中自适应地调整参数更新的速度；

测试模型精度并进行模型优化，对精度较低的类别进行增量训练，在上一步得出的模型基础上进行迁移学习，具体为：增加精度较低类别的数据，依次进行标注，与原数据集合并，并在上一步训练出模型的基础上进行模型训练，增量训练可直接对整体模型权重进行调整，直至整体精度符合要求。

所述图像相似度模型训练过程包括：

使用目标检测模型制作数据集，即使用目标检测对数据集图像进行处理；将图片中的物品位置、一级分类、唯一标识等检测出来，并进行标记，已标注的数据可直接根据标注信息进行截取；然后通过图像中的坐标截取出来，并通过唯一标识进行划分；

将唯一标识类别图像截取出来制作成新的数据集，并根据原图目标的二级分类进行划分，将数据集中每个唯一标识对应的二级分类；

图像相似度模型构建，主要内容为使用并联的分类模型Xception并去除回归层的孪生网络，依次输入两张唯一标识图像，将两支模型的输出合并处理并进行回归，使用余弦相似度作为模型输出；并联的两个模型共享权重，即在参数更新的过程中，两个模型的权重完全相等，将两个模型的输出层进行相似度对比，例如使用余弦相似度，在后续的相似度对比应该也使用余弦相似度对比，且由于余弦相似度的取值范围为-1到1，应该对余弦相似度进行归一化处理。优选地，孪生网络中的特征提取部分，我们使用迁移学习的方式进行模型训练，在基于Imagenet的数据集训练出的预训练模型上进行迁移学习，但是，由于Xception为分类模型，因此，我们需要去掉Xception的回归层，只保留核心的特征处理层，并在模型的最后添加池化层，池化方法包括但不限于最大池化、平均池化，本方法对池化方法不做具体限定。

对于任意两张输入图像，当其属于相同二级分类时时，将对应的标签设置为1，反之设置为0。

然后遍历新的数据集中所有两张图像的组合，执行标签添加过程，所有得到训练样本构成了图像相似度模型的训练集；

利用图像相似度模型的训练集对图像相似度模型进行训练，得到训练好的图像相似度模型；

所述相似度对比包括：

提取图像相似度模型中的部分层作为图像特征提取工具，具体为：选择并联的孪生网络中的一支网络作为图像特征提取工具，由于并联的孪生网络的两支特征提取模型共享权重，因此选择任一支均可；

通过图像特征提取工具提取已知分类的唯一标识的特征并存储，同时绑定其具体名称及相应的一级类别；

输入待分类唯一标识，通过特征提取获取特征向量；由于先选定已知类别的唯一标识图像，可以使用手动截取的方式获取，并将图像通过特征提取工具转换为特征向量，该唯一标识的一级分类及具体分类为已知，将这些数据绑定并存储起来。

待分类唯一标识的一级类别已知，获取已存储的一级分类下所有特征向量并依次与其对比；

与一级分类组合得到最终分类结果，具体为：在目标检测阶段，已经得出了目标的一级分类，如手机，在图像相似度对比阶段，通过目标的唯一标识与已知标识进行相似度对比得出唯一标识所属分类，则最终组合结果为某品牌手机。

优选地，一级分类主要起到快速检索的作用，由于在目标检测的步骤图像的一级分类已知，因此我们只需要对该一级分类下的具体类别进行对比。以余弦相似度为例，余弦相似度值最高的即为最终分类。

一种图像多类别识别装置，包括：

类别存储单元，用于存储想要检测的具体类别信息；

摄像头获取单元，摄像头获取图像；

图像纠偏单元，摄像头获取图像进行纠偏；

目标检测单元，获取图像中物品信息；

相似度对比单元，与已存储类别进行对比，获取唯一标识类别；

类别合并单元，对物品一级分类及唯一标识类别进行组合。

本发明的有益效果是：本发明能够在检测类别较多的情况下，保证检测的精度，并且更容易实现多类别图像的识别。

附图说明

图1为本发明提供的一种图像多类别识别方法的流程示意图。

图2为本发明提供的一种目标检测模型训练方法的流程示意图。

图3为本发明提供的一种相似度对比方法的流程示意图。

图4为本发明提供的一种多类别识别装置示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种图像多类别识别方法，包括以下步骤：

训练目标检测模型及图像相似度模型；

确定需要分类的类别并进行相应的配置；

获取待分类的图像；

通过目标检测识别图像中物品的一级分类的位置及类别、唯一标识的位置及类别；

对识别出的唯一标识进行截取，对图像进行纠偏并用图像相似度模型提取图像特征，并与已知分类的特征依次进行对比；

如图2所示，所述训练目标检测模型包括：

确定需要进行划分的二级类别，即最终需要识别的类别；

将二级类别进行合并组成一级类别，例如X品牌手机与Y品牌手机合并为手机，将所有二级类别中的唯一标识作为额外类别，该额外类别即唯一标识类别，例如logo；

获取数据集：对每一个二级类别准备多张图像；所述二级类别即一级类别与唯一标识类别的组合；

数据标注：使用矩形锚框对数据集中每一张图像的一级类别及唯一标识类别进行标注，并划分为训练集和测试集，划分是需要使得训练集和测试集中均包含所有二级类别对应的图像；

进行目标检测模型训练，构建目标检测模型（如yolov5模型），将训练集中的图像作为模型的输入、将图像中目标锚框的坐标及其对应的类别作为标签，具体训练过程为：加载官方提供的预训练模型，由于模型特征提取的通用性，冻结模型权重的特征提取层，仅对回归层权重进行迭代训练100轮，之后解放特征提取层权重，对整体权重进行迭代训练100轮，训练过程使用Adam优化器，其中Adam优化器是一种自适应优化算法，主要用于训练神经网络和其他机器学习模型，它结合了自适应学习率和动量方法，用于调整学习率并在训练过程中自适应地调整参数更新的速度；在本申请的实施例中，过程中使用损失函数为分类损失classification loss、定位损失localization loss、置信度confidence loss中任意一种，也可以是三者相加，根据总损失值（使总损失值逼近0）对网络进行反向传播修正模型权重；

测试目标检测模型精度并进行模型优化：将测试集中每一个二级类别对应的各个图像分别输入到训练得到的目标检测模型中进行测试；然后统计每一个二级类别下目标检测模型输出的一级类别及唯一标识类别的精度，所述精度即当前二级类别识别正确的图像数目除以测试集中当前二级类别的图像总数；

对精度较低的类别进行增量训练，在训练得到的目标检测模型基础上进行迁移学习，所述精度较低的类别是指模型预测精度低于设定阈值的类别；具体为：增加精度较低类别的数据，依次进行标注，与原数据集合并，并在训练得到的目标检测模型的基础上继续进行模型训练，增量训练直接对整体模型权重进行调整，直至精度符合要求；

所述训练图像相似度模型包括：

使用目标检测模型制作数据集，即使用目标检测对数据集图像进行处理，将唯一标识类别图像截取出来制作成新的数据集，并根据原图目标的二级分类进行划分；

图像相似度模型构建：将两个分类模型Xception去除回归层的孪生网络进行并联，每个孪生网络作为一个支路，每一个支路输入一张唯一标识图像，并对输入的唯一表示图像进行特征提取并输出特征向量，将两个支路的输出进行归一化的余弦相似度计算,然后将得到的结果作为图像相似度模型的输出，余弦相似度的值越接近1代表两张图像的相似度更高；

图像相似度模型的训练：对于新的数据集中的任意两张唯一标识类别图像，根据是否为相同二级类别添加标签，从而得到一个训练样本，两张图像属于相同二级类别时，对应的标签为1，反之为0；

利用图像相似度模型的训练集对图像相似度模型进行训练，得到训练好的图像相似度模型。

需要说明的是，在本申请的实施例中，构建和训练图像相似度模型主要是为了基于余弦相似度的标签，去完成两个支路的权重训练，后续使用是其实仅需要使用模型中的任意支路。

所述确定需要分类的类别并进行相应的配置包括：

确定当前需要分类的二级类别，并对这些二级类别的唯一标识进行搜集，如某品牌手机的logo图像；

并且每一类找到至少一张唯一标识的图片，如logo图像，该图片通过相似度模型的任意一个支路进行特征抽取后，将抽取后得到的特征向量存储起来，并将该向量与类别对应，具体的对应方式为：一级分类-唯一标识类别-特征向量；

所述目标检测包括：

输入待分类图像；

通过目标检测模型输出图像中物品的一级类别及位置、唯一标识类别及位置。

如图3所示，所述对识别出的唯一标识进行截取，对图像进行纠偏并用图像相似度模型提取图像特征，并与已知分类的特征依次进行对比包括：

提取图像相似度模型中的任意一个支路作为图像特征提取工具，具体为：选择模型训练阶段中并联的孪生网络中的一支网络作为图像特征提取工具，由于并联的孪生网络的两支特征提取模型共享权重，因此选择任一支；

截取并输入待分类图像唯一标识，输入相似度模型的一个支路中进行特征提取获取特征向量；

待分类唯一标识的一级类别已知，获取已存储的一级分类下所有唯一标识的特征向量并依次与其对比，选择对比结果中概率最高的唯一标识类别，与一级分类组合得到最终分类结果：在目标检测阶段，已经得出了目标的一级分类，在图像相似度对比阶段，通过目标的唯一标识与已知标识进行相似度对比得出唯一标识所属分类。

所述与已知分类的特征依次进行对比的方法包括但不限于余弦相似度、欧氏距离。

所述对比结果中概率最高的唯一标识类别通过如下方式得到：

将图像的特征向量依次与已存储的唯一标识的特征向量依次进行对比，以余弦相似度或欧氏距离为评判标准，认为余弦相似度最高的类别，或是欧氏距离最近的类别，作为概率最高的唯一标识类别。

如图4所示，一种图像多类别识别装置，包括：

模型训练单页，用于训练整个分类系统所需的目标检测及图像相似度模型；

类别存储单元，用于存储想要检测的具体类别信息；

摄像头获取单元，摄像头获取图像；

图像纠偏单元，摄像头获取图像进行纠偏；

目标检测单元，获取图像中物品信息；

类别合并单元，对物品一级分类及唯一标识类别进行组合。

在本申请的实施例中，确定将要分类的833种具体类别，根据类别特征进行合并组成22种一级类别，原分类作为二级类别。

根据已划分的一级类别进行图像标注，标注信息包括图像中目标的位置以及其对应的类别，类别一共包含23中类别，分别为22种一级分类以及唯一标识分类。

对已标注好的信息进行目标检测模型训练，总数据量为5439，其中90%作为训练集，剩余10%中的90%作为验证集，剩余10%作为测试集，训练轮次为300轮，其中前200轮为冻结训练，后100轮解冻训练，迁移学习选择的预训练模型为COCO数据集训练出的目标检测模型。

具体的，模型训练使用模型为yolov5；

使用测试集对训练好的目标检测模型进行评估，对准确率低的类别进行增量训练，重复上一步骤。

具体的，增量训练同样使用迁移模型，迁移的模型为上一步训练中已训练好的目标检测模型。

对已标注好的数据进行唯一标识截取，并根据其一级分类及标识分类进行划分，同时搜集更多图像，通过已训练好的目标检测模型对其进行推理并获取这些图像中的一级分类、标识分类及唯一标识的截图。

通过上一步获取的数据集进行图像纠偏，存储位置及类别不变。

具体的，图像纠偏使用霍夫变换实现。

在进行训练前，进一步进行数据集制作，依次将每一具体分类的唯一标识与同类别、不同类别进行组合，同类别对应标签为1，不同类别对应标签为0。

将制作好的数据集进行图像相似度模型训练。

具体的，采用的图像相似度模型为并联两个Xception的孪生网络结构，其中每一个Xception去除最后的回归层，添加最大池化层，两个Xception共用同一套权重，两个Xception的输出进行归一化的余弦相似度计算。

获取待分类图像。

对图像进行纠偏。

通过目标检测获得图像中目标位置及一级分类。

使用已训练好的Xception模型对唯一标识进行特征抽取，获得唯一标识的特征向量。

特别的，此处的Xception模型为训练出的图像相似度模型中并联的Xception模型中的其中一支，没有原始的回归层，最后一层替换为最大池化层。

带分类图像唯一标识的特征向量与已知一级分类下的特征向量一次对比，确定唯一标识分类，最终分类选择余弦相似度值最大的三个。

唯一标识类别与一级分类组成最终分类。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种图像多类别识别方法，其特征在于：包括以下步骤：

训练目标检测模型及图像相似度模型；

确定需要分类的类别并进行相应的配置；

获取待分类的图像；

对识别出的唯一标识进行截取，对图像进行纠偏并用图像相似度模型提取图像特征，并与已知分类的特征依次进行对比：

2.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述训练目标检测模型包括：

确定需要进行划分的二级类别，即最终需要识别的类别；

将二级类别进行合并组成一级类别，将所有二级类别中的唯一标识作为额外类别，该额外类别即唯一标识类别；

进行目标检测模型训练，构建目标检测模型，将训练集中的图像作为模型的输入、将图像中目标锚框的坐标及其对应的类别作为标签，具体训练过程为：加载预训练模型，由于模型特征提取的通用性，冻结模型权重的特征提取层，仅对回归层权重进行迭代训练100轮，之后解放特征提取层权重，对整体权重进行迭代训练100轮，训练过程使用Adam优化器，用于调整学习率并在训练过程中自适应地调整参数更新的速度；

所述训练图像相似度模型包括：

图像相似度模型构建：将两个分类模型Xception去除回归层的孪生网络进行并联，每个孪生网络作为一个支路，每一个支路输入一张唯一标识图像，并对输入的唯一表示图像进行特征提取并输出特征向量，将两个支路的输出进行归一化的余弦相似度计算，计算结果作为相似度模型输出，余弦相似度的值越接近1代表两张图像的相似度更高；

3.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述确定需要分类的类别并进行相应的配置包括：

确定当前需要分类的二级类别，并对这些二级类别的唯一标识进行搜集；

并且每一类找到至少一张唯一标识的图片，该图片通过相似度模型的任意一个支路进行特征抽取后，将抽取后得到的特征向量存储起来，并将该向量与类别对应，具体的对应方式为：一级分类-唯一标识类别-特征向量。

4.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述对图像进行纠偏，采用霍夫变换实现，所述霍夫变换是一种利用图像几何变换的方法，通过检测图像中的形状或线条，将其映射到另一个空间中，从而实现对图像的纠偏。

5.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述目标检测包括：

输入待分类图像；

6.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述对识别出的唯一标识进行截取，对图像进行纠偏并用图像相似度模型提取图像特征，并与已知分类的特征依次进行对比包括：

提取图像相似度模型中的一个支路作为图像特征提取工具，具体为：选择模型训练得到的并联的孪生网络中的一支网络作为图像特征提取工具，由于并联的孪生网络的两支特征提取模型共享权重，因此选择任一支；

7.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述与已知分类的特征依次进行对比的方法包括余弦相似度或欧氏距离。

8.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述最终类别的确定包括：所述对比结果中概率最高的唯一标识类别通过如下方式得到：

9.一种图像多类别识别装置，采用权利要求1~8中任意一项所述的方法，其特征在于：包括：

模型训练单元，用于训练目标检测及图像相似度模型；

类别存储单元，用于存储想要检测的具体类别信息；

摄像头获取单元，摄像头获取图像；

图像纠偏单元，摄像头获取图像进行纠偏；

目标检测单元，获取图像中物品信息；

类别合并单元，对物品一级分类及唯一标识类别进行组合。