CN113657414A

CN113657414A - 一种物体识别方法

Info

Publication number: CN113657414A
Application number: CN202111215518.3A
Authority: CN
Inventors: 张元本; 陈名国
Original assignee: Guangzhou Weilin Software Co ltd
Current assignee: Guangzhou Weilin Software Co ltd
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2021-11-16
Anticipated expiration: 2041-10-19
Also published as: CN113657414B

Abstract

本发明公开了一种物体识别方法，包括：物体检测，采集相关数据集，对采集的数据集使用图像标注工具对目标物体数据集的图像进行标定，并对采集的数据集进行数据增强，提取检测到的目标物体，进行类别归类，把目标物体类别分成大类和小类；对目标数据集做关系处理，构成关系分层图，通过关系分层图和余弦相似度构建大类和小类匹配权值矩阵，经过物体识别网络和匹配权值矩阵去确认物体的类别和物体；该物体识别方法识别准确，能够识别多个不定类别的物体。

Description

一种物体识别方法

技术领域

本发明涉及一种物体识别方法。

背景技术

目标检测与识别是计算机视觉领域的一个基本问题，在非受控自然场景中快速准确的定位和识别特定目标是许多人工智能应用场景的重要功能基础。

近年来，随着深度学习技术的快速发展，基于卷积神经网络的目标检测算法获得了关注和广泛研究，出现了很大性能优良、简介高效的网络结构，使算法的大规模事件应用成为可能。

目前学术和工业界出现的目标检测算法分为3类。

第一种是传统的目标检测算法。基于滑动窗口进行目标的确认，常规用Cascade +Harr、 SVM + HOG 、DPM 等算法，其时间复杂度高，而且没有针对性，鲁棒性差，不能实现对目标在复杂环境下的准确检测，同时在实时性方面也存在问题。

第二种是提取候选区域和目标分类。这种我们经常称此为Two-stage网络，其代表有RCNN、Fast-RCNN、Faster-RCNN、R-FCN 等系列方法。首先产生候选区域，然后对候选区域分类，最后对位置精细修正，其具有精度高，但速度慢、实时性差的特点，无法应用于工业场景。

第三种是基于候选窗口的回归方法。称其为One-stage网络，代表有YOLO、SSD、DenseBox 等方法，物体的分类与预测框的回归同时进行，是端到端的模型结构。具有网络模型参数相对较少，在速度表现优越，但是准确性稍低的特点。特别是YOLO(You Look OnlyOnce)系列，到2020年，已经更新到了第四代算法YOLO v4，在保持识别速度的基础上已经能达到较高的的识别精度，尤其轻量级网络YOLO v4-tiny系列，模型参数量较少，速度较快，适用于非常多的工业场景，但精度方面还待提升。

虽然目前目标识别算法已经能做到高识别和高速度，但物体的识别种类还是有限，像基于多层级分层结构的YOLO9000能识别9000种物体，但缺乏灵活性和可扩展性，不能随时随意的识别任意的物品。

发明内容

针对现有技术中的不足，本发明的目的是提供一种识别准确，能够识别多个不定类别的物体的物体识别方法。

本发明解决其技术问题所采用的技术方案是：

一种物体识别方法，包括：

物体检测，采集相关数据集，对采集的数据集使用图像标注工具对目标物体数据集的图像进行标定，并对采集的数据集进行数据增强，选择YOLOv4训练策略对YOLOv4-tiny模型进行训练，用训练好的YOLOv4-tiny模型对图像进行检测，提取检测到的目标物体，进行类别归类；

匹配权值矩阵，采集类别归类物体的目标数据集，并把目标数据集分成大类物体数据集和小类物体数据集，对目标数据集做关系处理，构成关系分层图，提取大类物体数据集和小类物体数据集的数据特征，通过特征的余弦相似度建立特征与特征之间的匹配度，建立匹配权值矩阵；

物体识别，改造MobileNetv2识别网络，提取物体特征结合匹配权值矩阵去确认物体的类别和物体。

进一步的，在物体检测时，相关数据集的采集方法为：通过多个相同或不同的视频源，在不同场景，不同时间下采集包含目标物体的视频。

进一步的，在物体检测时，对目标物体数据集的图像进行标定的方法为：使用LabelImg工具对目标物体数据集的图像进行标定，并划分训练集、测试集、验证集。

进一步的，在物体检测时，通过K-Means++聚类算法，对数据训练集中真实目标框计算出针对本数据集的不同大小的先验框。

进一步的，在物体检测时，对YOLO v4-tiny模型中的网络进行增强，对CSPDarknet53-tiny的CSPBlock模块进行修改，减少其计算量，在YOLOv4-tiny模型的底部添加SPP的改造体SPP MAX Mode，把原侦测处理头部的卷积替换成Detect Block。

进一步的，在物体检测时，使用的训练策略包括余弦退火机制和多尺度训练。

进一步的，在物体检测时，对训练和测试完成的目标检测模型中进行剪枝处理。

进一步的，在物体检测时，对剪枝后的模型采用TensorRT技术进行前向推理。

进一步的，在构建匹配权值矩阵时，采集相关数据集，把目标数据集分成两部分，一份是物体的大类数据集，另外一份为物体的小类数据集，分类标准可根据属性、外形、类别等去划分。

进一步的，在构建匹配权值矩阵时，对目标数据集做关系处理。把检测提取出的小类目标数据集和大类目标数据集的物体建立各种联系，构成关系分层图。

进一步的，在构建匹配权值矩阵时，根据关系分层图，建立特征匹配关系规则，每一个大类的特征对应多个小类特征，通过余弦相似度建立匹配权值矩阵。

进一步的，物体识别时，改造MobileNetv2识别网络，添加Coordinate AttentionBlock的注意力机制，对MobileNetv2物体识别网络进行训练。用训练好的MobileNetv2结合匹配权值矩阵实现对物体的识别。

本发明的有益效果是：

通过物体检测方法、匹配权值矩阵方法、物体识别方法，形成一套物体识别的系统，实现对物体和物体类别的判别，在鲁棒性上，结合物体检测，作为一种先验，准确获取物体的位置，然后对检测的物体识别，实现不定类别甚至是单物品类别的识别；借助目标检测和匹配权值矩阵、获得视频帧序列中目标物体，通过识别目标物体间的差异和匹配，从而确定物体的类别和物体。

附图说明

图1为本发明的实施例1的示例性系统架构图；

图2为本发明的实施例1的目标检测模型图；

图3为本发明的实施例1的进行修改后的目标检测模型图第一部分；

图4为本发明的实施例1的进行修改后的目标检测模型图第二部分；

图5为本发明的实施例3的注意力模块图；

图6为本发明的实施例2的物体类别关系分层图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例1

结合图1显示，本实例提供一种基于视觉的物体识别方法和系统，包括三个部分：物体检测，匹配权值矩阵、物体识别。

优选地，物体检测方法，包括：

步骤A1：通过在不同的环境场景和不同天气，不同光照下，传感器、红外线等机制采集到目标视频流，借助多媒体处理工具(如FFmpeg)对目标视频进行抽帧处理，得到多个图像帧序列。

步骤A2-1：对采集的多图像帧序列进行预处理，预处理方法不限于过滤、筛选、剪裁、拼接、高斯噪声和模糊处理，经过预处理的目标物体图像构成目标物体数据集。

步骤A2-2：使用目标检测常用的标注工具Labelimg对图像中需要检测的目标物体进行标注。

步骤A3：通过K-Means++聚类算法，对数据集中真实目标框计算出针对本数据集的不同大小的先验框大小。

上述K-Means++聚类算法具体实施过程：

①将标注的Bounding Box四角的坐标转换为长宽信息，具体为：用边界框右下角点横坐标减去左上角横坐标得到边界框的长，右下角纵坐标减去左上角纵坐标得到边界框的宽。

②先随机从Bounding Box中选择一个边界框，计算边界框和锚框的距离，然后按照轮盘法选择下一个锚框，选取的原则是：距离较大的点，有较大的概率被选取。

③重复上述步骤②，直到K个锚框被选出。

④该示例中K-Means++用到的距离用交并比值IOU代替，公式如下：

式中：box 表示边界框，centroid 表示锚框。

⑤分别计算所有Bounding Box与K个锚框的距离，对于每个边界框，按照距离进行排序，将该边界框归类到最小距离的锚框中去，整个Bounding Box分为K类。

⑥对K类的Bounding Box中每一类的边界框进行长宽统计，求长宽均值作为作为新的锚框长宽，共生产K个新的锚框。

⑦重复上述步骤②到步骤⑥，直至边界框的分类不再发生变化或达到阈值，完成边界框的聚类。

在本发明的目标检测中，采用YOLO系列作为检测模型，如图2所示，采用了YOLOv4-tiny框架网络，该网络包括特征提取主体网络、特征融合增强网络，特征检测网络。

特征提取主体网络，采用了CSPDarkNet53-tiny的构架，其输入通道3的图像，为了满足32倍差的比例，会对原生图像进行等比例的缩放，之后为了保证图像不失真，不改变图像的边长比，在长边上下或左右扩充灰色区域。在网络的主干道上，把原YOLOv3的残差块结构改成CSPNet结构，将经过基础卷积层处理后的特征图按通道对半选入一条路径，该路径进行残差提取特征操作，接着与原特征图叠加在一起，再转化操作，该操作可以增强CNN的学习能力，能够在轻量化的同时保持准确性、降低计算瓶颈、降低内存成本。多次采用经过CSPNet改进的残差块来进行卷积，最终特征提取的两个结果就是后续加强特征提取网络的输入。

在YOLOv4-tiny特征融合增强网络中，采用了简易版本的FPN图像金字塔加强特征之间的融合，底层的特征层上采样与CSPNet最上层的的结果叠加在一起，再输出到特征检测网络。

上述实施例，特征检测网络，由两个YOLOHead组成，提取到的特征进行结果的预测，主要就是一个3*3的卷积，一个1*1的卷积的组合。

步骤A4：针对YOLOv4-tiny 特征提取能力不强的特点，在YOLOv4-tiny框架的最底层中嵌入SPP MAX Mode机制、把YOLOHead卷积替换成Detect Block模块、修改主体的CSPBlock模块，如图3-4所示。

本发明的SPP MAX Mode模块的原始构造为SPP，SPP作为一个优秀的增加卷积核感受野的插件，被应用在各种优秀的目标检测网络中，不需要指定输入图像的尺寸或比例，就能够生成固定大小的特征，再送到全连接层。基于以上的研究，提取一个SPP MAX Mode，在扩展卷积核感受野的同时，进行多尺度的特征融合，以获得更多有限的局部信息。

具体地，SPP MAX Mode模块，使用小（5x5）、中（9x9）、大（13x13）三种不同尺度的最大池化窗口分别作用于传入的卷积特征，然后把输入特征图和经过最大池化后的局部尺寸特征图进行通道融合，按照通道减半的原则，传入两条路径处理和整合特征，最后再合拼在一起进行输出。

因为实施例的YOLOv4-tiny第一追求点是速度，在特征融合增强结构上，只是FPN特征金字塔的简陋版，整个特征金字塔只有两层，原自上而下的多尺度融合都没有，造成特征的提取和利用能力差。

针对上述特征的提取和利用能力差的缺陷，设计一个Detect Block的模块代替原YOLOv4-tiny的FPN后出来的卷积层。

具体地，Detect Block模块将输入的特征图按照通道分离到两条路径，一条路径进行特征提取，再与另一条路径通道合并，最后进行通道减半输出，为减少计算量和参数量，特征提取部分采用了可分离卷积的设计模式，通道先减少再恢复。

本实例的SPP MAX Mode模块和Detect Block模块地引入，不可避免地减缓了模型的检测速度，为了弥补速度方面地损失，在原CSPBlock模块内，用分组卷积和深度可分离卷积替换原每个单卷积。

步骤A5：针对本实例地特性，选择目前优秀的训练策略和技巧进行训练和提升模型性能。

可选地，针对数据集，采用Mosaic数据增强模块对数据集进行增强。

上述所述的方法包括每次读取四张图像，分别对四张图像进行翻转、缩放、色域变化等，并且按照四个方法位置摆好，然后进行图像的组合和框的组合。

可选地，针对标签，通过标签平衡模块块对所述目标检测模型的过拟合进行控制。

具体地，通过人为引入的一个固定分布和平滑因子，与原one-hot后的标签做乘积。

其中

为标签平滑操作后的样本标签，

为平滑因子，

是人为引入的一个固定分布（可以看作是为概率分布引入固定分布的噪声），并且由参数

控制相对权重。

其中

为当前样本属于类别i的概率，

指的是当前样本的对应类别 i的 logit，n 为样本类别总数，则我们可以得到交叉熵损失。

通过促使神经网络中进行Softmax激活函数激活之后的分类概率结果向正确分类靠近，即正确的分类概率输出大（对应的one-hot标签为1位置的Softmax概率大），并且同样尽可能的远离错误分类（对应的one-hot标签为0位置的Softmax概率小），即错误的分类概率输出小。

可选地，在训练策略中，还采取了学习率余弦退火衰减的步骤。学习率上升的时候使用线性上升，下降的时候模拟cos函数下降，执行多次，是一种十分有效的学习方式。其原理如下所示：

其中i表示第几次运行，

和

分别表示训练时的学习率的最大值和最小值，

表示当前执行了多少个迭代，

则表示第i次运行中总的迭代次数。

在YOLO中，将整个图像划分为SXS个格子，每个格子作为先验锚框的局部坐标，在格子内训练的网络预测的坐标偏移量、物体置信度和类别置信度对每个锚框分别进行拟合，最后经过非极大值抑制后得到检测框的坐标和类别，其损失函数等于：

其中

为第i个网格中第j个边界框的置信分数。

只是用来判别是否为目标的函数（0/1）,

和

分别为对象在第i个网格的第j个边界框中属于c类的预测概率和真概率。

可选地，本实例采用CIOU作为回归损失函数，且根据先验框调整后得到的预测框与真实框的距离、尺度确定所述回归损失函数：

其中

为预测框和实际框之间重叠区域的面积，

为预测框和实际框所占有的总区域面积。

为预测框和实际框的中心点的欧式距离，c为能够同时包含预测框和真实框的最小闭包区域的对角线距离，

是用于平衡比例的参数，

是衡量先验框和目标框 (真实框)之间比例一致性的参数。

其中公式中

的表达式如下：

公式中

的表达式如下：

其中

表示真实框(目标框)的宽，

表示真实框(目标框)的高，

表示先验框的宽，

表示先验框的高。

步骤A6：将训练好的目标检测模型进行剪枝处理：主要在通道剪枝上，选择剪枝率最高的策略，剪枝力度设定为0.8，对剪枝之后的模型采用前面同样的训练样本进行微调训练。

步骤A7：使用TensorRT前向推理，对网络结构进行垂直整合，即Conv、BN、Relu融合为一层；水平整合，即将输入为相同的张量和执行相同操作的融合在一起；减少Concat层，将Contact的输入直接送至下一步操作中，减少数据的传输吞吐。

步骤A8：图像经过物体检测模型后进行，把检测到物体传递给物体识别方法。

实施例2

构建匹配权值矩阵。

步骤B1、采集相关数据集。

把目标数据集分成两部分，一份是物体的大类数据集，另外一份为物体的小类数据集，分类标准可根据属性、外形、类别等去划分。

步骤B2、对目标数据集做关系处理。小类的物体和大类的物体建立关联，每个大类关联多个小类，大类和小类的关系是树形结构，如图6所示，形成关系分层图。

步骤B3、根据关系分层图，通过余弦相似度建立大类和小类匹配权值矩阵。

具体地余弦相似度为，

其中A，B为向量特征值，给出的相似度范围为 -1到1，-1意味着两个方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性，n为特征库中特征的数量。

实施例3

改造MobileNetv2识别网络，对目标物体进行分类。

Mobilenetv2的优势在于提出了Linear Bottleneck和Invered Residual。

Linear Bottleneck通过去掉Eltwise+的特征去掉ReLU，减少ReLU对特征的破坏，用linear bottleneck(即不使用ReLU激活，做了线性变换)的来代替原本的非线性激活变换。

上述的Invered Residual将3x3卷积变为了深度可分离卷积，计算量大幅度减少，可实现更多的通道设计，效果更好。通过 1 x 1卷积先提升通道数，再Depthwise的3x3空间卷积以及ReLU，通过增加ReLU的输入维度，来缓解特征的退化情况，最后用1x1卷积降低维度。

Mobilenetv2为了追求速度，部署到移动端，特征提取能力存在欠缺，为了弥补这个缺陷，本发明在Mobilenetv2的每一个bottleneck中引入注意力机制，如图5所示。

注意力机制在各种计算机视觉任务中都是有帮助，如图像分类和图像分割。其中最为经典和被熟知的便是SENet，它通过简单地squeeze每个2维特征图，进而有效地构建通道之间的相互依赖关系。SE Block虽然被广泛使用，然而，它只考虑通过建模通道关系来重新衡量每个通道的重要性，而忽略了位置信息，但是位置信息对于生成空间选择性attention maps是很重要的。

针对上述的缺点，引入Coordinate Attention Block，该模块不仅仅考虑了通道间的关系还考虑了特征空间的位置信息。

具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤。首先使用尺寸为(H,1)或(1,W)的pooling kernel分别沿着水平坐标和垂直坐标对每个通道进行编码，分别沿两个空间方向聚合特征，得到一对方向感知的特征图。将上面的变换进行concatenate操作，然后使用卷积变换函数对其进行变换操作里面控制通道的缩减率。然后沿着空间维数将分解为2个单独的张量和，利用另外2个卷积变换和分别将和变换为具有相同通道数的张量到输入，再用sigmoid函数进行激活，对输出和进行扩展分别作为attention weights，最后用attention weights获取原特征图的在通道上加权的方式融合。

把上述检测出的图像传入修改好的Mobilenetv2网络中，结合匹配权值矩阵，进行物品分类。

通过上述余弦相似度算法，获取检测物体和大类特征匹配度前五的类别和其大类匹配度的值，接着再去匹配5个大类中所有小类的特征，同样，根据小类匹配度的大小，获取每个小类前5个物体匹配的小类物体和小类匹配度的值。根据大类和小类的匹配结果，建立匹配权值矩阵，大类的匹配结果作为小类匹配结果的权重，两两相乘，选择匹配权值矩阵中最大的数，该数的大类别代表目标物体所属的类的类别，小类的归属代表该物体所属的小类。

本发明的有益效果是：

本发明的上述实施例并不是对本发明保护范围的限定，本发明的实施方式不限于此，凡此种种根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，对本发明上述结构做出的其它多种形式的修改、替换或变更，均应落在本发明的保护范围之内。

Claims

1.一种物体识别方法，其特征在于，包括：

物体检测，采集相关数据集，选择YOLOv4训练策略对YOLOv4-tiny模型进行训练，用训练好的YOLOv4-tiny模型对图像进行检测，提取检测到的目标物体，进行类别归类；

构建匹配权值矩阵，采集类别归类物体的目标数据集，并把目标数据集分成大类物体数据集和小类物体数据集，对目标数据集做关系处理，构成关系分层图，提取大类物体数据集和小类物体数据集的数据特征，通过特征的余弦相似度建立特征与特征之间的匹配度，建立匹配权值矩阵；

2.如权利要求1所述的物体识别方法，其特征在于：在物体检测时，相关数据集的采集方法为：通过多个相同或不同的视频源，在不同场景，不同时间下采集包含目标物体的视频。

3.如权利要求1所述的物体识别方法，其特征在于：在物体检测时，对采集的数据集使用图像标注工具对目标物体数据集的图像进行标定，并对采集的数据集进行数据增强，其中，

对目标物体数据集的图像进行标定的方法为：使用LabelImg工具对目标物体数据集的图像进行标定，并划分训练集、测试集、验证集。

4.如权利要求1所述的物体识别方法，其特征在于：在物体检测时，通过K-Means++聚类算法，对数据训练集中真实目标框计算出针对本数据集的不同大小的先验框。

5.如权利要求1所述的物体识别方法，其特征在于：在物体检测时，对YOLO v4-tiny模型中的网络进行增强，对CSPDarknet53-tiny的CSPBlock模块进行修改，减少其计算量，在YOLOv4-tiny模型的底部添加SPP的改造体SPP MAX Mode，把原侦测处理头部的卷积替换成Detect Block。

6.如权利要求5所述的物体识别方法，其特征在于：在物体检测时，使用的训练策略包括余弦退火机制和多尺度训练。

7.如权利要求1所述的物体识别方法，其特征在于：在物体检测时，对训练和测试完成的目标检测模型中进行剪枝处理。

8.如权利要求7所述的物体识别方法，其特征在于：在物体检测时，对剪枝后的模型采用TensorRT技术进行前向推理。

9.如权利要求1-8中任一项所述的物体识别方法，其特征在于：小类目标数据集和大类目标数据集的物体建立各种联系，构成关系分层图，建立特征匹配关系规则，每一个大类的特征对应多个小类特征，形成匹配权值矩阵。

10.如权利要求1-8中任一项所述的物体识别方法，其特征在于：改造MobileNetv2物体识别网络，添加Coordinate Attention Block的注意力机制，并对MobileNetv2特征提取网络进行训练，用训练好的MobileNetv2结合匹配权值矩阵对目标物体进行识别。