CN113657414A - 一种物体识别方法 - Google Patents

一种物体识别方法 Download PDF

Info

Publication number
CN113657414A
CN113657414A CN202111215518.3A CN202111215518A CN113657414A CN 113657414 A CN113657414 A CN 113657414A CN 202111215518 A CN202111215518 A CN 202111215518A CN 113657414 A CN113657414 A CN 113657414A
Authority
CN
China
Prior art keywords
data set
target
class
weight matrix
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111215518.3A
Other languages
English (en)
Other versions
CN113657414B (zh
Inventor
张元本
陈名国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weilin Software Co ltd
Original Assignee
Guangzhou Weilin Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weilin Software Co ltd filed Critical Guangzhou Weilin Software Co ltd
Priority to CN202111215518.3A priority Critical patent/CN113657414B/zh
Publication of CN113657414A publication Critical patent/CN113657414A/zh
Application granted granted Critical
Publication of CN113657414B publication Critical patent/CN113657414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种物体识别方法,包括:物体检测,采集相关数据集,对采集的数据集使用图像标注工具对目标物体数据集的图像进行标定,并对采集的数据集进行数据增强,提取检测到的目标物体,进行类别归类,把目标物体类别分成大类和小类;对目标数据集做关系处理,构成关系分层图,通过关系分层图和余弦相似度构建大类和小类匹配权值矩阵,经过物体识别网络和匹配权值矩阵去确认物体的类别和物体;该物体识别方法识别准确,能够识别多个不定类别的物体。

Description

一种物体识别方法
技术领域
本发明涉及一种物体识别方法。
背景技术
目标检测与识别是计算机视觉领域的一个基本问题,在非受控自然场景中快速准确的定位和识别特定目标是许多人工智能应用场景的重要功能基础。
近年来,随着深度学习技术的快速发展,基于卷积神经网络的目标检测算法获得了关注和广泛研究,出现了很大性能优良、简介高效的网络结构,使算法的大规模事件应用成为可能。
目前学术和工业界出现的目标检测算法分为3类。
第一种是传统的目标检测算法。基于滑动窗口进行目标的确认,常规用Cascade +Harr、 SVM + HOG 、DPM 等算法,其时间复杂度高,而且没有针对性,鲁棒性差,不能实现对目标在复杂环境下的准确检测,同时在实时性方面也存在问题。
第二种是提取候选区域和目标分类。这种我们经常称此为Two-stage网络,其代表有RCNN、Fast-RCNN、Faster-RCNN、R-FCN 等系列方法。首先产生候选区域,然后对候选区域分类,最后对位置精细修正,其具有精度高,但速度慢、实时性差的特点,无法应用于工业场景。
第三种是基于候选窗口的回归方法。称其为One-stage网络,代表有YOLO、SSD、DenseBox 等方法,物体的分类与预测框的回归同时进行,是端到端的模型结构。具有网络模型参数相对较少,在速度表现优越,但是准确性稍低的特点。特别是YOLO(You Look OnlyOnce)系列,到2020年,已经更新到了第四代算法YOLO v4,在保持识别速度的基础上已经能达到较高的的识别精度,尤其轻量级网络YOLO v4-tiny系列,模型参数量较少,速度较快,适用于非常多的工业场景,但精度方面还待提升。
虽然目前目标识别算法已经能做到高识别和高速度,但物体的识别种类还是有限,像基于多层级分层结构的YOLO9000能识别9000种物体,但缺乏灵活性和可扩展性,不能随时随意的识别任意的物品。
发明内容
针对现有技术中的不足,本发明的目的是提供一种识别准确,能够识别多个不定类别的物体的物体识别方法。
本发明解决其技术问题所采用的技术方案是:
一种物体识别方法,包括:
物体检测,采集相关数据集,对采集的数据集使用图像标注工具对目标物体数据集的图像进行标定,并对采集的数据集进行数据增强,选择YOLOv4训练策略对YOLOv4-tiny模型进行训练,用训练好的YOLOv4-tiny模型对图像进行检测,提取检测到的目标物体,进行类别归类;
匹配权值矩阵,采集类别归类物体的目标数据集,并把目标数据集分成大类物体数据集和小类物体数据集,对目标数据集做关系处理,构成关系分层图,提取大类物体数据集和小类物体数据集的数据特征,通过特征的余弦相似度建立特征与特征之间的匹配度,建立匹配权值矩阵;
物体识别,改造MobileNetv2识别网络,提取物体特征结合匹配权值矩阵去确认物体的类别和物体。
进一步的,在物体检测时,相关数据集的采集方法为:通过多个相同或不同的视频源,在不同场景,不同时间下采集包含目标物体的视频。
进一步的,在物体检测时,对目标物体数据集的图像进行标定的方法为:使用LabelImg工具对目标物体数据集的图像进行标定,并划分训练集、测试集、验证集。
进一步的,在物体检测时,通过K-Means++聚类算法,对数据训练集中真实目标框计算出针对本数据集的不同大小的先验框。
进一步的,在物体检测时,对YOLO v4-tiny模型中的网络进行增强,对CSPDarknet53-tiny的CSPBlock模块进行修改,减少其计算量,在YOLOv4-tiny模型的底部添加SPP的改造体SPP MAX Mode,把原侦测处理头部的卷积替换成Detect Block。
进一步的,在物体检测时,使用的训练策略包括余弦退火机制和多尺度训练。
进一步的,在物体检测时,对训练和测试完成的目标检测模型中进行剪枝处理。
进一步的,在物体检测时,对剪枝后的模型采用TensorRT技术进行前向推理。
进一步的,在构建匹配权值矩阵时,采集相关数据集,把目标数据集分成两部分,一份是物体的大类数据集,另外一份为物体的小类数据集,分类标准可根据属性、外形、类别等去划分。
进一步的,在构建匹配权值矩阵时,对目标数据集做关系处理。把检测提取出的小类目标数据集和大类目标数据集的物体建立各种联系,构成关系分层图。
进一步的,在构建匹配权值矩阵时,根据关系分层图,建立特征匹配关系规则,每一个大类的特征对应多个小类特征,通过余弦相似度建立匹配权值矩阵。
进一步的,物体识别时,改造MobileNetv2识别网络,添加Coordinate AttentionBlock的注意力机制,对MobileNetv2物体识别网络进行训练。用训练好的MobileNetv2结合匹配权值矩阵实现对物体的识别。
本发明的有益效果是:
通过物体检测方法、匹配权值矩阵方法、物体识别方法,形成一套物体识别的系统,实现对物体和物体类别的判别,在鲁棒性上,结合物体检测,作为一种先验,准确获取物体的位置,然后对检测的物体识别,实现不定类别甚至是单物品类别的识别;借助目标检测和匹配权值矩阵、获得视频帧序列中目标物体,通过识别目标物体间的差异和匹配,从而确定物体的类别和物体。
附图说明
图1为本发明的实施例1的示例性系统架构图;
图2为本发明的实施例1的目标检测模型图;
图3为本发明的实施例1的进行修改后的目标检测模型图第一部分;
图4为本发明的实施例1的进行修改后的目标检测模型图第二部分;
图5为本发明的实施例3的注意力模块图;
图6为本发明的实施例2的物体类别关系分层图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例1
结合图1显示,本实例提供一种基于视觉的物体识别方法和系统,包括三个部分:物体检测,匹配权值矩阵、物体识别。
优选地,物体检测方法,包括:
步骤A1:通过在不同的环境场景和不同天气,不同光照下,传感器、红外线等机制采集到目标视频流,借助多媒体处理工具(如FFmpeg)对目标视频进行抽帧处理,得到多个图像帧序列。
步骤A2-1:对采集的多图像帧序列进行预处理,预处理方法不限于过滤、筛选、剪裁、拼接、高斯噪声和模糊处理,经过预处理的目标物体图像构成目标物体数据集。
步骤A2-2:使用目标检测常用的标注工具Labelimg对图像中需要检测的目标物体进行标注。
步骤A3:通过K-Means++聚类算法,对数据集中真实目标框计算出针对本数据集的不同大小的先验框大小。
上述K-Means++聚类算法具体实施过程:
①将标注的Bounding Box四角的坐标转换为长宽信息,具体为:用边界框右下角点横坐标减去左上角横坐标得到边界框的长,右下角纵坐标减去左上角纵坐标得到边界框的宽。
②先随机从Bounding Box中选择一个边界框,计算边界框和锚框的距离,然后按照轮盘法选择下一个锚框,选取的原则是:距离较大的点,有较大的概率被选取。
③重复上述步骤②,直到K个锚框被选出。
④该示例中K-Means++用到的距离用交并比值IOU代替,公式如下:
Figure 859875DEST_PATH_IMAGE001
式中:box 表示边界框,centroid 表示锚框。
⑤分别计算所有Bounding Box与K个锚框的距离,对于每个边界框,按照距离进行排序,将该边界框归类到最小距离的锚框中去,整个Bounding Box分为K类。
⑥对K类的Bounding Box中每一类的边界框进行长宽统计,求长宽均值作为作为新的锚框长宽,共生产K个新的锚框。
⑦重复上述步骤②到步骤⑥,直至边界框的分类不再发生变化或达到阈值,完成边界框的聚类。
在本发明的目标检测中,采用YOLO系列作为检测模型,如图2所示,采用了YOLOv4-tiny框架网络,该网络包括特征提取主体网络、特征融合增强网络,特征检测网络。
特征提取主体网络,采用了CSPDarkNet53-tiny的构架,其输入通道3的图像,为了满足32倍差的比例,会对原生图像进行等比例的缩放,之后为了保证图像不失真,不改变图像的边长比,在长边上下或左右扩充灰色区域。在网络的主干道上,把原YOLOv3的残差块结构改成CSPNet结构,将经过基础卷积层处理后的特征图按通道对半选入一条路径,该路径进行残差提取特征操作,接着与原特征图叠加在一起,再转化操作,该操作可以增强CNN的学习能力,能够在轻量化的同时保持准确性、降低计算瓶颈、降低内存成本。多次采用经过CSPNet改进的残差块来进行卷积,最终特征提取的两个结果就是后续加强特征提取网络的输入。
在YOLOv4-tiny特征融合增强网络中,采用了简易版本的FPN图像金字塔加强特征之间的融合,底层的特征层上采样与CSPNet最上层的的结果叠加在一起,再输出到特征检测网络。
上述实施例,特征检测网络,由两个YOLOHead组成,提取到的特征进行结果的预测,主要就是一个3*3的卷积,一个1*1的卷积的组合。
步骤A4:针对YOLOv4-tiny 特征提取能力不强的特点,在YOLOv4-tiny框架的最底层中嵌入SPP MAX Mode机制、把YOLOHead卷积替换成Detect Block模块、修改主体的CSPBlock模块,如图3-4所示。
本发明的SPP MAX Mode模块的原始构造为SPP,SPP作为一个优秀的增加卷积核感受野的插件,被应用在各种优秀的目标检测网络中,不需要指定输入图像的尺寸或比例,就能够生成固定大小的特征,再送到全连接层。基于以上的研究,提取一个SPP MAX Mode,在扩展卷积核感受野的同时,进行多尺度的特征融合,以获得更多有限的局部信息。
具体地,SPP MAX Mode模块,使用小(5x5)、中(9x9)、大(13x13)三种不同尺度的最大池化窗口分别作用于传入的卷积特征,然后把输入特征图和经过最大池化后的局部尺寸特征图进行通道融合,按照通道减半的原则,传入两条路径处理和整合特征,最后再合拼在一起进行输出。
因为实施例的YOLOv4-tiny第一追求点是速度,在特征融合增强结构上,只是FPN特征金字塔的简陋版,整个特征金字塔只有两层,原自上而下的多尺度融合都没有,造成特征的提取和利用能力差。
针对上述特征的提取和利用能力差的缺陷,设计一个Detect Block的模块代替原YOLOv4-tiny的FPN后出来的卷积层。
具体地,Detect Block模块将输入的特征图按照通道分离到两条路径,一条路径进行特征提取,再与另一条路径通道合并,最后进行通道减半输出,为减少计算量和参数量,特征提取部分采用了可分离卷积的设计模式,通道先减少再恢复。
本实例的SPP MAX Mode模块和Detect Block模块地引入,不可避免地减缓了模型的检测速度,为了弥补速度方面地损失,在原CSPBlock模块内,用分组卷积和深度可分离卷积替换原每个单卷积。
步骤A5:针对本实例地特性,选择目前优秀的训练策略和技巧进行训练和提升模型性能。
可选地,针对数据集,采用Mosaic数据增强模块对数据集进行增强。
上述所述的方法包括每次读取四张图像,分别对四张图像进行翻转、缩放、色域变化等,并且按照四个方法位置摆好,然后进行图像的组合和框的组合。
可选地,针对标签,通过标签平衡模块块对所述目标检测模型的过拟合进行控制。
具体地,通过人为引入的一个固定分布和平滑因子,与原one-hot后的标签做乘积。
Figure 777015DEST_PATH_IMAGE002
其中
Figure 291173DEST_PATH_IMAGE003
为标签平滑操作后的样本标签,
Figure 686383DEST_PATH_IMAGE004
为平滑因子,
Figure 218864DEST_PATH_IMAGE005
是人为引入的一个固 定分布(可以看作是为概率分布引入固定分布的噪声),并且由参数
Figure 41326DEST_PATH_IMAGE004
控制相对权重。
Figure 308360DEST_PATH_IMAGE006
其中
Figure 179364DEST_PATH_IMAGE007
为当前样本属于类别i的概率,
Figure 848242DEST_PATH_IMAGE008
指的是当前样本的对应类别 i的 logit,n 为样本类别总数,则我们可以得到交叉熵损失。
Figure 841606DEST_PATH_IMAGE009
通过促使神经网络中进行Softmax激活函数激活之后的分类概率结果向正确分类靠近,即正确的分类概率输出大(对应的one-hot标签为1位置的Softmax概率大),并且同样尽可能的远离错误分类(对应的one-hot标签为0位置的Softmax概率小),即错误的分类概率输出小。
可选地,在训练策略中,还采取了学习率余弦退火衰减的步骤。学习率上升的时候使用线性上升,下降的时候模拟cos函数下降,执行多次,是一种十分有效的学习方式。其原理如下所示:
Figure 330356DEST_PATH_IMAGE010
其中i表示第几次运行,
Figure 67368DEST_PATH_IMAGE011
Figure 590753DEST_PATH_IMAGE012
分别表示训练时的学习率的最大值和最 小值,
Figure 738707DEST_PATH_IMAGE013
表示当前执行了多少个迭代,
Figure 980332DEST_PATH_IMAGE014
则表示第i次运行中总的迭代次数。
在YOLO中,将整个图像划分为SXS个格子,每个格子作为先验锚框的局部坐标,在格子内训练的网络预测的坐标偏移量、物体置信度和类别置信度对每个锚框分别进行拟合,最后经过非极大值抑制后得到检测框的坐标和类别,其损失函数等于:
Figure 255456DEST_PATH_IMAGE015
其中
Figure 898927DEST_PATH_IMAGE016
为第i个网格中第j个边界框的置信分数。
Figure 906197DEST_PATH_IMAGE017
只是用来判别是否为目标 的函数(0/1),
Figure 635119DEST_PATH_IMAGE018
Figure 713933DEST_PATH_IMAGE019
分别为对象在第i个网格的第j个边界框中属于c类的预 测概率和真概率。
可选地,本实例采用CIOU作为回归损失函数,且根据先验框调整后得到的预测框与真实框的距离、尺度确定所述回归损失函数:
Figure 680752DEST_PATH_IMAGE020
其中
Figure 452399DEST_PATH_IMAGE021
为预测框和实际框之间重叠区域的面积,
Figure 403038DEST_PATH_IMAGE021
为预测框和实际 框所占有的总区域面积。
Figure 285543DEST_PATH_IMAGE022
为预测框和实际框的中心点的欧式距离,c为能够同时包含预测框和 真实框的最小闭包区域的对角线距离,
Figure 615856DEST_PATH_IMAGE023
是用于平衡比例的参数,
Figure 558404DEST_PATH_IMAGE024
是衡量先验框和目标框 (真实框)之间比例一致性的参数。
其中公式中
Figure 996339DEST_PATH_IMAGE023
的表达式如下:
Figure 416956DEST_PATH_IMAGE025
公式中
Figure 358367DEST_PATH_IMAGE024
的表达式如下:
Figure 471816DEST_PATH_IMAGE026
其中
Figure 397047DEST_PATH_IMAGE027
表示真实框(目标框)的宽,
Figure 293459DEST_PATH_IMAGE028
表示真实框(目标框)的高,
Figure 354956DEST_PATH_IMAGE029
表示先 验框的宽,
Figure 639307DEST_PATH_IMAGE030
表示先验框的高。
步骤A6:将训练好的目标检测模型进行剪枝处理:主要在通道剪枝上,选择剪枝率最高的策略,剪枝力度设定为0.8,对剪枝之后的模型采用前面同样的训练样本进行微调训练。
步骤A7:使用TensorRT前向推理,对网络结构进行垂直整合,即Conv、BN、Relu融合为一层;水平整合,即将输入为相同的张量和执行相同操作的融合在一起;减少Concat层,将Contact的输入直接送至下一步操作中,减少数据的传输吞吐。
步骤A8:图像经过物体检测模型后进行,把检测到物体传递给物体识别方法。
实施例2
构建匹配权值矩阵。
步骤B1、采集相关数据集。
把目标数据集分成两部分,一份是物体的大类数据集,另外一份为物体的小类数据集,分类标准可根据属性、外形、类别等去划分。
步骤B2、对目标数据集做关系处理。小类的物体和大类的物体建立关联,每个大类关联多个小类,大类和小类的关系是树形结构,如图6所示,形成关系分层图。
步骤B3、根据关系分层图,通过余弦相似度建立大类和小类匹配权值矩阵。
具体地余弦相似度为,
Figure 769943DEST_PATH_IMAGE031
其中A,B为向量特征值,给出的相似度范围为 -1到1,-1意味着两个方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性,n为特征库中特征的数量。
实施例3
改造MobileNetv2识别网络,对目标物体进行分类。
Mobilenetv2的优势在于提出了Linear Bottleneck和Invered Residual。
Linear Bottleneck通过去掉Eltwise+的特征去掉ReLU,减少ReLU对特征的破坏,用linear bottleneck(即不使用ReLU激活,做了线性变换)的来代替原本的非线性激活变换。
上述的Invered Residual将3x3卷积变为了深度可分离卷积,计算量大幅度减少,可实现更多的通道设计,效果更好。通过 1 x 1卷积先提升通道数 ,再Depthwise的3x3空间卷积以及ReLU,通过增加ReLU的输入维度,来缓解特征的退化情况,最后用1x1卷积降低维度。
Mobilenetv2为了追求速度,部署到移动端,特征提取能力存在欠缺,为了弥补这个缺陷,本发明在Mobilenetv2的每一个bottleneck中引入注意力机制,如图5所示。
注意力机制在各种计算机视觉任务中都是有帮助,如图像分类和图像分割。其中最为经典和被熟知的便是SENet,它通过简单地squeeze每个2维特征图,进而有效地构建通道之间的相互依赖关系。SE Block虽然被广泛使用,然而,它只考虑通过建模通道关系来重新衡量每个通道的重要性,而忽略了位置信息,但是位置信息对于生成空间选择性attention maps是很重要的。
针对上述的缺点,引入Coordinate Attention Block,该模块不仅仅考虑了通道间的关系还考虑了特征空间的位置信息。
具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤。首先使用尺寸为(H,1)或(1,W)的pooling kernel分别沿着水平坐标和垂直坐标对每个通道进行编码,分别沿两个空间方向聚合特征,得到一对方向感知的特征图。将上面的变换进行concatenate操作,然后使用卷积变换函数对其进行变换操作里面控制通道的缩减率。然后沿着空间维数将分解为2个单独的张量和,利用另外2个卷积变换和分别将和变换为具有相同通道数的张量到输入,再用sigmoid函数进行激活,对输出和进行扩展分别作为attention weights,最后用attention weights获取原特征图的在通道上加权的方式融合。
把上述检测出的图像传入修改好的Mobilenetv2网络中,结合匹配权值矩阵,进行物品分类。
通过上述余弦相似度算法,获取检测物体和大类特征匹配度前五的类别和其大类匹配度的值,接着再去匹配5个大类中所有小类的特征,同样,根据小类匹配度的大小,获取每个小类前5个物体匹配的小类物体和小类匹配度的值。根据大类和小类的匹配结果,建立匹配权值矩阵,大类的匹配结果作为小类匹配结果的权重,两两相乘,选择匹配权值矩阵中最大的数,该数的大类别代表目标物体所属的类的类别,小类的归属代表该物体所属的小类。
本发明的有益效果是:
通过物体检测方法、匹配权值矩阵方法、物体识别方法,形成一套物体识别的系统,实现对物体和物体类别的判别,在鲁棒性上,结合物体检测,作为一种先验,准确获取物体的位置,然后对检测的物体识别,实现不定类别甚至是单物品类别的识别;借助目标检测和匹配权值矩阵、获得视频帧序列中目标物体,通过识别目标物体间的差异和匹配,从而确定物体的类别和物体。
本发明的上述实施例并不是对本发明保护范围的限定,本发明的实施方式不限于此,凡此种种根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,对本发明上述结构做出的其它多种形式的修改、替换或变更,均应落在本发明的保护范围之内。

Claims (10)

1.一种物体识别方法,其特征在于,包括:
物体检测,采集相关数据集,选择YOLOv4训练策略对YOLOv4-tiny模型进行训练,用训练好的YOLOv4-tiny模型对图像进行检测,提取检测到的目标物体,进行类别归类;
构建匹配权值矩阵,采集类别归类物体的目标数据集,并把目标数据集分成大类物体数据集和小类物体数据集,对目标数据集做关系处理,构成关系分层图,提取大类物体数据集和小类物体数据集的数据特征,通过特征的余弦相似度建立特征与特征之间的匹配度,建立匹配权值矩阵;
物体识别,改造MobileNetv2识别网络,提取物体特征结合匹配权值矩阵去确认物体的类别和物体。
2.如权利要求1所述的物体识别方法,其特征在于:在物体检测时,相关数据集的采集方法为:通过多个相同或不同的视频源,在不同场景,不同时间下采集包含目标物体的视频。
3.如权利要求1所述的物体识别方法,其特征在于:在物体检测时,对采集的数据集使用图像标注工具对目标物体数据集的图像进行标定,并对采集的数据集进行数据增强,其中,
对目标物体数据集的图像进行标定的方法为:使用LabelImg工具对目标物体数据集的图像进行标定,并划分训练集、测试集、验证集。
4.如权利要求1所述的物体识别方法,其特征在于:在物体检测时,通过K-Means++聚类算法,对数据训练集中真实目标框计算出针对本数据集的不同大小的先验框。
5.如权利要求1所述的物体识别方法,其特征在于:在物体检测时,对YOLO v4-tiny模型中的网络进行增强,对CSPDarknet53-tiny的CSPBlock模块进行修改,减少其计算量,在YOLOv4-tiny模型的底部添加SPP的改造体SPP MAX Mode,把原侦测处理头部的卷积替换成Detect Block。
6.如权利要求5所述的物体识别方法,其特征在于:在物体检测时,使用的训练策略包括余弦退火机制和多尺度训练。
7.如权利要求1所述的物体识别方法,其特征在于:在物体检测时,对训练和测试完成的目标检测模型中进行剪枝处理。
8.如权利要求7所述的物体识别方法,其特征在于:在物体检测时,对剪枝后的模型采用TensorRT技术进行前向推理。
9.如权利要求1-8中任一项所述的物体识别方法,其特征在于:小类目标数据集和大类目标数据集的物体建立各种联系,构成关系分层图,建立特征匹配关系规则,每一个大类的特征对应多个小类特征,形成匹配权值矩阵。
10.如权利要求1-8中任一项所述的物体识别方法,其特征在于:改造MobileNetv2物体识别网络,添加Coordinate Attention Block的注意力机制,并对MobileNetv2特征提取网络进行训练,用训练好的MobileNetv2结合匹配权值矩阵对目标物体进行识别。
CN202111215518.3A 2021-10-19 2021-10-19 一种物体识别方法 Active CN113657414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111215518.3A CN113657414B (zh) 2021-10-19 2021-10-19 一种物体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111215518.3A CN113657414B (zh) 2021-10-19 2021-10-19 一种物体识别方法

Publications (2)

Publication Number Publication Date
CN113657414A true CN113657414A (zh) 2021-11-16
CN113657414B CN113657414B (zh) 2022-02-11

Family

ID=78484233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111215518.3A Active CN113657414B (zh) 2021-10-19 2021-10-19 一种物体识别方法

Country Status (1)

Country Link
CN (1) CN113657414B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863554A (zh) * 2022-04-08 2022-08-05 哈尔滨工程大学 一种基于深度学习模型的手语识别系统和方法
CN114998220A (zh) * 2022-05-12 2022-09-02 湖南中医药大学 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464910A (zh) * 2020-12-18 2021-03-09 杭州电子科技大学 一种基于YOLO v4-tiny的交通标志识别方法
CN112487915A (zh) * 2020-11-25 2021-03-12 江苏科技大学 一种基于Embedded YOLO算法的行人检测方法
CN113065495A (zh) * 2021-04-13 2021-07-02 深圳技术大学 图像相似度的计算方法、目标对象重识别方法及系统
WO2021169723A1 (zh) * 2020-02-27 2021-09-02 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN113469953A (zh) * 2021-06-10 2021-10-01 南昌大学 一种基于改进YOLOv4算法的输电线路绝缘子缺陷检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169723A1 (zh) * 2020-02-27 2021-09-02 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN112487915A (zh) * 2020-11-25 2021-03-12 江苏科技大学 一种基于Embedded YOLO算法的行人检测方法
CN112464910A (zh) * 2020-12-18 2021-03-09 杭州电子科技大学 一种基于YOLO v4-tiny的交通标志识别方法
CN113065495A (zh) * 2021-04-13 2021-07-02 深圳技术大学 图像相似度的计算方法、目标对象重识别方法及系统
CN113469953A (zh) * 2021-06-10 2021-10-01 南昌大学 一种基于改进YOLOv4算法的输电线路绝缘子缺陷检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
史梦安等: "《基于YOLO-tiny-RFB 模型的电站旋钮开关状态识别》", 《计算机应用》 *
王兵等: "《改进YOLO轻量化网络的口罩检测算法》", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863554A (zh) * 2022-04-08 2022-08-05 哈尔滨工程大学 一种基于深度学习模型的手语识别系统和方法
CN114998220A (zh) * 2022-05-12 2022-09-02 湖南中医药大学 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法

Also Published As

Publication number Publication date
CN113657414B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
US11830246B2 (en) Systems and methods for extracting and vectorizing features of satellite imagery
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN113657414B (zh) 一种物体识别方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN108230330B (zh) 一种快速的高速公路路面分割和摄像机定位的方法
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
Liu et al. Survey of road extraction methods in remote sensing images based on deep learning
CN113361533A (zh) 重叠遮挡的目标物的分割识别方法及系统
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
CN111738164B (zh) 一种基于深度学习的行人检测方法
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
Gao et al. Road extraction using a dual attention dilated-linknet based on satellite images and floating vehicle trajectory data
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
INTHIYAZ et al. YOLO (YOU ONLY LOOK ONCE) Making Object detection work in Medical Imaging on Convolution detection System.
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant