CN113989702A - 一种目标识别方法和装置 - Google Patents

一种目标识别方法和装置 Download PDF

Info

Publication number
CN113989702A
CN113989702A CN202111195125.0A CN202111195125A CN113989702A CN 113989702 A CN113989702 A CN 113989702A CN 202111195125 A CN202111195125 A CN 202111195125A CN 113989702 A CN113989702 A CN 113989702A
Authority
CN
China
Prior art keywords
target
face
detection
module
video image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111195125.0A
Other languages
English (en)
Inventor
蓝金辉
李彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shunde Graduate School of USTB
Original Assignee
Shunde Graduate School of USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shunde Graduate School of USTB filed Critical Shunde Graduate School of USTB
Priority to CN202111195125.0A priority Critical patent/CN113989702A/zh
Publication of CN113989702A publication Critical patent/CN113989702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B7/00Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00
    • G08B7/06Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00 using electric transmission, e.g. involving audible and visible signalling through the use of sound and light sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标识别方法,包括以下步骤:构建目标数据集,包含目标物的视频图像;采集视频图像,其中包含检测对象,通过剪切波域变化去噪算法对获取的视频图像进行预处理;利用目标检测网络对预处理后的视频图像进行物品、姿态和人脸检测,获得符合目标物类型的像素信息;所述目标检测网络为多尺度残差密集连接yolo检测网络(MRD‑YOLO),由多尺度密集连接模块与空间金字塔模块组成特征提取网络;利用深度残差网络实时人脸识别算法,将获取到的人脸特征信息与目标人脸数据库进行比对,判断是否为目标人脸;实时显示检测结果并报警。本申请还包含实现所述方法的装置。本申请提升目标检测的精度和实时性,达到对目标及物品实时检测及预警的目的。

Description

一种目标识别方法和装置
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种安防目标识别方法和装置。
背景技术
在人流量较多的场所,例如校园,存在周边环境复杂、学生安全意识薄弱、安全设备运用不足等问题,导致安防低效、预防不到位、事故多发。目前校园安防系统正在不断发展,相关设施设备也进行了革新,虽然起到了一定积极的作用,但是还未能实现实时预警、目标甄别、目标定位等实际效果。
目前商用安防机器人多是半自主、自主或者在人类完全控制下协助人类完成安全防护工作的机器人,用来解决安全隐患、巡逻监控及灾情预警等,缺少对信息的主动分析的能力,不具有识别目标以及实时定位功能,安防效率低。
目前,主要通过安检识别以及保安等搜寻者巡逻查看的方式发现物品。然而实践发现,安检识别一般需要在固定位置(如公共场所入口)进行检查,覆盖范围较小,容易被规避;而搜寻者巡逻查看则需要耗费大量人力,效率较低,且容易漏检。因此,设计出一种适合安防的目标识别方法及系统,提升目标检测的精度和实时性,达到对目标及物品实时检测及预警,是需要解决的技术问题。
发明内容
针对上述技术中存在的不足之处,本发明提供一种目标识别方法及系统,尤其适用于校园等人流量多场所实施安防,目的是提升目标检测的精度和实时性,实现对目标及物品实时检测及预警。
本申请的实施例提出一种目标识别方法,包括以下步骤:
构建目标数据集,包含目标物的视频图像;
采集视频图像,其中包含检测对象,通过剪切波域变化去噪算法对获取的视频图像进行预处理;
用目标检测网络对预处理后的视频图像进行物品、姿态和人脸检测,获得符合目标物类型的像素信息;所述目标检测网络,通过密接连接方式将多尺度残差模块与卷积模块连接起来形成多尺度密集连接模块,并结合空间金字塔池化模块形成特征提取网络,快速提取目标不同尺度特征信息;
利用深度残差网络实时人脸识别算法,将获取到的人脸特征信息与目标人脸数据库进行比对,判断是否为目标人脸;
实时显示目标检测结果并报警。
优选地,所述通过剪切波域变化去噪算法对获取的视频图像进行预处理,进一步包括以下步骤:
对获取的视频图像经过剪切波变换得到低频部分和高频部分;
通过改进的伽玛校正调整低频分量的系数以调整图像对比度;
通过自适应阈值来处理图像的高频部分以抑制噪声。
优选地,通过所述目标检测网络对带有标注信息的视频图像物品目标检测数据集进行调参、迭代训练,获得最优网络权重模型;
利用所述目标检测网络在所述最优权重模型的配置下对预处理后的视频图像进行物品、姿态和人脸检测并用边框定位,通过非极大值抑制(NMS)算法,消除冗余框,找到最佳的物体检测位置;通过损失函数引入预测框的中心点距离比值惩罚项与预测框的宽高之比惩罚项,提高损失函数的收敛速度和模型的稳定性。
优选地,所述通过密接连接方式将多尺度残差模块与卷积模块连接起来形成多尺度密集连接模块,进一步包含:
多尺度残差模块通过拆分混合连接结构,在一个残差块内构造分层的类残差连接,将特征图平均分割成四个特征分割层,每一个特征分割层接收上一层特征信息后,通过3×3卷积操作进行不同尺度的特征融合;
采用密集连接方式将3×3卷积模块与多尺度残差模块连接,每一层都能获得前面的所有层输入,并将自己的特征映射传递给后面的所有层,通过张量拼接进行特征融合。
进一步优选地,所述非极大值抑制算法,在高斯加权的Soft-NMS算法基础上引入预测框的中心距离比值惩罚项,设定目标框的置信度阈值,选取置信度最高的预测框,并计算与其他预测框的交并比值,删除大于阈值的预测框,消除冗余框,引入预测框的中心距离比值惩罚项,找到最佳的物体检测位置。
进一步优选地,所述损失函数,由三部分组成:边界框回归损失函数计算目标边界框的重叠面积、中心点距离和宽高之比误差;置信度损失函数使用交叉熵计算预测框内有目标置信程度和预测框内包括目标的所有特征置信程度;分类损失函数使用交叉熵计算预测类别的误差。
进一步优选地,所述利用深度残差网络实时人脸识别算法,将获取到的人脸特征信息与目标人脸数据库进行比对,判断是否为目标人脸,进一步包含以下步骤:
通过目标检测网络对视频图像的检测结果,得到人脸在视频图像中的像素位置;
将获取到的人脸在视频图像上的像素位置传给深度残差网络进行实时人脸识别,得到128维人脸特征向量与目标人脸特征进行欧氏距离匹配,设定阈值判断是否为目标,并通过最近邻分类器返回人脸标签。
本申请实施例还提出一种目标识别系统,用于实现本申请任意一项实施例所述方法,所述系统包含视频流数据采集模块、神经网络训练模块、图像处理与检测模块、检测结果反馈模块和报警模块。
所述视频流数据采集模块,用于获取实时视频图像,并将采集到的视频流传输到图像处理与检测模块。
所述神经网络训练模块,用于使用目标检测网络对目标数据集进行调参、训练,最终生成相应的最优网络权重模型。
所述图像处理与检测模块,用于:部署目标检测网络,并将所述最优网络权重模型移植到嵌入式硬件平台上;将视频流数据采集模块传输过来的视频图像传入到目标检测网络中,目标检测网络在最优权重模型的配置下对该图像进行物品、姿态及人脸检测并用边框定位,将获取到的人脸在视频图像上的像素位置传给深度残差网络进行实时人脸识别,得到人脸特征向量与目标人脸特征进行欧氏距离匹配,设定阈值判断是否为目标人脸,并通过最近邻分类器返回人脸标签;最终将物品及目标人脸检测结果输入到检测反馈模块及报警模块中,进行实时检测结果展示及通过声光蜂鸣器进行报警。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本发明针对复杂背景下可疑人员及物品存在遮挡识别困难以及原图像中包含有大量的噪声,提出剪切波域变化去噪算法对获取的视频图像进行预处理,最大程度抑制噪声;针对小目标检测不足以及无法实时对目标进行检测的问题,提出了一种多尺度残差密集连接结构,与空间金字塔池化结构相结合作为特征提取网络(即MRD-YOLO),在融合不同尺度特征的同时加快特征提取速度;针对距离较近目标的漏检测问题,提出了一种改进的非极大值抑制算法(即 SD-NMS),在非极大值置信度衰减的同时引入两物体的中心距离的惩罚项,有效减少物体的漏检测;针对人脸无法实时检测识别问题,提出深度残差网络实时人脸识别算法,将获取到的人脸在视频图像上的像素位置传给深度残差网络进行实时人脸识别,得到128维人脸特征向量与目标人脸特征进行欧氏距离匹配,设定阈值判断是否为目标,并通过最近邻分类器返回人脸标签。本发明可对复杂公共环境下目标进行实时在线检测识别,例如在校园安防中实施本身很轻的目标识别方法及系统可以提升校园安防水平,保障师生的人身财产安全。本申请的方法和技术可以推广到安保、消防、刑侦以及国防等方面,在安全防护、交通监管领域和医护、服务等行业具有很广阔的应用前景。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例提供的一种目标识别方法的流程图;
图2是本发明实施例提供的剪切波域变化去噪算法流程图;
图3是本发明实施例提供的深度残差网络实时人脸识别算法流程图;
图4是本发明实施例提供的一种目标识别系统的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本发明实施例提供的一种目标识别方法的流程图,包括步骤11~15,以下具体说明。
步骤11、采集数据,构建目标数据集;
通过摄像头获取视频图像,包含目标物的视频图像。
所述目标物,包含发射弹丸装置、有刃器械(细分为细长器具和厨具)、细长直物体、人脸、人体冲突、下肢冲突和人体卧地等类别,每类图片占据总数据集的比例较为均衡,其中发射弹丸装置、有刃器械、细长直物体为物品,人体冲突、下肢冲突、人体卧地为姿态。
需要说明的是:在上述的目标物类别中的物品、姿态为涉及公共安全的特定目标物;目标物类别中的人脸为一般人脸对象。
在一个具体的实施例中,目标数据集包括在校园中收集的6563张目标图像和通过互联网爬行工具获取的1931张目标图像。通过对校园安全事件进行分析,总结出校园中可能出现的几类常见的目标。
通过控制智能小车搭载NVIDIA Jetson AGX Xavier嵌入式GPU开发平台以及工业摄像头在校园中多个场景下进行目标采样,收集到的视频图像都是在自然环境中进行的,包括:不同的目标物,不同的场景、不同的拍摄距离,不同的行进速度以及不同的环境条件等。
视频以固定的时间间隔被截取为多幅图像,并对获取的图像进行筛选,使用Labeling手动标记采集到的目标数据集,标签信息(包括边界框和对象类别的位置信息)以PASCAL VOC的格式保存。随机选取80%的目标数据作为训练集,20%作为测试集。从而完成目标数据集的收集和制作。
步骤12、实时采集视频图像,其中包含检测对象的视频信息,通过剪切波域变化去噪算法对获取的视频图像进行预处理;所述检测对象,包含物品和人员,人员进一步包含人脸和姿态。
进一步地,如图2所示,步骤12进一步包括步骤21~25:
步骤21、实时采集视频图像,其中包含检测对象的视频信息;
步骤22、对获取的视频图像经过剪切波变换后,可以得到低频部分和高频部分;
步骤23、低频主要体现图像的轮廓信息,通过改进的伽玛校正调整低频分量的系数,从而调整图像对比度;
步骤24、高频主要体现图像的边缘和纹理信息,通过自适应阈值来处理图像的高频部分,从而最大程度抑制噪声;
步骤25、通过高频部分和低频部分的处理结果的对比,区分图像的前景、后景。
步骤13、利用目标检测网络对预处理后的视频图像进行目标物检测,识别出与目标物类别一致的检测对象的像素信息,进行危险物品、姿态和人脸检测并用边框定位;所述目标检测网络,我们称为“多尺度残差密集连接yolo检测网络(Multi-Scale ResidualDense Connection Structure yolo;MRD-YOLO)”。所述目标检测网络,通过密接连接方式将多尺度残差模块与卷积模块连接起来形成多尺度密集连接模块,并结合空间金字塔池化模块形成特征提取网络,快速提取目标不同尺度特征信息;通过非极大值抑制(NMS)算法,消除冗余框,找到最佳的物体检测位置;通过损失函数计算目标边界框误差,置信度误差以及预测类别的误差。
例如,通过目标检测网络在具有大显存,高计算能力的并行GPU计算平台上对带有标注信息的目标数据集进行调参、迭代训练,生成相应的网络权重模型,获得最优权重模型;
在嵌入式Jetson AGX Xavier GPU开发平台上预先部署目标检测网络架构,并将在神经网络训练模块中训练得到的最优网络权重模型移植到GPU开发平台上,利用所述目标检测网络在所述最优权重模型的配置下对预处理后的视频图像进行物品及人员检测并用边框定位。
需要说明的是,多尺度残差密集连接模块通过采用密集连接方式将3×3卷积模块与多尺度残差模块连接,为了保持前馈特性,每一层都能获得前面的所有层额外的输入,并将自己的特征映射传递给后面的所有层,通过张量拼接进行特征融合。在本申请的实施例中:所述密集连接是指对于每一图层,前面所有图层的特征映射都被用作输入,并且这一层的特征映射被用作所有后续图层的输入。密集连接结构在确保网络中最大信息流的同时,缓解消失梯度问题,加强特征传播,减少模型参数量,提高网络精度;所述多尺度残差模块通过拆分混合连接结构,在一个残差块内构造分层的类残差连接,将特征图分割成4 个特征分割层,每一个特征分割层接收上一层特征信息后,通过3×3卷积操作,输出更大的感受野,融合不同尺度的特征信息。
还需要说明的是,本申请的最佳实施例使用SD-NMS算法代替传统的 NMS(非极大值抑制)算法,所述SD-NMS算法,在高斯加权的Soft-NMS算法基础上引入预测框的中心距离比值惩罚项的非极大值抑制算法,选取置信度最高的预测框,并计算与其他预测框的交并比值,删除大于阈值的预测框,消除冗余框,引入预测框的中心距离比值惩罚项,找到最佳的物体检测位置。
还需要说明的是,本申请的最佳实施例使用MRD-YOLO损失函数,由三部分组成:边界框回归损失函数计算目标边界框的重叠面积、中心点距离和宽高之比误差;置信度损失函数使用交叉熵计算预测框内有目标置信程度和预测框内包括目标的所有特征置信程度;分类损失函数使用交叉熵计算预测类别的误差。
步骤14、利用深度残差网络实时人脸识别算法,将获取到的人脸特征信息与目标人脸数据库进行比对,判断是否为目标人脸;
在步骤13通过目标检测网络对视频图像的检测结果,得到人脸在视频图像中的像素位置后,进一步地,如图3所示,步骤14进一步包括步骤31~33:
步骤31、将获取到的人脸在视频图像上的像素位置传给深度残差网络进行实时人脸识别,提取人脸特征,得到128维人脸特征向量;
步骤32、与目标人脸特征进行欧氏距离匹配;
步骤33、设定阈值判断是否为目标人脸;通过最近邻分类器返回人脸标签。
所述深度残差网络是指在加深网络深度提高人脸识别精度的同时,内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
步骤15、实时显示视频图像中目标检测结果并报警。
进一步地,步骤15包括:
通过QT软件界面在小车搭载的触摸显示器上视频流的形式进行实时对照展示;
当检测对象为物品或姿态时识别到与目标物类别一致的检测对象,或者,当检测对象为人脸时识别所述检测对象为目标人脸,则通过蜂鸣器进行报警并自动保存此时的视频图像及检测结果图像,留作证据。
相应地,本发明的实施例还提供了一种目标识别系统,如图4所示,该系统包括:视频流数据采集模块41、神经网络训练模块42、图像处理与检测模块43、检测结果反馈模块44和报警模块45。
首先,通过视频流数据采集模块上的摄像头获取实时视频图像,并将采集到的视频流传输到图像处理与检测模块。在本申请的一个实施例中,视频流数据采集模块包含工业高清相机401、舵机云台402。通过工业高清相机采集视频图像,舵机云台控制拍摄角度和方向,采集到的视频流以帧为单位通过数据线传输到图像处理与检测模块,供其进行下一步处理。
神经网络训练模块预先在高计算性能GPU平台上使用所述目标检测网络对目标数据集进行调参、训练,最终生成相应的最优网络权重模型。在本申请的一个实施例中,神经网络训练模块包含目标数据集403、目标检测网络404、高计算能力的并行GPU计算平台组成405。在高计算能力的并行GPU计算平台上,通过目标检测网络对目标数据集进行调参,训练,最终生成相应的网络权重模型;利用验证数据集对模型进行评估与选择,并选择出最优的网络权重模型;使用测试数据集来测试选出的网络模型的识别精度;
在图像处理与检测模块中的嵌入式GPU开发平台上预先部署危险目标检测网络,并将在神经网络训练模块中训练得到的最优网络权重模型移植到嵌入式硬件平台上;将视频流数据采集模块传输过来的视频图像传入到目标检测网络中,目标检测网络在最优权重模型的配置下对该图像进行物品、姿态及人脸检测并用边框定位,将获取到的人脸在视频图像上的像素位置传给深度残差网络进行实时人脸识别,得到128维人脸特征向量与目标人脸特征进行欧氏距离匹配,设定阈值判断是否为目标人脸,并通过最近邻分类器返回人脸标签。在本申请的一个实施例中,图像处理与检测模块包含目标检测网络406、深度残差实时人脸识别网络407、嵌入式Jetson AGX Xavier GPU开发平台408。在嵌入式Jetson AGXXavier GPU开发平台上预先部署S204目标检测网络架构,并将在神经网络训练模块中训练得到的神经网络权重移植到GPU开发平台上;所述图像处理与检测模块最终将物品及目标人脸检测结果输入到检测结果反馈模块中;
所述检测结果反馈模块用于实时显示目标监测结果。在本申请的一个实施例中,所述检测结果反馈模块包含QT软件界面409、触摸显示器410。在此模块中会将获得的检测结果通过QT软件界面在小车搭载的触摸显示器上视频流的形式进行实时对照展示,并当检测到目标时,自动保存此时的视频图像及检测结果图像,留作证据;
在本申请的一个实施例中,所述报警模块包含蜂鸣报警器411。当检测到被检测对象中的物品和姿态为目标物时或检测对象中的人脸为目标人脸时,通过串口通信给蜂鸣报警器发送启动指令开始报警。
本发明将嵌入式GPU开发平台与目标检测算法相结合,构建成一个嵌入式目标检测系统,并用部署搭载在无人小车上。该系统包括工业摄像机、云台、嵌入式GPU开放平台、四驱减震小车、麦克纳姆轮、工控机固定箱、工控机稳压模块、电源模块、通信模块、声光蜂鸣器、IPS触摸显示器。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
因此,本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请中任一实施例所述的方法。
进一步地,本申请还提出一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请任一实施例所述的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种目标识别方法,其特征在于,包括以下步骤:
构建目标数据集,包含目标物的视频图像;
采集视频图像,其中包含检测对象,通过剪切波域变化去噪算法对获取的视频图像进行预处理;
用目标检测网络对预处理后的视频图像进行物品、姿态和人脸检测,获得符合目标物类型的像素信息;所述目标检测网络,通过密接连接方式将多尺度残差模块与卷积模块连接起来形成多尺度密集连接模块,并结合空间金字塔池化模块形成特征提取网络,提取目标不同尺度特征信息;
利用深度残差网络实时人脸识别算法,将获取到的人脸特征信息与目标人脸数据库进行比对,判断是否为目标人脸。
2.根据权利要求1所述目标识别方法,其特征在于,所述通过剪切波域变化去噪算法对获取的视频图像进行预处理,进一步包括以下步骤:
对获取的视频图像经过剪切波变换得到低频部分和高频部分;
通过改进的伽玛校正调整低频分量的系数以调整图像对比度;
通过自适应阈值来处理图像的高频部分以抑制噪声。
3.根据权利要求1所述目标识别方法,其特征在于,
通过所述目标检测网络对带有标注信息的视频图像物品目标检测数据集进行调参、迭代训练,获得最优网络权重模型;
利用所述目标检测网络在所述最优权重模型的配置下对预处理后的视频图像进行物品、姿态和人脸检测并用边框定位,通过非极大值抑制算法,消除冗余框,找到最佳的物体检测位置;通过损失函数引入预测框的中心点距离比值惩罚项与预测框的宽高之比惩罚项,提高损失函数的收敛速度和模型的稳定性。
4.根据权利要求3所述目标识别方法,其特征在于,所述通过密接连接方式将多尺度残差模块与卷积模块连接起来形成多尺度密集连接模块,进一步包含:
多尺度残差模块通过拆分混合连接结构,在一个残差块内构造分层的类残差连接,将特征图平均分割成四个特征分割层,每一个特征分割层接收上一层特征信息后,通过3×3卷积操作进行不同尺度的特征融合;
采用密集连接方式将3×3卷积模块与多尺度残差模块连接,每一层都能获得前面的所有层输入,并将自己的特征映射传递给后面的所有层,通过张量拼接进行特征融合。
5.根据权利要求3所述目标识别方法,其特征在于,所述非极大值抑制算法,在高斯加权的Soft-NMS算法基础上引入预测框的中心距离比值惩罚项,设定目标框的置信度阈值,选取置信度最高的预测框,并计算与其他预测框的交并比值,删除大于阈值的预测框,消除冗余框,引入预测框的中心距离比值惩罚项,找到最佳的物体检测位置。
6.根据权利要求3所述目标识别方法,其特征在于,所述损失函数,由三部分组成:边界框回归损失函数计算目标边界框的重叠面积、中心点距离和宽高之比误差;置信度损失函数使用交叉熵计算预测框内有目标置信程度和预测框内包括目标的所有特征置信程度;分类损失函数使用交叉熵计算预测类别的误差。
7.根据权利要求1所述目标识别方法,其特征在于,所述利用深度残差网络实时人脸识别算法,将获取到的人脸特征信息与目标人脸数据库进行比对,判断是否为目标人脸,进一步包含以下步骤:
通过目标检测网络对视频图像的检测结果,得到人脸在视频图像中的像素位置;
将获取到的人脸在视频图像上的像素位置传给深度残差网络进行实时人脸识别,得到128维人脸特征向量与目标人脸特征进行欧氏距离匹配,设定阈值判断是否为目标,并通过最近邻分类器返回人脸标签。
8.一种目标识别系统,用于实现权利要求1~7任意一项所述方法,其特征在于,包含视频流数据采集模块、神经网络训练模块、图像处理与检测模块、检测结果反馈模块和报警模块;
所述视频流数据采集模块,用于获取实时视频图像,并将采集到的视频流传输到图像处理与检测模块;
所述神经网络训练模块,用于使用目标检测网络对目标数据集进行调参、训练,最终生成相应的最优网络权重模型;
所述图像处理与检测模块,用于:部署目标检测网络,并将所述最优网络权重模型移植到嵌入式硬件平台上;将视频流数据采集模块传输过来的视频图像传入到目标检测网络中,目标检测网络在最优权重模型的配置下对该图像进行物品、姿态及人脸检测并用边框定位,将获取到的人脸在视频图像上的像素位置传给深度残差网络进行实时人脸识别,得到人脸特征向量与目标人脸特征进行欧氏距离匹配,设定阈值判断是否为目标人脸,并通过最近邻分类器返回人脸标签;最终将物品及目标人脸检测结果输入到检测反馈模块及报警模块中,进行实时检测结果展示及通过声光蜂鸣器进行报警。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一所述的方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述的方法。
CN202111195125.0A 2021-10-12 2021-10-12 一种目标识别方法和装置 Pending CN113989702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111195125.0A CN113989702A (zh) 2021-10-12 2021-10-12 一种目标识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111195125.0A CN113989702A (zh) 2021-10-12 2021-10-12 一种目标识别方法和装置

Publications (1)

Publication Number Publication Date
CN113989702A true CN113989702A (zh) 2022-01-28

Family

ID=79738512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111195125.0A Pending CN113989702A (zh) 2021-10-12 2021-10-12 一种目标识别方法和装置

Country Status (1)

Country Link
CN (1) CN113989702A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724261A (zh) * 2022-04-15 2022-07-08 澜途集思生态科技集团有限公司 基于snip算法的生态生物识别方法
CN115311608A (zh) * 2022-10-11 2022-11-08 之江实验室 一种多任务多目标关联追踪的方法及装置
CN117061788A (zh) * 2023-10-08 2023-11-14 中国地质大学(武汉) 一种短视频自动化监管与预警方法、设备及存储设备
CN117197726A (zh) * 2023-11-07 2023-12-08 四川三思德科技有限公司 一种重点人员精准化管控系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724261A (zh) * 2022-04-15 2022-07-08 澜途集思生态科技集团有限公司 基于snip算法的生态生物识别方法
CN115311608A (zh) * 2022-10-11 2022-11-08 之江实验室 一种多任务多目标关联追踪的方法及装置
CN115311608B (zh) * 2022-10-11 2023-03-21 之江实验室 一种多任务多目标关联追踪的方法及装置
CN117061788A (zh) * 2023-10-08 2023-11-14 中国地质大学(武汉) 一种短视频自动化监管与预警方法、设备及存储设备
CN117061788B (zh) * 2023-10-08 2023-12-19 中国地质大学(武汉) 一种短视频自动化监管与预警方法、设备及存储设备
CN117197726A (zh) * 2023-11-07 2023-12-08 四川三思德科技有限公司 一种重点人员精准化管控系统及方法
CN117197726B (zh) * 2023-11-07 2024-02-09 四川三思德科技有限公司 一种重点人员精准化管控系统及方法

Similar Documents

Publication Publication Date Title
Chen et al. Progressive lidar adaptation for road detection
CN113989702A (zh) 一种目标识别方法和装置
KR101995107B1 (ko) 딥 러닝을 이용한 인공지능 기반 영상 감시 방법 및 시스템
CN110419048B (zh) 用于标识所定义的对象的系统
JP6294615B2 (ja) 移動物体の検知および追跡のためのシステムおよび方法
Lookingbill et al. Reverse optical flow for self-supervised adaptive autonomous robot navigation
CN107862705A (zh) 一种基于运动特征和深度学习特征的无人机小目标检测方法
Qu et al. Moving vehicle detection with convolutional networks in UAV videos
CN110263920A (zh) 卷积神经网络模型及其训练方法和装置、巡检方法和装置
US9489582B2 (en) Video anomaly detection based upon a sparsity model
CN106446150A (zh) 一种车辆精确检索的方法及装置
CN105404894A (zh) 无人机用目标追踪方法及其装置
CN103336947A (zh) 基于显著性和结构性的红外运动小目标识别方法
CN104933542B (zh) 一种基于计算机视觉的物流仓储监控方法
CN111079518A (zh) 一种基于执法办案区场景下的倒地异常行为识别方法
KR102514301B1 (ko) 이종 센서 융합을 이용한 행동 분석 장치
Gal Automatic obstacle detection for USV’s navigation using vision sensors
CN115861915A (zh) 消防通道监控方法、消防通道监控装置以及存储介质
EP3352112A1 (en) Architecture adapted for recognising a category of an element from at least one image of said element
CN113378638B (zh) 基于人体关节点检测和d-gru网络的轮机员异常行为识别方法
Chandana et al. Autonomous drones based forest surveillance using Faster R-CNN
CN104616034B (zh) 一种烟雾检测方法
CN114266804A (zh) 跨感测器的物体属性分析方法与系统
Rankin et al. Stereo-vision-based perception capabilities developed during the Robotics Collaborative Technology Alliances program
CN116052082A (zh) 一种基于深度学习算法的配电站房异常检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination