CN116152685A - 一种基于无人机视野下行人检测方法及系统 - Google Patents

一种基于无人机视野下行人检测方法及系统 Download PDF

Info

Publication number
CN116152685A
CN116152685A CN202310423031.7A CN202310423031A CN116152685A CN 116152685 A CN116152685 A CN 116152685A CN 202310423031 A CN202310423031 A CN 202310423031A CN 116152685 A CN116152685 A CN 116152685A
Authority
CN
China
Prior art keywords
personnel
unmanned aerial
aerial vehicle
frame
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310423031.7A
Other languages
English (en)
Other versions
CN116152685B (zh
Inventor
姜明华
王誉霖
余锋
刘姝晴
周昌龙
宋坤芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202310423031.7A priority Critical patent/CN116152685B/zh
Publication of CN116152685A publication Critical patent/CN116152685A/zh
Application granted granted Critical
Publication of CN116152685B publication Critical patent/CN116152685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于无人机视野下行人检测方法及系统,包括以下步骤:通过无人机采集保护区作业场景下的影像数据;将影像数据进行数据清洗与数据增强处理,得到图像数据,对图像数据进行人工标注,构建保护区应用场景下的人员数据集;将人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型;实时获取无人机拍摄的视频流,并进行跳帧捕获,将捕获的视频帧图像数据输入人员检测模型进行检测,并根据输出的目标人员的身份信息和位置信息执行相应的决策。本发明的技术方案加快了模型的收敛速度,进一步提升了模型的检测精度以及检测效率,实现对保护区场景下工作人员与非工作人员的高效检测。

Description

一种基于无人机视野下行人检测方法及系统
技术领域
本发明涉及计算机图形学技术领域,尤其是涉及一种基于无人机视野下行人检测方法及系统。
背景技术
在当今社会的形势下,人力成本正不断提高,并且依靠科技的进步与技术的突破,越来越多的智能设备与智能应用走进我们的生活,例如无人机,简称UAV。
如今无人机已成为很多行业里不可或缺的存在。在民用领域中,UAV的应用场景更为广泛,给交通监控、灾难救援、电力巡检、影视拍摄等行业带来极大的便利。我国地广物博,涵括了各种保护区,如自然保护区、森林公园、地质公园、湿地公园、水产种质资源保护区、世界自然遗产地等,这为保护区目标检测任务提供了广阔的应用市场。
其中,依靠无人机平台的显著优势,保护区场景下的人员检测成为其中的一项研究热点,相较于传统的检测方法,大多采用卫星遥感技术或固定摄像头检测的方式完成部署,这些方法在成本和灵活性方面都给实际地落地应用提出了考验,而无人机检测平台可以充分利用其高灵活、机动性强、成本较低等特性,结合深度学习技术,可以便捷高效地完成保护区场景下的人员检测任务。
虽然无人机平台有诸多亮眼的优势,但也必然带来了一些问题与挑战的,例如检测背景复杂,易造成目标漏检或背景误检;检测目标不显著,通常距离目标较远,导致目标较小等。现有的基于无人机视角的行人检测方法,例如公开号为CN115359376A的中国专利“一种无人机视角下轻量级YOLOv4的行人检测方法”采用改进的MobileNetv3作为主干特征提取网络,结合YOLOv4框架开展行人的目标检测,其模型的参数量与计算量有一定程度的优化,但该模型的检测精度和召回率仍有待进一步地提高。
综上,现有技术中无人机视角下的行人检测方法仍存在以下不足,模型收敛速度低、检测精度低、检测耗时长,尤其对于具有遮挡现象的人员样本检测精度低,从而影响对保护区安全状态的实时监测效果。
发明内容
为解决现有技术中存在的缺陷或改进需求,本发明提供了一种基于无人机视野下行人检测方法,其目的在于避免人员受伤或破坏事件的发生,同时有效地实现了对保护区安全状态的监测,有力保障了人身财产与生态环境的安全。
本发明提供了一种基于无人机视野下行人检测方法,包括以下步骤:
S1、通过无人机采集保护区作业场景下的影像数据;
S2、将所述影像数据进行数据清洗与数据增强处理,得到图像数据,对所述图像数据进行人工标注,构建保护区应用场景下的人员数据集;
S3、将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型;
S4、实时获取无人机拍摄的视频流,并进行跳帧捕获,将捕获的视频帧图像数据输入人员检测模型进行检测,并根据输出的目标人员的身份信息和位置信息执行相应的决策。
进一步地,所述影像数据包括多场景和多时间段,所述影像数据包括存在树木、建筑或服饰等物体遮挡人员的样本。
进一步地,对所述图像数据进行人工标注具体包括:对图像数据中有目标对象的正样本进行人工标注保存为标签,对没有目标对象的负样本以空标签形式保存为标签,所述正样本和负样本的约束比例为8:2。
进一步地,所述人工标注的信息包括身份信息和位置信息,所述身份信息根据保护区场景下目标人员着装划分为工作人员和非工作人员;所述位置信息根据
Figure SMS_1
进行定位,其中x,y表示人工标注的标注框的水平坐标值,width表示标注框的宽度,height表示标注框的长度。
进一步地,所述步骤S3中将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型,具体包括以下步骤:
S301,所述人员检测网络通过骨干网络对输入的所述人员数据集进行特征提取,得到特征图F,所述骨干网络包括vgg、resnet、darknet;
S302,将所述特征图F输入特征增强模块进行特征信息的增强操作,得到特征图
Figure SMS_2
;然后将特征图F'输入空间注意力模块聚焦目标信息,得到特征图/>
Figure SMS_3
S303,利用锚点在所述特征图F"上生成预测框,根据定位损失函数计算预测框与标注框之间的差异,并将该差异反向传播给网络进行纠正,反复重复此步骤对模型进行迭代训练以调整模型参数,得到基于无人机视野的人员检测模型。
进一步地,所述人员检测网络的特征增强处理包括以下步骤:
将输入的特征图F采用1×1卷积、BN批量归一化和RReLU激活函数的处理得到特征图F';
将特征图F'分别采用最大池化处理与平均池化处理,将平均池化处理输出的特征图F'avg与最大池化处理输出的特征图F'max进行拼接,得到拼接后的特征图F';
将拼接后的特征图F'采用1×1卷积、BN批量归一化和RReLU激活函数进行融合空间注意力处理得到特征图F"。
进一步地,所述融合空间注意力处理具体包括以下步骤:
输入空间维度为C×H×W的特征图F',在空间维度上分别执行mean操作和max操作,得到两个空间维度为1×H×W的特征图F';
将两个空间维度为1×H×W的特征图F'进行拼接,然后将拼接的特征图F'依次执行三次卷积,卷积的卷积核大小为3×3,padding为1,得到空间维度为1×H×W的特征图F';
通过sigmoid进行激活操作,得到空间维度为1×H×W的特征图F'在空间维度的注意力权重;
根据空间维度的权重与大小为C×H×W的原输入特征图F'相乘,得到大小为C×H×W的输出特征图F"。
进一步地,所述定位损失函数公式为:
Figure SMS_4
式中,L position 表示改进的损失函数;
Figure SMS_5
是网络预测框与标注框的交并比,即交集与并集的比值;/>
Figure SMS_6
代表了预测框中心点与目标框中心点之间的欧式距离;
Figure SMS_7
代表同时包含预测框与标注框的最小连接矩形空间的对角线距离;/>
Figure SMS_8
分别代表的是预测框与标注框的对角线长度;/>
Figure SMS_9
表示调整系数;/>
Figure SMS_10
表示用于去度量长宽比的一致性;
其中,
Figure SMS_11
和/>
Figure SMS_12
的公式如下:
Figure SMS_14
,/>
Figure SMS_15
式中,/>
Figure SMS_17
是锚框在尺度损失中的权重系数,/>
Figure SMS_19
分别为标注框的长度和宽度,/>
Figure SMS_21
是预测框的长度,/>
Figure SMS_23
是预测框的宽度,当/>
Figure SMS_24
<0.98时,x表示输入值/>
Figure SMS_13
和/>
Figure SMS_16
;当/>
Figure SMS_18
>=0.98时,x表示输入值
Figure SMS_20
和/>
Figure SMS_22
进一步地,所述步骤S4中根据输出的目标人员的身份信息和位置信息执行相应的决策具体包括:
当识别的目标人员身份信息为工作人员时,调用语音播报服务进行提醒并将图像和工作日志进行保存;
当识别的目标人员身份信息为非工作人员时,则发出语音警告,并提醒管理人员去监测是否为偷猎者或破坏者。
一种基于无人机视野下行人检测方法的系统,包括:
数据采集模块,通过无人机采集保护区作业场景下的影像数据;
数据构建模块,将所述影像数据进行数据清洗与数据增强处理,得到图像数据,对所述图像数据进行人工标注,构建保护区应用场景下的人员数据集;
网络训练模块,用于将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型;
人员检测模块,通过人员检测模型对无人机拍摄的实时视频流中的目标人员进行检测,并根据检测出的目标人员的身份信息和位置信息执行相应的决策。
相比现有技术,本发明的有益效果在于:
本发明通过采集多时间段多场景的影像数据,并通过特征增强模块、空间注意力模块以及损失函数模块对数据进行处理,充分发扬了平台的显著优势,并且从现有的特征信息中进一步挖掘特征细节与表征信息,虽然小幅增加了计算量,但也加快了模型的收敛速度,进一步提升了模型的检测精度以及检测效率,实现对保护区场景下工作人员与非工作人员的高效检测;其次,在数据集的清洗与增强处理中,使模型学习了大量具有遮挡现象的样本,使得模型对于有身体遮挡的情况也能有较好的鲁棒性能,较以往的检测模型有更好的表现;本发明有效地避免了人员受伤或破坏事件的发生,同时有效地实现了对保护区安全状态的监测,有力保障了人身财产与生态环境的安全。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例一种基于无人机视野下行人检测方法的流程示意图;
图2示出了本发明实施例一种基于无人机视野下行人检测方法中特征增强模块的流程示意图;
图3示出了本发明实施例一种基于无人机视野下行人检测方法中空间注意力模块的流程示意图;
图4示出了本发明实施例一种基于无人机视野下行人检测方法的系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。术语“包括”、“包含”或者任何其他类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备/装置中还存在另外的要素,即“包括一个”的意思还涵盖“包括另一个”的意思。
如图1所示,本发明提供了一种基于无人机视野下行人检测方法,包括以下步骤:
S1、通过无人机采集保护区作业场景下的影像数据;
S2、将所述影像数据进行数据清洗与数据增强处理,得到图像数据,对所述图像数据进行人工标注,构建保护区应用场景下的人员数据集;
S3、将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型;
S4、实时获取无人机拍摄的视频流,并进行跳帧捕获,将捕获的视频帧图像输入人员检测模型进行检测,并根据输出的目标人员的身份信息和位置信息执行相应的决策。
进一步地,步骤S1中的影像数据包括多场景和多时间段,该影像数据是在无人机视野下进行的采集工作,其中多场景包括自然保护区、森林公园、地质公园、湿地公园、水产种质资源保护区和世界自然遗产地。在多场景的基础上采集同一区域多时间段的图像,其中多时间段包括同一区域同一天不同时间段以及同一区域不同季节,一天中不同时间段包括凌晨、清晨、正午、黄昏、傍晚,因为这些不同时间段的场景会包含不同的光照条件;同一区域不同季节即为在同一区域的一年中分四个季节进行采集,因为春夏秋冬四个季节有各自的季节特性,场景因季节带来的特征差异是网络难以拟合的。基于以上思想,完成人员数据集的样本准备工作。此外,数据样本还包括难以检测的场景,如存在许多树木、建筑、服饰等物体遮挡人员的样本。
进一步地,步骤S2中将所述影像数据进行数据清洗和数据增强处理,得到图像数据,对所述图像数据进行人工标注,构建保护区应用场景下的人员数据集,具体包括以下步骤:
首先将采集的影像数据切割保存为一帧帧的图像;其次分别通过跳帧取材的方式进行去重,通过数据清洗技术去除质量较差或无参考价值的样本,通过数据增强技术扩充人员数据集的规模与质量,其中数据增强技术包括但不限于使用镜像翻转、水平翻转、图像缩放、图像拼接、图像旋转和图像噪声化处理;然后通过标注工具对样本中的行人进行标注,生成标签文件,其生成的标签文件与图像样本一一对应;最后是数据的校检和审查工作,通过小组互督互审的机制,对样本的标签和图像进行合法性校验和正确性审查,其合法性校验是确认文件是否存在、是否可以正常运行等,其正确性审查是校验标签是否按照要求框选目标、标签类型是否正确等。
具体地,数据清洗技术包括但不限于:统计图像的数据信息,数据信息包括总占用空间、数量和损坏图片数;通过Image函数库的open接口验证已损坏图片,并去除已损坏图片;通过拉普拉斯算子接口计算图片清晰度数值,去除模糊图片;通过直方图分布计算图片相似度,并去除相似图片;为避免错误的清洗,将待去除图片移入待移除文件夹中,通过人工审查进行二次筛选,不仅可大大减少研究人员工作量,还可降低漏检或错检率。
具体地,数据增强技术包括但不限于:通过尺寸变化、局部裁剪、水平翻转和垂直翻转、边缘填充、图像旋转、高斯模糊、灰度处理、亮度和对比度变化、色调和饱和度变化等方法的运用或联合运用来扩充数据集的多样性。
对于大量的数据,人工清洗具有工作量大、清洗速度慢等缺点,采用数据清洗技术对数据进行批量清洗,然后再进行人工审核,可很大程度上提高效率。数据增强技术即扩展用于训练模型的数据量的过程,该技术可提供更丰富的数据来训练模型,可以获得更“泛化”的模型。对于难以检测的场景,如果不对数据集进行适应性的调整,那么模型在实际应用中的检测精度和漏检问题将是不可避免的,而通过数据清洗技术和数据增强技术可扩充实验数据集,尤其是可为难以检测的场景提供更多的数据样本供模型进行学习,为后续模型的训练提供更具有侧重性的数据样本,以此达到提升模型检测性能(如精度和鲁棒性)的目的。
进一步地,对所述处理后的影像数据进行人工标注具体包括:对影像数据中有目标对象的正样本进行人工标注保存为标签,对所述没有目标对象的负样本以空标签形式保存为标签,所述正样本和负样本的约束比例为8:2,如果负样本过多会导致模型学习方向与侧重点发生较大偏移,从而导致模型的性能难以达到预期;如果正样本过多会导致模型误报率较高和鲁棒性较差的问题。
具体地,根据保护区人员身份信息划分为工作人员和非工作人员,工作人员包括巡林人员、技术人员、安保人员以及区域负责人,其中身份信息是根据保护区场景下人员的着装,保护区场景的工作人员会根据身份或任务的不同穿着相应的服装,如巡林人员、技术人员、安保人员以及区域负责人,而非工作人员没有统一的工作制服。在数据集准备中,工作人员的身份依据标签中的
Figure SMS_25
进行划分,工作人员的位置依据标签中的
Figure SMS_26
进行定位,,其中x,y表示人工标注时标注框的水平坐标值,width表示标注框的宽度,height表示标注框的长度,根据标注框的坐标值、长度以及宽度可以唯一地确认标注框。标注框包含目标对象,即事先通过人工标注对目标对象采用标注框进行框选,随后送到检测网络中,让网络学习标准框中的特征信息,不断地将预测框与标注框进行拟合。对每一张有目标对象的正样本进行人工标注保存为标签,对于没有目标对象的负样本采用空标签的形式保存为标签,得到待检测目标的位置和身份信息,对于正负样本的约束比例约为8:2;其中,所述标签是开发人员在数据标注的过程中保存了的目标对象身份与位置信息的文件。
进一步地,步骤S3中将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型,具体包括以下步骤:
S301,所述人员检测网络通过骨干网络对输入的所述人员数据集进行特征提取,得到特征图F,所述骨干网络包括vgg、resnet、darknet;
S302,将所述特征图F输入特征增强模块进行特征信息的增强操作,得到特征图
Figure SMS_27
;然后将特征图/>
Figure SMS_28
输入空间注意力模块聚焦目标信息,得到特征图/>
Figure SMS_29
S303,利用锚点在所述特征图
Figure SMS_30
上生成预测框,根据损失函数计算预测框与标注框之间的差异,并将该差异反向传播给网络进行纠正,反复重复此步骤对模型进行迭代训练以调整模型参数,得到基于无人机视野的人员检测模型。通常,训练过程会经过多轮迭代,每轮迭代包括前向传播和反向传播两个过程,前向传播将输入数据送入模型中进行计算,得到模型的预测结果;反向传播则根据损失函数计算预测结果与真实标签之间的误差,然后更新模型的参数,以减小误差。在目标检测中,锚点是一种预定义的边界框集合,它们被放置在输入图像的不同位置和尺度上,用于产生候选目标区域,锚点通常由多个尺宽和宽高比组成,不同锚点可以适应不同大小和形状的目标物体。
具体地,如图2所示,其中特征增强模块处理的具体操作如下:将输入的特征图F采用1×1卷积、BN批量归一化和RReLU激活函数的处理得到特征图F';将特征图F'分别采用最大池化处理与平均池化处理,将平均池化处理输出的特征图F'avg与最大池化处理输出的特征图F'max进行拼接,得到拼接后的特征图F';将拼接后的特征图F'采用1×1卷积、BN批量归一化和RReLU激活函数进行融合空间注意力处理得到特征图F";其中,最大池化和平均池化处理中分别包含三次Max Pool和Avg Pool,这三组特征均采用两两相加处理。通过特征增强处理可以改善图像的视觉效果,有目的的增强图像的整体或局部特征,将原来不清晰的图像变得清晰或增强感兴趣的特征,扩大图像中不同物体的特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足特征分析需求。
具体地,如图3所示,融合空间注意力处理具体包括以下步骤:
输入特征图F'空间维度为C×H×W,首先在空间维度上分别执行mean操作和max操作,得到两个空间维度为1×H×W的特征图F',接着将两个空间维度为1×H×W的特征图F'进行拼接,得到空间维度为2×H×W的特征图F',随后将拼接的特征图F'依次执行三次卷积,卷积的卷积核大小为3×3,padding为1,得到1×H×W的特征图F';再使用sigmoid进行激活操作,得到1×H×W的特征图F'在空间维度的注意力权重,最后根据空间维度的权重,将空间维度的注意力权重与大小为C×H×W的原输入特征图F'相乘,得到大小为C×H×W的输出特征图F"。其中,mean操作和max操作的dim参数均取1,表示按行求平均值和按行求最大值,返回的形状为(line,1),line表示特征图的行数或宽度。通过空间注意力模块可以有效地提高网络的检测精度,从而有效缓解了无人机平台在复杂背景下的低精度问题;同时本发明中的空间注意力模块为即插即用式,即输入特征经过空间注意力模块处理后,依然返回原输入特征图的尺寸,故该模块的优势还包括可以放在网络的任一位置来测试对网络性能的影响,最后保留对网络有积极作用的层。
具体地,损失函数的计算过程包括以下步骤:(1)计算预测框和标注框的IoU值,以衡量预测框与标注框之间的重叠程度;(2)计算预测框和标注框的中心点之间的欧几里得距离,并使用修正因子α来缩小距离值,从而将中心点距离的影响降至最小;(3)计算预测框和标注框的长度和宽度之间的差异,并使用n来平衡损失项;(4)将步骤(1)、(2)和(3)中得到的三个指标组合起来,得到损失函数的值。在训练过程中,网络的目标是将损失函数最小化,从而使得预测框与标注框之间的差异尽可能地小。因此,损失函数在网络的训练中起到了至关重要的作用,可以帮助网络更准确地预测物体的位置和形状,提高目标检测的准确率。
进一步地,本发明中的损失函数为改进的定位损失函数,通过损失函数可完成对于目标对象的定位,所述损失函数公式为:
Figure SMS_31
式中,L position 表示改进的损失函数;/>
Figure SMS_32
是网络预测的锚框与真实锚框的交并比,即交集与并集的比值,/>
Figure SMS_33
代表了预测框中心点与目标框中 心点之间的欧式距离,/>
Figure SMS_34
代表同时包含预测框与标注框的最小连接矩形空间的对角线距离;t1,t2分别代表的是预测框与标注框的对角线长度,该方法通过最小连接矩形的对角线长度的平方值与当前较长对角线锚框的平方值作差,来反应标注框与目标框之间距离的远近情况,网络更加关注预测框与标注框的欧氏距离,使得网络在训练的过程中更快收敛,其中当预测框与目标框出现包含关系时,/>
Figure SMS_35
的取值为零,为了防止分式的取值区域无穷,因此损失函数分情况进行了设计;/>
Figure SMS_36
表示调整系数;/>
Figure SMS_37
表示用于去度量长宽比的一致性,用于惩罚长宽比不一致的情况;
其中,
Figure SMS_38
和/>
Figure SMS_39
的公式如下:
Figure SMS_41
,/>
Figure SMS_43
式中,/>
Figure SMS_45
是锚框在尺度损失中的权重系数,/>
Figure SMS_48
是标注框的长度和宽度,w和h是预测框的长度和宽度,x是输入值,具体指代arcsin(x)或arctan(x)中括号内的内容,当/>
Figure SMS_50
<0.98时,x表示输入值/>
Figure SMS_52
和/>
Figure SMS_54
,即/>
Figure SMS_40
和/>
Figure SMS_42
均满足<0.98;当/>
Figure SMS_44
>=0.98时,x表示输入值/>
Figure SMS_46
和/>
Figure SMS_47
,即
Figure SMS_49
和/>
Figure SMS_51
均满足>=0.98,其中0.98和/>
Figure SMS_53
的值是由图像分析和实验得出的。该方法使用arcsin和arctan函数来处理锚框的纵横比,使其对纵横比的变化更加敏感,能够更好地反映锚框的尺度变换,提高了预测框与标注框之间在距离上的变换速度,改进后的损失函数对预测框与标注框之间的距离与形状变换均有不同程度的精度提升。
进一步地,步骤S4中,实时获取无人机拍摄画面,对传回基站的影像进行逐帧解析得到每一帧图像,其中,在解析的视频帧中有大量重复的画面或变动很小的画面,因此需要将解析的图像进行跳帧处理从而加快模型的运行速度,将处理后的图像送入人员检测模型中,通过人员检测模型输出目标人员的身份类别与位置信息,当识别的人员身份为工作人员时,调用语音播报服务进行提醒并将图像和工作日志进行保存,以监督工作人员的作业状态和保护工作人员的作业安全;当识别为非工作人员时则发出语音警告,并提醒管理人员去监测是否为偷猎者或破坏者,以实现生态环境的监测与保护。
如图4所示,本发明还提供了一种基于无人机视野下行人检测方法的系统,包括:
数据采集模块,通过无人机采集保护区作业场景下的影像数据;
数据构建模块,用于将所述影像数据进行数据清洗与数据增强处理,得到图像数据,对所述图像数据进行人工标注,构建保护区应用场景下的人员数据集;
网络训练模块,用于将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型;
人员检测模块,用于对无人机拍摄的实时视频流中的目标人员进行检测,并根据检测出的目标人员的身份信息和位置信息执行相应的决策。
本发明通过采集多时间段多场景的影像数据,并通过特征增强模块、空间注意力模块以及损失函数模块对数据进行处理,充分发扬了平台的显著优势,并且从现有的特征信息中进一步挖掘特征细节与表征信息,虽然小幅增加了计算量,但也加快了模型的收敛速度,进一步提升了模型最终的检测效果,实现对保护区场景下工作人员与非工作人员的高效检测;其次,在数据集的清洗与增强处理中,使模型学习了大量具有遮挡现象的样本,使得模型对于有身体遮挡的情况也能有较好的鲁棒性能,较以往的检测模型有更好的表现;本发明有效地避免了人员受伤或破坏事件的发生,同时有效地实现了对保护区安全状态的监测,有力保障了人身财产与生态环境的安全。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上所述的一种基于无人机视野下行人检测方法。
本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于无人机视野下行人检测方法,其特征在于,包括以下步骤:
S1、通过无人机采集保护区作业场景下的影像数据;
S2、将所述影像数据进行数据清洗与数据增强处理,得到图像数据,对所述图像数据进行人工标注,构建保护区应用场景下的人员数据集;
S3、将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型;
S4、实时获取无人机拍摄的视频流,并进行跳帧捕获,将捕获的视频帧图像数据输入人员检测模型进行检测,并根据输出的目标人员的身份信息和位置信息执行相应的决策。
2.根据权利要求1所述的一种基于无人机视野下行人检测方法,其特征在于,所述影像数据包括多场景和多时间段,所述影像数据包括存在树木、建筑或服饰等物体遮挡人员的样本。
3.根据权利要求1所述的一种基于无人机视野下行人检测方法,其特征在于,对所述图像数据进行人工标注具体包括:对图像数据中有目标对象的正样本进行人工标注保存为标签,对没有目标对象的负样本以空标签形式保存为标签,所述正样本和负样本的约束比例为8:2。
4.根据权利要求3所述的一种基于无人机视野下行人检测方法,其特征在于,所述人工标注的信息包括身份信息和位置信息,所述身份信息根据保护区场景下目标人员着装划分为工作人员和非工作人员;所述位置信息根据
Figure QLYQS_1
进行定位,其中x,y分别表示人工标注的标注框的横坐标和纵坐标,width表示标注框的宽度,height表示标注框的长度。
5.根据权利要求4所述的一种基于无人机视野下行人检测方法,其特征在于,所述步骤S3中将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型,具体包括以下步骤:
S301,所述人员检测网络通过骨干网络对输入的所述人员数据集进行特征提取,得到特征图F,所述骨干网络包括vgg、resnet、darknet;
S302,将所述特征图F输入特征增强模块进行特征信息的增强操作,得到特征图F';然后将特征图F'输入空间注意力模块聚焦目标信息,得到特征图F";
S303,利用锚点在所述特征图F"上生成预测框,根据定位损失函数计算预测框与标注框之间的差异,并将该差异反向传播给网络进行纠正,反复重复此步骤对模型进行迭代训练以调整模型参数,得到基于无人机视野的人员检测模型。
6.根据权利要求5所述的一种基于无人机视野下行人检测方法,其特征在于,所述人员检测网络的特征增强处理包括以下步骤:
将输入的特征图F采用1×1卷积、BN批量归一化和RReLU激活函数的处理得到特征图F';
将特征图F'分别采用最大池化处理与平均池化处理,将平均池化处理输出的特征图F'avg与最大池化处理输出的特征图F'max进行拼接,得到拼接后的特征图F';
将拼接后的特征图F'采用1×1卷积、BN批量归一化和RReLU激活函数进行融合空间注意力处理得到特征图F"。
7.根据权利要求6所述的一种基于无人机视野下行人检测方法,其特征在于,所述融合空间注意力处理具体包括以下步骤:
输入空间维度为C×H×W的特征图F',在空间维度上分别执行mean操作和max操作,得到两个空间维度为1×H×W的特征图F';
将两个空间维度为1×H×W的特征图F'进行拼接,然后将拼接的特征图F'依次执行三次卷积,卷积的卷积核大小为3×3,padding为1,得到空间维度为1×H×W的特征图F';
通过sigmoid进行激活操作,得到空间维度为1×H×W的特征图F'在空间维度的注意力权重;
根据空间维度的权重与大小为C×H×W的原输入特征图F'相乘,得到大小为C×H×W的输出特征图F"。
8.根据权利要求5所述的一种基于无人机视野下行人检测方法,其特征在于,所述定位损失函数公式为:
Figure QLYQS_2
式中,L position 表示改进的损失函数;/>
Figure QLYQS_3
是网络预测的锚框与真实锚框的交并比,即交集与并集的比值;/>
Figure QLYQS_4
代表了预测框中心点与目标框中心点之间的欧式距离;/>
Figure QLYQS_5
代表同时包含预测框与标注框的最小连接矩形空间的对角线距离;t1、t2分别代表的是预测框与标注框的对角线长度;/>
Figure QLYQS_6
表示调整系数;/>
Figure QLYQS_7
表示用于去度量长宽比的一致性;
其中,
Figure QLYQS_8
和/>
Figure QLYQS_9
的公式如下:
Figure QLYQS_10
,/>
Figure QLYQS_12
式中,/>
Figure QLYQS_14
是锚框在尺度损失中的权重系数,/>
Figure QLYQS_16
分别为标注框的长度和宽度,h是预测框的长度,w是预测框的宽度,当/>
Figure QLYQS_17
<0.98时,x表示输入值/>
Figure QLYQS_18
和/>
Figure QLYQS_19
;当/>
Figure QLYQS_11
>=0.98时,x表示输入值/>
Figure QLYQS_13
和/>
Figure QLYQS_15
9.根据权利要求5所述的一种基于无人机视野下行人检测方法,其特征在于,所述步骤S4中根据输出的目标人员的身份信息和位置信息执行相应的决策具体包括:
当识别的目标人员身份信息为工作人员时,调用语音播报服务进行提醒并将图像和工作日志进行保存;
当识别的目标人员身份信息为非工作人员时,则发出语音警告,并提醒管理人员去监测是否为偷猎者或破坏者。
10.根据权利要求1-9任一项所述的一种基于无人机视野下行人检测方法的系统,其特征在于,包括:
数据采集模块,通过无人机采集保护区作业场景下的影像数据;
数据构建模块,将所述影像数据进行数据清洗与数据增强处理,得到图像数据,对所述图像数据进行人工标注,构建保护区应用场景下的人员数据集;
网络训练模块,用于将所述人员数据集输入人员检测网络进行训练,获得保护区场景下基于无人机视野的人员检测模型;
人员检测模块,通过人员检测模型对无人机拍摄的实时视频流中的目标人员进行检测,并根据检测出的目标人员的身份信息和位置信息执行相应的决策。
CN202310423031.7A 2023-04-19 2023-04-19 一种基于无人机视野下行人检测方法及系统 Active CN116152685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310423031.7A CN116152685B (zh) 2023-04-19 2023-04-19 一种基于无人机视野下行人检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310423031.7A CN116152685B (zh) 2023-04-19 2023-04-19 一种基于无人机视野下行人检测方法及系统

Publications (2)

Publication Number Publication Date
CN116152685A true CN116152685A (zh) 2023-05-23
CN116152685B CN116152685B (zh) 2023-07-28

Family

ID=86373974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310423031.7A Active CN116152685B (zh) 2023-04-19 2023-04-19 一种基于无人机视野下行人检测方法及系统

Country Status (1)

Country Link
CN (1) CN116152685B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292321A (zh) * 2023-09-27 2023-12-26 深圳市正通荣耀通信科技有限公司 基于视频监控的运动检测方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758255A (zh) * 2022-04-02 2022-07-15 桂林电子科技大学 一种基于yolov5算法的无人机检测方法
US20220292311A1 (en) * 2021-03-12 2022-09-15 Dibi (Chongqing) Intelligent Technology Research Institute Co., Ltd. Method for object detection and recognition based on neural network
CN115880590A (zh) * 2022-10-25 2023-03-31 江苏理工学院 基于无人机机器视觉的轨道异物入侵检测方法和装置
CN115953137A (zh) * 2023-03-13 2023-04-11 长春工程学院 一种矿山智能化管理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220292311A1 (en) * 2021-03-12 2022-09-15 Dibi (Chongqing) Intelligent Technology Research Institute Co., Ltd. Method for object detection and recognition based on neural network
CN114758255A (zh) * 2022-04-02 2022-07-15 桂林电子科技大学 一种基于yolov5算法的无人机检测方法
CN115880590A (zh) * 2022-10-25 2023-03-31 江苏理工学院 基于无人机机器视觉的轨道异物入侵检测方法和装置
CN115953137A (zh) * 2023-03-13 2023-04-11 长春工程学院 一种矿山智能化管理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUCHAO WANG,ET AL: "Ships\' small target detection based on the cbam-yolox algorithm", JOURNAL OF MARINE SCIENCE AND ENGINEERING, pages 1 - 18 *
李小军 等: "改进YOLOv5的机场跑道异物目标检测算法", 计算机工程与应用 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292321A (zh) * 2023-09-27 2023-12-26 深圳市正通荣耀通信科技有限公司 基于视频监控的运动检测方法、装置及计算机设备

Also Published As

Publication number Publication date
CN116152685B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110378222B (zh) 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN111080693A (zh) 一种基于YOLOv3的机器人自主分类抓取方法
WO2022100470A1 (en) Systems and methods for target detection
CN109165538B (zh) 基于深度神经网络的条形码检测方法及装置
CN111784685A (zh) 一种基于云边协同检测的输电线路缺陷图像识别方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN110910445B (zh) 一种物件尺寸检测方法、装置、检测设备及存储介质
CN114049356B (zh) 一种结构表观裂缝检测方法、装置及系统
CN116152685B (zh) 一种基于无人机视野下行人检测方法及系统
CN109558790B (zh) 一种行人目标检测方法、装置及系统
CN109543617A (zh) 基于yolo目标检测技术的智能车辆运动路况信息的检测方法
CN116703919A (zh) 一种基于最优传输距离损失模型的表面杂质检测方法
CN113435452A (zh) 一种基于改进ctpn算法的电气设备铭牌文本检测方法
CN116071315A (zh) 一种基于机器视觉的产品可视缺陷检测方法及系统
CN115861601A (zh) 一种多传感器融合感知方法及装置
CN113076889B (zh) 集装箱铅封识别方法、装置、电子设备和存储介质
CN114419428A (zh) 一种目标检测方法、目标检测装置和计算机可读存储介质
CN112329550A (zh) 基于弱监督学习的受灾建筑快速定位评估方法及装置
CN112529836A (zh) 高压线路缺陷检测方法、装置、存储介质及电子设备
CN117152094A (zh) 基于计算机视觉的钢板表面缺陷分析方法、装置及系统
CN115131826B (zh) 物品检测识别方法、网络模型的训练方法和装置
CN115937492A (zh) 一种基于特征识别的变电设备红外图像识别方法
Marine et al. Pothole Detection on Urban Roads Using YOLOv8
CN115311680A (zh) 人体图像质量检测方法、装置、电子设备及存储介质
CN109977874A (zh) 一种抄表方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant