CN110688883A - 车辆和行人检测方法及装置 - Google Patents
车辆和行人检测方法及装置 Download PDFInfo
- Publication number
- CN110688883A CN110688883A CN201910033533.2A CN201910033533A CN110688883A CN 110688883 A CN110688883 A CN 110688883A CN 201910033533 A CN201910033533 A CN 201910033533A CN 110688883 A CN110688883 A CN 110688883A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- pyramid
- attention
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请提供的车辆和行人检测方法及装置,通过特征金字塔网络在多个尺度上提取待识别图像的特征信息获得第一待识别特征;进一步地,通过注意力层对所述第一待识别特征做进一步的处理获得第二待识别特征;进一步地,通过全连接层对所述第二待识别特征进行处理识别出所述待识别图像中的车辆和行人,并对该车辆和行人进行标记。本申请公开的技术方案通过特征金字塔网络有效的降低了对待识别图像中远处小目标的漏检,通过注意力层降低了待识别图像中遮挡或者重叠区域对识别效果的影响。并通过对训练样本进行加权处理,降低了类别不均衡对检测精度的影响。
Description
技术领域
本申请涉及图像识别领域,具体而言,涉及一种车辆和行人检测方法及装置。
背景技术
目前的高速公路车辆行人检测,很多是基于监控摄像头的图像进行的,此摄像机的分辨率低,色域窄,远距离的车辆非常模糊,特征有限。现有常用方法有以下缺点:(1)有效检测距离近,因为高速公路没有很多遮挡物,视野比较远,所以对远距离小目标的检测有很高要求。(2)在增大有效检测距离的同时,会造成算法速度的大幅提升,难以满足实时性。(3)在有限的计算资源和较高的需求下,高误检率和高漏检率难以避免。(4)人的检测容易对车辆检测造成不良影响。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种车辆和行人检测方法,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括特征金字塔网络、注意力层和全连接层,所述方法包括:
获取待识别图像;
通过所述特征金字塔网络学习所述待识别图像获得第一待识别特征;
通过所述注意力层学习所述第一待识别特征获得第二待识别特征,所述注意力层用于关注待识别图像的特定区域;
通过所述全连接层学习所述第二待识别特征获得所述待识别图像中目标的分类概率和所述目标的位置信息。
可选地,所述方法还包括:
根据所述分类概率和所述目标的位置信息获得多个方框,所述方框用于标记所述图像中的所述目标,所述方框包括有对应的置信分数,所述置信分数表示所述目标的分类概率;
针对所述方框中大于第一预设IOU(IOU,Intersection over Union)阀值的方框,根据所述大于第一预设IOU阀值的方框的置信分数,调整所述大于第一预设IOU阀值的方框的置信分数,其中调整后的置信分数大于零;
根据第二预设IOU阈值从所述多个方框中选取所述目标的多个候选框,并根据所述候选框的置信分数获得所述候选框对应的权值;
根据所述多个候选框的置信分数和所述候选框对应的权值,通过加权平均算法获得所述目标的目标候选框。
可选地,所述特征金字塔网络包括至少一层初始卷积层和特征金字塔,所述特征金字塔包括至少一个第一特征金字塔和至少一个第二特征金字塔,所述第一特征金字塔包括多个层级不同的卷积层,所述第二特征金字塔包括与所述多个层级不同的卷积层对应的多个反卷积层;其中,所述特征金字塔网络的第一个特征金字塔为第一特征金字塔,所述第一特征金字塔的输出作为所述第二特征金字塔的输入,所述第二特征金字塔的输出作为所述第一特征金字塔的输入;所述通过所述特征金字塔网络学习所述待识别图像获得第一待识别特征的步骤包括:
通过所述初始卷积层学习所述待识别图像获得初始特征图;
依次通过所述第一特征金字塔和所述第二特征金字塔学习所述初始特征图,将所述特征金字塔网络中最后一个特征金字塔每一层的输出作为所述第一待识别特征,其中,所述第一特征金字塔的每一个卷积层的输出和该卷积层对应的上一个第二特征金字塔的反卷积层的输入相融合;所述第二特征金字塔网络的每一个反卷积层输出和该反卷积层对应的上一个第一特征金字塔的卷积层的输入相融合。
可选地,所述特征金字塔网络包括2个第一特征金字塔和1个第二特征金字塔。
可选地,所述注意力层包括卷积层和激活函数,所述通过所述注意力层学习所述第一待识别特征获得第二待识别特征的步骤包括:
通过所述注意力层的卷积层学习所述第一待识别特征获得第一注意力特征;
通过所述激活函数对所述第一注意力特征进行处理获得第二注意力特征;
将所述第二注意力特征和所述第一待识别特征的数据相融合获得所述第二待识别特征。
可选地,所述方法还包括对所述神经网络模型的训练步骤:
获取样本集,按照预设比例将所述样本集分为训练样本和验证样本,并通过预设参数初始化所述神经网络模型;
通过带权采样的方式从所述训练样本中获得多个预设数量的小批量样本,其中,所述小批量样本中出现的行人数量总和与出现的车辆数量的总和之间的比例为预设比例值;
将所述多个小批量样本依次送入所述神经网络模型,计算所述训练样本的误差,然后通过反向传播算法修改所述神经网络模型中的权值,直至所述训练样本的误差在预设的范围内;
将所述验证样本输入经所述训练样本训练后的神经网络模型进行学习,进一步地修正经所述训练样本训练后的神经网络模型的权值,获取识别所述验证样本的误差、准确率。
可选地,所述获取样本集之前还包括步骤:
针对每个样本图像,获得该样本图像的多个标注信息,每个标注信息包括该样本图像中每个目标物体对应的标签,所述标签包括行人或车辆;
针对每个样本图像,统计所述标注信息中同一目标物体的标记总次数,以及被标注为行人或被标注为车辆的次数;
针对每个目标物体,若被标注为行人的次数占所述标记总次数的比例大于预设阈值,则将该目标物体确定为行人;若被标注为车辆的次数占所述标记总次数的比例大于预设阈值,则将该目标物体确定为车辆。
本申请的另一个目的在于提供一种车辆和行人检测装置,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括特征金字塔网络、注意力层和全连接层,所述车辆和行人检测装置包括图像获取模块、金字塔模块、注意力模块和识别模块;
所述图像获取模块用于获取待识别图像;
所述金字塔模块用于通过所述特征金字塔网络学习所述待识别图像获得第一待识别特征;
所述注意力模块用于通过所述注意力层学习所述第一待识别特征获得第二待识别特征;
所述识别模块用于通过所述全连接层学习所述第二待识别特征获得所述待识别图像中目标的分类概率和所述目标的位置信息,根据所述分类概率和所述目标的位置信息在所述待识别图像中标记出图像中的行人或者车辆。
可选地,所述车辆和行人检测装置还包括方框获取模块、调整模块、权值模块、确定模块;
所述方框获取模块用于根据所述分类概率和所述目标的位置信息获得多个方框,所述方框用于标记所述图像中的所述目标,所述方框包括有对应的置信分数,所述置信分数表示所述目标的分类概率;
所述调整模块用于针对所述方框中大于第一预设IOU阀值的方框,根据所述大于第一预设IOU阀值的方框的置信分数,调整所述大于第一预设IOU阀值的方框的置信分数,其中调整后的置信分数大于零;
所述权值模块用于根据第二预设IOU阈值从所述多个方框中选取所述目标的多个候选框,并根据所述候选框的置信分数获得所述候选框对应的权值;
所述确定模块用于根据所述多个候选框的置信分数和所述候选框对应的权值,通过加权平均算法获得所述目标的目标候选框。
可选地,所述注意力层包括卷积层和激活函数;所述注意力模块通过以下方式获得获得第二待识别特征:
通过所述注意力层的卷积层学习所述第一待识别特征获得第一注意力特征;
通过所述激活函数对所述第一注意力特征进行处理获得第二注意力特征;
将所述第二注意力特征和所述第一待识别特征的数据相融合得所述第二待识别特征。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的车辆和行人检测方法及装置,通过特征金字塔网络在多个尺度上提取待识别图像的特征信息获得第一待识别特征;进一步地,通过注意力层对所述第一待识别特征做进一步的处理获得第二待识别特征;进一步地,通过全连接层对所述第二待识别特征进行处理识别出所述待识别图像中的车辆和行人,并对该车辆和行人进行标记。本申请公开的技术方案通过特征金字塔网络有效的降低了对待识别图像中远处小目标的漏检,通过注意力层降低了待识别图像中遮挡或者重叠区域对识别效果的影响。并通过对训练样本进行加权处理,降低了类别不均衡对检测精度的影响。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的图像处理设备的硬件结构图;
图2为本申请实施例提供的车辆和行人检测方法的步骤流程图;
图3为本申请实施例提供的特征金字塔网络的结构图;
图4为本申请实施例提供的车辆和行人检测装置的结构图。
图标:100-图像处理设备;130-处理器;120-存储器;110-车辆和行人检测装置;800-待识别图像;801-第一特征图;802-第二特征图;803-第三特征图;804-第四特征图;805-第五特征图;806-第六特征图;807-第七特征图;808-第八特征图;809-第九特征图;1101-图像获取模块;1102-金字塔模块;1103-注意力模块;1104-识别模块;1105-方框获取模块;1106-调整模块;1107-权值模块;1108-确定模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
目前的图像识别技术难以检测远距离的小目标,对于重叠的目标或者遮挡的目标存在漏检和误检的情况。同时,现有技术在同时检测车辆和行人时,车辆和行人会相互影响,导致检测精度受到影响。
有鉴于此,本实施例提供一种通过深度学习技术同时识别车辆和行人的方法,下面对本实施例提供的方案进行详细阐述。
首先,请参照图1,本实施例提供一种图像处理设备100的硬件结构图,该图像处理设备100包括车辆和行人检测装置110、存储器120和处理器130。所述存储器120和处理器130以及各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
所述图像处理设备100可以是,但不限于,智能手机、个人电脑(personalcomputer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)、移动上网设备(mobile Internet device,MID)等。
所述图像处理设备100的操作系统可以是,但不限于,安卓(Android)系统、IOS(iPhone operating system)系统、Windows phone系统、Windows系统等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,本实施提供的车辆和行人检测方法的步骤流程图,所述车辆和行人检测方法应用于图1所示的图像处理设备100;所述图像处理设备100预设有神经网络模型,所述神经网络模型包括特征金字塔网络、注意力层和全连接层。以下将对所述方法包括各个步骤进行详细阐述。
步骤S100,获取待识别图像800。
可选地,所述待识别图像800可以是本地存储介质中存储的图像;也可以是所述图像处理设备100通过网络获取的图像采集设备采集的实时图像。
步骤S200,通过所述特征金字塔网络学习所述待识别图像800获得第一待识别特征。
可选地,为了有效降低对待识别图像800中的小目标的漏检,本实施例通过特征金字塔提取所述待识别图像800中的特征信息进而获得所述第一待识别特征。所述特征金字塔网络包括至少一层初始卷积层和特征金字塔,所述特征金字塔包括至少一个第一特征金字塔和至少一个第二特征金字塔,所述第一特征金字塔包括多个层级不同的卷积层,所述第二特征金字塔包括与所述多个层级不同的卷积层对应的多个反卷积层;其中,所述特征金字塔网络的第一个特征金字塔为第一特征金字塔,所述第一特征金字塔的输出作为所述第二特征金字塔的输入,所述第二特征金字塔的输出作为所述第一特征金字塔的输入。
所述图像处理设备100通过所述初始卷积层学习所述待识别图像800获得初始特征图。进一步地,所述图像处理设备100依次通过所述第一特征金字塔和所述第二特征金字塔学习所述初始特征图,将所述特征金字塔网络中最后一个特征金字塔每一层的输出作为所述第一待识别特征,其中,所述第一特征金字塔的每一个卷积层的输出和该卷积层对应的上一个第二特征金字塔的反卷积层的输入相融合;所述第二特征金字塔网络的每一个反卷积层输出和该反卷积层对应的上一个第一特征金字塔的卷积层的输入相融合。
例如,在一种可能的示例中,请参照图3所示的特征金字塔网络的结构图,所述特征金字塔网络包括2个第一特征金字塔、1个第二特征金字塔和一个初始卷积层。所述第一特征金字塔包括2个卷积层,所述第二特征金字塔包括2个反卷积层。
所述图像处理设备100将所述待识别图像800通过该初始卷积层提取特征获得第一特征图801。进一步地,所述图像处理设备100依次通过第一个第一特征金字塔的2个卷积层对所述第一特征图801进行特征提取获得第二特征图802和第三特征图803。
所述图像处理设备100通过1×1的卷积核对所述第三特征图803进行通道数量的调整获得第四特征图804。所述图像处理设备100通过该第二特征金字塔的第一个反卷积层对所述第四特征图804进行反卷积处理,并将处理后的特征图和第二特征图802相融合得到第五特征图805,其中,所述处理后的特征图和所述第二特征图802的通道数相等,且分辨率相等。所述图像处理设备100通过该第二特征金字塔的第二个反卷积层对所述第五特征图805进行反卷积处理,并将处理后的特征图和所述第一特征图801相融合得到第六特征图806,其中,所述处理后的特征图和所述第一特征图801的通道数相等,且分辨率相等。
所述图像处理设备100通过1×1的卷积核对所述第六特征图806进行通道数量的调整得到第七特征图807。所述图像处理设备100通过第二个第一特征金字塔的第一卷积层对所述第七特征图807进行卷积处理,将处理后的特征图像和第六特征图806像相融合得到第八特征图808。进一步地,所述图像处理设备100通过第二个第一特征金字塔的第二卷积层对所述第八特征图808进行卷积处理,并将处理后的图像和第五特征图805相融合得到第九特征图809。所述图像处理设备100将第七特征图807、第八特征图808和第九特征图809作为所述特征金字塔网络的输出。
所述图像处理设备100通过特征金字塔网络对待识别图像800进行特征提取,有效的降低了对小目标的漏检。尤其是在对高速公路上的监控摄像头采集的图像进行识别时,能够识别出监控摄像头采集的图像中远距离的小目标,进而达到监控远距离的车辆或者行人是否违规的目的,增加了响应时间。
可选地,为了使得图像处理设备100提取的特征集中在待识别图像800的非遮挡区域,降低遮挡或者重叠区域对特征的影响,所述神经网络引入了注意力层。所述图像处理设备100将所述特遮挡金字塔网络输出的第一待识别特征送入注意力层进行处理。所述注意力层包括卷积层和激活函数,其中,在本实施例中,所述激活函数为Sigmoid激活函数,所述卷积层的卷积核大小为1×1。所述图像处理设备100通过所述注意力层的卷积层对所述第一待识别特做进一步的处理获得第一注意力特征,并将所述第一注意力特征通过激活函数进行处理获得第二注意力特征。最后,所述图像处理设备100将所述第二注意力特征和所述第一待识别特征相融合获得第二待识别特征。在本实施例中,所述图像处理设备100将所述第二注意力特征和所述第一待识别特征相乘进行融合。
可选地,所述图像处理设备100根据所述分类概率和所述目标的位置信息获得多个方框,所述方框用于标记所述图像中的所述目标,所述方框包括有对应的置信分数,所述置信分数表示所述目标的分类概率。
为了避免非极大值抑制算法中,选取置信分数最大的方框,并将其他方框中IOU大于预设阀值的方框的置信分数标记为0,进而导致过滤掉一些正确目标。所述图像处理设备100针对所述方框中大于第一预设IOU阀值的方框,根据所述大于第一预设IOU阀值的方框的置信分数,调整所述大于第一预设IOU阀值的方框的置信分数,其中调整后的置信分数大于零,进而避免过滤掉一些正确的目标。比如,通过线性函数对所述置信分数做相应线性运算获得调整后的置信分数,或者通过非线性函数对所述置信分数做相应非线性运算获得调整后的置信分数。
所述图像处理设备100根据第二预设IOU阈值从所述方框中选取所述目标的多个候选框,并根据所述候选框的置信分数获得所述候选框对应的权值。进一步地,所述图像处理设备100根据所述多个候选框的置信分数和所述候选框对应的权值,通过加权平均算法获得所述目标的目标候选框。
可选地,所述车辆和行人检测方法还包括对所述神经网络模型的训练步骤。所述图像处理设备100获取样本集,按照预设比例将所述样本集分为训练样本和验证样本,并通过预设参数初始化所述神经网络模型;通过带权采样的方式从所述训练样本中获得多个预设数量的小批量样本,其中,所述小批量样本中出现的行人数量总和与出现的车辆数量的总和之间的比例为预设比例值;将所述多个小批量样本依次送入所述神经网络模型,计算所述训练样本的误差,然后通过反向传播算法修改所述神经网络模型中的权值,直至所述训练样本的误差在预设的范围内;将所述验证样本输入经所述训练样本训练后的神经网络模型进行学习,进一步地修正经所述训练样本训练后的神经网络模型的权值,获取识别所述验证样本的误差、准确率。
由于使得训练后的神经网络模型能够同时识别行人和车辆,所述训练样本中包含有行人和车辆,为了消除行人和车辆比例不平衡对训练的时带来的不稳定性影响,采用训练样本带权采样来平衡两类之间的比例。经发明人研究发现,每一批次的训练样本中出现的行人和车辆总数的比例为1:2,可以有效改善人的检测对车辆检测带来的不好影响。
可选地,对于样本中远距离的小目标,人眼并不能准确的辨别出目标是行人还是车辆。为了保证样本数据的客观性,针对同一个样本图像,让多个人对样本图像中的出现的目标标记为行人或者车辆。所述图像处理设备100针对每个样本图像,统计所述标注信息中同一目标物体的标记总次数,以及被标注为行人或被标注为车辆的次数;针对每个目标物体,若被标注为行人的次数占所述标记总次数的比例大于预设阈值,则将该目标物体确定为行人;若被标注为车辆的次数占所述标记总次数的比例大于预设阈值,则将该目标物体确定为车辆。
请参照图4,本实施例还提供一种车辆和行人检测装置110的结构图,所述车辆和行人检测装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述图像处理设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述车辆和行人检测装置110所包括的软件功能模块及计算机程序等。
所述车辆和行人检测装置110应用于图像处理设备100,所述图像处理设备100预设有神经网络模型,所述神经网络模型包括特征金字塔网络、注意力层和全连接层,从功能上划分,所述车辆和行人检测装置110包括图像获取模块1101、金字塔模块1102、注意力模块1103和识别模块1104;
所述图像获取模块1101用于获取待识别图像800。
在本实施例中,所述图像获取模块1101用于执行图2中的步骤S100,关于所述图像处理模块的详细描述可以参考步骤S100的详细描述。
所述金字塔模块1102用于通过所述特征金字塔网络学习所述待识别图像800获得第一待识别特征。
在本实施例中,所述金字塔模块1102用于执行图2中的步骤S200,关于所述金字塔模块1102的详细描述可以参考步骤S200的详细描述。
所述注意力模块1103用于通过所述注意力层学习所述第一待识别特征获得第二待识别特征。
在本实施例中,所述注意力模块1103用于执行图2中的步骤S300,关于所述金字塔模块1102的详细描述可以参考步骤S300的详细描述。
所述识别模块1104用于通过所述全连接层学习所述第二待识别特征获得所述待识别图像800中目标的分类概率和所述目标的位置信息,根据所述分类概率和所述目标的位置信息在所述待识别图像800中标记出图像中的行人或者车辆。
在本实施例中,所述识别模块1104用于执行图2中的步骤S400,关于所述识别模块1104的详细描述可以参考步骤S400的详细描述。
可选地,所述车辆和行人检测装置110还包括方框获取模块1105、调整模块1106、权值模块1107、确定模块1108。
所述方框获取模块1105用于根据所述分类概率和所述目标的位置信息获得多个方框,所述方框用于标记所述图像中的所述目标,所述方框包括有对应的置信分数,所述置信分数表示所述目标的分类概率;
所述调整模块1106用于针对所述方框中大于第一预设IOU阀值的方框,根据所述大于第一预设IOU阀值的方框的置信分数,调整所述大于第一预设IOU阀值的方框的置信分数,其中调整后的置信分数大于零;
所述权值模块1107用于根据第二预设IOU阈值从所述多个方框中选取所述目标的多个候选框,并根据所述候选框的置信分数获得所述候选框对应的权值;
所述确定模块1108用于根据所述多个候选框的置信分数和所述候选框对应的权值,通过加权平均算法获得所述目标的目标候选框。
可选地,所述注意力层包括卷积层和激活函数;所述注意力模块1103通过以下方式获得获得第二待识别特征:
通过所述注意力层的卷积层学习所述第一待识别特征获得第一注意力特征;
通过所述激活函数对所述第一注意力特征进行处理获得第二注意力特征;
将所述第二注意力特征和所述第一待识别特征的数据相融合得所述第二待识别特征。
本申请提供的车辆和行人检测方法及装置,通过特征金字塔网络在多个尺度上提取待识别图像800的特征信息获得第一待识别特征;进一步地,通过注意力层对所述第一待识别特征做进一步的处理获得第二待识别特征;进一步地,通过全连接层对所述第二待识别特征进行处理识别出所述待识别图像800中的车辆和行人,并对该车辆和行人进行标记。本申请公开的技术方案通过特征金字塔网络有效的降低了对待识别图像800中远处小目标的漏检,通过注意力层降低了待识别图像800中遮挡或者重叠区域对识别效果的影响。并通过对训练样本进行加权处理,降低了类别不均衡对检测精度的影响。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种车辆和行人检测方法,其特征在于,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括特征金字塔网络、注意力层和全连接层,所述方法包括:
获取待识别图像;
通过所述特征金字塔网络学习所述待识别图像获得第一待识别特征;
通过所述注意力层学习所述第一待识别特征获得第二待识别特征,所述注意力层用于关注待识别图像的特定区域;
通过所述全连接层学习所述第二待识别特征获得所述待识别图像中目标的分类概率和所述目标的位置信息。
2.根据权利要求1所述的车辆和行人检测方法,其特征在于,所述方法还包括:
根据所述分类概率和所述目标的位置信息获得多个方框,所述方框用于标记所述图像中的所述目标,所述方框包括有对应的置信分数,所述置信分数表示所述目标的分类概率;
针对所述方框中大于第一预设IOU阀值的方框,根据所述大于第一预设IOU阀值的方框的置信分数,调整所述大于第一预设IOU阀值的方框的置信分数,其中调整后的置信分数大于零;
根据第二预设IOU阈值从所述多个方框中选取所述目标的多个候选框,并根据所述候选框的置信分数获得所述候选框对应的权值;
根据所述多个候选框的置信分数和所述候选框对应的权值,通过加权平均算法获得所述目标的目标候选框。
3.根据权利要求1所述的车辆和行人检测方法,其特征在于,所述特征金字塔网络包括至少一层初始卷积层和特征金字塔,所述特征金字塔包括至少一个第一特征金字塔和至少一个第二特征金字塔,所述第一特征金字塔包括多个层级不同的卷积层,所述第二特征金字塔包括与所述多个层级不同的卷积层对应的多个反卷积层;其中,所述特征金字塔网络的第一个特征金字塔为第一特征金字塔,所述第一特征金字塔的输出作为所述第二特征金字塔的输入,所述第二特征金字塔的输出作为所述第一特征金字塔的输入;所述通过所述特征金字塔网络学习所述待识别图像获得第一待识别特征的步骤包括:
通过所述初始卷积层学习所述待识别图像获得初始特征图;
依次通过所述第一特征金字塔和所述第二特征金字塔学习所述初始特征图,将所述特征金字塔网络中最后一个特征金字塔每一层的输出作为所述第一待识别特征,其中,所述第一特征金字塔的每一个卷积层的输出和该卷积层对应的上一个第二特征金字塔的反卷积层的输入相融合;所述第二特征金字塔网络的每一个反卷积层输出和该反卷积层对应的上一个第一特征金字塔的卷积层的输入相融合。
4.根据权利要求3所述的车辆和行人检测方法,其特征在于,所述特征金字塔网络包括2个第一特征金字塔和1个第二特征金字塔。
5.根据权利要求1所述的车辆和行人检测方法,其特征在于,所述注意力层包括卷积层和激活函数,所述通过所述注意力层学习所述第一待识别特征获得第二待识别特征的步骤包括:
通过所述注意力层的卷积层学习所述第一待识别特征获得第一注意力特征;
通过所述激活函数对所述第一注意力特征进行处理获得第二注意力特征;
将所述第二注意力特征和所述第一待识别特征的数据相融合获得所述第二待识别特征。
6.根据权利要求1所述的车辆和行人检测方法,其特征在于,所述方法还包括对所述神经网络模型的训练步骤:
获取样本集,按照预设比例将所述样本集分为训练样本和验证样本,并通过预设参数初始化所述神经网络模型;
通过带权采样的方式从所述训练样本中获得多个预设数量的小批量样本,其中,所述小批量样本中出现的行人数量总和与出现的车辆数量的总和之间的比例为预设比例值;
将所述多个预设数量的小批量样本依次送入所述神经网络模型,计算所述训练样本的误差,然后通过反向传播算法修改所述神经网络模型中的权值,直至所述训练样本的误差在预设的范围内;
将所述验证样本输入经所述训练样本训练后的神经网络模型进行学习,进一步地修正经所述训练样本训练后的神经网络模型的权值,获取识别所述验证样本的误差、准确率。
7.根据权利要求6所述的车辆和行人检测方法,其特征在于,所述获取样本集之前还包括步骤:
针对每个样本图像,获得该样本图像的多个标注信息,每个标注信息包括该样本图像中每个目标物体对应的标签,所述标签包括行人或车辆;
针对每个样本图像,统计所述标注信息中同一目标物体的标记总次数,以及被标注为行人或被标注为车辆的次数;
针对每个目标物体,若被标注为行人的次数占所述标记总次数的比例大于预设阈值,则将该目标物体确定为行人;若被标注为车辆的次数占所述标记总次数的比例大于预设阈值,则将该目标物体确定为车辆。
8.一种车辆和行人检测装置,其特征在于,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括特征金字塔网络、注意力层和全连接层,所述车辆和行人检测装置包括图像获取模块、金字塔模块、注意力模块和识别模块;
所述图像获取模块用于获取待识别图像;
所述金字塔模块用于通过所述特征金字塔网络学习所述待识别图像获得第一待识别特征;
所述注意力模块用于通过所述注意力层学习所述第一待识别特征获得第二待识别特征;
所述识别模块用于通过所述全连接层学习所述第二待识别特征获得所述待识别图像中目标的分类概率和所述目标的位置信息,根据所述分类概率和所述目标的位置信息在所述待识别图像中标记出图像中的行人或者车辆。
9.根据权利要求8所述的车辆和行人检测装置,其特征在于,所述车辆和行人检测装置还包括方框获取模块、调整模块、权值模块、确定模块;
所述方框获取模块用于根据所述分类概率和所述目标的位置信息获得多个方框,所述方框用于标记所述图像中的所述目标,所述方框包括有对应的置信分数,所述置信分数表示所述目标的分类概率;
所述调整模块用于针对所述方框中大于第一预设IOU阀值的方框,根据所述大于第一预设IOU阀值的方框的置信分数,调整所述大于第一预设IOU阀值的方框的置信分数,其中调整后的置信分数大于零;
所述权值模块用于根据第二预设IOU阈值从所述多个方框中选取所述目标的多个候选框,并根据所述候选框的置信分数获得所述候选框对应的权值;
所述确定模块用于根据所述多个候选框的置信分数和所述候选框对应的权值,通过加权平均算法获得所述目标的目标候选框。
10.根据权利要求8所述的车辆和行人检测装置,其特征在于,所述注意力层包括卷积层和激活函数;所述注意力模块通过以下方式获得获得第二待识别特征:
通过所述注意力层的卷积层学习所述第一待识别特征获得第一注意力特征;
通过所述激活函数对所述第一注意力特征进行处理获得第二注意力特征;
将所述第二注意力特征和所述第一待识别特征的数据相融合得所述第二待识别特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910033533.2A CN110688883A (zh) | 2019-01-14 | 2019-01-14 | 车辆和行人检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910033533.2A CN110688883A (zh) | 2019-01-14 | 2019-01-14 | 车辆和行人检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688883A true CN110688883A (zh) | 2020-01-14 |
Family
ID=69107603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910033533.2A Pending CN110688883A (zh) | 2019-01-14 | 2019-01-14 | 车辆和行人检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688883A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368634A (zh) * | 2020-02-05 | 2020-07-03 | 中国人民解放军国防科技大学 | 基于神经网络的人头检测方法、系统及存储介质 |
CN111401424A (zh) * | 2020-03-10 | 2020-07-10 | 北京迈格威科技有限公司 | 目标检测方法、装置和电子系统 |
CN111597959A (zh) * | 2020-05-12 | 2020-08-28 | 三一重工股份有限公司 | 行为检测方法、装置及电子设备 |
CN111862034A (zh) * | 2020-07-15 | 2020-10-30 | 平安科技(深圳)有限公司 | 图像检测方法、装置、电子设备及介质 |
CN112633158A (zh) * | 2020-12-22 | 2021-04-09 | 广东电网有限责任公司电力科学研究院 | 一种输电线路走廊车辆识别方法、装置、设备和存储介质 |
CN113468938A (zh) * | 2020-07-31 | 2021-10-01 | 成都通甲优博科技有限责任公司 | 交通图像识别方法、装置、图像处理设备及可读存储介质 |
CN114299539A (zh) * | 2021-12-24 | 2022-04-08 | 泰康保险集团股份有限公司 | 一种模型训练方法、行人重识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574550A (zh) * | 2016-02-02 | 2016-05-11 | 北京格灵深瞳信息技术有限公司 | 一种车辆识别方法及装置 |
US20180018524A1 (en) * | 2015-12-16 | 2018-01-18 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
CN108764133A (zh) * | 2018-05-25 | 2018-11-06 | 北京旷视科技有限公司 | 图像识别方法、装置及系统 |
-
2019
- 2019-01-14 CN CN201910033533.2A patent/CN110688883A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018524A1 (en) * | 2015-12-16 | 2018-01-18 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
CN105574550A (zh) * | 2016-02-02 | 2016-05-11 | 北京格灵深瞳信息技术有限公司 | 一种车辆识别方法及装置 |
CN108764133A (zh) * | 2018-05-25 | 2018-11-06 | 北京旷视科技有限公司 | 图像识别方法、装置及系统 |
Non-Patent Citations (5)
Title |
---|
JIANFENG WANG ET AL.: "Face Attention Network: An Effective Face Detector for the Occluded Faces", 《ARXIV:1711.07246V2》 * |
NAVANEETH BODLA ET AL.: "Improving Object Detetion With One Line of Code", 《ARXIV:1704.04503V2》 * |
SHU LIU,ET AL.: "Path Aggregation Network for Instance Segmentation", 《PATH AGGREGATION NETWORK FOR INSTANCE SEGMENTATION》 * |
李超 等: "《北京语言大学青年学者文库 留学生书写行为数据库建设及应用研究》", 31 May 2017 * |
谢庆生: "《机械工程中的神经网络方法》", 31 March 2003 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368634A (zh) * | 2020-02-05 | 2020-07-03 | 中国人民解放军国防科技大学 | 基于神经网络的人头检测方法、系统及存储介质 |
CN111401424A (zh) * | 2020-03-10 | 2020-07-10 | 北京迈格威科技有限公司 | 目标检测方法、装置和电子系统 |
CN111401424B (zh) * | 2020-03-10 | 2024-01-26 | 北京迈格威科技有限公司 | 目标检测方法、装置和电子系统 |
CN111597959A (zh) * | 2020-05-12 | 2020-08-28 | 三一重工股份有限公司 | 行为检测方法、装置及电子设备 |
CN111597959B (zh) * | 2020-05-12 | 2023-09-26 | 盛景智能科技(嘉兴)有限公司 | 行为检测方法、装置及电子设备 |
CN111862034A (zh) * | 2020-07-15 | 2020-10-30 | 平安科技(深圳)有限公司 | 图像检测方法、装置、电子设备及介质 |
CN111862034B (zh) * | 2020-07-15 | 2023-06-30 | 平安科技(深圳)有限公司 | 图像检测方法、装置、电子设备及介质 |
CN113468938A (zh) * | 2020-07-31 | 2021-10-01 | 成都通甲优博科技有限责任公司 | 交通图像识别方法、装置、图像处理设备及可读存储介质 |
CN112633158A (zh) * | 2020-12-22 | 2021-04-09 | 广东电网有限责任公司电力科学研究院 | 一种输电线路走廊车辆识别方法、装置、设备和存储介质 |
CN114299539A (zh) * | 2021-12-24 | 2022-04-08 | 泰康保险集团股份有限公司 | 一种模型训练方法、行人重识别方法和装置 |
CN114299539B (zh) * | 2021-12-24 | 2024-08-13 | 泰康保险集团股份有限公司 | 一种模型训练方法、行人重识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688883A (zh) | 车辆和行人检测方法及装置 | |
CN112990432B (zh) | 目标识别模型训练方法、装置及电子设备 | |
US20210213961A1 (en) | Driving scene understanding | |
CN111222395A (zh) | 目标检测方法、装置与电子设备 | |
KR20210110823A (ko) | 이미지 인식 방법, 인식 모델의 트레이닝 방법 및 관련 장치, 기기 | |
CN109086734B (zh) | 一种对人眼图像中瞳孔图像进行定位的方法及装置 | |
CN109740617A (zh) | 一种图像检测方法及装置 | |
CN109087510A (zh) | 交通监测方法及装置 | |
CN105224947A (zh) | 分类器训练方法和系统 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN111310826B (zh) | 样本集的标注异常检测方法、装置及电子设备 | |
CN111428539A (zh) | 目标跟踪方法及装置 | |
US10719706B1 (en) | Systems and methods for nested autoencoding of radar for neural image analysis | |
CN111738263A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN113095445B (zh) | 一种目标识别方法及装置 | |
CN113763348A (zh) | 图像质量确定方法、装置、电子设备及存储介质 | |
CN110956615A (zh) | 图像质量评估模型训练方法、装置、电子设备及存储介质 | |
CN114821102A (zh) | 密集柑橘数量检测方法、设备、存储介质及装置 | |
CN112052907A (zh) | 基于图像边缘信息的目标检测方法、装置及存储介质 | |
CN112232368A (zh) | 目标识别模型训练方法、目标识别方法及其相关装置 | |
EP3376438A1 (en) | A system and method for detecting change using ontology based saliency | |
CN111881984A (zh) | 一种基于深度学习的目标检测方法和装置 | |
CN110490058B (zh) | 行人检测模型的训练方法、装置、系统和计算机可读介质 | |
CN108509826B (zh) | 一种遥感影像的道路识别方法及其系统 | |
CN115346051A (zh) | 一种光学遥感图像检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |
|
RJ01 | Rejection of invention patent application after publication |