CN113313082B

CN113313082B - 一种基于多任务损失函数的目标检测方法及系统

Info

Publication number: CN113313082B
Application number: CN202110853572.4A
Authority: CN
Inventors: 文彬; 严凡; 周鹏兵; 杨涛
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-29
Anticipated expiration: 2041-07-28
Also published as: CN113313082A

Abstract

本发明涉及一种基于多任务损失函数的目标检测方法及系统，该方法包括：采集视频图像数据集；构建多任务损失函数，多任务损失函数包括回归损失函数和分类损失函数，回归损失函数为Balanced L1 Loss损失函数，分类损失函数为增强边缘余弦损失函数；构建基于特征金字塔网络的Faster R‑CNN网络结构；采用视频图像数据集对基于特征金字塔网络的Faster R‑CNN网络进行训练，获得目标检测模型；利用目标检测模型对待检测图像进行目标检测。本发明通过构建多任务损失函数，提高了目标检测的准确性。

Description

一种基于多任务损失函数的目标检测方法及系统

技术领域

本发明涉及目标检测技术领域，特别是涉及一种基于多任务损失函数的目标检测方法及系统。

背景技术

作为安防领域的重要防护措施之一，可见光视频监控被广泛应用于公安、银行、军工、交通、酒店等重要场所。近年来，随着计算机视觉技术的发展和计算机运算性能的提升，基于深度学习的目标检测技术被越来越多地应用于视频监控中。该技术可在无需人员参与的情况下，通过分析和提取视频图像中的视觉信息，对视频中的感兴趣目标进行自动分类和定位，从而在快速获取目标信息的同时，节约大量人力物力，具有较强的实用性。然而相比常规静态图像的目标检测，基于视频图像的目标检测存在更大的挑战。动态拍摄场景下的目标视觉轮廓较模糊，难以准确定位，而且受到拍摄角度和目标姿态变化的影响，目标外形往往存在较大的类间相似性和类内差异性，导致其分类难度较高。因此，视频图像目标检测对深度神经网络的定位和分类能力均提出了较高要求，这也使得该研究领域受到越来越多研究人员的关注。

在深度神经网络中，损失函数通过计算模型预测值与真实值的差异来反映算法的性能优劣。因此需要通过训练模型寻找一组使损失函数值最小的模型参数，来获得性能最优的网络模型。基于深度学习的目标检测算法包含定位和分类两大任务，深度神经网络的训练目标就是使模型的定位损失和分类损失之和达到最小，现有目标检测算法多采用交叉熵损失函数Softmax Loss作为分类损失，平滑损失函数Smooth L1 Loss作为回归损失函数。但Softmax Loss通过为各类目标寻找最佳分类面，仅能实现目标类别的可分性，特征判别能力不足。而在Smooth L1 Loss中，困难样本贡献的定位损失值远大于常规样本，导致网络倾向于关注个别困难样本的粗定位问题，难以实现被检测目标的精细化定位。

发明内容

本发明的目的是提供一种基于多任务损失函数的目标检测方法及系统，提高了目标检测的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于多任务损失函数的目标检测方法，包括：

采集视频图像数据集；

构建基于特征金字塔网络的Faster R-CNN网络结构；

为所述基于特征金字塔网络的Faster R-CNN网络结构构建多任务损失函数，所述多任务损失函数包括回归损失函数和分类损失函数，所述回归损失函数为Balanced L1Loss损失函数，所述分类损失函数为增强边缘余弦损失函数；

采用所述视频图像数据集对所述基于特征金字塔网络的Faster R-CNN网络进行训练，获得目标检测模型；

利用所述目标检测模型对待检测图像进行目标检测；

所述多任务损失函数表示为：

；

其中，L表示所述多任务损失函数，L _lmc表示所述增强边缘余弦损失函数，L _{balanced L1}表示所述Balanced L1 Loss损失函数；u表示目标样本的特征向量，q表示余弦边界，N表示第一样本个数，n表示类别总数，r表示不属于样本真实类别的类别，j表示样本真实类别，θ _r,u表示u和类别r的夹角，θ _j,u表示u和类别j的夹角，R表示设定值；

；

x表示预测框的中心横坐标，y表示预测框的中心纵坐标，w表示预测框的宽度，h表示预测框的高度，N ^*表示第二样本个数，a _i表示位置参数i的目标检测模型的预测值；b _i表示位置参数i的目标检测模型的真实值；β为比例参数，µ为第一调节参数，λ为第二调节参数，Ψ为权重值，C表示常数。

可选地，所述基于特征金字塔网络的Faster RCNN网络包括骨干网络、特征金字塔网络、区域生成网络、ROI池化层和检测头，所述骨干网络为ResNet101，所述骨干网络包括五个卷积模块，五个所述卷积模块分别用于输出特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5，特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5的尺寸依次减小；特征金字塔网络用于将特征图C_2、特征图C_3、特征图C_4和特征图C_5均经过一个卷积核为1*1的卷积层，获得特征图P_2、特征图P_3、特征图P_4和特征图P_5，所述特征图P_5进行0.5倍下采样获得特征图P_6，所述特征图P_5进行2倍上采样后与所述特征图P_4按元素相加后经过一个卷积核为3*3的卷积层获得特征图P4，所述特征图P_4进行2倍上采样后与所述特征图P_3按元素相加后经过一个卷积核为3*3的卷积层获得特征图P3，所述特征图P_3进行2倍上采样后与所述特征图P_2按元素相加后经过一个卷积核为3*3的卷积层获得特征图P2；所述特征图P_6、所述特征图P_5、所述特征图P4、所述特征图P3、所述特征图P2均输入所述区域生成网络，所述区域生成网络连接所述ROI池化层，所述ROI池化层连接所述检测头，所述检测头用于输出检测结果。

可选地，所述检测头包括回归支路和分类支路；所述分类支路用于确定检测目标的类别，所述回归支路用于确定检测目标的位置信息。

可选地，所述采集视频图像数据集，具体包括：

通过可见光摄像头采集来往人流与车流的视频数据；

将所述视频数据转化为一组连续帧的图片；

采用Labelme软件对各所述图片中的各类目标进行类别标注，获得可扩展标记语言格式的标注文件，所述标注文件和与所述标注文件对应的图片构成视频图像数据集。

本发明还公开了一种基于多任务损失函数的目标检测系统，包括：

数据集采集模块，用于采集视频图像数据集；

网络结构构建模块，用于构建基于特征金字塔网络的Faster R-CNN网络结构；

多任务损失函数构建模块，用于为所述基于特征金字塔网络的Faster R-CNN网络结构构建多任务损失函数，所述多任务损失函数包括回归损失函数和分类损失函数，所述回归损失函数为Balanced L1 Loss损失函数，所述分类损失函数为增强边缘余弦损失函数；

模型训练模块，用于采用所述视频图像数据集对所述基于特征金字塔网络的Faster R-CNN网络进行训练，获得目标检测模型；

目标检测模块，用于利用所述目标检测模型对待检测图像进行目标检测；

所述多任务损失函数表示为：

；

；

可选地，所述数据集采集模块，具体包括：

视频数据采集单元，用于通过可见光摄像头采集来往人流与车流的视频数据；

图片转化单元，用于将所述视频数据转化为一组连续帧的图片；

类别标注单元，用于采用Labelme软件对各所述图片中的各类目标进行类别标注，获得可扩展标记语言格式的标注文件，所述标注文件和与所述标注文件对应的图片构成视频图像数据集。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明构建多任务损失函数，多任务损失函数包括回归损失函数和分类损失函数，回归损失函数为Balanced L1 Loss损失函数，让分类损失、困难样本回归损失函数及非困难样本回归损失函数更加平衡地参与网络训练过程，分类损失函数为增强边缘余弦损失函数，使目标检测模型输出的特征向量呈现类内紧凑、类间分离的状态，经过回归支路好分类支路的联合优化提高了目标定位和分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于多任务损失函数的目标检测方法流程示意图；

图2为本发明一种基于多任务损失函数的目标检测方法详细流程示意图；

图3为本发明基于特征金字塔网络的Faster R-CNN网络结构示意图；

图4为本发明一种基于多任务损失函数的目标检测系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

动态拍摄场景下目标模糊的视觉轮廓和较大的类间相似性与类内差异性等因素，使得现有目标检测算法难以实现视频图像目标的准确定位与分类。本发明针对视频图像目标的检测难点，设计了一种新型多任务损失函数，并将其与基于特征金字塔网络(FeaturePyramid Network, FPN)的Faster RCNN检测网络相结合，提出了新型的深度神经网络结构。其特点是采用新型多任务损失函数对基于特征金字塔网络(Feature PyramidNetwork, FPN)的Faster RCNN网络进行改进，来增强网络的精细化定位能力和特征判别能力，并基于改进后网络对视频图像进行感兴趣目标检测，从而提高深度神经网络对视频图像目标的检测准确率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种基于多任务损失函数的目标检测方法流程示意图，如图1所示，一种基于多任务损失函数的目标检测方法，包括以下步骤：

步骤101：采集视频图像数据集。

其中，步骤101具体包括：

通过可见光摄像头采集来往人流与车流的视频数据；

将视频数据转化为一组连续帧的图片；

采用Labelme软件对各图片中的各类目标进行类别标注，获得可扩展标记语言格式的标注文件，标注文件和与标注文件对应的图片构成视频图像数据集。

步骤103：构建基于特征金字塔网络的Faster R-CNN网络结构。

步骤102：为基于特征金字塔网络的Faster R-CNN网络结构构建多任务损失函数，多任务损失函数包括回归损失函数和分类损失函数，回归损失函数为Balanced L1 Loss损失函数，分类损失函数为增强边缘余弦损失函数。

多任务损失函数表示为：

；

其中，L表示多任务损失函数，L _lmc表示增强边缘余弦损失函数，L _{balanced L1}表示Balanced L1 Loss损失函数；u表示目标样本的特征向量，q表示余弦边界，N表示第一样本个数，n表示类别总数，r表示不属于样本真实类别的类别，j表示样本真实类别，θ _r,u表示u和类别r的夹角，θ _j,u表示u和类别j的夹角，R表示设定值；

；

x表示预测框的中心横坐标，y表示预测框的中心纵坐标，w表示预测框的宽度，h表示预测框的高度，N ^*表示第二样本个数，a _i表示位置参数的目标检测模型的预测值；b _i表示位置参数的目标检测模型的真实值，位置参数包括x、y、w和h；β为比例参数，µ为第一调节参数，λ为第二调节参数，Ψ为权重值，C表示常数，C用于调节损失值的大小。βln(λ+1)=µ。

步骤104：采用视频图像数据集对基于特征金字塔网络的Faster R-CNN网络进行训练，获得目标检测模型。

步骤105：利用目标检测模型对待检测图像进行目标检测。

基于特征金字塔网络的Faster R-CNN网络结构包括骨干网络、特征金字塔网络、区域生成网络、ROI池化层和检测头，骨干网络为ResNet101，骨干网络包括五个卷积模块，五个卷积模块分别用于输出特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5，特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5的尺寸依次减小；特征金字塔网络用于将特征图C_2、特征图C_3、特征图C_4和特征图C_5均经过一个卷积核为1*1的卷积层，获得特征图P_2、特征图P_3、特征图P_4和特征图P_5，特征图P_5进行0.5倍下采样获得特征图P_6，特征图P_5进行2倍上采样后与特征图P_4按元素相加后经过一个卷积核为3*3的卷积层获得特征图P4，特征图P_4进行2倍上采样后与特征图P_3按元素相加后经过一个卷积核为3*3的卷积层获得特征图P3，特征图P_3进行2倍上采样后与特征图P_2按元素相加后经过一个卷积核为3*3的卷积层获得特征图P2；特征图P_6、特征图P_5、特征图P4、特征图P3、特征图P2均输入区域生成网络，区域生成网络连接ROI池化层，ROI池化层连接检测头，检测头用于输出检测结果。检测头包括回归支路和分类支路，回归支路的回归损失函数为Balanced L1 Loss损失函数，分类支路的回归损失函数为增强边缘余弦损失函数。

检测头包括回归支路和分类支路；分类支路用于确定检测目标的类别，回归支路用于确定检测目标的位置信息。

区域生成网络用于生成一系列的候选目标区域。区域生成网络的输出连接ROI池化层。

ROI池化层中的算法具体为：根据特征图P2和区域生成网络生成的候选目标区域提取特征图，根据特征图P3和区域生成网络生成的候选目标区域提取特征图，根据特征图P4和区域生成网络生成的候选目标区域提取特征图，根据特征图P_5和区域生成网络生成的候选目标区域提取特征图，根据特征图P_6和区域生成网络生成的候选目标区域提取特征图。

下面以具体实施例说明本发明一种基于多任务损失函数的目标检测方法。

Step1、构建视频图像数据集。具体过程为：首先通过可见光摄像头采集路面来往人流与车流的视频数据；其次，将所采集可见光视频转化为一组连续帧的图片；接下来，基于Labelme软件对图像中的各类目标进行类别标注，并获得可扩展标记语言(ExtensibleMarkup Language, XML)格式的标注文件；最后，根据8:2比例将图片集合随机划分为训练集和测试集，将图像集合与对应的标注文件制成VOC格式的数据集，即得到视频图像数据集。

Step2、设计新型多任务损失函数，并将其嵌入Faster RCNN网络末端来代替原有损失函数。本发明中Faster RCNN所使用的损失函数由两大支路组成，回归支路和分类支路，分别用来对检测目标进行最终定位和类别划分。设计新型多任务损失函数，并将其嵌入Faster RCNN网络末端取代原有损失函数，以便使其更准确地衡量网络预测值与真实值的差异，从而引导网络向最佳方向优化来实现更精确的目标检测。如图3所示，以本发明输入视频图像1024×1024为例，其经过Faster RCNN中各卷积层和全连接层的逐层特征提取后最终在回归支路和分类支路分别输出一个类别预测值和四个位置参数预测值，将该组预测值作为损失函数的输入，展示新型多任务损失函数的设计过程：

首先设计回归损失函数，将经过Faster RCNN逐层特征提取后在回归支路输出的目标位置参数的预测值（四个预测值：x, y, w, h分别表示预测框的中心横纵坐标、宽度和高度）作为该损失函数的输入值。回归分支采用平衡损失Balanced L1 Loss进行损失值计算。其计算公式如下：

；

。

式中，

表示每个训练批次的样本个数；(x, y, w, h)表示目标框的四个位置参数；a _i表示位置参数i的模型预测值；b _i表示位置参数i的真实值；β用于调节非困难样本在回归损失函数中所占的比例，非困难样本的定位损失值占比随着β值的减小而增大，并且该操作不改变困难样本对应损失值；µ用于调节损失函数值的上界；

用于保证在，a _i-b _i=1时，两种情况输出的函数值相等，即βln(λ+1)=µ。

通过调节Balanced L1 Loss中的参数β和

，可以避免原有边框回归损失函数Smooth L1 Loss中非困难样本损失值容易被过大的困难样本损失淹没的不足，让分类损失、困难样本回归损失及非困难样本回归损失更加平衡地参与网络训练过程，从而实现更加精细化的目标定位。

接下来设计分类损失函数，将经过Faster RCNN逐层特征提取后在分类支路输出的目标类别预测值作为该损失函数的输入值。分类损失采用增强边缘余弦损失函数（LargeMargin Cosine Loss，LMCL）代替Softmax Loss，以实现特征类内差异的最小化和类间差异的最大化，其计算过程如下：

首先对目标样本的特征向量u^*和权重向量w^*进行L2范数归一化，即

；其中，w^*表示第r个样本的权值向量，W _r表示第r个样本归一化后的权值向量。

。其中，u^*表示表示第r个样本的特征向量，u表示第r个样本归一化后的特征向量。

接下来，使类别后验概率只依赖于两个向量的角度余弦值，即

；

将u的范数大小值固定为R，T表示转置，从而得到交叉熵损失函数的归一化版本(Normalized version of Softmax Loss, NSL)的损失函数，如下：

。

目前NSL所学到的特征并没有足够的区分性，因此将余弦边界q引入到分类边界中来最大化所学特征在角度空间的决策边界，从而得到增强边缘余弦损失函数（LargeMargin Cosine Loss，LMCL），其中N表示一个训练批次的样本量，即batchsize：

。

该损失函数通过对特征向量和权重向量的归一化和余弦决策边界的最大化，从而使得模型所输出的特征向量呈现类内紧凑、类间分离的状态，有助于提高网络对目标类别的分类准确率。

最后结合上述所提出回归与分类损失函数的表达式，设计新型多任务损失函数。多任务损失函数联合回归损失函数和分类损失函数，同时对目标检测中的定位与分类两个任务进行优化。为了平衡回归损失函数与分类损失在训练过程中所做出的贡献，引入参数

来调节两种损失在整体多任务损失中所占的比例，其公式表示如下：

；

参数

的计算公式如下：

。

L表示多任务损失函数，L _cls表示分类损失函数，L _reg表示回归损失函数，L _lmc表示增强边缘余弦损失函数，L _{balanced L1}表示Balanced L1 Loss损失函数。

新型多任务损失函数由回归损失函数Balanced L1 Loss和分类损失函数LargeMargin Cosine Loss，即LMCL，两部分成比例组成，将该损失函数用于检测网络的损失层，有助于网络在定位任务中更加关注目标的精细化定位，更准确地获取目标所在位置，在分类任务中提高特征判别能力，更准确地进行目标分类，从而提高视频图像目标的检测准确率。

Step3、设计基于特征金字塔网络(Feature Pyramid Network, FPN)的Faster R-CNN结构。如图3所示，Faster R-CNN的骨干网络采用ResNet101，该骨干网络主要由五个卷积模块(c1、c2、c3、c4、c5)组成，各个卷积模块的输出特征图分别表示为C_1、C_2、C_3、C_4、C_5。以本发明输入视频图像1024×1024为例，C_2至C_5特征图大小依次为：256×256×256、128×128×512、64×64×1024、32×32×2048。将C_2、C_3、C_4、C_5分别经过一个卷积核为1*1的卷积层，使其在不改变特征图空间尺寸的前提下，统一通道数为256，即尺寸依次为：256×256×256、128×128×256、64×64×256、32×32×256。将C_5对应的输出特征图命名为P_5，对P_5进行0.5倍的下采样操作，并命名输出特征图为P_6。再对C_2、C_3、C_4对应的特征图进行多尺度特征融合，从P_5开始，依次将上一层低分辨率强语义信息的特征图通过2倍缩放上采样得到与下层同尺寸的特征图，并与下层的高分辨率特征图进行元素级相加，从而得到P_4、P_3、P_2层。为了消除特征融合过程中产生的混叠效果，将P_2、P_3、P_4层经过3×3卷积，得到最终的P_2、P_3、P_4层。

接下来，搭建区域生成网络(Region Proposal Network，RPN)。RPN网络由一个卷积核为3×3的卷积操作和两个支路组成，支路分别输出候选区域为各类目标的概率以及候选区域边框（bounding box）的左上角坐标和宽高。RPN网络采用3×3大小的滑动框分别遍历P_2、P_3、P_4、P_5、P_6这五个特征层，并生成一系列的Proposals。然后对每个层均进行目标候选框预测，并将各层预测结果融合在一起。训练RPN网络时，将与真实标注框的交并比大于0.7的目标设置为正样本（车辆目标），交并比小于0.3的目标设为负样本（背景）。

将上一步得到的Proposals框根据其面积大小映射到对应的特征层

，以便进行下一步ROI Pooling操作。

值计算公式如下：

（

值为2、3、4、5），其中

，w和h分别表示bounding box的宽和高。

将所得Proposals输入ROI Pooling层进行特征提取，其目的是统一特征图尺寸为7×7大小，以便于下一步输入全连接层。再将各特征图样本依次输入两层1024维度的全连接层后，分别输入所设计的新型多任务损失函数的回归支路和分类支路。基于回归损失函数完成边框回归操作后获得目标的定位信息；基于分类损失函数进行背景和前景目标的分类，确定proposal区域所属的目标类别。

Step4、基于以上两个步骤完成深度神经网络的整体设计，采用视频图像数据集进行模型的训练及参数优化，最后进行模型测试。

对网络模型进行训练，计算新型多任务损失函数的输出值，并根据该值进行整个网络的参数更新，从而获取训练模型。

在视频图像数据集的训练集上对以上步骤所得到的深度神经网络进行端对端训练，对于每一张输入神经网络的图片，执行前向传播及反向传播步骤，基于新型多任务损失函数的输出值，更新模型内部参数，得到视频图像目标检测模型。

采用视频图像数据集的测试集作为测试实例，输入到训练好的深度神经网络模型中，检测视频图像中的目标，具体过程如下：

（1）输入一组待测试的视频图像，经过ResNet101骨干网络和特征金字塔网络(Feature Pyramid Network, FPN)的特征提取后，通过RPN得到图中400个候选目标区域Proposals。

（2）ROI Pooling以原图特征图和各个候选目标区域为输入，提取候选目标区域的特征图并输出统一尺寸的7×7特征图，用于下一步检测框回归及目标类别分类。

（3）Proposal的特征信息经过全连接层和新型多任务损失函数得到各目标检测框所在的矩形位置信息和目标类别。最终在原始图像中标出所有被标记为目标的外接矩形。

（4）进行结果评测所用指标为平均精度AP及平均精度均值mAP。真反例(TureNegative, TN)：被判定为负样本，事实上也是负样本；真正例(Ture Positve, TP)：被判定为正样本，事实上也是正样本；假反例(False Negative, FN)：被判定为负样本，但实为正样本；假正例(False Positive, FP)：被判定为正样本，但实为负样本。召回率(Recall)=TP/(TP+FN)，准确率(Precision)=TP/(TP+FP)，Precision-Recall(P-R)曲线为以Precision和Recall作为纵、横轴坐标的二维曲线。平均精度AP为每个类别对应的P-R曲线围起来的面积，平均精度均值mAP为每个类别AP值的平均值。

采用本发明的方法有益效果主要包括：

（1）通过发明步骤二设计了新型多任务损失函数，在回归支路使用平衡损失Balanced L1 Loss，让分类损失、困难样本回归损失函数及非困难样本回归损失函数更加平衡地参与网络训练过程；在分类支路使用度量学习算法增强边缘余弦损失函数（LargeMargin Cosine Loss，LMCL），让模型所输出的特征向量呈现类内紧凑、类间分离的状态；经过新型多任务损失函数对两大支路的联合优化，实现更加精细化的目标定位和更加准确的目标分类，从而提高网络对视频图像目标的定位和分类能力。

（2）通过发明步骤三构建了基于特征金字塔网络(Feature Pyramid Network,FPN)的Faster RCNN检测网络，并用新型多任务损失函数代替网络原有的损失函数，也就是将新型多任务损失函数与多尺度特征融合技术相结合，从而联合增强了网络对视频图像目标的检测能力。

如图4所示，本发明还公开了一种基于多任务损失函数的目标检测系统，一种基于多任务损失函数的目标检测系统包括：

数据集采集模块201，用于采集视频图像数据集。

数据集采集模块201，具体包括：

图片转化单元，用于将视频数据转化为一组连续帧的图片；

类别标注单元，用于采用Labelme软件对各图片中的各类目标进行类别标注，获得可扩展标记语言格式的标注文件，标注文件和与标注文件对应的图片构成视频图像数据集。

网络结构构建模块202，用于构建基于特征金字塔网络的Faster R-CNN网络结构。

多任务损失函数构建模块203，用于为所述基于特征金字塔网络的Faster R-CNN网络结构构建多任务损失函数，多任务损失函数包括回归损失函数和分类损失函数，回归损失函数为Balanced L1 Loss损失函数，分类损失函数为增强边缘余弦损失函数。

多任务损失函数表示为：

；

；

x表示预测框的中心横坐标，y表示预测框的中心纵坐标，w表示预测框的宽度，h表示预测框的高度，N ^*表示第二样本个数，a _i表示位置参数的目标检测模型的预测值；b _i表示位置参数的目标检测模型的真实值，位置参数包括x、y、w和h；β为比例参数，µ为第一调节参数，λ为第二调节参数，Ψ为权重值，C表示常数，C用于调节损失值的大小。

。

模型训练模块204，用于采用视频图像数据集对基于特征金字塔网络的Faster R-CNN网络进行训练，获得目标检测模型。

目标检测模块205，用于利用目标检测模型对待检测图像进行目标检测。

基于特征金字塔网络的Faster R-CNN网络包括骨干网络、特征金字塔网络、区域生成网络、ROI池化层和检测头，骨干网络为ResNet101，骨干网络包括五个卷积模块，五个卷积模块分别用于输出特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5，特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5的尺寸依次减小；特征金字塔网络用于将特征图C_2、特征图C_3、特征图C_4和特征图C_5均经过一个卷积核为1*1的卷积层，获得特征图P_2、特征图P_3、特征图P_4和特征图P_5，特征图P_5进行0.5倍下采样获得特征图P_6，特征图P_5进行2倍上采样后与特征图P_4按元素相加后经过一个卷积核为3*3的卷积层获得特征图P4，特征图P_4进行2倍上采样后与特征图P_3按元素相加后经过一个卷积核为3*3的卷积层获得特征图P3，特征图P_3进行2倍上采样后与特征图P_2按元素相加后经过一个卷积核为3*3的卷积层获得特征图P2；特征图P_6、特征图P_5、特征图P4、特征图P3、特征图P2均输入区域生成网络，区域生成网络连接ROI池化层，ROI池化层连接检测头，检测头用于输出检测结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多任务损失函数的目标检测方法，其特征在于，包括：

采集视频图像数据集；

构建基于特征金字塔网络的Faster R-CNN网络结构；

为所述基于特征金字塔网络的Faster R-CNN网络结构构建多任务损失函数，所述多任务损失函数包括回归损失函数和分类损失函数，所述回归损失函数为Balanced L1 Loss损失函数，所述分类损失函数为增强边缘余弦损失函数；

利用所述目标检测模型对待检测图像进行目标检测；

所述多任务损失函数表示为：

；

；

；

2.根据权利要求1所述的基于多任务损失函数的目标检测方法，其特征在于，所述基于特征金字塔网络的Faster RCNN网络包括骨干网络、特征金字塔网络、区域生成网络、ROI池化层和检测头，所述骨干网络为ResNet101，所述骨干网络包括五个卷积模块，五个所述卷积模块分别用于输出特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5，特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5的尺寸依次减小；特征金字塔网络用于将特征图C_2、特征图C_3、特征图C_4和特征图C_5均经过一个卷积核为1*1的卷积层，获得特征图P_2、特征图P_3、特征图P_4和特征图P_5，所述特征图P_5进行0.5倍下采样获得特征图P_6，所述特征图P_5进行2倍上采样后与所述特征图P_4按元素相加后经过一个卷积核为3*3的卷积层获得特征图P4，所述特征图P_4进行2倍上采样后与所述特征图P_3按元素相加后经过一个卷积核为3*3的卷积层获得特征图P3，所述特征图P_3进行2倍上采样后与所述特征图P_2按元素相加后经过一个卷积核为3*3的卷积层获得特征图P2；所述特征图P_6、所述特征图P_5、所述特征图P4、所述特征图P3、所述特征图P2均输入所述区域生成网络，所述区域生成网络连接所述ROI池化层，所述ROI池化层连接所述检测头，所述检测头用于输出检测结果。

3.根据权利要求2所述的基于多任务损失函数的目标检测方法，其特征在于，所述检测头包括回归支路和分类支路；所述分类支路用于确定检测目标的类别，所述回归支路用于确定检测目标的位置信息。

4.根据权利要求1所述的基于多任务损失函数的目标检测方法，其特征在于，所述采集视频图像数据集，具体包括：

通过可见光摄像头采集来往人流与车流的视频数据；

将所述视频数据转化为一组连续帧的图片；

5.一种基于多任务损失函数的目标检测系统，其特征在于，包括：

数据集采集模块，用于采集视频图像数据集；

模型训练模块，用于采用所述视频图像数据集对所述基于特征金字塔网络的FasterR-CNN网络进行训练，获得目标检测模型；

所述多任务损失函数表示为：

；

；

；

6.根据权利要求5所述的基于多任务损失函数的目标检测系统，其特征在于，所述基于特征金字塔网络的Faster RCNN网络包括骨干网络、特征金字塔网络、区域生成网络、ROI池化层和检测头，所述骨干网络为ResNet101，所述骨干网络包括五个卷积模块，五个所述卷积模块分别用于输出特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5，特征图C_1、特征图C_2、特征图C_3、特征图C_4和特征图C_5的尺寸依次减小；特征金字塔网络用于将特征图C_2、特征图C_3、特征图C_4和特征图C_5均经过一个卷积核为1*1的卷积层，获得特征图P_2、特征图P_3、特征图P_4和特征图P_5，所述特征图P_5进行0.5倍下采样获得特征图P_6，所述特征图P_5进行2倍上采样后与所述特征图P_4按元素相加后经过一个卷积核为3*3的卷积层获得特征图P4，所述特征图P_4进行2倍上采样后与所述特征图P_3按元素相加后经过一个卷积核为3*3的卷积层获得特征图P3，所述特征图P_3进行2倍上采样后与所述特征图P_2按元素相加后经过一个卷积核为3*3的卷积层获得特征图P2；所述特征图P_6、所述特征图P_5、所述特征图P4、所述特征图P3、所述特征图P2均输入所述区域生成网络，所述区域生成网络连接所述ROI池化层，所述ROI池化层连接所述检测头，所述检测头用于输出检测结果。

7.根据权利要求6所述的基于多任务损失函数的目标检测系统，其特征在于，所述检测头包括回归支路和分类支路；所述分类支路用于确定检测目标的类别，所述回归支路用于确定检测目标的位置信息。

8.根据权利要求5所述的基于多任务损失函数的目标检测系统，其特征在于，所述数据集采集模块，具体包括：