CN109977895B

CN109977895B - 一种基于多特征图融合的野生动物视频目标检测方法

Info

Publication number: CN109977895B
Application number: CN201910261788.4A
Authority: CN
Inventors: 朱小飞; 陈建促; 李章宇; 王越; 林志航
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2020-10-16
Anticipated expiration: 2039-04-02
Also published as: CN109977895A

Abstract

本发明公开了一种基于多特征图融合的野生动物视频目标检测方法，包括如下步骤：获取视频序列图像，提取视频序列图像中每一帧图像的特征图；判断视频序列图像中的相邻帧图像是否满足融合条件；若相帧图像满足融合条件，则对相邻帧图像进行特征图融合；对融合后的特征图进行类别与目标框的预测，获得具有目标语义关联信息的最终检测结果。与现有技术相比，本发明的方法更适合对遮挡、形变目标进行准确检测，检测成功的目标数量与检测置信度得到了提升。

Description

一种基于多特征图融合的野生动物视频目标检测方法

技术领域

本发明涉及图像识别领域，尤其涉及一种基于多特征图融合的野生动物视频目标检测方法。

背景技术

生物资源是人类赖以生存和发展的自然基础，是生态系统平衡与稳定的有力保障。野生动物资源是生物资源的重要组成部分，具有珍稀性和生命脆弱性，保护和合理利用野生动物资源对可持续发展有着重要意义。然而，当下对于野生动物的监测保护是通过实地探查，或者使用昂贵的实时录像机进行不间断的定点录像，需要投入大量的人力物力。因此，将目标检测的研究成果运用于野生动物视频检测领域，对辅助科学研究有重要意义。

近年来，国内外研究学者在野生动物领域做了一系列的分类与检测识别研究工作。随着深度卷积网络的不断发展，基于深度学习的目标检测方法凭借其强大的特征学习能力，表现出了巨大优势。在基于深度学习的目标检测领域，有人结合selective search算法与SVM分类器，提出了基于区域的卷积神经网络R-CNN，其提取出的特征鲁棒性高、通用性好，但存在时间开销大的缺点；有人使用卷积神经网络直接产生候选框区域对R-CNN进行改进，提出的Faster R-CNN模型解决了R-CNN模型的时空开销大的问题；基于回归的YOLO模型，使用端到端的训练方法，提升了目标检测的速度，但其检测精度低；SSD模型对全图各个位置的多尺度区域进行回归，目标检测精度高，但检测速度不及YOLO模型；有人通过Darknet-53卷积神经网络与金字塔网络，对全图进行三个不同尺度的特征图检测，得到检测速度与检测精度的平衡。在上述模型中，YOLOv3模型的综合性能最优，在保持YOLO模型检测速度的同时，达到了SSD模型的检测精度。

然而，针对YOLOv3在野生动物视频目标检测领域中，存在的前后视频帧同区域关系难以描述的缺点，这会导致平均准确率的下降。

因此，如何提高野生动物视频目标检测的平均准确率，成为了本领域技术人员急需解决的问题。

发明内容

针对现有技术中存在的上述不足，本发明需要解决的问题是：如何提高野生动物视频目标检测的平均准确率。

为解决上述技术问题，本发明采用了如下的技术方案：

一种基于多特征图融合的野生动物视频目标检测方法，包括如下步骤：

S1、获取视频序列图像，提取视频序列图像中每一帧图像的特征图；

S2、判断视频序列图像中的相邻帧图像是否满足融合条件；

S3、若相帧图像满足融合条件，则对相邻帧图像进行特征图融合；

S4、对融合后的特征图进行类别与目标框的预测，获得具有目标语义关联信息的最终检测结果。

优选地，判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括：

基于

对两相邻帧图像进行相似度计算，式中，P为两相邻帧图像的相似度，p及p'分别为两相邻帧图像的直方图数据，N为直方图数据长度，p(i)及p'(i)分别为两相邻帧图像的直方图数据值；

若两相邻帧图像的相似度P大于或等于融合阈值σ，两相邻帧图像是否满足融合条件。

优选地，图像中任一像素点的RGB值为(a,b,c)，基于公式

对图像中每个像素点进行计算，得到图像的直方图数据。

优选地，基于公式F_n'＝ω*F_n+1+F_n+ω*F_n-1'采用线性迭代的方式进行相邻帧图像的特征图融合，式中，F_n-1'＝ω*F_n+F_n-1+ω*F_n-2'，F_n为第n帧图像的特征图，F_n'为第n帧图像的融合后的特征图，F_n+1为第n+1帧图像的特征图，F_n-1为第n-1帧图像的特征图，F_n-1'为第n-1帧图像的融合后的特征图，F_n-2为第n-2帧图像的融合后的特征图，ω为相邻视频帧的相关因子，ω∈[0,1]。

优选地，

σ为高斯分布中的标准差，μ为高斯分布中的均值，x为相邻视频帧图像的相似度均值，distance_weight为距离权重。

优选地，采用下述方法计算两相邻帧图像的相似度均值：

设任意两个视频序列图像A和B的互信息熵为H(A)和H(B)；

式中，P_A(i)为H(A)发生的概率，P_B(j)为H(B)发生的概率；

I(A,B)＝H(A)+H(B)-H(A,B)

I(A,A)＝H(A)+H(A)-H(A,A)

x＝I(A,B)/I(A,A)，x∈(0,1]

式中，H(A，B)表示视频序列图像A和视频序列图像B的联合熵，H(A，A)表示视频序列图像A与视频序列图像A的联合熵，I(A,B)表示视频序列图像A与视频序列图像B的互信息熵，I(A,A)表示视频序列图像A与视频序列图像A的互信息熵，a、b分别为A、B的特定值，P_AB(a,b)为a、b一起出现的联合概率，P_AA(a,a)为a、a一起出现的联合概率。

综上所述，本发明公开了一种基于多特征图融合的野生动物视频目标检测方法，包括如下步骤：获取视频序列图像，提取视频序列图像中每一帧图像的特征图；判断视频序列图像中的相邻帧图像是否满足融合条件；若相帧图像满足融合条件，则对相邻帧图像进行特征图融合；对融合后的特征图进行类别与目标框的预测，获得具有目标语义关联信息的最终检测结果。与现有技术相比，本发明的方法更适合对遮挡、形变目标进行准确检测，检测成功的目标数量与检测置信度得到了提升。

附图说明

图1为本发明公开的一种基于多特征图融合的野生动物视频目标检测方法的流程图；

图2为当前帧与视频序列帧的相关因子变化曲线的示意图；

图3为相邻视频帧相似度的示意图；

图4为YOLOv3模型与本发明的方法的实验结果对比示意图；

图5为YOLOv3模型与本发明的方法在WVDDS数据集上的P-R变化曲线。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1所示，本发明公开了一种基于多特征图融合的野生动物视频目标检测方法，包括如下步骤：

将Darknet-53残差神经网络作为特征提取网络，对输入图像进行特征提取，能够得到三个不同尺度的特征图。本发明中，可以使用Darknet-53网络对视频帧进行特征提取，从而提取到三个不同尺度特征图。提取特征图为现有技术，在此不再赘述。

S2、判断视频序列图像中的相邻帧图像是否满足融合条件；

考虑到将视频拆分为连续的图像帧进行处理时，会丢失帧间相关性，本发明中将YOLOv3模型、图像相似度与时间序列关系相结合，对Darknet-53网络提取到的连续前后视频帧的特征图进行线性迭代融合，以提升野生动物视频目标检测的准确率。

与现有技术相比，本发明的方法更适合对遮挡、形变目标进行准确检测，检测成功的目标数量与检测置信度得到了提升。

具体实施时，判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括：

基于

在相邻帧融合之前，引入直方图均衡计算图像相似度的方法，对相邻视频图像进行相似度度量。若为视频“镜头切换”，相邻视频帧则不存在时间序列关系，若仍对其进行特征图融合，会导致识别率降低。

具体实施时，图像中任一像素点的RGB值为(a,b,c)，基于公式

对图像中每个像素点进行计算，得到图像的直方图数据。

对图像进行直方图计算时，是将像素点拆分成R、G、B三通道的值进行分别计算；按照上述公式计算，所得的结果便为直方图数据。

具体实施时，基于公式F_n'＝ω*F_n+1+F_n+ω*F_n-1'采用线性迭代的方式进行相邻帧图像的特征图融合，式中，F_n-1'＝ω*F_n+F_n-1+ω*F_n-2'，F_n为第n帧图像的特征图，F_n'为第n帧图像的融合后的特征图，F_n+1为第n+1帧图像的特征图，F_n-1为第n-1帧图像的特征图，F_n-1'为第n-1帧图像的融合后的特征图，F_n-2为第n-2帧图像的融合后的特征图，ω为相邻视频帧的相关因子，ω∈[0,1]。

为充分利用视频序列所包含的目标信息，本发明对经过Darknet-53提取到的视频图像特征图进行有效融合，以提升目标检测准确率。

本发明中，当前帧在与其前后帧图像进行特征图融合时，采用线性迭代的方式，并将原特征图更新为融合后的特征图。

具体实施时，

在特征融合中，如何有效选取相关因子ω的值是一个重点。ω决定了在特征融合时，前后各帧的重要性，选择合适的ω将决定融合最终的效果。本发明中，采用互信息熵对估计ω值，能够自适应的融合不同重要性的特征。针对相关因子的选取，我们使用互信息熵计算图像相似度，对得到的相似度进行高斯变化，并与距离权重相乘。具体实施时，σ可取0.6，μ可取0.6，x可取0.69，distance_weight可取1。

采用下述方法计算两相邻帧图像的相似度均值：

具体实施时，设任意两个视频序列图像A和B的互信息熵为H(A)和H(B)；

式中，P_A(i)为H(A)发生的概率，P_B(j)为H(B)发生的概率；

I(A,B)＝H(A)+H(B)-H(A,B)

I(A,A)＝H(A)+H(A)-H(A,A)

x＝I(A,B)/I(A,A)，x∈(0,1]

综上所述，本发明公开的方法具有以下技术效果：

(1)使用线性迭代的方式对视频前后帧三个不同尺度的特征图分别进行融合；

线性迭代的方式在融合当前帧的时候，采用的是前面各帧融合后的新特征表示，因此有效融合更准确的前面各帧的信息。

(2)通过图像互信息熵拟合出视频相邻帧融合的相关因子；

在视频相邻帧融合时，最大的挑战在于如何融合周边各帧的信息，如果只是简单的对前后各帧进行融合(例如求和)，无法达到满意的效果。因此，本发明提出了一种新的特征融合方法，即根据其他各帧与当前帧的互信息熵作为融合的依据。

(3)引入直方图均衡计算图像相似度的方法，确定相邻帧的融合条件。

在视频帧融合时，遇到的另一个挑战是视频存在镜头切换问题，因此本发明引入直方图均衡计算图像相似度来判断是否存在镜头切换问题，从而保证信息融合的可靠性。

下面为采用本发明公开的基于多特征图融合的野生动物视频目标检测方法的具体实例：

实验环境

本实例的实验环境与配置为：Ubuntu 14.04操作系统，Inter Xeon E5-2623v3处理器，64GB内存，NVIDIA Tesla K80显卡，以及Keras深度学习框架。

数据集

实验数据集采用基于视频的野生动物检测数据集WVDDS。WVDDS数据集包含了12个类别，253段视频片段，视频按照每5帧标注一次的频率进行标注，标注采用PASCAL VOC格式，共6601视频图像。

参数设置

模型再训练参数

为了与YOLOv3在同等条件下进行检测性能的比较，我们在原作者提供的权重文件基础上，使用WVDDS数据集进行再训练。其再训练模型的参数如表1所示：

表1模型再训练的参数表

Claims

1.一种基于多特征图融合的野生动物视频目标检测方法，其特征在于，包括如下步骤：

S2、判断视频序列图像中的相邻帧图像是否满足融合条件；

基于公式F_n'＝ω*F_n+1+F_n+ω*F_n-1'采用线性迭代的方式进行相邻帧图像的特征图融合，式中，F_n-1'＝ω*F_n+F_n-1+ω*F_n-2'，F_n为第n帧图像的特征图，F_n'为第n帧图像的融合后的特征图，F_n+1为第n+1帧图像的特征图，F_n-1为第n-1帧图像的特征图，F_n-1'为第n-1帧图像的融合后的特征图，F_n-2为第n-2帧图像的融合后的特征图，ω为相邻视频帧的相关因子，ω∈[0,1]；

σ为高斯分布中的标准差，μ为高斯分布中的均值，x为相邻视频帧图像的相似度均值，distance_weight为距离权重；

2.如权利要求1所述的基于多特征图融合的野生动物视频目标检测方法，其特征在于，判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括：

基于

3.如权利要求2所述的基于多特征图融合的野生动物视频目标检测方法，其特征在于，图像中任一像素点的RGB值为(a,b,c)，基于公式

对图像中每个像素点进行计算，得到图像的直方图数据。

4.如权利要求1所述的基于多特征图融合的野生动物视频目标检测方法，其特征在于，采用下述方法计算两相邻帧图像的相似度均值：

设任意两个视频序列图像A和B的互信息熵为H(A)和H(B)；

式中，P_A(i)为H(A)发生的概率，P_B(j)为H(B)发生的概率；

I(A,B)＝H(A)+H(B)-H(A,B)

I(A,A)＝H(A)+H(A)-H(A,A)

x＝I(A,B)/I(A,A)，x∈(0,1]