CN116246209B

CN116246209B - 基于偏移卷积核的广角镜头生物目标检测方法

Info

Publication number: CN116246209B
Application number: CN202310221671.XA
Authority: CN
Inventors: 莫敏玲
Original assignee: Rainbow Fish Technology Guangdong Co ltd
Current assignee: Rainbow Fish Technology Guangdong Co ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2024-02-13
Anticipated expiration: 2043-03-09
Also published as: CN116246209A

Abstract

本发明公开了一种基于偏移卷积核的广角镜头生物目标检测方法，包括：基于广角镜头获取待检测视频，对待检测视频进行分帧处理，得到若干帧待检测图像；根据若干帧待检测图像确定目标场景检测模型；构造偏移卷积核并添加至目标场景检测模型中，得到识别模型；从若干帧待检测图像中确定目标图像，并将目标图像输入识别模型中进行生物目标检测处理。针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据，首先确定目标场景检测模型，便于根据不同的场景进行模型的调整，其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响，便于提高了识别的准确性。

Description

基于偏移卷积核的广角镜头生物目标检测方法

技术领域

本发明涉及生物目标检测技术领域，特别涉及一种基于偏移卷积核的广角镜头生物目标检测方法。

背景技术

目前，环境与生态保护是现代经济社会可持续发展的重要议题，因此对于制造行业、能源行业以及其他人类生产活动场所的生态影响评估成为重要需求。使用技术手段监测场所当地生态目标情况是一种广泛应用的实践，其中，图像和视频数据中生物目标检测是一种重要手段。随着人工智能技术的发展，以机器学习模型替代人类专家进行监测成为一种趋势。经典的神经网络构架在普通的图像或视频数据上能够实现良好的效果，但是在广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据上，经典卷积神经网络构架所使用的固定形状卷积核基于平移不变性的先验导致其在大畸变部分失效。同时在进行识别时，均使用同一场景识别模型，无法根据场景的不同进行调整，导致识别的不准确。因此，本发明提出一种基于偏移卷积核的广角镜头生物目标检测方法，以解决该问题。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种基于偏移卷积核的广角镜头生物目标检测方法，针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据，首先确定目标场景检测模型，便于根据不同的场景进行模型的调整，其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响，便于提高了识别的准确性。

为达到上述目的，本发明实施例提出了一种基于偏移卷积核的广角镜头生物目标检测方法，包括：

基于广角镜头获取待检测视频，对待检测视频进行分帧处理，得到若干帧待检测图像；

根据若干帧待检测图像确定目标场景检测模型；

构造偏移卷积核并添加至目标场景检测模型中，得到识别模型；

从若干帧待检测图像中确定目标图像，并将目标图像输入识别模型中进行生物目标检测处理。

根据本发明的一些实施例，根据若干帧待检测图像确定目标场景检测模型，包括：

基于训练好的神经网络分别对若干帧待检测图像进行特征提取，确定每帧待检测图像对应的特征信息，所述特征信息包括各个特征元素及各个特征元素的位置；

统计若干帧待检测图像中包括的特征元素的种类及每种特征元素对应的待检测图像的数量，并根据数量从大到小进行排序；

在排序队列中，选取前预设数量个特征元素，作为目标特征元素；

根据目标特征元素确定目标场景检测模型。

根据本发明的一些实施例，根据目标特征元素确定目标场景检测模型，包括：

确定目标特征元素包括的特征像素点，将特征像素点与场景总图中的像素点进行匹配，在匹配一致时，激活场景总图中的像素点；在匹配不一致时，将不匹配的特征像素点作为待构造像素点；

根据场景总图中的像素点确定第一场景检测模型；

对待构造像素点进行解析，确定场景信息，并对构建的初始模型进行训练，直至初始模型输出的信息与场景信息一致，得到第二场景检测模型；

将第一场景检测模型与第二场景检测模型进行融合，得到目标场景检测模型。

根据本发明的一些实施例，基于训练好的神经网络分别对若干帧待检测图像进行特征提取，确定每帧待检测图像对应的特征信息，包括：

确定待检测图像的整体卷积特征，

对整体卷积特征进行池化处理，对池化处理后的整体卷积特征进行多个层次的残差处理后再次进行池化处理，得到待检测图像的整体特征；

根据整体特征进行图像分割，确定若干个局部特征，将若干个局部特征作为每帧待检测图像对应的特征信息。

根据本发明的一些实施例，构造偏移卷积核的方法，包括：

设定经典卷积核某一点W_i，j的采样位置为(xi_，y_i)；

确定偏移卷积核采样点位置偏移(Δx_i，Δy_i)，则偏移卷积核中点W_ij的采样位置为(x_i+Δx_i，y_i+Δy_i)；

根据采样位置设计卷积层，得到偏移卷积核。

根据本发明的一些实施例，所述目标图像为包含特征元素数量最多的待检测图像。

根据本发明的一些实施例，在将目标图像输入识别模型中进行生物目标检测处理前，还包括：对目标图像进行去除背景非均匀性噪声处理及光照归一化处理。

根据本发明的一些实施例，将目标图像输入识别模型中进行生物目标检测处理，包括：

基于识别模型在目标图像中标注各个识别框，并基于识别模型中的偏移卷积核对各个识别框进行卷积处理，得到多个中间特征图；

对多个中间特征图进行通道连接处理，确定多个输出特征图；

将输出特征图与数据库中的预设特征图进行匹配，根据匹配结果确定各个识别框对应的物体类别的概率，并选出概率最高的物体类别作为对应识别框的物体类别。

根据本发明的一些实施例，在将目标图像输入识别模型中进行生物目标检测处理后，还包括：

基于处理结果，选取特定目标；

在若干帧待检测图像中选择包括特定目标的待检测图像，作为处理图像；

确定处理图像中特定目标的位置信息，并基于拍摄顺序进行组合，确定特定目标的移动轨迹。

根据本发明的一些实施例，确定偏移卷积核采样点位置偏移(Δx_i，Δy_i)，包括：

基于广角镜头所引起的图像桶形畸变进行经验性设计或多组随机参数，在数据集上进行训练验证后优选。

本发明提出的基于偏移卷积核的广角镜头生物目标检测方法，针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据，首先确定目标场景检测模型，便于根据不同的场景进行模型的调整，其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响，便于提高了识别的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种基于偏移卷积核的广角镜头生物目标检测方法的流程图；

图2是现有技术及根据本发明一个实施例的偏移卷积核的示意图；

图3是根据本发明一个实施例的偏移卷积核的卷积层设计的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提出了一种基于偏移卷积核的广角镜头生物目标检测方法，包括步骤S1-S4：

S1、基于广角镜头获取待检测视频，对待检测视频进行分帧处理，得到若干帧待检测图像；

S2、根据若干帧待检测图像确定目标场景检测模型；

S3、构造偏移卷积核并添加至目标场景检测模型中，得到识别模型；

S4、从若干帧待检测图像中确定目标图像，并将目标图像输入识别模型中进行生物目标检测处理。

上述技术方案的工作原理：基于广角镜头获取待检测视频，对待检测视频进行分帧处理，得到若干帧待检测图像；根据若干帧待检测图像确定目标场景检测模型；目标场景检测模型为适合若干帧待检测图像对应场景的检测模型。构造偏移卷积核并添加至目标场景检测模型中，得到识别模型；从若干帧待检测图像中确定目标图像，并将目标图像输入识别模型中进行生物目标检测处理。目标图像为包含特征元素数量最多的待检测图像。

上述技术方案的有益效果：针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据，首先确定目标场景检测模型，便于根据不同的场景进行模型的调整，其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响，便于提高了识别的准确性。

根据目标特征元素确定目标场景检测模型。

上述技术方案的工作原理：基于训练好的神经网络分别对若干帧待检测图像进行特征提取，确定每帧待检测图像对应的特征信息，所述特征信息包括各个特征元素及各个特征元素的位置；统计若干帧待检测图像中包括的特征元素的种类及每种特征元素对应的待检测图像的数量，并根据数量从大到小进行排序；在排序队列中，选取前预设数量个特征元素，作为目标特征元素；预设数量可以为排序队列的数量的一半。根据目标特征元素确定目标场景检测模型。

上述技术方案的有益效果：统计出若干帧待检测图像包括的所有特征元素的种类及每种特征元素对应的待检测图像的数量，便于准确筛选出关键的特征元素，即目标特征元素，并根据目标特征元素准确确定目标场景检测模型。

根据场景总图中的像素点确定第一场景检测模型；

上述技术方案的工作原理：确定目标特征元素包括的特征像素点，将特征像素点与场景总图中的像素点进行匹配，在匹配一致时，激活场景总图中的像素点；在匹配不一致时，将不匹配的特征像素点作为待构造像素点；根据场景总图中的像素点确定第一场景检测模型；场景总图可以根据激活的像素点大致确定场景，并根据确定的场景确定第一场景检测模型。对待构造像素点进行解析，确定场景信息，并对构建的初始模型进行训练，直至初始模型输出的信息与场景信息一致，得到第二场景检测模型；对于不匹配的像素点，需要增加新的场景检测模型，即第二场景检测模型。将第一场景检测模型与第二场景检测模型进行融合，得到目标场景检测模型。

上述技术方案的有益效果：对目标特征元素包括的特征像素点进行全面的场景识别，基于确定的第一场景检测模型与第二场景检测模型，便于准确的获取目标场景检测模型。

确定待检测图像的整体卷积特征，

上述技术方案的工作原理：确定待检测图像的整体卷积特征，对整体卷积特征进行池化处理，对池化处理后的整体卷积特征进行多个层次的残差处理后再次进行池化处理，得到待检测图像的整体特征；根据整体特征进行图像分割，确定若干个局部特征，将若干个局部特征作为每帧待检测图像对应的特征信息。

上述技术方案的有益效果：从整体再到局部，便于准确的确定每帧待检测图像对应的特征信息。

根据本发明的一些实施例，构造偏移卷积核的方法，包括：

设定经典卷积核某一点W_i，j的采样位置为(x_i，y_i)；

根据采样位置设计卷积层，得到偏移卷积核。

上述技术方案的工作原理及有益效果：以3×3大小卷积核为例，经典卷积核的采样点排布形式为图2左侧所示，为等间距规则采样。本发明提出的偏移卷积核为图2右侧两列所示，采样点排布形式非等间距规则采样。对于本发明提出的偏移卷积核，设经典卷积核某一点w_i，j的采样位置为(x_i，y_i)，偏移卷积核中点w_ij的采样位置(x_i+Δx_i，y_i+Δy_i)。其中，偏移卷积核采样点位置偏移(Δx_i，Δy_i)，其具体值的确定方法，包含但不限于遵循广角镜头或鱼眼镜头所引起的图像桶形畸变进行经验性设计或多组随机参数，在数据集上进行训练验证后优选。

基于偏移卷积核的卷积层如图3所示。不失一般性地，以原图像或某一中间特征为输入f₀，图中为了表示简洁，忽略f₀，f₁与f₁′中空间维度(x与y方向维度)，仅展示通道维度。f₀与一组(c个)偏移卷积核(包括0偏移的经典卷积核)进行卷积操作，得到通道数为c的特征f₁。由于在图像中各处畸变程度不同，每个卷积核的表示能力也不同。因此，将f₁输入全连接层形式的自注意力模块(图中未展示)，得到注意力结果A。f₁与注意力A逐位相乘后，得到输出特征f₁′。

上述技术方案的有益效果：对目标图像进行去除背景非均匀性噪声处理，便于去除噪声，避免噪声的影响导致的识别不准确。光照归一化处理便于消除目标图像上亮度的变化。

上述技术方案的工作原理：基于识别模型在目标图像中标注各个识别框，并基于识别模型中的偏移卷积核对各个识别框进行卷积处理，得到多个中间特征图；对多个中间特征图进行通道连接处理，确定多个输出特征图；将输出特征图与数据库中的预设特征图进行匹配，根据匹配结果确定各个识别框对应的物体类别的概率，并选出概率最高的物体类别作为对应识别框的物体类别。

上述技术方案的有益效果：基于分割的思想，便于准确目标图像上各个识别框，减少识别量，基于匹配算法，将输出特征图中的像素点与数据库中的预设特征图的像素点进行匹配，进而准确确定识别框的物体类别。

基于处理结果，选取特定目标；

上述技术方案的工作原理：基于处理结果，选取特定目标；在若干帧待检测图像中选择包括特定目标的待检测图像，作为处理图像；确定处理图像中特定目标的位置信息，并基于拍摄顺序进行组合，确定特定目标的移动轨迹。

上述技术方案的有益效果：便于准确确定特定目标的移动轨迹，实现对整个待检测视频的识别。

在一具体实施例中，使用广角镜头采集海洋鸟类图像数据，进行人工标注创建广角图像海鸟检测数据集，使用YOLOv3在该数据集上进行训练。使用4张GTX3090Ti GPU，使用Adam优化器，学习率1e-4，训练50轮次，测试集上准确率73.5％。使用基于偏移卷积核的卷积层替换YOLOv3中的Conv1_2和Conv2_2层，采用相同配置训练后，测试集上准确率提升至89.4％。

基于本发明提出的一种基于偏移卷积核的广角镜头生物目标检测方法，偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响。自注意力模块可以自适应地表征各卷积核的表达能力。替换现有较成功的经典卷积神经网络模型中的卷积层为基于偏移卷积核的卷积层，即可实现在广角视觉数据上的较好效果。偏移卷积核与自注意力模块的所有参数均可以通过梯度下降法进行端到端的优化，不需另外设计网络训练方法。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，包括：

根据若干帧待检测图像确定目标场景检测模型；

从若干帧待检测图像中确定目标图像，并将目标图像输入识别模型中进行生物目标检测处理；

构造偏移卷积核的方法，包括：

设定经典卷积核某一点w_i，j的采样位置为(x_i，y_i)；

根据采样位置设计卷积层，得到偏移卷积核。

2.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，根据若干帧待检测图像确定目标场景检测模型，包括：

根据目标特征元素确定目标场景检测模型。

3.如权利要求2所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，根据目标特征元素确定目标场景检测模型，包括：

根据场景总图中的像素点确定第一场景检测模型；

4.如权利要求2所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，基于训练好的神经网络分别对若干帧待检测图像进行特征提取，确定每帧待检测图像对应的特征信息，包括：

确定待检测图像的整体卷积特征，

5.如权利要求2所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，所述目标图像为包含特征元素数量最多的待检测图像。

6.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，在将目标图像输入识别模型中进行生物目标检测处理前，还包括：对目标图像进行去除背景非均匀性噪声处理及光照归一化处理。

7.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，将目标图像输入识别模型中进行生物目标检测处理，包括：

8.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，在将目标图像输入识别模型中进行生物目标检测处理后，还包括：

基于处理结果，选取特定目标；

9.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法，其特征在于，确定偏移卷积核采样点位置偏移(Δx_i，Δy_i)，包括：

基于广角镜头所引起的图像桶形畸变进行经验性设计或多组随机参数，在数据集上进行训练验证后确定偏移卷积核采样点位置偏移(Δx_i，Δy_i)。