CN116883913B

CN116883913B - 一种基于视频流相邻帧的船只识别方法及系统

Info

Publication number: CN116883913B
Application number: CN202311137270.2A
Authority: CN
Inventors: 王迪友; 马天; 张恒飞; 王帅; 江山; 刘康; 刘伟; 付学奎; 肖文
Original assignee: Changjiang Xinda Software Technology Wuhan Co ltd
Current assignee: Changjiang Xinda Software Technology Wuhan Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-11-21
Anticipated expiration: 2043-09-05
Also published as: CN116883913A

Abstract

本发明提供一种基于视频流相邻帧的船只识别方法及系统，属于图像处理技术领域，包括：对船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列；计算相邻帧图像序列，得到稠密光流图像集和稠密光流图像时间集；利用神经网络分别对当前帧图像和稠密光流图像时间集进行特征提取，将提取后的特征层进行串联叠加，输入ConvNext网络中进行训练，得到船只识别模型。本发明获得分析图片及相邻帧图片，通过计算获得相邻帧图片的光流信息，将处理好的光流信息打包为光流图片集，对光流图片集与分析图片进行不同的神经网络处理后合并特征层进行分析，最后获得船只识别结果，具有识别准确率高，执行效率高的特点。

Description

一种基于视频流相邻帧的船只识别方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于视频流相邻帧的船只识别方法及系统。

背景技术

船只管控在水利领域中有多个方面的应用，对河道进行全天时的监控是一件耗时耗力的任务，因此无法做到人工24小时进行监管，使得安全监管盲点多、风险点多，船只管控的成本也在不断增加。

随着深度神经网络在目标检测方面的广泛应用和取得的良好效果，使得运用神经路网络来监管船只变为了可行。运用图片识别对监控摄像头中的船只进行检测分类，然后对可疑行为进行判断是一种管控的解决方式。然而水利上对船只的管控的范围大、距离远、同时也必须保持对船只识别的高准确度，从单张图片中提取更多有效信息已经变得越来越困难，需要寻求其它的船只识别方法。

发明内容

本发明提供一种基于视频流相邻帧的船只识别方法及系统，用以解决现有技术中针对船只识别通常采用单张图片，存在对远距离、广范围的船只识别率较低，容易出现误判的缺陷。

第一方面，本发明提供一种基于视频流相邻帧的船只识别方法，包括：

采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列；

基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集；

利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，将提取后的特征层进行串联叠加，输入ConvNext网络中进行训练，得到船只识别模型；

将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果。

根据本发明提供的一种基于视频流相邻帧的船只识别方法，采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列，包括：

由摄像头接收采集指令之后，按照预设视频流协议获取实时视频流数据；

对所述实时视频流数据进行任意时刻截图，获得所述当前帧图像；

在所述当前帧图像之前截取第一预设数量的帧图像，以及在所述当前帧图像之后截取第二预设数量的帧图像，形成所述相邻帧图像序列；

将所述当前帧图像与所述相邻帧图像序列调整为统一大小尺寸。

根据本发明提供的一种基于视频流相邻帧的船只识别方法，基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，包括：

确定调节加权参数，获取所述相邻帧图像序列中任一帧图像的前一帧图像x轴光流位移信息和前一帧图像y轴光流位移信息，以及当前帧图像x轴光流位移信息和当前帧图像y轴光流位移信息；

基于所述调节加权参数、所述前一帧图像x轴光流位移信息和所述当前帧图像x轴光流位移信息，得到当前帧处理后x轴光流位移信息；

基于所述调节加权系数、所述前一帧图像y轴光流位移信息和所述当前帧图像y轴光流位移信息，得到当前帧处理后y轴光流位移信息；

由所述相邻帧图像序列中所有帧图像的当前帧处理后x轴光流位移信息和当前帧处理后y轴光流位移信息，构成所述稠密光流图像集。

根据本发明提供的一种基于视频流相邻帧的船只识别方法，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集，包括：

确定像素序列、时间序列和像素固定值，由所述像素序列、所述时间序列和所述像素固定值的正弦函数和余弦函数，得到所述时间序列编码；

将所述时间序列编码与所述稠密光流图像集进行叠加，获得所述稠密光流图像时间集。

根据本发明提供的一种基于视频流相邻帧的船只识别方法，利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，包括：

将所述当前帧图像压缩至预设输入图像大小，输入至帧图像处理神经网络的输入层，依次通过卷积、层归一化和预设激活函数，提取图像初始特征；

将所述稠密光流图像时间集输入光流图像处理神经网络的卷积层提取特征，通过卷积层将提取特征的大小调整至与所述当前帧图像大小相等，依次通过层归一化和预设激活函数，提取光流初始特征。

根据本发明提供的一种基于视频流相邻帧的船只识别方法，将提取后的特征层进行串联叠加，包括：

将所述图像初始特征和所述光流初始特征进行叠加，依次通过多次卷积、层归一化和预设激活函数，得到叠加后特征。

根据本发明提供的一种基于视频流相邻帧的船只识别方法，输入ConvNext网络中进行训练，得到船只识别模型，包括：

采用ConvNext网络对所述叠加后特征进行识别，采集包含船只图片并获取截取时间点；

通过人工筛查剔除误识别船只图片，校准船只轮廓信息；

根据所述截取时间点建立所述船只图片在预设时间范围内的训练数据集，得到所述船只识别模型。

第二方面，本发明还提供一种基于视频流相邻帧的船只识别系统，包括：

采集模块，用于采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列；

计算模块，用于基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集；

训练模块，用于利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，将提取后的特征层进行串联叠加，输入ConvNext网络中进行训练，得到船只识别模型；

识别模块，用于将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于视频流相邻帧的船只识别方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于视频流相邻帧的船只识别方法。

本发明提供的基于视频流相邻帧的船只识别方法及系统，获得分析图片及相邻帧图片，通过计算获得相邻帧图片的光流信息，将处理好的光流信息打包为光流图片集，对光流图片集与分析图片进行不同的神经网络处理后合并特征层进行分析，最后获得船只识别结果，具有识别准确率高，执行效率高的特点。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于视频流相邻帧的船只识别方法的流程示意图之一；

图2是本发明提供的基于视频流相邻帧的船只识别方法的流程示意图之二；

图3是本发明提供的相邻帧光流集示意图；

图4是本发明提供的神经网络及ConvNext网络结构图；

图5是本发明提供的基于视频流相邻帧的船只识别系统的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的基于视频流相邻帧的船只识别方法的流程示意图之一，如图1所示，包括：

步骤100：采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列；

步骤200：基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集；

步骤300：利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，将提取后的特征层进行串联叠加，输入ConvNext网络中进行训练，得到船只识别模型；

步骤400：将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果。

本发明实施例首先对视频流进行预处理，获得分析图片及相邻帧图片，然后通过计算获得相邻帧图片的光流信息，接着将处理好的光流信息打包为光流图片集，对光流图片集与分析图片进行不同的神经网络处理后合并特征层进行接下来的分析过程，最后获得船只识别结果。

如图2所示，通过HTTP协议读取摄像头实时视频流数据，对数据进行预处理，将数据转为当前帧图像与相邻帧图像序列；使用Farneback方法计算相邻帧的稠密光流图像集；为光流图像集添加时间序列编码；分别对当前帧图像与相邻帧生成的光流图像集通过神经网络提取特征，然后将提取后的特征层串联叠加，输入训练好的ConvNext模型中，得到识别结果。

本发明获得分析图片及相邻帧图片，通过计算获得相邻帧图片的光流信息，将处理好的光流信息打包为光流图片集，对光流图片集与分析图片进行不同的神经网络处理后合并特征层进行分析，最后获得船只识别结果，具有识别准确率高，执行效率高的特点。

基于上述实施例，采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列，包括：

具体地，本发明实施例采用边缘硬件端下发指令，通过Onvif协议通过端口80获取HLS视频流，读取摄像头实时数据流，视频流以H264通用编码标准，其编码率保持在2M以上以保证视频流中接取的照片有足够的清晰度，然后对输入视频进行预处理，将视频流数据转变为图片，其中当前帧照片采用截图方式获取以获取更高清晰度图片，在内存中动态缓存分析帧前51帧与分析帧后25帧加分析帧图片，总计77帧。

其中视频流获取图片与截取图片分辨率保持一致都为1920*1080，然后使用openCV工具调整大小为1366*768。

基于上述实施例，基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，包括：

具体地，从缓存图片中提取图片，利用opencv工具对相邻帧图像使用Farneback方法计算稠密光流信息，得到对应的u，v光流图组，即x轴光流位移信息和y轴光流位移信息，数据结构为76*1366*768*2，为提高光流信息有效率，使用指数加权对光流图组进行处理，使用指数加权可以降低光流指向的抖动性，将摄像头偏移与视频压缩导致的光流抖动效应降低，保证光流能覆盖船只的外形，并且使得船只附近的光流保持指向在船只的前进方向，公式表示为：

其中，、/>是前一帧处理后的光流信息，/>、/>是当前帧处理后的光流信息，/>、/>为当前帧光流信息，/>为可调节加权参数。

基于上述实施例，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集，包括：

具体地，在光流图组上添加时间序列编码，可以将时间顺序信息添加到数据中，为后续神经网络分析阶段加强数据可提取的特征。时间编码公式表示为：

，

其中，表示为像素序列，/>是时间序列，/>为像素固定值。

基于上述实施例，利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，包括：

其中，将提取后的特征层进行串联叠加，包括：

其中，输入ConvNext网络中进行训练，得到船只识别模型，包括：

通过人工筛查剔除误识别船只图片，校准船只轮廓信息；

具体地，在输入主干网络前，对当前帧图片（即RGB图片）与相邻帧光流集分开进行神经网络预处理，如图3示例，包括：

对当前帧图片处理的神经网络结构为，首先压缩输入图片长宽大小使其适合于神经网络输入，使用卷积设置步长为4进行长宽的调整，并保持相同的卷积和保留所有像素信息，在本发明实施例中调整后的维度为128*342*192，然后使用层归一化调整数据分布和GeLU激活函数添加非线性化，使用两个线性层先将特征层扩充为512维度添加激活函数后再降低回128维度，初步获取RGB图像中的特征信息，添加残差块将结果与之前处理得到的128*342*192相加，然后使用卷积和为1的卷积进一步提取特征并保持长宽与特征数等待与光流集处理结果融合。

对光流图组的处理神经网络结构则是，首先通过卷积核为3的卷积层提取特征，保持特征层数与当前图片特征层数匹配，扩充特征层到256，本实施例一中调整后的维度为256*1366*768，然后通过卷积核为1步长为4的卷积层改变输入特征长宽大小，使其保持与RGB帧图片相同，并且进一步拓宽特征层数至512，卷积后使用层归一化与激活函数，最后压缩卷积层到128与RGB帧图片处理后的层数相同，使用神经网络对光流图组进行预筛选可以智能提取光流中的特征以提高船只识别率。

将处理后的特征层叠加在一起，叠加后的维度为256*342*192，后续结构与ConvNext主网络相同，进行多次卷积，归一化，与激活函数后输出结果，整体的网络结构如图4所示。

另外，针对ConvNext网络训练的方法为，首先建立可以用于训练的数据集，使用配置有NVR的摄像头做数据收集，调用其视频流使用ConvNext网络对每一帧做图片识别，当发现船只时，保存带有船只的图片并记录发现时间点，然后人工筛查船只图片剔除误识别并校准船只轮廓信息，根据记录时间点从NVR中调取前后视频与图片配对，建立带有船只图片及其前后一段时间视频的训练数据集，训练完成得到船只识别模型。

需要说明的是，ConvNeXt的网络结构基于Inception-v4，但采用了更加灵活的多尺度卷积设计。具体而言，ConvNeXt将不同尺寸的卷积核组合成一个大的卷积核，从而提高感受野并减少参数数量。为了进一步降低参数数量和计算复杂度，ConvNeXt采用了分组卷积，并且在卷积层之间添加了批量归一化（Batch Normalization）和激活函数（ReLU）。ConvNeXt采用了密集连接和组卷积的思想。这种设计可以提高模型的感受野，同时减少参数数量。具体而言，ConvNeXt将多个不同尺寸的卷积核组合成一个大的卷积核。这种方法比传统的卷积核更加灵活，能够捕获更多的局部特征。ConvNeXt还加入了自注意力机制，可以学习到特征之间的关系，进一步提高模型性能。自注意力机制的原理与Transformer类似，即通过对特征图进行自注意力计算，来获取不同位置之间的重要联系。自注意力机制可用于提高模型的稳定性、泛化能力和抗干扰性。ConvNeXt还采用了分组卷积（GroupedConvolution），用于进一步降低参数数量和计算复杂度。分组卷积将输入通道划分为若干个分组，每个分组对应一部分卷积核。这种方法可以减少卷积计算的复杂度，提高模型的效率。

下面对本发明提供的基于视频流相邻帧的船只识别系统进行描述，下文描述的基于视频流相邻帧的船只识别系统与上文描述的基于视频流相邻帧的船只识别方法可相互对应参照。

图5是本发明实施例提供的基于视频流相邻帧的船只识别系统的结构示意图，如图5所示，包括：采集模块51、计算模块52、训练模块53和识别模块54，其中：

采集模块51用于采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列；计算模块52用于基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集；训练模块53用于利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，将提取后的特征层进行串联叠加，输入ConvNext网络中进行训练，得到船只识别模型；识别模块54用于将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于视频流相邻帧的船只识别方法，该方法包括：采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列；基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集；利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，将提取后的特征层进行串联叠加，输入ConvNext网络中进行训练，得到船只识别模型；将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于视频流相邻帧的船只识别方法，该方法包括：采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列；基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集；利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，将提取后的特征层进行串联叠加，输入ConvNext网络中进行训练，得到船只识别模型；将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视频流相邻帧的船只识别方法，其特征在于，包括：

将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果；

基于Farneback光流法计算所述相邻帧图像序列，得到稠密光流图像集，包括：

基于所述调节加权参数、所述前一帧图像y轴光流位移信息和所述当前帧图像y轴光流位移信息，得到当前帧处理后y轴光流位移信息；

由所述相邻帧图像序列中所有帧图像的当前帧处理后x轴光流位移信息和当前帧处理后y轴光流位移信息，构成所述稠密光流图像集；

为所述稠密光流图像集添加时间序列编码，得到稠密光流图像时间集，包括：

2.根据权利要求1所述的基于视频流相邻帧的船只识别方法，其特征在于，采集船只行驶视频流样本，对所述船只行驶视频流样本进行预处理，得到当前帧图像与相邻帧图像序列，包括：

3.根据权利要求1所述的基于视频流相邻帧的船只识别方法，其特征在于，利用神经网络分别对所述当前帧图像和所述稠密光流图像时间集进行特征提取，包括：

4.根据权利要求3所述的基于视频流相邻帧的船只识别方法，其特征在于，将提取后的特征层进行串联叠加，包括：

5.根据权利要求4所述的基于视频流相邻帧的船只识别方法，其特征在于，输入ConvNext网络中进行训练，得到船只识别模型，包括：

通过人工筛查剔除误识别船只图片，校准船只轮廓信息；

6.一种基于视频流相邻帧的船只识别系统，其特征在于，包括：

识别模块，用于将待识别船只行驶视频流输入所述船只识别模型，得到目标船只识别结果；

所述计算模块具体用于：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于视频流相邻帧的船只识别方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于视频流相邻帧的船只识别方法。