CN113139497A

CN113139497A - 一种水面物体识别的系统、方法及基于5g mec的应用

Info

Publication number: CN113139497A
Application number: CN202110502222.3A
Authority: CN
Inventors: 郭雅婷; 钟辰威; 林伟群; 徐雍; 鲁仁全
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-20
Anticipated expiration: 2041-05-08
Also published as: CN113139497B

Abstract

一种水面物体识别的系统、方法及基于5G MEC的应用，该方法预先利用边缘云端完成基于改进的Yolov4深度学习方法的水面物体自动检测和识别的模型模型并临时存储模型参数，并用回传的数据制作新的图像样本以更新模型达到迁移学习；最后识别的结果发送至无人艇控制系统和用户端；该系统包括：无人艇和边缘云模块；水面物体识别基于5G MEC的应用中，将视频数据转换成视频码流数据，采用5G网络通讯模块将视频码流数据上传至边缘云，利用边缘云进行水面运动目标的检测和识别。本方案结合了YOLOv4作为目标检测算法，达到了检测精度和效率的最佳平衡，结合深度和迁移学习的识别算法，增强了无人艇避障能力和提高了垃圾回收效率。

Description

一种水面物体识别的系统、方法及基于5G MEC的应用

技术领域

本发明涉及智能识别技术领域，尤其涉及一种水面物体识别的系统、方法及基于5G MEC的应用。

背景技术

目前水面垃圾种类繁多，为了提高清洁无人船的功能性以及安全性，无人船在航行时需要判断是进行垃圾回收或是避障，而现有无人船缺少水面物体识别系统；现有清洁无人船的地面站缺失高清的视频回传系统以及可视化平台，无法实时直观地反馈周围环境信息给用户，导致用户部署配置等体验较差，因此如何较快地实现水面物体识别并直观反馈给用户非常必要；

同时，在对视频进行识别时，将每帧画面视作单独存在的一整幅图进行输入，并分别进行独立的识别操作这种策略使每识别一帧画面都无法利用之前已经计算过的结果，在识别视频过程中做了大量的重复工作；另外，对水上物体的识别如果使用深度学习方法，虽然在检测精度上达到了不错的效果，但是需要大量数据，训练参数繁多，而针对无人艇来说，较难获取复杂的失败案例数据和进行训练流程。加上无人艇行驶过程中，对目标的检测和识别是基于动态背景，传统的图像识别算法存在大量的图片预处理和特征提取环节，将增加计算时间。

发明内容

本发明的目的在于提出一种水面物体识别的方法，其使用了YOLOv4作为目标检测算法，达到了检测精度和效率的最佳平衡，结合深度和迁移学习的识别算法。

本发明还提出一种水面物体识别的系统，其包括：无人艇和边缘云模块，用于执行上述的水面物体识别的方法。

本发明还提出一种水面物体识别的方法基于5G MEC的应用，其将视频数据转换成视频码流数据，采用5G网络通讯模块将视频码流数据上传至边缘云，利用边缘云进行水面运动目标的检测和识别。

为达此目的，本发明采用以下技术方案：

一种水面物体识别的方法，依次包括以下步骤：

(1)水面移动载体采集视频数据并预处理；

(2)将视频数据转换成视频码流数据，并将视频码流数据上传至边缘云，利用边缘云进行水面运动目标的检测和识别；

(3)采用筛选目标集合算法，将运动目标以外的背景轮廓从图片中过滤，缩减图片中待处理面积，得运动目标的准确位置；

(4)运动目标的识别分类，包括：步骤(4-1)～(4-4)；

(4-1)收集运动目标数据，根据运动目标分类，并标准制作数据集；

(4-2)Yolov4网络的输入端采用Mosaic数据增强、cmBN和SAT自对抗训练的三种方法；在训练过程中,一次同时处理多张图片，通过随机缩放、随机裁剪和/或随机排布的方式进行拼接，获得足够的训练参数；

(4-3)对所有数据进行归一化处理，将多维表达式转换成无量纲；

(4-4)通过在ImageNet大型数据集上对Yolov4模型进行训练，使模型的训练误差达到收敛，确定模型中的参数值，训练真正用到的数据集存放着每张图片的绝对路径和真实框的位置；当神经网络的loss值几乎不变时，则可停止训练，获得识别模型；

(5)基于识别模型，根据回传的视频实时自动检测物体区域的水面运动目标，并进行识别，水面移动载体进行相对应的动作。

优选地，所述步骤(1)包括以下步骤：

(1-1)处理第k帧图像时，同时输入第k-1帧和第k帧图像；

(1-2)使用FAST特征检测提取第k-1帧画面中的特征点并使用BRIEF算法进行特征点描述；

(1-3)使用与步骤(1-2)同样的方式，提取第k帧图像特征，并对第k-1帧和第k帧作帧间的图像特征匹配；若第k帧画面中出现了无法匹配的区域，说明这些改变的区域会在第k-1帧画面中出现大量新增的无法匹配的特征点；

(1-4)分析并判断是否需要重新识别这些无法匹配的特征点；

所述步骤(1-4)中，包括以下判断步骤：

(1-4-1)若第k帧图像的部分区域内出现超过特定数量而无法匹配的特征点，即认为该区域的内容出现了较大变化，需重新识别；此时预处理算法结束，并截取变化的区域作为新的单独的图像传入识别算法；

(1-4-2)若两帧画面在某区域的特征点均匹配成功，说明该小区域内前后两帧画面无显著变化，因此无需再次识别，直接去掉；

(1-5)对比两帧视频画面的特征，找出并储存画面中出现改变的部分。

更优地，所述步骤(1-5)包括以下步骤：

(1-5-1)使用FAST-9提取特征点，设定采样阈值为9，在提取全部特征点之后，使用BRIEF算法对特征点进行描述，然后在其周围按照高斯分布随机选取128对像素点作为采样点；

(1-5-2)计算第k-1帧特征点和第k帧特征点模糊相似度A，A∈[0，1]；

当A＝1时表示两个点的特征完全匹配，是对应点的概率高；

当A＝0是表示两个点的特征完全不同，是对应点的概率低；

(1-5-3)需要在第k帧中找到一组不重复的特征点集X，并在第k-1帧中找到另一组数量相同的不重复特征点集Y，若X与Y满足大小相同、特征点都是不重复且唯一的、序号相同的两个点之间的模糊匹配度应当大于0.5三个条件，则X和Y被定义为第k-1帧及第k帧的一个匹配方案，再通过对两帧中所有符合匹配条件的点集的匹配度进行累加得到总匹配度，总匹配度最大的组合视作第k帧和第k-1帧的最佳特征点匹配方案并输出；

(1-5-4)得到多个D*D网格图像并计算内容发生较大变化的区域；依次计算网格中不匹配特征点占比，当占比P大于设定的阈值时认为该网格为大变动区域，再将所有相邻的大变动区域编为一组，计算其宽度和高度，然后用矩形切割该区域并储存。

优选地，所述步骤(3)包括以下步骤：

(3-1)对相邻的三帧图像进行帧间差分，针对动态背景的影响，对帧差图像进行加法运算以代替同类三帧差法中的逻辑“与”运算；然后对加法运算后的帧差图像进行灰度投影，通过对相邻帧的投影做互相关运算得到相邻图像中运动目标的准确位置，从而实现运动目标的检测识别；

(3-2)对加法运算后的帧差图像进行灰度投影，以序列图像中第k帧图像作为参考坝，进行图像行和列像素灰度值的累加投影；通过对水平与垂直两个方向的投影进行互相关运算，得到相邻图像中运动目标的准确位置；

(3-3)当边缘节点接收到不能检测的物体图像时，该图像被发送到边缘云，如果该边缘节点多次收到的不能检测的物体为同一个物体，则边缘云将这个物体相关的图像加入训练集重新训练，并将新的模型推送到边缘节点。

优选地，所述(4-1)具体为：收集水面物体数据，根据水面物体分类标准制作数据集；使用Python将所有图片重命名；使用Labelimg给每个图片的object打上标签，生成的目标信息保存于对应的“.XML”文件里；

所述(4-3)具体为：将水面移动载体收集到的图像像素范围转换为0-1之间，将多维表达式转换成无量纲；转化的公式为：

其中，像素Y代表经过变换后的像素；像素X代表原始像素值；像素M代表样本像素的最大值；像素L代表样本像素的最小值。

进一步优化地，所述步骤(4-4)包括以下步骤：

(4-4-1)生成预测框:在训练数据之前，使用K-means算法对标注出来的目标框进行聚类，再用其初始化候选框大小；

(4-4-2)特征提取和融合：提取得到图像特征后依次接入3个卷积层构成下采样层,然后与3层上采样层相加得到新的特征,再与3层上采样层相加,最终获得3个卷积层特征；此时加上初始卷积一半通道特征经过卷积后从三个尺度预测目标框、置信度和类别概率；

(4-4-3)计算损失函数：在神经网络加上加权损失函数，使用损失函数CIOU加权方式约束权重和偏置的更新走向，原有的loss乘上易检测目标对网络训练贡献削弱的指数，以集中地诱导模型分辨难以区分的目标类别。

可优选地，所述步骤(4-4)还依次包括：步骤(4-4-4)和步骤(4-4-5)；

所述步骤(4-4-4)，利用迁移学习基于新样本进行再训练模型，针对水面移动载体收集的特定小样本数据集的训练，首先利用预训练的模型参数进行初始化，再进行微调更新，使模型对于该小样本数据集具有特征提取与判别的能力；

所述步骤(4-4-5)，后续训练时采用10折交叉验证；得到训练好的模型后，使用测试集在模型上进行测试，得到AP和单张图像平均测试时间的性能指标，记录YOLOv4在数据集之下的检测稳定性和准确性。

优选地，所述步骤(5)中，在用户端中，依托感知网络所汇聚的视频数据，在前端界面上实时显示识别对象的基本信息，以图片、语音、实时视频和/或回放视频的形式反馈给用户。

一种水面物体识别的方法基于5G MEC的应用，其特征在于，包括上述的水面物体识别的方法；

所述步骤(2)中，将视频数据转换成视频码流数据，采用5G网络通讯模块将视频码流数据上传至边缘云，利用边缘云进行水面运动目标的检测和识别。

一种水面物体识别的系统，用于执行上述的水面物体识别的方法，其特征在于，包括：无人艇和边缘云模块；

所述无人艇移动于水面，并采集视频数据并预处理；

所述无人艇设有视频处理器，用于将视频数据转换成视频码流数据，并将视频码流数据上传至边缘云模块；

所述边缘云模块用于接收视频码流数据，并利用边缘云进行水面运动目标的检测和识别，执行步骤(3)-(4)，并生成识别模型；

所述无人艇，基于识别模型，根据回传的视频实时自动检测物体区域的水面运动目标，并进行识别，对水面运动目标进行相对应的动作。

本发明的有益效果：

本方案的识别方法更准确高效、泛化性更好，其结合了YOLOv4作为目标检测算法，达到了检测精度和效率的最佳平衡，结合深度和迁移学习的识别算法，增强了无人艇避障能力和提高了垃圾回收效率。

附图说明

图1是水面物体识别的系统流程图；

图2是物体检测流程图；

图3是基于改进的Yolov4模型的物体识别网络示意图；

图4是对新数据集进行模型训练流程图。

具体实施方式

下面结合附图通过具体实施方式来进一步说明本发明的技术方案。

一种水面物体识别的方法，依次包括以下步骤：

本专利可通过5G网络进行高清视频回传，在边缘云进行识别水面物体，并将识别结果反馈到用户端和无人艇，以方便用户感知和辅助无人艇的避障和垃圾回收动作，系统流程图见图1；

(1)水面移动载体采集视频数据并预处理；

首先通过无人艇搭载的高清摄像头进行信息采集，把摄像机输出的模拟视频信号采用特征提取预处理算法进行快速检测以及识别：将前一帧中已识别物体的图像特征与下一帧画面提取出的特征相比较，找出下一帧中已经被检测或识别过的物体，并将其剔除，可大幅度减少后期识别算法运行时间，进一步压缩视频、提升视频处理效率。

编码视频并回传。初步压缩后的视频数据通过无人艇内置的高性能H.265视频编码器直接转换成视频码流数据，接着可采用5G网络通讯模块上传至边缘云，利用边缘服务器进行水面物体检测和识别。

解码视频并进行目标检测。由于无人艇行驶过程中，视频中背景是动态的，而已有的目标检测与识别算法检测速度慢，因此本专利首先采用筛选目标集合算法，将背景轮廓从图片中过滤掉，缩减图片中待处理面积，从而加快系统的运行速度；接着基于三帧差法，如图2，该方法将改进的三帧差算法与灰度投影算法相结合：

(4)运动目标的识别分类，包括：步骤(4-1)～(4-4)；

YOLOv4总体上由骨干网络、颈部网络和头部网络3部分组成。本专利基于一种对Yolov4目标检测模型的改进方法，如图3；顶层检测网络采用改进的特征融合层，训练阶段采用加权的损失函数应对数据不均衡问题，以训练出基于无人艇收集的新数据集的模型：采用深度学习迁移方法中的YOLOv4算法进行水面垃圾和障碍物识别分类，具体见图4。训练过程中采用迁移学习策略，将在ImageNet上预训练的YOLOv4模型迁移至无人艇收集的数据集上。在基于深度学习的方法上，采用数据增强和迁移学习的方法以防止小数据集出现过拟合。

(4-2)Yolov4网络的输入端采用Mosaic数据增强、cmBN和SAT自对抗训练的三种方法；在训练过程中,一次同时处理多张图片，例如4张图片，通过随机缩放、随机裁剪和/或随机排布的方式进行拼接，使得一个GPU就可以达到比较好的效果，获得足够的训练参数，从而提高模型的规范化程度，解决数据集不足导致的过拟合问题,让网络的鲁棒性更好。经数据增强后，作为训练集和验证集的图像数量将增多，按6:2:2的比例划分为训练集、验证集、测试集；

在对图像进行预处理时，对所有数据进行归一化处理，以减小几何变换的影响，同时加快梯度下降来求解最优解。无人艇搭载的4K高清摄像头收集到的图像尺寸为4096×2160，像素在0～255之间。因此需要将像素范围转换为0-1之间；通过将多维表达式转换成无量纲，以避免不同物理意义和维数的输入变量的不平等使用和大数据对小数据的覆盖。

1、本方案的识别方法更准确高效、泛化性更好。YOLOv4是最优秀的目标检测算法之一，其汇集了众多研究成果，达到了检测精度和效率的最佳平衡。结合深度和迁移学习的识别算法，增强了无人艇避障能力和提高了垃圾回收效率。通过采用改进的Yolov4，将低层与高层的特征进行融合，提高水面物体目标检测的精度；而且采用数据增强和迁移学习的方法来防止小数据集中可能出现过拟合的情况；同时提高信息流在网络中的传输速度。

2、获取外界信息靠的是摄像头，而非各种传感器，这种设计不仅能减轻无人艇的质量，提升无人艇的灵活性，也大大减少了使用其它传感器产生的费用。

3、物体识别的结果通过可视化平台发送到用户端，便于用户部署配置与更新升级，实时查看当前无人艇的周围环境与统计信息，第一时间获知最新的场景和服务，提升了体验感。

优选地，所述步骤(1)包括以下步骤：

(1-1)处理第k帧图像时，同时输入第k-1帧和第k帧图像；

(1-4)分析并判断是否需要重新识别这些无法匹配的特征点；

所述步骤(1-4)中，包括以下判断步骤：

步骤1的算法主要通过匹配前后两帧画面的特征值过滤冗余信息即进行切割画面，缩小视频流尺寸。这种预处理方法可以减小后面视频识别算法的运算量，节约视频处理时间，最终加快主算法识别速率，能够提升5％以上的性能。

更优地，所述步骤(1-5)包括以下步骤：

当A＝1时表示两个点的特征完全匹配，是对应点的概率高；

当A＝0是表示两个点的特征完全不同，是对应点的概率低；

(1-5-4)得到多个D*D网格图像并计算内容发生较大变化的区域；依次计算网格中不匹配特征点占比，当占比P大于设定的阈值时认为该网格为大变动区域，再将所有相邻的大变动区域编为一组，计算其宽度和高度，然后用矩形切割该区域并储存。其中，阈值一般取第k-1帧中不可匹配特征点的平均密度。

进一步优化地，所述步骤(3)包括以下步骤：

在动态背景以及摄像头有轻微晃动的情况下，较传统的帧差法有较高的识别检测能力；并且在计算时间上有所改善，实际应用范围较大。

优选地，为了使模型更适合无人艇水面目标的识别，所述步骤(4-4)包括以下步骤：

无人艇收集的水面物体大小各异，若使用默认的候选框尺寸，可能实际的目标尺寸和设定的差异过大，将导致训练初始阶段的损失值的下降方向偏离甚至产生梯度爆炸。因此在训练数据之前，使用K-means算法对标注出来的目标框进行聚类，再用其初始化候选框大小，不仅可以提高模型的学习效率,还能加快收敛速度。

Yolov4模型在Backbone和输出层加入了“颈部”。为解决训练时出现的梯度消失和特征消散问题,本专利采用的特征融合网络结合了深层网络提取的深层特征和浅层网络的图像边缘信息，并对其进行多次使用再融合,具体为:提取得到图像特征后依次接入3个卷积层构成下采样层,然后与3层上采样层相加得到新的特征,再与3层上采样层相加,最终获得3个卷积层特征。此时加上初始卷积一半通道特征经过卷积后从三个尺度预测目标框、置信度和类别概率。

计算损失函数：模型的Prediction部分训练时的损失函数为CIOU(Complete－IoU)。CIOU考虑到3个几何因素，即重叠面积、中心点距离和长宽比。为了进一步提升性能的同时解决目标检测任务正负样本极不平衡情况下loss易被大量负样本左右的问题,本专利采用在神经网络加上加权损失函数的方法。使用损失函数加权方式约束权重和偏置的更新走向,即原有的loss乘上易检测目标对网络训练贡献削弱的指数,以便集中精力去诱导模型分辨难以区分的目标类别,有效地提升整体的目标检测准确度和速度。

进一步优化地，所述步骤(4-4)还依次包括：步骤(4-4-4)和步骤(4-4-5)；

反馈识别结果到无人艇控制系统和用户端。得到识别模型后，边缘将根据回传的视频实时自动检测物体区域并识别，然后发送识别结果给远程数据中心和用户：数据传入无人艇控制系统后，控制系统将综合各种信息，从而共同协调以完成避障或者回收垃圾的相关动作；而在用户端依托感知网络所汇聚的视频数据，在前端界面上实时显示识别对象的基本信息如体积、类型、数量等，并进行语音播报，发现异常可实时报警，并增加关键证据视频录制、图片截取和云端同步实时回放功能。

一种水面物体识别的方法基于5G MEC的应用，包括上述的水面物体识别的方法；

本专利通过5G和MEC将4K级别的高清视频实时回传，并将水面物体识别结果反馈给无人艇和用户，不仅用户观看体验更好，智能分析等应用业务的准确度也越高。

5G MEC赋予更高的灵活性以及更快的速度。使用边缘人工智能的设备无需连接即可正常工作、独立处理数据并做出决策；并允许实时操作，包括数据创建、决策和在毫秒间起作用的操作，将降低数据通信的成本，通过在本地预处理数据，可以避免将大量数据存储到云中的问题；视频回传至云端前采用基于特征提取预处理算法对物体快速检测和识别，解决了现有视频识别算法对不同帧中同一对象反复分类、反复识别问题，进一步增加视频压缩效率，提升视频识别算法运行效率的目的。

所述无人艇移动于水面，并采集视频数据并预处理；

无人艇可设有用于采集视频数据并预处理的视频采集分析单元，以及5G网络通讯模块；边缘云模块设有边缘计算单元，用于执行步骤(3)-(4)，并生成识别模型；无人艇设有物体识别单元，用于基于识别模型，根据回传的视频实时自动检测物体区域的水面运动目标，并进行识别；无人艇设有反馈模块，用于将识别结果反馈至用终端或无人艇的控制系统。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种水面物体识别的方法，其特征在于，依次包括以下步骤：

(1)水面移动载体采集视频数据并预处理；

(4)运动目标的识别分类，包括：步骤(4-1)～(4-4)；

2.根据权利要求1所述的水面物体识别的方法，其特征在于，所述步骤(1)包括以下步骤：

(1-1)处理第k帧图像时，同时输入第k-1帧和第k帧图像；

(1-4)分析并判断是否需要重新识别这些无法匹配的特征点；

所述步骤(1-4)中，包括以下判断步骤：

3.根据权利要求2所述的水面物体识别的方法，其特征在于，所述步骤(1-5)包括以下步骤：

当A＝1时表示两个点的特征完全匹配，是对应点的概率高；

当A＝0是表示两个点的特征完全不同，是对应点的概率低；

4.根据权利要求2所述的水面物体识别的方法，其特征在于，所述步骤(3)包括以下步骤：

5.根据权利要求1所述的水面物体识别的方法，其特征在于，所述(4-1)具体为：收集水面物体数据，根据水面物体分类标准制作数据集；使用Python将所有图片重命名；使用Labelimg给每个图片的object打上标签，生成的目标信息保存于对应的“.XML”文件里；

6.根据权利要求5所述的水面物体识别的方法，其特征在于，所述步骤(4-4)包括以下步骤：

7.根据权利要求6所述的水面物体识别的方法，其特征在于，所述步骤(4-4)还依次包括：步骤(4-4-4)和步骤(4-4-5)；

8.根据权利要求1-7任意一项所述的水面物体识别的方法，其特征在于，所述步骤(5)中，在用户端中，依托感知网络所汇聚的视频数据，在前端界面上实时显示识别对象的基本信息，以图片、语音、实时视频和/或回放视频的形式反馈给用户。

9.一种水面物体识别的方法基于5G MEC的应用，其特征在于，包括如权利要求1-8任意一项所述的水面物体识别的方法；

10.一种水面物体识别的系统，用于执行权利要求1-9任意一项所述的水面物体识别的方法，其特征在于，包括：无人艇和边缘云模块；

所述无人艇移动于水面，并采集视频数据并预处理；