CN109375235B

CN109375235B - 基于深度强化神经网络的内河船舶干舷检测方法

Info

Publication number: CN109375235B
Application number: CN201811452126.7A
Authority: CN
Inventors: 谢磊; 郭文轩; 刘颖; 邱文聪; 刘雪涛; 张笛
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-05-12
Anticipated expiration: 2038-11-30
Also published as: CN109375235A

Abstract

本发明公开了一种基于深度强化神经网络的内河船舶干舷检测方法，将激光雷达与联动云台设立在内河岸边的高杆上，云台带动激光雷达调整检测高度和朝向角，对船舶的一侧进行扫描，获取不同检测参数下的船舶轮廓图像，利用强化学习神经网络作为强化学习值函数的逼近器，将船舶轮廓信息输入强化学习神经网络，从而确定当前激光雷达与联动云台做出何种动作来正确识别当前船舶干舷。本发明基于卷积神经网络对图像的识别能力，结合强化学习算法共同构建了深度强化神经网络，克服了深度学习网络在船舶超载识别领域现有的技术不足，提升了激光雷达对船舶干舷信息的检测能力，从而为内河船舶吃水情况的自动判别提供了技术支持。

Description

基于深度强化神经网络的内河船舶干舷检测方法

技术领域

本发明涉及一种基于深度强化神经网络的内河船舶干舷检测方法，属于深度学习领域和强化学习技术领域。

背景技术

近年来，船舶超载运输给水上交通运输带来的危害越来越多，船舶超载现象的存在，严重影响了水运企业的社会声誉，妨碍了水运企业竞争力的提高，干扰了水运行业的健康发展。现阶段段，由于受到技术手段制约，海事执法部门难以对船只进行快速准确的超载检测，致使船舶超载现象屡禁不止。本发明针对内河船舶超载检测现状所暴露出的问题，采用激光雷达作为主要检测设备，利用一种基于深度强化神经网络的内河船舶干舷检测方法及系统，能够适应不同的船舶场景识别任务，不经任何人为干预，实现对船舶干舷吃水的检测，有助于保障船舶的适航能力，保证船员人身安全和国家财产安全，提高船舶运输的安全性，创建安全、有序的水运环境。

当下激光雷达种类繁多，成本参差不齐，价格昂贵，扫描范围及角度有限，采集的点云数据巨大，雷达图像识别工作量庞大且复杂，运用在船舶检测领域仍存在很大的局限性。

在现有技术中，处理来自激光雷达线扫描生成线轮廓图像，常用的方法是通过深层结构来提取抽象特征，再通过抽象特征对线轮廓图像进行识别。然而在深度学习网络的训练过程中，常常有如下的问题：与训练传统的三层神经网络相比，深度学习网络由于计算量大以及需要更新的参数更多，导致时间成本增加。其次，深度学习网络在输出误差变化不大时，训练过程会变慢，需要时间过长。

现阶段，运用定点激光雷达采集点云信息，由于其扫描范围及角度有限，可在联动云台的配合下，结合强化学习技术，制定模糊逻辑设计联动云台动作自主导航，使联动云台带动激光雷达能够在未知环境中不断积累完成预定任务，自动探索较好的解决问题策略。

本发明采用基于卷积神经网络的识别能力，配合强化学习的训练动态地学习识别船舶干舷吃水最合适的激光雷达朝向角，基于算法的动态特性本方法仅采用单个廉价的单线激光雷达，既提高了效率又降低了激光雷达成本，识别准确率也获得了较大提升。

发明内容

本发明以减少人工监测成本以及提高船舶干舷检测效率为目的，提出了一种基于深度强化神经网络的内河船舶干舷检测方法，通过深度学习网络配合强化学习算法，提高了内河船舶干舷识别的准确率。本发明需要将激光雷达与联动云台设立在内河岸边的高杆上，云台带动激光雷达调整检测高度和朝向角，对船舶的一侧进行扫描，获取不同检测参数下的船舶轮廓图像，利用强化学习神经网络作为强化学习值函数的逼近器，将船舶轮廓信息输入强化学习神经网络，从而确定当前激光雷达与联动云台做出何种动作来正确识别当前船舶干舷。本发明基于卷积神经网络对图像的识别能力，结合强化学习算法共同构建了深度强化神经网络，克服了深度学习网络在船舶超载识别领域现有的技术不足，提升了激光雷达对船舶干舷信息的检测能力，从而为内河船舶吃水情况的自动判别提供了技术支持，能够适应不同环境下的内河船舶干舷检测、识别任务。

本发明的技术方案具体包括如下步骤

步骤1，将激光雷达与联动云台设立在内河岸边的高杆上，每类船舶场景内设定相应的激光雷达检测参数调整区域，针对不同类型的内河场景选择激光雷达布设位置，由联动云台带动激光雷达调整检测高度和朝向角，对船舶的一侧进行扫描，通过激光雷达现场采集船舶点云信息；

步骤2，卷积神经网络N_L的训练阶段：根据历史数据整理相关的船舶线轮廓图像样本，训练卷积神经网络N_L使其能识别船舶外轮廓的激光扫描点云数据，识别并提取船舶干舷位置，解算船舶干舷的真实高度，并给出相应的置信度；

步骤3，强化学习神经网络N_Q训练阶段：该阶段以卷积神经网络N_L所识别的船舶干舷所在位置信息及其置信度为输入数据，通过联动云台对激光雷达布设高度、朝向角的反复调整和强化学习，获取激光雷达最佳的布设参数，以确保卷积神经网络识别结果的置信度最优；

步骤4，实时数据预处理阶段：通过激光雷达现场采集每一帧船舶点云信息，预处理成线轮廓图像；

步骤5，现场船舶吃水情况判别阶段：将步骤4中的线轮廓图像经过训练好的卷积神经网络进行干舷识别，给出置信度数据，然后由训练好的强化学习网络对置信度进行处理，以判断激光雷达的布设高度和朝向角是否需要微调，并借助联动云台实现微调，直到卷积网络的给出置信度达到最优，最终得到船舶的吃水情况。

进一步的，步骤2中训练卷积神经网络N_L阶段，具体步骤如下，

(2-1)采集激光雷达点云数据，设置对应的分类标签，建立样本集G；

(2-2)对样本集G中的各组点云信息进行坐标转换，获取该轮廓线在二维直角坐标系下的线轮廓图像；

(2-3)将所有步骤(2-2)中直角坐标系下的线轮廓图像信息存入一个新建的样本集，该样本集作为卷积神经网络训练样本集；

(2-4)构建卷积神经网络中的线轮廓图像特征提取网络，该网络包括输入层、卷积层C1、下采样层S2、卷积层C3、下采样层S4、额外卷积特征输出层；其中，卷积层、下采样层用于原始图像的特征提取，将输入的线轮廓图像转换成多维度的特征表示，从而得到特征图；额外卷积特征输出层是一种特征选择策略，用小卷积滤波器来预测特征图上船舶干舷的位置，并传递该检测结果的置信度E；

(2-5)利用步骤(2-4)构建的线轮廓图像特征提取网络提取步骤(1-3)中训练样本图像的特征矩阵，建立分类标签样本集，确保原始图像、船舷样本图像以及相应的标签均一一对应；

(2-6)利用步骤(2-5)得到的样本图像特征矩阵与对船舷位置的预测，生成针对强化神经网络N_Q的置信度E。

进一步的，步骤(2-5)的具体实现方式如下，

(2-5-1)设定训练样本集批处理数据的数量；

(2-5-2)从步骤(2-3)中得到的训练样本集中按次序依次取一次批处理数量的样本进行特征提取，具体步骤如下：

(2-5-2-1)输入层负责接收输入，它是由44×44个节点组成，X为所有点的集合：

以参数i表示当前层，那么当前层的输出为下式：

xⁱ＝f(uⁱ),uⁱ＝wⁱx^i-1+bⁱ

设定图像特征提取网络各层参数，uⁱ为当前层的输入，wⁱ表示当前层的权值，x^i-1表示上一层的输出，bⁱ表示当前层的额外偏置，f为激活函数，采用sigmoid函数作为激活函数；

(2-5-2-2)所有卷积核对每个线扫描轮廓图像样本进行卷积，在卷积层中，使用卷积核对上一层的特征图进行卷积，然后通过激活函数，得到卷积层C1的特征图，卷积层的计算公式如下：

其中，i表示当前层数，

表示采样层的第j个神经元输出，

为上一层第l个神经元输出，

表示上一层的第l个神经元与当前层第j个神经元之间的连接权值，bⁱ表示当前层的额外偏置，f为激活函数，M_j为输入特征图的集合；得到8个大小40×40的特征图，该特征图是卷积核对图像进行卷积运算后，通过激活函数作用形成的；

(2-5-2-3)对步骤(1-5-2-2)得到的8个特征图分别进行下采样处理，具体计算公式为：

其中，n表示从卷积层C1到采样层S2的窗口宽度，下采样后每个特征图得到一个大小为20×20的下采样图，然后采用mean-pooling方式对卷积层区域内的2×2个像素求取均值，然后通过激活函数输出结果；

(2-5-2-4)重复(2-5-2-2)至(2-5-2-3)卷积和下采样过程，在卷积层C3中卷积核再次对下采样层S2产生的特征图进行卷积，得到8个大小为16×16的特征图；接着，将得到的8个特征图在下采样层S4中分别进行下采样处理，下采样后每一特征图得到一个大小为8×8的下采样图；

(2-5-2-5)将大小为8×8的下采样图调整为1×64的向量，并将8个向量依次拼接，得到1×512的全连接向量；

(2-5-2-6)该批次全部样本处理完成后，得到大小为100×512的图像特征矩阵；

(2-5-3)重复步骤(2-5-2)直到样本集数据特征全部提取完毕，提取完的样本特征图像矩阵大小为4500×512；

(2-5-4)将所述额外卷积特征层添加到最后一组下采样层的末尾，最终得到相对于特征图船舷的坐标偏移，作为卷积网络的输出；

(2-6)利用步骤(2-5-3)得到的样本图像特征矩阵与步骤(1-5-4)对船舷位置的预测，生成针对强化神经网络N_Q的置信度E。

进一步的，步骤(2-6)的具体实现方式如下，

对于多个样本X，它的误差能表示为置信度：

式子中，输出误差E作为该图像的置信度，y_lj是期望输出，o_lj是卷积神经网络的输出，λ为惩罚系数，防止过度拟合；特征选择策略：训练时，建立真实船舷标签和预测位置标签之间的对应关系，采用匹配预测位置与真实标签重叠高于某一阈值(0.5)的偏移坐标；

对于具有p个通道的大小为m*n的特征层，使用3*3*p卷积核做卷积，产生相对于船舷位置坐标偏移，并在每个应用卷积核运算的m*n大小位置，确定该局部区域是否为船舶干舷区，并给出此判别的置信度，以作为评价性反馈信号r(t)。

进一步的，步骤3的具体实现方式如下，

(3-1)搭建强化学习神经网络N_Q，设定各类内河船舶训练角度范围，构建强化学习样本集D；

(3-2)定义z为当前的激光雷达工作状态，卷积神经网络根据生成的线轮廓获取的置信度E(z)，将其作为评价性反馈信号r(t)，并进行时间加权累积以生成期望累积奖赏函数V(z)，来评价当前动作的好坏，而强化学习网络利用评价函数和置信度来实现行为决策的优化，将状态z映射为动作a；

(3-3)从第一帧线扫描激光开始对强化学习网络N_Q训练，激光雷达采集一帧点云信息，记为z_i，将直角坐标系下的线轮廓图像进行环投影转化为点云信息z_i对应的环投影向量

输入到强化学习神经网络N_Q；

(3-4)针对内河环境特征，联动云台对应具有升、降两种平移动作，和上、下、左、右四个方向上的偏转动作，共计6个可选的动作，定义动作空间A为：(a₁，a₂，a₃，a₄，a₅，a₆)，各个动作对应的价值集合为：(Q₁，Q₂，Q₃，Q₄，Q₅，Q₆)；采用ε-greedy方式进行动作选择：以概率随机选择联动云台两种转动动作并执行，概率随机选择动作进行以概率1-ε概率选择(Q₁，Q₂，Q₃，Q₄，Q₅，Q₆)中的较大值所对应的动作a_i并执行，其中ε值随着训练的进行线性减小，

ε_i与ε_f分别是初始和最终概率，n为总训练次数，i为当前训练次数；

(3-5)执行完动作a_i，采集动作a_i后激光雷达采集点云信息阵列，记为z_i+1，同样依据步骤(2-2)所述坐标变化手段，获取该轮廓线在直角坐标系下的线轮廓图像，输入到卷积神经网络N_L中，获得线轮廓图像的识别结果向量T_i+1(t₁，t₂，t₃，t₄)及其对应的置信度E；

(3-6)训练所需的马尔科夫决策过程四元组<Z,A,P,R>均为已知，其中此处Z表示状态、A表示动作、P表示概率、R表示奖励；对于任意状态z,z、和动作a，在z状态下执行动作a转移到z、状态的概率

是已知的，该转移所带来的奖赏

与卷积神经网络的检测结果的置信度有关：

基于此，需要假设状态空间Z和动作空间A均为有限；

(3-7)在置信度已知时，对任意策略τ能估计出该策略带来的期望累积奖赏，令V^τ(z)表示从状态z出发，使用策略τ所带来的累积奖赏；函数Q^τ(z，a)表示从状态z出发，执行动作a后再使用策略τ，定义“状态带来的累积奖赏，这里定义值函数V(·)”，定义“状态-作值函数Q(·)”，分别表示指定“状态”上以及指定“状态-动作”上的累积奖赏，使用γ折扣累积作为奖赏函数；

(3-8)由γ折扣累积奖赏的定义，有状态值函数；

其中z₀表示起始状态，a₀表示起始状态上采取的第一个动作，其中γ(0≤γ≤1)代表邻近奖赏比未来奖赏更重要，E_τ表示在τ这种策略下所对应的期望，r表示奖励，t表示当前时刻；

因此有状态-动作函数：

由于马尔科夫过程的马尔科夫性质，即系统下一时刻的状态仅由当前时刻的状态决定，不依赖于以往任何状态，于是值函数有很简单的递归形式，因此对于γ折扣累积奖赏有：

(3-9)因此在策略τ的作用下，状态a的值函数应该满足Bellman方程：

τ(z，a)表示此时的策略τ为状态z时执行动作a；

表示在折扣因子γ为策略τ时状态z、所对应的值函数，上式的唯一解是最优值函数；

(3-10)用Q(z、，a、)替换(Q₁，Q₂，Q₃，Q₄，Q₅，Q₆)中相应的动作对应的价值，并与

一并存入强化学习样本集D中，若D已达到最大样本容量则替换最早的样本数据；

(3-11)样本D每获得设定数量的新数据便更新一次N_Q网络输出权重；

(3-12)重复步骤(3-3)到步骤(3-11)直到完成最后一个训练样本，结束强化学习神经网络N_Q训练，保存网络N_Q网络参数。

进一步的，将激光雷达所采集的船舶点云信息转换到二维直角坐标下的线轮廓图像的具体实现方式如下，

将设激光传感器的安装位置为(0，0)点，河岸边高杆的轴向为y轴，建立直角坐标系；并将激光雷达采集的极坐标信息，转化为直角坐标系下的坐标信息，转化公式为：

其中，ρ为激光雷达采集的极径信息，θ为极径对应的竖直角度信息，x,y为转化后的横纵坐标。

本发明的技术特点：

本发明能够在卷积神经网络已经训练完成且准确率无法再有明显提高的情况下，进一步提高识别准确率。本方法通过强化学习算法，利用激光雷达返回的点云信息，并处理成线轮廓图像，实时观察当前所监测的船舶状态，将船舶信息输入到卷积神经网络中判定当前船舶对于准确识别船舶干舷吃水的有利程度，进而通过强化学习神经网络获得对于识别正确率提高较为有利的动作，调整云台角度来带动激光雷达朝向。可以通过学习的方式使得当前采集的特征更佳，适用于当前监测目标。

本方法具有以下有益效果：

1、本发明中通过多次动作提高船舶干舷吃水识别准确率，降低了激光雷达要求，有益于在船舶监测与管理中降低成本。

2、本发明利用卷积神经网络提升图象识别能力，强化学习神经网络根据当前激光点云信息，选择合适的动作完成船舶干舷吃水识别，识别过程主动完成，不需要人为参与。

3、本发明基于卷积神经网络对图像的识别能力，结合强化学习算法共同构建了深度强化神经网络，克服了深度学习网络在船舶超载识别领域现有的技术不足，提升了激光雷达对船舶干舷信息的检测能力，从而为内河船舶吃水情况的自动判别提供了技术支持，能够适应不同环境下的内河船舶干舷检测、识别任务。

附图说明

图1为本发明采集激光线扫描信息并处理成线轮廓图像。

图2为卷积神经网络框架图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

一种基于深度强化神经网络的内河船舶干舷检测方法，该方法包括以下步骤：

将激光雷达与联动云台设立在内河岸边的高杆上，每类船舶场景内设定相应的激光雷达检测参数调整区域，针对不同类型的内河场景选择激光雷达布设位置，由联动云台带动激光雷达调整检测高度和朝向角，对船舶的一侧进行扫描，通过激光雷达现场采集船舶点云信息；卷积神经网络N_L的训练阶段：根据历史数据整理相关的船舶线轮廓图像样本，训练卷积神经网络N_L使其能识别船舶外轮廓的激光扫描点云数据，识别并提取船舶干舷位置，解算船舶干舷的真实高度，并给出相应的置信度；强化学习神经网络N_Q训练阶段：该阶段以卷积神经网络N_L所识别的船舶干舷所在位置信息及其置信度为输入数据，通过对激光雷达布设高度、朝向角的反复调整和强化学习，获取激光雷达最佳的布设参数，以确保卷积神经网络识别结果的置信度最优；实时数据预处理阶段：通过激光雷达现场采集船舶点云信息，预处理成线轮廓图像；现场船舶吃水情况判别阶段：针对雷达激光所采集的船舶线轮廓信息的识别准确性，调整激光雷达的联动云台，选取最佳检测参数对船舶吃水情况进行现场检测。

(2)训练卷积神经网络N_L阶段，具体步骤如下：

(2-2)考虑到激光雷达检测数据为极坐标形式，需采用坐标变化手段，对样本集G中的各组点云信息进行坐标转换，获取该轮廓线在直角坐标系下的线轮廓图像，如图1所示，A:激光雷达与联动云台的安装位置；B：内河异侧的对应位置(本发明只需安装在一侧即可)；C：激光雷达所扫描的最近处的边界点；D：激光雷达所扫描的最远处的边界点；E：被扫描船舶与水平面的交点(E与G的垂直距离即为干舷高度)；F：被扫描船舶最高点在水平面上的投影点；

所述步骤(2-2)将样本集G中的各组点云信息进行坐标转换，获取该轮廓线在直角坐标系下的线轮廓图像，具体步骤如下：

(2-2-1)设ρ_i表示扫描第i个点的相距激光雷达的距离，θ_i表示ρ_i所对应的竖直角度值，β_i表示ρ_i所对应的水平角度值，每类船舶场景内设定相应的激光雷达检测参数调整区域，即高度控制在h_min-h_max，竖直角度控制在θ_min-θ_max，水平角度控制在β_min-β_max；

(2-2-2)遍历样本集G中每组点云信息，当h_min＜h_i＜h_max，θ_min＜θ_i＜θ_max并且β_min＜β_i＜β_max时，将ρ_i所对应的θ_i保存，其中h_i表示第i个点的高度；

(2-2-3)激光扫描的数据是建立在以激光传感器为极点，内河水平面的垂线为极轴的极坐标系中，要进行船舶外轮廓的二维重现，须转换到直角坐标系下来进行讨论。设激光传感器的安装位置为(0，0)点，河岸边高杆的轴向为y轴，建立直角坐标系；并将激光雷达采集的极坐标信息，转化为直角坐标系下的坐标信息。转化公式为：

其中，ρ为激光雷达采集的极径信息，θ为极径对应的竖直角度信息，x,y为转化后的横纵坐标；

通过以上变化，实现了将激光雷达所采集的船舶点云信息到船舶外轮廓的极坐标信息到二维直角坐标下的线轮廓图像的转换；

(2-2-4)重新将所得到的线轮廓图像的图像像素调整为44×44。

所述步骤(2-5)利用步骤(2-4)构建的线轮廓图像特征提取网络提取训练样本图像特征矩阵，具体步骤如下：

(2-5-1)设定训练样本集批处理数据的数量；

(2-5-2)从步骤(2-3)中得到的训练样本集中按次序依次取一次批处理数量的样本进行特征提取(如图2所示)，具体步骤如下：

(2-5-2-1)输入层负责接收输入，它是由44×44个节点组成。X为所有点的集合：

以参数i表示当前层，那么当前层的输出为下式：

xⁱ＝f(uⁱ),uⁱ＝wⁱx^i-1+bⁱ

设定图像特征提取网络各层参数，uⁱ为当前层的输入，wⁱ表示当前层的权值，x^i-1表示上一层的输出，bⁱ表示当前层的额外偏置。f为激活函数，本专利中采用sigmoid函数作为激活函数；

(2-5-2-2)所有卷积核对每个线扫描轮廓图像样本进行卷积。在卷积层中，使用卷积核对上一层的特征图进行卷积，然后通过激活函数，得到卷积层C1的特征图。卷积层的计算公式如下：

其中，i表示当前层数，

表示采样层的第j个神经元输出，

为上一层第l个神经元输出，

表示上一层的第l个神经元与当前层第j个神经元之间的连接权值，bⁱ表示当前层的额外偏置，f为激活函数，M_j为输入特征图的集合。得到8个大小40×40的特征图，该特征图是卷积核对图像进行卷积运算后，通过激活函数作用形成的；

(2-5-2-3)对步骤(2-5-2-2)得到的8个特征图分别进行下采样处理，具体计算公式为：

其中，n表示从卷积层C1到采样层S2的窗口宽度。下采样后每个特征图得到一个大小为20×20的下采样图，然后采用mean-pooling方式对卷积层区域内的2×2个像素求取均值，然后通过激活函数输出结果；

(2-5-4)将所述额外卷积特征层添加到最后一组下采样层的末尾，最终得到相对于特征图船舷的坐标偏移，作为卷积网络的输出。

(2-6)利用步骤(2-5)得到的样本图像特征矩阵与对船舷位置的预测，生成针对强化神经网络N_Q的置信度E；

对于多个样本X，可以将其误差表示为置信度E：

式子中，输出误差E作为该图像的置信度，y_lj是期望输出，o_lj是卷积神经网络的输出，λ为惩罚系数，防止过度拟合。特征选择策略：训练时，建立真实船舷标签和预测位置标签之间的对应关系，采用匹配预测位置与真实标签重叠高于某一阈值(0.5)的偏移坐标；

(2-6-2)对于具有p个通道的大小为m*n的特征层，使用3*3*p卷积核做卷积，产生相对于船舷位置坐标偏移，并在每个应用卷积核运算的m*n大小位置，确定该局部区域是否为船舶干舷区，并给出此判别的置信度，以作为评价性反馈信号r(t)。

(3)训练强化学习神经网络N_Q阶段，具体步骤如下：

(3-1)搭建强化学习神经网络N_Q，设定各类内河船舶训练角度范围(θ一般为-15°到15°之间，β一般为-5°到5°之间考虑船舶在内河扫描区域的位置及河道的宽度，该训练角度范围不是都一样)，构建强化学习样本集D，强化学习中样本数据即之前卷积网络给出的船舶干舷点云数据及其置信度。强化学习的学习过程是动态的、不断交互的过程，所需的数据集D也是通过与环境不断交互产生的；

(3-3)从第一帧线扫描激光开始对强化学习网络N_Q训练，激光雷达采集一帧点云信息，记为z_i。将直角坐标系下的线轮廓图像进行环投影转化为点云信息z_i对应的环投影向量

输入到强化学习神经网络N_Q；

(3-4)针对内河环境特征，联动云台对应具有升、降两种平移动作，和上、下、左、右四个方向上的偏转动作，共计6个可选的动作，定义动作空间A为：(a₁，a₂，a₃，a₄，a₅，a₆)，各个动作对应的价值集合为：(Q₁，Q₂，Q₃，Q₄，Q₅，Q₆)。采用ε-greedy方式进行动作选择：以概率随机选择联动云台两种转动动作并执行，概率随机选择动作进行以概率1-ε概率选择(Q₁，Q₂，Q₃，Q₄，Q₅，Q₆)中的较大值所对应的动作a_i并执行，其中ε值随着训练的进行线性减小。

(3-6)训练所需的马尔科夫决策过程四元组<Z,A,P,R>均为已知，其中此处Z表示状态、A表示动作、P表示概率、R表示奖励。对于任意状态z,z、和动作a，在z状态下执行动作a转移到z、状态的概率

是已知的，该转移所带来的奖赏

与卷积神经网络的检测结果的置信度有关：

基于此，需要假设状态空间Z和动作空间A均为有限；

(3-7)在置信度已知时，对任意策略τ能估计出该策略带来的期望累积奖赏，令V^τ(z)表示从状态z出发，使用策略τ所带来的累积奖赏；函数Q^τ(z，a)表示从状态z出发，执行动作a后再使用策略τ，定义“状态带来的累积奖赏，这里定义值函数V(·)”，定义“状态-动作值函数Q(·)”，分别表示指定“状态”上以及指定“状态-动作”上的累积奖赏，本方法使用γ折扣累积作为奖赏函数；

(3-8)由γ折扣累积奖赏的定义，有状态值函数；

其中z₀表示起始状态，a₀表示起始状态上采取的第一个动作，其中γ(0≤γ≤1)代表邻近奖赏比未来奖赏更重要，E_τ表示在τ这种策略下所对应的期望，r表示奖励，t表示当前时刻。

因此有状态-动作函数：

τ(z，a)表示此时的策略τ为状态z时执行动作a；

表示在折扣因子γ为策略τ时状态z、所对应的值函数。上式的唯一解是最优值函数。

(3-12)重复步骤(4-3)到步骤(4-11)直到完成最后一个训练样本，结束强化学习神经网络N_Q训练，保存网络N_Q网络参数；

(4)实时数据预处理阶段，采集激光线扫描信息并处理成线轮廓图像，具体实施步骤如下：

(4-1)针对不同类型的内河场景选择激光雷达布设位置，准备采集点云数据；

(4-2)采用联动云台带动激光雷达采集数据，每类船舶场景内设定相应的激光雷达检测参数调整区域，即高度控制在h_min-h_max(根据检测现场的实际情况，确定一个标准高度h₀，在标准高度的基础上，h_min，h_max分别取-25cm，25cm)，竖直角度控制在θ_min-θ_max，水平角度控制在β_min-β_max。所采集的点云信息将进行在线分析，以判别船舶的吃水情况；具体步骤如下：

(4-2-1)每类船舶场景内设定相应的激光雷达检测参数调整区域，即高度控制在h_min-h_max，竖直角度控制在θ_min-θ_max，水平角度控制在β_min-β_max；

(4-2-2)激光雷达定点转向采集，内河船舶到达被检测区域后，激光传感器每扫描一帧，可获取船舶外轮廓上的一条轮廓线，每一组点云数据包括多个测距信息与其对应的一个分类标签，分类标签为U；每采集一帧点云信息后，联动云台在动作空间A中选择一个最佳动作，带动激光雷达运动，再采集下一组数据；

(4-2-3)重复步骤(4-2-1)至(4-2-2)，直至船舶全部通过检测区，得到完整的激光雷达点云数据。

(5)当激光雷达开始实时检测的时候，每采集、处理一帧扫描数据，都需要经过卷积网络进行干舷识别，给出置信度数据，然后由强化学习网络对置信度进行处理，以判断激光雷达的布设高度和角度是否需要微调，并借助联动云台实现这些微调，直到卷积网络的给出置信度达到最优。现场船舶吃水情况判别阶段，具体步骤如下：

(5-1)将待检测船舶从激光雷达前随机驶过，设置执行阶段船舶识结果的融合次数c；

(5-2)采集激光雷达测距信息，依据步骤(4)将激光线扫描信息处理成线轮廓图像，输入到卷积神经网络N_L中对线轮廓图进行识别，完成识别之后，将评价性反馈信号传递给强化学习网络，选择最大动作价值对应的动作并执行，采集完成后对c次识别结果进行融合，得到最终的识别结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于深度强化神经网络的内河船舶干舷检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于深度强化神经网络的内河船舶干舷检测方法，其特征在于：步骤2中训练卷积神经网络N_L阶段，具体步骤如下，

(2-5)利用步骤(2-4)构建的线轮廓图像特征提取网络提取步骤(2-3)中训练样本图像的特征矩阵，建立分类标签样本集，确保原始图像、船舷样本图像以及相应的标签均一一对应；

3.如权利要求2所述的一种基于深度强化神经网络的内河船舶干舷检测方法，其特征在于：步骤(2-5)的具体实现方式如下，

(2-5-1)设定训练样本集批处理数据的数量；

以参数i表示当前层，那么当前层的输出为下式：

xⁱ＝f(uⁱ),uⁱ＝wⁱx^i-1+bⁱ

其中，i表示当前层数，

表示采样层的第j个神经元输出，

为上一层第l个神经元输出，

(2-5-2-6)全部样本处理完成后，得到大小为100×512的图像特征矩阵；

(2-6)利用步骤(2-5-3)得到的样本图像特征矩阵与步骤(2-5-4)对船舷位置的预测，生成针对强化神经网络N_Q的置信度E。

4.如权利要求3所述的一种基于深度强化神经网络的内河船舶干舷检测方法，其特征在于：步骤(2-6)的具体实现方式如下，

对于多个样本X，它的误差能表示为置信度：

式子中，输出误差E作为该图像的置信度，y_lj是期望输出，o_lj是卷积神经网络的输出，λ为惩罚系数，防止过度拟合；特征选择策略：训练时，建立真实船舷标签和预测位置标签之间的对应关系，采用匹配预测位置与真实标签重叠高于某一阈值的偏移坐标；

对于具有p个通道的大小为m*n的特征层，使用3*3*p卷积核做卷积，产生相对于船舷位置坐标偏移，并在每个应用卷积核运算的m*n大小位置，确定该位置是否为船舶干舷区，并给出此判别的置信度，以作为评价性反馈信号r(t)。

5.如权利要求2所述的一种基于深度强化神经网络的内河船舶干舷检测方法，其特征在于：步骤3的具体实现方式如下，

(3-2)定义z为当前的激光雷达工作状态，卷积神经网络根据生成的线轮廓获取的置信度E，将其作为评价性反馈信号r(t)，并进行时间加权累积以生成期望累积奖赏函数V(z)，来评价当前动作的好坏，而强化学习网络利用评价函数和置信度来实现行为决策的优化，将状态z映射为动作a；

输入到强化学习神经网络N_Q；

ε_i与ε_f分别是初始和最终概率，n′为总训练次数，i为当前训练次数；

(3-6)训练所需的马尔科夫决策过程四元组<Z,A,P,R>均为已知，其中此处Z表示状态、A表示动作、P表示概率、R表示奖励；对于任意状态z,z`和动作a，在z状态下执行动作a 转移到z`状态的概率

是已知的，该转移所带来的奖赏

与卷积神经网络的检测结果的置信度有关：

基于此，需要假设状态空间Z和动作空间A均为有限；

(3-7)在置信度已知时，对任意策略τ能估计出该策略带来的期望累积奖赏，令V^τ(z)表示从状态z出发，使用策略τ所带来的累积奖赏；函数Q^τ(z，a)表示从状态z出发，执行动作a后再使用策略τ，定义“状态带来的累积奖赏”，这里定义值函数V(·)，定义“状态-动作值函数Q(·)”，分别表示指定“状态”上以及指定“状态-动作”上的累积奖赏，使用γ折扣累积作为奖赏函数；

(3-8)由γ折扣累积奖赏的定义，有状态值函数；

其中z₀表示起始状态，a₀表示起始状态上采取的第一个动作，其中γ代表邻近奖赏比未来奖赏更重要,0≤γ≤1，E_τ表示在τ这种策略下所对应的期望，r表示奖励，t表示当前时刻；

因此有状态-动作函数：

τ(z，a)表示此时的策略τ为状态z时执行动作a；

表示在折扣因子γ为策略τ时状态z`所对应的值函数，上式的唯一解是最优值函数；

(3-10)用Q(z`，a`)替换(Q₁，Q₂，Q₃，Q₄，Q₅，Q₆)中相应的动作对应的价值，并与

6.如权利要求1所述的一种基于深度强化神经网络的内河船舶干舷检测方法，其特征在于：将激光雷达所采集的船舶点云信息转换到二维直角坐标下的线轮廓图像的具体实现方式如下，