CN113985876B

CN113985876B - 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统

Info

Publication number: CN113985876B
Application number: CN202111256171.7A
Authority: CN
Inventors: 刘长红; 林德裕; 林韦任; 蔡乾; 江沐鸿; 梁忠伟; 刘晓初
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-09-26
Anticipated expiration: 2041-10-27
Also published as: CN113985876A

Abstract

本发明公开了基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统，方法包括：根据模拟鱼类觅食器官获取障碍物的第一识别结果和水面漂浮物的第二识别结果；然后将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略；最后结合垃圾回收设备的运动风险系数和能源条件系数，确定所述垃圾回收设备的回收路径。本发明能够实现对海洋漂浮垃圾的高效率清理回收，本发明可广泛应用于数据处理技术领域。

Description

基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统

技术领域

本发明涉及数据处理技术领域，尤其是基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统。

背景技术

随着社会的发展和科技的进步，海洋漂浮垃圾数量不断增多，影响了人类赖以生存和发展的海洋生态系统，而用自动自主运行的水面垃圾清理装置代替低效率的人工清理是未来的发展趋势。现有的自动化的水面垃圾清理船或系统，其构成以机械装置和物联网装置为主，通过不同的机构、模块、装置相结合以对水面(海面)漂浮垃圾进行回收清理，它们中有部分结合了自动控制、智能识别和多旋翼无人机等技术来对水面的垃圾进行搜索检测、快速清理，在一定程度上提高了回收清理效率。

现有技术一般无法实现专门针对自身任务(即清理回收海面、水面垃圾)的路径规划，部分技术仅靠机械装置和物联网的结合提高回收清理效率；部分技术虽然实现自动化，但其所包含的系统无法根据自身和外界情况、目标情况不断进行优化和学习，缺乏对自身行动的有效规划；且包括上述技术在内的大部分技术没有很好地将能源条件作为规划的一环。

发明内容

有鉴于此，本发明实施例提供一种基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统，实现对海洋漂浮垃圾的高效率清理回收。

本发明的一方面提供了一种基于仿生鱼类觅食的海洋垃圾回收路径规划方法，包括：

根据模拟鱼类觅食器官获取障碍物的第一识别结果和水面漂浮物的第二识别结果；

将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略；

结合垃圾回收设备的运动风险系数和能源条件系数，确定所述垃圾回收设备的回收路径。

可选地，所述方法还包括：

采用视觉传感器结合流量压强传感器的方式来模拟鱼类的感觉器官；

采用流量压强传感器来辅助获取水流流速和方向的变化信息。

可选地，所述方法还包括采集障碍物的图像信息，该步骤具体包括：

采集所述障碍物的RGB图像；

将所述RGB图像转化为HSV图像；

对所述HSV图像进行高斯滤波处理，去除所述HSV图像中的高频噪声干扰；

使用Canny算子检测所述HSV图像中的水岸线，分割出水面区域；

对所述水面区域图像去除亮度成分元素，提取饱和度分量，得到所述图像信息。

可选地，所述根据模拟鱼类觅食器官获取障碍物的第一识别结果和水面漂浮物的第二识别结果，包括：

对所述图像信息进行增强处理，得到图像二值化数据；

对所述图像二值化数据进行开运算去噪，提取连通区域的轮廓信息；

计算所述轮廓信息的面积和质心坐标；

将轮廓面积处于设定值范围内的物体识别为水面漂浮物；将轮廓面积大于设定值范围的物体识别为障碍物；

根据所述质心坐标确定所述水面漂浮物的位置和所述障碍物的位置，得到所述第一识别结果和所述第二识别结果。

可选地，所述将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略，包括：

当目标装置靠近目标物体时，所述目标装置的视野中障碍物数量没有增大或者所述目标装置周围没有靠近的障碍物，则获取奖励信号；反之，则获取惩罚信号；

若流量压强传感器感知到水流方向突然反转或者视野中障碍物轮廓面积大于预设的最大阈值，则判定所述目标装置与障碍物发生碰撞，清空所述目标装置拥有的奖励分数并以与当前方向顺时针或逆时针垂直的方向作为所述目标装置的下一起始前进方向；

其中，所述目标装置的奖励分数的计算公式为：

G＝g+r*(D1-d1)-p*(D2-d2)

其中，G代表所述目标装置当前状态的累计奖励分数；g代表所述目标装置上一状态的累计奖励分数；r代表距离奖励系数；D1代表所述目标装置起始位置与目标物体的距离；d1代表所述装置当前位置与目标物体的距离；r代表距离惩罚系数；D2代表所述装置起始位置与最近障碍物的距离；d2代表所述装置当前位置与最近障碍物的距离；

其中，所述目标装置用于模拟鱼类觅食器官获取障碍物的第一识别结果和水面漂浮物的第二识别结果。

可选地，所述将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略，还包括：

当所述目标装置与障碍物的距离小于设定阈值且所述目标装置拥有的奖励分数小于上一状态累计总分的次数超过次数阈值，判定障碍物无法被躲避；

所述流量压强传感器在靠近障碍物的过程中如果测得水流流速或压强的变化幅度大于幅度阈值，则将障碍物判定为运动障碍物，其中，所述目标装置与运动障碍物之间的距离惩罚系数大于与所述目标装置与静止障碍物之间的距离惩罚系数。

可选地，所述方法还包括：

通过所述目标装置上的定位模块和信号接收器实时接收发送来自渡口的距离信号数据；

根据所述距离信号数据计算所述目标装置的剩余能源在满载和额定速度下是否足够从当前位置完成返航，进而决定所述目标装置是否继续前进；

当所述目标装置在返航途中因为需要避开多个障碍物而导致最终能源使用超出预期时，逐次缩小触发必须返航命令的距离条件，通过动态调整所述距离条件来约束所述目标装置的返航决策。

本发明实施例另一方面还提供了一种基于仿生鱼类觅食的海洋垃圾回收路径规划系统，包括：

第一模块，用于根据模拟鱼类觅食器官获取障碍物的第一识别结果和水面漂浮物的第二识别结果；

第二模块，用于将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略；

第三模块，用于结合垃圾回收设备的运动风险系数和能源条件系数，确定所述垃圾回收设备的回收路径。

本发明实施例另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例首先根据模拟鱼类觅食器官获取障碍物的第一识别结果和水面漂浮物的第二识别结果；然后将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略；最后结合垃圾回收设备的运动风险系数和能源条件系数，确定所述垃圾回收设备的回收路径。本发明能够实现对海洋漂浮垃圾的高效率清理回收。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤流程图；

图2为本发明实施例提供的海洋漂浮垃圾回收机器装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明提出一种针对海洋漂浮垃圾回收清理的算法，结合强化学习和模仿鱼类觅食进行识别、感知和最佳路径的规划，在自主自动运行的前提下，本发明还能根据外界参数和自身状态不断进行迭代优化并结合局部路径规划，同时引入能源等因素作为行动决策的影响判据，实现对海洋漂浮垃圾的高效率清理回收。

具体地，本发明的一方面提供了一种基于仿生鱼类觅食的海洋垃圾回收路径规划方法，包括：

可选地，所述方法还包括：

采集所述障碍物的RGB图像；

将所述RGB图像转化为HSV图像；

对所述图像信息进行增强处理，得到图像二值化数据；

计算所述轮廓信息的面积和质心坐标；

其中，所述目标装置的奖励分数的计算公式为：

G＝g+r*(D1-d1)-p*(D2-d2)

可选地，所述方法还包括：

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现原理进行详细说明：

如图1所示，本发明采用了一种模仿鱼类觅食的方式来感知障碍物和水面漂浮物体，并将获取到的参数和当前机器的状态作为强化学习算法(如DQN)的网络输入，通过一定的环境评判和奖惩机制进行策略迭代学习，最终将得分最高的路径规划策略作为最优策略。

模仿鱼类觅食：由于大多数鱼类是高度近视，其主要通过侧线和嗅觉来判断障碍物和食物，而对水上漂浮物和可见障碍物而言气敏传感器的用处不大，因此采用视觉传感器+流量压强传感器的方式来模拟鱼类的感觉器官；

感知障碍物和目标：由于水体颜色单一，而海上漂浮物无固定的颜色和形状，因此采用颜色和饱和度作为目标和障碍物的视觉检测指标，而障碍物又分为静止障碍物和运动障碍物，如果直接对运动障碍物进行分类跟踪识别则需要消耗大量的时间和资源，所以使用流量压强传感器来辅助感知水流流速和方向的变化，以此来间接判断障碍物的运动速度和方向，并将结果输出到强化学习网络。

最佳路径选择：为了避免强化学习算法在随机试错的过程中丢失过多期望奖励，这里采用局部动态路径规划的方法，给路径搜索算法设定一个回报阈值用以限制随机动作选择的方向，如果该随机动作使得机器与目标物体连线为直径的圆区域内障碍物的数量减小和到障碍物的距离增大则认为该环境回报有价值并给予奖励和记录，舍弃超出回报阈值可能对机器造成危险的随机动作，对于无法通过改变运动速度和前进方向来躲避的障碍物采用代价评估来确定规避方式，最终得出最优路径后判断代价期望是否符合预期以及自身剩余能源条件与到渡口的距离信息判定是否继续向目标前进或返航。

具体地，下面详细描述RGB图像预处理的处理过程，以及对应的处理结果如下：

本发明将采集到的RGB图像转为HSV图像，然后对该图像进行高斯滤波去除高频噪声干扰，使用Canny算子检测水岸线分割出水面区域，再对水面区域图像去除亮度成分元素，提取饱和度分量，以此来增强图像中的目标区域，弱化水面背景的干扰，降低光线变化的影响。

下面详细描述判断障碍物和目标位置的实现过程：

将预处理增强后的图像二值化并利用开运算去噪，然后提取连通区域的轮廓信息，计算轮廓的面积和质心坐标，将轮廓面积处于设定值范围内的物体识别为目标物体，而海上障碍物一般为岛屿、礁石或者其它船只，其轮廓面积在一定距离下往往会大于某个阈值，此时可以通过轮廓的质心坐标来判断障碍物和目标位置。

下面详细描述环境评判交互与运动行为奖惩的计算过程：

如果装置逐渐靠近目标物体且视野中的障碍物数量没有增大或靠近该装置则给予一定的奖励信号，如果装置在靠近目标物体的过程中视野中障碍物变多或者相对距离更近了则给予一定的惩罚信号(负奖励)，如果流量压强传感器感知到水流方向突然反转或者视野中障碍物轮廓面积大于某一设定最大阈值，则认为装置已经与障碍物发生碰撞，此时将清空之前所获得的所有奖励并以与当前方向顺时针或逆时针垂直的方向作为下一起始前进方向。

其中，所述目标装置的奖励分数的计算公式为：

G＝g+r*(D1-d1)-p*(D2-d2)

其中，G代表所述目标装置当前状态的累计奖励分数；g代表所述目标装置上一状态的累计奖励分数；r代表距离奖励系数；D1代表所述目标装置起始位置与目标物体的距离；d1代表所述装置当前位置与目标物体的距离；r代表距离惩罚系数；D2代表所述装置起始位置与最近障碍物的距离；d2代表所述装置当前位置与最近障碍物的距离。

下面详细描述运动总风险代价期望的计算过程：

如果装置与障碍物距离小于设定阈值且当前奖励分数计算总是低于上一状态累计总分超过一定次数则判定障碍物无法被躲避，流量压强传感器在靠近障碍物的过程中如果测得水流流速或压强出现大幅度变化则将障碍物判定为运动障碍物，装置与运动障碍物间的距离惩罚系数大于与静止障碍物之间的距离惩罚系数，使得装置具有优先避开运动障碍物(如船只等)的特性，此时运动总风险代价期望计算公式如下：

E＝∑A*Dn1+B*Dn2，A>B

其中，A代表运动障碍物风险系数；B代表静止障碍物风险系数；Dn1代表装置的上一状态和当前状态与视野中运动障碍物的距离差；Dn2代表装置的上一状态和当前状态与视野中静止障碍物的距离差。

下面详细描述实时检测机器当前剩余能源条件与返航条件的实现过程：

装置上内置定位模块和信号接收器可实时接收发送自渡口的距离信号数据，并实时计算本装置的剩余能源在满载和额定速度下是否足够从当前位置返航来决定是否继续前进。

下面详细描述策略改进以及路径规划改进的实现过程：

如果返航途中因需避开多个障碍物而导致最终能源使用超出预期，则逐次缩小触发必须返航命令的距离条件，通过动态调整距离阈值来约束本装置的最终决策。

如图2所示，本发明实施例提供的海洋漂浮垃圾回收机器装置的使用过程如下：

首先使用船用视觉传感器来确定视野中距离最近的目标物体，在控制船身接近目标物体的过程中利用视觉传感器与海水压力传感器结合判断视野中是否存在障碍物，是运动障碍物还是静止障碍物。靠近目标物体后使用垃圾处理作业台将漂浮垃圾通过海洋垃圾收集口放入垃圾回收船船体，从而完成整个海洋漂浮垃圾的回收过程。

综上所述，在感知障碍物方面，现有的方法大部分是使用视觉识别例如深度学习、传感器识别等来识别障碍物。单纯得使用视觉识别效果虽好但是功耗以及算法复杂度比较大，通过传感器的识别虽然功耗以及复杂度较小但是效果不好。本发明通过使用视觉识别到障碍物后，通过结合流量压强传感器来判断障碍物的速度和方向，这样可以有效地维持低功效，也可以保证效果。

在局部最佳路径选择方面，很多算法对轨迹的评价准则是：和障碍物的距离、和目标的距离、是否贴近全局路径和速度。这样大部分情况下可以得到不错的效果，但是在某些特殊情况，比如无法通过改变运动速度和前进方向来躲避的障碍物，则需要另外一种评价准则。也就是本发明所描述准则：单位圆范围内障碍物的数量。增加这一个标准可以应对一些特殊的情况，也可以让局部路径更加合理，提高了局部动态的调整能力。

相较于现有技术，本发明具有以下优点：

本发明采用了具备环境评判反馈的强化学习局部路径规划方法实现机器与环境条件的交互，提升机器对未知动态环境的应变能力，并能根据多种条件来自动搜索规划最优路径，确保机器运作状态安全稳定的同时也能减小能源消耗。

此外，本发明将以往记录的路径规划结果作为经验参数进行策略迭代优化，不断改进策略且能减少后续运行处理时间。

本发明使用多传感器结合模拟鱼类觅食的方式来搜寻水面漂浮物和躲避障碍物，可以节省目标图像跟踪所需计算资源消耗，提升处理器的运行效率，从而提高垃圾的清理回收效率。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于仿生鱼类觅食的海洋垃圾回收路径规划方法，其特征在于，包括：

结合垃圾回收设备的运动风险系数和能源条件系数，确定所述垃圾回收设备的回收路径；

所述将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略，包括：

其中，所述目标装置的奖励分数的计算公式为：

G＝g+r*(D1-d1)-p*(D2-d2)

其中，G代表所述目标装置当前状态的累计奖励分数；g代表所述目标装置上一状态的累计奖励分数；r代表距离奖励系数；D1代表所述目标装置起始位置与目标物体的距离；d1代表所述目标装置当前位置与目标物体的距离；p代表距离惩罚系数；D2代表所述目标装置起始位置与最近障碍物的距离；d2代表所述目标装置当前位置与最近障碍物的距离；

2.根据权利要求1所述的基于仿生鱼类觅食的海洋垃圾回收路径规划方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的基于仿生鱼类觅食的海洋垃圾回收路径规划方法，其特征在于，所述方法还包括采集障碍物的图像信息，具体包括：

采集所述障碍物的RGB图像；

将所述RGB图像转化为HSV图像；

4.根据权利要求3所述的基于仿生鱼类觅食的海洋垃圾回收路径规划方法，其特征在于，所述根据模拟鱼类觅食器官获取障碍物的第一识别结果和水面漂浮物的第二识别结果，包括：

对所述图像信息进行增强处理，得到图像二值化数据；

计算所述轮廓信息的面积和质心坐标；

5.根据权利要求1所述的基于仿生鱼类觅食的海洋垃圾回收路径规划方法，其特征在于，所述将所述第一识别结果和所述第二识别结果输入强化学习网络中进行迭代学习，生成路径规划策略，还包括：

6.根据权利要求5所述的基于仿生鱼类觅食的海洋垃圾回收路径规划方法，其特征在于，所述方法还包括：

7.基于仿生鱼类觅食的海洋垃圾回收路径规划系统，其特征在于，包括：

第三模块，用于结合垃圾回收设备的运动风险系数和能源条件系数，确定所述垃圾回收设备的回收路径；

所述第二模块具体用于：

其中，所述目标装置的奖励分数的计算公式为：

G＝g+r*(D1-d1)-p*(D2-d2)

8.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。