CN110246142A

CN110246142A - 一种检测障碍物的方法、终端和可读存储介质

Info

Publication number: CN110246142A
Application number: CN201910518018.3A
Authority: CN
Inventors: 南一冰; 华敏杰; 廉士国
Original assignee: Cloudminds Inc
Current assignee: Cloudminds Robotics Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-17

Abstract

本发明实施例涉及人工智能领域，公开了一种检测障碍物的方法、终端和可读存储介质。本发明中检测障碍物的方法，获取终端所处环境的原始图像；根据原始图像以及预设的第一语义分割网络，确定原始图像中的目标区域，目标区域包括原始图像中终端的可移动区域，其中，第一语义分割网络基于具有可移动区域类别的第一分类类别训练获得；从原始图像中提取目标区域所对应的图像，并将提取的图像作为目标子图像；根据目标子图像以及预设的第二语义分割网络，确定目标子图像中的障碍物，其中，第二语义分割网络基于具有障碍物类别的第二分类类别训练获得。本实施方式，使得可以准确检测出终端在可移动区域内的障碍物。

Description

一种检测障碍物的方法、终端和可读存储介质

技术领域

本发明实施例涉及人工智能领域，特别涉及一种检测障碍物的方法、终端和可读存储介质。

背景技术

随着科学的不断进步，计算机技术以及人工智能技术的引入，出现了智能机器人、无人驾驶汽车等智能设备。通常智能设备需要通过采集周围环境的图像，对采集的图像进行障碍物识别，进而根据障碍物以及目的地规划出前行的路线。

发明人发现现有技术中至少存在如下问题：目前对障碍物的检测存在不准确的问题；例如，边缘检测方法对地面颜色和光照敏感，导致该方法只适用于地面地质不佳且环境照度均匀的情况；为了改善边缘检测的准确度，出现了同时使用颜色信息和边缘信息进行障碍物检测的方法，但是，该方法需要引入参考区域，若参考区域外的地面因意料之外的阴影而与参考区域的地面不同时，阴影区域将被识别为障碍物；随着技术发展，还出现了使用全色图像(RGB)图像获取环境的语义映射，并结合深度图像检测障碍物的方式，但是，该方法只适用于对普通障碍物的判断，不能检测小型障碍物，如，散落地面的垃圾、小石子等。

发明内容

本发明实施方式的目的在于提供一种检测障碍物的方法、终端和可读存储介质，使得可以准确检测出终端在可移动区域内的障碍物。

为解决上述技术问题，本发明的实施方式提供了一种检测障碍物的方法，获取终端所处环境的原始图像；根据原始图像以及预设的第一语义分割网络，确定原始图像中的目标区域，目标区域包括原始图像中终端的可移动区域，其中，第一语义分割网络基于包括可移动区域类别的第一分类类别训练获得；从原始图像中提取目标区域所对应的图像，并将提取的图像作为目标子图像；根据目标子图像以及预设的第二语义分割网络，确定目标子图像中的障碍物，其中，第二语义分割网络基于包括障碍物类别的第二分类类别训练获得。

本发明的实施方式还提供了一种终端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的检测障碍物的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的检测障碍物的方法。

本发明实施方式相对于现有技术而言，获取终端所处环境的原始图像，通过第一语义分割网络，确定出该原始图像中的目标区域，该目标区域包括在原始图像中终端可移动区域(如地面、道路)，由于目标子图像是基于目标区域确定，减少了该目标子图像中所包括的干扰图像，从而缩小了确定障碍物的范围，使得准确地通过第二语义分割网络对目标子图像进行语义分割，如：可以识别小型障碍物，准确地确定出障碍物，提高了确定障碍物的精度以及准确度；另外，由于第二语义分割网络是基于第二分类类别训练获得，而第二分类类别的种类数少，可以加快对障碍物确定的速度。

另外，根据原始图像以及预设的第一语义分割网络，确定原始图像中的目标区域，具体包括：根据原始图像以及第一语义分割网络，获得第一语义分割图像，第一语义分割图像包括原始图像中各物体的类别标注信息；提取第一语义分割图像中终端的可移动区域，并将提取的可移动区域作为目标区域。根据各物体的类别标注信息，可以快速且准确地确定出第一语义分割图像中终端的可移动区域。

另外，第一语义分割网络包括编码子网络、解码子网络和光流子网络，根据原始图像以及第一语义分割网络，获得第一语义分割图像，具体包括：将原始图像输入编码子网络，获得原始图像的第一特征图像；将原始图像和上一帧图像输入光流子网络，获得光流信息；其中，光流信息用于表征原始图像与上一帧图像之间的差异；根据第一特征图像、光流信息和解码子网络，获得第一语义分割图像。由于存在终端在移动过程中因抖动而导致原始图像不准确的情况，影响对原始图像的语义分割结果，由于光流信息可以确定原始图像与上一帧图像之间的差异，利用该光流信息可以保持相邻帧图像之间的时间一致性，从而可以消除原始图像不准确的问题，提高第一语义分割网络分割图像的准确率和精度。

另外，解码子网络包括N层网络层，N为大于1的整数；根据第一特征图像、光流信息和解码子网络，获得第一语义分割图像，具体包括：根据上一帧图像的第二特征图像和光流信息，确定前N-1层网络层各自对应的待融合特征图像；按照网络层的层数从低到高的顺序进行以下处理：根据第M-1层网络层输出的输出特征图像，确定与第M层网络层空间分辨率一致的第三特征图像，融合第M层网络层的待融合特征图像和第M层网络层的第三特征图像，并将融合后的特征图像作为第M层网络层输出的输出特征图像，其中，第一层网络层的第三特征图像是根据第一特征图像确定，第一层网络层输出的输出特征图像是融合第一层网络层的第三特征图像与第一层网络层的待融合特征图像后获得，M为整数，且1＜M≤N-1；根据第N-1层网络层输出的输出特征图像，确定第N层网络层的第三特征图像，并将第N层网络层的第三特征图像作为第N层网络层输出的输出特征图像；根据第N层网络层输出的输出特征图像，确定第一语义分割图像。由于前N-1层网络层都确定待融合特征图像，将待融合特征图像与网络层的第三特征图像进行融合，可以进一步在前N-1层网络层消除原始图像拍摄不准确的问题。

另外，根据上一帧图像的第二特征图像和光流信息，确定前N-1层网络层各自对应的待融合特征图像，具体包括：根据光流信息以及第二特征图像，确定第一层网络层的待融合特征图像；按照第2层网络层至第N-1层网络层各自对应的空间分辨率，分别变换第一层网络层的待融合特征图像的空间分辨率，得到第2层网络层至第N-1层网络层各自对应的待融合图像。通过变换第一层网络层的空间分辨率，可以快速确定出第2层网络层至第N-1层网络层各自对应的待融合图像，提高确定第一语义分割图像的速度。

另外，第一语义分割网络的损失函数为N层网络层各自对应的损失函数之和；针对每层网络层对应的损失函数的确定过程，具体包括：根据网络层输出的输出特征图像与存储的所处网络层对应的真值图像，确定当前所处网络层的损失函数。损失函数基于所处网络层输出的输出特征图像确定，由于基于每层的损失函数都进行了确定，提高第一语义分割网络的损失函数确定的准确性，进而提高了对原始图像分割的准确性。

另外，提取第一语义分割图像中终端的可移动区域，具体包括：基于第一语义分割图像中的类别标注信息，提取第一语义分割图像中可移动区域的区域轮廓，以及位于可移动区域上物体的物体轮廓；合并位于区域轮廓之外的物体的图像；按照预设图形，包围经过合并处理后的第一语义分割图像中的区域轮廓以及物体轮廓，将包围区域作为可移动区域。由于终端在移动过程中，关注终端的可移动区域以及位于在终端的可移动区域上的物体，因而从第一语义分割图像中提取该区域轮廓以及物体轮廓更加符合真实情况，进而提高对目标区域的确定的准确度；且合并区域轮廓之外的图像，简化区域轮廓外的物体的图像，进一步减小了目标区域的干扰图像。

另外，合并位于区域轮廓之外的物体的图像，具体包括：将位于区域轮廓之外物体的图像的色值置为0，将可移动区域的图像的色值置为1。合并的方式简单，速度快。

另外，根据目标子图像以及预设的第二语义分割网络，确定目标子图像中的障碍物，具体包括：将目标子图像输入第二语义分割网络，获得对目标子图像的第二语义分割图像，第二语义分割图像包括目标子图像中可移动区域标注信息和障碍物标注信息；根据第二语义分割图像，确定原始图像中的障碍物。由于第二分类类别的种类数少，进而使得该第二语义分割网络可以快速且准确地对目标子图像中的障碍物进行标注，进而也便于根据障碍物标注信息确定出目标子图像中的障碍物。

另外，根据第二语义分割图像，确定目标子图像中的障碍物，具体包括：将第二语义分割图像变换为二值图像；对变换处理后的第二语义分割图像进行去噪处理，去噪处理包括：删除单一障碍物或合并相邻的单一障碍物。通过二值变化，可以减少颜色干扰，快速识别出障碍物的位置，并通过去噪处理，可以增加障碍物的轮廓的清晰度。

另外，在确定目标子图像中的障碍物之后，检测障碍物的方法还包括：在第二语义分割图像中设置目标位置；根据目标位置以及障碍物的位置，规划终端的运动轨迹。由于准确地识别出原始图像中的障碍物，从而使得可以更加合理地规划该终端的运动轨迹。

另外，第一语义分割网络以及第二语义分割网络的训练图像集包括：采集的图像，以及对采集的图像进行运动模糊处理后生成的模糊图像。通过运动模糊处理后生成的模糊图像，可以模拟对运动物体的拍摄图像，丰富训练图像集中的数据。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的一种检测障碍物的方法的具体流程图；

图2是根据本发明第一实施方式中提取第一语义分割图像中终端的可移动区域的具体实现示意图；

图3是根据本发明第一实施方式中提供的第一语义分割图像中的可移动区域的示意图；

图4是根据本发明第二实施方式中的获取第一语义分割图像的具体实现示意图；

图5是根据本发明第二实施方式中提供的一种解码子网络的结构示意图；

图6是根据本发明第三实施方式中提供的一种终端的具体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种检测障碍物的方法。该检测障碍物的方法可以应用于终端，该终端可移动，例如：智能机器人、无人驾驶汽车，无人驾驶船以及智能轮椅等，也可以应用于服务端，如云端。该检测障碍物的方法的具体流程如图1所示。

步骤101：获取终端所处环境的原始图像。

具体的说，可以在终端上设置多个图像采集装置，如：彩色图像采集装置、深度图像采集装置等。图像采集装置还可以设置在终端的前方、后方，以便采集终端前进方向的周围环境，或采集位于该终端后方的所处环境的图像。该原始图像可以为全色图像-深度图像(RGB-Depth图像，简称“RGB-D图像”)。

可以理解的是，还可以从云端获取该原始图像，其中，原始图像可以是该终端所处环境内设置的摄像头采集后上传云端。

步骤102：根据原始图像以及预设的第一语义分割网络，确定原始图像中的目标区域，目标区域包括原始图像中终端的可移动区域，其中，第一语义分割网络基于具有可移动区域类别的第一分类类别训练获得。

具体的说，第一语义分割网络用于分割图像中的各类别的物体，该第一语义分割网络根据大量的训练图像训练获得，训练图像集中包括用作输入数据的训练图像，以及与训练图像对应的标注训练图像，标注训练图像包括对训练图像中的各物体的标注信息，将该标注训练图像作为输出数据，根据该输入数据以及输出数据训练即可得到该第一语义分割网络；其中，基于第一分类类别对训练图像中的各物体进行标注，得到标注训练图像。第一分类类别可以基于终端的应用场景进行设置，且该第一分类类别至少包括该终端可移动区域，若终端应用在城市，则第一分类类别可以包括城市各景观，如铁轨(铁轨作为可移动区域，也可以作为背景图像)、大厦、火车、道路(该道路可作为可移动区域)、交通灯等；若终端应用在室内，则第一分类类别可以包括室内各物体，如：墙壁、地板(地板作为可移动区域)、夹具、窗户、电器等。

原始图像中终端的可移动区域为提供终端运动的载体的图像所在区域，例如：原始图像中终端的可移动区域可以为原始图像中地面图像的所在区域、地板图像的所在区域，或者是铁轨图像的所在区域等。

一个具体的实现中，根据原始图像以及第一语义分割网络，获得第一语义分割图像，第一语义分割图像包括原始图像中各物体的类别标注信息；提取第一语义分割图像中终端的可移动区域，并将提取的可移动区域作为目标区域。

具体的说，可以将原始图像输入该第一语义分割网络，即可获得对该原始图像中各物体进行标注后的第一语义分割图像。提取第一语义分割图像中该终端的可移动区域的具体过程如图2所示，包括如下子步骤。

子步骤1021：基于第一语义分割图像中的类别标注信息，提取第一语义分割图像中可移动区域的区域轮廓，以及位于可移动区域上物体的物体轮廓。

具体的说，区域轮廓即为该可移动区域的边界，物体轮廓即为物体的边界。

子步骤1022：合并位于区域轮廓之外的物体的图像。

具体的说，由于移动终端并不会在区域轮廓之外的图像对应的环境下运动，因而位于区域轮廓之外的物体的图像可以作为背景图像，可以将于区域轮廓之外的物体的图像全部合并成一个整体，合并的规则可以如公式(1)所示，即将位于区域轮廓之外物体的图像的色值置为0，将可移动区域的图像的色值置为1。合并操作可以减少位于区域轮廓之外的物体的图像的种类。

其中，Mask_seg→RGB-D表示该可移动区域的色值，i表示像素位置，ROI为区域轮廓。

子步骤1023：按照预设图形，包围经过合并处理后的第一语义分割图像中的区域轮廓以及物体轮廓，将包围区域作为可移动区域。

具体的说，预设图形可以是矩形，利用矩形包围合并处理后的区域轮廓和物体轮廓，并将该包围区域作为可移动区域，如图3所示，标号10表示该可移动区域。将该可移动区域作为原始图像的目标区域。

步骤103：从原始图像中提取目标区域所对应的图像，并将提取的图像作为目标子图像。

具体的说，将确定的目标区域作为模板，映射回原始图像中，进而从原始图像中提取该目标区域所对应的图像，将提取的图像作为目标子图像。可以理解的是，保持目标子图像中的区域轮廓内属于非可移动区域的物体的色彩不变，而将区域轮廓内的可移动区域置为1，从而可以提高第二语义分割网络对该目标子图像的语义分割速度和准确度；其中，目标子图像的区域轮廓与目标区域内的区域轮廓对应。

步骤104：根据目标子图像以及预设的第二语义分割网络，确定目标子图像中的障碍物，其中，第二语义分割网络基于第二分类类别训练获得，第二分类类别的种类数小于第一分类类别的种类数。

具体的说，第二语义分割网络的训练过程与第一语义分割网络的训练过程类似，该第二分类类别具有障碍物类别。由于目标子图像中包括终端的可移动区域、障碍物以及背景图像，第二分类类别可以设置为三类，分别为可移动区域类别、障碍物类别以及其他类别(如背景)。

可以理解的是，第二分类类别的种类数可以小于第一分类类别种数，以便更快更准确地识别该目标子图像中的障碍物。

该第二语义分割网络的输出的标注信息可以用公式(2)表示：

其中，W₂为第二语义分割网络的网络参数，Obstacle_seg(i)∈C，C∈{可移动区域，障碍物，其他}。

一个具体的实现中，将目标子图像输入第二语义分割网络，获得对目标子图像的第二语义分割图像，第二语义分割图像包括目标子图像中可移动区域标注信息和障碍物标注信息；根据第二语义分割图像，确定目标子图像中的障碍物。

具体的说，将目标子图像输入第二语义分割网络，按照公式(2)，即可获得第二语义分割图像。为了提高确定障碍物的准确性，可以先将第二语义分割图像变换为二值图像；对变换处理后的第二语义分割图像进行去噪处理，去噪处理包括：删除单一障碍物或合并相邻的单一障碍物。

去噪处理有多种方式，下面列举一种去噪处理的过程：

假设二值图像的大小是w×h，所有的结构元素都是方形的。首先，用尺寸为a₁×a₁的结构元素对二值图像进行闭合。然后，对a₂×a₂结构元素进行腐蚀，a₃×a₃结构元素进行膨胀。a_i的计算公式如下：

a_i＝f(k_i·min(w,h))i＝1，2，3 公式(3)；

其中，

函数f(x)用于找到最接近x的奇数。将奇数赋值给a_i可以更容易地将原点定义为结构元素的中心。k₁为预设的障碍物的最大尺寸。例如，可以将k₁设置为1/80。

通过侵蚀和扩张的可以将相邻的障碍聚在一起，从而减少了障碍物数量的数量，降低计算复杂度，同时，也降低了障碍物之间的狭小间隙所造成的碰撞风险。

在执行完步骤104之后，可以依次执行步骤105以及步骤106。

步骤105：在第二语义分割图像中设置目标位置。

具体的说，终端根据运动需求，在去噪处理后的第二语义分割图像中设置目标位置。

步骤106：根据目标位置以及障碍物的位置，规划终端的运动轨迹。

具体的说，在确定了目标位置后，根据第二语义分割图像中每个标注的障碍物，即可利用人工势场(Artificial Potential Field，简称“Apf”)方法规划路径。

本发明实施方式相对于现有技术而言，获取终端所处环境的原始图像，通过第一语义分割网络，确定出该原始图像中的目标区域，该目标区域包括在原始图像中终端可移动区域(如地面、道路)，由于目标子图像是基于目标区域确定，减少了该目标子图像中所包括的干扰图像，从而缩小了确定障碍物的范围，使得准确地通过第二语义分割网络对目标子图像进行语义分割，准确地确定出障碍物，提高了确定障碍物的精度以及准确度；另外，由于第二语义分割网络是基于第二分类类别训练获得，而第二分类类别的种类数少，可以加快对障碍物确定的速度。

发明人发现在目前检测障碍物的方法中，由于终端在运动过程中，不可能时时刻刻保存平稳，导致拍摄的图像中存在抖动的情况，进而影响了对拍摄的图像语义分割的不准确。同时，由于对拍摄图像语义分割不准确，导致前后相邻两帧图像之间的差异较大，时域上不连续，进而影响了终端前进的路径规划。

本发明的第二实施方式涉及一种检测障碍物的方法。该检测障碍物的方法包括：获取终端所处环境的原始图像；根据原始图像以及预设的第一语义分割网络，确定原始图像中的目标区域；从原始图像中提取目标区域所对应的图像，并将提取的图像作为目标子图像；根据目标子图像以及预设的第二语义分割网络，确定目标子图像中的障碍物；在第二语义分割图像中设置目标位置；根据目标位置以及障碍物的位置，规划终端的运动轨迹。

本第二实施方式是第一实施方式步骤102中的另一种实现方式，在本发明第二实施方式中，第一语义分割网络包括编码子网络、解码子网络和光流子网络，根据原始图像以及第一语义分割网络，获得第一语义分割图像的具体流程如图4所示。

步骤201：将原始图像输入编码子网络，获得原始图像的第一特征图像。

具体的说，该编码子网络用于提取输入图像的特征图像，将原始图像输入该编码子网络，即可得到该原始图像的第一特征图像，需要说明的是，原始图像可以是RGB图像，也可以是RGBD图像，若为RGBD图像，则分别将RGB图像和深度图像输入该编码子网络。

步骤202：将原始图像和上一帧图像输入光流子网络，获得光流信息。

具体的说，该光流子网络用于保持原始图像与相邻帧图像之间的时域一致性。光流子网络是利用图像序列中像素在时域上的变化以及相邻帧之间的相关性来找到当前帧跟上一帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息。

一个具体的实现中，将原始图像以及与上一帧图像输入光流子网络，确定光流信息，该光流信息用于表征原始图像与上一帧图像之间的差异。

需要说明的是，输入光流子网络的图像是RGB图像，若原始图像为RGB-D图像，则将原始图像中的RGB图像输入该光流子网络即可。

步骤203：根据第一特征图像、光流信息和解码子网络，获得第一语义分割图像。

一个具体的实现中，解码子网络包括N个网络层，N为大于1的整数；获得第一语义分割图像，具体包括：根据上一帧图像的第二特征图像和光流信息，确定前N-1层网络层各自对应的待融合特征图像；按照网络层的层数从低到高的顺序进行以下处理：根据第M-1层网络层输出的输出特征图像，确定与第M层网络层空间分辨率一致的第三特征图像，融合第M层网络层的待融合特征图像和第M层网络层的第三特征图像，并将融合后的特征图像作为第M层网络层输出的输出特征图像，其中，第一层网络层的第三特征图像是根据第一特征图像确定，第一层网络层输出的输出特征图像是融合第一层网络层的第三特征图像与第一层网络层的待融合特征图像后获得，M为整数，且1＜M≤N-1；根据第N-1层网络层输出的输出特征图像，确定第N层网络层的第三特征图像，并将第N层网络层的第三特征图像作为第N层网络层输出的输出特征图像；根据第N层网络层输出的输出特征图像，确定第一语义分割图像。

根据上一帧图像的第二特征图像和光流信息，确定前N-1层网络层各自对应的待融合特征图像，具体过程为：根据光流信息以及第二特征图像，确定第一层网络层的待融合特征图像；按照第2层网络层至第N-1层网络层各自对应的空间分辨率，分别变换第一层网络层的待融合特征图像的空间分辨率，得到第2层网络层至第N-1层网络层各自对应的待融合图像。

具体的说，由于光流信息用于表征原始图像与上一帧图像之间的差异，该第二特征图像为上一帧图像的特征图像，直接融合该光流信息和该第二特征图像，并将融合后的特征图像作为该第一层网络层的待融合图像。解码子网络中每层网络层的空间分辨不一样，将第一层网络层的待融合特征图像的空间分辨率变换为第二层网络层所对应的空间分辨率，即得到了该第二层网络层的待融合分辨率，第三层网络层至第N-1层网络层的各自对应的待融合特征图像采用相同的方式，此处将不再赘述。

需要说明的是，由于解码子网络的前N-1层网络层中增加了根据光流信息确定的待融合图像，导致该第一语义分割网络在训练过程与第一实施方式中第一语义分割网络的训练过程不同。训练之前，确定该解码子网络所包括的N层网络层，N为大于1的整数，本实施方式中，第一语义分割网络的损失函数为N层网络层各自对应的损失函数之和。

每层网络层对应的损失函数的确定过程为：根据网络层输出的输出特征图像与存储的网络层对应的真值图像，确定当前所处网络层的损失函数。每层网络层的损失函数可以如公式(5)所示：

W₁表示第一语义分割网络的网络参数，i表示像素位置，R表示每层对应的空间分辨率，s表示分数图，g_i表示在i像素位置上的真值图像。

图5为具有5层网络层的解码子网络的结构示意图，下面结合该图5，介绍该解码子网络的损失函数的确定过程。图5中标号501-N表示第N层网络层的待融合图像，标号502-N表示确定与第N层网络层空间分辨率一致的第三特征图像的处理步骤；503-N表示第N层网络层输出的输出特征图像，此处503-N是为了便于理解每层网络层输出的输出特征图像。

第一层子网络层输入为编码子网络输出的第一特征图像，第一特征图像经过处理步骤502-1的处理，得到第一层网络层的第三特征图像，第一层网络层的第三特征图像的空间分辨率与第一层网络层的空间分辨率一致，501-1表示第一层网络层的待融合图像，将501-1与502-1输出的第三特征图像进行融合，得到第一层网络层输出的输出特征图像503-1，根据503-1与第一层网络层的真值图像，按照公式(5)即可确定出该第一层网络层的损失函数。其它网络层的损失函数大致相同，此处将不再赘述。另外，根据第四层网络层输出的输出特征图像503-4，经过502-5处理，得到第五层的第三特征图像，并将经过502-5输出的第三特征图像直接作为该第五层网络层输出的输出特征图像503-5。如图5所示，该输出特征图像503-5同时也为该解码子网络输出的特征图像，每层网络层对应的真值图像的空间分辨率与所处网络层的空间分辨率一致。

需要说明的是，在第一语义分割网络以及第二语义分割网络的训练图像集包括：采集的图像，以及对采集的图像进行运动模糊处理后生成的模糊图像。

具体的说，可以采用随机运动模糊算法对采集的图像进行模糊处理，获得模糊图像。

本实施方式提供的检测障碍物的方法，于存在终端在移动过程中因抖动而导致原始图像不准确的情况，影响对原始图像的语义分割结果，由于光流信息可以确定原始图像与上一帧图像之间的差异，利用该光流信息可以保持相邻帧图像之间的时间一致性，从而可以消除原始图像不准确的问题，提高第一语义分割网络分割图像的准确率和精度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种终端。该终端的具体结构如图6所示，包括：至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行第一实施方式或第二实施方式中的检测障碍物的方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的检测障碍物的方法。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种检测障碍物的方法，其特征在于，包括：

获取所述终端所处环境的原始图像；

根据所述原始图像以及预设的第一语义分割网络，确定所述原始图像中的目标区域，所述目标区域包括所述原始图像中所述终端的可移动区域，其中，所述第一语义分割网络基于包括可移动区域类别的第一分类类别训练获得；

从所述原始图像中提取所述目标区域所对应的图像，并将提取的图像作为目标子图像；

根据所述目标子图像以及预设的第二语义分割网络，确定所述目标子图像中的障碍物，其中，所述第二语义分割网络基于包括障碍物类别的第二分类类别训练获得。

2.根据权利要求1所述的检测障碍物的方法，其特征在于，根据所述原始图像以及预设的第一语义分割网络，确定所述原始图像中的目标区域，具体包括：

根据所述原始图像以及所述第一语义分割网络，获得第一语义分割图像，所述第一语义分割图像包括所述原始图像中各物体的类别标注信息；

提取所述第一语义分割图像中所述终端的可移动区域，并将提取的可移动区域作为所述目标区域。

3.根据权利要求2所述的检测障碍物的方法，其特征在于，所述第一语义分割网络包括编码子网络、解码子网络和光流子网络，

根据所述原始图像以及所述第一语义分割网络，获得第一语义分割图像，具体包括：

将所述原始图像输入所述编码子网络，获得所述原始图像的第一特征图像；

将所述原始图像和上一帧图像输入所述光流子网络，获得光流信息；其中，所述光流信息用于表征所述原始图像与所述上一帧图像之间的差异；

根据所述第一特征图像、所述光流信息和所述解码子网络，获得所述第一语义分割图像。

4.根据权利要求3所述的检测障碍物的方法，其特征在于，所述解码子网络包括N层网络层，N为大于1的整数；

所述根据所述第一特征图像、所述光流信息和所述解码子网络，获得所述第一语义分割图像，具体包括：

根据所述上一帧图像的第二特征图像和所述光流信息，确定前N-1层网络层各自对应的待融合特征图像；

按照网络层的层数从低到高的顺序进行以下处理：根据第M-1层网络层输出的输出特征图像，确定与第M层网络层空间分辨率一致的第三特征图像，融合所述第M层网络层的待融合特征图像和所述第M层网络层的第三特征图像，并将融合后的特征图像作为所述第M层网络层输出的输出特征图像，其中，所述第一层网络层的第三特征图像是根据所述第一特征图像确定，所述第一层网络层输出的输出特征图像是融合所述第一层网络层的第三特征图像与所述第一层网络层的待融合特征图像后获得，M为整数，且1＜M≤N-1；

根据第N-1层网络层输出的输出特征图像，确定第N层网络层的第三特征图像，并将第N层网络层的第三特征图像作为所述第N层网络层输出的输出特征图像；

根据第N层网络层输出的输出特征图像，确定所述第一语义分割图像。

5.根据权利要求4所述的检测障碍物的方法，其特征在于，根据所述上一帧图像的第二特征图像和所述光流信息，确定前N-1层网络层各自对应的待融合特征图像，具体包括：

根据所述光流信息以及所述第二特征图像，确定所述第一层网络层的待融合特征图像；

按照第2层网络层至第N-1层网络层各自对应的空间分辨率，分别变换第一层网络层的待融合特征图像的空间分辨率，得到第2层网络层至第N-1层网络层各自对应的待融合图像。

6.根据权利要求5所述的检测障碍物的方法，其特征在于，所述第一语义分割网络的损失函数为N层网络层各自对应的损失函数之和；

针对每层网络层对应的损失函数的确定过程，具体包括：

根据所述网络层输出的输出特征图像与存储的所处网络层对应的真值图像，确定当前所处网络层的损失函数。

7.根据权利要求2至6中任一项所述的检测障碍物的方法，其特征在于，所述提取所述第一语义分割图像中所述终端的可移动区域，具体包括：

基于所述第一语义分割图像中的类别标注信息，提取所述第一语义分割图像中可移动区域的区域轮廓，以及位于所述可移动区域上物体的物体轮廓；

合并位于所述区域轮廓之外的物体的图像；

按照预设图形，包围经过合并处理后的所述第一语义分割图像中的所述区域轮廓以及所述物体轮廓，将包围区域作为所述可移动区域。

8.根据权利要求7所述的检测障碍物的方法，其特征在于，所述合并位于所述区域轮廓之外的物体的图像，具体包括：

将位于所述区域轮廓之外物体的图像的色值置为0，将所述可移动区域的图像的色值置为1。

9.根据权利要求8所述的检测障碍物的方法，其特征在于，根据所述目标子图像以及预设的第二语义分割网络，确定所述目标子图像中的障碍物，具体包括：

将所述目标子图像输入所述第二语义分割网络，获得对所述目标子图像的第二语义分割图像，所述第二语义分割图像包括所述目标子图像中可移动区域标注信息和障碍物标注信息；

根据所述第二语义分割图像，确定所述目标子图像中的障碍物。

10.根据权利要求9所述的检测障碍物的方法，其特征在于，根据所述第二语义分割图像，确定所述目标子图像中的障碍物，具体包括：

将所述第二语义分割图像变换为二值图像；

对变换处理后的所述第二语义分割图像进行去噪处理，所述去噪处理包括：删除单一障碍物或合并相邻的单一障碍物。

11.根据权利要求1至10中任一项所述的检测障碍物的方法，其特征在于，在确定所述目标子图像中的障碍物之后，所述检测障碍物的方法还包括：

在所述第二语义分割图像中设置目标位置；

根据所述目标位置以及所述障碍物的位置，规划所述终端的运动轨迹。

12.根据权利要求1至11中任一项所述的检测障碍物的方法，其特征在于，所述第一语义分割网络以及所述第二语义分割网络的训练图像集包括：采集的图像，以及对所述采集的图像进行运动模糊处理后生成的模糊图像。

13.一种终端，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至12任一所述的检测障碍物的方法。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的检测障碍物的方法。