CN110348351A

CN110348351A - 一种图像语义分割的方法、终端和可读存储介质

Info

Publication number: CN110348351A
Application number: CN201910585875.5A
Authority: CN
Inventors: 谭超; 王恺; 廉士国
Original assignee: Cloudminds Shenzhen Robotics Systems Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-18
Anticipated expiration: 2039-07-01
Also published as: CN110348351B

Abstract

本发明实施例涉及计算机视觉领域，公开了一种图像语义分割的方法、终端和可读存储介质。本发明中图像语义分割的方法，包括：获取N个第一图像数据各自对应的第一语义分割图像，N个第一图像数据为目标环境的N个视角的图像数据，N为大于1的整数；融合N个第一语义分割图像，获得融合后的语义分割图像，并将融合后的语义分割图像作为N个第一图像数据的实际语义分割图像。本实施方式，能够提高对目标环境的图像数据进行语义分割的准确性，提高对目标环境中各个物体的识别准确率。

Description

一种图像语义分割的方法、终端和可读存储介质

技术领域

本发明实施例涉及计算机视觉领域，特别涉及一种图像语义分割的方法、终端和可读存储介质。

背景技术

在机器人进行导航、避障、操作等多种任务时，机器人需要对目标环境进行充分的理解，而对环境的语义分割与识别在其中起到了基础性和至关重要的作用。在对周围的环境进行描述时，要完整地分割出一个物体，通常需要从尽可能多的角度来对物体进行扫描，角度过大或者采集样本不足时就可能会导致识别结果的不准确。

一个彩色(RGB)相机一次只能从一个视角来捕获图像数据，要想获得目标对象的完整描述，要么通过移动相机，要么通过设置多个相机来实现。在进行场景扫描时，由于场景通常是变化的，通常设置多个静态相机是一个好的解决方案。通常相机数量越多，捕获场景的视角越多，得到的对应图像也越多，识别也就准确。

发明人发现相关技术中至少存在如下问题：目前对图像进行语义分割的过程中，由于拍摄图像的角度不同，对场景中各个物体的分割不准确，导致对同一个物体的标注不同，出现不同的识别结果，识别不准确。

发明内容

本发明实施方式的目的在于提供一种图像语义分割的方法、终端和可读存储介质，能够提高对目标环境的图像数据进行语义分割的准确性，提高对目标环境中各个物体的识别准确率。

为解决上述技术问题，本发明的实施方式提供了一种图像语义分割的方法，包括：获取N个第一图像数据各自对应的第一语义分割图像，N个第一图像数据为目标环境的N个视角的图像数据，N为大于1的整数；融合N个第一语义分割图像，获得融合后的语义分割图像，并将融合后的语义分割图像作为N个第一图像数据的实际语义分割图像。

本发明的实施方式还提供了一种终端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的图像语义分割的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的图像语义分割的方法。

本发明实施方式相对于现有技术而言，获取了N个第一图像数据各自对应的第一语义分割图像，N个第一图像数据为目标环境的N个视角的图像数据，通过融合N个第一语义分割图像，丰富了第一图像数据中针对同一物体的图像数据，同时，针对第一图像数据中的同一物体的图像，可以通过多个第一语义分割图像进行相互验证，准确地确定出第一图像数据中各个物体的标注信息，从而提高对第一图像数据进行语义分割的准确性，另外，将融合后的语义分割图像作为N个第一图像数据的实际语义分割图像，确保了不同视角的图像数据的语义分割结果的一致性。

另外，N个第一图像数据是由图像采集装置采集获得；或者，N个第一图像数据由第二图像数据和第三图像数据组成，第二图像数据由图像采集装置采集获得，第三图像数据是根据第二图像数据生成的预设视角的第三图像数据。N个第一图像数据可以直接是通过图像采集装置采集得到；N个第一图像数据还可以是通过图像采集装置得到第二图像数据，同时根据得到的第二图像数据生成预设角度的第三图像数据，通过有限的图像采集装置生成更多角度的图像数据，丰富了目标环境的各个角度的图像数据，降低了获取第一图像数据的成本。

另外，生成第三图像数据的过程，具体包括：根据第二图像数据，生成目标环境的三维模型；将三维模型按照预设角度投影至二维空间，得到第三图像数据。利用第二图像数据可以构建出目标环境的三维模型，由于生成了目标环境较的三维模型，使得可以准确地按照预设角度投影，生成二维的第三图像数据。

另外，若第二图像数据的个数为M，M为整数且M≥2；将三维模型按照预设角度投影至二维空间，得到第三图像数据，具体包括：选取每两个视角采集的第二图像数据的采集参数；针对选取的每两个视角采集的第二图像数据的采集参数进行以下处理：根据两个第二图像数据的采集参数以及预设角度，确定投影的虚拟采集参数；按照虚拟采集参数以及预设的投影关系，将三维模型投影至二维空间，得到第三图像数据。选取每两个视角采集的第二图像数据的采集参数，并根据选取的两个第二图像数据的采集参数以及预设角度，可以快速确定出虚拟采集参数。

另外，根据两个第二图像数据的采集参数以及预设角度，确定投影的虚拟采集参数，具体包括：根据预设角度，在两个第二图像数据的采集参数的值之间确定虚拟采集参数。在两个第二图像数据的采集参数的值之间确定虚拟采集参数，缩小了虚拟采集参数的值的范围，从而可以快速确定出虚拟采集参数。

另外，融合N个第一语义分割图像，获得融合后的语义分割图像，具体包括：从N个第一语义分割图像中任选一个作为被映射图像；将除被映射图像之外的第一语义分割图像，映射至被映射图像；获取映射后被映射图像内每个点所处位置的候选语义标注信息集合；根据映射后被映射图像内每个点所处位置的候选语义标注信息集合，确定融合后的语义分割图像。将N-1个第一语义分割图像映射至被映射图像内，从而获得映射后被映射图像内每个点所处位置的候选语义标注信息集合，丰富了每个点所处位置的候选语义标注信息，提高了每个点所处位置的语义标注信息的准确性。

另外，根据映射后被映射图像内每个点所处位置的候选语义标注信息集合，确定融合后的语义分割图像，具体包括：根据每个候选语义标注信息集合中各候选语义标注信息的比例因子，确定每个点所处位置的实际语义标注信息，获得映射后被映射图像的语义分割图像，比例因子是基于候选语义标注信息的置信度确定；将映射后被映射图像的语义分割图像，作为融合后的语义分割图像。

另外，根据每个候选语义标注信息集合中各候选语义标注信息的比例因子，确定每个点所处位置的实际语义标注信息，具体包括：针对每个点所处位置进行以下操作：判断点所处位置的候选语义标注信息集合中所包含的候选语义标注信息的个数是否等于1，若确定是，则将候选语义标注信息作为点所处位置的实际语义标注信息；若确定不是，则获取每个候选语义标注信息的比例因子，将最大的比例因子所对应的候选语义标注信息作为点所处位置的实际语义标注信息。当点所处位置的候选语义标注信息集合中所包含的候选语义标注信息的个数大于1时，通过比较每个候选语义标注信息的比例因子，选取比例因子最高所对应的候选语义标注信息，从而剔除了不准确的候选语义标注信息，提高了每个点所处位置的实际语义标注信息的准确性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的一种图像语义分割的方法的具体流程图；

图2是根据本发明第一实施方式中获取N个第一图像数据的示意图；

图3是根据本发明第一实施方式中融合N个第一语义分割图像的具体实现的示意图；

图4是根据本发明第二实施方式提供的一种生成第三图像数据的具体实现示意图；

图5是根据本发明第三实施方式提供的一种终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种图像语义分割的方法。该图像语义分割的方法可以应用于终端，例如，机器人、无人驾驶汽车、智能轮椅等；该图像语义分割的方法还可以应用于服务端，例如，云端。该图像语义分割的方法具体流程如图1所示，包括：

步骤101：获取N个第一图像数据各自对应的第一语义分割图像，N个第一图像数据为目标环境的N个视角的图像数据，N为大于1的整数。

具体的说，N个第一图像数据可以是由图像采集装置采集得到，该图像采集装置可以是彩色(RGB)摄像机，深度摄像机，还可以是其他的图像采集装置。图像采集装置可以设置在不同位置上，以便每个图像采集装置可以以不同的视角采集该目标环境的图像数据。例如，如图2所示，虚线所画区域为目标环境，A1～A3为图像采集装置，图像采集装置以弧形设置在不同位置，A1以第一视角β采集第一图像数据，A2以第二视角θ采集第一图像数据，A3以第三视角α采集第一图像数据，得到3个第一图像数据。

分别对采集得到的N个第一图像数据进行语义分割，获得N个第一图像数据各自对应的第一语义分割图像。

步骤102：融合N个第一语义分割图像，获得融合后的语义分割图像，并将融合后的语义分割图像作为N个第一图像数据的实际语义分割图像。

一个具体的实现中，融合N个第一语义分割图像，可以采用如图3所示的子步骤：

子步骤1021：从N个第一语义分割图像中任选一个作为被映射图像。

具体的说，为便于进行第一语义分割图像的融合，可以从N个第一语义分割图像中选取任意一个第一语义分割图像作为被映射图像。

子步骤1022：将除被映射图像之外的第一语义分割图像，映射至被映射图像。

具体的说，由于每个第一语义分割图像均为二维空间的图像数据，因而无需改变坐标系。针对每个除被映射图像之外的第一语义分割图像，可以根据该第一语义分割图像中每个点所处的位置数据，映射至被映射图像。例如，将编号1的第一语义分割图像内的每个点所处位置，映射至编号为2的第一语义分割图像内。

子步骤1023：获取映射后被映射图像内每个点所处位置的候选语义标注信息集合。

具体的说，由于N个第一图像数据为目标环境的不同视角的图像数据，N个第一图像数据各自对应的第一语义分割图像存在相同位置的点，在将N-1个第一语义分割图像映射至被映射图像内后，则每个第一语义分割图像内的每个点所处位置的候选语义标注信息也将映射至该被映射图像内，获取映射后该被映射图像内每个点所处位置的候选语义标注信息，汇集该点所处位置的各个候选语义标注信息，得到该点所处位置的候选语义标注信息集合。

子步骤1024：根据映射后被映射图像内每个点所处位置的候选语义标注信息集合，确定融合后的语义分割图像。

一个具体的实现中，根据每个候选语义标注信息集合中各候选语义标注信息的比例因子，确定每个点所处位置的实际语义标注信息，获得映射后被映射图像的语义分割图像，比例因子是基于候选语义标注信息的置信度确定；将映射后被映射图像的语义分割图像，作为融合后的语义分割图像。

具体的说，语义分割图像是对图像内每个点所处位置进行标注，因而若确定了被映射图像内每个点的语义标注信息，即可获得该被映射图像的语义分割图像。

针对映射后该被映射图像内的每个点所处位置进行以下操作：判断点所处位置的候选语义标注信息集合中所包含的候选语义标注信息的个数是否等于1，若确定是，则将候选语义标注信息作为该点所处位置的实际语义标注信息；若确定不是，则获取每个候选语义标注信息的比例因子，将最大的比例因子所对应的候选语义标注信息作为该点所处位置的实际语义标注信息。

若该点所处位置的候选语义标注信息集合中所包含的语义标注信息的个数为1，直接将候选语义标注信息作为该点所处位置的实际语义标注信息即可。若该点所处位置的候选语义标注信息集合中所包含的语义标注信息的个数大于1，则根据每个候选语义标注信息的比例因子确定该点所处位置的实际语义标注信息。其中，每个候选语义标注信息的比例因子是基于候选语义标注信息的置信度确定，该比例因子可以采用公式(1)的方式计算：

f＝α 公式(1)；

其中，f为比例因子，α为置信度。

为了更好理解对每个所处位置的实际语义标注信息的确定过程，下面以一个具体的例子进行说明。

例如，点A所处位置的候选语义标注信息集合{c,d,f},集合中包含了3个候选语义标注信息，其中，c的置信度为0.5，d的置信度为0.8，f的置信度为0.7；根据公式(1)可以获知c的比例因子为.05，d的比例因子为0.8，f的比例因子为0.7,其中，d的比例因子的值最大，因而，将d作为该点A所处位置的实际语义标注信息。

确定了被映射图像内每个点的语义标注信息，即可获得该被映射图像的语义分割图像。

本发明的第二实施方式涉及一种图像语义分割的方法。该图像语义分割的方法包括：获取N个第一图像数据各自对应的第一语义分割图像；融合N个第一语义分割图像，获得融合后的语义分割图像，并将融合后的语义分割图像作为N个第一图像数据的实际语义分割图像。

第二实施方式与第一实施方式大致相同，主要区别之处在于：在本发明第二实施方式中，N个第一图像数据由第二图像数据和第三图像数据组成，第二图像数据由图像采集装置采集获得，第三图像数据是根据第二图像数据生成的预设视角的第三图像数据。

具体的说，第二图像数据是由实体的图像采集装置采集得到，通过有限个数的图像采集装置采集的第二图像数据，生成预设角度的第三图像数据，通过生存预设角度的第三图像数据可以丰富不同角度的目标环境的图像数据，从而进一步提高对目标环境的图像数据的语义分割的准确性。

该第二实施方式中生成第三图像数据的流程如图4所示。

步骤201：根据第二图像数据，生成目标环境的三维模型。

具体的说，图像采集装置采集的第二图像数据的个数可以是一个，也可以是2个以上，通常为了提高生成的目标环境的三维模型的准确性，第二图像数据的个数通常为2个以上。可以获取每个图像采集装置的采集参数，该采集参数包括图像采集装置的参数以及该图像采集装置的姿态信息。可以采用多视图的密集重建(Multi-View Stereo，简称“MVS”)、二维运动图像中的三维重建(structure from motion，简称“SfM”)等技术，通过提取第二图像数据中的几何特征，利用对积几何等方法来对目标环境进行三维重建，得到目标环境的三维数据。当然，还可以采用其他的方式重建目标环境的三维模型，此处不再一一赘述。

步骤202：将三维模型按照预设角度投影至二维空间，得到第三图像数据。

一个具体的实现中，若第二图像数据的个数为M，M为整数且M≥2；将三维模型按照预设角度投影至二维空间的具体过程为：选取每两个视角采集的第二图像数据的采集参数；针对选取的每两个视角采集的第二图像数据的采集参数进行以下处理：根据两个第二图像数据的采集参数以及预设角度，确定投影的虚拟采集参数；按照虚拟采集参数以及预设的投影关系，将三维模型投影至二维空间，得到第三图像数据。

具体的说，可以任选两个视角采集的第二图像数据的采集参数，例如，若有第一视角采集的第二图像数据A、第二视角采集的第二图像数据B和第三视角采集的第二图像数据C，那么可以选取第一视角采集的第二图像数据的采集参数和第三视角采集的第二图像数据的采集参数，还可以是第一视角采集的第二图像数据的采集参数和第二视角采集的第二图像数据的采集参数，或者第二视角采集的第二图像数据的采集参数和第三视角采集的第二图像数据的采集参数。可以理解的是，可以选取与预设角度相邻的两个视角采集的第二图像数据的采集参数。

一个具体的实现中，确定虚拟采集参数可以根据预设角度，在两个第二图像数据的采集参数的值之间确定。例如，若第二图像数据A的采集参数1为(b,c,d)，第二图像数据B的采集参数2(f,g,h)，那么虚拟采集参数则位于采集参数1和采集参数2之间。

确定了采集参数，即可将目标环境的三维模型投影至二维空间，得到预设角度的第三图像数据；投影公式可以采用公式(2)；

其中，Z_c表示拍摄深度数据的图像采集装置的深度值(Z轴值)，即目标到图像采集装置的距离，f_x表示相机内参在横轴的焦距，f_y表示图形采集装置内参在纵轴的焦距，C_x表示采集的图像的中心点的x坐标，C_y表示采集的图像的中心点的y坐标，R表示图像采集装置的外参矩阵的旋转矩阵，T表示图像采集装置外参矩阵的平移矩阵，X_w表示一个点在世界坐标系的横轴坐标，Y_w表示该点在世界坐标系的纵轴坐标，Z_w表示该点在世界坐标系的深度坐标。

需要说明的是，本实施方式中，第三图像数据是根据第二图像数据生成的，在针对映射后该被映射图像内的每个点所处位置进行操作过程中，若该点所处位置的候选语义标注信息集合中所包含的候选语义标注信息的个数大于1，获取每个候选语义标注信息的比例因子，将最大的比例因子所对应的候选语义标注信息作为该点所处位置的实际语义标注信息。其中，比例因子的计算采用公式(3)：

其中，(x,y,z)为图像采集装置在当前视角下采集第一图像数据的位姿信息，(x₀,y₀,z₀)为生成第三图像数据的虚拟图像采集装置的位姿信息，x_max,y_max,z_max为根据实际场景来设置的图像采集装置的最大位姿信息的阈值，α是当前视角下的第一语义分割图像的对应置信度。

本实施方式提供的图像语义分割的方法，N个第一图像数据是通过实体的图像采集装置得的第二图像数据和根据第二图像数据生成预设角度的第三图像数据组成，通过有限的图像采集装置生成更多角度的图像数据，丰富了第一图像数据，降低了获取第一图像数据的成本。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种终端，该终端如图5所示，包括：至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行第一实施方式或第二实施方式中的图像语义分割的方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现第一实施方式或第二实施方式中的图像语义分割的方法。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种图像语义分割的方法，其特征在于，包括：

获取N个第一图像数据各自对应的第一语义分割图像，所述N个第一图像数据为目标环境的N个视角的图像数据，N为大于1的整数；

融合N个所述第一语义分割图像，获得融合后的语义分割图像，并将融合后的语义分割图像作为N个第一图像数据的实际语义分割图像。

2.根据权利要求1所述图像语义分割的方法，其特征在于，所述N个第一图像数据是由图像采集装置采集获得；或者，

所述N个第一图像数据由第二图像数据和第三图像数据组成，所述第二图像数据由所述图像采集装置采集获得，所述第三图像数据是根据第二图像数据生成的预设视角的第三图像数据。

3.根据权利要求2所述图像语义分割的方法，其特征在于，生成所述第三图像数据的过程，具体包括：

根据所述第二图像数据，生成所述目标环境的三维模型；

将所述三维模型按照预设角度投影至二维空间，得到所述第三图像数据。

4.根据权利要求3所述的图像语义分割的方法，其特征在于，若所述第二图像数据的个数为M，M为整数且M≥2；

将所述三维模型按照预设角度投影至二维空间，得到第三图像数据，具体包括：

选取每两个视角采集的第二图像数据的采集参数；

针对选取的每两个视角采集的第二图像数据的采集参数进行以下处理：

根据两个所述第二图像数据的采集参数以及所述预设角度，确定投影的虚拟采集参数；

按照所述虚拟采集参数以及预设的投影关系，将所述三维模型投影至二维空间，得到第三图像数据。

5.根据权利要求4所述的图像语义分割的方法，其特征在于，根据两个所述第二图像数据的采集参数以及所述预设角度，确定投影的虚拟采集参数，具体包括：

根据所述预设角度，在两个所述第二图像数据的采集参数的值之间确定所述虚拟采集参数。

6.根据权利要求1至5中任一项所述的图像语义分割的方法，其特征在于，所述融合N个所述第一语义分割图像，获得融合后的语义分割图像，具体包括：

从N个所述第一语义分割图像中任选一个作为被映射图像；

将除所述被映射图像之外的第一语义分割图像，映射至所述被映射图像；

获取映射后所述被映射图像内每个点所处位置的候选语义标注信息集合；

根据映射后所述被映射图像内每个点所处位置的候选语义标注信息集合，确定融合后的语义分割图像。

7.根据权利要求6所述的图像语义分割的方法，其特征在于，根据映射后所述被映射图像内每个点所处位置的候选语义标注信息集合，确定融合后的语义分割图像，具体包括：

根据每个候选语义标注信息集合中各候选语义标注信息的比例因子，确定每个点所处位置的实际语义标注信息，获得映射后所述被映射图像的语义分割图像，所述比例因子是基于所述候选语义标注信息的置信度确定；

将映射后所述被映射图像的语义分割图像，作为所述融合后的语义分割图像。

8.根据权利要求7所述的图像语义分割的方法，其特征在于，根据每个候选语义标注信息集合中各候选语义标注信息的比例因子，确定每个点所处位置的实际语义标注信息，具体包括：

针对所述每个点所处位置进行以下操作：

判断所述点所处位置的候选语义标注信息集合中所包含的候选语义标注信息的个数是否等于1，若确定是，则将所述候选语义标注信息作为所述点所处位置的实际语义标注信息；

若确定不是，则获取每个候选语义标注信息的比例因子，将最大的比例因子所对应的候选语义标注信息作为所述点所处位置的实际语义标注信息。

9.一种终端，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8任一所述的图像语义分割的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的图像语义分割的方法。