CN109670409B

CN109670409B - 一种语义棒状像素的场景表示系统及方法

Info

Publication number: CN109670409B
Application number: CN201811436208.2A
Authority: CN
Inventors: 王娟; 杨恺伦; 胡伟健; 汪凯巍; 许志杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2022-10-21
Anticipated expiration: 2038-11-28
Also published as: CN109670409A

Abstract

本发明公开了一种语义棒状像素的场景表示系统及方法。该方法利用一个彩色‑深度相机采集RGBD图像，利用小型处理器对采集的图像进行处理，输出三维真实场景的语义棒状像素图像。该方法克服了原始棒状像素算法要求相机姿态固定的限制，并且能将环境中物体类别和距离信息以语义棒状像素这种统一的形式表示出来，实现了无限制条件下真实三维世界的场景表示。相比于像素级的表示，此方法具有信息丰富，鲁棒性高，数据量小的优点，更适合用于以图像‑声音映射的方式传达环境信息。

Description

一种语义棒状像素的场景表示系统及方法

技术领域

本发明属于图像处理技术、信号处理技术、计算机视觉技术领域，涉及一种语义棒状像素的场景表示系统及方法。

背景技术

辅助技术旨在提高残疾人的个人流动性。对于视障者而言，环境感知是独立生活的主要需求。随着计算机视觉的发展，视障人士更丰富需求有可能得到满足。然而，与自动驾驶领域的积极进展相比，视障人士辅助方面的研究仍相对较少。针对这一现状，我们期望将自动驾驶领域的棒状像素算法应用到视障人士辅助项目中去。

棒状像素算法有效减少了计算量，对三维世界的表示具有灵活性和鲁棒性。但由于原始棒状像素算法设计是基于自动驾驶领域的，因此有相机高度、倾角固定等限制条件，并且基于深度图进行的前后景分割只包含深度信息而不包含语义信息。

深度学习近年来发展迅速，其中的语义分割为场景中的多种类型的物体提供了一种统一的识别方法，并且很多网络结构如ERFNet等都能在小型处理器上实现，且能满足一定实时性要求。

因此我们结合语义分割技术，设计出语义棒状像素算法，能够实现非限制条件下三维世界的场景表示，并通过声学反馈将关于地理和语义信息的环境信息传达给视障者。

发明内容

本发明的目的在于利用自动驾驶技术中的棒状像素的研究，结合语义分割，提供一种非限制条件下的语义棒状像素的场景表示系统及方法。

本发明采用如下技术方案：一种语义棒状像素的场景表示方法，包括以下步骤：

(1)利用彩色—深度相机采集相同尺寸的彩色图和深度图，尺寸记为(a×b)。

(2)将彩色图输入一个实时语义分割网络进行语义分割，输出跟彩色图像相同尺寸的label图像。其中语义类别分为行人(P)，车辆(V)，地面(G)，天空(S)和其他区域(O)。

(3)计算原始棒状像素：采用棒状像素原始算法计算原始棒状像素，并在彩色图上表示。方法是：对深度图进行前景和背景分割，获得上下基线；将位于上下基线之间的部分切割为一个个棒状像素，每个棒状像素的宽度w个像素；然后将棒状像素在这张深度图对应的彩色图上表示出来。

(4)计算语义棒状像素，具体方法为：

(4.1)图像的像素列数b，从左边第一列(i＝1)开始，从下往上遍历该列label图像的像素，判断像素类别，遇到第一个非地面像素，则记录此像素坐标(u_b[i],v_b[i])，并转而从上往下遍历这列像素，记录遇到的第一个与坐标为(u_b[i],v_b[i])的像素属于不同类别的像素坐标(u_t[i],v_t[i])。如果始终没有遇到此非同类别的像素，则记录坐标(u_t[i],v_t[i])＝(u_t[i]，0)，并继续遍历下一列。如果始终没有遇到非地面像素，则(u_b[i],v_b[i])＝(u_t[i],v_t[i])＝(0，0)。

(4.2)按照(4.1)种所述方式，继续往右进行下一列像素遍历及记录；直至这张彩色图的所有列遍历完成。

(4.3)从左边第一列开始，每w列计算一个棒状像素，若一个棒状像素中所有记录的坐标(u_b[i],v_b[i])＝(u_t[i],v_t[i])＝(0，0)，则该棒状像素不存在。假设该棒状像素包含第n～n+w个之间的像素，从左到右计算每个棒状像素的上下基线，下基线的纵坐标为

上基线纵坐标为

其中，x为这个棒状像素中，记录坐标(u_b[i],v_b[i])＝(u_t[i],v_t[i])＝(0，0)的个数。

(4.4)利用(4.3)中计算的棒状像素的上下基线坐标，替换掉步骤(3)中对应位置的棒状像素的上下基线。

(4.5)重新计算替换后的每个棒状像素的深度dn，该深度dn为该棒状像素包含的所有像素深度的平均值；

(5)确定棒状像素的语义类别，一个棒状像素的语义类别为该棒状像素中的中心像素的语义类别。

(6)为方便观察，根据深度-颜色映射规则和类别-颜色映射规则，分别绘制深度棒状像素图和语义棒状像素图，来表示该场景。

进一步地，还包括利用声音映射规则来表示该场景，每个棒状像素对应一个声音源，用声音的音色、响度和相位差表示该棒状像素的类别、距离和方位。

本发明的有益效果在于：

实时性好。本发明采用的神经网络模型可以支持高实时性的语义信息预测，棒状像素相比于像素级的计算量也大大减小。

算法简单。本发明只需要一个语义分割神经网络，加RGBD输入即可将三维环境信息表示为语义棒状像素，各种障碍物类别都以统一的检测方式得以区分，同时还包括其深度信息。

适应性好。本发明利用语义分割的结果对原始棒状像素进行了优化，可以适应相机姿态随时变化的情况，能够实现非限制条件下的场景表示。

语义棒状像素为障碍物信息转化到声音提供了一种简单的形式，将一个语义棒状像素映射到一个声音源，棒状像素的语义和深度信息对应声音的音色和响度，棒状像素的位置同时能体现物体方位，对应声音的相位差，能够将一个真实场景包含的丰富信息以声音的形式让用户感知到。

附图说明

图1为模块连接示意图；

图2a和2b分别为彩色—深度相机采集的彩色图和伪彩色表示的深度图。

图3a为语义分割得到的彩色label图，图3b为原始棒状像素。

图4为该场景最终的语义棒状像素表示结果。

具体实施方式

一种语义棒状像素的障碍物表示方法，所述系统包含一个彩色—深度相机，一个小型处理器，一个电池模块。相机与小型处理器相连，电池模块与小型处理器相连。彩色—深度相机实时地采集周围场景的彩色—深度图像，小型处理器对获取的彩色—深度图像进行处理，将图像中的场景用语义棒状像素表示出来。下面结合说明书附图对本发明作进一步说明。

一种语义棒状像素的障碍物表示方法，包括以下步骤：

(1)利用彩色—深度相机采集相同尺寸的彩色图和深度图，尺寸为640*360。如图2a和b所示。

(2)将彩色图输入一个实时语义分割网络进行语义分割，输出跟彩色图像相同尺寸的label图像如图3a。其中语义类别分为行人(P)，车辆(V)，地面(G)，天空(S)和其他区域(O)。

(3)计算原始棒状像素：采用棒状像素原始算法计算原始棒状像素，并在彩色图上表示出来，如图3b。方法是：对深度图进行前景和背景分割，获得上下基线；将位于上下基线之间的部分切割为一个个棒状像素，每个棒状像素的宽度w个像素；然后将棒状像素在这张深度图对应的彩色图上表示出来。

(4)计算语义棒状像素，具体方法为：

(4.1)图像的像素列数b，从左边第一列(i＝1)开始，从下往上遍历该列label图像的像素，判断像素类别，遇到第一个非地面像素，则记录此像素坐标(u_b[i],v_b[i])，并转而从上往下遍历这列像素，记录遇到的第一个与坐标为(u_b[i],v_b[i])的像素属于不同类别的像素坐标(u_t[i],v_t[i])。如果始终没有此不同类别的像素，则记录坐标(u_t[i],v_t[i])＝(u_t[i]，0)，并继续遍历下一列。如果始终没有遇到非地面像素，则(u_b[i],v_b[i])＝(u_t[i],v_t[i])＝(0，0)。

上基线纵坐标为

(4.4)利用(4.3)中计算的棒状像素的上下基线坐标，替换掉步骤(3)中对应位置的棒状像素的上下基线，得到如图4所示的棒状像素图。从图中可以看出，该图中标识了原来的棒状像素图中未标识出来的障碍物，具有更好的适应性。

(4.6)确定棒状像素的语义类别，一个棒状像素的语义类别为该棒状像素中的中心像素的语义类别。

(5)为方便观察，根据深度-颜色映射规则和类别-颜色映射规则，分别绘制深度棒状像素图和语义棒状像素图，来表示该场景。

原始棒状像素中由于相机位姿不固定导致前后景分割不准确，小汽车没有表示出来。而经过优化的语义棒状像素结果解决了这个问题，将小汽车识别了出来；并且障碍物的分割边界更为准确，因此计算得到的棒状像素深度也更准确。

为了将处理后得到的环境信息传递给视障人士，根据声音映射规则来将该场景的图像信息转化为声音信息，每个棒状像素对应一个声音源，用声音的音色、响度和相位差表示该棒状像素的类别、距离和方位。如水滴声表示行人，喇叭声表示车辆，物体距离越近响度越大，物体在画面中位于左边1/3的部分则以-90相位差的声音体现，如表1所示。

表1

Claims

1.一种语义棒状像素的场景表示方法，其特征在于，包括以下步骤：

(1)利用彩色—深度相机采集相同尺寸的彩色图和深度图，尺寸记为(a×b)；

(2)将彩色图输入一个实时语义分割网络进行语义分割，输出跟彩色图像相同尺寸的label图像；其中语义类别分为行人(P)，车辆(V)，地面(G)，天空(S)和除了上述类别以外的其他区域(O)；

(3)计算原始棒状像素：采用棒状像素原始算法计算原始棒状像素，并在彩色图上表示；方法是：对深度图进行前景和背景分割，获得上下基线；将位于上下基线之间的部分切割为一个个棒状像素，每个棒状像素的宽度为w个像素；然后将棒状像素在这张深度图对应的彩色图上表示出来；

(4)计算语义棒状像素，具体方法为：

(4.1)图像的像素列数b，从左边第一列，i＝1开始，从下往上遍历该列label图像的像素，判断像素类别，遇到第一个非地面像素，则记录此像素坐标(u_b[i],v_b[i])，并继续向上遍历这列像素，记录遇到的第一个与坐标为(u_b[i],v_b[i])的像素属于不同类别的像素坐标(u_t[i],v_t[i])；如果始终没有遇到此不同类别的像素，则记录坐标(u_t[i],v_t[i])＝(u_b[i]，0)，并继续遍历下一列；如果始终没有遇到非地面像素，则(u_b[i],v_b[i])＝(u_t[i],v_t[i])＝(0，0)；

(4.2)按照(4.1)中方式，继续往右进行下一列像素遍历及记录；直至这张彩色图的所有列遍历完成；

(4.3)从左边第一列开始，每w列计算一个棒状像素，若一个棒状像素中所有记录的坐标(u_b[i],v_b[i])＝(u_t[i],v_t[i])＝(0，0)，则该棒状像素不存在；假设该棒状像素包含第n～n+w列之间的像素，从左到右计算每个棒状像素的上下基线，下基线的纵坐标为

上基线纵坐标为

其中，x为这个棒状像素中，记录坐标(u_b[i],v_b[i])＝(u_t[i],v_t[i])＝(0，0)的个数；

(4.4)利用(4.3)中计算的棒状像素的上下基线坐标，替换掉步骤(3)中对应位置的棒状像素的上下基线；

(5)确定棒状像素的语义类别，一个棒状像素的语义类别为该棒状像素中的中心像素的语义类别；

2.根据权利要求1所述的方法，其特征在于，还包括利用声音映射规则来表示该场景，每个棒状像素对应一个声音源，用声音的音色、响度和相位差表示该棒状像素的类别、距离和方位。