CN109670409B - 一种语义棒状像素的场景表示系统及方法 - Google Patents

一种语义棒状像素的场景表示系统及方法 Download PDF

Info

Publication number
CN109670409B
CN109670409B CN201811436208.2A CN201811436208A CN109670409B CN 109670409 B CN109670409 B CN 109670409B CN 201811436208 A CN201811436208 A CN 201811436208A CN 109670409 B CN109670409 B CN 109670409B
Authority
CN
China
Prior art keywords
rod
pixel
shaped
pixels
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811436208.2A
Other languages
English (en)
Other versions
CN109670409A (zh
Inventor
王娟
杨恺伦
胡伟健
汪凯巍
许志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811436208.2A priority Critical patent/CN109670409B/zh
Publication of CN109670409A publication Critical patent/CN109670409A/zh
Application granted granted Critical
Publication of CN109670409B publication Critical patent/CN109670409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information

Abstract

本发明公开了一种语义棒状像素的场景表示系统及方法。该方法利用一个彩色‑深度相机采集RGBD图像,利用小型处理器对采集的图像进行处理,输出三维真实场景的语义棒状像素图像。该方法克服了原始棒状像素算法要求相机姿态固定的限制,并且能将环境中物体类别和距离信息以语义棒状像素这种统一的形式表示出来,实现了无限制条件下真实三维世界的场景表示。相比于像素级的表示,此方法具有信息丰富,鲁棒性高,数据量小的优点,更适合用于以图像‑声音映射的方式传达环境信息。

Description

一种语义棒状像素的场景表示系统及方法
技术领域
本发明属于图像处理技术、信号处理技术、计算机视觉技术领域,涉及一种语义棒状像素的场景表示系统及方法。
背景技术
辅助技术旨在提高残疾人的个人流动性。对于视障者而言,环境感知是独立生活的主要需求。随着计算机视觉的发展,视障人士更丰富需求有可能得到满足。然而,与自动驾驶领域的积极进展相比,视障人士辅助方面的研究仍相对较少。针对这一现状,我们期望将自动驾驶领域的棒状像素算法应用到视障人士辅助项目中去。
棒状像素算法有效减少了计算量,对三维世界的表示具有灵活性和鲁棒性。但由于原始棒状像素算法设计是基于自动驾驶领域的,因此有相机高度、倾角固定等限制条件,并且基于深度图进行的前后景分割只包含深度信息而不包含语义信息。
深度学习近年来发展迅速,其中的语义分割为场景中的多种类型的物体提供了一种统一的识别方法,并且很多网络结构如ERFNet等都能在小型处理器上实现,且能满足一定实时性要求。
因此我们结合语义分割技术,设计出语义棒状像素算法,能够实现非限制条件下三维世界的场景表示,并通过声学反馈将关于地理和语义信息的环境信息传达给视障者。
发明内容
本发明的目的在于利用自动驾驶技术中的棒状像素的研究,结合语义分割,提供一种非限制条件下的语义棒状像素的场景表示系统及方法。
本发明采用如下技术方案:一种语义棒状像素的场景表示方法,包括以下步骤:
(1)利用彩色—深度相机采集相同尺寸的彩色图和深度图,尺寸记为(a×b)。
(2)将彩色图输入一个实时语义分割网络进行语义分割,输出跟彩色图像相同尺寸的label图像。其中语义类别分为行人(P),车辆(V),地面(G),天空(S)和其他区域(O)。
(3)计算原始棒状像素:采用棒状像素原始算法计算原始棒状像素,并在彩色图上表示。方法是:对深度图进行前景和背景分割,获得上下基线;将位于上下基线之间的部分切割为一个个棒状像素,每个棒状像素的宽度w个像素;然后将棒状像素在这张深度图对应的彩色图上表示出来。
(4)计算语义棒状像素,具体方法为:
(4.1)图像的像素列数b,从左边第一列(i=1)开始,从下往上遍历该列label图像的像素,判断像素类别,遇到第一个非地面像素,则记录此像素坐标(ub[i],vb[i]),并转而从上往下遍历这列像素,记录遇到的第一个与坐标为(ub[i],vb[i])的像素属于不同类别的像素坐标(ut[i],vt[i])。如果始终没有遇到此非同类别的像素,则记录坐标(ut[i],vt[i])=(ut[i],0),并继续遍历下一列。如果始终没有遇到非地面像素,则(ub[i],vb[i])=(ut[i],vt[i])=(0,0)。
(4.2)按照(4.1)种所述方式,继续往右进行下一列像素遍历及记录;直至这张彩色图的所有列遍历完成。
(4.3)从左边第一列开始,每w列计算一个棒状像素,若一个棒状像素中所有记录的坐标(ub[i],vb[i])=(ut[i],vt[i])=(0,0),则该棒状像素不存在。假设该棒状像素包含第n~n+w个之间的像素,从左到右计算每个棒状像素的上下基线,下基线的纵坐标为
Figure BDA0001883851660000021
上基线纵坐标为
Figure BDA0001883851660000022
其中,x为这个棒状像素中,记录坐标(ub[i],vb[i])=(ut[i],vt[i])=(0,0)的个数。
(4.4)利用(4.3)中计算的棒状像素的上下基线坐标,替换掉步骤(3)中对应位置的棒状像素的上下基线。
(4.5)重新计算替换后的每个棒状像素的深度dn,该深度dn为该棒状像素包含的所有像素深度的平均值;
(5)确定棒状像素的语义类别,一个棒状像素的语义类别为该棒状像素中的中心像素的语义类别。
(6)为方便观察,根据深度-颜色映射规则和类别-颜色映射规则,分别绘制深度棒状像素图和语义棒状像素图,来表示该场景。
进一步地,还包括利用声音映射规则来表示该场景,每个棒状像素对应一个声音源,用声音的音色、响度和相位差表示该棒状像素的类别、距离和方位。
本发明的有益效果在于:
实时性好。本发明采用的神经网络模型可以支持高实时性的语义信息预测,棒状像素相比于像素级的计算量也大大减小。
算法简单。本发明只需要一个语义分割神经网络,加RGBD输入即可将三维环境信息表示为语义棒状像素,各种障碍物类别都以统一的检测方式得以区分,同时还包括其深度信息。
适应性好。本发明利用语义分割的结果对原始棒状像素进行了优化,可以适应相机姿态随时变化的情况,能够实现非限制条件下的场景表示。
语义棒状像素为障碍物信息转化到声音提供了一种简单的形式,将一个语义棒状像素映射到一个声音源,棒状像素的语义和深度信息对应声音的音色和响度,棒状像素的位置同时能体现物体方位,对应声音的相位差,能够将一个真实场景包含的丰富信息以声音的形式让用户感知到。
附图说明
图1为模块连接示意图;
图2a和2b分别为彩色—深度相机采集的彩色图和伪彩色表示的深度图。
图3a为语义分割得到的彩色label图,图3b为原始棒状像素。
图4为该场景最终的语义棒状像素表示结果。
具体实施方式
一种语义棒状像素的障碍物表示方法,所述系统包含一个彩色—深度相机,一个小型处理器,一个电池模块。相机与小型处理器相连,电池模块与小型处理器相连。彩色—深度相机实时地采集周围场景的彩色—深度图像,小型处理器对获取的彩色—深度图像进行处理,将图像中的场景用语义棒状像素表示出来。下面结合说明书附图对本发明作进一步说明。
一种语义棒状像素的障碍物表示方法,包括以下步骤:
(1)利用彩色—深度相机采集相同尺寸的彩色图和深度图,尺寸为640*360。如图2a和b所示。
(2)将彩色图输入一个实时语义分割网络进行语义分割,输出跟彩色图像相同尺寸的label图像如图3a。其中语义类别分为行人(P),车辆(V),地面(G),天空(S)和其他区域(O)。
(3)计算原始棒状像素:采用棒状像素原始算法计算原始棒状像素,并在彩色图上表示出来,如图3b。方法是:对深度图进行前景和背景分割,获得上下基线;将位于上下基线之间的部分切割为一个个棒状像素,每个棒状像素的宽度w个像素;然后将棒状像素在这张深度图对应的彩色图上表示出来。
(4)计算语义棒状像素,具体方法为:
(4.1)图像的像素列数b,从左边第一列(i=1)开始,从下往上遍历该列label图像的像素,判断像素类别,遇到第一个非地面像素,则记录此像素坐标(ub[i],vb[i]),并转而从上往下遍历这列像素,记录遇到的第一个与坐标为(ub[i],vb[i])的像素属于不同类别的像素坐标(ut[i],vt[i])。如果始终没有此不同类别的像素,则记录坐标(ut[i],vt[i])=(ut[i],0),并继续遍历下一列。如果始终没有遇到非地面像素,则(ub[i],vb[i])=(ut[i],vt[i])=(0,0)。
(4.2)按照(4.1)种所述方式,继续往右进行下一列像素遍历及记录;直至这张彩色图的所有列遍历完成。
(4.3)从左边第一列开始,每w列计算一个棒状像素,若一个棒状像素中所有记录的坐标(ub[i],vb[i])=(ut[i],vt[i])=(0,0),则该棒状像素不存在。假设该棒状像素包含第n~n+w个之间的像素,从左到右计算每个棒状像素的上下基线,下基线的纵坐标为
Figure BDA0001883851660000041
上基线纵坐标为
Figure BDA0001883851660000042
其中,x为这个棒状像素中,记录坐标(ub[i],vb[i])=(ut[i],vt[i])=(0,0)的个数。
(4.4)利用(4.3)中计算的棒状像素的上下基线坐标,替换掉步骤(3)中对应位置的棒状像素的上下基线,得到如图4所示的棒状像素图。从图中可以看出,该图中标识了原来的棒状像素图中未标识出来的障碍物,具有更好的适应性。
(4.5)重新计算替换后的每个棒状像素的深度dn,该深度dn为该棒状像素包含的所有像素深度的平均值;
(4.6)确定棒状像素的语义类别,一个棒状像素的语义类别为该棒状像素中的中心像素的语义类别。
(5)为方便观察,根据深度-颜色映射规则和类别-颜色映射规则,分别绘制深度棒状像素图和语义棒状像素图,来表示该场景。
原始棒状像素中由于相机位姿不固定导致前后景分割不准确,小汽车没有表示出来。而经过优化的语义棒状像素结果解决了这个问题,将小汽车识别了出来;并且障碍物的分割边界更为准确,因此计算得到的棒状像素深度也更准确。
为了将处理后得到的环境信息传递给视障人士,根据声音映射规则来将该场景的图像信息转化为声音信息,每个棒状像素对应一个声音源,用声音的音色、响度和相位差表示该棒状像素的类别、距离和方位。如水滴声表示行人,喇叭声表示车辆,物体距离越近响度越大,物体在画面中位于左边1/3的部分则以-90相位差的声音体现,如表1所示。
表1
Figure BDA0001883851660000051
Figure BDA0001883851660000061

Claims (2)

1.一种语义棒状像素的场景表示方法,其特征在于,包括以下步骤:
(1)利用彩色—深度相机采集相同尺寸的彩色图和深度图,尺寸记为(a×b);
(2)将彩色图输入一个实时语义分割网络进行语义分割,输出跟彩色图像相同尺寸的label图像;其中语义类别分为行人(P),车辆(V),地面(G),天空(S)和除了上述类别以外的其他区域(O);
(3)计算原始棒状像素:采用棒状像素原始算法计算原始棒状像素,并在彩色图上表示;方法是:对深度图进行前景和背景分割,获得上下基线;将位于上下基线之间的部分切割为一个个棒状像素,每个棒状像素的宽度为w个像素;然后将棒状像素在这张深度图对应的彩色图上表示出来;
(4)计算语义棒状像素,具体方法为:
(4.1)图像的像素列数b,从左边第一列,i=1开始,从下往上遍历该列label图像的像素,判断像素类别,遇到第一个非地面像素,则记录此像素坐标(ub[i],vb[i]),并继续向上遍历这列像素,记录遇到的第一个与坐标为(ub[i],vb[i])的像素属于不同类别的像素坐标(ut[i],vt[i]);如果始终没有遇到此不同类别的像素,则记录坐标(ut[i],vt[i])=(ub[i],0),并继续遍历下一列;如果始终没有遇到非地面像素,则(ub[i],vb[i])=(ut[i],vt[i])=(0,0);
(4.2)按照(4.1)中 方式,继续往右进行下一列像素遍历及记录;直至这张彩色图的所有列遍历完成;
(4.3)从左边第一列开始,每w列计算一个棒状像素,若一个棒状像素中所有记录的坐标(ub[i],vb[i])=(ut[i],vt[i])=(0,0),则该棒状像素不存在;假设该棒状像素包含第n~n+w列之间的像素,从左到右计算每个棒状像素的上下基线,下基线的纵坐标为
Figure FDA0003814148230000011
上基线纵坐标为
Figure FDA0003814148230000012
其中,x为这个棒状像素中,记录坐标(ub[i],vb[i])=(ut[i],vt[i])=(0,0)的个数;
(4.4)利用(4.3)中计算的棒状像素的上下基线坐标,替换掉步骤(3)中对应位置的棒状像素的上下基线;
(4.5)重新计算替换后的每个棒状像素的深度dn,该深度dn为该棒状像素包含的所有像素深度的平均值;
(5)确定棒状像素的语义类别,一个棒状像素的语义类别为该棒状像素中的中心像素的语义类别;
(6)为方便观察,根据深度-颜色映射规则和类别-颜色映射规则,分别绘制深度棒状像素图和语义棒状像素图,来表示该场景。
2.根据权利要求1所述的方法,其特征在于,还包括利用声音映射规则来表示该场景,每个棒状像素对应一个声音源,用声音的音色、响度和相位差表示该棒状像素的类别、距离和方位。
CN201811436208.2A 2018-11-28 2018-11-28 一种语义棒状像素的场景表示系统及方法 Active CN109670409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811436208.2A CN109670409B (zh) 2018-11-28 2018-11-28 一种语义棒状像素的场景表示系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811436208.2A CN109670409B (zh) 2018-11-28 2018-11-28 一种语义棒状像素的场景表示系统及方法

Publications (2)

Publication Number Publication Date
CN109670409A CN109670409A (zh) 2019-04-23
CN109670409B true CN109670409B (zh) 2022-10-21

Family

ID=66143289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811436208.2A Active CN109670409B (zh) 2018-11-28 2018-11-28 一种语义棒状像素的场景表示系统及方法

Country Status (1)

Country Link
CN (1) CN109670409B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008979A (zh) * 2019-12-09 2020-04-14 杭州凌像科技有限公司 一种鲁棒的夜晚图像语义分割方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038723A (zh) * 2015-11-20 2017-08-11 通用汽车环球科技运作有限责任公司 棒状像素估计方法和系统
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
WO2018140656A1 (en) * 2017-01-26 2018-08-02 Matterport, Inc. Capturing and aligning panoramic image and depth data
CN108693532A (zh) * 2018-03-29 2018-10-23 浙江大学 基于增强型双目相机与3d毫米波雷达的可穿戴避障方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038723A (zh) * 2015-11-20 2017-08-11 通用汽车环球科技运作有限责任公司 棒状像素估计方法和系统
WO2018140656A1 (en) * 2017-01-26 2018-08-02 Matterport, Inc. Capturing and aligning panoramic image and depth data
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN108693532A (zh) * 2018-03-29 2018-10-23 浙江大学 基于增强型双目相机与3d毫米波雷达的可穿戴避障方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《An environmental perception and navigational assistance system for visually impaired persons based on semantic stixels and sound interaction》;Juan Wang;《2018 IEEE International Conference on Systems, Man, and Cybernetics》;20181010;第1921-1926页 *

Also Published As

Publication number Publication date
CN109670409A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
US11361470B2 (en) Semantically-aware image-based visual localization
US9811756B2 (en) Method for labeling images of street scenes
JP6766844B2 (ja) 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置
CN110674829B (zh) 一种基于图卷积注意网络的三维目标检测方法
CN109934848B (zh) 一种基于深度学习的运动物体精准定位的方法
Sekkat et al. SynWoodScape: Synthetic surround-view fisheye camera dataset for autonomous driving
US10477178B2 (en) High-speed and tunable scene reconstruction systems and methods using stereo imagery
JP2019061658A (ja) 領域判別器訓練方法、領域判別装置、領域判別器訓練装置及びプログラム
CN112801074B (zh) 一种基于交通摄像头的深度图估计方法
WO2020237942A1 (zh) 一种行人3d位置的检测方法及装置、车载终端
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
DE112017003815T5 (de) Bildverarbeitungsvorrichtung und bildverarbeitungsverfahren
CN112560716A (zh) 一种基于低层特征融合的高分辨率遥感影像水体提取方法
CN108960287B (zh) 一种实现地形和目标检测的盲人辅助眼镜
CN109670409B (zh) 一种语义棒状像素的场景表示系统及方法
CN114119889B (zh) 基于跨模态融合的360度环境深度补全和地图重建方法
CN115019274A (zh) 一种融合追踪与检索算法的路面病害识别方法
CN111198563B (zh) 一种用于足式机器人动态运动的地形识别方法及系统
CN112932910A (zh) 一种穿戴式智能感知导盲系统
WO2023155903A1 (en) Systems and methods for generating road surface semantic segmentation map from sequence of point clouds
Saleem et al. Effects of ground manifold modeling on the accuracy of stixel calculations
CN115661522A (zh) 一种基于视觉语义矢量的车辆导引方法、系统、设备和介质
CN116843867A (zh) 增强现实虚实融合方法、电子设备和存储介质
CN112102347B (zh) 一种基于双目视觉的台阶检测和单级台阶高度估计方法
CN115359067A (zh) 一种基于连续卷积网络的逐点融合点云语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant