CN115620001A

CN115620001A - 基于3d点云双边扩增算法的视觉辅助系统

Info

Publication number: CN115620001A
Application number: CN202211611117.4A
Authority: CN
Inventors: 李奇; 宋雨; 武岩; 高宁
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-01-17
Anticipated expiration: 2042-12-15
Also published as: CN115620001B

Abstract

本发明涉及一种基于3D点云双边扩增算法的视觉辅助系统，属于图像处理技术领域，其中数据采集装置将采集的室内场景图像输入至数据生成装置；数据生成装置生成3D点云数据并输出至物体定位及分类装置；物体定位及分类装置利用基于双边扩增算法的语义分割模型对3D点云数据进行语义分割，将得到的语义分割结果与模板库进行点云配准，识别出目标物体，计算出位姿和物体抓取点，输出最终的结果；语音合成及播放装置将该结果生成对应的文字信息和音频信息，设置计时提醒器对音频信息进行播放，将文字信息反馈至监护人员绑定的设备。本发明利用基于双边扩增算法的语义分割模型进行分类，提升了视觉辅助系统物体分类的准确率和视觉辅助系统的性能。

Description

基于3D点云双边扩增算法的视觉辅助系统

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于3D点云双边扩增算法的视觉辅助系统。

背景技术

一直以来，研究人员都致力于设计提高盲人生活质量的辅助设备，其应用场景多为室外出行环境。但对于视障群体而言，单独处于室内环境的时间更长一些，当所在环境较为复杂时，寻找特定的目标就变得尤为困难，单纯依靠其他感知很容易带来意外伤害，如烧水壶、剪刀等危险物品。如何提高盲人独自在家的安全系数，以及更好的辨别和拿取物品成为了一个待解决的问题。

为了解决这一问题，人们提出了视觉辅助系统，视觉辅助系统能够获取周围环境的信息，并以语音的方式反馈到用户，使盲人能够在室内环境中更好地生活。目前，部分视觉辅助系统采用基于深度学习的点云语义分割模型进行物品分类，但是没有充分考虑点云的局部结构，特别是当点紧密分布在不同语义类别边界附近时，不可避免的产生点的表示偏差。此外，鉴于点云稀疏、无序的特性，直接利用卷积核进行特征提取造成了大量计算和内存消耗，输出的特征图在一定程度上丢失了全局上下文信息。因此，在过往的研究中，采用基于深度学习的点云语义分割模型往往存在对细节处理和对复杂场景的泛化能力弱，分类准确率以及系统性能低的问题。

发明内容

为解决目前视觉辅助系统存在模型对于细节处理和对复杂场景的泛化能力弱、分类准确率以及系统性能低的问题，提供一种基于3D点云双边扩增算法的视觉辅助系统，该视觉辅助系统利用基于双边扩增算法的语义分割模型进行分割，语义分割模型能够通过合理分布的局部邻域，相互学习偏移量增强点的局部信息，进而提高模型在细节处理和对复杂场景的泛化能力，提升视觉辅助系统物体分类的准确率和视觉辅助系统的性能。

为实现上述目的，本发明采取如下的技术方案：

一种基于3D点云双边扩增算法的视觉辅助系统，包括数据采集装置、数据生成装置、物体定位及分类装置和语音合成及播放装置；

数据采集装置多方位地采集室内场景图像，并输入至数据生成装置；

数据生成装置将输入的图像数据转化生成3D点云数据，输出至物体定位及分类装置；

物体定位及分类装置利用基于双边扩增算法的语义分割模型对3D点云数据进行语义分割，将得到的语义分割结果与模板库进行点云配准，识别出目标物体，并计算出在世界坐标系下的位姿和物体抓取点，输出最终的结果，该结果包括物体类别和以人所在位置为中心的物体距离；

语音合成及播放装置将物体定位及分类装置输出的结果生成对应的文字信息和音频信息，并设置计时提醒器对音频信息进行播放，同时将文字信息反馈至监护人员绑定的设备。

与现有技术相比，本发明具有以下有益效果：

本发明提出的基于3D点云双边扩增算法的视觉辅助系统以基于双边扩增算法的语义分割模型为基础，在一定程度上改进了现有语义分割算法在局部领域构建和特征提取方面的不足，提升了视觉辅助系统物体分类的准确率；在局部领域处理方面，提取样本关键点后，进一步使用了八叉近邻查找算法对关键点的邻域进行搜索，使其空间划分的速度、内存开销都较为均衡；在特征提取方面，通过学习偏移量解决了语义间点的偏差和特征冗余的问题，并采用动态内核组装策略而非暴力方式从点位置推断内核，绕过了巨大的内存和计算负担，有效提升了视觉辅助系统的性能。

附图说明

图1为本发明的基于3D点云双边扩增算法的视觉辅助系统的结构示意图；

图2为本发明的基于3D双边扩增算法的视觉辅助系统的工作流程图；

图3为基于双边扩增算法的语义分割模型的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在其中一个实施例中，如图1所示，本发明提供了一种基于3D双边扩增算法的视觉辅助系统，包括数据采集装置、数据生成装置、物体定位及分类装置和语音合成及播放装置。下面对各个装置分别进行详细描述。

数据采集装置利用双目相机，以室内场景中各个物体为中心采集图像信息，输出至Android系统中的数据生成装置。

数据生成装置对图像进行矫正、匹配，并利用双目测距法计算图像深度信息，再将图像深度信息转化成3D点云数据，传入物体定位及分类装置。双目测距法是一种基于视差原理恢复物体三维几何信息的技术，其主要原理是通过双目相机对同一目标点进行标定，得到内外参数和单应矩阵，然后对原始图像进行校正，使两张图像位于同一平面且互相平行；再对校正后的两张图像进行像素点匹配，最终求得目标点的空间位置即为3D点云数据。

进一步地，本实施例中的数据采集装置可以采用深度相机或者激光雷达等来获取图像数据。数据生成装置可以采用三维重建方式等生成3D点云数据。

三维点云的语义分割（Semantic Segmentation）是一种将点与语义标签相关联的技术，它根据三维空间中每一个点自身的属性，为其分配一个相应有意义的标签，从而得到对场景的理解。

物体定位及分类装置利用基于双边扩增算法的语义分割模型对3D点云数据进行语义分割，得到语义分割结果，并将语义分割结果与模板库进行点云配准，融合同一对象在不同条件下获取的点云数据。点云配准具体来说包括两步，首先使用粗配准将点云数据大致对齐，然后使用精配准做更细化的处理，使不同视角下的坐标系转换为统一视角，识别出目标物体，并计算出目标物体在世界坐标系下的位姿和物体抓取点。数据生成装置输出最终的结果，该结果包括物体类别和以人所在位置为中心的物体距离，数据生成装置将该结果输出至语音合成及播放装置。

此外，当物体类别属于危险物品类别时，语音合成及播放装置直接生成并播放报警音，或者对生成的音频添加特殊音效后再进行播放，并每隔5分钟以特殊音效和人声播报提醒用户，当用户超过一小时未离开警戒区域，系统将通过短信方式通知绑定的设备。例如在盲人行走过程中，如遇到危险物品，则发出警报声音，告知用户物品信息。通过对于危险物品添加特殊音效或者直接播放报警音，若用户长时间处于警戒区，对于潜在的重大事故将以短信方式通知监护人员取得求助，帮助盲人有效的远离居家危险，更好的熟悉复杂的室内环境，从而更安全、舒适地生活和学习。

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，下面以数据采集装置为双目相机为例，结合图2所示的流程图对本发明中视觉辅助系统的工作过程作进一步详细的说明：双目相机对目标场景进行双目拍照后得到左右图像，对左右图像进行双目立体匹配，得到深度图，后经三维重建获得3D点云数据；数据生成装置将生成的3D点云数据输入到物体定位及分类装置，物体定位及分类装置利用基于双边扩增算法的语义分割模型对数据进行语义分割，输出分割结果，再运用点云配准算法将不同视角下的点云数据对齐，得到全局坐标系下目标物体的位姿信息，系统最终输出具体的物体类别和物体距离；接下来判断物体类别是否属于危险物品类别，若是危险物品类别，则语音合成及播放装置直接生成并播放报警音或合成音频后播放添加特殊音效的音频，并利用计时器获得用户处于警戒区的时间，对于超过1小时处在警戒区的用户，以短信方式提醒绑定监护人员，若不是危险物品类别，则语音合成及播放装置合成音频并播放该音频输出目标物体信息。

本实施例中的基于双边扩增算法的语义分割模型对编码器－解码器结构的语义分割算法进行了改进，首先对无序点集下采样得到具有代表性的关键点，再以关键点为中心运用八叉近邻查找算法查到邻域点，构建一个初步的局部环境，将点云特征分为几何和特征信息；利用特征提取器从特征信息中捕捉到初步的语义背景F，与几何信息P一起输入第一个增强块；增强块从双边信息中相互学习偏移量对邻域点做偏移，得到增强的局部语境，并利用点云动态核卷积自适应的学习权重系数构造卷积核得到相应的邻域特征，将输出特征和坐标位置作为后续增强块的输入得到多分辨率特征图；对多分辨率特征图进行上采样，并自适应的融合为一个综合特征图输出；最后，在全连接层预测所有点的语义标签，得到最终的语义分割结果。

具体地，基于双边扩增算法的语义分割模型的网络结构如图3所示，包括局部邻域模块、特征提取器、双边扩增模块、自适应融合模块以及全连接层。

局部邻域模块，对输入的3D点云数据进行下采样，得到具有代表性的关键点，再以关键点为中心通过邻域搜索找出邻域点，构建一个初步的局部环境，并将点云特征分为几何信息和特征信息。

局部邻域模块对于关键点的选择，可以使用下采样和其他邻域构建方法来选取关键点，其中下采样方法可以为随机下采样、均匀下采样和最远点采样法。这里仅以最远点采样为例进行详细说明。

局部邻域模块对输入的3D点云数据进行最远点采样得到具有代表性的关键点时，首先随机选取一个点作为起始点，计算起始点与剩余点的距离，以最远点作为点集中的第二个点，接着选取距离点集最远的剩余点，直到关键点全部选取完毕。以欧式距离作为两个点之间的距离的度量方式，欧式距离的计算公式如公式（1）所示：

其中，d_i为两点之间的距离，x_1i和x_2i为点的坐标信息，N为点数。

局部邻域模块对于邻域点的选择，可以使用球查询的方法、K近邻（K-NearestNeighbors，KNN）算法或者空间划分的方法查找出邻域点。这里仅以空间划分的方法为例进行详细说明。

首先给定距离以关键点为中心构造立方体包围盒，然后以公式（2）为基础对立方体包围盒内的点进行空间划分，对于每一个点的x、y、z坐标，若大于中心点则记为1，否则为0，再对每个空间求出与中心点最近距离的点作为该空间的邻域点。若在某个子空间内没有找到邻域点，就把关键点复制为邻域点。公式（2）如下：

其中，

为第i个点的空间序号，

、

、

为第i个点中是否大于中心点的标记，

、

、

将二进制空间标记转化为0到7的空间序号。

特征提取器，用于从特征信息中捕捉初步的语义背景，并输入至双边扩增模块中的第一个增强块。

双边扩增模块包括多个增强块，增强块从双边信息中相互学习偏移量，对邻域点做偏移，得到增强的局部语境，并利用点云动态核卷积自适应的学习权重系数构造卷积核，得到相应的邻域特征，将邻域特征和坐标位置作为后续增强块的输入得到多分辨率特征图。双边扩增中的双边指的是点云的几何信息和语义信息。扩增指的是，通过添加双边偏移（双边块做的内容）来增强局部邻域/上下文，双边偏移会移动邻域点使其密切的关联到中心点。

提取输入的坐标信息和特征信息的绝对位置和相对位置，合并为局部上下文

。公式（3）中利用DKConv动态核卷积学习偏移量得到新的位置

，同样求得新的特征信息

，将两个用DKConv动态核卷积学习到的偏移量串联生成增强的局部语境

，结合

混合聚合函数，实现点的排列不变性。公式（3）如下：

其中，

为邻域点坐标信息，

为更新偏移的邻域坐标，

为中心点局部特征信息，

为包含全局和局部的特征信息，

为三维实数空间。

生成动态核卷积需要先随机定义权重矩阵，然后根据中心点和邻域点的位置自适应学习权重来构造内核函数

。对于位置信息上的偏移量可通过公式（4）学习，公式（4）如下：

其中，

为中心点，

为聚合函数，

为内核函数。

自适应融合模块，用于自适应的融合多分辨率特征图为一个综合特征图输出至全连接层。

对双边扩增模块提取出一组多分辨率特征图

，自适应融合模块利用多层感知机（Multilayer Perceptron，MLP）将各个多分辨率特征图的通道都变为同一通道数，再利用近邻加权插值法对每个多分辨率特征图进行渐进式上采样，直到生成全尺寸特征图

；然后通过归一化得到全尺寸特征图

的不同权重参数

。最后，将全尺寸特征图

和对应的权重参数

进行融合，得到最终输出的综合特征图S_out。

全连接层，用于根据综合特征图预测所有点的语义标签，得到最终的语义分割结果。

局部邻域模块使用的采样算法、空间划分算法，自适应融合模块中的插值算法采用了多编程语言开发的方式加快了模型训练的速度，包括以下步骤：

将程序封装在cuda文件中，编写C++文件绑定cuda内核函数，通过python的pytorch架构的CUDAExtension模块对cuda和c++文件进行编译，生成.so文件，最后再python程序中调用CUDA kernel函数。

本发明着眼于复杂室内环境下盲人的需求以及安全性问题，提供了一种基于3D点云双边扩增算法的视觉辅助系统，该系统在软硬件方面的优势如下：

在硬件方面，现有的盲人辅助工具，或多或少存在价格昂贵、不易携带等缺点，而本系统将双目相机和Android系统相结合，相较于市场上的可穿戴设备高效低廉，同时与常见的超声波、红外等传感器相比，采用双目视觉作为探测手段能够更加精准的测算目标距离；

在软件层面，市面上大多的软件功能结构都较为简单，大部分采用图像识别算法，而本发明采用改进的语义分割算法能够更准确的帮助视障群体感知周围环境，有效协助物品拿取，对危险物品予以警告，提高居家安全意识。

本发明提出的基于3D点云双边扩增算法的视觉辅助系统以基于双边扩增算法的语义分割模型为基础，在一定程度上改进了现有语义分割算法在局部领域构建和特征提取方面的不足，提升了视觉辅助系统物体分类的准确率；在局部领域处理方面，提取样本关键点后，近一步使用了八叉近邻查找算法对关键点的邻域进行搜索，使其空间划分的速度、内存开销都较为均衡；在特征提取方面，通过学习偏移量解决了语义间点的偏差和特征冗余的问题，并采用动态内核组装策略而非暴力方式从点位置推断内核，绕过了巨大的内存和计算负担，有效提升了视觉辅助系统的性能。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于3D点云双边扩增算法的视觉辅助系统，其特征在于，包括数据采集装置、数据生成装置、物体定位及分类装置和语音合成及播放装置；

2.根据权利要求1所述的基于3D点云双边扩增算法的视觉辅助系统，其特征在于，基于双边扩增算法的语义分割模型包括：

局部邻域模块，对输入的3D点云数据使用下采样得到具有代表性的关键点，再以关键点为中心通过八叉近邻查找算法取得均匀的邻域点，构建出一个初步的局部环境，并将点云特征分为几何信息和特征信息；

特征提取器，用于从特征信息中捕捉初步的语义背景，并输入至局部扩增模块中的第一个增强块；

双边扩增模块，包括多个增强块，增强块从颜色和位置信息中相互学习偏移量对邻域点做偏移，得到增强的局部语境，并利用点云动态核卷积自适应的学习权重系数来构造卷积核，提取相应的邻域特征，将邻域特征和坐标位置作为后续增强块的输入得到多分辨率特征图；

自适应融合模块，用于自适应的融合多分辨率特征图为一个综合特征图输出至全连接层；

全连接层，用于根据综合特征图预测所有点的语义标签，得到语义分割结果。

3.根据权利要求2所述的基于3D点云双边扩增算法的视觉辅助系统，其特征在于，局部邻域模块使用了八叉近邻查找算法取得均匀的邻域点，包括以下步骤：

设置下采样后的点为关键点，以关键点为中心构建划分八个空间，每个空间选择距离关键点最近的点代表局部邻域，空间将不再继续划分，最后将点和局部信息输出至语义分割模型。

4.根据权利要求2所述的基于3D点云双边扩增算法的视觉辅助系统，其特征在于，自适应融合模块利用多层感知机将各个多分辨率特征图的通道都变为同一通道数，再利用近邻加权插值法对每个多分辨率特征图进行渐进式上采样，近邻加权插值法能够找到前一层特征图中与该点最近的K个点，通过加权平均在该层特征图中进行插值，直到生成全尺寸特征图，然后通过归一化得到全尺寸特征图的权重参数，最后，将全尺寸特征图和对应的权重参数进行融合，得到最终输出的综合特征图。

5.根据权利要求2所述的基于3D点云双边扩增算法的视觉辅助系统，其特征在于，局部邻域模块使用的采样算法、空间划分算法，自适应融合模块中的插值算法采用了多编程语言开发的方式加快了模型训练的速度，包括以下步骤：

6.根据权利要求1所述的基于3D点云双边扩增算法的视觉辅助系统，其特征在于，当物体类别属于危险物品类别时，语音合成及播放装置会每隔5分钟以特殊音效和人声播报提醒用户，当用户超过一小时未离开警戒区域，系统将通过短信通知绑定的设备。