CN115661522A

CN115661522A - 一种基于视觉语义矢量的车辆导引方法、系统、设备和介质

Info

Publication number: CN115661522A
Application number: CN202211305618.XA
Authority: CN
Inventors: 罗毅; 康轶非; 姚志伟; 彭祥军
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-31
Also published as: WO2024088445A1

Abstract

本申请提供一种基于视觉语义矢量的车辆导引方法、系统、设备和介质，该方法包括：获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别；根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成；将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值；根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量；根据所述语义矢量进行路面标识定位，以引导车辆行驶。本申请可增强语义矢量的鲁棒性，为后续车辆定位提供可靠数据支撑。

Description

一种基于视觉语义矢量的车辆导引方法、系统、设备和介质

技术领域

本申请涉及智能驾驶领域，尤其涉及一种基于视觉语义矢量的车辆导引方法、系统、设备和介质。

背景技术

智能驾驶车辆的定位功能开发是一个复杂的系统工程，针对高速、匝道、隧道等场景一般使用自车携带的摄像头的视觉信息以及高精度地图等作为定位输入，采用融合定位的方案。

然而现有方案中采用特征点法，利用连续图片中相同特征点估计自车位置，特征点容易受光照变化影响，导致误差较大。而基于语义分割生成稠密语义点云的方法需要消耗大量的存储资源，且存储的无效信息过多会影响后端的处理效率。

发明内容

鉴于以上现有技术存在的问题，本申请提出一种基于视觉语义矢量的车辆导引方法、系统、设备和介质，主要解决现有方法准确性差，处理过程过于复杂难以满足实际应用需求的问题。

为了实现上述目的及其他目的，本申请采用的技术方案如下。

本申请提供一种基于视觉语义矢量的车辆导引方法，包括：

获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别；

根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成；

将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值；

根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量；

根据所述语义矢量进行路面标识定位，以引导车辆行驶。

在本申请一实施例中，对所述道路图像中像素点进行分类，包括：

通过预训练的神经网络对所述道路图像进行分类，得到所述道路图像中每个像素点的像素点类别；

根据所述像素点类别的数量生成每个像素点类别的类别编码；

根据所述类别编码标识所述道路图像，得到所述道路图像的灰度图作为语义图像，以根据所述语义图像进行点集划分。

在本申请一实施例中，根据像素点位置和类别进行点集划分，得到多个像素集合，包括：

获取类别相同的所有像素点以及像素点的位置，组成初始集合；

从所述初始集合中选出至少一个像素点作为起始点，将所述起始点相邻的像素点放入同一子集合中，继续以所述子集合中像素点为基点进行相邻像素点检索，得到多个子集合，每个子集合作为一个像素点集合。

在本申请一实施例中，根据像素点位置和类别进行点集划分，得到多个像素集合之后，包括：

获取每个所述像素点集合的质心，并计算各所述质心之间的距离；

若所述质心之间的距离小于预设距离阈值，则合并对应的像素点集合。

在本申请一实施例中，将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值，包括：

获取拍摄所述道路图像的图像采集设备的内参矩阵和外参矩阵；

根据所述内参矩阵将所述像素点集合中各像素点的位置映射到所述图像采集设备的坐标系中，并为每个像素点配置预设的深度值，得到所述图像采集设备的坐标系下的像素点坐标值；

根据所述外参矩阵将所述图像采集设备的坐标系下的像素点的坐标值映射到地面坐标系中，得到所述像素点集合中各像素点的三维坐标值。

在本申请一实施例中，根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量，包括：

根据所述像素点集合中的像素点的三维坐标值，确定所述像素点集合的质心；

根据所述像素点集合中各像素点与所述质心的偏移量，确定所述像素点集合的协方差矩阵；

对所述协方差矩阵做主成分分析，得到多个特征向量；

根据特征值最大的所述特征向量确定所述像素点集合的方向，将所述质心的坐标作为所述语义坐标，结合所述像素点集合的方向，确定所述像素点集合的语义矢量。

在本申请一实施例中，对所述协方差矩阵做主成分分析，得到多个特征向量之后，还包括：

对各所述特征向量对应的特征值由大到小进行排序，并将排序最前的两个特征值进行比较；

若排序最前的两个特征值之差小于预设差值阈值，则将对应的像素点集合剔除。

在本申请一实施例中，根据特征值最大的所述特征向量确定所述像素点集合的方向之后，还包括：

根据各像素点集合中各像素点的位置确定对应像素点集合的轮廓直线信息；

将所述轮廓直线信息与所述像素点集合的方向进行比较，若没有与所述像素点集合的方向平行的轮廓直线信息，则将对应像素点集合剔除。

在本申请一实施例中，根据所述语义矢量进行路面标识定位之后，包括：

根据所述语义矢量的方向生成语音调用指令；

响应于所述语音调用指令，输出预设语音库中对应的语音信息以引导车辆行驶。

本申请还提供一种基于视觉语义矢量的车辆导引系统，包括：

分类模块，用于获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别；

集合划分模块，用于根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成；

坐标转换模块，用于将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值；

矢量化模块，用于根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量；

导引模块，用于根据所述语义矢量进行路面标识定位，以引导车辆行驶。

本申请还提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于视觉语义矢量的车辆导引方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于视觉语义矢量的车辆导引方法的步骤。

如上所述，本申请一种基于视觉语义矢量的车辆导引方法、系统、设备和介质，具有以下有益效果。

本申请获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别；根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成；将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值；根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量；根据所述语义矢量进行路面标识定位，以引导车辆行驶。本申请基于像素级分类提取道路图像中的语义矢量，为后续车辆导引和定位提供可靠的数据支撑，操作便捷，可避免大量不必要的数据存储。本申请的语义矢量对光照变化具有更高的鲁棒性，可满足不同实际道路场景的应用需求。

附图说明

图1为本申请一实施例中基于视觉语义矢量的车辆导引系统的应用场景示意图。

图2是本申请实施例提供的终端的结构示意图。

图3为本申请一实施例中基于视觉语义矢量的车辆导引方法的流程示意图。

图4为本申请一实施例中语义矢量化的流程示意图。

图5为本申请一实施例中基于视觉语义矢量的车辆导引系统的模块图。

图6为本申请一实施例中设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在一实施例中，车辆本体上可安装一个或多个图像传感装置，图像传感装置可包括摄像头等器件。示例性地，可在车辆前进方向上或侧边安装一个或多个摄像头用于采集车辆行驶过程中前方或侧方道路图像。将道路图像通过网络传输至车端或服务器端的视觉处理芯片，视觉处理芯片上可集成用于处理针对高速场景的神经网络模型，通过该神经网络模型将三通道RGB图像转换为单通道语义图像以进行语义矢量提取，如提取地面箭头、车道线、人行道等语义矢量，用于车端应用导航以及辅助安全驾驶等。具体语义矢量的应用场景可根据实际需求进行适配，这里不作限制。

请参阅图1，图1为本申请一实施例中基于视觉语义矢量的车辆导引系统的应用场景示意图。图像采集装置通常安装在车辆本体上，也可设置图像处理单元用于对图像采集装置获取的图像进行预处理，如将三通道RGB图像转换为单通道语义图像，对语义图像进行像素级分类，基于像素级分类提取语义矢量等，具体图像预处理可根据实际应用需求进行设置，这里不作限制。图像处理单元可安装于车辆本体靠近图像采集装置对应位置，避免长距离数据传输导致数据丢失或数据延迟。图像处理单元也可设置于服务器200对应位置，只需要将车端采集图像上传至服务器端，由服务器端完成图像处理，提取语义矢量信息。图像采集装置和图像处理单元之间可通过移动网络建立通信连接，以完成传感数据上载。图像处理单元中可集成预训练的神经网络模型，以及语义矢量提取需要的算法模型，以根据集成的模型完成前述的本申请的语义矢量提取过程。具体模型预训练过程可在服务器200中进行。若在服务器200完成语义矢量处理，则服务器200可将得到的语义矢量传输至车端，以使车端根据语义矢量进行导航或车辆定位。

在一实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，也可在车端进行样本数据集构建以及对应模型的训练，车端可以为车载终端，图像处理单元接收到传感采集装置采集的实时道路图像后，对实时图像进行预处理并通过车载显示终端进行实时显示，以便车内人员基于显示的道路图像进行路面标识标注，得到样本图像对应的训练样本，用于训练神经网络模型。在另一实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电和车载终端等，但并不局限于此。

参见图2，图2是本申请实施例提供的终端400的结构示意图，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的基于视觉语义矢量的车辆导引系统455，其可以是程序和插件等形式的软件，包括以下软件模块：分类模块4551、集合划分模块4552、坐标转换模块4553、矢量化模块4554和导引模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的系统可以采用硬件方式实现，作为示例，本申请实施例提供的系统可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于视觉语义矢量的车辆导引方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的基于视觉语义矢量的车辆导引方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如社交应用APP或者消息分享APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序或者网页客户端程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面将结合本申请实施例提供的设备的示例性应用和实施，说明本申请实施例提供的基于视觉语义矢量的车辆导引方法。

请参阅图3，图3为本申请一实施例中基于视觉语义矢量的车辆导引方法的流程示意图。本申请实施例的基于视觉语义矢量的车辆导引方法包括以下步骤。

步骤S300，获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别。

在一实施例中，原始的摄像头视觉感知数据，首先从传感器传输到视觉处理芯片上，在该芯片上集成有经过提前针对高速场景训练过的神经网络模型。该神经网络模型将原始的三通道RGB图像层层卷积后，得到单通道语义图片输出，其中语义图片的每一个像素点都被分类为具体的某一类元素，如地面箭头，人行道等等。

在一实施例中，对所述道路图像中像素点进行分类，包括以下步骤：

请参阅图4，图4为本申请一实施例中语义矢量化的流程示意图。摄像头在将传感器图像数据传进视觉处理芯片上后，由芯片上的神经网络模型对原始的三通道RGB图像处理后，得到大小为480x256的单通道语义图片输出。

神经网络输出的语义类别可包括16种，主要包括地面箭头，人行道，车道线，背景，路障，灯杆，标示牌等等，类别分别用数字从0-16作为标号。输出的语义图片中，每一个像素点的灰度值范围都是0-16，具体灰度值的大小则直接表示该像素点的语义类别。

步骤S310，根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成。

在一实施例中，根据像素点位置和类别进行点集划分，得到多个像素集合，包括：

获取到语义图片之后，将属于同一类别的像素点提取出来并且根据像素点之间是否连续，将所有的同类型像素点分为不同的集合。例如语义图片中，有两处地面箭头，则首先将所有的类别为地面箭头的像素点提取出来，然后根据像素点之间是否相连，可以判断该图片中有两处不相连的像素点分别属于两处地面箭头，将两处地面箭头的像素点分别提取为两个像素点集合。除此之外，其他类别的像素点也可以用同样的方式得到，例如人行道，车道线等。

具体地，拿到语义图片后，首先根据图片尺寸大小，对每一个像素点的类别进行区别甄选，例如地面箭头元素类别为8，那么首先对该语义图片遍历每一个像素点，如果某一个像素点的类别值等于8，则将该像素点加入地面箭头的像素点集中。再将所有属于地面箭头的像素点(即类别值为8)挑选处理后，采用递归方式将相互邻近的像素点重新划分为一个小的点集，表示一个单独的箭头。

具体递归算法逻辑为：将点集中的每一个点重新放入一个空白的图片中，然后遍历该图片的每一个像素，从第一个像素点开始，如果该像素点的类别为8，则按顺序查找下一个像素点，直到找到一个类别为8的像素点a，则创建一个新的子点集，将该点a存入子点集中，然后查找该像素点a的上下左右四个点，如果a点上方的点b同样类别为8，则将该b点也加入子点集中，并继续查找该b点的上下左右四个点是否同样类别为8，直到所有已经找到的点的上下左右四个点都已经被加入点集，或者类别不为8，那么可以说，与第一个被找到的点a相连的类别为8的点已经被全部找到，并加入了子点集中，该子点集则可以看作为一个地面箭头所有的相关像素点。

接着继续遍历其余剩余的像素点，找到其他的地面箭头相关的像素点集。

针对其他类别的语义元素，如车道线，人行道等，也可以通过同样的方式处理，找到对应的像素点集。

在一实施例中，根据像素点位置和类别进行点集划分，得到多个像素集合之后，包括：

具体地，由于路面情况较为复杂，经常会存在车道线或箭头等被淤泥或杂物部分遮挡的情况。因此，在得到同类别像素点集合后，可基于像素点集合的质心之间的距离，判断两个像素点集合是否对应同一个路面箭头或同一段车道线。具体的距离阈值可根据实际应用需求进行设置，这里不作限制。合并像素点集合，可基于合并的两个像素点集合的边界线进行边界线拟合，填充被遮挡的边界线，得到合并后的像素点集合的边界线，用于后续的边界线比对。

步骤S320，将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值。

在一实施例中，将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值，包括：

具体地，针对前述步骤获得的属于同一个语义类别的像素点集合，所有的像素点坐标都是在图像平面上的二维坐标。需要根据相机内参矩阵和外参矩阵获取每一个像素点对应的实际世界中的三维坐标。

相机的内参矩阵是用来将图像中的某一个像素坐标转换为以相机光心为坐标原点的相机坐标系中。而后利用相机的外参矩阵，也就是从相机坐标系到车身坐标系的转换矩阵，将相机坐标系中的某一个点，转换为车体坐标系中的一个三维坐标。

而由于二维图像坐标在转换为三维世界坐标的过程中，有一个维度信息，即深度信息，无法通过计算恢复，因此我们采用的地面平面假设，即所有图像中的像素点，所对应的实际世界中的点，都是处于高度为0的地面平面中。用这种方式，上一步获得的属于同一个语义类别的像素点集合，都被转换为了车身坐标系中的三维坐标点集合。

在一实施例中，可找到的语义元素所对应的像素点，都是在图像平面上的二维坐标点(u,v)，其中坐标u为图像水平方向向右的坐标值，v为图像垂直方向向下的坐标值。cx和cy分别为图像中心点到图像左上角的偏移量。fx,fy则为相机成像平面到相机凸透镜的距离，即焦距。相机坐标系为以相机光心为坐标原点，z轴朝前的三维空间坐标系。

相机的内参矩阵则为

利用内参矩阵可以将图像平面上的像素点(u,v)转换为相机坐标系中的点(x,y,1)，其中z轴方向上的值由于图像点只有二维信息，所以无法恢复，所以这里将z设为1。

紧接着，相机的外参矩阵，为从相机坐标系到车体坐标系转换关系，包括了旋转和平移两部分。利用外参矩阵，可以将相机坐标系中的三维坐标点，转换为车体坐标系中的三维空间坐标点。

其中转换后的三维空间坐标点，被投影到了地面平面上，最终得到该像素点在车体坐标系中的三维空间坐标(x,y,0)。将上一步得到的所有的像素点集，都转换一次后，得到所有地面箭头元素的像素点，

在车体坐标系中的三维空间坐标点集。该点集可以被看作为真实世界中的地面箭头的坐标点集。

步骤S330，根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量

在一实施例中，根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量，包括：

对所述协方差矩阵做主成分分析，得到多个特征向量；

在一实施例中，根据车体坐标系中的三维空间坐标点集，首先求出该点集的质心，

接着利用质心与每一个点的距离，求出该点集的协方差P。对该协方差做PCA主成分分析，求出该协方差矩阵的三个特征值λ₁，λ₂，λ₃(λ₁＞λ₂＞λ_S)，以及其对应的三个特征向量v1、v2、v3。其中最大的特征值λ₁所对应的特征向量v1即对应着该点集的主要方向，例如对于地面箭头所对应的点集来说，该特征向量方向就是箭头的实际朝向方向。最后由该点集的质心p以及方向向量v1即组成了该语义元素的矢量化坐标信息。

针对已经被转换为车身坐标系中的属于同一个语义类别的三维点集合，先求出所有点的平均值，也就是该点集的质心。然后根据质心和每个点的差值，得到该点集的三个方向x、y、z方向上的方差，以及相关连的协方差。对协方差做PCA主成分分析，得到最大特征值所对应的特征向量，就是该点集的主要方向，例如箭头的朝向方向，车道线的长轴方向，以及人行道的长轴方向。

最后由计算出的该点集的质心作为该语义元素的坐标，该点集的主要方向，作为该语义元素的方向，即完成了语义元素的矢量化。

由于图像在拍摄过程中可能会有的噪声，或者地面元素没有完全拍进图像，或者神经网络模型识别类型错误，导致的误识别，还需要一些额外的条件进一步剔除一些效果不好的矢量化元素。

在一实施例中，对所述协方差矩阵做主成分分析，得到多个特征向量之后，还包括：

具体地，针对地面箭头，人行道，车道线等语义元素，由于这些元素的长短轴差距较为明显，因此可以判断，如果最后PCA主成分分析得到的最大的和第二大的特征值比例相差不大，则可以判断该语义元素，不能使用，应该剔除。根据上一步求出的三个特征值，比较较大的两个特征值λ₁，λ₂，如果两个特征值的大小相差不大，则判断该点集不属于地面箭头，人行道，车道线等长短轴差异较大的语义元素，应该剔除。

在一实施例中，根据特征值最大的所述特征向量确定所述像素点集合的方向之后，还包括：

具体地，针对地面箭头，人行道，车道线等语义元素，这些元素都包含有较为显著的直线边缘特征，因此可以利用轮廓提取，提取出该语义元素的轮廓直线，如果不存在任何一条轮廓直线与该元素的主要方向平行，则可以判断该语义元素不能使用，应该剔除。经过这两个条件的判断，能够剔除大部分的语义元素的误识别或者部分识别等。利用得到的语义像素点集的位置，找到原始的三通道RGB图像中对应的地面元素的像素点，提取其中的轮廓直线信息，将该轮廓直线也转换到车体坐标系后，比较是否存在某一个轮廓直线与该点集的方向向量平行，如果没有，则判断该地面元素不属于地面箭头、人行道、车道线等有显著直线轮廓的语义元素，应该剔除。

步骤S340，根据所述语义矢量进行路面标识定位，以引导车辆行驶。

在一实施例中，根据所述语义矢量进行路面标识定位之后，包括：

根据所述语义矢量的方向生成语音调用指令；

在一实施例中，得到语义矢量后，若语义矢量为路面箭头，则调用预设语音库中的路面箭头相关的语音导引信息，如“前方右转”、“前方执行”等，可基于语义矢量的方向进行语音匹配调用，具体语音导引信息可根据实际应用需求进行设置，这里不做限制。也可基于语义矢量进行路面标识定位，或者车辆本体定位，确定车辆与路面标识的距离或空间位置关系。

基于以上技术方案，本申请采用的语义元素矢量信息则对光照变化更加鲁棒，提取出的语义元素信息，如地面箭头，人行道等等，在白天黑夜以及下雨天等变化场景下，均能稳定输出同样的结果，极大的扩大了智能驾驶技术的使用范围；提取出了信息高度集中的矢量化信息，能有效节省存储空间，以及节省后端计算时间。

请参阅图5，图5为本申请一实施例中基于视觉语义矢量的车辆导引系统的模块图，该系统包括：分类模块4551，用于获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别；集合划分模块4552，用于根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成；坐标转换模块4553，用于将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值；矢量化模块4554，用于根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量；导引模块4555，用于根据所述语义矢量进行路面标识定位，以引导车辆行驶。

在一实施例中，分类模块4551还用于通过预训练的神经网络对所述道路图像进行分类，得到所述道路图像中每个像素点的像素点类别；根据所述像素点类别的数量生成每个像素点类别的类别编码；根据所述类别编码标识所述道路图像，得到所述道路图像的灰度图作为语义图像，以根据所述语义图像进行点集划分。

在一实施例中，集合划分模块4552还用于根据像素点位置和类别进行点集划分，得到多个像素集合，包括：获取类别相同的所有像素点以及像素点的位置，组成初始集合；从所述初始集合中选出至少一个像素点作为起始点，将所述起始点相邻的像素点放入同一子集合中，继续以所述子集合中像素点为基点进行相邻像素点检索，得到多个子集合，每个子集合作为一个像素点集合。

在一实施例中，集合划分模块4552还用于根据像素点位置和类别进行点集划分，得到多个像素集合之后，包括：获取每个所述像素点集合的质心，并计算各所述质心之间的距离；若所述质心之间的距离小于预设距离阈值，则合并对应的像素点集合。

在一实施例中，坐标转换模块4553还用于将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值，包括：获取拍摄所述道路图像的图像采集设备的内参矩阵和外参矩阵；根据所述内参矩阵将所述像素点集合中各像素点的位置映射到所述图像采集设备的坐标系中，并为每个像素点配置预设的深度值，得到所述图像采集设备的坐标系下的像素点坐标值；根据所述外参矩阵将所述图像采集设备的坐标系下的像素点的坐标值映射到地面坐标系中，得到所述像素点集合中各像素点的三维坐标值。

在一实施例中，矢量化模块4554还用于根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量，包括：根据所述像素点集合中的像素点的三维坐标值，确定所述像素点集合的质心；根据所述像素点集合中各像素点与所述质心的偏移量，确定所述像素点集合的协方差矩阵；对所述协方差矩阵做主成分分析，得到多个特征向量；根据特征值最大的所述特征向量确定所述像素点集合的方向，将所述质心的坐标作为所述语义坐标，结合所述像素点集合的方向，确定所述像素点集合的语义矢量。

在一实施例中，矢量化模块4554还用于对所述协方差矩阵做主成分分析，得到多个特征向量之后，还包括：对各所述特征向量对应的特征值由大到小进行排序，并将排序最前的两个特征值进行比较；若排序最前的两个特征值之差小于预设差值阈值，则将对应的像素点集合剔除。

在一实施例中，矢量化模块4554还用于根据特征值最大的所述特征向量确定所述像素点集合的方向之后，还包括：根据各像素点集合中各像素点的位置确定对应像素点集合的轮廓直线信息；将所述轮廓直线信息与所述像素点集合的方向进行比较，若没有与所述像素点集合的方向平行的轮廓直线信息，则将对应像素点集合剔除。

在一实施例中，导引模块4555还用于根据所述语义矢量进行路面标识定位之后，包括：根据所述语义矢量的方向生成语音调用指令；响应于所述语音调用指令，输出预设语音库中对应的语音信息以引导车辆行驶。

上述基于视觉语义矢量的车辆导引系统可以以一种计算机程序的形式实现，计算机程序可以在如图6所示的计算机设备上运行。计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

上述基于视觉语义矢量的车辆导引系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端的存储器中，也可以以软件形式存储于终端的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。

如图6所示，为一个实施例中计算机设备的内部结构示意图。提供了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别；根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成；将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值；根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量；根据所述语义矢量进行路面标识定位，以引导车辆行驶。

在一实施例中，上述处理器执行时，所实现的对所述道路图像中像素点进行分类，包括：通过预训练的神经网络对所述道路图像进行分类，得到所述道路图像中每个像素点的像素点类别；根据所述像素点类别的数量生成每个像素点类别的类别编码；根据所述类别编码标识所述道路图像，得到所述道路图像的灰度图作为语义图像，以根据所述语义图像进行点集划分。

在一实施例中，上述处理器执行时，所实现的根据像素点位置和类别进行点集划分，得到多个像素集合，包括：获取类别相同的所有像素点以及像素点的位置，组成初始集合；从所述初始集合中选出至少一个像素点作为起始点，将所述起始点相邻的像素点放入同一子集合中，继续以所述子集合中像素点为基点进行相邻像素点检索，得到多个子集合，每个子集合作为一个像素点集合。

在一实施例中，上述处理器执行时，所实现的根据像素点位置和类别进行点集划分，得到多个像素集合之后，包括：获取每个所述像素点集合的质心，并计算各所述质心之间的距离；若所述质心之间的距离小于预设距离阈值，则合并对应的像素点集合。

在一实施例中，上述处理器执行时，所实现的将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值，包括：获取拍摄所述道路图像的图像采集设备的内参矩阵和外参矩阵；根据所述内参矩阵将所述像素点集合中各像素点的位置映射到所述图像采集设备的坐标系中，并为每个像素点配置预设的深度值，得到所述图像采集设备的坐标系下的像素点坐标值；根据所述外参矩阵将所述图像采集设备的坐标系下的像素点的坐标值映射到地面坐标系中，得到所述像素点集合中各像素点的三维坐标值。

在一实施例中，上述处理器执行时，所实现的根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量，包括：根据所述像素点集合中的像素点的三维坐标值，确定所述像素点集合的质心；根据所述像素点集合中各像素点与所述质心的偏移量，确定所述像素点集合的协方差矩阵；对所述协方差矩阵做主成分分析，得到多个特征向量；根据特征值最大的所述特征向量确定所述像素点集合的方向，将所述质心的坐标作为所述语义坐标，结合所述像素点集合的方向，确定所述像素点集合的语义矢量。

在一实施例中，上述处理器执行时，所实现的对所述协方差矩阵做主成分分析，得到多个特征向量之后，还包括：对各所述特征向量对应的特征值由大到小进行排序，并将排序最前的两个特征值进行比较；若排序最前的两个特征值之差小于预设差值阈值，则将对应的像素点集合剔除。

在一实施例中，上述处理器执行时，所实现的根据特征值最大的所述特征向量确定所述像素点集合的方向之后，还包括：根据各像素点集合中各像素点的位置确定对应像素点集合的轮廓直线信息；将所述轮廓直线信息与所述像素点集合的方向进行比较，若没有与所述像素点集合的方向平行的轮廓直线信息，则将对应像素点集合剔除。

在一实施例中，上述处理器执行时，所实现的根据所述语义矢量进行路面标识定位之后，包括：根据所述语义矢量的方向生成语音调用指令；响应于所述语音调用指令，输出预设语音库中对应的语音信息以引导车辆行驶。

在一个实施例中，上述的计算机设备可用作服务器，包括但不限于独立的物理服务器，或者是多个物理服务器构成的服务器集群，该计算机设备还可用作终端，包括但不限手机、平板电脑、个人数字助理或者智能设备等。如图6所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、显示屏和网络接口。

其中，该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。计算机设备的非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以上各个实施例所提供的一种基于视觉语义矢量的车辆导引方法。计算机设备中的内存储器为非易失性存储介质中的操作系统和计算机程序提供高速缓存的运行环境。显示界面可通过显示屏进行数据展示。显示屏可以是触摸屏，比如为电容屏或电子屏，可通过接收作用于该触摸屏上显示的控件的点击操作，生成相应的指令。

本领域技术人员可以理解，图6中示出的计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取道路图像，对所述道路图像中像素点进行分类，得到像素点类别；根据像素点位置和类别进行点集划分，得到多个像素集合，每个像素集合由位置连续且类别相同的像素点组成；将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值；根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量；根据所述语义矢量进行路面标识定位，以引导车辆行驶。

在一实施例中，该计算机程序被处理器执行时，所实现的对所述道路图像中像素点进行分类，包括：通过预训练的神经网络对所述道路图像进行分类，得到所述道路图像中每个像素点的像素点类别；根据所述像素点类别的数量生成每个像素点类别的类别编码；根据所述类别编码标识所述道路图像，得到所述道路图像的灰度图作为语义图像，以根据所述语义图像进行点集划分。

在一实施例中，该计算机程序被处理器执行时，所实现的根据像素点位置和类别进行点集划分，得到多个像素集合，包括：获取类别相同的所有像素点以及像素点的位置，组成初始集合；从所述初始集合中选出至少一个像素点作为起始点，将所述起始点相邻的像素点放入同一子集合中，继续以所述子集合中像素点为基点进行相邻像素点检索，得到多个子集合，每个子集合作为一个像素点集合。

在一实施例中，该计算机程序被处理器执行时，所实现的根据像素点位置和类别进行点集划分，得到多个像素集合之后，包括：获取每个所述像素点集合的质心，并计算各所述质心之间的距离；若所述质心之间的距离小于预设距离阈值，则合并对应的像素点集合。

在一实施例中，该计算机程序被处理器执行时，所实现的将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值，包括：获取拍摄所述道路图像的图像采集设备的内参矩阵和外参矩阵；根据所述内参矩阵将所述像素点集合中各像素点的位置映射到所述图像采集设备的坐标系中，并为每个像素点配置预设的深度值，得到所述图像采集设备的坐标系下的像素点坐标值；根据所述外参矩阵将所述图像采集设备的坐标系下的像素点的坐标值映射到地面坐标系中，得到所述像素点集合中各像素点的三维坐标值。

在一实施例中，该计算机程序被处理器执行时，所实现的根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量，包括：根据所述像素点集合中的像素点的三维坐标值，确定所述像素点集合的质心；根据所述像素点集合中各像素点与所述质心的偏移量，确定所述像素点集合的协方差矩阵；对所述协方差矩阵做主成分分析，得到多个特征向量；根据特征值最大的所述特征向量确定所述像素点集合的方向，将所述质心的坐标作为所述语义坐标，结合所述像素点集合的方向，确定所述像素点集合的语义矢量。

在一实施例中，该指令被处理器执行时，所实现的对所述协方差矩阵做主成分分析，得到多个特征向量之后，还包括：对各所述特征向量对应的特征值由大到小进行排序，并将排序最前的两个特征值进行比较；若排序最前的两个特征值之差小于预设差值阈值，则将对应的像素点集合剔除。

在一实施例中，该指令被处理器执行时，所实现的根据特征值最大的所述特征向量确定所述像素点集合的方向之后，还包括：根据各像素点集合中各像素点的位置确定对应像素点集合的轮廓直线信息；将所述轮廓直线信息与所述像素点集合的方向进行比较，若没有与所述像素点集合的方向平行的轮廓直线信息，则将对应像素点集合剔除。

在一实施例中，该指令被处理器执行时，所实现的根据所述语义矢量进行路面标识定位之后，包括：根据所述语义矢量的方向生成语音调用指令；响应于所述语音调用指令，输出预设语音库中对应的语音信息以引导车辆行驶。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于视觉语义矢量的车辆导引方法，其特征在于，包括：

根据所述语义矢量进行路面标识定位，以引导车辆行驶。

2.根据权利要求1所述的基于视觉语义矢量的车辆导引方法，其特征在于，对所述道路图像中像素点进行分类，包括：

3.根据权利要求1或2所述的基于视觉语义矢量的车辆导引方法，其特征在于，根据像素点位置和类别进行点集划分，得到多个像素集合，包括：

4.根据权利要求3所述的基于视觉语义矢量的车辆导引方法，其特征在于，根据像素点位置和类别进行点集划分，得到多个像素集合之后，包括：

5.根据权利要求1所述的基于视觉语义矢量的车辆导引方法，其特征在于，将各所述像素点集合中的像素点投影到地面坐标系，得到每个像素点集合中像素点的三维坐标值，包括：

6.根据权利要求1所述的基于视觉语义矢量的车辆导引方法，其特征在于，根据各像素点的三维坐标值确定对应像素点集合的语义坐标以及方向作为所述像素点集合的语义矢量，包括：

对所述协方差矩阵做主成分分析，得到多个特征向量；

7.根据权利要求5所述的基于视觉语义矢量的车辆导引方法，其特征在于，对所述协方差矩阵做主成分分析，得到多个特征向量之后，还包括：

8.根据权利要求5所述的基于视觉语义矢量的车辆导引方法，其特征在于，根据特征值最大的所述特征向量确定所述像素点集合的方向之后，还包括：

9.根据权利要求1所述的基于视觉语义矢量的车辆导引方法，其特征在于，根据所述语义矢量进行路面标识定位之后，包括：

根据所述语义矢量的方向生成语音调用指令；

10.一种基于视觉语义矢量的车辆导引系统，其特征在于，包括：

11.一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的基于视觉语义矢量的车辆导引方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的基于视觉语义矢量的车辆导引方法的步骤。