CN117055618A

CN117055618A - 无人机及其控制方法

Info

Publication number: CN117055618A
Application number: CN202311127987.9A
Authority: CN
Inventors: 常志中; 张鹏
Original assignee: Heilongjiang Huida Technology Co ltd
Current assignee: Heilongjiang Huida Technology Co ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-11-14

Abstract

无人机及其控制方法，涉及无人机技术领域，该无人机包括：双目视觉设备和控制设备，控制设备用于确定左目特征图对应的第一立体矩阵和右目特征图对应的第二立体矩阵；确定预设视差基准集合；根据第一立体矩阵、第二立体矩阵和预设视差基准集合，确定n个第三立体矩阵和n个第四立体矩阵，并对其进行相加运算以及卷积处理，确定匹配代价空间；基于上述匹配代价空间，确定第一视差值和第一体素集合；根据第一视差值和第一体素集合，确定第一栅格地图。基于该方案，避免在三维空间中计算双目视觉设备的双目图像的匹配代价，以使得无人机在算力有限的情况下仍能够基于双目视觉设备获取的左右目图像确定栅格地图，并根据栅格地图进行自主飞行。

Description

无人机及其控制方法

技术领域

本申请涉及无人机技术领域，更具体地，涉及无人机及其控制方法。

背景技术

无人机自主飞行是无人机技术领域中的一项关键技术。通常情况下，无人机需要获取环境信息，并基于环境信息构造当前场景的栅格地图，进而基于栅格地图规划飞行路径，以实现稳定安全的自主飞行。

现阶段，环境信息的获取都是基于激光雷达实现的，但鉴于激光雷达的成本较高，所以可以将激光雷达替换为双目视觉设备，并基于双目视觉设备采集的图像，确定用于描述场景环境的栅格地图，进而基于栅格地图规划飞行路径，实现无人机稳定安全的自主飞行。但是，以双目相机为例，在确定栅格地图之前，需要确定双目相机的双目视差，而该双目视差通常采用深度学习的方法计算。但是，考虑到图像景深的因素，所以应当基于三维空间计算双目视差，需要在深度学习算法中引入特殊算子，从而增加了确定栅格地图的复杂度。而通常情况下无人机的载荷相对较大，用于进行数据处理的计算资源有限，所以，现有的控制无人机的方法难以部署于算力有限的无人机之上，从而无法保障无人机自主飞行的安全性。

鉴于此，一种在有限算力的情况下仍能实现安全自主飞行的无人机亟待提出。

发明内容

本申请提供一种无人机及其控制方法，能够基于双目视觉设备的左目图像和右目图像确定相应的栅格地图，并且避免在三维空间中计算双目视觉设备的双目图像的匹配代价，以降低计算开销和复杂度，以使得算力有限的无人机仍能够确定三维空间的栅格地图，进而基于该栅格地图控制无人机安全飞行。

第一方面，提供了一种无人机，包括：双目视觉设备和控制设备；

其中，双目视觉设备用于：拍摄第一左目图像和第一右目图像，并将第一左目图像和第一右目图像发送至控制设备；

控制设备用于：将第一左目图像和第一右目图像输入至第一神经网络模型，输出第一左目特征图和第一右目特征图，该第一左目特征图和该第一右目特征图均包括第一目标特征；确定预设视差基准集合d，该预设视差基准集合d表示如下：d＝{d1…dn}，其中，n为大于1的整数；根据第一左目特征图，确定第一立体矩阵A，第一立体矩阵A表示如下：A＝H1×W1×C1，其中，H1、W1和C1依次对应于第一左目特征图的长度、宽度和颜色通道；根据第一右目特征图，确定第二立体矩阵B，第二立体矩阵B表示如下：B＝H2×W2×C2，其中，H2、W2和C2依次对应于第一右目特征图的长度、宽度和颜色通道；根据第一立体矩阵A和预设视差基准集合d，确定n个第三立体矩阵C，该n个第三立体矩阵C表示如下：C＝H1×(0:W1-di)×C1，i为1至n的整数；根据第二立体矩阵B和预设视差基准集合d，确定n个第四立体矩阵D，该n个第四立体矩阵D表示如下：D＝H2×(di:W2)×C2；将n个第三立体矩阵分别和对应的n个第四立体矩阵进行相加运算，确定n个第五立体矩阵E，该第五立体矩阵E表示如下：E＝H3×W3×C3；根据n个第五立体矩阵E，确定n个第一卷积核，该第一卷积核用于将第五立体矩阵E中的C3对应维数转化为1；基于n个第一卷积核，分别和对应的第五立体矩阵E进行卷积运算，确定n个第六立体矩阵F，该第六立体矩阵F表示如下：F＝H3×W3×1；通过连接操作，以n个第六立体矩阵F的颜色通道为连接接口，将n个第六立体矩阵F相连接，确定第七立体矩阵G，该第七立体矩阵G用于表示第一左目图像和第一右目图像之间的匹配代价空间；将第七立体矩阵G输入至第二神经网络模型，输出第一目标特征图和第一视差值，该第二神经网络模型被配置为：针对第七立体矩阵G进行代价聚合操作，确定第一目标特征图，第一目标特征图的每个像素都分别对应的第一代价值，并根据最小的第一代价值对应的目标像素分别在第一左目图像和第一右目图像的位置，确定第一视差值；将第一目标特征图输入至第三神经网络模型，输出第一体素集合，该第一体素集合对应于第一目标特征所在的空间，包括多个单位体素，且与第一目标特征的点云的信息相关联，点云的信息包括位置信息和语义信息；根据第一视差值和第一体素集合，确定第一栅格地图，该第一栅格地图的栅格与第一体素集合的单位体素一一对应；根据所述第一栅格地图，控制所述无人机飞行。

示例地，在将第一左目图像和第一右目图像输入至第一神经网络模型之前，控制设备还可以对第一左目图像和第一右目图像进行预处理操作，该预处理操作可以包括连读校正、局部邻域预处理等。基于该方案，能够使得第一左目图像和第一右目图像的特征更为明显，以便于第一神经网络模型更为准确地提取特征。

示例地，上述第一神经网络模型可以是一种训练好的专用于数字图像处理的模型，具体用于提取当前图像中的特征，例如，障碍物的边缘特征、颜色特征等。

示例地，上述第三神经网络模型可以包括转换器(transformer)模型，将上述包括匹配代价空间信息的第一目标特征图的各个点与经过位置编码的多个单位体素进行关注(attention)操作，使得第一目标特征图的点云的信息分布在多个单位体素中。

示例地，由于上述第七立体矩阵G是基于n个第六立体矩阵F确定的，所以上述第一体素集合具体可以包括n×n×n单位体素，且每个单位体素在空间中可以呈现为棱长为l的正方体。第一体素集合中的单位体素可以被第一目标特征对应的点云占据，也可以未被占据。对应地，被占据的单位体素就对应于第一目标特征点云的信息，未被占据的单位体素可以被标记为空值(NULL)。

基于上述技术方案，无人机通过控制设备对图像进行处理，在有效避免双目图像前景背景边界处的视差计算误差的同时，还避免了在三维空间中计算双目视觉设备的双目图像的匹配代价，降低确定左右目图像匹配代价空间的算法复杂度，进而降低了计算开销和复杂度，节省无人机控制设备的计算开销，有助于无人机在高载荷状态下，仍能够确定三维空间中的栅格地图，并基于栅格地图控制无人机飞行，提升无人机自主飞行的安全性。

结合第一方面，在第一方面的某些实现方式中，上述控制设备还用于：根据第一损失函数L₁，确定第一视差值对应的第一偏差值，该第一损失函数L₁通过如下公式(1)确定：

其中，N用于表示构成第一目标特征图的像素总数；d_i用于表示N个像素中第i个像素对应的第一视差值；d_i ^*用于表示N个像素中第i个像素对应的真实视差值；

根据第一偏差值，调整第二神经网络模型的模型参数。

基于上述技术方案，能够有效提升第二神经网络模型的准确性和可靠性，从而保障基于第二神经网络模型确定的第一目标特征图和第一视差值的准确性。

结合第一方面，在第一方面的某些实现方式中，上述控制设备还用于：根据第二损失函数L₂，确定第一体素集合对应的第二偏差值，该第二损失函数L₂通过如下公式(2)确定：

其中，M用于表示第一体素集合包括的单位体素总数；y_j用于表示单位体素中第j个体素是否处于第一状态，若处于第一状态，则y_j等于1，若不处于第一状态，则y_j等于0；p_j用于表示预测单位体素中第j个体素处于第一状态的概率，第一状态为单位体素对应于构成第一目标特征的至少一部分点云；

根据第二偏差值，调整第三神经网络模型的模型参数。

基于上述技术方案，能够有效提升第三神经网络模型的准确性和可靠性，从而保障基于第三神经网络模型确定的第一体素集合中单位体素所携带的第一目标特征点云信息的准确性，进而保障了无人机确定栅格地图的准确性，进而保障控制无人机飞行的安全性。

结合第一方面，在第一方面的某些实现方式中，在第三立体矩阵C和第四立体矩阵D的矩阵维数不同时，在上述控制设备将n个第三立体矩阵分别和对应的n个第四立体矩阵进行相加运算之前，上述控制设备还用于：对第三立体矩阵C或第四立体矩阵D进行补零操作，以使得第三立体矩阵C和第四立体矩阵D的矩阵维数相等。

基于上述技术方案，使无人机能够兼容处理第三立体矩阵C和第四立体矩阵D的矩阵维数不同的情况，增加了无人机对于不同场景的适用性。

第二方面，提供了一种无人机确定栅格地图的方法，该方法包括：

获取通过双目视觉设备拍摄的第一左目图像和第一右目图像，该双目视觉设备搭载于无人机；将第一左目图像和第一右目图像输入至第一神经网络模型，输出第一左目特征图和第一右目特征图，其中，第一左目特征图和第一右目特征图均包括第一目标特征；确定预设视差基准集合d，该预设视差基准集合d表示如下：d＝{d1…dn}，其中，n为大于1的整数；根据第一左目特征图，确定第一立体矩阵A，该第一立体矩阵A表示如下：A＝H1×W1×C1，其中，H1、W1和C1依次对应于第一左目特征图的长度、宽度和颜色通道；根据第一右目特征图，确定第二立体矩阵B，该第二立体矩阵B表示如下：B＝H2×W2×C2，其中，H2、W2和C2依次对应于第一右目特征图的长度、宽度和颜色通道；根据第一立体矩阵A和预设视差基准集合d，确定n个第三立体矩阵C，该n个第三立体矩阵C表示如下：C＝H1×(0:W1-di)×C1，i为1至n的整数；根据第二立体矩阵B和预设视差基准集合d，确定n个第四立体矩阵D，该n个第四立体矩阵D表示如下：D＝H2×(di:W2)×C2；将n个第三立体矩阵分别和对应的n个第四立体矩阵进行相加运算，确定n个第五立体矩阵E，该第五立体矩阵E表示如下：E＝H3×W3×C3；根据n个第五立体矩阵E，确定n个第一卷积核，第一卷积核用于将第五立体矩阵E中的C3对应维数转化为1；基于n个第一卷积核，分别和对应的第五立体矩阵E进行卷积运算，确定n个第六立体矩阵F，该第六立体矩阵F表示如下：F＝H3×W3×1；通过连接操作，以n个第六立体矩阵F的颜色通道为连接接口，将n个第六立体矩阵F相连接，确定第七立体矩阵G，该第七立体矩阵G用于表示第一左目图像和第一右目图像之间的匹配代价空间；将第七立体矩阵G输入至第二神经网络模型，输出第一目标特征图和第一左目图像与第一右目图像之间的第一视差值，第二神经网络模型被配置为针对第七立体矩阵G进行代价聚合操作，确定第一目标特征图，该第一目标特征图的每个像素都分别对应的第一代价值，并根据最小的第一代价值对应的目标像素分别在第一左目图像和第一右目图像的位置，确定第一视差值；将第一目标特征图输入至第三神经网络模型，输出第一体素集合，该第一体素集合对应于上述第一目标特征所在的空间，包括多个单位体素，且与上述第一目标特征的点云的信息相关联，点云的信息包括位置信息和语义信息；根据第一视差值和第一体素集合，确定第一栅格地图，该第一栅格地图的栅格与第一体素集合的单位体素一一对应；根据该第一栅格地图，控制无人机飞行。

结合第二方面，在第二方面的某些实现方式中，根据第一损失函数L₁，确定第一视差值对应的第一偏差值，该第一损失函数L₁通过如下公式(3)确定：

根据第一偏差值，调整第二神经网络模型的模型参数。

结合第二方面，在第二方面的某些实现方式中，根据第二损失函数L₂，确定第一体素集合对应的第二偏差值，该第二损失函数L₂通过如下公式(4)确定：

根据第二偏差值，调整第三神经网络模型的模型参数。

结合第二方面，在第二方面的某些实现方式中，在上述第三立体矩阵C和上述第四立体矩阵D的矩阵维数不同时，在将n个第三立体矩阵分别和对应的n个第四立体矩阵进行相加运算之前，对第三立体矩阵C或第四立体矩阵D进行补零操作，以使得第三立体矩阵C和第四立体矩阵D的矩阵维数相等。

第三方面，提供了一种确定栅格地图的装置，包括控制设备和存储器，其中，控制设备和存储器相连，其中，存储器用于存储程序代码，控制设备用于调用程序代码，以执行上述第二方面的方法设计中任意一种可能的实现方式中的方法。

第四方面，提供了一种芯片系统，芯片系统应用于电子设备；芯片系统包括一个或多个接口电路，以及一个或多个控制设备；接口电路和控制设备通过线路互联；接口电路用于从电子设备的存储器回波信号，并向控制设备发送信号，信号包括存储器中存储的计算机指令；当控制设备执行计算机指令时，电子设备执行上述第二方面的方法设计中任意一种可能的实现方式中的方法。

第五方面，提供了一种计算机可读存储介质，存储有计算机指令，该计算机指令被控制设备执行以实现第二方面的方法设计中任意一种可能的实现方式中的方法。

第六方面，提供了一种计算机程序产品，该计算机程序代码或指令在计算机上执行时，使得计算机执行上述第二方面的方法设计中任意一种可能的实现方式中的方法。

附图说明

图1是一种基于双目视觉设备生成栅格地图的方法100示意性框图。

图2是本申请实施例提供的一种确定栅格地图的系统200的示意性框图。

图3是本申请实施例提供的一种无人机300的示意性框图。

图4是本申请实施例提供的一种无人机控制方法400的流程图。

图5是本申请实施例提供的一种控制无人机的方法400对应的示意性框图。

图6是本申请实施例提出的一种双目图像处理的示意图。

图7是本申请实施例提出的一种优化第二神经网络模型的方法700的流程图。

图8是本申请实施例提出的一种优化第三神经网络模型的方法800的流程图。

具体实施方式

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

本申请实施例中采用诸如“第一”、“第二”的前缀词，仅仅为了区分不同的描述对象，对被描述对象的位置、顺序、优先级、数量或内容等没有限定作用。本申请实施例中对序数词等用于区分描述对象的前缀词的使用不对所描述对象构成限制，对所描述对象的陈述参见权利要求或实施例中上下文的描述，不应因为使用这种前缀词而构成多余的限制。

下面将结合附图，对本申请实施例中的技术方案进行描述。

随着双目视觉的相关技术的发展，双目视觉设备开始能够应用于环境感知技术领域，并且相比于激光雷达，双目视觉设备成本较低、功率较低，运行速度较快，并且能够提高分辨率，容易获取到高密度的深度图和点云数据。可见，双目视觉设备的适用性更广，更易于普及。

参考图1可知，目前基于双目视觉设备环境感知的流程一般包括以下三个步骤：

S110：基于双目视觉设备获取的左目图像和右目图像，计算双目视差。

S120：根据双目视差和双目视觉设备的内外参数，计算场景中的点云。

S130：对点云进行抽稀操作，生成栅格地图。

应理解，上述生成的栅格地图就是环境感知的结果，该栅格地图包括了场景中可经过的路径以及障碍物等信息。

其中，双目视差计算通常采用基于深度学习的方法进行计算，由于该深度学习的方法计算视差是基于二维图像的，在前景和背景的边界处的视差计算会出现问题。现阶段虽然提出了将双目视差计算、视差计算点云和基于点云生成栅格的计算工作通过一个神经网络实现，从而利用三维的信息来缓解前景背景边界处的视差计算误差。但这类算法的复杂度较高，并且需要引入特殊算子，能够部署该方法的平台有限，例如无人机平台，由于无人机在执行相应的飞行任务的同时，还需要控制双目视觉设备进行拍摄，自身载荷较高，所以能够用于图像处理的计算资源有限，所以上述方法是难以部署于无人机之上的，所以缺少栅格地图辅助的无人机，难以实现无人机自主飞行的安全性。

应理解，无人机自主飞行指的是在没有其他外部服务器或者外部控制器辅助的情况下，基于无人机自身搭载的各种设备，实现独立自主的飞行控制。

鉴于此，本申请提出了一种无人机及其控制方法，能够将基于三维空间计算视差的过程转化为二维空间运算，以确定双目视差，并且基于二维空间运算的结果，将其应用至三维空间进行运算，以确定三维空间中的点云信息，进而基于上述双目视差和点云信息，确定栅格地图，使得无人机在算力有限的条件下，仍可以确定栅格地图，并基于该栅格地图，控制无人机飞行。

该系统200可以应用于无人机。

在一些可能的实施例中，上述系统200包括：双目视觉设备210、计算平台220、输出设备230和控制平台240。这些设备可以通过无线网络建立连接，以实现设备之间的数据交互。

其中，双目视觉设备210可以是双目相机，也可以是双目摄像机，本申请对此不做限定。该双目视觉设备210用于采集当前空间场景的图像，输出图像包括：左目图像和右目图像，并将左目图像和右目图像发送至计算平台220。

计算平台220可以是计算机设备，也可以是服务器，还可以是一种云端服务器。该计算平台220用于基于本申请提出的控制无人机的方法，针对接收到的左目图像和右目图像进行图像处理，并且确定对应的双目视差和点云信息，最终确定栅格地图，并且将栅格地图发送至输出设备230。

输出设备230可以是一种显示屏，用于将栅格地图进行展示，或者是一种中继设备，用于将栅格地图转发至其他服务器，以使得其他服务器基于该栅格地图执行相应的下游操作，例如路径规划、控制决策等。

控制平台240可以部署于服务器中，用于控制上述双目视觉设备210、计算平台220和输出设备230执行相应的动作，并接收各个设备在执行相应动作后的反馈信号。

应理解，上述系统虽然可以控制无人机在一定空间内实现稳定安全飞行，但是各个部件需要通过无线网络建立连接，无人机只能在网络覆盖范围内进行飞行，无法实现实质上的自主飞行。鉴于此，本申请实施例提出了一种无人机300，该无人机300能够实现安全稳定的自主飞行。图3是本申请实施例提供的一种无人机300的示意性框图。

该无人机300包括：双目视觉设备310和控制设备320；

其中，双目视觉设备310用于：

拍摄第一左目图像和第一右目图像，并将第一左目图像和第一右目图像发送至控制设备320。

应理解，上述第一左目图像和第一右目图像是针对于同一个空间中，针对同一个基准方位点拍摄的，所以这两张图像中均应当包括同一目标物体。

上述控制设备320用于：

将第一左目图像和第一右目图像输入至第一神经网络模型，输出第一左目特征图和第一右目特征图，其中，第一左目特征图和第一右目特征图均包括第一目标特征；

确定预设视差基准集合d，该预设视差基准集合d表示如下：d＝{d1…dn}，其中，n为大于1的整数；

根据第一左目特征图，确定第一立体矩阵A，该第一立体矩阵A表示如下：A＝H1×W1×C1，其中，H1、W1和C1依次对应于第一左目特征图的长度、宽度和颜色通道；

根据第一右目特征图，确定第二立体矩阵B，该第二立体矩阵B表示如下：B＝H2×W2×C2，其中，H2、W2和C2依次对应于第一右目特征图的长度、宽度和颜色通道；

根据第一立体矩阵A和预设视差基准集合d，确定n个第三立体矩阵C，该n个第三立体矩阵C表示如下：C＝H1×(0:W1-di)×C1，i为1至n的整数；

根据第二立体矩阵B和预设视差基准集合d，确定n个第四立体矩阵D，该n个第四立体矩阵D表示如下：D＝H2×(di:W2)×C2；

将n个第三立体矩阵分别和对应的n个第四立体矩阵进行相加运算，确定n个第五立体矩阵E，该第五立体矩阵E表示如下：E＝H3×W3×C3；

根据n个第五立体矩阵E，确定n个第一卷积核，第一卷积核用于将第五立体矩阵E中的C3对应维数转化为1；

基于n个第一卷积核，分别和对应的第五立体矩阵E进行卷积运算，确定n个第六立体矩阵F，该第六立体矩阵F表示如下：F＝H3×W3×1；

通过连接操作，以n个第六立体矩阵F的颜色通道为连接接口，将n个第六立体矩阵F相连接，确定第七立体矩阵G，该第七立体矩阵G用于表示第一左目图像和第一右目图像之间的匹配代价空间；

将第七立体矩阵G输入至第二神经网络模型，输出第一目标特征图和第一左目图像与第一右目图像之间的第一视差值，第二神经网络模型被配置为针对第七立体矩阵G进行代价聚合操作，确定第一目标特征图，该第一目标特征图的每个像素都分别对应的第一代价值，并根据最小的第一代价值对应的目标像素分别在第一左目图像和第一右目图像的位置，确定第一视差值；

将第一目标特征图输入至第三神经网络模型，输出第一体素集合，该第一体素集合对应于上述第一目标特征所在的空间，包括多个单位体素，且与上述第一目标特征的点云的信息相关联，点云的信息包括位置信息和语义信息；

根据第一视差值和第一体素集合，确定第一栅格地图，该第一栅格地图的栅格与第一体素集合的单位体素一一对应；

根据上述第一栅格地图，控制无人机飞行。

在一些可能的实施例中，上述控制设备320具体用于：根据第一栅格地图，确定安全区域，该安全区域对应的空间中存在静态障碍物或者不存在障碍物；根据安全区域，规划第一飞行路径；根据第一飞行路径，确定第一控制策略；根据该第一控制策略，控制无人机飞行。

基于上述技术方案，无人机通过控制设备对图像进行处理，在有效避免双目图像前景背景边界处的视差计算误差的同时，还避免了在三维空间中计算双目视觉设备的双目图像的匹配代价，降低确定左右目图像匹配代价空间的算法复杂度，进而降低了计算开销和复杂度，节省无人机控制设备的计算开销，有助于无人机在高载荷状态下，仍能够确定三维空间中的栅格地图，并且基于栅格地图控制无人机飞行。

在一些可能的实施例中，上述控制设备320还用于：

根据第一损失函数L₁，确定第一视差值对应的第一偏差值，该第一损失函数L₁通过如下公式(1)确定：

根据第一偏差值，调整第二神经网络模型的模型参数。

在一些可能的实施例中，上述控制设备320还用于：

根据第二损失函数L₂，确定第一体素集合对应的第二偏差值，该第二损失函数L₂通过如下公式(2)确定：

根据第二偏差值，调整第三神经网络模型的模型参数。

在一些可能的实施例中，在上述第三立体矩阵C和上述第四立体矩阵D的矩阵维数不同时，在上述控制设备320将n个第三立体矩阵分别和对应的n个第四立体矩阵进行相加运算之前，上述控制设备320还用于：

对第三立体矩阵C或第四立体矩阵D进行补零操作，以使得第三立体矩阵C和第四立体矩阵D的矩阵维数相等。

此外，本申请实施例还提供与上述无人机300相适应的方法。该方法下的任一实施例方案都可以应用于上述无人机300。

图4是本申请实施例提供的一种控制无人机的方法400的流程图；对应地，图5是本申请实施例提供的一种控制无人机的方法400对应的示意性框图。

S410：获取通过双目视觉设备拍摄的第一左目图像和第一右目图像。

其中，双目视觉设备搭载于无人机。

S415：将第一左目图像和第一右目图像输入至第一神经网络模型，输出第一左目特征图和第一右目特征图。

其中，第一左目特征图和第一右目特征图均包括第一目标特征。该第一目标特征可以包括具体障碍物的特征，也可以包括非障碍物的特征。应理解，虽然第一左目特征图和第一右目特征图均包括第一目标特征，但是该第一目标特征分别在上述第一左目特征图和第一右目特征图中呈现的形式有所差异，至少存在视差。

在一些可能的实施例中，在将第一左目图像和第一右目图像输入至第一神经网络模型之前，还可以对第一左目图像和第一右目图像进行预处理操作，该预处理操作可以包括连读校正、局部邻域预处理等。基于该方案，能够使得第一左目图像和第一右目图像的特征更为明显，以便于第一神经网络模型更为准确地提取特征。

在一些可能的实施例中，上述第一神经网络模型可以是一种训练好的专用于数字图像处理的模型，具体用于提取当前图像中的特征，例如，障碍物的边缘特征、颜色特征等。

由于本申请实施例提出的控制无人机的方法中，仍然在二维空间中确定左右目图像间的视差，所以需要通过如下方法确定对应的匹配代价空间：

S420：确定预设视差基准集合d，预设视差基准集合d表示如下：d＝{d1…dn}。

其中，n为大于1的整数。

在一些可能的实施例中，上述预设视差基准集合d可以根据双目视觉设备的两个摄像头的部署位置关系确定。

S425：根据第一左目特征图，确定第一立体矩阵A。

S430：根据第一右目特征图，确定第二立体矩阵B。

其中，第一立体矩阵A表示如下：A＝H1×W1×C1；二立体矩阵B表示如下：B＝H2×W2×C2；H1、W1和C1依次对应于第一左目特征图的长度、宽度和颜色通道；H2、W2和C2依次对应于第一右目特征图的长度、宽度和颜色通道。

应理解，立体矩阵H×W×C是一种存放图像的形式，图像中每个像素的像素值都可以基于立体矩阵来表示。该立体矩阵的行数可以用于表示图像的长度。该立体矩阵的列数可以用于表示图像的宽度。其中，图像的具体长度值或者宽度值需要根据上述H或者W并结合像素的几何参数来确定。该立体矩阵通常是由多个二维矩阵叠加而成，所以叠加二维矩阵的数量可以用于表示图像的颜色通道，以三原色(red-green-blue，RGB)相机为例，RGB相机获取的图像对应于立体矩阵的颜色通道数就为3。而立体矩阵每个元素所对应的具体值，可以用于表示图像该像素位置对应的颜色通道的具体颜色值。

S435：根据第一立体矩阵A和预设视差基准集合d，确定n个第三立体矩阵C。

S440：根据第二立体矩阵B和预设视差基准集合d，确定n个第四立体矩阵D。

其中，n个第三立体矩阵C表示如下：C＝H1×(0:W1-di)×C1；n个第四立体矩阵D表示如下：D＝H2×(di:W2)×C2；i为1至n的整数。

S445：将n个第三立体矩阵分别和对应的n个第四立体矩阵进行相加运算，确定n个第五立体矩阵E。

其中，第五立体矩阵E表示如下：E＝H3×W3×C3。

应理解，由于第一左目特征图和第一右目特征图对于相同的目标点，在各自的图像位置是不同的，这也是造成图像景深误差的原因，也是现有的确定栅格地图方法中，需要在三维空间中基于左右目图像确定双目视差的原因。

图6是本申请实施例提出的一种双目图像处理的示意图。

参考图6可知，在本申请实施例中，通过S445的操作，能够将第一左目特征图和第一右目特征图在三维空间中，以相同目标特征的位置为基准进行叠加。例如，图6中的第一左目特征点和第一右目特征点，将这两个特征点在纵向空间上对齐，从而为后续在二维空间确定第一左目特征图和第一右目特征图之间的匹配代价空间提供前提条件。

S450：根据n个第五立体矩阵E，确定n个第一卷积核。

其中，第一卷积核用于将第五立体矩阵E中的C3对应维数转化为1。由于已知第一卷积核的目标作用，也已知每个第五立体矩阵E的具体形式，所以能够反推得到第一卷积核的具体形式。

S455：基于n个第一卷积核，分别和对应的第五立体矩阵E进行卷积运算，确定n个第六立体矩阵F。

其中，第六立体矩阵F表示如下：F＝H3×W3×1。

S460：通过连接操作，以n个第六立体矩阵F的颜色通道为连接接口，将n个第六立体矩阵F相连接，确定第七立体矩阵G。

其中，第七立体矩阵G用于表示第一左目图像和第一右目图像之间的匹配代价空间。

S465：将所述第七立体矩阵G输入至第二神经网络模型，输出第一目标特征图和第一左目图像与第一右目图像之间的第一视差值。

其中，第二神经网络模型被配置为针对第七立体矩阵G进行代价聚合操作，确定第一目标特征图，该第一目标特征图的每个像素都分别对应的第一代价值，并根据最小的第一代价值对应的目标像素分别在第一左目图像和第一右目图像的位置，确定第一视差值。

S470：将第一目标特征图输入至第三神经网络模型，输出第一体素集合。

其中，第一体素集合对应于上述第一目标特征所在的空间，包括多个单位体素，且与上述第一目标特征的点云的信息相关联，点云的信息包括位置信息和语义信息。

应理解，第一目标特征图中，目标特征位于一个空间当中，而该空间可以通过一个包括多个单位体素的第一体素集合来表示，而目标特征对应的点云位置就分布于第一体素集合的至少一个单位体素当中。

在一些可能的实施例中，上述第三神经网络模型可以包括transformer模型，将上述包括匹配代价空间信息的第一目标特征图的各个点与经过位置编码的多个单位体素进行attention操作，使得第一目标特征图的点云的信息分布在多个单位体素中。

在一些可能的实施例中，由于上述第七立体矩阵G是基于n个第六立体矩阵F确定的，所以上述第一体素集合具体可以包括n×n×n单位体素，且每个单位体素在空间中可以呈现为棱长为l的正方体。第一体素集合中的单位体素可以被第一目标特征对应的点云占据，也可以未被占据。对应地，被占据的单位体素就对应于第一目标特征点云的信息，未被占据的单位体素可以被标记为空值(NULL)。

S475:根据第一视差值和第一体素集合，确定第一栅格地图，该第一栅格地图的栅格与第一体素集合的单位体素一一对应。

S480：根据上述第一栅格地图，控制上述无人机飞行。

在一些可能的实施例中，该确定第一栅格地图之后，可以根据第一栅格地图，生成相应的控制策略，该控制策略包括此后第一时段内各个时刻的飞行控制量，该飞行控制量用于控制无人机的飞行路径和飞行速度。

在一些可能的实施例中，上述方法400还可以部署于嵌入式平台的神经网络处理单元(neural network processing unit，NPU)中，而该嵌入式平台可以搭载于无人机。

基于上述技术方案，能够有效避免双目图像前景背景边界处的视差计算误差的同时，还有效降低了基于双目视觉设备生成栅格地图过程中，确定左右目图像匹配代价空间的算法复杂度，从而降低了系统整体的计算开销，使得该方法能够直接部署在算力有限的无人机之上，使无人机能够确定其所在空间的栅格地图，并根据栅格地图控制无人机飞行。

S710：根据第一损失函数L₁，确定第一视差值对应的第一偏差值。

其中，上述第一损失函数L₁通过如下公式(3)确定：

其中，N用于表示构成第一目标特征图的像素总数；di用于表示N个像素中第i个像素对应的第一视差值；di*用于表示N个像素中第i个像素对应的真实视差值。

S720：根据第一偏差值，调整第二神经网络模型的模型参数。

应理解，通过实验或者实际应用中反复执行上述S710和S720，进而反复调整第二神经网络模型的模型参数，尽可能使上述第一损失函数的输出值最小，从而能够有效增加第二神经网络模型的准确性和可靠性。

S810：根据第二损失函数L₂，确定第一体素集合对应的第二偏差值。

其中，上述第二损失函数L₂通过如下公式(4)确定：

其中，M用于表示第一体素集合包括的单位体素总数；yj用于表示单位体素中第j个体素是否处于第一状态，若处于第一状态，则yj等于1，若不处于第一状态，则yj等于0；pj用于表示预测单位体素中第j个体素处于第一状态的概率，第一状态为单位体素对应于构成第一目标特征的至少一部分点云。

S820：根据第二偏差值，调整第三神经网络模型的模型参数。

应理解，通过实验或者实际应用中反复执行上述S810和S820，进而反复调整第三神经网络模型的模型参数，尽可能使上述第二损失函数的输出值最小，从而能够有效增加第三神经网络模型的准确性和可靠性。

基于上述技术方案，能够有效提升第三神经网络模型的准确性和可靠性，从而保障基于第三神经网络模型确定的第一体素集合中单位体素所携带的第一目标特征点云信息的准确性，进而保障了后续确定栅格地图的准确性，进而保障控制无人机飞行的安全性。

在一些可能的实施例中，在上述第三立体矩阵C和上述第四立体矩阵D的矩阵维数不同时，在上述S445之前，可以对第三立体矩阵C或第四立体矩阵D进行补零操作，以使得第三立体矩阵C和第四立体矩阵D的矩阵维数相等。

基于上述技术方案，使上述方法能够兼容第三立体矩阵C和第四立体矩阵D的矩阵维数不同的情况，增加了确定栅格地图的适用性。

在一些可能的实施例中，在上述第一损失函数或上述第二损失函数的输出无法收敛的情况下，可以相应地降低上述第二神经网络模型或上述第三神经网络模型的学习率，以避免因神经网络模型的学习率过高而造成损失函数无法收敛，并且相应地降低单次传递给神经网络模型用以训练的样本个数。

基于上述技术方案，基于第一损失函数或第二损失函数的输出，相应地控制第二神经网络模型或第三神经网络模型的训练过程，使得上述第二神经网络模型或第三神经网络模型能够在损失函数无法收敛的情况下，自行调整训练策略，增加了模型的可靠性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的多个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种无人机，其特征在于，包括：双目视觉设备和控制设备；

所述双目视觉设备用于：

拍摄第一左目图像和第一右目图像，并将所述第一左目图像和所述第一右目图像发送至所述控制设备；

所述控制设备用于：

将所述第一左目图像和所述第一右目图像输入至第一神经网络模型，输出第一左目特征图和第一右目特征图，所述第一左目特征图和所述第一右目特征图均包括第一目标特征；

确定预设视差基准集合d，所述预设视差基准集合d表示如下：d＝{d1…dn}，其中，所述n为大于1的整数；

根据所述第一左目特征图，确定第一立体矩阵A，所述第一立体矩阵A表示如下：A＝H1×W1×C1，其中，所述H1、W1和C1依次对应于所述第一左目特征图的长度、宽度和颜色通道；

根据所述第一右目特征图，确定第二立体矩阵B，所述第二立体矩阵B表示如下：B＝H2×W2×C2，其中，所述H2、W2和C2依次对应于所述第一右目特征图的长度、宽度和颜色通道；

根据所述第一立体矩阵A和所述预设视差基准集合d，确定n个第三立体矩阵C，所述n个第三立体矩阵C表示如下：C＝H1×(0:W1-di)×C1，所述i为1至n的整数；

根据所述第二立体矩阵B和所述预设视差基准集合d，确定n个第四立体矩阵D，所述n个第四立体矩阵D表示如下：D＝H2×(di:W2)×C2；

将所述n个第三立体矩阵分别和对应的所述n个第四立体矩阵进行相加运算，确定n个第五立体矩阵E，所述第五立体矩阵E表示如下：E＝H3×W3×C3；

根据所述n个第五立体矩阵E，确定n个第一卷积核，所述第一卷积核用于将所述第五立体矩阵E中的C3对应维数转化为1；

基于所述n个第一卷积核，分别和对应的所述第五立体矩阵E进行卷积运算，确定n个第六立体矩阵F，所述第六立体矩阵F表示如下：F＝H3×W3×1；

通过连接操作，以所述n个第六立体矩阵F的颜色通道为连接接口，将所述n个第六立体矩阵F相连接，确定第七立体矩阵G，所述第七立体矩阵G用于表示所述第一左目图像和所述第一右目图像之间的匹配代价空间；

将所述第七立体矩阵G输入至第二神经网络模型，输出第一目标特征图和第一视差值，所述第二神经网络模型被配置为：针对所述第七立体矩阵G进行代价聚合操作，确定所述第一目标特征图，所述第一目标特征图的每个像素都分别对应的第一代价值，并根据最小的所述第一代价值对应的目标像素分别在所述第一左目图像和所述第一右目图像的位置，确定所述第一视差值；

将所述第一目标特征图输入至第三神经网络模型，输出第一体素集合，所述第一体素集合对应于所述第一目标特征所在的空间，包括多个单位体素，且与所述第一目标特征的点云的信息相关联，所述点云的信息包括位置信息和语义信息；

根据所述第一视差值和所述第一体素集合，确定第一栅格地图，所述第一栅格地图的栅格与所述第一体素集合的单位体素一一对应；

根据所述第一栅格地图，控制所述无人机飞行。

2.根据权利要求1所述的无人机，其特征在于，所述控制设备还用于：

根据第一损失函数L₁，确定所述第一视差值对应的第一偏差值，所述第一损失函数L₁通过如下公式(1)确定：

其中，所述N用于表示构成所述第一目标特征图的像素总数；所述d_i用于表示所述N个像素中第i个像素对应的第一视差值；所述d_i ^*用于表示所述N个像素中第i个像素对应的真实视差值；

根据所述第一偏差值，调整所述第二神经网络模型的模型参数。

3.根据权利要求1或2所述的无人机，其特征在于，所述控制设备还用于：

根据第二损失函数L₂，确定所述第一体素集合对应的第二偏差值，所述第二损失函数L₂通过如下公式(2)确定：

其中，所述M用于表示所述第一体素集合包括的单位体素总数；所述y_j用于表示所述单位体素中第j个体素是否处于第一状态，若处于所述第一状态，则所述y_j等于1，若不处于所述第一状态，则所述y_j等于0；所述p_j用于表示预测所述单位体素中第j个体素处于所述第一状态的概率，所述第一状态为所述单位体素对应于构成所述第一目标特征的至少一部分点云；

根据所述第二偏差值，调整所述第三神经网络模型的模型参数。

4.根据权利要求3所述的无人机，其特征在于，在所述第三立体矩阵C和所述第四立体矩阵D的矩阵维数不同时，在所述控制设备将所述n个第三立体矩阵分别和对应的所述n个第四立体矩阵进行相加运算之前，所述控制设备还用于：

对所述第三立体矩阵C或所述第四立体矩阵D进行补零操作，以使得所述第三立体矩阵C和所述第四立体矩阵D的矩阵维数相等。

5.一种无人机控制方法，其特征在于，所述方法包括：

获取通过双目视觉设备拍摄的第一左目图像和第一右目图像，所述双目视觉设备搭载于无人机之上；

将所述第七立体矩阵G输入至第二神经网络模型，输出第一目标特征图和所述第一左目图像与所述第一右目图像之间的第一视差值，所述第二神经网络模型被配置为针对所述第七立体矩阵G进行代价聚合操作，确定所述第一目标特征图，所述第一目标特征图的每个像素都分别对应的第一代价值，并根据最小的所述第一代价值对应的目标像素分别在所述第一左目图像和所述第一右目图像的位置，确定所述第一视差值；

根据所述第一栅格地图，控制所述无人机飞行。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据第一损失函数L₁，确定所述第一视差值对应的第一偏差值，所述第一损失函数L₁通过如下公式(3)确定：

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

根据第二损失函数L₂，确定所述第一体素集合对应的第二偏差值，所述第二损失函数L₂通过如下公式(4)确定：

8.根据权利要求7所述的方法，其特征在于，在所述第三立体矩阵C和所述第四立体矩阵D的矩阵维数不同时，在所述将所述n个第三立体矩阵分别和对应的所述n个第四立体矩阵进行相加运算之前，所述方法还包括：

9.一种芯片系统，其特征在于，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个控制设备；所述接口电路和所述控制设备通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述控制设备发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述控制设备执行所述计算机指令时，所述电子设备执行如权利要求5至8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被控制设备执行以实现如权利要求5至8中任一项所述的方法。