CN108197698A

CN108197698A - 基于多模态融合的多脑区协同自主决策方法

Info

Publication number: CN108197698A
Application number: CN201711325022.5A
Authority: CN
Inventors: 赵菲菲; 梁倩; 王桂香; 曾毅
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-06-22
Anticipated expiration: 2037-12-13
Also published as: CN108197698B

Abstract

本发明属于认知神经技术领域，具体涉及一种基于多模态融合的多脑区协同自主决策方法。旨在解决现有无人机避障技术成本较高、不够机动灵活以及现有的强化学习方法要求控制对象具有强烈的容错能力的问题。本发明提供一种基于多模态融合的多脑区协同自主决策方法，包括获取障碍物的空间位置信息，将其输入预先构建的多脑区协同强化学习模型；根据环境反馈的奖励信息，通过多巴胺调控和突触可塑性机制，更新所述多脑区协同强化学习模型，实现无人机自主避障。本发明能够准确地评估场景中障碍物的危险程度，并且模拟人脑自主学习过程，让无人机快速准确地学习到避障策略，实现自主躲避障碍物，完成任务。

Description

基于多模态融合的多脑区协同自主决策方法

技术领域

本发明属于认知神经技术领域，具体涉及一种基于多模态融合的多脑区协同自主决策方法。

背景技术

随着无人机技术的发展，无人机因其实用性广泛应用于多个技术领域，无人机的主动安全性是其得以在真实场景中安全应用的基本。无人机的主动安全性是指其能够精确地感知障碍物并且自主地避开障碍物。现有的无人机避障技术中，主要包括红外和激光测距实现无人机避障，但是红外和激光容易受到外界环境的影响和干扰，导致距离测量不准，容易造成安全事故。此外，现有的无人机避障技术一般依赖于三维地图、双目摄像机或者其他高精度设备等实现，成本较高且不够机动灵活。

此外，对于现有的无人机避障强化学习决策，现有的强化学习方法主要包括：

传统强化学习方法：通过Q-learning、Actor-Critic算法解决离散的强化学习问题，适用于简单的强化学习问题，并且要求状态之间通过一步行为进行切换；

深度强化学习方法：通过结合深度神经网络和 Q-learning算法，基于梯度下降方法优化神经网络，其中深度神经网络能够抽象表达高维的输入信息，并且不需要进行状态划分，适用于具有大量数据信息的情况，但是计算需要花费较多时间；

层次强化学习方法：通过集成不同的行为到子路线中，每个子路线都是强化学习的一个特殊情况，适用于解决复杂的规划问题，并且要求控制对象尽可能经历所有可能的情况。

现有的强化学习方法均需要控制对象具有强烈的容错能力，可以多次尝试错误的结果，并且不断地调整策略，要求每次执行行为、输入的状态要有明显的不同。而对于实际应用中的无人机，不可能经历所有的状态空间，而且为了确保其安全性，必须快速准确地学习到正确的策略。

因此，如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有无人机避障技术成本较高、不够机动灵活以及现有的强化学习方法要求控制对象具有强烈的容错能力的问题，本发明提供了一种基于多模态融合的多脑区协同自主决策方法，所述方法包括：

通过超声波传感器和双目摄像头获取障碍物的空间位置信息，将其输入预先构建的多脑区协同强化学习模型；

基于所述障碍物的空间位置信息，使用尖峰时序神经网络构建多脑区协同强化学习模型；

根据环境反馈的奖励信息，通过多巴胺调控和突触可塑性机制，更新所述多脑区协同强化学习模型，实现无人机自主避障。

在上述方法的优选技术方案中，“获取障碍物的空间位置信息”，其方法为：

通过所述无人机搭载的超声波传感器获取所述无人机与所述障碍物的距离信息；

通过所述无人机搭载的双目摄像头获取所述障碍物的图像信息，根据所述障碍物的图像信息获取所述障碍物的深度信息；

将所述距离信息与所述深度信息进行融合，得到所述障碍物的空间位置信息。

在上述方法的优选技术方案中，所述多脑区协同强化学习模型包括：

尖峰时序神经网络模块，所述尖峰时序神经网络模块被配置为通过突触可塑性机制判断突触前发送脉冲和突触后神经元发放脉冲的时间差，根据判断结果更新突触强度，实现所述多脑区协同强化学习模型的更新学习；

神经簇模块，所述神经簇模块被配置为通过发送脉冲的方式将信息输入至突触后神经元，模拟人脑中的脑区；

多个神经簇模块按照人脑脑区的连接方式进行连接。

在上述方法的优选技术方案中，“根据判断结果更新突触强度”，其方法为按照下式所述的方法计算：

其中，A₊、A_-均表示学习率，τ₊，τ_-均表示时间常量，Δt_i表示突触前到突触后发放spike的时间延迟。

在上述方法的优选技术方案中，“根据环境反馈的奖励信息，通过多巴胺调控和突触可塑性机制，更新所述多脑区协同强化学习模型，实现无人机自主避障。”，其方法为：

所述多巴胺和突触可塑性机制通过调控所述多脑区协同强化学习模型的PFC-StrD1和PFC-StrD2的连接权重，更新所述多脑区协同强化学习模型；

更新后的多脑区协同强化学习模型根据输入信息产生输出信息后，得到奖励信息。

在上述方法的优选技术方案中，所述奖励信息的计算方法为按照下式所述的方法计算：

reward_end＝reward(t)-reward(t-1)

其中，t表示时刻，reward_end表示当前时刻的奖励信息减去上一时刻的奖励信息。

在上述方法的优选技术方案中，“更新所述多脑区协同强化学习模型”，其方法为：

当所述奖励信息为正奖励时，增强所述多脑区协同强化学习模型PFC-StrD1的连接，减弱所述多脑区协同强化学习模型PFC-StrD2的连接；

当所述奖励信息为负奖励时，增强所述多脑区协同强化学习模型PFC-StrD2的连接，减弱所述多脑区协同强化学习模型PFC-StrD1的连接。

在上述方法的优选技术方案中，“获取障碍物的空间位置信息”之后，该方法还包括：

使用棋盘格标定法对所述双目摄像头进行标定，得到所述双目摄像头的内、外参数；

根据所述双目摄像头的内、外参数计算校正所述双目摄像头采集图像的校准参数，基于所述校准参数校准所述双目摄像头采集的图像；

根据立体匹配Graph Cut算法中的SGBM算法计算校准后的图像，得到所述双目摄像头采集图像的视差图；

对所述视差图中的轮廓信息进行聚类分析，得到所述视差图中物体所在区域；获取所述物体所在区域中噪声值大于预设阈值的区域，并将该区域作为危险障碍物区域。

与最接近的现有技术相比，本发明提供一种基于多模态融合的多脑区协同自主决策方法，包括：通过超声波传感器和双目摄像头获取障碍物的空间位置信息，将其输入预先构建的多脑区协同强化学习模型；根据环境反馈的奖励信息，通过多巴胺调控和突触可塑性机制，更新所述多脑区协同强化学习模型，实现无人机自主避障。

上述技术方案至少具有如下有益效果：

1、本发明能够融合超声波传感器和双目摄像头获取的信息，可以更加准确可靠地描述无人机所在环境及评估场景中障碍物的危险程度。多传感器信息融合能够有效地对环境进行一致性描述，从而降低单个传感器的不确定性和局限性，使得无人机获得更多的可靠信息，具有更高的容错性。

2、本发明通过对人脑的多脑区协同强化学习通路进行计算建模，模拟了人脑自主学习过程中涉及到的PFC、黑质致密部(SNc)、中脑腹侧被盖区(VTA)、StrD1、StrD2、STN、GPe、 GPi、SNr、丘脑、运动皮层共11个脑区，并且分别从脑区的功能和脑区之间的连接关系两个方面进行模拟，能够让无人机在不需要经历所有状态空间的基础上，快速准确地学习到避障策略，完成任务。

附图说明

图1为本发明一种实施例基于多模态融合的多脑区协同自主决策方法的流程示意图；

图2为本发明一种实施例感知障碍物的流程示意图；

图3为本发明一种实施例危险障碍物区域的示意图；

图4为本发明一种实施例多脑区协同强化学习模型的框架示意图；

图5为本发明一种实施例中无人机自主避障学习过程的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明融合超声波、双目视觉等多模态信息感知障碍物，将障碍物信息作为多脑区协同自主决策模型的输入，融合多模态的输入信息从而更加可靠准确地感知障碍物的信息，能够顺利完成无人机自主避障任务。双目立体视觉测量具有效率高、精度合适、结构简单以及成本低等优点，适用于远距离探测，超声波测距是一种成熟的测距技术，被广泛应用于家用的汽车雷达上，成本相对较低，适用于近距离探测，通过结合超声波和双目视觉的优势，互相弥补彼此的缺点，在测量近距离时，使用超声波测距，在测量远距离时，使用双目视觉测距，将两者结合可以根据不同的距离选择不同的传感信息，精确地实现障碍物的感知。

本发明使用的多脑区协同自主决策模型是一种类脑的自主决策模型，模拟人脑中多个脑区协同合作完成学习的机制：多模态信息输入至PFC(prefrontal cortex，前额叶皮层)后，PFC 将信息输入至基底神经节完成决策，基底神经节主要负责选择和优化行为，基底神经节由直接通路和间接通路组成，直接通路： PFC-StrD1(Striatum，纹状体)-Gpi(globus pallidus internas，苍白球内侧核)/SNr(substantia nigra reticular part，黑质网状部) 是兴奋性输出，用于加强某一行为的反应，而间接通路：PFC-StrD2- Gpe(External Globus Pallidus，苍白球外侧部)-Gpi/SNr是抑制性输出，用于减弱对某一行为的反应；基底节中的STN(subthalamic nucleus，丘脑底核)也接收PFC的输入，它通过为Gpe和Gpi/SNr 提供兴奋性输入，来降低直接通路与间接通路的时间差，防止过快做出决定；Gpi/SNr综合以上通路来选择行为并输出至丘脑，丘脑负责传输行为信号至负责执行行为的运动区。

参阅附图1，图1示例性的给出了本实施例中基于多模态融合的多脑区协同自主决策方法的流程示意图。如图1所示，本实施例中基于多模态融合的多脑区协同自主决策方法包括下述步骤：

步骤S1：通过超声波传感器和双目摄像头获取障碍物的空间位置信息，将其输入预先构建的多脑区协同强化学习模型；

如图2所示，图2示例性的给出了本实施例中感知障碍物的流程示意图，在本发明实施例中，可以使用超声波传感器获取障碍物与无人机之间的距离，使用双目摄像头获取环境中障碍物的深度信息，得到障碍物的空间位置信息，根据障碍物的空间位置信息以及无人机的位置，判断无人机与障碍物之间的距离，从而可以得到障碍物对无人机执行任务过程中的危险程度。将超声波传感器与双目摄像头获取的信息进行融合，融合后的信息可以有效地对障碍物进行空间位置的描述。将获取的障碍物的空间位置信息传递至多脑区协同的强化学习模型中进行进一步决策。其中，将超声波传感器与双目摄像头获取的信息进行融合具体可以包括以下步骤：

步骤S11：在本发明实施例中，通过对大疆DJI M100 无人机上的guidance进行开发，在大疆DJI M100无人机上安装超声波传感器和双目摄像头，其中，将无人机的双目摄像头正面朝向使用者时，左边的摄像头采集的图像作为左图像，右边的摄像头采集的图像作为右图像。

具体地，通过获取超声波传感器感知的数据来得到障碍物与无人机之间的距离，当障碍物与无人机的距离小于预设安全阈值时，则判定此时无人机与障碍之间的距离达到危险预警线，无人机应自主远离该障碍物；通过在无人机上搭载摄像头组合成双目摄像头，双目摄像头分别采集左图像和右图像，根据采集的左图像和右图像，计算双目摄像头的视差图，根据视差图确定危险障碍物区域，其中，危险障碍物区域是指无人机在飞行过程中可能撞上障碍物的区域。在本发明实施例中，预设的安全阈值可以为0.5m，也可以为1m，还可以根据工程师的经验和实际应用场景进行设定，在此不做限定。

如图3所示，图3示例性的给出了危险障碍物区域的示意图，图3中的A和B分别表示是左图像和右图像，C表示视差图，D中的黄色矩形框表示危险障碍物区域。根据采集的左图像和右图像，计算双目摄像头的视差图，根据视差图确定危险障碍物区域具体可以包括以下步骤：

步骤S111：双目摄像头标定：使用棋盘格标定法进行双目摄像头标定，获得双目摄像头的内、外参数。其原理为：利用摄像机所拍摄到的图像来还原空间中的物体，摄像机所拍摄到的图像与三维空间中的物体之间存在以下线性关系：[像]＝M[物]，矩阵M可以看成是摄像机成像的几何模型，M中的参数为摄像机中的参数，通过计算得到矩阵M中的参数，该求解参数的过程称为摄像机标定。在实际应用中，不同的摄像头通过棋盘格标定法得到的内、外参数不同，具体的值与摄像头型号有关，在此不做限定。

步骤S112：视差图计算：根据棋盘格标定法得到摄像头的内、外参数，基于摄像头的内、外参数计算产生校正图像所需的交换参数，根据校准参数校准左图像和右图像，得到校准后的左图像和右图像后，根据立体匹配Graph Cut算法中的SGBM 算法计算校准后的左图像和右图像，调整SGBM算法中的SGBM 参数得到视差图。视差图通过不同的灰度值反映图像中的对象相对于摄像头的深度信息，视差图中的灰度值越大说明图像中的对象离摄像头越近，也就说明在实际场景中，该对象相对其他物体对无人机更危险。

步骤S113：对视差图中的轮廓信息进行聚类分析，得到视差图中不同深度信息下物体所在的区域，过滤掉视差图中物体所在区域的噪声值小于预设阈值的区域，将大于预设阈值的区域作为危险障碍物区域，其中，预设阈值的值可以为区域周长小于300像素点、深度信息颜色值小于20灰度值。

步骤S2：基于障碍物的空间位置信息，使用尖峰时序神经网络构建多脑区协同强化学习模型。

在本发明实施例中，多脑区协同强化学习模型是一种类脑的自主决策模型，如图4所示，图4示例性的给出了本实施例中多脑区协同强化学习模型的框架示意图，其中，图4中Thalamus表示丘脑，Basal ganglia表示基底节，人脑强化学习是由人脑中多个脑区协同完成，多模态信息输入至PFC后，PFC将信息输入至基底神经节完成决策，基底神经节由直接通路和间接通路组成，直接通路用来加强对某一行为的反应，间接通路用来减弱对某一行为的反应，通过多个脑区的共同协作，完成强化学习。多脑区协同强化学习模型使用尖峰时序神经网络模拟人脑强化学习的关键脑区，该模型从脑区的功能和脑区之间的连接关系两个方面进行模拟。

具体地，尖峰时序神经网络是一种类脑的神经网络，尖峰时序神经网络中的神经元通过发放脉冲的方式输入给突触后神经元，尖峰时序神经网络使用STDP突触可塑性机制，通过判断突触前发放脉冲和突触后神经元发放脉冲的时间差来更新突触强度。通过尖峰时序神经网络建立多脑区协同强化学习模型的思路为：分别建立多个神经元簇代表不同脑区，脑区之间的连接按照大脑的脑区的连接方式，结合脉冲神经网络的神经元模型和突触可塑性机制构成了一个具有多个脑区协同的强化学习模型。

神经元作为构成神经系统结构和功能的基本单元，在强化学习时具有重要作用，因此需要使用模型模拟生物神经元，将其作为脑区功能和脑区之间连接模拟的基础。在本发明实施例中，使用Izhikevich神经元模型来模拟生物神经元，Izhikevich神经元模型的计算方法如公式(1)所示：

其中，v表示膜电位，u表示膜电位恢复变量，I表示输入信息，a、b、c、d均为常数，a＝0.02、b＝0.2、c＝-65、d＝8。

为了能够让无人机适应多个实际场景，快速学习到正确的避障策略，可以利用STDP(spike timing dependent plasticity，尖峰时间相关的可塑性)机制实现尖峰时序神经网络的更新学习，而权重作为尖峰时序神经网络学习的关键，网络的强化学习能力就是通过不断地更新权重得到的，STDP突触可塑性机制更新脑区之间权重的计算方法如公式(2)所示：

其中A₊、A_-均表示学习率，A₊＝A_-＝0.9，τ₊，τ_-均表示时间常量，τ_-＝τ₊＝20，Δt_i表示突触前到突触后发放spike 的时间延迟。

建立尖峰时序神经网络模拟多脑区协同强化学习模型后，模型的输入和输出分别为：

多脑区协同强化学习模型的输入信息：将无人机感知到障碍物的位置信息进行状态划分，进行状态划分的依据可以是：当障碍物位于无人机正前方的左边时，将其作为状态1；当障碍物位于无人机正前方的右边时，将其作为状态2；当无人机没有感知到障碍物时，将其作为状态3；其中，状态3也是无人机的目标状态。

多脑区协同强化学习的模型的输出信息：选择的行为 (3个动作：向左、向右飞行和悬停不动)；每当模型输出一个行为后，它会得到奖赏并根据奖赏来更新模型。

步骤S3：根据环境反馈的奖励信息，通过多巴胺调控和突触可塑性机制，更新所述多脑区协同强化学习模型，实现无人机自主避障。

在本发明实施例中，多脑区协同强化学习模型每次输出行为后都会获得一个奖励，采用连续的信号表示奖励，具体如公式(3)所示：

reward＝max(width-x,x) (3)

其中，x表示障碍物的横坐标，width表示无人机视觉输入的宽度，reward表示障碍物中心的横坐标距离无人机视觉输入左、右边缘距离的最大值。

通过公式(1)计算得到的奖励表示绝对奖励，但在实际应用中，无人机可能是一直在移动的，为了能够准确的计算多脑区协同强化学习模型得到的奖励，通过使用相对奖励代替绝对奖励计算多脑区协同强化学习模型获得的真实奖励，真实奖励的计算方法具体如公式(4)所示：

reward_end＝reward(t)-reward(t-1) (4)

其中，t表示时刻，reward_end表示当前时刻的奖励减去上一时刻的奖励，即，真实奖励，通过计算多脑区协同强化学习模型的真实奖励，可以得到无人机每次移动时的奖励信息，基于获得的真实奖励信息更新多脑区协同强化学习模型，能够让无人机快速准确地学习到正确的策略。

多巴胺作为一种神经递质，能够携带奖励信息，多巴胺的浓度能够衡量奖励信息的好坏，当真实奖励是正奖励时，多巴胺的浓度升高；当真实奖励是负奖励时，多巴胺的浓度降低，多巴胺浓度具体的计算方法具体如公式(5)：

其中，DA表示多巴胺浓度；

在强化学习过程中，多脑区协同强化学习模型根据反馈信号不断优化策略，促进被奖赏的行为，镇压被惩罚的行为，让无人机能够远离障碍物，快速准确地学习正确的避障策略。多巴胺通过调控PFC-StrD1以及PFC-StrD2之间的连接权重实现促进被奖赏的行为、镇压被惩罚的行为。具体的调控方法为：

当获得奖励时，DA>1时，多巴胺的浓度升高，增强 PFC-StrD1的连接，具体计算方法为w＝w*DA，通过该公式可以增加权重，减弱PFC-StrD2的连接，具体计算方法为w＝w*(DA- 1)，通过该公式可以减小权重，其中，w表示突触强度；当得到惩罚时，DA<1时，多巴胺浓度降低，增强PFC-StrD2连接，即 w＝w*(DA+1)，减弱PFC-StrD1的连接，即w＝w*DA；

通过上述方式更新模型后，需要验证多脑区协同强化学习模型的有效性，具体地，可以通过训练无人机躲避障碍物时的自主学习能力进行验证。如图5所示，示例性的给出了本实施例中无人机自主避障学习过程的示意图。在图5的1号图中，无人机在状态2时，选择了向右的行为，此时对应的奖励信息为负奖励，多脑区协同强化学习模型根据反馈的奖励信息来降低选择向右行为的概率，因此，图5的2-6号图中，无人机根据奖励信息选择向左的行为；当无人机选择向右的动作后，由状态2转变成状态1，面对新状态时，依旧随机选择了向左的行为，根据计算奖励的公式，状态1时，向左飞行是错误的行为，多脑区协同强化学习模型根据反馈的奖励信息，即负奖励，降低选择向左飞行的概率，接着无人机由状态1转变为状态2，由于之前学习到向右飞行是错误的行为，因此无人机执行向左飞行的动作直至达到目标状态。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多模态融合的多脑区协同自主决策方法，其特征在于，所述方法包括：

基于所述障碍物的空间位置信息，基于障碍物的空间位置信息，使用尖峰时序神经网络构建多脑区协同强化学习模型；

2.根据权利要求1所述的方法，其特征在于，“获取障碍物的空间位置信息”，其方法为：

3.根据权利要求1所述的方法，其特征在于，所述多脑区协同强化学习模型包括：

多个神经簇模块按照人脑脑区的连接方式进行连接。

4.根据权利要求3所述的方法，其特征在于，“根据判断结果更新突触强度”，其方法为按照下式所述的方法计算：

5.根据权利要求1所述的方法，其特征在于，“通过多巴胺调控和突触可塑性机制，更新所述多脑区协同强化学习模型”，其方法为：

6.根据权利要求5所述的方法，其特征在于，所述奖励信息的计算方法为按照下式所述的方法计算：

reward_end＝reward(t)-reward(t-1)

7.根据权利要求5所述的方法，其特征在于，“更新所述多脑区协同强化学习模型”，其方法为：

8.根据权利要求2所述的方法，其特征在于，“获取障碍物的空间位置信息”之后，该方法还包括：