CN112198793B

CN112198793B - 基于认知网络的机器人避障方法

Info

Publication number: CN112198793B
Application number: CN202010975322.3A
Authority: CN
Inventors: 陈海波
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-07-29
Anticipated expiration: 2040-09-16
Also published as: CN112198793A

Abstract

本发明公开了基于认知网络的机器人避障方法，包括构造认知网络集，在机器人的感知空间中利用短时记忆、整合长时记忆对认知网络集进行发育学习，并采用动态进化方法在认知网络集中进行多样性搜索，扩展认知网络集的规模，寻找更合理的认知网络集来完成避障行动。本发明利用仿生学原理的认知网络方法实现机器人在随机无先验动态障碍物环境下能够准确避障。

Description

基于认知网络的机器人避障方法

技术领域

本发明涉及一种机器人避碍方法，特别是一种基于认知网络的机器人避障方法。

背景技术

随着智能技术的飞速发展，自主机器人在物流运输、城市管理、居家服务、军事任务等领域具有良好的应用前景。机器人躲避障碍物技术是这类机器人实际应用所需的核心技术之一，其难点在于如何实现在复杂未知环境下利用学习能力进行躲避障碍物的自主行为决策。现有的机器人避碍的技术方法包括基于路径规划的方法、基于规则推理的方法和基于深度学习的方法三类。其中基于路径规划的方法是通过多种传感器数据融合后采用类A*等规划算法计算路径完成避障；基于规则推理的方法是在障碍物识别的基础上利用产生式规则或者一阶逻辑推理实现避障；基于深度学习的方法则是通过采集大量地图实例并基于各种神经网络模型进行训练完成避障任务。

上述的这些方法在有大数据量样本训练和专家经验丰富的情况下能够取得较好效果，在室内室外静态障碍物和动态障碍物环境下都能完成导航和避障任务，然而在随机无先验动态障碍物环境下却存在避障困难，随机无先验动态障碍物是指障碍物随机性的突然出现在规划路线上，障碍物的出现、消失、移动方向和速度并不遵循特定规律，这些随机出现的障碍物场景无法事先通过训练样本获得，人类能够通过学习掌握避障的一般性规则来完成规定任务，但是对于目前的智能机器人来说仍是待解决的技术问题之一。因此，现有的机器人避碍的方法在随机无先验动态障碍物环境下存在无法准确避障的问题。

发明内容

本发明的目的在于，提供一种基于认知网络的机器人避障方法。本发明利用仿生学原理的认知网络方法实现机器人在随机无先验动态障碍物环境下能够准确避障。

本发明的技术方案：基于认知网络的机器人避障方法，包括构造认知网络集，在机器人的感知空间中利用短时记忆、整合长时记忆对认知网络集进行发育学习，并采用动态进化方法在认知网络集中进行多样性搜索，扩展认知网络集的规模，寻找更合理的认知网络集来完成避障行动。

前述的一种基于认知网络的机器人避障方法中，具体包括以下步骤：

步骤一、构造认知网络集：认知网络集包括若干个认知网络，认知网络包括感知层、处理层、推理层、思维层和行动层，层内和层间由若干节点连接而成，连接不存在权重；初始的认知网络集中只有一个认知网络，所述认知网络只有感知层、思维层和行动层；

步骤二、发育学习认知网络：对认知网络集中的每一个认知网络，利用感知层和处理层的短时记忆，整合长时记忆，构造推理层的推理节点以及观察空间；并根据环境输入构造和/或调整推理层的推理节点中的推理场景；

步骤三、推理和决策：对认知网络集中的每一个认知网络，思维层在观察空间内随机选择若干个可执行的假想动作，对每一个假想动作，结合最新观察值匹配最近似的推理场景，计算每个推理场景的平均评估值，并选择获得评估值最大的假想动作作为实际决策动作，输出给行动层，行动层根据实际决策动作完成避障行动；

步骤四、决策评估：对认知网络集中的每一个认知网络，计算每一个推理场景的准确度和评估值属性；

步骤五、动态进化：在认知网络集中进行多样性搜索，通过种群扩展的动态进化方法逐步构造、扩展和完善认知网络集的规模；

步骤六、回到步骤二，直到所有避障任务任务都完成。

前述的一种基于认知网络的机器人避障方法中，所述步骤一中的感知层用来接收外界输入，保存规整化数据，所述的外界输入包括对各个方向障碍物距离的感知输入、自身姿态的感知输入、自身动作的感知输入和外界奖励输入；处理层用来以感知层和处理层的其它节点作为输入并完成处理；推理层用来表征关于观察空间的知识，帮助动态认知网络作出最终决策；思维层用来作出决策；行动层根据决策动作控制机器人执行部件完成动作输出。

前述的一种基于认知网络的机器人避障方法中，所述步骤一中的处理层的处理节点包括：

差值处理节点，用来计算任两个节点在当前时刻的输入值的差值；

均值处理节点，用来计算任意多个有限输入节点在当前时刻输入值的均值；

速率处理节点，用来计算任一个节点在t时刻和t-1时刻输入值的差值。

前述的一种基于认知网络的机器人避障方法中，所述步骤一中的推理层由推理节点构成，构成方法包括：设定认知网络有N个感知节点和M个处理节点，将所有感知节点和处理节点统一称为输入节点INPUTS，

推理层的推理节点INF定义为:

C11(t-f1),C12(t-f2),...,C1p(t-fp)＝>C21(t),C22(t),...,C2q(t)；

其中C11,C12,...,C1p称为INF的前置条件输入节点，C21,C22,...,C2q称为INF的后置输入节点，Cij(t-fj)表示在输入节点i上附加的时间戳为t-fj，t为当前时刻，t-fj为当前时刻之前的某一时刻，这里i∈{1，2，...p},j∈{1，2，...q}，t-fj<T，T为短时记忆容量；

推理节点INF中的第k个推理场景为：

其中k∈{1，2，...，M}k∈{1，2，...，M},M为INF中所有推理场景的数量，

分别为节点C1i在t-fi时刻的值，

分别为节点C2j在t时刻的值，t表示当前时刻，每个推理场景代表一个高斯分量，用uk表示推理场景k的高斯分量均值，ε_k表示推理场景k的高斯分量协方差矩阵，wk表示推理场景k的高斯分量权重；推理节点根据感知层和处理层的短时记忆数据更新混合高斯模型，当混合高斯模型趋于稳定时，构成观察空间的分布特征。

前述的一种基于认知网络的机器人避障方法中，所述步骤二中，发育学习认知网络具体包括以下步骤：

1)感知层接收和存储输入数据，处理层根据其定义的计算完成对输入数据的处理；

2)对每一个推理节点INF：

C11(t-f1),C12(t-f2),...,C1p(t-fp)＝>C21(t),C22(t),...,C2q(t)，向量C11(t-f1),C12(t-f2),...,C1p(t-fp),C21(t),C22(t),...,C2q(t)的值，称为INF的当前输入值VINF(t)；INF内部保留T个历史输入值，由于这些输入值是未经调整前的原始输入，因此称为短时记忆，T称为短时记忆容量；

3)若推理节点INF内部没有任何推理场景时，生成一个新的推理场景，新的推理场景激活数量设置为1，其高斯分量以输入VINF(t)为均值，以单位阵为协方差，高斯分量的权重设置为1结束；

4)计算VINF(t)对已有的推理场景的高斯分量函数值，取其中的最大值，令k为最大值对应的推理场景，且当最大值大于阈值0.85时，说明输入与k的马氏距离比较接近，则可以将该输入归属到k，令k的激活数量值加1，并相应地调整该高斯分量的均值和方差；调整方法如下：

其中uk为推理场景的高斯分量均值，Nk为推理场景k的激活数量值，wk为推理场景k的高斯分量权重；∑_k为推理节点k的高斯分量协方差矩阵，VSk＝{VINF(t-T),VINF(t-T+1),...,VINF(t)},表示过去T时间中归属第k的高斯分量的输入值向量集。len(VSk)为该输入值向量集的长度，avg(VSk)为该输入向量集的均值，’表示矩阵的转置运算；

5)若计算VINF(t)对已有的推理场景的高斯分量函数值，其中的最大值小于阈值0.85时，则构造一个新的推理节点，新的推理节点的高斯分量均值为VINF(t)，以单位阵为协方差的高斯分量，激活数量设置为1，形成逐步稳定固化的长时记忆；

6)重新计算所有推理场景的高斯分量权重，计算方法为：

wk为推理场景k的高斯分量权重，Nk为推理场景k的激活数量值，M为所有推理场景的数量。

前述的一种基于认知网络的机器人避障方法中，所述步骤三中，推理和决策具体包括以下步骤：

1)按照均匀分布生成R个随机行动向量，记为{A1,A2,...,AR}；

2)取得所有推理节点中推理场景的准确度大于0.75的推理场景，构成候选推理场景集；

3)若候选推理场景集为空，则从R个随机行动向量中随机选择一个作为决策动作输出，决策过程结束；

4)若候选推理场景不为空，对R个随机行动向量集中的每一个向量A_z＝(a1,a2,...,am)，m为向量长度，Z∈{1，2，...，R}，采用前向匹配技术计算该动作向量的评估值；

前向匹配技术计算过程如下：

(1)将当前感知层的输入中的自身动作感知输入替换为Az；

(2)对每一个推理节点INF：

C11(t-f1),C12(t-f2),...,C1p(t-fp)＝>C21(t),C22(t),...,C2q(t)，用随机向量Az替换，得到

C11(t-f1),C12(t-f2),...,C1p(t-fp),C21(t),C22(t),...,C2q(t)的值，称为INF的当前输入值V′INF(t)；

(3)计算VINF(t)对候选推理场景集的高斯分量函数值，若计算值小于等于阈值0.85，则将该推理场景从候选推理场景集中移除；

(4)若候选推理场景集空，则设置动作Az的评估值为0；否则取候选推理场景集中所有推理场景的评估值的均值为Az的评估值；

5)若R个随机行动向量{A1,A2,...,AR}的评估值都一样，则从中随机选择一个作为决策动作输出，否则取评估值最大的随机向量作为决策动作输出；

6)向行动层输出行动向量，记录所选择的行动向量A及对应的选推理场景集IS(A)，以及行动后感知层得到的外界奖励值reward，并把它们加入到行动链集合EA中:

EA＝{<At-T,IS(At-T),rewardt-T>,<At-T+1,IS(At-T+1),rewardt-T+1>,...,<At,IS(At),rewardt>}。

前述的一种基于认知网络的机器人避障方法中，所述步骤四中，决策评估的具体方法包括以下步骤：

1)对每一个推理场景k，计算准确度如下：

其中acc(k)表示推理场景k的准确度，Nk表示体力场景k的激活数量，SIM(k)为与k的前置条件输入值部分相同的推理场景集合，len为取集合元素数量函数；

2)对于行动链集合EA,若rewardt小于0，则对集合中的每一个IS(At-h),h∈{1，2，...，T}，

定义其评估值增量为r＝e^-1*h×reward_t,

若IS(At-h)不空，则对IS(At-h)中的每一个推理场景k，令其新的评估值为原评估值加r。

前述的一种基于认知网络的机器人避障方法中，所述步骤五中，动态进化方法包括以下步骤：

1)将初始的认知网络加入到认知网络集中；

2)将认知网络中的无效推理节点置入无效推理节点集合，其中无效推理节点是指推理节点可靠度小于阈值0.65的推理节点；

3)若认知网络集中的认知网络数量大于阈值，则启动淘汰过程，计算认知网络中所有推理节点的可靠度的均值作为认知网络的可靠度，按照可靠度从大到小对所有认知网络进行排序，并淘汰排在后面的百分比阈值的认知网络，百分比阈值可取25％-65％之间；

4)对认知网络集中剩余的认知网络进行变异操作，生成新认知网络；

5)将新认知网络加入到认知网络集中。

前述的一种基于认知网络的机器人避障方法中，所述变异操作包括以下步骤：

1)对认知网络集中的每一个认知网络进行完全复制；

2)对复制后的认知网络以预定的概率参数随机选择处理节点进行处理操作，添加处理节点到复制后的认知网络的处理层，所述概率参数取0.25-0.75；

3)对复制后的认知网络以均匀分布随机选择感知层节点和处理层节点，为每个节点随机生成时间戳，得到新的推理节点，加入到复制后的认知网络的推理层中，生成新认知网络。

与现有技术相比，本发明不需要大数据量样本训练，也不需要专家经验，而通过设定动态认知网络，建立感知层、处理层、推理层、思维层和行动层互相配合，能够在随机无先验动态障碍物环境下，顺利完成导航和避障任务。

通过感知层采集外界的各项信息，并进行了规整化处理，减少推理场景数量，提高了推理的效率，并配合处理层建立观察空间，在观察空间内进行推理，建立推理场景，然后在推理场景内选择若干个可执行的假想动作，并对想象执行某动作的结果进行评估，最后选择评估值最大的假想动作作为实际决策动作，提高避障准确性；且通过认知网路的发育学习，扩大推理场景，提供更多的选择，更加适用于在未知的复杂环境，提高了移动机器人避障行为处理的智能性。

因此，本发明利用仿生学原理的认知网络方法实现机器人在随机无先验动态障碍物环境下能够准确避障。

附图说明

图1是动态障碍物迷宫结构示意图；

图2是机器人躲避障碍物评估的结构示意图；

图3为图2中机器人随机生成的随机行动向量。

具体实施方式

下面结合实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例：

一种基于认知网络的机器人避障方法，包括：包括构造认知网络集，在机器人的感知空间中利用短时记忆、整合长时记忆对认知网络集进行发育学习，并采用动态进化方法在认知网络集中进行多样性搜索，扩展认知网络集的规模，寻找更合理的认知网络集来完成避障行动。

具体方法包括以下步骤:

步骤一、构造认知网络集：所述的认知网络集包括若干个认知网络，认知网络的结构分为五层，包括感知层、处理层、推理层、思维层和行动层，层内和层间由若干节点连接而成，连接不存在权重。初始的认知网络集中只有一个认知网络，所述认知网络只有感知层、思维层和行动层。

1.1)感知层负责接收外界输入，外界输入包括对各个方向障碍物距离的感知输入、自身姿态(朝向和运动速度)的感知输入、自身动作(左转、右转、前进、后端)的感知输入和外界奖励输入，所述的外界奖励是稀疏的，是指导航机器人在没有发生碰撞的时候没有任何奖励，而在碰撞发生时给予负奖励，负奖励取值-10--100之间。

1.1.1)感知层的层内感知节点具有短时记忆能力，能够保存最近输入的规整化数据，最近输入的规整化数据由短时记忆参数决定，一般取30-50个输入的规整化数据。规整是指将连续的输入空间映射到有限的离散输入空间，例如智能机器人的障碍物距离传感器取值范围为0-100米，而规整化的数据只取0、25、50、75、100五个离散值，分别表示靠近、较近、不近、较远、极远。将数据进行规整化处理是基于生物鼓励和提高推理效率两方面的考虑。生物神经系统通过有限的感知神经元对连续的输入空间作出响应，例如视网膜中的某些特异性神经节只被特定频率范围的可见光输入所激活，这意味着生物神经网络并不精确记忆原始输入值而转换为一个近似值，规整化处理也是起到类似的作用。此外，推理是基于输入值的分布而非具体输入值，规整使得推理层的推理场景数量大大减少，从而提高了推理的效率。

1.2)处理层以感知层和处理层的其它节点作为输入并完成特定的处理，处理层的处理节点在动态进化过程中从以下几种随机选择。处理层也只保存最后几次处理的数据，感知层的具体储存容量和处理层的具体存储容量由短时记忆参数决定。

1.2.1)处理层的处理节点包括：

1.3)感知层和处理层的短时记忆实际构成了机器人的观察空间，推理则在该观察空间完成。其中感知层的节点数量由实际输入所固定，而处理层的处理节点数量和处理类型则随着进化过程变化，这导致观察空间并不是固定的。尽管规整化处理已经离散化了短时记忆中的数据，观察空间仍旧可能是巨大的，例如n个感知节点和m个处理节点的个体网络，每个节点的规整化数据为k个，则观察空间样本总量为kⁿ，所有可能的个体网络有kⁿ+k⁽ⁿ ⁺¹⁾+...+k^(n+m)。

1.4)推理层以感知层或处理层的若干节点为输入，推理层的推理节点对每个输入节点加上一个时间戳，具体定义如下：

若认知网络已经有N个感知节点和M个处理节点，将所有感知节点和处理节点统一称为输入节点INPUTS。则推理节点INF可表示为：

C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp)＝>C₂₁(t),C₂₂(t),...,C_2q(t)；

其中C₁₁,C₁₂,...,C_1p称为INF的前置条件输入节点，C₂₁,C₂₂,...,C_2q称为INF的后置输入节点，C_ij(t-fj)表示在输入节点i上附加的时间戳为t-fj，t为当前时刻，t-fj为当前时刻之前的某一时刻，这里i∈{1，2，...p},j∈{1，2，...q}，t-fj<T，T为短时记忆容量。

对推理层中的推理节点的数量和分布采用一种改进的在线混合高斯模型技术来生成，也称为发育学习方法，其中混合高斯模型的每个高斯分量被称为推理节点中的一个推理场景。推理节点INF：

C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp)＝>C₂₁(t),C₂₂(t),...,C_2q(t)中的第k个推理场景为：

分别为节点C_1i在t-fi时刻的值，

分别为节点C_2j在t时刻的值，t表示当前时刻。每个推理场景代表一个高斯分量，用u_k表示推理场景k的高斯分量均值，ε_k表示推理场景k的高斯分量协方差矩阵，w_k表示推理场景k的高斯分量权重。

1.4.1)每个推理场景都有一个激活数量属性、准确度值属性和评估值属性，激活数量属性表示该推理场景激活的次数、准确度属性表示该高斯分量中心值与实际环境的匹配情况，评估值属性表示该推理记录对要完成的任务有益的程度。所有推理场景的激活数量属性初始为0，准确度初始值是1，评估值初始是0。

1.4.2)推理节点的混合高斯模型仿真了生物神经网络的一种长时记忆能力。推理节点根据感知层和处理层的短时记忆数据更新混合高斯模型，当混合高斯模型趋于稳定时，就构成了观察空间的分布特征。这类似与生物系统并不能精确记忆所有的历史输入，却能对某个特定输入产生类似的回忆场景。被回忆的推理场景与实际环境输入只是相似但不相同。

1.5)推理层表征了关于观察空间的知识，能够帮助动态认知网络作出最终决策。

1.6)思维层用来作出最终决策，思维层只有一个固定的处理单元。处理单元随机选择若干个可执行的假想动作。对每一个假想动作，结合最新观察值匹配最近似的推理场景，计算每个推理场景的平均评估值，并选择获得评估值最大的假想动作作为实际决策动作，输出给行动层。

1.7)行动层为被动执行单元，根据决策动作控制机器人执行部件完成动作输出。

步骤二、发育学习认知网络：对认知网络集中的每一个认知网络，利用感知层和处理层的短时记忆，整合长时记忆，构造推理层的推理节点以及观察空间；并根据环境输入构造和/或调整推理层的推理节点中的推理场景。

认知网络的发育学习用来构造、调整每个推理节点中的推理场景，具体方法包括以下步骤：

2.1)机器人感知层接收和存储输入数据，处理层根据其定义的计算完成对输入数据的处理。

2.2)对每一个推理节点INF：

C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp)＝>C₂₁(t),C₂₂(t),...,C_2q(t)，向量C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp),C₂₁(t),C₂₂(t),...,C_2q(t)，称为INF的当前输入值V_INF(t)。INF内部保留T个历史输入值，由于这些输入值是未经调整前的原始输入，因此称为短时记忆，T称为短时记忆容量。

2.3)若推理节点INF内部没有任何推理场景时，生成一个新的推理场景，新的推理场景激活数量设置为1，其高斯分量以输入V_INF(t)为均值，以单位阵为协方差，高斯分量的权重设置为1结束。

2.4)计算V_INF(t)对已有的推理场景的高斯分量函数值，取其中的最大值，令k为最大值对应的推理场景，且当最大值大于阈值0.85时，说明输入与k的马氏距离比较接近，则可以将该输入归属到k，令k的激活数量值加1，并相应地调整该高斯分量的均值和方差。调整方法如下：

其中u_k为推理场景的高斯分量均值，N_k为推理场景k的激活数量值，w_k为推理场景k的高斯分量权重；∑_k为推理节点k的高斯分量协方差矩阵，VS_k＝{V_INF(t-T),V_INF(t-T+1),...,V_INF(t)},表示过去T时间中归属第k的高斯分量的输入值向量集；len(VS_k)为该输入值向量集的长度，avg(VS_k)为该输入向量集的均值，’表示矩阵的转置运算。

2.5)若计算V_INF(t)对已有的推理场景的高斯分量函数值，其中的最大值小于阈值0.85时，则构造一个新的推理节点，新的推理节点的高斯分量均值为V_INF(t)，以单位阵为协方差的高斯分量，激活数量设置为1。经2.3)、2.4)、2.5)步骤新增了推理场景或对原推理场景的高斯分量进行调整，使得系统中存储的不再是原始记忆，而是一种逐步稳定固化的长时记忆。

2.6)重新计算所有推理场景的高斯分量权重，计算方法为：

w_k为推理场景k的高斯分量权重，N_k为推理场景k的激活数量值，M为所有推理场景的数量。

步骤三、推理和决策：对认知网络集中的每一个认知网络，思维层在观察空间内随机选择若干个可执行的假想动作，对每一个假想动作，结合最新观察值匹配最近似的推理场景，计算每个推理场景的平均评估值，并选择获得评估值最大的假想动作作为实际决策动作，输出给行动层，行动层根据实际决策动作完成避障行动。

发育学习类似智能体机器人的幼儿认知发育阶段，其结果是生成或者调整了新的推理场景，在此基础上可以进行推理和决策，推理和决策过程由思维层的处理单元完成，其过程类似与人类认知的联想思维过程，即想象执行某动作的结果，并根据对结果的评估决定是否采纳该动作。具体过程如下：

3.1)按照均匀分布生成R个随机行动向量，记为{A₁,A₂,...,A_R}。

3.2)取得所有推理节点中推理场景的准确度大于0.75的推理场景，构成候选推理场景集。

3.3)若候选推理场景集为空，则从R个随机行动向量中随机选择一个作为决策动作输出，决策过程结束。

3.4)若候选推理场景不为空，对R个随机行动向量集中的每一个向量A_z＝(a1,a2,...,am)，m为向量长度，Z∈{1，2，...，R},采用前向匹配技术计算该动作向量的评估值，计算过程如下：

3.4.1)将当前感知层的输入中的自身动作感知输入替换为A_z。

3.4.2)将每一个推理节点INF：

C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp)＝>C₂₁(t),C₂₂(t),...,C_2q(t)，用随机向量Az替换，得到C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp),C₂₁(t),C₂₂(t),...,C_2q(t)的值，称为INF的当前输入值V′_INF(t)，这里加′表示为自动感知被随机向量A_z替换后的输入值。具体替换方法为：若INF中存在C_ij(t-fj)为第p个动作，p∈{1，2，...，m}，则用A_z中的ap分量替换INF中的C_ij(t-fj)。

3.4.3)计算V_INF(t)对候选推理场景集的高斯分量函数值，若计算值小于等于阈值0.85，则将该推理场景从候选推理场景集中移除；

3.4.4)若候选推理场景集空，则设置动作A_z的评估值为0；否则取候选推理场景集中所有推理场景的评估值的均值为A_z的评估值。

3.5)若R个随机行动向量{A₁,A₂,...,A_R}的评估值都一样，则从中随机选择一个作为决策动作输出，否则取评估值最大的随机向量作为决策动作输出。

3.6)向行动层输出行动向量，记录所选择的行动向量A及对应的选推理场景集IS(A)，以及行动后感知层得到的外界奖励值reward，并把它们加入到行动链集合EA中:

EA＝{<A_t-T,IS(A_t-T),reward_t-T>,<A_t-T+1,IS(A_t-T+1),reward_t-T+1>,...,<A_t,IS(A_t),reward_t>}。

步骤四、决策评估。对认知网络集中的每一个认知网络，计算每一个推理场景的准确度和评估值属性。

在经过学习和决策之后，需要进一步对行为效果进行评估，评估过程主要目的是计算每一个推理场景的准确度和评估值属性，具体过程如下：

4.1)对每一个推理场景k，计算准确度如下：

其中acc(k)表示推理场景k的准确度，N_k表示体力场景k的激活数量，SIM(k)为与k的前置条件输入值部分相同的推理场景集合，len为取集合元素数量函数。

4.2)对于3.6)中的行动链集合EA,若rewardt小于0，则对集合中的每一个IS(A_t-h),h∈{1，2，...，T}，定义其评估值增量为r＝e^-1*h×reward_t，

若IS(A_t-h)不空，则对IS(A_t-h)中的每一个推理场景k，令其新的评估值为原评估值加r。该评估值计算的意义在于越容易导致碰撞的推理场景，评估值越低。

步骤五、动态进化：

初始的认知网络只有感知层、思维层和行动层，感知层用于接收原始输入，处理层和推理层为空，思维层的处理单元随机选择动作并交给行动层执行，它是无法实际任务的。在认知网络集中进行多样性搜索，采用种群扩展的动态进化方法来逐步构造、扩展和完善认知网络集。具体方法如下：

5.1)将初始的认知网络加入到认知网络集中；

5.2)将认知网络中的无效推理节点置入无效推理节点集合，其中无效推理节点是指推理节点可靠度(即其中推理场景的平均准确度)小于阈值0.65的推理节点；

5.3)若认知网络集中的认知网络数量大于阈值(可取50-200之间)，则启动淘汰过程，计算认知网络中所有推理节点的可靠度的均值作为认知网络的可靠度，按照可靠度从大到小对所有认知网络进行排序，并淘汰排在后面一定百分比阈值的认知网络，百分比阈值可取25％-65％之间。

5.4)对认知网络集中剩余的认知网络进行变异操作，变异操作包括三个步骤：

5.4.1)对认知网络集中的每一个认知网络进行完全复制；

5.4.2)对复制后的认知网络以预定的概率参数从1.2.1)中随机选择处理操作，添加处理节点到复制后的认知网络的处理层，概率参数可取0.25-0.75；

5.4.3)对复制后的认知网络以均匀分布随机选择感知层节点和处理层节点，为每个节点随机生成时间戳，得到新的推理节点，加入到复制后的认知网络的推理层中，生成新认知网络。

5.5)将新认知网络加入到认知网络集中。

例如：原来的认知网络集中含有10个认知网络，淘汰了4个认知网络，从剩下的6个认知网络选择4个进行变异操作，生成新的4个认知网络，然后将新的4个认知网络加入到认知网络集，形成仍含有10个认知网络的认知网络集。

步骤六、回到步骤二，直到所有避障任务任务都完成。

具体工作时：

如图1-3所示，自主机器人有6个距离传感器，4个目标方向传感器，1个碰撞检测器(获取奖励值)，1个朝向角度感知器，一个自身动作感知器。以上感知输入都是一维的，所有的输入都归一化到0-1之间，自主机器人的输出动作为0-1之间的实数，表示下一次相对于当前朝向的行进方向，该动作的实际效果是智能体旋转一定角度后向前行进20个单位，输出动作值为0.5表示不旋转直接前进，小于0.5表示逆时针旋转，大于0.5表示顺时针旋转。

自主机器人每输出一个动作，环境计算自主机器人的奖励，这里奖励是稀疏的，即如果碰到障碍物，奖励为-50，若没有碰到障碍物，奖励是0。

在图1所示的随机无先验动态障碍物基准迷宫任务中，图中实线为固定障碍物，编号的虚线为随机出现的动态障碍物，分为四组，每组只有一条从起点到目标点的最优路线。图中圆形点为机器人起点，星号所在位置为机器人到达的目标点。该迷宫的难点之一在于机器人必须学会先向目标方向的反向走。

执行分为训练阶段和测试阶段。训练阶段中动态障碍物不出现，训练直到机器人可以完成导航任务到达目的地为止，然后进入到测试阶段，测试阶段随机出现动态障碍物，从而测试机器人在未遇见情况下的处理能力。

图2和图3表明了采用本申请的方法是如何引导机器人避开障碍物的。图2和图3中机器人采用本申请的方法随机生成了12个随机行动向量，分别为0.05、0.13、0.25、0.5、0.56、0.63、0.69、0.75、0.81、0.94、0.02。这些值表示机器人转向角度，0为左转90度，1为右转90度，0.5表示不转动方向，对每一个转动方向，计算一个评估值，分别0.309、0.21、0.867、0.667、0.833、0.041、0.531、0.197、0.81、0.77、0.2。其中0.867为最大评估值，对应的行动值为0.25，即左转45度，这导致机器人越过左边的障碍物。

Claims

1.基于认知网络的机器人避障方法，其特征在于：包括构造认知网络集，在机器人的感知空间中利用短时记忆、整合长时记忆对认知网络集进行发育学习，并采用动态进化方法在认知网络集中进行多样性搜索，扩展认知网络集的规模，寻找更合理的认知网络集来完成避障行动；

具体包括以下步骤：

感知层用来接收外界输入，保存规整化数据，所述的外界输入包括对各个方向障碍物距离的感知输入、自身姿态的感知输入、自身动作的感知输入和外界奖励输入；处理层用来以感知层和处理层的其它节点作为输入并完成处理；推理层用来表征关于观察空间的知识，帮助动态认知网络作出最终决策；思维层用来作出决策；行动层根据决策动作控制机器人执行部件完成动作输出；

步骤六、回到步骤二，直到所有避障任务都完成。

2.根据权利要求1所述的基于认知网络的机器人避障方法，其特征在于：所述步骤一中的处理层的处理节点包括：

3.根据权利要求1所述的基于认知网络的机器人避障方法，其特征在于：所述步骤一中的推理层由推理节点构成，构成方法包括：设定认知网络有N个感知节点和M个处理节点，将所有感知节点和处理节点统一称为输入节点INPUTS，

推理层的推理节点INF定义为:

其中C₁₁,C₁₂,...,C_1p称为INF的前置条件输入节点，C₂₁,C₂₂,...,C_2q称为INF的后置输入节点，C_ij(t-fj)表示在输入节点i上附加的时间戳为t-fj，t为当前时刻，t-fj为当前时刻之前的某一时刻，这里i∈{1，2，...p},j∈{1，2，...，q}，t-fj<T，T为短时记忆容量；

推理节点INF中的第k个推理场景为：

分别为节点C_1i在t-fi时刻的值，

分别为节点C_2j在t时刻的值，t表示当前时刻，每个推理场景代表一个高斯分量，推理节点根据感知层和处理层的短时记忆数据更新混合高斯模型，当混合高斯模型趋于稳定时，构成观察空间的分布特征。

4.根据权利要求1所述的基于认知网络的机器人避障方法，其特征在于：所述步骤二中，发育学习认知网络具体包括以下步骤：

1)感知层接收和存储输入数据，处理层根据定义的计算完成对输入数据的处理；

2)对每一个推理节点INF：

C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp)＝>C₂₁(t),C₂₂(t),...,C_2q(t)，向量C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp),C₂₁(t),C₂₂(t),...,C_2q(t)的值，称为INF的当前输入值V_INF(t)；INF内部保留T个历史输入值，由于这些输入值是未经调整前的原始输入，因此称为短时记忆，T称为短时记忆容量；

3)若推理节点INF内部没有任何推理场景时，生成一个新的推理场景，新的推理场景激活数量设置为1，其高斯分量以输入V_INF(t)为均值，以单位阵为协方差，高斯分量的权重设置为1结束；

4)计算V_INF(t)对已有的推理场景的高斯分量函数值，取其中的最大值，令k为最大值对应的推理场景，且当最大值大于阈值0.85时，说明输入与k的马氏距离比较接近，则将该输入归属到k，令k的激活数量值加1，并相应地调整该高斯分量的均值和方差；调整方法如下：

其中u_k为推理场景的高斯分量均值，N_k为推理场景k的激活数量值，w_k为推理场景k的高斯分量权重；Σ_k为推理节点k的高斯分量协方差矩阵，VS_k＝{V_INF(t-T),V_INF(t-T+1),...,V_INF(t)},表示过去T时间中归属第k的高斯分量的输入值向量集；len(VS_k)为该输入值向量集的长度，avg(VS_k)为该输入向量集的均值，’表示矩阵的转置运算；

5)若计算V_INF(t)对已有的推理场景的高斯分量函数值，其中的最大值小于阈值0.85时，则构造一个新的推理节点，新的推理节点的高斯分量均值为V_INF(t)，以单位阵为协方差的高斯分量，激活数量设置为1，形成逐步稳定固化的长时记忆；

6)重新计算所有推理场景的高斯分量权重，计算方法为：

5.根据权利要求1所述的基于认知网络的机器人避障方法，其特征在于：所述步骤三中，推理和决策具体包括以下步骤：

1)按照均匀分布生成R个随机行动向量，记为{A₁,A₂,...,A_R}；

4)若候选推理场景不为空，对R个随机行动向量集中的每一个向量A_z＝(a1,a2,...,am)，m为向量长度，Z∈{1，2，...，R}，采用前向匹配技术计算该行动向量的评估值；

前向匹配技术计算过程如下：

(1)将当前感知层的输入中的自身动作感知输入替换为A_z；

(2)对每一个推理节点INF：

C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp)＝>C₂₁(t),C₂₂(t),...,C_2q(t)，用随机向量Az替换，得到C₁₁(t-f1),C₁₂(t-f2),...,C_1p(t-fp),C₂₁(t),C₂₂(t),...,C_2q(t)的值，称为INF的当前输入值V′_INF(t)；

(3)计算V_INF(t)对候选推理场景集的高斯分量函数值，若计算值小于等于阈值0.85，则将该推理场景从候选推理场景集中移除；

(4)若候选推理场景集空，则设置动作A_z的评估值为0；否则取候选推理场景集中所有推理场景的评估值的均值为A_z的评估值；

5)若R个随机行动向量{A₁,A₂,...,A_R}的评估值都一样，则从中随机选择一个作为决策动作输出，否则取评估值最大的随机向量作为决策动作输出；

6.根据权利要求5所述的基于认知网络的机器人避障方法，其特征在于：所述步骤四中，决策评估的具体方法包括以下步骤：

1)对每一个推理场景k，计算准确度如下：

其中acc(k)表示推理场景k的准确度，N_k表示体力场景k的激活数量，SIM(k)为与k的前置条件输入值部分相同的推理场景集合，len 为取集合元素数量函数；

2)对于行动链集合EA,若rewardt小于0，则对集合中的每一个IS(A_t-h),h∈{1，2，...，T}，

定义其评估值增量为r＝e^-1*h×reward_t,

若IS(A_t-h)不空，则对IS(A_t-h)中的每一个推理场景k，令其新的评估值为原评估值加r。

7.根据权利要求1所述的基于认知网络的机器人避障方法，其特征在于：所述步骤五中，动态进化方法包括以下步骤：

1)将初始的认知网络加入到认知网络集中；

3)若认知网络集中的认知网络数量大于阈值，则启动淘汰过程，计算认知网络中所有推理节点的可靠度的均值作为认知网络的可靠度，按照可靠度从大到小对所有认知网络进行排序，并淘汰排在后面的百分比阈值的认知网络；

5)将新认知网络加入到认知网络集中。

8.根据权利要求7所述的基于认知网络的机器人避障方法，其特征在于：所述变异操作包括以下步骤：

1)对认知网络集中的每一个认知网络进行完全复制；