CN110842915A

CN110842915A - 一种基于忆阻交叉阵列的机器人控制系统及方法

Info

Publication number: CN110842915A
Application number: CN201910993530.3A
Authority: CN
Inventors: 缪峰; 梁世军; 王聪; 杨再正
Original assignee: Shenzhen Institute Of Nanjing University; Nanjing University
Current assignee: Shenzhen Institute Of Nanjing University; Nanjing University
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-28
Anticipated expiration: 2039-10-18
Also published as: US20220331952A1; CN110842915B; WO2021072817A1; US12011833B2

Abstract

本发明公开了一种基于忆阻交叉阵列的机器人控制系统及方法，该系统包括传感器组、输入传感信号调制器、神经形态电路、输出控制信号调制器、输出装置、外部监督模块和训练控制器；机器人的控制由神经形态电路执行，其主要部分是具有全连接神经网络结构的忆阻器交叉阵列。神经形态电路中的差分放大电路和多路复用开关均连接在忆阻器交叉阵列上，输入信号向量与忆阻器交叉阵列内储存的权重矩阵的相乘，再经过差分放大电路得到一路或者多路模拟输出信号。本发明拟利用忆阻器神经形态电路来降低已有机器人控制系统执行神经网络运算时的功耗；直接用忆阻器来模拟生物神经网络中的权重，有效降低复杂度，提高了响应速度。

Description

一种基于忆阻交叉阵列的机器人控制系统及方法

技术领域

本发明涉及忆阻交叉阵列自动控制领域，具体涉及一种基于忆阻交叉阵列的机器人控制系统及方法。

背景技术

现有的智能机器人技术在硬件上是以数字处理器为核心的数字控制电路，在软件上是基于各种神经网络算法实现智能应用。作为这类以神经网络算法驱动的机器人，要求其处理时的功耗低，速度快；在目前的机器人等应用平台上，依靠已有的数字控制电路驱动神经网络算法给其硬件带来了严峻的挑战。

在这类智能机器人的软件层面上，包含了复杂的信息处理和大量的计算。其信息控制流按照以下描述进行。通过各类图像、温度、压力、声音等传感器，采集环境当中的物理量并将其转化为数字信号，通过数字通信传递到数字处理器中。在数字处理器中，按照神经网络算法对信息进行处理。在通用的神经网络算法模型中，由若干层结构类似的处理过程组成。每层网络中都包含着大量的权重参数，在每层网络中的数字信息和网络权重参数进行矩阵乘法运算以及非线性运算，得到该层的输出，进一步转化成为下一层的输入。在经历了神经网络算法后，输入信息转化为了计算结果，再依照输出结果调制控制信号，控制机器人的各种智能动作。为了使得机器人可以有适应和学习能力，该神经网络还需进行一定的反馈训练。最常见的方法就是误差反向传播和梯度下降方法，而这些训练方法涉及大量的参数调整和计算。

在这类机器人的硬件层面上，主要有负责传感信息，负载处理信息，和负责运动控制的部分组装而成。其中负责信息处理的核心主要设计数字控制器电路。其包含的集成数字芯片都是基于互补金属氧化物半导体技术，以晶体管作为基本元件制成的逻辑电路，其主要有通用处理器和内存等电路模块。在进行计算的时候，限制其性能的主要瓶颈之一是由于内存和处理器之间有限的信息交换速度，在进行训练阶段时尤为明显。对于传感部分，往往传感器是通过物理效应制成，元件收到环境中的物理量的影响，具有着不同的电学表现，这种响应体现在电学上是模拟信号。但是为了和数字处理系统匹配，传感器元件将环境中的模拟量转化为电学模拟量后，还需要配合模数转换器转换为数字信号，以通信的形式传递到后级的控制电路以供后续的信号通信和计算处理。

现有技术的缺点一是功耗高，在数字电路上执行规模较大的神经网络算法需要极大的运算次数，导致了非常高的功耗。而机器人这类应用往往只可以携带有限能源，要求其各部分功耗尽可能要低。两者之间产生矛盾。

现有技术的缺点二是复杂度高，其中复杂度的来源一是计算操作的复杂度，为计算过程信息需要在内存和计算单元中反复进行处理以得到最终结果；二是处理需要将环境中的模拟信息采集转化为数字信号并进行运算处理后作用于输出系统，对环境产生影响。这一转化过程也引入了多余的步骤。技术的高复杂度限制了其性能进一步提高的空间。而且，高复杂度同时也带来了系统的响应时间过长的问题。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于忆阻交叉阵列的机器人控制系统，该系统解决了现有技术中存在的功耗高，复杂度高，响应慢的问题，本发明还提供一种基于忆阻交叉阵列的机器人控制方法。

技术方案：一方面，本发明提供的基于忆阻交叉阵列的机器人控制系统，包括传感器组、输入传感信号调制器、神经形态电路、输出控制信号调制器、输出装置、外部监督模块和训练控制器，所述神经形态电路包括N组级联的忆阻器电路，所述忆阻器电路包括忆阻器交叉阵列、差分放大电路以及多路复用开关，其中，N≥1，具体的：

传感器组，用于采集环境中的相关信息，并将环境中的相应物理信息量转化为电学量；

输入传感信号调制器，用于放大各个传感器传递的电学量到适合范围内，并对信号波形进行调制，传感器的数量和输入信号的通道数一一对应；

所述差分放大电路和多路复用开关均连接在所述忆阻器交叉阵列上，经过忆阻器交叉阵列之后，输入信号向量与忆阻器交叉阵列内储存的权重矩阵的相乘，再经过差分放大电路得到一路或者多路模拟输出信号，所述多路复用开关，用于在训练过程中用来对忆阻器进行权重更新操作，其另一端与所述训练控制器相连；

输出控制信号调制器，用于连接所述神经形态电路的输出端，将模拟输出信号调制为匹配并可以驱动输出装置的信号；

输出装置，用于接受到调制好的信号，驱动机器人产生相应的反应；

外部监督模块，用于在训练阶段根据机器人做出的响应来判断其路线是否正确，控制进入忆阻器的脉冲的正负性；

训练控制器，用于在训练阶段根据当前传感器给出的信号和神经形态电路的输出信号，并结合外部监督模块的结果，配合所述多路复用开关控制电学刺激信号流入相关的特定忆阻器，使得忆阻器的权重产生更替。

进一步地，包括：

所述神经形态电路在电路结构上具有神经网络的结构，用所述神经形态电路中忆阻器的电导值作为神经网络中突触的权重值。

进一步地，包括：

所述忆阻器交叉阵列由横纵交错的字线和位线以及交叉点处的忆阻器构成，忆阻器交叉阵列在保持其电路网络结构的前提下，允许加入其他非忆阻器的电子元件，不违背本发明的精神。

进一步地，包括：

该系统还包括供电模块，其用于对其他所有模块负责以提供能源；全局时钟模块，用于协调其他各个不同模块有序协同工作。

进一步地，包括：

该系统还包括：

脉冲产生装置，产生用于忆阻器权重更新的电学激励，其与训练控制器相连。

进一步地，包括：

所述神经形态电路还包括与所述忆阻器阵列相连的非线性元件。

另一方面，本发明提供一种基于忆阻交叉阵列的机器人控制方法，该方法包括以下步骤：

(1)传感器组采集环境中的相关信息后将相应的物理量转换为电学量，作为输入信号；

(2)将输入信号输入到输入传感信号调制器进行调制，得到调制后的输入信号；

(3)将调制后的输入信号输入到神经形态电路的忆阻器交叉阵列中，经过忆阻器交叉阵列之后，输出的信号为输入信号与忆阻器交叉阵列内储存的权重矩阵的乘积，随后再经过差分放大电路得到一路模拟输出信号，输出装置接受到所述模拟输出信号，驱动机器人产生相应的反应；

(4)外部监督模块监督机器人的行为，并迭代步骤(5)和(6)，直到将机器人的行为模式改变为预期行为模式；

(5)外部监督模块判定机器人行为正确与否，并发送给训练控制器；

(6)训练控制器控制电学刺激信号流入到相关的特定忆阻器，使得忆阻器的权重产生更替，其结果是改变神经形态电路的权重值，表现为如果行为正确，加强较大权重，减弱较小权重。如果行为错误，则会加强较小权重，减弱较大权重。

进一步地，包括：

所述该方法还包括供电模块对其他模块提供能源；全局时钟模块协调其他各个不同模块有序协同工作。

有益效果：本发明与现有技术相比，其显著优点是：1、本发明拟利用忆阻器神经形态电路来降低已有控制系统的功耗，提高此类智能机器人的续航能力，以及执行更大规模神经网络的能力；2、直接用忆阻器来模拟生物神经网络中的权重，可以有效简化系统的结构，降低复杂度，提高了响应速度。

附图说明

图1是本发明所述的系统的信息流框图；

图2是本发明所述的系统中包含各个电路模块的结构与连接关系示意图，其中孤立的模块表示对其他所有模块都起作用；

图3是本发明一实施例所述的基于忆阻神经形态电路的自动驾驶循迹机器人中具有神经网络结构的忆阻器阵列的电子显微镜照片；

图4是本发明实施实例中举例的忆阻器交叉阵列的结构和一层全连接神经网络结构的对比图；

图5是本发明实施实例基于忆阻神经形态电路的自动驾驶循迹机器人原型机的照片；

图6是本发明实施实例基于忆阻神经形态电路的自动驾驶循迹机器人原型机在执行学习任务时忆阻突触的权重变换；

图7是本发明实施实例基于忆阻神经形态电路的自动驾驶循迹机器人原型机在学习训练前后的循迹任务执行对比图；

图8是本发明实施实例中的忆阻神经形态电路的响应速度表征图。

具体实施方式

本发明提供的基于忆阻交叉阵列的机器人控制系统，包括传感器组、输入传感信号调制器、神经形态电路、输出控制信号调制器、输出装置、外部监督模块和训练控制器，所述神经形态电路包括N组级联的忆阻器电路，所述忆阻器电路包括忆阻器交叉阵列、差分放大电路以及多路复用开关，其中N≥1，具体的：

传感器组，图像、声音、温度、压力等各类传感器复杂探测环境中的相关信息，并将环境中的相应的物理量转化为电学量；本系统中的传感器可以是任意种类任意数量的传感器，光学、电学、压力、温度、声音传感器。

具体的，神经形态电路核心由忆阻器交叉阵列构成，忆阻器交叉阵列是横纵交错的字线和位线以及交叉点处的忆阻器构成。忆阻器交叉阵列在保持其电路网络结构的前提下，允许加入其他非忆阻器的电子元件，如晶体管、二极管等，不违背本发明的精神。神经形态电路在电路结构上具有神经网络的结构，用所述神经形态电路中忆阻器的电导值作为神经网络中突触的权重值。

同样，这里的忆阻器件指代电阻可以根据电学刺激而改变的器件，任意材料的忆阻器都可以在本发明中使用，均不违背本发明的精神，在本专利的保护范围之内。

神经形态电路为了实现模拟神经突触网络的功能，还需要一些外围电路模块辅助忆阻器阵列的工作。这些外围电路模块包含信号差分器、非线性模块以及多路复选开关。其中信号差分器用于将两路忆阻器信号做差分处理，这样可以在忆阻神经网络中引入负值权重。可添加非线性元件，在多层网络中引入或增强非线性。

另外，神经形态电路中还需要多路复选开关模块，主要在训练过程中用来对忆阻器进行权重更新操作。神经网络的规模大小，层数由神经形态电路的结构定义。

输出控制信号调制器连接神经形态电路的输出端，将模拟输出信号调制为匹配并可以驱动输出装置的信号，比如脉宽信号、幅值信号、频率信号等等；

输出装置接受到调制好的信号，驱动机器人产生相应的反应。可能主要包含的有各类马达电机，发光、发声、发热装置等等。同样的，这里的输出装置的种类由实际的应用需求决定，不同种类的输出装置均不违背本发明的精神。

外部监督模块和训练控制器用于监督学习。

训练控制器，用于在训练阶段根据当前传感器给出的信号和神经形态电路的输出信号，并结合外部监督模块的结果，配合所述多路复用开关控制电学刺激信号流入相关的特定忆阻器，使得忆阻器的权重产生更替，预设迭代次数，完成系统的监督学习。表现在机器人的行为上就是机器人可以拥有不同的输入-输出映射关系，最终使得机器人在有监督学习下掌握和优化新的技能。

进一步地，包括：

该系统还包括：脉冲产生装置，产生用于忆阻器权重更新的电学激励，其与训练控制器相连。

该发明为智能机器人技术提供了一个新的方法。通过忆阻电路的神经网络结构的连接，和忆阻器对模拟信号的调制作用，直接在硬件电路上模拟生物神经网络的运行。本发明中利用了一个忆阻神经形态电路作为机器人的控制核心，利用基于忆阻器的，具有神经网络结构的模拟电路来产生输入输出映射关系，使得机器人对不同环境产生不同的动作。理论上神经网络具有逼近任意函数的能力，而忆阻神经形态电路在硬件上构建的神经网络也具有相同的能力。在本发明中，忆阻形态神经电路可以通过学习训练过程来调整其内部的连接参数，从而逼近理想的输入输出映射关系。在机器人的行为上即可以表现为机器人在监督学习的过程后，可以学习到监督学习过程中教授的内容，在不用的环境下做出期望的反应，并且可以泛化到之前没有学习过的场景，做出合理正确的反应。

利用这种基于忆阻神经形态电路的新方法，制作出的机器人可以以更简单的结构，实现更低功耗和更快的反应速度。从而为实现具有规模更大的神经网络的机器人开辟道路。

以下为实施本发明提供的控制系统下制作的巡径机器人的一个具体实施例：

一个基于忆阻神经形态电路机器人小车的原型机，并且展示了该机器人可以通过学习过程具备循迹能力，不仅验证了该发明的可行性，同时也得到了忆阻神经形态电路具有极快的响应速度(约56ns)的实验结论。具体实施过程如下：

首先通过紫外掩模光刻技术，电子束蒸镀，磁控溅射，原子层沉积等微加工技术，制备出具有40nm靶/80nm钽/10nm氧化钽/40nm靶结构的忆阻器，如图3中的扫描电子显微镜照片所示。该种忆阻器具有良好的可调性质，受到电学脉冲激励后可以在100欧姆-4000欧姆之间连续改变阻值。然后利用这种忆阻器构建起交叉电路结构，这种结构等价于一层全连接神经网络的结构。如图4所示，左边的图是一个3乘3的忆阻器交叉阵列和右边的图是一层3乘3的全连接神经网络有相同的拓扑结构，将忆阻器视为突触，将电极端点视为神经元端点，这两种结构完全相同，本实施例采用一个神经形态电路作为神经网络的一层结构，也可考虑采用多个层电路作为神经网络的多层进行实验，得到学习结果。

依照图2所示的结构，搭建了图5所示的机器人小车作为基于忆阻器神经形态小车的原型机。

在本实施实例中，图5所示的各模块依靠印刷电路板的方式进行集成装配。具体在如下描述。在机器人小车的底盘前部安装有两个光强传感器，基于光敏电阻的原理，该传感器可以探测到底盘前部道路的明暗。探测到的光强信息被转化为了电压信号，光线由强到弱变化时，电压由高到低。该电压信号被缩小到0.2V以内后输入了神经形态电路中进行处理。忆阻器阵列通过焊线的方式引接在印刷电路板上。经过忆阻器交叉阵列电路之后，输出的信号为输入信号与忆阻器阵列内储存的权重矩阵的乘积，随后再经过差分放大电路得到一路模拟输出信号。该模拟输出信号在输出控制调制器的作用下，调制成为脉宽调制信号，进一步控制前轮舵机的转向。在该实例中，在该机器人的工作模式下，机器人会将实时探测到的信号进行处理，并以前轮的转动方向作为响应。值得注意的是，该机器人的组装搭建中的控制系统完全基于忆阻神经形态电路，没有采用任何数字处理器，这体现了该实例严格遵守本发明中的设计。

在该实例中，可以将机器人设置到学习模式，以训练改机器人执行特定任务。在该模式下，板载的脉冲信号发生器输出脉冲信号，按照设定的权值更新方法，通过多通道复用器将脉冲信号输入忆阻器以实现权值更新。在该实施例中，该机器人小车将被训练执行循迹任务。该机器人被放置在特殊环境中，外部监督模块根据机器人做出的响应来判断其响应的正确与否，控制进入忆阻器的脉冲的正负性。每遍历过所有的忆阻器称为一次迭代过程。如图6所示，记录迭代过程中的最大权重以及每次迭代的忆阻器权重，采用忆阻器权重/最大权重对权重进行归一化；该实例中的4个忆阻器经历了37次迭代过程后权重值发生了明显改变。而机器人小车的行为也发生了图7所示的变化。从图7左边所示的无法执行任务到图7右边所示，该机器人小车可以完整的完成循迹任务，展示了该小车作为智能机器人具有学习执行特定任务的能力，验证了本发明的有效性和可行性。

最后，发明人测试了该机器人小车用到的忆阻神经形态电路的响应速度，如图8所示。可以看到，以半摆幅点作为衡量标准下，该电路从输入到输出的响应速度平均在56ns的水平，对比通常的嵌入式单片处理器这已经有百倍的优势。该结果说明，基于更简单的结构和运算过程，本发明中的忆阻神经形态电路可以实现更快的实时响应速度。

本发明还提供一种基于忆阻交叉阵列的机器人控制方法，该方法包括以下步骤：

(3)将调制后的输入信号输入到神经形态电路的忆阻器交叉阵列中，经过忆阻器交叉阵列之后，输入信号向量与忆阻器交叉阵列内储存的权重矩阵的相乘，再经过差分放大电路得到一路或者多路模拟输出信号，驱动机器人产生相应的反应；

(6)训练控制器控制电学刺激信号流入到相关的特定忆阻器，使得忆阻器的权重产生更替。其结果是改变神经形态电路的权重值，表现为如果行为正确，加强较大权重，减弱较小权重。如果行为错误，则会加强较小权重，减弱较大权重。

进一步地，包括：

所述忆阻器交叉阵列由横纵交错的字线和位线以及交叉点处的忆阻器构成，进一步地，包括：

Claims

1.一种基于忆阻交叉阵列的机器人控制系统，其特征在于，包括传感器组、输入传感信号调制器、神经形态电路、输出控制信号调制器、输出装置、外部监督模块和训练控制器，所述神经形态电路包括N组级联的忆阻器电路，所述忆阻器电路包括忆阻器交叉阵列、差分放大电路以及多路复用开关，其中，N≥1，具体的：

所述差分放大电路和多路复用开关均连接在所述忆阻器交叉阵列上，经过忆阻器交叉阵列之后，输入信号向量与忆阻器交叉阵列内储存的权重矩阵的相乘，再经过差分放大电路得到一路或者多路模拟输出信号；所述多路复用开关，用于在训练过程中对忆阻器进行权重更新操作，其另一端与所述训练控制器相连；

2.根据权利要求1所述的基于忆阻交叉阵列的机器人控制系统，其特征在于，所述神经形态电路在电路结构上具有神经网络的结构，用所述神经形态电路中忆阻器的电导值作为神经网络中突触的权重值。

3.根据权利要求1所述的基于忆阻交叉阵列的机器人控制系统，其特征在于，所述忆阻器交叉阵列由横纵交错的字线和位线以及交叉点处的忆阻器构成，所述忆阻器交叉阵列在保持其电路网络结构的前提下，允许加入其他非忆阻器的电子元件。

4.根据权利要求1所述的基于忆阻交叉阵列的机器人控制系统，其特征在于，该系统还包括供电模块，其用于对其他所有模块负责以提供能源；全局时钟模块，用于协调其他各个不同模块有序协同工作。

5.根据权利要求1所述的基于忆阻交叉阵列的机器人控制系统，其特征在于，该系统还包括：

6.根据权利要求1所述的基于忆阻交叉阵列的机器人控制系统，其特征在于，所述神经形态电路还包括与所述忆阻器阵列相连的非线性元件。

7.一种基于忆阻交叉阵列的机器人控制方法，其特征在于，该方法包括以下步骤：

(3)将调制后的输入信号输入到神经形态电路的忆阻器交叉阵列中，经过忆阻器交叉阵列之后，输入信号向量与忆阻器交叉阵列内储存的权重矩阵的相乘，再经过差分放大电路得到一路或者多路模拟输出信号，输出装置接受到所述模拟输出信号，驱动机器人产生相应的反应；

(6)训练控制器控制电学刺激信号流入到相关的特定忆阻器，使得忆阻器的权重产生更替，其结果是改变神经形态电路的权重值，表现为：如果行为正确，加强较大权重，减弱较小权重；如果行为错误，则会加强较小权重，减弱较大权重。

8.根据权利要求7所述的基于忆阻交叉阵列的机器人控制方法，其特征在于，所述神经形态电路在电路结构上具有神经网络的结构，用所述神经形态电路中忆阻器的电导值作为神经网络中突触的权重值。

9.根据权利要求7所述的基于忆阻交叉阵列的机器人控制方法，其特征在于，所述忆阻器交叉阵列由横纵交错的字线和位线以及交叉点处的忆阻器构成，忆阻器交叉阵列在保持其电路网络结构的前提下，允许加入其他非忆阻器的电子元件。

10.根据权利要求7所述的基于忆阻交叉阵列的机器人控制方法，其特征在于，所述该方法还包括供电模块对其他模块提供能源；全局时钟模块协调其他各个不同模块有序协同工作。