CN107351080A

CN107351080A - 一种基于相机单元阵列的混合智能研究系统及控制方法

Info

Publication number: CN107351080A
Application number: CN201710457327.5A
Authority: CN
Inventors: 郑能干; 关凯; 朱健; 欧阳震寰; 刘栋; 潘纲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2017-11-17
Anticipated expiration: 2037-06-16
Also published as: CN107351080B

Abstract

本发明公开了一种基于相机单元阵列的混合智能研究系统及利用该系统控制动物机器人的方法，属于混合智能技术领域。所述混合智能研究系统，包括：动物机器人及其实验场景；若干阵列排布的图像采集单元，用于实时采集具有动物机器人实验场景的图像；图像处理器，将所述图像进行拼接、前背景分割、行为特征提取；刺激指令生成及输出单元，依据动物机器人当前的行为状态，利用预训练模型生成刺激指令；负载在动物机器人上的微型无线电子背包，接收所述刺激指令，对动物机器人进行微电刺激。本发明利用相机单元阵列的无限扩展性以及在控制部分引入人工智能算法，解决了现今混合智能研究领域动物精细行为采集与准确实时控制无法兼得的问题。

Description

一种基于相机单元阵列的混合智能研究系统及控制方法

技术领域

本发明涉及混合智能技术领域，具体涉及一种基于相机单元阵列的混合智能研究系统及利用该系统控制动物机器人的方法。

背景技术

人工智能经过了半个多世纪的研究，发现机器在搜索、计算、存储、优化等较为低层次方面与人类相比，具有巨大的优势，然而，在更高层次的感知、推理、归纳和学习等方面尚无法与人类相比。为了使机器智能与人类智能发挥各自的优势，混合智能这个概念在2012年左右被提出。即，将智能研究扩展到生物智能和机器智能的双向互通，融合各自所擅长的方面，创造出性能更强的智能混合体。混合智能是以生物智能和机器智能的深度融合为目标，通过相互连接通道，建立兼具生物智能体的环境感知、记忆、推理、学习能力和机器智能体的信息整合、搜索、计算能力的新型智能形式。

比传统的仿生学或生物机器人更进一步，混合智能系统的目的，是要构建一个双向闭环的，既包含生物体，又包含人工智能的有机系统。其中，生物体可以接手从人工智能体的传来的信息，人工智能体亦可读取生物体的信息，两者信息无缝交互。同时，生物体对人工智能体的改变具有实时反馈，反之亦然。混合智能系统不仅仅是生物与机械的融合体，而是同时融合生物、机械、电子、信息等多领域的有机整体，实现系统的行为、感知、认知等能力的增强。这一探索有望为神经康复等领域提供新的研究思路，在残障康复、抢险救灾、国防安保等领域具有广阔的应用前景。

基于脑机接口技术的动物机器人是混合智能研究中的一个热门方向。动物机器人是以动物为载体，利用脑机接口技术构建的动物机器混合系统。与传统机械机器人相比，结合了动物生理优势的动物机器人，大大简化了机械机器人在机械设计与实现中的各种问题。同时，利用动物与生俱来的灵活性、环境适应性以及自主决策等多个方面的优势，使得其较传统机械机器人更加适合某些特殊环境中的复杂任务。将最新的人工智能算法引入传统的动物机器人控制中，将使得动物机器人这一优势能够得到更好的发挥，同时，在于生物体交互的过程中，使得计算机能够对生物体进行更加深入的理解。

现阶段的混合智能研究系统或是动物机器人控制系统中，多是实验人员利用原有动物行为分析系统在计算机屏幕上展示的动物机器人实时的行为视频作为控制依据，手工或是根据简单的既定规则操作无线微型刺激器，形成闭环控制，进而探索混合智能体在环境感知，记忆推理等方面的能力。这套系统所具有的问题有：控制实时性不强，行为分析较为粗糙，分析与控制受主观因素影响较大等。同时，为了探索生物体与人工智能结合而成的混合智能体的能力上限，现阶段行为实验中通常所用的较小的实验场景已经无法满足需求，针对大型实验场景的可扩展行为分析或是混合智能研究系统，截止目前尚未有报导。

发明内容

本发明的目的在于提供一种基于相机单元阵列的混合智能研究系统，实现大范围实验场景的图像采集及动物机器人精细行为识别，解决了现今混合智能研究领域动物精细行为采集与准确实时控制无法兼得的问题。

为实现上述目的，本发明采用如下技术方案：

一种基于相机单元阵列的混合智能研究系统，包括：

动物机器人及其实验场景；

若干阵列排布的图像采集单元，用于实时采集具有动物机器人实验场景的图像；

图像处理器，将所述图像拼接，获得全局图像，将仅包含动物机器人的前景图像从所述全局图像中分割出来，从所述前景图像中提取动物机器人的形态学特征；

刺激指令生成及输出单元，依据动物机器人当前的行为状态，利用预训练模型生成刺激指令；

负载在动物机器人上的微型无线电子背包，接收所述刺激指令，对动物机器人进行微电刺激。

本发明的混合智能研究系统，通过图像采集单元实时采集动物机器人原始的视频行为数据，并对原始的视频行为数据进行一系列处理，提取行为特征，再利用提取识别到的特征生成相应的刺激指令，并转换成相应的刺激参数，发送给动物机器人负载的微型无线电子背包，对动物机器人进行刺激，动物机器人作出响应动作，同时图像采集单元采集此刻动物机器人视频行为数据，重复上述的处理过程，并发送刺激参数，以达到与动物机器人交互的目的。

所述图像采集单元为相机，可选用普通网络摄像头、高速摄像机或红外摄像机，相机所使用镜头的视角由相机单元成像面与实验场景底面的距离以及相机阵列的安装密度共同决定。作为优选，所述图像采集单元以m×n的矩阵形式排布，其中m、n为2～8。

所述图像处理器包括：

图像矫正模块，对采集的原始图像进行矫正和拉直；

图像拼接模块，对矫正后的图像按物理排列顺序进行拼接及边缘融合，得到全局图像；

图像分割模块，对全局图像进行前/后景分割，获得仅包含动物机器人的前景图像；

特征提取模块，包括静态特征提取模块和动态特征提取模块，所述静态特征包括动物机器人的轮廓、面积、骨架线、重心坐标、面部朝向；所述动态特征包括运动速度、转动速度、头部角速度。

以上各个模块之间为前后衔接关系，按照矫正、拼接、分割和特征提取的顺序对采集的原始图像进行处理，得出动物机器人当前的行为特征。

所述刺激指令生成及输出单元包括：

特征识别模块，对提取的形态学特征进行识别，判断动物机器人当前的行为状态；

指令生成模块，以行为状态进行输入，通过预训练模型算出刺激指令，并输出；

指令转换模块，根据刺激指令生成相应的刺激参数；

指令传输模块，通过无线通信方式，将刺激参数发送到微型无线电子背包。

所述特征识别模块为预训练好的分类器；

所述指令生成模块为预训练好的图模型或神经网络。

作为优选，所述特征识别模块和指令生成模块利用深度强化学习算法一步完成。仅用一个神经网络代替判断动物机器人当前的行为状态中所使用的传统分类器以及使用预训练模型输出刺激指令这两部分的功能，实现端到端的控制。

所述强化学习算法一般交互框架为：代表算法的智能体利用环境的输入状态S及环境给出的奖励值r(注：奖励值为一个实数)，训练策略π；策略指的是在算法接收到状态S，获得奖励r的情况下，对下一步做出的动作A的选择。强化学习算法的目的是，利用与环境的交互，学习到最优策略π^*，使得在每个任务回合中，获得尽可能高的累积奖励值。

作为优选，所述智能体所采用的算法为Actor-Critic。

上述的图像处理器和刺激指令生成及输出单元可以为一个硬件系统，包括各个硬件功能模块；也可以通过软件和硬件相结合，比如为一台运行有各种功能软件的计算机，进一步地，该计算机还应包括各种信号无线收发设备(如蓝牙发送和接收设备)。

本发明还提供了一种基于混合智能研究系统的动物机器人控制方法，包括以下步骤：

(1)利用若干阵列排布的图像采集单元，实时采集具有动物机器人实验场景的图像；

(2)对采集的原始图像进行矫正、拼接获得全局图像，再将仅包含动物机器人的前景图像从所述全局图像中分割出来，从所述前景图像中提取动物机器人的形态学特征；所述形态学特征包括静态特征和动态特征，所述静态特征包括动物机器人的轮廓、面积、骨架线、重心坐标、面部朝向；所述动态特征包括运动速度、转动速度、头部角速度；

(3)对提取的形态学特征进行识别，判断动物机器人当前的行为状态，通过预训练模型计算并输出刺激指令；

(4)负载在动物机器人上的微型无线电子背包接收所述刺激指令，对动物机器人进行微电刺激。

步骤(2)中，所述矫正，包括：

(a)利用相机矫正算法，获得各个图像采集单元的矫正参数；

作为优选，利用Zhengyou Zhang的相机矫正算法，获得矫正参数，通常情况下，得到的矫正参数为一个3×3的相机内参矩阵，以及1×5的相机畸变参数矩阵。

(b)利用矫正参数对采集的原始图像进行矫正和重映射，获得矫正图像。

矫正和重映射采用OpenCV开源库中所提供的的矫正和重映射方法。

所述拼接，包括：

(ⅰ)利用SIFT特征提取方法提取矫正图像的特征点，计算相邻两幅矫正图像中任意两个特征点之间的欧式距离；

SIFT(scale-invariant feature transform)特征点构建具体流程为：

利用矫正图像构建尺度空间，利用DoG算子检测尺度空间中的极值点，对极值点进行精确定位，过滤掉不稳定的极值点，剩下稳定的极值点作为特征点，为每一个特征点计算特征描述符，分配主方向。

作为优选，SIFT特征提取方法中，尺度金字塔层数为5～8层，特征描述符的维度为128维。

(ⅱ)利用RANSAC方法为所有的特征点进行两两配对，将矫正图像进行旋转平移使得配对的两个特征点重合，再针对相邻矫正图像的重叠部分进行边缘融合处理，获得全局图像。

作为优选，融合处理采用基于羽化融合的图像拼接算法。

针对实验场景不会出现剧烈变化的情况，可在实验前对场景图像进行预拼接，得到旋转平移矩阵，在实验过程中直接进行拼接操作，省去计算特征点描述符以及特征点匹配的计算消耗。

整个算法中插值部分所占时间超过总时间的50％，即在计算重映射矩阵后，需要将单个摄像头采集到的原图插值到全局图像所属的那部分大小。为了缩短算法占用的时间，本发明做了进一步优化，1)重映射的插值算法为双线性插值算法，以加快插值计算。2)将全局图像进行划区块，根据动物机器人在上一帧全局图像中所处的位置，判断所处的区块编号，在这一帧的计算中仅对该区块进行插值处理，其余区块利用上一帧缓存的背景图像进行更新。

步骤(2)中，采用自适应混合高斯背景差分方法对全局图像进行前/背景分割，得到仅包含动物机器人的二值图像。

a)利用上述拼接融合得到的全局图像I_G，采用自适应混合高斯背景差分方法，得到前/背景分割后的二值图像I_B；

所述自适应混合高斯背景差分方法，具体如下：

ⅰ假设全局图像I_G中每个像素仅属于两种类别(前景像素与背景像素)中的一种，t时刻观测到任意一个像素的像素值为X_t的概率可以表示为：

ⅱ当在t时刻采集导新的一幅全局图像后，针对该图像的每个像素，均做以下操作：

将该点的像素值X_t同当前K个高斯成分按下式进行比较，直到找到匹配该点像素值的分布成分，即同该成分的均值偏差在ρ倍标准差内：

|X_t-μ_i,t|≤ρσ

作为优选，α设置为2.5。

若匹配的成分属于背景成分，则该像素属于背景，否则属于前景；

ⅲ各个成分的参数ω_i,t按照以下公式进行更新：

ω_i,t＝ω_i,t-1+α(o_i,t-ω_i,t-1)+αc_T

其中，α为学习率，c_T为先验参数，o_i,t为零一二值一维向量，维度与t-1时刻高斯成分的数量相同，且对应该像素，其属于的高斯成分编号处该向量值为1，其余部分值为0。

b)对二值图像I_B做开操作，并计算像素值大于0连通域所包含的像素点个数；对所有连通域对应的像素点个数进行降序排序，保留超过给定阈值的像素个数最大对应得连通域(针对仅有一个动物机器人的情况；若实验中有N只动物机器人，则可保留前N大个连通域)，其余连通域内的像素点均赋值为0，得到仅包含动物机器人的二值图像I_BR；保留的连通域内像素值将被赋值为255；

作为优选，保留连通域像素个数阈值设置应根据动物机器人投影面积与实验场景比例及全局图像I_G分辨率进行设定。

当动物机器人为大鼠，提取其形态学信息。

1)利用上述的二值图像I_BR，采用Canny算子提取边缘信息，选取最长的连续边缘作为大鼠身体的轮廓；其中Canny算子参数中的核大小应按照大鼠投影面积与实验场景比例及全局图像I_G分辨率进行设定。

2)利用上述二值图像I_BR，计算前景部分(像素值大于0的区域)的零阶和一阶矩，进而计算出大鼠重心；具体计算公式为：

其中，m₀₀,m₀₁,m₁₀分别为零阶距、一阶矩的两个分量，其的计算公式为：

m₀₀＝∑_x∑_yp(x,y)，m₁₀＝∑_x∑_yxp(x,y)，m₀₁＝∑_x∑_yyp(x,y)。

3)利用上述二值图像I_BR，采用Zhang and C.Y.Suen的骨架提取算法，得到大鼠的骨架。

4)对上述的二值图像I_BR进行腐蚀操作，得到去除大鼠尾部的二值图像I_BRB，计算二值图像I_BRB的前景部分的凸包，遍历凸包顶点，将距离上述的大鼠重心最远的顶点标记为大鼠鼻尖坐标P_N；其中腐蚀操作参数：核的大小，应设置为大于等于大鼠尾部半径所占的像素点数。

5)以上述大鼠鼻尖坐标P_H为圆心，在适当的半径范围内分割上述二值图像I_BRB，得到大鼠头部区域H_R；计算大鼠头部区域H_R的零阶及一阶矩，得到大鼠头部区域重心位置P_HR，其计算公式与上述计算大鼠重心相同，将由大鼠头部重心P_HR指向大鼠鼻尖P_N的方向作为此时的大鼠头部朝向；

6)将上述二值图像I_BR与去除大鼠尾部的二值图像I_BRB做差分处理得到仅包含尾部的差分图I_BT，在该差分图中寻找最大连通域并判断其包含像素个数是否超过既定阈值，利用上述提取的大鼠骨架以及差分图I_BT，分割出大鼠尾部骨架部分；遍历尾部骨架像素点，找到距离上述去除大鼠尾部二值图像I_BRB中连通域边缘最近的点，将该点作为大鼠尾部与身体的结合点；沿尾部骨架，找到距离上述尾部与结合点最远的像素点，将该点作为大鼠尾尖所在位置。

本发明将利用上述方法提取出的行为特征输入预训练模型生成相应的刺激指令，随后对动物机器人特定区域进行刺激，所述预训练模型可以直接利用深度强化学习算法一步完成。

本发明通过植入位点的不同，可以刺激动物机器人的不同脑区，完成不同的研究。比如仅在MFB(中央前脑束，刺激该区域能够释放多巴胺，令动物产生愉悦感)区域进行植入，能够通过该系统研究不同程度的奖励对动物机器人的记忆能力、学习能力的影响。又比如同时在MFB和左右胡须区进行植入(利用胡须触碰反射)，可以进行动物机器人的导航研究。

进一步的，在微型无线电子背包中加入脑电采集模块，其可以在视频拍摄的同一时间通过蓝牙传送即时的脑电信号，经过处理，作为另一种形式的特征输入给指令生成模块。

本发明具备的有益效果：

(1)本发明中若干阵列排布的图像采集单元实时采集图像，通过矫正、拼接、分割、特征提取的方法对图像进行处理，整个处理过程耗时短(如利用六摄像头阵列，一般台式电脑进行数据处理，时间约为30ms)，利用相机单元的无限扩展性，为大范围实验场景中动物机器人行为信息的实时采集提供了有效可行的方法。

(2)本发明在刺激指令生成及输出单元引入人工智能算法，仅用一个神经网络代替判断动物机器人当前的行为状态中所使用的传统分类器以及使用预训练模型输出刺激指令这两部分的功能，实现端到端的控制，将使生物体与计算机的智能融合层次更进一步。

(3)本发明系统适用于混合智能感认知、学习、记忆、情感等复杂行为范式的研究。

附图说明

图1为发明的系统硬件部分的结构示意图。

图2为发明的系统中整体信息传递流程图。

图3为发明的系统图像处理分析模块的流程图。

图4为图像矫正拼接以及大鼠轨迹特征的结果示意图。

图5为大鼠的形态学特征提取的结果示意图。

图6为强化学习算法一般的交互示意图

具体实施方式

下面结合实施例对本发明作进一步说明。

实施例1

如图1所示，一种基于相机单元阵列的混合智能研究系统，包括负载有微型无线电子背包的动物机器人及其实验场地3，实验场地大小为1.6m×1.6m，实验场地水平放置在地面上。

距离地面2m的钢制框架上放置有平行于实验场地的平板，平板上固定安装有呈阵列排布的相机单元，相机单元包含6个相机1，组成2×3的阵列，其中，3个一组的相机间距离为0.5m，两组间的距离为0.35m。相机单元中所使用的相机1，为普通网络摄像头，摄像头型号为ANC HD1080P，分辨率为640×480，镜头焦距为4.8mm，相机通过USB2.0接口与计算机2相连。

4为相机单元拍摄区域间的重叠部分，重叠区域占拍摄区域的面积比例为20％～30％。

如图2所示，其为基于本发明的混合智能研究系统的信息流示意图。相机阵列采集得到的实验动物的行为视频流，作为计算机端的图像处理分析模块的输入，图像处理分析模块从视频流中提取出行为特征，将这些行为特征输入控制指令生成模块；

控制指令生成模块识别传入的行为特征，得出当前实验动物所处的行为状态，生成对应的控制指令，随后将所述的控制指令转换为对应的刺激参数，通过蓝牙发送装置将指令传送给背负在实验动物背部的微型无线电子背包，微型无线电子背包接受到刺激参数后，将对实验动物脑部的特定区域进行微电刺激。

如图3所示，为本发明中图像处理分析模块的具体流程图。相机单元阵列采集获得的原始图像，先按预先计算得到的各个相机单元的内参矩阵和畸变矩阵，进行矫正和重映射操作；

在矫正后的原始图像上，构建尺度空间，尺度金字塔共有5层，并利用DoG算子找到关键点；针对每个关键点，构建SIFT特征描述子，构建过程为：以特征点为中心取16*16的邻域作为采样窗口，将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图，最后获得4*4*8的128维特征描述子；计算特定点相对方向步骤为：计算该点的八个方向(0°,45°,90°,135°,180°,225°,270°,315°)的梯度值，梯度值即设置为该方向的权重，权重最大的方向作为该点的主方向。

对相邻两个相机单元采集到的图像上的特征描述子进行匹配，找到两幅图像中最近邻的关键点，采用的相似度判定度量为两个特征点的128维特征向量；利用关键点的配对信息，采用RANSAC方法，计算出两个相邻相机单元采集图像上的关键点集合的最优匹配方式；

利用上述的最优匹配方式，以其中一个相机单元的采集图像为基准，计算另一个相机单元采集图像对应的旋转和平移矩阵，并对其进行旋转和平移操作；

待所有的相邻相机单元图像完成匹配后，将得出一张拼接好的全局图像。

下一步将在原始的全局图像上进行前景的分离和行为特征的提取。首先对全局图像应用自适应的混合高斯背景差分算法，算法的第一步是收集连续的T张全局图像，构建背景模型，具体的是利用T张全局图像中所有像素的值，构建出各个高斯成分的均值μ_i和方差σ_i，高斯成分个数K上限一般设置为5～8。

此后，在T+1时刻，获取到一张新的全局图像。针对该图像的每个像素，均做以下操作：

1)将该点的像素值X_t+1同当前K个高斯成分按下式进行比较，直到找到匹配该点像素值的分布成分，即同该成分的均值偏差在ρ倍标准差内：

|X_t-μ_i,t|≤ρσ

2)若匹配的成分属于背景成分，则该像素属于背景，否则属于前景；

3)各个成分的参数ω_i,t+1按照以下公式进行更新：

ω_i,T+1＝ω_i,T+α(o_i,T+1-ω_i,t)+αc_T

其中，α为学习率，设置为1/T，c_T为先验参数，设置为c/T，c为一个负常数，本例中设置为-0.001，o_i,T+1为零一二值一维向量，维度与T时刻高斯成分的数量相同，且对应该像素，其属于的高斯成分编号处该向量值为1，其余部分值为0。

根据匹配结果，将大鼠所在的前景与实验场地所属的背景分割出来。对初步的前景分割结果，进行形态学操作，具体为：对分割后的二值图像，全图做开操作，并计算像素值大于0连通域所包含的像素点个数；对所有连通域对应的像素点个数进行降序排序，保留超过给定阈值的像素个数最大对应得连通域(针对仅有一只大鼠的情况；若实验中有N只大鼠，则可保留前N大个连通域)，其余连通域内的像素点均赋值为0，得到仅包含大鼠的二值图像；保留的连通域内像素值将被赋值为255；此操作能够去除相机热噪声带来的分割错误结果。处理后的分割二值图像I_BR传入下一步进行行为特征的提取。提取的特征包括：

大鼠轮廓：利用上述的二值图像I_BR，采用Canny算子提取边缘信息，选取最长的连续边缘作为大鼠身体的轮廓；其中Canny算子参数中的核的大小为3x3。

大鼠重心：利用上述的二值图像，计算前景部分(像素值大于0的区域)的零阶和一阶矩，进而计算出大鼠重心；具体计算公式为：

大鼠骨架：利用上述二值图像I_BR，采用Zhang and C.Y.Suen的骨架提取算法，得到大鼠的骨架；

大鼠鼻尖：对上述的二值图像I_BR进行腐蚀操作，得到去除大鼠尾部的二值图像，计算去除大鼠尾部的二值图像的前景部分的凸包，遍历凸包顶点，将距离上述的大鼠重心最远的顶点标记为大鼠鼻尖坐标P_H；其中腐蚀操作参数：核的大小，设置为3x3的菱形核；

大鼠头部朝向：以上述大鼠鼻尖坐标P_H为圆心，在适当的半径范围内去除大鼠尾部的二值图像，得到大鼠头部区域H_R；计算大鼠头部区域H_R的零阶及一阶矩，得到大鼠头部区域重心位置P_HR，其计算公式与上述计算大鼠重心相同，将由大鼠头部重心P_HR指向大鼠鼻尖P_N的方向作为此时的大鼠头部朝向θ；

大鼠尾尖：将上述二值图像I_BR与去除大鼠尾部的二值图像I_BRB做差分处理得到仅包含尾部的差分图I_BT，在该差分图中寻找最大连通域并判断其包含像素个数是否超过既定阈值，利用上述提取的大鼠骨架以及差分图I_BT，分割出大鼠尾部骨架部分；遍历尾部骨架像素点，找到距离上述去除大鼠尾部二值图像I_BRB中连通域边缘最近的点，将该点作为大鼠尾部与身体的结合点；沿尾部骨架，找到距离上述尾部与结合点最远的像素点，将该点作为大鼠尾尖所在位置P_T。

如图4所示，为本发明大鼠行为实验的采集和分析结果图，全图由六个子图拼接而成。图中灰白色点构成的轨迹为大鼠在迷宫中移动时大鼠重心的轨迹；白色箭头为大鼠头部朝向，箭头长度代表当前方向下大鼠前进的速度，白色箭头组成的轨迹表示大鼠头部朝向和速度在整个迷宫中移动时的变化。

如图5所示，为本发明对大鼠精细行为特征提取的结果图。其中，白色的两点分别标识出了大鼠的鼻尖和尾尖的位置，深色点为大鼠重心所在的位置；由大鼠鼻尖延伸出的线段代表大鼠当前头部朝向，线段长度代表大鼠当前前进的速度；以大鼠鼻尖点为圆心，所画的圆内代表大鼠头部的范围。

如图6所示，为本发明利用深度强化学习算法一步生成特征识别模块和指令生成模块。

强化学习控制大鼠算法实例：

1)强化学习算法一般交互框架为：代表算法的智能体利用环境的输入状态S及环境给出的奖励值r(注：奖励值为一个实数)，训练策略π；策略指的是在算法接收到状态S，获得奖励r的情况下，对下一步做出的动作A的选择。强化学习算法的目的是，利用与环境的交互，学习到最优策略π^*，使得在每个任务回合中，获得尽可能高的累积奖励值。

2)本例中的任务为，控制大鼠机器人从迷宫的起点触发，尽可能快速的通过迷宫，到达终点；任务回合以大鼠机器人进入迷宫为始，大鼠机器人到达终点或所用时间超过规定最大时间为终。

3)本例中，环境给予智能体的输入：状态S为上述特征提取步骤获得的大鼠机器人行为特征，每一步的奖励值r由既定的规则产生；

具体规则为：

a)任务回合终止前，智能体每一步与环境交互过程中，固定获得一个惩罚奖励r_s，(注:r_s一般设置为一个很小的负值)本例中r_s设置为-0.001；

b)任务回合终止前，智能体每一步与环境交互过程中，固定获得一个距离奖励r_d，r_d计算公式为：

r_d＝1，d_cur＜d_pre；

r_d＝0，d_cur＝d_pre；

r_d＝-1，d_cur＞d_pre。

其中d_cur,d_pre分别为这一步中大鼠机器人与迷宫终点的距离及上一步中大鼠机器人与迷宫终点的距离；

c)在智能体与环境交互的某一步中，大鼠机器人到达迷宫终点，智能体获得任务成功奖励r_win，本例中r_win设置为10；

d)在智能体与环境交互的某一步中，大鼠机器人超出规定时间，未能到达迷宫终点，智能体获得任务失败奖励r_loss，本例中r_loss设置为-10；

e)最终，与环境的每个交互步中，智能体获得的奖励值r＝r_s+r_d+r_win+r_loss，r_win与r_loss当且仅当任务终止前那一步为设定值，其余步中均为0。

4)本例中，智能体输出的控制动作A有四个选择，分别为：前进，左转，右转，不操作。

5)本例中，智能体所采用的算法为Actor-Critic。具体实施为：

a)Actor-Critic算法中的两个部分：策略π以及价值函数v，两者均采用两层全连接神经网络(每层节点数为512)进行拟合；

b)算法更新策略及价值函数的过程中，采用n-step(n步)的TD-error的更新方式，本例中n＝20；

c)算法中step的定义为，相机单元阵列采集到一帧原始图像，此图像经过处理得到行为特征，特征输入智能体，智能体输出控制指令，无线电刺激背包接收到指令并对大鼠机器人进行刺激这一过程。

如表格1所示，本例中，整个流程所耗时间约为30ms。其中，特征提取与视频储存部分，因程序中视频存储功能利用多线程进行实现，该时间仅包含将图片发送给视频储存线程所占用时间。

表1

Claims

1.一种基于相机单元阵列的混合智能研究系统，包括：

动物机器人及其实验场景；

2.如权利要求1所述的混合智能研究系统，其特征在于，所述图像采集单元以m×n矩阵形式排布，其中m、n为2～8。

3.如权利要求1所述的混合智能研究系统，其特征在于，所述图像处理器包括：

图像矫正模块，对采集的原始图像进行矫正和拉直；

4.如权利要求1所述的混合智能研究系统，其特征在于，所述刺激指令生成及输出单元包括：

指令转换模块，根据刺激指令生成相应的刺激参数；

5.一种基于混合智能研究系统的动物机器人控制方法，其特征在于，包括以下步骤：

6.如权利要求5所述的动物机器人控制方法，其特征在于，步骤(2)中，所述矫正，包括：

(a)利用相机矫正算法，获得各个图像采集单元的矫正参数；

7.如权利要求6所述的动物机器人控制方法，其特征在于，重映射的插值算法为双线性插值算法。

8.如权利要求6所述的动物机器人控制方法，其特征在于，所述拼接，包括：

9.如权利要求8所述的动物机器人控制方法，其特征在于，SIFT特征提取方法中，尺度金字塔层数为5～8层，特征描述符的维度为128维。

10.如权利要求5所述的动物机器人控制方法，其特征在于，步骤(2)中，采用自适应混合高斯背景差分方法对全局图像进行前/背景分割，得到仅包含动物机器人的二值图像。