CN113837121B

CN113837121B - 一种基于类脑的防疫机器人视听觉协同感知方法及系统

Info

Publication number: CN113837121B
Application number: CN202111142969.9A
Authority: CN
Inventors: 高洪波; 何希; 朱菊萍; 王源源
Original assignee: Institute of Advanced Technology University of Science and Technology of China
Current assignee: Institute of Advanced Technology University of Science and Technology of China
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-03-01
Anticipated expiration: 2041-09-28
Also published as: CN113837121A

Abstract

本发明提供了一种基于类脑的防疫机器人视听觉协同感知方法及系统，包括以下步骤：步骤S1：针对防疫机器人当前所处环境，进行基于机器视觉的环境目标检测与识别；步骤S2：当无法利用视觉精准确认环境目标时，进行基于改进的拟人耳定位机制的目标时延估计与定位；步骤S3：模拟人脑的视听觉协同感知原理，构建基于类脑的防疫机器人视听觉协同感知模型。本发明有效地提高了防疫机器人感知环境目标的准确性，增强了防疫机器人工作的高效性与安全性。

Description

一种基于类脑的防疫机器人视听觉协同感知方法及系统

技术领域

本发明涉及防疫机器人领域，具体地，涉及一种基于类脑的防疫机器人视听觉协同感知方法及系统。

背景技术

目前，防疫机器人的应用日益广泛，可以执行温度检测、自主巡逻、消毒杀菌等任务，工作环境一般比较复杂，甚至十分危险。随着防疫机器人的应用发展，对环境目标的感知功能是一个值得研究的重点。特别地，防疫机器人在目标感知过程中的准确性，对于防疫机器人的行驶安全和工作效率有着十分重要的影响。如何准确、可靠地感知环境目标，成为了防疫机器人研究的关键问题之一。

在公开号为CN109947954A的中国发明专利文件中，公开了一种多任务协同识别方法和系统，属于人工智能的任务识别技术领域，该系统包括通用特征提取模块、协同特征学习模块、适境反馈评估识别模块；基于时间同步匹配机制，提取多源异构数据的通用特征，实现所述多源异构数据的通用特征描述；结合基于外部依赖的协同注意机制，将所述通用特征作为先验知识进行训练，生成通用特征间的关联记忆关系；提取多源异构数据的环境感知参数，结合所述关联记忆关系，实现多任务识别。本发明结合环境感知的适境计算理论，通过深度增强反馈判断出待识别任务的权重，自适应地根据环境变化调整待识别任务的优先级，实现多个视听觉感知识别结果同时输出的效果。

对于我们来说，即人的大脑，如果依靠孤立的视觉信息或听觉信息，那么所获得的信息就不完整，甚至会出现判断失误。而对防疫机器人来说，模拟人视听觉协同感知的脑认知机制，构建基于类脑的视听觉协同感知模型，融合所采集的视觉、听觉信息，互相补充缺失信息，可以准确高效地检测、识别并定位环境目标。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于类脑的防疫机器人视听觉协同感知方法及系统。

根据本发明提供的一种基于类脑的防疫机器人视听觉协同感知方法，包括以下步骤：

步骤S1：针对防疫机器人当前所处环境，进行基于机器视觉的环境目标检测与识别；

步骤S2：当无法利用视觉精准确认环境目标时，进行基于改进的拟人耳定位机制的目标时延估计与定位；

步骤S3：模拟人脑的视听觉协同感知原理，构建基于类脑的防疫机器人视听觉协同感知模型。

优选的，所述步骤S1中，针对复杂环境和待感知目标的复杂形态与行为，采用超像素分割和光流法实时重建每个目标的三维形态与动态特征，具体包括以下步骤：

步骤S1.1：获得待感知目标的视觉信息，并将其预分割成超像素集合；

步骤S1.2：利用光流法确定待感知目标的粗略位置，并获得其动态特征信息；

步骤S1.3：对目标的动态特征信息进行滤波、二值化操作，得到精确的三维形态与动态特征，进而检测并识别出目标。

优选的，所述步骤S2中，在复杂的环境目标感知过程中，当无法利用视觉精准确认目标时，研究人听觉定位机理，并针对上行通路时延估计算法误差较大的缺点，在下行通路基于深度神经网络算法建立目标位置误差矫正估计模型；具体包括以下步骤：

步骤S2.1：获得待感知目标的听觉信息，并进行去噪预处理；

步骤S2.2：在听觉上行通路进行时延估计，初步预估目标当前所在位置；

步骤S2.3：在听觉下行通路，利用深度神经网络算法获得矫正后的目标位置。

优选的，所述步骤S3中，基于人的听觉通路中声源感知机理和视觉通路中目标感知机理，分析视听觉协同感知的脑认知机制，总结大脑皮层对视听觉刺激整合的区域及具体功能，构建基于类脑的防疫机器人视听觉协同感知模型。

优选的，所述构建基于类脑的防疫机器人视听觉协同感知模型，包括以下步骤：

步骤S3.1：建立基于机器视觉的环境目标检测与识别模型，获得目标检测信息；

步骤S3.2：建立基于改进的拟人耳定位机制的目标时延估计与定位模型，获得目标位置信息；

步骤S3.3：模拟人视听觉协同感知的脑认知机制，融合目标检测信息与目标位置信息，构建基于类脑的防疫机器人视听觉协同感知模型。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于类脑提出了一种视听觉协同感知模型，视觉模型输出目标检测信息，听觉模型输出目标位置信息，融合两种输出信息，互为补充，提高了防疫机器人感知环境目标的准确性。

2、本发明搭建了基于机器视觉的环境目标检测与识别模型，采用超像素分割和光流法实时重建每个环境目标的三维形态与动态特征，可以实现检测并识别出目标的效果。

3、本发明搭建了基于改进的拟人耳定位机制的目标时延估计与定位模型，利用动量BP算法对所估计的目标位置进行非线性矫正，提高了环境目标的定位精度，适用于复杂环境。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一种基于类脑的防疫机器人视听觉协同感知方法的流程示意图；

图2为本发明实施例中基于机器视觉的环境目标检测与识别的流程示意图；

图3为本发明实施例中基于改进的拟人耳定位机制的目标时延估计与定位的流程示意图；

图4为本发明实施例中拟人耳定位机制的目标时延估计与定位模型示意图；

图5为本发明实施例中基本BP算法的神经网络结构示意图；

图6为本发明实施例中基本BP算法计算广义误差的神经网络结构示意图；

图7为本发明实施例中基于类脑的防疫机器人视听觉协同感知模型示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本实施例公开了一种基于类脑的防疫机器人视听觉协同感知方法，参照图1，包括如下步骤：

步骤S1：针对防疫机器人当前所处环境，进行基于机器视觉的环境目标检测与识别。

参照图2，针对复杂环境和待感知目标的复杂形态与行为，采用超像素分割和光流法实时重建每个目标的三维形态与动态特征。具体包括以下子步骤：

步骤S1.1：获得待感知目标的视觉信息，并将其预分割成超像素集合。

需要说明的是，视觉信息一般是图像信息，预分割采用简单线性迭代聚类方法。例如，取t时刻的图像信息A_t，将其预分割成超像素集合C＝{c_i，t，i＝1，2，3，…，N}，其中，c_i，t为图像信息A_t的第i个超像素点，N为图像信息A_t所含超像素点的个数。每个超像素点具有相同的颜色和空间特征，可以有效地保留目标边缘。

步骤S1.2：利用光流法确定待感知目标的粗略位置，并获得其动态特征信息。

需要说明的是，光流法采用Horn-Schunck光流法，动态特征信息例如速度信息。再取t+1时刻的图像信息A_t+1，并结合A_t可以得到待感知目标的粗略位置，进而获得A_t中每个像素点的速度矩阵V_t。

步骤S1.3：对目标的动态特征信息进行滤波、二值化等操作，得到精确的三维形态与动态特征，进而检测并识别出目标。

需要说明的是，对矩阵V_t进行去噪滤波，可采用高斯滤波器，得到矩阵V′_t；然后，对矩阵V′_t进行二值化，将所有矩阵元素二值化为0或1，即将与矩阵元素对应的图像上像素点的灰度值设置为0或1，得到矩阵V″_t；最后，对矩阵V″_t进行形态学开运算去除噪声斑点，闭运算进行填充空洞，得到矩阵V″′_t。进一步说明的是，图像信息A_t对应于矩阵V″′_t中矩阵元素等于0的区域为背景区域，不等于0的区域为待感知目标所在的区域。

步骤S2：当无法利用视觉精准确认环境目标时，进行基于改进的拟人耳定位机制的目标时延估计与定位。

参照图3，在复杂的环境目标感知过程中，当无法利用视觉精准确认目标时，研究人听觉定位机理，并针对上行通路时延估计算法误差较大的缺点，在下行通路基于深度神经网络算法建立目标位置误差矫正估计模型。具体包括以下子步骤：

步骤S2.1：获得待感知目标的听觉信息，并进行去噪等预处理。

需要说明的是，利用谱减法，将所采集的听觉信息进行去噪滤波预处理，获得理想的听觉信息，以便于后续分析。

步骤S2.2：在听觉上行通路进行时延估计，初步预估目标当前所在位置。

需要说明的是，人脑的听觉定位机理，即利用双耳可以判断环境目标的具体空间方位。其中，双耳时间差起着不可缺少的作用，可根据时间差求解出空间方程，从而确定环境目标的位置。如图4所示的拟人耳定位机制的目标时延估计与定位模型示意图，采用麦克风阵列模拟人的耳朵，再对理想的听觉信息利用互相关算法进行时延估计，得出基于拟人耳定位机制的待感知目标的时延数值，这相当于双耳时间差，进而通过求解空间方程初步估计目标所在的位置。

需要说明的是，在进行时延估计过程中，由于算法结构问题等会产生较大的误差，导致对待感知目标位置的估计不精确。类似地，人的大脑皮层的听觉中枢会对下丘有调节作用，对声源位置进行矫正。因此，在听觉下行通路，通过深度神经网络算法对位置估计存在的误差进行矫正。

需要进一步说明的是，深度神经网络算法采用具有动量项的多层前向网络的误差反向传播，简称MOBP算法。具体算法过程如下：

对于L层前向网络，如图5所示，设输入模式为X_p，则第一隐含层第j个神经元的输出为

其中，Γ()为隐含层激励函数，w_ji为第j个输出神经元到第i个输入神经元的连接权系数，x_pi为在输入模式X_p下的第i个神经元的输入信号，i＝1，2，…，n_i，总共有n_i个输入信号，θ_j为第j个神经元的阈值，j＝1，2，…，n_o，总共有n_o个输出信号。

网络(最后一层)的输出为

其中，表示在输入模式X_p下第L层(最后一层)的第j个神经元的净输入、或有效输入、或总输入，是神经元j的一个内部状态变量。

一般地，第r+1个隐含层的输入是第r个隐含层的输出，则

定义第r层第j个神经元的输出广义误差为

其中，为误差函数，t_pj为神经网络的理论输出值，/>表示在输入模式X_p下第r层的第j个神经元的净输入。

如图6所示，输出广义误差算法为

其中，为第r+1层第k个神经元的输出广义误差，/>为第r+1层第k个输出神经元到第j个输入神经元的连接权系数，k＝1，2，…，n_r+1，n_r+1为第r+1层的神经元个数，

增加动量项后，权值调整算法为

Δ_pW(N)＝(1-α)ηD_p(N)+αΔ_p′W(N-1)

其中，为第r层第j个神经元与第r-1层第i个神经元间的连接权系数，0≤α＜1为动量因子，η为学习步长，选取范围通常在0.01～0.8之间，/> 为N时刻误差函数/>的负梯度，Δ_p′W(N-1)为上一次迭代时权值的调整量(假定对应第p′个输入样本)。

MOBP算法是多层前向传播神经网络，所有计算单元的激励函数都为Sigmoid函数，利用试凑法确定隐含层个数及隐含层的节点数。最后，选取合适的训练样本进行训练，再利用训练好的MOBPNN模型矫正待感知目标的位置误差。

参照图7，基于人的听觉通路中声源感知机理和视觉通路中目标感知机理，分析视听觉协同感知的脑认知机制，总结大脑皮层对视听觉刺激整合的区域及具体功能，构建基于类脑的防疫机器人视听觉协同感知模型。具体包括以下子步骤：

需要说明的是，此模型的输入为待感知目标的视觉信息，输出为待感知目标的检测信息，并由图像预处理、超像素分割、光流法这三个模块组成。

需要说明的是，此模型的输入为待感知目标的听觉信息，输出为待感知目标的位置信息，并由音频预处理、时延估计、深度神经网络算法这三个模块组成。

需要说明的是，融合基于机器视觉的环境目标检测与识别模型的输出信息与基于改进的拟人耳定位机制的目标时延估计与定位模型的输出信号，即融合待感知目标的检测信息与待感知目标的位置信息，模拟人脑的视听觉协同感知机理，最终实现检测、识别并定位环境目标。

本发明基于人的大脑提出了一种视听觉协同感知模型，视觉模型部分为基于机器视觉的环境目标检测与识别模型，听觉模型部分为基于改进的拟人耳定位机制的目标时延估计与定位模型，融合视觉模型的输出信息与听觉模型的输出信号，模拟人脑的视听觉协同感知机理，构建基于类脑的防疫机器人视听觉协同感知模型，最终实现检测、识别并定位环境目标。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于类脑的防疫机器人视听觉协同感知方法，其特征在于，包括以下步骤：

步骤S3：模拟人脑的视听觉协同感知原理，构建基于类脑的防疫机器人视听觉协同感知模型；

所述步骤S2中，在复杂的环境目标感知过程中，当无法利用视觉精准确认目标时，研究人听觉定位机理，并针对上行通路时延估计算法误差较大的缺点，在下行通路基于深度神经网络算法建立目标位置误差矫正估计模型，具体包括以下步骤：

步骤S2.1：获得待感知目标的听觉信息，并进行去噪预处理；

步骤S2.3：在听觉下行通路，利用深度神经网络算法获得矫正后的目标位置；

所述深度神经网络算法采用具有动量项的多层前向网络的误差反向传播，简称MOBP算法；具体算法过程如下：

对于L层前向网络，设输入模式为X_p，则第一隐含层第j个神经元的输出为

其中，Γ()为隐含层激励函数，w_ji为第j个输出神经元到第i个输入神经元的连接权系数，x_pi为在输入模式X_p下的第i个神经元的输入信号，i＝1,2,…,n_i，总共有n_i个输入信号，θ_j为第j个神经元的阈值，j＝1,2,…,n_o，总共有n_o个输出信号；

网络的输出为

其中，表示在输入模式X_p下第L层的第j个神经元的净输入、或有效输入、或总输入，是神经元j的一个内部状态变量；

第r+1个隐含层的输入是第r个隐含层的输出，则

定义第r层第j个神经元的输出广义误差为

其中，为误差函数，t_pj为神经网络的理论输出值，/>表示在输入模式X_p下第r层的第j个神经元的净输入；

输出广义误差算法为

其中，为第r+1层第k个神经元的输出广义误差，/>为第r+1层第k个输出神经元到第j个输入神经元的连接权系数，k＝1,2,…,n_r+1，n_r+1为第r+1层的神经元个数，/>

增加动量项后，权值调整算法为

Δ_pW(N)＝(1-α)ηD_p(N)+αΔ_p′W(N-1)

其中，为第r层第j个神经元与第r-1层第i个神经元间的连接权系数，0≤α<1为动量因子，η为学习步长，选取范围通常在0.01～0.8之间，/> 为N时刻误差函数/>的负梯度，Δ_pW(N)为当前迭代时权值的调整量，为Δ_p′W(N-1)为第p′个输入样本上一次迭代时权值的调整量；

MOBP算法是多层前向传播神经网络，所有计算单元的激励函数都为Sigmoid函数，利用试凑法确定隐含层个数及隐含层的节点数；最后，选取合适的训练样本进行训练，再利用训练好的MOBPNN模型矫正待感知目标的位置误差。

2.根据权利要求1所述的一种基于类脑的防疫机器人视听觉协同感知方法，其特征在于：所述步骤S1中，针对复杂环境和待感知目标的复杂形态与行为，采用超像素分割和光流法实时重建每个目标的三维形态与动态特征，具体包括以下步骤：

3.根据权利要求1所述的一种基于类脑的防疫机器人视听觉协同感知方法，其特征在于：所述步骤S3中，基于人的听觉通路中声源感知机理和视觉通路中目标感知机理，分析视听觉协同感知的脑认知机制，总结大脑皮层对视听觉刺激整合的区域及具体功能，构建基于类脑的防疫机器人视听觉协同感知模型。

4.根据权利要求3所述的一种基于类脑的防疫机器人视听觉协同感知方法，其特征在于：所述构建基于类脑的防疫机器人视听觉协同感知模型，包括以下步骤：

5.一种基于类脑的防疫机器人视听觉协同感知系统，其特征在于，包括以下模块：

模块M1：针对防疫机器人当前所处环境，进行基于机器视觉的环境目标检测与识别；

模块M2：当无法利用视觉精准确认环境目标时，进行基于改进的拟人耳定位机制的目标时延估计与定位；

模块M3：模拟人脑的视听觉协同感知原理，构建基于类脑的防疫机器人视听觉协同感知模型；

所述模块M2中，在复杂的环境目标感知过程中，当无法利用视觉精准确认目标时，研究人听觉定位机理，并针对上行通路时延估计算法误差较大的缺点，在下行通路基于深度神经网络算法建立目标位置误差矫正估计模型，具体包括以下步骤：

模块M2.1：获得待感知目标的听觉信息，并进行去噪预处理；

模块M2.2：在听觉上行通路进行时延估计，初步预估目标当前所在位置；

模块M2.3：在听觉下行通路，利用深度神经网络算法获得矫正后的目标位置；

网络的输出为

第r+1个隐含层的输入是第r个隐含层的输出，则

定义第r层第j个神经元的输出广义误差为

输出广义误差算法为

其中，为第r+1层第k个神经元的输出广义误差，/>为第r+1层第k个输出神经元到第j个输入神经元的连接权系数，k＝1,2,…,n_r+1，n_r+1为第r+1层的神经元个数，

增加动量项后，权值调整算法为

Δ_pW(N)＝(1-α)ηD_p(N)+αΔ_p′W(N-1)

6.根据权利要求5所述的一种基于类脑的防疫机器人视听觉协同感知系统，其特征在于：所述模块M1中，针对复杂环境和待感知目标的复杂形态与行为，采用超像素分割和光流法实时重建每个目标的三维形态与动态特征，具体包括以下步骤：

模块M1.1：获得待感知目标的视觉信息，并将其预分割成超像素集合；

模块M1.2：利用光流法确定待感知目标的粗略位置，并获得其动态特征信息；

模块M1.3：对目标的动态特征信息进行滤波、二值化操作，得到精确的三维形态与动态特征，进而检测并识别出目标。

7.根据权利要求5所述的一种基于类脑的防疫机器人视听觉协同感知系统，其特征在于：所述模块M3中，基于人的听觉通路中声源感知机理和视觉通路中目标感知机理，分析视听觉协同感知的脑认知机制，总结大脑皮层对视听觉刺激整合的区域及具体功能，构建基于类脑的防疫机器人视听觉协同感知模型。

8.根据权利要求7所述的一种基于类脑的防疫机器人视听觉协同感知系统，其特征在于：所述构建基于类脑的防疫机器人视听觉协同感知模型，包括以下模块：

模块M3.1：建立基于机器视觉的环境目标检测与识别模型，获得目标检测信息；

模块M3.2：建立基于改进的拟人耳定位机制的目标时延估计与定位模型，获得目标位置信息；

模块M3.3：模拟人视听觉协同感知的脑认知机制，融合目标检测信息与目标位置信息，构建基于类脑的防疫机器人视听觉协同感知模型。