CN109241912A

CN109241912A - 面向无人自主系统的基于类脑跨媒体智能的目标识别方法

Info

Publication number: CN109241912A
Application number: CN201811046842.5A
Authority: CN
Inventors: 刘扬; 周毅; 刘春�; 杨伟; 沈亚田; 孟伟; 孔德珍
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2018-09-08
Filing date: 2018-09-08
Publication date: 2019-01-18
Anticipated expiration: 2038-09-08
Also published as: CN109241912B

Abstract

本发明提供一种面向无人自主系统的基于类脑跨媒体智能的目标识别方法。该方法包括：步骤1、获取无人自主系统采集到的目标场景的视音频数据，对所述视音频数据进行预处理，提取所述视音频数据中的语言文字，将所述语言文字采用分布式表示，得到词向量；步骤2、结合对象时空上下文信息，对预处理后的视音频数据和词向量进行显著性计算；步骤3、根据显著性计算结果和对象时空上下文信息，训练多模态融合神经网络，提取视音频数据和词向量的属性语义信息；步骤4、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识，采用认知计算和贝叶斯推理，得到目标场景中的目标语义信息。本发明能有效提升无人自主设备的智能化目标识别效果。

Description

面向无人自主系统的基于类脑跨媒体智能的目标识别方法

技术领域

本发明涉及无人自主智能控制技术领域，尤其涉及面向无人自主系统的基于类脑跨媒体智能的目标识别方法。

背景技术

人工智能与无人系统融合形成无人自主系统(UAS)，目前无人自主系统已形成陆、海、空、天一体化体系。在移动场景中，无人自主系统是智能机器人和无人自主设备对目标进行分析与识别的重要的智能支撑系统。

智能机器人(如工业机器人、服务机器人、空间机器人、海洋机器人以及无人车间等)的无人系统先后经历了自动化、智能化、自主化以及集群化的发展过程。诸如无人机(UAV)、无人车(UGV)、无人船(USV)以及无人潜航器(UUV)等无人自主设备的系统智能化感知和控制，融合了3C技术(即控制、计算和通信)以及材料等多学科技术。

要实现无人自主系统的智能化的自主控制，必须解决其对环境信息的态势感知和目标认知问题。目前基于传统方法的无人系统目标识别，考虑到系统的复杂性和实施困难，大多采用单模态识别方法，无法解决跨媒体或跨模态的目标属性的多模态差异问题。如何采用类脑跨媒体智能方法进行无人自主系统的目标识别，使智能机器人和无人自主设备实现对环境信息的动态态势感知，自主控制和执行任务是目前亟需解决的重要问题。

发明内容

为解决现有技术中存在的上述问题，本发明提供一种面向无人自主系统的基于类脑跨媒体智能的目标识别方法，可解决跨模态和跨媒体的目标属性的多模态差异，实现环境信息的态势感知和目标认知，使得智能机器人和无人自主设备能够动态感知环境信息，自主控制和执行任务。

本发明提供一种面向无人自主系统的基于类脑跨媒体智能的目标识别方法，该方法包括：

步骤1、获取无人自主系统采集到的目标场景的视音频数据，对所述视音频数据进行预处理，提取所述视音频数据中的语言文字，将所述语言文字采用分布式表示，得到词向量；

步骤2、结合对象时空上下文信息，对预处理后的视音频数据和所述词向量进行显著性计算；

步骤3、根据显著性计算结果和对象时空上下文信息，训练多模态融合神经网络，提取视音频数据和词向量的属性语义信息；

步骤4、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识，采用认知计算和贝叶斯推理，得到目标场景中的目标语义信息。

进一步地，该方法还包括：步骤5、根据属性语义信息和目标语义信息，更新目标知识图谱。

进一步地，该方法还包括：步骤6、采用预设的情感强化计算模型，对目标语义信息进行情感强化学习；相应地，所述步骤2为：

结合对象时空上下文信息和情感强化学习结果，对预处理后的视音频数据和所述词向量进行显著性计算。

进一步地，该方法还包括：步骤7、根据情感强化学习结果、属性语义信息和目标语义信息，更新目标的对象时空上下文信息。

进一步地，所述显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。

进一步地，所述多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。

进一步地，所述目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。

进一步地，所述对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息，以及目标语义信息出现的时间上下文信息和空间上下文信息。

本发明的有益效果：

本发明提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法，与传统的目标识别方法相比，具有如下有益效果：

(1)采用类脑跨媒体智能的目标语义集成，实现基于统计学习的目标语义的认知计算，能有效挖掘大数据环境的目标本质语义信息；

(2)采用类脑的注意机制，实现基于选择性注意的目标显著性计算，可集中有效计算资源，提升目标的识别效率；

(3)采用深度学习，实现类脑多模态融合的感知计算，可有效提取和表示目标的属性语义特征；

(4)采用类脑记忆原理，实现跨模态知识图谱存储，可有效表示目标的复杂语义关系；

(5)采用类脑情感机制的强化学习方法，可有效提高目标的监督学习和无监督学习效果。

附图说明

图1为本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图；

图2为本发明又一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图；

图3为本发明再一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图；

图4为本发明实施例提供的实验数据示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图。如图1所示，该方法包括以下步骤：

S101、获取无人自主系统采集到的目标场景的视音频数据，对所述视音频数据进行预处理；并对从目标场景中提取的语言文字采用分布式表示，得到词向量；具体地，本步骤中采用多通道进行媒体信息采集。无人自主系统通过摄像头和麦克风等视音频采集设备，采集目标场景的视频图像数据和音频数据；所述预处理包括去噪和文本处理操作。由于目标场景中可能存在多个目标对象，去噪的目的旨在获取被关注目标的图像数据和音频数据。文本处理指采用语言处理工具(例如字符识别SDK和语音识别SDK)提取文本信息，对上述视音频数据提取的文本采用分布式表示(Distributed Representation)，构造目标场景中语言文字的词向量(Word Embedding)。

S102、结合对象时空上下文信息，对预处理后的视音频数据和所述词向量进行显著性计算；

具体地，本步骤模拟丘脑的选择性注意的机制对多媒体信息进行显著性计算。对图像、音频和文字，结合对象的时空上下文信息，分别实现关注目标的语义对象的显著性计算。具体显著性计算算法可采用谱残差(SR)、Itti，以及基于图论的显著性计算(GBVS)等方法实现。

S103、根据显著性计算结果和对象时空上下文信息，训练多模态融合神经网络，提取视音频数据和词向量的属性语义信息；

具体地，本步骤模拟枕叶、颞叶的初级视听皮层的视听的层次感觉机制，在目标对象的时空上下文的作用下，对显著性计算结果采用深度学习训练得到多模态融合神经网络，提取视听数据与语言文字的属性语义信息。

S104、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识，采用认知计算和贝叶斯推理，得到目标场景中的目标语义信息。

具体地，本步骤模拟额叶、颞叶的视听联合皮层的思维、预测和推理机制，进行跨媒体集成认知计算。采用认知计算和贝叶斯推理，在对象时空上下文和目标知识图谱的先验知识的作用下，根据步骤S103中获取的属性语义信息实现跨媒体认知的集成学习，输出目标语义信息。目标语义信息包括目标种类和目标身份。本步骤中的跨媒体集成认知计算可采用提升(Boosting)、装袋(Bagging)或随机森林(Random Forest)等集成学习算法实现。

本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法，与传统的无人自主系统目标识别方法相比，具有如下有益效果：

(2)采用类脑的注意机制，实现基于选择性注意目标的显著性计算，可集中有效计算资源，提升目标识别效率；

(3)采用深度学习，实现类脑多模态融合的感知计算，可有效提取和表示目标的属性语义特征。

图2为本发明有又一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图。本实施例与上述实施例的区别之处在于，在上述实施例的基础上，该方法还包括：

步骤S105、根据属性语义信息和目标语义信息，更新目标知识图谱。

具体地，本步骤模拟联想长期记忆原理，将已完成识别的目标场景的目标语义信息和属性语义信息不断合并和添加到原目标知识图谱中，更新目标知识图谱。

步骤S106、采用预设的情感强化计算模型，对目标语义信息进行情感强化学习；相应地，所述步骤S102为：结合对象时空上下文信息和情感强化学习结果，对预处理后的视音频数据和所述词向量进行显著性计算。

具体地，所述情感强化学习包括情感计算和强化反馈计算。其中情感强化学习算法可采用Q学习算法或深度强化学习方法实现。然后基于情感强化学习结果，根据情感状态转换动态调整反馈策略，以及层次分级预测策略，控制多媒体目标信息的显著性计算。

步骤S107、根据情感强化学习结果、属性语义信息和目标语义信息，更新目标的对象时空上下文信息。

本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法，与传统的无人自主系统目标识别方法相比，具有以下有益效果：

(4)采用类脑记忆原理的跨模态知识图谱，可有效表示目标的复杂语义关系；

(5)采用类脑情感强化学习方法，可有效提高目标的监督学习和无监督学习效果。

在上述实施例的基础上，上述步骤中的显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。上述步骤中的多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。具体图像处理的深度卷积网络可迁移AlexNet、DeepID、DeepFace和VGGNet(或OxfordNet)等网络结构设计实现。语音处理的深度卷积网络可参照微软ResNet和谷歌GoogLeNet等网络结构设计实现。语言文字处理的循环神经网络可采用长短时间记忆(LSTM)网络、门控循环单元(GRU)网络、神经图灵机(NTM)等网络结构设计实现。多模态融合的网络结构可采用深度神经网络(DBN)、自编码器(Auto Encoder)、生成式对抗网络(GAN)以及对偶学习(Dual Learning)算法实现。

对于深度卷积网络，可交替采用卷积和池化操作实现网络运算。结合对象时空上下文计算得到显著性计算结果，作为深度卷积网络的输入。在卷积层中，利用前层提取的特征图x与一个可学习的滤波核w进行卷积，卷积的结果再经过激活函数输出形成本层的特征图。其中，特征图x是深度卷积网络对其输入的逐层变换处理结果。若第l层为卷积层，第l+1层为子采样层，则第l层第j个特征图的计算方法为：

其中，l代表层数，是第l层第j个特征图与第l-1层第i个特征图相连所对应的卷积核的连接权重，M代表输入特征图的一个选择，b为输出特征图偏置。f为采用近似Softplus的修正线性单元(ReLU)激活函数。ReLU函数的运算速度快、泛化性能好，并具有一定的稀疏能力，其定义为：

这里各符号的定义与公式(1)相同。第l层的第j个特征图的残差计算方法为：

这里V为克罗内克(Kronecker)积的上采样操作，即扩展l+1子采样层和第l卷积层相同尺寸，·为点积算子。通过对第j个特征图(宽u，高v)的残差求和计算偏置b的梯度：

第j个特征图的卷积核w的梯度为：

其中，表示在卷积过程中，卷积输出与逐元素相乘的矩阵。

在池化层对输入特征图进行一对一的下采样操作。子采样是一种模糊滤波，可降低网络的复杂度，增强对目标缩放、平移、形变的不变性。若第l层为子采样层，第l-1为卷积层，对第j子块进行下采样方法为：

这里Λ是下采样方法，β和b分别为特征图的权值系数和偏置。

池化层的残差δ和偏置b的计算与卷积层类似。权值系数β的梯度计算方法为：

对于语言文字处理的循环神经网络可参考文献(Cho K,Merrienboer B V,Gulcehre C,et al.Learning Phrase Representations using RNN Encoder-Decoderfor Statistical Machine Translation[J].Computer Science,2014)。

接着，将深度卷积网络(用于图像处理及语音处理)和循环神经网络(用于语言文字处理)的输出结果作为深度神经网络的训练数据，最终训练得到多模态融合的深度神经网络模型。具体训练过程可参考文献(Ngiam J,Khosla A,Kim M,et al.Multimodal DeepLearning[C],2009)。

在上述实施例的基础上，上述步骤中的目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。上述步骤中的对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息，以及目标语义信息出现的时间上下文信息和空间上下文信息。

图3为本发明再一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图。结合图3，本发明实施例具体如下：

在步骤ST1中(包括子步骤ST11、ST12和ST13)，无人自主系统(UAS)通过图像感知器(如摄像头)和声音感知器(如麦克风)等视音频采集设备，采集目标所处场景的视觉信息(Mv)和听觉信息(Ma)，利用语音识别或字符识别工具对视音频进行初步处理，提取场景中的语言文字的词向量信息(Mt)，共同构成目标T的输入信息M<Mv,Ma,Mt>；

在步骤ST2多媒体显著性计算(SC)中，模拟丘脑的选择性注意机制，对图像、音频和文字，结合情感强化学习结果(RP)和对象时空上下文信息(Cst)，分别实现基于选择性注意的语义对象的显著性计算(SC)，计算输入的媒体信息M的显著图S<Sv,Sa,St>，其中Sv为Mv的视觉显著图，Sa为Ma的听觉显著图，St为Mt的注意分配概率，即：

SC:<M,Cst,RP>→S (8)

在步骤ST3多模态融合感知计算(MP)中，模拟枕叶、颞叶的初级视听皮层的视听层次感觉机制，采用深度学习(Deep Learning)，在对象时空上下文信息(Cst)的作用下，训练多模态融合神经网络(MN)，提取视听与语言文字的属性语义信息(TP)，即：

MP:<S,Cst>→<TP,MN> (9)

在步骤ST4目标知识图谱(KG)生成中，模拟联想长期记忆(MAL)原理，利用属性语义信息(TP)和目标语义信息(TS)，生成和更新目标知识图谱(KG)，即：

MAL:<TP,TS>→KG (10)

本步骤中，可采用历史数据中的目标语义信息和属性语义信息的先验知识预先生成的目标知识图谱；更新目标知识图谱的过程则和上述实施例的步骤S105相同，不断将后期提取的属性语义信息和目标语义信息补充进来实现目标知识图谱的更新。

在步骤ST5跨媒体集成认知计算(CCI)中，模拟额叶、颞叶的视听联合皮层的思维、预测和推理机制，采用认知计算(Cognitive Computing)和贝叶斯推理(BayesianInference)，在对象时空上下文信息(Cst)和目标知识图谱(KG)的先验知识的作用下，实现跨媒体认知的集成学习(Ensemble Learning)，提取目标语义信息(TS)，并更新对象时空上下文信息(Cst')和目标知识图谱(KG')，即：

CCI:<TP,TS,KG>→<TS,KG',Cst'> (11)

其中CCI是认知计算与集成学习的复合处理。这里采用贝叶斯加权集成思想，获得目标语义信息(TS)，即：

其中，ω是不同的分类器h的权重，N为分类器的数量。

在步骤ST6对象时空上下文信息生成(TGst)中，模拟海马体的短期分布式记忆(MAS)的原理，根据情感强化学习结果(RP)、属性语义信息(TP)和目标语义信息(TS)，生成和更新目标的对象时空上下文信息(Cst)，即：

TGst:<TS,TP,RP>→Cst (13)

在步骤ST7情感强化学习(ERL)中，模拟边缘系统的情感状态转换和奖惩机制(RP)，实现目标语义信息(TS)的情感计算(Affective Computing)和强化学习(Reinforcement Learning)，并进一步反馈控制目标的显著性计算(SC)和对象时空上下文信息(Cst)，即：

ERL:<TS,RP>→<SC,Cst> (14)

其中情感强化学习(ERL)是情感计算和强化学习的复合处理。情感强化学习(ERL)模拟情感奖惩机制(RP)的目的是提取稳定的和最优的目标语义，其重点是求解显著性计算(SC)和对象时空上下文信息(Cst)与目标真实语义信息误差的最小范式。

由上述实施例可知，本发明提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法，通过对目标语义信息进行情感强化学习，进而将情感强化学习结果用于反馈控制的显著性计算和对象时空上下文信息的生成，形成一个闭环，实现目标识别的自主调节和反馈，可不断提升无人自主系统的目标识别准确率。

本发明可用于跨媒体身份识别和跨模态目标鉴别。采用该目标识别方法的具体目标识别应用的实验数据如图4所示。其中，图4中：(A)是用于无人车(UGV)系统的对场景中车辆探测视频提取的多媒体目标对象的车辆拍照、车辆音频和车辆文本示例；(B)是在智能机器人的人机交互视频中，多媒体目标对象的人脸照片、说话人语音和声纹示例；(C)是在无人机(UAV)系统的遥感图像中，跨模态舰船目标的可见光、红外和雷达图像示例。初步实验表明，在目标协作配合的环境下，本发明的目标的身份识别率可达95％以上。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.面向无人自主系统的基于类脑跨媒体智能的目标识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

步骤5、根据属性语义信息和目标语义信息，更新目标知识图谱。

3.根据权利要求1所述的方法，其特征在于，还包括：

步骤6、采用预设的情感强化计算模型，对目标语义信息进行情感强化学习；

相应地，所述步骤2为：

4.根据权利要求3所述的方法，其特征在于，还包括：

步骤7、根据情感强化学习结果、属性语义信息和目标语义信息，更新目标的对象时空上下文信息。

5.根据权利要求1所述的方法，其特征在于，所述显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。

6.根据权利要求1所述的方法，其特征在于，所述多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。

7.根据权利要求1所述的方法，其特征在于，所述目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。

8.根据权利要求1所述的方法，其特征在于，所述对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息，以及目标语义信息出现的时间上下文信息和空间上下文信息。