CN109241912A - 面向无人自主系统的基于类脑跨媒体智能的目标识别方法 - Google Patents
面向无人自主系统的基于类脑跨媒体智能的目标识别方法 Download PDFInfo
- Publication number
- CN109241912A CN109241912A CN201811046842.5A CN201811046842A CN109241912A CN 109241912 A CN109241912 A CN 109241912A CN 201811046842 A CN201811046842 A CN 201811046842A CN 109241912 A CN109241912 A CN 109241912A
- Authority
- CN
- China
- Prior art keywords
- information
- target
- audio
- video
- context information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 210000004556 brain Anatomy 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000008451 emotion Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000013707 sensory perception of sound Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000019771 cognition Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 description 12
- 238000004088 simulation Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000003935 attention Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000010332 selective attention Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 210000003478 temporal lobe Anatomy 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000001652 frontal lobe Anatomy 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000000869 occipital lobe Anatomy 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 210000001103 thalamus Anatomy 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000001320 hippocampus Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003715 limbic system Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种面向无人自主系统的基于类脑跨媒体智能的目标识别方法。该方法包括:步骤1、获取无人自主系统采集到的目标场景的视音频数据,对所述视音频数据进行预处理,提取所述视音频数据中的语言文字,将所述语言文字采用分布式表示,得到词向量;步骤2、结合对象时空上下文信息,对预处理后的视音频数据和词向量进行显著性计算;步骤3、根据显著性计算结果和对象时空上下文信息,训练多模态融合神经网络,提取视音频数据和词向量的属性语义信息;步骤4、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识,采用认知计算和贝叶斯推理,得到目标场景中的目标语义信息。本发明能有效提升无人自主设备的智能化目标识别效果。
Description
技术领域
本发明涉及无人自主智能控制技术领域,尤其涉及面向无人自主系统的基于类脑跨媒体智能的目标识别方法。
背景技术
人工智能与无人系统融合形成无人自主系统(UAS),目前无人自主系统已形成陆、海、空、天一体化体系。在移动场景中,无人自主系统是智能机器人和无人自主设备对目标进行分析与识别的重要的智能支撑系统。
智能机器人(如工业机器人、服务机器人、空间机器人、海洋机器人以及无人车间等)的无人系统先后经历了自动化、智能化、自主化以及集群化的发展过程。诸如无人机(UAV)、无人车(UGV)、无人船(USV)以及无人潜航器(UUV)等无人自主设备的系统智能化感知和控制,融合了3C技术(即控制、计算和通信)以及材料等多学科技术。
要实现无人自主系统的智能化的自主控制,必须解决其对环境信息的态势感知和目标认知问题。目前基于传统方法的无人系统目标识别,考虑到系统的复杂性和实施困难,大多采用单模态识别方法,无法解决跨媒体或跨模态的目标属性的多模态差异问题。如何采用类脑跨媒体智能方法进行无人自主系统的目标识别,使智能机器人和无人自主设备实现对环境信息的动态态势感知,自主控制和执行任务是目前亟需解决的重要问题。
发明内容
为解决现有技术中存在的上述问题,本发明提供一种面向无人自主系统的基于类脑跨媒体智能的目标识别方法,可解决跨模态和跨媒体的目标属性的多模态差异,实现环境信息的态势感知和目标认知,使得智能机器人和无人自主设备能够动态感知环境信息,自主控制和执行任务。
本发明提供一种面向无人自主系统的基于类脑跨媒体智能的目标识别方法,该方法包括:
步骤1、获取无人自主系统采集到的目标场景的视音频数据,对所述视音频数据进行预处理,提取所述视音频数据中的语言文字,将所述语言文字采用分布式表示,得到词向量;
步骤2、结合对象时空上下文信息,对预处理后的视音频数据和所述词向量进行显著性计算;
步骤3、根据显著性计算结果和对象时空上下文信息,训练多模态融合神经网络,提取视音频数据和词向量的属性语义信息;
步骤4、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识,采用认知计算和贝叶斯推理,得到目标场景中的目标语义信息。
进一步地,该方法还包括:步骤5、根据属性语义信息和目标语义信息,更新目标知识图谱。
进一步地,该方法还包括:步骤6、采用预设的情感强化计算模型,对目标语义信息进行情感强化学习;相应地,所述步骤2为:
结合对象时空上下文信息和情感强化学习结果,对预处理后的视音频数据和所述词向量进行显著性计算。
进一步地,该方法还包括:步骤7、根据情感强化学习结果、属性语义信息和目标语义信息,更新目标的对象时空上下文信息。
进一步地,所述显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。
进一步地,所述多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。
进一步地,所述目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。
进一步地,所述对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息,以及目标语义信息出现的时间上下文信息和空间上下文信息。
本发明的有益效果:
本发明提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法,与传统的目标识别方法相比,具有如下有益效果:
(1)采用类脑跨媒体智能的目标语义集成,实现基于统计学习的目标语义的认知计算,能有效挖掘大数据环境的目标本质语义信息;
(2)采用类脑的注意机制,实现基于选择性注意的目标显著性计算,可集中有效计算资源,提升目标的识别效率;
(3)采用深度学习,实现类脑多模态融合的感知计算,可有效提取和表示目标的属性语义特征;
(4)采用类脑记忆原理,实现跨模态知识图谱存储,可有效表示目标的复杂语义关系;
(5)采用类脑情感机制的强化学习方法,可有效提高目标的监督学习和无监督学习效果。
附图说明
图1为本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图;
图2为本发明又一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图;
图3为本发明再一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图;
图4为本发明实施例提供的实验数据示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图。如图1所示,该方法包括以下步骤:
S101、获取无人自主系统采集到的目标场景的视音频数据,对所述视音频数据进行预处理;并对从目标场景中提取的语言文字采用分布式表示,得到词向量;具体地,本步骤中采用多通道进行媒体信息采集。无人自主系统通过摄像头和麦克风等视音频采集设备,采集目标场景的视频图像数据和音频数据;所述预处理包括去噪和文本处理操作。由于目标场景中可能存在多个目标对象,去噪的目的旨在获取被关注目标的图像数据和音频数据。文本处理指采用语言处理工具(例如字符识别SDK和语音识别SDK)提取文本信息,对上述视音频数据提取的文本采用分布式表示(Distributed Representation),构造目标场景中语言文字的词向量(Word Embedding)。
S102、结合对象时空上下文信息,对预处理后的视音频数据和所述词向量进行显著性计算;
具体地,本步骤模拟丘脑的选择性注意的机制对多媒体信息进行显著性计算。对图像、音频和文字,结合对象的时空上下文信息,分别实现关注目标的语义对象的显著性计算。具体显著性计算算法可采用谱残差(SR)、Itti,以及基于图论的显著性计算(GBVS)等方法实现。
S103、根据显著性计算结果和对象时空上下文信息,训练多模态融合神经网络,提取视音频数据和词向量的属性语义信息;
具体地,本步骤模拟枕叶、颞叶的初级视听皮层的视听的层次感觉机制,在目标对象的时空上下文的作用下,对显著性计算结果采用深度学习训练得到多模态融合神经网络,提取视听数据与语言文字的属性语义信息。
S104、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识,采用认知计算和贝叶斯推理,得到目标场景中的目标语义信息。
具体地,本步骤模拟额叶、颞叶的视听联合皮层的思维、预测和推理机制,进行跨媒体集成认知计算。采用认知计算和贝叶斯推理,在对象时空上下文和目标知识图谱的先验知识的作用下,根据步骤S103中获取的属性语义信息实现跨媒体认知的集成学习,输出目标语义信息。目标语义信息包括目标种类和目标身份。本步骤中的跨媒体集成认知计算可采用提升(Boosting)、装袋(Bagging)或随机森林(Random Forest)等集成学习算法实现。
本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法,与传统的无人自主系统目标识别方法相比,具有如下有益效果:
(1)采用类脑跨媒体智能的目标语义集成,实现基于统计学习的目标语义的认知计算,能有效挖掘大数据环境的目标本质语义信息;
(2)采用类脑的注意机制,实现基于选择性注意目标的显著性计算,可集中有效计算资源,提升目标识别效率;
(3)采用深度学习,实现类脑多模态融合的感知计算,可有效提取和表示目标的属性语义特征。
图2为本发明有又一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图。本实施例与上述实施例的区别之处在于,在上述实施例的基础上,该方法还包括:
步骤S105、根据属性语义信息和目标语义信息,更新目标知识图谱。
具体地,本步骤模拟联想长期记忆原理,将已完成识别的目标场景的目标语义信息和属性语义信息不断合并和添加到原目标知识图谱中,更新目标知识图谱。
步骤S106、采用预设的情感强化计算模型,对目标语义信息进行情感强化学习;相应地,所述步骤S102为:结合对象时空上下文信息和情感强化学习结果,对预处理后的视音频数据和所述词向量进行显著性计算。
具体地,所述情感强化学习包括情感计算和强化反馈计算。其中情感强化学习算法可采用Q学习算法或深度强化学习方法实现。然后基于情感强化学习结果,根据情感状态转换动态调整反馈策略,以及层次分级预测策略,控制多媒体目标信息的显著性计算。
步骤S107、根据情感强化学习结果、属性语义信息和目标语义信息,更新目标的对象时空上下文信息。
本发明实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法,与传统的无人自主系统目标识别方法相比,具有以下有益效果:
(1)采用类脑跨媒体智能的目标语义集成,实现基于统计学习的目标语义的认知计算,能有效挖掘大数据环境的目标本质语义信息;
(2)采用类脑的注意机制,实现基于选择性注意目标的显著性计算,可集中有效计算资源,提升目标识别效率;
(3)采用深度学习,实现类脑多模态融合的感知计算,可有效提取和表示目标的属性语义特征;
(4)采用类脑记忆原理的跨模态知识图谱,可有效表示目标的复杂语义关系;
(5)采用类脑情感强化学习方法,可有效提高目标的监督学习和无监督学习效果。
在上述实施例的基础上,上述步骤中的显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。上述步骤中的多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。具体图像处理的深度卷积网络可迁移AlexNet、DeepID、DeepFace和VGGNet(或OxfordNet)等网络结构设计实现。语音处理的深度卷积网络可参照微软ResNet和谷歌GoogLeNet等网络结构设计实现。语言文字处理的循环神经网络可采用长短时间记忆(LSTM)网络、门控循环单元(GRU)网络、神经图灵机(NTM)等网络结构设计实现。多模态融合的网络结构可采用深度神经网络(DBN)、自编码器(Auto Encoder)、生成式对抗网络(GAN)以及对偶学习(Dual Learning)算法实现。
对于深度卷积网络,可交替采用卷积和池化操作实现网络运算。结合对象时空上下文计算得到显著性计算结果,作为深度卷积网络的输入。在卷积层中,利用前层提取的特征图x与一个可学习的滤波核w进行卷积,卷积的结果再经过激活函数输出形成本层的特征图。其中,特征图x是深度卷积网络对其输入的逐层变换处理结果。若第l层为卷积层,第l+1层为子采样层,则第l层第j个特征图的计算方法为:
其中,l代表层数,是第l层第j个特征图与第l-1层第i个特征图相连所对应的卷积核的连接权重,M代表输入特征图的一个选择,b为输出特征图偏置。f为采用近似Softplus的修正线性单元(ReLU)激活函数。ReLU函数的运算速度快、泛化性能好,并具有一定的稀疏能力,其定义为:
这里各符号的定义与公式(1)相同。第l层的第j个特征图的残差计算方法为:
这里V为克罗内克(Kronecker)积的上采样操作,即扩展l+1子采样层和第l卷积层相同尺寸,·为点积算子。通过对第j个特征图(宽u,高v)的残差求和计算偏置b的梯度:
第j个特征图的卷积核w的梯度为:
其中,表示在卷积过程中,卷积输出与逐元素相乘的矩阵。
在池化层对输入特征图进行一对一的下采样操作。子采样是一种模糊滤波,可降低网络的复杂度,增强对目标缩放、平移、形变的不变性。若第l层为子采样层,第l-1为卷积层,对第j子块进行下采样方法为:
这里Λ是下采样方法,β和b分别为特征图的权值系数和偏置。
池化层的残差δ和偏置b的计算与卷积层类似。权值系数β的梯度计算方法为:
对于语言文字处理的循环神经网络可参考文献(Cho K,Merrienboer B V,Gulcehre C,et al.Learning Phrase Representations using RNN Encoder-Decoderfor Statistical Machine Translation[J].Computer Science,2014)。
接着,将深度卷积网络(用于图像处理及语音处理)和循环神经网络(用于语言文字处理)的输出结果作为深度神经网络的训练数据,最终训练得到多模态融合的深度神经网络模型。具体训练过程可参考文献(Ngiam J,Khosla A,Kim M,et al.Multimodal DeepLearning[C],2009)。
在上述实施例的基础上,上述步骤中的目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。上述步骤中的对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息,以及目标语义信息出现的时间上下文信息和空间上下文信息。
图3为本发明再一实施例提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法的流程示意图。结合图3,本发明实施例具体如下:
在步骤ST1中(包括子步骤ST11、ST12和ST13),无人自主系统(UAS)通过图像感知器(如摄像头)和声音感知器(如麦克风)等视音频采集设备,采集目标所处场景的视觉信息(Mv)和听觉信息(Ma),利用语音识别或字符识别工具对视音频进行初步处理,提取场景中的语言文字的词向量信息(Mt),共同构成目标T的输入信息M<Mv,Ma,Mt>;
在步骤ST2多媒体显著性计算(SC)中,模拟丘脑的选择性注意机制,对图像、音频和文字,结合情感强化学习结果(RP)和对象时空上下文信息(Cst),分别实现基于选择性注意的语义对象的显著性计算(SC),计算输入的媒体信息M的显著图S<Sv,Sa,St>,其中Sv为Mv的视觉显著图,Sa为Ma的听觉显著图,St为Mt的注意分配概率,即:
SC:<M,Cst,RP>→S (8)
在步骤ST3多模态融合感知计算(MP)中,模拟枕叶、颞叶的初级视听皮层的视听层次感觉机制,采用深度学习(Deep Learning),在对象时空上下文信息(Cst)的作用下,训练多模态融合神经网络(MN),提取视听与语言文字的属性语义信息(TP),即:
MP:<S,Cst>→<TP,MN> (9)
在步骤ST4目标知识图谱(KG)生成中,模拟联想长期记忆(MAL)原理,利用属性语义信息(TP)和目标语义信息(TS),生成和更新目标知识图谱(KG),即:
MAL:<TP,TS>→KG (10)
本步骤中,可采用历史数据中的目标语义信息和属性语义信息的先验知识预先生成的目标知识图谱;更新目标知识图谱的过程则和上述实施例的步骤S105相同,不断将后期提取的属性语义信息和目标语义信息补充进来实现目标知识图谱的更新。
在步骤ST5跨媒体集成认知计算(CCI)中,模拟额叶、颞叶的视听联合皮层的思维、预测和推理机制,采用认知计算(Cognitive Computing)和贝叶斯推理(BayesianInference),在对象时空上下文信息(Cst)和目标知识图谱(KG)的先验知识的作用下,实现跨媒体认知的集成学习(Ensemble Learning),提取目标语义信息(TS),并更新对象时空上下文信息(Cst')和目标知识图谱(KG'),即:
CCI:<TP,TS,KG>→<TS,KG',Cst'> (11)
其中CCI是认知计算与集成学习的复合处理。这里采用贝叶斯加权集成思想,获得目标语义信息(TS),即:
其中,ω是不同的分类器h的权重,N为分类器的数量。
在步骤ST6对象时空上下文信息生成(TGst)中,模拟海马体的短期分布式记忆(MAS)的原理,根据情感强化学习结果(RP)、属性语义信息(TP)和目标语义信息(TS),生成和更新目标的对象时空上下文信息(Cst),即:
TGst:<TS,TP,RP>→Cst (13)
在步骤ST7情感强化学习(ERL)中,模拟边缘系统的情感状态转换和奖惩机制(RP),实现目标语义信息(TS)的情感计算(Affective Computing)和强化学习(Reinforcement Learning),并进一步反馈控制目标的显著性计算(SC)和对象时空上下文信息(Cst),即:
ERL:<TS,RP>→<SC,Cst> (14)
其中情感强化学习(ERL)是情感计算和强化学习的复合处理。情感强化学习(ERL)模拟情感奖惩机制(RP)的目的是提取稳定的和最优的目标语义,其重点是求解显著性计算(SC)和对象时空上下文信息(Cst)与目标真实语义信息误差的最小范式。
由上述实施例可知,本发明提供的面向无人自主系统的基于类脑跨媒体智能的目标识别方法,通过对目标语义信息进行情感强化学习,进而将情感强化学习结果用于反馈控制的显著性计算和对象时空上下文信息的生成,形成一个闭环,实现目标识别的自主调节和反馈,可不断提升无人自主系统的目标识别准确率。
本发明可用于跨媒体身份识别和跨模态目标鉴别。采用该目标识别方法的具体目标识别应用的实验数据如图4所示。其中,图4中:(A)是用于无人车(UGV)系统的对场景中车辆探测视频提取的多媒体目标对象的车辆拍照、车辆音频和车辆文本示例;(B)是在智能机器人的人机交互视频中,多媒体目标对象的人脸照片、说话人语音和声纹示例;(C)是在无人机(UAV)系统的遥感图像中,跨模态舰船目标的可见光、红外和雷达图像示例。初步实验表明,在目标协作配合的环境下,本发明的目标的身份识别率可达95%以上。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.面向无人自主系统的基于类脑跨媒体智能的目标识别方法,其特征在于,包括:
步骤1、获取无人自主系统采集到的目标场景的视音频数据,对所述视音频数据进行预处理,提取所述视音频数据中的语言文字,将所述语言文字采用分布式表示,得到词向量;
步骤2、结合对象时空上下文信息,对预处理后的视音频数据和所述词向量进行显著性计算;
步骤3、根据显著性计算结果和对象时空上下文信息,训练多模态融合神经网络,提取视音频数据和词向量的属性语义信息;
步骤4、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识,采用认知计算和贝叶斯推理,得到目标场景中的目标语义信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
步骤5、根据属性语义信息和目标语义信息,更新目标知识图谱。
3.根据权利要求1所述的方法,其特征在于,还包括:
步骤6、采用预设的情感强化计算模型,对目标语义信息进行情感强化学习;
相应地,所述步骤2为:
结合对象时空上下文信息和情感强化学习结果,对预处理后的视音频数据和所述词向量进行显著性计算。
4.根据权利要求3所述的方法,其特征在于,还包括:
步骤7、根据情感强化学习结果、属性语义信息和目标语义信息,更新目标的对象时空上下文信息。
5.根据权利要求1所述的方法,其特征在于,所述显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。
6.根据权利要求1所述的方法,其特征在于,所述多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。
7.根据权利要求1所述的方法,其特征在于,所述目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。
8.根据权利要求1所述的方法,其特征在于,所述对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息,以及目标语义信息出现的时间上下文信息和空间上下文信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811046842.5A CN109241912B (zh) | 2018-09-08 | 2018-09-08 | 面向无人自主系统的基于类脑跨媒体智能的目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811046842.5A CN109241912B (zh) | 2018-09-08 | 2018-09-08 | 面向无人自主系统的基于类脑跨媒体智能的目标识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241912A true CN109241912A (zh) | 2019-01-18 |
CN109241912B CN109241912B (zh) | 2020-08-07 |
Family
ID=65067473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811046842.5A Active CN109241912B (zh) | 2018-09-08 | 2018-09-08 | 面向无人自主系统的基于类脑跨媒体智能的目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241912B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210387A (zh) * | 2019-05-31 | 2019-09-06 | 华北电力大学(保定) | 基于知识图谱的绝缘子目标检测方法、系统、装置 |
CN110673600A (zh) * | 2019-10-18 | 2020-01-10 | 武汉理工大学 | 面向无人船舶的自动驾驶集成系统 |
CN110889505A (zh) * | 2019-11-18 | 2020-03-17 | 北京大学 | 一种图文序列匹配的跨媒体综合推理方法和系统 |
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
CN111767432A (zh) * | 2020-06-30 | 2020-10-13 | 北京百度网讯科技有限公司 | 共现对象的查找方法和装置 |
CN112381462A (zh) * | 2020-12-07 | 2021-02-19 | 军事科学院系统工程研究院网络信息研究所 | 一种类人体神经系统的智能网络系统的数据处理方法 |
CN112949684A (zh) * | 2021-01-28 | 2021-06-11 | 天津大学 | 一种基于强化学习框架的多模态检测对话情感信息的方法 |
CN112966736A (zh) * | 2021-03-03 | 2021-06-15 | 北京航空航天大学 | 一种基于多视角匹配与局部特征融合的车辆再识别方法 |
CN113220894B (zh) * | 2021-02-07 | 2023-08-18 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种基于感知计算的卫星遥感数据智能获取方法 |
CN117008464A (zh) * | 2023-10-07 | 2023-11-07 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
-
2018
- 2018-09-08 CN CN201811046842.5A patent/CN109241912B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
Non-Patent Citations (4)
Title |
---|
PENG YU-XIN等: "《Cross-media analysis and reasoning: advances and directions》", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》 * |
张德等: "《基于语义空间统一表征的视频多模态内容分析技术》", 《电视技术》 * |
机器之心: "《什么是自注意力机制》", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/42425945》 * |
王述: "《基于相关性分析的跨媒体检索》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210387A (zh) * | 2019-05-31 | 2019-09-06 | 华北电力大学(保定) | 基于知识图谱的绝缘子目标检测方法、系统、装置 |
CN110673600A (zh) * | 2019-10-18 | 2020-01-10 | 武汉理工大学 | 面向无人船舶的自动驾驶集成系统 |
CN110889505A (zh) * | 2019-11-18 | 2020-03-17 | 北京大学 | 一种图文序列匹配的跨媒体综合推理方法和系统 |
CN110889505B (zh) * | 2019-11-18 | 2023-05-02 | 北京大学 | 一种图文序列匹配的跨媒体综合推理方法和系统 |
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
CN111428044B (zh) * | 2020-03-06 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111462733B (zh) * | 2020-03-31 | 2024-04-16 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
CN111767432B (zh) * | 2020-06-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 共现对象的查找方法和装置 |
CN111767432A (zh) * | 2020-06-30 | 2020-10-13 | 北京百度网讯科技有限公司 | 共现对象的查找方法和装置 |
CN112381462A (zh) * | 2020-12-07 | 2021-02-19 | 军事科学院系统工程研究院网络信息研究所 | 一种类人体神经系统的智能网络系统的数据处理方法 |
CN112949684A (zh) * | 2021-01-28 | 2021-06-11 | 天津大学 | 一种基于强化学习框架的多模态检测对话情感信息的方法 |
CN113220894B (zh) * | 2021-02-07 | 2023-08-18 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种基于感知计算的卫星遥感数据智能获取方法 |
CN112966736B (zh) * | 2021-03-03 | 2022-11-11 | 北京航空航天大学 | 一种基于多视角匹配与局部特征融合的车辆再识别方法 |
CN112966736A (zh) * | 2021-03-03 | 2021-06-15 | 北京航空航天大学 | 一种基于多视角匹配与局部特征融合的车辆再识别方法 |
CN117008464A (zh) * | 2023-10-07 | 2023-11-07 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
CN117008464B (zh) * | 2023-10-07 | 2023-12-15 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109241912B (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241912A (zh) | 面向无人自主系统的基于类脑跨媒体智能的目标识别方法 | |
Alam et al. | Survey on deep neural networks in speech and vision systems | |
Zhang et al. | Multimodal intelligence: Representation learning, information fusion, and applications | |
Khalil et al. | Speech emotion recognition using deep learning techniques: A review | |
Sharma et al. | Era of deep neural networks: A review | |
Tan et al. | The artificial intelligence renaissance: deep learning and the road to human-level machine intelligence | |
JP7170405B2 (ja) | ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法 | |
Mishra et al. | The understanding of deep learning: A comprehensive review | |
EP3884426B1 (en) | Action classification in video clips using attention-based neural networks | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
Tian et al. | Towards human-like and transhuman perception in AI 2.0: a review | |
CN113795851A (zh) | 具有针对使用对抗训练的表示学习的推理的大规模生成神经网络模型 | |
Luo et al. | An underwater acoustic target recognition method based on restricted Boltzmann machine | |
Neto et al. | Sign language recognition based on 3d convolutional neural networks | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
CN114995657A (zh) | 一种智能机器人的多模态融合自然交互方法、系统及介质 | |
CN114029963B (zh) | 一种基于视觉听觉融合的机器人操作方法 | |
Irfan et al. | A novel feature extraction model to enhance underwater image classification | |
Atkar et al. | Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier | |
Pujari et al. | A survey on deep learning based lip-reading techniques | |
Hu et al. | Speech Emotion Recognition Based on Attention MCNN Combined With Gender Information | |
Kutlimuratov et al. | CHALLENGES OF SPEECH EMOTION RECOGNITION SYSTEM MODELING AND ITS SOLUTIONS | |
CN116472560A (zh) | 视觉对象的话语约束跟踪 | |
CN113420783A (zh) | 一种基于图文匹配的智能人机交互方法及装置 | |
Kim et al. | SGGNet 2: Speech-Scene Graph Grounding Network for Speech-guided Navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |