CN114065764A

CN114065764A - 多模态任务处理装置和方法

Info

Publication number: CN114065764A
Application number: CN202010744416.XA
Authority: CN
Inventors: 綦峰; 蒋冠军
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2022-02-18

Abstract

公开了一种多模态任务处理装置、方法和系统。装置包括：可实现为听觉链路的多模态任务获取模块；视觉链路，包括视觉识别模块用于将图像输入转换为输入图像特征；体感链路，包括动作模块和感觉模块，分别用于获取动作装置的状态信息以生成输入体感特征，及获取任务处理结果中的输出体感特征，并将其转换为动作装置的动作输出指令；联络模块，用于：确定任务信息中包含的动作和对象含义；获取输入图像和体感特征；基于确定的对象含义，进行图像特征关联；及基于关联结果，根据输入体感特征和动作含义生成输出体感特征。通过结合视觉、听觉和躯体感觉并进行更高层级的信息关联，能处理更复杂的多模态任务，为真正智能化奠定基础。

Description

多模态任务处理装置和方法

技术领域

本发明涉及人工智能领域，尤其涉及一种多模态任务处理装置和方法。

背景技术

人工智能亦称机器智能，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。

在人工智能领域中，存在利用仿生模型进行任务处理的分支。例如，人工神经网络(Artificial Neural Networks,ANN，也可简称NN)是一种从信息处理角度对人脑神经元网络进行抽象，进行分布式并行信息处理的数学计算模型。近年来，神经网络发展很快，被广泛应用于诸多领域，如图像识别、语音识别、自然语言处理、天气预报、基因表达、内容推送等等。例如，经过训练的深度神经网络(DNN)在图像识别和目标追踪上有着良好的性能。然而，DNN进行图像识别时，仅仅是依据提取的特征进行最大概率分类，其本身并不理解图像中的目标对象是什么，并且尤其控制的机械设备，也是经由固定的程序执行固定的动作。

换句话说，现有的人工智能通常只是处理单一问题的简单模型，与人脑真实的思维模式相去甚远，并不能实现真正的“智能”。

发明内容

为了解决如上至少一个问题，本发明提出了一种多模态任务处理方案，该方案通过深度模拟人脑在信息处理时的操作，通过结合视觉、听觉和躯体感觉并进行更高层级的信息关联，能够处理更为复杂的多模态任务，为人工智能的进一步“智能化”奠定基础。

根据本发明的第一方面，提出了一种多模态任务处理装置，包括：多模态任务获取模块，用于获取多模态任务信息；视觉链路，包括视觉识别模块，所述视觉识别模块用于：获取图像输入；处理所述图像输入以获取输入图像特征，体感链路，包括动作模块和感觉模块，所述感觉模块用于：获取动作装置的状态信息；处理所述状态信息以获取输入体感特征，所述动作模块用于：获取所述多模态任务处理结果中的输出体感特征；将所述输出体感特征转换为所述动作装置的动作输出指令，联络模块，用于：确定所述多模态任务信息中所包含的针对动作和对象的任务含义；获取所述输入图像特征和所述输入体感特征；基于确定的针对对象的任务含义，进行与图像特征的关联；以及基于所述关联的结果，根据所述输入体感特征和针对动作的任务含义生成输出体感特征。该装置优选可以包括听觉链路，以获取作为多模态任务的语言输入，并且可以实现涉及语言的输入和输出任务。

根据本发明的第二方面，提出了一种多模态任务处理方法，包括：获取多模态任务信息、输入图像特征和输入体感特征；确定所述多模态任务信息中所包含的针对动作和对象的任务含义；基于确定的针对对象的任务含义，进行与图像特征的关联；以及基于所述关联的结果，根据所述输入体感特征和针对动作的任务含义生成输出体感特征。

根据本发明的第三方面，提出了一种服务器，用于执行第二方面所述的方法。

根据本发明的第四方面，提出了一种语音任务处理方法，包括：获取用户的语音输入，获取所述语音输入的语义含义，所述语义含义包括针对动作的含义和针对对象的含义；基于所述针对对象的含义确定图像特征中的关注对象；基于所述针对动作的含义，对所述关注对象进行相应动作。

根据本发明的第五方面，提出了一种语音交互终端，用于执行第四方面所述的方法。

根据本发明的第六方面，提出了一种自动驾驶设备，于执行第四方面所述的方法。

根据本发明的第七方面，提出了一种语音任务处理系统，包括如上第三方面的服务器以及第五方面的交互终端或是第六方面的自动驾驶设备。

根据本发明的第八方面，提出了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行第四方面所述的方法。

本发明的多模态任务处理方案放弃传统NLP(自然语言处理)中以语言解释语言的方式，提出类人脑方式多模态解释语言，即用视觉等感觉等理解语言，并利用体感链路进行感觉和执行的方案。具体地，该方案实现了类人脑语言解释架构搭建，可以用于积累式学习，并处理各类复杂的多模态任务，例如语言指导动作的任务。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了DNN的典型结构图。

图2示出了剪枝前后的节点和连接变化。

图3示出了典型CNN的组成例。

图4示出了大脑皮层的功能区示意图。

图5示出了说出一个书面词汇时大脑皮层的处理例。

图6示出了根据本发明一个实施例的多模态任务处理装置的组成示意图。

图7示出了本发明的多模态任务处理装置进行任务处理的一个例子。

图8示出了根据本发明一个实施例的多模态任务处理装置的组成示意图。

图9示出了机械臂的动作示意图。

图10示出了根据本发明一个优选实施例的多模态任务处理装置的组成示意图。

图11A-D示出了本发明的多模态任务处理装置执行多模态任务的例子。

图12示出了本发明的多模态任务处理装置执行包括体感任务的多模态任务的例子。

图13示出了根据本发明的多模态任务处理方法的示意性流程图。

图14示出了根据本发明的语音任务处理方法的示意性流程图。

图15示出了根据本发明一个实施例可用于实现上述语音任务处理方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在人工智能领域中，存在利用仿生模型进行任务处理的分支。例如，人工神经网络(ANN，也可简称NN)是一种从信息处理角度对人脑神经元网络进行抽象，进行分布式并行信息处理的数学计算模型。近年来，神经网络发展很快，被广泛应用于诸多领域，如图像识别、语音识别、自然语言处理、天气预报、基因表达、内容推送等等。

在神经网络中存在着大量彼此连接的、被称为“神经元”的节点。每个神经元通过特定的输出函数计算来自其它相邻神经元的加权输入值。各神经元之间的信息传递强度用“权值”定义，算法会不断自我学习，调整这个加权值。早期的神经网络只有输入和输出层两层。由于无法处理复杂的逻辑，其实用性受到很大限制。深度神经网络(DNN)通过在输入和输出层之间添加隐藏的中间层，大大提升了神经网络处理复杂逻辑的能力。图1示出了DNN模型示意图。图中的圆圈代表“神经元”的节点，箭头代表神经元之间的信息传递强度。应该理解的是，在实际应用中的DNN可以有比图1所示复杂得多的大型结构，但其基本结构仍然如图1所示。

在神经网络中，神经元的连接关系在数学上可以表示为一系列矩阵。经过训练后的网络虽然预测准确，但其矩阵都是稠密的，随着神经网络变得愈发复杂，稠密矩阵的计算会消耗大量的存储和计算资源。近年来的研究通过对神经元的剪枝(移除不重要的连接)和重训，压缩模型并尽可能的确保精度。图2示出了剪枝前后的节点(神经元)和连接(突触)的分布情况。

人工神经网络包括深度神经网络(DNN)、循环神经网络(RNN)与卷积神经网络(CNN)。图3示出了典型CNN的组成例。如图3所示，典型的CNN由一系列有序运行的层组成，并且执行复杂任务的CNN通常也是具有多个层级的深度神经网络(DNN)。

CNN神经网络由输入层、输出层和多个隐藏层串联组成。CNN的第一层读取输入值，例如输入图像，并输出一系列的激活值。下面的层读取由上一层产生的激活值，并输出新的激活值。最后一个分类器(classifier)输出该输入图像可能属于的每一类别的概率。

这些层大致可分为带权重的层(如卷积层、全连接层、批量归一化层等)和不带权重的层(如池化层、ReLU层、Softmax层等)。在这其中，CONV层(Convolutional layers，卷积层)以一系列特征图作为输入，并以卷积内核卷积获得输出激活值。池化层通常与CONV层相连，用于输出每个特征图中的每个分区(sub area)的最大值或平均值，由此通过亚采样降低计算量，同时保持某种程度的位移、尺度和形变不变性。一个CNN中可以包括卷积层和池化层之间的多个交替，由此逐步降低空间分辨率并增加特征映射的数量。随后可以连接至至少一个全连接层(FC)，通过应用于输入特征向量上的线性变换，得到包括多个特征值的一维向量输出。该一维向量在输入由Softmax层实现的分类器，通过输出该输入图像可能属于的每一类别的概率，来判定目标类型。

在使用CNN进行推理(例如，图像分类)之前，首先需要对CNN进行训练。通过训练数据的大量导入，确定神经网络模型各层的参数，例如权重和偏移量。随后，可以将输入图送入经训练的CNN模型，给出如图所示的是树还是猫的概率。

虽然经过训练的卷积神经网络(CNN)在图像识别和目标追踪上有着良好的性能，然而CNN在进行图像识别时，仅仅是如上所述依据提取的特征进行最大概率分类，其本身并不理解图像中的目标对象是什么。

换句话说，现有的人工智能只是利用了人脑神经元结构(通常还是图2所示的经剪枝的简化结构)，用于处理单一问题(例如，图像目标识别)的模型，与人脑真实的思维模式相去甚远，并不能实现真正的“智能”。

有鉴于此，本发明提出了一种多模态任务处理方案，该方案通过深度模拟人脑在信息处理时的操作(而非是若干神经元之间的简单信息传递)，通过结合听觉、视觉和躯体感觉并进行更高层级的信息关联，能够处理更为复杂的多模态任务，为人工智能的进一步“智能化”奠定基础。在此，“多模态”任务指代需要听觉、视觉和躯体感觉中的两者或全部参与的任务。例如，显示一个对象并要求说出该对象的名称的任务涉及听觉和视觉联合处理；听到某个指令，做出某种动作的任务涉及听觉和躯体的联合处理；看到一个物体接近并进行躲避的任务涉及视觉和躯体的联合处理；要求针对一个对象执行某个动作的任务涉及听觉、视觉和躯体感觉的联合处理。

为了方便理解，首先在此对人脑的信息处理原理进行大致说明。人类大脑的外表面是由数十亿细胞组成大脑皮层，是由作为如上ANN模型基础的上亿神经元细胞之间的突触连接构成的信息传递和处理网络，其作用是调节脑的高级认知功能和情绪功能。大脑皮层不同的区域，有着不同的功能。图4示出了大脑皮层的功能区示意图。

额叶(frontal lobe)具有运动控制和进行认知活动的功能，如策划、决策、目标设定等功能，位于外侧裂之上和中央沟之前。顶叶(parietal lobe)负责触觉、痛觉和温度觉，位于中央沟之后。枕叶(occipital lobe)是视觉信息到达的部位，位于后头部。颞叶(temporal lobe)负责听觉过程，位于外侧裂下部，即，每个大脑半球的侧面。

每叶脑组织并非单独控制某一特殊功能，而是作为一个统一整体进行工作。大脑各叶互相影响、协调工作。

具体地，位于中央沟之前的额叶运动区皮层(motor cortex)控制人体的600多块随意肌，以产生动作。运动皮层的两个最大区域支配手指和语言活动相关的肌肉活动。躯体感觉皮层(somatosensory cortex)，也可称为体感皮层，位于中央沟之后的左右顶叶。这一皮层区处理温度、触觉、躯体、位置和疼痛信息。

听觉信息由位于两侧颞叶的听皮层(auditory cortex)加工。听皮层中的布洛卡区(Broca's area)与语言产出相关，维尔尼克区(Wernicke's area)则与语言理解相关。视觉传入由位于头后部的枕叶视皮层(visual cortex)进行加工。

并非全部皮层都加工感觉信息或向肌肉发送动作命令。实际上，大部分皮层的功能与解释与整合信息有关。例如筹划、决策类的过程发生在联络区皮层。联络区皮层(associate cortex)用于将不同的感觉模式的信息结合起来，用于筹划对外界刺激做出适当反应。

脑的上述区域在面临外界刺激时进行协同工作。图5示出了说出一个书面词汇时大脑皮层的处理例。当人类面临说出一个书面词汇这一看似简单的任务时，上述任务的处理和完成涉及复杂和精细的生物学过程。神经科学可以将其分为多个步骤。

例如，老师交给你一张纸，上面画着一只猫，并要求你大声说出纸上画着什么。你为此做出的反应包括诸多步骤。首先，视觉刺激(一张猫的画)由视网膜内的神经细胞检测出来，将神经冲动通过丘脑送入视皮层。视皮层把神经冲动送入颞叶后部的角回(Angularguri)，在那里对词的视觉编码与听觉编码加以比较。一旦找到适当的听觉码，就会转送到维尔尼克区(Wernicke's area)的听皮层，在那里解码并解释为：“噢！猫！我也养了一只。”随后神经冲动被送到布洛卡区(Broca's area)，由它把信息转送到运动皮层。运动皮层负责支配唇、舌、喉夹肌，使它们协同运动读出“cat”(即，猫)这个词。

相比之下，现有的人工智能技术则无法很好的处理对人脑来说相当简单的上述任务。例如基于CNN的图像识别技术，可以根据在前的训练将输入图像中的目标(以分类器中最高的概率)识别为“cat”。但是CNN网络本身并不知道“cat”是什么。而对现有的智能对话系统而言，虽然能够进行各类信息和知识图谱的查找，以满足用户的信息查询需求，例如，在例如用户询问“cat”是什么的时候，对话系统会给出字典答案“a small carnivorousmammal”(即，一种小型哺乳动物)。显然carnivorous mammal比cat更难理解。换句话说，对话系统并不理解“cat”作为语言本身的含义。换句话说，现有的人工智能其处理任务的能力依然单一，并不能很好的处理现实世界中各类复杂问题。

人的动作可分为三个层次：(1)反射动作是由脊髓实施的刺激反应的固有能力，例如膝跳反射；(2)自愿行动是指由前额叶皮层实施的自己意愿的行动，可以用语言自觉地描述，例如图5所示的行动；(3)例行动作是通过反复练习获得的，然后可以在下意识下执行，例如停在红灯处，其神经基质为基底神经节(BG)。在本发明中，着重关注于人脑的自愿行动机制及其在机器上的实现。

现有技术尚未实现类人的智能动作控制系统，这主要是由于但不限于尚无法实现如下几点。(1)一个可以学习多种任务的网络。人类基因决定我们拥有统一的大脑神经框架，这使我们能够掌握写作，口语和驾驶等各种技能；然而，现代机器通常只能执行特定任务，例如下棋，疾病诊断或机器人聊天等。(2)高效的多模式集成机制。例如，我们可以描述看到的内容和感觉，并想象文字中描述的故事并体验角色的感受。但是，大多数现代机器人缺乏语言和体感的输入。而且，由于当前的自然语言处理(NLP)技术是基于相关性和统计数据的，因此它不会赋予机器人体验感觉或想象故事的能力。(3)产生顺序动作。人们通常将一系列动作定义为任务/意图，然后通过考虑高级意图来执行动作。例如，“取回球(fetchball)”的意图可以分解为“先关注，然后到达，握持并最终拉回”的一系列动作。但是当前的运动控制系统总是一次生成单个原子动作。(4)执行前的心理行动预期。在执行计划的动作之前，人们总是会在脑海中模拟执行情况，因此即使我们知道这样做是安全的，我们也很难蹦极跳。但是，现代的机器控制系统直接基于实时电动机控制信号进行网络输出，并不包括进行动作模拟或行为修改的额外组件。创造性活动还需要基于(5)自愿和例行动作控制两者。基于强化学习(RL)的智能动作系统需要反复练习以获得特定技能，这与我们的例行动作系统类似，但培训时间通常成本高企，并且需要大量的失败经验来提高技能。而人们学习棋牌游戏和汽车驾驶却不会花费大量时间，也不会导致致命的失败，这是因为我们的自愿行动系统可以根据规则有意识地用正向推理帮助我们下棋或是在事故发生前避免危险。

解决这些问题将使机器动作更接近人类的智能动作。本发明可以包括类人的通用语言处理体系结构(HGLP)，该体系结构能够处理视听任务，并且包括视觉链路和听觉链路，并能论证如何将语言视为可以描述和控制视觉想象的脚本，而非匹配或相关统计。在本文中，可以根据人脑的解剖结构将躯体感觉运动相关输入和控制功能添加到HGLP中，并实现语言指导的机器动作，该动作使动作装置，例如机器人手臂可以执行各种任务，例如感觉疼痛，计划动作，描述所做的事情，有目的的思考等等。

本发明借鉴了人脑进行信息处理的方式，提出了一种类人脑的语言指导动作处理架构。该架构模拟在信息处理时人脑本身的操作，而非仅仅是若干神经元之间的简单信息传递，通过结合视觉、听觉和躯体感觉并进行更高层级的信息关联，实现对更为复杂的多模态任务的处理，为人工智能的进一步“智能化”奠定基础。

本发明首先可以实现为一种多模态任务处理装置。图6示出了根据本发明一个实施例的多模态任务处理装置的组成示意图。在此，“多模态”任务指代需要听觉、视觉和躯体感觉中的两者或全部参与的任务，并且任务的输入及其正确的结果输出包括语音、图像和动作特征中的任意两者或全部。例如，显示一个对象并要求说出该对象的名称的任务涉及听觉和视觉联合处理；听到某个指令，做出某种动作的任务涉及听觉和躯体的联合处理；看到一个物体接近并进行躲避的任务涉及视觉和躯体的联合处理；要求针对一个对象执行某个动作的任务涉及听觉、视觉和躯体感觉的联合处理。如下将结合例子进行详述。

如图所示，装置600包括任务获取模块610、视觉链路620、体感链路630和联络模块640。

在此，任务获取模块610用于获取多模态任务信息。在此，多模态任务信息可以是使得视觉和体感链路都参与其中的任务信息。在一个实施例中，可以实现为系统能够识别的指令语言，即，具有系统能够理解的形式的任务信息，例如特定编程语言命令。在一个更为完整的系统实现中，系统具有人类语言理解和处理能力。于是，任务获取模块可以包括或实现为听觉链路，所述听觉链路获取包含语言信息的多模态任务信息。在某些实施例中，经由听觉链路获取的多模态任务信息可以直接是文本信息，例如“reach the case(到达箱子)”。在其他实施例中，例如下图6所示的实施例中，听觉链路可以直接获取语音任务，例如，直接听取“reach the case(到达箱子)”的语音指令，由此更类似于人类面临的处理场景。

视觉链路620可以包括视觉识别模块621，所述视觉识别模块用于：获取图像输入；以及处理所述图像输入以获取输入图像特征。由此，视觉识别模块621可以实现类似于人类的“看”功能。

体感链路630可以包括感觉模块631和动作模块633。感觉模块用于：获取动作装置的状态信息；处理所述状态信息以获取输入体感特征。动作模块633用于：获取所述多模态任务处理结果中的输出体感特征；将所述输出体感特征转换为所述动作装置的动作输出。

相应地，联络模块640可以用于：获取所述输入图像特征和所述输入体感特征；确定所述多模态任务信息中所包含的针对动作和对象的任务含义；基于确定的针对对象的任务含义，进行与图像特征的关联；以及基于所述关联的结果，根据所述输入体感特征和针对动作的任务含义生成输出体感特征。

图7示出了本发明的多模态任务处理装置进行任务处理的一个例子。如图00所示，任务获取模块610获取多模态任务“reach the case(到达箱子)”。上述任务信息的获取可以是直接获取“reach the case(到达箱子)”的文本或是语音任务(具有人类能够直接理解的形式)，也可以是直接获取系统能够的其他形式的任务，例如，机器语音或是编程语言任务(并非普通人能够直接理解)。

视觉识别模块621可以获取当前视野里的图像输入，并处理所述图像输入以获取输入图像特征信息。例如，当前视野里包括一个箱子1和一个机械臂2(即，可由任务处理装置600控制的动作装置)，视觉识别模块可以通过图像处理获取包括上述箱子的位置信息的输入图像特征信息。

感觉模块631可以获取动作装置(例如，机械臂2)的状态信息；处理所述状态信息以获取输入体感特征，例如，包括机械臂2当前运动状态和位置的特征。

联络模块640从任务获取模块610获取多模态任务信息“reach the case(到达箱子)”，并由此确定多模态任务信息中所包含的针对动作和对象的任务含义，例如确定“reach the case”的语义含义。在此，该任务信息的语义含义是实施动作“reach(到达)”，动作的对象是“case(箱子)”。

随后或者与此同时，联络模块640可以获取输入图像特征和输入体感特征，由此获取图像特征中的物体对象状态以及机械臂的当前状态。

联络模块640随后可以基于确定的针对对象的任务含义，进行与图像特征的关联，例如，将语言“case(箱子)”与输入图像特征中的方块特征相关联，由此明确动作对象的位置。其后，联络模块640可以基于所述关联的结果，根据所述输入体感特征和针对动作的任务含义生成输出体感特征。例如，将箱子的位置与机械臂的位置进行关联，并据此生成能够使得机械臂行进至球以实现“reach(够到、到达)”的输出体感特征。

由此，动作模块633可以获取作为多模态任务处理结果中的输出体感特征，将所述输出体感特征转换为所述动作装置的动作输出指令，例如机械臂各个关节的扭矩。作为动作装置的机械臂随后可以基于这些扭矩执行动作，如01和02，并最终如03所示行进至箱子的位置，以实现“reach the case(到达箱子)”的任务。

由此，本发明通过将图像特征和体感特征进行针对任务的关联，能够实现动作装置针对对象的指令动作，由此实现多模态任务。

如前所述，多模态任务获取模块可以包括或是实现为听觉链路，所述听觉链路获取包含语言信息的多模态任务信息，并且所述联络模块，用于：确定所述多模态任务信息中所包含的针对动作和对象的语义含义。

具体地，所述听觉链路可以包括：听模块，用于：获取语音输入作为所述多模态任务信息；以及处理所述语音输入以获取输入语音特征。由此，联络模块可以从输入语言特征中提取多模态任务，例如，确定所述输入语音特征中所包含的针对动作和对象的语义含义。在图7的例子中，听模块可以接收到用户的语音输入“reach the case(到达箱子)”，并使得联络模块可以据此确定该任务针对的任务对象是箱子(case)，相应的动作是到达(reach)，即需要机械臂2移动至箱子1。

进一步地，听觉链路还可以包括说模块，所述说模块用于：获取所述多模态任务处理结果中的输出语音特征；将所述输出语音特征转换为语音输出，并且联络模块640可以相应地用于：确定所述多模态任务信息中包含的语音反馈任务；基于所述语音反馈任务，根据语音特征、图像特征和/或所述体感链路的体感特征，生成所述输出语音特征。在此，根据语音特征、图像特征和/或所述体感链路的体感特征，生成所述输出语音特征可以包括根据输入语音特征、输入和/或输出图像特征、以及输入和/或输出体感特征中的任意一个和多个特征，来生成输出语音特征。可以根据具体的输出语音任务来确定输出语音特征所需参考的其他特征。例如，当装置600完成图7所示任务后，可以在用户提问是否完成任务时通过说模块回答“yes”，在用户提问“你干了什么(you did)”时回答“reach”或者“reach thecase”，也可以基于默认设置直接在任务完成后生成表征任务完成的语音反馈。

进一步地，视觉链路还可以包括视觉重建模块(想链路)。所述视觉重建模块可以用于：获取所述多模态任务处理结果中的输出图像特征；将所述输出图像特征转换为图像输出。相应地，所述联络模块可以用于：确定所述多模态任务信息中包含的图像反馈任务；以及基于所述图像反馈任务，根据语音特征、图像特征和/或所述体感链路的体感特征，生成所述输出图像特征。类似地，可以根据输入和/或输出语音特征、输入图像特征、以及输入和/或输出体感特征中的任意一个和多个特征，来生成输出图像特征。可以根据具体的输出图像任务来确定输出图像特征所需参考的其他特征。例如，可以如图7的当前显示00的情况下，要求视觉重建模块重建当前显示。此时，输出图像特征仅需参考输入图像特征即可生成。进一步地，可以在没有当前显示的支持下要求视觉重建模块想象一个球(ball)。此时，需要联络模块将ball的语言与ball的图像相关联，使得视觉重建模块可以重建一个球的图像并显示。

当本发明的多模态任务处理装置包括了听说模块和想模块之后，就能够处理更为复杂以及更多种类型的问题。

图8示出了根据本发明一个实施例的多模态任务处理装置的组成示意图。装置800包括完整的听觉、视觉和体感链路，由此能够执行更为丰富多样的任务。

如图所示，装置800包括听觉链路810、视觉链路820、体感链路830和联络模块840。在此，听觉链路负责针对多模态任务中的听和说，视觉链路负责针对多模态任务中的看和想(重建)，体感链路针对多模态任务中的感觉和动作(执行)。联络模块则负责各个特征之间的联络，例如语言和图像特征之间的联络，即，含义理解和匹配转换；语言和体感特征之间的联络，比如如下将描述的BA14/40模块的功能；还可以进行输入体感特征与任务对象之间的认知地图映射，比如如下将描述的上顶叶模块的功能。图中的实线表示信息输入(涉及听、看和感觉)，虚线表示信息输出(涉及说、想和动作)。另外，链路内模块之间的连线表示可以直接进行链路内的输入输出转换，例如，看到的内容可以在无需上级联络模块参与的情况下被想象出来，例如，基于视觉矢量vv。

如图所示，在多模态任务包括语音输入时，听模块(也可以称为“听链路”)用于：获取多模态任务中的语音输入；并处理所述语音输入以获取输入语音特征。在多模态任务包括图像输入时，看模块(也可以称为“看链路”，或是“视觉识别模块”)获取多模态任务中的图像输入；并处理所述图像输入以获取输入图像特征。在多模态任务包括体感输入时，感觉模块获取多模态任务中的体感输入；并处理所述体感输入以获取输入体感特征。在更多的情况下，可以是基于听链路的语音输入所对应的相应任务，在上级皮层(例如，联络模块840)的控制下，获取或是使用体感和图像特征。

处理得到的输入语音特征、输入图像特征和/或输入体感特征随后如图所示被送入联络模块840。在此，联络模块840起到类似于人脑中联络区皮层的作用，用于连接语音特征、图像特征和体感特征的含义，并进行相应的关联、处理和输出。

具体地，在针对视听任务时(即，不涉及体感输入和输出时)，联络模块840可以用于：获取所述听觉链路的输入语音特征和/或所述视觉链路的输入图像特征；确定所述输入语音特征和/或输入图像特征的含义；基于确定的含义，进行语音特征与图像特征的关联；基于所述关联的结果，生成输出语音特征和/或输出图像特征。

在生成的输出包括语音特征时，听觉链路810中的说模块(也可以称为“说链路”)可以用于：获取所述多模态任务处理结果中的输出语音特征；以及将所述输出语音特征转换为语音输出。而在生成的输出包括图像特征时，视觉链路820中的想模块(也可以称为“想链路”，或是“视觉重建模块”)可以用于：获取所述多模态任务处理结果中的输出图像特征；以及将所述输出图像特征转换为图像输出。

具体地，输入的语音可以是针对输入图像提出的任务。为此，联络模块840可以用于：获取所述输入语音特征和所述输入图像特征；确定所述输入语音特征的含义；基于确定的含义，进行语音特征与图像对象特征的关联；基于所述关联的结果，识别所述图像对象或针对所述图像对象进行操作。例如，输入一个手绘的阿拉伯数字“3”并提问“it is？”。此时，联络模块840可以基于手绘图像匹配出存储的标准图像“3”，明确该图像“3”的含义，并明确提问“it is？”的含义，最后经由重建链路给出标准图像“3”和/或经由说链路给出语音回答“3”作为输出。

由上可知，听觉链路810可以包括听模块和说模块，其中，所述听模块用于将获取的语音输入转换为输入语音特征，所述说模块用于将生成的输出语音特征转换为语音输出。视觉链路820则可包括视觉识别模块和视觉重建模块，其中，所述视觉识别模块用于将获取的图像输入转换为输入图像特征，所述视觉重建模块用于将生成的输出图像特征转换为图像输出。

在一个实施例中，听模块可以包括：初级听觉模块(A1)811，用于将获取的语音输入转换为输入频谱信号；以及侧顶颞叶模块(Spt)812，用于将所述输入频谱信号转换为输入语音特征信号。

在此，初级听觉模块(A1)811用来模拟人脑中初级听觉皮层(Primary auditorycortex)的部分功能，用以对获取的语音输入进行一定的特征提取，以方便进一步理解。侧顶颞叶模块(Spt)812则用来模拟人脑中顶侧颞叶(Sylvian parietal temporal)的部分功能，用以对将初级听觉皮层提取的特征进行进一步处理，得到可供联络模块840进行处理的输入语音特征。

例如，A1 811可以直接获取声音输入，例如，用户输入的“what is it”的声波，并将其转换为时谱。时谱也称“时频谱”，是一种描述波动的各频率成分如何随时间变化的热图。随后，SPT 812将时谱其转换256位的特征矢量(也可以是更短或是更长的特征矢量，由此包含更少或是更多的信息量)在此可由语言矢量lv表示。例如，SPT 812可以将听到的句子的时谱信号转换为256位的句子lv。不同于传统NLP(自然语言处理)按语义构建的矢量，SPT 812可以将时谱信号转换位与句子声音谱相关的256位矢量，换句话说，lv中仍然包含声音，而非语义信息，由此方便对整个句子或短语的压缩，而非传统NLP中只能利用构建的矢量对单词进行表达。

相应地，说模块可以包括：前运动模块(PMt 813)，用于将输出语音特征信号转换为输出频谱信号；以及初级运动模块(M1t 814)，用于将所述输出频谱信号转换为输出语音信号。在此，为了将语言解码部分的前运动模块(PreM)与体感链路中躯体动作的前运动模块(PreM)加以区别，可以将声带，喉和舌头区域的前运动模块标记为PMt，这里的t指代“tongue(舌头)”，将体感链路中的前运动模块标记为PMa(如下描述的PMa 833)，这里的a指代“arm(手臂)”。类似地，初级运动模块(M1t 814)中的t也指代“tongue(舌头)”，以便与体感链路中的M1a 834相区别。

前运动模块813和初级运动模块814也可被用来模拟人脑中的相应功能。具体地，前运动模块813对应于人脑的前运动区。前运动区，也称为前运动皮质(Premotor cortex)，是大脑额叶与运动相关的一个功能分区。在解剖位置上，它与后方的初级运动皮质(Primary motor cortex)相邻。初级运动模块814则对应于初级运动皮质，后者用于控制肌肉进行发声。在本发明的多模态任务装置中，PreMt 813用于把上高级皮层(联络模块840)下发的输出语音特征(例如，带有具体语义的lv)变成时谱信号。M1t 814则用于把时谱信号转变为声音，从而说出要表达的内容。SPT-PMt可由序列到序列模块实现，其中PMt旨在从SPT编码的lv准确重建时谱信号。

相应地，看链路可以实现为多级视觉编码器，用于将获取的图像输入进行逐级特征提取，以获取所述输入图像特征。想链路可以实现为多级视觉解码器，用于将生成的输出图像特征进行逐级解码，以获取所述图像输出。如图8所示，看链路可以包括全连接特征提取模块(V1-V3)821，用于将获取的图像输入转换为输入图像特征。想链路则可实现为对应的全连接图像重建模块(V3’-V1’)822，用于将生成的输出图像特征转换为图像输出。

对于视觉处理，可以构造一个简单的视觉自编码器，其中的编码器部分(V1V2V3)从看到或想象的每个图像中提取256字节的视觉矢量(vv)，视觉解码器部分(V3'V2'V1')则可以根据给定的vv重建图像。

在此，全连接特征提取模块821可以模仿人脑视觉皮层进行视觉特征提取时的操作，利用V1-V3的三个全连接模块，完成从图像到特定目标的特征提取。在一个实施例中，V1-V3 821可以对应于人脑中的初级视觉皮层(V1，亦称纹状皮层(Striate cortex))以及纹外皮层(Extrastriate cortex，例如V2，V3等)。相应地，V3’-V1’822虽然是与V1-V3 821不同的计算模块，但同样可以对应于人脑中的初级视觉皮层(V1)以及纹外皮层。上述视觉皮层能够对视网膜采集到的视觉信号进行处理，而在晚上睡觉或是闭上眼睛想问题时，同样可以通过自上而下的放电重建出脑中想象(例如，做梦)的内容。

优选地，多级视觉编码器和/或所述多级视觉解码器中可以包括跳级连接。如图所示，V1和V3以及V3’和V1之间具有条线。在此，选择在V1和V3之间具有跳线的三层结构，这主要是因为在机械臂环境中，该结构在训练中收敛更快，并且其重构图像具有更好的质量。在其他实施例中，也可以选中三层或四层的串行处理结构，

由上可知，联络模块840可以用于：获取所述听觉链路的输入语音特征和/或所述视觉链路的输入图像特征；确定所述输入语音特征和/或输入图像特征的含义；基于确定的含义，进行语音特征与图像特征的关联；基于所述关联的结果，生成输出语音特征和/或输出图像特征。

具体地，联络模块可以包括用于执行上述功能的多个子模块。联络模块还可以与前额叶模块相连，后者在多模态任务涉及更为高级操作(例如，涉及工作记忆、规则任务等)时参与处理。

为了使得机器能够执行更接近人类的智能动作。可以在包括听觉和视觉链路以解决视听任务的基础上，根据人脑的解剖结构进一步添加体感(也可称为“躯体感觉”)运动模块，并实现了语言指导的机器动作，该动作使机器人手臂可以执行各种任务，例如感觉疼痛，计划动作，描述所做的事情，有目的的思考等等。

躯体感觉运动系统对人类同样起着至关重要的作用。例如，一只昆虫落在你的脖子上，尽管你看不到它，但是躯体感觉系统可以帮助你精确定位该昆虫，感知其大小甚至判断危险程度，然后手臂的运动系统可以驱赶该昆虫以避免叮咬。手臂的躯体感觉运动系统类似于语言系统。后者可以看作是声器官的感觉运动系统，而前者可以被聋哑人用来传递手势语言。手臂的躯体感觉运动系统可由带有编码部分和解码部分的自编码器实现，编码部分(初级感觉皮层S1 831和次级感觉皮层S2 832)用于将关节和皮肤的感觉和手势转换为256字节的体感运动矢量(sv)，解码部分(手臂和手的前运动(PMa 833)和初级运动(M1a834)模块)用于根据给定的sv执行肢体动作。

在不同的实施例中，基于输出体感特征进行动作的动作装置可以包括各类机器设备，例如，机械臂；虚拟和真实机器人；和/或无人驾驶汽车。

图9示出了机械臂的动作示意图。手臂动作(例如，如图所示到达目标方块(例如，箱子))是一个时间过程。手臂执行的直线到达动作可以分解为T步，手臂状态可以被外显地表示为：在每个时间步长t的两个关节角度

角速度

角加速度

手握状态H^t，疼痛状态P^t，其中i＝0和1分别代表大臂和小臂。为此，每个步长的手臂状态都可以由向量描述，例如本例中使用的8维向量

描述，以表示每步t时刻的关节角度、角速度、角加速度、手握状态(hold)和疼痛(pain)的取值。对于直线到达动作，给定初始和目标手的位置，可以借助如下表1所示的手臂状态矩阵A_T×8计算整个动作过程中的所有手臂状态参数。注意，只有加速度和手握信号用于控制两段手臂和手，并且我们假设初始和最终手臂速度保持静止。手臂状态矩阵A_T×8被用于无监督地训练躯体运动感觉自编码器，以获得感知手臂-手状态和执行动作的能力。

表1：手臂状态矩阵A_T×8取值

在此，初级感觉皮层(S1)831和次级感觉皮层(S2)832可以用来模拟人脑中的初级躯体感觉皮层(primary somatosensory cortex,S1)以及次级躯体感觉皮层(secondarysomatosensory cortex,S2)的部分功能，用于对获取的躯体感觉进行一定的特征提取，在此可以将关节和皮肤的感觉和手势转换为256字节的体感运动矢量(sv)，以方便后续更高级别皮层的处理。

与前运动模块813和初级运动模块814类似，手臂和手的前运动(PMa 833)和初级运动(M1a 834)模块同样可以对应于人脑的前运动区。前运动区，也称为前运动皮质(Premotor cortex)，是大脑额叶与运动相关的一个功能分区。在解剖位置上，它与后方的初级运动皮质(Primary motor cortex)相邻。具体地，位于体感链路中的前运动(PMa 833)和初级运动(M1a 834)模块可以对应于前运动皮质(Premotor cortex)和初级运动皮质(Primary motor cortex)的躯体动作功能，例如使用机械臂实现时的手和手臂的动作，而位于说链路中的前运动模块(PMt 813)和初级运动模块(M1t 814)可以对应于前运动皮质(Premotor cortex)和初级运动皮质(Primary motor cortex)的舌头喉部等发声器官的动作功能。

在本发明的多模态任务装置中，手臂和手的前运动(PMa 833)和初级运动(M1a834)模块可以用于上高级皮层(联络模块840)下发的输出体感特征(例如，sv)变成机械臂的控制信号，例如关节扭矩，由此实现依据例如手臂状态矩阵A_T×8的机械臂精确控制。

在加入了体感功能模块之后，联络模块840需要引入更多的功能来实现图像和语音特征与体感特征的关联，以及各类后续处理。

图10示出了根据本发明一个优选实施例的多模态任务处理装置的组成示意图。与图8类似地，听觉链路1010可以包括听模块，听模块可以包括A1 1011和Spt 1012，用于将输入的物理声波转化为输入语音特征(例如，256位的句子语音矢量lv)，输入语音特征送入联络模块1040进行后续处理。视觉链路1020可以包括看模块(视觉识别链路)，看模块可以由包括V1-V3的全连接特征提取模块1021实现，用于将获取的图像输入转换为输入图像特征，输入图像特征送入联络模块1040进行后续处理。体感链路1030可以包括感觉链路，感觉链路可由初级感觉皮层(S1)931和次级感觉皮层(S2)1032实现，用于将获取的状态信息(例如，机械臂状态信息)转化为所述输入体感特征，输入体感特征送入联络模块940进行后续处理。

听觉链路1010还可以包括说模块，说模块可以包括PMt 1013和M1t 1014，用于将从联络模块1040获取的输出语音特征(例如，256位的句子语言矢量lv)转换为物理声波输出。视觉链路1020还可以包括想模块(视觉重建链路)，想模块可以由包括包括跳线的V3’-V1’的全连接特征重建模块1022实现，用于将从联络模块1040获取的输出图像特征(例如，256位的对象或场景图像特征vv)转换为输出图像。相应地，体感链路1030可以包括动作链路，动作链路可由前运动(PMa 1033)和初级运动(M1a 1034)模块实现，用于将从联络模块1040获取的输出体感特征(例如，256位的体感或动作特征sv)转换为输出动作。

除了实现为机械臂的动作装置，在一个实施例中，听链路的前端还可以包括拾音装置，例如，麦克风或麦克风阵列。相应地，说链路末端还可以包括诸如扬声器的声音输出装置。看链路的前端可以包括诸如图像传感器的摄像装置，想链路的末端则可以包括例如显示屏的图像显示装置。在其他实施例中，上述输入和输出也可以是直接经由数据的输入和输出。

不同于图8，图10示出了由三个层级系统组成的多模态任务处理装置。这三个层级包括：感觉运动，联络和执行系统。低级的感觉运动系统具有躯体感觉，视觉和语言子系统，这些子系统可由自编码器组成，并在早期阶段受到无监督学习的训练。经训练的自编码器可以通过其编码器提供手势和疼痛的体感运动矢量(sv)，看到图像的视觉矢量(vv)和听到声音的语言矢量(lv)。这些sv，lv和vv可以是256字节的矢量，并且相应地重构为关节扭矩，口头说出和视觉想象；而且，这些矢量可以被更高级的模块处理或用作训练数据。在联络系统1040中，可以包括：通过将句子分解为短语或单词来理解句子的维尔尼克(Wernicke)子模块，依据句法规则生成语言表达的布洛卡(Broca)子模块，能命名体感状态和运动动作的BA14/40子模块，起到言语和视觉输入之间的翻译器的功能的中间颞叶(MT)子模块，提供躯体(在此为手臂)和关注对象的认知地图映射的上顶叶(SPL)子模块，将意图分解为由下游模块执行的顺序命令的辅助运动前区域(PreSMA)子模块，以及可根据当前的手臂和对象状态将每个命令转换为手臂动作的运动辅助区域(SMA)子模块。执行系统1050可由背外侧前额叶皮层(dlPFC)和可选地基底神经节(BG)组成。dlPFC可以将状态向量保存在其工作记忆中，根据规则生成任务响应，并向低级模块施加自顶向下的控制信号以与环境正确交互。BG则针对当前情况提供例行意图。

图10所示装置是一种分层模块化系统，遵循Baddeley工作记忆模型，该模型由一个中央执行系统和两个受控的从属系统组成(感觉运动皮层)：语音回路(PL)和视觉空间画板(VSS)。在本发明中，我们从两个方面扩展了Baddeley的模型：(1)添加联络系统，具有理解和生成语言的维尔尼克(Wernicke)和布洛卡(Broca)子模块，将体感运动状态转换为语言的BA14/40，在语言和视觉之间转换信息的中间颞叶(MT)，将体感状态与关注对象整合在一起的上顶叶(SPL)，将意图转换为一系列原子命令的前运动辅助区域(PreSMA)，以及根据命令和当前手臂-对象状态产生动作的运动辅助区域(SMA)；(2)添加由感觉模块S1和S2，手臂和手的前运动(PMa)模块和初级运动(M1a)模块组成的躯体运动感觉自编码器，以使机器具有感觉和行为。在图10的架构中，包含感觉运动，关联和执行系统这三个层级。低级的感觉运动系统由自编码器组成，并在无监督的情况下进行训练，以获得分别处理如下三种形态信息的能力：体感运动，视觉和语言。经训练的编码器可以提供执行的动作和感觉到的疼痛的体感运动矢量(sv)，观看或想象的图像的视觉矢量(vv)以及听到的声音或内部产生的语音的语言矢量(lv)。中级的联络系统由长短期记忆(LSTM)模型实现，并由sv，vv和lv的多模态矢量代表的外显事件或事实进行监督训练，以实现跨模态的多种联络功能。高级的执行系统由背外侧前额叶皮层(dlPFC)和基底神经节(BG)组成，dlPFC可以将状态向量保持在其工作记忆中，根据规则生成任务响应，并向更低级的模块施加自上而下的控制信号，以与环境进行适当的交互，BG模块则针对当前情况提供例行意图。各个模块的功能可以对应于人脑中的解剖联系。图中的每个模块都有输入和输出端，实线表示前馈路径，虚线表示反馈路径，顶部的弯曲箭头指示LSTM，否则为全连接模型。

人的联络皮层由位于感觉运动和执行皮质之间的大量灰质区域组成，以整合多模态感觉运动输入并促进各种任务执行。在本发明中，联络模块1040可以主要考虑与手臂动作相关的模块和功能。

人类MT(Middle Temporal，中部颞叶)占据了语言相关的上颞皮质和视觉相关的下颞皮质之间的大片区域(BA 21、37、38、39)。它的前部处理与客观性相关的信息，例如命名视觉对象的颜色，形状或身份，或者想象与所听到的语言有关的故事或对象。因此，损害这些部分将导致语义性痴呆。MT的后部处理空间相关的信息，例如命名视觉对象的位置或方向，或者根据听到的语言来想象对象的排列或运动。因此，这些部位的病变会引起阿尔茨海默症。为了完成多模态任务，本发明的多模态任务处理装置需要包括MT的功能。首先，可以包括颞中回(MTG)的功能。MT子模块中包含的MTG可以用于关联对应含义的语音特征和图像特征。MTG可以起到类似于人脑颞中回MTG(Middle Temporal gyrus)的作用。在人脑中，颞中回起到融合视觉和听觉信息的作用，例如，看到苹果的图像，想到单词apple，或者反之亦然。相应地，MTG也可以通过视觉和听觉(语义)信息的匹配来起到视觉与听觉信息融合的左右。如见到视觉人脸能关联到相应人名字。进一步地，颞中回子模块还可以用于：根据语音特征，修改针对图像特征的处理范围。上述注意力处理可以在如下所述的前额叶模块的参与下进行。例如，通过语音“左上角是什么”而只关注图像中左上角的对象。

利用MTG可以实现视觉和语言的交互，以进行对象识别，想象和语言引导的注意等。但实际上，每时每刻都有成千上万的视觉对象流入我们的视觉系统，然而我们只能处理通过注意机制凸显的很少一部分。为此，在本发明中，除了典型的MTG功能之外，MT子模块可以被训练为具有由意识或语言指导的自愿注意机制，例如在听到lv“小”音时输出图像中较小对象的特征。这与反映注意力(例如由突然发光的物体引起的注意力)或例行注意力(例如在开车穿越马路时不自觉地观察交通信号灯)不同。MT不仅能够根据言语上的大小，颜色和身份(正方形或手臂)从观看的场景中识别物体，而且可以感知和预测物体的运动。例如，lv“initial(初始)”让MT输出关注对象的初始位置，“predict(预测)”让MT输出对象的将来位置。MT具有vv(关注对象的特征)和lv(关注对象的属性)的两种模态输出，这两种输出可以由更高级别的模块进行后续处理，或者由感官解码器(例如，想链路和说链路)想象/口头表达。

进一步地，当联络区域需要处理复杂语言输入，例如，输入和输出包含句子或短语，而非单个单词时，联络模块1040还可以包括输入语言分解和输出语言合成功能。

此时，联络模1040还可以包括维尔尼克(Wernicke)子模块，用于将所述输入语音特征分解为单词和/或短语语音特征。Wernicke子模块732可以起到类似于人脑维尔尼克区(Wernicke's area)的作用，主要的功能是用来理解单词的意义。为此，Wernicke子模块可以用于将句子粒度的lv分解为单词或短语粒度的lv。进一步地，Wernicke通过将句子分解为单词或短语级别lv并纠正错误的发音(例如，将“kou”纠正为“you”)来负责语言理解。

相应地，联络模块还包括布洛卡(Broca)子模块，用于将生成的单词和/或短语语音特征合成为输出语音特征。同样地，Broca子模块可以起到类似于人脑布洛卡区(Broca'sarea)的作用，该区域主管语言信息的处理、话语的产生。与维尔尼克区共同形成语言系统。Broca负责通过句法重新排列上游模块中的单词或短语来合成句子lv。因此，对Broca的损害会在语言生产中引起问题。当少量Broca神经元(256个中的25个)沉默(激活设置为零)时，由于群体编码机制，装置1000仍可以用受损的lv口头表达完整的句子。当较大比例的神经元(256个神经元中的128个)受到损伤时，发声系统(PMt-M1t)会产生难以理解的话语；当大多数Broca神经元(256个中的256个)受损时，装置1000可以表现出Broca失语症的显著症状(即无论上游模块提供了什么输入内容都输出“t2”)，这与Broca失语症患者“Tan”的行为非常相似。

为了处理涉及体感特征的任务，联络系统1040还需要包括能够对体感特征进行输出的模块。

为此，联络系统1040还包括上顶叶(SPT)子模块，用于将输入体感特征与所述任务对象进行认知地图映射。SPT并非直接从听觉或是视觉链路获取输入视听特征，而是将来自MT的对象信号和来自S2的手臂状态信号以vv的形式组合成认知地图，该vv能够通过视觉解码器对其进行重建。换句话说，需要首先通过MT获知专注的对象是什么，在哪里，再利用SPT将手臂的位置和状态与对象的位置和状态进行关联，例如，确定手臂相对于关注对象的位置，由此为后续针对对象的动作提供认知前提。

在此，上顶叶(SPT)子模块的功能可以对应于人脑中上顶叶(superior parietallobe)的功能。人脑中的上顶叶在前方由中央后沟的上部界定，但通常在沟末端上方与中央后回连接，并与空间定向有关，可以接受大量关于人手的视觉和感觉输入。

如图10所示，上顶叶(SPT)子模块输出的关注对象和手臂的图像特征vv可被送入更高级的执行处理系统中的dlPFC进行进一步的综合处理，以应对更为复杂的任务，也可以将上顶叶(SPT)子模块输出的关注对象和手臂的体感和图像特征(矢量sv&vv)送入运动辅助区(SMA)子模块，以方便后者基于所述认知地图，生成所述输出体感特征。

在此，SMA可以根据命令(例如“reach”)和当前手臂-对象状态产生动作，例如，生成动作体感矢量sv，上述特征可以送入动作链路，以使得手臂和手的前运动(PMa)模块和初级运动(M1a)模块执行相应的动作，例如，控制机械臂“到达”箱子。

运动辅助区(SMA)子模块的功能与人脑的运动辅助区功能相对应。运动辅助区(Supplementary Motor Area,SMA或Supplementary motor cortex,SMC)是大脑皮质的一个主要与运动功能相关的区域。在解剖位置上来说，SMA位于脑半球的内侧面，和初级运动皮层的前方。

运动辅助区(SMA)的功能与运动的计划有关。与前运动皮层不同，SMA主要参与动物体自身产生和控制的运动，而不是在外界刺激下所产生的运动。例如SMA参与从记忆或是指令中产生的序列运动。

在任务指令包括序列运动情况下，联络系统1040还需要包括前运动辅助区(PreSMA)，用于将意图转换为一系列原子命令的前运动辅助区域(PreSMA)。例如，当任务为“reach the case(到达箱子)”时，运动辅助区(SMA)可以基于SPL的输出和“reach”动作，直接生成使得机械臂到达箱子的输出体感特征sv。但当任务为“fetch the ball(取回球)”时，就需要PreSMA的参与，将意图可以分解为“到达(reach)，握住(hold)拉回(pull)，和释放(release)”的一系列动作。随后，SMA可以基于所述一系列原子命令，生成对应于所述动作装置的一系列动作信息的所述输出体感特征。由此，使得机械臂能够在动作模块的指令下，完成上述“到达(reach)，握住(hold)拉回(pull)，和释放(release)”的一系列动作。在人体中，前运动辅助区(Pre-SMA)的功能同样与运动序列有关。

在本发明中，还可以通过BA14/40子模块，建立体感特征和语言特征之间的关联。BA14/40子模块可以用于基于体感特征，生成所述输出语音特征，进一步地，还可以识别所述体感特征中的动作顺序。

在图10所示装置中，BA14/40可以用作sv和lv之间的翻译器。它可以描述在口头查询“you did？(你做了什么)”下执行的动作(例如到达，拉，推，握住，释放，缩回等)，还可以识别动作顺序，例如取回＝到达+握住+拉回+释放(fetch＝reach+hold+pull+release)。进一步地，BA14/40还可以基于sv矢量描述身体感觉，例如回答“疼痛(pain)？”和“多痛(howpain)？”的查询(例如，借助如前所述的手臂状态矩阵A_T×8中的疼痛值)。

BA14/40可以对应于人脑中位于岛叶的布罗德曼14区(Brodmann Area 14)和位于上回(Supramarginal gyrus)的布罗德曼40区(Brodmann Area 40)的功能，即描述自主感觉和体感动作。

进一步地，当联络系统1040需要处理抽象概念任务(例如，1+2＝？)时，还需要能够参与抽象概念处理的模块参与。为此，联络模块还可以包括角回(AG)子模块(图中未示出)，用于确定所述单词和/或短语语音特征的抽象含义，并且进一步用于确定抽象含义的单词和/或短语之间的关联性。如偶数无法用图像表示，但是偶数可以定义为能被2整除的数，另外如2*3＝6这些抽象性知识都存放在AG皮层。该AG模块起到类似于人脑角回(Angulargyrus)的作用。

另外，当输入的多模态任务中存在联络系统无法解决的复杂任务时，联络系统1040还可以将任务进一步上传至更高级的执行系统1050。执行系统1050包括前额叶(dlPFC)模块，该模块类似于起到人脑背外侧前额叶(Dorsolateral prefrontal cortex,DLPFC)的功能，用于统筹判断、决策、洞察、计划，以及回忆等高级认知功能。在本发明中，dlPFC模块可以用于：获取经所述联络模块处理的输入语音特征和/或所述输入图像特征；以及识别所述输入语音特征和/或所述输入图像特征中的任务；以及将识别的任务分解为子任务返回给所述联络模块。识别的任务包括如下至少一项：工作记忆任务；规则任务；以及注意力任务。

进一步地，执行系统1050还可以包括可选地基底神经节(BG)。由此，除了通过dlPFC实现对自愿意图(也称“外显意图”)的执行之外，还可以通过基底神经节(BG)模块针对当前情况提供例行意图，并加以执行。

如下将结合示例描述联络区域各子模块以及执行系统的功能。图11A-D示出了本发明的多模态任务处理装置执行视听任务的例子。在此，“视听任务”指代涉及听觉和视觉链路的任务。应该理解的是，虽然在例子中使用了英语作为语音识别和语义理解的对象，但本发明的相关原理也适用于包括中文在内的其他语言。

如图11A所示，向看链路1021展示或输入图11A左侧所示的图像“3”，并向听链路1011(并经由后续的1012)输入“it is？”(其中“？”例如可由疑问语气来表示)。经看链路编码的图像“3”的输入图像特征vv(例如，vv[对象])被送入MT(具体地，送入MT中的MTG功能模块)，并被识别为图11A右侧所示的标准图像“3”。同时，将听链路编码的语音输入“it is？”的输入语言特征lv被Wernicke分解成“it”“is”“？”，并送入MT(具体地，送入MT中的MTG功能模块)。MTG具备识别“it”“is”“？”含义的能力，并理解其含义为解释标准图像所包含的内容，此时，MTG将标准图像“3”与其听觉编码“3”(例如，语音或单词“three”)相关联，于是生成用于回答的输出语音特征lv[回答]，并经由PreM 1013和M1t 1014的说链路输出语音“three”，以及可选地经由想链路1022输出标准图像“3”，例如，经由vv[关注对象]。此时，由于图像中只包括一个对象，因此v3输入的vv为vv[对象]，MT输出的vv[关注对象]也默认是图示对应的对象，而无需特别的关注操作。

如图11B所示，向看链路1021展示或输入图11B左侧所示的图像“0”，并向听链路711(并经由后续的712)输入“move up”。经看链路编码的图像“0”的输入图像特征vv(例如，vv[对象])被送入MT，同时，将听链路编码的语音输入“move up”的输入语音特征lv被当作词组直接送入MT。MT具备识别表征“move up”的lv的能力，并理解其含义为向图像所包含的对象“向上移”，此时，MT将图像“0”中的对象与“向上移”的语义相关联，并经由想链路1022输出图11B由侧所示的向上移的图像“0”。

如图11C所示，向看链路1021接连展示或输入图11C左侧所示的图像“5”和“8”，并向听链路1011(并经由后续的1012)输入“what is last”。将听链路编码的语音输入“whatis last”的输入语音特征lv被Wernicke分解成“what”“is”“last”，并送入MT。MT不具备识别“what”“is”“last”含义的能力，将其转送或直接由Wernicke将包含“what”“is”“last”信息的lv[词]发送给上层的dlPFC。dlPFC将“what”“is”“last”的含义分解为MT能够理解的“last”“it”“is”“？”，并经由其工作记忆(working memory)功能向MT指明需要理解其含义的是输入的后一张图，即，向MT的输入送入下发的lv[关注/问题]。于是，输入的后一张图被识别为图11C右侧所示的标准图像“8”，MT将标准图像“8”与其听觉编码“8”(例如，语音或单词“eight”)相关联，将其作为lv[回答]送入Broca，并经由PreMt 1013和M1t 1014的说链路输出语音“eight”，以及可选地经由想链路1022输出标准图像“8”，例如，经由特征vv[关注对象]。在此，工作记忆(working memory)是指在执行认知任务过程中，用于信息的暂时储存与加工的资源有限的系统。在本发明中，dlPFC可以具有上述信息暂存和加工功能，例如，存储输入的两幅图像“5”和“8”，并指示下级皮层哪一个是“后一张图”。

如图11D所示，向看链路1021展示或输入所示的图像“2”，并且该图像中2的左上角还有一个小方块，并向听链路1011(并经由后续的1012)输入“what is on top left”。将听链路编码的语音输入“what is on top left”的输入语音特征lv被Wernicke分解成“what”“is”“on top left”，并送入MT。MT不具备识别“what”“is”“on top left”含义的能力，将其转送或直接由Wernicke将矢量lv[词]发送给上层的dlPFC。dlPFC将“what”“is”“on topleft”的含义分解为MT能够理解的“it”“is”“？”，并经由其注意力功能(attention)向MT指明需要注意的区域是图中“on top left”，即左上角。于是，MT基于下发的lv[关注/问题]将图中左上角的对象被识别为“square”(即，小方块)，并经由Broca进行语言合成“it is asquare”，并经由PreMt 1013和M1t 1014的说链路输出。在一个实施例中，MT也可以自身包括注意力功能。换句话说，dlPFC可以将包括“on top left”“it”“is”“？”的lv[关注/问题]反馈至MT的输入端，并由MT自身根据“on top left”完成对左上部分的关注，并根据“it”“is”“？”确定是对关注区域内包含对象的回答。

在其他的实施例中，还可以输入“if…then”这类的规则任务，并在dlPFC的参与下加以完成。另外，还可以输入例如“1+2＝？”的图像任务，并可由MT将上述图像“1”“+”“2”“＝”“？”与各自的符合表意相关联，并经由AG的抽象处理能力完成计算。

虽然没有示出，但本发明的任务处理装置还可以包括海马子模块，用于：对获取的工作记忆任务进行学习；以及将学习结果写入所述前额叶模块和/或所述联络模块。人脑的海马区(HPC，Hippocampus cortex)主要负责长时记忆的存储转换和定向等功能。在本发明中，海马子模块可以位于前额叶模块，并是一个与dlPFC向并列的独立模块。可以将用作训练学习材料的片段记忆(episode)，例如图11C中的图像“5”和“8”放在专门的HPC模块，训练按照设定的比例随机抽取片段记忆来训练各个模块，例如，修改联络模块中各个子模块的皮层链接权重等参数，来不断提升网络的功能。这些待学习的功能蕴含在HPC的片段记忆当中，可通过设定训练采样频率来提升该功能被学习的力度。

如上结合图11A-D描述了本发明的多模态任务处理装置执行视听任务的例子。在添加了体感链路以及联络系统中相应的SPL、PreSMA、SMA以及BA14/40模块之后，本发明的多模态任务处理装置可以执行更为丰富的任务，例如，涉及动作设备的实际动作的任务。

图12示出了本发明的多模态任务处理装置执行包括体感任务的多模态任务的例子。其中，图12的上部示出了基于“fetch big”的输入语音完成对应多模态任务的动作装置的执行示意图。图中包括相关物体(一个大方块和一个小方块)，还有一个机械臂。这些图示可以是看链路获取的输入，并且其编号可以表示这些图示的获取时序；而图12的下部则示出了执行“fetch big”输入语音任务时多模态任务装置的内部处理流程。

如图12下部所示，首先获取作为多模态任务的语音指令“fetch big”，即“取回大的”，随后，听模块中的初级听觉模块(A1)，用于将获取的语音输入(即，“声音”)转换为输入频谱信号(例如，时谱信号)，侧顶颞叶模块(SPT)则用于将所述输入频谱信号转换为输入语音特征信号，即图中示出的lv[[fetch big]]。在此，可以将lv[[fetch big]]理解为包括“fetch”和“big”信息的输入语音特征矢量，例如，256位矢量。随后，维尔尼克(Wernicke)模块对上述矢量进行分解，由此得到lv[词]，即图中示出的lv[[fetch],[big],[],[]]。

MT可以获取lv[[fetch],[big],[],[]]，取出其能够解析的内容，即[big]，并根据看模块(V1-V3)获取的输入图像矢量vv，确定关注对象，例如，图12上部图00中右下角的更大方块，并将指明关注对象的图像矢量vv[big]发送给上顶叶(SPL)子模块。由上可知，SPT用于提供躯体(在此为手臂，例如上部示出的机械臂)和关注对象的认知地图。于是，在此，SPT可以将从感觉链路获取的表征机械臂当前状态的体感矢量sv[arm]与图像矢量vv[big]进行认知地图映射，即，使得机械臂知道其相对于关注对象(即，大方块)的位置和状态。

另一方面，dlPFC同样可以从Wernicke可以获取lv[[fetch],[big],[],[]]，并且在知晓MT对[big]进行处理的情况下，着手对lv[[fetch],[],[],[]]进行处理。在一个实施例中，dlPFC知晓[fetch]是包括多个原子动作的复合动作，因此将其作为lv[外显意图]提供给辅助运动前区(PreSMA)子模块。PreSMA于是可以将将意图分解为由下游模块执行的顺序命令的原子指令。在此，PreSMA可以将fetch(取回)分解为reach(到达)、hold(持握)、pull(拉回)和release(释放)，并由此生成lv[命令序列]，即lv[[reach],[hold],[pull],[release]]。运动辅助区域(SMA)子模块可根据当前的手臂和对象状态将每个命令转换为手臂动作，在此可将语音特征矢量转换为相应的体感特征矢量，即将lv[[reach],[hold],[pull],[release]]转换为sv[[reach],[hold],[pull],[release]]。于是，手臂和手的前运动(PMa)模块和初级运动(M1a模块可以根据给定的sv执行相应的肢体动作，即，顺序执行reach(到达)、hold(持握)、pull(拉回)和release(释放)动作。图12上部的四列示意图分别示出了相应的动作。例如在第一列中，sv在动作模块的处理下转换为关节的扭矩，因此在00-03时刻完成了reach(到达)任务。其后，如第二列所示，在10-13时刻进行hold(持握)动作。再如第三列所示，在20-23时刻完成针对大方块的pull(拉回)操作，并如第四列所示，在30-33时刻完成release(释放)动作。在此，可以理解系统利用4个时间步长处部署的动作。而04-09以及后续的间隔时间，则可理解为处理装置命令处理和/或机械臂执行下一命令的准备时间。

在自愿动作的执行过程中，dlPFC模块还可以进行更为复杂的操作，例如可以根据当前条件有意识地选择任务。具体地，dlPFC可以被训练为执行“如果条件，则意图A，否则意图B”，其中训练过程中的条件，动作A和B是从词汇表中选择的随机词。听到“如果则(Ifthen)”语句后，dlPFC将检查当前系统是否满足“条件？”，链路模块将以T表示“True”，而F表示“False”来回答查询，基于此，dlPFC将执行意图A或B。例如，结合图12的示例，听觉链路输入的内容可以是更为复杂的语音指令，例如，“if small red,then fetch big”。此时，dlPFC可以判定小对象，例如图中的小方块是否满足条件(即，为红色)，并在满足条件时，执行如图12所示的“fetch big”的动作。

虽然没有在图12中例示，但BA14/40也可以参与多模态任务的处理。BA14/40可以作为sv和lv之间的翻译器。例如，在执行完如图12所示的“fetch big”的动作后，如果听链路获取到了口头问题“you did？”，即，“你做了什么”，则BA14/40可以根据其记录下的sv，描述已经执行的动作，并且可以识别动作顺序。为此，BA14/40可以做出“到达、握持、拉回和释放”的回答。进一步地，如图10所示，可由dlPFC完成对lv[[you],[did],[？]]的解释，并将其以BA14/40能够理解的lv[回答]的方式提供给BA14/40。BA14/40则可根据lv[回答]，提供从sv到lv的翻译，并将上述lv&sv提供给dlPFC。dlPFC生成相应的lv[表达]，由此使得说模块能够说出已经执行的动作，即reach,hold,pull,release(到达、握持、拉回和释放)。

进一步地，如上表1所示，机械臂在一个实施例中还可以记录疼痛值(pain)的信息。上述信息可由感觉模块生成的体感矢量sv记录。作为sv和lv之间的翻译器，BA14/40还可以基于sv矢量回答“疼痛(pain)？”和“多痛(how pain)？”的问题。例如，在疼痛值超过疼痛阈值时回答痛，在大幅超过疼痛阈值时回答很痛。

由此，本发明的多模态任务处理装置还可以执行疼痛反应任务。例如，dlPFC将用BA14/40反复检查“疼痛？”。当代表灼热物体的红色方块接触机器人手(即，机械臂)时，疼痛感可以触发“释放拉力”意图，该意图通过PreSMA-SMA转换为动作sv，最后通过PMa-M1a作为关节扭矩执行。

进一步地，例如dlPFC的条件执行功能，本发明的多模态任务处理装置还可以紧急停止意图。dlPFC可以在“small red(小的红色)”条件下生成“fetch big(取回大的)”意图，并在小方块变为黄色后立即发送“停止”以终止顺序操作。

另外，本发明的装置还可以执行动作前的想象模拟。dlPFC可以在“green big(绿色大)”方块出现后生成“IMAGINE reach(想象到达)”意图，可以将“到达”lv与对象vv一起输入到SPL中，以形成手和关注对象的认知地图vv，由此能够通过视觉解码器V3'-V2'-V1'在视网膜层进行重构。

在此，绿色对象可以代表某种会引发不快的例行经验，使得想象中的绿色触摸事件是令人不快的场景。基于此，BG模块可以产生“撤回”意图，让手臂回到原始位置。

在模型训练时，体感链路、听觉链路和视觉链路作为感觉链路，可以是各自经由无监督算法训练得到的自编码器。联络模块中包括一个或多个子模块则可使用上述经训练的自编码器输入的语言特征lv和/或图像特征vv和/或体感特征sv，基于有监督方式各自独立训练得到的模型。在此，自编码器(Autoencoder)是一种旨在将它们的输入复制到的输出的神经网络。他们通过将输入压缩成一种潜在空间表示，然后这种重构这种表示的输出进行工作。这种网络通常包括压缩输入的编码器和重构输入的解码器，在本发明中，正好对应于听觉链路的听模块和说模块，视觉链路的视觉识别和重建模块，以及体感链路的感觉和动作模块。在自编码器训练完成之后，可以拆成听、说、看、想、感觉和动作模块分别使用。

无监督学习是指没有“老师”提供信息，自行观察总结进行学习。监督学习是所学内容由监督者提供的学习。例如人类婴儿出生后马上发育出的视觉就不是别人教来的。初级感觉(视觉听觉等)都是无监督学习，针扎就会痛，不用别人教你。但是针扎后的感觉叫做‘痛’就是别人教你的，需要监督学习。在本发明中，在经由非监督学习获取了初级感觉处理模型后，需要监督学习习得高级认知，例如联络模块和前额叶模块对1+1＝2，以及那个绿球叫‘苹果’的学习。

如前所述，联络模块中各个子模块，包括更高级皮层中的前额叶模块可由长短时记忆(Long Short-Term Memory,LSTM)模型实现。LSTM可以处理时间上的维度，即，当前输出需要考虑在前的输入，尤其适于处理具有相关性的语音和图像的连续输入。图10所示部分模块上指向自身的箭头表示这些模块可以使用时间上存在相关的LSTM模型实现。

如上已经结合图6-12描述了根据本发明的多模态任务处理模型。在更为广义的实施例中，语音输入、输入语音特征、输出语音和输出语音特征中的至少一个可以是语义特征，或是语言特征，例如，用lv(语言矢量)代表的特征。换句话说，在本发明的多模态任务处理模型中，可以使用例如单词输入来代替语音输入，例如，输入的是文字而非语音的“whatis last”，并且在联络模块中的各个子模块可以将图像与词句(或其对应语义)而非语音进行关联，对文字而非语音的词句进行处理。由此，方便将本发明的核心部分，例如，联络模块，与现有的高度发展的语音识别系统相对接，例如，直接获取NLU(自然语言理解)之后的文字内容作为语音输入。类似地，联络模块也可以直接与现有的图像特性提取系统对接，只保留其核心的“联络区皮层”功能。

为此，本发明还可以实现为一种多模态任务处理方法。图13示出了根据本发明的多模态任务处理方法的示意性流程图。该方法尤其可由如上所述的多模态任务处理装置的更高级部分，例如，联络模块结合执行模块实现。

在步骤S1310，获取多模态任务信息、输入图像特征和输入体感特征。在步骤S1320，确定所述多模态任务信息中所包含的针对动作和对象的任务含义。在步骤S1330，基于确定的针对对象的任务含义，进行与图像特征的关联。在步骤S1310，基于所述关联的结果，根据所述输入体感特征和针对动作的任务含义生成输出体感特征。

具体地，所述多模态任务信息以输入语音特征的方式获取，并且步骤S1320可以包括确定所述多模态任务信息中所包含的针对动作和对象的语义含义。

进一步地，多模态任务还可以涉及语音输出，为此该方法还可以包括：确定所述多模态任务信息中包含的语音反馈任务；以及基于所述语音反馈任务，根据图像特征和/或体感特征，生成输出语音特征。

进一步地，多模态任务还可以涉及视觉(图像)输出，为此该方法还可以包括：确定所述多模态任务信息中包含的图像反馈任务；

基于所述图像反馈任务，根据语音特征、图像特征和/或体感特征，生成输出语音特征。

进一步地，该方法可以实现BA14/40的功能，由此还可以包括：基于体感特征，生成输出语音特征；和/或识别体感特征中的动作顺序。

进一步地，步骤S1330还可以实现为MT的功能，并且可以包括：将所述多模态任务中的针对对象的语义含义与图像特征相关联；以及感知和/或预测图像特征中任务对象的位置和/或运动。

进一步地，本方法还可以实现SPL的功能，并且由此还可以包括：将输入体感特征与所述任务对象进行认知地图映射；以及基于所述认知地图，生成所述输出体感特征。

进一步地，本方法还可以实现PreSMA和SMA的功能，并且由此还可以包括：将所述语义含义转换为一系列原子命令，并且基于所述认知地图，生成所述输出体感特征包括：基于所述一系列原子命令，生成对应于所述动作装置的一系列动作信息的输出体感特征。

进一步地，本方法还可以实现dlPFC的功能，并且由此还可以包括：获取经所述联络模块处理的所述输入语音特征、所述输入图像特征和/或所述输入体感特征；以及识别所述输入语音特征、所述输入图像特征和/或所述输入体感特征中的任务。

应该理解的是的是，上述方法可以由在前描述的视图任务处理装置实现，尤其可由其联络模块和更上层的dlPFC实现。换句话说，结合图13描述的本发明的多模态任务处理方法可以实现如上结合图6-12所述的多模态任务处理装置所能够实现的各类操作。

如前所述，在更广义的实施例中，可以利用现有的语音交互系统、图像处理系统、和/或机械臂控制系统对接上述联络区和更上层皮层的功能。换句话说，在实际应用中，可以在专门的联络区服务器(或上层皮层服务器)上实现联络和更高级的处理功能。该服务器可以与常规的语音交互服务器、图像处理服务器和/或机械控制服务器相关联，甚至可以直接与用来跟用户交互的终端相关联。

如前所述，可以根据具体的多模态任务，确定所述听觉链路、所述视觉链路和所述体感链路中参与当前任务的链路。例如，回答“这是什么”时需要听觉和视觉链路的参与，而在应对“取回球“的任务时则需要听觉、视觉和体感链路的共同参与。在其他实施例中，还根据具体的多模态任务，确定所述听觉链路、所述视觉链路和所述体感链路中参与当前任务的链路优先级或权重，例如可以给听链路更高的优先级或是权重能。另外，也可以根据现场环境参数或是用户设置来确定所述听觉链路、所述视觉链路和所述体感链路中参与的链路和/或参与优先级或权重。上述参数和用户设置可以统一至上层的联络或是执行系统，以作为某一种遵循准则来指导听觉链路、视觉链路和体感链路的行动。

为此，本发明还可以实现为一种语音任务处理方法。图14示出了根据本发明的语音任务处理方法的示意性流程图。该方法尤其适用于带有语音交互功能的物理终端，例如，自动驾驶汽车实现，或是由智能音箱结合可运动设备，例如智能家电实现。在此，语音任务指代用户与终端交互的方式，但在本发明的实现中，上述任务仍然涉及例如从数据库中查找或是经由摄像头输入的图像的关联处理。

在步骤S1410，获取用户的语音输入。例如，智能音箱或是车载系统可以经由其内安装的麦克风，或是与其近距离通信的语音贴来收集用户语音输入。在无人驾驶和无人操控的情况下，汽车、机械臂或是其他机械装置也可以经由远程获取语音输入，例如，获取来自控制台或是控制中心的输入。在步骤S1420，获取所述语音输入的语义含义，所述语义含义包括针对动作的含义和针对对象的含义。在步骤S1430，基于所述针对对象的含义确定图像特征中的关注对象。在步骤S1440，基于所述针对动作的含义，对所述关注对象进行相应动作。例如，智能音箱可以控制智能家电进行完全符合用户语音需求的动作，自动驾驶汽车也可以例如在接收到“加速”指令后，结合当前环境进行加速。

上述操作可以通过将语音输入直接上传或是经由部分本地或边缘处理后上传云端实现。随后，云端返回处理结果，并且进一步地，可以基于所述动作的结果，输出语音反馈。

上述图像特征可以是基于在前语音命令确认的，或是经由终端设备设有或与其通信的摄像头获取的。为此，该方法还可以包括获取用户的图像获取语音输入，并查找并获取图像。由此，通过多轮语音，实现针对图像对象的语音关联处理。在终端包括显示屏或能够与显示屏通信时，该方法还可以包括：在显示屏上显示获取的所述图像；以及基于操作的结果，显示经处理的所述图像。作为替换或是补充，该方法还可以包括：经由摄像头获取图像输入；提取输入图像的特征。

举例而言，家用智能音箱可以控制智能厨房机器人进行料理制作和清洗碗筷的家庭终端。例如，针对待处理的食材，用户可以可以经由智能音箱输入指令，或者直接对具有语音功能的厨房机器人输入指令“我要吃红烧肉，甜一点”，上述信息可以上传至料理数据库，料理数据库可以根据获取的食材影像、用户的输入指令“红烧肉”“甜一点”以及菜谱控制机器人进行相应的烹饪操作，并且可以在制作完成后语音通知用户，并在给定的命令或时间将其端至餐桌。

另外，本发明的方案尤其可以实现为一种自动驾驶交通工具，例如自动驾驶汽车，该汽车内部具有语音交互功能，或是能够接收远程语音，并且能够根据用户输入的语音指令，结合获取的当前环境图像，进行相应的操作。

能够执行本发明的语音任务处理或是多模态任务处理的服务器可以与海量的上述语音交互终端或是自动驾驶设备相连接，并且基于高速低延时网络(例如，5G，或是将来研发出的更高性能网络)，实现对机器设备的语言指导控制。

图15示出了根据本发明一个实施例可用于实现上述语言指导动作任务方法的计算设备的结构示意图。该计算设备1500尤其适用于实现为一种语音交互终端或是包括上述终端的可动作设备，能够用于实现如上参考图15描述的语音处理方法。

参见图15，计算设备1500包括存储器1510和处理器1520。

处理器1520可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1520可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器1520可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器1510可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器1520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1510可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1510可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

此外，该计算设备1500还可以包括相应的语音采集与输出设备，例如，麦克风和扬声器，并且可以可选地具有视觉采集和输出设备，例如摄像头和显示屏。该计算设备1500还可以包括或是控制可物理运动的装置，例如机械臂，或是本身实现为自动驾驶设备等。

存储器1510上存储有可执行代码，当可执行代码被处理器1520处理时，可以使处理器1520执行上文述及的语音任务处理方法。

上文中已经参考附图详细描述了根据本发明的多模态任务处理方案。该方案放弃传统NLP(自然语言处理)中以语言解释语言的方式，提出类人脑方式多模态解释语言，即用视觉等感觉等理解语言。具体地，该方案实现了类人脑语言解释架构搭建，包含语言处理模块，视觉处理模块，体感模块，Wernicke模块，MT模块，SPL模块，BA14/40模块，PFC模块，Broca模块等。上述架构可以用于积累式学习，先学苹果，再学吃苹果，并且可以取苹果甚至切苹果。进一步地，整体网络训练后能实现泛型(generic)语言处理能力。该网络能用重复听到的语言，回想看到的东西，能够过滤外部发音偏差，用图像解释语言，用语言产生并操控机械臂，能按照语法生产语言发声，能形成知识的记忆与应用，有工作记忆能力，能用语言指导注意力，能识别规则做泛化运算，能预测运动，做三段论推理，并通过语言指导进行一次性学习。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种多模态任务处理装置，包括：

多模态任务获取模块，用于获取多模态任务信息；

视觉链路，包括视觉识别模块，所述视觉识别模块用于：

获取图像输入；

处理所述图像输入以获取输入图像特征，

体感链路，包括动作模块和感觉模块，

所述感觉模块用于：

获取动作装置的状态信息；

处理所述状态信息以获取输入体感特征，

所述动作模块用于：

获取所述多模态任务处理结果中的输出体感特征；

将所述输出体感特征转换为所述动作装置的动作输出指令，联络模块，用于：

确定所述多模态任务信息中所包含的针对动作和对象的任务含义；

获取所述输入图像特征和所述输入体感特征；

基于确定的针对对象的任务含义，进行与图像特征的关联；以及

基于所述关联的结果，根据所述输入体感特征和针对动作的任务含义生成输出体感特征。

2.如权利要求1所述的装置，其中，所述多模态任务获取模块包括听觉链路，所述听觉链路获取包含语言信息的多模态任务信息，并且所述联络模块，用于：确定所述多模态任务信息中所包含的针对动作和对象的语义含义。

3.如权利要求2所述的装置，其中，所述听觉链路包括：

听模块，用于：

获取语音输入作为所述多模态任务信息；以及

处理所述语音输入以获取输入语音特征，并且

所述联络模块，用于：

确定所述输入语音特征中所包含的针对动作和对象的语义含义。

4.如权利要求3所述的装置，其中，

所述听觉链路还包括说模块，所述说模块用于：

获取所述多模态任务处理结果中的输出语音特征；

将所述输出语音特征转换为语音输出，并且

所述联络模块，用于：

确定所述多模态任务信息中包含的语音反馈任务；

基于所述语音反馈任务，根据语音特征、图像特征和/或所述体感链路的体感特征，生成所述输出语音特征。

5.如权利要求4所述的装置，其中，

所述视觉链路还包括视觉重建模块，所述视觉重建模块用于：

获取所述多模态任务处理结果中的输出图像特征；

将所述输出图像特征转换为图像输出，

所述联络模块，用于：

确定所述多模态任务信息中包含的图像反馈任务；

基于所述图像反馈任务，根据语音特征、图像特征和/或所述体感链路的体感特征，生成所述输出图像特征。

6.如权利要求5所述的装置，其中，所述视觉识别模块包括：

多级视觉编码器，用于将获取的图像输入进行逐级特征提取，以获取所述输入图像特征，

所述视觉重建模块包括：

多级视觉解码器，用于将生成的输出图像特征进行逐级解码，以获取所述图像输出。

7.如权利要求5所述的装置，其中，所述多级视觉编码器和/或所述多级视觉解码器中包括跳级连接。

8.如权利要求5所述的装置，其中，所述听模块包括：

初级听觉模块，用于将获取的语音输入转换为输入频谱信号；以及

侧顶颞叶模块，用于将所述输入频谱信号转换为输入语音特征信号，

所述说模块包括：

前运动模块，用于将所述输出语音特征信号转换为输出频谱信号；以及

初级运动模块，用于将所述输出频谱信号转换为输出语音信号。

9.如权利要求3所述的装置，其中，所述联络模块包括：

BA14/40子模块，用于基于体感特征，生成所述输出语音特征。

10.如权利要求9所述的装置，其中，所述BA14/40模块还用于：

识别所述体感特征中的动作顺序。

11.如权利要求2所述的装置，其中，所述联络模块包括：

中部颞叶子模块，用于将所述多模态任务中的针对对象的语义含义与图像特征相关联。

12.如权利要求11所述的装置，其中，中部颞叶子模块还用于：

感知和/或预测图像特征中任务对象的位置和/或运动。

13.如权利要求12所述的装置，还包括：

上顶叶子模块，用于将输入体感特征与所述任务对象进行认知地图映射。

14.如权利要求13所述的装置，还包括：

运动辅助区子模块，用于基于所述认知地图，生成所述输出体感特征。

15.如权利要求14所述的装置，还包括：

前运动辅助区子模块，用于将所述语义含义转换为一系列原子命令，并且

所述运动辅助区子模块基于所述一系列原子命令，生成对应于所述动作装置的一系列动作信息的所述输出体感特征。

16.如权利要求2所述的装置，其中，所述联络模块包括：

维尔尼克子模块，用于将包含的所述语言信息分解为单词和/或短语语音特征，和/或对所述单词和/或短语语音特征进行语法修正。

17.如权利要求2所述的装置，其中，所述联络模块包括：

布洛卡子模块，用于将生成的单词和/或短语语音特征合成为包含语言信息的输出特征。

18.如权利要求2所述的装置，还包括：

前额叶模块，用于：

获取经所述联络模块处理的所述输入语音特征、所述输入图像特征和/或所述输入体感特征；以及

识别所述输入语音特征、所述输入图像特征和/或所述输入体感特征中的任务；以及

将识别的任务分解为子任务返回给所述联络模块。

19.如权利要求18所述的装置，其中，识别的任务包括如下至少一项：

工作记忆任务；以及

规则任务。

20.如权利要求19所述的装置，还包括：

海马子模块，用于：

对获取的工作记忆任务进行学习；以及

将学习结果写入所述前额叶模块和/或所述联络模块。

21.如权利要求2所述的装置，还包括：

基底神经节模块，用于基于所述多模态任务、所述输入图像特征和所述体感特征，生成例行意图，所述例行意图用于生成输出图像特征、输出体感特征和/或输出语音特征。

22.如权利要求2所述的装置，其中，所述听觉链路、所述视觉链路和/或所述体感链路是各自经由无监督算法训练得到的自编码器。

23.如权利要求22所述的装置，其中，所述联络模块中包括一个或多个子模块，所述子模块是使用所述经训练的自编码器输入的语音特征、图像特征和/或体感特征，基于有监督方式各自独立训练得到的长短时记忆(LSTM)模型。

24.如权利要求2所述的装置，其中，

根据所述多模态任务，确定所述听觉链路、所述视觉链路和所述体感链路中参与的链路和/或参与优先级或权重；

根据现场环境参数，确定所述听觉链路、所述视觉链路和所述体感链路中参与的链路和/或参与优先级或权重；和/或

根据用户设置，确定所述听觉链路、所述视觉链路和所述体感链路中参与的链路和/或参与优先级或权重。

25.如权利要求1所述的装置，其中，所述感觉模块包括：

初级和次级感觉皮层，用于将获取的状态信息转化为所述输入体感特征；

所述动作模块包括：

前运动模块和初级运动模块，用于将所述输出体感特征转换为所述动作装置的动作输出。

26.如权利要求1所述的装置，其中，所述动作装置包括：

机械臂；

虚拟和真实机器人；和/或

无人驾驶汽车。

27.如权利要求26所述的装置，其中，所述所述动作装置的动作输出包括：

机械臂的关节运动状态；

运动加速度；

握持状态；和/或

舒适状态。

28.一种多模态任务处理方法，包括：

获取多模态任务信息、输入图像特征和输入体感特征；

29.如权利要求28所述的方法，其中，所述多模态任务信息以输入语音特征的方式获取，并且

确定所述多模态任务信息中所包含的针对动作和对象的任务含义包括：

确定所述多模态任务信息中所包含的针对动作和对象的语义含义。

30.如权利要求29所述的方法，还包括：

确定所述多模态任务信息中包含的语音反馈任务；

基于所述语音反馈任务，根据图像特征和/或体感特征，生成输出语音特征。

31.如权利要求29所述的方法，还包括：

确定所述多模态任务信息中包含的图像反馈任务；

32.如权利要求29所述的方法，还包括：

基于体感特征，生成输出语音特征；和/或

识别体感特征中的动作顺序。

33.如权利要求29所述的方法，其中，基于确定的针对对象的任务含义，进行与图像特征的关联包括：

将所述多模态任务中的针对对象的语义含义与图像特征相关联；以及

感知和/或预测图像特征中任务对象的位置和/或运动。

34.如权利要求29所述的方法，还包括：

将输入体感特征与所述任务对象进行认知地图映射；以及

基于所述认知地图，生成所述输出体感特征。

35.如权利要求34所述的方法，还包括：

将所述语义含义转换为一系列原子命令，并且

基于所述认知地图，生成所述输出体感特征包括：

基于所述一系列原子命令，生成对应于所述动作装置的一系列动作信息的输出体感特征。

36.如权利要求28所述的方法，还包括：

识别所述输入语音特征、所述输入图像特征和/或所述输入体感特征中的任务。

37.一种服务器，用于执行如权利要求28-36所述的方法。

38.一种语音任务处理方法，包括：

获取用户的语音输入；

获取所述语音输入的语义含义，所述语义含义包括针对动作的含义和针对对象的含义；

基于所述针对对象的含义确定图像特征中的关注对象；

基于所述针对动作的含义，对所述关注对象进行相应动作。

39.如权利要求38所述的方法，还包括：

基于所述动作的结果，输出语音反馈。

40.一种语音交互终端，用于执行如权利要求38或39所述的方法。

41.一种自动驾驶设备，用于执行如权利要求38或39所述的方法。

42.一种语音任务处理系统，包括：

如权利要求37所述的服务器；以及

与所述服务器通信的如权利要求40所述的多个语音交互终端，或者与所述服务器通信的如权利要求41所述的多个自动驾驶汽车。