CN113159270A

CN113159270A - 视听任务处理装置和方法

Info

Publication number: CN113159270A
Application number: CN202010075716.3A
Authority: CN
Inventors: 綦峰; 蒋冠军; 王嘉勋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-07-23

Abstract

公开了一种视听任务处理装置、方法和系统。该装置包括：听觉链路，包括听模块用于将获取的语音输入转换为输入语音特征，以及说模块用于将生成的输出语音特征转换为语音输出；视觉链路，包括视觉识别模块用于将获取的图像输入转换为输入图像特征，以及视觉重建模块用于将生成的输出图像特征转换为图像输出；联络模块，用于：获取所述输入语音特征和/或所述输入图像特征；确定所述输入语音特征和/或输入图像特征的含义；基于确定的含义，进行语音特征与图像特征的关联；基于所述关联的结果，生成输出语音特征和/或输出图像特征。本发明深度模拟人脑在信息处理时的操作，通过结合视觉和听觉两者并进行更高层级的信息关联，处理更复杂的视听任务。

Description

视听任务处理装置和方法

技术领域

本发明涉及人工智能领域，尤其涉及一种视听任务处理装置和方法。

背景技术

人工智能亦称机器智能，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。

在人工智能领域中，存在利用仿生模型进行任务处理的分支。例如，人工神经网络(Artificial Neural Networks,ANN，也可简称NN)是一种从信息处理角度对人脑神经元网络进行抽象，进行分布式并行信息处理的数学计算模型。近年来，神经网络发展很快，被广泛应用于诸多领域，如图像识别、语音识别、自然语言处理、天气预报、基因表达、内容推送等等。例如，经过训练的卷积神经网络(CNN)在图像识别和目标追踪上有着良好的性能。然而，CNN进行图像识别时，仅仅是依据提取的特征进行最大概率分类，其本身并不理解图像中的目标对象是什么。

换句话说，现有的人工智能通常只是处理单一问题的简单模型，与人脑真实的思维模式相去甚远，并不能实现真正的“智能”。

发明内容

为了解决如上至少一个问题，本发明提出了一种视听任务处理方案，该方案通过深度模拟人脑在信息处理时的操作，通过结合视觉和听觉两者并进行更高层级的信息关联，能够处理更为复杂的视听任务，为人工智能的进一步“智能化”奠定基础。

根据本发明的第一方面，提出了一种视听任务处理装置，包括：听觉链路，包括听模块和说模块，其中所述听模块用于：获取视听任务中的语音输入；处理所述语音输入以获取输入语音特征，所述说模块用于：获取所述视听任务处理结果中的输出语音特征；将所述输出语音特征转换为语音输出，视觉链路，包括视觉识别模块和视觉重建模块，其中所述视觉识别模块用于：获取视听任务中的图像输入；处理所述图像输入以获取输入图像特征，所述视觉重建模块用于：获取所述视听任务处理结果中的输出图像特征；将所述输出图像特征转换为图像输出，联络模块，用于：获取所述听觉链路的输入语音特征和/或所述视觉链路的输入图像特征；确定所述输入语音特征和/或输入图像特征的含义；基于确定的含义，进行语音特征与图像特征的关联；基于所述关联的结果，生成输出语音特征和/或输出图像特征，其中，所述视听任务是其输入和正确输出包括语音和图像两者的任务。

根据本发明的第二方面，提出了一种视听任务处理方法，包括：获取输入语音特征和/或输入图像特征；确定所述输入语音特征和/或输入图像特征的含义；基于确定的含义，进行语音特征与图像特征的关联；以及基于所述关联的结果，生成输出语音特征和/或输出图像特征。

根据本发明的第三方面，提出了一种服务器，用于执行第二方面所述的方法。

根据本发明的第四方面，提出了一种语音任务处理方法，包括：获取用户的语音输入，获取所述语音输入的语义含义，以基于所述语义含义确定图像特征中的关注对象，并对关注对象进行操作，基于操作的结果，输出语音反馈。

根据本发明的第五方面，提出了一种语音交互终端，用于执行第四方面所述的方法。

根据本发明的第六方面，提出了一种语音任务处理系统，包括如上第三方面的服务器和第五方面的交互终端。

根据本发明的第七方面，提出了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行第四方面所述的方法。

本发明的视听任务处理方案放弃传统NLP(自然语言处理)中以语言解释语言的方式，提出类人脑方式多模态解释语言，即用视觉等感觉等理解语言。具体地，该方案实现了类人脑语言解释架构搭建，包含语言处理模块，视觉处理模块，Wernicke模块，AG模块，MTG模块，PFC模块，Broca模块等。上述架构可以用于积累式学习，并处理各类复杂的视听任务。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了DNN的典型结构图。

图2示出了剪枝前后的节点和连接变化。

图3示出了典型CNN的组成例。

图4示出了大脑皮层的功能区示意图。

图5示出了说出一个书面词汇时大脑皮层的处理例。

图6示出了根据本发明一个实施例的视听任务处理装置的组成示意图。

图7示出了根据本发明一个优选实施例的视听任务处理装置的组成示意图。

图8A-D示出了本发明的视听任务处理装置执行视听任务的例子。

图9示出了根据本发明的视听任务处理方法的示意性流程图。

图10示出了根据本发明的语音任务处理方法的示意性流程图。

图11示出了根据本发明一个实施例可用于实现上述语音任务处理方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在人工智能领域中，存在利用仿生模型进行任务处理的分支。例如，人工神经网络(ANN，也可简称NN)是一种从信息处理角度对人脑神经元网络进行抽象，进行分布式并行信息处理的数学计算模型。近年来，神经网络发展很快，被广泛应用于诸多领域，如图像识别、语音识别、自然语言处理、天气预报、基因表达、内容推送等等。

在神经网络中存在着大量彼此连接的、被称为“神经元”的节点。每个神经元通过特定的输出函数计算来自其它相邻神经元的加权输入值。各神经元之间的信息传递强度用“权值”定义，算法会不断自我学习，调整这个加权值。早期的神经网络只有输入和输出层两层。由于无法处理复杂的逻辑，其实用性受到很大限制。深度神经网络(DNN)通过在输入和输出层之间添加隐藏的中间层，大大提升了神经网络处理复杂逻辑的能力。图1示出了DNN模型示意图。图中的圆圈代表“神经元”的节点，箭头代表神经元之间的信息传递强度。应该理解的是，在实际应用中的DNN可以有比图1所示复杂得多的大型结构，但其基本结构仍然如图1所示。

在神经网络中，神经元的连接关系在数学上可以表示为一系列矩阵。经过训练后的网络虽然预测准确，但其矩阵都是稠密的，随着神经网络变得愈发复杂，稠密矩阵的计算会消耗大量的存储和计算资源。近年来的研究通过对神经元的剪枝(移除不重要的连接)和重训，压缩模型并尽可能的确保精度。图2示出了剪枝前后的节点(神经元)和连接(突触)的分布情况。

人工神经网络包括深度神经网络(DNN)、循环神经网络(RNN)与卷积神经网络(CNN)。图3示出了典型CNN的组成例。如图3所示，典型的CNN由一系列有序运行的层组成。

CNN神经网络由输入层、输出层和多个隐藏层串联组成。CNN的第一层读取输入值，例如输入图像，并输出一系列的激活值。下面的层读取由上一层产生的激活值，并输出新的激活值。最后一个分类器(classifier)输出该输入图像可能属于的每一类别的概率。

这些层大致可分为带权重的层(如卷积层、全连接层、批量归一化层等)和不带权重的层(如池化层、ReLU层、Softmax层等)。在这其中，CONV层(Convolutional layers，卷积层)以一系列特征图作为输入，并以卷积内核卷积获得输出激活值。池化层通常与CONV层相连，用于输出每个特征图中的每个分区(sub area)的最大值或平均值，由此通过亚采样降低计算量，同时保持某种程度的位移、尺度和形变不变性。一个CNN中可以包括卷积层和池化层之间的多个交替，由此逐步降低空间分辨率并增加特征映射的数量。随后可以连接至至少一个全连接层(FC)，通过应用于输入特征向量上的线性变换，得到包括多个特征值的一维向量输出。该一维向量在输入由Softmax层实现的分类器，通过输出该输入图像可能属于的每一类别的概率，来判定目标类型。

在使用CNN进行推理(例如，图像分类)之前，首先需要对CNN进行训练。通过训练数据的大量导入，确定神经网络模型各层的参数，例如权重和偏移量。随后，可以将输入图送入经训练的CNN模型，给出如图所示的是树还是猫的概率。

虽然经过训练的卷积神经网络(CNN)在图像识别和目标追踪上有着良好的性能，然而CNN在进行图像识别时，仅仅是如上所述依据提取的特征进行最大概率分类，其本身并不理解图像中的目标对象是什么。

换句话说，现有的人工智能只是利用了人脑神经元结构(通常还是图2所示的经剪枝的简化结构)，用于处理单一问题(例如，图像目标识别)的模型，与人脑真实的思维模式相去甚远，并不能实现真正的“智能”。

有鉴于此，本发明提出了一种视听任务处理方案，该方案通过深度模拟人脑在信息处理时的操作(而非是若干神经元之间的简单信息传递)，通过结合视觉和听觉两者并进行更高层级的信息关联，能够处理更为复杂的视听任务，为人工智能的进一步“智能化”奠定基础。

为了方便理解，首先在此对人脑的信息处理原理进行大致说明。人类大脑的外表面是由数十亿细胞组成大脑皮层，是由作为如上ANN模型基础的上亿神经元细胞之间的突触连接构成的信息传递和处理网络，其作用是调节脑的高级认知功能和情绪功能。大脑皮层不同的区域，有着不同的功能。图4示出了大脑皮层的功能区示意图。

额叶(frontal lobe)具有运动控制和进行认知活动的功能，如策划、决策、目标设定等功能，位于外侧裂之上和中央沟之前。顶叶(parietal lobe)负责触觉、痛觉和温度觉，位于中央沟之后。枕叶(occipital lobe)是视觉信息到达的部位，位于后头部。颞叶(temporal lobe)负责听觉过程，位于外侧裂下部，即，每个大脑半球的侧面。

每叶脑组织并非单独控制某一特殊功能，而是作为一个统一整体进行工作。大脑各叶互相影响、协调工作。

具体地，位于中央沟之前的额叶运动区皮层(motor cortex)控制人体的600多块随意肌，以产生动作。运动皮层的两个最大区域支配手指和语言活动相关的肌肉活动。躯体感觉皮层(somatosensory cortex)位于中央沟之后的左右顶叶。这一皮层区处理温度、触觉、躯体、位置和疼痛信息。

听觉信息由位于两侧颞叶的听皮层(auditory cortex)加工。听皮层中的布洛卡区(Broca's area)与语言产出相关，维尔尼克区(Wernicke's area)则与语言理解相关。视觉传入由位于头后部的枕叶视皮层(visual cortex)进行加工。

并非全部皮层都加工感觉信息或向肌肉发送动作命令。实际上，大部分皮层的功能与解释与整合信息有关。例如筹划、决策类的过程发生在联络区皮层。联络区皮层(associate cortex)用于将不同的感觉模式的信息结合起来，用于筹划对外界刺激做出适当反应。

脑的上述区域在面临外界刺激时进行协同工作。图5示出了说出一个书面词汇时大脑皮层的处理例。当人类面临说出一个书面词汇这一看似简单的任务时，上述任务的处理和完成涉及复杂和精细的生物学过程。神经科学可以将其分为多个步骤。

例如，老师交给你一张纸，上面画着一只猫，并要求你大声纸上画着射门。你为此做出的反应包括诸多步骤。首先，视觉刺激(一张猫的画)由视网膜内的神经细胞检测出来，将神经冲动通过丘脑送入视皮层。视皮层把神经冲动送入颞叶后部的角回(Angularguri)，在那里对词的视觉编码与听觉编码加以比较。一旦找到适当的听觉码，就会转送到维尔尼克区(Wernicke's area)的听皮层，在那里解码并解释为：“噢！猫！我也养了一只。”随后神经冲动被送到布洛卡区(Broca's area)，由它把信息转送到运动皮层。运动皮层负责支配唇、舌、喉夹肌，使它们协同运动读出“cat”(即，猫)这个词。

相比之下，现有的人工智能技术则无法很好的处理对人脑来说相当简单的上述任务。例如基于CNN的图像识别技术，可以根据在前的训练将输入图像中的目标(以分类器中最高的概率)识别为“cat”。但是CNN网络本身并不知道“cat”是什么。而对现有的智能对话系统而言，虽然能够能够进行各类信息和知识图谱的查找，以满足用户的信息查询需求，例如，在例如用户询问“cat”是什么的时候，对话系统会给出字典答案“a small carnivorousmammal”(即，一种小型哺乳动物)。显然carnivorous mammal比cat更难理解。换句话说，对话系统并不理解“cat”作为语言本身的含义。换句话说，现有的人工智能其处理任务的能力依然单一，并不能很好的处理现实世界中各类复杂问题。

为此，本发明借鉴了人脑进行信息处理的方式，提出了一种类人脑语言处理架构。该架构模拟在信息处理时人脑本身的操作，而非仅仅是若干神经元之间的简单信息传递，通过结合视觉和听觉两者并进行更高层级的信息关联，实现对更为复杂的视听任务的完美处理，为人工智能的进一步“智能化”奠定基础。

本发明首先可以实现为一种视听任务处理装置。图6示出了根据本发明一个实施例的视听任务处理装置的组成示意图。在此，“视听任务”可以指代任务的输入及其正确的结果输出包括语音和图像两者的任务。具体地，可以是输入语音，要求输出结果图像的任务；输入图像，要求输出结果语音的任务；但更多的是输入图像和语音，要求输出结果图像和/或语音的任务。如下将结合例子进行详述。

如图所示，装置600包括听觉链路610、视觉链路620和联络模块630。在此，听觉链路负责针对视听任务中的听和说，视觉链路负责针对视听任务中的看和想(重建)。联络模块则负责语言和图像特征之间的联络，即，含义理解和匹配转换。图中的实线表示信息输入(涉及听与看)，虚线表示信息输出(涉及说和想)。

如图所示，在视听任务包括语音输入时，听模块(也可以称为“听链路”)用于：获取视听任务中的语音输入；并处理所述语音输入以获取输入语音特征。在视听任务包括图像输入时，看模块(也可以称为“看链路”，或是“视觉识别模块”)获取视听任务中的图像输入；并处理所述图像输入以获取输入图像特征。

处理得到的输入语音特征和输入图像特征随后如图所示被送入联络模块630。在此，联络模块630起到类似于人脑中联络区皮层的作用，用于连接语音特征和图像特征的含义，并进行相应的关联、处理和输出。

具体地，联络模块630可以用于：获取所述听觉链路的输入语音特征和/或所述视觉链路的输入图像特征；确定所述输入语音特征和/或输入图像特征的含义；基于确定的含义，进行语音特征与图像特征的关联；基于所述关联的结果，生成输出语音特征和/或输出图像特征。

在生成的输出包括语音特征时，听觉链路610中的说模块(也可以称为“说链路”)可以用于：获取所述视听任务处理结果中的输出语音特征；以及将所述输出语音特征转换为语音输出。而在生成的输出包括图像特征时，视觉链路620中的想模块(也可以称为“想链路”，或是“视觉重建模块”)可以用于：获取所述视听任务处理结果中的输出图像特征；以及将所述输出图像特征转换为图像输出。

具体地，输入的语音可以是针对输入图像提出的任务。为此，联络模块630可以用于：获取所述输入语音特征和所述输入图像特征；确定所述输入语音特征的含义；基于确定的含义，进行语音特征与图像对象特征的关联；基于所述关联的结果，识别所述图像对象或针对所述图像对象进行操作。例如，输入一个手绘的阿拉伯数字“3”并提问“it is？”。此时，联络模块630可以基于手绘图像匹配出存储的标准图像“3”，明确该图像“3”的含义，并明确提问“it is？”的含义，最后经由重建链路给出标准图像“3”和/或经由说链路给出语音回答“3”作为输出。

由上可知，听觉链路610可以包括听模块和说模块，其中，所述听模块用于将获取的语音输入转换为输入语音特征，所述说模块用于将生成的输出语音特征转换为语音输出。视觉链路620则可包括视觉识别模块和视觉重建模块，其中，所述视觉识别模块用于将获取的图像输入转换为输入图像特征，所述视觉重建模块用于将生成的输出图像特征转换为图像输出。

在一个实施例中，听模块可以包括：初级听觉模块(A1)611，用于将获取的语音输入转换为输入频谱信号；以及侧顶颞叶模块(Spt)612，用于将所述输入频谱信号转换为输入语音特征信号。

在此，初级听觉模块(A1)611用来模拟人脑中初级听觉皮层(Primary auditorycortex)的部分功能，用以对获取的语音输入进行一定的特征提取，以方便进一步理解。侧顶颞叶模块(Spt)612则用来模拟人脑中顶侧颞叶(Sylvian parietal temporal)的部分功能，用以对将初级听觉皮层提取的特征进行进一步处理，得到可供联络模块630进行处理的输入语音特征。

例如，A1 611可以直接获取声音输入，例如，用户输入的“what is it”的声波，并将其转换为时谱。时谱也称“时频谱”，是一种描述波动的各频率成分如何随时间变化的热图。随后，Spt 612将时谱其转换为32位的特征矢量，在此可由ps(phonological state，语音状态)表示。例如，Spt612可以将听到的句子的时谱信号转换为32位的句子ps。不同于传统NLP(自然语言处理)按语义构建的矢量，Spt 612可以将时谱信号转换位与句子声音谱相关的32位矢量，换句话说，ps中仍然包含声音，而非语义信息，由此方便对整个句子或短语的压缩，而非传统NLP中只能利用构建的矢量对单词进行表达。

相应地，说模块可以包括：前运动模块(PreM 613)，用于将输出语音特征信号转换为输出频谱信号；以及初级运动模块(M1 614)，用于将所述输出频谱信号转换为输出语音信号。

类似地，前运动模块613和初级运动模块614也可被用来模拟人脑中的相应功能。具体地，前运动模块613对应于人脑的前运动区。前运动区，也称为前运动皮质(Premotorcortex)，是大脑额叶与运动相关的一个功能分区。在解剖位置上，它与后方的初级运动皮质(Primary motor cortex)相邻。初级运动模块614则对应于初级运动皮质，后者用于控制肌肉进行发声。在本发明的视听任务装置中，PreM 613用于把上高级皮层(联络模块630)下发的输出语音特征(例如，带有具体语义的ps)变成时谱信号。M1 614则用于把时谱信号转变为声音，从而说出要表达的内容。

相应地，看链路可以实现为全连接特征提取模块(V1-V4)621，用于将获取的图像输入转换为输入图像特征。想链路则可实现为对应的全连接图像重建模块(V4’-V1’)622，用于将生成的输出图像特征转换为图像输出。

在此，全连接特征提取模块621可以模仿人脑视觉皮层进行视觉特征提取时的操作，利用V1-V4的四个全连接模块，完成从图像到特定目标的特征提取。在一个实施例中，V1-V4 621可以对应于人脑中的初级视觉皮层(V1，亦称纹状皮层(Striate cortex))以及纹外皮层(Extrastriate cortex，例如V2，V3，V4等)。相应地，V4’-V1’622虽然是与V1-V4621不同的计算模块，但同样可以对应于人脑中的初级视觉皮层(V1)以及纹外皮层。上述视觉皮层能够对视网膜采集到的视觉信号进行处理，而在晚上睡觉或是闭上眼睛想问题时，同样可以通过自上而下的放电重建出脑中想象(例如，做梦)的内容。

由上可知，联络模块630可以用于：获取所述听觉链路的输入语音特征和/或所述视觉链路的输入图像特征；确定所述输入语音特征和/或输入图像特征的含义；基于确定的含义，进行语音特征与图像特征的关联；基于所述关联的结果，生成输出语音特征和/或输出图像特征。

具体地，联络模块可以包括用于执行上述功能的多个子模块。联络模块还可以与前额叶模块相连，后者在视听任务涉及更为高级操作(例如，涉及工作记忆、规则任务等)时参与处理。

图7示出了根据本发明一个优选实施例的视听任务处理装置的组成示意图。与图6类似地，听觉链路710可以包括听模块，听模块可以包括A1 711和Spt 712，用于将输入的物理声波转化为输入语音特征(例如，32位的句子语音矢量ps)，输入语音特征送入联络模块730进行后续处理。视觉链路720可以包括看模块(视觉识别链路)，看模块可以由包括V1-V4的全连接特征提取模块721实现，用于将获取的图像输入转换为输入图像特征，输入图像特征送入联络模块730进行后续处理。

听觉链路710还可以包括说模块，说模块可以包括PreM 713和M1714，用于将从联络模块730获取的输出语音特征(例如，32位的句子语音矢量ps)转换为物理声波输出。相应地，视觉链路720还可以包括想模块(视觉重建链路)，想模块可以由包括V4’-V1’的全连接特征重建模块722实现，用于将从联络模块730获取的输出图像特征(例如，32位的图像特征vs)转换为输出图像。

在一个实施例中，听链路的前端还可以包括拾音装置，例如，麦克风或麦克风阵列。相应地，说链路末端还可以包括诸如扬声器的声音输出装置。看链路的前端可以包括诸如图像传感器的摄像装置，想链路的末端则可以包括例如显示屏的图像显示装置。在其他实施例中，上述输入和输出也可以是直接经由数据的输入和输出。

不同于图6，图7示出了联络模块730的优选构成例。具体地，联络模块730可以包括颞中回(MTG)子模块731。MTG 731可以用于关联对应含义的语音特征和图像特征。MTG 731可以起到类似于人脑颞中回MTG(Middle Temporal gyrus)的作用。在人脑中，颞中回起到融合视觉和听觉信息的作用，例如，看到苹果的图像，想到单词apple，或者反之亦然。相应地，MTG子模块731也可以通过视觉和听觉(语义)信息的匹配来起到视觉与听觉信息融合的左右。如见到视觉人脸能关联到相应人名字。进一步地，颞中回子模块还可以用于：根据语音特征，修改针对图像特征的处理范围。上述注意力处理可以在如下所述的前额叶模块740的参与下进行。例如，通过语音“左上角是什么”而只关注图像中左上角的对象。

进一步地，当联络区域需要处理复杂语言输入，例如，输入和输出包含句子或短语，而非单个单词时，联络模块730还可以包括输入语言分解和输出语言合成功能。

此时，联络模块730还可以包括维尔尼克(Wernicke)子模块732，用于将所述输入语音特征分解为单词和/或短语语音特征。Wernicke子模块732可以起到类似于人脑维尔尼克区(Wernicke's area)的作用，主要的功能是用来理解单词的意义。为此，Wernicke子模块732可以用于将句子粒度的ps分解为word或者phrase粒度的ps。进一步地，Wernicke子模块732还可以对外界发音做单词语法修正，例如对所述单词和/或短语语音特征的发音进行单词语法修正。相应地，联络模块730还包括布洛卡(Broca)子模块733，用于将生成的单词和/或短语语音特征合成为输出语音特征。同样地，Broca子模块733可以起到类似于人脑布洛卡区(Broca's area)的作用，该区域主管语言信息的处理、话语的产生。与维尔尼克区共同形成语言系统。

进一步地，当联络区域需要处理抽象概念任务(例如，1+2＝？)时，还需要能够参与抽象概念处理的模块参与。为此，联络模块730还可以包括角回(AG)子模块734，用于确定所述单词和/或短语语音特征的抽象含义，并且进一步用于确定抽象含义的单词和/或短语之间的关联性。如偶数无法用图像表示，但是偶数可以定义为能被2整除的数，另外如2*3＝6这些抽象性知识都存放在AG皮层。该模块734起到类似于人脑角回(Angular gyrus)的作用。

另外，当输入的视听任务中存在联络区域无法解决的复杂任务时，本发明的任务处理装置还可以包括前额叶(dlPFC)模块740，该模块类似于起到人脑背外侧前额叶(Dorsolateral prefrontal cortex,DLPFC)的功能，用于统筹判断、决策、洞察、计划，以及回忆等高级认知功能。在本发明中，dlPFC 740可以用于：获取经所述联络模块处理的输入语音特征和/或所述输入图像特征；以及识别所述输入语音特征和/或所述输入图像特征中的任务；以及将识别的任务分解为子任务返回给所述联络模块。识别的任务包括如下至少一项：工作记忆任务；规则任务；以及注意力任务。

如下将结合示例描述联络区域各子模块以及dlPFC的功能。图8A-D示出了本发明的视听任务处理装置执行视听任务的例子。应该理解的是，虽然在例子中使用了英语作为语音识别和语义理解的对象，但本发明的相关原理也适用于包括中文在内的其他语言。

如图8A所示，向看链路721展示或输入图8A左侧所示的图像“3”，并向听链路711(并经由后续的712)输入“it is？”(其中“？”例如可由疑问语气来表示)。经看链路编码的图像“3”的输入特征vs被送入MTG 731，并被识别为图8A右侧所示的标准图像“3”。同时，将听链路编码的语音输入“it is？”的输入特征ps被Wernicke 732分解成“it”“is”“？”，并送入MTG 731。MTG 731具备识别“it”“is”“？”含义的能力，并理解其含义为解释标准图像所包含的内容，此时，MTG 731将标准图像“3”与其听觉编码“3”(例如，语音或单词“three”)相关联，并经由PreM 713和M1 714的说链路输出语音“three”，以及可选地经由想链路722输出标准图像“3”。

如图8B所示，向看链路721展示或输入图8B左侧所示的图像“0”，并向听链路711(并经由后续的712)输入“move up”。经看链路编码的图像“0”的输入特征vs被送入MTG731，同时，将听链路编码的语音输入“move up”的输入特征ps被当作词组直接送入MTG731。MTG 731具备识别表征“move up”的ps的能力，并理解其含义为向图像所包含的对象“向上移”，此时，MTG 731将图像“0”中的对象与“向上移”的语义相关联，并经由想链路722输出图8B由侧所示的向上移的图像“0”。

如图8C所示，向看链路721接连展示或输入图8C左侧所示的图像“5”和“8”，并向听链路711(并经由后续的712)输入“what is last”。将听链路编码的语音输入“what islast”的输入特征ps被Wernicke 732分解成“what”“is”“last”，并送入MTG 731。MTG 731不具备识别“what”“is”“last”含义的能力，将其转送给上层的dlPFC 740。dlPFC 740将“what”“is”“last”的含义分解为MTG 731能够理解的“it”“is”“？”，并经由其工作记忆(working memory)功能向MTG 731指明需要理解其含义的是输入的后一张图。于是，输入的后一张图被识别为图8C右侧所示的标准图像“8”，MTG 731将标准图像“8”与其听觉编码“8”(例如，语音或单词“eight”)相关联，并经由PreM 713和M1 714的说链路输出语音“eight”，以及可选地经由想链路722输出标准图像“8”。在此，工作记忆(working memory)是指在执行认知任务过程中，用于信息的暂时储存与加工的资源有限的系统。在本发明中，dlPFC740可以具有上述信息暂存和加工功能，例如，存储输入的两幅图像“5”和“8”，并指示下级皮层哪一个是“后一张图”。

如图8D所示，向看链路721展示或输入所示的图像“2”，并且该图像中2的左上角还有一个小方块，并向听链路711(并经由后续的712)输入“what is on top left”。将听链路编码的语音输入“what is on top left”的输入特征ps被Wernicke 732分解成“what”“is”“on top left”，并送入MTG 731。MTG 731不具备识别“what”“is”“on top left”含义的能力，将其转送给上层的dlPFC 740。dlPFC 740将“what”“is”“on top left”的含义分解为MTG 731能够理解的“it”“is”“？”，并经由其注意力功能(attention)向MTG 731指明需要注意的区域是图中“on top left”，即左上角。于是，MTG 731将图中左上角的对象被识别为“square”(即，小方块)，并经由Broca 733进行语言合成“it is a square”，并经由PreM713和M1 714的说链路输出。

在其他的实施例中，还可以输入“if…then”这类的规则任务，并在dlPFC 740的参与下加以完成。另外，还可以输入例如“1+2＝？”的图像任务，并可由MTG 731将上述图像“1”“+”“2”“＝”“？”与各自的符合表意相关联，并经由AG 733的抽象处理能力完成计算。

虽然没有示出，但本发明的任务处理装置还可以包括海马子模块，用于：对获取的工作记忆任务进行学习；以及将学习结果写入所述前额叶模块和/或所述联络模块。人脑的海马区(HPC，Hippocampus cortex)主要负责长时记忆的存储转换和定向等功能。在本发明中，海马子模块可以位于前额叶模块，并是一个与dlPFC 740向并列的独立模块。可以将用作训练学习材料的片段记忆(episode)，例如图8C中的图像“5”和“8”放在专门的HPC模块，训练按照设定的比例随机抽取片段记忆来训练各个模块，例如，修改联络模块中各个子模块的皮层链接权重等参数，来不断提升网络的功能。这些待学习的功能蕴含在HPC的片段记忆当中，可通过设定训练采样频率来提升该功能被学习的力度。

在模型训练时，听觉链路和视觉链路作为感觉链路，可以是各自经由无监督算法训练得到的自编码器。联络模块中包括一个或多个子模块则可使用上述经训练的自编码器输入的语音特征ps和/或图像特征vs，基于有监督方式各自独立训练得到的模型。在此，自编码器(Autoencoder)是一种旨在将它们的输入复制到的输出的神经网络。他们通过将输入压缩成一种潜在空间表示，然后这种重构这种表示的输出进行工作。这种网络通常包括压缩输入的编码器和重构输入的解码器，在本发明中，正好对应于听觉链路的听模块和说模块，以及视觉链路的视觉识别和重建模块。在自编码器训练完成之后，可以拆成听、说、看、想模块分别使用。

无监督学习是指没有“老师”提供信息，自行观察总结进行学习。监督学习是所学内容由监督者提供的学习。例如人类婴儿出生后马上发育出的视觉就不是别人教来的。初级感觉(视觉听觉等)都是无监督学习，针扎就会痛，不用别人教你。但是针扎后的感觉叫做‘痛’就是别人教你的，需要监督学习。在本发明中，在经由非监督学习获取了初级感觉处理模型后，需要监督学习习得高级认知，例如联络模块和前额叶模块对1+1＝2，以及那个绿球叫‘苹果’的学习。

联络模块中各个子模块，包括更高级皮层中的前额叶模块可由长短时记忆(LongShort-Term Memory,LSTM)模型实现。LSTM可以处理时间上的维度，即，当前输出需要考虑在前的输入，尤其适于处理具有相关性的语音和图像的连续输入。如图7所示，模块712、713、731、732、733、734、740上指向自身的箭头表示这些模块可以使用时间上存在相关的LSTM模型实现。

如上已经结合图6、7以及图8A-D描述了根据本发明的视听任务处理模型。在更为广义的实施例中，语音输入、输入语音特征、输出语音和输出语音特征中的至少一个可以是语义特征。换句话说，在本发明的视听任务处理模型中，可以使用例如单词输入来代替语音输入，例如，输入的是文字而非语音的“what is last”，并且在联络模块中的各个子模块可以将图像与词句(或其对应语义)而非语音进行关联，对文字而非语音的词句进行处理。由此，方便将本发明的核心部分，例如，联络模块，与现有的高度发展的语音识别系统相对接，例如，直接获取NLU(自然语言理解)之后的文字内容作为语音输入。类似地，联络模块也可以直接与现有的图像特性提取系统对接，只保留其核心的“联络区皮层”功能。

为此，本发明还可以实现为一种视听任务处理方法。图9示出了根据本发明的视听任务处理方法的示意性流程图。

在步骤S910，获取输入语音特征和/或输入图像特征。在步骤S920，确定所述输入语音特征和/或输入图像特征的含义。在步骤S930，基于确定的含义，进行语音特征与图像特征的关联。在步骤S940，基于所述关联的结果，生成输出语音特征和/或输出图像特征。

具体地，步骤S920可以包括确定所述输入语音特征的语义含义；以及确定所述输入图像特征的对象。随后，步骤S930可以包括：基于确定的语义含义，进行语音特征与图像对象的关联；以及基于所述关联的结果，识别所述图像对象或针对所述图像对象进行操作。例如，根据语音输入“旋转”，识别图像输入中的目标对象“1”并进行旋转和经旋转对象的图像输出。

进一步地，步骤S930可以包括：根据语音特征，确定针对图像特征的处理范围。例如，基于dlPFC从工作记忆(例如，多个输入图像)中和/或基于注意力提醒确定要处理的图像，或是图像中要处理的对象。

进一步地，本方法还可以包括：将所述输入语音特征分解为单词和/或短语语音特征；以及对所述单词和/或短语语音特征的发音进行单词语法修正。

进一步地，本方法还可以包括：识别所述输入语音特征和/或所述输入图像特征中的任务；以及

将识别的任务分解为子任务，用以进行语音特征与图像对象特征的关联。

应该理解的是的是，上述方法可以由在前描述的视图任务处理装置实现，尤其可由其联络模块和更上层的dlPFC实现。如前所述，在更广义的实施例中，可以利用现有的语音交互系统和/或图像处理系统对接上述联络区和更上层皮层的功能。换句话说，在实际应用中，可以在专门的联络区服务器(或上层皮层服务器)上实现联络和更高级的处理功能。该服务器可以与常规的语音交互服务器或是图像处理服务器相关联，甚至可以直接与用来跟用户交互的终端相关联。

为此，本发明还可以实现为一种语音任务处理方法。图10示出了根据本发明的语音任务处理方法的示意性流程图。该方法尤其适用于语音交互终端，例如，智能音箱实现。在此，语音任务指代用户与终端交互的方式，但在本发明的实现中，上述任务仍然涉及例如从数据库中查找或是经由摄像头输入的图像的关联处理。

在步骤S1010，获取用户的语音输入。例如，智能音箱可以经由其内安装的麦克风，或是与其近距离通信的语音贴来收集用户语音输入。在步骤S1020，获取所述语音输入的语义含义，以基于所述语义含义确定图像特征中的关注对象，并对关注对象进行操作。上述操作可以通过将语音输入直接上传或是经由部分本地或边缘处理后上传云端实现。随后，云端返回处理结果，并且在步骤S1030，基于操作的结果，输出语音反馈。

上述图像特征可以是基于在前语音命令确认的，或是经由终端设备设有或与其通信的摄像头获取的。为此，该方法还可以包括获取用户的图像获取语音输入，并查找并获取图像。由此，通过多轮语音，实现针对图像对象的语音关联处理。在终端包括显示屏或能够与显示屏通信时，该方法还可以包括：在显示屏上显示获取的所述图像；以及基于操作的结果，显示经处理的所述图像。作为替换或是补充，该方法还可以包括：经由摄像头获取图像输入；提取输入图像的特征。

举例而言，家用智能音箱可以用作智能作业批改系统的家庭终端。例如，学生可以将自己完成的各科作业经由自家智能音箱的摄像头进行拍摄，并在拍摄时给出语音注释“这是XXX今天的数学作业”，上述信息可以上传至作业数据库，或是直接发送给老师。老师可以在获取传输的作业图像之后输入语音“批改XXX今天的数学作业”。此时，针对数学作业的图像内容被确定为输入图像，联络区服务器就可以在云端提取该输入图像中的目标，例如，手写的答案，并与标准答案相比较，以进行评分，例如，在作业图像中打勾或是圈出错误，并将评好分的作业图像输出给老师。老师可以对其进行核对，并在核对无误后返回给学生。学生可以进行订正或后续操作。

图11示出了根据本发明一个实施例可用于实现上述语音任务处理方法的计算设备的结构示意图。该计算设备1100尤其适用于实现为一种语音交互终端，能够用于实现如上参考图10描述的语音处理方法。

参见图11，计算设备1100包括存储器1110和处理器1120。

处理器1120可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1120可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器1120可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器1110可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器1120或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1110可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

此外，该计算设备1100还可以包括相应的语音采集与输出设备，例如，麦克风和扬声器，并且可以可选地具有视觉采集和输出设备，例如摄像头和显示屏。

存储器1110上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1120执行上文述及的语音任务处理方法。

上文中已经参考附图详细描述了根据本发明的视听任务处理方案。该方案放弃传统NLP(自然语言处理)中以语言解释语言的方式，提出类人脑方式多模态解释语言，即用视觉等感觉等理解语言。具体地，该方案实现了类人脑语言解释架构搭建，包含语言处理模块，视觉处理模块，Wernicke模块，AG模块，MTG模块，PFC模块，Broca模块等。上述架构可以用于积累式学习，先学苹果，再学吃苹果。进一步地，整体网络训练后能实现泛型(generic)语言处理能力。该网络能用重复听到的语言，回想看到的东西，能够过滤外部发音偏差，用图像解释语言，用语言产生并操控图像，能按照语法生产语言发声，能形成知识的记忆与应用，有工作记忆能力，能用语言指导注意力，能识别规则做泛化运算，能预测运动，做三段论推理，并通过语言指导进行一次性学习。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种视听任务处理装置，包括：

听觉链路，包括听模块和说模块，其中

所述听模块用于：

获取视听任务中的语音输入；

处理所述语音输入以获取输入语音特征，

所述说模块用于：

获取所述视听任务处理结果中的输出语音特征；

将所述输出语音特征转换为语音输出，

视觉链路，包括视觉识别模块和视觉重建模块，其中

所述视觉识别模块用于：

获取视听任务中的图像输入；

处理所述图像输入以获取输入图像特征，

所述视觉重建模块用于：

获取所述视听任务处理结果中的输出图像特征；

将所述输出图像特征转换为图像输出，联络模块，用于：

获取所述听觉链路的输入语音特征和/或所述视觉链路的输入图像特征；

确定所述输入语音特征和/或输入图像特征的含义；

基于确定的含义，进行语音特征与图像特征的关联；

基于所述关联的结果，生成输出语音特征和/或输出图像特征，

其中，所述视听任务是其输入和正确输出包括语音和图像两者的任务。

2.如权利要求1所述的装置，其中，所述听模块包括：

初级听觉模块，用于将获取的语音输入转换为输入频谱信号；以及

侧顶颞叶模块，用于将所述输入频谱信号转换为输入语音特征信号，

所述说模块包括：

前运动模块，用于将输出语音特征信号转换为输出频谱信号；以及

初级运动模块，用于将所述输出频谱信号转换为输出语音信号。

3.如权利要求1所述的装置，其中，所述视觉识别模块包括：

全连接特征提取模块，用于将获取的图像输入转换为输入图像特征，

所述视觉重建模块包括：

全连接图像重建模块，用于将生成的输出图像特征转换为图像输出。

4.如权利要求1所述的装置，其中，所述联络模块包括：

颞中回子模块，用于关联对应含义的语音特征和图像特征。

5.如权利要求4所述的装置，其中，颞中回子模块还用于：

根据语音特征，修改针对图像特征的处理范围。

6.如权利要求4所述的装置，其中，所述联络模块包括：

维尔尼克子模块，用于将所述输入语音特征分解为单词和/或短语语音特征。

7.如权利要求6所述的装置，其中，维尔尼克子模块还用于：

对所述单词和/或短语语音特征的发音进行单词语法修正。

8.如权利要求6所述的装置，其中，所述联络模块包括：

布洛卡子模块，用于将生成的单词和/或短语语音特征合成为输出语音特征。

9.如权利要求8所述的装置，其中，所述联络模块包括：

角回子模块，用于确定所述单词和/或短语语音特征的抽象含义。

10.如权利要求9所述的装置，其中，所述角回子模块还用于：

确定抽象含义的单词和/或短语之间的关联性。

11.如权利要求9所述的装置，还包括：

前额叶模块，用于：

获取经所述联络模块处理的输入语音特征和/或所述输入图像特征；以及

识别所述输入语音特征和/或所述输入图像特征中的任务；以及

将识别的任务分解为子任务返回给所述联络模块。

12.如权利要求11所述的装置，其中，识别的任务包括如下至少一项：

工作记忆任务；以及

规则任务。

13.如权利要求12所述的装置，还包括：

海马子模块，用于：

对获取的工作记忆任务进行学习；以及

将学习结果写入所述前额叶模块和/或所述联络模块。

14.如权利要求1所述的装置，其中，所述听觉链路和所述视觉链路是各自经由无监督算法训练得到的自编码器。

15.如权利要求14所述的装置，其中，所述联络模块中包括一个或多个子模块，所述子模块是使用所述经训练的自编码器输入的语音特征和/或图像特征，基于有监督方式各自独立训练得到的长短时记忆(LSTM)模型。

16.如权利要求1所述的装置，其中，所述联络模块用于：

获取所述输入语音特征和所述输入图像特征；

确定所述输入语音特征的含义；

基于确定的含义，进行语音特征与图像对象特征的关联；

基于所述关联的结果，识别所述图像对象或针对所述图像对象进行操作。

17.如权利要求1所述的装置，其中，所述语音输入、输入语音特征、输出语音和输出语音特征中的至少一个是语义特征。

18.一种视听任务处理方法，包括：

获取输入语音特征和/或输入图像特征；

确定所述输入语音特征和/或输入图像特征的含义；

基于确定的含义，进行语音特征与图像特征的关联；以及

基于所述关联的结果，生成输出语音特征和/或输出图像特征。

19.如权利要求18所述的方法，其中，确定所述输入语音特征和/或输入图像特征的含义包括：

确定所述输入语音特征的语义含义；以及

确定所述输入图像特征的对象，

并且，基于确定的含义，进行语音特征与图像特征的关联包括：

基于确定的语义含义，进行语音特征与图像对象的关联；以及

20.如权利要求19述的方法，其中，基于确定的语义含义，进行语音特征与图像对象的关联包括：

根据语音特征，确定针对图像特征的处理范围。

21.如权利要求18所述的方法，还包括：

将所述输入语音特征分解为单词和/或短语语音特征；以及

对所述单词和/或短语语音特征的发音进行单词语法修正。

22.如权利要求18所述的方法，还包括：

23.一种服务器，用于执行如权利要求18-22所述的方法。

24.一种语音任务处理方法，包括：

获取用户的语音输入，

获取所述语音输入的语义含义，以基于所述语义含义确定图像特征中的关注对象，并对关注对象进行操作，

基于操作的结果，输出语音反馈。

25.如权利要求24所述的方法，还包括：

获取用户的图像获取语音输入；以及

查找并获取图像。

26.如权利要求25所述的方法，还包括：

在显示屏上显示获取的所述图像；以及

基于操作的结果，显示经处理的所述图像。

27.如权利要求24所述的方法，还包括：

经由摄像头获取图像输入；

提取输入图像的特征。

28.一种语音交互终端，用于执行如权利要求24-27所述的方法。

29.一种语音任务处理系统，包括：

如权利要求23所述的处理器；以及

与所述处理器通信的如权利要求28所述的多个语音交互终端。

30.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求24-27中任一项所述的方法。