CN108932549B

CN108932549B - 倾听、交互和交谈：通过交互学习说话

Info

Publication number: CN108932549B
Application number: CN201810188188.5A
Authority: CN
Inventors: 张海超; 余昊男; 徐伟
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-05-25
Filing date: 2018-03-07
Publication date: 2022-08-02
Anticipated expiration: 2038-03-07
Also published as: US11417235B2; US20180342174A1; JP6921022B2; EP3407264B1; EP3407264A1; CN108932549A; JP2019023717A

Abstract

本文描述了用于在交互设置中的基础自然语言学习的系统和方法。在实施方式中，代理在学习过程中通过与教学者交互并从反馈中学习来学习自然语言，从而在参与对话的同时学习并改进语言技能。在实施方式中，模型用于通过共同地利用句子和来自教学者的奖励反馈将模仿和强化合并。进行了各种实验以证实模型实施方式的有效性。

Description

倾听、交互和交谈：通过交互学习说话

相关申请的交叉引用

本申请基于35USC§119(e)要求于2017年5月25日提交的题为“Listen,Interact,and Talk:Learning to Speak via Interaction”的Haichao Zhang、Haonan Yu、和Wei Xu为发明人的第62/511,295号美国临时专利申请(案卷号28888-2149P)的优先权权益。上述专利文件的全部内容通过引用并入本文。

技术领域

本公开总体上涉及用于计算机学习的系统和方法，其可提供改进的计算机性能、特征和应用。

背景技术

自然语言是人类最自然的交流形式之一，因此也能够使用自然语言作为通道与人类进行交流的智能代理具有很大的价值。自然语言学习的最新进展主要依赖于大规模训练数据的受监督训练，其通常需要大量的人类劳动进行注释。尽管在不考虑标记工作的情况下已在许多特定应用中实现了优良性能，但是这与人类如何学习也存在很大差异。人类行事于世界并从他们动作的结果中学习。对于诸如运动的机械动作，结果主要遵循几何和机械原理，而对于语言来说，人类通过说话进行动作且结果通常表现为对话伙伴的言语或其它行为反馈(例如，点头)形式的响应。该反馈通常包含与如何在随后的会话中提高语言技能有关的信息信号，并在人类语言的习得过程中发挥重要作用。

人工智能的长期目标之一是建立能以自然语言与人类智能地交流的代理。大多数现有的关于自然语言学习的工作严重依赖于对带有注释标记的预先收集的数据集的训练，使得代理本质上捕获固定外部训练数据的统计数据。由于训练数据本质上是注释者的知识的静态快照表示，所以以该方式训练的代理在其行为的适应性和概括性方面受到限制。此外，这与人类的语言学习过程有很大差别，在人类语言学习中，以交互的方式在通过说话动作并从说话动作的结果中学习来沟通的过程中获得语言。

因此，需要改进用于机器学习的计算装置功能的、用于在交互设置中学习基础自然语言的系统和方法。

发明内容

本申请的一个方面提供了一种基于交互的语言学习的计算机实现的方法，该方法包括：在一时间步骤，在编码网络处将自然语言输入编码至状态向量中，该自然语言输入包括一个或多个与视觉图像和初始状态相关的词；基于状态向量，在控制网络处产生输出控制向量；基于输出控制向量，在动作网络处生成对自然语言输入的响应；以及根据自然语言输入和所生成的响应，通过产生的教学者来生成反馈。

本申请的另一方面提供了用于在交互设置中进行基础自然语言学习的计算机实现的方法，该方法包括：在一时间步骤处，接收自然语言输入，该自然语言输入包括一个或多个与视觉图像相关的词；至少基于视觉图像生成视觉特征向量；通过编码递归神经网络，至少基于自然语言输入生成对应于时间步骤的状态向量；通过控制器网络，至少基于状态向量生成输出控制向量；在动作递归神经网络处，通过用作动作递归神经网络的初始状态的输出控制向量，生成对自然语言输入的响应；根据自然语言输入和所生成的响应，通过教学者生成反馈，其中，反馈包括在下一时间步骤中的另一自然语言输入和标量值奖励；以及使用所生成的反馈来训练编码递归神经网络和动作递归神经网络中的至少一个。

本申请的又一方面提供了用于交互式语言学习的计算机实现的方法，该方法包括：通过分层递归神经网络(RNN)模型在时间步骤处，接收包括一个或多个与视觉图像相关的词的自然语言输入；通过分层递归神经网络模型，生成对自然语言输入的响应；以及根据自然语言输入和所生成的响应，接收包括另一自然语言输入和标量值奖励的反馈；其中，分层递归神经网络模型包括：编码递归神经网络，以至少基于自然语言输入和从视觉图像提取的视觉特征向量，生成对应于时间步骤的状态向量；控制器网络，至少基于状态向量生成输出控制向量；以及动作递归神经网络，使用用作动作递归神经网络的初始状态的输出控制向量生成对自然语言输入的响应。

附图说明

将参照本发明的实施方式，其实施例可在附图中示出。这些附图旨在用于说明而非限制性的。虽然通常在这些实施方式的文本中描述了本发明，但是应理解，并不意味着将本发明的范围限定于这些特定实施方式。图中的各项可能不成比例。

图1描绘了根据本公开实施方式的多种交互式语言学习实施例。

图2图示了根据本公开实施方式的基于分层RNN模型的网络结构。

图3图示了根据本公开实施方式的基于分层RNN模型内的视觉编码器网络。

图4图示了根据本公开实施方式的基于分层RNN模型内的控制器网络。

图5描绘了根据本公开实施方式的基于交互的语言学习的方法。

图6描绘了根据本公开实施方式的用于通过视觉编码器来生成视觉特征向量的方法。

图7描绘了根据本公开实施方式的用于通过控制器网络来生成控制向量的方法。

图8描绘了根据本公开实施方式的语言学习评估的一些结果。

图9a-9d描绘了根据本公开实施方式的连同生成的注意力映射的一些可视化实施例。

图10描绘了根据本公开实施方式的计算装置/信息处理系统的简化框图。

具体实施方式

在以下的描述中，出于说明的目的，对具体细节进行了阐述以提供对本发明的理解。然而，将对本领域技术人员显而易见的是，可在没有这些细节的情况下实践本发明。此外，本领域技术人员将认识到，下面所描述的本发明实施方式可以在有形的计算机可读介质上以诸如过程、设备、系统、装置或方法的各种方式来实施。

图表中示出的部件或模块是对本发明示例性实施方式的说明，且意在避免使本发明不清楚。还应理解，在整个说明书中，部件可描述为可包含子单元的分立功能单元，但本领域技术人员将认识到各种部件或其部分可分成分立的部件或者可被集成在一起，包括集成在单个系统或部件中。应注意，本文所讨论的功能或操作可实施为部件。部件可以软件、硬件或二者的组合实现。

此外，附图中的部件或系统之间的连接并不旨在限制为直接连接。相反，这些部件之间的数据可通过中间部件修改、重新格式化或以其它方式改变。此外，可使用额外的或更少的连接。还应注意，措辞“联接”、“连接”或“通信地联接”应理解为包括直接连接、通过一个或多个中间装置的间接连接、以及无线连接。

在本说明书中，对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及意为结合该实施方式描述的特定特征、结构、特性或功能包含在本发明的至少一个实施方式中，并可包含在不止一个实施方式中。此外，上述短语在本说明书各处的出现不必全部指示相同的一个或多个实施方式。

某些措辞在说明书各个地方中的使用是为了说明，而不应理解为限制。服务、功能或资源不限制为单个服务、功能或资源；这些术语的使用可指示可分散或聚合的相关服务、功能或资源的群组。应注意，对“句子”的提及应理解为意味着一个或多个词的任何集合，无论它们是否以正式意义形成适当、完整句子；本文所使用的“句子”均不要求正确的大写和/或标点符号。

措辞“包括(include)”、“包括(including)”、“包括(comprise)”和“包括(comprising)”应理解为开放性措辞，且下面列出的任何内容均为示例，且并非意味着受所列项目的限制。本文中所使用的任何标题仅用于组织目的，且并非用于限制说明书或权利要求的范围。本专利公开中提到的各文献通过引用整体并入本文。

此外，本领域技术人员应认识到：(1)可选择性地执行某些步骤；(2)某些步骤可不限制为本文中提及的特定顺序；(3)某些步骤可以不同的顺序执行；以及(4)某些步骤可同时进行。

应注意，本文所展示的任何实验和结果均以示例性的方式提供，并在特定条件下使用一个特定实施方式或多个实施方式来执行；因此，所包含的实验及其结果均不用于限制当前专利文件的公开内容的范围。

A介绍

婴儿的语言习得既是人类智力的表现，也启发了用于为计算机语言学习设计新型设置和算法。例如，婴儿与人交互并通过模仿和反馈进行学习。为了学习说话，婴儿最初通过模仿他的对话伙伴(如父母)来执行言语动作，并掌握生成词(句子)的技能。当他的父母指向苹果或苹果图像说“这是苹果”时，他也可能利用视觉图像学会对词的联想。之后，某人可指向物体问婴儿类似于“这是什么”的问题，如果婴儿无法回答或回答不正确，则提供正确答案，这在最初阶段是常见的。当他回答正确时，某人还可在点头/微笑/亲吻/拥抱的同时提供言语确认(例如“是/否”)作为鼓励反馈的形式。从婴儿的角度，学习语言的方式是通过向父母进行言语表述，并根据来自父母的校正/确认/鼓励来调整其言语行为。

该示例表明语言学习过程本质上是交互的，其具有难以如在传统监督学习设置中那样通过使用静态数据集捕获的性质。受婴儿语言学习过程的启发，提出了新颖的交互设置的实施方式以用于基础自然语言学习，其中教学者和学习者可如图1所示的以自然语言彼此进行交互。

图1中的(a)示出了在训练期间，教学者针对物体以自然语言与学习者进行交互。该交互表现为以下形式：(1)问题-回答-反馈，(2)陈述-重复-反馈，或(3)来自学习者的陈述，然后来自教学者的反馈。在实施方式中，在训练期间，对于物体-方向组合或物体的某些集合(称为不活跃组合/物体)可排除某些交互形式。例如，{牛油果，东边}的组合并未出现在问题-回答会话中；物体橙子从未出现在问题-回答会话中而仅出现在陈述-重复会话中。教学者提供句子反馈以及奖励信号二者(在图中表示为[+]和[-])。图1中的(b)示出了在测试期间，教学者可对周围物体提出问题，包括涉及之前从未问过的不活跃组合/物体的问题，例如，关于{牛油果，东边}组合的问题以及关于橙子的问题。该测试设置涉及组合概括和知识传递设置，并用于评价提出的方法(参见章节D)。

在该设置中，没有类似监督学习设置中的直接监督来指导学习者的行为。相反，学习者必须为了学习而动作，即通过当前获得的说话技巧参与对话以从对话伙伴获得反馈，其中对话伙伴提供用于进一步改善对话技巧的学习信号。

为了利用反馈来学习，直接模仿教学者(例如，利用语言模型)是具有吸引力的。虽然这是对于学习如何说话的可行方法，但通过单纯模仿所训练的代理因忽略了强化信号而导致不一定能在语境中进行适应性对话。一个示例是很难与训练有素的、仅擅长模仿的鹦鹉进行成功的对话。原因在于学习者是从第三者的视角来模仿与之对话的教学者，因此由于视角从教学者改变为学习者，所以教学者的句子中的某些词诸如“是/否”和“你/我”可能需要去除/修改。这不能仅通过模仿来实现。另一方面，单纯地利用强化信号而无模仿来生成合适的对话动作也具有挑战。根本原因在于无说话能力，因而通过随机发言来生成合理句子的概率很低，更不用说生成合适的句子。这通过婴儿在没有倾听能力的情况下无法充分提高其语言能力的事实得到例证，其中，倾听能力是用于语言相关模仿的最重要渠道之一。

在本专利中，公开了克服这两种局限的、用于交互式语言学习的联合模仿和强化模型实施方式。公开的模型利用来自教学者的言语和鼓励反馈进行联合学习，因而克服了仅通过模仿或强化所遇困难。本发明公开的一些贡献总结如下：

-提出了一种新颖的类似人类的基于交互的基础(grounded)语言学习设置。在该设置中，通过以自然语言与环境(教学者)进行交互来学习语言。

-提出了在交互设置下通过交互期间利用来自教学者的反馈、通过联合模仿和强化的基础自然语言学习方法。

在实施方式中，共同地利用模仿和强化以用于交互设置中的基础自然语言学习。

本专利公开文件的安排如下：章节B概述了自然语言学习的一些相关工作的简要综述。章节C在实施方式的具体说明后引入了基于交互的自然语言学习问题的公式。章节D公开了一些具体实验以示出交互设置中提出的方法的语言学习能力。章节E列出了一些结论。

B相关工作

近来，基于深度网络的语言学习已取得了巨大的成功，并且已应用于不同的应用中，例如，机器翻译、图像字幕/视觉问答和对话响应生成。对于训练，需要大量包含源-目标对的训练数据，通常需要付出大量努力来收集。这种设置本质上捕获训练数据的统计资料，并不注重语言学习的交互性质，因此与人类学习的方式有很大不同。

虽然传统的语言模型以监督的方式进行训练，但近期存在一些利用强化学习来训练的工作。这些工作主要针对的问题是：根据特定奖励函数来调整以监督方式预先训练的语言模型性能而导致使用强化学习，该特定奖励函数是不可区分的、直接评估度量(诸如标准BLEU核心)、手动设计函数或对抗设置中学习的度量。与其不同的是，本文的主要关注点之一是关于交互设置和模型设计中的学习语言的可行性，而非针对特定评估度量优化具体的模型输出。

存在一些关于学习交流和显现语言的工作。所显现的语言需要经由后期处理来解释。不同地，本公开的实施方式旨在从理解和生成(即说话)两个角度来实现自然语言学习，因此很容易在没有任何后期处理的情况下理解代理的说话动作。还存在与利用猜测者/响应者设置进行对话学习有关的工作，在该设置中猜测者尝试通过向响应者提出问题来收集附加信息以实现最终目标(例如分类/本地化)。这些工作尝试优化被问到的问题以帮助猜测者实现最终的猜测目标。因此，关注点与本文实施方式中通过与教学者交互来进行语言学习的目标非常不同。

本文的一方面还涉及基于强化学习对自然语言动作空间的控制，从某种意义上来说，模型实施方式也在自然语言的空间中输出动作。在实施方式中，已探讨了通过文本对话的语言学习。在一些相关的工作中，提供一组候选序列，并从候选集合中选择一个所需的动作，因此本质上是离散控制问题。相反，本公开的实施方式通过连续空间中的控制来实现句子生成，其中可能无穷大的动作空间包括所有可能的序列。

C基于交互的语言学习的实施方式

在本节中，介绍提出的基于交互的自然语言学习方法的实施方式。目的在于设计可通过与教学者交互来学习对话的学习代理(措辞“代理”可根据本文件的上下文与“学习者”交替使用)，其中教学者可以是虚拟老师或人类(参见图1至图2)。在时间步骤t处，教学者根据视觉图像v生成句子w^t，句子w^t可以是问题(例如，“什么在东边”、“苹果在哪里”)、陈述句(例如，“香蕉在北边”)或是空的句子(表示为“.”)。学习者接收教学者的句子w^t和视觉内容v，并对教学者产生句子响应a^t。然后教学者将根据其响应以句子w^t+1和奖励r^t+1两种形式向学习者提供反馈。句子w^t+1表示来自教学者的言语反馈(例如，“是的，在东边的是樱桃”、“没有苹果在东边”)，且r^t+1将诸如点头/微笑/亲吻/拥抱的非言语确认反馈(其在交互期间也会自然呈现)模型化。因此，问题在于设计可从教学者的句子和奖励反馈学习基础自然语言的模型。虽然可能看起来有希望通过从仅具有积极奖励的教学者的句子子集学习以将问题公式化为监督训练，但由于因如前述视角的改变而引起的困难，该方法是不可行的。以下呈现问题的公式化表达和实施方式的细节。

1.问题公式化

在实施方式中，可将来自代理的响应模型化为来自可能的输出序列上的概率分布的样本。具体地，对于一个事件，给定直至时间步骤t的来自教学者的视觉输入v和文本输入w^1：t，来自代理的响应a^t可通过从说话动作的策略分布

的抽样而生成：

在实施方式中，代理通过输出表述a^t与教学者交互，并在时间步骤t+1处接收来自教学者的反馈

w^t+1可以表现为表示与w^t和a^t对应的言语确认/更正的句子的形式，其中一半概率添加有前缀(是/否)(参见图1至图2)。奖励r^t+1可以是根据代理表述a^t的正确性的标量值反馈，其中正值代表鼓励而负值代表不鼓励。基于交互的语言学习的任务可表示为通过与教学者对话来学习并从教学者的反馈

中提高。数学上，该问题可公式化为成本函数的最小化，如下所示：

其中，

是对教学者生成的所有句子序列S的期望，r^t+1是在时间步骤t处遵循策略

采取说话动作后，在时间步骤t+1处接收到的立即奖励，以及γ是奖励折扣因子。[γ]^t可用于表示γ的指数，通过上标索引来区分。对于这两个部分，训练信号可经由与教学者交互来获得；该任务被称为基于交互的语言学习。对于模仿(Imitation)的部分，本质上通过教学者的言语响应w^t+1来学习，言语响应w^t+1仅可作为其说话动作的结果来获得。对于强化(Reinforce)部分，通过教学者的奖励信号r^t+1来学习，奖励信号r^t+1也在采取说话动作后获得并在下一时间步骤处被接收。所提出的交互式语言学习的公式集成了两个组成部分，这两个组成部分可充分利用在对话交互期间自然呈现的反馈：

-在实施方式中，模仿在通过与学习者自身会话期间观察教学者的行为来学习基础语言模型中起作用。其能够使学习者具有在语境中说话的基本能力。在实施方式中，这里的训练数据是没有任何地面真值(ground-truth)的明显标签的来自教学者的句子，也是期待的正确响应和其它响应的混合。一种训练方式可以是预测将来。更具体地，在实施方式中，模型以词级别来预测将来的下一个词，并以句子级别预测下一语言输入(诸如下一句子)。另一重点在于实际上是第三人称模仿，因为学习者模仿与之交谈的教学者，而不是与教学者交谈的另一专业学生。

-在实施方式中，强化(强化在整个专利文件表示从强化/鼓励信号所学习的模块实施方式，并应与文献中出现的强化(REINFORCE)算法相区分)利用来自教学者的确认反馈来学习通过调整动作策略分布以进行合适的对话。这使得学习者能够利用获得的说话能力并根据反馈进行调整。这里以奖励的形式来呈现学习信号。这类似于婴儿的语言学习过程，他们利用获得的语言技能与父母不断摸索并根据鼓励反馈进行改进。

应注意，虽然模仿和强化在公式(2)中表示为两个分离的部分，但它们可以经由参数共享联系在一起，以充分利用两种形式的训练信号。与仅通过模仿或强化的较小成效的方法相比，这种联合学习的形式对于实现成功的语言学习是很重要的，如在章节D中通过实验验证的那样。

2.方法

图2示出了用于捕获跨越多个句子和句子内的序列结构的分层递归神经网络(RNN)模型实施方式200。在实施方式中，分层RNN模型实施方式200包含编码RNN 220、动作RNN 240和控制器250。图3描绘了基于分层RNN模型内的示例性视觉编码器网络实施方式300。图4描绘了基于分层RNN模型内的示例性控制器网络实施方式400。与图2中所示的各种算法图标相对应的注释也适用于图3和图4。

图5示出了根据本公开实施方式的基于交互的语言学习的方法。在时间步骤t处，编码RNN 220将自然语言输入w^t编码(505)为状态向量

自然语言输入w^t包括一个或多个来自教学者的与视觉图像202有关的词和历史信息(或初始状态)。在一些实施方式中，自然语言输入是自然语言句子。在实施方式中，编码RNN 220还接收来自视觉编码器210的视觉特征向量的输出，以用于生成状态向量

在图3中描述了视觉编码器的附加细节。在步骤510中，将状态向量

传递经过动作控制器250 f(·)以产生控制向量k^t。在步骤515中，控制向量k^t输入至动作RNN以用于生成对教学者的句子的响应a^t。在实施方式中，动作RNN 240还接收来自视觉编码器212的输出以用于生成响应a^t。视觉编码器210和212二者对相同的视觉图像202执行视觉编码操作。在实施方式中，视觉编码器210和212共享参数。在步骤520中，教学者根据w^t和a^t来生成反馈

在步骤525中，除了被用作动作控制器的输入，状态向量还被传递至下一时间步骤，并在下一步骤(即，

)中用作编码RNN的初始状态以用于从w^t+1中学习，因而在时间步骤的范围形成另一重复级别。

在时间步骤t处，编码RNN将教学者的句子(“苹果在哪里”)和来自视觉编码器V_att(·)的视觉特征向量作为输入，以在时间步骤t处生成与编码RNN的上一状态相对应的状态向量

状态向量

经过控制器f(·)被传递至动作RNN以用于响应生成。在实施方式中，在编码RNN与动作RNN之间共享参数。在训练期间，通过预测接下来的词和接下来的句子来训练RNN。在训练后，编码RNN和动作RNN的参数可以是固定的。

返回参照图4，其示出了基于分层RNN模型内的示例性控制器网络实施方式400。在实施方式中，控制器网络包括残余控制模块405(诸如全连接层)，随后是高斯策略模块410。控制器网络400的更多细节在章节2.2中进行描述。

2.1基于分层RNN的语言模型的模仿实施方式

在实施方式中，教学者的说话方式提供了用于学习者模仿的源。一种通过该信息源学习的方式是预测性模仿。具体地，对于特定事件，下一语言输入(诸如下一句子)w^t+1以先前的语言输入(诸如先前的句子)w^1：t和当前图像v为条件的概率可表示为：

其中，

是在时间步骤t处RNN的上一状态作为w^1：t的总和(参见图2)且i指示句子中的词。自然地，通过RNN对第t+1个句子中的第i个词的概率建模，其中条件下的、直到t的句子和第t+1个句子中直到i的词通过固定长度隐藏状态向量捕获为

因此

其中，W_h,W_v和b分别表示转换权重和偏差参数。V_att(·)表示如图3所示的结合有空间注意力的视觉编码网络。V_att(·)取最初RNN状态

和视觉图像v作为输入。

图6示出了根据本公开实施方式的使用视觉编码器300生成视觉特征向量的方法。视觉编码器300可表示为图2中的视觉编码器210或212。在步骤605中，通过卷积神经网络(CNN)304首先对视觉图像302进行编码，以获得视觉特征映射(图3中的立方体305)。

在实施方式中，将视觉特征映射附加(append)(在步骤610中)具有用于对方向信息进行编码的可学习参数的另一组映射(图3中的立方体310)，以生成级联特征映射(图3中的立方体305，与立方体310级联)。可学习的映射组(图3中的立方体310)通过创建与具有初始化为0的所有值的视觉特征映射(立方体305)同样尺寸的立方体来生成，并可通过在训练期间学习算法来修改。

在步骤615中，通过空间滤波器306将从最初RNN状态

生成的级联特征映射进行卷积来获得注意力映射308。在步骤620中，在注意力映射和级联特征映射之间进行空间求和，以生成空间聚合向量(图3中的315，与320级联)。在步骤625中，将用于强调从

生成的视觉或方向特征的注意力掩码316应用到空间聚合向量(图3中的315，与320级联)，以产生最终视觉特征向量(图3中的335，与340级联)。最终视觉特征向量被用作对编码RNN 220或动作RNN 240的输出350。在实施方式中，通过在二进制注意力掩码316和空间聚合向量315之间实施哈达玛(Hadamard)乘积来产生最终视觉特征向量。编码RNN的初始状态是先前RNN的前一状态，即

and

以这种方式训练的语言模型将具有产生以输入为条件的句子的基本能力。因此，当直接将编码RNN与动作RNN连接，即将来自编码RNN的上一状态向量输入至动作RNN中作为初始状态时，由于参数共享，所以学习者将具有通过模仿教学者发言的方式来生成句子的能力。然而，该发言的基本能力对于学习者可能并不足以与教学者正确地进行对话，正确地进行对话要求结合在下面章节中具体描述的强化信号。

2.2经由用于序列动作的强化来学习的实施方式

在实施方式中，代理将根据

生成动作。在实施方式中，由于句子w^1：t可求和为上一RNN状态

所以动作策略分布可表示为

为了利用同时从模仿中学习的语言技能，可利用与模仿共享的语言模型，但通过控制器网络f(·)的调制条件信号生成的句子如下(参见图2和图4)：

用于合并控制器f(·)以用于调制的原因在于：基础语言模型向学习者提供生成句子的能力，但不一定是正确地响应或从教学者适当地回答问题的能力。在没有任何附加模块的情况下，由于参数共享所以代理的行为与来自教学者的行为一样，因此代理无法通过利用来自教学者的反馈以适应性方式学习正确地说话。

图7描述了根据本公开实施方式的用于使用控制器网络来生成控制向量的方法。在实施方式中，控制器f(·)400是复合网络，其具有以下两部分：(1)残余结构网络405，用于转换编码向量

以修改行为；以及(2)高斯策略模块410，用于通过以来自残余控制网络的转换编码向量为条件作为探索形式的高斯分布来生成控制向量。在实施方式中，还可将梯度停止层(图4中未示出)合并在控制器与其输入之间，以将所有调制能力封装在控制器内。

残余控制。在实施方式中，动作控制器具有可在能够以其它方式修改输入向量的内容时，向下一未修改模块传递输入向量的性质。在步骤705中，残余结构网络向初始输入状态向量(即跳跃式连接)添加内容修改向量如下：

c＝τ(h)+h (6)

其中，τ(·)是内容转换网络(或转换器网络)，以及c是生成的控制向量(或转换的状态向量)。用于包括跳跃式连接的原因在于其提供以下能力，即利用通过模仿同时学习的语言模型来生成合理句子和转换网络。τ(·)包括用于通过与环境的交互以及来自教学者的反馈来调整行为的可学习参数。在实施方式中，τ(·)实施为具有ReLU(RectifiedLinear Unit，修正线性单元)激活的两个全连接层。

高斯策略。在实施方式中，高斯策略网络将输出向量模型化为以输入向量为条件的高斯分布。在步骤710中，高斯策略模块接收生成的控制向量c作为输入并产生输出控制向量k，其中输出控制向量被使用(715)作为动作RNN的初始状态。将高斯策略模型化如下：

其中，

是正态分布函数，Γ是被学习的协方差矩阵，γ(c)是用于估计标准推导向量的子网络，且可利用具有ReLU激活的全连接层来实现。

高斯策略的合并在网络中引入随机单元，因而无法直接应用反向传播。因此，策略梯度算法可用于优化。在实施方式中，将小值(0.01)添加到γ(c)作为最小标准偏差的限制。从控制器生成的向量k然后可被用于动作RNN的初始状态，且利用定向搜索(beamsearch)生成句子输出(参见图2)。在实施方式中，对于公式(2)中的奖励r^t+1，为减小方差引入基线为r^t+1-V_v(v)，其中V_v(·)表示具有参数向量v的价值网络并通过向

添加如下附加价值网络成本

来估计：

其中，v表示在价值网络中的一组参数，以及V_v-(·)表示价值网络的目标参数，其参数向量v-周期性地从训练文本中复制。

2.3训练的实施方式

训练包括通过利用教学者的反馈

作为训练信号来优化随机策略,通过联合考虑如公式(2)所示的模仿和强化来获得一组优化参数。随机梯度下降被用于训练网络。对于来自模仿模块处的

其梯度可获得为：

利用策略梯度理论，可获得以下用于强化模块的梯度:

其中，δ为时间差分误差(TD-error)，被定义为δ＝r^t+1+γV_v-(v)-V_v(v)。在实施方式中，利用Adagrad以16批(batch)大小和1×10^-5的学习率来训练网络。可使用γ＝0.99的折扣因子。在实施方式中，在实践中使用经验重放(experience replay)。

D.各种实验结果

在几个不同设置下对本文所呈现方法的实施方式的性能进行评估以展示交互式语言学习的能力。对于训练效率，构造模拟环境以用于如图1所示的语言学习。考虑四个不同的物体在每个方向(S,N,E,W)围绕学习者，这四个物体针对每个会话从一组物体中随机取样。在该环境中，教学者与代理关于周围的物体以三种不同形式进行交互：(1)提出如“什么在南方”、“苹果在哪里”的问题，代理对该问题进行回答；(2)描述周围物体，如“苹果在东方”，代理重复该陈述句；(3)什么都不说(“.”)，然后代理描述周围物体并从教学者处得到反馈。如果代理行为正确(对教学者的问题生成正确答案或在教学者什么都没说的情况下产生正确的陈述)，则接收正奖励(例如，r＝+1)，反之则接收负奖励(例如，r＝-1))。奖励用来表示教学者的非言语反馈(诸如点头)作为鼓励的形式。除了奖励反馈，教学者还提供包括期待回答的言语反馈，其中期待回答以“X在东方”或“在东方的是X”的形式且具有增加了一半概率的前缀(“是/否”)。如果代理输出与上述形式之一的期待回答完全匹配的句子，则代理的说话动作是正确的。对于学习者存在生成超过教学者知识的新的正确句子的可能性。

语言学习评估：首先在交互式语言学习设置下验证提出的方法的基础语言学习能力。在该设置下，教学者首先为学习者生成句子，然后学习者将进行响应，教学者将依据句子和奖励提供反馈。在实施方式中，将实施方式与两个基线方法进行比较：

-强化，直接使用强化从教学者的奖励反馈中学习；以及

-模仿，通过模仿教学者的行为进行学习。

实验结果在图8中示出。值得注意的是，直接从奖励反馈(强化)805的学习并不导致成功地习得语言。这主要是因为通过随机探索生成合理句子的可能性很低，生成正确句子的可能性甚至更低，因此接收的奖励可能停留在-1处。另一方面，由于通过模仿获得说话能力，模仿方法810比强化表现得更好。由于联合公式的有效性，实施方式815实现了比两种比较方法更高的奖励，其中联合公式可完全利用在会话期间自然出现的反馈信号用于学习。这表明所提出的用于在交互设置下语言学习方法的有效性。

在测试期间已观察到类似的行为。一些实施例进一步形象化示出在图9a-9d中，连同生成的注意力映射。图9a和9b对应于问题是什么(what)；图9c对应于问题在哪里(where)；以及图9d对应于教学者什么都不说(“.”)且代理预期产生陈述句的情况。对于任一实施例，示出了带有教学者和学习者之间的会话对话的视觉图像，也示出了在对教学者产生响应的同时从学习者处生成的注意力映射(att.map)(叠加在右上方)。注意力映射被渲染为热图，其中带注释的参考标号(905(a)至905(d))表示大值，而非注释区域表示小值。出于形象化的目的，网格线叠加在注意力映射的顶层。学习者的位置在注意力映射中标记为十字(T/L：教学者/学习者，[+/-]：正/负奖励)。

从结果中可以看出，测试的实施方式对于“是什么”和“在哪里”这两种问题可成功地生成正确的注意力映射。当教学者什么都不说(“.”)时，代理可正确生成描述周围物体的表述。

零对话(Zero-shot Dialogue)。在实施方式中，智能代理预期具有概括能力。在实施方式中，零对话被用作对方法的语言学习能力进行评价的方式。在以下两种设置中进行实验。

(1)组合概括：学习者在训练期间关于周围物体与教学者进行交互，但并不与特定位置处的某些物体(称为不活跃物体)进行交互，尽管测试中教学者可对任何位置处的物体进行提问。期望好的学习者应能够概括其已学习的关于物体和位置二者的概念以及已获得的对话技能，并可以自然语言与教学者针对它之前从未经历的、新的{物体，位置}组合进行成功的交互。

(2)知识传递：教学者向学习者针对周围物体提出问题。对于某些物体，在训练期间教学者不提出问题仅提供描述，而在测试中，教学者可对存在于场景中的任何物体提出问题。期望学习者能够传递从教学者的描述中学到的知识，以针对教学者关于这些物体的问题生成答案。在这两个设置下对两种配置(混合和保持)进行实验并分别将实验结果总结于表1和表2中。混合(mixed)配置表示这样的情况，即在训练期间与不管是活跃的还是不活跃的所有物体进行交互的混合情况。保持(held-out)配置表示训练期间包括仅与不活跃物体进行交互的情况。

结果表明，由于缺乏如前面部分提及的基本语言相关能力，在两种设置下的强化方法表现不佳。模仿方法比强化表现更好，主要因为其通过模仿的语言说话能力。应注意，保持配置是仅包括新的物体/组合的混合配置的子集，因此比混合情况更困难。值得注意的是，所测试的实施方式在更困难的保持配置下维持一致的行为，并在两种设置下胜过其他两种方法，展示了在交互式语言学习中所测试的实施方式的有效性。

表1：混合配置的测试结果

设置	强化	模仿	提出的
				组合概括	0.0％	83.7％	98.9％
知识传递	0.0％	81.6％	97.5％

表2：保持配置的测试结果

设置	强化	模仿	提出的
				组合概括	0.0％	75.1％	98.3％
知识传递	0.0％	70.4％	89.0％

E.各种结论

本文公开了用于基础自然语言学习的交互设置的实施方式，以及通过联合模仿和强化、充分利用交互期间自然出现的反馈来实现有效的交互式自然语言学习的实施方式。实验结果表明，各实施方式提供了用于在交互设置中学习自然语言的有效方式，并且在几种不同的情境下得到了令人满意的概括和传递能力。应注意，实施方式可包括或合并对已学知识进行明确建模以及对新概念进行快速学习；以及将本公开中呈现的语言学习任务与诸如导航之类的其它异构任务连接。

F.系统实施方式

在实施方式中，本专利公开的各方面可涉及一个或多个信息处理系统/计算机系统、实施在或利用一个或多个信息处理系统/计算系统。对于本公开的目的，计算系统可包括可操作为通过计算机计算、计算、确定、分类、处理、发送、接收、获取、起源、路由、切换、存储、显示、通信、显示、检测、记录、复制、运用或利用用于商业、科学、控制或其它目的的信息、智能或数据的任何形式的任何工具或工具的集合。例如，计算系统可以是个人计算机(例如，膝上型计算机)、平板计算机、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能数据包、服务器(例如，刀片式服务器或机架式服务器)、网络存储装置或其它任何合适的装置，并可在尺寸、形状、性能、功能和价格上不相同。计算系统可以包括随机存取存储器(RAM)、诸如中央处理器(CPU)或硬件或软件控制逻辑的一个或多个处理资源、ROM和/或其它类型的存储器。计算系统的附加部件可包括一个或多个磁盘驱动器、用于与外部装置通信的一个或多个网络端口以及诸如键盘、鼠标、触摸屏和/或视频显示器的各种输入和输出(I/O)装置。计算系统还可以包括可操作为在各种硬件部件之间传输通信的一个或多个总线。

图10描绘了根据本公开实施方式的计算装置/信息处理系统(或计算系统)的简化框图。将理解，系统1000所显示的功能可操作为支持信息处理系统的各种实施方式—尽管应当理解，信息处理系统可不同地配置并包括不同部件。

如图10所示，系统1000包括一个或多个提供计算资源并控制计算机的中央处理器(CPU)1001。CPU 1001可实施为微处理器等，并且也可包括一个或多个图形处理单元(GPU)1017和/或用于数学计算的浮点协处理器。系统1000还可包括系统存储器1002，其可以表现为随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

如图10所示，还可提供多个控制器和外围装置。输入控制器1003表示对诸如键盘、鼠标器或触笔的多种输入设备1004的接口。还可存在与扫描器1006通信的扫描器控制器1005。系统1000还可包括用于与一个或多个存储装置1008接口连接的存储器控制器1007，其中每个存储装置1008包括诸如磁带或磁盘的存储介质，或者可用于记录用于操作系统、实用程序和应用的指令程序的光学介质，其中指令程序可包括实施本发明各方面的程序的实施方式。根据本发明，一个或多个存储装置1008也可用于存储经处理数据或待处理数据。系统1000也可包括用于提供对显示装置1011的接口的显示控制器1009，显示装置1011可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器或其它类型的显示器。计算系统1000也可包括用于与打印机1013通信的打印机控制器1012。通信控制器1014可与一个或多个通信装置1015接口连接，使得系统1000能够通过各种网络中的任一网络或通过包括红外信号的任何合适的电磁载波信号与远程装置连接，其中，各种网络包括因特网、云资源(例如，以太网云、以太网上的光纤信道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN)。

在示出的系统中，所有主要系统部件可连接至总线1016，总线1016可表示超过一个物理总线。然而，各种系统部件可以或可以不彼此物理地接近。例如，输入数据和/或输出数据可从一个物理位置远程传输到另一个物理位置。另外，实现本发明各方面的程序可通过网络从远程位置(例如，服务器)访问。这种数据和/或程序可通过各种机器可读介质中的任一介质来输送，各种机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪存装置和ROM和RAM装置的专门配置成存储或专门配置成存储并执行程序代码的硬件装置。

本发明实施方式可通过一个或多个处理器或处理单元的指令来编码在一个或多个非暂时性计算机可读介质上，以使得步骤被执行。应注意，一个或多个非暂时性计算机可读介质应包括易失性和非易失性存储器。应注意，替代性实现方式是可能的，包括硬件实现或软件/硬件实现。硬件实现的功能可使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“装置”术语旨在涵盖软件和硬件实现。相似地，如本文中所使用的术语“一个或多个计算机可读介质”包括具有在其上实现的指令程序的软件和/或硬件或其组合。考虑到这些实现方式的替代品，应理解，附图和所附描述提供了本领域技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以进行所需的程序所需的功能信息。

应注意，本发明实施方式还可涉及具有非暂时性有形计算机可读介质的计算机产品，其中，非暂时性有形计算机可读介质的计算机产品具有用于在其上进行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本发明的目的而专门设计和构造的介质和计算机代码，或者它们可以是相关领域的技术人员已知或可用的类型。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪存装置和ROM和RAM装置的专门配置成存储或专门配置成存储并执行程序代码的硬件装置。计算机代码的示例包括如由编译器产生的机器代码、以及包含由使用解释器的计算机执行的更高级代码的文件。本发明实施方式可全部或部分地实现为机器可执行指令，机器可执行指令可处于由处理装置执行的程序模块中。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布式计算环境中，程序模块可物理地定位在本地、远程或两者的设置中。

本领域技术人员将认识到，没有计算系统或编程语言对于本发明的实践是关键的。本领域技术人员还将认识到，上面描述的多个元件可物理地和/或功能性地分离成子模块或者组合在一起。

本领域技术人员将理解，前面的示例和实施方式是示例性的，并不限制于本公开的范围。本领域技术人员在阅读说明书并研究附图之后显而易见的所有变换、增强、等同物、组合和改进均包括在本公开的真实精神和范围内。还应注意，任何权利要求的元件可被不同地排列，包括具有多个依赖性、配置和组合。

Claims

1.基于交互的语言学习的计算机实现的方法，所述方法包括：

在一时间步骤，在编码网络处将自然语言输入编码至状态向量中，所述自然语言输入包括一个或多个与视觉图像和初始状态相关的词；

基于所述状态向量，在控制器网络处产生输出控制向量，所述控制器网络包括残余控制模块和高斯策略模块，其中，所述残余控制模块配置为通过将所述状态向量输入到转换器网络来转换所述状态向量以生成控制向量，所述转换器网络实施为具有修正线性单元激活的两个全连接层，以及所述高斯策略模块配置为通过以来自所述残余控制模块的所述控制向量为条件的高斯分布来生成输出控制向量；

通过将所述视觉图像输入至视觉编码器，获得从所述视觉编码器输出的视觉特征向量；

基于所述输出控制向量和所述视觉特征向量，在动作网络处生成对所述自然语言输入的响应；以及

根据所述自然语言输入和所生成的响应，生成反馈。

2.如权利要求1所述的计算机实现的方法，还包括：

使用所述状态向量作为下一时间步骤中的初始状态，以用于在所述下一时间步骤中进行编码处理。

3.如权利要求1所述的计算机实现的方法，其中，所述编码网络和所述动作网络均是递归神经网络。

4.如权利要求1所述的计算机实现的方法，其中，来自教学者的所述反馈包括在下一时间步骤中的下一自然语言输入和奖励。

5.如权利要求4所述的计算机实现的方法，其中，所述奖励是来自所述教学者的标量值反馈，其中根据所述响应的正确度，正值作为鼓励，负值作为不鼓励。

6.如权利要求1所述的计算机实现的方法，其中，所述编码网络还接收从所述视觉编码器输出的所述视觉特征向量以对所述自然语言输入进行编码。

7.如权利要求6所述的计算机实现的方法，其中，从所述视觉编码器输出所述视觉特征向量的步骤包括：

通过所述视觉编码器中的卷积神经网络，对视觉输入进行编码以获得视觉向量映射；

对所述视觉向量映射附加具有可学习参数的一组映射以生成级联特征映射；

通过从所述初始状态生成的空间滤波器对所述级联特征映射进行卷积来获得注意力映射；

在所述注意力映射和所述视觉向量映射之间执行空间求和，以生成空间聚合向量；以及

将从所述初始状态生成的注意力掩码应用于所述空间聚合向量，以产生所述视觉特征向量。

8.如权利要求1所述的计算机实现的方法，还包括：

使用所述输出控制向量作为所述动作网络的初始状态。

9.用于在交互设置中进行基础自然语言学习的计算机实现的方法，所述方法包括：

在一时间步骤处，接收自然语言输入，所述自然语言输入包括一个或多个与视觉图像相关的词；

至少基于所述视觉图像生成视觉特征向量；

通过编码递归神经网络，至少基于所述自然语言输入生成对应于所述时间步骤的状态向量；

通过控制器网络，至少基于所述状态向量生成输出控制向量，所述控制器网络包括残余控制模块和高斯策略模块，其中，所述残余控制模块配置为通过将所述状态向量输入到转换器网络来转换所述状态向量以生成控制向量，所述转换器网络实施为具有修正线性单元激活的两个全连接层，以及所述高斯策略模块配置为通过以来自所述残余控制模块的所述控制向量为条件的高斯分布来生成输出控制向量；

在动作递归神经网络处，通过用作所述动作递归神经网络的初始状态的所述输出控制向量和所述视觉特征向量，生成对所述自然语言输入的响应；

根据所述自然语言输入和所生成的响应，通过教学者生成反馈，其中，所述反馈包括在下一时间步骤中的另一自然语言输入和标量值奖励；以及

使用所生成的反馈来训练所述编码递归神经网络和所述动作递归神经网络中的至少一个。

10.如权利要求9所述的计算机实现的方法，其中，生成对应于所述时间步骤的所述状态向量的步骤还基于所述时间步骤处所述编码递归神经网络的初始状态来进行，所述初始状态是在之前的时间步骤中获得的历史信息。

11.如权利要求9所述的计算机实现的方法，其中，根据所述响应的正确度，所述标量值奖励具有作为鼓励的正值和作为不鼓励的负值。

12.如权利要求9所述的计算机实现的方法，其中，随机梯度下降被用于基于来自所述教学者的包括所述另一自然语言输入的反馈训练所述编码递归神经网络，其中，基于来自所述教学者的包括所述标量值奖励的反馈使用强化学习来训练所述控制器网络。

13.如权利要求9所述的计算机实现的方法，其中，所述转换器网络包括用于调整与所述反馈的交互的可学习参数。

14.用于交互式语言学习的计算机实现的方法，所述方法包括：

通过分层递归神经网络模型在时间步骤处，接收包括一个或多个与视觉图像相关的词的自然语言输入；

通过所述分层递归神经网络模型，生成对所述自然语言输入的响应；以及

根据所述自然语言输入和所生成的响应，接收包括另一自然语言输入和标量值奖励的反馈；

其中，所述分层递归神经网络模型包括：

编码递归神经网络，以至少基于所述自然语言输入，生成对应于所述时间步骤的状态向量；

控制器网络，至少基于所述状态向量生成输出控制向量，所述控制器网络包括残余控制模块和高斯策略模块，其中，所述残余控制模块配置为通过将所述状态向量输入到转换器网络来转换所述状态向量以生成控制向量，所述转换器网络实施为具有修正线性单元激活的两个全连接层，以及所述高斯策略模块配置为通过以来自所述残余控制模块的所述控制向量为条件的高斯分布来生成输出控制向量；以及

动作递归神经网络，使用用作所述动作递归神经网络的初始状态的所述输出控制向量和从所述视觉图像提取的视觉特征向量，生成对所述自然语言输入的响应。