CN109478250A

CN109478250A - 具有用于语言建模和预测的副输入的人工神经网络

Info

Publication number: CN109478250A
Application number: CN201780040077.3A
Authority: CN
Inventors: J·伊索-西皮莱; M·J·威尔森
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-06-30
Filing date: 2017-06-27
Publication date: 2019-03-15
Also published as: US20180005112A1; GB201611380D0; EP3479301A1

Abstract

本发明涉及经改进的人工神经网络，其用于基于输入序列项目来预测项目的序列中的一个或多个接下来的项目。所述人工神经网络是在电子设备上实现的，所述电子设备包括处理器，以及被配置为接收一个或多个输入序列项目的至少一个输入接口，其中，所述处理器被配置为实现所述人工智能网络并且通过以下方式使用所述人工神经网络来生成项目的序列中的一个或多个经预测的接下来的项目：将在所述至少一个输入接口处接收的输入序列项目以及副输入作为输入提供至所述人工神经网络，其中，所述副输入被配置为保存在输入接口处接收的输入序列项目的记录。

Description

具有用于语言建模和预测的副输入的人工神经网络

背景技术

诸如移动电话和平板计算机之类的现代移动电子设备通常接收经由软键盘键入的用户输入，所述设备包括超越简单地接收键盘输入的多种额外的功能。这些额外的功能中的一个是用于在已知被输入的一个或多个先前的词语的情况下预测用户将经由键盘输入的接下来的词语的功能。该预测通常是使用基于n元(n元)的预测性语言模型生成的，例如，在专利号为2414915的欧洲专利中详细描述的。

基于n元的预测性语言模型的常常被批评的其中一个缺点在于其依赖于仅几个先前的词语的统计相关性。相比之下，人工神经网络，并且特别是循环神经网络语言模型，已经在本领域中显示出在语言预测方面比n元模型更好地执行(《基于语言模型的循环神经网络》，Mikolov等人，2010；《RNNLM——循环神经网络语言建模工具包》，Mikolov等人，2011)。

人工神经网络是一种统计学习算法，其架构是从在动物的中央神经系统中发现的神经元和突触的网络中导出的。人工神经网络是用于近似估计取决于大量输入的未知函数的有效工具。然而，在该上下文中，“函数”不应当将其可能的最宽含义给出为“将输入映射至输出的任何操作”。人工神经网络不仅对于近似估计数学函数是有用的，还对于找到作为分类器在数据处理和机器人等中的宽泛使用是有用的。

为了近似估计这些未知函数，基于已知输入和相关联的已知输出的大型数据集来训练人工神经网络。已知的输入被输入至人工神经网络，并且该人工神经网络的各种内部属性的值被反复地调整，直到该人工神经网络输出或近似估计出针对已知输入的已知输出为止。通过使用具有许多组已知输入和输出的大型数据集来实行该训练过程，该人工神经网络被训练为近似估计将已知输入映射至已知输出的底层函数。常常，用于近似估计非常不同的函数的人工神经网络具有人工神经元和突触的相同的一般架构；这是提供期望的行为的训练过程。

当使用语言模型来执行语言预测时，常常期望将该语言模型的上下文(例如，该语言模型的先前状态)考虑在内。诸如由Mikolov等人所描述的循环神经网络语言模型之类的利用上下文的现有解决方案限于短期上下文，其涉及在进行预测时的当前句子或段落。

因此，存在对能够在进行语言预测时将较长期的上下文考虑在内的人工神经网络预测性语言模型的需求。

发明内容

在本文发明的第一方面中，提供了电子设备，所述电子设备包括处理器，以及被配置为接收一个或多个输入序列项目的至少一个输入接口。所述处理器被配置为实现人工神经网络并且通过以下方式使用所述人工神经网络来生成项目的序列中的一个或多个经预测的接下来的项目：将在所述至少一个输入接口处接收的输入序列项目以及副(side)输入作为输入提供至所述人工神经网络，其中，所述副输入被配置为保存在输入接口处接收的输入序列项目的记录。

电子设备的处理器被配置为：通过将输入序列项目和副输入作为输入提供至人工神经网络的输入层来生成项目的序列中的一个或多个经预测的接下来的项目。

所述处理器可以被配置为生成序列中的一个或多个经预测的后续的项目。可以通过将第二输入序列项目和副输入作为输入提供至人工神经网络的输入层来生成所述一个或多个经预测的后续的项目。第二输入序列项目可以是由人工神经网络输出的、序列中先前预测的接下来的项目。

在本发明的一些实施例中，人工神经网络可以是固定上下文的神经网络。

在第一实施例中，处理器可以被配置为通过以下方式来生成项目的序列中的一个或多个经预测的接下来的项目：另外将一个或多个额外的输入序列项目作为输入提供至所述人工神经网络。所述输入序列项目和一个或多个额外的序列项目可以是连续的先前的序列项目。以该方式，可以向人工神经网络提供短期历史上下文，以改进输出序列中经预测的接下来的项目的精确度。

可以连结(concatenate)输入序列项目和副输入以形成被提供至人工神经网络的输入层的输入向量。

在本发明的一些实施例中，人工神经网络可以是循环神经网络。处理器可以被配置为通过以下方式来生成项目的序列中的一个或多个经预测的接下来的项目：首先，通过将副输入提供至人工神经网络的输入层来利用该人工神经网络处理该副输入以将该人工神经网络初始化；随后，通过将输入序列项目提供至人工神经网络的输入层来利用该人工神经网络处理该输入序列项目，以生成项目的序列中的一个或经预测的接下来的项目。

处理器可以被配置为通过将第二输入序列项目作为输入提供至人工神经网络的输入层来生成序列中的一个或多个经预测的后续的项目。第二输入序列项目可以是由人工神经网络输出的、序列中先前预测的接下来的项目。

在本发明的第二方面中，提供了电子设备，所述电子设备包括处理器，以及被配置为接收一个或多个输入序列项目的至少一个输入接口。所述处理器被配置为实现人工神经网络，

基于副输入来估计该人工神经网络的初始状态，其中，所述副输入被配置为保存在输入接口处接收的输入序列项目的记录，以及通过以下方式使用人工神经网络来生成项目的序列中的一个或多个经预测的接下来的项目：将在所述至少一个输入接口处接收的输入序列项目作为输入提供至所述人工神经网络。

人工神经网络可以是循环神经网络，并且处理器可以通过估计循环神经网络的循环隐藏向量的值和/或估计人工神经网络上的多个层之间的权重来估计该人工神经网络的初始状态。

人工神经网络还可以包括副输入层，并且处理器可以被配置为通过将副输入提供至副输入层来基于副输入估计该人工神经网络的初始状态。

副输入层可以包括副输入权重矩阵，并且其中，所述处理器被配置为用副输入权重矩阵与副输入相乘，以估计循环隐藏向量的初始状态的值。副输入层的节点还可以包括非线性。

处理器可以被配置为通过将副输入作为另外的输入提供至人工神经网络的输入层来生成序列中的一个或多个经预测的接下来的项目。

处理器还可以被配置为通过将第二输入序列项目作为输入提供至人工神经网络的输入层来生成序列中的一个或多个经预测的后续的项目。第二输入序列项目可以是由人工神经网络输出的、序列中先前预测的接下来的项目。

在本发明的方面或实施例中的任何一个中，副输入可以是副输入向量。副输入向量可以保存在项目的序列中出现的每个项目的频率计数。可替代地或另外地，副输入向量可以保存在项目的序列中出现的项目的分组的频率计数。

副输入向量还可以包括指示电子设备的上下文的元素。电子设备的上下文可以包括以下中的一个或多个：在电子设备上运行的当前应用、被键入的消息的接收者、时间或星期、位置。

处理器可以被配置为在副输入向量被输入至人工神经网络之前用编码矩阵来与该副输入向量相乘。

项目的序列可以是以下中的一个或多个的序列：词语、字符、语素(morpheme)、分词(word segment)、标点、表情符号、emoji表情、便签、以及话题标签。

至少一个输入接口可以是键盘，而输入序列项目可以是以下中的一个：词语、字符、语素、分词、标点、表情符号、emoji表情、便签、话题标签、以及软键盘上的按键位置。

电子设备还可以包括触摸感应显示器，所述键盘可以是软键盘而所述处理器可以被配置为在显示器上输出软键盘。

处理器还可以被配置为生成与项目的序列中所生成的一个或多个经预测的接下来的项目相对应的一个或多个显示对象，并且将所述一个或多个显示对象输出在显示器上。

所述一个或多个显示对象可以是可选择的，并且在选择了所述一个或多个显示对象中的一个之后，所述处理器可以被配置为选择与所选择的显示对象相对应的序列项目。所述处理器可以被配置为基于所述一个或多个可选择的显示对象中被选择的显示对象来生成项目的序列中的一个或多个经预测的后续的项目。

所述处理器可以被配置为根据所生成的经预测的序列项目来更新副输入。可替代地或另外地，所述处理器可以被配置为根据所选择的序列项目来更新副输入。

所述处理器可以被配置为存储所生成的或所选择的经预测的序列项目，并且定期利用所存储的序列项目来更新副输入。所述副输入还可以使用从一个或多个外部的用户专用输入源所取回的数据而被更新，所述数据源例如以下中的一个或多个：电子邮件账户或者社交媒体账户。

电子设备可以被配置为存储多个可替代的副输入，并且电子设备可以被配置为基于以下中的一个或多个从所存储的多个可替代的副输入中选择由该电子设备所输入的副输入，以生成项目的序列中的一个或多个经预测的接下来的项目：该电子设备的操作状态、在该电子设备上运行的应用、该电子设备的上下文。

附图说明

图1描绘了根据现有技术的示例前馈人工神经网络。

图2描绘了根据现有技术的人工神经网络的层的示例单元。

图3描绘了用于预测性语言建模的现有技术的循环神经网络。

图4是描绘了根据本发明的短期和长期上下文以及副输入的图。

图5是展示了表示长期上下文和短期上下文的副输入如何被提供至固定上下文神经网络的图。

图6描绘了具有用于初始化循环神经网络的状态的副输入的循环神经网络。

图7是包含如在本文中所描述的人工神经网络的电子设备的示意图。

具体实施方式

图1描绘了根据现有技术的状态的简单人工神经网络100。本质上，诸如人工神经网络100之类的人工神经网络是在方向依赖的层中组织的数学函数链，所述方向依赖的层例如输入层101、隐藏层102、和输出层103，每一层包括多个单元或节点，110-131。人工神经网络100被称为“前馈神经网络”，这是由于每一层101-103的输出被用作对下一层的输入(或者，在输出层103的情况下，是人工神经网络100的输出)，并且不存在向后的步骤或循环。应当领会的是，在图1中所描绘的单元110-131的数量是示例性的，并且一般的人工神经网络在每一层101-103中包括更多的单元。

在人工神经网络100的操作中，在输出层101处提供输入。这通常涉及将真实世界输入映射成适合于输入层101的离散形式，即，可以被输入至输入层101的单元110-112中的每个单元。例如，诸如人工神经网络100之类的人工神经网络可以用于光学字符识别(OCR)。输入层中的每个单元110-112可以对应于比特图中的每个像素的颜色通道值，所述比特图包含要被识别的字符。

在输入已经被提供至输入层101之后，所述值通过人工神经网络100传播至输出层103。隐藏层102(被这么叫是因为其输入和输出被包含在神经网络内)的单元中的每个单元本质上是将多个输入值看作是参数并且返回单个值的函数。例如，拿隐藏层102的单元120来说，单元120从输入层101的单元110、111、和112接收输入，并且产生接着被传递至输出层103的单元130和131的单个输出值。

输出层103的单元130和131以与隐藏层102的那些单元类似的方式来操作。输出层103中的每个单元130和131从隐藏层102的全部四个单元120-123接收输入，并且输出单个值。与对输入层的输入一样，输出层的输出是以某种方式映射至真实世界的量的离散的值。在OCR示例中，输出层103可以具有与人工神经网络100能够识别的每个字符相对应的单元。所识别的字符可以接着在输出层103中通过单个单元具有值1而其余单元具有值零来指示。在现实中，人工神经网络100不太可能提供如此干净的输出，而输出层103将替代地具有有各种值的多个单元，其中每个值指示该输入字符是与该单元相关联的字符的可能性。

现在关于图2更加详细地描述隐藏层102和输出层103的单元120-131的操作和配置。图2的单元200可以是在上文中所描述的人工神经网络100的单元120-131中的一个。单元200从人工神经网络之前的层中的单元接收三个输入x0、x1、和x2。当这些输入被单元200接收时，它们被乘以对应的自适应权重值w0、w1、和w2。这些权重值是“自适应的”因为这些是人工神经网络中在训练过程期间被修改的值。应当领会的是，值x0、x1、和x2是由神经网络的之前的层的单元生成的，并且因此取决于对神经网络的输入。自适应权重值w0、w1、和w2取决于输入，并且对于定义人工神经网络的行为是必要的。

在输入x0、x1、和x2被乘以所述自适应权重值之后，其乘积被求和并且用作对传递函数的输入。传递函数常常是诸如阶梯函数之类的阈值函数，其类似于生物神经元，这在于其在达到阈值时会“点燃(fire)”。其他传递函数可以并且常常被使用，例如sigmoid激活函数、softmax函数、以及所述输入的线性组合。传递函数的输出是单元200的输出。

如上文所提及的，人工神经网络100使用具有已知的输入和已知的输出的大型数据集来被训练。例如，如果人工神经网络100要被用于将当前的词语看作输入来预测句子中的接下来的词语，则人工神经网络100可以使用任何合适的文本的正文来被训练。用于训练人工神经网络的常见的算法是误差的反向传播方法，其常常被称为简单反向传播。反向传播通过调节自适应权重(例如，图2的w0、w1、和w2)以最小化所预测的输出相对于真实输出的误差或差异来工作。关于反向传播算法的详细描述可以在Raul Rojas所著的、由Springer Science&Business Media在1996年出版的《神经网络——一种系统化介绍(Neural Networks——A Systematic Introduction)》一书的第七章中找到。

图3描绘了由Mikolov等人在2010年的《RNNLM——循环神经网络语言建模工具包》中所描述的人工神经网络300。人工神经网络300用于在给定的上下文的文本数据中预测接下来的词语，其将当前的词语看作其输入并且产生经预测的接下来的词语作为其输出。

与人工神经网络100相同，人工神经网络300包括输入层304、隐藏层306、和输出层，所述输出层在该情况下提供词语预测308。与一般的人工神经网络一样，人工神经网络300包括以第一权重矩阵340为形式的自适应权重，其在输入层304的单元的值被传递至隐藏层306时对所述值进行修改。人工神经网络300还包括编码矩阵320和解码矩阵330。编码矩阵320将真实世界词语映射成能够由人工神经网络300的单元处理的离散形式。解码矩阵330在隐藏层106的单元的值被传递至输出层108时对所述值进行修改，以将人工神经网络的处理的结果转变成真实世界词语。

对人工神经网络300的词语输入是以N中1(1-of-N)的形式302表示的，即一个N比特的序列，除了具有值1的单个比特之外的所有比特都具有值0。每个具有1比特的唯一的位置的N个不同的N中1向量映射至预先定义的词汇表中的词语。N中1表示302被编码矩阵320修改以提供输入层304的值。

除了一般的前馈人工神经网络的输入、隐藏、和输出层，人工神经网络300还包括循环隐藏向量(recurrent hidden vector)312。利用人工神经网络300的每次传递，在输入层304的单元的值被权重矩阵340修改之前，循环隐藏向量312的单元的值与输入层304的单元的值相连结。如在这里使用的术语“连结”具有本领域中的标准含义：循环隐藏向量312的单元的值被附加至输入层304的单元的值，或者反之亦然。输入层304的单元和循环隐藏向量312的单元的经连结的值接着被乘以第一权重矩阵340并且被传递至隐藏层306。跟随人工神经网络300的每次传递，隐藏层306的单元的值被复制到循环隐藏向量312，以替换先前的循环隐藏向量。通过引入循环隐藏向量312，人工神经网络300能够在预测之间保存先前预测的词语的短期上下文，以改进当在诸如语言建模之类的固有基于上下文的应用中被使用时的系统的精确度。

当softmax激活函数在输出层中被使用时，输出层的单元的值表示已知输入词语的情况下接下来的词语的概率分布，并且经由循环隐藏向量312表示隐藏层在先前的传递处的状态。

人工神经网络300还可以包括类预测输出310。通过将隐藏层306的单元的值乘以第二权重矩阵342，提供了词语类预测，其中，类是可能的输出词语的逻辑分组。

诸如固定上下文神经网络(FCNN)之类的可替代的神经网络语言模型不使用循环隐藏向量来在预测之间保存先前预测的词语的上下文，但替代地依赖于额外的输入来提供短期上下文(例如，先前预测的词语)以作为对神经网络的输入。固定上下文神经网络的输出可以以如在上文中针对循环隐藏向量所描述的通过提供词语预测和/或类输出的相同的方式来操作。

本发明提供了人工神经网络预测性语言模型的新框架，其能够经由对用户的历史语言的概要来保存长期上下文。通过以下方式中的一个来将该长期上下文用作对人工神经网络的另外的或“副”输入：将输入词语和副输入两者作为输入提供至人工神经网络、使用副输入来初始化循环神经网络的循环隐藏向量、或者使用副输入来估计人工神经网络的初始状态。

在优选实施例中，副输入是累积一元(unigram)计数，其保存用户已经使用了一个或多个特定一元的次数的记录。作为副输入的一部分的一元可以包括以下中的一个或多个：词语、字符、语素、分词、标点、表情符号、emoji表情、便签、以及话题标签等。

副输入优选地作为副输入向量而被提供，其中，向量的个体元素涉及长期上下文的参数。此外，副输入向量的所有元素都对应于同一类型的数据不是必须的。例如，所述元素中的一些元素可以对应于一元计数，其他元素可以对应于一元的分组或类，并且其他元素可以指示电子设备的上下文。

采用诸如固定上下文神经网络之类的神经网络的语言模型的现有解决方案使用在当前的输入词语旁边的、来自当前句子或段落的上下文作为对人工神经网络的额外输入。在图4中描绘了该短期上下文，其中，当前句子402的个体的一元“Better”、“yet”、“let’s”、“drive”、和“to”被描绘为对神经网络410的输入层412的输入。长期上下文404被描绘为包括当前句子402的一元和先前的句子“Let’s run to school(让我们跑去学校)”的一元；然而，将领会的是，长期上下文可以包括显著更多的信息，例如当前段落、当前分段、当前文本输入会话中的每个词语输入，所有经记录的输入词语的生命周期历史记录，和/或来自诸如社交媒体、电子邮件账户等之类的其他源的输入。

副输入406(例如，一元计数向量)可以与当前句子402的一元一起被呈现为到神经网络410的输入层中的额外的或副输入416，以允许用户键入的长期上下文影响输出。

还描绘的是神经网络输出414。神经网络的输出可以用于找到句子中的单个最可能的接下来的词语，例如，“school(学校)”，或者可以用于对句子中的接下来的词语的多个建议，例如“camp(露营)”、“work(工作)”、和“school”。副输入416提供超越由当前句子所提供的长期上下文，以允许系统使用一元既往历史作为额外的上下文来呈现预测。例如，如果用户经常发关于学校的文本但很少发关于露营的文本，则用户对一元“school”的既往使用将使“school”更可能是输出414中的预测。当然，这是上下文在神经网络语言模型中工作的方式的简化示例。人工神经网络的使用允许在进行预测时使用不同的词语之间的经训练的相似度和关联，这与n元模型不同。

图5描绘了一种方法，其将副输入作为输入提供至Fixed Context NeuralNetwork(固定上下文神经网络)的输入层，即，不在内部保存超越固有作为对神经网络训练的结果的上下文的任何上下文记录的神经网络。描绘了对隐藏层的当前输入的5个元素，三个先前的一元“am”、“a”、和“beautiful”502，副输入504(例如，一元计数向量)，以及其他相关的副输入510(例如，与时间、日期、应用相关的数据)。还示出的是先前的一元“I”506，其没有被提供为对神经网络的输入，这是由于在本示例中仅提供了三个最新近的一元。应当领会的是，可以使用其他数量的先前的一元，例如固定数量的先前的一元、当前句子或段落中的所有先前的一元、或者数量多至最大数量的先前的一元等。

如在图5中所描绘的，输入512的元素中的每个元素可以被连结到作为输入被提供至神经网络的单个向量中。一元输入502中的每个可以是独热(one-hot)或N中1向量，其在除了与该一元相对应的元素之外的每个元素中都是零。副输入504可以是如上文所描述的一元计数向量，并且还可以包括如在本文中所描述的额外的上下文，例如电子设备的上下文。一元输入502和副输入504两者都乘以编码矩阵508以向神经网络512提供输入。由于编码矩阵将N中1向量(以及一元计数向量)与神经网络之间的关系进行编码，因此其不适用于其他相关的副输入510，这是由于其不涉及一元。所述输入接着被人工神经网络处理以生成针对句子中的接下来的词语的一个或多个预测。

尽管已经关于固定上下文神经网络描述了作为对神经网络的额外输入的副输入的使用，但将领会的是，在图5中所描绘的布置也可以应用于其他类型的神经网络语言模型。例如，当被应用于循环神经网络时，仅将一个先前的一元502与副输入504(有可能是其他副输入510)一起作为输入提供至神经网络。

当以循环神经网络使用副输入时，该副输入可以被提供至未经初始化的循环神经网络(即，循环隐藏向量的元素的值是未经初始化的)以作为在当前词语之前的输入，例如，在每个键入会话的开始处。通过在处理任何输入序列项目之前利用人工神经网络来处理副输入，循环隐藏向量的元素的值基于由副输入提供的长期上下文而被初始化。当以该方式被初始化时，循环隐藏向量反映长期上下文，并且随后根据对循环神经网络的后续的输入而被更新。

可替代地，副输入可以用于直接估计循环神经网络的初始状态。具体地，可以基于副输入来估计循环隐藏向量的初始状态，即在循环神经网络已经处理了当前会话中的任何输入之前循环隐藏向量的状态。图6描绘了根据本发明的该实施例的人工神经网络600。尽管在下文中在描述了将词语作为输入提供至人工神经网络600的上下文，但将领会的是，前述讨论可应用于如在上文中所讨论的任何合适的一元输入。

人工神经网络600是如上文关于图3所描述的循环神经网络，并且包括输入层604、隐藏层606、以及输出层608、610，其可以提供基于词语的预测608和/或基于类的预测610。网络还包括循环隐藏向量612，其在每个时间步骤处与输入层604的值一起被提供至隐藏层606，并且随后基于隐藏层的输出值而被更新。以该方式，循环隐藏向量612的元素的值基于被输入至人工神经网络600的先前的词语而被更新，并且先前输入的词语可以为了后续的词语预测而被考虑在内。

如在上文中所讨论的，循环隐藏向量600仅仅能够保存先前输入的词语的短期上下文。因此，人工神经网络还包括副输入614和副输入层616。在第一时间步骤处，在任何输入词语被提供至人工神经网络之前，副输入614被提供至副输入层616，并且副输入层616与第一权重矩阵和诸如传递函数或激活函数(例如，softmax函数、sigmoid函数、双曲正切函数、或者任何其他已知非线性)之类的非线性相乘，并且被应用于循环隐藏向量612。以该方式，循环隐藏向量612的值基于由副输入614所提供的长期上下文而被初始化，以增加由人工神经网络600所输出的预测的精确度。

副输入614可以被实现为诸如在上文所描述的一元计数向量406之类的副输入向量，但副输入可以对循环隐藏向量具有不同的维数。在该情况下，副输入层616的权重矩阵可以用于将副输入612转换成合适的大小。例如，副输入614可以是具有160个元素的向量，而循环隐藏向量可以具有512个元素。在该情况下，副输入层可以包括160×512的矩阵，其用于通过矩阵乘法将160元素的副输入向量转换成512元素的向量。得出的512元素的向量的值可以接着被应用于循环隐藏向量。

副输入层616可以是密集层，这在于副输入层616中的大多数或所有节点都连接至循环隐藏向量中的所有节点。

副输入层616使用在上文中讨论并且在Rojas所著的《神经网络——一种系统化介绍》中描述的误差的反向传播和梯度下降方法、与人工神经网络的其余层一起被训练。

如上文所描述的，副输入614可以仅在第一时间步骤处，在生成任何词语预测之前在使用人工神经网络600生成预测的新会话的开始处，被提供至副输入层616。以该方式，由人工神经网络600所生成的初始预测从在副输入614中保存的长期上下文中获益，并且因此更加精确。副输入614还可以在后续的每个时间步骤处与当前输入词语一起被提供至人工神经网络的输入层604，如在上文中关于图4和5所描述的；然而，由于循环隐藏向量612保存短期上下文，因此在被提供至人工神经网络600的输入层604的输入中包括多于单个输入词语不是必须的。

如在上文中所提及的，副输入可以是用户曾经键入的所有内容的基本概要，其可以由单个整体式(monolithic)一元计数向量来表示。可替代地或额外地，副输入可以在时间上受限，例如限于当前会话，或者某一其他时段(例如，多个年、月、周、日、小时等)。因此，副输入还可以保存与一元计数的时间相关性有关的额外信息。例如，可以针对每个单位时间(例如，一小时、一天、一周等)保存几个不同的一元计数向量。当期望使用仅涉及一个单位时间的副输入时，仅使用最新近的一元计数向量。当期望使用涉及多个单位时间的副输入时，可以使用简单向量加法来将合适数量的最新近的一元计数向量加在一起以提供副输入，只要每个一元计数向量的对应的元素涉及相同的一元。当期望使用用户的整个历史作为副输入时，所有存储的一元计数向量被加在一起以产生副输入。可以期望在时间上限制长期上下文以防止旧的、被丢弃的键入习惯影响对词语的预测，或者反映用户的环境和周围事物的改变。可以期望通过例如仅使用比一小时、一天等更旧的一元计数向量来确保副输入仅仅涉及长期上下文而不是由人工神经网络所保存的任何其他短期上下文，从而确保短期上下文不会影响输出预测两次。

应当领会的是，在多个一元计数向量被使用的情况下，它们全都涉及统一的时段不是必须的。例如，可以保存针对不同的写会话、不同的应用、不同的接收者(其中，文本输入在诸如SMS或电子邮件之类的发送至接收者的消息中被使用)、或不同的源的个体一元计数向量。

副输入还可以包括额外的上下文数据，例如从词语在其上输入的电子设备或者词语在其中被输入的应用中导出的上下文。例如，副输入向量可以包括额外的元素，其指示当前的应用、所键入的消息的接收者、时间或星期、位置、或者在消息被键入其中的应用上实行的当前对话中的词语/一元等。

在副输入包括超越由人工神经网络直接输入和处理的那些的源和一元(例如，导出自从社交媒体账户、电子邮件账户、文档等中取回的文本的一元计数)的情况下，来自这些源中的每个源的一元计数可以作为能够被选择性地加在一起以产生期望的副输入的个体的一元计数向量而被存储，或者可以与其他一元计数一起被绑定到单个整体式一元计数向量中。

因此，根据以上的讨论，将领会的是，人工神经网络在其上操作的电子设备可以保存单个整体式一元计数向量，该一元计数向量涉及针对所有期望的时间段、源、会话等的所有一元计数向量。可替代地或另外地，电子设备可以保存针对不同时间段、不同会话、不同应用、不同源、和不同消息接收者的多个一元计数向量，这些一元计数向量可以通过简单向量加法而被选择性地组合以提供作为输入被提供至人工神经网络或者用于初始化循环神经网络的副输入。

在一个实施例中，在用户输入词语时，包括副输入的一个或多个一元计数向量持续被更新，并且每个书写的一元被计数且被加至一元计数向量以用作副输入。在该上下文中，术语“书写的一元”可以包括已经被用户直接输入至系统的一元，以及已经由人工神经网络输出并且由用户选择插入到文本字段中的一元预测。

可替代地，副输入可以以离散的基础被更新，例如每小时一次、或者每天一次。如果针对每个单位时间保存了个体的一元计数向量，则在副输入中仅可以使用最新近的完整的一元计数向量，而涉及当前时段的一元计数向量被不断更新，但不被用作对人工神经网络的副输入的一部分。如果使用整体式一元计数向量，则该整体式一元计数向量可以根据不是副输入的一部分的分开的一元计数而仅每单位时间被更新，例如每小时一次、每天一次，直到该分开的一元计数被并入到该整体式一元计数向量中为止。

一个或多个一元计数向量可以例如通过使用L2范数被标准化以防止副输入比作为输入提供至人工神经网络的当前输入词语和(通过额外的输入或者循环隐藏向量所提供的)短期上下文权重更高。

此外，将意识到的是，副输入不需要限于一元计数向量，但也可以包括针对一元的分组或类。当较不频繁使用的一元被分组或分类在一起时，计算复杂度和存储器需求被降低同时仍然提供较频繁使用的一元的好的分辨率。

人工神经网络通常位于诸如智能电话或平板计算机之类的电子设备上。电子设备包括至少一个输入接口(例如，触摸感应显示器或者硬或软键盘)，处理器，以及人工神经网络。对人工神经网络的输入是经由输入接口提供的，而人工神经网络的输出预测可以是电子设备的图形用户界面上的输出。

电子设备的处理器被配置为利用人工神经网络处理在输入接口处接收的输入以产生序列中的一个或多个经预测的接下来的项目。人工神经网络优选地作为计算机可读指令被存储在与电子设备相关联的存储器中，所述指令可以在所述存储器处被处理器访问和执行。

优选地，输入接口是在移动电话或平板计算机的触摸感应显示器上操作的软键盘。电子设备的用户首先使用该软键盘将词语输入至文本字段，接着输入空字符或标点。空字符或标点向键盘软件指示该用户已经完成了对词语的输入。作为空字符或标点的替代物，词语的结束可以由对建议的改正或词语补全的选择来指示。键盘软件接着利用人工神经网络以基于输入词语生成针对接下来的词语的多个预测。接着，在触摸感应显示器上显示由人工神经网络输出的预先定义数量(例如，三个或四个)的最可能的预测(即，与具有最高值的输出层的单元相对应的词语)，优选地与键盘同时地，并且优选地在用户开始输入接下来的词语之前被显示。接着，用户可以选择所显示的词语预测中的一个，以提示键盘将所选择的词语输入到文本字段中。一旦用户选择了词语，则所选择的词语被输入至人工神经网络并且进一步预测的词语被生成和显示。可替代地，如果向用户呈现的词语预测中没有正确的，则用户可以使用软键盘上的键继续输入接下来的词语。如在上文中所提及的，所选择的词语也可以被加入到一元计数向量中以便更新副输入。

如果所显示的预测中没有词语被电子设备的用户选择，并且替代地用户继续手动地输入接下来的词语，则由人工神经网络所生成的针对当前词语的预测被过滤模块根据所输入的字符或其他符号过滤，并且所显示的预测可以根据具有与该过滤相匹配的最高概率(使用本领域中已知的技术)的词语而被更新。例如，考虑上文中关于图4所讨论的句子，有可能人工神经网络没有正确地预测“school”在已知输入序列项目的情况下是最可能的词语或者是最可能的词语之一。在这样的场景中，词语“school”不会被呈现给用户以使得用户将其选择作为正确的预测。如果正确的预测没有被呈现给用户，则用户可以开始将接下来的词语(即，“school”)键入到电子设备中。当用户键入词语的字母时，由人工神经网络所生成的预测的列表被过滤。例如，当用户键入“school”中的字母“s”时，预测的列表被过滤为仅包括以字母“s”开始的词语。当预测的列表被过滤时，可以更新被呈现给用户的预测，其中与过滤不匹配的预测被与过滤相匹配的接下来最可能的预测所代替。

将领会的是，对预测的过滤可以基于不同于所键入的字符的其他因素。例如，如果用户开始键入，这暗示所显示的预测全都不合适，则过滤可以简单地忽略所显示的预测并且可以替代地显示接下来最可能的预测，而不将具体哪个字符被键入考虑在内。可替代地，过滤可以将按下的键可能是不准确的考虑在内，并且可以将过滤扩展为包括在键盘上相邻或接近所键入的字符的字符。

图7是具有在本文中所描述的人工神经网络的电子设备的示意图，所述电子设备例如智能电话、平板计算机、可穿戴计算机、头戴增强现实计算设备、或者其他基于计算的设备。

基于计算的设备700包括一个或多个处理器702，它们是微处理器、控制器、或者用于处理计算机可执行指令的任何其他合适类型的处理器，所述计算机可执行指令用于控制设备的操作以便利用人工神经网络来处理在输入接口处接收的输入从而产生一个或多个经预测的接下来的项目。在一些示例中，例如在使用片上系统架构的情况下，处理器702包括一个或多个固定功能块(也被称为加速器)，它们实现以下方法的一部分，该方法以硬件(而不是软件或固件)利用人工神经网络来处理在输入接口处接收的输入从而产生一个或多个经预测的接下来的项目。在基于计算的设备处提供包括操作系统704的平台软件或者任何其他合适的平台软件，以使得应用软件706能够在设备上被执行。输入存储718保存已经由用户输入的诸如词语、短语、字符、emoji表情之类的项目的序列，并且其保存经预测的项目，以及可选地，神经网络参数值。人工神经网络720被存储在存储器708处，并且至少包括多个权重以及神经网络的拓扑结构和所使用的任何激活函数的细节。

计算机可执行指令是使用能够由基于计算的设备700访问的任何计算机可读介质来提供的。计算机可读介质例如包括诸如存储器708之类的计算机存储介质以及通信介质。诸如存储器708之类的计算机存储介质包括以用于存储信息的任何方法或技术实现的易失性和非易失性的、可移动和不可移动的介质，所述信息例如计算机可读指令、数据结构、程序模块等。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、闪速存储器或其他存储器技术、压缩盘只读存储器(CD-ROM)、数字通用盘(DVD)或其他光学存储、盒式磁带、磁带、磁盘存储或其他磁存储设备、或者用于存储由计算设备访问的信息的任何其他非传输介质。相比之下，通信介质在诸如载波或其他传输机制之类的经调制的数据信号中实施计算机可读指令、数据结构、程序模块等。如在本文中所定义的，计算机存储介质不包括通信介质。因此，计算机存储介质不应当被解释为是传播的信号本身。尽管计算机存储介质(存储器708)被示出在基于计算的设备700之内，但将领会的是，在一些示例中，存储被远程地分配或定位，并且经由网络或其他通信链路来访问(例如，使用通信接口710)。

基于计算的设备700还包括输入/输出控制器712，其被设置为将显示信息输出至显示设备714，所述显示设备714可以分离于或者集成到基于计算的设备700。显示信息可以提供图形用户界面。输入/输出控制器712还被布置为接收和处理来自一个或多个设备的输入，例如用户设备716(例如，鼠标、键盘、相机、麦克风、和其他传感器)。在一些示例中，用户输入设备716检测语音输入、用户手势、或其他用户动作，并且提供自然语言接口(NUI)。该用户输入可以用于输入词语、字符、短语、文本、或其他输入。在实施例中，显示设备714在其是触摸感应显示设备的情况下还充当用户输入设备716。在一些示例中，输入/输出控制器712将数据输出至显示设备之外的设备，例如，本地连接的打印设备。

输入/输出控制器712、显示设备714、和用户输入设备716中的任何一个可以包括NUI技术，其使得用户能够以自然方式与基于计算的设备进行交互，而免于由诸如鼠标、键盘、遥控器等之类的输入设备所施加的人为约束。在一些示例中所提供的NUI技术的示例包括但不限于依赖于以下项的技术：语音和/或话音识别、触摸和/或触笔识别(触摸感应显示器)、屏幕上和接近于屏幕两者的手势识别、空中手势、头部和眼睛跟踪、语音和话音、视觉、触摸、手势、和机器智能。在一些示例中所使用的NUI技术的其他示例包括：意图和目标理解、使用深度相机(例如，立体相机系统、红外相机系统、红绿蓝(rgb)相机系统以及这些的组合)的运动手势检测、使用加速计/陀螺仪的运动手势检测、脸部识别、三维(3D)显示、头、眼睛、和目光跟踪、沉浸式增强现实和虚拟现实系统、以及用于使用电场传感电极(EEG和相关方法)来检测脑部活动的技术。

在示例中，存在一种计算机实现的方法，包括：

使用至少一个输入接口来接收一个或多个输入序列项目；

在处理器处实现人工神经网络；

基于副输入来估计所述人工神经网络的初始状态，其中，所述副输入被配置为保存在所述输入接口处接收的输入序列项目的记录；以及

通过以下方式使用所述人工神经网络来生成项目的序列中的一个或多个经预测的接下来的项目：将在所述至少一个输入接口处接收的输入序列项目作为输入提供至所述人工神经网络。

将领会的是，该描述仅仅是作为示例的；可以对所描述的实施例进行改变和修改而不脱离如在权利要求中所定义的本发明的范围。

Claims

1.一种电子设备，包括：

处理器，以及

至少一个输入接口，其被配置为接收一个或多个输入序列项目；

其中，所述处理器被配置为：

实现人工神经网络；并且

通过以下方式使用所述人工神经网络来生成项目的序列中的一个或多个经预测的接下来的项目：将在所述至少一个输入接口处接收的输入序列项目以及副输入作为输入提供至所述人工神经网络，其中，所述副输入被配置为保存在所述输入接口处接收的输入序列项目的记录。

2.根据权利要求1所述的电子设备，其中，所述处理器被配置为通过以下方式来生成所述项目的序列中的所述一个或多个经预测的接下来的项目：将所述输入序列项目和所述副输入作为输入提供至所述人工神经网络的输入层。

3.根据权利要求2所述的电子设备，其中，所述处理器被配置为生成所述序列中的一个或多个经预测的后续的项目。

4.根据权利要求3所述的电子设备，其中，所述处理器被配置为通过以下方式来生成所述序列中的所述一个或多个经预测的后续的项目：将第二输入序列项目和所述副输入作为输入提供至所述人工神经网络的输入层。

5.根据权利要求4所述的电子设备，其中，所述第二输入序列项目是由所述人工神经网络输出的、所述序列中先前预测的接下来的项目。

6.根据权利要求1至5中任何一项所述的电子设备，其中，所述人工神经网络是固定上下文神经网络。

7.根据权利要求1至6中任何一项所述的电子设备，其中，所述处理器被配置为通过以下方式来生成项目的序列中的所述一个或多个经预测的接下来的项目：将一个或多个额外的输入序列项目作为输入另外提供至所述人工神经网络。

8.根据权利要求7所述的电子设备，其中，所述输入序列项目和一个或多个额外的序列项目是连续的先前的序列项目。

9.根据任何前述权利要求所述的电子设备，其中，所述输入序列项目和所述副输入被连结以形成被提供至所述人工神经网络的输入层的输入向量。

10.根据权利要求1至5中任何一项所述的电子设备，其中，所述人工神经网络是循环神经网络。

11.根据权利要求10所述的电子设备，其中，所述处理器被配置为通过以下步骤来生成所述序列中的一个或多个经预测的接下来的项目：

a、首先，通过将所述副输入提供至所述人工神经网络的输入层来利用所述人工神经网络处理所述副输入以将所述人工神经网络初始化；

b、随后，通过将所述输入序列项目提供至所述人工神经网络的所述输入层来利用所述人工神经网络处理所述输入序列项目，以生成所述项目的序列中的一个项目或经预测的接下来的项目。

12.根据权利要求10或11中任何一项所述的电子设备，其中，所述处理器被配置为生成所述序列中的一个或多个经预测的后续的项目。

13.根据权利要求12所述的电子设备，其中，所述处理器被配置为通过将第二输入序列项目作为输入提供至所述人工神经网络的输入层来生成所述序列中的所述一个或多个经预测的后续的项目。

14.根据权利要求13所述的电子设备，其中，所述第二输入序列项目是由所述人工神经网络输出的、所述序列中所述先前预测的接下来的项目。

15.一种电子设备，包括：

处理器，以及

其中，所述处理器被配置为：

实现人工神经网络；