CN110431566B

CN110431566B - 基于概率的引导器

Info

Publication number: CN110431566B
Application number: CN201880018349.4A
Authority: CN
Inventors: A·R·约翰森; B·麦卡恩; J·布拉德伯里; R·佐赫尔
Original assignee: Shuo Power Co
Current assignee: Shuo Power Co
Priority date: 2017-03-15
Filing date: 2018-03-14
Publication date: 2024-03-19
Anticipated expiration: 2038-03-14
Also published as: JP7104059B2; CN110431566A; US20180268298A1; US11250311B2; CA3052212A1; CA3052212C; US20220164635A1; JP2020511720A; US11354565B2; US20180268287A1; WO2018170175A1

Abstract

所公开的技术提出使用计算上便宜、不太精确的词袋(BoW)模型和计算上昂贵、更精确的长短期记忆(LSTM)模型的组合来执行自然处理任务(诸如情绪分析)。使用便宜的、不太精确的BoW模型在本文中称为“略读”。使用昂贵的、更精确的LSTM模型在本文中称为“阅读”。所公开的技术提出了基于概率的引导器(PBG)。PBG结合了BoW模型和LSTM模型的使用。PBG使用概率阈值策略来基于BoW模型的结果确定是否调用LSTM模型以将句子可靠地分类为积极或消极。所公开的技术还提出了基于深度神经网络的决策网络(DDN)，其被训练以学习BoW模型和LSTM模型之间的关系并且仅调用两个模型中的一个。

Description

基于概率的引导器

相关申请的交叉引用

本申请要求2017年12月22日提交的美国实用专利申请No.15/853,530和2017年3月15日提交的美国临时申请No.62/471,934的优先权，其内容通过引用全部并入本文用于所有目的。

本申请通过引用将2017年12月22日提交的美国实用专利申请No.15/853,570全部用于所有目的。

技术领域

所公开的技术涉及人工智能型计算机和数字数据处理系统以及用于仿真智能的相应数据处理方法和产品(即，基于知识的系统、推理系统和知识获取系统)；并包括用于具有不确定性推理的系统(例如，模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。所公开的技术使用深度神经网络(诸如长短期记忆(LSTM)网络)来进行自然语言处理任务。

背景技术

本节中讨论的主题不应仅仅因为在本节中提及而被认为是现有技术。类似地，不应假定本节中提到的或与作为背景提供的主题相关的问题先前已在现有技术中被认识到。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实现。

自然语言处理(NLP)中最近的深度学习进展一直集中于一个目标-无论计算成本如何，都具备最先进的性能。我们提出了一种基于深度学习的解决方案，可以降低计算成本，同时保持深度神经网络提供的高精度。通过让快速基线模型决定哪个句子容易或困难，我们展示了一个便宜的分类器(例如词袋)，学习如何将简单句子与难句分开。我们的结果发现，阈值概率(在分类期间作为副产品产生)优于不具有准确性与时间节省度量的引导策略。

深度学习模型越来越大，越来越好，越来越昂贵，在全有或全无的追求中达到超人的表现。在自然语言处理(NLP)中，通常新增加的基础是他们的新颖的最先进的设计在一个相对狭窄的扩展，其很好地解决了复杂的语言任务。这包括合并语义知识，减少字典大小，甚至增加字典大小。直观地说，有意义的是，这样的增加只会将新系统发挥到具有增加所征服的特定挑战的那些数据点。然而，通常情况并非如此，因为深度学习算法主要是以不变量为基准的，该不变量对给定数据点及其困难是不注意的。此外，随着对更深意味着更好的理解的增加，当前最先进的系统可能过多并且浪费计算以确保在大多数场景下可能不相关的语言区域中的窄的准确度改进。例如，图3示出了便宜模型如何在训练用于情绪分析(例如，使用反向传播)时对句子进行群集。在图3中，标记了一些群集以显示某些数据点比其他数据点更容易，并且监督学习可以揭示某些语言属性的群集。

所公开的技术提出了两种不同的方法，用于理解句子何时易于分类以及何时难以分类。所公开的技术应用便宜的词袋(略读)或昂贵的LSTM(阅读)来基于方法的决定对句子进行分类。第一种方法使用词袋系统的概率输出作为置信度量。第二种方法构建决策神经网络，以了解何时词袋可能正确与何时LSTM可能正确之间的关系。

我们的方法都优于没有引导式基线策略，并且可以为工程团队节省大量计算资源。

附图说明

该专利或申请文件包含至少一幅彩色附图。具有彩色附图的本专利或专利申请公开的副本将在请求和支付必要费用后由主管局提供。也可以通过补充内容选项卡在PAIR获得彩色附图。

在附图中，相同的附图标记在不同视图中通常指代相同的部分。而且，附图不一定按比例绘制，而是通常将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图描述所公开的技术的各种实现，其中：

图1示出了系统的架构级示意图，其中基于概率的引导器自动选择用于执行机器分类任务的机器学习模型。在一个实现中，机器分类任务可以是句子的情绪分类。情绪分类任务可以包括将句子分类为具有积极或消极情绪。在其他实现中，情绪分类任务可以包括将句子分类为具有非常积极的、有些积极的、中立的、非常消极的或有些消极的情绪。在其他实现中，可以使用附加的、更少的或不同的类别标签。在进一步的实现中，可以执行其他机器分类任务，诸如语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音(TTS)合成。

图2A是示出使用图1的基于概率的引导器对输入句子进行分类的处理步骤的流程图。

图2B是示出情绪分类任务的处理步骤的流程图。

图3是使用来自示例数据库的输入句子上的词袋(缩写为BoW)模型的情绪分类结果的图形说明。

图4是BoW模型的示例架构。

图5是长短期记忆(缩写为LSTM)模型的示例架构。

图6A是使用BoW模型对来自示例数据库的输入句子的情绪预测结果的图形说明。

图6B示出了指派给图6A的BoW模型的输出层中的预测情绪类别的概率。

图7A是使用LSTM模型对来自示例数据库的输入句子的情绪预测结果的图形说明。

图7B示出了指派给图7A的LSTM模型的输出层中的预测情绪类别的概率。

图8A是示出各种概率间隔中图6A的BoW模型的预测精度的图表。

图8B是示出BoW模型的每阈值仓的数据量的图表。

图8C是类似于图8A的图表，其示出了图7A的LSTM模型的预测精度。

图8D是示出LSTM模型的每阈值仓的数据量的图表。

图9示出了系统的架构级示意图，其中决策网络用于选择用于执行机器分类任务的机器学习模型。在一个实现中，机器分类任务可以是句子的情绪分类。情绪分类任务可以包括将句子分类为具有积极或消极情绪。在其他实现中，情绪分类任务可以包括将句子分类为具有非常积极的、有些积极的、中立的、非常消极的或有些消极的情绪。在其他实现中，可以使用附加的、更少的或不同的类别标签。在进一步的实现中，其他机器分类任务可以用于训练，例如语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音(TTS)合成。

图10示出了图9的系统的分离器的操作，以创建训练数据库和验证数据库。

图11示出了使用由图10中所示的分离器生成的训练数据库对候选神经网络模型的训练。

图12示出了使用由图10中所示的由分离器生成的验证数据对训练的神经网络模型的测试。

图13示出了图9中系统的标签变换器的操作，其使用混淆矩阵通过使新模型类别标签替换任务类别标签来生成验证数据。

图14示出了对图9的决策网络的训练，其使用具有新的模型类别标签的验证数据。

图15示出了图9的决策网络的示例架构。

图16是示出使用图9的决策网络进行模型选择的过程步骤的流程图。

图17是可用于实现图1和图9的机器学习系统的计算机系统的简化框图。

具体实现

呈现以下讨论以使得本领域技术人员能够进行和使用所公开的技术，并且在特定应用及其要求的上下文中提供以下讨论。对于本领域技术人员来说，对所公开的实现的各种修改是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现，而是与符合本文公开的原理和特征的最宽范围相一致。

介绍

所公开的技术要解决的技术问题是如何在基于深度神经网络的自然语言处理任务中引入计算效率，同时保持现代深度神经网络提供的准确性。

为此，所公开的技术提出使用计算上便宜的、不太精确的词袋(BoW)模型和计算上昂贵的、更精确的长短期记忆(LSTM)模型的组合来执行自然处理任务，例如情绪分析。使用便宜的、不太精确的BoW模型在本文中称为“略读”。使用昂贵的、更精确的LSTM模型在本文中称为“阅读”。

所公开的技术提出了基于概率的引导器(PBG)。PBG结合了BoW模型和LSTM模型的使用。PBG使用概率阈值策略来基于BoW模型的结果确定是否调用LSTM模型以将句子可靠地分类为积极或消极。PBG使用BoW模型的概率输出作为置信度量，并且随后仅在BoW模型的概率输出低于设定阈值时才调用LSTM模型。

所公开的技术还提出了一种基于深度神经网络的决策网络(DDN)，其被训练以学习BoW模型和LSTM模型之间的关系(例如，使用反向传播)并且仅调用两个模型中的一个。换句话说，对于特定输入，DDN从预训练模型的集合中选择正确的模型，其中选择以最小化计算成本和最大化和/或保持分类准确性为条件。在一个实现中，DDN包括堆叠在BoW模型顶部的双层多层感知器(MLP)，具有循环的丢失(dropout)层、ReLU非线性和全连接层。

与PBG不同，DDN是可以训练的基于神经网络的模型(例如，使用反向传播)。PBG总是必须使用BoW模型，并且经常使用BoW和LSTM模型。相比之下，DDN可能决定跳过BoW模型并仅使用LSTM模型或仅停留在BoW模型，因为它知道LSTM模型不太可能产生更好的结果。

任何基于神经网络的模型都只能如同可用于训练它的数据一样好。拥有大型训练集可防止模型过度拟合。为此，所公开的技术使用BoW和LSTM模型来自动生成标记的训练示例，其中基于混淆矩阵来指派标签。然后，DDN在二级监督分类任务上进行训练，该任务选择用于对给定句子进行分类的正确模型。混淆矩阵标识两个模型正确地和错误地将句子分类为积极或消极的频率。然后在自动标记的句子上训练DDN。

然后，所公开的技术从原始的完整训练集创建了一个新的保持分离。完整训练集包括模型训练集(例如，80％的训练数据)和决策训练集(剩余20％的训练数据)。首先，在模型训练集上训练BoW和LSTM模型以生成DDN的标签(例如，使用反向传播)。然后在决策训练集上训练DDN(例如，使用反向传播)。最后，在整个训练集中对BoW和LSTM模型进行微调，同时保持DDN固定。这有助于DDN通用化为在完整训练集上进行微调的模型。

系统概述-基于概率的引导器

我们描述了输入句子的情绪分类系统。参考图1描述系统和过程，示出了根据实现的系统的架构级示意图。因为图1是架构图，所以有意省略某些细节以提高描述的清晰度。

图1的讨论组织如下。首先，描述该图的元件，然后是它们的互连。然后，更详细地描述系统中元件的使用。

图1包括系统100。系统100包括机器学习系统110、一个或更多个网络120、训练数据库142、验证数据库144和基于概率的引导器132。在其他实现中，系统100还包括具有测试数据的测试数据库，其用于在推理(生产或测试)期间测试机器学习系统110。

机器学习系统110包括词袋(缩写为BoW)模型112和递归神经网络(缩写为RNN)模型114。训练数据库142和验证数据库144包含情绪分析数据，诸如每个句子具有积极和消极情绪标签的自然语言句子。在一个实现中，训练数据库142和验证数据库144包含英语句子和每个句子的积极或消极情绪标签。BoW112和RNN114分别对每次来自训练数据库142或验证数据库144的一个句子执行情绪分类任务。BoW112和RNN 114二者都可以运行各种硬件处理器，诸如一个或更多个图形处理器单元(GPU)。基于神经网络的模型涉及计算密集型方法。GPU非常适合这些类型的计算。最近，正在开发专用硬件以有效地训练神经网络模型。

递归神经网络(RNN)(诸如RNN 114)处理可变长度序列输入。它使用循环隐藏状态，其激活依赖于前一个的激活。更正式地，给定输入序列x＝(x₁,x₂,...,x_T),，RNN更新隐藏的矢量序列h＝(h₁,h₂,...,h_T)并从t＝1至T中输出矢量序列y＝(y₁,y₂,...,y_T)如下：

h_t＝Η(W_xhx_t+W_hhh_t-1+b_h)

y_t＝W_hyh_t+b_y)

在上面的数学公式中，W表示权重矩阵，b表示偏置矢量，并且Η为循环隐藏层函数。

长短期记忆(LSTM)(诸如LSTM模型244)是RNN114的强大变体。LSTM是神经网络中的一个单元，在时间步长中重复执行以从顺序输入产生顺序输出。输出通常被称为隐藏状态，不应与单元的存储器混淆。输入是来自先前时间步长和当前输入的隐藏状态和存储器。该单元具有输入激活功能、存储器和门。输入激活功能将输入映射到范围，诸如-1到1，用于tanh激活功能。门确定应用于更新存储器并从存储器生成隐藏状态输出结果的权重。门是忘记门、输入门和输出门。忘记门会减弱存储器。输入门将激活的输入与衰减的存储器混合。输出门控制存储器的隐藏状态输出。隐藏状态输出可以直接标记输入，或者可以由另一个组件处理以发出单词或其他标签或在生成标签的概率分布。

输入门控制当前输入x_t和先前隐藏状态h_t-1的多少进入当前存储器单元状态m_t，并表示为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

＝σ(linear_xi(x_t)+linear_hi(h_t-1))

遗忘门对当前存储器单元状态m_t和先前存储器单元状态m_t-1进行操作，并决定是否擦除(设置为零)或保持存储器单元的各个组件，并表示为：

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

输出门缩放来自存储器单元的输出，表示为：

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

LSTM还可以包括当前隐藏状态生成器，其输出通过当前存储器单元状态m_t的tanh(压扁)变换缩放的当前隐藏状态h_t，并且表示为：

h_t＝o_t⊙tanh(m_t)

在上面的等式中，⊙表示逐元素的乘积。

词袋(BoW)模型，诸如BoW112，确定跨每个特征维度的句子的输入单词的均值。在一个实现中，BoW模型确定字嵌入的平均值或均值(例如，GloVe或word2vec)。采用均值可以是便宜的操作并且可以将句子的维度减少到固定大小的矢量。BoW模型或其变体的一些示例包括连续词袋(CBoW)模型和skip-gram模型，由Tomas Mikolov、Kai Chen、Greg Corrado和Jeffrey Dean提出，2013a，“对矢量空间中词表示的有效估计(Efficient Estimationof Word Representations in Vector Space)”，在ICLR研讨会论文；Tomas Mikolov、IlyaSutskever、Kai Chen、Greg Corrado和Jeffrey Dean，2013b，“单词和短语的分布式表示及其组合性(Distributed representations of words and phrases and theircompositionality)”，在NIPS中，第3111-3119页；以及Tomas Mikolov、Wen tau Yih和Geoffrey Zweig，2013c，“连续空间词表示中的语言规律(Linguistic regularities incontinuous space word representations)，在HLTNAACL中，出于所有目的通过引用并入，如同在本文中完全阐述一样。CBoW模型从句子上下文中预测单词。skip-gram模型从单词预测句子上下文。

在训练BoW112和RNN114期间，网络从训练数据库142接收输入句子并对其进行处理以执行情绪分类任务。在验证期间，BoW112和RNN114从验证数据库144接收输入句子并对其进行处理以执行情绪分类任务。机器学习系统110、训练数据库142、验证数据库144和基于概率的引导器132经由一个或更多个网络120彼此通信。

在其他实现中，基于概率的引导器132可以与其他机器分类任务一起使用，例如语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音(TTS)合成。

已经呈现了系统100的高级描述，现在讨论转向系统100的各种组件的详细描述。

过程流程

图2A是示出用于情绪分类任务的输入句子的处理的流程图200A。当给出句子作为BoW模型112的输入时，该过程开始于步骤210。在步骤212，BoW模型112评估输入句子并产生置信度分数，该置信度分数指定句子的情绪为积极或消极的可能性。在一个实现中，置信度分数的值是0和1之间的实数值，并且可以预设(例如，0.5)。在该实现中，置信度分数值小于0.5意味着输入句子属于第一情绪类别，置信度分数大于0.5意味着该句子属于第二情绪类别。置信度分数值接近0.5，即0.49或0.51意味着BoW模型112对输入句子的情绪不是很肯定是积极还是消极。距离0.5更远的置信度分数值，即1或0.9表明BoW模型对句子的情绪是积极还是消极非常有信心。

在步骤214，由基于概率的导向器132针对设定阈值(例如，0.5)检查由BoW模型112生成的置信度分数的值。在一个实现中，阈值是单个值。例如，对于0和1之间的置信度分数值(如上所示)，对于第一情绪类别可以将阈值设置为0.4，对于第二情绪类别可以设置为0.6。在这样的实现中，如果由BoW模型112生成的置信度分数低于0.4，则基于概率的引导器认为这是第一情绪类别中句子的确信分类。同样，置信度分数高于0.6表明BoW模型112对第二情绪类别中的输入句子进行分类有信心。应当理解，可以基于用户偏好和要求来选择阈值的不同值。

基于概率的引导器将BoW模型112产生的置信度分数与设定阈值进行比较。如果基于比较置信度分数高于阈值，则在步骤216接受通过BoW模式的句子的情绪分类。否则，如果基于比较置信度分数低于阈值，则在步骤218该判定作为到RNN模型114的输入。然后，RNN模型114将句子的情绪分类为积极或消极。在步骤220接受由RNN模型114产生的情绪分类。在步骤222，系统检查是否存在用于情绪分类的更多输入句子。如果这是真的，那么在212处将下一个句子作为BoW模式的输入给出并且重复该过程。当没有用于情绪分类的其他输入句子时，该过程在步骤224结束。

图2B是示出句子情绪分类任务的过程流程200B。情绪分类任务可以包括将句子分类为具有积极或消极情绪。在其他实现中，情绪分类任务可以包括将句子分类为具有非常积极的、有些积极的、中立的、非常消极的或有些消极的情绪。

句子230被给出作为基于神经网络的第一自然语言处理(NLP)模型(诸如BoW模型112)的输入。在步骤236，BoW模型112生成词袋情绪分类概率“α”(读作alpha)。基于概率的导向器132将“α”的值与设定阈值“τ”(读作tau)进行比较，以确定输入句子是否需要通过基于神经网络的第二NLP模型(诸如LSTM 244)进行补充评估，其比第一NLP模型更精确且计算更昂贵。如果“α”的值大于阈值“τ”的值(步骤238)，则接受BoW模型112对输入句子230的情绪分类(步骤400)。

如果分类概率“α”的值小于阈值“τ”的值(步骤242)，则输入句子230被发送到用于情绪分类任务的长短期记忆(LSTM)模型244。然后LSTM244生成在步骤246接受的句子的情绪分类。

图3示出了BoW模型的内部结构300，其将句子分类为积极或消极。探索深度学习模型的一种方法是绘制每个句子在隐藏层中的表示方式。然而，由于隐藏层通常是高维的，因此使用算法(诸如t分布随机邻域嵌入(T-SNE))来将维度降低到二维(2D)以允许人工检查。T-SNE是用于降维的机器学习算法，并且允许将高维数据可视化为二维或三维空间。

图3是来自BoW模型112顶部的双层多层感知器(MLP)的最后隐藏层的可视化。图3中的包围盒提供了一些重要的见解。现实世界的数据存在不同程度的困难；一些句子很容易分类，而其他句子包含复杂的语义结构。语言复杂的句子同时出现了消极和积极的成分。另外，语言复杂的句子可以具有多个否定词和对比连词的实例。计算上较便宜的模型(诸如BoW模型112)可以可靠地对语言上简单的句子进行分类。然而，较便宜的模型在语言复杂的句子上产生较低的置信度分类分数。相反，对于语言上简单的句子，计算上较便宜的模型(诸如BoW模型112)可以生成确信的分类分数，并且因此不需要诸如LSTM 244的计算上昂贵的模型。

模型架构

图4是BoW模型112的架构400。底部框中的单词嵌入用GloVe(用于单词表示的全局矢量)初始化。其他单词嵌入模型(诸如Word2Vec)也可用于生成单词嵌入。然后计算单词的平均值(词袋)和具有丢失的两层MLP。顶部的输出层是分类器，其针对输入句子生成积极或消极情绪分类。这仅是架构400的一种实现。在其他实现中，可以在此使用任何其他传统或未来开发的BoW架构。在不脱离所公开的技术的精神和范围的情况下，这些实现对于本领域技术人员来说是显而易见的。

图5是LSTM模型244的架构500。底部框中的单词嵌入用如上所述的GloVe初始化。不通过单词嵌入来跟踪梯度。双向RNN与LSTM小区一起使用，以与BoW模型类似的方式进行。RNN的隐藏状态用于提取平均值和最大值。接下来是具有丢失的两层MLP。最后，输出层将输入句子的情绪分类为积极或消极。这仅是架构500的一种实现。在其他实现中，可以在此使用任何其他传统或未来开发的RNN或LSTM架构。在不脱离所公开的技术的精神和范围的情况下，这些实现对于本领域技术人员来说是显而易见的。

验证结果

以下附图示出了BoW模型112和RNN模型114在验证数据库144上的性能。

图6A是BoW模型112中的最后隐藏层的T-SNE绘图600A。绘图600A中的每个数据点是句子。数据点是彩色的。数据点的中心表示BoW模型112的预测。蓝色意味着句子表示积极情绪，红色指示句子表示消极情绪。中心周围线条的颜色指示句子的实际情绪标签。这允许检查何时BoW模型112正确地预测了句子的情绪以及何时错误。

具有红色中心和红色边框的数据点表示真正的消极，意味着该模型正确预测了消极情绪句子。具有红色中心和蓝色边框的数据点是假消极，意味着该模型错误地将积极情绪句子预测为消极情绪句子。具有蓝色中心和蓝色边框的数据点指示真正积极，意味着模型正确预测了积极情绪。具有蓝色中心和红色边框的数据点表示假积极，意味着模型错误地将消极情绪句子预测为积极情绪句子。

对绘图600A的分析表明，句子根据其语言复杂性而分成群集。一些群集位于简单的流形上，其由BoW模型112以高置信度分数预测。其他群集更分散并且被BoW模型112指派低置信度分数。对句子结构的进一步分析指示具有积极和消极成分的句子难以由BoW模型112准确预测。

图6B示出了指派给BoW模型112的输出层中的预测分类的概率的绘图600B。深蓝色数据点指示模型在句子情绪预测中的高置信度，而浅色数据点指示模型在句子情绪预测中的置信度较低。

图7A和图7B是LSTM模型244的验证结果。图7A是绘图700A并且类似于绘图600A。我们观察到LSTM模型244的绘图700A具有相对较少的具有低置信度的数据点。LSTM模型244以较高的置信度对包含积极和消极情绪的句子进行分类。图7B中的绘图700B示出了LSTM模型244正确地对大多数句子(表示为数据点)进行分类。深蓝色点指示非常确信的分类。相对较少的句子颜色浅，指示模型的置信度较低。

概率策略

训练BoW模型112和LSTM模型244(例如，使用反向传播)以给出每个类别的概率(例如，积极情绪和消极情绪)，其指示模型预测的置信度。对于二进制分类，在一个实现中，概率必须大于0.5，否则，预测是针对另一个情绪类别。例如，如果BoW模型112返回1，则意味着它对其预测非常有信心。阈值转换(Thresholding)意味着由模型比较预测概率并评估是否使用它。例如，阈值为0.7意味着可以接受概率为0.7或更高的所有句子的情绪分类。分析模型结果的另一种方法是查看间隔，诸如正确预测在0.5到0.55的间隔内的句子。这显示了模型的预测在该置信区间内的准确度。

图8A是示出在0.5和1之间的各种概率间隔中的BoW模型112的预测准确度的绘图800A。绘图800A示出增加概率阈值增加了模型的性能。图8C是LSTM模型244的类似绘图800C。从LSTM绘图800C可以看出，增加概率阈值不会增加模型的性能。这是因为LSTM模型244可以过度拟合训练数据并且仅提供确信的答案。

使用概率阈值，所公开的技术创建“概率策略”。输出概率给出了句子何时容易以及何时需要来自计算上昂贵的模型(如LSTM模型244)的引导的指示。阈值被应用于BoW模型112的概率。LSTM模型244应用于情绪分类概率小于设定阈值的所有句子。因此，BoW模型112用于语言上容易的句子，并且LSTM模型244用于语言复杂的句子。

图8B和图8D分别是数据量绘图800B和800D。这两个绘图上的条形高度显示了两个阈值内的数据量，而顶部的线条是来自每个阈值区间的累积数据。

系统概述-基于深度神经网络的决策网络

我们描述了一种用于基于深度神经网络的决策网络的系统，用于在逐个输入的基础上选择基于神经网络的模型(也称为基于神经网络的分类器)以执行机器分类任务。基于神经网络的模型选自基于候选神经网络的模型(也称为基于神经网络的分类器)池。参考图9描述系统和过程，示出了根据实现的系统的架构级示意图。因为图9是架构图，所以有意省略某些细节以提高描述的清晰度。

图9的讨论的结构如下。首先，描述该图的元件，然后是它们的互连。然后，更详细地描述系统中元件的使用。

图9包括系统900。系统900包括机器学习系统905、网络120、训练数据库142、验证数据库144、分离器910、标签变换器920和模型选择器930。机器学习系统905包括决策网络902、词袋(缩写为BoW)模型112和递归神经网络(缩写为RNN)模型114。训练数据库142和验证数据库144包含情绪分析数据，诸如每个句子具有积极和消极情绪标签的自然语言句子。在其他实现中，系统100还包括具有测试数据的测试数据库，用于在推理(生产或测试)期间测试机器学习系统905。

决策网络902是基于神经网络的分类器，其输出概率以选择BoW模型112或RNN模型114以对输入句子执行情绪分类任务。机器学习系统905、训练数据库142、验证数据库144和分离器910、标签变换器920和模型选择器930经由一个或更多个网络120彼此通信。在呈现系统900的高级描述之后，现在讨论转向系统900的各种组件的详细描述。

数据准备

图10示出了分离器910的操作1000以创建训练数据库1030和验证数据库1040。训练数据库1030和验证数据库1040可以是单个训练数据库142的一部分。在一个实现中，分离器910通过将来自训练数据库142的80％的数据指派给训练数据库1030和将来自训练数据库142的20％的训练数据指派给验证数据库1040创建训练数据库1030和验证数据库1040。在其他实现中，分离器910可以以与上述不同的比例向训练数据库1030和验证数据库1040分配数据。

模型训练与推理-情绪分析任务

图11示出了在神经网络模型的候选池中基于神经网络的模型的训练1100，以使用训练集来执行分类任务。在一个实现中，分类任务可以是句子的情绪分类。情绪分类任务可以包括将句子分类为具有积极或消极情绪。在其他实现中，情绪分类任务可以包括将句子分类为具有非常积极的、有些积极的、中立的、非常消极的或有些消极的情绪。在其他实现中，可以使用附加的、更少的或不同的类别标签。在进一步的实现中，其他分类任务可以用于训练，例如语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音(TTS)合成。

训练数据库1030包含具有情绪标签的句子，其用于分别训练LSTM模型244和BoW模型112。在一个实现中，使用训练数据库1030分别训练LSTM模型244和BoW模型112，所述训练数据库1030包含来自训练数据库142的80％的训练数据(例如，使用反向传播)。在机器分类任务上训练模型(例如，使用反向传播)。在一个实现中，机器分类任务是情绪分类，输入是句子。训练数据1030中的每个输入句子可以具有指示该句子是否具有积极情绪或消极情绪的任务标签。在一个实现中，所得到的训练模型在本文中被称为LSTM^80％1110和BoW^80％1120，因为它们在80％的训练数据上被训练。

训练模型LSTM^80％1110和BoW^80％1120分别用验证数据1040进行测试。验证数据1040包含来自训练数据库142的一部分数据，其不用于训练和产生LSTM^80％1110和BoW^80％1120。在一个实现中，验证数据包含来自训练数据库142的20％的数据。如图12所示，训练模型LSTM^80％1110和BoW^80％1120为每个输入句子生成情绪类别标签1200。将每个输入句子的推断的情绪类别标签(积极或消极)1200与相应的地面真实情绪类别标签进行比较。

混淆矩阵

推断的情绪类别标签与地面真实情绪类别标签的比较结果用于生成1300“混淆矩阵”1310，如图13所示。混淆矩阵是用于准确评估分类模型的度量。对于C类的分类问题，混淆矩阵M是C×C矩阵，其中该矩阵中的元素M_ij显示其实际类别标签为i的样本的百分比，但是它们使用神经网络分类器在类别j下分类。M_ij显示正确分类的样品百分比。对于存在两类的二进制分类问题，混淆矩阵是2×2矩阵1310，如图13所示。

混淆矩阵1310的元素M₁₁1312示出了其实际标签为“真”并且在预测期间它们被正确分类为“真”的样本的百分比。元素M₁₁1312包含76％真积极(TP)样本。混淆矩阵1310的元素M₁₂1314示出了其实际标签为“真”但在预测期间它们被错误地分类为“假”的样本的百分比。元素M₁₂1314包含12％假消极(FN)样本。混淆矩阵1310的元素M₂₁1316示出了其实际标签为“假”但在预测期间它们被错误地分类为“真”的样本的百分比。元素M₂₁1316包含6％假积极(FP)样本。混淆矩阵1310的元素M₂₂1318示出了实际标签为“假”并且在预测期间它们被正确地分类为“假”的样本的百分比。元素M₂₂1318包含6％真消极(TN)样本。

根据一种实现，由训练模型LSTM^80％1110和BoW^80％1120在验证数据1040(图12)中生成的分类结果可以绘制在两个单独的混淆矩阵中。来自两个分类器LSTM^80％1110和BoW^80％1120的两个混淆矩阵的结果也可以组合在单个混淆矩阵1310中。由此产生的混淆矩阵1310标识：

·验证数据库1040中的输入由经训练的基于递归神经网络的分类器LSTM^80％1110和经训练的基于非递归神经网络的分类器BoW^80％1120(真积极，左上)准确地分类。这意味着LSTM和BoW模型在76％的时间都是正确的。

·验证数据库1040中的输入由经训练的基于递归神经网络的分类器LSTM^80％1110和经训练的基于非递归神经网络的分类器BoW^80％1120(真消极，底部)不准确地分类。这意味着LSTM和BoW模型在6％的时间均不正确。

·验证数据库1040中的输入由经训练的基于非递归神经网络的分类器BoW^80％1120准确分类，但是由经训练的基于递归神经网络的分类器LSTM^80％1110(假积极，左下)不准确地分类。这意味着，当LSTM模型不正确时，BoW模型在6％的时间是正确的。

·验证数据库1040中的输入由经训练的基于递归神经网络的分类器LSTM^80％1110准确地分类，但由经训练的基于非递归神经网络的分类器BoW^80％1120(假消极，右上)不准确地分类。这意味着，当BoW模型不正确时，LSTM模型在12％的时间是正确的。

标签变换器920将新标签指派给验证数据库1040中的输入并生成新的验证数据库1340。在一个实现中，标签变换器920将验证数据库1040中的输入分组到新验证数据库1340中的两个子集中。第一输入子集被指派以第一模型类别标签，其标识经训练的基于递归神经网络的分类器LSTM^80％1110。第二输入子集被指派以第二模型类别标签，其标识经训练的基于非递归神经网络的分类器BoW^80％1120。

验证数据1340中的第一输入子集包括由经训练的基于递归神经网络的分类器LSTM^80％1110准确分类，但是由经训练的基于非递归神经网络的分类器BoW^80％1120不准确分类的验证数据库1040中的输入。验证数据1340中的第二输入子集包括来自混淆矩阵1310的剩余三个类别中的验证数据库1040中的输入。这些输入包括：由经训练的基于递归神经网络的分类器LSTM^80％1110和经训练的基于非递归神经网络的分类器BoW^80％1120二者准确分类的验证数据库1040中的输入，由经训练的基于递归神经网络的分类器LSTM^80％1110和经训练的基于非递归神经网络的分类器BoW^80％1120二者不准确分类的验证数据库1040中的输入，以及由经过训练的基于非递归神经网络的分类器BoW^80％1120准确地分类，但是由训练的基于递归神经网络的分类器LSTM^80％1110不准确地分类的验证数据库1040中的输入。标记为输入数据的新模型类存储在验证数据库1340中。验证数据库1340中的数据也称为决策集。在另一实现中，标签变换器920将模型类别标签增加到现有验证数据库1040中的输入。这导致输入每个输入具有两个标签-任务类别标签(其标识积极或消极情绪)和模型类别标签(其标识基于经训练的时间递归神经网络的分类器LSTM^80％1110或基于经训练的非递归神经网络的分类器BoW^80％1120)。

在一些实现中，不复制原始验证数据以形成新的验证数据，而是验证数据中的每个数据项被指派并存储有两个真值(ground truth)指针；一个用于情绪类别标签，一个用于模型类别标签。在其他实现中，验证数据的两个副本用单独的和不同的真值标签维护(一个用于情绪类别标签，一个用于模型类别标签)。

决策网络

图14示出了使用具有验证数据库1340中的模型类别标签的输入的决策网络(在此也称为决策分类器)902的训练1400。决策网络902的输出是验证数据库1340中的每个输入句子的推断模型类别标签。将决策网络902的每个句子的推断模型类别标签与验证数据1340中该句子的真值模型类别标签进行比较。

图15示出了决策网络902的架构1500的一种实现。在其他实现中，可以在本文使用任何其他传统或未来开发的BoW、RNN或LSTM架构。在不脱离所公开的技术的精神和范围的情况下，这些实现对于本领域技术人员来说是显而易见的。

在一个实现中，决策网络902包括经训练的基于非递归神经网络的分类器BoW^80％1120，其中原始分类层从架构中移除，如决策网络902中所示。原始BoW模型112的架构的一种实现如图4所示。决策网络902中的新分类层使用模型类别标签在输入句子中进行分类，并产生第一和第二模型类别标签的输出概率。在上述实现中，这些概率对应于LSTM^80％1110和BoW^80％1120。另外，具有ReLU的两个全连接层包括在决策网络902中。

在一些实现中，在训练决策网络902期间，仅针对全连接层和新的分类层的梯度被反向传播。经训练的基于非递归神经网络的分类器BoW^80％1120的权重保持固定并维持不变。

过程流程

图16是示出使用图9的决策网络进行模型选择的过程步骤的流程图1600。当句子被作为输入提供给决策网络902时，该过程在步骤1610开始。然后，决策网络902在步骤1612生成模型分类。在步骤1614，基于决策网络902在步骤1612的分类选择LSTM模型或BoW模型。

如果在步骤1614选择LSTM模型，则将句子提供给用于情绪分类的LSTM^100％模型。LSTM^100％在整个训练数据142上训练，其又包括训练数据1030和验证数据1040。在步骤1616，LSTM^100％产生句子的情绪分类。在步骤1618，接受LSTM^100％的情绪分类。

如果在步骤1614选择了BoW模型，则将该句子提供给用于情绪分类的BoW^100％模型。BoW^100％在整个训练数据142上训练，其又包括训练数据1030和验证数据1040。在步骤1622，BoW^100％产生句子的情绪分类。在步骤1624，接受BoW^100％的情绪分类。

在步骤1620，系统检查是否存在用于情绪分类的更多输入句子。如果这是真的，则将下一个句子作为输入提供给决策网络902并重复该过程。当没有用于情绪分类的其他输入句子时，该过程在步骤1626结束。

计算机系统

图17是可用于实现图1和图9的机器学习系统110和905的计算机系统1700的简化框图。计算机系统1700包括至少一个中央处理单元(CPU)1724，其通过总线子系统1722与多个外围设备通信。这些外围设备可以包括存储子系统1710，包括例如存储器设备和文件存储子系统1718、用户界面输入设备1720、用户界面输出设备1728和网络接口子系统1726。输入和输出设备允许用户与计算机系统1700交互。网络接口子系统1726提供到外部网络的接口，包括对应其他计算机系统中的接口设备的接口。

在一个实现中，图1的机器学习系统110和图9的机器学习系统905可通信地链接到存储子系统1710和用户界面输入设备1720。

用户界面输入设备1720可包括键盘；指点设备，诸如鼠标、轨迹球、触摸板或图形输入板；扫描仪；包含在显示器中的触摸屏；音频输入设备，诸如语音识别系统和麦克风；和其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机系统1700的方式。

用户界面输出设备1728可以包括显示子系统、打印机、传真机或非可视显示器(诸如音频输出设备)。显示子系统可包括阴极射线管(CRT)，平板装置(诸如液晶显示器(LCD))，投影装置或用于产生可视图像的一些其他机构。显示子系统还可以提供非可视显示，诸如音频输出设备。通常，术语“输出设备”的使用旨在包括所有可能类型的设备和将信息从计算机系统1700输出到用户或另一个机器或计算机系统的方式。

存储子系统1710存储编程和数据构造，其提供本文描述的一些或所有模块和方法的功能。这些软件模块通常由深度学习处理器1730执行。

深度学习处理器1730可以是图形处理单元(GPU)或现场可编程门阵列(FPGA)。深度学习处理器1730可以由深度学习云平台(诸如Google Cloud Platform^TM、Xilinx^TM和Cirrascale^TM)托管。深度学习处理器1730的示例包括Google的张量处理单元(TPU^TM、机架式解决方案，如GX4Rackmount Series^TM、GX8 Rackmount Series^TM、NVIDIA DGX-1^TM、Microsoft'Stratix V FPGA^TM、Graphcore的Intelligent Processor Unit(IPU)^TM、具有Snapdragon processors ^TM的Qualcomm的Zeroth Platform^TM、NVIDIA的Volta^TM、NVIDIA的DRIVE PX^TM、NVIDIA的JETSON TX1/TX2MODULE^TM、Intel的Nirvana^TM、Movidius VPU^TM、Fujitsu DPI^TM、ARM的DynamicIQ^TM，IBM TrueNorth^TM等。

存储子系统1710中使用的存储器子系统1712可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1714和其中存储固定指令的只读存储器(ROM)1716。文件存储子系统1718可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移除介质盒。实现某些实现的功能的模块可以由文件存储子系统1718存储在存储子系统1710中，或者存储在处理器可访问的其他机器中。

总线子系统1722提供用于使计算机系统1700的各种组件和子系统按预期彼此通信的机制。虽然总线子系统1722被示意性地示为单个总线，但总线子系统的替代实现可以使用多个总线。

计算机系统1700本身可以是各种类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、广泛分布的松散网络计算机组或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质，图17中描述的计算机系统1700的描述仅用作说明本发明的优选实施例目的的具体示例。计算机系统1700的许多其他配置可能具有比图17中描绘的计算机系统更多或更少的组件。

提供前面的描述以使得能够进行和使用所公开的技术。对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现，而是与符合本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。

特定实现

·基于概率的引导器

所公开的技术涉及在包括多个输入的数据集上的机器分类任务的有效性能。在一个实现中，机器分类任务可以是句子的情绪分类。情绪分类任务可以包括将句子分类为具有积极或消极情绪。在其他实现中，情绪分类任务可以包括将句子分类为具有非常积极的、有些积极的、中立的、非常消极的或有些消极的情绪。在其他实现中，可以使用附加的、更少的或不同的类别标签。在进一步的实现中，可以执行其他机器分类任务，诸如语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音(TTS)合成。

所公开的技术可以作为系统、方法或制品来实施。实现的一个或更多个特征可以与基础实现组合。不相互排斥的实现被教导是可组合的。实现的一个或更多个特征可以与其他实现组合。本公开定期提醒用户这些选项。重复这些选项的一些实现的省略不应被视为限制前面部分中教导的组合-这些叙述通过引用结合到以下每个实现中。

所公开的技术的第一系统实现包括耦合到存储器的一个或更多个处理器。存储器装载有计算机指令，以有效地对包括多个输入的数据集执行机器分类任务。系统通过第一非递归神经网络处理输入，其对输入执行机器分类任务。第一非递归神经网络通过平均输入的矢量嵌入来生成输入的平均矢量表示。然后，系统通过第二递归神经网络(缩写为RNN)处理所选输入子集，以对子集中的输入执行机器分类任务。进一步处理的选择取决于第一非递归神经网络对数据集中输入执行机器分类任务的信心。

所公开的第一系统实现和其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。

包含在系统中的第二RNN比第一非递归神经网络至少准确3％并且计算成本高4倍。当第一非递归神经网络的置信度低于设定阈值时，系统选择第二RNN。机器分类任务是将输入分类为第一类或第二类。第一非递归神经网络的置信度表示指派给第一类或第二类的概率分数。输入是一个句子，机器分类任务是将句子分类为积极情绪类别或消极情绪类别。

包括在系统中的第一非递归神经网络产生语言复杂句子的概率分数，该概率分数比用于语言简单句子的第一非递归神经网络产生的分类概率低至少百分之二十。

该系统包括第二RNN，其用于将语言复杂句子分类为积极情绪类别或消极情绪类别。在一个实现中，系统中包括的第一非递归神经网络是词袋(缩写为BoW)网络。在另一个实现中，第一非递归神经网络是至少一个连续的词袋(缩写为CBoW)网络。在另一实现中，第一非递归神经网络是至少一个skip-gram网络。在又一实现中，第一非递归神经网络是至少一个卷积神经网络(缩写为CNN)。在另一实现中，第二RNN是长短期存储器(缩写为LSTM)网络。在另一实现中，第二RNN是门控递归单元(缩写为GRU)网络。在又一实现中，第二RNN是准递归神经网络(缩写为QRNN)。

在一个实现中，该系统包括作为单个值的阈值。在另一实现中，该系统包括阈值，其为两个值之间的范围。

在一个实现中，机器分类任务是词性(缩写的POS)标签。在另一实现中，机器分类任务是分块。在另一实现中，机器分类任务是依赖性解析。在另一实现中，机器分类任务是语义相关性。在又一实现中，机器分类任务是文本蕴含。

可以由所公开的技术执行的一些机器分类任务的示例包括语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音(TTS)合成。

所公开的技术的第二系统实现包括耦合到存储器的一个或更多个处理器。存储器加载有计算机指令以有效地对句子执行情绪分类任务。该系统包括第一非递归神经网络，其评估该句子并产生置信度分数。该分数指定句子的情绪为积极或消极的可能性。第一非递归神经网络通过平均输入的矢量嵌入来生成输入的平均矢量表示。该系统还包括引导器，该引导器将由第一非递归神经网络产生的置信度分数与设定阈值进行比较。基于该比较，引导器确定该句子是否需要通过第二递归神经网络(缩写为RNN)进行补充评估。补充评估包括当置信度分数低于阈值时，使用第二RNN将句子的情绪分类为积极或消极。当置信度分数高于阈值时，依赖于由第一非递归神经网络产生的用于情绪分类任务的置信度分数，而不需要第二RNN的补充评估。

所公开的第二系统实现和其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于基本特征的每个法定类别集，不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。

当与句子是语言简单的句子相比，句子是语言复杂句子时，系统中的第一非递归神经网络产生20％降低的置信度分数。在这样的实现中，语言复杂的句子具有消极和积极成分的共同出现。在另一个这样的实现中，语言复杂句子具有多个否定词和对比连词的实例。在另一个这样的实现中，该系统包括使用第二RNN将语言复杂句子的情绪分类为积极或消极。

在该特定实现部分中针对第一系统实现所讨论的每个特征同样适用于第二系统实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

其他实现可以包括存储可由处理器执行以执行上述系统的功能的指令的非暂时性计算机可读存储介质。又一实现可以包括执行上述系统的功能的方法。

所公开的技术的第三系统实现包括并行操作并耦合到存储器的多于一个处理器。存储器加载有计算机指令，以有效地对包括多个输入的数据集执行机器分类任务。在处理器上执行时的指令实现包括通过第一非递归神经网络处理输入的动作，该第一非递归神经网络对输入执行机器分类任务。第一非递归神经网络的处理通过平均输入的矢量嵌入来生成输入的均值矢量表示。

在此之后，系统通过第二递归神经网络(缩写为RNN)处理所选择的输入子集，以对子集中的输入执行机器分类任务。用于进一步处理的输入的选择取决于第一非递归神经网络对数据集中的输入执行机器分类任务的置信度。

在该特定实现部分中针对第一和第二系统实现所讨论的每个特征同样适用于第三系统实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

所公开的技术的第一方法实现包括在包括多个输入的数据集上有效地执行机器分类任务。该方法包括通过第一非递归神经网络处理输入，该第一非递归神经网络对输入执行机器分类任务。第一非递归神经网络通过平均输入的矢量嵌入来生成输入的平均矢量表示。该方法然后通过第二递归神经网络(缩写为RNN)处理所选择的输入子集，以对子集中的输入执行机器分类任务。进一步处理的选择取决于第一非递归神经网络对数据集中输入执行机器分类任务的置信度。

在该特定实现部分中针对第一系统实现所讨论的每个特征同样适用于该方法实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

其他实现可以包括存储可由处理器执行以执行上述第一方法的指令的非暂时性计算机可读存储介质。又一实现可以包括系统，所述系统包括存储器和一个或更多个处理器的系统，所述处理器可操作以执行存储在存储器中的指令，以执行上述第一方法。

所公开的技术的计算机可读介质(CRM)实现包括印有计算机程序指令的非暂时性计算机可读存储介质，当在处理器上执行时，实现上述方法。

在该特定实现部分中针对第一系统实现所讨论的每个特征同样适用于CRM实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

所公开的技术的第二方法实现包括有效地对句子执行情绪分类任务。该方法包括使用第一非递归神经网络评估句子并产生置信度分数，该置信度分数指定句子的情绪为积极或消极的可能性。该方法包括通过平均第一非递归神经网络的输入的矢量嵌入来生成输入的均值矢量表示。在此之后，该方法包括使用引导器将由第一非递归神经网络产生的置信度分数与设定阈值进行比较。基于该比较，该方法包括确定该句子是否需要通过第二递归神经网络(缩写为RNN)进行补充评估。该方法还包括，基于该评估，当置信度分数低于阈值时，使用第二RNN将句子的情绪分类为积极或消极。该方法包括依赖由第一非递归神经网络产生的用于情绪分类任务的置信度分数，而不需要在置信度分数高于阈值时由第二RNN进行补充评估。

在该特定实现部分中讨论的用于第二系统实现的每个特征同样适用于该方法实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

其他实现可以包括存储可由处理器执行以执行上述第二方法的指令的非暂时性计算机可读存储介质。又一实现可以包括一种系统，该系统包括存储器和一个或更多个处理器，其可操作以执行存储在存储器中的指令，以执行上述第二方法。

在该特定实现部分中讨论的用于第二系统实现的每个特征同样适用于CRM实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

所公开的技术的第三方法实现包括在包括多个输入的数据集上有效地执行机器分类任务。该方法还包括通过第一非递归神经网络处理输入，该第一非递归神经网络对输入执行机器分类任务，其中第一非递归神经网络通过平均输入的矢量嵌入来生成输入的均值矢量表示。在此之后，该方法包括通过第二递归神经网络(缩写为RNN)进一步处理所选择的输入子集，以对子集中的输入执行机器分类任务。进一步处理的选择取决于第一非递归神经网络对数据集中的输入执行机器分类任务的置信度。

在该特定实现部分中针对第三系统实现所讨论的每个特征同样适用于该方法实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

其他实现可以包括存储可由处理器执行以执行上述第三方法的指令的非暂时性计算机可读存储介质。又一实现可以包括一种系统，该系统包括存储器和一个或更多个处理器，其可操作以执行存储在存储器中的指令，以执行上述第三方法。

在该特定实现部分中讨论的用于第三系统实现的每个特征同样适用于CRM实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

基于深度神经网络的决策网络

所公开的技术涉及在包括多个输入的数据集上的机器分类任务的有效性能。

所公开的技术的第一系统实现包括耦合到存储器的一个或更多个处理器。存储器装载有计算机指令以在逐个输入的基础上选择来自基于候选神经网络的分类器池的基于神经网络的分类器，以最大化准确性和最小化计算成本的方式执行机器分类任务。系统执行池中基于候选神经网络的分类器的训练，以使用训练集执行机器分类任务。训练集包括用为机器分类任务定义的任务类别标签注释的训练输入。然后，系统使用经训练的基于候选神经网络的分类器在验证集上执行机器分类任务。验证集由使用任务类别标签注释的验证输入组成。然后，系统基于经训练的基于神经网络的分类器的性能生成混淆矩阵。然后，系统使用混淆矩阵来标识仅由池中的特定训练的基于递归神经网络的分类器准确推断的验证输入的第一子集，以及包括不在第一子集中的验证输入的验证输入的第二子集。然后，系统用第一模型类别标签标记第一子集中的验证输入，该第一模型类别标签标识特定训练的基于递归神经网络的分类器。系统使用第二模型类别标签标记第二子集中的验证输入，该第二模型类别标签标识池中的特定训练的基于非递归神经网络的分类器。系统将模型类别标记的验证输入存储在第一和第二子集中作为决策集。

系统基于使用特定训练的基于递归神经网络的分类器或特定训练的基于非递归神经网络的训练的分类器的经训练的基于递归神经网络的决策分类器的输出概率，在推理期间针对给定输入执行机器分类任务。当第一模型类别标签的输出概率高于第二模型类别标签的输出概率时，系统选择特定训练的基于递归神经网络的分类器。当第二模型类别标签的输出概率高于第一模型类别标签的输出概率时，系统选择特定训练的基于非递归神经网络的分类器。

在该系统的一个实现中，特定训练的基于递归神经网络的分类器比特定训练的基于非递归神经网络的分类器准确性至少高3％并且计算成本高4倍。在一个这样的实现中，特定训练的基于递归神经网络的分类器是至少一个递归神经网络(缩写为RNN)。在另一实现中，特定训练的基于非递归神经网络的分类器是至少一个词袋(缩写为BoW)网络。在另一个这样的实现中，特定训练的基于非递归神经网络的分类器是至少一个连续的词袋(缩写为CBoW)网络。在另一实现中，特定训练的基于非循环神经网络的分类器是至少一个skip-gram网络。在一个实现中，特定训练的基于非递归神经网络的分类器是至少一个卷积神经网络(缩写为CNN)。在一个实现中，RNN是长短期存储器(缩写为LSTM)网络。在另一实现中，RNN是门控递归单元(缩写为GRU)网络。在又一实现中，RNN是准递归神经网络(缩写为QRNN)。

在系统的一个实现中，训练集和验证集是单个数据集的一部分，其经受保持分裂以创建训练集和验证集。池中的每个候选基于神经网络的分类器在训练集上被单独训练。机器分类任务是情绪分类，输入是句子。任务类别标签是积极情绪和消极情绪。

混淆矩阵标识以下中的至少一个(1)由特定训练的基于递归神经网络的分类器和特定训练的基于非递归神经网络的分类器二者准确分类的验证输入，(2)由特定训练的基于递归神经网络的分类器和特定训练的基于非递归神经网络的分类器二者不准确分类的验证输入，(3)由特定训练的基于非递归神经网络分类器准确分类，但由特定训练的基于递归神经网络的分类器不准确分类的验证输入，以及(4)由特定训练的基于递归神经网络的分类器准确分类，但是由特定训练的基于非递归神经网络分类器不准确分类的验证输入。

在系统的这种实现中，第一子集包括由特定训练的基于递归神经网络的分类器准确分类但由特定训练的基于非递归神经网络分类器不准确分类的验证输入。第二子集包括以下中的至少一个：由特定训练的基于递归神经网络的分类器和特定训练的基于非递归神经网络的分类器二者准确分类的验证输入；由特定训练的基于递归神经网络的分类器和特定训练的基于非递归神经网络的分类器二者不准确分类的验证输入；以及由特定训练的基于非递归神经网络的分类器准确分类，但由特定训练的基于递归神经网络的分类器不准确分类的验证输入。

由经训练的基于神经网络的决策分类器在推理期间在训练集和验证集(即，经过训练的LSTM^100％和BoW^100％)的组合上训练选择的特定训练的基于递归神经网络的分类器和特定训练的基于非递归神经网络的分类器。基于神经网络的决策分类器包括在训练集上训练的特定训练的基于非递归神经网络的分类器，其中消融(ablated)了原始分类层。它包括一个或更多个新的全连接层，以及一个新的分类层，其为第一和第二模型类别标签生成输出概率。在基于神经网络的决策分类器的训练期间，仅反向传播全连接层和新分类层的梯度，并且保持特定训练的基于非递归神经网络的分类器的权重是固定的。在一个实现中，特定训练的基于非递归神经网络的分类器是至少一个词袋(缩写为BoW)网络。

所公开的技术的第二系统实现包括基于神经网络的决策系统，其具有并行操作的处理器。基于神经网络的决策系统使用经训练的递归长短期记忆(缩写为LSTM)网络或经训练的词袋(缩写为BoW)网络有效地对句子执行情绪分类任务，其通过平均句子的令牌矢量嵌入来生成句子的平均矢量表示。该系统基于经训练的LSTM和BoW网络对用积极和消极情绪标签注释的验证句子的评估来生成混淆矩阵。系统使用混淆矩阵来标识仅由经训练的LSTM网络准确分类的验证句子的子集。然后，系统用标识经训练的LSTM网络的第一模型标签注释验证句子的子集，并用标识经训练的BoW网络的第二模型标签注释验证句子的剩余部分。系统将模型注释的验证句子存储在决策集中。该系统使用经训练的BoW网络构建决策系统，并使用决策集训练决策系统以产生输出，该输出指定是否使用经训练的LSTM网络或经训练的BoW网络来对句子的情绪进行分类。

所公开的第二系统实现和其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。

在推理期间，系统使用经训练的决策系统的输出来选择经训练的LSTM网络或经训练的BoW网络来对句子的情绪进行分类。当句子是语言复杂的句子时，决策系统选择经训练的LSTM网络。当句子是语言简单的句子时，决策系统选择经训练的BoW网络。

所公开的技术的第三系统实现包括具有并行操作的处理器的系统。该系统包括基于第三神经网络的分类器，其在逐个输入的基础上，在被训练以执行分类任务的第一和第二基于神经网络的分类器之间进行选择。该选择由基于第三神经网络的分类器对训练集的训练来控制，该训练集用类别标签注释，该训练集区分仅由训练的基于第二神经网络的分类器和训练集中的剩余输入准确分类的输入。

所公开的第三系统实现和其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。

剩余的输入包括由经训练的基于第二神经网络的分类器不准确分类的输入和由经训练的基于第一和第二神经网络的分类器准确分类的输入。

所公开的技术的第一方法实现包括在逐个输入的基础上从基于候选神经网络的分类器池中选择基于神经网络的分类器，以最大化准确度并最大限度地降低计算成本的方式执行机器分类任务。该方法包括：训练池中的基于候选神经网络的分类器以使用训练集执行机器分类任务，该训练集包括用为机器分类任务定义的任务类别标签注释的训练输入。在此之后，该方法包括使用经训练的基于候选神经网络的分类器在验证集上执行机器分类任务，验证集包括用任务类别标签注释的验证输入。该方法包括基于经训练的基于神经网络的分类器的性能生成混淆矩阵。混淆矩阵用于标识仅由池中的特定训练的基于递归神经网络的分类器准确推断的验证输入的第一子集，以及包括不在第一子集中的验证输入的验证输入的第二子集。在此之后，该方法包括用第一模型类别标签标记第一子集中的验证输入，该第一模型类别标签标识特定训练的基于递归神经网络的分类器。该方法还包括用第二模型类别标签标记第二子集中的验证输入，该第二模型类别标签标识池中的特定训练的基于非递归神经网络分类器。在此之后，该方法包括将模型类别标记的验证输入存储在第一和第二子集中作为决策集。最后，该方法包括使用决策集训练基于神经网络的决策分类器，以在逐个输入的基础上输出第一和第二模型类别标签的概率。输出概率指定选择特定训练的基于递归神经网络的分类器和特定训练的基于非递归神经网络的分类器的相应可能性。

其他实现可以包括存储可由处理器执行以执行上述第一方法的指令的非暂时性计算机可读存储介质。又一实现可以包括系统，所述系统包括存储器和一个或更多个处理器，所述处理器可操作以执行存储在存储器中的指令，以执行上述第一方法。

所公开的技术的第二方法实现包括使用经训练的递归长短期记忆(缩写为LSTM)网络或经训练的词袋(缩写为BoW)网络有效地对句子执行情绪分类任务，其通过平均句子的符号矢量嵌入来生成句子的平均矢量表示。该方法包括基于经训练的LSTM和BoW网络对用积极情绪标签和消极情绪标签注释的验证句子的评估来生成混淆矩阵。在此之后，该方法包括使用混淆矩阵来标识仅由经训练的LSTM网络准确分类的验证句子的子集，并用标识经训练的LSTM网络的第一模型标签注释验证句子的子集，并用标识经训练的BoW网络的第二模型类别标签注释验证句子的剩余部分。然后，该方法包括将模型注释的验证句子存储在决策集中。最后，该方法包括：使用经训练的BoW网络构建决策系统，并使用决策集训练决策系统以产生输出，该输出指定是否使用经训练的LSTM网络或经训练的BoW网络来对句子的情绪进行分类。

在该特定实现部分中针对第二系统实现所讨论的每个特征同样适用于该方法实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

所公开的技术的第三方法实现包括在逐个输入的基础上，在被训练以执行分类任务的第一和第二基于神经网络的分类器之间使用基于第三神经网络的分类器进行选择。该选择由基于第三神经网络的分类器对训练集的训练控制，该训练集用类别标签注释，该类别标签区分仅由经训练的第二基于神经网络的分类器准确分类的输入和训练集中的剩余输入。

在该特定实现部分中讨论的用于第三系统实现的每个特征同样适用于该方法实现。如上所述，这里不重复所有系统特征，应该通过引用重复考虑。

Claims

1.一种在自然语言句子上执行机器分类任务的计算机实现的方法，所述方法包括：

通过在所述自然语言句子上执行所述机器分类任务的第一非递归神经网络处理所述自然语言句子，其中所述第一非递归神经网络通过平均所述自然语言句子的矢量嵌入生成所述自然语言句子的均值矢量表示；以及

通过第二递归神经网络(RNN)进一步处理所述自然语言句子，以对所述自然语言句子执行机器分类任务，其中由所述第二RNN处理所述自然语言句子取决于所述第一非递归神经网络在其所述自然语言句子的分类中的确信程度。

2.如权利要求1所述的计算机实现的方法，其中所述第一非递归神经网络包括词袋网络、连续词袋网络、skip-gram网络或卷积神经网络。

3.如权利要求1所述的计算机实现的方法，其中所述第二RNN包括长短期存储器网络、门控递归单元网络或准递归神经网络。

4.如权利要求1所述的计算机实现的方法，其中所述机器分类任务是将所述自然语言句子分类为第一类或第二类。

5.如权利要求1所述的计算机实现的方法，其中所述机器分类任务为：

词性(POS)标记，

分块，

依赖解析，

语义相关性，

文本蕴涵，

语音识别，

机器翻译，

文本摘要，

问答，

图像字幕，或

文本-语音合成。

6.如权利要求1所述的计算机实现的方法，还包括：当所述第一非递归神经网络的确信程度低于阈值时，通过所述第二RNN处理所述自然语言句子。

7.如权利要求6所述的计算机实现的方法，其中所述阈值是单个值。

8.如权利要求1所述的计算机实现的方法，还包括当所述第一非递归神经网络的确信程度在两个值之间的范围内时，通过所述第二RNN处理所述自然语言句子。

9.如权利要求1所述的计算机实现的方法，其中所述第一非递归神经网络的确信程度表示指派给第一类或第二类的概率分数。

10.如权利要求1所述的计算机实现的方法，其中所述机器分类任务是将所述自然语言句子分类为多个情绪类别之一。

11.一种基于神经网络的自然语言处理系统，其具有并行操作的处理器，以对自然语言句子执行分类任务，所述系统包括：

第一非递归神经网络装置，所述第一非递归神经网络装置评估所述自然语言句子并产生置信度分数，所述置信度分数指定所述自然语言句子情绪的所述第一非递归神经网络在其确定中的确信程度，其中所述第一非递归神经网络装置通过平均所述自然语言句子的矢量嵌入来生成所述自然语言句子的均值矢量表示；以及

引导器装置，所述引导器装置将由所述第一非递归神经网络装置产生的所述置信度分数与阈值进行比较，并且基于所述比较，确定所述自然语言句子是否需要由第二递归神经网络(RNN)装置进行补充评估，其中：

当所述引导器装置确定所述置信度分数低于所述阈值时，使用所述第二RNN装置对所述自然语言句子的情绪进行分类；以及

当所述引导器装置确定所述置信度分数高于所述阈值时，依赖于由所述第一非递归神经网络装置产生的所述置信度分数用于所述分类任务，而不需要所述第二RNN装置的所述补充评估。

12.如权利要求11所述的系统，其中所述自然语言句子在语言上是复杂的并且包括消极和积极成分的共同出现或者消极词和对比连词的多个实例。

13.如权利要求11所述的系统，其中所述第一非递归神经网络装置包括词袋网络、连续词袋网络、skip-gram网络或卷积神经网络。

14.如权利要求11所述的系统，其中所述第二RNN装置包括长短期存储器网络、门控递归单元网络或准递归神经网络。

15.如权利要求11至14中任一项所述的系统，其中所述分类任务是将所述自然语言句子分类为第一类或第二类。

16.如权利要求11至14中任一项所述的系统，其中所述分类任务为：

词性(POS)标记，

分块，

依赖解析，

语义相关性，

文本蕴涵，

语音识别，

机器翻译，

文本摘要，

问答，

图像字幕，或

文本-语音合成。

17.如权利要求11至14中任一项所述的系统，还包括：当所述第一非递归神经网络装置的置信度分数低于阈值时，使用所述第二RNN装置以分类所述自然语言句子的情绪。

18.如权利要求17所述的系统，其中所述阈值是单个值。

19.如权利要求17所述的系统，还包括当所述第一非递归神经网络装置的置信度分数在两个值之间的范围内时，使用所述第二RNN装置以分类所述自然语言句子的情绪。

20.如权利要求11至14中任一项所述的系统，其中所述第一非递归神经网络装置的所述置信度分数表示指派给第一类或第二类的概率分数。

21.如权利要求11至14中任一项所述的系统，其中所述分类任务是将所述自然语言句子分类为多个情绪类别之一。

22.一种非暂时性计算机可读介质，具有用于执行如权利要求1至5或6至10中任一项所述的方法的计算机可执行指令。