CN111291181B

CN111291181B - 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习

Info

Publication number: CN111291181B
Application number: CN201911261729.3A
Authority: CN
Inventors: 李定成; 张婧媛; 李平
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-12-10
Filing date: 2019-12-10
Publication date: 2023-09-26
Anticipated expiration: 2039-12-10
Also published as: CN111291181A; US11615311B2; US20200184339A1

Abstract

本文公开了一种将主题建模、词嵌入和实体嵌入(TWEE)集成以用于输入的表示学习的统一神经网络框架的实施例。在一个或多个实施例中，新型主题稀疏自编码器被引入以将区别性主题结合到输入的表示学习中。输入的主题分布是从全局视点生成的，并且用于使自编码器能够学习主题表示。可以添加稀疏性约束以确保大部分区别性表示与主题相关。此外，词相关信息和实体相关信息都被嵌入到网络中以帮助学习更全面的输入表示。大量的经验实验表明，在不同的数据集上，TWEE框架的实施例优于现有的方法。

Description

经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习

相关申请的交叉引用

本申请根据35 USC§119(e)的规定要求于2018年12月10日提交的标题为“Representation Learning for Question Classification via Topic SparseAutoencoder and Entity Embedding”、发明人为Dingcheng Li, Jingyuan Zhang和PingLi的美国临时专利申请序列号62/777,551（代理人案号28888-2278P）的优先权。上述专利文献通过引用整体并入本文。

背景技术

A．技术领域

本公开总体上涉及用于文本分类的系统和方法。更具体地，本公开涉及用于使用主题相关嵌入和实体相关嵌入进行文本分类的系统和方法。

B．背景技术

问答（QA）是日常人际交往的基本活动。在过去几年中，在线问答网站已经变得越来越流行，用于共享题材广泛的知识。人们可以通过这些平台对不同类别的问题提问。由于每一秒钟都在产生大量的问题，所以首先并且关键的一步是有效地理解问题。更好的问题理解将有助于构建更有效的在线交流系统。在近几年中，问题理解和问题分类的问题受到了相当多的关注。

传统方法关注用于问题分类的表示学习。学习问题表示的一个固有挑战是问题通常是短文本。现有方法通常不能有效地从有限数量的词中提取问题的区别性表示。

因此，需要用于文本分类的系统和方法以改进问题的表示学习。

附图说明

下面将参考本发明的实施例，其示例可以在附图中示出。这些附图旨在说明而非限制。尽管在这些实施例的上下文中一般性地描述了本发明，但是应当理解，本发明的范围不限于这些特定实施例。图中的项目未按比例绘制。

图1描绘了使用传统方法的问题理解和问题分类的场景。

图2图示了根据本公开的实施例的主题建模、词嵌入和实体嵌入（TWEE）框架的示例性网络结构。

图3图示了根据本公开的实施例的可选TWEE框架的网络结构。

图4图示了根据本公开的实施例的主题稀疏自编码器（TSAE）的结构。

图5描绘了根据本公开的实施例的使用TSAE进行主题相关表示学习的过程。

图6图示了根据本公开的实施例的用于词嵌入学习的网络结构。

图7描绘了根据本公开的实施例的使用TWEE框架进行问题分类的过程。

图8A描绘了根据本公开的实施例的对于英文数据集具有不同主题数量的TWEE框架实施例的性能。

图8B描绘了根据本公开的实施例的对于中文医学QA数据集具有不同主题数量的TWEE框架实施例的性能。

图9描绘了根据本文献的实施例的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以提供对本公开的理解。然而，对于本领域技术人员来说显而易见的是，可以在没有这些细节的情况下实践实施例。此外，本领域技术人员将认识到，下文描述的本公开的实施例可以在有形计算机可读介质上以各种方式实施，比如过程、设备、系统、装置或方法。

图中示出的组件或模块用于说明本发明的示例性实施例，并且旨在避免使本公开复杂难懂。还应当理解，在整个讨论中，组件可以被描述为单独的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各组件或其部分可以被划分成单独的组件或可以被集成在一起，包括被集成在单个系统或组件内。应当注意，本文所讨论的功能或操作可以被实现为组件。组件可以用软件、硬件或其组合来实现。

此外，附图中的组件或系统之间的连接并非旨在限于直接连接。相反，这些组件之间的数据可以被中间组件修改、重新格式化或以其他方式改变。此外，可以使用更多或更少的连接。还应当注意，术语“耦合”、“连接”或“通信耦合”应当理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。

说明书中对“一个实施例”、“优选实施例”、“实施例”或“多个实施例”的提及意指结合该实施例描述的特定特征、结构、特性或功能被包括在本发明的至少一个实施例中并且可以被包括在一个以上实施例中。而且，在说明书中不同地方出现的上述短语不一定都是指相同的一个或多个实施例。

在说明书的不同地方使用某些术语是用于说明并且不应解释为限制。服务、功能或资源不限于单个服务、功能或资源；这些术语的使用可以指一组相关的服务、功能或资源，其可以是分布式的或聚合的。“层”可以包括一个或多个操作。词语“最优”、“优化”、“优化了”等是指结果或过程的改进，并且不要求指定的结果或过程已经达到“最优”或峰值状态。

术语“包括”、“包括着”、“包含”以及“包含着”应当被理解为开放式术语，并且下文中的任何列表都是示例而并非旨在限于所列出的项目。本文所用的任何标题仅用于组织目的，而不用于限制说明书或权利要求书的范围。在本专利文献中提及的每个参考文献都通过引用而整体地并入本文。

此外，本领域技术人员应当认识到：（1）可以可选地执行某些步骤；（2）步骤可以不限于本文所述的具体顺序；（3）某些步骤可以按不同的顺序执行；以及（4）某些步骤可以同时执行。

A．介绍

问答（QA）是日常人际交往的基本活动。在过去几年中，在线问答网站已经变得越来越流行，用于共享广泛题材的知识。人们可以通过这些平台对不同类别的问题提问。由于每一秒钟都在产生大量的问题，所以首先并且关键的一步是有效地理解问题。更好的问题理解将有助于构建更有效的在线交流系统。在近几年中，问题理解和问题分类的问题受到了相当多的关注。

一些传统方法关注用于问题分类的表示学习，如图1所示。图1中的左侧的板块110示出了用户提问的一系列问题。中间的小板块120是问题处理的过程，称为问题理解。在右侧，不同的问题被分类到预定义的类别130中。词袋表示模型（Bag-of-words representation models）简单地用词或标记构造语言模型，包括深度平均网络、词自编码器等。这些方法在学习过程中忽略词序。顺序表示模型（Sequence representation models），比如动态卷积神经网络（Dynamic convolutional neural networks，动态CNN）和长短期记忆（long short-term，LSTM）的递归神经网络，被提出以考虑词序。随后，结构化表 示模型（structured representation models）被提出以学习问题表示。例如，树结构LSTM将LSTM推广到树结构网络拓扑。它捕获问题的词序以及内部结构。此外，基于注意力的表示 模型（attention-based representation models）使用注意力机制以通过对词和句子进行有差别的评分来构建表示。

对于学习问题表示，一个固有的挑战是，问题通常是短文本。现有方法通常不能有效地从有限数量的词中提取问题的区别性表示。因此，需要利用实体建模和主题建模二者来改进问题的表示学习。已知的是，主题建模可以从问题语料库捕获有意义的语义结构。

在本专利文献中，通过将主题建模、词嵌入和实体嵌入（TWEE）集成用于问题表示学习而提出了一种统一神经网络框架的实施例。特别地，引入了集成有概率主题建模算法的主题稀疏自编码器（TSAE）的实施例。问题的主题分布是从全局视点生成的，并且用于使自编码器能够学习主题表示。在一个或多个实施例中，添加稀疏性约束以确保大部分区别性表示与问题主题相关。此外，从不同的局部视点将词相关信息和实体相关信息都嵌入到网络中。连同主题建模、词嵌入和实体嵌入，所提出的TWEE模型的实施例不仅从词和实体的局部上下文探测信息，还结合全局主题结构，以用于更全面的表示学习。

简而言之，本文献的一些贡献包括：

公开了一种通过将主题相关信息、词相关信息以及实体相关信息嵌入在一起进行问题表示学习的统一神经网络TWEE的实施例。

设计并公开了一种用于将主题信息结合到稀疏自编码器中以用于表示学习过程的新型主题稀疏自编码器（TSAE）的实施例。

提出了一种用于协调问题的全局主题和局部上下文的TSAE、词嵌入以及实体嵌入之间的交互机制的实施例。

通过与几种现有的问题分类方法进行比较，证明了TWEE模型实施例的有效性。

在以下的章节中，在章节B中讨论了一些相关工作，在章节C中给出了符号和问题定义，在章节D中公开了方法的实施例，在章节E中公开了评估TWEE框架实施例的实验，在章节F中描述了一些结论，并在章节G中描述了一些系统实施例。

B．一些相关工作

本章节总结了各个方面的一些相关工作。本专利文献的主要主题是使用表示学习改进输入文本比如问题或陈述的分类。因此，相关工作涉及以下两个方面：(1)表示学习；以及（2）问题分类。

1．表示学习

表示学习已经被广泛地研究，并且对于各种机器学习任务，特别是分类，起着重要的作用。深度学习的成功很大程度上在于其进行表示学习的嵌入能力。例如，词嵌入解决了以下问题：深度学习是适合连续数据的框架，比如图像处理，而自然语言处理（NLP）内在是处理离散数据的任务。然而，如果可以引进全局上下文和局部上下文的结合，则可以进一步改进词的表示学习。基于跳字或连续词袋的词嵌入是关注局部上下文的学习，而主题建模或自编码器针对全局上下文学习。没有现有工作将全局主题和局部上下文结合用于问题分类中的表示学习。

主题建模：如小节D.1中说明的，TSAE中的的第四项旨在向自编码器添加主题稀疏性。理论上，主题稀疏性可以从各种聚类结果中得到。然而，聚类方法的选择对确保模型的鲁棒性起着重要的作用。潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）是主题建模的一个代表，它是一种基于其全局文档-词上下文信息从文本语料库中揭示潜在语义结构的强大的无监督工具。作为软聚类模型，LDA并不寻求对文档和词的硬聚类。相反，它只为它们分配主题分布。在反向传播过程中，LDA生成对SAE的更合适的聚类约束。

2．问题分类

传统的问题分类方法主要利用线性分类器和预处理特征向量来构造分类模型。较新的算法构造神经网络，其中较低的层关注特征提取和表示学习以进行问题分类，最后一层用于分类。

传统问题分类。传统的问题分类方法，像任何其他传统的机器学习任务一样，在采用诸如逻辑回归或支持向量机或提升树之类的一些机器学习模型之前，很大程度上依赖于特征工程和手工编码规则。即使这样的方法能够构造高度准确的分类器，但是它们对于未见过的数据集不健壮。为了提取区别性特征，这些方法充分利用了外部资源，包括领域本体和相关知识图。例如，英文词汇数据库WordNet，已经被用于一个或多个数据集的问题分类中的同义词集合提取。

基于深度学习的问题分类：基于深度学习的问题分类的最早成功来自于将预训练的词向量馈送入CNN模型的工作。众所周知，基于CNN的问题分类在其卷积运算中使用线性特征映射。利用来自答案集的信息，已经提出了组稀疏CNN以用于问题分类。CNN善于捕捉局部不变规律，但具有忽略词序信息的局限性。相反，递归神经网络（recurrent neuralnetwork，RNN）用词的排序信息表示词序。因此，许多基于RNN的工作填补了这个空白。由于存储长距离依赖性的优越能力，LSTM已经被应用于提取句子级连续表示。CNN和LSTM的结合实现了良好的性能。

C．标记和问题定义

在本章节中，给出了在本专利文献中使用的符号。粗体大写字母，比如，用于表示矩阵；粗体小写字母，比如/>，用于表示向量或嵌入；常规大写字母，比如/>，用于表示标量常数；以及常规小写字母，比如/>，用于表示标量变量。表1列出了在本专利文献全文中使用的符号。

给定问题或其他类型的输入，其词袋表示被表示为，其中/>是问题集中的词的数量。/>、/>和/>分别表示为针对主题相关嵌入、实体相关嵌入和词相关嵌入的维度。假设主题总数为/>并且每个问题只关注少量主题。给定/>个问题，经典主题模型比如LDA可以帮助提取词上的主题分布/>和问题上的主题分布/>。所公开的TSAE的实施例将主题信息/>结合到稀疏自编码器中并学习主题相关嵌入/>。此外，给定从问题中提取的/>个实体，在一个或多个实施例中，应用跳字模型来学习实体相关嵌入/>。实体类型（例如位置、人或介质）可以用于嵌入，因为它们对于问题理解的过程更加相关且重要。类似地，可以经由跳字模型来学习词嵌入/>。利用表示/>、/>和/>，所公开的TWEE框架的实施例协调问题的全局主题和局部上下文以学习其表示，用于问题分类。

表1 符号列表

图2示出了根据本公开的实施例的TWEE框架的整个结构。TWEE框架200构造为结合了三个输入组件，即主题稀疏自编码器210、词嵌入220以及实体嵌入230。在一个或多个实施例中，主题嵌入、词嵌入以及实体嵌入被连接成混合嵌入，如图2所示，混合嵌入的212部分来自主题稀疏自编码器210输出的主题嵌入、222部分来自词嵌入220、而232部分则来自实体嵌入230，该混合嵌入被馈送入分类器240用于问题类型分类。在一个或多个实施例中，分类器240可以包括具有多个过滤器以检测不同位置处的特征的卷积层245、最大池化层250、LSTM层260、全连接层270以及用于输出最终问题类型290的预测层280。使用TWEE框架200进行输入分类的细节也可以在章节D.4中找到。

尽管本文描述的附图和一个或多个实施例使用问题作为输入的实施例，但是本领域技术人员应当理解，输入可以不限于问题。相反，它可以指其他类型的输入，比如陈述、表达式等。因此，除了问题类型之外，分类输出还可以是输入分类的其他类型，比如表达式类型等。

图3示出了根据本公开的实施例的TWEE框架的可选结构。与图2所示的TWEE框架不同，在TWEE框架300中，主题嵌入和词嵌入被连接起来，然后被馈送入第一卷积神经网络（CNN）345用于词特征提取和主题特征提取。在一个或多个实施例中，采用双向LSTM（Bi-LSTM）350对提取的特征进行顺序处理以获得句子表示。并行地，第二CNN 346用于从一个或多个实体嵌入中的知识特征提取，其可以基于支持动词、同义词集、WordNet词汇答案类型（WordNetLAT）、QuestionWord词汇答案类型（QuestionWordLAT）、命名实体类型等。动态最大池化和连接层360被应用于句子表示和知识特征，以选择并连接最重要特征。在一个或多个实施例中，将所选择的最重要特征馈送入全连接层370，在全连接层370中，这些特征还经受批量归一化，以获得紧凑表示。交叉熵损失可以用于在预测层380中进行计算以对输入（例如问题）分类进行S形预测。基于预测，给出输入（例如问题）类型390。

D．方法的实施例

本章节介绍TWEE框架实施例的细节，该TWEE框架集成了主题建模、词嵌入和实体嵌入用于问题表示学习。首先，主题稀疏自编码器（TSAE）将概率主题建模算法结合到稀疏自编码器中。学习问题的全局主题表示。然后，给出如何从问题中学习词嵌入以捕获局部上下文信息。此外，本章节解释了如何获得实体嵌入以改进问题的表示学习的实施例。最后，本章节展示了如何构建TWEE框架用于问题的更全面的表示学习的实施例。

1．主题稀疏自编码器（TSAE）的实施例

为了学习问题的主题相关表示，在一个或多个实施例中可以采用使用自重构准则的经典稀疏自编码器（SAE）的各方面。自编码器是无监督前馈神经网络，它通过使用重构的输出对输入进行拟合来应用反向传播。它通常用于减少高维特征和预训练深度学习模型。基本上，SAE通过前馈传播将第个输入问题/>编码为隐藏表示/>

(1)

此处，是第/>个问题的主题相关嵌入。/>是权重矩阵，/>是隐藏偏差向量。/>是激活函数（例如S形函数/>或ReLU）。在前馈通过之后，/>被解码成一个表示

(2)

是解码器的偏差向量。在一个或多个实施例中，对/>的隐藏表示施加稀疏性约束以减少SAE中的噪声。SAE的总体代价函数可以定义为：

其中，第一项是所有问题上的重建损失的平方和的平均值。第二项是用于防止过度拟合的正则化项，其中是正则化参数。它的目的是控制权重参数/>和偏差参数/>的稀疏性。第三项是分别具有平均值/>和/>的两个伯努利（Bernoulli）随机变量之间的Kullback-Leibler（KL）散度：

第三项用于惩罚显著偏离词稀疏性参数的/>。/>是总体代价函数中的稀疏性项的权重。

在一个或多个实施例中，是第/>个隐藏表示的平均激活。/>是第/>个问题的第/>个隐藏单元。

由于问题通常是短文本，直接将SAE应用于短问题通常不能有效地从有限数量的词中提取区别性表示。因此，可以利用隐藏在问题中的主题信息来改进问题的表示学习，如图4所示。如图4所示，利用从主题建模中学习的主题来增强编码器，主题建模包括给定输入（例如问题）410，生成问题上的主题分布420以及基于问题上的主题分布420生成词的主题分布440。词的主题分布440被馈送入隐藏状态430，以形成隐藏状态上的主题450，使得表示学习更具有区别性。在一个或多个实施例中，一个目的是将主题信息封装到SAE的总体代价函数中，使得学习到的隐藏表示也反映问题的主题分布。为了实现该目标，在一个或多个实施例中，添加第四项作为主题指导项，并且TSAE（主题稀疏自编码器）的一个目标是使以下目标函数最小化：

其中是隐藏表示的主题稀疏性参数，/>是总体目标函数中的主题指导项的权重。是第/>个主题的隐藏层的平均激活：

其中是第/>个问题的第/>个主题上的第/>个隐藏状态的主题分布。

是隐藏表示/>的主题分布。

主题指导项被设计用于的隐藏表示学习。它反映了问题的全局主题信息。KL散度有助于利用与最具区别性的主题相关的激活来重构输入。

图5示出了根据本公开的实施例的使用TSAE进行主题相关表示学习的过程。在步骤505中，给定包括多个词的输入（例如问题），通过主题建模，在一个或多个主题间生成输入上的主题分布。在一个或多个实施例中，TSAE中的主题建模包括预训练的概率主题建模算法。在一个或多个实施例中，每个主题与来自输入的一个或多个词相关联。在步骤510中，基于输入（例如问题）上的主题分布，获得词的主题分布。在步骤515中，经由编码器将输入编码成隐藏表示，该隐藏表示可以包括一个或多个词嵌入。在步骤520中，将词的主题分布馈送入隐藏表示，以形成隐藏状态上的主题分布（或隐藏状态中的一个或多个词嵌入上的主题分布），使得表示学习的更具区别性。在步骤525中，隐藏状态上的主题分布可以被封装到SAE的总体代价函数中以更新编码器参数，使得最终学习到的隐藏表示也反映输入（例如问题）的主题分布。为了实现该目的，在一个或多个实施例中，在总体损失函数中添加第四项作为主题指导项（基于每个主题的隐藏表示的主题稀疏性参数与隐藏层的平均激活/>之间的KL散度之和）。

2．词嵌入的实施例

从上述TSAE模块学习到的嵌入a反映问题的全局主题信息，而词嵌入考虑局部上下文信息。在本发明的一个或多个实施例中，考虑到由于示例性语料库由短文本构成，并且在医学领域中可能存在相当多的罕见词或短语，因此应用跳字法学习词嵌入e_w。跳字模型的训练目标是学习有助于预测附近词的词表示。给定从问题中提取的训练词序列，跳字模型的形式目标是使平均对数概率最大化

其中是目标词，且/>表示/>的上下文词。通过在目标词/>的左边和右边收集窗口中的词来生成/>。在一个或多个实施例中，/>用于表示窗口的大小。条件概率/>可以定义为：

其中是词/>的输入独热向量表示，且/>是对应的嵌入向量表示。/>是问题词汇表中的词的数量。由于计算/>的导数的代价与/>成正比，因此在跳字模型中部署了使用负采样的随机梯度下降法。图6示出了根据本发明的一个或多个实施例的词嵌入的学习过程。在图6中，联合使用组稀疏自编码器620和跳字网络610从输入中提取特征。对于跳字网络610，给定输入（例如问题），输入中的词的独热表示614被转换成低维词嵌入612。在一个或多个实施例中，来自每个独热表示的预测是对应于该独热表示的词的上下文词。由跳字网络610生成的词嵌入612和主题嵌入622被一起馈送入CNN 630，用于进一步的特征映射。考虑到TSAE是涉及主题和基于计数的自编码器的不同表示，而跳字嵌入和CNN利用上下文信息，所以TSAE以及跳字嵌入和CNN的结合可以彼此互补以提高性能。

3．实体嵌入的实施例

在一个或多个实施例中，嵌入和/>从问题中学习全局主题信息和局部上下文二者。它们有助于问题理解。此外，问题中的实体通常可以从不同的局部视点为短文本提供更多的辅助信息。通过将实体信息结合到表示学习过程中，可以进一步改进对问题的理解。

类似于词嵌入过程，跳字方法可应用于学习实体嵌入。在一个或多个实施例中，通过使平均对数概率最大化，可以学习实体嵌入以帮助预测附近的实体。形式目标可以表示为：

其中是从问题中提取的训练实体序列。/>是目标实体，且/>代表问题中与/>共同出现的实体。通过在目标实体/>的左边和右边收集窗口中的实体来生成。c仍然用于表示窗口大小。条件概率/>可以以类似的方式定义为：

其中是实体/>的输入独热向量表示，且/>是对应的嵌入向量表示。/>是问题中的实体的数量。部署使用负采样的随机梯度下降法以加快计算时间。在一个或多个实施例中，实体嵌入的学习过程可以非常类似于词嵌入，且因此学习网络也可以类似地使用图6中的跳字网络610来进行说明。

在一个或多个实施例中，对于实体嵌入，整个问题的是输入中所有实体嵌入的连接，并且可以具有多个嵌入。在一个或多个实施例中，实体的实体短语可以包括多个词，因为每个实体具有其自身的隐藏状态表示，并且该实体仅具有一个词嵌入。

4．TWEE的完整结构的实施例

连同主题嵌入、词嵌入和实体嵌入，所公开的TWEE框架的实施例训练神经分类器以用于如图2所示的问题类型分类。图7描绘了根据本公开的实施例的使用TWEE框架进行问题分类的过程。对于包括多个词的给定输入，根据输入来输出（705）主题嵌入、词嵌入以及实体嵌入。在一个或多个实施例中，为了简单起见，TWEE将三种类型的嵌入表示（主题嵌入、词嵌入和实体嵌入）连接（710）在一起成为混合嵌入，并将混合嵌入馈送入（715）到卷积层，在卷积层中，多个过滤器向量在混合嵌入序列上滑动以检测不同位置处的特征。在一个或多个实施例中，在检测到的特征映射上使用ReLU函数进行非线性变换。利用n个过滤器，TWEE获得连续的高阶窗口表示，其按列连接n个过滤器的特征映射。对该表示应用（720）最大池化以在检测到的特征中选择最重要特征。然后，使用（725）LSTM层对所选择的最重要特征进行顺序处理。在LSTM层中，为每个时间步长定义了一系列重复模块。即，在每个时间步长，模块的输出是旧的隐藏状态和当前时间步长的输入的函数。

在一个或多个实施例中，输出在当前时间步长由一组门控制，包括遗忘门、输入门和输出门。这些门共同决定如何更新当前存储单元和当前隐藏状态。在处理LSTM层之后，将LSTM的最后一个时间步长处的隐藏状态的输出被馈送入（730）全连接层用于输入（例如问题）的紧凑表示。然后，对全连接层的顶部应用（735）使用softmax的预测层。计算交叉熵损失以对输入类型进行分类。在一个或多个实施例中，在每个周期进行反向传播（740）用于获得TWEE框架的最优解，直到达到预定条件（例如周期数量或周期之间的差）。

E．一些实验

应当注意，这些实验和结果是通过说明的方式提供的，并且是在特定条件下使用一个或多个具体实施例来进行的；因此，这些实验及其结果都不用于限制本专利文献公开的范围。

在本章节中，报告了大量实验的结果以评估所提出的TWEE框架的实施例。

1．数据集和实验设置的实施例

在一个或多个实验设置中，在实验中使用两个数据集来进行问题分类。一个数据集是关于患有糖尿病或高血压的患者如何管理日常生活的中文医学QA数据集。另一个数据集是用于事实问题类型分类的英文数据集。实验表明，TWEE在中文医学QA数据集和英文数据集中都表现良好。应当注意，医学QA数据集关注疾病方面的特定主题，而英文数据集使用各种主题而更具有普遍性。

对于医学QA数据集，目的是将问题分入三种类型，即“是-否”、“选择”以及“描述”。总共收集了大约100000个问题，且它们的类型由三个领域专家标记，注释间一致程度为99%。在一个或多个实验设置中，使用流行的文本分割工具Jieba来标记问题并检测实体。标记总数为37875。因为疾病相关的实体对于医学QA数据集是最重要的，所以使用一些医学知识资源映射识别到的实体。在一个或多个实验设置中，使用跳字中的随机初始化来训练实体相关信息的嵌入。用300维预训练的向量表示对词嵌入进行初始化，这些预训练的向量表示是经由词表示全局向量（Global Vectors for Word Representation，GloVe）模型从大型中文医学语料库中学习到的。

对于英文数据集，大约有6000个问题，包含大约10000个词。问题被分为6个类别，包括“人”、“实体”、“位置”、“描述”、“缩写”以及“数字”。支持的动词和词汇答案类型被认为是英文数据集的实体。它们是从问题中提取的，并用WordNet映射。实体相关信息的嵌入也用跳字训练。使用来自具有8400亿个标记和220万词汇的Common Crawl的300维预训练的向量对词嵌入进行初始化。数据集的统计数据总结在表2中。

在实验中，测试的嵌入维度范围是50至300。对于英文数据集和中文医学QA数据集，当嵌入大小分别为50和100时，TWEE取得最佳性能。英文数据集的主题数量设置为10，医学QA数据集的主题数量设置为7。两个数据集的正则化参数都设置为0.01。实验中的稀疏性参数/>和主题稀疏性参数/>都设置为0.05。稀疏性项的权重/>和主题指导项的权重β都设置为0.1。

表2：数据集的统计数据，其中使用标准划分将数据分成训练集、验证集以及测试集。中文医学QA数据集和英文数据集具有差异较大的词分布（~38000个词对~9600个词）以及实体分布（20个实体类型对2400个实体类型）

2．一些实验结果

在表3中报告了医学QA数据集的结果。为了比较，两个模型（基于CNN和LSTM）在针对问题分类进行了少量适应性调整之后被运行，以得到两组结果，如表3中的前两行中可见的。从第四行到最后，分别是使用稀疏自编码器（SAE）、主题稀疏自编码器（TSAE）、TSAE和跳字词嵌入的集成、以及最后的集成了TSAE、跳字WV和实体嵌入（EE）的TWEE（TSAE+WV+EE+CNN-LSTM）的实施例所获得的词的表示学习。在一个或多个实验设置中，CNN和CNN-LSTM用于训练分类器，以展示在TSAE上下文下可以带来多少CNN与CNN-LSTM之间的差异。结果展示了一些趋势：主题稀疏自编码器比稀疏自编码器达到了更好的结果；TSAE和WV的集成提高了性能；所提出的集成了TSAE、WV和实体嵌入的TWEE进一步改善了分类结果。

表3：医学QA数据集上的性能。关注点在于深度学习方法加上不同的词向量，旨在突出本TSAE方法的实施例的有效性。可以清楚地看到增长趋势。

英文的结果在表4中列出，其中将TWEE的实施例与各种模型进行比较。传统方法在大量手工设计的特征和手工编码的资源上构造分类器。该方法的最佳分类结果来自SVM分类器，该SVM分类器使用一元语法、二元语法、疑问词、标题词、POS标签和上位词、WordNet同义词集以及60个手工编码的规则进行训练，准确率达到95%。除了SVM之外，与CNN或LSTM相关的其他基准的分类性能在表4中列出。TWEE始终优于表4中列出的所有公开的神经基准模型。TWEE结果也优于依赖于精心设计的特征的现有技术SVM的结果。如此设计的特征不仅需要人工劳动，而且导致现有NLP工具中的误差传播。利用自动地学习语义句子表示的能力，所公开的框架的实施例不需要任何人工设计的特征并且具有更好的可扩展性。毫无疑问，实体嵌入对于最终胜过SVM起着至关重要的作用。

表4：英文数据上的性能。除了突出TSAE方法的实施例的有效性，还与从参考文献可获得的结果进行了比较。

¹: J. Silva, 以及其他人, “From symbolic to sub-symbolic informationin question classification,”Artificial Intelligence Review, 卷 35, 编号 2, 页137–154, 2011.

²: N. Kalchbrenner, 以及其他人, “A convolutional neural network formodelling sentences,”Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014.

³: M. Ma, 以及其他人, “Dependency-based convolutional neural networksfor sentence embedding,”Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, 2015.

⁴:Y. Shi, 以及其他人, “Deep LSTM based feature mapping for queryclassification,” inProceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016, 页 1501–1511.

3．一些参数分析

在一个或多个实验中，提供了关于主题数量如何影响所提出的TWEE框架的性能的研究。直觉来说，属于同一类别的问题关注某个主题。因此，主题的数量应该大于或等于类的数量。图8A和图8B分别示出了英文数据集和中文医学QA数据集上的TWEE实施例的分类准确率。对于英文数据集和中文医学QA数据集，最佳性能都来自于主题数量高于类的数量的一些情况。这示出类数量与主题数量之间的一些相关性。对于英文数据集，分析了主题数量为4、6、8、10和12的结果。当主题数量为10时达到了最佳性能。因为英文数据集的类的数量是6，所以10个主题可以帮助区分来自不同类的语义信息。另一方面，当主题数量大于10时，TWEE的性能下降，这部分地反映出问题通常是短文本这一事实。英文数据集中最长的句子只有37个词。更多的主题不会帮助TWEE从短句中学习区别性嵌入。因此，在实验中，英文数据集的主题数量被设置为10。

对于中文医学QA数据集，主题数量选自3、5、7和9。图8B描绘了TWEE的准确率，示出当主题数量为7时性能最佳，其中主题数量为7大于医学QA数据集中的类的数量（3）。因此，在实验中，主题数量设置为7。

F．一些结论

在本专利文献中，公开了统一神经网络框架的实施例，其通过将主题建模、词嵌入和实体嵌入集成到统一神经网络框架中进行问题分类任务。该工作受以下启发：（1）主题建模通常可以从问题语料库捕获有意义的语义结构。这样的全局主题信息有助于问题表示；（2）从问题本身提取的实体从局部视点为短文本提供更多的辅助信息。在TWEE中，新型主题稀疏自编码器实施例被引入以将区别性主题结合到问题的表示学习中。添加稀疏性约束以确保大部分区别性表示与问题主题相关。此外，词和实体都被嵌入到网络中以帮助学习全面的问题表示。关于两个数据集的大量实验清楚地表明，TWEE优于现有技术的方法。

G．系统实施例

在实施例中，本专利文献的各方面可以针对、可以包括或可以实现于一个或多个信息处理系统/计算系统。计算系统可以包括可操作以计算、运算、确定、分类、处理、发送、接收、检索、产生、路由、交换、存储、显示、通信、列示、检测、记录、再现、应付或利用任何形式的信息、智能或数据的任何工具或工具集合。例如，计算系统可以是或可以包括个人计算机（例如笔记本计算机）、平板计算机、平板手机、个人数字助理（PDA）、智能电话、智能手表、智能包、服务器（例如刀片服务器或机架服务器）、网络存储设备、相机或任何其他合适的设备，并且其尺寸、形状、性能、功能以及价格可以不同。计算系统可以包括随机存取存储器（RAM）、一个或多个处理资源比如中央处理单元（CPU）或硬件或软件控制逻辑、ROM和/或其他类型的存储器。计算系统的附加组件可以包括一个或多个磁盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出（I/O）设备，比如键盘、鼠标、触摸屏和/或视频显示器。计算系统还可以包括可操作以在各硬件组件之间传输通信的一个或多个总线。

图9描绘了根据本公开的实施例的计算设备/信息处理系统（或计算系统）的简化框图。应当理解，针对系统900示出的功能可以操作以支持计算系统的各种实施例——但是应当理解，计算系统可以以不同方式配置并且包括不同的组件，包括具有比如图9所示的更少或更多的组件。

如图9所示，计算系统900包括一个或多个中央处理单元（CPU）901，CPU 901提供计算资源并控制计算机。CPU 901可以用微处理器等实现，并且还可以包括一个或多个图形化处理单元（GPU）919和/或用于数学计算的浮点协处理器。系统900还可以包括系统存储器902，系统存储器902的形式可以是随机存取存储器（RAM）、只读存储器（ROM）或两者。

还可以提供多个控制器和外围设备，如图9所示。输入控制器903表示与各种输入设备904的接口，输入设备904比如是键盘、鼠标、触摸屏和/或触笔。计算系统900还可以包括存储控制器907，存储控制器907用于与一个或多个存储设备908接口，每个存储设备908包括诸如磁带或磁盘的存储介质或可用于记录用于操作系统、实用程序和应用程序的指令的程序的光学介质，这些程序可以包括实现本发明各方面的程序的实施例。存储设备908还可以用于存储根据本发明处理的数据或待处理的数据。系统900还可以包括用于向显示设备911提供接口的显示控制器909，显示设备911可以是阴极射线管（CRT）、薄膜晶体管（TFT）显示器、有机发光二极管、电致发光板、等离子板或其他类型的显示器。计算系统900还可以包括用于一个或多个外围设备906的一个或多个外围设备控制器或接口905。外围设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器914可以与一个或多个通信设备915接口，使得系统900能够通过各种网络中的任一种或通过任何合适的电磁载波信号连接远程设备，各种网络包括因特网、云资源（例如以太网云、以太网光纤信道（FCoE）/数据中心桥接（DCB）云等）、局域网（LAN）、广域网（WAN）、存储区域网（SAN），电磁载波信号包括红外信号。

在所说明的系统中，所有主要系统组件可以连接到总线916，总线916可以表示一个以上物理总线。然而，各系统组件可以彼此物理接近或不物理接近。例如，输入数据和/或输出数据可以从一个物理位置远程发送到另一个物理位置。此外，可以通过网络从远程位置（例如服务器）访问实现本发明的各个方面的程序。这样的数据和/或程序可以通过各种机器可读介质中的任一种来传送，各种机器可读介质包括但不限于：磁介质，比如硬盘、软盘和磁带；光学介质，比如CD-ROM和全息设备；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，比如专用集成电路（ASIC）、可编程逻辑设备（PLD）、闪存设备以及ROM和RAM设备。

本发明的各方面可以将用于一个或多个处理器或处理单元的指令编码到一个或多个非瞬时计算机可读介质上以执行步骤。应当注意，一个或多个非瞬态计算机可读介质应当包括易失性存储器和非易失性存储器。应当注意，可能存在可选的实现方式，包括硬件实现方式或软件/硬件实现方式。硬件实现的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“装置”术语旨在覆盖软件及硬件实现方式。类似地，本文使用的术语“计算机可读介质或媒介”包括其上嵌入有指令程序的软件和/或硬件或其组合。考虑到这些实现方式替代方案，应当理解，附图和所附描述提供了本领域技术人员书写程序代码（即软件）和/或制造电路（即硬件）以执行所需处理时需要的功能信息。

应当注意，本发明的实施例还可以涉及具有非瞬时有形计算机可读介质的计算机产品，计算机可读介质上具有用于执行各计算机实现的操作的计算机代码。介质和计算机代码可以是针对本发明的目的而专门设计并构造的介质和计算机代码，或者它们可以是相关领域技术人员已知或可用的类型。有形计算机可读介质的示例包括但不限于：磁介质，比如硬盘、软盘和磁带；光学介质，比如CD-ROM和全息设备；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，比如专用集成电路（ASIC）、可编程逻辑设备（PLD）、闪存设备以及ROM和RAM设备。计算机代码的示例包括诸如由编译器产生的机器代码以及包含由计算机使用解释器执行的高级代码的文件。本发明的实施例可以全部或部分地实现为机器可执行指令，这些机器可执行指令可以位于由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件以及数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者的设置中。

本领域技术人员将认识到，任何计算系统或编程语言对于本发明的实践来说都不是关键的。本领域技术人员还将认识到，上述多个元件可以在物理上和/或功能上分离成子模块或组合在一起。

本领域技术人员应当理解，前述示例和实施例是示例性的，并且不限制本公开的范围。对于本领域技术人员在阅读说明书并研究附图后显而易见的置换、增强、等同物、组合和改进都意在包括在本公开的真实精神和范围内。还应当注意，任何权利要求的元素可以进行不同地安排，包括具有多个依赖关系、配置和组合。

Claims

1.一种用于对包括一组词的输入进行分类的计算机实现的方法，所述方法包括：

将所述输入馈送入主题建模、词嵌入和实体嵌入TWEE模型；

获得所述输入的主题嵌入，所述主题嵌入反映所述输入中的主题的分布；

获得所述输入的词嵌入，所述词嵌入考虑所述输入的局部上下文信息；

获得与所述输入中的一个或多个实体对应的实体嵌入；

使用所述TWEE模型，连接至少所述主题嵌入和所述词嵌入以获得连接的表示；以及

通过一个或多个神经网络层处理所述连接的表示以获得所述输入的分类；

其中，所述通过一个或多个神经网络层处理所述连接的表示以获得所述输入的分类包括：

将所述连接的表示馈送入第一卷积神经网络CNN用于词特征提取和主题特征提取；

采用双向LSTM对所提取的词特征和主题特征进行顺序处理以获得句子表示；

使用第二CNN进行从所述实体嵌入的知识特征提取；

对所述句子表示应用最大池化层以从所述句子表示中选择最重要特征；

将所选择的最重要特征与所述知识特征连接；

将连接的特征馈送入全连接层用于获得紧凑表示；以及

计算预测层中的交叉熵损失以对输入分类进行S形预测。

2.如权利要求1所述的计算机实现的方法，其中，使用包括以下的步骤在主题稀疏自编码器TSAE处执行获得所述输入的主题嵌入：

通过进行主题建模，在一个或多个主题间生成所述输入上的主题分布；

基于所述输入上的主题分布，获得词的主题分布；

经由编码器将所述输入编码成包括一个或多个词嵌入的隐藏表示；

将所述词的主题分布馈送入所述隐藏表示以形成隐藏状态上的主题分布；以及

将所述隐藏状态上的主题分布封装到所述TSAE的总体代价函数中以更新编码器参数并获得所述输入的主题嵌入；

其中，TSAE将概率主题建模算法结合到稀疏自编码器中。

3.如权利要求2所述的计算机实现的方法，其中，所述主题建模包括预训练的概率主题建模算法。

4.如权利要求2所述的计算机实现的方法，其中，所述TSAE的总体代价函数包括主题指导项，所述主题指导项基于每个主题的所述隐藏表示的主题稀疏性参数与隐藏层的平均激活之间的Kullback-Leibler散度之和。

5.如权利要求2所述的计算机实现的方法，其中，所述TSAE是通过使用所述输入的解码表示对所述输入进行拟合来应用反向传播而经训练的无监督前馈神经网络，所述TSAE的总体代价函数包括重构损失平均值项。

6.如权利要求1所述的计算机实现的方法，其中，计算交叉熵损失用于输入分类，并且进行反向传播以训练所述TWEE模型。

7.一种用于对包括一组词的输入进行分类的计算机实现的方法，所述方法包括：

使用包括以下的步骤在主题稀疏自编码器TSAE处获得所述输入的主题嵌入：

基于所述输入上的主题分布，获得词的主题分布；

至少基于所述主题嵌入和所述词嵌入获得所述输入的分类；

其中，TSAE将概率主题建模算法结合到稀疏自编码器中；

其中，至少基于所述主题嵌入和所述词嵌入获得所述输入的分类包括:

将所述主题嵌入和所述词嵌入连接成连接的表示；

使用第二CNN进行从与所述输入中的一个或多个实体对应的实体嵌入的知识特征提取；

将所选择的最重要特征与所述知识特征连接；

将连接的特征馈送入全连接层用于获得紧凑表示；以及

计算预测层中的交叉熵损失以对输入分类进行S形预测。

8.如权利要求7所述的计算机实现的方法，其中，所述TSAE是通过使用所述输入的解码表示对所述输入进行拟合来应用反向传播而经训练的无监督前馈神经网络，所述TSAE的总体代价函数包括重构损失平均值项。

9.如权利要求7所述的计算机实现的方法，其中，所述TSAE的总体代价函数还包括主题指导项，所述主题指导项基于每个主题的所述隐藏表示的主题稀疏性参数与隐藏层的平均激活之间的Kullback-Leibler散度之和。

10.如权利要求7所述的计算机实现的方法，其中，使用跳字模型获得所述输入的词嵌入，所述跳字模型采用使用负采样的随机梯度下降法。

11.一种非暂时性计算机可读介质，包括一个或多个指令序列，所述指令序列在被一个或多个处理器执行时使得用于对包括一组词的输入进行分类的步骤被执行，所述步骤包括：

使用主题稀疏自编码器TSAE获得所述输入的主题嵌入，所述主题嵌入反映所述输入中的主题的分布；

获得与所述输入中的一个或多个实体对应的实体嵌入；

连接至少所述主题嵌入和所述词嵌入以获得连接的表示；以及

其中，所述TSAE将概率主题建模算法结合到稀疏自编码器中；

使用第二CNN进行从所述实体嵌入的知识特征提取；

将所选择的最重要特征与所述知识特征连接；

将连接的特征馈送入全连接层用于获得紧凑表示；以及

计算预测层中的交叉熵损失以对输入分类进行S形预测。

12.如权利要求11所述的非暂时性计算机可读介质，其中，获得所述输入的主题嵌入包括：

通过主题建模，在一个或多个主题间生成所述输入上的主题分布；

基于所述输入上的主题分布，获得词的主题分布；

将所述隐藏状态上的主题分布封装到所述TSAE的总体代价函数中以更新编码器参数并获得所述输入的主题嵌入。

13.如权利要求12所述的非暂时性计算机可读介质，其中，所述总体代价函数包括重构损失项，所述重构损失项与所述输入和从所述隐藏表示解码的解码表示之间的差异相关。

14.如权利要求13所述的非暂时性计算机可读介质，其中，所述总体代价函数还包括主题指导项，所述主题指导项基于每个主题的所述隐藏表示的主题稀疏性参数与隐藏层的平均激活之间的Kullback-Leibler散度之和。