CN112084327B

CN112084327B - 在保留语义的同时对稀疏标注的文本文档的分类

Info

Publication number: CN112084327B
Application number: CN202010533649.5A
Authority: CN
Inventors: J.J.托马斯; A.E.佩特罗夫; 王婉婷; M.阿拉德
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-06-14
Filing date: 2020-06-12
Publication date: 2024-04-16
Anticipated expiration: 2040-06-12
Also published as: US11455527B2; CN112084327A; US20200394509A1

Abstract

一种用于训练神经网络的方法、系统和计算机程序产品，所述方法包括：接收包含标注的部分和未标注的部分的文本语料库；从文本语料库中提取局部n元语法特征以及局部n元语法特征的序列；使用卷积层根据局部n元语法特征处理文本语料库，以确定被配置以保留局部n元语法特征的序列的胶囊的胶囊参数；使用胶囊参数执行胶囊之间的前向动态路由，以提取文本语料库的多个全局特征；以及使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库提取多个全局顺序文本依赖关系，其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的参数。

Description

在保留语义的同时对稀疏标注的文本文档的分类

技术领域

本发明总体涉及文本分类，更具体地涉及训练文本分类器系统的方法。

背景技术

传统的文本分类运用技术来理解文档，例如以符合监管要求，整合内部运营等。这些文本分类通常需要对高百分比的训练数据进行标注，才能发挥作用。因此，传统的文本分类方法面临着巨大的挑战，包括在对这些文本文档进行分类时需要大量的手工劳动。

发明内容

根据本发明的一些实施例，一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法包括：接收文本语料库，文本语料库包含标注的部分和超出标注的部分的未标注的部分；从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列；使用多个卷积层根据局部n元语法特征处理文本语料库，以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数；使用胶囊参数执行多个胶囊之间的前向动态路由，以提取文本语料库的多个全局特征；以及使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库提取多个全局顺序文本依赖关系，其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。

根据本发明的一个或多个实施例，在计算机系统上执行的神经网络系统包括：第一多个处理元件，被配置为从文本语料库提取多个局部特征和局部特征的序列，其中，文本语料库是稀疏标注的；第二多个处理元件，被配置为提取文本语料库的多个全局特征，其中，第二多个处理元件被构造成为胶囊，该胶囊被配置为保留局部特征的序列；以及第三多个处理元件，被配置为在给定第一多个处理元件的输出的情况下，从文本语料库中提取多个全局顺序文本依赖关系，其中第三多个处理元件被构造为长短期存储器层，其被配置为输出由第一多个处理元件和第二多个处理元件生成的所有标签的概率分布。

如本文所使用的，“促进”某个动作包括执行该动作、使该动作更容易、帮助执行该动作或使该动作被执行。因此，作为示例而不是限制，在一个处理器上执行的指令，可以通过发送促使或帮助执行动作的适当的数据或命令，促进由在远程处理器上执行的指令执行的动作。为免生疑问，在动作者以执行动作以外的其他方式促进动作的情况下，该动作仍然由某个实体或实体的组合执行。

本发明的一个或多个实施例或其元件可以以计算机程序产品的形式实现，该计算机程序产品包括具有用于执行所示方法步骤的计算机可用程序代码的计算机可读存储介质。此外，本发明的一个或多个实施例或其元件可以以系统(或设备)的形式实现，该系统(或设备)包括存储器、以及至少一个耦合到存储器并可操作以执行示例性方法步骤的处理器。在另一方面，本发明的一个或多个实施例或其元件可以以用于执行本文所述的一个或多个方法步骤的装置的形式实现；该装置可以包括(i)硬件模块，(ii)存储在计算机可读存储介质(或多个这样的介质)中并在硬件处理器上实现的软件模块，或(iii)所述硬件模块和软件模块的组合；上述(i)至(iii)的任何一项都能实现本文所述的特定技术。

本发明的技术能够提供实质性的有益技术效果。例如，一个或多个实施例可以提供：

a、前向(forward-oriented)动态路由，其保留输入文本中的序列和语义；

b、在一个网络中一起提取n元语法特征(局部特征)、文档全局特征和序列相关特征；以及

c、利用虚拟对抗训练来训练胶囊网络(capsules network)，以防止过度拟合(over-fitting)，并提高准确性。

本发明的这些和其他特征及优点，从下面结合各附图所作的对本发明的示例性实施例的详细描述中，将变得显而易见。

附图说明

下面将参考附图更详细地描述本发明的优选实施例：

图1是根据本发明的一个或多个实施例的单词嵌入的方法和通过卷积产生的胶囊的示图。

图2是根据本发明一些实施例的在两个胶囊层和长短期存储器层(long short-term memory layer)之间的前向动态路由的方法的示图；

图3是根据本发明实施例的使用神经网络处理和标注文本的方法的流程图；

图4描绘了根据本发明一些实施例的实现神经网络架构的系统的示意图；和

图5描绘了可用于实现本发明的一个或多个方面和/或元件的计算机系统。

具体实施方式

本发明的实施例涉及文本分类，更具体地涉及训练体现为一种自然语言文本分类器系统的神经网络架构的方法。根据本发明的一些实施例，可以在稀疏标注的数据集上训练神经网络架构，其中，该神经网络架构考虑文本的语义，并实现改进的性能。根据一些实施例，将该神经网络架构被配置为处理其中仅标注了一小部分文本的基于文本的数据，诸如在一类文档中仅标注了为数不多的文档时的那样。根据本发明的一个实施例，所述神经网络架构被配置为保留语义和文本内所标识的语义的顺序依赖关系(sequential-dependencies)，所述语义和语义的顺序依赖关系可用于对文本进行分类(例如，标识情感、标识文档群组等)。

根据本发明的一些实施例，与连续的标签相比，标签是分类的。这些标签可以包括用户(例如，人类读者)想要指定到文本的任何标签(例如类别、主题、情感、标题等)。

根据本发明的一个或多个实施例，自然语言文本分类器系统把基于文本的数据对象(例如文档、段落、语句、文稿等)分类为不同的类别。这些类别是预先定义的，例如类别A、类别B、类别C等等，以便可以将几个不同的数据对象分类为属于类别A、类别B或类别C。

在本发明的一些实施例中，文本分类器系统的功能可以实现为一个操作该神经网络架构的学习系统，其是一种机器学习架构。机器学习描述了从数据中学习的电子系统的功能。可以训练神经网络架构来学习输入和输出之间的当前未知的函数关系。神经网络架构的机器学习功能，使用稀疏标注的数据集学习文本分类。根据本发明的一些实施例，稀疏标注的数据集包括标注的部分和超出标注的部分的未标注的部分。根据本发明的至少一个实施例，稀疏标注的数据集包括不到约5％的标注的数据。应当理解，本发明的至少一些实施例也适用于密集标注的数据集。

神经网络受到生物神经网络的启发。典型的神经网络被配置为一组卷积层，每一层包含一个或多个神经元，其中每个神经元连接到相邻层的所有神经元。每个连接都有一个表示该连接的相对强度的权重。

可以将神经网络的给定层归类为输入层、隐藏层或输出层。每一个神经网络都有一个输入层和一个输出层，以及位于输入层和输出层之间的一些隐藏层。神经网络体现为一个分类器，该分类器被配置为在每个两层之间的边界处、根据从前一层神经元向后一层神经元发送的信号和连接这两层的连接的权重，作出某种决策。

神经网络可以体现为由相互连接的处理器元件(例如物理处理器和/或虚拟处理器元件)组成的神经形态系统，这些元件充当用来交换信号的神经元。神经网络中的连接在处理器元件或神经元之间传送信号。连接上的权重是至少部分地基于经验而可调节的，使得神经网络对输入具有自适应性和学习能力。文本分类器的实施例包括被配置为在保留语义的同时对稀疏标注的文本文档进行分类的神经网络。

根据本发明的一个或多个实施例，改进的神经网络架构包括多个胶囊层，胶囊对其输入执行内部计算，并将这些计算的结果封装到信息性输出的向量中。每个胶囊学习捕获包括标注的和未标注的文本样本的文本上隐式定义的全局特征或实体(例如，信息性单词序列)。每个胶囊输出一个指示其各自的全局特征是否存在于文本内的分数，并捕获映射参数，所述映射参数可能包括相对于隐式定义的全局特征的规范版本的全局特征的精确参数。文本中存在的全局特征的分数是局部不变的，即针对在胶囊所覆盖的有限域内的可能的表观流形(a manifold of possible appearances)的全局特征的不同实例不变。映射参数是等变的(equivariant)，随着文档/文本的变化和全局特征在表观流形(appearancemanifold)上的移动，映射参数按相应的量改变，这是因为映射参数代表表观流形上全局特征的固有坐标。输出显式映射参数的胶囊的一个优点是，胶囊提供了一种通过识别局部来识别整体(即实体)的方法。

根据本发明的一个实施例，一种改进的神经网络体系结构被配置为，除了用长短期存储器层捕获的顺序特征，还通过用重构成胶囊(的层)的卷积层捕获一个或多个文档(即原始文本)内的n元语法(n-gram)特征(局部)，从而对文本进行分类。

应该理解，n元语法特征是指给定文本样本中的n个项的连续序列。根据应用，这些项可以是音素、音节、字母、单词或基对(base pairs)。通常，在n元语法语言模型中，单词的概率以一定数量的先前单词为条件，并可被描述为遵循类别分布。

通常，卷积神经网络(CNN)是一种卷积层与池层(pooling layers)交织的前馈神经网络。卷积神经网络最初是为图像处理而开发的(例如实现为用来模糊化或锐化图像的图像滤波器)。根据本发明的一个实施例，在文本分类领域，卷积层捕获多个小数据区域中的特征(例如特定的n元语法特征)，并且，在每个位置，对应的特征被转换成低维向量，与任务相关的信息被保留，这里称之为卷积映射。该映射在所有位置之间共享，因此可以检测到有用的特征，而不关它们的位置如何。可以将输入文本中的文档表示为一个密集向量序列，其中每个向量表示多维空间中的一个单词，卷积层在每个位置将文档的小区域(例如特定的n元语法特征)转换为低维向量(这是文本区域的卷积映射)。根据本发明的一个或多个实施例，改进的神经网络架构不包括池层。

胶囊是一组神经元，其活动向量表示特定类型实体的实例化参数，在本例中，是特定的n元语法特征。卷积层从少量的标注的数据中提取语义特征。此外，通过将卷积层重组为胶囊层(参见图1)来提取全局特征，并且在第一胶囊层和第二胶囊层之间执行前向的动态路由(参见图2)。第一层和第二层胶囊之间的连接，以及每个连接的权重，使得能够从输入文本中提取顺序特征和语义特征。

至于胶囊层之间的前向动态路由，其捕获输入文本的全局特征，每个胶囊是一组神经元，其活动向量表示n元语法特征中对应的一个的实例化参数。活动向量的长度表示实体在文本中出现的概率。位于一个层的活性胶囊通过转换矩阵对更高层的胶囊的实例化参数进行预测。当多个预测一致时，更高层的胶囊就变为活动的。根据本发明的一些实施例，胶囊层之间的连接以这样的方式定义(即为前向动态路由而配置)，即更高层的胶囊不接收来自较低层的序列中稍后到达的胶囊的输入。因此，前向动态路由保持较高胶囊层中的序列。

根据一些实施例，可以通过虚拟对抗训练和未标注的数据来通用化(经训练的)神经网络架构，以防止过度拟合并使神经网络对未见过的数据更加精确。一般来说，对抗性训练提供了一种正规化有监督的学习方法的手段，虚拟对抗性训练将有监督的学习算法扩展到半监督的环境。根据本发明的一些实施例，虚拟对抗训练包括对训练神经网络中的单词嵌入应用扰动，使得经训练的神经网络学习使扰动对于分类来说无关紧要。

根据本发明的实施例，由实现仅以每类中的少量的标注的文档训练的文本分类器的神经网络架构来预测输入文本的类别；实现支持一种维持原始文本的关系和语义的读取文本的方法。

根据本发明的一个或多个实施例，实现文本分类器的神经网络架构可应用于数据科学和人工智能(AI)业务，包括对大型文档语料库的分析，诸如处理呼叫中心笔录、大量关于投诉、控制、发布等文本。作为非限制性的例子，大型语料库可以包含数千到数百万的文档，要采用人工处理是不切实际的(例如由于时间的限制)。

参考图1，根据本发明的一个实施例，将神经网络架构配置为对输入文本101(例如“Data Science Elite Team is awesome.”(数据科学精英团队太棒了。)进行分类，这是在通过长短期存储器层(参见203，图2)捕获的顺序特征之外，还通过使用重组为用于捕获文本的全局特征的胶囊104的卷积滤波器103捕获文档内部的n元语法特征102(局部的)而实现的。换句话说，神经网络架构包括形成卷积滤波器的具有连接(以及这些连接上的权重)的神经元，以及嵌套在卷积滤波器中具有自身权重(即胶囊参数)的胶囊。应当理解，卷积网络103的每一层代表一个卷积映射(即，一个滤波器，例如滤波器105)的所有n元语法特征。在卷积滤波器中，一个胶囊(例如胶囊104)表示一个实体(例如，一个局部特征)。这些层(即包括胶囊—例如胶囊104—的卷积层103和长短期存储器层203)有效地从少量标注的数据中提取局部特征、全局特征和语义特征，从而使得能够对输入文本进行分类。

根据本发明的一个或多个实施例，将单个神经网络架构配置为使用胶囊(在卷积层内)和长短期存储器层将n元语法特征(局部特征)、文档全局特征和序列相关特征一起提取出来。此外，通过将卷积层重组为胶囊层(参见图1)并执行连接第一胶囊层201和第二胶囊层202的前向动态路由(参见204，图2)来提取全局特征(例如，文档全局特征)。应当理解，第二胶囊层的胶囊是在结构上类似于第一胶囊层的可训练向量。根据本发明的一些实施例，在保留序列和语义的前向动态路由204中，第二层202中的每个胶囊的输入都是由第一层201中的胶囊的输出构成的。第二层202中的每个胶囊将仅使用第一层201中匹配的胶囊和该层中该匹配的胶囊之前的那些胶囊(第1到第(n-1)个)的输出。第一层的第n个胶囊是第二层的第n个胶囊的匹配的胶囊。

鉴于上述情况，如图2所示，第二胶囊层202的第一个胶囊207仅接收一个输入(即，来自第一胶囊层201的第一个胶囊208的)。类似地，第二胶囊层202的第二个胶囊209接收两个输入(即，来自第一胶囊层201的第一个和第二个胶囊208和210)。

第一胶囊层和第二胶囊层之间的连接，以及胶囊的权重(即参数)，使得能够提取原始文本的顺序特征和语义特征。应当理解，顺序特征捕获给定文本的序列(sequence)。根据本发明的一些实施例，文本内容被识别为顺序内容，因此保留和提取文本的顺序性质是重要的。此外，应该理解，语义特征捕捉文本和单词在其给定上下文中的含义。

根据一些实施例，使用虚拟对抗训练和未标注的数据来通用化(参看图3的308)神经网络架构，以防止过度拟合并使神经网络对未看到过的数据更加精确。根据本发明的一个或多个实施例，通用化(generalization)308是用虚拟对抗训练来训练神经网络权重(包括卷积滤波器、胶囊参数和长短期存储器的自适应)，它可以防止神经网络架构过度拟合标注的数据，提高神经网络架构的准确性。

根据本发明的一个实施例，参照图3，在给定用来训练基于神经网络的文本分类器的未标注的和标注的文本文档301的语料库的情况下，将文本从未标注的和标注的文本缩减为文本段302，用作单词嵌入(word embedding)层303的输入。单词嵌入层303将单词映射到m维空间(如图1中的102所示)，将文本转换为数值。在一个示例性情况下，可以使用256维。维度数可以是一个为给定应用选择的自由参数。注意，单词嵌入303从所述文本段确定n元语法(例如，3元语法)特征。通过应用相同大小的不同卷积核(滤波器)304来确定多个不同的滤波器(例如200个滤波器)，其中每个卷积核具有单词嵌入的宽度(在本示例性情况下为256)和特定的高度(例如n＝3)。卷积核(滤波器)从文本提取和学习实体特征305。所学的实体特征是胶囊的输入向量。换句话说，卷积层神经元的输出被重新组织到胶囊中(参见图1的104)，使得胶囊可以准确地表示所学的实体。根据本发明的一些实施例，每个向量表示一个实体(例如，n元语法特征)，同时仍然保持这些实体的顺序次序，这是局部特征。因此，在框305处向量定义胶囊。应当理解，胶囊的序列(例如，在图2中显示为自上而下的序列)对应于在分段期间由滑动窗口发现的实体的序列，从而保持在输入文本中发现的实体的顺序次序的记录。在另一个示例中，如图1所示，n元语法滤波器核102可以对应于在输入文本“Data Science Elite Team is awesome.”中发现的第一个实体。该第一个发现的实体可以是胶囊层的第一个或顶部胶囊。

通过前向动态路由306，第一胶囊层201的实体(例如n元语法)特征被传送到第二胶囊层202。后一胶囊层包括一组通过前向动态路由连接到第一层的胶囊。第二胶囊层具有与第一层相同的结构。在将第二胶囊层的输出传送到长短期存储器层203之前，这两个胶囊层之间的前向动态路由捕获文本的全局特性。根据本发明的一个或多个实施例，对胶囊层之间的连接进行定义，使得第二层中的胶囊不接收来自序列中后来的胶囊的输入。这将保留第二个胶囊层中的序列。长短期存储器层203提取文本307的顺序特征。

应当理解，图3的方法300在方框303、306和307处分别基于文本的局部特征、文本的全局特征和文本的语义特征来处理文本，基于在这些方框处的处理更新神经网络的参数。应当理解，一旦神经网络已经被训练，神经网络的参数就被冻结，并可以使用神经网络处理新的文本语料库，以实现其它目的—方框309，例如，根据分类识别文档的群组等等。就是说，可以将训练后的神经网络应用到文本分类任务中的新文本。根据一些实施例，后训练过程309可以包括一个验证过程，该验证过程可以验证所学习的参数；就是说，可以将神经网络的输出传送到另一个计算机系统。

本领域普通技术人员将认识到，对文本的分割302可以使用各种已知方法中的任何一种来执行。例如，文本分割302可以包括使用滑动窗口来(例如，滑块的一个话语移位)生成长度为x(例如100个字符)的话语片段。在一些实施例中，可以将生成的片段进行标记化和词形化(即对同一单词的变体形式进行分组)，可以移除停止词(例如，“the”、“is”和“are”)，并且可以生成n元语法短语，其中将高频共现的符记(token)组合在一起(例如“credit card”、“debit card”、“account”、“amount”等)。在一些实施例中，在移除停止词期间，可以删除诸如“thank you”之类的共现术语。根据本发明的至少一个示例性实施例，在方框303处单词嵌入包括为每个片段创建特征向量。

本领域普通技术人员将理解，长短期存储器(LSTM)是一种人工递归神经网络(RNN)架构。示例性长短期存储器层包括多个单位，例如205，其包括单元(cell)、输入门、输出门和遗忘门(forget gate)。单元可以记住任意时间间隔内的值，而这三个门可以调节进出单元的信息流。换句话说，在典型的长-短期存储器中，单元跟踪输入序列中元素之间的依赖关系，输入门控制新值流入单元的程度，遗忘门控制值保留在单元中的程度，输出门控制单元中的值的被用于确定长短期存储器的输出激活的程度。进出这些门的连接都是加权的。权重是在训练期间学习到的，决定了这些门的操作方式。本发明的实施例不限于本文所描述的长短期存储器的示例性结构；本领域的普通技术人员将能理解和设想到长短期存储器单元的结构的各种变体。

根据本发明的一些实施例，采用一个损失函数(loss function)，通过减少(例如最小化)系统的损失函数来优化神经网络。优化是用来寻找能减少(例如最小化)损失函数的值的系统参数，其指示系统在训练期间对解的近似程度。

根据本发明的实施例，最后的长短期存储器单元205的输出206是标签的概率分布，其进而又由损失函数使用。根据输入(例如图1的101)是标注的还是未标注的，使用不同的损失函数，并在每次迭代结束时将它们相加。在这种情况下，一次迭代包括将文本数据输入到系统中并用于一个训练周期。在此迭代之后，优化器使用损失函数的输出来改进该系统的神经网络的参数(例如可训练的权重，包括映射参数、卷积滤波器的神经元权重，胶囊的权重和长短期存储器层中的权重)。随着神经网络从训练文本数据中的学习，这些迭代(即接收新的文本数据并改善参数)被重复多次。使用交叉熵损失(cross-entropy loss)函数来处理标注的输入，使用虚拟对抗损失函数来处理未标注的输入。根据一些实施例，使用优化器(例如Adam Optimizer，其是梯度下降优化的改编)来优化损失函数以改善系统的参数。根据本发明的一个或多个实施例，神经网络在每次迭代中都需要标注和未标注的数据作为输入。

虚拟对抗损失函数通过使用由神经网络推断出来的预测分对数(logits)来利用未标注的数据。虚拟对抗损失函数扰动单词嵌入层，使得扰动的和非扰动的分对数之间的差异增大(例如最大化)。

本发明的实施例不限于严格的半监督场景；实施例也可以在有监督的场景中使用。

根据一个或多个实施例的示例性实施方式，在公司具有针对给定风险的具有不同控制(文本描述)的多个管理程序的情况下，这些控制具有不同的属性和不同的分类法。一个管理群组/程序可能具有其他管理程序不使用的特殊分类法，但是公司可能希望将此分类法扩展到所有程序编写的所有控制。

这种情况下的一个问题是，这个管理程序的标注的数据的数量有限，当与所有现有控制进行比较时，标记的数据占总数据的比例很小。仅针对来自该程序/群组的标记的数据来训练神经网络，将导致模型不佳。根据本发明的一些实施例，当可以考虑针对所有数据(未标注和标注的)来训练神经网络时，所得到的神经网络将更加强大和通用。该神经网络可以实现为一个强大的文本分类器，被配置为可以将这个特定分类法扩展到到公司内部的所有控制。

神经网络通过捕获控制(文本描述)的本地、全局和顺序特征，能够捕获标注的数据和未标注的数据中的附加细节(例如文本的分类)。根据一些实施例，文本的可用类别是为特定应用预定义的。例如，根据本发明的实施例操作的系统，可以按类型(例如情绪)或严重性、识别的群组(例如，对不同产品或服务感兴趣的客户群组)、按照层次结构的用户群组等，对客户投诉进行分类。应当理解，本文描述的实施例是可实现的分类的非限制性的示例。本领域普通技术人员将理解，根据本发明实施例的神经网络可用于各种应用。

根据本发明的一些实施例，提供了一种配置用于文本分类的神经网络架构，其使得自然语言处理系统能够对输入文本进行分类。图4描绘了一个布置成与计算机网络401通信的神经网络架构400的示例性实施例的示意图。神经网络架构400在一个或多个计算设备402上实现。计算机网络401连接包括一个或多个处理器和一个或多个存储器的计算设备402。根据一些实施例，计算机网络401连接本领域中通常已知的其他计算设备元件，包括总线、存储设备、通信接口等。计算机网络401通过一个或多个有线和/或无线数据通信链路，便利所连接的设备和组件之间的通信，其中每个通信链路包括有线、路由器、交换机、发射机、接收机等中的一个或多个。神经网络架构400和计算机网络401使得能够通过相应的计算设备403-404对一个或多个系统用户输入的文本进行分类。神经网络架构400的其它实施例可与所描述的组件、系统、子系统和/或设备以外的组件、系统、子系统和/或设备一起使用。

根据至少一个实施例，神经网络架构400接收来自不同来源的文本输入。例如，神经网络架构400从网络401接收来自(例如存储在数据库406上)电子文档405的语料库、系统用户403-404和/或其他数据和其他可能的输入源的输入。在一个实施例中，对神经网络架构400的输入的部分或全部是经由网络401路由的。网络401上的各种计算设备402包括内容创造者和自然语言系统用户的接入点。一些计算设备402包括用于存储数据语料库405的数据库的设备(为了说明的目的，在图4中示为单独的实体)。还可以在一个或多个其他网络连接存储设备、一个或多个数据库或未明确示出的其他计算设备上提供一部分数据语料库405。在各种实施例中，网络401包括本地网络连接和远程连接，使得神经网络架构400可以运行在任何大小的环境中包括本地环境和全局环境，例如因特网。

概括总结

根据本发明的一个或多个实施例，一种训练神经网络在保持语义的同时对稀疏标注的文本文档进行分类的方法包括接收包含标注的部分和超过标注的部分的未标注的部分的文本语料库(301)，从文本语料库中提取多个局部n元语法特征和局部n元语法特征的序列(303)，使用多个卷积层处理局部n元语法特征以确定多个胶囊的胶囊参数，所述多个胶囊被配置为保持该局部n元语法特征序列(305)，执行在多个胶囊之间的前向动态路由以提取文本语料库的多个全局特征(306)，以及使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库中提取多个全局顺序文本依赖关系(307)，其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。

一旦神经网络经过训练(见图3)，就可以冻结神经网络的参数。参数的状态可以被用于进一步的分类任务。如果需要，可以在后期使用进一步标注的(例如，稀疏标注的)的输入文本重新训练神经网络。

根据本发明的一个或多个实施例，在计算机系统上执行的神经网络系统包括第一多个处理元件(103)、第二多个处理元件(104)和第三多个处理元件(203)，第一多个处理元件(103)被配置为从文本语料库中提取多个局部特征和局部特征的序列，其中文本语料库是稀疏标注的，第二个多个处理元件(104)被配置为提取文本语料库的多个全局特征，其中，处理元件被构造为胶囊，该胶囊被配置为保持局部特征的序列，第三多个处理元件(203)被配置为在给定第一多个处理元件的输出的情况下，从文本语料库中提取多个全局顺序文本依赖关系，其中第三多个处理元件被构造为长短期存储器层，该长短期存储器层被配置为输出由第一多个处理元件和第二多个处理元件生成的所有标签的概率分布。

根据本发明的一个实施例，一种训练高性能文本分类器系统的方法捕获文本数据中的语义信息。该方法提取语句内部的局部特征(n元语法特征)和全局特征及语义。本发明的一些实施例使用可用于正规化(regularization)的虚拟对抗训练。鉴于上述说明，本发明的实施例在未标注的训练数据的情况中是可行的。

根据本发明的一个或多个实施例，使用胶囊和这些胶囊之间的前向动态路由来提取全局特征，同时保持顺序依赖关系。

根据一些实施例，使用卷积层、胶囊层和长短期存储器层的组合来提取语义序列特征(全局特征)。

根据本发明的至少一个实施例，通过在胶囊之间的前向动态路由来保留语句中的单词序列，胶囊之间的连接遵守单词序列。

根据本发明的一个或多个实施例，神经网络对语义的顺序依赖关系进行建模，其保留语句中的单词序列，并在对抗性训练方面进行正规化，使得神经网络对有待分类的文本中的噪声或扰动具有鲁棒性。

根据一些实施例，神经网络利用前向动态路由，使未标注的数据能够用于增强模型性能。

本发明实施例的方法尤其适合于在电子设备或替代系统中使用。因此，本发明的实施例可以采取完全硬件实施例或结合软件和硬件方面的实施例的形式，这些方面在本文中通常可以称为“处理器”、“电路”、“模块”或“系统”。

此外，应当注意，本文描述的任何方法可以包括提供用于组织和服务计算机系统的资源的计算机系统的附加步骤。此外，计算机程序产品可以包括有形的计算机可读可记录存储介质，其具有的代码适于被执行以实现本文所述的一个或多个方法步骤，包括提供具有不同软件模块的系统。

本发明的一个或多个实施例或其元件可以以装置的形式实现，所述装置包括存储器和至少一个处理器，处理器耦合到存储器并可操作以执行示例性方法步骤。图5描绘了可用于实现本发明的一个或多个方面和/或元素的计算机系统，该计算机系统还代表根据本发明的实施例的云计算节点。现在参考图5，云计算节点10仅是合适的云计算节点的一个示例，其无意暗示对本文所描述的本发明的实施例的使用范围或功能性的任何限制。无论如何，云计算节点10能够被实现和/或执行上文所述的任何功能。

在云计算节点10中有一个计算机系统/服务器12，它与许多其他通用或专用计算系统环境或配置一起运行。可与计算机系统/服务器12一起使用的已知计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统或设备的分布式云计算环境等。

可以在由计算机系统执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述计算机系统/服务器12。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可在分布式云计算环境中实施，其中由通过通信网络连接的远程处理设备执行任务。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

如图5所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图中未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

因此，一个或多个实施例可以利用在通用计算机或工作站上运行的软件。参照图5，这样的实现可以例如将处理器16、存储器28和输入/输出接口22应用于显示器24和诸如键盘、指针设备之类的外部设备14。本文中使用的术语“处理器”旨在包括任何处理设备，诸如包括CPU(中央处理单元)和/或其他形式的处理电路的处理设备。此外，术语“处理器”可指多个单独的处理器。术语“存储器”旨在包括与处理器或CPU相关联的存储器，诸如RAM(随机存取存储器)30、ROM(只读存储器)、固定存储器设备(例如硬盘驱动器34)、可移动存储器设备(例如软盘)、闪存等。此外，如本文所使用的短语“输入/输出接口”旨在设想一个接口，其接合到例如一个或多个用于向处理单元(例如，鼠标)输入数据的机构，以及一个或多个用于提供与处理单元(例如，打印机)相关联的结果的机构接合。处理器16、存储器28和输入/输出接口22可以例如经由作为数据处理单元12的一部分的总线18互连。也可以将适当的互连(例如经由总线18)提供给网络接口20和媒体接口，诸如网卡的网络接口能被提供用来与计算机网络接合，诸如软盘或CD-ROM驱动器的媒体接口能被提供用来与适当的媒体接合。

因此，如本文所述，包括用于执行本发明方法的指令或代码的计算机软件可以存储在一个或多个相关存储设备(例如ROM、固定或可移动存储器)中，并且在使用的准备就绪时，可以被部分加载或全部加载(例如加载到RAM中)，并由CPU执行。此类软件可以包括但不限于固件、驻留软件、微码等。

适于存储和/或执行程序代码的数据处理系统将包括至少一个处理器16，该处理器16通过系统总线18直接或间接地耦合到存储器元件28。存储器元件可以包括在程序代码的实际执行期间使用的本地存储器、大容量存储器和高速缓冲存储器32，高速缓冲存储器32提供至少一些程序代码的临时存储，以减少在执行期间必须从大容量存储器中检索出代码的次数。

输入/输出或I/O设备(包括但不限于键盘、显示器、指针设备等)可以直接或通过居间的I/O控制器耦合到系统。

网络适配器20也可以耦合到系统，以使得数据处理系统能够通过居间的专用或公用网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是目前可用的几种网络适配器。

如本文中、包括权利要求中所用的，“服务器”包括运行服务器程序的物理数据处理系统(例如，如图5所示的系统12)。应当理解，这样的物理服务器可以包括也可以不包括显示器和键盘。

应当注意，本文所述的任何方法可以包括提供包含体现在计算机可读存储介质上的不同软件模块的系统的附加步骤。所述模块可以包括例如框图中所示和/或本文所述的任何或所有适当元件，作为示例而不是限制所描述的模块/方框和/或子模块/子框的任何一个、部分或全部。然后，可以使用如上所述在诸如处理单元16的一个或多个硬件处理器上执行的系统的不同软件模块和/或子模块来执行方法步骤。此外，计算机程序产品可以包括计算机可读存储介质，其代码适于实现以执行本文所述的一个或多个方法步骤，包括提供具有不同软件模块的系统。

在某些情况下可以使用的用户界面的一个例子是由服务器等向用户的计算设备的浏览器提供的超文本标记语言(HTML)代码。浏览器在用户的计算设备上解析HTML以创建图形用户界面(GUI)。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现

本文中使用的术语仅用于描述特定实施例，并非意在限制本发明。如本文所用，单数形式“一个”、“一”和“该”也意在包括复数形式，除非上下文另有明确指示。应进一步理解，术语“包含”和/或“包括”在本说明书中使用时，规定了所述特征、整数、步骤、操作、元素和/或组件的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合。

以下权利要求中的所有装置或步骤加功能元素的相应结构、材料、动作和等效物旨在包括用于结合具体权利要求中的其他特征元素来执行功能的任何结构、材料或动作。本发明的描述是为了说明和描述的目的而提出的，但并非意在穷尽或是限制所公开的形式的本发明。在不脱离本发明的范围和精神的情况下，本领域普通技术人员可以明了许多修改和变化。对实施例的选择和描述是为了最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解针对各种实施例的本发明，这些实施例具有适合于预期的特定用途的各种修改。

Claims

1.一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法，包括：

接收文本语料库，文本语料库包含标注的部分和超出标注的部分的未标注的部分；

从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列；

使用多个卷积层根据局部n元语法特征处理文本语料库，以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数；

使用胶囊参数执行多个胶囊之间的前向动态路由，以提取文本语料库的多个全局特征，其中，所述多个胶囊包括第一胶囊层中的胶囊和第二胶囊层中的胶囊，第二胶囊层中的每个胶囊的输入是由第一胶囊层中的胶囊的输出构成的；以及

使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库提取多个全局顺序文本依赖关系，

其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。

2.根据权利要求1所述的方法，进一步包括：

冻结神经网络的参数；以及

将神经网络应用于新输入的文本，以根据神经网络的参数来确定标签。

3.根据权利要求1所述的方法，其中，第二胶囊层中的每个第n个胶囊的输入是从第一胶囊层中的第1个到第n个胶囊的输出接收的。

4.根据权利要求1所述的方法，其中，进一步包含对神经网络应用虚拟对抗训练以通用化所述胶囊。

5.根据权利要求4所述的方法，其中，虚拟对抗训练将多个被扰动的文本数据输入到神经网络中，其中，神经网络使胶囊适应被扰动的文本数据。

6.根据权利要求1所述的方法，其中，神经网络包括由卷积滤波器组、卷积滤波器内的一组胶囊以及长短期存储器层组成的多个层。

7.一种在计算机系统上执行的神经网络系统，包括：

第一多个处理元件，被配置为从文本语料库提取多个局部特征和局部特征的序列，其中，文本语料库是稀疏标注的；

第二多个处理元件，被配置为提取文本语料库的多个全局特征，其中，第二多个处理元件被构造成胶囊，该胶囊被配置为保留局部特征的序列，其中，所述文本语料库的多个全局特征是通过执行多个胶囊之间的前向动态路由来提取的，所述多个胶囊包括第一胶囊层中的胶囊和第二胶囊层中的胶囊，第二胶囊层中的每个胶囊的输入是由第一胶囊层中的胶囊的输出构成的；以及

第三多个处理元件，被配置为在给定第二多个处理元件的输出的情况下，从文本语料库中提取多个全局顺序文本依赖关系，其中第三多个处理元件被构造为长短期存储器层，其被配置为输出由第一多个处理元件和第二多个处理元件生成的所有标签的概率分布。

8.根据权利要求7所述的神经网络系统，其中，第一处理元件和第二处理元件是使用一组神经元的相同输出的不同配置。

9.根据权利要求7所述的神经网络系统，设置在计算机网络上以接收输入数据并输出标注的数据。

10.一种用于训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的计算机程序产品，包括计算机可执行指令，所述计算机可执行指令被配置为实现根据权利要求1至6的任何一项所述的方法的步骤。

11.一种系统，包括：

存储器，存储有程序代码；

与存储器耦合的处理器，被配置为从存储器读取程序代码以执行其中实现根据权利要求1至6的任何一项所述的方法的步骤的计算机可执行指令。

12.一种装置，包括一个或多个模块，所述一个或多个模块被配置用于实现根据权利要求1至6的任何一项所述的方法的所有步骤的功能。