CN113051394A

CN113051394A - 增强神经句子分类的系统和方法

Info

Publication number: CN113051394A
Application number: CN202011548124.5A
Authority: CN
Inventors: 荒木淳; K·L·黄
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-12-27
Filing date: 2020-12-24
Publication date: 2021-06-29
Also published as: US11544946B2; US20210201015A1; DE102020215928A1

Abstract

公开了一种通过采用外部知识来帮助构建具有目标含义的句子的知识库来对自然语言句子进行分类的系统和方法。所公开的系统和方法提供了适用于面向知识的领域（例如，领域特定的知识）的通用句子分类框架。该系统和方法可以在智能汽车售后辅助工具中实现，以辅助对描述了汽车维修的特定问题和解决方案的句子的标识。除了领域适应性之外，该系统和方法与语言无关，并且可以适用于任何自然书面语言。

Description

增强神经句子分类的系统和方法

技术领域

本公开涉及用于使用外部知识对自然语言句子进行分类的系统和方法。

背景技术

在自然语言处理（NLP）领域中，信息提取（IE）通常涉及从非结构化文本构造和组织信息资源。一旦完成，IE就使得能够在下游应用程序中高效且有效地利用（例如，搜索）信息。IE通常被用来借助于自然语言处理（NLP）技术来处理人类语言文本。然而，IE也可以被用于多媒体文档处理，以处理图像/音频/视频/文档中的自动注释和内容提取。

发明内容

根据一个实施例，公开了一种用于对自然语言句子进行分类的系统和方法。该系统和方法可以包括：接收文本句子；以及对文本句子进行编码以产生低维文本向量表示。知识图可以使用一个或多个关系三元组来构造，该关系三元组包括主语、宾语以及该主语与宾语之间的关系。可以使用一个或多个关系三元组对知识图进行编码，以产生低维知识向量表示。可以标识低维知识向量表示与低维文本向量表示之间的一个或多个链接。可以使用该一个或多个链接对文本句子进行分类。

可以使用翻译嵌入TransE算法或ConvE算法对一个或多个关系三元组进行编码。知识图也可以被嵌入以生成用于一个或多个关系三元组的向量表示池。可以从文本低维向量表示中检索前K个相关实体。

附图说明

图1描绘了示例性计算系统。

图2图示了使用外部知识进行句子分类的流程图。

图3图示了示例性卷积神经网络。

图4图示了示例性知识图。

具体实施方式

在本文中描述了本公开的实施例。然而，要理解的是，所公开的实施例仅是示例，并且其他实施例可以采取各种替换形式。这些图不一定是按比例的；一些特征可能会被放大或最小化以示出特定组件的细节。因此，本文中公开的特定结构和功能细节不应被解释为限制性的，而仅仅是作为教导本领域技术人员以各种方式采用实施例的有代表性的基础。如本领域普通技术人员将理解的，参照任何一个图所图示和描述的各种特征可以与在一个或多个其他图中图示的特征进行组合，以产生未明确图示或描述的实施例。所图示的特征的组合为典型应用提供了有代表性的实施例。然而，对于特定的应用或实现方式来说，可能期望与本公开的教导一致的特征的各种组合和修改。

提到将IE用于文本应用程序，通常理解的是，单个句子可以是用于传达特定类型知识的适当信息单元。例如，句子“我的汽车喇叭不发出声音”可以被理解为描述汽车喇叭声音问题的句子。还可以理解的是，整个句子是汽车问题描述的理想单位，因为子句短语（即，“不发出声音”）仅部分传达了问题。如该示例所示，句子分类可以被看作一个IE任务，其被用来形成具有目标含义（例如，汽车问题）的句子的结构化知识库（KB）。

句子分类在NLP领域得到了广泛的研究。然而，大多数现有句子分类系统都集中在以下模型上，这些模型在人工注释的数据集上进行训练，以学习与目标标签相关联的语言规律性，因此缺乏与外部知识充分整合的能力。这样的知识对于面向知识的句子分类任务可能是有用的。

例如，陈述“我的汽车的后挡板打开至67英寸”的句子可能描述了汽车问题（即，后挡板未打开至期望高度）或关于后挡板的事实陈述（即，打开的后挡板的预期高度）。确定该句子是事实陈述还是汽车问题可能需要有关车辆的、面向外部知识的且领域特定的信息（例如，后挡板的预期打开宽度）。

这样的外部知识可以帮助增强对所提供句子的理解及其含义。还设想到，可以通过使用机器学习算法来提供这样的帮助，该机器学习算法将由神经句子编码器构造的句子嵌入与从知识图检索的相关知识图嵌入进行组合。

图1描绘了可以被用于使用外部知识对自然语言句子进行分类的示例性系统100。系统100可以包括至少一个计算设备102。例如，系统100可以是被设计成在手持式平板设备上操作的Bosch®ESI诊断工具，其使得技术人员能够有效地诊断和维修重型卡车和商用车。

计算系统102可以包括：至少一个处理器104，其可操作地连接到存储器单元108。处理器104可以是实现中央处理单元（CPU）106的功能的一个或多个集成电路。可以设想到，CPU 106也可以是实现通用处理单元或专用处理单元（例如，图形处理单元、ASIC、FPGA）的功能的一个或多个集成电路。

CPU 106可以是实现诸如x86、ARM、Power或MIPS指令集系列之一的指令集的商业上可获得的处理单元。在操作期间，CPU 106可以执行从存储器单元108检索的所存储的程序指令。所存储的程序指令可以包括：控制CPU 106的操作以实行本文中描述的操作的软件。在一些示例中，处理器104可以是片上系统（SoC），其将CPU 106、存储器单元108、网络接口和输入/输出接口的功能集成到单个集成设备中。计算系统102可以实现用于管理操作的各个方面的操作系统。

存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括：固态存储器（诸如NAND闪存）、磁性和光学存储介质，或者当计算系统102被停用或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器（RAM）。例如，存储器单元108可以存储机器学习模型110或算法、用于机器学习模型110的训练数据集112和/或原始源数据115。

计算系统102可以包括：被配置成提供与外部系统和设备的通信的网络接口设备122。例如，网络接口设备122可以包括：由电气和电子工程师协会（IEEE）802.11系列标准定义的有线和/或无线以太网接口。网络接口设备122可以包括：用于与蜂窝网络（例如3G、4G、5G）进行通信的蜂窝通信接口。网络接口设备122可以进一步被配置成向外部网络124或云提供通信接口。

外部网络124可以被称为万维网或互联网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许信息和数据在计算设备与网络之间容易地交换。一个或多个服务器130可以与外部网络124通信。

计算系统102可以包括：输入/输出（I/O）接口120，其可以被配置成提供数字和/或模拟输入和输出。I/O接口120可以包括用于与外部设备通信的附加串行接口（例如，通用串行总线（USB）接口）。

计算系统102可以包括：人机界面（HMI）设备118，其可以包括使得系统100能够接收控制输入的任何设备。输入设备的示例可以包括：人机接口输入，诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备。计算系统102可以包括显示设备132。计算系统102可以包括：用于将图形和文本信息输出到显示设备132的硬件和软件。显示设备132可以包括：电子显示屏、投影仪、打印机或其他用于向用户或操作员显示信息的合适设备。计算系统102可以进一步被配置成允许经由网络接口设备122与远程HMI和远程显示设备进行交互。

系统100可以使用一个或多个计算系统来实现。尽管该示例描绘了实现所有所描述特征的单个计算系统102，但是意图是可以通过彼此通信的多个计算单元来分离和实现各种特征和功能。所选择的特定系统架构可能取决于多种因素。

系统100还可以可操作用于实现机器学习算法110，该机器学习算法被配置成分析原始源数据115。原始源数据115可以包括自然语言句子或自然语言单词。然而，还设想到，原始源数据115也可以包括视频、视频片段、图像以及原始传感器数据或部分处理的传感器数据。在一些示例中，机器学习算法110可以是被设计成实行预确定功能的神经网络算法。

系统100可以存储用于机器学习算法110的训练数据集112。训练数据集112可以表示用于训练机器学习算法110的先前构造的数据集合。机器学习算法110可以使用训练数据集112来学习与神经网络算法相关联的加权因子。训练数据集112可以包括：具有机器学习算法110试图经由学习过程进行复制的对应成果或结果的源数据集合。在该示例中，训练数据集112可以包括：来自各种场景的源图像和深度图，其中可以标识出对象（例如，行人）。

机器学习算法110可以使用训练数据集112作为输入以学习模式进行操作。可以使用来自训练数据集112的数据在几次迭代中执行机器学习算法110。利用每次迭代，机器学习算法110可以基于所获得的结果来更新内部加权因子。例如，机器学习算法110可以将输出结果与训练数据集112中包括的内容进行比较。由于训练数据集112包括预期结果，因此机器学习算法110可以确定何时性能是可接受的。在机器学习算法110达到预确定性能水平（例如，与关联于训练数据集112的成果100％一致）之后，可以使用不在训练数据集112中的数据来执行机器学习算法110。经训练的机器学习算法110可以被应用于新的数据集以生成带注释的数据。

机器学习算法110还可以被配置成标识原始源数据115中的特征。原始源数据115可以包括需要注解结果的多个实例或输入数据集。例如，机器学习算法110可以被配置成标识图像中行人的存在并注释该发生。机器学习算法110可以被编程为处理原始源数据115，以标识特征的存在。机器学习算法110可以被配置成将原始源数据115中的特征标识为预确定特征。原始源数据115可以得自各种源。例如，原始源数据115可以是由机器学习系统收集的实际输入数据。原始源数据115可以是机器生成以用于测试系统的。作为示例，原始源数据115可以包括来自相机的原始数字图像。

在该示例中，机器学习算法110可以处理原始源数据115并且生成输出。机器学习算法110可以为所生成的每个输出生成置信度水平或因子。例如，超过预确定的高置信度阈值的置信度值可以指示机器学习算法110对于所标识的特征对应于特定特征是有信心的。小于低置信度阈值的置信度值可以指示机器学习算法110具有存在特定特征的某种不确定性。

图2图示了用于对文本陈述（即，句子）进行分类和理解的流程图200。在框202处，可以向系统100提供（例如，键入或说出）文本句子。可以将文本句子提供给框204，其中句子编码器被用来为文本句子产生低维向量表示。设想到，框204可以可操作用于使用机器学习模型110来将文本句子编码为低维向量表示，该机器学习模型可以使用长短期记忆（LSTM）网络或卷积神经网络（CNN）来设计。一旦被编码，框206就可以包括所提供的文本句子的完整表示。

例如，图3图示了CNN 300的非限制性示例，其包括：输入数据集310；一个或多个卷积层330-340；一个或多个池化层350-370；完全连接层380；和softmax层390。

尽管设想到输入数据集310可以是被提供给系统100的文本句子，但是也设想到输入数据集310可以包括原始图像或语音数据，或其他形式的文本数据。还设想到，在将输入数据集310提供给CNN 300之前，可以对其进行轻微处理。卷积层320-340可以可操作用于从输入数据集310提取特征。通常理解的是，卷积层320-340可以可操作用于在将结果传递给CNN 300的另一层之前应用过滤操作（例如，内核）。例如，对于给定的数据集，卷积层可以执行过滤例程以实行诸如图像标识、图像的边缘检测和图像锐化的操作。

还设想到，CNN 300可以包括：一个或多个池化层350-370，其从相应的卷积层320-340接收经卷积的数据。池化层350-370可以包括：一个或多个池化层单元，其将池化函数应用于使用池化函数计算不同频带的一个或多个卷积层输出。例如，池化层350可以将池化函数应用于从卷积层320接收的内核输出。由池化层350-370实现的池化函数可以是平均值或最大值函数或将多个值聚合为单个值的任何其他函数。

完全连接层380还可以可操作用于学习从卷积层320-340和池化层350-370接收的输出数据中的高级特征的非线性组合。最后，CNN 300可以包括：softmax层390，其使用softmax函数来组合完全连接层380的输出。设想到，图3所示的神经网络算法可以被配置成用于在汽车应用程序中运行，以针对有关汽车的设计和运行的文本句子产生低维向量表示。

参照图2，框208图示了知识图，该知识图可以被构造成定义一组对象（例如，车辆组件或操作参数）以及这些对象之间的操作参数。例如，图4图示了知识图400，其被设计成包括一组关系三元组，该关系三元组包括主语402、宾语404以及主语402与宾语404之间的关系406。该关系三元组可以被构造成使得定义被定义为关系三元组＝（主语，关系，宾语）。设想到，知识图400可以可操作用于允许全文搜索，然后可以使用全文搜索根据关系三元组（即，主语402、宾语404和关系406）来构造自然语言句子。例如，知识图400可以被构造成使得关系三元组被构造为主语402是“ 67英寸”、宾语404是“车辆后挡板”，并且关系406是“打开宽度”。基于此关系三元组，知识图400可以被用来构造句子，该句子的内容为：“车辆后挡板的打开宽度小于或等于67英寸。”

然而，进一步设想到，可以通过使用附加的关系三元组重复相同的过程、使用知识图400来创建附加的句子。例如，附加的主语408可以是“大于67英寸”，并且附加的关系410是“无法打开”。基于此关系三元组，知识图400可以被用来构造句子，该句子的内容为：“车辆后挡板不能延伸超过67英寸”。由知识图400构造的每一个句子可以被用来合成关于车辆的操作特性的文档。合成文档可以被加索引以提供全文搜索。例如，用于知识图400的合成实体文档可以被合成为文档，该文档提供关于给定车辆（例如，中型货车）的全文搜索。

在框210处，编码器被用来根据知识图生成上下文相关的知识向量。设想到，编码器可以使用诸如图CNN的机器学习算法进行操作。一旦被编码，框212就嵌入知识图以生成知识图的向量表示池，其中对象实体（即，主语和宾语）以及对象之间的关系被编码成低维向量。设想到，框212可以使用翻译嵌入（TransE）或多层卷积网络模型进行操作以用于链路预测（例如，ConvE），以根据知识图构造用于实体和关系的低维向量表示。设想到，通过使用知识图实体的低维嵌入，通过将每个关系解释为翻译来对关系进行建模，可以将TransE算法用于预测知识图的缺失关系。还设想到，可以在嵌入上使用二维卷积来设计ConvE模型，以预测知识图中的缺失链接。ConvE可以被设计为单个卷积层、到嵌入尺寸的投影层和内积层。

在框214处，检索算法用于使用在框202处提供的文本句子、从知识图中检索实体和关系。设想到，知识检索可能不同于当前由现代搜索引擎（例如，谷歌和必应）实现的已知文档检索系统。知识检索可以代替地用于从知识图检索实体和关系。例如，知识检索可以使用监督的知识图模型来操作，该模型优化了知识图中实体和关系上的注意力权重。然而，由于可能存在许多实体和关系，因此这样的知识图检索模型的计算强度可能很高。设想到，框214可以代替地使用来自知识图中的实体和关系的合成文档来利用类似于已知文档检索系统的有效知识检索机制。例如，框214可以对使用知识图创建的文档实行全文搜索。框214然后可以处理句子表示，以从知识图嵌入中检索前K个相关实体及其对应的实体嵌入。除了实体嵌入之外，框214可以用于通过获取与所检索到的实体相关联的关系来检索关系嵌入。框216然后可以用于生成从框214检索的相关实体和关系的表示。

然后，框218可以将框206提供的句子表示与框216提供的相关实体和关系表示进行整合。换句话说，在框218处实现的知识整合器将检索由知识图（例如，知识图300）提供的知识，该知识图可以被认为与在框202处提供的文本句子有关。

设想到，框218可以尝试通过采用实体检测和链接的子模块来标识句子中的实体提及与知识图中的实体节点之间的链接。所标识的链接可以被可操作地设计成使得句子中的实体提及可以基于知识库中的实体节点。所标识的链接还可以可操作用于使用接地实体作为触发来检索知识图所提供的相关知识。然而，理解的是，实体检测和链接在计算上是有问题的。例如，知识图内的子模块可能被错误识别的实体错误地构造，由此导致性能受阻。因此，设想到，框218可以通过直接接收从框206提供的文本句子作为对知识检索的查询来尝试克服所生成的错误，从而避免了对实体检测和链接的需要。由框218实行的形式化允许原始句子（即，在框202处提供的文本句子）被用作查询，以在计算上更有效的方式检索由框216提供的相关实体和关系，而无需使用复杂的实体和关系提取模块。

例如，框218可以将句子表示（来自框206）和检索到的实体和关系的表示（来自框216）进行组合。对于该组合，框218可以使用两个向量的级联或它们的加权平均值。然后将所得到的增强的句子表示提供给框220，在框220中，可以将其用于在人工注释的数据集上训练监督分类器（即，框222）。在框224处，将句子级标签应用于所生成的分类。

本文中公开的过程、方法或算法可以可传送给处理设备、控制器或计算机/可以由它们实现，它们可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地，可以以许多形式将过程、方法或算法存储为可由控制器或计算机执行的数据和指令，包括但不限于永久地存储在诸如ROM设备的不可写存储介质上的信息、以及可更改地存储在可写存储介质上的信息，该可写存储介质诸如是软盘、磁带、CD、RAM设备以及其他磁性和光学介质。该过程、方法或算法也可以在软件可执行对象中实现。替换地，可以使用合适的硬件组件（诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、状态机、控制器或其他硬件组件或设备，或者硬件、软件和固件组件的组合）来全部或部分地体现该过程、方法或算法。

尽管上面描述了示例性实施例，但是并不意图是这些实施例描述了权利要求所涵盖的所有可能的形式。说明书中使用的词语是描述的而不是限制的词语，并且理解的是，在不脱离本公开的精神和范围的情况下可以进行各种改变。如前所述，各种实施例的特征可以进行组合以形成本发明的另外实施例，这些实施例可能没有明确地描述或说明。尽管各种实施例可能已经被描述为提供优点、或优于其他实施例、或相对于一个或多个期望的特性是现有技术的实现方式，但是本领域普通技术人员意识到可以损害一个或多个特征或特性来实现期望的总体系统属性，这取决于具体应用程序和实现方式。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、可销售性、外观、包装、大小、可用性、重量、可制造性、易于组装等。照此，就任何实施例被描述为与其他实施例或现有技术实现方式相比、相对于一个或多个特性并不太合期望的程度，这些实施例不超出本公开的范围，并且对于特定应用而言可能是合期望的。

Claims

1.一种对自然语言句子进行分类的方法，其包括：

接收文本句子；

标识句子表示与合成文档之间的一个或多个链接，其中，所述句子表示是使用文本句子生成的，并且其中，所述合成文档是根据知识图生成的；以及

使用一个或多个链接对文本句子进行分类。

2.根据权利要求1所述的方法，其中，一个或多个关系三元组被用来构造知识图，其中，一个或多个关系三元组包括主语、宾语以及主语与宾语之间的关系。

3.根据权利要求2所述的方法，其中，使用一个或多个关系三元组来构造合成文档。

4.根据权利要求2所述的方法，进一步包括：对一个或多个关系三元组进行编码以产生用于知识图的一个或多个低维向量表示。

5.根据权利要求4所述的方法，其中，使用翻译嵌入（TransE）算法对一个或多个关系三元组进行编码。

6.根据权利要求4所述的方法，其中，使用多层卷积模型对一个或多个关系三元组进行编码以用于链路预测。

7.根据权利要求6所述的方法，其中，使用ConvE算法来设计多层卷积模型。

8.根据权利要求7所述的方法，其中，使用卷积层、投影层和内积层来设计ConveE算法。

9.根据权利要求2所述的方法，进一步包括：嵌入知识图以生成用于一个或多个关系三元组的向量表示池。

10.根据权利要求9所述的方法，进一步包括：对一个或多个关系三元组进行编码以产生一个或多个低维知识向量表示。

11.根据权利要求1所述的方法，进一步包括：对文本句子进行编码以产生低维文本向量表示。

12.根据权利要求11所述的方法，其中，长短期记忆网络被用来对文本句子进行编码，以产生低维文本向量表示。

13.根据权利要求11所述的方法，其中，卷积神经网络被用来对文本句子进行编码以产生低维文本向量表示。

14.根据权利要求13所述的方法，其中，卷积神经网络包括：一个或多个卷积层、一个或多个池化层以及完全连接层。

15.根据权利要求11所述的方法，进一步包括：从低维文本向量表示中检索前K个相关实体。

16.根据权利要求1所述的方法，进一步包括：给合成文档加索引，使其是文本可搜索的。

17.一种对自然语言句子进行分类的方法，其包括：

接收文本句子；

对知识图提供的一个或多个关系三元组进行编码以产生低维知识向量表示；

对文本句子进行编码以产生低维文本向量表示；

标识低维知识向量表示与低维文本向量表示之间的一个或多个链接；以及

使用一个或多个链接对文本句子进行分类。

18.一种可操作用于对自然语言句子进行分类的系统，其包括：

控制器，其可操作用于：

接收文本句子；

标识句子表示与知识实体和关系表示之间的一个或多个链接，其中，所述句子表示是使用文本句子生成的，并且其中，知识实体和关系表示是根据知识图生成的；以及

使用一个或多个链接对文本句子进行分类。

19.根据权利要求18所述的系统，其中，一个或多个关系三元组被用来构造知识图，其中，一个或多个关系三元组包括主语、宾语以及主语与宾语之间的关系。

20.根据权利要求19所述的系统，其中，使用一个或多个关系三元组来构造合成文档。