CN111742322A

CN111742322A - 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法

Info

Publication number: CN111742322A
Application number: CN201880090471.2A
Authority: CN
Inventors: 贺一帆; 赵林; 徐魁; 冯哲
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-12-29
Filing date: 2018-12-27
Publication date: 2020-10-02
Also published as: EP3732590A4; US20200342168A1; US11783179B2; EP3732590A1; WO2019133676A1

Abstract

一种用于自动生成术语定义知识库（KB）的方法，包括使用密集向量表示将单词序列中的每个单词映射到实值密集向量。然后，使用卷积神经网络（CNN）模型来处理所述单词序列，以标识所述单词序列是否包括术语定义，并且利用指示所述单词序列内是否存在术语定义的标记来标记所述单词序列。然后，使用条件随机场（CRF）模型来处理所述单词序列，以标识所述单词序列中的术语定义的边界。然后，提取术语定义并且将其添加到术语定义KB。

Description

用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法

相关申请的交叉引用

本申请要求He等人于2017年12月29日提交的题为“SYSTEM AND METHOD FOR DOMAIN-AND LANGUAGE- INDEPENDENT DEFINITION EXTRACTION USING DEEP NEURAL NETWORKS”的美国临时申请序列号62/611,577的优先权，该申请的公开内容通过引用在此整体地并入本文中。

技术领域

本发明涉及自然语言处理（NLP）、信息提取、术语处理和人机交互（HMI）的领域。

背景技术

知识库（KB）处于现代智能系统的最重要的支柱之中。KB既作为独立的产品或服务而提供，又使得能够实现下游应用，诸如问题回答和语义搜索：例如，为了由汽车专业人士来回答关于“直接注入”的问题，许多系统都依赖于关于汽车术语的预先构建的知识库。

基于KB的应用面临的主要障碍之一是：与手动KB构建、尤其是特定于领域的KB构建相关联的庞大成本，该KB构建需要领域专家进行大量繁琐的工作。

自动KB构建由于显著降低该成本的可能性而吸引了很多兴趣。然而，大多数自动KB构建仍然依赖于复杂的机器学习算法和精心策划（curate）的特征，并且它仍然需要相当多的努力来设计这些算法和特征并且使这些算法和特征适应不同的语言，这将使所需的努力倍增。

发明内容

提出了一种用于从自由文本中提取术语定义的系统，该系统不需要特征设计并且独立于领域和语言两者。它利用无监督式单词向量来捕获单词中的语义信息，并且利用CNN和CRF模型来分别检测定义的存在和边界，从而产生几乎不需要人类干预的定义提取系统。

附图说明

图1是根据本公开的用于自动构建术语定义知识库（KB）的系统的高级架构的示意图。

图2是根据本公开的独立于领域的术语链接系统的工作流程图。

图3描绘了用于定义标识的CNN架构。

具体实施方式

出于促进对本公开原理的理解的目的，现在将参考附图中所图示、并且在以下书面说明书中描述的实施例。要理解的是，由此不意图对本公开的范围进行限制。要进一步理解的是，本公开包括对所说明的实施例的任何更改和修改，并且包括本公开所属领域的普通技术人员将通常想到的对本公开原理的进一步应用。

本公开涉及一种用于自动构建术语定义KB的系统和方法，该系统和方法在特征设计方面需要最小的努力并且易于适应多种语言。图1中描绘了这种系统的架构的高级示意图。该系统接收文本媒体（诸如，技术文档和用户生成的内容）作为输入。技术文档包括：学术论文、技术报告、规范、手册等，而用户生成的内容指代已经由用户生成并且发布到在线平台（诸如，社交媒体、Wiki、论坛等等）的文本内容。该系统从文本媒体来输出具有术语定义的术语KB。术语KB可以采用任何合适的形式。

该系统包括定义提取系统，该定义提取系统被配置成使用单词向量模型、卷积神经网络（CNN）模型和条件随机场（CRF）模型，以便从文本媒体中标识并提取术语定义，并且使用所提取的定义来构建术语定义KB。定义提取系统可以在线地实现为服务器，该服务器提供术语定义提取和知识库生成作为服务。

单词向量模型、CNN模型和CRF模型被用作级联的流水线。定义提取系统通过将每个输入句子逐个地传递通过预训练的模型来在逐句子的基础上处理文本媒体。单词向量模型用于将该句子中的单词映射到密集向量表示。CNN模型用于标识该句子是否包括定义。CRF模型然后用于检测该句子内的定义的边界。然后，可以提取定义并且将其用于填充术语定义KB。

如上所提及，该方案的中心概念是以三个阶段来从文本中提取术语定义，其中每个阶段聚焦于自动捕获一种类型的信息。

在第一阶段中，对密集向量表示进行训练，该密集向量表示编码了词汇表中的语义信息。该表示将词汇表中的每个单词映射到实值（real-value）密集向量。共享类似含义的单词被映射到根据欧几里得空间中的余弦相似度而接近的向量。该步骤使我们的模型具有通用性（generalizable）：在没有专门设计的规则的情况下，该系统就可以捕获到：“定义（define）”比诸如“去（go）”之类的随机动词更接近于“称为（call）”，并且如果“我们将A定义为B”是定义，则“我们将A称为B”也是科学文献中的定义也是可能的。

第二阶段使用卷积神经网络（CNN）来捕获表明了术语定义的存在的信号。人类注释者的任务是：向来自科学文档的句子中的小样本（约2,000个）指派二进制（真|假）标记。使用经人类注释的句子以及来自先前阶段的向量表示，CNN模型被训练成将该真值自动指派给新句子。在该阶段之后，该系统能够检测到：“我们将A定义为B”是定义，而“A基于B”不是定义。

第三阶段通过对从先前阶段获得的信息进行综合来检测定义边界：来自阶段1的向量表示和来自阶段2的真值被用作训练条件随机场（CRF）模型的特征以检测定义的边界。在句子“我们将A定义为B”中，该系统将提取“A”作为术语，并且提取“B”作为该术语的定义。然后，可以将所提取的术语和定义存储在KB中。这些阶段中没有一个要求设计语言特征，因此整个流水线可以应用于任何语言。

该系统中存在若干个主要的新颖性和优点。例如，该系统利用了无监督式单词嵌入（即，密集单词表示向量）作为去往分类器的输入。作为另一示例，该系统使用两个不同的分类模型以用于定义提取，其中一个模型聚焦于标识句子中是否存在定义，而一个模型聚焦于标识该句子内的定义的边界。

级联的流水线方法和使用密集向量表示的主要优点之一是不需要特征设计。另外，该方案并不做出关于文本媒体的语言或领域的任何假设。作为结果，该系统独立于领域和语言两者。这些因素显著降低了知识库构建的成本。

图1中描绘了自动术语定义KB构建系统10的工作流程图。系统10包括四个主要组件。这些组件是单词表示训练组件12、卷积神经网络（CNN）训练组件14、条件随机场（CRF）训练组件16和定义提取组件18。单词表示训练组件12、卷积神经网络（CNN）训练组件14和条件随机场（CRF）训练组件16是用于训练模型的离线组件。定义提取组件18是在线组件，其能够即时（on-the-fly）从自由文本中提取定义条目。

单词表示训练组件12采取文本文档集合20作为输入，并且产生实值向量22，该实值向量22映射到每个单词。实值向量对应于单词的密集向量表示或者单词嵌入。向量表示单词到向量空间中的投影。单词在向量空间中的位置被称为其嵌入。在一个实施例中，使用跳字（skip-gram）递归神经网络（RNN）来获得密集向量表示。在其他实施例中，可以使用任何合适的方法或算法。

CNN训练组件14接收经训练的单词向量22和经标记的定义24。经标记的定义包括用二进制标记注释的一小组句子，该二进制标记指示该句子是否是术语定义。CNN组件14的输出是定义标识模型26，定义标识模型26采取未见过的句子作为输入，并且预测该句子是否包含定义。

图3中图示了CNN定义标识模型26的架构。CNN定义标识模型包括卷积层40、最大池化层42和softmax输出层44。在给定输入句子的情况下，CNN首先搜索预训练的单词嵌入，以找到对每个单词的向量表示。在卷积层40中，CNN以若干次推移（pass）来滑动通过（slidethrough）输入向量，并且在固定大小的窗口46上执行卷积以从多单词构造中提炼信息。然后，由最大池化层42处理卷积向量48，该最大池化层42从每个卷积向量中提取最大的维度以形成输入句子的精简（condense）表示50。SoftMax层44最终基于该精简向量50来预测该句子是否包含术语定义。

CRF训练组件16采取用定义边界注释的一小组句子作为输入，并且利用由CNN训练组件14预测的二进制真值标记、以及3的窗口中的词汇形式作为训练CRF定义提取模型的特征，来检测句子中的定义边界。在一个实施例中，CRF定义提取模型被配置成对句子中的单词加标签以指示定义的边界。作为一个示例，CRF模型的输出可以是B/I/O标签的序列，其中每个标签对应于一单词。“B”标签指示定义的开始；“I”标签指示定义中的其他单词；“O”标签指示该单词不是定义的一部分。可以利用任何其他合适的加标签/标记方案来标识定义的边界。

定义提取组件18是所提出的系统中唯一的在线组件。定义提取组件18预加载由训练组件生成的密集单词向量模型22、CNN定义标识模型26和CRF定义提取模型28。定义提取组件使用这些模型来从新技术文档30中标识并提取定义。这些模型形成了级联的流水线，以用于处理来自该新文档的句子。如上所指出，单词向量模型用于将句子中的单词映射到密集向量表示。CNN模型用于标识该句子是否包括定义。CRF模型然后用于检测该句子内的定义的边界。然后，可以提取术语及其对应的定义，并且将它们用于填充术语定义KB。

用于自动构建术语定义KB的系统是使用至少一个计算设备来实现的。特别地，该系统的功能可以在单个设备中实现或者跨多个计算设备而分布。用于该系统的计算设备可以是台式计算机、膝上型电脑或其他类型的设备，其包括至少一个处理器、存储器、用户接口和网络通信系统。

如本领域普通技术人员将认识到的，处理器21可以是各种处理器中的任一个。本领域普通技术人员将认识到的是，本文中所使用的“处理器”包括处理数据、信号和/或其他信息的任何硬件系统、硬件机构或硬件组件。处理器可以包括具有中央处理单元、多个处理单元、用于实现功能的专用电路的系统、和/或其他系统。示例性处理器包括微处理器（μP）、微控制器（μC）、数字信号处理器（DSP）、图形处理单元（GPU）或其任何组合。处理器可操作地连接到存储器、用户接口和网络通信模块。

计算设备的存储器被配置成存储信息，包括数据和指令两者。存储器可以是能够存储处理器可访问的信息的任何类型的设备，诸如存储器卡、ROM、RAM、能够写入的存储器、只读存储器、硬盘驱动器、磁盘、闪速存储器、或用作数据存储设备的各种其他计算机可读介质中的任一个，如本领域普通技术人员将认识到的那样。存储器被配置成存储程序指令，该程序指令在由处理器执行时使得服务器20能够提供本文中描述的特征、功能、特性等等。

计算设备的网络通信系统提供了允许与各种设备或网络中的任一个进行通信的接口，并且至少包括被配置成与计算设备进行通信的收发器或其他硬件。特别地，网络通信模块可以包括局域网端口，该局域网端口允许与容纳在相同或附近设施中的各种本地计算机中的任一个进行通信。在一些实施例中，网络通信模块进一步包括广域网端口，该广域网端口允许通过互联网与远程计算机进行通信。可替代地，服务器经由局域网的单独的调制解调器和/或路由器与互联网进行通信。在一个实施例中，网络通信模块配备有Wi-Fi收发器或其他无线通信设备。因此，将领会的是，与服务器的通信可以经由有线通信或经由无线通信而发生。可以使用各种已知通信协议中的任一个来实现通信。

用于该系统的计算设备可以被配置为服务器。服务器可以由用户在本地或远程地操作。为了便于本地操作，服务器可以包括交互式用户接口。经由用户接口，用户可以修改和/或更新存储在存储器上的程序指令，以及从存储器收集数据并且将数据存储到存储器。在一个实施例中，用户接口可以适当地包括LCD显示屏等、鼠标或其他定点设备、键盘或其他小键盘、扬声器和麦克风，如本领域普通技术人员将认识到的那样。可替代地，在一些实施例中，用户可以从另一计算设备远程地操作服务器，该另一计算设备经由网络通信模块与其进行通信并且具有类似的用户接口。

该计算设备包括可以存储在存储器中以用于实现该系统的各种功能的编程指令。特别地，编程指令可以包括用于实现单词表示训练组件、CNN训练组件和/或CNN定义标识模型、CRF训练组件和/或CRF定义提取模型、以及定义提取组件的指令。

虽然已经在附图和前述描述中详细图示和描述了本公开，但是应当认为本公开在性质上是说明性的而不是限制性的。要理解的是，仅呈现了优选实施例，并且期望保护落入本公开的精神内的所有改变、修改和进一步应用。

Claims

1.一种用于从文本媒体中自动生成术语定义知识库（KB）的方法，所述方法包括：

接收单词序列以在构建术语定义KB中使用；

使用密集向量表示将所述单词序列中的每个单词映射到实值密集向量；

使用卷积神经网络（CNN）定义标识模型基于单词的密集向量表示来处理所述单词序列，以标识所述单词序列是否包括术语定义，并且利用指示所述单词序列内是否存在术语定义的标记来标记所述单词序列；

使用条件随机场（CRF）定义提取模型基于单词的密集向量表示以及所述标记来处理所述单词序列，以标识所述单词序列中的术语定义的边界；

将术语定义添加到术语定义KB。

2.根据权利要求1所述的方法，其中密集向量表示是由单词表示训练组件生成的，单词表示训练组件接收文本集合作为输入，并且使用跳字递归神经网络（RNN）来处理所述文本集合以生成密集向量表示。

3.根据权利要求1所述的方法，其中所述标记是二进制标记，其指示所述单词序列内的术语定义的存在是真还是假。

4.根据权利要求3所述的方法，其中CNN定义标识模型是由CNN训练组件生成的，CNN训练组件使用密集向量表示和多个训练单词序列来训练CNN定义标识模型，以自动标识单词序列是否包括术语定义，并且将适当的二进制标记指派给所述单词序列。

5.根据权利要求4所述的方法，其中指派给相应训练单词序列的所述标记是由人类注释者指派的。

6.根据权利要求1所述的方法，其中CRF定义提取模型是由CRF训练组件生成的，CRF训练组件使用密集向量表示以及由CNN定义标识模型指派的所述二进制标记来训练CRF定义提取模型，以自动检测所述单词序列情况下的术语定义的边界。

7.根据权利要求1所述的方法，其中CRF定义提取模型被配置成：对所述单词序列中属于所述单词序列中的术语定义的一部分的单词加标签。

8.一种用于从文本媒体中自动生成术语定义知识库（KB）的系统，所述系统包括：

定义提取组件，其被配置成使用密集向量表示、CNN定义标识模型和CRF定义提取模型来处理单词序列，以提取所述单词序列中找到的术语定义，并且将所提取的术语定义添加到术语定义KB，

其中密集向量表示用于将所述单词序列中的单词映射到实值向量，

其中CNN定义标识模型基于密集向量表示来处理所述单词序列，以标识相应的单词序列是否包括术语定义，并且利用指示所述单词序列内是否存在术语定义的标记来标记所述单词序列，以及

其中CRF定义提取模型基于单词的密集向量表示以及由CNN定义标识模型指派的所述标记来处理所述单词序列，以标识所述单词序列中的术语定义的边界。

9.根据权利要求8所述的系统，其中密集向量表示是由单词表示训练组件生成的，单词表示训练组件接收文本集合作为输入，并且使用跳字递归神经网络（RNN）来处理所述文本集合以生成密集向量表示。

10.根据权利要求8所述的系统，其中所述标记是二进制标记，其指示所述单词序列内的术语定义的存在是真还是假。

11.根据权利要求10所述的系统，其中CNN定义标识模型是由CNN训练组件生成的，CNN训练组件使用密集向量表示和多个训练单词序列来训练CNN定义标识模型，以自动标识单词序列是否包括术语定义，并且将适当的二进制标记指派给所述单词序列。

12.根据权利要求11所述的系统，其中指派给相应训练单词序列的所述标记是由人类注释者指派的。

13.根据权利要求8所述的系统，其中CRF定义提取模型是由CRF训练组件生成的，CRF训练组件使用密集向量表示以及由CNN定义标识模型指派的所述二进制标记来训练CRF定义提取模型，以自动检测所述单词序列情况下的术语定义的边界。

14.根据权利要求8所述的系统，其中CRF定义提取模型被配置成：对所述单词序列中属于所述单词序列中的术语定义的一部分的单词加标签。