CN114341862A

CN114341862A - 使用基于本体的概念嵌入模型的自然语言处理

Info

Publication number: CN114341862A
Application number: CN202080058467.5A
Authority: CN
Inventors: B·布尔; P·L·费尔特; A·希克斯
Original assignee: International Business Machines Corp
Current assignee: Maredif Usa
Priority date: 2019-08-20
Filing date: 2020-08-13
Publication date: 2022-04-12
Also published as: GB2616542A; WO2021033087A1; GB2601697A; US11176323B2; DE112020003311T5; GB202203106D0; JP2022545062A; US20210056168A1; GB202308265D0

Abstract

计算机系统基于概念本体生成向量空间模型。针对分级的本体的一个或多个概念提取一个或多个训练示例，其中，针对所述一个或多个概念的所述一个或多个训练示例基于所述分级的本体中的相邻概念。初始化多个向量，每个向量包括一个或多个特征，其中，每个向量对应于一个或多个概念中的概念。通过迭代地修改该多个向量中的一个或多个向量以优化损失函数来生成向量空间模型。使用向量空间模型来执行自然语言处理。本发明的实施例还包括用于以上述基本上相同的方式生成向量空间模型的方法和程序产品。

Description

使用基于本体的概念嵌入模型的自然语言处理

技术领域

本发明涉及自然语言处理，并且更具体地涉及使用基于本体的概念嵌入模型的自然语言处理技术。

背景技术

在自然语言处理领域中，词语嵌入是指将词语或短语映射至实数向量的过程。通过在大型语料库中分析词语或短语使用，以创建对下游自然语言处理任务有用的词语的密集向量表示，来训练传统的词语嵌入模型。然而，在词嵌入模型中可能不能准确地表示罕见或模糊的词。

因此，在本领域中需要解决上述问题。

发明内容

从第一方面来看，本发明提供了一种用于自然语言处理的计算机实现的方法，包括：提取分级的本体的一个或多个概念的一个或多个训练示例，其中所述一个或多个概念的所述一个或多个训练示例基于所述分级的本体中的相邻概念；初始化多个向量，每个向量包括一个或多个特征，其中，每个向量对应于所述一个或多个概念中的一个概念；通过迭代地修改所述多个向量中的一个或多个向量以优化损失函数来生成向量空间模型；以及使用所述向量空间模型来执行自然语言处理。

从另一个方面来看，本发明提供了一种用于自然语言处理的计算机系统，该计算机系统包括：一个或多个计算机处理器；一个或多个计算机可读存储介质；存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个计算机处理器中的至少一个执行的程序指令，所述程序指令包括用于以下操作的指令：提取分级的本体的一个或多个概念的一个或多个训练示例，其中所述一个或多个概念的所述一个或多个训练示例基于所述分级的本体中的相邻概念；初始化多个向量，每个向量包括一个或多个特征，其中，每个向量对应于所述一个或多个概念中的一个概念；通过迭代地修改所述多个向量中的一个或多个向量以优化损失函数来生成向量空间模型；以及使用所述向量空间模型来执行自然语言处理。

从另一方面来看，本发明提供了一种用于自然语言处理的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储用于由该处理电路执行以便执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，该计算机程序包括当所述程序在计算机上运行时用于执行本发明的步骤的软件代码部分。

从另一方面来看，本发明提供了一种用于自然语言处理的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有与其体现的程序指令，所述程序指令可由计算机执行以使所述计算机：提取分级的本体的一个或多个概念的一个或多个训练示例，其中所述一个或多个概念的所述一个或多个训练示例基于所述分级的本体中的相邻概念；初始化多个向量，每个向量包括一个或多个特征，其中，每个向量对应于所述一个或多个概念中的一个概念；通过迭代地修改所述多个向量中的一个或多个向量以优化损失函数来生成向量空间模型；以及使用所述向量空间模型来执行自然语言处理。

根据本发明的一个实施例，计算机系统基于概念本体生成向量空间模型。针对分级的本体的一个或多个概念提取一个或多个训练示例，其中，针对所述一个或多个概念的所述一个或多个训练示例基于所述分级的本体中的相邻概念。初始化多个向量，每个向量包括一个或多个特征，其中，每个向量对应于一个或多个概念中的概念。通过迭代地修改该多个向量中的一个或多个向量以优化损失函数来生成向量空间模型。使用向量空间模型来执行自然语言处理。

现在将讨论本发明的各种其他实施例。在一些实施例中，向量空间模型是连续的词袋模型。通过使用连续的词袋模型，可以基于源(例如，周围的)上下文概念和/或词来预测目标概念和/或词。在一些实施例中，用于一个或多个概念的一个或多个训练示例包括一个或多个积极训练示例和一个或多个消极训练示例，并且通过修改多个向量中的一个或多个向量来优化损失函数，以针对积极训练示例最小化损失函数，并且针对消极训练示例最大化损失函数。通过用积极和消极示例两者优化损失函数，可生成向量空间模型，其中相关概念的向量彼此靠近同时也远离不相关概念。在一些实施例中，每个概念的所述损失函数的输出与所述概念的向量和第一均值向量的第一余弦相似性成比例，其中所述第一均值向量是所述概念的父概念的一个或多个向量和所述概念的子概念的一个或多个向量的均值。通过创建基于概念的父和子概念的均值向量来准确地捕捉概念的上下文。在另外的实施例中，识别概念的非歧义文本表示，并且损失函数的输出进一步与概念的向量和第二均值向量之间的第二余弦相似性成比例，所述第二均值向量是基于一个或多个非歧义文本表示的一个或多个词向量的均值。通过使用非模糊文本表示来提供除了概念向量之外的词向量，可以向向量空间模型添加词汇压力。在一些实施例中，在一个或多个词汇语料库中识别非歧义文本表示。词汇语料库可用于在单词以语言自然出现时引入单词的样本。在一些实施例中，向量空间模型可用于基于与查询概念相关的词语或与查询词语相关的概念的向量的余弦相似性来识别与查询概念相关的词语或与查询词语相关的概念。向量空间模型可以用于识别与概念相关的词以及与词相关的概念，从而使得概念嵌入能够与词嵌入结合使用。本发明的实施例还包括用于以上述基本上相同的方式生成向量空间模型的方法和程序产品。

附图说明

现在将参考如在以下附图中所展示的优选实施例仅通过实例的方式来描述本发明：

图1是描绘根据本发明的实施例的用于生成概念嵌入的计算环境的框图；

图2A是描绘根据本发明的实施例的分级的本体的一部分的框图；

图2B是描绘根据本发明的实施例的概念等级的一部分的框图；

图3是描绘根据本发明的实施例的执行自然语言处理的方法的流程图；以及

图4是描绘根据本发明的实施例的计算设备的框图。

具体实施方式

本发明实施例涉及自然语言处理，并且更具体地涉及使用基于本体的概念嵌入模型的自然语言处理技术。本体是根据概念之间的类别、属性和关系的概念的分级的表示。本体论可以是域特异性的或可以跨越研究的多个域。例如，统一医疗语言系统

是将健康和生物医学词汇和标准集成到语义网络中的分级的本体，语义网络根据概念的类别(即，语义类型)及其关系(即，语义关系)对概念进行分组。

自然语言处理技术可以依赖于连续的词袋模型，该模型是其中将词或短语表示为向量的向量空间模型。每个向量可以表示词语(或短语)的嵌入，其包括词语出现在样本文本的语料库中的上下文、词语和其他词语之间的语义和语法相似性以及词语与语料库中的其他词语的关系。

与基于语料库的词语嵌入相比，本发明的实施例基于概念的分级的本体来生成概念嵌入的词语模型的连续包。该基于本体的模型能够解决基于语料库的模型的若干缺点。具体地，基于语料库的模型可能不能准确地表示罕见词，因为词嵌入的质量是词在语料库中的外观的函数。然而，本体论可以包括在文献中罕见的词语的表示；例如，参照亲本或儿童概念，罕见基因在医学出版物中可以具有很少(如果有的话)的表示，但是该基因可以在本体中表示。

此外，本发明的实施例更准确地表示有歧义的单词或短语。多词词语在语料库中可以具有多个不同的含义，从而导致词语嵌入模型的不准确性。然而，基于本体的模型可避免此类歧义，因为参考其父和子概念来嵌入概念。

因此，本发明的实施例利用概念本体来产生概念嵌入的模型。词汇压力可以通过使用语料库以包括可能时对概念来说良好的嵌入和明确的单词来被添加到模型，由此鼓励概念被嵌入在与现有单词嵌入空间对齐的空间中。通过将本体信息与词嵌入信息相结合，可以开发新的概念嵌入以创建以提高速度、准确性和回忆的方式支持下游自然语言处理任务的模型。

根据本发明的一个实施例，计算机系统基于概念本体生成向量空间模型。提取分级的本体的一个或多个概念的一个或多个训练示例，其中，所述一个或多个概念的所述一个或多个训练示例基于所述分级的本体中的相邻概念。初始化多个向量，每个向量包括一个或多个特征，其中，每个向量对应于所述一个或多个概念中的概念。通过迭代地修改所述多个向量中的一个或多个向量以优化损失函数来生成向量空间模型。使用所述向量空间模型来执行自然语言处理。

现在将讨论本发明的各种其他实施例。在一些实施例中，向量空间模型是连续的词袋模型。通过使用连续的词袋模型，可以基于源(例如，周围的)上下文概念和/或词来预测目标概念和/或词。在一些实施例中，一个或多个概念的一个或多个训练示例包括一个或多个积极训练示例和一个或多个消极训练示例，并且通过修改多个向量中的一个或多个向量来优化损失函数，以针对积极训练示例最小化损失函数，并且针对消极训练示例最大化损失函数。通过用积极和消极示例两者优化损失函数，可生成向量空间模型，其中相关概念的向量彼此靠近同时也远离不相关概念。在一些实施例中，每个概念的所述损失函数的输出与所述概念的向量和第一均值向量的第一余弦相似性成比例，其中所述第一均值向量是所述概念的父概念的一个或多个向量和所述概念的子概念的一个或多个向量的均值。通过创建基于概念的父和子概念的均值向量来准确地捕捉概念的上下文。在另外的实施例中，识别概念的非歧义文本表示，并且损失函数的输出进一步与概念的向量和第二均值向量之间的第二余弦相似性成比例，所述第二均值向量是基于一个或多个非歧义文本表示的一个或多个词向量的均值。通过使用非模糊文本表示来提供除了概念向量之外的词向量，可以向向量空间模型添加词汇压力。在一些实施例中，在一个或多个词汇语料库中识别非歧义文本表示。词汇语料库可用于在单词以语言自然出现时引入单词的样本。在一些实施例中，可用向量空间模型基于查询概念相关的词语或与查询词语相关的概念的向量的余弦相似性来识别与查询概念相关的词语或与查询词语相关的概念。可用向量空间模型识别与概念相关的单词以及与单词相关的概念，从而使得概念嵌入能够与单词嵌入结合使用。本发明的实施例还包括用于以上述基本上相同的方式生成向量空间模型的方法和程序产品。

应注意的是，贯穿本说明书对本文的特征、优点、或类似语言的引用并不暗示可以用本文公开的实施例实现的所有特征和优点应当是、或是在本发明的任何单一实施例中。相反，涉及特征和优点的语言应理解为意指结合实施例描述的特定特征、优点或特性包括在本发明的至少一个实施例中。由此，贯穿本说明书对特征、优点和类似语言的讨论可以但不一定指代相同的实施例。

此外，本发明所描述的特征、优点和特性可以以任何适合的方式结合在一个或多个实施例中。相关领域的技术人员将认识到，可以在没有特定实施例的一个或多个特定特征或优点的情况下实践本发明。在其他情况下，在不是在本发明的所有实施例中存在的某些实施例中可以认识到附加特征和优点。

这些特征和优点将从以下附图、说明书以及所附权利要求书中变得更加清楚，或者可以通过如下文所阐述的本发明的实施例的实践来学到。

现在将参考附图详细描述本发明的实施例。图1是描绘根据本发明的实施例的用于生成概念嵌入的计算环境100的框图。如所描绘的，计算环境100包括用户设备105、数据服务器125、模型开发服务器135和网络165。应当理解，出于解释本发明实施例的目的，已经选择了计算环境100的组件之间的功能划分，并且这些功能划分不应被解释为限制示例。

用户设备105包括网络接口(I/F)106、至少一个处理器107、显示器110和存储器115。存储器115可包括应用程序120。用户设备105可以包括膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话、瘦客户端或能够执行计算机可读程序指令的任何可编程电子设备。网络接口106使得用户设备105的组件能够通过诸如网络165的网络发送和接收数据。用户设备105可包括内部和外部硬件组件，如关于图4更详细描绘和描述。

显示器110可以包括能够以视觉形式呈现信息的任何电子设备。例如，显示器110可以是液晶显示器(LCD)、阴极射线管(CRT)显示器、发光二极管(LED)显示器、电子墨水显示器等。与生成支持自然语言处理任务的概念嵌入相关的信息可以经由显示器110显示给用户设备105的用户。

应用程序120可以包括用于执行以下描述的本发明的实施例的不同功能的一个或多个模块或单元。应用程序120可由任何数量的软件和/或硬件模块或单元的任何组合来实现，并且可驻留在用户设备105的存储器115内以供处理器(诸如处理器107)执行。

应用程序120可以使得用户设备105的用户能够管理概念嵌入的生成和向量空间模型的开发以支持自然语言处理任务。例如，用户设备105的用户可以经由应用程序120为模型开发服务器135和其模块提供指令以生成一个或多个向量空间模型的概念嵌入。用户设备105的用户可以选择将由模型开发服务器135处理的一个或多个语料库和/或分级的本体。此外，用户可以与应用程序120交互，以便向模型开发服务器135提供指令，以使用生成的向量空间模型来执行一个或多个自然语言处理任务。自然语言处理任务可包括任何常规或其他任务，诸如语法解析或情感分析。

数据服务器125包括网络接口126、至少一个处理器127、以及至少一个数据库130。在本发明的不同实施例中，数据服务器125可以包括膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话、或能够执行计算机可读程序指令的任何可编程电子设备。网络接口126使得数据服务器125的组件能够通过诸如网络165的网络发送和接收数据。通常，数据服务器125可以存储与一个或多个语料库和/或一个或多个分级的本体相关的数据。

数据库130可以包括本领域已知的任何非易失性存储介质。例如，数据库130可以用磁带库、光学库、一个或多个独立硬盘驱动器、或独立磁盘冗余阵列(RAID)中的多个硬盘驱动器来实现。类似地，数据库130上的数据可符合本领域中已知的任何合适的存储架构，诸如文件、关系数据库、面向对象的数据库和/或一个或多个表格。在一些实施例中，数据库130存储与适合于开发向量空间模型的一个或多个语料库有关的数据。该语料库可以包括与研究的任何领域或多个领域相对应的任何文本量；在一些实施例中，数据库130可以存储健康和生物医学文本语料库。另外或可替代地，数据库130可以存储包括概念和概念之间的关系的一个或多个分级的本体。分级的本体可以包括任何已知的或其他本体，如

基因本体学(GO)、或系统化的医学命名法-临床术语(SNOMED-CT)。

模型开发服务器135包括网络接口136、至少一个处理器137、存储器140、以及存储装置160。存储器140包括提取模块145、训练模块150和自然语言处理模块155。在本发明的不同实施例中，模型开发服务器135可以包括膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话、或能够执行计算机可读程序指令的任何可编程电子设备。网络接口136使得模型开发服务器135的组件能够通过诸如网络165的网络发送和接收数据。通常，模型开发服务器135及其模块可以产生概念和词语嵌入以生成向量空间模型，模型开发服务器135可以利用所述向量空间模型来执行自然语言处理任务。模型开发服务器135可以包括内部和外部硬件组件，如关于图4更详细描绘和描述的。

提取模块145、训练模块150、和自然语言处理模块155可以包括用于执行以下描述的本发明的实施例的不同功能的一个或多个模块或单元。提取模块145、训练模块150和自然语言处理模块155可以通过任何数量的软件和/或硬件模块或单元的任何组合来实现，并且可以驻留在模型开发服务器135的存储器140内以用于由处理器(诸如处理器137)执行。

提取模块145可以获得数据以支持根据当前实施例的向量空间模型的开发，包括一个或多个语料库和/或一个或多个本体。在一些实施例中，提取模块145从数据服务器125的数据库130接收与语料库或本体相关的数据，所述数据然后可以被存储在存储装置160中。提取模块145可以从用户设备105的应用程序120接收指令以获得数据，包括从其获得数据的一个或多个网络可访问位置。提取模块145可以对所获得的数据执行各种常规或其他预处理任务，包括标志化和分段、归一化、词干提取、词干化、噪声去除等。

训练模块150可以单独或与从词汇语料库获得的数据相组合地处理概念本体以生成向量空间模型的概念嵌入。具体地，训练模块150从相邻上下文或语境窗口提取概念的训练示例。每个上下文窗口可以包括其他概念，所述其他概念被链接到根据本体的层级所选择的概念。例如，概念的训练窗口可包括一个或多个父概念、一个或多个子概念、一个或多个孙概念等。训练模块150可以针对本体中的每个概念生成向量，并且使用这些向量训练概念嵌入。

训练模块150可以通过迭代地调整向量以优化损失函数来对向量集合执行训练。损失函数可计算两个向量之间的余弦相似性：表示特定概念的向量，和表示该概念的上下文窗口的另一向量。表示概念的上下文窗口的向量本身可以是与所选概念窗口中的概念相关联的向量的均值。例如，对应于关注概念的父和/或子概念(或祖父母、孙子等)的向量可以被平均以产生单个向量，该单个向量通过计算这两个向量之间的余弦相似性来与关注概念的向量进行比较。在实施例中，可以根据以下关系式数学地表示损失函数：

损失(概念_关注)∝余弦(概念_关注，平均值(概念_父和子))

其中，所选择的概念(例如，“概念_关注”)的损失函数(例如，“损失”)的输出值直接与关注概念(例如，“概念_关注”)的向量与关注概念的父和/或子概念的向量的均值的向量(例如，“均值(概念_父&子)”)之间的余弦相似性成正比。均值向量可以是与关注概念的相邻上下文窗口中的任何概念相对应的向量的均值，并且可以包括父向量、子向量、祖父向量、孙子向量等的任何组合。损失函数与余弦相似度值的比例可包括余弦相似度值的倍数，诸如余弦相似度值的1.5倍、余弦相似度值的3倍、余弦相似度值的0.8倍等。

训练模块150可以随机地初始化每个向量的一个或多个特征的值。向量可以包括多个维度，每个维度表示特征。在一些实施例中，向量是其中每个维度具有特定含义的热点向量；在其他实施例中，向量是其中从数据导出每个维度(以及因此为特征)的值以捕获语料库和/或本体中的词语和/或概念嵌入的密集向量。可以通过迭代地调整每个向量的值来优化损失函数，以便当向量与积极训练示例比较时最小化损失函数的输出值，并且当向量与消极训练示例比较时最大化损失函数的输出值。积极训练示例可表示与关注概念相关的概念，并且消极训练示例可表示与关注概念无关的概念。在一些实施例中，训练模块150通过选择表示关注概念的父和/或子的向量并计算所选择的向量的均值来生成积极训练示例。训练模块150可通过选择与关注概念无关(例如，根据分级的本体)的概念向量，并且类似地计算所选向量的均值来生成消极训练示例。

积极训练示例可以基于本体的一部分。例如，如果本体包括具有父概念“脂质”和子概念“磷脂酰胆碱”的“磷脂”概念，则训练模块150可以通过计算三个向量的均值来生成积极训练示例：表示磷脂概念的向量、表示脂质概念的向量和表示磷脂酰胆碱概念的向量。可以通过在窗口中选择概念并且用不相关的概念替换概念中的一个或多个来产生消极训练示例。可以通过随机选择尚未包括在上下文窗口中的概念来选择不相关的概念。例如，“犬”可以被“磷脂”取代以形成脂质/犬/磷脂酰胆碱的消极训练实例。由于犬的概念在逻辑上不适合磷脂和磷脂酰胆碱之间的本体位置，该示例被认为是这些概念的相关性的不良表示，因此可用作消极训练实施例。

训练模块150可以迭代地调整表示本体中的概念的向量集合的值，直到达到所希望的收敛水平。在一些实施例中，当概念的表面形式具有非模糊的、良好嵌入的文本表示时(例如，在语料库中)，训练模块150通过将概念嵌入信息与词语嵌入信息组合来应用词汇压力。概念的表面形式可以在本体中识别，并且可以包括该概念的任何术语，包括来自不同词汇的同义词和术语。训练模块150可以通过确定表面形式满足某些标准来识别非歧义的、良好嵌入的文本表示。标准可以包括在文档或文档语料库中出现阈值次数(诸如30次)的术语。如果表面形式出现在多个不兼容的概念(诸如具有不同语义类型的概念)中，则可以排除考虑这些表面形式。例如，如果表面形式与属于语义类型“真核生物”的概念相关联并且还与属于语义类型“教育活动”的另一概念相关联，则该表面形式将被排除为潜在模糊的。另外或替代地，训练模块150可排除为短首字母缩略词(例如，低于阈值字符数目)的表面形式。

当训练模块150已经针对概念识别了表面形式的非歧义、良好嵌入的文本表示时，训练模块150可以利用损失函数来在训练期间将词法压力应用于概念的向量。在实施例中，可以根据以下关系式数学地表示损失函数：

损失(概念_关注)∝余弦(概念_关注，均值(概念_父&子))+余弦(概念_关注，均值(词_概念))，其中，损失函数与概念的向量和相邻概念的向量的余弦相似性以及概念的向量和对应于在语料库中出现在与关注词相同的上下文中的其他词(例如，“均值(词_概念)”)的词向量的均值的余弦相似性成正比。损失函数与余弦相似度值的比例可包括余弦相似度值的倍数，诸如余弦相似度值的1.5倍、余弦相似度值的3倍、余弦相似度值的0.8倍等。由此，优化丢失函数可以鼓励概念被嵌入在与现有词嵌入空间对齐的空间中。训练模块150可以输出组合概念向量和词向量的向量空间模型，提供查找概念周围的词以及词周围的概念的能力。具体地，向量空间模型可以用于通过识别在余弦相似性方面最接近概念向量的任何词向量来识别与概念相关的词。类似地，向量空间模型可以用于通过使用余弦相似性度量识别与词向量最接近的概念向量来识别与词相关的概念。例如，可以向向量空间模型提供特定概念的查询，以返回基于前五个最接近的词的对应向量的余弦相似性来识别前五个最接近的词的结果。

自然语言处理模块155可以使用由训练模块150生成的向量空间模型来执行已知或其他自然语言处理任务。例如，自然语言处理模块155可利用向量空间模型来执行诸如主题识别、情感分析、问答、机器翻译、单词感测消歧等的任务。用户设备105的用户可以经由应用程序120向自然语言处理模块155提供指令以便执行特定自然语言处理任务和/或选择将由自然语言处理任务使用的特定向量空间模型。

存储器160可以包括本领域已知的任何非易失性存储介质。例如，存储器160可以用磁带库、光学库、一个或多个独立硬盘驱动器或独立磁盘冗余阵列(RAID)中的多个硬盘驱动器来实现。类似地，存储装置160中的数据可以遵循本领域中已知的任何合适的存储架构，诸如文件、关系数据库、面向对象的数据库和/或一个或多个表格。存储器160可以存储与开发向量空间模型和/或执行自然语言处理有关的数据，包括一个或多个词汇语料库、一个或多个概念本体、概念嵌入和/或词嵌入的向量表示等。

网络165可以包括局域网(LAN)、广域网(WAN)(如互联网)、或两者的组合，并且包括有线、无线或光纤连接。通常，根据本发明的实施例，网络165可以是本领域已知的连接和协议的任意组合，其将支持用户设备105、数据服务器125和/或模型开发服务器135之间经由它们各自的网络接口的通信。

图2A是描绘根据本发明的实施例的分级的本体200的一部分的框图。如所描绘的，分级的本体200的该部分包括彼此链接的概念。每个链接可指示两个概念之间的关系，并且每个概念可被置于特定分级的级以建立所选概念的父和子概念。例如，概念“磷脂”具有两个子概念“磷脂酰胆碱”和“磷脂酰丝氨酸”，并且具有两个父概念，“膜组分”和“脂质”。分级的本体可以具有形成任何数目的层级的任何数目的概念。

图2B是描绘了根据本发明的实施例的概念等级250的一部分的框图。如所描述的，概念等级的部分包括概念、与概念相关联的术语以及与术语相关联的字符串。

本体中的每个概念可以被分配唯一标识符，并且用于该概念的类似词语或短语可以根据也被分配唯一标识符的术语来分组。例如，概念“C0004238”可以指在心脏的心房中发生的特定形式的纤颤。用于该概念的串包括指定给术语“L0004238”的心房纤颤和心房纤颤，以及指定给术语“L0004327”的耳纤颤和耳纤颤。因此，每个字符串可以表示概念的特定表面形式。

图3是描绘根据本发明的实施例的执行自然语言处理的方法300的流程图。

在操作310处接收概念的分级的本体。本体可由提取模块145从数据库(诸如数据服务器125的数据库130或模型开发服务器135的存储装置160)接收。本体中的信息可包括概念、概念之间的分级的关系和概念的其他数据，诸如每个概念的表面形式和概念的语义类型。另外，可以在操作310处检索与一个或多个词汇语料库有关的信息。一旦提取模块145检索本体或语料库，提取模块145就可执行常规或其他预处理任务。

在操作320处识别概念的非歧义文本表示。训练模块150可以针对每个概念确定该概念在语料库中是否具有良好嵌入并且非模糊地表示的表面形式。训练模块150可以在表面形式超过语料库中的表示的阈值水平(例如，大于30个外观)时、在表面形式未链接到多个不兼容的概念(诸如具有不同语义类型的概念)时和/或在表面形式不是短首字母缩写(例如，小于阈值数量的字符)时，选择将被用作文本表示的表面形式。可以从概念等级提取概念的表面形式。例如，概念等级250可以为具有标识符“C0004238”的选定概念提供“心房纤颤”和“耳纤颤”的表面形式。

在操作330处，可以基于相邻上下文窗口提取概念的积极训练示例和消极训练示例。积极和消极训练示例可由训练模块150通过处理本体来生成。可基于本体中的所选概念附近的多个概念(诸如所选概念的父或子概念)来提取所选概念的积极训练示例。可以通过将一个或多个随机概念代入上下文窗口从而创建其概念不太可能彼此相关的示例来选择消极训练示例。例如，可以从包括“脂质”、“磷脂”和“磷脂酰胆碱”的三元组的分级的本体200中提取积极训练示例。通过用随机概念取代本体200中的一个或多个概念，可以从分级的本体200中提取消极训练示例；例如，消极训练示例可以包括“脂质”、“犬”和“磷脂酰丝氨酸”。

在操作340，使用随机值来初始化这些概念的向量。训练模块150可针对本体中的每一概念创建多维向量，且可用随机值初始化每一向量的维度。在一些实施例中，训练模块150还为在操作320中识别的概念的每个文本表示创建并初始化多维向量。

在操作350，通过在训练示例上优化损失函数来生成向量空间模型。训练模块150通过调整向量以针对积极训练示例最大化损失函数的输出并且针对消极训练示例最小化输出来迭代优化损失函数，因为损失函数计算关注向量与表示训练示例的另一向量之间的余弦相似性。具体地，可以通过使用梯度下降算法调整向量来优化损失函数。可关于经调整的向量中的每一者计算损失函数的导数；此导数指示向量的维度的值应增大还是减小。在正确方向上调整向量(例如，通过增加或减小维度的值)，并且选择下一向量来调整，从而每次递增地改善损失。

训练模块150可以通过计算对应于训练示例中的概念的两个或更多个向量的均值来生成表示训练示例的向量。当在操作320中识别出概念的文本表示时，损失函数还可以包括概念的向量和基于出现在文本表示出现在词汇语料库中的相同上下文中的词的词向量的均值之间的余弦相似性。一旦向量在多次迭代上收敛，训练模块150就可以输出适合于自然语言处理任务的向量空间模型。在一些实施例中，向量空间模型是连续的词袋模型。

在操作360，使用向量空间模型来执行自然语言处理任务。自然语言处理模块155可以使用向量空间模型来执行一个或多个常规或其他自然语言处理任务，包括诸如消歧、主题识别、情感分析、问答、机器翻译等任务。

图4是描绘了适合用于执行本文公开的方法的计算机10的部件的框图。计算机10可以实现根据本发明的实施例的用户设备105、数据服务器125和/或模型开发服务器135。应当理解，图4仅提供了一个实施例的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以对所描绘的环境做出许多修改。

如所描绘的，计算机10包括通信结构12，该通信结构在(多个)计算机处理器14、存储器16、持久性存储装置18、通信单元20和(多个)输入/输出(I/O)接口22之间提供通信。通信结构12可以用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。例如，通信结构12可用一条或多条总线来实现。

存储器16和持久性存储装置18是计算机可读存储介质。在所描绘的实施例中，存储器16包括随机存取存储器(RAM)24和高速缓存存储器26。通常，存储器16可以包括任何合适的易失性或非易失性计算机可读存储介质。

一个或多个程序可以存储在持久性存储装置18中以供对应的计算机处理器14中的一个或多个经由存储器16中的一个或多个存储器执行。永久性存储装置18可以是磁性硬盘驱动器、固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦可编程只读存储器(EPROM)、闪存、或能够存储程序指令或数字信息的任何其他计算机可读存储介质。

持久性存储装置18所使用的介质还可以是可移除的。例如，可移动硬盘驱动器可以用于永久性贮存器18。其他示例包括光盘和磁盘、拇指驱动器和智能卡，它们被插入到驱动器中以便转移到另计算机可读存储介质(其也是持久性存储装置18的一部分)上。

在这些实例中，通信单元20提供与其他数据处理系统或装置的通信。在这些示例中，通信单元20包括一个或多个网络接口卡。通信单元20可通过使用物理和无线通信链路中的任一者或两者提供通信。

I/O接口22允许与可以连接至计算机10的其他设备进行数据的输入和输出。例如，I/O接口22可以提供到外部设备28(诸如键盘、小键盘、触摸屏和/或一些其他合适的输入设备)的连接。外部设备28还可包括便携式计算机可读存储介质，诸如例如拇指驱动器、便携式光盘或磁盘、以及存储卡。

用于实施本发明的实施例的软件和数据可以存储在此类便携式计算机可读存储介质上并且可以经由(多个)I/O接口22加载到持久性存储器18上。I/O接口22还可以连接到显示器30。显示器30提供向用户显示数据的机制，并且可以是例如计算机监视器。

本文描述的程序是基于应用在本发明的具体实施例中实施的来识别的。然而，应当理解，本文中的任何特定程序术语仅为了方便而使用，并且因此本发明不应局限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

与使用基于本体的概念嵌入模型的自然语言处理相关的数据(例如，本体数据、语料库数据、向量空间模型数据等)可以存储在任何常规或其他数据结构(例如，文件、阵列、列表、堆栈、队列、记录等)内，并且可以存储在任何所希望的存储单元(例如，数据库、数据或其他储存库、队列等)中。在用户设备105、数据服务器125和/或模型开发服务器135之间传输的数据可以包括任何期望的格式和布置，并且可以包括用于存储数据的任何大小的任何数量的任何类型的字段。任何数据集的定义和数据模型可以任何期望的方式(例如，计算机相关语言、图形表示、列表等)指示整体结构。

与使用基于本体的概念嵌入模型的自然语言处理相关的数据(例如，本体数据、语料库数据、向量空间模型数据等)可以包括提供给用户设备105、数据服务器125和/或模型开发服务器135或由用户设备105、数据服务器125和/或模型开发服务器135生成的任何信息。与使用基于本体的概念嵌入模型的自然语言处理相关的数据可以包括任何期望的格式和布置，并且可以包括任何大小的任何数量的任何类型的字段以存储任何期望的数据。与使用基于本体的概念嵌入模型的自然语言处理相关的数据可以包括通过任何收集机制收集的关于实体的任何数据、收集的信息的任何组合和从分析收集的信息导出的任何信息。

本发明的实施例可以采用任何数量的任何类型的用户界面(例如，图形用户界面(GUI)、命令行、提示等)来获得或提供信息(例如，与使用基于本体的概念嵌入模型的自然语言处理相关的数据)，其中，该界面可以包括以任何方式安排的任何信息。该界面可以包括布置在任何位置处的任何数量的任何类型的输入或致动机构(例如，按钮、图标、字段、框、链接等)以输入/显示信息和经由任何合适的输入设备(例如，鼠标、键盘等)发起期望的动作。界面屏幕可包括任何合适的致动器(例如，链接、选项卡等)以在屏幕之间以任何方式导航。

将理解的是，以上描述的并且在附图中展示的实施例仅表示实现用于使用基于本体的概念嵌入模型来执行自然语言处理的实施例的许多方式中的几个。

本发明的实施例的环境可以包括任何数量的计算机或其他处理系统(例如，客户端或终端用户系统、服务器系统等)和以任何所希望的方式安排的数据库或其他储存库，其中本发明的实施例可以应用于任何所希望类型的计算环境(例如，云计算、客户端-服务器、网络计算、大型机、独立系统等)。本发明所采用的计算机或其他处理系统可以由任何数量的任何个人或其他类型的计算机或处理系统(例如，台式计算机、膝上型计算机、PDA、移动设备等)来实现，并且可以包括任何市售的操作系统以及市售和定制软件(例如，浏览器软件、通信软件、服务器软件、应用程序120、提取模块145、训练模块150、自然语言处理模块155等)的任何组合。这些系统可包括任何类型的监视器和输入设备(例如，键盘、鼠标、语音识别等)以输入和/或查看信息。

应当理解的是，本发明的实施例的软件(例如，浏览器软件、通信软件、服务器软件、应用程序120、提取模块145、训练模块150、自然语言处理模块155等)可以用任何所希望的计算机语言来实现，并且可以由计算机领域的普通技术人员基于说明书中包含的功能描述和附图中所展示的流程图来开发。进一步，本文中对执行不同功能的软件的任何引用通常指在软件控制下执行这些功能的计算机系统或处理器。本发明的实施例的计算机系统可以可选地通过任何类型的硬件和/或其他处理电路来实现。

计算机或其他处理系统的不同功能可以任何方式分布在任何数量的软件和/或硬件模块或单元、处理或计算机系统和/或电路之间，其中，计算机或处理系统可以彼此本地或远程地布置并且经由任何合适的通信介质(例如，LAN、WAN、内联网、互联网、硬线、调制解调器连接、无线等)进行通信。例如，本发明的实施例的功能可以以任何方式分布在不同终端用户/客户端和服务器系统、和/或任何其他中间处理设备之间。上面描述的和流程图中示出的软件和/或算法可以以实现本文描述的功能的任何方式进行修改。此外，流程图或描述中的功能可以以实现期望操作的任何顺序执行。

本发明实施例的软件(例如，浏览器软件、通信软件、服务器软件、应用程序120、提取模块145、训练模块150、自然语言处理模块155等)可以在固定或便携式程序产品装置或设备的非瞬态计算机可用介质(例如，磁性或光学介质、磁光介质、软盘、CD-ROM、DVD、存储器设备等)上可用，以便与独立系统或通过网络或其他通信介质连接的系统一起使用。

通信网络可以由任何数量的任何类型的通信网络(例如，LAN、WAN、互联网、内联网、VPN等)来实现。本发明实施例的计算机或其他处理系统可以包括用于经由任何常规或其他协议通过网络进行通信的任何常规或其他通信设备。计算机或其他处理系统可利用用于访问网络的任何类型的连接(例如，有线、无线等)。本地通信介质可由任何合适的通信介质(例如，局域网(LAN)、硬线、无线链路、内联网等)来实现。

该系统可以采用任何数量的任何常规或其他数据库、数据存储或存储结构(例如，文件、数据库、数据结构、数据或其他储存库等)来存储信息(例如，与使用基于本体的概念嵌入模型的自然语言处理相关的数据)。数据库系统可以通过任何数量的任何常规或其他数据库、数据存储或存储结构(例如，文件、数据库、数据结构、数据或其他储存库等)来实现，以存储信息(例如，与使用基于本体的概念嵌入模型的自然语言处理相关的数据)。数据库系统可以包括在服务器和/或客户端系统内或者耦接至服务器和/或客户端系统。数据库系统和/或存储结构可以远离计算机或其他处理系统或对计算机或其他处理系统是本地的，并且可以存储任何期望的数据(例如，与使用基于本体的概念嵌入模型的自然语言处理相关的数据)。

本发明的实施例可以采用任何数量的任何类型的用户界面(例如，图形用户界面(GUI)、命令行、提示等)来获得或提供信息(例如，与使用基于本体的概念嵌入模型的自然语言处理相关的数据)，其中该界面可以包括以任何方式安排的任何信息。该界面可以包括布置在任何位置处的任何数量的任何类型的输入或致动机构(例如，按钮、图标、字段、框、链接等)以输入/显示信息和经由任何合适的输入设备(例如，鼠标、键盘等)发起期望的动作。界面屏幕可包括任何合适的致动器(例如，链接、选项卡等)以在屏幕之间以任何方式导航。

本发明的实施例不限于以上描述的具体任务或算法，而是可以用于相关领域中的任何数量的应用，包括但不限于自然语言处理、机器学习等。

本文使用的术语仅是出于描述特定实施例的目的，并且不旨在限制本发明。如本文中使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还应当理解，当在本说明书中使用术语“包括(comprises)”、“包含(comprising)”、“包括(includes)”、“包括(including)”、“具有(has)”、“具有(has)”、“具有(having)”、“带有(with)”等时，规定所述特征、整体、步骤、操作、元件和/或部件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。

以下权利要求书中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于执行与如具体要求保护的、与其他要求保护的元件组合的所述功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了本发明的描述，但并不旨在是详尽的或限于所公开形式的本发明。在不背离本发明的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施例以便最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有适合于预期的特定用途的各种修改的各种实施例。

已经出于说明的目的呈现了对本发明的不同实施例的描述，但并不旨在是详尽的或限于所公开的实施例。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

本发明可以是在任何可能的技术细节集成度上的系统、方法、和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可以保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载至相应的计算/处理设备或下载至外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以被提供给计算机的处理器、或其他可编程数据处理装置以产生机器，这样使得经由该计算机的处理器或其他可编程数据处理装置执行的这些指令创建用于实现流程图和/或框图的或多个框中所指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

该计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置、或其他设备上，以便使得在该计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程，从而使得在该计算机、其他可编程装置、或其他设备上执行的指令实现流程图和/或框图的或多个框中所指定的功能/动作。

附图中的流程图和框图展示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种用于自然语言处理的计算机实施的方法，包括：

提取分级的本体的一个或多个概念的一个或多个训练示例，其中所述一个或多个概念的所述一个或多个训练示例基于所述分级的本体中的相邻概念；

初始化多个向量，每个向量包括一个或多个特征，其中，每个向量对应于所述一个或多个概念中的概念；

通过迭代地修改所述多个向量中的一个或多个向量以优化损失函数来生成向量空间模型；以及

使用所述向量空间模型来执行自然语言处理。

2.根据权利要求1所述的计算机实现的方法，其中，所述向量空间模型包括连续的词袋模型。

3.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述一个或多个概念的所述一个或多个训练示例包括一个或多个积极训练示例和一个或多个消极训练示例，并且其中，优化所述损失函数包括：

修改所述多个向量中的一个或多个向量以针对所述一个或多个积极训练示例中的每一个将所述损失函数最小化；以及

修改所述多个向量中的一个或多个向量以针对所述一个或多个消极训练示例中的每一个使所述损失函数最大化。

4.根据前述权利要求中任一项所述的计算机实现的方法，其中，每个概念的所述损失函数的输出与所述概念的向量和第一均值向量的第一余弦相似性成比例，其中，所述第一均值向量是所述概念的父概念的一个或多个向量和所述概念的子概念的一个或多个向量的均值。

5.根据权利要求4所述的计算机实现的方法，进一步包括：

识别概念的一个或多个非歧义文本表示；以及

其中，所述损失函数的所述输出还与所述概念的所述向量和第二均值向量之间的第二余弦相似性成比例，其中，所述第二均值向量是基于所述一个或多个非歧义文本表示的一个或多个词向量的均值。

6.根据权利要求5所述的计算机实现的方法，其中，在一个或多个词汇语料库中识别所述一个或多个非歧义文本表示。

7.根据权利要求5或6中任一项所述的计算机实现的方法，进一步包括：

使用所述向量空间模型，基于所述一个或多个词语的词语向量与所述查询概念的概念向量的余弦相似性来识别与所述查询概念相关的一个或多个词语。

8.根据权利要求5至7中任一项所述的计算机实现的方法，进一步包括：

使用所述向量空间模型，基于所述一个或多个概念的概念向量与所述查询词的词向量的余弦相似性，来识别与所述查询词相关的一个或多个概念。

9.一种用于自然语言处理的计算机系统，所述计算机系统包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；

存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个计算机处理器中的至少一个执行的程序指令，所述程序指令包括用于以下操作的指令：

使用所述向量空间模型来执行自然语言处理。

10.根据权利要求9所述的计算机系统，其中，所述向量空间模型包括连续的词袋模型。

11.根据权利要求9或10所述的计算机系统，其中，所述一个或多个概念的所述一个或多个训练示例包括一个或多个积极训练示例和一个或多个消极训练示例，并且其中，用于优化所述损失函数的所述程序指令包括用于以下操作的指令：

12.根据权利要求9至11中任一项所述的计算机系统，其中，每个概念的所述损失函数的输出与所述概念的向量和第一均值向量的第一余弦相似性成比例，其中，所述第一均值向量是所述概念的父概念的一个或多个向量和所述概念的子概念的一个或多个向量的均值。

13.根据权利要求12所述的计算机系统，其中，所述程序指令进一步包括用于以下操作的指令：

识别概念的一个或多个非歧义文本表示；以及

14.根据权利要求13所述的计算机系统，其中，在一个或多个词汇语料库中识别所述一个或多个非歧义文本表示。

15.根据权利要求13或14所述的计算机系统，其中，所述程序指令进一步包括用于以下操作的指令：

16.根据权利要求13至15中任一项所述的计算机系统，其中，所述程序指令进一步包括用于以下操作的指令：

17.一种用于自然语言处理的计算机程序产品，所述计算机程序产品包括：

计算机可读存储介质，所述计算机可读存储介质可由处理电路读取并且存储用于由所述处理电路执行以执行根据权利要求1至8中任一项所述的方法的指令。

18.一种计算机程序，存储在计算机可读介质上并可加载到数字计算机的内部存储器中，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，所述软件代码部分用于执行根据权利要求1至8中任一项所述的方法。