CN110929523B

CN110929523B - 共指解析和实体链接

Info

Publication number: CN110929523B
Application number: CN201910887211.4A
Authority: CN
Inventors: Y·拉索艾德; L·德雷瑞斯; S·德帕瑞斯; K·乐维彻尔; C·A·佐彻姆; 侯玉芳; E·达雷
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-09-19
Filing date: 2019-09-19
Publication date: 2023-09-29
Anticipated expiration: 2039-09-19
Also published as: US20200089766A1; CN110929523A; US11023681B2

Abstract

用于由处理器从非结构化文本数据进行共指解析和实体链接的实施例。通过使用领域知识本体链接在非结构化文本数据中出现的一个或多个实体，可以解析所述一个或多个实体的语义共指和提及。

Description

共指解析和实体链接

技术领域

本发明一般而言涉及计算系统，并且更具体地涉及使用计算处理器从非结构化文本数据进行共指解析和实体链接的各种实施例。

背景技术

由于最近信息技术的进步和互联网的日益普及，现在大量信息以数字形式可用。信息的这种可用性提供了许多机会。数字和在线信息是商业智能的有利来源，这对于在竞争激烈的环境中实体的生存和适应性至关重要。

发明内容

提供了各种实施例，用于由处理器从非结构化文本数据进行共指解析和实体链接。在一个实施例中，仅作为示例，提供了再次由处理器从非结构化文本数据进行共指解析和实体链接的方法。通过使用领域知识本体链接一个或多个实体，可以解析在非结构化文本数据中出现的一个或多个实体的语义共指和提及。

附图说明

为了易于理解本发明的优点，将通过参考在附图中示出的特定实施例来呈现上面简要描述的本发明的更具体描述。应理解，这些附图仅描绘了本发明的典型实施例，因此不应当被认为是对其范围的限制，将通过使用附图以附加的特异性和细节来描述和解释本发明，其中：

图1表示根据本发明实施例的示例性云计算节点的框图；

图2表示根据本发明实施例的示例性云计算节点的框图；

图3表示根据本发明实施例的抽象模型层的附加框图；

图4是描绘根据本发明实施例的从非结构化文本数据进行共指解析和实体链接的框图；

图5是描绘根据本发明的各方面的领域本体的图；

图6是描绘根据本发明的各方面的关系和特性的本体推断的图；

图7是描绘根据本发明的各方面的用于共指解析的示例性操作的图；

图8是描绘根据本发明的各方面的语义指代识别的图；

图9是描述根据本发明的各方面的语义关系识别的图；

图10是描绘根据本发明的各方面的使用来自共指解析、实体链接和关系链接的关系结果以及使用实体之间的本体关系来解析语义指代的图；

图11是描绘用于由处理器执行从非结构化文本数据进行共指解析和实体链接的示例性方法的流程图；再次，可以在其中实现本发明的各方面；以及

图12是描绘根据本发明实施例的使用匹配的实体标识符(ID)从非结构化文本数据进行共指解析和实体链接的图。

具体实施方式

随着电子信息量的不断增加，对复杂信息访问系统的需求也在增长。通过实时的全球计算机网络，越来越多地可访问数字或“在线”数据。数据可以反映群体中的团体或个体行为的许多方面，包括科学、政治、政府、教育、金融、旅行、交通流量、购物和休闲活动、医疗保健等。许多数据密集型应用需要从数据源中提取信息，诸如例如在政治、安全和反恐、医疗保健、政府、教育或商业环境中。

共指解析是识别以自然语言指代同一现实世界实体的语言表达(提及)的任务。自然语言处理(“NLP”)可以能够准确地解析某些类型的共指，诸如回指(anaphora)、后指(cataphora)或前因。但是，NLP操作目前受到名词短语共指的挑战。

照此，需要使用实体特性(例如，名称、标签、类型、角色、同义词等)和实体关系(例如，社交关系)及其特性(例如，名称、标签、同义词等)使用领域知识本体(例如，社交网络)来解决在自然文本中发生的非平凡的语义共指。因此，本发明提供了使用诸如例如可以应用于感兴趣的实体、实体特性和关系(例如，语义关系)可以在本体中被捕获的任何领域的社交网络之类的领域知识本体来解析人/实体共指。即，可以通过使用领域知识本体链接一个或多个实体来解析在非结构化文本数据中出现的一个或多个实体的语义共指和提及。在一个方面，可以处理可以是非结构化文本数据的文本数据，使得可以从文本数据中自动识别/发现/提取一个或多个实体的一个或多个指示或“提及”以用于解析一个或多个实体之间的语义共指。

在一个方面，认知系统可以接收以自然语言和领域本体表达的文本数据，其包括感兴趣的实体、实体的语义类型、数据特性和关系的集合。认知系统可以提供实体注释的集合，每个实体注释由输入文本中的提及范围和/或来自具有匹配得分的领域本体的一个或多个匹配实体(例如，实体ID)组成。在一个方面，领域知识本体可以由诸如例如领域数据库“DBPedia”之类的外部源提供，或者可以从所考虑的输入文本填充。即，DBPedia可以使用语义web表达来表示来自一个或多个在线数据源(例如，互联网/维基百科)的结构化知识。

如本文所使用的，实体(例如，概念、个体、实例等)可以是真实或虚拟的事物和/或想法的形式化，诸如给定的人或组织。语义类型或类可以是共享某些共同点(例如，语义类型)的实体/概念/个体/实例的类别，诸如例如人、男人、女人、动物、组织。特性可以是与给定类型的实体相关联的数据字段(例如，文本数据字段)，诸如例如人的名字、昵称、作业和/或组织的首字母缩略词。关系可以是源实体和目标实体之间的二元链接，诸如例如“…的父亲”、“…的朋友”、“…的导师”、“…的宠物”等。本体可以是实体、实体的语义类型、特性和关系的集合。词典可以是为了从知识领域(例如，本体)发现/识别实体的提及(例如，对实体的语义指代)而学习的模型。在一个方面，“提及”是旨在具有其普通含义的术语。例如，“提及”可以简要地指某事/某人而不进行详细描述和/或引用或引起对某人或某事的注意的动作或实例，尤其是以随意或偶然的方式。

因此，在一个方面，认知系统可以学习/确定一个或多个本体推断以推断实体的新关系和特性。可以使用实体名称、标签和特性(例如，工作、角色、昵称等)从本体学习实体的词典。可以从语义网络学习关系类型(例如，…的母亲、…的父亲等)的词典。可以应用共指解析。实体词典可以被用于发现实体提及并将所提及的实体链接到相关实体。关系的词典可以被用于发现所有格之后或之前的提及(例如，my dad(我的父亲)、the father of X(X的父亲)、X’s father(X的父亲)等)，并将所提及的关系与相关本体关系链接。来自共指解析、实体链接和关系链接的结果可以与实体之间的本体关系结合使用，以彻底/完整地解析语义指代。

在一个方面，术语“领域”是旨在具有其普通含义的术语。此外，术语“领域”可以包括系统的专业领域或者与特定实体或与实体相关的一个或多个主体相关的材料、信息、内容和/或其它资源的集合。领域可以指与任何特定实体相关的信息以及可以定义、描述和/或提供与一个或多个实体相关联的各种其它数据的相关联数据。领域可以指还可以指主题或所选择的主体的组合。

而且，在另一方面，术语“本体”在其最广泛的意义上可以包括可以被建模为本体的任何东西，包括但不限于分类法、叙词表、词汇表等。例如，本体可以包括与感兴趣的领域或者特定类或概念的内容相关的信息或内容。内容可以是任何可搜索的信息，例如，通过计算机可访问网络(诸如互联网)分发的信息。概念一般可以被分类为多个概念中的任何一个，其也可以包括一个或多个子概念。概念的示例可以包括但不限于科学信息、医疗保健信息、医学信息、生物医学信息、商业信息、教育信息、商务信息、财务信息、政治信息、定价信息，关于个人、文化、团体、社会团体、市场利益团体、机构、大学、政府、团队或任何其它信息团体的信息。可以利用与源同步的信息不断更新本体，从而将来自源的信息作为模型、模型的属性或本体内的模型之间的关联添加到本体。

首先应当提前理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，其中显示了云计算节点的一个例子。图1显示的云计算节点10仅仅是适合的云计算节点的一个示例，不应对本发明实施例的功能和使用范围带来任何限制。总之，云计算节点10能够被用来实现和/或执行以上所述的任何功能。

云计算节点10具有计算机系统/服务器12，其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知，适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境，等等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，其它硬件和/或软件模块可以与计算机系统/服务器12一起操作，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本发明的上下文中，并且如本领域技术人员将认识到的，图1中描绘的各种部件可以位于移动的车辆中。例如，与所示实施例的机制相关联的一些处理和数据存储能力可以经由本地处理部件在本地发生，而相同的部件经由网络连接到远程定位的分布式计算数据处理和存储部件，以实现本发明的各种目的。同样，如本领域普通技术人员将认识到的，本说明旨在仅传达可以是共同实现各种发明方面的分布式计算部件的整个连接的网络的子集。

现在参考图2，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理(PDA)或移动电话54A，台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图2显示的各类计算设备54A-N仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图3，其中显示了云计算环境50(图2)提供的一组功能抽象层。首先应当理解，图3所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图3所示，提供下列层和对应功能：

设备层55包括物理和/或虚拟设备，嵌有和/或是独立电子器件、传感器、致动器和其它对象，以在云计算环境50中执行各种任务。设备层55中的每个设备将联网能力结合到其它功能抽象层，使得可以向其提供从设备获得的信息，和/或可以向设备提供来自其它抽象层的信息。在一个实施例中，包括设备层55的各种设备可以结合统称为“物联网”(IoT)的实体网络。如本领域普通技术人员将认识到的，这种实体网络允许数据的相互通信、收集和传播，以实现多种目的。

如图所示，设备层55包括传感器52、致动器53、具有集成的处理、传感器和联网电子器件的“学习”恒温器56、相机57、可控制的家用出口(outlet)/插座58，以及可控制的电气开关59。其它可能的设备可以包括但不限于各种附加的传感器设备、联网设备、电子设备(诸如遥控设备)、附加的致动器设备、所谓的“智能”家电(诸如冰箱或洗衣机/烘干机)，以及各种其它可能的互连物体。

硬件和软件层60包括硬件和软件组件。硬件组件的例子包括：主机61；基于RISC(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；网络和网络组件66。软件组件的例子包括：网络应用服务器软件67以及数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74，以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能83：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航91；软件开发及生命周期管理92；虚拟教室的教学提供93；数据分析处理94；交易处理95；以及在本发明的所示实施例的上下文中，各种指代消解和实体链接的工作负载和功能96。此外，指代消解和实体链接的工作负载和功能96可以包括诸如数据分析(包括数据收集和来自各种环境传感器的处理)之类的操作，以及预测数据分析功能。本领域普通技术人员将理解，来自非结构化文本数据的指代消解和实体链接的工作负载和功能96也可以与各种抽象层的其他部分例如硬件和软件60、虚拟化70、管理80和其他工作负载90(例如，数据分析处理94)中的那些部分来实现本发明所示实施例的各种目的。

图4是描绘根据本发明的各方面的用于从非结构化文本数据进行共指解析和实体链接的各种功能块的附加的概念图。如将看到的，功能块中的许多也可以被认为是功能的“模块”，具有与先前在图1-3中描述的相同的描述性意义。考虑到前述内容，模块方框400还可以结合到根据本发明的系统的各种硬件和软件部件中。例如，图1中的计算机系统/服务器12可以在图4中采用，其结合了处理单元16以执行根据本发明的各方面的各种计算、数据处理和其它功能。在一个方面，方框400中的每一个可以并行、顺序和/或迭代地执行。

仅作为示例，描绘了各种计算、数据处理和其它功能工作流程。即，描绘了从非结构化文本数据进行共指解析和实体链接。在一个方面，本发明可以包括由本体推理器使用领域本体来确定本体推断以获得推断图，如方框402中所示。

实体词典创建者可以使用实体名称、特性(例如，作业、角色、昵称等)和/或同义词来从本体学习和/或创建实体词典，如方框404中所示。实体词典创建者可以使用外部知识，诸如叙词表或词典。

关系词典创建者(例如，关系的词典创建者)可以用于从本体和可能的外部知识(诸如叙词表或词典)学习和/或创建关系的词典，以从语义网络学习关系类型的词典(例如，…的母亲、…的父亲等等)，其可以包括同义词，如方框406中所示。即，关系的词典创建者可以使用关系的词典来识别/发现所有格之后或之前的提及(例如，my dad(我的父亲)、the father of X(X的父亲)、X’s father(X的父亲)等)，并将他们链接到相关的本体关系。

在一个方面，词典是为了从知识领域发现/识别实体或关系的提及(例如，识别实体和/或关系的语义指代)而学习的模型。词典可以包括但不限于每个实体或关系的潜在术语匹配的集合，具有匹配得分(或置信得分)。例如实体John Doe：“JohnDoe”可以被指派1.0，“John”可以被指派0.5，“Doe”可以被指派0.5，“参议员”可以被指派0.1，并且“政党”可以被指派0.1。作为关系的词典的另一个示例，“…的父亲”可以为父亲指派“父亲”0.9，“爸爸”可以被指派0.9，“先生”可以被指派0.1，等等。

对于学习词典，学习实体或关系的词典可以基于实体或关系特性。可以从外部源(例如，叙词表、DBPedia等)添加同义词。可以基于信息检索(IR)技术来学习词典。IR技术可以包括1)使用它们的特性来创建目标实体或关系的索引，将每个实体或关系视为文档，并且将每个特性视为字段，和/或2)计算在文档字段中出现的每个相关术语与文档本身之间的术语-频率-反转文档频率(例如，“TF-IDF”)相似性，并且可以包括与字段相关联的不同权重，其可以是术语与文档(实体或关系)之间的匹配得分。

TF-IDF是测量文档集合中的词的重要性的操作。换句话说，TF-IDF是数字统计，其旨在反映词对集合或语料库中的文档有多重要。TF-IDF操作可以提供实体描述的TF-IDF向量表示，并且可以比较向量以识别文档之间的相似性。

基于NLP的共指解析器(例如，语言“POS”和共指解析器的部分)可以使用一个或多个NLP操作(例如，NLP工具)来进行标记化、POS和共指解析，如方框408中所示。基于NLP的共指解析器也可以解析代词指代。

实体提及标记器可以发现本体实体的提及并且使用实体词典将“提及”链接到相关的本体实体，如方框410中所示。关系提示标记器可以发现关系的提及并将它们链接到相关的本体关系，如方框412中所示。

关系解析器可以被用于使用语义图来解析关系实体提及，如方框414中所示。即，关系解析器可以被用于编译来自共指解析、实体链接和关系链接的所有结果，结合实体之间的本体关系，以完全解析语义指代(经由语义图)，如方框416中所示(例如，完全/完全解析的语义指代和通过实体特性和实体关系的指代)。即，输出可以是实体注释的集合，每个实体注释包含输入文本中的提及范围和/或来自具有匹配得分的领域本体的一个或多个匹配实体(例如，实体ID)。

现在转向图5，图500描绘了示例性领域本体。领域本体可以包括感兴趣的实体、实体的语义类型、数据属性和关系的集合。例如，实体的语义类型可以是可以是男人或女人的人。这种关系可以包括例如可以是…的妻子(例如，…的丈夫的反转)和…的丈夫(…的妻子的反转)的…的配偶(反转的)、…的父母(例如，…的孩子的反转)(例如，…的母亲或…的父亲)。关系可以包括…的孩子(例如，…的父母的反转)，诸如例如…的儿子和…的女儿。领域本体还可以包括一个或多个公理，诸如例如以下形式：(i)(？x:父母？y)(？y:？z的父母)->(？x:祖父母？z)或(ii)(？x:？y的孩子)(？x rdf:类型:男人)->(？x:？y的儿子)，其中(i)读起来好像x是y的父母并且y是z的父母，于是可以推断出x是z的祖父母，并且(ii)读起来好像x是y的孩子并且x是男人，于是x是y的儿子。

例如，John Doe可以是Jack Doe的父亲。John Doe的姓可以是“Doe”。Jack Doe可以是A国的总统候选人。Jack Doe可以居住在A州的A市。Jack Doe的姓氏是“Doe”。Jane Doe可以是John Doe的妻子。Jane Doe的名字可以是“Jane”并且姓氏是“Doe”。Jane Doe也可以有中间名或婚前姓“Smith”。因此，领域本体提供了感兴趣的实体、语义实体的类型、数据特性和关系的集合。可以从文本数据中按名字、角色、性别或替代名提取实体的每个指示或提及，并注释到每个具体的、识别出的实体。

现在转到图6，图600描绘了关系和特性的本体推断的示例性图。“虚线”指示推断语句的示例，并且实线指示来自领域数据库(例如，DBPedia)的断言语句。

即，可以确定和/或推断使用公理的一个或多个新的本体关系和特性。例如，使用自定义领域规则的传递关系、反转关系和/或其它关系可以被用于推断本体关系和特性。例如，如果X是Y的后代，并且Y是Z的后代，那么可以推断传递关系，于是X是Z的后代。如果X是Y的丈夫，那么可以推断反转关系，于是Y是X的妻子。如果X是Y的儿子，那么Y是X的父母。自定义领域规则可以指示：1)如果X(例如，Jack Doe)是Y(John Doe)的孩子，并且X是男性，那么X是Y的儿子，2)如果X是Y的兄弟，并且Y是Z的父母，那么X是Z的叔叔，和/或3)如果X的姓氏是f，并且Y是X的妻子，那么Y的替代标签是“Mrs.”和“f”。例如，John Doe的姓氏是“Doe”并且是Jane Doe的丈夫。因此，Jane Doe可以有另一个标签是Mrs.Doe。

图7是描绘用于共指解析的示例性操作的图700。如上所述，具有注释和附加的实体信息的文本可以被用于解析共指(例如，代词指代)。例如，“John Doe”可以被识别为代词“him(他)”或“His(他的)”的指代，或者“John”和“Jane Doe”被识别为代词“they(他们)”的指代，等等。更具体而言，共指解析操作可以包括用实体标识符(ID)替换缩短的指示(例如，实体“John Doe”的代词“his(他的)”)，该实体标识符可以是实体的名字本身或指派的指实体的ID。因此，输出数据提供了改进的带注释的文本数据，其中共指已经被解析。

在一个方面，共指解析操作可以被定义为确定两个表达指相同指示对象的处理，而不必确定指示对象是什么。指代解析可以是确定指示对象是什么/谁的处理。为了进一步说明，共指的表达可以被称为彼此的别名。例如，表达“Political Candidate(政治候选人)”、“his(他的)”、“my(我的)”和“Jack Doe”构成指Jack Doe的别名集群。

图8图示了语义指代识别的图800。例如，实体词典可以被用于发现一个或多个实体提及(例如，Jack Doe、John Doe和/或Jane Doe)并将一个或多个实体提及链接到一个或多个相关实体(例如，his(他的)、my(我的)、they(他们)等等)。

图9图示了语义关系识别的图900。例如，关系的词典可以被用于发现一个或多个语义关系提及并将一个或多个语义关系提及链接到一个或多个相关的本体关系，诸如例如家庭、父母、父亲和母亲。例如，文本中的术语“parents(父母)”与本体关系“…的父母”链接。

图10是描绘使用来自共指解析、实体链接和关系链接的关系结果以及使用实体之间的本体关系来解析语义指代的附加图。即，来自共指解析、实体链接和关系链接的关系结果可以与实体之间的本体关系结合使用以完全解析语义指代。应当注意的是，如果语义图包括例如Jack Doe的祖父母，那么解析关系提及的操作也可以包括解析文本中的关系提及，诸如例如在文本“After his mother died…(在他的母亲去世之后......)”，是指JackDoe的祖母。

因此，本发明提供了一种认知系统，用于使用领域本体(例如，社交网络)解析在自然文本中发生的非平凡语义共指。可以接收以自然语言表达的文本和/或领域本体作为输入，其中领域本体包括感兴趣的实体集、它们的语义类型、数据特性和关系的集合。实体注释的领域本体，每个实体注释包括输入文本中的提及范围和/或来自领域本体的一个或多个或若干个匹配实体(实体ID)，其可以包括它们的匹配得分。

现在转向图11，描绘了用于由处理器从非结构化文本进行共指解析和实体链接的方法1100，其中可以实现所示实施例的各个方面。即，图11是根据本发明的示例的用于在计算环境中从非结构化文本进行数据发现、表征和人际关系的分析的附加示例方法1100的流程图。功能1100可以被实现为作为机器上的指令执行的方法，其中指令被包括在至少一个计算机可读介质或一个非瞬态机器可读存储介质上。功能1100可以在方框1102中开始。

功能1100可以接收非结构化文本数据和/或领域本体，领域本体可以包括感兴趣的实体、实体的语义类型、数据特性和关系的集合，如方框1104中所示。一个或多个本体推断可以被确定，以推断新关系和特性，如方框1106中所示。可以使用实体名称、标签和特性(例如，工作、角色、昵称等)从本体学习实体的词典，如方框1108中所示。关系类型的词典可以从语义网络学习(例如，…的母亲、…的父亲等)，如方框1110中所示。可以应用/执行共指解析，如方框1112中所示。实体词典可以被用于识别/发现实体提及并将它们链接到相关实体，如方框1114中所示。关系词典可以被用于识别/发现所有格之后或之前的提及(例如，mydad(我的父亲)、the father of X(X的父亲)、X’s father(X的父亲)等)并将所有格链接到相关的本体关系，如方框1116中所示。共指解析、实体链接和关系链接的结果与实体之间的本体关系结合，以完全解析语义指代，如方框1118中所示。功能1110可以结束，如方框1120中所示。功能1100可以结束，如方框1120中所示。

在一个方面，结合图11的至少一个方框和/或作为图11的至少一个方框的一部分，1100的操作可以包括以下每个中的一个或多个。1100的操作可以将一个或多个实体链接到提取出的文本数据，以使用知识图创建一个或多个实体与提取出的文本数据之间的关系，和/或将知识图中的条目与提取出的文本数据中的一个或多个实体中的每一个实体相关联。

1100的操作可以使用领域知识本体，其定义多个实体、实体的语义类型、多个实体的特性、多个实体之间的关系。1100的操作可以从领域知识本体识别和学习实体词典，并且从领域知识本体识别和学习关系的词典。可以使用来自领域知识本体的实体词典、关系的词典或其组合对非结构化文本数据中指代的一个或多个实体执行共指解析。

1100的操作可以使用实体词典来识别非结构化文本数据中的一个或多个语义实体引用，并将一个或多个语义实体指代链接到一个或多个实体；并使用关系的词典来识别非结构化文本数据中的一个或多个语义关系指代，并将一个或多个语义关系指代链接到一个或多个实体。

1100的操作可以聚合共指解析操作、实体链接操作和关系链接操作的结果以及语义图中的一个或多个实体之间的本体关系指代，用于解析一个或多个实体之间的语义共指。

现在转到图12，图1200描绘了使用匹配的实体标识符(ID)从非结构化文本数据的共指解析和实体链接的最终输出。即，使用如本文所述的各种实施例(例如，图4的操作)，可以接收输入文本1202。图1200图示了用于通过使用领域知识本体链接一个或多个实体来解析在非结构化文本数据中出现的一个或多个实体的语义共指和提及的输出1204。如图所描绘的，输出1204可以是具有跨度(例如，一系列文本中的字符位置，诸如例如以第14个字符开始并且以第34个字符结束)、指代/提及和匹配的实体ID的表格。在一个方面，跨度可以指示所提及的实体的位置，诸如例如“political candidate(政治候选人)”是在字符14和34处开始/结束的所提及的实体。所提及的实体“political candidate(政治候选人)”的匹配的实体ID可以是“John Doe”。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及传统的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种由处理器从非结构化文本数据进行共指解析和实体链接的方法，包括：

通过使用领域知识本体链接在非结构化文本数据中出现的一个或多个实体来解析所述一个或多个实体的语义共指和提及，其中在所述领域知识本体内的表格中链接所述一个或多个实体，所述表格包括指派给所述一个或多个实体中的每一个实体的实体标识符、所述一个或多个实体的提及的指示对象描述、以及所述一个或多个实体的提及在非结构化文本数据内的开始和结束字符位置的字符跨度。

2.如权利要求1所述的方法，还包括定义所述领域知识本体以包括多个实体、实体的语义类型、所述多个实体的特性、所述多个实体之间的关系。

3.如权利要求1所述的方法，还包括从所述领域知识本体识别和学习实体词典。

4.如权利要求1所述的方法，还包括从所述领域知识本体识别和学习关系的词典。

5.如权利要求1所述的方法，还包括使用来自所述领域知识本体的实体词典、关系的词典或其组合对非结构化文本数据中指代的所述一个或多个实体执行共指解析。

6.如权利要求1所述的方法，还包括：

使用实体词典来识别所述非结构化文本数据中的一个或多个语义实体指代，并将所述一个或多个语义实体指代链接到所述一个或多个实体；以及

使用关系的词典来识别所述非结构化文本数据中的一个或多个语义关系指代，并将所述一个或多个语义关系指代链接到所述一个或多个实体。

7.如权利要求1所述的方法，还包括聚合共指解析操作、实体链接操作和关系链接操作的结果以及语义图中所述一个或多个实体之间的本体关系指代，从而完全解析所述一个或多个实体之间的语义共指。

8.一种用于从非结构化文本数据进行共指解析和实体链接的系统，包括：

一个或多个存储器，存储计算机可执行指令，以及

一个或多个处理器，其中所述一个或多个处理器被配置为访问所述一个或多个存储器并执行所述计算机可执行指令，以执行如权利要求1-7中任一项所述的方法中的步骤。

9.一种计算机可读存储介质，包括计算机可读程序，其中所述计算机可读程序在计算机上执行时使所述计算机执行如权利要求1-7中任一项所述的方法中的步骤。

10.一种计算机系统，包括被配置为执行如权利要求1-7中任一项所述的方法中的步骤的模块。