CN102436456B

CN102436456B - 用于对命名实体进行分类的方法和装置

Info

Publication number: CN102436456B
Application number: CN201010506217.1A
Authority: CN
Inventors: 倪渊; 张雷; 裘照明
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-29
Filing date: 2010-09-29
Publication date: 2016-03-30
Anticipated expiration: 2030-09-29
Also published as: US20120185480A1; CN102436456A; US10108705B2

Abstract

本发明提供了用于对命名实体进行分类的方法和装置。所述方法包括：从链接开放数据LOD数据集中读取与待分类命名实体对应的LOD节点；将所述与该待分类命名实体对应的LOD节点的类型属性作为所述待分类命名实体的标注类型；读取候选类型；和根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性。根据本发明的技术方案，可以利用网络上存在的大量信息来帮助对命名实体进行分类。

Description

用于对命名实体进行分类的方法和装置

技术领域

本发明涉及数据处理领域，更具体地说，涉及用于对命名实体进行分类的方法和装置。

背景技术

命名实体(namedentity)的分类是许多应用的关键步骤。命名实体从本质上说就是一个具有语义学意义的单词。例如，在自动问答系统中，需要确定候选答案的类型是否符合问题所指定的类型。在信息抽取系统中，需要确定命名实体的类型，以便为后续的抽取处理做准备。

传统的自动分类系统基于机器学习。具体而言，向自动分类系统输入一系列已知类型的命名实体，每个命名实体对应于一个特征向量。自动分类系统经过机器学习后获得特征向量与类型的对应关系。当自动分类系统接收到待分类命名实体及其特征向量后，就可以根据所述对应关系对该待分类命名实体进行分类。

例如，可以利用命名实体本身的词汇级信息和上下文信息作为特征向量的元素。在这种情况下，命名实体的特征向量就是一个二维向量。对于一个命名实体Smith，所述词汇级信息例如该命名实体的首字母是大写，所述上下文信息例如该命名实体之前的一个词是Professor。该命名实体的特征向量为(首字母大写，跟随在Professor后)。如果自动分类系统已经将该特征向量对应到类型“人物”，那么就可以将该命名实体归入“人物”这一类型，而不是“组织”这一类型。本领域技术人员可以理解，特征向量和类型未必是一一对应的关系。

以上方法需要手工地为学习用的命名实体确定恰当的类型，会带来较大的工作量。此外，随着互联网的发展，在网络上能够获取越来越多的信息，这些信息可以用来帮助对命名实体进行分类。因此，需要一种方案，以便利用这些信息帮助对命名实体进行自动分类。

发明内容

本发明提供了用于对命名实体进行分类的方法以及装置。

根据本发明实施例的用于对命名实体进行分类的方法包括：从链接开放数据(LinkingOpenData，LOD)数据集中读取与待分类命名实体对应的LOD节点；将所述与该待分类命名实体对应的LOD节点的类型属性作为所述待分类命名实体的标注类型；读取候选类型；和根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性。

根据本发明实施例的用于对命名实体进行分类的装置包括：LOD节点读取装置，配置为从链接开放数据LOD数据集中读取与待分类命名实体对应的LOD节点；标注类型确定装置，配置为将所述与该待分类命名实体对应的LOD节点的类型属性作为所述待分类命名实体的标注类型；候选类型读取装置，配置为读取候选类型；和可能性确定装置，配置为根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性。

根据本发明的技术方案，可以利用网络上存在的大量信息来帮助对命名实体进行的自动分类。

附图说明

图1示出示例性的LOD数据集。

图2示出根据本发明实施例的用于命名实体分类的方法。

图3示出根据本发明实施例的根据标注类型计算待分类命名实体属于各候选类型的可能性的方法。

图4示出示例性的中间本体。

图5示出根据本发明实施例的用于命名实体分类的装置。

具体实施方式

以下参照附图说明本发明提供的处理器和调度处理器的方法的具体实施方式。在下面的说明中，阐述了许多具体细节以便更全面地了解本发明。但是，本技术领域技术人员容易理解，本发明的实现可不具有这些具体细节中的一些，并且本发明并不限于所介绍的特定实施例。相反，可以考虑用下面的特征和要素的任意组合来实施本发明，而无论它们是否涉及不同的实施例。因此，下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定，除非权利要求中明确提出。还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。此外，除非刻意地使用“直接”或者“间接”加以限定，否则本申请文件中的连接既包括直接连接，也包括间接地连接。

链接开放数据(LinkingOpenData，LOD)是一种新的网络数据形式。一个LOD数据集可以看作是一个巨大的图数据结构。图1示出的是一个LOD数据集的示意图。该示意图来自http://richard.cyganiak.de/2007/10/lod/。LOD集合中的每个LOD节点由一个通用资源标识符(UniformResourceIdentifier，URI)表示。LOD节点是一个结构化的数据形式，其可以包括许多属性条目，例如名称属性条目、类型属性条目等。迄今为止，LOD项目已经包括超过100个LOD数据集，并且包括超过42亿条属性条目，这些属性条目中有大约将近800万条是有关类型的属性条目。LOD节点通常与网页具有一定的对应关系，这与LOD数据集是由大量用户通过网络创建的相适应。例如，LOD数据集dbpedia内的LOD节点与wikipedia网站内的网页有一定的对应关系。

一个待分类的命名实体，其很可能在LOD数据集中对应于一个或多个LOD节点，即待分类命名实体与该一个或多个LOD节点的名称属性相同或近似。而每个LOD节点可能已经被标注了至少一个类型。因此，可以利用在LOD数据集中已经存在的类型信息，来帮助自动地为命名实体分类。这种帮助分类的方法可以作为对基于机器学习的方法的补充或替代。

首先参照图2描述根据本发明实施例的用于命名实体分类的方法。

步骤201，从LOD数据集中读取与待分类命名实体对应的LOD节点。

如前所述，一个待分类命名实体，其很可能在LOD数据集中对应于一个或多个LOD节点。如何找到待分类命名实体所对应的LOD节点可以采用许多现有的方法，例如单词级的方法，即比较待分类命名实体与LOD节点的名称属性之间的字符相似度；又例如语义级的方法，即比较待分类命名实体与LOD节点的名称属性之间的语义相似度。在此不再赘述各种具体的方法。

步骤202，将所述与该待分类命名实体对应的LOD节点的类型属性作为所述待分类命名实体的标注类型。

每个LOD节点可能已经被发布者标注了至少一个类型，即该LOD节点可能有至少一个类型属性条目，用以记载该LOD节点的类型属性。这些类型属性就是该待分类命名实体的标注类型。如果一个与该待分类命名实体对应的LOD节点具有多个类型属性条目，则这些条目中所记载的类型属性可以都作为所述待分类命名实体的标注类型。

步骤203，读取候选类型。

作为一个实际的自动分类系统，其只能对应于一个有限大小的类型集合。这个类型集合中的每一个类型都可以是候选类型。在实际应用中，自动分类系统往往会提供所述类型集合的一个子集，从而以这个子集中的类型作为候选类型。例如，一种场景是自动分类系统给出一个待分类的命名实体，然后给出若干个候选类型，然后利用根据本发明实施例的方法分别给出该待分类命名实体属于每个候选类型的可能性。

步骤204，根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性。

在按照根据本发明实施例的方案得出所述可能性之后，自动分类系统可以利用所述可能性来进行对待分类命名实体的自动分类。例如，在自动分类系统只提供一个候选类型的情况下，自动分类系统可以设置可能性阈值，如果待分类命名实体属于该候选类型的可能性大于所述可能性阈值，则将所述待分类命名实体归入该候选类型。又例如，在自动分类系统提供多个候选类型的情况下，自动分类系统可以将所述待分类命名实体归入对应于最高可能性的候选类型。

从理论上说，如果标注类型的分类体系和候选类型的分类体系一致，那么可以直接根据标注类型来确定待分类命名实体属于各候选类型的可能性。假设以[0，1]区间中的数来表示所述可能性，1表示可能性最大，0表示可能性最小，并且假设标注类型是“男人”，而候选类型是“男人”和“女人”，那么可以直接计算出所述待分类命名实体属于“男人”这一候选类型的可能性为1，而属于“女人”这一候选类型的可能性为0。

由于网络数据的随意性，标注类型的分类体系和候选类型的分类体系可能不一样。例如，对于LOD数据集中的一个LOD节点，其名称属性是Einstein，其被标注的类型是“物理学家”。而对于一个特定的应用，其给出待分类命名实体是Einstein，候选类型是“人物”和“组织”。显然，所述LOD节点和所述待分类命名实体是对应的，但是从“物理学家”这一标注类型并不能够直接推导出应该将待分类命名实体分为“人物”这一类型。下面参照图3详细说明在这种情况下如何根据所述标注类型计算该待分类命名实体属于各候选类型的可能性。

步骤301，将候选类型和标注类型映射到中间本体(ontology)的节点。

中间本体本质上是一个知识库，用来记录不同分类法中所用到的类型之间的关联关系的数据结构。所述类型都是中间本体的一个节点。所述关系可以是上下位关系，例如“人物”这一类型是“男人”这一类型的上位类型；可以是同一关系，例如“计算机”和“电脑”；可以是同源关系，例如“男人”和“女人”都是“人物”的下位类型；当然也可能是抵触的关系。

如何将候选类型和标注类型映射到中间本体节点可以采用许多现有的方法，例如单词级的方法，即比较候选类型或标注类型与中间本体节点所代表的类型之间的字符相似度；又例如语义级的方法，即比较候选类型或标注类型与中间本体节点所代表的类型之间的语义相似度。在此不再赘述各种具体的方法。

步骤302，根据映射到的中间本体节点之间的关系，计算所述候选类型和各标注类型之间的属性匹配指标。

如前所述，候选类型和标注类型所映射到的中间本体节点之间可能存在各种关系。可以采用各种方法来量化这些关系，只要这种方法能够体现出各种关联关系之间的区别。例如，直观来看，对于映射到同一个中间本体节点，或者映射到两个具有同一关系的两个中间本体节点的候选类型和标注类型，其属性匹配指标应该高于映射到具有上下位关系的两个中间本体节点的候选类型和标注类型。以下描述根据本发明一个实施例的量化方法。本领域技术人员可以容易地想出其他方法来计算所述属性匹配指标。

表1示例性量化方法

本领域技术人员可以理解，一个实际的中间本体所能够涵盖的类型是有限的。因此，有可能出现候选类型或标注类型无法恰当地映射到中间本体节点的情况，即上表中的无映射情况。在这种情况下，可以令所述属性匹配指标为0

例如，假设所述中间本体的结构如图4所示。根据上述量化方法，中间本体节点11和中间本体节点18之间是上下位关系，分别映射到中间本体节点11和18的标注类型和候选类型之间的属性匹配指标为1/2；中间本体节点15和中间本体节点20之间是同源关系，分别映射到中间本体节点15和20的标注类型和候选类型之间的属性匹配指标为1/6。

以上描述了如何得到一个候选类型和一个标注类型之间的属性匹配指标。如前所述，在LOD数据中与待分类命名实体对应的LOD节点可能有多个，每个LOD节点被标注的类型也可能有多个。因此，对于一个候选类型而言，可能会存在多个属性匹配指标。

步骤303，对对应于同一候选类型的各属性匹配指标进行统计处理，从而得到待分类命名实体属于该候选类型的可能性。

作为一种最简单的统计处理方法，可以对所述多个属性匹配指标求加权平均作为所述可能性的。所述加权平均的权重可以是对于各属性匹配指标是一样的，也可以是根据所述LOD节点的某些特性而确定的。如前所述，LOD节点通常对应于一个网页，因此可以以该网页被访问的次数进行加权。此外，所述LOD节点可能来源于不同的LOD数据集，因此可以以这些数据集的可信程度进行加权。

在根据本发明实施例的方法中，利用待分类命名实体与LOD节点的名称属性来寻找与该待分类命名实体对应的LOD节点；还将所述与该待分类命名实体对应的LOD节点的类型属性作为所述待分类命名实体的标注类型。在实际应用中，由于网络数据的不规范性，LOD节点的名称属性条目和类型属性条目往往需要经过预处理后才能加以利用。

所述预处理例如可以是对名称属性条目的处理。一个发布者在为一个LOD节点设立名称属性条目时，虽然将一个条目作为名称属性条目，但该条目所记录的可能是为了该发布者的方便而设置的一个非名称信息；或者该发布者对于该条目应该记录的信息理解有误。本发明的发明人经过大量的统计研究，发现当所述名称属性条目以rdfs：label或dbpedia：birthname或foaf：name为谓词时，该名称属性条目所记载的名称属性与对应的LOD节点应该具有的名称相一致的可能性较高。因此，在步骤201中，可以通过比较待分类命名实体与LOD节点中以rdfs：label或dbpedia：birthname或foaf：name为谓词的属性条目所记载的名称属性来确定与所述待分类命名实体对应的LOD节点。

所述预处理还可以是对其他属性条目的处理。例如，有一类LOD节点，其包括记载了该LOD节点与另一LOD节点之间的关系的属性条目。典型的关系是“重定向”即“redirect”。例如LOD节点A的某属性条目记载了该LOD节点A与LOD节点B具有“redirect”的关系，这说明LOD节点B的各项属性均适用于LOD节点A。

所述预处理的步骤可以离线地完成，即不是响应于接收到候选类型和待分类命名实体而进行所述预处理步骤，而是事先对LOD数据集进行处理，得到一个个名称属性和类型属性的二元组。然后响应于接收到候选类型和待分类命名实体，首先利用二元组中的名称属性执行步骤201，然后利用二元组中的类型属性执行步骤202。

在记录所述二元组时，对相同的命名属性，可以进一步记录哪些二元组对应于同一个LOD节点。一方面，一个LOD节点可以拥有多个类型属性条目，分别记载了不同的类型属性。另一方面，不同LOD节点也可以有相同的命名属性。因此，可能存在名称属性相同而类型属性不同的多个二元组，并且这些二元组可能对应于不同的LOD节点。需要说明的是，虽然这里将这种情况描述为多个二元组，但是在实际存储这些二元组时，可能只需要用一个记录。该记录甚至还可以记载对应于不同LOD节点的多个二元组。本领域技术人员可以设计出各种记录的格式，从而在同一条记录中记载对应于同一个名称属性的多个类型属性，并且区分哪些类型属性对应于同一个LOD节点，哪些类型属性对应于另一个LOD节点。

在进一步记录哪些二元组对应于同一个LOD节点的情况下，即在记录了类型属性与LOD节点的对应关系的情况下，在步骤303中，可以先利用类型属性与LOD节点的对应关系将所述属性匹配指标转换为节点匹配指标，然后对对应于同一候选类型的各节点匹配指标进行统计处理，从而得到待分类命名实体属于该候选类型的可能性。

具体而言，如果一个LOD节点包括多个类型属性，则可以得到对应于该LOD节点的多个属性匹配指标。可以对对应于同一个LOD节点的多个属性匹配指标进行平均或取最大值，从而得到节点匹配指标。将属性匹配指标转换为节点匹配指标有助于降低类型属性条目本身所带来的噪声。

进一步，可以判断对应于同一LOD节点的多个属性匹配指标中是否有指示存在抵触的属性匹配指标。如前所述，属性匹配指标是根据候选类型和标注类型映射到的中间本体节点之间的关联关系计算出来的。中间本体节点之间的关联关系可以是同一关系、上下位关系、同源关系或抵触关系。如果有指示存在抵触的属性匹配指标，那么就以所述指示存在抵触的属性匹配指标的值作为该LOD节点的节点匹配指标。这是因为，不管是待分类命名实体与名称属性之间的比较，还是从标注类型或候选类型到中间本体节点的映射，在大多数情况下都是模糊匹配，从而存在出错的可能。如果一个候选类型与对应于同一个LOD节点的标注类型之间计算出的某个属性匹配指标中指示抵触关系，那么有可能在进行所述模糊匹配时发生了错误，从而可以将所述节点匹配指标也设置为指示抵触关系。进一步，可以采用投票机制来确定是否将所述节点匹配指标设置为指示抵触关系。具体而言，根据一个候选类型与对应于同一个LOD节点的多个标注类型之间计算出的属性匹配指标中指示存在抵触关系的属性匹配指标的第一数目与未指示存在抵触关系的属性匹配指标的第二数目之间的比较，确定是否将所述节点匹配指标设置为指示抵触关系。例如，当第一数目大于第二数目时，将所述节点匹配指标设置为指示抵触关系，或者当第一数目与第二数目的比例大于某门限值时，将所述节点匹配指标设置为指示抵触关系。

在得到对应于同一候选类型的多个节点匹配指标后，可以对这些节点匹配指标进行平均或者加权平均等统计学处理，从而得到待分类命名实体属于该候选类型的可能性。

图5示出了根据本发明实施例的用于对命名实体进行分类的装置。所述装置包括：

LOD节点读取装置，配置为从链接开放数据LOD数据集中读取与待分类命名实体对应的LOD节点；

标注类型确定装置，配置为将所述与该待分类命名实体对应的LOD节点的类型属性作为所述待分类命名实体的标注类型；

候选类型读取装置，配置为读取候选类型；和

可能性确定装置，配置为根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性。

本领域的普通技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的用于控制移动设备能耗的系统及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

虽然已经图示和描述了本发明的若干示例性实施例，不过本领域技术人员可以理解的是，在不偏离本发明原则和精神的前提下，可以对这些实施例进行改变，本发明的范围由权利要求书及其等价变换所限定。

Claims

1.一种用于对命名实体进行分类的方法，包括：

从链接开放数据LOD数据集中读取与待分类命名实体对应的LOD节点；

将所述与该待分类命名实体对应的LOD节点的类型属性作为所述待分类命名实体的标注类型；

读取候选类型；和

根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性，

其中根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性包括：

将候选类型和标注类型映射到中间本体的节点；

根据映射到的中间本体节点之间的关系，计算所述候选类型和各标注类型之间的属性匹配指标；和

对对应于同一候选类型的各属性匹配指标进行统计处理，从而得到待分类命名实体属于该候选类型的可能性。

2.如权利要求1所述的方法，其中对对应于同一候选类型的各属性匹配指标进行统计处理包括：

根据属性匹配指标所对应的LOD节点的特性对所述多个属性匹配指标进行加权平均。

3.如权利要求1所述的方法，其中从LOD数据集中读取与该待分类命名实体对应的LOD节点包括：

通过比较待分类命名实体与LOD节点中以以下任意一种为谓词的属性条目所记载的名称属性来确定与所述待分类命名实体对应的LOD节点：

rdfs：label；

dbpedia：birthname；或

foaf：name。

4.如权利要求1所述的方法，进一步包括将与该待分类命名实体对应的LOD节点具有重定向关系的LOD节点也作为与该待分类命名实体对应的LOD节点。

5.如权利要求1所述的方法，其中对对应于同一候选类型的各属性匹配指标进行统计处理，从而得到待分类命名实体属于该候选类型的可能性包括：

利用属性匹配指标与LOD节点的对应关系，将所述属性匹配指标转换为节点匹配指标；

对对应于同一候选类型的各节点匹配指标进行统计处理，从而得到待分类命名实体属于该候选类型的可能性。

6.如权利要求5所述的方法，其中将所述属性匹配指标转换为节点匹配指标包括：

对对应于同一个LOD节点的多个属性匹配指标进行平均，从而得到节点匹配指标。

7.如权利要求5所述的方法，其中将所述属性匹配指标转换为节点匹配指标包括：

以对应于同一个LOD节点的多个属性匹配指标中的最大值作为节点匹配指标。

8.如权利要求5所述的方法，其中将所述属性匹配指标转换为节点匹配指标包括：

如果对应于同一候选类型的各节点匹配指标中，有指示存在抵触的属性匹配指标，则将所述节点匹配指标设置为指示存在抵触。

9.如权利要求8所述的方法，进一步包括：

根据对应于同一候选类型的各节点匹配指标中，指示存在抵触的属性匹配指标的数目与未指示存在抵触的属性匹配指标的数目之间的关系，确定是否将所述节点匹配指标设置为指示存在抵触。

10.一种用于对命名实体进行分类的装置，包括：

候选类型读取装置，配置为读取候选类型；和

可能性确定装置，配置为根据所述标注类型计算该待分类命名实体属于所述候选类型的可能性，

其中所述可能性确定装置包括：

配置为将候选类型和标注类型映射到中间本体的节点的装置；

配置为根据映射到的中间本体节点之间的关系，计算所述候选类型和各标注类型之间的属性匹配指标的装置；和

配置为对对应于同一候选类型的各属性匹配指标进行统计处理，从而得到待分类命名实体属于该候选类型的可能性的装置。

11.如权利要求10所述的装置，其中配置为对对应于同一候选类型的各属性匹配指标进行统计处理从而得到待分类命名实体属于该候选类型的可能性的装置包括：

配置为根据属性匹配指标所对应的LOD节点的特性对所述多个属性匹配指标进行加权平均的装置。

12.如权利要求10所述的装置，其中所述LOD节点读取装置包括：

配置为通过比较待分类命名实体与LOD节点中以以下任意一种为谓词的属性条目所记载的名称属性来确定与所述待分类命名实体对应的LOD节点的装置：

rdfs：label；

dbpedia：birthname；或

foaf：name。

13.如权利要求10所述的装置，进一步包括：

配置为将与该待分类命名实体对应的LOD节点具有重定向关系的LOD节点也作为与该待分类命名实体对应的LOD节点的装置。

14.如权利要求10所述的装置，其中所述配置为对对应于同一候选类型的各属性匹配指标进行统计处理从而得到待分类命名实体属于该候选类型的可能性的装置包括：

配置为利用属性匹配指标与LOD节点的对应关系，将所述属性匹配指标转换为节点匹配指标的装置；

配置为对对应于同一候选类型的各节点匹配指标进行统计处理，从而得到待分类命名实体属于该候选类型的可能性的装置。

15.如权利要求14所述的装置，其中所述配置为利用属性匹配指标与LOD节点的对应关系将所述属性匹配指标转换为节点匹配指标的装置包括：

配置为对对应于同一个LOD节点的多个属性匹配指标进行平均从而得到节点匹配指标的装置。

16.如权利要求14所述的装置，其中所述配置为利用属性匹配指标与LOD节点的对应关系将所述属性匹配指标转换为节点匹配指标的装置包括：

配置为以对应于同一个LOD节点的多个属性匹配指标中的最大值作为节点匹配指标的装置。

17.如权利要求14所述的装置，其中所述配置为利用属性匹配指标与LOD节点的对应关系将所述属性匹配指标转换为节点匹配指标的装置包括：

配置为如果对应于同一候选类型的各节点匹配指标中有指示存在抵触的属性匹配指标，则以所述指示存在抵触的属性匹配指标作为所述节点匹配指标的装置。

18.如权利要求14所述的装置，进一步包括：

配置为根据对应于同一候选类型的各节点匹配指标中，指示存在抵触的属性匹配指标的数目与未指示存在抵触的属性匹配指标的数目之间的关系，确定是否将所述节点匹配指标设置为指示存在抵触的装置。