CN105224642B

CN105224642B - 实体标签的抽取方法和装置

Info

Publication number: CN105224642B
Application number: CN201510625039.7A
Authority: CN
Inventors: 罗剑波; 李羽; 王波; 邹晓艺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2019-03-12
Anticipated expiration: 2035-09-25
Also published as: CN105224642A

Abstract

本发明提出一种实体标签的抽取方法和装置，该实体标签的抽取方法包括：从网页中获取用于描述实体间共性的自然语言片段；获取满足所述自然语言片段的实体；将所述自然语言片段作为多实体标签，建立所述多实体标签与所述实体之间的关联关系。该方法能够提高能够描述的实体关系的覆盖范围，并且可以提高描述方式的自然度。

Description

实体标签的抽取方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种实体标签的抽取方法和装置。

背景技术

在知识库中，为方便机器理解知识，通常将实体的关系及属性(统称实体关系)映射到架构(Schema)预定义的关系上。借助Schema，机器能准确无歧义地理解知识，但是这种知识表示方式在实际应用中存在以下两个问题：实体关系种类繁多并且会动态变化，预定义关系难以涵盖所有可能的关系，大量知识无法映射到知识库中；预定义关系构造出来的关系描述生硬模式化，缺乏语言美感，难以直接应用到要求语言丰富多彩的产品场景中。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种实体标签的抽取方法，该方法可以提高能够描述的实体关系的覆盖范围，并且可以提高描述方式的自然度。

本发明的另一个目的在于提出一种实体标签的抽取装置。

为达到上述目的，本发明第一方面实施例提出的实体标签的抽取方法，包括：从网页中获取用于描述实体间共性的自然语言片段；获取满足所述自然语言片段的实体；将所述自然语言片段作为多实体标签，建立所述多实体标签与所述实体之间的关联关系。

本发明第一方面实施例提出的实体标签的抽取方法，通过从网页中获取多实体标签，可以使得实体标签不限于Schema预定义的关系，从而可以提高能够描述的实体关系的覆盖范围，通过将自然语言片段作为多实体标签，可以提高描述方式的自然度。

为达到上述目的，本发明第二方面实施例提出的实体标签的抽取装置，包括：第一获取模块，用于从网页中获取用于描述实体间共性的自然语言片段；第二获取模块，用于获取满足所述自然语言片段的实体；关联模块，用于将所述自然语言片段作为多实体标签，建立所述多实体标签与所述实体之间的关联关系。

本发明第二方面实施例提出的实体标签的抽取装置，通过从网页中获取多实体标签，可以使得实体标签不限于Schema预定义的关系，从而可以提高能够描述的实体关系的覆盖范围，通过将自然语言片段作为多实体标签，可以提高描述方式的自然度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的实体标签的抽取方法的流程示意图；

图2是本发明另一实施例提出的实体标签的抽取方法的流程示意图；

图3是本发明另一实施例提出的实体标签的抽取装置的结构示意图；

图4是本发明另一实施例提出的实体标签的抽取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的实体标签的抽取方法的流程示意图，该方法包括：

S11：从网页中获取用于描述实体间共性的自然语言片段。

例如，可以从网页标题中提取用于描述实体间共性的自然语言片段。网页例如包括：新闻、博客或论坛等。

实体标签(TAG)可以分为单实体标签和多实体标签，多实体标签是指用于描述至少两个实体之间的实体关系的标签，本发明实施例以多实体标签为例。

本实施例中，将获取的用于描述实体间共性的自然语言片段作为多实体标签。

S12：获取满足所述自然语言片段的实体。

例如，从网页标题对应的网页内容中进行实体挖掘，获取满足所述自然语言片段的实体。

S13：将所述自然语言片段作为多实体标签，建立所述多实体标签与所述实体之间的关联关系。

其中，满足所述自然语言片段的实体可以组成实体集合(entity-list)，多实体标签与实体集合之间的关联关系可以如表1所示：

表1

在建立上述的关联关系后，可以基于该关联关系向用户提供更丰富和自然的内容，例如，当用户搜索“杨某某”时可以给出“刘某某”等其他推荐内容，并给出标签是“因戏得良缘的娱乐圈明星”，提升用户体验。

本实施例中，通过从网页中获取多实体标签，可以使得实体标签不限于Schema预定义的关系，从而可以提高能够描述的实体关系的覆盖范围，通过将自然语言片段作为多实体标签，可以提高描述方式的自然度。

图2是本发明另一实施例提出的实体标签的抽取方法的流程示意图，多实体标签对应的实体集合中包括的实体个数可以是两个或至少三个，其中，至少三个实体对应的多实体标签可以称为盘点型标签，本实施例以盘点型标签为例。该方法包括：

S201：从网页标题(title)数据库中，获取盘点型网页标题。

其中，盘点型网页标题是指标题中包含：用于描述至少三个实体间共性的自然语言片段。通过对网页标题进行分析，可以从中选择出盘点型网页标题。

S202：从盘点型网页标题中，提取盘点型标签。

例如，可以利用正则表达式，从盘点型网页标签中提取盘点型标签，例如，提取的盘点型标签是“因戏得良缘的娱乐圈明星”。

可选的，还可以对提取出的盘点型标签进行进一步处理，进一步处理例如包括如下的S203-S205。

S203：盘点型标签的规范化及基础特征提取。

规范化例如包括：利用词性标注、词干识别等自然语言工具识别并移除盘点型标签中的冗余词。

基础特征提取例如包括：提取盘点型标签的语义向量，要求语义相似的盘点型标签的语义向量相近。

S204：盘点型标签的领域识别。

例如，根据盘点型标签的核心主干词识别该标签所属领域。例如，针对“娱乐圈潜力花旦”这样的标签，通过核心词“花旦”可以推断该标签所属领域是人物。

S205：盘点型标签的质量控制。

例如，利用标签的语义向量识别并过滤负面的标签。

经过上述的S201-S205可以获取到盘点型标签，另一方面还需要获取对应的实体集合。获取实体集合的流程可以包括：

S206：翻页序列挖掘，获取上述的盘点型网页标题所在的网页的翻页网页。

由于一篇网页内容通常会分布在多个页面上，而网页库内往往只收录其中几页，为最大化召回被盘点实体，需要通过翻页序列挖掘来补充未被收录的页面。例如，当前收录的页面是第一页，而该篇内容还包括第一页翻页后的第二页和第三页等，则通过翻页序列挖掘，可以获取到第二页和第三页等。

S207：对上述的盘点型网页标题所在的网页以及获取的翻页网页，进行网页正文内容抽取。

本实施例以在正文内容中提取实体为例，因此之前可以先过滤掉网页中其余无用内容。

S208：从正文内容中提取与盘点型标签所属领域相同的实体集合。

例如，利用实体识别工具进行相应领域的实体抽取。

S209：盘点型标签与实体的相关性控制。

例如，利用基础属性约束、网页结构特征、标签与实体语义相似度等技术来确保标签(TAG)与实体(Entity)的相关性。

可选的，还可以执行S210-S211。

S210：相似标签和/或实体的合并。

例如，利用语义相似度识别语义相似的盘点型标签，并将相似的盘点型标签归一化为统一的一个盘点型标签，以及，将相似的盘点型标签关联的实体与该统一的盘点型标签进行融合，使得该统一的盘点型标签关联的实体集合包括：所有的相似的盘点型标签关联的实体集合。

S211：对数据保存到数据库内。

例如，将盘点型标签与关联的实体集合关联保存到数据库内。另外，在保存之前可以进行人工或预设算法的评估，以将满足一定要求的数据进行保存。

本实施例中，通过从网页中获取多实体标签，可以使得实体标签不限于Schema预定义的关系，从而可以提高能够描述的实体关系的覆盖范围，通过将自然语言片段作为多实体标签，可以提高描述方式的自然度。另外，通过上述的各种进一步处理，可以提高获取的盘点型标签和/或关联的实体的准确度。

图3是本发明另一实施例提出的实体标签的抽取装置的结构示意图，该装置30包括：第一获取模块31，第二获取模块32和关联模块33。

第一获取模块31，用于从网页中获取用于描述实体间共性的自然语言片段；

可选的，第一获取模块31具体用于：

从网页标题库中选择具有多实体标签的网页标题；

从所述网页标题中提取用于描述实体间共性的自然语言片段。

以多实体标签是盘点型标签为例，例如，从网页标题(title)数据库中，获取盘点型网页标题。

之后，从盘点型网页标题中，提取盘点型标签。

第二获取模块32，用于获取满足所述自然语言片段的实体；

可选的，所述第二获取模块32具体用于：

获取所述自然语言片段所在的当前网页，以及所述当前网页的翻页网页；

抽取所述当前网页和所述翻页网页的正文内容；

在所述正文内容中进行实体识别，提取与所述自然语言片段属于相同领域的实体；

在相同领域的实体中，提取与所述多实体标签相关的实体。

对上述的盘点型网页标题所在的网页以及获取的翻页网页，进行网页正文内容抽取。

从正文内容中提取与盘点型标签所属领域相同的实体集合。

例如，利用实体识别工具进行相应领域的实体抽取。

盘点型标签与实体的相关性控制。

关联模块33，用于将所述自然语言片段作为多实体标签，建立所述多实体标签与所述实体之间的关联关系。

其中，满足所述自然语言片段的实体可以组成实体集合(entity-list)，多实体标签与实体集合之间的关联关系可以如表1所示。

一些实施例中，参见图4，该装置30还包括：

第一处理模块34，用于对所述多实体标签进行进一步处理，所述进一步处理包括如下项中的一项或多项：

对所述多实体标签进行规范化及基础特征提取；

确定所述多实体标签属于的领域；

对所述多实体标签进行质量控制，过滤掉负面标签。

例如，利用标签的语义向量识别并过滤负面的标签。

一些实施例中，参见图4，该装置30还包括：

第二处理模块35，用于对所述多实体标签和/或实体进行处理，所述处理包括如下项中的一项或多项：

合并相似的多实体标签和/或实体；

将所述多实体标签与实体关联保存到数据库内。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种实体标签的抽取方法，其特征在于，包括：

从网页中获取用于描述实体间共性的自然语言片段；

获取满足所述自然语言片段的实体；

将所述自然语言片段作为多实体标签，建立所述多实体标签与所述实体之间的关联关系；

其中，所述获取满足所述自然语言片段的实体，包括：

抽取所述当前网页和所述翻页网页的正文内容；

在相同领域的实体中，提取与所述多实体标签相关的实体。

2.根据权利要求1所述的方法，其特征在于，所述从网页中获取用于描述实体间共性的自然语言片段，包括：

从网页标题库中选择具有多实体标签的网页标题；

3.根据权利要求2所述的方法，其特征在于，还包括：

对所述多实体标签进行进一步处理，所述进一步处理包括如下项中的一项或多项：

对所述多实体标签进行规范化及基础特征提取；

确定所述多实体标签属于的领域；

对所述多实体标签进行质量控制，过滤掉负面标签。

4.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

对所述多实体标签和/或实体进行处理，所述处理包括如下项中的一项或多项：

合并相似的多实体标签和/或实体；

将所述多实体标签与实体关联保存到数据库内。

5.一种实体标签的抽取装置，其特征在于，包括：

第一获取模块，用于从网页中获取用于描述实体间共性的自然语言片段；

第二获取模块，用于获取满足所述自然语言片段的实体；

关联模块，用于将所述自然语言片段作为多实体标签，建立所述多实体标签与所述实体之间的关联关系；

其中，所述第二获取模块具体用于：

抽取所述当前网页和所述翻页网页的正文内容；

在相同领域的实体中，提取与所述多实体标签相关的实体。

6.根据权利要求5所述的装置，其特征在于，所述第一获取模块具体用于：

从网页标题库中选择具有多实体标签的网页标题；

7.根据权利要求6所述的装置，其特征在于，还包括：

第一处理模块，用于对所述多实体标签进行进一步处理，所述进一步处理包括如下项中的一项或多项：

对所述多实体标签进行规范化及基础特征提取；

确定所述多实体标签属于的领域；

对所述多实体标签进行质量控制，过滤掉负面标签。

8.根据权利要求5-7任一项所述的装置，其特征在于，还包括：

第二处理模块，用于对所述多实体标签和/或实体进行处理，所述处理包括如下项中的一项或多项：

合并相似的多实体标签和/或实体；

将所述多实体标签与实体关联保存到数据库内。