CN112560489A

CN112560489A - 一种基于Bert的实体链接方法

Info

Publication number: CN112560489A
Application number: CN202011420679.1A
Authority: CN
Inventors: 胡博钦; 谢水庚; 张晶亮; 郝志强; 樊涛
Original assignee: Beijing Casicloud Co ltd
Current assignee: Beijing Casicloud Co ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-26

Abstract

本发明涉及信息检索的技术领域，特别是涉及一种基于Bert的实体链接方法；包括以下步骤：S1、知识库包括很多实体，每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值；S2、数据分析和处理；S3、实体识别；S4、实体消歧：实体消歧的实现是基于二分类，训练时选取连接到的实体作为正例，在候选实体里选取两个负例。

Description

一种基于Bert的实体链接方法

技术领域

本发明涉及信息检索的技术领域，特别是涉及一种基于Bert的实体链接方法。

背景技术

实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务，是解决实体间存在的歧义性问题。其潜在的应用包括信息提取、信息检索和知识库填充，但由于名称的变化和实体的模糊性，此任务具有挑战性。实体的歧义性体现在两个方面，第一，实体可能存在多词同义的情况(需链接)，即一个实体可以用多个实体指称来表示，比如麻省理工学院和MIT都是指美国麻省同一个实体。同时，实体也有一词多义的现象(需消歧)，即同一个实体指称可以表示多个实体，例如苹果可以是水果也可以是Apple公司。实体链接算法需要通过实体指称及其上下文的文本信息，借助目标知识图谱，将其链接到知识图谱中正确的映射实体上。

面向中文短的实体链接，是NLP领域的基础任务之一，即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等)识别出其中的实体，并与给定知识库中的对应实体进行关联。 ERL整个过程包括实体识别和实体链指两个子任务。这一问题存在几大难点：(1)文本口语化导致实体歧义消解困难；(2)短文本上下文语境不丰富，须对上下文语境进行精准理解；(3)和英文相比，中文由于语言自身的特点，在短文本的链指问题上更有挑战。

发明内容

为解决上述技术问题，本发明提供一种基于Bert的实体链接方法。

本发明的一种基于Bert的实体链接方法，包括以下步骤：

S1、知识库包括很多实体，每个实体的信息包括一个唯一的实体 id、别名以及实体相关的属性和属性值；

S2、数据分析和处理；

S3、实体识别；

S4、实体消歧：实体消歧的实现是基于二分类，训练时选取连接到的实体作为正例，在候选实体里选取两个负例。

本发明的一种基于Bert的实体链接方法，所述步骤S2具体步骤如下：

S201、数据清洗，处理特殊符号、标点；

S202、统计短文本长度，统一做归一化；

S203、构造若干字典，包括entity-id(key：实体名字value： kb_id列表),id-entity(key:kb_idvalue:实体名称),id-text(key：kb_idvalue:实体描述文本)。

本发明的一种基于Bert的实体链接方法，所述步骤S3包括如下步骤：

S301、实体正向最大匹配：采用字典树结构以及正向最大匹配实体思路，去匹配文本中实体，首先需要的数据为S203中的entity_id 字典，将里面的key也就是实体名字插入到字典树中；

S302、模型：短文本经过BERT层，得到BERT的输出向量，将 BERT的输出经过CRF层，获得短文本中的候选实体，将短文本中的候选实体与知识库中的候选实体相比较，如果前者的完全被后者覆盖，则选取后者中的长度最大实体。

本发明的一种基于Bert的实体链接方法，所述步骤S4包括如下步骤：

实体名字嵌入：将每个实体文本描述输入到BERT模型，在[CLS] 位置处得到每个实体的输出向量；

实体消歧：将短文本以及待消歧实体的描述文本连在一起，输入到BERT模型，取CLS位置向量输出，以及候选实体对应开始和结束位置对应的特征向量，三个向量连接，经过全连接层，最后sigmoid 激活得到候选实体的概率得分，对所有候选实体的概率得分进行排序，选择概率最高的为正确实体。

与现有技术相比本发明的有益效果为：实体链接整个过程包括实体识别和实体消歧两个子任务；针对实体识别子任务，本发明利用了知识库中的文本的信息来增强实体识别的性能，首先通过名称字典匹配技术，得到得到短文本中的候选实体，在此基础上提出了BERT-CRF 实体识别的模型；针对实体消歧的任务，本发明首先通过挖掘知识库中实体的描述文本经过BERT编码得到实体名字的向量嵌入，然后将其与短文本拼接起来，结合候选实体的信息，通过基于BERT的二分类模型对候选实体进行预测，然后对预测的概率进行排序，进而完成消歧任务。

附图说明

图1是本发明的实体识别过程图；

图2是本发明的实体消岐过程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1至图2所示，本发明的一种基于Bert的实体链接方法，包括以下步骤：

S1、知识库包括很多实体，每个实体的信息包括一个唯一的实体 id、别名以及实体相关的属性和属性值；知识库的特点是，“实体” 不一定是指特别的专有名词，还包括常见的名词、动词、形容词等，比如“胜利”、“美丽”等，此外，同名实体很多；

S2、数据分析和处理；

S3、实体识别；

S201、数据清洗，处理特殊符号、标点；

S202、统计短文本长度，统一做归一化；

S203、构造若干字典，包括entity-id(key：实体名字value： kb_id列表),id-entity(key:kb_idvalue:实体名称),id-text(key： kb_idvalue:实体描述文本)。

本发明的一种基于Bert的实体链接方法，所述步骤S3包括如下步骤，如图1所示：

S301、实体正向最大匹配：采用字典树结构以及正向最大匹配实体思路，去匹配文本中实体，首先需要的数据为S203中的entity_id 字典，将里面的key也就是实体名字插入到字典树中，实体库中存在很多单字实体，这类实体匹配会造成太多匹配结果，对于单字实体不在插入；

实体名字嵌入：将每个实体文本描述输入到BERT模型，在[CLS] 位置处得到每个实体的输出向量；用一个字典表示id_embedding key：subject_id，value：CLS输出向量；对于实体名字只对应一个实体的情况，则直接用实体对应向量当做这个实体名字的嵌入，对于实体名字对应多个实体的情况，则对这几个实体的向量求平均；

实体消歧：如图2所示，将短文本以及待消歧实体的描述文本连在一起，输入到BERT模型，取CLS位置向量输出，以及候选实体对应开始和结束位置对应的特征向量，三个向量连接，经过全连接层，最后sigmoid激活得到候选实体的概率得分，对所有候选实体的概率得分进行排序，选择概率最高的为正确实体。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于Bert的实体链接方法，其特征在于，包括以下步骤：

S1、知识库包括很多实体，每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值；

S2、数据分析和处理；

S3、实体识别；

2.如权利要求1所述的一种基于Bert的实体链接方法，其特征在于，所述步骤S2具体步骤如下：

S201、数据清洗，处理特殊符号、标点；

S202、统计短文本长度，统一做归一化；

S203、构造若干字典，包括entity-id(key：实体名字value：kb_id列表),id-entity(key:kb_id value:实体名称),id-text(key：kb_id value:实体描述文本)。

3.如权利要求2所述的一种基于Bert的实体链接方法，其特征在于，所述步骤S3包括如下步骤：

S301、实体正向最大匹配：采用字典树结构以及正向最大匹配实体思路，去匹配文本中实体，首先需要的数据为S203中的entity_id字典，将里面的key也就是实体名字插入到字典树中；

S302、模型：短文本经过BERT层，得到BERT的输出向量，将BERT的输出经过CRF层，获得短文本中的候选实体，将短文本中的候选实体与知识库中的候选实体相比较，如果前者的完全被后者覆盖，则选取后者中的长度最大实体。

4.如权利要求3所述的一种基于Bert的实体链接方法，其特征在于，所述步骤S4包括如下步骤：

实体名字嵌入：将每个实体文本描述输入到BERT模型，在[CLS]位置处得到每个实体的输出向量；

实体消歧：将短文本以及待消歧实体的描述文本连在一起，输入到BERT模型，取CLS位置向量输出，以及候选实体对应开始和结束位置对应的特征向量，三个向量连接，经过全连接层，最后sigmoid激活得到候选实体的概率得分，对所有候选实体的概率得分进行排序，选择概率最高的为正确实体。