CN112560489A - 一种基于Bert的实体链接方法 - Google Patents

一种基于Bert的实体链接方法 Download PDF

Info

Publication number
CN112560489A
CN112560489A CN202011420679.1A CN202011420679A CN112560489A CN 112560489 A CN112560489 A CN 112560489A CN 202011420679 A CN202011420679 A CN 202011420679A CN 112560489 A CN112560489 A CN 112560489A
Authority
CN
China
Prior art keywords
entity
bert
text
candidate
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011420679.1A
Other languages
English (en)
Inventor
胡博钦
谢水庚
张晶亮
郝志强
樊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Casicloud Co ltd
Original Assignee
Beijing Casicloud Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Casicloud Co ltd filed Critical Beijing Casicloud Co ltd
Priority to CN202011420679.1A priority Critical patent/CN112560489A/zh
Publication of CN112560489A publication Critical patent/CN112560489A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及信息检索的技术领域,特别是涉及一种基于Bert的实体链接方法;包括以下步骤:S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值;S2、数据分析和处理;S3、实体识别;S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接到的实体作为正例,在候选实体里选取两个负例。

Description

一种基于Bert的实体链接方法
技术领域
本发明涉及信息检索的技术领域,特别是涉及一种基于Bert的实 体链接方法。
背景技术
实体链接是将文本中提到的实体与其知识库中相应的实体链接 起来的任务,是解决实体间存在的歧义性问题。其潜在的应用包括信 息提取、信息检索和知识库填充,但由于名称的变化和实体的模糊性, 此任务具有挑战性。实体的歧义性体现在两个方面,第一,实体可能 存在多词同义的情况(需链接),即一个实体可以用多个实体指称来表 示,比如麻省理工学院和MIT都是指美国麻省同一个实体。同时,实 体也有一词多义的现象(需消歧),即同一个实体指称可以表示多个实 体,例如苹果可以是水果也可以是Apple公司。实体链接算法需要通 过实体指称及其上下文的文本信息,借助目标知识图谱,将其链接到知识图谱中正确的映射实体上。
面向中文短的实体链接,是NLP领域的基础任务之一,即对于给 定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标 题等)识别出其中的实体,并与给定知识库中的对应实体进行关联。 ERL整个过程包括实体识别和实体链指两个子任务。这一问题存在 几大难点:(1)文本口语化导致实体歧义消解困难;(2)短文本上下 文语境不丰富,须对上下文语境进行精准理解;(3)和英文相比,中 文由于语言自身的特点,在短文本的链指问题上更有挑战。
发明内容
为解决上述技术问题,本发明提供一种基于Bert的实体链接方 法。
本发明的一种基于Bert的实体链接方法,包括以下步骤:
S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体 id、别名以及实体相关的属性和属性值;
S2、数据分析和处理;
S3、实体识别;
S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接 到的实体作为正例,在候选实体里选取两个负例。
本发明的一种基于Bert的实体链接方法,所述步骤S2具体步骤 如下:
S201、数据清洗,处理特殊符号、标点;
S202、统计短文本长度,统一做归一化;
S203、构造若干字典,包括entity-id(key:实体名字value: kb_id列表),id-entity(key:kb_idvalue:实体名 称),id-text(key:kb_idvalue:实体描述文本)。
本发明的一种基于Bert的实体链接方法,所述步骤S3包括如下 步骤:
S301、实体正向最大匹配:采用字典树结构以及正向最大匹配实 体思路,去匹配文本中实体,首先需要的数据为S203中的entity_id 字典,将里面的key也就是实体名字插入到字典树中;
S302、模型:短文本经过BERT层,得到BERT的输出向量,将 BERT的输出经过CRF层,获得短文本中的候选实体,将短文本中的 候选实体与知识库中的候选实体相比较,如果前者的完全被后者覆 盖,则选取后者中的长度最大实体。
本发明的一种基于Bert的实体链接方法,所述步骤S4包括如下 步骤:
实体名字嵌入:将每个实体文本描述输入到BERT模型,在[CLS] 位置处得到每个实体的输出向量;
实体消歧:将短文本以及待消歧实体的描述文本连在一起,输入 到BERT模型,取CLS位置向量输出,以及候选实体对应开始和结束 位置对应的特征向量,三个向量连接,经过全连接层,最后sigmoid 激活得到候选实体的概率得分,对所有候选实体的概率得分进行排 序,选择概率最高的为正确实体。
与现有技术相比本发明的有益效果为:实体链接整个过程包括实 体识别和实体消歧两个子任务;针对实体识别子任务,本发明利用了 知识库中的文本的信息来增强实体识别的性能,首先通过名称字典匹 配技术,得到得到短文本中的候选实体,在此基础上提出了BERT-CRF 实体识别的模型;针对实体消歧的任务,本发明首先通过挖掘知识库 中实体的描述文本经过BERT编码得到实体名字的向量嵌入,然后将 其与短文本拼接起来,结合候选实体的信息,通过基于BERT的二分 类模型对候选实体进行预测,然后对预测的概率进行排序,进而完成 消歧任务。
附图说明
图1是本发明的实体识别过程图;
图2是本发明的实体消岐过程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1至图2所示,本发明的一种基于Bert的实体链接方法, 包括以下步骤:
S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体 id、别名以及实体相关的属性和属性值;知识库的特点是,“实体” 不一定是指特别的专有名词,还包括常见的名词、动词、形容词等, 比如“胜利”、“美丽”等,此外,同名实体很多;
S2、数据分析和处理;
S3、实体识别;
S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接 到的实体作为正例,在候选实体里选取两个负例。
本发明的一种基于Bert的实体链接方法,所述步骤S2具体步骤 如下:
S201、数据清洗,处理特殊符号、标点;
S202、统计短文本长度,统一做归一化;
S203、构造若干字典,包括entity-id(key:实体名字value: kb_id列表),id-entity(key:kb_idvalue:实体名称),id-text(key: kb_idvalue:实体描述文本)。
本发明的一种基于Bert的实体链接方法,所述步骤S3包括如下 步骤,如图1所示:
S301、实体正向最大匹配:采用字典树结构以及正向最大匹配实 体思路,去匹配文本中实体,首先需要的数据为S203中的entity_id 字典,将里面的key也就是实体名字插入到字典树中,实体库中存在 很多单字实体,这类实体匹配会造成太多匹配结果,对于单字实体不 在插入;
S302、模型:短文本经过BERT层,得到BERT的输出向量,将 BERT的输出经过CRF层,获得短文本中的候选实体,将短文本中的 候选实体与知识库中的候选实体相比较,如果前者的完全被后者覆 盖,则选取后者中的长度最大实体。
本发明的一种基于Bert的实体链接方法,所述步骤S4包括如下 步骤:
实体名字嵌入:将每个实体文本描述输入到BERT模型,在[CLS] 位置处得到每个实体的输出向量;用一个字典表示id_embedding key:subject_id,value:CLS输出向量;对于实体名字只对应一 个实体的情况,则直接用实体对应向量当做这个实体名字的嵌入,对于实体名字对应多个实体的情况,则对这几个实体的向量求平均;
实体消歧:如图2所示,将短文本以及待消歧实体的描述文本连 在一起,输入到BERT模型,取CLS位置向量输出,以及候选实体对 应开始和结束位置对应的特征向量,三个向量连接,经过全连接层, 最后sigmoid激活得到候选实体的概率得分,对所有候选实体的概率 得分进行排序,选择概率最高的为正确实体。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以 做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (4)

1.一种基于Bert的实体链接方法,其特征在于,包括以下步骤:
S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值;
S2、数据分析和处理;
S3、实体识别;
S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接到的实体作为正例,在候选实体里选取两个负例。
2.如权利要求1所述的一种基于Bert的实体链接方法,其特征在于,所述步骤S2具体步骤如下:
S201、数据清洗,处理特殊符号、标点;
S202、统计短文本长度,统一做归一化;
S203、构造若干字典,包括entity-id(key:实体名字value:kb_id列表),id-entity(key:kb_id value:实体名称),id-text(key:kb_id value:实体描述文本)。
3.如权利要求2所述的一种基于Bert的实体链接方法,其特征在于,所述步骤S3包括如下步骤:
S301、实体正向最大匹配:采用字典树结构以及正向最大匹配实体思路,去匹配文本中实体,首先需要的数据为S203中的entity_id字典,将里面的key也就是实体名字插入到字典树中;
S302、模型:短文本经过BERT层,得到BERT的输出向量,将BERT的输出经过CRF层,获得短文本中的候选实体,将短文本中的候选实体与知识库中的候选实体相比较,如果前者的完全被后者覆盖,则选取后者中的长度最大实体。
4.如权利要求3所述的一种基于Bert的实体链接方法,其特征在于,所述步骤S4包括如下步骤:
实体名字嵌入:将每个实体文本描述输入到BERT模型,在[CLS]位置处得到每个实体的输出向量;
实体消歧:将短文本以及待消歧实体的描述文本连在一起,输入到BERT模型,取CLS位置向量输出,以及候选实体对应开始和结束位置对应的特征向量,三个向量连接,经过全连接层,最后sigmoid激活得到候选实体的概率得分,对所有候选实体的概率得分进行排序,选择概率最高的为正确实体。
CN202011420679.1A 2020-12-08 2020-12-08 一种基于Bert的实体链接方法 Pending CN112560489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011420679.1A CN112560489A (zh) 2020-12-08 2020-12-08 一种基于Bert的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011420679.1A CN112560489A (zh) 2020-12-08 2020-12-08 一种基于Bert的实体链接方法

Publications (1)

Publication Number Publication Date
CN112560489A true CN112560489A (zh) 2021-03-26

Family

ID=75059413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011420679.1A Pending CN112560489A (zh) 2020-12-08 2020-12-08 一种基于Bert的实体链接方法

Country Status (1)

Country Link
CN (1) CN112560489A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220900A (zh) * 2021-05-10 2021-08-06 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN113377930A (zh) * 2021-08-13 2021-09-10 中国科学院自动化研究所 面向中文短文本的实体识别与实体链接方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法
CN114861669A (zh) * 2022-05-26 2022-08-05 浙江工业大学 一种融入拼音信息的中文实体链接方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法
CN114861669A (zh) * 2022-05-26 2022-08-05 浙江工业大学 一种融入拼音信息的中文实体链接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器学习AI算法工程: "中文短文本的实体识别实体链接,第一名解决方案", pages 1 - 11, Retrieved from the Internet <URL:中文短文本的实体识别实体链接,第一名解决方案-腾讯云开发者社区-腾讯云 (tencent.com)> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220900A (zh) * 2021-05-10 2021-08-06 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN113220900B (zh) * 2021-05-10 2023-08-25 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN113377930A (zh) * 2021-08-13 2021-09-10 中国科学院自动化研究所 面向中文短文本的实体识别与实体链接方法
CN113377930B (zh) * 2021-08-13 2021-11-30 中国科学院自动化研究所 面向中文短文本的实体识别与实体链接方法

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
CN108334487B (zh) 缺失语意信息补全方法、装置、计算机设备和存储介质
US10402493B2 (en) System and method for inputting text into electronic devices
US10146765B2 (en) System and method for inputting text into electronic devices
CN111241282B (zh) 文本主题生成方法、装置及电子设备
CN111078865B (zh) 文本标题生成方法和装置
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
CN112100354B (zh) 人机对话方法、装置、设备及存储介质
US20220027569A1 (en) Method for semantic retrieval, device and storage medium
CN113553414B (zh) 智能对话方法、装置、电子设备和存储介质
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111797216B (zh) 检索项改写方法、装置、设备以及存储介质
WO2020233131A1 (zh) 问答处理方法、装置、计算机设备和存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN112560489A (zh) 一种基于Bert的实体链接方法
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
CN113360751A (zh) 意图识别方法、装置、设备和介质
CN114818736B (zh) 文本处理方法、用于短文本的链指方法、装置及存储介质
US11983502B2 (en) Extracting fine-grained topics from text content
CN113033205B (zh) 实体链接的方法、装置、设备以及存储介质
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination