CN112560489A - 一种基于Bert的实体链接方法 - Google Patents
一种基于Bert的实体链接方法 Download PDFInfo
- Publication number
- CN112560489A CN112560489A CN202011420679.1A CN202011420679A CN112560489A CN 112560489 A CN112560489 A CN 112560489A CN 202011420679 A CN202011420679 A CN 202011420679A CN 112560489 A CN112560489 A CN 112560489A
- Authority
- CN
- China
- Prior art keywords
- entity
- bert
- text
- candidate
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 19
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及信息检索的技术领域,特别是涉及一种基于Bert的实体链接方法;包括以下步骤:S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值;S2、数据分析和处理;S3、实体识别;S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接到的实体作为正例,在候选实体里选取两个负例。
Description
技术领域
本发明涉及信息检索的技术领域,特别是涉及一种基于Bert的实 体链接方法。
背景技术
实体链接是将文本中提到的实体与其知识库中相应的实体链接 起来的任务,是解决实体间存在的歧义性问题。其潜在的应用包括信 息提取、信息检索和知识库填充,但由于名称的变化和实体的模糊性, 此任务具有挑战性。实体的歧义性体现在两个方面,第一,实体可能 存在多词同义的情况(需链接),即一个实体可以用多个实体指称来表 示,比如麻省理工学院和MIT都是指美国麻省同一个实体。同时,实 体也有一词多义的现象(需消歧),即同一个实体指称可以表示多个实 体,例如苹果可以是水果也可以是Apple公司。实体链接算法需要通 过实体指称及其上下文的文本信息,借助目标知识图谱,将其链接到知识图谱中正确的映射实体上。
面向中文短的实体链接,是NLP领域的基础任务之一,即对于给 定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标 题等)识别出其中的实体,并与给定知识库中的对应实体进行关联。 ERL整个过程包括实体识别和实体链指两个子任务。这一问题存在 几大难点:(1)文本口语化导致实体歧义消解困难;(2)短文本上下 文语境不丰富,须对上下文语境进行精准理解;(3)和英文相比,中 文由于语言自身的特点,在短文本的链指问题上更有挑战。
发明内容
为解决上述技术问题,本发明提供一种基于Bert的实体链接方 法。
本发明的一种基于Bert的实体链接方法,包括以下步骤:
S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体 id、别名以及实体相关的属性和属性值;
S2、数据分析和处理;
S3、实体识别;
S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接 到的实体作为正例,在候选实体里选取两个负例。
本发明的一种基于Bert的实体链接方法,所述步骤S2具体步骤 如下:
S201、数据清洗,处理特殊符号、标点;
S202、统计短文本长度,统一做归一化;
S203、构造若干字典,包括entity-id(key:实体名字value: kb_id列表),id-entity(key:kb_idvalue:实体名 称),id-text(key:kb_idvalue:实体描述文本)。
本发明的一种基于Bert的实体链接方法,所述步骤S3包括如下 步骤:
S301、实体正向最大匹配:采用字典树结构以及正向最大匹配实 体思路,去匹配文本中实体,首先需要的数据为S203中的entity_id 字典,将里面的key也就是实体名字插入到字典树中;
S302、模型:短文本经过BERT层,得到BERT的输出向量,将 BERT的输出经过CRF层,获得短文本中的候选实体,将短文本中的 候选实体与知识库中的候选实体相比较,如果前者的完全被后者覆 盖,则选取后者中的长度最大实体。
本发明的一种基于Bert的实体链接方法,所述步骤S4包括如下 步骤:
实体名字嵌入:将每个实体文本描述输入到BERT模型,在[CLS] 位置处得到每个实体的输出向量;
实体消歧:将短文本以及待消歧实体的描述文本连在一起,输入 到BERT模型,取CLS位置向量输出,以及候选实体对应开始和结束 位置对应的特征向量,三个向量连接,经过全连接层,最后sigmoid 激活得到候选实体的概率得分,对所有候选实体的概率得分进行排 序,选择概率最高的为正确实体。
与现有技术相比本发明的有益效果为:实体链接整个过程包括实 体识别和实体消歧两个子任务;针对实体识别子任务,本发明利用了 知识库中的文本的信息来增强实体识别的性能,首先通过名称字典匹 配技术,得到得到短文本中的候选实体,在此基础上提出了BERT-CRF 实体识别的模型;针对实体消歧的任务,本发明首先通过挖掘知识库 中实体的描述文本经过BERT编码得到实体名字的向量嵌入,然后将 其与短文本拼接起来,结合候选实体的信息,通过基于BERT的二分 类模型对候选实体进行预测,然后对预测的概率进行排序,进而完成 消歧任务。
附图说明
图1是本发明的实体识别过程图;
图2是本发明的实体消岐过程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1至图2所示,本发明的一种基于Bert的实体链接方法, 包括以下步骤:
S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体 id、别名以及实体相关的属性和属性值;知识库的特点是,“实体” 不一定是指特别的专有名词,还包括常见的名词、动词、形容词等, 比如“胜利”、“美丽”等,此外,同名实体很多;
S2、数据分析和处理;
S3、实体识别;
S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接 到的实体作为正例,在候选实体里选取两个负例。
本发明的一种基于Bert的实体链接方法,所述步骤S2具体步骤 如下:
S201、数据清洗,处理特殊符号、标点;
S202、统计短文本长度,统一做归一化;
S203、构造若干字典,包括entity-id(key:实体名字value: kb_id列表),id-entity(key:kb_idvalue:实体名称),id-text(key: kb_idvalue:实体描述文本)。
本发明的一种基于Bert的实体链接方法,所述步骤S3包括如下 步骤,如图1所示:
S301、实体正向最大匹配:采用字典树结构以及正向最大匹配实 体思路,去匹配文本中实体,首先需要的数据为S203中的entity_id 字典,将里面的key也就是实体名字插入到字典树中,实体库中存在 很多单字实体,这类实体匹配会造成太多匹配结果,对于单字实体不 在插入;
S302、模型:短文本经过BERT层,得到BERT的输出向量,将 BERT的输出经过CRF层,获得短文本中的候选实体,将短文本中的 候选实体与知识库中的候选实体相比较,如果前者的完全被后者覆 盖,则选取后者中的长度最大实体。
本发明的一种基于Bert的实体链接方法,所述步骤S4包括如下 步骤:
实体名字嵌入:将每个实体文本描述输入到BERT模型,在[CLS] 位置处得到每个实体的输出向量;用一个字典表示id_embedding key:subject_id,value:CLS输出向量;对于实体名字只对应一 个实体的情况,则直接用实体对应向量当做这个实体名字的嵌入,对于实体名字对应多个实体的情况,则对这几个实体的向量求平均;
实体消歧:如图2所示,将短文本以及待消歧实体的描述文本连 在一起,输入到BERT模型,取CLS位置向量输出,以及候选实体对 应开始和结束位置对应的特征向量,三个向量连接,经过全连接层, 最后sigmoid激活得到候选实体的概率得分,对所有候选实体的概率 得分进行排序,选择概率最高的为正确实体。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以 做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (4)
1.一种基于Bert的实体链接方法,其特征在于,包括以下步骤:
S1、知识库包括很多实体,每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值;
S2、数据分析和处理;
S3、实体识别;
S4、实体消歧:实体消歧的实现是基于二分类,训练时选取连接到的实体作为正例,在候选实体里选取两个负例。
2.如权利要求1所述的一种基于Bert的实体链接方法,其特征在于,所述步骤S2具体步骤如下:
S201、数据清洗,处理特殊符号、标点;
S202、统计短文本长度,统一做归一化;
S203、构造若干字典,包括entity-id(key:实体名字value:kb_id列表),id-entity(key:kb_id value:实体名称),id-text(key:kb_id value:实体描述文本)。
3.如权利要求2所述的一种基于Bert的实体链接方法,其特征在于,所述步骤S3包括如下步骤:
S301、实体正向最大匹配:采用字典树结构以及正向最大匹配实体思路,去匹配文本中实体,首先需要的数据为S203中的entity_id字典,将里面的key也就是实体名字插入到字典树中;
S302、模型:短文本经过BERT层,得到BERT的输出向量,将BERT的输出经过CRF层,获得短文本中的候选实体,将短文本中的候选实体与知识库中的候选实体相比较,如果前者的完全被后者覆盖,则选取后者中的长度最大实体。
4.如权利要求3所述的一种基于Bert的实体链接方法,其特征在于,所述步骤S4包括如下步骤:
实体名字嵌入:将每个实体文本描述输入到BERT模型,在[CLS]位置处得到每个实体的输出向量;
实体消歧:将短文本以及待消歧实体的描述文本连在一起,输入到BERT模型,取CLS位置向量输出,以及候选实体对应开始和结束位置对应的特征向量,三个向量连接,经过全连接层,最后sigmoid激活得到候选实体的概率得分,对所有候选实体的概率得分进行排序,选择概率最高的为正确实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011420679.1A CN112560489A (zh) | 2020-12-08 | 2020-12-08 | 一种基于Bert的实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011420679.1A CN112560489A (zh) | 2020-12-08 | 2020-12-08 | 一种基于Bert的实体链接方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112560489A true CN112560489A (zh) | 2021-03-26 |
Family
ID=75059413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011420679.1A Pending CN112560489A (zh) | 2020-12-08 | 2020-12-08 | 一种基于Bert的实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560489A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220900A (zh) * | 2021-05-10 | 2021-08-06 | 深圳价值在线信息科技股份有限公司 | 实体消歧模型的建模方法和实体消歧预测方法 |
CN113377930A (zh) * | 2021-08-13 | 2021-09-10 | 中国科学院自动化研究所 | 面向中文短文本的实体识别与实体链接方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN114861669A (zh) * | 2022-05-26 | 2022-08-05 | 浙江工业大学 | 一种融入拼音信息的中文实体链接方法 |
-
2020
- 2020-12-08 CN CN202011420679.1A patent/CN112560489A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN114861669A (zh) * | 2022-05-26 | 2022-08-05 | 浙江工业大学 | 一种融入拼音信息的中文实体链接方法 |
Non-Patent Citations (1)
Title |
---|
机器学习AI算法工程: "中文短文本的实体识别实体链接,第一名解决方案", pages 1 - 11, Retrieved from the Internet <URL:中文短文本的实体识别实体链接,第一名解决方案-腾讯云开发者社区-腾讯云 (tencent.com)> * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220900A (zh) * | 2021-05-10 | 2021-08-06 | 深圳价值在线信息科技股份有限公司 | 实体消歧模型的建模方法和实体消歧预测方法 |
CN113220900B (zh) * | 2021-05-10 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 实体消歧模型的建模方法和实体消歧预测方法 |
CN113377930A (zh) * | 2021-08-13 | 2021-09-10 | 中国科学院自动化研究所 | 面向中文短文本的实体识别与实体链接方法 |
CN113377930B (zh) * | 2021-08-13 | 2021-11-30 | 中国科学院自动化研究所 | 面向中文短文本的实体识别与实体链接方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
KR102532396B1 (ko) | 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체 | |
CN108334487B (zh) | 缺失语意信息补全方法、装置、计算机设备和存储介质 | |
US10402493B2 (en) | System and method for inputting text into electronic devices | |
US10146765B2 (en) | System and method for inputting text into electronic devices | |
CN111241282B (zh) | 文本主题生成方法、装置及电子设备 | |
CN111078865B (zh) | 文本标题生成方法和装置 | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
CN112100354B (zh) | 人机对话方法、装置、设备及存储介质 | |
US20220027569A1 (en) | Method for semantic retrieval, device and storage medium | |
CN113553414B (zh) | 智能对话方法、装置、电子设备和存储介质 | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN111797216B (zh) | 检索项改写方法、装置、设备以及存储介质 | |
WO2020233131A1 (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112560489A (zh) | 一种基于Bert的实体链接方法 | |
Fusayasu et al. | Word-error correction of continuous speech recognition based on normalized relevance distance | |
CN113360751A (zh) | 意图识别方法、装置、设备和介质 | |
CN114818736B (zh) | 文本处理方法、用于短文本的链指方法、装置及存储介质 | |
US11983502B2 (en) | Extracting fine-grained topics from text content | |
CN113033205B (zh) | 实体链接的方法、装置、设备以及存储介质 | |
JP3080066B2 (ja) | 文字認識装置、方法及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |