CN111125380A - 一种基于RoBERTa和启发式算法的实体链接方法 - Google Patents

一种基于RoBERTa和启发式算法的实体链接方法 Download PDF

Info

Publication number
CN111125380A
CN111125380A CN201911393144.7A CN201911393144A CN111125380A CN 111125380 A CN111125380 A CN 111125380A CN 201911393144 A CN201911393144 A CN 201911393144A CN 111125380 A CN111125380 A CN 111125380A
Authority
CN
China
Prior art keywords
word
entity
roberta
question
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911393144.7A
Other languages
English (en)
Other versions
CN111125380B (zh
Inventor
苏锦钿
罗达
毛冠文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911393144.7A priority Critical patent/CN111125380B/zh
Publication of CN111125380A publication Critical patent/CN111125380A/zh
Application granted granted Critical
Publication of CN111125380B publication Critical patent/CN111125380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。

Description

一种基于RoBERTa和启发式算法的实体链接方法
技术领域
本发明涉及知识库问答类领域,特别涉及一种基于RoBERTa和启发式算法的实体链接方法。
背景技术
实体链接是知识库问答的一项子任务,旨在抽取问题中出现的知识库实体文本,并链接到知识库中的实体对象,从而得到知识库问答任务的候选答案。近年来,随着YAGO、Freebase、Dbpedia等大规模知识库的不断发展,知识库问答任务也开始为人们所关注,而如何在自然语言的问题与结构化的知识库实体之间建立联系,是一个亟需解决的问题,这也是实体链接任务的目标。
对于这个任务,早期的研究主要是用n-gram的方法对问题中的词组进行遍历,然后查询所有名字中包含这些词组的知识库实体作为候选实体,即与问题相关联的实体。该方法存在以下缺点:(1)问题中的n-gram单词组合较多,导致查询知识库耗时过多;(2)在候选实体中引入了过多不相关实体。而近几年来,随着深度学习的不断发展,很多学者开始利用深层神经网络来减少候选实体中的噪音,具体做法是先用一个序列标注模型对问题文本进行建模,以确定问题中提及到知识库实体的区域,从而减小了问题中n-gram搜索的范围。该方法的效果主要取决于序列标注模型的性能,目前效果较好的方案主要是基于Bi-LSTM或者Bi-LSTM+CRF的序列标注模型。这些模型基本上都是用了预训练word-embedding技术,能有效解决词典的高维稀疏问题,同时,将CRF应与神经网络相结合,能够从训练数据中学习到标注间的约束,从而提高对问题中实体提及区域的标注准确率。然而,问题的用词和表达方式是丰富的,word-embedding对不同问题中的相同单词只会产生同样的向量表示,而无法根据上下文动态地改变单词表示。比如,单词“苹果”可以表示水果“苹果”也可以表示“苹果公司”,如果应用word-embedding,则所有的“苹果”不论表示的是水果还是公司,都会被表示成同一个向量,出现这个问题的原因在于,模型在对单词建模的时候并没有考虑到上下文的信息,而单词“苹果”表示的是水果还是公司往往需要从上下文进行判断。当前大部分基于序列标注的实体链接模型都是在word-embedding基础上对问题进行建模的,这也在一定程度上限制了当前实体链接方法的性能。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于RoBERTa和启发式算法的实体链接方法,该方法应用在知识库问答当中。
本发明的目的通过以下的技术方案实现:
一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:
S1、使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;
S2、获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。
步骤S1中,所述序列标注模型,其输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类;所述序列标注模型包括以下三层:
(1)输入层:对于输入问题中的单词序列,输入层使用Byte-Pair Encoding(BPE),即双字节编码,将单词序列编码编码成一系列子词(subword),并将编码结果传递到预训练RoBERTa层,使用BPE编码方法可以有效解决未登录词问题和罕见词问题;
(2)预训练RoBERTa层:该层首先将输入层的每一个子词其转化为2个向量,分别为:a、词向量:根据词表将每个单词映射成一个768维的词向量;b、位置向量:根据每个单词在问题中的位置,将其位置信息映射成一个768维的位置向量,并将上述两个向量每个元素相加作为子词的向量表示;然后,利用堆叠12层的transformer结构,让每个输入子词获得句子级别的上下文信息;
(3)输出层:该层使用一个全连接神经网络,将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否提及到知识库实体的0/1分类。
所述步骤S2具体如下:
S201、将问题中被标注为1而且相邻的单词合并起来,得到字符串S;若识别出多个候选实体字符串,则取最后一个;
S202、在知识库查询全名或别名为字符串S的所有实体,并将相关实体添加到候选实体集H中;
S203、若在步骤S202中查询不到相关知识库实体,则以字符串S为中心窗口,在距离1-2个单词内进行左右滑动,每滑动一次,得到一个新的字符串S`,然后重复步骤S202,直至获取实体集合H。
本发明与现有技术相比,具有如下优点和有益效果:
本发明通过结合序列标注模型和启发式算法的方法,给出一种基于深度学习技术的实体链接方法,能够有效的对具有丰富表达的自然语言问题与结构化的知识库实体进行关联,并解决了同一单词在不同问题中的动态表示问题,提高了序列标注模型的准确率,同时结合启发式算法,提高了实体链接的效率。本方法充分利用了大规模预训练模型的优点,使得模型有丰富的先验信息,从而提高了序列标注模型的准确率,此外还使用了启发式算法,不仅减小了序列标注错误带来的影响,还避免了传统n-gram遍历方式造成的效率问题。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。
附图说明
图1为本发明所述序列标注模型的结构示意图。
图2为本发明所述启发式算法将该实体提及与知识库实体进行匹配的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
一种基于RoBERTa和启发式算法的实体链接方法,其模型的改进思路主要有两点,一是使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息,而transformer中通过多头注意力机制,可以有效获取问题中每个单词基于上下文的动态表示,更准确地获取问题中的实体提及范围;二是在获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,避免了耗时的n-gram遍历搜索,在保证实体链接准确率的情况下,有效提高了实体链接任务的效率。
具体来说,本发明是一种基于预训练RoBERTa模型和启发式算法的实体链接方法,包括序列标注模型和启发式算法两个部分。
序列标注模型结构如图1所示,模型的输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类。模型包括以下三层:
(1)输入层:对于输入问题中的单词序列,输入层使用Byte-Pair Encoding(BPE),即双字节编码,将单词序列编码编码成一系列子词(subword),并将编码结果传递到预训练RoBERTa层,使用BPE编码方法可以有效解决未登录词问题和罕见词问题;
(2)预训练RoBERTa层:该层首先将输入层的每一个子词其转化为2个向量,分别为:a、词向量:根据词表将每个单词映射成一个768维的词向量;b、位置向量:根据每个单词在问题中的位置,将其位置信息映射成一个768维的位置向量,并将上述两个向量每个元素相加作为子词的向量表示;然后,利用堆叠12层的transformer结构,让每个输入子词获得句子级别的上下文信息;
(3)输出层:该层使用一个全连接神经网络,将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否提及到知识库实体的0/1分类。
为了减小序列标注模型错误带来的影响,同时提高实体链接的效率,本发明使用了如图2所示的启发式算法来确定问题链接到的知识库实体,该启发式算法的输入是序列标注模型的输出,即每个单词是否为实体提及的0/1分类,输出是问题提及的知识库实体集合,具体步骤如下:
(1)将问题中被标注为1而且相邻的单词合并起来,得到字符串S。若识别出多个候选实体字符串,则取最后一个。
(2)在知识库查询全名或别名为字符串S的所有实体,并将相关实体添加到候选实体集H中。
(3)若在步骤(2)中查询不到相关知识库实体,则以字符串S为中心窗口,在距离1-2个单词内进行左右滑动,每滑动一次,得到一个新的字符串S`,然后重复步骤(2),直至获取实体集合H。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于RoBERTa和启发式算法的实体链接方法,其特征在于,包含以下步骤:
S1、使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;
S2、获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。
2.根据权利要求1所述基于RoBERTa和启发式算法的实体链接方法,其特征在于,步骤S1中,所述序列标注模型,其输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类;所述序列标注模型包括以下三层:
(1)输入层:对于输入问题中的单词序列,输入层使用双字节编码,将单词序列编码编码成一系列子词,并将编码结果传递到预训练RoBERTa层;
(2)预训练RoBERTa层:该层首先将输入层的每一个子词其转化为2个向量,分别为:a、词向量:根据词表将每个单词映射成一个768维的词向量;b、位置向量:根据每个单词在问题中的位置,将其位置信息映射成一个768维的位置向量,并将上述两个向量每个元素相加作为子词的向量表示;然后,利用堆叠12层的transformer结构,让每个输入子词获得句子级别的上下文信息;
(3)输出层:该层使用一个全连接神经网络,将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否提及到知识库实体的0/1分类。
3.根据权利要求1所述基于RoBERTa和启发式算法的实体链接方法,其特征在于,所述步骤S2具体如下:
S201、将问题中被标注为1而且相邻的单词合并起来,得到字符串S;若识别出多个候选实体字符串,则取最后一个;
S202、在知识库查询全名或别名为字符串S的所有实体,并将相关实体添加到候选实体集H中;
S203、若在步骤S202中查询不到相关知识库实体,则以字符串S为中心窗口,在距离1-2个单词内进行左右滑动,每滑动一次,得到一个新的字符串S`,然后重复步骤S202,直至获取实体集合H。
CN201911393144.7A 2019-12-30 2019-12-30 一种基于RoBERTa和启发式算法的实体链接方法 Active CN111125380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911393144.7A CN111125380B (zh) 2019-12-30 2019-12-30 一种基于RoBERTa和启发式算法的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911393144.7A CN111125380B (zh) 2019-12-30 2019-12-30 一种基于RoBERTa和启发式算法的实体链接方法

Publications (2)

Publication Number Publication Date
CN111125380A true CN111125380A (zh) 2020-05-08
CN111125380B CN111125380B (zh) 2023-04-21

Family

ID=70504930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911393144.7A Active CN111125380B (zh) 2019-12-30 2019-12-30 一种基于RoBERTa和启发式算法的实体链接方法

Country Status (1)

Country Link
CN (1) CN111125380B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN113342982A (zh) * 2021-06-24 2021-09-03 中国科学技术大学智慧城市研究院(芜湖) 融合RoBERTa和外部知识库的企业行业分类方法
CN113569553A (zh) * 2021-07-28 2021-10-29 广州芳禾数据有限公司 基于改进Adaboost算法的句子相似性判断方法
CN113987192A (zh) * 2021-12-28 2022-01-28 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置
CN110059160A (zh) * 2019-04-17 2019-07-26 东南大学 一种端到端的基于上下文的知识库问答方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置
CN110059160A (zh) * 2019-04-17 2019-07-26 东南大学 一种端到端的基于上下文的知识库问答方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN113342982A (zh) * 2021-06-24 2021-09-03 中国科学技术大学智慧城市研究院(芜湖) 融合RoBERTa和外部知识库的企业行业分类方法
CN113569553A (zh) * 2021-07-28 2021-10-29 广州芳禾数据有限公司 基于改进Adaboost算法的句子相似性判断方法
CN113987192A (zh) * 2021-12-28 2022-01-28 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法
CN113987192B (zh) * 2021-12-28 2022-04-01 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Also Published As

Publication number Publication date
CN111125380B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN111125380B (zh) 一种基于RoBERTa和启发式算法的实体链接方法
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN109033374B (zh) 基于贝叶斯分类器的知识图谱检索方法
CN112347796B (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN113283236A (zh) 一种复杂中文文本中的实体消歧方法
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN116910086A (zh) 一种基于自注意力句法感知的数据库查询方法和系统
CN113934831A (zh) 一种基于深度学习的知识图谱问答方法
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法
CN117851567A (zh) 一种基于领域适应的零样本表格检索方法
CN111104520B (zh) 一种基于人物身份的人物实体链接方法
CN116204643A (zh) 一种基于多任务学习知识增强的级联标签分类方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN111008277A (zh) 一种自动文本摘要方法
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN114595341A (zh) 一种基于知识图谱的复杂问题语义理解方法
Cruz-Alcazar et al. Two grammatical inference applications in music processing
Liu et al. The BERT-BiLSTM-CRF question event information extraction method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant