CN111125380B - 一种基于RoBERTa和启发式算法的实体链接方法 - Google Patents
一种基于RoBERTa和启发式算法的实体链接方法 Download PDFInfo
- Publication number
- CN111125380B CN111125380B CN201911393144.7A CN201911393144A CN111125380B CN 111125380 B CN111125380 B CN 111125380B CN 201911393144 A CN201911393144 A CN 201911393144A CN 111125380 B CN111125380 B CN 111125380B
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- roberta
- knowledge base
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开的一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。
Description
技术领域
本发明涉及知识库问答类领域,特别涉及一种基于RoBERTa和启发式算法的实体链接方法。
背景技术
实体链接是知识库问答的一项子任务,旨在抽取问题中出现的知识库实体文本,并链接到知识库中的实体对象,从而得到知识库问答任务的候选答案。近年来,随着YAGO、Freebase、Dbpedia等大规模知识库的不断发展,知识库问答任务也开始为人们所关注,而如何在自然语言的问题与结构化的知识库实体之间建立联系,是一个亟需解决的问题,这也是实体链接任务的目标。
对于这个任务,早期的研究主要是用n-gram的方法对问题中的词组进行遍历,然后查询所有名字中包含这些词组的知识库实体作为候选实体,即与问题相关联的实体。该方法存在以下缺点:(1)问题中的n-gram单词组合较多,导致查询知识库耗时过多;(2)在候选实体中引入了过多不相关实体。而近几年来,随着深度学习的不断发展,很多学者开始利用深层神经网络来减少候选实体中的噪音,具体做法是先用一个序列标注模型对问题文本进行建模,以确定问题中提及到知识库实体的区域,从而减小了问题中n-gram搜索的范围。该方法的效果主要取决于序列标注模型的性能,目前效果较好的方案主要是基于Bi-LSTM或者Bi-LSTM+CRF的序列标注模型。这些模型基本上都是用了预训练word-embedding技术,能有效解决词典的高维稀疏问题,同时,将CRF应与神经网络相结合,能够从训练数据中学习到标注间的约束,从而提高对问题中实体提及区域的标注准确率。然而,问题的用词和表达方式是丰富的,word-embedding对不同问题中的相同单词只会产生同样的向量表示,而无法根据上下文动态地改变单词表示。比如,单词“苹果”可以表示水果“苹果”也可以表示“苹果公司”,如果应用word-embedding,则所有的“苹果”不论表示的是水果还是公司,都会被表示成同一个向量,出现这个问题的原因在于,模型在对单词建模的时候并没有考虑到上下文的信息,而单词“苹果”表示的是水果还是公司往往需要从上下文进行判断。当前大部分基于序列标注的实体链接模型都是在word-embedding基础上对问题进行建模的,这也在一定程度上限制了当前实体链接方法的性能。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于RoBERTa和启发式算法的实体链接方法,该方法应用在知识库问答当中。
本发明的目的通过以下的技术方案实现:
一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:
S1、使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;
S2、获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。
步骤S1中,所述序列标注模型,其输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类;所述序列标注模型包括以下三层:
(1)输入层:对于输入问题中的单词序列,输入层使用Byte-Pair Encoding(BPE),即双字节编码,将单词序列编码编码成一系列子词(subword),并将编码结果传递到预训练RoBERTa层,使用BPE编码方法可以有效解决未登录词问题和罕见词问题;
(2)预训练RoBERTa层:该层首先将输入层的每一个子词其转化为2个向量,分别为:a、词向量:根据词表将每个单词映射成一个768维的词向量;b、位置向量:根据每个单词在问题中的位置,将其位置信息映射成一个768维的位置向量,并将上述两个向量每个元素相加作为子词的向量表示;然后,利用堆叠12层的transformer结构,让每个输入子词获得句子级别的上下文信息;
(3)输出层:该层使用一个全连接神经网络,将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否提及到知识库实体的0/1分类。
所述步骤S2具体如下:
S201、将问题中被标注为1而且相邻的单词合并起来,得到字符串S;若识别出多个候选实体字符串,则取最后一个;
S202、在知识库查询全名或别名为字符串S的所有实体,并将相关实体添加到候选实体集H中;
S203、若在步骤S202中查询不到相关知识库实体,则以字符串S为中心窗口,在距离1-2个单词内进行左右滑动,每滑动一次,得到一个新的字符串S`,然后重复步骤S202,直至获取实体集合H。
本发明与现有技术相比,具有如下优点和有益效果:
本发明通过结合序列标注模型和启发式算法的方法,给出一种基于深度学习技术的实体链接方法,能够有效的对具有丰富表达的自然语言问题与结构化的知识库实体进行关联,并解决了同一单词在不同问题中的动态表示问题,提高了序列标注模型的准确率,同时结合启发式算法,提高了实体链接的效率。本方法充分利用了大规模预训练模型的优点,使得模型有丰富的先验信息,从而提高了序列标注模型的准确率,此外还使用了启发式算法,不仅减小了序列标注错误带来的影响,还避免了传统n-gram遍历方式造成的效率问题。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。
附图说明
图1为本发明所述序列标注模型的结构示意图。
图2为本发明所述启发式算法将该实体提及与知识库实体进行匹配的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
一种基于RoBERTa和启发式算法的实体链接方法,其模型的改进思路主要有两点,一是使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息,而transformer中通过多头注意力机制,可以有效获取问题中每个单词基于上下文的动态表示,更准确地获取问题中的实体提及范围;二是在获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,避免了耗时的n-gram遍历搜索,在保证实体链接准确率的情况下,有效提高了实体链接任务的效率。
具体来说,本发明是一种基于预训练RoBERTa模型和启发式算法的实体链接方法,包括序列标注模型和启发式算法两个部分。
序列标注模型结构如图1所示,模型的输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类。模型包括以下三层:
(1)输入层:对于输入问题中的单词序列,输入层使用Byte-Pair Encoding(BPE),即双字节编码,将单词序列编码编码成一系列子词(subword),并将编码结果传递到预训练RoBERTa层,使用BPE编码方法可以有效解决未登录词问题和罕见词问题;
(2)预训练RoBERTa层:该层首先将输入层的每一个子词其转化为2个向量,分别为:a、词向量:根据词表将每个单词映射成一个768维的词向量;b、位置向量:根据每个单词在问题中的位置,将其位置信息映射成一个768维的位置向量,并将上述两个向量每个元素相加作为子词的向量表示;然后,利用堆叠12层的transformer结构,让每个输入子词获得句子级别的上下文信息;
(3)输出层:该层使用一个全连接神经网络,将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否提及到知识库实体的0/1分类。
为了减小序列标注模型错误带来的影响,同时提高实体链接的效率,本发明使用了如图2所示的启发式算法来确定问题链接到的知识库实体,该启发式算法的输入是序列标注模型的输出,即每个单词是否为实体提及的0/1分类,输出是问题提及的知识库实体集合,具体步骤如下:
(1)将问题中被标注为1而且相邻的单词合并起来,得到字符串S。若识别出多个候选实体字符串,则取最后一个。
(2)在知识库查询全名或别名为字符串S的所有实体,并将相关实体添加到候选实体集H中。
(3)若在步骤(2)中查询不到相关知识库实体,则以字符串S为中心窗口,在距离1-2个单词内进行左右滑动,每滑动一次,得到一个新的字符串S`,然后重复步骤(2),直至获取实体集合H。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.一种基于RoBERTa和启发式算法的实体链接方法,其特征在于,包含以下步骤:
S1、使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;
步骤S1中,所述序列标注模型,其输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类;所述序列标注模型包括以下三层:
(1)输入层:对于输入问题中的单词序列,输入层使用双字节编码,将单词序列编码编码成一系列子词,并将编码结果传递到预训练RoBERTa层;
(2)预训练RoBERTa层:该层首先将输入层的每一个子词其转化为2个向量,分别为:a、词向量:根据词表将每个单词映射成一个768维的词向量;b、位置向量:根据每个单词在问题中的位置,将其位置信息映射成一个768维的位置向量,并将上述两个向量每个元素相加作为子词的向量表示;然后,利用堆叠12层的transformer结构,让每个输入子词获得句子级别的上下文信息;
(3)输出层:该层使用一个全连接神经网络,将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否提及到知识库实体的0/1分类;
S2、获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接;
所述步骤S2具体如下:
S201、将问题中被标注为1而且相邻的单词合并起来,得到字符串S;若识别出多个候选实体字符串,则取最后一个;
S202、在知识库查询全名或别名为字符串S的所有实体,并将相关实体添加到候选实体集H中;
S203、若在步骤S202中查询不到相关知识库实体,则以字符串S为中心窗口,在距离1-2个单词内进行左右滑动,每滑动一次,得到一个新的字符串S`,然后重复步骤S202,直至获取实体集合H。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911393144.7A CN111125380B (zh) | 2019-12-30 | 2019-12-30 | 一种基于RoBERTa和启发式算法的实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911393144.7A CN111125380B (zh) | 2019-12-30 | 2019-12-30 | 一种基于RoBERTa和启发式算法的实体链接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125380A CN111125380A (zh) | 2020-05-08 |
CN111125380B true CN111125380B (zh) | 2023-04-21 |
Family
ID=70504930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911393144.7A Active CN111125380B (zh) | 2019-12-30 | 2019-12-30 | 一种基于RoBERTa和启发式算法的实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125380B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328767B (zh) * | 2020-11-11 | 2022-10-14 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN113342982B (zh) * | 2021-06-24 | 2023-07-25 | 长三角信息智能创新研究院 | 融合RoBERTa和外部知识库的企业行业分类方法 |
CN113569553A (zh) * | 2021-07-28 | 2021-10-29 | 广州芳禾数据有限公司 | 基于改进Adaboost算法的句子相似性判断方法 |
CN113987192B (zh) * | 2021-12-28 | 2022-04-01 | 中国电子科技网络信息安全有限公司 | 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202030A (zh) * | 2016-06-23 | 2016-12-07 | 苏州大学 | 一种基于异构标注数据的快速序列标注方法及装置 |
CN110059160A (zh) * | 2019-04-17 | 2019-07-26 | 东南大学 | 一种端到端的基于上下文的知识库问答方法及装置 |
-
2019
- 2019-12-30 CN CN201911393144.7A patent/CN111125380B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202030A (zh) * | 2016-06-23 | 2016-12-07 | 苏州大学 | 一种基于异构标注数据的快速序列标注方法及装置 |
CN110059160A (zh) * | 2019-04-17 | 2019-07-26 | 东南大学 | 一种端到端的基于上下文的知识库问答方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111125380A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125380B (zh) | 一种基于RoBERTa和启发式算法的实体链接方法 | |
CN112507065B (zh) | 一种基于注释语义信息的代码搜索方法 | |
CN113190656B (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
KR20150070171A (ko) | 스트링 변환의 귀납적 합성을 위한 랭킹 기법 | |
CN110503945A (zh) | 一种语音处理模型的训练方法及装置 | |
CN113283236B (zh) | 一种复杂中文文本中的实体消歧方法 | |
CN111209749A (zh) | 一种将深度学习应用于中文分词的方法 | |
CN111651973B (zh) | 一种基于句法感知的文本匹配方法 | |
CN110516145B (zh) | 一种基于句向量编码的信息搜索方法 | |
CN113254616B (zh) | 面向智能问答系统的句向量生成方法及系统 | |
CN112347796A (zh) | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 | |
CN113971394B (zh) | 文本复述改写系统 | |
CN116910086B (zh) | 一种基于自注意力句法感知的数据库查询方法和系统 | |
CN112732862A (zh) | 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置 | |
CN115203236A (zh) | 基于模板检索的文本到sql生成方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN114595341A (zh) | 一种基于知识图谱的复杂问题语义理解方法 | |
Xue et al. | A method of chinese tourism named entity recognition based on bblc model | |
CN117851567A (zh) | 一种基于领域适应的零样本表格检索方法 | |
CN117573096A (zh) | 一种融合抽象语法树结构信息的智能代码补全方法 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN114662659B (zh) | 一种基于多阶段迁移学习策略综合的众包文本集成方法 | |
CN116204643A (zh) | 一种基于多任务学习知识增强的级联标签分类方法 | |
Crouse et al. | Laziness is a virtue when it comes to compositionality in neural semantic parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |