CN112861538A - 一种基于上下文语义关系和文档一致性约束的实体链接方法 - Google Patents

一种基于上下文语义关系和文档一致性约束的实体链接方法 Download PDF

Info

Publication number
CN112861538A
CN112861538A CN202110182336.4A CN202110182336A CN112861538A CN 112861538 A CN112861538 A CN 112861538A CN 202110182336 A CN202110182336 A CN 202110182336A CN 112861538 A CN112861538 A CN 112861538A
Authority
CN
China
Prior art keywords
entity
candidate
entities
wikipedia
recall
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110182336.4A
Other languages
English (en)
Inventor
张海军
伍映吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110182336.4A priority Critical patent/CN112861538A/zh
Publication of CN112861538A publication Critical patent/CN112861538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明为解决传统实体链接方法需要大量人工标注,所带来的成本等问题,提出了一种基于上下文语义关系和文档一致性约束的实体链接方法。本发明分为三个步骤:数据预处理,候选实体生成和候选实体消歧;在数据预处理阶段,解决数据存在的噪音问题;在候选实体生成阶段,利用维基百科连接图的过滤技术,得到具有较高召回率的候选实体集合;在候选实体消歧阶段,利用候选实体集合作为弱监督约束,考虑实体与其局部上下文之间的关系和文档中实体与实体之间的连贯性信息,通过神经网络进行候选实体消歧,得到最终的实体链接结果,将候选实体对应到知识图谱中。

Description

一种基于上下文语义关系和文档一致性约束的实体链接方法
技术领域
本发明涉及知识图谱实体链接领域,具体地,涉及一种基于上下文语义关系和文档一 致性约束的实体链接方法。
背景技术
近年来,随着人工智能技术的迅猛发展,如何通过自然语言处理技术(NLP)让机器实现人类语言理解受到众多学者的关注。而如何训练计算机识别文本中的实体,并将实体正确无误的链接到数据库中,这是让计算机理解人类语言的关键步骤。实体链接(EntityLinking,EL)是指挖掘人类语言文本出现的潜在实体关系,并链接到所在的知识图谱实 体上,解决实体间存在歧义性(即一词多义)和多样性(即多词一义)的任务。常用于知 识图谱的构建、信息事件抽取和智能问答等应用中。目前传统的实体链接模型往往依赖于 海量的文本标注,存在着需要消耗大量人工、大量时间、大量金钱的问题、且存在受限于 语言和无法快速规模化的困难。如何利用自然语言处理技术、机器学习技术(ML)和深 度学习技术(DL)等前沿方法,自动或者高效进行实体关系的链接,成为了当前亟需攻 克的问题。因此,实体链接的方法研究得到了世界范围内研究人员的广泛关注。
发明内容
本发明为了解决现有技术中的不足,依托上下文语义关系以及文档一致性匹配模型, 提出了一种基于上下文语义关系和文档一致性约束的实体链接方法。
一种基于上下文语义关系和文档一致性约束的实体链接方法:所述方法包括以下步 骤:
A、数据预处理:对实验数据集中选择未标记的文档和维基百科数据进行预处理,因 为当使用多个数据集时候,会存在以下两个问题:多个数据集的数据组织格式不统一;部 分数据集的实体标注不完整;
B、候选实体生成:因为本步骤最初所选择的候选实体集合的锚定实体信息都来源于 维基百科,所以通过维基百科来产生弱监督,通过将候选实体生成分为两个候选实体,来 筛选得到高召回率的候选实体集:先使用Ganea and Hofmann预处理技术进行粗召回,再 创建连接图进行精召回;
C、候选实体消歧:将步骤B获得的候选实体消歧,本步骤不仅需要考虑实体与其局部上下文之间的关系,而且还要考虑在文档中实体与实体之间的连贯性;从这两个方面进行建模,根据得分高的作为候选实体集合中的正确选项。
进一步地,所述步骤A包括以下步骤:
A1、针对实体标注不完整数据进行补全:针对原始的CoNLL 2003数据集包含的英语 部分,将对语言无关的命名实体进行识别并剔除;通过实体嵌入,使用deep-ed预训练技术的Word2Vec来提取300维词向量;
A2、部分数据集的实体标注不完整,需要通过Wikipedia、YAGO、Freebase知识图谱进行实体标注。
进一步地,所述步骤B包括以下步骤:
B1、使用Ganea and Hofmann预处理技术进行粗召回:
将步骤A得到的候选列表进行过滤,Ganea and Hofmann预处理技术使用一个模型, 来衡量在嵌入空间中实体e、指代跨度m、及其周围的上下文窗口c中的单词w之间的相似度q为;
Figure BDA0002942459560000021
Figure BDA0002942459560000022
是对实体e和单词w的外部词嵌入,p为实验结合准确率,则有根据Pwiki(e|m)提取前4个分数最高的候选,Nq=4;根据qwiki(e|m,c)选择3个分数最高的候 选Nq=3,此时召回率R为97.2%;
最少需要两个候选实体集合列表才能保持高的召回率;
B2、使用Wikipedia链接统计进一步减少候选实体列表,创建一个连接图进行精召回, 实体作为所述连接图中的顶点;所述连接图定义了概率图模型的结构,本步骤用该连接图 来对候选实体列表进行排名;本步骤只为每个指代实体选择最高的候选实体,并且仍然保 持较高的召回率;
B21、进行无向图构建,从Wikipedia中构建无向图,图中的顶点为Wikipedia实体;链接顶点eu和ev,需要满足如下条件:
(1)D为Wikipedia的文章描述,且eu和ev同时出现在文章中mi
(2)D包含eu和ev,且eu和ev的距离小于L个实体;
B22、进行模型优化,考虑未标记(非维基百科)的文档;因此本步骤在优化训练文档的同时,也在测试时优化新的未贴标签的文档;
因此,为文档D中的每个指代实体mi最多生成Nq+Np个候选者,将文档D中的实体定义一个概率模型:
Figure BDA0002942459560000031
Figure BDA0002942459560000032
如果ei和ej在连接图中被链接,则否认为大于0的正数;因为该模型 根据分配中未链接实体对的数量评分实体e1,...,en;使用LBP的max-product版本来产生 近似边际:.
Figure BDA0002942459560000033
候选数量的一个根据rwiki(ei|D)排序的函数;将候选集从Nq+Np=7到Nw=2保持了93.9%的召回率;这个遗留的Nq+Np-Nw实体被作为负样本Ei去训练消歧模型。
进一步地,所述步骤C包括以下步骤:
C1、计算实体上下文得分,通过实体上下文得分进行候选实体与文章局部相关性筛选; 选择得分较高的候选实体;
mi为指代实体,ci为围绕该指代实体的上下文窗口,ξ(ei,ej)是成对的兼容性评分即相 似性,αij是注意力权重,衡量位置j处的实体相对于预测实体ei的相关性,其中
Figure BDA0002942459560000034
本地分数φ与Ganea and Hofmann预处理技术中使用的分数相同,兼容性分数计算公式为:
Figure BDA0002942459560000035
C2、计算实体相关性得分,通过实体相关性计算实体与全文的匹配度关系,选择得分 较高的候选实体,Xei和Xej∈Rde是外部实体嵌入,使用外部的词嵌入得到,
Figure BDA0002942459560000036
是对角矩阵;注意力权重计算公式:
Figure BDA0002942459560000037
其中,A属于
Figure BDA0002942459560000038
是一个对角矩阵,函数h(mi,ci)将文档指代的实体与上下文映射到
Figure BDA0002942459560000039
空间,选择得分较高的候选实体作为候选实体集合中的正确选项。
本发明有益效果
(1)本发明将候选实体生成任务采用Wikipedia创建一个连接图,并进行候选实体召回。
(2)本发明候选实体消歧的目标设定为不仅需要考虑实体与其局部上下文之间的关 系,而且还要考虑在文档中实体与实体之间的连贯性。
(3)本发明通过弱监督学习的方法减少人工标注,降低成本。
附图说明
图1为本发明的基于上下文语义关系和文档一致性约束的实体链接方法的流程图;
图2为实体连接在知识图谱问答系统中回答关于“Obama”问题的应用;
图3为本发明的无向连接图构建示意图;
图4为本发明的候选列表个数与召回率关系图;
图5为本发明的候选实体消歧算法示意图;
图6为本发明中h(mi,ci)生成方式示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
以实体链接技术在知识图谱问答场景下的一个示例,来介绍其具体的研究场景和应用 价值。如图2所示,针对问答场景下的问题“where was Zhangsan Born?”实体链接系统 将问题单词“Zhangsan”作为一个实体指代,并将“Zhangsan”映射到知识图谱“BarackZhangsan”上。
一种基于上下文语义关系和文档一致性约束的实体链接方法:所述方法包括以下步 骤:
A、数据预处理:对实验数据集中选择未标记的文档和维基百科数据进行预处理,因 为当使用多个数据集时候,会存在以下两个问题:多个数据集的数据组织格式不统一;部 分数据集的实体标注不完整;
B、候选实体生成:因为本步骤最初所选择的候选实体集合的锚定实体信息都来源于 维基百科,所以通过维基百科来产生弱监督,通过将候选实体生成分为两个候选实体,来 筛选得到高召回率的候选实体集:先使用Ganea and Hofmann预处理技术进行粗召回,再 创建连接图进行精召回;
C、候选实体消歧:将步骤B获得的候选实体消歧,本步骤不仅需要考虑实体与其局部上下文之间的关系,而且还要考虑在文档中实体与实体之间的连贯性;从这两个方面进行建模,根据得分高的作为候选实体集合中的正确选项。
所述步骤A包括以下步骤:
A1、针对实体标注不完整数据进行补全:针对原始的CoNLL 2003数据集包含的英语 部分,将对语言无关的命名实体进行识别并剔除;通过实体嵌入,使用deep-ed预训练技术的Word2Vec来提取300维词向量;
A2、部分数据集的实体标注不完整,需要通过Wikipedia、YAGO、Freebase知识图谱进行实体标注。
所述步骤B包括以下步骤:
B1、使用Ganea and Hofmann预处理技术进行粗召回:
将步骤A得到的候选列表进行过滤,Ganea and Hofmann预处理技术使用一个模型, 来衡量在嵌入空间中实体e、指代跨度m、及其周围的上下文窗口c中的单词w之间的相似度;
Figure BDA0002942459560000051
Figure BDA0002942459560000052
是对嵌入空间中实体e和单词w的外部词嵌入,根据Pwiki(e|m)提取前 4个分数最高的候选,Nq=4;根据qwiki(e|m,c)选择3个分数最高的候选Nq=3,此时 召回率为97.2%;
因为小的候选实体集合缺乏足够的约束力,无法约束潜在分配的空间推动实体歧义消 除模型进行特征学习,所以小的候选实体合集对于弱监督学习是无效的;
因此进行粗召回之后,候选实体集合的列表必须保持相当大,最少需要两个候选实体 集合列表才能保持较高的召回率;
B2、使用Wikipedia链接统计进一步减少候选实体列表,创建一个连接图进行精召回, 实体作为所述连接图中的顶点;所述连接图定义了概率图模型的结构,本步骤用该连接图 来对候选实体列表进行排名;本步骤只为每个指代实体选择最高的候选实体,并且仍然保 持较高的召回率;
B21、进行无向图构建,从Wikipedia中构建无向图,图中的顶点为Wikipedia实体;链接顶点eu和ev,需要满足如下条件:
(1)D为Wikipedia的文档描述,且eu和ev同时出现在文档中mi
(2)D包含eu和ev,且eu和ev的距离小于L个实体。
如图3所示,在文档中“Brexit”,模型将实体Brexit连接到所有其他实体上,但 是模型未将United Kingdom和Greek withdrawal from Eurozone连接起来,原因是它 们的距离超过了L个实体。
B22、进行模型优化,考虑未标记(非维基百科)的文档;因此本步骤在优化训练文档的同时,也在测试时优化新的未贴标签的文档;
因此,为文档D中的每个指代实体mi最多生成Nq+Np个候选者,将文档D中的实体定义一个概率模型:
Figure BDA0002942459560000061
Figure BDA0002942459560000062
如果ei和ej在连接图中被链接,则否认为大于0的正数;因为该模型 根据分配中未链接实体对的数量评分实体e1,...,en;使用LBP的max-product版本来产生 近似边际:.
Figure BDA0002942459560000063
如图4所示,绘制了在AIDACoNLL验证集上,候选数量的一个函数(根据rwiki(ei|D)排序);可以看到把候选集从Nq+Np=7到Nw=2保持了93.9%的召回率;这个遗留的 (Nq+Np-Nw)实体被作为负样本Ei去训练消歧模型。
所述步骤C包括以下步骤:
C1、计算实体上下文得分,通过实体上下文得分进行候选实体与文章局部相关性筛选; 选择得分较高的候选实体;
mi为指代实体,ci为围绕该指代实体的上下文窗口,ξ(ei,ej)是成对的兼容性评分即相 似性,αij是注意力权重,衡量位置j处的实体相对于预测实体ei的相关性,其中
Figure BDA0002942459560000064
本地分数φ与Ganea and Hofmann预处理技术中使用的分数相同,兼容性分数计算公式为:
Figure BDA0002942459560000065
C2、计算实体相关性得分,通过实体相关性计算实体与全文的匹配度关系,选择得分 较高的候选实体,Xei和Xej∈Rde是外部实体嵌入,使用外部的词嵌入得到,
Figure BDA0002942459560000066
是对角矩阵;注意力权重计算公式:
Figure BDA0002942459560000071
其中,A属于
Figure BDA0002942459560000072
是一个对角矩阵,函数h(mi,ci)将文档指代的实体与上下文映射到
Figure BDA0002942459560000073
空间,选择得分较高的候选实体作为候选实体集合中的正确选项。
以上对本发明所提出的一种基于上下文语义关系和文档一致性约束的实体链接方法, 进行了详细介绍,本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述,以 上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般 技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述, 本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种基于上下文语义关系和文档一致性约束的实体链接方法,其特征在于:所述方法包括以下步骤:
A、数据预处理:对实验数据集中选择未标记的文档和维基百科数据进行预处理,因为当使用多个数据集时候,会存在以下两个问题:多个数据集的数据组织格式不统一;部分数据集的实体标注不完整;
B、候选实体生成:因为本步骤最初所选择的候选实体集合的锚定实体信息都来源于维基百科,所以通过维基百科来产生弱监督,通过将候选实体生成分为两个候选实体,来筛选得到高召回率的候选实体集:先使用Ganea and Hofmann预处理技术进行粗召回,再创建连接图进行精召回;
C、候选实体消歧:将步骤B获得的候选实体消歧,本步骤不仅需要考虑实体与其局部上下文之间的关系,而且还要考虑在文档中实体与实体之间的连贯性;从这两个方面进行建模,根据得分高的作为候选实体集合中的正确选项。
2.根据权利要求1所述方法,其特征在于:所述步骤A包括以下步骤:
A1、针对实体标注不完整数据进行补全:针对原始的CoNLL 2003数据集包含的英语部分,将对语言无关的命名实体进行识别并剔除;通过实体嵌入,使用deep-ed预训练技术的Word2Vec来提取300维词向量;
A2、部分数据集的实体标注不完整,需要通过Wikipedia、YAGO、Freebase知识图谱进行实体标注。
3.根据权利要求2所述方法,其特征在于:所述步骤B包括以下步骤:
B1、使用Ganea and Hofmann预处理技术进行粗召回:
将步骤A得到的候选列表进行过滤,Ganea and Hofmann预处理技术使用一个模型,来衡量在嵌入空间中实体e、指代跨度m、及其周围的上下文窗口c中的单词w之间的相似度q为;
Figure FDA0002942459550000011
Figure FDA0002942459550000012
是对实体e和单词w的外部词嵌入,p为实验结合准确率,则有根据Pwiki(e|m)提取前4个分数最高的候选,Nq=4;根据qwiki(e|m,c)选择3个分数最高的候选Nq=3,此时召回率R为97.2%;
最少需要两个候选实体集合列表才能保持高的召回率;
B2、使用Wikipedia链接统计进一步减少候选实体列表,创建一个连接图进行精召回,实体作为所述连接图中的顶点;所述连接图定义了概率图模型的结构,本步骤用该连接图来对候选实体列表进行排名;本步骤只为每个指代实体选择最高的候选实体,并且仍然保持较高的召回率;
B21、进行无向图构建,从Wikipedia中构建无向图,图中的顶点为Wikipedia实体;链接顶点eu和ev,需要满足如下条件:
(1)D为Wikipedia的文章描述,且eu和ev同时出现在文章中mi
(2)D包含eu和ev,且eu和ev的距离小于L个实体;
B22、进行模型优化,考虑未标记(非维基百科)的文档;因此本步骤在优化训练文档的同时,也在测试时优化新的未贴标签的文档;
因此,为文档D中的每个指代实体mi最多生成Nq+Np个候选者,将文档D中的实体定义一个概率模型:
Figure FDA0002942459550000021
Figure FDA0002942459550000022
如果ei和ej在连接图中被链接,则否认为大于0的正数;因为该模型根据分配中未链接实体对的数量评分实体e1,...,en;使用LBP的max-product版本来产生近似边际:.
Figure FDA0002942459550000023
候选数量的一个根据rwiki(ei|D)排序的函数;将候选集从Nq+Np=7到Nw=2保持了93.9%的召回率;这个遗留的Nq+Np-Nw实体被作为负样本Ei去训练消歧模型。
4.根据权利要求3所述方法,其特征在于:所述步骤C包括以下步骤:
C1、计算实体上下文得分,通过实体上下文得分进行候选实体与文章局部相关性筛选;选择得分较高的候选实体;
mi为指代实体,ci为围绕该指代实体的上下文窗口,ξ(ei,ej)是成对的兼容性评分即相似性,αij是注意力权重,衡量位置j处的实体相对于预测实体ei的相关性,其中
Figure FDA0002942459550000024
本地分数φ与Ganea and Hofmann预处理技术中使用的分数相同,兼容性分数计算公式为:
Figure FDA0002942459550000031
C2、计算实体相关性得分,通过实体相关性计算实体与全文的匹配度关系,选择得分较高的候选实体,Xei和Xej∈Rde是外部实体嵌入,使用外部的词嵌入得到,
Figure FDA0002942459550000032
是对角矩阵;注意力权重计算公式:
Figure FDA0002942459550000033
其中,A属于
Figure FDA0002942459550000034
是一个对角矩阵,函数h(mi,ci)将文档指代的实体与上下文映射到
Figure FDA0002942459550000035
空间,选择得分较高的候选实体作为候选实体集合中的正确选项。
CN202110182336.4A 2021-02-08 2021-02-08 一种基于上下文语义关系和文档一致性约束的实体链接方法 Pending CN112861538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182336.4A CN112861538A (zh) 2021-02-08 2021-02-08 一种基于上下文语义关系和文档一致性约束的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182336.4A CN112861538A (zh) 2021-02-08 2021-02-08 一种基于上下文语义关系和文档一致性约束的实体链接方法

Publications (1)

Publication Number Publication Date
CN112861538A true CN112861538A (zh) 2021-05-28

Family

ID=75988106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182336.4A Pending CN112861538A (zh) 2021-02-08 2021-02-08 一种基于上下文语义关系和文档一致性约束的实体链接方法

Country Status (1)

Country Link
CN (1) CN112861538A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681A (zh) * 2022-05-20 2022-06-21 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN112100322A (zh) * 2020-08-06 2020-12-18 复旦大学 一种基于知识图谱的api元素比较结果自动生成方法
CN112100356A (zh) * 2020-09-17 2020-12-18 武汉纺织大学 一种基于相似性的知识库问答实体链接方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN112100322A (zh) * 2020-08-06 2020-12-18 复旦大学 一种基于知识图谱的api元素比较结果自动生成方法
CN112100356A (zh) * 2020-09-17 2020-12-18 武汉纺织大学 一种基于相似性的知识库问答实体链接方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LE PHONG 等: "Boosting Entity Linking Performance by Leveraging Unlabeled Documents", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1906.01250》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681A (zh) * 2022-05-20 2022-06-21 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN108733792B (zh) 一种实体关系抽取方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN111274800A (zh) 基于关系图卷积网络的推理型阅读理解方法
EP4022603A1 (en) System and method to extract customized information in natural language text
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN112000809A (zh) 一种文本类别的增量学习方法及装置、可读存储介质
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN114491024A (zh) 一种基于小样本的特定领域多标签文本分类方法
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN115935995A (zh) 面向知识图谱生成的非遗丝织领域实体关系抽取方法
CN113688203B (zh) 一种基于可迁移异构图的多语言事件检测方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN113360667B (zh) 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN112861538A (zh) 一种基于上下文语义关系和文档一致性约束的实体链接方法
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528

RJ01 Rejection of invention patent application after publication