CN112989803A - 一种基于主题向量学习的实体链接模型 - Google Patents

一种基于主题向量学习的实体链接模型 Download PDF

Info

Publication number
CN112989803A
CN112989803A CN202110214535.9A CN202110214535A CN112989803A CN 112989803 A CN112989803 A CN 112989803A CN 202110214535 A CN202110214535 A CN 202110214535A CN 112989803 A CN112989803 A CN 112989803A
Authority
CN
China
Prior art keywords
entity
vector
document
entities
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110214535.9A
Other languages
English (en)
Other versions
CN112989803B (zh
Inventor
何熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Enhanced View Technology Co ltd
Original Assignee
Chengdu Enhanced View Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Enhanced View Technology Co ltd filed Critical Chengdu Enhanced View Technology Co ltd
Priority to CN202110214535.9A priority Critical patent/CN112989803B/zh
Publication of CN112989803A publication Critical patent/CN112989803A/zh
Application granted granted Critical
Publication of CN112989803B publication Critical patent/CN112989803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主题向量学习的实体链接模型,包括知识库、百度文档、标注数据和Skip‑gram模型,获取包含待分析的目标实体的文档,根据实体命名词典对所有待分析目标实体生成候选实体集合,并获取所有候选实体的表征向量;本发明一种基于主题向量学习的实体链接模型通过对文档主题向量的多任务学习,将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性,用以解决文档中所有实体链接结果互相的相关性难以计算的难题,在训练过程中,使用文档分类数据集进一步加强对文档主题向量的学习,从而降低了实体链接算法的时间复杂度,并进一步提高了实体链接的准确度;进而提高实体链接的整体流程效率。

Description

一种基于主题向量学习的实体链接模型
技术领域
本发明涉及实体链接技术领域,具体为一种基于主题向量学习的实体链接模型。
背景技术
实体链接技术是自然语言处理领域的一项重要技术,其目的是将自然语言文本中的实体链接到知识图谱中的实体,是信息抽取的重要环节。实体链接通常包括生成候选实体和实体消歧两步,候选实体通常基于构建实体别名词典并匹配的方式生成,模型从候选实体中选择链接结果,常用特征有实体属性、先验统计、上下文编码等。
在实体消歧方法中,除了根据上述特征对候选实体进行相关性排序之外,通常加入文档中所有实体的链接结果两两之间的相关性约束,为实体链接提供更丰富的信息,理论上该相关性的计算是NP难问题,许多研究者设计了各种方法近似该相关性的计算。
发明内容
本发明的目的克服现有技术的不足,提供一种基于主题向量学习的实体链接模型,具有通过对文档主题向量的多任务学习、将文档中所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果和文档主题的相关性、用以解决文档中所有实体链接结果互相的相关性难以计算的问题的优点,解决了现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:一种基于主题向量学习的实体链接模型,包括知识库、百度文档、标注数据和Skip-gram模型。
步骤如下:
S1:获取包含待分析的目标实体的文档;
S2:根据实体命名词典对所有待分析目标实体生成候选实体集合,并获取所有候选实体的表征向量;
S3:将含有目标实体的待分析的句子和所有候选实体的表征向量输入模型,模型计算所有候选实体的得分及其与主题向量的相关性,预测链接的实体;
S4:获取训练数据,训练实体链接模型,模型计算所有候选实体与待分析实体的相关性,模型计算文档主题向量,根据主题向量计算所有候选实体与输入文档主题的相关性;
S5:将含有待分析实体的文档和所有候选实体的预训练表征向量输入模型,模型根据上述两个相关性预测链接的实体。
优选的,所述命名实体词典是基于知识库、百科文档、标注数据等生成的,实体表征向量和模型是的训练获得的。
优选的,所述预训练实体向量的模型为基于Skip-gram模型的简单全连接神经网络,用当前实体向量预测知识库中相邻的实体,并增加正则约束,使得当前实体向量与其别名的预训练词向量接近;
具体包括以下模块:
(1)输入层:输入知识库中的一个目标实体,通过查询表转化为实体向量E;
(2)分类层:实体向量E经过全连接层并经过Softmax操作,转化为知识库中每个实体的概率,预测每一个实体是否为输入实体在目标知识库中的相邻实体
Figure BDA0002952653600000021
(3)结构损失:根据输入实体在目标知识库中的相邻实体的真实标签计算交叉熵损失;
(4)语义损失:为使实体向量包含更多语义信息,在语料中随机选择一个输入实体别名中出现过的词W+和一个未出现过的词W-,语义损失L使得输入实体向量E尽可能接近词W+的预训练词向量XW+并远离词W-的预训练词向量XW-:
L=||E-xw+||2-||E-xw-||2
其中∣∣·∣∣2为L2范数。
优选的,所述实体链接模型基于多任务学习的双向长短期记忆网络,训练任务包括:以实体的上下文表征预测其和每个候选实体的相关性、基于文档中的是否出现相关实体的排序损失训练文档主题向量、使用文本分类数据集预测文档主题强化文档主题向量的训练。
优选的,所述S4中实体表征向量的预训练流程具体步骤如下:
(1)从知识库中选择一个目标实体作为输入实体输入模型;
(2)按一定概率随机选择一个正样本(在知识库中与目标实体相邻的实体)或一个负样本(在知识库中与目标实体不相邻的实体);
(3)在语料中随机选择一个目标实体别名中出现过的词W+和一个未出现过的词W-,在Word2Vec预训练词向量中查询其词向量XW+和W-
(4)计算结构损失和语义损失,并更新网络参数
(5)重复上述步骤直至训练结束。
优选的,所述S4中实体表征向量的实体链接模型为基于多任务学习的双向长短期记忆网络步骤如下:
(1)输入层:输入包含若干带分析目标实体的文档,将文档中的每个词转化为词向量;
(2)双向长短期记忆网络层:将每个词的词向量经过双向长短期记忆网络,获得每个词的上下文表示H={H1,H2,…,Hn};
(3)实体表征层:该部分获得目标实体的表征。对于文档中的每个目标实体i,取实体对应所有词的上下文表征的平均值作为实体的上下文表征ti。以ti为查询向量对文档的上下文表示H做注意力机制,得到H的加权和作为上下文信息向量ci,连接ti和ci得到最终实体表征
Figure BDA0002952653600000041
(4)实体链接层:对文档中的每个目标实体i,对实体i在知识库中的每个目标实体j,根据文档中的实体表示ei和预训练实体表征Ej计算实体链接结果的得分:
Figure BDA0002952653600000042
(5)实体链接损失:对文档中的每个目标实体i和候选实体j,使用二分类交叉熵计算实体链接损失;
(6)主题向量层:对文档的上下文表示H做自注意力机制,得到H的加权和作为文档的主题向量s;
(7)主题损失:从目标知识库中选取若干文档中出现过的实体(正样本)和未出现过的实体(负样本)组成文本候选实体集合,类似实体链接层计算主题向量s和该实体集合中的每一个实体j的相关性如下公式:
Figure BDA0002952653600000043
所述主题损失L是基于排序的损失,训练目标使得主题和所有正样本的相关性大于和负样本的相关性如下公式:
Figure BDA0002952653600000044
其中E+和E-分别为正样本和负样本的实体集合,[·]+为ReLU函数,λ为边际参数;
(8)文本分类层:使用文本分类数据集进一步增强主题向量的学习,将主题模型s经过全连接层,得到文本分类每一个类别的概率,其中公式如下:
Figure BDA0002952653600000045
(10)文本分类损失:使用交叉熵作为文本分类的任务的损失。
优选的,所述S4中实体链接模型的训练流程步骤如下:
(1)从实体链接和文本分类中随机选择一个任务,若选择文本分类任务则跳到步骤2,否则跳到步骤3;
(2)选择文本分类的数据中的一条数据集输入,计算文本分类损失,跳到步骤5;
(3)选择实体链接的数据中的一条文本,对文本中的每一个实体根据命名实体词典选择候选实体集合,并获取所有候选实体的预训练实体表征向量,在知识库中选择若干文本中出现过的实体和若干未出现过的实体构成文本候选实体集合;
(4)输入文档、每个目标实体的候选集合、文本实体的候选集合,计算实体链接损失和主题损失;
(5)更新网络参数;
(6)重复上述步骤直至训练结束。
优选的,所述S4中实体链接模型的预测流程步骤如下:
(1)选择一条含有若干目标实体的待分析文档;
(2)对文档中的每个目标实体,根据命名实体实体词典选择若干候选实体;
(3)对每个目标实体i,计算每个候选实体j和该实体的相关性Pij及候选实体j和文档主题的相关性qj,选取Pij+qj最大的候选实体j作为实体i的链接结果;
(4)重复上述步骤直至所有文档分析完毕。
该发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。
与现有技术相比,本发明的有益效果如下:
1:一种基于主题向量学习的实体链接模型通过对文档主题向量的多任务学习,将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性,用以解决文档中所有实体链接结果互相的相关性难以计算的难题,在训练过程中,使用文档分类数据集进一步加强对文档主题向量的学习,从而降低了实体链接算法的时间复杂度,并进一步提高了实体链接的准确度;进而提高实体链接的整体流程效率。
附图说明
图1为本发明一种基于主题向量学习的实体链接模型的实体链接方法的整体流程示意图
图2为本发明一种基于主题向量学习的实体链接模型的实体链接方法的流程示意图;
图3为本发明一种基于主题向量学习的实体链接模型的实体链接方法构造命名实体词典的流程示意图;
图4为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体表征向量预训练模型示意图;
图5为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体表征向量预训练流程示意图;
图6为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体链接模型示意图;
图7为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体链接训练流程示意图;
图8为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体链接预测流程示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚,但实施例仅是范例性的,并不对本发明的范围构成任何限制,本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
实施例1
一种基于主题向量学习的实体链接模型,包括知识库、百度文档、标注数据和Skip-gram模型;
步骤如下:
S1:获取包含待分析的目标实体的文档;
S2:根据实体命名词典对所有待分析目标实体生成候选实体集合,并获取所有候选实体的表征向量,命名实体词典是基于知识库、百科文档、标注数据等生成的,实体表征向量和模型是的训练获得的;
S3:将含有目标实体的待分析的句子和所有候选实体的表征向量输入模型,模型计算所有候选实体的得分及其与主题向量的相关性,预测链接的实体;
S4:获取训练数据,训练实体链接模型,模型计算所有候选实体与待分析实体的相关性,模型计算文档主题向量,根据主题向量计算所有候选实体与输入文档主题的相关性,实体链接模型基于多任务学习的双向长短期记忆网络,训练任务包括:以实体的上下文表征预测其和每个候选实体的相关性、基于文档中的是否出现相关实体的排序损失训练文档主题向量、使用文本分类数据集预测文档主题强化文档主题向量的训练,实体表征向量的预训练流程具体步骤如下:
(1)从知识库中选择一个目标实体作为输入实体输入模型;
(2)按一定概率随机选择一个正样本(在知识库中与目标实体相邻的实体)或一个负样本(在知识库中与目标实体不相邻的实体);
(3)在语料中随机选择一个目标实体别名中出现过的词W+和一个未出现过的词W-,在Word2Vec预训练词向量中查询其词向量XW+和W-
(4)计算结构损失和语义损失,并更新网络参数
(5)重复上述步骤直至训练结束;
所述实体表征向量的实体链接模型为基于多任务学习的双向长短期记忆网络步骤如下:
(1)输入层:输入包含若干带分析目标实体的文档,将文档中的每个词转化为词向量;
(2)双向长短期记忆网络层:将每个词的词向量经过双向长短期记忆网络,获得每个词的上下文表示H={H1,H2,…,Hn};
(3)实体表征层:该部分获得目标实体的表征。对于文档中的每个目标实体i,取实体对应所有词的上下文表征的平均值作为实体的上下文表征ti。以ti为查询向量对文档的上下文表示H做注意力机制,得到H的加权和作为上下文信息向量ci,连接ti和ci得到最终实体表征
Figure BDA0002952653600000081
(4)实体链接层:对文档中的每个目标实体i,对实体i在知识库中的每个目标实体j,根据文档中的实体表示ei和预训练实体表征Ej计算实体链接结果的得分:
Figure BDA0002952653600000082
(5)实体链接损失:对文档中的每个目标实体i和候选实体j,使用二分类交叉熵计算实体链接损失;
(6)主题向量层:对文档的上下文表示H做自注意力机制,得到H的加权和作为文档的主题向量s;
(7)主题损失:从目标知识库中选取若干文档中出现过的实体(正样本)和未出现过的实体(负样本)组成文本候选实体集合,类似实体链接层计算主题向量s和该实体集合中的每一个实体j的相关性如下公式:
Figure BDA0002952653600000083
所述主题损失L是基于排序的损失,训练目标使得主题和所有正样本的相关性大于和负样本的相关性如下公式:
Figure BDA0002952653600000091
其中E+和E-分别为正样本和负样本的实体集合,[·]+为ReLU函数,λ为边际参数;
(8)文本分类层:使用文本分类数据集进一步增强主题向量的学习,将主题模型s经过全连接层,得到文本分类每一个类别的概率,其中公式如下:
Figure BDA0002952653600000092
文本分类损失:使用交叉熵作为文本分类的任务的损失;
实体链接模型的训练流程步骤如下:
(1)从实体链接和文本分类中随机选择一个任务,若选择文本分类任务则跳到步骤2,否则跳到步骤3;
(2)选择文本分类的数据中的一条数据集输入,计算文本分类损失,跳到步骤5;
(3)选择实体链接的数据中的一条文本,对文本中的每一个实体根据命名实体词典选择候选实体集合,并获取所有候选实体的预训练实体表征向量,在知识库中选择若干文本中出现过的实体和若干未出现过的实体构成文本候选实体集合;
(4)输入文档、每个目标实体的候选集合、文本实体的候选集合,计算实体链接损失和主题损失;
(5)更新网络参数;
(6)重复上述步骤直至训练结束;
实体链接模型的预测流程步骤如下:
(1)选择一条含有若干目标实体的待分析文档;
(2)对文档中的每个目标实体,根据命名实体实体词典选择若干候选实体;
(3)对每个目标实体i,计算每个候选实体j和该实体的相关性Pij及候选实体j和文档主题的相关性qj,选取Pij+qj最大的候选实体j作为实体i的链接结果;
(4)重复上述步骤直至所有文档分析完毕;
S5:将含有待分析实体的文档和所有候选实体的预训练表征向量输入模型,模型根据上述两个相关性预测链接的实体,预训练实体向量的模型为基于Skip-gram模型的简单全连接神经网络,用当前实体向量预测知识库中相邻的实体,并增加正则约束,使得当前实体向量与其别名的预训练词向量接近,具体包括以下模块:
(1)输入层:输入知识库中的一个目标实体,通过查询表转化为实体向量E;
(2)分类层:实体向量E经过全连接层并经过Softmax操作,转化为知识库中每个实体的概率,预测每一个实体是否为输入实体在目标知识库中的相邻实体
Figure BDA0002952653600000101
(3)结构损失:根据输入实体在目标知识库中的相邻实体的真实标签计算交叉熵损失;
(4)语义损失:为使实体向量包含更多语义信息,在语料中随机选择一个输入实体别名中出现过的词W+和一个未出现过的词W-,语义损失L使得输入实体向量E尽可能接近词W+的预训练词向量XW+并远离词W-的预训练词向量XW-:
L=||E-xw+||2-||E-xw-||2
其中∣∣·∣∣2为L2范数。
综上:本发明一种基于主题向量学习的实体链接模型,通过对文档主题向量的多任务学习,将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性;用以解决文档中所有实体链接结果互相的相关性难以计算的难题,在训练过程中,使用文档分类数据集进一步加强对文档主题向量的学习,降低了实体链接算法的时间复杂度,并进一步提高了实体链接的准确度;进而提高实体链接的整体流程效率。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.一种基于主题向量学习的实体链接模型,其特征在于:包括知识库、百度文档、标注数据和Skip-gram模型。
2.根据权利要求1所述的一种基于主题向量学习的实体链接模型,其特征在于:所述步骤如下:
S1:获取包含待分析的目标实体的文档;
S2:根据实体命名词典对所有待分析目标实体生成候选实体集合,并获取所有候选实体的表征向量;
S3:将含有目标实体的待分析的句子和所有候选实体的表征向量输入模型,模型计算所有候选实体的得分及其与主题向量的相关性,预测链接的实体;
S4:获取训练数据,训练实体链接模型,模型计算所有候选实体与待分析实体的相关性,模型计算文档主题向量,根据主题向量计算所有候选实体与输入文档主题的相关性;
S5:将含有待分析实体的文档和所有候选实体的预训练表征向量输入模型,模型根据上述两个相关性预测链接的实体。
3.根据权利要求2所述的一种基于主题向量学习的实体链接模型,其特征在于:所述命名实体词典是基于知识库、百科文档、标注数据等生成的,实体表征向量和模型是的训练获得的。
4.根据权利要求1所述的一种基于主题向量学习的实体链接模型,其特征在于:所述预训练实体向量的模型为基于Skip-gram模型的简单全连接神经网络,用当前实体向量预测知识库中相邻的实体,并增加正则约束,使得当前实体向量与其别名的预训练词向量接近;
具体包括以下模块:
(1)输入层:输入知识库中的一个目标实体,通过查询表转化为实体向量E;
(2)分类层:实体向量E经过全连接层并经过Softmax操作,转化为知识库中每个实体的概率,预测每一个实体是否为输入实体在目标知识库中的相邻实体
Figure FDA0002952653590000021
(3)结构损失:根据输入实体在目标知识库中的相邻实体的真实标签计算交叉熵损失;
(4)语义损失:为使实体向量包含更多语义信息,在语料中随机选择一个输入实体别名中出现过的词W+和一个未出现过的词W-,语义损失L使得输入实体向量E尽可能接近词W+的预训练词向量XW+并远离词W-的预训练词向量XW-:
L=||E-xw+||2-||E-xw-||2
其中∣∣·∣∣2为L2范数。
5.根据权利要求1所述的一种基于主题向量学习的实体链接模型,其特征在于:所述实体链接模型基于多任务学习的双向长短期记忆网络,训练任务包括:以实体的上下文表征预测其和每个候选实体的相关性、基于文档中的是否出现相关实体的排序损失训练文档主题向量、使用文本分类数据集预测文档主题强化文档主题向量的训练。
6.根据权利要求4所述的一种基于主题向量学习的实体链接模型,其特征在于:所述S4中实体表征向量的预训练流程具体步骤如下:
(1)从知识库中选择一个目标实体作为输入实体输入模型;
(2)按一定概率随机选择一个正样本(在知识库中与目标实体相邻的实体)或一个负样本(在知识库中与目标实体不相邻的实体);
(3)在语料中随机选择一个目标实体别名中出现过的词W+和一个未出现过的词W-,在Word2Vec预训练词向量中查询其词向量XW+和W-
(4)计算结构损失和语义损失,并更新网络参数
(5)重复上述步骤直至训练结束。
7.根据权利要求1所述的一种基于主题向量学习的实体链接模型,其特征在于:所述S4中实体表征向量的实体链接模型为基于多任务学习的双向长短期记忆网络步骤如下:
(1)输入层:输入包含若干带分析目标实体的文档,将文档中的每个词转化为词向量;
(2)双向长短期记忆网络层:将每个词的词向量经过双向长短期记忆网络,获得每个词的上下文表示H={H1,H2,…,Hn};
(3)实体表征层:该部分获得目标实体的表征。对于文档中的每个目标实体i,取实体对应所有词的上下文表征的平均值作为实体的上下文表征ti。以ti为查询向量对文档的上下文表示H做注意力机制,得到H的加权和作为上下文信息向量ci,连接ti和ci得到最终实体表征
Figure FDA0002952653590000033
(4)实体链接层:对文档中的每个目标实体i,对实体i在知识库中的每个目标实体j,根据文档中的实体表示ei和预训练实体表征Ej计算实体链接结果的得分:
Figure FDA0002952653590000031
(5)实体链接损失:对文档中的每个目标实体i和候选实体j,使用二分类交叉熵计算实体链接损失;
(6)主题向量层:对文档的上下文表示H做自注意力机制,得到H的加权和作为文档的主题向量s;
(7)主题损失:从目标知识库中选取若干文档中出现过的实体(正样本)和未出现过的实体(负样本)组成文本候选实体集合,类似实体链接层计算主题向量s和该实体集合中的每一个实体j的相关性如下公式:
Figure FDA0002952653590000032
所述主题损失L是基于排序的损失,训练目标使得主题和所有正样本的相关性大于和负样本的相关性如下公式:
Figure FDA0002952653590000041
其中E+和E-分别为正样本和负样本的实体集合,[·]+为ReLU函数,λ为边际参数;
(8)文本分类层:使用文本分类数据集进一步增强主题向量的学习,将主题模型s经过全连接层,得到文本分类每一个类别的概率,其中公式如下:
Figure FDA0002952653590000042
(9)文本分类损失:使用交叉熵作为文本分类的任务的损失。
8.根据权利要求1所述的一种基于主题向量学习的实体链接模型,其特征在于:所述S4中实体链接模型的训练流程步骤如下:
(1)从实体链接和文本分类中随机选择一个任务,若选择文本分类任务则跳到步骤2,否则跳到步骤3;
(2)选择文本分类的数据中的一条数据集输入,计算文本分类损失,跳到步骤5;
(3)选择实体链接的数据中的一条文本,对文本中的每一个实体根据命名实体词典选择候选实体集合,并获取所有候选实体的预训练实体表征向量,在知识库中选择若干文本中出现过的实体和若干未出现过的实体构成文本候选实体集合;
(4)输入文档、每个目标实体的候选集合、文本实体的候选集合,计算实体链接损失和主题损失;
(5)更新网络参数;
(6)重复上述步骤直至训练结束。
9.根据权利要求1所述的一种基于主题向量学习的实体链接模型,其特征在于:所述S4中实体链接模型的预测流程步骤如下:
(1)选择一条含有若干目标实体的待分析文档;
(2)对文档中的每个目标实体,根据命名实体实体词典选择若干候选实体;
(3)对每个目标实体i,计算每个候选实体j和该实体的相关性Pij及候选实体j和文档主题的相关性qj,选取Pij+qj最大的候选实体j作为实体i的链接结果;
(4)重复上述步骤直至所有文档分析完毕。
CN202110214535.9A 2021-02-25 2021-02-25 一种基于主题向量学习的实体链接预测方法 Active CN112989803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110214535.9A CN112989803B (zh) 2021-02-25 2021-02-25 一种基于主题向量学习的实体链接预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110214535.9A CN112989803B (zh) 2021-02-25 2021-02-25 一种基于主题向量学习的实体链接预测方法

Publications (2)

Publication Number Publication Date
CN112989803A true CN112989803A (zh) 2021-06-18
CN112989803B CN112989803B (zh) 2023-04-18

Family

ID=76350909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110214535.9A Active CN112989803B (zh) 2021-02-25 2021-02-25 一种基于主题向量学习的实体链接预测方法

Country Status (1)

Country Link
CN (1) CN112989803B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647739A (zh) * 2022-02-25 2022-06-21 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN115563311A (zh) * 2022-10-21 2023-01-03 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
US20180137404A1 (en) * 2016-11-15 2018-05-17 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN108228570A (zh) * 2018-01-31 2018-06-29 延安大学 一种基于实体突发特征的文本表示方法
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109918657A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中提取目标关键词的方法
CN109992670A (zh) * 2019-04-04 2019-07-09 西安交通大学 一种基于知识图谱邻域结构的图谱完备化方法
CN110110324A (zh) * 2019-04-15 2019-08-09 大连理工大学 一种基于知识表示的生物医学实体链接方法
CN110134783A (zh) * 2018-02-09 2019-08-16 阿里巴巴集团控股有限公司 个性化推荐的方法、装置、设备和介质
WO2020005766A1 (en) * 2018-06-28 2020-01-02 Microsoft Technology Licensing, Llc Context-aware option selection in virtual agent
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112214335A (zh) * 2020-10-13 2021-01-12 重庆工业大数据创新中心有限公司 基于知识图谱和相似度网络的Web服务发现方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
US20180137404A1 (en) * 2016-11-15 2018-05-17 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN108228570A (zh) * 2018-01-31 2018-06-29 延安大学 一种基于实体突发特征的文本表示方法
CN110134783A (zh) * 2018-02-09 2019-08-16 阿里巴巴集团控股有限公司 个性化推荐的方法、装置、设备和介质
WO2020005766A1 (en) * 2018-06-28 2020-01-02 Microsoft Technology Licensing, Llc Context-aware option selection in virtual agent
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109918657A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中提取目标关键词的方法
CN109992670A (zh) * 2019-04-04 2019-07-09 西安交通大学 一种基于知识图谱邻域结构的图谱完备化方法
CN110110324A (zh) * 2019-04-15 2019-08-09 大连理工大学 一种基于知识表示的生物医学实体链接方法
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112214335A (zh) * 2020-10-13 2021-01-12 重庆工业大数据创新中心有限公司 基于知识图谱和相似度网络的Web服务发现方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SHENGZE HU等: "Entity Linking via Symmetrical Attention-Based Neural Network and Entity Structure Features", 《SYMMETRY》 *
刘峤: "基于语义一致性的集成实体链接算法", 《计算机研究与发展》 *
张震宇: "基于深度学习的实体链接方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
杨燕等: "基于注意力机制的问句实体链接", 《模式识别与人工智能》 *
詹飞;朱艳辉;梁文桐;冀相冰;: "基于BERT和TextRank关键词提取的实体链接方法" *
齐爱芹等: "基于词向量的实体链接方法", 《数据采集与处理》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647739A (zh) * 2022-02-25 2022-06-21 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN115563311A (zh) * 2022-10-21 2023-01-03 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Also Published As

Publication number Publication date
CN112989803B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN110287323B (zh) 一种面向目标的情感分类方法
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN114238577B (zh) 融合多头注意力机制的多任务学习情感分类方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN111859967A (zh) 实体识别方法、装置,电子设备
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN114238636A (zh) 一种基于翻译匹配的跨语言属性级情感分类方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及系统
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant