CN115329755A - 实体链接模型处理方法、装置和实体链接处理方法、装置 - Google Patents

实体链接模型处理方法、装置和实体链接处理方法、装置 Download PDF

Info

Publication number
CN115329755A
CN115329755A CN202210990832.7A CN202210990832A CN115329755A CN 115329755 A CN115329755 A CN 115329755A CN 202210990832 A CN202210990832 A CN 202210990832A CN 115329755 A CN115329755 A CN 115329755A
Authority
CN
China
Prior art keywords
entity
training
text
description information
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210990832.7A
Other languages
English (en)
Other versions
CN115329755B (zh
Inventor
蒲仁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210990832.7A priority Critical patent/CN115329755B/zh
Publication of CN115329755A publication Critical patent/CN115329755A/zh
Application granted granted Critical
Publication of CN115329755B publication Critical patent/CN115329755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于人工智能的实体链接模型处理方法,包括:获取包括训练实体的训练文本,从实体知识库确定与训练实体在实体名称上匹配的各候选实体;对各候选实体中与训练实体在实体语义上匹配的候选实体的描述信息,标记链接标签为正例标签并作为训练实体的训练描述信息、在实体语义上不匹配的候选实体的描述信息,标记链接标签为负例标签并作为训练描述信息;对训练文本进行训练实体的掩码处理,基于掩码处理的文本进行实体预测,获得包括预测实体的预测文本;根据预测文本和各训练描述信息确定预测实体链接向各训练描述信息的预测值;基于预测值相对于相应链接标签的预测差异进行模型训练,获得实体链接模型。采用本方法能够提高实体链接的准确性。

Description

实体链接模型处理方法、装置和实体链接处理方法、装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种实体链接模型处理方法、装置、计算机设备、存储介质和计算机程序产品,以及一种实体链接处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了实体链接技术。实体链接(Entity Linking,EL)是指将任意文本中已识别的实体对象,无歧义的正确的指向知识库中目标实体的相关信息的过程。例如,将任意文本中的人名链接到对人名的描述信息,以对该人名的相关信息进行详细介绍等。
然而,由于语言表达存在多样性,导致实体对象可能存在一词多义,或者多词同义的情况,使得容易将实体对象链接到错误的描述信息,存在实体链接不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的实体链接模型处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,以及一种实体链接处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种实体链接模型处理方法,所述方法包括:
获取包括训练实体的训练文本,从实体知识库中确定与所述训练实体在实体名称上匹配的多个候选实体;
对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与所述训练实体对应的训练描述信息;
对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与所述训练实体对应的训练描述信息;
对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本;
根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值;
基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
本申请还提供了一种实体链接模型处理装置,所述装置包括:
文本获取模块,用于获取包括训练实体的训练文本;
信息获取模块,用于从实体知识库中确定与所述训练实体在实体名称上匹配的多个候选实体;对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与所述训练实体对应的训练描述信息;对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与所述训练实体对应的训练描述信息;
实体预测模块,用于对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本;
链接预测模块,用于根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值;
训练模块,用于基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
在一个实施例中,所述实体预测模块,还用于对所述训练文本进行所述训练实体的掩码处理,获得包括实体掩码标记的掩码文本;
基于所述掩码文本对所述实体掩码标记进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本。
在一个实施例中,所述实体预测模块,还用于提取所述实体掩码标记在所述掩码文本中对应的上下文特征;根据所述上下文特征对所述实体掩码标记进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本。
在一个实施例中,所述实体预测模块,还用于确定所述训练实体中的头实体和尾实体,以及所述头实体和所述尾实体在所述训练文本中的关联关系;对所述头实体或所述尾实体进行掩码处理,获得包括实体掩码标记的掩码文本;基于所述头实体和所述尾实体中未被掩码的实体,以及所述关联关系进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本。
在一个实施例中,所述实体预测模块,还用于对所述训练文本进行所述训练实体的掩码处理,并对所述训练文本中除所述训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本;基于所述掩码文本对所述实体掩码标记进行实体预测和对所述随机掩码标记进行随机预测,获得所述实体掩码标记对应的预测实体和所述随机掩码标记对应的预测字,以及包括所述预测实体和所述预测字的预测文本。
在一个实施例中,所述训练模块,还用于按照针对所述实体链接模型的目标损失函数,确定所述预测实体和所述训练实体之间的实体掩码损失、所述预测字和所述训练字之间的随机掩码损失,以及所述预测值相对于相应的所述训练描述信息的链接标签的预测差异;基于所述目标损失函数、所述实体掩码损失、所述随机掩码损失和所述预测差异进行模型训练,获得实体链接模型。
在一个实施例中,所述链接预测模块,还用于对所述预测文本和每个标记有所述链接标签的所述训练描述信息分别进行拼接,得到对应的训练拼接信息;对每个所述训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个所述训练拼接信息中的预测文本和训练描述信息各自对应的训练特征;根据每个所述训练拼接信息中预测文本的训练特征和训练描述信息的训练特征,确定所述预测实体链接向相应训练拼接信息中的训练描述信息的预测值。
在一个实施例中,所述链接预测模块,还用于将每个所述训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个所述训练拼接信息中所述预测文本对应的元素和所述训练描述信息对应的元素;对于每个所述训练拼接信息,基于相应训练拼接信息中预测文本对应的元素进行特征编码,得到每个所述训练拼接信息中预测文本对应的训练特征;对于每个所述训练拼接信息,基于相应训练拼接信息中训练描述信息对应的元素进行特征编码,得到每个所述训练拼接信息中训练描述信息对应的训练特征;其中,所述训练特征包括表征所述元素的属性的词嵌入特征、表征所述元素所属类别的语句嵌入特征和表征所述元素的位置的位置嵌入特征。
在一个实施例中,所述训练模块,还用于基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型;所述实体识别层用于识别所述训练文本中的训练实体,所述实体链接层用于确定预测值;获取目标训练文本和所述目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息;通过所述目标训练文本和多个所述训练描述信息,对所述实体链接初始模型中的所述实体链接层进行训练,获得实体链接模型。
本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取包括训练实体的训练文本,从实体知识库中确定与所述训练实体在实体名称上匹配的多个候选实体;对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与所述训练实体对应的训练描述信息;对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与所述训练实体对应的训练描述信息;对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本;根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值;基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取包括训练实体的训练文本,从实体知识库中确定与所述训练实体在实体名称上匹配的多个候选实体;对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与所述训练实体对应的训练描述信息;对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与所述训练实体对应的训练描述信息;对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本;根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值;基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
本申请还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取包括训练实体的训练文本,从实体知识库中确定与所述训练实体在实体名称上匹配的多个候选实体;对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与所述训练实体对应的训练描述信息;对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与所述训练实体对应的训练描述信息;对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本;根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值;基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
上述实体链接模型处理方法、装置、计算机设备、存储介质和计算机程序产品,获取包括训练实体的训练文本,从实体知识库中,确定与训练实体在实体名称上匹配的多个候选实体,以选择与训练实体在实体名称匹配的候选实体的描述信息,作为实体链接的正样本和负样本,能够在训练中加入实体链接领域信息,有助于模型提升在实体链接任务上的效果。对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息,从而将实体名称相同且实体语义相同的候选实体所对应的描述信息作为训练实体的正样本。对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息,使得训练实体所使用的负样本是与候选实体名称相同而语义不同的描述信息,而并非与训练实体完全无关的描述信息。对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,使得模型在训练中能够学习实体的语义信息、捕获实体的有效信息,从而能够准确识别出文本中的实体。实体名称匹配实体语义不匹配的候选实体与训练实体具有较高的相似度,并且训练实体所在的训练文本和实体语义不匹配的描述信息在整体语义上也具有较高的相似性,有效增加了模型判断训练文本和描述信息是否能够匹配的难度,而根据预测文本和每个标记有链接标签的训练描述信息,分别确定预测实体链接向每个训练描述信息的相应预测值,使得模型在训练过程中能够更多地学习文本整体的语义信息和描述信息整体的语义信息,更好地捕捉文本和描述信息之间的关联关系。根据文本和描述信息的整体语义关系计算出预测文本中预测实体指向正例标签的训练描述信息的预测值和指向负例标签的训练描述信息的预测值,能够通过预测值表征预测实体链接向各个训练描述信息的可能性。基于预测值相对于相应正例标签和负例标签之间的预测差异进行模型训练,能够根据模型的预测链接结果和真实的链接结果之间的差异对模型进行训练以降低模型的预测误差,从而获得实体链接模型。
训练得到的实体链接模型可以从待链接文本中准确识别出待链接实体,并能够确定待链接实体链接向实体知识库的多个候选描述信息的候选值,从而准确地筛选出满足链接条件的候选描述信息作为待链接实体的实体链接结果,提高了实体链接的处理效率和准确性。
本申请还提供了一种实体链接处理方法,所述方法包括:
通过上述各个实施例中的实体链接模型处理方法训练获得的所述实体链接模型,对待链接文本进行实体识别处理,得到待链接实体;
通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息;
通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到所述待链接文本和每个所述候选描述信息各自对应的特征信息;
通过所述实体链接模型根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值;
通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果。
本申请还提供了一种实体链接处理装置,所述装置包括:
实体识别模块,用于通过实体链接模型处理装置训练获得的所述实体链接模型,对待链接文本进行实体识别处理,得到待链接实体;
信息确定模块,用于通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息;
编码模块,用于通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到所述待链接文本和每个所述候选描述信息各自对应的特征信息;
链接确定模块,用于通过所述实体链接模型根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值;
链接筛选模块,用于通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果。
在一个实施例中,所述信息确定模块,还用于通过所述实体链接模型基于所述待链接文本进行场景识别,得到所述待链接文本对应的应用场景;通过所述实体链接模型,从与所述应用场景相匹配的实体知识库中,获取所述待链接实体对应的多个候选描述信息;
所述链接筛选模块,还用于通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体在所述应用场景下对应的实体链接结果。
本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
通过实体链接模型处理方法训练获得的所述实体链接模型,对待链接文本进行实体识别处理,得到待链接实体;通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息;通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到所述待链接文本和每个所述候选描述信息各自对应的特征信息;通过所述实体链接模型根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值;通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
通过实体链接模型处理方法训练获得的所述实体链接模型,对待链接文本进行实体识别处理,得到待链接实体;通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息;通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到所述待链接文本和每个所述候选描述信息各自对应的特征信息;通过所述实体链接模型根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值;通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果。
本申请还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
通过实体链接模型处理方法训练获得的所述实体链接模型,对待链接文本进行实体识别处理,得到待链接实体;通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息;通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到所述待链接文本和每个所述候选描述信息各自对应的特征信息;通过所述实体链接模型根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值;通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果。
上述实体链接处理方法、装置、计算机设备、存储介质和计算机程序产品,通过实体链接模型处理方法训练获得的所述实体链接模型,对待链接文本进行实体识别处理,以准确识别出需要进行实体链接的待链接实体。通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息,能够确定出实体知识库中存在的可能作为待链接实体的实体链接结果的各个候选描述信息,以进一步对待链接实体进行实体消歧。通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到各自对应的特征信息,根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值,从而能够计算出每个候选描述信息作为待链接实体的实体链接结果的可能性。通过所述实体链接模型基于各所述候选值结合链接条件,从多个所述候选描述信息中准确筛选出待链接实体对应的实体链接结果,实现了实体消歧,使得实体链接更准确。并且,通过实体链接模型进行实体识别和实体消歧,提高了实体链接的处理效率。
附图说明
图1为一个实施例中实体链接模型处理方法的应用环境图;
图2为一个实施例中实体链接模型处理方法的流程示意图;
图3为一个实施例中实体链接模型进行句子语义预测的示意图;
图4为另一个实施例中实体链接模型进行句子语义预测的示意图;
图5为一个实施例中实体链接模型的架构图;
图6为一个实施例中多任务掩码的处理流程示例图;
图7为其中一个实施例中实体链接模型的架构图;
图8为其中一个实施例中实体链接模型的架构图;
图9为一个实施例中实体链接处理方法的流程示意图;
图10为一个实施例中实体链接处理装置的结构框图;
图11为一个实施例中实体链接模型处理装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明。
本申请实施例提供的实体链接模型处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。终端102和服务器104均可单独执行本申请实施例中提供的实体链接模型处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的实体链接模型处理方法。当终端102和服务器104协同用于执行本申请实施例中提供的实体链接模型处理方法时,终端102获取训练文本,训练文本包括训练实体,终端102将训练文本发送至服务器104。服务器104从实体知识库中确定与训练实体在实体名称上匹配的多个候选实体,对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息,对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息。服务器104对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,根据预测文本和每个标记有链接标签的训练描述信息,分别确定预测实体链接向每个训练描述信息的相应预测值,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。实体链接模型可部署于终端102或服务器104上。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、智能语音交互设备、智能家电、车载终端、飞行器、便携式可穿戴设备等。该终端102上可运行应用程序或安装应用程序的客户端,该应用程序可以是通信应用、邮件应用、视频应用、音乐应用和图像处理应用等,但不限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,实体链接处理方法也可以应用于如图1所示的应用环境中。终端102和服务器104均可单独执行本申请实施例中提供的实体链接处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的实体链接处理方法。
需要说明的是,本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量。
在一个实施例中,如图2所示,提供了一种实体链接模型处理方法,以该方法应用于计算机设备(计算机设备可以是图1中的终端或服务器)为例进行说明,包括以下步骤:
步骤S202,获取包括训练实体的训练文本,从实体知识库中确定与训练实体在实体名称上匹配的多个候选实体。
其中,实体(entity)是指具有可描述意义,或具有特定含义的词汇或短语。实体通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容,比如医学领域内疾病、药物、生物体名称,或者法律学涉及到的专有词汇等,但不限于此。
实体是知识库中存储的具有唯一标识的对象,实体在文本中可称为指称。指称(mention)即指代名称,是文本中需要进行消歧的表述,经过实体链接后指向知识库中的实体。知识库(knowledge base)是一种语义网络,旨在描述客观世界的概念实体及其之间的关系。知识库中的每个实体都包含一个kb_id,一个字符串名称,上位type信息及与此实体相关的一系列三元组<subject,predicate,object>信息形式。知识库中每行代表知识库的一条记录,每条记录的格式为一个json格式。
训练文本指的是用于进行模型训练,以实现实体链接的自然语言文本,例如可以为新闻语句文本、法律语句文本等。训练文本一般由词汇、短语和标点符号等元素组成。训练文本包括训练实体,训练实体为构成训练文本的各元素中具有特定含义的元素,通常为词汇或短语。
具体地,训练文本可以为历史已经确定、标注训练实体的自然语言文本。计算机设备可从相同领域中获取多个训练文本,例如在医疗领域获取多个训练文本,在文学领域获取多个训练样本等,但不限于此。
计算机设备可将训练实体在实体知识库中进行匹配,确定与训练实体在实体名称上匹配的多个候选实体。获取每个候选实体对应的描述信息,并通过描述信息确定每个候选实体对应的实体语义。
多个候选实体与训练实体在实体名称上匹配。候选实体与训练实体在实体名称上匹配,指的是候选实体的实体名称中至少包括训练实体的实体名称。例如,训练实体的实体名称为“王明”,匹配的候选实体的实体名称可以是“王明”、“王明明”等,但不限于此。
步骤S204,对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息。
其中,链接标签是指训练实体链接向训练描述信息的链接结果。训练描述信息是指从实体知识库中选择的与训练实体相关的描述内容。训练描述信息具体是与训练实体的实体名称相匹配的候选实体所对应的描述内容,可以是与训练实体在实体名称上和实体语义上均匹配的候选实体所对应的描述内容,还可以是与训练实体在实体名称上相匹配、且在实体语义上不匹配的候选实体所对应的描述内容。
实体知识库中包括多个实体和对每个实体的描述信息。实体知识库中的每个实体可对应唯一标识,相同实体名称的多个实体分别对应唯一标识。实体知识库中可存在相同实体名称的多个实体,分别对应实体语义不同的描述信息。
实体知识库可以是知识图谱,是结构化的语义知识库,以符号形式描述物理世界中的概念、实体及其相互关系。在数据层面,实体知识库以具有类型和属性的实体为节点、以实体与实体之间的关系为边,构成异构图结构。
具体地,对于多个候选实体,计算机设备可判断每个候选实体是否与训练实体在实体语义上匹配,以对每个候选实体的描述信息标记相应的链接标签。在实体语义上匹配的描述信息标记正例标签,在实体语义上不匹配的描述信息标记正例标签。
对于多个候选实体,选择与训练实体在实体语义上匹配的候选实体,标记该候选实体所对应的描述信息的链接标签为正例标签,并将该描述信息作为训练实体的训练描述信息。
步骤S206,对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息。
其中,当训练描述信息的链接标签为正例标签时,表示训练实体链接向该训练描述信息是正确的链接结果。当训练描述信息的链接标签为负例标签时,表示训练实体链接向该训练描述信息是错误的链接结果。从实体知识库中获取与训练实体对应的多个标记有链接标签的训练描述信息;链接标签是正例标签或负例标签中一种;多个训练描述信息中存在标记有正例标签的训练描述信息和标记有负例标签的训练描述信息。
具体实现中,可从实体知识库中获取每个训练实体各自对应的多个描述信息,并对每个描述信息标记正例标签或负例标签以形成训练描述信息,使得单个训练实体对应的多个训练描述信息中包括标记为正例标签的训练描述信息和标记为负例标签的训练描述信息。
例如,“小明是NBA运动员”的指称包含“小明”,而小明的候选实体列表有多个候选实体,候选实体ID为10001的描述信息可能为“小明是篮球员……”,候选实体ID为10002的描述信息可能为“小明是XX省城公务员……”。则对于“小明是NBA运动员”“小明是篮球员……”标记链接标签为1,即作为正例标签,“小明是NBA运动员”“小明是XX省城公务员……”标记链接标签为0,即作为负例标签。
具体地,对于多个候选实体,计算机设备选择与训练实体在实体语义上不匹配的候选实体,标记该候选实体所对应的描述信息的链接标签为负例标签,并将该描述信息作为训练实体的训练描述信息。
本实施例中,可从实体知识库中,确定与训练实体的实体名称相同的多个候选实体,将实体语义与训练实体相同的候选实体的描述信息标记为正例标签,将实体语义与训练实体不同的候选实体的描述信息标记为负例标签,从而将各描述信息作为与训练实体对应的训练描述信息。
本实施例中,与训练实体在实体语义上匹配,指的是候选实体的描述信息所表达的语义信息与训练实体所对应的语义信息相同。与训练实体在实体语义上不匹配,指的是候选实体的描述信息所表达的语义信息与训练实体所对应的语义信息不相同。
在一个实施例中,不同领域可对应不同的实体知识库,不同领域的实体知识库可应用在不同的场景。
步骤S208,对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本。
其中,掩码处理是指对训练文本中的元素进行屏蔽,以通过掩码标记来掩盖训练文本中的某些元素。掩码标记可以是预设标识,具体可以符号或数字等,但不限于此。
进行训练实体的掩码处理,指的是对训练文本中的至少一个训练实体进行屏蔽,例如,训练文本为“黄山在安徽省黄山市,是十大名山之一”,训练实体为“黄山”,则进行掩码处理后形成“**在安徽省黄山市,是十大名山之一”。
具体地,计算机设备可对训练文本进行训练实体的掩码处理,得到至少一个训练实体被掩码后的文本。计算机设备可基于掩码处理所得到的文本进行实体预测,得到被掩码的实体所对应的预测实体,以得到包括预测实体的预测文本。
本实施例中,在获得预测实体后,可通过预测实体替换训练文本中的相应训练实体,得到预测文本。
本实施例中,经过掩码处理所得到的文本可称为掩码文本。在获得预测实体后,可通过预测实体替换掩码文本中的被掩码的实体,得到预测文本。
在一个实施例中,对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,包括:
对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,得到掩码文本;基于掩码文本进行实体预测和随机预测,获得包括预测实体和预测字的预测文本。
在一个实施例中,对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,包括:
对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练词组进行随机掩码处理,得到掩码文本;基于掩码文本进行实体预测和词组预测,获得包括预测实体和预测词组的预测文本。
步骤S210,根据预测文本和每个标记有链接标签的训练描述信息,分别确定预测实体链接向每个训练描述信息的相应预测值。
其中,预测值是通过值表征预测实体的预测链接结果,指的是预测实体链接向训练描述信息的可能性。预测值可通过预测概率或者相似度、匹配度表征。
具体地,计算机设备可对预测文本进行特征编码,得到对应的训练特征。对每个标记有链接标签的训练描述信息分别进行特征编码,得到每个训练描述信息分别对应的训练特征。计算机设备根据预测文本的训练特征和每个训练描述信息的训练特征,分别确定预测实体链接向每个训练描述信息的相应预测值。
本实施例中,计算机设备根据预测文本的训练特征和每个训练描述信息的训练特征,分别计算出预测文本和每个训练描述信息之间的相似度或匹配度。将预测文本和训练描述信息之间的相似度或匹配度,作为预测实体链接向该训练描述信息的预测值。
步骤S212,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
具体地,计算机设备可分别确定预测实体链接向每个训练描述信息的预测值与相应训练描述信息的链接标签之间的预测差异,得到多个预测差异。进一步地,对于标记为正例标签的训练描述信息,计算机设备计算预测实体链接向该训练描述信息的预测值与正例标签之间的预测差异;对于标记为负例标签的训练描述信息,计算机设备计算预测实体链接向该训练描述信息的预测值与负例标签之间的预测差异。计算机设备基于多个预测差异进行模型训练,直至满足训练停止条件时,得到实体链接模型。
其中,满足训练停止条件可以是达到预设训练次数、预设迭代次数、目标损失值小于或等于损失阈值等。目标损失值可以是基于预测差异所计算得到的总损失,或者基于目标损失函数所计算出的总损失。例如,基于多个预测差异所计算出的目标损失值大于损失阈值时,调整模型的参数并继续训练,直至训练过程中的目标损失值小于或等于损失阈值时停止训练,得到训练完成的实体链接模型。
在一个实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
按照针对实体链接模型的目标损失函数,确定预测实体和训练实体之间的实体掩码损失,以及预测值相对于相应的训练描述信息的链接标签的预测差异;基于目标损失函数、实体掩码损失和预测差异进行模型训练,获得实体链接模型。
具体地,可基于目标损失函数、实体掩码损失和预测差异,计算对应的目标损失值,以基于目标损失值调整模型的参数并继续训练,直至满足训练停止条件时,得到实体链接模型。
在一个实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
按照针对实体链接模型的目标损失函数,确定预测实体和训练实体之间的实体掩码损失,预测词组和训练词组之间的随机掩码损失、以及预测值相对于相应的训练描述信息的链接标签的预测差异;基于目标损失函数、实体掩码损失、随机掩码损失和预测差异进行模型训练,获得实体链接模型。
在一个实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型;实体识别层用于识别训练文本中的训练实体,实体链接层用于确定预测值;对实体链接初始模型中的实体链接层进行训练,获得实体链接模型。
上述实体链接模型处理方法中,获取包括训练实体的训练文本,从实体知识库中,确定与训练实体在实体名称上匹配的多个候选实体,以选择与训练实体在实体名称匹配的候选实体的描述信息,作为实体链接的正样本和负样本,能够在训练中加入实体链接领域信息,有助于模型提升在实体链接任务上的效果。对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息,从而将实体名称相同且实体语义相同的候选实体所对应的描述信息作为训练实体的正样本。对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息,使得训练实体所使用的负样本是与候选实体名称相同而语义不同的描述信息,而并非与训练实体完全无关的描述信息。对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,使得模型在训练中能够学习实体的语义信息、捕获实体的有效信息,从而能够准确识别出文本中的实体。实体名称匹配实体语义不匹配的候选实体与训练实体具有较高的相似度,并且训练实体所在的训练文本和实体语义不匹配的描述信息在整体语义上也具有较高的相似性,有效增加了模型判断训练文本和描述信息是否能够匹配的难度,而根据预测文本和每个标记有链接标签的训练描述信息,分别确定预测实体链接向每个训练描述信息的相应预测值,使得模型在训练过程中能够更多地学习文本整体的语义信息和描述信息整体的语义信息,更好地捕捉文本和描述信息之间的关联关系。根据文本和描述信息的整体语义关系计算出预测文本中预测实体指向正例标签的训练描述信息的预测值和指向负例标签的训练描述信息的预测值,能够通过预测值表征预测实体链接向各个训练描述信息的可能性。基于预测值相对于相应正例标签和负例标签之间的预测差异进行模型训练,能够根据模型的预测链接结果和真实的链接结果之间的差异对模型进行训练以降低模型的预测误差,从而获得实体链接模型。
训练得到的实体链接模型可以从待链接文本中准确识别出待链接实体,并能够确定待链接实体链接向实体知识库的多个候选描述信息的候选值,从而准确地筛选出满足链接条件的候选描述信息作为待链接实体的实体链接结果,提高了实体链接的处理效率和准确性。
本实施例中的实体链接模型可用于所有在实体链接任务中对实体进行消歧的场景。例如,对于景区场景来说,用户在搜索栏搜索景区名称存在多个同名景区的场景、用户在问答系统中输入中存在歧义的景区相关信息的场景、用户使用语音助手询问景区相关信息的场景。对于存在歧义的景区需要先进行实体消歧确定应该链接到的景区,然后根据用户的提问查找相应描述信息。
在一个实施例中,实体链接模型具体形式可以是EL-BERT模型,EL-BERT模型为BERT(Bidirectional Encoder Representation from Transformers)模型的一种变型。BERT是一个双向编码模型,通过联合调节所有层的左右上下文,从未标记的文本中预训练深度双向表示。
EL-BERT模型通过改进BERT模型预训练任务,同时将实体知识库信息巧妙地融合到预训练任务中,使之更加匹配实体链接任务场景,提升实体链接的准确率。
如图3和图4所示,为实体链接模型EL-BERT进行句子语义预测的示例图。对于训练文本“王小明是水果公司创始人”中的训练实体“王小明”,从实体知识库中确定各个候选实体“王小明”形成候选实体列表,并确定候选实体列表中每个“王小明”分别对应的描述信息。在候选实体列表中,选择与训练实体“王小明”的实体语义相同的候选实体对应的描述信息作为正例的训练描述信息。CLS为起始符,SEP作为两个片段的中间隔离符。
如图3,将正例的训练描述信息“王小明出生在海南”拼接到训练文本“王小明是水果公司创始人”之后,作为训练实体“王小明”的实体链接结果,并通过链接标签标记该实体链接结果是否正确,正确链接结果则将链接标签设置为正例标签1,错误链接结果则设置为负例标签0。如图3中,将正确链接结果设置为1。
如图4,在候选实体列表中,选择与训练实体“王小明”的实体语义不同的候选实体对应的描述信息作为负例的训练描述信息,如“《奇迹-王小明》是AA根据传记改编,由B指导的动作片”,将该负例的训练描述信息拼接到“王小明出生在海南”之后,并设置该错误链接结果为0。
将拼接的两个片段和对应的链接标签作为EL-BERT模型的输入,经过模型预测输出前后两个片段是否有语义关联,并输出存在语义关联的预测值,从而基于预测值和链接标签的差异进行模型训练,得到训练完成的EL-BERT模型。
在一个实施例中,对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,包括:
对训练文本进行训练实体的掩码处理,获得包括实体掩码标记的掩码文本;
基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本。
具体地,计算机设备对训练文本中的训练实体进行掩码处理,以通过实体掩码标记替代训练文本中的至少一个训练实体,得到包括实体掩码标记的掩码文本。
计算机设备可对掩码文本进行分词处理,得到掩码文本对应的各元素。掩码文本对应的各元素中包括实体掩码标记。对各元素分别进行特征编码,得到每个元素分别对应的编码特征。基于各元素的编码特征对该实体掩码标记进行实体预测,得到该实体掩码标记对应的预测实体。通过预测实体替换掩码文本中的实体掩码标记或替换训练文本中的相应训练实体,得到预测文本。
在一个实施例中,计算机设备可对训练文本进行分词处理,得到训练文本对应的各元素。训练文本对应的各元素中包括训练实体,将各元素中的至少一个训练实体进行掩码处理,以通过实体掩码标记替代该训练实体。除掩码处理的训练实体以外的各元素和该训练实体的实体掩码标记构成掩码文本。对除掩码处理的训练实体以外的各元素进行特征编码,得到各元素对应的编码特征。基于各元素的编码特征对该实体掩码标记进行实体预测,得到该实体掩码标记对应的预测实体。通过预测实体替换掩码文本中的实体掩码标记,得到预测文本。
本实施例中,编码特征可以包括元素的词嵌入特征。词嵌入特征表征元素的向量表示。
本实施例中,对训练文本进行训练实体的掩码处理,以通过实体掩码标记对训练文本中的至少一个训练实体进行屏蔽,获得包括实体掩码标记的掩码文本。基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,使得模型在训练中能够学习实体的语义信息、捕获实体的有效信息,从而获得对实体的识别能力,以准确识别出文本中的实体。
在一个实施例中,基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,包括:
提取实体掩码标记在掩码文本中对应的上下文特征;根据上下文特征对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本。
具体地,上下文特征包括实体掩码标记在掩码文本中对应的上文特征和下文特征。计算机设备可对掩码文本进行分词处理,得到掩码文本对应的各元素。掩码文本对应的各元素中包括实体掩码标记。基于每个实体掩码标记对应的各个上文元素和实体掩码标记对应的各个下文元素进行特征编码,得到每个实体掩码标记对应的上文特征和下文特征。根据实体掩码标记的上下文特征对实体掩码标记进行实体预测,获得该实体掩码标记对应的预测实体。根据每个实体掩码标记对应的预测实体和掩码文本,得到包括预测实体的预测文本。
进一步地,通过预测实体替换掩码文本中相应的实体掩码标记或训练文本中相应的训练实体,得到预测文本。
本实施例中,计算机设备可通过构建好的模型中多层堆叠的Transformer进行实体预测。计算机设备可对掩码文本进行分词处理,得到掩码文本对应的各元素。掩码文本对应的各元素中包括实体掩码标记。对各元素分别进行特征编码,得到每个元素分别对应的编码特征token。将每个元素的编码特征token输入Transformer,通过每层Transformer进行特征编码,每一层Transformer层输出相应数量的隐藏特征hidden vector,一层层传递下去,直到最后输出实体掩码标记所对应的预测实体的向量表示。
本实施例中,提取实体掩码标记在掩码文本中对应的上下文特征,根据上下文特征对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,使得能够结合实体掩码标记的上文特征和下文特征,准确识别出被屏蔽的实体。
在一个实施例中,对训练文本进行训练实体的掩码处理,获得包括实体掩码标记的掩码文本,包括:
确定训练实体中的头实体和尾实体,以及头实体和尾实体在训练文本中的关联关系;对头实体或尾实体进行掩码处理,获得包括实体掩码标记的掩码文本;
基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,包括:基于头实体和尾实体中未被掩码的实体,以及关联关系进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本。
其中,头实体和尾实体都属于训练实体,头实体和尾实体在训练文本中存在对应关系。尾实体为训练文本中与头实体存在关联关系的实体。头实体、尾实体,以及头实体和尾实体之间的关联关系,可形成训练三元组。
具体地,计算机设备可对训练文本进行分词处理,得到训练文本对应的各个元素,从各个元素中确定出训练实体,并确定各个训练实体中的头实体和尾实体,确定头实体和尾实体在训练文本中的关联关系。
可以通过注意力机制(Attention)来确定头实体和尾实体在训练文本中的关联关系。具体的,对包含头实体和尾实体在内的各个元素进行特征编码,得到每个元素对应的编码特征。将各个元素分别对应的编码特征作为注意力机制的输入,以输出头实体和尾实体之间的关联关系。
对头实体或尾实体进行掩码处理,以通过实体掩码标记替代头实体或尾实体,获得包括实体掩码标记的掩码文本。对头实体进行掩码处理时,所得到的掩码文本中的实体掩码标记对应头实体,则基于尾实体和关联关系进行实体预测,得到该实体掩码标记对应预测实体。对尾实体进行掩码处理时,所得到的掩码文本中的实体掩码标记对应尾实体,则基于头实体和关联关系进行实体预测,得到该实体掩码标记对应预测实体。
本实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
确定预测实体和训练实体之间的实体掩码损失,以及预测值相对于相应的训练描述信息的链接标签的预测差异;基于实体掩码损失和预测差异进行模型训练,获得实体链接模型。可以理解的是,当预测实体为预测的头实体时,该训练实体为实体掩码标记对应的头实体;当预测实体为预测的尾实体时,该训练实体为实体掩码标记对应的尾实体。
本实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
预测实体和未被掩码的实体,以及关联关系构成预测三元组,计算预测三元组和训练三元组之间的实体掩码损失;基于预测值相对于相应的训练描述信息的链接标签的预测差异和实体掩码损失进行模型训练,获得实体链接模型。
本实施例中,确定训练实体中的头实体和尾实体,以及头实体和尾实体在训练文本中的关联关系,头实体、尾实体和两者的关联关系可以构成三元组,对三元组中的头实体或尾实体进行掩码处理,获得包括实体掩码标记的掩码文本。头实体和尾实体之间的关联关系具有独特性,能够表征两个实体在训练文本中的独特关系,根据两者的关联关系和另外一个实体,能够准确预测出被掩码的实体。
在一个实施例中,对训练文本进行训练实体的掩码处理,获得包括实体掩码标记的掩码文本,包括:
对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本;
基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,包括:
基于掩码文本对实体掩码标记进行实体预测和对随机掩码标记进行随机预测,获得实体掩码标记对应的预测实体和随机掩码标记对应的预测字,以及包括预测实体和预测字的预测文本。
具体地,训练实体的掩码处理是针对训练实体进行屏蔽。随机掩码处理是指针对训练字的随机屏蔽,即屏蔽多个训练字多中任意一个或多个。
计算机设备对训练文本中的至少一个训练实体进行掩码处理,以通过实体掩码标记替代训练文本中的至少一个训练实体,对训练文本中除训练实体以外的至少一个训练字进行随机掩码处理,以通过随机掩码标记替代训练文本中的至少一个训练字,得到获得包括实体掩码标记和随机掩码标记的掩码文本。
计算机设备可提取实体掩码标记在掩码文本中对应的上下文特征,根据实体掩码标记的上下文特征对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体。计算机设备可提取随机掩码标记在掩码文本中对应的上下文特征,根据随机掩码标记的上下文特征对随机掩码标记进行随机预测,获得随机掩码标记对应的预测字。根据预测实体、预测字和掩码文本,得到包括预测实体和预测字的预测文本。
本实施例中,计算机设备可实体掩码标记和随机掩码标记在训练文本中各自对应的上下文特征,基于实体掩码标记的上下文特征对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,基于随机掩码标记的上下文特征对随机掩码标记进行随机预测,获得随机掩码标记对应的预测字。
在一个实施例中,确定训练实体中的头实体和尾实体,以及头实体和尾实体在训练文本中的关联关系;对头实体或尾实体进行掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本。基于头实体和尾实体中未被掩码的实体,以及关联关系进行实体预测,获得实体掩码标记对应的预测实体。提取随机掩码标记在掩码文本或训练文本中对应的上下文特征,根据随机掩码标记的上下文特征对随机掩码标记进行随机预测,获得随机掩码标记对应的预测字。根据预测实体、预测字和掩码文本,得到包括预测实体和预测字的预测文本。
在一个实施例中,对训练文本进行训练实体的掩码处理,获得包括掩码标记的掩码文本,包括:对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练词组进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本;
基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,包括:基于掩码文本进行实体预测和随机预测,获得实体掩码标记对应的预测实体和随机掩码标记对应的预测词组,以及包括预测实体和预测词组的预测文本。
随机掩码处理还可以是指针对训练词组的随机屏蔽,即屏蔽多个训练词组多中任意一个或多个。具体可提取随机掩码标记在掩码文本或训练文本中对应的上下文特征,根据随机掩码标记的上下文特征对随机掩码标记进行随机预测,获得随机掩码标记对应的预测词组。
在一个实施例中,在对模型的多次训练中,可通过动态掩码方式进行训练。动态掩码方式是指多次训练中对训练样本的掩码处理不同,例如第一次训练中对训练字进行随机掩码处理,第二次训练中对训练词组进行随机掩码处理,还可以是对不同的训练实体、不同的训练字或者不同的训练词进行随机掩码处理等。
在一个实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
按照针对实体链接模型的目标损失函数,确定预测实体和训练实体之间的实体掩码损失、预测词组和训练词组之间的随机掩码损失,以及预测值相对于相应的训练描述信息的链接标签的预测差异;基于实体掩码损失、随机掩码损失和预测差异,进行模型训练,获得实体链接模型。
本实施例中,对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本,以对实体掩码标记进行实体预测和对随机掩码标记进行随机预测,获得实体掩码标记对应的预测实体和随机掩码标记对应的预测字,使得模型不仅能够学习每个单字的嵌入表示,还能够学习到基于词级别的实体的嵌入表示,以学习到实体所包含的语义信息,从而能够更加有效地识别出实体并进行下一阶段的实体消歧。
在一个实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
按照针对实体链接模型的目标损失函数,确定预测实体和训练实体之间的实体掩码损失、预测字和训练字之间的随机掩码损失,以及预测值相对于相应的训练描述信息的链接标签的预测差异;基于目标损失函数、实体掩码损失、随机掩码损失和预测差异进行模型训练,获得实体链接模型。
具体地,计算机设备可获取针对实体链接模型的目标损失函数,按照目标损失函数,确定预测实体和训练实体之间的实体掩码损失、确定预测字和训练字之间的随机掩码损失,以及预测值相对于相应的训练描述信息的链接标签的预测差异。
将实体掩码损失、随机掩码损失和预测差异代入目标损失函数,可计算出目标损失值。基于目标损失值进行模型训练,以调整模型参数并继续训练,直至满足训练停止条件时停止,得到实体链接模型。
本实施例中,实体掩码损失、随机掩码损失和预测差异可对应各自的权重,按照目标损失函数,将实体掩码损失、随机掩码损失和预测差异与各自对应的权重进行加权求和,得到目标损失值。目标损失函数的各个损失的不同权重设置,能够通过对权重参数的精细调整,提供更好的模型性能。
本实施例中,实体掩码损失表征模型预测的实体和真实的实体之间的差异,随机掩码损失表征模型预测的字和真实的字之间的差异。预测差异表征模型预测的实体链接结果和真实的实体链接结果之间的差异。基于目标损失函数、实体掩码损失、随机掩码损失和预测差异进行模型训练,能够结合模型在实体预测、在训练文本中的字预测和在实体链接结果预测等多个方面的损失进行模型训练,能够提高模型在实体预测和实体链接上的准确性。
在一个实施例中,根据预测文本和每个标记有链接标签的训练描述信息,分别确定预测实体链接向每个训练描述信息的相应预测值,包括:
对预测文本和每个标记有链接标签的训练描述信息分别进行拼接,得到对应的训练拼接信息;对每个训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个训练拼接信息中的预测文本和训练描述信息各自对应的训练特征;根据每个训练拼接信息中预测文本的训练特征和训练描述信息的训练特征,确定预测实体链接向相应训练拼接信息中的训练描述信息的预测值。
具体地,计算机设备可将预测文本分别和每个标记有链接标签的训练描述信息进行拼接,得到对应的多个训练拼接信息。对于每个训练拼接信息中的预测文本和训练描述信息,对预测文本进行特征编码,得到训练拼接信息中预测文本在至少一个特征维度上的训练特征。对训练描述信息进行特征编码,得到训练拼接信息中训练描述信息在至少一个特征维度上的训练特征。其中,至少一个特征维度包括属性维度、类别维度或位置维度中的一种。属性维度下的特征为词嵌入特征,类别维度下的特征为语句嵌入特征,位置维度下的特征为位置嵌入特征。
本实施例中,训练特征可以包括构成预测文本的各个元素的词嵌入特征。词嵌入特征表征元素的属性,元素的属性可以是元素对应的词向量表示。
在其他实施例中,训练特征还可以包括构成预测文本的各个元素的语句嵌入特征和位置嵌入特征中的至少一种。语句嵌入特征表征元素所属类别,即表示元素属于预测文本,还是属于训练描述信息。位置嵌入特征表征元素在预测文本或训练描述信息中的位置,即预测文本中的元素的位置嵌入特征表征该元素在训练文本中的位置,训练描述信息中的元素的位置嵌入特征表征该元素在训练描述信息中的位置。
在其他实施例中,可对训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个训练拼接信息中预测文本对应的元素和训练描述信息对应的元素。对预测文本的每个元素进行特征编码,获得每个元素在至少一个特征维度上的编码特征,基于各元素在至少一个特征维度上的编码特征进行特征编码,得到预测文本对应的训练特征。对训练描述信息的每个元素进行特征编码,获得每个元素在至少一个特征维度上的编码特征,基于各元素在至少一个特征维度上的编码特征进行特征编码,得到训练描述信息对应的训练特征。可以理解的是,预测文本和训练描述信息对应相同的特征维度。元素的至少一个特征维度包括元素的属性维度、元素的类别维度或元素的位置维度中的一种。
在得到训练拼接信息中的预测文本和训练描述信息各自对应的训练特征后,计算机设备可根据该训练拼接信息中预测文本的训练特征和训练描述信息的训练特征,计算预测文本和训练描述信息之间的相似度或匹配度,将该相似度或匹配度,作为该预测文本中的预测实体链接向该训练描述信息的预测值。按照相同的处理方式,可得到每个训练拼接信息中的预测实体链接向相应训练拼接信息中的训练描述信息的预测值。
本实施例中,对预测文本和每个标记有链接标签的训练描述信息分别进行拼接,得到对应的训练拼接信息,使得训练拼接信息中训练描述信息都是对该训练拼接信息中预测文本的预测实体的描述。对每个训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个训练拼接信息中的预测文本和训练描述信息各自对应的训练特征,以提取训练拼接信息中两个语句各自对应的关键特征信息,以基于训练拼接信息中两个语句的关键特征信息,判断训练拼接信息中的两个语句是否相似或是否匹配,从而准确地计算出训练描述信息作为预测实体的实体链接结果的可能性。
在一个实施例中,可将训练描述信息拼接在预测文本之后,得到对应的训练拼接信息,使得每个训练拼接信息中的后一语句均为对前一语句中的实体的描述,使得训练拼接信息中的两个语句在语义上具有较高的相似性,增加了模型判断前后两句话是否匹配的难度,使得训练得到的实体链接模型在不同语句的语义相似性的判别上更准确。
在一个实施例中,对每个训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个训练拼接信息中的预测文本和训练描述信息各自对应的训练特征,包括:
将每个训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个训练拼接信息中预测文本对应的元素和训练描述信息对应的元素;对于每个训练拼接信息,基于相应训练拼接信息中预测文本对应的元素进行特征编码,得到每个训练拼接信息中预测文本对应的训练特征;对于每个训练拼接信息,基于相应训练拼接信息中训练描述信息对应的元素进行特征编码,得到每个训练拼接信息中训练描述信息对应的训练特征;其中,训练特征包括表征元素的属性的词嵌入特征、表征元素所属类别的语句嵌入特征和表征元素的位置的位置嵌入特征。
其中,分词处理可以通过正向最大匹配法、反向最大匹配法、最短路径分词法、双向最大匹配法、词义分词法或统计分词法等算法实现,以将预测文本和训练描述信息拆分成各元素,元素为预测文本和训练描述信息的组成单位,具体形式如词汇、短语和标点符号等。元素的编码特征反映了对应的元素的独特性,可以用于区别各元素以进行实体识别和实体链接。
具体地,对于每个训练拼接信息,计算机设备可将训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得预测文本对应的元素和训练描述信息对应的元素。分别对每个元素进行特征编码,得到每个元素各自对应的编码特征。可将构成预测文本的各元素所对应的编码特征作为预测文本的训练特征,或者将构成预测文本的各元素所对应的编码特征拼接后作为预测文本的训练特征。可将构成训练描述信息的各元素所对应的编码特征作为训练描述信息的训练特征,或者将构成训练描述信息的各元素所对应的编码特征拼接后作为训练描述信息的训练特征。
本实施例中,元素的编码特征可包括不同维度的特征,具体可以包括表征该元素的属性的词嵌入特征、表征该元素所属类别的语句嵌入特征和表征该元素的位置的位置嵌入特征。将同一元素的词嵌入特征、语句嵌入特征和位置嵌入特征相加,形成该元素的编码特征。
本实施例中,对于每个训练拼接信息,基于相应训练拼接信息中预测文本对应的元素进行特征编码,得到每个训练拼接信息中预测文本对应的训练特征;对于每个训练拼接信息,基于相应训练拼接信息中训练描述信息对应的元素进行特征编码,得到每个训练拼接信息中训练描述信息对应的训练特征,包括:
对相应训练拼接信息中预测文本的元素和训练描述信息的元素分别进行属性特征映射,得到预测文本的每个元素对应的词嵌入特征和训练描述信息的每个元素对应的词嵌入特征;对相应训练拼接信息中预测文本的元素和训练描述信息的元素分别进行类别特征映射,得到预测文本的每个元素对应的语句嵌入特征和训练描述信息的每个元素对应的语句嵌入特征;对相应训练拼接信息中预测文本的元素和训练描述信息的元素分别进行位置特征映射,得到预测文本的每个元素对应的位置嵌入特征和训练描述信息的每个元素对应的位置嵌入特征;对相应训练拼接信息中预测文本的各元素对应的词嵌入特征、语句嵌入特征和位置嵌入特征进行特征编码,得到预测文本对应的训练特征;对相应训练拼接信息中训练描述信息的各元素对应的词嵌入特征、语句嵌入特征和位置嵌入特征进行特征编码,得到训练描述信息对应的训练特征。
在具体实现时,属性特征映射、类别特征映射和位置特征映射均可以通过embedding方法实现。例如,对于属性特征映射处理,可以预先通过embedding方法为各元素设置对应的向量特征,通过查询元素的对应embedding可以获得各元素的词嵌入特征;对于类别特征映射,可以确定元素属于训练文本还是属于训练描述信息,并查询该类别对应的embedding得到元素的语句嵌入特征,例如训练文本的各元素的语句嵌入特征均设置为0,训练文本的各元素的语句嵌入特征均设置为1。对于位置特征映射,可以确定各个元素相对于首个元素的相对位置,并查询该相对位置的embedding得到元素的位置嵌入特征。
本实施例中,将每个训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个训练拼接信息中预测文本对应的元素和训练描述信息对应的元素,以对各元素进行特征编码,获得预测文本对应的训练特征和每个训练描述信息对应的训练特征。训练特征所包括的词嵌入特征能够体现单个元素的向量表示,语句嵌入特征能够表示哪些元素属于预测文本,哪些元素属于训练描述信息,以实现元素的类别识别,位置嵌入特征能够体现每个元素在所属句子中的位置。通过词嵌入特征、语句嵌入特征和位置嵌入特征来确定预测实体链接向相应训练拼接信息中的训练描述信息的预测值,能够结合元素的向量表示、元素所属类别和元素的位置等多方面特征,更准确地计算出预测实体链接向训练描述信息的预测值。并且,使得模型在训练过程中不仅学习到元素的向量表示,还学习到对每个元素所属类别的区分和每个元素输入的顺序属性,词嵌入特征和语句嵌入特征的结合使得模型更好地学习到句子的整体语义信息,再结合位置嵌入特征可使得模型学习到句子中的元素的顺序,有助于模型关注到句子整体语义的逻辑性,能够进一步能够提高模型的处理效果。
在一个实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型;该实体识别层用于识别训练文本中的训练实体,该实体链接层用于确定预测值;获取目标训练文本和目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息;通过目标训练文本和多个训练描述信息,对实体链接初始模型中的实体链接层进行训练,获得实体链接模型。
具体地,计算机设备可分别确定预测实体链接向每个训练描述信息的预测值与相应训练描述信息的链接标签之间的预测差异,得到多个预测差异。计算机设备计算预测实体链接向该训练描述信息的预测值与负例标签之间的预测差异。基于多个预测差异进行模型预训练,直至满足预训练停止条件时,得到实体链接初始模型。该实体链接初始模型包括实体识别层和实体链接层。实体识别层用于在训练中识别训练文本中的训练实体、预测掩码处理所得到的文本中的预测实体。实体链接层用于在训练中确定训练实体链接向训练描述信息的预测值、确定预测实体链接向训练描述信息的预测值等。
其中,满足预训练停止条件可以是达到预训练的训练次数、预训练的迭代次数、预训练的目标损失值小于或等于损失阈值等。目标损失值可以是基于预训练的预测差异所计算得到的总损失,或者基于目标损失函数所计算出的总损失。例如,基于多个预测差异所计算出的目标损失值大于损失阈值时,调整模型的参数并继续训练,直至预训练过程中的目标损失值小于或等于损失阈值时停止,得到预训练完成的实体链接初始模型。
计算机设备可从多个训练文本中选择目标训练文本,该目标训练文本训练实体。获取目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息;链接标签是正例标签或负例标签中一种;多个训练描述信息中存在标记有正例标签的训练描述信息和标记有负例标签的训练描述信息。
本实施例中,通过目标训练文本和多个训练描述信息,对实体链接初始模型中的实体链接层进行训练,获得实体链接模型,包括:
通过实体识别层对目标训练文本进行实体识别处理,得到目标训练文本中的目标实体;通过实体链接层根据目标训练文本和每个标记有链接标签的训练描述信息,分别确定目标实体链接向每个训练描述信息的相应预测值;基于预测值相对于相应的训练描述信息的链接标签的差异,对实体链接层的参数进行调整并继续训练,获得实体链接模型。
实体链接模型中的实体识别层,用于对待链接文本进行实体识别处理,得到待链接实体。实体链接模型中的实体链接层用于确定待链接实体对应的实体链接结果。
本实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型,从而能够在预训练中学习到实体链接的领域知识,提升在实体链接任务中的效果。获取目标训练文本和目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息,通过目标训练文本和多个训练描述信息,对实体链接初始模型中的实体链接层进行训练,从而能够对预训练得到的实体链接层进行微调处理,能够降低训练过程中的数据量和训练时间,并且通过微调处理使得实体链接层的实体链接任务具备更精准的处理性能。
在一个实施例中,目标训练文本可以是从目标领域获取的训练文本,计算机设备从该目标领域对应的实体知识库中,获取目标训练文本的训练实体对应的多个标记有链接标签的训练描述信息。通过目标训练文本和多个训练描述信息,对实体链接初始模型中的实体链接层进行训练,获得该目标领域对应的实体链接模型。该目标领域对应的实体链接模型可以识别出该目标领域内容的文本中的实体,并为该实体输出该目标领域内的实体链接结果。
在一个实施例中,实体识别层由多层Transformer堆叠形成。
在一个实施例中,实体链接模型EL-BERT的整体架构如图5所示,包括实体识别层和实体链接层。实体识别层用于进行多任务掩码处理,实体链接层进行SSP(SemanticSentence Prediction)任务。模型的输入由两部分拼接而成,分别是训练文本和训练实体的训练描述信息。
其中,输入模型的第一部分是训练文本。训练文本的各元素使用token表示,训练描述信息的各元素用ed(entity description)来表示。对于训练文本执行多任务掩码训练,即分别进行MLM(Masked language model,掩码语言模型)任务和MEM(Mask EntityModel,实体掩盖模型)任务。通过MLM任务从字级别、通过MEM任务从实体级别对模型进行训练,让模型学习到更多的特征信息。
E1,E2,…,En,Em是各元素的token进行编码后得到的编码特征,T1,T2,…,Tn,Tm是实体识别层的输出。
输入模型的第二部分是训练实体的描述信息,不是任意选取的一个与训练实体不相关的句子。即将训练实体在实体知识库中的所有候选实体作为备选列表,从候选实体列表中挑选某个候选实体的描述信息,将其放到训练文本之后,并标记链接结果是否正确,使得第二部分都是对于该训练实体的描述,在语义信息上具有很高的相似度,大大增加了模型判断前后两个片段是否能够匹配的难度。
通过SSP任务既增加了预测任务的难度,又在预训练任务中加入实体链接领域信息,帮助模型提升在实体链接任务上的效果。
1)多任务掩码
传统的BERT模型的训练任务中,采取的方式为随机选择15%的字进行替换,其中被替换的字10%替代为其他的字,10%不做替换,80%换成[MASK]标记。其主要聚焦在字级别的信息捕捉,缺少对于实体信息的特征提取能力。本实施例中设计了MEM(MentionEntity Mask)任务,对实体进行掩码来弥补BERT在实体特征提取方面的缺陷,从而通过MLM(Masked language model)对上下文语料进行预训练,还通过实体掩盖模型(MEM,Maskedentity model)任务在知识图谱上进行预训练,学习实体的语义表示。
多任务掩码的处理流程可如图6的示例所示,在名人传记相关领域,可获取名人传记对应的实体知识库,该实体知识库中以名人的名称作为实体,并对每个实体进行描述,即每个实体对应各自的描述信息。
从名人传记相关领域获取多个训练文本,示例中待消歧的训练文本为“王小明是水果公司创始人”,需要链接的训练实体“王小明”。从名人传记对应的实体知识库中确定与“王小明”在实体名称上匹配的多个候选实体,各候选实体对应的描述信息为“王小明出生在海南”、“王小明获得短跑冠军”等。本实施例的实体链接模型EL-BERT是有监督训练,即预先可知“王小明出生在海南”是对“王小明是水果公司创始人”中“王小明”的准确描述。因此,可以将描述信息“王小明出生在海南”作为正例的训练描述信息,将其拼接在“王小明是水果公司创始人”之后,并标记链接标签为1,表示链接结果正确。该正例的训练描述信息即对应链接标签的正例标签。“王小明获得短跑冠军”作为负例的训练描述信息,将其拼接在“王小明是水果公司创始人”之后,并标记链接标签为0,表示链接结果错误。该负例的训练描述信息即对应链接标签的负例标签。
将拼接的两个片段和对应的链接标签输入EL-BERT的掩码任务。在执行该掩码任务时,对“王小明”这一实体整体进行掩码处理MASK,剩下的“是水果公司创始人”进行随机MASK,示例中MASK的训练字为“果”字。因此模型需要预测被MASK的训练实体“王小明”以及被MASK的训练字“果”。
具体实现中,可以通过随机掩码标记Y[MASK]的上下文特征对该随机掩码标记Y[MASK]进行随机预测,获得Y[MASK]对应的预测字。根据实体掩码标记X[MASK]的上下文特征对该实体掩码标记X[MASK]进行实体预测,获得X[MASK]对应的预测实体。
图中X[MASK]表示的是对训练实体“王小明”的实体掩码标记,Y[MASK]表示的是对训练字的随机掩码标记,X[PAD]为序列的填充以保证整个序列的长度固定。
模型在训练过程中采用了MLM的训练方法和MEM的训练方法,则多任务掩码的损失函数为
L1=LMLM(y′,y)+LMEM(y′,y)
其中,L1为多任务掩码的损失,LMLM为随机掩码损失,LMEM为实体掩码损失。y'和y分别为预测结果和对应的标签。随机掩码损失和实体掩码损失可设置各自对应的权重,例如a和(1-a),两者的权重可以相同,也可以根据需求设置。
在得到随机掩码标记对应的预测字和实体掩码标记对应的预测实体后,替换训练文本中的相应训练字和训练实体,得到预测文本。训练描述信息拼接在预测文本之后,并输入SSP任务。并且,链接结果也传递到SSP任务中。
2)句子语义预测SSP
EL-BERT模型的SSP(Semantic Sentence Prediction)任务的输入包括预测文本和训练文本对应的训练描述信息。即将训练实体在实体知识库中的所有候选实体作为备选列表,从候选实体列表中挑选某个候选实体的描述信息,将其拼接训练文本之后,并通过链接标签标记链接结果是否正确。将拼接的两个片段和链接标签作为SSP任务的输入。
这样后一个片段都是对于该训练实体的描述,在语义上具有很高的相似度,大大增加了模型判断前后两个片段是否能够匹配的难度。
在具体实现中,可将预测文本和训练描述信息分别进行分词处理,获得预测文本对应的各元素和训练描述信息对应的各元素。获取每个元素的词嵌入特征TokenEmbeddings、语句嵌入特征Segment Embeddings和位置嵌入特征PositionEmbeddings,将同一元素的词嵌入特征、语句嵌入特征和位置嵌入特征相加,得到该元素的编码特征。预测文本各元素的编码特征形成预测文本的训练特征,训练描述信息各元素的编码特征形成训练描述信息的训练特征。
SSP任务的损失函数为LSSP,因此模型的目标损失函数L为:
L=L1+LSSP(y′,y)
根据预测文本的训练特征和训练描述信息的训练特征,确定预测文本和训练描述信息之间的匹配度,将该匹配度作为预测实体链接向该训练描述信息的预测值;确定预测值与训练描述信息的链接标签的预测差异,根据目标损失函数计算出目标损失值,根据目标损失值和损失阈值之间的差异进行模型预训练。
在模型预训练完成后,使用训练文本和训练描述信息进行模型微调。在微调过程中,直接识别出训练文本中的实体,不再进行掩码处理,不用计算实体掩码损失和随机掩码损失。利用识别出的实体继续进行SSP任务,并对SSP任务中的参数进行微调,直至预测值与链接标签的预测差异满足条件时停止微调,得到训练完成的实体链接模型EL-BERT。
由于中文不同于英文,英文使用空格来将词与词之间进行分隔,中文没有显性的分隔方式,对于中文分词和实体的识别具有不小的难度。因此让模型更加准确地进行分词,识别出正确的实体也是一个重要的任务。EL-BERT通过学习实体的表示,能够更加有效地识别出实体并进行下一阶段的实体消歧。通过加入实体掩码MEM任务,使得EL-BERT不仅能够学习每个单字的嵌入表示,还能够学习到基于词级别的实体的嵌入表示。而实体包含的语义信息在实体链接中至关重要,无论是指称识别阶段还是实体消歧阶段,实体的准确识别和语义信息都是十分关键的。
通过SSP任务既增加了预测任务的难度,又在预训练任务中加入实体链接领域信息,帮助模型提升在实体链接任务上的效果。该SSP任务的设置具体有两方面的优势:一是增加了模型判断的难度。由于第二个片段的内容是第一个片段中训练实体的描述信息,因此两个片段在主题上具有一定的一致性,模型需要更多地学习两个片段整体的语义信息,以对两个片段进行比较和判断。二是引入了外部的领域知识。第二个片段的来源是实体链接的实体知识库数据,引入外部的知识库信息,补充了实体的描述信息,能够让模型学到实体链接的领域知识,以从更多的描述信息中捕获实体的有效信息,从而提升模型的效果。而且引入的知识库数据就是实体对应的描述信息,通过知识库信息的引入使得模型能够学到更多关于当前实体的特征信息,进而更加容易地分辨不同实体之间的区别,有利于提升在实体链接任务中的性能和效果。
如图7所示,本实施例中的EL-BERT模型还可以结合ERNIE模型的掩码策略训练获得,即对训练文本中的训练词组进行随机掩码处理,形成随机掩码标记,并对随机掩码标记进行预测,得到预测词组。根据预测词组和训练词组之间的随机掩码损失,以及预测值和链接标签之间的差异进行模型训练。如图6,将训练文本进行分词,得到各元素。各元素分别通过token1,token2,…,tokenn表示,训练描述信息用进行分词,得到的各元素分别通过ed1,ed2,…,edm表示。E1,E2,…,En,Em是各元素的token进行编码后得到的编码特征,T1,T2,…,Tn,Tm是EL-BERT模型的多任务掩码处理的输出。
对训练实体和训练词组进行掩码处理,以通过[MASK]掩码标记替换训练实体和训练词组,从而每个[MASK]掩码标记对应的预测实体的向量表示或预测词组的向量表示。根据作为标签的训练实体和训练词组,计算预测实体和训练实体之间的实体掩码损失,计算预测词组和训练词组之间的随机掩码损失。将预测的[MASK]掩码标记对应的的向量表示和训练文本中其余各元素的向量表示,以及训练描述信息的各元素的向量表示拼接输入SSP任务进行预测,以预测出实体链接结果。
在一个实施例中,如图8所示,EL-BERT模型可以是RoBERTa预训练模型的一种变型。RoBERTa是在BERT的基础上进行改进的预训练模型,RoBERTa模型具有更大的batchsize、更长的训练时间、动态掩码。batch size指的是训练中每批数据量的大小,动态掩码是指每次向模型输入一个序列时都会生成新的掩码模式。例如在EL-BERT模型的多次训练中,动态采用随机掩码、实体掩码这两种模式进行掩码处理,使得在大量训练数据不断输入的过程中,模型会逐渐适应不同的掩码策略,学习不同的语言表征。随机掩码包括对训练字的掩码和训练词组的掩码中的至少一种。并且,EL-BERT模型中包括句子语义预测任务SSP,以进行实体链接处理。
在一个实施例中,EL-BERT模型还可以是ALBERT(ALite BERT)预训练模型的一种变型。ALBERT相比BERT模型,大幅减少模型参数量,提升预训练速度,提出SOP(Sentence-orderprediction,句子顺序预测)任务,其在多个下游任务中表现优于BERT模型的NSP任务。本实施例中的EL-BERT模型,在ALBERT预训练模的基础上增加了MEM任务进行实体掩码处理,并通过SSP任务替换了ALBERT中的SOP任务。
在一个实施例中,如图9所示,提供了一种实体链接处理方法,该方法通过上述各个实施例中的实体链接模型处理方法训练获得的实体链接模型执行,以该方法应用于计算机设备(计算机设备可以是图1中的终端或服务器)为例进行说明,包括以下步骤:
步骤S902,通过实体链接模型对待链接文本进行实体识别处理,得到待链接实体。
待链接文本可以为需要进行实体链接的自然语言文本。待链接实体指的是待链接文本中需要进行实体链接的、具有特定含义的实体。
将待链接文本输入实体链接模型,该实体链接模型对待链接文本进行分词处理,得到待链接文本对应的各个元素。对待链接文本的各元素进行特征编码,得到每个元素对应的编码特征。实体链接模型基于待链接文本的各元素的编码特征进行实体识别处理,得到待链接文本中的待链接实体。
本实施例中,实体链接模型包括实体识别层和实体链接层。通过实体识别层对待链接文本进行分词处理,并基于待链接文本的各元素的编码特征进行实体识别处理,得到待链接文本中的待链接实体。
步骤S904,通过实体链接模型确定待链接实体在实体知识库中对应的多个候选描述信息。
通过实体链接模型在实体知识库确定与待链接实体在实体名称上匹配的多个候选实体,并获取每个候选实体分别对应的候选描述信息,得到待链接实体对应的多个候选描述信息。
本实施例中,实体链接模型包括实体识别层和实体链接层。将待链接文本和每个候选描述信息作为实体链接层的输入。
本实施例中,将待链接文本分别和每个候选描述信息进行拼接,得到各个拼接信息。将每个拼接信息作为实体链接层的输入。
步骤S906,通过实体链接模型对待链接文本和各候选描述信息分别进行特征编码,得到待链接文本和每个候选描述信息各自对应的特征信息。
通过实体链接模型对待链接文本和各候选描述信息分别进行分词处理,获得每个拼接信息中待链接文本对应的元素和候选描述信息对应的元素。基于待链接文本对应的元素进行特征编码,得到待链接文本对应的特征信息。对于每个候选描述信息,基于相应候选描述信息对应的元素进行特征编码,得到每个候选描述信息各自对应的特征信息。
本实施例中,通过实体链接模型对待链接文本和各候选描述信息分别进行特征编码,得到待链接文本和每个候选描述信息各自对应的特征信息,包括:
通过实体链接模型将每个拼接信息中的待链接文本和候选描述信息分别进行分词处理,获得每个拼接信息中待链接文本对应的元素和候选描述信息对应的元素;对于每个拼接信息,基于相应拼接信息中待链接文本对应的元素进行特征编码,得到每个拼接信息中待链接文本对应的特征信息;对于每个拼接信息,基于相应拼接信息中候选描述信息对应的元素进行特征编码,得到每个拼接信息中候选描述信息对应的特征信息;其中,特征信息包括表征元素的属性的词嵌入特征、表征元素所属类别的语句嵌入特征和表征元素的位置的位置嵌入特征。
本实施例中,通过实体链接模型对相应拼接信息中待链接文本的元素和候选描述信息的元素分别进行属性特征映射,得到待链接文本的每个元素对应的词嵌入特征和候选描述信息的每个元素对应的词嵌入特征;对相应拼接信息中待链接文本的元素和候选描述信息的元素分别进行类别特征映射,得到待链接文本的每个元素对应的语句嵌入特征和候选描述信息的每个元素对应的语句嵌入特征;对相应拼接信息中待链接文本的元素和候选描述信息的元素分别进行位置特征映射,得到待链接文本的每个元素对应的位置嵌入特征和候选描述信息的每个元素对应的位置嵌入特征;对相应拼接信息中待链接文本的各元素对应的词嵌入特征、语句嵌入特征和位置嵌入特征进行特征编码,得到待链接文本对应的特征信息;对相应拼接信息中候选描述信息的各元素对应的词嵌入特征、语句嵌入特征和位置嵌入特征进行特征编码,得到候选描述信息对应的特征信息。
步骤S908,通过实体链接模型根据待链接文本的特征信息和每个候选描述信息对应的特征信息,确定待链接实体分别链接向每个候选描述信息的候选值。
候选值是通过值表征待链接实体的预测链接结果,指的是待链接实体链接向候选描述信息的可能性。候选值可通过预测概率或者相似度、匹配度表征。
通过实体链接模型根据待链接文本的特征信息和每个候选描述信息的特征信息,分别计算出待链接文本和每个候选描述信息之间的相似度或匹配度。将待链接文本和候选描述信息之间的相似度或匹配度,作为待链接实体链接向该候选描述信息的候选值,以得到待链接实体分别链接向每个候选描述信息的候选值。
步骤S910,通过实体链接模型基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体对应的实体链接结果。
链接条件指的是能够满足作为待链接实体的实体链接结果的条件。链接条件具体可以是最大候选值、大于链接阈值的候选值、由高到低的预设数量个候选值、大于链接阈值的预设数量个候选值等,但不限于此。
实体链接模型可获取链接条件,将各个候选值和链接条件进行对比,从各个候选值中筛选出满足链接条件的候选值。获取满足链接条件的候选值对应的候选描述信息作为目标描述信息,并将该目标描述信息链接到待链接中的该待链接实体,以将目标描述信息作为待链接实体对应的实体链接结果。
例如,从多个候选值中筛选出最大候选值,将最大候选值对应的候选描述信息作为待链接实体的实体链接结果。
本实施例中,实体链接模型的实体链接层计算待链接实体分别链接向每个候选描述信息的候选值,并基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体对应的实体链接结果。
本实施例中,通过实体链接模型处理方法训练获得的实体链接模型,对待链接文本进行实体识别处理,以准确识别出需要进行实体链接的待链接实体。通过实体链接模型确定待链接实体在实体知识库中对应的多个候选描述信息,能够确定出实体知识库中存在的可能作为待链接实体的实体链接结果的各个候选描述信息,以进一步对待链接实体进行实体消歧。通过实体链接模型对待链接文本和各候选描述信息分别进行特征编码,得到各自对应的特征信息,根据待链接文本的特征信息和每个候选描述信息对应的特征信息,确定待链接实体分别链接向每个候选描述信息的候选值,从而能够计算出每个候选描述信息作为待链接实体的实体链接结果的可能性。通过实体链接模型基于各候选值结合链接条件,从多个候选描述信息中准确筛选出待链接实体对应的实体链接结果,实现了实体消歧,使得实体链接更准确。并且,通过实体链接模型进行实体识别和实体消歧,提高了实体链接的处理效率。
在一个实施例中,通过实体链接模型确定待链接文本中每个待链接实体分别对应的实体链接结果后,当触发待链接文本中的实体,可在待链接文本中显示该实体对应的实体链接结果,即显示实体对应的目标描述信息。
在一个实施例中,通过实体链接模型确定待链接实体在实体知识库中对应的多个候选描述信息,包括:通过实体链接模型基于待链接文本进行场景识别,得到待链接文本对应的应用场景;通过实体链接模型,从与应用场景相匹配的实体知识库中,获取待链接实体对应的多个候选描述信息;
通过实体链接模型基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体对应的实体链接结果,包括:通过实体链接模型基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体在应用场景下对应的实体链接结果。
具体地,实体链接模型可对应不同领域的实体知识库,不同领域的实体知识库可应用在不同的场景。即实体链接模型可对应不同应用场景的实体知识库。
领域与应用场景具有对应关系,例如医疗领域的实体知识库,可应用于多个医疗场景的实体链接处理。
通过实体链接模型基于待链接文本进行场景识别,以确定待链接文本的应用场景。进一步地,可基于待链接文本的各元素的编码特征进行场景识别,得到待链接文本对应的应用场景。
通过实体链接模型,从与应用场景相匹配的实体知识库中,确定与待链接实体在实体名称上匹配的多个候选实体,并获取每个候选实体分别对应的候选描述信息,得到待链接实体在该应用场景下对应的多个候选描述信息。
通过实体链接模型基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息。将该目标描述信息作为待链接实体在该应用场景下所对应的实体链接结果。
本实施例中,通过实体链接模型基于待链接文本进行场景识别,能够识别出待链接文本所处的应用场景,以获取待链接实体在该应用场景下的实体知识库中所对应的多个候选描述信息,从特定场景的实体知识库中获取候选描述信息能够避免相同实体在不同应用场景具有不同含义而链接错误的情况。通过实体链接模型基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体在应用场景下对应的实体链接结果,从而能够获得待链接实体在特定场景下的实体链接结果,结合应用场景进一步提高实体链接的准确性。
在一个实施例中,提供了一种实体链接模型处理方法,应用于计算机设备,包括:
获取训练文本,该训练文本包括训练实体;
从实体知识库中,确定与训练实体在实体名称上匹配的多个候选实体;对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息;对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息。
对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本。
提取实体掩码标记和随机掩码标记在掩码文本或训练文本中各自对应的上下文特征;根据实体掩码标记的上下文特征对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体;根据随机掩码标记的上下文特征对随机掩码标记进行随机预测,获得随机掩码标记对应的预测字;确定预测实体和训练实体之间的实体掩码损失、预测字和训练字之间的随机掩码损失;根据预测实体、预测字和掩码文本,得到预测文本。
对预测文本和每个标记有链接标签的训练描述信息分别进行拼接,得到对应的训练拼接信息。
将每个训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个训练拼接信息中预测文本对应的元素和训练描述信息对应的元素;对于每个训练拼接信息,基于相应训练拼接信息中预测文本对应的元素进行特征编码,得到每个训练拼接信息中预测文本对应的训练特征;对于每个训练拼接信息,基于相应训练拼接信息中训练描述信息对应的元素进行特征编码,得到每个训练拼接信息中训练描述信息对应的训练特征;其中,训练特征包括表征元素的属性的词嵌入特征、表征元素所属类别的语句嵌入特征和表征元素的位置的位置嵌入特征。
根据每个训练拼接信息中预测文本的训练特征和训练描述信息的训练特征,确定预测实体链接向相应训练拼接信息中的训练描述信息的预测值;确定每个预测值相对于相应的训练描述信息的链接标签的预测差异。
根据实体掩码损失、随机掩码损失和预测差异进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型;实体识别层用于进行实体识别,实体链接初始模型中的实体链接层用于确定预测值。
从目标领域获取目标训练文本,从该目标领域对应的实体知识库中,确定与目标训练文本的训练实体在实体名称上匹配的多个候选实体;对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息;对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息。
通过实体识别层对目标训练文本进行实体识别处理,得到目标训练文本中的目标实体;通过实体链接层根据目标训练文本和每个标记有链接标签的训练描述信息,分别确定目标实体链接向每个训练描述信息的相应预测值;基于预测值相对于相应的训练描述信息的链接标签的差异,对实体链接层的参数进行调整并继续训练,获得该目标领域对应的实体链接模型。该目标领域对应的实体链接模型可以识别出该目标领域的各个应用场景的待链接文本中的实体,并为该实体输出该目标领域内的实体链接结果。按照相同的训练方式,可训练获得不同领域各自对应的实体链接模型。
通过训练得到的实体链接模型执行实体链接处理方法,包括:
通过实体链接模型的实体识别层对待链接文本进行实体识别处理,得到待链接实体。
通过实体链接模型基于待链接文本进行场景识别,得到待链接文本对应的应用场景。
通过实体链接模型,从与应用场景相匹配的实体知识库中,获取待链接实体对应的多个候选描述信息;将待链接文本分别和每个候选描述信息进行拼接,得到各个拼接信息,将每个拼接信息作为实体链接模型的实体链接层的输入。
通过实体链接层将每个拼接信息中的待链接文本和候选描述信息分别进行分词处理,获得每个拼接信息中待链接文本对应的元素和候选描述信息对应的元素;对相应拼接信息中待链接文本的元素和候选描述信息的元素分别进行属性特征映射,得到待链接文本的每个元素对应的词嵌入特征和候选描述信息的每个元素对应的词嵌入特征;对相应拼接信息中待链接文本的元素和候选描述信息的元素分别进行类别特征映射,得到待链接文本的每个元素对应的语句嵌入特征和候选描述信息的每个元素对应的语句嵌入特征;对相应拼接信息中待链接文本的元素和候选描述信息的元素分别进行位置特征映射,得到待链接文本的每个元素对应的位置嵌入特征和候选描述信息的每个元素对应的位置嵌入特征;对相应拼接信息中待链接文本的各元素对应的词嵌入特征、语句嵌入特征和位置嵌入特征进行特征编码,得到待链接文本对应的特征信息;对相应拼接信息中候选描述信息的各元素对应的词嵌入特征、语句嵌入特征和位置嵌入特征进行特征编码,得到候选描述信息对应的特征信息。
通过实体链接层根据待链接文本的特征信息和每个候选描述信息对应的特征信息,确定待链接实体分别链接向每个候选描述信息的候选值;通过实体链接层筛选出各候选值中最大候选值所对应的候选描述信息,作为待链接实体在应用场景下对应的实体链接结果。
本实施例中,从实体知识库中,确定与训练实体在实体名称上匹配的多个候选实体,以选择与训练实体在实体名称匹配的候选实体的描述信息,作为实体链接的正样本和负样本,能够在训练中加入实体链接领域信息,有助于模型提升在实体链接任务上的效果。对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息,从而将实体名称相同且实体语义相同的候选实体所对应的描述信息作为训练实体的正样本。对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息,使得训练实体所使用的负样本是与候选实体名称相同而语义不同的描述信息,而并非与训练实体完全无关的描述信息。实体名称匹配实体语义不匹配的候选实体与训练实体具有较高的相似度,并且训练实体所在的训练文本和实体语义不匹配的描述信息在整体语义上也具有较高的相似性,有效增加了模型判断训练文本和描述信息是否能够匹配的难度,使得模型在训练过程中需要更多地学习训练文本和描述信息这两个片段整体的语义信息,从而能够提高模型预测的精度。
对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本,通过随机掩码标记的上下文特征对随机掩码标记进行随机预测、通过实体掩码标记的上下文特征对实体掩码标记进行实体预测,获得随机掩码标记对应的预测字和实体掩码标记对应的预测实体,使得模型不仅能够学习每个单字的嵌入表示,还能够学习到基于词级别的实体的嵌入表示,以学习到实体所包含的语义信息,从而能够更加有效地识别出实体并进行下一阶段的实体消歧。
将每个训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个训练拼接信息中预测文本对应的元素和训练描述信息对应的元素,以对各元素进行特征编码,获得预测文本对应的训练特征和每个训练描述信息对应的训练特征。训练特征所包括的词嵌入特征能够体现单个元素的向量表示,语句嵌入特征能够表示哪些元素属于预测文本,哪些元素属于训练描述信息,以实现元素的类别识别,位置嵌入特征能够体现每个元素在所属句子中的位置。通过词嵌入特征、语句嵌入特征和位置嵌入特征来确定预测实体链接向相应训练拼接信息中的训练描述信息的预测值,能够结合元素的向量表示、元素所属类别和元素的位置等多方面特征,更准确地计算出预测实体链接向训练描述信息的预测值,能够通过预测值表征预测实体链接向各个训练描述信息的可能性。并且,使得模型在预训练过程中不仅学习到元素的向量表示,还学习到对每个元素所属类别的区分和每个元素输入的顺序属性,词嵌入特征和语句嵌入特征的结合使得模型更好地学习到句子的整体语义信息,再结合位置嵌入特征可使得模型学习到句子中的元素的顺序,有助于模型关注到句子整体语义的逻辑性,能够进一步能够提高模型的处理效果。
基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型,从而能够在预训练中学习到实体链接的领域知识,提升在实体链接任务中的效果。获取目标训练文本和目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息,通过目标训练文本和多个训练描述信息,对实体链接初始模型中的实体链接层进行训练,从而能够对预训练得到的实体链接层进行微调处理,能够降低训练过程中的数据量和训练时间,并且通过微调处理使得实体链接层的实体链接任务具备更精准的处理性能。
训练得到的实体链接模型可以从待链接文本中准确识别出待链接实体,并能够确定待链接实体链接向实体知识库的多个描述信息的候选值,从而准确地筛选出满足链接条件的描述信息作为待链接实体的实体链接结果,提高了实体链接的处理效率和准确性。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的实体链接模型处理方法的实体链接模型处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个实体链接模型处理装置实施例中的具体限定可以参见上文中对于实体链接模型处理方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种实体链接模型处理装置1000,包括:文本获取模块1002、信息获取模块1004、实体预测模块1006、链接预测模块1008和训练模块1010,其中:
文本获取模块1002,用于获取包括训练实体的训练文本。
信息获取模块1004,用于从实体知识库中确定与训练实体在实体名称上匹配的多个候选实体;对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息;对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息。
实体预测模块1006,用于对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本。
链接预测模块1008,用于根据预测文本和每个标记有链接标签的训练描述信息,分别确定预测实体链接向每个训练描述信息的相应预测值。
训练模块1010,用于基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
本实施例中,获取包括训练实体的训练文本,从实体知识库中,确定与训练实体在实体名称上匹配的多个候选实体,以选择与训练实体在实体名称匹配的候选实体的描述信息,作为实体链接的正样本和负样本,能够在训练中加入实体链接领域信息,有助于模型提升在实体链接任务上的效果。对于多个候选实体中与训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与训练实体对应的训练描述信息,从而将实体名称相同且实体语义相同的候选实体所对应的描述信息作为训练实体的正样本。对于多个候选实体中与训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与训练实体对应的训练描述信息,使得训练实体所使用的负样本是与候选实体名称相同而语义不同的描述信息,而并非与训练实体完全无关的描述信息。对训练文本进行训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,使得模型在训练中能够学习实体的语义信息、捕获实体的有效信息,从而能够准确识别出文本中的实体。实体名称匹配实体语义不匹配的候选实体与训练实体具有较高的相似度,并且训练实体所在的训练文本和实体语义不匹配的描述信息在整体语义上也具有较高的相似性,有效增加了模型判断训练文本和描述信息是否能够匹配的难度,而根据预测文本和每个标记有链接标签的训练描述信息,分别确定预测实体链接向每个训练描述信息的相应预测值,使得模型在训练过程中能够更多地学习文本整体的语义信息和描述信息整体的语义信息,更好地捕捉文本和描述信息之间的关联关系。根据文本和描述信息的整体语义关系计算出预测文本中预测实体指向正例标签的训练描述信息的预测值和指向负例标签的训练描述信息的预测值,能够通过预测值表征预测实体链接向各个训练描述信息的可能性。基于预测值相对于相应正例标签和负例标签之间的预测差异进行模型训练,能够根据模型的预测链接结果和真实的链接结果之间的差异对模型进行训练以降低模型的预测误差,从而获得实体链接模型。
训练得到的实体链接模型可以从待链接文本中准确识别出待链接实体,并能够确定待链接实体链接向实体知识库的多个候选描述信息的候选值,从而准确地筛选出满足链接条件的候选描述信息作为待链接实体的实体链接结果,提高了实体链接的处理效率和准确性。
在一个实施例中,实体预测模块1006,还用于对训练文本进行训练实体的掩码处理,获得包括实体掩码标记的掩码文本;基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本。
本实施例中,对训练文本进行训练实体的掩码处理,以通过实体掩码标记对训练文本中的至少一个训练实体进行屏蔽,获得包括实体掩码标记的掩码文本。基于掩码文本对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,使得模型在训练中能够学习实体的语义信息、捕获实体的有效信息,从而获得对实体的识别能力,以准确识别出文本中的实体。
在一个实施例中,实体预测模块1006,还用于提取实体掩码标记在掩码文本中对应的上下文特征;根据上下文特征对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本。
本实施例中,提取实体掩码标记在掩码文本中对应的上下文特征,根据上下文特征对实体掩码标记进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本,使得能够结合实体掩码标记的上文特征和下文特征,准确识别出被屏蔽的实体。
在一个实施例中,实体预测模块1006,还用于确定训练实体中的头实体和尾实体,以及头实体和尾实体在训练文本中的关联关系;对头实体或尾实体进行掩码处理,获得包括实体掩码标记的掩码文本;基于头实体和尾实体中未被掩码的实体,以及关联关系进行实体预测,获得实体掩码标记对应的预测实体,以及包括预测实体的预测文本。
本实施例中,确定训练实体中的头实体和尾实体,以及头实体和尾实体在训练文本中的关联关系,头实体、尾实体和两者的关联关系可以构成三元组,对三元组中的头实体或尾实体进行掩码处理,获得包括实体掩码标记的掩码文本。头实体和尾实体之间的关联关系具有独特性,能够表征两个实体在训练文本中的独特关系,根据两者的关联关系和另外一个实体,能够准确预测出被掩码的实体。
在一个实施例中,实体预测模块1006,还用于对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本;基于掩码文本对实体掩码标记进行实体预测和对随机掩码标记进行随机预测,获得实体掩码标记对应的预测实体和随机掩码标记对应的预测字,以及包括预测实体和预测字的预测文本。
本实施例中,对训练文本进行训练实体的掩码处理,并对训练文本中除训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本,以对实体掩码标记进行实体预测和对随机掩码标记进行随机预测,获得实体掩码标记对应的预测实体和随机掩码标记对应的预测字,使得模型不仅能够学习每个单字的嵌入表示,还能够学习到基于词级别的实体的嵌入表示,以学习到实体所包含的语义信息,从而能够更加有效地识别出实体并进行下一阶段的实体消歧。
在一个实施例中,训练模块1010,还用于按照针对实体链接模型的目标损失函数,确定预测实体和训练实体之间的实体掩码损失、预测字和训练字之间的随机掩码损失,以及预测值相对于相应的训练描述信息的链接标签的预测差异;基于目标损失函数、实体掩码损失、随机掩码损失和预测差异进行模型训练,获得实体链接模型。
本实施例中,实体掩码损失表征模型预测的实体和真实的实体之间的差异,随机掩码损失表征模型预测的字和真实的字之间的差异。预测差异表征模型预测的实体链接结果和真实的实体链接结果之间的差异。基于目标损失函数、实体掩码损失、随机掩码损失和预测差异进行模型训练,能够结合模型在实体预测、在训练文本中的字预测和在实体链接结果预测等多个方面的损失进行模型训练,能够提高模型在实体预测和实体链接上的准确性。
在一个实施例中,链接预测模块1008,还用于对预测文本和每个标记有链接标签的训练描述信息分别进行拼接,得到对应的训练拼接信息;对每个训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个训练拼接信息中的预测文本和训练描述信息各自对应的训练特征;根据每个训练拼接信息中预测文本的训练特征和训练描述信息的训练特征,确定预测实体链接向相应训练拼接信息中的训练描述信息的预测值。
本实施例中,对预测文本和每个标记有链接标签的训练描述信息分别进行拼接,得到对应的训练拼接信息,使得训练拼接信息中训练描述信息都是对该训练拼接信息中预测文本的预测实体的描述。对每个训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个训练拼接信息中的预测文本和训练描述信息各自对应的训练特征,以提取训练拼接信息中两个语句各自对应的关键特征信息,以基于训练拼接信息中两个语句的关键特征信息,判断训练拼接信息中的两个语句是否相似或是否匹配,从而准确地计算出训练描述信息作为预测实体的实体链接结果的可能性。
在一个实施例中,链接预测模块1008,还用于将每个训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个训练拼接信息中预测文本对应的元素和训练描述信息对应的元素;对于每个训练拼接信息,基于相应训练拼接信息中预测文本对应的元素进行特征编码,得到每个训练拼接信息中预测文本对应的训练特征;对于每个训练拼接信息,基于相应训练拼接信息中训练描述信息对应的元素进行特征编码,得到每个训练拼接信息中训练描述信息对应的训练特征;其中,训练特征包括表征元素的属性的词嵌入特征、表征元素所属类别的语句嵌入特征和表征元素的位置的位置嵌入特征。
本实施例中,将每个训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个训练拼接信息中预测文本对应的元素和训练描述信息对应的元素,以对各元素进行特征编码,获得预测文本对应的训练特征和每个训练描述信息对应的训练特征。训练特征所包括的词嵌入特征能够体现单个元素的向量表示,语句嵌入特征能够表示哪些元素属于预测文本,哪些元素属于训练描述信息,以实现元素的类别识别,位置嵌入特征能够体现每个元素在所属句子中的位置。通过词嵌入特征、语句嵌入特征和位置嵌入特征来确定预测实体链接向相应训练拼接信息中的训练描述信息的预测值,能够结合元素的向量表示、元素所属类别和元素的位置等多方面特征,更准确地计算出预测实体链接向训练描述信息的预测值。并且,使得模型在训练过程中不仅学习到元素的向量表示,还学习到对每个元素所属类别的区分和每个元素输入的顺序属性,词嵌入特征和语句嵌入特征的结合使得模型更好地学习到句子的整体语义信息,再结合位置嵌入特征可使得模型学习到句子中的元素的顺序,有助于模型关注到句子整体语义的逻辑性,能够进一步能够提高模型的处理效果。
在一个实施例中,训练模块1010,还用于基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型;实体识别层用于识别训练文本中的训练实体,实体链接层用于确定预测值;获取目标训练文本和目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息;通过目标训练文本和多个训练描述信息,对实体链接初始模型中的实体链接层进行训练,获得实体链接模型。
本实施例中,基于预测值相对于相应的训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型,从而能够在预训练中学习到实体链接的领域知识,提升在实体链接任务中的效果。获取目标训练文本和目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息,通过目标训练文本和多个训练描述信息,对实体链接初始模型中的实体链接层进行训练,从而能够对预训练得到的实体链接层进行微调处理,能够降低训练过程中的数据量和训练时间,并且通过微调处理使得实体链接层的实体链接任务具备更精准的处理性能。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的实体链接处理方法的实体链接处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个实体链接处理装置实施例中的具体限定可以参见上文中对于实体链接处理方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种实体链接处理装置1100,包括:实体识别模块1102、信息确定模块1104、编码模块1106、链接确定模块1108和链接筛选模块1110,其中:
实体识别模块1102,用于通过实体链接模型处理装置训练获得的实体链接模型,对待链接文本进行实体识别处理,得到待链接实体。
信息确定模块1104,用于通过实体链接模型确定待链接实体在实体知识库中对应的多个候选描述信息。
编码模块1106,用于通过实体链接模型对待链接文本和各候选描述信息分别进行特征编码,得到待链接文本和每个候选描述信息各自对应的特征信息。
链接确定模块1108,用于通过实体链接模型根据待链接文本的特征信息和每个候选描述信息对应的特征信息,确定待链接实体分别链接向每个候选描述信息的候选值。
链接筛选模块1110,用于通过实体链接模型基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体对应的实体链接结果。
本实施例中,通过实体链接模型处理装置训练获得的实体链接模型,对待链接文本进行实体识别处理,以准确识别出需要进行实体链接的待链接实体。通过实体链接模型确定待链接实体在实体知识库中对应的多个候选描述信息,能够确定出实体知识库中存在的可能作为待链接实体的实体链接结果的各个候选描述信息,以进一步对待链接实体进行实体消歧。通过实体链接模型对待链接文本和各候选描述信息分别进行特征编码,得到各自对应的特征信息,根据待链接文本的特征信息和每个候选描述信息对应的特征信息,确定待链接实体分别链接向每个候选描述信息的候选值,从而能够计算出每个候选描述信息作为待链接实体的实体链接结果的可能性。通过实体链接模型基于各候选值结合链接条件,从多个候选描述信息中准确筛选出待链接实体对应的实体链接结果,实现了实体消歧,使得实体链接更准确。并且,通过实体链接模型进行实体识别和实体消歧,提高了实体链接的处理效率。
在一个实施例中,信息确定模块1104,还用于通过实体链接模型基于待链接文本进行场景识别,得到待链接文本对应的应用场景;通过实体链接模型,从与应用场景相匹配的实体知识库中,获取待链接实体对应的多个候选描述信息;
链接筛选模块1110,还用于通过实体链接模型基于各候选值,从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体在应用场景下对应的实体链接结果。
本实施例中,通过实体链接模型基于待链接文本进行场景识别,能够识别出待链接文本所处的应用场景,以获取待链接实体在该应用场景下的实体知识库中所对应的多个候选描述信息,从特定场景的实体知识库中获取候选描述信息能够避免相同实体在不同应用场景具有不同含义而链接错误的情况。基于各候选值从多个候选描述信息中筛选出满足链接条件的目标描述信息,作为待链接实体在应用场景下对应的实体链接结果,从而能够获得待链接实体在特定场景下的实体链接结果,结合应用场景进一步提高实体链接的准确性。
上述实体链接模型处理装置、实体链接处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端或服务器。以终端为例,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种实体链接模型处理方法和一种实体链接处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory,MRAM)、铁电存储器(Ferroelectric RandomAccess Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static RandomAccess Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccessMemory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (15)

1.一种实体链接模型处理方法,其特征在于,所述方法包括:
获取包括训练实体的训练文本,从实体知识库中确定与所述训练实体在实体名称上匹配的多个候选实体;
对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与所述训练实体对应的训练描述信息;
对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与所述训练实体对应的训练描述信息;
对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本;
根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值;
基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本,包括:
对所述训练文本进行所述训练实体的掩码处理,获得包括实体掩码标记的掩码文本;
基于所述掩码文本对所述实体掩码标记进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述掩码文本对所述实体掩码标记进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本,包括:
提取所述实体掩码标记在所述掩码文本中对应的上下文特征;
根据所述上下文特征对所述实体掩码标记进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本。
4.根据权利要求2所述的方法,其特征在于,所述对所述训练文本进行所述训练实体的掩码处理,获得包括实体掩码标记的掩码文本,包括:
确定所述训练实体中的头实体和尾实体,以及所述头实体和所述尾实体在所述训练文本中的关联关系;
对所述头实体或所述尾实体进行掩码处理,获得包括实体掩码标记的掩码文本;
所述基于所述掩码文本对所述实体掩码标记进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本,包括:
基于所述头实体和所述尾实体中未被掩码的实体,以及所述关联关系进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本。
5.根据权利要求2所述的方法,其特征在于,所述对所述训练文本进行所述训练实体的掩码处理,获得包括实体掩码标记的掩码文本,包括:
对所述训练文本进行所述训练实体的掩码处理,并对所述训练文本中除所述训练实体以外的训练字进行随机掩码处理,获得包括实体掩码标记和随机掩码标记的掩码文本;
所述基于所述掩码文本对所述实体掩码标记进行实体预测,获得所述实体掩码标记对应的预测实体,以及包括所述预测实体的预测文本,包括:
基于所述掩码文本对所述实体掩码标记进行实体预测和对所述随机掩码标记进行随机预测,获得所述实体掩码标记对应的预测实体和所述随机掩码标记对应的预测字,以及包括所述预测实体和所述预测字的预测文本。
6.根据权利要求5所述的方法,其特征在于,所述基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
按照针对所述实体链接模型的目标损失函数,确定所述预测实体和所述训练实体之间的实体掩码损失、所述预测字和所述训练字之间的随机掩码损失,以及所述预测值相对于相应的所述训练描述信息的链接标签的预测差异;
基于所述目标损失函数、所述实体掩码损失、所述随机掩码损失和所述预测差异进行模型训练,获得实体链接模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值,包括:
对所述预测文本和每个标记有所述链接标签的所述训练描述信息分别进行拼接,得到对应的训练拼接信息;
对每个所述训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个所述训练拼接信息中的预测文本和训练描述信息各自对应的训练特征;
根据每个所述训练拼接信息中预测文本的训练特征和训练描述信息的训练特征,确定所述预测实体链接向相应训练拼接信息中的训练描述信息的预测值。
8.根据权利要求7所述的方法,其特征在于,所述对每个所述训练拼接信息中的预测文本和训练描述信息分别进行特征编码,得到每个所述训练拼接信息中的预测文本和训练描述信息各自对应的训练特征,包括:
将每个所述训练拼接信息中的预测文本和训练描述信息分别进行分词处理,获得每个所述训练拼接信息中所述预测文本对应的元素和所述训练描述信息对应的元素;
对于每个所述训练拼接信息,基于相应训练拼接信息中预测文本对应的元素进行特征编码,得到每个所述训练拼接信息中预测文本对应的训练特征;
对于每个所述训练拼接信息,基于相应训练拼接信息中训练描述信息对应的元素进行特征编码,得到每个所述训练拼接信息中训练描述信息对应的训练特征;
其中,所述训练特征包括表征所述元素的属性的词嵌入特征、表征所述元素所属类别的语句嵌入特征和表征所述元素的位置的位置嵌入特征。
9.根据权利要求1所述的方法,其特征在于,所述基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型,包括:
基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型预训练,获得包括实体识别层和实体链接层的实体链接初始模型;所述实体识别层用于识别所述训练文本中的训练实体,所述实体链接层用于确定预测值;
获取目标训练文本和所述目标训练文本的训练实体在实体知识库中对应的多个标记有链接标签的训练描述信息;
通过所述目标训练文本和多个所述训练描述信息,对所述实体链接初始模型中的所述实体链接层进行训练,获得实体链接模型。
10.一种实体链接处理方法,其特征在于,所述方法包括:
通过如权利要求1-9任一项所述的实体链接模型处理方法训练获得的所述实体链接模型,对待链接文本进行实体识别处理,得到待链接实体;
通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息;
通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到所述待链接文本和每个所述候选描述信息各自对应的特征信息;
通过所述实体链接模型根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值;
通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果。
11.根据权利要求10所述的方法,其特征在于,所述通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息,包括:
通过所述实体链接模型基于所述待链接文本进行场景识别,得到所述待链接文本对应的应用场景;
通过所述实体链接模型,从与所述应用场景相匹配的实体知识库中,获取所述待链接实体对应的多个候选描述信息;
所述通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果,包括:
通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体在所述应用场景下对应的实体链接结果。
12.一种实体链接模型处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取包括训练实体的训练文本;
信息获取模块,用于从实体知识库中确定与所述训练实体在实体名称上匹配的多个候选实体;对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描述信息,标记链接标签为正例标签并作为与所述训练实体对应的训练描述信息;对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的描述信息,标记链接标签为负例标签并作为与所述训练实体对应的训练描述信息;
实体预测模块,用于对所述训练文本进行所述训练实体的掩码处理,并基于掩码处理所得到的文本进行实体预测,获得包括预测实体的预测文本;
链接预测模块,用于根据所述预测文本和每个标记有所述链接标签的所述训练描述信息,分别确定所述预测实体链接向每个所述训练描述信息的相应预测值;
训练模块,用于基于所述预测值相对于相应的所述训练描述信息的链接标签的预测差异,进行模型训练,获得实体链接模型。
13.一种实体链接处理装置,其特征在于,所述装置包括:
实体识别模块,用于通过如权利要求12所述的实体链接模型处理装置训练获得的所述实体链接模型,对待链接文本进行实体识别处理,得到待链接实体;
信息确定模块,用于通过所述实体链接模型确定所述待链接实体在实体知识库中对应的多个候选描述信息;
编码模块,用于通过所述实体链接模型对所述待链接文本和各所述候选描述信息分别进行特征编码,得到所述待链接文本和每个所述候选描述信息各自对应的特征信息;
链接确定模块,用于通过所述实体链接模型根据所述待链接文本的特征信息和每个所述候选描述信息对应的特征信息,确定所述待链接实体分别链接向每个所述候选描述信息的候选值;
链接筛选模块,用于通过所述实体链接模型基于各所述候选值,从多个所述候选描述信息中筛选出满足链接条件的目标描述信息,作为所述待链接实体对应的实体链接结果。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202210990832.7A 2022-08-18 2022-08-18 实体链接模型处理方法、装置和实体链接处理方法、装置 Active CN115329755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210990832.7A CN115329755B (zh) 2022-08-18 2022-08-18 实体链接模型处理方法、装置和实体链接处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210990832.7A CN115329755B (zh) 2022-08-18 2022-08-18 实体链接模型处理方法、装置和实体链接处理方法、装置

Publications (2)

Publication Number Publication Date
CN115329755A true CN115329755A (zh) 2022-11-11
CN115329755B CN115329755B (zh) 2023-10-31

Family

ID=83923968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210990832.7A Active CN115329755B (zh) 2022-08-18 2022-08-18 实体链接模型处理方法、装置和实体链接处理方法、装置

Country Status (1)

Country Link
CN (1) CN115329755B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732862A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
US20210383069A1 (en) * 2020-06-09 2021-12-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, and storage medium for linking entity
CN113779225A (zh) * 2021-09-17 2021-12-10 工银科技有限公司 实体链接模型的训练方法、实体链接方法及装置
CN114519397A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 基于对比学习的实体链接模型的训练方法、装置、设备
CN114707494A (zh) * 2022-02-21 2022-07-05 北京邮电大学 一种端到端的实体链接模型训练方法、实体链接方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210383069A1 (en) * 2020-06-09 2021-12-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, and storage medium for linking entity
CN112732862A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN113779225A (zh) * 2021-09-17 2021-12-10 工银科技有限公司 实体链接模型的训练方法、实体链接方法及装置
CN114707494A (zh) * 2022-02-21 2022-07-05 北京邮电大学 一种端到端的实体链接模型训练方法、实体链接方法及装置
CN114519397A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 基于对比学习的实体链接模型的训练方法、装置、设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DA LI 等: "Multi-task Pre-training Language Model for Semantic Network Completion", HTTPS://ARXIV.ORG/ABS/2201.04843, pages 1 - 10 *
ÖZGE SEVGILI 等: "Neural Entity Linking: A Survey of Models Based on Deep Learning", HTTPS://ARXIV/ABS/2006.00575, pages 1 - 35 *

Also Published As

Publication number Publication date
CN115329755B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
CN113282711A (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN115935991A (zh) 多任务模型生成方法、装置、计算机设备和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Chen et al. Attention alignment multimodal LSTM for fine-gained common space learning
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN115329755B (zh) 实体链接模型处理方法、装置和实体链接处理方法、装置
CN111259650A (zh) 基于类标序列生成式对抗模型的文本自动生成方法
CN115129364B (zh) 基于抽象语法树和图神经网络的指纹身份识别方法和系统
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN114281938A (zh) 关系抽取方法、装置、设备和存储介质
Li et al. An image retrieval method based on semantic matching with multiple positional representations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40075657

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant