CN112966513B - 用于实体链接的方法和装置 - Google Patents
用于实体链接的方法和装置 Download PDFInfo
- Publication number
- CN112966513B CN112966513B CN202110245994.3A CN202110245994A CN112966513B CN 112966513 B CN112966513 B CN 112966513B CN 202110245994 A CN202110245994 A CN 202110245994A CN 112966513 B CN112966513 B CN 112966513B
- Authority
- CN
- China
- Prior art keywords
- entity
- candidate
- feature
- type
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 144
- 238000012549 training Methods 0.000 claims description 66
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010422 painting Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开公开了用于实体链接的方法和装置,涉及人工智能领域,尤其涉及自然语言处理、知识图谱和深度学习领域。根据一种实施例的具体实现方案为:确定文本中指示待识别实体的短语;基于知识库,获取与短语相关联的一组候选实体;以及基于文本的第一特征、候选实体的候选类型特征以及语言处理模型,确定针对短语的处理结果,语言处理模型用于确定与待识别实体相对应的目标候选实体、以及短语所属的目标类型。以此方式,能够高效且准确地对指示待识别实体的短语进行处理。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及自然语言处理、知识图谱和深度学习领域。更具地,本公开涉及用于实体链接的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
在信息时代,数据库中存在海量的知识信息。这些知识信息通常基于实体(entity)来分开存储。这些知识信息可以按照自然语言形式的文本来呈现。实体链接技术用于将文本中的某一或某些短语构成的实体映射到数据库中对应的实体上。由于自然语言本身的歧义性,由短语构成的实体的指称(mention)可能对应于多个不同的实体。此外,由于数据库中已有的实体的有限性,对于某些指称,在数据库中可能并不存在对应的已有实体,因此需要对该指称所对应的实体进行识别。然而,对于可能具有歧义、或在数据库中不存在对应已有实体的指称,传统实体链接方案效率不高,准确度也有待改进。
发明内容
本公开提供了一种用于实体链接的方法、装置、设备、存储介质以及计算机程序。
根据本公开的第一方面,提供了一种用于实体链接的方法,该方法包括:确定文本中指示待识别实体的短语;基于知识库,获取与短语相关联的一组候选实体;以及基于文本的第一特征、候选实体的候选类型特征以及语言处理模型,确定针对短语的处理结果,语言处理模型用于确定与待识别实体相对应的目标候选实体、以及短语所属的目标类型。
根据本公开的第二方面,提供了一种训练用于实体链接的语言处理模型的方法,语言处理模型用于识别与文本中的短语所指示的待识别实体相对应的目标候选实体、以及短语所属的目标类型,该方法包括:基于知识库,获取与短语相关联的一组候选实体;至少基于文本的第一特征、一组候选实体中的候选实体的候选类型特征,确定第一约束和第二约束,第一约束与候选实体和待识别实体之间的差异有关,第二约束目标类型与短语相对应的预测类型之间的差异有关;以及至少基于第一约束和第二约束,训练语言处理模型。
根据本公开的第三方面,提供了一种用于实体链接的装置,该装置包括短语确定模块,被配置为确定文本中指示待识别实体的短语;候选实体获取模块,被配置为获基于知识库,取与短语相关联的一组候选实体;以及处理结果确定模块,被配置为基于文本的第一特征、候选实体的候选类型特征以及语言处理模型,确定针对短语的处理结果,语言处理模型用于确定与待识别实体相对应的目标候选实体、以及短语所属的目标类型。
根据本公开的第四方面,提供了一种训练用于实体链接的语言处理模型的装置,语言处理模型用于识别与文本中的短语所指示的待识别实体相对应的目标候选实体、以及短语所属的目标类型,该装置包括:候选实体获取模块,被配置为基于知识库,获取与短语相关联的一组候选实体;语言处理模型约束确定模块,被配置为至少基于文本的第一特征、一组候选实体中的候选实体的候选类型特征,确定第一约束和第二约束,第一约束与候选实体和待识别实体之间的差异有关,第二约束目标类型与短语相对应的预测类型之间的差异有关;以及训练模块,被配置为至少基于第一约束和第二约束,训练语言处理模型。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,该存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开的第一方面或第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开的第一方面或第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时,实现根据本公开的第一方面或第二方面所述的方法。
根据本公开的方案能够高效且准确地对指示待识别实体的短语进行处理。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1是示出了本公开的多个实施例能够在其中实现的示例环境的示意图。
图2示出了根据本公开的一些实施例的训练用于实体链接的语言处理模型的方法的流程图。
图3示出了根据本公开的一些实施例的语言处理模型的示意图。
图4示出了根据本公开的一些实施例的用于实体链接的方法的流程图。
图5示出了根据本公开的一些实施例的用于确定处理结果的方法的流程图。
图6示出了根据本公开的实施例的训练用于实体链接的语言处理模型的装置的示意框图。
图7示出了根据本公开的实施例的用于实体链接的装置的示意框图。
图8示出了能够实施本公开的多个实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在本公开的实施例的描述中,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“模型”有时也可以被称为“神经网络”、“学习模型”、“学习网络”或“网络”。这些术语在本文中可互换地使用。
术语“特征”可以指代用于表示:包括指示待识别实体的短语(有时也被成为实体的指称)的文本的特性、用于表示用于描述实体的特性的描述文本的特性、或用于表示实体类型的特性的特征向量或矩阵(有时候也被称为特征表示)。特征表示的性质使距离相近的向量所对应的实体有相近的含义。通过利用“特征”,能够用低维向量对实体进行编码同时能保留其含义,这非常适合深度学习。
如上所讨论的,对于可能具有歧义、或在数据库中不存在对应已有实体的指称,传统实体链接方案效率不高,准确度也有待改进。例如,传统实体链接方案通常会先采用候选实体消歧模型或算法,来执行从一组候选实体中选取与短语相对应的候选实体的任务。在一组候选实体中不存在与该短语相对应的候选实体对应的候选实体的情况下,再采用实体类型预测模型或算法,来执行对该短语所对应的实体类型进行预测的任务。因此,在实体链接期间,候选实体消歧任务、以及实体类型预测任务分别在两个阶段通过两个不同的模型或算法来执行,耗时长而且消耗大量的计算资源。而且,在候选实体消歧任务中,所利用的特征不包括对应于短语的实体类型的特征,因而,候选实体消歧任务的准确性仍需进一步改进。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开的实施例提出了一种基于具有候选实体消歧和实体类型预测两种功能的联合的语言处理模型,来对文本中的短语进行处理的技术方案。以此方式,可以在一次处理中,同时且准确地确定与短语相对应的目标候选实体和/或与短语相对应的实体类型。具体地,可以基于机器学习技术,来生成和训练如上所述的模型,并且继而使用经训练的模型来执行候选实体消歧和实体类型预测的处理。
在训练阶段中,至少基于与短语所在的文本相关联的特征、与该短语的候选实体相关联的特征、与候选实体的候选类型相对应的特征,可以构建一个训练样本。以类似的方式,可以构建包含多个训练样本的训练样本集,以用于训练如上所述的联合的语言处理模型,该联合的语言处理模型至少包括用于将文本转换为特征的层、用于确定短语所指示的实体的预测类型特征的层、以及用于确定预测类型与候选实体的候选类型之间的相似度特征的层。基于预测类型特征,可以确定与实体类型预测有关的损失(在本文中有时也被称为第二约束、第二损失),并且至少基于相似度特征,可以确定与实体消歧有关的损失(在本文中有时也被称为第一约束、第一损失)。然后可以例如通过最小化上述损失中的至少一者的方式,对模型联合的语言处理模型进行训练以获取经训练的语言处理模型。
在使用阶段,可以利用与短语所在的文本相关联的特征、与该短语的一个或一组候选实体相关联的特征、与一个或一组候选实体的候选类型相对应的特征来构建输入特征,将输入特征输入到如上所述的经训练的联合的语言处理模型中进行处理以获取对应的输出。基于模型的输出可以执行进一步的处理,例如,确定该短语所指示的目标候选实体、将该短语链接到所确定目标候选实体、确定该短语所指示的实体类型和/或将该短语与所确定实体类型相关联。
以此方式所训练的联合的语言处理模型能够(例如,同时或大致同时地)确定短语所对应的目标候选实体和实体类型,即执行候选实体消歧任务以及实体类型预测任务二者。附加地,借助与候选实体相关的类型信息,能够提高所训练的模型执行实体消歧任务所得的结果的准确性。
在下文中,首先参见图1描述本公开的环境。图1是示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,环境100包括计算设备120。计算设备120可以是任何具有计算能力的设备。作为非限制性示例,计算设备120可以是任意类型的固定计算设备、移动计算设备或便携式计算设备,包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等;计算设备120的全部组件或一部分组件可以分布在云端。计算设备120至少包含处理器、存储器以及其他通常存在于通用计算机中的组件,以便实现计算、存储、通信、控制等功能。
计算设备120可以获取输入110。计算设备120可以将输入110应用于语言处理模型130(在本文中有时也被简称为模型),以利用语言处理模型130,生成与输入120相对应的处理结果140。在一些实施例中,计算设备120还可以选取合适的初始模型进行训练以获取模型130。初始训练模型包括但不限于支持向量机(SVM)模型,贝叶斯模型,随机森林模型,各种深度学习/神经网络模型,诸如卷积神经网络(CNN)、循环神经网络(RNN)、深度神经网络(DNN)、深度强化学习网路(DQN)等。
在一些实施例中,模型130可以利用各种预先训练好的神经网络模型而生成。预先训练好的神经网络模型包括但不限于诸如BERT(Bidirectional Encoder Representationfrom Transformers,基于转换器的深度双向语言表征模型)、基于ERNIE(文心)的自然语义理解模型、诸如条件随机场(CRF)的序列标注模型等。在一些实施例中,模型也可以指代将不同的模型组合而形成联合的模型。
环境100还可以包括训练数据获取装置、模型训练装置和模型应用装置(未示出)。在一些实施例中,上述多个装置可以分别实现在不同的物理计算设备中。备选地,上述多个装置中的至少一部分装置可以被实现在同一计算设备中。例如,训练数据获取装置、模型训练装置和可以被实现在同一计算设备中,而模型应用装置可以被实现在另一计算设备中。
在模型训练阶段,训练数据获取装置可以获取输入110,并将其提供给模型130。输入110可以是训练集、验证集和测试集中的一者,并且模型130是待训练模型。模型训练装置可以基于输入110对模型130进行训练。例如,处理结果140可以是用于对模型130的参数(例如,权重和偏置等)进行调整的至少一个约束(有时也被称为损失),其可以表征模型130的性能指标(例如,准确性)。训练是通过调整模型130的参数,使得至少一个约束朝向减小的方向移动。
在模型应用阶段,经训练的模型130可以被提供给模型应用装置。模型应用装置可以获取经训练的模型130以及输入110,并确定针对输入110的处理结果140。在该阶段,输入110可以是待处理的输入数据(例如,待处理的文本和/或用于描述与候选实体有关的内容信息的描述文本),处理结果140可以与输入110中的短语相对应,例如,处理结果140可以是以下至少一项:确定该短语所指示的目标候选实体、将该短语链接到所确定目标候选实体、确定该短语所指示的实体类型、以及将该短语与所确定实体类型相关联。
应当理解,仅出于示例性的目的描述环境100中的架构和功能,而不暗示对本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的环境中。
下文将结合图2至图5详细描述根据本公开实施例的方法。为了便于理解,在下文描述中提及的具体数据均是示例性的,并不用于限定本公开的保护范围。为了便于描述,以下结合图1所示的示例性环境100来描述根据本公开实施例的方法。根据本公开实施例的方法可以分别在图1中示出的计算设备120或其他适当的设备中实现。应当理解,根据本公开实施例的方法还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
图2示出了根据本公开的一些实施例的训练用于实体链接的语言处理模型的方法200的流程图。可以基于方法200来训练语言处理模型,在此的语言处理模型用于识别与文本中的短语所指示的待识别实体相对应的目标候选实体、以及短语所属的目标类型。语言处理模型可以通过模型训练而获取。方法300例如可以在图1中所示的计算设备120处实现。如图2所示,在202,计算设备120可以基于知识库,获取与文本中的短语相关联的一组候选实体。知识库可以包含多个实体,换言之可以存储有多个实体的数据并可以对其进行更新,该多个实体的数据以结构化的方式存储或链接在一起。每个实体的数据在知识库中可以具有唯一的标识符,该标识符可以是该实体的指称、该实体的存储位置或链接等。该一组候选实体的获取过程可以按各种方式来获取,例如,通过使用短语与知识库中的多个实体的指称进行精确匹配来获取,或者通过使用短语与知识库中的多个实体的指称进行模糊匹配(诸如,考虑同义词或近义词)来获取。为了便于理解,下面将结合图3来详细描述获取候选实体和模型的训练的其他过程。图3示出了根据本公开的一些实施例的语言处理模型的示意图。应当理解的是,图3中所示出的语言处理模型的结构仅为一示例,用于实现本公开的实施例的语言处理模型可以包括更多或更少的层,或者其中的一些层可以被拆分或合并,本公开并不以此为限。
具体地,参考图3,将被输入到语言处理模型330的训练样本310可以包括文本312。文本312可以是待进行实体链接的文本。文本312例如可以包括一个或多个未经处理的句子,其中包括多个字符312-1、312-2、312-3、……、312-n,n为正整数。在一个示例中,文本312可以是如下待进行处理的文本“小品《AA故事》中,BB突破重重障碍解救爱人,深情告白太感人”。多个字符中的相邻的至少一个字符可以是实体的指称,例如,字符312-1和字符312-2所组成的短语“小品”为一实体指称。可以理解的是,尽管在此仅示出了一个实体指称“小品”,文本312中可以包括多于一个实体指称,其可以利用本公开所描述的方法进行处理。例如,上述示例中的字符AA和字符BB也可以是实体指称。
在一些实施例中,可以由计算设备120基于语言处理模型来执行命名实体识别,来对文本312中的多个字符进行标注,例如,可以采用标记“S”(开始)来标注实体指称的开始位置、并且采用标记“E”来标注实体指称的结束位置。基于经标注的多个字符,计算设备可以确定文本中的短语。在一些实施例中,由“S”标注的开始位置和由“E”标注的结束位置可以由模型330的特征提取层331进行提取,以获得其对应的诸如以向量形式的开始位置特征332-2和结束位置特征332-3。
在一些实施例中,可以由计算设备基于语言处理模型来提取与文本312相对应的第一特征,第一特征描述与文本312的语义有关的信息,在一些实施例中,第一特征可以采取词向量的形式,以用于表征文本312的语义。第一特征的提取可以例如由语言处理模型的特征提取层331来实现。特征提取层331可以采用各种能够将文本转换为向量形式的模型或算法来实现,诸如上文中所提及的各种神经网络模型。
在一些实施例中,文本312的开端和末端均可用标识符来进行标识,例如,可以在“小品”之前添加第一标识符“[CLS]”来进行标识,并且在“感人”之后添加第二标识符“[SEP]”来进行标识。
所确定的短语具有多种不同的含义、因此可能对应不同的一组候选实体。例如,还是以上述文本中的短语“小品”为例。该指称可以指示一种艺术表现形式。与具有这样的含义的“小品”相对应的用于描述与其有关的内容信息的描述文本为:“小品,就是小的艺术品。在散文中指篇幅较短的文学样式;狭义的小品泛指较短的关于说和演的艺术”。“小品”还可以指示一种字画装裱形式。与具有这样的含义的“小品”相对应的用于描述与其有关的内容信息的描述文本为:“小品,就是指体积较细的字画。可横可直,装裱之后,适宜悬挂较细墙壁或房间,十分精致”。
在一些实施例中,考虑到短语所指示的实体可能并不是诸如知识库的数据库中现有的实体,因此计算设备可以获取包括空实体(例如,可以通过NIL来标识)在内的一组候选实体。如果短语所指示的待识别实体不存在于数据库中,计算设备可以确定短语所指示的待识别实体是空实体。
回到图2,在204,计算设备120可以至少基于文本的第一特征、一组候选实体中的候选实体的候选类型特征,确定第一约束和第二约束。第一约束与候选实体和待识别实体之间的差异有关,第二约束目标类型与短语相对应的预测类型之间的差异有关。
继续参考图3来进行详细说明。将输入到语言处理模型330的训练样本310还可以包括一组候选实体的一个候选实体的候选类型特征316,该候选类型特征316将有助于模型330的输出340-1(在训练阶段的实施例中,即第一约束)的确定。可以理解的是,对于一组候选实体中的每个候候选实体,可以按照类似的方式来生成对应的训练样本。
候选类型特征316描述与候选实体的类型有关的信息,其可以采取候选类型特征向量的形式。在一些实施例中,该候选类型特征316可采取one-hot(独热)编码(例如,向量)的形式。例如,假设总共存在三种类型,人物、地点或其他,则属于人物类型的候选实体的候选类型特征316可以采取向量(1,0,0),属于地点类型的候选实体的候选类型特征316可以采取向量(0,1,0),属于其他类型的候选实体的候选类型特征316可以采取向量(0,0,1)。可以理解的是,候选类型特征将准确的表示候选实体的类型。将理解的是,类型的数目可以依据实际情况而确定,并且相应的候选类型特征316的维数也将相应地改变。例如,如果存在24种类型,则对应的候选类型特征316的维数将是24维。
候选类型特征316可以通过如下来利用,以使得模型330能够准确地确定输出340-1(在此处,第一约束)。例如,计算设备120可以基于语言处理模型330,确定与短语相对应的预测类型特征335。预测类型特征335描述与候选实体的类型有关的信息,其可以采取预测类型特征向量的形式。这可以例如通过由拼接层333将上述开始位置特征332-2和结束位置特征332-3进行拼接,并输入到全连接层334进行处理,以获取预测类型特征335。在一些实施例中,预测类型特征335、候选类型特征316、以及附加地或备选地全连接层334的输入将具有相同的维数。
预测类型特征335和候选类型特征316然后可以被输入到类型特征相似度层336,来确定预测类型特征与候选类型特征之间的类型相似度特征337。接着,计算设备可以至少基于类型相似度特征337来确定输出340-1(在此处,第一约束)。在一些实施例中,针对一组候选实体和一个短语,上述预测类型特征335的确定过程可以仅执行一次,并且相应的预测类型特征335可以被缓存以用于后续确定类型相似度特征337。
在一组候选实体中,与短语所指示的实体类型相似度更高(例如,相同)的候选实体更有可能是目标候选实体。因此,计算设备可以通过计算预测类型特征335和候选类型特征316之间的相似度特征,以用于后续与表示文本和/或描述文本的特征进行组合来确定短语与候选实体之间的目标相似度,并进而促进目标候选特征的确定。以此方式,与候选实体相对应的候选实体类型信息将被利用,以便更为准确地从一组候选实体中确定出与短语相对应的目标候选实体。
在一些实施例中,计算设备120可以通过如下步骤,以至少基于类型相似度特征来确定第一约束。计算设备120可以首选获取与候选实体的描述文本相关联的第二特征。计算设备然后可以基于第一特征和第二特征(在此处,特征332-1)、以及类型相似度特征337,确定候选实体与待识别实体之间的实体相似度。接着,计算设备可以基于实体相似度,确定第一约束。
例如,假设短语是“小品”,候选实体是指示一种艺术表现形式的“小品”,该候选实体“小品”的描述文本314可以是包括多个字符314-1、314-2、314-3、……、314-n(n为正整数)的一或多句话,例如“小品,就是小的艺术品。在散文中指篇幅较短的文学样式;狭义的小品泛指较短的关于说和演的艺术。”,该描述文本用于描述该类型的“小品”的详细的内容信息,基于这样的描述文本,可以更准确地确定短语与候选实体之间是否存在关联。在一些实施例中,候选实体的描述文本的开始和结束可以第二标识符“[SEP]”来进行标识。
第二特征描述与候选实体的描述文本的语义有关的信息,在一些实施例中,第二特征可以采取词向量的形式,以用于表征描述文本的语义。第二特征的提取可以例如由语言处理模型的特征提取层331来实现。通过特征提取层331,计算设备可以提取出针对该描述文本的第二特征。在一些实施例中,文本312和特描述文本314可以同时输入到特征提取层331中,以同时输出与第一特征和第二特征相对应的特征332-1、以及分别指示实体指称的开始和结束的开始位置特征332-2和结束位置特征332-3。
特征332-1与如上述所描述的类型相似度特征337被输入到拼接层338进行拼接,然后输入到全连接层339进行处理。与一组候选实体相对应的一组训练样本可以类似地进行上述处理,以确定该一组候选实体中每个候选实体的排序,该排序将指示每个候选实体与待识别实体之间的相似程度的大小。在训练阶段中,可以例如以交叉熵作为损失函数,对全连接层339的(可以是经由softmax层处理过的)输出进行处理,以确定模型330的输出340-1(在此处,第一约束),以用于后续对模型330的优化。
在一些实施例中,计算设备120可以通过如下步骤来确定第二约束。在计算设备120基于语言处理模型330,确定与短语相对应的预测类型特征335之后,该特征335可以进一步经由softmax层处理,并以交叉熵作为损失函数,以表示预测类型特征与目标类型的目标类型特征之间的差异。因此,基于预测类型特征与目标类型的目标类型特征,计算设备可以确定输出340-2(在此处,第二约束),以用于后续对模型330的优化。
回到参考图2,在206,计算设备120可以至少基于第一约束和第二约束,训练语言处理模型。在一些实施例中,可以通过更新语言处理模型的至少一个参数来训练语言处理模型,其中基于经更新的参数而确定第一约束和/或第二约束将减小。在一些实施例中,计算设备120可以基于第一约束和第二约束,构建组合的训练约束。然后,可以通过更新语言处理模型的参数来训练语言处理模型,其中基于经更新的参数而确定的组合的训练约束将减小。
具体地,计算设备120例如可以基于训练样本310和待训练的语言处理模型330,获取分别与候选实体、以及实体类型有关的第一约束和第二约束。可以例如通过赋予第一约束和第二约束不同权重的方式,将第一约束和第二约束组合(例如,相乘或者相加)成训练约束。接着计算设备120将基于训练约束,进行反向(即从待训练模型的输出层到输入层的方向)传播。在反向传播过程中,可以依赖梯度下降算法,调整待训练模型中各参数的值。可以迭代地进行训练,直到模型收敛(例如,训练约束满足诸如小于预定阈值的预定条件),训练过程完成。由此,计算设备120得到经训练的模型330。
以此方式训练的模型330可以同时输出一组候选实体中与文本中短语所指示的待识别实体最接近的候选实体、以及该短语所指示的待识别实体的预测类型二者,由此例如简化实体链接处理中的计算开销,提升处理速度。附加地,由于在训练中了使用与候选实体的类型信息相关的特征,使得候选实体的选取准确度进一步提升。例如,与不使用与候选实体的类型信息的传统方案相比,根据本申请的方案的准确度能够提升大约6%。
上文已经参见图2和图3描述了训练阶段的具体过程。在下文中,参见图4描述利用已经训练后的语言处理模型来处理文本的方法。图4示出了根据本公开的一些实施例的用于实体链接的方法400的流程图。方法400可以使用上述方法300中训练得到的经训练的语言处理模型,该语言处理模型是至少基于包括候选实体的候选类型特征的训练样本而被预先确定。方法400例如可以在图1中所示的计算设备120处实现。为了便于理解,下面将结合图3来详细描述模型的应用过程。
在402,计算设备可以确定文本312中指示待识别实体的短语。现在参考图3来进行说明,在一些实施例中,可以由计算设备120基于语言处理模型来执行命名实体识别,来对文本312中的多个字符进行标注,例如,可以采用标记“S”(开始)来标注实体指称的开始位置、并且采用标记“E”来标注实体指称的结束位置。基于经标注的多个字符,计算设备可以确定文本中的短语。在一些实施例中,由“S”标注的开始位置和由“E”标注的结束位置可以由模型330的特征提取层331进行提取,以获得其对应的诸如以向量形式的开始位置特征332-2和结束位置特征332-3。文本312例如可以包括一个或多个未经处理的句子,其中包括多个字符312-1、312-2、312-3、……、312-n,n为正整数。
回到参考图4,在框404,计算设备120可以基于知识库,获取与短语相关联的一组候选实体。由于所确定的短语具有多种不同的含义、因此可能对应不同的一组候选实体。例如,针对参考图2描述的训练过程中的示例文本中的短语“小品”为例。该指称可以指示艺术表现形式、也可以指示字画装裱形式,其分别对应于不同的候选实体。因此,可以基于该短语来确定一组候选实体。
在一些实施例中,考虑到短语所指示的实体可能并不是知识库的数据库中现有的实体,因此计算设备可以获取包括空实体(例如,可以通过NIL来标识)在内的一组候选实体。如果短语所指示的待识别实体不存在于数据库中,计算设备可以确定该实体是空实体。以此方式,能减小将不正确的候选实体确定为目标候选实体的风险
在406,计算设备120可以基于文本的第一特征、候选实体的候选类型特征以及语言处理模型,确定针对短语的处理结果,语言处理模型用于确定与待识别实体相对应的目标候选实体、以及短语所属的目标类型。现在继续参考图3来进行详细说明,在一些实施例中,针对多个候选实体中的每个候选实体,可以将文本312、诸如采用one-hot(独热)编码(例如,向量)的形式的候选类型特征316、以及附加地或备选地,每个候选实体的描述文本314输入到语言处理模型330。描述文本用于描述与候选实体有关的内容信息。
例如,假设短语是“小品”,候选实体是指示一种艺术表现形式的“小品”,则该候选实体“小品”的描述文本314可以是包括多个字符314-1、314-2、314-3、……、314-n(n为正整数)的一或多句话,该描述文本用于描述该类型的“小品”的详细的内容信息。基于这样的描述文本,可以更准确地确定短语与候选实体之间是否存在关联。在一些实施例中,文本312、描述文本314的开端和末端均可用标识符来进行标识,例如,文本312的开端可以第一标识符“[CLS]”来进行标识,并且文本312的末端可以第二标识符“[SEP]”来进行标识。候选实体的描述文本314的开端和末端可以第二标识符“[SEP]”来进行标识。因此,输入到模型330的特征提取层331的输入可以采取“[CLS]文本312[SEP]候选实体的描述文本314[SEP]”的形式。
基于语言处理模型330,计算设备120可以确定与短语相对应的预测类型特征335。预测类型特征335可以例如通过模型330的拼接层333将上述开始位置特征332-2和结束位置特征332-3进行拼接,并输入到模型330的全连接层334进行处理来获取。
在一些实施例中,计算设备120还可以确定预测类型特征与候选类型特征之间的类型相似度特征,并且至少基于类型相似度特征,从一组候选实体中选择作为目标候选实体的候选实体。预测类型特征335和候选类型特征316可以被输入到模型330的类型特征相似度层336,来确定预测类型特征与候选类型特征之间的类型相似度特征337。在一组候选实体中,与短语所指示的实体类型相似度更高(例如,相同)的候选实体更有可能是目标候选实体。以此方式,与候选实体相对应的候选实体类型信息将被利用,以用于更为准确地从一组候选实体中确定出与短语相对应的目标候选实体。
在一些实施例中,文本312和特描述文本314可以同时被输入到特征提取层331中,以同时获取与第一特征和第二特征相对应的特征332-1、以及分别指示实体指称的开始和结束的开始位置特征332-2和结束位置特征332-3,其中第一特征与文本312相关联,并且第二特征与候选实体的描述文本314相关联。计算设备然后可以基于第一特征和第二特征(在此处,特征332-1)、以及类型相似度特征337,确定候选实体与待识别实体之间的实体相似度。在一些实施例中,实体相似度可以例如以该候选实体是短语所指示的待识别实体的概率来表示。
接着,基于实体相似度,计算设备可以从一组候选实体中,选择具有满足预定条件的实体相似度的候选实体作为目标候选实体。例如,针对每个候选实体,计算设备可以通过如下来计算一对应的实体相似度:将特征332-1与类型相似度特征337输入到拼接层338进行拼接,然后再输入到全连接层339进行处理以获取输出340-1(在此处,实体相似度)。一组候选实体均可以类似地进行上述处理。将所计算的这些实体相似度进行排序,该排序将指示每个候选实体与待识别实体之间的相似程度的大小。
计算设备120还可以基于语言处理模型,确定与短语相对应的预测类型特征;以及基于预测类型特征,确定目标类型(即,图3中的输出340-2)。例如,如上所述,计算设备120可以基于语言处理模型330,确定与短语相对应的预测类型特征335。基于预测类型特征,计算设备120可以确定目标类型。在一些实施例中,预测类型特征335、候选类型特征316、以及附加地或备选地全连接层334的输入将具有相同的维数。在一些实施例中,针对一组候选实体,上述目标类型的确定过程可以仅执行一次,并将相应的预测类型特征335缓存以用于后续确定类型相似度特征337。
在一些实施例中,计算设备可以例如将具有最高实体相似度的一候选实体确定为目标候选实体,并至少基于所确定的目标候选实体、以及目标类型确定针对短语的处理结果。处理结果包括但不限于:确定该短语所指示的目标候选实体、将该短语链接到所确定目标候选实体、确定该短语所指示的实体类型、以及将该短语与所确定实体类型相关联。该过程将在下文参考图5来进行详细描述。
以此方式,计算设备可以同时输出一组候选实体中与文本中短语所指示的待识别实体最接近的候选实体、以及该短语所指示的待识别实体的预测类型二者,并以此为基础确定所需执行的进一步处理,由此例如简化实体链接处理中的计算开销,提升处理速度。附加地,由于模型使用与候选实体的类型信息相关的特征,使得候选实体的选取准确度进一步提升。
图5示出了根据本公开的一些实施例的用于确定处理结果的方法500的流程图。
如上参考图4所讨论的,计算设备120可以获取包括空实体在内的一组候选实体。在502,计算设备可以确定根据方法400所确定的目标候选实体是否是空实体。如果确定目标候选实体不是空实体,则计算设备在504将短语链接到目标候选实体。数据库中的每个实体可以例如具有一个唯一标识符,该链接过程可以通过将该短语链接到唯一标识符来进行。如果确定目标候选实体是空实体,则计算设备在506输出短语所属的目标类型。例如,计算设备可以将短语与该目标类型进行关联。以此方式,可以在一次过程中,利用同一模型执行实体消歧和实体类型预测二者,由此节省计算开销并提升计算速度。
图6示出了根据本公开的实施例的训练用于实体链接的语言处理模型的装置600的示意框图。语言处理模型用于识别与文本中的短语所指示的待识别实体相对应的目标候选实体、以及短语所属的目标类型,如图6所示,装置600包括候选实体获取模块602,被配置为基于知识库,获取与短语相关联的一组候选实体。装置600还包括语言处理模型约束确定模块604,被配置为至少基于文本的第一特征、一组候选实体中的候选实体的候选类型特征,确定第一约束和第二约束,第一约束与候选实体和待识别实体之间的差异有关,第二约束目标类型与短语相对应的预测类型之间的差异有关。装置600还包括训练模块606,被配置为至少基于第一约束和第二约束,训练语言处理模型。
在一些实施例中,候选实体获取模块602进一步被配置为获取包括空实体在内的一组候选实体。
在一些实施例中,语言处理模型约束确定模块604包括:预测类型特征确定子模块,被配置为基于语言处理模型,确定与短语相对应的预测类型特征;以及第二约束确定子模块,被配置为基于预测类型特征与目标类型的目标类型特征,确定第二约束。
在一些实施例中,语言处理模型约束确定模块604包括:预测类型特征确定子模块,被配置为基于语言处理模型,确定与短语相对应的预测类型特征;类型相似度特征确定子模块,被配置为确定预测类型特征与候选类型特征之间的类型相似度特征;以及第一约束确定子模块,被配置为至少基于类型相似度特征,确定第一约束。
在一些实施例中,第一约束确定子模块进一步被配置为:获取与候选实体的描述文本相关联的第二特征;以及基于第一特征、第二特征和类型相似度特征,确定候选实体与待识别实体之间的实体相似度;以及基于实体相似度,确定第一约束。
在一些实施例中,装置600还包括短语确定模块,短语确定模块包括:文本标注子模块,被配置为通过基于语言处理模型来执行命名实体识别,以对文本中的多个字符进行标注;以及文本处理子模块,被配置为基于经标注的多个字符,确定短语。
在一些实施例中,训练模块606进一步被配置为:基于第一约束和第二约束,构建组合的训练约束;以及通过更新语言处理模型的参数,以使得训练约束被优化来训练语言处理模型,其中基于经更新的参数而确定训练约束将减小。
图7示出了根据本公开的实施例的用于实体链接的装置700的示意框图。如图7所示,装置700包括短语确定模块702,被配置为确定文本中指示待识别实体的短语。装置700还包括候选实体获取模块704,被配置为基于知识库,获取与短语相关联的一组候选实体。装置700还包括处理结果确定模块706,被配置为基于文本的第一特征、候选实体的候选类型特征以及语言处理模型,确定针对短语的处理结果,语言处理模型用于确定与待识别实体相对应的目标候选实体、以及短语所属的目标类型。
在一些实施例中,候选实体获取模块704被进一步配置为获取包括空实体在内的一组候选实体。
在一些实施例中,处理结果确定模块706被进一步配置为:如果确定目标候选实体不是空实体,则将短语链接到目标候选实体;以及如果确定目标候选实体是空实体,则输出短语所属的目标类型。
在一些实施例中,处理结果确定模块706包括:预测类型特征确定子模块,被配置为基于语言处理模型,确定与短语相对应的预测类型特征;类型相似度特征确定子模块,被配置为确定预测类型特征与候选类型特征之间的类型相似度特征;以及目标候选实体选择子模块,被配置为至少基于类型相似度特征,从一组候选实体中选择作为目标候选实体的候选实体。
在一些实施例中,目标候选实体选择子模块被进一步配置为:针对一组候选实体中的候选实体,获取与候选实体的描述文本相关联的第二特征,描述文本描述与候选实体有关的内容信息;以及基于第一特征、第二特征和类型相似度特征,确定候选实体与待识别实体之间的实体相似度;以及从一组候选实体中,选择具有大于预定阈值满足预定条件的实体相似度的候选实体作为目标候选实体。
在一些实施例中,处理结果确定模块706包括:预测类型特征确定子模块,被配置为基于语言处理模型,确定与短语相对应的预测类型特征;以及目标类型确定子模块,被配置为基于预测类型特征,确定目标类型。
在一些实施例中,短语确定模块702包括:文本标注子模块,被配置为基于语言处理模型来执行命名实体识别,以对文本中的多个字符进行标注;以及文本处理子模块,被配置为基于经标注的多个字符,确定短语。
在一些实施例中,语言处理模型是至少基于包括候选实体的候选类型特征的训练样本而被预先确定。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如方法200、400和500。例如,在一些实施例中,方法200、400和500中的任一个可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的方法200、400和500中的任一个的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200、400和500中的任一个。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (18)
1.一种用于实体链接的方法,包括:
确定文本中指示待识别实体的短语;
基于知识库,获取与所述短语相关联的一组候选实体;以及
基于所述文本的第一特征、所述候选实体的候选类型特征以及语言处理模型,确定针对所述短语的处理结果,所述语言处理模型用于确定与所述待识别实体相对应的目标候选实体、以及所述短语所属的目标类型;
获取所述一组候选实体包括:
如果所述短语所指示的所述待识别实体不存在于所述知识库中,则确定所述短语所指示的所述待识别实体是空实体;
获取包括所述空实体在内的所述一组候选实体;
其中确定所述处理结果包括:
如果确定所述目标候选实体不是所述空实体,则将所述短语链接到所述目标候选实体;以及
如果确定所述目标候选实体是所述空实体,则输出所述短语所属的所述目标类型;
其中确定所述处理结果还包括:
基于所述语言处理模型,确定与所述短语相对应的预测类型特征;
确定所述预测类型特征与所述候选类型特征之间的类型相似度特征;以及
至少基于所述类型相似度特征,从所述一组候选实体中选择作为所述目标候选实体的候选实体;
其中从所述一组候选实体中选择作为所述目标候选实体的候选实体包括:
针对所述一组候选实体中的候选实体,
获取与所述候选实体的描述文本相关联的第二特征,所述描述文本描述与所述候选实体有关的内容信息;以及
基于所述第一特征、所述第二特征和所述类型相似度特征,确定所述候选实体与所述待识别实体之间的实体相似度;以及
从所述一组候选实体中,选择具有满足预定条件的所述实体相似度的候选实体作为所述目标候选实体。
2. 根据权利要求1所述的方法,其中确定所述处理结果包括:
基于所述语言处理模型,确定与所述短语相对应的预测类型特征;以及
基于所述预测类型特征,确定所述目标类型。
3. 根据权利要求1所述的方法,其中确定所述短语包括:
基于所述语言处理模型来执行命名实体识别,以对所述文本中的多个字符进行标注;以及
基于经标注的所述多个字符,确定所述短语。
4.根据权利要求1所述的方法,其中所述语言处理模型是至少基于包括候选实体的候选类型特征的训练样本而被预先确定。
5.一种训练用于实体链接的语言处理模型的方法,所述语言处理模型用于识别与文本中的短语所指示的待识别实体相对应的目标候选实体、以及所述短语所属的目标类型,所述方法包括:
基于知识库,获取与所述短语相关联的一组候选实体;
至少基于所述文本的第一特征、所述一组候选实体中的候选实体的候选类型特征,确定第一约束和第二约束,所述第一约束与所述候选实体和所述待识别实体之间的差异有关,所述第二约束与所述目标类型和所述短语相对应的预测类型之间的差异有关;以及
至少基于所述第一约束和所述第二约束,训练所述语言处理模型;
其中获取所述一组候选实体包括:
如果所述短语所指示的所述待识别实体不存在于所述知识库中,则确定所述短语所指示的所述待识别实体是空实体;
获取包括所述空实体在内的所述一组候选实体;
其中确定第一约束包括:
基于所述语言处理模型,确定与所述短语相对应的预测类型特征;
确定所述预测类型特征与所述候选类型特征之间的类型相似度特征;以及
至少基于所述类型相似度特征来确定所述第一约束;
其中至少基于所述类型相似度特征来确定所述第一约束包括:
获取与所述候选实体的描述文本相关联的第二特征;以及
基于所述第一特征、所述第二特征和所述类型相似度特征,确定所述候选实体与所述待识别实体之间的实体相似度;以及
基于所述实体相似度,确定所述第一约束。
6. 根据权利要求5所述的方法,其中确定第二约束包括:
基于所述语言处理模型,确定与所述短语相对应的预测类型特征;以及
基于所述预测类型特征与所述目标类型的目标类型特征,确定所述第二约束。
7. 根据权利要求5所述的方法,其中所述短语通过以下步骤来确定:
通过基于所述语言处理模型来执行命名实体识别,以对所述文本中的多个字符进行标注;以及
基于经标注的所述多个字符,确定所述短语。
8. 根据权利要求5所述的方法,其中训练所述语言处理模型包括:
基于所述第一约束和所述第二约束,构建组合的训练约束;以及
通过更新所述语言处理模型的参数来训练所述语言处理模型,其中基于经更新的所述参数而确定的所述训练约束将减小。
9.一种用于实体链接的装置,包括:
短语确定模块,被配置为确定文本中指示待识别实体的短语;
候选实体获取模块,被配置为基于知识库,获取与所述短语相关联的一组候选实体;以及
处理结果确定模块,被配置为基于所述文本的第一特征、所述候选实体的候选类型特征以及语言处理模型,确定针对所述短语的处理结果,所述语言处理模型用于确定与所述待识别实体相对应的目标候选实体、以及所述短语所属的目标类型;
其中所述候选实体获取模块被进一步配置为:
如果所述短语所指示的所述待识别实体不存在于所述知识库中,则确定所述短语所指示的所述待识别实体是空实体;
获取包括所述空实体在内的所述一组候选实体;
其中所述处理结果确定模块被进一步配置为:
如果确定所述目标候选实体不是所述空实体,则将所述短语链接到所述目标候选实体;以及
如果确定所述目标候选实体是所述空实体,则输出所述短语所属的所述目标类型;
其中所述处理结果确定模块包括:
预测类型特征确定子模块,被配置为基于所述语言处理模型,确定与所述短语相对应的预测类型特征;
类型相似度特征确定子模块,被配置为确定所述预测类型特征与所述候选类型特征之间的类型相似度特征;以及
目标候选实体选择子模块,被配置为至少基于所述类型相似度特征,从所述一组候选实体中选择作为所述目标候选实体的候选实体;
其中所述目标候选实体选择子模块被进一步配置为:
针对所述一组候选实体中的候选实体,
获取与所述候选实体的描述文本相关联的第二特征,所述描述文本描述与所述候选实体有关的内容信息;以及
基于所述第一特征、所述第二特征和所述类型相似度特征,确定所述候选实体与所述待识别实体之间的实体相似度;以及
从所述一组候选实体中,选择具有大于预定阈值满足预定条件的所述实体相似度的候选实体作为所述目标候选实体。
10. 根据权利要求9所述的装置,其中所述处理结果确定模块包括:
预测类型特征确定子模块,被配置为基于所述语言处理模型,确定与所述短语相对应的预测类型特征;以及
目标类型确定子模块,被配置为基于所述预测类型特征,确定所述目标类型。
11. 根据权利要求9所述的装置,其中所述短语确定模块包括:
文本标注子模块,被配置为基于所述语言处理模型来执行命名实体识别,以对所述文本中的多个字符进行标注;以及
文本处理子模块,被配置为基于经标注的所述多个字符,确定所述短语。
12.根据权利要求9所述的装置,其中所述语言处理模型是至少基于包括候选实体的候选类型特征的训练样本而被预先确定。
13.一种训练用于实体链接的语言处理模型的装置,所述语言处理模型用于识别与文本中的短语所指示的待识别实体相对应的目标候选实体、以及所述短语所属的目标类型,所述装置包括:
候选实体获取模块,被配置为基于知识库,获取与所述短语相关联的一组候选实体;
语言处理模型约束确定模块,被配置为至少基于所述文本的第一特征、所述一组候选实体中的候选实体的候选类型特征,确定第一约束和第二约束,所述第一约束与所述候选实体和所述待识别实体之间的差异有关,所述第二约束与所述目标类型和所述短语相对应的预测类型之间的差异有关;以及
训练模块,被配置为至少基于所述第一约束和所述第二约束,训练所述语言处理模型;
其中所述候选实体获取模块进一步被配置为:
如果所述短语所指示的所述待识别实体不存在于所述知识库中,则确定所述短语所指示的所述待识别实体是空实体;
获取包括所述空实体在内的所述一组候选实体;
其中所述语言处理模型约束确定模块包括:
预测类型特征确定子模块,被配置为基于所述语言处理模型,确定与所述短语相对应的预测类型特征;
类型相似度特征确定子模块,被配置为确定所述预测类型特征与所述候选类型特征之间的类型相似度特征;以及
第一约束确定子模块,被配置为至少基于所述类型相似度特征,确定所述第一约束;
其中第一约束确定子模块进一步被配置为:
获取与所述候选实体的描述文本相关联的第二特征;以及
基于所述第一特征、所述第二特征和所述类型相似度特征,确定所述候选实体与所述待识别实体之间的实体相似度;以及
基于所述实体相似度,确定所述第一约束。
14. 根据权利要求13所述的装置,其中所述语言处理模型约束确定模块包括:
预测类型特征确定子模块,被配置为基于所述语言处理模型,确定与所述短语相对应的预测类型特征;以及
第二约束确定子模块,被配置为基于所述预测类型特征与所述目标类型的目标类型特征,确定所述第二约束。
15. 根据权利要求13所述的装置,还包括短语确定模块,所述短语确定模块包括:
文本标注子模块,被配置为通过基于所述语言处理模型来执行命名实体识别,以对所述文本中的多个字符进行标注;以及
文本处理子模块,被配置为基于经标注的所述多个字符,确定所述短语。
16. 根据权利要求13所述的装置,其中所述训练模块进一步被配置为:
基于所述第一约束和所述第二约束,构建组合的训练约束;以及
通过更新所述语言处理模型的参数,以使得所述训练约束被优化来训练所述语言处理模型,其中基于经更新的所述参数而确定所述训练约束将减小。
17. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245994.3A CN112966513B (zh) | 2021-03-05 | 2021-03-05 | 用于实体链接的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245994.3A CN112966513B (zh) | 2021-03-05 | 2021-03-05 | 用于实体链接的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966513A CN112966513A (zh) | 2021-06-15 |
CN112966513B true CN112966513B (zh) | 2023-08-01 |
Family
ID=76276685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110245994.3A Active CN112966513B (zh) | 2021-03-05 | 2021-03-05 | 用于实体链接的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966513B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114647739B (zh) * | 2022-02-25 | 2023-02-28 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716192A (zh) * | 2004-04-23 | 2006-01-04 | 微软公司 | 语义编程语言和语言对象模型 |
CN108959258A (zh) * | 2018-07-02 | 2018-12-07 | 昆明理工大学 | 一种基于表示学习的特定领域集成实体链接方法 |
CN110188168A (zh) * | 2019-05-24 | 2019-08-30 | 北京邮电大学 | 语义关系识别方法和装置 |
CN111382255A (zh) * | 2020-03-17 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN112101020A (zh) * | 2020-08-27 | 2020-12-18 | 北京百度网讯科技有限公司 | 训练关键短语标识模型的方法、装置、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI645303B (zh) * | 2016-12-21 | 2018-12-21 | 財團法人工業技術研究院 | 字串驗證方法、字串擴充方法與驗證模型訓練方法 |
-
2021
- 2021-03-05 CN CN202110245994.3A patent/CN112966513B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716192A (zh) * | 2004-04-23 | 2006-01-04 | 微软公司 | 语义编程语言和语言对象模型 |
CN108959258A (zh) * | 2018-07-02 | 2018-12-07 | 昆明理工大学 | 一种基于表示学习的特定领域集成实体链接方法 |
CN110188168A (zh) * | 2019-05-24 | 2019-08-30 | 北京邮电大学 | 语义关系识别方法和装置 |
CN111382255A (zh) * | 2020-03-17 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN112101020A (zh) * | 2020-08-27 | 2020-12-18 | 北京百度网讯科技有限公司 | 训练关键短语标识模型的方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
融合多种特征的实体链接技术研究;陈玉博;何世柱;刘康;赵军;吕学强;;中文信息学报(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112966513A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966522B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN112560479A (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
JP7417679B2 (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
WO2019154411A1 (zh) | 词向量更新方法和装置 | |
JP7351942B2 (ja) | 分野フレーズマイニング方法、装置及び電子機器 | |
CN112749300B (zh) | 用于视频分类的方法、装置、设备、存储介质和程序产品 | |
US10198497B2 (en) | Search term clustering | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN114782719B (zh) | 一种特征提取模型的训练方法、对象检索方法以及装置 | |
CN114444462B (zh) | 模型训练方法及人机交互方法、装置 | |
WO2022228127A1 (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
JP7291181B2 (ja) | 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 | |
CN114861758A (zh) | 多模态数据处理方法、装置、电子设备及可读存储介质 | |
CN113360683B (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
CN112966513B (zh) | 用于实体链接的方法和装置 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN116049370A (zh) | 信息查询方法和信息生成模型的训练方法、装置 | |
CN114416990B (zh) | 对象关系网络的构建方法、装置和电子设备 | |
CN113204616A (zh) | 文本抽取模型的训练与文本抽取的方法、装置 | |
CN116383491B (zh) | 信息推荐方法、装置、设备、存储介质和程序产品 | |
US11443114B1 (en) | Computing system for entity disambiguation and not-in-list entity detection in a knowledge graph | |
CN113312555B (zh) | 转化率预测方法、装置、电子设备和存储介质 | |
CN116244432B (zh) | 语言模型的预训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |