CN115438674B - 实体数据处理、实体链接方法、装置和计算机设备 - Google Patents

实体数据处理、实体链接方法、装置和计算机设备 Download PDF

Info

Publication number
CN115438674B
CN115438674B CN202211391389.8A CN202211391389A CN115438674B CN 115438674 B CN115438674 B CN 115438674B CN 202211391389 A CN202211391389 A CN 202211391389A CN 115438674 B CN115438674 B CN 115438674B
Authority
CN
China
Prior art keywords
entity
training
target
feature representation
semantic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211391389.8A
Other languages
English (en)
Other versions
CN115438674A (zh
Inventor
单子非
李昱昕
陈谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211391389.8A priority Critical patent/CN115438674B/zh
Publication of CN115438674A publication Critical patent/CN115438674A/zh
Application granted granted Critical
Publication of CN115438674B publication Critical patent/CN115438674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请涉及一种实体数据处理、实体链接方法、装置和计算机设备,包括:获取第一训练样本;第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据;通过待训练的第一语境编码模型对训练内容数据进行编码,得到第一训练实体对应的第一语境特征表示;通过待训练的第一实体编码模型对语义特征数据进行编码,得到第一训练实体对应的第一语义特征表示;基于第一语境特征表示和第一语义特征表示确定第一特征表示损失,基于第一特征表示损失调整第一语境编码模型和第一实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第一目标实体编码模型。采用本方法能够提高语义特征表示的准确性。

Description

实体数据处理、实体链接方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种实体数据处理方法、装置、计算机设备、存储介质和计算机程序产品,以及一种实体链接方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了实体链接(Entity Linking)技术,实体链接又称实体链指(Entity Resolution)、实体消歧(Entity Disambiguation),指在文本或多模态内容中,识别出可能指代实体的短语,并且将其对应到知识图谱中一个无歧义的实体的过程。
传统技术中,在对文本或者多模态内容进行实体链接处理时,通过需要针对知识图谱中的实体生成语义特征表示,然而经常存在生成的语义特征表示准确率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语义特征表示的准确性的实体数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一方面,本申请提供了一种实体数据处理方法。所述方法包括:获取第一训练样本;所述第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据,所述语义特征数据是从第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;通过待训练的第一语境编码模型对所述训练内容数据进行编码,得到所述第一训练实体对应的第一语境特征表示;通过待训练的第一实体编码模型对所述语义特征数据进行编码,得到所述第一训练实体对应的第一语义特征表示;基于所述第一语境特征表示和所述第一语义特征表示确定第一特征表示损失,基于所述第一特征表示损失调整所述第一语境编码模型和所述第一实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第一目标实体编码模型;所述第一目标实体编码模型用于针对目标知识图谱中各实体生成对应的目标语义特征表示,各所述目标语义特征表示用于对目标内容数据进行实体链接处理。
另一方面,本申请还提供了一种实体数据处理装置。所述装置包括:样本获取模块,用于获取第一训练样本;所述第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据,所述语义特征数据是从第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;语境编码模块,用于通过待训练的第一语境编码模型对所述训练内容数据进行编码,得到所述第一训练实体对应的第一语境特征表示;语义编码模块,用于通过待训练的第一实体编码模型对所述语义特征数据进行编码,得到所述第一训练实体对应的第一语义特征表示;损失确定模块,用于基于所述第一语境特征表示和所述第一语义特征表示确定第一特征表示损失,基于所述第一特征表示损失调整所述第一语境编码模型和所述第一实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第一目标实体编码模型;所述第一目标实体编码模型用于针对目标知识图谱中各实体生成对应的目标语义特征表示,各所述目标语义特征表示用于对目标内容数据进行实体链接处理。
另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述实体数据处理方法的步骤。
另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实体数据处理方法的步骤。
另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实体数据处理方法的步骤。
上述实体数据处理方法、装置、计算机设备、存储介质和计算机程序产品,通过获取第一训练样本,该训练样本中包括第一训练实体对应的语义特征数据和训练内容数据,语义特征数据是从第一训练实体所在的知识图谱中获取的,训练内容数据与第一训练实体存在实体链接关系,通过待训练的第一语境编码模型对训练内容数据进行编码,由于得到第一训练实体对应的第一语境特征表示,通过待训练的第一实体编码模型对语义特征数据进行编码,得到第一训练实体对应的第一语义特征表示,基于第一语境特征表示和第一语义特征表示确定第一特征表示损失,进而可以基于该损失来训练得到第一目标实体编码模型,由于该实体编码模型在训练的过程中与语境编码模型共同训练,使得该实体编码模型不仅能够学习到语义信息,还可以学习到语境信息,从而在将该目标实体编码模型用于对实体生成目标语义特征表示时,可以得到更为准确的语义特征表示。
此外,由于本申请在训练的过程中,实体编码模型的输入是语义特征数据,语义特征数据从知识图谱中即可获得,灵活性较高,当知识图谱更新时,实体的语义特征数据可能得到更新,新实体的语义特征表示不依赖于大量针对新实体的训练数据,仅通过新实体的语义特征数据即可得到,因此可以很好地适配持续更新的知识图谱。
此外,本申请还提供一种能够提高实体链接准确性的实体链接方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一方面,本申请提供了一种实体链接方法。所述方法包括:确定目标内容数据,对所述目标内容数据进行实体词识别得到目标实体指称;对所述目标内容数据进行编码,得到所述目标实体指称对应的目标语境特征表示;基于预先建立的实体指称和目标知识图谱中实体之间的映射关系,确定所述目标实体指称对应的至少一个候选实体;针对每个候选实体,获取所针对的候选实体的目标语义特征表示;所述目标语义特征表示是基于初始语义特征表示得到的,所述初始语义特征表示是通过第一目标实体编码模型对所述所针对的候选实体对应的语义特征数据进行编码得到的,所述语义特征数据是从所述目标知识图谱中获取的;所述第一目标实体编码模型是基于第一特征表示损失训练得到的,所述第一特征表示损失是基于第一语境特征表示和第一语义特征表示确定的,所述第一语境特征表示是通过待训练的第一语境编码模型对训练内容数据进行编码得到的,所述训练内容数据属于第一训练实体对应的第一训练样本,所述训练样本中还包括所述第一训练实体对应的语义特征数据,所述第一语义特征表示是通过待训练的第一实体编码模型对所述第一训练实体对应的语义特征数据进行编码得到的,所述第一训练实体对应的语义特征数据是从第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;基于所述目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,基于各个候选实体各自的置信度从所述至少一个候选实体中确定所述目标实体指称对应的目标实体。
另一方面,本申请还提供了一种实体链接装置。所述装置包括:实体识别模块,用于确定目标内容数据,对所述目标内容数据进行实体识别得到目标实体指称;语境编码模块,用于对所述目标内容数据进行编码,得到所述目标实体指称对应的目标语境特征表示;候选实体确定模块,用于基于预先建立的实体指称和目标知识图谱中实体之间的映射关系,确定所述目标实体指称对应的至少一个候选实体;语义特征获取模块,用于针对每个候选实体,获取所针对的候选实体的目标语义特征表示;所述目标语义特征表示是基于初始语义特征表示得到的,所述初始语义特征表示是通过第一目标实体编码模型对所述所针对的候选实体对应的语义特征数据进行编码得到的,所述语义特征数据是从所述目标知识图谱中获取的;所述第一目标实体编码模型是基于第一特征表示损失训练得到的,所述第一特征表示损失是基于第一语境特征表示和第一语义特征表示确定的,所述第一语境特征表示是通过待训练的第一语境编码模型对训练内容数据进行编码得到的,所述训练内容数据属于第一训练实体对应的第一训练样本,所述训练样本中还包括所述第一训练实体对应的语义特征数据,所述第一语义特征表示是通过待训练的第一实体编码模型对所述第一训练实体对应的语义特征数据进行编码得到的,所述第一训练实体对应的语义特征数据是从第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;目标实体确定模块,用于基于所述目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,基于各个候选实体各自的置信度从多个候选实体中确定所述目标实体指称对应的目标实体。
另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述实体链接方法的步骤。
另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实体链接方法的步骤。
另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实体链接方法的步骤。
上述实体链接方法、装置、计算机设备、存储介质和计算机程序产品,由于候选实体的目标语义特征表示是基于第一目标实体编码模型输出的初始语义特征表示得到的,而第一目标实体编码模型在训练的过程中与语境编码模型共同训练,使得该实体编码模型不仅能够学习到语义信息,还可以学习到语境信息,从而在将该目标实体编码模型用于对实体生成语义特征表示时,可以得到更为准确的语义特征表示,并且最终在选择候选实体时,基于目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,根据置信度来目标候选实体,由此本申请在进行实体链接时,可以充分考虑到目标内容数据的语境信息,通过准确率较高的语义特征表示来匹配该语境信息,得到更为准确的目标实体,提高了实体链接的准确性。
附图说明
图1为一个实施例中实体数据处理方法及实体链接方法的应用环境图;
图2为一个实施例中知识图谱的示意图;
图3为一个实施例中实体链接的过程示意图;
图4为一个实施例中实体数据处理方法的流程示意图;
图5为一个实施例中双塔模型的示意图;
图6为另一个实施例中双塔模型的示意图;
图7为又一个实施例中双塔模型的示意图;
图8为一个实施例中生成目标语义特征表示的步骤流程示意图;
图9为一个实施例中实体链接方法的流程示意图;
图10为一个实施例中映射关系的建立和存储示意图;
图11为一个实施例中实体链接方法涉及的技术架构图;
图12为一个实施例中实体链接推理模块的推理过程示意图;
图13为一个实施例中通过实体链接系统构建用户兴趣标签的示意图;
图14为一个实施例中实体数据处理装置的结构框图;
图15为一个实施例中实体链接装置的结构框图;
图16为一个实施例中计算机设备的内部结构图;
图17为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的实体数据处理方法以及实体链接方法,涉及人工智能的机器学习、自然语言处理等技术,其中:
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例所涉及的机器学习、自然语言处理等技术,具体通过如下实施例进行说明:
本申请实施例提供的实体数据处理方法以及实体链接方法,可以应用于如图1所示的应用环境中。其中,终端102通过模型与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上,数据存储系统可以存储训练样本数据。终端102和服务器104均可单独执行本申请实施例提供的实体数据处理方法以及实体链接方法,终端102和服务器104也可协调执行本申请的实体数据处理方法以及实体链接方法。例如,服务器104可以获取第一训练样本,该第一训练样本中包括第一训练实体对应的语义特征数据和训练内容数据,其中语义特征数据是从第一训练实体所在的知识图谱中获取的,训练内容数据与第一训练实体存在实体链接关系,服务器进而可以通过待训练的第一语境编码模型对训练内容数据进行编码,得到第一训练实体对应的第一语境特征表示,通过待训练的第一实体编码模型对语义特征数据进行编码,得到第一训练实体对应的第一语义特征表示,基于第一语境特征表示和第一语义特征表示可以确定第一特征表示损失,进而服务器可以基于该损失进行模型训练直至训练完成,获得训练后的第一目标实体编码模型,服务器可以将该第一目标实体编码模型发送至终端102,从而终端102可以通过第一目标实体编码模型生成实体的语义特征表示,以实现实体链接。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
需要说明的是,本申请实施例提供的实体数据处理方法和实体链接方法,是基于知识图谱实现的。知识图谱(Knowledge Graph,Knowledge Graph, KG)即知识库(Knowledge Base,KB),是实体、关系、类型和其它一些属性的集合,可以用图结构去看待它,图的节点为实体、边为实体间的关系。如图2所示,为一个实施例中,知识图谱的示意图。由图2可以看出知识图谱是一种异构的,有多种实体、关系和属性的图结构。参考图2,知识图谱与文本的关系可以用如下例子论述:“甲壳虫”这个词汇可能具有歧义,在不同语境中可能对应一种昆虫、一种汽车车型、或一个乐队名。“甲壳虫”这个词汇是在文本世界(TextWorld)中的一种表示,而“甲壳虫乐队”这个实体是语义世界(Semantic World)中的表示。识别出某个词汇在特定语境下指代的正确实体,就是“实体链接”(Entity Linking)要解决的问题。构建高质量的实体链接系统,有助于将文章、视频、用户的搜索等内容进行精准的语义理解,对推荐、搜索、广告等系统具有重要意义。
实体链接,往往有三个独立的步骤,参考图3,以“高尔夫甲壳虫哪个贵”这个句子为例。第一步是指称识别,或称命名实体识别(mention detection),检测出这句话中有“高尔夫”和“甲壳虫”两个实体指称(mention, 又译实体词、提及)。第二步是根据这两个实体指称去生成一些KG中实体的候选项(Candidate Generation):高尔夫可能是一种汽车或一项运动;甲壳虫可能是一种昆虫、汽车或者乐队。最后一步是给这些已有候选项进行实体消歧(Entity Disambiguation, 或Scoring),并将高分的结果返回给下游任务。后文实施例中,将对本申请提供的实体链接方法进行具体说明。
在一个实施例中,如图4所示,提供了一种实体数据处理方法,以该方法应用于计算机设备为例进行说明,该计算机设备可以是图1中的终端102,也可以图1中的服务器104,还可以是终端102和服务器104组成的系统。具体地,该实体数据处理方法包括以下步骤:
步骤402,获取第一训练样本;第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据,语义特征数据是从第一训练实体所在的知识图谱中获取的,训练内容数据与第一训练实体存在实体链接关系。
其中,第一训练实体为知识图谱中的实体,可以是知识图谱中的任意一个实体。第一训练实体对应的语义特征数据指的是包括第一训练实体的语义特征的数据,第一训练实体对应的语义特征数据是从第一训练实体所在的知识图谱中获取的,可以包括该第一训练实体的名称、文本描述、出现的主要语境片段、第一训练实体与其他实体的关系或者实体的ID(Identity)中的至少一种,当语义特征数据包括以上多种时,这些语义特征数据可以拼接形成文本特征串,举例说明,“地铁13号线”这一实体对应的实体特征数据可以是:北京地铁13号线,又称北京城市铁路,简称“城铁”。训练内容数据指的是包括第一训练实体的语境信息的数据,可以包括各种模态的语料数据,例如可以包括文本数据、音频数据或者视频数据中的至少一种。第一训练实体对应的训练内容数据与训练实体之间存在实体链接关系,指的是该训练内容数据通过实体链接可以指向该第一训练实体,例如,当训练内容数据为文本数据时,若该文本数据中包括第一训练实体对应的实体指称时,则该训练内容数据与第一训练实体之间存在实体链接关系。
具体地,对于知识图谱中的第一训练实体,计算机设备可以从知识图谱中获取该第一训练实体对应的语义特征数据,并获取该第一训练实体对应的训练内容数据,组成第一训练样本集。在一个实施例中,计算机设备可以从预先建立的种子实体链接数据库中获取到第一训练样本对应的内容数据作为训练内容数据,种子实体链接库中预先存储了已知的视频、文本等内容数据到知识图谱中实体的映射,通过查询该种子实体链接库中与第一训练实体存在映射关系的内容数据可以得到与该第一训练实体存在实体链接关系的训练内容数据。在其他实施例中,计算机设备可以结合百科数据等带链接的语料数据、人工标注数据等,获得高置信度的文本到实体的映射数据,从而获得第一训练实体的训练内容数据。
步骤404,通过待训练的第一语境编码模型对训练内容数据进行编码,得到第一训练实体对应的第一语境特征表示。
步骤406,通过待训练的第一实体编码模型对语义特征数据进行编码,得到第一训练实体对应的第一语义特征表示。
其中,语境编码模型(Mention Encoder)是用于对实体的语境信息进行编码的模型,实体编码模型(Entity Encoder)是用于对实体的语义信息进行编码的模型。语境编码模型和语义编码模型可以用于组成双塔模型,该双塔模型中,语境编码模型接收的输入为训练实体的训练内容数据,训练内容数据由于是和训练实体存在实体链接关系的,训练内容数据中包括了训练实体的语境信息,可以作为语境编码模型的输入。而实体编码模型接收的输入为训练实体的语义特征数据。通过训练该双塔模型,可以获得训练后的目标语境编码模型和目标实体编码模型。训练后的目标语境编码模型可以单独使用,可以用于单独对语境信息进行编码,训练后的目标实体编码模型同样可以单独使用,可以用于单独对语义信息进行编码。
具体地,计算机设备可以将第一训练样本中的训练内容数据输入待训练的第一语境编码模型中,通过第一语境编码模型对训练内容数据进行编码,得到第一训练实体对应的第一语境特征表示,将第一训练样本中的语义特征数据输入待训练的第一实体编码模型,通过第一实体编码模型对语义特征数据进行编码,得到第一训练实体对应的第一语义特征表示。
在一个实施例中,如图5所示,为本申请所采用的双塔模型的示意图,在该实施例中,左塔模型为语境编码器(Mention Encoder),语境编码器可以采用基于multilingualBERT (mBERT) 结构的多层注意力编码器模型,右塔模型为实体编码器,同样可以采用multilingual BERT (mBERT) 结构,其中,mBERT在多种不同语言的语料上进行预训练得到,从而可以获得多语言实体表示的统一编码空间。左塔模型输入为第一训练实体对应的文本数据,例如可以输入第一训练实体“Xmodel3”对应的文本数据“[CLS]上海车辆“超级工厂”生产的[E1]model3[/E1] [SEP]”,该文本数据中包含了第一训练实体“Xmodel3”的实体指称“model3”,所谓语境编码,也可以理解为结合该文本数据中的上下文信息对其中的实体指称进行编码。右塔模型输入为第一训练实体对应的语义特征数据,例如可以输入“[CLS]Xmodel3[SEP]是一款由美国汽车公司……[SEP]”。
在一个实施例中,如图6所示,为本申请所采用的双塔模型的示意图,在该实施例中,左塔模型为语境编码器,采用的是多模态编码模型(Multimodal Encoder),左塔模型的输入可以是多种模态的内容数据,这些内容数据与训练实体存在实体链接关系,包括视频数据、语音数据或者文本数据中的至少一种,可以实现跨模态编码。右塔模型为实体编码器,采用在多种语言的语料上训练得到的mBert。例如图6中,左塔模型可以输入与第一训练实体“Xmodel3”对应的训练内容数据,包括文本数据“[SEP]中国制造车辆#Model3#……”、音频数据以及视频数据,右塔模型输入“Xmodel3”对应的语义特征数据“[CLS]Xmodel3[SEP]是一款由美国汽车公司…[SEP]”。
在一个实施例中,如图7所示,为本申请所采用的双塔模型的示意图,在该实施例中,左塔模型为语境编码器,采用多模态编码模型(Multimodal Encoder),左塔模型的输入可以是多种模态的内容数据,这些内容数据与训练实体存在实体链接关系,包括视频数据、语音数据或者文本数据中的至少一种,可以实现跨模态编码。右塔模型为实体编码器,右塔模型的输入为训练实体对应的知识子图,即训练实体和其对应的关联实体所构成的图,例如从知识图谱中拉取该实体的全量一阶、二阶关系,将涉及到的实体构建一个子图,将该子图上各个节点进行向量初始化,输入右塔模型中,右塔模型可以采用图神经网络,例如可以采用图卷积网络(Graph Convolution Networks,GCN)、图注意力网络(Graph AttentionNetworks,GAN)、图自编码器( Graph Autoencoders)、图生成网络( Graph GenerativeNetworks)或者图时空网络(Graph Spatial-temporal Networks)中的其中一种,通过图神经网络可以将子图中其他节点的特征表示传播至训练实体对应的节点。
步骤408,基于第一语境特征表示和第一语义特征表示确定第一特征表示损失,基于第一特征表示损失调整第一语境编码模型和第一实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第一目标实体编码模型。
其中,第一目标实体编码模型用于针对目标知识图谱中各实体生成对应的目标语义特征表示,各目标语义特征表示用于对目标内容数据进行实体链接处理。这里,目标知识图谱和第一训练实体所在的知识图谱可以是相同的知识图谱,也可以是不同的知识图谱,目标知识图谱还可以是对第一训练实体所在的知识图谱进行更新得到的,例如,对第一训练实体所在的知识图谱增加一些实体和关系,得到目标知识图谱。
具体地,计算机设备可以计算第一语境特征表示和第一语义特征表示的相似度,从而得到第一特征表示损失,基于第一特征表示损失调整双塔模型的模型参数并继续训练,当满足训练停止条件时,训练完成,得到训练后的双塔模型,从而可以获得训练后的第一目标实体编码模型。这里,训练停止条件可以是训练时长达到预设时长、迭代次数达到预设次数或者第一特征表示损失达到最小值等中其中一种。
在一个实施例中,计算机设备可以计算第一语境特征表示和第一语义特征表示之间的余弦相似度,得到第一特征表示损失。
可以理解的是,本实施例中第一训练样本中所包括的训练内容数据是和第一训练实体存在实体链接关系的,因此该第一训练样本为正样本,在对正样本进行学习的过程中,双塔模型的训练目标是使得左塔模型和右塔模型的输出之间相似,例如,可以计算左塔模型和右塔模型的输出之间的余弦相似度,使得余弦相似度的值尽量接近1。其他实施例中,计算机设备还可以获取负样本进行训练,负样本中,训练内容数据与第一训练实体之间不存在实体链接关系,即负样本中的训练内容数据在经过实体链接后不会指向该第一训练实体,在对负样本进行学习的过程中,双塔模型的训练目标是使得左塔模型和右塔模型的输出之间不相似,例如,可以计算左塔模型和右塔模型的输出之间的余弦相似度,使得余弦相似度的值尽量接近-1。
可以理解的是,本实施例中,由于第一语境编码模型和第一实体编码模型是共同训练的,因此当训练完成时,还可以获得训练后的第一目标语境编码器,第一目标语境编码器可以用于在实体链接的过程中对待进行实体链接的内容数据进行语境编码,得到语境特征表示,进而基于该语境特征表示进行实体链接。
在一个实施例中,训练完成所得到的第一目标实体编码模型可以直接使用,针对目标知识图谱中各实体生成对应的目标语义特征表示,具体来说,针对目标知识图谱中的实体,可以从目标知识图谱中获取到对应的语义特征数据,进而将语义特征数据输入到第一目标实体编码模型,第一目标实体编码模型对输入的语义特征数据进行编码,得到该实体的目标语义特征表示。
在一个实施例中,在得到目标知识图谱中各个实体的目标语义特征表示,计算机设备可以建立实体和目标语义特征表示之间的映射关系,基于该映射关系,对待进行实体链接的内容数据进行实体链接处理,实体链接的具体过程可以参见后文实施例。
上述实体数据处理方法中,通过获取第一训练样本,该训练样本中包括第一训练实体对应的语义特征数据和训练内容数据,语义特征数据是从第一训练实体所在的知识图谱中获取的,训练内容数据与第一训练实体存在实体链接关系,通过待训练的第一语境编码模型对训练内容数据进行编码,由于得到第一训练实体对应的第一语境特征表示,通过待训练的第一实体编码模型对语义特征数据进行编码,得到第一训练实体对应的第一语义特征表示,基于第一语境特征表示和第一语义特征表示确定第一特征表示损失,进而可以基于该损失来训练得到第一目标实体编码模型,由于该实体编码模型在训练的过程中与语境编码模型共同训练,使得该实体编码模型不仅能够学习到语义信息,还可以学习到语境信息,从而在将该目标实体编码模型用于对实体生成目标语义特征表示时,可以得到更为准确的语义特征表示。
此外,由于本申请在训练的过程中,实体编码模型的输入是语义特征数据,语义特征数据从知识图谱中即可获得,灵活性较高,当知识图谱更新时,实体的语义特征数据可能得到更新,新实体的语义特征表示不依赖于大量针对新实体的训练数据,仅通过新实体的语义特征数据即可得到,因此可以很好地适配持续更新的知识图谱。
在一个实施例中,训练内容数据包括训练文本,训练文本中包括第一训练实体对应的实体指称;通过待训练的第一语境编码模型对训练内容数据进行编码,得到第一训练实体对应的第一语境特征表示,包括:对训练文本中的实体指称添加边界标记,得到目标训练文本;将目标训练文本输入待训练的第一语境编码模型,通过第一语境编码模型对目标训练文本进行编码,以得到第一训练实体对应的语境特征表示。
其中,训练文本指的是与第一训练实体存在实体链接关系的文本。边界标记指的是可以标记出实体指称的符号,边界标记所使用的符号可以自定义。例如,图5所举的例子中,对于语境编码器的输入文本“[CLS]上海车辆“超级工厂”生产的[E1]model3[/E1][SEP]”,其中“model3”的前一个字符[E1]和后一个字符[/E1]构成边界标记,通过该边界标记,可以标记出实体指称“model3”。
具体地,考虑到编码器在对文本进行编码时,通常是基于字级别的,但在中文领域,词要比字蕴含的信息更丰富,语义更充分,为了使得编码器能够学习到更为准确的语境信息,本实施例中,计算机设备可以对训练文本中的实体指称添加边界标记,得到目标训练文本,进而可以将添加边界标记后的目标训练文本输入待训练的第一语境编码模型,第一语境编码模型在对目标训练文本进行编码时,可以将实体指称作为一个整体进行编码,从而可以得到更为丰富的语义信息。另一方面,语境编码器输入的文本中,除了第一训练实体对应的实体指称外,可能还会有其他实体的实体指称,通过对第一训练实体对应的对实体指称进行边界标记,第一语境编码模型在学习的过程中可以更加关注对实体指称的学习,从而学习到与实体指称关联性更大的语境信息,从而使得编码得到的语境特征表示与第一训练实体具有更高的关联性,使得实体编码模型学习到的语境信息更加准确。
可以理解的是,由于本申请输入语境编码模型的训练内容数据为文本,在具体应用时,可以采用如图5所示的双塔模型进行训练。
上述实施例中,通过对对训练文本中的实体指称添加边界标记后再输入第一语境编码模型,可以提高第一语境编码模型输出的语境特征表示的准确性,而由于第一语境编码模型和第一实体编码模型是构成双塔模型共同训练的,因此可以提升第一实体编码模型所输出的语义特征表示的准确性。
在一个实施例中,将目标训练文本输入待训练的第一语境编码模型,通过第一语境编码模型对目标训练文本进行编码,以得到第一训练实体对应的语境特征表示,包括:将目标训练内容及目标训练文本输入待训练的第一语境编码模型;目标训练内容包括训练视频或者训练音频中的至少一种;通过第一语境编码模型分别对目标训练文本和目标训练内容进行编码,得到目标训练文本对应的文本特征表示和目标训练内容对应的内容特征表示;融合文本特征表示和内容特征表示,得到第一训练实体对应的语境特征表示。
其中,训练内容数据除了包括训练文本之外,还包括训练视频或者训练音频中的至少一种,训练音频指的是与第一训练实体存在实体链接关系的音频,训练视频指的是与第一训练实体存在实体链接关系的视频。
在一个实施例中,训练内容数据包括训练文本和训练视频,计算机设备可以将对训练文本进行边界标记得到的目标训练文本,以及训练视频一起输入待训练的第一语境编码模型,通过该第一语境编码模型分别对目标训练文本和训练视频进行编码,得到目标训练文本对应的文本特征表示和训练视频对应的视频特征表示,融合文本特征表示和视频特征表示,得到第一训练实体对应的语境特征表示。
在另一个实施例中,训练内容数据包括训练文本和训练音频,计算机设备可以将目标训练文本以及训练音频一起输入待训练的第一语境编码模型,通过第一语境编码模型分别对目标训练文本和训练音频进行编码,得到目标训练文本对应的文本特征表示和训练音频对应的音频特征表示,融合文本特征表示和音频特征表示,得到第一训练实体对应的语境特征表示。
在其他实施例中,训练内容数据包括训练文本、训练音频和训练视频,计算机设备可以将目标训练文本、训练音频本以及训练视频一起输入待训练的第一语境编码模型,通过第一语境编码模型分别对目标训练文本、训练音频和训练视频进行编码,得到目标训练文本对应的文本特征表示、训练音频对应的音频特征表示以及训练视频对应的视频特征表示,融合文本特征表示、音频特征表示和视频特征表示,得到第一训练实体对应的语境特征表示。
可以理解的是,由于本申请输入语境编码模型的训练内容数据为多模态数据,在具体应用时,可以采用如图6或者图7所示的双塔模型进行训练。
上述实施例中,由于语境编码模型输入的为多模态数据,可以编码得到语境信息更加丰富的语境特征表示,从而提升双塔模型的训练效果,使得训练得到的目标实体编码模型更为准确,从而可以在应用过程中输出更加准确的语义特征表示。
在一个实施例中,如图8所示,上述实体数据处理方法还包括生成目标语义特征表示的步骤,具体包括以下步骤802至步骤808:
步骤802,针对目标知识图谱的目标实体,从目标知识图谱中确定目标实体对应的初始知识子图。
其中,目标实体可以是目标知识图谱中的任意一个实体。目标实体对应的初始知识子图指的是目标实体以及目标实体的关联实体所构成的子图。目标实体的关联实体指的是和目标实体之间存在直接或者间接关联关系的实体,即和目标实体通过知识图谱中的边直接或者间接连接的实体。
具体地,针对目标知识图谱中的目标实体,计算机设备可以从目标知识图谱中确定与该目标节点的关系小于预设阶数的关联实体,将目标实体与这些关联实体所组成的子图确定为目标实体对应的初始知识子图。
举例说明,假设预设阶数为3,则计算机设备可以从目标知识图谱中确定与目标节点存在一阶关系的实体以及二阶关系的实体,一阶关系的实体指的是与目标实体直接通过边连接的实体,二阶关系的实体指的是与一阶关系的实体通过边直接连接的实体。
步骤804,针对初始知识子图中每个节点,从目标知识图谱中获得所针对的节点对应的语义特征数据,并将所针对的节点对应的语义特征数据输入第一目标实体编码模型中,获得所针对的节点对应的初始语义特征表示。
步骤806,通过各个节点各自对应的初始语义特征表示对初始知识子图进行向量初始化,得到目标知识子图。
具体地,针对初始知识子图中的每个节点,计算机设备可以从目标知识图谱中获取该节点对应的语义特征数据,然后将语义特征数据输入第一目标实体编码模型中,从而第一目标实体编码模型可以对该语义特征数据进行编码,得到该节点对应的初始语义特征表示。进而计算机设备可以通过各节点各自的语义特征表示对初始知识子图中各个节点进行向量初始化,得到目标知识子图。
步骤808,通过训练后的第二目标实体编码模型对初始化得到的目标知识子图进行编码,得到目标实体对应的目标语义特征表示。
其中,第二目标实体编码模型是训练好的模型,第二目标实体编码模型的模型参数与第一目标实体编码模型的模型参数是不相同的。第二目标实体编码模型可以采用图神经网络,通过图神经网络可以将子图中其他节点的特征表示传播至训练实体对应的节点。第二目标实体编码模型可以通过对待训练的双塔模型进行训练得到的,该双塔模型其中一个塔用于训练得到该第二目标实体编码模型,其输入为训练实体对应的训练知识子图,输出为该训练实体对应的语义特征表示,另一个塔输入为该训练实体对应的训练内容数据,可以是视频数据、音频数据或者文本数据中的至少一种。需要说明的是,这里的第二目标实体编码模型可以是计算机设备训练得到的,或者是计算机设备从其他计算机设备获取的,即训练该第二目标实体编码模型的计算机设备可以和使用该第二目标实体编码模型的计算机设备为不同的计算机设备。
具体地,计算机设备可以将目标知识子图输入训练后的第二目标实体编码模型,通过训练后的第二目标实体编码模型对目标知识子图进行编码,得到目标实体对应的目标语义特征表示。
在一个具体的实施例中,第一目标实体编码模型可以是通过如图5或者图6所示的双塔模型训练得到,而第二目标实体编码模型可以是通过如图7所示的双塔模型训练得到。
上述实施例中,通过获取目标实体的初始知识子图,通过第一目标实体编码模型对初始知识子图中各个节点生成初始语义表示向量,以对该子图进行初始化,进而可以基于初始化后的子图,通过训练好的第二目标实体编码针对初始化后的子图进行编码,可以对初始语义表示向量进行优化,得到更为准确的目标语义特征表示。
在一个实施例中,第二目标实体编码模型通过以下步骤训练得到:获取第二训练样本;第二训练样本包括第二训练实体对应的训练知识子图和训练内容数据;训练知识子图是通过对第二训练实体对应的初始知识子图进行向量初始化得到的,第二训练实体对应的初始知识子图是从第二训练实体所在知识图谱中确定的;通过待训练的第二语境编码模型对第二训练实体对应的训练内容数据进行编码,得到第二训练实体对应的第二语境特征表示;通过待训练的第二实体编码模型对训练知识子图进行编码,得到第二训练实体对应的第二语义特征表示;基于第二语境特征表示和第二语义特征表示确定第二特征表示损失,基于第二特征表示损失调整第二语境编码模型和第二实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第二目标实体编码模型。
其中,第二训练实体可以为知识图谱中的任意实体,第二训练实体与第一训练实体可以是相同的实体也可以是不相同的实体,第二训练实体对应的训练内容数据与第二训练实体存在实体链接关,系可以包括文本数据、视频数据或者音频数据中的至少一种。
具体地,待训练的第二语境编码模型和待训练第二实体编码模型可以用于构成双塔模型。计算机设备在获取到第二训练样本后,可以通过该双塔模型中的第二语境编码模型对第二训练实体对应的训练内容数据进行编码,得到第二语境特征表示,并通过该双塔模型中的第二实体编码模型对训练知识子图进行编码,得到第二语义特征表示,计算第二语境特征表示和第二语义特征表示的相似度,从而得到第二特征表示损失,基于第二特征表示损失调整双塔模型中两个塔的模型参数,当满足训练停止条件时,训练完成,得到训练后的双塔模型,从而可以获得训练后的第二目标实体编码模型。
在一个实施例中,计算机设备从训练实体所在知识图谱中确定了第二训练实体对应的初始知识子图后,可以对初始知识子图中各个节点进行随机的向量初始化,从而得到第二训练实体对应的训练知识子图。
可以理解的是,本实施例中,由于第二语境编码模型和第二实体编码模型是共同训练的,因此当训练完成时,还可以获得训练后的第一目标语境编码器,第一目标语境编码器可以用于在实体链接的过程中对待进行实体链接的内容数据进行语境编码,得到语境特征表示,进而基于该语境特征表示进行实体链接。
在一个实施例中,获取第二训练样本,包括:针对第二训练实体,从第二训练实体所在知识图谱中确定第二训练实体对应的初始知识子图;针对第二训练实体对应的初始知识子图中每个节点,从第二训练实体所在知识图谱中获得所针对的节点对应的语义特征数据,并将所针对的节点对应的语义特征数据输入第一目标实体编码模型中,获取所针对的节点对应的初始语义特征表示;通过各个节点各自对应的初始语义特征表示,对第二训练实体对应的初始知识子图进行向量初始化,得到第二训练实体对应的训练知识子图;基于第二训练实体对应的训练知识子图和第二训练实体对应的训练内容数据,构建第二训练实体对应的第二训练样本。
具体地,计算机设备在确定了第二训练实体对应初始知识子图后,可以通过第一目标实体编码模型针对初始子图中各个节点生成对应的初始语义特征表示,进而通过这些初始语义特征表示对初始知识子图进行向量初始化,得到训练知识子图,进而可以通过该训练知识子图和第二训练实体对应的训练内容数据,构建第二训练实体对应的第二训练样本。相较于对初始知识子图进行随机初始化得到训练知识子图,本实施例中得到的训练知识子图中各个节点的初始化向量更加准确,从而使得训练得到的第二目标实体编码模型具有更好的性能。
在一个实施例中,上述实体数据处理方法还包括:获取第三训练样本;第三训练样本包括第三训练实体对应的训练内容数据;通过待训练的第三语境编码模型对第三训练实体对应的训练内容数据进行编码,得到第三训练实体对应的第三语境特征表示;基于第三语境特征表示和第三训练实体对应的第三语义特征表示确定第三特征表示损失;第三语义特征表示是通过训练后的目标实体编码模型对第三训练实体对应的语义特征数据进行编码得到的;基于第三特征表示损失调整第三语境编码模型的模型参数并继续训练,直至训练完成,获得训练后的第三目标语境编码模型;第三目标语境编码模型用于针对目标知识图谱中的实体生成对应的目标语境特征表示,目标语境特征表示用于进行实体链接处理。
其中,第三训练实体可以为知识图谱中的任意实体,第三训练实体与第一训练实体、第二训练实体可以是相同的实体,也可以是不相同的实体,第三训练实体对应的训练内容数据与第三训练实体存在实体链接关系,可以包括文本数据、视频数据或者音频数据中的至少一种。第三训练实体对应的语义特征数据是从第三训练实体所在知识图谱中获得的。训练后的目标实体编码,即已经训练好的实体编码模型,已经训练的实体编码模型可以是上文中的第一目标实体编码模型或者第二目标实体编码模型。
具体地,计算机设备可以通过待训练的第三语境编码模型对输入的训练内容数据进行编码,得到第三训练实体对应的第三语境特征表示,进而可以计算第三语境特征表示和第三语义特征表示之间的相似度,得到第三特征表示损失,基于第三特征表示损失调整第三语境编码模型的模型参数并继续训练,直至训练完成,获得训练后的第三目标语境编码模型。
在一个具体的实施例中,第三训练样本中的训练内容数据可以通过以下两种方式中的任意一种获得:1、由百科数据或其他带链接语料数据中的链接进行解析、处理、匹配,获得内容数据到实体的映射,根据该映射获得训练内容数据。2、通过规则筛选知识图谱中无歧义的实体名称,用得到的实体名称对文章数据、视频数据等语料做精确匹配,从而获得内容数据到实体的映射,根据该映射获得训练内容数据。
在一个具体的实施例中,第三训练样本中还可以包括第三训练实体对应的语义特征数据,待训练的第三语境编码模型可以和已经训练好的语境编码模型构成双塔模型,在训练的过程中,将训练内容数据输入第三语境编码模型,将语义特征数据输入已经训练好的语境编码模型中,通过第三语境编码模型输出第三语境特征表示,通过已经训练好的语境编码模型输出第三语义特征表示,进而基于可以计算第三语境特征表示和第三语义特征表示之间的相似度,得到第三特征表示损失,通过该损失调整第三语境编码模型的参数,整个训练过程中固定语境编码模型的模型参数。
在另一个具体的实施例中,为提高训练效率,可以预先通过已经训练的实体编码模型对知识图谱中各实体生成语义特征表示,并建立实体和语义特征表示之间的映射关系,进而在训练过程中可以直接查询第三训练实体对应的第三语义特征表示,通过该第三语义特征表示和第三语境编码模型输出的第三语境特征表示确定第三特征表示损失。
上述实施例中,通过训练后的目标实体编码模型所生成的语义特征表示,和待训练的第三语境编码模型输出的第三语境特征表示计算特征表示损失,来训练第三语境编码模型,可以得到更好的训练效率,训练得到的第三语境编码模型在进行语境编码时,得到的语境特征表示更加准确。
在一个实施例中,如图9所示,提供了一种实体链接方法,以该方法应用于计算机设备为例进行说明,该计算机设备可以是图1中的终端102,也可以图1中的服务器104,还可以是终端102和服务器104组成的系统。具体地,该实体链接包括以下步骤:
步骤902,确定目标内容数据,对目标内容数据进行实体识别得到目标实体指称。
其中,目标内容数据指的是需要进行实体链接处理的内容数据。实体词识别,即指称识别(Mention detection),即对于输入的文章、搜索语句、视频等目标内容数据,识别出其中可能包含的实体词(即实体指称)。
具体地,计算机设备可以通过命名实体识别(Named Entity Recognition, NER)模型、别名表匹配、人工模板匹配等方式中一种或者多种对目标内容数据进行实体词识别,得到一个或者多个目标实体指称。多个指的是至少两个。
步骤904,对目标内容数据进行编码,得到目标实体指称对应的目标语境特征表示。
具体地,计算机设备可以通过训练后的目标语境编码模型对目标内容数据进行编码,得到目标实体指称对应的目标语境特征表示。这里的目标语境编码模型指的是已经训练好的语境编码模型,可以是上文实施例中的第一目标语境编码模型、第二目标语境编码模型或者第三目标语境编码模型中的任意一个。
步骤906,基于预先建立的实体指称和目标知识图谱中实体之间的映射关系,确定目标实体指称对应的至少一个候选实体。
具体地,本实施例中,预先建立实体指称和目标知识图谱中实体之间的映射关系,进而针对每一个目标实体指称,计算机设备可以通过查询该映射关系,得到每一个目标实体指称对应的至少一个候选实体。
步骤908,针对每个候选实体,获取所针对的候选实体的目标语义特征表示。
其中,目标语义特征表示是基于初始语义特征表示得到的,初始语义特征表示是通过第一目标实体编码模型对所针对的候选实体对应的语义特征数据进行编码得到的,语义特征数据是从目标知识图谱中获取的;第一目标实体编码模型是基于第一特征表示损失训练得到的,第一特征表示损失是基于第一语境特征表示和第一语义特征表示确定的,第一语境特征表示是通过待训练的第一语境编码模型对训练内容数据进行编码得到的,训练内容数据属于第一训练实体对应的第一训练样本,训练样本中还包括第一训练实体对应的语义特征数据,第一语义特征表示是通过待训练的第一实体编码模型对第一训练实体对应的语义特征数据进行编码得到的,第一训练实体对应的语义特征数据是从第一训练实体所在的知识图谱中获取的,训练内容数据与第一训练实体存在实体链接关系。
在一个实施例中,针对每个候选实体,计算机设备可以将该候选实体对应的语义特征数据输入上文中训练好的第一目标实体编码模型中,通过第一目标实体编码模型对该语义特征数据进行编码,得到该候选实体对应的初始语义特征表示,进而可以基于该初始语义特征表示得到该候选实体的目标语义特征表示。
在另一个实施例中,为提高实体链接效率,计算机设备可以预先针对目标知识图谱中的各实体生成目标语义特征表示,并保存实体和目标语义特征表示之间的映射关系,从而在实体链接过程中,计算机设备可以直接查询该映射关系来获取到各目标实体的目标语义特征表示。
在一个实施例中,计算机设备在得到候选实体对应的初始语义特征表示后,可以直接将该初始语义特征表示作为该候选实体的目标语义特征表示。
步骤910,基于目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,基于各个候选实体各自的置信度从至少一个候选实体中确定目标实体指称对应的目标实体。
其中,置信度用于表示候选实体的可信程度,置信度越高,表示该候选实体的可信度越大,从而该候选实体为目标实体的可能性也就越大。
具体地,计算机设备可以分别将目标语境特征表示和各个候选实体各自的目标语义特征表示计算相似度,基于各个候选实体各自计算得到的相似度,确定各个候选实体各自的置信度,进而可以根据置信度从目标实体指称对应的候选实体中选择得到目标实体。在一个具体的实施例中,针对每一个目标实体指称,计算机设备可以将该实体指称对应的候选实体中,置信度最高的候选实体作为目标实体。
上述实施例中,由于候选实体的目标语义特征表示是基于第一目标实体编码模型输出的初始语义特征表示得到的,而第一目标实体编码模型在训练的过程中与语境编码模型共同训练,使得该实体编码模型不仅能够学习到语义信息,还可以学习到语境信息,从而在将该目标实体编码模型用于对实体生成语义特征表示时,可以得到更为准确的语义特征表示,并且最终在选择候选实体时,基于目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,根据置信度来目标候选实体,由此本申请在进行实体链接时,可以充分考虑到目标内容数据的语境信息,通过准确率较高的语义特征表示来匹配该语境信息,得到更为准确的目标实体,提高了实体链接的准确性。
在一个实施例中,所针对的候选实体的目标语义特征表示通过以下步骤生成:从目标知识图谱中确定所针对的候选实体对应的初始知识子图;针对初始知识子图中各个节点,从目标知识图谱中获得所针对的节点对应的语义特征数据,并将所针对的节点对应的语义特征数据输入第一目标实体编码模型中,获取所针对的节点对应的初始语义特征表示;通过各个节点各自对应的初始语义特征表示对初始知识子图进行向量初始化,得到目标知识子图;通过训练后的第二目标实体编码模型对初始化得到的目标知识子图进行编码,得到所针对的候选实体对应的目标语义特征表示。
本实施例中,针对每个候选实体,计算机设备首先获得该候选实体的初始知识子图,从而通过第一目标实体编码模型对初始知识子图中各个节点生成初始语义特征表示,通过各初始语义特征表示对初始知识子图进行向量初始化,得到目标知识子图,接着通过第二目标实体编码模型对该目标知识子图进行编码,从而可以实现对该候选实体的初始语义特征表示进行优化,得到该候选实体的目标语义特征表示。
可以理解是,训练得到第二目标实体编码模型的步骤与实体数据处理方法实施例中训练得到第二目标实体编码模型的训练步骤相同,即这里的第二目标实体编码模型可以采用上文实施例中训练得到的第二目标实体编码模型。
上述实施例中,首先通过第一目标实体编码模型生成初始语义特征表示,再通过第二目标实体编码模型对初始语义特征表示进行优化得到目标语义特征表示,进一步提升了目标语义特征表示的准确性。
在一个实施例中,目标内容数据包括文本;对目标内容数据进行编码,得到目标实体指称对应的目标语境特征表示,包括:对文本中的目标实体指称添加边界标记,得到目标文本;将目标文本输入训练后的第一目标语境编码模型,通过第一目标语境编码模型对目标文本进行编码,以得到目标实体指称对应的目标语境特征表示。其中,本实施例中关于第一目标语境编码模型的训练步骤与实体数据处理方法实施例中的关于第一目标语境编码模型的训练步骤相同,即这里的第一目标语境编码模型可以采用上文实施例中训练得到的第一目标语境编码模型。
在一个实施例中,对目标内容数据进行编码,得到实体指称对应的语境特征表示,包括:将目标内容数据输入训练后的第三目标语境编码模型;通过第三目标语境编码模型对目标内容数据进行编码,以得到目标实体指称对应的目标语境特征表示。其中,关于第三目标语境编码模型的训练步骤与实体数据处理方法实施例中的关于第三目标语境编码模型的训练步骤相同,即这里的第三目标语境编码模型可以采用上文实施例中训练得到的第三目标语境编码模型。
在一个实施例中,上述实体链接方法还包括以下步骤:
1、从预设的内容数据库中提取得到实体指称,确定实体指称所链接的实体,建立实体指称和所链接的实体之间的映射关系;所链接的实体为与实体指称所在内容数据存在实体链接关系的实体。
其中,预设的内容数据库中的内容数据与知识图谱中实体的映射是已知的,即预先对内容数据库中的内容数据建立与知识图谱中实体的实体链接关系。
2、针对映射关系中的实体,统计所针对的实体在内容数据库中的出现次数;针对映射关系中的实体指称,统计与所针对的实体指称存在映射关系的各实体各自对应的出现次数,得到统计次数。
其中,实体在内容数据库中的出现次数指的是实体被内容数据库中提取的实体指称所链接的次数,即内容数据库中内容数据每出现一次链接至该实体的实体指称,则代表该实体出现一次。例如,假设某个内容数据中出现了两次“地铁13号线”,该“地铁13号线”均链接至实体“北京地铁13号线”,则实体“北京地铁13号线”在该内容数据中出现了两次。
3、计算所针对的实体的出现次数与统计次数的比值,得到所针对的实体的置信度系数,建立所针对的实体与置信度系数之间的映射关系。
具体地,计算机设备可以参考以下公式(1)计算置信度系数:
Figure 638598DEST_PATH_IMAGE002
(1)
其中,P(e|m)为置信度系数,Freq(e,m)指的是实体指称m所链接的实体e在内容数据库中的出现次数。
在一个具体的实施例中,如图10所示,为映射关系的建立和存储示意图,本实施例中映射关系基于知识图谱和预设的内容数据库建立,建立的映射关系可以以数据表的形式进行存储,在数据表中每一行中的实体指称与实体之间存在映射关系,且实体与置信度系数存在映射关系。
进一步,本实施例中,在建立了上述映射关系后,计算机设备可以查询实体指称和所链接的实体之间的映射关系,以确定目标实体指称对应的至少一个候选实体,进而可以分别计算语境特征表示和各个候选实体各自的目标语义特征表示之间的相似度,将各个候选实体各自对应的相似度乘以各自对应的置信度系数,得到各个候选实体各自的置信度。置信度的计算具体可以参考以下公式(2):
Figure 289022DEST_PATH_IMAGE004
(2)
其中,
Figure 213116DEST_PATH_IMAGE006
为置信度,/>
Figure 581780DEST_PATH_IMAGE008
为置信度系数,/>
Figure 616732DEST_PATH_IMAGE010
为候选实体的embedding,即候选实体的目标语义特征表示,/>
Figure 121663DEST_PATH_IMAGE012
为实体指称的embedding,即目标语境特征表示,/>
Figure 216658DEST_PATH_IMAGE014
表示计算余弦相似度。
上述实施例中,通过预先建立各个候选实体与置信度系数之间的映射关系,进而在计算置信度时,可以获取到置信度系数,从而可以计算得到更为准确的置信度,进一步提高实体链接的准确性。
在一个具体的实施例中,提供一种实体数据处理方法和一种实体链接方法,能够基于持续更新的知识图谱,构建可自动更新、对新实体灵敏的实体链接系统,且可以适配中文和多语言的知识图谱及语料数据,对于企业级数据中的文本理解、视频理解及其他多模态内容理解的基础优化具有重要作用。本实施例中主要基于实体编码器构建已有实体或新实体的语义特征表示,并基于语境编码器构建语境中实体词的向量表示,从而能够将文本、视频等多模态内容映射到已有实体或新实体的语义空间上,达到准确地解析语境中的实体、对新实体也能较好地消除歧义的目的。
如图11所示,为本实施例的技术架构图,参考图11,可以分为在线部分和离线部分,其中在线部分包括人工干预模块和实体链接推理模块,离线部分包括实体表示模块和实体链接训练模块,以下结合图11具体介绍各个模块:
1、实体表示模块:
该模块基于一个持续更新的知识图谱,给定任意实体的ID,从知识图谱中构建实体的语义特征表示(Entity Embedding)。实体的语义特征表示为一个向量值,即Embedding。语义特征表示由如下部分组成:
1.1、实体特征串(即上文的语义特征数据)生成器:从知识图谱中获取该实体的名称、文本描述(若有)、出现的主要语境片段(若有)、实体与其他实体的关系(若有),将上述数据拼接构成一个实体的文本特征串。该特征串具有灵活特性:(1)当图谱更新时,实体的特征串可能得到更新;(2)新实体的特征串不依赖于大量针对新实体的训练数据,仅通过新实体的名称、描述或少量语境片段信息即可得到。(3)在人工干预模块可以对特征串进行手动干预。(4)基于生成语言模型,训练实体特征串优化器,基于图谱关系结构生成自然语言特征串。
1.2、实体编码器(即上文中的第一实体编码模型):对于一个给定的实体特征串,训练基于multilingual BERT (mBERT) 结构的多层注意力编码器模型,将给定特征串编码为语义空间中的向量,得到实体的Embedding。该编码器由mBERT或其他预训练语言模型初始化,用于获得多语言实体表示的统一编码空间。其中,实体编码器可以通过如图5或者图6的双塔模型训练得到,最终得到训练好的实体编码器(即上文中的第一目标实体编码模型),具体训练过程可以参考上文实施例中的描述。
1.3、基于图结构的优化:从知识图谱中拉取该实体的全量一阶、二阶关系,将涉及到的实体构建一个子图,该子图上各实体可以通过1.2中训练完成的实体编码器所生成的语义特征表示进行初始化,然后获取与该实体存在实体链接关系的文本、视频等数据构建训练样本(即上文中的第二训练样本),进而可以对图7中的双塔模型进行训练,训练完成后,得到第二目标实体编码模型,该第二目标实体编码模型可以优化第一目标实体编码模型输出的实体的Embedding取值。
2、实体链接训练模块,该模块由几个部分组成。
2.1 、训练数据构造:
2.1.1、强监督数据:由百科数据或其他带链接语料数据中的链接进行解析、处理、匹配,获取文本到实体映射的训练数据。
2.1.2、弱监督数据:通过规则筛选知识图谱中无歧义的实体名称,用该名称集合对文章数据、视频数据等语料做精确匹配,从而获得文本到的实体的映射。
2.2、模型训练:
基于2.1中的实体链接数据集构建训练样本(即第三训练样本),训练一个双塔模型。在初始训练阶段,左塔为语境编码器(即上文中的第三语境编码模型),由mBERT模型或其他预训练语言模型初始化得到;右塔为实体编码器,可以为1.2中的编码器:在1.2及1.3训练完成后,可以获取各实体的Embedding,右塔数据可固化为Embedding本身,仅训练左塔的语境编码器,从而获得最佳应用效果,最终得到训练好的语境编码器,即上文中的第三目标语境编码模型。
3、实体链接推理模块
该模块由几个离线或在线子模块组成,从而可以支持实体链接的离线或在线推理应用。参考图12,为实体链接推理模块的推理过程示意图,以下结合图12对实体链接涉及的各个模块进行说明:
3.1、别名表构建模块:
基于知识图谱已有数据、关联语料数据等,如百科数据与知识图谱的已知映射(即2.1.1 “强监督数据“),基于统计方法构造mention(实体指称)到entity(实体)的别名表,该别名表即用于存储mention和entity之间映射关系、entity和置信度系数P(e|m)之间映射关系的数据表,P(e|m)的计算方式可以参考上文中的公式(1)。一个构建好的别名表样例可以参考图10。该别名表可以定期构建,从而对于知识图谱的新实体有一定的探查能力。
3.2、实体词识别在线模块:
该模块部署为一个前置的服务,对于输入的文章、搜索语句、视频等,识别出其中可能包含的实体词。该服务可以通过命名实体识别模型、别名表匹配服务(查询3.1生成的别名表)、人工模板类匹配等方式进行实体词识别,得到一个或者多个实体词(mention,即上文中的实体指称)。
3.3、语境编码器模块:
将2.2中训练的第三目标语境编码器通过机器学习平台部署为线上服务,该模块的输入为3.2中接收的输入,输出为实体词对应的语境编码(Mention Embedding),即目标语境特征表示。
3.4、实体编码器模块:
将实体表示模型训练的实体编码器(包括第一目标实体编码模型和第二目标实体编码模型)部署为定期编码服务,对于知识图谱的任意实体,计算其实体特征表示(EntityEmbedding),将实体ID和entity_embedding部署为线上服务,存储在线上KV(key-value)存储系统中并定期更新。训练好的实体编码器对知识图谱实体进行定期编码操作,将新实体的表示及时存入线上存储,从而达到对新实体敏感的效果。
3.5 实体候选项生成模块:
该模块部署为一个前置服务,3.2模块的输出为此模块的输入。对于3.2中输出的每一个实体词(m),查询3.1生成的别名表,输出别名表命中的全部候选实体(e)及其对应分数P(e|m)。
3.6 实体打分模块:
该模块查询3.5中输出的每一个候选实体e,并基于线上KV查询其对应的EntityEmbedding (Embe)。基于3.3输出的Mention Embedding ((Embm),计算二者的余弦相似度与别名表中置信度系数P(e|m)的乘积作为候选项分数,具体参考上文中的公式(2):最终对于每一个实体词,输出分数最高的候选实体作为目标实体,即得到实体链接结果。
4、人工干预模块
该模块提供入口,可以及时干预别名表内容P(e|m) 从而改变线上实体链接对于特定实体与特定词汇的结果。
在一个具体的实施例中,可以构建用于实现本申请的实体链接方法的实体链接系统,该实体链接系统可以用于用户兴趣标签的构建,参考图13,可以通过实体链接系统对文章、视频、搜索语句等内容进行实体链接,识别出内容中的兴趣标签,通过用户对文章、视频行为以及搜索行为等,将用户关联到兴趣标签上,可以构建用户的实体兴趣画像,从而辅助推荐系统的精准推荐,可用于推荐系统、广告系统等。
在另一个具体的实施例中,本申请实施例提供的实体链接方法可以应用于搜索、推荐、广告等系统的内容理解。对于视频、商品、文章等物料内容,通过实体链接打上置信的实体标签,该实体标签可用于基于深度学习的推荐、广告系统中的物品特征、用户物品匹配特征等,从而提升系统推荐精确性。
在另一个具体的实施例中,本申请实施例提供的实体链接方法可以应用于推荐、搜索、广告系统的外显标签:在视频、文章等内容的推荐、搜索、广告等产品场景下,可以通过实体链接,解析出文本或视频中的关键实体,并作为外显推荐理由展示给用户,从而提升推荐系统的粘性与交互体验、提升商业价值。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的实体数据处理方法的实体数据处理装置以及一种实现上述所涉及的实体链接方法的实体链接装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个实体数据处理装置、实体链接装置实施例中的具体限定可以参见上文中对于实体数据处理方法、实体链接方法的限定,在此不再赘述。
在一个实施例中,如图14所示,提供了一种实体数据处理装置1400,包括:
样本获取模块1402,用于获取第一训练样本;第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据,语义特征数据是从第一训练实体所在的知识图谱中获取的,训练内容数据与第一训练实体存在实体链接关系;
语境编码模块1404,用于通过待训练的第一语境编码模型对训练内容数据进行编码,得到第一训练实体对应的第一语境特征表示;
语义编码模块1406,用于通过待训练的第一实体编码模型对语义特征数据进行编码,得到第一训练实体对应的第一语义特征表示;
损失确定模块1408,用于基于第一语境特征表示和第一语义特征表示确定第一特征表示损失,基于第一特征表示损失调整第一语境编码模型和第一实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第一目标实体编码模型;第一目标实体编码模型用于针对目标知识图谱中各实体生成对应的目标语义特征表示,各目标语义特征表示用于对目标内容数据进行实体链接处理。
上述实体数据处理装置,由于该实体编码模型在训练的过程中与语境编码模型共同训练,使得该实体编码模型不仅能够学习到语义信息,还可以学习到语境信息,从而在将该目标实体编码模型用于对实体生成目标语义特征表示时,可以得到更为准确的语义特征表示。此外,由于本申请在训练的过程中,实体编码模型的输入是语义特征数据,语义特征数据从知识图谱中即可获得,灵活性较高,当知识图谱更新时,实体的语义特征数据可能得到更新,新实体的语义特征表示不依赖于大量针对新实体的训练数据,仅通过新实体的语义特征数据即可得到,因此可以很好地适配持续更新的知识图谱。
在一个实施例中,训练内容数据包括训练文本,训练文本中包括第一训练实体对应的实体指称;语境编码模块,还用于:对训练文本中的实体指称添加边界标记,得到目标训练文本;将目标训练文本输入待训练的第一语境编码模型,通过第一语境编码模型对目标训练文本进行编码,以得到第一训练实体对应的语境特征表示。
在一个实施例中,训练内容数据还包括训练视频或者训练音频中的至少一种;语境编码模块,还用于:将目标训练内容及目标训练文本输入待训练的第一语境编码模型;目标训练内容包括训练视频或者训练音频中的至少一种;通过第一语境编码模型分别对目标训练文本和目标训练内容进行编码,得到目标训练文本对应的文本特征表示和目标训练内容对应的内容特征表示;融合文本特征表示和内容特征表示,得到第一训练实体对应的语境特征表示。
在一个实施例中,上述装置还包括:语义特征表示生成模块,用于针对目标知识图谱的目标实体,从目标知识图谱中确定目标实体对应的初始知识子图;针对初始知识子图中每个节点,从目标知识图谱中获得所针对的节点对应的语义特征数据,并将所针对的节点对应的语义特征数据输入第一目标实体编码模型中,获得所针对的节点对应的初始语义特征表示;通过各个节点各自对应的初始语义特征表示对初始知识子图进行向量初始化,得到目标知识子图;通过训练后的第二目标实体编码模型对目标知识子图进行编码,得到目标实体对应的目标语义特征表示。
在一个实施例中,上述装置还包括:实体编码模型训练模块,用于获取第二训练样本;第二训练样本包括第二训练实体对应的训练知识子图和训练内容数据;训练知识子图是通过对第二训练实体对应的初始知识子图进行向量初始化得到的,第二训练实体对应的初始知识子图是从第二训练实体所在知识图谱中确定的;通过待训练的第二语境编码模型对第二训练实体对应的训练内容数据进行编码,得到第二训练实体对应的第二语境特征表示;通过待训练的第二实体编码模型对训练知识子图进行编码,得到第二训练实体对应的第二语义特征表示;基于第二语境特征表示和第二语义特征表示确定第二特征表示损失,基于第二特征表示损失调整第二语境编码模型和第二实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第二目标实体编码模型。
在一个实施例中,实体编码模型训练模块还用于针对第二训练实体,从第二训练实体所在知识图谱中确定第二训练实体对应的初始知识子图;针对第二训练实体对应的初始知识子图中每个节点,从第二训练实体所在知识图谱中获得所针对的节点对应的语义特征数据,并将所针对的节点对应的语义特征数据输入第一目标实体编码模型中,获得所针对的节点对应的初始语义特征表示;通过各个节点各自对应的初始语义特征表示,对第二训练实体对应的初始知识子图进行向量初始化,得到第二训练实体对应的训练知识子图;基于第二训练实体对应的训练知识子图和第二训练实体对应的训练内容数据,构建第二训练实体对应的第二训练样本。
在一个实施例中,上述装置还包括:语境编码模型训练模块,用于获取第三训练样本;第三训练样本包括第三训练实体对应的训练内容数据;通过待训练的第三语境编码模型对第三训练实体对应的训练内容数据进行编码,得到第三训练实体对应的第三语境特征表示;基于第三语境特征表示和第三训练实体对应的第三语义特征表示确定第三特征表示损失;第三语义特征表示是通过训练后的目标实体编码模型对第三训练实体对应的语义特征数据进行编码得到的;基于第三特征表示损失调整第三语境编码模型的模型参数并继续训练,直至训练完成,获得训练后的第三目标语境编码模型;第三目标语境编码模型用于针对目标知识图谱中的实体生成对应的目标语境特征表示,目标语境特征表示用于进行实体链接处理。
在一个实施例中,如图15所示,提供了一种实体链接装置1500,包括:
实体识别模块1502,用于确定目标内容数据,对目标内容数据进行实体识别得到目标实体指称;
语境编码模块1504,用于对目标内容数据进行编码,得到目标实体指称对应的目标语境特征表示;
候选实体确定模块1506,用于基于预先建立的实体指称和目标知识图谱中实体之间的映射关系,确定目标实体指称对应的至少一个候选实体;
语义特征获取模块1508,用于针对每个候选实体,获取所针对的候选实体的目标语义特征表示;目标语义特征表示是基于初始语义特征表示得到的,初始语义特征表示是通过第一目标实体编码模型对所针对的候选实体对应的语义特征数据进行编码得到的,语义特征数据是从目标知识图谱中获取的;第一目标实体编码模型是基于第一特征表示损失训练得到的,第一特征表示损失是基于第一语境特征表示和第一语义特征表示确定的,第一语境特征表示是通过待训练的第一语境编码模型对训练内容数据进行编码得到的,训练内容数据属于第一训练实体对应的第一训练样本,训练样本中还包括第一训练实体对应的语义特征数据,第一语义特征表示是通过待训练的第一实体编码模型对第一训练实体对应的语义特征数据进行编码得到的,第一训练实体对应的语义特征数据是从第一训练实体所在的知识图谱中获取的,训练内容数据与第一训练实体存在实体链接关系;
目标实体确定模块1510,用于基于目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,基于各个候选实体各自的置信度从至少一个候选实体中确定目标实体指称对应的目标实体。
上述实体链接装置,由于候选实体的目标语义特征表示是基于第一目标实体编码模型输出的初始语义特征表示得到的,而第一目标实体编码模型在训练的过程中与语境编码模型共同训练,使得该实体编码模型不仅能够学习到语义信息,还可以学习到语境信息,从而在将该目标实体编码模型用于对实体生成语义特征表示时,可以得到更为准确的语义特征表示,并且最终在选择候选实体时,基于目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,根据置信度来目标候选实体,由此本申请在进行实体链接时,可以充分考虑到目标内容数据的语境信息,通过准确率较高的语义特征表示来匹配该语境信息,得到更为准确的目标实体,提高了实体链接的准确性。
在一个实施例中,上述实体链接装置还包括:语义特征表示生成模块,用于从目标知识图谱中确定所针对的候选实体对应的初始知识子图;针对初始知识子图中各个节点,从目标知识图谱中获得所针对的节点对应的语义特征数据,并将所针对的节点对应的语义特征数据输入第一目标实体编码模型中,获取所针对的节点对应的初始语义特征表示;通过各个节点各自对应的初始语义特征表示对初始知识子图进行向量初始化,得到目标知识子图;通过训练后的第二目标实体编码模型对初始化得到的目标知识子图进行编码,得到所针对的候选实体对应的目标语义特征表示。
在一个实施例中,目标内容数据包括文本;语境编码模块,还用于对文本中的目标实体指称添加边界标记,得到目标文本;将目标文本输入训练后的第一目标语境编码模型,通过第一目标语境编码模型对目标文本进行编码,以得到目标实体指称对应的目标语境特征表示。
在一个实施例中,语境编码模块,还用于将目标内容数据输入训练后的第三目标语境编码模型;通过第三目标语境编码模型对目标内容数据进行编码,以得到目标实体指称对应的目标语境特征表示。
在一个实施例中,上述实体链接装置还包括:映射关系建立模块,用于从预设的内容数据库中提取得到实体指称,确定实体指称所链接的实体,建立实体指称和所链接的实体之间的映射关系;所链接的实体为与实体指称所在内容数据存在实体链接关系的实体;针对映射关系中的实体,统计所针对的实体在内容数据库中的出现次数;针对映射关系中的实体指称,统计与所针对的实体指称存在映射关系的各实体各自对应的出现次数,得到统计次数;计算所针对的实体的出现次数与统计次数的比值,得到所针对的实体的置信度系数,建立所针对的实体与置信度系数之间的映射关系;目标实体确定模块,还用于分别计算目标语境特征表示和各个候选实体各自的目标语义特征表示之间的相似度,将各个候选实体各自对应的相似度乘以各自对应的置信度系数,得到各个候选实体各自的置信度。
上述实体数据处理装置、实体链接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过模型连接通信。该计算机程序被处理器执行时以实现一种实体数据处理方法或者一种实体链接方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝模型、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种实体数据处理方法或者一种实体链接方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图16、图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实体数据处理方法或者实体链接方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实体数据处理方法或者实体链接方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实体数据处理方法或者实体链接方法的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (26)

1.一种实体数据处理方法,其特征在于,所述方法包括:
获取第一训练样本;所述第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据,所述语义特征数据是从所述第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;
通过待训练的第一语境编码模型对所述训练内容数据进行编码,得到所述第一训练实体对应的第一语境特征表示;
通过待训练的第一实体编码模型对所述语义特征数据进行编码,得到所述第一训练实体对应的第一语义特征表示;
基于所述第一语境特征表示和所述第一语义特征表示确定第一特征表示损失,基于所述第一特征表示损失调整所述第一语境编码模型和所述第一实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第一目标实体编码模型;所述第一目标实体编码模型用于针对目标知识图谱中各实体生成对应的目标语义特征表示,各所述目标语义特征表示用于对目标内容数据进行实体链接处理。
2.根据权利要求1所述的方法,其特征在于,所述训练内容数据包括训练文本,所述训练文本中包括所述第一训练实体对应的实体指称;所述通过待训练的第一语境编码模型对所述训练内容数据进行编码,得到所述第一训练实体对应的第一语境特征表示,包括:
对所述训练文本中的实体指称添加边界标记,得到目标训练文本;
将所述目标训练文本输入待训练的第一语境编码模型,通过所述第一语境编码模型对所述目标训练文本进行编码,以得到所述第一训练实体对应的语境特征表示。
3.根据权利要求2所述的方法,其特征在于,所述训练内容数据还包括训练视频或者训练音频中的至少一种;所述将所述目标训练文本输入待训练的第一语境编码模型,通过所述第一语境编码模型对所述目标训练文本进行编码,以得到所述第一训练实体对应的语境特征表示,包括:
将目标训练内容及所述目标训练文本输入待训练的第一语境编码模型;所述目标训练内容包括训练视频或者训练音频中的至少一种;
通过所述第一语境编码模型分别对所述目标训练文本和所述目标训练内容进行编码,得到所述目标训练文本对应的文本特征表示和所述目标训练内容对应的内容特征表示;
融合所述文本特征表示和所述内容特征表示,得到所述第一训练实体对应的语境特征表示。
4.根据权利要求1所述的方法,其特征在于,所述方法包括:
针对所述目标知识图谱的目标实体,从所述目标知识图谱中确定所述目标实体对应的初始知识子图;
针对所述初始知识子图中每个节点,从所述目标知识图谱中获得所针对的节点对应的语义特征数据,并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中,获得所述所针对的节点对应的初始语义特征表示;
通过各个节点各自对应的初始语义特征表示对所述初始知识子图进行向量初始化,得到目标知识子图;
通过训练后的第二目标实体编码模型对所述目标知识子图进行编码,得到所述目标实体对应的目标语义特征表示。
5.根据权利要求4所述的方法,其特征在于,所述第二目标实体编码模型通过以下步骤训练得到:
获取第二训练样本;所述第二训练样本包括第二训练实体对应的训练知识子图和训练内容数据;所述训练知识子图是通过对所述第二训练实体对应的初始知识子图进行向量初始化得到的,所述第二训练实体对应的初始知识子图是从所述第二训练实体所在知识图谱中确定的;
通过待训练的第二语境编码模型对所述第二训练实体对应的训练内容数据进行编码,得到所述第二训练实体对应的第二语境特征表示;
通过待训练的第二实体编码模型对所述训练知识子图进行编码,得到所述第二训练实体对应的第二语义特征表示;
基于所述第二语境特征表示和所述第二语义特征表示确定第二特征表示损失,基于所述第二特征表示损失调整所述第二语境编码模型和所述第二实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第二目标实体编码模型。
6.根据权利要求5所述的方法,其特征在于,所述获取第二训练样本,包括:
针对所述第二训练实体,从所述第二训练实体所在知识图谱中确定所述第二训练实体对应的初始知识子图;
针对所述第二训练实体对应的初始知识子图中每个节点,从所述第二训练实体所在知识图谱中获得所针对的节点对应的语义特征数据,并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中,获得所述所针对的节点对应的初始语义特征表示;
通过各个节点各自对应的初始语义特征表示,对所述第二训练实体对应的初始知识子图进行向量初始化,得到所述第二训练实体对应的训练知识子图;
基于所述第二训练实体对应的训练知识子图和所述第二训练实体对应的训练内容数据,构建所述第二训练实体对应的第二训练样本。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:
获取第三训练样本;所述第三训练样本包括第三训练实体对应的训练内容数据;
通过待训练的第三语境编码模型对所述第三训练实体对应的训练内容数据进行编码,得到所述第三训练实体对应的第三语境特征表示;
基于所述第三语境特征表示和所述第三训练实体对应的第三语义特征表示确定第三特征表示损失;所述第三语义特征表示是通过训练后的目标实体编码模型对所述第三训练实体对应的语义特征数据进行编码得到的;
基于所述第三特征表示损失调整所述第三语境编码模型的模型参数并继续训练,直至训练完成,获得训练后的第三目标语境编码模型;
所述第三目标语境编码模型用于针对目标知识图谱中的实体生成对应的目标语境特征表示,所述目标语境特征表示用于进行实体链接处理。
8.一种实体链接方法,其特征在于,所述方法包括:
确定目标内容数据,对所述目标内容数据进行实体词识别得到目标实体指称;
对所述目标内容数据进行编码,得到所述目标实体指称对应的目标语境特征表示;
基于预先建立的实体指称和目标知识图谱中实体之间的映射关系,确定所述目标实体指称对应的至少一个候选实体;
针对每个候选实体,获取所针对的候选实体的目标语义特征表示;所述目标语义特征表示是基于初始语义特征表示得到的,所述初始语义特征表示是通过第一目标实体编码模型对所述所针对的候选实体对应的语义特征数据进行编码得到的,所述语义特征数据是从所述目标知识图谱中获取的;所述第一目标实体编码模型是基于第一特征表示损失训练得到的,所述第一特征表示损失是基于第一语境特征表示和第一语义特征表示确定的,所述第一语境特征表示是通过待训练的第一语境编码模型对训练内容数据进行编码得到的,所述训练内容数据属于第一训练实体对应的第一训练样本,所述训练样本中还包括所述第一训练实体对应的语义特征数据,所述第一语义特征表示是通过待训练的第一实体编码模型对所述第一训练实体对应的语义特征数据进行编码得到的,所述第一训练实体对应的语义特征数据是从第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;
基于所述目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,基于各个候选实体各自的置信度从所述至少一个候选实体中确定所述目标实体指称对应的目标实体。
9.根据权利要求8所述的方法,其特征在于,所述所针对的候选实体的目标语义特征表示通过以下步骤生成:
从所述目标知识图谱中确定所述所针对的候选实体对应的初始知识子图;
针对所述初始知识子图中各个节点,从所述目标知识图谱中获得所针对的节点对应的语义特征数据,并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中,获取所述所针对的节点对应的初始语义特征表示;
通过各个节点各自对应的初始语义特征表示对所述初始知识子图进行向量初始化,得到目标知识子图;
通过训练后的第二目标实体编码模型对初始化得到的目标知识子图进行编码,得到所述所针对的候选实体对应的目标语义特征表示。
10.根据权利要求8所述的方法,其特征在于,所述目标内容数据包括文本;所述对所述目标内容数据进行编码,得到所述目标实体指称对应的目标语境特征表示,包括:
对所述文本中的目标实体指称添加边界标记,得到目标文本;
将所述目标文本输入训练后的第一目标语境编码模型,通过所述第一目标语境编码模型对所述目标文本进行编码,以得到所述目标实体指称对应的目标语境特征表示。
11.根据权利要求8所述的方法,其特征在于,所述对所述目标内容数据进行编码,得到所述目标实体指称对应的目标语境特征表示,包括:
将所述目标内容数据输入训练后的第三目标语境编码模型;
通过所述第三目标语境编码模型对所述目标内容数据进行编码,以得到所述目标实体指称对应的目标语境特征表示。
12.根据权利要求8至11任意一项所述的方法,其特征在于,所述方法还包括:
从预设的内容数据库中提取得到实体指称,确定所述实体指称所链接的实体,建立所述实体指称和所链接的实体之间的映射关系;所述所链接的实体为与所述实体指称所在内容数据存在实体链接关系的实体;
针对所述映射关系中的实体,统计所针对的实体在所述内容数据库中的出现次数;针对所述映射关系中的实体指称,统计与所针对的实体指称存在映射关系的各实体各自对应的出现次数,得到统计次数;
计算所述所针对的实体的出现次数与所述统计次数的比值,得到所述所针对的实体的置信度系数,建立所述所针对的实体与所述置信度系数之间的映射关系;
所述基于所述目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,包括:
分别计算所述目标语境特征表示和各个候选实体各自的目标语义特征表示之间的相似度,将各个候选实体各自对应的相似度乘以各自对应的置信度系数,得到各个候选实体各自的置信度。
13.一种实体数据处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取第一训练样本;所述第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据,所述语义特征数据是从所述第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;
语境编码模块,用于通过待训练的第一语境编码模型对所述训练内容数据进行编码,得到所述第一训练实体对应的第一语境特征表示;
语义编码模块,用于通过待训练的第一实体编码模型对所述语义特征数据进行编码,得到所述第一训练实体对应的第一语义特征表示;
损失确定模块,用于基于所述第一语境特征表示和所述第一语义特征表示确定第一特征表示损失,基于所述第一特征表示损失调整所述第一语境编码模型和所述第一实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第一目标实体编码模型;所述第一目标实体编码模型用于针对目标知识图谱中各实体生成对应的目标语义特征表示,各所述目标语义特征表示用于对目标内容数据进行实体链接处理。
14.根据权利要求13所述的装置,其特征在于,所述训练内容数据包括训练文本,所述训练文本中包括所述第一训练实体对应的实体指称;所述语境编码模块,还用于:
对所述训练文本中的实体指称添加边界标记,得到目标训练文本;
将所述目标训练文本输入待训练的第一语境编码模型,通过所述第一语境编码模型对所述目标训练文本进行编码,以得到所述第一训练实体对应的语境特征表示。
15.根据权利要求14所述的装置,其特征在于,所述训练内容数据还包括训练视频或者训练音频中的至少一种;所述语境编码模块,还用于:
将目标训练内容及所述目标训练文本输入待训练的第一语境编码模型;所述目标训练内容包括训练视频或者训练音频中的至少一种;
通过所述第一语境编码模型分别对所述目标训练文本和所述目标训练内容进行编码,得到所述目标训练文本对应的文本特征表示和所述目标训练内容对应的内容特征表示;
融合所述文本特征表示和所述内容特征表示,得到所述第一训练实体对应的语境特征表示。
16.根据权利要求13所述的装置,其特征在于,所述装置包括语义特征表示生成模块,用于:
针对所述目标知识图谱的目标实体,从所述目标知识图谱中确定所述目标实体对应的初始知识子图;
针对所述初始知识子图中每个节点,从所述目标知识图谱中获得所针对的节点对应的语义特征数据,并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中,获得所述所针对的节点对应的初始语义特征表示;
通过各个节点各自对应的初始语义特征表示对所述初始知识子图进行向量初始化,得到目标知识子图;
通过训练后的第二目标实体编码模型对所述目标知识子图进行编码,得到所述目标实体对应的目标语义特征表示。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括实体编码模型训练模块,用于:
获取第二训练样本;所述第二训练样本包括第二训练实体对应的训练知识子图和训练内容数据;所述训练知识子图是通过对所述第二训练实体对应的初始知识子图进行向量初始化得到的,所述第二训练实体对应的初始知识子图是从所述第二训练实体所在知识图谱中确定的;
通过待训练的第二语境编码模型对所述第二训练实体对应的训练内容数据进行编码,得到所述第二训练实体对应的第二语境特征表示;
通过待训练的第二实体编码模型对所述训练知识子图进行编码,得到所述第二训练实体对应的第二语义特征表示;
基于所述第二语境特征表示和所述第二语义特征表示确定第二特征表示损失,基于所述第二特征表示损失调整所述第二语境编码模型和所述第二实体编码模型的模型参数并继续训练,直至训练完成,获得训练后的第二目标实体编码模型。
18.根据权利要求17所述的装置,其特征在于,所述实体编码模型训练模块还用于:
针对所述第二训练实体,从所述第二训练实体所在知识图谱中确定所述第二训练实体对应的初始知识子图;
针对所述第二训练实体对应的初始知识子图中每个节点,从所述第二训练实体所在知识图谱中获得所针对的节点对应的语义特征数据,并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中,获得所述所针对的节点对应的初始语义特征表示;
通过各个节点各自对应的初始语义特征表示,对所述第二训练实体对应的初始知识子图进行向量初始化,得到所述第二训练实体对应的训练知识子图;
基于所述第二训练实体对应的训练知识子图和所述第二训练实体对应的训练内容数据,构建所述第二训练实体对应的第二训练样本。
19.根据权利要求13至18任意一项所述的装置,其特征在于,所述装置还包括语境编码模型训练模块,用于:
获取第三训练样本;所述第三训练样本包括第三训练实体对应的训练内容数据;
通过待训练的第三语境编码模型对所述第三训练实体对应的训练内容数据进行编码,得到所述第三训练实体对应的第三语境特征表示;
基于所述第三语境特征表示和所述第三训练实体对应的第三语义特征表示确定第三特征表示损失;所述第三语义特征表示是通过训练后的目标实体编码模型对所述第三训练实体对应的语义特征数据进行编码得到的;
基于所述第三特征表示损失调整所述第三语境编码模型的模型参数并继续训练,直至训练完成,获得训练后的第三目标语境编码模型;
所述第三目标语境编码模型用于针对目标知识图谱中的实体生成对应的目标语境特征表示,所述目标语境特征表示用于进行实体链接处理。
20.一种实体链接装置,其特征在于,所述装置包括:
实体识别模块,用于确定目标内容数据,对所述目标内容数据进行实体识别得到目标实体指称;
语境编码模块,用于对所述目标内容数据进行编码,得到所述目标实体指称对应的目标语境特征表示;
候选实体确定模块,用于基于预先建立的实体指称和目标知识图谱中实体之间的映射关系,确定所述目标实体指称对应的至少一个候选实体;
语义特征获取模块,用于针对每个候选实体,获取所针对的候选实体的目标语义特征表示;所述目标语义特征表示是基于初始语义特征表示得到的,所述初始语义特征表示是通过第一目标实体编码模型对所述所针对的候选实体对应的语义特征数据进行编码得到的,所述语义特征数据是从所述目标知识图谱中获取的;所述第一目标实体编码模型是基于第一特征表示损失训练得到的,所述第一特征表示损失是基于第一语境特征表示和第一语义特征表示确定的,所述第一语境特征表示是通过待训练的第一语境编码模型对训练内容数据进行编码得到的,所述训练内容数据属于第一训练实体对应的第一训练样本,所述训练样本中还包括所述第一训练实体对应的语义特征数据,所述第一语义特征表示是通过待训练的第一实体编码模型对所述第一训练实体对应的语义特征数据进行编码得到的,所述第一训练实体对应的语义特征数据是从第一训练实体所在的知识图谱中获取的,所述训练内容数据与所述第一训练实体存在实体链接关系;
目标实体确定模块,用于基于所述目标语境特征表示和各个候选实体各自的目标语义特征表示,确定各个候选实体各自的置信度,基于各个候选实体各自的置信度从多个候选实体中确定所述目标实体指称对应的目标实体。
21.根据权利要求20所述的装置,其特征在于,所述装置还包括语义特征表示生成模块,用于:
从所述目标知识图谱中确定所述所针对的候选实体对应的初始知识子图;
针对所述初始知识子图中各个节点,从所述目标知识图谱中获得所针对的节点对应的语义特征数据,并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中,获取所述所针对的节点对应的初始语义特征表示;
通过各个节点各自对应的初始语义特征表示对所述初始知识子图进行向量初始化,得到目标知识子图;
通过训练后的第二目标实体编码模型对初始化得到的目标知识子图进行编码,得到所述所针对的候选实体对应的目标语义特征表示。
22.根据权利要求20所述的装置,其特征在于,所述目标内容数据包括文本;所述语境编码模块,还用于:
对所述文本中的目标实体指称添加边界标记,得到目标文本;
将所述目标文本输入训练后的第一目标语境编码模型,通过所述第一目标语境编码模型对所述目标文本进行编码,以得到所述目标实体指称对应的目标语境特征表示。
23.根据权利要求20所述的装置,其特征在于,所述语境编码模块,还用于:
将所述目标内容数据输入训练后的第三目标语境编码模型;
通过所述第三目标语境编码模型对所述目标内容数据进行编码,以得到所述目标实体指称对应的目标语境特征表示。
24.根据权利要求20至23任意一项所述的装置,其特征在于,所述装置还包括映射关系建立模块,用于:
从预设的内容数据库中提取得到实体指称,确定所述实体指称所链接的实体,建立所述实体指称和所链接的实体之间的映射关系;所述所链接的实体为与所述实体指称所在内容数据存在实体链接关系的实体;
针对所述映射关系中的实体,统计所针对的实体在所述内容数据库中的出现次数;针对所述映射关系中的实体指称,统计与所针对的实体指称存在映射关系的各实体各自对应的出现次数,得到统计次数;
计算所述所针对的实体的出现次数与所述统计次数的比值,得到所述所针对的实体的置信度系数,建立所述所针对的实体与所述置信度系数之间的映射关系;
所述目标实体确定模块,还用于:
分别计算所述目标语境特征表示和各个候选实体各自的目标语义特征表示之间的相似度,将各个候选实体各自对应的相似度乘以各自对应的置信度系数,得到各个候选实体各自的置信度。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7或者8至12中任一项所述的方法的步骤。
26.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7或者8至12中任一项所述的方法的步骤。
CN202211391389.8A 2022-11-08 2022-11-08 实体数据处理、实体链接方法、装置和计算机设备 Active CN115438674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211391389.8A CN115438674B (zh) 2022-11-08 2022-11-08 实体数据处理、实体链接方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211391389.8A CN115438674B (zh) 2022-11-08 2022-11-08 实体数据处理、实体链接方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN115438674A CN115438674A (zh) 2022-12-06
CN115438674B true CN115438674B (zh) 2023-03-24

Family

ID=84252136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211391389.8A Active CN115438674B (zh) 2022-11-08 2022-11-08 实体数据处理、实体链接方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN115438674B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829058B (zh) * 2022-12-23 2024-04-23 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN117633518B (zh) * 2024-01-25 2024-04-26 北京大学 一种产业链构建方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019072166A1 (zh) * 2017-10-10 2019-04-18 腾讯科技(深圳)有限公司 语义分析方法、装置和存储介质
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294313A (zh) * 2015-06-26 2017-01-04 微软技术许可有限责任公司 学习用于实体消歧的实体及单词嵌入
CN110334219B (zh) * 2019-07-12 2023-05-09 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN112131883A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 语言模型训练方法、装置、计算机设备和存储介质
CN112784604A (zh) * 2021-02-08 2021-05-11 哈尔滨工业大学 一种基于实体边界网络的实体链接方法
CN113779219B (zh) * 2021-09-13 2023-07-21 内蒙古工业大学 一种结合文本双曲分段知识嵌入多重知识图谱的问答方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019072166A1 (zh) * 2017-10-10 2019-04-18 腾讯科技(深圳)有限公司 语义分析方法、装置和存储介质
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置

Also Published As

Publication number Publication date
CN115438674A (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN109062893B (zh) 一种基于全文注意力机制的商品名称识别方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN115269857A (zh) 一种基于文档关系抽取的知识图谱构建方法和装置
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN113095415A (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN113887229A (zh) 地址信息的识别方法、装置、计算机设备及存储介质
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN111444715A (zh) 实体关系识别方法、装置、计算机设备和存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112966117A (zh) 实体链接方法
CN113779225A (zh) 实体链接模型的训练方法、实体链接方法及装置
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN106897274B (zh) 一种跨语种的点评复述方法
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant