CN114519397A - 基于对比学习的实体链接模型的训练方法、装置、设备 - Google Patents
基于对比学习的实体链接模型的训练方法、装置、设备 Download PDFInfo
- Publication number
- CN114519397A CN114519397A CN202210161138.4A CN202210161138A CN114519397A CN 114519397 A CN114519397 A CN 114519397A CN 202210161138 A CN202210161138 A CN 202210161138A CN 114519397 A CN114519397 A CN 114519397A
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- training
- target reference
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明属于人工智能领域,提供了一种基于对比学习的实体链接模型的训练方法、装置、设备,方法包括:从知识图谱的至少两个实体概念获取目标参考实体,通过语义识别处理得到第一语义向量;对第一语义向量进行特征丢弃处理得到多个第二语义向量;获取实体样本正例样本和负例样本,正例样本为同一实体概念的第二语义向量,负例样本为不同实体概念的第一语义向量;将实体样本和训练数据输入实体链接模型进行训练。根据本实施例的技术方案,能够通过对目标参考实体的语义处理和特征丢弃处理得到多个正例样本和负例样本,能够在标注较少的情况下增加样本数量,减少训练数据的获取成本,实现对比学习,有效提高了实体链接模型训练的效率和准确性。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种基于对比学习的实体链接模型的训练方法、装置、设备。
背景技术
随着人工智能技术的发展,实体链接是自然语言处理技术的重要模块,在垂直领域广泛应用于问答系统、搜索系统或推荐系统等。实体链接是指将自然语言中的文本与知识图谱的图谱条目进行链接,匹配出目标实体,从而将目标实体作为对用户的应答进行输出。
为了提高实体链接的准确性,需要对实体链接模型进行训练。训练样本通常由人工进行数据标注,如果人工标注的数量少,实体链接的匹配准确率较低,不适合应用;如果人工标注的数量非常多,耗费的人力非常大,尤其对于医学等专业程度较高的领域,细小的字面差别可能是完全不同的实体概念,这对标注人员的学术要求非常高,很难让标注人员标注大量不同研究方向的数据,训练数据获取成本非常高。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种基于对比学习的实体链接模型的训练方法、装置、设备,能够对实体链接的训练数据进行扩展,增加训练数据的数量,提高实体链接的准确性。
第一方面,本发明实施例提供了一种基于对比学习的实体链接模型的训练方法,包括:
获取预设的知识图谱,所述知识图谱包括多个实体概念,每个所述实体概念关联有至少一个参考实体;
从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组;
对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量;
对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量;
从所述目标参考实体中确定实体样本,获取所述实体样本的训练数据,所述训练数据包括正例样本和负例样本,所述正例样本为与所述实体样本归属于相同所述实体概念的所述目标参考实体所对应的所述第二语义向量,所述负例样本为与所述实体样本归属于不同所述实体概念的所述目标参考实体所对应的第一语义向量;
将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练。
在一些实施例中,所述从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组,包括:
将所述知识图谱的全部所述参考实体确定为所述目标参考实体;
对所述目标参考实体进行预处理;
根据预设数量将预处理后的多个所述目标参考实体分成多个所述实体组,每个所述实体组包括至少两个归属于不同所述实体概念的所述目标参考实体。
在一些实施例中,所述对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量,包括:
将多个所述实体组依次输入至预设的RoBERTa模型;
通过所述RoBERTa模型对每个所述实体组中的每个所述目标参考实体进行语义识别处理,得到每个所述目标参考实体所对应的所述第一语义向量。
在一些实施例中,所述对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量,包括:
对所述第一语义向量进行多次特征丢弃处理,每次特征丢弃处理丢弃所述第一语义向量中的至少一个特征;
将每次特征丢弃处理得到结果确定为所述第二语义向量。
在一些实施例中,所述实体链接模型包括感知机,所述将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练,包括:
将多个所述正例样本和所述负例样本输入至所述感知机;
通过所述感知机将所述正例样本和所述负例样本投影到高维空间,得到多个高维度正例样本和多个高维度负例样本;
根据多个所述高维度正例样本和多个高维度负例样本进行所述实体样本的实体链接训练。
在一些实施例中,所述根据所述高维度正例样本和高维度负例样本进行所述实体样本的实体链接训练,包括:
确定每个所述高维度正例样本和每个高维度负例样本之间的余弦相似度;
根据多个所述余弦相似度确定所述实体样本的目标相似度阈值。
在一些实施例中,所述实体链接模型的损失函数为InfoNCE函数。
第二方面,本发明实施例提供了一种基于对比学习的实体链接模型的训练装置,包括:
第一获取单元,用于获取预设的知识图谱,所述知识图谱包括多个实体概念,每个所述实体概念关联有至少一个参考实体;
第二获取单元,用于从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组;
第一处理单元,用于对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量;
第二处理单元,用于对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量;
样本获取单元,用于从所述目标参考实体中确定实体样本,获取所述实体样本的训练数据,所述训练数据包括正例样本和负例样本,所述正例样本为与所述实体样本归属于相同所述实体概念的所述目标参考实体所对应的所述第二语义向量,所述负例样本为与所述实体样本归属于不同所述实体概念的所述目标参考实体所对应的第一语义向量;
训练单元,用于将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于对比学习的实体链接模型的训练方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序用于执行如第一方面所述的基于对比学习的实体链接模型的训练方法。
本发明实施例包括:获取预设的知识图谱,所述知识图谱包括多个实体概念,每个所述实体概念关联有至少一个参考实体;从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组;对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量;对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量;从所述目标参考实体中确定实体样本,获取所述实体样本的训练数据,所述训练数据包括正例样本和负例样本,所述正例样本为与所述实体样本归属于相同所述实体概念的所述目标参考实体所对应的所述第二语义向量,所述负例样本为与所述实体样本归属于不同所述实体概念的所述目标参考实体所对应的第一语义向量;将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练。根据本实施例的技术方案,能够通过对目标参考实体的语义处理得到第一语义向量,通过对第一语义向量的特征丢弃处理得到多个第二语义向量,从而得到多个正例样本和负例样本,能够在标注较少的情况下增加样本数量,减少了训练数据的获取成本,并且通过正例样本和负例样本能够实现对比学习,有效提高了实体链接模型训练的效率和准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的基于对比学习的实体链接模型的训练方法的流程图;
图2是本发明另一个实施例提供的获取实体组的流程图;
图3是本发明另一个实施例提供的得到第一语义向量的流程图;
图4是本发明另一个实施例提供的得到第二语义向量的流程图;
图5是本发明另一个实施例提供的投射到高维空间的流程图;
图6是本发明另一个实施例提供的获取目标相似度阈值的流程图;
图7是本发明另一个实施例提供的基于对比学习的实体链接模型的训练装置的结构图;
图8是本发明另一个实施例提供的电子设备的装置图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种基于对比学习的实体链接模型的训练方法、装置、设备,方法包括:获取预设的知识图谱,知识图谱包括多个实体概念,每个实体概念关联有至少一个参考实体;从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组;对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量;对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量;从所述目标参考实体中确定实体样本,获取所述实体样本的训练数据,所述训练数据包括正例样本和负例样本,所述正例样本为与所述实体样本归属于相同所述实体概念的所述目标参考实体所对应的所述第二语义向量,所述负例样本为与所述实体样本归属于不同所述实体概念的所述目标参考实体所对应的第一语义向量;将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练。根据本实施例的技术方案,能够通过对目标参考实体的语义处理得到第一语义向量,通过对第一语义向量的特征丢弃处理得到多个第二语义向量,从而得到多个正例样本和负例样本,能够在标注较少的情况下增加样本数量,减少了训练数据的获取成本,并且通过正例样本和负例样本能够实现对比学习,有效提高了实体链接模型训练的效率和准确性。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载计算机、智能家居、可穿戴电子设备、VR(Virtual Reality,虚拟现实)/AR(AugmentedReality,增强现实)设备等等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
需要说明的是,本发明实施例的数据可以保存在服务器中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
自然语言处理(Nature Language processing,简称:NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,简称:ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
如图1所示,图1是本发明一个实施例提供的一种基于对比学习的实体链接模型的训练方法的流程图,该基于对比学习的实体链接模型的训练方法包括但不限于有以下步骤:
步骤S110,获取预设的知识图谱,知识图谱包括多个实体概念,每个实体概念关联有至少一个参考实体;
步骤S120,从至少两个实体概念获取参考实体,得到由多个目标参考实体组成的实体组;
步骤S130,对实体组进行语义识别处理,得到每个目标参考实体所对应的第一语义向量;
步骤S140,对第一语义向量进行特征丢弃处理,得到每个目标参考实体所对应的多个第二语义向量;
步骤S150,从目标参考实体中确定实体样本,获取实体样本的训练数据,训练数据包括正例样本和负例样本,正例样本为与实体样本归属于相同实体概念的目标参考实体所对应的第二语义向量,负例样本为与实体样本归属于不同实体概念的目标参考实体所对应的第一语义向量;
步骤S160,将实体样本和实体样本的训练数据输入实体链接模型进行训练。
需要说明的是,知识图谱可以预先设置有多个参考实体,并且设定好每个参考实体所归属的实体概念,例如,对于医疗领域,原发性糖尿病、继发性糖尿病和青少年糖尿病,三者虽然都和糖尿病有关,但是在知识图谱中会归属到不同的实体概念,例如,原发性糖尿病归属到原发性疾病概念,继发性糖尿病归属于并发症概念,青少年糖尿病归属于青少年疾病概念,由此可见,实体之间细微的文字差异可能归属于完全不同的实体概念,根据实际需求在知识图谱中配置好参考实体的具体内容和数量,并且关联预设的实体概念,能够以实体概念作为后续区分正例样本和负例样本的依据。
需要说明的是,在针对实体链接的训练过程中,需要通过样本数据与目标参考实体进行对齐进行训练,以便在实体链接模型的使用过程中,能够根据输入的实体信息匹配出对应的目标参考实体,而医疗领域批注人员的门槛较高,训练数据的数量未必能够满足模型训练,在这种情况下,从至少两个实体概念获取目标参考实体,能将同等实体概念的语义向量作为正例样本,将不同实体概念的语义向量作为负例样本,不仅增加了训练数据的数量,而且够实现不同实体概念之间的对比学习,使得训练出的实体链接模型更能准确区分不同实体概念,提高了模型的准确性。
需要说明的是,语义识别处理可以通过任意类型的语义处理模型得到,本实施例对此不多作限定。目标参考实体属于文字信息,在进行语义识别处理后,能够转换成第一语义向量,能够有效表示目标参考实体的特征。而第一语义向量通常包含较多特征,为了丰富训练数据,本实施例对第一语义向量进行特征丢弃处理,即dropout化,得到多个第二语义向量。可以理解的是,第二语义向量相比起第一语义向量在特征数量上较少,但是保留的特征在相关性上没有受到影响,因此能够以较少的特征数量表征目标参考实体,有效提高了训练数据的数量。
需要说明的是,为了实现对比学习,需要根据实体概念进行样本区分,因此,本实施例将同等概念的第二语义向量作为实体样本的正例样本,以不同概念的目标参考实体的第一语义向量作为实体样本的负例样本,例如,在上述示例的原发性糖尿病、继发性糖尿病和青少年糖尿病中,三者属于不同的实体概念,以原发性糖尿病为实体样本为例,继发性糖尿病所对应的第一语义向量和青少年糖尿病所对应的第一语义向量为负例样本,原发性糖尿病所对应的第二语义向量作为正例样本,若有其他与原发性糖尿病归属于同一实体概念的目标参考实体,该目标参考实体所对应的第二语义向量也可以作为正例样本,使得在针对原发性糖尿病进行实体链接的训练时,通过负例样本区分继发性糖尿病和青少年糖尿病,从而有效拉大不同概念实体之间的语义距离,有效增强了实体链接模型对不同概念的实体的区分能力。
另外,参考图2,在一实施例中,图1所示实施例的步骤S120还包括但不限于有以下步骤:
步骤S210,将知识图谱的全部参考实体确定为目标参考实体;
步骤S220,对目标参考实体进行预处理;
步骤S230,根据预设数量将预处理后的多个目标参考实体分成多个实体组,每个实体组包括至少两个归属于不同实体概念的目标参考实体。
需要说明的是,在现有技术中,通常针对每个目标参考实体进行语义识别得到训练数据,即通常以正例样本进行训练,模型训练的准确性很容易受到标注数量的影响。在本实施例中,由于采用了正例样本和负例样本的对比学习,可以获取知识图谱的全量参考实体作为训练数据,能够进一步提高每个样本实体的正例样本和负例样本的数量,有效提高模型训练的准确性。
需要说明的是,在获取到全量参考实体后,还可以进行基础的数据预处理,例如将语义差异较小的不同实体概念的目标参考实体划分到同一个实体组,能够针对语义差异较小的目标参考实体进行训练,增强实体链接模型的区分能力。
值得注意的是,得到多个实体组后,由于每个实体组的多个目标参考实体中,至少有两个来自于不同的实体概念,因此,可以在同一个实体组中进行正例样本和负例样本的关联,即在一个实体组中,相同概念的目标参考实体的第二语义向量为正例样本,不同概念的目标参考实体的第一语义向量为负例样本,避免同一个目标参考实体的训练数据过多而影响训练效率。
另外,参考图3,在一实施例中,图1所示实施例的步骤S130还包括但不限于有以下步骤:
步骤S310,将多个实体组依次输入至预设的RoBERTa模型;
步骤S320,通过RoBERTa模型对每个实体组中的每个目标参考实体进行语义识别处理,得到每个目标参考实体所对应的第一语义向量。
需要说明的是,本实施例采用RoBERTa模型作为语义识别处理的模型,RoBERTa可以在进行数据预训练后,在自然语言处理的各个任务中都超出了以前任务的最高指标,具有强大的语义表征能力,通过RoBERTa模型得到的第一语义向量能够更好地表征目标参考实体的语义信息。
另外,参考图4,在一实施例中,图1所示实施例的步骤S140还包括但不限于有以下步骤:
步骤S410,对第一语义向量进行多次特征丢弃处理,每次特征丢弃处理丢弃第一语义向量中的至少一个特征;
步骤S420,将特征丢弃处理得到结果确定为第二语义向量。
需要说明的是,由于语义识别处理采用了RoBERTa模型,得到的第一语义向量具有较为丰富的语义特征,为了增加训练数据的数量,可以在第一语义向量中随机丢弃至少一个特征,即对第一语义向量进行随机Dropout化,得到多个Dropout化之后的第二语义向量,第二语义向量虽然在特征数量上不如第一语义向量,但是依然能够在一定程度上表征对应的目标参考实体,因此能够作为正例样本进行训练,有效增加了训练数据的数量。
另外,参考图5,在一实施例中,实体链接模型包括感知机,图1所示实施例的步骤S160还包括但不限于有以下步骤:
步骤S510,将多个正例样本和负例样本输入至感知机;
步骤S520,通过感知机将正例样本和负例样本投影到高维空间,得到多个高维度正例样本和多个高维度负例样本;
步骤S530,根据多个高维度正例样本和多个高维度负例样本进行实体样本的实体链接训练。
需要说明的是,感知机的具体的参数可以根据实际需求调整,在此不多作限定。基于上述实施例的描述,实体组中的多个目标参考实体的语义差异较小,本实施例采用两层的感知机,将正例样本和负例样本投影到高维语义空间,得到高维度正例样本和高维度负例样本,通过增加向量维度,使得语义距离能够进一步放大,通过高维度正例样本和高维度负例样本对实体链接样本进行训练,能够更好地强调不同实体概念之间的语义距离。
另外,参考图6,在一实施例中,图5所示实施例的步骤S530还包括但不限于有以下步骤:
步骤S610,确定每个高维度正例样本和每个高维度负例样本之间的余弦相似度;
步骤S620,根据多个余弦相似度确定实体样本的目标相似度阈值。
需要说明的是,为了更好地表征高维度正例样本和高维度负例样本之间的语义距离,本实施例对每个高维度正例样本和高维度负例样本进行余弦相似度的计算,余弦相似度的数值越大,二者之间的语义距离越大。
需要说明的是,由于每个实体样本可以具有多个正例样本和负例样本,因此可以分别计算每个高维度正例样本和每个高维度负例样本之间的余弦相似度,根据多个余弦相似度确定实体样本的目标相似度阈值,在实际检测时,获取到用户输入的实体信息后,对实体信息与备选实体之间的余弦相似度,当满足目标相似度阈值,则可以确定备选实体为目标实体,根据目标实体的详细信息进行后续处理。
另外,在一实施例中,实体链接模型的损失函数为InfoNCE函数。
需要说明的是,由于本实施例采用对比学习的训练方法,并且实体组中目标参考实体的语义差异较小,InfoNCE损失函数相比于传统的交叉熵损失函数,使模型在保持相同实体概念的语义距离很近的情况下,并能更好地强调不同概念实体的语义距离。
另外,参照图7,本发明实施例提供了一种基于对比学习的实体链接模型的训练装置,基于对比学习的实体链接模型的训练装置700包括:
第一获取单元710,用于获取预设的知识图谱,知识图谱包括多个实体概念,每个实体概念关联有至少一个参考实体;
第二获取单元720,用于从至少两个实体概念获取参考实体,得到由多个目标参考实体组成的实体组;
第一处理单元730,用于对实体组进行语义识别处理,得到每个目标参考实体所对应的第一语义向量;
第二处理单元740,用于对第一语义向量进行特征丢弃处理,得到每个目标参考实体所对应的多个第二语义向量;
样本获取单元750,用于从目标参考实体中确定实体样本,获取实体样本的训练数据,训练数据包括正例样本和负例样本,正例样本为与实体样本归属于相同实体概念的目标参考实体所对应的第二语义向量,负例样本为与实体样本归属于不同实体概念的目标参考实体所对应的第一语义向量;
训练单元760,用于将实体样本和实体样本的训练数据输入实体链接模型进行训练。
另外,参照图8,本发明的一个实施例还提供了一种电子设备,该电子设备800包括:存储器810、处理器820及存储在存储器810上并可在处理器820上运行的计算机程序。
处理器820和存储器810可以通过总线或者其他方式连接。
实现上述实施例的基于对比学习的实体链接模型的训练方法所需的非暂态软件程序以及指令存储在存储器810中,当被处理器820执行时,执行上述实施例中的应用于设备的基于对比学习的实体链接模型的训练方法,例如,执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S230、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410至步骤S420、图5中的方法步骤S510至步骤S530、图6中的方法步骤S610至步骤S620。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的基于对比学习的实体链接模型的训练方法,例如,执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S230、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410至步骤S420、图5中的方法步骤S510至步骤S530、图6中的方法步骤S610至步骤S620。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性存储介质)和通信存储介质(或暂时性存储介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除存储介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的存储介质。此外,本领域普通技术人员公知的是,通信存储介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送存储介质。
本申请可用于众多通用或专用的计算机装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、基于微处理器的装置、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机程序的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的程序。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.一种基于对比学习的实体链接模型的训练方法,其特征在于,包括:
获取预设的知识图谱,所述知识图谱包括多个实体概念,每个所述实体概念关联有至少一个参考实体;
从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组;
对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量;
对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量;
从所述目标参考实体中确定实体样本,获取所述实体样本的训练数据,所述训练数据包括正例样本和负例样本,所述正例样本为与所述实体样本归属于相同所述实体概念的所述目标参考实体所对应的所述第二语义向量,所述负例样本为与所述实体样本归属于不同所述实体概念的所述目标参考实体所对应的第一语义向量;
将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练。
2.根据权利要求1所述的基于对比学习的实体链接模型的训练方法,其特征在于,所述从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组,包括:
将所述知识图谱的全部所述参考实体确定为所述目标参考实体;
对所述目标参考实体进行预处理;
根据预设数量将预处理后的多个所述目标参考实体分成多个所述实体组,每个所述实体组包括至少两个归属于不同所述实体概念的所述目标参考实体。
3.根据权利要求2所述的基于对比学习的实体链接模型的训练方法,其特征在于,所述对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量,包括:
将多个所述实体组依次输入至预设的RoBERTa模型;
通过所述RoBERTa模型对每个所述实体组中的每个所述目标参考实体进行语义识别处理,得到每个所述目标参考实体所对应的所述第一语义向量。
4.根据权利要求1所述的基于对比学习的实体链接模型的训练方法,其特征在于,所述对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量,包括:
对所述第一语义向量进行多次特征丢弃处理,每次特征丢弃处理丢弃所述第一语义向量中的至少一个特征;
将每次特征丢弃处理得到结果确定为所述第二语义向量。
5.根据权利要求1所述的基于对比学习的实体链接模型的训练方法,其特征在于,所述实体链接模型包括感知机,所述将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练,包括:
将多个所述正例样本和所述负例样本输入至所述感知机;
通过所述感知机将所述正例样本和所述负例样本投影到高维空间,得到多个高维度正例样本和多个高维度负例样本;
根据多个所述高维度正例样本和多个高维度负例样本进行所述实体样本的实体链接训练。
6.根据权利要求5所述的基于对比学习的实体链接模型的训练方法,其特征在于,所述根据所述高维度正例样本和高维度负例样本进行所述实体样本的实体链接训练,包括:
确定每个所述高维度正例样本和每个高维度负例样本之间的余弦相似度;
根据多个所述余弦相似度确定所述实体样本的目标相似度阈值。
7.根据权利要求1所述的基于对比学习的实体链接模型的训练方法,其特征在于,所述实体链接模型的损失函数为InfoNCE函数。
8.一种基于对比学习的实体链接模型的训练装置,其特征在于,包括:
第一获取单元,用于获取预设的知识图谱,所述知识图谱包括多个实体概念,每个所述实体概念关联有至少一个参考实体;
第二获取单元,用于从至少两个所述实体概念获取所述参考实体,得到由多个目标参考实体组成的实体组;
第一处理单元,用于对所述实体组进行语义识别处理,得到每个所述目标参考实体所对应的第一语义向量;
第二处理单元,用于对所述第一语义向量进行特征丢弃处理,得到每个所述目标参考实体所对应的多个第二语义向量;
样本获取单元,用于从所述目标参考实体中确定实体样本,获取所述实体样本的训练数据,所述训练数据包括正例样本和负例样本,所述正例样本为与所述实体样本归属于相同所述实体概念的所述目标参考实体所对应的所述第二语义向量,所述负例样本为与所述实体样本归属于不同所述实体概念的所述目标参考实体所对应的第一语义向量;
训练单元,用于将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于对比学习的实体链接模型的训练方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序用于执行如权利要求1至7中任意一项所述的基于对比学习的实体链接模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161138.4A CN114519397A (zh) | 2022-02-22 | 2022-02-22 | 基于对比学习的实体链接模型的训练方法、装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161138.4A CN114519397A (zh) | 2022-02-22 | 2022-02-22 | 基于对比学习的实体链接模型的训练方法、装置、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114519397A true CN114519397A (zh) | 2022-05-20 |
Family
ID=81599525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210161138.4A Pending CN114519397A (zh) | 2022-02-22 | 2022-02-22 | 基于对比学习的实体链接模型的训练方法、装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114519397A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329755A (zh) * | 2022-08-18 | 2022-11-11 | 腾讯科技(深圳)有限公司 | 实体链接模型处理方法、装置和实体链接处理方法、装置 |
CN116109979A (zh) * | 2023-02-01 | 2023-05-12 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
-
2022
- 2022-02-22 CN CN202210161138.4A patent/CN114519397A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329755A (zh) * | 2022-08-18 | 2022-11-11 | 腾讯科技(深圳)有限公司 | 实体链接模型处理方法、装置和实体链接处理方法、装置 |
CN115329755B (zh) * | 2022-08-18 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 实体链接模型处理方法、装置和实体链接处理方法、装置 |
CN116109979A (zh) * | 2023-02-01 | 2023-05-12 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680217B (zh) | 内容推荐方法、装置、设备及存储介质 | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN111738001B (zh) | 同义词识别模型的训练方法、同义词确定方法及设备 | |
US20230058194A1 (en) | Text classification method and apparatus, device, and computer-readable storage medium | |
Tan et al. | Drill-down: Interactive retrieval of complex scenes using natural language queries | |
CN114519397A (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN112085120B (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113011172A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN116741396A (zh) | 文章归类方法和装置、电子设备和存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN117173731B (zh) | 一种模型训练的方法、图像处理的方法以及相关装置 | |
CN113722434B (zh) | 一种文本数据处理的方法、装置、计算机设备及存储介质 | |
CN113254635B (zh) | 数据处理方法、装置及存储介质 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN114519396A (zh) | 实体表征模型的训练方法、装置、电子设备、存储介质 | |
CN117473057A (zh) | 问答处理方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |