CN114936287A - 预训练语言模型的知识注入方法和相应的交互系统 - Google Patents

预训练语言模型的知识注入方法和相应的交互系统 Download PDF

Info

Publication number
CN114936287A
CN114936287A CN202210114833.5A CN202210114833A CN114936287A CN 114936287 A CN114936287 A CN 114936287A CN 202210114833 A CN202210114833 A CN 202210114833A CN 114936287 A CN114936287 A CN 114936287A
Authority
CN
China
Prior art keywords
knowledge
training
entity
long
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210114833.5A
Other languages
English (en)
Inventor
汪诚愚
张涛林
邱明辉
黄�俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202210114833.5A priority Critical patent/CN114936287A/zh
Publication of CN114936287A publication Critical patent/CN114936287A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

公开了一种预训练语言模型的知识注入方法和相应的交互系统。所述方法包括:从知识图谱中召回与训练样本中包含的长尾实体相关的三元组信息;基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入;使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语言模型PLM的预训练;以及在所述预训练过程中,使用预测出所述长尾实体不引入损失的第一损失函数对所述PLM的神经网络进行调整。本发明通过将知识图谱召回的三元组信息的伪标记嵌入注入预训练模型并要求模型预测被替换原始长尾实体,能够在不使用额外知识编码器的情况下在预训练阶段完成知识注入,从而方便后续微调和推理阶段的处理。

Description

预训练语言模型的知识注入方法和相应的交互系统
技术领域
本公开涉及深度学习领域,尤其涉及一种预训练语言模型的知识注入 方法,以及配备了由此方法获取的知识注入的预训练模型的交互系统。
背景技术
作为自然语言处理(NLP)基础模型,预训练语言模型(PLM,包括 BERT,RoBERTa,XLNET等)在各个下游的自然语言理解(NLU)任务 中取得了优异的成绩,具有很强的通用性。然而,主流的预训练语言模型 都是基于公开的文档,从非结构化文档中学习一般的语言知识,忽略了对 大量知识信息的学习,特别是结构化的知识图谱(KG)信息的学习。这 将导致模型无法真正理解现实中的实体和它们之间的关系等一系列知识, 难以拥有真正的NLU能力。知识的缺失,会产生一些反事实的输出(比 方说,GPT模型会输出诸如“太阳有两只眼睛”等论断),也会大大减弱 模型的小样本学习能力,领域知识的迁移能力,一般知识的归纳能力等等。
为此,存在PLM学习知识图谱信息,以提升下游NLU能力的需求。 然而,由于PLM从非结构化文档中学习语言知识,知识图谱则以结构化 的三元组存储信息,因此如何使得PLM能够从三元组形式的信息中高效 准确地学习到知识,成为本领域技术人员所要解决的一个问题。
发明内容
本公开要解决的一个技术问题是提供一种预训练语言模型的知识注 入方法,该方法通过将知识图谱召回的三元组信息的伪标记嵌入注入预训 练模型,能够在不使用额外知识编码器的情况下在预训练阶段完成知识注 入,从而避免了在后续微调和推理阶段中对额外知识编码器的使用,方便 了知识注入预训练模型的推理应用。
根据本公开的第一个方面,提供了一种预训练语言模型的知识注入方 法,包括:从知识图谱中召回与训练样本中包含的长尾实体相关的三元组 信息;基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入; 使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语 言模型PLM的预训练;以及在所述预训练过程中,使用预测出所述长尾 实体不引入损失的第一损失函数对所述PLM的神经网络进行调整。
可选地,所述方法还包括:判定作为预训练数据集的语料库中各句子 中是否包含长尾实体,其中,根据第一因素进行所述判定,并且所述第一 因素与实体在语料库中出现的频率相关。
可选地,所述方法还包括:根据如下至少一个因素判定作为预训练数 据集的语料库中各句子中是否包含长尾实体:第二因素,所述第二因素与 实体在句子中的语义重要性相关;以及第三因素,所述第三因素与实体在 所述知识图谱中的连接度相关。
可选地,所述方法还包括:从所述知识图谱中召回所述三元组信息的 相似三元组信息和无效三元组信息;针对所述三元组信息、所述相似三元 组信息和所述无效三元组信息,在预训练任务中进行对比学习。
可选地,所述方法还包括:根据所述知识图谱构造关系树,并且从所 述知识图谱中召回所述三元组信息的相似三元组信息和无效三元组信息 包括:根据在所述关系树上关系的远近,召回所述相似三元组信息以及对 比学习难度不同的多个无效三元组信息。
可选地,基于所述三元组信息构造用于替换所述长尾实体的知识表示 嵌入包括:在所述长尾实体是所述三元组信息的头实体时,所述知识表示 嵌入包括尾实体嵌入减去关系词嵌入;在所述长尾实体是所述三元组信息 的尾实体时,所述知识表示嵌入包括头实体嵌入加上关系词嵌入。
可选地,所述知识表示嵌入还包括:串联的所述长尾实体的解释文本, 所述解释文本是从作为预训练数据集的语料库中选取的。
可选地,所述方法还包括:对所述训练样本中的非实体进行掩码处理; 将所述经掩码处理的训练样本输入所述预训练语言模型PLM;获得所述 PLM针对被掩码字输出的第二损失值,并据此调整所述PLM中神经网络 模型的参数,其中,将第二损失值函数规定为独热向量与模型预测概率分 布之间的交叉熵。
可选地,所述方法还包括:在预训练之前,对作为预训练数据集的语 料库和知识图谱进行分析以标记语料库中各句子包含的长尾实体以及从 知识图谱召回的与每一长尾实体相关的一个特定三元组信息。
根据本公开的第二个方面,提供了一种基于知识注入的交互系统,包 括:用户输入接收单元,用于获取用户输入的特定领域相关问询;问题匹 配单元,包括如第一方面所述的方法使用特定领域语料库和特定领域知识 图谱获取的特定领域知识注入的预训练模型,所述模型识别所述特定领域 相关问询中的相关长尾实体并据此进行生成反馈;反馈提供单元,用于将 生成的反馈提供给所述用户。
根据本公开的第三个方面,提供了一种计算设备,包括:处理器;以 及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处 理器执行如上述第一方面所述的方法。
根据本公开的第四个方面,提供了一种非暂时性机器可读存储介质, 其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处 理器执行如上述第一方面所述的方法。
由此,本发明基于共享编码器的关系树伪嵌入方法,提出了一种将知 识编码,知识注入与预训练过程相结合的方法,使得模型在不增加额外的 参数,同时在下游任务使用过程中不依赖于知识图谱也能有良好效果。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的 上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性 实施方式中,相同的参考标号通常代表相同部件。
图1示出了本发明所使用的DKPLM与其他模型在运行三个阶段的比 较示意图。
图2示出了根据本发明一个实施例的预训练语言模型的知识注入方法 的示意性流程图。
图3示出了知识图谱的一个例子。
图4示出了根据本发明一个实施例的长尾实体检测的示意图。
图5示出了根据本发明一个实施例的DKPLM的预训练示意图。
图6示出了本发明训练得到的PLM用于实际交互的一个例子。
图7示出了根据本发明一实施例可用于实现上述预训练语言模型的知 识注入方法的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显 示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开 而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使 本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的 技术人员。
预训练语言模型(PLM)是一类自然语言处理模型的总称,用来学习 文本的低维稠密实值向量的表征。早期的预训练语言模型旨在利用浅层的 神经网络学习词嵌入表示,这些词嵌入表示用于下游自然语言处理的各种 任务;最新的预训练语言模型学习基于上下文的词嵌入表示,并且学习的 模型用于在下游任务的微调。预训练语言模型在各个下游的自然语言理解 (NLU)任务中取得了优异的成绩,具有很强的通用性。
主流的预训练语言模型都是基于公开的文档,从非结构化文档中学习 一般的语言知识,忽略了对大量知识信息的学习,特别是结构化的知识图 谱(KG)信息的学习。在此,非结构化和结构化旨在指示语言知识的呈 现方式。在自然语言处理中,语言知识的呈现方式通常包含以下三种形式: 无结构化的文本,半结构化的表格等和结构化的三元组。具体地,三元组 知识存储在人工构造的大规模知识图谱数据中,由<头实体,关系,尾实 体>组成。头尾实体表示一个在真实世界存在的具体事物(例如:杭州), 关系表达实体之间的某种语义关联(例如:出生地)。
在PLM中,两阶段策略(即预训练和微调)继承了预训练期间学到 的知识,并将其应用于下游任务。虽然PLM存储了大量内部知识,但由 于PLM从非结构化文档中学习一般的语言知识,并且缺乏系统性的结构 化知识的学习,因此它很难理解外部背景知识,例如事实和常识知识。知 识的缺失,将会产生一些反事实的内容(比方说,GPT模型会输出诸如“太阳有两只眼睛”等的显见为错误的论断),也会大大减弱模型的小样本学 习能力、领域知识的迁移能力和一般知识的归纳能力等等。
因此,可以通过注入外部知识三元组来提高PLM的性能,这被称为 知识增强型PLM(KEPLM)。在现有技术中,注入知识的方法主要包括:
基于知识表示嵌入的融合方法(Knowledge Embedding):该类方法 主要有两个问题待解决:(1)如何对已有知识图谱中的三元组进行文本表示, 分别得到头尾实体和语义关系的低维稠密实值向量。(2)如何将预训练语言 模型编码的上下文表示空间与知识特征空间进行融合对齐。针对问题(1), 已有的模型(如ERNIE-THU)是通过使用已有的知识图谱表示模型(如 TransE)进行嵌入学习。针对问题(2),已有的模型(例如ERNIE-THU,KnowBERT)通过设计单独的神经网络参数模块将两部分的表示空间进行 对齐。但是其主要的缺点在于:(1)该类方法需要单独设计除预训练模型 以外的额外模块来对两个特征空间进行对齐,需要更多的机器资源的支持。 (2)在真实场景运用过程中,训练范式中的三个过程都需要结构化知识 的注入,但在用户端很难独立构造大规模可用的通用知识图谱或者领域知 识图谱。因此,该类方法对用户实际使用的时候不友好。
基于知识语句转换的融合方法(Knowledge Converting):该类方法 是针对上述知识表示融合方法的改进,基本上不改变原始预训练语言模型 框架。通常此类方法是包含了两个模块:(1)知识语句的转换:将三元组结 构的表示形式按照模版转换成自然语句表达,例如<中国,首都,北京> 转换为“中国的首都在北京”,将此条知识文本链接到原始训练文本当中 去,直接利用已有的预训练模型进行编码,而不需要传统的知识编码模型。 (2)知识文本的融合过程:与原始训练语句链接的知识三元组文本一同 训练,在输入过程中利用Visible Matrix来让模型分别融合不同的输入文 本信息,从而进行两者的融合。但此类方法仍然需要在训练的三个过程中 使用已经构造好的知识图谱信息,对用户仍然是不够友好。
如上所述的知识增强的预训练模型(KEPLM)能够在预训练模型建 模的基础上通过对文本中关键实体信息的语义理解进一步提升下游任务 的性能。但以上的方法最大的问题是在下游任务训练和推理的时候,知识 增强的预训练模型仍然需要事先构造好大规模可用的知识图谱,同时额外 网络参数会增加计算资源的负担,因此在实际应用的过程中比较繁琐且效 果不够稳定。
因此,希望知识增强的模型能够在微调和推理阶段不再使用知识图谱 的信息也能在下游任务中达到很好的性能表现。为此,本发明基于共享编 码器的关系树伪嵌入方法,提出了一种将知识编码,知识注入与预训练过 程相结合的方法,使得模型在不增加额外的参数,同时在下游任务使用过 程中不依赖于知识图谱也能有良好效果。具体地,本发明提出了一种名为 DKPLM(DecomposableKnowledge-enhancedPLM,可分解知识增强PLM)的新型KEPLM,它分解了KEPLM的三个阶段的知识注入过程。图1示 出了本发明所使用的DKPLM与其他模型在运行三个阶段的比较示意图。 在真实场景中,预训练语言模型的运行通常包含三个过程(阶段):预训 练(pre-training)、微调(fine-tuning)和推理(inference),对于如图所 示的知识增强预训练模型的训练范式而言也是如此。
如图左半部分第一行所示,普通PLM在所有三个阶段都没有利用外 部知识,并且包括最基础的操作,即,使用语料库进行预训练;使用数据 集进行微调,并在推理阶段针对输入的样本进行推理。
如图左半部分第二行所示,现有的KEPLM需要构造知识源,例如包 括图右侧所示的KG、字典(dic.)和文本以及能够对输入的三元组进行处理 的知识编码器(如图所示,可有各类神经网络(NN)和图神经网络(GNN)实 现)。由于在预训练阶段使用了知识编码器,因此在后续的微调和推理阶 段,仍然需要使用知识源和能够处理知识源的知识编码器来实现知识理解 能力。
如图左半部分第三行所示,本发明的DKPLM在预训练期间可以使用 与现有KEPLM相同的数据源,但不需要知识编码器(例如,神经网络和 图神经网络)。在后续的微调和推理过程中,本发明的模型不再需要KG, 因此非常灵活和高效。
由于对于本发明的DKPLM而言,知识注入仅在预训练期间应用,而 无需使用额外的知识编码器。因此,在微调和推理阶段,该模型可以以与 BERT和其他普通PLM相同的方式使用,这有助于DKPLM在实际场景中 的应用。具体来说,本发明中引入了三种用于预训练DKPLM的新技术:
·伪令牌表示注入:将检测到的长尾实体的嵌入替换为共享PLM编码 器生成的相应知识三元组的表示,称为“伪令牌表示”。因此,能够在不 向模型引入任何额外参数的情况下注入知识。
·关系知识解码:对于关系三元组,使用一个实体的表示和关系谓词 (属性)来解码另一个实体的每个标记(token)。该预训练任务充当 KEPLM的监督信号,迫使模型了解向KEPLM注入了哪些知识。
·知识感知长尾实体检测:DKPLM模型可以仅检测长尾实体用于知识 注入。由此能够避免了学习过多冗余和不相关的信息。
如下将结合附图详述本发明的DKPLM的具体实现。
图2示出了根据本发明一个实施例的预训练语言模型的知识注入方法 的示意性流程图。图2所示的方法如图1所示,仅在预训练模型的预训练 阶段进行,在后续的微调和推理阶段则不再需要额外的知识注入。
在步骤S210,从知识图谱中召回与训练样本中包含的长尾实体相关的 三元组信息。
在此,应该明确的是,现有的预训练语言模型使用语料库作为训练样 本集。语料库(corpus)指经科学取样和加工的大规模电子文本库,其中 存放的是在语言的实际使用中真实出现过的语言材料。借助计算机分析工 具,研究者可开展相关的语言理论及应用研究。预训练语言模型使用语料 库中包含的一个个句子作为训练样本,包含这些句子的语料库则可被称为 “训练样本集”。
知识图谱(Knowledge Graph)是一种知识库,其中的数据通过图结 构的数据模型或拓扑整合而成。知识图谱通常被用来存储彼此之间具有相 互联系的实体。知识图谱通过对错综复杂的文档的数据进行有效的加工、 处理、整合,转化为简单、清晰的<头实体,关系,尾实体>的三元组,最 后聚合大量知识,从而实现知识的快速响应和推理。图3示出了知识图谱 的一个例子。如图所示,知识图谱包括大量的<头实体,关系,尾实体> 的三元组,用于对知识进行结构化表示。头尾实体表示一个在真实世界存 在的具体事物,关系表达实体之间的某种语义关联。例如,图3中虚线框 框出的一个三元组<中国,首都,北京>中,中国为头实体,首都为关系词, 北京为尾实体。
步骤S210中的“长尾实体”可以理解为在训练样本集中呈现长尾分 布的实体。由于这些实体在训练样本集中缺乏足够的信息描述,因此需要 额外的知识注入来增加PLM对这些长尾实体的认知。可以从知识图谱中 召回最能代表该长尾实体的一个三元组。
随后,在步骤S220,可以基于召回的三元组信息构造用于替换所述长 尾实体的知识表示嵌入。具体地,可以利用三元组信息中除去长尾实体中 的另外两组信息来进行替换,例如,在三元组<中国,首都,北京>的例子 中,用<中国首都>来替换训练样本(即,语料库中一个句子)中的长尾实 体<北京>,并经由同一套预训练模型将文本<中国首都>转换成文本的 embedding(嵌入)表示。并且在步骤S230,使用长尾实体被替换为所述 知识表示嵌入的训练样本用于所述预训练语言模型PLM的预训练。由此, 通过伪嵌入方法能够有效解决现有技术中需要在知识注入过程添加额外 网络参数来进行特征空间对齐的问题。
于是,在步骤S240,在所述预训练过程中,可以使用预测出所述长尾 实体不引入损失的第一损失函数对所述PLM的神经网络进行调整。为了 提高知识注入的效果,通过损失函数的设定使得模型能够把注入的知识三 元组信息通过解码的方式重构出来所对应的具体文本。换句话说,在注入 <中国首都>的嵌入来代替训练样本中原有的长尾实体<北京>时,需要模型 能够正确预测出原有的文本<北京>。
由此,本发明使用长尾实体的源自知识图谱的知识表示嵌入来代替所 述长尾实体,用于PLM进行预测,能够在无需额外知识编码器的情况下 实现知识注入,并且通过仅对长尾实体进行注入,避免了模型对冗余和不 必要知识信息的学习。
虽然上例(和下文)中出于方便解释的考虑使用“北京”作为长尾实 体,<中国,首都,北京>作为召回的三元组信息,<中国首都>作为用于替 换所述长尾实体的知识表示嵌入的原型文本,但应该理解的是,“北京 (Beijing)”由于其对应于单个英文单词且经常出现,因此在实际应用中 通常不会被看作是长尾实体。
具体地,长尾实体的判定可以在预训练之前的准备阶段进行。具体地, 可以提前对语料库所有的句子做一遍处理,判断句子中的实体是否为长尾 实体。为此,本发明的知识注入方法可以包括:判定作为预训练数据集的 语料库中各句子中是否包含长尾实体。在不同的实施例中,可以根据第一 因素,甚至第二因素、第三因素,或其任意结合来进行长尾实体的判定。
在此,第一因素可以与实体在语料库中出现的频率相关。第二因素可 以与实体在句子中的语义重要性相关。第三因素可以与实体在所述知识图 谱中的连接度相关。例如,可以将语料库中出现频率较低(例如,低于某 一阈值)的实体看作是长尾实体。可以将语料库中出现频率较低并且在某 一句子的语义表述中相对重要的实体看作是长尾实体。也可以将知识图谱 中相对重要的实体看作是长尾实体。另外,在英文语料库的实现中,长尾 实体需要是两个或以上单词或首字母组成的实体。
如下将结合图4描述本发明中知识感知长尾实体检测的具体实现。
图4示出了根据本发明一个实施例的长尾实体检测的示意图。
在此,以英文语料库中的一个句子为例:“KevinDurant,Brooklyn Nets playerin NBA,led the U.S.men’s basketball team to the 2021XXX Games in Japan.”(参考译文可以是:凯文杜兰特NBA布鲁克林篮网队球员,带 领美国男子篮球队参加日本举办的2021年XXX运动会。)
文中下划线标出了句子中包含的实体,具体包括:“KevinDurant”、 “BrooklynNets”、“NBA”、“U.S”、“XXX Games”。在此,“Japan (日本)”虽然是实体,但由于是单个单词因此不在进行长尾实体判定中 进行考虑(换句话说,长尾实体仅考虑两个或以上单词组成的实体,或者 诸如“NBA”、“U.S”的大写字母组合)。需要从“KevinDurant”、“BrooklynNets”、“NBA”、“U.S”、“XXX Games”这些实体中标识出长尾实 体。
在具体操作中,可以首先从大规模KG中提取结构化知识三元组, 并通过实体链接工具(例如,TAGME)将KG中的实体链接到预训练样 本中的目标对象。在大型语料库中,实体在语料库中的分布情况紧密遵循 幂律分布,公式如下:
Figure BDA0003495847230000091
其中C和α是超参数,rank是实体频率等级,Freq(e)是实体e的频率。可 以发现,虽然少数实体经常出现,但大多数实体很少出现在预训练语料库 中(即,呈现长尾分布),这使得PLM难以学习更好的上下文表示。
由于模型能够从高频出现的实体所在语句中习得关于高频实体足够 的知识,而将高频关系三元组注入PLM并不总是有利于下游任务。这种 做法更有可能引发负面的知识注入。因此,注入长尾实体而不是语料库中 出现的所有实体的知识可以进一步提高PLM的理解能力。还需要注意的 是,上述实体分析只考虑了预训练语料库中的频率,忽略了KG中每个实 体的信息以及这些实体在句子中的重要性。为此,本发明提出了知识感知 长尾实体检测机制来选择目标实体进行知识注入。
在本发明的一个优选实施例中,考虑实体的三个相邻信息来表征实体 的“长尾”属性,即整个预训练语料库、当前输入句子和KG。对于特定 实体e,可以考虑以下三个因素:
·实体频率:整个预训练语料库中的实体频率,记为Freq(e);
·语义重要性:句子中实体e的重要性,记为SI(e);
·知识连通性:KG中的实体e的多跳相邻节点的数量(即,该实体在 KG中作为头实体和尾实体的总计次数),记为KC(e)。
Freq(e)的计算例已如上结合式(1)示出。
SI(e)则是指包含实体e的句子表示与替换e的句子表示之间的语义相 似度。句子之间的相似度越大,实体被替换时对句子语义的影响就越小。 将ho和hrep表示为原始句子和实体替换后的句子的表示。为简单起见,可 以使用余弦相似度的倒数来测量SI(e):
Figure BDA0003495847230000101
在实现中,可使用特殊标记“[UHN]”来替换句子中的实体e。例如,如 图4所示,使用“[UHN][UHN]”来代替句子中的“Brooklyn Nets”。
KC(e)表示实体e在三元组相邻结构中的重要性,可以使用多跳相邻 实体的数量来计算KC(e):
Figure BDA0003495847230000102
Figure BDA0003495847230000103
其中Rmin和Rmax是预定义的阈值。具体来说,我们将计算KC(e)的跳数限 制在Rmin到Rmax的范围内。|·|表示集合中的相邻实体编号。Hop函数表 示KG结构中实体e和实体e’之间的多跳数。然后计算实体e的“知识 感知长尾”KLT(e)的程度为:
Figure BDA0003495847230000111
其中II{x}是指示函数,其中x为布尔表达式。Rfreq是一个预定义的阈值。 给定一个句子,需要检测所有实体并将KLT(e)分数低于平均值的实体视为 知识感知长尾实体。
在给定的语料库和KG的情况下,例如可以将上例中的“Brooklyn Nets” 和“XXXGames”看作是长尾实体,并进行后续的知识注入。
在确定了长尾实体之后,就可以从知识图谱中召回与训练样本中包含 的长尾实体相关的三元组信息。由于与某一长尾实体相关的三元组通常不 止一个,比如句子中的长尾实体是“北京”,知识图谱中的三元组不仅包 括“中国-首都-北京”,还包括“中国-核心都市-北京”以及“莫斯科-姐 妹城市-北京”,因此需要从中进行挑选。在一个实施例中,可以根据头 实体检索出所有的尾实体,根据尾实体在预训练文本中出现的频率的最大 值去决定选哪个三元组。
随后,基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌 入包括:在所述长尾实体是所述三元组信息的头实体时,所述知识表示嵌 入包括尾实体嵌入减去关系词嵌入;在所述长尾实体是所述三元组信息的 尾实体时,所述知识表示嵌入包括头实体嵌入加上关系词嵌入。例如,如 果以<中国,首都,北京>为例,句子中的“中国”会被代替为“北京-首 都”,句子中的“北京”会被代替为“中国+首都”。此处的“-”和“+” 是针对“中国”、“首都”、“北京”各自的嵌入进行的。
在一个优选实施例中,所述知识表示嵌入还包括:串联的所述长尾实 体的解释文本,所述解释文本是从作为预训练数据集的语料库中选取的。
由于原始语料库和知识图谱可以按照一定机制绑定,因此可以在预训 练之前,对作为预训练数据集的语料库和知识图谱进行分析以标记语料库 中各句子包含的长尾实体以及从知识图谱召回的与每一长尾实体相关的 一个特定三元组信息,并且可以从语料库中提取出实体解释文本,每个实 体对应一个解释语句。例如,在“北京”会被代替为“中国+首都”之后, 再串接“北京是中国的一座核心都市”的实体解释问题的嵌入表示。
具体地,为了增强PLM对长尾实体的理解能力,本发明在不引入任 何其他参数的情况下将知识三元组注入此类实体的位置。在此,使用伪令 牌嵌入注入技术。如果预训练句子中的实体是知识三元组的头部实体eh, 则eh的表示由以下函数建模:
Figure BDA0003495847230000121
其中heh、het和hr分别是头部实体eh、尾部实体e和关系谓词(即,关系 词)r的表示。类似地,如果一个实体分别是一个尾实体et和关系谓词r。 类似地,如果一个实体是KG中的一个尾实体et,可以得到:het=heh+hr
具体地,可以使用底层PLM作为共享编码器来获取知识表示。在此, 例如考虑实体是KG中的头实体eh的情况。将尾部实体et的标记(token) 与关系谓词r连接起来,并将它们提供给PLM。PLM最后一层的标记表 示分别表示为F(et)和F(r)。
于是,伪标记表示het和hr可以如下计算:
Figure BDA0003495847230000122
Figure BDA0003495847230000123
其中LN是LayerNorm函数,fsp是自注意力池化算子,用于生成跨度表示。 Wet和Wr是可训练的参数。
由于实体和关系谓词的长度通常很短,因此PLM生成的表示可能没 有表现力。为此在一个实施例中,可以进一步考虑目标实体的描述文本, 表示为
Figure BDA0003495847230000124
Figure BDA0003495847230000125
为由PLM生成的
Figure BDA0003495847230000126
的标记序列表示。将头部实体 eh的伪令牌嵌入heh表示如下:
Figure BDA0003495847230000127
其中
Figure BDA0003495847230000128
指的是两个表示的串联,Weh是可训练的参数。
可将检测到的长尾实体的表示替换为PLM嵌入层中的伪标记表示 (heh或het,具体取决于目标实体是KG中的头实体还是尾实体)。这遵 循连续的多个转换器编码器层,以将知识合并到上下文表示中,而不为知 识编码引入任何其他新参数。
在将关系三元组的信息注入模型后,模型是否理解注入的知识尚不清 楚。为此需要在预训练过程中使用预测出所述长尾实体不引入损失的第一 损失函数对所述PLM的神经网络进行调整。具体地,可以设计一个关系 知识边缘解码器,迫使模型明确地理解注入的知识。具体地,可以采用自 注意力池化机制来获得最后一层的掩码实体跨度表示:
Figure BDA0003495847230000131
其中
Figure BDA0003495847230000132
是可学习参数。给定头部实体
Figure BDA0003495847230000133
和关系谓词hr的输出表示,目标 是解码尾部实体。设
Figure BDA0003495847230000134
是预测的尾部实体的第i个标记的表示,则有:
Figure BDA0003495847230000135
其中δd是比例因子,
Figure BDA0003495847230000136
等于作为初始化启发的
Figure BDA0003495847230000137
由于词汇量比较大,可以使用Sampled SoftMax函数(采样的SoftMax 函数)将预测结果与基本事实进行比较。标记水平(token-level)的损失 函数
Figure BDA0003495847230000138
定义如下:
Figure BDA0003495847230000139
Figure BDA00034958472300001310
其中yi是真实标记,yn是在Q(tn|ti)中采样的负标记。Q(·|·)是负采样函数。 N是负样本的数量。在DKPLM模型中,训练目标可以包括如上的关系知 识解码预训练任务。优选地,还可以包括标记水平掩码语言建模(MLM)。 使用MLM作为辅助任务,能够在一定程度上减轻小样本学习中的过拟合 问题。为此,本发明的知识注入方法还可以包括:对所述训练样本中的非 实体进行掩码处理;将所述经掩码处理的训练样本输入所述预训练语言模型PLM;获得所述PLM针对被掩码字输出的第二损失值,并据此调整所 述PLM中神经网络模型的参数,其中,将第二损失值函数规定为独热向 量与模型预测概率分布之间的交叉熵。
因此,DKPLM的总损失函数可以表示如下:
Figure BDA00034958472300001311
其中λ1是超参数,
Figure BDA00034958472300001312
是由多个令牌组成的目标实体的总解码器损失。在 一个可选实施例中,也可以利用更为简单的
Figure BDA00034958472300001313
作为损失 函数,在此λ也可以是超参数。
在一个实施例中,还可以通过对比文件学习来提升模型对有效知识的 理解能力。为此,本发明的知识注入方法还可以包括:从所述知识图谱中 召回与所述三元组信息相似的相似三元组信息和无效三元组信息;针对所 述三元组信息、所述相似三元组信息和所述无效三元组信息,在预训练任 务中进行对比学习。由此,通过将有效和无效知识进行对比学习,使得模 型能够最大程度感知到有效知识对于句子理解能力的提升远大于无效知识。
在一个实施例中,可以根据KG构造关系树。关系树是从KG中提炼 出来的用于专门表示关系的树。关系树中节点表示关系。第一层的节点可 以不包括任何关系,在第二层中包括关系的大分类,然后是后续的小分类。
在构造了关系树之后,可以根据关系树的分布,从所述知识图谱中召 回相似三元组信息和无效三元组信息。具体地,可以根据在所述关系树上 关系的远近,召回所述相似三元组信息以及对比学习难度不同的多个无效 三元组信息。例如,召回的有效三元组为<中国,首都,北京>,相似三元 组则可以是<中国,核心都市,北京>。用于对比的无效三元组信息则可以 包括对比学习难度低、中、高的三个不同的无效三元组(也可以称为“不 相似三元组”或是“无关三元组”),由此通过将有效和无效知识进行对 比学习,使得模型能够最大程度感知到有效知识对于句子理解能力的提升 远大于无效知识。
图5示出了根据本发明一个实施例的DKPLM的预训练示意图。本发 明的DKPLM在基本的预训练模型基础上改动了两个地方:(1)预训练 语句中实体类型的选择和注入方式(2)有效与无效知识的对比学习(3) 设计了一种新型的预训练自监督任务。
以图中输入的预训练语句为例。首先在数据准备阶段,可以对数据源 进行处理。数据源可以包括语料库和知识图谱。可以如上所述根据实体在 预训练数据集中的频率,实体在知识图谱中的连接度和语句中的语义重要 性三个因素判断是否预训练语料库中各句子(其后用作训练样本)中是否 包含长尾实体。如图右侧下部所示,在“KevinDurant,Brooklyn Nets player in NBA,led the U.S.men’s basketball team to the 2021XXXGames in Japan.” 的句子中,根据如上所述的长尾实体检测方法,可以检测出不平凡(untrivial)的实体,在此句子中包括“Brooklyn Nets”和“XXX Games”, 即,需要对这些稀有的长尾实体进行掩码和伪嵌入注入操作。对平凡 (trivial)实体则不进行掩码和伪嵌入注入操作,并且会对一些平凡的token (标记)进行MLM辅助任务的掩码和预测。
另外,如图左侧下部所示,可以从KG中构造关系树,并基于关系树 将句子中出现的长尾实体召回有效关系三元组和无效关系三元组,在预训 练任务中将两者进行对比学习。具体地,有效关系三元组就是如上所述的 用于后续伪嵌入注入操作的三元组,进一步地,可以构造正例&负例三元 组,包括与有效关系三元组相似的相似三元组,以及三个无效关系三元组 (对应于难、中、易的对比学习难度)。
随后,将识别出来的长尾实体检索出来所对应转换后的有效三元组信 息,利用同一个预训练模型对其进行编码,得到所对应的知识嵌入表示结 果。注入的过程是根据此实体是头实体还是尾实体,利用TransE算法的 思想替换掉对应的输入嵌入。文本信息和注入的嵌入信息会同时经过同一 套共享的预训练模型(例如BERT),得到最后的隐层上下文知识增强的 特征表示。最后,为了进一步提高知识注入的效果,可以让模型能够把注 入的知识三元组信息通过解码的方式重构出来所对应的具体文本(对应于 最上层左侧的实体级解码器预训练任务),同时不同的三元组信息也进行 对比学习(对应于最上层中间的加早上的三元组infoNCE预训练任务), 使得模型能够感知到对句子理解有帮助的有效知识远大于无效知识。具体 地,对比学习输入是一个当前三元组(例如,上例中的中国-首都-北京) 和相似的三元组(例如,中国-核心都市-北京),还有一组不相似的三元 组(分为难、中、易三个难度)。相似和不相似的三元组都是通过关系树 检索得到的。对比学习的目标就是将当前三元组(中国-首都-北京)拉近 与相似三元组之间的距离,拉远与不相似三元组的距离。
具体的损失函数由两部分组成,首先是知识解码损失(即,
Figure BDA0003495847230000151
)将原本 黑盒知识增强的预训练模型通过解码真实的注入知识文本来提升模型的 可解释能力。同时包含三元组的对比学习损失来提高模型的有效知识感知 能力。最后为了避免过拟合以及保留MLMhead的词预测能力(对应于最 上层右侧的token-level(标记级)MLM预训练任务),算法设置了词掩 码任务作为辅助损失。
由此预训练出来的知识增强模型,在微调和推理阶段使用方法与基本 的预训练模型完全相同,不必要引入知识图谱的数据,只需要用户输入具 体任务的数据即可。
本发明提出了基于长尾实体伪嵌入的知识增强预训练模型算法,用于 解耦模型在三种训练过程中都需要知识图谱的需求,可应用于各类文本理 解任务。这一算法无需人工在下游任务中构建大规模可用的知识图谱,并 且对于不同的自然语言理解任务能够取得良好结果。
DKPLM模型不受具体领域的限制,现在的预训练文本和知识图谱都 是开放域的,不是特定领域的文本和图谱(比如,医疗领域,金融领域)。 因此,基于本发明的原理,可以使用特定领域的语料库和知识图谱(例如, 医疗文本和医疗知识图谱)在现有的PLM基础上训练出特定领域功能加 强的DKPLM模型。由于特定领域的DKPLM是在特定领域数据上已经训 练过,因此比没有在特定领域领域数据训练过的DKPLM对于该特定领域 领域的任务(文本分类,文本训练标注等)学习到的文本表示要好很多。 例如,对于具体医疗任务性能来说,就会比通用领域的DKPLM性能要好。 并且适配了医疗领域服务场景的医疗DKPLM可以直接当作BERT来用, 医疗的文本任务都可以调用它。
为此,本发明还可以实现为一种基于知识注入的交互系统。图6示出 了本发明训练得到的PLM用于实际交互的一个例子。
具体地,一种基于知识注入的交互系统,包括:用户输入接收单元, 用于获取用户输入的特定领域相关问询;
问题匹配单元,包括如上所述的方法使用特定领域语料库和特定领域 知识图谱获取的特定领域知识注入的预训练模型(例如,医疗DKPLM、 金融DKPLM、电商DKPLM),所述模型识别所述特定领域相关问询中 的相关长尾实体并据此进行生成反馈;反馈提供单元,用于将生成的反馈 提供给所述用户。
图7示出了根据本发明一实施例可用于实现上述预训练语言模型的知 识注入方法的计算设备的结构示意图。
参见图7,计算设备700包括存储器710和处理器720。
处理器720可以是一个多核的处理器,也可以包含多个处理器。在一 些实施例中,处理器720可以包含一个通用的主处理器以及一个或多个特 殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。 在一些实施例中,处理器720可以使用定制的电路实现,例如特定用途集 成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻 辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器710可以包括各种类型的存储单元,例如系统内存、只读存储 器(ROM),和永久存储装置。其中,ROM可以存储处理器720或者计 算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的 存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令 和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大 容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施 方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。 系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随 机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令 和数据。此外,存储器710可以包括任意计算机可读存储媒介的组合,包 括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程 只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器 710可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、 只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光 盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、 磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的 瞬间电子信号。
存储器710上存储有可执行代码,当可执行代码被处理器720处理时, 可以使处理器720执行上文述及的预训练语言模型的知识注入方法。
上文中已经参考附图详细描述了根据本发明的预训练语言模型的知 识注入方法以及配备了由此方法获取的知识注入的预训练模型的交互系 统。本文DKPLM包括如下优点:
通过使用预训练模型中同一套共享参数能够最大化的利用已有的模 型解决知识三元组的表示;伪嵌入方法能够有效的减少知识注入过程添加 额外网络参数来进行特征空间对齐的问题;将注入的三元组知识在预训练 过程中解析出来,不仅仅增强了注入过程中对实体粒度的建模,同时相比 于之前的工作也大大的提高了模型的可解释性;通过将有效和无效知识进 行对比学习,使得模型能够最大程度感知到有效知识对于句子理解能力的 提升是远远大于无效知识的;以及使用MLM作为辅助任务,一定程度上 减轻了小样本学习中的过拟合问题。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序 产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中 限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算 机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计 算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或 计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时, 使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性 逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两 者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方 法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每 个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或 代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也 应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同 于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行 地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也 要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的 方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实 现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽 性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范 围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更 都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原 理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技 术人员能理解本文披露的各实施例。

Claims (12)

1.一种预训练语言模型的知识注入方法,包括:
从知识图谱中召回与训练样本中包含的长尾实体相关的三元组信息;
基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入;
使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语言模型的预训练;以及
在所述预训练过程中,使用预测出所述长尾实体不引入损失的第一损失函数对所述预训练语言模型的神经网络进行调整。
2.如权利要求1所述的方法,还包括:
判定作为预训练数据集的语料库中各句子中是否包含长尾实体,其中,根据第一因素进行所述判定,并且所述第一因素与实体在语料库中出现的频率相关。
3.如权利要求2所述的方法,还包括根据如下至少一个因素判定作为预训练数据集的语料库中各句子中是否包含长尾实体:
第二因素,所述第二因素与实体在句子中的语义重要性相关;以及
第三因素,所述第三因素与实体在所述知识图谱中的连接度相关。
4.如权利要求1所述的方法,还包括:
从所述知识图谱中召回所述三元组信息的相似三元组信息和无效三元组信息;
针对所述三元组信息、所述相似三元组信息和所述无效三元组信息,在预训练任务中进行对比学习。
5.如权利要求4所述的方法,还包括:
根据所述知识图谱构造关系树,并且
从所述知识图谱中召回所述三元组信息相似三元组信息和无效三元组信息包括:
根据在所述关系树上关系的远近,召回所述相似三元组信息以及对比学习难度不同的多个无效三元组信息。
6.如权利要求1所述的方法,其中,基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入包括:
在所述长尾实体是所述三元组信息的头实体时,所述知识表示嵌入包括尾实体嵌入减去关系词嵌入;
在所述长尾实体是所述三元组信息的尾实体时,所述知识表示嵌入包括头实体嵌入加上关系词嵌入。
7.如权利要求1所述的方法,其中,所述知识表示嵌入还包括:
串联的所述长尾实体的解释文本,所述解释文本是从作为预训练数据集的语料库中选取的。
8.如权利要求1所述的方法,还包括:
对所述训练样本中的非实体进行掩码处理;
将所述经掩码处理的训练样本输入所述预训练语言模型PLM;
获得所述PLM针对被掩码字输出的第二损失值,并据此调整所述PLM中神经网络模型的参数,其中,将第二损失值函数规定为独热向量与模型预测概率分布之间的交叉熵。
9.如权利要求1所述的方法,还包括:
在预训练之前,对作为预训练数据集的语料库和知识图谱进行分析以标记语料库中各句子包含的长尾实体以及从知识图谱召回的与每一长尾实体相关的一个特定三元组信息。
10.一种基于知识注入的交互系统,包括:
用户输入接收单元,用于获取用户输入的特定领域相关问询;
问题匹配单元,包括如权利要求1-9中任一项所述的方法使用特定领域语料库和特定领域知识图谱获取的特定领域知识注入的预训练模型,所述模型识别所述特定领域相关问询中的相关长尾实体并据此进行生成反馈;
反馈提供单元,用于将生成的反馈提供给所述用户。
11.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-9中任一项所述的方法。
12.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-9中任一项所述的方法。
CN202210114833.5A 2022-01-30 2022-01-30 预训练语言模型的知识注入方法和相应的交互系统 Pending CN114936287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210114833.5A CN114936287A (zh) 2022-01-30 2022-01-30 预训练语言模型的知识注入方法和相应的交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210114833.5A CN114936287A (zh) 2022-01-30 2022-01-30 预训练语言模型的知识注入方法和相应的交互系统

Publications (1)

Publication Number Publication Date
CN114936287A true CN114936287A (zh) 2022-08-23

Family

ID=82862604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210114833.5A Pending CN114936287A (zh) 2022-01-30 2022-01-30 预训练语言模型的知识注入方法和相应的交互系统

Country Status (1)

Country Link
CN (1) CN114936287A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357719A (zh) * 2022-10-20 2022-11-18 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116720786A (zh) * 2023-08-01 2023-09-08 中国科学院工程热物理研究所 一种融合kg和plm的装配质量稳定性预测方法、系统及介质
CN116796006A (zh) * 2023-07-07 2023-09-22 北京华录高诚科技有限公司 基于知识图谱的公共交通出行人群画像分析方法及系统
CN116910272A (zh) * 2023-08-09 2023-10-20 西安工程大学 基于预训练模型t5的学术知识图谱补全方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357719A (zh) * 2022-10-20 2022-11-18 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置
CN115357719B (zh) * 2022-10-20 2023-01-03 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置
CN116796006A (zh) * 2023-07-07 2023-09-22 北京华录高诚科技有限公司 基于知识图谱的公共交通出行人群画像分析方法及系统
CN116796006B (zh) * 2023-07-07 2024-01-23 北京华录高诚科技有限公司 基于知识图谱的公共交通出行人群画像分析方法及系统
CN116720786A (zh) * 2023-08-01 2023-09-08 中国科学院工程热物理研究所 一种融合kg和plm的装配质量稳定性预测方法、系统及介质
CN116720786B (zh) * 2023-08-01 2023-10-03 中国科学院工程热物理研究所 一种融合kg和plm的装配质量稳定性预测方法、系统及介质
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116662579B (zh) * 2023-08-02 2024-01-26 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116910272A (zh) * 2023-08-09 2023-10-20 西安工程大学 基于预训练模型t5的学术知识图谱补全方法
CN116910272B (zh) * 2023-08-09 2024-03-01 西安工程大学 基于预训练模型t5的学术知识图谱补全方法

Similar Documents

Publication Publication Date Title
CN114936287A (zh) 预训练语言模型的知识注入方法和相应的交互系统
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
KR20180138321A (ko) 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN109325242B (zh) 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109033303A (zh) 一种基于约简锚点的大规模知识图谱融合方法
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
Major et al. Utility of general and specific word embeddings for classifying translational stages of research.
CN115688753A (zh) 中文预训练语言模型的知识注入方法和交互系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114997288A (zh) 一种设计资源关联方法
CN116629345A (zh) 针对大规模预训练语言模型的提示学习方法和交互系统
Liu et al. Convolutional neural networks-based locating relevant buggy code files for bug reports affected by data imbalance
Wang A cross-domain natural language interface to databases using adversarial text method
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
CN116661852B (zh) 一种基于程序依赖图的代码搜索方法
CN116414988A (zh) 基于依赖关系增强的图卷积方面级情感分类方法及系统
Sekiyama et al. Automated proof synthesis for propositional logic with deep neural networks
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
KR102593907B1 (ko) 의미역 결정 기반 신경망 연산 방법 및 장치
CN114579605A (zh) 表格问答数据处理方法、电子设备及计算机存储介质
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置
Pourkeshavarz et al. Stacked cross-modal feature consolidation attention networks for image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination