CN116881471A

CN116881471A - 一种基于知识图谱的大语言模型微调方法及装置

Info

Publication number: CN116881471A
Application number: CN202310831021.7A
Authority: CN
Inventors: 管健; 夏敏; 韩冬; 易丛文
Original assignee: Shenzhen Zhixian Future Industrial Software Co ltd
Current assignee: Shenzhen Zhixian Future Industrial Software Co ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-13
Anticipated expiration: 2043-07-07
Also published as: CN116881471B

Abstract

本发明涉及一种基于知识图谱的大语言模型微调方法及装置，方法包括：获取第一文本数据、知识图谱数据以及大语言模型；对第一文本数据进行实体抽取，得到文本实体集合；将文本实体集合中的多个实体在知识图谱中进行匹配，根据匹配结果确定知识图谱的知识子图；使用第一编码器对第一文本数据对应的词语序列进行编码，得到文本表征序列；使用第二编码器对知识子图中的实体进行编码，得到实体表征序列；根据文本表征序列和实体表征序列之间的相似度匹配结果，从知识子图中确定若干目标知识点；将若干目标知识点转化为文本，添加到第一文本数据中，得到增强的第二文本数据；使用第二文本数据对大语言模型进行微调，得到微调后的大语言模型。

Description

一种基于知识图谱的大语言模型微调方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于知识图谱的大语言模型微调方法及装置。

背景技术

大语言模型是一种具有极高参数数量的自然语言处理模型。与传统的基于统计方法的语言模型相比，大语言模型通过深度学习技术，可以学习到更加复杂的语言模式和结构，从而在自然语言处理领域取得了非常显著的成果。

大语言模型有许多种，其中最著名的是OpenAI的GPT(Generative Pre-trainedTransformer)系列和谷歌的BERT(Bidirectional Encoder Representations fromTransformers)系列。这些模型都是基于深度神经网络的，具有数十亿甚至上百亿个参数，可以处理大量的自然语言文本，并且在预测文本中缺失的部分、生成文本等任务上表现出色。

对大语言模型的微调(fine-tuning)，是指在已经训练好的大语言模型上进一步进行少量的有监督学习，以适应特定的自然语言处理任务。目前微调的方式往往只使用文本数据，然而，这些文本数据存在来源杂乱、可信度差、噪声较多的情况，如果直接使用这类文本数据对大语言模型进行微调，效果会不尽如人意。

发明内容

本说明书一个或多个实施例描述了一种基于知识图谱的大语言模型微调方法及装置，基于知识图谱中包含的置信度较高、噪声少的可靠的知识对微调大语言模型的文本数据进行增强，从而得到更好的微调的效果。

第一方面，提供了一种基于知识图谱的大语言模型微调方法，包括：

获取第一文本数据、知识图谱数据以及大语言模型；

对所述第一文本数据进行实体抽取，得到文本实体集合；

将所述文本实体集合中的多个实体在所述知识图谱中进行匹配，根据匹配结果确定所述知识图谱的知识子图；

使用第一编码器对所述第一文本数据对应的词语序列进行编码，得到文本表征序列；

使用第二编码器对所述知识子图中的实体进行编码，得到实体表征序列；

根据所述文本表征序列和实体表征序列之间的相似度匹配结果，从所述知识子图中确定若干目标知识点，所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系；

将所述若干目标知识点转化为文本，添加到所述第一文本数据中，得到增强的第二文本数据；

使用所述第二文本数据对所述大语言模型进行微调，得到微调后的大语言模型。

在一种可能的实施方式中，将所述文本实体集合中的多个实体在所述知识图谱中进行匹配，根据匹配结果确定所述知识图谱的知识子图，包括：

对于所述文本实体集合中的任一目标实体，如果所述知识图谱中包含所述目标实体，则将所述知识图谱中包含所述目标实体的多个知识点添加到所述知识子图中，其中，所述知识点由两个实体以及它们之间的关系组成。

在一种可能的实施方式中，所述第一文本数据对应的词语序列通过以下方法确定：

对所述第一文本数据进行分词处理，得到所述词语序列。

在一种可能的实施方式中，所述第一编码器为双向编码的Transformer模型的编码器。

在一种可能的实施方式中，使用第二编码器对所述知识子图中的实体进行编码，包括：将所述知识子图中的关系路径作为提示，输入BERT模型，得到所述实体表征序列。

在一种可能的实施方式中，所述第一编码器和第二编码器经过联合预训练，使得其编码结果位于相同的表征空间中。

在一种可能的实施方式中，从所述知识子图中确定若干目标知识点，包括：

对所述文本表征序列中的第一文本表征，从所述实体表征序列中确定与其相似度大于第一阈值的第一实体表征；

根据所述第一实体表征在所述知识子图中确定对应的第一实体；

从所述知识子图中确定第一知识点归入所述目标知识点，所述第一知识点由第一实体，第二实体及其间的第一关系构成，所述第二实体或第一关系没有包含在所述第一文本数据中。

在一种可能的实施方式中，所述文本表征与实体表征之间的相似度由余弦相似度确定。

第二方面，提供了一种基于知识图谱的大语言模型微调装置，包括：

获取单元，配置为，获取第一文本数据、知识图谱数据以及大语言模型；

实体抽取单元，配置为，对所述第一文本数据进行实体抽取，得到文本实体集合；

匹配单元，配置为，将所述文本实体集合中的多个实体在所述知识图谱中进行匹配，根据匹配结果确定所述知识图谱的知识子图；

第一编码单元，配置为，使用第一编码器对所述第一文本数据对应的词语序列进行编码，得到文本表征序列；

第二编码单元，配置为，使用第二编码器对所述知识子图中的实体进行编码，得到实体表征序列；

确定单元，配置为，根据所述文本表征序列和实体表征序列之间的相似度匹配结果，从所述知识子图中确定若干目标知识点，所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系；

文本增强单元，配置为，将所述若干目标知识点转化为文本，添加到所述第一文本数据中，得到增强的第二文本数据；

微调单元，配置为，使用所述第二文本数据对所述大语言模型进行微调，得到微调后的大语言模型。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本发明提出的一种基于知识图谱的大语言模型微调方法，基于知识图谱中包含的置信度较高、噪声少的可靠的知识对微调大语言模型的文本数据进行增强，从而得到更好的微调的效果。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例公开的一种基于知识图谱的大语言模型微调方法的框架图；

图2为本发明实施例公开的一种基于知识图谱的大语言模型微调方法的流程图；

图3为本发明实施例公开的一种基于知识图谱的大语言模型微调装置的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据一个实施例，图1示出一种基于知识图谱的大语言模型微调方法的框架图。如图1所示，首先获取待增强的第一文本数据以及用于增强文本的知识图谱数据，对第一文本数据进行实体抽取，得到第一文本对应的文本实体集合。然后将文本实体集合中的实体在知识图谱中进行依次查询，将查询到的部分对应的图谱数据提取出来，得到知识子图。

然后，对第一文本数据进行分词，得到对应的词语序列。对词语序列中的词语进行编码，得到文本表征序列；对知识子图中的实体进行编码，得到实体表征序列。将文本表征序列和实体表征序列进行相似度匹配，从知识子图中确定若干目标知识点，所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系。将若干目标知识点转化为文本，添加到所述第一文本数据中，得到文本增强的第二文本数据，并使用所述第二文本数据对所述大语言模型进行微调，得到微调后的大语言模型。

以下将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图2为本发明实施例公开的一种基于知识图谱的大语言模型微调方法的流程图。如图2所示，所述方法至少包括：步骤201，获取第一文本数据、知识图谱数据以及大语言模型；步骤202，对所述第一文本数据进行实体抽取，得到文本实体集合；步骤203，将所述文本实体集合中的多个实体在所述知识图谱中进行匹配，根据匹配结果确定所述知识图谱的知识子图；步骤204，使用第一编码器对所述第一文本数据对应的词语序列进行编码，得到文本表征序列；步骤205，使用第二编码器对所述知识子图中的实体进行编码，得到实体表征序列；步骤206，根据所述文本表征序列和实体表征序列之间的相似度匹配结果，从所述知识子图中确定若干目标知识点，所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系；步骤207，将所述若干目标知识点转化为文本，添加到所述第一文本数据中，得到增强的第二文本数据；步骤208，使用所述第二文本数据对所述大语言模型进行微调，得到微调后的大语言模型。

在步骤201，获取第一文本数据、知识图谱数据以及大语言模型。

所述大语言模型可以是任意支持微调的大语言模型，例如BERT、GPT等等，这里不做限定。

在步骤202，对所述第一文本数据进行实体抽取，得到文本实体集合。

可以使用多种方法对第一文本数据进行实体抽取，例如，可以使用基于规则的实体抽取：通过匹配正则表达式、查找特定的词汇组合等方式，来识别文本中的实体；还可以使用基于机器学习的实体抽取，通过诸如命名实体识别(Named Entity Recognition,NER)的方法进行实体抽取。这里不做限定。

在步骤203，将所述文本实体集合中的多个实体在所述知识图谱中进行匹配，根据匹配结果确定所述知识图谱的知识子图。

具体地，对于所述文本实体集合中的任一目标实体，如果所述知识图谱中包含所述目标实体，则将所述知识图谱中包含所述目标实体的多个知识点添加到所述知识子图中，其中，所述知识点由两个实体以及它们之间的关系组成。即，对于任意一个知识点，如果它对应的两个实体中有一个实体与文本实体集合中的目标实体的相匹配，则将该知识点添加到所述知识子图中。

在步骤204，使用第一编码器对所述第一文本数据对应的词语序列进行编码，得到文本表征序列。

所述第一文本数据对应的词语序列，可以通过对所述第一文本数据进行分词处理得到。

在一个实施例中，第一编码器为双向编码的Transformer模型的编码器。训练第一编码器的方法与训练BERT编码器的方法类似，这里不再赘述。

在步骤205，使用第二编码器对所述知识子图中的实体进行编码，得到实体表征序列。

具体地，将所述知识子图中的关系路径作为提示(prompt)，输入BERT模型，得到所述实体表征序列。由于在知识图谱中，两个实体之间可能存在多条关系路径，在使用常规的对知识图谱的编码方法例如TransE(Translating Embedding)时，对于一堆多关系的编码效果不好。所以本发明使用基于关系路径的BERT模型，学习知识图谱中两个实体之间的多条关系路径，在使用训练好的BERT模型对知识子图中的实体进行编码时，效果更好。

前述第一编码器和第二编码器经过联合预训练，使得其编码结果位于相同的表征空间中，以便在后续的步骤206中进行相似度匹配。

在步骤206，根据所述文本表征序列和实体表征序列之间的相似度匹配结果，从所述知识子图中确定若干目标知识点，所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系。

在一个实施例中，步骤206具体包括：对所述文本表征序列中的第一文本表征，从所述实体表征序列中确定与其相似度大于第一阈值的第一实体表征；根据所述第一实体表征在所述知识子图中确定对应的第一实体，从所述知识子图中确定第一知识点归入所述目标知识点，所述第一知识点由第一实体，第二实体及其间的第一关系构成，所述第二实体或第一关系没有包含在所述第一文本数据中。以此确保知识子图中已经存在与第一文本中的知识，不会被再次添加到第一文本中，造成重复。

由于在步骤203的文本与知识图谱的匹配中，只是简单的字面上的匹配，对于一词多义以及多词一义的情况，难以很好地进行匹配和分辨。所以需要步骤204至步骤206的，基于语义表征进行匹配，以得到更加准确的匹配结果。

在一个实施例中，所述文本表征与实体表征之间的相似度可以通过表征之间的向量点乘结果确定。

在另一个实施例中，所述文本表征与实体表征之间的相似度由余弦相似度确定。

表征X与表征Y之间的余弦相似度的计算方法可以如公式(1)所示：

在步骤207，将所述若干目标知识点转化为文本，添加到所述第一文本数据中，得到增强的第二文本数据。

可以直接将知识点对应的三元组按照主语(subject)、谓语(predicate)和宾语(object)的顺序进行拼接，然后添加到所述第一文本数据中；也可以将知识点输入到预先设置的模板中，根据模板生成对应的文本，然后添加到所述第一文本数据中。这里不做限定。

在步骤208，使用所述第二文本数据对所述大语言模型进行微调，得到微调后的大语言模型。

使用基于文本增强后的第二文本数据对大语言模型进行微调，可以得到更加好的微调效果。

根据另一方面的实施例，还提供一种基于知识图谱的大语言模型微调装置。图3示出根据一个实施例的低认知负荷的知识图谱交互展示装置的示意性框图，该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图3所示，该装置300包括：

获取单元301，配置为，获取第一文本数据、知识图谱数据以及大语言模型；

实体抽取单元302，配置为，对所述第一文本数据进行实体抽取，得到文本实体集合；

匹配单元303，配置为，将所述文本实体集合中的多个实体在所述知识图谱中进行匹配，根据匹配结果确定所述知识图谱的知识子图；

第一编码单元304，配置为，使用第一编码器对所述第一文本数据对应的词语序列进行编码，得到文本表征序列；

第二编码单元305，配置为，使用第二编码器对所述知识子图中的实体进行编码，得到实体表征序列；

确定单元306，配置为，根据所述文本表征序列和实体表征序列之间的相似度匹配结果，从所述知识子图中确定若干目标知识点，所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系；

文本增强单元307，配置为，将所述若干目标知识点转化为文本，添加到所述第一文本数据中，得到增强的第二文本数据；

微调单元308，配置为，使用所述第二文本数据对所述大语言模型进行微调，得到微调后的大语言模型。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一实施例所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一实施例所描述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的大语言模型微调方法，其特征在于，所述方法包括：

获取第一文本数据、知识图谱数据以及大语言模型；

对所述第一文本数据进行实体抽取，得到文本实体集合；

2.根据权利要求1所述的方法，其特征在于，将所述文本实体集合中的多个实体在所述知识图谱中进行匹配，根据匹配结果确定所述知识图谱的知识子图，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一文本数据对应的词语序列通过以下方法确定：

对所述第一文本数据进行分词处理，得到所述词语序列。

4.根据权利要求1所述的方法，其特征在于，所述第一编码器为双向编码的Transformer模型的编码器。

5.根据权利要求1所述的方法，其特征在于，使用第二编码器对所述知识子图中的实体进行编码，包括：将所述知识子图中的关系路径作为提示，输入BERT模型，得到所述实体表征序列。

6.根据权利要求1所述的方法，其特征在于，所述第一编码器和第二编码器经过联合预训练，使得其编码结果位于相同的表征空间中。

7.根据权利要求1所述的方法，其特征在于，从所述知识子图中确定若干目标知识点，包括：

8.根据权利要求7所述的方法，其特征在于，所述文本表征与实体表征之间的相似度由余弦相似度确定。

9.一种基于知识图谱的大语言模型微调装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。