CN117520567B - 基于知识图谱的大语言模型训练方法 - Google Patents
基于知识图谱的大语言模型训练方法 Download PDFInfo
- Publication number
- CN117520567B CN117520567B CN202410003864.2A CN202410003864A CN117520567B CN 117520567 B CN117520567 B CN 117520567B CN 202410003864 A CN202410003864 A CN 202410003864A CN 117520567 B CN117520567 B CN 117520567B
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge
- entities
- node
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000009825 accumulation Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000010845 search algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013506 data mapping Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003491 array Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数字数据处理技术领域,提出了基于知识图谱的大语言模型训练方法,包括:基于不同数据源的数据构建知识图谱;基于知识图谱中每个实体对应的搜索路径确定搜索路径向量;基于两个实体之间的属性信息以及搜索路径向量确定实体知识关联性;采用聚类算法基于加权实体关联图获取每个知识图谱对应实体节点的聚类结果;基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定实体嵌入距离;采用图卷积神经网络基于实体嵌入距离、实体的属性信息以及上下文信息获取实体的对齐结果;基于所有实体的对齐结果完成面向知识问答的大语言模型的训练。本发明通过知识图谱中实体关系的融合补全,降低原始数据中的语义歧义和噪声干扰。
Description
技术领域
本发明涉及数字数据处理技术领域,具体涉及基于知识图谱的大语言模型训练方法。
背景技术
目前,大语言模型广泛应用在文本生成、机器翻译、知识问答、智能对话系统等多个领域中。大语言模型训练集的有效性决定了大语言模型的性能的优劣。由于大语言模型训练时需要较多的数据才能达到一定的准确率,因此,现阶段通常采用数据融合的方法对多源数据进行数据融合,通过数据融合的结果训练大语言模型。
多种数据融合时,不同数据中的实体表达形式可能是不同的,导致在不同来源数据构建的知识图谱中相同实体构建的三元组有所不同,这就会导致后续训练大语言模型时造成学习到语义歧义的样本。知识图谱融合的目的是将各领域中来自不同构建者的知识图谱中实体和关系对应匹配,以获得更完整、更丰富的知识图谱。然而,由于知识图谱构建者的主观性和知识的不唯一性,导致不同知识图谱中常常存在表示不同但含义相同的实体,影响大语言模型的训练集的有效性。
发明内容
本发明提供基于知识图谱的大语言模型训练方法,以解决语义歧义造成的知识图谱实体不对齐,导致训练的大语言模型进行知识问答时性能弱的问题,所采用的技术方案具体如下:
本发明一个实施例基于知识图谱的大语言模型训练方法,该方法包括以下步骤:
基于不同数据源的数据构建知识图谱;
利用深度优先搜索算法基于每个知识图谱中每个实体对应的搜索路径确定所述每个实体对应实体节点的搜索路径向量;基于每个知识图谱上任意两个实体之间的属性信息以及两个实体对应实体节点的搜索路径向量确定实体知识关联性;
采用聚类算法基于每个知识图谱的加权实体关联图获取每个知识图谱中实体对应实体节点的聚类结果;
基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定两个知识图谱中不同实体之间的实体嵌入距离;采用图卷积神经网络基于任意两个知识图谱中实体之间的实体嵌入距离、实体的属性信息以及上下文信息获取两个知识图谱中实体的对齐结果;
基于所有知识图谱中实体的对齐结果完成面向知识问答的大语言模型的训练。
优选的,所述基于不同数据源的数据构建知识图谱的方法为:
利用不同的数据采集方式获取不同来源的文本数据;
将每种来源的文本数据作为一类原始数据,采用实体命名识别技术、关系抽取技术对每类原始数据进行处理得到预设数量个三元组,基于预设数量个三元组构建每类原始数据的知识图谱。
优选的,所述利用深度优先搜索算法基于每个知识图谱中每个实体对应的搜索路径确定所述每个实体对应实体节点的搜索路径向量的方法为:
抽取每个知识图谱中同一层级中的所有实体,将所述同一层级中每个实体作为一个实体节点,将任意存在关系的两个实体进行连线,将利用同一层级中的所有实体构建的无向图作为每个知识图谱的同类实体关联图;
将每个知识图谱的同类实体关联图作为输入,依次将每个实体节点作为起始节点,采用深度优先搜索算法确定每个实体节点的搜索路径;
统计每个实体节点的搜索路径上节点的数量,通过按照位置顺序递减、递减尺度为1的方式对所述搜索路径上的每个节点的位置权重进行赋值,将所述节点的数量作为所述搜索路径上第一个节点的位置权重,将所述搜索路径上最后一个节点的位置权重赋值为1;
将所述搜索路径上每个节点对应的词向量作为数组中的第一个元素,将所述搜索路径上每个节点的位置权重作为数组中的第二个元素,将所述搜索路径上每个节点对应的词向量、位置权重组成的数组作为所述搜索路径上每个节点的特征数组;
将所有所述节点的特征数组按照距离每个实体节点由近到远的顺序组成的向量作为每个实体节点的搜索路径向量。
优选的,所述基于每个知识图谱上任意两个实体之间的属性信息以及两个实体对应实体节点的搜索路径向量确定实体知识关联性的方法为:
基于每个知识图谱中两个实体之间属性信息的差异确定两个实体之间的属性相似度;
将两个实体之间的属性相似度的相反数与两个实体对应实体节点的搜索路径向量之间的度量距离之和作为第一计算因子;将第一计算因子的数据映射结果作为两个实体之间的实体知识关联性。
优选的,所述基于每个知识图谱中两个实体之间属性信息的差异确定两个实体之间的属性相似度的方法为:
将每个知识图谱上的每个实体作为一个目标实体,将每个目标实体与其余任意一个实体在目标实体每个属性上属性值差值的绝对值作为第一组成因子;将第一组成因子与每个知识图谱中具有目标实体每个属性的实体数量的乘积作为第一累加因子;
将第一累加因子在目标实体所有属性上的累加结果与预设参数之和的倒数作为每个目标实体与其余任意一个实体之间的属性相似度。
优选的,所述采用聚类算法基于每个知识图谱的加权实体关联图获取每个知识图谱中实体对应实体节点的聚类结果的方法为:
将每个知识图谱上任意两个实体之间的实体知识关联性作为每个知识图谱的同类实体关联图中相应两个实体节点之间的连线权重;每个知识图谱的同类实体关联图添加所有所述连线权重后的结果作为每个知识图谱的加权实体关联图;
将每个知识图谱的加权实体关联图作为输入,采用普利姆Prim算法得到每个知识图谱对应的最小生成树;将每个知识图谱对应的最小生成树作为输入,采用最小生成树算法得到每个知识图谱的加权实体关联图上每个实体节点所在的子树。
优选的,所述基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定两个知识图谱中不同实体之间的实体嵌入距离的方法为:
将每个子树上每个节点与其余任意一个节点之间的连线的距离作为分子;将每个子树上每个节点与其余任意一个节点对应词向量之间的相似性度量与预设参数之和作为分母;将分子分母的比值作为每个子树上每个节点与其余任意一个节点之间的簇内结构距离;
将每个子树上每个节点与其余所有节点之间的簇内结构距离组成的向量作为每个子树上每个节点对应实体的簇内距离向量;
基于两个知识图谱中两个实体的簇内距离向量以及两个实体所在子树的相似程度确定所述两个实体之间的实体嵌入距离。
优选的,所述基于两个知识图谱中两个实体的簇内距离向量以及两个实体所在子树的相似程度确定所述两个实体之间的实体嵌入距离的方法为:
获取任意两个子树之间的最大公共子树,将所述最大公共子树上节点的数量与两个子树上节点数量中最大值的比值作为两个子树之间的树相似度;并将每个子树上任意一个不在所述最大公共子树上的节点标记为每个子树上的一个欺诈节点;
将两个知识图谱中两个实体的簇内距离向量之间的度量距离作为第一乘积因子;将两个知识图谱中两个实体对应实体节点所在子树上欺诈节点数量之和的数据映射结果作为第二乘积因子;将第一乘积因子与第二乘积因子的乘积与预设参数之和作为分母;
将两个知识图谱中两个实体对应实体节点所在子树之间的树相似度与分母的比值作为所述两个实体之间的实体嵌入距离。
优选的,所述采用图卷积神经网络基于任意两个知识图谱中实体之间的实体嵌入距离、实体的属性信息以及上下文信息获取两个知识图谱中实体的对齐结果的方法为:
获取每个知识图谱中每个实体与其余每个知识图谱中每个实体之间的实体嵌入距离,将每个知识图谱中每个实体与其余任意一个知识图谱中所有实体之间的实体嵌入距离组成的向量作为一个行向量;
将每个知识图谱中每个实体对应的所有行向量构建的矩阵作为每个知识图谱中每个实体的邻接矩阵;
将两个知识图谱中每个实体的邻接矩阵、属性信息、上下文信息、关系信息作为输入,利用图卷积神经网络得到两个知识图谱中的实体对齐结果。
优选的,所述基于所有知识图谱中实体的对齐结果完成面向知识问答的大语言模型的训练的方法为:
获取任意两个知识图谱之间的实体对齐结果,将每个知识图谱上每个实体与其对齐实体进行等价链接,遍历所有知识图谱得到融合知识图谱;
从融合知识图谱中抽取每个实体以及对齐实体,采用实体链接技术将每个实体以及对齐实体映射到原始数据中的文本片段,将所有实体及其对齐实体映射的文本片段组成的数据库作为训练语料库,基于训练语料库训练面向知识问答的大语言模型。
本发明的有益效果是:本发明通过每个知识图谱中每个实体与周围实体之间的关联性得到每个实体的搜索路径以及搜索路径向量,其次基于搜索路径向量以及同类实体之间的属性信息确定实体之间的实体知识关联性,并基于实体知识关联性构建加权实体关联图,提高了后续进行实体对齐时构建邻接矩阵的有效性;其次根据不同加权实体关联图的聚类结果确定不同知识图谱中实体的实体嵌入距离,其有益效果在于通过度量每个实体节点所在子树之间的结构相似性和语义信息能够准确反映实体作为三元组中尾实体被后续神经网络模型中嵌入向量替换的概率,提高了实体对齐效果;其次基于实体对齐效果进行知识图谱的融合补全,避免原始数据中的语义歧义以及噪声的干扰,提高了后续大语言模型训练集的有效性,增强了大语言模型的回复性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于知识图谱的大语言模型训练方法的流程示意图;
图2为本发明一个实施例所提供的构建搜索路径向量的示意图;
图3为本发明一个实施例所提供的两个子树结构的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于知识图谱的大语言模型训练方法的流程图,该方法包括以下步骤:
步骤S001,基于不同数据源的数据构建知识图谱。
大语言模型广泛应用在知识问答、智能客服、自动化娱乐、文本分类等任务中。不同应用的大语言模型的训练数据有所不同,本发明中以面向知识问答的大语言模型为例,通过不同来源的原始数据构建的知识图谱进行实体对齐,基于实体对齐的结果进行大语言模型的训练。
具体地,通过问卷调查、文本获取、网页图文字符识别等Y种途径获取不同来源的文本数据,Y的大小取经验值6。将每个来源的文本数据作为一类原始数据,通过实体命名识别技术、以及关系抽取技术对每个来源的原始数据进行处理,得到每个来源的原始数据中实体、关系构成的三元组,基于每个来源的原始数据构成的三元组构建每个来源的知识图谱,其中,所述实体命名识别、关系抽取以及知识图谱的构建为公知技术,具体过程不再赘述。
至此,得到不同来源原始数据对应的知识图谱,用于后续知识图谱中的实体对齐。
步骤S002,基于每个知识图谱中每个实体对应的搜索路径确定所述每个实体对应实体节点的搜索路径向量;基于每个知识图谱上任意两个实体之间的属性信息以及两个实体对应实体节点的搜索路径向量确定实体知识关联性。
由于构建知识图谱的数据来源不同,对同一实体的描述内容和方式会存在一定的差异,同时会受到噪声的干扰,导致在抽取关系构建知识图谱的过程中,抽取的实体关系也会不同。例如,宣传网页中对长城的描述为:“长城是最伟大的建筑工程”,而在搜索引擎中搜索长城时还会出现“长城,古代的军事防御工程”的介绍文本。但是对于知识问答的大语言模型而言,当被问及长城时,给出“长城是最伟大的建筑工程,也被称为古代的军事防御工程”的回复是较为理想的训练结果。因此需要对不同知识图谱中的实体进行实体对齐,基于实体对齐结果进行知识图谱的融合,基于知识图谱的融合结果训练大语言模型。
具体地,以第a个知识图谱为例,抽取第a个知识图谱中同一层级中的所有实体,将知识图谱中任意一个实体映射为一个实体节点,将存在任意关系的两个实体对应节点进行连线,将利用第a个知识图谱中同一层级中的所有实体构建的无向图记为第a个知识图谱中的同类实体关联图。其次,对于任意一个实体节点,以第i个实体节点为例,将第a个知识图谱中第i个实体节点作为起始节点,采用深度优先搜索DFS算法得到第i个实体节点的搜索路径,其次根据所述搜索路径上每个节点与第i个实体节点之间的位置距离对所述搜索路径上每个节点进行位置权重的赋值。
具体地,统计搜索路径上的节点数量N,将节点数量作为第i个实体节点的位置权重,将节点数量减一的值作为搜索路径/>上距离第i个实体节点最近节点的位置权重,以此类推,将搜索路径/>上距离第i个实体节点最远的节点的位置权重赋值为1,即通过按照位置顺序递减,递减尺度为1的方式对搜索路径/>上的节点进行位置赋值。其次,将搜索路径/>上每个节点对应的词向量作为数组中的第一个元素,将每个节点的位置权重作为数组中的第二个元素,将每个节点对应的词向量、位置权重组成的数组作为每个节点的特征数组。将所有节点的特征数组按照位置由近到远的顺序组成的向量记为第i个实体节点的搜索路径向量,如图2所示。
进一步地,对于第a个知识图谱中同类的实体而言,不同实体之间可能存在一定的关系,所述关系包括实体对齐的关系,例如,“周树人先生的笔名是鲁迅”鲁迅、周树人两个实体的携带的知识本质上是相同的,指代的同一个人,两个实体之间的关系为笔名,则构建的三元组可表示为<周树人,笔名,鲁迅>。因此对于第a个知识图谱中的实体,如果在第a个知识图谱中某一实体与其余实体之间已经存在关系,则认为该实体存在对齐实体的概率较大,且关系种类越多,存在对齐实体的概率越高。因此,统计第a个知识图谱中与每个实体存在关系的实体数量,将第a个知识图谱中与第i个实体存在关系的实体数量记为。
基于上述分析,此处构建实体知识关联性,用于表征每个知识图谱中每个实体进行实体对齐时的难度高低。计算第a个知识图谱中第i个、第d个实体的实体知识关联性:
式中,是第a个知识图谱中第i个实体与第d个实体之间的属性相似度,/>是第a个知识图谱中第i个实体具有的属性数量,/>、/>分别是第i个实体、第d个实体在属性g上的属性值,/>是第a个知识图谱中具有属性g的实体数量,/>是调参因子,用于防止分母为0,/>的大小取经验值0.001;
是第a个知识图谱中第i个实体的实体知识关联性,/>、/>分别是第i个实体、第d个实体的搜索路径向量,/>是向量/>、/>之间的余弦相似度,/>是以自然常数为底数的指数函数。
其中,原始数据中关于第i个实体的文本数据越多,在构建第a个知识图谱的过程中,第i个实体具有的属性越多,与第i个实体存在关系的实体具有相同属性的概率越大,两个实体在同一属性上取值差异越大,两个实体的对齐实体越不一致,第一组成因子的值越大,同时,拥有属性g的实体数量越小,说明第g个属性对实体之间的区分性越大,不同实体在属性g上属性值对区分实体的贡献度越高,/>的值越大,第一累加因子/>的值越大;两个实体在知识图谱中与周围实体的位置结构不同,得到的搜索路径长度差异越大,搜索路径上节点对应实体的差异越大,/>的值越小,第一计算因子/>的值越小;即/>的值越大,第i个实体表达语义信息与同类型其它实体表达的语义信息越接近,相应的,第i个实体的对齐实体越有可能与同类型的其它实体相关。
至此,得到实体之间的实体知识关联性,用于后续确定每个知识图谱中实体对应实体节点的聚类结果。
步骤S003,基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定两个知识图谱中不同实体之间的实体嵌入距离;基于任意两个知识图谱中实体之间的实体嵌入距离、实体的属性信息以及上下文信息获取两个知识图谱中实体的对齐结果。
根据上述步骤,分别获取第a个知识图谱中任意两个实体之间的实体知识关联性。并将任意两个实体之间的实体知识关联性作为第a个知识图谱的同类实体关联图中相应两个节点之间的连线权重,遍历所有实体节点,将同类实体关联图添加权重后的结果记为第a个知识图谱的加权实体关联图。
进一步地,将加权实体关联图将作为输入,采用普利姆Prim算法得到加权实体关联图/>对应的最小生成树,其次将最小生成树/>作为输入,采用最小生成树MST(Minimum Spanning Tree)算法得到最小生成树/>划分成K个子树的聚类结果,MST算法中判别参数的大小取经验值2,其中,Prim算法、MST算法为公知技术,具体过程不再赘述。
根据上述步骤,获取每个知识图谱对应的加权实体关联图以及最小生成树的聚类结果。如果两个知识图谱中描述的实体是同一实体,那么在相关知识图谱对应的最小生成树的聚类结果中,两个实体的结构应当是接近的,如图3所示。图中左侧为最小生成树的一个子树/>,右侧是第b个知识图谱对应的最小生成树聚类结果中的一个子树/>,观察左侧子树上的节点i、右侧子树上的节点j,两个节点周围分别有H1、H2、H3,h1、h2、h3三个不同的节点,且节点i、j分别与周围的三个节点之间存在P1、P2、P3,p1、p2、p3三种关系,虽然实体对应的词向量存在差异,但是如果节点H1、H2、H3与h1、h2、h3中存在一对实体对齐的节点,或者三种关系都一样,那么节点i、j大概率能够成为对齐实体的节点。
进一步地,对于任意一个子树上的每个节点,由于节点对应实体在构建知识图谱的原始数据中出现的次数不同,存在的关系的实体也不相同,与每个节点相连的节点数量越多,此节点对应实体的语义信息在原始数据中越常见,那么对此节点对应实体的描述文本的种类可能越多,越容易找到对其实体。对于任意两个子树,获取两个子树之间的最大公共子树,并将最大公共子树上节点的数量与两个子树上节点数量中最大值的比值作为两个子树之间的树相似度,最大公共子树的获取为公知技术,具体过程不再赘述。其次,分别统计每个子树上不在最大公共子树上的节点,将此类节点标记为欺诈节点。
基于上述分析,此处构建实体嵌入距离,用于表征实体作为三元组中的尾实体后能够被别的实体嵌入替换的概率。计算第a个知识图谱中第i个实体与第b个知识图谱中第j个实体之间的实体嵌入距离:
式中,是第a个知识图谱中第i个实体与第k个实体的簇内结构距离,k是子树上第k个与第i个实体对应节点相连的节点,/>是子树/>上第k个节点与第i个实体对应节点之间连线的距离,/>、/>分别是第i个实体对应的词向量、第k个节点对应的词向量;/>是调参因子,用于防止分母为0,/>的大小取经验值0.01;
是第a个知识图谱中第i个实体与第b个知识图谱中第j个实体之间的实体嵌入距离,/>、/>分别是第a个知识图谱中第i个实体、第b个知识图谱中第j个实体对应节点所在子树,/>是子树/>、/>之间的树相似度,/>是第a个知识图谱中第i个实体的簇内距离向量,/>是第b个知识图谱中第j个实体的簇内距离向量,是/>、/>之间的DTW(Dynamic Time Warping)距离;/>是/>上与第a个知识图谱中第i个实体对应节点相连的欺诈节点的数量,/>是/>上与第b个知识图谱中第j个实体对应节点相连的欺诈节点的数量,/>是以自然常数为底数的指数函数,/>是调参因子,用于防止分母为0,/>的大小取经验值0.01;所述簇内距离向量是由每个实体对应节点所在子树上与此节点与所有相连节点之间的簇内结构距离排序组成的。
其中,第a个知识图谱中第i个实体与其余实体所表达语义之间的差异越大,则在子树上第i个实体对应节点与其余实体对应节点之间的距离越远,/>的值越大,的值越小,/>值越大;子树/>上的节点数量越多,/>上第a个知识图谱中第i个实体对应节点对子树结构的影响越小,所述第i个实体越不可能是存在多种描述方式词语对应的实体,同理可知,则子树/>上的节点数量越多,/>上第b个知识图谱中第j个实体对应节点对子树结构的影响越小,所述第j个实体越不可能是存在多种描述方式词语对应的实体,/>的值越大,/>的值越大,/>的值越大,第一影响距离的值越大;即/>的值越小,第a个知识图谱中第i个实体与第b个知识图谱中第j个实体之间越难以被相互替换。
根据上述步骤,分别获取每个知识图谱中每个实体与其余知识图谱中每个实体之间的实体嵌入距离。对于每个知识图谱中任意一个实体,以第a个知识图谱中第i个实体为例,获取第a个知识图谱中第i个实体与第b知识图谱中所有实体的实体嵌入距离组成的向量作为一个行向量,将第a个知识图谱中第i个实体与其余Y-1个知识图谱中所有实体之间的实体嵌入距离构建的行向量排列组成的矩阵作为第a个知识图谱中第i个实体的邻接矩阵。其次从第a个知识图谱中获取第i个实体的属性信息、上下文信息、关系信息,从知识图谱中获取实体的上下文信息为公知技术,具体过程不再赘述。
进一步地,将任意两个知识图谱中每个实体的邻接矩阵、属性信息、上下文信息、关系信息作为神经网络模型的输入,本发明中神经网络模型为图卷积神经网络GCN(GraphConvolution Network),以adam算法为优化算法,以为二元交叉熵函数为损失函数,GCN的输出为两个知识图谱中实体的对齐结果,神经网络的训练为公知技术,具体过程不再赘述。利用GCN每次得到两个知识图谱中实体的对齐结果,直至遍历所有Y个知识图谱。
至此,得到任意两个知识图谱之间的实体对齐结果,用于后续确定融合知识图谱。
步骤S004,基于知识图谱之间的实体对齐结果完成面向知识问答的大语言模型的训练。
根据上述步骤,得到多知识图谱中实体之间的对齐结果,那么对于每个知识图谱中每一个实体,获取每个实体在其余知识图谱中的对齐实体,根据实体及其对其实体完成数据增强。
具体地,分别获取第a个知识图谱中每个实体在其余知识图谱中的对齐实体,并利用等价符号,将每个实体的对齐实体与其进行等价链接,其次遍历第a个知识图谱中所有实体的对齐实体,得到融合知识图谱。
进一步地,从融合知识图谱中抽取每个实体以及对齐实体,其次采用实体链接技术,将融合知识图谱中的实体以及对齐实体映射到原始数据中的文本片段,将所有实体及其对齐实体映射的文本片段组成的数据库作为训练语料库,实体链接技术为公知技术,具体过程不再赘述。基于训练语料库训练面向知识问答的大语言模型,本发明中,考虑到中文文本的句子结构特征选择ERNIE(Enhanced Representation throughkNowledgeIntEgration)模型作为大语言模型,实施者可根据数据形式选择合适的大语言模型,神经网络的训练为公知技术,具体过程不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.基于知识图谱的大语言模型训练方法,其特征在于,该方法包括以下步骤:
基于不同数据源的数据构建知识图谱;
利用深度优先搜索算法基于每个知识图谱中每个实体对应的搜索路径确定所述每个实体对应实体节点的搜索路径向量;基于每个知识图谱上任意两个实体之间的属性信息以及两个实体对应实体节点的搜索路径向量确定实体知识关联性;
采用聚类算法基于每个知识图谱的加权实体关联图获取每个知识图谱中实体对应实体节点的聚类结果;
基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定两个知识图谱中不同实体之间的实体嵌入距离;采用图卷积神经网络基于任意两个知识图谱中实体之间的实体嵌入距离、实体的属性信息以及上下文信息获取两个知识图谱中实体的对齐结果;
基于所有知识图谱中实体的对齐结果完成面向知识问答的大语言模型的训练;
所述利用深度优先搜索算法基于每个知识图谱中每个实体对应的搜索路径确定所述每个实体对应实体节点的搜索路径向量的方法为:
抽取每个知识图谱中同一层级中的所有实体,将所述同一层级中每个实体作为一个实体节点,将任意存在关系的两个实体进行连线,将利用同一层级中的所有实体构建的无向图作为每个知识图谱的同类实体关联图;
将每个知识图谱的同类实体关联图作为输入,依次将每个实体节点作为起始节点,采用深度优先搜索算法确定每个实体节点的搜索路径;
统计每个实体节点的搜索路径上节点的数量,通过按照位置顺序递减、递减尺度为1的方式对所述搜索路径上的每个节点的位置权重进行赋值,将所述节点的数量作为所述搜索路径上第一个节点的位置权重,将所述搜索路径上最后一个节点的位置权重赋值为1;
将所述搜索路径上每个节点对应的词向量作为数组中的第一个元素,将所述搜索路径上每个节点的位置权重作为数组中的第二个元素,将所述搜索路径上每个节点对应的词向量、位置权重组成的数组作为所述搜索路径上每个节点的特征数组;
将所有所述节点的特征数组按照距离每个实体节点由近到远的顺序组成的向量作为每个实体节点的搜索路径向量;
所述基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定两个知识图谱中不同实体之间的实体嵌入距离的方法为:
将每个子树上每个节点与其余任意一个节点之间的连线的距离作为分子;将每个子树上每个节点与其余任意一个节点对应词向量之间的相似性度量与预设参数之和作为分母;将分子分母的比值作为每个子树上每个节点与其余任意一个节点之间的簇内结构距离;
将每个子树上每个节点与其余所有节点之间的簇内结构距离组成的向量作为每个子树上每个节点对应实体的簇内距离向量;
基于两个知识图谱中两个实体的簇内距离向量以及两个实体所在子树的相似程度确定所述两个实体之间的实体嵌入距离。
2.根据权利要求1所述的基于知识图谱的大语言模型训练方法,其特征在于,所述基于不同数据源的数据构建知识图谱的方法为:
利用不同的数据采集方式获取不同来源的文本数据;
将每种来源的文本数据作为一类原始数据,采用实体命名识别技术、关系抽取技术对每类原始数据进行处理得到预设数量个三元组,基于预设数量个三元组构建每类原始数据的知识图谱。
3.根据权利要求1所述的基于知识图谱的大语言模型训练方法,其特征在于,所述基于每个知识图谱上任意两个实体之间的属性信息以及两个实体对应实体节点的搜索路径向量确定实体知识关联性的方法为:
基于每个知识图谱中两个实体之间属性信息的差异确定两个实体之间的属性相似度;
将两个实体之间的属性相似度的相反数与两个实体对应实体节点的搜索路径向量之间的度量距离之和作为第一计算因子;将第一计算因子的数据映射结果作为两个实体之间的实体知识关联性。
4.根据权利要求3所述的基于知识图谱的大语言模型训练方法,其特征在于,所述基于每个知识图谱中两个实体之间属性信息的差异确定两个实体之间的属性相似度的方法为:
将每个知识图谱上的每个实体作为一个目标实体,将每个目标实体与其余任意一个实体在目标实体每个属性上属性值差值的绝对值作为第一组成因子;将第一组成因子与每个知识图谱中具有目标实体每个属性的实体数量的乘积作为第一累加因子;
将第一累加因子在目标实体所有属性上的累加结果与预设参数之和的倒数作为每个目标实体与其余任意一个实体之间的属性相似度。
5.根据权利要求1所述的基于知识图谱的大语言模型训练方法,其特征在于,所述采用聚类算法基于每个知识图谱的加权实体关联图获取每个知识图谱中实体对应实体节点的聚类结果的方法为:
将每个知识图谱上任意两个实体之间的实体知识关联性作为每个知识图谱的同类实体关联图中相应两个实体节点之间的连线权重;每个知识图谱的同类实体关联图添加所有所述连线权重后的结果作为每个知识图谱的加权实体关联图;
将每个知识图谱的加权实体关联图作为输入,采用普利姆Prim算法得到每个知识图谱对应的最小生成树;将每个知识图谱对应的最小生成树作为输入,采用最小生成树算法得到每个知识图谱的加权实体关联图上每个实体节点所在的子树。
6.根据权利要求1所述的基于知识图谱的大语言模型训练方法,其特征在于,所述基于两个知识图谱中两个实体的簇内距离向量以及两个实体所在子树的相似程度确定所述两个实体之间的实体嵌入距离的方法为:
获取任意两个子树之间的最大公共子树,将所述最大公共子树上节点的数量与两个子树上节点数量中最大值的比值作为两个子树之间的树相似度;并将每个子树上任意一个不在所述最大公共子树上的节点标记为每个子树上的一个欺诈节点;
将两个知识图谱中两个实体的簇内距离向量之间的度量距离作为第一乘积因子;将两个知识图谱中两个实体对应实体节点所在子树上欺诈节点数量之和的数据映射结果作为第二乘积因子;将第一乘积因子与第二乘积因子的乘积与预设参数之和作为分母;
将两个知识图谱中两个实体对应实体节点所在子树之间的树相似度与分母的比值作为所述两个实体之间的实体嵌入距离。
7.根据权利要求1所述的基于知识图谱的大语言模型训练方法,其特征在于,所述采用图卷积神经网络基于任意两个知识图谱中实体之间的实体嵌入距离、实体的属性信息以及上下文信息获取两个知识图谱中实体的对齐结果的方法为:
获取每个知识图谱中每个实体与其余每个知识图谱中每个实体之间的实体嵌入距离,将每个知识图谱中每个实体与其余任意一个知识图谱中所有实体之间的实体嵌入距离组成的向量作为一个行向量;
将每个知识图谱中每个实体对应的所有行向量构建的矩阵作为每个知识图谱中每个实体的邻接矩阵;
将两个知识图谱中每个实体的邻接矩阵、属性信息、上下文信息、关系信息作为输入,利用图卷积神经网络得到两个知识图谱中的实体对齐结果。
8.根据权利要求1所述的基于知识图谱的大语言模型训练方法,其特征在于,所述基于所有知识图谱中实体的对齐结果完成面向知识问答的大语言模型的训练的方法为:
获取任意两个知识图谱之间的实体对齐结果,将每个知识图谱上每个实体与其对齐实体进行等价链接,遍历所有知识图谱得到融合知识图谱;
从融合知识图谱中抽取每个实体以及对齐实体,采用实体链接技术将每个实体以及对齐实体映射到原始数据中的文本片段,将所有实体及其对齐实体映射的文本片段组成的数据库作为训练语料库,基于训练语料库训练面向知识问答的大语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410003864.2A CN117520567B (zh) | 2024-01-03 | 2024-01-03 | 基于知识图谱的大语言模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410003864.2A CN117520567B (zh) | 2024-01-03 | 2024-01-03 | 基于知识图谱的大语言模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520567A CN117520567A (zh) | 2024-02-06 |
CN117520567B true CN117520567B (zh) | 2024-04-02 |
Family
ID=89749732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410003864.2A Active CN117520567B (zh) | 2024-01-03 | 2024-01-03 | 基于知识图谱的大语言模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520567B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
CN111930774A (zh) * | 2020-08-06 | 2020-11-13 | 全球能源互联网研究院有限公司 | 一种电力知识图谱本体自动构建方法及系统 |
CN113535972A (zh) * | 2021-06-07 | 2021-10-22 | 吉林大学 | 一种融合上下文语义的知识图谱链路预测模型、方法及装置 |
WO2023168601A1 (zh) * | 2022-03-08 | 2023-09-14 | 京东方科技集团股份有限公司 | 自然语言处理模型的训练方法、装置、存储介质 |
-
2024
- 2024-01-03 CN CN202410003864.2A patent/CN117520567B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
CN111930774A (zh) * | 2020-08-06 | 2020-11-13 | 全球能源互联网研究院有限公司 | 一种电力知识图谱本体自动构建方法及系统 |
CN113535972A (zh) * | 2021-06-07 | 2021-10-22 | 吉林大学 | 一种融合上下文语义的知识图谱链路预测模型、方法及装置 |
WO2023168601A1 (zh) * | 2022-03-08 | 2023-09-14 | 京东方科技集团股份有限公司 | 自然语言处理模型的训练方法、装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117520567A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299284B (zh) | 一种基于结构信息与文本描述的知识图谱表示学习方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN110309268A (zh) | 一种基于概念图的跨语言信息检索方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN116757164A (zh) | 一种gpt生成语言识别与检测系统 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN115599899A (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
CN114818703A (zh) | 基于BERT语言模型和TextCNN模型的多意图识别方法及系统 | |
CN115982338A (zh) | 一种基于查询路径排序的领域知识图谱问答方法及系统 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN114416929A (zh) | 实体召回模型的样本生成方法、装置、设备及存储介质 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN113312918A (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN117520567B (zh) | 基于知识图谱的大语言模型训练方法 | |
CN111950646A (zh) | 电磁图像的层次化知识模型构建方法及目标识别方法 | |
CN115688789B (zh) | 一种基于动态标签的实体关系抽取模型训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |