CN117688974A - 基于知识图谱的生成式大模型建模方法、系统及设备 - Google Patents

基于知识图谱的生成式大模型建模方法、系统及设备 Download PDF

Info

Publication number
CN117688974A
CN117688974A CN202410139094.4A CN202410139094A CN117688974A CN 117688974 A CN117688974 A CN 117688974A CN 202410139094 A CN202410139094 A CN 202410139094A CN 117688974 A CN117688974 A CN 117688974A
Authority
CN
China
Prior art keywords
entity
interval
node
word vector
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410139094.4A
Other languages
English (en)
Other versions
CN117688974B (zh
Inventor
孙宇慧
何昆仑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese PLA General Hospital
Original Assignee
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese PLA General Hospital filed Critical Chinese PLA General Hospital
Priority to CN202410139094.4A priority Critical patent/CN117688974B/zh
Publication of CN117688974A publication Critical patent/CN117688974A/zh
Application granted granted Critical
Publication of CN117688974B publication Critical patent/CN117688974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于智能医疗领域,具体涉及一种基于知识图谱的生成式大模型建模方法、系统及设备。方法包括获取文本数据集;对所述文本数据集向量化表示得到初级词向量;对所述初级词向量进行实体区间判断得到实体区间词向量;基于所述实体区间词向量得到“实体‑关系‑实体”三元组;将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。训练得到的生成式大模型可在医学领域的知识图谱的构建、问答系统、文本生成、辅助决策等场景中使用。本申请通过实体区间识别方法能更准确地识别和提取文本中的关键信息、提高信息处理的质量和效率。

Description

基于知识图谱的生成式大模型建模方法、系统及设备
技术领域
本发明涉及智能医疗技术领域,更具体地,涉及一种基于知识图谱的生成式大模型建模方法、系统、设备及计算机可读存储介质。
背景技术
随着信息技术和医学领域的迅速发展,数据量不断增加,带来了新的机会和挑战。医学数据,如患者病例、检测报告和医学图像等,涉及多个部门和机构,如医院、疗养机构。医学领域产生的大量非结构化的数据蕴含着宝贵的医学知识和临床经验,但其非结构化的特性使得传统的数据处理方法难以高效提取和利用这些信息。随着深度学习和大数据技术的发展,特别是BERT等预训练模型在语言理解方面的突破,为解决这些问题提供了新的技术手段。通过从大量非结构化的医学文本中提取关键信息,并利用这些信息构建知识图谱,能够将零散、非结构化的数据转化为结构化和半结构化的形式,便于进一步的分析和应用。
申请号为CN202211216862.9的中国发明专利提出一种多维知识图谱的构建方法、装置、设备及产品,应用于数据处理技术领域。该方法包括:获取至少两个生物医学数据库,所述生物医学数据库存储有不同实体和连接所述不同实体的实体关系;将所述至少两个生物医学数据库中的同类实体进行标准化,得到至少两个标准化实体;基于所述至少两个生物医学数据库中的不同实体之间的实体关系,重构不同所述标准化实体之间的实体关系;基于所述至少两个标准化实体和不同所述标准化实体之间的实体关系,构建所述多维知识图谱。该方法能够在整合数据库的基础上,以基因类实体为主,构建一个多维度的知识图谱。
申请号为CN202310961100.X的中国发明专利提出一种融合知识与患者表示的诊断推荐系统,包括知识图谱构建模块、知识表示学习模块和诊断推荐模块;本发明利用医学知识图谱对患者数据和医学知识进行联结,可以更全面、准确地表达医学知识和患者数据之间的关系;本发明关联了患者就诊的时序数据与医学知识图谱,构建患者信息图谱,利用规则学习算法对患者信息图谱进行剪枝,缩小知识表示学习域,关联数据形成患者信息序列,可以更好地利用患者历史数据,提高诊断推荐准确性;本发明提出了一种计算细粒度语义单元相似性的语义关联方法,可以更准确地对医学实体进行对齐;本发明引入了基于无监督卷积神经网络构建的患者序列表示学习模型,进一步提高诊断推荐的准确性。
发明内容
本发明提出一种基于知识图谱的生成式大模型建模方法,通过构建知识图谱的方式进行图数据库的构建,进一步地,通过图数据训练生成式大模型。具体包括:
一种基于知识图谱的生成式大模型建模方法,所述方法包括:
获取文本数据集;
对所述文本数据集向量化表示得到初级词向量;
对所述初级词向量进行实体区间判断得到实体区间词向量,所述实体区间判断的具体步骤包括:
第1步,所述初级词向量的语义信息输入全连接神经网络中学习得到所述语义信息的各个特征值的注意力系数;
第2步,以K个所述注意力系数对应的特征值作为关键特征值,K个所述注意力系数作为关键特征系数,以关键特征值作为节点,结合关键特征系数构成邻接矩阵构建图神经网络,K为自然数整数;
第3步,提取所述图神经网络的特征;
第4步,所述特征通过激活函数转换为概率分布并输出概率分布;
第5步,基于所述输出概率分布判断所述初级词向量是否是实体区间,如果是实体区间则输出实体区间词向量;
基于所述实体区间词向量得到“实体-关系-实体”三元组;
将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。
进一步,所述提取所述图神经网络的特征的步骤包括:
第1步,用所述关键特征值初始化所述图神经网络中t=0时刻所有节点的隐状态;
第2步,在任意t时刻,所述节点k的隐状态基于节点k的聚合特征向量和节点k在t-1时刻的隐状态更新,所述节点k的聚合特征向量根据节点k的所有邻居节点的t-1时刻的隐状态得到,其中k表示所有所述K个节点中的任意一个;
第3步,当所述节点k与其邻居节点k’高度相关时,所述图神经网络会在二者之间进行信息传递,反之则抑制信息传递;
重复第2步至第3步,直至达到停止条件后输出最终的节点隐状态作为提取后的特征,所述停止条件指损失函数收敛或达到预设的停止条件。
进一步,所述注意力系数的计算公式为:
其中,为注意力系数,为第个特征值的权重系数,为求和函数,exp()为指 数函数。
进一步,所述节点k的聚合特征向量的计算公式如下:
其中,表示节点k在t时刻的聚合特征向量,表示已知节点'的条件下节点 的出现概率,表示已知节点的条件下节点'的出现概率,表示节点'在t-1时刻 的隐状态。
进一步,节点k的隐状态的计算公式如下:
其中,表示sigmoid函数,是双曲正切函数,代表元素乘法运算,表 示更新门,表示重置门,表示候选隐藏状态,表示最后要计算的节点k的隐状态,是待学习的网络参数。
进一步,所述“实体-关系-实体”三元组是基于实体区间词向量得到的,方法包括:用命名实体识别模型来识别所述实体区间词向量的实体类型,然后利用深度学习模型或机器学习模型来识别所述实体区间词向量之间的关系。
进一步,所述“实体-关系-实体”三元组是基于实体区间词向量得到的,方法包括:使用多任务联合学习框架同时进行实体类型识别和关系抽取,所述多任务联合学习框架包括共享层和任务特定层,所述实体区间词向量输入共享层提取特征,所述特征输入任务特定层训练后输出结果,在所述任务特定层定义实体类型识别任务和关系抽取任务各自的损失函数,所述任务特定层联合两个任务的所述损失函数作为训练的总损失函数,通过优化所述总损失函数来优化模型参数,所述任务特定层输出实体类型识别和关系抽取的结果得到所述“实体-关系-实体”三元组。
进一步,所述向量化表示方法包括下列方法中的一种或几种:词袋模型、TF-IDF、Word2Vec、GloVe、FastText、预训练的BERT。
进一步,所述预训练的BERT的关键组成部分包括:Transformer架构、双向上下文表示、以及预训练模块,所述文本数据集输入Transformer架构得到包含注意力信息的词向量,所述包含注意力信息的词向量输入所述上下文表示模块中通过MLM任务结合了上下文信息后输入所述预训练模块训练,所述预训练模块包括MLM任务和NSP任务,通过所述预训练得到语言的深层次特征后输出所述初级词向量。
进一步,所述生成式大模型包括下列模型中的一种或几种:Transformer、GPT、BERT、T5、XLNet、RoBERTa、ALBERT、DALL-E、WaveGAN、BigGAN、UniLM、CLIP。
进一步,所述生成式大模型的训练步骤包括:
第1步,将所述三元组进行格式化得到文本字符串;
第2步,将所述文本字符串通过分词工具分解为词元区间;
第3步,将所述词元区间通过向量化表示转换为词向量,同时将所述词向量进行填充或截断以匹配最大序列长度得到格式化词向量;
第4步,初始化所述生成式大模型的参数,将所述格式化词向量输入所述生成式大模型,计算损失函数并根据损失函数选择优化器训练优化所述参数,直至所述损失函数收敛或达到预设的停止轮数。
一种基于知识图谱的生成式大模型建模系统,包括:
获取模块:用于获取文本数据集;
向量化表示模块:用于对所述文本数据集向量化表示得到初级词向量,所述初级词向量包括词向量的区间;
实体区间判断模块:用于对所述初级词向量进行实体区间判断得到实体区间词向量,所述实体区间判断的具体步骤包括:
第1步,所述初级词向量的语义信息输入全连接神经网络中学习得到所述语义信息的各个特征值的注意力系数;
第2步,以K个所述注意力系数对应的特征值作为关键特征值,K个所述注意力系数作为关键特征系数,以关键特征值作为节点,结合关键特征系数构成邻接矩阵构建图神经网络,K为自然数整数;
第3步,提取所述图神经网络的特征;
第4步,所述特征通过激活函数转换为概率分布并输出概率分布;
第5步,基于所述输出概率分布判断所述初级词向量是否是实体区间,如果是实体区间则输出实体区间词向量;
三元组构建模块:用于基于所述实体区间词向量得到“实体-关系-实体”三元组;
训练模块:用于将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。
一种基于知识图谱的生成式大模型建模设备,包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现任意一项所述的基于知识图谱的生成式大模型建模方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时任意一项所述的基于知识图谱的生成式大模型建模方法。
本申请的优势:
1、提出了一种创新性的实体区间识别方法,以在文本中确定实体的起始和结束边界。
2、采用特征关联图神经网络来处理语义信息特征,包括注意力系数的计算、关键特征值的选择,以及利用这些关键特征值构建的图神经网络。
3、采用特征关联循环更新机制来通过图传递信息并学习上下文的关联特征。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种基于知识图谱的生成式大模型建模方法的示意流程图;
图2是本发明实施例提供的一种基于知识图谱的生成式大模型建模系统的示意流程图;
图3是本发明实施例提供的一种基于知识图谱的生成式大模型建模设备的示意流程图;
图4是本发明实施例提供的特征关联图神经网络的算法框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种基于知识图谱的生成式大模型建模方法的示意流程图,具体地,所述方法包括如下步骤:
S101:获取文本数据集;
所述文本数据集包括下列数据中的一种或几种:患者病例、检测报告、用药记录。
S102:对所述文本数据集向量化表示得到初级词向量;
所述向量化表示方法包括下列方法中的一种或几种:词袋模型、TF-IDF、Word2Vec、GloVe、FastText、预训练的BERT。
在一个实施例中,在命名实体识别时,输入是一个由多个词元构成的句子,且所有长度不超过的连续词元组成的集合表示为
在一个实施例中,对于一个给定的输入句子,首先经过一个预训练 的BERT模型,获取句子中每个词元包含上下文信息的特征向量,进而得到BERT模型的输出 为词向量,所述词向量表征为,所述词向量包括词向量的区间,用表示对应词向量的词元区间。
在一个实施例中,预训练的BERT模型可以分为几个关键组成部分:Transformer架构、双向上下文表示、以及预训练任务。首先,BERT基于Transformer模型,Transformer完全基于注意力机制,摒弃了传统的递归神经网络和卷积神经网络。具体的,在注意力机制中,自注意力机制允许模型在序列内的所有位置间加权聚合信息。自注意力的计算涉及三个向量:查询(Q)、键(K)和值(V),所有这些向量都是输入数据的变换。对于每个位置,计算注意力分数:
其中,为注意力分数计算函数。表示查询(Query)矩阵,代表当前词 元。表示键(Key)矩阵,代表所有词元。表示值(Value)矩阵,同样代表所有词元。的 转置。为键向量的维度,用于缩放因子以防止点积后的值过大。为softmax函数, 用于将注意力分数转换为概率分布。
此外,在注意力机制中,多头注意力允许模型同时关注来自不同位置的不同表示 子空间的信息。多头注意力是将分别线性投影次到不同的子空间,然后在每个子空 间上进行自注意力,最后将所有头的输出拼接起来,可以表示为:
其中,为多头注意力机制,为向量拼接操作,为第个注意 力头,为注意力头的数量,为输出层的权重矩阵,为分别是查询、键、值的线 性变换矩阵。
在双向上下文表示模块中,不同于单向模型,BERT能够同时考虑序列中每个词元的左右上下文。这是通过Masked Language Model(MLM)任务实现的,该任务在预训练阶段随机掩盖部分输入词元,然后预测这些被掩盖的词元。这迫使模型学习到每个词元的双向上下文表示。
在BERT的预训练时,包含两个主要任务:Masked Language Model(MLM)和NextSentence Prediction(NSP)。
MLM任务随机遮蔽输入序列中的一部分词元,然后预测这些词元。在一个实施例中,对于句子“心脏病人要比糖尿病人更应减少运动”,BERT可能将其转换为“心脏[MASK]要比糖尿病人更应减少[MASK]”,然后模型需要预测被遮蔽的词元(在这个例子中是“病人”和“运动”)。同时,模型接收一对句子,并预测第二个句子是否是第一个句子的逻辑后续。这有助于训练模型理解句子间的关系。
在一个实施例中,在预训练时,使用大量无标记文本进行训练,通过MLM和NSP任务来学习语言的深层次特征。针对具体的任务(如本发明的医学知识建模),使用相应的标记数据进行微调。在微调阶段,整个模型的参数都会根据特定任务进行调整。基于此,BERT能够捕获丰富的双向上下文信息。
在一个实施例中,BERT模型的输出为初级词向量,所述初级词向量表征为,所述初级词向量包括词向量对应的词元区间,用分别表 示初级词向量对应的词元区间。
S103:对所述初级词向量进行实体区间判断得到实体区间词向量,所述实体区间判断的具体步骤包括:
第1步,所述初级词向量的语义信息输入全连接神经网络中学习得到所述语义信息的各个特征值的注意力系数;
第2步,以K个所述注意力系数对应的特征值作为关键特征值,K个所述注意力系数作为关键特征系数,以关键特征值作为节点,结合关键特征系数构成邻接矩阵构建图神经网络,K为自然数整数;
第3步,提取所述图神经网络的特征;
第4步,所述特征通过激活函数转换为概率分布并输出概率分布;
第5步,基于所述输出概率分布判断所述初级词向量是否是实体区间,如果是实体区间则输出实体区间词向量;
在一个实施例中,对于每个初级词向量的区间,预测它作为实体区间的概率。 如果(其中是阈值),则将视为实体区间,并预测其实体类型。其中,对中的所有 区间先预测其为实体区间的概率,若为判断为实体区间的阈值,则判 断为实体区间,再进一步预测其实体类型。该任务的输出如公式:
在一个实施例中,在实体区间识别阶段,获取所有检测为实体区间的实体区间词向量。其中用于实体区间识别的语义信息由以下三部分构成:1)区间的开始词元向量;2)区间的结束词元向量;3)区间长度的词向量。
在一个实施例中,令表示中所有长度不超过的区间组成的集 合。对于任意区间,其区间长度 为。令表示区间的在中的开始位置,end表示区间的在中结 束位置。则区间用于进行实体区间识别的语义信息可表示为
其中,是区间长度的词向量,表示向量拼接操作。
在一个实施例中,将语义信息输入特征关联图神经网络,经过神经网络的处 理,预测区间为实体区间的概率。实体区间的概率用来确定哪些区间是实体区 间。
在一个具体实施例中,根据设置的阈值来决定一个区间是否是实体区间。具体 地,当大于阈值时,区间被判定为实体区间。这意味着该区间被模型认为包含了一 个实体。
在一个实施例中,特征关联图神经网络的算法框图如附图4所示。
在一个实施例中,首先将语义信息特征送入全连接神经网络中学习得到各个特征值的注意力系数,选取前K个注意力系数值较大的特征值作为关键特征值;其次,再以关键特征值作为节点构建图神经网络,同时利用注意力系数构建邻接矩阵,通过图神经网络进行特征之间的交互,得到更新后的特征,也即,特征提取后的特征。
在一个具体实施例中,在节点生成模块,设输入特征为:
其中,分别表示特征维数和特征值数,经全连接神经网络处理,得到每个特征 值的权重系数,可以表示为:
且全连接神经网络的处理方式可以表示为:
其中,为权值,为偏置,为输入特征。
进一步地,将权重系数使用softmax函数归一化后得到注意力系数,可以表示为:
其中,为注意力系数,为第个的权重系数,为求和函数,exp()为指数函数。
进一步地,选取前个最大注意力系数,记为,并记录对应的特征值 的索引值,根据索引值得到对应特征值。这个特征值由于具有 较大注意力系数,更多地得到模型的关注,故,视为关键特征值。
进一步地,将具有前个特征的数据输入到特征交互模块,以关键特征值为节点构 建图神经网络,并在图神经网络中引入特征关联机制,通过特征关联图神经网络(Feature- Associative Graph Neural Network,FAGNN)实现节点特征的信息交互。
在一个具体实施例中,设构建的图神经网络为,其中,节点表示关键特征值,即每个关键特征值与一个节点相关联。是一 个大小为的邻接矩阵,其元素为,且表示已知特征值'的条件下特征值的出 现概率,其计算公式如下:
其中,为第个关键特征值的注意力系数,为第个关键特征值的注意力系 数。
在一个实施例中,采用特征关联循环更新机制通过图传递信息,并学习上下文的关联特征。
在一个具体实施例中,对于每个节点,假设其在时刻的隐状态为,首先用 关键特征值特征初始化时的隐状态,可以表示为:
时刻,使用特征关联循环更新机制,图中的每个节点从它的邻居聚集消息,可 以表示为:
进一步地,基于聚合特征向量和上一个时间步,每个节点通过特征关联机制 更新其隐状态,可以表示为:
其中,表示sigmoid函数,是双曲正切函数,代表元素乘法运算,表 示更新门,更新门的作用是帮助模型决定上一次迭代的信息有多少需要被传递到下一次迭 代,表示重置门,重置门的作用是帮助模型决定多少上一次迭代的信息需要被忘记,表 示候选隐藏状态,候选隐藏状态是把上一次迭代的信息和下一次迭代的信息融合,经过双 曲正切函数进行特征的映射,表示最后要计算的节点k的隐状态,是待学习的网络参数。
当特征与特征高度相关时,图神经网络将会在两者之间进行信息传递,反之 则抑制信息传递。上述特征更新迭代次,生成最终的隐状态。也即,组成特 征提取模块的输出,其不仅编码了特征的信息,还融合了特征序列的上下文信息。最后, 通过Softmax分类器实现实体区间的分类。
在一个实施例中,如果模型预测某个区间为0.8,而设置的阈值为0.5, 那么模型会认为该区间是一个实体区间,因为。一旦确定了哪些区间是实体区间, 根据实体区间的开始和结束位置来获取实体区间词向量。在本发明中,这些位置由表示,分别表示实体区间在原句子中的起始位置和结束位置。
S104:基于所述实体区间词向量得到“实体-关系-实体”三元组;
在一个实施例中,基于实体区间词向量得到“实体-关系-实体”三元组,方法包括:用命名实体识别模型来识别所述实体区间词向量的实体类型,然后利用深度学习模型或机器学习模型来识别所述实体区间词向量之间的关系。
在一个实施例中,基于实体区间词向量得到的“实体-关系-实体”三元组,方法包括:使用多任务联合学习框架同时进行实体类型识别和关系抽取,所述多任务联合学习框架包括共享层和任务特定层,所述实体区间词向量输入共享层提取特征,所述特征输入任务特定层训练后输出结果,在所述任务特定层定义实体类型识别任务和关系抽取任务各自的损失函数,所述任务特定层联合两个任务的所述损失函数作为训练的总损失函数,通过优化所述总损失函数来优化模型参数,所述任务特定层输出实体类型识别和关系抽取的结果得到所述“实体-关系-实体”三元组。
所述实体类型识别和关系抽取的输入还包括下列信息中的一种或几种:实体区间关系权重、实体类型互信息、实体区间词向量自适应长度、实体区间词向量上下文加权向量。
在一个实施例中,为识别得到的实体区间赋予区间关系权重,用于评估两个实体区间之间关系的显著性,以区分更重要的关系和次要的或随机的关系。
在一个具体实施例中,令为区间之间的关系权重,其基于区间间的语义相 似度和距离来计算,可以表示为:
其中,的语义相似度,是区间在文本中的词元距离, 是调节两个因素重要性的参数。
在一个实施例中,定义实体类型间的互信息,以捕捉不同实体类型之间的依赖关系。
在一个具体实施例中,令为两个实体类型之间的互信息,计算如下:
其中,是同时观察到实体类型的联合概率,是各自实体类型 的边缘概率。
在一个实施例中,根据区间长度动态调整编码策略。
在一个具体实施例中,对于区间的长度编码,使用一个自适应函数,该函数 根据区间长度调整编码向量的分布,可以表示为:
其中,是训练参数。softmax函数确保编码向量的元素总和为1,表示不同长 度的概率分布。
在实体识别时,考虑到实体区间周围的上下文对于准确识别实体类型至关重要。
在一个实施例中,利用上下文加权机制以更有效地挖掘实体周围的信息。
在一个具体实施例中,对于每个实体区间,定义上下文加权向量如下:
其中,是上下文窗口大小,是调节参数,是句子中第个词元的特征向量,分别是实体区间的开始和结束位置。
在一个实施例中,构建了多任务联合学习框架,其中实体识别和关系抽取任务共享底层特征表示,但有各自独立的输出层。模型的总损失函数是两个子任务损失的加权和,可以表示为:
其中,分别是实体识别和关系抽取任务的损失。是用于平衡 两个任务重要性的权重参数。
在一个实施例中,所述多任务联合学习框架通过一个端到端的训练过程,同时优化实体识别和关系抽取任务。
在一个实施例中,使用多任务学习的策略,均为交叉熵损失。
在一个实施例中,为基于实体类型相似度的交叉熵损失,通过构建一个实体 类型的嵌入空间来实现,其中相似的实体类型在嵌入空间中更接近,可以表示为:
其中,分别是真实和预测实体类型的嵌入,是正则化项的权重。
在一个实施例中,为基于关系上下文的交叉熵损失,通过利用关系上下文的 嵌入,并计算预测的关系上下文嵌入与真实关系上下文嵌入之间的余弦相似度,可以 表示为:
其中,cont_emb和cont_emb分别是真实和预测关系上下文的嵌入,是正则 化项的权重,cos_sim()是余弦相似度计算函数。
在一个实施例中,基于命名实体识别的结果,进行关系抽取。基于命名实体识别的 结果,对于所有候选实体区间对,预测它们之间的关系类型。如果预测的关系类型为,则表示这两个实体区间之间没有任何关系。在关系抽取时,所有候选实体的区间对,S表示所有实体的集合,预测关系类型。若,则表 示之间不存在任何关系。该任务的输出如公式:
在一个实施例中,根据抽取得到的实体和关系,进行三元组构建,三元组构建是使 用识别出的实体和关系构建三元组。对于每对实体区间,以及它们之间的关系 ,构 建一个三元组
在一个实施例中,对于一条文本语句:“阿司匹林用于治疗头痛。”通过实体识别,识别出“阿司匹林”和“头痛”作为实体区间。进一步地,对实体进行类型识别,确定“阿司匹林”为药物实体,头痛为症状实体。进一步地,进行关系识别,识别“用于治疗”为两个实体之间的关系。进一步地,构建三元组,即,构建三元组为(阿司匹林,用于治疗,头痛)。
S105:将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。
在一个实施例中,将所有的三元组作为生成式大模型的训练数据,对生成式大模型进行训练。
在一个实施例中,所述生成式大模型为Transformer模型,在进行大模型训练时首先对三元组进行格式化,将三元组(实体1, 关系, 实体2)格式化为一个统一的格式。如,“(阿司匹林, 用于治疗, 头痛)”可以格式化为文本字符串:“阿司匹林 用于治疗 头痛”。进一步地,采用分词工具或word2vector方法将三元组中的每个元素分解成词元区间,以适应模型的输入要求。
在一个实施例中,将分词后的词元区间转换为词元区间词向量,这些词向量通过预训练的BERT模型(同前述)获得。同时,确定最大序列长度,并对所有输入序列进行填充或截断以匹配这个长度。
在一个实施例中,设置Transformer模型的参数,根据任务需求和硬件资源配置模型的参数。在模型训练时,使用交叉熵损失函数来训练生成式模型,优化器选择Adam优化器。具体的,交叉熵损失可以表示为:
其中,是目标词元的真实分布,是模型预测的分布,Ns是词汇表的大小,表 示交叉熵损失。
Adam优化过程可以表示为:
其中,更新前的大模型参数,是更新后的大模型参数,是损失函数的梯 度,是学习率,是Adam优化器的超参数。
模型训练完成后,将训练好的模型部署到实际应用中,如在医学领域的知识图谱的构建、问答系统、文本生成、辅助决策等场景中使用。
图2是本发明实施例提供的一种基于知识图谱的生成式大模型建模系统的示意流程图。
一种基于知识图谱的生成式大模型建模系统,包括:
获取模块201:用于获取文本数据集;
向量化表示模块202:用于对所述文本数据集向量化表示得到初级词向量,所述初级词向量包括词向量的区间;
实体区间判断模块203:用于对所述初级词向量进行实体区间判断得到实体区间词向量,所述实体区间判断的具体步骤包括:
第1步,所述初级词向量的语义信息输入全连接神经网络中学习得到所述语义信息的各个特征值的注意力系数;
第2步,以K个所述注意力系数对应的特征值作为关键特征值,K个所述注意力系数作为关键特征系数,以关键特征值作为节点,结合关键特征系数构成邻接矩阵构建图神经网络,K为自然数整数;
第3步,提取所述图神经网络的特征;
第4步,所述特征通过激活函数转换为概率分布并输出概率分布;
第5步,基于所述输出概率分布判断所述初级词向量是否是实体区间,如果是实体区间则输出实体区间词向量;
三元组构建模块204:用于基于所述实体区间词向量得到“实体-关系-实体”三元组;
训练模块205:用于将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。
图3是本发明实施例提供的一种基于知识图谱的生成式大模型建模设备的示意流程图。
一种基于知识图谱的生成式大模型建模设备,包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现任意一项所述的基于知识图谱的生成式大模型建模方法的任一步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任意一项所述的基于知识图谱的生成式大模型建模方法的任一步骤。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种基于知识图谱的生成式大模型建模方法,其特征在于,所述方法包括:
获取文本数据集;
对所述文本数据集向量化表示得到初级词向量;
对所述初级词向量进行实体区间判断得到实体区间词向量,所述实体区间判断的具体步骤包括:
第1步,所述初级词向量的语义信息输入全连接神经网络中学习得到所述语义信息的各个特征值的注意力系数;
第2步,以K个所述注意力系数对应的特征值作为关键特征值,K个所述注意力系数作为关键特征系数,以关键特征值作为节点,结合关键特征系数构成邻接矩阵构建图神经网络,K为自然数整数;
第3步,提取所述图神经网络的特征;
第4步,所述特征通过激活函数转换为概率分布并输出概率分布;
第5步,基于所述输出概率分布判断所述初级词向量是否是实体区间,如果是实体区间则输出实体区间词向量;
基于所述实体区间词向量得到“实体-关系-实体”三元组;
将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。
2.根据权利要求1所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述提取所述图神经网络的特征的步骤包括:
第1步,用所述关键特征值初始化所述图神经网络中t=0时刻所有节点的隐状态;
第2步,在任意t时刻,所述节点k的隐状态基于节点k的聚合特征向量和节点k在t-1时刻的隐状态更新,所述节点k的聚合特征向量根据节点k的所有邻居节点的t-1时刻的隐状态得到,其中k表示所有所述K个节点中的任意一个;
第3步,当所述节点k与其邻居节点k’高度相关时,所述图神经网络会在二者之间进行信息传递,反之则抑制信息传递;
重复第2步至第3步,直至达到停止条件后输出最终的节点隐状态作为提取后的特征,所述停止条件指损失函数收敛或达到预设的停止条件。
3.根据权利要求1所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述注意力系数的计算公式为:
其中,为注意力系数,/>为第/>个特征值的权重系数,/>为求和函数。
4.根据权利要求2所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述节点k的聚合特征向量的计算公式如下:
其中,表示节点k在t时刻的聚合特征向量,/>表示已知节点/>'的条件下节点/>的出现概率,/>表示已知节点/>的条件下节点/>'的出现概率,/>表示节点/>'在t-1时刻的隐状态。
5.根据权利要求2所述的基于知识图谱的生成式大模型建模方法,其特征在于,节点k的隐状态的计算公式如下:
其中,表示节点k在t时刻的聚合特征向量,/>表示节点k在t-1时刻的隐藏状态,/>表示sigmoid函数,/>是双曲正切函数,/>代表元素乘法运算,/>表示更新门,/>表示重置门,/>表示候选隐藏状态,/>表示最后要计算的节点k的隐状态,/>是待学习的网络参数。
6.根据权利要求1所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述“实体-关系-实体”三元组是基于实体区间词向量得到的,方法包括:用命名实体识别模型来识别所述实体区间词向量的实体类型,然后利用深度学习模型或机器学习模型来识别所述实体区间词向量之间的关系。
7.根据权利要求1所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述“实体-关系-实体”三元组是基于实体区间词向量得到的,方法包括:使用多任务联合学习框架同时进行实体类型识别和关系抽取,所述多任务联合学习框架包括共享层和任务特定层,所述实体区间词向量输入共享层提取特征,所述特征输入任务特定层训练后输出结果,在所述任务特定层定义实体类型识别任务和关系抽取任务各自的损失函数,所述任务特定层联合两个任务的所述损失函数作为训练的总损失函数,通过优化所述总损失函数来优化模型参数,所述任务特定层输出实体类型识别和关系抽取的结果得到所述“实体-关系-实体”三元组。
8.根据权利要求1所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述向量化表示方法包括下列方法中的一种或几种:词袋模型、TF-IDF、Word2Vec、GloVe、FastText、预训练的BERT。
9.根据权利要求8所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述预训练的BERT的关键组成部分包括:Transformer架构、双向上下文表示、以及预训练模块,所述文本数据集输入Transformer架构得到包含注意力信息的词向量,所述包含注意力信息的词向量输入所述上下文表示模块中通过MLM任务结合了上下文信息后输入所述预训练模块训练,所述预训练模块包括MLM任务和NSP任务,通过所述预训练得到语言的深层次特征后输出所述初级词向量。
10.根据权利要求1所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述生成式大模型包括下列模型中的一种或几种:Transformer、GPT、BERT、T5、XLNet、RoBERTa、ALBERT、DALL-E、WaveGAN、BigGAN、UniLM、CLIP。
11.根据权利要求1所述的基于知识图谱的生成式大模型建模方法,其特征在于,所述生成式大模型的训练步骤包括:
第1步,将所述三元组进行格式化得到文本字符串;
第2步,将所述文本字符串通过分词工具分解为词元区间;
第3步,将所述词元区间通过向量化表示转换为词向量,同时将所述词向量进行填充或截断以匹配最大序列长度得到格式化词向量;
第4步,初始化所述生成式大模型的参数,将所述格式化词向量输入所述生成式大模型,计算损失函数并根据损失函数选择优化器训练优化所述参数,直至所述损失函数收敛或达到预设的停止轮数。
12.一种基于知识图谱的生成式大模型建模系统,其特征在于,包括:
获取模块:用于获取文本数据集;
向量化表示模块:用于对所述文本数据集向量化表示得到初级词向量,所述初级词向量包括词向量的区间;
实体区间判断模块:用于对所述初级词向量进行实体区间判断得到实体区间词向量,所述实体区间判断的具体步骤包括:
第1步,所述初级词向量的语义信息输入全连接神经网络中学习得到所述语义信息的各个特征值的注意力系数;
第2步,以K个所述注意力系数对应的特征值作为关键特征值,K个所述注意力系数作为关键特征系数,以关键特征值作为节点,结合关键特征系数构成邻接矩阵构建图神经网络,K为自然数整数;
第3步,提取所述图神经网络的特征;
第4步,所述特征通过激活函数转换为概率分布并输出概率分布;
第5步,基于所述输出概率分布判断所述初级词向量是否是实体区间,如果是实体区间则输出实体区间词向量;
三元组构建模块:用于基于所述实体区间词向量得到“实体-关系-实体”三元组;
训练模块:用于将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。
13.一种基于知识图谱的生成式大模型建模设备,其特征在于,包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现权利要求1-11任意一项所述的基于知识图谱的生成式大模型建模方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11任意一项所述的基于知识图谱的生成式大模型建模方法。
CN202410139094.4A 2024-02-01 2024-02-01 基于知识图谱的生成式大模型建模方法、系统及设备 Active CN117688974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410139094.4A CN117688974B (zh) 2024-02-01 2024-02-01 基于知识图谱的生成式大模型建模方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410139094.4A CN117688974B (zh) 2024-02-01 2024-02-01 基于知识图谱的生成式大模型建模方法、系统及设备

Publications (2)

Publication Number Publication Date
CN117688974A true CN117688974A (zh) 2024-03-12
CN117688974B CN117688974B (zh) 2024-04-26

Family

ID=90133749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410139094.4A Active CN117688974B (zh) 2024-02-01 2024-02-01 基于知识图谱的生成式大模型建模方法、系统及设备

Country Status (1)

Country Link
CN (1) CN117688974B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
CN112818690A (zh) * 2021-01-22 2021-05-18 润联软件系统(深圳)有限公司 结合知识图谱实体信息的语义识别方法、装置及相关设备
CN113220844A (zh) * 2021-05-25 2021-08-06 广西师范大学 基于实体特征的远程监督关系抽取方法
CN113569572A (zh) * 2021-02-09 2021-10-29 腾讯科技(深圳)有限公司 文本实体生成方法、模型训练方法及装置
CN114239585A (zh) * 2021-12-17 2022-03-25 安徽理工大学 一种生物医学嵌套命名实体识别方法
CN114328756A (zh) * 2021-12-20 2022-04-12 郑州信大先进技术研究院 一种武器实体关系图谱构建方法、装置及计算设备
CN114781375A (zh) * 2022-05-19 2022-07-22 中国电子科技集团公司第二十八研究所 一种基于bert与注意力机制的军事装备关系抽取方法
CN115186666A (zh) * 2022-07-06 2022-10-14 抖音视界(北京)有限公司 一种命名实体识别方法、装置、电子设备及存储介质
CN115374270A (zh) * 2021-12-21 2022-11-22 一拓通信集团股份有限公司 一种基于图神经网络的法律文本摘要生成方法
CN115525739A (zh) * 2022-10-08 2022-12-27 招商局通商融资租赁有限公司 供应链金融智能查重方法、装置、设备及介质
WO2023065858A1 (zh) * 2021-10-19 2023-04-27 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
CN112818690A (zh) * 2021-01-22 2021-05-18 润联软件系统(深圳)有限公司 结合知识图谱实体信息的语义识别方法、装置及相关设备
CN113569572A (zh) * 2021-02-09 2021-10-29 腾讯科技(深圳)有限公司 文本实体生成方法、模型训练方法及装置
CN113220844A (zh) * 2021-05-25 2021-08-06 广西师范大学 基于实体特征的远程监督关系抽取方法
WO2023065858A1 (zh) * 2021-10-19 2023-04-27 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN114239585A (zh) * 2021-12-17 2022-03-25 安徽理工大学 一种生物医学嵌套命名实体识别方法
CN114328756A (zh) * 2021-12-20 2022-04-12 郑州信大先进技术研究院 一种武器实体关系图谱构建方法、装置及计算设备
CN115374270A (zh) * 2021-12-21 2022-11-22 一拓通信集团股份有限公司 一种基于图神经网络的法律文本摘要生成方法
CN114781375A (zh) * 2022-05-19 2022-07-22 中国电子科技集团公司第二十八研究所 一种基于bert与注意力机制的军事装备关系抽取方法
CN115186666A (zh) * 2022-07-06 2022-10-14 抖音视界(北京)有限公司 一种命名实体识别方法、装置、电子设备及存储介质
CN115525739A (zh) * 2022-10-08 2022-12-27 招商局通商融资租赁有限公司 供应链金融智能查重方法、装置、设备及介质

Also Published As

Publication number Publication date
CN117688974B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN108733792B (zh) 一种实体关系抽取方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
US20210034813A1 (en) Neural network model with evidence extraction
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN110032739A (zh) 中文电子病历命名实体抽取方法及系统
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
Chen et al. Binarized neural architecture search for efficient object recognition
CN110428907A (zh) 一种基于非结构化电子病历的文本挖掘方法及系统
JP2022530868A (ja) 機械学習に基づくターゲットオブジェクト属性予測方法、関連機器及びコンピュータプログラム
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Zhang et al. Type-aware medical visual question answering
Chen et al. Breast cancer classification with electronic medical records using hierarchical attention bidirectional networks
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
Zhang et al. Multi-head self-attention gated-dilated convolutional neural network for word sense disambiguation
CN115936014B (zh) 一种医学实体对码方法、系统、计算机设备、存储介质
CN116629361A (zh) 基于本体学习和注意力机制的知识推理方法
CN117688974B (zh) 基于知识图谱的生成式大模型建模方法、系统及设备
Sekiyama et al. Automated proof synthesis for propositional logic with deep neural networks
WO2023137918A1 (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法
Fan et al. Large margin nearest neighbor embedding for knowledge representation
CN114139531A (zh) 一种基于深度学习的医疗实体预测方法及系统
Li et al. Supervised classification of plant image based on attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant