CN116598014A

CN116598014A - 基于图注意力机制和语言大模型的医疗缺失数据补全方法

Info

Publication number: CN116598014A
Application number: CN202310628220.8A
Authority: CN
Inventors: 乔静阳; 张志忠; 谢源
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-15

Abstract

本发明提供了一种基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特点是该方法包括：数据集预处理、图注意力网络的训练；提取注意力矩阵作为图中各边权重；强相关节点的筛选；遍历整个数据集，当发现有缺失值时，先判断其所属特征，再将其强相关特征名称及特征值，作为文本提示信息输入预训练BERT语言大模型中，获得模型输出后，对输出进行加权平均，获得最终插值结果，完成缺失值插补。本发明与现有技术相比能够更加快速准确的实现缺失数据补全的功能，通过图注意力网络能够充分挖掘特征之间的相关程度，基于BERT模型强大的拟合能力，有助于更好的建模隐层特征空间，获得更准确的预测效果，方法简便，使用效果好，具有良好的应用前景和商业价值。

Description

基于图注意力机制和语言大模型的医疗缺失数据补全方法

技术领域

本发明涉及数据处理技术领域，尤其是一种基于图注意力机制和语言大模型的老年慢病诊断缺失数据的插补方法。

背景技术

老年慢病作为老年人常发性疾病而备受关注，有研究指出，及时回访和采集数据，并进行合理的挖掘和分析，能够揭露背后隐藏的信息，有助于医生对老年慢病做出有效的临床预警，从而降低其致死率。然而由于其发病周期较长，且随着回访次数的不断累加，容易导致一些诊断数据(如：生理指标，用药情况等)的记录丢失。因此，如何补全诊断数据中的缺失值是医学领域的一个重要研究方向。

为了解决上述难题，一些基于统计学特征的方法被提出，如：平均数、中位数、众数等统计特征值通常被研究人员用于缺失值的插补。然而，由于这些缺失值插补方法过于简单直接，且不考虑病人的总体特征结构，导致不同病人的同一缺失特征往往被相同值所替代，严重破坏数据的分布，从而影响医生做出准确的临床预警。

此外，一些基于传统机器学习的方法也被用于缺失数据插补中，如基于线性插值和多重迭代插值的插值法，基于聚类的插值法，以及基于随机森林的插值法，这些插值法的出现缩小了插值数据与真实数据之间的分布差距，使得插值数据能够更好的拟合真实数据。然而，由于传统机器学习算法对特征隐性空间的建模能力较差，使得插值数据与真实数据之间依然存在不少的出入。

随着深度学习的兴起，基于神经网络的数据插值方法开始出现。有研究人员使用生成对抗网络(Generative Adversarial Nets,GANs)生成缺失数据，并指出其方法面对的主要挑战是数据的类别属性。基于GAN的缺失数据生成方案需要利用强化学习算法学习类别标签和真实潜在特征空间之间的双向映射。然而，由于GAN在训练过程中的极不稳定性，导致损失函数很难收敛到纳什均衡状态，使得该方法无法得到大规模推广。还有研究人员基于图神经网络(Graph Neural Network,GNN)，将不同特征建模为图中的不同节点，通过节点之间的正向传播，预测各个节点中存在的缺失值。但由于节点之间为无权边，因此在预测结果时，每个参与预测的节点对最终结果的贡献相同。但实际上，不同节点应该根据与预测特征的相关性而具有不同的贡献。因此，普通GNN并不具备较好的插值效果。此外，还有研究人员针对时间依赖的数据，利用长短时间记忆网络(Long Short Time Memory Network,LSTM)来预测缺失值，但实际上，依然存在许多特征是与时间信息无关的。

综上所述，现有的研究算法都存在各种各样的缺陷，不具有代表性和普适性。此外，老年慢病诊断缺失数据插值方法的准确性仍然有待提高。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于图注意力机制和语言大模型的医疗缺失数据补全方法，采用训练样本对无向完全图注意力网络进行训练，提取图注意力网络中的注意力矩阵作为图中各边权重，按照权重大小筛选出各节点的强相关节点，遍历整个数据集，当发现有缺失值时，先判断其所属特征，再将其强相关特征名称及特征值作为文本提示信息输入预训练BERT语言大模型中，获得模型输出后，再对输出进行加权平均，获得最终插值结果，完成缺失值插补。方法简便，能够利用电子病历中的部分非缺失数据推断出缺失数据，从而补全诊断信息，实现快速准确的缺失数据补全，通过图注意力网络能够充分挖掘特征之间的相关程度，基于BERT模型强大的拟合能力，有助于更好的建模隐层特征空间，获得更准确的预测效果，方法简便，使用效果好，具有良好的应用前景和商业价值。

本发明的目的是这样实现的：一种基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特点是该方法采用下述三方面的技术方案进行医疗缺失数据补全的：

第一方面，为了确立有效的插补策略，需要对整个电子病历进行数据预处理，其主要包括：

1-1：将含有缺失数据的电子病历按照每例病人信息中是否存在缺失进行筛选，将不存在缺失数据的病人信息分在一起，将存在缺失数据的病人信息分在一起。此后，将不存在缺失的数据用于图神经网络的训练和测试，存在缺失的数据用BERT语言大模型进行插补。

1-2：对不存在缺失的数据进行数据集划分，确定训练集、验证集和测试集。

1-3：对不存在缺失的数据中的特征进行批标准化的操作，初始化邻接矩阵进行批标准化操作，使用one-hot编码形式编码标签。

1-4：将存在缺失的数据按照每例病人信息中缺失值的数量由小到大进行排列，便于推理时能够更加快速的完成插补任务。

第二方面，针对于利用哪些数据来推断当前缺失数据的问题，本发明将其归结为挖掘诊断数据中不同特征之间的相关性问题。为了度量不同特征之间的相关性，本发明采用了一种基于图注意力网络的方法来建模特征之间的隐函数空间，并挖掘特征之间的隐藏联系，该方法具体包括：

2-1：网络输入由特征矩阵，邻接矩阵组成，特征矩阵的每一行代表图中的一个节点信息，邻接矩阵则代表节点与节点之间的连接性。两者皆为Pytorch张量格式。

2-2：特征矩阵由不含缺失值的病人信息组成，其行内容是特征，列内容是病人ID。邻接矩阵则是一个所有元素全为1的方阵，其维度大小为特征数量×特征数量，代表一张所有节点之间均有边的完全图。

2-3：本发明使用图注意力神经网络包含多头注意力机制，多个注意力头的计算结果共同决定最后的预测值，每个节点通过加权求和的方式根据相邻节点特征更新自身特征，引入注意力机制相当于给每个边赋予了不同的权值，而边的权值的实际含义是节点之间的关联程度，权值越大，关联越紧密。

2-4：在图注意力神经网络训练收敛后，将各注意力头中的注意力矩阵进行提取，再通过加权平均的形式进行融合，得到最后的注意力矩阵，并通过该矩阵进一步获取节点间的相关程度。

2-5：将注意力矩阵中的每一行按照从大到小进行排序，获得其排序后的前k个索引值，相当于获悉与当前行(当前特征)相关程度最大的k个其他特征，并将结果以字典形式保存到.json文件中，字典的键是当前特征索引，字典的值是一个列表，其中是k个其他特征的索引。

第三方面，为了进一步根据相关特征预测当前缺失特征，本发明利用泛化能力强，可直接用于zero-shot learning的预训练BERT大语言模型，创建了一套用于预测老年慢病诊断缺失数据的方法，具体包括：

3-1：创立一套可用于预训练BERT语言大模型的加载以及数据输入输出的pipeline，确定文本提示语句格式。

3-2：遍历有缺失数据的电子病历，若发现有缺失值，首先查找其所属特征，并进一步获取其所属特征的索引值。

3-3：在得到索引值之后，从.json文件中读取相关特征字典，根据索引值找到缺失值所属特征的相关特征。从同一位病人的电子病历中读取前m个特征值没有缺失的相关特征及其特征值。

3-4：根据所得相关特征及其特征值，按照之前约定好的文本提示语句格式进行填充，最后加入缺失值所属特征，并留下[MASK]标记，作为网络预测的线索。

3-5：获取网络预测值后，按照置信度的大小进行排列，取前n个置信度较大的预测值及其置信度，将上述置信度进行softmax处理后作为权重，对预测值进行加权平均处理，得到最终插补结果。

3-6：将最终插补结果填入至原缺失值位置，按照上述步骤遍历完整个电子病历，并将填补后的内容保存成.csv文件。

本发明与现有技术相比具有方法简便，能够利用电子病历中的部分非缺失数据推断出缺失数据，从而补全诊断信息，实现快速准确的缺失数据补全，通过图注意力网络能够充分挖掘特征之间的相关程度，基于BERT模型强大的拟合能力，有助于更好的建模隐层特征空间，获得更准确的预测效果，方法简便，使用效果好，具有良好的应用前景和商业价值。

附图说明

图1为本发明流程示意图；

图2为数据预处理流程图；

图3为无向完全图神经网络结构框图；

图4为注意力矩阵提取并保存流程图；

图5为注意力矩阵使用流程图；

图6为BERT模型输入/输出pipeline及获取插补结果框图。

具体实施方式

通过以下具体实施为例对本发明作进一步的详细说明。

实施例1

参阅图1，根据本发明优选实施例的老年慢病诊断缺失数据的插补具体包括下述步骤：

步骤1：从原始数据中分别收集完整病人数据和有缺失病人数据，其中，原始数据的来源是病人的电子病历，其处理过程如下：

步骤1.1：获取原始电子病历，并对原始数据进行数据划分以及数据预处理

步骤1.2：建立图注意力网络，根据预处理得到的训练集和测试集对网络进行训练以及测试；

步骤1.3：获取训练完成后的注意力矩阵，进行加权平均后，将结果进行保存；

步骤1.4：读取注意力矩阵保存文件，恢复矩阵后，根据指定的k值，记录每个特征的k个最相关特征；

步骤1.5：建立BERT语言大模型的输入输出pipeline，设定固定的prompt提示语句格式；

步骤1.6：遍历有缺失的数据，遇到缺失值时，利用最相关特征及其特征值填充prompt提示语句，引导BERT大模型给出正确的预测值，加权平均后得到最终插补结果。

步骤2：对完整病人数据分为特征和标签两部分，去掉和标签预测无关的特征，并保存为Pytorch张量格式，其中行代表每位病人，列代表其电子病历信息中各项生理指标和诊断信息。

参阅图2，所述数据预处理过程具体包括：

步骤2.1：获取原始电子病历，并对原始数据进行数据划分，区分完整数据和有缺失数据；

步骤2.2：电子病历主体为表格形式，其行代表病人的ID，列代表病人的特征，包括生理体征和用药情况，诊断数据出现缺失的原因包括在漫长的回访期间，记录未能及时统计而造成不慎丢失或是一些特征忘记统计等；

步骤2.3：对完整数据进行数据预处理，划分训练集和测试集，并对特征矩阵和邻接矩阵进行标准化处理，特征矩阵是完整的电子病历数据所组成矩阵的转置，即其行代表病人的特征，列代表病人的ID；邻接矩阵则是从所有节点都相互连接的无向完全图中获得；为方便计算反向传播Loss，需要对标签进行one-hot编码。

步骤3：将各项特征作为节点，构建无向完全图神经网络，引入注意力机制，利用注意力矩阵作为各边的权值，衡量相邻节点的特征相关度；所述注意力矩阵的输入是以行代表特征，列代表病人，输出信息是特征种类的置信度，并以特征种类为标签。

参阅图3，所述无向完全图神经网络结构具体包括：

步骤3.1：无向完全图神经网络的输入共分为三个部分，分别是：特征矩阵，邻接矩阵和one-hot标签；

步骤3.2：每个节点代表一个特征，特征矩阵进行全1初始化，代表每个节点都与其他节点存在一条边，即该图为完全图；

步骤3.3：采用多头注意力机制，设置注意力头的个数为8，隐藏层单元数为8；

步骤3.4：采用不含softmax的CE损失函数作为损失函数，如下述(c)式所示：

其中，y_k表示预测值，表示真实值。

步骤3.5：初始训练学习率为0.005，学习率衰减系数为0.0005，优化器为Adam，训练世代数为100。

步骤4：将完整病人数据划分成训练集、验证集和测试集，训练和测试图注意力神经网络模型，训练结束后提取注意力矩阵，并将其保存成.npy文件。

参阅图4～图5，所述注意力矩阵的处理过程如下：

步骤4.1：训练完成后，从每个多头注意力机制中都提取出一个注意力矩阵；

步骤4.2：基于假设：不同的注意力头关注到的信息不同，将上述8个注意力矩阵进行加权平均；

步骤4.3：利用np.save()函数将加权平均后的注意力矩阵保存成.npy文件便于后续处理。

步骤5：分别加载.npy文件中的每一行信息，将每一行中的特征相关度按由大到小进行排序，保留特征相关度较大的k个值，找到它们对应的特征，并保存至.json文件中，具体步骤如下：

步骤5.1：利用np.load()函数加载注意力矩阵；

步骤5.2：初始化一个字典数据，按行遍历注意力矩阵，将每行的索引值作为键，利用np.argsort()函数由大到小排列每行的特征相关系数，并返回其索引值，将前m个索引值保存为列表形式，并作为值，连同上述键组成键值对，一同保存在字典中；

步骤5.3：创立并打开一个.json文件，将上述字典保存到.json文件中。

步骤6：调用预训练的BERT模型，设置完成数据输入输出的pipeline以及prompt语句格式。

步骤7：开始遍历有缺失病人数据，当发现有缺失值时，确定其所属特征，并从.json文件中获取和其特征最为相关的k个特征，然后从同一位病人的电子病历中读取非空缺的对应特征值，利用特征+特征值组成文本提示语句输入至BERT模型中，将获得的模型预测结果加权平均，得到最终的插补结果。

参阅图6，利用BERT语言大模型预测缺失值过程如下：

步骤6.1：下载基于电子病历数据集MIMICⅢ进行预训练的Clinical_BERT模型，并导入模型；

步骤6.2：设置好prompt提示语句格式，并完成BERT模型输入输出pipeline，同时加载.json文件中的字典；

步骤6.3：遍历有缺失值数据，当遍历到缺失值时，首先寻找其所属特征，在获取到所属特征后，从字典中查询其相关度最高的前m个特征；

步骤6.4：将上述m个特征名称及其对应的特征值依次填入到prompt提示语句的相应位置，同时填入所属特征的特征名称及以[MASK]为代表的特征值；

步骤6.5：对prompt语句进行token编码，将编码后的token输入到BERT模型中；

步骤6.6：获取BERT模型预测结果，从中取前n个置信度最高的预测值及其置信度；

步骤6.7：计算上述置信度对应的softmax值作为预测值的权重，加权平均预测值作为最终插补结果；

步骤6.8：将输出结果插补到原先缺失值位置，继续遍历过程；

步骤6.9：当所有缺失值数据被遍历完全后，整个插补流程结束。此时，有缺失数据已经变为完整数据；

步骤6.10：将完整数据和经过插补后的缺失数据重新拼接在一起，完成电子病历的缺失值插补工作。

实现本发明实施例中的全部或部分流程，是通过计算机软件编程调度相关硬件完成的，计算机软件程序可作为一种实体存储在一个计算机可读存储介质中，该介质可以为任意可携带计算机软件程序或代码的实体设备，包括但不限于：U盘、移动硬盘、磁盘、光盘等。本发明能够有效解决老年慢病诊断缺失数据补全问题，能够利用电子病历中已有数据，预测出缺失数据，从而补充完整电子病历，为之后老年慢病的预警提供更优质的数据。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特征在于，该补全方法具体包括以下步骤：

步骤1：从原始数据中分别收集完整病人数据和有缺失病人数据，其中，原始数据的来源是病人的电子病历；

步骤2：对完整病人数据分为特征和标签两部分，去掉和标签预测无关的特征，并保存为Pytorch张量格式，其中行代表每位病人，列代表其电子病历信息中各项生理指标和诊断信息；

步骤3：将各项特征作为节点，构建无向完全图神经网络，引入注意力机制，利用注意力矩阵作为各边的权值，衡量相邻节点的特征相关度；所述注意力矩阵的输入是以行代表特征，列代表病人，输出信息是特征种类的置信度，并以特征种类为标签；

步骤4：将完整病人数据划分成训练集、验证集和测试集，训练和测试图注意力神经网络，训练结束后提取其中的注意力矩阵，并将其保存成.npy文件；

步骤5：分别加载.npy文件中的每一行信息，将每一行中的特征相关度按由大到小进行排序，保留特征相关度较大的k个值，找到它们对应的特征，并保存至.json文件中；

步骤6：调用预训练的BERT模型，设置完成数据输入输出的pipeline以及prompt语句格式；

步骤7：开始遍历有缺失病人数据，当发现有缺失值时，确定其所属特征，并从.json文件中获取和其特征最为相关的k个特征，然后从同一位病人的电子病历中读取非空缺的对应特征值，利用特征+特征值组成文本提示语句，并输入至BERT模型中，将获得的模型预测结果加权平均，得到最终的插补结果。

2.根据权利要求1所述的基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特征在于，所述步骤3基于图注意力网络的计算特征相关度构建的图神经网络结构上属于无向完全图，节点代表各项特征，引入多头注意力机制，利用加权平均后得到的注意力矩阵作为无向边权重，节点值采用下述(a)式进行更新：

其中，h^’ _i表示第i个节点更新后的特征；α_ij表示第i个节点和第j个节点之间的注意力系数；W表示邻接矩阵；h_j表示第j个节点特征；σ为下述(b)式表示的Leaky-ReLU激活函数：

其中，x为输入特征；α为衰减系数，其取值范围为：α∈(0,1)。

3.根据权利要求1所述的基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特征在于，所述步骤4图注意力神经网络训练时采用下述(c)式不含softmax处理的交叉熵损失函数进行反向传播和梯度更新：

其中，y_k表示预测值；表示真实值；

训练完成后将各注意力头中的注意力矩阵取出，按下述(d)式进行加权平均：

其中，α_ij为第i个节点和第j个节点的加权平均注意力值；w_k第k个注意力头的注意力矩阵权重；α_kij为第k个注意力矩阵中第i个节点和第j个节点的注意力值。

4.根据权利要求1、权利要求2或权利要求3所述的基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特征在于，所述注意力矩阵获得与当前预测值所属特征最相关的k个特征，从中去掉特征值缺失的特征后，基于以上信息组成文本提示语句输入至预训练BERT中进行预测，获取预测结果后，只保留前n个置信度较高的预测结果，并去掉不是数字形式的预测结果，最后根据预测值对应的置信度进行加权平均，获得由下述(e)式所示的最终插补值：

其中，pred为最终插补值；β_n为第n个预测值的置信度；pred_n表示第n个预测值。