CN114860952A

CN114860952A - 一种基于数据统计和知识指导的图拓扑学习方法及系统

Info

Publication number: CN114860952A
Application number: CN202210464244.XA
Authority: CN
Inventors: 王华珍; 陈坚; 刘晓聪; 何霆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-05

Abstract

本发明公开一种基于数据统计和知识指导的图拓扑学习方法及系统，能在有监督下游任务下从文本数据中学习到图拓扑，方法包括：输入文本数据，获取文本数据中的实体作为图拓扑的节点，根据历史文本数据计算节点间的条件概率，构建初始图拓扑的邻接矩阵。其次，基于领域知识图谱构建出每份文本数据的知识注意网络。最后，将初始图拓扑的邻接矩阵输入到DK_Transformer(Data and Knowledge drivenTransformer)模型中，并以知识注意网络为专家知识，联合注意力机制来学习出适应下游任务的图拓扑。本方面能有效解决现有基于文本数据的图拓扑构建方法仅考虑数据统计信息、未充分利用知识和无法适应下游任务等问题。

Description

一种基于数据统计和知识指导的图拓扑学习方法及系统

技术领域

本发明涉及自然语言处理与图深度学习领域，特别是指一种基于数据统计和知识指导的图拓扑学习方法及系统。

背景技术

图模型因其强大的数据融合、分析和推理能力成为近年来的热点研究。从实际场景数据中获取符合现实世界的图数据是图模型研究的前提。图拓扑可传达关于实际场景数据的重要洞察，其向量表示可提高各种下游任务的性能。但通过对基于文本数据的图拓扑构建研究的综合分析，发现现有方法的共性缺陷，一是现有方法仅根据数据统计信息或根据依存句法分析来构建出图拓扑，没有充分利用该领域积累的丰富知识；二是构建的图拓扑一般是预定义的静态图，无法适应下游任务。因此，如何对实际场景的文本数据进行图拓扑学习，得到适应于下游任务的图拓扑是研究的重点。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于数据统计和知识指导的图拓扑学习方法及系统，实现在有监督下游任务下从文本数据中学习到符合需求的图拓扑。

本发明采用如下技术方案：

一方面，一种基于数据统计和知识指导的图拓扑学习方法，其特征在于，包括如下步骤：

步骤1、接收输入的文本数据，获取文本数据中的实体作为图拓扑的节点，根据历史文本数据计算节点间的条件概率，构建初始图拓扑的邻接矩阵；

步骤2、基于领域知识图谱构建出每份文本数据的知识注意网络；

步骤3、将初始图拓扑的邻接矩阵输入到DK_Transformer模型中，并以知识注意网络为专家知识，联合注意力机制学习出适应下游任务的图拓扑。

优选的，所述步骤1具体包括：

步骤1.1、接收输入样本量为N的文本数据D＝{d₁,d₂,…,d_N}，获取每份文本数据d中的实体集合E＝{e₁,e₂,…,e_num}，将其作为对应图拓扑的节点集合V＝{v₁,v₂,…,v_|V|}，其中num为实体集合的个数，|V|为每个图拓扑的节点个数；若num＝|V|，则将全部实体作为图拓扑的节点；若num>|V|，则删除节点索引大于|V|的实体；若num<|V|，则将节点索引大于num而小于等于|V|的空节点用特殊编码填充；

步骤1.2、根据步骤1.1确定的图拓扑的节点集合V，基于所有文本数据D计算任意两个节点v_i和v_j(i,j＝1,2,..,|V|)的条件概率作为边权值a_ij，即v_j在v_i出现的条件下出现的概率p(v_j|v_i)，其计算公式为：

获得基于条件概率的邻接矩阵P，表示为：

步骤1.3、将步骤1.2得到的邻接矩阵P进行归一化得到归一化邻接矩阵

优选的，所述步骤2具体包括：

根据步骤1确定的图拓扑的节点集合V，从领域知识图谱中获取这些节点在该知识图谱中的连接关系，从而为每份文本数据d构建一个知识注意网络M，计算方法如下：

其中，u为v_i和v_j共同祖先的个数，l为v_i到v_j的路径条数。

优选的，所述步骤3具体包括：

步骤3.1、将步骤1确定的图拓扑的节点集合V进行向量嵌入，其中空节点的向量置0，得到图中节点的初始特征矩阵X⁽⁰⁾；

步骤3.2、将步骤1和步骤3.1的结果，即图拓扑的归一化邻接矩阵

和图中节点的初始特征矩阵X⁽⁰⁾输入到DK_Transformer模型的第一个block模块中进行学习；

步骤3.3、将步骤3.2的输出送入到DK_Transformer模型的n个block模块中，使用步骤2获得的知识注意网络M为专家知识，联合DK_Transformer模型的注意力矩阵S指导图拓扑学习，最终获得学习到的图拓扑的归一化邻接矩阵

当n＝1时，

当n>1时，

其中，softmax为归一化指数函数，

为DK_Transformer模型第n个block模块的注意力矩阵S；

和

分别表示DK_Transformer第n个block模块的Query向量和Key向量；

和

分别表示DK_Transformer第n个block模块中可学习的矩阵参数，X^(n-1)为第n-1个block模块中节点的特征矩阵；d是

列的维度；

步骤3.4、计算DK_Transformer模型在图拓扑学习的损失L_reg：

当n＝1时，

当n>1时，

其中，D_KL为KL散度，

矩阵为DK_Transformer第n个block模块输出的归一化邻接矩阵

的微调矩阵。即标记知识注意网络M中非零值的位置索引，并在归一化邻接矩阵

的对应位置中保留这些非零值，从而形成微调矩阵

步骤3.5、计算DK_Transformer模型下游任务的损失L_main：

其中，下游任务可为二分类任务，损失函数为二分类交叉熵，N为文本数据的总样本数，y_i是第i个文本数据的标签，

是第i个文本数据的预测结果；

步骤3.6、根据步骤3.4和步骤3.5的结果，综合计算DK_Transformer模型的总损失函数L：

其中，通过正则化系数λ来平衡下游任务的损失L_main和图拓扑学习的损失L_reg；

步骤3.7、最小化所述总损失函数L，更新网络参数直到达到最大迭代次数T，得到训练好的DK_Transformer模型；

步骤3.8、输入一条测试文本数据testd到训练好的DK_Transformer模型中，预测输出图拓扑的邻接矩阵

和下游任务的结果

另一方面，一种基于数据统计和知识指导的图拓扑学习系统，包括：

构建初始图拓扑的邻接矩阵模块，用于接收输入的文本数据，获取文本数据中的实体作为图拓扑的节点，根据历史文本数据计算节点间的条件概率，构建初始图拓扑的邻接矩阵；

构建知识注意网络模块，用于基于领域知识图谱构建出每份文本数据的知识注意网络；

图拓扑学习模块，用于将初始图拓扑的邻接矩阵输入到DK_Transformer模型中，并以知识注意网络为专家知识，联合注意力机制学习出适应下游任务的图拓扑。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明利用数据统计信息和领域知识指导可以从一份实际场景的文本数据中学习到一个对应的图拓扑，一方面，图拓扑可传达关于实际场景数据的重要洞察，清晰地反映数据的结构化关联信息；另一方面，利用图拓扑进行机器学习可以显著提升下游任务的预测性能。

附图说明

图1为本发明的基于数据统计和知识指导的图拓扑学习方法的流程图；

图2是本发明的基于数据统计和知识指导的图拓扑学习的研究框架图；

图3是本发明的DK_Transformer算法伪代码示意图；

图4是本发明的DK_Transformer模型框架图；

图5是本发明的图拓扑学习可视化示意图；

图6是本发明的基于数据统计和知识指导的图拓扑学习系统的结构框图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

参见图1和图2，本发明的基于数据统计和知识指导的图拓扑学习方法，包括以下步骤：

步骤3、将初始图拓扑的邻接矩阵输入到DK_Transformer模型中，并以知识注意网络为专家知识，联合注意力机制来学习出适应下游任务的图拓扑。

具体的，DK_Transformer算法伪代码示意图和DK_Transformer模型框架图分别参见图3和图4所示。

如下以儿科中文电子病历的疾病预测任务为例，目标是将从每份电子病历数据学习到一个符合需求的图拓扑，同时根据图拓扑预测患者是否被诊断为急性上呼吸道感染。这是一个二分类任务，在收集的样本量N＝144170条的电子病历数据集。采用结巴分词工具对电子病历文本进行分词，从分词后的结果中去除停用词等无医学意义的词后，将其作为图拓扑的节点。

所述步骤1具体包括：

步骤1.1、输入样本量为N＝144170的电子病历文本D＝{d₁,d₂,…,d₁₄₄₁₇₀}，获取每份电子病历文本d中的实体集合E＝{e₁,e₂,…,e_num}，将其作为对应图拓扑的节点集合V＝{v₁,v₂,…,v_|V|}，其中num为实体集合的个数，|V|为每个图拓扑的节点个数，这里|V|＝150。若num＝|V|，则将全部实体作为图拓扑的节点；若num>|V|，则删除节点索引大于|V|的实体；若num<|V|，则将节点索引大于num而小于等于|V|的空节点用特殊编码填充；

步骤1.2、根据步骤1.1确定的图拓扑的节点集合V，基于所有电子病历数据D计算任意两个节点v_i和v_j(i,j＝1,2,..,|V|)的条件概率作为边权值a_ij，即v_j在v_i出现的条件下出现的概率p(v_j|v_i)，其计算公式为：

获得基于条件概率的邻接矩阵P，表示为：

所述步骤2具体包括：

步骤2、根据步骤1确定的图拓扑的节点集合V，从医学知识图谱CMeKG中获取这些节点在该知识图谱中的连接关系，从而为每份电子病历d构建一个知识注意网络M，计算方法如下为：

其中，u为v_i和v_j共同祖先的个数，l为v_i到v_j的路径条数。

所述步骤3具体包括：

步骤3.1、将步骤1确定的图拓扑的节点集合V进行向量嵌入，其中空节点的向量置0，得到向量维度为128的节点初始特征矩阵X⁽⁰⁾；

和节点的初始特征矩阵X⁽⁰⁾输入到DK_Transformer模型的第一个block模块(不使用注意力矩阵)中进行学习；

步骤3.3、将步骤3.2的输出送入到DK_Transformer模型的n个block模块中(除第一个block模块外)，设置n＝4；同时使用步骤2获得的知识注意网络M为专家知识，联合DK_Transformer模型的注意力矩阵S指导图拓扑学习，最终获得学习到的图拓扑的归一化邻接矩阵

当n＝1时，

当n>1时，

其中，softmax为归一化指数函数，

为DK_Transformer模型第n个block模块的注意力矩阵S；

和

分别表示DK_Transformer第n个block模块的Query向量和Key向量；

和

列的维度；

步骤3.4、计算DK_Transformer模型在图拓扑学习的损失L_reg：

当n＝1时，

当n>1时，

其中，D_KL为KL散度，

矩阵为DK_Transformer第n个block模块输出的归一化邻接矩阵

的对应位置中保留这些非零值，从而形成微调矩阵

步骤3.5、计算DK_Transformer模型下游任务的损失L_main：

其中，下游任务为二分类的风险预测任务，损失函数为二分类交叉熵，N为电子病历的总样本数，y_i是第i个电子病历样本的所属类别，

是第i个电子病历样本的预测值。

其中，通过正则化系数λ来平衡下游任务的损失L_main和图拓扑学习的损失L_reg，这里λ＝0.1。

步骤3.7、最小化总损失函数L(公式7)，更新网络参数直到达到最大迭代次数T＝1000，得到训练好的DK_Transformer模型。实验中以8:1:1的比例将中文电子病历数据集随机划分为训练集、验证集和测试集。该模型在训练集上用Adam优化方法进行训练，学习速率设置为0.0001，dropout设置为0.5，minibatch设置为64；

步骤3.8、输入一条测试电子病历数据testd到训练好的DK_Transformer模型中，可预测输出图拓扑的邻接矩阵

和下游任务的结果

为了验证DK_Transformer模型的有效性，采用了三类基线模型：第一类是基于文本数据的CNN(Convolutional Neural Network)和LSTM(Long Short-Term Memory)非图算法，第二类是已有的基于图数据的图算法GCT(Graph Convolutional Transformer)和GCN(Graph Convolutional Network)，第三类是DK_Transformer消融实验所涉及的模型，包括Transformer、Transformer^(P,)、Transformer^(,M)。所有基线模型的详细说明如表1所示。DK_Transformer模型与基线模型的实验对比结果详见表2。并使用AUROC(Area Under theReceiver Operating Characteristic Curve)作为评价指标来评估模型的性能。

表1基线模型设置

表2模型在中文电子病历数据集疾病预测任务中的性能

另外，使用echar技术对图拓扑进行可视化，图5展示了一份中文电子病历数据(初步诊断为患有急性上呼吸道感染)在经过DK_Transformer模型的图拓扑学习后所得到的图拓扑。

至此，基于数据统计和知识指导的图拓扑学习方法全部结束。不难发现，本发明可将实际场景的文本数据中转换为结构化的图拓扑，并利用图拓扑进行机器学习有效提升了下游任务的性能。

参见图6所示，本发明一种基于数据统计和知识指导的图拓扑学习系统，包括：

构建初始图拓扑的邻接矩阵模块601，用于接收输入的文本数据，获取文本数据中的实体作为图拓扑的节点，根据历史文本数据计算节点间的条件概率，构建初始图拓扑的邻接矩阵；

构建知识注意网络模块602，用于基于领域知识图谱构建出每份文本数据的知识注意网络；

图拓扑学习模块603，用于将初始图拓扑的邻接矩阵输入到DK_Transformer模型中，并以知识注意网络为专家知识，联合注意力机制学习出适应下游任务的图拓扑。

一种基于数据统计和知识指导的图拓扑学习系统的具体实现同一种基于数据统计和知识指导的图拓扑学习方法，本实施例不再重复说明。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于数据统计和知识指导的图拓扑学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于数据统计和知识指导的图拓扑学习方法，其特征在于，所述步骤1具体包括：

步骤1.1、接收输入样本量为N的文本数据D＝{d₁，d₂，...，d_N}，获取每份文本数据d中的实体集合E＝{e₁，e₂，...，e_num}，将其作为对应图拓扑的节点集合V＝{v₁，v₂，...，v_|V|}，其中num为实体集合的个数，|V|为每个图拓扑的节点个数；若num＝|V|，则将全部实体作为图拓扑的节点；若num＞|V|，则删除节点索引大于|V|的实体；若num＜|V|，则将节点索引大于num而小于等于|V|的空节点用特殊编码填充；

步骤1.2、根据步骤1.1确定的图拓扑的节点集合V，基于所有文本数据D计算任意两个节点v_i和v_j(i，j＝1，2，..，|V|)的条件概率作为边权值a_ij，即v_j在v_i出现的条件下出现的概率p(v_j|v_i)，其计算公式为：