CN113656604B

CN113656604B - 基于异构图神经网络的医疗术语规范化系统及方法

Info

Publication number: CN113656604B
Application number: CN202111213727.4A
Authority: CN
Inventors: 李劲松; 杨宗峰; 辛然; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-02-22
Anticipated expiration: 2041-10-19
Also published as: JP2024500400A; CN113656604A; JP7432802B2; WO2023065858A1

Abstract

本发明公开了一种基于异构图神经网络的医疗术语规范化系统及方法，首先对各种类型的医疗术语构建关键的信息单元，实现医疗术语的结构化表示，并基于信息单元构建包含各种类型医疗术语的知识图谱。基于此知识图谱构建包含各种类型医疗术语的异构图神经网络，在异构图神经网络的训练过程中综合考虑图的临近节点分布和节点内容编码，用于进行医疗术语规范化。本发明能够充分利用同类医疗术语的信息单元互相之间关联与差异的知识，同时容纳各种类型的医疗术语，能够全面学习医疗领域的知识，并且能够方便地将新类型的医疗术语增加到系统中，减少了新类型医疗术语规范化的工作量。

Description

基于异构图神经网络的医疗术语规范化系统及方法

技术领域

本发明属于中文医学术语标准化及多中心医学信息平台技术领域，尤其涉及一种基于异构图神经网络的医疗术语规范化系统及方法。

背景技术

医疗信息化进程中一个重要的研究方向就是将更高性能的机器学习和人工智能技术应用于解决实际的临床问题。人工智能技术的一个优点是可以从海量数据中发现复杂的规律和特征，因此综合利用多家医疗机构的医疗数据进行分析挖掘和模型设计，进而为医疗研究、临床决策工作提供支持成为医疗信息化的必然趋势。而由于不同医疗机构采用的信息标准众多，并且经常会人为地产出半结构化和非结构化的数据，导致整合利用不同来源的医疗数据变得异常困难。医疗术语是组成医疗数据的基础要素，建立完善的医疗术语规范化体系可以将不同来源的医疗数据对齐到统一的标准和结构，进而为临床决策和医疗研究工作提供更大规模和更高质量的数据。医疗术语主要包括临床操作过程中产生的药物、医学检查、疾病等类型的术语。不同类型的医疗术语会包含特定的关键维度的信息，我们将其定义为医疗术语的信息单元。例如，药物术语“5%葡萄糖注射液（基）500毫升”包含如表1所示的信息单元：

表1 药物术语信息单元示例

检查术语“左手指正侧位_X”包含如表2所示的信息单元：

表2 检查术语信息单元示例

某些信息单元由其它更细粒度的信息单元组成，分别将其定义为一级信息单元和二级信息单元，例如表1中药物术语包含一级信息单元“药物成分”、“药物剂型”、“药物剂量”和“药物规格”，其中“药物规格”信息单元由二级信息单元“数值”（500）和“计量单位”（毫升）组成。给定一组医疗术语的信息单元即可确定一条完整的医疗术语。

在实际临床操作中由于各医疗机构采用的信息标准差异和医护人员个人习惯差异等原因，会产生大量不规范的医疗术语，主要表现为关键信息单元的冗余或缺失、表达方式不规范、数量单位不统一等问题，例如下列药物术语的含义完全相同，但是形式上差异较大：“左氧氟沙星片（可乐必妥）500毫克”和“可乐必妥 0.5g/片”。医疗术语规范化的目标就是识别出含义完全相同但字面形式不同的医疗术语，以便统一它们的表达方式，同时区分出含义不同的医疗术语，最终促进医疗数据整体的规范化。

传统的医疗术语规范化方法是针对某个单一类别的医疗术语，通过机器学习或人工校验的方法来理解每条医疗术语的含义，标注出语义相同的医疗术语。这样的方法将每条医疗术语作为一个整体，忽略了医疗术语内部固有的信息单元的结构，主要的缺点是：(1)无法有效地利用信息单元互相之间关联与差异的知识。同一条医疗术语的不同维度的信息单元之间的关联和差异会包含丰富的医疗领域知识，而现有的做法没有显式地对这些知识进行结构化表示和利用；(2)不同类型的医疗术语会包含相同或有关联的信息单元，而过去的医疗术语规范化工作都是针对单一类别的医疗术语分别开发独立的系统，这样做一方面工作量过大，另一方面也无法综合利用不同类型医疗术语的信息单元中的知识；(3)会将多余的信息纳入考虑范围。由于表达不规范等原因，大多数医疗术语除了关键的信息单元之外，还会包含一些多余的字符，这些字符与医疗术语整体的含义几乎没有关联，而且作为噪声会使医疗术语的含义产生偏差。

发明内容

本发明的目的在于针对目前医疗术语规范化方法的缺点，基于医疗术语自身的特性，提出一种基于异构图神经网络的医疗术语规范化系统及方法。本发明对所有医疗术语构建新型的基于信息单元的知识图谱，并在知识图谱的基础上通过改进的异构图神经网络进行医疗术语的规范化，有效利用医疗术语信息单元中的知识，获取更准确的医疗术语规范化结果。

本发明的目的是通过以下技术方案来实现的：本发明为了在医疗术语规范化的过程中充分利用医疗术语自身蕴含的医疗领域知识，首先对各种类型的医疗术语构建关键的信息单元，实现医疗术语的结构化表示，并基于信息单元构建包含各种类型医疗术语的知识图谱。基于此知识图谱构建包含各种类型医疗术语的异构图神经网络，在异构图神经网络的训练过程中综合考虑图的临近节点分布和节点内容编码，用于进行医疗术语规范化。通过这种方法，本发明能够充分利用同类医疗术语的信息单元互相之间关联与差异的知识，同时在系统中容纳各种类型的医疗术语，能够全面学习医疗领域的知识，并且能够方便地将新类型的医疗术语增加到系统中，减少了新类型医疗术语规范化的工作量。在对医疗术语提取信息单元的过程中会丢弃多余的字符和信息，避免引入过多的噪声和误差。

本发明一方面公开了一种基于异构图神经网络的医疗术语规范化系统，包括：

(1)信息单元构建模块：对每种类型的医疗术语定义关键的信息单元；所述信息单元包括一级信息单元和二级信息单元，以及两级信息单元之间的包含关系；利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元，构建信息单元库；

(2)医疗术语知识图谱模块：基于医疗术语和信息单元的关系，构建医疗术语知识图谱，知识图谱的节点包括医疗术语节点和信息单元节点，边为有向边，边包括两种关系：医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系，边的方向为从包含方指向被包含方；

(3)异构图神经网络模块：基于医疗术语知识图谱的临近节点分布和节点内容编码，训练异构图神经网络；所述临近节点为从一个节点出发，沿医疗术语知识图谱边的方向跳转两级经过的所有节点；所述节点内容编码具体为：

对于节点内容为数值型的节点，其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积；

对于节点内容为计量单位的节点，其内容编码的计算过程为：通过异构图神经网络训练得到每种基础单位和运算符号的语义向量，将该节点包含的所有基础单位和运算符号的语义向量拼接后，经过非线性转换得到内容编码；

对于节点内容为文本型的节点，其内容编码通过预训练的语言模型得到；

训练的第一个阶段：将临近节点分布和节点内容编码作为输入，训练的目标是最大化每个节点的临近节点对它的条件概率，得到每个节点的向量表示；

训练的第二个阶段：将节点的向量表示作为输入，计算任意两个医疗术语节点的相似度，训练的目标是最大化含义相同的医疗术语节点的相似度；

(4)预测结果输出模块：将待规范的医疗术语节点输入训练好的异构图神经网络中，得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序，输出医疗术语规范化结果。

进一步地，所述医疗术语的类型包括药物术语、疾病术语、手术术语、检验术语和检查术语。

进一步地，所述信息单元构建模块中，序列标注模型为BiLSTM-CRF模型；在作为训练数据的医疗术语上标注出每个信息单元的区间，同时标明非信息单元的字符，使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余字符。

进一步地，所述信息单元构建模块中，对数值和计量单位做初步的规范化，将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起，并且对数值做相应换算。

进一步地，所述异构图神经网络模块中，用

表示医疗术语知识图谱中的所有节点的集合，对于

，记

为其节点内容，

为其内容编码；对于节点内容为数值型的节点

，其内容编码为：

其中

为节点

本身的数值；

表示单位向量，随机初始化并通过异构图神经网络训练得到；

对于节点内容为计量单位的节点

，其节点内容是由基础单位和运算符号组成的序列，设

，其中

为基础单位或运算符号，

为

的序列长度，则内容编码为：

其中

为异构图神经网络训练得到的参数矩阵；

为每种基础单位或运算符号的语义向量，随机初始化并通过异构图神经网络训练得到；

为向量拼接运算符；

对于节点内容为文本型的节点

，使用预训练的语言模型计算

的语义向量作为

的初始化的内容编码，并通过后续的异构图神经网络继续训练内容编码。

进一步地，对于节点内容为文本型的节点

，预训练的语言模型采用BERT模型，计算方式为：

其中

为BERT模型第

层的隐藏状态，

为第

层的输入值：

，其中

和

均为训练得到的参数，

为

的维度，

为BERT模型第k层的隐藏状态；若BERT模型一共有m层，则节点

的初始化的内容编码为

。

进一步地，所述异构图神经网络模块中，基于医疗术语知识图谱中节点自身及其临近节点的内容编码来计算每个节点的向量表示；对于医疗术语知识图谱中的节点

，用

表示从

出发的箭头直接指向的节点的集合，如果

表示医疗术语节点，那么

为

的一级信息单元集合，

为

的二级信息单元集合；定义

的临近节点集合

为：

则

的向量表示

的计算方式为：

其中

为权重参数，具体计算如下：

其中

，

和

为训练得到的矩阵参数，

为非线性激活函数。

进一步地，所述异构图神经网络模块中，训练的第一个阶段，将可以训练的参数集合记为

，则训练的目标是优化如下目标函数：

其中

表示从节点

预测其临近节点

的概率；

训练的第二个阶段，任意两个医疗术语节点的相似度的计算公式为：

其中

和

为医疗术语知识图谱中的医疗术语节点，

为

和

的相似度，W和b均为训练得到的参数；

在医疗术语规范化训练数据中，设与医疗术语节点

含义相同的医疗术语节点集合为

，与

含义不相同的医疗术语节点集合为

，则训练样本的标签

为：

第二阶段的目标为最小化如下损失函数L：

进一步地，所述预测结果输出模块中，对于待规范的医疗术语节点

，基于训练完成的异构图神经网络计算

与医疗术语知识图谱中其它医疗术语节点的相似度并排序，取其中与

相似度最大的医疗术语节点

：

对相似度设置阈值

，若

，则认为

与

的含义相同，即得到

的规范化结果；否则认为

与医疗术语知识图谱中其它医疗术语节点的含义均不相同，

有独立的含义。

本发明另一方面公开了一种基于异构图神经网络的医疗术语规范化方法，包括以下步骤：

(1)对每种类型的医疗术语定义关键的信息单元；所述信息单元包括一级信息单元和二级信息单元，以及两级信息单元之间的包含关系；利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元，构建信息单元库；

(2)基于医疗术语和信息单元的关系，构建医疗术语知识图谱，知识图谱的节点包括医疗术语节点和信息单元节点，边为有向边，边包括两种关系：医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系，边的方向为从包含方指向被包含方；

(3)基于医疗术语知识图谱的临近节点分布和节点内容编码，训练异构图神经网络；所述临近节点为从一个节点出发，沿医疗术语知识图谱边的方向跳转两级经过的所有节点；所述节点内容编码具体为：

(4)将待规范的医疗术语节点输入训练好的异构图神经网络中，得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序，输出医疗术语规范化结果。

本发明的有益效果是：本发明对不同类型的医疗术语定义了统一的信息单元结构，实现了相对统一的结构化表示，因此在进行医疗术语规范化过程中能够更好地利用医疗领域的知识，充分学习同类医疗术语之间以及不同类医疗术语之间包含的信息单元的关联和差异。通过将所有医疗术语整合到知识图谱中，由统一的异构图神经网络实现了不同类型的医疗术语规范化工作，在提高医疗术语规范化工作效率的同时能够提高输出结果的完整性和统一性。

附图说明

图1为本发明实施例提供的基于异构图神经网络的医疗术语规范化系统结构图；

图2为本发明实施例提供的序列标注模型训练数据；

图3为本发明实施例提供的医疗术语知识图谱示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明中，医疗术语规范化指：结合医疗领域的知识和自然语言处理方法，分析真实临床环境中产生的各种医疗术语，识别出含义相同的医疗术语并区分含义不相同的医疗术语，使在一定范围内的医疗术语得到统一，以获得最佳秩序和社会效益的过程。建立统一的医疗术语标准及术语集有助于解决术语重复、内涵不清、语义表达和理解不一致等问题，对有效推动医学信息在更大范围和更深层次上的传播、共享和使用具有重要意义。

异构图神经网络指：传统的深度学习方法在线性和矩阵形状的数据上取得了巨大成功，但许多实际应用场景中的数据是图形结构的。近年来研究人员借鉴了卷积网络、循环网络的思想，定义和设计了用于处理图数据的图神经网络模型。普通的图神经网络针对节点和关系类型比较单一的图，仅使用图的临近节点信息即可获得良好的性能。而真实世界中的图数据通常节点和关系类型众多，差异较大，这种类型的图被称为异构图。在训练异构图神经网络的过程中，由于不同类型节点的内容包含的特征差别较大，信息维度不一，因此在使用图的临近节点信息的同时需要考虑节点的内容编码信息。

本发明实施例提供一种基于异构图神经网络的医疗术语规范化系统，如图1所示，该系统包括以下模块：

一、信息单元构建模块，包括：

(1)对每种类型的医疗术语定义关键的信息单元；医疗术语类型包括药物术语、疾病术语、手术术语、检验术语和检查术语，信息单元包括一级信息单元和二级信息单元，以及两级信息单元之间的包含关系；

(2)利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元，构建信息单元库；

二、医疗术语知识图谱模块：基于医疗术语和信息单元的关系，构建医疗术语知识图谱，知识图谱的节点包括医疗术语节点和信息单元节点，边为有向边，边包括两种关系：医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系，边的方向为从包含方指向被包含方；

三、异构图神经网络模块：基于医疗术语知识图谱的临近节点分布和节点内容编码，训练异构图神经网络；

所述临近节点为从一个节点出发，沿医疗术语知识图谱边的方向跳转两级，经过的所有节点；

所述节点内容编码具体为：

四、预测结果输出模块：将待规范的医疗术语节点输入训练好的异构图神经网络中，得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序，输出医疗术语规范化结果。

下面详细说明每个模块的实现过程：

一、信息单元构建模块

(1)定义医疗术语的信息单元。目前已有一些国际通用的医疗术语标准集，对特定的单一类别的医疗术语定义了关键维度的信息单元，然而不同类型的医疗术语标准集互相之间并没有建立信息单元之间的关联关系，导致过去的医疗术语规范化过程中利用的信息只能局限于单一类别的医疗术语内部，而忽略了大量有用的信息。本发明结合现有的国际通用的医疗术语标准集和实际临床过程中的专家知识，对各种类型的医疗术语统一定义了关键的信息单元，并且定义详细的一级信息单元和二级信息单元结构。目前本发明已经实现的医疗术语类型包括药物术语、疾病术语、手术术语、检验术语和检查术语，若后续需要对新类型的医疗术语做规范化，在对新类型的医疗术语定义信息单元之后可以方便地将其扩展到本发明的系统中。已经实现的医疗术语的信息单元具体定义如表3所示。

表3 医疗术语的信息单元

(2)构建信息单元库。利用序列标注模型对医疗术语中的每个字符预测其属于每种信息单元的概率，从而识别出医疗术语中包含的所有信息单元，实现医疗术语的结构化表示。本实施例中使用的序列标注模型为BiLSTM-CRF模型，该模型首先通过BiLSTM网络来理解医疗术语上下文的信息，然后基于BiLSTM网络在医疗术语每个字符位置的输出值构造状态概率和转移概率矩阵，并构建CRF模型，在序列标注任务上取得了较好的效果。为序列标注模型构建训练数据的过程如图2所示，在作为训练数据的医疗术语上标注出每个信息单元的区间，同时也会标明非信息单元的字符，从而使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余的字符，避免向后续的异构图神经网络引入过多的噪声。

(3)需要特别注意表3中多种一级信息单元均包含数值和计量单位二级信息单元，而医疗术语中原始的数值和计量单位分布的跨度和稀疏性会比较大，从而增加异构图神经网络训练的难度。为了解决这一问题，首先对数值和计量单位做初步的规范化，将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起，并且对数值做相应换算，其中基础单位包括：ml（毫升）、mg（毫克）、mm（毫米）、s（秒）、mol（物质的量）、u（单位）、iu（国际单位）、count（计数）、型、级、期，运算符号包括乘法和除法。一共产生90个规范化的计量单位。例如：原始计量单位是l（升），对应的数值为1，规范化后的计量单位是ml（毫升），对应的数值相应换算为1000。

二、医疗术语知识图谱模块

基于信息单元构建模块构建的信息单元库，构建包含多种类型医疗术语的知识图谱，如图3所示。其中包含两大类型的节点：圆形节点表示医疗术语节点，矩形节点表示信息单元节点，而每一大类型节点内部又包含多种细分种类的节点，例如医疗术语节点包含“药物术语”节点、“疾病术语”节点等，信息单元节点包含“药物剂量”节点、“数值”节点等。边包括两种关系：1)医疗术语和信息单元之间的包含关系；2)一级信息单元和二级信息单元之间的包含关系。一级信息单元和二级信息单元的划分范围对不同类型的医疗术语可能会发生变化，例如对于疾病术语，“疾病主体”是它的一级信息单元，而对于手术术语来说，“疾病主体”是一级信息单元“疾病性质”中包含的二级信息单元。

三、异构图神经网络模块

(1)异构图指的是节点和关系类型比较复杂的图，图3所示的医疗术语知识图谱就是一种异构图。普通的图神经网络针对节点和关系类型比较单一的图，只依靠图的临近节点信息即可获得良好的性能。而在训练异构图神经网络的过程中，由于不同类型节点的内容包含的特征差别较大，信息维度不一，因此需要同时考虑图的临近节点分布信息和节点内容编码信息。而在计算节点内容编码时，本发明针对不同类型的节点分别设计合适的计算方法。

(2)计算不同类型节点的内容编码。用

表示图3中的医疗术语知识图谱中的所有节点的集合，对于

，记

为其节点内容，

为其内容编码，则不同类型节点的内容编码的计算方式如下：

对于节点内容为数值型的节点

，其内容编码为：

其中

为节点

本身的数值；

对于节点内容为计量单位的节点

，其节点内容是由基础单位和运算符号组成的序列，设

，其中

为基础单位或运算符号，

为

的序列长度，则内容编码为：

其中

为异构图神经网络训练得到的参数矩阵；

为向量拼接运算符；

对于节点内容为文本型的节点

，使用预训练的语言模型计算

的语义向量作为

的初始化的内容编码，并通过后续的异构图神经网络继续训练内容编码。本实施例中使用的预训练的语言模型为BERT模型，计算方式为：

其中

为BERT模型第

层的隐藏状态，

为第

层的输入值：

，其中

和

均为训练得到的参数，

为

的维度，

为BERT模型第k层的隐藏状态；若BERT模型一共有m层，则节点

的初始化的内容编码为

，本实施例取m=12。

(3)在异构图神经网络中，基于医疗术语知识图谱中节点自身及其临近节点的内容编码来计算每个节点的向量表示。对于医疗术语知识图谱中的节点

，用

表示从

出发的箭头直接指向的节点的集合，如果

表示医疗术语节点，那么

为

的一级信息单元集合，

为

的二级信息单元集合。定义

的临近节点集合

为：

则

的向量表示

的计算方式为：

其中

为权重参数，代表节点

对于节点

的重要性，其中

可以是

自身或

的临近节点，具体计算如下：

其中

，

和

为训练得到的矩阵参数，

为非线性激活函数，本实施例中取

。由于节点之间相对的重要性是不对称的，因此

也是不对称的，即

。

(4)异构图神经网络的训练。训练过程分为两个阶段：1)将临近节点分布和节点内容编码作为输入，训练的目标是最大化每个节点的临近节点对它的条件概率，得到每个节点的向量表示；2)将节点的向量表示作为输入，计算任意两个医疗术语节点的相似度，训练的目标是最大化含义相同的医疗术语节点的相似度。

在训练过程的第一阶段，将可以训练的参数集合记为

，则训练的目标是优化如下目标函数：

其中

表示从节点

预测其临近节点

的概率。

在训练过程的第二阶段，任意两个医疗术语节点的相似度的计算公式为：

其中

和

为医疗术语知识图谱中的医疗术语节点，

为

和

相似度，W和b均为训练得到的参数。在医疗术语规范化训练数据中，设与医疗术语节点

含义相同的医疗术语节点集合为

，与

含义不相同的医疗术语节点集合为

，则训练样本的标签

为：

第二阶段的目标为最小化如下损失函数

：

四、预测结果输出模块

对于待规范的医疗术语节点

，基于训练完成的异构图神经网络计算

相似度最大的医疗术语节点

：

对相似度设置阈值

，若

，则认为

与

的含义相同，即得到

的规范化结果；否则认为

与医疗术语知识图谱中其它医疗术语节点的含义均不相同，

有独立的含义。本实施例中取

。

例如在对药物术语“氯化钾针（大冢生产）10% 10毫升*1支”进行规范化时，计算它与其它药物术语节点的相似度如表4所示，则可知和它含义相同的药物术语节点为相似度最高的“氯化钾针10ml:1g大冢制药有限公司”。

表4 异构图神经网络计算医疗术语节点相似度

本发明实施例还提供一种基于异构图神经网络的医疗术语规范化方法，该方法包括：

(1)对每种类型的医疗术语定义关键的信息单元；所述信息单元包括一级信息单元和二级信息单元，以及两级信息单元之间的包含关系；利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元，构建信息单元库；该步骤的实现参照信息单元构建模块。

(2)基于医疗术语和信息单元的关系，构建医疗术语知识图谱，知识图谱的节点包括医疗术语节点和信息单元节点，边为有向边，边包括两种关系：医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系，边的方向为从包含方指向被包含方。

该步骤的实现参照异构图神经网络模块。

(4)将待规范的医疗术语节点输入训练好的异构图神经网络中，得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序，输出医疗术语规范化结果；该步骤的实现参照预测结果输出模块。

本发明对多种医疗术语定义并识别其包含的信息单元，实现医疗术语的结构化表示。医疗术语的结构化表示的结果不仅能够提高医疗术语规范化的效果，同时也会极大地促进医疗信息化工作的各个方面；本发明基于医疗术语的信息单元构建了新型的针对医疗术语的知识图谱，能够有效地促进包括医疗术语规范化在内的各项医疗信息化工作；本发明针对医疗术语规范化工作构造了新型的异构图神经网络，由统一的模型实现不同类型医疗术语规范化，同时针对不同类型的信息单元分别实现了合适的内容编码方式，并且对异构图神经网络设计了分阶段的训练方式。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。