CN117009839B

CN117009839B - 基于异构超图神经网络的患者聚类方法和装置

Info

Publication number: CN117009839B
Application number: CN202311267386.8A
Authority: CN
Inventors: 李劲松; 张阳; 池胜强; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-09
Anticipated expiration: 2043-09-28
Also published as: CN117009839A

Abstract

本申请涉及一种基于异构超图神经网络的患者聚类方法和装置，其中，该基于异构超图神经网络的患者聚类方法包括：根据各个对象的电子病历信息，构建与对象对应的异构超图；将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果；其中，在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果；节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。通过本申请，解决了无法获取准确的聚类结果的问题，实现了提高聚类结果的准确性。

Description

基于异构超图神经网络的患者聚类方法和装置

技术领域

本申请涉及智慧医疗技术领域，特别是涉及基于异构超图神经网络的患者聚类方法和装置。

背景技术

人工智能技术广泛应用于各个国计民生行业，促进了不同领域的技术发展。而在医学领域中，电子健康记录（Electronic Health Record，简称为EHR）是以个人健康、保健和治疗为中心的数字记录，其不仅包含患者的个人基本信息、病史、诊断和药物使用情况等多维数据，同时具有复杂的纵向时序信息，即不同时间点的不同诊疗事件记录。因此，通过人工智能技术挖掘分析电子健康记录中的数据信息，例如基于电子健康记录，将患者按照一定的相似性或相关性指标进行分类，有助于获取更为全面的患者群体数据。

为了满足上述需求，现有方法通常采用表示学习技术，以矢量形式表示患者数据特征，从而能够基于表示学习结果，按照某种相似性或相关性指标对患者进行聚类。但是，该方法中一般仅使用低阶的同构或者异构信息进行表示学习，且表示学习阶段和聚类分析阶段是相互独立的，忽略了表示学习与聚类分析之间的依赖关系，无法获取准确的聚类结果。

针对相关技术中存在无法获取准确的聚类结果的问题，目前还没有提出有效的解决方案。

发明内容

在本实施例中提供了一种基于异构超图神经网络的患者聚类方法和装置，以解决相关技术中无法获取准确的聚类结果的问题。

第一个方面，在本实施例中提供了一种基于异构超图神经网络的患者聚类方法，所述方法包括：

根据各个对象的电子病历信息，构建与所述对象对应的异构超图；

将目标模型中表示学习模块对应的重构损失函数，以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对所述目标模型进行训练，直至所述目标模型收敛，输出所述对象聚类模块中的最终聚类结果；

其中，在所述目标模型的训练过程中，基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量，更新所述对象聚类模块中的聚类结果；所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量。

在其中的一些实施例中，所述根据各个对象的电子病历信息，生成与所述对象对应的异构超图，包括：

根据各个对象的电子病历信息，确定每个所述对象的诊疗记录节点和诊疗事件节点；

基于每个所述对象的诊疗记录节点和诊疗事件节点，生成与所述对象对应的异构超图。

在其中的一些实施例中，所述根据各个对象的电子病历信息，确定每个所述对象的诊疗记录节点和诊疗事件节点，包括：

对各个所述对象的电子病历信息进行标准化处理，得到每个所述对象的标准化数据信息；

基于所述标准化数据信息，确定每个所述对象的诊疗记录节点和诊疗事件节点。

在其中的一些实施例中，所述基于每个所述对象的诊疗记录节点和诊疗事件节点，生成与所述对象对应的异构超图，包括：

根据所述对象的电子病历信息，建立每个所述对象的诊疗记录节点与所述诊疗事件节点之间的诊疗连接关系，得到初始连接图；

根据医疗知识图谱，构建所述初始连接图中不同所述诊疗事件节点之间的异构关联，得到对应的异构网络图；

确定每个所述对象的诊疗记录节点与所述诊疗事件节点的超图关联矩阵；

根据各个所述诊疗事件节点的共现信息，确定不同所述诊疗记录节点之间的连接概率，并将所述连接概率作为不同超边之间的权重；

在所述异构网络图中，基于所述超图关联矩阵和不同所述超边之间的权重，构建每个所述对象的诊疗记录节点与所述诊疗事件节点之间的超图连接，得到与所述对象对应的异构超图。

在其中的一些实施例中，所述根据各个所述诊疗事件节点的共现信息，确定不同所述诊疗记录节点之间的连接概率，包括：

根据各个所述诊疗事件节点的共现信息，建立对应的共现矩阵；

基于所述共现矩阵，确定不同所述诊疗记录节点之间的点对互信息；

根据不同所述诊疗记录节点之间的点对互信息，确定对应的所述连接概率。

在其中的一些实施例中，所述将目标模型中表示学习模块对应的重构损失函数，以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，包括：

通过点积解码器对从所述异构超图中学习到的所述节点表示矢量进行重构，并根据重构结果，确定与所述节点表示矢量对应的所述重构损失函数；

将所述重构损失函数和所述对象聚类模块对应的聚类损失函数作为模型整体损失。

在其中的一些实施例中，所述基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量，更新所述对象聚类模块中的聚类结果，包括：

在所述目标模型的表示学习模块中，基于编码器-解码器结构，对所述异构超图进行表示学习，得到异构网络表示矢量和超图网络表示矢量；

对所述异构网络表示矢量和所述超图网络表示矢量进行线性融合，得到所述节点表示矢量；

基于所述节点表示矢量更新所述对象聚类模块中的聚类结果。

第二个方面，在本实施例中提供了一种基于异构超图神经网络的患者聚类装置，所述装置包括：构建模块和聚类模块；

所述构建模块，用于根据各个对象的电子病历信息，构建与所述对象对应的异构超图；

所述聚类模块，用于将目标模型中表示学习模块对应的重构损失函数，以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对所述目标模型进行训练，直至所述目标模型收敛，输出所述对象聚类模块中的最终聚类结果；

所述聚类模块，还用于在所述目标模型的训练过程中，基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量，更新所述对象聚类模块中的聚类结果；所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量。

第三个方面，在本实施例中提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一个方面所述的基于异构超图神经网络的患者聚类方法。

第四个方面，在本实施例中提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的基于异构超图神经网络的患者聚类方法。

与相关技术相比，在本实施例中提供的基于异构超图神经网络的患者聚类方法和装置，通过根据各个对象的电子病历信息，构建与对象对应的异构超图；将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果；其中，在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果；节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量，解决了无法获取准确的聚类结果的问题，实现了提高聚类结果的准确性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请一实施例提供的基于异构超图神经网络的患者聚类方法的终端设备的硬件结构框图；

图2是本申请一实施例提供的基于异构超图神经网络的患者聚类方法的流程图；

图3是本申请一实施例提供的元路径结构的示意图；

图4是本申请一实施例提供的异构超图结构的示意图；

图5是本申请一实施例提供的特征变换融合的示意图；

图6是本申请一优选实施例提供的基于异构超图神经网络的患者聚类方法的流程图；

图7是本申请一实施例提供的基于异构超图神经网络的患者聚类装置的结构框图。

图中：102、处理器；104、存储器；106、传输设备；108、输入输出设备；10、构建模块；20、聚类模块。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行，图1是本实施例的基于异构超图神经网络的患者聚类方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个（图1中仅示出一个）处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的基于异构超图神经网络的患者聚类方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（NetworkInterface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（RadioFrequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种基于异构超图神经网络的患者聚类方法，图2是本实施例的基于异构超图神经网络的患者聚类方法的流程图，如图2所示，该流程包括如下步骤：

步骤S210，根据各个对象的电子病历信息，构建与对象对应的异构超图。

具体地，采集各个对象的电子病历信息，并预处理电子病历信息中的患者诊疗数据，以剔除异常的数据记录。例如，对于心力衰竭导致急性肾损伤的患者诊疗数据，需要删除患有慢性肾脏病、既往有肾脏切除术、肾脏移植术、术前存在急性肾损伤或存在缺失值的患者记录。

进一步地，将预处理后的数据整理成标准化数据，并基于不同类别的标准化数据，生成对应的数据集合，包括基本信息集合B、诊断集合D、检验集合L、操作集合H和药物集合M。

步骤S220，将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果。

具体地，通过点积解码器对从异构超图中学习到的节点表示矢量进行重构，并根据重构结果，确定与节点表示矢量对应的重构损失函数。重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果。

在此基础上，通过t分布邻近嵌入对聚类结果进行降维可视化，以分析聚类结果是否满足类内距离近和类间距离远的特性。

另外，获取聚类结果之后，可根据生存分析的统计方法，以死亡或其他关注的诊疗终点事件为终点事件，绘制生存曲线，例如卡普拉-迈尔（Kaplan-Meier）曲线；根据生存曲线观察不同患者聚类随时间变化的生存率差异，并通过对数秩（Log-Rank）检验不同患者聚类生存曲线是否存在差异。

步骤S230，其中，在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果；节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。

具体地，将异构超图中每个对象的就诊记录节点对应的节点表示矢量，输入至目标模型的对象聚类模块进行聚类，得到当前的聚类结果，即基于训练得到的节点表示矢量更新对象聚类模块中的聚类结果。

为了通过人工智能技术挖掘分析电子健康记录中的数据信息，现有方法通常采用表示学习技术，以矢量形式表示患者数据特征，从而能够基于表示学习结果，按照某种相似性或相关性指标对患者进行聚类。但是，该方法中表示学习阶段和聚类分析阶段是相互独立的，忽略了表示学习与聚类分析之间的依赖关系，无法获取准确的聚类结果。而本申请相较于现有技术，基于电子病历信息构建对应的异构超图，以此挖掘不同对象之间的低阶和高阶关联信息，并将异构超图的表示学习模块与对象聚类模块的训练过程相融合，实现聚类过程和表示矢量的相互作用，充分考虑了表示学习与聚类分析之间的依赖关系，从而能够获取准确的聚类结果。

通过本实施例，根据各个对象的电子病历信息，构建与对象对应的异构超图；将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果；其中，在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果；节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量，解决了无法获取准确的聚类结果的问题，实现了提高聚类结果的准确性。

在其中的一些实施例中，根据各个对象的电子病历信息，生成与对象对应的异构超图，包括如下步骤：

步骤S211，根据各个对象的电子病历信息，确定每个对象的诊疗记录节点和诊疗事件节点；

步骤S212，基于每个对象的诊疗记录节点和诊疗事件节点，生成与对象对应的异构超图。

具体地，采集各个对象的电子病历信息，本实施例中电子病历信息包括患者基本信息、观察窗期间的诊断信息、实验室检验数据、手术和治疗措施数据以及用药数据等。

进一步地，根据上述电子病历信息，确定每个对象的诊疗记录节点和诊疗事件节点；其中，每个诊疗记录节点V_i将患者基本信息作为节点特征，而诊疗事件节点Y_i包括诊断集合D、检验集合L、操作集合H和药物集合M。基于此，构建与各个对象对应的异构超图，充分考虑不同类型数据之间的异质性和高阶关联。

通过本实施例，根据各个对象的电子病历信息，确定每个对象的诊疗记录节点和诊疗事件节点，并基于每个对象的诊疗记录节点和诊疗事件节点，生成与对象对应的异构超图，从而通过异构超图神经网络区分不同的数据类型，充分挖掘不同患者之间的低阶和高阶关联。

在其中的一些实施例中，根据各个对象的电子病历信息，确定每个对象的诊疗记录节点和诊疗事件节点，包括如下步骤：

对各个对象的电子病历信息进行标准化处理，得到每个对象的标准化数据信息；

基于标准化数据信息，确定每个对象的诊疗记录节点和诊疗事件节点。

具体地，从电子病历系统中提取每个对象的电子病历信息，电子病历信息包含相关患者诊疗数据，对提取到的诊疗数据进行预处理。其中，预处理方法包括根据人口统计学基础信息和实验室检验数据的正常参考范围，剔除诊疗数据中具有异常值的记录，以及删除存在缺失值的记录。

需要知道的是，对预处理后到的各类诊疗数据进行标准化处理。对患者基本信息中的二值数据、诊断信息、手术和治疗措施数据以及用药数据等进行二元变量编码，以0表示不存在，1表示存在；例如，当诊断集合为[卵巢良性肿瘤，输卵管妊娠，子宫多发性平滑肌瘤]，患者初始矢量[0，1，0]则表示该患者诊断为输卵管妊娠。此外，将每个对象的实验室检验数据中数值型数据，按照上述正常参考范围分为偏低、正常和偏高三个类别，且保留每个数据的类别信息；而对于患者基本信息中的数值型数据，则按列进行标准化处理，例如对数据进行Z-Socre标准化操作。

进一步地，对于每个对象的患者基本信息、观察窗期间的诊断信息、实验室检验数据、手术和治疗措施数据以及用药数据，分别生成对应的基本信息集合B、诊断集合D、检验集合L、操作集合H和药物集合M。并将诊断信息进行国际疾病分类（InternationalClassification of Diseases，简称为ICD）-10-cm编码，将治疗措施和手术进行通用医疗程序（CurrentProcedural Terminology，简称为CPT）编码，将用药信息使用解剖学治疗学及化学分类（Anatomical Therapeutic Chemical，简称为ATC）编码。例如，基本信息集合B={年龄，性别，心肌梗塞I42，高血压I10，高胆固醇E79}；诊断集合D={心力衰竭I50，心肌梗塞I42，高血压I10，高胆固醇E79，冠心病I25.103，瓣膜病I30}；检验集合L={收缩压，舒张压，钾，肾小球滤过率，血红蛋白}；操作集合H={冠状动脉瘘修补术02Q00ZZ，主动脉瓣修补术02QF0ZZ，主动脉瓣置换术02RF48Z，心脏移植术02YA0Z0}；药物集合M={利美尼定C02AC06，利血平C02AA02，奎尼丁C01BA01，氨氯地平和利尿剂C08GA02}。

通过本实施例，对各个对象的电子病历信息进行标准化处理，得到每个对象的标准化数据信息，并基于标准化数据信息，确定每个对象的诊疗记录节点和诊疗事件节点，以此实现各类诊疗数据的标准化处理，消除不同特征数据之间的量纲差异，确保其处于相似的数值范围内，提高了数据的质量和可用性，以便于后续分析数据。

在其中的一些实施例中，基于每个对象的诊疗记录节点和诊疗事件节点，生成与对象对应的异构超图，包括如下步骤：

根据对象的电子病历信息，建立每个对象的诊疗记录节点与诊疗事件节点之间的诊疗连接关系，得到初始连接图；

根据医疗知识图谱，构建初始连接图中不同诊疗事件节点之间的异构关联，得到对应的异构网络图；

确定每个对象的诊疗记录节点与诊疗事件节点的超图关联矩阵；

根据各个诊疗事件节点的共现信息，确定不同诊疗记录节点之间的连接概率；

在异构网络图中，基于超图关联矩阵和连接概率，构建每个对象的诊疗记录节点与诊疗事件节点之间的超图连接，得到与对象对应的异构超图。

需要知道的是，为了区分不同的数据类型以及挖掘不同患者之间的高阶关联，基于各个诊疗记录节点和诊疗事件节点构建异构超图结构G=(V,E,ε)，包含多种节点类型和边类型，每条就诊记录即为一条超边。

对于上述异构超图结构，V={V₁,D₁,D₂,…,}表示节点集合，节点集合V包含所有诊疗记录节点V_i和诊疗事件节点Y_i中的各个集合，诊疗事件节点Y_i包括诊断集合D、检验集合L、操作集合H和药物集合M，E={E₁,E₂,…,/>}表示边集合，ε={e₁,e₂,…,/>}表示超边集合，N^E表示节点E的数量，以及N^ε表示节点e的数量；而节点总数N=N^V+N^L+N^M+N^D+N^H，N^V表示节点V的数量，N^L表示节点L的数量，N^M表示节点M的数量，N^D表示节点D的数量，N^H表示节点H的数量。其中，节点映射函数ϕ ：V→λ，λ表示节点类型，边映射函数ψ：E→δ，δ表示边类型，当|λ|+|δ|＞2时，表明当前结构图为异构图。

在构建异构超图时，首先根据电子病历信息中的患者就诊记录，建立每个对象的诊疗记录节点V_i与诊疗事件节点Y_i之间的诊疗连接关系，得到初始连接图。例如，诊疗记录节点V₁包含{L₂,D₁,M₁}，则在图中分别建立V₁和L₂、D₁、M₁的连接关系。

在初始连接图的基础上，根据医疗知识图谱构建不同诊疗事件节点之间的异构关联，完成异构网络图的建立。其中，可以基于元路径建立异构连接，本实施例中元路径包括但不限于“L→D→M”、“L→L→D”，且/>表示节点V基于元路径/>的相邻节点集合。如图3所示，“L₂→D₁→M₂”、“L₂→D₁→M₁”均为元路径L→D→M，而L₂与M₁、M₂则为基于元路径的相邻节点。

构建异构图后，建立每个对象的诊疗记录节点与诊疗事件节点的超图关联矩阵A_hyp∈，若节点V_i在超边e中，则矩阵A_hyp对应的点(V_i,e)为1；若节点V_i不在超边e中，则矩阵A_hyp对应的点(V_i,e)为0，具体公式如下：

；

基于上述超图关联矩阵，表示超边e包含的所有节点集合，而k_e表示超边e中的节点个数；/>表示节点V包含的所有超边集合，k_V表示包含节点V的超边的数量。此外，根据各个诊疗事件节点的共现信息，建立对应的共现矩阵C∈/>，其中，N^V表示节点V的数量。以C_ij=|V_i(Y)∩V_j(Y)|表示矩阵C中第i行、第j列的元素，V_i(Y)表示与节点V_i相连的诊疗事件节点Y集合，V_j(Y)表示与节点V_j相连的诊疗事件节点Y集合，根据上述共现矩阵计算不同诊疗记录节点之间的连接概率，作为对应超边之间的权重。

进一步地，在异构网络图中，基于超图关联矩阵和不同诊疗记录节点之间的连接概率，构建诊疗记录节点与相关联诊疗事件节点之间的超图连接，得到最终的异构超图结构。以图4所示为例，异构超图结构包括超边e₁和超边e₂，超边e₁包括节点V₁、D₁、L₂、M₁，而超边e₂包括节点V₂、D₂、M₂、H₁；初步建立每条超边内各个节点之间的诊疗连接关系，并基于元路径建立异构连接，进而构建诊疗记录节点与相关联诊疗事件节点之间的超图连接。此外，不同连接线表征不同的边类型，不同边的具体含义包括共现、就诊、推测和治疗。

通过本实施例，基于每个对象的诊疗记录节点和诊疗事件节点，构建对应的异构超图结构，以清晰区分不同类型数据，并建立不同对象之间的关联。

在其中的一些实施例中，根据各个诊疗事件节点的共现信息，确定不同诊疗记录节点之间的连接概率，包括如下步骤：

根据各个诊疗事件节点的共现信息，建立对应的共现矩阵；

基于共现矩阵，确定不同诊疗记录节点之间的点对互信息；

根据不同诊疗记录节点之间的点对互信息，确定对应的连接概率。

需要知道的是，点对互信息（Pointwise Mutual Information，简称为PMI）是用于度量两个随机变量之间的相关性或依赖性的统计量。因此，可以通过不同诊疗记录节点的点对互信息，表示诊疗事件节点的连接概率。

具体地，根据诊疗事件节点之间的共现信息，建立共现矩阵C∈，并计算不同诊疗记录节点的点对互信息（Pointwise Mutual Information，简称为PMI），得到诊疗事件节点的连接概率，作为对应超边之间的权重，且连接概率表示包含节点V_i和节点V_j的超边之间是否建立连接关系。具体计算公式如下：

；

其中，PMI(V_i,V_j)表示节点V_i和节点V_j之间的点对互信息，P(V_i,V_j)表示V_i和V_j共同出现的频率，P(V_i)表示V_i出现的频率，P(V_j)表示V_j出现的频率，sum(C)表示矩阵C中元素的累加和，sum(C_i)表示矩阵C第i行元素的累加和，以及sum(C_j)表示矩阵C第j列元素的累加和。而在计算过程中，为了避免两个对象之间不共现，出现PMI=log0=-∞的情况，将log0的值定义为0。

通过本实施例，计算不同诊疗记录节点之间的点对互信息，得到诊疗记录节点的连接概率，从而确定对应超边之间是否建立连接关系，实现准确的超图关联。

在其中的一些实施例中，将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，包括如下步骤：

步骤S221，通过点积解码器对从异构超图中学习到的节点表示矢量进行重构，并根据重构结果，确定与节点表示矢量对应的重构损失函数；

步骤S221，将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失。

具体地，将从异构超图中学习到的节点表示矢量输入解码器后，通过sigmoid激活函数使用点积解码器进行重构，重构结果，Z为学习到的节点表示矢量，Z^T为节点表示矢量的转置矢量；将重构损失作为表示学习训练的损失函数L_r，且；进而基于聚类损失函数L_clu和重构损失函数L_r对目标模型进行训练，模型整体损失为L=L_clu+L_r。

其中，利用t分布衡量节点V_i与聚类质心μ_u的相似度q_iu，p_iu是目标分布，通过计算节点与质心的相似度实现节点的软分类，并确定聚类损失函数，q_iu与p_iu的具体公式如下：

其中，q_iu表示节点与聚类质心的相似度；p_iu是目标分布；μ_u表示聚类质心；Z_i表示训练过程中获取的节点表示矢量；k为聚类个数。

进一步地，目标模型的对象聚类模块，用于通过聚类算法对就诊记录节点对应的节点表示矢量进行聚类；在目标模型的训练过程中，基于训练得到的节点表示矢量对聚类结果进行更新，直至模型收敛，输出最终聚类结果。本实施例所使用的聚类算法包括但不限于k均值聚类算法和高斯混合模型聚类。

通过本实施例，将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，实现聚类过程和表示矢量的相互作用，充分考虑了表示学习与聚类分析之间的依赖关系，从而能够获取准确的聚类结果。

在其中的一些实施例中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果，包括如下步骤：

步骤S231，在目标模型的表示学习模块中，基于编码器-解码器结构，对异构超图进行表示学习，得到异构网络表示矢量和超图网络表示矢量；

步骤S232，对异构网络表示矢量和超图网络表示矢量进行线性融合，得到节点表示矢量；

步骤S233，基于节点表示矢量更新对象聚类模块中的聚类结果。

具体地，编码器为异构超图神经网络学习节点的矢量表示。首先，使用编码器将基于元路径的异构图网络学习节点的矢量表示，i表示节点编号，l表示第l层网络。基于此，第l+1层网络中节点V_i的矢量表示/>如下所示：

；

其中，r表示具体的元路径；N_r(i)表示节点V_i基于元路径r的相邻节点集合；a_i,r表示节点V_i的规范化参数，可通过注意力学习得到；表示基于元路径r的权重矩阵；/>表示基于自连接的权重矩阵。

另外，根据超图关联矩阵A_hyp∈，使用编码器将超图神经网络学习节点的矢量表示/>。根据超图拉普拉斯矩阵进行图卷积学习，以及使用切比雪夫不等式优化。

如图5所示，随机初始化节点特征矢量，此时矢量维度为d₁，，进而根据共现矩阵C，对超图网络进行节点-超边-节点的特征变换和融合，包括通过特征变换得到N*d₂节点特征，通过超边特征聚合得到N^ε*d₂节点特征，以及再通过节点特征聚合得到N*d₂节点特征，使得节点可以学习更高阶维度的特征。在此基础上，第l+1层网络中节点的矢量表示/>如下所示：

；

其中，D_v和D_ε分别是节点度和边度的对角矩阵；W∈为权重参数矩阵。

将异构网络表示矢量和超图网络表示矢量/>进行线性融合，得到节点表示矢量/>，进而将异构超图中每个对象的就诊记录节点对应的节点表示矢量，输入至目标模型的对象聚类模块进行聚类，得到当前的聚类结果，即基于节点表示矢量更新对象聚类模块中的聚类结果。

通过本实施例，基于编码器-解码器结构，对异构超图进行表示学习，得到异构网络表示矢量和超图网络表示矢量，并对异构网络表示矢量和超图网络表示矢量进行线性融合，得到对应的节点表示矢量，从而能够将表示学习模块与对象聚类模块的训练过程相融合，充分考虑表示学习与聚类分析之间的依赖关系。

下面通过优选实施例对本实施例进行描述和说明。

图6是本优选实施例的基于异构超图神经网络的患者聚类方法的流程图，如图6所示，该基于异构超图神经网络的患者聚类方法包括如下步骤：

步骤S610，根据各个对象的电子病历信息，确定每个对象的诊疗记录节点和诊疗事件节点；

步骤S620，基于每个对象的诊疗记录节点和诊疗事件节点，生成与对象对应的异构超图；

步骤S630，通过点积解码器对从异构超图中学习到的节点表示矢量进行重构，并根据重构结果，确定与节点表示矢量对应的重构损失函数；

步骤S640，将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果；

步骤S650，其中，在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果；节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。

通过本实施例，根据各个对象的电子病历信息，确定每个对象的诊疗记录节点和诊疗事件节点，并基于每个对象的诊疗记录节点和诊疗事件节点，生成与对象对应的异构超图，从而通过异构超图网络区分不同的数据类型，挖掘不同对象之间的低阶和高阶关联信息；通过点积解码器对从异构超图中学习到的节点表示矢量进行重构，并根据重构结果，确定与节点表示矢量对应的重构损失函数；将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果；其中，在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果，而节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量，以此将异构超图的表示学习模块与对象聚类模块的训练过程相融合，实现聚类过程和表示矢量的相互作用，充分考虑了表示学习与聚类分析之间的依赖关系，显著提高聚类结果的准确性，解决了无法获取准确的聚类结果的问题。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中还提供了一种基于异构超图神经网络的患者聚类装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是本实施例的基于异构超图神经网络的患者聚类装置的结构框图，如图7所示，该装置包括：构建模块10聚类模块20；

构建模块10，用于根据各个对象的电子病历信息，构建与对象对应的异构超图；

聚类模块20，用于将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果；

聚类模块20，还用于在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果；节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。

通过本实施例提供的装置，根据各个对象的电子病历信息，构建与对象对应的异构超图；将目标模型中表示学习模块对应的重构损失函数，以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，对目标模型进行训练，直至目标模型收敛，输出对象聚类模块中的最终聚类结果；其中，在目标模型的训练过程中，基于每次表示学习模块从异构超图中学习到的节点表示矢量，更新对象聚类模块中的聚类结果；节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量，解决了无法获取准确的聚类结果的问题，实现了提高聚类结果的准确性。

在其中的一些实施例中，在图7的基础上，该装置还包括生成模块，用于根据各个对象的电子病历信息，确定每个对象的诊疗记录节点和诊疗事件节点；基于每个对象的诊疗记录节点和诊疗事件节点，生成与对象对应的异构超图。

在其中的一些实施例中，在图7的基础上，该装置还包括标准化模块，用于对各个对象的电子病历信息进行标准化处理，得到每个对象的标准化数据信息；基于标准化数据信息，确定每个对象的诊疗记录节点和诊疗事件节点。

在其中的一些实施例中，在图7的基础上，该装置还包括建立模块，用于根据对象的电子病历信息，建立每个对象的诊疗记录节点与诊疗事件节点之间的诊疗连接关系，得到初始连接图；根据医疗知识图谱，构建初始连接图中不同诊疗事件节点之间的异构关联，得到对应的异构网络图；确定每个对象的诊疗记录节点与诊疗事件节点的超图关联矩阵；根据各个诊疗事件节点的共现信息，确定不同诊疗记录节点之间的连接概率；在异构网络图中，基于超图关联矩阵和连接概率，构建每个对象的诊疗记录节点与诊疗事件节点之间的超图连接，得到与对象对应的异构超图。

在其中的一些实施例中，在图7的基础上，该装置还包括计算模块，用于根据各个诊疗事件节点的共现信息，建立对应的共现矩阵；基于共现矩阵，确定不同诊疗记录节点之间的点对互信息；根据不同诊疗记录节点之间的点对互信息，确定对应的连接概率。

在其中的一些实施例中，在图7的基础上，该装置还包括结合模块，用于通过点积解码器对从异构超图中学习到的节点表示矢量进行重构，并根据重构结果，确定与节点表示矢量对应的重构损失函数；将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失。

在其中的一些实施例中，在图7的基础上，该装置还包括更新模块，用于在目标模型的表示学习模块中，基于编码器-解码器结构，对异构超图进行表示学习，得到异构网络表示矢量和超图网络表示矢量；对异构网络表示矢量和超图网络表示矢量进行线性融合，得到节点表示矢量；基于节点表示矢量更新对象聚类模块中的聚类结果。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在本实施例中还提供了一种计算机设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述计算机设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

需要说明的是，在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

此外，结合上述实施例中提供的基于异构超图神经网络的患者聚类方法，在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种基于异构超图神经网络的患者聚类方法。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于异构超图神经网络的患者聚类方法，其特征在于，所述方法包括：

所述将目标模型中表示学习模块对应的重构损失函数，以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失，包括：通过点积解码器对从所述异构超图中学习到的节点表示矢量进行重构，并根据重构结果，确定与所述节点表示矢量对应的所述重构损失函数；将所述重构损失函数和所述对象聚类模块对应的聚类损失函数作为模型整体损失；

其中，在所述目标模型的训练过程中，基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量，更新所述对象聚类模块中的聚类结果；所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量；

所述基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量，更新所述对象聚类模块中的聚类结果，包括：在所述目标模型的表示学习模块中，基于编码器-解码器结构，对所述异构超图进行表示学习，得到异构网络表示矢量和超图网络表示矢量；对所述异构网络表示矢量和所述超图网络表示矢量进行线性融合，得到所述节点表示矢量；基于所述节点表示矢量更新所述对象聚类模块中的聚类结果。

2.根据权利要求1所述的基于异构超图神经网络的患者聚类方法，其特征在于，所述根据各个对象的电子病历信息，生成与所述对象对应的异构超图，包括：

3.根据权利要求2所述的基于异构超图神经网络的患者聚类方法，其特征在于，所述根据各个对象的电子病历信息，确定每个所述对象的诊疗记录节点和诊疗事件节点，包括：

4.根据权利要求2所述的基于异构超图神经网络的患者聚类方法，其特征在于，所述基于每个所述对象的诊疗记录节点和诊疗事件节点，生成与所述对象对应的异构超图，包括：

5.根据权利要求4所述的基于异构超图神经网络的患者聚类方法，其特征在于，所述根据各个所述诊疗事件节点的共现信息，确定不同所述诊疗记录节点之间的连接概率，包括：

6.一种基于异构超图神经网络的患者聚类装置，其特征在于，所述装置包括：构建模块和聚类模块；

所述聚类模块，还用于通过点积解码器对从所述异构超图中学习到的节点表示矢量进行重构，并根据重构结果，确定与所述节点表示矢量对应的所述重构损失函数；将所述重构损失函数和所述对象聚类模块对应的聚类损失函数作为模型整体损失；

所述聚类模块，还用于在所述目标模型的训练过程中，基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量，更新所述对象聚类模块中的聚类结果；所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量；

所述聚类模块，还用于在所述目标模型的表示学习模块中，基于编码器-解码器结构，对所述异构超图进行表示学习，得到异构网络表示矢量和超图网络表示矢量；对所述异构网络表示矢量和所述超图网络表示矢量进行线性融合，得到所述节点表示矢量；基于所述节点表示矢量更新所述对象聚类模块中的聚类结果。

7.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求5中任一项所述的基于异构超图神经网络的患者聚类方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求5中任一项所述的基于异构超图神经网络的患者聚类方法的步骤。