CN117352189B

CN117352189B - 基于高阶拓扑结构的异常行为评估方法、系统及设备

Info

Publication number: CN117352189B
Application number: CN202311663738.1A
Authority: CN
Inventors: 肖飞; 王晓康; 侯文慧; 王奕婷; 王坚强
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-15
Anticipated expiration: 2043-12-06
Also published as: CN117352189A

Abstract

本发明提供一种基于高阶拓扑结构的异常行为评估方法、系统及设备，该方法包括如下步骤：获取目标医院的历史诊疗数据；通过特征统计算法从历史诊疗数据中提取异常行为特征；结合历史诊疗数据和异常行为特征构建目标医院的异质图网络；基于编码器和对比损失函数构建图神经网络模型，并利用图神经网络模型从异质图网络中提取高阶拓扑结构特征；结合高阶拓扑结构特征和异常行为特征构建目标医院的异常行为评估模型；将历史诊疗数据输入至异常行为评估模型，并通过异常行为评估模型评估目标医院中的异常行为。本发明具有提升异常行为评估模型准确性的效果。

Description

基于高阶拓扑结构的异常行为评估方法、系统及设备

技术领域

本发明属于机器学习技术领域，具体是涉及到一种基于高阶拓扑结构的异常行为评估方法、系统及设备。

背景技术

随着信息技术的不断兴起及区域医疗的蓬勃发展，医疗机构将病历信息联网保存，将与医疗保险有关的医保数据上传到相应的医保局，医保数据开始实现互联互通，其规模逐渐增长。医保数据包括参保人、诊断、用药、检查情况等信息，其中蕴含了大量的医疗服务知识和规律，也隐藏了少量的异常行为。由于医保数据数量大、产生快、维度高，同时异常行为主体复杂，因此，在医保数据中快速发现规律、评估异常行为具有非常重要的意义。

现有的异常行为评估模型虽然构建了费用相关的特征，但是这些特征缺乏对就诊行为过程的特征提取，导致评估模型的性能受到较大影响。在整个就诊行为过程中包含多个不同类型的实体，这些实体依据不同的历史就诊记录相互连接构成了关联关系。部分研究中针对不同类型的实体或者不同类型的关联关系，采用有监督学习或者半监督学习的方式来捕捉网络中的高阶拓扑结构，但由于标记样本获取困难且标签信息不完整等问题导致样本标签不足，而样本标签不足的问题会对模型的性能和泛化能力产生负面影响，导致评估模型的准确性下降。

发明内容

本发明提供一种基于高阶拓扑结构的异常行为评估方法、系统及设备，以解决样本标签不足导致评估模型准确性下降的问题。

第一方面，本发明提供一种基于高阶拓扑结构的异常行为评估方法，该方法包括如下步骤：

获取目标医院的历史诊疗数据；

通过特征统计算法从所述历史诊疗数据中提取异常行为特征；

结合所述历史诊疗数据和所述异常行为特征构建所述目标医院的异质图网络；

基于编码器和对比损失函数构建图神经网络模型，并利用所述图神经网络模型从所述异质图网络中提取高阶拓扑结构特征，所述编码器为基于异质多头注意力机制的编码器；

结合所述高阶拓扑结构特征和所述异常行为特征构建所述目标医院的异常行为评估模型；

将所述历史诊疗数据输入至所述异常行为评估模型，并通过所述异常行为评估模型评估所述目标医院中的异常行为。

可选的，所述基于编码器和对比损失函数构建图神经网络模型，并利用所述图神经网络模型从所述异质图网络中提取高阶拓扑结构特征包括如下步骤：

基于编码器和对比损失函数构建图神经网络模型；

对所述异质图网络进行数据增强处理，得到两个不同的异质图网络视图，两个所述异质图网络视图的节点数据分布均与所述异质图网络相同，且节点特征和节点关联关系均与所述异质图网络不同；

基于两个所述异质图网络视图并通过所述对比损失函数更新所述图神经网络模型的模型参数；

利用所述图神经网络模型中的所述编码器提取所述异质图网络中的高阶拓扑结构特征。

可选的，所述对所述异质图网络进行数据增强处理，得到两个不同的异质图网络视图包括如下步骤：

统计所述异质图网络中的节点边数量以及所述异质图网络中所有节点的节点特征数量；

结合所述节点边数量和所述节点特征数量生成扰动概率；

利用伯努利分布为所述异质图网络中的每个节点边和每个节点特征均生成一个扰动随机数；

将所述扰动随机数小于所述扰动概率的节点边去除，并将所述扰动随机数小于所述扰动概率的节点特征屏蔽，得到一个所述异质图网络对应的异质图网络视图；

对所述异质图网络重复一次上述步骤，得到另一个不同的异质图网络视图。

可选的，所述编码器由多个图神经网络层组成，每个所述图神经网络层均包含异质注意函数、异质信息传递函数和聚合函数。

可选的，所述利用所述图神经网络模型中的所述编码器提取所述异质图网络中的高阶拓扑结构特征包括如下步骤：

选取所述异质图网络中的任一节点作为目标节点，并选取所述异质图网络中任一与所述目标节点不同类型的节点作为源节点；

利用所述图神经网络模型中的所述编码器将所述目标节点和所述源节点的节点特征投射至目标特征空间，得到所述目标节点和所述源节点的目标节点特征；

结合所述目标节点特征和所述异质图网络的关联关系类型，并根据所述异质注意函数在所述目标特征空间建立所述目标节点和所述源节点之间的目标异质注意函数；

结合所述关联关系类型和所述异质图网络的实体类型，并根据所述异质信息传递函数在所述目标特征空间构建所述目标节点的目标异质信息传递函数；

结合所述目标异质注意函数和所述目标异质信息传递函数计算得到所述目标节点的一阶邻居聚合信息；

将所述一阶邻居聚合信息映射至所述目标节点的原始特征空间，得到高阶拓扑结构特征。

可选的，两个所述异质图网络视图分别为第一异质网络视图和第二异质网络视图，所述基于两个所述异质图网络视图并通过所述对比损失函数更新所述图神经网络模型的模型参数包括如下步骤：

对于所述异质网络图中的同一节点，分别从所述第一异质网络视图和所述第二异质网络视图中获取第一表示向量和第二表示向量；

将所述第一表示向量和所述第二表示向量组合为正样本对，并将所述第一异质网络视图和所述第二异质网络视图中其他所有节点的表示向量组合为负样本集合；

基于所述负样本集合并通过所述对比损失函数分别计算所述正样本对在两个所述异质图网络视图中的正样本对相似度；

结合所述正样本对相似度和所述正样本对的正样本对数量计算得到正样本对相似度平均值作为对比损失函数值；

利用反向传播算法计算所述对比损失函数值对所述图神经网络模型中模型参数的更新梯度；

通过优化算法并根据所述更新梯度更新所述模型参数。

可选的，所述第一异质图网络视图的所述正样本对相似度计算公式如下：

式中：表示所述第一异质图网络视图的所述正样本对相似度，/>表示所述异质图网络中的节点，/>表示第/>个节点的第一表示向量，/>表示第/>个节点的第二表示向量，/>表示所述第一异质图网络视图的所述正样本对，/>表示所述第一异质图网络视图和所述第二异质图网络视图之间的负样本对，/>表示所述第一异质图网络视图内的负样本对，/>表示温度参数，/>，/>表示两层感知机，/>表示指示函数；

所述第二异质图网络视图的所述正样本对相似度计算公式如下：

式中：表示所述第一异质图网络视图的所述正样本对相似度，/>表示所述第二异质图网络视图的所述正样本对，/>表示所述第二异质图网络视图和所述第一异质图网络视图之间的负样本对，/>表示所述第二异质图网络视图内的负样本对。

可选的，所述对比损失函数值的计算公式如下：

式中：表示所述对比损失函数值，/>表示所述正样本对的样本对数量。

第二方面，本发明还提供一种基于高阶拓扑结构的异常行为评估系统，所述系统包括：

数据获取模块，用于获取目标医院的历史诊疗数据；

异常特征提取模块，用于通过特征统计算法从所述历史诊疗数据中提取异常行为特征；

图网络构建模块，用于结合所述历史诊疗数据和所述异常行为特征构建所述目标医院的异质图网络；

高阶特征提取模块，用于基于编码器和对比损失函数构建图神经网络模型，并利用所述图神经网络模型从所述异质图网络中提取高阶拓扑结构特征，所述编码器为基于异质多头注意力机制的编码器；

评估模型构建模块，用于结合所述高阶拓扑结构特征和所述异常行为特征构建所述目标医院的异常行为评估模型；

模型评估模块，用于将所述历史诊疗数据输入至所述异常行为评估模型，并通过所述异常行为评估模型评估所述目标医院中的异常行为。

第三方面，本发明还提供一种设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中所述的基于高阶拓扑结构的异常行为评估方法。

本发明的有益效果是：

本发明所采用的基于高阶拓扑结构的异常行为评估方法包括如下步骤：获取目标医院的历史诊疗数据；通过特征统计算法从历史诊疗数据中提取异常行为特征；结合历史诊疗数据和异常行为特征构建目标医院的异质图网络；基于编码器和对比损失函数构建图神经网络模型，并利用图神经网络模型从异质图网络中提取高阶拓扑结构特征；结合高阶拓扑结构特征和异常行为特征构建目标医院的异常行为评估模型；将历史诊疗数据输入至异常行为评估模型，并通过异常行为评估模型评估目标医院中的异常行为。通过上述步骤，基于历史诊疗数据构建出了医院多类型主体的异质图网络，通过图神经网络模型的编码器和对比损失函数，不仅可以更加细粒度地挖掘异质图网络中的高阶拓扑结构特征，根据高阶拓扑结构特征构建评估模型时还能避免模型对少数类别样本的训练不充分，致使模型欠拟合，因此可以提升评估模型的评估精度。

附图说明

图1为本发明中基于高阶拓扑结构的异常行为评估方法的流程示意图。

图2为本发明中异质图网络的网络结构示意图。

图3为本发明中对异质图网络进行数据增强处理的过程示意图。

具体实施方式

本发明公开一种基于高阶拓扑结构的异常行为评估方法。需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

参照图1，基于高阶拓扑结构的异常行为评估方法具体包括如下步骤：

S101.获取目标医院的历史诊疗数据。

其中，通过目标医院的综合收费管理系统获取到目标医院的历史诊疗数据，历史诊疗数据主要包括在目标医院中就诊病人的各项诊疗流程清单，如住院清单、挂号清单、门诊清单等，各项清单中又具体包含了就诊医生信息、科室信息、疾病编码、费用详情等具体信息。

S102.通过特征统计算法从历史诊疗数据中提取异常行为特征。

其中，异常行为特征主要包括历史费用特征、疾病编码特征以及治疗过程特征，其中对于历史费用特征的提取，可以根据每个医生的账单历史记录，计算总费用、平均费用、最大费用、最小费用、费用方差等统计数据，并进一步计算每个医生的费用增长率，即每个账单的费用与上一个账单的费用之间的差异，从而将上述统计数据作为历史费用特征。

疾病编码特征通常指的是医学诊断编码，如国际疾病分类（ICD）编码。这些编码用于对患者的诊断进行分类和编码，以便在医疗记录中进行标识和跟踪。疾病编码特征可以包括患者诊断的主要疾病和相关的次要疾病，用于描述患者的健康状况和疾病情况。

治疗过程特征可以包括患者接受的治疗类型、药物治疗信息、手术信息、治疗持续时间、治疗次数等。这些特征可以描述患者的治疗历史和过程，对于分析患者的治疗效果、疗程和治疗方案的合理性非常重要。

对于疾病编码特征的提取，可以从门诊和住院两方面出发，分别统计每个医生涉及的不同疾病编码的数量。通过门诊清单可以计算每个医生门诊疾病编码的数量，包括每种疾病编码的出现次数。通过住院清单可以计算每个医生住院疾病编码的数量，包括每种疾病编码的出现次数。对于治疗过程特征的提取，可以统计每个医生的门诊患者数量和住院患者数量，并统计每个医生的门诊医疗记录数量和住院医疗记录数量。

S103.结合历史诊疗数据和异常行为特征构建目标医院的异质图网络。

其中，历史诊疗数据的主体通常是提供医疗服务的医生和报销相关医疗服务的患者，但为了充分利用历史诊疗数据中的信息，需要将门诊和住院也作为图网络的网络节点。基于异常行为特征构将历史诊疗数据中所出现的医生、患者、门诊或住院节点相连，即可得到目标医院的异质图网络。

因此，本实施方式中的异质图网络是一个由四种不同类型节点构成的四元网络，参照图2，包括患者(P)、医生(B)、门诊(OC)和住院(IC)，其中同类型的节点内部没有边相连，异质图网络中还包含不同类型的边(关系)。具体而言，患者-医生异质图网络可定义为，其中实体/>，/>表示实体集合；实体/>和实体/>的关联关系可表示为，/>表示关联关系的集合；/>和/>分别表示实体类型和关联关系类型。/>中的每一个实体同另一个来自/>中的实体相连，/>中的关联关系则连接了/>中的两个实体。使用/>来表示P中医生节点的总数量，/>用于表示每一个医生，其中/>。同样的，使用/>、/>和/>分别表示集合B、OC和IC中节点总数量，并且使用/>、/>和/>分别表示每一个患者、门诊和住院节点，其中/>，/>，。节点/>的/>阶邻居为/>，它表示距离节点/>有/>条边的节点。因此，节点/>的一阶邻居节点可以表示为：

其中，表示/>和/>之间的边，/>表示/>和/>之间的边。

S104.基于编码器和对比损失函数构建图神经网络模型，并利用图神经网络模型从异质图网络中提取高阶拓扑结构特征。

其中，编码器为基于异质多头注意力机制的编码器，基于编码器和对比损失函数构建的图神经网络模型，其目标是在不使用标签信息的情况下提取异质图网络的高阶结构特征，即通过编码器将图中每个实体/>的高阶拓扑结构编码为一个/>维向量，其中/>和/>分别表示特征矩阵和邻接矩阵。

S105.结合高阶拓扑结构特征和异常行为特征构建目标医院的异常行为评估模型。

其中，可以使用机器学习算法对高阶拓扑结构特征和异常行为特征结构之间的关系进行建模，机器学习算法包括逻辑回归(IR).随机森林(RF)，极限梯度提升树模型(XGB)、梯度提升框架(LGB)、深度神经网络(DNN)和长短期记忆网络(LSTM)。

其中，LR是一种常用的线性分类方法。因为它易于实现且运行速度快。RF、XGB和LGB是三种基于决策树模型的集成学习算法。集成学习的基本思想是将多个分类器组合起来，得到一个预测结果更好的集成分类器。RF采用Bagging的思想，即采用有放回抽样的方式得到若干训练集，基于此训练若干基分类器，然后通过投票的方式来决定最终的分类。XGB是梯度提升决策树的高效且可扩展的实现方式，它通过在损失函数中加入正则化因子来减少过拟合，从而提高模型的性能。在XGB中，该算法不断添加树和改变特征以生成决策树。每次添加树时，都会学习一个新函数来拟合最后预测的残差。LGB是一种基于决策树算法的快速、分布式、高性能的梯度提升框架。与XGB不同，LGB对决策树采用逐叶增长策略，即每次从当前叶子中寻找分裂增益最高的叶子进行分裂，以实现循环的增长。DNN和LSTM是具有深度学习架构的神经网络算法。LSTM特别适用于序列数据，其借助遗忘门的输入、输出和计算函数以及隐藏状态的记忆单元在每个时间步中提取序列反馈信息。构建出异常行为评估模型后，采用卡方检验方法对模型进行可解释性分析。

S106.将历史诊疗数据输入至异常行为评估模型，并通过异常行为评估模型评估目标医院中的异常行为。

本实施方式的实施原理为：

获取目标医院的历史诊疗数据；通过特征统计算法从历史诊疗数据中提取异常行为特征；结合历史诊疗数据和异常行为特征构建目标医院的异质图网络；基于编码器和对比损失函数构建图神经网络模型，并利用图神经网络模型从异质图网络中提取高阶拓扑结构特征；结合高阶拓扑结构特征和异常行为特征构建目标医院的异常行为评估模型；将历史诊疗数据输入至异常行为评估模型，并通过异常行为评估模型评估目标医院中的异常行为。通过上述步骤，基于历史诊疗数据构建出了医院多类型主体的异质图网络，通过图神经网络模型的编码器和对比损失函数，不仅可以更加细粒度地挖掘异质图网络中的高阶拓扑结构特征，根据高阶拓扑结构特征构建评估模型时还能避免模型对少数类别样本的训练不充分，致使模型欠拟合，因此可以提升评估模型的评估精度。

在其中一种实施方式中，步骤S104具体包括如下步骤：

基于编码器和对比损失函数构建图神经网络模型；

对异质图网络进行数据增强处理，得到两个不同的异质图网络视图，两个异质图网络视图的节点数据分布均与异质图网络相同，且节点特征和节点关联关系均与异质图网络不同；

基于两个异质图网络视图并通过对比损失函数更新图神经网络模型的模型参数；

利用图神经网络模型中的编码器提取异质图网络中的高阶拓扑结构特征。

在本实施方式中，通过数据增强处理方法处理异质图网络得到图的两个不同视图，两个不同视图为异质图网络中每个节点提供不同的上下文。考虑到异质图对比学习依赖于节点表示之间的对比，因此有必要选择合适的方法来生成网络视图。具体来说，可以根据伯努利分布对异质图网络中的实体关系施加扰动以随机去除部分边，同时，采用伯努利分布来屏蔽节点的部分特征。与有监督的图表示学习模型交叉熵损失函数相比，对比损失函数可以使用与标签无关的网络信息来指导模型更新参数，最后利用图神经网络模型中的编码器提取异质图网络中的高阶拓扑结构特征。

在其中一种实施方式中，对异质图网络进行数据增强处理，得到两个不同的异质图网络视图这一步骤具体包括如下步骤：

统计异质图网络中的节点边数量以及异质图网络中所有节点的节点特征数量；

结合节点边数量和节点特征数量生成扰动概率；

利用伯努利分布为异质图网络中的每个节点边和每个节点特征均生成一个扰动随机数；

将扰动随机数小于扰动概率的节点边去除，并将扰动随机数小于扰动概率的节点特征屏蔽，得到一个异质图网络对应的异质图网络视图；

对异质图网络重复一次上述步骤，得到另一个不同的异质图网络视图。

在本实施方式中，首先统计异质图网络中的节点边数量以及异质图网络中所有节点的节点特征数量，节点边表示异质图网络中任意两个节点之间的边。基于节点边数量和节点特征数量，并根据需要去除边的比例或屏蔽节点特征的比例，生成一个扰动概率p。对于异质网络图中的每个节点边或节点特征，使用伯努利分布生成一个随机数，如果节点边对应的随机数小于扰动概率p，则该节点边被去除，对于节点边的去除，可以将对应的节点边从异质图网络中删除。如果节点特征对应的随机数小于扰动概率p，则该节点特征被屏蔽。对于节点特征的屏蔽，可以将对应节点的特征向量置为0或者用一个特定的屏蔽值进行替换。

参照图3，基于以上步骤遍历异质图网络中所有节点边和节点特征后，可以在一定程度上引入随机性，使得网络的结构和特征发生变化，得到其中一个异质图网络视图，再采用同样的步骤对原始异质图网络进行处理，得到另一个不同的异质图网络视图。

在其中一种实施方式中，基于异质多头注意力机制的编码器由多个图神经网络层组成。图神经网络第层的输出表示为/>，这也是第/>层的输入。每个图神经网络层包含三个重要的函数：异质注意函数/>、异质信息传递函数和聚合函数/>。

在本实施方式中，利用图神经网络模型中的编码器提取异质图网络中的高阶拓扑结构特征这一步骤具体包括如下步骤：

选取异质图网络中的任一节点作为目标节点，并选取异质图网络中任一与目标节点不同类型的节点作为源节点；

利用图神经网络模型中的编码器将目标节点和源节点的节点特征投射至目标特征空间，得到目标节点和源节点的目标节点特征；

结合目标节点特征和异质图网络的关联关系类型，并根据异质注意函数在目标特征空间建立目标节点和源节点之间的目标异质注意函数；

结合关联关系类型和异质图网络的实体类型，并根据异质信息传递函数在目标特征空间构建目标节点的目标异质信息传递函数；

结合目标异质注意函数和目标异质信息传递函数计算得到目标节点的一阶邻居聚合信息；

将一阶邻居聚合信息映射至目标节点的原始特征空间，得到高阶拓扑结构特征。

在本实施方式中，由于节点的异质性，不同类型的节点具有不同的特征空间。因此，对于每一种类型的节点，需要设计特定类型的转换函数，将不同类型的节点的特征投射到同一目标特征空间。具体公式如下：

式中：表示目标节点，/>表示源节点，/>表示目标节点在目标特征空间中的目标节点特征，/>表示源节点在目标特征空间中的目标节点特征，/>表示目标节点在第/>层图神经网络中的高阶拓扑结构，/>表示源节点在第/>层图神经网络中的高阶拓扑结构，表示最初始的特征，/>和/>分别代表不同类型实体的线性映射函数，/>表示异质多头注意力机制中的头数。

为了捕捉异质图网络中实体类型和关联关系类型之间的相互作用，有必要在不同关联关系类型的条件下对两个实体之间的注意力进行建模。基于此，可以通过异质注意函数量化一阶邻居对目标节点的重要性，因此结合目标节点特征和异质图网络的关联关系类型，并根据异质注意函数在目标特征空间建立目标节点和源节点之间的目标异质注意函数，具体的计算方式如下：

其中，，/>代表关联关系类型的一种线性映射函数，/>表示多头注意力的拼接符号；/>为激活函数。/>为高阶拓扑结构编码的维度。

与异质注意函数类似，在对一阶邻居信息进行编码时，实体类型和关联关系类型需要同时被考虑，因此可以结合关联关系类型和异质图网络的实体类型，并根据异质信息传递函数在目标特征空间构建目标节点的目标异质信息传递函数，其计算方法如下：

其中，表示关联关系类型的特征表示，/>表示不同类型实体的线性映射函数，/>表示关联关系类型的一种线性映射函数。通过将所获得的目标异质注意函数和目标异质信息传递函数相乘，可以获得目标节点的一阶邻居聚合信息，具体的公式如下：

最后，通过线性映射函数把所得到的一阶邻居聚合信息/>映射至目标节点的原始特征空间，从而得到高阶拓扑结构特征，具体公式如下：

其中，表示激活函数，/>表示高阶拓扑结构特征。

在其中一种实施方式中，两个异质图网络视图分别为第一异质网络视图和第二异质网络视图，基于两个异质图网络视图并通过对比损失函数更新图神经网络模型的模型参数这一步骤具体包括如下步骤：

对于异质网络图中的同一节点，分别从第一异质网络视图和第二异质网络视图中获取第一表示向量和第二表示向量；

将第一表示向量和第二表示向量组合为正样本对，并将第一异质网络视图和第二异质网络视图中其他所有节点的表示向量组合为负样本集合；

基于负样本集合并通过对比损失函数分别计算正样本对在两个异质图网络视图中的正样本对相似度；

结合正样本对相似度和正样本对的正样本对数量计算得到正样本对相似度平均值作为对比损失函数值；

利用反向传播算法计算对比损失函数值对图神经网络模型中模型参数的更新梯度；

通过优化算法并根据更新梯度更新模型参数。

在本实施方式中，参照图3，通过使用一个对比目标将同一节点在这两个不同异质图网络视图中的高阶拓扑结构表示与其他节点区分开来。对于异质图网络视图中的每个节点，从一个异质图网络视图中得到表示向量，被视为锚，从另一个异质图网络视图中得到的表示向量/>是正样本，而其他节点的表示向量构成负样本集合。第一异质图网络视图的正样本对相似度计算公式如下：

式中：表示第一异质图网络视图的正样本对相似度，对于异质图网络中的节点，/>表示第/>个节点的第一表示向量，/>表示第/>个节点的第二表示向量，/>表示第一异质图网络视图的正样本对，/>表示第一异质图网络视图和第二异质图网络视图之间的负样本对，/>表示第一异质图网络视图内的负样本对，/>表示温度参数，，/>表示两层感知机，/>表示指示函数，负样本来自两个部分，包括视图间或视图内实体组成的样本对，/>即为视图间实体组成的样本对/>即为视图内实体组成的样本对。

由于两个异质图网络视图是对称的，第二异质图网络视图的正样本对相似度计算公式如下：

式中：表示第一异质图网络视图的正样本对相似度，/>表示第二异质图网络视图的正样本对，/>表示第二异质图网络视图和第一异质图网络视图之间的负样本对，/>表示第二异质图网络视图内的负样本对。

对比损失函数值的计算公式如下：

式中：表示对比损失函数值，/>表示正样本对的样本对数量。

在其中一种实施方式中，可以使用实际患者就诊数据集对异常行为评估模型进行模型验证，选择准确性Accuracy、精确度Precision、召回分数Recall和F1-分数F1-score作为预测性能综合评价指标。同时，考虑到数据集存在严重的不平衡分布，正样本与负样本的比例达到了1:10，采用了代表性的合成少数过采样方法（SMOTE）来平衡样本分布，提升模型的预测性能。

为了检验异常行为相关特征能否显著提升模型的预测性能，将现有异常行为信息评估研究中常用的特征作为基础特征集A，包括门诊患者总数、门诊医疗记录总数、住院患者总数、门诊医疗记录总数、门诊报销总金额、门诊自付总金额、住院报销总金额、住院自付总金额。基于预设的异常行为实例所构建的特征命名为特征集B。实验结果如表1所示，表中加黑数值代表集合A和集合B在不同模型中的最优预测值，括号中的数值代表30组bootstrap的标准差。

表中结果显示，使用特征集B的所有模型的Accuracy值明显高于使用特征集A的模型。就Recall值而言，除了XGB算法使用特征集A的预测性能高于使用特征集B外，其他算法中使用特征集B时的预测性能都明显高于使用特征集A。这意味着大多数算法对异常行为实例非常敏感。在异常行为评估的情形下，将异常性样本（实际为阳性）预测为正常性样本（预测为阴性）会给医保局带来很大的损失，所以Recall值是评估预测模型的一个关键指标。除LR外，使用特征集B检测异常行为的Precision明显优于使用特征集A。一个可能的解释是特征集B组提供了更加充分的训练信息。因此，当预测模型使用强大的非线性分类器时，特征集B能够使模型预测性能更好。然而，当预测模型使用LR等线性模型时，过多的特征可能导致模型过拟合，从而降低模型在测试集上的性能。相比于Recall和Precision，F1-score是一个更加平衡的预测性能指标。具体来说，特征集B的F1-score分数明显优于特征集A。

表1 基于不同特征集合的医生异常医疗信息评估性能对比

其中，表1中加黑数值代表集合A和集合B在不同模型下的最优预测值，括号中的数值代表30组bootstrap的标准差。

为了检验基于异质图网络的高阶拓扑结构能否提升异常行为预测的准确性。将传统的图网络结构特征，即节点度方法、度中心性和特征向量中心性，作为网络基准特征集C。将基于异质图网络提取的高阶拓扑结构特征作为特征集D。根据特征集B和网络基准特征集C、特征集B和网络高阶拓扑特征集D构建异常行为评估模型，检验高阶拓扑结构特征的预测能力。评估结果如表2所示，表中加黑数值代表集合C和集合D在不同模型下的最优预测值，括号中的数值代表30组bootstrap的标准差。表中结果显示：考虑了异质图网络的结构特征之后，所有模型的预测性能都有了提升。相较于传统的网络结构特征，基于异质图表示学习的高阶拓扑结构特征能使模型的预测性能提升的幅度更大。

表2 高阶拓扑结构特征与传统网络结构特征预测性能对比

/>

其中，表2中加黑数值代表集合C和集合D在不同模型下的最优预测值，括号中的数值代表30组bootstrap的标准差。

为了比较考虑不同实体和关联关系类型的异质注意力机制和常见的面向不同类型实体或者关联关系的注意力机制。保持基于异质图表示学习的高阶拓扑结构特征构造的其它模块不变，仅仅改变其中的注意力机制，分别构建基于实体注意力机制的异质图表示学习和基于关联关系注意力机制的异质图表示学习模型，进而比较不同注意力机制的预测效果。不同类型的高阶拓扑结构特征预测性能如表3所示。考虑到在上述的不同模型的预测结果中，RF和LGB表现最好，并且采用不同的预测模型并不会对本部分所需验证的结论产生影响，因此选择了RF和LGB两种模型进行实验。

表3中加黑数值代表基于不同高阶拓扑结构特征的模型最优预测值，括号中的数值代表30组bootstrap的标准差。集合E表示基于关联关系注意力机制的高阶拓扑结构特征，集合F表示基于实体注意力机制的高阶拓扑结构特征。从表中不难发现，集合E和集合F虽然能够增强预测模型在各项评价指标上的表现，但是大部分评价指标的提升效果不明显。而加入基于异质注意力机制的高阶拓扑结构特征能很好的提升模型的预测性能。

表3 不同高阶拓扑结构特征的预测性能

为了比较无监督异质图表示学习和有监督异质图表示学习模型。通过将所提无监督异质图表示学习中的对比损失函数替换为常见的二分类交叉熵损失函数构建有监督异质图表示学习模型，进而比较不同模型的预测效果。预测结果如表4所示，其中加黑数值代表基于不同高阶拓扑结构特征的模型最优预测值，括号中的数值代表30组bootstrap的标准差。集合G表示基于有监督异质图表示学习的高阶拓扑结构特征。从表中不难发现，基于有监督异质图表示学习的高阶拓扑结构特征能有效提升模型的预测性能，但是提升幅度有限。所提出的基于无监督异质图表示学习的高阶拓扑结构在所有指标中的预测表现均优于有监督异质图表示学习的高阶拓扑结构，这证明了所提无监督异质图表示学习方法的有效性。

表4 不同特征组合的预测性能

本发明还公开一种基于高阶拓扑结构的异常行为评估系统，系统包括：

数据获取模块，用于获取目标医院的历史诊疗数据；

异常特征提取模块，用于通过特征统计算法从历史诊疗数据中提取异常行为特征；

图网络构建模块，用于结合历史诊疗数据和异常行为特征构建目标医院的异质图网络；

高阶特征提取模块，用于基于编码器和对比损失函数构建图神经网络模型，并利用图神经网络模型从异质图网络中提取高阶拓扑结构特征，编码器为基于异质多头注意力机制的编码器；

评估模型构建模块，用于结合高阶拓扑结构特征和异常行为特征构建目标医院的异常行为评估模型；

模型评估模块，用于将历史诊疗数据输入至异常行为评估模型，并通过异常行为评估模型评估目标医院中的异常行为。

本实施方式的实施原理为：

通过数据获取模块获取目标医院的历史诊疗数据。通过异常特征提取模块并利用特征统计算法从历史诊疗数据中提取异常行为特征。通过图网络构建模块并结合历史诊疗数据和异常行为特征构建目标医院的异质图网络。通过高阶特征提取模块基于编码器和对比损失函数构建图神经网络模型，并利用图神经网络模型从异质图网络中提取高阶拓扑结构特征。通过评估模型构建模块结合高阶拓扑结构特征和异常行为特征构建目标医院的异常行为评估模型。通过模型评估模块将历史诊疗数据输入至异常行为评估模型，并通过异常行为评估模型评估目标医院中的异常行为。通过上述模块所执行的步骤，基于历史诊疗数据构建出了医院多类型主体的异质图网络，通过图神经网络模型的编码器和对比损失函数，不仅可以更加细粒度地挖掘异质图网络中的高阶拓扑结构特征，根据高阶拓扑结构特征构建评估模型时还能避免模型对少数类别样本的训练不充分，致使模型欠拟合，因此可以提升评估模型的评估精度。

在其中一种实施方式中，所述编码器由多个图神经网络层组成，每个所述图神经网络层均包含异质注意函数、异质信息传递函数和聚合函数。

在其中一种实施方式中，高阶特征提取模块具体包括：

模型构建单元，用于基于编码器和对比损失函数构建图神经网络模型；

数据增强单元，用于对所述异质图网络进行数据增强处理，得到两个不同的异质图网络视图，两个所述异质图网络视图的节点数据分布均与所述异质图网络相同，且节点特征和节点关联关系均与所述异质图网络不同；

模型参数更新单元，用于基于两个所述异质图网络视图并通过所述对比损失函数更新所述图神经网络模型的模型参数；

特征提取单元，用于利用所述图神经网络模型中的所述编码器提取所述异质图网络中的高阶拓扑结构特征。

在其中一种实施方式中，数据增强单元具体包括：

特征统计子单元，用于统计所述异质图网络中的节点边数量以及所述异质图网络中所有节点的节点特征数量；

概率生成子单元，用于结合所述节点边数量和所述节点特征数量生成扰动概率；

随机数生成子单元，用于利用伯努利分布为所述异质图网络中的每个节点边和每个节点特征均生成一个扰动随机数；

图网络扰动子单元，用于将所述扰动随机数小于所述扰动概率的节点边去除，并将所述扰动随机数小于所述扰动概率的节点特征屏蔽，得到一个所述异质图网络对应的异质图网络视图；

重复执行子单元，用于驱动特征统计子单元、概率生成子单元、随机数生成子单元、图网络扰动子单元重复执行预设的程序。

本发明还公开一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任意一种实施方式中所描述的基于高阶拓扑结构的异常行为评估方法。

本实施方式的实施原理为：

通过程序的调取执行以下步骤：

获取目标医院的历史诊疗数据；通过特征统计算法从历史诊疗数据中提取异常行为特征；结合历史诊疗数据和异常行为特征构建目标医院的异质图网络；基于编码器和对比损失函数构建图神经网络模型，并利用图神经网络模型从异质图网络中提取高阶拓扑结构特征；结合高阶拓扑结构特征和异常行为特征构建目标医院的异常行为评估模型；将历史诊疗数据输入至异常行为评估模型，并通过异常行为评估模型评估目标医院中的异常行为。通过上述步骤的执行，基于历史诊疗数据构建出了医院多类型主体的异质图网络，通过图神经网络模型的编码器和对比损失函数，不仅可以更加细粒度地挖掘异质图网络中的高阶拓扑结构特征，根据高阶拓扑结构特征构建评估模型时还能避免模型对少数类别样本的训练不充分，致使模型欠拟合，因此可以提升评估模型的评估精度。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的保护范围限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上的本申请中一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请中一个或多个实施例旨在涵盖落入本申请的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请中一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于高阶拓扑结构的异常行为评估方法，其特征在于，包括如下步骤：

获取目标医院的历史诊疗数据；

基于编码器和对比损失函数构建图神经网络模型，所述编码器为基于异质多头注意力机制的编码器，所述编码器由多个图神经网络层组成，每个所述图神经网络层均包含异质注意函数、异质信息传递函数和聚合函数；

利用所述图神经网络模型中的所述编码器将所述目标节点和所述源节点的节点特征投射至目标特征空间，得到所述目标节点和所述源节点的目标节点特征，具体公式如下：

式中：表示目标节点，/>表示源节点，/>表示目标节点在目标特征空间中的目标节点特征，/>表示源节点在目标特征空间中的目标节点特征，/>表示目标节点在第/>层图神经网络中的高阶拓扑结构，/>表示源节点在第/>层图神经网络中的高阶拓扑结构，表示最初始的特征，/>和/>分别代表不同类型实体的线性映射函数，/>表示异质多头注意力机制中的头数；

结合所述目标节点特征和所述异质图网络的关联关系类型，并根据所述异质注意函数在所述目标特征空间建立所述目标节点和所述源节点之间的目标异质注意函数，具体公式如下：

其中，，/>表示关联关系，/>表示关联关系类型，/>代表关联关系类型的一种线性映射函数，/>表示多头注意力的拼接符号；/>为激活函数，/>为高阶拓扑结构编码的维度；

结合所述关联关系类型和所述异质图网络的实体类型，并根据所述异质信息传递函数在所述目标特征空间构建所述目标节点的目标异质信息传递函数，具体公式如下：

其中，表示关联关系类型的特征表示，/>表示不同类型实体的线性映射函数，/>表示关联关系类型的一种线性映射函数；

结合所述目标异质注意函数和所述目标异质信息传递函数计算得到所述目标节点的一阶邻居聚合信息，具体公式如下：

将所述一阶邻居聚合信息映射至所述目标节点的原始特征空间，得到高阶拓扑结构特征，具体公式如下：

其中，表示激活函数，/>表示高阶拓扑结构特征，/>表示线性映射函数；

2.根据权利要求1所述的基于高阶拓扑结构的异常行为评估方法，其特征在于，所述对所述异质图网络进行数据增强处理，得到两个不同的异质图网络视图包括如下步骤：

结合所述节点边数量和所述节点特征数量生成扰动概率；

3.根据权利要求1所述的基于高阶拓扑结构的异常行为评估方法，其特征在于，两个所述异质图网络视图分别为第一异质网络视图和第二异质网络视图，所述基于两个所述异质图网络视图并通过所述对比损失函数更新所述图神经网络模型的模型参数包括如下步骤：

通过优化算法并根据所述更新梯度更新所述模型参数。

4.根据权利要求3所述的基于高阶拓扑结构的异常行为评估方法，其特征在于，所述第一异质图网络视图的所述正样本对相似度计算公式如下：

式中：表示所述第一异质图网络视图的所述正样本对相似度，对于所述异质图网络中的每个节点，从一个异质图网络视图中得到表示向量/>，从另一个异质图网络视图中得到的表示向量/>是正样本，/>表示第/>个节点的第一表示向量，/>表示第/>个节点的第二表示向量，/>表示所述第一异质图网络视图的所述正样本对，/>表示所述第一异质图网络视图和所述第二异质图网络视图之间的负样本对，/>表示所述第一异质图网络视图内的负样本对，/>表示温度参数，/>，/>表示两层感知机，/>表示指示函数；负样本包括视图间或视图内实体组成的样本对，/>表示所述正样本对的样本对数量；

式中：表示所述第二异质图网络视图的所述正样本对相似度，/>表示所述第二异质图网络视图的所述正样本对，/>表示所述第二异质图网络视图和所述第一异质图网络视图之间的负样本对，/>表示所述第二异质图网络视图内的负样本对，/>表示所述正样本对的样本对数量。

5.根据权利要求4所述的基于高阶拓扑结构的异常行为评估方法，其特征在于，所述对比损失函数值的计算公式如下：

6.一种设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的基于高阶拓扑结构的异常行为评估方法。