CN116564534A

CN116564534A - 中医临床数据的多视图聚类方法、装置及电子设备

Info

Publication number: CN116564534A
Application number: CN202310347923.3A
Authority: CN
Inventors: 李冬梅; 田紫微; 张小平; 张磊; 姜文娟; 张润顺; 赵玉凤
Original assignee: Institute Of Information On Traditional Chinese Medicine Cacms; Beijing Forestry University
Current assignee: Institute Of Information On Traditional Chinese Medicine Cacms; Beijing Forestry University
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-08-08

Abstract

本发明提供一种中医临床数据的多视图聚类方法、装置及电子设备，涉及计算机技术领域，方法包括：从N个目标对象的中医临床数据中，获取N个目标对象对应的多视图信息，多视图信息为中医临床数据中从至少两个角度对目标对象进行描述的信息；确定多视图信息对应的特征矩阵和邻接矩阵；将特征矩阵和邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到多视图图卷积编码模型输出的N个目标对象对应的特征表示；将各特征表示输入至预先设置的聚类模型中，得到聚类模型输出的聚类结果，聚类结果用于表征N个目标对象的中医临床数据之间的关系。本发明有效提高了聚类分析的效果，例如提高了聚类分析的准确性。

Description

中医临床数据的多视图聚类方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种中医临床数据的多视图聚类方法、装置及电子设备。

背景技术

聚类分析，是指将对象的集合分组为由类似的对象组成的多个类的分析过程。

目前，对于中医领域的临床数据，通常采用单视图聚类方法进行聚类分析，具体需要将不同视图的样本特征串联成单个联合视图样本特征，并将串联后的单个联合视图样本特征输入至聚类模型中进行聚类，得到聚类结果。

但是，单纯的将不同视图的样本特征串联成单个联合视图样本特征，然后采用单视图聚类方法进行聚类分析，聚类分析的效果差，例如聚类分析的准确性低。

发明内容

本发明提供一种中医临床数据的多视图聚类方法、装置及电子设备，用以解决现有技术中聚类分析的效果差的问题。

本发明提供一种中医临床数据的多视图聚类方法，包括：

从N个目标对象的中医临床数据中，获取所述N个目标对象对应的多视图信息，N为大于1的整数；其中，所述多视图信息为所述中医临床数据中从至少两个角度对目标对象进行描述的信息；

确定所述多视图信息对应的特征矩阵和邻接矩阵；

将所述特征矩阵和所述邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到所述多视图图卷积编码模型输出的所述N个目标对象对应的特征表示；其中，所述多视图图卷积编码模型用于基于所述特征矩阵和所述邻接矩阵，得到各所述特征表示；

将各所述特征表示输入至预先设置的聚类模型中，得到所述聚类模型输出的聚类结果；其中，所述聚类模型用于基于各所述特征表示，对所述N个目标对象进行聚类，得到所述聚类结果，所述聚类结果用于表征所述N个目标对象的中医临床数据之间的关系。

根据本发明提供的一种中医临床数据的多视图聚类方法，所述多视图信息包括以下至少两项：舌诊信息、脉诊信息以及主诉信息，所述聚类模型具体用于：

采用预先设置的融合算法拼接各所述特征表示，得到一致性特征表示；

基于所述一致性特征表示，对所述N个目标对象进行聚类，得到所述聚类结果。

根据本发明提供的一种中医临床数据的多视图聚类方法，所述多视图图卷积编码模型包括l层图卷积编码层，所述多视图图卷积编码模型具体用于：

基于所述特征矩阵X^(v)和所述邻接矩阵A^(v)，采用公式(1)得到第l层图卷积编码层的输出结果作为所述特征表示H^(v)：

其中，v表征所述多视图信息中的第v个视图，f_Linear(·)表征线性激活函数，为/> 为A^(v)与单位矩阵I的和矩阵，W_l ^(v)是第v个视图对应的编码器中第l层待学习的参数矩阵，i表征矩阵的行，j表征矩阵的列。

根据本发明提供的一种中医临床数据的多视图聚类方法，在所述将所述特征矩阵和所述邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到所述多视图图卷积编码模型输出的所述N个目标对象对应的特征表示之后，所述方法还包括：

将所述特征表示H^(v)输入至预先设置的自分类模块中，得到所述自分类模块输出的分类结果；其中，所述自分类模块用于基于所述特征表示H^(v)进行分类，得到所述分类结果；

基于所述分类结果和所述聚类结果，构建第一损失函数；

基于所述第一损失函数训练所述多视图图卷积编码模型。

根据本发明提供的一种中医临床数据的多视图聚类方法，所述基于所述分类结果和所述聚类结果，计算第一损失函数，包括：

基于所述分类结果和所述聚类结果/>采用公式(2)计算交叉熵损失函数/>采用公式(3)计算中心损失函数/>

其中，θ表征所述多视图图卷积编码模型的参数，φ表征所述自分类模块的参数，n表征节点数，CE(·)表征交叉熵函数，表征/>对应的聚类中心，/>表征类内中心损失，F表征F范数；

基于所述交叉熵损失函数和所述中心损失函数/>计算所述第一损失函数。

根据本发明提供的一种中医临床数据的多视图聚类方法，在所述基于所述第一损失函数训练所述多视图图卷积编码模型之前，所述方法还包括：

将所述特征表示H^(v)输入至预先设置的解码模块中，得到所述解码模块输出的重构矩阵；其中，所述解码模块用于对所述特征表示H^(v)解码，生成所述重构矩阵；

基于所述重构矩阵和所述邻接矩阵，构建第二损失函数；

所述基于所述第一损失函数训练所述多视图图卷积编码模型，包括：

基于所述第一损失函数和/或所述第二损失函数，训练所述多视图图卷积编码模型。

根据本发明提供的一种中医临床数据的多视图聚类方法，所述解码模块具体用于：采用公式(4)对所述特征表示H^(v)解码，生成所述重构矩阵

其中，sigmoid(·)表征激活函数；

所述基于所述重构矩阵和所述邻接矩阵，构建第二损失函数，包括：

基于所述重构矩阵和所述邻接矩阵A^(v)，采用公式(5)构建所述第二损失函数

其中，表征A^(v)中第i行第j列的值，/>表征/>中第i行第j列的值。

根据本发明提供的一种中医临床数据的多视图聚类方法，所述基于所述第一损失函数和/或所述第二损失函数，训练所述多视图图卷积编码模型，包括：

基于所述交叉熵损失函数所述中心损失函数/>和所述第二损失函数/>采用公式(6)构建优化整体损失/>

其中，λ₁表征第一权重系数，λ₂表征第二权重系数；

基于所述优化整体损失训练所述多视图图卷积编码模型。

本发明还提供一种中医临床数据的多视图聚类装置，包括：

获取模块，用于从N个目标对象的中医临床数据中，获取所述N个目标对象对应的多视图信息，N为大于1的整数；其中，所述多视图信息为所述中医临床数据中从至少两个角度对目标对象进行描述的信息；

确定模块，用于确定所述多视图信息对应的特征矩阵和邻接矩阵；

编码模块，用于将所述特征矩阵和所述邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到所述多视图图卷积编码模型输出的所述N个目标对象对应的特征表示；其中，所述多视图图卷积编码模型用于基于所述特征矩阵和所述邻接矩阵，得到各所述特征表示；

聚类模块，用于将各所述特征表示输入至预先设置的聚类模型中，得到所述聚类模型输出的聚类结果；其中，所述聚类模型用于基于各所述特征表示，对所述N个目标对象进行聚类，得到所述聚类结果，所述聚类结果用于表征所述N个目标对象的中医临床数据之间的关系。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述中医临床数据的多视图聚类方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述中医临床数据的多视图聚类方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述中医临床数据的多视图聚类方法。

本发明提供的中医临床数据的多视图聚类方法、装置及电子设备，相较于相关技术中单纯的将不同视图的样本特征串联成单个联合视图样本特征，然后采用单视图聚类方法进行聚类分析，可能会忽略不同视图的样本特征间的互补信息，进而导致聚类分析效果差的问题，本发明实施例中，在从中医临床数据中获取N个目标对象对应的多视图信息后，确定多视图信息对应的特征矩阵和邻接矩阵，以将特征矩阵和邻接矩阵通过多视图图卷积编码模型，得到N个目标对象对应的特征表示，进而聚类模型可以基于特征表示获取到多视图信息中潜在的补充信息，并可以基于此对N个目标对象进行聚类得到聚类结果，以表征N个目标对象的中医临床数据之间的关系，有效提高了聚类分析的效果，例如提高了聚类分析的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的中医临床数据的多视图聚类方法的流程示意图之一；

图2是本发明提供的中医临床数据的多视图聚类方法的流程示意图之二；

图3是本发明与相关各聚类算法的聚类结果2D可视化示意图；

图4是本发明提供的中医临床数据的多视图聚类方法的聚类结果2D可视化示意图；

图5是本发明与相关各聚类算法的聚类结果在不同评价指标下的示意图；

图6是本发明提供的中医临床数据的多视图聚类方法的无监督指标变化趋势示意图；

图7是本发明提供的中医临床数据的多视图聚类方法中高血压病例的聚类结果分析图；

图8是本发明提供的中医临床数据的多视图聚类装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图描述本发明的中医临床数据的多视图聚类方法、装置及电子设备。

图1是本发明提供的中医临床数据的多视图聚类方法的流程示意图之一，如图1所示，中医临床数据的多视图聚类方法包括步骤101至步骤104；其中：

步骤101、从N个目标对象的中医临床数据中，获取所述N个目标对象对应的多视图信息，N为大于1的整数；其中，所述多视图信息为所述中医临床数据中从至少两个角度对目标对象进行描述的信息；

步骤102、确定所述多视图信息对应的特征矩阵和邻接矩阵；

步骤103、将所述特征矩阵和所述邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到所述多视图图卷积编码模型输出的所述N个目标对象对应的特征表示；其中，所述多视图图卷积编码模型用于基于所述特征矩阵和所述邻接矩阵，得到各所述特征表示；

步骤104、将各所述特征表示输入至预先设置的聚类模型中，得到所述聚类模型输出的聚类结果；其中，所述聚类模型用于基于各所述特征表示，对所述N个目标对象进行聚类，得到所述聚类结果，所述聚类结果用于表征所述N个目标对象的中医临床数据之间的关系。

相关技术中，传统聚类方法的研究已较为成熟。但由于数据量的增长及复杂性的提升，数据之间的关系和数据本身的特征变得越来越复杂，聚类任务的难度也逐渐提升。近年来，由于深度学习的快速发展，人们开始研究基于深度学习的聚类算法即深度聚类。利用深度神经网络将原始数据映射到一个新的特征空间中得到有效表示，然后应用传统聚类方法进行聚类，这种深度聚类方法在一定程度上解决了传统聚类算法获取数据内在联系不足的问题。

早期的深度聚类研究主要研究单视图聚类，例如将自编码器与K-means聚类相结合，首先预训练自编码器来提高网络参数的初始化质量，然后将基于中间层特征构建的K-means聚类损失引入到模型中，通过网络参数与聚类中心之间的交替优化，完成特征学习与聚类任务。例如利用图的结构信息的同时，又考虑了图的节点信息、特征信息，通过神经网络提取特征信息，迭代优化聚类结果。

在实际应用问题中，对同一事物可以从多种不同的角度进行描述，这些不同的描述构成了事物的多个视图。例如，在中医诊疗中，医生需要借助舌诊、脉诊以及主诉等多个角度(视图)采集患者信息。多视图数据的特征间通常存在一定的差异性，数据之间的相互关系较为复杂，若将这些视图简单串联当作单视图进行特征表示，使用传统的聚类算法，并不能有效提取不同视图数据的空间分布特性以及其内在关系。

与通过傅里叶变换、欧拉变化等方法对原始数据进行变换，得到多视图数据的方法不同，中医领域多视图数据真实存在，即可以包括舌诊信息、脉诊信息以及主诉信息，不需要通过数学变换得到。多视图聚类同时对每个视图进行学习，能够融合多种不同但又互补的特征，可以提升聚类的效果。若将基于深度学习的聚类方法应用于多视图领域，可以表达复杂的目标函数，提升聚类等学习任务的性能。多视图深度聚类的核心思想就是：使用各种神经网络从多个视图的高维数据中提取到有用的特征，再进行聚类。

近年来，已有大量方法对中医症状、证型、中药处方等进行数据挖掘，出现了许多使用聚类进行分析的方法。这些中医聚类研究只能提取浅层线性特征。随着深度学习的发展，已有研究将复杂网络与单视图聚类方法相结合，例如可以使用异构信息网络来建模中医数据，提出了聚类方法TCM-Clus，取得了比其他代表性算法更好的聚类效果。例如还提出了聚类方法THCluster，利用随机游走等方法在异构信息网络上有效地完成聚类分析，对发现有用的草药分类及其潜在的临床表现具有重要意义。

然而，这些研究大多面向单视图聚类，对于多视图数据，单纯的将不同视图的样本特征串联成单个联合视图样本特征，然后采用单视图聚类方法可能会忽略特征间的互补信息，导致聚类分析的效果差，例如聚类分析的准确性低。

本发明实施例中，先从N个目标对象的中医临床数据中，获取N个目标对象对应的多视图信息，多视图信息为中医临床数据中从至少两个角度对目标对象进行描述的信息，可以包括舌诊信息、脉诊信息以及主诉信息中的至少两项；

在获取多视图信息后，可以确定多视图信息对应的特征矩阵和邻接矩阵；其中，特征矩阵可以是通过将舌诊信息、脉诊信息及主诉信息等多个视图拼接而成的矩阵，邻接矩阵可以通过K近邻算法构建得到。

在确定特征矩阵和邻接矩阵后，可以将特征矩阵和邻接矩阵输入至多视图图卷积编码模型中，以由多视图图卷积编码模型基于特征矩阵和邻接矩阵，得到N个目标对象对应的特征表示；

需要说明的是，本发明实施例利用多视图图卷积编码模型作为自编码器，可以通过编码-解码的过程，对多视图信息进行编码，期望将网络的输出等同于输入，进而实现对样本的抽象特征学习，适合与聚类任务结合。

再将多视图图卷积编码模型输出的特征表示输入至聚类模型，以由聚类模型基于各特征表示，对N个目标对象进行聚类，得到聚类结果，用来表征N个目标对象的中医临床数据之间的关系。

可选地，聚类结果可以用于客观分析中医临床数据中，不同病例中证型分类以及证型分布规律，为中医临床辨证论治提供了一种客观的实现方法。

在本发明实施例提供的中医临床数据的多视图聚类方法中，相较于相关技术中单纯的将不同视图的样本特征串联成单个联合视图样本特征，然后采用单视图聚类方法进行聚类分析，可能会忽略不同视图的样本特征间的互补信息，进而导致聚类分析效果差的问题，本发明实施例中，在从中医临床数据中获取N个目标对象对应的多视图信息后，确定多视图信息对应的特征矩阵和邻接矩阵，以将特征矩阵和邻接矩阵通过多视图图卷积编码模型，得到N个目标对象对应的特征表示，进而聚类模型可以基于特征表示获取到多视图信息中潜在的补充信息，并可以基于此对N个目标对象进行聚类得到聚类结果，以表征N个目标对象的中医临床数据之间的关系，有效提高了聚类分析的效果，例如提高了聚类分析的准确性。

可选地，所述多视图信息包括以下至少两项：舌诊信息、脉诊信息以及主诉信息，所述聚类模型可以具体用于：

具体地，可以采用预先设置的谱聚类方法，对一致性特征表示进行聚类，相似度矩阵采用最近邻表示方法，最后得到所有节点(表征各目标对象)最终的聚类结果，其中，相似度矩阵可以为谱聚类方法中使用的相似度矩阵。

需要说明的是，由于目前许多多视图聚类研究中多视图数据集，是通过傅里叶变换等技术对原始数据进行处理得到多视图数据，故在后续聚类分析的过程中，直接寻找不同视图数据之间的共性即可；而本发明中的多视图信息包括舌诊信息、脉诊信息以及主诉信息中的至少两项，这些信息在中医领域是真实存在的，并不需要通过对原始数据进行变换得到，故本发明采用预先设置的融合算法对各特征表示进行拼接，得到一致性特征表示后，再基于一致性特征表示对N个目标对象进行聚类，得到聚类结果，通过融合算法可以从多个视图中获取潜在的补充信息，进而可以提高聚类分析的效果。

对于融合算法，例如舌诊信息特征表示为x1＝[a1,a2]，脉诊信息特征表示为x2＝[a3,a4]，主诉信息特征表示为x3＝[a5,a6]，则融合后得到的融合信息为x＝[x1,x2,x3]＝[a1,a2,a3,a4,a5,a6]。

可选地，所述多视图图卷积编码模型包括l层图卷积编码层，所述多视图图卷积编码模型可以具体用于：

具体地，中医临床数据中的多视图病例数据可以表示为图G＝{O,E⁽¹⁾,E⁽²⁾,…,E^(V),X⁽¹⁾,X⁽²⁾,…,X^(V)}，其中，V表示中医临床数据中的视图数量，表示节点集，每个节点表示一名患者(目标对象)的信息。/>表示第v个视图中节点o_i和o_j之间的边，G的数据结构可以用邻接矩阵{A^(v)}表示，当/>时，/>否则表示第v个视图的特征矩阵，即中医舌诊、脉诊及主诉信息等多个视图对应的特征矩阵。

在多视图图卷积编码模型中，编码器可以将多视图信息对应的特征矩阵和邻接矩阵映射到图嵌入空间。对于第v个视图，图嵌入模型的功能可以表示成f_v(G,X^(c):Θ)→H^(v)，将第v个视图的邻接矩阵A^(v)和特征矩阵X^(v)映射为图嵌入特征(特征表示)H^(v)，Θ代表多视图图卷积编码模型的参数。

以舌诊信息对应的舌诊视图为例，将舌诊视图的特征矩阵X^(s)和邻接矩阵A^(s)输入该多视图图卷积编码模型，可以得到舌诊视图的特征表示H^(s)。

可选地，在得到各视图的特征表示H^(v)后，可以采用经典的融合方法，将特征表示H^(v)进行拼接，得到一致性特征表示Z；具体可以将一致性特征表示Z表示为：Z＝[H⁽¹⁾,H⁽²⁾,H⁽³⁾]∈R^k，这里一致性特征表示Z是由多视图图卷积编码模型输出的舌诊信息、脉诊信息和主诉信息对应的三个视图的特征表示融合而成的。

可选地，在所述将所述特征矩阵和所述邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到所述多视图图卷积编码模型输出的所述N个目标对象对应的特征表示之后，还可以执行以下步骤：

基于所述分类结果和所述聚类结果，构建第一损失函数；

基于所述第一损失函数训练所述多视图图卷积编码模型。

可选地，自分类模块可以由两层全连接网络组成。

具体地，本发明实施例设置了自分类模块，由自分类模块基于特征表示进行分类得到分类结果，以利用分类结果为多视图图卷积编码模型提供反馈，具体基于分类结果和聚类结果构建第一损失函数，并基于第一损失函数训练多视图图卷积编码模型，可以进一步提高聚类分析的效果。

可选地，所述基于所述分类结果和所述聚类结果，计算第一损失函数的实现方式可以包括：

具体地，为了充分利用迭代过程中学习到的聚类标签(聚类结果)中的信息，本发明实施例使用学习到的标签向潜在表征学习(特征表示)H^(v)提供反馈，引入了由两层全连接网络组成的自分类模块。将H^(v)输入到自分类模块执行分类任务，/>是得到的输出结果(分类结果)，聚类结果/>作为自分类模块的目标输出。

为了通过自监督的信息训练第v个视图的图卷积编码，本发明实施例引入交叉熵损失和中心损失/>以此来监督特征表示H^(v)。

可选地，在所述基于所述第一损失函数训练所述多视图图卷积编码模型之前，还可以执行以下步骤：

基于所述重构矩阵和所述邻接矩阵，构建第二损失函数；

所述基于所述第一损失函数训练所述多视图图卷积编码模型的实现方式可以包括：

具体地，本发明实施例设置了解码模块，由解码模块基于特征表示进行解码得到重构矩阵，以利用重构矩阵为多视图图卷积编码模型提供反馈，具体基于重构矩阵和邻接矩阵构建第二损失函数，并基于第一损失函数和/或第二损失函数训练多视图图卷积编码模型，可以进一步提高了聚类分析的效果。

可选地，所述解码模块可以具体用于：采用公式(4)对所述特征表示H^(v)解码，生成所述重构矩阵

其中，sigmoid(·)表征激活函数；

所述基于所述重构矩阵和所述邻接矩阵，构建第二损失函数的实现方式可以包括：

具体地，在经过多视图图卷积编码模型后，得到了特征表示H^(v)，为了确保所学习的节点的特征表示H^(v)保留足够的图结构信息，可以使用内积解码器进行解码，将第v个视图的特征表示H^(v)输送到内积解码器中，重构损失公式如下：

其中，通过最小化每个视图的重构损失来最小化的输入图(邻接矩阵)A^(v)和重构图(重构矩阵)/>之间的差异。

可选地，所述基于所述第一损失函数和/或所述第二损失函数，训练所述多视图图卷积编码模型的实现方式可以包括：

其中，λ₁表征第一权重系数，λ₂表征第二权重系数；

基于所述优化整体损失训练所述多视图图卷积编码模型。

具体地，可以结合第一损失函数和第二损失函数，具体通过优化整体损失训练多视图图卷积编码模型，最终获得各个节点的聚类标签/>

下面举例说明本发明实施例提供的中医临床数据的多视图聚类方法。

首先对相关问题进行形式化定义：

定义1(中医多视图病例数据)：中医多视图病例数据可以表示为图G＝{O,E⁽¹⁾,E⁽²⁾,…,E^(V),X⁽¹⁾,X⁽²⁾,…,X^(V)}，可以简写为G＝{O,E,X}；

定义2(中医单视图病例数据)：中医单视图病例数据可以表示为图G^′＝{O,A^′,X^′}，E_ij∈E表示节点o_i和o_j之间的边。G^′的数据结构用邻接矩阵{A^′}表示，当节点o_i和o_j之间存在边时，A^′ _ij＝1，否则A^′ _ij＝0。X^′表示由中医的舌诊信息、脉诊信息及主诉信息等多个视图拼接而成的特征矩阵；

定义3(节点聚类)：节点聚类将图G中的节点划分成K个不相交的类，使得同一类中的节点彼此具有较高相关性，各类的聚类中心为u¹,…,u^K。

本发明实施例提出了一种基于图卷积编码器的多视图聚类(Multi-view GraphEncoder Clustering，MVGEC)方法的整体框架，图2是本发明提供的中医临床数据的多视图聚类方法的流程示意图之二，如图2所示。

整体框架主要包括四个模块：多视图图卷积编码模型、聚类模型、自监督模块和解码模块；

MVGEC的输入为舌诊信息、脉诊信息和主诉信息的特征矩阵和邻接矩阵，将每个视图的特征矩阵和邻接矩阵分别输入到多视图图卷积编码模型中，通过融合各视图得到节点的特征表示，再利用其对特征表示进行聚类。

下面对本发明实施例提供的MVGEC的实验过程及结果进行说明。

(一)数据来源及数据预处理

实验数据来源于1147例患者的真实临床病历数据，其中高血压736例，冠心病192例，糖尿病219例。患者的主诉信息等结构化信息由2名医生给出人工判断。本发明对上述数据进行了如下的预处理工作：

脱敏处理：对敏感数据(姓名、电话等)进行了脱敏处理。

缺失处理：由于数据采集批次不同，个别样本特征有缺失，将缺失样本进行剔除，最后获得分析样本1108例，其中高血压717例，冠心病179例，糖尿病212例。

特征选择：删除了基本信息中与疾病密切相关的特征，如高血压疾病中的血压值、糖尿病疾病中的血糖值。

特征编码：对上述这些特征分别进行了编码，得到舌诊视图的特征矩阵X⁽¹⁾，脉诊视图的特征矩阵X⁽²⁾和主诉信息视图的特征矩阵X⁽³⁾，以主诉视图为例，表1为主诉视图示例表。

表1主诉视图示例表

编号	性别	头晕	口干	胸闷	情绪低落	心寒
							1	2	2	1	2	2	1
2	1	1	1	2	2	2
							3	1	1	1	2	1	1
4	2	2	1	1	1	1
							5	1	3	1	2	2	1
6	1	2	1	2	1	1

同时，为了证明多视图聚类的优越性，将3个视图的特征矩阵进行拼接得到单视图矩阵X^′，作为单视图数据进行对比实验。

(二)构造邻接矩阵

邻接矩阵最常见的构建方法有K近邻算法。将节点o_i与其距离最近的K个节点进行连接。本发明通过计算样本之间的欧氏距离d₂来选择K个相似的邻居样本。当视图v中节点o_i和o_j之间存在边，即存在时，/>分别对中医舌诊、脉诊以及主诉信息的特征矩阵使用K近邻计算3个视图的K最邻近(K-NearestNeighbor，KNN)图，从而得到中医舌诊、脉诊及主诉信息3个视图的邻接矩阵。

其中，m表征视图的维度，t表征第t维。

综上所述，多视图数据集由舌诊、脉诊及主诉信息的3个视图的特征矩阵X和其对应的邻接矩阵A组成。为了验证方法MVGEC的高效性，可以使用包括高血压、冠心病和糖尿病三种疾病的数据集G₁进行实验。为了验证MVGEC聚类结果的中医理论可解释性，可以使用只包含高血压病例的数据集G₂进行实验。

(三)评估指标

1、为了验证方法MVGEC的高效性，本文采用4种广泛使用的评估指标来评估聚类性能，分别是准确率(Accuracy，ACC)、F值、归一化互信息(Normalized Mutual Information，NMI)和调整兰德指数(AdjustedRand Index，ARI)。

1)ACC指聚类正确的样本数除以总的样本数。

2)F值计算了各类精准率的均值和召回率的均值，评估聚类结果和原始数据集标签之间的相似性。

3)NMI衡量两种分布之间相互依赖程度，判断两种分布的一致性。

4)ARI衡量两个数据分布的吻合程度。对于所有指标，分数越高表示聚类效果越好。

2、为了验证方法MVGEC聚类结果的有效性，本文采用轮廓系数(SilhouetteCoefficient，SC)、CH(Calinski-Harabaz)系数、戴维森堡丁指数(davies_bouldin_score，DBI)三个无监督聚类评价指标对实验数据进行聚类分析。

1)SC通过结合内聚度和分离度来评价该样本是否适合所在类，系数越大，聚类效果越好；

2)CH是类内各点与类中心的距离平方和，CH越大代表着类自身越紧密，类与类之间越分散，说明聚类效果越好；

3)DBI指标是任意两类别的类内样本到类中心平均距离之和除以两类中心点之间的距离，取最大值，DBI越小意味着类内距离越小，同时类间距离越大。

(四)实验结果

1、算法性能对比实验结果

对于单视图聚类算法，使用包含高血压、冠心病和糖尿病3种疾病的中医单视图图结构G^′＝{A^′,X^′}进行实验。多视图聚类算法使用包含高血压、冠心病和糖尿病3种疾病的中医多视图病例数据G₁进行实验，同时使用疾病类别作为聚类标签。选择了以下5种具有代表性或较为先进的聚类算法进行对比：单视图聚类算法K-means、谱聚类(SP)、EGAE和多视图深度聚类算法O2MAC、MVGC。实验结果如表2所示，表2为中医数据集上各算法的聚类性能。

表2中医数据集上各算法的聚类性能

图3是本发明与相关各聚类算法的聚类结果2D可视化示意图，为了直观地展示各聚类算法的结果，使用t-SNE算法在二维空间中可视化嵌入聚类的分布如图3所示，从直观上看，K-means、SP、EGAE、O2MAC、MVGC得到的结果在不同类间有一定区别，但各类之间交集明显，不同类间交织在一起，而MVGEC的可视化结果较容易区分各类，对比其他五种聚类方法，MVGEC更好地揭示数据之间的内在聚类结构。

2、无监督实验结果

为了验证方法MVGEC结果的中医理论可解释性，对只包含高血压的数据集G₂进行聚类分析，将聚类的个数K分别设置为2至10。计算SC、CH、DBI三个无监督聚类评价指标，实验结果如表3所示，表3为MVGEC聚类无监督指标实验结果。

表3MVGEC聚类无监督指标实验结果

图4是本发明提供的中医临床数据的多视图聚类方法的聚类结果2D可视化示意图，为了直观地展示MVGEC的聚类效果，使用t-SNE算法在二维空间中可视化嵌入聚类的分布如图4所示，从直观上看，当K＝2、3、4、5时，不同类间区别较为明显。

(五)对比实验分析

对表2所示的6种聚类算法的评价指标进行对比分析，可以看出，MVGEC提高了中医临床数据集的聚类性能，各项评价指标较其他算法均有明显提高，图5是本发明与相关各聚类算法的聚类结果在不同评价指标下的示意图。

中医临床数据中，同样一个病例可以有多个诊断结果，同样的一个症状可以属于不同的诊断，这些特点均会影响聚类效果。由图3所示的MVGEC聚类可视化结果，可以看出各类之间仍存在交集，通过分析聚类结果，发现聚类错误结果的样本被误归入“高血压”类别，而高血压具有与其他疾病并存的情况，因此造成了NMI指标较低的情况。

MVGEC优于传统的K-means和谱聚类算法，与K-means相比，MVGEC能够降低“噪声”和孤立点数据的影响程度，能够更好地捕获各特征之间的联系，ACC、F1、NMI和ARI分别提高了0.25、0.31、0.08和0.11。

与单视图方法EGAE相比，ACC、F1、NMI和ARI分别提高了0.18、0.16、0.03和0.06，验证了多视图的有效性。采用单视图聚类方法可能会忽略特征间的互补，如果某个视图对聚类具有积极的影响，将不同视图特征串联得到的联合特征将会削弱这种影响。

与多视图聚类O2MAC、MVGC方法相比，本发明改进了多视图的表示方法，提出了一种新的适合中医多视图聚类的模型，对编码得到的特征表示进行融合，最大程度的保留了原始特征中的信息，提高了聚类效果。

(六)聚类结果分析

对只包含高血压病例的数据集G₂进行聚类实验，将聚类个数设置为2-10，图6是本发明提供的中医临床数据的多视图聚类方法的无监督指标变化趋势示意图，如图6所示，随着K的增大，CH逐渐下降，SC整体也呈下降趋势，但DBI变化较不稳定，当K>5时，DBI逐渐增大。

结合三个无监督评价指标，K＝2时，无监督评价指标效果最好；K＝3时，SC、CH表现良好，但DBI过大；K＝4或5时，SC、CH和DBI综合来看效果较好；当K≥6时，无监督评价指标性能越来越差。

结合中医证型进行分析，图7是本发明提供的中医临床数据的多视图聚类方法中高血压病例的聚类结果分析图，如图7所示，判定每类中的症状代表的证型，具体结论如下：

(1)K为2时，划分的两类A和B分别对应为血瘀证和非血瘀证。其中类别A对应血瘀证，在频数排在前五位的症状中，代表性症状有舌下络脉形状异常、双手脉搏不等、舌下络脉长、淡紫，临床常见于血瘀证。当K设置为3、4、5时，类别A始终存在，且对应的病例个数均稳定在300例左右。

(2)K为2时，其中类别B中出现频数较高的症状与血瘀证关系较小，因此可以认定其对应的证型为非血瘀证。

(3)当K设置为3、4、5时，非血瘀证类型又进一步拆分。而当K＝4或5时，从中医理论角度来说可解释性更强。当K＝4时，非血瘀证类型被分为三类，分别记为B1、B2、B3。其中B1代表性症状有舌根苔黄、舌中稍厚苔、舌根稍厚苔、舌苔欠润、舌中腻，临床常见于湿热证；B2代表性症状有舌嫩、舌胖、弦脉，常见于肝郁脾虚证；B3的代表性症状有无苔、少苔，常见于阴虚证。当K＝5时，非血瘀证类型被分为四类，前两类同B1、B2，上述的B3又被分为两类，分别标记为B31和B32，其中B31伴有症状弦脉，常见于肝阴虚证，B32伴有舌胖、舌嫩，常见于阴阳两虚证。

综上所述，本发明提出的多视图聚类方法通过利用图结构信息，在构建的中医多视图疾病数据集上获得了较好的性能，这表明多视图图结构信息可以有效提升聚类方法的性能。通过借助深度学习的方法挖掘多视图数据的隐藏结构，能够充分利用多视图中包含的重要的信息。对现有的中医临床数据进行深度聚类分析，较为客观地分析了高血压病例中证型分类以及证型分布规律，为中医临床辨证论治提供了一种客观的方法。因此，将多视图深度聚类应用到中医领域具有重要的理论价值和应用价值。

本发明实施例中，首次将多视图聚类方法应用于中医领域临床数据，将视图信息(特征矩阵)和图结构(邻接矩阵)输入多视图图卷积编码模型，获取样本不同视图间学习到的特征表示，通过改进融合方式从多个视图中获取潜在的补充信息，同时使用学习到的聚类标签优化特征表示和网络架构，最后对学习到的特征表示进行聚类。在真实世界的中医临床数据(包括患者的舌诊、脉诊以及主诉等多视图信息)上的实验结果表明，本发明所提出的MVGEC与通用的单视图聚类方法和当前较为先进的多视图聚类方法相比，聚类效果有所提升，利用多视图聚类方法可以为中医疾病诊断和预测提供有效技术支撑。同时，为了验证聚类结果的可靠性，将聚类个数分别设置为2至10。对聚类结果进行分析，发现症状分散良好，症状群分布较为清晰符合中医理论。在所构建的中医多视图数据集上进行3种疾病聚类的实验结果表明，MVGEC方法优于其他五种经典方法，更适合中医领域的多视图数据。通过对高血压病例的聚类结果进行分析，探讨高血压病例中医证型规律，可以为中医临床诊疗提供客观的决策支持。

下面对本发明提供的中医临床数据的多视图聚类装置进行描述，下文描述的中医临床数据的多视图聚类装置与上文描述的中医临床数据的多视图聚类方法可相互对应参照。

图8是本发明提供的中医临床数据的多视图聚类装置的结构示意图，如图8所示，中医临床数据的多视图聚类装置800包括：

获取模块801，用于从N个目标对象的中医临床数据中，获取所述N个目标对象对应的多视图信息，N为大于1的整数；其中，所述多视图信息为所述中医临床数据中从至少两个角度对目标对象进行描述的信息；

确定模块802，用于确定所述多视图信息对应的特征矩阵和邻接矩阵；

编码模块803，用于将所述特征矩阵和所述邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到所述多视图图卷积编码模型输出的所述N个目标对象对应的特征表示；其中，所述多视图图卷积编码模型用于基于所述特征矩阵和所述邻接矩阵，得到各所述特征表示；

聚类模块804，用于将各所述特征表示输入至预先设置的聚类模型中，得到所述聚类模型输出的聚类结果；其中，所述聚类模型用于基于各所述特征表示，对所述N个目标对象进行聚类，得到所述聚类结果，所述聚类结果用于表征所述N个目标对象的中医临床数据之间的关系。

在本发明实施例提供的中医临床数据的多视图聚类装置中，相较于相关技术中单纯的将不同视图的样本特征串联成单个联合视图样本特征，然后采用单视图聚类方法进行聚类分析，可能会忽略不同视图的样本特征间的互补信息，进而导致聚类分析效果差的问题，本发明实施例中，在获取模块从中医临床数据中获取N个目标对象对应的多视图信息后，由确定模块确定多视图信息对应的特征矩阵和邻接矩阵，以由编码模块将特征矩阵和邻接矩阵通过多视图图卷积编码模型，得到N个目标对象对应的特征表示，进而聚类模块可以通过聚类模型，基于特征表示获取到多视图信息中潜在的补充信息，并可以基于此对N个目标对象进行聚类得到聚类结果，以表征N个目标对象的中医临床数据之间的关系，有效提高了聚类分析的效果，例如提高了聚类分析的准确性。

可选地，所述多视图信息包括以下至少两项：舌诊信息、脉诊信息以及主诉信息，所述聚类模型具体用于：

可选地，所述多视图图卷积编码模型包括l层图卷积编码层，所述多视图图卷积编码模型具体用于：

/>

可选地，中医临床数据的多视图聚类装置800还包括：处理模块，用于：

基于所述分类结果和所述聚类结果，构建第一损失函数；

基于所述第一损失函数训练所述多视图图卷积编码模型。

可选地，处理模块具体用于：

可选地，处理模块还用于：

基于所述重构矩阵和所述邻接矩阵，构建第二损失函数；

处理模块还具体用于：

可选地，所述解码模块具体用于：采用公式(4)对所述特征表示H^(v)解码，生成所述重构矩阵

其中，sigmoid(·)表征激活函数；

处理模块还具体用于：

基于所述重构矩阵和所述邻接矩阵A^(v)，采用公式(5)构建所述第二损失函数/>

可选地，处理模块还具体用于：

其中，λ₁表征第一权重系数，λ₂表征第二权重系数；

基于所述优化整体损失训练所述多视图图卷积编码模型。

图9是本发明提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行中医临床数据的多视图聚类方法，该方法包括：

确定所述多视图信息对应的特征矩阵和邻接矩阵；

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的中医临床数据的多视图聚类方法，该方法包括：

确定所述多视图信息对应的特征矩阵和邻接矩阵；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的中医临床数据的多视图聚类方法，该方法包括：

确定所述多视图信息对应的特征矩阵和邻接矩阵；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中医临床数据的多视图聚类方法，其特征在于，包括：

确定所述多视图信息对应的特征矩阵和邻接矩阵；

2.根据权利要求1所述的中医临床数据的多视图聚类方法，其特征在于，所述多视图信息包括以下至少两项：舌诊信息、脉诊信息以及主诉信息，所述聚类模型具体用于：

3.根据权利要求1或2所述的中医临床数据的多视图聚类方法，其特征在于，所述多视图图卷积编码模型包括l层图卷积编码层，所述多视图图卷积编码模型具体用于：

其中，v表征所述多视图信息中的第v个视图，f_Linear(·)表征线性激活函数，为为A^(v)与单位矩阵I的和矩阵，/>是第v个视图对应的编码器中第l层待学习的参数矩阵，i表征矩阵的行，j表征矩阵的列。

4.根据权利要求1所述的中医临床数据的多视图聚类方法，其特征在于，在所述将所述特征矩阵和所述邻接矩阵输入至预先设置的多视图图卷积编码模型中，得到所述多视图图卷积编码模型输出的所述N个目标对象对应的特征表示之后，所述方法还包括：

基于所述分类结果和所述聚类结果，构建第一损失函数；

基于所述第一损失函数训练所述多视图图卷积编码模型。

5.根据权利要求4所述的中医临床数据的多视图聚类方法，其特征在于，所述基于所述分类结果和所述聚类结果，计算第一损失函数，包括：

6.根据权利要求5所述的中医临床数据的多视图聚类方法，其特征在于，在所述基于所述第一损失函数训练所述多视图图卷积编码模型之前，所述方法还包括：

基于所述重构矩阵和所述邻接矩阵，构建第二损失函数；

7.根据权利要求6所述的中医临床数据的多视图聚类方法，其特征在于，所述解码模块具体用于：采用公式(4)对所述特征表示H^(v)解码，生成所述重构矩阵

其中，sigmoid(·)表征激活函数；

8.根据权利要求7所述的中医临床数据的多视图聚类方法，其特征在于，所述基于所述第一损失函数和/或所述第二损失函数，训练所述多视图图卷积编码模型，包括：

其中，λ₁表征第一权重系数，λ₂表征第二权重系数；

基于所述优化整体损失训练所述多视图图卷积编码模型。

9.一种中医临床数据的多视图聚类装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述中医临床数据的多视图聚类方法。