CN115631799B

CN115631799B - 样本表型的预测方法、装置、电子设备及存储介质

Info

Publication number: CN115631799B
Application number: CN202211636683.0A
Authority: CN
Inventors: 秦文健; 赖清佩; 陈实富; 谢耀钦
Original assignee: Haplox Biotechnology Shenzhen Co ltd; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Haplox Biotechnology Shenzhen Co ltd; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-03-28
Anticipated expiration: 2042-12-20
Also published as: CN115631799A

Abstract

本发明实施例公开了一种样本表型的预测方法、装置、电子设备及存储介质，该方法包括：根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征；根据各样本中分子特征之间的相似性，构建样本图网络；将样本图网络输入预测模型，对样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇；基于重构图网络，对第一样本簇中的各节点所对应样本的组学类别进行预测，得到第二样本簇；根据第一样本簇和第二样本簇确定预测模型的聚类准确性，若聚类准确性满足设定条件，则得到样本表型预测结果。本发明解决了现有样本表型预测方法未充分利用多组学数据，不能准确评判聚类效果的问题。

Description

样本表型的预测方法、装置、电子设备及存储介质

技术领域

本发明涉及医学组学分析领域，尤其涉及一种样本表型的预测方法、装置、电子设备及存储介质。

背景技术

癌症是一种异质性疾病，通常表现为相同的癌症类型具有不同的临床结果，预测新的癌症亚型有助于将患者分类为具有相似临床表型、预后或对治疗反应的群组。现有研究表明，与传统的单一组学分析相比，系统生物学方法通过整合来自多个生物区室的数据，提供了改进的生物学见解。

在多组学数据集成方面，随着深度学习在各种任务中的不断推进，越来越多的多组学集成方法开始利用深度神经网络的高学习能力和灵活性。另外，不同类型的组学数据也可以在高级标签空间呈现独特的特征，利用不同类别和不同类型组学数据之间的相关性来进一步提高学习性能至关重要。

然而，现有技术缺乏组学数据内部与组学数据之间的联合考量，现有技术通常仅进行常规的预处理，而很少考虑多组学之间，尤其是组学分子之间的相关性，甚至可能偏向于某些组学数据，导致纳入无效的冗杂信息从而影响结果的精度或有效性。

除此之外，现有技术还缺乏聚类类别之间的效果评判，现有技术对于聚类的实际效果在模型通常会使用一些指标评判每个类别内部样本的紧密性，但对于聚类的类别达到一定数量之后便不清楚每个类别之间的相似性，这导致样本表型的预测难以准确实现。

因此，急需一种能够充分利用多组学数据，准确评判聚类类别之间效果的样本表型预测方法。

发明内容

本发明各实施例提供一种样本表型的预测方法、装置、电子设备及存储介质，以解决相关技术中存在的样本表型预测方法未充分利用多组学数据，不能准确评判聚类效果的问题。

其中，本发明所采用的技术方案为：

根据本发明的一个方面，一种样本表型预测方法，所述方法包括：根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征；根据各样本中分子特征之间的相似性，构建样本图网络，所述样本图网络中的各节点分别用于指示对应样本中的分子特征；将所述样本图网络输入预测模型，对所述样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇，所述第一样本簇中的各节点携带聚类得到的各所述节点对应样本所属的组学类别；基于所述重构图网络，对所述第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇，所述第二样本簇中的各节点携带预测得到各所述节点对应样本所属的组学类别；根据所述第一样本簇和所述第二样本簇确定所述预测模型的聚类准确性，若所述预测模型的聚类准确性满足设定条件，则得到多个样本的样本表型预测结果。

根据本发明的一个方面，一种样本表型预测装置，所述装置包括：特征选取模块，用于根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征；图网络构建模块，用于根据各样本中分子特征之间的相似性，构建样本图网络，所述样本图网络中的各节点分别用于指示对应样本中的分子特征；节点聚类模块，用于将所述样本图网络输入预测模型，对所述样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇，所述第一样本簇中的各节点携带聚类得到的各所述节点对应样本所属的组学类别；组别预测模块，用于基于所述重构图网络，对所述第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇，所述第二样本簇中的各节点携带预测得到各所述节点对应样本所属的组学类别；结果获取模块，用于根据所述第一样本簇和所述第二样本簇确定所述预测模型的聚类准确性，若所述预测模型的聚类准确性满足设定条件，则得到多个样本的样本表型预测结果。

根据本发明的一个方面，一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的样本表型的预测方法。

根据本发明的一个方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的样本表型的预测方法。

根据本发明的一个方面，一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序存储在存储介质中，计算机设备的处理器从存储介质读取计算机程序，处理器执行计算机程序，使得计算机设备执行时实现如上所述的样本表型的预测方法。

在上述技术方案中，实现了充分利用多组学数据，准确评判聚类效果的样本表型的预测方法。

具体而言，根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定个样本中用于构建样本图网络的分子特征，在面对多组学数据时，同时考虑到了不同组学类别的组学数据内部和之间的相关性，充分的利用了多组学数据进行样本图网络的构建，图网络聚类之后通过对组学类别进行预测的方式对聚类的效果进行准确的评判，从而解决了现有技术中的样本表型预测方法未充分利用多组学数据，不能准确评判聚类效果的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种样本表型的预测方法的流程图；

图2是根据一示例性实施例示出的一种样本表型的预测方法的流程图；

图3是图2对应实施例中步骤210在一个实施例的流程图；

图4是图2对应实施例中步骤230在一个实施例的流程图；

图5是图2对应实施例中步骤250在一个实施例的流程图；

图6是图2对应实施例中步骤270在一个实施例的流程图；

图7是图2对应实施例中步骤280在一个实施例的流程图；

图8是根据一示例性实施例示出的一种样本表型的预测装置的框图；

图9是图8对应实施例在应用场景中的装置流程图；

图10是根据一示例性实施例示出的一种电子设备的硬件结构图；

图11是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

现有的相关技术中样本网络的构建模式简单且固定，样本网络的构建并不能完全代表样本与样本之间的生物特征相似性，会使得样本图网络掺杂许多不确定因素。另外，在构建好网络之后，每个样本的邻居固定，使得样本能学到的特征固定，会使得一些对样本聚类有用的信息丢失，为后续分析产生不可预测的消极影响。

同时，现有的相关技术缺乏对组学数据内部和组学数据之间的联合考量，各组学的生物作用是复杂，然而在现有的分析方法中，组学数据通常仅进行常规预处理，而未考虑对于分析的疾病特征的关联性，会纳入无效的冗杂信息从而影响结果的精度或有效性。模型训练中特征与特征之间的相关性不可忽略，然而现有方法很少考虑多组学之间，尤其是组学分子之间的相关性，甚至可能偏向于某些组学数据，导致多组学数据得不到充分利用。

并且，现有的相关技术缺乏聚类类别之间的效果评判，在无监督聚类的模型训练过程中，模型通常会使用一些指标评判每个类别内部样本的紧密性，但对于聚类的类别超过一定数目之后便不清楚类别之间的相似性，这导致样本表型的预测难以准确实现。

除此之外，现有的相关技术缺乏可解释性，大多数的研究关注组学数据类别的数量对结果的差异性，但并未解释各组学数据在模型中对预测结果起作用的过程和原因，所以现有的预测模型进入实际应用场景仍存在阻碍。

由上可知，相关技术中仍存在未充分利用多组学数据，不能准确评判聚类效果，缺少可解释性的缺陷。

为此，本申请提供的样本表型的预测方法具有可解释性，能够充分利用多组学数据，准确评判聚类效果，从而有效地提升样本表型预测的准确性，也能够减小预测模型进入实际应用场景的阻碍，该样本表型的预测方法适用于样本表型的预测装置、该样本表型的预测装置可部署于配置冯诺依曼体系结构的电子设备，例如，该电子设备可以是台式电脑、笔记本电脑、服务器等等。

请参阅图1，本申请实施例提供了一种样本表型预测方法，该方法适用于电子设备，例如，该电子设备可以是台式电脑、笔记本电脑、服务器等等。

在下述方法实施例中，为了便于描述，以该方法各步骤的执行主体为电子设备为例进行说明，但是并非对此构成具体限定。

如图1所示，该方法可以包括以下步骤：

步骤110，根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征。

其中，各样本中的分子特征是指各样本中具有特殊生物意义的分子的特征，例如样本中与预后有关的基因组学的分子，该基因组学的分子的特征包括miRNA表达、mRNA表达，拷贝数变异等，还可以是指样本中与免疫关联紧密的分子及其特征，此处并未加以限定。

在一个可能的实现方式，生物性是指组学数据的组学类别，例如基因组、转录组、蛋白组、代谢组等等，分子间的相互作用关系是指抑制作用、激活作用等。那么，基于生物性和分子间的相互作用关系，特征筛选包括单因素回归分析、多因素回归分析等方式，此处并未加以限定。

步骤130，根据各样本中分子特征之间的相似性，构建样本图网络。

其中，样本图网络中的各节点分别用于指示对应样本中的分子特征。

在一个可能的实现方式，各样本中分子特征之间的相似性可以通过余弦相似度、欧式距离、马氏距离、曼哈顿距离、切比雪夫距离、杰卡德指数等方式来衡量。

步骤150，将样本图网络输入预测模型，对样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇。

其中，重构图网络是指经过预测模型调整后的样本图网络。

第一样本簇中的各节点携带聚类得到的各节点对应样本所属的组学类别。

在一个可能的实现方式，预测模型是经过训练得到的、且具有对样本所属的样本表型进行预测的能力的机器学习模型。例如，该机器学习模型可以是卷积神经网络、图卷积神经网络、对抗神经网络等，此处并未加以限定。

在一个可能的实现方式，预测模型包括图自编码器、判别器、解释器。其中，图自编码器用于对样本图网络中的各节点进行聚类；判别器用于对第一样本簇中各节点所对应样本的组学类别进行预测；解释器用于对预测模型进行解释。

在一个可能的实现方式，图自编码器由GCN（Graph Convolutional NeuralNetworks，图卷积神经网络）组成。在一个可能的实现方式，判别器由GCN组成。在一个可能的实现方式，图自编码器和判别器共享同一个GCN，以此来减少模型资源，使得整体模型架构更加轻型更易压缩。

步骤170，基于重构图网络，对第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇。

其中，第二样本簇中的各节点携带预测得到各节点对应样本所属的组学类别。

也就是说，第一样本簇中各节点携带的是图自编码降维聚类得到的组学类别，而第二样本簇中各节点携带的是预测得到的组学类别。

在一个可能的实现方式，预测实质是基于重构图网络，对第一样本簇中的各节点进行第二次聚类，以得到用于评判预测模型的聚类效果的第二样本簇。

步骤190，根据第一样本簇和第二样本簇确定预测模型的聚类准确性，以根据预测模型的聚类准确性，得到多个样本的样本表型预测结果。

具体而言，通过第一样本簇中各节点携带的聚类得到的组学类别与第二样本簇中各节点携带的预测得到的组学类别之间进行的比对，便能够确定预测模型的聚类准确性。可以理解，该聚类准确性反映了预测模型的聚类效果，聚类效果越好，预测模型的聚类准确性越高。

若预测模型的聚类准确性满足设定条件，则得到多个样本的样本表型预测结果。

若预测模型的聚类准确性不满足设定条件，则调整所述样本图网络的拓扑结构，并返回步骤150，将调整后的样本图网络重新输入预测模型，直至预测模型的聚类准确性满足设定条件。

其中，设定条件可以根据应用场景的实际需要灵活地调整，此处并未加以限定。例如，设定条件是指聚类准确性大于0.95。

通过上述过程，本发明实施例克服了现有技术中组学数据缺乏其内部与之间联合考量的问题，考虑了组学数据与分析的疾病特征的关联性，减少了冗杂信息的纳入，显著提高了组学数据的利用率，提高了预测结果的精度和有效性，同时能够对聚类类别进行准确的效果评判，根据评判结果调整样本图网络，使得每个样本的邻居产生变化，样本能学到的特征更加多元化，进一步减少有用信息的丢失，为后续的预测提供积极的影响，因此，本发明实施例能够充分利用多组学数据，准确评判聚类类别之间效果，从而实现准确的样本表型预测。

请参阅图2，本申请实施例提供了一种样本表型预测方法，该方法适用于电子设备，例如，该电子设备可以是台式电脑、笔记本电脑、服务器等等。

如图2所示，该方法可以包括以下步骤：

步骤210，根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征。

具体而言，如图3所示，步骤210可以包括以下步骤：

步骤310，根据生物性确定组学类别。

其中，组学类别包括基因组、转录组、蛋白组、代谢组等等，此处未加限定，确定组学类别便于后续处理组学数据。

步骤330，对组学数据进行预处理和特征筛选。

对各个组学类别的组学数据进行预处理，例如去除低表达数据、缺失数据等等，其中，低表达数据是指表达量低于阈值的组学数据，然后根据分析的具体疾病的特征对各个组学类别的组学数据进行特征筛选。

步骤350，找出各个组学类别中与生存相关的组学分子。

例如分析癌症预后时，通过特征筛选找出各组学类别中与生存相关的组学分子，与生存相关的组学分子能够代表该组学类别，便于后续考虑不同组学类别之间的关系。其中，各个组学类别中有多个组学分子，每个组学分子都包含分子特征。

步骤370，根据各个组学类别中组学分子之间的相互作用性确定分子特征。

考虑各个组学类别中与生存相关的组学分子之间的互相作用关系，根据组学分子之间的互相作用关系确定具有特殊生物意义的组学分子，使得各组学分子相关性更紧密，具有特殊生物意义的组学分子的分子特征可以代表样本的特征。

其中，各样本中的分子特征是各样本中具有特殊生物意义的分子的特征，例如样本中与预后有关的基因组学的分子，该基因组学的分子的特征包括miRNA表达、mRNA表达，拷贝数变异等，还可以是指样本中与免疫关联紧密的分子及其特征，此处并未加以限定。

在一个可能的实现方式，分子间的相互作用关系是指抑制作用、激活作用等。那么，基于生物性和分子间的相互作用关系，特征筛选包括单因素回归分析、多因素回归分析等方式，此处并未加以限定。

通过上述过程，本实施例对组学数据分别进行了不同组学类别的组学数据内部和之间的联合考量，不仅考虑组学分子之间的相关性，更考虑到组学数据与分析的疾病特征之间的关联性，进而得到具有特殊生物意义的分子特征。

步骤220，根据各样本中分子特征之间的相似性，构建样本图网络。

具体地，将各个样本中的分子特征作为样本图网络的节点，根据分子特征计算节点之间的相似度，在相似度大于设定的阈值的两个节点之间建立路径，由各节点及其中的路径得到样本图网络，其中，节点之间的相似度用于指示样本与样本之间的生物特征相似性。

通过上述过程，本实施例能够根据样本与样本之间的生物特征相似性建立连接，得到样本图网络为后续的样本表型预测提供依据。

步骤230，将样本图网络输入预测模型，对样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇。

具体而言，如图4所示，步骤230可以包括以下步骤：

步骤410，将样本图网络中各节点指示的分子特征拼接得到节点特征矩阵，作为组学表达谱。

步骤430，将样本图网络的邻接矩阵和组学表达谱输入图自编码器，得到重构图网络和第一样本簇。

其中，重构图网络是指经过预测模型调整后的样本图网络，第一样本簇中的各节点携带聚类得到的各节点对应样本所属的组学类别。

在一个可能的实现方式，图自编码器由GCN（图卷积神经网络）组成。在一个可能的实现方式，判别器由GCN组成。在一个可能的实现方式，图自编码器和判别器共享同一个GCN，以此来减少模型资源，使得整体模型架构更加轻型更易压缩。

其中，图自编码器通过编码学习得到图嵌入（即重构图网络），采用梯度下降法训练图卷积神经网络的权值，在每次训练迭代中使用完整数据集执行批量梯度下降，图自编码器的训练目标是最小化输入邻接矩阵和重构矩阵之间的交叉熵。

具体地，交叉熵L的计算公式如下：

其中，

和/>

是样本图网络的邻接矩阵A和对称归一化矩阵/>

在第i行和第j列的元素，N是邻接矩阵A中元素的总数。

通过最小化输入邻接矩阵和重建矩阵之间的交叉熵损失，作为结束图自动编码器的训练过程的标志。

通过上述过程，本实施例通过图自编码器充分学习了组学数据的特征信息，得到重构图网络和第一样本簇。

步骤240，基于重构图网络，对第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇。

步骤250，根据第一样本簇和第二样本簇确定预测模型的聚类准确性，以根据预测模型的聚类准确性，得到多个样本的样本表型预测结果。

如图5所示，步骤250可以包括以下步骤：

步骤510，将重构图网络和第一样本簇输入判别器，得到第一样本簇中各节点对应样本属于不同组学类别的概率。

在一种可能的实现方式，判别器由图卷积神经网络GCN构成，采用与图自编码器相同的训练方式，使用交叉熵损失作为判别器结束训练过程的标志。

具体地，交叉熵L的计算公式如下：

其中，

是指第一样本簇中各携带真实标签的节点，该真实标签用于指示节点对应样本所属组学类别的真实值；F为输出层特征，Y为真实标签，Z为图卷积神经网络GCN的输出。

步骤530，基于第一样本簇中各节点对应样本属于不同组学类别的概率，对第一样本簇中各节点进行组学类别更新，得到第二样本簇。

举例来说，经过聚类后，假设第一样本簇中的一个节点对应样本所属组学类别为组别A，经过预测后，第一样本簇中一个节点对应样本属于组别A的概率为0.1%，属于组别B的概率为88%，则将该节点对应样本所属的组学类别从组别A更新为组别B。

步骤550，计算第一样本簇和第二样本簇确定预测模型的聚类准确性。

在完成更新后，便能够根据第一样本簇中各节点与第二样本簇中各节点之间的差异，确定预测模型的聚类准确性。

例如，若第一样本簇中各节点与第二样本簇中各节点之间完全一致，则确定预测模型的聚类准确性为1。

或者，若第一样本簇中各节点与第二样本簇中各节点之间仅有5个节点存在差异，则确定预测模型的聚类准确性为0.98。

步骤260，判断聚类准确性是否大于设定阈值。

若聚类准确性大于设定阈值，则表示聚类效果已达到最优，得到多个样本的样本表型预测结果，执行步骤280，即进入模型解释模块进行预测结果解释。

反之，若聚类准确性未大于设定阈值，则表示聚类效果未达到最优，样本图网络还需要进行调整，则执行步骤270，即进入样本图网络动态调整模块对样本图网络进行调整，使得调整后的样本图网络重新输入至预测模型进行预测，即返回步骤230，直至预测模型的聚类准确性满足设定条件。

通过上述过程，本实施例通过多个指标实现对聚类准确性的判定，能够得到聚类的实际效果，便于后续根据聚类的实际效果进行模型和样本图网络的调整。

步骤270，对样本图网络进行动态调整。

具体而言，如图6所示，可以包括以下步骤：

步骤610，基于第一样本簇中的节点和第二样本簇中的各节点，确定对应样本所属组学类别存在差异的节点。

步骤630，在样本图网络中，将有差异的节点与第一样本簇中各节点之间的路径断开。

步骤650，将有差异的节点与第二样本簇中各节点之间建立路径。

通过上述过程，本实施例根据第一样本簇和第二样本簇的对比差异对样本图网络进行了调整，尽可能的使更多的有效信息贡献于无监督聚类结果，不断聚拢具有相似性的样本，同时考虑无监督得到的不同组学类别间会存在部存在相似的的可能，使得样本学习到更多不同的邻居的相似的特征使之能聚合到一起，显著提高了样本图网络的准确度，进而提高预测模型的准确度。

步骤280，使用预测模型解释模块解释预测结果。

具体而言，如图7所示，可以包括以下步骤：

步骤710，将多个样本的样本表型预测结果输入解释器。

在一种可能的实现方式，解释器使用像素级即使LRP算法进行模型的解释，将该算法运用于图卷积神经网络GCN时，可以得到每个进行预测的分子即每个节点的特征的相关值。该相关值体现出了该分子在聚类任务中的重要性，同时该重要性也反映了各个样本被划分为不同样本簇的原因。

步骤730，得到各节点分子特征的相关值，对预测结果提供解释依据，该相关值体现出了该分子特征在聚类任务中的重要性。

具体地，相关值的传播规则如下：

其中，

和/>

分别表示节点i和j的相关性，/>

是指遍历节点i所连接的上层中的所有节点，/>

是节点i的输出或激活，/>

表示连接节点i和节点j的权重，/>

表示传播的层数。

基于上述传播规则所遵循的LRP守恒特性，即上层神经元接收到的能量必须等量重新分配到下层，便能够确定样本图网络中各节点所表示分子特征的相关值。

通过上述过程，本实施例通过预测模型解释模块直观展示了各组学在模型中对结果起作用的原因和结果，减小了模型进入实际应用场景的阻碍，提供了可解释的样本表型预测方法。

由上可知，本发明实施例克服了现有技术中组学数据缺乏其内部与之间联合考量的问题，考虑了组学数据与分析的疾病特征的关联性，减少了冗杂信息的纳入，提高了预测结果的精度和有效性，在模型训练的过程中考虑了特征与特征之间的相关性，同时，本发明提供了判别器和解释器用于实现聚类的效果评判和模型的可解释性，该效果评判既能考虑到各类别内部的特征相似性情况，又能考虑到类别之间的样本的相似情况，且能够指出倾向性（即预测的误判情况），反映出样本与样本之间的相关性，且效果评判与样本表型预测共用模型，减少资源，不仅使得整体模型架构更轻更压缩，同时便于进入实际应用场景，一定程度上客服了实际临床应用的局限性，提供了一种考虑多组学数据分子与分子之间相关性进行样本的图网络构建实现无监督聚类病评判组间组内聚类效果动态调整网络的可解释的方法。

并且，本发明显著提高了组学数据的利用率，同时能够对聚类类别进行准确的效果评判，进而调整样本图网络，使得每个样本的邻居产生变化，样本能学到的特征更加多元化，进一步减少有用信息的丢失，为后续的预测提供积极的影响，进而能够实现充分利用多组学数据，准确评判聚类类别之间效果，从而实现准确的样本表型预测。

请参阅图8，在一示例性实施例中，一种样本表型的预测装置800。

所述装置800包括但不限于：特征选取模块810、图网络构建模块830、节点聚类模块850、组别预测模块870及结果获取模块890。

其中，特征选取模块810，用于根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征。

图网络构建模块830，用于根据各样本中分子特征之间的相似性，构建样本图网络，样本图网络中的各节点分别用于指示对应样本中的分子特征。

节点聚类模块850，用于将样本图网络输入预测模型，对样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇，第一样本簇中的各节点携带聚类得到的各节点对应样本所属的组学类别。

组别预测模块870，用于基于重构图网络，对第一样本簇中各节点所对应样本的样本表型进行预测，得到第二样本簇，第二样本簇中的各节点携带预测得到各节点对应样本所属的组学类别。

结果获取模块890，用于根据第一样本簇和第二样本簇确定预测模型的聚类准确性，若预测模型的聚类准确性满足设定条件，则得到多个样本的样本表型预测结果。

在一示例性实施例中，图9为样本表型的预测装置在应用场景中的流程图，该样本表型的预测装置包括特征选取模块910、图网络构建模块930、节点聚类模块950、组别预测模块970和结果获取模块990。

具体而言，特征选取模块910根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征，分子特征进入图网络构建模块930根据各样本中分子特征之间的相似性，构建样本图网络，将样本图网络输入节点聚类模块950进行聚类，得到重构图网络和第一样本簇，将重构图网络输入组别预测模块970对第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇，结果获取模块990根据第一样本簇和所述第二样本簇确定预测模型的聚类准确性，预测模型的聚类准确性满足设定条件时，获得多个样本的样本表型预测结果。

需要说明的是，上述实施例所提供的样本表型预测装置在进行样本表型预测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即样本表型预测装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的样本表型预测装置与样本表型预测方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

图10根据一示例性实施例示出的一种电子设备的结构示意。

需要说明的是，该电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图10示出的示例性的电子设备2000中的一个或者多个组件。

电子设备2000的硬件结构可因配置或者性能的不同而产生较大的差异，如图10所示，电子设备2000包括：电源210、接口230、至少一存储器250、以及至少一中央处理器（CPU,Central Processing Units）270。

具体地，电源210用于为电子设备2000上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231，用于与外部设备交互。

当然，在其余本申请适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图9所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备2000上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块（图10未示出），每个模块都可以分别包含有对电子设备2000的计算机程序。例如，信息推荐装置可视为部署于电子设备2000的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是推荐信息等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机程序，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机程序的形式来完成信息推荐方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图11，本申请实施例中提供了一种电子设备4000，该电子设备4000可以包括：台式电脑、笔记本电脑、服务器等。

在图11中，该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。

其中，处理器4001和存储器4003相连，如通过通信总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信总线4002可包括一通路，在上述组件之间传送信息。通信总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003上存储有计算机程序，处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。

该计算机程序被处理器4001执行时实现上述各实施例中的样本表型的预测方法。

此外，本申请实施例中提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的样本表型的预测方法。

本申请实施例中提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述各实施例中的样本表型的预测方法。

与相关技术相比，本发明的有益效果是：

1.本发明对组学数据内部与之间进行联合考量，利用具有特殊生物意义的生物组学进行样本图网络的构建，特殊生物意义组学的筛选不仅考虑了组学类别间的生物关系，同时考虑了组学间分子的生物相互作用性，使得无效信息尽可能少，在后续的预测中减少了噪声对结果的影响，提高预测的准确性。

2.本发明对聚类效果进行评判，根据评判结果调整图网络。该评判结果既能考虑到各类别内部的特征相似性情况，又能考虑到类间的样本的相似情况，且能够指出预测的误判情况，反映出样本与样本之间的相关性，根据聚类效果对样本的图网络边连接进行调整，使得样本的可以动态的学习不同的邻居特征，进一步提高了模型预测的准确率。

3.本发明提供了对模型预测结果的解释功能，直观展示了各组学数据在模型中对结果起作用的原因和结果，减小了模型进入实际应用场景的阻碍，提供了可解释的样本表型预测方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种样本表型的预测方法，其特征在于，所述方法包括：

根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征；

根据各样本中分子特征之间的相似性，构建样本图网络，所述样本图网络中的各节点分别用于指示对应样本中的分子特征；

将所述样本图网络输入预测模型，对所述样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇，所述第一样本簇中的各节点携带聚类得到的各所述节点对应样本所属的组学类别；

基于所述重构图网络，对所述第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇，所述第二样本簇中的各节点携带预测得到各所述节点对应样本所属的组学类别；

根据所述第一样本簇和所述第二样本簇确定所述预测模型的聚类准确性，若所述预测模型的聚类准确性满足设定条件，则得到多个样本的样本表型预测结果，反之则动态调整所述样本图网络直至所述预测模型的聚类准确性满足设定条件。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一样本簇和所述第二样本簇确定所述预测模型的聚类准确性之后，包括：

若所述预测模型的聚类准确性不满足设定条件，则调整所述样本图网络的拓扑结构；

将调整后的样本图网络重新输入所述预测模型，直至所述预测模型的聚类准确性满足所述设定条件。

3.如权利要求2所述的方法，其特征在于，所述调整所述样本图网络的拓扑结构，包括：

基于所述第一样本簇中的各节点和所述第二样本簇中的各节点，确定对应样本所属组学类别存在差异的节点；

在所述样本图网络中，将所确定的节点与所述第一样本簇中各节点之间的路径断开，并在所确定的节点与所述第二样本簇中各节点之间建立路径。

4.如权利要求1所述的方法，其特征在于，所述根据各样本中分子特征之间的相似性，构建样本图网络，包括：

将各个样本中的分子特征作为所述样本图网络的节点；

根据各所述样本中的分子特征，得到各节点之间的相似度；

在所述相似度大于设定阈值的两个节点之间建立路径，并由各节点及其中路径，得到所述样本图网络。

5.如权利要求1所述的方法，其特征在于，所述预测模型包括经过训练得到的、且具有对所述样本图网络中各节点进行聚类的能力的图自编码器；所述将所述样本图网络输入预测模型，对所述样本图网络的各节点进行聚类，得到重构图网络和第一样本簇，包括：

将所述样本图网络中各节点所指示的分子特征拼接得到节点特征矩阵，以作为所述样本图网络的组学表达谱；

将样本图网络的邻接矩阵和组学表达谱输入所述图自编码器，得到所述重构图网络和所述第一样本簇，所述邻接矩阵用于指示所述样本图网络的拓扑结构。

6.如权利要求1所述的方法，其特征在于，所述预测模型包括经过训练得到的、且具有对所述第一样本簇中各节点所对应样本的组学类别进行预测的能力的判别器；

所述基于所述重构图网络，对所述第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇，包括：

将所述重构图网络和所述第一样本簇输入所述判别器，计算所述第一样本簇中各节点所对应样本属于不同组学类别的概率；

基于计算得到的概率，对所述第一样本簇中各节点所对应样本的组学类别进行更新处理，由更新后的各节点得到所述第二样本簇。

7.如权利要求1至6任一项所述的方法，其特征在于，所述预测模型还包括经过训练得到的、且具有对所述预测模型进行解释的能力的解释器；

所述得到多个样本的样本表型预测结果之后，所述方法包括：

将多个样本的样本表型预测结果输入解释器，得到各所述节点所指示分子特征的相关值，利用所述样本图网络中各节点的相关值对所述预测结果进行解释，所述相关值用于对多个样本的样本表型预测结果提供解释依据。

8.一种样本表型的预测装置，其特征在于，所述装置包括：

特征选取模块，用于根据生物性和分子间的相互作用关系，对多个样本中的多组学数据进行特征筛选，确定各样本中用于构建样本图网络的分子特征；

图网络构建模块，用于根据各样本中分子特征之间的相似性，构建样本图网络，所述样本图网络中的各节点分别用于指示对应样本中的分子特征；

节点聚类模块，用于将所述样本图网络输入预测模型，对所述样本图网络中的各节点进行聚类，得到重构图网络和第一样本簇，所述第一样本簇中的各节点携带聚类得到的各所述节点对应样本所属的组学类别；

组别预测模块，用于基于所述重构图网络，对所述第一样本簇中各节点所对应样本的组学类别进行预测，得到第二样本簇，所述第二样本簇中的各节点携带预测得到各所述节点对应样本所属的组学类别；

结果获取模块，用于根据所述第一样本簇和所述第二样本簇确定所述预测模型的聚类准确性，若所述预测模型的聚类准确性满足设定条件，则得到多个样本的样本表型预测结果，反之则动态调整所述样本图网络直至所述预测模型的聚类准确性满足设定条件。

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、以及至少一条通信总线，其中，

所述存储器上存储有计算机程序，所述处理器通过所述通信总线读取所述存储器中的所述计算机程序；

所述计算机程序被所述处理器执行时实现权利要求1至7中任一项所述的样本表型的预测方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的样本表型的预测方法。