CN113780445A

CN113780445A - 癌症亚型分类预测模型的生成方法及装置、存储介质

Info

Publication number: CN113780445A
Application number: CN202111086560.XA
Authority: CN
Inventors: 刘小双
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-10
Anticipated expiration: 2041-09-16
Also published as: CN113780445B

Abstract

本申请涉及数字医疗领域，提供了一种癌症亚型分类预测模型的生成方法及装置、存储介质、计算机设备，该方法包括：获取预设基因数据库中各基因之间的基因调控关系，并依据所述基因调控关系生成基因调控网络；获取目标样本的样本数据，其中，所述样本数据包括每个所述目标样本对应的基因表达数据、SNP数据、CNV数据以及癌症亚型类型；基于所述基因调控网络，分别构建所述目标样本与所述基因表达数据之间的第一异构图、所述目标样本与SNP之间的第二异构图以及所述目标样本与所述CNV之间的第三异构图；依据第一异构图、第二异构图、第三异构图以及癌症亚型类型，对预设分类预测模型进行训练，以得到癌症亚型分类预测模型。

Description

癌症亚型分类预测模型的生成方法及装置、存储介质

技术领域

本申请涉及数字医疗技术领域，尤其是涉及到一种癌症亚型分类预测模型的生成方法及装置、存储介质、计算机设备。

背景技术

癌症的发生与基因的变异之间具有直接关联。就目前已知的癌症类型来说，任何类型癌症对应的癌细胞都是从正常细胞一步一步转化而来的，在此过程中伴随着基因的变异。因此，可以通过研究基因变异情况来预测患者可能出现的癌症以及对应的癌症类型。

现有技术中利用基因表达量数据对患者的癌症类型进行预测，但是应用过程中发现利用这种方法预测癌症类型时，预测结果并不准确。因此，如何提升癌症类型预测的准确性，成为了本领域亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种癌症亚型分类预测模型的生成方法及装置、存储介质、计算机设备，能够有效避免单一利用一种数据进行癌症亚型分类预测造成预测结果不准确的问题，有利于充分利用目标样本的基因表达数据、SNP数据以及CNV数据，便于从不同角度更加系统的对预设分类预测模型进行训练，提升结果预测的准确性。

根据本申请的一个方面，提供了一种癌症亚型分类预测模型的生成方法，包括：

获取预设基因数据库中各基因之间的基因调控关系，并依据所述基因调控关系生成基因调控网络；

获取目标样本的样本数据，其中，所述样本数据包括每个所述目标样本对应的基因表达数据、SNP数据、CNV数据以及癌症亚型类型；

基于所述基因调控网络，分别构建所述目标样本与所述基因表达数据之间的第一异构图、所述目标样本与SNP之间的第二异构图以及所述目标样本与所述CNV之间的第三异构图；

依据所述第一异构图、所述第二异构图、所述第三异构图以及所述癌症亚型类型，对预设分类预测模型进行训练，以得到癌症亚型分类预测模型。

可选地，所述依据所述第一异构图、所述第二异构图、所述第三异构图以及所述癌症亚型类型，对预设分类预测模型进行训练，以得到癌症亚型分类预测模型包括：

分别将所述第一异构图、第二异构图以及第三异构图输入至预设分类预测模型的特征识别层中，得到各目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征；

通过所述预设分类预测模型的拼接层，将每个目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征进行拼接，得到每个所述目标样本的基因数据特征；

将每个目标样本的所述基因数据特征输入至所述预设分类预测模型的全连接层，得到每个目标样本的分类预测特征，并通过预设激活函数识别所述分类预测特征，得到每个目标样本对应的第一癌症亚型预测数据；

基于所述第一癌症亚型预测数据以及所述癌症亚型类型，通过预设交叉熵函数计算模型损失值；

依据所述模型损失值调整所述预设分类预测模型的模型参数，通过调整后的预设分类预测模型的全连接层以及所述预设激活函数，得到第二癌症亚型预测数据，并再次计算所述模型损失值；

当所述预测损失值小于预设损失阈值时，得到癌症亚型分类预测模型。

可选地，所述得到各目标样本对应的基因表达数据特征、SNP数据特征、CNV数据特征之后，所述方法还包括：

获取每个所述目标样本的临床信息数据特征，通过所述预设分类预测模型的拼接层，将每个目标样本对应的基因表达数据特征、SNP数据特征、CNV数据特征以及所述临床信息数据特征进行拼接，得到每个所述目标样本的全量数据特征。

可选地，所述基于所述基因调控网络，构建所述目标样本与所述基因表达数据之间的第一异构图包括：

将每个所述目标样本对应的基因表达数据通过预设标准化处理函数进行标准化处理，生成标准化基因表达数据；

将所述基因调控网络中的任一基因确定为目标节点基因，查找与所述目标节点基因对应的所述标准化基因表达数据，并分别计算每个所述目标样本对应的标准化基因表达数据的相对表达比值；

当所述相对表达比值大于或等于所述第一表达阈值，或者所述相对表达比值小于或等于所述第二表达阈值时，生成所述目标样本与所述基因表达数据之间的第一特征边，并将所述相对表达比值作为所述第一特征边对应的权重，以构建第一异构图。

可选地，所述基于所述基因调控网络，构建所述目标样本与所述SNP之间的第二异构图包括：

对不同所述目标样本的样本数据中的所述SNP数据进行去重处理，并将去除后的所述SNP数据分别映射到所述基因调控网络中对应的基因上；

依据每个所述目标样本对应的SNP数据，从所述基因调控网络中查找映射有所述SNP数据的基因，并生成所述目标样本与所述SNP之间的第二特征边，以构建第二异构图。

可选地，所述基于所述基因调控网络，构建所述目标样本与所述CNV之间的第三异构图包括：

对不同所述目标样本的样本数据中的所述CNV数据进行去重处理，并将去除后的所述CNV数据分别映射到所述基因调控网络中对应的基因上；

依据每个所述目标样本对应的CNV数据，判断所述CNV数据与第一转录阈值和第二转录阈值之间的关系，并当所述CNV数据大于第一转录阈值或者小于第二转录阈值时，从所述基因调控网络中查找映射有所述CNV数据的基因，生成所述目标样本与所述CNV之间的第三特征边，以构建第三异构图。

可选地，所述分别计算每个所述目标样本对应的标准化基因表达数据的相对表达比值包括：

基于所述目标节点基因对应的所述标准化基因表达数据，计算所述目标节点基因在所述目标样本中的平均表达数据，并分别计算每个所述目标样本对应的标准化基因表达数据与所述平均表达数据之间的比值，得到所述与每个目标样本对应的相对表达比值。

根据本申请的另一方面，提供了一种癌症亚型分类预测模型的生成装置，包括：

基因调控网络生成模块，用于获取预设基因数据库中各基因之间的基因调控关系，并依据所述基因调控关系生成基因调控网络；

样本数据获取模块，用于获取目标样本的样本数据，其中，所述样本数据包括每个所述目标样本对应的基因表达数据、SNP数据、CNV数据以及癌症亚型类型；

异构图构建模块，用于基于所述基因调控网络，分别构建所述目标样本与所述基因表达数据之间的第一异构图、所述目标样本与SNP之间的第二异构图以及所述目标样本与所述CNV之间的第三异构图；

模型构建模块，用于依据所述第一异构图、所述第二异构图、所述第三异构图以及所述癌症亚型类型，对预设分类预测模型进行训练，以得到癌症亚型分类预测模型。

可选地，所述模型构建模块包括：

特征识别单元，用于分别将所述第一异构图、第二异构图以及第三异构图输入至预设分类预测模型的特征识别层中，得到各目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征；

特征拼接单元，用于通过所述预设分类预测模型的拼接层，将每个目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征进行拼接，得到每个所述目标样本的基因数据特征；

特征预测单元，用于将每个目标样本的所述基因数据特征输入至所述预设分类预测模型的全连接层，得到每个目标样本的分类预测特征，并通过预设激活函数识别所述分类预测特征，得到每个目标样本对应的第一癌症亚型预测数据；

损失值计算单元，用于基于所述第一癌症亚型预测数据以及所述癌症亚型类型，通过预设交叉熵函数计算模型损失值；

参数调整单元，用于依据所述模型损失值调整所述预设分类预测模型的模型参数，通过调整后的预设分类预测模型的全连接层以及所述预设激活函数，得到第二癌症亚型预测数据，并再次计算所述模型损失值；当所述预测损失值小于预设损失阈值时，得到癌症亚型分类预测模型。

可选地，所述特征拼接单元，还用于所述得到各目标样本对应的基因表达数据特征、SNP数据特征、CNV数据特征之后，获取每个所述目标样本的临床信息数据特征，通过所述预设分类预测模型的拼接层，将每个目标样本对应的基因表达数据特征、SNP数据特征、CNV数据特征以及所述临床信息数据特征进行拼接，得到每个所述目标样本的全量数据特征。

可选地，所述异构图构建模块用于：

可选地，所述异构图构建模块还用于：

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述癌症亚型分类预测模型的生成方法。

依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述癌症亚型分类预测模型的生成方法。

借由上述技术方案，本申请提供的一种癌症亚型分类预测模型的生成方法及装置、存储介质、计算机设备，首先从预设基因数据库中获取不同基因相互之间的基因调控关系，并将有调控关系的基因之间形成一条边，以此类推，从而生成对应的基因调控网络，其次，获取目标样本的基因表达数据、SNP数据、CNV数据以及癌症亚型类型等，并以基因调控网络为基础，分别构建目标样本和基因表达数据之间的第一异构图、目标样本和SNP之间的第二异构图以及目标样本和CNV之间的第三异构图，最后利用构建的第一异构图、第二异构图、第三异构图以及目标样本对应的癌症亚型类型，训练预设分类预测模型，最终得到癌症亚型分类预测模型。本申请实施例通过先构建基因调控网络，之后以基因调控网络为基础分别构建目标样本和基因表达数据之间的第一异构图、目标样本和SNP之间的第二异构图、目标样本和CNV之间的第三异构图，通过这三个异构图对预设分类预测模型进行训练，得到癌症亚型分类预测模型，能够有效避免单一利用一种数据进行癌症亚型分类预测造成预测结果不准确的问题，有利于充分利用目标样本的基因表达数据、SNP数据以及CNV数据，便于从不同角度更加系统的对预设分类预测模型进行训练，提升结果预测的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种癌症亚型分类预测模型的生成方法的流程示意图；

图2示出了本申请实施例提供的一种癌症亚型分类预测模型的生成装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种癌症亚型分类预测模型的生成方法，如图1所示，该方法包括：

步骤101，获取预设基因数据库中各基因之间的基因调控关系，并依据所述基因调控关系生成基因调控网络；

本发明实施例主要适用于对癌症亚型分类预测的场景，本申请实施例提供的癌症亚型分类预测模型的生成方法，具体可以应用于服务器一侧。其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，首先从预设基因数据库中获取人体不同基因相互之间的基因调控关系，并将有调控关系的基因之间形成一条边，以此类推，从而生成对应的基因调控网络。在这里，预设基因数据库可以是DIP(databaseof interacting proteins)数据库、BIND(biomolecular interaction networkdatabase)数据库等。此外，预设基因数据库中还可以收录着蛋白和蛋白之间关系的信息，通过蛋白和蛋白之间的关系来确定基因和基因之间的关系。如果预设基因数据库中的基因A对应的蛋白A’与基因B对应的蛋白B’之间存在调控关系，那么默认基因A和基因B之间存在调控关系，基因A和基因B之间可以形成基因调控网络中的一条边。

步骤102，获取目标样本的样本数据，其中，所述样本数据包括每个所述目标样本对应的基因表达数据、SNP数据、CNV数据以及癌症亚型类型；

在该实施例中，生成基因调控网络后，获取目标样本的基因表达数据、SNP(SingleNucleotide Polymorphism，单核苷酸变异)数据、CNV(Copy Number Variations，拷贝数变异)数据以及癌症亚型类型等。基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度，这些数据可以用于分析哪些基因的表达发生了改变、基因之间有何相关性以及在不同条件下基因的活动是如何受影响的。基因表达数据在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。除了基因表达数据，SNP数据以及CNV数据也同样能够反映出基因存在的异常。SNP数据主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，CNV数据指的是异常的DNA拷贝数变化的数据。目标样本对应的癌症亚型分类可以利用不同的数值表示，例如，某癌症亚型分类为5类，那么可以利用1-5这五个数据分别代表对应的不同癌症亚型。此外，有些目标样本可能并不存在SNP，因而不具备对应的SNP数据，在获取目标样本数据时可以直接通过数据0来进行填充。

步骤103，基于所述基因调控网络，分别构建所述目标样本与所述基因表达数据之间的第一异构图、所述目标样本与SNP之间的第二异构图以及所述目标样本与所述CNV之间的第三异构图；

在该实施例中，以基因调控网络为基础分别构建三个异构图。利用基因调控网络，构建目标样本和基因表达数据之间的第一异构图；利用基因调控网络，构建目标样本和SNP之间的第二异构图；以及利用基因调控网络，构建目标样本和CNV之间的第三异构图。

步骤104，依据所述第一异构图、所述第二异构图、所述第三异构图以及所述癌症亚型类型，对预设分类预测模型进行训练，以得到癌症亚型分类预测模型。

在该实施例中，利用构建的第一异构图、第二异构图、第三异构图以及目标样本对应的癌症亚型类型，训练预设分类预测模型，通过对预设分类预测模型中的相关参数进行迭代优化，最终得到癌症亚型分类预测模型。

通过应用本实施例的技术方案，首先从预设基因数据库中获取不同基因相互之间的基因调控关系，并将有调控关系的基因之间形成一条边，以此类推，从而生成对应的基因调控网络，其次，获取目标样本的基因表达数据、SNP数据、CNV数据以及癌症亚型类型等，并以基因调控网络为基础，分别构建目标样本和基因表达数据之间的第一异构图、目标样本和SNP之间的第二异构图以及目标样本和CNV之间的第三异构图，最后利用构建的第一异构图、第二异构图、第三异构图以及目标样本对应的癌症亚型类型，训练预设分类预测模型，最终得到癌症亚型分类预测模型。本申请实施例通过先构建基因调控网络，之后以基因调控网络为基础分别构建目标样本和基因表达数据之间的第一异构图、目标样本和SNP之间的第二异构图、目标样本和CNV之间的第三异构图，通过这三个异构图对预设分类预测模型进行训练，得到癌症亚型分类预测模型，能够有效避免单一利用一种数据进行癌症亚型分类预测造成预测结果不准确的问题，有利于充分利用目标样本的基因表达数据、SNP数据以及CNV数据，便于从不同角度更加系统的对预设分类预测模型进行训练，提升结果预测的准确性。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种癌症亚型分类预测模型的生成方法，该方法包括：

步骤201，获取预设基因数据库中各基因之间的基因调控关系，并依据所述基因调控关系生成基因调控网络；

步骤202，获取目标样本的样本数据，其中，所述样本数据包括每个所述目标样本对应的基因表达数据、SNP数据、CNV数据以及癌症亚型类型；

步骤203，基于所述基因调控网络，分别构建所述目标样本与所述基因表达数据之间的第一异构图、所述目标样本与SNP之间的第二异构图以及所述目标样本与所述CNV之间的第三异构图；

在该实施例中，首先从预设基因数据库中获取不同基因相互之间的基因调控关系，并将有调控关系的基因之间形成一条边，以此类推，从而生成对应的基因调控网络，其次，获取目标样本的基因表达数据、SNP数据、CNV数据以及癌症亚型类型等，并以基因调控网络为基础，分别构建目标样本和基因表达数据之间的第一异构图、目标样本和SNP之间的第二异构图以及目标样本和CNV之间的第三异构图。

步骤204，分别将所述第一异构图、第二异构图以及第三异构图输入至预设分类预测模型的特征识别层中，得到各目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征；

在该实施例中，可以通过预设分类预测模型的特征识别层对上面构建的三个异构图进行学习。具体可以将构建的第一异构图、第二异构图以及第三异构图分别输入到预设分类预测模型的特征识别层中，通过预设分类预测模型的特征识别层对第一异构图、第二异构图以及第三异构图加以学习，从而得到不同目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征，其中基因表达数据特征、SNP数据特征以及CNV数据特征可以利用向量的形式表示。

步骤205，通过所述预设分类预测模型的拼接层，将每个目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征进行拼接，得到每个所述目标样本的基因数据特征；

在该实施例中，预设分类预测模型除了包括特征识别层，还可以包括拼接层。得到基因表达数据特征、SNP数据特征以及CNV数据特征后，可以通过预设分类预测模型的拼接层对基因表达数据特征、SNP数据特征以及CNV数据特征进行拼接，最终可以得到不同目标样本对应的基因数据特征。例如，通过预设分类预测模型的特征识别层得到的目标样本的基因表达数据特征、SNP数据特征以及CNV数据特征均为1×10维的特征向量，那么经过拼接层拼接后得到的基因数据特征为1×30维的特征向量，该1×30维的向量包括目标样本的全部数据特征。本申请实施例将目标样本对应的基因表达数据特征、SNP数据特征以及CNV数据特征进行拼接得到目标样本对应的基因数据特征，后续用于预设分类预测模型的训练，使得预设分类预测模型的训练效果更好，用于训练的数据更加全面。

步骤206，将每个目标样本的所述基因数据特征输入至所述预设分类预测模型的全连接层，得到每个目标样本的分类预测特征，并通过预设激活函数识别所述分类预测特征，得到每个目标样本对应的第一癌症亚型预测数据；

在该实施例中，预设分类预测模型还可以包括全连接层，经过全连接层输出的结果可以表示为：f(W₁x+b₁)，其中，x为每个目标样本对应的基因数据特征，W1为全连接层的权重，b1为全连接层的偏置系数。得到与每个目标样本对应的基因数据特征后，将基因数据特征输入到预设分类预测模型的全连接层中，经过全连接层的计算得到对应的分类预测特征，之后通过预设激活函数对分类预测特征进行计算，最终得到与每个目标样本对应的第一癌症亚型预测数据。其中预设激活函数可以是softmax函数，通过softmax函数可以计算每个目标样本对应不同癌症亚型分类的概率，即第一癌症亚型预测数据。例如，针对目标样本1，假如softmax函数需要做的工作是三分类工作，对应的癌症亚型可以是type A、typeB、type C，那么通过softmax函数识别目标样本的分类预测特征后，得到的第一癌症亚型预测数据可以是目标样本1对应癌症亚型为type A、Type B、type C的概率，这些概率相加的总和为1。本申请实施例通过预设激活函数，可以将目标样本对应的不同癌症亚型的预测结果通过概率的形式显示出来，有利于帮助医生进行结果判断。

步骤207，基于所述第一癌症亚型预测数据以及所述癌症亚型类型，通过预设交叉熵函数计算模型损失值；依据所述模型损失值调整所述预设分类预测模型的模型参数，通过调整后的预设分类预测模型的全连接层以及所述预设激活函数，得到第二癌症亚型预测数据，并再次计算所述模型损失值；当所述预测损失值小于预设损失阈值时，得到癌症亚型分类预测模型。

在该实施例中，经过预设激活函数识别，得到与每个目标样本对应的第一癌症亚型预测数据后，以第一癌症亚型预测数据以及每个目标样本对应的癌症亚型类型为基础，将第一癌症亚型预测数据和癌症亚型类型输入至预设交叉熵函数中，可以得到模型损失值。进一步，可以利用模型损失值对预设分类预测模型中预先设置的模型参数进行调整，得到调整后的预设分类预测模型，并通过调整后的预设分类预测模型的全连接层，以及预设激活函数，计算对应的第二癌症亚型预测数据。之后以计算得到的第二癌症亚型预测数据和癌症亚型类型为基础，再次计算模型损失值。一直重复上面调整预设分类预测模型中模型参数的过程，直到计算得到的模型损失值小于预先设置的损失阈值时，说明模型损失已经达到了可接受的程度，此时预设分类预测模型对应的模型参数可以作为最终的模型参数，对应的预设分类预测模型即癌症亚型分类预测数据。本申请实施例通过计算模型损失值，并通过模型损失值不断调整模型参数，使得预设分类预测模型的输出结果更加贴近实际，有利于提升后续预测的准确性。

在本申请实施例中，可选地，步骤203中所述“基于所述基因调控网络，构建所述目标样本与所述基因表达数据之间的第一异构图”包括：将每个所述目标样本对应的基因表达数据通过预设标准化处理函数进行标准化处理，生成标准化基因表达数据；将所述基因调控网络中的任一基因确定为目标节点基因，查找与所述目标节点基因对应的所述标准化基因表达数据，并分别计算每个所述目标样本对应的标准化基因表达数据的相对表达比值；当所述相对表达比值大于或等于所述第一表达阈值，或者所述相对表达比值小于或等于所述第二表达阈值时，生成所述目标样本与所述基因表达数据之间的第一特征边，并将所述相对表达比值作为所述第一特征边对应的权重，以构建第一异构图。

在该实施例中，在构建第一异构图时，首先对于获取的每个目标样本对应的基因表达数据进行标准化处理，具体可以利用预设标准化处理函数进行处理，预设标准化处理函数可以是z-score函数，即

其中x_i为目标样本i中基因x对应的基因表达量，

为所有目标样本中基因x对应的基因表达量的平均值，s为所有目标样本中基因x对应的基因表达量的标准差。每个目标样本的基因表达数据经过预设标准化处理函数的处理后，可以生成对应的标准化基因表达数据。之后从基因调控网络中选择任意一个基因作为目标节点基因，从全部标准化基因表达数据中查找与目标节点基因相对应的标准化基因表达数据。例如，从基因调控网络中选择基因y作为目标节点基因，那么从标准化基因表达数据中获取y₁到y_n，其中，y₁为目标样本1对应的基因y的标准化基因表达数据，y_n为目标样本n对应的基因y的标准化基因表达数据，从目标样本1到目标样本n构成了所有目标样本。找到对应的标准化基因表达数据后，可以分别计算这些标准化基因表达数据的相对表达比值，通过相对表达比值可以看出目标样本中该基因的基因表达量相对于全部目标样本中该基因的平均基因表达量的表达水平。当相对表达比值比第一表达阈值大或者等于第一表达阈值时，可以说明此时目标样本中该基因的基因表达量是处于偏高水平的；当相对表达比值比第二表达阈值小或者等于第二表达阈值时，可以说明此时目标样本中该基因的基因表达量是处于偏低水平的。当目标样本的基因表达量处于偏高水平或者偏低水平时，通过基因调控网络中的基因将基因表达数据与对应的目标样本之间生成第一特征边，并将相对表达比值作为第一特征边对应的权重。当将所选的目标节点基因相对应的每个目标样本的相对表达比值均遍历一遍后，更换基因调控网络中的目标节点基因，并重复上述过程，直到基因调控网络中的所有基因全部遍历一遍，自此构建完第一异构图。

在上述实施例中，所述“分别计算每个所述目标样本对应的标准化基因表达数据的相对表达比值”包括：基于所述目标节点基因对应的所述标准化基因表达数据，计算所述目标节点基因在所述目标样本中的平均表达数据，并分别计算每个所述目标样本对应的标准化基因表达数据与所述平均表达数据之间的比值，得到所述与每个目标样本对应的相对表达比值。

在该实施例中，相对表达比值具体可以通过如下步骤获得：首先以选择的目标节点基因对应的全部标准化基因表达数据为基础，计算这些标准化基因表达数据在全部目标样本中的平均表达数据，之后分别计算每个目标样本对应的标准化基因表达数据和平均表达数据之间的比值，计算出来的比值即与每个目标样本对应的相对表达比值。例如，选择的目标节点基因为基因y，目标样本共有n个，分别是目标样本1到目标样本n，这些目标样本中基因y对应的标准化基因表达数据为y₁到y_n，那么基因y在全部目标样本中的平均表达数据为

而每个目标样本对应的基因y的相对表达比值分别是

在本申请实施例中，可选地，步骤203中所述“基于所述基因调控网络，构建所述目标样本与所述SNP之间的第二异构图”包括：对不同所述目标样本的样本数据中的所述SNP数据进行去重处理，并将去除后的所述SNP数据分别映射到所述基因调控网络中对应的基因上；依据每个所述目标样本对应的SNP数据，从所述基因调控网络中查找映射有所述SNP数据的基因，并生成所述目标样本与所述SNP之间的第二特征边，以构建第二异构图。

在该实施例中，在构建第二异构图时，首先对于从不同目标样本中获取的所有SNP数据进行去重处理。因为不同目标样本可能对应相同的SNP数据，因此可以先将全部SNP数据进行去重处理，之后再将去重后的SNP数据分别映射到基因调控网络中对应的基因上，这样可以避免对SNP数据进行映射时存在重复操作。将去重后的SNP数据映射到基因调控网络中的基因上以后，分别根据每个目标样本对应的SNP数据，从基因调控网络中找到被映射有相同SNP数据的基因，使目标样本通过基因调控网络中的基因与SNP之间生成第二特征边，当所有目标样本均通过映射有相同SNP的基因与SNP之间形成第二特征边后，自此构建完第二异构图。此外，有些目标样本数据可能不存在单核苷酸变异，对应的SNP数据可能是直接通过0来填充得到的，对于这种SNP数据直接跳过，不需要从基因调控网络中查找对应的基因，也不需要将此种SNP与对应的目标样本之间生成第二特征边。

在本申请实施例中，可选地，步骤203中所述“基于所述基因调控网络，构建所述目标样本与所述CNV之间的第三异构图”包括：对不同所述目标样本的样本数据中的所述CNV数据进行去重处理，并将去除后的所述CNV数据分别映射到所述基因调控网络中对应的基因上；依据每个所述目标样本对应的CNV数据，判断所述CNV数据与第一转录阈值和第二转录阈值之间的关系，并当所述CNV数据大于第一转录阈值或者小于第二转录阈值时，从所述基因调控网络中查找映射有所述CNV数据的基因，生成所述目标样本与所述CNV之间的第三特征边，以构建第三异构图。

在该实施例中，在构建第三异构图时，首先对于从不同目标样本中获取的所有CNV数据进行去重处理。因为不同目标样本可能对应相同的CNV数据，因此可以先将全部CNV数据进行去重处理，之后再将去重后的CNV数据分别映射到基因调控网络中对应的基因上，这样可以避免对CNV数据进行映射时存在重复操作。将去重后的CNV数据映射到基因调控网络中的基因上以后，分别根据每个目标样本对应的CNV数据，判断CNV数据与第一转录阈值和第二转录阈值之间的关系，其中，第一转录阈值可以是0.2，第二转录阈值可以是-0.2。当CNV数据大于第一转录阈值或者小于第二转录阈值时，说明目标样本的基因拷贝数出现异常，从基因调控网络中找到被映射有相同CNV数据的基因，使目标样本与该CNV之间生成第三特征边，当所有目标样本均通过基因调控网络中的基因使CNV与对应的目标样本之间生成第三特征边后，自此构建完第三异构图。

在该实施例中，可选地，步骤204之后，所述方法还包括：获取每个所述目标样本的临床信息数据特征，通过所述预设分类预测模型的拼接层，将每个目标样本对应的基因表达数据特征、SNP数据特征、CNV数据特征以及所述临床信息数据特征进行拼接，得到每个所述目标样本的全量数据特征。

在该实施例中，得到基因表达数据特征、SNP数据特征以及CNV数据特征后，还可以获取不同目标样本所对应的临床信息数据特征。预设分类预测模型除了包括特征识别层，还可以包括拼接层。可以通过预设分类预测模型的拼接层对基因表达数据特征、SNP数据特征以及CNV数据特征、临床信息数据特征进行拼接，最终可以得到不同目标样本对应的全量数据特征。例如，通过预设分类预测模型的特征识别层得到的目标样本的基因表达数据特征、SNP数据特征以及CNV数据特征分别均为1×10维的向量，而目标样本的临床信息数据特征也是1×10维的向量，那么经过拼接层拼接得到的全量数据特征可以为1×40维的向量。此外，除了临床信息数据特征外，还可以获取目标样本对应的其他数据特征，并通过预设分类预测模型的拼接层进行拼接，在此不再赘述。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种癌症亚型分类预测模型的生成装置，如图2所示，该装置包括：

可选地，所述模型构建模块包括：

可选地，所述异构图构建模块用于：

当所述相对表达比值大于或等于所述第一表达阈值，或者所述相对表达比值小于或等于所述第二表达阈值时，生成所述目标样本与所述所述基因表达数据之间的第一特征边，并将所述相对表达比值作为所述第一特征边对应的权重，以构建第一异构图。

可选地，所述异构图构建模块还用于：

需要说明的是，本申请实施例提供的一种癌症亚型分类预测模型的生成装置所涉及各功能单元的其他相应描述，可以参考图1方法中的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述如图1所示的癌症亚型分类预测模型的生成方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1所示的方法，以及图2所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1所示的癌症亚型分类预测模型的生成方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。首先从预设基因数据库中获取不同基因相互之间的基因调控关系，并将有调控关系的基因之间形成一条边，以此类推，从而生成对应的基因调控网络，其次，获取目标样本的基因表达数据、SNP数据、CNV数据以及癌症亚型类型等，并以基因调控网络为基础，分别构建目标样本和基因表达数据之间的第一异构图、目标样本和SNP之间的第二异构图以及目标样本和CNV之间的第三异构图，最后利用构建的第一异构图、第二异构图、第三异构图以及目标样本对应的癌症亚型类型，训练预设分类预测模型，最终得到癌症亚型分类预测模型。本申请实施例通过先构建基因调控网络，之后以基因调控网络为基础分别构建目标样本和基因表达数据之间的第一异构图、目标样本和SNP之间的第二异构图、目标样本和CNV之间的第三异构图，通过这三个异构图对预设分类预测模型进行训练，得到癌症亚型分类预测模型，能够有效避免单一利用一种数据进行癌症亚型分类预测造成预测结果不准确的问题，有利于充分利用目标样本的基因表达数据、SNP数据以及CNV数据，便于从不同角度更加系统的对预设分类预测模型进行训练，提升结果预测的准确性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种癌症亚型分类预测模型的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述依据所述第一异构图、所述第二异构图、所述第三异构图以及所述癌症亚型类型，对预设分类预测模型进行训练，以得到癌症亚型分类预测模型包括：

3.根据权利要求2所述的方法，其特征在于，所述得到各目标样本对应的基因表达数据特征、SNP数据特征、CNV数据特征之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述基因调控网络，构建所述目标样本与所述基因表达数据之间的第一异构图包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述基因调控网络，构建所述目标样本与所述SNP之间的第二异构图包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述基因调控网络，构建所述目标样本与所述CNV之间的第三异构图包括：

7.根据权利要求4所述的方法，其特征在于，所述分别计算每个所述目标样本对应的标准化基因表达数据的相对表达比值包括：

8.一种癌症亚型分类预测模型的生成装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。