CN112435714B

CN112435714B - 一种肿瘤免疫亚型分类方法及系统

Info

Publication number: CN112435714B
Application number: CN202011211932.2A
Authority: CN
Inventors: 艾冬梅; 王瑜多; 李晓鑫
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-07-02
Anticipated expiration: 2040-11-03
Also published as: CN112435714A

Abstract

本发明公开了一种肿瘤免疫亚型分类方法及系统，该方法包括：获取包括多个肿瘤组织的RNA‑seq测序数据和基因表达谱数据的样本数据集；计算样本数据集中的每一样本所对应的肿瘤组织中的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据；以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征，构建训练样本数据集，并采用SMOTE算法对少数类进行扩充，对随机森林模型进行训练，并通过加权的形式，对随机森林模型进行改进：增加少数类的权重，使决策树分类器偏重于少数类，提高少数类的分类准确率。本发明可提高肿瘤免疫亚型分类预测的准确性，为肿瘤免疫治疗提供新的靶标。

Description

一种肿瘤免疫亚型分类方法及系统

技术领域

本发明涉及生物信息学与计算生物学技术领域，特别涉及一种肿瘤免疫亚型分类方法及系统。

背景技术

正常人体的免疫系统可以通过免疫反应消除转化过程中的肿瘤细胞，这一理论早在几十年前就被用来治疗癌症。以此为基础，免疫疗法被应用于治疗癌症，即人为地增强或抑制机体的免疫功能以达到治疗疾病目的。但科研人员发现免疫疗法在结直肠癌和胃癌的相关实验中收效甚微。对于胃癌、结直肠癌等高度异质的疾病，肿瘤免疫疗法的临床疗效不尽人意。导致这种结果的原因仍不明确，但是有研究表明：肿瘤异质性：尽管患有同一种恶性肿瘤，但是，不同患者从基因型到表型都存在差异，这种异质性是影响抗癌疗法效果的重要因素。肿瘤组织内存在不同的肿瘤细胞的免疫亚型，因此，不同的肿瘤细胞表现出免疫特征的差异，最终导致抗肿瘤药物的临床疗效的差异。

2018年，Vesteinn等人利用TCGA收集的数据对包括33种不同癌症类型的10,000多种肿瘤进行了广泛的免疫基因组分析，最后通过巨噬细胞或淋巴细胞标志物，Th1：Th2细胞比例，肿瘤内程度的差异确定了六种免疫亚型。已经有研究表明：在六种免疫亚型所处的肿瘤微环境中微生物的种群结构，免疫细胞的浸润情况以及免疫基因的表达都有显著的差异。复杂的免疫微环境鉴别对病理提出了更高层次的要求，从单一指标检测逐渐演变成微环境多指标联合检测。因此，从多个角度对肿瘤组织样本进行免疫亚型分类，以实现精准医疗背景下的特异性肿瘤免疫治疗迫在眉睫。

分类特征选择是提高分类器准确率的关键因素。在分类特征选择上，研究人员发现肿瘤内细胞毒性和记忆T淋巴细胞密度与肿瘤的免疫亚型紧密相关，将此参数作为对肿瘤的免疫亚型进行分类的标志物。另外，有研究人员发现肠道菌群可以通过免疫调节、易位和酶促降解等多种机制的调节达到治疗癌症的目的，肠道微生物群也可以直接影响抗癌药物的药物代谢动力学、抗肿瘤活性和细胞毒性。可见微生物的种群结构也与肿瘤的免疫亚型紧密相关；除了分类特征外，分类器的设计与选择对免疫亚型分类成功与否至关重要。目前有很多机器学习方法都被广泛用于有关肿瘤的分类。Miguel Reboiro-Jato等人利用人工神经网络ANN进行分类，该算法具有强大的计算能力，无需进行特征选择就能处理高维数据。但是，该模型的黑箱特性，让使用者难以理解内部机制。此外，神经网络的学习需要大量的参数，这使得调参的过程非常复杂；A Daemen等人采用了支持向量机SVM进行分类器的设计，其可以缓解样本量小但特征空间大的问题，且能通过核函数处理非线性情况，相对于神经网络等算法无局部极小值问题，由少数支持向量决定最终结果，无需依赖整个数据，使得其鲁棒性好，但是样本量增加会显著影响其效率。此外，SVM通常用于解决二分类问题，如果将其应用于多分类情况时所需时间复杂度较高；Asyali.Musa H使用贝叶斯分类器，贝叶斯模型有稳定的分类效率，在数据较少的情况下仍然有效，可以处理多类别问题。随机森林等集成分类方法通过对决策树等基分类器进行集成，分类效果较好，且广泛应用于肿瘤样本的分类预测研究。

目前，在针对于免疫亚型的分类研究中，Jé

Galon等人在2012年提出引入免疫评分作为预后因素，并基于肿瘤内细胞毒性和记忆T淋巴细胞密度的评估，将此参数作为对癌症进行分类的标志物，提出了基于宿主免疫反应评估的新型分类(Im分类)。但这些研究大多仅仅关注免疫环境中免疫细胞分布特征，而忽略了人体内微生物与人体免疫反应相互调节，肿瘤组织中免疫基因的表达情况以及免疫细胞的浸润情况。因此，现有的分类方法的分类效果不够理想。

发明内容

本发明提供了一种肿瘤免疫亚型分类方法及系统，以解决现有的对免疫亚型的研究往往只考虑免疫基因表达，没有将组织微生物种群结构和免疫细胞的浸润情况考虑进去，造成现有的分类方法的分类效果不够理想的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种肿瘤免疫亚型分类方法，所述方法包括：

获取包括多个肿瘤组织的RNA-seq测序数据和基因表达谱数据的样本数据集；

计算所述样本数据集中的每一样本所对应的肿瘤组织中的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据；

以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征，构建训练样本数据集，对预设类型的集成分类器进行训练；

将待分类肿瘤组织的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据输入训练好的集成分类器中，实现对肿瘤组织的免疫亚型分类。

其中，所述微生物丰度数据的计算方法包括：

将样本数据集中的RNA-seq测序数据映射到人类参考基因库，过滤掉样本中的人体基因组序列，筛选出未映射到人类参考基因组的读片；将未映射到人类参考基因组的读片利用Kraken算法与预设类型的微生物参考序列进行比对，对这些读片进行快速分类；在Kraken分类结果的基础上，运用Bracken算法进行分析，最终得到微生物的丰度数据。

其中，所述未映射到人类参考基因组的读片包括双端未映射读片和单端未映射读片；

在将未映射到人类参考基因组的读片运用Kraken算法与预设类型的微生物参考序列进行比对，对这些读片进行快速分类；在Kraken分类结果的基础上，运用Bracken算法进行分析，最终得到微生物的丰度数据之前，所述方法还包括：

对于筛选出的未映射到人类参考基因组的双端未映射读片，删除其中碱基质量低于Q15超过40％的序列，删除N大于5个的序列，删除长度小于36的序列，并删除双端测序接头；

对于筛选出的未映射到人类参考基因组的单端未映射读片，删除其中碱基质量低于Q15超过40％的序列，删除N大于5个的序列，删除长度小于36的序列；为单端未映射读片生成反向互补序列，作为单端未映射读片的配对读片。

其中，所述将未映射到人类参考基因组的读片运用Kraken算法与预设类型的微生物参考序列进行比对计算，得到样本中的预设类型的微生物丰度数据，包括：

首先将未映射到人类参考基因组的读片比对到细菌、真菌和古细菌参考基因库，并基于比对结果估计样本中细菌、真菌和古细菌的丰度；

然后将未映射到细菌、真菌和古细菌参考基因组的读片，继续与病毒参考基因库进行比对，并基于比对结果估计样本中各种病毒的丰度。

其中，在得到样本中的预设类型的微生物丰度数据之后，所述方法还包括：

令s_i代表第i种免疫亚型所包含的样本总量，令c_ij代表第j种微生物在第i种免疫亚型样本中比对上的次数；其中，i＝1,2,3,4,5,6；j＝1,2,3,…；筛选出满足以下条件的微生物：c_ij>0.5s_i；

对于筛选出的微生物，计算每一微生物对应的信息增益，并按照信息增益的大小对所有微生物按照从大到小进行排序，并且选择前N个信息增益最大的微生物所对应的丰度数据，作为新的微生物特征集合；其中，N为预设的常数。

其中，所述免疫相关的基因表达数据的计算方法包括：

利用加权基因共表达网络分析算法对肿瘤组织的基因表达谱数据进行分析，得到与免疫相关的10个枢纽基因，并获取枢纽基因的基因表达数据。

其中，所述免疫细胞比例数据的计算方法包括：

利用CIBERSORT算法估计出肿瘤组织中的预设种类的免疫细胞的丰度之后，利用Kruskal-Wallis检验对各种免疫细胞在不同免疫亚型样本之间的相对比例差异性进行分析，得到相对比例差异性符合预设要求的免疫细胞的比例数据。

其中，以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征，构建训练样本数据集对预设类型的集成分类器进行训练，包括：

对于样本数量不达标的免疫亚型所对应的样本数据集，采用SMOTE算法对其进行扩充，以达到平衡训练样本数据的效果。

其中，所述预设类型的集成分类器为随机森林模型，所述随机森林模型的训练过程包括：

对各免疫亚型所对应的样本数据集按照其中包含样本的数量，分为多数类别数据集和少数类别数据集，构建出新的样本数据集X_new；

对X_new中的每个样本x，若x属多数类别数据集中的样本，则为样本x赋予权重

其中，N[j]为多数类别数据集包含样本的个数，∑N[i]为X_new中所有样本的个数；若x属少数类别数据集中的样本，则为样本x赋予权重

其中，N[k]为少数类别数据集包含样本的个数；

使用自助抽样法将X_new划分为训练数据集和测试数据集；使用所述训练数据集对决策树进行训练，使用所述测试数据集对决策树进行测试；将基分类器的分类准确率作为权重，在测试数据上进行加权投票，得到样本所属类别。

另一方面，本发明还提供了一种肿瘤免疫亚型分类系统，所述系统包括：

样本数据集获取模块，用于获取包括多个肿瘤组织的RNA-seq测序数据和基因表达谱数据的样本数据集；

分类特征获取模块，用于计算所述样本数据集中的每一样本所对应的肿瘤组织中的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据；

模型训练及分类模块，用于以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征，构建训练样本数据集，对预设类型的集成分类器进行训练；并通过训练好的集成分类器实现对肿瘤组织的免疫亚型分类。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

1、在分类特征上，本发明的肿瘤免疫亚型分类方法通过引入微生物丰度数据，免疫细胞比例数据和与免疫紧密相关的hub基因表达数据这三类分类特征，实现了对肿瘤免疫亚型精准预测的目的。

2、在分类器上，本发明将所得的特征应用于改进模型和传统模型，并对传统的随机森林模型和改进的随机森林模型分别计算在本发明数据集上的Kappa系数，得到传统模型的kappa系数为0.68，介于2/5和3/4之间，说明未改进的随机森林模型对文本不平衡的数据的分类效果不太明显，而改进后的模型kappa系数达到0.82大于3/4，说明改进后的随机森林模型在本发明的不平衡数据集上表现良好，相比改进之前的模型其分类效果有了显著提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的肿瘤免疫亚型分类方法的流程示意图；

图2是本发明实施例提供的12个基因共表达模块的相关性热图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种肿瘤免疫亚型分类方法，该肿瘤免疫亚型分类方法可以由电子设备实现，该电子设备可以是终端或者服务器。该肿瘤免疫亚型分类方法的执行流程如图1所示，包括以下步骤：

S101，获取包括多个肿瘤组织的RNA-seq测序数据和基因表达谱数据的样本数据集；

S102，计算样本数据集中的每一样本所对应的肿瘤组织中的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据；

S103，以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征，构建训练样本数据集，对预设类型的集成分类器进行训练；

S104，将待分类肿瘤组织的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据输入训练好的集成分类器中，实现对肿瘤组织的免疫亚型分类。

具体地，本实施例使用的数据来自肿瘤基因组图谱(The Cancer Genome Atlas，TCGA)，样本数据格式为映射到人类参考基因组GRCh38后的BAM文件(RNA-seq)和对应的组织基因表达谱数据。基于此，对本实施例方法的实现过程具体说明如下：

1、计算肿瘤组织的微生物丰度

对于肿瘤组织的微生物丰度的计算，本实施例旨在从上述样本中提取出未映射到人类参考基因组的读片，通过处理和整合，利用Kraken算法将其与微生物参考序列进行比对，对这些读片进行快速分类；在Kraken分类结果的基础上，运用Bracken算法进行分析，最终得到微生物的丰度数据。具体步骤如下：

1.1、筛选未映射读片

首先，需要从BAM格式的样本中过滤掉人体基因组序列，筛选所有未映射的读片，包括双端未映射读片(配对读片的两端都未映射)和单端未映射读片(一端读片映射，而另一端读片未映射)。

SAMtools是一个专门用于处理SAM和BAM格式的序列比对结果文件的工具，此处，本实施例使用该软件来筛选未映射读片，步骤如下：

1.1.1、双端未映射读片：通过命令“samtools view-u-f 12-F 256”筛选出双端均未映射读片并转换为FASTQ格式。由于筛选得到的FASTQ文件是经过上游处理的，为了让读片符合后续软件的输入格式，本实施例在配对读片的ID后分别加“/1”和“/2”，将其分为两个FASTQ，分别包含正向读片和反向读片。

1.1.2、单端未映射读片：使用命令“samtools view-u-f 4-F 264”筛选出其中一端未映射的读片并输出为FASTQ文件。

1.2、质量控制

目前RNA-seq测序数据已经被用于各个方面的研究，但是，由于高通量测序技术的流程非常复杂，导致了高通量测序数据的质量有高有低，存在含N比例过大、含有duplication等低质量序列。因此，有必要对测序所得数据进行质量控制，以保证RNA-seq的高质量。目前，用于质量控制的软件层出不穷，Fastp不仅功能齐全而且速度上比其他软件还要快，因此，本实施例使用该软件来对筛选出的未映射读片进行质量控制，步骤如下：

1.2.1、双端未映射读片：通过命令“fastp-q 0-u 100-n 10-l 36-A-G-M 0-i”来实现删除双端序列中碱基质量低于Q15超过40％的序列，删除N大于5个的序列，删除长度小于36的序列，删除双端测序接头。然后利用SeqKit对序列进行格式转化：fastq→fasta，以便进行下游分析。

1.2.2、单端未映射读片：使用命令“-q 0-u 100-n 10-l 36-A-G-M 0-i”对单端测序序列实现上述质控过程。同样利用SeqKit对序列进行格式转化。为了和双端测序序列格式统一，以作为重新映射的输入文件，这里使用SeqKit给单端未映射读片生成反向互补序列，作为单端未映射读片的配对读片，这样单端未映射读片也成为双端序列，可以将其与一开始的双端序列进行合并。

1.3、利用Kranken算法估计微生物丰度

Kraken是一种实现序列比对超快速且高度准确的软件，本实施例利用kraken2将1.1、1.2步骤得到的读片重映射到微生物参考基因库。Kraken基于NCBI中的RefSeq提供了不同规模的、多种可选的数据库构建方式，为了尽可能多的识别样本中的微生物，本实施例在Refseq中下载并使用所有完整的细菌，古细菌和病毒基因组用于微生物参考库的构建，步骤如下：

1.3.1、首先利用Kraken将未映射读片比对到细菌、真菌和古细菌参考库，使用Bracken基于Kraken的比对结果估计样本中各种微生物的丰度。Bracken是专门处理Kraken分类结果的下游软件，其准确性和速度都能保证。

1.3.2、然后从Kraken的比对结果中提取未映射读片，继续将其与病毒参考库进行比对，同样使用Bracken计算样本中各种病毒的相对丰度。至此，针对RNA-seq测序样本处理和重新映射就全部完成，最后得到各个样本中各种细菌、真菌、古细菌和病毒的相对丰度。

1.4、微生物丰度数据预处理

由于某些微生物在所有样本中出现的次数过于稀少(丰度太低)，导致得到的微生物丰度矩阵过于稀疏，为了保证后续统计分析的有效性，本实施例仅仅选取那些在样本中富集出现的微生物进行下一步研究，因此，在目前的丰度矩阵上进行进一步的处理，步骤如下：

1.4.1、令s_i(i＝1,2,3,代表各个免疫亚型所包含的样本总量，令c_ij(i＝1,2,3,4,6；j＝1,2,3,…)代表第j种微生物在第i种亚型样本中比对上的次数，本实施例筛选出满足以下条件的微生物：

进行分析。

1.4.2、经过上述筛选后符合条件的微生物种类依然很多，并且在这些微生物中不仅包含对肿瘤免疫反应有调节作用的微生物，还有部分微生物对提高分类器性能的贡献微弱，剔除这些微生物特征对分类精度影响不大。因此，本实施例基于互信息理论来对微生物特征进行进一步筛选，选取对训练数据具有较强分类能力的微生物特征，来降低特征空间的维度。具体的步骤如下：

计算每个微生物特征值的信息增益，并按照信息增益的大小对所有微生物特征按照从大到小进行排序，并且选择前N个信息增益最大的微生物特征值，作为新的微生物特征集合。

根据信息熵的定义，本实施例用x表示某一种微生物的丰度，y表示样本所属的免疫亚型，用P(x_i)表示微生物丰度x取值为x_i的概率，同理，P(y_j)表示样本免疫亚型为y_j的概率，P(y_j|x_i)表示在已知该种微生物丰度x＝x_i条件下，该样本的免疫亚型为y_j的概率。那么样本免疫亚型的信息熵H(y)和已知该种微生物丰度x的条件下，样本免疫亚型为y的条件信息熵H(x|y)的计算公式如下：

对于给定微生物丰度数据d，特征x对数据集d的信息增益g(d,x)表示由于该微生物的丰度x而使得对肿瘤样本集d进行分类的不确定性减少的程度。计算方式如下：

g(d,x)＝H(d)-H(d|x)

特征不同其互信息也不同，g(d,x)较大的特征往往代表该特征对样本的分类贡献越多。本实施例保留信息增益值>0.1的微生物的丰度作为微生物特征。

2、计算免疫相关的基因表达数据

本实施例基于组织基因表达谱数据引入WGCNA(Weighted gene co-expressionnetwork analysis，加权基因共表达网络分析算法)，通过对基因表达谱数据进行分析，得到与免疫亚型紧密相关的10个基因，又称hub基因，并将hub基因的表达量作为分类器的分类特征，具体步骤如下：

2.1、定义邻接矩阵

在基因共表达网络中，基因i和基因j之间的关系由它们之间的相关系数的绝对值衡量。在无向网络和有向网络中定义基因i和基因j间关系s。

上述两种s的计算公式都是可选的方式。其中基因相似矩阵用

表示。邻接矩阵是由连接强度构成的矩阵，是衡量基因间相关性的一种手段。可以由相似矩阵转化而来。最直接的构建邻接函数方法就是提前设置好基因间相关系数阈值，然后将基因关系划分为相关和不相关。这种方法虽然简单易行，但如此硬性的划分会丢失基因间存在的大量真实有效信息。如将阈值设置为0.9，即相关系数大于0.9的基因被认为是相关的，小于0.9则被划分为不相关，按照该划分方法，不相关基因中除了包含相关系数较小的基因对之外，还包括相关系数等于0.89的基因对，由此可以看出，这样的划分方法显然是不合理的。为了克服这个缺点，WGCNA提供了软阈值的方法来衡量基因之间的相关性。

任意基因对之间的相关性大小可以通过邻接系数a_ij进行衡量：

a_ij＝power(s_ij,β)＝|s_ij|^β

其中β是加权系数，有时被称为软阈值。从相似矩阵和邻接函数定义可以看出，邻接矩阵就是通过对相似矩阵进行β次方加权的幂指数运算之后得到的矩阵。因此，邻接矩阵也被称为幂指数加权的相似矩阵。

根据差异分析可以看出癌症的致病基因之间通常是有相关关系的，一种癌症的发生是多个基因异常表达的结果，很多个基因共同作用导致癌症的产生和转移。可以使用聚类分析将多个表达量相近的基因聚成一类，分析每类基因与癌症之间的关联性。加权网络关联分析是将基因间表达量的相关系数取β次幂，那么相关系数的分布会逐渐符合无尺度分布，对符合这个分布的关联网络进行分析。将基因按照相关性进行分类，相关性较高的基因归为一类作为一个模块。

本实施例利用WGCNA分析差异性基因表达谱数据找到hub基因，计算拓扑矩阵以及邻接矩阵，然后将拓扑矩阵转化成相异度矩阵。从得到的相异度矩阵中，可以根据相异度进行聚类得到系统聚类树。根据聚类树的聚类情况，可以进一步寻找与疾病相关的基因。

2.2、邻接函数参数选择

在邻接矩阵中，使用邻接函数来合理设置的阈值可以去掉生物分子网络中没有生物意义的边，保留下来具有生物意义的边。考虑到分子网络无尺度的性质，WGCNA算法依据幂律分布规律，通过优化阈值的方法展现网络的无尺度特点和拓扑性质。选取软阈值的具体标准为：连接度为k的节点个数的对数logk和节点出现概率的对数值logp(k)之间的相关系数至少要达到0.85。当参数β确定之后，便可以求出邻接函数A＝[a_ij]。

2.3、确定节点间的相异度

当确定邻接函数的参数(软阈值)β之后，就可以将相关系数矩阵S＝[s_ij]转化成邻接矩阵A＝[a_ij]。在分子网络中，考虑到基因对关联程度的共表达模块具有更多的生物学意义。WGCNA使用拓扑重叠(topological overlap measure,TOM)的方法计算网络拓扑重叠性，并且利用下面式子将邻接矩阵转化为拓扑矩阵Ω＝[w_ij]：

其中，

表示连接基因i和基因j的共同基因的邻接系数乘积之和；

表示仅与基因i相连的基因的邻接系数之和；

表示仅与基因j相连的基因的邻接系数之和。

根据上述式子可知，w_ij＝1说明基因i和基因j直接相连或者同时与基因i和基因j相连接的基因，反之，w_ij＝0表示在基因i和基因j间不仅不存在直接相连接的基因，而且也不会通过其它基因相连接。

基因间的关联程度由拓扑系数w_ij衡量：

2.4、与免疫亚型紧密相关的模块确定

根据上述步骤2.3中所求的节点间的相异度，使用层次聚类的方法，将基因分成若干模块，为了寻找与样本性状(免疫亚型)密切相关的关键模块，这里将计算基因模块与样本所属免疫亚型的相关性。用每个模块的特征基因ME作为该模块内基因表达整体水平的代表，分别用1，2，3，4，6代表样本的五种免疫亚型，计算特征基因与样本免疫亚型分类数据之间的皮尔逊相关系数，选取其中相关系数最大并且P-value<0.5的模块。其中，P-value是一种在原假设为真的前提下出现观察样本以及更极端情况的概率。

2.5、hub基因(枢纽基因)的确定

枢纽基因通常具有高基因显著性(gene significance，GS)、高模块成员(modulemembership，MM)和高模块内连接性(K.within值)。本实施例中选取上述步骤2.4中所求模块的GS(高基因显著性)>0.5和MM(高模块成员)>0.7的基因。最终筛选出K.within最大的前10个基因作为本实施例的枢纽基因，并将它作为分类器的一个分类特征。

3、计算免疫细胞比例数据

运用CIBERSORT计数法估计肿瘤组织免疫细胞比例，具体如下：

在表征肿瘤组织浸润情况时，本实施例使用肿瘤组织免疫细胞比例来进行表征，为了得到肿瘤组织免疫细胞比例数据，本实施例基于组织基因表达谱数据引入CIBERSORT算法进行估计。

基因表达谱广泛应用于生物和生物医学研究领域，是一种非常有价值的研究方法。肿瘤组织由多种细胞类型组成，包括癌细胞、各种免疫细胞和渗入肿瘤的其他人体正常细胞。这些细胞中的基因转录产生大量的RNA，由此得到该组织的基因表达谱。去卷积的目的是从样本总体基因表达谱中推测不同单一细胞类型的表达谱。它的原理是假设每种细胞类型在不同组织样本中具有相似的表达水平，可以将组织样本中基因的表达模型化为混合物中存在的每种细胞类型的表达值(标准化签名矩阵)的加权和(线性组合)。其数学形式表示如下：

X_M×N＝S_M×K×P_K×N+ε

其中，X为M个基因，N个组织样本的混合物(样本混合基因表达谱)；S为M个基因，K个细胞类型(标准化签名矩阵)；P为N个样本中K个细胞的数量；ε为误差。通过反卷积线性回归问题，得到回归系数代表细胞的数量。

近年来，越来越多的学者致力于免疫细胞的研究，从基因表达谱估计免疫细胞的算法层出不穷。

Newman A M等人于2015年提出CIBERSORT，基于DNA微阵列数据，建立了线性方程模型，提出GEP反卷积的问题可以表示为：

m＝f×B

其中，B表示标记矩阵，f表示各个不同组分(例如细胞类型)的未知分数组成的向量，m表示物理样品(例如生物样品)或物理系统的特征图谱。

此算法提出了标记矩阵LM22，用547个不同的标记基因，通过求解回归模型的系数，估计22种免疫细胞的绝对或相对分数。该算法利用SVR线性回归求解模型，该算法已通过多组模拟数据和实际癌症患者数据对算法进行了验证。

利用CIBERSORT估计出22种免疫细胞的丰度之后，利用Kruskal-Wallis检验对不同免疫亚型进行差异性分析，最后得到在不同免疫亚型样本之间的相对比例差异显著的浸润免疫细胞，这些细胞的比例数据作为分类器的分类特征。

4、不平衡数据处理

由于本实施例涉及多分类(6分类)，在实际应用的时候往往面临不平衡数据的问题，决策树、神经网络、支持向量机等传统的分类算法，通常以各个类别数据分布基本平衡为前提，当各个类别中样本分布不平衡时，假设A类别为少数类，B类别为多数类，分类器往往会以降低A类的分类准确度为代价以保证整体的分类精度，从而降低对A类别样本的分类效果。B类的样本数：A类的样本数量>＝4时，那么分类结果会偏向B类，而对A类样本分类错误率较高。

随机森林作为一种集成学习模型，虽然能够在一定程度上缓解高维数据带来的压力，但是仍然不适用于不平衡数据集，因此，本实施例结合数据和算法两方面来提高随机森林模型在不平衡数据集上的分类性能。目前，数据层面主要是利用重采样技术来对数据进行预处理，达到尽量平衡数据样本的效果。常见的有随机欠采样和随机过采样。假设A类样本为少数类，B类样本为多数类。随机欠采样会丢弃部分B类样本，以缓解A类和B类数据分布不平衡的问题，但是丢弃的数据中可能包含有价值的信息，容易造成信息损失；随机过采样：简单重复A类数据，实际上没有A类别增加新的数据，反而过分强调A类数据，容易产生过拟合。

相比较上述两种采样方法，SMOTE(Synthetic Minority Over-samplingTechnique)的基本思想就是基于原来样本的近邻来合成新样本，以实现对少数类进行扩充。具体的原理如下：

设数据集中少数类A包含样本个数为M，SMOTE算法将为A类合成KM个新样本。K为正整数，如果给定的K＜1，那么M＝KM，K＝1。

对于A类中的一个样本i，其特征向量为x_i:i∈{1,…,M}。

1)首先从A类的全部M个样本中找到样本x_i的K个近邻，记为x_i(near),near∈{1,…,k}；

2)然后从这k个近邻中随机选择一个样本x_in，再生成一个随机数ζ₁∈[0，1]，然后合成一个新样本x_i1：

x_i1＝x_i+ζ₁·(x_in-x_i)

3)将步骤2重复进行K次，从而可以合成K个新样本：

x_inew,new∈{1,…,K}

那么，对A类全部的M个样本重复执行上述步骤，最终可以为A类合成KM个新样本。

像SMOTE过采样方法这样基于样本近邻生成新的样本而不是直接对原始样本进行复制，不但能够减轻过拟合对算法的影响，而且对于原有样本所包含的信息不会产生损失。

5、分类器选择

现有的分类算法通常假定用于训练的数据集是平衡的，即各类所含的样例数大致相等。当遇到类别数据不平衡时，以总体分类精度为学习目标的传统分类算法会过多地关注多数类，而使少数类样本的分类性能下降。集成学习(Ensemble Learning)的出现对解决上述问题有着重要意义。它通过调用简单的分类算法，获得多个不同的基分类器，然后采用某种方式将基分类器组合成一个分类器。在对新的示例进行分类的时候，如果把单个分类器看作是一个决策者的话，那么，集成学习的结果就相当于是由多个决策者共同完成的一项决策。

采用集成学习进行类不平衡数据分类具有以下优势：a)不平衡数据的最优类分布和最优类代表样例的寻找可以与集成学习中的多次采样技术融合在一起，避免额外的学习代价；b)多个分类器的集成可以防止过拟合，降低单分类器在处理不平衡数据时可能产生的偏差。目前，使用广泛的集成学习算法有Boosting和Bagging，其主要思想是通过对训练集进行不同的处理方式训练得到有差异基分类器，从而提高集成分类器的学习效果。Bagging(Bootstrap aggregating，也称作“套袋法”)于1996年由Leo Breiman提出，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合，其算法实现过程如下：

1)从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中)。共进行k轮抽取，得到k个训练集。(k个训练集之间是相互独立的)；

2)每次使用一个训练集得到一个模型，k个训练集共得到k个模型。(注：这里并没有具体的分类算法或回归方法，可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等)；

3)对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。(所有模型的重要性相同)。

当上述过程中的基分类器为决策树时，这时的集成学习模型就成为熟知的随机森林。

本实施例拟采用随机森林作为免疫亚型的分类器，随机森林算法中的决策树在进行训练生长过程中，不进行优化剪枝，生长条件仅限制于最大深度和叶节点相关属性等生长控制条件，能有效防止决策树过拟合；另外在训练决策树过程中，对特征集也进行了随机抽样，通过无放回抽样，每次使用特征集中的一部分进行决策树构建。特征集与样本集的双重随机机制，使得随机森林算法可以处理高维数据，并且可以对特征的重要程度进行自排序和筛选。此外，该模型泛化能力强，不容易过拟合。

尽管本实施例采用SMOTE算法对少数类进行了扩充，一定程度上缓解了数据分布不平衡的现状，但并没有完全解决不平衡问题，所以接下来本实施例将从算法的层面对随机森林算法进行改进，进一步提高整个分类算法的分类效果。

针对不平衡问题，基于算法的解决方法主要是通过引入新的分类规则来使传统的分类方法更加适应不平衡分类数据集，比如代价敏感学习，其主要思想是基于不同类别的分类错误调整不同类别的分类代价，提高那些应该是少数类别样本但却被误分为多数类样本的误分代价，但是在该过程中如何选择错误分类代价因子往往包含很多主观因素，因此这是一个难点。

本实施例将通过加权的形式，来对随机森林算法进行改进：增加少数类的权重，使决策树分类器偏重于少数类，提高少数类的分类准确率；在算法最后的投票过程中，基于决策树的分类准确率进行加权投票。具体的算法步骤如下：

定义X_min：少数类别数据集；X_max：多数类别数据集；x_i：样本实例；weight：权重。

1)确定各训练样例权重

对X_new中的每个样例x，若x∈X_max[j]，则样例x的权重

其中，N[j]:X_max[j]包含样例的个数，∑N[i]：所有样例的个数；若x∈X_min[k]，则样例x的权重

其中，N[k]:X_max[k]包含样例的个数，∑N[i]：所有样例的个数。

2)对基分类器进行训练

对于每棵决策树，ins：使用自助抽样法从X_new抽取的样本，outs：未抽取取样本，用ins中的数据对决策树进行训练(CART决策树)，用outs中的数据对决策树进行测试。将基分类器的分类准确率作为权重，在测试数据上进行加权投票，得到样本所属类别。

下面，对本实施例改进后的分类器的分类性能进行验证。

利用python对上述算法进行编程实现，然后将已经完成特征选择之后的数据集分别应用于传统的随机森林模型和改进的随机森林模型。

常见的模型评估标准有很多，例如ROC曲线(AUC面积)、分类准确度、F1-Score以及Kappa系数。但是对于分类准确度这一标准来说，如果数据有90％为正类，10％为负类，那么如果分类器只需将所有的样本都预测为正例，分类准确度也能达到90％，很显然在数据分布不平衡的状况下，分类准确度这一指标并不能很好的衡量算法的分类效果。而ROC曲线和F1-Score适用于二分类问题，而本实施例中的分类问题为多分类问题，因此该标准不适用于本实施实例。因此，在这里，本实施例选择Kappa系数作为模型的评价标准。

Kappa系数用于检测模型预测结果和实际分类结果是否一致。kappa系数的取值∈[-1，1]，通常大于0。其计算公式如下：

P_O表示总体分类精度，P_e为各个类别对应的“实际与预测数量的乘积”之总和/“样本总数的平方”。当P_O大于P_e时，Kappa＞0，且Kappa系数越接近于1，表明分类效果越高。当P_O小于P_e时，Kappa＜0。当

时，说明分类程度较好，当

时，说明度量分类效果一般；当

时，说明分类效果较差。

为了检验本实施例方法在免疫亚型预测上的效率，本实施例使用来自TCGA的数据，包括了胃癌和结直肠癌原发性肿瘤组织的RNA-seq测序样本一共203个，里面包括了样本序列格式为映射到人类参考基因组GRCh38后的BAM文件和样本组织的基因表达谱数据。

在微生物特征方面，本实施例经过上述步骤的分析，最终分析出78种微生物的物种丰度作为特征。其中前23种微生物特征的信息增益数据参照表1。

表1.前23种微生物特征的信息增益数据(从大到小排序)

microbe	information gain
		Wigglesworthia.glossinidia	0.242574789
Candidatus.Annandia.adelgestsuga	0.226885784
		Enterobacter.ludwigii	0.225318446
Brevibacillus.agri	0.224708376
		Bacillus.circulans	0.21822378
Prochlorococcus.marinus	0.217535006
		Lactobacillus.fermentum	0.215957291
Candidatus.Nasuia.deltocephalinicola	0.215527349
		Pseudomonas.aeruginosa	0.209186136
Lachnospiraceae.bacterium.oral.taxon.500	0.199813695
		Thermomonospora.curvata	0.199686127
Carnobacterium.sp..17.4	0.198001636
		Sorangium.cellulosum	0.193036364
Campylobacter.jejuni	0.189024893
		Debaryomyces.hansenii	0.186967701
Salmonella.enterica	0.181883732
		Stenotrophomonas.maltophilia	0.178105523
Candidatus.Portiera.aleyrodidarum	0.177800821
		Klebsiella.pneumoniae	0.17746448
Pseudomonas.stutzeri	0.176261932
		Encephalitozoon.cuniculi	0.167891792
Rhodopseudomonas.palustris	0.165606409
		X.Candida..glabrata	0.164124601

在hub基因上，基因表达谱被WGCNA分析后分成了12个模块，12个模块的相关性热图参照图2。其中8个基因模块的基因数量参照表2。9个模块与免疫亚型数据的相关性以及检验p值参照表3。hub基因的k.within值参照表4。

表2. 8个模块包含基因个数

表3.共表达模块特征向量与免疫亚型的相关性

表4. hub基因

在免疫细胞比例上，本实施例通过分析样本得到17种差异性显著的免疫细胞。17种免疫细胞参照表5。

表5. 17种在不同免疫亚型样本中差异显著的免疫细胞名称

将所得的特征代入改进模型，对传统的随机森林模型和改进的随机森林模型分别计算在本实施例的数据集上的Kappa系数，得到传统模型的kappa系数为0.68，介于2/5和3/4之间，说明未改进的随机森林模型对文本不平衡的数据的分类效果不太明显，而改进后的模型kappa系数达到0.82大于3/4，说明改进后的随机森林模型在本实施例的不平衡数据集上表现良好，相比改进之前的模型其分类效果有了显著提升。

综上，为了提高对肿瘤样本免疫亚型分类预测的准确性，并为肿瘤免疫治疗提供新的靶标，本实施例提出了一种新的肿瘤免疫亚型分类方法，该方法综合考虑了微生物丰度、免疫细胞比例以及免疫相关基因表达多方面的因素，并改进了随机森林模型，从而实现了对胃肠癌肿瘤样本免疫亚型分类的精准预测。

第二实施例

本实施例提供了一种肿瘤免疫亚型分类系统，该系统包括以下模块：

本实施例的肿瘤免疫亚型分类系统与上述第一实施例的肿瘤免疫亚型分类方法相对应；其中，本肿瘤免疫亚型分类系统中的各功能模块所实现的功能与上述肿瘤免疫亚型分类方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种肿瘤免疫亚型分类方法，其特征在于，所述方法包括：

将待分类肿瘤组织的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据输入训练好的集成分类器中，实现对肿瘤组织的免疫亚型分类；

所述以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征，构建训练样本数据集，对预设类型的集成分类器进行训练，包括：

对于样本数量不达标的免疫亚型所对应的样本数据集，采用SMOTE算法对其进行扩充，以达到平衡训练样本数据的效果；

所述预设类型的集成分类器为随机森林模型，所述随机森林模型的训练过程包括：

其中，N[k]为少数类别数据集包含样本的个数；

2.如权利要求1所述的肿瘤免疫亚型分类方法，其特征在于，所述微生物丰度数据的计算方法包括：

将样本数据集中的RNA-seq测序数据映射到人类参考基因库，过滤掉样本中的人体基因组序列，筛选出未映射到人类参考基因组的读片；将未映射到人类参考基因组的读片运用Kraken算法与预设类型的微生物参考序列进行比对，对这些读片进行快速分类；在Kraken分类结果的基础上，运用Bracken算法进行分析，最终得到微生物的丰度数据。

3.如权利要求2所述的肿瘤免疫亚型分类方法，其特征在于，所述未映射到人类参考基因组的读片包括双端未映射读片和单端未映射读片；

4.如权利要求3所述的肿瘤免疫亚型分类方法，其特征在于，所述将未映射到人类参考基因组的读片运用Kraken算法与预设类型的微生物参考序列进行比对，对这些读片进行快速分类；在Kraken分类结果的基础上，运用Bracken算法进行分析，最终得到微生物的丰度数据，包括：

5.如权利要求4所述的肿瘤免疫亚型分类方法，其特征在于，在得到样本中的预设类型的微生物丰度数据之后，所述方法还包括：

6.如权利要求1所述的肿瘤免疫亚型分类方法，其特征在于，所述免疫相关的基因表达数据的计算方法包括：

7.如权利要求1所述的肿瘤免疫亚型分类方法，其特征在于，所述免疫细胞比例数据的计算方法包括：

8.一种肿瘤免疫亚型分类系统，其特征在于，所述系统包括：

模型训练及分类模块，用于以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征，构建训练样本数据集，对预设类型的集成分类器进行训练；并通过训练好的集成分类器实现对肿瘤组织的免疫亚型分类；

其中，N[k]为少数类别数据集包含样本的个数；