CN113981081A

CN113981081A - 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型

Info

Publication number: CN113981081A
Application number: CN202111230642.7A
Authority: CN
Inventors: 王金凯; 郭文冰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-28

Abstract

本发明提供了一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型，属于分子生物医学技术领域。本发明的基于RNA编辑水平的乳腺癌分子标志物，以人类参考基因组hg19为基准，所述分子标志物包括以下RNA编辑位点：chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。本发明基于上述RNA编辑位点，提出了一种基于随机森林算法构建的乳腺癌诊断模型，该模型鉴定乳腺癌的AUC值达到0.9858。相较于现有技术，本发明的诊断模型具有以下优点：(1)所需样品量少；(2)诊断结果稳定，准确性高，具有良好的临床使用和推广价值。

Description

一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型

技术领域

本发明属于分子生物医学技术领域，具体涉及一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型。

背景技术

乳腺癌是发生在乳腺上皮组织的恶性肿瘤，在我国的发病率约为21.6/10万，是女性中最常见的癌症。分子诊断与分型技术已经成为乳腺癌检测的突破点，并取得了一系列进展。雌激素受体ER-α、孕激素受体PR、原癌基因HER-2以及血清标志物CA15-3/BR27.29已经作为预后因子用于分子诊断，此外，国外的70种基因表达谱检测以及21种基因检测分别被证明有能效预测乳腺癌的预后和复发。然而，乳腺癌的发病率和死亡率都呈现逐年上升的态势，说明现在的诊断和治疗技术还远远不能满足临床的需要，寻找新的用于乳腺癌诊断、预后以及监测的分子标志物，开发新的检测方法是乳腺癌分子诊断技术发展的瓶颈。

A-I(腺嘌呤到次黄嘌呤)RNA编辑是人类中最普遍的一种RNA编辑类型，RNA中的腺嘌呤核苷在RNA腺苷脱氨酶(ADAR)的催化下脱去氨基从而变成次黄嘌呤，由于次黄嘌呤(I)和胞嘧啶(C)进行配对，因此在细胞内被各种蛋白机器识别为鸟嘌呤(G)。近年来，A-I RNA编辑在癌症尤其是乳腺癌的发生中的重要作用已经引起了广泛关注。比如，在2015年，美国德州大学的MD Anderson癌症研究中心的Han Liang教授团队分析了TCGA(The CancerGenome Atlas)项目中17种癌症共6236例癌症样品以及正常组织，发现RNA编辑的程度在大多数的癌症类型中都显著增高，值得注意的是在所有的17种癌症中，乳腺癌中共有5834个RNA编辑位点的编辑水平异常增高，是17种癌症中RNA编辑位点改变最多的。同时，该研究还发现了2057个RNA编辑位点在乳腺癌的不同的亚型中有显著差异。在乳腺癌中，这些发生异常的RNA编辑位点又在3’UTR区域显著富集。

Han Liang教授团队筛选出的在乳腺癌病人中异常增高的RNA编辑位点为乳腺癌的分子检测提供了分子标志物的候选，然而这些数量庞大的位点并非都是合适的分子标志物，目前尚未有有效的方法能够从庞大的候选位点中筛选出合适的用于乳腺癌分子检测的RNA编辑位点。

发明内容

针对上述问题，本发明的目的在于提供一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型。

为实现上述目的，本发明采取的技术方案为：一种基于RNA编辑水平的乳腺癌分子标志物，以人类参考基因组hg19为基准，所述分子标志物包括以下RNA编辑位点：chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。

作为本发明所述的乳腺癌分子标志物的优选实施方式，所述分子标志物的RNA编辑位点的编辑水平在乳腺癌中异常增高。

本发明还提供上述分子标志物在制备检测乳腺癌的产品中的应用。

作为本发明所述的应用的优选实施方式，所述产品采用多重PCR方法或高通量测序的方法检测样本的RNA编辑位点的编辑水平。

本发明还提供一种基于RNA编辑水平的乳腺癌诊断模型的构建方法，包括以下步骤：

(1)获取乳腺癌患者和正常组织样本的RNA编辑水平数据，得到每行为分析样本，每列为RNA编辑位点的编辑水平信息的二维矩阵；

(2)剔除未检测到RNA编辑水平的位点；

(3)根据特征重要性筛选候选RNA编辑位点；

(4)将步骤(3)筛选出的RNA编辑位点作为特征，利用随机森林算法进行拟合，构建乳腺癌诊断模型。

在乳腺癌诊断模型在构建过程中，采用随机森林算法，具体建模参数为max_depth＝50，ntree＝200，nfolds＝10，并采用AUC(Area Under Curve)作为预测效能的评价指标。

作为本发明所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法的优选实施方式，所述步骤(2)的剔除的未检测到RNA编辑水平的位点为在20％及以上的样本中未检测到RNA编辑水平的位点。

作为本发明所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法的优选实施方式，所述步骤(3)的筛选重要性RNA编辑位点，具体包括：

(1)在步骤(2)保留下来的RNA编辑位点中，采用R软件包DMwR2的knnImputation函数进行缺失值的插补；

(2)以样本类别(乳腺癌、正常)作为唯一标识，使用R软件包h2o的splitFrame函数随机选取2/3的样本作为训练集，剩下的1/3样本为验证集；

(3)在训练集中，基于步骤(1)中插补后的所有RNA编辑位点，利用随机森林算法建模，以评价每个特征的重要性；

(4)使用R软件包h2o的varimp函数获取每个RNA编辑位点对于乳腺癌检测的重要性；

(5)筛选重要性高于0.01的RNA编辑位点。

在本发明的基于RNA编辑水平的乳腺癌诊断模型的构建方法中，筛选重要性高于0.01的RNA编辑位点时，为了尽可能降低标志的检测冗余性，在筛选出的特征中，如果同一个基因存在多个RNA编辑位点，仅保留重要性最高的位点。

作为本发明所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法的优选实施方式，所述步骤(3)筛选出的候选RNA编辑位点包括以下RNA编辑位点：chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。

本发明还提供一种由上述方法构建的基于RNA编辑水平的乳腺癌诊断模型。本发明所构建的乳腺癌诊断模型具有较高的诊断价值，鉴别乳腺癌的AUC值可达到0.9858。

本发明还提供述的诊断模型在制备预测乳腺癌的产品中的应用。

本发明的有益效果为：本发明提供了一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型，本发明的诊断模型具有以下优点：(1)所需样品量少，特定位点的RNA编辑的检测仅需要最普通的PCR后对产物进行测序；(2)诊断结果稳定，RNA编辑的程度是通过自身位点的A读长和G读长的比例来确定，计算编辑程度本身并不需要其他的位点或者基因作为参照，也不容易受到实验操作本身的影响，由于A和G均来自相同的位点，系统误差能相互抵消，因此最后的结果也不容易受系统误差的影响；(3)成本低廉，可以通过多重PCR结合PCR产物高通量测序的方法可以实现同时检测几十个RNA编辑位点，有效降低医疗成本，具有良好的临床使用和推广价值。

附图说明

图1为诊断模型的构建中贡献程度最高的20个RNA编辑位点。

图2为乳腺癌分子标志物在正常和乳腺癌样本中的RNA编辑水平比较。

图3为乳腺癌分子标志物在正常和乳腺癌样本中的RNA编辑水平比较热图。

图4为基于随机森林算法构建的诊断模型的测试样本ROC曲线。

具体实施方式

为了更加简洁明了的展示本发明的技术方案、目的和优点，下面结合具体实施例和附图详细说明本发明的技术方案。

实施例1

本实施例对从Han Liang教授团队分析的TCGA数据结果中乳腺癌患者和正常组织样本的RNA编辑水平的数据进行搜集及预处理。

(1)搜集美国德州大学的MD Anderson癌症研究中心的Han Liang教授团队分析的TCGA(The Cancer Genome Atlas)数据库中乳腺癌患者和正常组织样本的RNA编辑水平数据(共942个样本)；

(2)根据收集的RNA编辑水平数据，剔除在20％及以上的样本中未检测到RNA编辑水平的位点，保留3695个RNA编辑位点；

(3)由于保留下来的部分编辑位点在个别样本中未检测到RNA编辑水平，采用R软件包DMwR2的knnImputation函数进行缺失值的插补(BRCA_data＝knnImputation(BRCA_filter,k＝10,scale＝TRUE,meth＝"weighAvg",distData＝NULL))，最终得到一个942*3695的矩阵，即样本数为942个，功能性编辑位点为3695个，用于后续诊断模型的构建。

实施例2

本实施例的一种基于RNA编辑水平的乳腺癌诊断模型的构建方法，包括以下步骤：

(1)将实施例1得到的RNA编辑位点(共3695个)在样本中的编辑水平作为构建诊断模型的特征，并以样本类别(乳腺癌、正常)作为唯一标识，使用R软件包h2o的h2o.splitFrame函数随机选取2/3的样本作为训练集，剩下的2/3样本为验证集(splits＝h2o.splitFrame(data＝dat.h2o,ratios＝2/3))；其中训练数据中，乳腺癌样本和正常对照样本分别为540和70个，而验证数据集中，乳腺癌样本和正常对照样本分别为297和35个。

(2)利用R包h2o，在训练集中采用随机森林算法(h2o.randomForest)构建模型，其具体参数为RF.model＝h2o.randomForest(x＝setdiff(colnames(h2o.traindata),"group"),y＝'group',training_frame＝h2o.traindata,keep_cross_validation_predictions＝TRUE,seed＝1,nfolds＝10,max_depth＝50,ntree＝200,balance_classes＝F)，并使用R包h2o的varimp函数获取每个特征对于模型的贡献程度(feature.importance＝h2o.varimp(RF.model))，其中贡献程度最高的20个特征如图1所示。

(3)选择重要性高于0.01的特征(select_features＝feature.importance[feature.importance$percentage>0.01,1])，共12个，包括chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr12:51324122:METTL7A、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19、chr7:17384440:AHR、chr7:17384437:AHR；同时，为了尽可能降低标志的检测冗余性，在筛选出的特征中，如果同一个基因存在多个RNA编辑位点，仅保留重要性最高的位点，即去掉chr12:51324122:METTL7A和chr7:17384437:AHR两个编辑位点。

(4)利用筛选得到的10个RNA编辑位点(如表1所示)作为乳腺癌的诊断标记物，在训练数据集中提取诊断标记物二维矩阵，表1所示的RNA编辑位点的基因组位置以人类参考基因组hg19为基准；诊断标记物在正常和乳腺癌样本中的RNA编辑水平比较如图2和图3所示。

(5)根据该诊断标记物二维矩阵，使用R语言h2o软件包的随机森林算法重新进行拟合(Predict.model＝h2o.randomForest(x＝setdiff(colnames(h2o.DiagnosticMatri),"group"),y＝'group',training_frame＝h2o.DiagnosticMatri,keep_cross_validation_predictions＝TRUE,seed＝1,nfolds＝10,max_depth＝50,ntree＝200,balance_classes＝F))，构建乳腺癌的诊断模型。

(6)根据构建的乳腺癌诊断模型，在验证数据集中使用h2o.predict函数重新区分乳腺癌患者和正常对照样本(pre.test＝h2o.predict(object＝Predict.model,newdata＝h2o.TestData))，并利用R包h2o.auc计算ROC曲线的曲线下面积(AUC)值。

(7)使用h2o.saveModel函数(h2o.saveModel(object＝Predict.model,path＝getwd(),force＝TRUE))保存所构建的乳腺癌诊断模型。

表1

实施例3

本实施例的采用实施例2构建的基于RNA编辑水平的乳腺癌诊断模型对332样本的的乳腺癌患病概率进行预测，包括以下步骤：

(1)利用R包h2o的h2o.loadModel函数导入模型。

(2)提取待预测的332个样本的10个RNA编辑位点的编辑水平，构建一个以样本为行，以分子标志物成分的RNA编辑水平为列的诊断标记物二维矩阵。

(3)将诊断标记物二维矩阵输入诊断模型中，模型给出预测概率。

将332个内部测试样本(乳腺癌样本和正常对照样本分别为297和35个)的诊断标记物二维矩阵数据代入上述建立的乳腺癌诊断模型中，得到测试样本的乳腺癌患病概率预测值，并与实际病理结果(乳腺癌或者正常)相比做ROC曲线，结果如图4所示。由图4可知，该模型具有高效准确的鉴别能力，其用于乳腺癌诊断的ROC曲线下面积AUC值为0.9848，具有良好的使用和推广价值。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于RNA编辑水平的乳腺癌分子标志物，其特征在于，以人类参考基因组hg19为基准，所述分子标志物包括以下RNA编辑位点：chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。

2.如权利要求1所述的分子标志物，其特征在于，所述分子标志物的RNA编辑位点的编辑水平在乳腺癌中异常增高。

3.如权利要求1所述的分子标志物在制备检测乳腺癌的产品中的应用。

4.如权利要求3所述的应用，其特征在于，所述产品采用多重PCR方法或高通量测序的方法检测样本的RNA编辑位点的编辑水平。

5.一种基于RNA编辑水平的乳腺癌诊断模型的构建方法，其特征在于，包括以下步骤：

(2)剔除未检测到RNA编辑水平的位点；

(3)根据特征重要性筛选候选RNA编辑位点；

6.如权利要求5所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法，其特征在于，所述步骤(2)的剔除的未检测到RNA编辑水平的位点为在20％及以上的样本中未检测到RNA编辑水平的位点。

7.如权利要求5所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法，其特征在于，所述步骤(3)的筛选候选RNA编辑位点，具体包括：

(5)筛选重要性高于0.01的RNA编辑位点。

8.如权利要求5所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法，其特征在于，所述步骤(3)筛选出的重要性RNA编辑位点包括以下RNA编辑位点：chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。

9.一种如权利要求5～8任一项所述方法构建的基于RNA编辑水平的乳腺癌诊断模型。

10.如权利要求9所述的诊断模型在制备预测乳腺癌的产品中的应用。