CN113981081A - 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 - Google Patents
一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 Download PDFInfo
- Publication number
- CN113981081A CN113981081A CN202111230642.7A CN202111230642A CN113981081A CN 113981081 A CN113981081 A CN 113981081A CN 202111230642 A CN202111230642 A CN 202111230642A CN 113981081 A CN113981081 A CN 113981081A
- Authority
- CN
- China
- Prior art keywords
- rna editing
- breast cancer
- sites
- level
- chr1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010357 RNA editing Methods 0.000 title claims abstract description 86
- 230000026279 RNA modification Effects 0.000 title claims abstract description 86
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 74
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 74
- 238000003745 diagnosis Methods 0.000 title claims abstract description 31
- 239000003147 molecular marker Substances 0.000 title claims abstract description 19
- 238000007637 random forest analysis Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 102100021633 Cathepsin B Human genes 0.000 claims abstract description 6
- 101000898449 Homo sapiens Cathepsin B Proteins 0.000 claims abstract description 6
- 101001019136 Homo sapiens Putative methyltransferase-like protein 7A Proteins 0.000 claims abstract description 6
- 102100034758 Putative methyltransferase-like protein 7A Human genes 0.000 claims abstract description 6
- 102100040363 UDP-glucose:glycoprotein glucosyltransferase 1 Human genes 0.000 claims abstract description 6
- -1 128951720 Proteins 0.000 claims abstract description 5
- 102000012199 E3 ubiquitin-protein ligase Mdm2 Human genes 0.000 claims abstract description 5
- 108050002772 E3 ubiquitin-protein ligase Mdm2 Proteins 0.000 claims abstract description 5
- 102100037825 Glycosaminoglycan xylosylkinase Human genes 0.000 claims abstract description 5
- 101000805056 Homo sapiens Glycosaminoglycan xylosylkinase Proteins 0.000 claims abstract description 5
- 101001046633 Homo sapiens Junctional adhesion molecule A Proteins 0.000 claims abstract description 5
- 101000828971 Homo sapiens Signal peptidase complex subunit 3 Proteins 0.000 claims abstract description 5
- 101000713596 Homo sapiens T-box transcription factor TBX19 Proteins 0.000 claims abstract description 5
- 101000672024 Homo sapiens UDP-glucose:glycoprotein glucosyltransferase 1 Proteins 0.000 claims abstract description 5
- 102100022304 Junctional adhesion molecule A Human genes 0.000 claims abstract description 5
- 108091006542 SLC35A3 Proteins 0.000 claims abstract description 5
- 102100023789 Signal peptidase complex subunit 3 Human genes 0.000 claims abstract description 5
- 102100036773 T-box transcription factor TBX19 Human genes 0.000 claims abstract description 5
- 102100033778 UDP-N-acetylglucosamine transporter Human genes 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012165 high-throughput sequencing Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000007403 mPCR Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 7
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 239000003550 marker Substances 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011223 gene expression profiling Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- 101710169336 5'-deoxyadenosine deaminase Proteins 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 102000055025 Adenosine deaminases Human genes 0.000 description 1
- 101100316026 Arabidopsis thaliana UGGT gene Proteins 0.000 description 1
- 101100313161 Caenorhabditis elegans mab-9 gene Proteins 0.000 description 1
- 102100038595 Estrogen receptor Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 1
- OIRDTQYFTABQOQ-UHFFFAOYSA-N ara-adenosine Natural products Nc1ncnc2n(cnc12)C1OC(CO)C(O)C1O OIRDTQYFTABQOQ-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- MYWUZJCMWCOHBA-VIFPVBQESA-N methamphetamine Chemical compound CN[C@@H](C)CC1=CC=CC=C1 MYWUZJCMWCOHBA-VIFPVBQESA-N 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000583 progesterone congener Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Zoology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Biophysics (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型,属于分子生物医学技术领域。本发明的基于RNA编辑水平的乳腺癌分子标志物,以人类参考基因组hg19为基准,所述分子标志物包括以下RNA编辑位点:chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。本发明基于上述RNA编辑位点,提出了一种基于随机森林算法构建的乳腺癌诊断模型,该模型鉴定乳腺癌的AUC值达到0.9858。相较于现有技术,本发明的诊断模型具有以下优点:(1)所需样品量少;(2)诊断结果稳定,准确性高,具有良好的临床使用和推广价值。
Description
技术领域
本发明属于分子生物医学技术领域,具体涉及一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型。
背景技术
乳腺癌是发生在乳腺上皮组织的恶性肿瘤,在我国的发病率约为21.6/10万,是女性中最常见的癌症。分子诊断与分型技术已经成为乳腺癌检测的突破点,并取得了一系列进展。雌激素受体ER-α、孕激素受体PR、原癌基因HER-2以及血清标志物CA15-3/BR27.29已经作为预后因子用于分子诊断,此外,国外的70种基因表达谱检测以及21种基因检测分别被证明有能效预测乳腺癌的预后和复发。然而,乳腺癌的发病率和死亡率都呈现逐年上升的态势,说明现在的诊断和治疗技术还远远不能满足临床的需要,寻找新的用于乳腺癌诊断、预后以及监测的分子标志物,开发新的检测方法是乳腺癌分子诊断技术发展的瓶颈。
A-I(腺嘌呤到次黄嘌呤)RNA编辑是人类中最普遍的一种RNA编辑类型,RNA中的腺嘌呤核苷在RNA腺苷脱氨酶(ADAR)的催化下脱去氨基从而变成次黄嘌呤,由于次黄嘌呤(I)和胞嘧啶(C)进行配对,因此在细胞内被各种蛋白机器识别为鸟嘌呤(G)。近年来,A-I RNA编辑在癌症尤其是乳腺癌的发生中的重要作用已经引起了广泛关注。比如,在2015年,美国德州大学的MD Anderson癌症研究中心的Han Liang教授团队分析了TCGA(The CancerGenome Atlas)项目中17种癌症共6236例癌症样品以及正常组织,发现RNA编辑的程度在大多数的癌症类型中都显著增高,值得注意的是在所有的17种癌症中,乳腺癌中共有5834个RNA编辑位点的编辑水平异常增高,是17种癌症中RNA编辑位点改变最多的。同时,该研究还发现了2057个RNA编辑位点在乳腺癌的不同的亚型中有显著差异。在乳腺癌中,这些发生异常的RNA编辑位点又在3’UTR区域显著富集。
Han Liang教授团队筛选出的在乳腺癌病人中异常增高的RNA编辑位点为乳腺癌的分子检测提供了分子标志物的候选,然而这些数量庞大的位点并非都是合适的分子标志物,目前尚未有有效的方法能够从庞大的候选位点中筛选出合适的用于乳腺癌分子检测的RNA编辑位点。
发明内容
针对上述问题,本发明的目的在于提供一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型。
为实现上述目的,本发明采取的技术方案为:一种基于RNA编辑水平的乳腺癌分子标志物,以人类参考基因组hg19为基准,所述分子标志物包括以下RNA编辑位点:chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。
作为本发明所述的乳腺癌分子标志物的优选实施方式,所述分子标志物的RNA编辑位点的编辑水平在乳腺癌中异常增高。
本发明还提供上述分子标志物在制备检测乳腺癌的产品中的应用。
作为本发明所述的应用的优选实施方式,所述产品采用多重PCR方法或高通量测序的方法检测样本的RNA编辑位点的编辑水平。
本发明还提供一种基于RNA编辑水平的乳腺癌诊断模型的构建方法,包括以下步骤:
(1)获取乳腺癌患者和正常组织样本的RNA编辑水平数据,得到每行为分析样本,每列为RNA编辑位点的编辑水平信息的二维矩阵;
(2)剔除未检测到RNA编辑水平的位点;
(3)根据特征重要性筛选候选RNA编辑位点;
(4)将步骤(3)筛选出的RNA编辑位点作为特征,利用随机森林算法进行拟合,构建乳腺癌诊断模型。
在乳腺癌诊断模型在构建过程中,采用随机森林算法,具体建模参数为max_depth=50,ntree=200,nfolds=10,并采用AUC(Area Under Curve)作为预测效能的评价指标。
作为本发明所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法的优选实施方式,所述步骤(2)的剔除的未检测到RNA编辑水平的位点为在20%及以上的样本中未检测到RNA编辑水平的位点。
作为本发明所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法的优选实施方式,所述步骤(3)的筛选重要性RNA编辑位点,具体包括:
(1)在步骤(2)保留下来的RNA编辑位点中,采用R软件包DMwR2的knnImputation函数进行缺失值的插补;
(2)以样本类别(乳腺癌、正常)作为唯一标识,使用R软件包h2o的splitFrame函数随机选取2/3的样本作为训练集,剩下的1/3样本为验证集;
(3)在训练集中,基于步骤(1)中插补后的所有RNA编辑位点,利用随机森林算法建模,以评价每个特征的重要性;
(4)使用R软件包h2o的varimp函数获取每个RNA编辑位点对于乳腺癌检测的重要性;
(5)筛选重要性高于0.01的RNA编辑位点。
在本发明的基于RNA编辑水平的乳腺癌诊断模型的构建方法中,筛选重要性高于0.01的RNA编辑位点时,为了尽可能降低标志的检测冗余性,在筛选出的特征中,如果同一个基因存在多个RNA编辑位点,仅保留重要性最高的位点。
作为本发明所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法的优选实施方式,所述步骤(3)筛选出的候选RNA编辑位点包括以下RNA编辑位点:chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。
本发明还提供一种由上述方法构建的基于RNA编辑水平的乳腺癌诊断模型。本发明所构建的乳腺癌诊断模型具有较高的诊断价值,鉴别乳腺癌的AUC值可达到0.9858。
本发明还提供述的诊断模型在制备预测乳腺癌的产品中的应用。
本发明的有益效果为:本发明提供了一种基于RNA编辑水平的乳腺癌分子标志物及诊断模型,本发明的诊断模型具有以下优点:(1)所需样品量少,特定位点的RNA编辑的检测仅需要最普通的PCR后对产物进行测序;(2)诊断结果稳定,RNA编辑的程度是通过自身位点的A读长和G读长的比例来确定,计算编辑程度本身并不需要其他的位点或者基因作为参照,也不容易受到实验操作本身的影响,由于A和G均来自相同的位点,系统误差能相互抵消,因此最后的结果也不容易受系统误差的影响;(3)成本低廉,可以通过多重PCR结合PCR产物高通量测序的方法可以实现同时检测几十个RNA编辑位点,有效降低医疗成本,具有良好的临床使用和推广价值。
附图说明
图1为诊断模型的构建中贡献程度最高的20个RNA编辑位点。
图2为乳腺癌分子标志物在正常和乳腺癌样本中的RNA编辑水平比较。
图3为乳腺癌分子标志物在正常和乳腺癌样本中的RNA编辑水平比较热图。
图4为基于随机森林算法构建的诊断模型的测试样本ROC曲线。
具体实施方式
为了更加简洁明了的展示本发明的技术方案、目的和优点,下面结合具体实施例和附图详细说明本发明的技术方案。
实施例1
本实施例对从Han Liang教授团队分析的TCGA数据结果中乳腺癌患者和正常组织样本的RNA编辑水平的数据进行搜集及预处理。
(1)搜集美国德州大学的MD Anderson癌症研究中心的Han Liang教授团队分析的TCGA(The Cancer Genome Atlas)数据库中乳腺癌患者和正常组织样本的RNA编辑水平数据(共942个样本);
(2)根据收集的RNA编辑水平数据,剔除在20%及以上的样本中未检测到RNA编辑水平的位点,保留3695个RNA编辑位点;
(3)由于保留下来的部分编辑位点在个别样本中未检测到RNA编辑水平,采用R软件包DMwR2的knnImputation函数进行缺失值的插补(BRCA_data=knnImputation(BRCA_filter,k=10,scale=TRUE,meth="weighAvg",distData=NULL)),最终得到一个942*3695的矩阵,即样本数为942个,功能性编辑位点为3695个,用于后续诊断模型的构建。
实施例2
本实施例的一种基于RNA编辑水平的乳腺癌诊断模型的构建方法,包括以下步骤:
(1)将实施例1得到的RNA编辑位点(共3695个)在样本中的编辑水平作为构建诊断模型的特征,并以样本类别(乳腺癌、正常)作为唯一标识,使用R软件包h2o的h2o.splitFrame函数随机选取2/3的样本作为训练集,剩下的2/3样本为验证集(splits=h2o.splitFrame(data=dat.h2o,ratios=2/3));其中训练数据中,乳腺癌样本和正常对照样本分别为540和70个,而验证数据集中,乳腺癌样本和正常对照样本分别为297和35个。
(2)利用R包h2o,在训练集中采用随机森林算法(h2o.randomForest)构建模型,其具体参数为RF.model=h2o.randomForest(x=setdiff(colnames(h2o.traindata),"group"),y='group',training_frame=h2o.traindata,keep_cross_validation_predictions=TRUE,seed=1,nfolds=10,max_depth=50,ntree=200,balance_classes=F),并使用R包h2o的varimp函数获取每个特征对于模型的贡献程度(feature.importance=h2o.varimp(RF.model)),其中贡献程度最高的20个特征如图1所示。
(3)选择重要性高于0.01的特征(select_features=feature.importance[feature.importance$percentage>0.01,1]),共12个,包括chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr12:51324122:METTL7A、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19、chr7:17384440:AHR、chr7:17384437:AHR;同时,为了尽可能降低标志的检测冗余性,在筛选出的特征中,如果同一个基因存在多个RNA编辑位点,仅保留重要性最高的位点,即去掉chr12:51324122:METTL7A和chr7:17384437:AHR两个编辑位点。
(4)利用筛选得到的10个RNA编辑位点(如表1所示)作为乳腺癌的诊断标记物,在训练数据集中提取诊断标记物二维矩阵,表1所示的RNA编辑位点的基因组位置以人类参考基因组hg19为基准;诊断标记物在正常和乳腺癌样本中的RNA编辑水平比较如图2和图3所示。
(5)根据该诊断标记物二维矩阵,使用R语言h2o软件包的随机森林算法重新进行拟合(Predict.model=h2o.randomForest(x=setdiff(colnames(h2o.DiagnosticMatri),"group"),y='group',training_frame=h2o.DiagnosticMatri,keep_cross_validation_predictions=TRUE,seed=1,nfolds=10,max_depth=50,ntree=200,balance_classes=F)),构建乳腺癌的诊断模型。
(6)根据构建的乳腺癌诊断模型,在验证数据集中使用h2o.predict函数重新区分乳腺癌患者和正常对照样本(pre.test=h2o.predict(object=Predict.model,newdata=h2o.TestData)),并利用R包h2o.auc计算ROC曲线的曲线下面积(AUC)值。
(7)使用h2o.saveModel函数(h2o.saveModel(object=Predict.model,path=getwd(),force=TRUE))保存所构建的乳腺癌诊断模型。
表1
实施例3
本实施例的采用实施例2构建的基于RNA编辑水平的乳腺癌诊断模型对332样本的的乳腺癌患病概率进行预测,包括以下步骤:
(1)利用R包h2o的h2o.loadModel函数导入模型。
(2)提取待预测的332个样本的10个RNA编辑位点的编辑水平,构建一个以样本为行,以分子标志物成分的RNA编辑水平为列的诊断标记物二维矩阵。
(3)将诊断标记物二维矩阵输入诊断模型中,模型给出预测概率。
将332个内部测试样本(乳腺癌样本和正常对照样本分别为297和35个)的诊断标记物二维矩阵数据代入上述建立的乳腺癌诊断模型中,得到测试样本的乳腺癌患病概率预测值,并与实际病理结果(乳腺癌或者正常)相比做ROC曲线,结果如图4所示。由图4可知,该模型具有高效准确的鉴别能力,其用于乳腺癌诊断的ROC曲线下面积AUC值为0.9848,具有良好的使用和推广价值。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于RNA编辑水平的乳腺癌分子标志物,其特征在于,以人类参考基因组hg19为基准,所述分子标志物包括以下RNA编辑位点:chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。
2.如权利要求1所述的分子标志物,其特征在于,所述分子标志物的RNA编辑位点的编辑水平在乳腺癌中异常增高。
3.如权利要求1所述的分子标志物在制备检测乳腺癌的产品中的应用。
4.如权利要求3所述的应用,其特征在于,所述产品采用多重PCR方法或高通量测序的方法检测样本的RNA编辑位点的编辑水平。
5.一种基于RNA编辑水平的乳腺癌诊断模型的构建方法,其特征在于,包括以下步骤:
(1)获取乳腺癌患者和正常组织样本的RNA编辑水平数据,得到每行为分析样本,每列为RNA编辑位点的编辑水平信息的二维矩阵;
(2)剔除未检测到RNA编辑水平的位点;
(3)根据特征重要性筛选候选RNA编辑位点;
(4)将步骤(3)筛选出的RNA编辑位点作为特征,利用随机森林算法进行拟合,构建乳腺癌诊断模型。
6.如权利要求5所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法,其特征在于,所述步骤(2)的剔除的未检测到RNA编辑水平的位点为在20%及以上的样本中未检测到RNA编辑水平的位点。
7.如权利要求5所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法,其特征在于,所述步骤(3)的筛选候选RNA编辑位点,具体包括:
(1)在步骤(2)保留下来的RNA编辑位点中,采用R软件包DMwR2的knnImputation函数进行缺失值的插补;
(2)以样本类别(乳腺癌、正常)作为唯一标识,使用R软件包h2o的splitFrame函数随机选取2/3的样本作为训练集,剩下的1/3样本为验证集;
(3)在训练集中,基于步骤(1)中插补后的所有RNA编辑位点,利用随机森林算法建模,以评价每个特征的重要性;
(4)使用R软件包h2o的varimp函数获取每个RNA编辑位点对于乳腺癌检测的重要性;
(5)筛选重要性高于0.01的RNA编辑位点。
8.如权利要求5所述的基于RNA编辑水平的乳腺癌诊断模型的构建方法,其特征在于,所述步骤(3)筛选出的重要性RNA编辑位点包括以下RNA编辑位点:chr12:51324639:METTL7A、chr1:160966434:F11R、chr2:128951720:UGGT1、chr1:100489619:SLC35A3、chr12:69237519:MDM2、chr8:11700419:CTSB、chr4:177252238:SPCS3、chr1:179042905:FAM20B、chr1:168220280:TBX19和chr7:17384440:AHR。
9.一种如权利要求5~8任一项所述方法构建的基于RNA编辑水平的乳腺癌诊断模型。
10.如权利要求9所述的诊断模型在制备预测乳腺癌的产品中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111230642.7A CN113981081A (zh) | 2021-10-22 | 2021-10-22 | 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111230642.7A CN113981081A (zh) | 2021-10-22 | 2021-10-22 | 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113981081A true CN113981081A (zh) | 2022-01-28 |
Family
ID=79740155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111230642.7A Pending CN113981081A (zh) | 2021-10-22 | 2021-10-22 | 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113981081A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023216469A1 (zh) * | 2022-05-09 | 2023-11-16 | 深圳湾实验室 | 一种基于游离dna的癌症诊断模型和应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170191057A1 (en) * | 2014-02-05 | 2017-07-06 | Regents Of The University Of California | Rna editing biomarkers for diagnosis, pharmacological screening and prognostication in cancer |
US20180216199A1 (en) * | 2016-11-25 | 2018-08-02 | Gencurix Inc. | Methods for predicting the prognosis of breast cancer patient |
CN108676879A (zh) * | 2018-05-24 | 2018-10-19 | 中国科学院北京基因组研究所 | 特异甲基化位点作为乳腺癌分子分型诊断标志物的应用 |
WO2021211057A1 (en) * | 2020-04-14 | 2021-10-21 | National University Of Singapore | Method of predicting the responsiveness to a cancer therapy |
-
2021
- 2021-10-22 CN CN202111230642.7A patent/CN113981081A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170191057A1 (en) * | 2014-02-05 | 2017-07-06 | Regents Of The University Of California | Rna editing biomarkers for diagnosis, pharmacological screening and prognostication in cancer |
US20180216199A1 (en) * | 2016-11-25 | 2018-08-02 | Gencurix Inc. | Methods for predicting the prognosis of breast cancer patient |
CN108676879A (zh) * | 2018-05-24 | 2018-10-19 | 中国科学院北京基因组研究所 | 特异甲基化位点作为乳腺癌分子分型诊断标志物的应用 |
WO2021211057A1 (en) * | 2020-04-14 | 2021-10-21 | National University Of Singapore | Method of predicting the responsiveness to a cancer therapy |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023216469A1 (zh) * | 2022-05-09 | 2023-11-16 | 深圳湾实验室 | 一种基于游离dna的癌症诊断模型和应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7051900B2 (ja) | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム | |
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN110010193A (zh) | 一种基于混合策略的复杂结构变异检测方法 | |
JP2017500004A (ja) | 遺伝子試料について遺伝子型解析するための方法およびシステム | |
CN107619857B (zh) | 一种检测肉牛klf8基因cnv标记的方法及其应用 | |
JP2016540275A (ja) | 配列変異体を検出するための方法およびシステム | |
US20150302042A1 (en) | Data analysis apparatus and data analysis method | |
CN111312334B (zh) | 一种影响细胞间通讯的受体-配体系统分析方法 | |
CN106480221B (zh) | 基于基因拷贝数变异位点对林木群体基因型分型的方法 | |
CN109295230A (zh) | 一种基于ctDNA的多基因联合突变检测评估肿瘤动态变化的方法 | |
CN115083521B (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
CN116064755B (zh) | 一种基于连锁基因突变检测mrd标志物的装置 | |
CN115375640A (zh) | 一种肿瘤异质性识别方法、装置、电子设备、存储介质 | |
KR101990429B1 (ko) | 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법 | |
CN113981081A (zh) | 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 | |
CN114220487A (zh) | 一种新型9基因risk急性髓系白血病预后模型的构建方法 | |
CN109461473A (zh) | 胎儿游离dna浓度获取方法和装置 | |
KR102142909B1 (ko) | 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법 | |
CN115424728A (zh) | 一种肿瘤恶性细胞基因预后风险模型构建方法 | |
CN105177130B (zh) | 用来评估艾滋病人发生免疫重建炎性综合症的标志物 | |
CN114496097A (zh) | 一种胃癌代谢基因预后预测方法和装置 | |
CN106650311A (zh) | 一种微生物的检测识别方法和系统 | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
Blazadonakis et al. | Complementary gene signature integration in multiplatform microarray experiments | |
CN112837749B (zh) | 一种癌症筛查用基因芯片探针的优选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220128 |