CN113160891A - 一种基于转录组测序的微卫星不稳定性检测方法 - Google Patents
一种基于转录组测序的微卫星不稳定性检测方法 Download PDFInfo
- Publication number
- CN113160891A CN113160891A CN202110402659.XA CN202110402659A CN113160891A CN 113160891 A CN113160891 A CN 113160891A CN 202110402659 A CN202110402659 A CN 202110402659A CN 113160891 A CN113160891 A CN 113160891A
- Authority
- CN
- China
- Prior art keywords
- sample
- microsatellite instability
- data
- model
- microsatellite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000032818 Microsatellite Instability Diseases 0.000 title claims abstract description 103
- 238000001514 detection method Methods 0.000 title claims abstract description 76
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 35
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 75
- 108091092878 Microsatellite Proteins 0.000 claims abstract description 52
- 230000014509 gene expression Effects 0.000 claims abstract description 40
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 72
- 238000000034 method Methods 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000005251 capillar electrophoresis Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 230000002055 immunohistochemical effect Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims 1
- 230000033607 mismatch repair Effects 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 72
- 238000012165 high-throughput sequencing Methods 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 5
- 238000001712 DNA sequencing Methods 0.000 description 4
- 238000003559 RNA-seq method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 206010009944 Colon cancer Diseases 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 102000057361 Pseudogenes Human genes 0.000 description 2
- 108091008109 Pseudogenes Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002759 z-score normalization Methods 0.000 description 2
- 102220473489 Alpha-1B-glycoprotein_D17S_mutation Human genes 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000012151 immunohistochemical method Methods 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Pathology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Microbiology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Hospice & Palliative Care (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Oncology (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种基于转录组测序的微卫星不稳定性检测方法,根据待测肿瘤样本获取待测肿瘤样本的特征基因的基因表达量数据,然后将数据导入检测模型进行预测,得到检测微卫星不稳定性结果,包括微卫星不稳定性阴性和微卫星不稳定性阳性。本发明不需要对照样本,从微卫星不稳定性发生源头进行检测,实际上是对错配修复通路进行分析,不需要确定微卫星检测位点,不需要确定阈值,在实际应用中具有更大的潜力。
Description
技术领域
本发明属于微卫星检测技术领域,具体涉及一种基于转录组测序的微卫星不稳定性检测方法。
背景技术
转录组测序广泛应用于科学研究和临床检测:[Stark,R.,Grzelak,M.&Hadfield,J.RNA sequencing:the teenage years.Nat Rev Genet 20,631-656,doi:10.1038/s41576-019-0150-2(2019).]
近年来,随着高通量测序的不断发展,RNA测序(RNA-Seq)技术已经日趋成熟,并广泛应用与生命科学和临床医学的研究中。RNA-seq可以鉴定差异表达基因,探究基因转录的剪接差异,检测融合基因等。近几年,随着单细胞技术的发展,转录组技术则可在单个细胞的水平上对生命体进行研究。目前单细胞转录组已经被广泛应用于人类生长发育和疾病演化的研究。除此之外,第三代测序技术,通过对单个RNA分子进行测序,可以获得基因的全长转录本,这使转录组测序技术可以全面鉴定可变剪切,发现更多新基因,准确定位融合基因。
微卫星不稳定性作为肿瘤的重要标志物已经广泛应用
微卫星(Microsatellite,也叫短串联重复,Short Tandem Repeat,STR)一般指在基因组中以1-5个碱为基本单元的重复。当细胞中与DNA错配修复系统(Mismatch RepairSystem,MMR)通路的相关基因发生失活,基因组复制产生的错配将无法得到修复。随着传代次数的增加,就会产生微卫星不稳定性(Microsatellite Instability,MSI)的表型。大量研究表明,微卫星不稳定性与肿瘤的发生有关,并在肿瘤的治疗和预后的过程中具有重要的作用。近年来,微卫星不稳定性成为了肿瘤免疫治疗中不可或缺的标志物。
现有临床的MSI检测方法的缺陷
鉴于微卫星不稳定性在临床上的重要作用,目前有大量方法用于微卫星不稳定性检测。微卫星不稳定性检测的金标准主要有MSI-PCR和MSI-IHC两种。MSI-PCR指是美国肿瘤研究所指定的检测标准,即检测两个单核苷酸重复位点(BAT-25,BAT-26)和三个二核苷酸重复位点(D2S123,D5S346,D17S250)共五个基因组微卫星位点的稳定性。MSI-PCR通过PCR扩增然后通过毛细管电泳试验对比肿瘤样本和正常对照样本在目标重复区域的拷贝数来决定微卫星位点的稳定性。根据检测样本中不稳定性位点占比(变异频率)可以将样本微卫星不稳定性状态确定为不稳定性高(MSI-H),不稳定性低(MSI-L)和稳定(MSS)三种状状态。MSI-PCR本质上是对微卫星不稳定性的超突变现象进行采样检测。MSI-IHC则通过免疫组化的方法对微卫星不稳定性相关基因,即错配修复系统基因进行检测,单这种方法试验复杂,需要又经验的专家进行实验和结果判读。这一方法本质上是对微卫星不稳定性的发生源头进行检测。
随着高通量测序的发展,市场上出现了很多基于高通量测序的微卫星不稳定性检测方法。如MSIsensor提取微卫星的突变特征进行微卫星稳定性的检测,需要肿瘤样本和正常对照样本作为输入,目前广泛应用于MSK-IMPACT等肿瘤解决检测方案中。针对这类方法对正常样本的依赖,MSIsensor-pro提出了一种多项分布模型对单个样本提取特征,实现不依赖正常对照样本的微卫星不稳定检测(文献:Jia,P.et al.MSIsensor-pro:Fast,Accurate,and Matched-normal-sample-free Detection of MicrosatelliteInstability.Genomics,Proteomics&Bioinformatics,doi:https://doi.org/10.1016/j.gpb.2020.02.001(2020).专利:叶凯et al.一种基于基因组测序的微卫星不稳定性检测系统及方法.CN109637590A.)。
以MSIsensor,MSIsensor-pro为代表的基于高通量测序的微卫星不稳定检测方案与MSI-PCR方法类似,都是提取基因突变信息来进行间接的进行MSI检测。基于高通量测序的方法可以提取样本更多的信息,获得更加准确的结果。然而各个基于高通测序的微卫星检测方法目前在阈值确定,检测位点确定方面还没有形成统一,各算法之前互相不可比,暂时无法进行标准化和规范化。
目前以MSIsensor和MSIsensor-pro为代表的基于基因组DNA测序的方法大都需要正常的对照样本,限制了微卫星不稳定性的检测范围,并且需要花费大量的时间成本和金钱成本;同时对基因组DNA测序仅仅从表现型的角度对微卫星不稳定性进行测定,并没有从其发生原因进行研究。由于各个DNA测序方案的不同,选取的微卫星检测位点不同,导致各个测序机构产生的微卫星不稳定性结果不可比,难以形成统一的检测方案,阻碍了微卫星不稳定性的标准化和规范化。
发明内容
本发明的目的是提出的一种基于转录组的微卫星不稳定性检测方法。
为实现上述目的,本发明采用的技术方案如下:
一种基于转录组测序的微卫星不稳定性检测方法,根据待测肿瘤样本获取待测肿瘤样本的特征基因的基因表达量数据,然后将数据导入检测模型进行预测,得到检测微卫星不稳定性结果,包括微卫星不稳定性阴性和微卫星不稳定性阳性。
本发明进一步的改进在于,通过基因芯片、转录组测序和单细胞转录组测序技术得到待测肿瘤样本的特征基因的基因表达量数据。
本发明进一步的改进在于,检测模型通过以下过程得到:获取用于训练检测模型的样本数据,将样本数据处理后分成训练集和测试集,将训练集导入机器学习模型中进行训练,当迭代次数大于设定阈值或损失值小于设定阈值时停止训练,得到训练好的模型;将测试集导入训练好的模型中进行预测,根据模型预测的性能指标,对预测的效果进行性能评估,得到检测模型;其中,模型预测的性能指标包括AUC、准确率、精准率和召回率;机器学习模型包括逻辑回归、随机森林、K邻近、支持向量机、决策树、梯度提升树、感知机、多层感知机和朴素贝叶斯中的一种或多种组合。
本发明进一步的改进在于,用于训练检测模型的样本数据包括样本的所有基因的基因表达量数据和样本的微卫星不稳定性状态;样本所有基因的表达量数据作为用于训练检测模型的特征,样本的微卫星不稳定性状态作为用于训练检测模型的标签。
本发明进一步的改进在于,通过基因芯片、转录组测序和单细胞转录组测序技术测得样本的所有基因的基因表达量数据。
本发明进一步的改进在于,通过毛细管电泳、免疫组化蛋白或MSIsensor方法或MSIsensor-pro方法获取样本的微卫星不稳定性状态,微卫星不稳定性状态包括微卫星不稳定性阳性和微卫星不稳定性阴性。
本发明进一步的改进在于,将样本数据处理后分成训练集和测试集的具体过程如下:首先对样本数据进行数据清洗,再进行类不平衡问题处理,然后分成两部分,对第一部分数据进行标准化操作,然后通过逻辑回归法、AUC法或差异基因法筛选特征基因,得到的特征基因的数据和样本标签作为训练集;对第二部分数据的特征进行数据标准化操作和特征基因筛选操作,得到的特征基因的数据和样本标签作为测试集。
本发明进一步的改进在于,数据清洗的具体过程为:计算每个微卫星不稳定性阳性样本和微卫星不稳定性阴性样本中每个基因表达量的平均值、标准差及变异系数,根据设置阈值过滤,过滤基因表达量异常的离群样本。
本发明进一步的改进在于,类不平衡问题处理的具体过程为:根据癌症类型对经过数据清洗处理的微卫星不稳定性阳性样本进行新微卫星不稳定性阳性样本的构造,使得每种癌症类型的微卫星不稳定性阳性样本和微卫星不稳定性阴性样本数量达到平衡;
或者对所有经过数据清洗处理的微卫星不稳定阳性样本进行新微卫星不稳定阳性样本的构造,使得总的微卫星不稳定阳性样本和微卫星不稳定阴性样本数量均衡;
数据标准化操作的具体过程为对样本数据的特征部分进行归一化或z-score标准化。
本发明进一步的改进在于,对预测的效果进行性能评估的具体过程为:设定模型预测性能指标的阈值,若测试集在训练好的模型上预测指标达到阈值,则训练结束得到检测模型;若测试集在训练好的模型上预测指标未达到阈值,则对模型参数进行调整后重新训练,再将测试集导入训练好的模型进行性能评估,直至达到阈值,得到检测模型。
与现有技术相比,本发明具有的有益效果:
本发明通过对肿瘤样本的转录组进行测序,得到的基因表达量数据为输入,再对各基因的表达情况进行分析,提取微卫星相关的基因,然后导入检测模型对微卫星不稳定性进行检测。这种方法不需要对照样本,从微卫星不稳定性发生源头进行检测,实际上是对错配修复通路进行分析,不需要确定微卫星检测位点,不需要确定阈值,可减少正常样本取样过程中给患者带来的痛苦,同时减少对患者遗传物质泄漏的风险,减少成本,检测准确率更高,在实际应用中具有更大的潜力。
附图说明
图1为基于转录组测序的微卫星检测流程图。
图2为几种机器学习模型测试集AUC比较图。
图3为调参后模型在测试集上的ROC曲线。
图4为图中方框处的放大图。
具体实施方式
下面结合附图对本发明进行详细说明。
本发明提供一种试验操作简单,成本可控,准确率高的基于转录组测序的微卫星不稳定性检测方法。本发明所述基于转录组的微卫星不稳定性检测方法分为模型训练和模型应用两个部分。
模型训练部分主要包括数据预处理,用于微卫星不稳定性检测的特征基因选择,分类模型建立与训练和模型性能评估几个过程;此部分需要准备样本转录组测序数据作为训练模型的特征和其对应的微卫星不稳定性状态作为训练模型的标签,特征和标签用于检测模型的训练和评估。模型应用部分,指依据模型训练部分得到的微卫星不稳定性检测模型结合待测样本的特征基因的转录组数据对待测样本的微卫星不稳定性状态进行预测,参见图1。
本发明提供的基于转录组测序的微卫星不稳定性检测方法通过对基因表达量的分析确定肿瘤样本的微卫星不稳定性状态。基因表达量可以通过基因芯片,转录组测序和单细胞转录组测序技术得到。其数据格式可以为Read Counts、FPKM、RPKM、TPM,也可以是它们标准化或者校正后的表达数据。在模型训练部分还需要事先获取训练样本的微卫星不稳定性状态。
数据预处理具体过程包括:获取微卫星不稳定性状态,数据清洗处理,类不平衡问题处理和数据标准化操作过程。
微卫星不稳定性状态获取主要是针对利用现有金标准方法获取样本的微卫星不稳定性状态,作为模型训练的标签,并根据样本的微卫星不稳定性状态分为微卫星不稳定性阳性样本和微卫星不稳定性阴性样本,对本发明的方法进行监督式训练和性能评估,方便本发明的方法应用于临床实践。本发明中获取微卫星不稳定性状态可采用的方法有MSI-PCR(毛细管电泳),MSI-IHC(免疫组化蛋白),以及基于高通量测序的检测方法MSIsensor方法或MSIsensor-pro方法等。本发明中统一将微卫星稳定性(MSS)和微卫星不稳定性低(MSI-L)视作微卫星稳定性(MSS),即为微卫星不稳定性阴性;将微卫星不稳定性高(MSI-H)视作微卫星不稳定性(MSI),即为微卫星不稳定性阳性。本发明中利用标签One-hot编码指对微卫星不稳定性进行0和1编码,转换为机器学习模型能够识别的计算机编码形式,这里将微卫星稳定性(MSS)编码为0,微卫星不稳定性(MSI)编码为1即可。
数据清洗作处理是对阳性样本和阴性样本进行分析处理,在数据清洗过程,首先计算个样本中每个基因表达量的平均值和标准差及变异系数,去掉平均表达量小,方差小,变异系数小的基因,此处用户根据实际情况确定过滤阈值,用户可根据需求过滤掉一些基因表达量异常的离群样本。
类不平衡问题处理是对微卫星不稳定性阴阳性不平衡造成的机器学习的偏差进行矫正,以提高机器学习模型的检测效果。本发明中用户可以根据样本阴性和阳性的比例决定是否执行类不平衡矫正部分。本发明通过采样虚拟生成阳性样本,具体来说即提取出经过数据清洗处理后的阳性样本(微卫星不稳定阳性样本),根据其数据特点利用过采样算法构建一些新的阳性样本的过程。本发明提供两种方法:
方法一:根据癌症类型对经过数据清洗处理的微卫星不稳定阳性样本进行新阳性样本的构造,使得每种癌症类型的微卫星不稳定阳性样本和微卫星不稳定阴性样本数量达到平衡。
方法二:直接对所有经过数据清洗处理的微卫星不稳定阳性样本进行新微卫星不稳定阳性样本的构造,使得总体微卫星不稳定阳性样本和微卫星不稳定阴性样本数量均衡。
在完成类不平衡问题处理后,将样本数据(即阴性样本和阳性样本的总和)分为训练集和测试集两部分。
数据标准化操作是指对数据清洗和类不平衡处理后的基因表达量进行一定的尺度变换,以消除不同基因,不同样本,不同技术之间的量纲差异以及数量级差异太大对机器学习模型预测产生的影响。这里对训练集进行数据标准化操作,测试集进行与训练集相同的变换即可。
本发明提供两种常规标准化的方法:
方法一:归一化。它能将训练集的特征的值缩放到0至1之间,公式为:
其中,xmin和xmax分别表示该训练集的特征在所有样本中取值的最小值和最大值。
方法二:z-score标准化。它可以将训练集的特征的值放成均值为0,方差为1的标准正态分布,公式为:
其中,μ和σ分别表示该训练集的特征在所有样本中的均值和标准差。
特征基因选择,指对数据预处理后得到的基因表达量特征进行筛选,选择出对微卫星不稳定性状态判断有利的基因,即微卫星不稳定阳性样本(MSI)和微卫星稳定阴性样本(MSS)中差异表达基因。
本发明利用一些数理统计的方法对训练集的特征进行进一步筛选,使得导入机器学习模型中的特征个数减少,力求在保证检测效果的同时特征个数尽量少,可以根据使用者意愿选择N个特征基因。这样一方面能够提高模型的运算效率,另一方面可以降低实际检测中的测序成本。这里提供三种特征筛选的方法:
方法一:逻辑回归法筛选。将现有特征和标签导入逻辑回归模型中进行训练,得到每个特征的拟合系数,将系数取绝对值降序排序,绝对值越大代表对模型预测贡献越大。将特征拟合系数的绝对值降序排列,以特征的排序序号为横坐标,拟合系数的绝对值为纵坐标绘制折线图,选取折线图拐点位置的前N个基因为特征基因。
方法二:AUC法筛选:分别计算每个特征对于标签预测的AUC值,AUC大于0.5的特征为与微卫星不稳定性正相关,AUC小于0.5的特征为与微卫星不稳定性负相关的特征。对于正相关的特征,取AUC代表其对微卫星不稳定性分类的贡献值,对于负相关的特征,取1-AUC作为其对微卫星不稳定性分类的贡献值。将特征按照对微卫星不稳定性分类的贡献降序排序,以特征的排序序号为横坐标,贡献值为纵坐标绘制折线图,选取折线图拐点位置的前N个基因为特征基因。
方法三:差异基因法:将样本分为MSI和MSS两类,利用DESeq,DESeq2,edgeR,limma,Cuffdiff,Ballgown,sleuth等软件对MSI和MSS两类中表达具有显著性差异的基因进行筛选,通过调整q-value的值选择出前N个显著性差异大的差异基因为特征基因。
分类模型建立与训练,指在数据预处理和的数据中选择训练集样本中特征基因的数据(作为特征)和样本对应的微卫星不稳定性状态(作为标签)导入现有机器学习模型中进行训练,以建立微卫星不稳定性状态检测模型。这里用的机器学习模型包括逻辑回归、随机森林、K邻近、支持向量机、决策树、梯度提升树、感知机(神经网络)、多层感知机(深度神经网络)和朴素贝叶斯等,它们中的一种或多种组合。利用训练集的数据对分类模型进行训练,当迭代次数大于设定阈值或损失值小于设定阈值时(具体可以为:当模型准确率达到99%或者训练次数达到1万次时)停止训练,保存训练模型。
分类模型性能评估,指对于训练好的模型,将测试集导入进行预测,根据模型预测的性能指标,对预测的效果进行性能评估,再根据指标进行模型的调参优化。这里提供的模型性能判定的指标有常见的二分类评价指标,包括AUC、准确率(Accuracy)、精准率(Precision)和召回率(Recall)等。最后根据实际情况对模型进行调优。具体来说就是根据模型预测的性能指标对模型进行参数调整。
使用者事先设定一个对模型预测性能指标的阈值,若测试集在训练好的模型上预测指标达到阈值,则保存该模型用于本方法的第二部分模型应用;若测试集再训练好的模型上预测指标未达到阈值,则对模型参数进行调整后重新训练,再将测试集导入训练好的模型进行性能评估,直至达到阈值即可保存模型,模型训练部分完成。
模型应用部分,是对未知样本检测,指对于一个未知的需要微卫星不稳定性检测的样本,根据模型训练部分中选取的特征基因,通过高通量测序手段获取待测样本中各特征基因的基因表达量数据,然后对该基因表达量数据进行模型训练部分特征基因的基因表达量数据相同的数据标准化处理,最后将处理好的未知样本的特征基因的基因表达量数据导入模型训练部分得到的模型,利用模型对该样本的微卫星不稳定性状态进行检测。
下面为具体实施例。
实施例1
模型训练部分:
一、数据预处理
首先从肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库获取了940个样本的数据并整合到一张表中作为模型训练部分的输入,包括每个样本的案例ID,肿瘤类型,通过金标准检测获得的MSI状态,以及基因表达量数据,基因表达量为FPKM-UQ标准化格式。其数据格式如表1所示,数据统计如表2所示。
表1模型训练部分输入样本数据统计
*ALL代表所有类型,STAD代表胃癌,UCEC代表子宫内膜癌,CRC代表结直肠癌,MSI-H代表微卫星不稳定高,MSI-L代表微卫星不稳定性低,MSS代表微卫星稳定
表2模型训练部分输入样本的数据格式
*ENSG为基因的Ensembl ID,每个样本有60483个基因的表达量数据
然后对输入模型训练部分的数据进行特征和标签划分,每个样本的60483个基因表达量数据作为特征,金标准对于样本的微卫星不稳定性检测的结果作为标签。然后对标签进行One-hot编码,将MSI-L和MSS状态统一归类为MSS状态,编码为0,视作微卫星不稳定阴性样本;将MSI-H状态归类为MSI状态,编码为1,视作微卫星不稳定阳性样本。
再进行类不平衡问题处理,利用SMOTE过采样算法根据微卫星不稳定阳性样本,不参考癌症类型直接构造新的微卫星不稳定阳性样本,使得微卫星不稳定阳性和微卫星不稳定阴性样本数量比为1:1,达到平衡。
接着对样本集进行数据清洗处理,即对特征进行低方差噪声过滤和特征标准化,过滤方差阈值设置为0,因此过滤掉方差为0的特征,并判断有没有基因表达量异常的离群样本并进行过滤。
然后对样本集进行训练集和测试集划分,这里随机选择60%的样本作为训练集,40%的样本作为测试集。
最后进行数据标准化操作,对训练集进行标准化,测试集做与训练集相同的变换。选择z-score标准化,使得特征变换到均值为0,方差为1的标准正态分布。经特征处理后,特征个数从60483个减少到58269个。
二、特征基因选择
对处理好的基因表达量特征进行进一步过滤筛选,这里使用的是AUC筛选方法,将每个特征分别作为二分类预测的概率值,计算AUC,若AUC小于0.5则说明预测呈相反趋势,用1减该值作为新的AUC,保证最后所得AUC都在0.5到1之间。将每个特征的AUC降序排序,这里取前20个基因作为特征选择得到的基因。特征基因选择结果表3所示。
表3特征基因选择结果
三、分类模型建立与训练
完成特征基因选择后,将选择的特征和标签对应的训练集导入机器学习模型中进行训练,再把测试集导入训练好的模型计算模型的AUC。粗略对比几种机器学习模型后,选择随机森林模型。几种机器学习模型在训练集上的AUC比较,如图2所示。
四、模型性能评估
第三步中选择了随机森林模型,以测试集在模型中预测时AUC的大小作为评估指标,对该模型进行优化调参,AUC的阈值设置为0.98,调参后该模型AUC在0.99左右,满足阈值要求,因而保存该模型用于模型应用部分。该模型在训练集上的ROC曲线如图3和图4所示。
模型应用部分:
五、未知样本检测
从肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库获取了3个未知样本进行微卫星不稳定性检测,根据模型训练部分选择的特征基因,分别测得各样本的20个特征基因的基因表达量,格式为FPKM-UQ标准化格式。然后对这20个特征基因的基因表达量做与模型训练部分训练集相同的数据标准化变换,再导入模型训练部分得到的模型中进行检测,由模型给出预测的结果,检测结果如表4所示,通过金标准检测结果进行验证,3个样本均检测正确。
表4模型应用部分预测结果
本发明只需要肿瘤患者的肿瘤样本做分析,不需要患者的正常样本作对照,可减少正常样本取样过程中给患者带来的痛苦,同时减少对患者遗传物质泄漏的风险,减少成本。与过往的基于DNA测序数据的微卫星不稳定性检测相比,基于转录组测序的机器学习检测准确率更高。转录组测序相比DNA测序的成本更低,实际情况中只需要测20多种基因的表达质量即可对微卫星不稳定性进行较准确的检测。
Claims (10)
1.一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,根据待测肿瘤样本获取待测肿瘤样本的特征基因的基因表达量数据,然后将数据导入检测模型进行预测,得到检测微卫星不稳定性结果,包括微卫星不稳定性阴性和微卫星不稳定性阳性。
2.根据权利要求1所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,通过基因芯片、转录组测序和单细胞转录组测序技术得到待测肿瘤样本的特征基因的基因表达量数据。
3.根据权利要求1所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,检测模型通过以下过程得到:获取用于训练检测模型的样本数据,将样本数据处理后分成训练集和测试集,将训练集导入机器学习模型中进行训练,当迭代次数大于设定阈值或损失值小于设定阈值时停止训练,得到训练好的模型;将测试集导入训练好的模型中进行预测,根据模型预测的性能指标,对预测的效果进行性能评估,得到检测模型;其中,模型预测的性能指标包括AUC、准确率、精准率和召回率;机器学习模型包括逻辑回归、随机森林、K邻近、支持向量机、决策树、梯度提升树、感知机、多层感知机和朴素贝叶斯中的一种或多种组合。
4.根据权利要求3所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,用于训练检测模型的样本数据包括样本的所有基因的基因表达量数据和样本的微卫星不稳定性状态;样本所有基因的表达量数据作为用于训练检测模型的特征,样本的微卫星不稳定性状态作为用于训练检测模型的标签。
5.根据权利要求4所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,通过基因芯片、转录组测序和单细胞转录组测序技术测得样本的所有基因的基因表达量数据。
6.根据权利要求4所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,通过毛细管电泳、免疫组化蛋白或MSIsensor方法或MSIsensor-pro方法获取样本的微卫星不稳定性状态,微卫星不稳定性状态包括微卫星不稳定性阳性和微卫星不稳定性阴性。
7.根据权利要求3所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,将样本数据处理后分成训练集和测试集的具体过程如下:首先对样本数据进行数据清洗,再进行类不平衡问题处理,然后分成两部分,对第一部分数据进行标准化操作,然后通过逻辑回归法、AUC法或差异基因法筛选特征基因,得到的特征基因的数据和样本标签作为训练集;对第二部分数据的特征进行数据标准化操作和特征基因筛选操作,得到的特征基因的数据和样本标签作为测试集。
8.根据权利要求7所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,数据清洗的具体过程为:计算每个微卫星不稳定性阳性样本和微卫星不稳定性阴性样本中每个基因表达量的平均值、标准差及变异系数,根据设置阈值过滤,过滤基因表达量异常的离群样本。
9.根据权利要求7所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,类不平衡问题处理的具体过程为:根据癌症类型对经过数据清洗处理的微卫星不稳定性阳性样本进行新微卫星不稳定性阳性样本的构造,使得每种癌症类型的微卫星不稳定性阳性样本和微卫星不稳定性阴性样本数量达到平衡;
或者对所有经过数据清洗处理的微卫星不稳定阳性样本进行新微卫星不稳定阳性样本的构造,使得总的微卫星不稳定阳性样本和微卫星不稳定阴性样本数量均衡;
数据标准化操作的具体过程为对样本数据的特征部分进行归一化或z-score标准化。
10.根据权利要求3所述的一种基于转录组测序的微卫星不稳定性检测方法,其特征在于,对预测的效果进行性能评估的具体过程为:设定模型预测性能指标的阈值,若测试集在训练好的模型上预测指标达到阈值,则训练结束得到检测模型;若测试集在训练好的模型上预测指标未达到阈值,则对模型参数进行调整后重新训练,再将测试集导入训练好的模型进行性能评估,直至达到阈值,得到检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110402659.XA CN113160891A (zh) | 2021-04-14 | 2021-04-14 | 一种基于转录组测序的微卫星不稳定性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110402659.XA CN113160891A (zh) | 2021-04-14 | 2021-04-14 | 一种基于转录组测序的微卫星不稳定性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113160891A true CN113160891A (zh) | 2021-07-23 |
Family
ID=76890553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110402659.XA Pending CN113160891A (zh) | 2021-04-14 | 2021-04-14 | 一种基于转录组测序的微卫星不稳定性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160891A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114574570A (zh) * | 2022-04-08 | 2022-06-03 | 青岛啤酒股份有限公司 | 一种啤酒酵母高代数使用的评估方法及其应用 |
CN114708916A (zh) * | 2022-03-15 | 2022-07-05 | 至本医疗科技(上海)有限公司 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637590A (zh) * | 2018-12-29 | 2019-04-16 | 西安交通大学 | 一种基于基因组测序的微卫星不稳定性检测系统及方法 |
CN110400601A (zh) * | 2019-08-23 | 2019-11-01 | 元码基因科技(无锡)有限公司 | 基于rna靶向测序和机器学习的癌症亚型分型方法及装置 |
CN110910957A (zh) * | 2019-12-31 | 2020-03-24 | 求臻医学科技(北京)有限公司 | 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 |
CN112365922A (zh) * | 2021-01-13 | 2021-02-12 | 臻和(北京)生物科技有限公司 | 用于检测msi的微卫星位点、其筛选方法及应用 |
-
2021
- 2021-04-14 CN CN202110402659.XA patent/CN113160891A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637590A (zh) * | 2018-12-29 | 2019-04-16 | 西安交通大学 | 一种基于基因组测序的微卫星不稳定性检测系统及方法 |
CN110400601A (zh) * | 2019-08-23 | 2019-11-01 | 元码基因科技(无锡)有限公司 | 基于rna靶向测序和机器学习的癌症亚型分型方法及装置 |
CN110910957A (zh) * | 2019-12-31 | 2020-03-24 | 求臻医学科技(北京)有限公司 | 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 |
CN112365922A (zh) * | 2021-01-13 | 2021-02-12 | 臻和(北京)生物科技有限公司 | 用于检测msi的微卫星位点、其筛选方法及应用 |
Non-Patent Citations (2)
Title |
---|
LIN L.等: "PreMSIm: An R package for predicting microsatellite instability from the expression profiling of a gene panel in cancer", 《COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL》 * |
MARTA M.等: "Predicting Gastric Cancer Molecular Subtypes from Gene Expression Data", 《PROCEEDINGS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708916A (zh) * | 2022-03-15 | 2022-07-05 | 至本医疗科技(上海)有限公司 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
CN114708916B (zh) * | 2022-03-15 | 2023-11-10 | 至本医疗科技(上海)有限公司 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
CN114574570A (zh) * | 2022-04-08 | 2022-06-03 | 青岛啤酒股份有限公司 | 一种啤酒酵母高代数使用的评估方法及其应用 |
CN114574570B (zh) * | 2022-04-08 | 2024-06-04 | 青岛啤酒股份有限公司 | 一种啤酒酵母高代数使用的评估方法及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
CN108595913B (zh) | 鉴别mRNA和lncRNA的有监督学习方法 | |
CN110910957B (zh) | 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 | |
CA2877430C (en) | Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques | |
CN111462823B (zh) | 一种基于dna测序数据的同源重组缺陷判定方法 | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
CN111968701B (zh) | 检测指定基因组区域体细胞拷贝数变异的方法和装置 | |
CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
WO2022170909A1 (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
CN113160891A (zh) | 一种基于转录组测序的微卫星不稳定性检测方法 | |
WO2023197825A1 (zh) | 多癌种早筛模型构建方法以及检测装置 | |
CN111370061A (zh) | 基于蛋白标记物与人工智能的癌症筛查方法 | |
CN114613430A (zh) | 一种假阳性核苷酸变异位点的过滤方法及计算设备 | |
CN108256294A (zh) | 一种用于检测体细胞突变的装置 | |
WO2013075000A1 (en) | Clustering copy-number values for segments of genomic data | |
CN115537468A (zh) | 一种用于检测胰腺癌胚系变异的探针组合物、试剂盒 | |
CN110592093B (zh) | 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 | |
CN113160895A (zh) | 一种结直肠癌风险评估模型及系统 | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
CN111785319A (zh) | 基于差异表达数据的药物重定位方法 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
CN113528631B (zh) | 一种ngs测序中样本质量预测方法及系统 | |
CN112599189B (zh) | 一种全基因组测序的数据质量评估方法及其应用 | |
Wainer-Katsir et al. | BIRD: identifying cell doublets via biallelic expression from single cells | |
Bar-Or et al. | Utilizing microarray spot characteristics to improve cross-species hybridization results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |
|
RJ01 | Rejection of invention patent application after publication |