CN117577182B - 一种快速识别药物标识位点的系统及其应用 - Google Patents
一种快速识别药物标识位点的系统及其应用 Download PDFInfo
- Publication number
- CN117577182B CN117577182B CN202410052476.3A CN202410052476A CN117577182B CN 117577182 B CN117577182 B CN 117577182B CN 202410052476 A CN202410052476 A CN 202410052476A CN 117577182 B CN117577182 B CN 117577182B
- Authority
- CN
- China
- Prior art keywords
- sites
- feature
- mutation
- reads
- alt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 44
- 229940079593 drug Drugs 0.000 title claims abstract description 42
- 230000035772 mutation Effects 0.000 claims abstract description 86
- 238000012163 sequencing technique Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 27
- 201000010099 disease Diseases 0.000 claims abstract description 23
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000001717 pathogenic effect Effects 0.000 claims abstract description 13
- 238000007637 random forest analysis Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000013480 data collection Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000013461 design Methods 0.000 claims abstract 2
- 206010028980 Neoplasm Diseases 0.000 claims description 64
- 239000000523 sample Substances 0.000 claims description 60
- 238000001514 detection method Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000013068 control sample Substances 0.000 claims description 15
- 201000011510 cancer Diseases 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 8
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 108091027963 non-coding RNA Proteins 0.000 claims description 7
- 102000042567 non-coding RNA Human genes 0.000 claims description 7
- 206010069754 Acquired gene mutation Diseases 0.000 claims description 6
- 230000037439 somatic mutation Effects 0.000 claims description 6
- 230000036438 mutation frequency Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 108091029795 Intergenic region Proteins 0.000 claims description 4
- 230000008094 contradictory effect Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000001681 protective effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000000392 somatic effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000007918 pathogenicity Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 108020004705 Codon Proteins 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 108020005038 Terminator Codon Proteins 0.000 description 2
- 108091023045 Untranslated Region Proteins 0.000 description 2
- 238000003766 bioinformatics method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 238000000729 Fisher's exact test Methods 0.000 description 1
- 208000022072 Gallbladder Neoplasms Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 208000024770 Thyroid neoplasm Diseases 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 208000002495 Uterine Neoplasms Diseases 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 201000010175 gallbladder cancer Diseases 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 201000002510 thyroid cancer Diseases 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
- 206010046766 uterine cancer Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Epidemiology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种快速识别药物标识位点的系统及其应用,所述系统包括:(1)数据收集单元:收集疾病患者和正常样本的基因组合测序数据,筛选阳性位点和阴性位点;(2)数据筛选单元:特征值设计和数据转换,根据特征值从测试样本中筛选与患者疾病相关的致病性变异位点,作为模型数据集;(3)模型构建单元:将模型数据集分为训练集和测试集,采用随机森林法构建生物信息分析模型。本发明提供的快速识别与患者疾病相关的致病性变异位点的方法能够根据该变异位点关联到临床用药指示,能够大大减少需要人工审核每个变异位点的时间,提升了医学解读效率。
Description
技术领域
本发明属于生物学与精准医学基因组变异检测技术领域,具体涉及一种快速识别药物标识位点的系统及其应用,尤其涉及通过优化生物信息学算法从大量变异位点中筛选出有临床药物关联的变异位点,从而提高医学解读效率的方法。
背景技术
高通量测序(Nextgeneration sequencing,NGS)能够同时对上百万甚至数十亿个DNA片段进行测序,因此可以在较低的成本下对多至上百个肿瘤相关基因、全外显子及全基因组进行检测。NGS进行肿瘤基因突变检测的技术路线主要包括:全基因组测序(WGS)、全外显子测序(WES)和靶向捕获测序(targeted sequencing)。其中靶向测序是指选择基因组上感兴趣的基因或基因区域作为靶向检测区域,可以是几个基因上的个别外显子区域,也可以是几百上千个基因上的全部外显子区域,靶向测序兼顾了实际检测需求,又降低了测序成本,因此目前在临床上的应用广泛。
在肿瘤检测方面,基于靶向捕获测序技术寻找与患者高度相关的基因突变已经成为了一种常见且有效的诊断方案,目前市面上已经有很多款针对不同肿瘤类型、不同基因、不同捕获区域的检测基因组合(Panel)。这些检测基因组合的一般性方案都是使用患者的肿瘤部位DNA和正常部位DNA构建测序文库,样本类型可以是组织,也可以是外周血或cfDNA等,然后进行靶向捕获测序,之后对测序数据进行生物信息学分析并寻找与疾病关联的基因变异。这种方法在实际操作中,与疾病相关的变异位点的筛选是一个非常耗时且需要丰富临床解读知识的过程,如果不能够对相关的肿瘤在基因层面致病原理有足够的了解、不能对相关药物和药物标识变异位有深入的认知、以及快速有效去除假阳性干扰位点的能力,那么处理一例患者样本将会是耗时费力且没有保障的工作。
目前从大量的变异位点中筛选出真正与疾病相关的变异位点、从而根据变异位点选择合适的药物,这一过程基本都是人工对变异位点进行逐一解读后完成的,这既低效又依赖于解读人员的主观认知,往往出现同一个变异位点在不同的解读人员解读后出现不同的结论,在临床上的复用性不够。因此提供一种协助医学解读人员快速识别有用药指导变异位点的方法在肿瘤检测方面中具有重要的应用价值。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种快速识别药物标识位点的系统及其应用。本发明使用随机森林的算法构建生物信息分析模型,通过大量经过人工解读的位点信息做基础数据,收集了每个变异位点的近百种特征值信息,模型利用这些数据创建出一组不再依赖解读人员主观知识的数据库,后期其他样本的分析基于该模型即可。
为达到此发明目的,本发明采用以下技术方案:
第一方面,本发明提供一种快速识别药物标识位点的系统,所述系统包括:
(1)数据收集单元:收集疾病患者和正常样本的基因组合测序数据,筛选阳性位点和阴性位点;
(2)数据筛选单元:设置特征值,根据特征值从测试样本中筛选与患者疾病相关的致病性变异位点,作为模型数据集;所述特征值如下所示:
(3)模型构建单元:将模型数据集分为训练集和测试集,采用随机森林法构建生物信息分析模型。
本发明选择的特征值是能够反映链偏好性、变异位点在读段中坐标位置比例、参考碱基和变异碱基质量值、读段比对质量值、变异碱基距离读段末端距离、读段发生软剪接等都能够对构建模型起到十分重要的作用。
本发明中,读段(读段)指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的,不同的测序仪器,读段长度不一样。对整个基因组进行测序,就会产生成百上千万的读段。
优选地,所述数据收集单元中,与疾病和药物有关联的变异位点作为阳性位点。
优选地,与疾病和药物无关联的位点作为阴性位点,含有阴性位点的样本定义为阴性样本。
优选地,所述数据收集单元中,对阳性位点阴性位点进行筛选,去除部分容易区别的且普遍采用的过滤指标的假阳性位点。
优选地,去除部分假阳性位点的过滤指标包括:
(a)注释变异位点的功能区域后,去除位于内含子区、基因间区和非编码RNA内含子区的变异位点;
(b)去除在CLINVAR数据库中标记为影响、关联、良性、良性/疑似良性、疑似良性、无注释、其他、保护、风险因子、对致病性解释相互矛盾、可能为良性/药物反应/其他、可能良性/其他字符的变异位点;
(c)去除在INTERVAR软件中注释为良性、疑似良性的变异位点;
(d)注释人群频率,去除东亚人群频率高于0.0008、非癌症人群频率高于0.0023、对照人群频率高于0.0008、esp6500siv2项目频率高于0.005的变异位点;
(e)根据变异位点的测序深度、变异频率进行过滤。
优选地,所述根据变异位点的测序深度、变异频率进行过滤的过滤指标包括:
对照样本的测序深度≥50X、肿瘤样本的测序深度≥90X、肿瘤样本的变异碱基的读段数≥4条或肿瘤样本的变异频率≥0.01。
优选地,所述特征19的值采用如下计算方式计算得到:
;
其中,Falt和Ralt分别表示变异碱基比对到正链和负链的读段数,F和R分别表示在该位点上正链和负链的总读段数,计算结果中,如果特征19的值接近于0,则偏好性低。本特征值能够反映出链偏好性的程度且具有连续性,在利用测试数据评估时其对数据的分组能力也较强。
优选地,所述特征22和特征24分别表示根据体细胞变异位点的p值利用Phred方式计算的体细胞分值,和对照样本和肿瘤样本在体细胞变异位点和杂合性缺失变异位点利用费歇尔精准性测试计算的p值;
;
其中a、b、c、d分别表示期望的对照样本参考碱基的读段数、期望的对照样本变异碱基的读段数、肿瘤样本参考碱基的读段数、肿瘤样本变异碱基的读段数;n表示总读段数即a+b+c+d之和;p经过Fisher精确验证计算得到的p概率值;在p值大于0的情况下,特征22采用如下公式计算:
;
特征22式中Int表示取整;
特征24是对p值的格式化转换,输出为科学计数格式。
所述特征22和特征24是对变异位点做的可靠性验证,是在识别到变异位点后进一步验证位点是否真实,能够在初始阶段去除假阳性,对提供本发明最终的检测效果有较大提升作用。
优选地,所述特征27和特征116的值采用如下计算方式计算得到:
特征27=∑(St)
St表示从COSMIC数据库中提取的不同癌症种类的次数。
根据对临床样本分析的经验来看,COSMIC数据库中变异位点注释到的癌症种类次数越多,则该变异位点是真实致病性位点的可能性更高,本发明利用COSMIC注释信息进行数据分组,在测试和评估数据中的效果非常明显,特征27的重要性也非常靠前。
特征116=∑(Si)
Si表示从COSMIC数据库中提取的在癌症中发生的次数。
特征116与特征27的原理类似,在COSMIC数据库中的记录次数也直接影响到位点真实性,因此作为特征值进行数据评估,其可靠性也很靠前。
优选地,所述特征80和特征93的值从比对结果文件中获得,再采用如下计算方式计算平均值:
特征80=∑(MAQi)
特征93=∑(MAQi)
MAQi表示从覆盖该变异位点的读段的比对质量值。
优选地,所述特征81和特征82的值采用如下计算方式计算得到:
特征81=(alt_plus -alt_minus)2/(alt_plus+alt_minus)
特征82=(alt_plus-alt_minus)2/(alt_plus+alt_minus)
其中,alt_plus表示变异碱基或其他碱基在正链的读段数,alt_minus表示变异碱基或其他碱基在负链的变异数,如果链偏好性较小,则特征81接近于0,否则数值大小反应了链偏好性的程度。这是另一种反应链偏好性的方法,因为链偏好性的变异位点在叫容易出现且大多是假阳性,会影响到最终的解读,因此使用多种算法识别链偏好性能够提升本发明的准确度。
优选地,所述特征83和特征96值采用如下计算方式计算得到:
;
其中i表示一条覆盖到该变异位点的读段,n表示覆盖该变异位点的总读段数,Ri表示变异位点在读段中的位置数,Li表示这条读段的长度;特征96的计算方式同特征83。
本发明充分挖掘每个变异位点的各种特征,该特征值是从变异位点在读段中的位置出发进行评估真实性,因为越靠近两端的变异位点也可能是测序错误导致,一般认为靠近读段中部的变异位点更加真实,因此该方法也能够比较有效的识别出假阳性位点。
优选地,所述模型构建单元中,将模型数据集分为训练集和测试集,对训练集进行随机森林建模,使用测试集对模型进行评估。
第二方面,本发明提供第一方面所述的快速识别药物标识位点的系统在制备肿瘤检测的产品中的应用。
第三方面,本发明提供一种计算机可读存储介质,所述介质上存储有程序,所述程序被处理器执行时,用于实现第一方面所述的快速识别药物标识位点的系统中的程序。
第四方面,本发明提供一种计算设备,包括至少一个处理器、存储器、及至少一个程序,其中程序存储在所述存储器中并被配置为所述处理器执行,所述程序包括用于执行第一方面所述的快速识别药物标识位点的系统的程序。
本发明所述的数值范围不仅包括上述列举的点值,还包括没有列举出的上述数值范围之间的任意的点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。
相对于现有技术,本发明具有以下有益效果:
本发明提供了一种协助医学解读人员快速识别有用药指导变异位点的方法,通过优化生物信息学算法,在待测样本完成正常的生物信息分析流程后,使用随机森林方法构建算法模型,由于模型构建时创新性地运用了一系列有效的特征值,能够高效的从大量的假阳性位点中识别出与患者疾病相关的变异位点,并且本发明使用的测试集都经过人工审核,每个阳性变异位点都是经过人工确认且可以用药的,每个阴性位点都确认不是与患者疾病相关的。本发明的最终结果是能够根据NGS测序结果报告有药物相关的致病性位点及提示对应可用的药物。
附图说明
图1是快速识别药物标识位点的方法的流程图。
图2是主要特征值贡献度排名。
图3是参数N估计值的学习曲线图。
图4是参数最大深度的学习曲线图。
图5是参数最小样本叶子数的学习曲线图。
图6是参数最小样本分割数的学习曲线图。
图7是评估模型的灵敏度和特异性。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1 一种快速识别药物标识位点的方法
本实施例使用靶向捕获测序试剂盒(多基因组合)的数据,进行二代双端测序后进行常规生物信息学分析,由下机的FASTQ数据得到比对的BAM文件和变异检测的VCF文件,然后注释相关的人群频率数据库信息和基因功能区域,最终利用SNP(单核苷酸多态性)和InDel(插入缺失)这2种变异位点构建模型。具体方案流程图1如下。
使用测试数据对所述方法进行说明:
1、测序数据基础分析、变异位点检测、人工筛选有药物关联的变异位点作为阳性位点。
选择合适的阳性位点是构建模型的重要一步,本实施例的前期基于基因组合检测了大量的待测样本,这些样本的疾病包含了膀胱癌、胆囊癌、肺癌、肝癌、甲状腺癌、卵巢癌、前列腺癌、乳腺癌、食管癌、胃癌和子宫癌等,每个样本的变异位点都是经过人工审核确认,对于是与患者疾病关联的变异位点,会根据数据库关联到对应的药物,经过对427个待测样本的过滤前的8412472个位点的分析和提取后,最终筛选出3597个有变异位点、疾病、药物关联的位点作为阳性位点。
2、测序数据基础分析、变异位点检测、人工筛选有药物关联的变异位点作为阴性位点。
同理,在前期的待测样本中也有一部分是正常健康人,这些也是经过人工审查确认的,这些样本检测到的变异位点均可以作为阴性位点使用;同时,有疾病的测试样本中的非阳性位点,也可以作为阴性位点使用。
3、去除假阳性位点、筛选构建模型的位点。
本实施例最初从测试样本中共提取了过滤前的8412472个位点,其中含有大量的假阳性位点,这些位点对后期的模型构建有很强的干扰性,而且数据量太大,构建算法模型以及模型评估都会耗费很多资源和时间,因此有必要在前期初步排除掉较为明显的假阳性位点。本实施例采取的一些过滤指标能够去掉假阳性位点的同时,还能保证真阳性位点存在,具体过滤指标如下:
3.1 注释变异位点的功能区域后,去除内含子区、基因间区、非编码RNA内含子区的位点,这些区域的位点很少能够与数据库中已记录的疾病关联;
3.2 注释CLINVAR数据库信息后,去除在CLINVAR数据库中标记为影响、关联、良性、良性/疑似良性、疑似良性、无注释、其他、保护、风险因子、对致病性解释相互矛盾、可能为良性/药物反应/其他、可能良性/其他字符的变异位点;此外,INTERVAR软件注释为良性、疑似良性的位点也去除;
3.3 注释人群频率,去除东亚人群频率高于0.0008、非癌症人群频率高于0.0023、对照人群频率高于0.0008、esp6500siv2项目频率高于0.005的位点;
3.4 根据变异位点的测序深度、变异频率进行过滤;
本发明中针对变异位点的过滤指标是:对照样本的测序深度>=50X、肿瘤样本的测序深度>=90X、肿瘤样本的变异碱基的读段数>=4条、肿瘤样本的变异频率>=0.01;初步基于上述指标过滤后筛选的变异位点,包括了前期经过人工审核确定为阳性的位点。
4、模型特征值选择、特征值计算、数据转换。
先使用了常规的Annovar软件注释的频率信息,该软件注释了包含变异位点的突变类型、变异碱基的功能区域、cDNA和氨基酸的变异方式、相关的人群频率如东亚人群频率、千人基因组数据库人群频率、gnomad数据库人群频率、蛋白质变异数据库信息、致病性注释等,还使用了本实施例创建的特征值,这些特征值对于模型的贡献度比常规的频率信息要高;在数据处理方面,某些非数值型的特征进行了数值转换,某些缺省值根据数据类型和特征进行了填充,某些无用的特征被去除掉。
4.1 对部分非字符型特征值的数值转换,包括:
① 对基因型的转换,包括'0/0':'0','0/1':'1','1/1':'11'等的转换,即'0/0':'0'表示将纯合野生型基因型转换为数字0,'0/1':'1'表示将杂合变异转换为数字1,'1/1':'11'表示将纯合突变型基因型转换为数字11。
② 对基因功能区域的转换,包括'下游': '1','外显子区': '2','外显子区;剪接区': '3', '基因间区': '5', '内含子区': '6','非编码RNA区_外显子区': '7','非编码RNA区_外显子区;剪接区': '8','非编码RNA区_内含子区': '9','非编码RNA区_剪接区': '10','剪接区': '11','上游区': '12','上游区;下游区': '13','3端非翻译区':'14',' 5端非翻译区': '15'等的转换,转换的含义同上上述的方式。
③ 对蛋白变异类型的转换,包括'未注释': '0','移码_缺失': '2','移码_插入': '3','非移码_缺失': '4','非移码_插入': '5','非同义_单核苷酸多态性变异': '6','终止密码子获得': '7','终止密码子缺失': '8','同义_单核苷酸多态性变异': '9','未知变异': '10'等的转换,转换的含义同上上述的方式。
④对CLINVAR和INTERVAR中致病类型的数值转换。
4.2 本实施例设计的特征值,包括:
(1)特征2和特征3:该特征值分别是对照样本测序深度和对照样本参考碱基读段数,在完成生信分析后,可以从变异检测结果文件中根据格式列的指示提取相应的值。
(2)特征6、特征7、特征15、特征16、特征17、特征18:该特征值分别是对照样本参考碱基正链上的读段数、对照样本参考碱基负链上的读段数、肿瘤样本参考碱基正链上的读段数、肿瘤样本参考碱基负链上的读段数、肿瘤样本变异碱基正链上的读段数、肿瘤样本变异碱基负链上的读段数,在完成生信分析后,可以从变异检测结果文件中根据头部注释信息从信息列中提取。
(3)特征11、特征12、特征13、特征14:特征值分别是肿瘤样本测序深度、肿瘤样本参考碱基读段数、肿瘤样本变异碱基读段数、肿瘤样本变异频率,在完成生信分析后,可以从变异检测结果文件中根据格式列的指示提取相应的值。
(4)特征19:根据变异碱基的正负链读段数反应链偏好性,其原因一般由于序列特征导致的互补配对的特异性和结合效率的差异以及PCR过程的偏好性,如果某个变异位点的链偏好性较强,比对到正链和负链数据量显著不一致,在极端情况下,所有的读段都比对到一条链,导致另一条链完全没有覆盖,这种变异位点在评估真实性时具有很大的干扰,因此链偏好性是能够反映变异真实性的特征,本发明中使用了2种方式计算链偏好性,其中,特征19的计算方式是:
;
其中,Falt和Ralt分别表示变异碱基比对到正链和负链的读段数,F和R分别表示在该位点上正链和负链的总读段数,计算结果中,如果特征19的值接近于0,则偏好性低。
(5)特征20:该特征值表示利用本发明设置的一些过滤指标对比对结果文件BAM进行过滤后做变异检测,在变异位点上的高质量碱基的测序深度。
(6)特征22和特征24:该特征值分别表示根据体细胞变异位点的p值利用Phred方式计算的体细胞分值和对照样本和肿瘤样本在体细胞变异位点和杂合性缺失变异位点利用费歇尔精准性测试计算的p值:
;
其中a、b、c、d分别表示期望的对照样本参考碱基的读段数、期望的对照样本变异碱基的读段数、肿瘤样本参考碱基的读段数、肿瘤样本变异碱基的读段数;n表示总读段数即a+b+c+d之和;p经过Fisher精确验证计算得到的p概率值;在p值大于0的情况下:
;
特征22式中Int表示取整;
特征24是对p值的格式化转换,输出为科学计数格式。
(7)特征26:变异位点所属的变异类型,如移码缺失、移码插入、非移码缺失、非移码插入、终止密码子缺失、终止密码子获得、同义突变等,该特征值可以从变异检测文件中根据信息列的标签提取。
(8)特征27和特征116:该特征值是根据COSMIC数据库创建,该数据库较全面记录了已知癌症和临床上与疾病相关的基因信息,本发明提取了数据库中变异位点对应的癌症发生种类和记录的频次,并计算频次加和发生癌症的种类数,计算公式是:
特征27=∑(St)
St表示从COSMIC数据库中提取的不同癌症种类的次数;
特征116=∑(Si)
Si表示从COSMIC数据库中提取的在癌症中发生的次数;
(9)特征28:该特征值是变异位点在CLINVAR数据库中致病性的注释,主要包含了良性、疑似良性、致病、疑似致病、与致病性冲突、意义不明确、其他等类型,该特征值可以使用ANNOVAR软件注释后,从变异检测文件中根据信息列的标签提取。
(10)特征45:该特征值是频率数据库中注释为亚洲人群的人群频率值。
(11)特征77:该特征值是肿瘤样本其他碱基读段数。
(12)特征79:该特征值是肿瘤样本参考碱基的碱基质量值,通过碱基质量判断变异是否可靠,可以从比对结果文件中提取。
(13)特征80和特征93:该特征值分别是肿瘤样本参考碱基的单端读段的平均比对质量值和肿瘤样本变异碱基的单端读段的平均比对质量值,根据碱基的坐标从比对结果文件中提取出覆盖变异位点的读段,计算这些读段的平均比对质量值:
特征80=∑(MAQi)
特征93=∑(MAQi)
MAQi表示从覆盖该变异位点的读段的比对质量值。
(14)特征81和特征82:该特征值利用变异位点的正负链的读段数反映链偏好性,是本发明统计链偏好性的第二种方式,其计算方式为:
特征81=(alt_plus-alt_minus)2/(alt_plus+alt_minus)
特征82=(alt_plus-alt_minus)2/(alt_plus+alt_minus)
其中alt_plus表示变异碱基在正链的读段数,alt_minus表示变异碱基在负链的变异数,如果链偏好性较小,则特征81接近于0,否则数值大小反应了链偏好性的程度;
特征82是肿瘤样本其他碱基的正链和负链读段数,反映变异位点可靠性。
(15)特征83和特征96:该特征值分别表示在变异位点上,肿瘤样本参考碱基在单端读段上的位置比例的平均值、肿瘤样本变异碱基在单端读段上的位置比例的平均值,根据变异位点是否出现在末端判断变异位点的可信度,一般而言,靠近读段末端的变异位点在测序中更可能受到影响而导致错配,计算方式为:
其中i表示一条覆盖到该变异位点的读段,n表示覆盖该变异位点的总读段数,Ri表示变异位点在读段中的位置数,Li表示这条读段的长度;特征96的计算方式同特征83。
(16)特征85和特征98:表示肿瘤样本参考碱基读段中的错配碱基质量值总和、肿瘤样本变异碱基读段中的错配碱基质量值总和,该特征值可以从比对结果文件中根据变异位点坐标提取读段后再提取该读段上的错配碱基。
(17)特征86、特征87和特征99:该特征值表示肿瘤样本参考碱基的单端读段中P质量值是2的读段s数、肿瘤样本参考碱基的读段中P质量值是2的读段距离变异位点起始端的平均距离、肿瘤样本变异碱基的单端读段中P质量值是2的读段s数,可从比对结果文件中提取。
(18)特征88和特征101:该特征值是肿瘤样本参考碱基平均减掉的碱基数、肿瘤样本变异碱基平均减掉的碱基数,反映是否发生软剪接/硬剪接的片段过长。
(19)特征89:该特征值是肿瘤样本参考碱基到3'端引物末端的平均距离,读段末端的变异位点相较于读段中部而言,其更有可能是测序错误导致。
(20)特征90:该特征值是频率数据库中注释为东亚人群的人群频率值。
(21)特征92:该特征值是肿瘤样本变异碱基的碱基质量值,通过碱基质量判断变异是否可靠。
(22)特征94和特征95:该特征值是频率数据库中注释为对照_东亚人群的人群频率值、频率数据库中注释为esp6500siv2人群的人群频率值。
(23)特征105:该特征值是肿瘤样本其他碱基错配的读段数,错配碱基越多则该区域的比对可靠性偏低,因此检测到的变异位点要仔细确认。
(24)特征109:该特征值是肿瘤样本其他碱基读段中的错配碱基质量值总和,可以统计该变异位点的各个变异碱基的读段数后计算而得。
表1为特征值名称和用途。
表1
/>
4.3 其他特征值是注释软件提供的人群频率、变异位点的突变类型等信息。
4.4 特征值贡献度如图2所示。
本实施例总共使用了43个特征值,表1和图2中展示了43的特征值,其中除了注释的人群频率数据库外,其他的特征值是本发明基于碱基质量、比对质量、位点的链偏好性、位点距离读段末端距离等能够反应变异位点真实性而设计的,这些特征值的也排名比较靠前。
5、基于随机森林构建生物信息分析流程的模型。
为了从大量的检测位点中快速找到有药物关联的变异位点,指导临床上选择与疾病关联的药物,这一过程本来是需要医学解读人员耗费大量时间通过检索文献数据库信息并逐一排查所有变异位点后才能完成的任务;并且本实施例最终找到的变异位点同时也是致病性位点,属于是分类算法,因此选择随机森林的方法构建模型。
5.1 数据表制备、数据标签分组
本实施例前期使用了427个待测样本的过滤前的8412472个位点,最终筛选出3597个阳性位点,这些位点可以设置为阳性标签;同时经过一系列的过滤指标操作后去除了大量的假阳性并在增加的阴性样本中,保留下的阴性位点,设置为阴性标签。
5.2 模型构建和参数调节
本发明采取了网格法和学习曲线法调参,涉及的参数主要是N估计值(n_estimators)、最大深度(max_depth)、最大特征值数(max_features)、最小样本分割数(min_samples_split)、最小样本叶子数(min_samples_leaf)、标准类(criterion)等,经过多次反复调试,最终确定了每个参数的阈值,参数调节后的准确度基本都能达到约99.5%以上。
图3为参数N估计值的学习曲线图,图中x轴表示N估计值的取值,y轴表示模型准确度,可知随着N估计值的增大,模型的准确度也在增大,但是在0.99450到0.99475范围内波动,因此可以选择一个合适的N估计值如80。
图4为参数最大深度的学习曲线图,图中x轴表示最大深度的取值,y轴表示模型准确度,可知随着最大深度值的增大,模型的准确度也在增大,趋向于0.995,因此可以选择一个合适的最大深度值如40。
图5为参数最小样本叶子数的学习曲线图,本发明根据一般经验设置为2。
图6为参数最小样本分割数的学习曲线图,本发明根据一般经验设置为2。
5.3 模型精准度评估
经过调参后,本实施例构建的模型具有很高的灵敏度和特异性,如图7所示的ROC曲线图,AUC面积高达97.7%,说明模型的精准度非常好。
6、构建的模型应用于新的临床样本评估模型有效性
在完成模型构建后,利用了验证数据进行模型有效性的测试,从而进一步确定该模型对于药物标识位点的识别效果。这批数据使用了372个样本的2343216个位点,结果的准确度高达0.99592。从评估结果可知,模型非常可靠。
综上,本发明提供的快速识别与患者疾病相关的致病性变异位点的方法能够根据该变异位点关联到临床用药指示,能够大大减少需要人工审核每个变异位点的时间,提升了医学解读效率。
申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。
Claims (10)
1.一种快速识别药物标识位点的系统,其特征在于,所述系统包括:
(1)数据收集单元:收集疾病患者和正常样本的基因组合测序数据,筛选阳性位点和阴性位点;
(2)数据筛选单元:特征值设计和数据转换,根据特征值从测试样本中筛选与患者疾病相关的致病性变异位点,作为模型数据集;所述特征值如下所示:
;
(3)模型构建单元:将模型数据集分为训练集和测试集,采用随机森林法构建生物信息分析模型。
2.根据权利要求1所述的快速识别药物标识位点的系统,其特征在于,所述数据收集单元中,与疾病和药物有关联的变异位点作为阳性位点;
与疾病和药物无关联的位点作为阴性位点,含有阴性位点的样本定义为阴性样本。
3.根据权利要求2所述的快速识别药物标识位点的系统,其特征在于,所述数据收集单元中,对阳性位点和非阳性位点以及阴性位点进行筛选,去除假阳性位点。
4.根据权利要求3所述的快速识别药物标识位点的系统,其特征在于,去除假阳性位点的过滤指标包括:
(a)注释变异位点的功能区域后,去除位于内含子区、基因间区和非编码RNA内含子区的变异位点;
(b)去除在CLINVAR数据库中标记为影响、关联、良性、良性/疑似良性、疑似良性、无注释、其他、保护、风险因子、对致病性解释相互矛盾、可能为良性/药物反应/其他、可能良性/其他字符的变异位点;
(c)去除在INTERVAR软件中注释为良性、疑似良性的变异位点;
(d)对变异位点注释人群频率,去除东亚人群频率高于0.0008、非癌症人群频率高于0.0023、对照人群频率高于0.0008、esp6500siv2项目频率高于0.005的变异位点;
(e)根据变异位点的测序深度、变异频率进行过滤。
5.根据权利要求4所述的快速识别药物标识位点的系统,其特征在于,所述根据变异位点的测序深度、变异频率进行过滤的过滤指标包括:
对照样本的测序深度≥50X、肿瘤样本的测序深度≥90X、肿瘤样本的变异碱基的读段数≥4条或肿瘤样本的变异频率≥0.01。
6.根据权利要求5所述的快速识别药物标识位点的系统,其特征在于,所述特征19的值采用如下计算方式计算得到:
;
其中,Falt和Ralt分别表示变异碱基比对到正链和负链的读段数,F和R分别表示在该位点上正链和负链的总读段数,计算结果中,如果特征19的值接近于0,则偏好性低;
所述特征22特征24分别表示根据体细胞变异位点的p值利用Phred方式计算的体细胞分值,和对照样本和肿瘤样本在体细胞变异位点和杂合性缺失变异位点利用费歇尔精准性测试计算的p值:
;
其中a、b、c、d分别表示期望的对照样本参考碱基的读段数、期望的对照样本变异碱基的读段数、肿瘤样本参考碱基的读段数、肿瘤样本变异碱基的读段数;n表示总读段数即a+b+c+d之和;p经过Fisher精确验证计算得到的p概率值;在p值大于0的情况下,特征22采用如下公式计算:
;
特征22式中Int表示取整;
特征24是对p值的格式化转换,输出为科学计数格式;
所述特征27和特征116的值采用如下计算方式计算得到:
特征27=∑(St)
St表示从COSMIC数据库中提取的不同癌症种类的次数;
特征116=∑(Si)
Si表示从COSMIC数据库中提取的在癌症中发生的次数;
所述特征80和特征93的值从比对结果文件中获得,再采用如下计算方式计算平均值:
特征80=∑(MAQi)
特征93=∑(MAQi)
MAQi表示从覆盖该变异位点的读段的比对质量值;
所述特征81和特征82的值采用如下计算方式计算得到:
特征81=(alt_plus-alt_minus)2/(alt_plus +alt_minus)
特征82=(alt_plus -alt_minus)2/(alt_plus+alt_minus)
其中,alt_plus表示变异碱基或其他碱基在正链的读段数,alt_minus表示变异碱基或其他碱基在负链的变异数,如果链偏好性较小,则特征81接近于0,否则数值大小反应了链偏好性的程度;
所述特征83和特征96值采用如下计算方式计算得到:
;
其中i表示一条覆盖到该变异位点的读段,n表示覆盖该变异位点的总读段数,Ri表示变异位点在读段中的位置数,Li表示这条读段的长度;特征96的计算方式同特征83。
7.根据权利要求6所述的快速识别药物标识位点的系统,其特征在于,所述模型构建单元中,将模型数据集分为训练集和测试集,对训练集进行随机森林建模,使用测试集对模型进行评估。
8.权利要求1-7中任一项所述的快速识别药物标识位点的系统在制备肿瘤检测的产品中的应用。
9.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序被处理器执行时,用于实现权利要求1-7中任一项所述的快速识别药物标识位点的系统中的程序。
10.一种计算设备,其特征在于,包括至少一个处理器、存储器、及至少一个程序,其中程序存储在所述存储器中并被配置为所述处理器执行,所述程序包括用于执行权利要求1-7中任一项所述的快速识别药物标识位点的系统的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410052476.3A CN117577182B (zh) | 2024-01-15 | 2024-01-15 | 一种快速识别药物标识位点的系统及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410052476.3A CN117577182B (zh) | 2024-01-15 | 2024-01-15 | 一种快速识别药物标识位点的系统及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117577182A CN117577182A (zh) | 2024-02-20 |
CN117577182B true CN117577182B (zh) | 2024-04-02 |
Family
ID=89864662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410052476.3A Active CN117577182B (zh) | 2024-01-15 | 2024-01-15 | 一种快速识别药物标识位点的系统及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117577182B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111304308A (zh) * | 2020-03-02 | 2020-06-19 | 北京泛生子基因科技有限公司 | 一种审核高通量测序基因变异检测结果的方法 |
CN116825192A (zh) * | 2023-06-02 | 2023-09-29 | 香港大学深圳医院 | 一种ncRNA基因突变的解读方法、存储介质及终端 |
CN117219166A (zh) * | 2023-09-12 | 2023-12-12 | 上海谱希和光基因科技有限公司 | 一种高度近视致病变异体的筛选方法、系统及设备 |
-
2024
- 2024-01-15 CN CN202410052476.3A patent/CN117577182B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111304308A (zh) * | 2020-03-02 | 2020-06-19 | 北京泛生子基因科技有限公司 | 一种审核高通量测序基因变异检测结果的方法 |
CN116825192A (zh) * | 2023-06-02 | 2023-09-29 | 香港大学深圳医院 | 一种ncRNA基因突变的解读方法、存储介质及终端 |
CN117219166A (zh) * | 2023-09-12 | 2023-12-12 | 上海谱希和光基因科技有限公司 | 一种高度近视致病变异体的筛选方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117577182A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033749B (zh) | 一种肿瘤突变负荷检测方法、装置和存储介质 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
JP2019531700A5 (zh) | ||
CN106909806A (zh) | 定点检测变异的方法和装置 | |
CN110010193A (zh) | 一种基于混合策略的复杂结构变异检测方法 | |
CN113035273B (zh) | 一种快速、超高灵敏度的dna融合基因检测方法 | |
CN111326212B (zh) | 一种结构变异的检测方法 | |
CN111584006B (zh) | 基于机器学习策略的环形rna识别方法 | |
CN110621785B (zh) | 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置 | |
CN115083521B (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
CN113838533B (zh) | 一种癌症检测模型及其构建方法和试剂盒 | |
CN115052994A (zh) | 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用 | |
US20210407623A1 (en) | Determining tumor fraction for a sample based on methyl binding domain calibration data | |
CN108559777B (zh) | 一种新型分子标记及其在制备用于肾透明细胞癌诊断和预后的试剂盒中的应用 | |
CN114694750A (zh) | 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法 | |
CN115132274A (zh) | 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置 | |
CN113278706B (zh) | 一种用于区分体细胞突变和种系突变的方法 | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
CN111696622B (zh) | 一种校正和评估变异检测软件检测结果的方法 | |
CN112837748A (zh) | 一种区分不同解剖学起源肿瘤的系统及其方法 | |
CN117577182B (zh) | 一种快速识别药物标识位点的系统及其应用 | |
CN114730610A (zh) | 试剂盒和使用试剂盒的方法 | |
CN114067908B (zh) | 一种评估单样本同源重组缺陷的方法、装置和存储介质 | |
KR20140099189A (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
WO2023184330A1 (zh) | 基因组甲基化测序数据的处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |