CN109943635A - 一种用于flt3-itd定量检测的装置 - Google Patents
一种用于flt3-itd定量检测的装置 Download PDFInfo
- Publication number
- CN109943635A CN109943635A CN201810255516.9A CN201810255516A CN109943635A CN 109943635 A CN109943635 A CN 109943635A CN 201810255516 A CN201810255516 A CN 201810255516A CN 109943635 A CN109943635 A CN 109943635A
- Authority
- CN
- China
- Prior art keywords
- itd
- flt3
- quantitative
- result
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Organic Chemistry (AREA)
- Pathology (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Wood Science & Technology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Oncology (AREA)
- General Engineering & Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种用于FLT3‑ITD定量检测的装置。该装置包括:数据获取模块、数据前期处理模块、定量计算模块以及检测结果输出模块。
Description
技术领域
本发明涉及基因突变检测领域,具体涉及一种用于FLT3-ITD定量检测的装置。
背景技术
随着二代测序技术的快速发展,并逐渐应用于癌症方向的科学研究及临床检测,我们对癌症的生发发展、临床表现及发病机理有了全新的认识。大量研究表明,癌症的产生是与体细胞突变密切相关,并且这种突变往往仅出现在某一种肿瘤的亚克隆之中。亚克隆突变的研究为疾病病程发展及预后分层提供了新的方向。
高深度的二代测序技术可以检测亚克隆变异。利用目标序列捕获测序技术对基因组特定区域进行测序,可以做到高深度低成本,因此可以积累大量的样本,为精确估计基因组特定位点的假阳性率分布提供了有利条件。
急性髓细胞白血病(AML)中FLT3基因突变的最常见类型为内部串联重复突变(internal tandem duplication ITD),其次为酪氨酸激酶结构域点突变(Tyrosine-kinase domain TKD)。FLT3-ITD常累及外显子14和15或者11和/或12,AML患者在FLT3近膜区(JM)常存在内部串联重复序列(ITDs),即以首尾相接的顺序插入若干个复制的核苷酸,为不定数量的碱基的复制,通常为3的倍数,因此读码框保持完整,使JM区延长,而其他结构域不受影响。这些突变在AML的发病机制中起重要的作用。AML患者中FLT3-ITD的发生率在成人约24%,儿童约10%~15%,继发性AML中约15%。2016年NCCN《急性髓细胞白血病临床实践指南》指出正常核型的患者出现FLT3-ITD突变,其预后明显不佳,属于高危组;在复发难治AML患者的治疗中提到,出现FLT3-ITD突变的患者可考虑使用去甲基化药物(5-氮杂胞苷5-azacytidine或地西他滨decitabine)加索拉非尼sorafenib的方案[NCCN-AML]。所以FLT3-ITD的定量检测对于AML病人至关重要。
目前主流的FLT3-ITD检测方法是基于cDNA的PCR扩增方法。这种检测方法的局限性在于,只能进行定量的检测,而无法同时获取到ITD发生的位置及序列信息。如果需要获取序列信息只能借助于1代sanger测序,而且还只限于ITD的定量在10%以上才能检出。也就是说,对于低频的ITD,只能获得定量信息,无法获得序列信息及位置信息。
另一种FLT3-ITD检测方法是直接利用NGS测序,再根据算法检测ITD(例如PINDEL)。该检测方法基于目标区域捕获的高深度测序,利用捕获的目标区域的信息来实现。由于捕获过程中可能对发生ITD的片段造成捕获缺失,从而导致目前的任何完全基于NGS测序算法(Pindel等),都只适合做定性分析,而无法获得准确的定量结果。此外,该方法还存在以下不可避免的内在局限性:1、由于ITD的模版序列与正常的基因组差异较大,对捕获影响较大,可能较高比例的ITD经过捕获后只存在有限的突变支持read,不好判断真假;2、同样由于捕获的差异,使得最终获得的ITD只能是定性的结果,而无法获取准确的定量结果。
而且,目前医疗检测领域更加倾向于对于一个AML患者使用一种检测方法获得该患者的更加详尽的信息。这一点NGS完全满足要求,只抽一次血,就可以完成基因SNV、CNV、INDEL及ITD的检测。因此,迫切需要开发出新的算法,使得能够基于NGS进行FLT3-ITD的定量检测。
参考文献
1:http://journal.9med.net/html/qikan/yxxytzyx/xnjy/20123142/lcyjyjz/20120508085412484_568225.html
2:http://www.bloodjournal.org/content/128/22/1682?sso-checked=true
3:Assessing clonal diversity in acute myeloid leukemia
4:https://www.ncbi.nlm.nih.gov/pubmed/19561018
发明内容
本发明所要解决的技术问题
鉴于现有技术中存在的上述问题,本发明开发了一种FLT3-ITD检测方法及检测装置——我们收集大量的FLT3-ITD阳性样本进行双平台试验,通过基于PCR扩增-毛细管电泳的方法来定量,根据ITD的长度来对应NGS平台的检测结果。然后通过有监督的机器学习算法,以这些样本为训练集进行训练,最终获得一个可以直接预测FLT3-ITD定量结果的基于NGS数据的模型,实现了通过NGS定量检测FLT3-ITD的目的。也就是说,本发明基于大量验证样本,筛选与FLT3-ITD定量相关特征,并进行模型训练,从而获得一个可以从大量特征中确定样本真实的FLT3-ITD定量的模型。
即,本发明包括:
1.一种用于FLT3-ITD定量检测的装置,其包括:
数据获取模块,用于获取待测样本的NGS数据,所述NGS数据是对FLT3基因的外显子区域进行目标捕获、再利用高通量测序仪测序并经过数据转化而得到的fastq数据;
数据前期处理模块,其与所述数据获取模块相连接,用于对获取的NGS数据进行前期处理,得到FLT3基因的特定区域的ITD信息,所述信息包括FLT3-ITD的多个特征;
定量计算模块,其与所述数据前期处理模块相连接,用于基于得到的所述ITD信息计算得到FLT3-ITD定量值;以及
检测结果输出模块,其与所述定量计算模块相连接,用于输出所述FLT3-ITD定量值作为FLT3-ITD定量检测结果。
2.根据项1所述的装置,其中,所述定量计算模块根据下述式(1)计算所述FLT3-ITD定量值;
该式(1)中,表示FLT3-ITD定量值,w0~n表示系数,x0~n表示特征值。
3.根据项2所述的装置,其中,所述系数w0~n如下确定:
对于已知信息及定量的具有FLT3-ITD的样本(即,既有NGS结果也有毛细管电泳定量结果的FLT3-ITD样本),将其随机分成十份,使用其中9份样本的NGS信息做训练,提供所述w0~n;
剩下1份样本的NGS信息做测试,用于将通过式(1)计算得到的FLT3-ITD定量值与该样本的真实FLT3-ITD定量值进行比较,如果比较结果是符合要求,则确定所述w0~n值,如果比较结果是不符合要求,则调整所述式(1)中的采用的特征x,重新提供和确定所述w0~n。
4.根据项3所述的装置,其中,通过下述式(2)评价所述比较结果是否符合要求:
该式(2)中,yi表示真实的定量结果,表示预测出的结果,表示真实定量结果的均值;
如果R2大于等于0.9,则评价为比较结果符合要求,如果R2小于0.9,则评价为比较结果不符合要求。
5.根据项1~4中任一项所述的装置,其中,所述FLT3-ITD的多个特征包括:发生ITD的位置、ITD的长度、ITD序列特征(序列复杂度/GC含量)、ITD发生位置前后序列特征(序列复杂度/GC含量)、特殊序列序列特征(序列复杂度)。这里,序列复杂度可以利用blast软件来进行评估(不同参数)。
6.根据项1~5中任一项所述的装置,其中,所述FLT3-ITD的多个特征为500~2000个(例如约1500个)特征。
附图说明
图1为显示本发明的用于FLT3-ITD定量检测的装置的结构的模式图。
发明的具体实施方式
本说明书中提及的科技术语具有与本领域技术人员通常理解的含义相同的含义,如有冲突以本说明书中的定义为准。
一般而言,本说明书中采用的术语具有如下含义。
机器学习:机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
特征:构建机器学习模型时,用以获得最终结果的变量。
目标序列捕获测序:是将感兴趣的基因组区域定制成特异性探针与基因组DNA在序列捕获芯片(或溶液)进行杂交,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。
ITD:内部串联重复突变(internal tandem duplication ITD)
实施例
以下给出实施例,对本发明进行更具体的说明,但本发明不限于这些实施例。
1:获取样本NGS数据,格式为fastq文件。
2:经过数据前期处理模块,获得特征,这些特征包括但不仅包括:插入片段长度,插入片段复杂度,插入片段read支持数,插入片段位置,插入片段深度。
3:经过定量计算模块获得结果,由检测结果输出模块输出,例如:
第一项及第二项为ITD发生在基因组的绝对位置,第三项为ITD的长度,第四项为ITD的插入序列,第五项为ITD的插入类型,最后一项为定量计算结果(ITD的定量结果为8.09%)。
工业实用性
根据本发明,提供了一种能够在获取FLT3-ITD信息的同时进行FLT3-ITD定量的基于NGS的FLT3-ITD检测装置及检测方法。
Claims (6)
1.一种用于FLT3-ITD定量检测的装置,其包括:
数据获取模块,用于获取待测样本的NGS数据,所述NGS数据是对FLT3基因的外显子区域进行目标捕获、再利用高通量测序仪测序并经过数据转化而得到的fastq数据;
数据前期处理模块,其与所述数据获取模块相连接,用于对获取的NGS数据进行前期处理,得到FLT3基因的特定区域的ITD信息,所述信息包括FLT3-ITD的多个特征;
定量计算模块,其与所述数据前期处理模块相连接,用于基于得到的所述ITD信息计算得到FLT3-ITD定量值;以及
检测结果输出模块,其与所述定量计算模块相连接,用于输出所述FLT3-ITD定量值作为FLT3-ITD定量检测结果。
2.根据权利要求1所述的装置,其中,所述定量计算模块根据下述式(1)计算所述FLT3-ITD定量值;
该式(1)中,表示FLT3-ITD定量值,w0~n表示系数,x0~n表示特征值。
3.根据权利要求2所述的装置,其中,所述系数w0~n如下确定:
对于已知信息及定量的具有FLT3-ITD的样本(即,既有NGS结果也有毛细管电泳定量结果的FLT3-ITD样本),将其随机分成十份,使用其中9份样本的NGS信息做训练,提供所述w0~n;
剩下1份样本的NGS信息做测试,用于将通过式(1)计算得到的FLT3-ITD定量值与该样本的真实FLT3-ITD定量值进行比较,如果比较结果是符合要求,则确定所述w0~n值,如果比较结果是不符合要求,则调整所述式(1)中的采用的特征x,重新提供和确定所述w0~n。
4.根据权利要求3所述的装置,其中,通过下述式(2)评价所述比较结果是否符合要求:
该式(2)中,yi表示真实的定量结果,表示预测出的结果,表示真实定量结果的均值;
如果R2大于等于0.9,则评价为比较结果符合要求,如果R2小于0.9,则评价为比较结果不符合要求。
5.根据权利要求1所述的装置,其中,所述FLT3-ITD的多个特征包括:发生ITD的位置、ITD的长度、ITD序列特征、ITD发生位置前后序列特征、特殊序列序列特征(序列复杂度)。
6.根据权利要求1所述的装置,其中,所述FLT3-ITD的多个特征为500~2000个特征。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017113958277 | 2017-12-21 | ||
CN201711395827 | 2017-12-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109943635A true CN109943635A (zh) | 2019-06-28 |
Family
ID=66994429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810255516.9A Pending CN109943635A (zh) | 2017-12-21 | 2018-03-27 | 一种用于flt3-itd定量检测的装置 |
Country Status (4)
Country | Link |
---|---|
CN (1) | CN109943635A (zh) |
AU (2) | AU2018391843B2 (zh) |
NZ (1) | NZ766350A (zh) |
WO (1) | WO2019120254A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424664B (zh) * | 2022-11-07 | 2023-03-10 | 北京雅康博生物科技有限公司 | 人为突变程度评估方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101560564A (zh) * | 2009-04-08 | 2009-10-21 | 北京华生恒业科技有限公司 | 一种检测装置及系统 |
CN105331606A (zh) * | 2014-08-12 | 2016-02-17 | 焦少灼 | 应用于高通量测序的核酸分子定量方法 |
EP3601590A1 (en) * | 2017-03-21 | 2020-02-05 | Sequencing Multiplex SL | Easy one-step amplification and labeling (eosal) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040024532A1 (en) * | 2002-07-30 | 2004-02-05 | Robert Kincaid | Method of identifying trends, correlations, and similarities among diverse biological data sets and systems for facilitating identification |
CN105969856B (zh) * | 2016-05-13 | 2019-11-12 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测方法 |
CN106845155B (zh) * | 2016-12-29 | 2021-11-16 | 安诺优达基因科技(北京)有限公司 | 一种用于检测内部串联重复的装置 |
-
2018
- 2018-03-27 CN CN201810255516.9A patent/CN109943635A/zh active Pending
- 2018-12-20 NZ NZ766350A patent/NZ766350A/en unknown
- 2018-12-20 AU AU2018391843A patent/AU2018391843B2/en active Active
- 2018-12-20 WO PCT/CN2018/122394 patent/WO2019120254A1/zh active Application Filing
-
2022
- 2022-08-18 AU AU2022218581A patent/AU2022218581B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101560564A (zh) * | 2009-04-08 | 2009-10-21 | 北京华生恒业科技有限公司 | 一种检测装置及系统 |
CN105331606A (zh) * | 2014-08-12 | 2016-02-17 | 焦少灼 | 应用于高通量测序的核酸分子定量方法 |
EP3601590A1 (en) * | 2017-03-21 | 2020-02-05 | Sequencing Multiplex SL | Easy one-step amplification and labeling (eosal) |
Also Published As
Publication number | Publication date |
---|---|
AU2022218581A1 (en) | 2022-09-15 |
WO2019120254A1 (zh) | 2019-06-27 |
AU2018391843A1 (en) | 2020-08-06 |
NZ766350A (en) | 2022-05-27 |
AU2018391843B2 (en) | 2022-07-07 |
AU2022218581B2 (en) | 2023-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fariello et al. | Accounting for linkage disequilibrium in genome scans for selection without individual genotypes: the local score approach | |
Iacucci et al. | Artificial intelligence enabled histological prediction of remission or activity and clinical outcomes in ulcerative colitis | |
CN111739641A (zh) | 一种胃癌风险预测方法、系统、计算机设备及可读存储介质 | |
CN108256292A (zh) | 一种拷贝数变异检测装置 | |
CN114283890B (zh) | 一种基于瘤胃球菌微生物群的疾病风险预测装置 | |
Urioste et al. | Phenotypic and genetic characterization of novel somatic cell count traits from weekly or monthly observations | |
CN112634987B (zh) | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 | |
CN110268072A (zh) | 确定旁系同源基因的方法和系统 | |
CN111370059A (zh) | 一种肿瘤突变负荷的预测系统及方法 | |
CN110060733A (zh) | 基于单样本的二代测序肿瘤体细胞变异检测装置 | |
CN115691813A (zh) | 基于基因组学和微生物组学的遗传性胃癌评估方法及系统 | |
WO2018137496A1 (zh) | 确定生物样本中预定来源的游离核酸比例的方法及装置 | |
CN113380396A (zh) | 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 | |
CN109943635A (zh) | 一种用于flt3-itd定量检测的装置 | |
Schäfer et al. | Integrative analyses for omics data: a Bayesian mixture model to assess the concordance of ChIP-chip and ChIP-seq measurements | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
CN116364179A (zh) | 结直肠癌预后标志物筛选系统及方法、结直肠癌预后风险评估系统 | |
CN111192244B (zh) | 一种基于关键点确定舌部特征的方法及系统 | |
CN113159529A (zh) | 一种肠道息肉的风险评估模型及相关系统 | |
Williams et al. | Inter-and intra-day comparisons of smartphone-derived heart rate variability across resistance training overload and taper microcycles | |
CN113314211A (zh) | 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 | |
CN111583992A (zh) | Rna水平融合基因突变导致肿瘤的负荷分析系统和方法 | |
Ahern | Pharmacoepidemiology in pharmacogenetics | |
CN116453594B (zh) | 基因共表达状态的量化分析方法及装置、设备和介质 | |
CN105243294B (zh) | 一种用于预测癌症病人预后相关的蛋白质对的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |