CN107267646A - 一种基于下一代测序的多基因融合检测方法 - Google Patents

一种基于下一代测序的多基因融合检测方法 Download PDF

Info

Publication number
CN107267646A
CN107267646A CN201710650048.0A CN201710650048A CN107267646A CN 107267646 A CN107267646 A CN 107267646A CN 201710650048 A CN201710650048 A CN 201710650048A CN 107267646 A CN107267646 A CN 107267646A
Authority
CN
China
Prior art keywords
polygenes
fusion
detection method
sequencing
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710650048.0A
Other languages
English (en)
Inventor
郑灏
邓杏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guosheng Medical Technology Co Ltd
Original Assignee
Guangdong Guosheng Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guosheng Medical Technology Co Ltd filed Critical Guangdong Guosheng Medical Technology Co Ltd
Priority to CN201710650048.0A priority Critical patent/CN107267646A/zh
Publication of CN107267646A publication Critical patent/CN107267646A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种新的多基因融合嵌合转录物的基因伙伴和断点检测方法MF‑PE,属于基因检测技术领域,该方法基于下一代测序双端读长(Paired End Read)和机器学习序列比对进行多基因融合检测,从而进一步为临床检测癌症提供判断依据。本发明提供的检测方法具有高敏感度和阳性预测值,非常适合用cfDNA的嵌合转录物的基因伙伴和断点检测。

Description

一种基于下一代测序的多基因融合检测方法
技术领域
本发明属于基因检测技术领域,尤其涉及一种基于下一代测序的多基因融合检测方法。
背景技术
嵌合转录物是一些类型癌症(比如肺癌)的标记物,它是由两个以上不相关的基因嵌合产生的一种基因组重组排列的产物,具有新型的功能或与两个融合前基因不同的功能,在基于下一代测序技术的肿瘤检测应用中尤为重要。随着近几年来下一代测序技术的飞速进步,液态活检技术在临床上得到前所未有的青睐,在未来有着巨大的转化医学潜力。从血浆游离DNA(cfDNA)中检测出循环肿瘤DNA是一种相对无创的液体活检方式,基于cfDNA下一代测序数据的嵌合转录物的基因伙伴和断点检测方法是癌症早期检测的关键技术之一。
发明内容
基于现有技术存在的情况,本发明提供一种新的多基因融合嵌合转录物的基因伙伴和断点检测方法MF-PE,该方法基于下一代测序双端读长(Paired End Read)和机器学习序列比对进行多基因融合检测,从而进一步为临床检测癌症提供判断依据。本发明提供的检测方法具有高敏感度和阳性预测值,非常适合用cfDNA的嵌合转录物的基因伙伴和断点检测。
本发明通过以下技术方案达到目的:
一种基于下一代测序的多基因融合检测方法,其包括如下步骤:
步骤S10预处理和映射:将经过测序的原始序列数据通过脚本程序去除低质量读和重复读,再通过按碱基逐一比对对双端序列的计算融合度能量值,使用BWM MEM算法将原始双端读长序列映射到参考序列;
步骤S20建立候选多基因融合数据库:将候选多基因融合,通过程序算法过滤嵌合转录物的高度同源基因伙伴,再建立仿真嵌合转录物参考序列数据库;
步骤S30检测多基因融合断点:通过BWA MEM算法将步骤S10处理后的序列读和步骤S20中建立的仿真嵌合转录物参考序列进行比对,通过CIGAR分析,若有2对读横跨2个基因断点并且具有唯一的映射,且长度不低于8个碱基,则确认融合断点,执行步骤S50;若不能直接比对,则执行步骤S40;
步骤S40仿真嵌合转录物参考序列切割比对检测融合断点:将不能直接比对的读进行3分切割,通过BWA MEM算法进行细微比对,再确认融合断点;
步骤S50确认mapping:根据步骤上S30和步骤室S40的比对值进行mapping优化,取加权mapping质量高为最终mapping。
其中,步骤S10中还包括步骤S11,跟踪监测重复读的重复数。
其中,所述的步骤S20中的候选多基因融合每对基因对至少有2个以上的支持的读对,序列覆盖深度大于20。
其中,步骤S20中的仿真数据库包括所有不同的正付链排列组合。
其中,步骤S20中的仿真数据库的正付链排列组合共有8种组合。
具体实施方式
下面结合具体实施例对本发明作进一步的描述。
采用MultiFusion数据集作为本发明提供的基于下一代测序的多基因融合检测方法的检测对象,其包括如下步骤:
步骤S10预处理和映射:将MultiFusion数据集的序列数据通过脚本程序去除低质量读和重复读,再通过按碱基逐一比对对双端序列的计算融合度能量值,使用BWM MEM算法将原始双端读长序列映射到参考序列;
步骤S11,跟踪监测重复读的重复数;
步骤S20建立候选多基因融合数据库:将候选多基因融合,通过程序算法过滤嵌合转录物的高度同源基因伙伴,再建立仿真嵌合转录物参考序列数据库,候选多基因融合每对基因对至少有2个以上的支持的读对,序列覆盖深度大于20,仿真数据库包括所有不同的正付链排列组合,即是正付链排列组合共8种组合;
步骤S30检测多基因融合断点:通过BWA MEM算法将步骤S10处理后的序列读和步骤S20中建立的仿真嵌合转录物参考序列进行比对,通过CIGAR分析,若有2对读横跨2个基因断点并且具有唯一的映射,且长度不低于8个碱基,则确认融合断点,执行步骤S50;若不能直接比对,则执行步骤S40;
步骤S40仿真嵌合转录物参考序列切割比对检测融合断点:将不能直接比对的读进行3分切割,通过BWA MEM算法进行细微比对,再确认融合断点;
步骤S50确认mapping:根据步骤上S30和步骤室S40的比对值进行mapping优化,取加权mapping质量高为最终mapping。
通过使用敏感性和阳性预测值来衡量本发明提供的检测方法,敏感性计算公式如下:(TP/TF)*100,阳性预测值计算公式如下:(TP/(TP+FP))*100,其中TP代表正确检测的嵌合转录物,TF代表所有的嵌合转录物,FP代表假阳性嵌合转录物。
通过检测模拟100000下一代测序illumina数据,数据读长50-500bp,数据分布依据cfDNA分布,峰值170bp,并且模拟测序错误和PCR效应,检测结果表明本发明提供的方法的阳性预测值达到99.9%,敏感度达到71.8%。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于下一代测序的多基因融合检测方法,其特征至于,其包括如下步骤:
步骤S10预处理和映射:将经过测序的原始序列数据通过脚本程序去除低质量读和重复读,再通过按碱基逐一比对对双端序列的计算融合度能量值,使用BWM MEM算法将原始双端读长序列映射到参考序列;
步骤S20建立候选多基因融合数据库:将候选多基因融合,通过程序算法过滤嵌合转录物的高度同源基因伙伴,再建立仿真嵌合转录物参考序列数据库;
步骤S30检测多基因融合断点:通过BWA MEM算法将步骤S10处理后的序列读和步骤S20中建立的仿真嵌合转录物参考序列进行比对,通过CIGAR分析,若有2对读横跨2个基因断点并且具有唯一的映射,且长度不低于8个碱基,则确认融合断点,执行步骤S50;若不能直接比对,则执行步骤S40;
步骤S40仿真嵌合转录物参考序列切割比对检测融合断点:将不能直接比对的读进行3分切割,通过BWA MEM算法进行细微比对,再确认融合断点;
步骤S50确认mapping:根据步骤上S30和步骤室S40的比对值进行mapping优化,取加权mapping质量高为最终mapping。
2.根据权利要求1所述的一种基于下一代测序的多基因融合检测方法,其特征在于:步骤S10中还包括步骤S11,跟踪监测重复读的重复数。
3.根据权利要求1所述的一种基于下一代测序的多基因融合检测方法,其特征在于:所述的步骤S20中的候选多基因融合每对基因对至少有2个以上的支持的读对,序列覆盖深度大于20。
4.根据权利要求1所述的一种基于下一代测序的多基因融合检测方法,其特征在于:步骤S20中的仿真数据库包括所有不同的正付链排列组合。
5.根据权利要求4所述的一种基于下一代测序的多基因融合检测方法,其特征在于:步骤S20中的仿真数据库的正付链排列组合共有8种组合。
CN201710650048.0A 2017-08-02 2017-08-02 一种基于下一代测序的多基因融合检测方法 Pending CN107267646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710650048.0A CN107267646A (zh) 2017-08-02 2017-08-02 一种基于下一代测序的多基因融合检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710650048.0A CN107267646A (zh) 2017-08-02 2017-08-02 一种基于下一代测序的多基因融合检测方法

Publications (1)

Publication Number Publication Date
CN107267646A true CN107267646A (zh) 2017-10-20

Family

ID=60076218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710650048.0A Pending CN107267646A (zh) 2017-08-02 2017-08-02 一种基于下一代测序的多基因融合检测方法

Country Status (1)

Country Link
CN (1) CN107267646A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319817A (zh) * 2018-01-15 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108830044A (zh) * 2018-06-05 2018-11-16 上海鲸舟基因科技有限公司 用于检测癌症样本基因融合的检测方法和装置
CN108875301A (zh) * 2018-06-07 2018-11-23 郑州云海信息技术有限公司 一种基因序列比对方法、pe配置控制器及可读存储介质
CN111383714A (zh) * 2018-12-29 2020-07-07 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN113574603A (zh) * 2019-12-05 2021-10-29 因美纳有限公司 基因融合的快速检测

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104894271A (zh) * 2015-06-10 2015-09-09 天津诺禾致源生物信息科技有限公司 一种检测基因融合的方法及装置
CN105543380A (zh) * 2016-01-27 2016-05-04 北京诺禾致源生物信息科技有限公司 一种检测基因融合的方法及装置
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104894271A (zh) * 2015-06-10 2015-09-09 天津诺禾致源生物信息科技有限公司 一种检测基因融合的方法及装置
CN105543380A (zh) * 2016-01-27 2016-05-04 北京诺禾致源生物信息科技有限公司 一种检测基因融合的方法及装置
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUGAY, M; DE MENDIBIL, IO;VIZMANOS, JL等: "Oncofuse: a computational framework for the prediction of the oncogenic potential of gene fusions", 《BIOINFORMATICS》 *
王云锦: "人类癌症转录组二代测序数据中融合基因的挖掘和数据库的构建", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319817A (zh) * 2018-01-15 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108319817B (zh) * 2018-01-15 2020-12-25 无锡臻和生物科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108830044A (zh) * 2018-06-05 2018-11-16 上海鲸舟基因科技有限公司 用于检测癌症样本基因融合的检测方法和装置
CN108830044B (zh) * 2018-06-05 2020-06-26 序康医疗科技(苏州)有限公司 用于检测癌症样本基因融合的检测方法和装置
CN108875301A (zh) * 2018-06-07 2018-11-23 郑州云海信息技术有限公司 一种基因序列比对方法、pe配置控制器及可读存储介质
CN108875301B (zh) * 2018-06-07 2021-10-22 郑州云海信息技术有限公司 一种基因序列比对方法、pe配置控制器及可读存储介质
CN111383714A (zh) * 2018-12-29 2020-07-07 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN111383714B (zh) * 2018-12-29 2023-07-28 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN113574603A (zh) * 2019-12-05 2021-10-29 因美纳有限公司 基因融合的快速检测

Similar Documents

Publication Publication Date Title
CN107267646A (zh) 一种基于下一代测序的多基因融合检测方法
Steenwyk et al. Incongruence in the phylogenomics era
Huber et al. Detecting recent selective sweeps while controlling for mutation rate and background selection
CN108690871B (zh) 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN108875302B (zh) 一种检测细胞游离肿瘤基因拷贝数变异的系统和方法
JP2017524374A5 (zh)
CN107480472B (zh) 一种基因融合的检测方法和装置
CN112111565A (zh) 一种细胞游离dna测序数据的突变分析方法和装置
Forsythe et al. Biased gene retention in the face of introgression obscures species relationships
CN105617638A (zh) 羽毛球挥拍动作识别方法和装置
CN106480221B (zh) 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN106951731A (zh) 一种大片段插入或缺失的预测方法及系统
RU2014127715A (ru) Оценка биологических клеток с использованием последовательности полного генома и планирование онкологической терапии с использованием упомянутой оценки
CN101957892A (zh) 一种全基因组复制事件的检测方法和系统
CN106355045A (zh) 一种基于扩增子二代测序小片段插入缺失检测的方法及装置
CN106325845B (zh) 一种修复硬盘扇区前好后坏的方法
CN111161797B (zh) 一种基于三代测序检测多样本量比较转录组分析方法
CN105861652A (zh) 一种鹿源性物种成分的检测鉴定方法
Chan et al. Evaluation of dynamic time warp barycenter averaging (DBA) for its potential in generating a consensus nanopore signal for genetic and epigenetic sequences
Abdel-Wahab et al. Khaleijomyces marinus gen. et sp. nov.(Juncigenaceae, Torpedosporales) a new lignicolous marine fungus from Saudi Arabia
CN103184275A (zh) 一种水稻基因组基因标识的新方法
CN114155914B (zh) 基于宏基因组拼接错误的检测校正系统
CN105320850A (zh) 一种高通量测序数据匹配方法
Lapalu et al. Improved gene annotation of the fungal wheat pathogen Zymoseptoria tritici based on combined Iso-Seq and RNA-Seq evidence
JP2014530629A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171020

RJ01 Rejection of invention patent application after publication