CN110021357B - 模拟癌症基因组测序数据生成装置 - Google Patents

模拟癌症基因组测序数据生成装置 Download PDF

Info

Publication number
CN110021357B
CN110021357B CN201810256018.6A CN201810256018A CN110021357B CN 110021357 B CN110021357 B CN 110021357B CN 201810256018 A CN201810256018 A CN 201810256018A CN 110021357 B CN110021357 B CN 110021357B
Authority
CN
China
Prior art keywords
variation
cancer
simulated
sequencing data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810256018.6A
Other languages
English (en)
Other versions
CN110021357A (zh
Inventor
荆瑞琳
王娟
李大为
玄兆伶
王海良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anouta gene technology (Beijing) Co.,Ltd.
ZHEJIANG ANNOROAD BIOTECHNOLOGY Co.,Ltd.
Original Assignee
Anouta Gene Technology Beijing Co ltd
Zhejiang Annoroad Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anouta Gene Technology Beijing Co ltd, Zhejiang Annoroad Biotechnology Co ltd filed Critical Anouta Gene Technology Beijing Co ltd
Publication of CN110021357A publication Critical patent/CN110021357A/zh
Application granted granted Critical
Publication of CN110021357B publication Critical patent/CN110021357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种模拟癌症基因组测序数据生成装置,其包括人参考基因组序列位置信息获取模块、捕获区域参考基因组序列获取模块、癌症基因组变异数据模拟模块、模拟癌症基因组测序数据生成模块以及模拟癌症基因组测序数据输出模块。根据本发明,提供了一种能够对各种类型的变异进行模拟、使得生成的模拟测序数据能够适用于评估各种检测软件的性能的算法及装置。

Description

模拟癌症基因组测序数据生成装置
技术领域
本发明涉及癌症基因检测领域,具体涉及一种用于生成模拟癌症基因组NGS测序数据的装置。
背景技术
从癌症患者的基因组序列中精确检测出体细胞变异是了解癌症发生发展、患者生存和对治疗反应的关键。对于一个检测变异软件的性能评估和性能改善来说,一系列已知的变异信息是必须的。可以通过模拟癌症基因组测序数据算法来模拟生成已知变异信息的测序数据,该算法的优点是对测序方法没有特殊要求。
目前,对于模拟基因组测序数据,BAMSurgeon采用的策略是对真实测序read先进行比对得到bam文件,在bam文件基础上对固定位点进行改造,从而得到已知变异信息的bam文件,进一步来评估检测变异软件性能。该技术优点在于利用真实测序数据,模拟了基因组测序背景误差;该技术最主要缺点是只能模拟SNV变异,不能模拟得到INDEL、CNV和FUSION变异,从而无法对检测INDEL、CNV和FUSION的软件进行评估。
因此,迫切需要开发能够对各种类型的变异进行模拟、使得生成的模拟测序数据能够适用于评估各种检测软件的性能的算法及装置。
发明内容
本发明所要解决的技术问题
鉴于现有技术中存在的上述问题,本发明开发了一种新的模拟癌症基因组测序数据生成算法及装置——本发明的算法及装置在基因组参考序列的基础上,通过变异模拟产生模拟的癌症基因组测序数据,该数据中包含已知的SNV、INDEL、CNV和FUSION变异信息。
即,本发明包括:
1.一种模拟癌症基因组测序数据生成装置,其包括:
人参考基因组序列位置信息获取模块,用于获取人参考基因组序列(例如版本号GRCh37/hg19)以及捕获区域位置信息;
捕获区域参考基因组序列获取模块,其与所述人参考基因组序列位置信息获取模块相连接,用于将捕获区域的位置信息对应到参考基因组上,获取捕获区域位置所对应的参考基因组序列信息,格式为fasta;
癌症基因组变异数据模拟模块,其与所述捕获区域参考基因组序列获取模块相连接,用于通过随机产生和固定加入热点的方式,生成模拟的癌症基因组变异数据;以及
模拟癌症基因组测序数据生成模块,其与所述癌症基因组变异数据模拟模块相连接,用于基于所述fasta格式的所述模拟的癌症基因组变异数据,根据经验性碱基质量值,生成固定读长的fastq序列,从而模拟癌症基因组测序数据,同时生成已知变异信息的索引文件;以及
模拟癌症基因组测序数据输出模块,其与所述模拟癌症基因组测序数据生成模块相连接,用于输出生成的模拟癌症基因组测序数据(数据可以为例如fastq文件);
其中,所述癌症基因组变异数据模拟模块包括:
SNV变异模拟子模块,用于在参考基因组序列上按照群体变异频率随机产生点突变从而模拟胚系突变、以及在参考基因组序列上加入常见热点变异从而模拟癌症基因组SNV变异数据;
所述癌症基因组变异数据模拟模块还包括下述子模块中的一个、两个或三个子模块:
INDEL变异模拟子模块,用于在参考基因组序列上按照群体变异频率随机产生小片段的插入或者缺失从而模拟胚系突变、以及在参考基因组序列上加入常见热点INDEL从而模拟癌症基因组INDEL变异数据;
CNV变异模拟子模块,用于在参考基因组序列上,根据给定的扩增序列的起始位置、终止位置和扩增倍数复制所述扩增序列,和/或,根据给定的缺失序列的起始位置、终止位置和缺失倍数删除所述缺失序列,从而模拟癌症基因组CNV变异数据;
FUSION变异模拟子模块,用于在参考基因组序列上,根据给定的两个染色体的断点位置和序列长度,将两段序列交换,从而模拟染色体FUSION数据。
2.所根据项1所述的装置,其中,所述模拟癌症基因组测序数据生成模块利用ART软件生成固定读长的fastq序列。
3.根据项1或2所述的装置,其中,所述模拟的癌症基因组变异数据包含SNV、INDEL、CNV和FUSION变异信息。
4.一种用于评价癌症基因组变异检测软件性能的装置,其包括:
模拟癌症基因组测序数据获取模块,其用于获取模拟癌症基因组测序数据和已知变异信息的索引文件;
变异检测模块,其与所述模拟癌症基因组测序数据获取模块相连接,用于利用模拟癌症基因组测序数据获取模块,以所述模拟癌症基因组测序数据作为数据源,进行癌症基因组变异检测,得到变异检测结果vcf文件;
癌症基因组变异检测软件性能评价模块,其与所述变异检测模块相连接,用于将所述变异检测结果vcf文件与所述已知变异信息的索引文件进行比较,从而评价该癌症基因组变异检测软件的性能;
其中,所述模拟癌症基因组测序数据和已知变异信息的索引文件是通过项1~3中任一项所述的装置生成的。
5.根据项4所述的装置,其中,所述癌症基因组变异检测软件的性能包括特异性、敏感性和/或准确性。
本发明的装置可以对SNV、INDEL、CNV和FUSION这四类变异进行模拟,所生成的数据可以用于评估各种类型的变异检测软件,以达到对检测软件性能评估和改善目的,进一步还可以比较不同检测软件的性能。
附图说明
图1为显示本发明的模拟癌症基因组测序数据生成装置一例的结构的模式图。
发明的具体实施方式
本说明书中提及的科技术语具有与本领域技术人员通常理解的含义相同的含义,如有冲突以本说明书中的定义为准。
一般而言,本说明书中采用的术语具有如下含义。
SNV:单核苷酸多态性(singlenucleotide polymorphism),在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somaticmutation),称作SNV;
INDEL:小片段的插入和缺失(Insertion和Deletion的简称),指的是在基因组的某个位置上所发生的小片段序列的插入或者删除;
CNV:基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数;
FUSION:染色体结构变异是指在染色体上发生了大片段的变异,染色体内部某块区域发生了翻转颠换,两条染色体间发生重组。
实施例
以下给出实施例,对本发明进行更具体的说明,但本发明不限于这些实施例。
实施例1
目标:
生成模拟癌症基因组测序数据,模拟产生不同频率梯度的SNP、INDEL,并将其用于评价GATK、mutect、varscan这三种变异检测软件的性能。
步骤:
1.将捕获区域位置test.bed(254757bp),然后随机分为7份:分别用来产生突变频率0.005,0.01,0.05,0.1,0.5,0.9,1的fastq文件。
2.得到每个位置区域文件对应的参考序列fasta文件。
3.以snpfreq=0.001和indfreq=0.001/10在参考序列上生成变异fasta文件(包含227个SNP和23个INDEL);
4.以深度1000,PE read长度75,在各突变频率分别模拟产生fastq文件;合并各频率fastq文件。
5.对fastq文件比对后得到bam文件,然后提取test.bed区域的bam文件
6.用GATK,mutect,varscan检测SNP和INDEL;
7.分别统计各个频率及混合频率下各检测方法的敏感性和准确性。
结果:SNV
GATK
Figure BDA0001608979990000051
Varscan
Figure BDA0001608979990000052
Figure BDA0001608979990000061
Mutect
Figure BDA0001608979990000062
结果:INDEL
GATK
Figure BDA0001608979990000063
Varscan
Figure BDA0001608979990000064
Mutect
Figure BDA0001608979990000065
Figure BDA0001608979990000071
结论:
对于SNP和INDEL,突变频率<=0.1,比较敏感性和准确性:mutect>varscan>GATK;
对于突变频率>0.1,比较敏感性和准确性:GATK>mutect>varscan。
工业实用性
根据本发明,提供了一种能够对各种类型的变异进行模拟、使得生成的模拟测序数据能够适用于评估各种检测软件的性能的算法及装置。

Claims (5)

1.一种模拟癌症基因组测序数据生成装置,其包括:
人参考基因组序列位置信息获取模块,用于获取人参考基因组序列以及捕获区域位置信息;
捕获区域参考基因组序列获取模块,用于将捕获区域的位置信息对应到参考基因组上,获取捕获区域位置所对应的参考基因组序列信息,格式为fasta;
癌症基因组变异数据模拟模块,其与所述捕获区域参考基因组序列获取模块相连接,用于通过随机产生和固定加入热点的方式,生成模拟的癌症基因组变异数据;
模拟癌症基因组测序数据生成模块,其与所述癌症基因组变异数据模拟模块相连接,用于基于所述fasta格式的所述模拟的癌症基因组变异数据,根据经验性碱基质量值,生成固定读长的fastq序列,从而模拟癌症基因组测序数据,同时生成已知变异信息的索引文件;以及
模拟癌症基因组测序数据输出模块,其与所述模拟癌症基因组测序数据生成模块相连接,用于输出生成的模拟癌症基因组测序数据;
其中,所述癌症基因组变异数据模拟模块包括:
SNV变异模拟子模块,用于在参考基因组序列上按照群体变异频率随机产生点突变从而模拟胚系突变、以及在参考基因组序列上加入常见热点变异从而模拟癌症基因组SNV变异数据;
所述癌症基因组变异数据模拟模块还包括下述子模块中的一个、两个或三个子模块:
INDEL变异模拟子模块,用于在参考基因组序列上按照群体变异频率随机产生小片段的插入或者缺失从而模拟胚系突变、以及在参考基因组序列上加入常见热点INDEL从而模拟癌症基因组INDEL变异数据;
CNV变异模拟子模块,用于在参考基因组序列上,根据给定的扩增序列的起始位置、终止位置和扩增倍数复制所述扩增序列,和/或,根据给定的缺失序列的起始位置、终止位置和缺失倍数删除所述缺失序列,从而模拟癌症基因组CNV变异数据;
FUSION变异模拟子模块,用于在参考基因组序列上,根据给定的两个染色体的断点位置和序列长度,将两段序列交换,从而模拟染色体FUSION数据。
2.根据权利要求1所述的装置,其中,所述模拟癌症基因组测序数据生成模块利用ART软件生成固定读长的fastq序列。
3.根据权利要求1或2所述的装置,其中,所述模拟的癌症基因组变异数据包含SNV、INDEL、CNV和FUSION变异信息。
4.一种用于评价癌症基因组变异检测软件性能的装置,其包括:
模拟癌症基因组测序数据获取模块,其用于获取模拟癌症基因组测序数据和已知变异信息的索引文件;
变异检测模块,其与所述模拟癌症基因组测序数据获取模块相连接,用于利用模拟癌症基因组测序数据获取模块,以所述模拟癌症基因组测序数据作为数据源,进行癌症基因组变异检测,得到变异检测结果vcf文件;
癌症基因组变异检测软件性能评价模块,其与所述变异检测模块相连接,用于将所述变异检测结果vcf文件与所述已知变异信息的索引文件进行比较,从而评价该癌症基因组变异检测软件的性能;
其中,所述模拟癌症基因组测序数据和已知变异信息的索引文件是通过权利要求1~3中任一项所述的装置生成的。
5.根据权利要求4所述的装置,其中,所述癌症基因组变异检测软件的性能包括敏感性和/或准确性。
CN201810256018.6A 2017-12-27 2018-03-27 模拟癌症基因组测序数据生成装置 Active CN110021357B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017114416586 2017-12-27
CN201711441658 2017-12-27

Publications (2)

Publication Number Publication Date
CN110021357A CN110021357A (zh) 2019-07-16
CN110021357B true CN110021357B (zh) 2021-06-04

Family

ID=67188304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810256018.6A Active CN110021357B (zh) 2017-12-27 2018-03-27 模拟癌症基因组测序数据生成装置

Country Status (1)

Country Link
CN (1) CN110021357B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627492B (zh) * 2020-05-25 2023-04-28 中国人民解放军军事科学院军事医学研究院 癌症基因组Hi-C数据仿真方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103299188A (zh) * 2010-09-15 2013-09-11 阿尔玛克诊断有限公司 用于癌症的分子诊断试验
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10392669B2 (en) * 2014-01-27 2019-08-27 Dna-Seq, Inc. Methods and systems for determination of an effective therapeutic regimen and drug discovery

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103299188A (zh) * 2010-09-15 2013-09-11 阿尔玛克诊断有限公司 用于癌症的分子诊断试验
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Molecular dynamics use in personalized cancer medicine: Example of MET Y501C mutation;Igor F. Tsigelny等;《2016 6th International Conference on Simulation and Modeling Methodologies, Technologies and Applications (SIMULTECH)》;20170619;第1-4页 *
利用循环上皮细胞采集器捕获循环肿瘤细胞进行基因突变检测;秦颖等;《医学理论与实践》;20170531;第30卷(第9期);第1254-1263页 *

Also Published As

Publication number Publication date
CN110021357A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
Olson et al. Best practices for evaluating single nucleotide variant calling methods for microbial genomics
Luebeck et al. AmpliconReconstructor integrates NGS and optical mapping to resolve the complex structures of focal amplifications
Franzén et al. Improved OTU-picking using long-read 16S rRNA gene amplicon sequencing and generic hierarchical clustering
Strunz et al. Chronic hepatitis C virus infection irreversibly impacts human natural killer cell repertoire diversity
Stadler et al. Phylodynamics for cell biologists
Grant et al. Comparative analysis of RNA-Seq alignment algorithms and the RNA-Seq unified mapper (RUM)
Vezzi et al. Reevaluating assembly evaluations with feature response curves: GAGE and assemblathons
García-López et al. Fragmentation and coverage variation in viral metagenome assemblies, and their effect in diversity calculations
Kuritzin et al. Incomplete lineage sorting and hybridization statistics for large-scale retroposon insertion data
Duncavage et al. A model study of in silico proficiency testing for clinical next-generation sequencing
CN105986013A (zh) 确定微生物种类的方法和装置
Duncavage et al. In silico proficiency testing for clinical next-generation sequencing
Brozynska et al. Direct chloroplast sequencing: comparison of sequencing platforms and analysis tools for whole chloroplast barcoding
Renaud et al. Authentication and assessment of contamination in ancient DNA
Chu et al. GINDEL: accurate genotype calling of insertions and deletions from low coverage population sequence reads
Shcherbinin et al. Comprehensive analysis of structural and sequencing data reveals almost unconstrained chain pairing in TCRαβ complex
Bortone et al. Improved T-cell receptor diversity estimates associate with survival and response to anti–PD-1 therapy
CN110021357B (zh) 模拟癌症基因组测序数据生成装置
Donato et al. New evaluation methods of read mapping by 17 aligners on simulated and empirical NGS data: an updated comparison of DNA-and RNA-Seq data from Illumina and Ion Torrent technologies
Zhao et al. Pitfalls of genotyping microbial communities with rapidly growing genome collections
Zhang et al. GAEP: a comprehensive genome assembly evaluating pipeline
CN105528532A (zh) 一种rna编辑位点的特征分析方法
CN105095687B (zh) 一种免疫组库数据分析方法及终端
Alachiotis et al. ChromatoGate: a tool for detecting base mis-calls in multiple sequence alignments by semi-automatic chromatogram inspection
Sater et al. UMI-Gen: A UMI-based read simulator for variant calling evaluation in paired-end sequencing NGS libraries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210419

Address after: 322000 1st Floor, 9th Building, Standard Factory Building, No. 10 Gaoxin Road, Fujiang Street, Yiwu City, Jinhua City, Zhejiang Province

Applicant after: ZHEJIANG ANNOROAD BIOTECHNOLOGY Co.,Ltd.

Applicant after: Anouta gene technology (Beijing) Co.,Ltd.

Address before: 100176 Beijing City, Daxing District branch of Beijing economic and Technological Development Zone Street 88 Hospital No. 8 Building 2 unit 701 room

Applicant before: Anouta gene technology (Beijing) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant