CN111180013A - 检测血液病融合基因的装置 - Google Patents
检测血液病融合基因的装置 Download PDFInfo
- Publication number
- CN111180013A CN111180013A CN201911339846.7A CN201911339846A CN111180013A CN 111180013 A CN111180013 A CN 111180013A CN 201911339846 A CN201911339846 A CN 201911339846A CN 111180013 A CN111180013 A CN 111180013A
- Authority
- CN
- China
- Prior art keywords
- data
- sequencing
- module
- fusion
- mers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 100
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 57
- 208000019838 Blood disease Diseases 0.000 title claims abstract description 7
- 208000014951 hematologic disease Diseases 0.000 title claims abstract description 7
- 208000018706 hematopoietic system disease Diseases 0.000 title claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims abstract description 59
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000007637 random forest analysis Methods 0.000 claims description 35
- 238000003066 decision tree Methods 0.000 claims description 13
- 210000000349 chromosome Anatomy 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012268 genome sequencing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 208000032791 BCR-ABL1 positive chronic myelogenous leukemia Diseases 0.000 description 5
- 208000010833 Chronic myeloid leukaemia Diseases 0.000 description 4
- 208000033761 Myelogenous Chronic BCR-ABL Positive Leukemia Diseases 0.000 description 4
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 4
- 208000024893 Acute lymphoblastic leukemia Diseases 0.000 description 3
- 208000014697 Acute lymphocytic leukaemia Diseases 0.000 description 3
- 208000006664 Precursor Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 239000005517 L01XE01 - Imatinib Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001502 gel electrophoresis Methods 0.000 description 2
- 201000005787 hematologic cancer Diseases 0.000 description 2
- 230000002489 hematologic effect Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- KTUFNOKKBVMGRW-UHFFFAOYSA-N imatinib Chemical compound C1CN(C)CCN1CC1=CC=C(C(=O)NC=2C=C(NC=3N=C(C=CN=3)C=3C=NC=CC=3)C(C)=CC=2)C=C1 KTUFNOKKBVMGRW-UHFFFAOYSA-N 0.000 description 2
- 229960002411 imatinib Drugs 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 229940121358 tyrosine kinase inhibitor Drugs 0.000 description 2
- 239000005483 tyrosine kinase inhibitor Substances 0.000 description 2
- 150000004917 tyrosine kinase inhibitor derivatives Chemical class 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 208000036762 Acute promyelocytic leukaemia Diseases 0.000 description 1
- 241001265801 Amynthas fusing Species 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 108091008121 PML-RARA Proteins 0.000 description 1
- 208000033826 Promyelocytic Acute Leukemia Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 108020001507 fusion proteins Proteins 0.000 description 1
- 102000037865 fusion proteins Human genes 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007403 mPCR Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明公开了一种检测血液病融合基因的装置。该装置包括:测序模块,用于通过二代测序获得肿瘤样本的测序数据;数据预处理模块,用于将测序模块中获得的测序数据进行预处理;候选k‑mers识别模块,用于对经过数据预处理模块处理的测序数据进行可能包括断点的候选k‑mers进行识别;局部组装比对识别融合模式模块,用于提取肿瘤样本的候选k‑mers集合所在的reads以及其配对reads进行局部组装获取contigs;融合基因可信度预测模块,用于对融合基因可信度进行预测;以及融合结果注释模块,用于将融合基因可信度预测模块中得到的断点分别注释。应用本发明的技术方案,能够精准识别多个基因的多种融合变异类型。
Description
技术领域
本发明涉及生物学技术领域,具体而言,涉及一种检测血液病融合基因的装置。
背景技术
人类基因组由23对染色体组成,其中包括22对体染色体、1条X染色体和1条Y染色体,基因组共含有约30亿个DNA碱基对,其中包含约2.5万个基因,这些基因各自行使不同的功能。融合基因是指在自然或外援环境因素影响下,基因组中原本不相邻的两个基因进行了拼接,形成了新的基因片段。融合基因的发生往往导致序列异常或蛋白质功能异常,进而导致或促进肿瘤的发生发展。人类的许多疾病都有可能是基因融合引起的,包括一些遗传病、癌症以及血液肿瘤,某些基因融合是血液肿瘤的重要临床特征和预后因素。
血液肿瘤中,有多种基因融合在疾病的发生发展中起到重要的作用,BCR-ABL1融合在95%的成人慢性髓系白血病(CML)患者,20-25%的儿童急性淋巴细胞白血病(AML)患者中被检测到,被应用于慢性髓系白血病患者的临床诊断和疾病亚型分类,酪氨酸激酶抑制剂(TKI)可以有效抑制CML患者中融合BCR-ABL1融合蛋白的活性,IRIS临床研究推荐了伊马替尼作为CML的一线治疗,证实了BCR-ABL1检测以及MRD监测对于CML诊断和治疗的重要性;携带RUNX1-RUNX1T1融合的AML患者经常显现特有的临床病理特征,这类患者往往具有较好的预后生存;PML-RARA融合基因在急性早幼粒细胞白血病的发病机制中扮演重要角色。
二代测序技术(Next-Generation Sequencing)又称下一代测序技术,其核心思想是边合成边测序,可同时对几十G到几百G的数据进行测序。近年来随着二代测序技术的快速发展,逐渐应用于血液肿瘤方向的临床医学检测和科学研究。目标序列捕获可以有选择性的分离或富集基因组特定的片段,因此可以利用更低的成本获取更高的测序深度,为低频检测,大数据积累等奠定了良好的基础。基于二代测序技术获取的数据,可以一次性同时进行单核苷酸变异(single nucleotide variation)、短序列插入和缺失(shortinsertion and deletion)、拷贝数变异(copy number variation)和基因融合(Fusion)等多种变异检测。基于目标区域捕获测序获取数据,可以利用算法或软件,对测序数据进行检测,同时获取多个基因的多种变异信息。
现有的血液肿瘤融合检测方法大部分基于多重PCR或者凝胶电泳技术对RNA模版进行反转录扩增来确定融合基因类型。首先多重PCR或者凝胶电泳技术只能检测已知的设计好的融合类型,对于没有设计引物的融合类型无法检测;其次,相对双链的DNA来说,样本的RNA已单链形式存在,半衰期短容易降解,因此更加的不稳定,那么样本的保存和运输都会存在一定的难度。
学习是人类具有的一种重要的智能行为。在1996年Langley定义了机器学习(Machine learning)是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习的发展主要经历了3个阶段,80年代,感知机和神经网络为代表性的方法;90年代,统计学习逐渐迎来春天,比如支持向量机、贝叶斯算法和随机森林等成为当时的主流应用方法;进入21世纪以后,深度神经网络被提出,随着计算技术的迅猛发展,大数据的快速积累,数据量和计算能力不断提升,以深度学习为基础的各大AI应用逐渐崭露头角。
发明内容
本发明旨在提供一种检测血液病融合基因的装置,以利用二代测序技术进行融合基因高通量检测,识别多个基因的多种融合变异类型。
为了实现上述目的,根据本发明的一个方面,提供了一种检测血液病融合基因的装置。该装置包括:测序模块,用于通过二代测序获得肿瘤样本的测序数据;数据预处理模块,用于将测序模块中获得的测序数据进行预处理,去除非基因组测序数据得到基因组数据,并将基因组数据与参考基因组进行比对排序;候选k-mers识别模块,用于对经过数据预处理模块处理的测序数据进行可能包括断点的候选k-mers进行识别,获得特异存在于肿瘤样本的候选k-mers集合;局部组装比对识别融合模式模块,用于提取肿瘤样本的候选k-mers集合所在的reads以及其配对reads进行局部组装获取contigs,识别contigs在染色体上的绝对位置;融合基因可信度预测模块,用于利用经过训练的随机森林定量模型对融合基因可信度进行预测,确定断点;以及融合结果注释模块,用于将融合基因可信度预测模块中得到的断点分别注释,获取到断点所在的基因以及外显子或内含子区域,得到融合模式注释。
进一步地,测序模块检测文库为杂交捕获得到的测序文库,测序文库包括下表所示的区域:
进一步地,数据预处理模块包括:数据预处理子模块,用于去除测序数据中的接头序列数据和低质量数据,得到基因组数据;比对排序子模块,用于将基因组数据与参考基因组进行比对并排序,获取比对结果,数据格式为bam;以及重复读取数据去除子模块,用于将比对排序子模块中得到的bam文件进行重复读取数据识别,去除重复读取数据,得到经过数据预处理模块处理的测序数据。
进一步地,候选k-mers识别模块,用于以模式增长的方式进行k-mers识别,假设给定一个长度为N的序列M,k-mer代表长度为k的序列,k-mer是M的子序列,一个序列R如果包含断点,则会有最多k-1个跨越断点的k-mers,分别针对参考基因组、肿瘤样本的所有reads进行候选k-mers识别,获得特异存在于肿瘤样本的k-mers就是候选k-mers集合。
进一步地,局部组装比对识别融合模式模块中使用BWA-mem进行比对识别contigs在染色体上的绝对位置。
进一步地,融合基因可信度预测模块包括:特征选择子模块,用于特征的设定;随机森林定量模型子模块,用于利用特征选择子模块中设定的特征训练随机森林定量模型,并利用经过训练的随机森林定量模型对融合基因可信度进行预测,确定断点。
进一步地,特征选择子模块中设定的特征包括:融合左右断点位置、融合左右长度、融合序列特征、融合周围序列特征、NGS融合检测频率、融合所在重复读取数据readsduplication比率、融合所在位置测序深度和融合序列比对质量。
进一步地,随机森林定量模型子模块中随机森林定量模型的信息增益进行属性选择如下:
Gain(A)=Info(D)-InfoA(D)
其中,D为数据集,i={1,2,...,m},pi为任意样本分类Ci的概率,Ci为某分类标号;A为属性,信息增益大的优先选择的属性。
进一步地,随机森林定量模型子模块中执行如下命令:a.训练集样本量定义为N,采用Bootstrap sampling随机选取n个样本,其中n∈N;b.属性集合定义为K,随机选取k个属性,采用上述公式确定属性和构建决策树,其中k∈K;c.重复步骤a和步骤b m次,建立m颗决策树;d.应用决策树集合形成随机森林投票获取分类预测结果。
应用本发明的技术方案,输入高通量测序数据,通过识别可能包含断点候选k-mers,建立序列簇,对每一个簇进行局部组装的方式,获得候选融合基因集合,之后通过输入经过训练的随机森林模型,准确判断出高度可信的融合基因,能够精准识别多个基因的多种融合变异类型。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明一实施方式的检测血液病融合基因的装置的命令执行流程图;以及
图2示出了实施例1中检测到的融合的可视化结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
根据本发明一种典型的实施方式,提供一种检测血液病融合基因的装置。该装置包括测序模块、数据预处理模块、候选k-mers识别模块、局部组装比对识别融合模式模块、融合基因可信度预测模块和融合结果注释模块,其中,测序模块用于通过二代测序获得肿瘤样本的测序数据;数据预处理模块用于将测序模块中获得的测序数据进行预处理,去除非基因组测序数据得到基因组数据,并将基因组数据与参考基因组进行比对排序;候选k-mers识别模块用于对经过数据预处理模块处理的测序数据进行可能包括断点的候选k-mers进行识别,获得特异存在于肿瘤样本的候选k-mers集合;局部组装比对识别融合模式模块用于提取肿瘤样本的候选k-mers集合所在的reads以及其配对reads进行局部组装获取contigs,识别contigs在染色体上的绝对位置;融合基因可信度预测模块用于利用经过训练的随机森林定量模型对融合基因可信度进行预测,确定断点;融合结果注释模块用于将融合基因可信度预测模块中得到的断点分别注释,获取到断点所在的基因以及外显子或内含子区域,得到融合模式注释。
应用本发明的技术方案,输入高通量测序数据,通过识别可能包含断点候选k-mers,建立序列簇,对每一个簇进行局部组装的方式,获得候选融合基因集合,之后通过输入经过训练的随机森林模型,准确判断出高度可信的融合基因,能够精准识别多个基因的多种融合变异类型。
通过对cosmic、chimerDB等开源数据库进行融合模式调研,发明人设计捕获了如下表1所示的区域,芯片内的任意融合模式均可被检测到:
表1
根据本发明一种典型的实施方式,数据预处理模块包括数据预处理子模块、比对排序子模块和重复读取数据去除子模块,其中,数据预处理子模块用于去除测序数据中的接头序列数据和低质量数据(本申请中,低质量数据是指序列含N量>5或序列中Q15以下碱基占比>40%),得到基因组数据;比对排序子模块用于将基因组数据与参考基因组进行比对并排序,获取比对结果,数据格式为bam;重复读取数据去除子模块用于将比对排序子模块中得到的bam文件进行重复读取数据识别,去除重复读取数据,得到经过数据预处理模块处理的测序数据。经过上述预处理的基因组数据能够为后续数据的分析提供更加准确的数据分析基础,提高最总基因融合检测的准确率。
优选的,候选k-mers识别模块,用于以模式增长的方式进行k-mers识别,假设给定一个长度为N的序列M,k-mer代表长度为k的序列,k-mer是M的子序列,一个序列R如果包含断点,则会有最多k-1个跨越断点的k-mers,分别针对参考基因组、肿瘤样本的所有reads进行候选k-mers识别,获得特异存在于肿瘤样本的k-mers就是候选k-mers集合。因为基因融合是原本不相邻的基因区段连接到一起,所以通过候选k-mers识别模块可以进行分离读取(split read)和断点来寻找可能是发生了融合的候选区域。
在本发明一种典型的实施方式中,局部组装比对识别融合模式模块中使用BWA-mem进行比对识别contigs在染色体上的绝对位置。
根据本发明一种典型的实施方式,融合基因可信度预测模块包括特征选择子模块和随机森林定量模型子模块,其中,特征选择子模块用于特征的设定;随机森林定量模型子模块用于利用特征选择子模块中设定的特征训练随机森林定量模型并利用经过训练的随机森林定量模型对融合基因可信度进行预测,确定断点。
典型的,特征选择子模块中设定的特征包括:融合左右断点位置、融合左右长度、融合序列特征(即检测到的k-mers序列)、融合周围序列特征(例如:临近末端位置的5bp序列)、NGS融合检测频率、融合所在重复读取数据(reads duplication)比率(其中,duplication是指由于PCR扩增引入的重复序列)、融合所在位置测序深度和融合序列比对质量,从而可以从多个角度来帮助识别融合的可信度。
优选的,随机森林定量模型子模块中随机森林定量模型的信息增益进行属性选择如下:
Gain(A)=Info(D)-InfoA(D)
其中,D为数据集,i={1,2,...,m},pi为任意样本分类Ci的概率,Ci为某分类标号;A为属性,信息增益大的优先选择的属性。
构建肿瘤筛查模型进行样本预测是属于监督学习中的分类问题,本发明中选取的某些特征之间可能存在一定的关联性;随机森林算法中对于抽样和构建决策树过程随机性的引入,使得算法不易陷入过拟合以及具有更好的抗噪能力;并且采取随机森林算法可以进行特征选择,所以,特别适合用于构建肿瘤筛查模型。上述随机森林定量模型子模块中随机森林定量模型的信息增益进行属性选择如上,可以提高融合基因可信度预测模块预测的准确。
根据本发明一种典型的实施方式,随机森林定量模型子模块中执行如下命令:a.训练集样本量定义为N,采用Bootstrap sampling随机选取n个样本,其中n∈N;b.属性集合定义为K,随机选取k个属性,采用上述公式确定属性和构建决策树,其中k∈K;c.重复步骤a和步骤b m次,根据需求建立m颗决策树;d.应用决策树集合形成随机森林投票获取分类预测结果。随机森林定量模型子模块中执行如下命令可以提高分类预测的准确性。
下面将结合实施例进一步说明本发明的有益效果,下列实施例中未详细写明的技术手段或试剂,均可采用本领域常规的技术手段或试剂实现,不影响技术方案的最终结果。
实施例1
样本:已知样本,临床检测到BCR-ABL1融合阳性。
运用本发明的装置(执行命令参考图1所示):
1.输入数据为二代测序下机原始数据,数据格式为fastq。
1)对原始下机数据进行预处理,包括去除adapter,低质量数据(序列含N量>5或序列中Q15以下碱基占比>40%)。
2)对处理后原始下机数据与参考基因组进行比对并排序,获取比对结果,数据格式为bam。
3)对bam文件进行duplication reads识别,去除duplication reads。
2.对处理后比对数据识别可能包含断点的候选k-mers。
以模式增长的方式进行k-mers识别,假设给定一个长度为N的序列M,k-mer是指长度为k的序列,这个序列是M的子序列(k<L),一个序列R如果包含断点,就会有最多k-1个跨越断点的k-mers,分别针对人类参考基因组、待检的肿瘤样本(如果有配对的正常样本也包含在内)的所有reads进行候选k-mers识别,最终特异存在于肿瘤样本的就是候选的k-mers集合。
3.局部组装比对识别融合模式
提取每一个k-mers集合所在的reads以及其配对reads,利用这样的集合进行局部组装获取contigs,每个contig使用BWA-mem进行比对,识别这一融合模式在染色体上的绝对位置。
4.融合基因可信度预测
1)特征选择:
a.融合左右断点位置
b.融合左右长度
c.融合序列特征
d.融合周围序列特征
e.NGS融合检测频率
f.融合所在reads duplication比率
g.融合所在位置测序深度
h.融合序列比对质量
2)随机森林定量模型
信息增益进行属性选择:
Cain(A)=Info(D)-InfoA(D)
其中,D为数据集,i={1,2,...,m},pi为任意样本分类Ci的概率,Ci为某分类标号。A为属性,信息增益大的优先选择的属性。
a.训练集样本量定义为N,采用Bootstrap sampling随机选取n个样本,其中n∈N。
b.属性集合定义为K,随机选取k个属性,采用上述公式确定属性和构建决策树,其中k∈K。
c.重复以上两步m次,建立m颗决策树。
d.应用决策树集合形成随机森林投票获取分类预测结果。
5.融合结果注释
将上述得到的断点分别注释,获取到断点所在的基因以及外显子或内含子区域,得到融合模式注释。
利用上述算法,对融合阳性已知样本进行检测,结果如下表2所示:
表2
图2是对表2中检测到的融合的可视化结果图。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种检测血液病融合基因的装置,其特征在于,包括:
测序模块,用于通过二代测序获得肿瘤样本的测序数据;
数据预处理模块,用于将所述测序模块中获得的测序数据进行预处理,去除非基因组测序数据得到基因组数据,并将所述基因组数据与参考基因组进行比对排序;
候选k-mers识别模块,用于对经过所述数据预处理模块处理的测序数据进行可能包括断点的候选k-mers进行识别,获得特异存在于肿瘤样本的候选k-mers集合;
局部组装比对识别融合模式模块,用于提取所述肿瘤样本的候选k-mers集合所在的reads以及其配对reads进行局部组装获取contigs,识别所述contigs在染色体上的绝对位置;
融合基因可信度预测模块,用于利用经过训练的随机森林定量模型对融合基因可信度进行预测,确定断点;以及
融合结果注释模块,用于将所述融合基因可信度预测模块中得到的断点分别注释,获取到断点所在的基因以及外显子或内含子区域,得到融合模式注释。
3.根据权利要求1所述的装置,其特征在于,所述数据预处理模块包括:
数据预处理子模块,用于去除所述测序数据中的接头序列数据和低质量数据,得到所述基因组数据;
比对排序子模块,用于将所述基因组数据与参考基因组进行比对并排序,获取比对结果,数据格式为bam;以及
重复读取数据去除子模块,用于将所述比对排序子模块中得到的bam文件进行重复读取数据识别,去除重复读取数据,得到经过所述数据预处理模块处理的测序数据。
4.根据权利要求1所述的装置,其特征在于,所述候选k-mers识别模块,用于以模式增长的方式进行k-mers识别,假设给定一个长度为N的序列M,k-mer代表长度为k的序列,所述k-mer是M的子序列,一个序列R如果包含断点,则会有最多k-1个跨越断点的k-mers,分别针对所述参考基因组、所述肿瘤样本的所有reads进行候选k-mers识别,获得特异存在于肿瘤样本的k-mers就是候选k-mers集合。
5.根据权利要求1所述的装置,其特征在于,所述局部组装比对识别融合模式模块中使用BWA-mem进行比对识别所述contigs在染色体上的绝对位置。
6.根据权利要求1所述的装置,其特征在于,所述融合基因可信度预测模块包括:
特征选择子模块,用于特征的设定;
随机森林定量模型子模块,用于利用所述特征选择子模块中设定的特征训练随机森林定量模型,并利用经过训练的随机森林定量模型对融合基因可信度进行预测,确定断点。
7.根据权利要求6所述的装置,其特征在于,所述特征选择子模块中设定的特征包括:融合左右断点位置、融合左右长度、融合序列特征、融合周围序列特征、NGS融合检测频率、融合所在重复读取数据比率、融合所在位置测序深度和融合序列比对质量。
9.根据权利要求8所述的装置,其特征在于,所述随机森林定量模型子模块中执行如下命令:
a.训练集样本量定义为N,采用Bootstrap sampling随机选取n个样本,其中n∈N;
b.属性集合定义为K,随机选取k个属性,采用权利要求8中所示的公式确定属性和构建决策树,其中k∈K;
c.重复所述步骤a和步骤b m次,建立m颗决策树;
d.应用决策树集合形成随机森林投票获取分类预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911339846.7A CN111180013B (zh) | 2019-12-23 | 2019-12-23 | 检测血液病融合基因的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911339846.7A CN111180013B (zh) | 2019-12-23 | 2019-12-23 | 检测血液病融合基因的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111180013A true CN111180013A (zh) | 2020-05-19 |
CN111180013B CN111180013B (zh) | 2023-11-03 |
Family
ID=70653923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911339846.7A Active CN111180013B (zh) | 2019-12-23 | 2019-12-23 | 检测血液病融合基因的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111180013B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681711A (zh) * | 2020-06-28 | 2020-09-18 | 江苏先声医学诊断有限公司 | 一种兼并引物的设计筛选方法 |
CN116844638A (zh) * | 2023-06-08 | 2023-10-03 | 上海信诺佰世医学检验有限公司 | 一种基于高通量转录组测序的儿童急性白血病分型系统及方法 |
WO2023184065A1 (zh) * | 2022-03-28 | 2023-10-05 | 京东方科技集团股份有限公司 | 融合基因的鉴定方法、装置、设备、程序及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845150A (zh) * | 2016-12-29 | 2017-06-13 | 安诺优达基因科技(北京)有限公司 | 一种用于检测循环肿瘤dna样本基因融合的装置 |
US20180300450A1 (en) * | 2017-04-17 | 2018-10-18 | Counsyl, Inc. | Systems and methods for performing and optimizing performance of dna-based noninvasive prenatal screens |
CN108830044A (zh) * | 2018-06-05 | 2018-11-16 | 上海鲸舟基因科技有限公司 | 用于检测癌症样本基因融合的检测方法和装置 |
CN109182526A (zh) * | 2018-10-10 | 2019-01-11 | 杭州翱锐生物科技有限公司 | 用于早期肝癌辅助诊断的试剂盒及其检测方法 |
CN109504751A (zh) * | 2018-11-28 | 2019-03-22 | 锦州医科大学 | 一种肿瘤复杂克隆结构的缺失变异识别及克隆计数方法 |
US20190237162A1 (en) * | 2016-09-30 | 2019-08-01 | Indiana University Research And Technology Corporation | Concurrent subtractive and subtractive assembly for comparative metagenomics |
CN110400601A (zh) * | 2019-08-23 | 2019-11-01 | 元码基因科技(无锡)有限公司 | 基于rna靶向测序和机器学习的癌症亚型分型方法及装置 |
-
2019
- 2019-12-23 CN CN201911339846.7A patent/CN111180013B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190237162A1 (en) * | 2016-09-30 | 2019-08-01 | Indiana University Research And Technology Corporation | Concurrent subtractive and subtractive assembly for comparative metagenomics |
CN106845150A (zh) * | 2016-12-29 | 2017-06-13 | 安诺优达基因科技(北京)有限公司 | 一种用于检测循环肿瘤dna样本基因融合的装置 |
US20180300450A1 (en) * | 2017-04-17 | 2018-10-18 | Counsyl, Inc. | Systems and methods for performing and optimizing performance of dna-based noninvasive prenatal screens |
CN108830044A (zh) * | 2018-06-05 | 2018-11-16 | 上海鲸舟基因科技有限公司 | 用于检测癌症样本基因融合的检测方法和装置 |
CN109182526A (zh) * | 2018-10-10 | 2019-01-11 | 杭州翱锐生物科技有限公司 | 用于早期肝癌辅助诊断的试剂盒及其检测方法 |
CN109504751A (zh) * | 2018-11-28 | 2019-03-22 | 锦州医科大学 | 一种肿瘤复杂克隆结构的缺失变异识别及克隆计数方法 |
CN110400601A (zh) * | 2019-08-23 | 2019-11-01 | 元码基因科技(无锡)有限公司 | 基于rna靶向测序和机器学习的癌症亚型分型方法及装置 |
Non-Patent Citations (1)
Title |
---|
秦谦;刘博;杨琳;吴冰冰;王慧君;董欣然;卢宇蓝;周文浩;: "基于高通量测序技术的拷贝数变异筛选分析流程的建立及应用", 中国循证儿科杂志, no. 04 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681711A (zh) * | 2020-06-28 | 2020-09-18 | 江苏先声医学诊断有限公司 | 一种兼并引物的设计筛选方法 |
CN111681711B (zh) * | 2020-06-28 | 2021-03-16 | 江苏先声医学诊断有限公司 | 一种兼并引物的设计筛选方法 |
WO2023184065A1 (zh) * | 2022-03-28 | 2023-10-05 | 京东方科技集团股份有限公司 | 融合基因的鉴定方法、装置、设备、程序及存储介质 |
CN116844638A (zh) * | 2023-06-08 | 2023-10-03 | 上海信诺佰世医学检验有限公司 | 一种基于高通量转录组测序的儿童急性白血病分型系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111180013B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102273717B1 (ko) | 심층 학습 기반 변이체 분류자 | |
US10347365B2 (en) | Systems and methods for visualizing a pattern in a dataset | |
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
CN111243663B (zh) | 一种基于模式增长算法的基因变异检测方法 | |
CN110692101A (zh) | 用于比对靶向的核酸测序数据的方法 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
CA3005791A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
EP4016533B1 (en) | Method and apparatus for machine learning based identification of structural variants in cancer genomes | |
CN117059173A (zh) | 一种拷贝数变异精确断裂点识别的方法及其应用 | |
CN114730610A (zh) | 试剂盒和使用试剂盒的方法 | |
KR102404947B1 (ko) | 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치 | |
JP6356015B2 (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
CN112086128A (zh) | 一种适用于Sequel测序的三代全长转录组测序结果分析方法 | |
Papetti et al. | Barcode demultiplexing of nanopore sequencing raw signals by unsupervised machine learning | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
Zheng et al. | Improving pattern discovery and visualization of SAGE data through poisson-based self-adaptive neural networks | |
CN114242158B (zh) | ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备 | |
CN115083517B (zh) | 一种识别增强子与超级增强子的数据处理方法及其系统 | |
Khobragade et al. | A classification of microarray gene expression data using hybrid soft computing approach | |
WO2023181370A1 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |