CN113488106A - 一种快速获取目标基因组区域比对结果数据的方法 - Google Patents
一种快速获取目标基因组区域比对结果数据的方法 Download PDFInfo
- Publication number
- CN113488106A CN113488106A CN202110751896.7A CN202110751896A CN113488106A CN 113488106 A CN113488106 A CN 113488106A CN 202110751896 A CN202110751896 A CN 202110751896A CN 113488106 A CN113488106 A CN 113488106A
- Authority
- CN
- China
- Prior art keywords
- file
- sequence
- data
- sample
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 85
- 210000000349 chromosome Anatomy 0.000 claims abstract description 46
- 238000013507 mapping Methods 0.000 claims abstract description 44
- 238000012163 sequencing technique Methods 0.000 claims abstract description 37
- 238000010276 construction Methods 0.000 claims description 10
- 238000007481 next generation sequencing Methods 0.000 claims description 9
- 230000004907 flux Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 37
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005206 flow analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- 108700040618 BRCA1 Genes Proteins 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种快速获取目标基因组区域比对结果数据的方法,以样本原始测序数据为基础,利用公共基因组数据库,分别获得参考基因组序列文件与所有基因的坐标信息文件,并构建参考基因组索引文件与染色体索引文件;构建样本原始测序数据的序列行号与基因组比对坐标的映射关系,运用映射关系,快速重构出目标基因序列的样本原始测序数据;利用染色体索引文件和目标基因序列的样本原始测序数据进行序列比对,获得目标基因序列原始比对数据文件,再经过排序和去重,获得最终的目标基因组区域比对结果数据。这种方法具有部署简单、操作方便、高效性、高通量、适用范围广的特点。所得结果与原始二级数据BAM文件相比基本无信息损失。
Description
技术领域
本发明涉及生物信息学与精准医学基因组变异检测技术领域,具体涉及一种以样本原始测序数据为基础,快速获取目标基因组区域比对结果数据的方法。
背景技术
伴随精准医学的快速发展,高通量测序技术(Next-Generation Sequencing,NGS)逐渐成为基因检测手段的首选方式。样本进行NGS测序同时带来了大量的测序数据,导致人们对计算机的计算能力与存储有了越来越高的要求。目前,人们对NGS数据根据类型的不同,做出了等级分类,不同等级的数据对存储形式也有不同的要求,大致分类如下:
a.样本的原始数据,通常文件格式为FASTQ,为一级数据,需要长期保存,访问的频次较低。
b.样本的比对结果,通常文件格式为BAM,为二级数据,是基于一级FASTQ数据通过不同的分析手段和方法所衍生出来的,这类数据不需要长期保存,但此类数据被访问的频次较高。
当前,分析人员在处理NGS数据时,相较于一级数据,衍生所得二级数据中涵盖有更多信息,但是二级数据本身又比一级数据占用更多的存储空间,通常在完成样本的相关数据分析后,会删除衍生的二级数据。因此分析人员后续需要对二级数据更进一步的挖掘时,必须从一级数据FASTQ开始,重新耗费大量的计算和存储资源进行重分析,从而衍生出二级数据。
因此分析人员迫切需要一种新的技术方案,在显著降低存储资源需求的同时,还能快速地从一级数据衍生出二级数据,并用于更深层次的数据挖掘。
为了能够快速地对二级数据BAM文件进行后续的挖掘处理,同时又不占用太多的存储资源,当前主流的处理方式是进行原始BAM文件的缩减。简单来说就是将原始二级数据BAM文件,只提取有功能基因的基因组区域信息,并生成一个新的BAM,删除原始二级数据BAM文件,只备份该缩减版BAM文件。虽然该方法在一定程度上减少了二级数据BAM文件对存储资源占用,但也带来了以下几个方面的弊端:
a.缩减的BAM相对原始二级数据BAM文件,有一定程度的信息损失,因为伴随人们对基因的更深入了解,当前人们理解为“非功能基因区”会变成“功能基因区”;
b.缩减BAM仍然需要占用一定的存储资源,而且随着样本量的增加,依然存在存储资源不足的限制,因此人们又不得不面临另一个问题,即如何解决大量样本的缩减BAM的存储问题。
c.该方法不具备普适性,不同的数据分析人员,对有功能基因的基因区区域具有偏好性,这与分析人员所具备的知识背景有强的相关性,因此会造成同样的样本原始二级数据BAM文件,经过不同的分析人员进行缩减后,会生成完全不同的缩减BAM文件。
发明内容
本发明的目的在于,提供一种快速获取目标基因组区域比对结果数据的方法,能够实现自定义目标基因区BAM文件的快速生产,且与原始二级数据BAM文件相比,基本没有信息损失;另外,不同分析人员基于同一样本进行分析所得的二级数据BAM文件基本一致。
本发明技术方案详述如下:
一种快速获取目标基因组区域比对结果数据的方法,所述方法以样本原始测序数据为基础,包括以下步骤:
利用公共基因组数据库,分别获得参考基因组序列文件与所有基因的坐标信息文件,并构建参考基因组索引文件与染色体索引文件;
利用参考基因组索引文件和样本原始测序数据进行序列比对后获得原始比对数据文件,构建映射文件1;用样本原始测序数据构建映射文件2,映射文件1和映射文件2合并重构形成映射文件;
利用所有基因坐标信息来查询目标基因坐标信息,利用映射文件和目标基因坐标信息进行目标基因序列行号提取,获得目标序列行号信息文件,基于目标序列行号信息文件从样本原始测序数据提取目标基因序列,重构出目标基因序列的样本原始测序数据;
利用染色体索引文件和目标基因序列的样本原始测序数据进行序列比对,获得目标基因序列原始比对数据文件,再经过排序和去重,获得最终的目标基因组区域比对结果数据。
可选或优选的,上述方法中,所述映射文件1记录序列编号与序列自身的基因组坐标的映射关系,所述映射文件2记录序列编号与样本原始测序数据中的行号映射关系;映射文件记录序列编号、样本原始测序数据中序列所在行号、序列自身的基因组坐标。
可选或优选的,上述方法中,所述参考基因组索引文件获取方法包括:从公共基因组数据库中下载参考基因组序列FASTA格式文件,输入参考基因组序列FASTA格式文件,采用序列比对软件的索引构建模块,创建参考基因组索引文件;
所述染色体索引文件获取方法包括:输入参考基因组序列FASTA格式文件,采用染色体拆分软件,将参考基因组的每条染色体拆分为多个不同的染色体序列文件,输入染色体序列文件,采用序列比对软件的索引构建模块,构建染色体索引文件。
可选或优选的,上述方法中,所述目标基因坐标信息的获取方法包括:从公共基因组数据库中下载与参考基因组版本对应的所有基因结构注释文件,从所有基因结构注释文件中提取目标基因位置信息,目标基因位置信息格式:染色体编号:目标基因起始坐标-目标基因终止坐标。
可选或优选的,上述方法中,所述样本原始测序数据为NGS测序数据的FASTQ文件,所述目标基因组区域比对结果数据为BAM文件。
名词解释:
基因组:是指一个物种的单倍体的染色体数目,又称染色体组。它包含了该物种全部的DNA遗传信息;
参考基因组:参考基因组是由科学家组装的数字核酸序列数据库,是一个物种的理想个体生物中一组基因的代表实例。
样本数据FASTQ:样本进行DNA提取并进行高通量测序后,所得到的测序结果文件,文件格式为FASTQ;
DNA:脱氧核糖核酸(英文Deoxyribonucleic acid的缩写),是染色体主要组成成分,同时也是主要遗传物质;
染色体序列:参考基因组中包含的每一条染色体自身的DNA序列;
目标基因:参考基因组中包含了物种的所有基因信息,研究人员所关注的特定基因称为目标基因,可以是一个基因,也可以是多个基因。
目标序列:样本数据FASTQ文件每一条序列即为一条测序片段,这些测序片段来源于不同的基因,将属于目标基因的测序片段定义为目标序列。
序列的基因组坐标信息:样本数据FASTQ文件的每一条序列在参考基因组中都有具体的位置,位置信息即为序列的基因组坐标信息。
与现有技术相比,本发明具有如下有益效果:
(1)高效性:
本发明的方法,构建了原始数据FASTQ文件的序列行号与基因组比对坐标的映射关系,运用映射关系文件,可以快速地从原始数据FASTQ文件中提取属于目标基因区间内序列;采用染色体构建索引文件,实现目标序列的快速比对,得到目标基因的比对BAM文件。
这种方法指定任一目标基因,均能高效地从样本原始FASTQ文件得到目标基因的比对BAM文件。相较于常规的样本原始FASTQ重新进行参考基因组比对,完成后再提取目标基因的BAM文件,处理时间可以从常规处理的几个小时,缩短到十几分钟。
(2)高通量:
本发明方法对服务器计算资源要求较低,一台普通的8核心64G内存的服务器,能够允许同时运行几十个目标基因的处理任务。
(3)适用范围广;
该方法适用于目前NGS的多种数据类型,包括基因组测序,全外显子组测序等,针对不同探针类型的WES测序数据也同样使用。
(4)分析流程简便,部署方便;
本发明的方法流程部署简单,使用操作方便,只需部署相关计算节点即可完成全流程分析。
附图说明
图1为从样本原始测序数据获取目标基因组区域比对结果数据的整体流程图;
图2为参考基因组索引文件和染色体索引文件构建流程示意图;
图3为基因坐标信息的获取流程示意图;
图4为映射文件的获取流程示意图;
图5为目标序列的样本原始测序数据的获取流程示意图;
图6为最终目标基因组区域比对结果数据的获取流程示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例1快速实现从样本原始测序数据获取目标基因组区域比对结果数据的方法
整体流程概述:
(1)参考基因组与染色体索引的构建;
(2)目标基因坐标区间的获取;
(3)映射文件的构建;
(4)目标序列文件生成;
(5)目标序列染色体比对与BAM重建。
详细方法流程及模块讲解:
(1)参考基因组与染色体索引的构建
请参考图2,该步骤的作用是构建参考基因组索引文件,用于样本数据进行参考基因组比对,并获取相关序列在基因组中的相关坐标位置信息,并被用于后续构建映射文件。染色体索引的构建,用于提取到目标基因的序列后,快速完成指定染色体的序列比对,并快速得到目标基因的比对结果(BAM)文件。
构建过程:
A.从公共基因数据库(NCBI,UCSC,Ensembl等)中,下载参考基因组序列FASTA格式文件(下文以ref.fa表示参考基因组序列文件);
B.输入参考基因组序列文件ref.fa,采用序列比对软件索引构建模块,创建参考基因组的比对索引,生成的相关文件包括ref.fa.fai,ref.fa.amb,ref.fa..ann,ref.fa.bwt,ref.fa.pac,ref.fa.sa;
C.输入参考基因组序列文件ref.fa,采用染色体拆分软件,将参考基因组的每条染色体拆分为多个不同的染色体序列FASTA格式文件(下文以chr*.fa表示拆分后的多个不同的染色体序列文件);
D.输入染色体序列文件chr*.fa,采用序列比对软件索引构建模块,构建每条染色体各自的索引文件,生成的相关文件包括chr*.fa.fai,chr*.fa.amb,chr*.fa..ann,chr*.fa.bwt,chr*.fa.pac,chr*.fa.sa;
输入文件:参考基因组序列文件;
相关软件:序列下载软件、序列索引构建软件、染色体序列拆分软件;
输出文件:参考基因组序列文件与索引文件、染色体序列文件与索引文件。
(2)目标基因坐标区间的获取;
请参考图3,本步骤的作用是基于参考基因组相对应的所有基因结构注释文件,通过相关软件或自定义的软件程序,快速地得到目标基因的相关信息,包括所在染色体编号,相关的起始与终止坐标区间,为后续从样本原始数据文件中快速提取相关基因序列提供必要的信息。
A.从公共基因数据库中,下载与参考基因组版本相对应的所有基因结构注释文件,所有基因结构注释文件的格式包括多种格式,例如gff,gtf,genepred等,下载任意一种格式即可;
B.通过坐标提取工具或自定义的提取程序均可,基于所有基因结构注释文件提取目标基因的位置信息。位置信息格式:染色体编号:基因起始坐标-基因终止坐标;
示例:物种人的参考基因组版本GRCh38中,BRCA1基因坐标描述;chr17:43044294-43125364。
输入文件:所有基因结构注释文件(gff,gtf,genepred等);
相关软件:基因坐标信息提取工具;
输出信息:目标基因坐标区间。
(3)映射文件的构建
请参考图4。
A.样本数据FASTQ文件(即样本原始测序数据),通过比对工具进行参考基因组索引文件的序列比对,得到样本原始比对BAM文件;
B.通过原始比对BAM文件中的序列编号信息,以及序列的基因组坐标信息,进行构建映射文件1,该文件记录序列编号与序列自身的基因组坐标的映射关系;
C.基于样本数据FASTQ文件,构建映射文件2,该文件记录了序列编号与FASTQ文件中的行号映射关系;
D.将上述所得映射文件1与映射文件2,通过映射合并重构工具,将文件信息进行合并重构,得到最终的映射文件,该文件记录了序列编号,FASTQ文件中序列所在行号,序列自身的基因组坐标信息。
输入文件:参考基因组序列文件与索引文件、样本数据FASTQ文件;
相关软件:序列比对软件、信息提取与映射构建工具;
输出文件:映射文件。
(4)目标序列文件生成
请参考图5。
A.基于构建的映射文件,提供目标基因的坐标信息,通过目标序列行号提供工具,得到目标序列的行号信息,并保存到文件生成序列行号信息文件;
B.基于上述序列行号信息文件,采用序列提取工具,从样本数据FASTQ文件中将目标序列进行提取,并重构出目标序列FASTQ文件。
输入文件:样本数据FASTQ文件、映射文件、目标基因坐标信息;
相关软件:目标序列行号提取工具、序列提取工具;
输出文件:目标序列FASTQ文件。
(5)目标序列染色体比对与BAM重建
请参考图6。
A.通过序列比对工具,将生成的目标序列数据FASTQ文件,比对到目标基因所在的染色体索引文件,得到原始的序列比对BAM文件;
B.通过比对坐标排序工具,将原始序列比对BAM文件,按照染色体的坐标从小到大进行排序,得到坐标排序后的BAM文件;
C.通过比对序列去重工具,将排序后的BAM文件中的重复序列进行去除,得到去除重复后的BAM文件,该文件即为最终要获得的目标基因区的BAM文件,整个流程结束。
输入文件:目标序列FASTQ文件、染色体索引文件;
相关软件:序列比对软件、BAM文件排序工具、BAM文件去重工具;
输出文件:目标基因BAM文件。
上述处理流程,指定任一目标基因,都可以高效地从样本原始FASTQ文件得到目标基因的比对BAM文件,相较于常规的样本原始FASTQ文件重新进行参考基因组比对,完成后再提取目标基因的BAM文件的方法,处理时间可以从常规处理的几个小时,缩短到十几分钟。
该方法适用于目前NGS的多种数据类型,包括基因组测序、全外显子组测序等,针对不同探针类型的WES测序数据也同样适用。该方法流程部署简单,操作方便,只需要部署相关计算节点即可完成全流程分析,对服务器计算资源要求较低,一台普通的8核心64G内存的服务器,能够允许同时运行几十个目标基因的处理任务。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (5)
1.一种快速获取目标基因组区域比对结果数据的方法,所述方法以样本原始测序数据为基础,其特征在于,包括以下步骤:
利用公共基因组数据库,分别获得参考基因组序列文件与所有基因坐标信息文件,并构建参考基因组索引文件与染色体索引文件;
利用参考基因组索引文件和样本原始测序数据进行序列比对后获得原始比对数据文件,构建映射文件1;用样本原始测序数据构建映射文件2,映射文件1和映射文件2合并重构形成映射文件;
利用所有基因坐标信息来查询目标基因坐标信息,利用映射文件和目标基因坐标信息进行目标基因序列行号提取,获得目标序列行号信息文件,基于目标序列行号信息文件从样本原始测序数据提取目标基因序列,重构出目标基因序列的样本原始测序数据;
利用染色体索引文件和目标基因序列的样本原始测序数据进行序列比对,获得目标基因序列原始比对数据文件,再经过排序和去重,获得最终的目标基因组区域比对结果数据。
2.根据权利要求1所述的方法,其特征在于,所述映射文件1记录序列编号与序列自身的基因组坐标的映射关系,所述映射文件2记录序列编号与样本原始测序数据中的行号映射关系;映射文件记录序列编号、样本原始测序数据中序列所在行号、序列自身的基因组坐标。
3.根据权利要求1所述的方法,其特征在于,
所述参考基因组索引文件获取方法包括:从公共基因组数据库中下载参考基因组序列FASTA格式文件,输入参考基因组序列FASTA格式文件,采用序列比对软件的索引构建模块,创建参考基因组索引文件;
所述染色体索引文件获取方法包括:输入参考基因组序列FASTA格式文件,采用染色体拆分软件,将参考基因组的每条染色体拆分为多个不同的染色体序列文件,输入染色体序列文件,采用序列比对软件的索引构建模块,构建染色体索引文件。
4.根据权利要求3所述的方法,其特征在于,所述目标基因坐标信息的获取方法包括:从公共基因组数据库中下载与参考基因组版本对应的所有基因结构注释文件,从所有基因结构注释文件中提取目标基因位置信息,目标基因位置信息格式:染色体编号:目标基因起始坐标-目标基因终止坐标。
5.根据权利要求1所述的方法,其特征在于,所述样本原始测序数据为NGS测序数据的FASTQ文件,所述目标基因组区域比对结果数据为BAM文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110751896.7A CN113488106A (zh) | 2021-07-02 | 2021-07-02 | 一种快速获取目标基因组区域比对结果数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110751896.7A CN113488106A (zh) | 2021-07-02 | 2021-07-02 | 一种快速获取目标基因组区域比对结果数据的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113488106A true CN113488106A (zh) | 2021-10-08 |
Family
ID=77939701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110751896.7A Pending CN113488106A (zh) | 2021-07-02 | 2021-07-02 | 一种快速获取目标基因组区域比对结果数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488106A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067910A (zh) * | 2021-11-15 | 2022-02-18 | 厦门大学 | 一种基于UMI-tools和Spark的单细胞上游大数据处理方法 |
CN114328399A (zh) * | 2022-03-15 | 2022-04-12 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和系统 |
CN114464260A (zh) * | 2021-12-29 | 2022-05-10 | 天津诺禾致源生物信息科技有限公司 | 染色体水平基因组的组装方法和组装装置 |
CN115391284A (zh) * | 2022-10-31 | 2022-11-25 | 四川大学华西医院 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462211A (zh) * | 2014-11-04 | 2015-03-25 | 北京诺禾致源生物信息科技有限公司 | 重测序数据的处理方法和处理装置 |
CN106295250A (zh) * | 2016-07-28 | 2017-01-04 | 北京百迈客医学检验所有限公司 | 二代测序短序列快速比对分析方法及装置 |
CN107203703A (zh) * | 2017-05-22 | 2017-09-26 | 人和未来生物科技(长沙)有限公司 | 一种转录组测序数据计算解读方法 |
CN108537006A (zh) * | 2018-04-03 | 2018-09-14 | 郑州云海信息技术有限公司 | 一种基因序列数据处理方法、装置及系统 |
KR20190023968A (ko) * | 2017-08-30 | 2019-03-08 | 울산대학교 산학협력단 | 임상유전체 데이터 세트 전송 장치 및 방법 |
CN109712674A (zh) * | 2019-01-14 | 2019-05-03 | 深圳市泰尔迪恩生物信息科技有限公司 | 注释数据库索引结构、快速注释遗传变异的方法及系统 |
CN110491441A (zh) * | 2019-05-06 | 2019-11-22 | 西安交通大学 | 一种模拟人群背景信息的基因测序数据仿真系统及方法 |
CN111081315A (zh) * | 2019-12-20 | 2020-04-28 | 苏州赛美科基因科技有限公司 | 一种同源假基因变异检测的方法 |
CN111863128A (zh) * | 2020-06-23 | 2020-10-30 | 深圳大学 | 一种基因可变剪切分析方法 |
CN112735528A (zh) * | 2021-01-08 | 2021-04-30 | 华中农业大学 | 一种基因序列比对方法及系统 |
-
2021
- 2021-07-02 CN CN202110751896.7A patent/CN113488106A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462211A (zh) * | 2014-11-04 | 2015-03-25 | 北京诺禾致源生物信息科技有限公司 | 重测序数据的处理方法和处理装置 |
CN106295250A (zh) * | 2016-07-28 | 2017-01-04 | 北京百迈客医学检验所有限公司 | 二代测序短序列快速比对分析方法及装置 |
CN107203703A (zh) * | 2017-05-22 | 2017-09-26 | 人和未来生物科技(长沙)有限公司 | 一种转录组测序数据计算解读方法 |
KR20190023968A (ko) * | 2017-08-30 | 2019-03-08 | 울산대학교 산학협력단 | 임상유전체 데이터 세트 전송 장치 및 방법 |
CN108537006A (zh) * | 2018-04-03 | 2018-09-14 | 郑州云海信息技术有限公司 | 一种基因序列数据处理方法、装置及系统 |
CN109712674A (zh) * | 2019-01-14 | 2019-05-03 | 深圳市泰尔迪恩生物信息科技有限公司 | 注释数据库索引结构、快速注释遗传变异的方法及系统 |
CN110491441A (zh) * | 2019-05-06 | 2019-11-22 | 西安交通大学 | 一种模拟人群背景信息的基因测序数据仿真系统及方法 |
CN111081315A (zh) * | 2019-12-20 | 2020-04-28 | 苏州赛美科基因科技有限公司 | 一种同源假基因变异检测的方法 |
CN111863128A (zh) * | 2020-06-23 | 2020-10-30 | 深圳大学 | 一种基因可变剪切分析方法 |
CN112735528A (zh) * | 2021-01-08 | 2021-04-30 | 华中农业大学 | 一种基因序列比对方法及系统 |
Non-Patent Citations (3)
Title |
---|
KIMBERLY C. OLNEY等: "Reference genome and transcriptome informed by the sex chromosome complement of the sample increase ability to detect sex differences in gene expression from RNA-Seq data", 《OLNEY ET AL. BIOLOGY OF SEX DIFFERENCES》, 21 July 2020 (2020-07-21), pages 1 - 18 * |
周佩霞: "面向第三代测序技术的基因组长序列片段比对算法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, no. 2019, 15 December 2019 (2019-12-15), pages 006 - 97 * |
宋锋飞: "Ion torrent多聚碱基测序分析方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, no. 2018, 15 June 2018 (2018-06-15), pages 006 - 162 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067910A (zh) * | 2021-11-15 | 2022-02-18 | 厦门大学 | 一种基于UMI-tools和Spark的单细胞上游大数据处理方法 |
CN114464260A (zh) * | 2021-12-29 | 2022-05-10 | 天津诺禾致源生物信息科技有限公司 | 染色体水平基因组的组装方法和组装装置 |
CN114464260B (zh) * | 2021-12-29 | 2023-09-26 | 上海诺禾致源医学检验实验室有限公司 | 染色体水平基因组的组装方法和组装装置 |
CN114328399A (zh) * | 2022-03-15 | 2022-04-12 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和系统 |
CN114328399B (zh) * | 2022-03-15 | 2022-05-24 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和系统 |
CN115391284A (zh) * | 2022-10-31 | 2022-11-25 | 四川大学华西医院 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113488106A (zh) | 一种快速获取目标基因组区域比对结果数据的方法 | |
Wolff et al. | Galaxy HiCExplorer 3: a web server for reproducible Hi-C, capture Hi-C and single-cell Hi-C data analysis, quality control and visualization | |
Li | Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences | |
Numanagić et al. | Fast characterization of segmental duplications in genome assemblies | |
Burton et al. | Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions | |
US8725422B2 (en) | Methods for estimating genome-wide copy number variations | |
US20170199959A1 (en) | Genetic analysis systems and methods | |
US20160117444A1 (en) | Methods for determining absolute genome-wide copy number variations of complex tumors | |
Dündar et al. | Introduction to differential gene expression analysis using RNA-seq | |
CN106599614B (zh) | 一种高通量测序数据处理及分析流程控制方法及系统 | |
US20080281530A1 (en) | Genomic data processing utilizing correlation analysis of nucleotide loci | |
EP2844771A1 (en) | Methods for determining absolute genome-wide copy number variations of complex tumors | |
Han et al. | An accurate and rapid continuous wavelet dynamic time warping algorithm for end-to-end mapping in ultra-long nanopore sequencing | |
Holtgrewe et al. | Methods for the detection and assembly of novel sequence in high-throughput sequencing data | |
CN111192630A (zh) | 一种宏基因组数据挖掘方法 | |
CN112735517A (zh) | 一种检测染色体联合缺失的方法、装置和存储介质 | |
Sztanka-Toth et al. | Spacemake: processing and analysis of large-scale spatial transcriptomics data | |
CN113571131B (zh) | 一种泛基因组的构建方法及其相应的结构变异挖掘方法 | |
Liao et al. | A sensitive repeat identification framework based on short and long reads | |
US20130253839A1 (en) | Surprisal data reduction of genetic data for transmission, storage, and analysis | |
US20230352119A1 (en) | Method and system for subsampling of cells from single-cell genomics dataset | |
US20230102127A1 (en) | Systems and methods for identifying samples of interest by comparing aligned time-series measurements | |
Hui et al. | A microarray data pre-processing method for cancer classification | |
CN115527612B (zh) | 基于数值特征表达的基因组二四代融合组装方法及系统 | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |