CN104462211A - 重测序数据的处理方法和处理装置 - Google Patents

重测序数据的处理方法和处理装置 Download PDF

Info

Publication number
CN104462211A
CN104462211A CN201410613754.4A CN201410613754A CN104462211A CN 104462211 A CN104462211 A CN 104462211A CN 201410613754 A CN201410613754 A CN 201410613754A CN 104462211 A CN104462211 A CN 104462211A
Authority
CN
China
Prior art keywords
variation
data
resurveying
indel
querying condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410613754.4A
Other languages
English (en)
Other versions
CN104462211B (zh
Inventor
牛青山
曹银川
闫军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Original Assignee
Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd filed Critical Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority to CN201410613754.4A priority Critical patent/CN104462211B/zh
Publication of CN104462211A publication Critical patent/CN104462211A/zh
Application granted granted Critical
Publication of CN104462211B publication Critical patent/CN104462211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种重测序数据的处理方法和处理装置。该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。该处理方法根据用户感兴趣的查询条件进行查询并快速显示符合查询条件的属性信息,且操作简单,方便客户自行查询,又能满足客户多样化的查询需求。

Description

重测序数据的处理方法和处理装置
技术领域
本发明涉及高通量测序数据的处理领域,具体而言,涉及一种重测序数据的处理方法和处理装置。
背景技术
随着高通量测序技术的发展,基因测序的成本和效率分别大幅降低和提高,越来越多的科研项目通过高通量测序的方法研究基因相关的课题。基因测序领域还没专门针对重测序结果进行个性化查询的软件,是一个很大的空缺。
在得到海量测序数据后,对其进行有效筛选和显示的软件很少,且功能不全,针对性不强。例如DNAStar软件,该软件由EditSeq MegAlign、GeneQuest MapDraw PrimerSelectProtean SeqMan II七个模块组成,功能主要有:序列的格式转换,序列拼接和重叠克隆群的处理;基因寻找;蛋白质结构域的查找;多重序列的比较和两两序列比较;寡核苷酸设计(PCR引物,测序引物,探针)。这样的生物学辅助软件,无法让科研工作者进行根据自己的需要对样本以及样本间进行更多样化的查询或比较,如果想获取这些信息还需要专门的机构进行分析,费时费力,成本较高,而且受限于技术、思路、沟通等因素,不一定能得到科研人员期望的结果。
针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案。
发明内容
针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种重测序数据的处理方法和装置,以满足客户对重测序数据的多样化处理需求。
为了实现上述目的,根据本发明的一个方面,提供了一种重测序数据的处理方法,该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。
进一步地,在变异信息标签为SNP的情况下,查询条件至少还包括:与SNP对应的至少一个基因区域或至少一种密码子变异类型;在变异信息标签为INDEL的情况下,查询条件至少还包括:与INDEL对应的至少一个基因区域或者INDEL是否存在漂移;在变异信息标签为SV的情况下,查询条件至少还包括:与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;在变异信息标签为CNV的情况下,查询条件至少还包括:与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。
进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第一数据表;第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对第一文件进行筛选,得到与一种或多种密码子变异类型相对应的属性信息,属性信息为第二数据表;第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第三数据表;第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括INDEL是否存在漂移,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用INDEL是否存在漂移对第一文件进行筛选,得到与INDL是否存在漂移相对应的属性信息,属性信息为第四数据表;第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
进一步地,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数相对应的属性信息,属性信息为第五数据表;第五数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持SV变异的双端测序序列的数目、支持SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。
进一步地,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数对应的属性信息,属性信息为第六数据表;第六数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。
进一步地,在确定基因组的重测序数据的文件路径之后,处理方法还包括:判断基因组的重测序数据的文件路径是否有效,其中,在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。
进一步地,在查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含重测序数据的重测序数据文件之后,处理方法还包括:读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;在处理指令为比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取每个样本在基因组中满足查询条件的属性信息;比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
进一步地,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果的步骤包括:在变异信息标签为SNP的情况下,比对任意两个样本在基因组中满足与SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,SNP比对结果为第七数据表,第七数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;在变异信息标签为INDEL的情况下,比对任意两个样本在基因组中满足与INDEL对应的至少一个基因区域或者INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,比对结果为第八数据表,第八数据表包括多个数据列,每个数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;在变异信息标签为SV的情况下,比对任意两个样本在基因组中满足与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,比对结果为第九数据表,第九数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;在变异信息标签为CNV的情况下,比对任意两个样本在基因组中满足与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,比对结果为第十数据表,第十数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。
根据本发明的另一方面,提供了一种重测序数据的处理装置,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;接收模块,用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;以及显示模块,用于显示基因组中满足查询条件的属性信息。
进一步地,在执行路径模块之后,处理装置还包括:判断模块,用于判断基因组的重测序数据的文件路径是否有效;第一处理模块,用于在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤;第二处理模块,用于在基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。
进一步地,在接收模块接收到的查询条件包括:基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行文件读取模块后,处理装置还包括:指令读取模块:用于读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;以及比对模块,用于比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
应用本发明的技术方案,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理方法对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例的重测序数据处理装置的结构示意图;
图2示出了根据本发明的实施例的重测序数据处理方法的流程图;
图3示出了根据本发明的实施例的重测序数据处理方法的详细流程图;以及
图4示出了根据图2所示的实施例中查询条件包括SNP信息标签情况下的重测序数据处理方法的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
在本发明中,SNP(single nucleotide polymorphism)代表单核苷酸多态性;INDEL(insertand deletion)代表插入缺失;SV(structure variation)代表结构变异;CNV(copy numbervariation)代表拷贝数异常;PE reads(pair-end reads)双端测序的序列;上述词语均为本领域的常规术语。剪接体区域是指将真核RNA的内含子除去,将外显子连接起来形成具有连续的编码序列的mRNA分子。
图1是根据本发明实施例的重测序数据的处理装置的结构示意图。如图1所示,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径;接收模块,用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;显示模块,用于显示基因组中满足查询条件的属性信息。
采用本发明的重测序数据的处理装置,通过路径模块确定基因组的重测序数据的文件路径,然后文件读取模块按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,之后接收模块接收用户输入的查询条件,查询模块根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后显示模块将基因组中满足查询条件的属性信息显示出来。本发明的处理装置,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理装置对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
具体地,基因名称可以是一个或多个,当基因名称是多个时,每行一个。染色体区间可以是某条染色体的编号,也可以是该染色体编号下对应的物理位置区间,比如:3号染色体或者3号染色体上的35687bp至61235bp。变异信息标签包括基因组上各种可能的变异情况,包括SNP(单核苷酸多态性)、INDEL(插入缺失)、SV(结构变异)以及CNV(拷贝数变异)。
根据本发明的上述实施例,在执行路径模块之后,处理装置还包括:判断模块,用于判断基因组的重测序数据的文件路径是否有效;第一处理模块,用于在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤;第二处理模块,用于在基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。
上述实施例中,判断模块能够判断待处理的基因组的重测序数据的文件路径是否有效,若在确定基因组的重测序数据的文件路径有效的情况下,则通过第一处理模块执行读取包含重测序数据的重测序数据文件的步骤;若在确定重测序数据的文件路径无效的情况下,则通过第二处理模块重新确定有效的文件路径或者结束处理流程。
其中,判断模块通过检测需要处理的基因组的重测序数据的文件是否存在于重测序数据库中,来确定需要处理的基因组的重测序数据的文件路径是否有效。
在本发明的上述实施例中,在接收模块接收到的查询条件包括:基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行接收模块后,处理装置还包括:指令读取模块:用于读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;以及比对模块,用于比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
其中,当接受模块接收的查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行接收模块后,通过指令读取模块读取接收到用于处理重测序数据文件的处理指令,处理指令包括查询指令和比对指令;然后查询模块根据查询指令从基因组的重测序数据文件中查询并获得满足接受模块中的查询条件的属性信息;最后比对模块根据比对指令,通过比对查询模块获得的基因组中满足查询条件的属性信息,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果通过显示模块进行显示。
图2是根据本发明实施例的重测序数据的处理方法的流程图。图3是根据本发明实施例的重测序数据的处理方法的详细流程图。如图2和图3所示,该处理方法包括如下步骤:
步骤A,确定基因组的重测序数据的文件路径;
步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;
步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;
具体地,基因名称可以是一个或多个,当基因名称是多个时,每行一个。染色体区间可以是某条染色体的编号,也可以是该染色体编号下对应的物理位置区间,比如:3号染色体或者3号染色体上的35687bp至61235bp。变异信息标签包括基因组上各种可能的变异情况,包括SNP(单核苷酸多态性)、INDEL(插入缺失)、SV(结构变异)以及CNV(拷贝数变异)。
步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息;
步骤E,显示基因组中满足查询条件的属性信息。
采用本发明的重测序数据的处理方法,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理方法对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
在上述实施例中,当接收到的查询条件仅为基因名称时,本发明的上述处理方法能够显示重测序数据文件中与该基因名称相对应的所有属性信息,比如基因ID号、所在的染色体编号、基因序列、基因的外显子区域、基因内含子区域、上下游区域、基因的SNP变异、INDEL变异、SV变异、CNV变异以及各种变异发生的具体位置等详细信息。当接收到的查询条件仅为染色体区间时,上述处理方法能够显示重测序数据文件中与该染色体区间相对应的所有属性信息。当接收到的查询条件仅为染色体而未选择区间时,查询条件默认为是整条染色体,上述处理方法能够显示重测序数据文件中与该条染色体相对应的所有属性信息。当接收到的查询条件为基因名称和染色体区间时,在基因名称在该染色体区间上或者该染色体区间属于该基因上的序列一部分的情况下,上述处理方法显示与对应基因的相应染色体区间上的所有属性信息,或者,显示与对应染色体区间内的与查询的基因名称相对应的基因的所有属性信息。当接收到的查询条件是基因名称与变异信息标签时,上述处理方法能够显示基因组中与基因名称相对应的变异信息的相关属性信息。当接收到的查询条件是染色体区间与变异信息标签时,上述处理方法能够显示基因组中与染色体区间相对应的变异信息的相关属性信息。
根据变异信息标签的不同,上述实施例中接受到的用户输入的查询条件也各不相同。在实际处理过程中,具体的查询条件可根据变异信息标签的不同进行合理调整。在本发明一种优选的实施例中,在变异信息标签为SNP的情况下,查询条件至少还包括:与SNP对应的至少一个基因区域或至少一种密码子变异类型;在变异信息标签为INDEL的情况下,查询条件至少还包括:与INDEL对应的至少一个基因区域或者INDEL是否存在漂移;在变异信息标签为SV的情况下,查询条件至少还包括:与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;在变异信息标签为CNV的情况下,查询条件至少还包括:与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。
上述优选的实施例中,根据SNP、INDEL、SV以及CNV各种变异信息标签的不同,进一步根据用户自己感兴趣的各种变异信息所具有的详细特点或出于研究目的不同而对不同的变异信息进行查询而设置的查询条件,通过上述更详细的查询条件能够从测序数据文件中获取并显示符合客户要求基因组中的各变异信息的属性信息,满足客户多样化需求。
在上述优选实施例中,根据变异信息标签的不同以及查询条件的不同,具体的查询步骤也不相同。在变异信息标签为SNP的情况下,如图4所示,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第一数据表;第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
在变异信息标签为SNP的情况下,查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对第一文件进行筛选,得到与一种或多种密码子变异类型相对应的属性信息,属性信息为第二数据表;第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
上述实施例中,当变异信息标签为SNP的情况下,如图4所示,查询条件可以根据客户关注的基因区域的不同或密码子变异信息的不同进行分别查询或同时进行查询,可以获取到满足客户各种查询条件的属性信息。
在变异信息标签为INDEL的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第三数据表;第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
在变异信息标签为INDEL的情况下,查询条件至少包括INDEL是否存在漂移,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用INDEL是否存在漂移对第一文件进行筛选,得到与INDL是否存在漂移相对应的属性信息,属性信息为第四数据表;第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
上述实施例中,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数相对应的属性信息,属性信息为第五数据表;第五数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持SV变异的双端测序序列的数目、支持SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。
上述实施例中,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小,其中,SV阈值包括SV检测的分数以及支持该SV的PE序列数目,具体SV检测的分数以及支持该SV的PE序列数目,用户可以根据不同的研究目的进行合理设置。SV类型包括SV缺失(DEL)、SV插入(INS)、倒置(INV)、染色体内部迁移(ITX)以及染色体间迁移(CTX)。SV大小包括SV的长度。
上述实施例中,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数对应的属性信息,属性信息为第六数据表;第六数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。
上述实施例中,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,CNV阈值用缺失或重复的比例来表示,其中“0”表示完全缺失,“0~1”表示部分缺失,“>1”表示重复值。CNV类型包括CNV重复和CNV缺失。CNV大小表示CNV变异的长度。
根据本发明的上述实施例,在执行步骤A之后,还可以执行图3所示的步骤:判断基因组的重测序数据的文件路径是否有效,其中,在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。
具体地,根据待处理的基因组的重测序数据的文件是否保存在从测序数据库中来确定重测序数据文件路径是否有效。
上述实施例中,当步骤C中接收到的查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,执行步骤B之后,处理方法还包括:如图3所示,读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;在处理指令为比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取每个样本在基因组中满足查询条件的属性信息;然后执行步骤H:比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
其中,查询条件中包括了至少两个样本的变异信息标签的情况下,上述方法能够接收客户的比对指令,并根据查询条件中的比对样本的变异信息标签和其他查询条件执行上述步骤C和D,得到每个样本在基因组中的满足查询条件的属性信息,接着执行步骤E,对任意两个样本在基因组中满足查询条件的属性信息进行比对,生成比对结果。上述实施例的上述方法还能够实现样本间的基因注释信息、变异位置信息以及变异类型等属性信息的获取和比较。
在上述实施例中,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果的步骤包括:在变异信息标签为SNP的情况下,比对任意两个样本在基因组中满足与SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,SNP比对结果为第七数据表,第七数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;
在上述实施例中,在变异信息标签为INDEL的情况下,比对任意两个样本在基因组中满足与INDEL对应的至少一个基因区域或者INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,比对结果为第八数据表,第八数据表包括多个数据列,每个数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;
在上述实施例中,在变异信息标签为SV的情况下,比对任意两个样本在基因组中满足与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,比对结果为第九数据表,第九数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;
在上述实施例中,在变异信息标签为CNV的情况下,比对任意两个样本在基因组中满足与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,比对结果为第十数据表,第十数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。
下面结合图3和图4,以水稻基因组重测序数据为例来详细说明本发明的处理方法。首先,执行步骤S101,从重测序数据保存文件夹中获取水稻基因组重测序数据文件的保存路径,即图4所示的项目路径中;然后执行步骤S102,判断基因组的重测序数据的文件路径是否有效,如果读取的水稻基因组重测序数据文件的路径无效,则需要结束处理流程或重新输入水稻重测序数据文件的保存路径;如果读取的水稻基因组重测序数据文件路径有效,则执行步骤103,从重测序数据库中读取水稻基因组重测序数据文件,然后执行步骤S104,读取处理指令,当处理指令为查询指令的情况下,执行步骤S105,选择要查询的任意一个样本,然后执行步骤S106,读取用户输入的要查询的该样本的查询条件,查询条件包括基因名称、染色体区间、变异信息标签以及各变异信息标签内部的筛选条件,接着,执行步骤S107,根据接收到的查询条件,从水稻基因组重测序数据文件中查询满足查询条件的水稻基因组的属性信息,以查询水稻基因组中的SNP变异信息为例,如图4所示,若用户输入的查询条件为:样本1、3号染色体从2523410bp至2528465bp、外显子区域以及非同义密码子突变,则根据上述四个查询条件,对水稻基因组重测序数据文件中进行查询处理,从而获取得到样本1中第3号染色体的2523410bp至2528465bp的染色体区域发生在基因的外显子区域的SNP变异且导致三联体密码子编码的氨基酸发生改变(即密码子非同义突变)的SNP相关的属性信息,最后执行S108,显示出符合上述查询条件的属性信息。
在上述图3中,当步骤S104,读取到的处理指令为比对指令时,步骤S105中接收用户输入的样本至少为两个,步骤S106的查询条件同样为3号染色体从2523410bp至2528465bp、外显子区域以及非同义密码子突变时,对待比对的两个样本执行上述相同的查询指令的步骤,即S107和S108的步骤,得到两个对比样本的各自符合上述条件的所有SNP相关的属性信息,然后再执行比对步骤(图3中未示出),从而得到比对结果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:采用本发明的重测序数据的处理方法和装置,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,之后接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法和装置,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理装置对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种重测序数据的处理方法,其特征在于,所述处理方法包括:
步骤A,确定基因组的重测序数据的文件路径;
步骤B,使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;
步骤C,接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;
步骤D,根据所述用户输入的查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息;以及
步骤E,显示所述基因组中满足所述查询条件的属性信息。
2.根据权利要求1所述的处理方法,其特征在于,
在所述变异信息标签为SNP的情况下,所述查询条件至少还包括:与所述SNP对应的至少一个基因区域或至少一种密码子变异类型;
在所述变异信息标签为INDEL的情况下,所述查询条件至少还包括:与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移;
在所述变异信息标签为SV的情况下,所述查询条件至少还包括:与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;
在所述变异信息标签为CNV的情况下,所述查询条件至少还包括:与所述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。
3.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第一数据表;
所述第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
4.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一种或多种密码子变异类型对所述第一文件进行筛选,得到与所述一种或多种密码子变异类型相对应的属性信息,所述属性信息为第二数据表;
所述第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
5.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第三数据表;
所述第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
6.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括所述INDEL是否存在漂移,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用所述INDEL是否存在漂移对所述第一文件进行筛选,得到与所述INDL是否存在漂移相对应的属性信息,所述属性信息为第四数据表;
所述第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
7.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SV的情况下,所述查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数相对应的属性信息,所述属性信息为第五数据表;
所述第五数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持所述SV变异的双端测序序列的数目、支持所述SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。
8.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为CNV的情况下,所述查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数对应的属性信息,所述属性信息为第六数据表;
所述第六数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。
9.根据权利要求1所述的处理方法,其特征在于,在确定基因组的重测序数据的文件路径之后,所述处理方法还包括:
判断所述基因组的重测序数据的文件路径是否有效,其中,在所述基因组的重测序数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。
10.根据权利要求1所述的处理方法,其特征在于,在所述查询条件包括基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含所述重测序数据的重测序数据文件之后,所述处理方法还包括:
读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;
在所述处理指令为所述比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取所述每个样本在所述基因组中满足所述查询条件的属性信息;
比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。
11.根据权利要求10所述的处理方法,其特征在于,比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果的步骤包括:
在所述变异信息标签为SNP的情况下,比对任意两个样本在所述基因组中满足与所述SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,所述SNP比对结果为第七数据表,所述第七数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;
在所述变异信息标签为INDEL的情况下,比对任意两个样本在所述基因组中满足与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,所述比对结果为第八数据表,所述第八数据表包括多个数据列,每个所述数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;
在所述变异信息标签为SV的情况下,比对任意两个样本在所述基因组中满足与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,所述比对结果为第九数据表,所述第九数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;
在所述变异信息标签为CNV的情况下,比对任意两个样本在所述基因组中满足与所述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,所述比对结果为第十数据表,所述第十数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。
12.一种重测序数据的处理装置,其特征在于,所述处理装置包括:
路径模块,用于确定基因组的重测序数据的文件路径;
文件读取模块,用于使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;
接收模块,用于接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;
查询模块,用于根据所述用户输入的查询条件对所述重测序数据文件进行查询,以获取所述基因组中满足所述查询条件的属性信息;以及
显示模块,用于显示所述基因组中满足所述查询条件的属性信息。
13.根据权利要求12所述的处理装置,其特征在于,在执行所述路径模块之后,所述处理装置还包括:
判断模块,用于判断所述基因组的重测序数据的文件路径是否有效;
第一处理模块,用于在所述基因组的重测序数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤;
第二处理模块,用于在所述基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。
14.根据权利要求12所述的处理装置,其特征在于,在所述接收模块接收到的所述查询条件包括:基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行所述文件读取模块后,所述处理装置还包括:
指令读取模块:用于读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;以及
比对模块,用于比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。
CN201410613754.4A 2014-11-04 2014-11-04 重测序数据的处理方法和处理装置 Active CN104462211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410613754.4A CN104462211B (zh) 2014-11-04 2014-11-04 重测序数据的处理方法和处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410613754.4A CN104462211B (zh) 2014-11-04 2014-11-04 重测序数据的处理方法和处理装置

Publications (2)

Publication Number Publication Date
CN104462211A true CN104462211A (zh) 2015-03-25
CN104462211B CN104462211B (zh) 2018-01-02

Family

ID=52908247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410613754.4A Active CN104462211B (zh) 2014-11-04 2014-11-04 重测序数据的处理方法和处理装置

Country Status (1)

Country Link
CN (1) CN104462211B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653893A (zh) * 2015-12-25 2016-06-08 北京百迈客生物科技有限公司 一种基因组重测序分析系统及方法
CN106529208A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 神经系统对应的基因的突变位点的获取方法及装置
CN107209814A (zh) * 2015-01-13 2017-09-26 10X基因组学有限公司 用于使结构变异和相位信息可视化的系统和方法
CN108573128A (zh) * 2018-03-28 2018-09-25 山东大学 一种基于序列比对的分析dna突变类型的方法
CN109194630A (zh) * 2018-08-16 2019-01-11 朱小军 一种自主架构型仿生数据传输系统
CN109416927A (zh) * 2016-10-07 2019-03-01 Illumina公司 用于核苷酸测序数据的二级分析的系统和方法
CN109584962A (zh) * 2018-10-26 2019-04-05 广州基迪奥生物科技有限公司 一种RNA-seq在线分析报告系统及其生成方法
CN110310699A (zh) * 2019-07-01 2019-10-08 江苏里下河地区农业科学研究所 基于全基因组序列挖掘目标基因序列的分析工具及应用
CN113012755A (zh) * 2021-04-12 2021-06-22 聊城大学 基因组atcg的检索方法
CN113168888A (zh) * 2018-10-23 2021-07-23 深圳华大智造科技股份有限公司 基于fpga的重测序分析方法和装置
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法
CN113901006A (zh) * 2021-10-13 2022-01-07 国家计算机网络与信息安全管理中心 大规模基因测序数据存储与查询系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030149691A1 (en) * 2002-02-06 2003-08-07 Davin Potts Distributed blast processing architecture and associated systems and methods
CN1618984A (zh) * 2003-11-21 2005-05-25 中国医学科学院肿瘤医院肿瘤研究所 一种快速检测全基因组范围多基因变化的芯片
CN101149743A (zh) * 2007-11-09 2008-03-26 中国水产科学研究院黑龙江水产研究所 Dna测序污染序列批量处理工具
CN101847181A (zh) * 2010-04-30 2010-09-29 天津大学 一种组织特异性基因及调控因子数据存储方法
CN102521529A (zh) * 2011-12-09 2012-06-27 北京市计算中心 基于blast的分布式基因序列比对方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030149691A1 (en) * 2002-02-06 2003-08-07 Davin Potts Distributed blast processing architecture and associated systems and methods
CN1618984A (zh) * 2003-11-21 2005-05-25 中国医学科学院肿瘤医院肿瘤研究所 一种快速检测全基因组范围多基因变化的芯片
CN101149743A (zh) * 2007-11-09 2008-03-26 中国水产科学研究院黑龙江水产研究所 Dna测序污染序列批量处理工具
CN101847181A (zh) * 2010-04-30 2010-09-29 天津大学 一种组织特异性基因及调控因子数据存储方法
CN102521529A (zh) * 2011-12-09 2012-06-27 北京市计算中心 基于blast的分布式基因序列比对方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王金彦: "不结球白菜基因组数据库的构建及芸薹属作物microRNA和EST-SSR数据的挖掘与分析", 《中国博士学位论文全文数据库 农业科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209814A (zh) * 2015-01-13 2017-09-26 10X基因组学有限公司 用于使结构变异和相位信息可视化的系统和方法
CN107209814B (zh) * 2015-01-13 2021-10-15 10X基因组学有限公司 用于使结构变异和相位信息可视化的系统和方法
CN105653893A (zh) * 2015-12-25 2016-06-08 北京百迈客生物科技有限公司 一种基因组重测序分析系统及方法
CN109416927A (zh) * 2016-10-07 2019-03-01 Illumina公司 用于核苷酸测序数据的二级分析的系统和方法
CN109416927B (zh) * 2016-10-07 2023-05-02 Illumina公司 用于核苷酸测序数据的二级分析的系统和方法
CN106529208A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 神经系统对应的基因的突变位点的获取方法及装置
CN108573128B (zh) * 2018-03-28 2020-08-07 山东大学 一种基于序列比对的分析dna突变类型的方法
CN108573128A (zh) * 2018-03-28 2018-09-25 山东大学 一种基于序列比对的分析dna突变类型的方法
CN109194630A (zh) * 2018-08-16 2019-01-11 朱小军 一种自主架构型仿生数据传输系统
CN109194630B (zh) * 2018-08-16 2021-02-05 朱小军 一种自主架构型仿生数据传输系统
CN113168888A (zh) * 2018-10-23 2021-07-23 深圳华大智造科技股份有限公司 基于fpga的重测序分析方法和装置
CN109584962A (zh) * 2018-10-26 2019-04-05 广州基迪奥生物科技有限公司 一种RNA-seq在线分析报告系统及其生成方法
CN110310699A (zh) * 2019-07-01 2019-10-08 江苏里下河地区农业科学研究所 基于全基因组序列挖掘目标基因序列的分析工具及应用
CN113012755A (zh) * 2021-04-12 2021-06-22 聊城大学 基因组atcg的检索方法
CN113012755B (zh) * 2021-04-12 2023-10-27 聊城大学 基因组atcg的检索方法
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法
CN113901006A (zh) * 2021-10-13 2022-01-07 国家计算机网络与信息安全管理中心 大规模基因测序数据存储与查询系统
CN113901006B (zh) * 2021-10-13 2024-05-24 国家计算机网络与信息安全管理中心 大规模基因测序数据存储与查询系统

Also Published As

Publication number Publication date
CN104462211B (zh) 2018-01-02

Similar Documents

Publication Publication Date Title
CN104462211A (zh) 重测序数据的处理方法和处理装置
Novák et al. TAREAN: a computational tool for identification and characterization of satellite DNA from unassembled short reads
Chen et al. The IMG/M data management and analysis system v. 7: content updates and new features
Xie et al. CRISPR-GE: a convenient software toolkit for CRISPR-based genome editing
RNAcentral Consortium Petrov Anton I* Kay Simon JE Kalvari Ioanna Howe Kevin L Gray Kristian A Bruford Elspeth A Kersey Paul J Cochrane Guy Finn Robert D Bateman Alex Kozomara Ana Griffiths-Jones Sam Frankish Adam Zwieb Christian W Lau Britney Y Williams Kelly P Chan Patricia P Lowe Todd M Cannone Jamie J Gutell Robin Machnicka Magdalena A Bujnicki Janusz M Yoshihama Maki Kenmochi Naoya Chai Benli Cole James R Szymanski Maciej Karlowski Wojciech M Wood Valerie Huala Eva Berardini Tanya Z Zhao Yi Chen Runsheng Zhu Weimin Paraskevopoulou Maria D Vlachos Ioannis S Hatzigeorgiou Artemis G Ma Lina Zhang Zhang Puetz Joern Stadler Peter F McDonald Daniel Basu Siddhartha Fey Petra Engel Stacia R Cherry J Michael Volders Pieter-Jan Mestdagh Pieter Wower Jacek Clark Michael B Quek Xiu Cheng Dinger Marcel E RNAcentral: a comprehensive database of non-coding RNA sequences
Ashkenazy et al. ConSurf 2016: an improved methodology to estimate and visualize evolutionary conservation in macromolecules
Ma et al. Multicolor CRISPR labeling of chromosomal loci in human cells
Li et al. Genome-wide sequencing of 41 rice (Oryza sativa L.) mutated lines reveals diverse mutations induced by fast-neutron irradiation
Browning et al. Haplotype phasing: existing methods and new developments
CN101914628B (zh) 检测基因组目标区域多态性位点的方法
Solovyev et al. PromH: promoters identification using orthologous genomic sequences
Modrek et al. Alternative splicing in the human, mouse and rat genomes is associated with an increased frequency of exon creation and/or loss
Harr et al. Hitchhiking mapping: a population-based fine-mapping strategy for adaptive mutations in Drosophila melanogaster
Rogers et al. WormBase 2007
Degroeve et al. SpliceMachine: predicting splice sites from high-dimensional local context representations
Wu et al. mirTools 2.0 for non-coding RNA discovery, profiling, and functional annotation based on high-throughput sequencing
Conde et al. PupaSuite: finding functional single nucleotide polymorphisms for large-scale genotyping purposes
Dutheil et al. A model-based approach for detecting coevolving positions in a molecule
Gorodkin et al. Finding the most significant common sequence and structure motifs in a set of RNA sequences
Yan et al. PatMatch: a program for finding patterns in peptide and nucleotide sequences
Nilsson et al. Competitive binding-based optical DNA mapping for fast identification of bacteria-multi-ligand transfer matrix theory and experimental applications on Escherichia coli
Sugino et al. Selection for more of the same product as a force to enhance concerted evolution of duplicated genes
Zhang et al. ezQTL: a web platform for interactive visualization and colocalization of QTLs and GWAS loci
Xin et al. BPS: a database of RNA base-pair structures
Ho et al. dbDNV: a resource of duplicated gene nucleotide variants in human genome

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100085 Beijing City, Changping District small town life innovation road No. 29 building room B258

Applicant after: Beijing Polytron Technologies Inc

Address before: 100085 Beijing City, Changping District small town life innovation road No. 29 building room B258

Applicant before: Nuo Hezhi source, Beijing bioinformation Science and Technology Ltd.

GR01 Patent grant
GR01 Patent grant