CN111210875A - 一种生物信息变异位点数据格式转换方法 - Google Patents

一种生物信息变异位点数据格式转换方法 Download PDF

Info

Publication number
CN111210875A
CN111210875A CN202010029898.0A CN202010029898A CN111210875A CN 111210875 A CN111210875 A CN 111210875A CN 202010029898 A CN202010029898 A CN 202010029898A CN 111210875 A CN111210875 A CN 111210875A
Authority
CN
China
Prior art keywords
data
program
conversion system
configuration
calling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010029898.0A
Other languages
English (en)
Inventor
罗奇斌
申玉林
廖胜光
任毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiyunnord Information Technology Co Ltd
Original Assignee
Beijing Qiyunnord Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiyunnord Information Technology Co Ltd filed Critical Beijing Qiyunnord Information Technology Co Ltd
Priority to CN202010029898.0A priority Critical patent/CN111210875A/zh
Publication of CN111210875A publication Critical patent/CN111210875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基因工程技术领域,且公开了一种生物信息变异位点数据格式转换方法,所述转换方法的步骤包括有S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数;S2:启动转换系统,转换系统根据指定数据路径获取相关数据。该生物信息变异位点数据格式转换方法,只需在配置文件中修改添加参数即可完成对所有的软件进行配置,避免了对大量软件的直接操作,提高了生物信息分析效率,实现了原始数据到中间数据及最终数据的一键式转换过程,直接获取关键SNP分型信息,操作过程大大的简化,并且还支持任何运行阶段的数据输出,便于验证和检查。

Description

一种生物信息变异位点数据格式转换方法
技术领域
本发明涉及基因工程技术领域,具体为一种生物信息变异位点数据格式转换方法。
背景技术
基因体检的基础是基因测序技术的飞速发展和科学家对基因研究的日益深入,上世纪九十年代人类启动了“人类基因组计划”,利用荧光标记碱基后捕捉荧光信号,从而获得基因碱基序列信息,测序技术从第一代到如今的第三代第四代测序技术,发展经历了三十多年,测序通量、准确率大幅提高,耗时、成本大幅降低。随着基因检测由单独用于科研发展到临床级别和消费级别,市场对基因数据的高效准确处理的要求也越来越高,针对不同的测序方法,基因数据的分析方法也不尽相同,以二代测序技术(NGS)为例,测序下机数据一般会经过质量分析、数据过滤、序列比对、短序列排序、突变获取与注释等,最终获得SNP基因型数据,进一步进行解读并出具报告。数据分析流程和文件格式等如图1所示,测序数据的好坏会直接影响下有分析的结果,因此获取了NGS下机数据后需要分析数据的质量,常用的软件有 fastqc、multiqc等;数据通过质检后,我们将取出接头序列和低质量序列,以便后续分析,常用工具有SOAP等;下来需要把这些短序列与参考基因组进行对比,确定短序列在基因组上的位置,通常使用BWA软件生成*.sam文件;比对后用samtools进行排序、建索引,得到reads在参考序列中的位置和质量,得到*.bam文件;最后用GATK等得到*.vcf文件,对*.vcf文件中感兴趣的SNP和基因型提取最终获取SNP基因分型数据。
在上述过程中,流程处理数据过程繁琐,不同数据格式间的转换需要进行不同的分析流程,因此我们开发这套格式转换系统的目的是简化生物信息分析流程,做到“一键化”格式转换和数据处理,直接简单的获取SNP分型数据。
发明内容
针对上述背景技术的不足,本发明提供了一种生物信息变异位点数据格式转换方法,具备“一键化”格式转换和数据处理的优点,解决了背景技术提出的问题。
本发明提供如下技术方案:一种生物信息变异位点数据格式转换方法,所述转换方法的步骤包括有:
S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数;
S2:启动转换系统,转换系统根据指定数据路径获取相关数据;
S3:识别相关数据类型,并根据数据类型和配置文件数据确定调用的程序和顺序;
S4:依次调用并配置程序相关参数,读取上一步获得的相关数据后运行程序,获得特定数据类型的数据并按照配置文件中路径保存数据;
S5:运行结束,输出SNP分型数据。
优选的,所述转换系统包括有数据识别模块、配置模块和程序调用模块,所述配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置,所述数据识别模块根据配置模块指定的路径调取数据并识别,根据识别需要调用的程序,所述程序调用模块设置有与程序对应的调用单元,所述调用单元在调用对应程序时先根据配置文件数据对程序进行配置。
优选的,所述程序运算结束后输出并保存特定类型的数据,然后返回给转换系统一个数据保存路径,所述转换程序在调用下一个程序时将该数据保存路径指定为下一个程序的数据读取路径。
优选的,所述配置系统可以通过配置文件修改最终输出的文件类型。
优选的,所述配置系统由Python编程语言实现对各个软件的高效串接和自动化操作优选的。
本发明具备以下有益效果:
1、该生物信息变异位点数据格式转换方法,只需在配置文件中修改添加参数即可完成对所有的软件进行配置,避免了对大量软件的直接操作,提高了生物信息分析效率。
2、该生物信息变异位点数据格式转换方法,实现了原始数据到中间数据及最终数据的一键式转换过程,直接获取关键SNP分型信息,操作过程大大的简化,并且还支持任何运行阶段的数据输出,便于验证和检查。
附图说明
图1为二代测序技术(NGS)的数据分析流程和数据类型;
图2为本发明方法中转换系统的控制关系图;
图3为本发明方法中转换系统的示意图;
图4为本发明实施方式的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,一种生物信息变异位点数据格式转换方法,转换方法的步骤包括有:
S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数,本实施例基于二代测序技术 (NGS),输入数据类型为fastq数据;
S2:启动转换系统,转换系统根据指定数据路径获取相关数据,转化系统读取指定路径的fastq数据;
S3:识别相关数据类型,并根据数据类型和配置文件数据确定调用的程序和顺序,在本实施例中,基于fastq数据和配置文件确定需要一次调用 fastqc、SOAP、BWA、samtools、Picard和GATK等软件;
S4:依次调用并配置程序相关参数,读取上一步获得的相关数据后运行程序,获得特定数据类型的数据并按照配置文件中路径保存数据,在本实施例中,先调用fastqc对下机数据进行质量检测;数据通过质检后,运行SOAP 软件取出接头序列和低质量序列,以便后续分析;接下来使用BWA软件把这些短序列与参考基因组进行对比,确定短序列在基因组上的位置,生成*.sam 文件,BWA(Burrows-Wheeler Alignment tool)是目前常用的序列比对软件,能够高效的比对短序列和参考基因组,并找到短序列在参考基因组上的位置;比对后用samtools进行排序、建索引,得到reads在参考序列中的位置和质量,得到*.bam文件;运行Picard软件对组装好的全基因组数据,将过度重复测到的数据剔除掉,并对数据进行质量评价;最后用GATK等得到*.vcf文件,GATK主要用于在测序数据中找到单碱基变异(SNV)、短插入缺失(INDEL),是当前主流的寻找变异的软件。
S5:运行结束,对*.vcf文件中感兴趣的SNP和基因型提取最终获取SNP 基因分型数据输出SNP分型数据。
在本实施例中,转换系统包括有数据识别模块、配置模块和程序调用模块,配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置,数据识别模块根据配置模块指定的路径调取数据并识别,根据识别需要调用的程序,程序调用模块设置有与程序对应的调用单元,调用单元在调用对应程序时先根据配置文件数据对程序进行配置,通过转换系统自动化运行上述步骤,做到输入上述的任一种类型的文件,都会输出SNP分型数据,不用再进行其他分析流程,同时每次进行新样本分析时,就不用修改程序代码,只用创建一个配置文件,主程序将主动读取配置文件,生成并执行相应的代码。
在本实施例中,程序运算结束后输出并保存特定类型的数据,然后返回给转换系统一个数据保存路径,转换程序在调用下一个程序时将该数据保存路径指定为下一个程序的数据读取路径,当一项计算任务完成时,转换系统查看其输出结果,并把结果作为下一个计算任务输入,投放新的计算任务,直到流程运行完毕。
在本实施例中,配置系统可以通过配置文件修改最终输出的文件类型,使其支持输入上游文件输出下游文件,如输入*.fq文件输出*.bam文件等。
在本实施例中,配置系统由Perl/Python编程语言实现对各个软件的高效串接和自动化操作优选的。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种生物信息变异位点数据格式转换方法,其特征在于:所述转换方法的步骤包括有:
S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数;
S2:启动转换系统,转换系统根据指定数据路径获取相关数据;
S3:识别相关数据类型,并根据数据类型和配置文件数据确定调用的程序和顺序;
S4:依次调用并配置程序相关参数,读取上一步获得的相关数据后运行程序,获得特定数据类型的数据并按照配置文件中路径保存数据;
S5:运行结束,输出SNP分型数据。
2.根据权利要求1所述的一种生物信息变异位点数据格式转换方法,其特征在于:所述转换系统包括有数据识别模块、配置模块和程序调用模块,所述配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置,所述数据识别模块根据配置模块指定的路径调取数据并识别,根据识别需要调用的程序,所述程序调用模块设置有与程序对应的调用单元,所述调用单元在调用对应程序时先根据配置文件数据对程序进行配置。
3.根据权利要求1所述的一种生物信息变异位点数据格式转换方法,其特征在于:所述程序运算结束后输出并保存特定类型的数据,然后返回给转换系统一个数据保存路径,所述转换程序在调用下一个程序时将该数据保存路径指定为下一个程序的数据读取路径。
4.根据权利要求1所述的一种生物信息变异位点数据格式转换方法,其特征在于:所述配置系统可以通过配置文件修改最终输出的文件类型。
5.根据权利要求1所述的一种生物信息变异位点数据格式转换方法,其特征在于:所述配置系统由Python编程语言实现对各个软件的高效串接和自动化操作。
CN202010029898.0A 2020-01-13 2020-01-13 一种生物信息变异位点数据格式转换方法 Pending CN111210875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010029898.0A CN111210875A (zh) 2020-01-13 2020-01-13 一种生物信息变异位点数据格式转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010029898.0A CN111210875A (zh) 2020-01-13 2020-01-13 一种生物信息变异位点数据格式转换方法

Publications (1)

Publication Number Publication Date
CN111210875A true CN111210875A (zh) 2020-05-29

Family

ID=70785151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010029898.0A Pending CN111210875A (zh) 2020-01-13 2020-01-13 一种生物信息变异位点数据格式转换方法

Country Status (1)

Country Link
CN (1) CN111210875A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104762402A (zh) * 2015-04-21 2015-07-08 广州定康信息科技有限公司 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN107122626A (zh) * 2017-03-13 2017-09-01 上海海云生物科技有限公司 二代测序dna突变检测的生物信息学分析的方法及系统
CN109522284A (zh) * 2018-11-26 2019-03-26 天津渤化工程有限公司 文件批量转换方法及装置
CN110457256A (zh) * 2019-08-01 2019-11-15 大众问问(北京)信息科技有限公司 数据存储方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104762402A (zh) * 2015-04-21 2015-07-08 广州定康信息科技有限公司 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN107122626A (zh) * 2017-03-13 2017-09-01 上海海云生物科技有限公司 二代测序dna突变检测的生物信息学分析的方法及系统
CN109522284A (zh) * 2018-11-26 2019-03-26 天津渤化工程有限公司 文件批量转换方法及装置
CN110457256A (zh) * 2019-08-01 2019-11-15 大众问问(北京)信息科技有限公司 数据存储方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN106294673B (zh) 一种用户自定义规则实时解析日志数据的方法与系统
Navarro et al. ST Pipeline: an automated pipeline for spatial mapping of unique transcripts
JP2007094753A (ja) ロジック抽出支援装置
US20130055205A1 (en) Filtering source code analysis results
WO2016059733A1 (ja) 自律学習型知識構築機
CN103544298A (zh) 组件的日志分析方法和分析装置
CN105550361B (zh) 日志处理方法及装置和问答信息处理方法及装置
CN111444677A (zh) 基于大数据的阅读模型优化方法、装置、设备及介质
KR102572274B1 (ko) 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법
CN111210875A (zh) 一种生物信息变异位点数据格式转换方法
CN115577694B (zh) 标准编写的智能推荐方法
CN111913874A (zh) 一种基于语法结构变更分析的软件缺陷溯源方法
CN110609788A (zh) 一种检测静态库冲突的自动化方法
CN112863603A (zh) 细菌全基因组测序数据的自动化分析方法及系统
CN111696629B (zh) 一种rna测序数据的基因表达量计算方法
JP2002014845A (ja) テスト・スクリプト部品の自動生成方法および装置
CN111221821B (zh) 一种ai模型迭代更新方法、电子设备及存储介质
Yu et al. TransRef enables accurate transcriptome assembly by redefining accurate neo-splicing graphs
CN111429967A (zh) Pacbio三代测序数据的处理方法
CN112992270A (zh) 一种基因测序方法和装置
CN112908413A (zh) 一种基于abo基因的血型分型方法
Lara et al. A web tool to discover full-length sequences—Full-Lengther
CN114647439A (zh) 一种代码扫描的方法、代码迁移的方法及相关装置
JPH04191933A (ja) プログラム言語変換方法および装置
CN107678802A (zh) 工具集成自动化的实现和部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination