CN114724628A - 一种对多物种进行多核苷酸变异鉴定和注释的方法 - Google Patents

一种对多物种进行多核苷酸变异鉴定和注释的方法 Download PDF

Info

Publication number
CN114724628A
CN114724628A CN202210435556.8A CN202210435556A CN114724628A CN 114724628 A CN114724628 A CN 114724628A CN 202210435556 A CN202210435556 A CN 202210435556A CN 114724628 A CN114724628 A CN 114724628A
Authority
CN
China
Prior art keywords
data set
mnv
snv
annotation
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210435556.8A
Other languages
English (en)
Other versions
CN114724628B (zh
Inventor
龚静
金炜炜
蒋政
曹文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Agricultural University
Original Assignee
Huazhong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Agricultural University filed Critical Huazhong Agricultural University
Priority to CN202210435556.8A priority Critical patent/CN114724628B/zh
Publication of CN114724628A publication Critical patent/CN114724628A/zh
Application granted granted Critical
Publication of CN114724628B publication Critical patent/CN114724628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种对多物种进行多核苷酸变异鉴定和注释的方法,根据已经定向好的数据集VCF,获得所有双点MNV为数据集TwoPointMNV;将数据集TwoPointMNV中所有鉴定到的双点MNV拆成单点为数据集SNV,并根据数据集SNV从数据集VCF中获取单点的行信息作为数据集SNVInfoVCF;鉴定7位点至2位点MNV,获得鉴定后的MNV并进行基于基因注释、基于非编码区注释和基于调控区注释。本发明支持大于双点的MNV的鉴定,不仅增加鉴定到的MNV的数量,而且也过滤掉原先被错误鉴定的MNV,有效对MNV进行注释。

Description

一种对多物种进行多核苷酸变异鉴定和注释的方法
技术领域
本发明属于生物技术领域,具体的说就是一种对多物种进行多核苷酸变异鉴定和注释的方法
背景技术
近年来,很多国家先后投入大量资金启动精准医疗计划,人类已逐渐走进精准医疗时代。因此,解析不同个体遗传差异,是精准医疗实行的一个重要前提。随着技术发展,获得遗传信息的时间和成本大幅度降低,人类疾病研究中鉴定到了大量的多核苷酸变异(multi-nucleotide variants,MNVs)。MNV指个体中同一个单倍型上同时存在两个或两个以上的核苷酸变异,会导致蛋白质序列的改变,相较于单核苷酸变异(同一个单倍型上单点的核苷酸变异)可能具有更高的致害性。目前,MNV的鉴定还仅仅只涉及到双点MNV的鉴定,而且传统的遗传变异注释工具(数据库和软件)通常无法对大于双点的MNV进行注释。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提供一种对多物种进行多核苷酸变异鉴定和注释的方法,不仅可以获得大于双点的MNV(至多可以鉴定到7个位点MNV),同时也对这些MNV进行功能的注释,方便科研工作者根据科研需求对鉴定和注释后的MNV数据进行筛选、探讨和研究。
本发明为了达到上述发明目的,采用如下技术方案:
一种对多物种进行多核苷酸变异鉴定和注释的方法,包括以下步骤:
步骤1、根据已经定向好的数据集VCF,获得所有双点MNV为数据集TwoPointMNV;
步骤2、将数据集TwoPointMNV中所有鉴定到的双点MNV拆成单点作为数据集SNV,并根据数据集SNV从数据集VCF中获取单点的行信息作为数据集SNVInfoVCF;
步骤3、将数据集SNV复制6份,分别记作第六副本数据集SNV7~第一副本数据集SNV2;
步骤4、鉴定7位点至2位点MNV,获得鉴定后的MNV。
如上所述的步骤4包括以下步骤:
步骤4.1、初始定义副本数据集序号n为6,初始定义位点组合序号m为n+1,初始定义组合合计次数号k为n+1;
步骤4.2、选用第n副本数据集SNV(n+1),以10bp宽度的窗口扫描第n副本数据集SNV(n+1)、枚举所有可能的m位点组合为数据集SNV(n+1)Sub;
步骤4.3、提取数据集SNV(n+1)Sub中第一个m位点组合;
步骤4.4、将该m位点组合拆成单点再从数据集SNVInfoVCF中获取单点的行信息并进行统计:分别统计m位点组合中合计为m~2的次数;
步骤4.5、对统计结果进行判断:如果m位点组合合计为k的次数等于0,那么该m位点组合不是MNV,从数据集SNV(n+1)Sub中删除该m位点组合,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;如果m位点组合合计为k的次数大于0,那么该m位点组合为MNV,保留该m位点组合并追加MNV距离、检测到该MNV的单倍型数量和频率三个信息作为鉴定后的MNV;
步骤4.6、k自减1;
步骤4.7、如果m位点组合合计为k的次数大于0,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;
如果m位点组合合计为k的次数等于0,则删除第(k-1)副本SNV(k)中存在于m位点组合中的所有单点;
步骤4.8、k自减1,返回步骤4.7,直至k自减后等于1,进入步骤4.9;
步骤4.9、副本数据集序号n自减1,定义位点组合序号m为n+1,定义组合合计次数号k为n+1,返回步骤4.2,直至副本数据集序号n自减1后等于0。
一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
步骤5、将鉴定后的MNV作为数据集AllMNV;
步骤6、将数据集AllMNV与预先内置好的多核苷酸变异注释信息数据库进行匹配,输出基于基因注释的已知数据集MNVGeneKnow和未知数据集MNVGeneUnKnow、基于非编码区注释的已知数据集MNVNonKnow和未知数据集MNVNonUnKnow、以及基于调控区注释的已知数据集MNVRegKnow和未知数据集MNVRegUnKnow。
一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
步骤7、基于基因注释,具体包括:
步骤7.1、根据选择的物种的参考基因组注释文件和CDS序列文件进行数据集GeneAnno构建,对数据集GeneAnno中所有转录本进行分组,获得分组区段数据集GeneRange;
步骤7.2、将未知数据集MNVGeneUnKnow的MNV拆成单点为数据集SinglePoint;
步骤7.3、提取数据集SinglePoint中的第一个点;
步骤7.4、将数据集SinglePoint中提取的点在分组区段数据集GeneRange进行定位,确定这个点落在分组区段数据集GeneRange的分组区段从而获得落在该分组区段的所有转录本;
步骤7.5、对步骤7.4获得的分组区段的所有转录本进行遍历,确定步骤7.4中的点具体落在的转录本以及转录本的区段,将转录本名、对应的基因名、对应的基因常用名、落在转录本上的具体区段追加到数据集SinglePoint中提取的点后;
步骤7.6、提取数据集SinglePoint中的下一个点,返回步骤7.4,直至遍历数据集SinglePoint中所有点;
步骤7.7、提取未知数据集MNVGeneUnKnow中的第一个MNV,在数据集SinglePoint中提取MNV中单点的信息并整合到对应的未知数据集MNVGeneUnKnow中提取的MNV后,重复本步骤直至遍历提取未知数据集MNVGeneUnKnow中所有MNV;
步骤7.8、将上述的未知数据集MNVGeneUnKnow和已知数据集MNVGeneKnow合并输出为数据集MNVGene。
一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
步骤8、基于非编码区注释,具体包括:
步骤8.1、对选择的物种,整合非编码区注释和第三方的非编码区注释,获得数据集NoncodingAnno,将数据集NoncodingAnno中所有非编码区段进行分组,获得区段数据集NoncodingRange:
步骤8.2、提取未知数据集MNVNonUnKnow中的第一个MNV;
步骤8.3、将该MNV在区段数据集NoncodingRange中进行定位,确定MNV落在区段数据集NoncodingRange的分组区段从而获得落在该分组区段的所有非编码区段;
步骤8.4、对步骤8.3中落在分组区段的所有非编码区段进行遍历,从而确定步骤8.3中的MNV具体落在的非编码区段,把非编码区段类型、名称和来源追加到数据集MNVNonUnKnow中提取的点后;
步骤8.5、提取未知数据集MNVNonUnKnow中的下一个MNV,返回步骤8.3,直至遍历未知数据集MNVNonUnKnow中所有的MNV;
步骤8.6、将上述的未知数据集MNVNonUnKnow和已知数据集MNVNonKnow合并输出为数据集MNVNon。
一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
步骤9、基于调控区注释,具体包括以下步骤:
步骤9.1、根据第三方的调控区注释,对选择的物种构建数据集RegulatorAnno,将数据集RegulatorAnno中所有调控区段进行分组,获得区段数据集RegulatorRange;
步骤9.2、提取未知数据集MNVRegUnKnow中的第一个MNV;
步骤9.3、将该MNV在区段数据集RegulatorRange中进行定位,确定MNV落在区段数据集RegulatorRange的分组区段从而获得落在该分组区段的所有调控区段;
步骤9.4、对步骤9.3中落在分组区段的所有调控区段进行遍历,从而确定步骤9.3中的MNV具体落在的调控区段,把调控区段类型、名称和来源追加到数据集MNVRegUnKnow中提取的点后;
步骤9.5、提取未知数据集MNVRegUnKnow中的下一个MNV,返回步骤9.3,直至遍历未知数据集MNVRegUnKnow中所有的MNV;
步骤9.6、将未知数据集MNVRegUnKnow和已知数据集MNVRegKnow合并输出为数据集MNVReg。
一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
步骤10、将数据集MNVGene、数据集MNVNon和数据集MNVReg合并输出为数据集MNVAnno。
本发明相对于现有技术,具有以下有益效果:
1、本发明方法拓展了传统的MNV鉴定方法,支持大于双点的MNV的鉴定,不仅增加鉴定到的MNV数量,而且也过滤掉原先被错误鉴定的MNV;2、传统的遗传变异注释工具不是为MNV开发的,无法对其进行有效注释,本发明专门为MNV进行注释,不仅避免了这些错误,而且也减少了大量的时间,为科研工作者提供一个研究MNV便利高效的工具。
附图说明
图1为本发明的流程图:
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例中,一种对多物种进行多核苷酸变异鉴定和注释的方法,从物种定向后的标准变异格式数据(the variant call format,VCF)中鉴定MNV并进行注释。具体的讲,如图1所示,按照如下步骤进行:
步骤1、采用已经定向好的肾上腺皮质癌标准变异格式数据(以下简称为数据集VCF)。先利用传统的多核苷酸变异鉴定工具(identify_mnv,https://github.com/macarthur-lab/gnomad_mnv)获取所有双点MNV为数据集TwoPointMNV。
步骤2、根据数据集TwoPointMNV的结果,将所有鉴定到的双点MNV拆成单点作为数据集SNV,并根据数据集SNV从数据集VCF中获取单点的行信息作为数据集SNVInfoVCF。
步骤3、将数据集SNV复制6份,分别记作第六副本数据集SNV7~第一副本数据集SNV2。
步骤4、鉴定7位点至2位点MNV,获得鉴定后的MNV,具体包括以下步骤:
步骤4.1、初始定义副本数据集序号n为6,初始定义位点组合序号m为n+1,初始定义组合合计次数号k为n+1;
步骤4.2、选用第n副本数据集SNV(n+1),以10bp宽度的窗口扫描第n副本数据集SNV(n+1)、枚举所有可能的m位点组合为数据集SNV(n+1)Sub;
步骤4.3、提取数据集SNV(n+1)Sub中第一个m位点组合;
步骤4.4、将该m位点组合拆成单点再从数据集SNVInfoVCF中获取单点的行信息并进行统计:分别统计m位点组合中合计为m~2的次数(例如,m为7时,一个样本的一条单倍型上7个点都是1,则合计为7,出现的次数记为1,一个样本的一条单倍型上6个点都是1,则合计为6,其出现的次数记为1,依次类推,一个样本的一条单倍型上2个点都是1,则合计为2,其出现的次数记为1);
步骤4.5、对统计结果进行判断:如果m位点组合合计为k的次数等于0,那么该m位点组合不是MNV,从数据集SNV(n+1)Sub中删除该m位点组合,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;如果m位点组合合计为k的次数大于0,那么该m位点组合为MNV,保留该m位点组合并追加3个信息(MNV距离、检测到该MNV的单倍型数量和频率)作为鉴定后的MNV;
步骤4.6、k自减1;
步骤4.7、如果m位点组合合计为k的次数大于0,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;
如果m位点组合合计为k的次数等于0,则删除第(k-1)副本SNV(k)中存在于m位点组合中的所有单点;
步骤4.8、k自减1,返回步骤4.7,直至k自减后等于1,进入步骤4.9;
步骤4.9、副本数据集序号n自减1,定义位点组合序号m为n+1,定义组合合计次数号k为n+1,返回步骤4.2,直至副本数据集序号n自减1后等于0,则进入下一步。
对步骤4进行举例说明:
(a)鉴定7位点MNV
选用第六副本数据集SNV7。以10bp宽度的窗口扫描第六副本数据集SNV7、枚举所有可能的7位点组合为数据集SNV7Sub。
提取数据集SNV7Sub中第一个7位点组合,将该7位点组合拆成单点再从数据集SNVInfoVCF中获取单点的行信息并进行统计:统计7位点组合中合计为7的次数(一个样本的一条单倍型上7个点都是1,则合计为7,出现的次数记为1),合计为6的次数(一个样本的一条单倍型上6个点都是1,则合计为6,其出现的次数记为1),以此类推,一直统计到合计为2的次数(一个样本的一条单倍型上2个点都是1,则合计为2,其出现的次数记为1)。
对统计结果进行判断:如果7位点组合合计为7的次数等于0,那么该7位点组合不是MNV,从数据集SNV7Sub中删除该7位点组合,提取数据集SNV7Sub中下一个7位点组合并回到步骤4.4;如果7位点组合合计为7的次数大于0,那么该7位点组合为MNV,保留该7位点组合并追加3个信息(MNV距离、检测到该MNV的单倍型数量和频率)作为鉴定后的MNV。
判断7位点组合合计为6的次数,如果大于0,提取数据集SNV7Sub中下一个7位点组合并回到步骤4.4;如果合计为6的次数等于0,则删除第五副本SNV6中存在于7位点组合中的所有单点,并判断7位点组合合计为5的次数。如果7位点组合合计为5的次数大于0,提取数据集SNV7Sub中下一个7位点组合并回到步骤4.4;如果合计为5的次数等于0,则删除第四副本SNV5中存在于7位点组合中的所有单点,并判断7位点组合合计为4的次数,以此类推。
(b)鉴定6位点MNV
选用第五副本数据集SNV6。以10bp宽度的窗口扫描第五副本数据集SNV6、枚举所有可能的6位点组合为数据集SNV6Sub。
提取数据集SNV6Sub中第一个6位点组合,将该6位点组合拆成单点再从数据集SNVInfoVCF中获取单点的行信息并进行统计:统计6位点组合中合计为6的次数(一个样本的一条单倍型上6个点都是1,则合计为6,出现的次数记为1),合计为5的次数(一个样本的一条单倍型上5个点都是1,则合计为5,其出现的次数记为1),以此类推,一直统计到合计为2的次数(一个样本的一条单倍型上2个点都是1,则合计为2,其出现的次数记为1)。
对统计结果进行判断:如果6位点组合合计为6的次数等于0,那么该6位点组合不是MNV,从数据集SNV6Sub中删除该组合,提取数据集SNV6Sub中下一个6位点组合并回到步骤4.4;如果6位点组合合计为6的次数大于0,那么该6位点组合为MNV,保留该6位点组合并追加3个信息(MNV距离、检测到该MNV的单倍型数量和频率)作为鉴定后的MNV。
判断6位点组合合计为5的次数,如果大于0,提取数据集SNV6Sub中下一个6位点组合并回到步骤4.4;如果合计为5的次数等于0,则删除第四副本SNV5中存在于6位点组合中的所有单点,并判断6位点组合合计为4的次数。如果6位点组合合计为4的次数大于0,提取数据集SNV6Sub中下一个6位点组合并回到步骤4.4;如果合计为4的次数等于0,则删除第三副本SNV4中存在于6位点组合中的所有单点,并判断6位点组合合计为3的次数,以此类推。
步骤5、经过上述循环后将输出所有类型的鉴定后的MNV作为数据集AllMNV。下面开始对这些MNV进行注释,注释包括3种类型:基于基因注释(针对的是蛋白编码基因)、基于非编码区注释和基于调控区注释。
步骤6、将数据集AllMNV与预先内置好的多核苷酸变异注释信息数据库(在之前的研究中已经被鉴定和注释好的MNV)进行匹配,输出6个结果分别是:基于基因注释的已知数据集MNVGeneKnow和未知数据集MNVGeneUnKnow、基于非编码区注释的已知数据集MNVNonKnow和未知数据集MNVNonUnKnow、基于调控区注释的已知数据集MNVRegKnow和未知数据集MNVRegUnKnow。
步骤7、基于基因注释。
步骤7.1、根据选择的物种的参考基因组注释文件和CDS序列文件进行数据集GeneAnno构建,对数据集GeneAnno中所有转录本进行分组,获得分组区段数据集GeneRange:
1)获取物种的参考基因组注释文件和CDS序列文件;
2)处理上述信息获得数据集GeneAnno,数据集GeneAnno每行代表一个转录本,列信息由两部分组成:基础信息(转录本名、染色体、链、对应的基因名、对应的基因常用名、序列信息、转录本起始位点、转录本终止位点、CDS起始位点、CDS终止位点、exon数量、exon起始位点、exon终止位点)和补充信息(基因间区段、转录本上游区段、转录本下游区段、转录本5’UTR区段、转录本3’UTR区段,转录本exon区段、转录本splicing区段、转录本intron区段);
3)根据数据集GeneAnno中每个转录本的起始位点和终止位点,将数据集GeneAnno中所有转录本进行分组,每个组有一个分组区段号(该组内所有转录本起始位点的最小值-该组内所有转录本终止位点的最大值,如1-100),确保组与组之间的分组区段号不重叠(如分组区段号1-100与分组区段号200-300),最终构建分组区段数据集GeneRange。分组区段数据集GeneRange每行表示一个分组区段,列信息包含2列:分组区段号和落在该分组区段的所有转录本(每一个转录本包含:基础信息和补充信息,不同转录本用;分隔)。
步骤7.2、将未知数据集MNVGeneUnKnow的MNV拆成单点为数据集SinglePoint。
步骤7.3、提取数据集SinglePoint中的第一个点。
步骤7.4、将数据集SinglePoint中提取的点在分组区段数据集GeneRange进行定位,确定这个点落在分组区段数据集GeneRange的哪个分组区段从而获得落在该分组区段的所有转录本。
步骤7.5、对步骤7.4中落在该分组区段的所有转录本进行遍历,从而确定步骤7.4中的点具体落在哪个转录本、转录本的哪个区段(基因间区段、转录本上游区段、转录本下游区段、转录本5’UTR区段、转录本3’UTR区段,转录本exon区段、转录本splicing区段、转录本intron区段),把这部分信息(转录本名、对应的基因名、对应的基因常用名、落在该转录本上的具体区段)追加到数据集SinglePoint中提取的点后。
步骤7.6、提取数据集SinglePoint中的下一个点,返回步骤7.4,直至遍历数据集SinglePoint中所有点。
步骤7.7、提取未知数据集MNVGeneUnKnow中的第一个MNV,在数据集SinglePoint中提取MNV中单点的信息并整合到对应的未知数据集MNVGeneUnKnow中提取的MNV后,同时计算这个MNV是否会造成氨基酸序列的改变、序列改变的类型和危险分类,并整合到对应的未知数据集MNVGeneUnKnow中提取的MNV后。重复本步骤直至遍历提取未知数据集MNVGeneUnKnow中所有MNV。
步骤7.8、将上述的未知数据集MNVGeneUnKnow和已知数据集MNVGeneKnow合并输出为数据集MNVGene;
步骤8、基于非编码区注释。
步骤8.1、对选择的物种,整合非编码区注释和第三方的非编码区注释,获得数据集NoncodingAnno,将数据集NoncodingAnno中所有非编码区段进行分组,获得区段数据集NoncodingRange:
1)获取物种的参考基因组注释文件并从参考基因组注释文件中获取非编码区注释;
2)获取其他第三方的非编码区注释(包括miRbase、NONCODE、circBase和GENCODE等);
3)整合非编码区注释和第三方的非编码区注释,获得数据集NoncodingAnno,数据集NoncodingAnno的每行代表一个非编码区段、列信息包含8列:非编码区段类型、染色体、起始位点、终止位点、链、名称、来源和其他信息如疾病信息;
4)根据数据集NoncodingAnno中每个非编码区段的起始位点和终止位点,将数据集NoncodingAnno中所有非编码区段进行分组,每个组有一个分组区段号(该组内所有非编码区段起始位点的最小值-该组内所有非编码区段终止位点的最大值,如1-100),确保组与组之间的分组区段号不重叠(如分组区段号1-100与分组区段号200-300),最终构建区段数据集NoncodingRange。区段数据集NoncodingRange每行表示一个分组区段,列信息包含2列:分组区段号和落在该分组区段的所有非编码区段(每一个非编码区段包含:非编码区段类型、染色体、起始位点、终止位点、链、名称、来源和其他信息,不同非编码区段用“;”分隔)。
步骤8.2、提取未知数据集MNVNonUnKnow中的第一个MNV。
步骤8.3、将该MNV在区段数据集NoncodingRange中进行定位,确定这个MNV落在区段数据集NoncodingRange的哪个分组区段从而获得落在该分组区段的所有非编码区段。
步骤8.4、对步骤8.3中落在该分组区段的所有非编码区段进行遍历,从而确定步骤8.3中的MNV具体落在哪个非编码区段,把这部分信息(非编码区段类型、名称、来源和其他信息)追加到数据集MNVNonUnKnow中提取的点后。
步骤8.5、提取未知数据集MNVNonUnKnow中的下一个MNV,返回步骤8.3,直至遍历未知数据集MNVNonUnKnow中所有的MNV。
步骤8.6、将上述的未知数据集MNVNonUnKnow和已知数据集MNVNonKnow合并输出为数据集MNVNon。
步骤9、基于调控区注释。
步骤9.1、根据第三方的调控区注释,对选择的物种构建数据集RegulatorAnno,将数据集RegulatorAnno中所有调控区段进行分组,获得区段数据集RegulatorRange:
1)获取第三方的调控区注释(包括FANTOM5,ATACdb,UCSC等)并整合获得数据集RegulatorAnno,每行代表一个调控区段、列信息包含8列:调控区段类型、染色体、起始位点、终止位点、链、名称、来源和其他信息如疾病信息;
2)根据数据集RegulatorAnno中每个调控区段的起始位点和终止位点,将数据集RegulatorAnno中所有调控区段进行分组,每个组有一个分组区段号(该组内所有调控区段起始位点的最小值-该组内所有调控区段终止位点的最大值,如1-100),确保组与组之间的分组区段号不重叠(如分组区段号1-100与分组区段号200-300),最终构建区段数据集RegulatorRange。区段数据集RegulatorRange每行表示一个分组区段,列信息包含2列:分组区段号和落在该分组区段的所有调控区段(每一个调控区段包含:调控区段类型、染色体、起始位点、终止位点、链、名称、来源和其他信息,不同调控区段用“;”分隔)。
步骤9.2、提取未知数据集MNVRegUnKnow中的第一个MNV。
步骤9.3、将该MNV在区段数据集RegulatorRange中进行定位,确定这个MNV落在区段数据集RegulatorRange的哪个分组区段从而获得落在该分组区段的所有调控区段。
步骤9.4、对步骤9.3中落在该分组区段的所有调控区段进行遍历,从而确定步骤9.3中的MNV具体落在哪个调控区段,把这部分信息(调控区段类型、名称、来源和其他信息)追加到数据集MNVRegUnKnow中提取的点后。
步骤9.5、提取未知数据集MNVRegUnKnow中的下一个MNV,返回步骤9.3,直至遍历未知数据集MNVRegUnKnow中所有的MNV。
步骤9.6、将上述的未知数据集MNVRegUnKnow和已知数据集MNVRegKnow合并输出为数据集MNVReg。
步骤10、将数据集MNVGene、数据集MNVNon和数据集MNVReg合并输出为数据集MNVAnno。
准备的数据集
本发明使用肾上腺皮质癌VCF数据,该数据是真实数据集。在该数据集中,包含22492行(单核苷酸位点数量)和9+77列(基础信息+人类肾上腺皮质癌样本),使用全部数据来验证其鉴定到的MNV数量与传统多核苷酸变异鉴定方法的结果比较。实验结果如表1所示。
表1本发明的多核苷酸变异的鉴定方法较传统鉴定方法的鉴定结果比对表
方法 双点MNV >2位点MNV 总数
改进的多核苷酸变异鉴定 437 17 454
传统的多核苷酸变异鉴定 494 0 494
从表1可以看出在肾上腺皮质癌VCF数据中,本发明的多核苷酸变异的鉴定方法较传统鉴定方法鉴定出了额外的其他类型的MNV共17个,以及删除了原先被错误鉴定为双点MNV共57个。
本发明还同时对所有得到的MNV进行注释。
需要指出的是,本发明中所描述的具体实施例仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims (7)

1.一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,包括以下步骤:
步骤1、根据已经定向好的数据集VCF,获得所有双点MNV为数据集TwoPointMNV;
步骤2、将数据集TwoPointMNV中所有鉴定到的双点MNV拆成单点作为数据集SNV,并根据数据集SNV从数据集VCF中获取单点的行信息作为数据集SNVInfoVCF;
步骤3、将数据集SNV复制6份,分别记作第六副本数据集SNV7~第一副本数据集SNV2;
步骤4、鉴定7位点至2位点MNV,获得鉴定后的MNV。
2.根据权利要求1所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,所述的步骤4包括以下步骤:
步骤4.1、初始定义副本数据集序号n为6,初始定义位点组合序号m为n+1,初始定义组合合计次数号k为n+1;
步骤4.2、选用第n副本数据集SNV(n+1),以10bp宽度的窗口扫描第n副本数据集SNV(n+1)、枚举所有可能的m位点组合为数据集SNV(n+1)Sub;
步骤4.3、提取数据集SNV(n+1)Sub中第一个m位点组合;
步骤4.4、将该m位点组合拆成单点再从数据集SNVInfoVCF中获取单点的行信息并进行统计:分别统计m位点组合中合计为m~2的次数;
步骤4.5、对统计结果进行判断:如果m位点组合合计为k的次数等于0,那么该m位点组合不是MNV,从数据集SNV(n+1)Sub中删除该m位点组合,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;如果m位点组合合计为k的次数大于0,那么该m位点组合为MNV,保留该m位点组合并追加MNV距离、检测到该MNV的单倍型数量和频率三个信息作为鉴定后的MNV;
步骤4.6、k自减1;
步骤4.7、如果m位点组合合计为k的次数大于0,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;
如果m位点组合合计为k的次数等于0,则删除第(k-1)副本SNV(k)中存在于m位点组合中的所有单点;
步骤4.8、k自减1,返回步骤4.7,直至k自减后等于1,进入步骤4.9;
步骤4.9、副本数据集序号n自减1,定义位点组合序号m为n+1,定义组合合计次数号k为n+1,返回步骤4.2,直至副本数据集序号n自减1后等于0。
3.根据权利要求2所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,还包括以下步骤:
步骤5、将鉴定后的MNV作为数据集AllMNV;
步骤6、将数据集AllMNV与预先内置好的多核苷酸变异注释信息数据库进行匹配,输出基于基因注释的已知数据集MNVGeneKnow和未知数据集MNVGeneUnKnow、基于非编码区注释的已知数据集MNVNonKnow和未知数据集MNVNonUnKnow、以及基于调控区注释的已知数据集MNVRegKnow和未知数据集MNVRegUnKnow。
4.根据权利要求3所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,还包括以下步骤:
步骤7、基于基因注释,具体包括:
步骤7.1、根据选择的物种的参考基因组注释文件和CDS序列文件进行数据集GeneAnno构建,对数据集GeneAnno中所有转录本进行分组,获得分组区段数据集GeneRange;
步骤7.2、将未知数据集MNVGeneUnKnow的MNV拆成单点为数据集SinglePoint;
步骤7.3、提取数据集SinglePoint中的第一个点;
步骤7.4、将数据集SinglePoint中提取的点在分组区段数据集GeneRange进行定位,确定这个点落在分组区段数据集GeneRange的分组区段从而获得落在该分组区段的所有转录本;
步骤7.5、对步骤7.4获得的分组区段的所有转录本进行遍历,确定步骤7.4中的点具体落在的转录本以及转录本的区段,将转录本名、对应的基因名、对应的基因常用名、落在转录本上的具体区段追加到数据集SinglePoint中提取的点后;
步骤7.6、提取数据集SinglePoint中的下一个点,返回步骤7.4,直至遍历数据集SinglePoint中所有点;
步骤7.7、提取未知数据集MNVGeneUnKnow中的第一个MNV,在数据集SinglePoint中提取MNV中单点的信息并整合到对应的未知数据集MNVGeneUnKnow中提取的MNV后,重复本步骤直至遍历提取未知数据集MNVGeneUnKnow中所有MNV;
步骤7.8、将上述的未知数据集MNVGeneUnKnow和已知数据集MNVGeneKnow合并输出为数据集MNVGene。
5.根据权利要求4所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,还包括以下步骤:
步骤8、基于非编码区注释,具体包括:
步骤8.1、对选择的物种,整合非编码区注释和第三方的非编码区注释,获得数据集NoncodingAnno,将数据集NoncodingAnno中所有非编码区段进行分组,获得区段数据集NoncodingRange:
步骤8.2、提取未知数据集MNVNonUnKnow中的第一个MNV;
步骤8.3、将该MNV在区段数据集NoncodingRange中进行定位,确定MNV落在区段数据集NoncodingRange的分组区段从而获得落在该分组区段的所有非编码区段;
步骤8.4、对步骤8.3中落在分组区段的所有非编码区段进行遍历,从而确定步骤8.3中的MNV具体落在的非编码区段,把非编码区段类型、名称和来源追加到数据集MNVNonUnKnow中提取的点后;
步骤8.5、提取未知数据集MNVNonUnKnow中的下一个MNV,返回步骤8.3,直至遍历未知数据集MNVNonUnKnow中所有的MNV;
步骤8.6、将上述的未知数据集MNVNonUnKnow和已知数据集MNVNonKnow合并输出为数据集MNVNon。
6.根据权利要求5所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,还包括以下步骤:
步骤9、基于调控区注释,具体包括以下步骤:
步骤9.1、根据第三方的调控区注释,对选择的物种构建数据集RegulatorAnno,将数据集RegulatorAnno中所有调控区段进行分组,获得区段数据集RegulatorRange;
步骤9.2、提取未知数据集MNVRegUnKnow中的第一个MNV;
步骤9.3、将该MNV在区段数据集RegulatorRange中进行定位,确定MNV落在区段数据集RegulatorRange的分组区段从而获得落在该分组区段的所有调控区段;
步骤9.4、对步骤9.3中落在分组区段的所有调控区段进行遍历,从而确定步骤9.3中的MNV具体落在的调控区段,把调控区段类型、名称和来源追加到数据集MNVRegUnKnow中提取的点后;
步骤9.5、提取未知数据集MNVRegUnKnow中的下一个MNV,返回步骤9.3,直至遍历未知数据集MNVRegUnKnow中所有的MNV;
步骤9.6、将未知数据集MNVRegUnKnow和已知数据集MNVRegKnow合并输出为数据集MNVReg。
7.根据权利要求6所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,还包括以下步骤:
步骤10、将数据集MNVGene、数据集MNVNon和数据集MNVReg合并输出为数据集MNVAnno。
CN202210435556.8A 2022-04-24 2022-04-24 一种对多物种进行多核苷酸变异鉴定和注释的方法 Active CN114724628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210435556.8A CN114724628B (zh) 2022-04-24 2022-04-24 一种对多物种进行多核苷酸变异鉴定和注释的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210435556.8A CN114724628B (zh) 2022-04-24 2022-04-24 一种对多物种进行多核苷酸变异鉴定和注释的方法

Publications (2)

Publication Number Publication Date
CN114724628A true CN114724628A (zh) 2022-07-08
CN114724628B CN114724628B (zh) 2022-11-08

Family

ID=82245337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210435556.8A Active CN114724628B (zh) 2022-04-24 2022-04-24 一种对多物种进行多核苷酸变异鉴定和注释的方法

Country Status (1)

Country Link
CN (1) CN114724628B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312859A (zh) * 1998-08-19 2001-09-12 生物风险公司 测定多核苷酸序列变异的方法
US6566059B1 (en) * 1998-10-01 2003-05-20 Variagenics, Inc. Method for analyzing polynucleotides
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
CN106062214A (zh) * 2013-12-28 2016-10-26 夸登特健康公司 用于检测遗传变异的方法和系统
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN109321660A (zh) * 2018-10-09 2019-02-12 北京优迅医学检验实验室有限公司 遗传标记组合、个体基因身份证及其应用
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN111696622A (zh) * 2020-05-26 2020-09-22 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法
CN114038500A (zh) * 2021-08-27 2022-02-11 海南医学院 一种识别非编码rna多肽的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312859A (zh) * 1998-08-19 2001-09-12 生物风险公司 测定多核苷酸序列变异的方法
US6566059B1 (en) * 1998-10-01 2003-05-20 Variagenics, Inc. Method for analyzing polynucleotides
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
CN106062214A (zh) * 2013-12-28 2016-10-26 夸登特健康公司 用于检测遗传变异的方法和系统
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN109321660A (zh) * 2018-10-09 2019-02-12 北京优迅医学检验实验室有限公司 遗传标记组合、个体基因身份证及其应用
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN111696622A (zh) * 2020-05-26 2020-09-22 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法
CN114038500A (zh) * 2021-08-27 2022-02-11 海南医学院 一种识别非编码rna多肽的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEI WEI ET AL.: ""MAC: identifying and correcting annotation for multi-nucleotide variations"", 《BMC GENOMICS》 *
黄建军 等: ""非编码区三核苷酸重复序列动态突变及相关疾病机制的研究进展"", 《国外医学·生理、病理科学与临床分册》 *

Also Published As

Publication number Publication date
CN114724628B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN110600078B (zh) 一种基于纳米孔测序检测基因组结构变异的方法
Au et al. Improving PacBio long read accuracy by short read alignment
CN108121897B (zh) 一种基因组变异检测方法及检测装置
CN108573127B (zh) 一种核酸第三代测序原始数据的处理方法及其应用
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
CN108256289A (zh) 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN108595912B (zh) 检测染色体非整倍性的方法、装置及系统
CN111081315A (zh) 一种同源假基因变异检测的方法
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN115631789A (zh) 一种基于泛基因组的群体联合变异检测方法
US20180039728A1 (en) Operating method of apparatus for analyzing genome sequences using distributed processing
WO2020047553A1 (en) Genetic variant detection based on merged and unmerged reads
US20040142347A1 (en) Mitochondrial DNA autoscoring system
CN115101124A (zh) 全基因组等位基因鉴定方法及装置
CN114724628B (zh) 一种对多物种进行多核苷酸变异鉴定和注释的方法
WO2019242445A1 (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
CN110111847A (zh) 基于its2鉴定植物物种的方法及设备
CN105528532A (zh) 一种rna编辑位点的特征分析方法
KR101394339B1 (ko) 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
CN113539369B (zh) 一种优化的kraken2算法及其在二代测序中的应用
CN114627967A (zh) 一种精确注释三代全长转录本的方法
KR101482010B1 (ko) 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법
CN117157714A (zh) 基因组甲基化测序数据的处理方法、装置、设备和介质
CN117501371A (zh) 非特异性扩增序列的来源引物鉴定方法、装置、设备
CN112513292A (zh) 基于高通量测序检测同源序列的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant