CN115831223B - 一种挖掘近源物种间染色体结构变异的分析方法及系统 - Google Patents

一种挖掘近源物种间染色体结构变异的分析方法及系统 Download PDF

Info

Publication number
CN115831223B
CN115831223B CN202310134751.1A CN202310134751A CN115831223B CN 115831223 B CN115831223 B CN 115831223B CN 202310134751 A CN202310134751 A CN 202310134751A CN 115831223 B CN115831223 B CN 115831223B
Authority
CN
China
Prior art keywords
segment
reference sequence
sequence
equal
query sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310134751.1A
Other languages
English (en)
Other versions
CN115831223A (zh
Inventor
李洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Business and Technology College
Original Assignee
Jilin Business and Technology College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Business and Technology College filed Critical Jilin Business and Technology College
Priority to CN202310134751.1A priority Critical patent/CN115831223B/zh
Publication of CN115831223A publication Critical patent/CN115831223A/zh
Application granted granted Critical
Publication of CN115831223B publication Critical patent/CN115831223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种挖掘近源物种间染色体结构变异的分析方法及系统,涉及生物信息技术领域,考虑了插入缺失、重复片段、倒位、易位多种情况,同时每种情况又考虑了多种可能性,通过设置全面精细的分析步骤和参数,开发出更适合近源物种之间的染色体结构变异的全面分析方法,比对长度在参考序列和查询序列均需大于500bp,结构变异片段长度需要超过1000bp即可认为是近源物种间的大的染色体结构变异,填补了近源物种间染色体结构变异分析的空白,便于抓取更大结构变异、获取更有用的信息去探究近源物种之间的差异及重要经济性状形成原因,有助于我们更好的理解基因功能、表达机理、形态特征差异及物种进化。

Description

一种挖掘近源物种间染色体结构变异的分析方法及系统
技术领域
本发明涉及生物信息技术领域,尤其涉及一种挖掘近源物种间染色体结构变异的分析方法及系统。
背景技术
随着测序技术的不断发展,测序成本越来越低,为大规模全基因组测序创造了条件,产生了大量的基因组数据,更加推动了近源物种的全基因组测序,对于基因功能的研究有了质的飞跃,同时单个基因组的信息无法挖掘真正的进化事件和物种差异。
由于基因组数据量比较大,染色体结构变异检测比较复杂,染色体结构变异的四种类型(插入和缺失、重复、倒位和异位)非常难于统计,尤其对于不同物种之间的染色体结构变异会存在更多差异,因此对于物种间染色体结构变异更加难以统计。
到目前为止,当前的染色体结构变异软件多用于物种内部的研究,还没有对物种之间的染色体结构变异进行分析和统计的程序或方法,现有很多处理物种内染色体结构变异的方法,如CN112687341B公开的一种以断点为中心的染色体结构变异鉴定方法,均是利用片段与参考序列进行比对的方法,这种物种内的结构变异分析方法的参数设定范围较小,通常认为结构变化的片段超过50bp即为大的结构变异,基于此假设进行染色体插入和缺失、重复、倒位和异位的分析,针对物种内的结构变异更为合适,因为物种内差异相对较小,但如果用于物种间结构变异分析会检测到海量的结构变异,因此存在过多的假阳性信息。对于我们探究物种间真正的基因功能和性状的差异带来困扰。因此,更需要一种新的方法来分析物种之间的染色体结构变异。
目前不同的物种之间的全基因组比对常用Lastz使用默认参数进行比对,如CN111445953B公开的一种利用全基因组比对拆分四倍体鱼类亚基因组的方法。在Lastz中首先将参考序列读入内存并构建种子位置表,该表帮助我们将目标中的任何匹配序列映射到它出现的所有位置。然后读取查询序列,检查查询序列中碱基开始的片段并使用位置表在目标中查找匹配项即为种子。将种子进行延长和扩展即得到更长的匹配即高得分片段。之后基于分数对高得分片段再进行过滤。高得分片段被连接到共线性比对的最高得分集合中,然后减少到单个位置即锚点(anchors)。然后将锚点扩展到局部比对,并通过分数过滤,然后进行后端过滤,用以舍弃不符合某些指定标准的序列比对块。然后进行插值,在序列比对区块之间的洞(holes)中以更高灵敏度重复整个过程,最终将比对结果写入输出文件。然而,目前Lastz仅用作共线性比对分析,还没有关于染色体结构变异等其他方面的应用。
众所周知,结构决定功能,本发明通过基因组比对结果的染色体结构变异分析,从而获得染色体结构的变异对基因功能的影响。染色体结构变异对基因组和物种差异的影响比单核苷酸多态性(SNP)更大,一旦发生会给生命和物种进化带来重大影响。同时染色体结构变异也代表近源物种之间的多样性特征,通过对染色体结构变异的研究有助于我们探究近源物种之间重要经济性状产生的原因。
因此,开发出更适合近源物种之间结构变异分析的方法,抓取更大结构变异、获取更有用的信息去研究物种之间的差异形成原因是当前对于近源物种研究中亟待解决的问题。通过对近源物种染色体结构变异的分析有助于我们更好对理解基因功能、表达机理、形态特征差异及物种进化。
发明内容
本发明的目的是提出一种挖掘近源物种间染色体结构变异的分析方法及系统。
为了实现上述目的,本发明提供如下技术方案:
第一方面,本发明提供了一种挖掘近源物种间染色体结构变异的分析方法,首先获得一个已知物种的全基因组参考序列和另一个近源物种的全基因组查询序列,通过Lastz获得参考序列和查询序列比对结果的Maf格式文件,再根据Maf格式文件中的数据信息进行插入缺失、重复片段、倒位或易位的判断,判断方法如下:
(1)插入缺失的判断:
将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,计算查询序列上的两个匹配片段之间的未匹配片段长度diff1:查询序列片段1的终止位置end1等于查询序列片段1的起始位置start1加上查询序列片段1的匹配长度len1,即end1=start1 +len1,查询序列上的两个匹配片段之间的未匹配片段长度diff1为查询序列片段2的起始位置start2减去查询序列片段1的终止位置end1,即diff1= start2-end1;
当正向匹配时,即参考序列片段2的起始位置start2’大于或等于参考序列片段1的起始位置start1’,参考序列片段1的终止位置end1’等于参考序列片段1的起始位置start1’加上参考序列片段1的匹配长度len1’,即end1’= start1’+len1’;参考序列上的两个匹配片段之间的未匹配片段长度diff2为参考序列片段2的起始位置start2’减去参考序列片段1的终止位置end1’,即diff2 = start2’-end1’;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1-diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;
当负向匹配时,即参考序列片段2的起始位置start2’小于或等于参考序列片段1的起始位置start1’,参考序列片段2的终止位置end2’等于参考序列片段2的起始位置start2’加上参考序列片段2的匹配长度len2’,即end2’= start2’+len2’;参考序列上两个匹配片段之间的未匹配片段长度diff2为参考序列片段1的起始位置start1’减去参考序列片段2的终止位置end2’,即diff2= start1’- end2’;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1-diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;
(2)重复片段的判断:
将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:
当参考序列上片段2的起始位置start2’大于或等于参考序列片段1的起始位置start1’,参考序列片段1的终止位置end1’等于参考序列片段1的起始位置start1’加上参考序列片段1的匹配长度len1’,即end1’= start1’+ len1’,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp,即end1’- start2’≥ 1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;
当参考序列上片段1的起始位置start1’大于或等于参考序列片段2的起始位置start2’,参考序列片段2的终止位置end2’等于参考序列片段2的起始位置start2’加上参考序列片段2的匹配长度len2’,即end2’= start2’+ len2’,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp时,即end2’- start1’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;
(3)倒位的判断:
当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:
查询序列的片段1和片段3都分别匹配到参考序列到正链上,查询序列的片段2匹配到参考序列到负链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个倒位结构变异,并输出统计结果;
查询序列的片段1和片段3都分别匹配到参考序列到负链上,查询序列到片段2匹配到参考序列到正链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个倒位结构变异,并输出统计结果;
(4)易位的判断:
包括如下三种情况:
当查询序列的片段1和片段3都分别匹配到参考序列的一条染色体上,但查询序列片段2匹配到参考序列的另外一条染色体上时,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果;
当查询序列的片段1、片段2和片段3都分别匹配到参考序列的一条染色体上,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列的片段2的起始位置start2’同时大于查询序列片段1和片段3的起始位置start1’和start3’时,如果查询序列和参考序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果;
当查询序列的片段1、片段2和片段3都分别匹配到参考序列的一条染色体上,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列的片段2的起始位置start2’同时小于查询序列的片段1和片段3的终止位置end1’和end3’时,如果查询序列和参考序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果。
进一步地, Maf格式为:从参考序列的1号染色体的0号位置依次排列,并且每列之间以tab进行分隔,查询序列数据的各列分别对应:查询序列名称及位置、查询序列起始位置信息、查询序列比对长度、查询序列正负链信息和查询序列总长;参考序列数据的各列分别对应:参考序列名称、参考序列起始位置信息、参考序列比对长度、参考序列正负链信息和参考序列总长。
进一步地,将参考序列数据统一修改到正链的方法为:如果匹配到参考序列为负链,参考序列起始位置=参考序列总长-参考序列起始位置-参考序列比对长度+1,并将参考序列正负链信息统一修改为+。
第二方面,本发明还提供了一种挖掘近源物种间染色体结构变异的分析系统,包括以下模块以实现上述任一项所述的方法:
插入缺失判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行插入缺失的染色体结构变异判断;
重复片段判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行重复片段的染色体结构变异判断;
倒位判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行倒位的染色体结构变异判断;
易位判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行易位的染色体结构变异判断。
第三方面,本发明还提供了一种可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实施上述任一项所述的方法。
第四方面,本发明还提供了一种设备,包括:处理器、通信接口、存储器和通信总线,处理器、通信接口、存储器通过通信总线完成相互间的通信,其中:存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法。
与现有技术相比,本发明的有益效果为:
本发明提供的挖掘近源物种间染色体结构变异的分析方法及系统,基于基因组学大数据,考虑了插入缺失、重复片段、倒位、易位多种情况,同时每种情况又考虑了多种可能性,通过设置分析步骤和参数,开发出更适合近源物种之间的染色体结构变异的全面分析方法,比对长度在参考序列和查询序列均需大于500bp,结构变异片段长度需要超过1000bp即可认为是近源物种间的大的染色体结构变异,填补了近源物种间染色体结构变异分析的空白,便于抓取更大结构变异、获取更有用的信息去探究物种之间的差异及重要经济性状形成原因,有助于我们更好对理解基因功能、表达机理、形态特征差异及物种进化。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的挖掘近源物种间染色体结构变异的分析方法流程图。
图2为本发明实施例提供的正向匹配时插入缺失判断示意图一。
图3为本发明实施例提供的正向匹配时插入缺失判断示意图二。
图4为本发明实施例提供的负向匹配时插入缺失的判断示意图。
图5为本发明实施例提供的重复片段判断示意图一。
图6为本发明实施例提供的重复片段判断示意图二。
图7为本发明实施例提供的倒位判断示意图一。
图8为本发明实施例提供的倒位判断示意图二。
图9为本发明实施例提供的易位判断示意图一。
图10为本发明实施例提供的易位判断示意图二。
图11为本发明实施例提供的易位判断示意图三。
图12为本发明实施例提供的设备结构示意图。
实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
实施例一
如图1所示,本发明提供的挖掘近源物种间染色体结构变异的分析方法,首先获得一个已知物种的全基因组参考序列和另一个近源物种的全基因组查询序列,通过Lastz获得参考序列和查询序列比对结果的Maf格式文件。Maf格式文件即为我们分析的输入文件。
具体地, Maf格式为:从参考序列的1号染色体的0号位置依次排列,并且每列之间以tab进行分隔,查询序列数据的各列分别对应:查询序列名称及位置、查询序列起始位置信息、查询序列比对长度、查询序列正负链信息和查询序列总长;参考序列数据的各列分别对应:参考序列名称、参考序列起始位置信息、参考序列比对长度、参考序列正负链信息和参考序列总长。
然后再根据Maf格式文件中的数据信息进行插入缺失、重复片段、倒位或易位的判断。
判断方法如下:
(1)插入缺失的判断:
将参考序列数据统一修改到正链;具体地,将参考序列数据统一修改到正链的方法为:如果匹配到参考序列为负链,参考序列起始位置=参考序列总长-参考序列起始位置-参考序列比对长度+1,并将参考序列正负链信息统一修改为+;
当查询序列的比对片段只匹配到参考序列的一条染色体上,计算查询序列上的两个匹配片段之间的未匹配片段长度diff1:查询序列片段1的终止位置end1等于查询序列片段1的起始位置start1加上查询序列片段1的匹配长度len1,即end1=start1 +len1,查询序列上的两个匹配片段之间的未匹配片段长度diff1为查询序列片段2的起始位置start2减去查询序列片段1的终止位置end1,即diff1= start2-end1;
当正向匹配时,如图2和图3所示,即参考序列片段2的起始位置start2’大于或等于参考序列片段1的起始位置start1’,参考序列片段1的终止位置end1’等于参考序列片段1的起始位置start1’加上参考序列片段1的匹配长度len1’,即end1’= start1’+len1’;参考序列上的两个匹配片段之间的未匹配片段长度diff2为参考序列片段2的起始位置start2’减去参考序列片段1的终止位置end1’,即diff2 = start2’-end1’;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1-diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;
当负向匹配时,如图4所示,即参考序列片段2的起始位置start2’小于或等于参考序列片段1的起始位置start1’,参考序列片段2的终止位置end2’等于参考序列片段2的起始位置start2’加上参考序列片段2的匹配长度len2’,即end2’= start2’+len2’;参考序列上两个匹配片段之间的未匹配片段长度diff2为参考序列片段1的起始位置start1’减去参考序列片段2的终止位置end2’,即diff2= start1’- end2’;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1-diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;
(2)重复片段的判断:
将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:
如图5所示,当参考序列上片段2的起始位置start2’大于或等于参考序列片段1的起始位置start1’,参考序列片段1的终止位置end1’等于参考序列片段1的起始位置start1’加上参考序列片段1的匹配长度len1’,即end1’= start1’+ len1’,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp,即end1’- start2’≥ 1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;
如图6所示,当参考序列上片段1的起始位置start1’大于或等于参考序列片段2的起始位置start2’,参考序列片段2的终止位置end2’等于参考序列片段2的起始位置start2’加上参考序列片段2的匹配长度len2’,即end2’= start2’+ len2’,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp时,即end2’- start1’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;
(3)倒位的判断:
当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:
如图7所示,查询序列的片段1和片段3都分别匹配到参考序列到正链上,查询序列的片段2匹配到参考序列到负链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个倒位结构变异,并输出统计结果;
如图8所示,查询序列的片段1和片段3都分别匹配到参考序列到负链上,查询序列到片段2匹配到参考序列到正链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个倒位结构变异,并输出统计结果;
(4)易位的判断:
包括如下三种情况:
如图9所示,当查询序列的片段1和片段3都分别匹配到参考序列的一条染色体(参考序列1)上,但查询序列片段2匹配到参考序列的另外一条染色体(参考序列2)上时,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果;
如图10所示,当查询序列的片段1、片段2和片段3都分别匹配到参考序列的一条染色体上,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列的片段2的起始位置start2’同时大于查询序列片段1和片段3的起始位置start1’和start3’时,如果查询序列和参考序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果;
如图11所示,当查询序列的片段1、片段2和片段3都分别匹配到参考序列的一条染色体上,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列的片段2的起始位置start2’同时小于查询序列的片段1和片段3的终止位置end1’和end3’时,如果查询序列和参考序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果。
利用本发明提供的上述方法在梅花鹿基因组和其近源物种牛的基因组进行染色体结构变异分析,且片段匹配长度均大于等于500bp,发生结构变异的长度均大于等于1000bp。
染色体倒位统计输出结果如表1,梅花鹿的染色体Backbone_257-0_10087581 与牛的7号染色体之间存在一个倒位结构。
表1染色体倒位统计输出结果
序列名称及位置 序列起始位置信息 序列比对长度 序列正负链信息 序列总长
查询序列片段1 Backbone_257-0_10087581 2871475 6407 + 10130353
参考序列片段1 7 58103037 6483 - 112638659
查询序列片段2 Backbone_257-0_10087581 2878038 4094 + 10130353
参考序列片段2 7 54489141 4048 + 112638659
查询序列片段3 Backbone_257-0_10087581 2882636 10653 + 10130353
参考序列片段3 7 58109621 10028 - 112638659
染色体易位统计输出结果如表2,梅花鹿的染色体Backbone_257-0_10087581 与牛的7号染色体之间存在一个易位结构。
表2染色体易位统计输出结果
序列名称及位置 序列起始位置信息 序列比对长度 序列正负链信息 序列总长
查询序列片段1 Backbone_257-0_10087581 2820349 6883 + 10130353
参考序列片段1 7 58052446 6718 - 112638659
查询序列片段2 Backbone_257-0_10087581 2827250 786 + 10130353
参考序列片段2 25 15609570 728 - 42904170
查询序列片段3 Backbone_257-0_10087581 2828050 3082 + 10130353
参考序列片段3 7 58059164 3073 - 112638659
查询序列片段4 Backbone_257-0_10087581 3175097 803 + 10130353
参考序列片段4 2 71793965 802 - 137060424
查询序列片段5 Backbone_257-0_10087581 3175902 1446 + 10130353
参考序列片段5 7 58412459 1445 - 112638659
染色体插入缺失统计输出结果如表3所示,梅花鹿的染色体Backbone_257-0_10087581 与牛的7号染色体之间存在一个插入缺失结构。
表3染色体插入缺失统计输出结果
序列名称及位置 序列起始位置信息 序列比对长度 序列正负链信息 序列总长
查询序列片段1 Backbone_257-0_10087581 2982826 1714 + 10130353
参考序列片段1 7 58267661 1740 - 112638659
查询序列片段2 Backbone_257-0_10087581 2985297 17082 + 10130353
参考序列片段2 7 58269401 17151 - 112638659
查询序列片段3 Backbone_257-0_10087581 2982826 1714 + 10130353
参考序列片段3 7 54369259 1740 + 112638659
查询序列片段4 Backbone_257-0_10087581 2985297 17082 + 10130353
参考序列片段4 7 54352108 17151 + 112638659
实施例二
相应于上述本发明实施例提供的近源物种间染色体结构变异的分析方法,本发明还提供了基于基因组学大数据挖掘近源物种间染色体结构变异的分析系统,包括以下模块以实现上述任一项所述的方法:
插入缺失判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行插入缺失的染色体结构变异判断;
重复片段判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行重复片段的染色体结构变异判断;
倒位判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行倒位的染色体结构变异判断;
易位判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行易位的染色体结构变异判断。
实施例三
相应于上述本发明实施例提供的近源物种间染色体结构变异的分析方法,本发明还提供了一种可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、只读存储器(ROM)、光盘、服务器、App应用商城等等,其上存储有计算机程序,计算机程序在被处理器执行时实施图1中记载的分析方法。
优选的实施例中,本发明的方法在服务器运算平台实现,采用linux系统,Dell 计算集群(14 个节点, CPU:E5-2630V4*2、E7-4820V3*4,内存 1T,存储大小为 128T,扩展存储 128T) 处理大数据,完全可以满足开展本发明的生物信息分析方法需求。
实施例四
相应于上述本发明实施例提供的近源物种间染色体结构变异的分析方法,本发明还提供了一种设备,如图12所示,处理器71、存储器72和总线,存储器72存储有处理器71可执行的机器可读指令,当电子设备运行时,处理器71与存储器72之间通过总线通信,机器可读指令被处理器71执行时执行图1中记载的分析方法。
具体地,上述存储器72和处理器71为通用的存储器和处理器,这里不做具体限定,当处理器71运行存储器72存储的计算机程序时,能够执行上述存储介质中的分析方法。
上述设备中提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述本发明实施例提供的任一分析方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字终端设备线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种挖掘近源物种间染色体结构变异的分析方法,其特征在于,首先获得一个已知物种的全基因组参考序列和另一个近源物种的全基因组查询序列,通过Lastz获得参考序列和查询序列比对结果的Maf格式文件,Maf格式为:从参考序列的1号染色体的0号位置依次排列,并且每列之间以tab进行分隔,查询序列数据的各列分别对应:查询序列名称及位置、查询序列起始位置信息、查询序列比对长度、查询序列正负链信息和查询序列总长;参考序列数据的各列分别对应:参考序列名称、参考序列起始位置信息、参考序列比对长度、参考序列正负链信息和参考序列总长;再根据Maf格式文件中的数据信息进行插入缺失、重复片段、倒位或易位的判断,判断方法如下:
(1)插入缺失的判断:
将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,计算查询序列上的两个匹配片段之间的未匹配片段长度diff1:查询序列片段1的终止位置end1等于查询序列片段1的起始位置start1加上查询序列片段1的匹配长度len1,即end1=start1 +len1,查询序列上的两个匹配片段之间的未匹配片段长度diff1为查询序列片段2的起始位置start2减去查询序列片段1的终止位置end1,即diff1= start2-end1;
当正向匹配时,即参考序列片段2的起始位置start2’大于或等于参考序列片段1的起始位置start1’,参考序列片段1的终止位置end1’等于参考序列片段1的起始位置start1’加上参考序列片段1的匹配长度len1’,即end1’= start1’+len1’;参考序列上的两个匹配片段之间的未匹配片段长度diff2为参考序列片段2的起始位置start2’减去参考序列片段1的终止位置end1’,即diff2 = start2’-end1’;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1-diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;
当负向匹配时,即参考序列片段2的起始位置start2’小于或等于参考序列片段1的起始位置start1’,参考序列片段2的终止位置end2’等于参考序列片段2的起始位置start2’加上参考序列片段2的匹配长度len2’,即end2’= start2’+len2’;参考序列上两个匹配片段之间的未匹配片段长度diff2为参考序列片段1的起始位置start1’减去参考序列片段2的终止位置end2’,即diff2= start1’- end2’;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1-diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;
(2)重复片段的判断:
将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:
当参考序列上片段2的起始位置start2’大于或等于参考序列片段1的起始位置start1’,参考序列片段1的终止位置end1’等于参考序列片段1的起始位置start1’加上参考序列片段1的匹配长度len1’,即end1’= start1’+ len1’,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp,即end1’- start2’≥ 1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;
当参考序列上片段1的起始位置start1’大于或等于参考序列片段2的起始位置start2’,参考序列片段2的终止位置end2’等于参考序列片段2的起始位置start2’加上参考序列片段2的匹配长度len2’,即end2’= start2’+ len2’,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1’和len2’均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp时,即end2’- start1’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;
(3)倒位的判断:
当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:
查询序列的片段1和片段3都分别匹配到参考序列到正链上,查询序列的片段2匹配到参考序列到负链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个倒位结构变异,并输出统计结果;
查询序列的片段1和片段3都分别匹配到参考序列到负链上,查询序列到片段2匹配到参考序列到正链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个倒位结构变异,并输出统计结果;
(4)易位的判断:
包括如下三种情况:
当查询序列的片段1和片段3都分别匹配到参考序列的一条染色体上,但查询序列片段2匹配到参考序列的另外一条染色体上时,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列和查询序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果;
当查询序列的片段1、片段2和片段3都分别匹配到参考序列的一条染色体上,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列的片段2的起始位置start2’同时大于查询序列片段1和片段3的起始位置start1’和start3’时,如果查询序列和参考序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果;
当查询序列的片段1、片段2和片段3都分别匹配到参考序列的一条染色体上,且查询序列片段1、片段2和片段3匹配到参考序列的片段1、片段2和片段3的方向相同即都是正链或都是负链上,此时,当参考序列的片段2的起始位置start2’同时小于查询序列的片段1和片段3的终止位置end1’和end3’时,如果查询序列和参考序列的片段1和片段3的匹配长度都大于或等于500bp,即len1、len3、len1’和len3’均大于或等于500bp,且查询序列和参考序列的片段2的匹配长度都大于或等于1000bp时,即len2≥1000bp且len2’≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个易位结构变异,并输出统计结果。
2.根据权利要求1所述的挖掘近源物种间染色体结构变异的分析方法,其特征在于,将参考序列数据统一修改到正链的方法为:如果匹配到参考序列为负链,参考序列起始位置=参考序列总长-参考序列起始位置-参考序列比对长度+1,并将参考序列正负链信息统一修改为+。
3.一种挖掘近源物种间染色体结构变异的分析系统,其特征在于,包括以下模块以实现权利要求1或2所述的方法:
插入缺失判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行插入缺失的染色体结构变异判断;
重复片段判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行重复片段的染色体结构变异判断;
倒位判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行倒位的染色体结构变异判断;
易位判断模块,用于根据Lastz获得的全基因组参考序列和全基因组查询序列比对结果的Maf格式文件中的数据信息进行易位的染色体结构变异判断。
4.一种可读存储介质,其上存储有计算机程序,其特征在于,计算机程序在被处理器执行时实施权利要求1或2所述的方法。
5.一种电子设备,包括:处理器、通信接口、存储器和通信总线,处理器、通信接口、存储器通过通信总线完成相互间的通信,其特征在于,存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1或2所述的方法。
CN202310134751.1A 2023-02-20 2023-02-20 一种挖掘近源物种间染色体结构变异的分析方法及系统 Active CN115831223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310134751.1A CN115831223B (zh) 2023-02-20 2023-02-20 一种挖掘近源物种间染色体结构变异的分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310134751.1A CN115831223B (zh) 2023-02-20 2023-02-20 一种挖掘近源物种间染色体结构变异的分析方法及系统

Publications (2)

Publication Number Publication Date
CN115831223A CN115831223A (zh) 2023-03-21
CN115831223B true CN115831223B (zh) 2023-06-13

Family

ID=85521914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310134751.1A Active CN115831223B (zh) 2023-02-20 2023-02-20 一种挖掘近源物种间染色体结构变异的分析方法及系统

Country Status (1)

Country Link
CN (1) CN115831223B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798922A (zh) * 2020-07-29 2020-10-20 中国农业大学 基于重测序数据中多态性位点密度鉴定小麦育种的基因组选择利用区间的方法
CN112908415A (zh) * 2021-02-23 2021-06-04 广西壮族自治区农业科学院 一种获得更准确的染色体水平基因组的方法
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004538B2 (en) * 2013-05-15 2021-05-11 Bgi Genomics Co., Ltd. Method and device for detecting chromosomal structural abnormalities
CN105989246B (zh) * 2015-01-28 2018-10-26 深圳华大智造科技有限公司 一种基于基因组组装的变异检测方法和装置
US20190080045A1 (en) * 2017-09-13 2019-03-14 The Jackson Laboratory Detection of high-resolution structural variants using long-read genome sequence analysis
CN114743594B (zh) * 2022-03-28 2023-04-18 深圳吉因加医学检验实验室 一种用于结构变异检测的方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN111798922A (zh) * 2020-07-29 2020-10-20 中国农业大学 基于重测序数据中多态性位点密度鉴定小麦育种的基因组选择利用区间的方法
CN112908415A (zh) * 2021-02-23 2021-06-04 广西壮族自治区农业科学院 一种获得更准确的染色体水平基因组的方法

Also Published As

Publication number Publication date
CN115831223A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
KR102273717B1 (ko) 심층 학습 기반 변이체 분류자
KR102448484B1 (ko) 심층 신경망에 기반한 변이체 분류자
US20210020266A1 (en) Phase-aware determination of identity-by-descent dna segments
CN104794371B (zh) 检测逆转座子插入多态性的方法和装置
WO2019200338A1 (en) Variant classifier based on deep neural networks
JP7319197B2 (ja) 標的核酸のシークエンシングデータをアライメントする方法
US20070027867A1 (en) Pattern matching apparatus and method
Grover et al. Searching microsatellites in DNA sequences: approaches used and tools developed
Kirsche et al. Jasmine: Population-scale structural variant comparison and analysis
US20240061843A1 (en) Flexible Seed Extension for Hash Table Genomic Mapping
Mulhair et al. Filtering artifactual signal increases support for Xenacoelomorpha and Ambulacraria sister relationship in the animal tree of life
Bisschop et al. Sweeps in time: leveraging the joint distribution of branch lengths
CN115831223B (zh) 一种挖掘近源物种间染色体结构变异的分析方法及系统
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
US10867134B2 (en) Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary
CN115631790A (zh) 单细胞转录组测序数据的体细胞突变提取方法及装置
CN113999908A (zh) 一种用于预测结直肠癌预后风险的试剂盒及其预测装置和预测模型的训练方法
CN114816518A (zh) 基于simhash的源代码中开源成分筛选识别方法及系统
Izadi et al. A comparative analytical assay of gene regulatory networks inferred using microarray and RNA-seq datasets
VanRaden et al. Calling known variants and identifying new variants while rapidly aligning sequence data
CN110021342B (zh) 用于加速变异位点的识别的方法及系统
Du et al. biomvRhsmm: Genomic Segmentation with Hidden Semi‐Markov Model
Ahrens et al. A fast, general synteny detection engine
CN112364581B (zh) 自动在寄存器传输级设计文件中插入特定代码的方法及装置
KR102110017B1 (ko) 분산 처리에 기반한 miRNA 분석 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant