CN116343923B

CN116343923B - 一种基因组结构变异同源性识别方法

Info

Publication number: CN116343923B
Application number: CN202310278479.4A
Authority: CN
Inventors: 姜涛; 刘诗琦; 刘博�; 王亚东
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-12-08
Anticipated expiration: 2043-03-21
Also published as: CN116343923A

Abstract

一种基因组结构变异同源性识别方法，涉及生物信息处理技术领域，针对现有技术中不能对基因组结构变异同源性进行高效识别的问题，本申请建立了一套完整、标准化的基于第三代测序数据的结构变异同源性识别方法。本申请使用设计的结构实现对结构变异同源性的高效识别，并且在整体全面识别的基础上还实现了生物体不同功能区域上的同源性识别。多维度全面的同源性识别有效的促进发现多个体之间结构变异发生的规律与特点等科学问题，从而绘制高精度的人群基因组变异图谱，有助于发现人群基因组变异规律。

Description

一种基因组结构变异同源性识别方法

技术领域

本发明涉及生物信息处理技术领域，具体为一种基因组结构变异同源性识别方法。

背景技术

基因组中分布着类型和大小千差万别的变异，包括影响范围小但数量庞大的单核苷酸变异(SNV)、在基因组变异中起着重要作用的结构变异(SV)。目前第三代测序数据平台(Pacbio以及ONT)为更加精准的结构变异识别提供了机会和可能，基于第三代测序数据大量复杂且尺度更大的结构变异检测被成功检测出来。然而对大量复杂的结构变异的同源性的高效、全面识别以成为当前的领域的重点、难点问题。

发明内容

本发明的目的是：针对现有技术中不能对基因组结构变异同源性进行高效识别的问题，提出一种基因组结构变异同源性识别方法。

本发明为了解决上述技术问题采取的技术方案是：

一种基因组结构变异同源性识别方法，包括以下步骤：

步骤一：获取参考文件和对比文件，即base以及call，并读取参考文件和对比文件中的变异信息，所述变异信息包括染色体号、变异类型、变异发生的起始位点坐标、结束位点坐标、变异的长度以及易位变异的格式，变异类型包括删除、插入、重复、倒位及易位，参考文件和对比文件的每一行都代表一个结构变异；

步骤二：根据变异类型对结构变异同源性进行识别，具体为：

针对删除、重复、倒位，执行如下步骤：

步骤二一一：通过将变异发生的起始位点坐标、结束位点坐标以及变异的长度在base以及call中分别构建四元组Sig_{sv_base}＝(chrom_base，start_base，end_base，length_base)以及Sig_{sv_call}＝(chrom_call，start_call，end_call，length_call)，其中chrom为发生变异的染色体，start表示变异的起始位点，end表示变异的结束位点，length表示变异的长度；

步骤二一二：将每条染色体以左端点至右端点之间的长度划分为长度相同的桶，然后获取base中所有变异对应四元组中的start的值，并以染色体左端点为原点，根据start的值将base中每个变异划分到对应的桶中；

步骤二一三：将call中的变异以call中变异对应四元组中的start的值进行排序，然后根据排序由上至下选取变异，并以染色体左端点为原点，根据选取的变异对应的start的值，将选取的变异划分到对应的桶中，若该桶中存在base中的变异，则该桶中base中的变异与该桶中call中的变异为候选同源性变异，否则，不为候选同源性变异；

步骤二一四：判断候选同源性变异是否为同源性变异，若为同源性变异，则记录同源性变异数量TP，并保留候选同源性变异所在桶以及所在桶之后的桶，若不为同源性变异，则不记录，判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

步骤二一五：根据call中变异的排序选取下一变异，重复步骤二一三和步骤二一四，直至call中变异全部划分完毕；

针对插入，执行如下步骤：

步骤二二一：在base以及call中分别构建三元组Sig_{ins_base}＝(chrom_base，start_base，length_base)以及Sig_{ins_call}＝(chrom_call，start_call，length_call)；

步骤二二二：将每条染色体以左端点至右端点之间的长度划分为长度相同的桶，然后获取base中所有变异对应三元组中的start的值，并以染色体左端点为原点，根据start的值将base中每个变异划分到对应的桶中；

步骤二二三：将call中的变异以call中变异对应三元组中的start的值进行排序，然后根据排序由上至下选取变异，并以染色体左端点为原点，根据选取的变异对应的start的值，将选取的变异划分到对应的桶中，若该桶中存在base中的变异，则该桶中base中的变异与该桶中call中的变异为候选同源性变异，否则，不为候选同源性变异；

步骤二二四：判断候选同源性变异是否为同源性变异，若为同源性变异，则记录同源性变异数量TP，并保留候选同源性变异所在桶以及所在桶之后的桶，若不为同源性变异，则不记录，判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

|start₁-start₂|≤offect

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

步骤二二五：根据call中变异的排序选取下一变异，重复步骤二二三和步骤二二四，直至call中变异全部划分完毕；

针对易位，执行如下步骤：

步骤二三一：在base以及call中分别构建五元组Sig_{tra_base}＝(chrom_f_base，chrom_t_base，start_f_base，start_t_base,format_base)以及Sig_{tra_call}＝(chrom_f_call，chrom_t_call，start_f_call，start_t_call,format_call)，以此记录源染色体信息和目标染色体信息，其中chrom_f和chrom_t分别为易位变异的源染色体号和目标染色体号，start_f,start_t分别为染色体上发生易位的位点信息，format表示易位变异的格式；

步骤二三二：将每条染色体以左端点至右端点之间的长度划分为长度相同的桶，然后获取base中所有变异对应五元组中的start的值，并以染色体左端点为原点，根据start的值将base中每个变异划分到对应的桶中；

步骤二三三：将call中的变异以call中变异对应五元组中的start的值进行排序，然后根据排序由上至下选取变异，并以染色体左端点为原点，根据选取的变异对应的start的值，将选取的变异划分到对应的桶中，若该桶中存在base中的变异，则该桶中base中的变异与该桶中call中的变异为候选同源性变异，否则，不为候选同源性变异；

步骤二三四：判断候选同源性变异是否为同源性变异，若为同源性变异，则记录同源性变异数量TP，并保留候选同源性变异所在桶以及所在桶之后的桶，若不为同源性变异，则不记录，判断候选同源性变异是否为同源性变异具体为：

chrom_f₁＝chrom_f₂

chrom_t₁＝chrom_t₂

|start_f₁-start_f₂|≤offect

|start_t₁-start_t₂|≤offect

format₁＝format₂

其中，下角标1表示base，下角标2表示call；

步骤二三五：根据call中变异的排序选取下一变异，重复步骤二三三和步骤二三四，直至call中变异全部划分完毕。

进一步的，所述方法还包括：步骤二四：针对base中不为同源性变异的插入变异以及重复变异的同源性识别步骤，具体为：

针对base中不为同源性变异的插入变异，具体步骤为：

步骤二四一：在base中不为同源性变异的插入变异中构建三元组Sig_{ins_base}＝(chrom_base，start_base，length_base)，在call中不为同源性变异的重复变异中构建四元组Sig_{sv_call}＝(chrom_call，start_call，end_call，length_call)；

步骤二四二：将每条染色体以左端点至右端点之间的长度划分为长度相同的桶，然后获取base中所有变异对应三元组中的start的值，并以染色体左端点为原点，根据start的值将base中每个变异划分到对应的桶中；

步骤二四三：将call中的变异以call中变异对应四元组中的start的值进行排序，然后根据排序由上至下选取变异，并以染色体左端点为原点，根据选取的变异对应的start的值，将选取的变异划分到对应的桶中，若该桶中存在base中的变异，则该桶中base中的变异与该桶中call中的变异为候选同源性变异，否则，不为候选同源性变异；

步骤二四四：判断候选同源性变异是否为同源性变异，若为同源性变异，则记录同源性变异数量TP，并保留候选同源性变异所在桶以及所在桶之后的桶，若不为同源性变异，则不记录，

判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

根据call中变异的排序选取下一变异，重复步骤二四三和步骤二四四，直至call中变异全部划分完毕；

针对base中不为同源性变异的重复变异，具体步骤为：

步骤二四五：在base中不为同源性变异的重复变异中构建四元组Sig_{sv_base}＝(chrom_base，start_base，end_base，length_base)，在call中不为同源性变异的插入变异中构建三元组Sig_{ins_call}＝(chrom_call，start_call，length_call)；

步骤二四六：将每条染色体以左端点至右端点之间的长度划分为长度相同的桶，然后获取base中所有变异对应四元组中的start的值，并以染色体左端点为原点，根据start的值将base中每个变异划分到对应的桶中；

步骤二四七：将call中的变异以call中变异对应三元组中的start的值进行排序，然后根据排序由上至下选取变异，并以染色体左端点为原点，根据选取的变异对应的start的值，将选取的变异划分到对应的桶中，若该桶中存在base中的变异，则该桶中base中的变异与该桶中call中的变异为候选同源性变异，否则，不为候选同源性变异；

步骤二四八：判断候选同源性变异是否为同源性变异，若为同源性变异，则记录同源性变异数量TP，并保留候选同源性变异所在桶以及所在桶之后的桶，若不为同源性变异，则不记录，

判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

根据call中变异的排序选取下一变异，重复步骤二四七和步骤二四八，直至call中变异全部划分完毕。

进一步的，所述方法还包括步骤三：

步骤三：基于同源性变异，进行不同基因组功能区域的同源性分类，具体步骤为：

获取基因组注释文件，即GTF，所述GTF中存储功能区域以及功能区域在基因组中的位置，

针对插入变异，根据功能区域以及功能区域在基因组中的位置，判断插入变异的start对应的功能区域，记录该功能区域，即为完成不同基因组功能区域的同源性分类；

表示为：

start_GTF≤start_SV≤end_GTF

其中，start_GTF和end_GTF分别表示GTF文件功能区域的起始位置和结束位置，start_SV表示结构变异的起始位置；

针对删除、重复、倒位和易位变异，根据功能区域以及功能区域在基因组中的位置，判断删除、重复、倒位和易位变异的start对应的功能区域，记录该功能区域，即为完成不同基因组功能区域的同源性分类；

表示为：

start_GTF≤start_SV

end_SV≤end_GTF

其中，end_SV表示结构变异的结束位置。

进一步的，所述方法还包括识别方法评测步骤：

利用F1-score对识别方法进行评测，表示为：

其中，recall表示召回率，precision表示精确度，total_call表示提取出call文件中的元祖总数，total_base表示提取出call文件中的元祖总数，TP表示记录的同源性变异。

进一步的，所述功能区域包括基因、转录本、外显子、起始子、终止子、3’非编码区域以及5’非编码区域。

进一步的，所述长度相同的桶，桶的长度default＝100000。

进一步的，所述删除变异的offect和bias取值分别为800和0.7，重复变异的offect和bias取值分别为1200和0.7，倒位变异的offect和bias取值分别为1000和0.7。

进一步的，所述插入变异的offect和bias取值分别为800和0.7。

进一步的，所述易位变异的offect和bias取值分别为1000和0.7。

进一步的，所述步骤三中，判断插入变异的start对应的功能区域以及判断删除、重复、倒位和易位变异的start对应的功能区域，通过二分查找法进行。

本发明的有益效果是：

本申请建立了一套完整、标准化的基于第三代测序数据的结构变异同源性识别方法。本申请使用设计的结构实现对结构变异同源性的高效识别，并且在整体全面识别的基础上还实现了生物体不同功能区域上的同源性识别。多维度全面的同源性识别有效的促进发现多个体之间结构变异发生的规律与特点等科学问题，从而绘制高精度的人群基因组变异图谱，有助于发现人群基因组变异规律。

本申请专门设计的桶结构存储变异信息，提取识别结构变异同源性的相关信息。其次为了全面提升识别水平，本申请将变异中插入变异以及重复变异进行标签互换，并记录标签互换后的同源性变异，修正性能指标以全面性提示识别性能。最后，本申请提出了多维度结构变异同源性识别的策略。区分基因组功能区域，对基因组功能指定区域(基因、外显子，转录本)中的结构变异同源性进行识别，有利于下游致病性的分析。

附图说明

图1为本申请的整体流程图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种基因组结构变异同源性识别方法，包括以下步骤：

针对删除、重复、倒位，执行如下步骤：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

针对插入，执行如下步骤：

chrom₁＝chrom₂

|start₁-start₂|≤offect

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

针对易位，执行如下步骤：

chrom_f₁＝chrom_f₂

chrom_t₁＝chrom_t₂

|start_f₁-start_f₂|≤offect

|start_t₁-start_t₂|≤offect

format₁＝format₂

其中，下角标1表示base，下角标2表示call；

具体实施方式二：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述方法还包括：步骤二四：针对base中不为同源性变异的插入变异以及重复变异的同源性识别步骤，具体为：

针对base中不为同源性变异的插入变异，具体步骤为：

判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

针对base中不为同源性变异的重复变异，具体步骤为：

判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

具体实施方式三：本实施方式是对具体实施方式二的进一步说明，本实施方式与具体实施方式二的区别是所述方法还包括步骤三：

表示为：

start_GTF≤start_SV≤end_GTF

表示为：

start_GTF≤start_SV

end_SV≤end_GTF

其中，end_SV表示结构变异的结束位置。

具体实施方式四：本实施方式是对具体实施方式三的进一步说明，本实施方式与具体实施方式三的区别是所述方法还包括识别方法评测步骤：

利用F1-score对识别方法进行评测，表示为：

具体实施方式五：本实施方式是对具体实施方式四的进一步说明，本实施方式与具体实施方式四的区别是所述功能区域包括基因、转录本、外显子、起始子、终止子、3’非编码区域以及5’非编码区域。

具体实施方式六：本实施方式是对具体实施方式五的进一步说明，本实施方式与具体实施方式五的区别是所述长度相同的桶，桶的长度default＝100000。

具体实施方式七：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述删除变异的offect和bias取值分别为800和0.7，重复变异的offect和bias取值分别为1200和0.7，倒位变异的offect和bias取值分别为1000和0.7。

具体实施方式八：本实施方式是对具体实施方式七的进一步说明，本实施方式与具体实施方式七的区别是所述插入变异的offect和bias取值分别为800和0.7。

具体实施方式九：本实施方式是对具体实施方式八的进一步说明，本实施方式与具体实施方式八的区别是所述易位变异的offect和bias取值分别为1000和0.7。

具体实施方式十：本实施方式是对具体实施方式九的进一步说明，本实施方式与具体实施方式九的区别是所述步骤三中，判断插入变异的start对应的功能区域以及判断删除、重复、倒位和易位变异的start对应的功能区域，通过二分查找法进行。

(一)结构变异同源性的全面识别

首先读取输入的参考文件(base)以及比对文件(call)中的变异信息。对两个输入文件，根据VCF的格式标准，输入文件的每一行都代表一个结构变异包括染色体，变异类型等的全部信息，为了获得同源性识别的相关信息，使用制表符对每一行进行分割，首先在CHROM以及SVTYPE所对应的域中提取结构变异所在的染色体号以及具体的类型信息。使用分而治之的思想，由于不同变异的空间坐标和尺度不同，因此按照所提取的染色体号和变异类型进行分块。

其次对结构变异同源性进行识别，由于变异类型所包含的信息不同，本申请对五种变异类型(删除、插入、重复、倒位和易位)分别设计了不同的数据结构存储方法以高效存储识别时需要用到的有效信息。具体设计过程如下：

删除变异是基因组中一段连续的(>50bp)的核苷酸片段缺失重复变异是基因组中一段连续的(>50bp)的核苷酸片段复制并插入到原核苷酸片段附近的区域，倒位变异是基因组中一段连续的(>50bp)的核苷酸片段在原区域发生倒置。这三类变异在分块时除了记录变异发生所在的染色体号，通过将变异发生的起始、结束位点坐标，以及变异的长度在base以及call文件中分别构建起四元组Sig_{sv_base}＝(chrom_base，start_base，end_base，length_base)以及Sig_{sv_call}＝(chrom_call，start_call，end_call，length_call)来记录每一个的信息，其中chrom为发生变异的染色体，start表示变异的起始位点，end表示变异的结束位点，length表示变异的长度。为了快速匹配查找到同源性变异，将每条染色体划分成长度相同(default＝100000)的桶，按照base文件Sig_{sv_base}中的start域将四元组分配到相应长度的桶(Bucket)(桶实际上就是将每条染色体划分成长度相同的区域)中，例如，桶的长度为100000，start域的中为70000，则该四元组处于第一个桶中，若start域的中为140000，则该四元组处于第二个桶中，将call文件中的变异向桶中进行撞击根据下述条件(公式(1))判断是否是同源性变异(记录同源性变异数量TP)。同源性变异识别首先需要满足的条件是变异在同一条染色体上，其次变异起始位置以及终止位置在空间上是否相近，由于测序时的噪声，以及数据比对过程中带来的系统误差，对变异的比较需要引入一定的阈值，因此本申请专门为不同变异类型设置了空间位点相似的阈值，同源性变异的识别还需满足变异长度相似，类似的，本申请为变异类型设置了变异长度的阈值。撞击时记录被撞击桶的位置，下一次撞击从记录点之后开始。

由于噪声产生位点的偏差，严苛的合并条件可能会将这些变异识别为群体中不同的变异，而若选择过于宽松的条件又可能导致不同的变异被错误地合并，因此需要合理设置平衡的启发式合并条件。本申请使用带有标签的同源性变异作为训练集，使用机器学习中的K-means分类方法无监督的训练数据集，并得出不同变异类型所需的最合适的分类阈值。训练后删除变异的offect和bias取值分别为800和0.7。重复变异的offect和bias取值为1200和0.7。倒位变异的offect和bias取值为1000和0.7。

插入变异是基因组中一段连续的(>50bp)的核苷酸片段插入，由于插入是单点插入，因此需要记录插入变异发生所在的染色体号，以及变异发生的起始位点坐标，并记录插入变异的长度。在base以及call文件中分别构建三元组Sig_{ins_base}＝(chrom_base，start_base，length_base)以及Sig_{ins_cal}＝(chrom_call，start_call，length_call)来记录每一个的信息。其中chrom为发生插入变异的染色体，start表示变异的起始位点，length表示插入变异的长度。与上述策略一致，按照base文件Sig_{ins_base}中的start域将三元组分配到相应长度的桶中，将call文件中的变异向桶中进行撞击根据下述条件(公式(2))判断是否是同源性变异(记录TP)。同源性变异识别首先需要满足的条件是变异在同一条染色体上，其次变异起始位置以及终止位置在空间上是否相近，由于测序时的噪声，以及数据比对过程中带来的系统误差，对变异的比较需要引入一定的阈值，因此本申请专门为不同变异类型设置了空间位点相似的阈值，同源性变异的识别还需满足变异长度相似，类似的，本申请为变异类型设置了变异长度的阈值。撞击时记录被撞击桶的位置，下一次撞击从记录点之后开始。

训练后插入变异的offect和bias取值为800和0.7

易位变异是基因组中一段连续的(>50bp)的核苷酸片段转移到基因组的另一区域中。因此需要记录源染色体信息和目标染色体信息。在base以及call文件中分别构建五元组Sig_{tra_base}＝(chrom_f_base，chrom_t_base，start_f_base，start_t_base,format_base)以及Sig_{tra_call}＝(chrom_f_call，chrom_t_call，start_f_call，start_t_call,format_call)来记录每一个的信息。其中chrom_f和chrom_t分别为易位变异的源染色体号和目标染色体号，start_f,start_t分别为染色体上发生易位的位点信息，format表示易位变异的格式。和上述构建桶的方式类似，识别为同源性的条件为染色体号相同，起始位置与终止位置在空间位置上相似以及易位格式一致，可根据以下公式(3)对易位类型变异的同源性进行识别，判断该易位变异是否为同源性变异(记录TP)。训练后易位变异的offect和bias取值为1000和0.7。

(二)结构变异同源性识别的性能提升

在真实的基因组中，对于插入变异和重复变异的概念分辨仍较为模糊，因为这两种变异在本质上都是基因组某一核苷酸片段附近位置多出了部分的核苷酸片段。因此很多变异检测工具将重复识别为插入变异，或者将插入变异误识别为重复变异，这种错误辨别变异类型会影响同源性识别时的召回率和精确度，原理上被正确识别但是变异类型不正确的变异，也应该被看成同源性的变异(增加TP)。

本申请在实践过程中发现了这一现象，并将具体的情况融入到了识别方法中，进一步的提高了识别方法的完整性和标准性。首先本申请考虑call文件中的重复变异应该为ref文件中的插入变异的情况。对call文件中组织的重复变异的四元组进行筛选，筛选其中未被识别为同源性的变异，将这些变异按照公式(1)撞击ref文件组织的插入变异的四元组的桶，满足条件则为同源性变异(更新TP)。类似的，本申请考虑call文件中的插入变异应该为ref文件中的重复变异的情况。对call文件中组织的插入变异的四元组进行筛选，筛选其中未被识别为同源性的变异，将这些变异按照公式(1)撞击ref文件组织的重复变异的四元组的桶，满足条件则为同源性变异(更新TP)

(三)多维度结构变异同源性的识别

本申请在整体同源性识别的基础上提出不同基因组功能区域的同源性识别。

本申请使用GTF(基因组注释文件)对结构变异检测结果进行功能区域匹配，GTF中存储了基因、转录本、外显子、起始子，终止子，3‘非编码区域以及5’非编码区域这些具有功能性区域在基因组中的位置。由于GTF文件存储的信息量较大，本申请使用了二分查找法，可以在短时间内完成所有结构变异信息的功能区域的匹配，有效提高时间利用率，降低时间复杂度。在完成匹配的基础上，本申请可以重新按照需求，如只考虑起始子上的结构变异同源性的识别。

由于插入类型的变异是单点变异，因此只需要考虑插入位点是否在GTF相关区域中即可，可使用公式(9)对插入类型的变异进行注释。

start_GTF≤start_SV≤end_GTF (4)

对于其他四种类型的变异(删除、重复、倒位和易位)，需要考虑变异的起止位点和GTF功能区域起止位点在空间上的位置关系，可用下述公式(10)对变异进行注释。并将注释后的信息保存在新的文件中。

其中start_GTF和end_GTF分别表示GTF文件功能区域的起始位置和结束位置，start_SV和end_SV分别表示结构变异的起始位置和结束位置。

不同功能区域中所记录的变异极为本申请所识别的同源性变异。

通过本申请可以高效、精准、全面的识别结构变异的同源性。相比于其他同源性识别方法，本申请使用训练后的阈值，综合考虑变异的空间位置和长度等信息，设计高效的存储结构以最大程度的识别同源性变异，这将对下游的生物医学以及基因组图谱的绘制起到基础作用。

对识别方法进行性能评测需要提取之前所记录的同源性变异(TP)，total_base以及total_call，total_base是提取出base文件中的元祖总数，根据公式(6)计算召回率(recall)，total_call是提取出call文件中的元祖总数，根据公式(7)计算精确度(precision)。

最终，使用精确度和召回率的调和平均是可以代表平衡两者之间性能的评价指标，记为F1-score，可根据公式(68)进行计算：

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种基因组结构变异同源性识别方法，其特征在于包括以下步骤：

针对删除、重复、倒位，执行如下步骤：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(lemqth₁,length₂)≥bias×max(lemgth₁,length₂)

其中，下角标1表示base，下角标2表示call；

针对插入，执行如下步骤：

chrom₁＝chrom₂

|start₁-start₂|≤offect

min(lemqth₁,lemgth₂)≥bias×max(lemgth₁,length₂)

其中，下角标1表示base，下角标2表示call；

针对易位，执行如下步骤：

chrom_f₁＝chrom_f₂

chrom_t₁＝chrom_t₂

|start_f₁-start_f₂|≤offect

|start_t₁-start_t₂|≤offect

format₁＝format₂

其中，下角标1表示base，下角标2表示call；

2.根据权利要求1所述的一种基因组结构变异同源性识别方法，其特征在于所述方法还包括：步骤二四：针对base中不为同源性变异的插入变异以及重复变异的同源性识别步骤，具体为：

针对base中不为同源性变异的插入变异，具体步骤为：

判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁，length₂)≥bias×max(length₁，length₂)

其中，下角标1表示base，下角标2表示call；

针对base中不为同源性变异的重复变异，具体步骤为：

判断候选同源性变异是否为同源性变异具体为：

chrom₁＝chrom₂

max(start₁-offect,start₂)≤min(end₁+offect,end₂)

min(length₁,length₂)≥bias×max(length₁,length₂)

其中，下角标1表示base，下角标2表示call；

3.根据权利要求2所述的一种基因组结构变异同源性识别方法，其特征在于所述方法还包括步骤三：

表示为：

start_GTF≤start_SV≤end_GTF

表示为：

start_GTF≤start_SV

end_SV≤end_GTF

其中，end_SV表示结构变异的结束位置。

4.根据权利要求3所述的一种基因组结构变异同源性识别方法，其特征在于所述方法还包括识别方法评测步骤：

利用F1-score对识别方法进行评测，表示为：

5.根据权利要求4所述的一种基因组结构变异同源性识别方法，其特征在于所述功能区域包括基因、转录本、外显子、起始子、终止子、3’非编码区域以及5’非编码区域。

6.根据权利要求5所述的一种基因组结构变异同源性识别方法，其特征在于所述长度相同的桶，桶的长度default＝100000。

7.根据权利要求6所述的一种基因组结构变异同源性识别方法，其特征在于所述删除变异的offect和bias取值分别为800和0.7，重复变异的offect和bias取值分别为1200和0.7，倒位变异的offect和bias取值分别为1000和0.7。

8.根据权利要求7所述的一种基因组结构变异同源性识别方法，其特征在于所述插入变异的offect和bias取值分别为800和0.7。

9.根据权利要求8所述的一种基因组结构变异同源性识别方法，其特征在于所述易位变异的offect和bias取值分别为1000和0.7。

10.根据权利要求9所述的一种基因组结构变异同源性识别方法，其特征在于所述步骤三中，判断插入变异的start对应的功能区域以及判断删除、重复、倒位和易位变异的start对应的功能区域，通过二分查找法进行。