CN113362901B

CN113362901B - 快速进行全基因组注释区间比较的方法及系统

Info

Publication number: CN113362901B
Application number: CN202110524893.XA
Authority: CN
Inventors: 李志刚; 缪卫国; 纪晓贝
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-09-01
Anticipated expiration: 2041-05-14
Also published as: CN113362901A

Abstract

本发明提供一种快速进行全基因组注释区间比较的方法及系统，该方法包括：S1、分别获取基因注释区间A片段坐标集合以及基因注释区间B片段坐标集合；S2、将A片段集合坐标和B片段集合坐标进行合并，获得合并片段集合；S3、对合并片段集合进行去冗余操作和排序操作；S4、调用预设区间交集函数在单次循环中计算合并片段集合中所有注释区间之间的交集；S5、输出预设区间交集函数的计算结果。本发明能够快速计算不同类型基因注释区间的交集，与传统比较方法相比，实现逻辑简单，计算量小且判断准确，有助于提高比较效率。

Description

快速进行全基因组注释区间比较的方法及系统

技术领域

本发明涉及基因组注释技术领域，尤其涉及一种快速进行全基因组注释区间比较的方法。

背景技术

目前在病虫害或快速检测领域，经常需要进行全基因组范围内大量不同注释片段相互关系的计算任务，由于生物的基因组数量通常非常庞大，涉及到的注释片段数量巨大，传统的计算方法主要包括两种，一种是建立数据库索引，通过特定数据结构进行比较，例如在论文“毛果杨基因数据库搭建以及可视化平台的实现”一文中公开了在数据库可视化平台中建立索引来对基因组片段进行搜索，这种方法操作较为复杂，对于非常大规模的数据而言，其处理速度也会受到硬盘读写速度的限制；另一种方法为通过基因组两两注释区间比较进行搜索，例如在论文“海量基因组注释算法的并行优化与实现”中便公开了目前的基因功能注释软件大多使用脚本语言编写，逐条对输入序列进行分析，效率较低，耗时较长。因此十分有必要研究一种能够快速进行全基因组注释区间比较的方法，提高比较效率。

发明内容

鉴于此，本发明的目的在于提供一种快速进行全基因组注释区间比较的方法及系统，以克服或至少部分解决现有技术所存在的上述问题。

本发明第一方面提供一种快速进行全基因组注释区间比较的方法，该方法包括以下步骤：

S1、分别获取基因注释区间A片段坐标集合以及基因注释区间B片段坐标集合；

S2、将A片段集合坐标和B片段集合坐标进行合并，获得合并片段集合；

S3、对合并片段集合进行去冗余操作和排序操作；

S4、调用预设区间交集函数在单次循环中计算合并片段集合中所有注释区间之间的交集；

S5、输出预设区间交集函数的计算结果。

进一步的，步骤S3中所述对合并片段集合进行去冗余操作和排序操作，具体包括以下步骤：

S31、将合并片段集合中所有重复的坐标删除；

S32、对合并片段集合中所有坐标按照由小到大的顺序进行重新排序。

进一步的，步骤S4中所述调用预设区间交集函数在单次循环中计算合并片段集合中所有区间之间的交集，具体包括以下步骤：

S41、通过预设循环函数在单次循环中遍历合并片段集合中所有坐标；

S42、将合并片段集合中相邻两个不同注释类型的注释区间的起始坐标和终止坐标分别输入到预设区间交集函数中；

S43、比较两个注释区间的起始坐标中的最大值和终止坐标中的最小值；

S44、计算终止坐标中的最小值与起始坐标中的最大值的差值是否大于等于0，若是则输出区间交集(S，E)，其中S为起始坐标中的最大值，E为终止坐标中的最小值，若否则输出无交集提示。

进一步的，所述步骤S5之后还包括步骤：

S6、获取历史调用预设区间交集函数的计算时长，以及影响预设区间交集函数计算时长的影响因子值，所述影响因子包括合并区间集合长度、计算机系统状态；

S7、将各个影响因子值及其对应的预设区间交集函数计算时长输入到深度学习算法中进行训练，建立第一训练模型；

S8、在下一次调用预设区间交集函数进行计算前，获取用户的期望计算时间，以及当前影响因子值；

S9、将当前影响因子值输入到第一训练模型中，对计算时间进行预测；

S10、判断预测计算时间是否大于期望计算时间，若大于则采用多线程策略调用预设区间交集函数进行计算。

进一步的，所述采用分布式策略调用预设区间交集函数进行计算，具体包括以下步骤：

S101、获取历史调用预设区间交集函数的计算时长，以及影响预设区间交集函数计算时长的影响因子值；

S102、将历史调用预设区间交集函数的计算时长以及对应的计算机系统状态作为参数输入到深度学习算法中进行训练，对相应的合并区间集合长度进行预测，建立第二训练模型；

S103、将期望计算时间和当前计算机系统状态作为参数输入第二训练模型，对合并区间集合长度进行预测；

S104、根据预测合并区间集合长度对合并区间集合进行切分，获得多个子合并区间集合；

S105、建立多线程任务，在每个线程中分别调用预设区间交集函数对不同的子合并区间集合进行处理。

本发明第二方面提供一种快速进行全基因组注释区间比较的系统，所述系统包括：

第一获取模块，用于分别获取基因注释区间A片段坐标集合以及基因注释区间B片段坐标集合；

合并模块，用于将A片段集合坐标和B片段集合坐标进行合并，获得合并片段集合；

去冗余排序模块，用于对合并片段集合进行去冗余操作和排序操作；

计算模块，用于调用预设区间交集函数在单次循环中计算合并片段集合中所有注释区间之间的交集；

输出模块，用于输出预设区间交集函数的计算结果。

进一步的，所述去冗余排序模块具体包括：

去冗余子模块，用于将合并片段集合中所有重复的坐标删除；

排序子模块，用于对合并片段集合中所有坐标按照由小到大的顺序进行重新排序。

进一步的，所述计算模块具体包括：

遍历子模块，用于通过预设循环函数在单次循环中遍历合并片段集合中所有坐标；

输入子模块，用于将合并片段集合中相邻两个不同注释类型的注释区间的起始坐标和终止坐标分别输入到预设区间交集函数中；

比较子模块，用于比较两个注释区间的起始坐标中的最大值和终止坐标中的最小值；

计算子模块，用于计算终止坐标中的最小值与起始坐标中的最大值的差值是否大于等于0，若是则输出区间交集(S，E)，其中S为起始坐标中的最大值，E为终止坐标中的最小值，若否则输出无交集提示。

进一步的，所述系统具体还包括：

第二获取模块，用于获取历史调用预设区间交集函数的计算时长，以及影响预设区间交集函数计算时长的影响因子值，所述影响因子包括合并区间集合长度、计算机系统状态；

训练模块，用于将各个影响因子值及其对应的预设区间交集函数计算时长输入到深度学习算法中进行训练，建立第一训练模型；

第三获取模块，用于在下一次调用预设区间交集函数进行计算前，获取用户的期望计算时间，以及当前影响因子值；

第一预测模块，用于将当前影响因子值输入到第一训练模型中，对计算时间进行预测；

判断计算模块，用于判断预测计算时间是否大于期望计算时间，若大于则采用多线程策略调用预设区间交集函数进行计算。

进一步的，所述判断计算模块具体包括：

获取子模块，用于获取历史调用预测区间交集函数的计算时长，以及影响预设区间交集函数计算时长的影响因子值；

训练子模块，用于将历史调用预测区间交集函数的计算时长以及对应的计算机系统状态作为参数输入到深度学习算法中进行训练，对相应的合并区间集合长度进行预测，建立第二训练模型；

预测子模块，用于将期望计算时间和当前计算机系统状态作为参数输入第二训练模型，对合并区间集合长度进行预测；

切分子模块，用于根据预测合并区间集合长度对合并区间集合进行切分，获得多个子合并区间集合；

多线程子模块，用于建立多线程任务，在每个线程中分别调用预设区间交集函数对不同的子合并区间集合进行处理。

与现有技术相比，本发明的有益效果是：

本发明所提供的一种快速进行全基因组注释区间比较的方法及系统，不依赖数据库和索引文件，能够快速计算不同类型基因注释区间的交集，与传统比较方法相比，实现逻辑简单，计算量小且判断准确，有助于提高比较效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种快速进行全基因组注释区间比较的方法整体流程示意图。

图2是本发明一实施例提供的不同类型注释区间交集示意图。

图3是本发明实施例所提供方法与传统两两比对搜索方法评测结果示意图。

图4是本发明另一实施例提供的一种快速进行全基因组注释区间比较的系统整体结构示意图。

图中，1第一获取模块，2合并模块，3去冗余排序模块，4计算模块，5输出模块，6第二获取模块，7训练模块，8第三获取模块，9第一预测模块，10判断计算模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所列举实施例只用于解释本发明，并非用于限定本发明的范围。

参照图1，本实施例提供一种快速进行全基因组注释区间比较的方法，所述方法包括以下步骤：

S1、分别获取基因注释区间A片段坐标集合以及基因注释区间B片段坐标集合。

示例性地，基因注释区间A片段坐标集合和基因注释区间B片段坐标集合分别用于存储不同类型的基因组注释区间片段，每个集合中均存储有多条基因组注释区间片段，每个注释区间片段均包括起始坐标和终止坐标。

S2、将A片段集合坐标和B片段集合坐标进行合并，获得合并片段集合。

S3、对合并片段集合进行去冗余操作和排序操作。

S4、调用预设区间交集函数在单次循环中计算合并片段集合中所有注释区间之间的交集。

S5、输出预设区间交集函数的计算结果。

作为本实施例的一种可选实施方式，所述步骤S3中，对合并片段集合进行去冗余操作和排序操作，具体包括以下步骤：

S31、将合并片段集合中所有重复的坐标删除；

示例性地，通过将合并片段集合中所有重复的坐标删除，避免在后续步骤中计算不同注释区间的交集时重复计算，造成计算量增大。而通过对合并片段集合中所有坐标按照从小到大的顺序进行重新排序，有利于提高后续步骤中对不同类型注释区间计算交集的速度。

作为本实施例的一种可选实施方式，步骤S4中所述调用预设区间交集函数在单次循环中计算合并片段集合中所有区间之间的交集，具体包括以下步骤：

S41、通过预设循环函数在单次循环中遍历合并片段集合中所有坐标。

S42、将合并片段集合中相邻两个不同注释类型的注释区间的起始坐标和终止坐标分别输入到预设区间交集函数中。

示例性地，参照图2，所述相邻两个不同注释类型的注释区间即合并片段集合中A注释类型的注释区间与最接近其的B类型注释区间，每个注释区间的起始坐标和终止坐标的格式为(注释类型)(区间编号)(s起始/e终止)，例如(A1s，A1e)即表示A注释类型的区间编号为1的注释区间。对于不同注释类型的注释区间的交集的起始坐标和终止坐标其格式为(S起始/E终止)(交集编号)，例如(S1(B1s)，E1(A1e))即表示起始坐标为B1s，终止坐标为A1e的编号为1的交集。

S43、比较两个注释区间的起始坐标中的最大值和终止坐标中的最小值。

示例性地，该步骤中，首先比较两个注释区间的起始坐标大小，并选取其中的最大值，以便确定交集的起始坐标；随后比较两个注释区间的终止坐标的大小。并选取其中的最小值，以便确定交集的终止坐标。

示例性地，当两个注释区间的终止坐标中的最小值与两个注释区间的起始坐标中的最大值的差值大于等于0时，说明两个注释区间之间存在交集，此时输出区间交集(S，E)。若小于0，则说明两个注释区间并不存在交集，此次输出无交集提示信息。

参照图3，通过在4000万长度范围基因组内，注释区间规模在100000vs100000区间比较条件下，分别采用传统两两比对的搜索方法和本实施例所提供的方法进行评测，由试验结果可知，本实施例所提供的方法在计算速度上明显优于传统两两比对的搜索方法。本实施例所提供的预设区间交集函数不同于传统的区间比较方法，通过比较两个基因组注释区间的起始和终止坐标大小，判断区间的相对位置，通过简单的判断即可快速计算出区间相对位置，具有逻辑简单、速度更快、判断准确的特点。

前述实施例所提供的方法，相对于传统的比较方法能够有效提高计算效率，减少计算时间，但在所需处理的基因组数据量十分巨大时，完成比较任务所需的整体时间仍然可能无法满足用户的期望，为了进一步提高交集的计算效率，作为本实施例的一种可选实施方式，所述步骤S5之后还包括步骤：

S6、获取历史调用预设区间交集函数的计算时长，以及影响预设区间交集函数计算时长的影响因子值，所述影响因子包括合并区间集合长度、计算机系统状态。

示例性地，所述历史调用预设区间交集函数的计算时长为当前时刻前每次调用预设区间交集函数计算交集时所耗费的时间，同时获取影响该次预设区间交集函数计算时长的影响因子值，合并区间集合的长度越长，即表示需处理的数据量越大，计算所需时间也会越长；计算机系统的实时运行状态也会影响到计算任务的处理速度，例如内存大小、进程数量、CPU占用率等，这些因素构成了影响预设区间交集函数处理计算任务所需耗费的时间。

S7、将各个影响因子值及其对应的预设区间交集函数计算时长输入到深度学习算法中进行训练，建立第一训练模型。

示例性地，所述第一训练模型用于基于各个影响因子的值来预测调用预设区间交集函数计算交集所需耗费的时间。在迭代训练过程中，将每次第一训练模型预测的计算时间结果和实际与影响因子值对应的调用预测区间交集函数的计算时长进行比对，根据对比结果对第一训练模型进行优化调整，从而使得第一训练模型的预测值更接近实际情况，进而提升其预测准确率。

S8、在下一次调用预设区间交集函数进行计算前，获取用户的期望计算时间，以及当前影响因子值。

S9、将当前影响因子值输入到第一训练模型中，对计算时间进行预测。

该步骤中，若预测计算时间大于期望计算时间则说明按照原先的计算策略无法满足用户的期望计算任务完成时间，此时则采用多线程策略调用预设区间交集函数处理计算任务，从而提高计算任务的处理效率，以满足用户期望。

作为上述实施例进一步可选的实施方式，所述采用分布式策略调用预设区间交集函数进行计算，具体包括以下步骤：

S101、获取历史调用预设区间交集函数的计算时长，以及影响预设区间交集函数计算时长的影响因子值。

S102、将历史调用预设区间交集函数的计算时长以及对应的计算机系统状态作为参数输入到深度学习算法中进行训练，对相应的合并区间集合长度进行预测，建立第二训练模型。

示例性地，前述实施例已经指出可根据合并区间集合的长度和实时的计算机系统状态可以预估调用预设区间交集函数计算交集所需要花费的时间，反之，根据调用预设区间交集函数计算交集所花费的时间和实时的计算机系统状态也可以逆推出相应的合并区间集合的长度，本实施例通过所述第二训练模型用于以历史调用预设区间交集函数的计算时长和对应的计算机系统状态作为输入参数，对相应的合并区间集合长度进行预测。在对第二训练模型迭代训练的过程中，可以将输出的预测结果与实际的历史合并区间集合长度进行比对，并根据比对结果对第二训练模型进行优化，从而提升其预测准确度。

S103、将期望计算时间和当前计算机系统状态作为参数输入第二训练模型，对合并区间集合长度进行预测。

该步骤中，将用户的期望计算时间和当前计算机系统状态作为参数输入第二训练模型的目的在于预测在当前计算机系统状态下处理何种长度的合并区间集合的计算时间低于或等于用户的期望计算时间，从而决定后续步骤中如何对合并区间集合进行处理，以满足用户的预期。

S104、根据预测合并区间集合长度对合并区间集合进行切分，获得多个子合并区间集合。

示例性地，对合并区间集合进行切分的原则为：切分后得到的每个子合并区间集合的长度不超过预测合并区间集合的长度，切分时不破坏合并区间集合中每个基因组注释区间的完整性，即切分后的每个子合并区间集合中的基因组注释区间均完整包含起始坐标和终止坐标。

示例性地，所创建线程的数量与切分后得到的子合并区间集合的数量相同，每个线程中调用的预设区间交集函数所处理的子合并区间集合均不相同，从而实现同时对多个子合并区间集合的交集计算，最终将各个线程输出的计算结果进行汇总，进而达到减少计算时间的技术效果，使得总体计算时间符合用户期望。

在另外一些实施方式中，当单台计算机所能创建的最大线程数量仍无法完全处理全部子合并区间集合时，可以基于负载均衡技术，在接入到同一网络的多台计算机中的每台计算机上分别创建多线程任务，根据计算机系统实时状态，分别处理数量等的子合并区间集合的交集计算任务，从而实现在处理大规模的基因组注释区间比较任务时减少计算时间的目的。

基于与前述实施例相同的发明构思，本发明另一实施例提供一种快速进行全基因组注释区间比较的系统，参照图4，所述系统包括：

第一获取模块1，用于分别获取基因注释区间A片段坐标集合以及基因注释区间B片段坐标集合；

合并模块2，用于将A片段集合坐标和B片段集合坐标进行合并，获得合并片段集合；

去冗余排序模块3，用于对合并片段集合进行去冗余操作和排序操作；

计算模块4，用于调用预设区间交集函数在单次循环中计算合并片段集合中所有注释区间之间的交集；

输出模块5，用于输出预设区间交集函数的计算结果。

可选的，所述去冗余排序3模块具体包括：

可选的，所述计算模块4具体包括：

可选的，所述系统具体还包括：

第二获取模块6，用于获取历史调用预设区间交集函数的计算时长，以及影响预设区间交集函数计算时长的影响因子值，所述影响因子包括合并区间集合长度、计算机系统状态；

训练模块7，用于将各个影响因子值及其对应的预设区间交集函数计算时长输入到深度学习算法中进行训练，建立第一训练模型；

第三获取模块8，用于在下一次调用预设区间交集函数进行计算前，获取用户的期望计算时间，以及当前影响因子值；

第一预测模块9，用于将当前影响因子值输入到第一训练模型中，对计算时间进行预测；

判断计算模块10，用于判断预测计算时间是否大于期望计算时间，若大于则采用多线程策略调用预设区间交集函数进行计算。

进一步可选的，所述判断计算模块10具体包括：

上述系统实施例用于实现前述方法实施例所述的方法，其工作原理和有益效果均可参照前述方法实施例，在此不再赘述。

本发明另一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现前述方法实施例所述的方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种快速进行全基因组注释区间比较的方法，其特征在于，所述方法包括以下步骤：

S3、对合并片段集合进行去冗余操作和排序操作；

S4、调用预设区间交集函数在单次循环中计算合并片段集合中所有注释区间之间的交集，具体包括以下步骤：

S44、计算终止坐标中的最小值与起始坐标中的最大值的差值是否大于等于0，若是则输出区间交集(S，E)，其中S为起始坐标中的最大值，E为终止坐标中的最小值，若否则输出无交集提示；

S5、输出预设区间交集函数的计算结果；

所述步骤S5之后还包括步骤：

S10、判断预测计算时间是否大于期望计算时间，若大于则采用多线程策略调用预设区间交集函数进行计算；

采用分布式策略调用预设区间交集函数进行计算，具体包括以下步骤：

2.根据权利要求1所述的一种快速进行全基因组注释区间比较的方法，其特征在于，步骤S3中所述对合并片段集合进行去冗余操作和排序操作，具体包括以下步骤：

S31、将合并片段集合中所有重复的坐标删除；

3.一种快速进行全基因组注释区间比较的系统，其特征在于，所述系统包括：

计算模块，用于调用预设区间交集函数在单次循环中计算合并片段集合中所有注释区间之间的交集，所述计算模块具体包括：

计算子模块，用于计算终止坐标中的最小值与起始坐标中的最大值的差值是否大于等于0，若是则输出区间交集(S，E)，其中S为起始坐标中的最大值，E为终止坐标中的最小值，若否则输出无交集提示；

输出模块，用于输出预设区间交集函数的计算结果；

所述系统具体还包括：

判断计算模块，用于判断预测计算时间是否大于期望计算时间，若大于则采用多线程策略调用预设区间交集函数进行计算，所述判断计算模块具体包括：

4.根据权利要求3所述的一种快速进行全基因组注释区间比较的系统，其特征在于，所述去冗余排序模块具体包括：