CN117174182A

CN117174182A - 一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法

Info

Publication number: CN117174182A
Application number: CN202311078324.2A
Authority: CN
Inventors: 吴敬; 王蕾; 未志胜; 陈晟; 邓赵红; 孔德民; 杨卫康; 刘一迪; 杨海涛
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-12-05

Abstract

本发明公开了一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，属于生物信息学技术领域。方法流程包括：首先，根据需要word_size的长度切分所有的蛋白序列，结合序列的注释数据构建数据集并写入数据库；然后准备请求序列，并将其切分成word_size的一个个小片段；进一步，通过搜索匹配、构建环形序列、序列比对完成检索过程；最后生成包含匹配片段、相似度得分等信息的比对结果，用于呈现给用户查看并判断匹配的可靠性。本发明考虑了基因序列的进化重排情况，显著提高了序列比对的准确性，并且可以发现更多的重排序列。

Description

一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法

技术领域

本发明涉及一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，属于生物信息学技术领域。

背景技术

随着测序技术的进步，数据库中的蛋白质/基因的数据规模变得越来越大。分析和注释如此庞大的数据资源变得尤为重要。在基因或蛋白质数据分析中，BLAST是一种经常使用的序列比对分析工具。然而，现有的BLAST方法存在一些问题，需要解决：

(1)无法有效处理基因或蛋白质序列的重排情况：传统BLAST方法只适用于正序比对，无法正确识别和比较序列重排的情况。在进化过程中，基因复制可能导致基因序列的重排，从而使蛋白质的序列发生变化，这种序列重排在传统BLAST中很难被发现或进行比较。

(2)缺乏循环排列的系统性研究和数据库支持：循环排列的存在和特点是研究者最近才开始关注的领域。虽然一些研究人员对序列重排进行了系统的研究，建立了循环排列数据库(CPDB)，但缺乏针对循环排列的专门方法和工具。

因此，当前BLAST方法在处理基因或蛋白质序列重排的能力上存在局限性，并且缺乏专门的方法和工具来准确识别和比较循环排列。这些问题需要被解决，以提高基因或蛋白质数据分析的准确性和全面性。

发明内容

本发明提出了一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，以解决当前BLAST方法在处理基因或蛋白质序列重排的能力上存在局限性，并且缺乏专门的方法和工具来准确识别和比较循环排列的问题。

一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法包括以下步骤：

S100、数据库构建：根据需求的word_size长度，对所有蛋白序列进行切分，并结合序列注释信息构建一个k-mers数据集，根据关联关系构建键值型数据表，并将键值型数据表写入数据库；

S200、请求序列准备：将待比对的蛋白序列文件转换成符合要求的格式，随后将序列切割成长度为word_size的小片段，即seed；

S300、比对过程：将请求序列与数据库中的序列进行比对，CircBLAST采用SmithWaterman局部比对算法，在数据库中搜索与请求序列部分匹配的子序列，并完成搜索匹配、构建环形序列和序列比对三步操作，并计算匹配的相似性和统计学意义；

S400、生成比对结果：CircBLAST以列表形式返回比对结果，比对结果包括匹配的序列片段和相似性得分，使用户能够根据相似性得分和统计学意义来评估匹配的可靠性。

进一步的，在S100中，数据库构建包括以下步骤：

S110、切分蛋白质序列为种子块：从蛋白质数据库中读取蛋白质序列数据，根据指定的word_size长度，将每个蛋白质序列切分为固定长度的种子块，每个种子块的长度为word_size，以重叠或非重叠的方式划分；

S120、构建k-mers数据集：从蛋白质序列注释数据中提取关键信息；将每个种子块与相应的注释信息关联，以便后续的数据库构建和查询操作；基于关联的种子块和注释信息，构建一个k-mers数据集；

S130、构建键值型数据表：设计数据表的结构，根据种子块和关联的注释信息，确定表中的键和值，创建一个键值型数据表，用于存储种子块和注释信息，将关联的种子块和注释信息写入数据表中，并将数据表写入数据库。

进一步的，在S200中，包括以下步骤：

S210、蛋白质序列文件准备：获取待比对的蛋白质序列文件；

S220、序列文件格式转换：将蛋白质序列文件转换成符合要求的格式；

S230、种子块生成：将转换后的蛋白质序列切割成长度为word_size的小片段，即种子块。

进一步的，在S230中，包括以下步骤：

S231、遍历序列：对于每个蛋白质序列，按照指定的word_size，从序列的起始位置开始遍历；

S232、种子块切割：从当前位置开始，截取长度为word_size的片段，形成一个种子块；

S233、存储种子块：将生成的种子块存储在一个数据结构中，以备后续的循环序列构建和比对操作。

进一步的，在S300中，包括以下步骤：

S310、搜索匹配：CircBLAST通过mask计算隐去k-mers在每条序列里的index信息，使用这些index信息，将请求序列与数据库进行比对，找到可能的匹配序列片段，将匹配上的k-mers集称为Hit，如果有多个连续的Hit，将其称为Hits；

S320、构建环形序列：记录每条序列与请求序列的Hits长度，从所有Hits中选择最长的一段子序列作为请求序列和比对序列的起点，延伸选定的起点序列和比对序列，直到达到子序列前的最后一个氨基酸残基；

S330、序列比对：使用Smith-Waterman算法完成序列比对，比对的过程考虑序列的相似性、匹配长度和匹配的统计学意义。

进一步的，在S310中，通过mask计算隐去k-mers在每条序列的index信息。

进一步的，在S320中，记录每条序列与请求序列的Hits长度，选择Hits最长的一段子序列为请求序列和比对序列的起点，延伸两条序列至子序列前的最后一个氨基酸残基。

进一步的，在S330中，比对过程包括原始序列和环形序列的比对情况，并同时包含两种情况下的匹配片段和相似度得分信息。

进一步的，在S400中，包括以下步骤：

S410、比对结果数据结构：CircBLAST以列表形式返回比对结果，每个比对结果项包括匹配的序列片段和相似性得分；

S420、提取序列片段：从比对过程中获得的环形序列中，提取匹配的序列片段，序列片段是匹配序列中与请求序列对应的片段，描述了两个序列之间的相似性和匹配关系；

S430、计算相似性得分：为每个比对结果计算相似性得分，用于衡量比对片段之间的相似程度；

S440、添加统计学意义的信息：在比对结果中添加统计学意义的信息，统计学意义的信息包括比对的期望值E-value和置信度confidence；

S450、组织比对结果：用户根据相似性得分和统计学意义来判断匹配的可靠性。

进一步的，将上述的兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法用于基因序列搜索。

本发明的有益效果：传统的BLAST搜索工具在匹配过程中往往无法考虑基因序列的进化重排情况，而CircBLAST针对这一问题进行了优化，能够有效处理基因序列的演化和重排情况。通过对蛋白质序列进行切分和关联注释信息，CircBLAST构建了一个高效的k-mers数据集和键值型数据表，提高了数据库的构建效率和查询速度。CircBLAST采用SmithWaterman局部比对算法，可以找到与请求序列部分匹配的子序列，并计算匹配的相似性和统计学意义，提供更准确和可靠的比对结果。比对结果中包含相似性得分和统计学意义的信息，用户可以根据这些指标来评估匹配的可靠性，进一步提高比对结果的可信度。

附图说明

图1是本发明的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法的方法流程图；

图2是本发明的构建环形序列示意图；

图3是本发明的以AAU08014.2为例的数据处理流程示意图；

图4是本发明的BLAST和CircBLAST的结构域分布比较，在BLAST处理中，S1是AAU08014.2序列的域分布，S2是AMV61683.1序列的域分布，在循环点循环序列的CircBLAST处理中，S3是AAU08014.2序列的结构域分布，S4是AMV61683.1序列的结构域分布；

图5是本发明的CircBLAST与其他四个软件(Diamond、blast、mmseqs、hmmer)结果对比的箱线图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的具体实施例附图中，为了更好、更清楚的描述系统中的各元件的工作原理，表现所述装置中各部分的连接关系，只是明显区分了各元件之间的相对位置关系，并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。

具体的，S100、数据库构建：根据需求的word_size长度，对所有蛋白序列进行切分，并结合序列注释信息构建一个k-mers数据集，根据关联关系构建键值型数据表，并将键值型数据表写入数据库。这样的数据库构建方法具有高效的索引和查询速度，能够更准确地关联蛋白序列和注释信息，且模块化设计使得数据库的构建和更新更加灵活和可扩展。

S200、请求序列准备：将待比对的蛋白序列文件转换成符合要求的格式，同时将序列切割成长度为word_size的小片段，即seed。这样的序列准备方法可以简化后续比对过程的数据处理难度和复杂度，提高比对的精确性和效率。

S300、比对过程：CircBLAST采用Smith Waterman局部比对算法，将请求序列与数据库中的序列进行比对。它能够考虑基因序列的进化重排情况，通过在数据库中搜索与请求序列部分匹配的子序列，并计算匹配的相似性和统计学意义，提供更准确和可靠的比对结果。

S400、生成比对结果：CircBLAST以列表形式返回比对结果，包括匹配的序列片段和相似性得分。这样的比对结果清晰明了，用户可以根据相似性得分和统计学意义来评估匹配的可靠性，提高结果的可信度。整体而言，CircBLAST工具的应用方法兼顾了基因序列进化重排，通过细致的数据构建、请求序列准备、比对过程和比对结果生成，能够提供高效、准确和可靠的BLAST搜索功能。

进一步的，在S100中，数据库构建包括以下步骤：

具体的，通过将蛋白质序列切分为种子块，可以提高数据库的索引效率和查询速度。这样的切分方式可以将大型蛋白质序列数据库分解成更小且易于处理的块，减少查询时的计算复杂度，提高搜索效率。通过构建k-mers数据集并将种子块与注释信息进行关联，可以更准确地关联蛋白质序列和其对应的注释信息。这样的关联有助于后续的数据库查询和分析，提供了更丰富的信息支持。采用键值型数据表的结构，可以清晰地定义字段和属性，使得数据结构化、可查询和可管理。键值型数据库系统提供了强大的查询功能和数据一致性保证，使得数据的存储和访问更加可靠和高效。构建过程采用模块化设计，使得数据库构建和更新更加灵活和可扩展。这样的架构设计可以便于添加或修改功能模块，适应不同的需求和场景。同时，它也为将来的扩展和改进提供了便利。

进一步的，在S200中，包括以下步骤：

S210、蛋白质序列文件准备：获取待比对的蛋白质序列文件；

具体的，

S210、蛋白质序列文件准备：获取待比对的蛋白质序列文件。可以是从数据库中导出的蛋白质序列文件或用户自己准备的文件。

S220、序列文件格式转换：将蛋白质序列文件转换成符合要求的格式，如FASTA格式。这个步骤可以包括去除非必要的注释信息、处理文件格式转换以适应后续操作的要求。

S230、种子块生成：将转换后的蛋白质序列切割成长度为wordsize的小片段，即种子块。这个步骤可以采用固定的切割长度，如wordsize，将蛋白质序列切成多个种子块。种子块可以以重叠或非重叠的方式划分，以便后续的比对过程。

通过蛋白质序列文件准备和格式转换，可确保待比对的序列文件符合程序要求的格式。这有助于后续处理的顺利进行，避免数据错误和格式不匹配的问题。将蛋白质序列切割成种子块有助于简化后续比对过程的数据处理难度。通过切割成小片段，可以降低计算复杂度并减少比对操作所需的资源和时间。种子块生成将序列划分为固定长度的片段，在比对过程中可以更精确地匹配请求序列和数据库中的片段。这有助于提高比对的准确性和效率，提供更可靠的比对结果。

进一步的，在S230中，包括以下步骤：

具体的，在S230中，进一步的步骤包括：

S231、遍历序列：对于每个蛋白质序列，按照指定的word_size，从序列的起始位置开始遍历。这个步骤确保对每个序列进行完整的遍历，以生成种子块；

S232、种子块切割：从当前位置开始，截取长度为word_size的片段，形成一个种子块。即将蛋白质序列切割成等长的小片段，并形成种子块集合；

S233、存储种子块：将生成的种子块存储在一个数据结构中，以备后续的循环序列构建和比对操作。这个数据结构可以是数组、哈希表或其他适合存储和检索种子块的数据结构。存储种子块可以是临时的，用于当前的比对任务，也可以作为数据库的一部分，供日后的查询和分析使用。

通过遍历序列并切割成种子块，生成一个包含所有种子块的集合。这有助于在后续的循环序列构建和比对操作中使用这些种子块来识别重复出现的序列片段。存储种子块并使用它们作为重复序列的标识符，可以在后续的循环序列构建和比对操作中加速比对过程。比对时，可以将查询序列与存储的种子块进行匹配，从而减少需要比对的序列片段数量，提高比对的效率。将序列切割成固定长度的种子块有助于优化比对算法的设计。针对种子块的比对操作可以采用更高效的算法和数据结构，提高比对的速度和精确性。

进一步的，在S300中，包括以下步骤：

具体的，在S300中，包括以下步骤：

S310、搜索匹配：CircBLAST利用mask计算隐去k-mers在每条序列中的index信息，然后使用这些index信息将请求序列与数据库进行比对，找到可能的匹配序列片段。匹配上的k-mers集合称为Hit，如果有多个连续的Hit，将其称为Hits。这个步骤用于筛选出可能与请求序列相关的片段，以减少后续比对的搜索空间。

S320、构建环形序列：在这一步骤中，记录每条序列与请求序列的Hits的长度。从所有Hits中选择最长的一段子序列作为请求序列和比对序列的起点，然后延伸选定的起点序列和比对序列，直到达到子序列前的最后一个氨基酸残基。这样构建的环形序列包含了可能与请求序列匹配的片段，为进一步的比对提供了准备。

S330、序列比对：使用Smith-Waterman算法完成序列比对。这个算法考虑序列的相似性、匹配长度和匹配的统计学意义，通过计算得分来评估序列的匹配程度。比对过程中会考虑局部序列相似性，并返回比对中最优的匹配结果。这个步骤用于精确地比较构建的环形序列和数据库中的序列，以找到最佳的匹配。

通过搜索匹配和构建环形序列的步骤，能够筛选出可能与请求序列相关的片段，并限制比对的搜索空间，从而提高匹配的准确性。这样可以避免无关的序列进行无效的比对，减少了比对过程中的噪声和误差。通过使用Smith-Waterman算法进行序列比对，可以考虑序列的相似性，包括局部序列相似性和匹配长度。这有助于找到更精确的序列匹配，提供更可靠的比对结果。在序列比对过程中，通过Smith-Waterman算法计算得分来评估匹配的统计学意义。这个得分可以衡量匹配的可信度和显著性，有助于筛选出最佳的匹配结果。

具体的，通过计算隐去k-mers在每条序列的index信息，可以提高匹配的敏感性。K-mers是序列中连续的k个碱基，通过对它们进行mask计算，可以确定它们在序列中的位置信息。这样可以发现那些可能与请求序列相关的片段，即具有共同的k-mers，从而增强了匹配的敏感性。由于计算了隐去k-mers的index信息，可以在比对过程中筛选掉那些不具备共同k-mers的序列片段，从而减少不必要的比对。这样可以提高比对的效率，节省计算资源和时间。通过计算隐去k-mers的index信息，可以将比对的搜索空间缩小到可能与请求序列相关的片段。这样可以集中精力在可能的匹配上，忽略不相关的序列片段，加速搜索的过程。由于mask计算隐去k-mers在每条序列的index信息，可以筛选掉那些没有共同k-mers的序列片段。这样有助于增强比对的特异性，将更多的注意力放在具有高相似度的序列片段上。

进一步的，在S400中，包括以下步骤：

具体的，S410、比对结果数据结构：CircBLAST返回比对结果的列表形式，每个比对结果项包括匹配的序列片段和相似性得分。这个步骤将比对结果组织成数据结构，方便后续的处理和分析；

S420、提取序列片段：从比对过程中获得的环形序列中，提取匹配的序列片段。序列片段是匹配序列中与请求序列对应的片段，描述了两个序列之间的相似性和匹配关系。这个步骤将比对结果中的匹配片段提取出来，以供进一步的研究和分析使用；

S430、计算相似性得分：为每个比对结果计算相似性得分，用于衡量比对片段之间的相似程度。相似性得分可以基于不同的算法和标准进行计算，通常会考虑序列的匹配长度、匹配质量以及可能的随机匹配等因素。这个步骤提供了比对片段相似性的量化指标，帮助用户评估匹配的可靠性；

S440、添加统计学意义的信息：在比对结果中添加统计学意义的信息，如比对的期望值E-value和置信度confidence。E-value是指在随机匹配情况下，获得与当前比对结果相同或更好的结果的期望次数。置信度是指比对结果的可信度和显著性。这个步骤为比对结果提供了更全面的评估指标；

S450、组织比对结果：用户根据相似性得分和统计学意义来判断匹配的可靠性。根据不同的阈值和策略，用户可以对比对结果进行过滤和筛选，以获取满足需求的最可靠的匹配结果。这个步骤将比对结果组织和展示给用户，帮助用户进行后续的分析和解释。

将比对结果组织成数据结构并提取序列片段，使得用户可以方便地查看和分析每个匹配的片段。这样有助于进一步研究序列的相似性和匹配关系。通过计算相似性得分，可以量化比对片段之间的相似程度。这提供了一个客观的指标来评估匹配的质量和可靠性，方便用户进行结果的筛选和解释。添加比对结果的统计学意义信息，如E-value和置信度，提供了进一步的评估和解释依据。这有助于用户更加准确地理解比对结果的显著性和可信度。根据相似性得分和统计学意义信息，用户可以根据自己的需求和阈值来筛选和解释比对结果。这个步骤将结果的解释权和控制权交给用户，增加了用户的灵活性和可定制性。

实施案例1

使用Limosilactobacillus reuteri 121(GtfB；NCBI accession number:AAU08014.2)为请求序列验证本文方法，最终以序列一致度为指标与其他四个软件(Diamond、blast、mmseqs、hmmer)进行对比。首先，运行BLAST Web服务器并获取蛋白质序列。其次，采用哈希索引技术，构建以3个氨基酸残基为单位的种子索引数据库。第三，运行CircBLAST并计算同一性以与BLAST进行比较。第四，使用序列比对来识别域，然后进行匹配样本学生t检验。该过程示意性地如图3所示。

计算出同一性后，我们进行t检验，p值为8.9735x10-99。值得注意的是，环化序列可以提高两个序列之间的一致性。然后，我们从约5000个蛋白质序列形成的数据库中选择了Pediococcusdamosus(假设蛋白质；NCBI登录号：AMV61683.1)。初始状态下AAU08014.2和AMV61683.1之间的一致性为0.5894。循环序列后它们的同一性是0.7452。差异为0.1558。同一性提高的原因如图4所示。

实施案例2

我们扩大了数据去验证这一改进策略，并将其与其他同源序列搜索软件(例如Diamond、MMseqs2和HMMER)进行了比较。我们设置uniprot数据集(约2亿个蛋白质序列)作为我们的搜索数据源。不同软件的比较结果如图5所示，用箱线图表示。我们可以看到，在最大值相同的情况下，CircBLAST相比其他算法改善了序列同一性的整体分布，包括均值、四分之一点和四分之三点。这个结果表明了我们方法的有效性。

基于循环排列，本发明开发了CircBLAST算法，尝试将这种生物学策略添加到BLAST中。在搜索时，我们首先将序列划分为种子块，形成一个无序的数据集，可以将其视为循环序列数据集。然后，我们找到请求(query)序列和比对(sbjct)序列读取的起始位点以生成新序列。最后，我们使用Smith-Waterman算法完成两个序列的比对。我们使用CircBLAST对糖苷水解酶家族的GH70进行分析，发现CircBLAST显著提高了序列比对的准确性，并且可以发现更多的重排序列。

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，所述兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法包括以下步骤：

S100、数据库构建：根据需求的word_size长度，对所有蛋白序列进行切分，并结合序列注释信息构建一个k-mers数据集，根据关联关系构建键值型数据表，并将所述键值型数据表写入数据库；

S400、生成比对结果：CircBLAST以列表形式返回比对结果，所述比对结果包括匹配的序列片段和相似性得分，使用户能够根据相似性得分和统计学意义来评估匹配的可靠性。

2.根据权利要求1所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S100中，数据库构建包括以下步骤：

3.根据权利要求1所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S200中，包括以下步骤：

S210、蛋白质序列文件准备：获取待比对的蛋白质序列文件；

4.根据权利要求3所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S230中，包括以下步骤：

5.根据权利要求1所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S300中，包括以下步骤：

6.根据权利要求1所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S310中，通过mask计算隐去k-mers在每条序列的index信息。

7.根据权利要求1所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S320中，记录每条序列与请求序列的Hits长度，选择Hits最长的一段子序列为请求序列和比对序列的起点，延伸两条序列至子序列前的最后一个氨基酸残基。

8.根据权利要求1所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S330中，比对过程包括原始序列和环形序列的比对情况，并同时包含两种情况下的匹配片段和相似度得分信息。

9.根据权利要求1所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，在S400中，包括以下步骤：

S440、添加统计学意义的信息：在比对结果中添加统计学意义的信息，所述统计学意义的信息包括比对的期望值E-value和置信度confidence；

10.根据权利要求1-9任一项所述的一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法，其特征在于，将权利要求1-9任一项所述的兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法用于基因序列搜索。