CN113012755B

CN113012755B - 基因组atcg的检索方法

Info

Publication number: CN113012755B
Application number: CN202110386350.6A
Authority: CN
Inventors: 桑红燕; 李中凯; 田存伟
Original assignee: Liaocheng University
Current assignee: Liaocheng University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2023-10-27
Anticipated expiration: 2041-04-12
Also published as: CN113012755A

Abstract

基因组ATCG的检索方法，涉及基因数据分析技术领域，特别是属于一种基因组ATCG的检索方法。包括以下步骤：a.初始信息配置；b.基因组检索存储。本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。此外，本发明还提供了一种人机交互界面，人机交互界面包括计算机可读存储介质应用时的查询单元，查询单元包括预设查询模块以及输入查询模块。本发明在植物基因组研究中的应用，可以定位目标序列并进而将目标序列及附近序列一起打包另存为txt文件，能够满足研究者的研究需求。

Description

基因组ATCG的检索方法

技术领域

本发明涉及基因数据分析技术领域，特别是属于一种基因组ATCG的检索方法。

背景技术

随着现代农业的发展，对于植物的基因组的研究也是越来越多，例如设计引物扩增序列并侵染植株，进而分化为转基因植株。尤其是现在寻找靶点，然后从靶点把基因链切开，重新编译后作为新转基因植物的技术也越来越成熟。如何快速的找到靶点及其附近的序列尤为重要。现有技术多为检索目标序列并返回基因所在的染色体，但是通常的研究需要同时分析目标序列附近的其它序列，这样，在研究过程中还存在一定的局限性。

高新农业研究在于研究植物的基因组，进而通过这种方法对植物的基因进行重新编辑，培育出新的转基因植物。当前，许多软件助手仅检索出目标序列所存在的染色体位置，具体的基因序列还需农业研究者自己再搜索整理，这种搜索方法虽然可以定位，但对于研究者的研究没有提供更大的便利。

发明内容

本发明的目的即在于提供一种基因组ATCG的检索方法，以达到可以定位目标序列并进而将目标序列及附近序列一起打包另存的目的。

本发明所提供的基因组ATCG的检索方法，其特征在于，包括以下步骤：

a.初始信息配置:

a1：在开发平台设定所需读取的源数据文件的物理位置；

a2：预设所需读取的目标序列，并将目标序列定义为对比算子，且预设所需另存序列长度；

a3：预设染色体起始位；

b.基因组检索存储:

b1：逐行读取源数据，相邻两行合并后进行目标序列的对比检索；

b2：对检索到的目标序列进行定位，返回目标序列所在染色体的位置，根据预设的另存序列长度，对目标序列前、后所需的长度序列进行截取，并缓存；

b3：检索完毕后，将缓存的目标序列所在染色体的位置及所截取的目标序列前、后所需的长度序列存入TXT文件。

进一步的，在步骤a3中，识别当前行信息为非基因序列信息时，判断当前行为下一条染色体的起始位，将当前行的信息缓存作为当前染色体名称，存入缓存。

进一步的，在步骤b1中，合并第i行和第i+1行的源数据，并去掉相邻两行之间的换行符，其中，i＝0时，表示数据文件中的第一行。

进一步的，在步骤b3中，每个TXT文件对应染色体的名称命名，其内部存储对应染色体内包含的所需研究的目标序列。

进一步的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。

进一步的，本发明还提供了一种人机交互界面，人机交互界面包括计算机可读存储介质应用时的查询单元，查询单元包括预设查询模块以及输入查询模块，其中：

预设查询模块用于将常用的目标序列预存入缓存，当开始查询时可直接选取预存的序列进行检索；

输入查询模块用于临时输入查询，若出现新的目标序列未在预存中，通过临时输入，将需要查询的目标序列临时缓存，进行检索。

进一步的，本发明检索的目标序列为单个或多个，在目标序列为单个时，通过预设查询或输入查询生成目标序列；在目标序列为多个时，通过预设查询和/或输入查询生成目标序列。

本发明所提供的基因组ATCG的检索方法，可以定位目标序列并进而将目标序列及附近序列一起打包另存为TXT文件，能够满足研究者的研究需求。另外，本发明应用中还包括两种查询方法，既可以直接通过预设查询功能，实现对预存目标序列的检索，也可以通过临时输入查询功能，实现对所需要查询的未在预存中的目标序列。本方法支持多个检索目标同时进行检索，当目标序列为多个时，上述两种查询方式可一起使用，通过这两种方式生成对比列表，以对比列表中的信息作为目标序列，分别进行检索，并将检索信息存入TXT文件从而实现了多个目标序列的同时查询。综上所述，本发明具有操作简单、检测准确的积极效果。

附图说明

图1为本发明的工作原理示意图；

图2为本发明的检索原理示意图；

图3为本发明目标序列定位的原理示意图；

图4为本发明检索方式的原理示意图；

图5为本发明在番茄研究应用实施例中的番茄基因序列的部分示意图；

图6为本发明在番茄研究应用实施例中的检索结构示意图；

图7为本发明在番茄研究应用实施例中的番茄的第一个染色体包含有目标序列的检索结果的部分示意图。

具体实施方式

如图1-4所示，本发明所提供的基因组ATCG的检索方法，包括初始信息配置以及基因组检索存储，具体实现过程如下：

a.初始信息配置包括以下过程：

a1：在开发平台设定所需读取的源数据文件的物理位置。

a2：预设所需读取的目标序列，并将目标序列定义为对比算子，且预设所需另存序列长度。

a3：预设染色体起始位。具体地，识别当前行信息为非基因序列信息时，判断当前行为下一条染色体的起始位，将当前行的信息缓存作为当前染色体名称，存入缓存。

b.基因组检索存储包括以下过程：

b1：逐行读取源数据，相邻两行合并后进行目标序列的对比检索。具体地，合并第i行和第i+1行的源数据，并去掉相邻两行之间的换行符，其中，i＝0时，表示数据文件中的第一行。

b3：检索完毕后，将缓存的目标序列所在染色体的位置及所截取的目标序列前、后所需的长度序列存入TXT文件。其中，每个TXT文件对应染色体的名称命名，其内部存储对应染色体内包含的所需研究的目标序列。

另外，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。

此外，本发明还提供了一种人机交互界面，人机交互界面包括计算机可读存储介质应用时的查询单元，查询单元包括预设查询模块以及输入查询模块，其中：预设查询模块用于将常用的目标序列预存入缓存，当开始查询时可直接选取预存的序列进行检索；输入查询模块用于临时输入查询，若出现新的目标序列未在预存中，通过临时输入，将需要查询的目标序列临时缓存，进行检索。

在本发明的应用中，本发明检索的目标序列为单个或多个，在目标序列为单个时，通过预设查询或输入查询生成目标序列；在目标序列为多个时，通过预设查询和/或输入查询生成目标序列。

下面，通过本发明在番茄基因组的应用实施例，对本发明做进一步的描述说明。

如图5所示，为需要分析的番茄基因序列的部分示意，番茄中包含有12条染色体，共计一千三百多万行的基因序列，需要检索出含有agagagagagagagagag*gg的目标序列，其中*为任意的a，t，c，g字母。番茄基因序列经过本发明的基因组ATCG检索方法，检索完毕之后会根据染色体的名称，将各自所包含的目标序列存入各自的TXT文件中，得到如图6所示的检索结果。

本实例运行时预设所需另存序列长度为500，故前后各取500个序列作为研究数据，这些序列会被用来作为设计扩增序列时的一个预测性分析。如图7所示，即为第一个染色体包含有目标序列的检索结果的部分示意。上述目标序列可以作为基因编辑的靶点，在进行基因编译时，可以将此目标序列从任意两个相邻的ag处切开，ag之前的全部atcg序列可以重新编译，将编译好的新基因序列通过细菌侵染的方式侵染番茄的株体，就可以通过被侵染的株体组织分化成苗。

Claims

1.一种基因组ATCG的检索方法，其特征在于，包括以下步骤：

a.初始信息配置:

a1：在开发平台设定所需读取的源数据文件的物理位置；

a3：预设染色体起始位；

b.基因组检索存储:

b3：检索完毕后，将缓存的目标序列所在染色体的位置及所截取的目标序列前、后所需的长度序列存入TXT文件；

其中，在步骤a3中，识别当前行信息为非基因序列信息时，判断当前行为下一条染色体的起始位，将当前行的信息缓存作为当前染色体名称，存入缓存；在步骤b1中，合并第i行和第i+1行的源数据，并去掉相邻两行之间的换行符，其中，i＝0时，表示数据文件中的第一行；在步骤b3中，每个TXT文件对应染色体的名称命名，其内部存储对应染色体内包含的所需研究的目标序列。

2.根据权利要求1所述的基因组ATCG的检索方法，其特征还在于，包括一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。

3.根据权利要求1所述的基因组ATCG的检索方法，其特征还在于，包括一种人机交互界面，人机交互界面包括计算机可读存储介质应用时的查询单元，查询单元包括预设查询模块以及输入查询模块，其中：预设查询模块用于将常用的目标序列预存入缓存，当开始查询时可直接选取预存的序列进行检索；输入查询模块用于临时输入查询，若出现新的目标序列未在预存中，通过临时输入，将需要查询的目标序列临时缓存，进行检索。