CN113012755B - 基因组atcg的检索方法 - Google Patents

基因组atcg的检索方法 Download PDF

Info

Publication number
CN113012755B
CN113012755B CN202110386350.6A CN202110386350A CN113012755B CN 113012755 B CN113012755 B CN 113012755B CN 202110386350 A CN202110386350 A CN 202110386350A CN 113012755 B CN113012755 B CN 113012755B
Authority
CN
China
Prior art keywords
target sequence
chromosome
atcg
sequence
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110386350.6A
Other languages
English (en)
Other versions
CN113012755A (zh
Inventor
桑红燕
李中凯
田存伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaocheng University
Original Assignee
Liaocheng University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaocheng University filed Critical Liaocheng University
Priority to CN202110386350.6A priority Critical patent/CN113012755B/zh
Publication of CN113012755A publication Critical patent/CN113012755A/zh
Application granted granted Critical
Publication of CN113012755B publication Critical patent/CN113012755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/24569Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

基因组ATCG的检索方法,涉及基因数据分析技术领域,特别是属于一种基因组ATCG的检索方法。包括以下步骤:a.初始信息配置;b.基因组检索存储。本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。此外,本发明还提供了一种人机交互界面,人机交互界面包括计算机可读存储介质应用时的查询单元,查询单元包括预设查询模块以及输入查询模块。本发明在植物基因组研究中的应用,可以定位目标序列并进而将目标序列及附近序列一起打包另存为txt文件,能够满足研究者的研究需求。

Description

基因组ATCG的检索方法
技术领域
本发明涉及基因数据分析技术领域,特别是属于一种基因组ATCG的检索方法。
背景技术
随着现代农业的发展,对于植物的基因组的研究也是越来越多,例如设计引物扩增序列并侵染植株,进而分化为转基因植株。尤其是现在寻找靶点,然后从靶点把基因链切开,重新编译后作为新转基因植物的技术也越来越成熟。如何快速的找到靶点及其附近的序列尤为重要。现有技术多为检索目标序列并返回基因所在的染色体,但是通常的研究需要同时分析目标序列附近的其它序列,这样,在研究过程中还存在一定的局限性。
高新农业研究在于研究植物的基因组,进而通过这种方法对植物的基因进行重新编辑,培育出新的转基因植物。当前,许多软件助手仅检索出目标序列所存在的染色体位置,具体的基因序列还需农业研究者自己再搜索整理,这种搜索方法虽然可以定位,但对于研究者的研究没有提供更大的便利。
发明内容
本发明的目的即在于提供一种基因组ATCG的检索方法,以达到可以定位目标序列并进而将目标序列及附近序列一起打包另存的目的。
本发明所提供的基因组ATCG的检索方法,其特征在于,包括以下步骤:
a.初始信息配置:
a1:在开发平台设定所需读取的源数据文件的物理位置;
a2:预设所需读取的目标序列,并将目标序列定义为对比算子,且预设所需另存序列长度;
a3:预设染色体起始位;
b.基因组检索存储:
b1:逐行读取源数据,相邻两行合并后进行目标序列的对比检索;
b2:对检索到的目标序列进行定位,返回目标序列所在染色体的位置,根据预设的另存序列长度,对目标序列前、后所需的长度序列进行截取,并缓存;
b3:检索完毕后,将缓存的目标序列所在染色体的位置及所截取的目标序列前、后所需的长度序列存入TXT文件。
进一步的,在步骤a3中,识别当前行信息为非基因序列信息时,判断当前行为下一条染色体的起始位,将当前行的信息缓存作为当前染色体名称,存入缓存。
进一步的,在步骤b1中,合并第i行和第i+1行的源数据,并去掉相邻两行之间的换行符,其中,i=0时,表示数据文件中的第一行。
进一步的,在步骤b3中,每个TXT文件对应染色体的名称命名,其内部存储对应染色体内包含的所需研究的目标序列。
进一步的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。
进一步的,本发明还提供了一种人机交互界面,人机交互界面包括计算机可读存储介质应用时的查询单元,查询单元包括预设查询模块以及输入查询模块,其中:
预设查询模块用于将常用的目标序列预存入缓存,当开始查询时可直接选取预存的序列进行检索;
输入查询模块用于临时输入查询,若出现新的目标序列未在预存中,通过临时输入,将需要查询的目标序列临时缓存,进行检索。
进一步的,本发明检索的目标序列为单个或多个,在目标序列为单个时,通过预设查询或输入查询生成目标序列;在目标序列为多个时,通过预设查询和/或输入查询生成目标序列。
本发明所提供的基因组ATCG的检索方法,可以定位目标序列并进而将目标序列及附近序列一起打包另存为TXT文件,能够满足研究者的研究需求。另外,本发明应用中还包括两种查询方法,既可以直接通过预设查询功能,实现对预存目标序列的检索,也可以通过临时输入查询功能,实现对所需要查询的未在预存中的目标序列。本方法支持多个检索目标同时进行检索,当目标序列为多个时,上述两种查询方式可一起使用,通过这两种方式生成对比列表,以对比列表中的信息作为目标序列,分别进行检索,并将检索信息存入TXT文件从而实现了多个目标序列的同时查询。综上所述,本发明具有操作简单、检测准确的积极效果。
附图说明
图1为本发明的工作原理示意图;
图2为本发明的检索原理示意图;
图3为本发明目标序列定位的原理示意图;
图4为本发明检索方式的原理示意图;
图5为本发明在番茄研究应用实施例中的番茄基因序列的部分示意图;
图6为本发明在番茄研究应用实施例中的检索结构示意图;
图7为本发明在番茄研究应用实施例中的番茄的第一个染色体包含有目标序列的检索结果的部分示意图。
具体实施方式
如图1-4所示,本发明所提供的基因组ATCG的检索方法,包括初始信息配置以及基因组检索存储,具体实现过程如下:
a.初始信息配置包括以下过程:
a1:在开发平台设定所需读取的源数据文件的物理位置。
a2:预设所需读取的目标序列,并将目标序列定义为对比算子,且预设所需另存序列长度。
a3:预设染色体起始位。具体地,识别当前行信息为非基因序列信息时,判断当前行为下一条染色体的起始位,将当前行的信息缓存作为当前染色体名称,存入缓存。
b.基因组检索存储包括以下过程:
b1:逐行读取源数据,相邻两行合并后进行目标序列的对比检索。具体地,合并第i行和第i+1行的源数据,并去掉相邻两行之间的换行符,其中,i=0时,表示数据文件中的第一行。
b2:对检索到的目标序列进行定位,返回目标序列所在染色体的位置,根据预设的另存序列长度,对目标序列前、后所需的长度序列进行截取,并缓存;
b3:检索完毕后,将缓存的目标序列所在染色体的位置及所截取的目标序列前、后所需的长度序列存入TXT文件。其中,每个TXT文件对应染色体的名称命名,其内部存储对应染色体内包含的所需研究的目标序列。
另外,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。
此外,本发明还提供了一种人机交互界面,人机交互界面包括计算机可读存储介质应用时的查询单元,查询单元包括预设查询模块以及输入查询模块,其中:预设查询模块用于将常用的目标序列预存入缓存,当开始查询时可直接选取预存的序列进行检索;输入查询模块用于临时输入查询,若出现新的目标序列未在预存中,通过临时输入,将需要查询的目标序列临时缓存,进行检索。
在本发明的应用中,本发明检索的目标序列为单个或多个,在目标序列为单个时,通过预设查询或输入查询生成目标序列;在目标序列为多个时,通过预设查询和/或输入查询生成目标序列。
下面,通过本发明在番茄基因组的应用实施例,对本发明做进一步的描述说明。
如图5所示,为需要分析的番茄基因序列的部分示意,番茄中包含有12条染色体,共计一千三百多万行的基因序列,需要检索出含有agagagagagagagagag*gg的目标序列,其中*为任意的a,t,c,g字母。番茄基因序列经过本发明的基因组ATCG检索方法,检索完毕之后会根据染色体的名称,将各自所包含的目标序列存入各自的TXT文件中,得到如图6所示的检索结果。
本实例运行时预设所需另存序列长度为500,故前后各取500个序列作为研究数据,这些序列会被用来作为设计扩增序列时的一个预测性分析。如图7所示,即为第一个染色体包含有目标序列的检索结果的部分示意。上述目标序列可以作为基因编辑的靶点,在进行基因编译时,可以将此目标序列从任意两个相邻的ag处切开,ag之前的全部atcg序列可以重新编译,将编译好的新基因序列通过细菌侵染的方式侵染番茄的株体,就可以通过被侵染的株体组织分化成苗。

Claims (3)

1.一种基因组ATCG的检索方法,其特征在于,包括以下步骤:
a.初始信息配置:
a1:在开发平台设定所需读取的源数据文件的物理位置;
a2:预设所需读取的目标序列,并将目标序列定义为对比算子,且预设所需另存序列长度;
a3:预设染色体起始位;
b.基因组检索存储:
b1:逐行读取源数据,相邻两行合并后进行目标序列的对比检索;
b2:对检索到的目标序列进行定位,返回目标序列所在染色体的位置,根据预设的另存序列长度,对目标序列前、后所需的长度序列进行截取,并缓存;
b3:检索完毕后,将缓存的目标序列所在染色体的位置及所截取的目标序列前、后所需的长度序列存入TXT文件;
其中,在步骤a3中,识别当前行信息为非基因序列信息时,判断当前行为下一条染色体的起始位,将当前行的信息缓存作为当前染色体名称,存入缓存;在步骤b1中,合并第i行和第i+1行的源数据,并去掉相邻两行之间的换行符,其中,i=0时,表示数据文件中的第一行;在步骤b3中,每个TXT文件对应染色体的名称命名,其内部存储对应染色体内包含的所需研究的目标序列。
2.根据权利要求1所述的基因组ATCG的检索方法,其特征还在于,包括一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的基因组ATCG的检索方法的步骤。
3.根据权利要求1所述的基因组ATCG的检索方法,其特征还在于,包括一种人机交互界面,人机交互界面包括计算机可读存储介质应用时的查询单元,查询单元包括预设查询模块以及输入查询模块,其中:预设查询模块用于将常用的目标序列预存入缓存,当开始查询时可直接选取预存的序列进行检索;输入查询模块用于临时输入查询,若出现新的目标序列未在预存中,通过临时输入,将需要查询的目标序列临时缓存,进行检索。
CN202110386350.6A 2021-04-12 2021-04-12 基因组atcg的检索方法 Active CN113012755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110386350.6A CN113012755B (zh) 2021-04-12 2021-04-12 基因组atcg的检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110386350.6A CN113012755B (zh) 2021-04-12 2021-04-12 基因组atcg的检索方法

Publications (2)

Publication Number Publication Date
CN113012755A CN113012755A (zh) 2021-06-22
CN113012755B true CN113012755B (zh) 2023-10-27

Family

ID=76388203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110386350.6A Active CN113012755B (zh) 2021-04-12 2021-04-12 基因组atcg的检索方法

Country Status (1)

Country Link
CN (1) CN113012755B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102459592A (zh) * 2009-06-15 2012-05-16 考利达基因组股份有限公司 用于长片段阅读测序的方法和组合物
CN104462211A (zh) * 2014-11-04 2015-03-25 北京诺禾致源生物信息科技有限公司 重测序数据的处理方法和处理装置
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN105830078A (zh) * 2013-10-21 2016-08-03 七桥基因公司 用于在有向非循环结构中使用双端数据的系统和方法
CN108804877A (zh) * 2018-06-08 2018-11-13 南京森林警察学院 一种生物学基因dna序列比对系统
CN111095421A (zh) * 2017-08-31 2020-05-01 国际商业机器公司 基因文件的上下文感知增量算法
CN112530523A (zh) * 2019-09-18 2021-03-19 智慧芽信息科技(苏州)有限公司 数据库构建方法、文件检索方法以及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102459592A (zh) * 2009-06-15 2012-05-16 考利达基因组股份有限公司 用于长片段阅读测序的方法和组合物
CN105830078A (zh) * 2013-10-21 2016-08-03 七桥基因公司 用于在有向非循环结构中使用双端数据的系统和方法
CN104462211A (zh) * 2014-11-04 2015-03-25 北京诺禾致源生物信息科技有限公司 重测序数据的处理方法和处理装置
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN111095421A (zh) * 2017-08-31 2020-05-01 国际商业机器公司 基因文件的上下文感知增量算法
CN108804877A (zh) * 2018-06-08 2018-11-13 南京森林警察学院 一种生物学基因dna序列比对系统
CN112530523A (zh) * 2019-09-18 2021-03-19 智慧芽信息科技(苏州)有限公司 数据库构建方法、文件检索方法以及装置

Also Published As

Publication number Publication date
CN113012755A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
US8832112B2 (en) Encoded matrix index
CN103729392A (zh) 查询优化方法及查询编译器
US20070226176A1 (en) Apparatus and method for optimizing a query to a partitioned database table using a virtual maintained temporary index that spans multiple database partitions
US20040083117A1 (en) Method for fast searching and analyzing inter-relations between patents from a patent database
AU4937099A (en) A search system and method for retrieval of data, and the use thereof in a search engine
CA2415183A1 (en) Performing spreadsheet-like calculations in a database system
JP5183155B2 (ja) 大量配列の一括検索方法及び検索システム
CN112364024B (zh) 一种表数据批量自动比对的控制方法及装置
CN110968593A (zh) 数据库sql语句优化方法、装置、设备和存储介质
CN101558399B (zh) 主要服务器架构连网布置及其方法
CN113012755B (zh) 基因组atcg的检索方法
CN109299101A (zh) 数据检索方法、装置、服务器和存储介质
Kim et al. A review on sequence alignment algorithms for short reads based on next-generation sequencing
JP3530842B2 (ja) 核酸塩基配列アセンブル装置及びその動作方法
CN101493824A (zh) 数据库的数据检索方法和装置
Shibuya et al. Match chaining algorithms for cDNA mapping
CN111666302A (zh) 用户排名的查询方法、装置、设备及存储介质
Kumar et al. Efficient read alignment using burrows wheeler transform and wavelet tree
Rheinländer et al. Prefix tree indexing for similarity search and similarity joins on genomic data
CN112308476A (zh) 一种订单组单的方法、装置及存储介质
CN109241098B (zh) 一种分布式数据库的查询优化方法
CN114153874A (zh) 基数估计方法、装置、电子设备及存储介质
CN113536058A (zh) 一种空间索引修改方法、装置、设备及存储介质
US8738600B2 (en) String searches in a computer database
CN112182030A (zh) 专利文献检索方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant