CN116504313A - 基因终止子查询方法、装置、设备及可读存储介质 - Google Patents

基因终止子查询方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116504313A
CN116504313A CN202310511302.4A CN202310511302A CN116504313A CN 116504313 A CN116504313 A CN 116504313A CN 202310511302 A CN202310511302 A CN 202310511302A CN 116504313 A CN116504313 A CN 116504313A
Authority
CN
China
Prior art keywords
target organism
terminator
gene
file
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310511302.4A
Other languages
English (en)
Inventor
李达伟
李宏业
黄小龙
杨维东
黄丹
赖浩强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202310511302.4A priority Critical patent/CN116504313A/zh
Publication of CN116504313A publication Critical patent/CN116504313A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基因终止子查询方法、装置、设备及可读存储介质,当需要确定任意一个物种的高效终止子序列时,本申请可获取目标生物的基因组文件、基因组注释文件或目标生物的高通量数据文件,这几个文件均可以反馈目标生物的高效终止子序列,因此,在获取这几个文件之后,可依据基因组文件以及基因组注释文件或依据目标生物的高通量数据文件,生成所述目标生物的终止子序列;并基于目标生物的终止子序列,确定目标生物的高效终止子序列。由此,本申请可针对任一物种的基因组文件以及基因组注释文件或物种的高通量数据文件来精准查找对应的物种的高效终止子序列,适应性较强,且查询效率和准确度较高,可以适应不同物种改造载体的需求。

Description

基因终止子查询方法、装置、设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基因终止子查询方法、装置、设备及可读存储介质。
背景技术
在实际应用过程中,转录终止是基因表达的重要调控步骤,终止子是基因组上具有调控基因转录终止功能的一段序列,是保障基因正常转录表达所不可或缺的顺式作用元件。终止子经转录后位于mRNA的3’UTR区域内,并且通过自身的序列形成“发卡”结构,从而使RNA聚合酶II不能继续沿着DNA模板移动,协同其他蛋白因子释放模板和已经合成的RNA。由此可见,终止子在基因的转录表达过程中具有重要的调控作用。
近年来,合成生物学的快速发展使得研发一种高效、快速的终止子查找工具迫在眉睫。构建高效的遗传转化体系是合成生物学对底盘细胞进行改造最重要的一步,其中,启动子和终止子是遗传转化体系必不可少的组成部分,现有的终止子查询方法其适用性较低,一般只能适用于某一个单一的物种的终止子查询。低效的终止子不仅不能有效地终止转录,还会影响RNA聚合酶的循环使用及下一个表达盒的正常表达。考虑到同源重组的问题,一个高效的终止子在同一个遗传转化体系上不能重复使用。因此,能够快速查找和预测高效终止子具有重要的科学意义。
发明内容
本申请旨在至少能解决上述的技术缺陷之一,有鉴于此,本申请提供了一种基因终止子查询方法、装置、设备及可读存储介质,用于解决现有技术中难以确定任意物种的高效终止子序列的技术缺陷。
一种基因终止子查询方法,包括:
获取目标生物的基因组文件和所述目标生物的基因组注释文件,或获取所述目标生物的高通量数据文件,其中,所述基因组文件包括至少一种基因信息,所述基因组注释文件包括至少一种信息;
若获取的为所述基因组文件以及所述基因组注释文件,则依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列;
若获取的为所述目标生物的高通量数据文件,则依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列;
基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
优选地,该方法还包括:
基于所述目标生物的高效终止子序列,生成所述目标生物对应的高效终止子报告。
优选地,所述依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列,包括:
依据所述基因组文件以及所述基因组注释文件,获取所述目标生物的目标基因所在染色体的所有基因;
将所述目标生物的目标基因所在染色体的所有基因进行排序,得到所述目标基因所在染色体的所有基因排序结果;
依据所述目标基因所在染色体的所有基因排序结果,确定所述目标基因的终止子序列的起始坐标;
依据所述目标基因的终止子序列的起始坐标及终止子序列的长度,确定所述目标生物的终止子序列。
优选地,所述依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列,包括:
分析所述目标生物的高通量数据文件,确定所述目标生物的高通量转录组测序结果;
依据所述目标生物的高通量转录组测序结果,得到所述目标生物的基因表达量文件,其中,所述基因表达量文件包含所述目标生物的基因编号和所述目标生物的基因表达量;
依据所述基因表达量基因编号和所述目标生物的基因表达量,生成所述目标生物的终止子序列。
优选地,所述基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列,包括:
依据所述目标生物的终止子序列,确定所述目标生物的各个基因编号;
依据所述目标生物的各个基因编号,查阅预设的全物种终止子库,得到所述目标生物的高效终止子的基因编号;
依据所述目标生物的高效终止子的基因编号,确定所述目标生物的高效终止子序列。
优选地,所述基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列,包括:
确定所述目标生物的基因表达量,并以所述目标生物的基因表达量为主键,并依据所述目标生物的基因表达量的数值大小,对所述目标生物的终止子序列进行排列,得到所述目标生物的终止子序列的排序结果;
依据所述目标生物的终止子序列的排序结果,保留N个基因终止子序列作为所述目标生物的高效终止子序列对应的基因,并依据所保留的N个基因确定所述目标生物的高效终止子序列,其中,N的取值范围为[0,100]。
一种基因终止子查询装置,包括:
数据获取单元,用于获取目标生物的基因组文件和所述目标生物的基因组注释文件,或获取所述目标生物的高通量数据文件,其中,所述基因组文件包括至少一种基因信息,所述基因组注释文件包括至少一种信息;
序列生成单元,用于当获取的为所述基因组文件以及所述基因组注释文件时,依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列;当获取的为所述目标生物的高通量数据文件时,依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列;
确定单元,用于基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
优选地,该装置还包括:
报告生成单元,用于基于所述目标生物的高效终止子序列,生成所述目标生物对应的高效终止子报告。
一种基因终止子查询设备,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,实现如前述介绍中任一项所述基因终止子查询方法的步骤。
一种可读存储介质,所述可读存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器实现如前述介绍中任一项所述基因终止子查询方法的步骤。
从上述介绍的技术方案可以看出,当需要确定任意一个物种的高效终止子序列时,本申请实施例提供的方法可以获取目标生物的基因组文件和所述目标生物的基因组注释文件或获取所述目标生物的高通量数据文件,其中,所述基因组文件可以包括至少一种基因信息,所述基因组注释文件可以包括至少一种信息;所述目标生物的基因组文件、所述目标生物的基因组注释文件或所述目标生物的高通量数据文件均可以反馈所述目标生物的高效终止子序列,因此,在获取所述目标生物的基因组文件、所述目标生物的基因组注释文件或所述目标生物的高通量数据文件之后,可以依据所述基因组文件以及所述基因组注释文件或依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列;其中,所述目标生物的终止子序列可以包括高效终止子序列和低效终止子序列,因此,在确定所述目标生物的终止子序列之后,可以进一步基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
由此可知,本申请实施例提供的方法可以针对任意一种物种的基因组文件以及基因组注释文件或任意一种物种的高通量数据文件来精准查找对应的物种的高效终止子序列,本申请实施例提供的方法适应性较强,且查询效率和准确度较高,可以适应不同物种改造载体的需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种实现基因终止子查询方法的流程图;
图2为本申请实施例示例的一种基因终止子查询装置结构示意图;
图3为本申请实施例公开的一种基因终止子查询设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
基因组数据库的日益丰富为终止子的查找及研究提供了极大的可能,目前为止,已经研发了比较多的终止子预测或查询工具。
例如,
有些终止子预测工具可以用于预测Rho非依赖性的转录终止子的。
有些终止子预测工具可以预测基于序列的细菌转录终止子预测工具。
有些网络服务器可以用于细菌基因组和转录组的分析和可视化。
有些工具被称为“基因组终止子扫描仪”,经过扫描能够生成每个终止子的完整描述包括图表。
有些终止子查询工具能够在细菌基因组中查找终止子,但是每次只能根据查找顺序提供一个终止子结果。
有些基因组终止子扫描仪可以扫描小于40kb的DNA,并查找出上面潜在的基因和多种生物调控元件。
有些终止子查询工具可以基于大肠杆菌、枯草芽孢杆菌、肠沙门氏菌的数据库预测Rho依赖性终止子的工具。
但是现有的终止子查询或预测工具仅限于查找和预测Rho非依赖性终止子。
综上所述,有关终止子的研究及预测软件和网站的开发虽然已经有了一些成果,但是尚存在一些不足,难以满足相关合成生物学的发展。
其一,现有的终止子查询或预测工具适用性比较低,只能针对某单一物种,而不适用于其他物种;
其二,现有的终止子查询或预测工具不具备高通量输出所查物种所有终止子的功能,需用户手动操作,费时费力;
其三,现有的终止子查询或预测工具算法预测的准确性还不够高,尚需要结合组学数据及实验数据进一步验证终止子的有效性;
其四,已有的预测软件和方法主要集中在Rho非依赖性终止子的预测是上,Rho非依赖性的终止子预测软件较少;
目前比较缺乏一种可以在脱机状态下对任意已有基因组的物种进行精准查找高效终止子查询方法。
鉴于目前大部分的基因终止子查询方案难以适应复杂多变的业务需求,为此,本申请人研究了一种基因终止子查询方案,该基因终止子查询方法可以针对任意一种物种的基因组文件以及基因组注释文件或任意一种物种的高通量数据文件来精准查找对应的物种的高效终止子序列,本申请实施例提供的方法适应性较强,且查询效率和准确度较高,可以适应不同物种改造载体的需求。
本申请实施例提供的方法可以用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请实施例提供一种基因终止子查询方法,该方法可以应用于各种基因查询系统中,亦可以应用在各种计算机终端或是智能终端中,其执行主体可以为计算机终端或是智能终端的处理器或服务器。
下面结合图1,介绍本申请实施例给出的基因终止子查询方法的流程,如图1所示,该流程可以包括以下几个步骤:
步骤S101,获取目标生物的基因组文件和所述目标生物的基因组注释文件,或获取所述目标生物的高通量数据文件。
具体地,在实际应用过程中,当需要确定某一个物种的高效终止子序列时,可以通过分析该物种的基因组文件以及基因组注释文件来确定。
其次还可以通过分析该物种的高通量数据文件来确定。
由此可知,物种的基因组文件、物种的基因组注释文件或物种的高通量数据文件均可以用来分析物种的高效终止子序列。
因此,当需要确定所述目标生物的高效终止子序列时,可以获取目标生物的基因组文件、所述目标生物的基因组注释文件或所述目标生物的高通量数据文件。
其中,
所述目标生物的基因组文件包括至少一种基因信息;
所述目标生物的基因组注释文件包括至少一种信息,所述目标生物的基因组注释文件可以为GFF3标准格式。
其中,所述目标生物的基因组注释文件可以包括至少以下几种:
所述目标生物的参考序列的ID(seqid);
所述目标生物的基因组注释文件的注释来源(source);
所述目标生物的基因组注释文件的类型(type);
所述目标生物的基因开始位点(start);
所述目标生物的基因结束点位(end);
所述目标生物的基因得分(score);
所述目标生物的正负链标识(strand),其中,所述目标生物的正负链标识为“+”表示该链为正链,所述目标生物的正负链标识为“-”表示该链为负链,所述目标生物的正负链标识为“.”表示所述目标生物不需要指定正负链;
所述目标生物的步进(phase),对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置,可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数;
所述目标生物的属性信息(attributes)。
其中,
所述目标生物的基因组文件以及基因组注释文件可以从预设的物种基因数据库下载。
其中,
常用的物种基因数据库可以包括NCBI数据库以及JGI数据库。
所述目标生物的高通量数据文件可以包括所述目标生物的基因编号以及所述目标生物的基因表达量。
其中,
所述目标生物的基因表达量有所述目标生物的启动子和终止子决定,其中,所述目标生物的基因表达量越高,则表示其基因的终止效率越高。
其中,
所述目标生物可以为任意一种物种。
在实际应用过程中,若获取的为所述基因组文件以及所述基因组注释文件,则可以执行步骤S102;
若获取的为所述目标生物的高通量数据文件,则可以执行步骤S103。
步骤S102,依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列。
具体地,由上述介绍可知,本申请实施例提供的方法可以获取所述目标生物的基因组文件、所述目标生物的基因组注释文件。
其中,
所述目标生物的基因组文件、所述目标生物的基因组注释文件可以用来分析物种的高效终止子序列。
因此,在确定所述基因组文件以及所述基因组注释文件之后,可以进一步依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列。
其中,
所述目标生物的终止子序列可以包括低效终止子序列和高效终止子序列。
步骤S103,依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列。
具体地,由上述介绍可知,本申请实施例提供的方法可以获取所述目标生物的高通量数据文件。
其中,
所述目标生物的高通量数据文件可以用来分析物种的高效终止子序列。
因此,在确定所述目标生物的高通量数据文件之后,可以进一步依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列。
其中,
所述目标生物的终止子序列可以包括低效终止子序列和高效终止子序列。
步骤S104,基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述基因组文件以及所述基因组注释文件或依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列。
其中,
所述目标生物的终止子序列可以包括低效终止子序列和高效终止子序列。
进一步地,在确定所述目标生物的终止子序列之后,可以基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
从上述介绍的技术方案可以看出,当需要确定任意一个物种的高效终止子序列时,本申请实施例提供的方法可以针对任意一种物种的基因组文件以及基因组注释文件或任意一种物种的高通量数据文件来精准查找对应的物种的高效终止子序列,本申请实施例提供的方法适应性较强,且查询效率和准确度较高,可以适应不同物种改造载体的需求。
在实际应用过程中,在确定某一个物种的高效终止子序列之后,本申请实施例提供的方法还可以基于所述目标生物的高效终止子序列,生成所述目标生物对应的高效终止子报告。
其中,
所述目标生物对应的高效终止子报告可以包括所述目标生物的高效终止子对应的基因ID,所述目标生物的高效终止子序列的起始位置,所述目标生物的高效终止子所在的染色体位置,所述目标生物的高效终止子的序列以及所述目标生物的高效终止子长度。
从上述介绍的技术方案可知,本申请实施例提供的方法在确定所述目标生物的高效终止子序列之后,还可以基于所述目标生物的高效终止子序列,生成所述目标生物对应的高效终止子报告。
由上述介绍可知,本申请实施例提供的方法可以依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S201,依据所述基因组文件以及所述基因组注释文件,获取所述目标生物的目标基因所在染色体的所有基因。
具体地,由上述介绍可知,所述目标生物的基因组文件以及基因组注释文件可以反馈有关所述目标生物的基因的相关信息。
所述目标生物的终止子序列与所述目标生物的基因相关信息相关。
因此,在确定所述目标生物的基因组文件以及对应的基因组注释文件之后,可以进一步依据所述基因组文件以及所述基因组注释文件,获取所述目标生物的目标基因所在染色体的所有基因,以便可以根据所述目标生物的目标基因所在染色体的所有基因来分析所述目标生物的终止子序列。
步骤S202,将所述目标生物的目标基因所在染色体的所有基因进行排序,得到所述目标基因所在染色体的所有基因排序结果。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述基因组文件以及所述基因组注释文件,获取所述目标生物的目标基因所在染色体的所有基因。
在确定所述目标生物的目标基因所在染色体的所有基因之后,为了快速确定所述目标生物的终止子序列,可以将所述目标生物的目标基因所在染色体的所有基因进行排序,由此可以得到所述目标基因所在染色体的所有基因排序结果。
例如,
可以将所述目标生物的目标基因所在染色体的所有基因进行升序排序,由此可以得到所述目标基因所在染色体的所有基因的升序排序结果。
步骤S203,依据所述目标基因所在染色体的所有基因排序结果,确定所述目标基因的终止子序列的起始坐标。
具体地,由上述介绍可知,本申请实施例提供的方法可以将所述目标生物的目标基因所在染色体的所有基因进行排序,并得到所述目标基因所在染色体的所有基因排序结果。
所述目标生物的目标基因所在染色体的所有基因排序结果可以反馈所述目标基因的终止子序列的起始坐标。
因此,在确定所述目标生物的目标基因所在染色体的所有基因排序结果之后,可以依据所述目标基因所在染色体的所有基因排序结果,确定所述目标基因的终止子序列的起始坐标。
步骤S204,依据所述目标基因的终止子序列的起始坐标及终止子序列的长度,确定所述目标生物的终止子序列。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标基因所在染色体的所有基因排序结果,确定所述目标基因的终止子序列的起始坐标。
确定所述目标基因的终止子序列的起始坐标,则可以进一步确定所述目标生物的终止子序列。
因此,在确定所述目标基因的终止子序列的起始坐标之后,可以依据所述目标基因的终止子序列的起始坐标及终止子序列的长度,确定所述目标生物的终止子序列。
例如,
可以根据所述目标生物的GFF3注释文件及基因组文件,获得所述目标生物的基因Y所在染色体的所有基因,并对所有的基因进行升序排序,得到所述目标生物的基因Y所在染色体的所有基因的升序排列结果。
令所述目标生物的基因Y为:
gene(Y)=a,[X1,X2]
其中,
gene(Y)可以表示所述目标生物的基因Y;
Xn可以表示所述目标生物的基因Y的基因编码的mRNA坐标起始点坐标值(方向是5’-3’),其中,X1表示基因(Y)的开始点坐标值,X2表示基因(Y)的结束点坐标值;
A可以表示Y基因的所在的链,a=1表示gene(Y)在正义链,a=-1表示gene(Y)在负义链。
令所述目标生物的基因Y相邻后的一个基因为基因(Y-1):
gene(Y-1)=b,[X3,X4]
其中,
gene(Y-1)可以表示所述目标生物的基因Y相邻前一个基因;
Xn可以表示所述目标生物的基因Y的基因编码的mRNA坐标起始点坐标值(方向是5’-3’),其中,X3表示基因(Y-1)的开始点坐标值,X4表示基因(Y-1)的结束点坐标值;
b可以表示所述目标生物的基因Y-1的所在的链,b=1表示基因(Y-1)在正义链,b=-1表示基因(Y-1)在负义链。
令所述目标生物的基因(Y-1)相邻后的一个基因为基因(Y-2):
gene(Y-2)=c,[X5,X6]
gene(Y-2)可以表示所述目标生物的基因(Y-1)相邻前一个基因;
Xn可以表示所述目标生物的基因Y的基因编码的mRNA坐标起始点坐标值(方向是5’-3’),其中,X5表示基因(Y-2)的开始点坐标值,X6表示基因(Y-2)的结束点坐标值;
c表示所述目标生物的基因(Y-2)的所在的链,c=1表示基因(Y-2)在正义链,c=-1表示基因(Y-2)在负义链。
令所述目标生物的基因Y相邻后的一个基因为基因(Y+1):
gene(Y+1)=d,[X7,X8]
gene(Y+1)可以表示所述目标生物的基因Y相邻后一个基因;
Xn可以表示所述目标生物的基因Y的基因编码的mRNA坐标起始点坐标值(方向是5’-3’),其中,X7表示基因(Y+1)的开始点坐标值,X8表示基因(Y+1)的结束点坐标值;
d表示所述目标生物的基因(Y+1)的所在的链,d=1表示基因(Y+1)在正义链,d=-1表示基因(Y-2)在负义链。
令所述目标生物的基因(Y+1)相邻后的一个基因为基因(Y+2):
gene(Y+2)=e,[X9,X10]
gene(Y+2)可以表示所述目标生物的基因(Y+1)相邻后一个基因;
Xn可以表示所述目标生物的基因Y的基因编码的mRNA坐标起始点坐标值(方向是5’-3’),其中,X9表示基因(Y+2)的开始点坐标值,X10表示基因(Y+2)的结束点坐标值;
e表示所述目标生物的基因(Y+2)的所在的链,e=1表示基因(Y+2)在正义链,e=-1表示基因(Y+2)在负义链。
其中,
所述目标生物的基因Y对应的终止子序列长度的搜寻过程可以包括如下:
(1)如果a=1,X7-X2>0且X8-X2>0
如果d=1,则所述目标生物的基因Y对应的终止子长度=|X7-X2|,gene(Yter)=[X2,X7];
如果d=-1,终止子长度=|X8-X2|,gene(Yter)=[X2,X8]
(2)如果a=1,X7-X2≤0或X8-X2≤0
如果e=1,终止子长度=|X9-X2|,gene(Yter)=[X2,X9],
如果e=-1,终止子长度=|X10-X2|,gene(Yter)=[X10,X2]。
(3)如果a=-1,X2-X3>0且X2-X4>0
如果b=1,终止子长度=|X4-X2|,gene(Yter)=[X4,X2],序列反向互补;
如果b=-1,终止子长度=|X3-X2|,gene(Yter)=[X3,X2],序列反向互补;
(4)如果a=-1,X2-X3≤0或X2-X4≤0
如果c=1,终止子长度=|X6-X2|,gene(Yter)=[X6,X2],序列反向互补;
如果c=-1,终止子长度=|X5-X2|,gene(Yter)=[X5,X2],序列反向互补。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以依据所述基因组文件以及所述基因组注释文件,高效确定所述目标生物的终止子的起始坐标信息,进而可以依据所述目标生物的终止子的起始坐标信息来精准确定所述目标生物的终止子序列。
由上述介绍可知,本申请实施例提供的方法可以依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S301,分析所述目标生物的高通量数据文件,确定所述目标生物的高通量转录组测序结果。
具体地,由上述介绍可知,所述目标生物的高通量数据文件可以反馈所述目标生物的高效终止子序列。
其中,
所述目标生物的高通量数据文件可以包括所述目标生物的基于编号以及所述目标生物的基因表达量。
所述目标生物的基因表达量可以通过所述目标生物的高通量转录组测序结果来确定。
而所述目标生物的高通量转录组测序结果则可以通过所述目标生物的高通量数据文件来确定。
因此,在获取所述目标生物的高通量数据文件之后,可以分析所述目标生物的高通量数据文件,确定所述目标生物的高通量转录组测序结果,以便可以根据所述目标生物的高通量转录组测序结果来确定所述目标生物的高通量转录组测序结果。
步骤S302,依据所述目标生物的高通量转录组测序结果,得到所述目标生物的基因表达量文件。
具体地,由上述介绍可知,本申请实施例提供的方法可以通过所述目标生物的高通量数据文件来确定所述目标生物的高通量转录组测序结果。
所述目标生物的高通量转录组测序结果可以反馈所述目标生物的基因表达量。
其中,
所述目标生物的基因表达量有所述目标生物的启动子和终止子决定,其中,所述目标生物的基因表达量越高,则表示其基因的终止效率越高。
因此,在确定所述目标生物的高通量转录组测序结果之后,可以依据所述目标生物的高通量转录组测序结果,得到所述目标生物的基因表达量文件。
其中,所述基因表达量文件可以包含所述目标生物的基因编号和所述目标生物的基因表达量。
步骤S303,依据所述基因表达量基因编号和所述目标生物的基因表达量,生成所述目标生物的终止子序列。
具体地,由于所述目标生物的基因表达量有所述目标生物的启动子和终止子决定,并且所述目标生物的基因表达量越高,则表示其基因的终止效率越高。
因此,在确定所述目标生物的基因表达量之后,可以依据所述基因表达量基因编号和所述目标生物的基因表达量,生成所述目标生物的终止子序列。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以依据所述目标生物的高通量数据文件,确定所述目标生物的基因表达量,继而依据所述目标生物的基因表达量生成所述目标生物的终止子序列,可以高效而精准地通过分析生物的高通量数据文件来确定生物的终止子序列,以便可以通过生物的终止子序列来确定生物的高效终止子序列。
由上述介绍可知,本申请实施例提供的方法可以基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S401,依据所述目标生物的终止子序列,确定所述目标生物的各个基因编号。
具体地,在实际应用过程中,生物的终止子序列包括低效终止子序列以及高效终止子序列。
生物的终止子序列可以包括生物的基因编号。
因此,在确定所述目标生物的终止子序列之后,可以依据所述目标生物的终止子序列,确定所述目标生物的各个基因编号,以便可以依据所述目标生物的各个基因编号来确定所述目标生物的高效终止子的基因编号。
步骤S402,依据所述目标生物的各个基因编号,查阅预设的全物种终止子库,得到所述目标生物的高效终止子的基因编号。
具体地,在实际应用过程中,生物的基因编号可以包括生物的高效终止子对应的基因编号。
因此,所述目标生物的各个基因编号可以包括所述目标生物的高效终止子对应的基因编号。
在确定所述目标生物的各个基因编号之后,可以依据所述目标生物的各个基因编号,查阅预设的全物种终止子库,得到所述目标生物的高效终止子的基因编号。
其中,
所述预设的全物种终止子库可以包括全部物种的终止子基因信息。
例如,
所述预设的全物种终止子库可以包含基因编号、起始坐标,终止子序列,终止子长度,
例如,
所述预设的全物种终止子库可以包括所述目标生物的高效终止子基因编号。
例如,
因为基因编号和终止子库的基因编号是一一对应,可以基于的所述预设的全物种终止子库,根据高表达基因的基因编号,得到高效的终止子的库。
步骤S403,依据所述目标生物的高效终止子的基因编号,确定所述目标生物的高效终止子序列。
具体地,由上述介绍可知,本申请实施例提供的方法可以确定所述目标生物的高效终止子的基因编号。
生物的高效终止子与其基因编号是一一对应的关系。
因此,在确定所述目标生物的高效终止子的基因编号之后,可以依据所述目标生物的高效终止子的基因编号,确定所述目标生物的高效终止子序列。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以依据所述目标生物的终止子序列,确定所述目标生物的高效终止子的基因编号,并依据所述目标生物的高效终止子的基因编号来高效而精准地确定所述目标生物的高效终止子序列,可适用于不同的物种的高效终止子查询。
由上述介绍可知,本申请实施例提供的方法可以基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列,接下来介绍该过程,该过程可以包括如下几个步骤:
步骤S501,确定所述目标生物的基因表达量,并以所述目标生物的基因表达量为主键,并依据所述目标生物的基因表达量的数值大小,对所述目标生物的终止子序列进行排列,得到所述目标生物的终止子序列的排序结果。
具体地,由上述介绍可知,所述目标生物的基因表达量可以反馈所述目标高效终止子的信息。
而所述目标生物的基因表达量可以由所述目标生物的终止子序列来确定。
因此,在确定所述目标生物的终止子序列之后,可以基于所述目标生物的终止子序列,确定所述目标生物的确定所述目标生物的基因表达量,并以所述目标生物的基因表达量为主键,并依据所述目标生物的基因表达量的数值大小,对所述目标生物的终止子序列进行排列,得到所述目标生物的终止子序列的排序结果。
例如,可以对所述目标生物的终止子序列进行降序排列,得到所述目标生物的终止子序列的降序排序结果。
步骤S502,依据所述目标生物的终止子序列的排序结果,保留N个基因终止子序列作为所述目标生物的高效终止子序列对应的基因,并依据所保留的N个基因确定所述目标生物的高效终止子序列。
具体地,由上述介绍可知,本申请实施例提供的方法可以依据所述目标生物的基因表达量的数值大小,对所述目标生物的终止子序列进行排列,得到所述目标生物的终止子序列的排序结果。
进一步地,可以依据所述目标生物的终止子序列的排序结果,保留N个基因终止子序列作为所述目标生物的高效终止子序列对应的基因,并依据所保留的N个基因确定所述目标生物的高效终止子序列。
其中,N的取值范围可以为[0,100]。
例如,
可以根据高通量转录组测序得到的基因表达量(FPKM)文件,该文件包含基因编号,基因表达量(FPKM),以FPKM为主键,根据数值大小,进行降序排列,保留前100个基因,保留下来的这些基因都可以认为是高表达的基因,这些高表达基因包括基因编号以及基因表达量。
从上述介绍的技术方案可以看出,本申请实施例提供的方法可以确定所述目标生物的基因表达量,并以所述目标生物的基因表达量为主键,并依据所述目标生物的基因表达量的数值大小,对所述目标生物的终止子序列进行排列,得到所述目标生物的终止子序列的排序结果。并可以依据所述目标生物的终止子序列的排序结果,保留N个基因终止子序列作为所述目标生物的高效终止子序列对应的基因,并依据所保留的N个基因确定所述目标生物的高效终止子序列。由此可以高效并精准地确定所述目标生物的高效终止子序列。
下面对本申请实施例提供的基因终止子查询装置进行描述,下文描述的基因终止子查询装置与上文描述的基因终止子查询方法可相互对应参照。
参见图2,图2为本申请实施例公开的一种基因终止子查询装置结构示意图。
如图2所示,该基因终止子查询装置可以包括:
数据获取单元101,用于获取目标生物的基因组文件和所述目标生物的基因组注释文件,或获取所述目标生物的高通量数据文件,其中,所述基因组文件包括至少一种基因信息,所述基因组注释文件包括至少一种信息;
序列生成单元102,用于当获取的为所述基因组文件以及所述基因组注释文件时,依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列;当获取的为所述目标生物的高通量数据文件时,依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列;
确定单元103,用于基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
从上述介绍的技术方案可以看出,当需要确定任意一个物种的高效终止子序列时,本申请实施例提供的装置可以获取目标生物的基因组文件、所述目标生物的基因组注释文件或获取所述目标生物的高通量数据文件,其中,所述基因组文件可以包括至少一种基因信息,所述基因组注释文件可以包括至少一种信息;所述目标生物的基因组文件、所述目标生物的基因组注释文件或所述目标生物的高通量数据文件均可以反馈所述目标生物的高效终止子序列,因此,在获取所述目标生物的基因组文件、所述目标生物的基因组注释文件或所述目标生物的高通量数据文件之后,可以依据所述基因组文件以及所述基因组注释文件或依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列;其中,所述目标生物的终止子序列可以包括高效终止子序列和低效终止子序列,因此,在确定所述目标生物的终止子序列之后,可以进一步基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
由此可知,本申请实施例提供的装置可以针对任意一种物种的基因组文件以及基因组注释文件或任意一种物种的高通量数据文件来精准查找对应的物种的高效终止子序列,本申请实施例提供的方法适应性较强,且查询效率和准确度较高。
进一步可选的,该装置还可以包括:
报告生成单元,用于基于所述目标生物的高效终止子序列,生成所述目标生物对应的高效终止子报告。
其中,上述基因终止子查询装置所包含的各个单元的具体处理流程,可以参照前文基因终止子查询方法部分相关介绍,此处不再赘述。
本申请实施例提供的基因终止子查询装置可应用于基因终止子查询设备,如终端:手机、电脑等。可选的,图3示出了基因终止子查询设备的硬件结构框图,参照图3,基因终止子查询设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4。
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:实现前述终端基因终止子查询方案中的各个处理流程。
本申请实施例还提供一种可读存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:实现前述终端在基因终止子查询方案中的各个处理流程。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。各个实施例之间可以相互组合。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基因终止子查询方法,其特征在于,包括:
获取目标生物的基因组文件和所述目标生物的基因组注释文件,或获取所述目标生物的高通量数据文件,其中,所述基因组文件包括至少一种基因信息,所述基因组注释文件包括至少一种信息;
若获取的为所述基因组文件以及所述基因组注释文件,则依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列;
若获取的为所述目标生物的高通量数据文件,则依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列;
基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
基于所述目标生物的高效终止子序列,生成所述目标生物对应的高效终止子报告。
3.根据权利要求1所述的方法,其特征在于,所述依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列,包括:
依据所述基因组文件以及所述基因组注释文件,获取所述目标生物的目标基因所在染色体的所有基因;
将所述目标生物的目标基因所在染色体的所有基因进行排序,得到所述目标基因所在染色体的所有基因排序结果;
依据所述目标基因所在染色体的所有基因排序结果,确定所述目标基因的终止子序列的起始坐标;
依据所述目标基因的终止子序列的起始坐标及终止子序列的长度,确定所述目标生物的终止子序列。
4.根据权利要求1所述的方法,其特征在于,所述依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列,包括:
分析所述目标生物的高通量数据文件,确定所述目标生物的高通量转录组测序结果;
依据所述目标生物的高通量转录组测序结果,得到所述目标生物的基因表达量文件,其中,所述基因表达量文件包含所述目标生物的基因编号和所述目标生物的基因表达量;
依据所述基因表达量基因编号和所述目标生物的基因表达量,生成所述目标生物的终止子序列。
5.根据权利要求3所述的方法,其特征在于,所述基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列,包括:
依据所述目标生物的终止子序列,确定所述目标生物的各个基因编号;
依据所述目标生物的各个基因编号,查阅预设的全物种终止子库,得到所述目标生物的高效终止子的基因编号;
依据所述目标生物的高效终止子的基因编号,确定所述目标生物的高效终止子序列。
6.根据权利要求4所述的方法,其特征在于,所述基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列,包括:
确定所述目标生物的基因表达量,并以所述目标生物的基因表达量为主键,并依据所述目标生物的基因表达量的数值大小,对所述目标生物的终止子序列进行排列,得到所述目标生物的终止子序列的排序结果;
依据所述目标生物的终止子序列的排序结果,保留N个基因终止子序列作为所述目标生物的高效终止子序列对应的基因,并依据所保留的N个基因确定所述目标生物的高效终止子序列,其中,N的取值范围为[0,100]。
7.一种基因终止子查询装置,其特征在于,包括:
数据获取单元,用于获取目标生物的基因组文件和所述目标生物的基因组注释文件,或获取所述目标生物的高通量数据文件,其中,所述基因组文件包括至少一种基因信息,所述基因组注释文件包括至少一种信息;
序列生成单元,用于当获取的为所述基因组文件以及所述基因组注释文件时,依据所述基因组文件以及所述基因组注释文件,生成所述目标生物的终止子序列;当获取的为所述目标生物的高通量数据文件时,依据所述目标生物的高通量数据文件,生成所述目标生物的终止子序列;
确定单元,用于基于所述目标生物的终止子序列,确定所述目标生物的高效终止子序列。
8.根据权利要求7所述的装置,其特征在于,该装置还包括:
报告生成单元,用于基于所述目标生物的高效终止子序列,生成所述目标生物对应的高效终止子报告。
9.一种基因终止子查询设备,其特征在于,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,实现如权利要求1至6中任一项所述基因终止子查询方法的步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器实现如权利要求1至6中任一项所述基因终止子查询方法的步骤。
CN202310511302.4A 2023-05-08 2023-05-08 基因终止子查询方法、装置、设备及可读存储介质 Pending CN116504313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310511302.4A CN116504313A (zh) 2023-05-08 2023-05-08 基因终止子查询方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310511302.4A CN116504313A (zh) 2023-05-08 2023-05-08 基因终止子查询方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116504313A true CN116504313A (zh) 2023-07-28

Family

ID=87321390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310511302.4A Pending CN116504313A (zh) 2023-05-08 2023-05-08 基因终止子查询方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116504313A (zh)

Similar Documents

Publication Publication Date Title
Taboada et al. Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes
Ashkenazy et al. ConSurf 2016: an improved methodology to estimate and visualize evolutionary conservation in macromolecules
Zhang Computational prediction of eukaryotic protein-coding genes
Salamov et al. Ab initio gene finding in Drosophila genomic DNA
Pinho et al. GReEn: a tool for efficient compression of genome resequencing data
Kummerfeld et al. DBD: a transcription factor prediction database
Besemer et al. GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions
Thompson et al. Gibbs Recursive Sampler: finding transcription factor binding sites
Favorov et al. A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length
Ovcharenko et al. ECR Browser: a tool for visualizing and accessing data from comparisons of multiple vertebrate genomes
Guo et al. ZCURVE: a new system for recognizing protein‐coding genes in bacterial and archaeal genomes
Cheng et al. SCRATCH: a protein structure and structural feature prediction server
Thomas-Chollier et al. RSAT: regulatory sequence analysis tools
Yan et al. PatMatch: a program for finding patterns in peptide and nucleotide sequences
Birney et al. Using GeneWise in the Drosophila annotation experiment
Schug Using TESS to predict transcription factor binding sites in DNA sequence
Couronne et al. Strategies and tools for whole-genome alignments
Wu et al. GMAP: a genomic mapping and alignment program for mRNA and EST sequences
Bailey Discovering novel sequence motifs with MEME
Nishida et al. Pseudocounts for transcription factor binding sites
Werner Computer-assisted analysis of transcription control regions: Matinspector and other programs
Kankainen et al. POBO, transcription factor binding site verification with bootstrapping
Drubay et al. A benchmark study of scoring methods for non-coding mutations
Fu et al. MotifViz: an analysis and visualization tool for motif discovery
Lexa et al. TE-greedy-nester: structure-based detection of LTR retrotransposons and their nesting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination