CN117037912A - 一种泛基因组的构建方法、终端设备及存储介质 - Google Patents
一种泛基因组的构建方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN117037912A CN117037912A CN202311182329.XA CN202311182329A CN117037912A CN 117037912 A CN117037912 A CN 117037912A CN 202311182329 A CN202311182329 A CN 202311182329A CN 117037912 A CN117037912 A CN 117037912A
- Authority
- CN
- China
- Prior art keywords
- database
- clustered
- primary
- genome
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 175
- 238000000034 method Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 4
- 108700026220 vif Genes Proteins 0.000 claims description 3
- 238000010353 genetic engineering Methods 0.000 abstract description 2
- 108090000848 Ubiquitin Proteins 0.000 abstract 1
- 102000044159 Ubiquitin Human genes 0.000 abstract 1
- 241000894007 species Species 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009418 agronomic effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出一种泛基因组的构建方法、终端设备及存储介质,涉及遗传工程技术领域,其中构建方法通过对多个样品的基因信息构建的样品基因数据库进行聚类,得到初始泛基因组,并将初始泛基因组中未聚类数据库中的特异基因序列与初始聚类数据库中的基因家族进行比对,得到第一比对结果,第一比对结果代表某个特异基因序列属于与其比对的基因家族,根据第一比对结果,将初始聚类数据库和未聚类数据库更新得到一次聚类数据库和一次未聚类数据库,并根据二者得到一次泛基因组。现有技术的泛基因组包括大量的并非是真实的特异基因序列,本发明将特异基因序列再次比对,减少了特异基因序列的数量,提高了构建泛基因组的准确性。
Description
技术领域
本发明涉及遗传工程技术领域,具体涉及一种泛基因组的构建方法、终端设备及存储介质。
背景技术
在漫长的物种进化过程中,因为自然选择和人为选择等因素的影响,每个体都形成了特别的遗传性状。近年来,对同一物种多个个体的基因组或基因组片段的比较分析表明,一个物种内的基因组可能以更显著的方式存在差异,这些变异可能包含一个或多个基因并影响到物种重要的农艺性状。因此,对于一个物种来说,如果只使用单一的参考基因组进行遗传驯化变异的研究,可能会丢失掉大量有意义的基因信息。为了解决这些问题并充分理解关键物种中重要性状形成机理,为育种奠定重要的研究基础,动植物泛基因组研究应运而生。
泛基因组是指获取该物种全部遗传信息,构建一个非冗余的集合体。目前比较成熟的泛基因组构建方法是分别对个体基因进行组装,然后通过基因家族聚类构建泛基因组,但是通过基因家族聚类方法构建泛基因组会产生大量未聚类基因,这些基因在分析过程中被认定为特异基因,但是这些基因可能并不是真正的特异基因,所以这种方法构建的泛基因组并不准确。
发明内容
鉴于现有技术中的上述缺陷或不足,本发明旨在提供一种泛基因组的构建方法、终端设备及存储介质。
第一方面,本发明提出一种泛基因组的构建方法,包括如下步骤:
获取样品基因数据库,所述样品基因数据库至少包括各样品的样品名称以及与所述样品名称对应的基因信息;
聚类所述样品基因数据库,得到初始泛基因组,所述初始泛基因组包括初始聚类数据库和未聚类数据库,所述初始聚类数据库至少包括多个基因家族、所述样品名称以及各所述基因家族在各所述样品中的总数;所述未聚类数据库至少包括所述样品名称以及与样品名称对应的未聚类集合,所述未聚类集合包括至少一个特异基因序列;
以第一规则将各所述特异基因序列与各所述基因家族进行比对,得到第一比对结果;所述第一比对结果代表所述特异基因序列属于与其比对的所述基因家族;
响应所述第一比对结果,更新所述初始聚类数据库得到一次聚类数据库,更新所述未聚类数据库得到一次未聚类数据库;
基于所述一次聚类数据库和所述一次未聚类数据库得到一次泛基因组。
根据本发明提供的技术方案,以第一规则将各所述特异基因序列与各所述基因家族进行比对,还得到第二比对结果,所述第二比对结果代表所述特异基因序列不属于与其比对的所述基因家族;
响应所述第二比对结果,设定所述初始泛基因组则为所述一次泛基因组。
根据本发明提供的技术方案,所述更新所述初始聚类数据库得到一次聚类数据库,更新所述未聚类数据库得到一次未聚类数据库还包括如下步骤:
比对所述一次未聚类数据库中的所有所述未聚类集合,得到二次未聚类数据库和二次聚类数据库;
将所述一次聚类数据库更新为所述二次聚类数据库,将所述一次未聚类数据库更新为所述二次未聚类数据库。
根据本发明提供的技术方案,所述比对所述一次未聚类数据库中的所有所述未聚类集合,得到二次聚类数据库和二次未聚类数据库的方法包括如下步骤:
遍历所述一次未聚类数据库中各所述未聚类集合,以第二规则将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对,得到第三比对结果,所述第三比对结果为该所述特异基因序列与其它未聚类集合中的任一所述特异基因序列属于同类基因家族;
响应于所述第三比对结果,获得新基因家族以及所述新基因家族在各所述样品中的总数;
基于新基因家族以及所述新基因家族在各所述样品中的总数更新得到所述二次聚类数据库和所述二次未聚类数据库。
根据本发明提供的技术方案,所述遍历所述一次未聚类数据库中的各所述未聚类集合,将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对,还得到第四比对结果,所述第四比对结果代表该所述特异基因序列与其它所有所述未聚类集合中的所有所述特异基因序列均不属于同类基因家族;
得到所述第四比对结果后,基于所述一次聚类数据库和所述一次未聚类数据库得到所述一次泛基因组。
根据本发明提供的技术方案,所述第一规则为:比对序列相似度大于或者等于第一预设阈值。
根据本发明提供的技术方案,所述第二规则为:比对序列相似度大于或者等于第二预设阈值。
根据本发明提供的技术方案,所述得到一次泛基因组后还包括如下步骤:
分类所述泛基因组,得到三类基因以及各类基因的数量,三类基因包括可变基因、核心基因、以及特异基因;
基于三类基因以及各类基因的数量,构建泛基因组统计表。
第二方面,本发明提出一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如以上所述的泛基因组的构建方法的步骤。
第三方面,一种计算机可读存储介质,所述计算机可读存储介质有计算机程序,所述计算机程序被处理器执行时实现如以上所述的泛基因组的构建方法的步骤。
综上所述,本发明提出一种泛基因组的构建方法,通过对多个样品的基因信息构建的样品基因数据库进行聚类,得到初始泛基因组,并将初始泛基因组中未聚类数据库中的特异基因序列与初始聚类数据库中的基因家族进行比对,得到第一比对结果,第一比对结果代表某个特异基因序列属于与其比对的基因家族,根据第一比对结果,将初始聚类数据库和未聚类数据库更新得到一次聚类数据库和一次未聚类数据库,并根据二者得到一次泛基因组。现有技术通过基因家族聚类方法构建的泛基因组包括大量的特异基因序列,本发明将特异基因序列再次比对,减少了特异基因序列的数量,提高了构建泛基因组的准确性。
附图说明
图1为本发明实施例提供的泛基因组的构建方法的流程图;
图2本发明实施例提供的终端设备的计算机系统的结构示意图。
700、计算机系统;701、CPU;702、ROM;703、RAM;704、总线;705、I/O接口;706、输入部分;707、输出部分;708、存储部分;709、通信部分;710、驱动器;711、可拆卸介质。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例1
诚如背景技术中提到的技术问题,本发明提出了一种泛基因组的构建方法,如图1所示,包括如下步骤:
S100.获取样品基因数据库,所述样品基因数据库至少包括各样品的样品名称以及与所述样品名称对应的基因信息;其中,所述基因信息由多个按序排列的基因序列;
S200.聚类所述样品基因数据库,得到初始泛基因组,所述初始泛基因组包括初始聚类数据库和未聚类数据库,所述初始聚类数据库至少包括多个基因家族、所述样品名称以及各所述基因家族在各所述样品中的总数;所述未聚类数据库至少包括所述样品名称以及与样品名称对应的未聚类集合,所述未聚类集合包括至少一个特异基因序列;
其中,所述初始泛基因组如表-1所示:
表-1
其中,a,b,c,d,e,k1,k2,m1,m2,s,a1,b1为所述基因家族的类型,样品1-样品7为所述样品名称,以第二行第四列中的156为例,156代表样品2中a类基因家族的总数为156个。多个样品为相关物种,可选地,多个样品可通过不同地区的相似物种获得。所述特异基因序列为仅在一个样品中存在的基因序列;根据表-1得到所述初始聚类数据库,如表-2所示:
表-2
根据初始泛基因组得到所述未聚类数据库,如表-3为例:
表-3
样品类型 | 样品1 | 样品2 | 样品3 |
未聚类集合 | k1,m1,a1 | k2,m2,b1 | s |
其中,所述样品1的特异基因序列包括k1,m1,a1;样品2的特异基因序列包括k2,m2,b1;样品3的特异基因序列为s;
S300.以第一规则将各所述特异基因序列与各所述基因家族进行比对,得到第一比对结果;所述第一比对结果代表所述特异基因序列属于与其比对的所述基因家族;所述第一规则为:比对序列相似度大于或者等于第一预设阈值。
其中,可选地,所述第一预设阈值为90%,将每个特异基因k1,m1,a1,k2,m2,b1,s分别与表-2中的基因家族进行比对,a1与a类基因家族的序列近似度大于90%,b1与b类基因家族的序列近似度大于90%;即特异基因a1属于a类基因家族,特异基因b1属于b类基因家族。
S400.响应所述第一比对结果,更新所述初始聚类数据库得到一次聚类数据库,更新所述为聚类数据库得到一次未聚类数据库;
更新初始聚类数据库得到一次聚类数据库,更新后,一次聚类数据库如表-4所示:
表-4
其中,由于特异基因a1属于a类基因家族,特异基因b1属于b类基因家族,故表-1中样品1的a类基因家族的数量加1更新为40,样品2的b类基因家族的数量加1更新为14。
更新所述未聚类数据后得到一次未聚类数据库,更新后,一次未聚类数据库如表-5所示:
表-5
样品类型 | 样品1 | 样品2 | 样品3 |
未聚类集合 | k1,m1 | k2,m2 | s |
S500.基于所述一次聚类数据库和所述一次未聚类数据库得到一次泛基因组,所述一次泛基因组如表-6所示。
表-6
现有技术中,通过基因家族聚类方法构建泛基因组的方法得到的初始泛基因组如表-1所示,此方法由于软件等原因产生大量特异基因,这些特异基因可能并不是真正的特异基因,本发明通过将第一次聚类得到的特异基因序列再次与初始泛基因组进行比对,更新泛基因组,提高了构建泛基因组的准确性。
在一优选实施例中,以第一规则将各所述特异基因序列与各所述基因家族进行比对,还得到第二比对结果,所述第二比对结果代表所述特异基因序列不属于与其比对的所述基因家族;
响应所述第二比对结果,设定所述初始泛基因组则为所述一次泛基因组。
其中,通过将所述特异基因与所述初始泛基因组进行再次比对,即使得到的所述一次泛基因组与所述初始泛基因组相同,可进一步验证了基因家族聚类方法的准确性。
在一优选实施例中,更新所述初始聚类数据库得到一次聚类数据库,更新所述未聚类数据库得到一次未聚类数据库还包括如下步骤:
S410.比对所述一次未聚类数据库中的所有所述未聚类集合,得到二次聚类数据库和二次未聚类数据库;包括如下步骤:
S411.遍历所述一次未聚类数据库中各所述未聚类集合,以第二规则将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对,得到第三比对结果,所述第三比对结果为该所述特异基因序列与其它未聚类集合中的任一所述特异基因序列属于同类基因家族;其中,所述第二规则为:比对序列相似度大于或者等于第二预设阈值;可选地,所述第二预设阈值为90%。
其中,如表-5所示,所述一次未聚类数据库中,所述样品1的未聚类集合为{k1,m1},所述样品2的未聚类集合为{k2,m2},所述样品3的未聚类聚合为{s},经比对后,k1,k2属于同类基因家族,同为k类基因家族,m1,m2属于同类基因家族,同为m类基因家族。
S412.响应于所述第三比对结果,获得新基因家族以及所述新基因家族在各所述样品中的总数;新基因家族为k类基因家族,在所述样品1和所述样品2中的数量均为1;新基因家族为m类基因家族,在所述样品1和所述样品2中的数量均为1;
S413.基于新基因家族以及所述新基因家族在各所述样品中的总数更新得到所述二次聚类数据库和所述二次未聚类数据库;
所述二次聚类数据库如表-7所示:
表-7
通过再次比对,减少了特异基因序列的数量,进一步地提高了构建泛基因组的准确性。
二次未聚类数据库如表-8所示:
表-8
样品类型 | 样品3 |
未聚类集合 | s |
S420.将所述一次聚类数据库更新为所述二次聚类数据库,并将所述一次未聚类数据库更新为所述二次未聚类数据库;则步骤S500中的一次泛基因组基于所述二次聚类数据库和所述二次未聚类数据库得到;最终的所述一次泛基因组如表-9所示;
表-9
在一优选实施例中,所述遍历所述一次未聚类数据库中的各所述未聚类集合,将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对,还得到第四比对结果,所述第四比对结果代表该所述特异基因序列与其它所有所述未聚类集合中的所有所述特异基因序列均不属于同类基因家族;
得到所述第四比对结果后,基于所述一次聚类数据库和所述一次未聚类数据库得到所述一次泛基因组。
即,k1,k2,m1,m2均不属于同类基因家族,则所述一次泛基因组仍为表-6所示。
在一优选实施例中,得到一次泛基因组后还包括如下步骤:
分类所述一次泛基因组,得到三类基因以及各类基因的数量,三类基因包括可变基因、核心基因、以及特异基因;
基于三类基因以及各类基因的数量,构建泛基因组统计表。
其中,当得到所述泛基因组统计表后,可根据所述泛基因组统计表对所述一次泛基因组进行饱和曲线分析,并可对核心基因、可变基因以及特有基因的基因、转录本、外显子长度进行比较;还可对所述一次泛基因组进行功能富集,得到相关基因所参与的生命通路等。
实施例2
本发明提出一种终端设备,如图2所示,所述终端设备的计算机系统700包括CPU(中央处理单元)701,其可以根据存储在ROM(只读存储器)702中的程序或者从存储部分708加载到RAM(随机访问存储器)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。I/O(输入/输出)接口705也连接至总线704。以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考流程图1描述的过程可以被实现为计算机软件程序。例如,本发明的实施例1包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被CPU701执行时,执行本计算机系统700中限定的上述功能。
实施例3
本发明还提供了一种计算机可读介质,该计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的泛基因组的构建方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种泛基因组的构建方法,其特征在于,包括如下步骤:
获取样品基因数据库,所述样品基因数据库至少包括各样品的样品名称以及与所述样品名称对应的基因信息;
聚类所述样品基因数据库,得到初始泛基因组,所述初始泛基因组包括初始聚类数据库和未聚类数据库,所述初始聚类数据库至少包括多个基因家族、所述样品名称以及各所述基因家族在各所述样品中的总数;所述未聚类数据库至少包括所述样品名称以及与样品名称对应的未聚类集合,所述未聚类集合包括至少一个特异基因序列;
以第一规则将各所述特异基因序列与各所述基因家族进行比对,得到第一比对结果;所述第一比对结果代表所述特异基因序列属于与其比对的所述基因家族;
响应所述第一比对结果,更新所述初始聚类数据库得到一次聚类数据库,更新所述未聚类数据库得到一次未聚类数据库;
基于所述一次聚类数据库和所述一次未聚类数据库得到一次泛基因组。
2.根据权利要求1所述的泛基因组的构建方法,其特征在于,以第一规则将各所述特异基因序列与各所述基因家族进行比对,还得到第二比对结果,所述第二比对结果代表所述特异基因序列不属于与其比对的所述基因家族;
响应所述第二比对结果,设定所述初始泛基因组则为所述一次泛基因组。
3.根据权利要求1所述的泛基因组的构建方法,其特征在于,所述更新所述初始聚类数据库得到一次聚类数据库,更新所述未聚类数据库得到一次未聚类数据库还包括如下步骤:
比对所述一次未聚类数据库中的所有所述未聚类集合,得到二次未聚类数据库和二次聚类数据库;
将所述一次聚类数据库更新为所述二次聚类数据库,将所述一次未聚类数据库更新为所述二次未聚类数据库。
4.根据权利要求3所述的泛基因组的构建方法,其特征在于,所述比对所述一次未聚类数据库中的所有所述未聚类集合,得到二次聚类数据库和二次未聚类数据库的方法包括如下步骤:
遍历所述一次未聚类数据库中各所述未聚类集合,以第二规则将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对,得到第三比对结果,所述第三比对结果为该所述特异基因序列与其它未聚类集合中的任一所述特异基因序列属于同类基因家族;
响应于所述第三比对结果,获得新基因家族以及所述新基因家族在各所述样品中的总数;
基于新基因家族以及所述新基因家族在各所述样品中的总数更新得到所述二次聚类数据库和所述二次未聚类数据库。
5.根据权利要求4所述的泛基因组的构建方法,其特征在于,所述遍历所述一次未聚类数据库中的各所述未聚类集合,将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对,还得到第四比对结果,所述第四比对结果代表该所述特异基因序列与其它所有所述未聚类集合中的所有所述特异基因序列均不属于同类基因家族;
得到所述第四比对结果后,基于所述一次聚类数据库和所述一次未聚类数据库得到所述一次泛基因组。
6.根据权利要求1所述的泛基因组的构建方法,其特征在于,所述第一规则为:比对序列相似度大于或者等于第一预设阈值。
7.根据权利要求4所述的泛基因组的构建方法,其特征在于,所述第二规则为:比对序列相似度大于或者等于第二预设阈值。
8.根据权利要求1所述的泛基因组的构建方法,其特征在于,所述得到一次泛基因组后还包括如下步骤:
分类所述泛基因组,得到三类基因以及各类基因的数量,三类基因包括可变基因、核心基因、以及特异基因;
基于三类基因以及各类基因的数量,构建泛基因组统计表。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的泛基因组的构建方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的泛基因组的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311182329.XA CN117037912B (zh) | 2023-09-13 | 2023-09-13 | 一种泛基因组的构建方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311182329.XA CN117037912B (zh) | 2023-09-13 | 2023-09-13 | 一种泛基因组的构建方法、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117037912A true CN117037912A (zh) | 2023-11-10 |
CN117037912B CN117037912B (zh) | 2024-06-18 |
Family
ID=88626591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311182329.XA Active CN117037912B (zh) | 2023-09-13 | 2023-09-13 | 一种泛基因组的构建方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037912B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100233677A1 (en) * | 2009-02-10 | 2010-09-16 | Liggett Stephen B | Full genome sequences of human rhinovirus strains |
CN111477281A (zh) * | 2020-04-03 | 2020-07-31 | 北京诺禾致源科技股份有限公司 | 基于系统进化树的泛基因组构建方法和构建装置 |
CN112233726A (zh) * | 2020-10-23 | 2021-01-15 | 深圳未知君生物科技有限公司 | 一种细菌菌株的分析方法、分析装置和存储介质 |
US20220005546A1 (en) * | 2019-04-16 | 2022-01-06 | Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences | Non-redundant gene set clustering method and system, and electronic device |
CN114420212A (zh) * | 2022-01-27 | 2022-04-29 | 上海序祯达生物科技有限公司 | 一种大肠杆菌菌株鉴定方法和系统 |
CN115064215A (zh) * | 2022-08-18 | 2022-09-16 | 北京大学人民医院 | 一种通过相似度进行菌株溯源及属性鉴定的方法 |
CN115083527A (zh) * | 2022-08-18 | 2022-09-20 | 北京大学人民医院 | 一种聚类泛基因组数据库构建方法 |
CN115938491A (zh) * | 2022-11-24 | 2023-04-07 | 江苏先声医疗器械有限公司 | 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统 |
-
2023
- 2023-09-13 CN CN202311182329.XA patent/CN117037912B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100233677A1 (en) * | 2009-02-10 | 2010-09-16 | Liggett Stephen B | Full genome sequences of human rhinovirus strains |
US20220005546A1 (en) * | 2019-04-16 | 2022-01-06 | Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences | Non-redundant gene set clustering method and system, and electronic device |
CN111477281A (zh) * | 2020-04-03 | 2020-07-31 | 北京诺禾致源科技股份有限公司 | 基于系统进化树的泛基因组构建方法和构建装置 |
CN112233726A (zh) * | 2020-10-23 | 2021-01-15 | 深圳未知君生物科技有限公司 | 一种细菌菌株的分析方法、分析装置和存储介质 |
CN114420212A (zh) * | 2022-01-27 | 2022-04-29 | 上海序祯达生物科技有限公司 | 一种大肠杆菌菌株鉴定方法和系统 |
CN115064215A (zh) * | 2022-08-18 | 2022-09-16 | 北京大学人民医院 | 一种通过相似度进行菌株溯源及属性鉴定的方法 |
CN115083527A (zh) * | 2022-08-18 | 2022-09-20 | 北京大学人民医院 | 一种聚类泛基因组数据库构建方法 |
CN115938491A (zh) * | 2022-11-24 | 2023-04-07 | 江苏先声医疗器械有限公司 | 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统 |
Non-Patent Citations (1)
Title |
---|
霍如雪;孙琳;刘振宁;: "大白菜LOG基因家族的鉴定与生物信息学分析", 北方园艺, no. 04, pages 24 - 32 * |
Also Published As
Publication number | Publication date |
---|---|
CN117037912B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Steinegger et al. | Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold | |
Lin et al. | An efficient GA-based clustering technique | |
CN106446600B (zh) | 一种基于CRISPR/Cas9的sgRNA的设计方法 | |
US20220101944A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN108564117B (zh) | 一种基于svm的贫困生辅助认定方法 | |
Muslimova et al. | Dynamic complementarity in skill production: Evidence from genetic endowments and birth order | |
CN111477281B (zh) | 基于系统进化树的泛基因组构建方法和构建装置 | |
US20230021868A1 (en) | Data-sharding for efficient record search | |
Jagadeesan et al. | Reconstructing an African haploid genome from the 18th century | |
CN112053743A (zh) | 一种亲缘关系鉴定方法、系统及设备 | |
WO2021223449A1 (zh) | 一种菌群标记物的获取方法、装置、终端及存储介质 | |
Rau et al. | Clustering high-throughput sequencing data with Poisson mixture models | |
Linder et al. | Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation | |
Egeland et al. | Inferring the most likely geographical origin of mtDNA sequence profiles | |
CN117037912B (zh) | 一种泛基因组的构建方法、终端设备及存储介质 | |
Jamail et al. | Current state-of-the-art of clustering methods for gene expression data with RNA-Seq | |
CN113539359A (zh) | 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 | |
CN111326215B (zh) | 一种基于k-tuple频度的核酸序列搜索方法及系统 | |
Cserhati et al. | K‐mer‐Based Motif Analysis in Insect Species across Anopheles, Drosophila, and Glossina Genera and Its Application to Species Classification | |
CN116525010A (zh) | 一种单细胞转录组双源多细胞过滤方法、介质和设备 | |
CN116226698A (zh) | 基于多组学数据整合的细胞类型识别方法、系统及设备 | |
CN107688727B (zh) | 生物序列聚类和全长转录组中转录本亚型识别方法和装置 | |
Qiao et al. | Poisson hurdle model-based method for clustering microbiome features | |
CN113095064A (zh) | 代码字段识别方法、装置、电子设备及存储介质 | |
CN113035279A (zh) | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |