CN110060740A - 一种非冗余基因集聚类方法、系统及电子设备 - Google Patents

一种非冗余基因集聚类方法、系统及电子设备 Download PDF

Info

Publication number
CN110060740A
CN110060740A CN201910303390.2A CN201910303390A CN110060740A CN 110060740 A CN110060740 A CN 110060740A CN 201910303390 A CN201910303390 A CN 201910303390A CN 110060740 A CN110060740 A CN 110060740A
Authority
CN
China
Prior art keywords
gene
pairs
forest
gene set
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910303390.2A
Other languages
English (en)
Inventor
郑志春
郭宁
魏彦杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201910303390.2A priority Critical patent/CN110060740A/zh
Publication of CN110060740A publication Critical patent/CN110060740A/zh
Priority to EP19925504.3A priority patent/EP3955256A4/en
Priority to PCT/CN2019/130563 priority patent/WO2020211466A1/zh
Priority to US17/477,471 priority patent/US20220005546A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种非冗余基因集聚类方法、系统及电子设备。所述方法包括:步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;步骤b:基于所获取的基因对构建并查集森林;步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。本申请通过使用BLAT比对以及基于并查集的数据结构进行非冗余基因集的聚类工作,可以兼顾更多基因之间的相似度,提高去冗余的精确程度。

Description

一种非冗余基因集聚类方法、系统及电子设备
技术领域
本申请属于基因数据处理技术领域,特别涉及一种非冗余基因集聚类方法、系统及电子设备。
背景技术
随着下一代测序技术(NGS)的快速发展,生物序列数据量出现爆炸性的增长。一般认为,如果两条序列满足一定的相似度阈值条件,就认为这两条序列是相同的序列或者互为冗余。大量的冗余序列不仅会影响基因组研究的分析速度,增加内存消耗,降低分析流程的速度,更会导致错误的产生,影响最终的实验结果。
Hobohm和Sander[Hobohm U,Scharf M,Schneider R,et al.Selection ofrepresentative protein data sets.[J].Protein Science,2010,1(3):409-417;HobohmU,Sander C.Enlarged representative set of protein structures.[J].ProteinScience,2010,3(3):522-524.]是最早完成非冗余基因序列的聚类算法,基本思路是先将基因序列集合划分为若干个不同的类,然后从各个类中找出一个序列来代表该类,最终这些代表类所形成的集合就是非冗余参考基因集。
针对生物基因数据去冗余的软件主要有NRDB90[Holm L,Sander C.Removingnear-neighbour redundancy from large protein sequence collections.[J].Bioinformatics,1998,14(5):423-429.]、CD-HIT[Li W,Jaroszewski L,GodzikA.Clustering of highly homologous sequences to reduce the size of largeprotein databases[J].Bioinformatics,2001,17(3):282-283;Li W,Jaroszewski L,GodzikA.Tolerating some Redundancy Significantly Speeds up Clustering ofLarge Protein Databases[J].Bioinformatics,2002,18(1):77-82;Li W.Fast Programfor Clustering and Comparing Large Sets of Protein or Nucleotide Sequences[M].Springer US,2015.]、PICSES[Wang G,Jr D R.PISCES:a protein sequence cullingserver[J].Bioinformatics,2003,19(12):1589.]等,他们各具特色,均由序列比对和选取最终的冗余序列两部分构成。
目前,在研究中去冗余时使用最多应用最广泛的就是CD-HIT。CD-HIT是由美国Burnham Institute开发的用来解决大规模蛋白质序列冗余问题的软件,可以在较短的时间内完成非冗余参考基因集的构建。具体实现原理:首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理,如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中,否则形成新的序列类。
CD-HIT之所以快主要是两个方面的原因:一个是使用了word过滤方法,即如果两条序列之间的相似性在80%(假设序列长度为100),那么它们至少有60个相同的长度为2的word,至少有40个相同的长度为3的word,至少有20个相同的长度为4的word。基于这个原则,在处理新的序列的时候,如果新的序列与已有序列的相同word的长度不能满足这些要求则不需要进行比对了,这极大的降低了时间消耗;另外一个原因是使用了index table,可以很快的计算序列之间相同word的数目。
尽管CD-HIT在去冗余时效率十分的高,可以在很短的时间内完成非冗余参考基因集的构建,但由于其每次在比对时都是使用新序列与当前序列类的代表序列进行比对,导致当前序列类中的其他序列没有了参考价值。比如存在A、B、C三个按长度从大到小排列的基因序列,按照CD-HIT的聚类方法,A首先被分作一类,然后依次取出B、C进行比对。如果A、B长度相近,A、B达到阈值并且A、C未达到阈值,这样我们将得到AB和C两个类别。而实际上C也应该可以认为与A是相似的序列。除此之外,基于word filter的方法使得每个长度的word能够处理的冗余性水平有限;例如长度为3的word只能够得到相似性66.7%以上的序列类。
基于上述问题,有必要提供一种新的非冗余基因集聚类方法,能够在提高基因去冗余过程中的准确度和效率的同时,尽可能更准确的剔除冗余基因。
发明内容
本申请提供了一种非冗余基因集聚类方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种非冗余基因集聚类方法,包括以下步骤:
步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
步骤b:基于所获取的基因对构建并查集森林;
步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述对原始基因集合进行比对操作具体为:设定相似度阈值,通过BLAT将原始基因集合比对到自身基因集合上;将BLAT的输出信息进行优化,剔除重复信息并且去除完全相同的序列,最后,删除不需要的列信息,保留基因对的序列名称及各自的长度信息。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述基于所获取的基因对构建并查集森林具体包括:对于任意的两个基因对,首先通过Find操作查找两个基因对的root信息,如果两个基因对的root信息相同,则通过Union操作将两个基因对所代表的数合并成一棵树,并更新root信息;如果两个基因对的root信息不相同,则不进行Union操作。
本申请实施例采取的技术方案还包括:所述步骤b还包括:通过路径压缩操作对所述并查集森林进行路径优化,将每棵树的子节点都指向root节点,并在合并树时,将数目较小的树合并到数目较大的树上,得到优化后的并查集森林。
本申请实施例采取的另一技术方案为:一种非冗余基因集聚类系统,包括:
基因比对模块:用于对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
并查集构建模块:用于基于所获取的基因对构建并查集森林;
基因聚类模块:用于根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
结果输出模块:用于基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
本申请实施例采取的技术方案还包括:所述基因比对模块对原始基因集合进行比对操作具体为:设定相似度阈值,通过BLAT将原始基因集合比对到自身基因集合上;将BLAT的输出信息进行优化,剔除重复信息并且去除完全相同的序列,最后,删除不需要的列信息,保留基因对的序列名称及各自的长度信息。
本申请实施例采取的技术方案还包括:所述并查集构建模块基于所获取的基因对构建并查集森林具体包括:对于任意的两个基因对,首先通过Find操作查找两个基因对的root信息,如果两个基因对的root信息相同,则通过Union操作将两个基因对所代表的数合并成一棵树,并更新root信息;如果两个基因对的root信息不相同,则不进行Union操作。
本申请实施例采取的技术方案还包括并查集优化模块,所述并查集优化模块用于通过路径压缩操作对所述并查集森林进行路径优化,将每棵树的子节点都指向root节点,并在合并树时,将数目较小的树合并到数目较大的树上,得到优化后的并查集森林。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的非冗余基因集聚类方法的以下操作:
步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
步骤b:基于所获取的基因对构建并查集森林;
步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的非冗余基因集聚类方法、系统及电子设备通过使用BLAT比对以及基于并查集的数据结构进行非冗余基因集的聚类工作,可以兼顾更多基因之间的相似度,提高去冗余的精确程度。同时,基于并查集的数据结构,通过进一步的路径压缩优化可以在非常快的时间内完成非冗余基因集的构建,提升非参考基因集的构建效率。
附图说明
图1是本申请实施例的非冗余基因集聚类方法的流程图;
图2是本申请实施例的非冗余基因集聚类系统的结构示意图;
图3是本申请实施例提供的非冗余基因集聚类方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请实施例的非冗余基因集聚类方法的流程图。本申请实施例的非冗余基因集聚类方法包括以下步骤:
步骤100:通过基因比对软件BLAT对原始基因集合进行比对操作,获取原始基因集合中满足相似度阈值的基因对;
步骤100中,相似度阈值的基因对获取方式具体为:首先设定好相似度阈值,通过基因比对软件BLAT将原始基因集合比对到自身基因集合上;紧接着将BLAT的输出信息进行优化,由于采取的是自身比对,所以会出现序列比对两次的情况,本申请实施例中,会剔除重复信息并且去除相似度100%的序列(即完全相同的序列)。最后,删除一些不需要的列信息,仅仅保留基因对的序列名称及各自的长度信息。
步骤200:基于获取的基因对,通过并查集的Find和Union操作进行并查集森林的构建;
步骤200中,基因集合的比对操作完成后,会获得一系列的基因对,然后就可以进行并查集森林的构建。并查集算法主要包括Find和Union两个操作,具体为:
Find:确定元素属于哪一个子集,可以被用来确定两个元素是否属于同一子集;
Union:将两个子集合并成同一个集合。
本申请实施例中,并查集森林的构建具体为:对于任意的两个基因对,首先通过Find操作查找这两个基因对的root信息,如果两个基因对的root信息相同,则通过Union操作将两个基因对所代表的数合并成同一棵树,并更新root信息。如果两个基因对的root信息不相同,则不进行Union操作。随着基因对数目的增加,得到并查集森林。
步骤300:通过路径压缩操作对并查集森林进行路径优化,将每棵树的子节点都指向root节点,并且在合并树时,将数目较小的树合并到数目较大的树上,得到优化后的并查集森林;
步骤300中,随着基因对数目的增加,合并得到的树的高度越来越大,会影响后续的查询合并操作。为了解决由于树的深度过大带来的查询效率较低的问题,本申请通过路径压缩的方式对并查集森林进行路径优化,可以大幅提升非参考基因集的聚类效率。
步骤400:根据优化后的并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤500:基于基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到最终的非冗余参考基因组。
步骤500中,经过并查集森林的构建,获得基于原始基因集合聚类完成的所有类。利用存储的长度信息,选取每一类中最长的一条序列作为代表序列,形成最后的非冗余参考基因组。
请参阅图2,是本申请实施例的非冗余基因集聚类系统的结构示意图。本申请实施例的非冗余基因集聚类系统包括基因比对模块、并查集构建模块、并查集优化模块、基因聚类模块和结果输出模块。
基因比对模块:用于通过基因比对软件BLAT对原始基因集合进行比对操作,获取原始基因集合中满足相似度阈值的基因对;其中,相似度阈值的基因对获取方式具体为:首先设定好相似度阈值,通过基因比对软件BLAT将原始基因集合比对到自身基因集合上;紧接着将BLAT的输出信息进行优化,由于采取的是自身比对,所以会出现序列比对两次的情况,本申请实施例中,会剔除重复信息并且去除相似度100%的序列(即完全相同的序列)。最后,删除一些不需要的列信息,仅仅保留基因对的序列名称及各自的长度信息。
并查集构建模块:用于基于获取的基因对,通过并查集的Find和Union操作进行并查集森林的构建与优化;其中,基因集合的比对操作完成后,会获得一系列的基因对,然后就可以进行并查集森林的构建。并查集算法主要包括Find和Union两个操作,具体为:
Find:确定元素属于哪一个子集,可以被用来确定两个元素是否属于同一子集;
Union:将两个子集合并成同一个集合。
本申请实施例中,并查集森林的构建具体为:对于任意的两个基因对,首先通过Find操作查找这两个基因对的root信息,如果两个基因对的root信息相同,则通过Union操作将两个基因对所代表的数合并成同一棵树,并更新root信息。如果两个基因对的root信息不相同,则不进行Union操作。随着基因对数目的增加,得到并查集森林。
并查集优化模块:用于通过路径压缩操作对并查集森林进行路径优化,将每棵树的子节点都指向root节点,并且在合并树时,将数目较小的树合并到数目较大的树上,得到优化后的并查集森林;其中,随着基因对数目的增加,合并得到的树的高度越来越大,会影响后续的查询合并操作。为了解决由于树的深度过大带来的查询效率较低的问题,本申请通过路径压缩的方式对并查集森林进行路径优化,可以大幅提升非参考基因集的聚类效率。
基因聚类模块:用于根据优化后的并查集森林得到原始基因集合中所有类的基因聚类结果;
结果输出模块:用于基于基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到最终的非冗余参考基因组。其中,经过并查集森林的构建,获得基于原始基因集合聚类完成的所有类。利用存储的长度信息,选取每一类中最长的一条序列作为代表序列,形成最后的非冗余参考基因组。
图3是本申请实施例提供的非冗余基因集聚类方法的硬件设备结构示意图。如图3所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
步骤b:基于所获取的基因对构建并查集森林;
步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
步骤b:基于所获取的基因对构建并查集森林;
步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
步骤b:基于所获取的基因对构建并查集森林;
步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
本申请实施例的非冗余基因集聚类方法、系统及电子设备通过使用BLAT比对以及基于并查集的数据结构进行非冗余基因集的聚类工作,可以兼顾更多基因之间的相似度,提高去冗余的精确程度。同时,基于并查集的数据结构,通过进一步的路径压缩优化可以在非常快的时间内完成非冗余基因集的构建,提升非参考基因集的构建效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种非冗余基因集聚类方法,其特征在于,包括以下步骤:
步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
步骤b:基于所获取的基因对构建并查集森林;
步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
2.根据权利要求1所述的非冗余基因集聚类方法,其特征在于,在所述步骤a中,所述对原始基因集合进行比对操作具体为:设定相似度阈值,通过BLAT将原始基因集合比对到自身基因集合上;将BLAT的输出信息进行优化,剔除重复信息并且去除完全相同的序列,最后,删除不需要的列信息,保留基因对的序列名称及各自的长度信息。
3.根据权利要求1或2所述的非冗余基因集聚类方法,其特征在于,在所述步骤b中,所述基于所获取的基因对构建并查集森林具体包括:对于任意的两个基因对,首先通过Find操作查找两个基因对的root信息,如果两个基因对的root信息相同,则通过Union操作将两个基因对所代表的数合并成一棵树,并更新root信息;如果两个基因对的root信息不相同,则不进行Union操作。
4.根据权利要求3所述的非冗余基因集聚类方法,其特征在于,所述步骤b还包括:通过路径压缩操作对所述并查集森林进行路径优化,将每棵树的子节点都指向root节点,并在合并树时,将数目较小的树合并到数目较大的树上,得到优化后的并查集森林。
5.一种非冗余基因集聚类系统,其特征在于,包括:
基因比对模块:用于对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
并查集构建模块:用于基于所获取的基因对构建并查集森林;
基因聚类模块:用于根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
结果输出模块:用于基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
6.根据权利要求5所述的非冗余基因集聚类系统,其特征在于,所述基因比对模块对原始基因集合进行比对操作具体为:设定相似度阈值,通过BLAT将原始基因集合比对到自身基因集合上;将BLAT的输出信息进行优化,剔除重复信息并且去除完全相同的序列,最后,删除不需要的列信息,保留基因对的序列名称及各自的长度信息。
7.根据权利要求5或6所述的非冗余基因集聚类系统,其特征在于,所述并查集构建模块基于所获取的基因对构建并查集森林具体包括:对于任意的两个基因对,首先通过Find操作查找两个基因对的root信息,如果两个基因对的root信息相同,则通过Union操作将两个基因对所代表的数合并成一棵树,并更新root信息;如果两个基因对的root信息不相同,则不进行Union操作。
8.根据权利要求7所述的非冗余基因集聚类系统,其特征在于,还包括并查集优化模块,所述并查集优化模块用于通过路径压缩操作对所述并查集森林进行路径优化,将每棵树的子节点都指向root节点,并在合并树时,将数目较小的树合并到数目较大的树上,得到优化后的并查集森林。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述1至4任一项所述的非冗余基因集聚类方法的以下操作:
步骤a:对原始基因集合进行比对操作,获取所述原始基因集合中满足相似度阈值的基因对;
步骤b:基于所获取的基因对构建并查集森林;
步骤c:根据所述并查集森林得到原始基因集合中所有类的基因聚类结果;
步骤d:基于所述基因聚类结果,分别选取每一类中的最长序列作为每一类的代表序列,得到非冗余参考基因组。
CN201910303390.2A 2019-04-16 2019-04-16 一种非冗余基因集聚类方法、系统及电子设备 Pending CN110060740A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910303390.2A CN110060740A (zh) 2019-04-16 2019-04-16 一种非冗余基因集聚类方法、系统及电子设备
EP19925504.3A EP3955256A4 (en) 2019-04-16 2019-12-31 METHOD AND SYSTEM FOR NON-REDUNDANT GENE CLUSTERIZATION AND ELECTRONIC DEVICE
PCT/CN2019/130563 WO2020211466A1 (zh) 2019-04-16 2019-12-31 一种非冗余基因集聚类方法、系统及电子设备
US17/477,471 US20220005546A1 (en) 2019-04-16 2021-09-16 Non-redundant gene set clustering method and system, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910303390.2A CN110060740A (zh) 2019-04-16 2019-04-16 一种非冗余基因集聚类方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN110060740A true CN110060740A (zh) 2019-07-26

Family

ID=67319187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910303390.2A Pending CN110060740A (zh) 2019-04-16 2019-04-16 一种非冗余基因集聚类方法、系统及电子设备

Country Status (4)

Country Link
US (1) US20220005546A1 (zh)
EP (1) EP3955256A4 (zh)
CN (1) CN110060740A (zh)
WO (1) WO2020211466A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026920A (zh) * 2019-12-17 2020-04-17 深圳云天励飞技术有限公司 一种档案合并方法、装置、电子设备及存储介质
WO2020211466A1 (zh) * 2019-04-16 2020-10-22 中国科学院深圳先进技术研究院 一种非冗余基因集聚类方法、系统及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240248628A1 (en) * 2023-01-24 2024-07-25 VMware LLC Tiered memory data structures and algorithms for union-find
CN117037912B (zh) * 2023-09-13 2024-06-18 青岛极智医学检验实验室有限公司 一种泛基因组的构建方法、终端设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060052943A1 (en) * 2004-07-28 2006-03-09 Karthik Ramani Architectures, queries, data stores, and interfaces for proteins and drug molecules
KR20080094347A (ko) * 2007-04-20 2008-10-23 인하대학교 산학협력단 금 표면에서의 특이적인 dna와 단백질의 spri 방법
US20160127562A1 (en) * 2014-11-01 2016-05-05 Somos, Inc. Management of toll-free number misuse and fraud detection
CN106971091A (zh) * 2017-03-03 2017-07-21 江苏大学 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法
CN107577923A (zh) * 2017-09-26 2018-01-12 广东美格基因科技有限公司 一种高度相似微生物的鉴定和分类方法
CN109243531A (zh) * 2018-07-24 2019-01-18 江苏省农业科学院 一种批量计算近缘物种间基因组编码区snp位点的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210166789A1 (en) * 2017-04-04 2021-06-03 Skylinedx B.V. Method for identifying gene expression signatures
CN108197434B (zh) * 2018-01-16 2020-04-10 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN108846259B (zh) * 2018-04-26 2020-10-23 河南师范大学 一种基于聚类和随机森林算法的基因分类方法及系统
CN110060740A (zh) * 2019-04-16 2019-07-26 中国科学院深圳先进技术研究院 一种非冗余基因集聚类方法、系统及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060052943A1 (en) * 2004-07-28 2006-03-09 Karthik Ramani Architectures, queries, data stores, and interfaces for proteins and drug molecules
KR20080094347A (ko) * 2007-04-20 2008-10-23 인하대학교 산학협력단 금 표면에서의 특이적인 dna와 단백질의 spri 방법
US20160127562A1 (en) * 2014-11-01 2016-05-05 Somos, Inc. Management of toll-free number misuse and fraud detection
CN106971091A (zh) * 2017-03-03 2017-07-21 江苏大学 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法
CN107577923A (zh) * 2017-09-26 2018-01-12 广东美格基因科技有限公司 一种高度相似微生物的鉴定和分类方法
CN109243531A (zh) * 2018-07-24 2019-01-18 江苏省农业科学院 一种批量计算近缘物种间基因组编码区snp位点的方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ADAWONG_CORNER: "《Blat & BLAST》", 《HTTPS://BLOG.CSDN.NET/ADA0915/ARTICLE/DETAILS/77752339》 *
GBDESTROYEVERYTHING: "《Poi1999基因片段》", 《HTTPS://BLOG.CSDN.NET/QQ_22894599/ARTICLE/DETAILS/45749407》 *
HOBOHM U,ET AL: "《Selection of representative protein data sets》", 《PROTEIN SCIENCE》 *
UWE HOBOHM,ET AL: "《Enlarged representative set of protein structures》", 《PROTEIN SCIENCE》 *
W.JAMES KENT: "《BLAT-The BLAST-Like Alignment Tool》", 《GENOME RESEARCH》 *
刘鹏飞等: "《一种基于图论的计算蛋白质数据库代表序列的算法》", 《计算机与应用化学》 *
深情稻草人: "《并查集的作用》", 《HTTPS://BLOG.CSDN.NET/CKPCKP/ARTICLE/DETAILS/22071837》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020211466A1 (zh) * 2019-04-16 2020-10-22 中国科学院深圳先进技术研究院 一种非冗余基因集聚类方法、系统及电子设备
CN111026920A (zh) * 2019-12-17 2020-04-17 深圳云天励飞技术有限公司 一种档案合并方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3955256A1 (en) 2022-02-16
US20220005546A1 (en) 2022-01-06
EP3955256A4 (en) 2022-06-22
WO2020211466A1 (zh) 2020-10-22

Similar Documents

Publication Publication Date Title
CN110060740A (zh) 一种非冗余基因集聚类方法、系统及电子设备
CN103514201B (zh) 一种非关系型数据库的数据查询方法和装置
JP7168772B2 (ja) ニューラルネットワーク捜索方法、装置、プロセッサ、電子機器、記憶媒体及びコンピュータプログラム
CN111581092B (zh) 仿真测试数据的生成方法、计算机设备及存储介质
WO2015192798A1 (zh) 主题挖掘方法和装置
CN108549696A (zh) 一种基于内存计算的时间序列数据相似性查询方法
CN110110119B (zh) 图像检索的方法、装置及计算机可读存储介质
WO2012159320A1 (zh) 一种大规模图像数据的聚类方法及装置
CN106844338B (zh) 基于属性间依赖关系的网络表格的实体列的检测方法
CN107944045B (zh) 基于t分布哈希的图像检索方法及系统
US20160117350A1 (en) Column group selection method and apparatus for efficiently storing data in mixed olap/oltp workload environment
US20220171815A1 (en) System and method for generating filters for k-mismatch search
CN114138330A (zh) 基于知识图谱的代码克隆检测优化方法、装置和电子设备
CN114238576A (zh) 数据匹配方法、装置、计算机设备和存储介质
CN108108472B (zh) 数据处理方法以及服务器
Hacid et al. Incremental neighborhood graphs construction for multidimensional databases indexing
CN110892401B (zh) 生成用于k个不匹配搜索的过滤器的系统和方法
Das et al. Biclustering of gene expression data using a two-phase method
Liu et al. Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining
CN112349349A (zh) 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置
Rafailidis et al. Indexing media storms on flink
CN116089491B (zh) 基于时序数据库的检索匹配方法和装置
CN108052554A (zh) 多维度拓展关键词的方法和装置
Federico et al. Finding Long and Multiple Repeats with Edit Distance.
CN118673045A (zh) 一种层次查询方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726