CN114464260A - 染色体水平基因组的组装方法和组装装置 - Google Patents

染色体水平基因组的组装方法和组装装置 Download PDF

Info

Publication number
CN114464260A
CN114464260A CN202111649960.7A CN202111649960A CN114464260A CN 114464260 A CN114464260 A CN 114464260A CN 202111649960 A CN202111649960 A CN 202111649960A CN 114464260 A CN114464260 A CN 114464260A
Authority
CN
China
Prior art keywords
sequence
file
comparison
genome
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111649960.7A
Other languages
English (en)
Other versions
CN114464260B (zh
Inventor
赵勇
周勋
康玲
陶琳娜
王静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Novogene Technology Co ltd
Original Assignee
Tianjin Novogene Biological Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Novogene Biological Information Technology Co ltd filed Critical Tianjin Novogene Biological Information Technology Co ltd
Priority to CN202111649960.7A priority Critical patent/CN114464260B/zh
Publication of CN114464260A publication Critical patent/CN114464260A/zh
Application granted granted Critical
Publication of CN114464260B publication Critical patent/CN114464260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种染色体水平基因组的组装方法和组装装置。该组装方法包括:获取同一物种已知的染色体水平基因组作为参考基因组;将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息;根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平,得到待组装个体的染色体水平的基因组。对于难以提供Hi‑C数据的物种,通过使用同一物种已发表的染色体水平基因组作为参考基因组,将新测个体的重叠群或支支架水平基因组比对到参考基因组,从而实现将新测个体有参挂载到染色体水平的目的。

Description

染色体水平基因组的组装方法和组装装置
技术领域
本发明涉及基因组组装领域,具体而言,涉及一种染色体水平基因组的组装方法和组装装置。
背景技术
基因组组装一般分为二代测序数据组装和三代测序数据组装,二代测序数据常用的组装软件为soapdenovo,通过小片段及大片段数据结合,组装结果为支架(scaffold)水平基因组;三代测序数据常用的组装软件为canu或者falcon,组装的结果为重叠群(contig)水平基因组。上述两种测序组装方法,都无法将基因组组装到染色体水平。
Hi-C(High-through chromosome conformation capture)技术为高通量染色体构象捕获技术,利用染色体内部互做强度远大于染色体间互做强度的原理,对组织进行甲醛交联固定,特异性的限制酶对基因组进行酶切,然后经过加生物素标记和末端修复,再次进行酶连,打断,使用磁珠捕获带生物素标记的片段进行高通量测序,测序的数据结合contig或者scaffold水平的基因组使用3d-dna软件进行挂载,最终得到染色体水平基因组。
在生产过程中,有些基因组测序往往因为成本限制,不会进行Hi-C技术测序;有些物种则因为基因组序列特异性,酶切位点重复序列较高,导致Hi-C数据有效率不能达标;还有些物种因为个体较小或者珍稀程度较高,测序样本的组织量不足以进行Hi-C技术测序。这些物种的基因组不会挂载到染色体水平,使得物种基因组的研究存在难题。
综上可知,基因组二代测序数据或者三代测序数据组装后得到重叠群(contig)或者支架(scaffold)水平的基因组后,一般通过Hi-C技术挂载到染色体水平,对于有些物种,因为采样比较困难,没有足够都样本用于Hi-C测序;或者因为物种的特异性,Hi-C技术不适用于此物种,后续染色体水平基因组的挂载会比较困难。
因此,对于没有Hi-C测序数据的物种,则难以实现染色体水平的基因组组装。
发明内容
本发明的主要目的在于提供一种染色体水平基因组的组装方法和组装装置,以解决现有技术中没有Hi-C测序数据的物种,则难以实现染色体水平的基因组组装的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种染色体水平基因组的组装方法,该组装方法包括:获取同一物种已知的染色体水平基因组作为参考基因组;将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息;根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平,得到待组装个体的染色体水平的基因组。
进一步地,将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息包括:将待组装个体的重叠群或支架比对到参考基因组,得到比对文件;过滤比对文件中短于长度阈值的比对序列,得到过滤后的比对文件;将过滤后的比对文件转化为比对后的坐标矩阵文件;根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置,对坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件;对修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件,即对应的坐标信息。
进一步地,根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置,对坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件包括:判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置;若是,则修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对开始和结束位置;4)查询序列比对开始位置;5)正号;6)查询序列比对结束位置;7)查询序列比对结束减去开始位置的长度;8)查询序列比对结束减去开始位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;若否,则修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对结束和开始位置;4)查询序列比对结束位置;5)负号;6)查询序列比对开始位置;7)查询序列比对开始减去结束位置的长度;8)查询序列比对开始减去结束位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;其中,参考序列指参考基因组上的序列;查询序列指待组装个体的重叠群或支架。
进一步地,对修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件包括:判断查询序列在参考基因组上是否存在多个比对位置;对于存在多个比对位置的查询序列,则仅保留查询序列在坐标信息中最长的对应关系,得到唯一的对应关系坐标文件。
进一步地,根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平,得到待组装个体的染色体水平的基因组包括:根据查询序列比对开始位置减去结束位置的长度,挑选最长的比对对应关系序列信息,得到最长的比对对应关系文件,其中,最长的比对对应关系文件包括5列:1)参考序列的名称;2)查询序列的名称;3)参考序列在比对区域的开始位置;4)参考序列在比对区域的结束位置;5)正号或者负号;对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序,得到排序后的最长的比对对应关系文件;根据排序后的最长的比对对应关系文件,将查询序列中没有对应关系的序列名称提取出来,得到未挂载序列的名称文件;根据排序后的最长的比对对应关系文件,将查询序列按照参考序列在比对区域的开始位置依次输出,同时根据未挂载序列的名称文件,将未挂载的序列不做改变直接输出,得到最终的挂载后的染色体水平的基因组的文件;其中,对于最长的比对对应关系文件中第五列为负号的查询序列,将查询序列进行反向互补,正号不做处理;对于同一参考序列下,依次输出的不同查询序列之间填充N,生成待组装个体与参考基因组的对应关系agp文件。
根据本发明的第二个方面,提供了一种染色体水平基因组的组装装置,该组装装置包括:获取模块,被设置为获取同一物种已知的染色体水平基因组作为参考基因组;比对模块,被设置为将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息;挂载模块,被设置为根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平,得到待组装个体的染色体水平的基因组。
进一步地,比对模块包括:mummer模块、修正模块和去重模块,其中,mummer模块包括:比对单元,被设置为将待组装个体的重叠群或支架比对到参考基因组,得到比对文件;过滤单元,被设置为过滤比对文件中短于长度阈值的比对序列,得到过滤后的比对文件;转化单元,被设置为将过滤后的比对文件转化为比对后的坐标矩阵文件;修正模块,被设置为根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置,对坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件;去重模块,被设置为对修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件,即对应的坐标信息。
进一步地,修正模块包括:第一判断单元,被设置为判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置;第一修正单元,被设置为当结束位置大于起始位置时,使修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对开始和结束位置;4)查询序列比对开始位置;5)正号;6)查询序列比对结束位置;7)查询序列比对结束减去开始位置的长度;8)查询序列比对结束减去开始位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;第二修正单元,被设置为当结束位置小于起始位置时,使修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对结束和开始位置;4)查询序列比对结束位置;5)负号;6)查询序列比对开始位置;7)查询序列比对开始减去结束位置的长度;8)查询序列比对开始减去结束位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;其中,参考序列指参考基因组上的序列;查询序列指待组装个体的重叠群或支架。
进一步地,去重模块包括:第二判断单元,被设置为判断查询序列在参考基因组上是否存在多个比对位置;去重单元,被设置为对于存在多个比对位置的查询序列,仅保留查询序列在坐标信息中最长的对应关系,得到唯一的对应关系坐标文件。
进一步地,挂载模块包括:最长挑选模块,被设置为根据查询序列比对开始位置减去结束位置的长度,挑选最长的比对对应关系序列信息,得到最长的比对对应关系文件,其中,最长的比对对应关系文件包括5列:1)参考序列的名称;2)查询序列的名称;3)参考序列在比对区域的开始位置;4)参考序列在比对区域的结束位置;5)正号或者负号;排序模块,被设置为对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序,得到排序后的最长的比对对应关系文件;未挂载提取模块,被设置为根据排序后的最长的比对对应关系文件,将查询序列中没有对应关系的序列名称提取出来,得到未挂载序列的名称文件;输出模块,被设置为根据排序后的最长的比对对应关系文件,将查询序列按照参考序列在比对区域的开始位置依次输出,同时根据未挂载序列的名称文件,将未挂载的序列不做改变直接输出,得到最终的挂载后的染色体水平的基因组的文件;其中,对于最长的比对对应关系文件中第五列为负号的查询序列,将查询序列进行反向互补,正号不做处理,对于同一参考序列下,依次输出的不同查询序列之间填充N,生成待组装个体与参考基因组的对应关系agp文件。
根据本申请的第三个方面,提供了一种计算机可读存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述染色体水平基因组的组装方法。
根据本申请的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述染色体水平基因组的组装方法。
应用本发明的技术方案,对于难以提供Hi-C数据的物种,通过使用同一物种已发表的染色体水平基因组作为参考基因组,将新测个体的重叠群或支支架水平基因组比对到参考基因组,从而实现将新测个体有参挂载到染色体水平的目的。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明的一种具体实施例中提供了一种染色体水平基因组的组装方法的流程简图;
图2示出了本发明的一种具体实施例中提供了一种染色体水平基因组的组装方法的详细流程图;
图3示出了本发明的一种具体实施例中大豆有参挂载结果与参考基因组的共线性图;以及
图4示出了本发明的另一种具体实施例中油菜有参挂载结果与参考基因组的共线性图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
如背景技术所提到的,现有技术中在对进行个体的测序数据进行组装的时候,通常是结合Hi-C的测序数据,对组装得到的重叠群或支架进行染色体水平的挂载,从而获得染色体水平基因组,然而该方法并不适合某些难以获得Hi-C数据的物种,因而,为改善这一状况,本申请提供了一种新的挂载思路。
实施例1
在本实施例中,提供了一种染色体水平基因组的组装方法,如图1所示,该组装方法包括:
S101,获取同一物种已知的染色体水平基因组作为参考基因组;
S103,将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息;
S105,根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平,得到待组装个体的染色体水平的基因组。
该组装方法,通过使用同一物种已发表的染色体水平基因组作为参考基因组,将新测个体的重叠群或支支架水平基因组,(比如使用mummer)比对到参考基因组,从而实现将新测个体有参挂载到染色体水平的目的。
示例性的,可以使用mummer软件将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息。Mummer是一款基因组之间的快速比对软件,比对坐标矩阵文件共15列:1)参考序列在比对区域的开始位置;2)参考序列在比对区域的结束位置;3)查询序列在比对区域的开始位置;4)查询序列在比对区域的结束位置;5)参考序列比对的长度;6)查询序列比对的长度;7)比对相似度;8)参考序列的长度;9查询序列的长度;10)比对区域在参考序列的覆盖度;11)比对序列在查询序列的覆盖度;12参考序列的方向;13)查询序列的方向;14)参考序列的名称;15)查询序列的名称。
在一种优选的实施例中,上述S103包括:将待组装个体的重叠群或支架比对到参考基因组,得到比对文件;过滤比对文件中短于长度阈值的比对序列,得到过滤后的比对文件;将过滤后的比对文件转化为比对后的坐标矩阵文件;根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置,对坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件;对修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件,即对应的坐标信息。
上述实施例中,比对步骤可以采用mummer中的nucmer命令。过滤的步骤可以采用mummer中的delta-filter命令。转化的步骤可以采用mummer中的show-coords命令。
示例性的,上述根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置,对坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件包括:判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置;若是,则修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对开始和结束位置;4)查询序列比对开始位置;5)正号;6)查询序列比对结束位置;7)查询序列比对结束减去开始位置的长度;8)查询序列比对结束减去开始位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;若否,则修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对结束和开始位置;4)查询序列比对结束位置;5)负号;6)查询序列比对开始位置;7)查询序列比对开始减去结束位置的长度;8)查询序列比对开始减去结束位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;其中,参考序列指参考基因组上染色体水平的序列;查询序列指待组装个体的重叠群或支架。
示例性的,上述对修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件包括:判断查询序列在参考基因组上是否存在多个比对位置;对于存在多个比对位置的查询序列,则仅保留查询序列在坐标信息中最长的对应关系,得到唯一的对应关系坐标文件。保留在参考基因组序列上具有最长比对信息,更利于组装成更长的片段,从而更易获得染色体水平的组装结果。
在一种优选的实施例中,上述S105包括:
S1051,根据查询序列比对开始位置减去结束位置的长度,挑选最长的比对对应关系序列信息,得到最长的比对对应关系文件,其中,最长的比对对应关系文件包括5列:1)参考序列的名称;2)查询序列的名称;3)参考序列在比对区域的开始位置;4)参考序列在比对区域的结束位置;5)正号或者负号。该步骤通过挑选最长的比对的对应关系,有利于减少相关信息,将之前的10列信息缩减为5列信息,更利于后续处理。
S1052,对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序,得到排序后的最长的比对对应关系文件。此处的排序可以通过一条命令实现。排序结果为按照参考序列的具体名称,在每个名称下,比对区域按开始位置进行排序。示例性说明如下:若待测物种有12条染色体,则按染色体编号顺序排序,然后在各染色体编号下,按照在该染色体上的物理位置从小到大进行排序。
S1053,根据排序后的最长的比对对应关系文件,将查询序列中没有对应关系的序列名称提取出来,得到未挂载序列的名称文件。此步骤是将未能成功挂载的重叠群或支架的名称提取出来,以便在后续输出时,输出其对应的序列。
S1054,根据排序后的最长的比对对应关系文件,将查询序列按照参考序列在比对区域的开始位置依次输出,同时根据未挂载序列的名称文件,将未挂载的序列不做改变直接输出,得到最终的挂载后的染色体水平的基因组的文件;其中,对于最长的比对对应关系文件中第五列为负号的查询序列,将查询序列进行反向互补,正号不做处理;对于同一参考序列下,依次输出的不同查询序列之间填充N,生成待组装个体与参考基因组的对应关系agp文件。
S1054步骤中,将能够参照参考基因组序列比对到具体位置的序列进行挂载,能够将不同的重叠群或支架连接成更长的片段,但也存在一些无法连接的空缺之处,即连成的更长的片段之间仍有无法连接的区域,这些区域填充N从而实现在染色体水平的组装。具体地,在输出所组装的序列的过程中,如果某条序列对应的关系文件中标记为负号,则表明其方向是相反的,输出时改为其反向互补的序列进行输出。而对于未成功挂载的重叠群或支架,仍原样输出。
需要说明的是,上述组装方法在输出染色体水平基因组的同时,还能够输出新测个体与参考基因组的对应关系agp文件。其中,agp文件包括9列:1)目标序列(即连接完成后的基因组)的名称;2)目标序列的开始位置;3)目标序列的结束位置;4)构成序列(即连接之前的重叠群或支架)在目标序列的编号;5)构成序列的类型:W表示WGS contig;N表示明确长度的gap;U表示不明确长度的gap,一般用100bp长度;6)构成片段的名称或gap长度,如果第5列不为N或U,则此列为构成片段的ID。如果第5列是N或U,则此列为gap的长度。如果第5列为U,则此列值为100;7)构成片段开始位置或gap的类型,如果第5列是N或U,则此列表示gap的类型;8)构成片段结束位置或gap是否被连接,如果第5列是N或U,则此列的值为yes;9)构成片段方向或gap的连接证据。
此外,还需要说明的是,最后输出的挂载后的染色体水平的基因组的具体序列的文件格式是fasta格式。
实施例2
本实施例提供了一种基因组有参挂载到染色体水平的方法,如图2所示,具体实现方法的流程为:
1.使用mummer中的nucmer命令,将目标基因组比对到染色体水平基因组,参考序列为染色体水平基因组序列,目标基因组序列为查询序列,得到比对文件。
2.使用mummer中的delta-filter命令,过滤比对文件中较短的比对序列,得到过滤后比对文件。
3.使用mummer中的show-coords命令,将过滤后的比对文件转化为比对后的坐标矩阵文件。
4.根据mummer比对后的坐标矩阵文件,输出修正后的坐标文件。判断查询序列在比对区域的结束位置是否大于查询序列在比对区域的开始位置,如果是,修正后的坐标文件包括以下10列:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对开始和结束位置;4)查询序列比对开始位置;5)正号;6)查询序列比对结束位置;7)查询序列比对结束减去开始位置的长度;8)查询序列比对结束减去开始位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置。如果否,修正后的坐标文件包括以下10列:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对结束和开始位置;4)查询序列比对结束位置;5)负号;6)查询序列比对开始位置;7)查询序列比对开始减去结束位置的长度;8)查询序列比对开始减去结束位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置。
5.在修正后的坐标文件中,判断查询序列是否位于多个参考序列上,如果是,仅保留查询序列最长的对应关系,得到唯一的对应关系坐标文件。
6.在唯一的对应关系坐标文件中,根据查询序列比对开始减去结束位置的长度,挑选最长的比对对应关系序列信息,得到最长的比对对应关系文件。包括5列:1)参考序列的名称;2)查询序列的名称;3)参考序列在比对区域的开始位置;4)参考序列在比对区域的结束位置;5)正号或者负号。
7.对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序,得到排序后的最长的比对对应关系文件。
8.根据最长的比对对应关系文件,将查询序列中,没有对应关系的序列名称提出来,得到未挂载序列的名称文件。
9.根据最长的比对对应关系文件,将查询序列按照参考序列在比对区域的开始位置依次输出,最长的比对对应关系文件第五列为负号的,将查询序列进行反向互补,正号不做处理。同一参考序列下的不同查询序列之间填充100个N的序列,生成对应关系agp文件。根据未挂载序列的名称文件,将未挂载的序列不做改变直接输出,得到最终的挂载后的染色体水平的基因组文件。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
下面将结合具体的实施例来进一步说明本申请的有益效果。
实施例3
本实施例提供了一种染色体水平基因组的组装装置,该组装装置包括:获取模块、比对模块及挂载模块,其中,
获取模块,被设置为获取同一物种已知的染色体水平基因组作为参考基因组;
比对模块,被设置为将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息;
挂载模块,被设置为根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平,得到待组装个体的染色体水平的基因组。
可选地,比对模块包括mummer模块。
在一种优选的实施例中,比对模块包括:mummer模块、修正模块和去重模块,其中,
mummer模块包括:比对单元,被设置为将待组装个体的重叠群或支架比对到参考基因组,得到比对文件;过滤单元,被设置为过滤比对文件中短于长度阈值的比对序列,得到过滤后的比对文件;转化单元,被设置为将过滤后的比对文件转化为比对后的坐标矩阵文件;
修正模块,被设置为根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置,对坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件;
去重模块,被设置为对修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件,即对应的坐标信息。
在一种优选的实施例中,修正模块包括:第一判断单元,被设置为判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置;第一修正单元,被设置为当结束位置大于起始位置时,使修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对开始和结束位置;4)查询序列比对开始位置;5)正号;6)查询序列比对结束位置;7)查询序列比对结束减去开始位置的长度;8)查询序列比对结束减去开始位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;第二修正单元,被设置为当结束位置小于起始位置时,使修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对结束和开始位置;4)查询序列比对结束位置;5)负号;6)查询序列比对开始位置;7)查询序列比对开始减去结束位置的长度;8)查询序列比对开始减去结束位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;其中,参考序列指参考基因组上染色体水平的序列;查询序列指待组装个体的重叠群或支架。
在一种优选的实施例中,去重模块包括:第二判断单元,被设置为判断查询序列在参考基因组上是否存在多个比对位置;去重单元,被设置为对于存在多个比对位置的查询序列,仅保留查询序列在坐标信息中最长的对应关系,得到唯一的对应关系坐标文件。
在一种优选的实施例中,挂载模块包括:
最长挑选模块,被设置为根据查询序列比对开始位置减去结束位置的长度,挑选最长的比对对应关系序列信息,得到最长的比对对应关系文件,其中,最长的比对对应关系文件包括5列:1)参考序列的名称;2)查询序列的名称;3)参考序列在比对区域的开始位置;4)参考序列在比对区域的结束位置;5)正号或者负号;
排序模块,被设置为对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序,得到排序后的最长的比对对应关系文件;
未挂载提取模块,被设置为根据排序后的最长的比对对应关系文件,将查询序列中没有对应关系的序列名称提取出来,得到未挂载序列的名称文件;
输出模块,被设置为根据排序后的最长的比对对应关系文件,将查询序列按照参考序列在比对区域的开始位置依次输出,同时根据未挂载序列的名称文件,将未挂载的序列不做改变直接输出,得到最终的挂载后的染色体水平的基因组的文件;其中,对于所述最长的比对对应关系文件中第五列为负号的所述查询序列,将所述查询序列进行反向互补,正号不做处理,对于同一所述参考序列下,依次输出的不同查询序列之间填充N,生成所述待组装个体与所述参考基因组的对应关系agp文件。
实施例4
采用实施例2的方法对大豆进行有参挂载,挂载率为97.37%,其与参考基因组的共线性图见图3。同时与采用Hi-C技术的挂载方法进行了比较,结果见表1。
表1:
Hi-C技术 本实施例
挂载率 97.6% 97.37%
耗时 2.5D 3h
实施例5
某油菜物种新测个体,未测Hi-C数据,根据已发表的油菜染色体基因组(其挂载率为95.01%),使用本发明的方法,进行有参挂载,最终的挂载率为93.47%,其与参考基因组的共线性图见图4。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本发明提供了一种不需要Hi-C技术,只需提供已发表本物种的染色体水平的基因组,利用其进行有参挂载使新测序个体基因组达到染色体水平的方法。
(1)本发明无需进行Hi-C技术测序即可将新测个体挂载到染色体水平。
(2)本发明挂载得到的染色体水平基因组,与参考基因组一致性更好,速度更快。
需要说明的是,本发明除了进行染色体水平的有参挂载,还可以使用scaffold的水平的参考基因组,对新测个体contig水平基因组进行连长。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种染色体水平基因组的组装方法,其特征在于,所述组装方法包括:
获取同一物种已知的染色体水平基因组作为参考基因组;
将待组装个体的重叠群或支架通过与所述参考基因组比对,得到对应的坐标信息;
根据所述坐标信息将所述待组装个体的所述重叠群或所述支架挂载到染色体水平,得到所述待组装个体的染色体水平的基因组。
2.根据权利要求1的组装方法,其特征在于,将所述待组装个体的重叠群或支架通过与所述参考基因组比对,得到对应的所述坐标信息包括:
将所述待组装个体的所述重叠群或所述支架比对到所述参考基因组,得到比对文件;
过滤所述比对文件中短于长度阈值的比对序列,得到过滤后的所述比对文件;
将过滤后的所述比对文件转化为比对后的坐标矩阵文件;
根据所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置,对所述坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件;
对所述修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件,即对应的所述坐标信息。
3.根据权利要求2的组装方法,其特征在于,根据所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置,对所述坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件包括:
判断所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置;
若是,则所述修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对开始和结束位置;4)查询序列比对开始位置;5)正号;6)查询序列比对结束位置;7)查询序列比对结束减去开始位置的长度;8)查询序列比对结束减去开始位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;
若否,则所述修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对结束和开始位置;4)查询序列比对结束位置;5)负号;6)查询序列比对开始位置;7)查询序列比对开始减去结束位置的长度;8)查询序列比对开始减去结束位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;
其中,所述参考序列指所述参考基因组上染色体水平的序列;所述查询序列指所述待组装个体的所述重叠群或所述支架。
4.根据权利要求3所述的组装方法,其特征在于,对所述修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件包括:
判断所述查询序列在所述参考基因组上是否存在多个比对位置;
对于存在多个比对位置的所述查询序列,则仅保留所述查询序列在所述坐标信息中最长的对应关系,得到所述唯一的对应关系坐标文件。
5.根据权利要求3或4所述的组装方法,其特征在于,根据所述坐标信息将所述待组装个体的所述重叠群或所述支架挂载到染色体水平,得到所述待组装个体的染色体水平的基因组包括:
根据所述查询序列比对开始位置减去结束位置的长度,挑选最长的比对对应关系序列信息,得到最长的比对对应关系文件,其中,所述最长的比对对应关系文件包括5列:1)参考序列的名称;2)查询序列的名称;3)参考序列在比对区域的开始位置;4)参考序列在比对区域的结束位置;5)正号或者负号;
对所述最长的比对对应关系文件中的所述参考序列的名称和所述参考序列在比对区域的开始位置两列进行排序,得到排序后的所述最长的比对对应关系文件;
根据排序后的所述最长的比对对应关系文件,将所述查询序列中没有对应关系的序列名称提取出来,得到未挂载序列的名称文件;
根据排序后的所述最长的比对对应关系文件,将所述查询序列按照所述参考序列在比对区域的开始位置依次输出,同时根据所述未挂载序列的名称文件,将所述未挂载的序列不做改变直接输出,得到最终的所述挂载后的染色体水平的基因组的文件;
其中,对于所述最长的比对对应关系文件中第五列为负号的所述查询序列,将所述查询序列进行反向互补,正号不做处理;
对于同一所述参考序列下,依次输出的不同查询序列之间填充N,生成所述待组装个体与所述参考基因组的对应关系agp文件。
6.一种染色体水平基因组的组装装置,其特征在于,所述组装装置包括:
获取模块,被设置为获取同一物种已知的染色体水平基因组作为参考基因组;
比对模块,被设置为将待组装个体的重叠群或支架通过与所述参考基因组比对,得到对应的坐标信息;
挂载模块,被设置为根据所述坐标信息将所述待组装个体的所述重叠群或所述支架挂载到染色体水平,得到所述待组装个体的染色体水平的基因组。
7.根据权利要求6的组装装置,其特征在于,所述比对模块包括:mummer模块、修正模块和去重模块,
其中,所述mummer模块包括:
比对单元,被设置为将所述待组装个体的所述重叠群或所述支架比对到所述参考基因组,得到比对文件;
过滤单元,被设置为过滤所述比对文件中短于长度阈值的比对序列,得到过滤后的所述比对文件;
转化单元,被设置为将过滤后的所述比对文件转化为比对后的坐标矩阵文件;
所述修正模块,被设置为根据所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置,对所述坐标矩阵文件中的各序列在基因组上的方向信息进行修正,得到修正后的坐标文件;
所述去重模块,被设置为对所述修正后的坐标文件进行去重处理,得到唯一的对应关系坐标文件,即对应的所述坐标信息。
8.根据权利要求7的组装装置,其特征在于,所述修正模块包括:
第一判断单元,被设置为判断所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置;
第一修正单元,被设置为当所述结束位置大于所述起始位置时,使所述修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对开始和结束位置;4)查询序列比对开始位置;5)正号;6)查询序列比对结束位置;7)查询序列比对结束减去开始位置的长度;8)查询序列比对结束减去开始位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;
第二修正单元,被设置为当所述结束位置小于所述起始位置时,使所述修正后的坐标文件包括以下10列信息:1)参考序列的名称;2)查询序列的名称;3)查询序列的名称和比对结束和开始位置;4)查询序列比对结束位置;5)负号;6)查询序列比对开始位置;7)查询序列比对开始减去结束位置的长度;8)查询序列比对开始减去结束位置的长度与比对长度的比值;9)参考序列在比对区域的开始位置;10)参考序列在比对区域的结束位置;
其中,所述参考序列指所述参考基因组上染色体水平的序列;所述查询序列指所述待组装个体的所述重叠群或所述支架。
9.根据权利要求8所述的组装装置,其特征在于,所述去重模块包括:
第二判断单元,被设置为判断所述查询序列在所述参考基因组上是否存在多个比对位置;
去重单元,被设置为对于存在多个比对位置的所述查询序列,仅保留所述查询序列在所述坐标信息中最长的对应关系,得到所述唯一的对应关系坐标文件。
10.根据权利要求8或9所述的组装装置,其特征在于,所述挂载模块包括:
最长挑选模块,被设置为根据所述查询序列比对开始位置减去结束位置的长度,挑选最长的比对对应关系序列信息,得到最长的比对对应关系文件,其中,所述最长的比对对应关系文件包括5列:1)参考序列的名称;2)查询序列的名称;3)参考序列在比对区域的开始位置;4)参考序列在比对区域的结束位置;5)正号或者负号;
排序模块,被设置为对所述最长的比对对应关系文件中的所述参考序列的名称和所述参考序列在比对区域的开始位置两列进行排序,得到排序后的所述最长的比对对应关系文件;
未挂载提取模块,被设置为根据排序后的所述最长的比对对应关系文件,将所述查询序列中没有对应关系的序列名称提取出来,得到未挂载序列的名称文件;
输出模块,被设置为根据排序后的所述最长的比对对应关系文件,将所述查询序列按照所述参考序列在比对区域的开始位置依次输出,同时根据所述未挂载序列的名称文件,将所述未挂载的序列不做改变直接输出,得到最终的所述挂载后的染色体水平的基因组的文件;其中,对于所述最长的比对对应关系文件中第五列为负号的所述查询序列,将所述查询序列进行反向互补,正号不做处理,对于同一所述参考序列下,依次输出的不同查询序列之间填充N,生成所述待组装个体与所述参考基因组的对应关系agp文件。
11.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的染色体水平基因组的组装方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任一项所述的染色体水平基因组的组装方法。
CN202111649960.7A 2021-12-29 2021-12-29 染色体水平基因组的组装方法和组装装置 Active CN114464260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111649960.7A CN114464260B (zh) 2021-12-29 2021-12-29 染色体水平基因组的组装方法和组装装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111649960.7A CN114464260B (zh) 2021-12-29 2021-12-29 染色体水平基因组的组装方法和组装装置

Publications (2)

Publication Number Publication Date
CN114464260A true CN114464260A (zh) 2022-05-10
CN114464260B CN114464260B (zh) 2023-09-26

Family

ID=81407167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111649960.7A Active CN114464260B (zh) 2021-12-29 2021-12-29 染色体水平基因组的组装方法和组装装置

Country Status (1)

Country Link
CN (1) CN114464260B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579061A (zh) * 2022-12-07 2023-01-06 北京诺禾致源科技股份有限公司 基因组hic分析的方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298892A (zh) * 2014-09-18 2015-01-21 天津诺禾致源生物信息科技有限公司 基因融合的检测装置和方法
AU2015264833A1 (en) * 2011-04-14 2015-12-24 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106951731A (zh) * 2017-03-28 2017-07-14 上海至本生物科技有限公司 一种大片段插入或缺失的预测方法及系统
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN111161798A (zh) * 2019-12-31 2020-05-15 余珂 宏基因组的重组装方法、重组装装置及终端设备
CN111584004A (zh) * 2020-05-12 2020-08-25 西藏自治区农牧科学院水产科学研究所 一种基于三维组学数据的西藏特色鱼类基因组组装方法
CN111816248A (zh) * 2020-05-22 2020-10-23 武汉菲沙基因信息有限公司 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法
CN112289382A (zh) * 2020-10-28 2021-01-29 天津诺禾致源生物信息科技有限公司 多倍体基因组同源染色体的拆分方法、装置及其应用
CN112786109A (zh) * 2021-01-19 2021-05-11 南京大学 一种基因组完成图的基因组组装方法
CN112820354A (zh) * 2021-02-25 2021-05-18 深圳华大基因科技服务有限公司 一种双倍体组装的方法、装置和存储介质
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法
CN113808668A (zh) * 2021-11-18 2021-12-17 北京诺禾致源科技股份有限公司 提升基因组组装完整性的方法、装置及其应用

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015264833A1 (en) * 2011-04-14 2015-12-24 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
CN104298892A (zh) * 2014-09-18 2015-01-21 天津诺禾致源生物信息科技有限公司 基因融合的检测装置和方法
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106951731A (zh) * 2017-03-28 2017-07-14 上海至本生物科技有限公司 一种大片段插入或缺失的预测方法及系统
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN111161798A (zh) * 2019-12-31 2020-05-15 余珂 宏基因组的重组装方法、重组装装置及终端设备
CN111584004A (zh) * 2020-05-12 2020-08-25 西藏自治区农牧科学院水产科学研究所 一种基于三维组学数据的西藏特色鱼类基因组组装方法
CN111816248A (zh) * 2020-05-22 2020-10-23 武汉菲沙基因信息有限公司 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法
CN112289382A (zh) * 2020-10-28 2021-01-29 天津诺禾致源生物信息科技有限公司 多倍体基因组同源染色体的拆分方法、装置及其应用
CN112786109A (zh) * 2021-01-19 2021-05-11 南京大学 一种基因组完成图的基因组组装方法
CN112820354A (zh) * 2021-02-25 2021-05-18 深圳华大基因科技服务有限公司 一种双倍体组装的方法、装置和存储介质
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法
CN113808668A (zh) * 2021-11-18 2021-12-17 北京诺禾致源科技股份有限公司 提升基因组组装完整性的方法、装置及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THOMAS W. WÖHNER等: "The draft chromosome-level genome assembly of tetraploid ground cherry (Prunus fruticosa Pall.) from long reads", 《GENOMICS 》, pages 4173 - 4183 *
郑树清: "基于全基因组测序的南方鲇性别连锁分子标记开发和性别决定候选基因鉴定", 《中国博士学位论文全文数据库 农业科技辑》, vol. 2021, no. 1, pages 052 - 19 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579061A (zh) * 2022-12-07 2023-01-06 北京诺禾致源科技股份有限公司 基因组hic分析的方法及装置

Also Published As

Publication number Publication date
CN114464260B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Pertea et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets
Travis et al. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data
CN108573127B (zh) 一种核酸第三代测序原始数据的处理方法及其应用
Bryant Jr et al. Supersplat—spliced RNA-seq alignment
CN107784201B (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
CN108595915B (zh) 一种基于dna变异检测的三代数据校正方法
CN111081315A (zh) 一种同源假基因变异检测的方法
CN114464260A (zh) 染色体水平基因组的组装方法和组装装置
CN113488106B (zh) 一种快速获取目标基因组区域比对结果数据的方法
JP5344774B2 (ja) テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置
Ranzani et al. Next-generation sequencing analysis of long noncoding RNAs in CD4+ T cell differentiation
CN112328499A (zh) 一种测试数据生成方法、装置、设备及介质
CN112735517A (zh) 一种检测染色体联合缺失的方法、装置和存储介质
CN108197204B (zh) 文件处理方法及装置
CN103176905B (zh) 一种缺陷关联方法及装置
CN110970091B (zh) 标签质控的方法及装置
CN102789553A (zh) 利用长转录组测序结果装配基因组的方法及装置
EP2631832A2 (en) System and method for processing reference sequence for analyzing genome sequence
CN110021359B (zh) 一种二代和三代序列联合组装结果去冗余的方法和装置
CN111292806A (zh) 一种利用纳米孔测序的转录组分析方法
CN114550821B (zh) 快速筛选小鼠mmu-miR-25-3p与启动子结合靶点的方法
JP2007086951A (ja) ファイル分割処理方法及びファイル分割プログラム
CN109284278B (zh) 基于数据分析技术的计算逻辑迁移方法及终端设备
CN115114238A (zh) 一种基于纠错的基因组测序数据无损压缩方法及相关设备
CN111599410B (zh) 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230807

Address after: Room 201, No. 9, Lane 396, Lvzhou Ring Road, Minhang District, Shanghai, 201100

Applicant after: Shanghai Novogene Technology Co.,Ltd.

Address before: 301700 business headquarters base B07, Wuqing Development Zone, Wuqing District, Tianjin

Applicant before: TIANJIN NOVOGENE BIOLOGICAL INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant