CN114724632B - 评估基因组组装完整度方法及装置 - Google Patents

评估基因组组装完整度方法及装置 Download PDF

Info

Publication number
CN114724632B
CN114724632B CN202210423265.7A CN202210423265A CN114724632B CN 114724632 B CN114724632 B CN 114724632B CN 202210423265 A CN202210423265 A CN 202210423265A CN 114724632 B CN114724632 B CN 114724632B
Authority
CN
China
Prior art keywords
sequencing data
kmer
simulated
actual
frequency depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210423265.7A
Other languages
English (en)
Other versions
CN114724632A (zh
Inventor
吕云云
李燕平
文正勇
贺扬
王均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neijiang Normal University
Original Assignee
Neijiang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neijiang Normal University filed Critical Neijiang Normal University
Priority to CN202210423265.7A priority Critical patent/CN114724632B/zh
Publication of CN114724632A publication Critical patent/CN114724632A/zh
Application granted granted Critical
Publication of CN114724632B publication Critical patent/CN114724632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种评估基因组组装完整度方法及装置,根据测序报告确定测序reads的长度和测序错误率;在基因组序列中的随机位置上产生模拟reads;根据测序错误率在模拟产生的reads上进行错误性碱基替换;对实际和模拟产生的reads逐个碱基进行一定长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识;根据不同标识kmer的出现频次分布,计算所有kmer的频次深度分布;根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。本发明整体设计不依赖于其他数据库,采用简单可行的手段对基因组进行科学合理的完整性评估。

Description

评估基因组组装完整度方法及装置
技术领域
本发明涉及行为分析识别技术领域,具体的说,涉及一种评估基因组组装完整度方法及装置。
背景技术
基因组包含了生命体所有的遗传信息,包含了数亿计碱基对,不同的碱基排列方式造就了生命的多样。随着测序的进步,在数小时内即可完成一个物种基因组全序的测定,但完整的还原基因组本身的序列排布成为了当前生命科学重要的难点之一。生物学家致力于基因组组装质量的提高,评估基因组的完整度成为了高质量完成基因组组装的重要一环。当前评估基因组完整度,多依赖其他数据库的评估,例如利用计算保守单拷贝基因在基因组中的呈现比例,越高的比例代表基因组完整度越高。但遗传距离较远的物种在进化上的差异,会导致基因组完整度的评估也出现较高的误差。具体来说,现有技术基于单拷贝基因数据库与已有基因组比较,完整单拷贝基因所占的比例、缺失的比例和片段化的比例评估组装基因组的完整度。上述方法存在的缺陷在于,遗传距离较远的物种在进化上的差异,会导致基因组完整度的评估也出现较高的误差。
发明内容
本发明提供一种评估基因组组装完整度方法及装置,以能够有效的分析基因组的完整情况,评估出基因组组装质量情况。
本发明的具体技术方案如下:
根据本发明的第一技术方案,提供一种评估基因组组装完整度方法,所述方法包括:根据测序报告确定测序reads的长度l和测序错误率e;将基因组序列储存于字典数据结构中,在基因组序列中的随机位置上产生长度为l的模拟reads;根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换;收集实际测序数据和模拟测序数据;对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识;根据不同标识kmer的出现频次分布,将出现频次相同的kmer归为一类,记为kmer频次深度d,按照d=1,2,3…计算所有kmer的频次深度分布;根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。
根据本发明的第二技术方案,提供一种评估基因组组装完整度装置,所述装置包括处理器,所述处理器配置为:根据测序报告确定测序reads的长度l和测序错误率e;将基因组序列储存于字典数据结构中,在基因组序列中的随机位置上产生长度为l的模拟reads;根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换;收集实际测序数据和模拟测序数据;对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识;根据不同标识kmer的出现频次分布,将出现频次相同的kmer归为一类,记为kmer频次深度d,按照d=1,2,3…计算所有kmer的频次深度分布;根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。
根据本发明各个实施例公开的一种评估基因组组装完整度方法及装置,根据实际测序报告产生模拟测序数据,根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度,整体设计不依赖于其他数据库,采用简单可行的手段对基因组进行科学合理的完整性评估,为当下鉴定基因组组装质量优劣提供新的途径。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了根据本发明实施例的一种评估基因组组装完整度方法的流程图;
图2示出了根据本发明实施例的一种评估基因组组装完整度方法的流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
图1示出了根据本发明实施例的一种评估基因组组装完整度方法的流程图。本发明实施例提供一种评估基因组组装完整度方法,如图1所示,该方法始于步骤S100,根据测序报告确定测序reads的长度l和测序错误率e。其中,测序报告是通过对基因组测序而产生的报告,其通常包含有实际测序数据。一个实际测序数据的大小应当至少是基因组大小的30倍。
步骤S200,将基因组序列储存于字典数据结构中,在基因组序列中的随机位置上产生长度为l的模拟reads。
步骤S300,根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换。
步骤S400,收集实际测序数据和模拟测序数据。
步骤S500,对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识。预设长度可以是17或19或21等等,本发明实施例对此不作具体限制。
步骤S600,根据不同标识kmer的出现频次分布,将出现频次相同的kmer归为一类,记为kmer频次深度d,按照d=1,2,3…计算所有kmer的频次深度分布。
步骤S700,根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。
在一些实施例中,按照基因组大小的X1倍、X2倍、X3倍和/或X4倍数据量收集实际测序数据和模拟测序数据,其中,X≥10。收集不同数据量大小的实际测序数据和模拟测序数据,以保证对基因组科学合理的完整性评估的准确性。
在一些实施例中,所述根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度,包括:
比较kmer频次深度分布在实际测序数据和模拟测序数据中的不同;
当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布一致时,则确定基因组组装完整;
当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时,则确定基因组组装不完整。
在一些实施例中,所述当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时,则确定基因组组装不完整,包括:
当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰右移时,说明模拟测序数据的kmer频次深度要高于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列不存在于模拟测序数据中,导致模拟测序数据的总特征kmer序列少于实际测序数据;据此可确定一部分序列未被组装出来,则已有基因组质量较差,组装不完整;
当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰左移时,说明模拟测序数据的kmer频次深度要低于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列多次出现在模拟数据中,导致模拟测序数据kmer频次深度加倍;据此可确定基因组中存在过度组装的重复性序列,则已有基因组质量存在冗余重复。
本发明实施例在具体应用时,可以适用于不同的语言环境。
示例性的,在Python环境中,如图2所示,将基因组总大小为G的基因组序列在Python环境中,根据短片段测序(测序长度l)确定的错误率e来随机模拟产生错误率为e的短序列片段,即得到模拟测序数据。短片段测序即实际测序数据。对模拟测序数据和实际测序数据分别逐单个碱基取17长度短片段,比较互补配对片段,取较大者为短片段标识,记录短片段累计长度GA,当GA为G的10倍,15倍,20倍,25倍,30倍时比较实际测序与模拟产生的短片段频次深度分布。在两者频次深度分布主峰一致,形状接近时,确定基因组组装完整。在两者频次深度分布主峰不一致,主峰右移时,则确定基因组组装不完整,此时在基因组中一部分序列未被组装出来,基因组质量较差。在两者频次深度分布主峰不一致,主峰左移时,则确定基因组冗余。
因此,本发明基于测序原理和计算机语言Python的优势,设计出不依赖于其他数据库,简单可行的手段对基因组进行科学合理的完整性评估方法,为当下鉴定基因组组装质量优劣提供新的途径。
本发明实施例还提供一种评估基因组组装完整度装置,所述装置包括处理器,所述处理器配置为:根据测序报告确定测序reads的长度l和测序错误率e;将基因组序列储存于字典数据结构中,在基因组序列中的随机位置上产生长度为l的模拟reads;根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换;收集实际测序数据和模拟测序数据;对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识;根据不同标识kmer的出现频次分布,将出现频次相同的kmer归为一类,记为kmer频次深度d,按照d=1,2,3…计算所有kmer的频次深度分布;根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。
需要说明的是,本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。
在一些实施例中,所述测序报告中包含的实际测序数据的大小至少是基因组大小的30倍。
在一些实施例中,所述处理器进一步配置为按照基因组大小的X1倍、X2倍、X3倍和/或X4倍数据量收集实际测序数据和模拟测序数据,其中,X≥10。
在一些实施例中,所述处理器进一步配置为:比较kmer频次深度分布在实际测序数据和模拟测序数据中的不同;当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布一致时,则确定基因组组装完整;当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时,则确定基因组组装不完整。
在一些实施例中,所述处理器进一步配置为:
当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰右移时,说明模拟测序数据的kmer频次深度要高于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列不存在于模拟测序数据中,导致模拟测序数据的总特征kmer序列少于实际测序数据;据此可确定一部分序列未被组装出来,则已有基因组质量较差,组装不完整;当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰左移时,说明模拟测序数据的kmer频次深度要低于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列多次出现在模拟数据中,导致模拟测序数据kmer频次深度加倍;据此可确定基因组中存在过度组装的重复性序列,则已有基因组质量存在冗余重复。
本发明实施例所提供的一种评估基因组组装完整度装置与在前阐述的方法的技术效果基本一致,此处不赘述。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.一种评估基因组组装完整度方法,其特征在于,所述方法包括:
根据测序报告确定测序reads的长度l和测序错误率e;
将基因组序列储存于字典数据结构中,在基因组序列中的随机位置上产生长度为l的模拟reads;
根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换;
收集实际测序数据和模拟测序数据;
对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识;
根据不同标识kmer的出现频次分布,将出现频次相同的kmer归为一类,记为kmer频次深度d,按照d=1,2,3…计算所有kmer的频次深度分布;
根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度;
所述根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度,包括:
比较kmer频次深度分布在实际测序数据和模拟测序数据中的不同;
当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布一致时,则确定基因组组装完整;
当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时,则确定基因组组装不完整;
所述当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时,则确定基因组组装不完整,包括:
当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰右移时,说明模拟测序数据的kmer频次深度要高于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列不存在于模拟测序数据中,导致模拟测序数据的总特征kmer序列少于实际测序数据;据此可确定一部分序列未被组装出来,则已有基因组质量较差,组装不完整;
当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰左移时,说明模拟测序数据的kmer频次深度要低于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列多次出现在模拟数据中,导致模拟测序数据kmer频次深度加倍;据此可确定基因组中存在过度组装的重复性序列,则已有基因组质量存在冗余重复。
2.根据权利要求1所述的方法,其特征在于,所述测序报告中包含的实际测序数据的大小至少是基因组大小的30倍。
3.根据权利要求1所述的方法,其特征在于,按照基因组大小的X1倍、X2倍、X3倍和X4倍数据量收集实际测序数据和模拟测序数据,其中,X≥10。
4.一种评估基因组组装完整度装置,其特征在于,所述装置包括处理器,所述处理器配置为:
根据测序报告确定测序reads的长度l和测序错误率e;
将基因组序列储存于字典数据结构中,在基因组序列中的随机位置上产生长度为l的模拟reads;
根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换;
收集实际测序数据和模拟测序数据;
对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识;
根据不同标识kmer的出现频次分布,将出现频次相同的kmer归为一类,记为kmer频次深度d,按照d=1,2,3…计算所有kmer的频次深度分布;
根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度;
所述处理器进一步配置为:
比较kmer频次深度分布在实际测序数据和模拟测序数据中的不同;
当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布一致时,则确定基因组组装完整;
当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时,则确定基因组组装不完整;
所述处理器进一步配置为:
当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰右移时,说明模拟测序数据的kmer频次深度要高于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列不存在于模拟测序数据中,导致模拟测序数据的总特征kmer序列少于实际测序数据;据此可确定一部分序列未被组装出来,则已有基因组质量较差,组装不完整;
当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰左移时,说明模拟测序数据的kmer频次深度要低于实际测序数据的kmer频次深度,这种情况源于实际测序数据中的部分特征kmer序列多次出现在模拟数据中,导致模拟测序数据kmer频次深度加倍;据此可确定基因组中存在过度组装的重复性序列,则已有基因组质量存在冗余重复。
5.根据权利要求4所述的装置,其特征在于,所述测序报告中包含的实际测序数据的大小至少是基因组大小的30倍。
6.根据权利要求4所述的装置,其特征在于,所述处理器进一步配置为按照基因组大小的X1倍、X2倍、X3倍和/或X4倍数据量收集实际测序数据和模拟测序数据,其中,X≥10。
CN202210423265.7A 2022-04-21 2022-04-21 评估基因组组装完整度方法及装置 Active CN114724632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210423265.7A CN114724632B (zh) 2022-04-21 2022-04-21 评估基因组组装完整度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210423265.7A CN114724632B (zh) 2022-04-21 2022-04-21 评估基因组组装完整度方法及装置

Publications (2)

Publication Number Publication Date
CN114724632A CN114724632A (zh) 2022-07-08
CN114724632B true CN114724632B (zh) 2023-03-21

Family

ID=82245707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210423265.7A Active CN114724632B (zh) 2022-04-21 2022-04-21 评估基因组组装完整度方法及装置

Country Status (1)

Country Link
CN (1) CN114724632B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331733B (zh) * 2022-10-14 2023-03-24 青岛百创智能制造技术有限公司 空间转录组芯片的测序数据的分析方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239750A (zh) * 2014-08-25 2014-12-24 北京百迈客生物科技有限公司 基于高通量测序数据的基因组从头组装方法
CN107563151A (zh) * 2017-09-18 2018-01-09 杭州和壹基因科技有限公司 一种PacBio测序数据组装得到的基因组序列的纠错方法
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648720B (zh) * 2019-09-25 2020-06-19 广州微远基因科技有限公司 宏基因组测序质控预测评估方法及模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239750A (zh) * 2014-08-25 2014-12-24 北京百迈客生物科技有限公司 基于高通量测序数据的基因组从头组装方法
CN107563151A (zh) * 2017-09-18 2018-01-09 杭州和壹基因科技有限公司 一种PacBio测序数据组装得到的基因组序列的纠错方法
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置

Also Published As

Publication number Publication date
CN114724632A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
KR101325736B1 (ko) 바이오 마커 추출 장치 및 방법
CN111292802B (zh) 用于检测突变的方法、电子设备和计算机存储介质
CN114724632B (zh) 评估基因组组装完整度方法及装置
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN111538767A (zh) 数据处理方法、装置、设备及存储介质
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Li et al. Comparison of INDEL calling tools with simulation data and real short-read data
CN116564406A (zh) 一种遗传变异自动化解读方法及设备
Sater et al. UMI-Gen: A UMI-based read simulator for variant calling evaluation in paired-end sequencing NGS libraries
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN113327646B (zh) 测序序列的处理方法及装置、存储介质、电子设备
CA2395055A1 (en) Exson-intron junction determining device, genetic region determining device, and determining method for them
CN114175170A (zh) 使用ngs数据预测基因型的方法及装置
CN117746989B (zh) 变异描述信息的处理方法、装置及电子设备
CN117577182B (zh) 一种快速识别药物标识位点的系统及其应用
CN117935933B (zh) Cdkn2a/b纯合性缺失的分析方法及系统
CN117577178B (zh) 一种结构变异精确断裂信息的检测方法、系统及其应用
Kong et al. Median-Joining Networks and Bayesian Phylogenies Often Do Not Tell the Same Story
Behera Suffix Tree, Minwise Hashing and Streaming Algorithms for Big Data Analysis in Bioinformatics
Altinkaya et al. vcfgl: A flexible genotype likelihood simulator for VCF/BCF files
Hesse Check Chapter 4 updates for
Irisarri et al. Automated Removal of Non-homologous Sequence Stretches with PREQUAL
이정환 ASSESSMENT PROGRAM FOR SYSTEMATIC ERROR CAUSING PHYLOGENETIC INCONGRUENCE OF GENE MARKERS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant