CN111276189B - 基于ngs的染色体平衡易位检测分析系统及应用 - Google Patents

基于ngs的染色体平衡易位检测分析系统及应用 Download PDF

Info

Publication number
CN111276189B
CN111276189B CN202010121027.1A CN202010121027A CN111276189B CN 111276189 B CN111276189 B CN 111276189B CN 202010121027 A CN202010121027 A CN 202010121027A CN 111276189 B CN111276189 B CN 111276189B
Authority
CN
China
Prior art keywords
reads
chromosome
subsequence
analysis
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010121027.1A
Other languages
English (en)
Other versions
CN111276189A (zh
Inventor
蒙裕欢
陈美君
严慧
孟博
于世辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jinyu Translational Medical Research Institute Co ltd
Original Assignee
Guangzhou Jinyu Translational Medical Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jinyu Translational Medical Research Institute Co ltd filed Critical Guangzhou Jinyu Translational Medical Research Institute Co ltd
Priority to CN202010121027.1A priority Critical patent/CN111276189B/zh
Publication of CN111276189A publication Critical patent/CN111276189A/zh
Application granted granted Critical
Publication of CN111276189B publication Critical patent/CN111276189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于NGS的染色体平衡易位检测分析系统及应用,属于基因检测生物信息技术领域。该检测分析系统包括数据获取模块、基因组比对模块、滑动切割模块、短序列比对模块、断点分析模块和结果输出模块。首先将未能两端同时比对到人类参考基因组的reads筛选出来,并通过滑动切割成连续性的较短的子序列,再将子序列重新比对到人类参考基因组,使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组,又通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法,能够快速筛选出两端分别比对不同染色体的reads,并准确定位平衡易位断点,为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT、PGS、PGD及一般的NGS测序结果等。

Description

基于NGS的染色体平衡易位检测分析系统及应用
技术领域
本发明涉及基因检测生物信息技术领域,特别是涉及一种基于NGS的染色体平衡易位检测分析系统及应用。
背景技术
染色体平衡易位指的是两条染色体各发生一处断裂并相互交换其无着丝粒片断,形成两条新的衍生染色体称为相互易位。它包括同源和非同源染色体之间的相互易位。相互易位虽然引起染色体片段位置的改变,但仍保留了基因的总数,故称为平衡易位。平衡易位携带者在习惯性流产夫妇中的检出率比一般群体约高10倍。染色体平衡易位患者怀孕的流产率很高,或者说怀孕率很低,解决这个问题的办法就是做第三代试管婴儿,即PGD技术,可以对胚胎的染色体进行筛选,挑选健康的胚胎移植。因此对产前或者胚胎植入前的染色体平衡易位的筛查有助于优生优育。
目前传统的对染色体平衡易位的检测分析方法有染色体核型分析和FISH(荧光原位杂交技术),染色体核型分析能够找出分辨率5-10MB的染色体平衡易位在内的重排异常,FISH能够找出分辨率为100KB的染色体平衡易位。但是由于这两种技术都涉及到细胞的培养,需要的时间较长。
另外,随着二代测序(NGS)的发展,基于NGS检测染色体平衡易位也逐渐被开发。目前基于NGS检测染色体平衡易位的方法主要有:(1)通过检测结构性变异(SV:structuralvariants)的方法筛查潜在的平衡易位,再通过染色体可视化,比如IGV等进行观察确定。但该方法具有需要后续的人工观察,不能批量处理的缺陷。(2)基于大片段文库的pair-end的两条成对的reads分别比对到不同染色体的方法。但该方法中文库构建需要定制,无法精确判断断点;此外需要较深的测序深度,增加成本。(3)基于寻找junction fragments或者soft trimmed,soft clipped的方法进行筛选,但由于没有后续的算法支持,后续分析需要人工进行,不能批量处理,大大增加了时间。(4)基于CNV的方法,但是由于基于NGS检测CNV存在假阳性过高的问题。
上述传统方法均具有流程复杂、精度低,或部分不能批量处理,还需要人工进行校对,用时过多等不足。而采用NGS检测的分析,又由于基因组重复区域过多,致使NGS比对的复杂性提高而导致假阳率较高。
发明内容
基于此,有必要针对上述问题,提供一种基于NGS的染色体平衡易位检测分析系统,采用该检测分析系统,能够利用自动化的分析系统,对NGS检测数据进行快速、准确的分析,提高检测分析精确性和速度。
一种基于NGS的染色体平衡易位检测分析系统,包括:
数据获取模块:用于获取NGS检测得到的reads数据;
基因组比对模块:用于将上述reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;
滑动切割模块:用于将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;
短序列比对模块:用于将上述第二reads集中各子序列分别与人类参考基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,确定子序列比对到基因组染色体的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列在染色体的最佳比对区域,得到两端分别比对到人类参考基因组不同染色体的第三reads集;
断点分析模块:用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点;
结果输出模块:用于输出显示所述断点分析模块得到的结果。
上述检测分析系统中,首先使用比对软件将未能两端同时比对到人类参考基因组的reads筛选出来,如可采用bowtie2的end-to-end模式等。并通过滑动切割,切割成如30bp大小左右连续性的较短的子序列,再通过bowtie1等软件程序将子序列重新比对到人类参考基因组,使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组,又考虑到由于序列较短,可能产生错配的问题,再以染色体为单位,通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法,快速筛选出两端分别比对不同染色体的reads,并准确定位平衡易位断点,为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT(无创产前检测)、PGS(植入前基因筛查)、PGD(植入前基因诊断)及一般的NGS测序结果等。
可以理解的,上述滑动切割模块中,所述等差数列标记编号选用公差为1的等差数列编号,即1,2,3,4…k-1,k,k+1…n。
在其中一个实施例中,所述基因组比对模块中,以end-to-end模式进行数据比对。
在其中一个实施例中,所述短序列比对模块中,获取可比对到人类参考基因组的子序列编号,按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序,以染色体为单位,通过相关性及聚类分析结果,得到两端分别比对到人类参考基因组不同染色体的reads。
在其中一个实施例中,所述短序列比对模块中,所述聚类分析为:根据某一reads子序列比对到人类参考基因组上的起始位置数据,以染色体为单位,按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后,相邻两起始位置之间最大差值≤5进行聚类分析。优选的,上述最大差值≤3。更优选的,上述最大差值为1,即进行严格匹配。上述最大差值为大于0的自然数。
可以理解的,在人类基因组中存在SNP(单核苷酸多态性)、碱基插入、缺失等现象,实际样本检测得到的数据可能存在无法严格匹配至人类参考基因组的情况,因此在聚类分析时,将子序列比对到人类参考基因组后的位置要求适当放宽,可避免由于SNP、碱基插入、缺失等现象导致无法严格匹配的问题。
在其中一个实施例中,短序列比对模块中,将聚类分析后得到的每个聚类的簇,与其对应子序列的编号进行相关性和协方差分析,筛选相关性为1或者-1的聚类的簇,并对相关性和协方差值的绝对值和进行加权计算,根据最大加权值找出该read对应于人类基因组染色体的最佳比对位置。
可以理解的,相关性最大为1,表示比对上的基因组位置和对应的子序列编号一一对应,即正向完美比对;最小为-1,表示比对上的基因组位置和对应的子序列编号反向一一对应,即反向完美比对;只有1和-1才进入筛选范围。协方差是衡量比对数目的参数,比对上的reads越多,协方差的绝对值值越大。通过加权相关性和协方差,最大的绝对值则为子序列比对到染色体的最有可能位置。
在其中一个实施例中,短序列比对模块中,当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域,且上述子序列中具有位于reads末端的子序列,则认为该reads一端匹配该染色体。上述有位于reads末端的子序列指对应编号为1的起始子序列,或者对应编号最大的末端子序列,通过上述限定,可明确read两端的严格匹配。
在其中一个实施例中,所述滑动切割模块中,切割窗口长度为20-50bp,优选25-35bp,更优选30bp。
在其中一个实施例中,所述断点分析模块中,根据第三reads集中各reads的比对位置,以reads比对上某染色体序列的末端子序列起始位置,加上滑动切割窗口长度,即为染色体平衡易位断点。
本发明还公开了一种非诊断治疗目的的基于NGS的染色体平衡易位检测分析方法,包括以下步骤:
基因组比对:将NGS检测得到的reads数据中各reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;
滑动切割:将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;
短序列比对:将上述第二reads集中各子序列分别与人类参考基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,确定子序列比对到基因组染色体的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列在染色体的最佳比对区域,得到两端分别比对到人类参考基因组不同染色体的第三reads集;
断点分析:分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点。
本发明还公开了一种NGS数据分析装置,包括上述的基于NGS的染色体平衡易位检测分析系统。
在其中一个实施例中,所述NGS数据分析装置为无创产前检测装置、植入前基因筛查装置或植入前基因诊断装置。
与现有技术相比,本发明具有以下有益效果:
本发明的一种基于NGS的染色体平衡易位检测分析系统,使用比对软件将未能两端同时比对到人类参考基因组的reads筛选出来,并通过滑动切割成连续性的较短的子序列,再将子序列重新比对到人类参考基因组,使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组,又考虑到由于序列较短,可能产生错配的问题,再以染色体为单位,通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法,快速筛选出两端分别比对不同染色体的reads,并准确定位平衡易位断点,为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT(无创产前检测)、PGS(植入前基因筛查)、PGD(植入前基因诊断)及一般的NGS测序结果等。该检测分析系统的分析精确性高,断点误差6bp以内,且具有分析快速的优势,如以NIPT检测数据输入,约在10min内即可完成整个分析过程;即便是如全基因组检测数据,假定有1%的序列无法比对至测序深度为10X的人类基因组reads,也仅需1小时左右,即可完成整个分析过程。
本发明的一种非诊断治疗目的的基于NGS的染色体平衡易位检测分析方法,通过滑动切割短序列后进行比对,能够快速筛选出两端分别比对不同染色体的reads,并准确定位平衡易位断点。该方法具有步骤简单,分析精确性高,断点误差6bp以内,且具有分析快速的优势。
本发明的一种NGS数据分析装置,可利用NGS数据,针对染色体平衡易位进行分析,适用范围广泛,可用于NIPT(无创产前检测)、PGS(植入前基因筛查)、PGD(植入前基因诊断)及一般的NGS测序结果等。
附图说明
图1为实施例中染色体平衡易位检测分析方法的技术路线图。
图2为染色体发生平衡易位示意图;
其中:A表示成对的染色体,B表示染色体之间发生了易位,C表示发生移位后测序得到reads存在3种情况。
图3为滑动切割后子序列与基因组比对示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
一种基于NGS的染色体平衡易位检测分析方法,按照以下步骤进行,其技术路线如图1所示。
一、数据获取。
获取NGS检测得到的reads数据,为确保用于比对的fastq序列符合质量要求,使用fastq数据质控过滤软件,以fastp软件对得到测序结果数据的fastq文件进行过滤。
二、基因组比对。
图2为染色体发生平衡易位示意图;其中:A表示成对的染色体,B表示染色体之间发生了易位,C表示发生移位后测序得到reads存在3种情况。
(1)成对的reads可完整比对至人类基因组的染色体chr M或chr N。
(2)成对的reads一条可以完整比对到人类基因组的染色体chr M,另一条可以完整比对到人类基因组的染色体chr N。
(3)成对的reads一条可以完整比对到人类基因组染色体chr M或chr N,而另一条刚好落在染色体易位断点位置上,一端比对到染色体chr M,另一端比对到染色体chr N。
基因组比对步骤用于将各reads分别与人类参考基因组进行比对,按照如下方法进行:
使用生信分析软件bowtie2的end-to-end模式将经上述质控过的fastq文件比对到人类基因组上,得到比对上及未比对的reads信息。
可以理解的,也可采用其它分析比对软件,但考虑到后续需要使用bowte1进行再比对,而最新版的bowtie(v 1.2.3)和bowte2可共用建库文件,因此建议使用bowtie2进行第一步的比对,以减少重复建库的时间。
经验证,由于end-to-end模式是reads的两端能够同时比对到基因组上且符合罚分要求才会比对成功,使用bowtie2的end-to-end的比对模式,同时包含了人类参考基因组中不同染色体序列的reads将不会比对到人类基因组上。
此步骤是为了找出潜在的存在染色体平衡易位的reads,且为精确定位做好准备。
经过上述比对后,得到无法匹配人类参考基因组的第一reads集。
三、滑动切割。
如图3所示,如某条reads是发生了染色体平衡易位的reads,即无法匹配人类参考基因组的reads,理论上这条reads的一边能够匹配到人类基因组的一条染色体,而另一边能够匹配到人类基因组的另一条染色体,使用长度为30bp的窗口进行滑动切割,得到某条reads的若干长度为30bp的子序列,为后续的比对做准备。
可以理解的,上述窗口长度20bp到50bp都可以,但太短不足以做基因组比对,太长容易错过剪切点,优选25bp-35bp,更优选30bp。
据此,使用长度为30bp的窗口进行滑动切割,得到某条reads的若干长度为30bp的连续性的子序列,并使用等差数列标记编号,得到第二reads集。
如,将第一reads集中某reads(ID:D00781:39:C9Y2TANXX:1:1102:16800:2511),其序列为:
TGGGTGTGTAGAAGCTGCTGAAAGGTTGGGAGCTTGGCTTGGGGGGTCCACAGTGAGGTAGAAGCTGGGCGTAAAAGGCTTTGGGATTTTTAAGCTGTCCTTACCCCCACCGCTGTTTTTTT,按照上述方法30bp滑动切割后,该reads滑动切割后的子序列如下所示,编号末位按照等差数列排序。
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.1
TGGGTGTGTAGAAGCTGCTGAAAGGTTGGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.2
GGGTGTGTAGAAGCTGCTGAAAGGTTGGGA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.3
GGTGTGTAGAAGCTGCTGAAAGGTTGGGAG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.4
GTGTGTAGAAGCTGCTGAAAGGTTGGGAGC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.5
TGTGTAGAAGCTGCTGAAAGGTTGGGAGCT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.6
GTGTAGAAGCTGCTGAAAGGTTGGGAGCTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.7
TGTAGAAGCTGCTGAAAGGTTGGGAGCTTG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.8
GTAGAAGCTGCTGAAAGGTTGGGAGCTTGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.9
TAGAAGCTGCTGAAAGGTTGGGAGCTTGGC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.10
AGAAGCTGCTGAAAGGTTGGGAGCTTGGCT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.11
GAAGCTGCTGAAAGGTTGGGAGCTTGGCTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.12
AAGCTGCTGAAAGGTTGGGAGCTTGGCTTG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.13
AGCTGCTGAAAGGTTGGGAGCTTGGCTTGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.14
GCTGCTGAAAGGTTGGGAGCTTGGCTTGGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.15
CTGCTGAAAGGTTGGGAGCTTGGCTTGGGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.16
TGCTGAAAGGTTGGGAGCTTGGCTTGGGGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.17
GCTGAAAGGTTGGGAGCTTGGCTTGGGGGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.18
CTGAAAGGTTGGGAGCTTGGCTTGGGGGGT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.19
TGAAAGGTTGGGAGCTTGGCTTGGGGGGTC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.20
GAAAGGTTGGGAGCTTGGCTTGGGGGGTCC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.21
AAAGGTTGGGAGCTTGGCTTGGGGGGTCCA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.22
AAGGTTGGGAGCTTGGCTTGGGGGGTCCAC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.23
AGGTTGGGAGCTTGGCTTGGGGGGTCCACA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.24
GGTTGGGAGCTTGGCTTGGGGGGTCCACAG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.25
GTTGGGAGCTTGGCTTGGGGGGTCCACAGT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.26
TTGGGAGCTTGGCTTGGGGGGTCCACAGTG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.27
TGGGAGCTTGGCTTGGGGGGTCCACAGTGA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.28
GGGAGCTTGGCTTGGGGGGTCCACAGTGAG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.29
GGAGCTTGGCTTGGGGGGTCCACAGTGAGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.30
GAGCTTGGCTTGGGGGGTCCACAGTGAGGT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.31
AGCTTGGCTTGGGGGGTCCACAGTGAGGTA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.32
GCTTGGCTTGGGGGGTCCACAGTGAGGTAG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.33
CTTGGCTTGGGGGGTCCACAGTGAGGTAGA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.34
TTGGCTTGGGGGGTCCACAGTGAGGTAGAA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.35
TGGCTTGGGGGGTCCACAGTGAGGTAGAAG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.36
GGCTTGGGGGGTCCACAGTGAGGTAGAAGC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.37
GCTTGGGGGGTCCACAGTGAGGTAGAAGCT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.38
CTTGGGGGGTCCACAGTGAGGTAGAAGCTG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.39
TTGGGGGGTCCACAGTGAGGTAGAAGCTGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.40
TGGGGGGTCCACAGTGAGGTAGAAGCTGGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.41
GGGGGGTCCACAGTGAGGTAGAAGCTGGGC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.42
GGGGGTCCACAGTGAGGTAGAAGCTGGGCG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.43
GGGGTCCACAGTGAGGTAGAAGCTGGGCGT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.44
GGGTCCACAGTGAGGTAGAAGCTGGGCGTA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.45
GGTCCACAGTGAGGTAGAAGCTGGGCGTAA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.46
GTCCACAGTGAGGTAGAAGCTGGGCGTAAA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.47
TCCACAGTGAGGTAGAAGCTGGGCGTAAAA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.48
CCACAGTGAGGTAGAAGCTGGGCGTAAAAG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.49
CACAGTGAGGTAGAAGCTGGGCGTAAAAGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.50
ACAGTGAGGTAGAAGCTGGGCGTAAAAGGC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.51
CAGTGAGGTAGAAGCTGGGCGTAAAAGGCT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.52
AGTGAGGTAGAAGCTGGGCGTAAAAGGCTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.53
GTGAGGTAGAAGCTGGGCGTAAAAGGCTTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.54
TGAGGTAGAAGCTGGGCGTAAAAGGCTTTG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.55
GAGGTAGAAGCTGGGCGTAAAAGGCTTTGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.56
AGGTAGAAGCTGGGCGTAAAAGGCTTTGGG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.57
GGTAGAAGCTGGGCGTAAAAGGCTTTGGGA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.58
GTAGAAGCTGGGCGTAAAAGGCTTTGGGAT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.59
TAGAAGCTGGGCGTAAAAGGCTTTGGGATT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.60
AGAAGCTGGGCGTAAAAGGCTTTGGGATTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.61
GAAGCTGGGCGTAAAAGGCTTTGGGATTTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.62
AAGCTGGGCGTAAAAGGCTTTGGGATTTTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.63
AGCTGGGCGTAAAAGGCTTTGGGATTTTTA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.64
GCTGGGCGTAAAAGGCTTTGGGATTTTTAA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.65
CTGGGCGTAAAAGGCTTTGGGATTTTTAAG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.66
TGGGCGTAAAAGGCTTTGGGATTTTTAAGC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.67
GGGCGTAAAAGGCTTTGGGATTTTTAAGCT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.68
GGCGTAAAAGGCTTTGGGATTTTTAAGCTG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.69
GCGTAAAAGGCTTTGGGATTTTTAAGCTGT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.70
CGTAAAAGGCTTTGGGATTTTTAAGCTGTC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.71
GTAAAAGGCTTTGGGATTTTTAAGCTGTCC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.72
TAAAAGGCTTTGGGATTTTTAAGCTGTCCT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.73
AAAAGGCTTTGGGATTTTTAAGCTGTCCTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.74
AAAGGCTTTGGGATTTTTAAGCTGTCCTTA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.75
AAGGCTTTGGGATTTTTAAGCTGTCCTTAC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.76
AGGCTTTGGGATTTTTAAGCTGTCCTTACC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.77
GGCTTTGGGATTTTTAAGCTGTCCTTACCC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.78
GCTTTGGGATTTTTAAGCTGTCCTTACCCC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.79
CTTTGGGATTTTTAAGCTGTCCTTACCCCC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.80
TTTGGGATTTTTAAGCTGTCCTTACCCCCA
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.81
TTGGGATTTTTAAGCTGTCCTTACCCCCAC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.82
TGGGATTTTTAAGCTGTCCTTACCCCCACC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.83
GGGATTTTTAAGCTGTCCTTACCCCCACCG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.84
GGATTTTTAAGCTGTCCTTACCCCCACCGC
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.85
GATTTTTAAGCTGTCCTTACCCCCACCGCT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.86
ATTTTTAAGCTGTCCTTACCCCCACCGCTG
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.87
TTTTTAAGCTGTCCTTACCCCCACCGCTGT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.88
TTTTAAGCTGTCCTTACCCCCACCGCTGTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.89
TTTAAGCTGTCCTTACCCCCACCGCTGTTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.90
TTAAGCTGTCCTTACCCCCACCGCTGTTTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.91
TAAGCTGTCCTTACCCCCACCGCTGTTTTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.92
AAGCTGTCCTTACCCCCACCGCTGTTTTTT
编号:D00781:39:C9Y2TANXX:1:1102:16800:2511.93
AGCTGTCCTTACCCCCACCGCTGTTTTTTT
采用上述滑动切割得到子序列后进行比对,由于滑动切割后的子序列长度更短,其比对能够更加精准地判断发生染色体平衡易位的位点。
四、短序列比对。
1、将子序列比对到人类参考基因组。
将上述滑动切割后的30bp的子序列组成的第二reads集中各子序列分别与人类参考基因组进行比对,具体选用bowtie1进行对比。
可以理解的,也可选取其它同类数据比对软件,但bowtie1对小于50bp序列的比对有着很好灵敏度和特异性,而且速度也较快。更重要的是,bowtie1可以直接用bowtie2的库,大大省略了建库时间。
理论上,子序列比对到基因组的位置与其编号是一一对应的,如某reads的左端有部分子序列比对上chr M,而右端有部分子序列比对上chr N,中间有着一段未比对上的间隙(gas),如图3所示。
2、比对结果的处理。
处理比对结果,需要提前安装好perl的Statistics::Basic模块,以计算相关性和协方差等重要数据处理。
为了找出完美的比对,对每条reasds的子序列分别进行处理,以某条reads的子序列比对好的基因组起始位置,按照从小到大排序后,以染色体为单位,以相邻两起始位置之间最大差值≤5进行聚类分析,本实施例中最大差值选为1进行等差数列聚类,即进行严格匹配的比对,并将每个聚类的簇与其对应子序列的编号进行相关性和协方差分析,筛选相关性为1或者-1的聚类的簇,并对相关性和协方差值的绝对值之和进行加权计算,根据最大加权值找出每个read对应于染色体的最佳比对位置。
需注意的是,当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域,且上述子序列中具有位于reads末端的子序列,则认为该reads一端匹配该染色体。
按照上述方法,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,确定子序列比对到基因组染色体的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列在染色体的最佳比对区域,得到两端分别比对到人类参考基因组不同染色体的第三reads集;
例如,上述数据经聚类、相关性、协方差与加权后,得到中间结果如下:
上述reads ID为D00781:39:C9Y2TANXX:1:1102:16800:2511的序列,其左、右两端分别有47和25条子序列分别比上了chr1和chr4染色体。
比对上chr1的左端中,通过聚类与排序,比对上的子序列对应的人类参考基因组起始位置为139251-139297。
所对应的子序列编号为1-47。1号为reads的一端,即具有位于reads末端的子序列。
上述比对上chr1的子序列的相关性为1,协方差为184,加权值=协方差值+相关性值,即185。
比对上chr4的右端中,通过聚类与排序,比对上的子序列对应的人类参考基因组起始位置为100597-100621。
所对应的子序列编号为69-93。93号为reads的一端,即具有位于reads末端的子序列。
上述比对上chr4的子序列的相关性为1,协方差为52,加权值=协方差值+相关性值,即53。
即上述reads ID为D00781:39:C9Y2TANXX:1:1102:16800:2511的reads,子序列编号为1-47的一端可匹配chr1,子序列编号为57-81的一端可匹配chr4。
五、断点分析。
分析上述第三reads集中分别比对到人类参考基因组的不同染色体子序列的起始位置数据,计算得到平衡易位断点,具体方法如下:
根据上述第三reads集中染色体平衡易位候选reads分别比对到人类参考基因组的不同染色体子序列的起始位置数据,通过序列的长度及位置得到平衡易位的具体断点信息,如以reads比对上某染色体序列的末端子序列起始位置,加上滑动切割窗口长度,即为染色体平衡易位断点。
本实施例中由于bowtie1使用比对30bp最多有3bp的错配,因此平衡易位断点误差可控制在6bp内。
六、结果报告。
将上述分析得到的结果输出报告。
如上述reads ID为D00781:39:C9Y2TANXX:1:1102:16800:2511的reads,报告为:
reads ID:D00781:39:C9Y2TANXX:1:1102:16800:2511
reads序列:TGGGTGTG TAGAAGCTGCTGAAAGGTTGGGAGCTTGGCTTGGGGGGTCCACAGTGAGGTAGAAGCTGGGCGTAAAAGGCTTTGGGATTTTTAAGCTGTCCTTACCCCCACCGCTGTTTTTTT。
该reads左端比对到chr1的序列:TGGGTGTGTAGAAGCTGCTGAAAGGTTGGGAGCTTGGCTTGGGGGGTCCACAGTGAGGTAGAAGCTGGGCGTAAAA,比对上的子序列对应的人类参考基因组起始位置为139251-139297,对应的reads的等差数列编号:1-47。
该reads右端比对到chr4的序列GCGTAAAAGGCTTTGGGATTTTTAAGCTGTCCTTACCCCCACCGCTGTTTTTTT,比对上的子序列对应的人类参考基因组起始位置为100597:100621,对应的reads的等差数列编号:69-93。
平衡易位断点为:chr1:139326,chr4:100597
实施例2
一种基于NGS的染色体平衡易位检测分析系统,包括:数据获取模块、基因组比对模块、滑动切割模块、短序列比对模块、断点分析模块和结果输出模块。
数据获取模块用于获取NGS检测得到的reads数据;
基因组比对模块用于将上述reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;
滑动切割模块用于将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;
短序列比对模块用于将上述第二reads集中各子序列分别与人类参考基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,确定子序列比对到基因组染色体的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列在染色体的最佳比对区域,得到两端分别比对到人类参考基因组不同染色体的第三reads集;
断点分析模块用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点;
结果输出模块用于输出显示所述断点分析模块得到的结果。
上述各模块按照实施例1中的分析方法,执行分析命令和操作。
实施例3
利用实施例2的基于NGS的染色体平衡易位检测分析系统,对两例样本数据进行分析,获取NGS检测得到的reads数据后,进行基因组比对、滑动切割、短序列比对后,得到下述两端分别比对到人类参考基因组不同染色体的第三reads集。
表1.两例样本分析得到第三reads集
Figure BDA0002392980650000131
对上述reads进行分析计算,得到染色体平衡易位结果如下。
表2.染色体平衡易位情况
Figure BDA0002392980650000132
Figure BDA0002392980650000141
注:上述匹配染色体位置结果表格中,末位的1或-1表示相关性分析结果,均为1或-1。
上述样本同时以全基因组筛查及Sanger测序等方法进行染色体平衡易位检测,与本发明实施例2染色体平衡易位检测分析系统得到的结果进行对比,结果如下表所示。
表3.染色体平衡易位分析结果验证
Figure BDA0002392980650000142
注:上表中“真实断点”指以上述Sanger测序验证的方法得到染色体平衡易位断点,分析结果1-3指表2中分析得到的断点。
上述结果表明,本发明的染色体平衡易位检测分析系统和方法,分析结果可靠,可用于精准寻找平衡易位断点,并提供了进行探针引物设计验证的序列。
并且,上述分析过程中,除去bowtie1和bowtie2的比对时间,其余步骤的分析共耗时不超过1秒,具有分析速度快,占用资源少的优势,可用于批量数据分析。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于NGS的染色体平衡易位检测分析系统,其特征在于,包括:
数据获取模块:用于获取NGS检测得到的reads数据;
基因组比对模块:用于将上述reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;
滑动切割模块:用于将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;
短序列比对模块:用于将上述第二reads集中各子序列分别与人类参考基因组进行比对,获取可比对到人类参考基因组的子序列编号,按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,所述聚类分析为:根据某一reads子序列比对到人类参考基因组上的起始位置数据,以染色体为单位,按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后,相邻两起始位置之间最大差值≤5进行聚类分析;将聚类分析后得到的每个聚类的簇,与其对应子序列的编号进行相关性和协方差分析,筛选相关性为1或者-1的聚类的簇,并对相关性和协方差值的绝对值和进行加权计算,根据最大加权值找出该read对应于人类基因组染色体的最佳比对位置;当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域,且上述子序列中具有位于reads末端的子序列,则认为该reads一端匹配该染色体;得到两端分别比对到人类参考基因组不同染色体的第三reads集;
断点分析模块:用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点;
结果输出模块:用于输出显示所述断点分析模块得到的结果。
2.根据权利要求1所述的基于NGS的染色体平衡易位检测分析系统,其特征在于,所述滑动切割模块中,切割窗口长度为20-50bp。
3.根据权利要求1所述的基于NGS的染色体平衡易位检测分析系统,其特征在于,所述断点分析模块中,根据第三reads集中各reads的比对位置,以reads比对上某染色体序列的末端子序列起始位置,加上滑动切割窗口长度,即为染色体平衡易位断点。
4.一种非诊断治疗目的的基于NGS的染色体平衡易位检测分析方法,其特征在于,包括以下步骤:
基因组比对:将NGS检测得到的reads数据中各reads分别与人类参考基因组进行比对,得到无法匹配人类参考基因组的第一reads集;
滑动切割:将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;
短序列比对:将上述第二reads集中各子序列分别与人类参考基因组进行比对,获取可比对到人类参考基因组的子序列编号,按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序,得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据;以染色体为单位,根据上述起始位置数据进行聚类分析,所述聚类分析为:根据某一reads子序列比对到人类参考基因组上的起始位置数据,以染色体为单位,按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后,相邻两起始位置之间最大差值≤5进行聚类分析;将聚类分析后得到的每个聚类的簇,与其对应子序列的编号进行相关性和协方差分析,筛选相关性为1或者-1的聚类的簇,并对相关性和协方差值的绝对值和进行加权计算,根据最大加权值找出该read对应于人类基因组染色体的最佳比对位置;当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域,且上述子序列中具有位于reads末端的子序列,则认为该reads一端匹配该染色体;得到两端分别比对到人类参考基因组不同染色体的第三reads集;
断点分析:分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据,计算得到平衡易位断点。
5.一种NGS数据分析装置,其特征在于,包括权利要求1-3任一项所述的基于NGS的染色体平衡易位检测分析系统。
6.根据权利要求5所述的NGS数据分析装置,其特征在于,所述NGS数据分析装置为无创产前检测装置、植入前基因筛查装置或植入前基因诊断装置。
CN202010121027.1A 2020-02-26 2020-02-26 基于ngs的染色体平衡易位检测分析系统及应用 Active CN111276189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010121027.1A CN111276189B (zh) 2020-02-26 2020-02-26 基于ngs的染色体平衡易位检测分析系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010121027.1A CN111276189B (zh) 2020-02-26 2020-02-26 基于ngs的染色体平衡易位检测分析系统及应用

Publications (2)

Publication Number Publication Date
CN111276189A CN111276189A (zh) 2020-06-12
CN111276189B true CN111276189B (zh) 2020-12-29

Family

ID=71002342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010121027.1A Active CN111276189B (zh) 2020-02-26 2020-02-26 基于ngs的染色体平衡易位检测分析系统及应用

Country Status (1)

Country Link
CN (1) CN111276189B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634988B (zh) * 2021-01-07 2021-10-08 内江师范学院 基于Python语言的基因变异检测方法及系统
CN116434837B (zh) * 2023-06-12 2023-08-29 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105555970A (zh) * 2013-09-30 2016-05-04 深圳华大基因股份有限公司 同时进行单体型分析和染色体非整倍性检测的方法和系统
CN105543339A (zh) * 2015-11-18 2016-05-04 上海序康医疗科技有限公司 一种同时完成基因位点、染色体及连锁分析的方法
CN105631242A (zh) * 2015-12-25 2016-06-01 中国农业大学 一种利用全基因组测序数据鉴定转基因事件的方法
CN106834490A (zh) * 2017-03-02 2017-06-13 上海亿康医学检验所有限公司 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
CN107058465A (zh) * 2016-10-14 2017-08-18 南方科技大学 一种利用单倍体测序技术检测染色体平衡易位的方法
CN109280702A (zh) * 2017-07-21 2019-01-29 深圳华大基因研究院 确定个体染色体结构异常的方法和系统
CN110033829A (zh) * 2019-04-11 2019-07-19 北京诺禾心康基因科技有限公司 基于差异snp标记物的同源基因的融合检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650310B (zh) * 2017-01-09 2019-01-29 上海集爱遗传与不育诊疗中心 一种鉴别染色体平衡易位携带胚胎和正常胚胎的方法
CN109321641B (zh) * 2018-11-06 2019-09-13 苏州首度基因科技有限责任公司 一种基于dna片段富集及测序技术的产前无创胎儿染色体检测系统
CN110246543B (zh) * 2019-06-21 2021-02-26 元码基因科技(北京)股份有限公司 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105555970A (zh) * 2013-09-30 2016-05-04 深圳华大基因股份有限公司 同时进行单体型分析和染色体非整倍性检测的方法和系统
CN105543339A (zh) * 2015-11-18 2016-05-04 上海序康医疗科技有限公司 一种同时完成基因位点、染色体及连锁分析的方法
CN105631242A (zh) * 2015-12-25 2016-06-01 中国农业大学 一种利用全基因组测序数据鉴定转基因事件的方法
CN107058465A (zh) * 2016-10-14 2017-08-18 南方科技大学 一种利用单倍体测序技术检测染色体平衡易位的方法
CN106834490A (zh) * 2017-03-02 2017-06-13 上海亿康医学检验所有限公司 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
CN109280702A (zh) * 2017-07-21 2019-01-29 深圳华大基因研究院 确定个体染色体结构异常的方法和系统
CN110033829A (zh) * 2019-04-11 2019-07-19 北京诺禾心康基因科技有限公司 基于差异snp标记物的同源基因的融合检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
体细胞基因突变高通量测序检测生物信息学分析参考物质的研究;李子阳;《中国博士学位论文全文数据库 基础科学辑》;20200215(第2期);A006-81 *
宫颈癌组织基因组中HPV病毒整合热点检测及相关基因功能分析;戴荣华;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20191215(第12期);E068-74 *

Also Published As

Publication number Publication date
CN111276189A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN109767810B (zh) 高通量测序数据分析方法及装置
CN107849612B (zh) 比对和变体测序分析管线
CN105441432B (zh) 组合物及其在序列测定和变异检测中的用途
CN114999573B (zh) 一种基因组变异检测方法及检测系统
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN103946396B (zh) 用于下一代测序的序列重组方法及装置
CN115029451A (zh) 一种绵羊液相芯片及其应用
CN111276189B (zh) 基于ngs的染色体平衡易位检测分析系统及应用
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN111210874A (zh) 一种基于基因大数据进行祖源分析预测的算法
CN108137642A (zh) 分子质量保证方法在测序中的应用
CN113278712A (zh) 分析绵羊毛色的基因芯片、分子探针组合、试剂盒及应用
CN112669903A (zh) 基于Sanger测序的HLA分型方法及设备
CN113564266B (zh) Snp分型遗传标记组合、检测试剂盒及用途
CN110444253B (zh) 一种适用于混池基因定位的方法及系统
CN116434843A (zh) 一种碱基测序质量评估方法
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
KR20140099189A (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
CN117409857A (zh) 一种GT-Seq分型SNP的数据处理方法
CN115961054B (zh) 用于华南虎个体识别和/或亲子鉴定的遗传标记及应用
CN113293220B (zh) 分析绵羊耳部大小的基因芯片、分子探针组合、试剂盒及应用
CN115331812A (zh) 一种浆液性卵巢癌预后标志物模型的建立和验证方法
CN104573409B (zh) 基因定位的多重检验方法
CN109979534B (zh) 一种c位点提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant