CN111276189B

CN111276189B - 基于ngs的染色体平衡易位检测分析系统及应用

Info

Publication number: CN111276189B
Application number: CN202010121027.1A
Authority: CN
Inventors: 蒙裕欢; 陈美君; 严慧; 孟博; 于世辉
Original assignee: Guangzhou Jinyu Translational Medical Research Institute Co ltd
Current assignee: Guangzhou Jinyu Translational Medical Research Institute Co ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-12-29
Anticipated expiration: 2040-02-26
Also published as: CN111276189A

Abstract

本发明涉及一种基于NGS的染色体平衡易位检测分析系统及应用，属于基因检测生物信息技术领域。该检测分析系统包括数据获取模块、基因组比对模块、滑动切割模块、短序列比对模块、断点分析模块和结果输出模块。首先将未能两端同时比对到人类参考基因组的reads筛选出来，并通过滑动切割成连续性的较短的子序列，再将子序列重新比对到人类参考基因组，使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组，又通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法，能够快速筛选出两端分别比对不同染色体的reads，并准确定位平衡易位断点，为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT、PGS、PGD及一般的NGS测序结果等。

Description

基于NGS的染色体平衡易位检测分析系统及应用

技术领域

本发明涉及基因检测生物信息技术领域，特别是涉及一种基于NGS的染色体平衡易位检测分析系统及应用。

背景技术

染色体平衡易位指的是两条染色体各发生一处断裂并相互交换其无着丝粒片断，形成两条新的衍生染色体称为相互易位。它包括同源和非同源染色体之间的相互易位。相互易位虽然引起染色体片段位置的改变，但仍保留了基因的总数，故称为平衡易位。平衡易位携带者在习惯性流产夫妇中的检出率比一般群体约高10倍。染色体平衡易位患者怀孕的流产率很高，或者说怀孕率很低，解决这个问题的办法就是做第三代试管婴儿，即PGD技术，可以对胚胎的染色体进行筛选，挑选健康的胚胎移植。因此对产前或者胚胎植入前的染色体平衡易位的筛查有助于优生优育。

目前传统的对染色体平衡易位的检测分析方法有染色体核型分析和FISH(荧光原位杂交技术)，染色体核型分析能够找出分辨率5-10MB的染色体平衡易位在内的重排异常，FISH能够找出分辨率为100KB的染色体平衡易位。但是由于这两种技术都涉及到细胞的培养，需要的时间较长。

另外，随着二代测序(NGS)的发展，基于NGS检测染色体平衡易位也逐渐被开发。目前基于NGS检测染色体平衡易位的方法主要有：(1)通过检测结构性变异(SV:structuralvariants)的方法筛查潜在的平衡易位，再通过染色体可视化，比如IGV等进行观察确定。但该方法具有需要后续的人工观察，不能批量处理的缺陷。(2)基于大片段文库的pair-end的两条成对的reads分别比对到不同染色体的方法。但该方法中文库构建需要定制，无法精确判断断点；此外需要较深的测序深度，增加成本。(3)基于寻找junction fragments或者soft trimmed，soft clipped的方法进行筛选，但由于没有后续的算法支持，后续分析需要人工进行，不能批量处理，大大增加了时间。(4)基于CNV的方法，但是由于基于NGS检测CNV存在假阳性过高的问题。

上述传统方法均具有流程复杂、精度低，或部分不能批量处理，还需要人工进行校对，用时过多等不足。而采用NGS检测的分析，又由于基因组重复区域过多，致使NGS比对的复杂性提高而导致假阳率较高。

发明内容

基于此，有必要针对上述问题，提供一种基于NGS的染色体平衡易位检测分析系统，采用该检测分析系统，能够利用自动化的分析系统，对NGS检测数据进行快速、准确的分析，提高检测分析精确性和速度。

一种基于NGS的染色体平衡易位检测分析系统，包括：

数据获取模块：用于获取NGS检测得到的reads数据；

基因组比对模块：用于将上述reads分别与人类参考基因组进行比对，得到无法匹配人类参考基因组的第一reads集；

滑动切割模块：用于将上述第一reads集中各reads进行滑动切割，得到各reads的子序列，并使用等差数列标记编号，得到上述子序列组成的第二reads集；

短序列比对模块：用于将上述第二reads集中各子序列分别与人类参考基因组进行比对，得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据；以染色体为单位，根据上述起始位置数据进行聚类分析，确定子序列比对到基因组染色体的区域，并通过基因组位置与对应子序列编号的相关性分析和协方差分析，还原母序列在染色体的最佳比对区域，得到两端分别比对到人类参考基因组不同染色体的第三reads集；

断点分析模块：用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据，计算得到平衡易位断点；

结果输出模块：用于输出显示所述断点分析模块得到的结果。

上述检测分析系统中，首先使用比对软件将未能两端同时比对到人类参考基因组的reads筛选出来，如可采用bowtie2的end-to-end模式等。并通过滑动切割，切割成如30bp大小左右连续性的较短的子序列，再通过bowtie1等软件程序将子序列重新比对到人类参考基因组，使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组，又考虑到由于序列较短，可能产生错配的问题，再以染色体为单位，通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法，快速筛选出两端分别比对不同染色体的reads，并准确定位平衡易位断点，为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT(无创产前检测)、PGS(植入前基因筛查)、PGD(植入前基因诊断)及一般的NGS测序结果等。

可以理解的，上述滑动切割模块中，所述等差数列标记编号选用公差为1的等差数列编号,即1,2,3,4…k-1,k,k+1…n。

在其中一个实施例中，所述基因组比对模块中，以end-to-end模式进行数据比对。

在其中一个实施例中，所述短序列比对模块中，获取可比对到人类参考基因组的子序列编号，按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序，以染色体为单位，通过相关性及聚类分析结果，得到两端分别比对到人类参考基因组不同染色体的reads。

在其中一个实施例中，所述短序列比对模块中，所述聚类分析为：根据某一reads子序列比对到人类参考基因组上的起始位置数据，以染色体为单位，按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后，相邻两起始位置之间最大差值≤5进行聚类分析。优选的，上述最大差值≤3。更优选的，上述最大差值为1，即进行严格匹配。上述最大差值为大于0的自然数。

可以理解的，在人类基因组中存在SNP(单核苷酸多态性)、碱基插入、缺失等现象，实际样本检测得到的数据可能存在无法严格匹配至人类参考基因组的情况，因此在聚类分析时，将子序列比对到人类参考基因组后的位置要求适当放宽，可避免由于SNP、碱基插入、缺失等现象导致无法严格匹配的问题。

在其中一个实施例中，短序列比对模块中，将聚类分析后得到的每个聚类的簇，与其对应子序列的编号进行相关性和协方差分析，筛选相关性为1或者-1的聚类的簇，并对相关性和协方差值的绝对值和进行加权计算，根据最大加权值找出该read对应于人类基因组染色体的最佳比对位置。

可以理解的，相关性最大为1，表示比对上的基因组位置和对应的子序列编号一一对应，即正向完美比对；最小为-1，表示比对上的基因组位置和对应的子序列编号反向一一对应，即反向完美比对；只有1和-1才进入筛选范围。协方差是衡量比对数目的参数，比对上的reads越多，协方差的绝对值值越大。通过加权相关性和协方差，最大的绝对值则为子序列比对到染色体的最有可能位置。

在其中一个实施例中，短序列比对模块中，当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域，且上述子序列中具有位于reads末端的子序列，则认为该reads一端匹配该染色体。上述有位于reads末端的子序列指对应编号为1的起始子序列，或者对应编号最大的末端子序列，通过上述限定，可明确read两端的严格匹配。

在其中一个实施例中，所述滑动切割模块中，切割窗口长度为20-50bp，优选25-35bp，更优选30bp。

在其中一个实施例中，所述断点分析模块中，根据第三reads集中各reads的比对位置，以reads比对上某染色体序列的末端子序列起始位置，加上滑动切割窗口长度，即为染色体平衡易位断点。

本发明还公开了一种非诊断治疗目的的基于NGS的染色体平衡易位检测分析方法，包括以下步骤：

基因组比对：将NGS检测得到的reads数据中各reads分别与人类参考基因组进行比对，得到无法匹配人类参考基因组的第一reads集；

滑动切割：将上述第一reads集中各reads进行滑动切割，得到各reads的子序列，并使用等差数列标记编号，得到上述子序列组成的第二reads集；

短序列比对：将上述第二reads集中各子序列分别与人类参考基因组进行比对，得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据；以染色体为单位，根据上述起始位置数据进行聚类分析，确定子序列比对到基因组染色体的区域，并通过基因组位置与对应子序列编号的相关性分析和协方差分析，还原母序列在染色体的最佳比对区域，得到两端分别比对到人类参考基因组不同染色体的第三reads集；

断点分析：分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据，计算得到平衡易位断点。

本发明还公开了一种NGS数据分析装置，包括上述的基于NGS的染色体平衡易位检测分析系统。

在其中一个实施例中，所述NGS数据分析装置为无创产前检测装置、植入前基因筛查装置或植入前基因诊断装置。

与现有技术相比，本发明具有以下有益效果：

本发明的一种基于NGS的染色体平衡易位检测分析系统，使用比对软件将未能两端同时比对到人类参考基因组的reads筛选出来，并通过滑动切割成连续性的较短的子序列，再将子序列重新比对到人类参考基因组，使原本包括了平衡易位位点的reads序列在切割后能够通过短片段比对上人类基因组，又考虑到由于序列较短，可能产生错配的问题，再以染色体为单位，通过比对位置的聚类分组及对应子序列编号的相关性协方差加权算法，快速筛选出两端分别比对不同染色体的reads，并准确定位平衡易位断点，为后续Sanger测序验证提供引物设计的序列。适用范围包括NIPT(无创产前检测)、PGS(植入前基因筛查)、PGD(植入前基因诊断)及一般的NGS测序结果等。该检测分析系统的分析精确性高，断点误差6bp以内，且具有分析快速的优势，如以NIPT检测数据输入，约在10min内即可完成整个分析过程；即便是如全基因组检测数据，假定有1％的序列无法比对至测序深度为10X的人类基因组reads，也仅需1小时左右，即可完成整个分析过程。

本发明的一种非诊断治疗目的的基于NGS的染色体平衡易位检测分析方法，通过滑动切割短序列后进行比对，能够快速筛选出两端分别比对不同染色体的reads，并准确定位平衡易位断点。该方法具有步骤简单，分析精确性高，断点误差6bp以内，且具有分析快速的优势。

本发明的一种NGS数据分析装置，可利用NGS数据，针对染色体平衡易位进行分析，适用范围广泛，可用于NIPT(无创产前检测)、PGS(植入前基因筛查)、PGD(植入前基因诊断)及一般的NGS测序结果等。

附图说明

图1为实施例中染色体平衡易位检测分析方法的技术路线图。

图2为染色体发生平衡易位示意图；

其中：A表示成对的染色体，B表示染色体之间发生了易位，C表示发生移位后测序得到reads存在3种情况。

图3为滑动切割后子序列与基因组比对示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

一种基于NGS的染色体平衡易位检测分析方法，按照以下步骤进行，其技术路线如图1所示。

一、数据获取。

获取NGS检测得到的reads数据，为确保用于比对的fastq序列符合质量要求，使用fastq数据质控过滤软件，以fastp软件对得到测序结果数据的fastq文件进行过滤。

二、基因组比对。

图2为染色体发生平衡易位示意图；其中：A表示成对的染色体，B表示染色体之间发生了易位，C表示发生移位后测序得到reads存在3种情况。

(1)成对的reads可完整比对至人类基因组的染色体chr M或chr N。

(2)成对的reads一条可以完整比对到人类基因组的染色体chr M，另一条可以完整比对到人类基因组的染色体chr N。

(3)成对的reads一条可以完整比对到人类基因组染色体chr M或chr N，而另一条刚好落在染色体易位断点位置上，一端比对到染色体chr M，另一端比对到染色体chr N。

基因组比对步骤用于将各reads分别与人类参考基因组进行比对，按照如下方法进行：

使用生信分析软件bowtie2的end-to-end模式将经上述质控过的fastq文件比对到人类基因组上，得到比对上及未比对的reads信息。

可以理解的，也可采用其它分析比对软件，但考虑到后续需要使用bowte1进行再比对，而最新版的bowtie(v 1.2.3)和bowte2可共用建库文件，因此建议使用bowtie2进行第一步的比对，以减少重复建库的时间。

经验证，由于end-to-end模式是reads的两端能够同时比对到基因组上且符合罚分要求才会比对成功，使用bowtie2的end-to-end的比对模式，同时包含了人类参考基因组中不同染色体序列的reads将不会比对到人类基因组上。

此步骤是为了找出潜在的存在染色体平衡易位的reads，且为精确定位做好准备。

经过上述比对后，得到无法匹配人类参考基因组的第一reads集。

三、滑动切割。

如图3所示，如某条reads是发生了染色体平衡易位的reads，即无法匹配人类参考基因组的reads，理论上这条reads的一边能够匹配到人类基因组的一条染色体，而另一边能够匹配到人类基因组的另一条染色体，使用长度为30bp的窗口进行滑动切割，得到某条reads的若干长度为30bp的子序列，为后续的比对做准备。

可以理解的，上述窗口长度20bp到50bp都可以，但太短不足以做基因组比对，太长容易错过剪切点，优选25bp-35bp，更优选30bp。

据此，使用长度为30bp的窗口进行滑动切割，得到某条reads的若干长度为30bp的连续性的子序列，并使用等差数列标记编号，得到第二reads集。

如，将第一reads集中某reads(ID：D00781:39:C9Y2TANXX:1:1102:16800:2511)，其序列为：

TGGGTGTGTAGAAGCTGCTGAAAGGTTGGGAGCTTGGCTTGGGGGGTCCACAGTGAGGTAGAAGCTGGGCGTAAAAGGCTTTGGGATTTTTAAGCTGTCCTTACCCCCACCGCTGTTTTTTT，按照上述方法30bp滑动切割后，该reads滑动切割后的子序列如下所示，编号末位按照等差数列排序。

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.1

TGGGTGTGTAGAAGCTGCTGAAAGGTTGGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.2

GGGTGTGTAGAAGCTGCTGAAAGGTTGGGA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.3

GGTGTGTAGAAGCTGCTGAAAGGTTGGGAG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.4

GTGTGTAGAAGCTGCTGAAAGGTTGGGAGC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.5

TGTGTAGAAGCTGCTGAAAGGTTGGGAGCT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.6

GTGTAGAAGCTGCTGAAAGGTTGGGAGCTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.7

TGTAGAAGCTGCTGAAAGGTTGGGAGCTTG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.8

GTAGAAGCTGCTGAAAGGTTGGGAGCTTGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.9

TAGAAGCTGCTGAAAGGTTGGGAGCTTGGC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.10

AGAAGCTGCTGAAAGGTTGGGAGCTTGGCT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.11

GAAGCTGCTGAAAGGTTGGGAGCTTGGCTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.12

AAGCTGCTGAAAGGTTGGGAGCTTGGCTTG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.13

AGCTGCTGAAAGGTTGGGAGCTTGGCTTGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.14

GCTGCTGAAAGGTTGGGAGCTTGGCTTGGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.15

CTGCTGAAAGGTTGGGAGCTTGGCTTGGGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.16

TGCTGAAAGGTTGGGAGCTTGGCTTGGGGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.17

GCTGAAAGGTTGGGAGCTTGGCTTGGGGGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.18

CTGAAAGGTTGGGAGCTTGGCTTGGGGGGT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.19

TGAAAGGTTGGGAGCTTGGCTTGGGGGGTC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.20

GAAAGGTTGGGAGCTTGGCTTGGGGGGTCC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.21

AAAGGTTGGGAGCTTGGCTTGGGGGGTCCA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.22

AAGGTTGGGAGCTTGGCTTGGGGGGTCCAC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.23

AGGTTGGGAGCTTGGCTTGGGGGGTCCACA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.24

GGTTGGGAGCTTGGCTTGGGGGGTCCACAG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.25

GTTGGGAGCTTGGCTTGGGGGGTCCACAGT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.26

TTGGGAGCTTGGCTTGGGGGGTCCACAGTG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.27

TGGGAGCTTGGCTTGGGGGGTCCACAGTGA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.28

GGGAGCTTGGCTTGGGGGGTCCACAGTGAG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.29

GGAGCTTGGCTTGGGGGGTCCACAGTGAGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.30

GAGCTTGGCTTGGGGGGTCCACAGTGAGGT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.31

AGCTTGGCTTGGGGGGTCCACAGTGAGGTA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.32

GCTTGGCTTGGGGGGTCCACAGTGAGGTAG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.33

CTTGGCTTGGGGGGTCCACAGTGAGGTAGA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.34

TTGGCTTGGGGGGTCCACAGTGAGGTAGAA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.35

TGGCTTGGGGGGTCCACAGTGAGGTAGAAG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.36

GGCTTGGGGGGTCCACAGTGAGGTAGAAGC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.37

GCTTGGGGGGTCCACAGTGAGGTAGAAGCT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.38

CTTGGGGGGTCCACAGTGAGGTAGAAGCTG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.39

TTGGGGGGTCCACAGTGAGGTAGAAGCTGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.40

TGGGGGGTCCACAGTGAGGTAGAAGCTGGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.41

GGGGGGTCCACAGTGAGGTAGAAGCTGGGC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.42

GGGGGTCCACAGTGAGGTAGAAGCTGGGCG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.43

GGGGTCCACAGTGAGGTAGAAGCTGGGCGT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.44

GGGTCCACAGTGAGGTAGAAGCTGGGCGTA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.45

GGTCCACAGTGAGGTAGAAGCTGGGCGTAA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.46

GTCCACAGTGAGGTAGAAGCTGGGCGTAAA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.47

TCCACAGTGAGGTAGAAGCTGGGCGTAAAA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.48

CCACAGTGAGGTAGAAGCTGGGCGTAAAAG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.49

CACAGTGAGGTAGAAGCTGGGCGTAAAAGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.50

ACAGTGAGGTAGAAGCTGGGCGTAAAAGGC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.51

CAGTGAGGTAGAAGCTGGGCGTAAAAGGCT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.52

AGTGAGGTAGAAGCTGGGCGTAAAAGGCTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.53

GTGAGGTAGAAGCTGGGCGTAAAAGGCTTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.54

TGAGGTAGAAGCTGGGCGTAAAAGGCTTTG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.55

GAGGTAGAAGCTGGGCGTAAAAGGCTTTGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.56

AGGTAGAAGCTGGGCGTAAAAGGCTTTGGG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.57

GGTAGAAGCTGGGCGTAAAAGGCTTTGGGA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.58

GTAGAAGCTGGGCGTAAAAGGCTTTGGGAT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.59

TAGAAGCTGGGCGTAAAAGGCTTTGGGATT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.60

AGAAGCTGGGCGTAAAAGGCTTTGGGATTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.61

GAAGCTGGGCGTAAAAGGCTTTGGGATTTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.62

AAGCTGGGCGTAAAAGGCTTTGGGATTTTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.63

AGCTGGGCGTAAAAGGCTTTGGGATTTTTA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.64

GCTGGGCGTAAAAGGCTTTGGGATTTTTAA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.65

CTGGGCGTAAAAGGCTTTGGGATTTTTAAG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.66

TGGGCGTAAAAGGCTTTGGGATTTTTAAGC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.67

GGGCGTAAAAGGCTTTGGGATTTTTAAGCT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.68

GGCGTAAAAGGCTTTGGGATTTTTAAGCTG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.69

GCGTAAAAGGCTTTGGGATTTTTAAGCTGT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.70

CGTAAAAGGCTTTGGGATTTTTAAGCTGTC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.71

GTAAAAGGCTTTGGGATTTTTAAGCTGTCC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.72

TAAAAGGCTTTGGGATTTTTAAGCTGTCCT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.73

AAAAGGCTTTGGGATTTTTAAGCTGTCCTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.74

AAAGGCTTTGGGATTTTTAAGCTGTCCTTA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.75

AAGGCTTTGGGATTTTTAAGCTGTCCTTAC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.76

AGGCTTTGGGATTTTTAAGCTGTCCTTACC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.77

GGCTTTGGGATTTTTAAGCTGTCCTTACCC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.78

GCTTTGGGATTTTTAAGCTGTCCTTACCCC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.79

CTTTGGGATTTTTAAGCTGTCCTTACCCCC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.80

TTTGGGATTTTTAAGCTGTCCTTACCCCCA

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.81

TTGGGATTTTTAAGCTGTCCTTACCCCCAC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.82

TGGGATTTTTAAGCTGTCCTTACCCCCACC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.83

GGGATTTTTAAGCTGTCCTTACCCCCACCG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.84

GGATTTTTAAGCTGTCCTTACCCCCACCGC

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.85

GATTTTTAAGCTGTCCTTACCCCCACCGCT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.86

ATTTTTAAGCTGTCCTTACCCCCACCGCTG

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.87

TTTTTAAGCTGTCCTTACCCCCACCGCTGT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.88

TTTTAAGCTGTCCTTACCCCCACCGCTGTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.89

TTTAAGCTGTCCTTACCCCCACCGCTGTTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.90

TTAAGCTGTCCTTACCCCCACCGCTGTTTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.91

TAAGCTGTCCTTACCCCCACCGCTGTTTTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.92

AAGCTGTCCTTACCCCCACCGCTGTTTTTT

编号：D00781:39:C9Y2TANXX:1:1102:16800:2511.93

AGCTGTCCTTACCCCCACCGCTGTTTTTTT

采用上述滑动切割得到子序列后进行比对，由于滑动切割后的子序列长度更短，其比对能够更加精准地判断发生染色体平衡易位的位点。

四、短序列比对。

1、将子序列比对到人类参考基因组。

将上述滑动切割后的30bp的子序列组成的第二reads集中各子序列分别与人类参考基因组进行比对，具体选用bowtie1进行对比。

可以理解的，也可选取其它同类数据比对软件，但bowtie1对小于50bp序列的比对有着很好灵敏度和特异性，而且速度也较快。更重要的是，bowtie1可以直接用bowtie2的库，大大省略了建库时间。

理论上，子序列比对到基因组的位置与其编号是一一对应的，如某reads的左端有部分子序列比对上chr M，而右端有部分子序列比对上chr N，中间有着一段未比对上的间隙(gas)，如图3所示。

2、比对结果的处理。

处理比对结果，需要提前安装好perl的Statistics::Basic模块，以计算相关性和协方差等重要数据处理。

为了找出完美的比对，对每条reasds的子序列分别进行处理，以某条reads的子序列比对好的基因组起始位置，按照从小到大排序后，以染色体为单位，以相邻两起始位置之间最大差值≤5进行聚类分析，本实施例中最大差值选为1进行等差数列聚类，即进行严格匹配的比对，并将每个聚类的簇与其对应子序列的编号进行相关性和协方差分析，筛选相关性为1或者-1的聚类的簇，并对相关性和协方差值的绝对值之和进行加权计算，根据最大加权值找出每个read对应于染色体的最佳比对位置。

需注意的是，当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域，且上述子序列中具有位于reads末端的子序列，则认为该reads一端匹配该染色体。

按照上述方法，得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据；以染色体为单位，根据上述起始位置数据进行聚类分析，确定子序列比对到基因组染色体的区域，并通过基因组位置与对应子序列编号的相关性分析和协方差分析，还原母序列在染色体的最佳比对区域，得到两端分别比对到人类参考基因组不同染色体的第三reads集；

例如，上述数据经聚类、相关性、协方差与加权后，得到中间结果如下：

上述reads ID为D00781:39:C9Y2TANXX:1:1102:16800:2511的序列，其左、右两端分别有47和25条子序列分别比上了chr1和chr4染色体。

比对上chr1的左端中，通过聚类与排序，比对上的子序列对应的人类参考基因组起始位置为139251-139297。

所对应的子序列编号为1-47。1号为reads的一端，即具有位于reads末端的子序列。

上述比对上chr1的子序列的相关性为1，协方差为184，加权值＝协方差值+相关性值，即185。

比对上chr4的右端中，通过聚类与排序，比对上的子序列对应的人类参考基因组起始位置为100597-100621。

所对应的子序列编号为69-93。93号为reads的一端，即具有位于reads末端的子序列。

上述比对上chr4的子序列的相关性为1，协方差为52，加权值＝协方差值+相关性值，即53。

即上述reads ID为D00781:39:C9Y2TANXX:1:1102:16800:2511的reads，子序列编号为1-47的一端可匹配chr1，子序列编号为57-81的一端可匹配chr4。

五、断点分析。

分析上述第三reads集中分别比对到人类参考基因组的不同染色体子序列的起始位置数据，计算得到平衡易位断点，具体方法如下：

根据上述第三reads集中染色体平衡易位候选reads分别比对到人类参考基因组的不同染色体子序列的起始位置数据，通过序列的长度及位置得到平衡易位的具体断点信息，如以reads比对上某染色体序列的末端子序列起始位置，加上滑动切割窗口长度，即为染色体平衡易位断点。

本实施例中由于bowtie1使用比对30bp最多有3bp的错配，因此平衡易位断点误差可控制在6bp内。

六、结果报告。

将上述分析得到的结果输出报告。

如上述reads ID为D00781:39:C9Y2TANXX:1:1102:16800:2511的reads，报告为：

reads ID：D00781:39:C9Y2TANXX:1:1102:16800:2511

reads序列：TGGGTGTG TAGAAGCTGCTGAAAGGTTGGGAGCTTGGCTTGGGGGGTCCACAGTGAGGTAGAAGCTGGGCGTAAAAGGCTTTGGGATTTTTAAGCTGTCCTTACCCCCACCGCTGTTTTTTT。

该reads左端比对到chr1的序列：TGGGTGTGTAGAAGCTGCTGAAAGGTTGGGAGCTTGGCTTGGGGGGTCCACAGTGAGGTAGAAGCTGGGCGTAAAA，比对上的子序列对应的人类参考基因组起始位置为139251-139297，对应的reads的等差数列编号：1-47。

该reads右端比对到chr4的序列GCGTAAAAGGCTTTGGGATTTTTAAGCTGTCCTTACCCCCACCGCTGTTTTTTT，比对上的子序列对应的人类参考基因组起始位置为100597:100621，对应的reads的等差数列编号：69-93。

平衡易位断点为：chr1：139326，chr4：100597

实施例2

一种基于NGS的染色体平衡易位检测分析系统，包括：数据获取模块、基因组比对模块、滑动切割模块、短序列比对模块、断点分析模块和结果输出模块。

数据获取模块用于获取NGS检测得到的reads数据；

基因组比对模块用于将上述reads分别与人类参考基因组进行比对，得到无法匹配人类参考基因组的第一reads集；

滑动切割模块用于将上述第一reads集中各reads进行滑动切割，得到各reads的子序列，并使用等差数列标记编号，得到上述子序列组成的第二reads集；

短序列比对模块用于将上述第二reads集中各子序列分别与人类参考基因组进行比对，得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据；以染色体为单位，根据上述起始位置数据进行聚类分析，确定子序列比对到基因组染色体的区域，并通过基因组位置与对应子序列编号的相关性分析和协方差分析，还原母序列在染色体的最佳比对区域，得到两端分别比对到人类参考基因组不同染色体的第三reads集；

断点分析模块用于分析上述第三reads集中分别比对到人类参考基因组不同染色体子序列的起始位置数据，计算得到平衡易位断点；

结果输出模块用于输出显示所述断点分析模块得到的结果。

上述各模块按照实施例1中的分析方法，执行分析命令和操作。

实施例3

利用实施例2的基于NGS的染色体平衡易位检测分析系统，对两例样本数据进行分析，获取NGS检测得到的reads数据后，进行基因组比对、滑动切割、短序列比对后，得到下述两端分别比对到人类参考基因组不同染色体的第三reads集。

表1.两例样本分析得到第三reads集

对上述reads进行分析计算，得到染色体平衡易位结果如下。

表2.染色体平衡易位情况

注：上述匹配染色体位置结果表格中，末位的1或-1表示相关性分析结果，均为1或-1。

上述样本同时以全基因组筛查及Sanger测序等方法进行染色体平衡易位检测，与本发明实施例2染色体平衡易位检测分析系统得到的结果进行对比，结果如下表所示。

表3.染色体平衡易位分析结果验证

注：上表中“真实断点”指以上述Sanger测序验证的方法得到染色体平衡易位断点，分析结果1-3指表2中分析得到的断点。

上述结果表明，本发明的染色体平衡易位检测分析系统和方法，分析结果可靠，可用于精准寻找平衡易位断点，并提供了进行探针引物设计验证的序列。

并且，上述分析过程中，除去bowtie1和bowtie2的比对时间，其余步骤的分析共耗时不超过1秒，具有分析速度快，占用资源少的优势，可用于批量数据分析。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于NGS的染色体平衡易位检测分析系统，其特征在于，包括：

数据获取模块：用于获取NGS检测得到的reads数据；

短序列比对模块：用于将上述第二reads集中各子序列分别与人类参考基因组进行比对，获取可比对到人类参考基因组的子序列编号，按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序，得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据；以染色体为单位，根据上述起始位置数据进行聚类分析，所述聚类分析为：根据某一reads子序列比对到人类参考基因组上的起始位置数据，以染色体为单位，按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后，相邻两起始位置之间最大差值≤5进行聚类分析；将聚类分析后得到的每个聚类的簇，与其对应子序列的编号进行相关性和协方差分析，筛选相关性为1或者-1的聚类的簇，并对相关性和协方差值的绝对值和进行加权计算，根据最大加权值找出该read对应于人类基因组染色体的最佳比对位置；当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域，且上述子序列中具有位于reads末端的子序列，则认为该reads一端匹配该染色体；得到两端分别比对到人类参考基因组不同染色体的第三reads集；

2.根据权利要求1所述的基于NGS的染色体平衡易位检测分析系统，其特征在于，所述滑动切割模块中，切割窗口长度为20-50bp。

3.根据权利要求1所述的基于NGS的染色体平衡易位检测分析系统，其特征在于，所述断点分析模块中，根据第三reads集中各reads的比对位置，以reads比对上某染色体序列的末端子序列起始位置，加上滑动切割窗口长度，即为染色体平衡易位断点。

4.一种非诊断治疗目的的基于NGS的染色体平衡易位检测分析方法，其特征在于，包括以下步骤：

短序列比对：将上述第二reads集中各子序列分别与人类参考基因组进行比对，获取可比对到人类参考基因组的子序列编号，按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序，得到第二reads集中各子序列比对到人类参考基因组上的起始位置数据；以染色体为单位，根据上述起始位置数据进行聚类分析，所述聚类分析为：根据某一reads子序列比对到人类参考基因组上的起始位置数据，以染色体为单位，按照各子序列比对到人类参考基因组相同染色体上的起始位置的升序排序后，相邻两起始位置之间最大差值≤5进行聚类分析；将聚类分析后得到的每个聚类的簇，与其对应子序列的编号进行相关性和协方差分析，筛选相关性为1或者-1的聚类的簇，并对相关性和协方差值的绝对值和进行加权计算，根据最大加权值找出该read对应于人类基因组染色体的最佳比对位置；当来源于同一reads的子序列按照等差数列标记编号依次比对到人类基因组的同个染色体的同一区域，且上述子序列中具有位于reads末端的子序列，则认为该reads一端匹配该染色体；得到两端分别比对到人类参考基因组不同染色体的第三reads集；

5.一种NGS数据分析装置，其特征在于，包括权利要求1-3任一项所述的基于NGS的染色体平衡易位检测分析系统。

6.根据权利要求5所述的NGS数据分析装置，其特征在于，所述NGS数据分析装置为无创产前检测装置、植入前基因筛查装置或植入前基因诊断装置。