CN106599612A

CN106599612A - 一种基于高通量测序数据的指纹识别方法

Info

Publication number: CN106599612A
Application number: CN201610967207.5A
Authority: CN
Inventors: 罗俊峰; 陈云弟
Original assignee: Shanghai Read Gene Technology Co Ltd
Current assignee: Shanghai Read Gene Technology Co Ltd
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2017-04-26
Anticipated expiration: 2036-10-28
Also published as: CN106599612B

Abstract

本发明涉及一种基于高通量测序数据的指纹识别方法，选取人类基因组中多个SNP位点作为指纹特征点，所述SNP位点为单碱基二态，MAF值在0.35～0.65之间，同一染色体上的SNP位点的相互距离大于一百万个碱基；选取的SNP位点选自以下1820个SNP位点的组合，以这些SNP位点作为坐标点，将测序数据的特征进行数据模型化和指纹化，为高通量测序数据构建指纹识别方法，可用于鉴定高通量测序数据是否来自同一个样本，也可用于鉴定是否来自同一个数据生产机构，或者用于鉴定有争议的高通量测序数据是否是同一个数据，还可用于鉴定不同样本间的亲缘关系。本发明公开的指纹识别方法可以用作司法鉴定领域和商业纠纷判定领域。

Description

一种基于高通量测序数据的指纹识别方法

技术领域

本发明涉及生物信息分析、分子生物学和分子生物检测领域，特别涉及基于二代高通量测序平台的数据分析鉴定识别方法。

技术背景

基因组DNA序列含有生命秘密的核心信息，第一代DNA测序技术sanger测序法帮助人类打开了了解生命核心信息的大门，以芯片技术为技术核心的高通量并行测序技术，Next Generation Sequencing(NGS)，第二代高通量测序技术超越了摩尔定律，将人类带进了个体化精准医疗的领域，2013年底，随着Illumina公司Xten测序平台的问世，将人类基因组30倍覆盖率的测序成本从十几万美元降至1000美元以下，随之带来了颠覆性的市场变化，各种测序应用应运而生，测序数据海量增加，各种问题也随之而来：

1.基因序列信息本身也是一种资源，这种资源是属于提供基因组的个人或者家庭，还是医院的医生？是属于医疗单位，还是保险公司，抑或是提供测序服务的公司？目前无论伦理上或者是法理上，都没有很好的界定。

2.基因信息是有价值的，它的价值在科学家手中就是学术价值，在医院手中就是医疗价值，在药厂手中就是商业价值，在个人手中就是经济价值，既然有价值，那么就有可能被人盗窃、复制和滥用，那么就需要去辨别该基因信息的最初来源，个人或者机构为了申明该基因是属于自己的，必须提供一系列的证据加以证明这个基因数据是该个人或者机构产生的。例如，患者A将自己的血液样本提供给了制药厂用于某种目的，并同意该制药厂具有独家使用权，制药厂将血液样本交给测序公司进行基因组测序，并签订了一系列保密合同确保基因信息不会外泄，但是有一天，该制药厂发现其竞争对手在使用患者A的基因组信息，并提出了诉讼，那么法庭需要证明两点：第一点是两个制药厂使用的基因数据是否来自同一个人？第二点是该份基因组信息是否是一样的拷贝？通过STR位点或者SNP信息等生物学手段可以证明是否来自同一个人，如果是同一个人，但是不同的拷贝，法庭需要问责患者A，因为其有可能违反协议再一次提供样本给制药厂的竞争对手，如果是同一份拷贝，法庭需要问责测序公司，测序公司有可能由于某种原因导致基因组数据泄露，由此可以看到每一份数据在产生后，必须赋予该份数据一个可供识别并且唯一的ID，就像是每个人的指纹，具有身份鉴定的特性，集合了除生物学信息之外的其他唯一特征。

3.高通量测序过程包括了样本核酸的提取、打断、连接、扩增、纯化、测序等多个步骤，这些步骤在物理作用和生物酶的作用下，DNA分子的断裂、再次连接以及扩增的程度都是随机的，从微观角度而言具有不可重复性，比如超声波打断步骤或者外切酶打断步骤，同一来源的样本基因组DNA用相同的人和相同的机器以及相同的步骤进行操作，基因组DNA的断裂情况完全不同；再比如连接和扩增步骤，相同样本的连接效率、DNA分子的连接数量以及扩增效率，最后扩增得到的分子数量都是不一样的，都具有细微的差别，导致每个样本都是不可重复的，这么多步骤造成了每一份测序数据都有其自身的唯一特征，本专利通过技术手段将这些特征进行提取和量化，形成测序数据的指纹，这种指纹不仅包含有样本的生物学信息，而且还包含了数据生产组织机构的信息。

发明内容

本发明的目的是提供一种基于高通量测序数据的指纹识别方法，具体的技术方案是：

a)选取人类基因组中多个SNP位点作为指纹特征点，所述SNP位点为单碱基二态，MAF值在0.35～0.65之间，同一染色体上的SNP位点的相互距离大于一百万个碱基；

b)选取的SNP位点选自以下1820个SNP位点的组合：

进一步的，通过生物信息分析方法，将含有权利要求1中的SNP位点的唯一的测序片段read的特征参数形成以下数据集合：

R(N,M)＝[a,b(1～m),c(1～m),d(1～m),e(1～m),f(1～m)]，其中N＝1～n，n>＝24，M＝1～m；

c)m＝包含有该SNP位点的唯一的测序片段read的数量，M的最大值＝m；

d)a＝SNP名称，如rs123456，则a＝rs123456；

e)b(1～m)＝1或者2，正链＝1，负链＝2；

f)c(1～m)＝测序片段序列；

g)d(1～m)＝测序片段序列在参考基因hg19上的所属的染色体，比如9号染色体，则记为d(1～m)＝9；

h)e(1～m)＝测序片段序列在参考基因组hg19上染色体上的起始位置，如9号染色体上12000，则记为e(1～m)＝12000；

i)f(1～m)＝测序片段序列在参考基因组hg19上染色体上的终止位置，如9号染色体上12150，则记为f(1～m)12150；

因此，在测序数据中，rs123456的序号记为1，并且包含rs123456位点的唯一的测序片段read有25个，则函数R(1,M)＝[R(1,1),R(1,2),…,R(1,25)]

该集合为：

R(1,M)＝|[a,b(1),c(1),d(1),e(1),f(1)]|

|[a,b(2),c(2),d(2),e(2),f(2)]|

......

|[a,b(25),c(25),d(25),e(25),f(25)]|

依照以上举例，具体而言：

R(1,M)＝|[rs123456,1,ATGCATGCAT…GTACGTACGT,9,12000,12150]|

|[rs123456,1,TGCATGCATA…TACGTACGTG,9,12001,12151]|

……

|[rs123456,2,GCATCGATGC…GTAGCTACG,9,12101,12250]|

其中

R(1,1)＝[rs123456,1,ATGCATGCAT…GTACGTACGT,9,12000,12150]

R(1,2)＝[rs123456,1,TGCATGCATA…TACGTACGTG,9,12001,12151]

……

R(1,25)＝[rs123456,2,GCATCGATGC…GTAGCTACG,9,12101,12250]

进一步的，形成指纹识别的数学模型为T(N,M)＝[R(1,M),R(2,M),….R(n,M)]，其中N＝1～n，n>＝24；

进一步的，指纹识别所需的数据量要求为N>＝24,M>＝1，当两个测序数据相互比较是否为同一来源的数据时，至少需要24个SNP位点，每个SNP位点只需要一个R(N,M)数据，当T1(N,M)＝T2(N,M)时，则两个测序数据判定为同一来源；

进一步的，同一来源是指同一个样本且同一个机构产生的数据。

附图说明

图1是实施例1测序结果图。

具体实施方式

实例1：获得高通量测序数据指纹

1、将样本按照Illumina官方建议流程进行片段化、测序文库构建以及在Illumina测序平台上进行测序

2、按照以下流程进行数据分析

a)Sample raw fastq

b)Extract pattern reads

c)Alignment using BWA

d)Call snp information using Samtools mpileup

e)Modeling

3、以rs10493923位点为例，该SNP位点位于Chr1:100930254，测序完成经过比对后，结果如图所示。

4、以rs10493923(GRCh37/hg19)位点为例的R(N,M)为

R(1,17)＝|[rs10493923,2,ATAATCCTAT…GTATCTTGGA,1,100930115,100930264]|

|[rs10493923,2,TCTTCTCTTT…ATTGACACAT,1,100930124,100930273]|

|[rs10493923,1,CTTCTCCTTT…AACTAAAGTT,1,100930136,100930285]|

|[rs10493923,2,TAGTTTTGTG…AGAAGAACTG,1,100930141,100930290]|

|[rs10493923,1,CCATAAAAAT…CAAAGCTTTC,1,100930151,100930300]|

………….

5、将测序数据依次分析，可以得到1820个R(N,M)值，作为一个集合，就是该搞通了测序数据的指纹。

实例2：监控样本和数据管理流程，防止样本和数据弄混

1、目的：在实际应用中，无论是临床样本还是科研样本，最为担心的事是，样本可能在任一环节弄错，包括贴错标签、标签调换、样本交叉污染，因此我们需要一种方案可以全程监控样本的质量管理

2、实施步骤：

a)在1820个SNP中选择24个以上的位点，在获得样本DNA之后，分出一部分DNA立即用适当的方法获得所选SNP位点的基因型信息；

b)余下样本DNA按照Illunima等测序厂商的方法进行高通量测序；

c)测序数据后按照应用实例1的方法获得测序数据的指纹，同时也就获得了步骤a)中所选SNP位点的基因型；

d)同一个样本的两次SNP位点基因型的比较分析可以知道该样本是否弄错，如果弄错，可以和同一批次的样本两两比较，进行纠错。

实例3：全外显子测序数据指纹：在1820个SNP中选择48个以上的位点，这些位点处于外显子中，根据应用实例1的方法获得这些位点的R(N,M)值，即可获得全外显子测序数据指纹。

Claims

1.一种基于高通量测序数据的指纹识别方法，其特征在于：

b)选取的SNP位点选自以下1820个SNP位点的组合：

2.根据权利要求1所述基于用于高通量测序数据的指纹识别方法，其特征在于通过生物信息分析方法，将含有权利要求1中的SNP位点的唯一的测序片段read的特征参数形成以下数据集合：

a)m＝包含有该SNP位点的唯一的测序片段read的数量，M的最大值＝m；

b)a＝SNP名称；

c)b(1～m)＝1或者2，正链＝1，负链＝2；

d)c(1～m)＝测序片段序列；

e)d(1～m)＝测序片段序列在参考基因上的所属的染色体；

f)e(1～m)＝测序片段序列在参考基因组上染色体上的起始位置；

g)f(1～m)＝测序片段序列在参考基因组上染色体上的终止位置。

3.根据权利要求1所述基于用于高通量测序数据的指纹识别方法，其特征在于形成指纹识别的数据为

T(N,M)＝[R(1,M),R(2,M),….R(n,M)]，其中N＝1～n，n>＝24。

4.根据权利要求1所述基于用于高通量测序数据的指纹识别方法，其特征在于指纹识别所需的数据量要求为N>＝24,M>＝1，当两个测序数据相互比较是否为同一来源的数据时，至少需要24个SNP位点，每个SNP位点只需要一个R(N,M)数据，当T1(N,M)＝T2(N,M)时，则两个测序数据判定为同一来源。

5.根据权利要求1所述基于用于高通量测序数据的指纹识别方法，其特征在于同一来源是指同一个样本且同一个机构产生的数据。