CN106599612A - 一种基于高通量测序数据的指纹识别方法 - Google Patents

一种基于高通量测序数据的指纹识别方法 Download PDF

Info

Publication number
CN106599612A
CN106599612A CN201610967207.5A CN201610967207A CN106599612A CN 106599612 A CN106599612 A CN 106599612A CN 201610967207 A CN201610967207 A CN 201610967207A CN 106599612 A CN106599612 A CN 106599612A
Authority
CN
China
Prior art keywords
data
sequencing
identification method
snp
fingerprint identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610967207.5A
Other languages
English (en)
Other versions
CN106599612B (zh
Inventor
罗俊峰
陈云弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Read Gene Technology Co Ltd
Original Assignee
Shanghai Read Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Read Gene Technology Co Ltd filed Critical Shanghai Read Gene Technology Co Ltd
Priority to CN201610967207.5A priority Critical patent/CN106599612B/zh
Publication of CN106599612A publication Critical patent/CN106599612A/zh
Application granted granted Critical
Publication of CN106599612B publication Critical patent/CN106599612B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于高通量测序数据的指纹识别方法,选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;选取的SNP位点选自以下1820个SNP位点的组合,以这些SNP位点作为坐标点,将测序数据的特征进行数据模型化和指纹化,为高通量测序数据构建指纹识别方法,可用于鉴定高通量测序数据是否来自同一个样本,也可用于鉴定是否来自同一个数据生产机构,或者用于鉴定有争议的高通量测序数据是否是同一个数据,还可用于鉴定不同样本间的亲缘关系。本发明公开的指纹识别方法可以用作司法鉴定领域和商业纠纷判定领域。

Description

一种基于高通量测序数据的指纹识别方法
技术领域
本发明涉及生物信息分析、分子生物学和分子生物检测领域,特别涉及基于二代高通量测序平台的数据分析鉴定识别方法。
技术背景
基因组DNA序列含有生命秘密的核心信息,第一代DNA测序技术sanger测序法帮助人类打开了了解生命核心信息的大门,以芯片技术为技术核心的高通量并行测序技术,Next Generation Sequencing(NGS),第二代高通量测序技术超越了摩尔定律,将人类带进了个体化精准医疗的领域,2013年底,随着Illumina公司Xten测序平台的问世,将人类基因组30倍覆盖率的测序成本从十几万美元降至1000美元以下,随之带来了颠覆性的市场变化,各种测序应用应运而生,测序数据海量增加,各种问题也随之而来:
1.基因序列信息本身也是一种资源,这种资源是属于提供基因组的个人或者家庭,还是医院的医生?是属于医疗单位,还是保险公司,抑或是提供测序服务的公司?目前无论伦理上或者是法理上,都没有很好的界定。
2.基因信息是有价值的,它的价值在科学家手中就是学术价值,在医院手中就是医疗价值,在药厂手中就是商业价值,在个人手中就是经济价值,既然有价值,那么就有可能被人盗窃、复制和滥用,那么就需要去辨别该基因信息的最初来源,个人或者机构为了申明该基因是属于自己的,必须提供一系列的证据加以证明这个基因数据是该个人或者机构产生的。例如,患者A将自己的血液样本提供给了制药厂用于某种目的,并同意该制药厂具有独家使用权,制药厂将血液样本交给测序公司进行基因组测序,并签订了一系列保密合同确保基因信息不会外泄,但是有一天,该制药厂发现其竞争对手在使用患者A的基因组信息,并提出了诉讼,那么法庭需要证明两点:第一点是两个制药厂使用的基因数据是否来自同一个人?第二点是该份基因组信息是否是一样的拷贝?通过STR位点或者SNP信息等生物学手段可以证明是否来自同一个人,如果是同一个人,但是不同的拷贝,法庭需要问责患者A,因为其有可能违反协议再一次提供样本给制药厂的竞争对手,如果是同一份拷贝,法庭需要问责测序公司,测序公司有可能由于某种原因导致基因组数据泄露,由此可以看到每一份数据在产生后,必须赋予该份数据一个可供识别并且唯一的ID,就像是每个人的指纹,具有身份鉴定的特性,集合了除生物学信息之外的其他唯一特征。
3.高通量测序过程包括了样本核酸的提取、打断、连接、扩增、纯化、测序等多个步骤,这些步骤在物理作用和生物酶的作用下,DNA分子的断裂、再次连接以及扩增的程度都是随机的,从微观角度而言具有不可重复性,比如超声波打断步骤或者外切酶打断步骤,同一来源的样本基因组DNA用相同的人和相同的机器以及相同的步骤进行操作,基因组DNA的断裂情况完全不同;再比如连接和扩增步骤,相同样本的连接效率、DNA分子的连接数量以及扩增效率,最后扩增得到的分子数量都是不一样的,都具有细微的差别,导致每个样本都是不可重复的,这么多步骤造成了每一份测序数据都有其自身的唯一特征,本专利通过技术手段将这些特征进行提取和量化,形成测序数据的指纹,这种指纹不仅包含有样本的生物学信息,而且还包含了数据生产组织机构的信息。
发明内容
本发明的目的是提供一种基于高通量测序数据的指纹识别方法,具体的技术方案是:
a)选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;
b)选取的SNP位点选自以下1820个SNP位点的组合:
进一步的,通过生物信息分析方法,将含有权利要求1中的SNP位点的唯一的测序片段read的特征参数形成以下数据集合:
R(N,M)=[a,b(1~m),c(1~m),d(1~m),e(1~m),f(1~m)],其中N=1~n,n>=24,M=1~m;
c)m=包含有该SNP位点的唯一的测序片段read的数量,M的最大值=m;
d)a=SNP名称,如rs123456,则a=rs123456;
e)b(1~m)=1或者2,正链=1,负链=2;
f)c(1~m)=测序片段序列;
g)d(1~m)=测序片段序列在参考基因hg19上的所属的染色体,比如9号染色体,则记为d(1~m)=9;
h)e(1~m)=测序片段序列在参考基因组hg19上染色体上的起始位置,如9号染色体上12000,则记为e(1~m)=12000;
i)f(1~m)=测序片段序列在参考基因组hg19上染色体上的终止位置,如9号染色体上12150,则记为f(1~m)12150;
因此,在测序数据中,rs123456的序号记为1,并且包含rs123456位点的唯一的测序片段read有25个,则函数R(1,M)=[R(1,1),R(1,2),…,R(1,25)]
该集合为:
R(1,M)=|[a,b(1),c(1),d(1),e(1),f(1)]|
|[a,b(2),c(2),d(2),e(2),f(2)]|
......
|[a,b(25),c(25),d(25),e(25),f(25)]|
依照以上举例,具体而言:
R(1,M)=|[rs123456,1,ATGCATGCAT…GTACGTACGT,9,12000,12150]|
|[rs123456,1,TGCATGCATA…TACGTACGTG,9,12001,12151]|
……
|[rs123456,2,GCATCGATGC…GTAGCTACG,9,12101,12250]|
其中
R(1,1)=[rs123456,1,ATGCATGCAT…GTACGTACGT,9,12000,12150]
R(1,2)=[rs123456,1,TGCATGCATA…TACGTACGTG,9,12001,12151]
……
R(1,25)=[rs123456,2,GCATCGATGC…GTAGCTACG,9,12101,12250]
进一步的,形成指纹识别的数学模型为T(N,M)=[R(1,M),R(2,M),….R(n,M)],其中N=1~n,n>=24;
进一步的,指纹识别所需的数据量要求为N>=24,M>=1,当两个测序数据相互比较是否为同一来源的数据时,至少需要24个SNP位点,每个SNP位点只需要一个R(N,M)数据,当T1(N,M)=T2(N,M)时,则两个测序数据判定为同一来源;
进一步的,同一来源是指同一个样本且同一个机构产生的数据。
附图说明
图1是实施例1测序结果图。
具体实施方式
实例1:获得高通量测序数据指纹
1、将样本按照Illumina官方建议流程进行片段化、测序文库构建以及在Illumina测序平台上进行测序
2、按照以下流程进行数据分析
a)Sample raw fastq
b)Extract pattern reads
c)Alignment using BWA
d)Call snp information using Samtools mpileup
e)Modeling
3、以rs10493923位点为例,该SNP位点位于Chr1:100930254,测序完成经过比对后,结果如图所示。
4、以rs10493923(GRCh37/hg19)位点为例的R(N,M)为
R(1,17)=|[rs10493923,2,ATAATCCTAT…GTATCTTGGA,1,100930115,100930264]|
|[rs10493923,2,TCTTCTCTTT…ATTGACACAT,1,100930124,100930273]|
|[rs10493923,1,CTTCTCCTTT…AACTAAAGTT,1,100930136,100930285]|
|[rs10493923,2,TAGTTTTGTG…AGAAGAACTG,1,100930141,100930290]|
|[rs10493923,1,CCATAAAAAT…CAAAGCTTTC,1,100930151,100930300]|
………….
5、将测序数据依次分析,可以得到1820个R(N,M)值,作为一个集合,就是该搞通了测序数据的指纹。
实例2:监控样本和数据管理流程,防止样本和数据弄混
1、目的:在实际应用中,无论是临床样本还是科研样本,最为担心的事是,样本可能在任一环节弄错,包括贴错标签、标签调换、样本交叉污染,因此我们需要一种方案可以全程监控样本的质量管理
2、实施步骤:
a)在1820个SNP中选择24个以上的位点,在获得样本DNA之后,分出一部分DNA立即用适当的方法获得所选SNP位点的基因型信息;
b)余下样本DNA按照Illunima等测序厂商的方法进行高通量测序;
c)测序数据后按照应用实例1的方法获得测序数据的指纹,同时也就获得了步骤a)中所选SNP位点的基因型;
d)同一个样本的两次SNP位点基因型的比较分析可以知道该样本是否弄错,如果弄错,可以和同一批次的样本两两比较,进行纠错。
实例3:全外显子测序数据指纹:在1820个SNP中选择48个以上的位点,这些位点处于外显子中,根据应用实例1的方法获得这些位点的R(N,M)值,即可获得全外显子测序数据指纹。

Claims (5)

1.一种基于高通量测序数据的指纹识别方法,其特征在于:
a)选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;
b)选取的SNP位点选自以下1820个SNP位点的组合:
2.根据权利要求1所述基于用于高通量测序数据的指纹识别方法,其特征在于通过生物信息分析方法,将含有权利要求1中的SNP位点的唯一的测序片段read的特征参数形成以下数据集合:
R(N,M)=[a,b(1~m),c(1~m),d(1~m),e(1~m),f(1~m)],其中N=1~n,n>=24,M=1~m;
a)m=包含有该SNP位点的唯一的测序片段read的数量,M的最大值=m;
b)a=SNP名称;
c)b(1~m)=1或者2,正链=1,负链=2;
d)c(1~m)=测序片段序列;
e)d(1~m)=测序片段序列在参考基因上的所属的染色体;
f)e(1~m)=测序片段序列在参考基因组上染色体上的起始位置;
g)f(1~m)=测序片段序列在参考基因组上染色体上的终止位置。
3.根据权利要求1所述基于用于高通量测序数据的指纹识别方法,其特征在于形成指纹识别的数据为
T(N,M)=[R(1,M),R(2,M),….R(n,M)],其中N=1~n,n>=24。
4.根据权利要求1所述基于用于高通量测序数据的指纹识别方法,其特征在于指纹识别所需的数据量要求为N>=24,M>=1,当两个测序数据相互比较是否为同一来源的数据时,至少需要24个SNP位点,每个SNP位点只需要一个R(N,M)数据,当T1(N,M)=T2(N,M)时,则两个测序数据判定为同一来源。
5.根据权利要求1所述基于用于高通量测序数据的指纹识别方法,其特征在于同一来源是指同一个样本且同一个机构产生的数据。
CN201610967207.5A 2016-10-28 2016-10-28 一种基于高通量测序数据的指纹识别方法 Expired - Fee Related CN106599612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610967207.5A CN106599612B (zh) 2016-10-28 2016-10-28 一种基于高通量测序数据的指纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610967207.5A CN106599612B (zh) 2016-10-28 2016-10-28 一种基于高通量测序数据的指纹识别方法

Publications (2)

Publication Number Publication Date
CN106599612A true CN106599612A (zh) 2017-04-26
CN106599612B CN106599612B (zh) 2020-04-28

Family

ID=58590691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610967207.5A Expired - Fee Related CN106599612B (zh) 2016-10-28 2016-10-28 一种基于高通量测序数据的指纹识别方法

Country Status (1)

Country Link
CN (1) CN106599612B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090061337A (ko) * 2007-12-11 2009-06-16 주식회사 에스엔피 제네틱스 한우 개체인식 및 혈통확인을 위한 snp 유전자 세트
WO2014121419A1 (zh) * 2013-02-07 2014-08-14 中国种子集团有限公司 水稻全基因组育种芯片及其应用
CN104651502A (zh) * 2015-02-04 2015-05-27 中国农业科学院北京畜牧兽医研究所 用于中国西门塔尔牛亲缘关系鉴定的snp分子标记组合
CN105154544A (zh) * 2015-09-07 2015-12-16 健路生物科技(苏州)有限公司 基于基因检测的生物体身份认证方法及系统
CN105349659A (zh) * 2015-11-26 2016-02-24 北京市农林科学院 一套适于不结球白菜品种核酸指纹数据库构建的核心snp标记及其应用
WO2016049878A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因科技有限公司 一种基于snp分型的亲子鉴定方法及应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090061337A (ko) * 2007-12-11 2009-06-16 주식회사 에스엔피 제네틱스 한우 개체인식 및 혈통확인을 위한 snp 유전자 세트
WO2014121419A1 (zh) * 2013-02-07 2014-08-14 中国种子集团有限公司 水稻全基因组育种芯片及其应用
WO2016049878A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因科技有限公司 一种基于snp分型的亲子鉴定方法及应用
CN104651502A (zh) * 2015-02-04 2015-05-27 中国农业科学院北京畜牧兽医研究所 用于中国西门塔尔牛亲缘关系鉴定的snp分子标记组合
CN105154544A (zh) * 2015-09-07 2015-12-16 健路生物科技(苏州)有限公司 基于基因检测的生物体身份认证方法及系统
CN105349659A (zh) * 2015-11-26 2016-02-24 北京市农林科学院 一套适于不结球白菜品种核酸指纹数据库构建的核心snp标记及其应用

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BOBBY L LARUE等: ""Characterization of 114 insertion/deletion (INDEL) polymorphisms, and selection for a global INDEL panel for human identification"", 《LEGAL MEDICINE》 *
RUI PEREIRA等: ""A new multiplex for human identification using insertion/deletion polymorphisms"", 《ELECTROPHORESIS》 *
余国春: ""微卫星与SNP标记技术在猪亲子鉴定中的有效性研究"", 《中国优秀硕士学位论文全文数据库 农业科技辑》 *
李莉等: ""67个X-SNP位点的分型检测和连锁不平衡检验"", 《法医学杂志》 *
罗昕: ""基于下一代测序的玉米高通量SNP开发及关联分析"", 《中国优秀硕士学位论文全文数据库 农业科技辑》 *
邵伟波: ""疑难亲缘鉴定中非CODIS STR和X-SNP的应用价值"", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *
郭立平: ""利用微卫星和SNP标记对西门塔尔牛进行亲子推断的研究"", 《中国优秀硕士学位论文全文数据库 农业科技辑》 *

Also Published As

Publication number Publication date
CN106599612B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
Trevino et al. Chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution
Sheng et al. Multi-perspective quality control of Illumina RNA sequencing data analysis
Luthra et al. Next-generation sequencing in clinical molecular diagnostics of cancer: advantages and challenges
EP2749655B2 (en) Single cell classification method, gene screening method and device thereof
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
Krawitz et al. Microindel detection in short-read sequence data
JP6420543B2 (ja) ゲノムデータ処理方法
CN107077537B (zh) 用短读测序数据检测重复扩增
JP6027608B2 (ja) 核酸配列データのアセンブリに関する方法
JP2014508994A5 (zh)
CN105132407B (zh) 一种脱落细胞dna低频突变富集测序方法
CN103114150B (zh) 基于酶切建库测序与贝叶斯统计的单核苷酸多态性位点鉴定的方法
Ma et al. The analysis of ChIP-Seq data
CN106367512A (zh) 一种鉴定样本中肿瘤负荷的方法和系统
EP3497241B1 (en) Ultra-low coverage genome sequencing and uses thereof
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
CN106702010B (zh) 一种遗传标记组合、个体基因身份证、二维码、试剂盒及其用途
Wu et al. DeepRetention: a deep learning approach for intron retention detection
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
CN108359723A (zh) 一种降低深度测序错误的方法
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
Eché et al. A Bos taurus sequencing methods benchmark for assembly, haplotyping, and variant calling
Mahbub et al. Identifying molecular signatures and pathways shared between Alzheimer's and Huntington's disorders: a bioinformatics and systems biology approach
CN106599612A (zh) 一种基于高通量测序数据的指纹识别方法
CN102831331B (zh) 基于酶切建库双末端测序的长度多态性标记的引物设计开发方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200428

Termination date: 20201028

CF01 Termination of patent right due to non-payment of annual fee