CN116790740A - 一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法 - Google Patents
一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法 Download PDFInfo
- Publication number
- CN116790740A CN116790740A CN202310468342.5A CN202310468342A CN116790740A CN 116790740 A CN116790740 A CN 116790740A CN 202310468342 A CN202310468342 A CN 202310468342A CN 116790740 A CN116790740 A CN 116790740A
- Authority
- CN
- China
- Prior art keywords
- copy number
- sequencing
- gene
- reads
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 68
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 206010011878 Deafness Diseases 0.000 title claims abstract description 24
- 231100000895 deafness Toxicity 0.000 title claims abstract description 21
- 208000016354 hearing loss disease Diseases 0.000 title claims abstract description 21
- 238000003745 diagnosis Methods 0.000 title claims abstract description 16
- 238000010276 construction Methods 0.000 title claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 27
- 239000000523 sample Substances 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 230000001720 vestibular Effects 0.000 claims abstract description 20
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims abstract description 16
- 229960002685 biotin Drugs 0.000 claims abstract description 8
- 235000020958 biotin Nutrition 0.000 claims abstract description 8
- 239000011616 biotin Substances 0.000 claims abstract description 8
- 238000012165 high-throughput sequencing Methods 0.000 claims abstract description 4
- 239000007791 liquid phase Substances 0.000 claims abstract description 4
- 238000012217 deletion Methods 0.000 claims description 26
- 230000037430 deletion Effects 0.000 claims description 26
- 230000035772 mutation Effects 0.000 claims description 18
- 108020004414 DNA Proteins 0.000 claims description 13
- 230000003321 amplification Effects 0.000 claims description 13
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 10
- 108700024394 Exon Proteins 0.000 claims description 9
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 6
- 239000011324 bead Substances 0.000 claims description 6
- 150000007523 nucleic acids Chemical group 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 6
- 210000000349 chromosome Anatomy 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012408 PCR amplification Methods 0.000 claims description 4
- 239000002773 nucleotide Substances 0.000 claims description 4
- 125000003729 nucleotide group Chemical group 0.000 claims description 4
- 206010064571 Gene mutation Diseases 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 239000013068 control sample Substances 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000001976 enzyme digestion Methods 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 6
- 230000004064 dysfunction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001717 pathogenic effect Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000007400 DNA extraction Methods 0.000 description 2
- 101150083557 Ear gene Proteins 0.000 description 2
- 101150081463 OTOA gene Proteins 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000003027 ear inner Anatomy 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000010208 microarray analysis Methods 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 208000012239 Developmental disease Diseases 0.000 description 1
- 108700003861 Dominant Genes Proteins 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 108700005079 Recessive Genes Proteins 0.000 description 1
- 102000052708 Recessive Genes Human genes 0.000 description 1
- 101150030803 SLC26A4 gene Proteins 0.000 description 1
- 101150044746 Strc gene Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000010100 anticoagulation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 230000007698 birth defect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Microbiology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Chemical & Material Sciences (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,涉及生物医学技术领域,其技术要点为:首先准备Illumina平台测序所需的文库,设计108bp标记生物素的探针结合到目标区域基因全序列,利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来,用二代测序仪IlluminaNextSeq500进行二代测序,并进行生物信息分析;具体包括以下步骤:S1、文库构建;S2、目标基因的捕获;S3、高通量测序;S4、CNVs生物信息分析。本发明能够在听觉前庭基因组范围内直接检出CNVs,便于实现大规模样本的听觉前庭基因组CNVs检测;并且其检测敏感性高,操作简单,重复性好,还可兼顾SNPs检查;与现有的检测相比,本发明大大降低了检测成本。
Description
技术领域
本发明涉及生物医学技术领域,具体涉及一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法。
背景技术
拷贝数变异(CNVs)是听觉前庭功能异常发病机制中的重要一环,对目前不能确诊的听觉前庭功能异常患者群进行CNVs研究兼具必要性和重要性,系统研究听觉前庭基因组CNVs有望突破现有基因诊断的瓶颈。
传统用于CNVs的检测手段中,例如以实时荧光定量PCR技术和多重连接探针扩增技术为代表的PCR技术和比较基因组杂交技术,均存在以下缺陷:
①特殊的实验条件设计、操作繁琐;
②检测通量小,需对检测目标逐一比对;
③检测精确度低,分辨率为10Mb以上等。
由于上述缺陷,使得上述技术不能成为CNVs的高效检测手段。
近年来发展的染色体微阵列分析技术(Chromosomal Microarray Analysis,CMA)包括微阵列比较基因组杂交芯片(Array-CGH)和单核苷酸多态性芯片两项技术,因其高分辨率、高通量及规范化的技术流程被用于基因组CNVs的检测,但无法检测染色体平衡易位、倒位、低水平的嵌合体。同时因为用于CMA的芯片均是商业产品,主要用于重大出生缺陷和发育性疾病CNVs检测,芯片与配套检测设备价格较昂贵,不能根据检测目的调整芯片设计,难以广泛应用于临床。第三代测序技术(Tird Gneration Squencing;TGS)仍面临着价格高等问题,因此,亟需一种简易、高效的基因全序列捕获芯片来解决上述常见耳聋基因拷贝数变异检测问题。
为此,本发明旨在提供一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,以解决上述问题。
发明内容
本发明的目的是为了解决上述问题,提供一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法。
为了达到上述目的,本发明的技术方案如下:一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,首先准备Illumina平台测序所需的文库,设计108bp标记生物素的探针结合到目标区域基因全序列,利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来,用二代测序仪Illumina NextSeq 500进行二代测序,并进行生物信息分析;具体包括以下步骤:
S1、文库构建:
使用建库试剂盒按照Illumina平台的要求构建文库;取1~5μgDNA样本用酶切的方法进行片段化,末端修复,3′末端加‘A’,再加接头得到大约350-400bp的片段,进行PCR富集,最后采用安捷伦2100生物分析仪进行文库构建分析;
S2、目标基因的捕获:
经过生物素标记的探针与文库DNA在一定条件下进行杂交,采用链霉亲和素修饰的磁珠共价结合生物素标记的探针,抓取目的基因全序列,目的基因全序列包括外显子和内含子;最后采用磁力架吸附携带目的基因的磁珠,洗脱纯化,富集目的基因;构建听觉前庭基因组的全序列捕获芯片,对选择的已知基因均进行全序列捕获;
S3、高通量测序:
采用独特的“桥式”扩增反应,文库加载到测序芯片Flowcell上,通过NextSeq 500自动循环和成像;测序采用可逆性末端边合成边测序反应,对2种荧光标记的可逆的核苷酸进行测序;每个循环反应只延伸一个正确互补的碱基,根据四种不同的荧光信号确认碱基种类,保证最终的核酸序列质量,经过多个循环后,完整读取核酸序列;
听觉前庭功能基因的全序列捕获芯片,测序总容量100G,平均测序深度大于200X,每次实现25个不同个体样本的同时测序,覆盖度达98.52%;
S4、CNVs生物信息分析:
将测序所得数据进行过滤、拆分、与参考序列比对、注释操作,得到基因突变信息和其生物学意义。
进一步地,步骤S4中具体包括以下步骤:
A、数据过滤和比对;
B、拷贝数变异计算;
C、数据库比对;
D、断裂点分析。
进一步地,步骤A具体为:
首先,采用cutadapt去除adaptor、低质量和短reads(<40bp)得到cleanreads;
然后,采用BWA软件将cleanreads与人基因组参考序列(hg19)进行比对,得到比对结果sam文件;采用samtools将sam文件转为bam文件并排序;
利用picard/MarkDuplicates.jar工具去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。
进一步地,步骤B中通过拷贝数系数能够分析CNVs状态,具体为:
统计覆盖到基因的每个外显子的reads数,然后根据外显子位置为横坐标,外显子对应覆盖度为纵坐标作图,得出重复扩增和缺失分析图;外显子大片段缺失/扩增突变由外显子拷贝数系数来确定,拷贝数系数为分析样本外显子read数/对照样本read数;拷贝数系数<0.2为纯合缺失突变,0.4<拷贝数系数<0.6为携带者杂合缺失突变;1.4<拷贝数系数<1.6为杂合重复突变,拷贝数系数每增加0.5,增加一个重复拷贝。
进一步地,步骤C具体为:
将所有获得的疑似缺失重复区域与OMIM、GeneReviews、Decipher、ClinVar、DGV数据库进行比对,获得染色体区域相关表型信息。
进一步地,步骤D具体为:
利用bwa软件将测序reads与参考基因组进行比对,采用crest软件检测比对结果中的soft-clipped reads(当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads),根据soft-clipped reads对应断裂点的支持reads和局部组装结果,即分析出断裂点。
与现有技术相比,本方案的有益效果:
1、本发明的方案通过已知的内耳基因表达谱、综合征型耳聋基因谱、前庭功能异常基因谱相关生物信息学数据,及前期研究数据,选择的178个已知基因均进行全序列捕获,估算其总长13M,去掉重复序列后捕获长度约8M,覆盖度达98.52%;
2、通过本发明方法构建的常见耳聋基因拷贝数检测诊断芯片,能够在听觉前庭基因组范围内直接检出CNVs,便于实现大规模样本的听觉前庭基因组CNVs检测;
3、通过本发明构建的常见耳聋基因拷贝数检测诊断芯片,其检测敏感性高,操作简单,重复性好,还可兼顾SNPs检查;并且,与现有的检测相比,本发明大大降低了检测成本。
附图说明
图1是本发明实施例中方法流程图;
图2是本发明实施例中基因组测序CNVs分析流程图;
图3是本发明实施例中样本OTOA基因1-4号外显子纯合缺失。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明的实施例及附图,对本发明的技术方案进行进一步详细地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
实施例:
本发明实施例提供的方案为:一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,如图1及上述发明内容描述所示。
以下为本发明实施例方案中的基因全序列捕获芯片制备和二代测序的总体流程:
首先准备Illumina平台测序所需的文库,设计108bp标记生物素的探针结合到目标区域基因全序列,利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来,用二代测序仪Illumina NextSeq 500进行二代测序,并进行生物信息分析。
1.外周血采集
经患者本人或其监护人同意后,抽取患者及其父母等相关亲属外周血各1-2mL装入EDTA抗凝管中,静置分层后及时进行基因组DNA提取。
2.基因组DNA的提取
应用QIAam全血DNA提取试剂盒(Qiagen公司,德国),根据说明书指导进行提取基因组DNA。通过使用Nanodrop2000t检测样本DNA OD260/280比值对样本DNA质检,确定样本质检合格后进行文库构建等后续流程。
3.DNA全基因组文库制备
文库的制备是通过Illumina标准试剂盒流程完成。简而言之,取起始量3mg研究对象DNA,采用CovarisS2超声仪(Covaris公司,美国)进行基因组DNA超声片段化,按照制造商的规程进行DNA片段的末端修复,添加3'腺嘌呤(A),衔接子连接和反应纯化,随后通过PCR扩增富集,最终的文库片段通过Nanodrop2000样本定量检测仪(Thermo公司,美国)和Agilenl2100生物分析仪(安捷伦科技公司,美国)进行质控。
4.全外显子组捕获及高通量测序
对样本178个遗传性耳聋基因进行听觉前庭基因组的全序列捕获芯片全序列捕获,在Nextseq500测序仪(Illumina公司,美国)上进行双端测序(paired-end)。具体为;经过生物素标记的探针与文库DNA在一定条件下进行杂交,用链霉亲和素修饰的磁珠共价结合生物素标记的探针,从而抓取目的基因全序列(包括外显子和内含子),最后用磁力架吸附携带目的基因的磁珠,洗脱纯化,富集目的基因。构建听觉前庭基因组的全序列捕获芯片,对选择的已知基因均进行全序列捕获。
二代测序:Illumina公司采用独特的“桥式”扩增反应,文库加载到测序芯片Flowcell上,采用NextSeq 500自动循环和成像。
Illumina的测序采用可逆性末端边合成边测序反应,对2种荧光标记的可逆的核苷酸进行测序。每个循环反应只能延伸一个正确互补的碱基,根据四种不同的荧光信号确认碱基种类,保证最终的核酸序列质量,经过多个循环后,完整读取核酸序列。
听觉前庭功能基因的全序列捕获芯片,测序总容量100G,平均测序深度可大于200X,每次可实现25个不同个体样本的同时测序,覆盖度达98.52%。
5.生物信息分析
将测序所得数据进行经过滤、拆分、与参考序列比对、注释等后,对所得到基因突变信息和其生物学意义进行分析,其流程如图2所示。
A.数据过滤和比对:
首先运用cutadapt去除adaptor、低质量和短reads(<40bp)得到cleanreads;然后用BWA软件将cleanreads与人基因组参考序列(hg19)进行比对,得到比对结果sam文件;samtools将sam文件转为bam文件并排序;采用picard/MarkDuplicates.jar工具去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。
B.拷贝数变异计算:
原理:探针捕获技术重复性好,捕获效率稳定,捕获区域reads数大致相同,通过拷贝数系数可以分析可能的CNVs状态。
分析方法:统计覆盖到基因的每个外显子的reads数,然后根据外显子位置为横坐标,外显子对应覆盖度为纵坐标作图,得出重复扩增和缺失分析图。外显子大片段缺失/扩增突变由外显子拷贝数系数来确定,拷贝数系数为分析样本外显子read数/对照样本read数。拷贝数系数<0.2为纯合缺失突变,0.4<拷贝数系数<0.6为携带者杂合缺失突变。1.4<拷贝数系数<1.6为杂合重复突变,拷贝数系数每增加0.5,增加一个重复拷贝。
C.数据库比对:
所有获得的疑似缺失重复区域与OMIM、GeneReviews、Decipher、ClinVar、DGV等数据库进行比对。获得染色体区域相关表型信息。
D.断裂点分析:
将测序reads与参考基因组利用bwa软件进行比对,用crest软件检测比对结果中的soft-clipped reads(当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads),根据soft-clipped reads对应断裂点的支持reads和局部组装结果即可分析出断裂点。
6.结果
该样本OTOA基因1-4号外显子纯合缺失,如图3所示。
通过对数据库中1983例耳聋患者的178个已知听觉前庭基因组的全序列捕获,1086例明确分子病因(54.77%),其中57例耳聋患者检出致病性CNVs(5.25%)。
检出的57个CNVs涉及15个基因发生CNVs(显性遗传基因8个,隐性遗传基因7个)及7个覆盖有多个基因的大片段变异。覆盖有多个基因的大片段变异,从其覆盖的候选基因中可明确其致病基因的有4个。共发现涉及19个耳聋相关基因发生CNVs,并分布于人类基因16条染色体上。对非SLC26A4基因的41个CNVs进一步分析,发现涉及的CNVs主要可分为以下几类:杂合型CNVs(31例),纯合子CNVs(5例,其中4例缺失,1例重复),不规则型CNVs(3例),以及半合子CNVs(2例)。同时在隐性基因杂合CNVs的等位基因上同时也发现了14个SNVs。在这41个CNVs中,由于多发CNVs的存在(即在相同编码区域的同种类别的变异在不同个体中多次发生),又可归纳为33种拷贝数事件,在这32种CNVs事件中,有3种为重复变异,占9.09%(3/33),缺失变异为30种,占90.91%,在这30种缺失型CNVs中,有4种为纯合缺失。同时,对102例听力正常个体行168个耳聋基因芯片检测,其中2例检出明确致病突变,检出率1.96%,均为STRC基因杂合缺失。
综上所述,本发明所利用基因全序列捕获技术在不同样本间捕获效率一致,覆盖到基因的每个外显子和内含子的reads数大致相同,重复性好。采用的统计方法合理,通过统计拷贝数系数(外显子reads数/对照样本reads数)确定片段缺失或扩增。拷贝数系数<0.2为纯合缺失突变,0.4<拷贝数系数<0.6为携带者杂合缺失突变;1.4<拷贝数系数<1.6为杂合重复突变,拷贝数系数每增加0.5,增加一个重复拷贝。此外,断裂点分析:因断点的确切位置能够反映出CNVs的长度以及其边界处的基因,对阐释CNVs的致病机制很重要,同时断点处的序列特征也能够反映出CNVs的发生机制。将测序reads与参考基因组利用bwa软件进行比对,用crest软件检测比对结果中的soft-clipped reads,根据soft-clippedreads对应断裂点的支持reads和局部组装结果即可分析出断裂点。
通过本发明的上述实施例,本发明的方法通过已知的内耳基因表达谱、综合征型耳聋基因谱、前庭功能异常基因谱相关生物信息学数据,及前期研究数据,选择的178个已知基因均进行全序列捕获,估算其总长13M,去掉重复序列后捕获长度约8M,覆盖度达98.52%;并且,本发明能够在听觉前庭基因组范围内直接检出CNVs,便于实现大规模样本的听觉前庭基因组CNVs检测;此外,通过本发明的检测敏感性高,操作简单,重复性好,还可兼顾SNPs检查;与现有的检测相比,本发明大大降低了检测成本(如现有技术需进行QPCR(1500),MLPA(1500-3000),单基因二代靶向测序(2000元)+全外显子测序(3000元)。本发明方法构建的多基因捕获芯片预计每个检测样本1000元左右。
以上具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
Claims (6)
1.一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,其特征是:首先准备Illumina平台测序所需的文库,设计108bp标记生物素的探针结合到目标区域基因全序列,利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来,用二代测序仪IlluminaNextSeq 500进行二代测序,并进行生物信息分析;具体包括以下步骤:
S1、文库构建:
使用建库试剂盒按照Illumina平台的要求构建文库;取1~5μgDNA样本用酶切的方法进行片段化,末端修复,3′末端加‘A’,再加接头得到大约350-400bp的片段,进行PCR富集,最后采用安捷伦2100生物分析仪进行文库构建分析;
S2、目标基因的捕获:
经过生物素标记的探针与文库DNA在一定条件下进行杂交,采用链霉亲和素修饰的磁珠共价结合生物素标记的探针,抓取目的基因全序列,目的基因全序列包括外显子和内含子;最后采用磁力架吸附携带目的基因的磁珠,洗脱纯化,富集目的基因;构建听觉前庭基因组的全序列捕获芯片,对选择的已知基因均进行全序列捕获;
S3、高通量测序:
采用独特的“桥式”扩增反应,文库加载到测序芯片Flowcell上,通过NextSeq 500自动循环和成像;测序采用可逆性末端边合成边测序反应,对2种荧光标记的可逆的核苷酸进行测序;每个循环反应只延伸一个正确互补的碱基,根据四种不同的荧光信号确认碱基种类,保证最终的核酸序列质量,经过多个循环后,完整读取核酸序列;
听觉前庭功能基因的全序列捕获芯片,测序总容量100G,平均测序深度大于200X,每次实现25个不同个体样本的同时测序,覆盖度达98.52%;
S4、CNVs生物信息分析:
将测序所得数据进行过滤、拆分、与参考序列比对、注释操作,得到基因突变信息和其生物学意义。
2.如权利要求1所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,其特征是:步骤S4中具体包括以下步骤:
A、数据过滤和比对;
B、拷贝数变异计算;
C、数据库比对;
D、断裂点分析。
3.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,其特征是:步骤A具体为:
首先,采用cutadapt去除adaptor、低质量和短reads(<40bp)得到clean reads;
然后,采用BWA软件将clean reads与人基因组参考序列(hg19)进行比对,得到比对结果sam文件;采用samtools将sam文件转为bam文件并排序;
利用picard/Mark Duplicates.jar工具去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。
4.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,其特征是:步骤B中通过拷贝数系数能够分析CNVs状态,具体为:
统计覆盖到基因的每个外显子的reads数,然后根据外显子位置为横坐标,外显子对应覆盖度为纵坐标作图,得出重复扩增和缺失分析图;外显子大片段缺失/扩增突变由外显子拷贝数系数来确定,拷贝数系数为分析样本外显子read数/对照样本read数;拷贝数系数<0.2为纯合缺失突变,0.4<拷贝数系数<0.6为携带者杂合缺失突变;1.4<拷贝数系数<1.6为杂合重复突变,拷贝数系数每增加0.5,增加一个重复拷贝。
5.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,其特征是:步骤C具体为:
将所有获得的疑似缺失重复区域与OMIM、GeneReviews、Decipher、ClinVar、DGV数据库进行比对,获得染色体区域相关表型信息。
6.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法,其特征是:步骤D具体为:
利用bwa软件将测序reads与参考基因组进行比对,采用crest软件检测比对结果中的soft-clipped reads,根据soft-cl ipped reads对应断裂点的支持reads和局部组装结果,即分析出断裂点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310468342.5A CN116790740A (zh) | 2023-04-27 | 2023-04-27 | 一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310468342.5A CN116790740A (zh) | 2023-04-27 | 2023-04-27 | 一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116790740A true CN116790740A (zh) | 2023-09-22 |
Family
ID=88037655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310468342.5A Pending CN116790740A (zh) | 2023-04-27 | 2023-04-27 | 一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116790740A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040157238A1 (en) * | 2002-09-20 | 2004-08-12 | Quinn John J. | Method for detection of multiple nucleic acid sequence variations |
CN105624796A (zh) * | 2014-11-07 | 2016-06-01 | 天津华大基因科技有限公司 | 芯片及其在检测耳聋相关基因中的用途 |
CN106834502A (zh) * | 2017-03-06 | 2017-06-13 | 明码(上海)生物科技有限公司 | 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法 |
CN111676277A (zh) * | 2020-08-12 | 2020-09-18 | 臻和(北京)生物科技有限公司 | 一种基于二代测序技术测定基因组不稳定的方法及试剂盒 |
CN112126677A (zh) * | 2020-11-25 | 2020-12-25 | 北京迈基诺基因科技股份有限公司 | 耳聋单倍型基因突变无创检测方法 |
US20210265006A1 (en) * | 2018-07-24 | 2021-08-26 | Affymetrix, Inc. | Array based method and kit for determining copy number and genotype in pseudogenes |
-
2023
- 2023-04-27 CN CN202310468342.5A patent/CN116790740A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040157238A1 (en) * | 2002-09-20 | 2004-08-12 | Quinn John J. | Method for detection of multiple nucleic acid sequence variations |
CN105624796A (zh) * | 2014-11-07 | 2016-06-01 | 天津华大基因科技有限公司 | 芯片及其在检测耳聋相关基因中的用途 |
CN106834502A (zh) * | 2017-03-06 | 2017-06-13 | 明码(上海)生物科技有限公司 | 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法 |
US20210265006A1 (en) * | 2018-07-24 | 2021-08-26 | Affymetrix, Inc. | Array based method and kit for determining copy number and genotype in pseudogenes |
CN111676277A (zh) * | 2020-08-12 | 2020-09-18 | 臻和(北京)生物科技有限公司 | 一种基于二代测序技术测定基因组不稳定的方法及试剂盒 |
CN112126677A (zh) * | 2020-11-25 | 2020-12-25 | 北京迈基诺基因科技股份有限公司 | 耳聋单倍型基因突变无创检测方法 |
Non-Patent Citations (2)
Title |
---|
XI LIN ET AL.: ""Applications of targeted gene capture and next-generation sequencing technologies in studies of human deafness and other genetic disabilities"", 《HEAR RES.》, 6 January 2014 (2014-01-06), pages 3 - 8 * |
秦谦等: ""基于高通量测序技术的拷贝数变异筛选分析流程的 建立及应用"", 《中国循证儿科杂志》, vol. 13, no. 4, 31 August 2018 (2018-08-31), pages 275 - 279 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Low-pass whole-genome sequencing in clinical cytogenetics: a validated approach | |
JP6328934B2 (ja) | 非侵襲性出生前親子鑑定法 | |
Xu et al. | Long-molecule sequencing: a new approach for identification of clinically significant DNA variants in α-thalassemia and β-thalassemia carriers | |
CN106591441B (zh) | 基于全基因捕获测序的α和/或β-地中海贫血突变的检测探针、方法、芯片及应用 | |
CN105555970B (zh) | 同时进行单体型分析和染色体非整倍性检测的方法和系统 | |
JP5881420B2 (ja) | 自閉症関連遺伝子マーカー | |
RU2597981C2 (ru) | Способ и система для определения нуклеотидной последовательности в заданной области генома плода | |
HUE031849T2 (en) | Non-invasive diagnosis of fetal aneuploidy by sequencing | |
CA2450479A1 (en) | Method for detecting diseases caused by chromosomal imbalances | |
CN112126677B (zh) | 耳聋单倍型基因突变无创检测方法 | |
CN110029158B (zh) | 一种马凡综合征检测panel及其应用 | |
TR201815541T4 (tr) | Fetüslü gebe bir dişi denekten alınan bir biyolojik numunenin analiz yöntemi. | |
WO2024027569A1 (zh) | 一种不依赖于先证者的单体型构建方法 | |
Wang et al. | A pilot study of noninvasive prenatal diagnosis of alpha-and beta-thalassemia with target capture sequencing of cell-free fetal DNA in maternal blood | |
Conlin et al. | Long‐read sequencing for molecular diagnostics in constitutional genetic disorders | |
KR20230117036A (ko) | 게놈의 반복 영역들에서의 짧은 판독물들을 시각화하기 위한 방법들 및 시스템들 | |
CN113308548B (zh) | 一种检测胎儿基因单倍体型的方法、装置和存储介质 | |
CN105803054A (zh) | 试剂盒及其在检测唇腭裂相关基因中的用途 | |
CN114150051A (zh) | 一种一体化全面检测五种复杂遗传病的试剂盒和方法 | |
WO2021037016A1 (en) | Methods for detecting absence of heterozygosity by low-pass genome sequencing | |
CN108866154B (zh) | 基于长片段dna捕获和三代测序的无创产前单体型构建方法 | |
TWI637058B (zh) | 測定多胞胎妊娠之胎兒基因組 | |
CN116790740A (zh) | 一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法 | |
Nigam et al. | An early diagnosis of thalassemia: a boon to a healthy society | |
WO2017204414A1 (ko) | 시료의 교차 오염 정도를 분석하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |