CN115747320B - Rna靶向测序基因芯片的质控方法及应用 - Google Patents

Rna靶向测序基因芯片的质控方法及应用 Download PDF

Info

Publication number
CN115747320B
CN115747320B CN202211036510.5A CN202211036510A CN115747320B CN 115747320 B CN115747320 B CN 115747320B CN 202211036510 A CN202211036510 A CN 202211036510A CN 115747320 B CN115747320 B CN 115747320B
Authority
CN
China
Prior art keywords
rna
sequencing
library
gene chip
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211036510.5A
Other languages
English (en)
Other versions
CN115747320A (zh
Inventor
韩营民
陈文浩
姚丹丹
曹昊欣
童亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boke Biotechnology Co ltd
Original Assignee
Boke Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boke Biotechnology Co ltd filed Critical Boke Biotechnology Co ltd
Priority to CN202211036510.5A priority Critical patent/CN115747320B/zh
Publication of CN115747320A publication Critical patent/CN115747320A/zh
Application granted granted Critical
Publication of CN115747320B publication Critical patent/CN115747320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开RNA靶向测序基因芯片的质控方法及应用。本发明的方法包括分别提供DNA预文库和RNA预文库;获得第一测序数据和第二测序数据的步骤和利用所述第一测序数据和第二测序数据的参数来评估所述基因芯片的性能。其中,第一测序数据为利用基因芯片对DNA预文库进行杂交捕获及测序而得到数据,第二测序数据为利用基因芯片对RNA预文库进行平行杂交捕获及测序而得到的数据。本发明解决了RNA靶向测序的液相基因芯片对低表达量基因的捕获性能无法验证的问题,完善利用RNA样本进行基因芯片验证的漏洞,具有准确、通用的优势。

Description

RNA靶向测序基因芯片的质控方法及应用
技术领域
本发明涉及基因芯片的质控方法,更具体地,本发明涉及一种用于RNA靶向测序的液相基因芯片的质控方法及应用。
背景技术
基因芯片(Gene Panel)是由生物素修饰的探针组成,用于富集基因组目标区域序列,通常与高通量测序结合,具有准确性高,经济、通量高等优势。基因芯片,特别是液相基因芯片已经被广泛用于基因组单核苷酸变异(SNV)、拷贝数变异(CNV)等研究。
除被用于基因组的靶向区域富集外,基因芯片也被用于RNA的靶向测序(RNA-Cap),并进行相关的序列变异研究,例如SNV和基因融合变异(Gene Fusion)。在融合基因的检测中,RNA-Cap不需融合基因的先验知识,能够对未知融合亚型进行检测。同时,RNA-Cap可以一次完成对成百上千个基因的检测,通量优势明显。再结合高深度测序,可以保证检测的灵敏度。因此,用于RNA-Cap的液相基因芯片在RNA序列变异研究中扮演着重要角色。
但是由于不同基因的表达量差异,RNA-Cap数据中,不同基因的覆盖深度存在差异,低表达量基因往往覆盖深度较低。因此,如何判断RNA-Cap的基因芯片中,针对低表达量基因的探针是否有效工作,是验证RNA-Cap基因芯片的难题。
背景技术中的信息仅仅在于说明本发明的总体背景,不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。
发明内容
本发明利用DNA与RNA样本进行平行捕获,通过DNA和RNA样本的捕获数据综合评估RNA靶向测序的基因芯片的性能,有效解决了由于RNA样本中基因表达差异等造成的对RNA靶向测序的液相基因芯片捕获性能无法准确评估的问题。具体地,本发明包括以下内容。
本发明的第一方面,提供一种RNA靶向测序基因芯片的质控方法,其包括以下步骤:
(1)分别提供DNA预文库和RNA预文库;
(2)获得第一测序数据和第二测序数据的步骤,其中,第一测序数据为利用基因芯片对所述DNA预文库进行杂交捕获及测序而得到数据,第二测序数据为利用基因芯片对所述RNA预文库进行平行杂交捕获及测序而得到的数据,其中所述基因芯片包括针对不同目标片段的多条探针;和
(3)利用所述第一测序数据和所述第二测序数据的参数来评估所述基因芯片的性能。
在某些实施方案中,根据第一方面所述的RNA靶向测序基因芯片的质控方法,其中,所述基因芯片为液相基因芯片。
在某些实施方案中,根据第一方面所述的RNA靶向测序基因芯片的质控方法,其中,参数包括富集效率、基因覆盖率、覆盖深度和均一性中的至少一种。
在某些实施方案中,根据第一方面所述的RNA靶向测序基因芯片的质控方法,其中,当第一测序数据中目标片段的覆盖率和覆盖深度分别大于规定阈值,而第二测序数据所述目标片段的覆盖率和覆盖深度分别小于规定阈值时,则所述目标片段对应的探针工作有效。
在某些实施方案中,根据第一方面所述的RNA靶向测序基因芯片的质控方法,其中,当第一测序数据中目标片段的覆盖率和/或覆盖深度以及第二捕获数据中所述目标片段的覆盖率和/或覆盖深度均小于规定阈值时,则将所述目标片段对应的探针认定为工作无效。
在某些实施方案中,根据第一方面所述的RNA靶向测序基因芯片的质控方法,其中,所述DNA预文库和所述RNA预文库分别来自于同一样本或不同样本。
在某些实施方案中,根据第一方面所述的RNA靶向测序基因芯片的质控方法,其中,所述目标片段为基因内部的不同片段,所述参数包括均一性。
在某些实施方案中,根据第一方面所述的RNA靶向测序基因芯片的质控方法,其中,所述目标片段为不同基因,所述参数包括覆盖率和覆盖深度。
本发明的第二方面,提供一种液相基因芯片优化方法,其包括:
(a)根据第一方面所述的RNA靶向测序基因芯片的质控方法来确定所述液相基因芯片的目标片段中的黑名单的步骤;和
(b)对于黑名单目标基因进一步设计优化探针的步骤。
本发明的第三方面,提供一种用于RNA靶向测序的液相基因芯片,其包括针对不同目标片段的探针,和用于显示或指示目标片段中的黑名单的说明。
本发明解决了RNA靶向测序的液相基因芯片对低表达量基因的捕获性能无法验证的问题。更具体地,本发明通过RNA靶向测序基因芯片对DNA样本进行捕获测序及评价,完善利用RNA样本进行基因芯片验证的漏洞,具有准确、通用的优势。
附图说明
图1为示例性说明RNA靶向测序的液相基因芯片质控流程的示意图;
图2为全转录组测序与全基因组测序的基因覆盖率和覆盖深度评估;
图3为全转录组测序与全基因组测序的覆盖异常基因数量统计;
图4为RNA和DNA样本综合评估RNA靶向测序的液相基因芯片原理示意图。相较于转录本存在的基因表达差异,基因组层面的绝大部分基因不存在拷贝数干扰,因此,在检测RNA样本的同时,对DNA样本也平行开展RNA-Cap Panel捕获,在理论上可以解决RNA样本的部分基因由于表达差异和可变剪接等生物现象造成的基因芯片评估干扰。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。除非另有说明,否则“%”为基于重量的百分数。
本文中,术语“基因芯片”是指通过化学修饰使探针固定于固相载体表面得到的探针阵列。
本文中,术语“液相基因芯片”也称为微球体悬浮芯片,是由大小均一的圆形微球为主要基质构成的液相体系。其中,每种微球上固定有不同的探针。
本文中,术语“探针”是指寡核苷酸分子,特别是根据目标片段的转录本设计的单链DNA(ssDNA)探针。芯片通常包括多条探针,从而组成探针组。探针组中各探针排布为一重或多重覆盖目标区域。探针的长度不特别限定,一般为90-150nt,优选100-140nt,如110nt、120nt、130nt等。探针组中各探针的长度可以相同,也可以不同。
本文中,术语“RNA靶向测序基因芯片”是指芯片中的探针是根据目标片段的转录本设计的单链DNA探针。
本文中,术语“相对覆盖深度”是指在多个目标片段组成组合中,某一目标片段的覆盖深度除以所有目标片段的覆盖深度的平均值得到的数值。例如,当目标片段为基因时,某基因的覆盖深度为100X,而所有目标基因的覆盖深度的平均值为100X时,则此时相对覆盖深度为1。而当某基因的覆盖深度为20X时,则此时相对覆盖深度为0.2。在某些实施方案中,目标片段为基因内部含特定位点的片段。
本文中,术语“覆盖率”是指对于规定的序列区域内,覆盖深度大于等于1X的碱基占所述规定的序列区域内所有碱基的比例。例如,某序列区域由100bp序列组成,统计100bp内每个碱基的覆盖深度,将大于等于1X的所有碱基数除以100bp碱基得到的比值为覆盖率。
本发明的RNA靶向测序基因芯片的质控方法,用于评估基因芯片特别是液相基因芯片的捕获性能,特别是用于评估由于转录引起的变化的准确性。本发明质控方法包括但不限于以下三个步骤:
(1)分别提供DNA预文库和RNA预文库;
(2)获得第一测序数据和第二测序数据的步骤;和
(3)利用所述第一测序数据和所述第二测序数据的参数来评估所述基因芯片的性能。
本发明中,步骤(1)为分别提供DNA预文库和RNA预文库的步骤,可以包括构建预文库的步骤,也可以直接调用预先自己或由第三方构建的预文库的步骤。DNA预文库和RNA预文库可以同时构建或先后依次构建,对此不特别限定。预文库构建时的生物样本不特别限定,优选来源于同一生物的样本,如体液,包括血液或其成分、组织液、唾液等;也可是所需组织的样本。DNA预文库和RNA预文库构建时的生物样本优选为同一样本或相同样本,如相同类型的组织或细胞。
本发明中,步骤(2)为获得测序数据的步骤,优选包括利用基因芯片进行捕获和测序的步骤,如利用基因芯片对所述DNA预文库进行杂交捕获及测序,得到第一测序数据,利用基因芯片对所述RNA预文库进行平行杂交捕获及测序,得到第二测序数据。其中,基因芯片包括针对不同目标片段的多条探针。基因芯片中探针所对应的目标片段的长度不特别限定。在某些实施方案中,目标片段的长度为1Mb以下,例如8000bp以下、6000bp以下、5000bp以下或3000bp以下,另一方面优选为300bp以上、500bp以上,优选1000bp以上。在某些实施方案中,目标片段的长度为1Mb以上,例如,2Mb以上、3Mb以上、4Mb以上或5Mb以上。
本发明的基因芯片所对应的目标片段的数量不特别限定。在某些实施方案中,目标片段的数量为550以下。例如500以下、400以下、300以下、200以下或100以下。在某些实施方案中,目标片段的数量为550以上,例如600以上、700以上、1000以上、5000以上、8000以上,甚至10000以上。
本发明中,步骤(3)为基因芯片的性能评估步骤,包括利用第一测序数据和第二测序数据的参数来评估所述基因芯片的性能。其中参数包括富集效率、基因覆盖率、覆盖深度和均一性中的至少一种指标。优选地,本发明的参数包括两种以上的指标,例如基因覆盖率和覆盖深度组合的指标等。各指标可以设定或规定相应阈值。当高于规定的阈值时将对应的指标认定为符合相应要求,进而用于评估。同时还进一步包括将符合相应要求的来源于第二测序数据的指标与来源于第一测序数据的指标相比较的步骤。
在某些实施方案中,本发明的评估步骤(3)包括以下判断步骤:当第一测序数据中目标片段的测序参数以及第二捕获数据中目标片段的测序参数均小于规定阈值时,则将目标片段对应的探针认定为工作无效。此时的测序参数包括单独的覆盖率,或者单独的覆盖深度,或者覆盖率和覆盖深度的组合。通过该判断步骤认定的探针或其对应的目标片段可列为基因芯片的黑名单。
在某些实施方案中,本发明的评估步骤(3)包括以下判断步骤:当第一测序数据中目标片段的覆盖率和覆盖深度分别大于规定阈值,而第二测序数据所述目标片段的覆盖率和覆盖深度分别小于规定阈值时;或者当第一测序数据中目标片段的覆盖率和覆盖深度分别大于规定阈值,同时第二测序数据所述目标片段的覆盖率和覆盖深度分别大于规定阈值时,则目标片段对应的探针工作有效。
需要说明的是,虽然以上为了说明目的而按步骤(1)-(3)顺序详细说明了各步骤,但本领域技术人员已知,在不脱离本发明精神的情况下,可以对步骤(1)-(3)进行调整。例如对于第一测序数据和第二测序数据而言,可以同时或先后获取。在某些实施方案中,本发明的方法包括首先构建DNA预文库,接下来进行后续捕获和测序获得第一测序数据。然后,构建RNA预文库,接下来进行后续捕获和测序获得第二测序数据。
实施例
以下实施例使用针对98个基因作为靶基因组作为示例说明液相基因芯片的质控方法。本实施例仅为示例性说明目的,并不意欲限制本发明的范围。
实施例1
一、98Gene RNA-Cap Gene Panel的探针设计及合成:
对98个基因按照CDS(转录本)序列设计探针,探针设计按照1重目标区域覆盖原则,使用5’生物素修饰的120nt单链DNA探针,对目标序列进行平铺,探针头尾顺次排列。整个Panel覆盖0.23Mb区域,探针由伯科生物科技有限公司合成。98个基因名称即转录本信息如表1所示。
表1.98Gene RNA-Cap Gene Panel基因信息
二、RNA预文库构建:
对RNA样本构建两个RNA预文库(RNA-重复1#、RNA-重复2#),RNA样本信息:FFPE肿瘤野生型标准品(供应商:菁良;货号:GW-OPSM005)。
2.1一链合成(供应商:Abclonal;货号:RK20353)
如表2所示,取100ng总RNA加入2X Frag/Elution Buffer,涡旋混匀后,短暂离心,然后在PCR仪上85℃孵育10min(热盖105℃)。
表2
组分 体积(μL)
100ng总RNA 5.0
2X Frag/Elution Buffer 5
总体积 10
如表3所示,在冰上向上一步产物中加入RT Reagent和First Strand SynthesisEnzyme Mix,涡旋混匀后,短暂离心。
表3
组分 体积(μL)
RNA打断产物 10
RT Reagent 8
First Strand Synthesis Enzyme Mix 2
总体积 20
设置PCR程序(表4),将配制好的反应液放入,运行程序(热盖105℃)。
表4
2.2二链合成(供应商:Abclonal;货号:RK20346)
如表5所示,在冰上向上一步产物中加入Second Strand Synthesis ReactionBuffer、Second Strand Synthesis Enzyme Mix和无酶无菌水,涡旋混匀后,短暂离心。将配制好的反应液放入PCR仪,在16℃条件下孵育1h(热盖关闭)。
表5
组分 体积(μL)
一链合成产物 20
Second Strand Synthesis Reaction Buffer 8
Second Strand Synthesis Enzyme Mix 4
无酶无菌水 48
总体积 80
2.3二链合成产物纯化
反应结束后,向反应液中加入144μL VAHTS DNA Clean Beads(供应商:诺唯赞;货号:N411-03),充分涡旋混匀后,室温孵育5min,短暂离心后置于磁力加上吸附5min,吸弃上清,加入180μL 80%乙醇孵育30sec后,吸弃上清,再加入180μL 80%乙醇孵育30sec后,吸弃上清。将反应管短暂离心,置于磁力架上,吸弃残留液体,室温干燥。5min后,加入52μLLow-TE缓冲液,涡旋混匀,室温静置2min,短暂离心后,置于磁力架上,吸附2min,将50μL上清液转移至新的PCR管中。
2.4末端修复
如表6所示,向二链合成产物中加入end prep mix4(供应商:诺唯赞;货号:ND607-02),涡旋混匀后,短暂离心。将配制好的反应液放入PCR仪,按照表7所示程序运行(热盖75℃)。
表6
组分 体积(μL)
二链合成产物 50
End Prep Mix4 15
总体积 65
表7
2.5接头连接
反应结束后,向上一步产物中加入表8所示试剂(供应商:诺唯赞;货号:ND607-02),涡旋混匀后,短暂离心,在20℃条件下孵育30min。
表8
组分 体积(μL)
末端修复产物 65
illumina接头Vazyme-S 2.5
Rapid ligation buffer2 25
Rapid DNA ligase 5
无酶无菌水 2.5
总体积 100
2.6接头连接产物纯化
反应结束后,向反应液中加入90μL VAHTS DNAClean Beads(供应商:诺唯赞;货号:N411-03),充分涡旋混匀后,室温孵育5min,短暂离心后置于磁力加上吸附5min,吸弃上清,加入180μL 80%乙醇孵育30sec后,吸弃上清,再加入180μL 80%乙醇孵育30sec后,吸弃上清。将反应管短暂离心,置于磁力架上,吸弃残留液体,室温干燥。5min后,加入22μLLow-TE缓冲液,涡旋混匀,室温静置2min,短暂离心后,置于磁力架上,吸附2min,将20μL上清液转移至新的PCR管中。
2.7 Index PCR扩增
向20μL接头连接产物中加入25ul VAHTS HiFi amplification mix和5ul IndexPrimer(供应商:诺唯赞;货号:N411-03),按照表9程序进行PCR扩增。
表9
2.8RNA预文库纯化
反应结束后,向反应液中加入45μL VAHTS DNA Clean Beads(供应商:诺唯赞;货号:N411-03)进行纯化,纯化操作同“2.6”步骤。5min后,加入42μL无酶无菌水,涡旋混匀,室温静置2min,短暂离心后,置于磁力架上,吸附2min,将40μL上清液转移至新的PCR管中。
2.9 RNA预文库质检
使用Qubit荧光计3.0(ThermoFisher)测量文库浓度。使用Agilent 2100测量文库片段长度,产物主带集中在~300bp,无接头二聚。
三、RNA预文库与98Gene RNA-Cap Gene Panel杂交捕获:
按照步骤如A-J所示进行16小时杂交捕获。
A.文库预封闭
将表10试剂加入到0.2mL低吸附离心管(Eppendorf)中,使用真空浓缩仪(Eppendorf)将离心管中溶液蒸干备用。
表10
B.探针与文库杂交
将13μL杂交缓冲液(0.33M Sodium phosphate buffer pH7.0、0.65%SDS(w/v)、1.31mM EDTA、1.31X SSC、2.62X Denhardt’s Solution、20%甲酰胺(v/v))加入到上述步骤的离心管中,涡旋混匀,室温孵育5分钟。
95℃变性10分钟,随后加入4μL 98Gene RNA-Cap Gene Panel(0.4fmol/probe/rxn),涡旋混匀,65℃孵育16小时。
C.清洗液准备
按照表11所示准备清洗缓冲液,其中,1X Wash Buffer S和部分1X Wash BufferI在65℃条件下预热30分钟后使用。
表11
1X Beads Wash Buffer:1M NaCl、10mM Tris-HCl pH 7.5、1mM EDTA、0.1%(v/v)Tween-20
1X Wash Buffer S:1X SSC、0.1%(v/v)Tween-20,pH 7.0
1X Wash Buffer I:1X SSC、0.1%(w/v)SDS,pH 7.0
1X Wash Buffer II:0.5X SSC,pH 7.0
1X Wash Buffer III:0.2X SSC,pH 7.0
D.链霉亲和素磁珠准备
将链霉亲和素磁珠(Dyna Beads M270,Invitrogen)从冰箱中(4℃)取出恢复到室温(约30分钟)。涡旋混匀15秒。取100μL链霉亲和素磁珠加入到新的1.5mL低吸附离心管中。将离心管放到磁力架上,直到溶液澄清。吸弃上清,切勿扰动磁珠。按以下步骤对链霉亲和素磁珠进行清洗:
(1)将离心管从磁力架上取下,加入200μL 1X Beads Wash Buffer,涡旋振荡10秒。
(2)将离心管瞬时离心,放到磁力架上,直到溶液澄清,吸弃上清,切勿扰动磁珠。
重复步骤(1)和(2)。
将离心管从磁力架上取下,加入100μL 1X Beads Wash Buffer。将离心管中的100μL磁珠重悬液转移到新的0.2mL低吸附离心管(Eppendorf)中待用。将离心管放到磁力架上,直到溶液澄清。吸弃上清,切勿扰动磁珠,立即进行后续实验步骤。
E.链霉亲和素磁珠捕获
将杂交混合物加入到含链霉亲和素磁珠的0.2mL低吸附离心管中。使用移液器轻柔吹吸10次混匀。使用PCR仪(热盖温度设置为75℃)65℃孵育45分钟。每12分钟涡旋混匀3秒,确保磁珠处于悬浮状态。
F.捕获后清洗
1.65℃清洗步骤:
将100μL预热的1X Wash Buffer I加入到含有杂交混合物的0.2mL低吸附离心管中。吹吸混匀后,将含有链霉亲和素磁珠的反应液转移到新的1.5mL低吸附离心管中。将离心管放置到磁力架上,直到溶液澄清,吸弃上清。
继续按以下步骤进行清洗:
(1)加入200μL预热的1X Wash Buffer S,吹吸或涡旋混匀后,在65℃条件下孵育5分钟。
(2)瞬时离心,将离心管放置到磁力架上,直到溶液澄清,吸弃上清。
重复步骤(1)和(2)。
2.室温清洗
加入200μL1X Wash Buffer I,涡旋混匀2分钟。将离心管瞬时离心,放置到磁力架上,直到溶液澄清,吸弃上清。加入200μL1X Wash Buffer II,涡旋混匀1分钟。将离心管瞬时离心,放置到磁力架上,直到溶液澄清,吸弃上清。加入200μL1X Wash Buffer III,涡旋混匀30秒。将离心管瞬时离心,放置到磁力架上,直到溶液澄清,吸弃上清。
3.磁珠重悬
立即加入20μL无酶无菌水。使用移液器吹吸10次,重悬磁珠,进入后续实验步骤。
G.PCR扩增
按照表12配制PCR反应体系。
表12
吹吸或低速涡旋混匀使磁珠保持悬浮状态,立即进入PCR步骤。使用PCR仪按表13程序运行,热盖温度105℃。
表13
H.PCR产物纯化
每个PCR管中加入75μL VAHTS DNAClean Beads(供应商:诺唯赞;货号:N411-03)。纯化操作如“2.6”步骤所述。使用22μL Tris-HCl(10mM,pH8.5)进行洗脱。转移20μL包含捕获文库的洗脱液到新的1.5mL低吸附离心管(Eppendorf)中。
I.文库质控
使用Qubit荧光计3.0(ThermoFisher)测量文库浓度。使用Agilent 2100测量文库片段长度,产物主带集中在320bp,无接头二聚。
四、高通量测序
将捕获文库采用Illumina NovaSeq6000测序仪进行PE150模式测序。
五、数据分析
使用Trimmomatic去除接头以及低质量序列得到clean data,然后使用Samtools提取98Gene RNA-Cap Panel目标区域的reads,统计目标基因的富集效率和覆盖参数。
如表14所示,两个RNA预文库(RNA-重复1#和RNA-重复2#)经98Gene RNA-CapPanel杂交捕获的测序数据,取1000Mb数据量进行分析,碱基质量Q20均为98.2%,数据Clean Ratio为94.5%和94.7%,高通量测序质量表现正常;目标基因的数据占比(中靶率)为81.2%和81.3%,富集效率~2700倍(表14)。
表14 RNA样本捕获数据表现
在目标基因覆盖率和覆盖深度方面,1)覆盖率小于100%的基因数量为11个,占总基因数量的11.2%,约1/10的基因不完全覆盖,并不清楚是由于样本中不存在相应的剪接体还是探针不工作造成的;2)相对覆盖深度小于0.2的基因数量为43个,占总基因数量的43.9%,约2/5的基因覆盖深度较低,并不清楚是由于样本中上述基因表达较低还是探针不工作导致(表15)。
对于目标基因的覆盖率,由于转录本存在不同的剪接(Transcript variant),根据数据库的转录本数据设计的探针,在具体的某个RNA样本中可能捕获不到相应的转录本。因此,基因覆盖率低于100%,可能是由于mRNA剪接差异造成,也有可能是探针不工作。
对于目标基因的覆盖深度,由于基因的表达量不同,会存在覆盖深度较低的基因,目前无法判定这些基因的覆盖深度是由于低表达造成的,还是探针不工作导致的。
前期研究发现利用不同的RNA样本的基因剪接和表达差异并不能对目标基因的覆盖率和覆盖深度进行互补验证。例如,从TCGA数据库中下载的多个细胞系样本的RNA-Seq数据,对上述98个基因的表达情况进行统计的结果是,低表达量基因即使在不同细胞系中也并未出现明显改善。
发明人的研究结果表明,由于转录本的不同剪接方式以及表达量差异,仅仅通过液相基因芯片98Gene RNA-Cap Panel捕获RNA样本的测序结果,无法判断某些目标基因的低覆盖率和低覆盖深度表现是否是探针性能问题所导致的。
表15 RNA样本捕获数据中基因覆盖表现
/>
/>
实施例2
1、DNA预文库构建:
对DNA样本构建预文库,两个重复(DNA-重复1#、DNA-重复2#),DNA样本信息:NA12878细胞系gDNA(Coriell)。
1.1超声打断:
取100ng NA12878 gDNA进行超声打断,打断大小为200bp(供应商:Covaris;型号:M220)。
1.2末端修复:
如表16所示,向二链合成产物中加入end prep mix4(供应商:诺唯赞;货号:ND607-02),涡旋混匀后,短暂离心。将配制好的反应液放入PCR仪,按照表17所示程序运行(热盖75℃)。
表16
组分 体积μL
100ng NA12878 gDNA超声产物 50
End Prep Mix4 15
总体积 65
表17
1.3接头连接:
反应结束后,向上一步产物中加入表18示试剂(供应商:诺唯赞;货号:ND607-02),涡旋混匀后,短暂离心,在20℃条件下孵育30min。
表18
组分 体积μL
末端修复产物 65
illumina接头Vazyme-S 2.5
Rapid ligation buffer2 25
Rapid DNA ligase 5
无酶无菌水 2.5
总体积 100
1.4接头连接产物纯化:
反应结束后,向反应液中加入90μL VAHTS DNA Clean Beads(供应商:诺唯赞;货号:N411-03)进行产物纯化,纯化操作同“实施例1之2.6步骤”所述。加入22μL Low-TE缓冲液洗脱,取20μL产物进入下一步反应。
1.5 Index PCR扩增
向20μL接头连接产物中加入25ul VAHTS HiFi amplification mix和5ul IndexPrimer(供应商:诺唯赞;货号:N411-03),按照表19程序进行PCR扩增。
表19
1.6 DNA预文库纯化:
反应结束后,向反应液中加入45μL VAHTS DNA Clean Beads(供应商:诺唯赞;货号:N411-03)进行产物纯化,纯化操作同“实施例1之2.6步骤”所述。加入42μL无酶无菌水缓冲液洗脱,将40μL上清液转移至新的PCR管中。
1.7 DNA预文库质检:
使用Qubit荧光计3.0(ThermoFisher)测量文库浓度。使用Agilent 2100测量文库片段长度,产物主带集中在320bp,无接头二聚。
2、RNA、DNA预文库测序
将RNA预文库(实施例1之步骤2.9)以及本实施例中的DNA预文库在illuminaNovaSeq6000高通量测序仪上测序,分别获得全转录组测序数据(WTS,RNA样本)和全基因组测序数据(WGS,DNA样本)。
3、数据分析
使用Trimmomatic去除接头以及低质量序列得到clean data,使用RefSeq109数据库中的19475个基因,统计WTS和WGS数据中的上述基因的覆盖率和覆盖深度情况(图2)。
1)目标基因的覆盖率:在WTS数据中,共有6252个基因的覆盖率小于100%(图2,A、B),占总基因数量的32.1%,在WGS数据中,共有695个基因的覆盖率小于100%,占总基因数量的3.6%(图3),两种测序数据的覆盖率小于100%的基因的交集为380个基因,占总基因数量的1.95%。
2)目标基因的覆盖深度:在WTS数据中,共有8418个基因的相对覆盖深度小于0.2(图2,C、D),占总基因数量的43.2%,在WGS数据中,共有418个基因的相对覆盖深度小于0.2,占总基因数量的2.1%,两种测序数据的相对覆盖深度小于0.2的基因的交集为329个基因,占总基因数量的1.69%(图3)。
3)将WTS和WGS数据中,目标基因的覆盖率均小于100%的380个基因与目标基因的相对覆盖深度均小于0.2的329个基因再取并集,共得到479个基因,占总基因数量的2.46%(图3),所述479个基因被定义为平行捕获的黑名单基因(表20)。这些基因即便通过平行捕获验证,也无法判定其是否正常工作。
上述结果表明,基因组测序可以对转录组数据的基因覆盖率和覆盖深度参数进行有效补充,如果进一步应用在捕获测序中,可解决mRNA剪接和表达差异的问题(图4)。对于近两万个人类基因而言(19475个基因),在理论上超过97.5%的基因可以通过RNA和DNA样本的平行捕获验证液相基因芯片的捕获性能。
表20平行捕获的黑名单基因
/>
实施例3
捕获实验操作如实施例1中“三、RNA预文库与98Gene RNA-Cap Gene Panel杂交捕获”步骤所述,不同点在于,使用实施例2中的DNA预文库(DNA-重复1#、DNA-重复2#)与98Gene RNA-Cap Gene Panel进行杂交捕获,随后在illumina NovaSeq6000高通量测序仪上测序。
使用Trimmomatic去除接头以及低质量序列得到clean data,然后使用Samtools提取98Gene RNA-Cap Panel目标区域的reads,统计目标基因的覆盖率和覆盖深度。
如表21所示,两个DNA预文库(DNA-重复1#、DNA-重复2#)经98Gene RNA-Cap Panel杂交捕获样本,取1000Mb数据量进行分析,碱基质量Q20为98.4%和98.5%,数据CleanRatio为93.2%和93.5%,高通量测序质量表现正常;目标基因的数据占比(中靶率)为69.8%和69.9%,富集效率为~9800倍,证明98Gene RNA-Cap Gene Panel仍然适用于基因组的富集。
表21 98Gene RNA-Cap Gene Panel捕获DNA样本的数据表现
RNA捕获数据中覆盖率小于100%的基因为11个,这些基因在DNA捕获中覆盖率均为100%(表22),说明探针工作正常,而在RNA捕获中覆盖不完全,可能是mRNA剪接方式的原因。
RNA捕获数据中相对覆盖深度小于0.2的基因数量为43个,这些基因在DNA捕获中的相对覆盖深度集中在0.8~1.2之间(表23),均一性优异,证明上述探针的捕获能力正常。
上述结果表明,通过DNA样本捕获,可以有效克服RNA样本中存在的mRNA剪接和表达差异干扰,有效评估液相基因芯片中的探针性能。
表22平行捕获的目标基因覆盖率
表23平行捕获的目标基因覆盖深度(相对覆盖深度)
/>
实施例4
在经过DNA样本捕获验证后,目标基因覆盖率和覆盖深度均达到质控要求(覆盖率100%,相对覆盖深度≥0.2)。随后,我们使用质控合格的98Gene RNA-Cap Gene Panel对RNA融合标准品(供应商:菁良;货号:GW-OPSM005)进行杂交捕获测序。
RNA预文库构建和98Gene RNA-Cap Gene Panel杂交捕获实验操作如分别按照实施例1所述,随后在illumina NovaSeq6000高通量测序仪上测序。
使用Trimmomatic去除接头以及低质量序列得到clean data,然后使用STAR进行序列比对,最后使用STAR-fusion进行融合基因分析。分析结果表明,对于6个已知阳性的融合基因,98Gene RNA-Cap Gene Panel均可有效检出,证明开发的针对转录本序列设计的液相基因芯片的质控方法是可行的。
表24 98Gene RNA-Cap Gene Panel融合基因检测
/>
综上所述,由于RNA样本中存在的mRNA剪接和表达差异干扰,仅仅通过RNA捕获,无法准确的测量液相基因芯片中探针的工作效率,其中就包括基因的覆盖率和覆盖深度。在比较了全转录组与全基因组的测序结果后,我们得到了通过基因组的捕获性能评估探针工作效率的启示。
将针对转录本序列设计的98Gene RNA-Cap Gene Panel与DNA预文库进行杂交捕获,然后进行高通量测序,结果表明,在RNA样本中覆盖不完全(覆盖率小于100%)和覆盖深度较低(相对覆盖深度小于0.2)的区域,在DNA捕获数据中完全表现正常,证明98Gene RNA-Cap Gene Panel中的探针工作有效。
转录本序列设计,针对RNA靶向测序的液相基因芯片在设计、合成完成后,需要评估其性能,本专利方法有效克服了mRNA剪接和表达差异的干扰,能够准确评估液相基因芯片性能。
尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims (3)

1. 一种RNA靶向测序液相基因芯片优化方法,其特征在于,包括:
(a) 根据RNA靶向测序基因芯片的质控方法来确定所述液相基因芯片的目标片段中的黑名单的步骤,其中目标片段长度为1000bp以上且1Mb以下;和
(b) 对于黑名单目标片段进一步设计优化探针的步骤;
所述RNA靶向测序基因芯片的质控方法包括以下步骤:
(1) 通过以下步骤分别提供DNA预文库和RNA预文库:
RNA预文库构建包括一链合成、二链合成、二链合成产物纯化、末端修复、接头连接、接头连接产物纯化、Index PCR扩增、RNA预文库纯化和RNA预文库质检;
DNA预文库构建包括超声打断、末端修复、接头连接、接头连接产物纯化、Index PCR扩增、DNA预文库纯化和DNA预文库质检;
(2) 获得第一测序数据即WGS数据和第二测序数据即WTS数据的步骤,其中,第一测序数据为利用基因芯片对所述DNA预文库进行杂交捕获及测序而得到数据,第二测序数据为利用基因芯片对所述RNA预文库同时进行平行杂交捕获及测序而得到的数据;和
(3) 利用所述第一测序数据和所述第二测序数据的参数来评估所述基因芯片的性能;
其中,所述基因芯片为针对CDS转录本序列设计的液相基因芯片,其为由大小均一的圆形微球为主要基质构成的液相体系,且每种微球上固定有不同的探针,所述探针是根据目标片段的转录本设计的单链DNA探针,其长度为90 - 150nt,所述基因芯片包括多条探针,从而组成探针组,探针组中各探针排布为一重或多重覆盖目标区域;
所述评估包括去除接头以及低质量序列得到clean data,使用RefSeq109数据库中的19475个基因,统计WTS和WGS数据中的基因的覆盖率和覆盖深度情况,当第一测序数据中目标片段的覆盖率和/或覆盖深度以及第二捕获数据中所述目标片段的覆盖率和/或覆盖深度均小于规定阈值0.2时,则将所述目标片段对应的探针认定为工作无效,通过该步骤认定的探针或其对应的目标片段列为基因芯片的黑名单。
2.根据权利要求1所述的方法,其中,当第一测序数据中目标片段的覆盖率和覆盖深度分别大于规定阈值,而第二测序数据所述目标片段的覆盖率和覆盖深度分别小于规定阈值时,则所述目标片段对应的探针工作有效。
3.根据权利要求1所述的方法,其中,所述DNA预文库和所述RNA预文库分别来自于同一样本或不同样本。
CN202211036510.5A 2022-08-03 2022-08-03 Rna靶向测序基因芯片的质控方法及应用 Active CN115747320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211036510.5A CN115747320B (zh) 2022-08-03 2022-08-03 Rna靶向测序基因芯片的质控方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211036510.5A CN115747320B (zh) 2022-08-03 2022-08-03 Rna靶向测序基因芯片的质控方法及应用

Publications (2)

Publication Number Publication Date
CN115747320A CN115747320A (zh) 2023-03-07
CN115747320B true CN115747320B (zh) 2024-02-02

Family

ID=85349352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211036510.5A Active CN115747320B (zh) 2022-08-03 2022-08-03 Rna靶向测序基因芯片的质控方法及应用

Country Status (1)

Country Link
CN (1) CN115747320B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649875B (zh) * 2023-12-15 2024-05-31 石家庄博瑞迪生物技术有限公司 一种基于探针捕获技术的分子检测样本质控方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105297142A (zh) * 2015-08-19 2016-02-03 南方科技大学 同时对单细胞基因组和转录组构库及测序的方法基于单细胞整合基因组学的测序方法及应用
CN106835291A (zh) * 2016-12-14 2017-06-13 广州燃石医学检验所有限公司 Dna 文库的制备方法以及试剂盒
CN108486235A (zh) * 2018-03-07 2018-09-04 北京圣谷智汇医学检验所有限公司 一种高效经济检测融合基因的方法和体系

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105297142A (zh) * 2015-08-19 2016-02-03 南方科技大学 同时对单细胞基因组和转录组构库及测序的方法基于单细胞整合基因组学的测序方法及应用
CN106835291A (zh) * 2016-12-14 2017-06-13 广州燃石医学检验所有限公司 Dna 文库的制备方法以及试剂盒
CN108486235A (zh) * 2018-03-07 2018-09-04 北京圣谷智汇医学检验所有限公司 一种高效经济检测融合基因的方法和体系

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Joint single cell DNA-seq and RNA-seq of gastric cancer cell lines reveals rules of in vitro evolution;Noemi Andor等;NAR Genomics and Bioinformatics;第第2卷卷(第第2期期);第1-13页,补充信息共计28页 *
孙凯等.液相芯片技术在小分子RNA检测分析中的应用.中华医学杂志.2006,第第86卷卷(第第20期期),第1437-1439页. *
液相芯片技术在小分子RNA检测分析中的应用;孙凯等;中华医学杂志;第第86卷卷(第第20期期);第1437-1439页 *
转录组测序技术的研究和应用进展;崔凯等;生物技术通报;第第35卷卷(第第7期期);第1-9页 *

Also Published As

Publication number Publication date
CN115747320A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
WO2016037416A1 (zh) 泡状接头及其在核酸文库构建及测序中的应用
AU2021224760A1 (en) Capturing genetic targets using a hybridization approach
JP7232643B2 (ja) 腫瘍のディープシークエンシングプロファイリング
CN110079592B (zh) 用于检测基因突变和已知、未知基因融合类型的高通量测序靶向捕获目标区域的探针和方法
KR102592367B1 (ko) 게놈 및 치료학적 적용을 위한 핵산 분자의 클론 복제 및 증폭을 위한 시스템 및 방법
CN111808854B (zh) 带有分子条码的平衡接头及快速构建转录组文库的方法
WO2013041021A1 (zh) 一种分析基因表达定量的方法
CN111979307B (zh) 用于检测基因融合的靶向测序方法
CN110760936B (zh) 构建dna甲基化文库的方法及其应用
CN112877403B (zh) 构建靶序列的测序文库的方法
CN111321202A (zh) 基因融合变异文库构建方法、检测方法、装置、设备及存储介质
CN109234357B (zh) 一种用于检测靶基因是否发生融合突变的方法、引物组合、试剂盒及其应用
WO2018028001A1 (zh) 特异捕获并重复复制低频率dna碱基变异的方法及应用
CN115747320B (zh) Rna靶向测序基因芯片的质控方法及应用
CN115786459B (zh) 一种应用于高通量测序检测实体瘤微小残留病的方法
CN109628573B (zh) 一种用于无创产前检测12种染色体微缺失微重复综合征的试剂盒及其专用探针组
CN101955994A (zh) Npm1基因突变的联合检测方法及诊断试剂盒
WO2020135347A1 (zh) 一种dna甲基化检测的方法、试剂盒、装置和应用
CN112280864B (zh) 一种甲状腺多基因联合检测试剂盒
CN116479093A (zh) 基于crispr荧光法的犀牛核酸快速检测方法及检测试剂盒
WO2020259303A1 (zh) 一种快速构建rna 3'端基因表达文库的方法
TW202129008A (zh) 檢測異檸檬酸脫氫酶突變的套組及方法
CN111961763A (zh) 一种新型冠状病毒检测基因芯片
CN117286229B (zh) 一种mhc区域三维基因组结构的高通量长读长测序方法
CN113930487B (zh) 一种新型多样本多片段dna甲基化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant