JP2023524722A - 遺伝子の突然変異及び発現量を検出する方法及び装置 - Google Patents
遺伝子の突然変異及び発現量を検出する方法及び装置 Download PDFInfo
- Publication number
- JP2023524722A JP2023524722A JP2022566482A JP2022566482A JP2023524722A JP 2023524722 A JP2023524722 A JP 2023524722A JP 2022566482 A JP2022566482 A JP 2022566482A JP 2022566482 A JP2022566482 A JP 2022566482A JP 2023524722 A JP2023524722 A JP 2023524722A
- Authority
- JP
- Japan
- Prior art keywords
- gene
- analysis
- expression level
- expression
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Zoology (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
【要約】本発明は、遺伝子の突然変異及び発現量を検出する方法及び装置を開示する。該方法は、RNAを抽出し、破壊し、逆転写して、cDNAを得るS1と、cDNAで遺伝子ライブラリーを構築するS2と、キャプチャープローブを利用してターゲット領域に特異的にハイブリダイゼーションして遺伝子ライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するS3と、ハイスループットシーケンサーでシークエンシングして、RNA標的シークエンシングデータを取得するS4と、RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するS5と、を含み、S5は、具体的には、遺伝子発現量の分析S51と、遺伝子過剰発現分析S52と、遺伝子融合分析S53と、融合に属する突然変異の発現量の分析S54と、単一ヌクレオチド変異の分析S55と、単一ヌクレオチド変異の突然変異の発現量の分析S56と、を含む。本発明は、腫瘍関連遺伝子によって発現されるRNA転写物を効率的に濃縮し、腫瘍組織内のこれらの腫瘍遺伝子の発現量及び突然変異状況を分析することができる。【選択図】図1
Description
本発明は、生物学的技術分野に関し、具体的には、遺伝子の突然変異及び発現量を検出する方法及び装置に関する。
遺伝子突然変異とは、ゲノムDNA分子に、突然の、遺伝的変異(genemutation)が発生する現象である。分子レベルから見ると、遺伝子変異とは、遺伝子の構造の塩基対の構成又は配列順次の変化が生じることである。遺伝子が十分に安定し、細胞分裂に正確に複製できるが、このような安定性は相対的である。所定の条件において、遺伝子は元の存在形態から別の新しい存在形態に突然変化することもでき、つまり、1つの部位に新しい遺伝子が突然生じ、既存の遺伝子を代替し、この遺伝子は突然変異遺伝子と呼ばれる。それにより、先祖には存在しなかった新しい性状が子孫の表現に突然に現れる。
遺伝子突然変異は生物学的進化の重要な要素の1つであるため、遺伝子突然変異の研究にはその理論的重要性に加えて幅広い生物学的意義を有する。一部の遺伝子突然変異は染色体の構造的変異によって引き起こされる。自然条件又は人的要因の影響により、染色体に生じる構造的変異としては、主に欠失、重複、逆位、転座が挙げられ、遺伝子融合も染色体に生じる構造的変異の一つである。
シークエンシング技術の開発、及びコストの削減に伴い、人間の健康の分野では、ヒト全ゲノムのシークエンシングは必ず今後の主な傾向であり、プレシジョンメディシンはシークエンシングの最終的な目的になる。ヒトゲノムの変異の正確なアノテーションは、プレシジョンメディシンを実現するための必要な手段である。
従来、通常の方法は、一般的には全ゲノムシークエンシングWGS又はDNApanelを利用してSNV、CNV及び融合の検出を行う。しかし、DNAレベルでの突然変異の検出は、転写レベルでの突然変異の実際の表現を反映することができない。
本発明は、遺伝子の突然変異及び発現量を検出するために、遺伝子の突然変異及び発現量を検出する方法及び装置を提供することを目的とする。
本発明のRNA標的シークエンシング(targetedRNAsequencing)に基づく遺伝子突然変異(遺伝子融合を含む)及び表現量の検出方法は、腫瘍関連遺伝子によって発現されるRNA転写物を効率的に濃縮し、かつこれらの遺伝子によって発現される転写物における、融合、一塩基及び多塩基置換(SNV/MNV)、挿入及び欠失突然変異(indel)等を含む複数種の突然変異タイプを完全に検出するとともに腫瘍組織内のこれらの腫瘍ドライバー遺伝子の発現量を分析することができる。
従来技術では、一般的には全ゲノムシークエンシングWGS又はDNApanelを利用してSNV、CNV及び融合の検出を行う。従来方法のDNAレベルでの突然変異の検出は、転写レベルでの突然変異の実際の表現を反映できず、RNAを利用して突然変異の検出を行うと、機能的関連性がより高くなる。例えば、2つのSNVの突然変異頻度がいずれも1%であるが、発現量が異なるため、突然変異の臨床影響が異なる。本発明は、RNAseqの一般的な遺伝子発現量、遺伝子融合を検出できるだけではなく、DNApanelのSNV及びCNVを検出でき、かつ、様々な突然変異の発現量を検出することができる。1回の検出により、すべての突然変異タイプ及び相対発現量を覆うことを実現する。
本発明のシステムは、全トランスクリプトームを検出するRNAseqと比較して、ターゲット遺伝子を標的とするRNApanelを実行し、シークエンシング費用が低く、かつターゲット領域を顕著に濃縮することができ、特に低発現の遺伝子又は突然変異に対する検出敏感性がより高い。かつ、DNApanelの設計がエクソン及びイントロンを含む必要があることと比較して、RNA標的シークエンシングpanelの設計はエクソン領域を含むだけでよく、それにより、プローブ及びシークエンシングコストをより節約し、臨床キットの開発により適用する。
上記目的を実現するために、本発明の一態様によれば、遺伝子の突然変異及び発現量を検出する方法を提供する。該方法は、検出対象サンプルのRNAを抽出し、検出対象サンプルのRNAを破壊し、逆転写して、cDNAを得るS1と、cDNAに対して末端修復、アダプターライゲーション及びライブラリー濃縮のステップを行って遺伝子ライブラリーを構築するS2と、キャプチャープローブを利用してターゲット領域に特異的にハイブリダイゼーションして遺伝子ライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するS3と、ハイスループットシーケンサーでシークエンシングして、RNA標的シークエンシングデータを取得するS4と、前記RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するS5と、を含み、S5は、具体的には、RPKM法を使用して検出サンプル中のターゲット遺伝子の発現量を定量的に評定する遺伝子発現量の分析S51と、ベースラインサンプル集団を引き出し、ターゲット遺伝子のRPKM値分布を分析して、ターゲット遺伝子発現量レベルの閾値を決定し、検出対象サンプルのターゲット遺伝子のRPKM値に基づき、検出対象サンプルのターゲット遺伝子が過剰発現であるか否かを判断する遺伝子過剰発現分析S52と、同じ遺伝子ファミリーに属する融合遺伝子、同じパラロググループに属する融合遺伝子、及び同じ遺伝子モデルに由来する融合遺伝子をフィルタリングし捨て、また、閾値に基づいて条件を満たさない融合遺伝子をフィルタリングして、検出サンプル中の融合遺伝子を取得する遺伝子融合分析S53と、ハウスキーピング遺伝子発現の定量結果及びS53で取得された遺伝子融合分析の結果に基づいて発現量の校正及び標準化を行って、融合遺伝子の相対発現量を得る融合に属する突然変異の相対発現量の分析S54と、遺伝子アラインメントによって変異した単一ヌクレオチドを決定する単一ヌクレオチド変異の分析S55と、単一ヌクレオチド変異の分析結果、ハウスキーピング遺伝子発現の定量結果、及び配列アラインメントの統計結果に基づき、単一ヌクレオチド変異の発現の定量分析を行って、単一ヌクレオチド変異の発現量を得る単一ヌクレオチド変異の発現量の分析S56と、を含む。
さらに、S5は、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングしかつ精度管理を行った後に、標準に適合するデータを得てRNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析することをさらに含み、精度管理ステップは、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングして得られたシークエンシングデータを参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、1)配列再付着(reattach)アラインメント率の閾値≧80%、2)ターゲット領域のデータ量の閾値≧2M、3)発現したハウスキーピング遺伝子の個数≧4という3つの指標に適合する場合、後の分析を行うことを含む。
さらに、S54において、発現量の校正及び標準化に使用される標準化式は下式である。
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
さらに、S4においてペアエンドモード又はシングルエンドモードでシークエンシングする。さらに、S56において、単一ヌクレオチド変異の発現量の計算式は以下のとおりである。
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
本発明の別の態様によれば、遺伝子の突然変異及び発現量を検出する装置を提供する。該装置は、検出対象サンプルのRNAを抽出し、検出対象サンプルのRNAを破壊し、逆転写して、cDNAを得るように設置されるRNA抽出モジュールと、cDNAに対して末端修復、アダプターライゲーション及びライブラリー濃縮のステップを行って遺伝子ライブラリーを構築するように設置される遺伝子ライブラリー構築モジュールと、キャプチャープローブを利用してターゲット領域に特異的にハイブリダイゼーションして遺伝子ライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するように設置されるターゲット遺伝子濃縮モジュールと、ハイスループットシーケンサーでシークエンシングして、RNA標的シークエンシングデータを取得するように設置されるシークエンシングモジュールと、RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するように設置される分析モジュールと、を含み、分析モジュールは、具体的には、RPKM法を使用して検出サンプル中のターゲット遺伝子の発現量を定量的に評定するように設置される遺伝子発現量の分析サブモジュールと、ベースラインサンプル集団を引き出し、ターゲット遺伝子のRPKM値分布を分析して、ターゲット遺伝子発現量レベルの閾値を決定し、検出対象サンプルのターゲット遺伝子のRPKM値に基づき、検出対象サンプルのターゲット遺伝子が過剰発現であるか否かを判断するように設置される遺伝子過剰発現分析サブモジュールと、同じ遺伝子ファミリーに属する融合遺伝子、同じパラロググループに属する融合遺伝子、及び同じ遺伝子モデルに由来する融合遺伝子をフィルタリングし捨て、また、閾値に基づいて条件を満たさない融合遺伝子をフィルタリングして、検出サンプル中の融合遺伝子を取得するように設置される遺伝子融合分析サブモジュールと、ハウスキーピング遺伝子発現の定量結果及び遺伝子融合分析サブモジュールから取得された遺伝子融合分析の結果に基づいて発現量の校正及び標準化を行って、融合遺伝子の相対発現量を得るように設置される融合に属する突然変異の相対発現量の分析サブモジュールと、遺伝子アラインメントによって変異した単一ヌクレオチドを決定するように設置される単一ヌクレオチド変異分析サブモジュールと、単一ヌクレオチド変異の分析結果、ハウスキーピング遺伝子発現の定量結果、及び配列アラインメントの統計結果に基づき、単一ヌクレオチド変異の発現の定量分析を行って、単一ヌクレオチド変異の発現量を得るように設置される単一ヌクレオチド変異の発現量の分析サブモジュールと、を含む。
さらに、分析モジュールは、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングしかつ精度管理を行った後に、標準に適合するデータを得てRNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するように設置されるフィルタリングサブモジュールをさらに含み、精度管理は、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングして得られたシークエンシングデータを参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、1)配列再付着アラインメント率の閾値≧80%、2)ターゲット領域のデータ量の閾値≧2M、3)発現したハウスキーピング遺伝子の個数≧4という3つの指標に適合する場合、後の分析を行う。
さらに、融合に属する突然変異の発現量の分析サブモジュールでは、発現量の校正及び標準化に使用される標準化式は以下のとおりである。
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
さらに、シークエンシングモジュールではペアエンドモード又はシングルエンドモードでシークエンシングする。
さらに、単一ヌクレオチド変異の発現量の分析サブモジュールでは、単一ヌクレオチド変異の発現量の計算式は以下のとおりである。
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
本発明の技術案を用いると、検出対象サンプルの全RNA又はmRNAを検出対象として、RNA標的シークエンシング(targetedRNAsequencing)方法により、腫瘍関連遺伝子によって発現されるRNA転写物を効率的に濃縮し、かつこれらの遺伝子によって発現される転写物における、融合、一塩基及び多塩基置換(SNV/MNV)、挿入欠失突然変異(indel)等を含む複数種の突然変異タイプを完全に検出するとともに腫瘍組織内のこれらの腫瘍遺伝子の発現量を分析することができる。
本願の一部を構成する明細書の添付図面は本発明の更なる理解のために提供し、本発明の例示的な実施例及びその説明は本発明を説明するためのものであり、本発明の不適切な限定を構成できない。図面は、下記の通りである。
なお、矛盾がない場合、本願の実施例及び実施例の特徴は、互いに組み合わせることができる。以下、図面を参照して実施例と結合して本発明を詳細に説明する。
液相プローブによってキャプチャーされるRNA標的シークエンシングは、従来のRNA-seqと比較して、超高レベルのシークエンシングレベルで主な腫瘍ドライバー遺伝子によって発現される転写物及び融合に属する突然変異、活性化に属する突然変異、薬剤耐性突然変異を覆い、かつハウスキーピング遺伝子に対するすべての転写物の相対発現量情報を保持することができる。かつ、少量の腫瘍ターゲット遺伝子のみを覆うため、シークエンシングデータ量が少なく、コストが低く、臨床検出キットの開発により適用する。
DNAと比較して、RNAは下流の機能性タンパク質により近く、細胞機能経路の活性状態を解釈することにより適する。しかし、RNAで体細胞突然変異SNV/Indelを検出することが少なく、RNA発現量でDNAのコピー数分析を置換することもなく、主に、検出の精度に影響を与える要素がいくつかあるためであり、これらの要素は主に以下を含む。1)一本鎖、2)反転エラー、3)RNA品質に起因するノイズ、4)発現量の影響により、非発現の突然変異が検出できないこと、及び5)転写レベルの突然変異により不一致を引き起こすこと等。これらの技術的課題に対して、本発明は、技術的な改善を行い、主に以下を含む。1)SNV/Indelの遺伝子リストを定着すること及びRNASNV突然変異のフィルタリング標準を最適化することによる、活性化に属する突然変異及び薬剤耐性突然変異SNV/indelの精度の向上、2)突然変異対立遺伝子転写物及び野生型対立遺伝子の相対発現量、3)融合に属する突然変異及び薬剤耐性点突然変異のシス(cis)分析及び相対発現量の関連分析、4)腫瘍ドライバー遺伝子のコピー数の増加と発現量との対応関係を確立し、RNA発現量でDNAのコピー数分析を置換することができること。
また、従来技術では、DNApanelは融合検出において検出漏れの問題があり(原因は、DNAレベルの複雑な構造的変異によるRNAレベルの融合、又はDNApanelプローブに、ブレイクポイントが覆われていないこと等である)、従って、融合検出はRNA法を補充とする必要がある。固形腫瘍に対する標的薬の実用的な突然変異(actionablemutations)は、SNV/indel/CNVを主として、従って、臨床サンプルNGSの一次スクリーニングはDNA法を主とし、RNA又はFISH/IHC等のレビュー法を補助とし、プロセスが複雑であり、サンプルの需要量が高く、コストが高い等の問題をもたらす。本発明の古典的な実施例では、本発明は、ハイスループットシークエンシング(NGS)によってpanel内の腫瘍の主なTKI標的薬を含むすべての突然変異タイプをキャプチャーし、操作プロセスを大幅に簡略化し、サンプルを節約し、コストが削減する場合でのシークエンシングの深さを増やし、融合に属する突然変異と活性化点突然変異の精度を向上させ、かつドライバー遺伝子の発現量及び突然変異対立遺伝子の特異的発現量等のDNApanelが提供できない情報を取得し、腫瘍標的薬の選択に補助参照を提供する。
本発明のRNA標的シークエンシング(targetedRNAsequencing)に基づく遺伝子の突然変異(遺伝子融合を含む)及び発現量の検出方法は、腫瘍関連遺伝子によって発現されるRNA転写物を効率的に濃縮し、かつこれらの遺伝子によって発現される転写物における、融合、一塩基及び多塩基置換(SNV/MNV)、挿入欠失突然変異(indel)等を含む複数種の突然変異タイプを完全に検出するとともに、腫瘍組織内のこれらの腫瘍ドライバー遺伝子の発現量を分析することができる。
なお、矛盾がない場合、本願の実施例及び実施例の特徴は、互いに組み合わせることができる。以下、図面を参照して実施例と結合して本発明を詳細に説明する。
本発明の実施形態では、RNA標的シークエンシングデータの取得方法は、FFPEサンプルから全RNAを抽出し、リボソームRNAを除去する必要がなく、サンプル全RNAを破壊し、かつcDNAに逆転写するステップと、末端修復、アダプターライゲーション及びライブラリー濃縮を含むステップによって遺伝子ライブラリーを構築するステップと、キャプチャープローブはターゲット領域に特異的にハイブリダイゼーションできる核酸プローブを利用して、構築されるcDNAライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するステップと、ハイスループットシーケンサーを利用してペアエンドモードでシークエンシングし、それによりRNA標的シークエンシングデータを取得するステップと、を含む。
本発明の典型的な実施形態によれば、遺伝子の突然変異及び発現量を検出する方法を提供する。図1に示すように、該方法は、検出対象サンプルのRNAを抽出し、検出対象サンプルのRNAを破壊し、逆転写して、cDNAを得るS1と、cDNAに対して末端修復、アダプターライゲーション及びライブラリー濃縮のステップを行って遺伝子ライブラリーを構築するS2と、キャプチャープローブを利用してターゲット領域に特異的にハイブリダイゼーションして遺伝子ライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するS3と、ハイスループットシーケンサーでシークエンシングして、RNA標的シークエンシングデータを取得するS4と、RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するS5と、を含み、S5は、具体的には、RPKM法を使用して検出サンプル中のターゲット遺伝子の発現量を定量的に評定する遺伝子発現量の分析S51と、ベースラインサンプル集団を引き出し、ターゲット遺伝子のRPKM値分布を分析して、ターゲット遺伝子発現量レベルの閾値を決定し、検出対象サンプルのターゲット遺伝子のRPKM値に基づき、検出対象サンプルのターゲット遺伝子が過剰発現であるか否かを判断する遺伝子過剰発現分析S52と、同じ遺伝子ファミリーに属する融合遺伝子、同じパラロググループに属する融合遺伝子、及び同じ遺伝子モデルに由来する融合遺伝子をフィルタリングし、また、閾値に基づいて条件を満たさない融合遺伝子をフィルタリングし捨てて、検出サンプル中の融合遺伝子を取得する遺伝子融合分析S53と、ハウスキーピング遺伝子発現の定量結果及びS53で取得された遺伝子融合分析の結果に基づいて発現量の校正及び標準化を行って、融合遺伝子の相対発現量を得る融合に属する突然変異の相対発現量の分析S54と、遺伝子アラインメントによって変異した単一ヌクレオチドを決定する単一ヌクレオチド変異の分析S55と、単一ヌクレオチド変異の分析結果、ハウスキーピング遺伝子発現の定量結果、及び配列アラインメントの統計結果に基づき、単一ヌクレオチド変異の発現の定量分析を行って、単一ヌクレオチド変異の発現量を得る単一ヌクレオチド変異の発現量の分析S56と、を含む。
具体的には、本発明の一実施形態では、S5は、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングしかつ精度管理を行った後、標準に適合するデータを得てRNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析することをさらに含み、精度管理ステップは、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングして得られたシークエンシングデータを参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、1)配列再付着アラインメント率の閾値≧80%、2)ターゲット領域のデータ量の閾値≧2M、3)ハウスキーピング遺伝子発現個数≧4という3つの指標に適合する場合、後の分析を行うことを含む。
好ましくは、S54において、発現量の校正及び標準化に使用される標準化式は以下のとおりである。
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
好ましくは、S56において、単一ヌクレオチド変異の発現量の計算式は以下のとおりである。
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
本発明の上記方法を容易に実施するために、本発明の一典型的な実施形態によれば、遺伝子の突然変異及び発現量を検出する装置を提供する。該装置は、RNA抽出モジュールと、遺伝子ライブラリー構築モジュールと、ターゲット遺伝子濃縮モジュールと、シークエンシングモジュールと、分析モジュールとを含み、RNA抽出モジュールは、検出対象サンプルの全RNA又はmRNAを抽出し、検出対象サンプルのRNAを破壊し、逆転写して、cDNAを得るように設置され、遺伝子ライブラリー構築モジュールは、cDNAに対して末端修復、アダプターライゲーション及びライブラリー濃縮のステップを行って遺伝子ライブラリーを構築するように設置され、ターゲット遺伝子濃縮モジュールは、キャプチャープローブを利用してターゲット領域に特異的にハイブリダイゼーションして遺伝子ライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するように設置され、シークエンシングモジュールは、ハイスループットシーケンサーでシークエンシングして、RNA標的シークエンシングデータを取得するように設置され、分析モジュールは、RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するように設置され、分析モジュールは、具体的には、遺伝子発現量の分析サブモジュールと、遺伝子過剰発現分析サブモジュールと、遺伝子融合分析サブモジュールと、融合に属する突然変異の発現量の分析サブモジュールと、単一ヌクレオチド変異分析サブモジュールと、単一ヌクレオチド突然変異の発現量の分析サブモジュールとを含み、遺伝子発現量の分析サブモジュールは、RPKM法を使用して検出サンプル中のターゲット遺伝子の発現量を定量的に評定するように設置され、遺伝子過剰発現分析サブモジュールは、ベースラインサンプル集団を引き出し、ターゲット遺伝子のRPKM値分布を分析して、ターゲット遺伝子発現量レベルの閾値を決定し、検出対象サンプルのターゲット遺伝子のRPKM値に基づき、検出対象サンプルのターゲット遺伝子が過剰発現であるか否かを判断するように設置され、遺伝子融合分析サブモジュールは、同じ遺伝子ファミリーに属する融合遺伝子、同じパラロググループに属する融合遺伝子、同じ遺伝子モデルに由来する融合遺伝子をフィルタリングし捨て、また、閾値に基づいて条件を満たさない融合遺伝子をフィルタリングして、検出サンプル中の融合遺伝子を取得するように設置され、融合に属する突然変異の相対発現量の分析サブモジュールは、ハウスキーピング遺伝子発現の定量結果及び遺伝子融合分析サブモジュールから取得された遺伝子融合分析の結果に基づいて発現量の校正及び標準化を行って、融合遺伝子の相対発現量を得るように設置され、単一ヌクレオチド変異分析サブモジュールは、遺伝子のアラインメントによって変異単一ヌクレオチドを決定するように設置され、単一ヌクレオチド変異の発現量の分析サブモジュールは、単一ヌクレオチド変異の分析結果、ハウスキーピング遺伝子発現の定量結果、及び配列アラインメントの統計結果に基づき、単一ヌクレオチド変異の発現の定量分析を行って、単一ヌクレオチド変異の発現量を得るように設置される。
具体的には、本発明の一実施形態では、分析モジュールは、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングしかつ精度管理を行った後、標準に適合するデータを得てRNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するように設置されるフィルタリングサブモジュールをさらに含み、精度管理は、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングして得られたシークエンシングデータを参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、1)配列再付着アラインメント率の閾値≧80%、2)ターゲット領域のデータ量の閾値≧2M、3)ハウスキーピング遺伝子発現個数≧4という3つの指標に適合する場合、後の分析を行うことを含む。
好ましくは、遺伝子融合分析サブモジュールでは、閾値は表1に示される。
好ましくは、融合に属する突然変異の発現量の分析サブモジュールでは、発現量の校正及び標準化に使用される標準化式は以下のとおりである。
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表す。)
好ましくは、単一ヌクレオチド突然変異の発現量の分析サブモジュールでは、単一ヌクレオチド変異の発現量の計算式は以下のとおりである。
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
(ここで、GeneAverageDepthは遺伝子の平均深さを表し、
ALTcountは突然変異の深さを表し、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算することを表す。)
従来技術では、一般的には全ゲノムシークエンシングWGS又はDNApanelを利用してSNV、CNV及び融合の検出を行う。従来方法のDNAレベルでの突然変異の検出は、転写レベルでの突然変異の実際の表現を反映できず、RNAを利用して突然変異を検出すると、機能的関連性が高くなる。例えば、2つのSNVの突然変異頻度がいずれも1%であるが、発現量が異なるため、突然変異の臨床影響が異なる。本発明は、RNAseqの一般的な遺伝子発現量、遺伝子融合を検出できるだけではなく、DNApanelのSNV及びCNVを検出でき、かつ、様々な突然変異の発現量を検出することができる。1回の検出により、すべての突然変異タイプ及び相対発現量を覆うことを実現する。
本発明のシステムは、全トランスクリプトームを検出するRNAseqと比較して、ターゲット遺伝子を標的とするRNApanelを実行し、シークエンシング費用が低く、かつターゲット領域を顕著に濃縮することができ、特に低発現の遺伝子又は突然変異に対する検出敏感性が高い。かつ、DNApanelの設計がエクソン及びイントロンを覆う必要があることと比較して、RNA標的シークエンシングpanelの設計はエクソン領域のみを覆うだけでよく、それにより、プローブ及びシークエンシングコストをより節約し、臨床キットの開発により適用する。
以下、実施例と組み合わせて本発明の有益な効果をさらに説明する。
実施例
一、実験
1.RNA抽出:
肺ガン患者のパラフィン包埋病理切片を使用し、QiagenのRNeasyFFPEKit(CatNo./ID:73504)で全RNA抽出を行った。QubitRNAHSでRNAの含有量を測定し、Labchip検出でRNAに対する精度管理を検出した。
肺ガン患者のパラフィン包埋病理切片を使用し、QiagenのRNeasyFFPEKit(CatNo./ID:73504)で全RNA抽出を行った。QubitRNAHSでRNAの含有量を測定し、Labchip検出でRNAに対する精度管理を検出した。
2.ハイブリダイゼーション前のヌクレオチドライブラリーの製造:
ABclonal社のmRNA-seqLibPrepModuleforilluminaでヌクレオチドライブラリーを構築し、cDNAの逆転写、断片化、末端修復、アダプターライゲーション、ライブラリー濃縮等のステップを含む。構築されるライブラリーをAgencourtAMpureXP電磁ビーズで精製した後、Qubit3.0及びAgilent2100キャピラリー電気泳動を濃度検出及び精度管理に使用した。
ABclonal社のmRNA-seqLibPrepModuleforilluminaでヌクレオチドライブラリーを構築し、cDNAの逆転写、断片化、末端修復、アダプターライゲーション、ライブラリー濃縮等のステップを含む。構築されるライブラリーをAgencourtAMpureXP電磁ビーズで精製した後、Qubit3.0及びAgilent2100キャピラリー電気泳動を濃度検出及び精度管理に使用した。
3.プローブキャプチャー及びハイブリダイゼーション:
選択された36個の標的遺伝子(ALK、ESR1、FGFR1、NRG1、RET、ERG、BRAF、ETV1、FGFR2、NTRK1、ROS1、EWSR1、CD74、ETV4、FGFR3、NTRK2、SLC34A2、MET、EGFR、ETV5、FGFR4、NTRK3、SLC45A3、PPARG、EML4、ETV6、KIF5B、PDGFRA、TPM3、PDGFRB、SFT2D3、CNTF、EPM2A、NOL10、HEATR4及びRPGRIP1)に応じて、その転写物配列に基づいてnon-overlappingのタイリイングプローブ(tilingprobe、全鎖被覆プローブ)配列を設計し、プローブ5’末端をビオチンで標識する。調製された2ugのハイブリダイゼーション前のライブラリーを5uLのHumanCotDNA(IDT)、2uLのxGenUniversalBlockers-TSMixと混合させ、真空遠心濃縮器で蒸発乾固(60℃、約20min-1hr)した後、ハイブリダイゼーション溶液に再溶解し、室温で10minインキュベートした後、PCR装置に移して65℃で16hハイブリダイゼーションした。キャプチャーした一晩のハイブリダイゼーション生成物をストレプトアビジン電磁ビーズと混合させ、PCR装置で45minインキュベートした後、洗浄液で電磁ビーズを洗浄する。溶離生成物に対して次のPCR増幅実験を行い、後でAgencourtAMPureXP電磁ビーズで精製し、Qubit3.0及びAgilent2100キャピラリー電気泳動で濃度測定及び精度管理を行った。
選択された36個の標的遺伝子(ALK、ESR1、FGFR1、NRG1、RET、ERG、BRAF、ETV1、FGFR2、NTRK1、ROS1、EWSR1、CD74、ETV4、FGFR3、NTRK2、SLC34A2、MET、EGFR、ETV5、FGFR4、NTRK3、SLC45A3、PPARG、EML4、ETV6、KIF5B、PDGFRA、TPM3、PDGFRB、SFT2D3、CNTF、EPM2A、NOL10、HEATR4及びRPGRIP1)に応じて、その転写物配列に基づいてnon-overlappingのタイリイングプローブ(tilingprobe、全鎖被覆プローブ)配列を設計し、プローブ5’末端をビオチンで標識する。調製された2ugのハイブリダイゼーション前のライブラリーを5uLのHumanCotDNA(IDT)、2uLのxGenUniversalBlockers-TSMixと混合させ、真空遠心濃縮器で蒸発乾固(60℃、約20min-1hr)した後、ハイブリダイゼーション溶液に再溶解し、室温で10minインキュベートした後、PCR装置に移して65℃で16hハイブリダイゼーションした。キャプチャーした一晩のハイブリダイゼーション生成物をストレプトアビジン電磁ビーズと混合させ、PCR装置で45minインキュベートした後、洗浄液で電磁ビーズを洗浄する。溶離生成物に対して次のPCR増幅実験を行い、後でAgencourtAMPureXP電磁ビーズで精製し、Qubit3.0及びAgilent2100キャピラリー電気泳動で濃度測定及び精度管理を行った。
4.ハイスループットシークエンシング:IlluminaNextseq、Novaseq等を使用し、ペアエンドモードでシークエンシングした。
二、シークエンシングデータ分析:
RNApanelに基づいてreadsをキャプチャーしてオンラインシークエンシングを行って、元のシークエンシングのオフライン配列を得て、Trimmomatic-0.36で配列を以下のように処理して高品質シークエンシング配列を得た。
RNApanelに基づいてreadsをキャプチャーしてオンラインシークエンシングを行って、元のシークエンシングのオフライン配列を得て、Trimmomatic-0.36で配列を以下のように処理して高品質シークエンシング配列を得た。
a)低品質のシークエンシング配列を除去する。
b)アダプター配列を含むreadsを除去する。
高品質のシークエンシング配列(標準としては本分野の汎用標準を使用する)をSTARで参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、表2の指標を満たす場合、次のステップの分析(遺伝子発現量の分析、遺伝子融合分析、融合に属する突然変異の相対発現量の分析、SNV分析、SNV突然変異の発現量の分析を含む)を行った。
高品質のシークエンシング配列(標準としては本分野の汎用標準を使用する)をSTARで参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、表2の指標を満たす場合、次のステップの分析(遺伝子発現量の分析、遺伝子融合分析、融合に属する突然変異の相対発現量の分析、SNV分析、SNV突然変異の発現量の分析を含む)を行った。
1.遺伝子発現量の分析
配列アラインメント結果及び参照ゲノムのアノテーションファイルに基づき、RPKM法で遺伝子発現量を定量的に評定し、RPKM式は以下のとおりである。
(Totalexonreadsは、遺伝子のすべてのエクソンにアラインメントした配列数であり、FeatureCountsソフトウェアを使用して遺伝子アノテーションファイル及びアラインメント結果に基づいて評定する。
Mappedreads(millions)は、ゲノムにアラインメントしたすべての配列数であり、アラインメント結果の統計結果に基づいて得られる。
Exonlength(KB)は、遺伝子のエクソンの長さであり、ゲノムのアノテーションファイルに基づいて算出される。)
配列アラインメント結果及び参照ゲノムのアノテーションファイルに基づき、RPKM法で遺伝子発現量を定量的に評定し、RPKM式は以下のとおりである。
(Totalexonreadsは、遺伝子のすべてのエクソンにアラインメントした配列数であり、FeatureCountsソフトウェアを使用して遺伝子アノテーションファイル及びアラインメント結果に基づいて評定する。
Mappedreads(millions)は、ゲノムにアラインメントしたすべての配列数であり、アラインメント結果の統計結果に基づいて得られる。
Exonlength(KB)は、遺伝子のエクソンの長さであり、ゲノムのアノテーションファイルに基づいて算出される。)
2.遺伝子融合分析
高品質のシークエンシング配列を、FusionMapを使用して遺伝子融合の識別に使用し、最初的な遺伝子融合結果を得て、遺伝子融合結果に基づいて以下の規則に従ってフィルタリングした。
高品質のシークエンシング配列を、FusionMapを使用して遺伝子融合の識別に使用し、最初的な遺伝子融合結果を得て、遺伝子融合結果に基づいて以下の規則に従ってフィルタリングした。
1)遺伝子融合結果のFilterは空きと標識され、意味は以下のとおりである。
a)同じ遺伝子ファミリーに属する融合遺伝子をフィルタリングし捨てた。
b)同じパラロググループ(Ensemblv74で定義される。)に属する融合遺伝子をフィルタリングし捨てた。
c)同じ遺伝子モデルに由来する融合遺伝子フィルタリングし捨てた。
a)同じ遺伝子ファミリーに属する融合遺伝子をフィルタリングし捨てた。
b)同じパラロググループ(Ensemblv74で定義される。)に属する融合遺伝子をフィルタリングし捨てた。
c)同じ遺伝子モデルに由来する融合遺伝子フィルタリングし捨てた。
3.融合に属する突然変異の発現量の分析
遺伝子融合結果及びハウスキーピング遺伝子の発現を識別した定量結果に基づいて校正及び標準化を行って、融合遺伝子の融合発現量の結果を得て、標準化式は以下のとおりである。
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表し、例えば、HKAcountは参照ゲノムに対してアラインメントしたハウスキーピング遺伝子Aのシークエンシング配列の配列数である。)
遺伝子融合結果及びハウスキーピング遺伝子の発現を識別した定量結果に基づいて校正及び標準化を行って、融合遺伝子の融合発現量の結果を得て、標準化式は以下のとおりである。
(ここで、SeedReads+RescueReadsは融合ブレイクポイントにわたるreadsを表し、HKAはハウスキーピング遺伝子Aを表し、HKBはハウスキーピング遺伝子Bを表し、HKCはハウスキーピング遺伝子Cを表し、countは参照ゲノムに対してアラインメントしたシークエンシング配列の配列数を表し、lengthは参照ゲノムに対してアラインメントしたシークエンシング配列の配列長を表し、例えば、HKAcountは参照ゲノムに対してアラインメントしたハウスキーピング遺伝子Aのシークエンシング配列の配列数である。)
4.SNV分析
分析プロセス:
1)シークエンシングデータを分析してアラインメントし、bamデータファイルを得て、
2)VarDictcallerで参照ゲノム(hg19)にアラインメントした後の突然変異部位及び挿入欠失領域をキャプチャーし、結果ファイルはVCFフォーマットであり、
3)VCFファイルをANNOVARでアノテーションし、かつ一部の、アノテーションが正確ではない部位をtransvarで再びアノテーションして、すべての結果ファイルを得て、ここで、transvarでアノテーション結果を修正し、結果は正確かつ完全であり、
4)2回の結果を合併し、合併ファイルに対してプラス鎖及びマイナス鎖の修正を行ってreads数及びfreqを統計し、
ここで、鎖バイアスを修正して、アノテーション結果を再度修正し、
5)エビデンス部位データベースでアノテーションをフィルタリングし、及び転写物サポートを選択し、
遺伝子突然変異及び遺伝子データベースモジュール:
a)異なる腫瘍、疾患の発生率が高い遺伝子を整理し、明確な標的部位及び化学療法薬に関連するホットスポット遺伝子リストを作成し、
b)公開データベースは、EXAC/千人/gnomAD/HGMD/OMIM/cosmicを含み、
転写物の選択:薬物部位の転写物/Clinvarの病原性部位であるか否か/Transvar結果には該転写物があるか否か/イントロンに位置する非splice/古典的な転写物があるか否か/エクソン領域にあるか否かを判断し、
7)検証により閾値標準を得て合併結果をフィルタリングし、最終的な結果を得て、
異なる遺伝子及びホットスポットに対して独立検証及び大量のサンプルの並行検証を行い、結果を可視化判断して修正し、最適な性能を算出した後に精度管理閾値標準を逆に導き出し、
フィルタリング標準:
a)シークエンシングの深さが10よりも小さい突然変異部位をフィルタリングし、
b)ブラックリストにおける突然変異をフィルタリングし、ホワイトリストにおける突然変異を保持し、
c)forward及びreverseの、readsにサポートされていない突然変異をフィルタリングし、
d)freq及びsupportreadsの、要件を満たさない突然変異をフィルタリングする。
分析プロセス:
1)シークエンシングデータを分析してアラインメントし、bamデータファイルを得て、
2)VarDictcallerで参照ゲノム(hg19)にアラインメントした後の突然変異部位及び挿入欠失領域をキャプチャーし、結果ファイルはVCFフォーマットであり、
3)VCFファイルをANNOVARでアノテーションし、かつ一部の、アノテーションが正確ではない部位をtransvarで再びアノテーションして、すべての結果ファイルを得て、ここで、transvarでアノテーション結果を修正し、結果は正確かつ完全であり、
4)2回の結果を合併し、合併ファイルに対してプラス鎖及びマイナス鎖の修正を行ってreads数及びfreqを統計し、
ここで、鎖バイアスを修正して、アノテーション結果を再度修正し、
5)エビデンス部位データベースでアノテーションをフィルタリングし、及び転写物サポートを選択し、
遺伝子突然変異及び遺伝子データベースモジュール:
a)異なる腫瘍、疾患の発生率が高い遺伝子を整理し、明確な標的部位及び化学療法薬に関連するホットスポット遺伝子リストを作成し、
b)公開データベースは、EXAC/千人/gnomAD/HGMD/OMIM/cosmicを含み、
転写物の選択:薬物部位の転写物/Clinvarの病原性部位であるか否か/Transvar結果には該転写物があるか否か/イントロンに位置する非splice/古典的な転写物があるか否か/エクソン領域にあるか否かを判断し、
7)検証により閾値標準を得て合併結果をフィルタリングし、最終的な結果を得て、
異なる遺伝子及びホットスポットに対して独立検証及び大量のサンプルの並行検証を行い、結果を可視化判断して修正し、最適な性能を算出した後に精度管理閾値標準を逆に導き出し、
フィルタリング標準:
a)シークエンシングの深さが10よりも小さい突然変異部位をフィルタリングし、
b)ブラックリストにおける突然変異をフィルタリングし、ホワイトリストにおける突然変異を保持し、
c)forward及びreverseの、readsにサポートされていない突然変異をフィルタリングし、
d)freq及びsupportreadsの、要件を満たさない突然変異をフィルタリングする。
5.SNV突然変異の発現量の分析
SNV結果により、ハウスキーピング遺伝子発現の定量結果及び配列アラインメントの統計結果に基づき、SNVの発現の定量分析を行い、SNVの発現量を得た。
(GeneAverageDepthは、遺伝子の平均深さであり、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算する)。
SNV結果により、ハウスキーピング遺伝子発現の定量結果及び配列アラインメントの統計結果に基づき、SNVの発現の定量分析を行い、SNVの発現量を得た。
(GeneAverageDepthは、遺伝子の平均深さであり、
HK_expression_Coeffientは、サンプル中のハウスキーピング遺伝子の発現量及び標準品中のハウスキーピング遺伝子の発現量に基づいて発現量の変化係数を計算する)。
三、結果部分:
1.RNApanelによる遺伝子融合検出の精度
DNAサンプルをペアリングすることで標的シークエンシングし、RNAサンプルの融合遺伝子の検出に対して一致性検証を行い、性能は表4に示された。DNA融合が陰性の57例のサンプルのうち、陰性と検出されたRNA融合が52例であり、陽性と検出されたRNA融合が5例であった。従って、DNAとRNAの融合検出結果の陰性一致性は52/57=91.23%であった。RNA融合の5例のサンプルの検出はいずれもIGVでブレイクポイントの真実性を確認し、検出された条数はいずれもフィルタリング標準よりも高く、そのうちの3例に対して第一世代シーケンシングで融合の実際の存在が確認され、DNAに融合検出漏れが存在する可能性があることを説明した。臨床的検出された16例のDNA融合陽性サンプルのうち、16例のRNAがいずれも陽性であると検出され、かつ検出融合形式はDNAと一致し、RNAには融合可変スプライシングの検出が存在した。RNA検出とDNA検出の陽性一致率は16/16=100%であり、陰性一致率は52/57=91.23%であった。
DNAサンプルをペアリングすることで標的シークエンシングし、RNAサンプルの融合遺伝子の検出に対して一致性検証を行い、性能は表4に示された。DNA融合が陰性の57例のサンプルのうち、陰性と検出されたRNA融合が52例であり、陽性と検出されたRNA融合が5例であった。従って、DNAとRNAの融合検出結果の陰性一致性は52/57=91.23%であった。RNA融合の5例のサンプルの検出はいずれもIGVでブレイクポイントの真実性を確認し、検出された条数はいずれもフィルタリング標準よりも高く、そのうちの3例に対して第一世代シーケンシングで融合の実際の存在が確認され、DNAに融合検出漏れが存在する可能性があることを説明した。臨床的検出された16例のDNA融合陽性サンプルのうち、16例のRNAがいずれも陽性であると検出され、かつ検出融合形式はDNAと一致し、RNAには融合可変スプライシングの検出が存在した。RNA検出とDNA検出の陽性一致率は16/16=100%であり、陰性一致率は52/57=91.23%であった。
2.RNApanelによるSNV検出の精度
RNApanelに覆われるoncogene活性化に属する突然変異及び融合二次性薬剤耐性の一次及び二次突然変異部位(合計11個の遺伝子、226個のsnv部位)の、DNA標的シークエンシングとRNAサンプルのペリングによるsnvの検出結果の一致性を考察した。非小細胞肺ガンの臨床サンプルは合計40例であり、29例のDNA及びRNAはいずれも検出されず、検出されたサンプルは合計11例であり、突然変異は主にEGFR遺伝子に集中した。RNA及びDNAの検出の考察範囲にsnv結果の陽性一致率と陰性一致率がいずれも100%であった。結果は表5に示された。
RNApanelに覆われるoncogene活性化に属する突然変異及び融合二次性薬剤耐性の一次及び二次突然変異部位(合計11個の遺伝子、226個のsnv部位)の、DNA標的シークエンシングとRNAサンプルのペリングによるsnvの検出結果の一致性を考察した。非小細胞肺ガンの臨床サンプルは合計40例であり、29例のDNA及びRNAはいずれも検出されず、検出されたサンプルは合計11例であり、突然変異は主にEGFR遺伝子に集中した。RNA及びDNAの検出の考察範囲にsnv結果の陽性一致率と陰性一致率がいずれも100%であった。結果は表5に示された。
3.RNApanelによる遺伝子発現量検出の精度
30例のFFPEでRNAライブラリーを構築し、そしてそれぞれRNAseqシークエンシングを行い及びRNApanelでキャプチャーした後にシークエンシングし、RNAseqとRNApanelによる遺伝子発現量検出の一致性を分析し、結果により、2種の方法がpanelに含まれるすべての遺伝子、発現量検出の一致性R値>0.8であると示された。結果は図2のRNAseq及びRNApanel遺伝子発現量の関連結果に示された。
panel内の重要な腫瘍ドライバー遺伝子、例えばALK、MET、NTRK、EGFR等について、RNAseq及びRNApanel遺伝子発現量のR値>0.9であった。結果は図3に示された。
30例のFFPEでRNAライブラリーを構築し、そしてそれぞれRNAseqシークエンシングを行い及びRNApanelでキャプチャーした後にシークエンシングし、RNAseqとRNApanelによる遺伝子発現量検出の一致性を分析し、結果により、2種の方法がpanelに含まれるすべての遺伝子、発現量検出の一致性R値>0.8であると示された。結果は図2のRNAseq及びRNApanel遺伝子発現量の関連結果に示された。
panel内の重要な腫瘍ドライバー遺伝子、例えばALK、MET、NTRK、EGFR等について、RNAseq及びRNApanel遺伝子発現量のR値>0.9であった。結果は図3に示された。
4.RNA発現量でDNAのコピー数分析を置換した
165例のFFPEサンプルをRNApanelでキャプチャーした後にシークエンシングし、EGFR遺伝子の発現量rpkm値分布を統計し、EGFR発現量の閾値を決定し、EGFR発現量のtop10%かつ切片が残されるサンプルに対して、免疫組織化(IHC)実験及びDNA標的シークエンシングを行った。実験結果によれば、EGFR遺伝子の発現量及び免疫組織化は、すなわちタンパク質レベルの結果であり、DNACNV結果と免疫組織化結果の一致性よりも高いことを示した。結果は表6に示された。
165例のFFPEサンプルをRNApanelでキャプチャーした後にシークエンシングし、EGFR遺伝子の発現量rpkm値分布を統計し、EGFR発現量の閾値を決定し、EGFR発現量のtop10%かつ切片が残されるサンプルに対して、免疫組織化(IHC)実験及びDNA標的シークエンシングを行った。実験結果によれば、EGFR遺伝子の発現量及び免疫組織化は、すなわちタンパク質レベルの結果であり、DNACNV結果と免疫組織化結果の一致性よりも高いことを示した。結果は表6に示された。
以上は本発明の好ましい実施例に過ぎず、本発明を限定するものではない。当業者にとって、本発明は様々な変更及び変化を有することができる。本発明の精神及び原理の範囲内で行われた修正、等価置換、改良等は、いずれも本発明の保護範囲内に含まれるべきである。
Claims (12)
- 遺伝子の突然変異及び発現量を検出する方法であって、
検出対象サンプルのRNAを抽出し、前記検出対象サンプルのRNAを破壊し、逆転写して、cDNAを得るS1と、
前記cDNAに対して末端修復、アダプターライゲーション及びライブラリー濃縮のステップを行って遺伝子ライブラリーを構築するS2と、
キャプチャープローブを利用してターゲット領域に特異的にハイブリダイゼーションして前記遺伝子ライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するS3と、
ハイスループットシーケンサーでシークエンシングして、RNA標的シークエンシングデータを取得するS4と、
前記RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するS5と、を含み、
前記S5は、具体的には、
RPKM法を使用して前記検出対象サンプル中のターゲット遺伝子の発現量を定量的に評定する遺伝子発現量の分析S51と、
ベースラインサンプル集団を引き出し、前記ターゲット遺伝子のRPKM値分布を分析して、前記ターゲット遺伝子の発現量レベルの閾値を決定し、前記検出対象サンプルのターゲット遺伝子のRPKM値に基づき、前記検出対象サンプルのターゲット遺伝子が過剰発現であるか否かを判断する遺伝子過剰発現分析S52と、
同じ遺伝子ファミリーに属する融合遺伝子、同じパラロググループに属する融合遺伝子、及び同じ遺伝子モデルに由来する融合遺伝子をフィルタリングし捨て、また、閾値に基づいて条件を満たさない融合遺伝子をフィルタリングして、前記検出対象サンプル中の融合遺伝子を取得する遺伝子融合分析S53と、
ハウスキーピング遺伝子発現の定量結果及び前記S53で取得された遺伝子融合分析の結果に基づいて発現量の校正及び標準化を行って、融合遺伝子の相対発現量を得る融合に属する突然変異の相対発現量の分析S54と、
遺伝子のアラインメントによって変異した単一ヌクレオチドを決定する単一ヌクレオチド変異の分析S55と、
前記単一ヌクレオチド変異の分析結果、ハウスキーピング遺伝子発現の定量結果、及び配列アラインメントの統計結果に基づき、単一ヌクレオチド変異の発現の定量分析を行って、単一ヌクレオチド変異の発現量を得る単一ヌクレオチド変異の発現量の分析S56と、を含むことを特徴とする遺伝子の突然変異及び発現量を検出する方法。 - 前記S5は、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングしかつ精度管理を行った後に、標準に適合するデータを得て前記RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析することをさらに含み、前記精度管理のステップは、
低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングして得られたシークエンシングデータを参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、1)配列再付着アラインメント率の閾値≧80%、2)ターゲット領域のデータ量の閾値≧2M、3)発現したハウスキーピング遺伝子の個数≧4という3つの指標に適合する場合、後の分析を行うことを含むことを特徴とする請求項1に記載の方法。 - 前記S4においてペアエンドモード又はシングルエンドモードでシークエンシングすることを特徴とする請求項1に記載の方法。
- 遺伝子の突然変異及び発現量を検出する装置であって、
検出対象サンプルのRNAを抽出し、前記検出対象サンプルのRNAを破壊し、逆転写して、cDNAを得るように設置されるRNA抽出モジュールと、
前記cDNAに対して末端修復、アダプターライゲーション及びライブラリー濃縮のステップを行って遺伝子ライブラリーを構築するように設置される遺伝子ライブラリー構築モジュールと、
キャプチャープローブを利用してターゲット領域に特異的にハイブリダイゼーションして前記遺伝子ライブラリーからターゲット遺伝子をキャプチャーかつ濃縮するように設置されるターゲット遺伝子濃縮モジュールと、
ハイスループットシーケンサーでシークエンシングして、RNA標的シークエンシングデータを取得するように設置されるシークエンシングモジュールと、
前記RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するように設置される分析モジュールと、を含み、
前記分析モジュールは、具体的には、
RPKM法を使用して前記検出対象サンプル中のターゲット遺伝子の発現量を定量的に評定するように設置される遺伝子発現量分析サブモジュールと、
ベースラインサンプル集団を引き出し、前記ターゲット遺伝子のRPKM値分布を分析して、前記ターゲット遺伝子の発現量レベルの閾値を決定して、前記検出対象サンプルのターゲット遺伝子のRPKM値に基づき、前記検出対象サンプルのターゲット遺伝子が過剰発現であるか否かを判断するように設置される遺伝子過剰発現分析サブモジュールと、
同じ遺伝子ファミリーに属する融合遺伝子、同じパラロググループに属する融合遺伝子、及び同じ遺伝子モデルに由来する融合遺伝子をフィルタリングし捨て、また、閾値に基づいて条件を満たさない融合遺伝子をフィルタリングして、前記検出対象サンプル中の融合遺伝子を取得するように設置される遺伝子融合分析サブモジュールと、
ハウスキーピング遺伝子発現の定量結果及び前記遺伝子融合分析サブモジュールから取得された遺伝子融合分析の結果に基づいて発現量の校正及び標準化を行って、融合遺伝子の相対発現量を得るように設置される融合に属する突然変異の相対発現量の分析サブモジュールと、
遺伝子のアラインメントによって変異した単一ヌクレオチドを決定するように設置される単一ヌクレオチド変異分析サブモジュールと、
前記単一ヌクレオチド変異分析の結果、ハウスキーピング遺伝子発現の定量結果、及び配列アラインメントの統計結果に基づき、単一ヌクレオチド変異の発現の定量分析を行って、単一ヌクレオチド変異の発現量を得るように設置される単一ヌクレオチド変異の発現量の分析サブモジュールと、を含むことを特徴とする遺伝子の突然変異及び発現量を検出する装置。 - 前記分析モジュールは、低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングしかつ精度管理を行った後に、標準に適合するデータを得て前記RNA標的シークエンシングデータに示される遺伝子の突然変異及び発現量の変化を分析するように設置されるフィルタリングサブモジュールをさらに含み、前記精度管理は、
低品質のシークエンシングデータとアダプター配列を含むreadsとをフィルタリングして得られたシークエンシングデータを参照ゲノムにアラインメントして、配列アラインメント結果を得て、アラインメント結果に対して品質管理評定を行い、1)配列再付着アラインメント率の閾値≧80%、2)ターゲット領域のデータ量の閾値≧2M、3)発現したハウスキーピング遺伝子の個数≧4という3つの指標に適合する場合、後の分析を行うことを含むことを特徴とする請求項7に記載の装置。 - 前記シークエンシングモジュールではペアエンドモード又はシングルエンドモードでシークエンシングすることを特徴とする請求項7に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182844.4A CN112397144B (zh) | 2020-10-29 | 2020-10-29 | 检测基因突变及表达量的方法及装置 |
CN202011182844.4 | 2020-10-29 | ||
PCT/CN2021/117533 WO2022089033A1 (zh) | 2020-10-29 | 2021-09-09 | 检测基因突变及表达量的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023524722A true JP2023524722A (ja) | 2023-06-13 |
Family
ID=74597910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022566482A Withdrawn JP2023524722A (ja) | 2020-10-29 | 2021-09-09 | 遺伝子の突然変異及び発現量を検出する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2023524722A (ja) |
CN (1) | CN112397144B (ja) |
WO (1) | WO2022089033A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397144B (zh) * | 2020-10-29 | 2021-06-15 | 无锡臻和生物科技股份有限公司 | 检测基因突变及表达量的方法及装置 |
CN113470745B (zh) * | 2021-08-25 | 2023-09-08 | 南京立顶医疗科技有限公司 | SARS-CoV-2潜在突变位点的筛选方法及其应用 |
CN113981078B (zh) * | 2021-09-16 | 2023-11-24 | 北京肿瘤医院(北京大学肿瘤医院) | 用于预测晚期食管癌患者抗egfr靶向治疗疗效的生物标志物及疗效预测试剂盒 |
CN114317753A (zh) * | 2021-12-30 | 2022-04-12 | 北京迈基诺基因科技股份有限公司 | 眼肿瘤融合基因的检测模型及构建方法和检测方法 |
CN114369665A (zh) * | 2022-01-22 | 2022-04-19 | 河南省肿瘤医院 | 基于NanoString平台检测基因融合用于辅助诊断软组织肉瘤的方法 |
KR102518091B1 (ko) * | 2022-07-12 | 2023-04-06 | 주식회사 아이엠비디엑스 | 상동 재조합 결핍 정보를 제공하는 방법 |
CN115083516B (zh) * | 2022-07-13 | 2023-03-21 | 北京先声医学检验实验室有限公司 | 一种基于靶向RNA测序技术检测基因融合的Panel设计和评估方法 |
CN115896256A (zh) * | 2022-11-25 | 2023-04-04 | 臻悦生物科技江苏有限公司 | 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质 |
CN115798584B (zh) * | 2022-12-14 | 2024-03-29 | 上海华测艾普医学检验所有限公司 | 一种同时检测egfr基因t790m和c797s顺反式突变的方法 |
CN116926198A (zh) * | 2023-09-15 | 2023-10-24 | 臻和(北京)生物科技有限公司 | 检测胃癌组织Claudin18.2蛋白阳性的方法、装置、设备和存储介质 |
CN116994656B (zh) * | 2023-09-25 | 2024-01-02 | 北京求臻医学检验实验室有限公司 | 一种用于提高二代测序检测准确度的方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104812947B (zh) * | 2012-07-17 | 2018-04-27 | 考希尔股份有限公司 | 检测遗传变异的系统和方法 |
EP3097206A1 (en) * | 2014-01-22 | 2016-11-30 | Adam Platt | Methods and systems for detecting genetic mutations |
CN106460070B (zh) * | 2014-04-21 | 2021-10-08 | 纳特拉公司 | 检测染色体片段中的突变和倍性 |
ES2641690B1 (es) * | 2016-05-09 | 2018-09-06 | Health In Code, S.L. | Método de identificación de mutaciones |
CN110079594B (zh) * | 2019-04-22 | 2020-03-17 | 元码基因科技(北京)股份有限公司 | 基于dna和rna基因突变检测的高通量方法 |
CN110628880B (zh) * | 2019-09-30 | 2021-03-16 | 深圳恒特基因有限公司 | 一种同步使用信使rna与基因组dna模板检测基因变异的方法 |
CN111321202A (zh) * | 2019-12-31 | 2020-06-23 | 广州金域医学检验集团股份有限公司 | 基因融合变异文库构建方法、检测方法、装置、设备及存储介质 |
CN112397144B (zh) * | 2020-10-29 | 2021-06-15 | 无锡臻和生物科技股份有限公司 | 检测基因突变及表达量的方法及装置 |
-
2020
- 2020-10-29 CN CN202011182844.4A patent/CN112397144B/zh active Active
-
2021
- 2021-09-09 JP JP2022566482A patent/JP2023524722A/ja not_active Withdrawn
- 2021-09-09 WO PCT/CN2021/117533 patent/WO2022089033A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022089033A1 (zh) | 2022-05-05 |
CN112397144A (zh) | 2021-02-23 |
CN112397144B (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023524722A (ja) | 遺伝子の突然変異及び発現量を検出する方法及び装置 | |
JP7119014B2 (ja) | まれな変異およびコピー数多型を検出するためのシステムおよび方法 | |
Smadbeck et al. | C opy number variant analysis using genome‐wide mate‐pair sequencing | |
CN106414768B (zh) | 与癌症相关的基因融合体和基因变异体 | |
CN114574581A (zh) | 检测稀有突变和拷贝数变异的系统和方法 | |
US20220025468A1 (en) | Homologous recombination repair deficiency detection | |
Stokes et al. | Copy number and loss of heterozygosity detected by SNP array of formalin-fixed tissues using whole-genome amplification | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN114990202A (zh) | Snp位点在评估基因组异常的应用及评估基因组异常的方法 | |
EP3524695B1 (en) | Method for the enrichment of genomic regions | |
CN112513292A (zh) | 基于高通量测序检测同源序列的方法和装置 | |
US20220356513A1 (en) | Synthetic polynucleotides and method of use thereof in genetic analysis | |
US12002544B2 (en) | Determining progress of chromosomal aberrations over time | |
Mayrhofer et al. | Sensitive detection of copy number alterations in samples with low circulating tumor DNA fraction. | |
O'Brien | Investigating the Genetic Influences of the Germline and Somatic Genomes in Three Subtypes of Lung Cancer | |
Stokes et al. | Copy Number and Loss of Heterozygosity Detected by SNP Array of |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221110 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20230428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230428 |