JP7368483B2 - 相同組換え欠損を推定するための統合された機械学習フレームワーク - Google Patents
相同組換え欠損を推定するための統合された機械学習フレームワーク Download PDFInfo
- Publication number
- JP7368483B2 JP7368483B2 JP2021547568A JP2021547568A JP7368483B2 JP 7368483 B2 JP7368483 B2 JP 7368483B2 JP 2021547568 A JP2021547568 A JP 2021547568A JP 2021547568 A JP2021547568 A JP 2021547568A JP 7368483 B2 JP7368483 B2 JP 7368483B2
- Authority
- JP
- Japan
- Prior art keywords
- subject
- cancer
- genome
- cancerous tissue
- sequence reads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Description
本出願は、2019年2月12日に出願された米国仮特許出願第62/804,730号、および2019年12月10日に出願された米国仮特許出願第62/946,347号の優先権を主張し、あらゆる目的のためにそれら全体が参照により本明細書に組み込まれる。
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「a」、「an」および「the」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用するとき、「および/または」という用語は、列挙する関連項目の1つ以上の任意のおよびあり得る全ての組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「備える(comprises)」および/または「備えている(comprising)」という用語は、述べた特徴、完全体、ステップ、動作、要素、および/または構成要素が存在することを規定するが、1つ以上の他の特徴、完全体、ステップ、動作、要素、構成要素、および/またはそれらのグループが存在すること、もしくは追加されることを除外しないことも理解されるであろう。さらに、「含んでいる(including)」、「含む(include)」、「有している(having)」、「有する(has)」、「有する(with)」、またはそれらの変化形の用語が詳細な説明および/または特許請求の範囲のいずれかで使用される限り、そのような用語は、「備えている」という用語と同様の方法で包括的である。
試験対象におけるがんの相同組換え経路状態を判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム100の詳細な説明が、図1A~1Bと併せて説明される。したがって、図1A~1Bは、本開示の実施形態による、システムのトポロジーをまとめて示す。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実行するための手順を含むオペレーティングシステム116。
・システム100を他のデバイスおよび/または通信ネットワーク105に接続するための任意選択のネットワーク通信モジュール(または命令)118。
・試験対象からの第1のDNAサンプルの第1の複数の配列読み取り122(例えば、122-1-1,…,122-1-N)を電子形式で含む第1の試験データセット120-1であって、第1のDNAサンプルは、対象のがん性組織からのDNA分子を含む。
・試験対象からの第2のDNAサンプルの第2の複数の配列読み取り122(例えば、122-2-1,…,122-2-M)を電子形式で含む第2の試験データセット120-2であって、第2のDNAサンプルは、対象の非がん性組織からのDNA分子からなる。
・第1の複数の配列読み取りおよび第2の複数の配列読み取りに基づいて生成され、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に入力される、対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含む試験ゲノムデータ構造物128であって、以下を含む。
〇図1Bに示されるように、第1の複数のDNA損傷修復遺伝子130-1について、対象のがん性組織のゲノムにおけるヘテロ接合性状態(例えば、第1のデータセット)132。
〇対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度(例えば、第1のデータセット)134であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第1の複数の配列読み取り136におけるゲノムヘテロ接合性の喪失を決定し、第1の複数の配列読み取りに対する腫瘍純度の推定138により、判定されたヘテロ接合性の喪失を正規化することによって、判定される、ヘテロ接合性の喪失の尺度134。
〇第2の複数のDNA損傷修復遺伝子130-2について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度(例えば、第1のデータセット)140-1。
〇第2の複数のDNA損傷修復遺伝子130-2について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度(例えば、第2のデータセット)140-2。
・例えば、訓練ゲノムデータ構築物176に記憶された訓練データを使用して、疾患状態を区別するために疾患分類器173を訓練するための分類器訓練モジュール170。
・例えば、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するための1つ以上の相同組換え経路分類器174である、疾患分類器173。
・疾患分類器を評価するための分類器評価モジュール171。
・例えば、訓練された疾患分類器173を用いて試験ゲノムデータ構築物128を評価することにより、試験対象の相同組換え経路状態を判定するための疾患分類モジュール172。
・それぞれの訓練対象について、がんの相同組換え経路状態を判定するためのアルゴリズム、例えば、疾患分類器173を訓練するために使用できる訓練ゲノムデータを記憶する訓練ゲノムデータ構造物176であって、それぞれの訓練対象のがんおよびそれぞれの訓練対象の非がん性組織のゲノムの1つ以上の特徴についての相同組換え経路状態190を含み、以下を含む訓練ゲノムデータ構築物176。
〇図1Bに示されるように、第1の複数のDNA損傷修復遺伝子178-1について、対象のがん性組織のゲノムにおけるヘテロ接合性状態180。
〇対象のがん性組織のゲノムの全体のにわたるヘテロ接合性の喪失の尺度182であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第1の複数の配列読み取り184におけるゲノムヘテロ接合性の喪失を判定し、第1の複数の配列読み取りに対する腫瘍純度の推定186により、判定されたヘテロ接合性の喪失を正規化することによって、任意選択で判定される、ヘテロ接合性の喪失の尺度182。
〇第2の複数のDNA損傷修復遺伝子178-2について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度188-1。
〇第2の複数のDNA損傷修復遺伝子178-2について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度188-2。
試験対象におけるがんの相同組換え経路状態を決定判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム100の詳細が開示されたので、システムのプロセスおよび特徴に関する詳細は、本開示の様々な実施形態に従って、以下に開示される。具体的には、図2を参照して、例示的なプロセスを以下に説明する。いくつかの実施形態では、システムのそのようなプロセスおよび特徴は、図1に示されるように、モジュール118、120、170、171および/または172によって実行される。これらの方法を参照すると、本明細書に説明されるシステム(例えば、システム100)は、試験対象におけるがんの相同組換え経路状態を判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための命令を含む。
いくつかの実施形態では、推定されたHRD状態は、がんおよび/または正常な検体のヌクレオチドに関する情報に基づいて生成されてもよい。がん検体は、血液腫瘍および固形腫瘍を含む、異なるサブタイプのがんに由来してもよい。いくつかの実施形態では、包括的なゲノムプロファイリングに利用されるサンプルタイプは、固定ホルマリン、パラフィン包埋(FFPE)スライド、末梢血、または骨髄吸引物であり得る。サンプルは、エチレンジアミン四酢酸カリウム(EDTA)チューブなどのリポジトリに収集されてもよい。検体は、組織ブロックまたは複数のFFPEスライド、例えば、最大3枚のスライド、最大5枚のスライド、最大10枚のスライド、または最大20枚のスライドであり得る。いくつかの実施形態では、マッチした正常な検体は、末梢血または唾液である。
いくつかの態様において、推定されたHRD状態を生成するために使用される情報は、複数遺伝子の包括的なゲノムプロファイリングパネルによって実施される配列決定によって生成され得る。パネルは、10を超える、100を超える、または1,000を超える遺伝子を分析してもよい。パネルは、検体のエクソームを分析する全エクソームパネルであってもよい。パネルは、検体のゲノムを分析する全ゲノムパネルであってもよい。いくつかの態様において、推定されたHRD状態を生成するために使用される情報は、DNAベースの試験などの包括的なゲノムプロファイリング試験の一部として生成されてもよい。パネルは、一塩基多型(SNV)、挿入/欠失、コピー数多型(CNV)、および遺伝子再配列を特定してもよい。
特定の態様において、バイオインフォマティクスパイプラインは、この文書に開示されたシステムおよび方法を含む。
マッチした正常組織が患者に利用可能になるときに、腫瘍正常マッチ配列決定実行が実行される。DNAは正常組織、通常は血液または唾液から抽出される。次に、腫瘍組織から抽出されたDNAに加えて、これが配列決定される。これらの2つの配列決定実行(1つは腫瘍組織用、もう1つは正常組織用)は、2つのFASTQ出力ファイルを生成する。FASTQフォーマットは、ヌクレオチド配列などの生物学的配列とそれに対応する品質スコアの両方を記憶するためのテキストベースのフォーマットである。これらのFASTQファイルを分析して、サンプルに存在する遺伝的バリアントまたはコピー数の変化を判定する。「マッチした」パネル固有のワークフローを実行して、腫瘍正常マッチFASTQファイルを共同で分析する。マッチした正常が利用できない場合、腫瘍組織からのFASTQファイルは「腫瘍のみ」モードで分析される。例えば、図5を参照のこと。
アラインメントに続いて、SamBAMBAのようなツールを使用して、ソートされたバムの重複をマークおよびフィルタリングすることができる。freebayesやpindelなどのソフトウェアパッケージを使用して、ソートされたBAMファイルを入力として使用し、参照として分析する遺伝子ターゲットを含むゲノムおよびパネルベッドファイルを使用してバリアントを呼び出す。生のVCFファイル(バリアントコール形式)ファイルが出力され、サンプルのヌクレオチド塩基が参照ゲノムのその位置のヌクレオチド塩基と同じではない場所が示される。vcfbreakmultiおよびvtなどのソフトウェアパッケージを使用して、生のVCFファイル内のマルチヌクレオチド多型バリアントを正規化し、バリアント正規化VCFファイルが出力される。VCF内のSNVは、転写情報、変異の影響、および1000のゲノムデータベースでの有病率についてSNPEffを使用して注釈が付けられている。EGFRバリアントは、speedseqを使用してchr 7で腫瘍と通常のfastqファイルを再アラインメントすることを通じて別々に呼び出される。重複はSambambaなどのツールを使用してマーク付けし、バリアントコールは他の染色体について説明したステップと同様に行われる。例えば、図9を参照のこと。
様々な実施形態において、システムおよび方法は、HRD状態を推定するために使用されるゲノム特徴を計算するためのコピー数分析方法を含む。例えば、いくつかの実施形態では、コピー数を評価するために、重複排除されたBAMファイルおよびバリアントコールパイプラインから生成されたVCFを使用して、腫瘍サンプルと正常サンプルとの間のヘテロ接合生殖細胞系列SNVの読み取り深度および変動を計算することができる。マッチした正常なサンプルが利用可能ではない場合、腫瘍サンプルとプロセスがマッチした正常対照のプールとの比較を利用することができる。円形のバイナリセグメンテーションを適用することができ、セグメントは、腫瘍とそのコンパレータ(マッチした正常または正常なプール)の間で非常に異なるlog2比で選択することができる。おおよその整数コピー数は、セグメント化された領域での異なるカバレッジと、ヘテロ接合性生殖細胞系列SNVの分析によって生成された間質混合物の推定値(例えば、腫瘍純度、または腫瘍対非腫瘍であるサンプルの部分)の組み合わせから評価することができる。
いくつかの態様において、LOHは、コピー数コールアルゴリズムを使用することを通じて判定され得る。まず、腫瘍ゲノムの腫瘍純度とコピー状態は、期待値最大化アルゴリズム(EM)を使用して推定することができる。コピー状態と腫瘍純度の推定には、次の手順が関与してもよい。すなわち、1)読み取りアラインメントと正規化、2)Bアレル頻度と偏差の計算、3)腫瘍純度の予備推定、4)ゲノムセグメンテーション、および5)初期腫瘍純度推定の精緻化EMアルゴリズムによるコピー状態とLOHの推定である。
腫瘍の純度を計算するために、体細胞バリアントと生殖細胞系列Bアレル頻度から初期の腫瘍純度の推定値が取得され、これは、腫瘍正常カバレッジ対数腫瘍の正常範囲の対数比と正常期待からのBアレル頻度偏差が与えられて、腫瘍の純度の尤度を評価するグリーディアルゴリズムを使用して精緻化される。アルゴリズムは、初期推定値を取り巻く一連の腫瘍純度の範囲を反復処理して、最尤法で腫瘍の純度を返す。
ゲノムワイドヘテロ接合性の喪失(LOH)の推定のために、各SNPが、生殖細胞系列変異型アレル画分と正常期待からのBアレル頻度の偏差に基づいてLOHについて評価された。バイナリ0/1システムを使用してLOHなし/LOHありを割り当て、LOH下のゲノム塩基の平均比率を取得した。LOHを受けている塩基の数を、この特許に背悦明されている方法などのコピー数法を使用して分析された塩基の総数で割って、ゲノムワイドLOH比率の推定値を判定することができる。一例では、ゲノムワイドLOH比率の推定値は、生殖細胞系列(正常)サンプルには存在しない可能性のある体細胞(がん)サンプルのLOHを表してもよい。
特定の遺伝子の病原性バリアントの数をカウントするために、各患者にコールされたすべてのSNPを使用し、既知の病原性および短縮型BRCAバリアント(例えば、BRCA1やBRCA2)のリストを含むキュレートされた参照変異リストと照合した。次に、SNP位置の重複に基づいて病原性バリアントの数を取得した。体細胞変異と生殖細胞系列バリアントの別々のカウントもBRCAについて出力される。2つのカウントの合計も生成され得る。
様々な態様において、HRDの特定のマーカーが検出された場合、本明細書に開示されるシステムおよび方法は、陽性HRDコールを返す。一例では、病原性ストップゲインまたはフレームシフトバリアントがBRCA1またはBRCA2に存在する場合、陽性HRDコールが返される。別の例では、ゲノムワイドヘテロ接合性の喪失の比率が、BRCA1またはBRCA2のヘテロ接合性の喪失と組み合わされて、BRCA変異を示す閾値を超えている場合、陽性HRDコールが返される。
一般に、多くの異なる分類アルゴリズムが、本明細書に説明されるシステムおよび方法で使用されることが分かっている。例えば、いくつかの実施形態では、モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、Naive Bayesアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定ツリーアルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
いくつかの実施形態では、患者レポートは、分類器の出力に基づいて生成される。レポートは、デジタルコピー(例えば、JSONオブジェクト、pdfファイル、またはWebサイトやポータル上の画像)、ハードコピー(例えば、紙に印刷されたもの、または別の有形の媒体)、または別のフォーマットで患者、医師、医療関係者、または研究者に提示できる。
いくつかの態様において、本明細書に開示されるシステムおよび方法は、コンパニオン診断として使用されてもよい。例えば、いくつかの実施形態では、推定されたHRD状態は、PARP阻害剤でがんを治療する決定を下すために臨床医によって使用されてもよい。
本明細書に説明される方法およびシステムは、一般に医療および研究を対象とするデジタルおよび実験室のヘルスケアプラットフォームと組み合わせて、またはその一部として利用することができる。そのようなプラットフォームと組み合わせて、上述の方法およびシステムの多くの使用が可能であると理解されたい。そのようなプラットフォームの一例は、「Data Based Cancer Research and Treatment Systems and Methods」と題する、2019年10月18日に出願された米国特許出願第16/657,804号に説明されており、これは、それらの全体が全ての目的のために本明細書に参照により組み込まれる。
本明細書に説明されているように、初期のHRD予測アルゴリズムの精度は、BRCAにおける既知の病原性変異を有するサンプルでキュレーションされた小さな40サンプル訓練セットを使用して評価された。HRD予測に必要なすべてのゲノム特徴は、CONAを使用して訓練サンプルで計算された。sklearnの「train_test_split」メソッドを使用して、初期検証用の訓練セットとテストセットを作成した。sklearnの「standardscaler」および「fit_transform」メソッドを使用して、訓練サンプルの平均と分散を正規化し、将来のテストデータのスケールも同じに保った。「RandomForestClassifier」メソッドを使用して、ゲノム特徴の数を「n_estimators」として設定したランダムフォレスト分類器を作成した。「compute_simple_cross_val_score」を使用して、単純な5分割交差検証スコアメトリックを計算し、99%の分類精度を取得した。上位のk特徴は、標準のGini基準を使用して取得された。pickleを使用して分類モデルをファイルにダンプし、モデルをロードして各試験サンプルの予測を行った。各患者について、最初にCONAを使用してHRD特徴を計算し、訓練サンプルに使用したのと同じスケーリング関数を使用して特徴を標準化した。次に、sklearnに実装された「model.predict_proba」関数を使用して、これらの標準化された特徴が与えられた場合に、HRDの確率が取得された。HRD予測の信頼度はモデル予測確率であり、確率>0.5のサンプルに対して陽性コールが定義される。このモデルには任意の新しい特徴を簡単に組み込むことができ、訓練セットを簡単に拡張して再訓練と予測を行うことができる。
35の異なるがんタイプにわたる1000の患者サンプルのHRD状態は、本明細書に説明されているようにHRD分類器を使用して分析された。分析により、合計6.4%のHRD陽性のコールが特定された。BRCA遺伝子の病原性バリアントはHRD陽性コールで陰性コールよりも有意に大きかったが(P<4.1e-219、Mann-Whitney試験)、BRCAのLOHは濃縮されなかった(P<0.06、Mann-Whitney試験)。卵巣がん(12%HRD陽性、n=57)、乳がん(14.6%、n=89)、および結腸直腸がん(10%、n=285)は、最も代表的ながんのタイプの一部であった。以前に発表された結果とは対照的に、膵臓(2.3%、n=295)および前立腺(2.7%、n=37)の患者のほとんどはHRDを予測していなかった。
本明細書に引用される全ての参考文献は、あたかも各個々の刊行物または特許または特許出願が全ての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体が全ての目的のために本明細書に参照により組み込まれる。
Claims (31)
- 試験対象におけるがんの相同組換え経路状態を判定する方法であって、
1つ以上のプロセッサと、前記1つ以上のプロセッサによって実行するための1つ以上のプログラムを記憶するメモリと、を有するコンピュータシステムにおいて、
(A)前記試験対象からの第1のDNAサンプルの第1の複数の配列読み取りを電子形式で取得することであって、前記第1のDNAサンプルが、前記対象のがん性組織からのDNA分子を含む、取得することと、
(B)前記試験対象からの第2のDNAサンプルの第2の複数の配列読み取りを電子で取得することであって、前記第2のDNAサンプルが、前記対象の非がん性組織からのDNA分子からなる、取得することと、
(C)前記第1の複数の配列読み取りの各配列と、前記第2の複数の配列読み取りの各配列とを、ヒトの参照ゲノムに対してアライメントし、それによって、対応する第1の複数のアライメントされた配列読み取りと、対応する第2の複数のアライメントされた配列読み取りとを生成することと、
(D)前記第1の複数のアライメントされた配列読み取りおよび前記第2の複数のアライメントされた配列読み取りに基づいて、前記対象のゲノムデータ構築物を生成することであって、前記ゲノムデータ構築物が、前記対象の前記がん性組織および前記非がん性組織のゲノムの複数の特徴を含み、前記複数の特徴が、(i)前記対象の前記がん性組織の前記ゲノムにおける第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)前記対象の前記がん性組織の前記ゲノム全体のヘテロ接合性の喪失の尺度、(iii)前記対象の前記がん性組織の前記ゲノム中の第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)前記対象の前記非がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、を含む、生成することと、
(E)相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に前記ゲノムデータ構築物を入力し、それによって前記試験対象の前記相同組換え経路状態を判定することと、を含む、方法。 - 前記第1のDNAサンプルが、前記対象の前記がん性組織の固形腫瘍生検からのものである、請求項1に記載の方法。
- 前記第2のDNAサンプルが、前記対象からの血液サンプルのバフィーコート調製物からのものである、請求項1または2に記載の方法。
- 前記第1の複数の配列読み取りが、ゲノム領域のパネルについて前記対象の前記がん性組織からの核酸を濃縮するために複数の核酸プローブを使用した標的化配列決定によって生成された、請求項1~3のいずれか一項に記載の方法。
- 前記第1の複数の配列読み取りが、前記対象の前記がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項1~3のいずれか一項に記載の方法。
- 前記第2の複数の配列読み取りが、ゲノム領域のパネルについて前記対象の前記非がん性組織からの核酸を濃縮するために複数の核酸プローブを使用する標的化配列決定によって生成された、請求項1~5のいずれか一項に記載の方法。
- 前記第2の複数の配列読み取りが、前記対象の前記非がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項1~5のいずれか一項に記載の方法。
- 前記対象の前記がん性組織の前記ゲノム全体の前記ヘテロ接合性の喪失の前記尺度が、
前記第1の複数の配列読み取りにおけるゲノムヘテロ接合性の喪失を判定すること、および
前記第1の複数の配列読み取りに対する腫瘍純度の推定により、前記判定されたヘテロ接合性の喪失を正規化することによって、判定され、
前記腫瘍純度の推定は、前記第1の複数の配列読み取りと、前記第2の複数の配列読み取りとに基づく、請求項1~7のいずれか一項に記載の方法。 - 前記第1の複数のDNA損傷修復遺伝子の前記ヘテロ接合性状態が、前記第1の複数のDNA損傷修復遺伝子において検出された固有のフレームシフト変異の数のカウントを含む、請求項1~8のいずれか一項に記載の方法。
- 前記第1の複数のDNA損傷修復遺伝子の前記ヘテロ接合性状態が、前記第1の複数のDNA損傷修復遺伝子において検出された固有の短縮型変異の数のカウントを含む、請求項1~9のいずれか一項に記載の方法。
- 前記第1の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む、請求項1~10のいずれか一項に記載の方法。
- 前記対象の前記がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記第1の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項1~11のいずれか一項に記載の方法。
- 前記対象の前記非がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記第2の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項1~12のいずれか一項に記載の方法。
- 前記第2の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む、請求項1~13のいずれか一項に記載の方法。
- 前記第2の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含み、
BRCA1およびBRCA2における相同組換えの喪失に関連する前記固有の変異が、表1に列挙された変異のうちの少なくとも50を含む、請求項12または13に記載の方法。 - 前記第2の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含み、
BRCA1およびBRCA2における相同組換えの喪失に関連する前記固有の変異が、表1に列挙された変異を含む、請求項12または13に記載の方法。 - 前記方法が、
前記試験対象の前記がんが相同組換え欠損であると判定されたときに、ポリADPリボースポリメラーゼ(PARP)阻害剤を前記試験対象に投与することにより前記がんを治療することと、
前記試験対象の前記がんが相同組換え欠損ではないと判定されたときに、PARP阻害剤を前記試験対象に投与することを含まない治療法で前記がんを治療することと、をさらに含む、請求項1~16のいずれか一項に記載の方法。 - 前記PARP阻害剤が、オラパリブ、ベリパリブ、ルカパリブ、ニラパリブ、およびタラゾパリブからなる群から選択される、請求項17に記載の方法。
- 前記がんが乳がんである、請求項1~18のいずれか一項に記載の方法。
- 前記がんが卵巣がんである、請求項1~18のいずれか一項に記載の方法。
- 前記がんが結腸直腸がんである、請求項1~18のいずれか一項に記載の方法。
- 前記分類器が、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、Naive Bayesアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定ツリーアルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである、請求項1~21のいずれか一項に記載の方法。
- 前記分類器がランダムフォレストアルゴリズムである、請求項1~21のいずれか一項に記載の方法。
- 前記第1の複数の配列読み取りが、前記対象の前記がん性組織から生成されたcDNA分子のエクソーム配列決定によって生成された、請求項1~3および8~23のいずれか一項に記載の方法。
- 前記第2の複数の配列読み取りが、前記対象の前記非がん性組織から生成されたcDNA分子のエクソーム配列決定によって生成された、請求項1~3および8~23のいずれか一項に記載の方法。
- 前記第1の複数の配列読み取りが、ヒトゲノム中の少なくとも10の異なる遺伝子座のそれぞれについて少なくとも300のそれぞれの固有の配列読み取りを含み、第2の複数の配列読み取りが、ヒトゲノム中の少なくとも10の異なる遺伝子座のそれぞれについて少なくとも300のそれぞれの固有の配列読み取りを含む、請求項1~25のいずれか一項に記載の方法。
- コンピュータシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行されるときに、前記プロセッサに請求項1~26のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を含む非一時的なコンピュータ可読媒体と、を含む、コンピュータシステム。 - プロセッサによって実行されるときに、プロセッサに請求項1~26のいずれか一項に記載の方法を実行させるプログラムコード命令を記憶した非一時的なコンピュータ可読記憶媒体。
- がんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための方法であって、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行するための少なくとも1つのプログラムを記憶するメモリと、を含むコンピュータシステムにおいて、
(A)がんを有する複数の訓練対象におけるそれぞれの訓練対象ごとに、前記それぞれの訓練対象の対応するゲノムデータ構築物を取得することであって、前記対応するゲノム訓練構築物が、(a)前記それぞれの訓練対象の前記がんの相同組換え経路状態、および(b)前記それぞれの訓練対象のがん性組織および非がん性組織のゲノムの複数の特徴を含み、前記複数の特徴が、(i)前記それぞれの訓練対象の前記がん性組織の前記ゲノムにおける第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)前記それぞれの訓練対象の前記がん性組織の前記ゲノム全体のヘテロ接合性の喪失の尺度、(iii)前記それぞれの訓練対象の前記がん性組織の前記ゲノム中の第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)前記それぞれの訓練対象の前記非がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度を含む、取得することと、
(B)それぞれの訓練対象ごとに、少なくとも(a)前記それぞれの訓練対象の前記がんの前記相同組換え経路状態、および(b)前記それぞれの訓練対象の前記がん性組織からの前記対応するDNAサンプルから判定された前記複数の特徴に対して分類アルゴリズムを訓練することと、を含む、方法。 - コンピュータシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行されるときに、前記プロセッサに請求項29に記載の方法を実行させる、コンピュータ実行可能命令を含む非一時的なコンピュータ可読媒体と、を含む、コンピュータシステム。 - プロセッサによって実行されるときに、前記プロセッサに請求項29に記載の方法を実行させるプログラムコード命令を記憶した非一時的なコンピュータ可読記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023176962A JP2024016039A (ja) | 2019-02-12 | 2023-10-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962804730P | 2019-02-12 | 2019-02-12 | |
US62/804,730 | 2019-02-12 | ||
US201962946347P | 2019-12-10 | 2019-12-10 | |
US62/946,347 | 2019-12-10 | ||
PCT/US2020/018002 WO2020168008A1 (en) | 2019-02-12 | 2020-02-12 | An integrated machine-learning framework to estimate homologous recombination deficiency |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023176962A Division JP2024016039A (ja) | 2019-02-12 | 2023-10-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022521492A JP2022521492A (ja) | 2022-04-08 |
JPWO2020168008A5 JPWO2020168008A5 (ja) | 2023-02-15 |
JP7368483B2 true JP7368483B2 (ja) | 2023-10-24 |
Family
ID=71945081
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547568A Active JP7368483B2 (ja) | 2019-02-12 | 2020-02-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
JP2023176962A Pending JP2024016039A (ja) | 2019-02-12 | 2023-10-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023176962A Pending JP2024016039A (ja) | 2019-02-12 | 2023-10-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
Country Status (6)
Country | Link |
---|---|
US (2) | US10975445B2 (ja) |
EP (1) | EP3924502A4 (ja) |
JP (2) | JP7368483B2 (ja) |
AU (1) | AU2020221845A1 (ja) |
CA (1) | CA3129831A1 (ja) |
WO (1) | WO2020168008A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544574B1 (en) * | 2019-07-25 | 2023-01-03 | Cadence Design Systems, Inc. | System, method, and computer program product for analog structure prediction associated with an electronic design |
WO2021070039A2 (en) * | 2019-10-09 | 2021-04-15 | Immunitybio, Inc. | Detecting homologous recombination deficiencies (hrd) in clinical samples |
US20220392640A1 (en) * | 2019-10-22 | 2022-12-08 | Tempus Labs, Inc. | Systems and methods for predicting therapeutic sensitivity |
CA3174332A1 (en) | 2020-04-21 | 2021-10-28 | Jason PERERA | Tcr/bcr profiling |
US11613783B2 (en) | 2020-12-31 | 2023-03-28 | Tempus Labs, Inc. | Systems and methods for detecting multi-molecule biomarkers |
WO2022150663A1 (en) | 2021-01-07 | 2022-07-14 | Tempus Labs, Inc | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics |
WO2022159774A2 (en) | 2021-01-21 | 2022-07-28 | Tempus Labs, Inc. | METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING |
CN112820351A (zh) * | 2021-03-01 | 2021-05-18 | 江苏医联生物科技有限公司 | 检测肿瘤患者的突变和hrd评分指导用药的方法 |
WO2022226186A1 (en) * | 2021-04-22 | 2022-10-27 | Personalis Inc. | Detecting loss of heterozygosity in hla alleles using machine-learning models |
WO2022271547A1 (en) | 2021-06-21 | 2022-12-29 | Tesaro, Inc. | Combination treatment of cancer with a parp inhibitor and a lipophilic statin |
AU2022299105A1 (en) * | 2021-06-25 | 2024-01-04 | Foundation Medicine, Inc. | System and method of classifying homologous repair deficiency |
WO2023064309A1 (en) | 2021-10-11 | 2023-04-20 | Tempus Labs, Inc. | Methods and systems for detecting alternative splicing in sequencing data |
US20230162815A1 (en) | 2021-11-19 | 2023-05-25 | Tempus Labs, Inc. | Methods and systems for accurate genotyping of repeat polymorphisms |
CN114067908B (zh) * | 2021-11-23 | 2022-09-13 | 深圳吉因加医学检验实验室 | 一种评估单样本同源重组缺陷的方法、装置和存储介质 |
EP4239647A1 (en) | 2022-03-03 | 2023-09-06 | Tempus Labs, Inc. | Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery |
CN114694752B (zh) * | 2022-03-09 | 2023-03-10 | 至本医疗科技(上海)有限公司 | 预测同源重组修复缺陷的方法、计算设备和介质 |
CN114708916B (zh) * | 2022-03-15 | 2023-11-10 | 至本医疗科技(上海)有限公司 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
EP4297037A1 (en) * | 2022-06-24 | 2023-12-27 | Seqone | Device for determining an indicator of presence of hrd in a genome of a subject |
CN116030261A (zh) * | 2023-03-29 | 2023-04-28 | 浙江省肿瘤医院 | Mri影像多组学评估乳腺癌同源重组修复缺陷的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170283879A1 (en) | 2014-08-15 | 2017-10-05 | Myriad Genetics, Inc. | Methods and materials for assessing homologous recombination deficiency |
JP2017212988A (ja) | 2013-11-21 | 2017-12-07 | Repertoire Genesis株式会社 | T細胞受容体およびb細胞受容体レパトアの解析システムならびにその治療および診断への利用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130029926A1 (en) | 2009-11-05 | 2013-01-31 | Myriad Genetics, Inc. | Compositions and methods for determing cancer susceptibility |
NZ712663A (en) | 2013-04-05 | 2021-07-30 | Myriad Genetics Inc | Methods and materials for assessing homologous recombination deficiency |
WO2017165270A1 (en) | 2016-03-21 | 2017-09-28 | Myriad Genetics, Inc. | Homologous recombination deficiency to predict neoadjuvant chemotherapy necessity in bladder cancer |
-
2020
- 2020-02-12 WO PCT/US2020/018002 patent/WO2020168008A1/en unknown
- 2020-02-12 AU AU2020221845A patent/AU2020221845A1/en active Pending
- 2020-02-12 JP JP2021547568A patent/JP7368483B2/ja active Active
- 2020-02-12 US US16/789,363 patent/US10975445B2/en active Active
- 2020-02-12 EP EP20756491.5A patent/EP3924502A4/en active Pending
- 2020-02-12 CA CA3129831A patent/CA3129831A1/en active Pending
-
2021
- 2021-01-15 US US17/150,615 patent/US20210246511A1/en active Pending
-
2023
- 2023-10-12 JP JP2023176962A patent/JP2024016039A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017212988A (ja) | 2013-11-21 | 2017-12-07 | Repertoire Genesis株式会社 | T細胞受容体およびb細胞受容体レパトアの解析システムならびにその治療および診断への利用 |
US20170283879A1 (en) | 2014-08-15 | 2017-10-05 | Myriad Genetics, Inc. | Methods and materials for assessing homologous recombination deficiency |
Also Published As
Publication number | Publication date |
---|---|
EP3924502A1 (en) | 2021-12-22 |
WO2020168008A1 (en) | 2020-08-20 |
AU2020221845A1 (en) | 2021-09-02 |
US20200255909A1 (en) | 2020-08-13 |
EP3924502A4 (en) | 2023-01-25 |
JP2022521492A (ja) | 2022-04-08 |
US10975445B2 (en) | 2021-04-13 |
CA3129831A1 (en) | 2020-08-20 |
US20210246511A1 (en) | 2021-08-12 |
JP2024016039A (ja) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
US11164655B2 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
US11043304B2 (en) | Systems and methods for using sequencing data for pathogen detection | |
US20210098078A1 (en) | Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay | |
CN107406876B (zh) | 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法 | |
JP2022532897A (ja) | マルチラベルがん分類のためのシステムおよび方法 | |
CN109072309B (zh) | 癌症进化检测和诊断 | |
JP2021521536A (ja) | 生体試料の多検体アッセイのための機械学習実装 | |
JP2022544604A (ja) | がん検体において細胞経路調節不全を検出するためのシステム及び方法 | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
US20140040264A1 (en) | Method for estimation of information flow in biological networks | |
JP2023507252A (ja) | パッチ畳み込みニューラルネットワークを用いる癌分類 | |
US20210398617A1 (en) | Molecular response and progression detection from circulating cell free dna | |
US20230154563A1 (en) | Detection of Human Leukocyte Antigen Loss of Heterozygosity | |
US20220101135A1 (en) | Systems and methods for using a convolutional neural network to detect contamination | |
US20240076744A1 (en) | METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230207 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230816 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7368483 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |