JP2024517745A - 複合腫瘍組織における腫瘍細胞発現を推定するための機械学習技法 - Google Patents

複合腫瘍組織における腫瘍細胞発現を推定するための機械学習技法 Download PDF

Info

Publication number
JP2024517745A
JP2024517745A JP2023566614A JP2023566614A JP2024517745A JP 2024517745 A JP2024517745 A JP 2024517745A JP 2023566614 A JP2023566614 A JP 2023566614A JP 2023566614 A JP2023566614 A JP 2023566614A JP 2024517745 A JP2024517745 A JP 2024517745A
Authority
JP
Japan
Prior art keywords
gene
tumor
genes
expression level
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023566614A
Other languages
English (en)
Inventor
ザイツェフ,アレクサンドル
バガエブ,アレクサンダー
チェルスキン,マクシム
ベリアエヴァ,ヴァレンティナ
シュパク,ボリス
ディカノフ,ダニアル
ゾトワ,アナスタシア
ゴールドバーグ,マイケル,エフ.
タゼアスラン,カグダス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BostonGene Corp
Original Assignee
BostonGene Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BostonGene Corp filed Critical BostonGene Corp
Publication of JP2024517745A publication Critical patent/JP2024517745A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Organic Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Surgery (AREA)
  • Urology & Nephrology (AREA)

Abstract

【課題】腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定する技法。【解決手段】本技法は、腫瘍細胞に関連する第1の複数の遺伝子と腫瘍微小環境細胞に関連する第2の複数の遺伝子とを含む遺伝子セットについての発現データを入手すること;腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを複数の機械学習モデルを用いて決定することであって、第1の遺伝子についての第1の特徴セットを生成すること;腫瘍微小環境細胞における第1の遺伝子の腫瘍微小環境発現レベル推定値を含む出力を入手するために、第1の特徴セットを第1の機械学習モデルへの入力として提供すること;及び第1の機械学習モデルの出力及び第1の遺伝子についての総発現レベルを使用して腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルを決定することを含む、決定すること、を含む。【選択図】図3A

Description

関連出願
[01] 本願は、米国特許法第119条(e)に基づき、2021年9月1日に出願された、「MACHINE LEARNING TECHNIQUES FOR ESTIMATING MALIGNANT CELL GENE EXPRESSION IN COMPLEX TUMOR TISSUE」と題される、代理人整理番号B1462.70026US01の米国仮特許出願第63/239,895号、及び2021年4月29日に出願された、「COMPUTATIONAL MACHINE LEARNING TOOL TO DECIPHER MALIGNANT CELL GENE EXPRESSION FROM COMPLEX TUMOR TISSUE」と題される、代理人整理番号B1462.70026US00の米国仮特許出願第63/181,365号の出願日の利益を主張するものであり、これらの仮特許出願の各々の内容全体は、参照によって本明細書に援用される。
背景
[02] 一般に、複合腫瘍組織(又は他の罹患組織)は、腫瘍細胞集団と、例えば、免疫細胞、線維芽細胞、及び細胞外マトリックスタンパク質が含まれ得る腫瘍微小環境(TME)とを含むものであり得る。
概要
[03] 一部の実施形態は、癌を有する対象の生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定する方法であって、生体サンプルが腫瘍細胞と腫瘍微小環境(TME)細胞とを含み、方法は、遺伝子セットについての発現データを入手することであって、遺伝子セットが、腫瘍細胞に関連する第1の複数の遺伝子と腫瘍微小環境細胞に関連する第2の複数の遺伝子とを含み、発現データが、第1の複数の遺伝子中の遺伝子についての第1の総発現レベルと第2の複数の遺伝子中の遺伝子についての第2の総発現レベルとを含む、入手すること;腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを複数の機械学習モデルを用いて決定することであって、複数の機械学習モデルが、第1の複数の遺伝子中の第1の遺伝子についての第1の機械学習モデルを含めた第1の複数の遺伝子中の各遺伝子についてのそれぞれの機械学習モデルを含み、腫瘍発現レベルに、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルが含まれ、決定することが、第1の遺伝子についての第1の特徴セットを生成することであって、発現データを使用して、生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手すること及び第1の遺伝子の初期発現レベル推定値を第1の特徴セットに含めること;第1の総発現レベルの少なくとも一部を第1の特徴セットに含めること;及び第2の総発現レベルの少なくとも一部を第1の特徴セットに含めることを含む、生成すること;TME細胞における第1の遺伝子のTME発現レベル推定値をすものである出力を入手するために、第1の特徴セットを第1の機械学習モデルへの入力として提供すること;及び第1の機械学習モデルの出力及び第1の総発現レベルにおける、第1の遺伝子についての総発現レベルを使用して、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルを決定することを含む、決定すること;及び腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを出力することを含む方法を提供する。
[04] 一部の実施形態は、システムであって、少なくとも1つのプロセッサ;少なくとも1つのプロセッサによる実行時に、癌を有する対象の生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定する方法であって、生体サンプルが腫瘍細胞と腫瘍微小環境(TME)細胞とを含み、方法は、遺伝子セットについての発現データを入手することであって、遺伝子セットが、腫瘍細胞に関連する第1の複数の遺伝子とTME細胞に関連する第2の複数の遺伝子とを含み、発現データが、第1の複数の遺伝子中の遺伝子についての第1の総発現レベルと第2の複数の遺伝子中の遺伝子についての第2の総発現レベルとを含む、入手すること;腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを複数の機械学習モデルを用いて決定することであって、複数の機械学習モデルが、第1の複数の遺伝子中の第1の遺伝子についての第1の機械学習モデルを含めた第1の複数の遺伝子中の各遺伝子についてのそれぞれの機械学習モデルを含み、腫瘍発現レベルに、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルが含まれ、決定することが、第1の遺伝子についての第1の特徴セットを生成することであって、発現データを使用して、生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手すること及び第1の遺伝子の初期発現レベル推定値を第1の特徴セットに含めること;第1の総発現レベルの少なくとも一部を第1の特徴セットに含めること;及び第2の総発現レベルの少なくとも一部を第1の特徴セットに含めることを含む、生成すること;TME細胞における第1の遺伝子のTME発現レベル推定値を示すものである出力を入手するために、第1の特徴セットを第1の機械学習モデルへの入力として提供すること;及び第1の機械学習モデルの出力及び第1の総発現レベルにおける、第1の遺伝子についての総発現レベルを使用して、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルを決定することを含む、決定すること;及び腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを出力することを含む方法を少なくとも1つのプロセッサに実施させるプロセッサ実行可能命令を格納している少なくとも1つの非一時的コンピュータ可読記憶媒体を含むシステムを提供する。
[05] 一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサによる実行時に、癌を有する対象の生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定する方法であって、生体サンプルが腫瘍細胞と腫瘍微小環境(TME)細胞とを含み、方法は、遺伝子セットについての発現データを入手することであって、遺伝子セットが、腫瘍細胞に関連する第1の複数の遺伝子とTME細胞に関連する第2の複数の遺伝子とを含み、発現データが、第1の複数の遺伝子中の遺伝子についての第1の総発現レベルと第2の複数の遺伝子中の遺伝子についての第2の総発現レベルとを含むこと;腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを複数の機械学習モデルを用いて決定することであって、複数の機械学習モデルが、第1の複数の遺伝子中の第1の遺伝子についての第1の機械学習モデルを含めた第1の複数の遺伝子中の各遺伝子についてのそれぞれの機械学習モデルを含み、腫瘍発現レベルに、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルが含まれ、決定することが、第1の遺伝子についての第1の特徴セットを生成することであって、発現データを使用して、生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手すること及び第1の遺伝子の初期発現レベル推定値を第1の特徴セットに含めること;第1の総発現レベルの少なくとも一部を第1の特徴セットに含めること;及び第2の総発現レベルの少なくとも一部を第1の特徴セットに含めることを含む、生成すること;TME細胞における第1の遺伝子のTME発現レベル推定値を示すものである出力を入手するために、第1の特徴セットを第1の機械学習モデルへの入力として提供すること;及び第1の機械学習モデルの出力及び第1の総発現レベルにおける、第1の遺伝子についての総発現レベルを使用して、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルを決定することを含む、決定すること;及び腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを出力することを含む方法を少なくとも1つのコンピュータハードウェアプロセッサに実施させるプロセッサ実行可能命令を格納している少なくとも1つの非一時的コンピュータ可読記憶媒体を提供する。
[06] 一部の実施形態において、複数の機械学習モデルが、第1の複数の遺伝子中の第2の遺伝子についての第2の機械学習モデルを含み、腫瘍発現レベルが、腫瘍細胞における第2の遺伝子についての第2の腫瘍発現レベルを含み、第2の機械学習モデルが、第1の機械学習モデルと異なり、第2の遺伝子が、第1の遺伝子と異なる。一部の実施形態において、腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを決定することは、第2の遺伝子についての第2の特徴セットを生成すること;TME細胞における第2の遺伝子のTME発現レベル推定値を示すものである出力を入手するために、第2の特徴セットを第2の機械学習モデルへの入力として提供すること;及び第2の機械学習モデルの出力及び第1の総発現レベルにおける、第2の遺伝子についての総発現レベルを使用して、腫瘍細胞における第2の遺伝子についての第2の腫瘍発現レベルを決定することをさらに含む。
[07] 一部の実施形態において、第2の遺伝子についての第2の特徴セットを生成することは、発現データを使用して、生体サンプルの腫瘍細胞における第2の遺伝子の初期発現レベル推定値を入手すること及び第2の遺伝子の初期発現レベル推定値を第2の特徴セットに含めること;第1の総発現レベルの少なくとも一部を第2の特徴セットに含めること;及び第2の総発現レベルの少なくとも一部を第2の特徴セットに含めることを含む。
[08] 一部の実施形態において、複数の機械学習モデルが、第1の複数の遺伝子中の第3の遺伝子についての第3の機械学習モデルを含み、腫瘍発現レベルが、腫瘍細胞における第3の遺伝子についての第3の腫瘍発現レベルを含み、第3の機械学習モデルが、第1の機械学習モデル及び第2の機械学習モデルと異なり、第3の遺伝子が、第2の遺伝子及び第1の遺伝子と異なる。一部の実施形態において、腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを決定することは、第3の遺伝子についての第3の特徴セットを生成すること;TME細胞における第3の遺伝子のTME発現レベル推定値を含む出力を入手するために、第3の特徴セットを第3の機械学習モデルへの入力として提供すること;及び第3の機械学習モデルの出力及び第1の総発現レベルにおける、第3の遺伝子についての総発現レベルを使用して、腫瘍細胞における第3の遺伝子についての第3の腫瘍発現レベルを決定することをさらに含む。
[09] 一部の実施形態において、第1の遺伝子についての第1の特徴セットを生成することは、発現データを使用して、TMEに見られる複数の細胞タイプそれぞれについての第1の複数のRNAパーセンテージを入手することであって、第1の複数のRNAパーセンテージの各々が、第1の遺伝子に関連する及び生体サンプル中のTMEにおけるそれぞれのタイプの細胞を起源とするRNAのパーセントを示す、入手することをさらに含む。
[010] 一部の実施形態において、第1の遺伝子についての第1の特徴セットを生成することは、第1の複数のRNAパーセンテージの少なくとも一部を第1の特徴セットに含めることをさらに含む。
[011] 一部の実施形態において、第1の複数のRNAパーセンテージを入手することは、発現データの少なくとも一部を少なくとも1つの非線形回帰モデルを使用して処理することを含む。
[012] 一部の実施形態において、TME細胞は、第1のタイプのTME細胞と第2のタイプのTME細胞とを含む。一部の実施形態において、発現データの少なくとも一部が、発現データの第1のサブセットと発現データの第2のサブセットとを含む。一部の実施形態において、少なくとも1つの非線形回帰モデルが、第1の非線形回帰モデルと、第1の非線形回帰モデルと異なる第2の非線形回帰モデルとを含む。一部の実施形態において、第1の複数のRNAパーセンテージを入手することは、第1のタイプのTME細胞についての第1のRNAパーセンテージを入手するために、発現データの第1のサブセットを第1の非線形回帰モデルを使用して処理すること;及び第2のタイプのTME細胞についての第2のRNAパーセンテージを入手するために、発現データの第2のサブセットを第2の非線形回帰モデルを使用して処理することを含む。
[013] 一部の実施形態において、第1のタイプ及び第2のタイプは、各々、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、及び好中球からなる群から選択され、第1のタイプは第2のタイプと異なる。
[014] 一部の実施形態において、生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手することは、TMEに見られる複数の細胞タイプの各々についての第1の遺伝子の平均TME発現レベルを入手すること;第1の複数のRNAパーセンテージに基づき、入手された発現レベルの加重和を決定すること;及び初期発現レベル推定値を入手するために、第1の遺伝子についての総発現レベルから加重和を減算することを含む。
[015] 一部の実施形態は、発現データを使用して、腫瘍細胞についての第1のRNAパーセンテージを入手することをさらに含み、ここで第1のRNAパーセンテージは、第1の遺伝子に関連する及び生体サンプルの腫瘍細胞を起源とするRNAのパーセントを示す。
[016] 一部の実施形態において、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルを決定することは、第1の遺伝子についての総発現レベルからTME発現レベル推定値を減算すること;及び減算の結果を第1のRNAパーセンテージで除算することをさらに含む。
[017] 一部の実施形態において、発現データは、少なくとも一部には、癌を有する対象の生体サンプルをシーケンシングすることによって予め入手されている。
[018] 一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部が、腫瘍細胞に関連する第1の複数の遺伝子中の少なくとも25個の遺伝子についての総発現レベルを含む。一部の実施形態において、複数の機械学習モデルが、これらの少なくとも25個の遺伝子に対応する少なくとも25個の機械学習モデルを含む。
[019] 一部の実施形態において、少なくとも25個の機械学習モデルの各機械学習モデルが、異なる勾配ブーストモデルを含む。
[020] 一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも10個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも25個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも50個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも75個の遺伝子についての総発現レベルを含む。
[021] 一部の実施形態において、複数の機械学習モデルの第1の機械学習モデルは、勾配ブースティングモデルである。
[022] 一部の実施形態は、遺伝子セット中の遺伝子についての模擬発現データを含む訓練用データを入手することであって、訓練用データが1つ以上の生体サンプルに関連すること;訓練用データを使用して、第1の遺伝子についての訓練用特徴セットを生成することと;第1の遺伝子のTME発現レベルを推定するために、第1の機械学習モデルを訓練することであって、1つ以上の生体サンプルのTME細胞における第1の遺伝子のTME発現レベルの推定値を含む出力を入手するために、訓練用特徴セットを第1の機械学習モデルへの入力として提供すること;及びTME発現レベルの推定値を使用して第1の機械学習モデルのパラメータを更新することを含む、訓練すること、とによって第1の機械学習を訓練することをさらに含む。
[023] 一部の実施形態において、第1の遺伝子についての訓練用特徴セットを生成することは、模擬発現データを使用して、1つ以上の生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手すること及び初期発現レベル推定値を訓練用特徴セットに含めること;及び模擬発現レベルの少なくとも一部を訓練用特徴セットに含めることを含む。
[024] 一部の実施形態において、第1の機械学習モデルは、少なくとも一部には、模擬発現データを含む訓練用データを生成することにより訓練されたものであり、ここで訓練用データを生成することは、1つ以上の生体サンプルの各々についての訓練用発現データを入手することであって、訓練用発現データが、第1の複数の遺伝子についての第1の訓練用発現レベルと第2の複数の遺伝子についての第2の訓練用発現レベルとを含む、入手すること;第1の訓練用発現レベルを使用して第1の模擬発現データを生成すること;第2の訓練用発現レベルを使用して第2の模擬発現データを生成すること;及び模擬発現データの少なくとも一部を作成するために、第1の模擬発現データと第2の模擬発現データとを組み合わせることを含む。
[025] 一部の実施形態は、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルに基づき対象向けの少なくとも1つの抗癌療法を同定することをさらに含む。
[026] 一部の実施形態は、少なくとも1つの抗癌療法を投与することをさらに含む。
[027] 一部の実施形態において、少なくとも1つの抗癌療法は、表3に一覧を示す第1の遺伝子についての療法の群から選択される。
[028] 一部の実施形態において、対象向けの少なくとも1つの抗癌療法を同定することは、第1の遺伝子に関連する少なくとも1つの判定基準を第1の腫瘍発現レベルが満たすかどうかを決定すること;及び少なくとも1つの判定基準を第1の腫瘍発現レベルが満たすという決定後に、表3に第1の遺伝子について一覧を示す療法の群から少なくとも1つの抗癌療法を選択することを含む。
図面の簡単な説明
[029]本明細書に記載される技術の一部の実施形態に係る、生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを推定するための説明として示される技法100を示す図である。 [030]本明細書に記載される技術の一部の実施形態に係る、機械学習を用いて生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを推定するためのプロセス200を示すフローチャートである。 [031]本明細書に記載される技術の一部の実施形態に係る、機械学習を用いて生体サンプルの腫瘍細胞におけるある遺伝子の腫瘍発現レベルを決定するためのプロセス220を示すフローチャートである。 [032]本明細書に記載される技術の一部の実施形態に係る、特定の遺伝子の腫瘍微小環境(TME)発現レベルを推定するように訓練された訓練済みの機械学習モデルへの入力として提供されることになるある特定の遺伝子についての特徴セットを生成するためのプロセス250を示すフローチャートである。 [033]本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞に発現する遺伝子の腫瘍発現レベルを推定するための説明として示される技法の図である。 [034]本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞に発現する遺伝子について生成された特徴セットの説明として示される例を示す図である。 [035]本明細書に記載される技術の一部の実施形態に係る、生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを推定するための例示的システム400のブロック図である。 [036]本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞におけるある遺伝子の腫瘍発現レベルを推定するための説明として示される例を示す。 [036]本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞におけるある遺伝子の腫瘍発現レベルを推定するための説明として示される例を示す。 [037]本明細書に記載される技術の一部の実施形態に係る、生体サンプルのTME細胞におけるある遺伝子の腫瘍微小環境(TME)発現レベルを推定するように機械学習モデルを訓練するためのプロセス600を示すフローチャートである。 [038]本明細書に記載される技術の一部の実施形態に係る、本明細書に記載される様々な機械学習モデルの訓練用の訓練用データを生成するための例示的技法を示す図であり、このプロセスには、訓練用データの一部として模擬発現データを生成することが含まれる。 [038]本明細書に記載される技術の一部の実施形態に係る、本明細書に記載される様々な機械学習モデルの訓練用の訓練用データを生成するための例示的技法を示す図であり、このプロセスには、訓練用データの一部として模擬発現データを生成することが含まれる。 [039]本明細書に記載される技術の一部の実施形態に係る、発現データに基づきRNAパーセンテージを決定するための例示的プロセス800を示すフローチャートである。 [040]本明細書に記載される技術の一部の実施形態に係る、発現データに基づきRNAパーセンテージを決定するためのプロセス800の例示的実施態様を説明するフローチャートである。 [041]本明細書に記載される技術の実施形態の一部に係る、方法800の処理816aの例示的実施態様を説明するフローチャートである。 [042]本明細書に記載される技術の一部の実施形態に係る、1つ以上の生体サンプルのTME細胞における遺伝子のTME発現レベルを推定する機械学習モデルの訓練、検証、及びテスト用のデータを調製するための例示的技法を示す図である。 [042]本明細書に記載される技術の一部の実施形態に係る、1つ以上の生体サンプルのTME細胞における遺伝子のTME発現レベルを推定する機械学習モデルの訓練、検証、及びテスト用のデータを調製するための例示的技法を示す図である。 [043]本明細書に記載される技術の一部の実施形態に係る、人工トランスクリプトームデータセット上での腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [043]本明細書に記載される技術の一部の実施形態に係る、人工トランスクリプトームデータセット上での腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [044]本明細書に記載される技術の一部の実施形態に係る、人工トランスクリプトームデータセット上での腫瘍細胞の推定に対する本明細書に記載される技法の有効性を示す結果を示すチャートを示す。 [045]本明細書に記載される技術の一部の実施形態に係る、人工トランスクリプトームデータセットについての単一遺伝子の腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [045]本明細書に記載される技術の一部の実施形態に係る、人工トランスクリプトームデータセットについての単一遺伝子の腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [045]本明細書に記載される技術の一部の実施形態に係る、人工トランスクリプトームデータセットについての単一遺伝子の腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [045]本明細書に記載される技術の一部の実施形態に係る、人工トランスクリプトームデータセットについての単一遺伝子の腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [046]本明細書に記載される技術の一部の実施形態に係る、黒色腫単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [046]本明細書に記載される技術の一部の実施形態に係る、黒色腫単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [047]本明細書に記載される技術の一部の実施形態に係る、肺癌単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [047]本明細書に記載される技術の一部の実施形態に係る、肺癌単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [048]本明細書に記載される技術の一部の実施形態に係る、頭頸部癌単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [048]本明細書に記載される技術の一部の実施形態に係る、頭頸部癌単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [049]本明細書に記載される技術の一部の実施形態に係る、膠芽腫単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [049]本明細書に記載される技術の一部の実施形態に係る、膠芽腫単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [050]本明細書に記載される技術の一部の実施形態に係る、非小細胞肺癌単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [050]本明細書に記載される技術の一部の実施形態に係る、非小細胞肺癌単一細胞データ上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [051]本明細書に記載される技術の一部の実施形態に係る、scRNA-seqベースのデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [051]本明細書に記載される技術の一部の実施形態に係る、scRNA-seqベースのデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [051]本明細書に記載される技術の一部の実施形態に係る、scRNA-seqベースのデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [051]本明細書に記載される技術の一部の実施形態に係る、scRNA-seqベースのデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [052]本明細書に記載される技術の一部の実施形態に係る、インビトロ混合RNA画分のデータセット上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [052]本明細書に記載される技術の一部の実施形態に係る、インビトロ混合RNA画分のデータセット上での腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [053]本明細書に記載される技術の一部の実施形態に係る、インビトロ混合RNA画分のデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [053]本明細書に記載される技術の一部の実施形態に係る、インビトロ混合RNA画分のデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [053]本明細書に記載される技術の一部の実施形態に係る、インビトロ混合RNA画分のデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [053]本明細書に記載される技術の一部の実施形態に係る、インビトロ混合RNA画分のデータセットについての単一遺伝子の腫瘍細胞遺伝子発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [054]本明細書に記載される技術の一部の実施形態に係る、scRNA-seqベースのデータセット上でのPIK3CD遺伝子の腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [055]本明細書に記載される技術の一部の実施形態に係る、scRNA-seqベースのデータセット上でのMMP2遺伝子の腫瘍細胞発現の推定に対する本明細書に記載される技法の有効性を示す結果を示すグラフを示す。 [056]本明細書に記載される技術の一部の実施形態に係る、配列データを処理して発現データを入手するための説明として示されるプロセスを示すフローチャートである。 [057]本明細書に記載される技術の一部の実施形態に関連して使用し得るコンピュータシステムの説明として示される実施態様を示す。
詳細な説明
[058] 本発明者らは、発現データ(例えば、一部には、例えばバルクRNAシーケンシングを用いた生体サンプルのシーケンシングにより入手されるデータ)に基づいて、生体サンプル中の(例えば、腫瘍又は他の罹患組織からのサンプルなどの)腫瘍細胞における遺伝子の発現レベル(これは本明細書では「腫瘍発現レベル」と称され得る)を推定するための機械学習技法を開発した。一部の実施形態において、本技法には、複数の機械学習モデルを用いて生体サンプルの腫瘍微小環境(TME)細胞における遺伝子のそれぞれの発現レベル(これは本明細書では「TME発現レベル」と称され得る)を推定することが関わる。例えば、一部の実施形態では、各遺伝子についてのそれぞれのTME発現レベルの推定に、異なる機械学習モデルが使用され得る。一部の実施形態において、機械学習モデルの出力を使用して、生体サンプルの腫瘍細胞における遺伝子についてのそれぞれの腫瘍発現レベルが決定され得る。
[059] 本発明者らは、腫瘍細胞による特定の遺伝子の発現を用いることにより、腫瘍診断のための情報を得て、疾患の進行をモニタし、治療判断のための情報を得て、及び臨床的に関連性のあるバイオマーカーを同定し得ることを理解した。例えば、腫瘍細胞におけるある遺伝子の発現レベルを用いると、その腫瘍がある特定のタイプの癌のものかどうかを決定し得る。例えば、腫瘍細胞によるインスリン様成長因子2(IGF2)遺伝子の過剰発現は、肝芽腫の特徴である。腫瘍細胞におけるIGF2遺伝子の発現レベルが比較的高い場合(例えば、IGF2遺伝子が過剰発現している場合)、それは、その腫瘍が肝芽腫タイプであることを示すものであり得る。かかる情報を用いると、肝芽腫を有効に治療することが公知の薬物を同定し、療法を開始又は調整するかどうかに関する情報を得て、及び患者のケアに関する他の臨床判断のための情報を得ることができる。当然ながら、IGF2の発現レベルを使用するというこの例は、IGF2の発現レベルを十分な精度で推定し得るときに限り利用すべきである。
[060] 腫瘍細胞におけるある遺伝子の発現レベルを用いると、腫瘍に有効な治療又は療法を同定することもまたできる。例えば、腫瘍細胞によるCDK2(サイクリン依存性キナーゼ2)遺伝子の発現は、腫瘍細胞の不死化を可能にすることが示されている。この機能性ゆえに、CDK2遺伝子は、癌治療における作用機序に基づいた治療戦略の標的と同定されている。従って、患者の腫瘍細胞がCDK2遺伝子を発現することが示される場合、それは、作用機序に基づいた治療戦略がその腫瘍を有効に治療するであろうこと、及び患者にかかる治療戦略を投与し得ることを示すものであり得る。
[061] 本発明者らはさらに、生体サンプル中の数万個の遺伝子についての情報を同時に提供することのできるバルクシーケンシングにより、腫瘍細胞及び腫瘍微小環境細胞を含めた複数の細胞タイプの寄与の組み合わせに相当するシグナルの検出が可能となり得ることを認識し、理解した。しかしながら、本発明者らは、この種の全発現データは個別のRNA又はDNA分子の起源に関する情報を生み出さないため、腫瘍細胞におけるある遺伝子の発現レベルを推定する上で、その同じ遺伝子がまた1つ以上のTME細胞タイプにも同時に発現するときに依然として重大な課題が残されていることを認識した。例えば、PTK7(タンパク質チロシンキナーゼ7)、CCDN2(サイクリンD2)、CDK2、及びIGF2は、腫瘍細胞及びTME細胞の両方に同時に発現し得る多くの遺伝子のほんの数例である。遺伝子の腫瘍発現は、腫瘍の診断、予後、及び治療に関する重要な判断のための情報を与え得るため、本発明者らは、遺伝子の腫瘍発現とTME発現との間を区別することが決定的に重要であると認識し、理解した。
[062] 加えて、本発明者らは、複合腫瘍組織の中で腫瘍細胞が占めるのは全体として比較的小さい割合に過ぎず、割合は時に10%を下回り得ることを認識し、理解した。バルクRNA-seqデータから小さい細胞集団の発現を測定することは、腫瘍細胞の発現レベルを「シグナル」、及びTME細胞の発現レベルを「ノイズ」と考えるとすれば、シグナル対ノイズ比が低下しているため特に難題であり得る。その上、腫瘍における全転写物の大多数をTME細胞転写物が占め得るため、これは臨床上の意思決定及びバイオマーカー開発の間における偏りにつながり得る。
[063] 生体サンプル中の遺伝子の腫瘍発現を推定しようと試みて、様々な技法が用いられている。しかしながら、かかる技法には限界があり、腫瘍発現の推定に関連する上述の問題に十分に対処するものとは言えない。詳細には、従来技法には、(a)生体サンプル中のある遺伝子のTME発現を、複数のサンプル間でのその遺伝子の平均TME発現レベルに基づいて予測すること;及び(b)その遺伝子の全発現からその遺伝子のTME発現を減算して、その遺伝子の腫瘍発現を推定することが関わる。遺伝子のTME発現を予測する従来技法には、異なるTME細胞集団での遺伝子の平均発現レベルを入手すること、及びTME細胞集団の各々のそれぞれの割合によって平均発現レベルをスケーリングすることが関わる。しかしながら、平均レベルとは、定義上、個別の腫瘍サンプルに特定のものではないため-それらは複数の多様なサンプルのシーケンシングから収集されたデータの平均として入手される-、遺伝子の平均発現レベルを用いると、遺伝子のTME及び腫瘍発現レベルの予測に不正確さが持ち込まれる。他方で、細胞(例えば、腫瘍細胞及びTME細胞)は異なる環境に反応し、つまり、それらの遺伝子発現レベルはその周囲環境に基づいて異なるということになる。従って、遺伝子の平均発現レベルは、特定の患者についての特定の腫瘍サンプル中のその遺伝子の腫瘍及びTME発現レベルを正確には反映しない。
[064] その正確さに限界があるため、従来技法の出力を用いては、臨床上の意思決定のための信頼性のある情報を与えることができず、又は臨床的に関連性のあるバイオマーカーを同定することができない。例えば、従来技法は、それが個別の遺伝子の平均発現レベルに頼るため、特定の腫瘍のTME細胞で独自に高発現する遺伝子の発現レベルを過小評価することになる。むしろ、従来技法は、この発現を腫瘍における腫瘍細胞に不正確に帰することになる。これは、数ある問題の中でも特に、不正確な診断、効果のない治療の選択及び投与、並びに臨床的に関連性のあるバイオマーカーであるとの遺伝子の不正確な同定につながる可能性がある。
[065] 従来の腫瘍発現推定技法の欠点に対処するため、本発明者らは、特定の腫瘍の独自の発現を考慮する機械学習技法を開発した。詳細には、本発明者らは、癌を有する対象の生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定するシステム及び方法を開発した。この開発した技法には、(a)腫瘍細胞に関連する遺伝子(例えば、表1に一覧を示す遺伝子)及びTME細胞に関連する遺伝子(例えば、表2に一覧を示す遺伝子)についての発現データ(例えば、RNA及び/又はDNA発現データ)を入手すること;及び(b)腫瘍細胞に関連する遺伝子の腫瘍発現レベルを、各々が腫瘍細胞に関連する遺伝子に対応するものである複数の機械学習モデルを用いて決定することが含まれる。一部の実施形態において、腫瘍細胞に関連するある特定の遺伝子の腫瘍発現レベルを決定することには、その特定の遺伝子についての特徴セットを生成すること、特徴セットをそれぞれの機械学習モデル(例えば、特定の遺伝子のTME発現レベルを推定するように訓練されている機械学習モデル)への入力として提供することにより特定の遺伝子のTME発現レベル推定値を入手すること、及び特定の遺伝子の腫瘍発現レベルを遺伝子のTME発現レベル推定値及び総発現レベルを使用して決定することが関わる。一部の実施形態において、遺伝子の決定された腫瘍発現レベルを使用すると、対象に推奨される適切な抗癌療法を同定することができ、次にはその療法を投与し得る。
[066] 一部の実施形態において、腫瘍発現レベルの決定に用いられる機械学習技法には、ある特定のそれぞれの遺伝子についての腫瘍発現レベルを決定するように各々訓練されている複数の機械学習モデルを使用することが含まれる。一部の実施形態において、機械学習モデルは複数のパラメータ(例えば、少なくとも10個)を有し、機械学習モデルを訓練することには、それらのパラメータの値を訓練用データから計算的に推定することが含まれてもよい。訓練用データには、一部の実施形態では、シーケンシングサンプルから入手される現実の発現データ及び/又は本明細書に記載される技法を用いた訓練を目的としたそれらのデータを合成することによって入手される模擬発現データが含まれてもよい。一部の実施形態において、模擬発現データを生成することには、それぞれの遺伝子に関連する機械学習モデル毎に多数の訓練用セット(例えば、少なくとも25,000個、少なくとも50,000個、少なくとも100,000個、少なくとも150,000個、少なくとも200,000個、少なくとも500,000個等)を生成することが含まれてもよい。
[067] 一部の実施形態において、本発明者らが開発した本明細書に記載される技法は、1つ以上のシーケンシングプラットフォームと併せて(例えば、オンボードで)使用することにより、そのシーケンシングプラットフォームによって生成されるデータを直ちに処理し得る。結果として、シーケンシングプラットフォームによって提供されるデータには、腫瘍細胞における及びその微小環境における遺伝子の発現レベルの正確な推定値が含まれる。このように、本明細書に記載される技法は、概略的にはバイオインフォマティクスの向上を成し、及び具体的には、本明細書に記載される技法は生体サンプルの腫瘍細胞における遺伝子の腫瘍発現レベルの決定方法の向上を提供するため、臨床上の意思決定の支援及び腫瘍病理の理解の向上を成す。
[068] さらに、従来技法とは異なり、本明細書に記載される技法は、生体サンプルをシーケンシングすることによって入手される発現データを、特定の遺伝子についての腫瘍発現レベルを推定するように訓練される機械学習モデルへの入力として使用することにより、生体サンプルに特定の遺伝子発現を考慮する。本技法は、生体サンプルに特定の遺伝子発現を考慮することにより、複数の無関係な生体サンプルからの平均遺伝子発現レベルのみに依存するのとは対照的に、特定の遺伝子についての腫瘍発現レベルを一層の正確さをもって決定する。
[069] 本発明者らが開発した技法の別の利点は、一部の実施形態において、本明細書に記載されるモデルが、細胞タイプの人工混合物に相当するデータで訓練されているため、訓練プロセスが、腫瘍サンプルを物理的にサンプル採取して分析することにより実際的に可能となり得るであろうよりもはるかに多い数の多様な組成のサンプルにわたる腫瘍及びTME細胞の多様な組織特異的発現を考慮に入れる(例えば、幅広い種類の腫瘍微小環境を模擬する)ことが可能になるという点である。これにより、発現レベル推定のために機械学習モデルを訓練する労力及び計算資源が実質的に減少する。本明細書に記載される人工混合体はまた、幅広い生物学的変動性を捕捉するような方法で入手することもでき、このデータを使用して訓練される機械学習モデルがかかるノイズ及び変動性の存在下でも生物学的に意味のあるシグナルを同定する能力が向上する。例えば、本明細書に記載されるとおり、テクニカルノイズに関する定量的ノイズモデルが開発されており、一部の実施形態では、これを人工混合体に適用し得る。その上、こうした人工混合体の開発に使用されるRNA発現データは、種々の生物学的状態を有する複数の細胞集団にわたる複数の異なるサンプルに由来した。こうした人工混合体は、機械学習モデルが、現実の腫瘍サンプル間での腫瘍細胞における遺伝子の腫瘍発現レベルを有効に決定する能力を向上させる。
[070] 結果的に、本発明者らが開発した技法は、向上した診断ツールを提供し、これは患者に対する治療のより正確な同定を可能にするものであり、ひいては臨床転帰を改善する。詳細には、本明細書に記載される技法を用いると、ある特定の遺伝子の腫瘍発現レベルが正確に高い信頼性で決定されるため、ある特定の遺伝子のその特定の腫瘍発現レベルを有する患者の治療に最も有効な治療を同定することができる。対照的に、従来技法は腫瘍発現レベルを信頼性をもって推定することができないため、抗癌治療の同定は信頼できない粗末なものとなる。
[071] 本明細書に記載される技法を用いて腫瘍発現レベルに基づき対象向けの療法を同定することに加えて、決定された腫瘍発現レベルを使用して対象向けの1つ以上の臨床試験が同定されてもよい。
[072] それに加えて又は代えて、本明細書に記載される技法は、検査室環境におけるクオリティコントロールプロセスの文脈で利用されてもよい。例えば、免疫組織化学技法を用いて生体サンプルの腫瘍細胞における遺伝子の腫瘍発現を初期推定してもよい。しかしながら、免疫組織化学は、それが使用者による顕微鏡下でのサンプルの観察に頼るため、高度に主観的である。従って、使用者が異なると、腫瘍発現について異なる値が推定されることになり、一貫性のない、信頼できない、及び多くの場合に不正確な結果につながり得る。本明細書に記載される技法を用いると、検査結果を客観的に確認し、又は修正し得る。
[073] それに応じて、一部の実施形態は、癌を有する対象の生体サンプル(例えば、腫瘍細胞及びTME細胞を有する)中の腫瘍細胞における遺伝子の腫瘍発現レベルを推定するためのコンピュータ実装された機械学習技法を提供する。本技法には、(a)遺伝子セットについての発現データを入手することであって、遺伝子セットが、腫瘍細胞に関連する第1の複数の遺伝子(例えば、表1に示される遺伝子の少なくとも1つ、少なくとも一部、全て)と腫瘍微小環境細胞に関連する第2の複数の遺伝子(例えば、表2に示される遺伝子の少なくとも1つ、少なくとも一部、全て)とを含み、発現データは、第1の複数の遺伝子中の遺伝子についての第1の総発現レベル(例えば、生体サンプル中の全ての細胞によるその遺伝子の発現の組み合わせ)と第2の複数の遺伝子中の遺伝子についての第2の総発現レベル(例えば、生体サンプル中の全ての細胞によるその遺伝子の発現の組み合わせ)とを含む、入手すること;(b)腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベル(例えば、腫瘍細胞における遺伝子の発現レベル)を複数の機械学習モデルを使用して決定することであって、複数の機械学習モデルが、第1の複数の遺伝子中の第1の遺伝子についての第1の機械学習モデルを含めた第1の複数の遺伝子中の各遺伝子についてのそれぞれの機械学習モデルを含み、腫瘍発現レベルは、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルを含む、決定すること;及び(c)腫瘍細胞における第1の複数の遺伝子の腫瘍発現レベルを出力すること(例えば、メモリに格納すること、グラフィカルユーザインターフェース(GUI)を表示すること、1つ以上のデバイスに転送すること等)が含まれる。
[074] 一部の実施形態において、第1の複数の遺伝子の腫瘍発現レベルを決定することには、(a)第1の遺伝子についての第1の特徴セットを生成すること、;(b)第1の特徴セットを第1の機械学習モデルへの入力として提供することにより、TME細胞における第1の遺伝子のTME発現レベル推定値(例えば、TME細胞におけるある遺伝子の発現レベル)を示すものである出力を入手すること;及び(c)第1の機械学習モデルの出力及び第1の総発現レベルにおける、第1の遺伝子についての総発現レベルを使用して、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルを(例えば、少なくとも一部には、総発現レベルからTME発現レベル推定値を減算することにより)決定することが含まれる。
[075] 一部の実施形態において、第1の遺伝子についての第1の特徴セットを生成することには、(a)発現データを使用して、生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手すること及び第1の遺伝子の初期発現レベル推定値を第1の特徴セットに含めること;(b)第1の総発現レベルの少なくとも一部(例えば、少なくとも25個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個等)を第1の特徴セットに含めること;及び(c)第2の総発現レベルの少なくとも一部(例えば、少なくとも25個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個等)を第1の特徴セットに含めることが含まれる。
[076] 一部の実施形態において、複数の機械学習モデルは、第1の複数の遺伝子中の第2の遺伝子(例えば、表1に一覧を示す遺伝子のうちの1つ)についての第2の機械学習モデルを含み、腫瘍発現レベルは、腫瘍細胞における第2の遺伝子についての第2の腫瘍発現レベルを含む。例えば、第2の機械学習モデルは第1の機械学習モデルと異なってもよく、第2の遺伝子は第1の遺伝子と異なってもよい。一部の実施形態において、第1の複数の遺伝子の腫瘍発現レベルを決定することは、(a)第2の遺伝子についての第2の特徴セットを生成すること;(b)第2の特徴セットを第2の機械学習モデルへの入力として提供することにより、TME細胞における第2の遺伝子のTME発現レベル推定値を示すものである出力を入手すること;及び(c)第2の機械学習モデルの出力及び第1の総発現レベルにおける、第2の遺伝子についての総発現レベルを使用して、腫瘍細胞における第2の遺伝子についての第2の腫瘍発現レベルを決定することをさらに含む。
[077] 一部の実施形態において、第2の遺伝子についての第2の特徴セットを生成することは、(a)発現データを使用して、生体サンプルの腫瘍細胞における第2の遺伝子の初期発現レベル推定値を入手すること及び第2の遺伝子の初期発現レベル推定値を第2の特徴セットに含めること;(b)第1の総発現レベルの少なくとも一部(例えば、少なくとも25個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個等)を第2の特徴セットに含めること;及び(c)第2の総発現レベルの少なくとも一部(例えば、少なくとも25個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個等)を第2の特徴セットに含めることを含む。
[078] 一部の実施形態において、複数の機械学習モデルは、第1の複数の遺伝子中の第3の遺伝子(例えば、表1に一覧を示す遺伝子から選択される)についての第3の機械学習モデルを含み、腫瘍発現レベルは、腫瘍細胞における第3の遺伝子についての第3の腫瘍発現レベルを含む。例えば、第3の機械学習モデルは第1及び第2の機械学習モデルの両方と異なってもよく、第3の遺伝子は第1及び第2の遺伝子の両方と異なってもよい。一部の実施形態において、第1の複数の遺伝子の腫瘍発現レベルを決定することは、(a)第3の遺伝子についての第3の特徴セットを生成すること、(b)第3の特徴セットを第3の機械学習モデルへの入力として提供することにより、TME細胞における第3の遺伝子のTME発現レベル推定値を示すものである出力を入手すること、及び(c)第3の機械学習モデルの出力及び第1の総発現レベルにおける、第3の遺伝子についての総発現レベルを使用して、腫瘍細胞における第3の遺伝子についての第3の腫瘍発現レベルを決定することをさらに含む。
[079] 一部の実施形態において、第1の遺伝子についての第1の特徴セットを生成することは、発現データを使用して、TMEに見られる複数の細胞タイプそれぞれについての第1の複数のRNAパーセンテージを(例えば、細胞デコンボリューションにより)入手することであって、第1の複数のRNAパーセンテージの各々が、第1の遺伝子に関連する(例えば、第1の遺伝子が発現する間に産生される)、及び生体サンプル中のそれぞれのタイプの細胞(例えば、好中球、線維芽細胞等)を起源とする(例えば、それによって産生される)RNAの(例えば、生体サンプル中における)パーセントを示していることをさらに含む。例えば、一部の実施形態において、第1の複数のRNAパーセンテージを入手することは、発現の少なくとも一部(例えば、発現データの一部分又は全て)を少なくとも1つの非線形回帰モデルを使用して処理することを含む。
[080] 一部の実施形態において、第1の遺伝子についての第1の特徴セットを生成することは、第1の複数のRNAパーセンテージの少なくとも一部を第1の特徴セットに含めることをさらに含む。
[081] 一部の実施形態において、TME細胞は、第1のタイプのTME細胞と第2のタイプのTME細胞(例えば、第1のタイプと異なる)とを含む。一部の実施形態において、発現データの少なくとも一部は、発現データの第1のサブセットと発現データの第2のサブセット(例えば、第1のサブセットと異なる)とを含む。一部の実施形態において、少なくとも1つの非線形回帰モデルは、第1の非線形回帰モデルと、第1の非線形回帰モデルと異なる第2の非線形回帰モデルとを含む。一部の実施形態において、第1の複数のRNAパーセンテージを入手することは、(a)発現データの第1のサブセットを第1の非線形回帰モデルを使用して処理することにより、第1のタイプのTME細胞についての第1のRNAパーセンテージを入手すること;及び(b)発現データの第2のサブセットを第2の非線形回帰モデルを使用して処理することにより、第2のタイプのTME細胞についての第2のRNAパーセンテージを入手することを含む。
[082] 一部の実施形態において、第1のタイプのTME細胞及び第2のタイプのTME細胞は、各々、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、及び好中球からなる群から選択され、ここで第1のタイプは第2のタイプと異なる。しかしながら、本明細書に記載される技術の態様は、いかなる特定のタイプのTME細胞にも限定されないため、細胞タイプは任意の好適なタイプのTME細胞であり得ることが理解されなければならない。
[083] 一部の実施形態において、生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手することは、(a)TMEに見られる複数の細胞タイプの各々についての第1の遺伝子の平均TME発現レベル(例えば、異なる生体サンプルのTME細胞における第1の遺伝子の予め決定された発現レベルに基づき入手される)を入手すること;(b)第1の複数のRNAパーセンテージに基づき(例えば、第1の複数のRNAパーセンテージにそれぞれの平均発現レベルを乗算することによる)、入手された発現レベルの加重和を決定すること;及び(c)第1の遺伝子についての総発現レベルから加重和を減算することにより、初期発現レベル推定値を入手することを含む。
[084] 一部の実施形態において、本技法は、発現データを使用して、腫瘍細胞についての第1のRNAパーセンテージを入手することをさらに含み、ここで第1のRNAパーセンテージは、第1の遺伝子に関連する及び生体サンプルの腫瘍細胞を起源とするRNAのパーセントを示している。例えば、第1のRNAパーセンテージは、TMEに見られる細胞タイプについてのRNAパーセンテージを入手するための技法を用いて入手されてもよい。
[085] 一部の実施形態において、発現データは、少なくとも一部には、癌を有する対象の生体サンプルをシーケンシング(例えば、RNA又はDNAシーケンシング)することによって予め入手されているものである。
[086] 一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部は、腫瘍細胞に関連する第1の複数の遺伝子中の少なくとも25個の遺伝子、少なくとも50個の遺伝子、少なくとも75個の遺伝子、少なくとも100個の遺伝子、又は少なくとも150個の遺伝子についての総発現レベルを含む。一部の実施形態において、複数の機械学習モデルは、それぞれ、少なくとも25個の遺伝子、少なくとも50個の遺伝子、少なくとも75個の遺伝子、少なくとも100個の遺伝子、又は少なくとも150個の遺伝子に対応する少なくとも25個の機械学習モデル、少なくとも50個の機械学習モデル、少なくとも75個の機械学習モデル、少なくとも100個の機械学習モデル、又は少なくとも150個の機械学習モデルを含む。
[087] 一部の実施形態において、少なくとも25個の機械学習モデル(少なくとも50個の機械学習モデル、少なくとも75個の機械学習モデル、少なくとも100個の機械学習モデル、又は少なくとも150個の機械学習モデル等)の各機械学習モデルが、異なる勾配ブーストモデルを含む。
[088] 一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部は、表1に一覧を示す遺伝子から選択される少なくとも10個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部は、表1に一覧を示す遺伝子から選択される少なくとも25個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部は、表1に一覧を示す遺伝子から選択される少なくとも50個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部は、表1に一覧を示す遺伝子から選択される少なくとも75個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部は、表1に一覧を示す遺伝子から選択される少なくとも100個の遺伝子についての総発現レベルを含む。一部の実施形態において、第1の特徴セットに含まれる第1の総発現レベルの少なくとも一部は、表1に一覧を示す遺伝子から選択される少なくとも150個の遺伝子についての総発現レベルを含む。
[089] 一部の実施形態において、複数の機械学習モデルの第1の機械学習モデルは、勾配ブースティングモデル(例えば、LightGBM、Catboost、XGBoost、Adaboost等などの勾配ブースティングフレームワークを用いて訓練される)である。
[090] 一部の実施形態において、本技法は、(a)遺伝子セット中の遺伝子についての模擬発現データを含む訓練用データを入手することであって、訓練用データが1つ以上の生体サンプル(例えば、1例以上の対象から入手された腫瘍及び/又は非腫瘍サンプル)に関連すること;(b)訓練用データを使用して、第1の遺伝子についての訓練用特徴セットを生成すること;及び(c)第1の機械学習モデルを訓練することにより第1の遺伝子のTME発現レベルを推定することによって第1の機械学習モデルを訓練することをさらに含む。一部の実施形態において、訓練することは、訓練用特徴セットを第1の機械学習モデルへの入力として提供することにより、1つ以上の生体サンプルのTME細胞における第1の遺伝子のTME発現レベルの推定値を含む出力を入手すること及びTME発現レベルの推定値を使用して第1の機械学習モデルのパラメータを更新することを含む。
[091] 一部の実施形態において、第1の遺伝子についての訓練用特徴セットを生成することは、模擬発現データを使用して、1つ以上の生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値を入手すること及び初期発現レベル推定値を訓練用特徴セットに含めること及び模擬発現レベルの少なくとも一部を訓練用特徴セットに含めること(例えば、腫瘍細胞に関連する遺伝子の少なくとも一部の発現レベル及びTME細胞に関連する遺伝子の少なくとも一部の発現レベル)を含む。
[092] 一部の実施形態において、第1の機械学習モデルは、少なくとも一部には、模擬発現データを含む訓練用データを生成することによって訓練されたものである。一部の実施形態において、訓練用データを生成することは、(a)1つ以上の生体サンプルの各々についての訓練用発現データを入手することであって、訓練用発現データが、第1の複数の遺伝子(例えば、腫瘍細胞に関連する)についての第1の訓練用発現レベルと第2の複数の遺伝子(例えば、TME細胞に関連する)についての第2の訓練用発現レベルとを含む、入手すること;(b)第1の訓練用発現レベルを使用して第1の模擬発現データを生成すること;(c)第2の訓練用発現レベルを使用して第2の模擬発現データを生成すること;及び(d)第1の模擬発現データと第2の模擬発現データとを組み合わせることにより、模擬発現データの少なくとも一部を作成することを含む。
[093] 一部の実施形態において、本技法は、腫瘍細胞における第1の遺伝子についての第1の腫瘍発現レベルに基づき対象向けの少なくとも1つの抗癌療法を同定することをさらに含む。例えば、第1の腫瘍発現レベルが一部の判定基準を満たす場合(例えば、ある発現レベル範囲内に入る場合、閾値発現レベルを超える場合、閾値発現レベルよりも低い場合等)、対象向けに抗癌療法が同定されてもよい。一部の実施形態において、本技法は、少なくとも1つの抗癌療法を投与することをさらに含む。
[094] 一部の実施形態において、少なくとも1つの抗癌療法は、表3に一覧を示す第1の遺伝子についての療法の群から選択される。
[095] 一部の実施形態において、少なくとも1つの抗癌療法を同定することは、第1の腫瘍発現レベルが、第1の遺伝子に関連する少なくとも1つの判定基準を満たすかどうかを決定すること及び第1の腫瘍発現レベルが少なくとも1つの判定基準を満たすという決定後に、表3に第1の遺伝子について一覧を示す療法の群から少なくとも1つの抗癌療法を選択することを含む。例えば、少なくとも1つの判定基準は、第1の遺伝子に特定のものであってよい。
[096] 以下に続くのは、本発明者らが開発した細胞デコンボリューションシステム及び方法に関する様々な概念、及びそれらの実施形態のより詳細な説明である。本明細書に記載される様々な態様は、数多くの方法のいずれで実装されてもよいことが理解されなければならない。具体的な実施態様の例が本明細書に提供されるが、説明として示すために過ぎない。加えて、以下の実施形態に表される様々な態様は、単独で用いられても、又は任意の組み合わせで用いられてもよく、本明細書に明示的に記載される組み合わせに限定されない。
[097] 図1は、生体サンプル101中の腫瘍細胞における遺伝子の1つ又は複数の腫瘍発現レベル105を、生体サンプル101を処理するためのシーケンシングプラットフォーム102を使用して入手された発現データ103に基づき推定するための説明として示される技法100を示す。1つ又は複数の腫瘍発現レベルは、コンピューティングデバイス104を使用して発現データ103を処理することにより決定される。
[098] 一部の実施形態において、説明として示される技法100は、臨床又は実験室セッティングで実装し得る。例えば、技法100は、臨床又は実験室セッティング内に位置するコンピューティングデバイス104上に実装し得る。一部の実施形態において、コンピューティングデバイス104は、臨床又は実験室セッティング内に位置するシーケンシングプラットフォーム102から発現データ103を直接入手し得る。例えば、シーケンシングプラットフォーム102に含まれるコンピューティングデバイス104は、本明細書に記載される技術の態様がいかなる特定の通信ネットワークにも限定されないとおり、インターネット又は任意の他の好適なネットワークなど、通信ネットワーク経由で発現データ103を直接入手し得る。
[099] それに加えて又は代えて、説明として示される技法100は、臨床又は実験室セッティングから遠隔にあるセッティングで実装し得る。例えば、説明として示される技法100は、臨床又は実験室セッティングの外部に位置するコンピューティングデバイス104上に実装し得る。この場合、コンピューティングデバイスは、臨床又は実験室セッティング内又はその外部に位置するシーケンシングプラットフォーム102を用いて生成される発現データ103を間接的に入手し得る。例えば、発現データ103は、本明細書に記載される技術の態様がいかなる特定の通信ネットワークにも限定されないとおり、インターネット又は任意の他の好適なネットワークなど、通信ネットワーク経由でコンピューティングデバイス104に提供されてもよい。
[0100] 図1に示されるとおり、技法100には、発現データ103を生み出すものであるシーケンシングプラットフォーム102を使用して生体サンプル101を処理することが関わる。生体サンプル101は、癌を有するか、それを有する疑いがあるか、又はそれを有するリスクがある対象から入手されてもよい。生体サンプル101は、生検を実施することによるか、又は対象から血液サンプル、唾液サンプル、若しくは任意の他の好適な生体サンプルを入手することにより入手されてもよい。生体サンプル101には、罹患組織(例えば、癌性)及び/又は健常組織(例えば、非腫瘍性)が含まれてもよい。生体サンプルには、腫瘍細胞及び/又はTME細胞が含まれてもよい。TMEには異なるタイプの細胞が見られる。例えば、TMEには、非限定的な例として、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、及び好中球が含まれてもよい。一部の実施形態において、生体サンプルの入手源又は調製方法には、「生体サンプル」の節を含めた本明細書に記載される方法のいずれが含まれてもよい。
[0101] 一部の実施形態において、シーケンシングプラットフォーム102は、次世代シーケンシングプラットフォーム(例えば、Illumina(商標)、Roche(商標)、Ion Torrent(商標)等)、又は任意のハイスループット若しくは超並列シーケンシングプラットフォームであり得る。一部の実施形態において、シーケンシングプラットフォーム102には、任意の好適なシーケンシングデバイス及び/又は1つ以上のデバイスを備えた任意のシーケンシングシステムが含まれてもよい。一部の実施形態では、シーケンシング方法は自動化されていてもよく、一部の実施形態では、手動での介入があってもよい。一部の実施形態において、発現データ103は、次世代シーケンシング以外の技法(例えば、サンガーシーケンシング、マイクロアレイ等)を用いて入手されてもよい。
[0102] 発現データ103には、シーケンシングプロトコルによって生成される配列データ(例えば、次世代シーケンシング、サンガーシーケンシング等によって同定される核酸分子にある一連のヌクレオチド)並びに同様に配列データから推測又は決定することのできる情報と考え得るそこに含まれる情報(例えば、供給源、組織タイプ等を示すものである情報)が含まれてもよい。一部の実施形態において、発現データ103には、FASTAファイルに含まれる情報、FASTQファイルに含まれる記述及び/又はクオリティスコア、BAMファイルに含まれるアラインメントされた位置、及び/又は任意の他の好適な情報が含まれてもよい。
[0103] 発現データ103は、生体サンプル101をシーケンシングすることにより生成されてもよい。生体サンプル101には、核酸が含まれてもよい。核酸には、1つ又は複数の核酸分子が含まれてもよい。
[0104] 一部の実施形態において、核酸はRNAである。一部の実施形態において、シーケンシングされたRNAは、サンプル中に見られる転写されたコードRNA及び非コードRNAの両方を含む。かかるRNAがシーケンシングに使用されるとき、シーケンシングは「全RNA」から生成されると言われ、全トランスクリプトームシーケンシングとも称することができる。或いは、核酸は、コードRNA(例えば、mRNA)が単離されてシーケンシングに使用されるように調製することができる。これは、当該技術分野において公知の任意の手段を通じて、例えばRNAをポリアデニル化配列に関して単離又はスクリーニングすることにより行い得る。これは、mRNA-Seqと称されることもある。
[0105] 一部の実施形態において、核酸はDNAである。一部の実施形態において、核酸は、核酸に全ゲノムが存在するように調製される。一部の実施形態において、核酸は、ゲノムのタンパク質コード領域(例えば、エクソーム)のみが残るように処理される。エクソームのみがシーケンシングされるように核酸が調製されるとき、それは、全エクソームシーケンシング(WES)と称される。シーケンシング用にエクソームを単離する種々の方法、例えば、タグを付加されたプローブを使用して標的領域(例えば、エクソン)をハイブリダイズし、次にはそれを他の領域(例えば、未結合のオリゴヌクレオチド)からさらに分離させ得るような溶液ベースの単離が、当該技術分野において公知である。こうしたタグが付加された断片を、次には調製及びシーケンシングすることができる。
[0106] 一部の実施形態において、発現データ103は、未加工のDNA又はRNA配列データ、DNAエクソーム配列データ(例えば、全エクソームシーケンシング(WES)からのもの、DNAゲノム配列データ(例えば、全ゲノムシーケンシング(WGS)からのもの)、RNA発現データ、遺伝子発現データ、バイアス補正遺伝子発現データ、又はシーケンシングプラットフォーム102から入手されるデータを含む、及び/又はシーケンシングプラットフォーム102から入手されるデータに由来するデータを含む任意の他の好適なタイプの配列データが含まれてもよい。一部の実施形態において、発現データ103の入手源又は調製には、「発現データ」及び「発現データを入手する」の節に関して記載される実施形態のいずれが含まれてもよい。
[0107] 一部の実施形態において、発現データ103は、遺伝子発現レベルを含む。遺伝子発現レベルは、mRNA及び/又はタンパク質など、遺伝子発現の産物を検出することにより検出されてもよい。一部の実施形態において、遺伝子発現レベルは、サンプル中のmRNAレベルを検出することにより決定される。本明細書で使用されるとき、用語「決定する」又は「検出する」には、サンプル内にある物質の存在、欠如、分量及び/又は量(これは有効量であり得る)を、かかる物質の定性的又は定量的濃度レベルの導出を含め、判定すること、又は他の方法で対象からのサンプル中のかかる物質の値及び/又は分類を評価することが含まれてもよい。シーケンシングデータを処理して発現レベルを含めた発現データを入手するための例示的技法については、少なくとも図23及び節「発現レベル」に関する記載を含め、本明細書に記載される。
[0108] 一部の実施形態において、遺伝子発現レベルは、総発現レベルを含む。本明細書において参照されるとき、ある遺伝子についての「総発現レベル」とは、生体サンプル101においてその遺伝子がどの程度発現しているかを定量化する数値である。遺伝子についての総発現レベルは、生体サンプルの腫瘍細胞及びTME細胞の両方におけるその遺伝子の発現の組み合わせを反映し得る。そのため、ある特定の遺伝子についての総発現レベルは、腫瘍細胞におけるその特定の遺伝子の発現とTME細胞におけるその特定の遺伝子の発現との間を区別しないものであり得る。
[0109] 一部の実施形態において、総発現レベルは、複数の遺伝子の各々について入手される。例えば、少なくとも10個の遺伝子、少なくとも25個の遺伝子、少なくとも50個の遺伝子、少なくとも75個の遺伝子、少なくとも100個の遺伝子、少なくとも150個の遺伝子、少なくとも200個の遺伝子、少なくとも250個の遺伝子、少なくとも300個の遺伝子、少なくとも350個の遺伝子、少なくとも400個の遺伝子、少なくとも450個の遺伝子、少なくとも500個の遺伝子、少なくとも550個の遺伝子、少なくとも600個の遺伝子、又はそれ以上の遺伝子について、総発現レベルが入手されてもよい。
[0110] 一部の実施形態において、遺伝子は、腫瘍細胞に関連する遺伝子とTME細胞に関連する遺伝子とを含む。一部の実施形態において、「腫瘍細胞に関連する」遺伝子は、主に腫瘍細胞に発現するものを含む。腫瘍細胞に関連する遺伝子の非限定的な例としては、表1に一覧を示すものが挙げられる。一部の実施形態において、「TME細胞に関連する」遺伝子は、主にTME細胞に発現するものを含む。TME細胞に関連する遺伝子の非限定的な例としては、表2に一覧を示すものが挙げられる。
[0111] 一部の実施形態において、発現データ103は、腫瘍細胞に関連する遺伝子の少なくとも一部及びTME細胞に関連する遺伝子の少なくとも一部についての総発現レベルを含む。例えば、発現データ103は、腫瘍細胞に関連する少なくとも10個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも75個、少なくとも100個、少なくとも150個、又はそれ以上の遺伝子についての総発現レベルを含んでもよい。この遺伝子は、例えば、表1に一覧を示すものから選択されてもよい。それに加えて又は代えて、発現データ103は、TME細胞に関連する少なくとも10個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも350個、少なくとも400個、又はそれ以上の遺伝子についての総発現レベルを含んでもよい。この遺伝子は、例えば、表2に一覧を示すものから選択されてもよい。
[0112] 入手される発現データ103のタイプにかかわらず、発現データ103はコンピューティングデバイス104を使用して処理される。コンピューティングデバイス104は、任意の好適なタイプの1つ又は複数のコンピューティングデバイスであり得る。例えば、コンピューティングデバイス104は、携帯型コンピューティングデバイス(例えば、ラップトップ、スマートフォン)又は据え置き型コンピューティングデバイス(例えば、デスクトップコンピュータ、サーバ)であってもよい。コンピューティングデバイス104が複数のコンピューティングデバイスを含むとき、それらの1つ又は複数のデバイスは、物理的に(例えば、単一の部屋に)コロケーションされてもよく、又は複数の物理的な場所に分散されてもよい。一部の実施形態において、コンピューティングデバイス104は、クラウドコンピューティングインフラストラクチャーの一部であってもよい。一部の実施形態において、1つ以上のコンピュータ104が、実体(例えば、病院、研究機関)によって運営される施設にコロケーションされてもよい。一部の実施形態において、1つ以上のコンピューティングデバイス104は、シーケンシングプラットフォーム102など、医用デバイスと共に物理的にコロケーションされてもよい。例えば、シーケンシングプラットフォーム102にコンピューティングデバイス104が含まれてもよい。図4は、例示的コンピューティングデバイス404及びソフトウェア410を含むシステム400を示す。
[0113] 一部の実施形態において、コンピューティングデバイス104は、医師、臨床医、研究者、患者、又は他の個人などのユーザによって操作されるものであってよい。例えば、ユーザは発現データ103をコンピューティングデバイス104への入力として(例えば、ファイルをアップロードすることにより)提供してもよく、及び/又は発現データ103を使用して実施されるべき処理又は他の方法を指定するユーザ入力を提供してもよい。
[0114] 一部の実施形態において、発現データ103は、コンピューティングデバイス104上で動く1つ以上のソフトウェアプログラムによって処理されてもよい(例えば、少なくとも図4に関する記載を含め、本明細書に記載されるとおり)。詳細には、一部の実施形態において、発現データ103を使用して、腫瘍細胞に関連する複数の遺伝子(例えば、表1に一覧を示す遺伝子)それぞれに対応する複数の機械学習モデルへの入力として提供される特徴セットが生成される。例えば、発現データ103を使用して、腫瘍細胞に関連する第1の遺伝子についての第1の特徴セット(例えば、図3A~図3Bに示される第1の特徴セット304a)が生成されてもよく、この第1の特徴セットが、第1の遺伝子に対応する第1の機械学習モデル(例えば、図3A~図3Bに示される第1の機械学習モデル306a)への入力として提供されてもよい。加えて、発現データ103を使用して、腫瘍細胞に関連する第2の遺伝子についての第2の特徴セット(例えば、図3A~図3Bに示される第2の特徴セット304b)が生成されてもよく、この第2の特徴セットが、第2の遺伝子に対応する第2の機械学習モデル(例えば、図3A~図3Bに示される第2の機械学習モデル306b)への入力として提供されてもよい。かかる処理は、腫瘍細胞に関連する複数の遺伝子の各々について実施されてもよい。例えば、発現データ103を使用して、M個の機械学習モデルへの入力として提供されるM個の特徴セットが生成されてもよく、ここでMは、少なくとも10、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも50、少なくとも75、少なくとも100、少なくとも120、10~130、20~100、25~75等である。
[0115] 一部の実施形態において、複数の機械学習モデルの各々は、任意の好適なタイプである。例えば、機械学習モデルの各々は、勾配ブースティング機械学習モデル(例えば、第1の勾配ブースティング機械学習モデル、第2の勾配ブースティング機械学習モデル等)であってもよい。勾配ブースティング機械学習モデルは、勾配ブースティング決定木モデル又は任意の他の好適なタイプのモデルを勾配ブースティング若しくは任意の他の好適なブースティング手法でブースティングされる「弱学習器」として使用するものであってもよい。一部の実施形態において、勾配ブースティングMLモデルは、XGBoost、LightGBM、Catboost、又はAdaboostなどの勾配ブースティングフレームワークを使用して訓練され得る。
[0116] 複数の機械学習モデル中の機械学習モデルは、勾配ブースティング機械学習モデルである必要はないこと、及び他のタイプの機械学習モデルが使用されてもよいことが理解されなければならない。例えば、本明細書に記載される技術の態様がこの点で限定されないとおり、一部の実施形態では、非線形回帰モデル(例えば、ロジスティック回帰モデル)、ニューラルネットワークモデル、サポートベクターマシン、混合ガウスモデル、ランダムフォレストモデル、決定木モデル、又は任意の他の好適なタイプの機械学習モデル。
[0117] 一部の実施形態において、機械学習モデルは、腫瘍細胞に関連する遺伝子のTME発現レベルを推定するように訓練される。本明細書において参照されるとき、ある遺伝子の「TME発現レベル」とは、生体サンプルのTME細胞においてその遺伝子がどの程度発現しているかを定量化する数値である。例えば、第1の機械学習モデルが、生体サンプル101における第1の遺伝子のTME発現レベルを推定するように訓練されてもよく、第2の機械学習モデルが、生体サンプル101における第2の遺伝子のTME発現レベルを推定するように訓練されてもよい。発現データを処理してTME発現レベルを推定するための説明として示される技法については、少なくとも図2Bに示されるプロセス220の処理224に関する記載を含め、本明細書に記載される。
[0118] 第1の機械学習モデルの出力を含め、機械学習モデルの出力に基づいて、一部の実施形態では、腫瘍細胞に関連する遺伝子の少なくとも1つに関して1つ又は複数の腫瘍発現レベル105が決定される。例えば、1つ又は複数の腫瘍発現レベル105には、腫瘍細胞に関連する第1の遺伝子についての第1の腫瘍発現レベルが含まれてもよい。本明細書において参照されるとき、遺伝子の「腫瘍発現レベル」とは、生体サンプルの腫瘍細胞においてその遺伝子がどの程度発現しているかを定量化する数値である。発現データを処理して腫瘍発現レベルを推定するための説明として示される技法については、少なくとも図2Bに示されるプロセス220の処理226に関する記載を含め、本明細書に記載される。
[0119] 一部の実施形態において、1つ又は複数の腫瘍発現レベル105は出力として提供されてもよい。例えば、1つ又は複数の腫瘍発現レベル105を使用して、ユーザに(例えば、グラフィカルユーザインターフェース(GUI)経由で出力されることになるレポートが生成されてもよい。
[0120] 一部の実施形態において、1つ又は複数の腫瘍発現レベル105を使用して、生体サンプル101の入手元となった対象向けの腫瘍特異的治療が同定されてもよい。例えば、ある遺伝子の発現は、その遺伝子を(例えば、特定の発現レベルで)発現する腫瘍の治療において有効であることが公知の少なくとも1つの治療に関連し得る。かかる治療が生体サンプル101を治療するために同定されてもよく、一部の実施形態では、続いて対象に投与されてもよい。例えば、表3は、腫瘍細胞に関連する特定の遺伝子の発現にそれぞれ関連する治療の一覧を示す。
[0121] それに加えて又は代えて、1つ又は複数の腫瘍発現レベル105を使用して、生体サンプル101について過去に推定された腫瘍発現レベルが確認されてもよい。例えば、検査室又は臨床セッティングから免疫組織化学結果を受け取り得る。説明として示される技法100は、その免疫組織化学結果を、生体サンプル101について決定された1つ又は複数の腫瘍発現レベル105と比較することを含んでもよい。発現レベルが一致しない場合、それは、1つ又は複数の腫瘍発現レベル105の入手に使用された生体サンプル101が信頼できないこと、又は免疫組織化学結果が信頼できないことを示すものであり得る。従って、入手された発現レベル間にある不一致を用いてクオリティコントロールに問題があると同定することができ、これは適切な検査室又は臨床セッティングに折り返し報告されてもよい。
Figure 2024517745000002
Figure 2024517745000003
Figure 2024517745000004
Figure 2024517745000005
Figure 2024517745000006
Figure 2024517745000007
Figure 2024517745000008
Figure 2024517745000009
Figure 2024517745000010
Figure 2024517745000011
Figure 2024517745000012
Figure 2024517745000013
Figure 2024517745000014
Figure 2024517745000015
Figure 2024517745000016
Figure 2024517745000017
Figure 2024517745000018
Figure 2024517745000019
Figure 2024517745000020
Figure 2024517745000021
Figure 2024517745000022
Figure 2024517745000023
[0122] 図2A~図2Cは、本明細書に記載される技術の一部の実施形態に係る、生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを推定するための説明として示されるプロセス(例えば、プロセス200、220、及び250)を示すフローチャートである。これらのプロセスは、任意の好適な1つ又は複数のコンピューティングデバイスにより実施されてもよい。例えば、プロセスは、ラップトップコンピュータにより、デスクトップコンピュータにより、1つ以上のサーバにより、クラウドコンピューティング環境において、本明細書に図24に関する中で記載されるとおりのコンピューティングデバイス2400において、又は任意の他の好適な方法で実施されてもよい。
[0123] 図2Aは、本明細書に記載される技術の一部の実施形態に係る、機械学習を用いて生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを推定するためのプロセス200を示すフローチャートである。
[0124] 図2Aの実施形態では、プロセス200は処理202から始まり、ここでは遺伝子セットについての発現データが入手される。発現データは任意の好適なタイプであってよく、例えば、少なくとも図1及び節「発現データ」に関する記載を含め、本明細書に記載される任意のタイプの発現データが含まれてもよい。例えば、発現データは、遺伝子セット中のある遺伝子についての総発現レベルを含んでもよい。遺伝子についての総発現レベルは、生体サンプルの腫瘍細胞及びTME細胞の両方におけるその遺伝子の発現の組み合わせを反映し得る。そのため、ある特定の遺伝子についての総発現レベルは、腫瘍細胞におけるその特定の遺伝子の発現とTME細胞におけるその特定の遺伝子の発現との間を区別しない。
[0125] 一部の実施形態において、遺伝子セットは、腫瘍細胞に関連する遺伝子を含み、発現データは、腫瘍細胞に関連する遺伝子についての総発現レベルを含む。一部の実施形態において、遺伝子セットは、腫瘍細胞に関連する遺伝子が少なくとも10個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも75個、少なくとも100個、少なくとも150個、又はそれ以上を含む。例えば、遺伝子セットは、表1に一覧が示される遺伝子のサブセット(例えば、少なくとも一部又は全て)を含んでもよく、発現データは、それらの遺伝子についての総発現レベルを含んでもよい。
[0126] 一部の実施形態において、遺伝子セットは、また、TME細胞に関連する遺伝子をも含んでもよく、発現データは、TME細胞に関連する遺伝子についての総発現レベルを含む。一部の実施形態において、遺伝子セットは、TME細胞に関連する遺伝子が少なくとも10個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも350個、少なくとも400個、又はそれ以上を含む。例えば、遺伝子セットは、表2に一覧が示される遺伝子のサブセット(例えば、少なくとも一部又は全て)を含んでもよく、発現データは、それらの遺伝子についての総発現レベルを含んでもよい。
[0127] 一部の実施形態において、発現データは、任意の好適な技術を用いて任意の好適な場所から、例えば、データストア(例えば、図4の発現データストア446)などから入手される。例えば、発現データは、遠隔セッティングで予め入手されていたもので、データストアにアップロードされたものであってもよい。それに加えて又は代えて、発現データは、発現データを入手するために使用されたシーケンシングプラットフォーム(例えば、図4のシーケンシングプラットフォーム444)から直接入手されてもよい。
[0128] 次にプロセス200は処理204に進み、ここでは腫瘍細胞に関連する遺伝子の腫瘍発現レベルが決定される。一部の実施形態において、遺伝子についての腫瘍発現レベルを決定することは、腫瘍細胞に関連する遺伝子にそれぞれ対応する機械学習モデルを使用することを含む。例えば、第1の遺伝子についての第1の腫瘍発現レベルを決定することは、第1の遺伝子に対応する第1の機械学習モデルを使用することを含む。
[0129] 一部の実施形態において、処理204は、表1に一覧を示す遺伝子のセット(例えば、少なくとも一部又は全て)についての腫瘍発現レベルを決定することを含む。例えば、処理204は、表1に一覧を示す遺伝子の少なくとも10個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも75個、少なくとも100個、少なくとも150個又は全てについての腫瘍発現レベルを決定することを含んでもよい。遺伝子についての腫瘍発現レベルを決定するための技法については、少なくとも図2B~図2Cに関する記載を含め、本明細書に記載される。
[0130] 処理206において、腫瘍細胞に関連する遺伝子の腫瘍発現レベルが出力される。一部の実施形態において、腫瘍発現レベルはユーザ(例えば、臨床医、研究者等)が利用できるようにされる。例えば、腫瘍発現レベルは、ユーザインターフェース(例えば、グラフィカルユーザインターフェース(GUI))で表示されてもよく、非一時的記憶媒体にローカルで保存されてもよく、遠隔データベース又はクラウドストレージ環境に保存されてもよく、及び/又は1つ以上の外部コンピューティングデバイスに転送されてもよい。
[0131] 一部の実施形態において、ある特定の遺伝子の腫瘍発現レベルは、1つ以上の抗癌療法に関連する。例えば、ある特定の療法は、その特定の遺伝子を発現する腫瘍を有効に治療することが公知であり得る。それに加えて又は代えて、ある特定の療法は、その特定の遺伝子を発現する腫瘍の治療に無効であることが公知であり得る。
[0132] それに応じて、一部の実施形態では、処理208において、出力された腫瘍発現レベルを使用して、対象に投与する抗癌療法が同定される。一部の実施形態において、これには、出力された腫瘍発現レベルが1つ以上の判定基準を満たすかどうかを決定することが含まれる。一部の実施形態において、判定基準は、遺伝子及びその関連する療法毎に異なる。例えば、ある療法は、ある特定の遺伝子を発現する(例えば、その遺伝子の腫瘍発現レベルが0を超える)腫瘍を有効に治療し得る。対照的に、ある療法は、ある遺伝子を過剰発現する、又は過小発現する(例えば、腫瘍発現レベルがその遺伝子の平均発現を超える、又は下回る)腫瘍を有効に治療し得る。
[0133] 本開示の態様は、ある特定の遺伝子に関連する治療用薬剤(例えば、抗癌療法)の同定及び/又は選択に関する。「ある特定の遺伝子に関連する」治療用薬剤とは、特定の遺伝子から発現する遺伝子産物(例えば、DNA又はRNAなどの核酸、ペプチド、タンパク質等)と相互作用する(例えば、それに結合する、活性若しくは機能を阻害する、活性若しくは機能を低下させる、又は活性若しくは機能を改変する)治療用薬剤を指す。例えば、キナーゼをコードする遺伝子(例えば、ALK)に関連する治療用薬剤は、核酸(例えば、その遺伝子(例えば、ALK遺伝子)から転写されるmRNA又はその遺伝子から発現するタンパク質(例えば、ALKタンパク質)に結合し、又はそれと相互作用し得る。一部の実施形態において、ある特定の遺伝子に関連する治療用薬剤は、特定の遺伝子と直接相互作用し得る(例えば、それに結合し得るか、又はそれを直接阻害し得る)。一部の実施形態において、ある特定の遺伝子に関連する治療用薬剤は、特定の遺伝子と間接的に相互作用し得る(例えば、特定の遺伝子の調節因子に結合し得るか、又はそれを阻害し得る)。治療用薬剤は、小分子(例えば、小分子阻害薬、例えばキナーゼ阻害薬、DNAメチルトランスフェラーゼ阻害薬、トポイソメラーゼ阻害薬等)、核酸(例えば、dsRNA、siRNA、miRNA等などの阻害性核酸、又は治療用mRNA)、ペプチド、又はタンパク質(例えば、抗体、毒素等)であってもよい。一部の実施形態において、治療用薬剤は、政府規制機関(例えば、米国食品医薬品局(Food and Drug Administration))によって癌の治療用に承認されている。FDAの承認を受けている薬剤は当該技術分野において公知であり、例えばFDA Orange Book又はFDA Purple Bookに記載されている。表3は、特定の遺伝子の腫瘍発現に関連する療法の一覧を示す。一部の実施形態において、処理208は、表3に一覧を示す1つ以上の療法を同定することを含む。
[0134] 一部の実施形態において、プロセス200の実施態様には、図2Aに示されない追加の又は代替的なステップが含まれてもよい。例えば、プロセス200を実行することには、例示的フローチャートに含まれるあらゆる処理が含まれてもよい。或いは、プロセス200には、例示的フローチャートに含まれる処理のサブセット(例えば、処理202及び206、処理202、204、206、及び208、処理202、204及び206等)のみが含まれてもよい。
Figure 2024517745000024
Figure 2024517745000025
Figure 2024517745000026
[0135] 図2Bは、本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞におけるある遺伝子の腫瘍発現レベルを決定するためのプロセス220を示すフローチャートである。一部の実施形態において、プロセス200の処理204は、プロセス220を用いて実現し得る。
[0136] プロセス220は処理222から始まり、ここでは腫瘍細胞に関連する第1の遺伝子についての第1の特徴セットが生成される。一部の実施形態において、第1の特徴セットを生成することは、第1の特徴セットに、プロセス200の処理202で入手された発現データの少なくとも一部を含めることを含む。含められる発現データは、例えば、腫瘍細胞に関連する少なくとも一部の遺伝子についての総発現レベルを含んでもよい。それに加えて又は代えて、含められる発現データは、TME細胞に関連する少なくとも一部の遺伝子についての総発現レベルを含んでもよい。発現データを第1の特徴セットに含めるための例示的技法については、少なくとも図2Cに描かれるプロセス250の処理252及び254に関する記載を含め、本明細書に記載される。
[0137] 一部の実施形態において、第1の遺伝子についての第1の特徴セットを生成することは、腫瘍細胞における第1の遺伝子についての初期発現レベル推定値を決定することがさらに含む。例えば、腫瘍細胞における第1の遺伝子の初期発現レベル推定値は、機械学習モデルを使用して第1の遺伝子の更新された腫瘍発現レベルを決定する前の、腫瘍細胞における第1の遺伝子の腫瘍発現レベルの推定値に相当し得る。一部の実施形態において、第1の遺伝子についての初期発現レベル推定値を決定することは、第1の遺伝子のTME発現レベルを推定すること、及び第1の遺伝子の総発現レベルから第1の遺伝子のTME発現レベル推定値を減算することを含む。初期発現レベル推定値を決定するための例示的技法については、少なくとも図2Cに描かれるプロセス250の処理256に関する記載を含め、本明細書に記載される。
[0138] 一部の実施形態において、第1の遺伝子についての第1の特徴セットを生成することは、生体サンプル中の複数の細胞タイプそれぞれについての第1の複数のRNAパーセンテージを入手すること及び第1の複数のRNAパーセンテージを第1の特徴セットに含めることを含む。本明細書において参照されるとき、一部の実施形態において、ある特定の細胞タイプについての「RNAパーセンテージ」は、ある特定の細胞タイプを起源とするある特定の遺伝子(例えば、第1の遺伝子)とアラインメントしたRNA配列リード(例えば、シーケンシングプラットフォームを使用して入手される)のパーセントを示すものである。例えば、第1の遺伝子について、第1の細胞タイプについてのRNAパーセンテージは、第1の遺伝子とアラインメントした、及び生体サンプル中の第1の細胞タイプの細胞を起源とするRNA配列リードのパーセンテージを示すものである。
[0139] 一部の実施形態において、複数の細胞タイプそれぞれについての第1の複数のRNAパーセンテージを入手することは、生体サンプル中の複数のTME細胞タイプ(例えば、好中球、線維芽細胞、NK細胞等)の各々についてのRNAパーセンテージを入手することを含む。一部の実施形態において、第1の複数のRNAパーセンテージを入手することは、生体サンプル中の腫瘍細胞についてのRNAパーセンテージを入手することを含む。
[0140] 一部の実施形態において、RNAパーセンテージは機械学習技法を用いて入手される。RNAパーセンテージを決定するための例示的技法については、節「細胞デコンボリューション」に記載される。RNAパーセンテージを決定することの一部の態様についてはまた、「SYSTEMS AND METHODS FOR DECONVOLUTION OF EXPRESSION DATA」と題される米国特許出願公開第2021-0287759号(この内容は全て、全体として参照により本明細書に援用される)にも記載される。
[0141] 処理224において、第1の特徴セットが第1の機械学習モデルへの入力として提供され、第1の遺伝子についてのTME発現レベル推定値を示すものである出力が入手される。一部の実施形態において、TME発現レベル推定値は、生体サンプルのTME細胞における第1の遺伝子の推定された発現レベルである。
[0142] 一部の実施形態において、第1の機械学習モデルは、任意の好適なタイプである。例えば、一部の実施形態において、第1の機械学習モデルは、勾配ブースティング機械学習モデルであってもよい。勾配ブースティング機械学習モデルは、勾配ブースティング決定木モデル又は任意の他の好適なタイプのモデルを勾配ブースティング若しくは任意の他の好適なブースティング手法でブースティングされる「弱学習器」として使用するものであってもよい。一部の実施形態において、勾配ブースティングMLモデルは、XGBoost、LightGBM、Catboost、又はAdaboostなどの勾配ブースティングフレームワークを使用して訓練され得る。
[0143] 第1の機械学習モデルが勾配ブースティング機械学習モデルである必要はないこと、及び他のタイプのMLモデルが使用されてもよいことが理解されなければならない。例えば、一部の実施形態では、非線形回帰モデル(例えば、ロジスティック回帰モデル)、ニューラルネットワークモデル、サポートベクターマシン、混合ガウスモデル、ランダムフォレストモデル、決定木モデル、又は本明細書に記載される技術の態様がこの点で限定されないとおり、任意の他の好適なタイプの機械学習モデル。
[0144] 一部の実施形態において、機械学習モデルは、その値が訓練用データを使用して推定されてもよい複数のパラメータを含む。訓練用データを使用して、MLモデルにおけるパラメータのパラメータ値を推定するプロセスは、MLモデルを「訓練する」と称される。一部の実施形態において、機械学習モデルは、複数のパラメータに加えて1つ以上のハイパーパラメータを含む。ハイパーパラメータの値も同様に訓練中に推定されてよい。第1の機械学習モデルを訓練するための例示的技法については、少なくとも図6及び図7A~図7Bに関する記載を含め、本明細書に記載される。
[0145] 処理226において、第1の遺伝子について第1の腫瘍発現レベルが決定される。一部の実施形態において、第1の腫瘍発現レベルは、生体サンプルの腫瘍細胞における第1の遺伝子の予測される発現レベルである。
[0146] 一部の実施形態において、第1の腫瘍発現レベルを決定することは、第1の機械学習モデルの出力及び第1の遺伝子の総発現レベル(例えば、プロセス200の処理202で入手される)を使用することを含む。これには、例えば、式1に示されるとおり、第1の遺伝子の総発現レベル(Total1)から第1の遺伝子についてのTME発現レベル推定値(TME1)を減算することにより、(スケーリングされていない)第1の腫瘍発現レベル(Tumorunscaled,1)を入手することが含まれてもよい。
[0147] Tumorunscaled,1=Total1-TME1 (式1)
[0148] 一部の実施形態において、第1の遺伝子についての腫瘍発現レベルを決定することは、さらに、生体サンプル中の腫瘍細胞の予測されるRNAパーセンテージに基づく。例えば、式2に示されるとおり、腫瘍細胞のRNAパーセンテージ(RP1)を使用して総発現レベルとTME発現レベル推定値との間の差をスケーリング(例えば、除算)することにより、(スケーリングされた)第1の腫瘍発現レベルが入手されてもよい。
[0149]
Figure 2024517745000027
[0150] 処理228において、プロセス220には、腫瘍発現レベルを決定すべき腫瘍細胞に関連する別の遺伝子があるかどうかを決定することが含まれる。処理228において、腫瘍発現レベルを決定すべき別の遺伝子があると決定されると、次の遺伝子について処理222~226が繰り返される。例えば、第2の遺伝子であれば、これには、第2の特徴セットを決定すること、第2の特徴セットを第2の機械学習モデルへの入力として提供することにより、TME細胞における第2の遺伝子のTME発現レベル推定値を示すものである出力を入手すること、及び第2の遺伝子についての第2の腫瘍発現レベルを決定することが含まれることになるであろう。
[0151] 図2Cは、本明細書に記載される技術の一部の実施形態に係る、第1の遺伝子についての第1の特徴セットを生成するためのプロセス250を示すフローチャートである。一部の実施形態において、プロセス200の処理204は、プロセス250を用いて実現し得る。一部の実施形態において、プロセス220の処理222は、プロセス250を用いて実現し得る。
[0152] プロセス250は処理252から始まり、ここでは生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値が入手される。
[0153] 一部の実施形態において、初期発現レベル推定値は、プロセス200の処理202で入手された発現データを使用して入手される。例えば、発現データを使用して、第1の遺伝子について、生体サンプル中の異なるTME細胞集団(例えば、第1のタイプのTME細胞、第2のタイプのTME細胞等)についてのRNAパーセンテージを入手し得る。RNAパーセンテージを決定するための例示的技法は、節「細胞デコンボリューション」及び「SYSTEMS AND METHODS FOR DECONVOLUTION OF EXPRESSION DATA」と題される米国特許出願公開第2021-0287759号(この内容は全て、全体として参照により本明細書に援用される)にあるものを含め、本明細書に記載される。
[0154] 一部の実施形態において、初期発現レベル推定値はさらに、様々なTME細胞集団の各々における第1の遺伝子の平均発現レベル(例えば、第1のタイプのTME細胞における第1の遺伝子の平均発現レベル、第2のタイプのTME細胞における第1の遺伝子の平均発現レベル、第NのタイプのTME細胞における第1の遺伝子の平均発現レベル等)を使用して入手される。一部の実施形態において、特定の細胞集団におけるある遺伝子の平均発現レベルは、異なる生体サンプル又は人工サンプル間で細胞集団におけるその遺伝子の発現レベルを平均化することによって入手される。例えば、TME細胞集団におけるある遺伝子の平均発現レベルは、図7A~図7B及び図8に関して記載される訓練用サンプル中のTME細胞集団におけるその遺伝子の平均発現レベルを計算することにより決定されてもよい。一部の実施形態において、特定の細胞集団におけるある遺伝子の平均発現レベルは予め決定されており、例えばデータベースなど、好適な記憶媒体に格納されている。従って、一部の実施形態において、平均発現レベルは、好適な記憶媒体から入手される。腫瘍細胞に関連する様々な遺伝子についての例示的な平均発現プロファイルの一覧を表4に示す。
[0155] 一部の実施形態において、RNAパーセンテージ及び平均発現レベルを使用して、生体サンプルのTME細胞における第1の遺伝子の初期発現レベル推定値に相当する加重和が決定される。式3は、k個のTME細胞集団を含む生体サンプルのTME細胞における第1の遺伝子についての初期TME発現レベル推定値(TMEinitial,1)を決定するための例示的な式を示す。
[0156] TMEinitial,1=Σk(RPk)*(Expk) (式3)
[0157] 式中、RPkは、k番目のTME細胞集団についてのRNAパーセンテージを表し、Expkは、k番目のTME細胞集団における第1の遺伝子の平均TME発現レベルを表す。
[0158] 一部の実施形態において、第1の遺伝子の初期TME発現レベル推定値を使用して、生体サンプルの腫瘍細胞における第1の遺伝子の初期腫瘍発現レベル推定値が決定される。例えば、プロセス200の処理202で入手された、生体サンプル中の第1の遺伝子の総発現レベル(Total1)から第1の遺伝子の初期TME発現レベル推定値が減算されてもよい。式4は、生体サンプル腫瘍細胞における第1の遺伝子の初期発現レベル推定値(Tumorinitial,1)を決定するための例示的な式を示す。
[0159] Tumorinitial,1=Total1-TMEinitial,1 (式4)
[0160] 一部の実施形態において、腫瘍細胞における第1の遺伝子の入手された初期発現レベル推定値は、プロセス250の処理252において第1の特徴セットに含められる。例えば、初期発現レベル推定値は、プロセス220の処理224において、第1の特徴セットに含まれる他の特徴と共に第1の機械学習モデルへの入力として提供されてもよい。
[0161] プロセス250の処理254において、腫瘍細胞に関連する遺伝子についての総発現レベルの少なくとも一部が、第1の特徴セットに含められる。例えば、総発現レベルには、プロセス200の処理202で入手されたものが含まれる。
[0162] 一部の実施形態において、腫瘍細胞に関連する遺伝子についての入手された総発現レベルは全て、第1の特徴セットに含められる。一部の実施形態において、総発現レベルのサブセットのみが、第1の特徴セットに含められる。例えば、一部の実施形態において、表1に一覧を示す遺伝子の少なくとも10個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも75個、少なくとも100個、少なくとも150個又は全てについての総発現レベルが、第1の特徴セットに含められる。
[0163] 一部の実施形態において、第1の特徴セットに含められるサブセットは、対象が有する又は有する疑いがある癌のタイプに依存する。例えば、表3は、異なるタイプの癌に関連する遺伝子の一覧を示す。ある特定のタイプの癌を有する又は有する疑いがある患者について、第1の特徴セットには、腫瘍細胞に関連し及びそのタイプの癌に関連する遺伝子についての総発現レベルが含められてもよい。
[0164] 一部の実施形態において、第1の特徴セットに含めることになる特徴のサブセットは、第1の機械学習モデルを訓練することの一部として同定される。Kursa et al.(Boruta - A System for Feature Selection, Fundamenta Informaticae, 2010; 101(4):271-285)(全体として参照により本明細書に援用される)は、機械学習モデルへの入力として使用される特徴を同定するための技法について記載している。
[0165] プロセス250の処理256において、TME細胞に関連する遺伝子についての総発現レベルの少なくとも一部が、第1の特徴セットに含められる。例えば、総発現レベルには、プロセス200の処理202で入手されたものが含まれる。
[0166] 一部の実施形態において、TME細胞に関連する遺伝子についての入手された総発現レベルは全て、第1の特徴セットに含められる。一部の実施形態において、総発現レベルのサブセットのみが、第1の特徴セットに含められる。例えば、一部の実施形態において、表2に一覧を示す遺伝子の少なくとも10個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも350個、少なくとも400個又は全てについての総発現レベルが、第1の特徴セットに含められる。
[0167] 一部の実施形態において、第1の特徴セットに含められるサブセットは、対象が有する又は有する疑いがある癌のタイプに依存する。例えば、表3は、異なるタイプの癌に関連する遺伝子の一覧を示す。ある特定のタイプの癌を有する又は有する疑いがある患者について、第1の特徴セットには、TME細胞に関連し及びそのタイプの癌に関連する遺伝子についての総発現レベルが含まれてもよい。
[0168] 一部の実施形態において、図示されないが、第1の特徴セットを生成することは、生体サンプル中の細胞タイプについての第1の複数のRNAパーセンテージを入手すること及び第1の複数のRNAパーセンテージを第1の特徴セットに含めることを含む。例えば、これには、第1のタイプのTME細胞についての第1のRNAパーセンテージを入手すること及び第2のタイプのTME細胞についての第2のRNAパーセンテージを決定することが含まれてもよい。それに加えて又は代えて、これには、生体サンプル中の腫瘍細胞についての第2のRNAパーセンテージを入手することが含まれてもよい。
[0169] 一部の実施形態において、RNAパーセンテージは、機械学習技法を用いて入手される。RNAパーセンテージを決定するための例示的技法については、節「細胞デコンボリューション」に記載される。RNAパーセンテージを決定することの一部の態様についてはまた、「SYSTEMS AND METHODS FOR DECONVOLUTION OF EXPRESSION DATA」と題される米国特許出願公開第2021-0287759号(この内容は全て、全体として参照により本明細書に援用される)にも記載される。
[0170] 一部の実施形態において、第1の特徴セットに含まれることになる特徴は、第1の機械学習モデルを訓練することの一部として同定される。Kursa et al.(Boruta - A System for Feature Selection, Fundamenta Informaticae, 2010; 101(4):271-285)(全体として参照により本明細書に援用される)は、機械学習モデルへの入力として使用される特徴を同定するための技法について記載している。
[0171] 本明細書に記載される技術の態様がこの点で限定されないとおり、プロセス250には、一部の実施形態では、第1の特徴セットに1つ以上の追加の特徴を含めるための1つ以上の追加の処理が含まれ得ることが理解されなければならない。例えば、プロセス250を使用して第1の特徴セットを生成することには、第1の特徴セットに含まれることになる1つ以上の追加の特徴を入手すること及び/又はそれを含めることが含まれてもよい。
Figure 2024517745000028
Figure 2024517745000029
Figure 2024517745000030
Figure 2024517745000031
Figure 2024517745000032
Figure 2024517745000033
Figure 2024517745000034
[0172] 図3Aは、本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞における遺伝子の腫瘍発現レベルを推定するための説明として示される技法300の図である。
[0173] 図3Aに示されるとおり、生体サンプル301を使用して発現データ303が入手される。生体サンプル301は、腫瘍細胞301aとTME細胞301bとを含む。TME細胞301bは、異なるタイプのTME細胞(例えば、タイプA 322、タイプB 324、及びタイプC 326)を含む。図3Aに示されるTME細胞集団の数及びタイプは説明として示されるに過ぎず、生体サンプルは、任意の好適な数及びタイプのTME細胞集団を含み得ることが理解されなければならない。
[0174] 一部の実施形態において、生体サンプル301は、発現データ303を入手するため処理されるか、又は予め処理されていてもよい。例えば、発現データは、シーケンシングプラットフォーム(例えば、図1に示されるシーケンシングプラットフォーム102)を使用して生成されてもよい。
[0175] 一部の実施形態において、発現データ303は、腫瘍細胞に関連する遺伝子(本明細書では「腫瘍遺伝子」とも称される)及びTME細胞に関連する遺伝子(本明細書では「TME遺伝子」とも称される)についての発現データを含む。一部の実施形態において、腫瘍遺伝子は遺伝子数Nを含み、TME遺伝子は、Nと同じであっても、又は異なってもよい遺伝子数Mを含む。例えば、腫瘍遺伝子は、表2に一覧を示す遺伝子をN個含んでもよく、TME遺伝子は、表3に一覧を示す遺伝子をM個含んでもよい。それに加えて又は代えて、N個の腫瘍遺伝子は、少なくとも10個の遺伝子、少なくとも25個の遺伝子、少なくとも35個の遺伝子、少なくとも50個の遺伝子、少なくとも75個の遺伝子、少なくとも100個の遺伝子、少なくとも120個の遺伝子、10~130個の遺伝子、25~100個の遺伝子、50~100個の遺伝子等を含んでもよい。M個のTME遺伝子は、少なくとも10個の遺伝子、少なくとも25個の遺伝子、少なくとも35個の遺伝子、少なくとも50個の遺伝子、少なくとも75個の遺伝子、少なくとも100個の遺伝子、少なくとも150個の遺伝子、少なくとも175個の遺伝子、少なくとも200個の遺伝子、少なくとも250個の遺伝子、少なくとも300個の遺伝子、少なくとも350個の遺伝子、少なくとも400個の遺伝子、少なくとも450個の遺伝子、10~475個の遺伝子、25~400個の遺伝子、50~350個の遺伝子、100~300個の遺伝子等を含んでもよい。
[0176] 一部の実施形態において、発現データ303は、一覧に示される腫瘍遺伝子の各々及び一覧に示されるTME遺伝子の各々についての総発現レベルを含む。例えば、発現データ303は、腫瘍細胞に関連する第1の遺伝子についての総発現レベル及びTME細胞に関連する第1の遺伝子についての総発現レベルを含む。
[0177] 一部の実施形態において、発現データ303を使用して、腫瘍細胞に関連する遺伝子の各々についての特徴セットが生成される。例えば、発現データ303を使用して、第1の腫瘍遺伝子についての第1の特徴セット304a、第2の腫瘍遺伝子についての第2の特徴セット304b、及び第M番目の腫瘍遺伝子についての第M番目の特徴セット304cが生成される。一部の実施形態において、全ての発現データ303を使用して、ある遺伝子についての特徴セットが生成される。それに加えて又は代えて、発現データのサブセットのみ(例えば、腫瘍遺伝子及び/又はTME遺伝子の総発現レベルのサブセットのみ)を使用して、ある遺伝子についての特徴セットが生成される。遺伝子についての特徴セットを生成するための例示的技法については、少なくとも図2Cに関する記載を含め、本明細書に記載される。ある遺伝子についての例示的特徴セットについては、少なくとも図3Bに関する記載を含め、本明細書に記載される。
[0178] 一部の実施形態において、各特徴セットがそれぞれの機械学習モデルへの入力として提供されることにより、対応する出力が入手される。例えば、第1の特徴セット304aが第1の機械学習モデル306aへの入力として提供されることにより、生体サンプル301のTME細胞301bにおける第1の遺伝子のTME発現レベル推定値を示すものである出力308aが入手される。第2の特徴セット304bが第2の機械学習モデル306bへの入力として提供されることにより、生体サンプルのTME細胞301bにおける第2の遺伝子のTME発現レベル推定値を示すものである出力308bが入手される。第M番目の特徴セットが第M番目の機械学習モデル306cへの入力として提供されることにより、生体サンプルのTME細胞301bにおける第M番目の遺伝子のTME発現レベル推定値を示すものである出力308cが入手される。機械学習モデルを使用して、ある遺伝子についてのTME発現レベル推定値を示すものである出力を入手するための例示的技法については、少なくとも図2Bに示されるプロセス220の処理224に関する記載を含め、本明細書に記載される。
[0179] 一部の実施形態において、各機械学習モデルの出力を使用して、遺伝子の腫瘍発現レベル推定値が決定される。例えば、第1の機械学習モデル306aの出力308aを使用して、生体サンプル301の腫瘍細胞301aにおける第1の遺伝子についての腫瘍発現レベル310aが決定される。第2の機械学習モデル306bの出力308bを使用して、生体サンプル301の腫瘍細胞301bにおける第2の遺伝子についての腫瘍発現レベル310bが決定される。第M番目の機械学習モデル306cの出力308cを使用して、生体サンプル301の腫瘍細胞301cにおける第M番目の遺伝子についての腫瘍発現レベル310cが決定される。機械学習モデルの出力を使用して、ある遺伝子についての腫瘍発現レベルを決定するための例示的技法については、少なくとも図2Bに示されるプロセス220の処理226に関する記載を含め、本明細書に記載される。
[0180] 図3Bは、本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞における遺伝子について生成される特徴セットの説明として示される例を示す図である。
[0181] 図3Bに示されるとおり、発現データ303を使用して、第1の遺伝子についての第1の特徴セット304a、第2の遺伝子についての第2の特徴セット304b、及び第M番目の遺伝子についての第M番目の特徴セット304cを含め、生体サンプルの腫瘍細胞に関連するM個の遺伝子についてのM個の特徴セットが生成される。
[0182] 一部の実施形態において、第1の特徴セット304aは、例えば、第1の遺伝子についての初期発現レベル推定値352a、腫瘍遺伝子についての総発現レベル354aの少なくとも一部、TME遺伝子についての総発現レベル356aの少なくとも一部、及び/又は第1の複数のRNAパーセンテージ358aを含め、第1の遺伝子についての任意の好適な特徴を含む。第1の特徴セット304aは、本技術の態様がこの点で限定されないとおり、図3Bに示されるものと比べて追加の特徴又は少ない数の特徴を含み得ることが理解されなければならない。
[0183] 一部の実施形態において、初期発現レベル推定値352aは、(a)生体サンプル中の第1の遺伝子についての総発現レベル、(b)TME細胞集団301bについてのRNAパーセンテージ(例えば、タイプA 322、タイプB 324、及びタイプC 326のTME細胞集団についてのRNAパーセンテージ)、及び(c)TME細胞集団の各々における第1の遺伝子の平均発現レベルに基づき得る。初期発現レベル推定値を決定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理252に関する記載を含め、本明細書に記載される。
[0184] 一部の実施形態において、腫瘍遺伝子についての総発現レベル354aは、遺伝子1~Mについての発現データ303に含まれる総発現レベルの全て又はサブセットを含む。例えば、総発現レベルのサブセットは、対象が有する又は有する疑いがある癌のタイプに基づき選択されてもよい。特徴セットに含めることになる腫瘍遺伝子についての総発現レベルを同定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理254に関する記載を含め、本明細書に記載される。
[0185] 一部の実施形態において、TME遺伝子についての総発現レベル356aは、遺伝子1~Nについての発現データ303に含まれる総発現レベルの全て又はサブセットを含む。例えば、総発現レベルのサブセットは、対象が有する又は有する疑いがある癌のタイプに基づき選択されてもよい。特徴セットに含めることになるTME遺伝子についての総発現レベルを同定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理256に関する記載を含め、本明細書に記載される。
[0186] 一部の実施形態において、第1の複数のRNAパーセンテージ358aは、生体サンプル中の複数の細胞タイプの各々についてのRNAパーセンテージを含む。一部の実施形態において、第1の複数のRNAパーセンテージ358aの各々は、生体サンプル中のある特定の細胞タイプを起源とする第1の遺伝子とアラインメントしたRNA配列リードのパーセントを示すものである。例えば、第1の複数のRNAパーセンテージは、第1の細胞タイプを起源とする第1の遺伝子とアラインメントしたRNA配列リードのパーセンテージを示すものである第1のRNAパーセンテージを含んでもよい。第1の複数のRNAパーセンテージ358aは、異なる細胞タイプの1つ以上のTME集団についてのRNAパーセンテージ及び/又は生体サンプル中の腫瘍細胞についてのRNAパーセンテージを含んでもよい。
[0187] 一部の実施形態において、第2の特徴セット304bは、例えば、第2の遺伝子についての初期発現レベル推定値352b、腫瘍遺伝子についての総発現レベル354bの少なくとも一部、TME遺伝子についての総発現レベル356bの少なくとも一部、及び/又は第2の複数のRNAパーセンテージ358bを含め、第2の遺伝子についての任意の好適な特徴を含む。本技術の態様はこの点で限定されないとおり(as)、第2の特徴セット304bは、図3Bに示されるものと比べて追加の特徴又は少ない数の特徴が含み得ることが理解されなければならない。本明細書に記載される技術の態様はこの点で限定されないとおり、第2の特徴セット304bは第1の特徴セットと異なってもよく(例えば、完全に又は部分的に異なってもよく)、又は第1の特徴セット304aと同一であってもよいことが理解されなければならない。
[0188] 一部の実施形態において、初期発現レベル推定値352bは、(a)生体サンプル中の第2の遺伝子についての総発現レベル、(b)TME細胞集団301bについてのRNAパーセンテージ(例えば、タイプA 322、タイプB 324、及びタイプC 326のTME細胞集団についてのRNAパーセンテージ)、及び(c)TME細胞集団の各々における第2の遺伝子の平均発現レベルに基づき得る。初期発現レベル推定値を決定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理252に関する記載を含め、本明細書に記載される。
[0189] 一部の実施形態において、腫瘍遺伝子についての総発現レベル354bは、遺伝子1~Mについての発現データ303に含まれる総発現レベルの全て又はサブセットを含む。例えば、総発現レベルのサブセットは、対象が有する又は有する疑いがある癌のタイプに基づき選択されてもよい。特徴セットに含めることになる腫瘍遺伝子についての総発現レベルを同定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理254に関する記載を含め、本明細書に記載される。
[0190] 一部の実施形態において、TME遺伝子についての総発現レベル356bは、遺伝子1~Nについての発現データ303に含まれる総発現レベルの全て又はサブセットを含む。例えば、総発現レベルのサブセットは、対象が有する又は有する疑いがある癌のタイプに基づき選択されてもよい。特徴セットに含めることになるTME遺伝子についての総発現レベルを同定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理256に関する記載を含め、本明細書に記載される。
[0191] 一部の実施形態において、第2の複数のRNAパーセンテージ358bは、生体サンプル中の複数の細胞タイプの各々についてのRNAパーセンテージを含む。一部の実施形態において、第2の複数のRNAパーセンテージ358bの各々は、生体サンプル中のある特定の細胞タイプを起源とする第2の遺伝子とアラインメントしたRNA配列リードのパーセントを示すものである。例えば、第2の複数のRNAパーセンテージは、第1の細胞タイプを起源とする第2の遺伝子とアラインメントしたRNA配列リードのパーセンテージを示すものである第1のRNAパーセンテージを含んでもよい。第2の複数のRNAパーセンテージ358bは、異なる細胞タイプの1つ以上のTME集団についてのRNAパーセンテージ及び/又は生体サンプル中の腫瘍細胞についてのRNAパーセンテージを含んでもよい。
[0192] 一部の実施形態において、第M番目の特徴セット304cは、例えば、第M番目の遺伝子についての初期発現レベル推定値352c、腫瘍遺伝子についての総発現レベル354cの少なくとも一部、TME遺伝子についての総発現レベル356cの少なくとも一部、及び/又は第M番目の複数のRNAパーセンテージ358cを含め、第M番目の遺伝子についての任意の好適な特徴を含む。本技術の態様はこの点で限定されないとおり、第M番目の特徴セット304cは、図3Bに示されるものと比べて追加の特徴又は少ない数の特徴を含み得ることが理解されなければならない。本明細書に記載される技術の態様がこの点で限定されないとおり、第M番目の特徴セット304cは、第1の特徴セット304a及び/又は第2の特徴セットと異なってもよく(例えば、完全に又は部分的に異なってもよく)、又は第1の特徴セット304a及び/又は第2の特徴セット304bと同一であってもよいことが理解されなければならない。
[0193] 一部の実施形態において、初期発現レベル推定値352cは、(a)生体サンプル中の第M番目の遺伝子についての総発現レベル、(b)TME細胞集団301bについてのRNAパーセンテージ(例えば、タイプA 322、タイプB 324、及びタイプC 326のTME細胞集団についてのRNAパーセンテージ)、及び(c)TME細胞集団の各々における第1の遺伝子の平均発現レベルに基づき得る。初期発現レベル推定値を決定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理252に関する記載を含め、本明細書に記載される。
[0194] 一部の実施形態において、腫瘍遺伝子についての総発現レベル354cは、遺伝子1~Mについての発現データ303に含まれる総発現レベルの全て又はサブセットを含む。例えば、総発現レベルのサブセットは、対象が有する又は有する疑いがある癌のタイプに基づき選択されてもよい。特徴セットに含めることになる腫瘍遺伝子についての総発現レベルを同定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理254に関する記載を含め、本明細書に記載される。
[0195] 一部の実施形態において、TME遺伝子についての総発現レベル356cは、遺伝子1~Nについての発現データ303に含まれる総発現レベルの全て又はサブセットを含む。例えば、総発現レベルのサブセットは、対象が有する又は有する疑いがある癌のタイプに基づき選択されてもよい。特徴セットに含めることになるTME遺伝子についての総発現レベルを同定するための例示的技法については、少なくとも図2Cに示されるプロセス250の処理256に関する記載を含め、本明細書に記載される。
[0196] 一部の実施形態において、第M番目の複数のRNAパーセンテージ358cは、生体サンプル中の複数の細胞タイプの各々についてのRNAパーセンテージを含む。一部の実施形態において、第M番目の複数のRNAパーセンテージ358cの各々は、生体サンプル中のある特定の細胞タイプを起源とする第M番目の遺伝子とアラインメントしたRNA配列リードのパーセントを示すものである。例えば、第M番目の複数のRNAパーセンテージは、第1の細胞タイプを起源とする第M番目の遺伝子とアラインメントしたRNA配列リードのパーセンテージを示すものである第1のRNAパーセンテージを含んでもよい。第M番目の複数のRNAパーセンテージ358cは、異なる細胞タイプの1つ以上のTME集団についてのRNAパーセンテージ及び/又は生体サンプル中の腫瘍細胞についてのRNAパーセンテージを含んでもよい。
[0197] 図4は、本明細書に記載される技術の一部の実施形態に係る、例示的コンピューティングデバイス404とソフトウェア410とを含むシステム400のブロック図である。
[0198] 一部の実施形態において、コンピューティングデバイス404には、発現データ(例えば、図1に示される発現データ103)に関する様々な機能を実施するように構成されたソフトウェア410が含まれる。一部の実施形態において、ソフトウェア410は、複数のモジュールを含む。モジュールは、少なくとも1つのコンピュータハードウェアプロセッサによる実行時に、そのモジュールの1つ又は複数の機能を少なくとも1つのコンピュータハードウェアプロセッサに実施させるプロセッサ実行可能命令を含んでもよい。かかるモジュールは、本明細書において時に「ソフトウェアモジュール」とも称され、その各々に、少なくとも図2A~図2C及び図6に関する記載を含め、本明細書に記載されるプロセスなど、1つ以上のプロセスを実施するように構成されたプロセッサ実行可能命令が含まれる。
[0199] 例えば、図4に示されるとおり、ソフトウェア410は、特徴生成モジュール460、発現レベル決定モジュール462及びRNAパーセンテージ決定モジュール464など、発現データを処理するための1つ以上のソフトウェアモジュールを含む。一部の実施形態において、ソフトウェア410は、加えて、データ(例えば、ユーザ入力、発現データ、1つ又は複数の機械学習モデル)を入手するためのユーザインターフェースモジュール458、シーケンシングプラットフォームインターフェースモジュール448、及び/又はデータストアインターフェースモジュール442を含む。一部の実施形態において、データは、シーケンシングプラットフォーム444、発現データストア446、及び/又は機械学習モデルデータストア454から入手される。一部の実施形態において、ソフトウェア410は、1つ以上の機械学習モデル(例えば、機械学習モデルデータストア454に格納されている)を訓練するための機械学習モデル訓練モジュール452をさらに含む。
[0200] 一部の実施形態において、特徴生成モジュール460は、発現データを発現データストア446及び/又はシーケンシングプラットフォーム444から入手する。
[0201] 一部の実施形態において、特徴生成モジュール460は、腫瘍細胞に関連する遺伝子セット(例えば、表1に一覧を示す遺伝子)のそれぞれの遺伝子についての特徴セットを生成する。例えば、特徴生成モジュール460は、表1に一覧を示す第1の遺伝子についての第1の特徴セットを生成してもよい。
[0202] 一部の実施形態において、特徴生成モジュール460によって生成される特徴セットは、入手された発現データの少なくとも一部及び生体サンプルの腫瘍細胞におけるある遺伝子の初期発現レベル推定値を含む。しかしながら、特徴セットには他の情報が含まれ得ることが理解されなければならない。
[0203] 一部の実施形態において、特徴セットに含まれる発現データは、生体サンプル中の腫瘍細胞に関連する遺伝子についての総発現レベル及び生体サンプル中のTME細胞に関連する遺伝子についての総発現レベルを含む。例えば、特徴セットは、腫瘍細胞に関連する第1の遺伝子(例えば、表1に一覧を示す遺伝子)についての第1の総発現レベル及び/又はTME細胞に関連する第2の遺伝子(例えば、表2に一覧を示す遺伝子)についての第2の総発現レベルを含んでもよい。
[0204] 一部の実施形態において、ある遺伝子の初期発現レベル推定値は、特徴生成モジュール460を使用して決定される。一部の実施形態において、ある遺伝子についての初期発現レベル推定値を決定することは、複数のTME細胞集団におけるその遺伝子についての平均発現レベルを入手すること及び生体サンプル中の複数のTME細胞集団についてのRNAパーセンテージを入手することを含む。例えば、平均発現レベルは、発現データストア446からデータストアインターフェースモジュール442経由で入手されてもよく、RNAパーセンテージは、細胞組成決定モジュール464から入手されてもよい。一部の実施形態において、特徴生成モジュール460は、ある遺伝子についての初期発現レベル推定値を、ある遺伝子の平均発現レベル、対応するRNAパーセンテージ、及び生体サンプル中のその遺伝子の総発現レベルに基づき決定する。初期発現レベル推定値を決定するための技法については、少なくとも図2C及び図5A~図5Bに関する記載を含め、本明細書に記載される。
[0205] 一部の実施形態において、細胞組成決定モジュール464は、シーケンシングプラットフォーム444及び/又は発現データ446から発現データを入手する。一部の実施形態において、入手された発現データは、生体サンプル中の腫瘍及びTME細胞に関連する遺伝子についての総発現レベルを含む。
[0206] 一部の実施形態において、細胞組成決定モジュール464は、入手された発現データを処理して生体サンプルについての1つ以上のRNAパーセンテージを決定する。例えば、細胞組成決定モジュール464は発現データを処理して生体サンプル中の腫瘍細胞についてのRNAパーセンテージを決定し得る。それに加えて又は代えて、細胞組成決定モジュール464は発現データを処理して生体サンプル中の異なるタイプのTME細胞についてのRNAパーセンテージを決定し得る。非限定的な例として、細胞組成決定モジュール464は、ある特定の遺伝子について、TMEにおける好中球のRNAパーセンテージ及びTMEにおけるB細胞のRNAパーセンテージを決定し得る。RNAパーセンテージを決定するための技法については、少なくとも図2A~図2Cに関する記載を含め、本明細書に記載される。
[0207] 一部の実施形態において、発現レベル決定モジュール462は特徴生成モジュール460から特徴セットを入手し、機械学習モデルデータストア454から機械学習モデルを入手し、及びRNAパーセンテージ決定モジュール464からRNAパーセンテージを入手する。
[0208] 一部の実施形態において、入手された機械学習モデルは、腫瘍細胞に関連する複数の遺伝子(例えば、表1に一覧を示す遺伝子)の各々についての機械学習モデルを含む。例えば、機械学習モデルは、表1に一覧を示す第1の遺伝子についての第1の機械学習モデルを含んでもよい。一部の実施形態において、機械学習モデルは、各々が、生体サンプルのTME細胞におけるある遺伝子のTME発現レベルを推定するように訓練されてもよい。例えば、第1の機械学習モデルは、生体サンプルのTME細胞における第1の遺伝子のTME発現を推定するように訓練されてもよい。
[0209] 一部の実施形態において、入手されたRNAパーセンテージは、生体サンプル中の腫瘍細胞についてのRNAパーセンテージを含む。一部の実施形態において、RNAパーセンテージは、生体サンプル中の腫瘍細胞を起源とするある特定の遺伝子にアラインメントしたRNA配列リードのパーセントを示す。
[0210] 一部の実施形態において、発現レベル決定モジュール462は、入手された特徴を機械学習モデルを使用して処理することにより、生体サンプルのTME細胞における遺伝子の推定TME発現レベルを決定する。例えば、発現レベル決定モジュール462は、第1の遺伝子について生成された第1の特徴セットを第1の機械学習モデルを使用して処理することにより、生体サンプルのTME細胞における第1の遺伝子の推定TME発現レベルを示すものである出力を入手し得る。一部の実施形態において、発現レベル決定モジュール462は、異なる機械学習モデルを使用して各特徴セット(例えば、腫瘍細胞に関連する異なる遺伝子に対応する)を処理し得る。
[0211] 一部の実施形態において、発現レベル決定モジュール462は、機械学習モデルの出力、生体サンプル中の腫瘍細胞についての入手されたRNAパーセンテージ、及び生体サンプル中の遺伝子についての総発現レベルに基づいて、腫瘍細胞に関連する遺伝子についての腫瘍発現レベルを決定する。例えば、発現レベル決定モジュール462は、第1の機械学習モデルの出力、腫瘍細胞についてのRNAパーセンテージ、及び生体サンプル中の第1の遺伝子の総発現レベルに基づいて、第1の遺伝子についての第1の腫瘍発現レベルを決定し得る。腫瘍発現レベルを決定するための技法については、少なくとも図2A~図2C、図3A~図3B及び図5A~図5Bに関する記載を含め、本明細書に記載される。
[0212] 一部の実施形態において、特徴生成モジュール460及び細胞組成決定モジュール464は、発現データ及び/又は平均発現レベルを1つ以上のインターフェースモジュール経由で入手する。一部の実施形態において、インターフェースモジュールは、シーケンシングプラットフォームインターフェースモジュール448及びデータストアインターフェースモジュール442を含む。シーケンシングプラットフォームインターフェースモジュール448は、シーケンシングプラットフォーム444から発現データを(引き出すか、又は提供されるかのいずれか)入手するように構成されてもよい。データストアインターフェースモジュール442は、発現データストア446から発現データ及び/又は平均発現レベルを(引き出すか、又は提供されるかのいずれか)入手するように構成されてもよい。データは、本明細書に記載される技術の態様がいかなる特定の通信ネットワークにも限定されないとおり、インターネット又は任意の他の好適なネットワークなど、通信ネットワーク(図示せず)経由で提供されてもよい。
[0213] 一部の実施形態において、発現データストア446は、本明細書に記載される技術の態様がいかなる特定のタイプのデータストアにも限定されないとおり、フラットファイル、データストア、マルチファイル、又は任意の好適なタイプのデータストレージなど、任意の好適なデータストアを含む。発現データストア446は、ソフトウェア404の一部であってもよく(図示せず)、又は図4に示されるとおり、ソフトウェア404に含まれなくてもよい。
[0214] 一部の実施形態において、発現データストア446は、1例以上の対象の1つ又は複数の生体サンプルから入手された発現データを格納する。一部の実施形態において、発現データはシーケンシングプラットフォーム444から、及び/又は1つ以上の公開データストア及び/又は研究から入手されてもよい。一部の実施形態において、発現データの一部分が特徴生成モジュール460によって処理されて、機械学習モデルへの入力として提供されることになる特徴セットが生成されてもよい。一部の実施形態において、発現データの一部分が細胞組成決定モジュール464によって処理されて、生体サンプル中の細胞集団についてのRNAパーセンテージが決定されてもよい。一部の実施形態において、発現データの一部分が発現レベル決定モジュール462によって処理されて、生体サンプルの腫瘍細胞における遺伝子の腫瘍発現レベルが決定されてもよい。一部の実施形態において、発現データの一部分を使用して、1つ以上の機械学習モデルが(例えば、機械学習分類器訓練モジュール464で)訓練されてもよい。
[0215] 一部の実施形態において、発現レベル決定モジュール462は、データストアインターフェースモジュール442経由で機械学習モデルを入手する。データストアインターフェースモジュール442は、機械学習モデルデータストア454から機械学習モデルを(引き出すか、又は提供されるかのいずれか)入手するように構成されてもよい。機械学習モデルは、本明細書に記載される技術の態様がいかなる特定の通信ネットワークにも限定されないとおり、インターネット又は任意の他の好適なネットワークなど、通信ネットワーク(図示せず)経由で提供されてもよい。
[0216] 一部の実施形態において、機械学習分類器データストア454は、本明細書に記載される技術の態様がいかなる特定のタイプのデータストアにも限定されないとおり、フラットファイル、データストア、マルチファイル、又は任意の好適なタイプのデータストレージなど、任意の好適なデータストアを含む。機械学習分類器データストア454は、ソフトウェア404の一部であってもよく(図示せず)、又は図4に示されるとおり、ソフトウェア410に含まれなくてもよい。
[0217] 一部の実施形態において、機械学習モデルデータストア454は、生体サンプルのTME細胞における遺伝子についてのTME発現レベル推定値を決定するために使用される複数の機械学習モデルを格納する。一部の実施形態において、腫瘍細胞に関連する遺伝子セットの遺伝子(例えば、表1に一覧を示す遺伝子)に対応する各機械学習モデル。
[0218] 一部の実施形態において、機械学習モデル訓練モジュール452は、本明細書において訓練モジュール452と称され、生体サンプルのTME細胞における遺伝子についてのTME発現レベルの推定に使用される1つ以上の機械学習モデルを訓練するように構成される。これには、第1の機械学習モデルを訓練することにより生体サンプルのTME細胞における第1の遺伝子についてのTME発現レベルを推定することが含まれてもよい。一部の実施形態において、訓練モジュール452は、訓練用発現データセットを使用して、機械学習モデルを訓練する。例えば、訓練モジュール452は、訓練用データをデータストアインターフェースモジュール442経由で入手し得る。一部の実施形態において、訓練モジュール452は、データストアインターフェースモジュール442経由で機械学習モデルデータストア454に訓練済みの機械学習モデルを提供し得る。機械学習モデルを訓練するための技法については、少なくとも図6に関する記載を含め、本明細書に記載される。
[0219] 一部の実施形態において、決定された腫瘍発現レベルは、発現レベル決定モジュール462から出力されてもよい。例えば、腫瘍発現レベル推定値がユーザ456にユーザインターフェース458経由で出力されてもよい。それに加えて又は代えて、決定された腫瘍発現レベルはメモリに格納されてもよい。
[0220] ユーザインターフェース458は、グラフィカルユーザインターフェース(GUI)、テキストベースのユーザインターフェース、及び/又はユーザがそこから入力を提供し得る任意の他の好適なタイプのインターフェースであってもよい。例えば、一部の実施形態において、ユーザインターフェースは、インターネットブラウザからアクセス可能なウェブページ又はウェブアプリケーションであってもよい。一部の実施形態において、ユーザインターフェースは、ユーザのモバイル機器上で動くアプリのグラフィカルユーザインターフェース(GUI)であってもよい。一部の実施形態において、ユーザインターフェースには、ユーザがそれを通じて対話し得る幾つもの選択可能な要素が含まれてもよい。例えば、ユーザインターフェースには、ドロップダウンリスト、チェックボックス、テキスト領域、又は任意の他の好適な要素が含まれてもよい。
[0221] 図5A及び図5Bは、本明細書に記載される技術の一部の実施形態に係る、生体サンプルの腫瘍細胞におけるある遺伝子の腫瘍発現レベルを推定するための説明として示される例を示す。
[0222] 図5Aに示されるとおり、発現データ502は、腫瘍細胞に関連する遺伝子(例えば、遺伝子1~M)についての総発現レベル及びTME細胞に関連する遺伝子(例えば、遺伝子1~N)についての総発現レベルを含む。例えば、発現データ502は、腫瘍細胞に関連する第1の遺伝子についての総発現レベル及びTME細胞に関連する第1の遺伝子についての総発現レベルを含む。
[0223] 一部の実施形態において、発現データ502を使用して、異なる遺伝子(例えば、遺伝子1~M)について、生体サンプル中の異なる細胞集団についてのRNAパーセンテージ506が入手される。一部の実施形態において、発現データ502が1つ以上の機械学習モデル504を使用して処理されることにより、RNAパーセンテージ506が入手される。例えば、発現データ502は、少なくとも図2B及び節「細胞デコンボリューション」に関する記載を含め、本明細書に記載される技法を用いて処理されてもよい。
[0224] 一部の実施形態において、RNAパーセンテージ506は、異なるタイプの腫瘍細胞及びTME細胞についてのRNAパーセンテージを含む。例えば、RNAパーセンテージは、タイプAのTME細胞についてのRNAパーセンテージ、タイプBのTME細胞についてのRNAパーセンテージ、及びタイプCのTME細胞のRNAパーセンテージを含む。これは説明として示される例であることが意図され、生体サンプル中の任意の好適な数の細胞集団に対応する任意の好適な数のRNAパーセンテージがRNAパーセンテージ506に含まれ得ることが理解されなければならない。
[0225] 平均発現レベル508は、複数の異なる細胞タイプ(例えば、TME細胞タイプ)の各々における腫瘍細胞に関連する遺伝子(例えば、遺伝子1~M)の平均発現レベルを含む。例えば、タイプAのTME細胞、タイプBのTME細胞、及びタイプCのTME細胞における遺伝子1~Mについての平均発現レベル。一部の実施形態において、少なくとも図2Cに関する記載を含め、本明細書に記載されるとおり、特定の細胞集団におけるある特定の遺伝子の平均発現レベルとは、複数の生体サンプル及び/又は訓練用サンプルにわたるその細胞集団におけるその遺伝子の平均発現レベルに相当する。
[0226] 一部の実施形態において、平均発現レベル508及びRNAパーセンテージ506を使用して、生体サンプルのTME細胞における第1の遺伝子の初期発現レベル推定値510が生成される。例えば、一部の実施形態において、これには、異なるTME細胞集団(例えば、タイプA、タイプB、及びタイプC)における第1の遺伝子についての平均発現レベル508及びそれらの細胞集団についての対応するRNAパーセンテージを使用して加重和を決定することが含まれてもよい。例えば、TME細胞における第1の遺伝子の初期発現レベル推定値510を決定することには、式3を使用することが含まれてもよい。
[0227] 一部の実施形態において、発現データ502及びTME細胞における第1の遺伝子の初期発現レベル推定値510を使用して、生体サンプルの腫瘍細胞における第1の遺伝子の初期発現レベル推定値512が決定される。例えば、一部の実施形態において、生体サンプルのTME細胞における第1の遺伝子の初期発現レベル推定値510が生体サンプル中の第1の遺伝子の総発現レベル502aから減算される。例えば、腫瘍細胞における第1の遺伝子の初期発現レベル推定値510を決定することには、式4を使用することが含まれてもよい。
[0228] 一部の実施形態において、腫瘍細胞における第1の遺伝子の初期発現レベル推定値512及び発現データ502の少なくとも一部が、第1の特徴セット516に含められる。例えば、腫瘍細胞に関連する遺伝子についての総発現レベル(例えば、総発現レベル502a)の少なくともサブセット(例えば、一部又は全て)及びTME細胞に関連する遺伝子についての総発現レベルの少なくともサブセットが、第1の特徴セット516に含められる。
[0229] それに加えて又は代えて、RNAパーセンテージ506が第1の特徴セット516に含められる。例えば、RNAパーセンテージ506の少なくともサブセット(例えば、一部又は全て)が、第1の特徴セット516に含められる。
[0230] 一部の実施形態において、第1の特徴セット516が第1の機械学習モデル518への入力として提供されることにより、生体サンプルのTME細胞における第1の遺伝子のTME発現レベル推定値を示すものである出力520が入手される。
[0231] 一部の実施形態において、出力520、発現データ502の少なくとも一部、及びRNAパーセンテージ506の1つ以上を使用して、生体サンプルの腫瘍細胞における第1の遺伝子の腫瘍発現レベルが決定される。例えば、生体サンプル中の第1の遺伝子の総発現レベル502aからTME発現レベル推定値が減算されてもよい。その差が、一部の実施形態では、生体サンプルにおける腫瘍細胞のRNAパーセンテージで除算されることにより、腫瘍発現レベル522が入手されてもよい。例えば、第1の遺伝子についての腫瘍発現レベル522を決定するこは、式1及び式2を使用すことを含んでもよい。
[0232] 図5Bは、生体サンプルの腫瘍細胞におけるXRCC1遺伝子の腫瘍発現レベルを推定するための説明として示される例を示す。
[0233] 図5Bに示されるとおり、生体サンプルについて発現データ552が入手される。発現データ552は、TME細胞に関連する遺伝子(例えば、ENTPD1、TTN、及びHLA-DRB1遺伝子)についての発現データ及び腫瘍細胞に関連する遺伝子(例えば、XRCC1、AREG、及びCDH1遺伝子)についての発現データを含む。例えば、TME細胞に関連する遺伝子についての発現データは、TME細胞に関連する遺伝子の各々についての総発現レベルを含む。腫瘍細胞に関連する遺伝子についての発現データは、XCC1遺伝子についての総発現レベル(81.7)を含めた、腫瘍細胞に関連する遺伝子の各々についての総発現レベルを含む。
[0234] 一部の実施形態において、発現データ552を使用して生体サンプル中の異なる細胞集団についてのRNAパーセンテージ556が入手される。一部の実施形態において、これには、少なくとも図5Aに関する記載を含め、本明細書に記載されるとおり、機械学習モデルを使用して発現データを処理することによりRNAパーセンテージ556を入手することが含まれる。
[0235] 一部の実施形態において、RNAパーセンテージ556には、生体サンプル中の腫瘍細胞についての、及びTME細胞集団についてのRNAパーセンテージが含まれる。この例の目的上、生体サンプルには、腫瘍細胞並びに好中球、NK細胞、及び線維芽細胞を含めたTME細胞が含まれる。RNAパーセンテージ556は、それぞれの細胞集団(例えば、好中球、NK細胞、線維芽細胞、腫瘍細胞等)を起源とするそれぞれの遺伝子(例えば、XRCC1、AREG、CDH1等)とアラインメントしたRNA配列リードのパーセントを示すものである。この例では、XRCC1遺伝子について、XRCC1遺伝子とアラインメントしたRNA配列リードの6%が好中球を起源とし、4%がNK細胞を起源とし、10%が線維芽細胞を起源とし、及び80%が腫瘍細胞を起源としている。
[0236] 一部の実施形態において、生体サンプル中の異なる細胞集団における腫瘍細胞に関連する各遺伝子について平均発現レベル558が入手される。例えば、XRCC1遺伝子について、平均発現レベル558は、生体サンプル中のTME細胞集団の各々(例えば、好中球、NK細胞、及び線維芽細胞)におけるXRCC1遺伝子の平均発現レベルを含む。
[0237] 一部の実施形態において、RNAパーセンテージ556及び平均発現レベル558を使用して、XRCC1の初期TME発現レベル推定値560が決定される。図5Bに示されるとおり、初期TME発現レベル推定値560は、XRCC1遺伝子についてのRNAパーセンテージ556及び平均発現レベル558を使用して加重和を決定することにより決定される。詳細には、本例では、加重和は、ある特定の細胞タイプにおけるXRCC1遺伝子の平均発現にその細胞タイプについての対応するRNAパーセンテージを乗じることにより(例えば、式3を使用して)決定される。例えば、好中球についてのRNAパーセンテージ(0.06)に、好中球におけるXRCC1遺伝子の平均発現(60.4)を乗じる。
[0238] 一部の実施形態において、発現データ552の少なくとも一部及びXRCC1遺伝子の初期TME発現レベル推定値560を使用して、XRCC1遺伝子の初期腫瘍発現レベル推定値562が決定される。例えば、示されるとおり、XRCC1遺伝子の初期TME発現レベル推定値560(5.38)を生体サンプル中のXRCC1遺伝子の総発現レベル(81.7)から減算することにより、XRCC1遺伝子の初期腫瘍発現レベル推定値562(72.8)が入手されてもよい。
[0239] 一部の実施形態において、発現データ552の少なくとも一部、RNAパーセンテージ556の少なくとも一部、及び初期腫瘍発現レベル推定値562が、XRCC1遺伝子についての特徴セット566に含められる。例えば、特徴セット566に含まれる発現データ552には、腫瘍遺伝子についての総発現レベルの全て及び/又はTME遺伝子についての総発現レベルの全てが含まれてもよい。それに加えて又は代えて、特徴セット566に含まれる発現データ552は、腫瘍遺伝子についての総発現レベル(例えば、XRCC1遺伝子についての総発現レベルを含む)のサブセットのみ及び/又はTME遺伝子についての総発現レベルのサブセットのみを含んでもよい。
[0240] 一部の実施形態において、特徴セット566がXRCC1遺伝子についての機械学習モデル568への入力として提供されることにより、生体サンプルのTME細胞におけるXRCC1のTME発現レベル推定値を示すものである出力570が入手される。例えば、TME発現レベル推定値は、生体サンプルのTME細胞におけるXRCC1の推定された発現を示し得る。
[0241] 一部の実施形態において、出力570、発現データ552、及びRNAパーセンテージ556を使用して、生体サンプルの腫瘍細胞におけるXRCC1遺伝子の腫瘍発現レベル572が決定される。一部の実施形態において、示されるとおり、腫瘍発現レベル572を決定することには、生体サンプル中のXRCC1遺伝子の総発現レベル(81.7)からXRCC1遺伝子のTME発現レベル推定値を減算し、生体サンプル中の腫瘍細胞のRNAパーセンテージ(0.80)で除算することが含まれる。例えば、示されるとおり、XRCC1遺伝子のTME発現レベルが81.7から減算され、0.80で除算されることにより、XRCC1遺伝子の腫瘍発現レベルが入手される。
[0242] 機械学習モデル訓練
[0243] 図6は、本明細書に記載される技術の一部の実施形態に係る、機械学習モデル(例えば、少なくとも図2Bに関する記載を含め、本明細書に記載される第1の機械学習モデル)を訓練することにより生体サンプルのTME細胞におけるある遺伝子の腫瘍微小環境(TME)発現レベルを推定するためのプロセス600を示すフローチャートである。一部の実施形態において、複数の機械学習モデルの各々を訓練してそれぞれの複数の遺伝子の各々についてのTME発現レベルを入手するため、プロセス600が繰り返されてもよい。
[0244] プロセス600は、任意の好適な1つ又は複数のコンピューティングデバイスにより実施されてもよい。例えば、プロセス600は、ラップトップコンピュータにより、デスクトップコンピュータにより、1つ以上のサーバにより、クラウドコンピューティング環境において、本明細書に図24に関する中で記載されるとおりのコンピューティングデバイス2400において、又は任意の他の好適な方法で実施されてもよい。一部の実施形態において、プロセス600は、少なくとも図4に関する記載を含め、本明細書に記載される機械学習モデル訓練モジュール452など、コンピューティングデバイス上のソフトウェアモジュールを使用して実施されてもよい。
[0245] プロセス600は処理602から始まり、ここでは訓練用データが入手される。一部の実施形態において、訓練用データは、1つ以上の訓練用サンプル(例えば、生体サンプル)に関連する模擬発現データを含む。一部の実施形態において、模擬発現データは、部分的にインシリコで生成される発現データを含んでもよい。例えば、模擬発現データは、精製後の細胞タイプサンプルからの複数の発現データセットからのリードをサンプリングすることによって入手されたデータを含んでもよい。一部の実施形態において、模擬発現データは、TPMで測定される発現データを含み得る。例えば、模擬発現デーは、腫瘍細胞に関連する遺伝子についての模擬発現データ及びTME細胞に関連する遺伝子についての模擬発現データを含む。例えば、腫瘍細胞に関連する遺伝子は、表1に一覧を示す遺伝子を含んでもよく、TME細胞に関連する遺伝子は、表2に一覧を示す遺伝子を含んでもよい。
[0246] 一部の実施形態において、訓練用データは、腫瘍細胞に関連する遺伝子についての模擬発現データ及びTME細胞に関連する遺伝子についての模擬発現データを含む。例えば、腫瘍細胞に関連する遺伝子は、表1に一覧を示す遺伝子を含んでもよく、TME細胞に関連する遺伝子は、表2に一覧を示す遺伝子を含んでもよい。一部の実施形態において、腫瘍細胞に関連する遺伝子についての模擬発現データは、1つ又は複数の訓練用サンプル中の遺伝子についての総発現レベルを含む。例えば、模擬発現データは、腫瘍細胞に関連する第1の遺伝子についての第1の総発現レベルを含んでもよい。一部の実施形態において、TME細胞に関連する遺伝子についての模擬発現データは、1つ又は複数の訓練用サンプル中の遺伝子についての総発現レベルを含む。例えば、模擬発現データは、TME細胞に関連する第2の遺伝子についての第2の総発現レベルを含んでもよい。
[0247] 一部の実施形態において、訓練用データは、処理602の一部として生成されてもよい。少なくとも図7Aに関する記載を含め、本明細書に記載されるとおり、一部の実施形態において模擬発現データは、腫瘍細胞(例えば、癌細胞)からの発現データをTME細胞(例えば、免疫細胞、皮膚細胞等)からの発現データと組み合わせて訓練用の複数の模擬混合物(これは本明細書では「人工混合物」又は「混合体」と称され得る)を作成することにより生成されてもよい。一部の実施形態において、少なくとも1000個、少なくとも1万個、少なくとも10万個、又は少なくとも100万個の混合体が、処理602の一部として生成され、及び/又はアクセスされてもよい。
[0248] 訓練用データは、処理602において、任意の好適な方法で入手されてもよい。例えば、訓練用データは、少なくとも1つの記憶媒体上に(例えば、1つ以上のファイルに、又はデータベースに)格納されてもよい。一部の実施形態において、訓練用データを格納している少なくとも1つの記憶媒体は、コンピューティングデバイスにとってローカルに位置してもよく(例えば、同じ少なくとも1つの非一時的記憶媒体上に格納される)、又はコンピューティングデバイスにとって外部にあってもよい(例えば、遠隔データベース又はクラウドストレージ環境に格納される)。訓練用データは、単一の記憶媒体上に格納されてもよく、又は複数の記憶媒体に分散されてもよい。
[0249] 一部の実施形態において、処理602は、訓練用データを任意の好適な方法で前処理することをさらに含み得る。例えば、訓練用データは、任意の他の好適な技法でソートされ、組み合わされ、バッチに編成され、フィルタリングされ、又は前処理され得る。前処理すると、例えば、訓練用データが1つ以上の機械学習モデルを使用した処理に好適となり得る。一部の実施形態において、訓練用データは、別個の訓練、検証、及びホールドアウトデータセットに分割されてもよい。
[0250] 処理604において、訓練用特徴セットを生成することは、訓練用データを使用して形成される。一部の実施形態において、訓練用特徴セットを生成することは、1つ又は複数の訓練用サンプルの腫瘍細胞における遺伝子の初期発現レベル推定値を入手することを含む。初期発現レベル推定値は、訓練用特徴セットに含められてもよい。一部の実施形態において、訓練用特徴セットを生成することは、訓練用特徴セットに、腫瘍細胞に関連する遺伝子についての総発現レベルの少なくとも一部及びTME細胞に関連する遺伝子についての総発現レベルの少なくとも一部を含めることを含む。例えば、総発現レベは、処理602において入手される総発現レベルを含んでもよい。一部の実施形態において、訓練用特徴セットを生成することは、訓練用特徴セットに、生体サンプルについて入手されるRNAパーセンテージを含めることを含む。特徴を生成するための技法については、少なくとも図2Cに関する記載を含め、本明細書にさらに記載される。
[0251] 処理606において、第1の機械学習モデルは、1つ又は複数の訓練用サンプルのTME細胞における第1の遺伝子のTME発現レベルを推定するように訓練される。一部の実施形態において、サブ処理606aでは、訓練用特徴セットは、第1の機械学習モデル(例えば、図2Bに関する記載を含め、本明細書に記載される第1の機械学習モデル)への入力として提供されてもよい。一部の実施形態において、それに加えて又は代えて第1の機械学習モデルへの入力として他の入力が提供されてもよい。第1の機械学習モデルは、一部の実施形態では、1つ又は複数の訓練用サンプルのTME細胞における第1の遺伝子のTME発現レベルの推定値を出力する。
[0252] サブ処理606bでは、第1の機械学習モデルを訓練することは、サブ処理606aにおけるTME発現レベル出力の推定値を使用してパラメータを更新することに進み得る。一部の実施形態において、サブ処理606bの一部として、TME発現レベルの推定値がTME細胞における第1の遺伝子のTME発現レベルについての既知の値と比較されてもよい。例えば、推定された値及び既知の値に損失関数を適用して、推定された値に関連する損失を決定してもよい。一部の実施形態において、この損失を使用してモデルのパラメータを更新し得る。例えば、損失が最小となるようにモデルのパラメータを更新するため、最急降下法、又は任意の他の好適な最適化技法を適用し得る。
[0253] 第1の機械学習モデルは、本明細書に記載されるとおり、任意の好適な技術を用いてその入力を処理し得る。一部の実施形態において、第1のモデルは勾配ブースティング機械学習技法を用い得る。例えば、第1のモデルは、決定木など、弱予測モデル、又は任意の他の好適な予測モデルの集合を含んでもよく、これらは勾配ブースティングアルゴリズムを用いた反復方式で組み合わされてもよい。一部の実施形態において、第1のモデルの訓練の一部として、XGBoost、LightGBM、Catboost、又はAdaboostなど、勾配ブースティングフレームワークが用いられ得る。
[0254] 一部の実施形態では、所与の機械学習モデルについて、サブ処理606a及び606bが複数回(例えば、少なくとも100回、少なくとも1000回、少なくとも1万回、少なくとも10万回、又は少なくとも100万回)繰り返されてもよい。一部の実施形態において、サブ処理606a及び606bは、設定された反復回数を繰り返されてもよく、又は閾値を超えるまで(例えば、損失が閾値未満に下がるまで)繰り返されてもよい。
[0255] 処理608において、プロセス600は、訓練すべき追加の機械学習モデルがあるかどうかを決定することに進む。例えば、複数の機械学習モデルは、腫瘍細胞に関連する第2の遺伝子についての第2の機械学習モデルを含んでもよい。処理602~606を繰り返して第2の機械学習モデルを訓練することにより、1つ又は複数の訓練用サンプルのTME細胞における第2の遺伝子のTME発現レベルが推定されてもよい。それに加えて又は代えて、複数の機械学習モデルは、腫瘍細胞に関連する第3の遺伝子についての第3の機械学習モデルを含んでもよい。処理602~606を繰り返して第3の機械学習モデルを訓練することにより、1つ又は複数の訓練用サンプルのTME細胞における第3の遺伝子のTME発現レベルが推定されてもよい。
[0256] 訓練すべき機械学習モデルが残っていない場合、一部の実施形態において、それらの訓練済みの複数の機械学習モデルが出力される。一部の実施形態において、訓練済みの複数の機械学習モデルを出力することは、モデルの1つ以上を後にアクセスできるように少なくとも1つの非一時的コンピュータ可読記憶媒体(例えば、メモリ)に格納すること、1つ又は複数のモデルを受領者に提供すること(例えば、1つ又は複数のモデルに関連するデータを任意の好適な通信ネットワーク又は他の手段を用いて受領者に転送すること)、1つ又は複数のモデルに関連する情報をグラフィカルユーザインターフェース経由、及び/又は本明細書に記載される技術の態様がこの点で限定されないとおり、訓練済みのモデルを出力する任意の他の好適な方法でユーザに表示することを含み得る。例えば、訓練済みの機械学習モデルは、少なくとも図4に関する記載を含め、本明細書に記載される機械学習モデルデータストア454など、データストアに格納されてもよい。
[0257] 訓練用データ生成
[0258] 図7A及び図7Bは、本明細書に記載される技術の一部の実施形態に係る、模擬発現データを含む訓練用データを生成するための例示的技法を示す図である。
[0259] 図7Aは、模擬発現データ(例えば、少なくとも図6に関する記載を含め、本明細書に記載されるとおりの訓練用データとして使用するための)を生成することを含め、1つ以上の機械学習モデルを訓練するための例示的方法700を示す図である。一部の実施形態において、模擬発現データは、方法700の枝番710及び720に示されるとおり、本明細書では「悪性細胞」とも称される腫瘍細胞(例えば、癌細胞)、及び腫瘍微小環境細胞(例えば、免疫細胞、間質細胞等)からの発現データのサンプルを組み合わせることにより生成されてもよい。発現データの人工混合体を生成するための例示的プロセスは、本明細書において以下に図7Aに関して記載する。
[0260] 図7Bは、本明細書に記載される技術の一部の実施形態に係る、現実の組織を模倣するように発現データの人工混合体を生成する例を示す図である。一部の実施形態において、発現データは、枝番730に示されるとおり、1つ以上の生物学的状態(例えば、正の遺伝子調節、負の遺伝子調節等)に相当する1つ以上のソートされた細胞タイプ/サブタイプに由来する。一部の実施形態において、枝番740及び750に示されるとおり、1つ以上の細胞タイプ/サブタイプが異なる比率で混合されて人工混合体が生成される。
[0261] データ収集、分析、及び前処理
[0262] 一部の実施形態によれば、少なくとも図1並びに節「発現データ」及び「発現データを入手する」に関する記載を含め、本明細書に記載されるとおり、発現データが入手されてもよい。例えば、ソートされた腫瘍及びTME細胞の多数のサンプルを使用して、発現データの人工混合体が構築されてもよい。一部の実施形態において、サンプルの数は、少なくとも5,000、少なくとも10,000、少なくとも15,000、少なくとも20,000、少なくとも30,000、少なくとも50,000、少なくとも100,000、又は任意の数の好適なサンプルであり得る。一部の実施形態において、遺伝子発現オムニバス(Gene Expression Omnibus:GEO)及びArrayExpressなどのオープンソースデータセットが使用されてもよい。一部の実施形態において、使用されるデータセットは、以下の判定基準を満たすように選択されてもよい:ヒト(homo sapiens)のみ、標準RNA-seq(ポリA枯渇なし、標的化されたパネル等)でリード長さが31bp超。一部の実施形態において、人工混合物の構築には、分析下の特定の疾患(例えば、特定のタイプの腫瘍)について関連性のある細胞タイプのみが用いられ得る。対照的に、遺伝子発現特異性の分析には、代わりにあらゆる細胞タイプのデータが用いられ得る。
[0263] 一部の実施形態において、データセットの選択は、生物学的パラメータ及びバイオインフォマティクスパラメータの両方に基づき得る。例えば、正常な生理条件に近い条件で培養されたサンプルのデータセットが使用されてもよい。一部の実施形態では、ホルボール12-ミリステート13-アセテート及びイオノマイシン活性化による過刺激を受けたCD4+ T細胞又は過剰な数の細菌培養物と共培養されたマクロファージのデータセットのように、異常な刺激を伴うデータセットは除外された。一部の実施形態において、少なくとも400万のコードリードカウントを有するサンプルのみが使用された。
[0264] 一部の実施形態において、人工混合体の構築前に発現データに対してクオリティコントロールが(例えば、奇妙な又は信頼できないデータセットを除外するため)実施されてもよい。例えば、CD4+ T細胞の一部のサンプルがCD45、CD4又はCD3遺伝子を全く発現しないか、又は極めて低い発現しか示さない場合、それらは除外されてもよい。一部の実施形態では、他の細胞タイプについても同じことが行われ得る。例えば、一部の細胞タイプのサンプルが、そのタイプの細胞に典型的でない遺伝子を高発現する場合(例えば、T細胞のサンプルにおいて、CD19、CD33、MS4A1等が多量に発現した一方で、他のほとんどのT細胞サンプルでは、それらの発現が低かった場合)、それらは除外されてもよい。一部の実施形態において、CD4+ T細胞のサンプルがCD8遺伝子を多量に発現する場合、それらは取り除かれてもよい。一部の実施形態において、異なる遺伝子セットでt-SNE又はPCAのような幾つかの発現解析方法を用いることにより、データセット間の類似性及び差異を可視化し得る。1つのデータセットからのある特定の細胞タイプが、他のデータセットの同じ細胞タイプと(例えば、t-SNE、PCA、又は他のプロット上)クラスター化されない場合、そのときその1つのデータセットをクオリティコントロールの一部としてさらに分析してもよく、そのデータセットからのデータの一部又は全てを除外してもよい。
[0265] 混合体構築
[0266] 一部の実施形態によれば、本明細書において上記に記載されるとおり調製されるサンプルを使用して、発現データの種々の人工混合体(例えば、模擬腫瘍組織に相当する)が構築されてもよい。人工混合体は、TPM(転写物百万分率)単位のサンプル発現を使用して、サンプル全体の遺伝子発現が、そのサンプルからの個々の細胞の発現の線形結合として形成されるように生成されてもよい。一部の実施形態において、様々な細胞タイプのサンプルからの発現データを所定の比率で混合し得る。図7Aに示されるとおり、腫瘍細胞についての模擬発現データ(例えば、枝番710に示されるとおり生成される)がTME細胞についての模擬発現データ(例えば、枝番720に示されるとおり生成される)と組み合わされてもよい。
[0267] ここで枝番720を参照すると、模擬TME発現データを生成するための例示的プロセスが示される。この説明として示される例では、各細胞タイプのサンプル(例えば、示されるとおり、遺伝子GSE1、GSE2、GSE3、又はGSE4のものなど、発現データのサンプル)の再均衡化が、データセット(例えば、多数のサンプルがあるデータセットの重みを減らすこと)及びサブタイプ(例えば、あるサンプルのあるサブタイプの比率を変えること)により行われてもよい。再均衡化技法は、「データセットによる再均衡化」及び「サブタイプによる再均衡化」の節に関する記載を含め、本明細書に記載される。次に細胞タイプ毎に、複数のサンプルを無作為に選択し、平均化し得る。次に、使用する細胞タイプの一部又は全てについて、再均衡化した/平均化したサンプルを特定の比率で(例えば、現実の腫瘍微小環境を模擬するように)共に混合し得る。
[0268] ここで枝番710を参照すると、模擬腫瘍発現データを生成するための例示的プロセスが示される。この説明として示される例では、癌細胞(例えば、NSCLC、ccRCC、Mel、HNCK等)の無作為標本を抽出し得る。次に、腫瘍細胞による遺伝子の異常発現を考慮するため、結果として得られた発現データに高発現ノイズを加え得る。例えば、腫瘍細胞は時に、通常は親細胞タイプに存在しない遺伝子を発現することもある。TME内の免疫又は間質細胞と関連付けられる特異的、半特異的、又はマーカー遺伝子についてこれが該当する場合には、過剰発現した遺伝子が、本明細書に記載されるデコンボリューション技法に干渉し得る。高発現ノイズを含めるかどうかにかかわらず、枝番710の結果は模擬腫瘍発現データであり得る。
[0269] 図7Aに示されるとおり、腫瘍細胞についての模擬発現データ(例えば、枝番710に示されるとおり生成される)とTME細胞についての模擬発現データ(例えば、枝番720に示されるとおり生成される)とを組み合わせて人工混合体(図7Aでは「発現混合体」と称される)にし得る。一部の実施形態において、腫瘍細胞についての模擬発現データとTME細胞についての模擬発現データとは、癌細胞についての所与の分布に基づきランダムな比率で共に混合し得る。一部の実施形態において、次に混合体にノイズを加えることにより、テクニカルノイズ及び生物学的変動性の結果として生じるノイズを模倣し得る。ノイズの各タイプは、1つ以上の好適な分布に従い指定し得る。例えば、図7Aに示されるとおり、テクニカルノイズはポアソン分布により指定してもよく、一方、生物学的変動性の結果として生じるノイズは正規分布に従い指定してもよい。しかしながら、一部の実施形態において、テクニカルノイズが複数の成分を有し得ることもあり、それらは他の分布により指定されてもよい。例えば、テクニカルノイズの別の成分は非ポアソン分布により指定されてもよい。人工混合体がどのように生成されるかにかかわらず、一部の実施形態において人工混合体は、TMEを含め、人工的な腫瘍を代表するものであり得る。
[0270] 本発明者らは、人工混合体の作成時、異なるサンプルからの同じタイプの異なる細胞を使用することが望ましいであろうと認識し、理解した。混合体に少数のサンプル、又はさらには各細胞タイプにつきただ1つのサンプルを使用すれば、現実の腫瘍サンプルに対しては性能不足が(例えば、細胞状態及びそれらの発現の変動性、並びに異なる発現についてリードカウントの数が限られていることに起因するノイズ、アラインメントエラー及び他のテクニカルノイズの原因に起因して)もたらされるであろう。従って、人工混合物の作成時、本発明者らは、利用可能な細胞サンプルを可能な限り多く使用することが望ましいであろうと認識した。
[0271] それに応じて、この例では、様々な細胞タイプの多数のRNA-seqサンプル(例えば、少なくとも100個、少なくとも500個、少なくとも1000個、少なくとも2000個、又は少なくとも5000個のサンプル)を収集した。一部の実施形態において、腫瘍細胞(例えば、様々な診断についての純粋な癌細胞、癌細胞株又は腫瘍から選別された)の幾つものデータセットもまた収集してもよい。各細胞タイプについて、異なるデータセットからのサンプルが対応する数だけあり得る。
[0272] 一部の実施形態において、図6に関する記載を含め、本明細書に記載されるとおり、人工混合体は、1つ以上の機械学習モデルを訓練するための訓練用データセットとして使用されてもよい。一部の実施形態において、機械学習モデルは、遺伝子(例えば、腫瘍細胞に関連する遺伝子)であり得る。それに応じて、一部の実施形態では、具体的な遺伝子毎にモデルを訓練するため多数の人工混合体が生成されてもよい。
[0273] サンプルの平均化
[0274] 一部の実施形態において、各細胞タイプについての複数のサンプルを任意の好適な方法で平均化し得る(例えば、人為的なノイズを加える前にサンプルのクオリティを向上させるため)。例えば、一部の実施形態では、平均化は2つを1群として実施されてもよく、従って平均化後に400万リードのサンプルには、800万リードに関する情報が含まれることになり得る。一部の実施形態において、複数のサンプル間で平均化すると、シーケンシングの間にテクニカルな要因によって引き起こされる発現のノイズが低下し得る。
[0275] サンプルを再均衡化する
[0276] 異なるデータセット及び細胞サブタイプには、利用可能な細胞サンプルの数に大きなばらつきがあり得るため、一部の実施形態においてサンプルの数を再均衡化し得る。本明細書において以下に記載するとおり、一例において、サンプルはデータセットにより再均衡化され、次に細胞サブタイプにより再均衡化されてもよい。
[0277] データセットによる再均衡化
[0278] 一部の実施形態において、データセット中にあるソートされた細胞のサンプル数は、1~数百の範囲であり得る(例えば、少なくとも5個、少なくとも10個、少なくとも50個、又は少なくとも100個のサンプル)。典型的には、各データセットに1つ又は2つの細胞タイプのサンプルが含まれていてもよく、同じ方法でソートされ、及びシーケンシングされ得る。同じデータセット内にある細胞サンプルはまた、ソート用の特異的なマーカーセット又は細胞を採取した患者の特異的な疾患など、特異的な条件を有し得る。サンプル数の多いデータセットは、かかるデータセットについてのモデルの過訓練につながり得る。サンプル数の多いデータセットの重みを減らすためには、データセットによる再均衡化のため全てのデータセットのサンプルを再抽出する。
[0279] 例えば、一部の実施形態において、データセット毎にサンプル数を数Ndataset,newに置き換えて再抽出する:
[0280]
Figure 2024517745000035
[0281] 式中、Nmaxは、(例えば、特定の細胞タイプについて)最も大きいデータセットのサンプル数であり、Ndataset,oldは、そのデータセットにおける元のサンプル数である。この式中にある再均衡化パラメータは範囲[0,1]の値であり、ここで0は、サンプル数に変化がないことを意味し、1は、各データセットについてサンプル数が同じになるであろうことを意味する。一部の実施形態において、この再均衡化用のパラメータは、訓練中に選択されてもよい。
[0282] 細胞サブタイプによる再均衡化
[0283] 幾つもの細胞タイプについて、この種のサンプルに加えて、より特異的なサブタイプのサンプルもあり得る。ある場合には、利用可能なサブタイプサンプルの数が、それらのサブタイプを含む混合体の形成中に指定される比と一致しないこともあり得る。従って、その細胞タイプについての混合体の作成時、そのサブタイプのサンプルが再均衡化されてもよい。
[0284] 例えば、一部の実施形態において、CD8+ T細胞と比べて大幅に多いCD4+ T細胞(及びTregを含むTヘルパー)サンプルが利用可能であり得る。この場合、平均的なT細胞サンプルを形成するには、無作為標本抽出の前にCD4+及びCD8+ T細胞サンプルの比率を変更し得る。例えば、TCGA又はPBMCサンプルについて予測される平均的RNA割合の比と同様の比率をそれらの細胞タイプに選んでもよい。一部の実施形態において、こうした予測は、等しい細胞比率の混合体で訓練した1つ以上の線形モデルを使用して入手し得る。
[0285] サブタイプ再均衡化アルゴリズムは、以下のとおりであり得る。所与のタイプについて各サブタイプを再均衡化するためには、以下に等しいサンプル数に置き換えて再サンプリングする:
[0286]
Figure 2024517745000036
[0287] 式中、Psubtypeは、所与のサブタイプの比率(例えば、所与のタイプについての全サブタイプの中でのこのサブタイプの比率、これは、そのサブタイプについてのサンプル数を、そのタイプについての総サンプル数で除算したものとして表されてもよい)を反映した数であり;msizeは、所与のタイプについてのあらゆるサブタイプの中で最も大きいサンプル数であり、min_Pは、あらゆるサブタイプの間で最も小さい数Psubtypeである。一部の実施形態によれば、この再均衡化演算は、全てのネスト状サブタイプ(例えば、それ自体がサブタイプを有するサブタイプについて再帰的に実施されてもよい。
[0288] TME細胞比率生成
[0289] 一部の実施形態によれば、模擬TME発現データを生成するため、結果として得られた異なる細胞タイプのサンプルをランダムな比で互いに混合し得る。例えば、ランダムな比率の各細胞タイプを使用して、第1の人工混合体セットが生成されてもよい:
[0290]
Figure 2024517745000037
[0291] 式中、Rcellは、0から1まで一様に分布した乱数であり、Kcellは、特定の細胞タイプについての係数である。
[0292] 一部の実施形態によれば、上記の式にある係数Kcellは、細胞mRNAの最も可能性の高い比が、TCGA又はPBMCサンプルで観察されるものに近くなるように選ばれてもよい。このような近似比は、TCGA又はPBMCサンプルから、かかる比を用いずに訓練したモデルを使用して計算されてもよい。例えば、所与のタイプの組織についての近似的な比率を反映した、数値ベクトルを使用してもよい。ベクトルの各数に0から1までの乱数が乗じられる。結果として得られる係数が和で正規化され、線形結合に使用される。一部の実施形態において、Kcellは表5から選択されてもよく、これは、複数の細胞タイプの各々について、腫瘍組織及び血液(PBMC)に基づきその細胞タイプの最も可能性が高い比率を指定する。
Figure 2024517745000038
[0293] ノイズ生成
[0294] 図7Aに示されるとおり、人工混合体を生成した後、発現データにノイズ(例えば、テクニカルノイズ、一様ノイズ、又は任意の好適な形態のノイズ)が加えられてもよい。例えば、ノイズは、本明細書で以下に記載するプロセスに従い生成され、発現データに加えられてもよい:
[0295]
Figure 2024517745000039
[0296] 一部の実施形態において、各遺伝子の発現が、組織発現全体に与えるノイズに寄付し得る。例えば、単一遺伝子の発現
Figure 2024517745000040
は、以下の和として表される可能性がある:
[0297]
Figure 2024517745000041
[0298] 式中、
Figure 2024517745000042
は、遺伝子の真の発現を表し、
Figure 2024517745000043
は、ポアソンテクニカルノイズを表し、
Figure 2024517745000044
は、シーケンシングライブラリ調製に由来する正規分布ノイズを表し、及び
Figure 2024517745000045
は、可変的な生物学的ノイズを表す。
[0299] 一部の実施形態において、ポアソンテクニカルノイズの相対標準偏差
Figure 2024517745000046
及び正規分布ノイズの相対標準偏差
Figure 2024517745000047
を使用して、定量的相対標準偏差が計算される:
[0300]
Figure 2024517745000048
[0301] 技術的変動性は、サンプル及びライブラリ調製の差異(非ポアソンノイズ)及びカバレッジが限られていることに起因したシーケンサートラック上での無作為転写物抽出(ポアソンノイズ)の結果として生じ得る。TMEの多くの細胞タイプが腫瘍サンプル中に占める割合は、典型的には小さいものであり得る。従って、本発明者らは、異なる遺伝子について、その発現レベルに応じた異なるレベルの変動性又はノイズを検討することが重要になり得ると認識し、理解した。例えば、一部の実施形態において、TPMベースの数学的ノイズモデルが提供され、これはテクニカルノイズ(ポアソン及び非ポアソンの両方)を考慮するものである。一部の実施形態において、この変動性モデルが、本明細書に記載されるとおりの、機械学習モデルを訓練するために生成された人工混合体に加えられてもよい。一部の実施形態において、テクニカル非ポアソンノイズは、正規分布していることが仮定される。これらは、ライブラリ調製、アラインメントの変動性又は人間が異なるサンプルを取り扱う際のばらつきを考慮し得る。対照的に、ポアソンノイズは、シーケンシングカバレッジ又はリードカウント数に関連し得るタイプのテクニカルノイズであり、正規分布でないこともあり得る。結果としてもたらされる、テクニカルノイズがカバレッジ及び遺伝子発現にどの程度依存しているかは、以下の式によって表し得る:
[0302]
Figure 2024517745000049
[0303] 式中、liは、有効遺伝子長であり、
Figure 2024517745000050
は、テクニカルレプリケートの平均TPMであり、Rはリードカウントであり、及びαは推定比例係数である。この方程式によれば、カバレッジが低いほど、変動性が大きくなる。この方程式によれば、低発現の遺伝子は高レベルのポアソンノイズを呈することになる。
[0304] テクニカルノイズに加えて、細胞の異なる活性化状態に関連し得る生物学的ノイズがRNA-seqサンプルにおける全体的な変動に寄与し得る。一部の実施形態において、このノイズは、生物学的状態のばらつきを表す細胞サブセットに由来するRNA-seqデータを使用することで既に存在し得るため、人工混合体に生物学的ノイズを加える必要はないこともある。
[0305] 一部の実施形態において、本明細書に記載されるとおりの、単一遺伝子発現に起因するノイズ寄与分の分析を適用することにより、人工混合体におけるテクニカル及び生物学的ノイズをシミュレートし得る。例えば、ノイズが全遺伝子発現に2つの加数で加えられてもよい:
[0306]
Figure 2024517745000051
[0307] 式中、ξP、ξN、~N(0,1)、βは、ポアソンノイズレベル係数の係数であり、及びγは、一様レベル非ポアソンノイズの係数である。
[0308] 本明細書に記載されるノイズモデルを用いると、人工混合体にテクニカルな(ポアソン及び非ポアソンの両方の)ばらつきを加え得る。これにより、人工混合体は、現実の組織をより良く模倣するものとなる。続いて改良された人工混合体を使用してデコンボリューションアルゴリズム(例えば、図6に関する記載を含め、本明細書に記載されるとおり)を訓練することにより、現実のシーケンシング変動性に直面したときのモデルの安定性を確実にし得る。
[0309] 模擬発現データを含めた訓練用データを生成するためのさらなる例及び技法については、「細胞デコンボリューション」節及び「SYSTEMS AND METHODS FOR DECONVOLUTION OF EXPRESSION DATA」と題される米国特許出願公開第2021-0287759号(この内容は全て、全体として参照により本明細書に援用される)に記載される。
[0310] 細胞デコンボリューション
[0311] 図8Aは、少なくとも1つの細胞タイプについての組成パーセンテージを決定するためのプロセス800を示すフローチャートである。一部の実施形態において、プロセス800は、コンピューティングデバイス(例えば、少なくとも図24に関する記載を含め、本明細書に記載されるとおり)上で実行されてもよい。例えば、コンピューティングデバイスには、少なくとも1つのプロセッサと、実行時にプロセス800の処理を実施するプロセッサ実行可能命令を格納している少なくとも1つの非一時的記憶媒体とが含まれてもよい。プロセス800は、例えば、臨床セッティング又は実験室セッティングで、コンピューティングデバイス104によるなど、1つ以上のコンピューティングデバイスにより実行されてもよい。
[0312] 処理802において、プロセス800は、対象から生体サンプルについての発現データを入手することから始まる。一部の実施形態において、発現データを入手することは、対象から予め入手されていた生体サンプルから任意の好適な技術を用いて発現データを入手することを含んでもよい。一部の実施形態において、発現データを入手することには、生体サンプルから予め入手されていた発現データを入手すること(例えば、データベースにアクセスすることにより発現データを入手すること)を含んでもよい。一部の実施形態において、発現データは、RNA発現データである。RNA発現データの例は、本明細書に提供される。一部の実施形態において、対象は癌を有するか、有する疑いがあるか、又は有するリスクがあり得る。生体サンプルは、生検(例えば、腫瘍又は対象の他の罹患組織のもの)、「生体サンプル」節に関する記載を含め、本明細書に記載される実施形態のいずれか、又は任意の他の好適なタイプの生体サンプルを含み得る。一部の実施形態において、発現データの入手源又は調製は、「発現データ」及び「発現データを入手する」の節に関して記載される実施形態のいずれを含んでもよい。例えば、発現データは、任意の好適な技術を用いて抽出されたRNA発現データであってもよい。別の例として、処理802において入手される発現データは、TPMで測定されるRNA発現データを含み得る。
[0313] 一部の実施形態において、発現データは、処理802の一部として少なくとも1つの記憶媒体上に格納され、アクセスされてもよい。例えば、発現データは、1つ以上のファイルに、又はデータベースに格納され、次に読み出されてもよい。一部の実施形態において、RNA発現データを格納している少なくとも1つの記憶媒体は、コンピューティングデバイスにとってローカルであってもよく(例えば、同じ少なくとも1つの非一時的記憶媒体上に格納される)、又はコンピューティングデバイスにとって外部にあってもよい(例えば、遠隔データベース又はクラウドストレージ環境に格納される)。発現データは、単一の記憶媒体上に格納されてもよく、又は複数の記憶媒体間に分散されてもよい。
[0314] 一部の実施形態において、処理802の発現データは、第1の細胞タイプ(例えば、生体サンプル中の分析下の細胞タイプ及び/又はサブタイプの細胞タイプ)に関連する第1の遺伝子セットに関連する第1の発現データを含んでもよい。一部の実施形態において、第1の遺伝子セットは、第1の細胞タイプに特異的及び/又は半特異的な遺伝子を含み得る。例えば、内皮細胞タイプについては、遺伝子セットは、以下を含み得る:ANGPT2、APLN、CDH5、CLEC14A、ECSCR、EMCN、ENG、ESAM、ESM1、FLT1、HHIP、KDR、MMRN1、MMRN2、NOS3、PECAM1、PTPRB、RASIP1、ROBO4、SELE、TEK、TIE1、及び/又はVWF。一部の実施形態において、第1の遺伝子セットは、その細胞タイプについての対応する非線形回帰モデルの訓練の一部として使用される遺伝子セット、又は遺伝子セットのサブセットと同じであってもよい。
[0315] 処理804において、プロセス800は、少なくとも第1の細胞タイプについての第1のRNAパーセンテージを決定することに進む。示されるとおり、第1の細胞タイプについての第1のRNAパーセンテージを決定することは、第1の細胞タイプについての第1の遺伝子セットに関連する第1の発現データを(例えば、1つ以上の非線形回帰モデルのうちの)第1の非線形回帰モデルで処理することにより、第1の細胞タイプについての第1のRNAパーセンテージを決定することを含み得る。例えば、第1の発現データは、第1の非線形回帰モデルへの入力として提供されてもよい。一部の実施形態において、他の情報が、非線形回帰モデルへの入力の一部として提供されてもよい。例えば、発現データの中央値が、非線形回帰モデルへの入力の一部として含まれてもよい。一部の実施形態において、それに加えて又は代えて、任意の他の好適な情報が、入力の一部として提供されてもよい(例えば、発現データの平均値、発現データのサブセットの中央値又は平均値、又は発現データから導き出されるか、若しくは他の形でそれに関係する任意の他の好適な統計量)。
[0316] 一部の実施形態において、分析下にある各細胞タイプ及び/又はサブタイプについて処理804の一部が繰り返されてもよく、及び/又は並行して実施されてもよい。例えば、発現データのサブセットが、それぞれの各細胞タイプ及び/又はサブタイプについての各非線形回帰モデルへの入力として提供されてもよい。
[0317] 一部の実施形態において、非線形回帰モデルの出力は、サンプル中における第1の細胞タイプからの推定RNAパーセンテージを表す情報を含み得る。
[0318] 一部の実施形態において、次にプロセス800は、第1のRNAパーセンテージを出力するための処理806に進む。構成又は第1の細胞タイプについての非線形回帰モデルを含め、非線形回帰モデルへの1つ又は複数の入力にかかわらず、1つ以上の非線形回帰モデルの1つ又は複数の出力は、プロセス800の一部として組み合わされ、格納され、又は他の方法で事後処理されてもよい。例えば、各細胞タイプについてのRNAパーセンテージが、プロセス800の実施に使用されるコンピューティングデバイス上に(例えば、非一時的記憶媒体上に)ローカルに格納されてもよい。一部の実施形態において、RNAパーセンテージは、1つ以上の外部記憶媒体(例えば、遠隔データベース又はクラウドストレージ環境など)に格納されてもよい。
[0319] 図8Bは、発現データに基づき1つ以上のRNAパーセンテージを決定するためのプロセス800の例示的実施態様である。一部の実施形態において、プロセス800の実施態様には、図8Bの例示的フローチャートに含まれる処理の任意の好適な組み合わせが含まれてもよい。一部の実施形態において、プロセス800の実施態様には、図8Bに示されない追加の又は代替的なステップが含まれてもよい。例えば、プロセス800の実行には、例示的フローチャートに含まれるあらゆる処理が含まれてもよい。或いは、プロセス800は、例示的フローチャートに含まれる処理のサブセットのみ(例えば、処理812及び816、処理812、814、816、及び818、処理812、814及び816等)を含んでもよい。
[0320] 一部の実施形態において、例示的実施態様820は処理812から始まり、ここでは対象からの生体サンプルについて発現データが入手される。対象からの生体サンプルについて発現データを入手することについては、図8Aの処理802に関する記載を含め、本明細書において上記に記載される。
[0321] 一部の実施形態において、処理812は、第1の発現データ及び第2の発現データを入手することを含んでもよい。第1の発現データは、第1の細胞タイプに関連する第1の遺伝子セットに関連し得る一方、第2の発現データは、第2の細胞タイプに関連する第2の遺伝子セットに関連し得る。例えば、第1の発現データは、B細胞に関連する第1の遺伝子セットに関連し得る一方、第2の発現データは、T細胞に関連する第2の遺伝子セットに関連し得る。それに加えて又は代えて、第1の発現データは、第1の細胞サブタイプに関連する第1の遺伝子セットに関連し得る一方、第2の発現データは、第2の細胞サブタイプに関連する第2の遺伝子セットに関連し得る。例えば、第1の発現データは、CD4+細胞に関連する第1の遺伝子セットに関連し得る一方、第2の発現データは、CD8+細胞に関連する第2の遺伝子セットに関連し得る。
[0322] 一部の実施形態において、例示的プロセス820は処理814に進み、ここでは発現データが前処理される。一部の実施形態において、前処理することにより、発現データが1つ以上の非線形回帰モデルを用いた処理に好適となり得る。例えば、発現データは、任意の他の好適な技法でソートされ、組み合わされ、バッチに編成され、フィルタリングされ、又は前処理され得る。
[0323] 発現データが前処理された後、例示的プロセス820は処理816に進み、ここでは複数の細胞タイプについて発現データ及び1つ以上の非線形回帰モデル(例えば、少なくとも5個、少なくとも10個、少なくとも15個のモデル)を使用して複数のRNAパーセンテージが決定され得る。
[0324] 一部の実施形態において、各細胞タイプ及び/又はサブタイプについてのRNAパーセンテージの推定に、別個の非線形回帰モデルが使用されてもよい。例えば、処理816は処理816a及び処理816bを含んでもよく、その各々は、それぞれ第1及び第2の細胞タイプ及び/又はサブタイプについてのRNAパーセンテージを決定するために訓練された別個の非線形回帰モデルを使用することを含む。処理816aは、第1の発現データ及び第1の非線形回帰モデルを使用して第1の細胞タイプについての第1のRNAパーセンテージを決定することを含む。処理816bは、第2の発現データ及び第2の非線形回帰モデルを使用して第2の細胞タイプについての第2のRNAパーセンテージを決定することを含む。一部の実施形態において、処理816は、処理816a及び816bの一方のみを含んでもよい。一部の実施形態において、処理81は、1つ以上の他の細胞タイプ(例えば、第3の細胞タイプ又はサブタイプ)についてのRNAパーセンテージの決定に1つ以上の追加の非線形回帰モデルを使用することを含んでもよい。処理816aの例示的実施態様については、図8Cに関する記載を含め、本明細書に記載される。
[0325] 一部の実施形態において、処理816において入手されたRNAパーセンテージは、プロセス820の処理818において出力される。
[0326] 図8Cは、第1の発現データ及び第1の非線形回帰モデルを使用して、第1の細胞タイプについての第1のRNAパーセンテージを決定するための処理816aの例示的実施態様を示す。示されるとおり、一部の実施形態において、第1の非線形回帰モデルは、第1の発現データを処理するため第1のサブモデル及び/又は第2のサブモデルを含んでもよい。
[0327] 一部の実施形態において、第1の発現データは、第1の細胞タイプに関連する第1の遺伝子セットに関連する第1の発現データ、並びに第1の細胞タイプに関連する第2の遺伝子セットに関連する第2の発現データを含んでもよい。
[0328] 一部の実施形態において、例示的実施態様は処理832から始まり、これは、第1のサブモデルを使用して、第1の細胞タイプからの推定RNAパーセンテージについての第1の値を予測するためのものである。一部の実施形態において、第1の遺伝子セットに関連する第1の発現データ及び/又は任意の他の入力情報は、非線形回帰モデルの第1のサブモデルへの入力として提供されてもよく、出力は、第1の細胞タイプからの1つ以上の予測RNAパーセンテージであり得る。
[0329] 一部の実施形態において、第1の値の予測後、例示的実施態様は処理834に進み、これは、第2のサブモデルを使用して、第1の細胞タイプからの推定RNAパーセンテージについての第2の値を予測するものである。一部の実施形態において、第2の遺伝子セットに関連する第2の発現データは、第1のサブモデルからの予測及び/又は第1のサブモデルにおいて提供される任意の他の入力情報に加えて、非線形発現モデルの第2のサブモデルへの入力として提供されてもよい。それに加えて又は代えて、第1の遺伝子セットに関連する第1の発現データは、第2のサブモデルへの入力として提供されてもよい。一部の実施形態によれば、複数の非線形回帰モデルからの予測(例えば、各細胞タイプについての各非線形回帰モデルの第1のサブモデルの出力)が、第1の細胞タイプについての非線形回帰モデルの第2のサブモデルへの入力として提供されてもよい。第2のサブモデルへの入力にかかわらず、非線形回帰モデルの第2のサブモデルの出力は、サンプル中の第1の細胞タイプからの推定RNAパーセンテージであり得る。第2のサブモデルの出力は、一部の実施形態では、第1の細胞タイプについての非線形回帰モデルの出力を含み得る。
[0330] 一部の実施形態において、非線形回帰モデルは、2つより多いサブモデルを含み得る。例えば、第2のサブモデルが任意の回数を繰り返されてもよく、毎回、先行するサブモデルの1つ以上からの予測が入力として含められる。
[0331] 例示的実験
[0332] 本明細書に記載される機械学習技法の性能をテストする実験を行った。
[0333] データセットの準備
[0334] モデルの開発及び評価には、幾つかのタイプのデータセットを使用した。図9は、本明細書に記載される技術の一部の実施形態に係る、1つ以上の生体サンプルのTME細胞における遺伝子のそれぞれのTME発現レベルを推定するための機械学習モデルの訓練、検証、及びテスト用のデータを準備するための例示的技法を示す図である。
[0335] 初めに、異なる固形腫瘍細胞株から作成した人工トランスクリプトームを様々なTME細胞集団(B細胞、血漿B細胞、CD4+ T細胞、CD8+ T細胞、マクロファージ、線維芽細胞、内皮、好中球、NK細胞、単球)と共に使用した。各TME細胞タイプに細胞比率を無作為に割り付けて、それらの和が10%から60%までのばらつきを呈する一方で、腫瘍割合が全サンプルの40~90%を占めるようにした。全体では、精製TME細胞タイプの7,114個のサンプル及び癌細胞株の3,143個のサンプルを使用して、訓練用に900000個の人工トランスクリプトーム及び検証用に100個のサンプルが生成された。
[0336] 異なる癌タイプについての単一細胞データを使用してモデルをテストした。黒色腫、膠芽腫及び頭頸部癌については、上記に記載される同じ戦略に従い患者特異的単一細胞データscRNAseqベース人工混合物を生成した。加えて、肺癌については、人工トランスクリプトーム生成のステップを追加することなく患者特異的単一細胞データの公開データセットを非小細胞肺癌についての単一細胞データと一緒に使用した。
[0337] モデルの追加評価のため、インビトロ実験もまた行い、ここではPBMCから抽出した異なる比率のRNAを、3つの癌細胞株:COLO829(皮膚黒色腫)、MCF-7(浸潤性腺管癌)、及びK562(慢性骨髄性白血病)から抽出したRNAと混合した。これらのインビトロ混合物における腫瘍細胞RNAの割合は、25%~95%を占めた。この後、遺伝子発現を定量化し、及びモデル予測を純粋な癌細胞株発現と比較した。
[0338] モデル検証:人工トランスクリプトーム上での検証
[0339] 初めに、腫瘍細胞の割合が40%から90%まで異なる人工トランスクリプトームのデータセットでモデルを検証した。図10は、127個の評価した全ての遺伝子(例えば、腫瘍細胞に関連するもの)にわたるモデル性能を実証するものであり、本明細書に記載される機械学習技法を使用して入手される発現シグナルが有意に改善し、腫瘍細胞の実際の発現に近くなったことを示している。図10では、上段のグラフが、遺伝子の真の腫瘍発現レベルと比較したそれらの遺伝子の総発現レベルを示す。下段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、本明細書に記載される機械学習技法を使用して予測されるそれらの遺伝子の腫瘍発現レベルを示す。
[0340] 図11は、評価した遺伝子についての(a)本明細書に記載される機械学習技法を使用する前(例えば、減算前、純粋な癌株)及び(b)本明細書に記載される機械学習技法を使用した後(例えば、減算後、抽出後の腫瘍細胞発現)の一致相関係数を比較する。純粋な癌細胞株と抽出後の腫瘍細胞発現との間の一致相関係数は、未処理データと比較して平均して0.85から0.98に増加した。具体的には、図12に示されるとおり、一致相関係数は、CD274について0.4から0.93に、EPCAMについて0.87から1.0に、BRCA1について0.78から0.98に及びMAGのA3について0.9から1.0に増加した。図12は、人工トランスクリプトームデータセットからの単一遺伝子に対する機械学習技法の性能の例を示す。
[0341] 次に、機械学習技法を、異なる癌タイプからの単一細胞データでテストした。図13は、黒色腫単一細胞データに対するモデル性能を示す。図14は、肺癌についての単一細胞データに対するモデル性能を示す。図15は、頭頸部癌についての単一細胞データに対するモデル性能を示す。図16は、膠芽腫単一細胞データに対するモデル性能を示す。図17は、非小細胞肺癌についての単一細胞データに対するモデル性能を示す。図13~図17の各々においては、各陰影が1つの遺伝子を表し、上段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、それらの遺伝子の総発現レベルを示し、下段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、本明細書に記載される機械学習技法を使用して予測されるそれらの遺伝子の腫瘍発現レベルを示す。一致相関値は、少なくとも58個の遺伝子について、モデルの適用後に全ての診断で:黒色腫では0.81から0.9に、肺癌では0.38から0.68に、頭頸部癌では0.78から0.88に、膠芽腫では0.85から0.91に及び非小細胞肺癌では0.75から0.84に有意に増加した。
[0342] 図18は、scRNA-seqベースのデータセットからの単一細胞に対する機械学習技法の性能の例を示す。図18では、各データ点がサンプルを表し、上段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、それらの遺伝子の総発現レベルを示し、下段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、本明細書に記載される機械学習技法を使用して予測されるそれらの遺伝子の腫瘍発現レベルを示す。単一遺伝子の例の場合には、一致相関値は、ERBB3及びEPCAMについて0.1、STMN1について0.26及びICAM1について0.06増加した。
[0343] インビトロデータでのモデルのテスト
[0344] インビトロデータに対するモデル評価によれば、本明細書に記載される機械学習技法が、少なくとも74個の腫瘍バイオマーカーについて一致相関係数及び平均絶対誤差(MAE)を改善したことが示された(表6)。全体では、図19に示されるとおり、RNAの割合を混在させたこのデータセットにおいて、一致相関値は0.91から0.96に増加した。図19では、各陰影が1つの遺伝子を表し、上段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、それらの遺伝子の総発現レベルを示し、下段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、本明細書に記載される機械学習技法を使用して予測されるそれらの遺伝子の腫瘍発現レベルを示す。
[0345] 例えば、図20に示されるとおり、ERBB2及びCDK4相関係数は0.23及び0.33増加した一方、これらのMAEは2分の1に減少した。MAGEA10及びMKI67遺伝子については、一致相関係数はそれぞれ、0.89から0.96、及び0.62から0.86に増加した。図20では、各データ点がサンプルを表し、上段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、それらの遺伝子の総発現レベルを示し、下段のグラフは、遺伝子の真の腫瘍発現レベルと比較した、本明細書に記載される機械学習技法を使用して予測されるそれらの遺伝子の腫瘍発現レベルを示す。
Figure 2024517745000052
Figure 2024517745000053
Figure 2024517745000054
Figure 2024517745000055
[0346] 例示的モデルパラメータ
[0347] 上述の実験で訓練し及び検証した各機械学習モデルは、LightGBM、勾配ブースティングフレームワークを用いて訓練した勾配ブースティング機械学習モデルを含む。
[0348] 表7は、かかる機械学習モデルの例示的パラメータの一覧を示す。
Figure 2024517745000056
[0349] 説明として示される例
[0350] 腫瘍特異的遺伝子発現解析は、例えば、遺伝子ベースのオーダーメイド治療戦略の調整、予後判定、臨床試験エンドポイントの評価、新規バイオマーカーの同定、及び以前に公知のバイオマーカーに関する治療適応の修正を含め、広範囲にわたる生物医学的問題において決定的な役割を果たす。
[0351] 一部の実施形態において、標的抗腫瘍療法(例えば、モノクローナル抗体療法及びCAR-T)の有効性は、腫瘍細胞における治療標的の相対的存在量に依存する。例として、HERCEPTIN(登録商標)(トラスツズマブ)は、FDAによりある種の乳癌及び胃癌の治療に承認されているが、但しHER2(ERBB2遺伝子の産物)を過剰発現する腫瘍の患者に限られるため、腫瘍内ERBB2発現を正確に決定する必要性が再確認される。本明細書に記載される機械学習技法によれば腫瘍発現を正しく決定できるため、TMEによって引き起こされる偽陽性結果及び続くHERCEPTIN(登録商標)(トラスツズマブ)の偽陽性適応を回避することが可能となり得る。
[0352] かかる偽陽性誤差の範囲を実証するさらなる例が、イデラリシブ-FDA承認済みのPI3K選択的阻害薬-の標的であるPIK3CDについて示される。図21は、scRNA-seqベースのデータセットからのPIK3CD遺伝子に対する機械学習技法の性能を示す。左側のグラフは、真の腫瘍発現レベルと比較したPI3K遺伝子の総発現レベルを示す一方、右側のグラフは、PI3K遺伝子の真の腫瘍発現レベルと比較した、本明細書に記載される機械学習技法を使用して予測されるそれらの遺伝子の腫瘍発現レベルを示す。各データ点が異なるサンプルを表す。
[0353] 初期発現値は中程度であるにもかかわらず、本明細書に記載される機械学習技法を適用した後のPIK3CDの発現は、かろうじて検出可能な程度であり、PIK3CD特異的治療薬の使用不適応につながる。同じように、本明細書に記載される技法を用いると、表6からの遺伝子のいずれかを標的とする医薬品の治療推奨事項を修正することができる。
[0354] 本例においては、開発されたアルゴリズムを使用することのさらに一層顕著な効果を、ヒトではMMP2遺伝子によってコードされる酵素であるMMP2(マトリックスメタロプロテアーゼ-2)について観察することができる。図22は、scRNA-seqベースのデータセットからのMMP2遺伝子に対する機械学習技法の性能を示す。左側のグラフは、真の腫瘍発現レベルと比較したMMP2遺伝子の総発現レベルを示す一方、右側のグラフは、MMP2遺伝子の真の腫瘍発現レベルと比較した、本明細書に記載される機械学習技法を使用して予測されるそれらの遺伝子の腫瘍発現レベルを示す。各データ点が異なるサンプルを表す。
[0355] 高レベルのMMP2が、ベバシズマブベース及びトラスツズマブベースのネオアジュバント化学療法を受ける乳癌患者における無病生存及び全生存の両方の改善に関連することが示された。遺伝子発現レベルが劇的に変化すれば、必然的にサンプル/患者についての予後を見直すことになるであろう。同じように、本明細書に記載される機械学習技法を用いると、表6に一覧を示す予後/予測バイオマーカーのいずれかについての予後判定を修正することができる。
[0356] 生体サンプル
[0357] 方法、システム、又は他の特許請求される要素のいずれも、対象からの生体サンプルを使用し得るか、又はそれの分析に使用され得る。一部の実施形態において、生体サンプルは、癌を有するか、それを有する疑いがあるか、又は癌を有するリスクがある対象から入手される。生体サンプルは、例えば、体液(例えば、血液、尿又は脳脊髄液)、1つ以上の細胞(例えば、頬スワブ又は気管ブラッシングなど、スクレイピング又はブラッシングからのもの)、組織片(頬組織、筋組織、肺組織、心臓組織、脳組織、又は皮膚組織)、又は臓器(例えば、脳、肺、肝臓、膀胱、腎臓、膵臓、腸、又は筋肉)の一部若しくは全ての生体サンプル、又は他のタイプの生体サンプル(例えば、糞便又は毛髪)を含め、任意のタイプの生体サンプルであってよい。
[0358] 一部の実施形態において、生体サンプルは、対象からの腫瘍のサンプルである。一部の実施形態において、生体サンプルは、対象からの血液のサンプルである。一部の実施形態において、生体サンプルは、対象からの組織のサンプルである。
[0359] 腫瘍のサンプルとは、一部の実施形態では、腫瘍からの細胞を含むサンプルを指す。一部の実施形態において、腫瘍のサンプルは、良性腫瘍からの細胞、例えば、非癌性細胞を含む。一部の実施形態において、腫瘍のサンプルは、前悪性腫瘍からの細胞、例えば、前癌性細胞を含む。一部の実施形態において、腫瘍のサンプルは、悪性腫瘍からの細胞、例えば、癌性細胞を含む。一部の実施形態において、腫瘍のサンプルには、癌性、非癌性、及び/又は前癌性細胞の混合物が含まれ得る。
[0360] 腫瘍の例としては、限定はされないが、腺腫、線維腫、血管腫、脂肪腫、子宮頚部異形成、肺の化生、白板症、癌腫、肉腫、胚細胞腫瘍、黒色腫、中皮腫、神経膠腫、及び芽細胞腫が挙げられる。
[0361] 血液のサンプルとは、一部の実施形態では、細胞を含むサンプル、例えば、血液サンプルからの細胞を指す。一部の実施形態において、血液のサンプルは非癌性細胞を含む。一部の実施形態において、血液のサンプルは前癌性細胞を含む。一部の実施形態において、血液のサンプルは癌性細胞を含む。一部の実施形態において、血液のサンプルは血液細胞を含む。一部の実施形態において、血液のサンプルは赤血球細胞を含む。一部の実施形態において、血液のサンプルは白血球細胞を含む。一部の実施形態において、血液のサンプルは血小板を含む。癌性血液細胞の例としては、限定はされないが、白血病、リンパ腫、及び骨髄腫が挙げられる。一部の実施形態において、血液のサンプルを採取して、血中の無細胞核酸(例えば、無細胞DNA)が入手される。
[0362] 血液のサンプルは、全血のサンプルであっても、又は分画された血液のサンプルであってもよい。一部の実施形態において、血液のサンプルは全血を含む。一部の実施形態において、血液のサンプルは分画された血液を含む。一部の実施形態において、血液のサンプルはバフィーコートを含む。一部の実施形態において、血液のサンプルは血清を含む。一部の実施形態において、血液のサンプルは血漿を含む。一部の実施形態において、血液のサンプルは血餅を含む。
[0363] 組織のサンプルとは、一部の実施形態では、組織からの細胞を含むサンプルを指す。一部の実施形態において、腫瘍のサンプルは、組織からの非癌性細胞を含む。一部の実施形態において、腫瘍のサンプルは、組織からの前癌性細胞を含む。一部の実施形態において、腫瘍のサンプルは、癌性組織を含む。一部の実施形態において、サンプルは、癌性、前癌性、又は非癌性細胞を含み得る。
[0364] 本開示の方法は、限定はされないが、筋組織、脳組織、肺組織、肝組織、上皮組織、結合組織、及び神経組織を含め、臓器組織又は非臓器組織を含めた種々の組織を包含する。一部の実施形態において、組織は正常組織であってもよく、又はそれは罹患組織であってもよいか、若しくはそれは、罹患している疑いがある組織であってもよい。一部の実施形態において、組織は、切片化された組織又はインタクトな全組織であってもよい。一部の実施形態において、組織は、動物組織又はヒト組織であってもよい。動物組織には、限定はされないが、げっ歯類(例えば、ラット又はマウス)、霊長類(例えば、サル)、イヌ、ネコ、及び農場動物から入手された組織が含まれる。
[0365] 生体サンプルは、限定はされないが、任意の体液[血液(例えば、全血、血清、又は血漿)、唾液、涙、滑液、脳脊髄液、胸水、心膜液、腹水、及び/又は尿など]、毛髪、皮膚(表皮、真皮、及び/又は皮下組織の一部分を含む)、中咽頭、咽頭喉頭部、食道、胃、気管支、唾液腺、舌、口腔、鼻腔、膣腔、肛門腔、骨、骨髄、脳、胸腺、脾臓、小腸、虫垂、結腸、直腸、肛門、肝臓、胆道、膵臓、腎臓、尿管、膀胱、尿道、子宮、膣、外陰部、卵巣、頸部、陰嚢、陰茎、前立腺、精巣、精嚢、及び/又は任意のタイプの組織(例えば、筋組織、上皮組織、結合組織、又は神経組織)を含め、対象の体における任意の供給源からのものであってよい。
[0366] 本明細書に記載される生体サンプルはいずれも、対象から任意の公知の技法を用いて入手されてよい。例えば、生体サンプルの採取、処理、及び保存に関する以下の刊行物を参照されたく、その各々が全体として本明細書に援用される:Biospecimens and biorepositories: from afterthought to science by Vaught et al. (Cancer Epidemiol Biomarkers Prev. 2012 Feb;21(2):253-5)、及びBiological sample collection, processing, storage and information management by Vaught and Henderson (IARC Sci Publ. 2011;(163):23-42)。
[0367] 一部の実施形態において、生体サンプルは、外科手技(例えば、腹腔鏡手術、顕微鏡下での制御による外科手術、又は内視鏡検査)、骨髄生検、パンチ生検、内視鏡下生検、又は針生検(例えば、細針吸引、コア針生検、吸引生検、又は画像誘導下生検)から入手されてもよい。
[0368] 一部の実施形態において、1つ又は2つ以上の細胞(細胞生体サンプル)は、スクレイピング法又はブラッシング法を用いて対象から入手されてもよい。細胞生体サンプルは、例えば、以下の領域:頸部、食道、胃、気管支、又は口腔のうちの1つ以上からを含め、対象の身体にある又は身体からの任意の領域から入手されてもよい。一部の実施形態において、対象からの1つ又は2つ以上の組織片(例えば、組織生検)が使用されてもよい。特定の実施形態において、組織生検は、癌性細胞を有することが既知の又はその疑いがある1つ以上の腫瘍又は組織からの1つ又は2つ以上の(例えば、2、3、4、5、6、7、8、9、10の、又は10より多い)生体サンプルを含み得る。
[0369] 本明細書に記載される対象からの生体サンプルのいずれも、生体サンプルの安定性を維持する任意の方法を用いて保存されてよい。一部の実施形態において、生体サンプルの安定性を維持するとは、生体サンプルの成分(例えば、DNA、RNA、タンパク質、又は組織構造若しくは形態)が測定されるまでその分解を阻止することを意味し、従って測定時には、測定値は、それを対象から入手した時点におけるサンプルの状態に相当する。一部の実施形態において、生体サンプルは、それが浸透可能な、及び生体サンプルの成分(例えば、DNA、RNA、タンパク質、又は組織構造若しくは形態)を分解から保護可能な組成物中に保存される。本明細書で使用されるとき、分解とは、第1の形態がもはや分解前と同じレベルでは検出されなくなるような、ある1つの形態から別の形態への成分の変化である。
[0370] 一部の実施形態において、生体サンプル(例えば、組織サンプル)は固定される。本明細書で使用されるとき、「固定される」サンプルは、サンプルの自己分解又は腐敗など、崩壊又は分解を防ぐ又は低減するため1つ以上の薬剤又はプロセスで処理されているサンプルに関する。固定プロセスの例としては、限定はされないが、熱固定、浸漬固定、及び灌流が挙げられる。一部の実施形態において固定されるサンプルは、1つ以上の固定剤で処理される。固定剤の例としては、限定はされないが、架橋剤(例えば、ホルムアルデヒド、ホルマリン、グルタルアルデヒド等などのアルデヒド)、沈殿剤(例えば、エタノール、メタノール、アセトン、キシレン等などのアルコール類)、水銀剤(例えば、B-5、ツェンカー固定液等)、ピクリン酸塩、及びヘペス-グルタミン酸緩衝液媒介性有機溶媒保護効果(HOPE)固定剤(fixatuve)が挙げられる。一部の実施形態において、生体サンプル(例えば、組織サンプル)は架橋剤で処理される。一部の実施形態において、架橋剤は、ホルマリンを含む。一部の実施形態において、ホルマリン固定される生体サンプルは、固体基質、例えばパラフィン蝋に包埋される。一部の実施形態において、生体サンプルは、ホルマリン固定パラフィン包埋(FFPE)サンプルである。FFPEサンプルの調製方法は、例えば、Li et al. JCO Precis Oncol. 2018; 2: PO.17.00091によって記載されるとおり、公知である。
[0371] 一部の実施形態において、生体サンプルは、凍結貯蔵法を用いて保存される。凍結貯蔵法の非限定的な例としては、限定はされないが、ステップダウン凍結、ブラスト凍結、直接のプランジ凍結、スナップ凍結、プログラム可能なフリーザーを使用した緩慢凍結、及びガラス化が挙げられる。一部の実施形態において、生体サンプルは、凍結乾燥を用いて保存される。一部の実施形態において、生体サンプルは、対象からの生体サンプルの採取後に、既に保護剤(例えば、RNAを保護するためのRNALater)が入った容器内に置かれ、次に(例えば、スナップ凍結により)凍結される。一部の実施形態において、凍結した状態でのかかる保存は、生体サンプルの採取後直ちに行われる。一部の実施形態において、生体サンプルは、凍結前にしばらくの間(例えば、最長1時間、最長8時間、又は最長1日間、又は数日間)、室温又は4℃のいずれかで保護剤中又は保護剤のない緩衝液中に置いておかれてもよい。
[0372] 保護剤の非限定的な例としては、ホルマリン溶液、ホルムアルデヒド溶液、RNALater又は他の等価な溶液、TriZol又は他の等価な溶液、DNA/RNA Shield又は等価な溶液、EDTA(例えば、Buffer AE(10mMトリス・Cl;0.5mM EDTA、pH9.0))及び他の凝固剤、及びクエン酸デキストロース(例えば、血液検体用)が挙げられる。
[0373] 一部の実施形態において、生体サンプルの採取及び/又は保存には、特別な容器が使用されてもよい。例えば、バキュテナーを使用して血液を保存してもよい。一部の実施形態において、バキュテナーは、保護剤(例えば、凝固薬、又は抗凝固薬)を含み得る。一部の実施形態において、生体サンプルを貯蔵しておく容器が、より良好な貯蔵を目的として、又は汚染防止を目的として、二次的な容器に入れられてもよい。
[0374] 本明細書に記載される対象からの生体サンプルはいずれも、生体サンプルの安定性を維持する任意の条件下に保存されてもよい。一部の実施形態において、生体サンプルは、生体サンプルの安定性が維持される温度で保存される。一部の実施形態において、サンプルは、室温(例えば、25℃)で保存される。一部の実施形態において、サンプルは、冷蔵下(例えば、4℃)で保存される。一部の実施形態において、サンプルは、凍結条件下(例えば、-20℃)で保存される。一部の実施形態において、サンプルは、超低温条件下(例えば、-50℃~-800℃)で保存される。一部の実施形態において、サンプルは、液体窒素下(例えば、-1700℃)で保存される。一部の実施形態において、生体サンプルは、-60℃~-80℃(例えば、-70℃)で最長5年(例えば、最長1ヵ月、最長2ヵ月、最長3ヵ月、最長4ヵ月、最長5ヵ月、最長6ヵ月、最長7ヵ月、最長8ヵ月、最長9ヵ月、最長10ヵ月、最長11ヵ月、最長1年、最長2年、最長3年、最長4年、又は最長5年)にわたって保存される。一部の実施形態において、生体サンプルは、本明細書に記載される方法のいずれかによって記載されるとおり最長20年(例えば、最長5年、最長10年、最長15年、又は最長20年)にわたって保存される。
[0375] 本開示の方法は、対象から分析用に1つ以上の生体サンプルを入手することを包含する。一部の実施形態において、1つの生体サンプルが対象から分析用に採取される。一部の実施形態において、2つ以上の(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれ以上の)生体サンプルが対象から分析用に採取される。一部の実施形態において、対象からの1つの生体サンプルが分析されることになる。一部の実施形態において、2つ以上の(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれ以上の)生体サンプルが分析されてもよい。対象からの2つ以上の生体サンプルが分析される場合、それらの生体サンプルは同じ時点で調達されてもよく(例えば、2つ以上の生体サンプルが同じ手順で取られてもよい)、又は生体サンプルは異なる時点で(例えば、最初の手順から1、2、3、4、5、6、7、8、9、10日;1、2、3、4、5、6、7、8、9、10週間;1、2、3、4、5、6、7、8、9、10ヵ月、1、2、3、4、5、6、7、8、9、10年、又は10、20、30、40、50、60、70、80、90、100年経った後の手順を含め、異なる手順の間に)取られてもよい。
[0376] 第2の又は後続の生体サンプルは、同じ領域(例えば、同じ腫瘍又は組織範囲から)又は異なる領域(例えば、異なる腫瘍を含めた領域)から取られても、又は入手されてもよい。第2の又は後続の生体サンプルは、対象から1回以上の治療後に取られ、又は入手されてもよく、及び同じ領域又は異なる領域から取られてもよい。非限定的な例として、第2の又は後続の生体サンプルは、各生体サンプル中の癌が異なる特性を有するかどうか(例えば、ある患者において生体サンプルが2つの物理的に別個の腫瘍から取られる場合)、又は癌が1つ以上の治療に反応したかどうか(例えば、同じ腫瘍又は異なる腫瘍からの治療前及び治療後における2つ以上の生体サンプルの場合)を決定する際に有用であり得る。一部の実施形態において、少なくとも1つの生体サンプルの各々は、体液サンプル、細胞サンプル、又は組織生検サンプルである。
[0377] 一部の実施形態において、以降の処理に入る前に1つ以上の生体検体が組み合わされる(例えば、貯蔵のため同じ容器内に置かれる)。例えば、対象から入手された第1の腫瘍の第1のサンプルが対象からの第2の腫瘍の第2のサンプルと組み合わされてもよく、ここで第1及び第2の腫瘍は同じ腫瘍であることも、又はそうでないこともあり得る。一部の実施形態において、第1の腫瘍及び第2の腫瘍は類似しているが、同じではない(例えば、対象の脳内にある2つの腫瘍)。一部の実施形態において、対象からの第1の生体サンプル及び第2の生体サンプルは、異なるタイプの腫瘍(例えば、筋組織及び脳組織における腫瘍)のサンプルである。
[0378] 一部の実施形態において、RNA及び/又はDNAを抽出する元となるサンプル(例えば、腫瘍のサンプル、又は血液サンプル)は、少なくとも2μg(例えば、少なくとも2μg、少なくとも2.5μg、少なくとも3μg、少なくとも3.5μg又はそれ以上)のRNAをそこから抽出できるように十分に多量である。一部の実施形態において、RNA及び/又はDNAを抽出する元となるサンプルは、末梢血単核球(PBMC)であり得る。一部の実施形態において、RNA及び/又はDNAを抽出する元となるサンプルは、任意のタイプの細胞懸濁液であり得る。一部の実施形態において、RNA及び/又はDNAを抽出する元となるサンプル(例えば、腫瘍のサンプル、又は血液サンプル)は、少なくとも1.8μgのRNAをそこから抽出できるように十分に多量である。一部の実施形態において、少なくとも50mg(例えば、少なくとも1mg、少なくとも2mg、少なくとも3mg、少なくとも4mg、少なくとも5mg、少なくとも10mg、少なくとも12mg、少なくとも15mg、少なくとも18mg、少なくとも20mg、少なくとも22mg、少なくとも25mg、少なくとも30mg、少なくとも35mg、少なくとも40mg、少なくとも45mg、又は少なくとも50mg)の組織サンプルが採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態において、少なくとも20mgの組織サンプルが採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態において、少なくとも30mgの組織サンプルが採取される。一部の実施形態において、少なくとも10~50mg(例えば、10~50mg、10~15mg、10~30mg、10~40mg、20~30mg、20~40mg、20~50mg、又は30~50mg)の組織サンプルが採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態において、少なくとも30mgの組織サンプルが採取される。一部の実施形態において、少なくとも20~30mgの組織サンプルが採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態において、RNA及び/又はDNAを抽出する元となるサンプル(例えば、腫瘍のサンプル、又は血液サンプル)は、少なくとも0.2μg(例えば、少なくとも200ng、少なくとも300ng、少なくとも400ng、少なくとも500ng、少なくとも600ng、少なくとも700ng、少なくとも800ng、少なくとも900ng、少なくとも1μg、少なくとも1.1μg、少なくとも1.2μg、少なくとも1.3μg、少なくとも1.4μg、少なくとも1.5μg、少なくとも1.6μg、少なくとも1.7μg、少なくとも1.8μg、少なくとも1.9μg、又は少なくとも2μg)のRNAをそこから抽出できるように十分に多量である。一部の実施形態において、RNA及び/又はDNAを抽出する元となるサンプル(例えば、腫瘍のサンプル、又は血液サンプル)は、少なくとも0.1μg(例えば、少なくとも100ng、少なくとも200ng、少なくとも300ng、少なくとも400ng、少なくとも500ng、少なくとも600ng、少なくとも700ng、少なくとも800ng、少なくとも900ng、少なくとも1μg、少なくとも1.1μg、少なくとも1.2μg、少なくとも1.3μg、少なくとも1.4μg、少なくとも1.5μg、少なくとも1.6μg、少なくとも1.7μg、少なくとも1.8μg、少なくとも1.9μg、又は少なくとも2μg)のRNAをそこから抽出できるように十分に多量である。
[0379] 対象
[0380] 本開示の態様は、対象から入手された生体サンプルに関する。一部の実施形態において、対象は、哺乳類(例えば、ヒト、マウス、ネコ、イヌ、ウマ、ハムスター、ウシ、ブタ、又は他の家畜化された動物)である。一部の実施形態において、対象は、ヒトである。一部の実施形態において、対象は、成人ヒト(例えば、18歳以上)である。一部の実施形態において、対象は、小児(例えば、18歳未満)である。一部の実施形態において、ヒト対象は、少なくとも1つの形態の癌を有するか、又はそれと診断された者である。
[0381] 一部の実施形態において、対象が罹患している癌は、癌腫、肉腫、骨髄腫、白血病、リンパ腫、黒色腫、中皮腫、神経膠腫、又は混合型の、癌腫、肉腫、骨髄腫、白血病、及びリンパ腫のうちの2つ以上を含む癌である。癌腫とは、上皮性起源の悪性新生物又は身体の内膜若しくは外膜の癌を指す。肉腫とは、骨、腱、軟骨、筋肉、及び脂肪など、支持組織及び結合組織に発生する癌を指す。骨髄腫は、骨髄の形質細胞に発生する癌である。白血病(「液状癌」又は「血液癌」)は、骨髄(血液細胞産生部位)の癌である。リンパ腫は、体液を精製し、感染と戦う白血球細胞、即ちリンパ球を産生するリンパ系の腺又は節、血管網、節、及び臓器(特に脾臓、扁桃腺、及び胸腺)に発症する。黒色腫は、皮膚のメラニン細胞に発生する皮膚癌の一種である。中皮腫の癌は、例えば肺及び腹部など、臓器及び腔の内層を形成するものである中皮から生じる。神経膠腫は脳、特に、ニューロンに物理的及び代謝的支持を提供するグリア細胞に発症する。混合型の癌の非限定的な例としては、腺扁平上皮癌、中胚葉性混合腫瘍、癌肉腫、及びテラトカルシノーマが挙げられる。一部の実施形態において、対象は、腫瘍を有する。腫瘍は良性又は悪性であり得る。
[0382] 一部の実施形態において、癌は、以下のうちのいずれか1つである:皮膚癌、肺癌、乳癌、前立腺癌、結腸癌、膵癌、直腸癌、子宮頸癌、及び子宮癌。一部の実施形態において、例えば、対象は1つ以上の遺伝的リスク要因を有するため、又は1つ以上の発癌物質(例えば、タバコの煙、又は噛みタバコ)に曝露されたことがあるか、若しくは曝露されているところであるため、対象は癌を発症するリスクがある。
[0383] 発現データ
[0384] 本明細書に記載される方法又は組成物のいずれにも、複数の遺伝子についての発現データ(例えば、発現レベルを示す)が用いられ得る。調べることになり得る遺伝子の数は、対象の遺伝子の全数以下であり得る。一部の実施形態において、発現レベルは、対象の遺伝子の全数について調べてもよい。非限定的な例として、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、10個以上、11個以上、12個以上、13個以上、14個以上、15個以上、16個以上、17個以上、18個以上、19個以上、20個以上、21個以上、22個以上、23個以上、24個以上、25個以上、26個以上、27個以上、28個以上、29個以上、30個以上、35個以上、40個以上、50個以上、60個以上、70個以上、80個以上、90個以上、100個以上、125個以上、150個以上、175個以上、200個以上、225個以上、250個以上、275個以上、又は300個以上の遺伝子が、本明細書に記載される任意の評価に用いられ得る。別の一組の非限定的な例として、発現データには、表1に一覧を示す遺伝子から選択される少なくとも5個、少なくとも10個、少なくとも20個、少なくとも25個、少なくとも35個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも125個、少なくとも150個又はそれ以上の遺伝子についての発現データが含まれてもよい。それに加えて又は代えて、発現データには、表2に一覧を示す遺伝子から選択される少なくとも5個、少なくとも10個、少なくとも20個、少なくとも25個、少なくとも35個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも125個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも350個、少なくとも400個又はそれ以上の遺伝子についての発現データが含まれてもよい。
[0385] 複数の遺伝子について発現データ(例えば、発現レベルを示す)を取得するため、対象からのサンプルに対して任意の方法を使用し得る。一組の非限定的な例として、発現データは、RNA発現データ、DNA発現データ、又はタンパク質発現データであり得る。
[0386] DNA発現データとは、一部の実施形態では、対象からのサンプル中のDNAのレベル(例えば、染色体、遺伝子、又は他のゲノム領域のコピー数)を指す。癌を有する対象からのサンプル中のDNAのレベルは(例えば、癌患者のサンプル中の遺伝子重複)、癌を有しない対象からのサンプル中のDNAのレベルと比較して上昇し得る。癌を有する対象からのサンプル中のDNAのレベルは(例えば、癌患者のサンプル中の遺伝子欠失)、癌を有しない対象からのサンプル中のDNAのレベルと比較して低下し得る。
[0387] DNA発現データとは、一部の実施形態では、サンプル中に存在するDNA(例えば、コード又は非コードゲノムDNA)についてのデータ(例えば、シーケンシングデータ)、例えば、患者のサンプル中に存在する遺伝子についてのシーケンシングデータを指す。サンプル中に存在するDNAは転写されていてもよく、又は転写されていなくてもよいが、それはDNAシーケンシングプラットフォームを使用してシーケンシングし得る。かかるデータは、一部の実施形態では、患者が特定の癌に関連する1つ以上の突然変異を有するかどうかを決定するのに有用であり得る。
[0388] RNA発現データは、限定はされないが:全トランスクリプトームシーケンシング、全RNAシーケンシング、mRNAシーケンシング、標的RNAシーケンシング、スモールRNAシーケンシング、リボソームプロファイリング、RNAエクソーム捕捉シーケンシング、及び/又はディープRNAシーケンシングを含め、当該技術分野において公知の任意の方法を用いて取得されてもよい。DNA発現データは、任意の公知のDNAシーケンシング方法を含め、当該技術分野において公知の任意の方法を用いて取得し得る。例えば、DNAシーケンシングを使用して、対象のDNAにおける1つ以上の突然変異が同定されてもよい。当該技術分野においてDNAのシーケンシングに用いられる任意の技法を、本明細書に記載される方法及び組成物で使用し得る。一組の非限定的な例として、DNAは、単一分子リアルタイムシーケンシング、イオントレントシーケンシング、パイロシーケンシング、シーケンシング・バイ・シンセシス、シーケンシング・バイ・ライゲーション(SOLiDシーケンシング)、ナノポアシーケンシング、又はサンガーシーケンシング(チェーンターミネーションシーケンシング)を通じてシーケンシングされてもよい。タンパク質発現データは、限定はされないが:N末端アミノ酸分析、C末端アミノ酸分析、エドマン分解(タンパク質シークエネーターなどの機械の使用によるものを含む)、又は質量分析法を含め、当該技術分野において公知の任意の方法を用いて取得されてもよい。
[0389] 一部の実施形態において、発現データは、バルクRNAシーケンシングを通じて取得される。バルクRNAシーケンシングには、入力細胞の大集団(例えば、異なる細胞タイプの混合物)から抽出される全RNAにわたる各遺伝子についての発現レベルを入手することが含まれてもよい。一部の実施形態において、発現データは、シングルセルシーケンシング(例えば、scRNA-seq)を通じて取得される。シングルセルシーケンシングには、個々の細胞をシーケンシングすることが含まれてもよい。
[0390] 一部の実施形態において、発現データは、全エクソームシーケンシング(WES)データを含む。一部の実施形態において、発現データは、全ゲノムシーケンシング(WGS)データを含む。一部の実施形態において、発現データは、次世代シーケンシング(NGS)データを含む。一部の実施形態において、発現データは、マイクロアレイデータを含む。
[0391] 発現データを入手する
[0392] 一部の実施形態において、発現データ(例えば、シーケンシングから入手されたデータを処理する方法は、対象(例えば、癌を有するか、又はそれと診断された対象)についての発現データを入手することを含む。一部の実施形態において、発現データを入手することは、生体サンプルを入手すること、及びそれを処理することにより、本明細書に記載されるシーケンシング方法のいずれか1つを用いてシーケンシングを実施することを含む。一部の実施形態において、発現データは、発現データを入手するための実験を実施した検査機関又はセンター(例えば、シーケンシングを実施した検査機関又はセンター)から入手される。一部の実施形態において、検査機関又はセンターは、医療検査機関又はセンターである。
[0393] 一部の実施形態において、発現データは、データが存在するコンピュータ記憶媒体(例えば、データストレージドライブ)を入手することによって入手される。一部の実施形態において、発現データは、保護されているサーバ(例えば、SFTPサーバ、又はIllumina BaseSpace)経由で入手される。一部の実施形態において、データは、テキストベースのファイル(例えば、FASTQファイル)の形式で入手される。一部の実施形態において、シーケンシングデータが格納されるファイルにはまた、シーケンシングデータのクオリティスコアも含まれている。一部の実施形態において、シーケンシングデータが格納されるファイルにはまた、配列識別情報も含まれている。
[0394] 発現レベル
[0395] 発現データには、一部の実施形態では、遺伝子発現レベルが含まれる。遺伝子発現レベルは、mRNA及び/又はタンパク質など、遺伝子発現の産物を検出することにより検出し得る。一部の実施形態において、遺伝子発現レベルは、サンプル中のmRNAレベルを検出することにより決定される。本明細書で使用されるとき、用語「決定する」又は「検出する」には、サンプル内にある物質の存在、欠如、分量及び/又は量(これは有効量であり得る)を、かかる物質の定性的又は定量的濃度レベルの導出を含め、評価すること、又は他の方法で対象からのサンプル中のかかる物質の値及び/又は分類を評価することが含まれてもよい。
[0396] 図23は、シーケンシングデータを処理することによりシーケンシングデータから発現データを入手するための例示的プロセス2300を示す。プロセス2300は、本明細書に記載される技術の態様がこの点で限定されないとおり、任意の好適な1つ又は複数のコンピューティングデバイスにより実施されてもよい。例えば、プロセス2300は、シーケンシングプラットフォームのコンピューティングデバイス部分により実施されてもよい。他の実施形態において、プロセス2300は、シーケンシングプラットフォームにとって外部の1つ以上のコンピューティングデバイスにより実施されてもよい。
[0397] プロセス2300は処理2302から始まり、ここでは対象から入手された生体サンプルからバルクシーケンシングデータが入手される。バルクシーケンシングデータは、任意の好適な方法、例えば、少なくとも図1並びに「生体サンプル」、「発現データ」、及び「発現データを入手する」と題される節に関する記載を含め、本明細書に記載される方法のいずれかを使用することにより入手される。
[0398] 一部の実施形態において、処理2302において入手されたバルクシーケンシングデータは、RNA-seqデータを含む。一部の実施形態において、生体サンプルは血液又は組織を含む。一部の実施形態において、生体サンプルは1つ以上の腫瘍細胞及び1つ以上のTME細胞を含む。
[0399] 次に、プロセス2300は処理2304に進み、ここでは処理2302において入手されたシーケンシングデータが転写物キロベース百万分率(TPM)単位に正規化される。正規化は、任意の好適なソフトウェアを使用して、及び任意の好適な方法で実施されてもよい。例えば、一部の実施形態において、TPM正規化は、Wagner et al. (Theory Biosci. (2012) 131:281-285)(これは参照により全体として本明細書に援用される)に記載される技法に従い実施されてもよい。一部の実施形態において、TPM正規化は、例えば、gcrmaパッケージなど、ソフトウェアパッケージを使用して実施されてもよい。gcrmaパッケージの態様については、Wu J, Gentry RIwcfJMJ (2021)."gcrma: Background Adjustment Using Sequence Information. R package version 2.66.0."(これは全体として参照により本明細書に援用される)に記載される。一部の実施形態において、ある特定の遺伝子についてのTPM単位でのRNA発現レベルは、以下の式に従い計算し得る:
Figure 2024517745000057
[0400] 次に、プロセス2300は処理2306に進み、ここではTPM単位での発現レベル(処理2304において決定されるとおり)が対数変換されてもよい。しかし、一部の実施形態にでは、対数変換は任意選択であり、省かれてもよい。
[0401] プロセス2300は説明として示されるものであり、ばらつきがある。例えば、一部の実施形態において、処理2304及び2306の一方又は両方が省かれてもよい。このように、一部の実施形態において、発現レベルは転写物百万分率単位に正規化されなくてもよく、代わりに、別のタイプの単位(例えば、リードキロベース百万分率(RPKM)又は断片キロベース百万分率(FPKM)又は任意の他の好適な単位)に変換されてもよい。それに加えて又は代えて、一部の実施形態において、対数変換は省かれてもよい。代わりに、一部の実施形態では形質転換が適用されなくてもよく、又は対数変換の代わりに1つ以上の他の変換が適用されてもよい。
[0402] プロセス2300によって入手される発現データには、シーケンシングプロトコルによって生成される配列データ(例えば、次世代シーケンシング、サンガーシーケンシング等によって同定される核酸分子にある一連のヌクレオチド)並びに同様に配列データから推測又は決定することのできる情報と考え得るそこに含まれる情報(例えば、供給源、組織タイプ等を示すものである情報)が含まれ得る。一部の実施形態において、プロセス2300によって入手される発現データには、FASTAファイルに含まれる情報、FASTQファイルに含まれる記述及び/又はクオリティスコア、BAMファイルに含まれるアラインメントされた位置、及び/又は任意の好適なファイルから入手される任意の他の好適な情報が含まれ得る。
[0403] 治療方法
[0404] 本明細書に記載されるある種の方法において、本明細書に記載される抗癌療法の有効量が、投与されてもよく、また、治療を必要としている対象(例えば、ヒト)への好適な経路(例えば、静脈内投与)での投与に推奨されてもよい。
[0405] 本明細書に記載される方法によって治療されることになる対象は、癌を有するか、それを有する疑いがあるか、又はそのリスクがあるヒト患者であり得る。癌の例としては、限定はされないが、黒色腫、肺癌、脳癌、乳癌、結腸直腸癌、膵癌、肝癌、前立腺癌、皮膚癌、腎癌、膀胱癌、又は前立腺癌が挙げられる。診断時、癌は原発不明癌であり得る。本明細書に記載される方法によって治療されることになる対象は、哺乳類であり得る(例えば、ヒトであり得る)。哺乳類としては、限定はされないが:農場動物(例えば、家畜)、競技動物、実験動物、ペット、霊長類、ウマ、イヌ、ネコ、マウス、及びラットが挙げられる。
[0406] 癌を有する対象は、日常的な健診、例えば、臨床検査、生検、PETスキャン、CTスキャン、又は超音波により同定されてもよい。癌を有する疑いがある対象は、障害の1つ以上の症状、例えば、原因不明の体重減少、発熱、疲労、咳、疼痛、皮膚の変化、異常出血又は排泄、及び/又は身体の部位の肥厚又はしこりを示す可能性がある。癌のリスクがある対象は、その障害についてのリスク要因のうちの1つ以上を有する対象であり得る。例えば、癌に関連するリスク要因としては、限定はされないが、(a)ウイルス感染症(例えば、ヘルペスウイルス感染症)、(b)年齢、(c)家族歴、(d)アルコール過量摂取、(e)肥満、及び(f)タバコ使用が挙げられる。
[0407] 「有効量」は、本明細書で使用されるとき、単独又は1つ以上の他の活性薬剤との組み合わせのいずれかで、対象に治療効果を付与するのに必要な各活性薬剤の量を指す。有効量は、当業者により認識されるとおり、治療下の詳細な病態、病態の重症度、個別の患者についての、年齢、健康状態、サイズ、性別及び体重を含めたパラメータ、治療継続期間、併用療法(ある場合)の性質、具体的な投与経路並びに健康管理実務者の知識及び専門技術の範囲内にある同様の要因に応じて変わる。これらの要因は当業者に周知であり、日常程度に過ぎない実験で対処することができる。概して、個々の成分又はそれらの組み合わせの最高用量、即ち、妥当な医学的判断による最も高い安全用量を使用することが好ましい。しかしながら、当業者は、医学的理由、心理的理由から、又は事実上あらゆる他の理由から、患者がより低い用量又は忍容できる用量を求め得ることを理解するであろう。
[0408] 投薬量の決定には、治療用化合物の半減期など、経験的考察が概して寄与する。例えば、抗体の半減期を長引かせるには、及び抗体が宿主の免疫系による攻撃を受けるのを防ぐには、ヒト化抗体又は完全ヒト抗体など、ヒト免疫系と適合性のある抗体が使用されてもよい。投与頻度が決定され、療法の経過中に調整されてもよく、それは概して(必須ではないが)、癌の治療、及び/又は抑制、及び/又は改善、及び/又は遅延に基づく。或いは、抗癌療法剤の連続徐放製剤が適切であり得る。徐放を実現するための様々な製剤及びデバイスが、当該技術分野において公知である。
[0409] 一部の実施形態において、本明細書に記載されるとおりの抗癌療法剤の投薬量は、1用量以上の抗癌療法剤を投与された個体で経験的に決定されてもよい。個体は、漸増投薬量の抗癌療法剤を投与されてもよい。投与された抗癌療法剤の有効性を判定するには、癌の1つ以上の側面(例えば、腫瘍形成、腫瘍成長、その癌について本明細書に記載される技法を用いて同定される分子カテゴリー)が分析されてもよい。
[0410] 概して、本明細書に記載される抗癌抗体のいずれの投与についても、初回投薬量候補は約2mg/kgであり得る。本開示の目的上、典型的な1日投薬量は、上述の要因に応じて約0.1μg/kg~3μg/kg~30μg/kg~300μg/kg~3mg/kg、~30mg/kg~100mg/kg又はそれ以上のいずれかの範囲となる可能性がある。数日以上にわたる反復投与については、治療は、病態次第で、症状の所望の抑制若しくは改善が起こるまで、又は癌、若しくはその1つ以上の症状を軽減するのに十分な治療レベルが実現するまで継続される。例示的用量設定レジメンは、約2mg/kgの初回用量と、続く毎週約1mg/kgの維持量の抗体、又は続く約1mg/kgの維持量を隔週で投与することを含む。しかしながら、実務者(例えば、医師)が実現したいと望む薬物動態学的崩壊パターン次第では、他の投薬量レジメンが有用であり得る。例えば、週1~4回の用量設定が企図される。一部の実施形態において、約3μg/mg~約2mg/kgの範囲の用量設定(約3μg/mg、約10μg/mg、約30μg/mg、約100μg/mg、約300μg/mg、約1mg/kg、及び約2mg/kgなど)が用いられてもよい。一部の実施形態において、用量設定頻度は、1週間毎、2週間毎、4週間毎、5週間毎、6週間毎、7週間毎、8週間毎、9週間毎、又は10週間毎に1回;又は1ヵ月毎、2ヵ月毎、又は3ヵ月毎、又はそれ以上に1回である。この療法の経過は従来技法及びアッセイによりモニタされてもよい。用量設定レジメン(用いられる治療を含む)は、時間の経過に伴い変わり得る。
[0411] 抗癌療法剤が抗体でないとき、それは、患者の体重1kg当たり約0.1~300mgの速度で1~3用量に分割して、又は本明細書に開示されるとおり投与されてもよい。一部の実施形態において、正常な体重の成人患者については、約0.3~5.00mg/kgの範囲の用量が投与されてもよい。特定の投薬量レジメン、例えば、用量、タイミング、及び/又は反復は、詳細な対象及びその個体の病歴、並びに個々の薬剤の特性(薬剤の半減期、及び当該技術分野において周知の他の考慮点など)に依存することになる。
[0412] 本開示の目的上、抗癌療法剤の適切な投薬量は、利用される具体的な1つ又は複数の抗癌療法剤(又はその組成)、癌のタイプ及び重症度、抗癌療法剤の投与が予防目的か、又は治療目的か、過去の療法、患者の病歴及び抗癌療法剤に対する反応、及び主治医の裁量に依存することになる。典型的には、臨床医は抗体などの抗癌療法剤を、所望の結果を実現する投薬量に達するまで投与することになる。
[0413] 抗癌療法剤の投与は、例えば、被投与者の生理的条件、投与の目的が治療か、又は予防か、及び当業者に公知の他の要因に依存して、連続的又は間欠的であり得る。抗癌療法剤(例えば、抗癌抗体)の投与は、本質的に予め選択された期間にわたって連続的であってもよく、又は例えば癌の発症前、発症中、又は発症後のいずれかに間隔を置いた一連の用量であってもよい。
[0414] 本明細書で使用されるとき、用語「治療する」は、癌、癌の症状、又は癌に罹り易い素因を有する対象への、癌又は癌の1つ以上の症状、又は癌に罹り易い素因の根治、治癒、軽減、緩和、変化、修復、改善、好転、又は影響を及ぼすことを目的とした、1つ以上の活性薬剤を含む組成物の適用又は投与を指す。
[0415] 癌を軽減することには、疾患の発症若しくは進行を遅延させること又は疾患重症度を低減することが含まれる。疾患を軽減するとは、必ずしも根治的結果を必要とするものではない。そこで使用されるとき、疾患(例えば、癌)の発症を「遅延させる」とは、疾患の進行を遅らせる、妨げる、緩徐にする、遅くする、安定化させる、及び/又は先に延ばすことを意味する。この遅延は、治療下の疾患及び/又は個体の経過に応じて様々な時間長さであってよい。疾患の発症を「遅延させる」又は軽減する方法、又は疾患の発生を遅延させる方法とは、その方法を使用しない場合と比較したときの、所与の期間における疾患の1つ以上の症状が発症する可能性を低減する方法、及び/又は所与の時間枠における症状の程度を低減する方法である。かかる比較は、典型的には、統計的に有意な結果を生み出すのに十分な数の対象を使用した臨床試験に基づく。
[0416] 疾患の「発症」又は「進行」とは、最初に現れる症状及び/又はその後の疾患の進行を意味する。疾患の発症は、当該技術分野において公知の臨床技法を用いて検出及び判定することができる。しかしながら、発症とはまた、検出不能であり得る進行も指す。この開示の目的上、発症又は進行とは、症状の生物学的経過を指す。「発症」には、発生、再発、及び発病が含まれる。本明細書で使用されるとき、癌の「発病」又は「発生」には、初期の発病及び/又は再発が含まれる。
[0417] 一部の実施形態において、本明細書に記載される抗癌療法剤(例えば、抗体)は、治療を必要としている対象に、癌(例えば、腫瘍)の成長を少なくとも10%(例えば、20%、30%、40%、50%、60%、70%、80%、90%又はそれ以上)低減するのに十分な量で投与される。一部の実施形態において、本明細書に記載される抗癌療法剤(例えば、抗体)は、治療を必要としている対象に、癌細胞の数又は腫瘍サイズを少なくとも10%(例えば、20%、30%、40%、50%、60%、70%、80%、90%又はそれ以上)低減するのに十分な量で投与される。他の実施形態において、抗癌療法剤は、癌タイプを変化させるのに有効な量で投与される。或いは、抗癌療法剤は、腫瘍形成又は転移を低減するのに有効な量で投与される。
[0418] 治療しようとする疾患のタイプ又は疾患の部位に応じて、医学分野の当業者に公知の従来方法を用いて対象に抗癌療法剤を投与し得る。抗癌療法剤はまた、他の従来経路で投与することもでき、例えば、経口的に、非経口的に、吸入スプレーにより、局所的に、経直腸的に、鼻腔的に、頬側的に、経膣的に、又は植え込まれたリザーバから投与することもできる。用語「非経口」には、本明細書で使用されるとき、皮下、皮内、静脈内、筋肉内、関節内、動脈内、滑液嚢内、胸骨内、髄腔内、病巣内、及び頭蓋内注射又は注入技法が含まれる。加えて、抗癌療法剤は、1ヵ月、3ヵ月、又は6ヵ月デポー注射用又は生分解性材料及び方法を用いるなど、注射用デポー投与経路で対象に投与されてもよい。
[0419] 注射用組成物は、植物油、ジメチルアセトアミド(dimethylactamide)、ジメチルホルムアミド(dimethyformamide)、乳酸エチル、炭酸エチル、ミリスチン酸イソプロピル、エタノール、及びポリオール類(例えば、グリセロール、プロピレングリコール、液体ポリエチレングリコール他)など、様々な担体を含有し得る。静脈内注射については、水溶性抗癌療法剤を点滴法により投与することができ、それによって抗体と生理学的に許容可能な賦形剤とを含有する医薬製剤が注入されることになる。生理学的に許容可能な賦形剤には、例えば、5%デキストロース、0.9%生理食塩水、リンゲル溶液、及び/又は他の好適な賦形剤が含まれてもよい。筋肉内調製剤、例えば、好適な可溶性塩形態の抗癌療法剤の無菌製剤を、注射用水、0.9%生理食塩水、及び/又は5%グルコース溶液などの医薬賦形剤中に溶解させて投与することができる。
[0420] 一実施形態において、抗癌療法剤は、部位特異的な又は標的化した局所送達技法で投与される。部位特異的な又は標的化した局所送達技法の例としては、様々な植込み型薬剤デポー供給源又は注入カテーテル、留置カテーテル、若しくは針カテーテルなどの局所デリバリーカテーテル、合成グラフト、外膜の巻き付け、シャント及びステント又は他の植込み型デバイス、部位特異的担体、直接の注射、又は直接の適用が挙げられる。例えば、国際公開第00/53211号及び米国特許第5,981,568号(その各々の内容は、本目的上、参照によって本明細書に援用される)を参照のこと。
[0421] アンチセンスポリヌクレオチド、発現ベクター、又はサブゲノムポリヌクレオチドを含有する治療組成物の標的化した送達もまた用いることができる。受容体介在性DNA送達技法について、例えば、Findeis et al., Trends Biotechnol. (1993) 11:202;Chiou et al., Gene Therapeutics: Methods and Applications Of Direct Gene Transfer (J. A. Wolff, ed.) (1994);Wu et al., J. Biol. Chem. (1988) 263:621;Wu et al., J. Biol. Chem. (1994) 269:542;Zenke et al., Proc. Natl. Acad. Sci. USA (1990) 87:3655;Wu et al., J. Biol. Chem. (1991) 266:338に記載されている。前述の各々の内容は、本目的上、参照によって本明細書に援用される。
[0422] ポリヌクレオチドを含有する治療組成物は、遺伝子療法プロトコルにおいて局所投与用に約100ng~約200mgのDNAの範囲で投与されてもよい。一部の実施形態において、約500ng~約50mg、約1μg~約2mg、約5μg~約500μg、及び約20μg~約100μgのDNA又はそれ以上の濃度範囲もまた、遺伝子療法プロトコルの中で用いることができる。
[0423] 治療用ポリヌクレオチド及びポリペプチドは、遺伝子送達媒体を使用して送達することができる。遺伝子送達媒体は、ウイルス起源又は非ウイルス起源であってよい(例えば、Jolly, Cancer Gene Therapy (1994) 1:51;Kimura, Human Gene Therapy (1994) 5:845;Connelly, Human Gene Therapy (1995) 1:185;及びKaplitt, Nature Genetics (1994) 6:148)。前述の各々の内容は、本目的上、参照によって本明細書に援用される。かかるコード配列の発現は、内因性哺乳類又は異種プロモーター及び/又はエンハンサーを使用して誘導することができる。コード配列の発現は、構成的であっても、又は調節されたものであっても、いずれでもよい。
[0424] 所望のポリヌクレオチドの送達及び所望の細胞における発現のためのウイルスベースのベクターについては、当該技術分野において周知である。例示的なウイルスベースの媒体としては、限定はされないが、組換えレトロウイルス(例えば、国際公開第90/07936号;同第94/03622号;同第93/25698号;同第93/25234号;同第93/11230号;同第93/10218号;同第91/02805号;米国特許第5,219,740号及び同第4,777,127号;英国特許第2,200,651号;及び欧州特許第0 345 242号を参照のこと)、アルファウイルスベースのベクター(例えば、シンドビスウイルスベクター、セムリキ森林ウイルス(ATCC VR-67;ATCC VR-1247)、ロスリバーウイルス(ATCC VR-373;ATCC VR-1246)及びベネズエラウマ脳炎ウイルス(ATCC VR-923;ATCC VR-1250;ATCC VR 1249;ATCC VR-532))、及びアデノ随伴ウイルス(AAV)ベクター(例えば、国際公開第94/12649号、同第93/03769号;同第93/19191号;同第94/28938号;同第95/11984号及び同第95/00655号を参照のこと)が挙げられる。また、Curiel, Hum. Gene Ther. (1992) 3:147に記載されるとおりの、死菌アデノウイルスに連結されたDNAの投与を利用することもできる。前述の各々の内容は、本目的上、参照によって本明細書に援用される。
[0425] 非ウイルス送達媒体及び方法もまた、限定はされないが、単独での死菌アデノウイルスに連結された又は連結されていないポリカチオン縮合DNA(例えば、Curiel, Hum. Gene Ther. (1992) 3:147を参照のこと);リガンド連結DNA(例えば、Wu, J. Biol. Chem. (1989) 264:16985を参照のこと);真核細胞送達媒体細胞(例えば、米国特許第5,814,482号;国際公開第95/07994号;同第96/17072号;同第95/30763号;及び同第97/42338号を参照のこと)及び核電荷中和又は細胞膜との融合を含め、利用することができる。ネイキッドDNAもまた利用することができる。例示的ネイキッドDNA導入方法について、国際公開第90/11092号及び米国特許第5,580,859号に記載されている。遺伝子送達媒体として働き得るリポソームについて、米国特許第5,422,120号;国際公開第95/13796号;同第94/23697号;同第91/14445号;及び欧州特許第0524968号に記載されている。さらなる手法について、Philip, Mol. Cell. Biol. (1994) 14:2411、及びWoffendin, Proc. Natl. Acad. Sci. (1994) 91:1581に記載されている。前述の各々の内容は、本目的上、参照によって本明細書に援用される。
[0426] また、発現ベクターを使用してタンパク質ベースの抗癌療法剤(例えば、抗癌抗体)のいずれかの発現を導き得ることも明らかである。例えば、癌によって引き起こされる生物学的活性を遮断する(部分的な遮断から完全な遮断に至るまで)能力を有するペプチド阻害薬が、当該技術分野において公知である。
[0427] 一部の実施形態において、治療を必要としている対象に、抗体及び小分子阻害薬化合物など、2つ以上の抗癌療法剤が投与されてもよい。これらの薬剤は、互いに同じタイプ又は異なるタイプであってよい。少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、又は少なくとも5つの異なる薬剤が共投与されてもよい。概して、投与用の抗癌剤は、互いに悪影響を及ぼし合うことのない補完的な活性を有する。抗癌療法剤はまた、その薬剤の有効性を増強及び/又は補完する働きをする他の薬剤と併せて使用されてもよい。
[0428] 治療有効性は、当該技術分野において周知の方法により、例えば、治療に供されている患者の腫瘍成長又は形成をモニタすることにより判定し得る。それに代えて又は加えて、治療有効性は、治療の経過にわたって(例えば、治療前、治療中、及び治療後に)腫瘍タイプをモニタすることによっても判定し得る。
[0429] 癌を有する対象は、任意の組み合わせの抗癌療法剤又は1つ以上の抗癌療法剤及び1つ以上の追加の療法(例えば、外科手術及び/又は放射線療法)を用いて治療し得る。併用療法という用語は、本明細書で使用されるとき、2つ以上の治療(例えば、抗体及び小分子又は抗体及び放射線療法)の逐次的な様式での投与、つまり、各治療用薬剤が異なる時点で投与されるような投与も、並びにそれらの治療用薬剤、又は薬剤若しくは療法のうちの少なくとも2つの実質的に同時に行われる様式での投与も包含する。
[0430] 各薬剤又は療法の逐次的な投与又は実質的に同時の投与は、限定はされないが、経口経路、静脈内経路、筋肉内、皮下経路、及び粘膜組織からの直接吸収を含め、任意の適切な経路の影響を受け得る。薬剤又は療法は、同じ経路により、又は異なる経路により投与することができる。例えば、第1の薬剤(例えば、小分子)を経口投与してもよく、第2の薬剤(例えば、抗体)を静脈内投与してもよい。
[0431] 本明細書で使用されるとき、用語「逐次的」とは、特に指定されない限り、決まった順序又は順番によって特徴付けられるものを意味し、例えば、投薬量レジメンに抗体及び小分子の投与が含まれる場合であれば、逐次的投薬量レジメンには、小分子の投与より前の、それと同時の、それと実質的に同時の、又はそれより後の抗体の投与が含まれる可能性があるが、両方の薬剤とも決まった順序又は順番で投与されることになる。用語「個別」は、特に指定されない限り、互いに離しておくことを意味する。用語「同時に」は、特に指定されない限り、同じ時点で起こる又は行われることを意味し、即ち、薬剤は同じ時点で投与される。用語「実質的に同時に」は、それらの薬剤が互いから数分以内に(例えば、互いから10分以内に)投与されることを意味し、共同投与並びに連続投与を包含することが意図されるが、投与が連続的である場合、それは時間的にほんの短時間だけ(例えば、ある医療実務者が2つの薬剤を個別に投与するのにかかるであろう時間だけ)離れているに過ぎない。本明細書で使用されるとき、並行投与及び実質的に同時の投与は、同義的に使用される。逐次投与とは、本明細書に記載される薬剤又は療法の時間的に分かれた投与を指す。
[0432] 併用療法はまた、抗癌療法剤(例えば、抗体)を他の生物学的に活性な成分(例えば、ビタミン)及び非薬物療法(例えば、外科手術又は放射線療法)とさらに組み合わせた投与も包含することができる。
[0433] 癌の治療には、抗癌療法剤の任意の組み合わせを任意の順序で使用し得ることが理解されなければならない。本明細書に記載される組み合わせは、限定はされないが、腫瘍形成又は腫瘍成長の低減、及び/又は癌に関連する少なくとも1つの症状の軽減、又はその組み合わせのもう一方の薬剤の副作用を緩和する有効性を含め、幾つもの要因に基づき選択されてもよい。例えば、本明細書に提供されるとおりの併用療法は、その組み合わせの各個別のメンバーに関連する副作用、例えば、投与される抗癌剤に関連する副作用のいずれかを低減し得る。
[0434] 一部の実施形態において、抗癌療法剤は、抗体、免疫療法、放射線療法、外科的療法、及び/又は化学療法である。
[0435] 抗体抗癌剤の例としては、限定はされないが、アレムツズマブ(Campath)、トラスツズマブ(Herceptin)、イブリツモマブチウキセタン(Zevalin)、ブレンツキシマブベドチン(Adcetris)、Ado-トラスツズマブエムタンシン(Kadcyla)、ブリナツモマブ(Blincyto)、ベバシズマブ(Avastin)、セツキシマブ(Erbitux)、イピリムマブ(Yervoy)、ニボルマブ(Opdivo)、ペンブロリズマブ(Keytruda)、アテゾリズマブ(Tecentriq)、アベルマブ(Bavencio)、デュルバルマブ(Imfinzi)、及びパニツムマブ(Vectibix)が挙げられる。
[0436] 免疫療法の例としては、限定はされないが、PD-1阻害薬又はPD-L1阻害薬、CTLA-4阻害薬、養子細胞移入、治療用癌ワクチン、腫瘍溶解性ウイルス療法、T細胞療法、及び免疫チェックポイント阻害薬が挙げられる。
[0437] 放射線療法の例としては、限定はされないが、電離放射線、ガンマ線照射、中性子ビーム放射線療法、電子ビーム放射線療法、陽子線療法、小線源照射療法、全身放射性同位体、及び放射線増感剤が挙げられる。
[0438] 外科的療法の例としては、限定はされないが、根治的手術(例えば、腫瘍切除術)、予防的手術、腹腔鏡手術、及びレーザー手術が挙げられる。
[0439] 化学療法剤の例としては、限定はされないが、カルボプラチン又はシスプラチン、ドセタキセル、ゲムシタビン、Nab-パクリタキセル、パクリタキセル、ペメトレキセド、及びビノレルビンが挙げられる。
[0440] 化学療法のさらなる例としては、限定はされないが、カルボプラチン、オキサリプラチン、シスプラチン、ネダプラチン、サトラプラチン、ロバプラチン、トリプラチン、四硝酸塩、ピコプラチン、Prolindac、Aroplatin及び他の誘導体などの白金製剤;カンプトテシン、トポテカン、イリノテカン/SN38、ルビテカン、ベロテカン、及び他の誘導体などのトポイソメラーゼI阻害薬;エトポシド(VP-16)、ダウノルビシン、ドキソルビシン系薬剤(例えば、ドキソルビシン、塩酸ドキソルビシン、ドキソルビシン類似体、又はリポソーム中にあるドキソルビシン及びその塩又は類似体)、ミトキサントロン、アクラルビシン、エピルビシン、イダルビシン、アムルビシン、アムサクリン、ピラルビシン、バルルビシン、ゾルビシン、テニポシド及び他の誘導体などのトポイソメラーゼII阻害薬;葉酸ファミリー(メトトレキサート、ペメトレキセド、ラルチトレキセド、アミノプテリン、及びその近縁体又は誘導体)などの代謝拮抗薬;プリン拮抗薬(チオグアニン、フルダラビン、クラドリビン、6-メルカプトプリン、ペントスタチン、クロファラビン、及びその近縁体又は誘導体)及びピリミジン拮抗薬(シタラビン、フロクスウリジン、アザシチジン、テガフール、カルモフール、カペシタビン(Capacitabine)、ゲムシタビン、ヒドロキシウレア、5-フルオロウラシル(5FU)、及びその近縁体又は誘導体);ナイトロジェンマスタード類(例えば、シクロホスファミド、メルファラン、クロラムブシル、メクロレタミン、イホスファミド、メクロレタミン、トロホスファミド、プレドニムスチン、ベンダムスチン、ウラムスチン、エストラムスチン、及びその近縁体又は誘導体)などのアルキル化剤;ニトロソウレア類(例えば、カルムスチン、ロムスチン、セムスチン、フォテムスチン、ニムスチン、ラニムスチン、ストレプトゾシン、及びその近縁体又は誘導体);トリアゼン基(例えば、ダカルバジン、アルトレタミン、テモゾロミド、及びその近縁体又は誘導体);スルホン酸アルキル類(例えば、ブスルファン、マンノスルファン、トレオスルファン、及びその近縁体又は誘導体);プロカルバジン;ミトブロニトール、及びアジリジン類(例えば、カルボコン、トリアジコン、チオテパ、トリエチレンメラミン(triethylenemalamine)、及びその近縁体又は誘導体);ヒドロキシウレア、アントラサイクリン類(例えば、ドキソルビシン系薬剤、ダウノルビシン、エピルビシン及びその近縁体又は誘導体)などの抗生物質;アントラセンジオン類(例えば、ミトキサントロン及びその近縁体又は誘導体);ストレプトマイセス属(Streptomyces)ファミリー抗生物質(例えば、ブレオマイシン、マイトマイシンC、アクチノマイシン、及びプリカマイシン);及び紫外線が挙げられる。
[0441] コンピュータ実装
[0442] 本明細書に記載される技術の実施形態(例えば、図2A~図2Cの方法など)のいずれかに関連して使用されてもよいコンピュータシステム2400の説明として示される実装を図24に示す。コンピュータシステム2400には、1つ以上のプロセッサ2410と非一時的コンピュータ可読記憶媒体(例えば、メモリ2420及び1つ以上の不揮発性記憶媒体2430)を含む1つ以上の製品とが含まれる。プロセッサ2410は、本明細書に記載される技術の態様がいかなる特定のデータ書込み又は読取り技法にも限定されないとおり、任意の好適な方法でメモリ2420及び不揮発性ストレージデバイス2430へのデータ書込み及びそこからのデータ読取りを制御し得る。本明細書に記載される機能のいずれかを実施するため、プロセッサ2410は、プロセッサ2410による実行のためのプロセッサ実行可能命令を格納している非一時的コンピュータ可読記憶媒体として働き得る1つ以上の非一時的コンピュータ可読記憶媒体(例えば、メモリ2420)に格納された1つ以上のプロセッサ実行可能命令を実行し得る。
[0443] コンピューティングデバイス2400にはまた、コンピューティングデバイスが他のコンピューティングデバイスと(例えば、ネットワーク上で)通信し得る際に経由するネットワーク入力/出力(I/O)インターフェース2440が含まれてもよく、また、コンピューティングデバイスがユーザへの出力を提供し、及びユーザからの入力を受け取り得る際に経由する1つ以上のユーザI/Oインターフェース2450が含まれてもよい。ユーザI/Oインターフェースには、キーボード、マウス、マイクロホン、ディスプレイデバイス(例えば、モニタ又はタッチスクリーン)、スピーカー、カメラ、及び/又は様々な他のタイプのI/Oデバイスなどのデバイスが含まれてもよい。
[0444] 上述の実施形態は、数多くの方法のいずれかで実装することができる。例えば、こうした実施形態は、ハードウェア、ソフトウェア、又はこれらの組み合わせを用いて実装し得る。ソフトウェアコードは、ソフトウェアに実装されると、単一のコンピューティングデバイスに提供されるのであれ、又は複数のコンピューティングデバイス間に分散されるのであれ、任意の好適なプロセッサ(例えば、マイクロプロセッサ)又はプロセッサの集合体上で実行させることができる。上述の機能を実施するいかなる構成要素又は構成要素の集合体も、概して上述の機能を制御する1つ以上の制御器と見なし得ることが理解されなければならない。こうした1つ以上の制御器は、専用のハードウェアによるか、又はマイクロコード又はソフトウェアを使用して上記に記載される機能を実施するようにプログラムされる汎用ハードウェア(例えば、1つ以上のプロセッサ)によるなど、数多くの方法で実装することができる。
[0445] この点で、本明細書に記載される実施形態の1つの実装は、1つ以上のプロセッサ上での実行時に1つ以上の実施形態の上述の機能を実施するコンピュータプログラム(即ち、複数の実行可能命令)がコードされる少なくとも1つのコンピュータ可読記憶媒体(例えば、RAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD-ROM、デジタル多目的ディスク(DVD)又は他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又は他の磁気ストレージデバイス、又は他の有形の非一時的コンピュータ可読記憶媒体)を含むことが理解されなければならない。コンピュータ可読媒体は、そこに格納されるプログラムを任意のコンピューティングデバイスにロードして本明細書に記載される技法の態様を実装させることができるように可搬型であり得る。加えて、実行時に上述の機能のいずれかを実施するコンピュータプログラムへの言及は、ホストコンピュータ上で動くアプリケーションプログラムに限定されないことが理解されなければならない。むしろ、コンピュータプログラム及びソフトウェアという用語は、本明細書では、本明細書に記載される技法の態様を実装するように1つ以上のプロセッサをプログラムするために利用し得る任意のタイプのコンピュータコード(例えば、アプリケーションソフトウェア、ファームウェア、マイクロコード、又は任意の他の形態のコンピュータ命令)を指して総称的な意味で使用される。
[0446] 実施態様についての前述の記載は、説明及び記載を提供するが、網羅的であること又は実施態様を開示される厳密な形態に限定することを意図するものではない。上記の教示を踏まえれば修正例及び変形例が可能であり、又は実施態様の実践から得られてもよい。他の実施態様において、これらの図に描かれる方法には、より少ない数の作業、異なる作業、別の順番で行う作業、及び/又は追加の作業が含まれてもよい。さらに、非依存的ブロックが並行して実施されてもよい。
[0447] 例示的態様は、上記に記載したとおり、本図に説明として示される実施態様において多くの異なる形態のソフトウェア、ファームウェア、及びハードウェアに実装し得ることは明らかであろう。さらに、これらの実施態様のある種の部分は、1つ以上の機能を実施する「モジュール」として実装し得る。このモジュールには、プロセッサ、特定用途向け集積回路(ASIC)、又はフィールドプログラマブルゲートアレイ(FPGA)などのハードウェア、又はハードウェアとソフトウェアとの組み合わせが含まれてもよい。
[0448] 本開示に示される技術の幾つかの態様及び実施形態がこのように記載されたが、当業者には様々な変更例、修正例、及び改良例が容易に想起されるであろうことは理解されるべきである。かかる変更例、修正例、及び改良例は、本明細書に記載される技術の趣旨及び範囲に含まれることが意図される。例えば、当業者は、本明細書に記載される機能を実施するために、及び/又は結果及び/又は利点のうちの1つ以上を達成するために種々の他の手段及び/又は構造を容易に構想し得るであろうとともに、かかる変形例及び/又は修正例の各々は、本明細書に記載される実施形態の範囲に含まれると見なされる。当業者は、日常程度に過ぎない実験を使用して、本明細書に記載される具体的な実施形態の多くの均等物を認識し、又は確かめることができるであろう。従って、前述の実施形態が単に例として提供されること、及び、添付の特許請求の範囲及びその均等物の中では、本発明の実施形態は、具体的に開示されるとおりのもの以外の他の方法で実施されてもよいことが理解されるべきである。加えて、本明細書に記載される特徴、システム、物品、材料、キット、及び/又は方法の2つ以上の任意の組み合わせが、かかる特徴、システム、物品、材料、キット、及び/又は方法が相互に矛盾しない場合には、本開示の範囲の中に包含される。
[0449] 上述の実施形態は、数多くの方法のいずれで実装してもよい。プロセス又は方法の実施が関わる本開示の1つ以上の態様及び実施形態は、そのプロセス又は方法を実施するため、又はその実施を制御するため、デバイス(例えば、コンピュータ、プロセッサ、又は他のデバイス)によって実行可能なプログラム命令を利用し得る。この点で、様々な発明概念は、1つ以上のコンピュータ又は他のプロセッサ上での実行時に、上記に記載される様々な実施形態の1つ以上を実装する方法を実施する1つ以上のプログラムがコードされるコンピュータ可読記憶媒体(又は複数のコンピュータ可読記憶媒体)(例えば、コンピュータメモリ、1つ以上のフロッピーディスク、コンパクトディスク、光ディスク、磁気テープ、フラッシュメモリ、フィールドプログラマブルゲートアレイ又は他の半導体デバイスにおける回路構成、又は他の有形のコンピュータ記憶媒体)として具現化し得る。1つ又は複数のコンピュータ可読媒体は可搬型であってもよく、従ってそこに格納される1つ又は複数のプログラムを1つ以上の異なるコンピュータ又は他のプロセッサにロードして、上記に記載される態様の様々なものを実装させることができる。一部の実施形態において、コンピュータ可読媒体は非一時的媒体であり得る。
[0450] 用語「プログラム」又は「ソフトウェア」は、本明細書では、上記に記載したとおりの様々な態様を実装するようにコンピュータ又は他のプロセッサをプログラムするために利用することのできる任意のタイプのコンピュータコード又は一式のコンピュータ実行可能命令を指して総称的な意味で使用される。加えて、一態様によれば、実行時に本開示の方法を実施する1つ以上のコンピュータプログラムが単一のコンピュータ又はプロセッサ上にある必要はなく、本開示の様々な態様を実装するように幾つもの異なるコンピュータ又はプロセッサ間にモジュラー方式で分散されてもよいことが理解されなければならない。
[0451] コンピュータ実行可能命令は、プログラムモジュールなど、1つ以上のコンピュータ又は他のデバイスによって実行される多くの形態であり得る。概して、プログラムモジュールには、特定のタスクを実施し、又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等が含まれる。典型的には、プログラムモジュールの機能は、様々な実施形態で所望のとおり組み合わされ、又は分散されてもよい。
[0452] また、データ構造は、コンピュータ可読媒体に任意の好適な形態で格納されてもよい。説明を簡単にするため、データ構造は、データ構造内での位置を通じて関係付けられるフィールドを有するように示され得る。かかる関係は、フィールド間の関係を伝えるコンピュータ可読媒体における位置を伴うフィールドにストレージを割り当てることによっても同様に達成し得る。しかしながら、ポインタ、タグ又はデータ要素間の関係を構築する他の機構を用いることを含め、任意の好適な機構を用いて、データ構造のフィールドにおける情報間の関係を構築し得る。
[0453] ソフトウェアに実装されるとき、ソフトウェアコードは、単一のコンピュータに提供されるのであれ、又は複数のコンピュータ間に提供されるのであれ、任意の好適なプロセッサ又はプロセッサの集合体上で実行されてもよい。
[0454] また、コンピュータは、1つ以上の入力及び出力デバイスを有し得る。こうしたデバイスは、とりわけ、ユーザインターフェースの提示に使用することができる。ユーザインターフェースの提供に使用し得る出力デバイスの例としては、出力の視覚的提示のためのプリンター又はディスプレイ画面及び出力の聴覚的提示のためのスピーカー又は他の音響発生デバイスが挙げられる。ユーザインターフェースに使用し得る入力デバイスの例としては、キーボード、並びにマウス、タッチパッド、及びディジタイジングタブレットなどのポインティングデバイスが挙げられる。別の例として、コンピュータは、入力情報を音声認識を通じて、又は他の可聴形式で受け取ってもよい。
[0455] かかるコンピュータは、ローカルエリアネットワーク又は広域ネットワークを含め、エンタープライズネットワーク、及びインテリジェントネットワーク(IN)又はインターネットなど、任意の好適な形式の1つ以上のネットワークによって相互接続されてもよい。かかるネットワークは、任意の好適な技術に基づいてもよく、任意の好適なプロトコルに従い動作してもよく、無線ネットワーク、有線ネットワーク又は光ファイバーネットワークを含んでもよい。
[0456] また、記載されるとおり、一部の態様は、1つ以上の方法として具現化されてもよい。本方法の一部として実施される処理は、任意の好適な方法で順番が決められてもよい。それに応じて、説明として示されるものと異なる順番で処理が実施されるような実施形態が構築されてもよく、それには、例示的実施形態では逐次的処理として示されるとしても、一部の処理を同時に実施することが含まれてもよい。
[0457] 本明細書に定義され、及び使用されるとおりの定義はいずれも、辞書的定義、参照によって援用される文書中の定義、及び/又は定義される用語の通常の意味に優先すると理解されなければならない。
[0458] 不定冠詞「ある(a)」及び「ある(an)」は、ここで本明細書及び特許請求の範囲において使用されるとき、明確にそうでない旨が指示されない限り、「少なくとも1つ」を意味すると理解されなければならない。
[0459] 語句「及び/又は」は、ここで本明細書及び特許請求の範囲において使用されるとき、そのように等位結合される要素、即ち、ある場合には接続語的に存在し、他の場合に離接語的に存在する要素の「いずれか一方又は両方」を意味すると理解されなければならない。「及び/又は」で列挙される複数の要素も同じ方式で、即ち、そのように等位結合される要素の「1つ又は複数」と解釈されなければならない。「及び/又は」節によって具体的に特定される要素以外にも、それらの具体的に特定される要素に関係があるか又は無関係かにかかわらず、他の要素が任意選択で存在してもよい。従って、非限定的な例として、「A及び/又はB」という言及は、「~を含んでいる(comprising)」などのオープンエンド形式の文言と併せて使用されるとき、一実施形態では、Aのみ(任意選択でB以外の要素を含む);別の実施形態では、Bのみ(任意選択でA以外の要素を含む);さらに別の実施形態では、A及びBの両方(任意選択で他の要素を含む)等を指し得る。
[0460] ここで本明細書及び特許請求の範囲において使用されるとき、1つ以上の要素のリストを参照した語句「少なくとも1つ」は、少なくとも1つの要素が、要素のリスト中にある要素の任意の1つ以上から選択されるが、必ずしも要素のリスト内に具体的に列挙されているありとあらゆる要素のうちの少なくとも1つを包含しなくてもよく、要素のリスト中にある要素の任意の組み合わせを除外しなくてもよいことを意味すると理解されなければならない。この定義によればまた、語句「少なくとも1つ」が言及する要素のリスト内に具体的に特定される要素以外にも、具体的に特定されるそれらの要素に関係があるか又は無関係かにかかわらず、要素が任意選択で存在してよいことも許容される。このように、非限定的な例として、「A及びBの少なくとも1つ」(又は、等価に「A又はBの少なくとも1つ」、又は、等価に「A及び/又はBの少なくとも1つ」)は、一実施形態では、少なくとも1つの、任意選択で2つ以上を含めた、Aであって、Bが存在しないもの(及び任意選択でB以外の要素を含むもの);別の実施形態において、少なくとも1つの、任意選択で2つ以上を含めた、Bであって、Aが存在しないもの(及び任意選択でA以外の要素を含むもの);さらに別の実施形態において、少なくとも1つの、任意選択で2つ以上を含めた、A、及び少なくとも1つの、任意選択で2つ以上を含めた、B(及び任意選択で他の要素を含むもの)等を指し得る。
[0461] 特許請求の範囲、並びに上記の明細書においては、「~を含んでいる(comprising)」、「~を包含している(including)」、「~を担持している(carrying)」、「~を有している(having)」、「~を含有している(containing)」、「~が関わっている(involving)」、「~を保持している(holding)」、「~から構成される(composed of)」などの移行句は全て、オープンエンド形式である、即ち、~を含むがそれに限定されないという意味であると理解されるものとする。移行句「~からなる(consisting of)」及び「~から本質的になる(consisting essentially of)」のみが、それぞれ、クローズドエンド又は半クローズドエンド移行句であるものとする。
[0462] 用語「近似的に」、「実質的に」、及び「約」は、一部の実施形態では目標値から±20%以内、一部の実施形態では目標値から±10%以内、一部の実施形態では目標値から±5%以内、一部の実施形態では目標値から±2%以内を意味して使用されてもよい。用語「近似的に」、「実質的に」、及び「約」には、目標値が含まれてもよい。

Claims (29)

  1. 癌を有する対象の生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定する方法であって、前記生体サンプルが前記腫瘍細胞と腫瘍微小環境(TME)細胞とを含み、前記方法は、
    遺伝子セットについての発現データを入手することであって、前記遺伝子セットが、前記腫瘍細胞に関連する第1の複数の遺伝子と前記腫瘍微小環境細胞に関連する第2の複数の遺伝子とを含み、前記発現データが、前記第1の複数の遺伝子中の遺伝子についての第1の総発現レベルと前記第2の複数の遺伝子中の遺伝子についての第2の総発現レベルとを含む、入手すること;
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを複数の機械学習モデルを用いて決定することであって、前記複数の機械学習モデルが、前記第1の複数の遺伝子中の第1の遺伝子についての第1の機械学習モデルを含めた前記第1の複数の遺伝子中の各遺伝子についてのそれぞれの機械学習モデルを含み、前記腫瘍発現レベルに、前記腫瘍細胞における前記第1の遺伝子についての第1の腫瘍発現レベルが含まれ、前記決定することが、
    前記第1の遺伝子についての第1の特徴セットを生成することであって、
    前記発現データを使用して、前記生体サンプルの前記腫瘍細胞における前記第1の遺伝子の初期発現レベル推定値を入手すること及び前記第1の遺伝子の前記初期発現レベル推定値を前記第1の特徴セットに含めること;
    前記第1の総発現レベルの少なくとも一部を前記第1の特徴セットに含めること;及び
    前記第2の総発現レベルの少なくとも一部を前記第1の特徴セットに含めること;
    を含む、生成すること;
    前記TME細胞における前記第1の遺伝子のTME発現レベル推定値を示すものである出力を入手するために、前記第1の特徴セットを前記第1の機械学習モデルへの入力として提供すること;及び
    前記第1の機械学習モデルの前記出力及び前記第1の総発現レベルにおける、前記第1の遺伝子についての総発現レベルを使用して、前記腫瘍細胞における前記第1の遺伝子についての前記第1の腫瘍発現レベルを決定すること
    を含む、決定すること;及び
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを出力すること
    を含む方法。
  2. 前記複数の機械学習モデルが、前記第1の複数の遺伝子中の第2の遺伝子についての第2の機械学習モデルを含み、前記腫瘍発現レベルが、前記腫瘍細胞における前記第2の遺伝子についての第2の腫瘍発現レベルを含み、前記第2の機械学習モデルが、前記第1の機械学習モデルと異なり、前記第2の遺伝子が、前記第1の遺伝子と異なり、及び
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを決定することが、
    前記第2の遺伝子についての第2の特徴セットを生成すること;
    前記TME細胞における前記第2の遺伝子のTME発現レベル推定値を示すものである出力を入手するために、前記第2の特徴セットを前記第2の機械学習モデルへの入力として提供すること;及び
    前記第2の機械学習モデルの前記出力及び前記第1の総発現レベルにおける、前記第2の遺伝子についての総発現レベルを使用して、前記腫瘍細胞における前記第2の遺伝子についての前記第2の腫瘍発現レベルを決定すること
    をさらに含む、
    請求項1に記載の方法。
  3. 前記第2の遺伝子についての前記第2の特徴セットを生成することが、
    前記発現データを使用して、前記生体サンプルの前記腫瘍細胞における前記第2の遺伝子の初期発現レベル推定値を入手すること及び前記第2の遺伝子の前記初期発現レベル推定値を前記第2の特徴セットに含めること;
    前記第1の総発現レベルの少なくとも一部を前記第2の特徴セットに含めること;及び
    前記第2の総発現レベルの少なくとも一部を前記第2の特徴セットに含めること
    を含む、請求項2又は1に記載の方法。
  4. 前記複数の機械学習モデルが、前記第1の複数の遺伝子中の第3の遺伝子についての第3の機械学習モデルを含み、前記腫瘍発現レベルが、前記腫瘍細胞における前記第3の遺伝子についての第3の腫瘍発現レベルを含み、前記第3の機械学習モデルが、前記第1の機械学習モデル及び前記第2の機械学習モデルと異なり、前記第3の遺伝子が、前記第2の遺伝子及び前記第1の遺伝子と異なり、及び
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを決定することが、
    前記第3の遺伝子についての第3の特徴セットを生成すること;
    前記TME細胞における前記第3の遺伝子のTME発現レベル推定値を含む出力を入手するために、前記第3の特徴セットを前記第3の機械学習モデルへの入力として提供すること;及び
    前記第3の機械学習モデルの前記出力及び前記第1の総発現レベルにおける、前記第3の遺伝子についての総発現レベルを使用して、前記腫瘍細胞における前記第3の遺伝子についての前記第3の腫瘍発現レベルを決定すること
    をさらに含む、
    請求項2又は1若しくは3のいずれか一項に記載の方法。
  5. 前記第1の遺伝子についての前記第1の特徴セットを生成することが、
    前記発現データを使用して、前記TMEに見られる複数の細胞タイプそれぞれについての第1の複数のRNAパーセンテージを入手することであって、前記第1の複数のRNAパーセンテージの各々が、前記第1の遺伝子に関連する及び前記生体サンプル中の前記TMEにおけるそれぞれのタイプの細胞を起源とするRNAのパーセントを示す、入手すること
    をさらに含む、請求項1又は2~4のいずれか一項に記載の方法。
  6. 前記第1の遺伝子についての前記第1の特徴セットを生成することが、前記第1の複数のRNAパーセンテージの少なくとも一部を前記第1の特徴セットに含めることをさらに含む、請求項5又は1~4のいずれか一項に記載の方法。
  7. 前記第1の複数のRNAパーセンテージを入手することが、前記発現データの少なくとも一部を少なくとも1つの非線形回帰モデルを使用して処理することを含む、請求項5又は1~4若しくは6のいずれか一項に記載の方法。
  8. 前記TME細胞が、第1のタイプのTME細胞と第2のタイプのTME細胞とを含み、
    前記発現データの前記少なくとも一部が、前記発現データの第1のサブセットと前記発現データの第2のサブセットとを含み、
    前記少なくとも1つの非線形回帰モデルは、第1の非線形回帰モデルと、前記第1の非線形回帰モデルと異なる第2の非線形回帰モデルとを含み、及び
    前記第1の複数のRNAパーセンテージを入手することは、
    前記第1のタイプの前記TME細胞についての第1のRNAパーセンテージを入手するために、前記発現データの前記第1のサブセットを前記第1の非線形回帰モデルを使用して処理すること;及び
    前記第2のタイプの前記TME細胞についての第2のRNAパーセンテージを入手するために、前記発現データの前記第2のサブセットを前記第2の非線形回帰モデルを使用して処理すること
    を含む、請求項7又は1~6のいずれか一項に記載の方法。
  9. 前記第1のタイプ及び前記第2のタイプが、各々、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、及び好中球からなる群から選択され、前記第1のタイプが前記第2のタイプと異なる、請求項8又は1~7のいずれか一項に記載の方法。
  10. 前記生体サンプルの前記腫瘍細胞における前記第1の遺伝子の前記初期発現レベル推定値を入手することが、
    前記TMEに見られる前記複数の細胞タイプの各々についての前記第1の遺伝子の平均TME発現レベルを入手すること;
    前記第1の複数のRNAパーセンテージに基づき、前記入手された発現レベルの加重和を決定すること;及び
    前記初期発現レベル推定値を入手するために、前記第1の遺伝子についての前記総発現レベルから前記加重和を減算すること
    を含む、請求項5又は1~4若しくは6~9のいずれか一項に記載の方法。
  11. 前記発現データを使用して、前記腫瘍細胞についての第1のRNAパーセンテージを入手することであって、前記第1のRNAパーセンテージが、前記第1の遺伝子に関連する及び前記生体サンプルの前記腫瘍細胞を起源とするRNAのパーセントを示す、入手することをさらに含む、請求項1又は2~10のいずれか一項に記載の方法。
  12. 前記腫瘍細胞における前記第1の遺伝子についての前記第1の腫瘍発現レベルを決定することが、
    前記第1の遺伝子についての前記総発現レベルから前記TME発現レベル推定値を減算すること;及び
    前記減算の結果を前記第1のRNAパーセンテージで除算すること
    をさらに含む、請求項11又は1~10のいずれか一項に記載の方法。
  13. 前記発現データが、少なくとも一部には、癌を有する前記対象の前記生体サンプルをシーケンシングすることによって予め入手されている、請求項1又は2~12のいずれか一項に記載の方法。
  14. 前記第1の特徴セットに含まれる前記第1の総発現レベルの前記少なくとも一部が、前記腫瘍細胞に関連する前記第1の複数の遺伝子中の少なくとも25個の遺伝子についての総発現レベルを含み、及び
    前記複数の機械学習モデルが、前記少なくとも25個の遺伝子に対応する少なくとも25個の機械学習モデルを含む、
    請求項1又は2~13のいずれか一項に記載の方法。
  15. 前記少なくとも25個の機械学習モデルの各機械学習モデルが、異なる勾配ブーストモデルを含む、請求項14又は1~13のいずれか一項に記載の方法。
  16. 前記第1の特徴セットに含まれる前記第1の総発現レベルの前記少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも10個の遺伝子についての総発現レベルを含み、表1が以下を含む、請求項1又は2~15のいずれか一項に記載の方法:
    Figure 2024517745000058
    Figure 2024517745000059
    Figure 2024517745000060
    Figure 2024517745000061
    Figure 2024517745000062
    Figure 2024517745000063
  17. 前記第1の特徴セットに含まれる前記第1の総発現レベルの前記少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも25個の遺伝子についての総発現レベルを含む、請求項1又は2~16のいずれか一項に記載の方法。
  18. 前記第1の特徴セットに含まれる前記第1の総発現レベルの前記少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも50個の遺伝子についての総発現レベルを含む、請求項1又は2~17のいずれか一項に記載の方法。
  19. 前記第1の特徴セットに含まれる前記第1の総発現レベルの前記少なくとも一部が、表1に一覧を示す遺伝子から選択される少なくとも75個の遺伝子についての総発現レベルを含む、請求項1又は2~18のいずれか一項に記載の方法。
  20. 前記複数の機械学習モデルの前記第1の機械学習モデルが、勾配ブースティングモデルである、請求項1又は2~19のいずれか一項に記載の方法。
  21. 前記第1の機械学習を、
    前記遺伝子セット中の遺伝子についての模擬発現データを含む訓練用データを入手することであって、前記訓練用データが1つ以上の生体サンプルに関連する、入手すること;
    前記訓練用データを使用して、前記第1の遺伝子についての訓練用特徴セットを生成すること;
    前記第1の遺伝子のTME発現レベルを推定するために、前記第1の機械学習モデルを訓練することであって、
    前記1つ以上の生体サンプルの前記TME細胞における前記第1の遺伝子の前記TME発現レベルの推定値を含む出力を入手するために、前記訓練用特徴セットを前記第1の機械学習モデルへの入力として提供すること;及び
    前記TME発現レベルの前記推定値を使用して前記第1の機械学習モデルのパラメータを更新すること
    を含む、訓練すること
    によって訓練することをさらに含む、請求項1又は2~20のいずれか一項に記載の方法。
  22. 前記第1の遺伝子についての前記訓練用特徴セットを生成することが、
    前記模擬発現データを使用して、前記1つ以上の生体サンプルの腫瘍細胞における前記第1の遺伝子の初期発現レベル推定値を入手すること及び前記初期発現レベル推定値を前記訓練用特徴セットに含めること;及び
    前記模擬発現レベルの少なくとも一部を前記訓練用特徴セットに含めること
    を含む、請求項21又は1~20のいずれか一項に記載の方法。
  23. 前記第1の機械学習モデルが、少なくとも一部には、模擬発現データを含む訓練用データを生成することにより訓練されたものであり、前記訓練用データを生成することが、
    1つ以上の生体サンプルの各々についての訓練用発現データを入手することであって、前記訓練用発現データが、前記第1の複数の遺伝子についての第1の訓練用発現レベルと前記第2の複数の遺伝子についての第2の訓練用発現レベルとを含む、入手すること;
    前記第1の訓練用発現レベルを使用して第1の模擬発現データを生成すること;
    前記第2の訓練用発現レベルを使用して第2の模擬発現データを生成すること;及び
    前記模擬発現データの少なくとも一部を作成するために、前記第1の模擬発現データと前記第2の模擬発現データとを組み合わせること
    を含む、請求項1又は2~22のいずれか一項に記載の方法。
  24. 前記腫瘍細胞における前記第1の遺伝子についての前記第1の腫瘍発現レベルに基づき前記対象向けの少なくとも1つの抗癌療法を同定すること、をさらに含む、請求項1又は2~23のいずれか一項に記載の方法。
  25. 前記少なくとも1つの抗癌療法を投与すること、をさらに含む、請求項24又は1~23のいずれか一項に記載の方法。
  26. 前記少なくとも1つの抗癌療法が、表3に一覧を示す前記第1の遺伝子についての療法の群から選択され、表3が、
    Figure 2024517745000064
    Figure 2024517745000065
    Figure 2024517745000066
    Figure 2024517745000067
    を含む、請求項24又は1~23若しくは25のいずれか一項に記載の方法。
  27. 前記対象向けの前記少なくとも1つの抗癌療法を同定することが、
    前記第1の腫瘍発現レベルが前記第1の遺伝子に関連する少なくとも1つの判定基準を満たすかどうかを決定すること;及び
    前記第1の腫瘍発現レベルが前記少なくとも1つの判定基準を満たすという決定後に、表3に示す前記第1の遺伝子についての療法の群から前記少なくとも1つの抗癌療法を選択すること
    を含む、請求項24又は1~23若しくは25~26のいずれか一項に記載の方法。
  28. 少なくとも1つのプロセッサ;
    前記少なくとも1つのプロセッサによる実行時に、前記少なくとも1つのプロセッサに、癌を有する対象の生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定するための方法を実施させるプロセッサ実行可能命令を格納している少なくとも1つの非一時的コンピュータ可読記憶媒体;
    を含むシステムであって、前記生体サンプルが、前記腫瘍細胞と腫瘍微小環境(TME)細胞とを含み、前記方法が、
    遺伝子セットについての発現データを入手することであって、前記遺伝子セットが、前記腫瘍細胞に関連する第1の複数の遺伝子と前記TME細胞に関連する第2の複数の遺伝子とを含み、前記発現データが、前記第1の複数の遺伝子中の遺伝子についての第1の総発現レベルと前記第2の複数の遺伝子中の遺伝子についての第2の総発現レベルとを含む、入手すること;
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを複数の機械学習モデルを用いて決定することであって、前記複数の機械学習モデルが、前記第1の複数の遺伝子中の第1の遺伝子についての第1の機械学習モデルを含めた前記第1の複数の遺伝子中の各遺伝子についてのそれぞれの機械学習モデルを含み、前記腫瘍発現レベルに、前記腫瘍細胞における前記第1の遺伝子についての第1の腫瘍発現レベルが含まれ、前記決定することが、
    前記第1の遺伝子についての第1の特徴セットを生成することであって、
    前記発現データを使用して、前記生体サンプルの前記腫瘍細胞における前記第1の遺伝子の初期発現レベル推定値を入手すること及び前記第1の遺伝子の前記初期発現レベル推定値を前記第1の特徴セットに含めること;
    前記第1の総発現レベルの少なくとも一部を前記第1の特徴セットに含めること;及び
    前記第2の総発現レベルの少なくとも一部を前記第1の特徴セットに含めること
    を含む、生成すること;
    前記TME細胞における前記第1の遺伝子のTME発現レベル推定値を示すものである出力を入手するために、前記第1の特徴セットを前記第1の機械学習モデルへの入力として提供すること;及び
    前記第1の機械学習モデルの前記出力及び前記第1の総発現レベルにおける、前記第1の遺伝子についての総発現レベルを使用して、前記腫瘍細胞における前記第1の遺伝子についての前記第1の腫瘍発現レベルを決定すること
    を含む、決定すること;及び
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを出力すること
    を含む、システム。
  29. 少なくとも1つのプロセッサによる実行時に、前記少なくとも1つのプロセッサに、癌を有する対象の生体サンプル中の腫瘍細胞における遺伝子の腫瘍発現レベルを機械学習を用いて推定するための方法を実施させるプロセッサ実行可能命令を格納している少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記生体サンプルが、前記腫瘍細胞と腫瘍微小環境(TME)細胞とを含み、前記方法は、
    遺伝子セットについての発現データを入手することであって、前記遺伝子セットが、前記腫瘍細胞に関連する第1の複数の遺伝子と前記TME細胞に関連する第2の複数の遺伝子とを含み、前記発現データが、前記第1の複数の遺伝子中の遺伝子についての第1の総発現レベルと前記第2の複数の遺伝子中の遺伝子についての第2の総発現レベルとを含む、入手すること;
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを複数の機械学習モデルを用いて決定することであって、前記複数の機械学習モデルが、前記第1の複数の遺伝子中の第1の遺伝子についての第1の機械学習モデルを含めた前記第1の複数の遺伝子中の各遺伝子についてのそれぞれの機械学習モデルを含み、前記腫瘍発現レベルに、前記腫瘍細胞における前記第1の遺伝子についての第1の腫瘍発現レベルが含まれ、前記決定することが、
    前記第1の遺伝子についての第1の特徴セットを生成することであって、
    前記発現データを使用して、前記生体サンプルの前記腫瘍細胞における前記第1の遺伝子の初期発現レベル推定値を入手すること及び前記第1の遺伝子の前記初期発現レベル推定値を前記第1の特徴セットに含めること;
    前記第1の総発現レベルの少なくとも一部を前記第1の特徴セットに含めること;及び
    前記第2の総発現レベルの少なくとも一部を前記第1の特徴セットに含めること
    を含む、生成すること;
    前記TME細胞における前記第1の遺伝子のTME発現レベル推定値を示すものである出力を入手するために、前記第1の特徴セットを前記第1の機械学習モデルへの入力として提供すること;及び
    前記第1の機械学習モデルの前記出力及び前記第1の総発現レベルにおける、前記第1の遺伝子についての総発現レベルを使用して、前記腫瘍細胞における前記第1の遺伝子についての前記第1の腫瘍発現レベルを決定すること
    を含む、決定すること;及び
    前記腫瘍細胞における前記第1の複数の遺伝子の前記腫瘍発現レベルを出力すること
    を含む、少なくとも1つの非一時的コンピュータ可読記憶媒体。
JP2023566614A 2021-04-29 2022-04-29 複合腫瘍組織における腫瘍細胞発現を推定するための機械学習技法 Pending JP2024517745A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163181365P 2021-04-29 2021-04-29
US63/181,365 2021-04-29
US202163239895P 2021-09-01 2021-09-01
US63/239,895 2021-09-01
PCT/US2022/027088 WO2022232615A1 (en) 2021-04-29 2022-04-29 Machine learning techniques for estimating tumor cell expression complex tumor tissue

Publications (1)

Publication Number Publication Date
JP2024517745A true JP2024517745A (ja) 2024-04-23

Family

ID=81750832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023566614A Pending JP2024517745A (ja) 2021-04-29 2022-04-29 複合腫瘍組織における腫瘍細胞発現を推定するための機械学習技法

Country Status (4)

Country Link
US (1) US20220372580A1 (ja)
EP (1) EP4330969A1 (ja)
JP (1) JP2024517745A (ja)
WO (1) WO2022232615A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240170096A1 (en) 2022-11-17 2024-05-23 Bostongene Corporation Rna-seq immunoprofiling of peripheral blood
WO2024182660A1 (en) 2023-03-01 2024-09-06 Bostongene Corporation Systems and methods for analyzing cytometry data
WO2024197176A1 (en) * 2023-03-22 2024-09-26 Agilent Technologies, Inc. Immunohistochemistry (ihc) ptk7 scoring protocols and methods for aiding cancer treatments

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4777127A (en) 1985-09-30 1988-10-11 Labsystems Oy Human retrovirus-related products and methods of diagnosing and treating conditions associated with said retrovirus
GB8702816D0 (en) 1987-02-07 1987-03-11 Al Sumidaie A M K Obtaining retrovirus-containing fraction
US5219740A (en) 1987-02-13 1993-06-15 Fred Hutchinson Cancer Research Center Retroviral gene transfer into diploid fibroblasts for gene therapy
US5422120A (en) 1988-05-30 1995-06-06 Depotech Corporation Heterovesicular liposomes
AP129A (en) 1988-06-03 1991-04-17 Smithkline Biologicals S A Expression of retrovirus gag protein eukaryotic cells
WO1990007936A1 (en) 1989-01-23 1990-07-26 Chiron Corporation Recombinant therapies for infection and hyperproliferative disorders
DE69034078T2 (de) 1989-03-21 2004-04-01 Vical, Inc., San Diego Expression von exogenen Polynukleotidsequenzen in Wirbeltieren
US5703055A (en) 1989-03-21 1997-12-30 Wisconsin Alumni Research Foundation Generation of antibodies through lipid mediated DNA delivery
EP1645635A3 (en) 1989-08-18 2010-07-07 Oxford Biomedica (UK) Limited Replication defective recombinant retroviruses expressing a palliative
US5585362A (en) 1989-08-22 1996-12-17 The Regents Of The University Of Michigan Adenovirus vectors for gene therapy
NZ237464A (en) 1990-03-21 1995-02-24 Depotech Corp Liposomes with at least two separate chambers encapsulating two separate biologically active substances
DE69233013T2 (de) 1991-08-20 2004-03-04 The Government Of The United States Of America As Represented By The Secretary Of National Institute Of Health, Office Of Technology Transfer Adenovirus vermittelter gentransfer in den gastrointestinaltrakt
WO1993010218A1 (en) 1991-11-14 1993-05-27 The United States Government As Represented By The Secretary Of The Department Of Health And Human Services Vectors including foreign genes and negative selective markers
GB9125623D0 (en) 1991-12-02 1992-01-29 Dynal As Cell modification
FR2688514A1 (fr) 1992-03-16 1993-09-17 Centre Nat Rech Scient Adenovirus recombinants defectifs exprimant des cytokines et medicaments antitumoraux les contenant.
JPH07507689A (ja) 1992-06-08 1995-08-31 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 特定組織のターゲティング方法及び組成物
EP0644946A4 (en) 1992-06-10 1997-03-12 Us Health VECTOR PARTICLES RESISTANT TO HUMAN SERUM INACTIVATION.
GB2269175A (en) 1992-07-31 1994-02-02 Imperial College Retroviral vectors
WO1994012649A2 (en) 1992-12-03 1994-06-09 Genzyme Corporation Gene therapy for cystic fibrosis
US5981568A (en) 1993-01-28 1999-11-09 Neorx Corporation Therapeutic inhibitor of vascular smooth muscle cells
DK0695169T3 (da) 1993-04-22 2003-03-17 Skyepharma Inc Multivesikulære liposomer med indkapslet cyclodextrin og farmakologisk aktive forbindelser samt fremgangsmåder til anvendelse af disse
CA2166118C (en) 1993-06-24 2007-04-17 Frank L. Graham Adenovirus vectors for gene therapy
DE69435224D1 (de) 1993-09-15 2009-09-10 Novartis Vaccines & Diagnostic Rekombinante Alphavirus-Vektoren
US6015686A (en) 1993-09-15 2000-01-18 Chiron Viagene, Inc. Eukaryotic layered vector initiation systems
PT797676E (pt) 1993-10-25 2006-05-31 Canji Inc Vector adenoviral recombinante e metodos de utilizacao
RU2160093C2 (ru) 1993-11-16 2000-12-10 Скайефарма Инк. Везикулы с регулируемым высвобождением активных ингредиентов
CA2158977A1 (en) 1994-05-09 1995-11-10 James G. Respess Retroviral vectors having a reduced recombination rate
AU4594996A (en) 1994-11-30 1996-06-19 Chiron Viagene, Inc. Recombinant alphavirus vectors
WO1997042338A1 (en) 1996-05-06 1997-11-13 Chiron Corporation Crossless retroviral vectors
AU3734900A (en) 1999-03-09 2000-09-28 University Of Southern California Method of promoting myocyte proliferation and myocardial tissue repair
AU2019417836A1 (en) * 2018-12-31 2021-07-15 Tempus Ai, Inc. Transcriptome deconvolution of metastatic tissue samples
EP4118657B1 (en) 2020-03-12 2024-05-01 BostonGene Corporation Systems and methods for deconvolution of expression data

Also Published As

Publication number Publication date
US20220372580A1 (en) 2022-11-24
WO2022232615A1 (en) 2022-11-03
WO2022232615A9 (en) 2022-12-15
EP4330969A1 (en) 2024-03-06
WO2022232615A8 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
JP7401710B2 (ja) 正規化バイオマーカースコアからがん治療を特定するためのシステム及び方法
US11260078B2 (en) Method of treating senescence with multi-stage longevity therapeutics
JP2024517745A (ja) 複合腫瘍組織における腫瘍細胞発現を推定するための機械学習技法
CN104634972B (zh) 抗cxcr1组合物和方法
Sengupta et al. Mesenchymal and adrenergic cell lineage states in neuroblastoma possess distinct immunogenic phenotypes
US20220319638A1 (en) Predicting response to treatments in patients with clear cell renal cell carcinoma
WO2022120256A2 (en) Hierarchical machine learning techniques for identifying molecular categories from expression data
US20240067970A1 (en) Methods to Quantify Rate of Clonal Expansion and Methods for Treating Clonal Hematopoiesis and Hematologic Malignancies
US20230245479A1 (en) Machine learning techniques for cytometry
US20230290440A1 (en) Urothelial tumor microenvironment (tme) types
US20240029884A1 (en) Techniques for detecting homologous recombination deficiency (hrd)
Kim Dissection of Macrophage Diversity in Hepatocellular Carcinoma Elucidates Molecular Correlates to aPD-1 Response
WO2022245979A1 (en) Techniques for single sample expression projection to an expression cohort sequenced with another protocol
Islam Precision medicine in four deadliest Cancers of the world: present practices & future prospects
CA3236872A1 (en) Tumor microenvironment types in breast cancer
CN118660974A (zh) 细胞游离dna的单分子全基因组突变谱和片段谱
WO2023178290A1 (en) Use of combined cd274 copy number changes and tmb to predict response to immunotherapies