JP2023553050A - 信号 - Google Patents

信号 Download PDF

Info

Publication number
JP2023553050A
JP2023553050A JP2023534364A JP2023534364A JP2023553050A JP 2023553050 A JP2023553050 A JP 2023553050A JP 2023534364 A JP2023534364 A JP 2023534364A JP 2023534364 A JP2023534364 A JP 2023534364A JP 2023553050 A JP2023553050 A JP 2023553050A
Authority
JP
Japan
Prior art keywords
signature
matrix
sample data
fragment
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023534364A
Other languages
English (en)
Inventor
ドゥーヴィル クリストファー
グラント ヘイリー
クオ アルバート
ラハウエル カーメル
ダブリュ キンズラー ケネス
パパドプーロス ニコラス
トマセッティ クリスチャン
フォーゲルシュタイン バート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Johns Hopkins University
Original Assignee
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Johns Hopkins University filed Critical Johns Hopkins University
Publication of JP2023553050A publication Critical patent/JP2023553050A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

非負値行列因子分解を用いて、データを分類する方法は次のステップを含み得る:試料データの母集団を受け付けるステップと、試料データ毎のアンプリコン計数についての第1の行列を生成するステップと、第1の行列を第2の行列と第3の行列との積に分解するステップと、第2の行列に関して各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、第3の行列に関して試料データ毎に各シグネチャの強度を決定するステップと、各シグネチャの強度に基づいて試料データを分類するステップ。母集団は、試料データ毎のアンプリコン計数を含み得る。第2の行列は短DNA断片及び長DNA断片についてのシグネチャを含み得るのであり、また、第3の行列は短DNA断片及び長DNA断片についての各シグネチャの強度を含み得る。

Description

本開示はデータ分類に関する装置、システム、及び方法について説明する。特に、本開示は、早期の癌発見及び前癌病巣の発見のためのアンプリコンベースドシーケンシングデータの分類に関する。
本願は、2020年12月14日に出願された米国特許出願第63/125,171号の利益を主張する。先行出願の開示の全体が参照によって取り込まれる。
試料又は患者における癌の早期発見は、癌の研究及び治療に役立ち得る。
本開示は、アンプリコンベースドシーケンシングデータを分類して、正常な試料から癌試料を識別することに一般的に関する。DNA断片長からシグネチャを生成でき、癌分類を決定できる。開示の手法は、腸内の腺腫性ポリープ及び/又は進行腺腫及び/又は他の前癌腫瘍の発見にも適用し得る。換言するに、開示の手法は、癌分類だけではなく、前癌病巣(例えば、ポリープ、結節等)の発見及び、手術後の癌再発を監視及び/又は早期発見するためにも用いられ得る。
開示された発明的概念は添付の特許請求の範囲にて画定されたものを含むも、発明的概念は後述の実施形態に沿うようにも画定され得ることに留意されたい。
実施形態1は非負値行列因子分解(non-negative matrix factorization)を用いて、データを分類する方法であって、前記方法は:試料データの母集団を受け付けるステップであって前記母集団は試料データ毎のアンプリコン計数(count)を含むステップと、試料データ毎の前記アンプリコン計数についての第1の行列を生成するステップと、前記第1の行列を第2の行列と第3の行列との積に分解するステップであって、前記第2の行列は短DNA断片及び長DNA断片についてのシグネチャでありまた前記第3の行列は前記短DNA断片及び前記長DNA断片についての各シグネチャの強度であるステップと、前記第2の行列に関して各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、前記第3の行列に関して前記試料データ毎に各シグネチャの強度を決定するステップと、各シグネチャの前記強度に基づいて前記試料データを分類するステップと、を含む。
実施形態2は、実施形態1に記載の方法において、前記アンプリコン計数を正規化するステップをさらに含む方法である。
実施形態3は、実施形態1~2のいずれか1つに記載の方法において、前記アンプリコン計数をフィルタリングするステップをさらに含む方法である。
実施形態4は、実施形態1~3のいずれか1つに記載の方法において、前記シグネチャは前記短断片の大きさを示す第1のシグネチャと前記長断片の大きさを示す第2のシグネチャとを含む方法である。
実施形態5は、実施形態1~4のいずれか1つに記載の方法において、前記短断片の大きさは癌を示す方法である。
実施形態6は、実施形態1~5のいずれか1つに記載の方法において、前記長断片の大きさは正常を示す方法である。
実施形態7は、実施形態1~6のいずれか1つに記載の方法において、前記第1のシグネチャについてより高い強度を有する試料データに分類値1を割り当てるステップをさらに含む方法である。
実施形態8は、実施形態1~7のいずれか1つに記載の方法において、前記第2のシグネチャについてより高い強度を有する試料データに分類値0を割り当てるステップをさらに含む方法である。
実施形態9は、実施形態1~8のいずれか1つに記載の方法において、各試料データ毎の各シグネチャの前記強度に非負最小二乗関数を適用するステップをさらに含む方法である。
実施形態10は、実施形態1~9のいずれか1つに記載の方法において、各試料データ毎の各シグネチャの前記強度に線形回帰分析を適用するステップさらに含む方法である。
実施形態11は、実施形態1~10のいずれか1つに記載の方法において、前記試料データを分類するステップは深層学習モデルを適用することを含む方法である。
実施形態12は、実施形態1~11のいずれか1つに記載の方法において、前記試料データを分類するステップは状態ベクトルマシン(state vector machine)を適用することを含む方法である。
実施形態13は、実施形態1~12のいずれか1つに記載の方法において、各試料データは染色体腕である、方法である。
実施形態14は、実施形態1~13のいずれか1つに記載の方法において、各試料データはシーケンシング済みDNA試料である、方法である。
実施形態15は、実施形態1~14のいずれか1つに記載の方法において、前記方法において適用される1つ以上のアルゴリズムを反復的に改良するステップをさらに含む方法である。
実施形態16は、実施形態1~15のいずれか1つに記載の方法において、短断片の大きさは臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも1つを示す、方法である。
実施形態17は、1つ以上のコンピュータと1つ以上のプロセッサと命令が格納されたコンピュータメモリとを備えるシステムであって、前記命令が前記プロセッサによって実行されると前記プロセッサに請求項1~16のいずれか1つに記載の方法を行わせる、システムである。
本明細書にて説明する装置、システム、及び手法は1つ以上の後述の利点をもたらし得る。例えば、開示の実施形態は、癌検診を支援したり、試料又は試料の母集団に関して癌の早期発見を支援したりできる。このような発見は、異なる試料及び試料母集団の間での癌研究に改善をもたらし得るという点で有益たり得る。
別の例を挙げるに、開示の実施形態は解釈可能な結果をもたらし得る。ラボ技師又は専門家は、母集団内の試料又は患者毎に、正常又は癌の分類を示す解読容易且つ理解容易な値を受け取ることができる。例えば、癌と分類された試料はバイナリ値としての1を与えられることができ、他方で、正常と分類された試料はバイナリ値としての0を与えられることができる。これらのバイナリ値は、ラボ技師又は専門家によってより容易に解読及び解釈され得る。よって、ラボ技師又は専門家は、癌と分類された試料に対して、より効果的且つ迅速に対処できる。
さらなる別の例について述べるに、開示の実施形態は、癌の状態を検出するための既存の方法論よりも正確な性能をもたらし得る。癌を検出するのに用いられるアルゴリズム及びモデルを継続的に訓練することによって、後続の臨床試験においてより正確且つ迅速な癌分類がもたらされ得る。その結果、癌をより早く発見することができ、それ故に試料又は患者に対してより早く対処できる。
1つ以上の実施形態の詳細は、添付の図面及び以下の詳細な説明にて示してある。他の特徴及び長所は詳細な説明及び図面並びに特許請求の範囲から明らかなこととなるであろう。
シーケンシングデータを分類するためのシステムについての概略図である。 シーケンシングデータにおいて癌状態を分類するための処理についての流れ図である。 図1のシステムのシステムコンポーネントについての図である。 シーケンシングデータを分類するための処理についての流れ図である。 図5A~5Eは、図4の処理についての非負値行列因子分解について説明する図である。 開示される手法を用いてなされる分類済みシーケンシングデータについてのグラフィカルな表現を示す図である。 図4の非負値行列因子分解の処理についての流れ図である。 lassoロジスティック回帰を伴って訓練データをフィルタリングするための代替的処理について説明する図である。 弾性ネット回帰(elastic net regression)を伴っておりフィルタリング済み訓練データを用いて分類器を訓練する代替的処理について示す図である。 開示の手法を用いた例としての盲検法的症例対象研究からの結果についてのグラフィカルな描写についての図である。 開示の手法を適用して試料の複製をする際のグラフィカルな描写についての図である。 コンピューティング装置及びモバイル型コンピューティング装置の例について示す概略図である。
様々な図面における同様の参照符合は同様の要素を示す。
本開示は、アンプリコンベースドシーケンシングデータを分類して、正常な試料から癌試料を識別することに一般的に関する。アンプリコンベースドシーケンシングデータについては正規化、フィルタリング、及び分類をなして、癌状態を決定できる。例えば、染色体腕又は他のDNA試料内のアンプリコンについては、大きさ又は他の因子に基づいて除外をなし得る。そして、(例えば、lassoロジスティック回帰を用いての予測アルゴリズムを施すために)アンプリコンに対してフィルタリングをなし得る。フィルタリングされたらば、各染色体腕の短断片及び長断片についてシグネチャを決定できる。これらシグネチャについて強度を決定できる。短断片に関して高強度を伴う染色体腕は癌を示すものとされ得る一方、長断片に関して高強度を伴う染色体腕は正常状態(例えば、非癌)を示すものとされ得る。癌状態又は正常状態についての分類は、ラボの専門家、技師、又は他のタイプの専門家に寄る閲覧及び/又は使用のために装置へと出力されることができる。開示の手法は、腸内の腺腫性ポリープ及び/又は進行腺腫及び/又は他の前癌腫瘍の発見にも適用し得る。換言するに、開示の手法は、癌分類だけではなく、前癌病巣(例えば、ポリープ、結節等)の発見及び、手術後の癌再発を監視及び/又は早期発見するためにも用いられ得る。
図面を参照するに、図1はシーケンシングデータを分類するためのシステム100についての概略図である。ユーザコンピューティング装置101と、シーケンシングシステム102と、コンピュータシステム104とが、ネットワーク103を介して(例えば、有線又は無線で)通信可能とされていることができる。ラボの技師、専門家、又は他のタイプの専門家は、ユーザコンピューティング装置101を用い得る。ラボ技師は、DNA試料106をユーザコンピューティング装置101に読み込むことができる。DNA試料106は、シーケンシングシステム102へと伝達又は移されることができる。シーケンシングシステム102は、DNA試料をシーケンシングできる(A)。そして、シーケンシング済みDNA試料108は、コンピュータシステム104へと移されることができる。シーケンシング済みDNA試料108は、一人の患者又は1つの試料について1つの染色体腕とされ得る。他の実施形態では、シーケンシングシステム102は、シーケンシング済みDNA試料の母集団(例えば、母集団内の患者又は試料毎に1つの染色体腕)をコンピュータシステム104へと送ることができる。
コンピュータシステム104は、シーケンシング済みDNA試料108を分類するように構成されていることができる。シーケンシング済みDNA試料108を分類することは、試料108について癌状態を識別すること含み得る。コンピュータシステム104は、試料108のアンプリコンを正規化できる(B)。コンピュータシステム104は、試料108のアンプリコンをフィルタリングすることもできる(C)。アンプリコンに対しての正規化及びフィルタリングは、任意の順序で及び/又は同時的になされ得る。一部の実施形態では、コンピュータシステム104は、アンプリコンを正規化及び(and)フィルタリングするのではなく、アンプリコンを正規化又は(or)フィルタリングすることができる。
試料108のアンプリコンに対して正規化及び/又はフィルタリングがなされると(B,C)、コンピュータシステム104は、試料108の短断片及び長断片(short and long fragments)について(例えば、各染色体腕についての)シグネチャを定義することができる(D)。試料108の短断片又は長断片(short or long fragments)についてのシグネチャの強度に基づいて、コンピュータシステム104は、試料108についての癌統計を決定できる(E)。例えば、本開示にて説明するように、短断片についてより強度が高いと、その試料108に対して癌が関連付けられていることが示され得る。他方で、長断片についてより強度が高いと、試料108が正常であること(例えば、癌状態がないこと)が示され得る。
コンピュータシステム104は、自己の予測アルゴリズムを訓練することができる。(F)。例えば、正規化及びフィルタリングアルゴリズム又は手法は、反復的に改良され得る(B,C)。短断片及び長断片を定義するのに用いられるアルゴリズム又は手法(D)に対して反復的に改良していくことができ、将来の分類の際においてコンピュータシステム104がより正確に短断片及び長断片について識別できるようにし得る。また、短断片及び長断片の強度に基づいて癌状態を決定するのに用いられるアルゴリズム又は手法(E)に対しては、分類履歴に基づいて反復的に改良することができ、将来の分類の際においてより正確な癌状態決定を提供できる。
決定された癌状態は、DNA試料癌状態110として出力されることができる(G)。例えば、コンピュータシステム104は、DNA試料癌状態110を、ユーザコンピューティング装置101へと送信できる。そして、ユーザコンピューティング装置101は、状態110をラボ技師に表示できる。
一部の実施形態では、ユーザコンピューティング装置101、シーケンシングシステム102、及び/又はコンピュータシステム104は、1つの集中型コンピューティングシステムとされ得る。他の実施形態では、ユーザコンピューティング装置101、シーケンシングシステム102、及び/又はコンピュータシステム104の1つ以上は、ネットワーク103を介して通信する別個のコンピューティングシステムとされ得る。
図2は、シーケンシングデータにおいて癌状態を分類するための処理400についての流れ図である。処理400は、本明細書にて説明されるコンピュータシステム(例えば、図1のコンピュータシステム104を参照)及び/又は任意の他のコンピュータシステムによってなされ得る。
シーケンシング済みDNAをS402にて受け付け得る。本明細書にて説明されているように、当該シーケンシング済みDNAは母集団内の患者又は試料毎に1つの染色体腕とされ得る。各染色体腕についてのアンプリコン計数は、S404にて正規化され得る。例えば、上述のように、S406にてアンプリコンを除外できる。
S408では、アンプリコンがフィルタリングされ得る。例えば、S410では、染色体に基づいて正規化アンプリコン計数を分離できる。S412では、染色体毎に癌状態を予測できる。さらに、S414では、これらのフィルタリング済みアンプリコンを1つのセット内に組み合わせることができる。
S404でのアンプリコンの正規化及び/又はS408でのアンプリコンのフィルタリングは、正常試料を訓練セットにて用いてスリーウェイANOVA(3 way ANOVA)を行うことを伴い得るのであり、ここでの因子はプライマーロット、コホート、及びraceとされる。各個別の因子と関連付けられているp値を識別して用いて、これら3つの因子のいずれかにおける0.01未満の対応するp値を有する任意のアンプリコンを除外できる。追加的に又は代替的には、アンプリコンに関しては、(非正規化)計数(例えば、そのアンプリコンについてのリード数)と対応する染色体内の全アンプリコンに亘っての総リード数との間の相関関係が0.8未満である場合には、除外し得る。追加的に又は代替的には、コンピュータシステムは、長さが81以上であり癌よりも正常案件の正規化平均計数が多いアンプリコン、並びに、長さが81以下であり正常より癌案件の正規化平均計数が多いアンプリコンのみを保持できる。
S416では癌状態を分類できる。癌状態の分類は、各染色体に加えて各染色体腕についても行われ得る。分類の基礎となっている基本的メトリックは正規化アンプリコン計数であり、アンプリコンiについてのリード数を対応する染色体腕内における全アンプリコンに亘っての総リード数で除したものとして定義される。代替的に、1つの染色体又は全染色体の全アンプリコンに亘っての総リード数を用いることも可能である。
S416にて癌状態を分類することには、ロジスティック回帰又はガウスカーネルSVM等の1つ以上の分類器を適用することを含み得る。
S416にて癌状態が決定されると、コンピュータシステムは、S418にて随意的に予測モデル及び/又はアルゴリズムを訓練できる。そのようなモデル及び/又はアルゴリズムを訓練することは、上述のように正規化すること、フィルタリングすること、及び癌状態について分類することに関してのコンピュータシステムの正確性を向上させることに関して有益となり得る。
染色体毎の及び/又は染色体腕毎の決定済み癌状態は、S420にて出力できる。癌状態を出力することは、ラボ技師に解釈可能な結果を与えるという点で利点となり得る。
図3は、図1のシステム100のシステムコンポーネントについての図である。上述のように、システム100は、ユーザコンピューティング装置101と、シーケンシングシステム102と、コンピュータシステム104とを含み、これらはネットワーク103を介して通信できる。
ユーザコンピューティング装置101は、ラボ技師等のユーザに表示装置と入力装置と出力装置とを提供できる。ユーザは、DNAシーケンシングデータ524をユーザコンピューティング装置101に提供でき、該装置はデータ524をシーケンシングシステム102及び/又はコンピュータシステム104へと送信できる。
シーケンシングシステム102は、DNAシーケンシングモジュール514とネットワークインタフェース516とを含み得る。シーケンシングシステム102の1つ以上のプロセッサは、モジュール514内のデータをシーケンシングする524等のオペレーションを行うように構成されることができる。ネットワークインタフェース516は、システム100の1つ以上のコンポーネント間での通信を可能とできる。
コンピュータシステム104は、正規化エンジン502と、分類エンジン504と、フィルタリングモジュール(module)506と、癌状態予測器508と、訓練モデル(model)510と、ネットワークインタフェース512とを含み得る。コンピュータシステム104のこれらのコンポーネントの1つ以上は、組み合わせることができ及び/又はシステム104から取り除く(remove)ことができる。
正規化エンジン502は、データを正規化するように構成されていることができる。例えば、コンピュータシステム104は、シーケンシング済みDNAをシーケンシングシステム102から受信できる。そして、正規化エンジン502は、シーケンシング済みDNAのアンプリコンを正規化(例えば、除外(exclude))できる。
フィルタリングモジュール506は、本明細書で記載されるように正規化アンプリコンをフィルタリングするように構成されていることができる。正規化エンジン502及びフィルタリングモジュール506は、一部の実装例では同じエンジンとされ得る。
癌状態予測器508は、本明細書で記載されるように非負値行列因子分解を行うように構成されることができる。予測器508は、行列を生成し、短断片及び長断片についてのシグネチャを識別し、及びDNA試料毎にシグネチャ強度を決定できる。
そして、分類エンジン504は、シグネチャ強度の分析に基づいて、各DNA試料を癌又は正常と分類できる。分類エンジン504は、本明細書で記載されるようにSVM及び/又はLASSO回帰とし得る。
訓練モデル510は、正規化、フィルタリング、癌状態予測、及び分類をなすためにシステム104によって用いられるアルゴリズム及び/又はモデルに対して訓練及び/又は改良を施すように構成されていることができる。その結果、コンピュータシステム104によって実装されるアルゴリズム及び/又はモデルは、連続的に改良できるのであり、コンピュータシステム104が将来の分類の際にはより正確に癌状態を予測できるようになり得る。
ネットワークインタフェース512は、コンピュータシステム104とシステム100の1つ以上の他のコンポーネントとの間での通信を可能とし得る。
コンピュータシステム104は、予測モデルデータベース518と通信可能とされていることができる。データベース518は、染色体1~22についての予測モデル520A-N及び最終予測モデル522を格納するように構成されることができる。例えば、染色体予測モデル520A-Nは、各個別の染色体内の癌状態について分類又は識別をなすために用い得る。最終予測モデル522は、特定の試料についての総合的癌状態を識別するために用いられ得る。本明細書で記載されるように、癌状態予測器508は染色体予測モデル520A-Nを用いるように構成されていることができ、分類エンジン504は最終予測モデル522を用いるように構成されていることができ、これは癌状態予測器508によって決定された染色体毎の癌状態に基づいていることができる。さらに、モデル520A-N及び522は、訓練モデル510によって経時的に更新及び/又は変更されることができる。これらのモデル520A-N及び522は染色体及び試料内の癌状態をより正確に予測できるように改良されることができる。
図4は、シーケンシングデータを分類するための処理600についての流れ図である。処理600は、本明細書で記載されるようにコンピュータシステムによってなされ得る。図5A~5Eは、図4の処理600についての非負値行列因子分解について説明する図である。図4~5を参照するに、S602では、DNA試料からのアンプリコンについてフィルタリング及び正規化をなし得る。
S604では、非負値行列因子分解をなし得る(例えば、図5A~5Eを参照)。例えば、1つの染色体を決め得る。MTrainNormalは正常訓練行列として定義でき、各列は1つの個別事項とでき、各行は1つのアンプリコンとできる。したがって、項目たるMTrainNormal ijについては、個別事項j内のアンプリコンiについての正規化計数とすることができる。MTrainCancer、MTestNormal及びMTestCancer等の他の行列についても同様とし得る。最後に、MTrainは、全ての訓練データをクラス不問で連結できる行列(例えば、図5A~5Eの行列700)として次のように定義できる:
そして、非負値行列因子分解(NMF)分解は、Mについて計算され得る(例えば、図5A~5Eの行列702,704を参照):
WTrain(例えば、図5A~5Eの行列702)の各列の合計が1となるものと仮定できる。WTrain内の各列は、アンプリコン上での分布を定義でき、また、1つの因子(例えば、シグネチャ、特徴等)へ次のように関連付けられることができる。分布は、長さに関する分布をもたらし得るのであり、平均長がこれに関連付けられていることができる。これらの平均を用いて、短因子、長因子、及び中立因子を定義できる。短因子は、関連付けられている平均長が平均の1/3分位点未満とされ得る因子にあたる。長因子は、関連付けられている平均長が平均の2/3分位点超過とされ得る因子にあたる。中立因子は、任意の残りの因子とされ得る。
因子は、短断片及び長断片についてのシグネチャである。HTrain(例えば、図5A~5Eの行列704)の各行も1つの因子に関連付けられていることができる。因子は、短断片及び長断片についてのシグネチャである。
WTrainについては格納され得る及び/又は決められ得るのであり、他方でHTrainの各列については再計算をなし得る(例えば、HTrainの各列は1つ個別事項/患者/試料に対応し、また、その個別事項/患者/試料の特徴ベクトル(features vector)を表す)。
検査セットたるHTestの特徴行列(features matrix)を計算するために、S606では、非負最小二乗(NNLS、non-negative least squares)回帰をなし得る:
各試料についてNNLSを用いて取得した全ての因子(例えば、シグネチャ)の強度を、その試料の癌状態と組み合わせて用いて、分類器を訓練することによって試料が正常又は癌であると分類することができる。これはサポートベクトルマシン(SVM、support vector machine)又はロジスティック回帰等の分類器を訓練することによってなせる。
SVMは、関連付けられた学習アルゴリズムを有する教師あり学習モデルとして用いられ得る。したがって、SVMは例えばDNA試料等のデータの分析に有益であって、癌又は正常(cancer or normal)に関して示すようにそのデータをより正確に分類できる。ガウスカーネルSVMは、制約なく全ての特徴を用いることができる。別の例として、ガウスカーネルSVMは次のような追加制約を伴って用い得る:コンピュータシステムは短因子のみを保持でき、正常案件における中央値(median)は癌案件における中央値よりも低いとされるとき。追加制約は、コンピュータシステムが長因子のみを保持するようにも要求でき、正常案件における中央値が癌案件における中央値よりも高いとされることができる。全ての中立因子を保持することもできる。
ロジスティック回帰は、DNA試料を正常又は癌(normal or cancer)と分類するために、S610にて追加的に又は代替的に用いられ得る。ロジスティック回帰では、長断片(例えば、因子)と関連付けられている係数が負とされ得る。短断片と関連付けられている係数は正とされ得る。中立断片と関連付けられている係数は正負記号の制約を伴わないものとされ得る。
短因子及び長因子のみが定義されている例では、中立因子は無いことになる。短因子は、関連付けられている平均長(associated mean length)が因子に関連付けられている平均長の中央値(median of mean lengths associated to the factors)より少ない(less)因子とされ得る。長因子は、関連付けられている平均長(associated mean length)が平均の中央値(median of the means)よりも大きい(larger)因子とされ得る。そうすると、ロジスティック回帰分類器は、長因子に関連付けられている係数が負であり且つ短因子に関連付けられている係数が正である場合に、用いられ得る。追加的な又は代替的な分類器は制約なく全因子(短因子及び長因子のみ)を用いるガウスカーネルSVMとされ得る。追加的な又は代替的な分類器としてはガウスカーネルSVMが挙げられ、これに関しては、正常案件についての中央値が癌案件についての中央値より低い(lower)場合に短因子のみが保持され、正常案件についての中央値が癌案件についての中央値より高い(higher)場合に長因子のみが保持される。
また、一部の実施形態では、より安定的な(正常対癌)分類を得るために、データについての訓練セットは二部に分割できる。第1の部分はWTrain行列を計算するために用いることができ、これはWTrain 1と表記できる。そして、訓練セットの全体について行列HTrainを計算するために非負最小二乗回帰をWTrainに適用できる。そして、WTrain 1を用いることによってHTestを計算できる。特徴が識別されたらば、コンピュータシステムは分類方法(例えば、S610のSVM)を適用して第1のスコアを得ることができる。この処理は、データの訓練セットの第2の部分を用いて行列WTrain 2を計算することによって反復できる。第2のスコアを生成できる。2つのスコアをFisher法を用いて組み合わせることができる。
また、一部の実施形態では、アンプリコンについての追加的フィルタリングを行い得る。全ての染色体について、コンピュータシステムは、アンプリコンについての正規化計数を取って、ロジスティックLASSO分類器に投入できるのであり、制約としては、LASSOの係数は、大きさが>81であるアンプリコンについては負とされ、また、大きさが<81であるアンプリコンについては正とされる。随所で述べているように、より短い又はより小さい大きさ(サイズ)のアンプリコンは、癌を示す。大きさが=81であるアンプリコンの係数の正負符合はフリー状態のままにされ得る(例えば、これらは中立な因子、断片、又は特徴である)。LASSOモデルによって選択されたアンプリコンが、後述のステップのために残されるものとされ得る。次に、全ての染色体について、フィルタリング済みのアンプリコンセットは確率推定のために用いられ得る:P(リーディング断片 | 断片長 = L)。また、前の確率に比例する量は推定可能である。前の確率は次式に比例し得る:
確率P(リーディング断片 | 断片長 = L)は、長さがLのアンプリコンの比率から推定され得る。確率P(断片長 = L | リーディング断片)は、長さがLのフィルタリング済みアンプリコンの正規化リードの合計によって推定可能である。
最後に、全ての推定された確率P(リーディング断片 | 断片長 = L)を全てのあり得る長さ及び全ての染色体について用いて、それらを弾性ネット分類器に投入すると、L<81のとき(例えば、癌を示すとき)には係数に対して正を課すことができ、L>81のとき(例えば、正常を示すとき)には係数に対して負を課すことができる。
図5A~Eは、図4の処理600についての非負値行列因子分解について説明する図である。図4を参照して上述されており且つ図5Aにて示されているように、行列700は試料の母集団を表し得る。異なるアンプリコンについての標準分布を識別でき、そして行列700内に表された任意の1つの試料がより長い断片又はより短い断片(longer fragments or shorter fragments)についてより高い数値又は強度を伴っているかを決定できる。行列700内のC11、C12、C13、及びCN等の各試料は正規化アンプリコン計数を有することができる。正規化アンプリコン計数は、1つのアンプリコンのUID個数を1つの染色体腕内の全アンプリコンのUID総数で除したものとされ得る。行列700は、2つの行列702,704の積に分解できる。両方の行列702,704は、負の要素を有さないものとされ得る。
図5Bにて示されているように且つ図4を参照して上述されているように、短断片及び長断片(short fragments and long fragments)についてシグネチャを生成できる。シグネチャは行列702内にて表され得る。シグネチャ1は短断片を表し得る。シグネチャ2は長断片を表し得る。
図5Cに示されているように、各シグネチャは確率値を有し得る。行列702内のシグネチャ毎に各アンプリコンについてウェイトを割り当てることができる。換言するに、シグネチャには重み付けがなされている及び/又は正規化がなされていることができる。シグネチャ1(短断片)についての例示的なウェイトは、W11、W21、W31、及びW41を含む。行列701内のシグネチャのウェイトは合計されて1をもたらし得るのであり、これは式706にて示される通りである。
図5Dは行列704を説明するものであり、行列704は、母集団の特定の試料についてシグネチャがどの程度の強度を有するかを決定するために用い得る。行列704内の第1の行がシグネチャ1(短断片)を表し得るのであり、また、行列704内の第2の行がシグネチャ2(長断片)を表し得る。例えば、試料2がシグネチャ1についての強いH12を有する場合、これは患者が短断片を有していること(即ち、癌)を表し得る。他方、試料2がシグネチャ2についての強いH22を有する場合、これは患者が長断片を有していること(即ち、正常)を表し得る。試料毎の短断片及び長断片の相対強度を決定して、試料が短断片又は長断片のどちらをより有しているかを識別できる。よって、シグネチャ1についてのより高い強度は、試料がより短い断片を有しており、癌が示され得ることになる。これによって、試料毎の各シグネチャの強度が本開示の随所で示されている様なSVM又は他の分類器に投入されると、癌状態についてのより高信頼且つ正確な分類をもたらし得る。
図5Eは、試料C12についての分類を決定するための式708について示す。図5A~Dを参照して説明されているように、試料についての分類は、第1のシグネチャのウェイトをその第1のシグネチャの強度で乗じたものを、第2のシグネチャのウェイトをその第2のシグネチャの強度で乗じたものに加えたものによることができる。換言するに、C12 = W11 * H12 + W12 * H22 である。結果として得られた数値は、試料C12が主として短断片を有するか(これは癌を示す)、又は主として長断片を有するか(これは正常を示す)を示すために用いられ得る。
図6は、開示される手法を用いてなされる分類済みシーケンシングデータについてのグラフィカルな表現を示す図である。グラフ800,802,804では、線806が癌を表し、線808が正常を表す。グラフ800に示されているように、より少ない断片がより短く、また、同等ゲノムのたった10%がより短い断片を有する場合、癌案件の線806は正常案件の線808により近い。より断片化した同等ゲノムの比率が20%に増すと、グラフ802に示されているように癌案件の線806はより明確になりまた正常案件の線808からより遠くなる。最後に、グラフ804では、より断片化した同等ゲノムの比率が30%に増したとき、癌案件の線806は明らかにより明確になりまた正常案件の線808からより遠くなる。したがって、グラフ800,802,804は、より多くのDNA試料が用いられると、癌に関しての区別、検出、及び識別に関して正確性がより高まることを示す。
図7は、図4の非負値行列因子分解の処理900についての流れ図である。図4~5を参照して上述されているように、正規化アンプリコン計数を試料毎に行列でS902にて受け付けることができる。行列は、S904では、2つの行列の積に分解できる。各シグネチャは、S906にて第1の行列内で短い又は長いとして分類されることができる。そして、S908にて第2の行列内で試料毎の各シグネチャの強度を決定できる。そして、S910にて強度に基づいて試料を癌又は正常と分類することができる。
図8は、lassoロジスティック回帰206を伴って訓練データ202をフィルタリング200するための代替的処理について説明する図である。これは、本明細書にて説明したシステム及び方法に対しての代替的なアプローチとなり得る。訓練データ202は、コンピューティングシステム104(例えば、図1を参照)によって受信される染色体腕毎のアンプリコン204A~N(例えば、シーケンシング済みDNA試料108)を含み得る。
訓練データ202は、大きさ及び他の因子に基づいて除外されなかったアンプリコン204A~Nを含み得る。換言するに、アンプリコンは正規化されていることができる。アンプリコンは、次の事項に基づいてDNA試料から除外され得る:フラグ付けされた位置、曖昧な大きさ(例えば、大きさ=0)、大きさが110bpを超えること、全raceにおける不十分な表現(例えば、アンプリコンは試料セットにおいて全raceについて>+ 20のリード(UID)を試料の> 20%について有しているべきである、アンプリコン全体がリードされる頻度についてフィルタリングがなされる、分散及び平均計数に基づいて代替に関してフィルタリングがなされる)、及び/又はコンティグ上のアンプリコン。アンプリコンをDNA試料から除外するために、1つ以上の他の因子を用いることができる。
例を挙げるに、コンピュータシステムは、700,000のアンプリコンをもって始まるかそれを受け付けることができる。アンプリコンは、それらが曖昧な大きさを有しているか大きさが< 110 bpであるかに基づいて除外されることができる。このステップの後、コンピュータシステムには400,000のアンプリコンが残っている場合がある。残っている400,000のアンプリコンについては、全raceに表されているアンプリコンを保持するということに基づいてさらに調整できる。結果として、コンピュータシステムにはフィルタ及び分類すべきものとしては200,000のアンプリコンが残されるということになり得る。
図8に示されているように、正規化アンプリコン204A~Nは、正規化アンプリコン計数204A~Nに対してlassoロジスティック回帰106を実行して全ての染色体について癌状態を予測することによって、予測をなし得るアンプリコンに関してフィルタリングされ得る。lasso回帰206は特徴選定機能を有し得るのであり、コンピュータシステムが全アンプリコン204A~Nのセットを削減することを可能とする。上記の例では、全アンプリコンのセットは200,000のアンプリコンを含み得るのであり、また、ロジスティック回帰206はその個数を約1,000アンプリコンに削減できる。
具体的には、訓練データ202内において、コンピュータシステムは、アンプリコンをそれがどの染色体に属するかに基づいて分離できる(例えば、染色体毎のアンプリコンセット204A~Nを参照)。そして、所与の染色体からのアンプリコンの正規化リード(例えば、204A~N)を用いて、コンピュータシステムは、本明細書で説明されるようにして染色体毎の癌状態を予測できる。リードは、各試料内の総リード数によって正規化されることができる。この処理は、各染色体1から22について反復できる。各染色体からのフィルタリング済みアンプリコンは、1つのステップに組み合わされることができる。
図9は、弾性ネット回帰304を用いてフィルタリング済み訓練データ302を使用して分類器を訓練300する代替的処理について示す図である。これは、本明細書にて説明したシステム及び方法に対しての代替的なアプローチとなり得る。訓練300は、本明細書で記載のコンピュータシステムによってなされ得る。訓練300は、上述のようにして(例えば、図8を参照)アンプリコンが正規化及び/又はフィルタリングされた後になされ得る。例えば、訓練データ302は、図8に示されているようにフィルタリングされたデータ202であることができる。
フィルタリング済みアンプリコンのセットが訓練データ302として生成されると(例えば、図8を参照)、コンピュータシステムは、訓練セット302内のそれらのフィルタリング済みアンプリコンについての正規化アンプリコンリードに対して最終予測モデルを実行できる。分類器に関しては、lassoロジスティック回帰、弾性ネットロジスティック回帰304、及びブースティングを用い得る。弾性ネット回帰304は訓練データ302を分類する際にはスピード及び性能でより有利となり得る。一般的には、5回の反復を伴う2分割交差検証(2-fold cross-validation)をなし得る。
代替的に又は追加的には、アンプリコン計数は、全体的な総リード数に代えてそのアンプリコンの染色体内での総リード数によって正規化されることができる。xが染色体j内のアンプリコンkについてのリード数であるとする。総リード数によって正規化することは、次式の正規化計数をもたらし得る:
対照的に、染色体の合計で正規化することは、染色体j内のアンプリコンkについて、次式の正規化計数をもたらし得る:
そして、アンプリコンのフィルタリングに際しては(例えば、図8を参照)、フィルタリング済みアンプリコンは染色体毎に隔離されることができる。予測モデルは、フィルタリング済みアンプリコンリード計数上の全ての染色体について訓練されることができ、これらは今となっては染色体合計によって正規化されている。換言するに、コンピュータシステムは、染色体1からのフィルタリング済みアンプリコンのみを用いて訓練及びテストを行えるのであり、そして、コンピュータシステムは染色体2からのフィルタリング済みアンプリコンのみを用いて訓練及びテストを行える。その結果として、コンピュータシステムが従前は1つの最終予測モデルを実行していたのであるならば、今となってはコンピュータシステムは1 * 22個のモデルを実行できるのであり、ここで22は染色体数である。
例を挙げるに、染色体jの数が2倍であり、故に癌患者について、染色体j内の全てのアンプリコンについての計数の数が2倍であると仮定する。そうすると、染色体j内の総リード数で除することによって、正常者と癌患者との間のこの異数性の差を除くことができる。しかしながら、総リード数全体で除することによって、この異数性信号を一般的には除けないことがある。これが示唆することは、何らかの異数性信号は、本明細書にて説明された2つの正規化の選択肢の間で性能差として反映され得るということである。
図10は、開示の手法を用いた例としての盲検法的症例対象研究からの結果についてのグラフィカルな描写1000についての図である。図11は、開示の手法を適用して試料の複製をする際のグラフィカルな描写1100についての図である。図10~11の両方を参照するに、開示の手法は、進行腺腫(AA、Advanced Adenoma)を発見するために用いられることもできる。例えば、開示の手法は、cfDNA内において異数性及び/又はDNA断片長の異常分布の存在について検知することを可能とし得る。例えば、DNA断片の大きさ(サイズ)が短いと、臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも1つが示されている場合がある。つまるところ、異数性又は異常な断片長分布がもたらす信号は、単一の変異がもたらす信号よりも広範囲に及び得る。よって、開示の手法は、cfDNA内での異数性及び異常DNA断片化についての「シグネチャ」の存在を検出及び数値化することに関して良い感度及び高い特異度をもたらす。
図10のグラフィカルな描写1000によって示されているように、開示の手法は、AAについて8/20 (40%)の識別を提供することができ、これは、変異に基づくアプローチを用いたAA検出率8.1%に対する改善とみなし得る。
図10~11はいずれも例示的な研究を示すのであり、具体的にはAAを有する40人の患者及び32人の対照群でなす72件の盲検法的血液試料に対して開示の手法を用いて検査をなし得る。開示の方法論では(図10を参照するに)AAに関して次のような識別結果をもたらし得る:特異度100%では10/40 (25%);2件の擬陽性を伴うと11/40 (27.5%)(特異度0.94);3件の擬陽性を伴うと15/40 (37.5%)(特異度0.91);並びに4件の擬陽性を伴うと19/40 (47.5%)(特異度0.875)。開示の手法を癌データで訓練して当初得られたのと同じ0.99の特異度閾値を維持しても、性能は実質的には変わらない。図11によれば、当初の分析と繰り返しの分析との間で高い整合性が示されており、それに故に、開示の手法を用いてもたらされた第1及のスコアと第2のスコアとの間で高い相関が示される。総合するに、図10~11に示されているように、開示の手法によってAAの47.5%を特異度87.5%にて検出できる。重要なことに、同じ閾値を用いて訓練時に得られた検証結果は、開示の手法の再現性を強調し得る。
図12は、開示の手法を実施するために用い得るコンピューティング装置1200及びモバイル型コンピューティング装置の例を示す。コンピューティング装置1200は、ラップトップ、デスクトップ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータ等の、様々な形式のデジタルコンピュータを表すものと意図されている。モバイル型コンピューティング装置は、PDA、携帯電話、スマートフォン、及びその他の類似のコンピューティング装置等の様々な形式のモバイル機器を表すものと意図されている。ここにて示したコンポーネント、それらの接続及び関係性、並びにそれらの機能は、例示的に過ぎず、本開示にて説明及び/又は権利請求された発明の実施形態を限定することは意図されていない。
コンピューティング装置1200は、プロセッサ1202と、メモリ1204と、記憶装置1206と、メモリ1204及び複数の高速拡張ポート1210に接続する高速インタフェース1208と、低速拡張ポート1214及び記憶装置1206に接続する低速インタフェース1212を含む。プロセッサ1202、メモリ1204、記憶装置1206、高速インタフェース1208、高速拡張ポート1210、及び低速インタフェース1212の各々は、様々なバスを用いて相互接続されており、また、共通のマザーボードに搭載されたり他の適切な態様で搭載されたりし得る。プロセッサ1202は、メモリ1204内に又は記憶装置1206上に記憶された命令を含むコンピューティング装置1200内で実行されるための命令を処理して、高速インタフェース1208に結合されたディスプレイ1216等の外部入出力装置にGUI用のグラフィカル情報を表示できる。他の実施形態では、複数のプロセッサ及び/又は複数のバスを複数のメモリ及び複数のメモリタイプと共に適宜使用できる。また、複数のコンピューティング装置を接続し、各装置が必要な動作の一部を提供するものとし得る(例えば、サーババンク、ブレードサーバ群、又はマルチプロセッサシステムとして)。
メモリ1204はコンピューティング装置1200内に情報を格納する。一部の実施形態では、メモリ1204は揮発性メモリユニットとされる。一部の実施形態では、メモリ1204は不揮発性メモリユニットとされる。メモリ1204は、磁気又は光学ディスク等の他の形式のコンピュータ可読媒体とされることもできる。
記憶装置1206は、コンピューティング装置1200に対して大容量記憶装置をもたらし得る。いくつかの実施形態では、記憶装置1206は、フロッピーディスク装置、ハードディスク装置、光ディスク装置、又はテープ装置、フラッシュメモリ又は他の同様のソリッドステートメモリ装置、又はストレージエリアネットワーク内の装置又は他の構成の装置を含む装置アレイ等のコンピュータ可読媒体であるか又はそれを含み得る。コンピュータプログラム製品は、情報キャリア内にて有形的に化体されていることができる。コンピュータプログラム製品は、実行されると上述の方法等の1つ以上の方法を行わせる命令を含むこともできる。コンピュータプログラム製品は、メモリ1204、記憶装置1206、又はプロセッサ1202上のメモリ等のコンピュータ可読又は機械可読な媒体内に有形的に化体されていることもできる。
高速インタフェース1208はコンピューティング装置1200のために帯域集中型オペレーションを管理する一方で、低速インタフェース1212はより低帯域寄りオペレーションを管理する。このような機能分担は例示的に過ぎない。一部の実施形態では、高速インタフェース1208は、(例えば、グラフィクスプロセッサ又はアクセレレータを介して)メモリ1204、ディスプレイ1216に結合され、及び様々な拡張カード(不図示)を受容可能な高速拡張ポート1210に結合されている。実施形態では、低速インタフェース1212は、記憶装置1206及び低速拡張ポート1214に結合されている。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット等)を含み得る低速拡張ポート1214は、1つ以上の入出力装置に結合されていることができ、これらには、キーボード、ポインティング装置、スキャナ、又は例えばネットワークアダプタ等を介したスイッチ又はルータ等のネットワーク機器が含まれる。
コンピューティング装置1200は、いくつかの異なる形式にて実装でき、これは図面に示されている。例えば、標準的なサーバ1220として実装されるか、そのようなサーバの群内にて複数個で実装され得る。また、例えばラップトップコンピュータ1222等としてPC内にて実装され得る。また、ラックサーバシステム1224の一部として実装されることもできる。代替的には、コンピューティング装置1200からのコンポーネントは、例えばモバイル型コンピューティング装置1250等のモバイル機器(不図示)内の他のコンポーネントと組み合わされることができる。このような装置の各々は、コンピューティング装置1200及びモバイル型コンピューティング装置1250の1つ以上を含むことができ、相互に通信する複数のコンピューティング装置で全体的なシステムを構成できる。
モバイル型コンピューティング装置1250は、他のものも含むが、プロセッサ1252、メモリ1264、ディスプレイ1254等の入出力装置、通信インタフェース1266、及びトランシーバ1268等を含む。モバイル型コンピューティング装置1250には、追加ストレージを提供するために、マイクロドライブ又は他の装置等の記憶装置が設けられていることもできる。プロセッサ1252、メモリ1264、ディスプレイ1254、通信インタフェース1266、及びトランシーバ1268の各々は、様々なバスを用いて相互接続されており、また、いくつかのコンポーネントは共通のマザーボードに搭載されたり他の適切な態様で搭載されたりし得る。
プロセッサ1252は、メモリ1264に記憶された命令を含めてモバイル型コンピューティング装置1250内にて命令を実行できる。プロセッサ1252は、別個の複数のアナログプロセッサ及びデジタルプロセッサを含むチップで構成されるチップセットとして実装できる。プロセッサ1252は、例えば、ユーザインタフェースの制御、モバイル型コンピューティング装置1250によって実行されるアプリケーションの制御、及びモバイル型コンピューティング装置1250による無線通信の制御等のモバイル型コンピューティング装置1250の他のコンポーネントの協調制御を担い得る。
プロセッサ1252は、ディスプレイ1254に結合された制御インタフェース1258及びディスプレイインタフェース1256を介してユーザと通信できる。ディスプレイ1254は、例えば、TFT(薄膜トランジスタLCD)ディスプレイ又はOLED(有機発光ダイオード)ディスプレイ等又は他の適切なディスプレイ技術とされ得る。ディスプレイインタフェース1256は、ディスプレイ1254を駆動してグラフィカル情報及びその他の情報をユーザに提示するための適切な回路を備え得る。制御インタフェース1258は、ユーザからのコマンドを受信して、これらを変換してプロセッサ1252に渡すことができる。さらに、外部インタフェース1262は、モバイル型コンピューティング装置1250の他の装置との近距離通信を可能とするようにプロセッサ1252との通信能を提供することができる。外部インタフェース1262は、例えば、一部の実施形態では有線通信能を、他の実施形態では無線通信能を提供でき、また、複数のインタフェースを使用することもできる。
メモリ1264はモバイル型コンピューティング装置1250内に情報を格納する。メモリ1264は、コンピュータ可読媒体、揮発性メモリユニット、又は不揮発性メモリユニットの1つ以上として実装され得る。拡張メモリ1274も、例えばSIMM(Single In Line Memory Module)カードインタフェースを含むことができる拡張インタフェース1272を介してモバイル型コンピューティング装置1250に、設けることができ、また、接続もできる。拡張メモリ1274は、モバイル型コンピューティング装置1250のための追加記憶域を提供でき、或いはモバイル型コンピューティング装置1250のためにアプリケーション若しくは他の情報を格納することもできる。具体的には、拡張メモリ1274は、上述した処理を実行又は補足するための命令を含み得るのであり、また、セキュア情報を含むこともできる。したがって、例えば、拡張メモリ1274は、モバイル型コンピューティング装置1250のセキュリティモジュールとして提供されることができ、また、モバイル型コンピューティング装置1250のセキュアな使用を可能たらしめる命令をもってプログラムされ得る。また、SIMMカードに識別情報をハッキング不能な態様で載せられた等の追加情報と共に、セキュアなアプリケーションを、SIMMカードを介して提供できる。
メモリは、例えば、後述するように、フラッシュメモリ及び/又はNVRAMメモリ(不揮発性RAM)を含むことができる。一部の実施形態では、コンピュータプログラム製品は、情報キャリアにて有形的に化体されている。コンピュータプログラム製品は、実行されると上述の方法等の1つ以上の方法を行わせる命令を含むことができる。コンピュータプログラム製品は、メモリ1264、拡張メモリ1274、又はプロセッサ1252上のメモリ等のコンピュータ可読又は機械可読な媒体とされ得る。一部の実施形態では、コンピュータプログラム製品は、例えば、トランシーバ1268又は外部インタフェース1262を介して伝播された信号にて受信され得る。
モバイル型コンピューティング装置1250は、適宜デジタル信号処理回路を含み得る通信インタフェース1266を介して無線通信できる。通信インタフェース1266は、他のものもあるが例えば次のような様々なモード又はプロトコル下での通信を可能とし得る:GSM音声通話(Global System for Mobile communications)、SMS(Short Message Service)、EMS(Enhanced Messaging Service)、或いはMMSメッセージング(Multimedia Messaging Service)、CDMA(コード分割多重アクセス)、TDMA(時分割多重アクセス)、PDC(Personal Digital Cellular)、WCDMA(Wideband Code Division Multiple Access)、CDMA2000或いはGPRS(General Packet Radio Service)等。そのような通信は、例えば無線周波数を用いてトランシーバ1268を介して生じ得る。また、短距離通信は、Bluetooth、WiFi、又はその他のそのようなトランシーバ(不図示)を用いる等して生じ得る。さらに、GPS(Global Positioning System)受信機モジュール1270は、追加のナビゲーション及び位置関連の無線データをモバイル型コンピューティング装置1250に提供でき、これは、適宜モバイル型コンピューティング装置1250上で実行されているアプリケーションによって使用されることができる。
モバイル型コンピューティング装置1250は、ユーザからの発話情報を受信して活用可能なデジタル情報に変換することができる音声コーデック1260を用いて可聴的に通信することもできる。音声コーデック1260は、同様にして例えばモバイル型コンピューティング装置1250のハンドセット内のスピーカ等を介する等してユーザ向けに可聴音を生成できる。そのような音は、音声電話からの音を含むことができ、録音された音(例えば、音声メッセージ、音楽ファイル等)を含むことができ、モバイル型コンピューティング装置1250上で動作するアプリケーションによって生成された音をも含むことができる。
モバイル型コンピューティング装置1250は、いくつかの異なる形式にて実装でき、これは図面に示されている。例えば、それは携帯電話1280として実装され得る。また、それはスマートフォン1282、PDA、又は他の類似のモバイル型装置の一部として実装され得る。
ここで説明されるシステム及び手法の様々な実装は、デジタル電子回路、集積回路、専用設計のASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで具現化可能である。これらの様々な実装としては、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び/又は解釈可能な1つ以上のコンピュータプログラムにての実装が含まれ得るのであり、該プロセッサは、専用又は汎用とされ得るのであって、データ及び命令を記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置から受信し、それらへとデータ及び命令を送信できるように結合されている。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも称する)は、プログラム可能なプロセッサのための機械命令を含み、また、高水準手続型言語及び/又はオブジェクト指向型プログラミング言語、及び/又はアセンブリ/機械語で実装可能である。本明細書で用いる際、機械可読媒体及びコンピュータ可読媒体という用語は、機械可読信号として機械命令を受信する機械可読媒体を含めて、機械命令及び/又はデータをプログラム可能プロセッサに提供するために用いられる任意のコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。機械可読信号という用語は、機械命令及び/又はデータをプログラム可能なプロセッサに提供するために用いられる任意の信号を意味する。
ユーザとの対話を可能とするために、本開示で説明するシステム及び手法は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、並びにユーザがコンピュータに入力を与えるためのキーボード及びポインティング装置(例えば、マウス又はトラックボール)を有するコンピュータ上にて実装できる。ユーザとの対話を可能とするために他の種類の装置を用い得るのであり;例えば、ユーザに提供するフィードバックは任意の感覚的フィードバック(例えば、視覚フィードバック、聴覚(auditory)フィードバック、又は触覚フィードバック等)とすることができ;また、ユーザからの入力は、任意の形式で受信できこれには音響(acoustic)、音声(speech)、又は触覚入力が含まれる。
ここで説明するシステム及び手法は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピューティングシステム、又はミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピューティングシステム、又はフロントエンドコンポーネント(例えば、ユーザが本開示で説明されるシステム及び手法の実装と対話できるGUI又はウェブブラウザを有するクライアントコンピュータ)、又はそのようなバックエンド、ミドルウェア又はフロントエンドコンポーネントの任意の組み合わせで実装され得る。システムのコンポーネントは、デジタルデータ通信についての任意の形式又は媒体で相互接続されることができる(例えば、通信ネットワーク)。通信ネットワークの例には、LAN、WAN、及びインターネットが含まれる。
コンピューティングシステムには、クライアント及びサーバが含まれ得る。クライアント及びサーバは一般的に相互にリモートに配置されており、典型的には通信ネットワークを介して対話する。クライアントとサーバとの関係性は各々のコンピュータ上にて実行されているコンピュータプログラムの作用によるのであり、双方がクライアントサーバ関係を有していることによる。
本明細書には多くの具体的な実施形態についての詳細が含まれているも、これらは開示技術の範囲又は権利請求され得るものについての制限として解釈されるべきではなく、むしろ特定の開示技術の特定の実施形態に固有となり得る特徴についての説明として解されるべきである。別個の実施形態の文脈で本明細書にて説明されている特定の特徴は、部分的又は全体的に単一の実施形態で組み合わせて実施することもできる。反対に、単一の実施の形態において説明される様々な特徴は、個別に複数の実施形態において実施されてもよく、又は任意の適切な組み合わせで実施されてもよい。さらに、複数の特徴が特定の組み合わせとして上述され及び/又は当初から請求され得るも、それらの特徴の1つ以上はいくつかの場合において組み合わせから除外されていてもよく、請求される組み合わせはそのような下位の組合せ又は下位の組合せの変種を含み得る。同様に、複数の操作は特定の順序にて説明され得るも、これらの操作は、望ましい結果を達成するために、特定の順番又は連続する順番で実行されること、又は全ての図示される操作が実行されることを要するものではないと理解されるべきである。主題に関しての特定の実施形態について説明した。他の実施形態は添付の特許請求の範囲に含まれる。

Claims (20)

  1. 非負値行列因子分解を用いて、データを分類する方法であって、前記方法は:
    試料データの母集団を受け付けるステップであって、前記母集団は試料データ毎のアンプリコン計数を含む、ステップと、
    試料データ毎の前記アンプリコン計数についての第1の行列を生成するステップと、
    前記第1の行列を第2の行列と第3の行列との積に分解するステップであって、前記第2の行列は短DNA断片及び長DNA断片についてのシグネチャであり、また、前記第3の行列は前記短DNA断片及び前記長DNA断片についての各シグネチャの強度である、ステップと、
    前記第2の行列に関して、各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、
    前記第3の行列に関して、前記試料データ毎に各シグネチャの強度を決定するステップと、
    各シグネチャの前記強度に基づいて前記試料データを分類するステップと、を含む、方法。
  2. 請求項1に記載の方法において、前記アンプリコン計数を正規化するステップをさらに含む、方法。
  3. 請求項1に記載の方法において、前記アンプリコン計数をフィルタリングするステップをさらに含む、方法。
  4. 請求項1に記載の方法において、前記シグネチャは、前記短断片の大きさを示す第1のシグネチャと、前記長断片の大きさを示す第2のシグネチャとを含む、方法。
  5. 請求項4に記載の方法において、前記短断片の大きさは癌を示す、方法。
  6. 請求項4に記載の方法において、前記長断片の大きさは正常を示す、方法。
  7. 請求項4に記載の方法において、前記第1のシグネチャについてより高い強度を有する試料データに分類値1を割り当てるステップをさらに含む、方法。
  8. 請求項4に記載の方法において、前記第2のシグネチャについてより高い強度を有する試料データに分類値0を割り当てるステップをさらに含む、方法。
  9. 請求項1に記載の方法において、各試料データ毎の各シグネチャの前記強度に非負最小二乗関数を適用するステップをさらに含む、方法。
  10. 請求項1に記載の方法において、各試料データ毎の各シグネチャの前記強度に線形回帰分析を適用するステップさらに含む、方法。
  11. 請求項1に記載の方法において、前記試料データを分類するステップは深層学習モデルを適用することを含む、方法。
  12. 請求項1に記載の方法において、前記試料データを分類するステップは状態ベクトルマシンを適用することを含む、方法。
  13. 請求項1に記載の方法において、各試料データは染色体腕である、方法。
  14. 請求項1に記載の方法において、各試料データはシーケンシング済みDNA試料である、方法。
  15. 請求項1に記載の方法において、前記方法において適用される1つ以上のアルゴリズムを反復的に改良するステップをさらに含む、方法。
  16. 請求項4に記載の方法において、前記短断片の大きさは臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも1つを示す、方法。
  17. 非負値行列因子分解を用いて、データを分類するシステムであって、前記システムは:
    1つ以上のプロセッサと、
    命令が格納されたコンピュータメモリと、を含み、前記命令は、前記プロセッサによって実行されると、前記プロセッサに:
    試料データの母集団を受け付けるステップであって、前記母集団は試料データ毎のアンプリコン計数を含む、ステップと、
    試料データ毎の前記アンプリコン計数についての第1の行列を生成するステップと、
    前記第1の行列を第2の行列と第3の行列との積に分解するステップであって、前記第2の行列は短DNA断片及び長DNA断片についてのシグネチャであり、また、前記第3の行列は前記短DNA断片及び前記長DNA断片についての各シグネチャの強度である、ステップと、
    前記第2の行列に関して、各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、
    前記第3の行列に関して、前記試料データ毎に各シグネチャの強度を決定するステップと、
    各シグネチャの前記強度に基づいて前記試料データを分類するステップと、を含む動作を行わせる、システム。
  18. 請求項17に記載のシステムにおいて、前記シグネチャは、前記短断片の大きさを示す第1のシグネチャと、前記長断片の大きさを示す第2のシグネチャとを含む、システム。
  19. 請求項18に記載のシステムにおいて、前記短断片の大きさは癌を示す、システム。
  20. 請求項18に記載のシステムにおいて、前記短断片の大きさは臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも1つを示す、システム。
JP2023534364A 2020-12-14 2021-10-01 信号 Pending JP2023553050A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063125171P 2020-12-14 2020-12-14
US63/125,171 2020-12-14
PCT/US2021/053140 WO2022132285A1 (en) 2020-12-14 2021-10-01 Signal

Publications (1)

Publication Number Publication Date
JP2023553050A true JP2023553050A (ja) 2023-12-20

Family

ID=82059770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023534364A Pending JP2023553050A (ja) 2020-12-14 2021-10-01 信号

Country Status (6)

Country Link
US (1) US20240045844A1 (ja)
EP (1) EP4260341A1 (ja)
JP (1) JP2023553050A (ja)
AU (1) AU2021401332A1 (ja)
CA (1) CA3201235A1 (ja)
WO (1) WO2022132285A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015022490A2 (pt) * 2013-03-15 2017-07-18 Veracyte Inc métodos e composições para classificação de amostras
WO2017048932A1 (en) * 2015-09-17 2017-03-23 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Cancer detection methods
CA3040930A1 (en) * 2016-11-07 2018-05-11 Grail, Inc. Methods of identifying somatic mutational signatures for early cancer detection
EP3665308A1 (en) * 2017-08-07 2020-06-17 The Johns Hopkins University Methods and materials for assessing and treating cancer
EP3853373A4 (en) * 2018-09-17 2022-06-22 The University of North Carolina at Chapel Hill PROCEDURE FOR QUANTIFICATION OF DNA FRAGMENTS IN A SAMPLE BY SIZE

Also Published As

Publication number Publication date
EP4260341A1 (en) 2023-10-18
WO2022132285A1 (en) 2022-06-23
AU2021401332A1 (en) 2023-06-29
US20240045844A1 (en) 2024-02-08
CA3201235A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
US11462325B2 (en) Multimodal machine learning based clinical predictor
Alachiotis et al. RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP vectors
JP7455757B2 (ja) 生体試料の多検体アッセイのための機械学習実装
US11961589B2 (en) Models for targeted sequencing
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
US20210327534A1 (en) Cancer classification using patch convolutional neural networks
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
Thibodeau et al. A neural network based model effectively predicts enhancers from clinical ATAC-seq samples
JP2021514075A (ja) バリアントコーリングの相関誤差事象軽減のためのシステムおよび方法
US20220101135A1 (en) Systems and methods for using a convolutional neural network to detect contamination
DeGroat et al. Discovering biomarkers associated and predicting cardiovascular disease with high accuracy using a novel nexus of machine learning techniques for precision medicine
CN109477147A (zh) 用于皮肤癌分期和治疗的方法和材料
Seifert et al. Exploiting prior knowledge and gene distances in the analysis of tumor expression profiles with extended Hidden Markov Models
JP2023553050A (ja) 信号
US20220042109A1 (en) Methods of assessing breast cancer using circulating hormone receptor transcripts
JP2023505834A (ja) 米国乳癌患者における診断検査および処置パターンのリアルワールドエビデンス
US20220042108A1 (en) Systems and methods of assessing breast cancer
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
WO2024079279A1 (en) Disease characterisation
Ashwood et al. Proteomic breast cancer classification
CN116959719A (zh) 一种数据处理方法及非小细胞肺癌脑转移风险预测系统
Joshi et al. Breast Cancer Detection Using Optimal Machine Learning Techniques: Uncovering the Most Effective Approach
WO2024092138A1 (en) Approach for early detection of disease combining multiple data sources
WO2023200732A1 (en) Systems and methods for predicting slide-level class labels for a whole-slide image
KR20230008020A (ko) 분자 바이오마커 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성 평가