JP2023553050A

JP2023553050A - 信号

Info

Publication number: JP2023553050A
Application number: JP2023534364A
Authority: JP
Inventors: ドゥーヴィルクリストファー; グラントヘイリー; クオアルバート; ラハウエルカーメル; ダブリュキンズラーケネス; パパドプーロスニコラス; トマセッティクリスチャン; フォーゲルシュタインバート
Original assignee: Johns Hopkins University
Current assignee: Johns Hopkins University
Priority date: 2020-12-14
Filing date: 2021-10-01
Publication date: 2023-12-20
Also published as: EP4260341A1; WO2022132285A1; AU2021401332A1; US20240045844A1; CA3201235A1

Abstract

非負値行列因子分解を用いて、データを分類する方法は次のステップを含み得る：試料データの母集団を受け付けるステップと、試料データ毎のアンプリコン計数についての第１の行列を生成するステップと、第１の行列を第２の行列と第３の行列との積に分解するステップと、第２の行列に関して各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、第３の行列に関して試料データ毎に各シグネチャの強度を決定するステップと、各シグネチャの強度に基づいて試料データを分類するステップ。母集団は、試料データ毎のアンプリコン計数を含み得る。第２の行列は短ＤＮＡ断片及び長ＤＮＡ断片についてのシグネチャを含み得るのであり、また、第３の行列は短ＤＮＡ断片及び長ＤＮＡ断片についての各シグネチャの強度を含み得る。

Description

本開示はデータ分類に関する装置、システム、及び方法について説明する。特に、本開示は、早期の癌発見及び前癌病巣の発見のためのアンプリコンベースドシーケンシングデータの分類に関する。

本願は、２０２０年１２月１４日に出願された米国特許出願第６３／１２５，１７１号の利益を主張する。先行出願の開示の全体が参照によって取り込まれる。

試料又は患者における癌の早期発見は、癌の研究及び治療に役立ち得る。

本開示は、アンプリコンベースドシーケンシングデータを分類して、正常な試料から癌試料を識別することに一般的に関する。ＤＮＡ断片長からシグネチャを生成でき、癌分類を決定できる。開示の手法は、腸内の腺腫性ポリープ及び／又は進行腺腫及び／又は他の前癌腫瘍の発見にも適用し得る。換言するに、開示の手法は、癌分類だけではなく、前癌病巣（例えば、ポリープ、結節等）の発見及び、手術後の癌再発を監視及び／又は早期発見するためにも用いられ得る。

開示された発明的概念は添付の特許請求の範囲にて画定されたものを含むも、発明的概念は後述の実施形態に沿うようにも画定され得ることに留意されたい。

実施形態１は非負値行列因子分解(non-negative matrix factorization)を用いて、データを分類する方法であって、前記方法は：試料データの母集団を受け付けるステップであって前記母集団は試料データ毎のアンプリコン計数(count)を含むステップと、試料データ毎の前記アンプリコン計数についての第１の行列を生成するステップと、前記第１の行列を第２の行列と第３の行列との積に分解するステップであって、前記第２の行列は短ＤＮＡ断片及び長ＤＮＡ断片についてのシグネチャでありまた前記第３の行列は前記短ＤＮＡ断片及び前記長ＤＮＡ断片についての各シグネチャの強度であるステップと、前記第２の行列に関して各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、前記第３の行列に関して前記試料データ毎に各シグネチャの強度を決定するステップと、各シグネチャの前記強度に基づいて前記試料データを分類するステップと、を含む。

実施形態２は、実施形態１に記載の方法において、前記アンプリコン計数を正規化するステップをさらに含む方法である。

実施形態３は、実施形態１～２のいずれか１つに記載の方法において、前記アンプリコン計数をフィルタリングするステップをさらに含む方法である。

実施形態４は、実施形態１～３のいずれか１つに記載の方法において、前記シグネチャは前記短断片の大きさを示す第１のシグネチャと前記長断片の大きさを示す第２のシグネチャとを含む方法である。

実施形態５は、実施形態１～４のいずれか１つに記載の方法において、前記短断片の大きさは癌を示す方法である。

実施形態６は、実施形態１～５のいずれか１つに記載の方法において、前記長断片の大きさは正常を示す方法である。

実施形態７は、実施形態１～６のいずれか１つに記載の方法において、前記第１のシグネチャについてより高い強度を有する試料データに分類値１を割り当てるステップをさらに含む方法である。

実施形態８は、実施形態１～７のいずれか１つに記載の方法において、前記第２のシグネチャについてより高い強度を有する試料データに分類値０を割り当てるステップをさらに含む方法である。

実施形態９は、実施形態１～８のいずれか１つに記載の方法において、各試料データ毎の各シグネチャの前記強度に非負最小二乗関数を適用するステップをさらに含む方法である。

実施形態１０は、実施形態１～９のいずれか１つに記載の方法において、各試料データ毎の各シグネチャの前記強度に線形回帰分析を適用するステップさらに含む方法である。

実施形態１１は、実施形態１～１０のいずれか１つに記載の方法において、前記試料データを分類するステップは深層学習モデルを適用することを含む方法である。

実施形態１２は、実施形態１～１１のいずれか１つに記載の方法において、前記試料データを分類するステップは状態ベクトルマシン（state vector machine）を適用することを含む方法である。

実施形態１３は、実施形態１～１２のいずれか１つに記載の方法において、各試料データは染色体腕である、方法である。

実施形態１４は、実施形態１～１３のいずれか１つに記載の方法において、各試料データはシーケンシング済みＤＮＡ試料である、方法である。

実施形態１５は、実施形態１～１４のいずれか１つに記載の方法において、前記方法において適用される１つ以上のアルゴリズムを反復的に改良するステップをさらに含む方法である。

実施形態１６は、実施形態１～１５のいずれか１つに記載の方法において、短断片の大きさは臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも１つを示す、方法である。

実施形態１７は、１つ以上のコンピュータと１つ以上のプロセッサと命令が格納されたコンピュータメモリとを備えるシステムであって、前記命令が前記プロセッサによって実行されると前記プロセッサに請求項１～１６のいずれか１つに記載の方法を行わせる、システムである。

本明細書にて説明する装置、システム、及び手法は１つ以上の後述の利点をもたらし得る。例えば、開示の実施形態は、癌検診を支援したり、試料又は試料の母集団に関して癌の早期発見を支援したりできる。このような発見は、異なる試料及び試料母集団の間での癌研究に改善をもたらし得るという点で有益たり得る。

別の例を挙げるに、開示の実施形態は解釈可能な結果をもたらし得る。ラボ技師又は専門家は、母集団内の試料又は患者毎に、正常又は癌の分類を示す解読容易且つ理解容易な値を受け取ることができる。例えば、癌と分類された試料はバイナリ値としての１を与えられることができ、他方で、正常と分類された試料はバイナリ値としての０を与えられることができる。これらのバイナリ値は、ラボ技師又は専門家によってより容易に解読及び解釈され得る。よって、ラボ技師又は専門家は、癌と分類された試料に対して、より効果的且つ迅速に対処できる。

さらなる別の例について述べるに、開示の実施形態は、癌の状態を検出するための既存の方法論よりも正確な性能をもたらし得る。癌を検出するのに用いられるアルゴリズム及びモデルを継続的に訓練することによって、後続の臨床試験においてより正確且つ迅速な癌分類がもたらされ得る。その結果、癌をより早く発見することができ、それ故に試料又は患者に対してより早く対処できる。

１つ以上の実施形態の詳細は、添付の図面及び以下の詳細な説明にて示してある。他の特徴及び長所は詳細な説明及び図面並びに特許請求の範囲から明らかなこととなるであろう。

シーケンシングデータを分類するためのシステムについての概略図である。シーケンシングデータにおいて癌状態を分類するための処理についての流れ図である。図１のシステムのシステムコンポーネントについての図である。シーケンシングデータを分類するための処理についての流れ図である。図５Ａ～５Ｅは、図４の処理についての非負値行列因子分解について説明する図である。開示される手法を用いてなされる分類済みシーケンシングデータについてのグラフィカルな表現を示す図である。図４の非負値行列因子分解の処理についての流れ図である。 lassoロジスティック回帰を伴って訓練データをフィルタリングするための代替的処理について説明する図である。弾性ネット回帰(elastic net regression)を伴っておりフィルタリング済み訓練データを用いて分類器を訓練する代替的処理について示す図である。開示の手法を用いた例としての盲検法的症例対象研究からの結果についてのグラフィカルな描写についての図である。開示の手法を適用して試料の複製をする際のグラフィカルな描写についての図である。コンピューティング装置及びモバイル型コンピューティング装置の例について示す概略図である。

様々な図面における同様の参照符合は同様の要素を示す。

本開示は、アンプリコンベースドシーケンシングデータを分類して、正常な試料から癌試料を識別することに一般的に関する。アンプリコンベースドシーケンシングデータについては正規化、フィルタリング、及び分類をなして、癌状態を決定できる。例えば、染色体腕又は他のＤＮＡ試料内のアンプリコンについては、大きさ又は他の因子に基づいて除外をなし得る。そして、（例えば、lassoロジスティック回帰を用いての予測アルゴリズムを施すために）アンプリコンに対してフィルタリングをなし得る。フィルタリングされたらば、各染色体腕の短断片及び長断片についてシグネチャを決定できる。これらシグネチャについて強度を決定できる。短断片に関して高強度を伴う染色体腕は癌を示すものとされ得る一方、長断片に関して高強度を伴う染色体腕は正常状態（例えば、非癌）を示すものとされ得る。癌状態又は正常状態についての分類は、ラボの専門家、技師、又は他のタイプの専門家に寄る閲覧及び／又は使用のために装置へと出力されることができる。開示の手法は、腸内の腺腫性ポリープ及び／又は進行腺腫及び／又は他の前癌腫瘍の発見にも適用し得る。換言するに、開示の手法は、癌分類だけではなく、前癌病巣（例えば、ポリープ、結節等）の発見及び、手術後の癌再発を監視及び／又は早期発見するためにも用いられ得る。

図面を参照するに、図１はシーケンシングデータを分類するためのシステム１００についての概略図である。ユーザコンピューティング装置１０１と、シーケンシングシステム１０２と、コンピュータシステム１０４とが、ネットワーク１０３を介して（例えば、有線又は無線で）通信可能とされていることができる。ラボの技師、専門家、又は他のタイプの専門家は、ユーザコンピューティング装置１０１を用い得る。ラボ技師は、ＤＮＡ試料１０６をユーザコンピューティング装置１０１に読み込むことができる。ＤＮＡ試料１０６は、シーケンシングシステム１０２へと伝達又は移されることができる。シーケンシングシステム１０２は、ＤＮＡ試料をシーケンシングできる（Ａ）。そして、シーケンシング済みＤＮＡ試料１０８は、コンピュータシステム１０４へと移されることができる。シーケンシング済みＤＮＡ試料１０８は、一人の患者又は１つの試料について１つの染色体腕とされ得る。他の実施形態では、シーケンシングシステム１０２は、シーケンシング済みＤＮＡ試料の母集団（例えば、母集団内の患者又は試料毎に１つの染色体腕）をコンピュータシステム１０４へと送ることができる。

コンピュータシステム１０４は、シーケンシング済みＤＮＡ試料１０８を分類するように構成されていることができる。シーケンシング済みＤＮＡ試料１０８を分類することは、試料１０８について癌状態を識別すること含み得る。コンピュータシステム１０４は、試料１０８のアンプリコンを正規化できる（Ｂ）。コンピュータシステム１０４は、試料１０８のアンプリコンをフィルタリングすることもできる（Ｃ）。アンプリコンに対しての正規化及びフィルタリングは、任意の順序で及び／又は同時的になされ得る。一部の実施形態では、コンピュータシステム１０４は、アンプリコンを正規化及び（and）フィルタリングするのではなく、アンプリコンを正規化又は（or）フィルタリングすることができる。

試料１０８のアンプリコンに対して正規化及び／又はフィルタリングがなされると（Ｂ，Ｃ）、コンピュータシステム１０４は、試料１０８の短断片及び長断片（short and long fragments）について（例えば、各染色体腕についての）シグネチャを定義することができる（Ｄ）。試料１０８の短断片又は長断片（short or long fragments）についてのシグネチャの強度に基づいて、コンピュータシステム１０４は、試料１０８についての癌統計を決定できる（Ｅ）。例えば、本開示にて説明するように、短断片についてより強度が高いと、その試料１０８に対して癌が関連付けられていることが示され得る。他方で、長断片についてより強度が高いと、試料１０８が正常であること（例えば、癌状態がないこと）が示され得る。

コンピュータシステム１０４は、自己の予測アルゴリズムを訓練することができる。（Ｆ）。例えば、正規化及びフィルタリングアルゴリズム又は手法は、反復的に改良され得る（Ｂ，Ｃ）。短断片及び長断片を定義するのに用いられるアルゴリズム又は手法（Ｄ）に対して反復的に改良していくことができ、将来の分類の際においてコンピュータシステム１０４がより正確に短断片及び長断片について識別できるようにし得る。また、短断片及び長断片の強度に基づいて癌状態を決定するのに用いられるアルゴリズム又は手法（Ｅ）に対しては、分類履歴に基づいて反復的に改良することができ、将来の分類の際においてより正確な癌状態決定を提供できる。

決定された癌状態は、ＤＮＡ試料癌状態１１０として出力されることができる（Ｇ）。例えば、コンピュータシステム１０４は、ＤＮＡ試料癌状態１１０を、ユーザコンピューティング装置１０１へと送信できる。そして、ユーザコンピューティング装置１０１は、状態１１０をラボ技師に表示できる。

一部の実施形態では、ユーザコンピューティング装置１０１、シーケンシングシステム１０２、及び／又はコンピュータシステム１０４は、１つの集中型コンピューティングシステムとされ得る。他の実施形態では、ユーザコンピューティング装置１０１、シーケンシングシステム１０２、及び／又はコンピュータシステム１０４の１つ以上は、ネットワーク１０３を介して通信する別個のコンピューティングシステムとされ得る。

図２は、シーケンシングデータにおいて癌状態を分類するための処理４００についての流れ図である。処理４００は、本明細書にて説明されるコンピュータシステム（例えば、図１のコンピュータシステム１０４を参照）及び／又は任意の他のコンピュータシステムによってなされ得る。

シーケンシング済みＤＮＡをＳ４０２にて受け付け得る。本明細書にて説明されているように、当該シーケンシング済みＤＮＡは母集団内の患者又は試料毎に１つの染色体腕とされ得る。各染色体腕についてのアンプリコン計数は、Ｓ４０４にて正規化され得る。例えば、上述のように、Ｓ４０６にてアンプリコンを除外できる。

Ｓ４０８では、アンプリコンがフィルタリングされ得る。例えば、Ｓ４１０では、染色体に基づいて正規化アンプリコン計数を分離できる。Ｓ４１２では、染色体毎に癌状態を予測できる。さらに、Ｓ４１４では、これらのフィルタリング済みアンプリコンを１つのセット内に組み合わせることができる。

Ｓ４０４でのアンプリコンの正規化及び／又はＳ４０８でのアンプリコンのフィルタリングは、正常試料を訓練セットにて用いてスリーウェイＡＮＯＶＡ(3 way ANOVA)を行うことを伴い得るのであり、ここでの因子はプライマーロット、コホート、及びraceとされる。各個別の因子と関連付けられているｐ値を識別して用いて、これら３つの因子のいずれかにおける０．０１未満の対応するｐ値を有する任意のアンプリコンを除外できる。追加的に又は代替的には、アンプリコンに関しては、（非正規化）計数（例えば、そのアンプリコンについてのリード数）と対応する染色体内の全アンプリコンに亘っての総リード数との間の相関関係が０．８未満である場合には、除外し得る。追加的に又は代替的には、コンピュータシステムは、長さが８１以上であり癌よりも正常案件の正規化平均計数が多いアンプリコン、並びに、長さが８１以下であり正常より癌案件の正規化平均計数が多いアンプリコンのみを保持できる。

Ｓ４１６では癌状態を分類できる。癌状態の分類は、各染色体に加えて各染色体腕についても行われ得る。分類の基礎となっている基本的メトリックは正規化アンプリコン計数であり、アンプリコンｉについてのリード数を対応する染色体腕内における全アンプリコンに亘っての総リード数で除したものとして定義される。代替的に、１つの染色体又は全染色体の全アンプリコンに亘っての総リード数を用いることも可能である。

Ｓ４１６にて癌状態を分類することには、ロジスティック回帰又はガウスカーネルＳＶＭ等の１つ以上の分類器を適用することを含み得る。

Ｓ４１６にて癌状態が決定されると、コンピュータシステムは、Ｓ４１８にて随意的に予測モデル及び／又はアルゴリズムを訓練できる。そのようなモデル及び／又はアルゴリズムを訓練することは、上述のように正規化すること、フィルタリングすること、及び癌状態について分類することに関してのコンピュータシステムの正確性を向上させることに関して有益となり得る。

染色体毎の及び／又は染色体腕毎の決定済み癌状態は、Ｓ４２０にて出力できる。癌状態を出力することは、ラボ技師に解釈可能な結果を与えるという点で利点となり得る。

図３は、図１のシステム１００のシステムコンポーネントについての図である。上述のように、システム１００は、ユーザコンピューティング装置１０１と、シーケンシングシステム１０２と、コンピュータシステム１０４とを含み、これらはネットワーク１０３を介して通信できる。

ユーザコンピューティング装置１０１は、ラボ技師等のユーザに表示装置と入力装置と出力装置とを提供できる。ユーザは、ＤＮＡシーケンシングデータ５２４をユーザコンピューティング装置１０１に提供でき、該装置はデータ５２４をシーケンシングシステム１０２及び／又はコンピュータシステム１０４へと送信できる。

シーケンシングシステム１０２は、ＤＮＡシーケンシングモジュール５１４とネットワークインタフェース５１６とを含み得る。シーケンシングシステム１０２の１つ以上のプロセッサは、モジュール５１４内のデータをシーケンシングする５２４等のオペレーションを行うように構成されることができる。ネットワークインタフェース５１６は、システム１００の１つ以上のコンポーネント間での通信を可能とできる。

コンピュータシステム１０４は、正規化エンジン５０２と、分類エンジン５０４と、フィルタリングモジュール（module）５０６と、癌状態予測器５０８と、訓練モデル（model）５１０と、ネットワークインタフェース５１２とを含み得る。コンピュータシステム１０４のこれらのコンポーネントの１つ以上は、組み合わせることができ及び／又はシステム１０４から取り除く（remove）ことができる。

正規化エンジン５０２は、データを正規化するように構成されていることができる。例えば、コンピュータシステム１０４は、シーケンシング済みＤＮＡをシーケンシングシステム１０２から受信できる。そして、正規化エンジン５０２は、シーケンシング済みＤＮＡのアンプリコンを正規化（例えば、除外（exclude））できる。

フィルタリングモジュール５０６は、本明細書で記載されるように正規化アンプリコンをフィルタリングするように構成されていることができる。正規化エンジン５０２及びフィルタリングモジュール５０６は、一部の実装例では同じエンジンとされ得る。

癌状態予測器５０８は、本明細書で記載されるように非負値行列因子分解を行うように構成されることができる。予測器５０８は、行列を生成し、短断片及び長断片についてのシグネチャを識別し、及びＤＮＡ試料毎にシグネチャ強度を決定できる。

そして、分類エンジン５０４は、シグネチャ強度の分析に基づいて、各ＤＮＡ試料を癌又は正常と分類できる。分類エンジン５０４は、本明細書で記載されるようにＳＶＭ及び／又はＬＡＳＳＯ回帰とし得る。

訓練モデル５１０は、正規化、フィルタリング、癌状態予測、及び分類をなすためにシステム１０４によって用いられるアルゴリズム及び／又はモデルに対して訓練及び／又は改良を施すように構成されていることができる。その結果、コンピュータシステム１０４によって実装されるアルゴリズム及び／又はモデルは、連続的に改良できるのであり、コンピュータシステム１０４が将来の分類の際にはより正確に癌状態を予測できるようになり得る。

ネットワークインタフェース５１２は、コンピュータシステム１０４とシステム１００の１つ以上の他のコンポーネントとの間での通信を可能とし得る。

コンピュータシステム１０４は、予測モデルデータベース５１８と通信可能とされていることができる。データベース５１８は、染色体１～２２についての予測モデル５２０Ａ－Ｎ及び最終予測モデル５２２を格納するように構成されることができる。例えば、染色体予測モデル５２０Ａ－Ｎは、各個別の染色体内の癌状態について分類又は識別をなすために用い得る。最終予測モデル５２２は、特定の試料についての総合的癌状態を識別するために用いられ得る。本明細書で記載されるように、癌状態予測器５０８は染色体予測モデル５２０Ａ－Ｎを用いるように構成されていることができ、分類エンジン５０４は最終予測モデル５２２を用いるように構成されていることができ、これは癌状態予測器５０８によって決定された染色体毎の癌状態に基づいていることができる。さらに、モデル５２０Ａ－Ｎ及び５２２は、訓練モデル５１０によって経時的に更新及び／又は変更されることができる。これらのモデル５２０Ａ－Ｎ及び５２２は染色体及び試料内の癌状態をより正確に予測できるように改良されることができる。

図４は、シーケンシングデータを分類するための処理６００についての流れ図である。処理６００は、本明細書で記載されるようにコンピュータシステムによってなされ得る。図５Ａ～５Ｅは、図４の処理６００についての非負値行列因子分解について説明する図である。図４～５を参照するに、Ｓ６０２では、ＤＮＡ試料からのアンプリコンについてフィルタリング及び正規化をなし得る。

Ｓ６０４では、非負値行列因子分解をなし得る（例えば、図５Ａ～５Ｅを参照）。例えば、１つの染色体を決め得る。M^TrainNormalは正常訓練行列として定義でき、各列は１つの個別事項とでき、各行は１つのアンプリコンとできる。したがって、項目たるM^TrainNormal _ijについては、個別事項ｊ内のアンプリコンｉについての正規化計数とすることができる。M^TrainCancer、M^TestNormal及びM^TestCancer等の他の行列についても同様とし得る。最後に、M^Trainは、全ての訓練データをクラス不問で連結できる行列（例えば、図５Ａ～５Ｅの行列７００）として次のように定義できる：

そして、非負値行列因子分解（ＮＭＦ）分解は、Ｍについて計算され得る（例えば、図５Ａ～５Ｅの行列７０２，７０４を参照）：

W^Train（例えば、図５Ａ～５Ｅの行列７０２）の各列の合計が１となるものと仮定できる。W^Train内の各列は、アンプリコン上での分布を定義でき、また、１つの因子（例えば、シグネチャ、特徴等）へ次のように関連付けられることができる。分布は、長さに関する分布をもたらし得るのであり、平均長がこれに関連付けられていることができる。これらの平均を用いて、短因子、長因子、及び中立因子を定義できる。短因子は、関連付けられている平均長が平均の１／３分位点未満とされ得る因子にあたる。長因子は、関連付けられている平均長が平均の２／３分位点超過とされ得る因子にあたる。中立因子は、任意の残りの因子とされ得る。

因子は、短断片及び長断片についてのシグネチャである。H^Train（例えば、図５Ａ～５Ｅの行列７０４）の各行も１つの因子に関連付けられていることができる。因子は、短断片及び長断片についてのシグネチャである。

W^Trainについては格納され得る及び／又は決められ得るのであり、他方でH^Trainの各列については再計算をなし得る（例えば、H^Trainの各列は１つ個別事項／患者／試料に対応し、また、その個別事項／患者／試料の特徴ベクトル（features vector）を表す）。

検査セットたるH^Testの特徴行列（features matrix）を計算するために、Ｓ６０６では、非負最小二乗（ＮＮＬＳ、non-negative least squares）回帰をなし得る：

各試料についてＮＮＬＳを用いて取得した全ての因子（例えば、シグネチャ）の強度を、その試料の癌状態と組み合わせて用いて、分類器を訓練することによって試料が正常又は癌であると分類することができる。これはサポートベクトルマシン（ＳＶＭ、support vector machine）又はロジスティック回帰等の分類器を訓練することによってなせる。

ＳＶＭは、関連付けられた学習アルゴリズムを有する教師あり学習モデルとして用いられ得る。したがって、ＳＶＭは例えばＤＮＡ試料等のデータの分析に有益であって、癌又は正常（cancer or normal）に関して示すようにそのデータをより正確に分類できる。ガウスカーネルＳＶＭは、制約なく全ての特徴を用いることができる。別の例として、ガウスカーネルＳＶＭは次のような追加制約を伴って用い得る：コンピュータシステムは短因子のみを保持でき、正常案件における中央値（median）は癌案件における中央値よりも低いとされるとき。追加制約は、コンピュータシステムが長因子のみを保持するようにも要求でき、正常案件における中央値が癌案件における中央値よりも高いとされることができる。全ての中立因子を保持することもできる。

ロジスティック回帰は、ＤＮＡ試料を正常又は癌（normal or cancer）と分類するために、Ｓ６１０にて追加的に又は代替的に用いられ得る。ロジスティック回帰では、長断片（例えば、因子）と関連付けられている係数が負とされ得る。短断片と関連付けられている係数は正とされ得る。中立断片と関連付けられている係数は正負記号の制約を伴わないものとされ得る。

短因子及び長因子のみが定義されている例では、中立因子は無いことになる。短因子は、関連付けられている平均長（associated mean length）が因子に関連付けられている平均長の中央値（median of mean lengths associated to the factors）より少ない（less）因子とされ得る。長因子は、関連付けられている平均長（associated mean length）が平均の中央値（median of the means）よりも大きい（larger）因子とされ得る。そうすると、ロジスティック回帰分類器は、長因子に関連付けられている係数が負であり且つ短因子に関連付けられている係数が正である場合に、用いられ得る。追加的な又は代替的な分類器は制約なく全因子（短因子及び長因子のみ）を用いるガウスカーネルＳＶＭとされ得る。追加的な又は代替的な分類器としてはガウスカーネルＳＶＭが挙げられ、これに関しては、正常案件についての中央値が癌案件についての中央値より低い（lower）場合に短因子のみが保持され、正常案件についての中央値が癌案件についての中央値より高い（higher）場合に長因子のみが保持される。

また、一部の実施形態では、より安定的な（正常対癌）分類を得るために、データについての訓練セットは二部に分割できる。第１の部分はW^Train行列を計算するために用いることができ、これはW^Train ₁と表記できる。そして、訓練セットの全体について行列H^Trainを計算するために非負最小二乗回帰をW^Trainに適用できる。そして、W^Train ₁を用いることによってH^Testを計算できる。特徴が識別されたらば、コンピュータシステムは分類方法（例えば、Ｓ６１０のＳＶＭ）を適用して第１のスコアを得ることができる。この処理は、データの訓練セットの第２の部分を用いて行列W^Train ₂を計算することによって反復できる。第２のスコアを生成できる。２つのスコアをFisher法を用いて組み合わせることができる。

また、一部の実施形態では、アンプリコンについての追加的フィルタリングを行い得る。全ての染色体について、コンピュータシステムは、アンプリコンについての正規化計数を取って、ロジスティックＬＡＳＳＯ分類器に投入できるのであり、制約としては、ＬＡＳＳＯの係数は、大きさが＞８１であるアンプリコンについては負とされ、また、大きさが＜８１であるアンプリコンについては正とされる。随所で述べているように、より短い又はより小さい大きさ（サイズ）のアンプリコンは、癌を示す。大きさが＝８１であるアンプリコンの係数の正負符合はフリー状態のままにされ得る（例えば、これらは中立な因子、断片、又は特徴である）。ＬＡＳＳＯモデルによって選択されたアンプリコンが、後述のステップのために残されるものとされ得る。次に、全ての染色体について、フィルタリング済みのアンプリコンセットは確率推定のために用いられ得る：P(リーディング断片 | 断片長 = L)。また、前の確率に比例する量は推定可能である。前の確率は次式に比例し得る：

確率P(リーディング断片 | 断片長 = L)は、長さがＬのアンプリコンの比率から推定され得る。確率P(断片長 = L | リーディング断片)は、長さがＬのフィルタリング済みアンプリコンの正規化リードの合計によって推定可能である。

最後に、全ての推定された確率P(リーディング断片 | 断片長 = L)を全てのあり得る長さ及び全ての染色体について用いて、それらを弾性ネット分類器に投入すると、Ｌ＜８１のとき（例えば、癌を示すとき）には係数に対して正を課すことができ、Ｌ＞８１のとき（例えば、正常を示すとき）には係数に対して負を課すことができる。

図５Ａ～Ｅは、図４の処理６００についての非負値行列因子分解について説明する図である。図４を参照して上述されており且つ図５Ａにて示されているように、行列７００は試料の母集団を表し得る。異なるアンプリコンについての標準分布を識別でき、そして行列７００内に表された任意の１つの試料がより長い断片又はより短い断片（longer fragments or shorter fragments）についてより高い数値又は強度を伴っているかを決定できる。行列７００内のC₁₁、C₁₂、C₁₃、及びC_N等の各試料は正規化アンプリコン計数を有することができる。正規化アンプリコン計数は、１つのアンプリコンのＵＩＤ個数を１つの染色体腕内の全アンプリコンのＵＩＤ総数で除したものとされ得る。行列７００は、２つの行列７０２，７０４の積に分解できる。両方の行列７０２，７０４は、負の要素を有さないものとされ得る。

図５Ｂにて示されているように且つ図４を参照して上述されているように、短断片及び長断片（short fragments and long fragments）についてシグネチャを生成できる。シグネチャは行列７０２内にて表され得る。シグネチャ１は短断片を表し得る。シグネチャ２は長断片を表し得る。

図５Ｃに示されているように、各シグネチャは確率値を有し得る。行列７０２内のシグネチャ毎に各アンプリコンについてウェイトを割り当てることができる。換言するに、シグネチャには重み付けがなされている及び／又は正規化がなされていることができる。シグネチャ１（短断片）についての例示的なウェイトは、W₁₁、W₂₁、W₃₁、及びW₄₁を含む。行列７０１内のシグネチャのウェイトは合計されて１をもたらし得るのであり、これは式７０６にて示される通りである。

図５Ｄは行列７０４を説明するものであり、行列７０４は、母集団の特定の試料についてシグネチャがどの程度の強度を有するかを決定するために用い得る。行列７０４内の第１の行がシグネチャ１（短断片）を表し得るのであり、また、行列７０４内の第２の行がシグネチャ２（長断片）を表し得る。例えば、試料２がシグネチャ１についての強いＨ_１２を有する場合、これは患者が短断片を有していること（即ち、癌）を表し得る。他方、試料２がシグネチャ２についての強いＨ_２２を有する場合、これは患者が長断片を有していること（即ち、正常）を表し得る。試料毎の短断片及び長断片の相対強度を決定して、試料が短断片又は長断片のどちらをより有しているかを識別できる。よって、シグネチャ１についてのより高い強度は、試料がより短い断片を有しており、癌が示され得ることになる。これによって、試料毎の各シグネチャの強度が本開示の随所で示されている様なＳＶＭ又は他の分類器に投入されると、癌状態についてのより高信頼且つ正確な分類をもたらし得る。

図５Ｅは、試料Ｃ１２についての分類を決定するための式７０８について示す。図５Ａ～Ｄを参照して説明されているように、試料についての分類は、第１のシグネチャのウェイトをその第１のシグネチャの強度で乗じたものを、第２のシグネチャのウェイトをその第２のシグネチャの強度で乗じたものに加えたものによることができる。換言するに、C₁₂ = W₁₁ * H₁₂ + W₁₂ * H₂₂ である。結果として得られた数値は、試料C₁₂が主として短断片を有するか（これは癌を示す）、又は主として長断片を有するか（これは正常を示す）を示すために用いられ得る。

図６は、開示される手法を用いてなされる分類済みシーケンシングデータについてのグラフィカルな表現を示す図である。グラフ８００，８０２，８０４では、線８０６が癌を表し、線８０８が正常を表す。グラフ８００に示されているように、より少ない断片がより短く、また、同等ゲノムのたった１０％がより短い断片を有する場合、癌案件の線８０６は正常案件の線８０８により近い。より断片化した同等ゲノムの比率が２０％に増すと、グラフ８０２に示されているように癌案件の線８０６はより明確になりまた正常案件の線８０８からより遠くなる。最後に、グラフ８０４では、より断片化した同等ゲノムの比率が３０％に増したとき、癌案件の線８０６は明らかにより明確になりまた正常案件の線８０８からより遠くなる。したがって、グラフ８００，８０２，８０４は、より多くのＤＮＡ試料が用いられると、癌に関しての区別、検出、及び識別に関して正確性がより高まることを示す。

図７は、図４の非負値行列因子分解の処理９００についての流れ図である。図４～５を参照して上述されているように、正規化アンプリコン計数を試料毎に行列でＳ９０２にて受け付けることができる。行列は、Ｓ９０４では、２つの行列の積に分解できる。各シグネチャは、Ｓ９０６にて第１の行列内で短い又は長いとして分類されることができる。そして、Ｓ９０８にて第２の行列内で試料毎の各シグネチャの強度を決定できる。そして、Ｓ９１０にて強度に基づいて試料を癌又は正常と分類することができる。

図８は、lassoロジスティック回帰２０６を伴って訓練データ２０２をフィルタリング２００するための代替的処理について説明する図である。これは、本明細書にて説明したシステム及び方法に対しての代替的なアプローチとなり得る。訓練データ２０２は、コンピューティングシステム１０４（例えば、図１を参照）によって受信される染色体腕毎のアンプリコン２０４Ａ～Ｎ（例えば、シーケンシング済みＤＮＡ試料１０８）を含み得る。

訓練データ２０２は、大きさ及び他の因子に基づいて除外されなかったアンプリコン２０４Ａ～Ｎを含み得る。換言するに、アンプリコンは正規化されていることができる。アンプリコンは、次の事項に基づいてＤＮＡ試料から除外され得る：フラグ付けされた位置、曖昧な大きさ（例えば、大きさ＝０）、大きさが１１０ｂｐを超えること、全raceにおける不十分な表現（例えば、アンプリコンは試料セットにおいて全raceについて>+ 20のリード（ＵＩＤ）を試料の> 20%について有しているべきである、アンプリコン全体がリードされる頻度についてフィルタリングがなされる、分散及び平均計数に基づいて代替に関してフィルタリングがなされる）、及び／又はコンティグ上のアンプリコン。アンプリコンをＤＮＡ試料から除外するために、１つ以上の他の因子を用いることができる。

例を挙げるに、コンピュータシステムは、700,000のアンプリコンをもって始まるかそれを受け付けることができる。アンプリコンは、それらが曖昧な大きさを有しているか大きさが< 110 bpであるかに基づいて除外されることができる。このステップの後、コンピュータシステムには400,000のアンプリコンが残っている場合がある。残っている400,000のアンプリコンについては、全raceに表されているアンプリコンを保持するということに基づいてさらに調整できる。結果として、コンピュータシステムにはフィルタ及び分類すべきものとしては200,000のアンプリコンが残されるということになり得る。

図８に示されているように、正規化アンプリコン２０４Ａ～Ｎは、正規化アンプリコン計数２０４Ａ～Ｎに対してlassoロジスティック回帰１０６を実行して全ての染色体について癌状態を予測することによって、予測をなし得るアンプリコンに関してフィルタリングされ得る。lasso回帰２０６は特徴選定機能を有し得るのであり、コンピュータシステムが全アンプリコン２０４Ａ～Ｎのセットを削減することを可能とする。上記の例では、全アンプリコンのセットは200,000のアンプリコンを含み得るのであり、また、ロジスティック回帰２０６はその個数を約1,000アンプリコンに削減できる。

具体的には、訓練データ２０２内において、コンピュータシステムは、アンプリコンをそれがどの染色体に属するかに基づいて分離できる（例えば、染色体毎のアンプリコンセット２０４Ａ～Ｎを参照）。そして、所与の染色体からのアンプリコンの正規化リード（例えば、２０４Ａ～Ｎ）を用いて、コンピュータシステムは、本明細書で説明されるようにして染色体毎の癌状態を予測できる。リードは、各試料内の総リード数によって正規化されることができる。この処理は、各染色体１から２２について反復できる。各染色体からのフィルタリング済みアンプリコンは、１つのステップに組み合わされることができる。

図９は、弾性ネット回帰３０４を用いてフィルタリング済み訓練データ３０２を使用して分類器を訓練３００する代替的処理について示す図である。これは、本明細書にて説明したシステム及び方法に対しての代替的なアプローチとなり得る。訓練３００は、本明細書で記載のコンピュータシステムによってなされ得る。訓練３００は、上述のようにして（例えば、図８を参照）アンプリコンが正規化及び／又はフィルタリングされた後になされ得る。例えば、訓練データ３０２は、図８に示されているようにフィルタリングされたデータ２０２であることができる。

フィルタリング済みアンプリコンのセットが訓練データ３０２として生成されると（例えば、図８を参照）、コンピュータシステムは、訓練セット３０２内のそれらのフィルタリング済みアンプリコンについての正規化アンプリコンリードに対して最終予測モデルを実行できる。分類器に関しては、lassoロジスティック回帰、弾性ネットロジスティック回帰３０４、及びブースティングを用い得る。弾性ネット回帰３０４は訓練データ３０２を分類する際にはスピード及び性能でより有利となり得る。一般的には、５回の反復を伴う２分割交差検証(2-fold cross-validation)をなし得る。

代替的に又は追加的には、アンプリコン計数は、全体的な総リード数に代えてそのアンプリコンの染色体内での総リード数によって正規化されることができる。ｘ_ｋが染色体ｊ内のアンプリコンｋについてのリード数であるとする。総リード数によって正規化することは、次式の正規化計数をもたらし得る：
対照的に、染色体の合計で正規化することは、染色体ｊ内のアンプリコンｋについて、次式の正規化計数をもたらし得る：

そして、アンプリコンのフィルタリングに際しては（例えば、図８を参照）、フィルタリング済みアンプリコンは染色体毎に隔離されることができる。予測モデルは、フィルタリング済みアンプリコンリード計数上の全ての染色体について訓練されることができ、これらは今となっては染色体合計によって正規化されている。換言するに、コンピュータシステムは、染色体１からのフィルタリング済みアンプリコンのみを用いて訓練及びテストを行えるのであり、そして、コンピュータシステムは染色体２からのフィルタリング済みアンプリコンのみを用いて訓練及びテストを行える。その結果として、コンピュータシステムが従前は１つの最終予測モデルを実行していたのであるならば、今となってはコンピュータシステムは1 * 22個のモデルを実行できるのであり、ここで２２は染色体数である。

例を挙げるに、染色体ｊの数が２倍であり、故に癌患者について、染色体ｊ内の全てのアンプリコンについての計数の数が２倍であると仮定する。そうすると、染色体ｊ内の総リード数で除することによって、正常者と癌患者との間のこの異数性の差を除くことができる。しかしながら、総リード数全体で除することによって、この異数性信号を一般的には除けないことがある。これが示唆することは、何らかの異数性信号は、本明細書にて説明された２つの正規化の選択肢の間で性能差として反映され得るということである。

図１０は、開示の手法を用いた例としての盲検法的症例対象研究からの結果についてのグラフィカルな描写１０００についての図である。図１１は、開示の手法を適用して試料の複製をする際のグラフィカルな描写１１００についての図である。図１０～１１の両方を参照するに、開示の手法は、進行腺腫（ＡＡ、Advanced Adenoma）を発見するために用いられることもできる。例えば、開示の手法は、ｃｆＤＮＡ内において異数性及び／又はＤＮＡ断片長の異常分布の存在について検知することを可能とし得る。例えば、ＤＮＡ断片の大きさ（サイズ）が短いと、臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも１つが示されている場合がある。つまるところ、異数性又は異常な断片長分布がもたらす信号は、単一の変異がもたらす信号よりも広範囲に及び得る。よって、開示の手法は、ｃｆＤＮＡ内での異数性及び異常ＤＮＡ断片化についての「シグネチャ」の存在を検出及び数値化することに関して良い感度及び高い特異度をもたらす。

図１０のグラフィカルな描写１０００によって示されているように、開示の手法は、ＡＡについて8/20 (40%)の識別を提供することができ、これは、変異に基づくアプローチを用いたＡＡ検出率8.1％に対する改善とみなし得る。

図１０～１１はいずれも例示的な研究を示すのであり、具体的にはＡＡを有する４０人の患者及び３２人の対照群でなす７２件の盲検法的血液試料に対して開示の手法を用いて検査をなし得る。開示の方法論では（図１０を参照するに）ＡＡに関して次のような識別結果をもたらし得る：特異度１００％では10/40 (25%)；２件の擬陽性を伴うと11/40 (27.5%)（特異度０．９４）；３件の擬陽性を伴うと15/40 (37.5%)（特異度０．９１）；並びに４件の擬陽性を伴うと19/40 (47.5%)（特異度０．８７５）。開示の手法を癌データで訓練して当初得られたのと同じ０．９９の特異度閾値を維持しても、性能は実質的には変わらない。図１１によれば、当初の分析と繰り返しの分析との間で高い整合性が示されており、それに故に、開示の手法を用いてもたらされた第１及のスコアと第２のスコアとの間で高い相関が示される。総合するに、図１０～１１に示されているように、開示の手法によってＡＡの４７．５％を特異度８７．５％にて検出できる。重要なことに、同じ閾値を用いて訓練時に得られた検証結果は、開示の手法の再現性を強調し得る。

図１２は、開示の手法を実施するために用い得るコンピューティング装置１２００及びモバイル型コンピューティング装置の例を示す。コンピューティング装置１２００は、ラップトップ、デスクトップ、ワークステーション、ＰＤＡ、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータ等の、様々な形式のデジタルコンピュータを表すものと意図されている。モバイル型コンピューティング装置は、ＰＤＡ、携帯電話、スマートフォン、及びその他の類似のコンピューティング装置等の様々な形式のモバイル機器を表すものと意図されている。ここにて示したコンポーネント、それらの接続及び関係性、並びにそれらの機能は、例示的に過ぎず、本開示にて説明及び／又は権利請求された発明の実施形態を限定することは意図されていない。

コンピューティング装置１２００は、プロセッサ１２０２と、メモリ１２０４と、記憶装置１２０６と、メモリ１２０４及び複数の高速拡張ポート１２１０に接続する高速インタフェース１２０８と、低速拡張ポート１２１４及び記憶装置１２０６に接続する低速インタフェース１２１２を含む。プロセッサ１２０２、メモリ１２０４、記憶装置１２０６、高速インタフェース１２０８、高速拡張ポート１２１０、及び低速インタフェース１２１２の各々は、様々なバスを用いて相互接続されており、また、共通のマザーボードに搭載されたり他の適切な態様で搭載されたりし得る。プロセッサ１２０２は、メモリ１２０４内に又は記憶装置１２０６上に記憶された命令を含むコンピューティング装置１２００内で実行されるための命令を処理して、高速インタフェース１２０８に結合されたディスプレイ１２１６等の外部入出力装置にＧＵＩ用のグラフィカル情報を表示できる。他の実施形態では、複数のプロセッサ及び／又は複数のバスを複数のメモリ及び複数のメモリタイプと共に適宜使用できる。また、複数のコンピューティング装置を接続し、各装置が必要な動作の一部を提供するものとし得る（例えば、サーババンク、ブレードサーバ群、又はマルチプロセッサシステムとして）。

メモリ１２０４はコンピューティング装置１２００内に情報を格納する。一部の実施形態では、メモリ１２０４は揮発性メモリユニットとされる。一部の実施形態では、メモリ１２０４は不揮発性メモリユニットとされる。メモリ１２０４は、磁気又は光学ディスク等の他の形式のコンピュータ可読媒体とされることもできる。

記憶装置１２０６は、コンピューティング装置１２００に対して大容量記憶装置をもたらし得る。いくつかの実施形態では、記憶装置１２０６は、フロッピーディスク装置、ハードディスク装置、光ディスク装置、又はテープ装置、フラッシュメモリ又は他の同様のソリッドステートメモリ装置、又はストレージエリアネットワーク内の装置又は他の構成の装置を含む装置アレイ等のコンピュータ可読媒体であるか又はそれを含み得る。コンピュータプログラム製品は、情報キャリア内にて有形的に化体されていることができる。コンピュータプログラム製品は、実行されると上述の方法等の１つ以上の方法を行わせる命令を含むこともできる。コンピュータプログラム製品は、メモリ１２０４、記憶装置１２０６、又はプロセッサ１２０２上のメモリ等のコンピュータ可読又は機械可読な媒体内に有形的に化体されていることもできる。

高速インタフェース１２０８はコンピューティング装置１２００のために帯域集中型オペレーションを管理する一方で、低速インタフェース１２１２はより低帯域寄りオペレーションを管理する。このような機能分担は例示的に過ぎない。一部の実施形態では、高速インタフェース１２０８は、（例えば、グラフィクスプロセッサ又はアクセレレータを介して）メモリ１２０４、ディスプレイ１２１６に結合され、及び様々な拡張カード（不図示）を受容可能な高速拡張ポート１２１０に結合されている。実施形態では、低速インタフェース１２１２は、記憶装置１２０６及び低速拡張ポート１２１４に結合されている。様々な通信ポート（例えば、ＵＳＢ、Bluetooth、イーサネット、無線イーサネット等）を含み得る低速拡張ポート１２１４は、１つ以上の入出力装置に結合されていることができ、これらには、キーボード、ポインティング装置、スキャナ、又は例えばネットワークアダプタ等を介したスイッチ又はルータ等のネットワーク機器が含まれる。

コンピューティング装置１２００は、いくつかの異なる形式にて実装でき、これは図面に示されている。例えば、標準的なサーバ１２２０として実装されるか、そのようなサーバの群内にて複数個で実装され得る。また、例えばラップトップコンピュータ１２２２等としてＰＣ内にて実装され得る。また、ラックサーバシステム１２２４の一部として実装されることもできる。代替的には、コンピューティング装置１２００からのコンポーネントは、例えばモバイル型コンピューティング装置１２５０等のモバイル機器（不図示）内の他のコンポーネントと組み合わされることができる。このような装置の各々は、コンピューティング装置１２００及びモバイル型コンピューティング装置１２５０の１つ以上を含むことができ、相互に通信する複数のコンピューティング装置で全体的なシステムを構成できる。

モバイル型コンピューティング装置１２５０は、他のものも含むが、プロセッサ１２５２、メモリ１２６４、ディスプレイ１２５４等の入出力装置、通信インタフェース１２６６、及びトランシーバ１２６８等を含む。モバイル型コンピューティング装置１２５０には、追加ストレージを提供するために、マイクロドライブ又は他の装置等の記憶装置が設けられていることもできる。プロセッサ１２５２、メモリ１２６４、ディスプレイ１２５４、通信インタフェース１２６６、及びトランシーバ１２６８の各々は、様々なバスを用いて相互接続されており、また、いくつかのコンポーネントは共通のマザーボードに搭載されたり他の適切な態様で搭載されたりし得る。

プロセッサ１２５２は、メモリ１２６４に記憶された命令を含めてモバイル型コンピューティング装置１２５０内にて命令を実行できる。プロセッサ１２５２は、別個の複数のアナログプロセッサ及びデジタルプロセッサを含むチップで構成されるチップセットとして実装できる。プロセッサ１２５２は、例えば、ユーザインタフェースの制御、モバイル型コンピューティング装置１２５０によって実行されるアプリケーションの制御、及びモバイル型コンピューティング装置１２５０による無線通信の制御等のモバイル型コンピューティング装置１２５０の他のコンポーネントの協調制御を担い得る。

プロセッサ１２５２は、ディスプレイ１２５４に結合された制御インタフェース１２５８及びディスプレイインタフェース１２５６を介してユーザと通信できる。ディスプレイ１２５４は、例えば、ＴＦＴ（薄膜トランジスタＬＣＤ）ディスプレイ又はＯＬＥＤ（有機発光ダイオード）ディスプレイ等又は他の適切なディスプレイ技術とされ得る。ディスプレイインタフェース１２５６は、ディスプレイ１２５４を駆動してグラフィカル情報及びその他の情報をユーザに提示するための適切な回路を備え得る。制御インタフェース１２５８は、ユーザからのコマンドを受信して、これらを変換してプロセッサ１２５２に渡すことができる。さらに、外部インタフェース１２６２は、モバイル型コンピューティング装置１２５０の他の装置との近距離通信を可能とするようにプロセッサ１２５２との通信能を提供することができる。外部インタフェース１２６２は、例えば、一部の実施形態では有線通信能を、他の実施形態では無線通信能を提供でき、また、複数のインタフェースを使用することもできる。

メモリ１２６４はモバイル型コンピューティング装置１２５０内に情報を格納する。メモリ１２６４は、コンピュータ可読媒体、揮発性メモリユニット、又は不揮発性メモリユニットの１つ以上として実装され得る。拡張メモリ１２７４も、例えばＳＩＭＭ（Single In Line Memory Module）カードインタフェースを含むことができる拡張インタフェース１２７２を介してモバイル型コンピューティング装置１２５０に、設けることができ、また、接続もできる。拡張メモリ１２７４は、モバイル型コンピューティング装置１２５０のための追加記憶域を提供でき、或いはモバイル型コンピューティング装置１２５０のためにアプリケーション若しくは他の情報を格納することもできる。具体的には、拡張メモリ１２７４は、上述した処理を実行又は補足するための命令を含み得るのであり、また、セキュア情報を含むこともできる。したがって、例えば、拡張メモリ１２７４は、モバイル型コンピューティング装置１２５０のセキュリティモジュールとして提供されることができ、また、モバイル型コンピューティング装置１２５０のセキュアな使用を可能たらしめる命令をもってプログラムされ得る。また、ＳＩＭＭカードに識別情報をハッキング不能な態様で載せられた等の追加情報と共に、セキュアなアプリケーションを、ＳＩＭＭカードを介して提供できる。

メモリは、例えば、後述するように、フラッシュメモリ及び／又はＮＶＲＡＭメモリ（不揮発性ＲＡＭ）を含むことができる。一部の実施形態では、コンピュータプログラム製品は、情報キャリアにて有形的に化体されている。コンピュータプログラム製品は、実行されると上述の方法等の１つ以上の方法を行わせる命令を含むことができる。コンピュータプログラム製品は、メモリ１２６４、拡張メモリ１２７４、又はプロセッサ１２５２上のメモリ等のコンピュータ可読又は機械可読な媒体とされ得る。一部の実施形態では、コンピュータプログラム製品は、例えば、トランシーバ１２６８又は外部インタフェース１２６２を介して伝播された信号にて受信され得る。

モバイル型コンピューティング装置１２５０は、適宜デジタル信号処理回路を含み得る通信インタフェース１２６６を介して無線通信できる。通信インタフェース１２６６は、他のものもあるが例えば次のような様々なモード又はプロトコル下での通信を可能とし得る：ＧＳＭ音声通話（Global System for Mobile communications）、ＳＭＳ（Short Message Service）、ＥＭＳ（Enhanced Messaging Service）、或いはＭＭＳメッセージング（Multimedia Messaging Service）、ＣＤＭＡ（コード分割多重アクセス）、ＴＤＭＡ（時分割多重アクセス）、ＰＤＣ（Personal Digital Cellular）、ＷＣＤＭＡ（Wideband Code Division Multiple Access）、ＣＤＭＡ２０００或いはＧＰＲＳ（General Packet Radio Service）等。そのような通信は、例えば無線周波数を用いてトランシーバ１２６８を介して生じ得る。また、短距離通信は、Bluetooth、WiFi、又はその他のそのようなトランシーバ（不図示）を用いる等して生じ得る。さらに、ＧＰＳ（Global Positioning System）受信機モジュール１２７０は、追加のナビゲーション及び位置関連の無線データをモバイル型コンピューティング装置１２５０に提供でき、これは、適宜モバイル型コンピューティング装置１２５０上で実行されているアプリケーションによって使用されることができる。

モバイル型コンピューティング装置１２５０は、ユーザからの発話情報を受信して活用可能なデジタル情報に変換することができる音声コーデック１２６０を用いて可聴的に通信することもできる。音声コーデック１２６０は、同様にして例えばモバイル型コンピューティング装置１２５０のハンドセット内のスピーカ等を介する等してユーザ向けに可聴音を生成できる。そのような音は、音声電話からの音を含むことができ、録音された音（例えば、音声メッセージ、音楽ファイル等）を含むことができ、モバイル型コンピューティング装置１２５０上で動作するアプリケーションによって生成された音をも含むことができる。

モバイル型コンピューティング装置１２５０は、いくつかの異なる形式にて実装でき、これは図面に示されている。例えば、それは携帯電話１２８０として実装され得る。また、それはスマートフォン１２８２、ＰＤＡ、又は他の類似のモバイル型装置の一部として実装され得る。

ここで説明されるシステム及び手法の様々な実装は、デジタル電子回路、集積回路、専用設計のＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで具現化可能である。これらの様々な実装としては、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び／又は解釈可能な１つ以上のコンピュータプログラムにての実装が含まれ得るのであり、該プロセッサは、専用又は汎用とされ得るのであって、データ及び命令を記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置から受信し、それらへとデータ及び命令を送信できるように結合されている。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも称する）は、プログラム可能なプロセッサのための機械命令を含み、また、高水準手続型言語及び／又はオブジェクト指向型プログラミング言語、及び／又はアセンブリ／機械語で実装可能である。本明細書で用いる際、機械可読媒体及びコンピュータ可読媒体という用語は、機械可読信号として機械命令を受信する機械可読媒体を含めて、機械命令及び／又はデータをプログラム可能プロセッサに提供するために用いられる任意のコンピュータプログラム製品、装置及び／又はデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス（ＰＬＤ））を指す。機械可読信号という用語は、機械命令及び／又はデータをプログラム可能なプロセッサに提供するために用いられる任意の信号を意味する。

ユーザとの対話を可能とするために、本開示で説明するシステム及び手法は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、並びにユーザがコンピュータに入力を与えるためのキーボード及びポインティング装置（例えば、マウス又はトラックボール）を有するコンピュータ上にて実装できる。ユーザとの対話を可能とするために他の種類の装置を用い得るのであり；例えば、ユーザに提供するフィードバックは任意の感覚的フィードバック（例えば、視覚フィードバック、聴覚（auditory）フィードバック、又は触覚フィードバック等）とすることができ；また、ユーザからの入力は、任意の形式で受信できこれには音響（acoustic）、音声（speech）、又は触覚入力が含まれる。

ここで説明するシステム及び手法は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピューティングシステム、又はミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピューティングシステム、又はフロントエンドコンポーネント（例えば、ユーザが本開示で説明されるシステム及び手法の実装と対話できるＧＵＩ又はウェブブラウザを有するクライアントコンピュータ）、又はそのようなバックエンド、ミドルウェア又はフロントエンドコンポーネントの任意の組み合わせで実装され得る。システムのコンポーネントは、デジタルデータ通信についての任意の形式又は媒体で相互接続されることができる（例えば、通信ネットワーク）。通信ネットワークの例には、ＬＡＮ、ＷＡＮ、及びインターネットが含まれる。

コンピューティングシステムには、クライアント及びサーバが含まれ得る。クライアント及びサーバは一般的に相互にリモートに配置されており、典型的には通信ネットワークを介して対話する。クライアントとサーバとの関係性は各々のコンピュータ上にて実行されているコンピュータプログラムの作用によるのであり、双方がクライアントサーバ関係を有していることによる。

本明細書には多くの具体的な実施形態についての詳細が含まれているも、これらは開示技術の範囲又は権利請求され得るものについての制限として解釈されるべきではなく、むしろ特定の開示技術の特定の実施形態に固有となり得る特徴についての説明として解されるべきである。別個の実施形態の文脈で本明細書にて説明されている特定の特徴は、部分的又は全体的に単一の実施形態で組み合わせて実施することもできる。反対に、単一の実施の形態において説明される様々な特徴は、個別に複数の実施形態において実施されてもよく、又は任意の適切な組み合わせで実施されてもよい。さらに、複数の特徴が特定の組み合わせとして上述され及び／又は当初から請求され得るも、それらの特徴の１つ以上はいくつかの場合において組み合わせから除外されていてもよく、請求される組み合わせはそのような下位の組合せ又は下位の組合せの変種を含み得る。同様に、複数の操作は特定の順序にて説明され得るも、これらの操作は、望ましい結果を達成するために、特定の順番又は連続する順番で実行されること、又は全ての図示される操作が実行されることを要するものではないと理解されるべきである。主題に関しての特定の実施形態について説明した。他の実施形態は添付の特許請求の範囲に含まれる。

Claims

非負値行列因子分解を用いて、データを分類する方法であって、前記方法は：
試料データの母集団を受け付けるステップであって、前記母集団は試料データ毎のアンプリコン計数を含む、ステップと、
試料データ毎の前記アンプリコン計数についての第１の行列を生成するステップと、
前記第１の行列を第２の行列と第３の行列との積に分解するステップであって、前記第２の行列は短ＤＮＡ断片及び長ＤＮＡ断片についてのシグネチャであり、また、前記第３の行列は前記短ＤＮＡ断片及び前記長ＤＮＡ断片についての各シグネチャの強度である、ステップと、
前記第２の行列に関して、各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、
前記第３の行列に関して、前記試料データ毎に各シグネチャの強度を決定するステップと、
各シグネチャの前記強度に基づいて前記試料データを分類するステップと、を含む、方法。
請求項１に記載の方法において、前記アンプリコン計数を正規化するステップをさらに含む、方法。
請求項１に記載の方法において、前記アンプリコン計数をフィルタリングするステップをさらに含む、方法。
請求項１に記載の方法において、前記シグネチャは、前記短断片の大きさを示す第１のシグネチャと、前記長断片の大きさを示す第２のシグネチャとを含む、方法。
請求項４に記載の方法において、前記短断片の大きさは癌を示す、方法。
請求項４に記載の方法において、前記長断片の大きさは正常を示す、方法。
請求項４に記載の方法において、前記第１のシグネチャについてより高い強度を有する試料データに分類値１を割り当てるステップをさらに含む、方法。
請求項４に記載の方法において、前記第２のシグネチャについてより高い強度を有する試料データに分類値０を割り当てるステップをさらに含む、方法。
請求項１に記載の方法において、各試料データ毎の各シグネチャの前記強度に非負最小二乗関数を適用するステップをさらに含む、方法。
請求項１に記載の方法において、各試料データ毎の各シグネチャの前記強度に線形回帰分析を適用するステップさらに含む、方法。
請求項１に記載の方法において、前記試料データを分類するステップは深層学習モデルを適用することを含む、方法。
請求項１に記載の方法において、前記試料データを分類するステップは状態ベクトルマシンを適用することを含む、方法。
請求項１に記載の方法において、各試料データは染色体腕である、方法。
請求項１に記載の方法において、各試料データはシーケンシング済みＤＮＡ試料である、方法。
請求項１に記載の方法において、前記方法において適用される１つ以上のアルゴリズムを反復的に改良するステップをさらに含む、方法。
請求項４に記載の方法において、前記短断片の大きさは臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも１つを示す、方法。
非負値行列因子分解を用いて、データを分類するシステムであって、前記システムは：
１つ以上のプロセッサと、
命令が格納されたコンピュータメモリと、を含み、前記命令は、前記プロセッサによって実行されると、前記プロセッサに：
試料データの母集団を受け付けるステップであって、前記母集団は試料データ毎のアンプリコン計数を含む、ステップと、
試料データ毎の前記アンプリコン計数についての第１の行列を生成するステップと、
前記第１の行列を第２の行列と第３の行列との積に分解するステップであって、前記第２の行列は短ＤＮＡ断片及び長ＤＮＡ断片についてのシグネチャであり、また、前記第３の行列は前記短ＤＮＡ断片及び前記長ＤＮＡ断片についての各シグネチャの強度である、ステップと、
前記第２の行列に関して、各シグネチャが各アンプリコン計数毎に長断片又は短断片であるかを決定するステップと、
前記第３の行列に関して、前記試料データ毎に各シグネチャの強度を決定するステップと、
各シグネチャの前記強度に基づいて前記試料データを分類するステップと、を含む動作を行わせる、システム。
請求項１７に記載のシステムにおいて、前記シグネチャは、前記短断片の大きさを示す第１のシグネチャと、前記長断片の大きさを示す第２のシグネチャとを含む、システム。
請求項１８に記載のシステムにおいて、前記短断片の大きさは癌を示す、システム。
請求項１８に記載のシステムにおいて、前記短断片の大きさは臓器内の腺腫性ポリープ若しくは進行腺腫又は腫瘍の少なくとも１つを示す、システム。