JP2022524208A

JP2022524208A - 腫瘍モデルの同定のための方法および組成物

Info

Publication number: JP2022524208A
Application number: JP2021555073A
Authority: JP
Inventors: グオ，シェン; チェン，シャオボ; キアン，ウービン; リ，ヘンリー
Original assignee: クラウンバイオサイエンス（スーチョウ）インコーポレイテッド
Priority date: 2019-03-12
Filing date: 2020-03-12
Publication date: 2022-04-28
Also published as: WO2020182193A1; US11739387B2; EP3938536A1; US20210277486A1; CN113614246A; EP3938536A4

Abstract

本開示は、一群のＳＮＰ遺伝子座における試料、例えば腫瘍モデル、の遺伝子型に基づいて試料を同定または認証するための方法および組成物、例えばキット、を提供する。【選択図】なし

Description

関連出願の相互参照
本出願は、２０１９年３月１２日出願の出願ＰＣＴ／ＣＮ２０１９／０７７７５０号に基づく優先権を主張するものであり、その開示を本明細書に参考として組み込む。

本発明は全般に、分子生物学、がん生物学および動物モデルに関する。

細胞株、オルガノイド、異種移植および同種移植モデルは、腫瘍学およびその他の生物医学的研究において有用なモデルシステムである。モデルの認証および特徴づけは、それらの適切な利用を助け、誤同定および誤用、交差夾雑、誤ったがん分類、長期培養および遺伝的浮動に起因するゲノム変化などの一連の問題を軽減するが、これらは全て、それらの一般的な使用に起因して、細胞株において特に十分に注目されたものである。例えば、様々な研究が、細胞株バンクについて、約１０～４０％の誤同定／夾雑率を報告している。

細胞形態学試験、イソ酵素学〔isoenzymology〕、細胞遺伝学的分析（核型分析およびＦＩＳＨ）、ヒトリンパ球抗原（ＨＬＡ）タイプ分け、ショートタンデムリピート（ＳＴＲ）プロファイリング、単一ヌクレオチド多型（ＳＮＰ）タイプ分け、ＤＮＡおよびＲＮＡシークエンシングを含む、細胞株を認証するための様々な方法が存在している（Ｆｒｅｅｄｍａｎ，Ｌ．Ｐ．ｅｔａｌ．Ｂｉｏｔｅｃｈｎｉｑｕｅｓ５９，１８９－９０，１９２（２０１５）；Ｎｉｍｓ，Ｒ．Ｗ．＆Ｒｅｉｄ，Ｙ．ＩｎＶｉｔｒｏＣｅｌｌＤｅｖＢｉｏｌＡｎｉｍ５３，８８０－８８７（２０１７））。これらの技術のうち、ＳＴＲプロファイリングは最も広く使用されており、ヒト細胞株を認証する際のその適用を指南する基準（ＡＳＮ－０００２）が存在する（Ａｌｍｅｉｄａ，Ｊ．Ｌ．，Ｃｏｌｅ，Ｋ．Ｄ．＆Ｐｌａｎｔ，Ａ．Ｌ．ＰＬｏＳＢｉｏｌ１４，ｅ１００２４７６（２０１６））。マウス細胞株については、１９のＳＴＲマーカーのパネルも開発されている（Ｚａａｉｊｅｒ，Ｓ．ｅｔａｌ．Ｅｌｉｆｅ６（２０１７））。夾雑物を検出するためのＳＴＲアッセイの感度は、約５～１０％である（Ｙｕ，Ｍ．ｅｔａｌ．Ｎａｔｕｒｅ５２０，３０７－１１（２０１５））。近年、ＳＮＰタイプ分けは、その改善された精度、感度および低減されたコストのおかげで、細胞株および生体試料認証のためにますます使用されるようになってきている。ＳＮＰは、ＰＣＲ、ならびにトランスクリプトームシークエンシングまたはＲＮＡ－ｓｅｑ、全エキソームシークエンシング（ＷＥＳ）および全ゲノムシークエンシング（ＷＧＳ）を含む次世代シークエンシング（ＮＧＳ）によってプロファイリングすることができる。現行のＳＮＰアッセイは、約３～５％の検出感度を有する。それらの認証および特徴づけを促進する、ＳＴＲ、ＳＮＰおよび細胞株についてのその他の情報を含むデータベースも存在する。

細胞株に加えて、オルガノイドおよびマウス腫瘍モデルが、腫瘍学研究および薬物開発において広く使用されている。オルガノイドは、幹細胞、初代および操作された腫瘍試料、ならびに多くの生物構造および機能を維持する異種移植されたヒト腫瘍に由来するｉｎｖｉｔｒｏ三次元培養物である。マウス腫瘍モデルは、患者由来異種移植（ＰＤＸ）、細胞株由来異種移植（ＣＤＸ）、同系またはマウス細胞株由来モデル、マウス同種移植モデルなどを含むｉｎｖｉｖｏシステムである。ＰＤＸなど、これらのモデルの一部は、細胞株よりも、原発性腫瘍についての病理組織学およびゲノミクスを忠実に捕捉することができる。細胞株と同様、これらの腫瘍モデルには、類似の品質管理上の問題があるが、さらなる問題が存在する。異種移植モデルでは、腫瘍は、ヒト腫瘍細胞およびマウス間質細胞を含有し、後者は、モデルの継代の間にヒトの対応物を徐々に置き換え、これがゲノム不均一性、移植部位の違い（皮下および同所）、増殖の変動および切開のランダムさと複合されると、腫瘍のヒト－マウス遺伝子組成は、同じＰＤＸからのものであっても、一部の試料がほとんど純粋なヒト内容またはマウス内容である程度まで、かなり異なることになる。このような腫瘍－宿主混合および干渉は、全ての移植された腫瘍モデルに生じ、ＳＴＲマーカーおよびＳＮＰについての対立遺伝子頻度のゆらぎを引き起こし、したがって、従来のＳＴＲおよびＳＮＰベースの認証方法に有害な影響を与える。大規模試料認証はまた、多くの種類のｉｎｖｉｔｒｏおよびｉｎｖｉｖｏモデルが同時に維持され使用されるバイオバンクについては特に、ロジスティック上の負荷があり、エラープローンである。したがって、腫瘍モデルを同定および認証するための新たなＳＮＰベースのアッセイを開発する必要がある。

一態様では、本開示は、試料を同定または認証するための方法を提供する。一実施形態では、この方法は、試料から核酸を得ること；複数のヒト単一ヌクレオチド多型（ＳＮＰ）遺伝子座または複数のマウスＳＮＰ遺伝子座において、試料について遺伝子型を検出すること；試料についての遺伝子型を参照遺伝子型と比較すること；および試料の同定を決定することを含む。ある種の実施形態では、ヒトＳＮＰは、表１に示される群から選択される。ある種の実施形態では、マウスＳＮＰは、表２に示される群から選択される。

ある種の実施形態では、試料は、細胞、組織、オルガノイド、またはそれらの組合せである。ある種の実施形態では、試料は、細胞株または腫瘍組織である。ある種の実施形態では、試料は、異種移植または同種移植腫瘍モデルに由来する。ある種の実施形態では、試料は、患者由来異種移植（ＰＤＸ）、細胞株由来異種移植（ＣＤＸ）、同系またはマウス細胞株由来モデル、マウス同種移植モデルに由来する。

ある種の実施形態では、試料は夾雑物を含み、方法は、試料中の夾雑物のパーセンテージを決定することをさらに含む。ある種の実施形態では、この方法は、夾雑物の正体を決定することをさらに含む。

ある種の実施形態では、検出するステップは、次世代シークエンシング（ＮＧＳ）またはシークエンシングベースのＳＮＰアレイを使用する。ある種の実施形態では、核酸は、バーコード化される。

ある種の実施形態では、この方法は、試料を得た対象の性別を同定することをさらに含む。ある種の実施形態では、この方法は、試料を得た対象の民族性を同定することをさらに含む。ある種の実施形態では、この方法は、試料中のウイルスまたはマイコプラズマの存在を検出することをさらに含む。ある種の実施形態では、この方法は、試料を得た免疫不全マウスの系統を決定することをさらに含む。

別の態様では、本開示は、ヒト構成成分およびマウス構成成分を含む試料を認証する方法を提供する。ある種の実施形態では、この方法は、試料から核酸を得ること；１００個以上のマウスゲノム遺伝子座において、試料の遺伝子型を検出すること、ここで、マウスゲノム遺伝子座の各々が、対応する相同なヒトゲノム遺伝子座を有し、マウスゲノム遺伝子座の各々および対応する相同なヒトゲノム遺伝子座が、同一な隣接ヌクレオチド配列を有する；ならびに遺伝子型に基づいて、試料中のマウス構成成分の比率を決定すること、を含む。ある種の実施形態では、マウスゲノム遺伝子座は、表６から選択される。

別の態様では、本開示は、試料を同定するためのキットを提供する。ある種の実施形態では、このキットは、試料中の一群のヒトＳＮＰ遺伝子座または一群のマウスＳＮＰ遺伝子座を検出するためのプライマーを含む。ある種の実施形態では、このキットは、ヒトまたはマウスＳＮＰを含有するＤＮＡ断片を、これらのプライマーを使用して増幅するための薬剤をさらに含む。

別の態様では、本開示は、ヒトまたはマウス試料を同定するためのマイクロアレイを提供する。ある種の実施形態では、このマイクロアレイは、一群のヒトまたはマウスＳＮＰ遺伝子座において試料の遺伝子型を検出するためのプローブを含む。

さらに別の態様では、本開示は、指示が記憶された非一過性のコンピュータ可読媒体であって、指示がプロセッサによって実行されるとき、指示がプロセッサに、一群のヒトまたはマウスＳＮＰ遺伝子座における試料の遺伝子型の検索；試料の遺伝子型の、参照遺伝子型との比較；および試料の同定の決定、を行わせる、コンピュータ可読媒体を提供する。

さらに別の態様では、本開示は、主要構成成分および微量構成成分を含む試料を認証するための方法を提供する。ある種の実施形態では、この方法は、１００個以上のＳＮＰ遺伝子座において、試料の遺伝子型を検出すること；表１１に示される式に従って、ＳＮＰ遺伝子座の各々についてＳＮＰ不均一性比率を決定すること；遺伝子型をモデル化する混合ガウス分布を使用して、ＳＮＰ遺伝子座についてのＳＮＰ不均一性比率に基づいて試料不均一性比率を決定すること；および試料の遺伝子型を、参照試料において各々検出された一群の参照遺伝子型と比較すること、試料の遺伝子型に対して最も高い同一性を有する参照遺伝子型を有する参照試料を同定すること、（ｉ）参照遺伝子型が試料の遺伝子型に対して９０％よりも高く同一であり、かつ試料不均一性比率が１０％未満であるときに、または（ｉｉ）参照遺伝子型が試料の遺伝子型に対して８０％よりも高く同一であり、かつ試料不均一性比率が１０％よりも高いときに、主要構成成分が参照試料であることを決定することによって、試料の主要構成成分を決定すること、を含む。

ある種の実施形態では、この方法は、試料の微量構成成分を決定することをさらに含む。ある種の実施形態では、この方法は、試料中の主要構成成分および微量構成成分のパーセンテージを決定することをさらに含む。

以下の図面は本明細書の一部を構成し、本開示のある特定の態様をさらに示すために含まれる。本開示は、本明細書で提示した特定の実施形態の詳細な説明と組み合わせてこれらの図面の１つまたは複数を参照することによって、よりよく理解することができる。

図１Ａ～１Ｃは、細胞株の認証および試料の遺伝的不均一性を示す。図１Ａ：無関係／不一致、同一な、および密接に関係する細胞株対についての遺伝子型類似性。図１Ｂ：１１８の夾雑なしの細胞株、２２０のＰＤＸおよび３１のＰＤＸＯモデルにおける不均一性比率。図１Ｃ：不均一性比率は、ＰＤＸモデルでは、マウス比率と正に相関する。図２Ａ～２Ｄは、不均一性比率が夾雑を検出および定量するために使用できることを示している。図２Ａ～２Ｄ：後者について５％、２．５％、１．２５％および０．６２５％の細胞比率での、細胞株ＭＶ－４－１１（ＭＶ４１１）およびＬＮＣａＰクローンＦＧＣ（ＬＮＣＡＰＣＬＯＮＥＦＧＣ）の連続混合、図２Ｅ：純粋なＬＮＣａＰクローンＦＧＣ細胞株、図２Ｆ：純粋なＭＶ－４－１１細胞株。横軸上の各刻みは、対応するＳＮＰ不均一性比率を有するインフォーマティブなＳＮＰ部位を示す。確率密度は、２／３成分混合ガウスを仮定することによって推定した。試料の通し番号は、括弧内の主要構成成分細胞株と共に、右上のボックス中に表示される。試料不均一性比率は下に示される。図３Ａ～３Ｆは、夾雑検出、夾雑物推論および夾雑比率推定を示す。図３Ａ：試料１９Ｒ５８１２９は、夾雑している微量細胞株ＬＮＣａＰクローンＦＧＣ（ＬＮＣＡＰＣＬＯＮＥＦＧＣ）と混合されたＭＶ４１１である。ＬＮＣＡＰＣＬＯＮＥＦＧＣは、１．４１％の夾雑比率で、夾雑物として正確に同定された（ｐ値＝５．０１Ｅ－１７）。ＬＮＣａＰ－Ｃ４－２（Ｃ４２）およびＬＮＣＡＰＣＬＯＮＥＦＧＣは共に、ＬＮＣａＰに由来し、高い遺伝的同一性を共有している。分位数－分位数プロットにおいて、各ドットは、参照細胞株であり、理論的分位数および試料分位数を、ＭＶ４１１参照細胞株と１０５５参照細胞株との間の遺伝子型類似性にフィットさせたベータ分布から計算した。９９％信頼帯は影付きである。図３Ｂ：異なる不均一性比率下で細胞株中に夾雑している第２の細胞株を推論する精度。既知の第２の細胞株が夾雑している合計９４の細胞株試料を試験し、試料を、不均一性比率によってビニングした。図３Ｃ：細胞株「Ｇ－２９２クローンＡ１４１Ｂ１」は、７．６２％の試料不均一性比率を有し、ＳＮＰ不均一性比率の確率密度における区別できる右ピークを伴うが、これは、この細胞株が夾雑していたことを示している。図３Ｄ：ＯＣＩ－ＡＭＬ－２は、６．２１％の夾雑比率で、細胞株「Ｇ－２９２クローンＡ１４１Ｂ１」中の夾雑物として推論された（ｐ値＝１．５８Ｅ－０７）。図３Ｅ：シミュレートされた細胞株混合物における、推定夾雑比率と既知の夾雑比率との間の完璧に近い相関。図３Ｆ：既知の夾雑を有する細胞株試料についての不均一性比率と夾雑比率との間の高い相関。図４Ａ～４Ｄは、ヒト－マウス混合物中のマウス比率の推定を示す。図４Ａ：９０％、８０％、７０％、５０％、３０％、２０％、１０％、７％、５％および０％のマウス比率を有する一連のヒト－マウスＤＮＡ混合物における、ディープＮＧＳシークエンシングによるマウス比率の正確な推定。図４Ｂ～４Ｃ：３つのアプローチによって２２０のＰＤＸおよび３１のＰＤＸ由来オルガノイドモデルにおいて推定し、各モデルについて同じ試料についてアッセイしたマウス比率。図４Ｄ：２２０のＰＤＸモデルにおける、ディープＮＧＳシークエンシングによって推定したマウス比率とＷＥＳによって推定したマウス比率との間の二次関係。

本開示をより詳細に説明する前に、本開示は記載した特定の実施形態に限定されず、それ自体もちろん変化することができることを理解されたい。本明細書で使用した専門用語は、特定の実施形態を説明するためだけのものであって、限定を意味するものではなく、なぜならば、本開示の範囲は添付の特許請求の範囲によってのみ限定されるからであることも理解されたい。

他に規定しなければ、本明細書で使用した技術用語および科学用語は全て、本開示が属する業界の当業者によって通常理解されるのと同じ意味を有する。本明細書で記載したものと類似の、または同等のいかなる方法および材料も本開示の実践または試験において使用することができるが、好ましい方法および材料をここで説明する。

本明細書で引用した刊行物および特許は全て、それぞれ個々の刊行物または特許が具体的かつ個々に参考として組み込まれることが指示されているように参考として本明細書に組み込まれており、刊行物が引用されたものに関連して方法および／または材料を開示して記載するために、参考として本明細書に組み込まれている。いかなる刊行物の引用も、その開示が本出願日より前であるためであり、本開示は先行開示によりこのような刊行物に先行する権利がないことの承認と解釈されるべきではない。さらに、提供された刊行物の日付は、個別に確認する必要があり得る実際の刊行日とは異なっていてもよい。

本開示を読めば当業者には明らかなように、本明細書で記載し例示した個々の実施形態のそれぞれは、本開示の範囲または精神を逸脱することなく、その他のいくつかの実施形態のいずれかの特性から容易に分離するか、または一緒にすることができる別個の構成成分および特性を有する。任意の引用した方法は、引用した事象の順番で、または論理的に可能な任意のその他の順番で実施することができる。

定義
以下の定義は読者を支援するために提供される。他に規定しなければ、本明細書で使用した技術用語、表記およびその他の科学的用語または医学用語または専門用語は全て、化学および医学業界の当技術者によって通常理解される意味を有するものとする。場合によっては、通常理解される意味を有する用語は、明瞭になるように、および／または容易に参照できるように本明細書で定義されており、本明細書にこのような定義を含めるのは、当業界で一般的に理解されるような用語の定義をめぐる実質的な違いを表すためのものと必ずしも解釈されるべきではない。

本明細書で使用する場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が明確に他のことを指示していない限り、複数の参照物を含む。

用語「対立遺伝子」は、特定の多型遺伝子座の２つ以上の既存の遺伝的バリアントのうち１つを意味する。

用語「量」または「レベル」は、試料中に存在する目的のポリヌクレオチドまたは目的のポリペプチドの量を意味する。このような量は、絶対的に、すなわち、試料中のポリヌクレオチドまたはポリペプチドの全量で表現されているか、あるいは相対的に、すなわち、試料中のポリヌクレオチドまたはポリペプチドの濃度で表現されていてもよい。

本明細書で使用する場合、用語「がん」または「腫瘍」は、異常な細胞増殖が関与する任意の疾患を意味し、体内の任意の組織、器官または細胞に影響を及ぼす疾患の全病期および全形態を含む。この用語には、悪性、良性、軟組織または固形物として特徴づけられる公知のがんおよび新生物状態の全て、ならびに転移前および転移後のがんを含む全病期およびグレードのがんが含まれる。全般的に、がんは、がんが位置する、またはがんが発生した組織または器官ならびに癌性組織および細胞の形態によって分類することができる。本明細書で使用する場合、がんの種類には、限定されるものではないが、急性リンパ性白血病（ＡＬＬ）、急性骨髄性白血病、副腎皮質癌、肛門がん、星状細胞腫、小児小脳または大脳基底細胞癌、胆管がん、膀胱がん、骨腫瘍、脳がん、小脳星状細胞腫、大脳星状細胞腫／悪性神経膠腫、上衣腫、髄芽腫、テント上原始神経外胚葉性腫瘍、視覚路および視床下部神経膠腫、乳がん、バーキットリンパ腫、子宮頸がん、慢性リンパ性白血病、慢性骨髄性白血病、結腸がん、肺気腫、子宮内膜がん、上衣腫、食道がん、ユーイング肉腫、網膜芽細胞腫、胃〔gastric〕（胃〔stomach〕）がん、神経膠腫、頭部および頸部がん、心臓がん、ホジキンリンパ腫、膵島細胞癌（膵内分泌部）、カポジ肉腫、腎臓がん（腎細胞がん）、咽頭がん、白血病、肝臓がん、肺がん、神経芽細胞腫、非ホジキンリンパ腫、卵巣がん、膵臓がん、咽頭がん、前立腺がん、直腸がん、腎細胞癌（腎臓がん）、網膜芽細胞腫、ユーイングファミリーの腫瘍、皮膚がん、胃がん、精巣がん、咽頭がん、甲状腺がん、膣がんが含まれる。

本明細書で使用する「細胞」は、原核細胞であっても真核細胞であってもよい。原核細胞には、例えば、細菌が含まれる。真核細胞には、例えば、真菌、植物細胞および動物細胞が含まれる。動物細胞（例えば、哺乳類細胞またはヒト細胞）の種類には、例えば、循環／免疫系または器官の細胞（例えば、Ｂ細胞、Ｔ細胞（細胞傷害性Ｔ細胞、ナチュラルキラーＴ細胞、制御性Ｔ細胞、ヘルパーＴ細胞）、ナチュラルキラー細胞、顆粒球（例えば、好塩基性顆粒球、好酸性顆粒球、好中性顆粒球および過分葉好中球）、単核球またはマクロファージ、赤血球細胞（例えば、網状赤血球）、肥満細胞、血小板または巨核球、および樹状細胞）、内分泌系または器官の細胞（例えば、甲状腺細胞（例えば、甲状腺上皮細胞、傍濾胞細胞）、副甲状腺細胞（例えば、副甲状腺主細胞、好酸性細胞）、副腎細胞（例えば、クロム親和性細胞）および松果体の細胞（例えば、松果体細胞））、神経系または器官の細胞（例えば、神経膠芽細胞（例えば、星状膠細胞および乏突起膠細胞）、小膠細胞、巨細胞性神経分泌細胞、星状細胞、ベッチェル細胞および下垂体細胞（例えば、性腺刺激ホルモン分泌細胞、副腎皮質刺激ホルモン分泌細胞、甲状腺刺激ホルモン分泌細胞、成長ホルモン分泌細胞および乳腺刺激ホルモン分泌細胞））、呼吸系または器官の細胞（例えば、肺胞細胞（Ｉ型肺胞細胞およびＩＩ型肺胞細胞）、クララ細胞、杯状細胞、肺胞マクロファージ）、循環系または器官の細胞（例えば、心筋細胞および周辺細胞）、消化系または器官の細胞（例えば、胃主細胞、壁細胞、杯状細胞、パネート細胞、Ｇ細胞、Ｄ細胞、ＥＣＬ細胞、Ｉ細胞、Ｋ細胞、Ｓ細胞、腸内分泌細胞、腸クロム親和性細胞、ＡＰＵＤ細胞、肝臓の細胞（例えば、肝実質細胞およびクッパー細胞））、外被系または器官の細胞（例えば、骨の細胞（例えば、骨芽細胞、骨細胞および破骨細胞）、歯の細胞（例えば、セメント芽細胞およびエナメル芽細胞）、軟骨の細胞（例えば、軟骨芽細胞および軟骨細胞）、皮膚／髪の細胞（例えば、毛胞、角化細胞およびメラニン形成細胞（母斑細胞））、筋肉細胞（例えば、筋細胞）、脂肪細胞、線維芽細胞および腱細胞）、泌尿器系または器官の細胞（例えば、有足細胞、傍糸球体細胞、糸球体内メサンギウム細胞、糸球体外メサンギウム細胞、腎臓近位尿細管刷子縁細胞および緻密斑細胞）ならびに生殖器系または器官の細胞（例えば、精子、セルトリ細胞、ライディッヒ細胞、卵子、卵母細胞）が含まれる。細胞は、正常で健康な細胞であるか、または病的で不健康な細胞（例えば、がん細胞）であってもよい。細胞にはさらに、哺乳類接合子または胚性幹細胞、胎児幹細胞、人工多能性幹細胞および成人幹細胞を含む幹細胞が含まれる。幹細胞とは、未分化状態を維持しながら細胞分裂のサイクルを経て、特殊化した細胞種に分化することができる細胞である。幹細胞は、全能性幹細胞、多能性幹細胞、複能性幹細胞、寡能性幹細胞および単能性幹細胞であってもよく、いずれも体細胞から誘導することができる。幹細胞はまた、がん性幹細胞を含むことができる。哺乳類細胞は、齧歯類細胞、例えば、マウス、ラット、ハムスター細胞であってもよい。哺乳類細胞は、ウサギ目細胞、例えば、ウサギ細胞であってもよい。哺乳類細胞はまた、霊長類細胞、例えば、ヒト細胞であってもよい。ある特定の例では、細胞は、マスバイオプロダクションで使用される細胞、例えば、ＣＨＯ細胞である。

用語「相補性」は、伝統的なワトソン－クリックまたはその他の非伝統的な方法のいずれかによって、別の核酸配列と水素結合を形成する核酸の能力を意味する。パーセント相補性は、第２の核酸配列と水素結合（例えば、ワトソン－クリック塩基対）を形成することができる核酸分子中の残基のパーセンテージを指し示す（例えば、１０のうち５、６、７、８、９、１０は５０％、６０％＞、７０％＞、８０％＞、９０％および１００％相補性である）。「完全に相補性である」は、核酸配列の連続した残基が全て、第２の核酸配列中の同じ数の連続した残基と水素結合することを意味する。本明細書で使用する「実質的に相補性である」は、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、３０、３５、４０、４５、５０、またはそれ以上のヌクレオチドの領域に亘って少なくとも６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、９８％、９９％または１００％である相補性の程度を意味するか、あるいはストリンジェント条件下でハイブリダイズする２つの核酸を意味する。

本開示では、「含む〔comprises〕」、「含んだ〔comprised〕」、「含んでいる〔comprising〕」、「含有する〔contains〕」、「含有している〔containing〕」などの用語は、米国特許法にある意味を有し、これらは包括的またはオープンエンドであり、追加的な、引用されていない要素または方法ステップを排除しないことに注意されたい。「から本質的になっている〔consisting essentially of〕」および「から本質的になる〔consists essentially of〕」などの用語は、米国特許法にある意味を有し、これらは請求された発明の基本的で新規な特質に著しい影響を及ぼさない追加的な成分またはステップを含むことを許可する。用語「からなる〔consists of〕」および「からなっている〔consisting of〕」は米国特許法にあるものとみなされる意味を有し、すなわち、これらの用語はクローズエンドである。

本明細書で使用する場合、用語「夾雑物」は、試料中の主要構成成分とは異なる、または試料の不純物もしくはその他の望ましくない影響、例えば、だめにすること〔spoiling〕、汚染、感染を引き起こす、試料中に存在する構成成分を意味する。

用語「決定する」、「評価する」、「アッセイする」、「測定する」および「検出する」は同義に使用することができ、定量的および半定量的決定の両方を意味する。定量的および半定量的決定のいずれかを意味する場合、目的のポリヌクレオチドまたはポリペプチドの「レベルを決定する」または目的のポリヌクレオチドまたはポリペプチドを「検出する」という語句を使用することができる。

用語「ゲノム」は、その染色体の完全なＤＮＡ配列によって示される、個々の生物または細胞が運搬する総遺伝情報を意味する。

用語「ハイブリダイジング」は、ストリンジェント条件下で特定のヌクレオチド配列に対して優先的な核酸分子の結合、二重鎖形成またはハイブリダイジングを意味する。用語「ストリンジェント条件」は、混合した集団（例えば、組織生検からの細胞溶解物またはＤＮＡ調製物）中において、プローブがその標的部分配列に優先的にハイブリダイズし、その他の配列に対しては比較的少ない程度でハイブリダイズするか、または全くハイブリダイズしない条件を意味する。核酸ハイブリダイゼーションの場合における（例えば、アレイ、マイクロアレイ、サザンもしくはノザンハイブリダイゼーションにおけるような）「ストリンジェントハイブリダイゼーション」および「ストリンジェントハイブリダイゼーション洗浄条件」は、配列に依存し、異なる環境パラメータ下では異なる。核酸のハイブリダイゼーションの広範な指針は、例えば、ＴｉｊｓｓｅｎＬａｂｏｒａｔｏｒｙＴｅｃｈｎｉｑｕｅｓｉｎＢｉｏｃｈｅｍｉｓｔｒｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ－ＨｙｂｒｉｄｉｚａｔｉｏｎｗｉｔｈＮｕｃｌｅｉｃＡｃｉｄＰｒｏｂｅｓｐａｒｔＩ，Ｃｈ．２，“ＯｖｅｒｖｉｅｗｏｆｐｒｉｎｃｉｐｌｅｓｏｆＨｙｂｒｉｄｉｚａｔｉｏｎａｎｄｔｈｅｓｔｒａｔｅｇｙｏｆＮｕｃｌｅｉｃａｃｉｄｐｒｏｂｅａｓｓａｙｓ，”（１９９３）Ｅｌｓｅｖｉｅｒ，Ｎ．Ｙ．に見出される。全般的に、高ストリンジェントハイブリダイゼーションおよび洗浄条件は、規定されたイオン強度およびｐＨでの特定の配列の融点（Ｔｍ）より約５℃低くなるように選択される。Ｔｍは、（規定されたイオン強度およびｐＨで）標的配列の５０％が完全に一致したプローブにハイブリダイズする温度である。非常にストリンジェントな条件は、特定のプローブのＴｍに等しくなるように選択される。サザンまたはノザンブロットにおいてアレイまたはフィルター上に１００個を上回る相補的残基を有する相補的核酸のハイブリダイゼーションのためのストリンジェントハイブリダイゼーション条件の一例は、標準的なハイブリダイゼーション溶液を使用して４２℃である（例えば、ＳａｍｂｒｏｏｋａｎｄＲｕｓｓｅｌｌＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（３ｒｄｅｄ．）Ｖｏｌ．１－３（２００１）ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＰｒｅｓｓ，ＮＹを参照のこと）。高ストリンジェント洗浄条件の一例は、ＮａＣｌ０．１５Ｍで７２℃で約１５分間である。ストリンジェント洗浄条件の一例は、０．２×ＳＳＣ洗浄で６５℃で約１５分間である。しばしば、バックグラウンドプローブシグナルを除去するために、高ストリンジェント洗浄に先行して低ストリンジェント洗浄を行う。例えば、１００ヌクレオチドを上回る二本鎖のための中程度ストリンジェント洗浄の一例は、１×ＳＳＣで４５℃で１５分間である。例えば、１００ヌクレオチドを上回る二本鎖のための低ストリンジェント洗浄の一例は、４×ＳＳＣから６×ＳＳＣで４０℃で１５分間である。

用語「遺伝子座」は、生物学的機能にかかわらず、当業界で公知の参照ゲノム中の染色体座標によって規定される、ゲノム中のＤＮＡ配列の任意のセグメントを意味する。ＤＮＡ遺伝子座は、複数の遺伝子を含有してもよく、遺伝子を含有しなくてもよい；ＤＮＡ遺伝子座は、単一の塩基対または数百万の塩基対であり得る。

用語「核酸」および「ポリヌクレオチド」は同義に使用され、デオキシリボヌクレオチドもしくはリボヌクレオチドのいずれかの任意の長さのヌクレオチドの多量体型、またはそれらの類似体を意味する。ポリヌクレオチドは、任意の三次元構造を有することができ、公知のまたは公知ではない任意の機能を果たすことができる。ポリヌクレオチドの非限定的な例には、遺伝子、遺伝子断片、エキソン、イントロン、メッセンジャーＲＮＡ（ｍＲＮＡ）、トランスファーＲＮＡ、リボソームＲＮＡ、リボザイム、ｃＤＮＡ、ｓｈＲＮＡ、一本鎖の短いかまたは長いＲＮＡ、組換えポリヌクレオチド、枝分かれポリヌクレオチド、プラスミド、ベクター、任意の配列の単離されたＤＮＡ、調節領域、任意の配列の単離されたＲＮＡ、核酸プローブおよびプライマーが含まれる。核酸分子は、直鎖状または環状であってもよい。

用語「オリゴヌクレオチド」は、少なくとも約５ヌクレオチド～約５００ヌクレオチド（例えば、５、６、７、８、９、１０、１２、１５、１８、２０、２１、２２、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、１００、１２５、１５０、１７５、２００、２５０、３００、３５０、４００、４５０または５００ヌクレオチド）の核酸配列を意味する。一部の実施形態では、例えば、オリゴヌクレオチドは、例えば、ポリメラーゼ連鎖反応（ＰＣＲ）増幅アッセイにおけるプライマーとして、および／またはハイブリダイゼーションアッセイもしくはマイクロアレイにおけるプローブとして使用され得る、約１５ヌクレオチド～約３０ヌクレオチド、または約２０ヌクレオチド～約２５ヌクレオチドであり得る。本発明のオリゴヌクレオチドは、当業界で周知のように、天然または合成の、例えば、ＤＮＡ、ＲＮＡ、ＰＮＡ、ＬＮＡ、修飾された骨格などであり得る。

用語「多型遺伝子座」は、２つ以上の対立遺伝子が同定されているゲノム遺伝子座を意味する。

用語「参照遺伝子型」は、本明細書で使用する場合、参照試料、例えば、既知の正体を有する試料中に存在する、１つ以上のゲノム遺伝子座の予め決定された遺伝子型を意味する。参照遺伝子型は、試験試料中に存在する特定のゲノム遺伝子座の遺伝子型を比較するための基礎として機能するように、本発明の方法の使用のために適切である。参照遺伝子型は、試料の性質ならびにこのような参照試料を確立する基となった対象の性別、年齢、民族性などのその他の要素に応じて変化し得る。

本明細書で使用する用語「試料」または「生物学的試料」は、任意の細胞、組織、オルガノイド、または目的の１つ以上の核酸分子を含有する任意のその他の試料を意味する。ある種の実施形態では、試料は、細胞（例えば、正常細胞、がん細胞、細胞株）、組織（例えば、正常組織、がん組織、異種移植または同種異系移植組織）、オルガノイドなどである。

用語「単一ヌクレオチド多型」または「ＳＮＰ」は、２つ以上の代替的対立遺伝子が集団内に感知できる頻度、例えば＞１％で存在する、ゲノム配列中の単一のヌクレオチド位置を意味する。ＳＮＰは、遺伝子のコード配列内、遺伝子の非コード領域内、および／または遺伝子の遺伝子間（例えば、イントロン）領域中に存在し得る。タンパク質コード領域中に存在するわけではないＳＮＰもなお、遺伝子スプライシング、転写因子結合および／または非コードＲＮＡの配列に対して影響を有し得る。本明細書で提供したＳＮＰ命名法は、ＧｅｎＢａｎｋ（登録商標）データベースにおいて入手可能な、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｉｃａｌＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）によって各固有のＳＮＰに割り当てられた公式のＲｅｆｅｒｅｎｃｅＳＮＰ（ｒｓ）同定番号を意味する。

本明細書で使用する場合、用語「対象」は、ヒトまたは任意の非ヒト動物（例えば、マウス、ラット、ウサギ、イヌ、ネコ、ウシ、ブタ、ヒツジ、ウマまたは霊長類）を意味する。ヒトには、出生前および出生後の形態が含まれる。多くの実施形態では、対象は人間である。対象は患者であってもよく、これは疾患の診断または処置のために医療機関に来院した人を意味する。用語「対象」は、本明細書では「個体」または「患者」と同義に使用される。対象は、疾患または障害に罹っているか、または罹りやすくてもよいが、疾患または障害の症状を表していてもいなくてもよい。

用語「基材」は、アレイの文脈で使用する場合、関連するアッセイ構成成分（例えば、アッセイ領域、細胞、試験化合物など）を支持することができる材料を意味する。基材の例には、限定されるものではないが、ガラス、Ｓｉベースの材料、官能化ポリスチレン、官能化ポリエチレングリコール、官能化有機ポリマー、ニトロセルロースまたはナイロンメンブレン、紙、綿、および合成に適切な材料が含まれる。基材は、平らである必要はなく、球状形状（例えば、ビーズ）を含む任意の型の形状が含まれる。基材に結合される材料は、基材の任意の部分に結合され得る（例えば、多孔性基材材料の内側部分に結合され得る）。本発明の技術の好ましい実施形態は、基材に結合した核酸プローブを有する。核酸プローブは、非ランダムな化学的または物理的相互作用を介して基材と関連する場合、基材に「結合」されている。一部の好ましい実施形態では、結合は、例えばリンカーによって提供されるような、共有結合を介したものである。

用語「腫瘍モデル」は、本明細書で使用する場合、がんの発達および増悪を研究するため、ならびにヒトに与えられる前に処置を試験するために使用される、細胞、組織または動物を意味する。

用語「腫瘍試料」には、１つまたは複数の腫瘍細胞を含有する生物学的試料または生物源からの試料が含まれる。生物学的試料には、体液、例えば、血液、血漿、血清もしくは尿の試料、または、例えば、生検によって、細胞、組織もしくは器官、好ましくはがん細胞を含むか、もしくは本質的にはがん細胞からなることが疑われる腫瘍組織から得られた試料が含まれる。

腫瘍試料の同定のためのＳＮＰ
バイオバンク試料（例えば、細胞株）の誤同定および夾雑は、生物医学的研究を悩ませてきた。ショートタンデムリピート（ＳＴＲ）および単一ヌクレオチド多型（ＳＮＰ）アッセイは、生体試料を認証するために広く使用されており、それぞれ５～１０％および３～５％の感度で夾雑を検出することができる。本開示は、一態様では、夾雑を検出するのに≦１％の感度を有する方法を提供する。この方法はさらに、混合細胞株試料について、夾雑物を同定でき、夾雑比率を推定できる。この方法は、細胞株認証について報告された、ずばぬけて最も高感度かつ正確な方法である。ある種の実施形態では、この方法は、異種移植腫瘍などのヒト－マウス混合試料における種間夾雑を検出することもでき、マウス比率を正確に推定することもできる。ある種の実施形態では、マイコプラズマおよびモリキュートも、研究標的の中にある。ある種の実施形態では、この多機能方法は、ヒト試料の集団構造および性別を同時に推論する。ある種の実施形態では、ＤＮＡバーコード化技術のおかげで、本明細書で開示した方法は、従来のＳＴＲアッセイと匹敵する試料当たりのコストで、単一の実行で１００～２００の試料をプロファイリングすることができ、それにより、高品質のバイオバンクを維持するための真にハイスループットかつ低コストのツールになっている。

本明細書で記載した方法および組成物は、腫瘍モデルから得られた試料を同定および認証するために使用され得る一群のＳＮＰ遺伝子座の発見に一部基づく。ある種の実施形態では、腫瘍モデルは、原発性ヒト腫瘍、患者由来異種移植（ＰＤＸ）、ヒト腫瘍細胞株、ヒト細胞株由来異種移植およびヒトオルガノイドを含むヒト腫瘍モデルである。ある種の実施形態では、ＳＮＰは、いくつかのヒト腫瘍モデルのＲＮＡｓｅｑまたは全エキソームシークエンシング（ＷＥＳ）データに基づいて、ヒトＳＮＰから選択される。選択されたヒトＳＮＰは、２２個の常染色体に亘って主に非連鎖不平衡（非ＬＤ）ブロック中に位置する、高度に発現される遺伝子のエキソン領域中に位置する。したがって、各ヒト腫瘍モデルは、選択されたヒトＳＮＰ遺伝子座において、固有の遺伝子型（すなわち、ＳＮＰフィンガープリント）を有する。

ある種の実施形態では、選択されたヒトＳＮＰ遺伝子座は、マウスゲノムにおいて相同性を有する。このようなヒトＳＮＰ遺伝子座を標的化するプライマーを使用して試料が増幅される場合、試料がマウスの細胞または組織と混合されていれば、対応するマウス遺伝子座のヌクレオチド配列が生成され得る。このようなヒトＳＮＰは、例えば、これらのＳＮＰのマウスおよびヒト読み取りの数に基づいて、ヒトおよびマウスの細胞／組織の混合物中のマウス含量のパーセンテージを推定するために使用され得る。

ある種の実施形態では、本明細書で使用するヒトＳＮＰは、表１に示される群から選択される。

ある種の実施形態では、ＳＮＰには、マウス腫瘍細胞株などのマウス腫瘍モデルを同定および認証するための一群のマウスＳＮＰが含まれる。一部の実施形態では、本明細書で使用するマウスＳＮＰは、表２に示される群から選択される。

ある種の実施形態では、ＳＮＰには、試料を得た対象の性別を決定するための、性染色体（Ｘ染色体およびＹ染色体）中のヒトＳＮＰがさらに含まれる。ある種の実施形態では、性染色体ＳＮＰは、表３に示される群から選択される。

ある種の実施形態では、ＳＮＰには、試料を得た免疫不全マウスの系統を決定するために使用され得るマウスＳＮＰがさらに含まれる。一部の実施形態では、ＳＮＰは、表４に示される。

方法
一態様では、本開示は、試料を同定および認証するための方法を提供する。

ある種の実施形態では、本明細書で開示した方法は、試料を参照（例えば、標準的ながん細胞株）と一致させるためのものである。従来のＳＴＲおよびＳＮＰアッセイは、遺伝子型ベースのＴａｎａｂｅ－Ｍａｓｔｅｒｓアルゴリズムおよびそのバリエーションを主に使用していた。ＳＴＲアッセイは、たくさんのマーカーについて類似のシグナルを生じる。ＳＮＰアッセイは、しばしばさらに多くのＳＮＰを遺伝子型決定する。したがって、２つの試料を一致と呼ぶためにＳＮＰアッセイによって使用される類似性閾値は、より高い場合が多い。しかし、従来のアッセイの一致力〔matching power〕は、約１００のＳＮＰを用いた場合であっても、夾雑された試料についてひどく損なわれ得る。ある種の実施形態では、本明細書で開示した方法は、ヒト試料について２３７のＳＮＰ部位の高深度（３０００×）シークエンシングを実施し、試料、または夾雑された試料の主要構成成分を同定することにおいて１００％の精度を示した。

ある種の実施形態では、本明細書で開示した方法は、生物学的試料における夾雑を検出するためのものである。細胞株における夾雑を検出するための感度は、ＳＴＲアッセイについては約５～１０％、ＳＮＰアッセイについては３～５％である。しかし、性能はむしろ、＞２０％の夾雑ですら９６－ＳＮＰアッセイによって２つの無関係の細胞株の混合物中で検出されなかった程度まで、不安定であり得る（Ｌｉａｎｇ－Ｃｈｕ，Ｍ．Ｍ．ｅｔａｌ．ＰＬｏＳＯｎｅ１０，ｅ０１１６２１８（２０１５））。ある種の実施形態では、本明細書で開示した方法は一貫して、不均一性比率だけを使用する場合、その値および区別できる二／三峰性分布の両方によって、２％の感度に到達する。感度は、ＳＮＰフィンガープリントを有する参照試料のライブラリー中に夾雑物が存在する場合には、≦１％に達する。夾雑なしの細胞株は、多クローン性およびシークエンシングエラーに起因して、約１％の夾雑を有する細胞株試料と匹敵するレベルの遺伝的不均一性を示すので、このような感度は事実上、理論的検出限界である。

ある種の実施形態では、本明細書で開示した方法は、夾雑物を同定するためのものである。細胞株の交差夾雑は、バイオバンクでは一般的である。夾雑された培養物の組成は、細胞株の異なる増殖速度に起因して、経時的に変化する。細胞株は、遺伝子変異など、ゲノミクスが異なっており、薬物処置に異なって応答して、薬物スクリーニングにおいて誤った結果を引き起こし得る。本開示の発明者らは、１０００を超えるがん細胞株についてＳＮＰフィンガープリントライブラリーを構築し、それにより、夾雑している細胞株は、一義的に同定され得る。さらに、夾雑比率が正確に推定され得る。細胞株の品質をチェックすることに加えて、この能力は、生物学的または化学的な干渉の下での２つの細胞株の動的組成をモニターすることなどの、その他の利用を有し得る。

種内夾雑に加えて、ある種の実施形態では、本明細書で開示した方法は、ヒトとマウスとの間の種間夾雑を正確に検出および定量することができる。ある種の実施形態では、本明細書で開示した方法は、ＳＮＰではなく、２つの種間で異なっているが、同一な隣接ヌクレオチド配列を有する、１０８の相同なＤＮＡセグメントを使用し、したがって、共通プライマーを、ヒトおよびマウスＤＮＡセグメントの偏りのない増幅のために設計することができる。このアプローチは、一連のマウス－ヒトＤＮＡ混合物ベンチマーク試料において、完璧な性能を示した。相同性ベースの原理は、その他の種間夾雑を検出するために使用され得る。

ある種の実施形態では、本明細書で開示した方法の力は、いくつかの新規の特性から来ている。第１は、ディープＮＧＳシークエンシングであり、これは、ＳＮＰの遺伝子型およびヌクレオチド頻度の両方を得るものであるが、従来のＳＴＲおよびＳＮＰアッセイは、ＳＮＰ遺伝子型をプロファイリングするだけである。第２に、ＳＮＰプロファイリングとは別に、本明細書で開示した方法は、マイコプラズマ夾雑を検出し、マウス－ヒト混合比率を推定するために、標的化シークエンシングを実施する。第３に、一そろいの統計モデルおよびアルゴリズムが、ディープＮＧＳシークエンシングデータを利用するために開発されており、認証方法を自動的でロバストかつ客観的なものにしている。最後に、ＤＮＡバーコード技術が、１００～２００の試料の同時の並列シークエンシングを可能にするために使用され、コストを大幅に低減させる。

本明細書で開示したハイスループットで低コストの方法は、認証済みの高品質の試料を維持するために、バイオバンクによって慣用的に使用され得る。この方法は、その他の種およびさらにはマイクロバイオームからの試料に広く適応され得、任意のＮＧＳシークエンシングプラットフォーム上で実現され得る。

一実施形態では、この方法は、試料から核酸を得ること；本明細書で開示した複数のヒトまたはマウスの単一のＳＮＰ遺伝子座において、試料についての遺伝子型を検出すること；試料についての遺伝子型を、参照試料において検出された参照遺伝子型と比較すること；および試料の同定を決定することを含む。ある種の実施形態では、５０、６０、７０、８０、９０、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００またはそれ以上のＳＮＰ遺伝子座における遺伝子型が検出される。

試料から得られた核酸は、ＲＮＡまたはＤＮＡであり得る。ある種の実施形態では、試料から得られた核酸は、試料から単離されたゲノムＤＮＡである。ある種の実施形態では、試料から得られた核酸は、ゲノムＤＮＡであり、試料から単離された総ＲＮＡまたはｍＲＮＡである。ある種の実施形態では、試料から得られた核酸は、例えば、ＰＣＲ反応または逆転写後のＰＣＲによって増幅される。

ＳＮＰ遺伝子座における試料についての遺伝子型は、当業界で公知の任意の適切な方法、例えば、限定されるものではないが、シークエンシングベースの方法およびハイブリダイゼーションベースの方法に基づいて検出することができる。

ある種の実施形態では、検出するステップは、増幅ステップを含む。このような場合、検出剤は、ＳＮＰ遺伝子座を含有するゲノム領域にハイブリダイズし、ポリメラーゼの存在下でそのＳＮＰ遺伝子座を包囲するポリヌクレオチド配列を増幅することができる、少なくとも一対のプライマーを含む。ＳＮＰを含有するゲノム領域を増幅するために使用されるプライマー対は、プライマーまたはプローブが、ゲノム領域またはその相補鎖に特異的にハイブリダイズできるように、ゲノム領域の少なくとも一部分に対して十分な同一性または相補性を有する。「特異的にハイブリダイズする」は、本明細書で使用する場合、プライマーまたはプローブが、ストリンジェント条件下で意図した配列にハイブリダイズできることを意味する。「ストリンジェント条件」は、本明細書で使用する場合、５×ＳＳＰＥ、５×デンハルト液、０．５％ＳＤＳおよび１００ｕｇ／ｍＬ変性サケ精子ＤＮＡからなる溶液中で４２℃でハイブリダイズし、次いで、０．５×ＳＳＣおよび０．１％ＳＤＳを含む溶液で４２℃で洗浄することを意味する。

ＰＣＲなどの適切な核酸増幅方法による増幅後、増幅生成物中の配列またはＳＮＰが検出される。ある種の実施形態では、増幅生成物は、５０ｂｐ～５００ｂｐの長さを有する。ある種の実施形態では、増幅生成物中のＳＮＰの配列は、シークエンシングベースの方法、例えば、次世代シークエンシング（ＮＧＳ）方法を使用して検出される。ある種の実施形態では、ＮＧＳ方法は、多数のＳＮＰ遺伝子座における配列を決定するために使用される。ある種の実施形態では、ＮＧＳ方法は、各試料から得られた核酸をバーコード化することによって、多くの試料からのＳＮＰ遺伝子座の配列を同時に決定するために使用され得る。

試料から得られた核酸がＲＮＡである場合、増幅ステップは、試料中のＲＮＡのｃＤＮＡを産生するための逆転写ステップを任意選択で含み得る。次いで、ｃＤＮＡは、ＳＮＰの存在の検出を可能にするために、プライマーを使用して増幅される。

一部の実施形態では、例えば、マイクロアレイが、核酸中のＳＮＰを検出するために使用される。マイクロアレイは、固相支持体に結合した捕捉プローブの再現性のあるパターンから構成される。標識されたＲＮＡまたはＤＮＡは、アレイ上の相補的プローブにハイブリダイズし、その後レーザースキャンによって検出される。ＳＮＰの存在は、アレイ上の特異的プローブに結合する標識されたＲＮＡまたはＤＮＡの強度を測定することによって検出され得る。

機械的合成法を使用したこれらのアレイの合成技術は、例えば、米国特許第５，３８４，２６１号に記載されている。平面アレイ表面が使用されることが多いが、アレイは実際にはいかなる形状の表面に製造されていてもよく、多重の表面に製造されてもよい。アレイはまた、ビーズ、ゲル、ポリマー表面、光ファイバーなどの繊維、ガラスまたは任意のその他の適切な基材上の核酸であってもよく、米国特許第５，７７０，３５８号、第５，７８９，１６２号、第５，７０８，１５３号、第６，０４０，１９３号および第５，８００，９９２号を参照のこと。アレイは、診断法または包括的装置のその他の操作を可能にするような方法で包装されていてもよい。

本発明を実践するために必要なプローブおよびプライマーは、周知の技術を使用して合成するかまたは標識することができる。プローブおよびプライマーとして使用するオリゴヌクレオチドは、ＢｅａｕｃａｇｅａｎｄＣａｒｕｔｈｅｒｓ，ＴｅｔｒａｈｅｄｒｏｎＬｅｔｔｓ．（１９８１）２２：１８５９－１８６２によって最初に記載された固相ホスホラミダイトトリエステル法によって、Ｎｅｅｄｈａｍ－ＶａｎＤｅｖａｎｔｅｒｅｔａｌ，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．（１９８４）１２：６１５９－６１６８に記載されているように、自動合成機を使用して化学合成することができる。

ある種の実施形態では、この方法は、例えば、表３に示される群から選択される性染色体ＳＮＰを検出することによって、試料を得た対象の性別を同定することをさらに含む。ある種の実施形態では、この方法は、試料を得た対象の民族性を同定することをさらに含む。ある種の実施形態では、この方法は、例えば、表４に示される供給業者のＳＮＰを検出することによって、試料を得た免疫不全マウスの系統を決定することをさらに含む。

ある種の実施形態では、本明細書で開示した方法は、腫瘍モデルにおける、Ａ／Ｂ／Ｃ型肝炎ウイルス（ＨＡＶ／ＨＢＶ／ＨＣＶ）、ヒト免疫不全ウイルス（ＨＩＶ）、エプスタイン・バーウイルス（ＥＢＶ）およびヒトパピローマウイルス（ＨＰＶ）を含む一般的なウイルス感染およびマイコプラズマ夾雑を検出することをさらに含む。ある種の実施形態では、ウイルス感染およびマイコプラズマ夾雑を検出するために使用されるマーカーは、表５に示される。

ある種の実施形態では、本明細書で開示した方法は、主要構成成分および微量構成成分を含む試料を認証するために使用され得る。ある種の実施形態では、この方法は、不均一性比率を推定すること；試料の主要構成成分を決定すること；試料の微量構成成分を決定すること；ならびに主要構成成分および微量構成成分の混合比率を推定することを含む。

ある種の実施形態では、不均一性比率は、以下のように推定することができる。ディープＮＧＳシークエンシングデータから不均一性比率を推定するために使用され得る６つのインフォーマティブな遺伝子型組合せが存在する（表１１）。これらは、４つの区別できるヌクレオチド頻度パターンを示す。組合せ１および２は、同じパターンを生じ、本発明者らは、微量構成成分Ｓ２のパーセンテージ、すなわち不均一性比率を計算するために、平均式を使用する。この式は、ＳＮＰの数が大きい場合に接近して近似されるはずのシナリオである、２つの組合せが等しい頻度で生じる場合に、比率の正確な推定を生じる。類似の平均化アプローチが、組合せ４および５に使用される。不均一性比率が低い場合、シークエンシングエラーが、不均一性比率の推論を妨害し得る。これを軽減するために、２段階の統計手法が使用され得る。シークエンシングエラーをｅ＝０．００１と仮定し、所与のＳＮＰ部位におけるシークエンシング深度をｎ（ｎ≧５００、ｎ＜５００のＳＮＰはいずれも破棄される）と仮定すると、ｋ個の誤ったヌクレオチドを観測する確率は、パラメータｎおよびｅによる二項分布に従う。

各ｎについて、累積密度関数が、ｎ個のヌクレオチドのうちｈ個よりも多くの誤ったヌクレオチドを観測する確率が０．０１よりも小さくなるような閾値ｈを得るために計算され得る。シークエンシングデータにおいて、対応する閾値ｈよりも小さい数の読み取りを有する低頻度ヌクレオチドはいずれも破棄される。次いで、期待値最大化アルゴリズム（Ｒ用パッケージｍｃｌｕｓｔ、バージョン３．５．３）が、最大不均一性（この研究では全ての試料について０．２を使用した）よりも小さいヌクレオチド頻度の分布をモデル化する混合ガウス（１～３つの成分を有する）のパラメータを推定するために使用される。単一のガウス成分、または全てのデータポイントの６０％よりも多くを占める最小平均を有するガウス成分のみが存在する場合、全てのデータポイントの中央値を試料不均一性比率とし、さもなくば、その他のガウス成分中のデータポイントの中央値を試料不均一性比率とする。

試料中の主要構成成分を決定するために、ＳＮＰ部位における遺伝子型が、参照試料については１０％、夾雑されている可能性がある試験試料については２５％である閾値よりも大きい対立遺伝子頻度を有するヌクレオチドのみを使用して決定される。参照試料と試験試料との間の遺伝子型類似性は、試験試料中の５００未満のシークエンシング深度を有するＳＮＰを除いた、同一な遺伝子型を有するＳＮＰのパーセンテージである。試験試料の主要構成成分は、最も高い遺伝子型類似性を有する参照試料であり、この類似性は、試験試料の不均一性比率が＜１０％（または＞１０％）である場合には、９０％（または８０％）よりも高くなければならない。さもなくば、主要構成成分はコールされない。

不均一性比率の推定および主要構成成分の決定の後、試験試料の微量構成成分が決定され得る。主要構成成分とその他の参照試料（例えば、ゲノムデータがある全ての細胞株）のうち１つとの混合物について、おそらくは１～４のヌクレオチドを有するキメラ遺伝子型が、全てのＳＮＰ部位において得られ得る。ヌクレオチドの頻度が、不均一性比率を使用して計算される。同様に、試験試料のキメラ遺伝子型が得られる。２つのキメラ遺伝子型は、それらが同じヌクレオチドを保有し、各ヌクレオチドの頻度が３倍以内である場合、同一とみなされる。次いで、試験試料と、主要構成成分と組み合わせた各参照試料との間の、遺伝子型類似性が計算される。次いで、全てのペアワイズ遺伝子型類似性のセットに、パラメータ（α，β）を用いるベータ分布がフィットされる。

等式中、Γ（α）はガンマ関数であり、ｘは遺伝子型類似性である。そのパラメータは、Ｒ用パッケージｆｉｔｄｉｓｔｒｐｌｕｓ（バージョン３．５．３）によって推定される。フィットさせたベータ分布から、特定の値よりも大きい任意の遺伝子型類似性を観測する確率が計算される。９９％信頼帯を伴う分位数－分位数グラフが、視覚化のために、全ての観測された遺伝子型類似性についてプロットされる。参照試料は、（１）それが最も高い遺伝子型類似性を有する場合、（２）その遺伝子型類似性が、分位数－分位数グラフ中の９９％信頼上限を上回る場合、および（３）フィットさせたベータ分布におけるそのｐ値＜１．０Ｅ－６である場合、微量構成成分とみなされる。

２つの参照試料についての混合比率は、以下のように推定することができる。２つの構成成分Ｓ１およびＳ２を、Ｓ１についてΘ、Ｓ２について（１－Θ）の比率で混合すると仮定し、このとき、０≦Θ≦１である。ディープＮＧＳシークエンシングデータから、両方の構成成分中のｎ個全てのＳＮＰのヌクレオチド頻度が、正確に推定され得る。ＳＮＰについて、その４つのヌクレオチド頻度が、構成成分Ｓ１については｛Ａ_１，Ｔ_１，Ｇ_１，Ｃ_１｝、構成成分Ｓ２については｛Ａ_２，Ｔ_２，Ｇ_２，Ｃ_２｝として示され、これらは合計すると１になる。原理上、頻度のうち１つは、ＳＮＰがホモ接合性である場合には１に近く、２つの頻度は共に、ＳＮＰがヘテロ接合性である場合には０．５に近い。実際のデータは、シークエンシングエラーおよびランダムさ、ならびに細胞株の多クローン性に起因して、いくらかの偏差を有し得る。

混合試料のシークエンシングデータから、４つのヌクレオチドの実際の発生率は、ｘ＝｛ｎ_Ａ，ｎ_Ｔ，ｎ_Ｇ，ｎ_Ｃ｝として示される。このような観測の尤度は、

である。

尤度Ｐ_Θ（ｘ_ｉ）は、観測されたデータｘ_ｉを用いて、任意のＳＮＰｉ∈（１，２，．．．，ｎ）について計算され得、全てのＳＮＰについてデータＸ＝｛ｘ_１，ｘ_２，．．．，ｘ_ｎ｝を観測する尤度は、

である。

したがって、ｌｏｇ－尤度は、

である。

尤度を最大化するΘは、Θの段階的増加によって解かれ得る。

キットおよびマイクロアレイ
別の態様では、本開示は前述の方法で使用するためのキットを提供する。このキットは、本明細書で記載した方法を実施するための試薬のいずれかまたは全てを含むことができる。ある種の実施形態では、このキットは、試料中の一群のヒトＳＮＰ遺伝子座または一群のマウスＳＮＰ遺伝子座を検出するためのプライマーを含む。ある種の実施形態では、このキットは、試料を得た対象の性別を同定するために性染色体ＳＮＰを検出するためのプライマーをさらに含む。ある種の実施形態では、このキットは、試料を得た対象の民族性を同定するために民族性ＳＮＰを検出するためのプライマーをさらに含む。ある種の実施形態では、このキットは、試料を得た免疫不全マウスの系統を決定するために供給業者のＳＮＰを検出するためのプライマーをさらに含む。ある種の実施形態では、このキットは、試料中のウイルス感染またはマイコプラズマ夾雑を検出するためのプライマーをさらに含む。

ある種の実施形態では、このキットは、ヒトまたはマウスＳＮＰを含有するＤＮＡ断片を、これらのプライマーを使用して増幅するための薬剤をさらに含む。さらに、キットは、本明細書で提供した方法の実践のための指示（すなわち、プロトコル）を含有する指示資料を含んでいてもよい。指示資料は典型的に文書または印刷された資料を含むが、これだけに限定されない。このような指示を記憶することができ、末端使用者がこのような指示と連絡することができる任意の媒体が本発明では検討される。このような媒体には、限定されるものではないが、電子記憶媒体（例えば、磁気ディスク、テープ、カートリッジ、チップ）、光学媒体（例えば、ＣＤＲＯＭ）などが含まれる。このような媒体には、このような指示資料を提供するインターネットサイトへのアドレスを含めることができる。

別の態様では、本開示は、例えば、Ｅｄｓ．，ＢｏｗｔｅｌｌａｎｄＳａｍｂｒｏｏｋＤＮＡＭｉｃｒｏａｒｒａｙｓ：ＡＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇＭａｎｕａｌ（２００３）ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓに記載されるようなアレイスライドまたはチップなどの固相支持体に結合したオリゴヌクレオチドプローブを提供する。このような装置の構造は、例えば、米国特許および特許公開、米国特許第５，８３７，８３２号、ＰＣＴ出願第ＷＯ９５／１１９９５号、米国特許第５，８０７，５２２号；米国特許第７，１５７，２２９号、第７，０８３，９７５号、第６，４４４，１７５号、第６，３７５，９０３号、第６，３１５，９５８号、第６，２９５，１５３号および第５，１４３，８５４号、第２００７／００３７２７４号、第２００７／０１４０９０６号、第２００４／０１２６７５７号、第２００４／０１１０２１２号、第２００４／０１１０２１１号、第２００３／０１４３５５０号、第２００３／０００３０３２号および第２００２／００４１４２０号に記載されたように、当業界では周知である。核酸アレイはまた、以下の参考文献に総括されている：ＢｉｏｔｅｃｈｎｏｌＡｎｎｕＲｅｖ（２００２）８：８５－１０１；Ｓｏｓｎｏｗｓｋｉｅｔａｌ．ＰｓｙｃｈｉａｔｒＧｅｎｅｔ（２００２）１２（４）：１８１－９２；Ｈｅｌｌｅｒ，ＡｎｎｕＲｅｖＢｉｏｍｅｄＥｎｇ（２００２）４：１２９－５３；Ｋｏｌｃｈｉｎｓｋｙｅｔａｌ．，Ｈｕｍ．Ｍｕｔａｔ（２００２）１９（４）：３４３－６０；およびＭｃＧａｉｌｅｔａｌ．，ＡｄｖＢｉｏｃｈｅｍＥｎｇＢｉｏｔｅｃｈｎｏｌ（２００２）７７：２１－４２。

マイクロアレイは、固相支持体に固定された、通常は合成アンチセンスポリヌクレオチドまたはｃＤＮＡの断片のいずれかである多数の固有の一本鎖ポリヌクレオチドから構成され得る。典型的なポリヌクレオチドは好ましくは約６～６０ヌクレオチド長、より好ましくは約１５～３０ヌクレオチド長、最も好ましくは約１８～２５ヌクレオチド長である。ある特定の種類のアレイまたはその他の検出キット／系のために、ほんの約７～２０ヌクレオチド長であるオリゴヌクレオチドを使用することが好ましいことがある。化学ルミネセンス検出技術と併せて使用したアレイなどのその他の種類のアレイでは、好ましいプローブ長は、例えば、約１５～８０ヌクレオチド長、好ましくは約５０～７０ヌクレオチド長、より好ましくは約５５～６５ヌクレオチド長、最も好ましくは約６０ヌクレオチド長であってもよい。

コンピュータが実現する方法、システムおよび装置
本明細書で記載した方法のいずれも、全体的にまたは部分的に、ステップを実施するために構成することができる１つまたは複数のプロセッサを含むコンピュータシステムで実施することができる。したがって、実施形態は、それぞれのステップまたはステップのそれぞれの群を実施する異なる構成成分を有する可能性のある、本明細書で記載した方法のいずれかのステップを実施するために構成されたコンピュータシステムを対象とする。番号付けしたステップとして提示されているが、本明細書の方法のステップは、同時に、または異なる順番で実施することができる。さらに、これらのステップの一部は、その他の方法のその他のステップの一部と共に使用することができる。また、ステップの全部または一部は任意選択であってもよい。どの方法のどのステップも、これらのステップを実施するためにモジュール、回路またはその他の手段で実施することができる。

本明細書で言及したコンピュータシステムのいずれも、任意の適切な数のサブシステムを利用することができる。一部の実施形態では、コンピュータシステムは、サブシステムがコンピュータ機器の構成成分であり得る単一のコンピュータ機器を含む。その他の実施形態では、コンピュータシステムは、内部構成成分を有する、それぞれがサブシステムである多数のコンピュータ機器を含むことができる。サブシステムはシステムバスを介して相互接続することができる。さらなるサブシステムは、例えば、プリンター、キーボード、記憶装置、ディスプレイアダプターに結合されるモニターおよびその他を含む。Ｉ／Ｏ調節器と結合する周辺装置および入力／出力（Ｉ／Ｏ）装置は、シリアルポートなどの当業界で公知の任意の数の手段によってコンピュータシステムに連結することができる。例えば、シリアルポートまたは外部インターフェース（例えば、イーサネット〈登録商標〉、Ｗｉ－Ｆｉなど）は、コンピュータシステムをインターネットなどの広域ネットワーク、マウス入力装置またはスキャナーに連結するために使用することができる。システムバスを介した相互接続は、中央処理装置が各サブシステムと連絡し、システムメモリまたは記憶装置（例えば、ハードドライブもしくは光学ディスクなどの固定ディスク）からの指示の実行を制御するのを可能にし、サブシステム間の情報交換を可能にする。システムメモリおよび／または記憶装置はコンピュータ可読媒体を組み入れることができる。本明細書で言及したデータのいずれも、１構成成分から別の構成成分への出力であってもよく、使用者への出力であってもよい。

コンピュータシステムは、例えば、外部インターフェースによって、または内部インターフェースによって一緒に連結した複数の同じ構成成分またはサブシステムを含むことができる。一部の実施形態では、コンピュータシステム、サブシステムまたは機器は、ネットワークと連絡することができる。このような場合、一コンピュータをクライアント、別のコンピュータをサーバーとみなすことができ、それぞれが同じコンピュータシステムの一部であってもよい。クライアントおよびサーバーはそれぞれ、多数のシステム、サブシステムまたは構成成分を含むことができる。

本開示の実施形態のいずれも、ハードウェア（例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ）を使用して、および／またはモジュラー型もしくは一体型の一般的なプログラマブルプロセッサを有するコンピュータソフトウェアを使用して、制御論理の形態で実現することができることを理解されたい。本明細書で使用する場合、プロセッサは、同じ集積チップ上にマルチコアプロセッサを含むか、または単一の回路基板上に多数の処理装置を含むか、またはネットワークされた多数の処理装置を含む。本明細書で提供した開示および教示に基づいて、当業者ならば、ハードウェアならびにハードウェアおよびソフトウェアの組合せを使用して、本開示の実施形態を実現するためのその他のやり方および／または方法に気づき、理解するだろう。

本出願で記載したソフトウェア構成成分または機能のいずれも、例えば、Ｊａｖａ〈登録商標〉、Ｃ＋＋またはＰｅｒｌなどの任意の適切なコンピュータ言語を使用し、例えば、従来技術またはオブジェクト指向技術を使用して、プロセッサによって実行されるソフトウェアコードとして実現することができる。ソフトウェアコードは、記憶および／または伝達のためのコンピュータ可読媒体上の一連の指示または命令として記憶することができ、適切な媒体には、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、ハードドライブもしくはフロッピーディスクなどの磁気媒体、またはコンパクトディスク（ＣＤ）もしくはＤＶＤ（デジタル多用途ディスク）などの光学媒体、フラッシュメモリなどが含まれる。コンピュータ可読媒体はこのような記憶もしくは伝達装置の任意の組合せであってもよい。

このようなプログラムはまた、インターネットを含む様々なプロトコルに適合する有線、光学および／または無線ネットワークを介した伝達に適応したキャリア信号を使用して記号化され、伝達され得る。したがって、本発明の実施形態によるコンピュータ可読媒体は、このようなブログラムで記号化されたデータ信号を使用して作製することができる。プログラムコードで記号化されたコンピュータ可読媒体は、互換性がある装置にパッケージ化されてもよく、または（例えば、インターネットダウンロードを介して）その他の装置から別々に提供されてもよい。任意のこのようなコンピュータ可読媒体は、単一のコンピュータ製品（例えば、ハードドライブ、ＣＤまたは全コンピュータシステム）上、または内に存在していてもよく、システムまたはネットワーク内の異なるコンピュータ製品上または内に存在していてもよい。コンピュータシステムは、本明細書で言及した結果のいずれかを使用者に提供するために、モニター、プリンターまたはその他の適切なディスプレイを含んでいてもよい。

以下の実施例は、特許請求した発明をよりよく例示するために提供され、本発明の範囲を限定しないものと解釈される。以下に記載した特定の組成物、材料および方法は全て、全体または一部が本発明の範囲内にある。これらの特定の組成物、材料および方法は、本発明を限定するものではなく、本発明の範囲内にある特定の実施形態を例示するに過ぎない。当業者は、創作能力を発揮することなく、かつ本発明の範囲を逸脱することなく、同等の組成物、材料および方法を開発することができる。本発明の範囲内にありながら、記載した本明細書の手法において多くの変更を行うことができることを理解されたい。このような変更が本発明の範囲内に含まれることは、本発明者らの意図である。

［実施例１］
材料および方法
核酸抽出
細胞、ＰＤＸおよびＰＤＸＯからのゲノムＤＮＡを、製造業者の指示に従ってＤＮｅａｓｙＢｌｏｏｄ＆ＴｉｓｓｕｅＫｉｔ（ＱＩＡＧＥＮ、Ｃａｔ．６９５０６、ＣＡ）を使用して精製した。ＤＮＡの完全性を、２１００Ｂｉｏａｎａｌｙｓｅｒ（Ａｇｉｌｅｎｔ）によって決定し、ＮａｎｏＤｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）を使用して定量した。高品質のＤＮＡ試料（ＯＤ２６０／２８０＝１．８～２．０、ＯＤ２６０／２３０≧２．０、＞１μｇ）の１つのアリコートを、ディープＮＧＳシークエンシングおよびＷＥＳシークエンシングに使用した。細胞、ＰＤＸおよびＰＤＸＯからの総ＲＮＡを、製造業者の指示に従ってＲＮｅａｓｙＭｉｎｉＫｉｔ（ＱＩＡＧＥＮ、Ｃａｔ．７４１０６、ＣＡ）を使用して精製した。総ＲＮＡの完全性を、２１００Ｂｉｏａｎａｌｙｓｅｒ（Ａｇｉｌｅｎｔ）によって決定し、ＮａｎｏＤｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）を使用して定量した。高品質のＲＮＡ試料（ＯＤ２６０／２８０＝１．８～２．２、ＯＤ２６０／２３０≧２．０、ＲＩＮ≧８．０、＞１μｇ）の１つのアリコートを、ディープＮＧＳシークエンシングおよびＲＮＡｓｅｑシークエンシングに使用した。

細胞株混合物の調製
細胞株混合物を、２つの細胞株からの細胞を所与の比率で混合することによって調製した。細胞増殖速度に基づいて、細胞を、Ｔ７５中で１５ｍｌの培地中に播種して、細胞のコンフルエンスを６０％～８０％に到達させ、その後、ＣＯ_２ＷａｔｅｒＪａｃｋｅｔｅｄＩｎｃｕｂａｔｏｒ（ＳＡＮＹＯ）で一晩インキュベートした。細胞を対数増殖期間の間に回収し、血球計（Ｃｈｏｎｇｇｕａｎｇ）でカウントして濃度を計算した。次いで、２つの細胞株からの細胞を、予め規定された比率に従って混合して、細胞株混合物を作製し、これを引き続いて、３，０００ｒｐｍで５分間遠心分離した。上清を吸引し、細胞ペレットをＤＮＡ抽出のために－２０℃で貯蔵した。

ヒト－マウスＤＮＡ混合物の調製
一連のマウス－ヒトＤＮＡ混合物ベンチマーク試料を、マウス脾臓ＤＮＡおよびヒトゲノムＤＮＡ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ、Ｃａｔ．４３１２６６０）を混合することによって調製した。マウス脾臓ＤＮＡを、製造業者の指示に従ってＤＮｅａｓｙＢｌｏｏｄ＆ＴｉｓｓｕｅＫｉｔ（ＱＩＡＧＥＮ、Ｃａｔ．６９５０６、ＣＡ）を使用して精製し、ＮａｎｏＤｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）を使用して定量した。マウス脾臓ＤＮＡおよびヒトゲノムＤＮＡを２００ｎｇ／μＬに希釈し、次いで、予め規定された比率で混合した。ＤＮＡ混合物を、後にディープＮＧＳシークエンシングに使用した。

ディープＮＧＳシークエンシングをバーコード化する
多重ＰＣＲを使用して、１５０ｂｐのペアードエンド読み取り長さ（ｐＥ１５０）を用いるＩｌｌｕｍｉｎａシークエンサーのための標的シークエンシングライブラリーを調製した。ＮＧＳディープシークエンシングは、６３０のアンプリコンをカバーし、それらのサイズは、１６０ｂｐ～２６０ｂｐの範囲であった。ゲノムＤＮＡを、ＩＧＴ－ＥＭ８０８ポリメラーゼ混合物（ｉＧｅｎｅＴｅｃｈＢｉｏｓｃｉｅｎｃｅＣｏ．，Ｌｔｄ、９５℃で３分３０秒間、９８℃で２０秒間および６０℃で８分間のインキュベーション１８サイクル、７２℃で５分間維持）を使用して増幅し、次いで、ＡＭＰｕｒｅＸＰビーズ（Ｂｅｃｋｍａｎ、Ｃａｔ．Ａ６３８８１）によって精製した。

バーコード化を、第２ラウンドの増幅によって実行した。簡潔に述べると、精製された標的アンプリコンを鋳型とし、ＰＣＲ反応のための上流のＩＧＴ－Ｉ５インデックス（１０μＭ）、下流のＩＧＴ－Ｉ７インデックス（１０μＭ）およびポリメラーゼ混合物と共に添加した。次いで、この混合物を、以下の設定での増幅のためにサーマルサイクラー中に置いた：９５℃で３分３０秒間、９８℃で２０秒間、５８℃で１分間および７２℃で３０秒間のインキュベーション９サイクル、７２℃で５分間固定。次いで、バーコード化されたライブラリーを、ＡＭＰｕｒｅＸＰビーズ（Ｂｅｃｋｍｅｎ、Ｃａｔ．Ａ６３８８１）を使用して精製した。

ライブラリー構築後、Ｑｕｂｉｔ３．０ｆｌｕｏｒｏｍｅｔｅｒｄｓＤＮＡＨＳＡｓｓａｙ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）を使用して、得られたシークエンシングライブラリーの濃度を定量した。ＡｇｉｌｅｎｔＢｉｏＡｎａｌｙｚｅｒ２１００（Ａｇｉｌｅｎｔ）を使用して、２８０ｂｐ～４２０ｂｐの範囲のサイズ分布を分析した。ペアードエンドシークエンシングを、２×１５０ｂｐペアードエンドシークエンシングのためのＩｌｌｕｍｉｎａ提供のプロトコルに従ってＩｌｌｕｍｉｎａシステムを使用して実施した。

ＲＮＡｓｅｑおよびＷＥＳシークエンシング
ＲＮＡｓｅｑシークエンシングでは、ｍＲＮＡに焦点を当てたシークエンシングライブラリーを、総ＲＮＡから構築した。ポリ－ＡｍＲＮＡを、オリゴ－ｄＴが結合した磁気ビーズを使用して総ＲＮＡから精製し、次いで、断片化緩衝剤によって断片化した。短い断片を鋳型として使用して、第１鎖ｃＤＮＡを、逆転写酵素およびランダムプライマーを使用して合成し、その後、第２鎖ｃＤＮＡを合成した。次いで、合成されたｃＤＮＡを、ライブラリー構築プロトコルに従って、末端修復、リン酸化および「Ａ」塩基付加に供した。次いで、シークエンシングアダプターを、ｃＤＮＡ断片の両方の末端に付加した。ｃＤＮＡ断片についてのＰＣＲ増幅後、標的化された２５０～３５０ｂｐの断片を浄化した。ライブラリー構築後、Ｑｕｂｉｔ３．０ｆｌｕｏｒｏｍｅｔｅｒｄｓＤＮＡＨＳＡｓｓａｙ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）を使用して、得られたシークエンシングライブラリーの濃度を定量し、サイズ分布を、ＡｇｉｌｅｎｔＢｉｏＡｎａｌｙｚｅｒ２１００（Ａｇｉｌｅｎｔ）を使用して分析した。ライブラリーの検証後、ＨｉＳｅｑＰＥＣｌｕｓｔｅｒＫｉｔｓ（Ｉｌｌｕｍｉｎａ）と併せてＩｌｌｕｍｉｎａｃＢＯＴクラスター生成システムを使用して、クラスターを生成した。ペアードエンドシークエンシングを、２×１５０ペアードエンドシークエンシングのためのＩｌｌｕｍｉｎａ提供のプロトコルに従ってＩｌｌｕｍｉｎａシステムを使用して実施した。

ＷＥＳは、ＷｕｘｉＮｅｘｔｃｏｄｅＣｏ．Ｌｔｄ．（Ｓｈａｎｇｈａｉ、Ｃｈｉｎａ）が実施した。簡潔に述べると、ゲノムＤＮＡを抽出し、１８０～２８０ｂｐの平均サイズに断片化した。ＤＮＡライブラリーを、Ｉｌｌｕｍｉｎａの製造業者のペアードエンドプロトコルによって生成した。エキソンを、ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔＨｕｍａｎＡｌｌＥｘｏｎＶ６によって捕捉し、引き続いて、ＩｌｌｕｍｉｎａＮｏｖａＳｅｑプラットフォーム（ＩｌｌｕｍｉｎａＩｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ、ＵＳＡ）によってシークエンシングして、１５０ｂｐのペアードエンド読み取りを生成した。

ＳＮＰの選択およびプロファイリング
本発明者らは、以下のいくつかの基準によって、ヒト試料認証のためのパネルＳＮＰを選択した：１）ＳＮＰがエキソン中にある、２）大きい染色体セグメントの欠失および重複を含む染色体の異常性が腫瘍において共通しているので、ＳＮＰが、２２個全ての常染色体上に位置し、互いに十分に離れている、３）ＳＮＰが、高度に発現される遺伝子中にある、４）ＳＮＰのマイナー対立遺伝子頻度（ＭＡＦ）が、ＩｎｔｅｒｎａｔｉｏｎａｌＨａｐＭａｐＰｒｏｊｅｃｔの３つの参照集団、すなわち、中国の漢族（ＣＨＢ）、ナイジェリアのヨルバ族（ＹＲＩ）ならびにＣＥＰＨコレクションからの北および西ヨーロッパ人祖先を持つユタ州住民（ＣＥＵ）において、０．５に近い。

ベンチマーク試料およびデータ
２つの細胞株ベンチマーク試料セットを調製した。第１のセットは、ＰＡＮＣ－１およびＲＴ４、ＭＶ－４－１１および「ＬＮＣａＰクローンＦＧＣ」、ＣＡＬ２７およびＲａｊｉを含む３対の細胞株について、７８の試料を有する。各対は、純粋な２つの細胞株と、細胞カウントによる８つの混合比率についての３つの反復とを含む、２６の試料を有する（補足の表Ｓ２）。第２のセットは、大抵は小さいが特定されない比率で既知の第２の細胞株が各々夾雑した２２の細胞株を有する（補足の表Ｓ３）。

不均一性比率を推定する
ディープＮＧＳシークエンシングデータから不均一性比率を推定するために使用され得る６つのインフォーマティブな遺伝子型組合せが存在する（表１１）。これらは、４つの区別できるヌクレオチド頻度パターンを示す。組合せ１および２は、同じパターンを生じ、我々は、微量構成成分Ｓ２のパーセンテージ、すなわち不均一性比率を計算するために、平均式を使用する。この式は、ＳＮＰの数が大きい場合に接近して近似されるはずのシナリオである、２つの組合せが等しい頻度で生じる場合に、比率の正確な推定を生じる。類似の平均化アプローチが、組合せ４および５に使用される。不均一性比率が低い場合、シークエンシングエラーが、不均一性比率の推論を妨害し得る。これを軽減するために、我々は、２段階の統計手法を使用する。シークエンシングエラーをｅ＝０．００１と仮定し、所与のＳＮＰ部位におけるシークエンシング深度をｎ（ｎ≧５００、ｎ＜５００のＳＮＰはいずれも破棄される）と仮定すると、ｋ個の誤ったヌクレオチドを観測する確率は、パラメータｎおよびｅによる二項分布に従う。

各ｎについて、我々は、累積密度関数を計算し、ｎ個のヌクレオチドのうちｈ個よりも多くの誤ったヌクレオチドを観測する確率が０．０１よりも小さくなるような閾値ｈを得る。シークエンシングデータにおいて、対応する閾値ｈよりも小さい数の読み取りを有する低頻度ヌクレオチドはいずれも破棄される。次いで、我々は、最大不均一性（この研究では全ての試料について０．２を使用した）よりも小さいヌクレオチド頻度の分布をモデル化する混合ガウス（１～３つの成分を有する）のパラメータを推定するために、期待値最大化アルゴリズム（Ｒ用パッケージｍｃｌｕｓｔ、バージョン３．５．３（Ｔｅａｍ，Ｒ．Ｃ．Ｒ：Ａｌａｎｇｕａｇｅａｎｄｅｎｖｉｒｏｎｍｅｎｔｆｏｒｓｔａｔｉｓｔｉｃａｌｃｏｍｐｕｔｉｎｇ．３．５．３ｅｄｎ（ＲＦｏｕｎｄａｔｉｏｎｆｏｒＳｔａｔｉｓｔｉｃａｌＣｏｍｐｕｔｉｎｇ、Ｖｉｅｎｎａ、Ａｕｓｔｒｉａ．、２０１８）））を使用する。単一のガウス成分、または全てのデータポイントの６０％よりも多くを占める最小平均を有するガウス成分のみが存在する場合、全てのデータポイントの中央値を試料不均一性比率とし、さもなくば、その他のガウス成分中のデータポイントの中央値を試料不均一性比率とする。

試料の主要構成成分を決定する
ＳＮＰ部位における遺伝子型が、参照試料については１０％、夾雑されている可能性がある試験試料については２５％である閾値よりも大きい対立遺伝子頻度を有するヌクレオチドのみを使用して決定される。参照試料と試験試料との間の遺伝子型類似性は、試験試料中の５００未満のシークエンシング深度を有するＳＮＰを除いた、同一な遺伝子型を有するＳＮＰのパーセンテージである。試験試料の主要構成成分は、最も高い遺伝子型類似性を有する参照試料であり、この類似性は、試験試料の不均一性比率が＜１０％（または＞１０％）である場合には、９０％（または８０％）よりも高くなければならない。さもなくば、主要構成成分はコールされない。

試料の微量構成成分を決定する
不均一性比率の推定および主要構成成分の決定の後、我々は、試験試料の微量構成成分を決定する。主要構成成分とその他の参照試料（例えば、ゲノムデータがある全ての細胞株）のうち１つとの混合物について、我々は、おそらくは１～４のヌクレオチドを有するキメラ遺伝子型を、全てのＳＮＰ部位において得る。ヌクレオチドの頻度が、不均一性比率を使用して計算される。同様に、我々は、試験試料のキメラ遺伝子型を得る。２つのキメラ遺伝子型は、それらが同じヌクレオチドを保有し、各ヌクレオチドの頻度が３倍以内である場合、同一とみなされる。次いで、我々は、試験試料と、主要構成成分と組み合わせた各参照試料との間の、遺伝子型類似性を計算する。次いで、全てのペアワイズ遺伝子型類似性のセットに、パラメータ（α，β）を用いるベータ分布がフィットされる。

等式中、Γ（α）はガンマ関数であり、ｘは遺伝子型類似性である。そのパラメータを、Ｒ用パッケージｆｉｔｄｉｓｔｒｐｌｕｓ（バージョン３．５．３）によって推定した。次いで、フィットさせたベータ分布から、我々は、特定の値よりも大きい任意の遺伝子型類似性を観測する確率を計算した。９９％信頼帯を伴う分位数－分位数グラフを、視覚化のために、全ての観測された遺伝子型類似性についてプロットした。参照試料は、（１）それが最も高い遺伝子型類似性を有する場合、（２）その遺伝子型類似性が、分位数－分位数グラフ中の９９％信頼上限を上回る場合、および（３）フィットさせたベータ分布におけるそのｐ値＜１．０Ｅ－６である場合、微量構成成分とみなした。

２つの細胞株の混合比率を推定する
細胞株が、２つの参照試料についての混合比率の推定を説明するために使用される。２つの細胞株Ｓ１およびＳ２を、Ｓ１についてΘ、Ｓ２について（１－Θ）の比率で混合すると仮定し、このとき、０≦Θ≦１である。ディープＮＧＳシークエンシングデータから、両方の細胞株中のｎ個全てのＳＮＰのヌクレオチド頻度が、正確に推定され得る。ＳＮＰについて、その４つのヌクレオチド頻度が、細胞株Ｓ１については｛Ａ_１，Ｔ_１，Ｇ_１，Ｃ_１｝、細胞株Ｓ２については｛Ａ_２，Ｔ_２，Ｇ_２，Ｃ_２｝として示され、これらは合計すると１になる。原理上、頻度のうち１つは、ＳＮＰがホモ接合性である場合には１に近く、２つの頻度は共に、ＳＮＰがヘテロ接合性である場合には０．５に近い。実際のデータは、シークエンシングエラーおよびランダムさ、ならびに細胞株の多クローン性に起因して、いくらかの偏差を有し得る。

である。

したがって、ｌｏｇ－尤度は、

である。

次いで、尤度を最大化するΘが、Θの段階的増加によって解かれ得る。上記手法は、任意の２つのヒト試料の混合物についても同様に使用され得る。

夾雑物検出のための細胞株混合物のシミュレーション
シミュレーションを、ＰＡＮＣ－１およびＲＴ４、ＭＶ－４－１１および「ＬＮＣａＰクローンＦＧＣ」、ＣＡＬ２７およびＲａｊｉを含む３つの細胞株対について実施した。６つ全ての細胞株を、ディープＮＧＳシークエンシングによってプロファイリングして、それらのＳＮＰフィンガープリントを得た。対になった２つの細胞株を、ｉｎｓｉｌｉｃｏで混合したが、第一の細胞株の比率はｒであり、ｒは、以下の値をとる：０．１５％、０．３０％、０．６２５％、１．２５％、２．５％、５％、１０％、１５％および２０％。各ＳＮＰ部位について、ｒ×ｎ個のヌクレオチドを第１の細胞株から得、式中、ｎは、５００～５０００のランダムな整数であり、ｒ×ｎを、第１の細胞株におけるそれらの頻度に従って、４つのヌクレオチド（Ａ、Ｔ、Ｇ、Ｃ）にさらに振り分けた。同様に、（１－ｒ）×ｎ個のヌクレオチドを、第２の細胞株から得た。次いで、比率を逆転させ、そうして、対称サンプリングを、第２の細胞株について比率ｒで実施した。

ＲＮＡｓｅｑおよびＷＥＳデータセットからマウス比率を推定する
シークエンシング読み取りを、デフォルトパラメータを用いて、ＲＮＡｓｅｑデータについてはマッピングツールＳＴＡＲ（Ｄｏｂｉｎ，Ａ．ｅｔａｌ．ＳＴＡＲ：ｕｌｔｒａｆａｓｔｕｎｉｖｅｒｓａｌＲＮＡ－ｓｅｑａｌｉｇｎｅｒ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２９，１５－２１（２０１３））を使用し、ＷＥＳデータについてはＢＷＡ（Ｌｉ，Ｈ．＆Ｄｕｒｂｉｎ，Ｒ．ＦａｓｔａｎｄａｃｃｕｒａｔｅｓｈｏｒｔｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒｔｒａｎｓｆｏｒｍ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１７５４－６０（２００９））を使用して、ヒト（ｈｇ１９）およびマウス（ｍｍ１０）ゲノムにマッピングした。読み取りがヒトゲノムのみにマッピングされた場合、またはマウスゲノムに対してよりもヒトゲノムに対しての不一致がより少なかった場合、その読み取りは、ヒト読み取りとして分類した。マウス読み取りも同様に割り当てた。読み取りが、多くても２ずれた近い数の不一致で両方のゲノムにマッピングされた場合、その読み取りは分類不能であり、破棄した。マウス比率は、全ての保持した読み取りのうちのマウス読み取りの割合であった。

［実施例２］
この実施例は、ヒト試料認証および夾雑検出を例示する。

ＳＮＰプロファイリングおよびフィンガープリント
ＳＮＰのパネルを、細胞株、異種移植片およびオルガノイドを含むヒト試料を認証するために選択した（表１）。ＳＮＰを、３０００の平均深度を用いるディープＮＧＳシークエンシングによってプロファイリングした。各試料は、全てのＳＮＰについて、ヌクレオチド同一性および頻度の両方からなる固有のＳＮＰフィンガープリントを有する。細胞株は、遺伝的浮動および不均一性に起因して、継代間およびバイオバンク間でゆらぐＳＮＰフィンガープリントを有し得、したがって、現在のＳＮＰフィンガープリントが、より良いキュレーションのためにプロファイリングされ得ることが強調される。ＳＮＰフィンガープリントは、比較的低深度のＮＧＳデータによって、低減された正確さで生成され得る。この実施例では、本発明者らは、本発明者らおよびＣＣＬＥがプロファイリングしたＲＮＡｓｅｑデータから、１０５０の細胞株についてのＳＮＰフィンガープリントを生成した。これは、参照として機能する。

本発明者らは、２１７の細胞株試料、２２０のＰＤＸおよび３１のＰＤＸ由来オルガノイド（ＰＤＸＯ）試料についてのディープＮＧＳシークエンシングからのＳＮＰプロファイリングデータを使用した、認証、特徴づけ、種内および種間夾雑検出を例示した。細胞株試料について、本発明者らは、連続希釈からの既知の混合比率の２つの細胞株の混合物および６つの対応する純粋な細胞株（表７）、未知の混合比率の２つの細胞株の混合物（表８）、ならびに１１７の未混合の細胞株（表９）を試験した。

ヒト試料の認証
試料の正体、または夾雑された試料の主要構成成分を、参照試料のライブラリーに対するその遺伝子型類似性によって決定した。２１７の試験した細胞株試料において、同じ細胞株間の遺伝子型類似性は、９８．６％の平均で常に＞９０％であり、最低は、ＪＥＧ－３の１６．７％の夾雑を伴った、Ａ－８７５細胞培養物についての９１．７％であった（図１Ａ、表８）。対照的に、無関係の細胞株間の遺伝子型類似性は、ほぼ常に５０％を下回った。表示ミス、夾雑、同じ患者に由来すること、１つの細胞株が別の細胞株の親であることなどを含む様々な理由によって、密接に関係するまたは同じ同義の群中にある細胞株がなおも存在した。例えば、ＨＣＴ－１５およびＨＣＴ－８は、同じ患者に由来した可能性が高い；ＱＧＹ－７７０１が夾雑し、これはＨｅＬａ誘導体である。データセット中の１６のこのような細胞株対についての遺伝子型類似性は、８４％～９６％の範囲である（表１０）。これらの細胞株対は、ＨＬＥおよびＨＬＦなどのほぼ同一なものを除き、区別することができる。同じモデル間の遺伝子型類似性は、平均して、２２０のＰＤＸおよび３１のＰＤＸ由来オルガノイド（ＰＤＸＯ）試料については９８．０％（８７．２～１００％）であり、ほぼ全てが、異なるモデル間で５０％を下回る。

遺伝的不均一性の推定
試料が夾雑なしであり、純粋に単クローン性の二倍体である場合、ＳＮＰ部位は、ホモ接合性またはヘテロ接合性のいずれかであり、観測されたヌクレオチド頻度は、ディープＮＧＳシークエンシングデータにおいて１または０．５に近く、この違いは、シークエンシングにおけるエラーおよびランダムさのみから来ている。実際には、細胞株は、微量クローンを有している可能性があり、異数体であり、または夾雑されており（夾雑物）、したがって、本発明者らは、ＳＮＰ部位において、０．５および１からかけ離れた頻度を観測しただけでなく、３または４のヌクレオチドもまた観測した。このような情報は、試料の遺伝的不均一性を推定するために使用することができる。

支配的なクローンは、試料の主要構成成分であり、微量クローンおよび夾雑物は、微量構成成分である。４つの観測されたヌクレオチド頻度パターンに基づいて、ＳＮＰ不均一性比率を推定するために使用され得る主要構成成分および微量構成成分の６つのインフォーマティブな遺伝子型組合せが存在する（表１１）。ＳＮＰ部位は、４つのパターンのうち１つを生じる場合、インフォーマティブである。引き続いて、試料不均一性比率を、統計的モデル化アプローチによって、個々のＳＮＰ不均一性比率から推定する（実施例１を参照のこと）。試験試料を使用して、本発明者らは、夾雑なしの細胞株が、平均して、１０７のインフォーマティブなＳＮＰ部位を有するが、夾雑された細胞株が、わずかに多い１１２を有することを見出した。平均して、ＰＤＸおよびＰＤＸＯモデルは、それぞれ、１５６および１１１のインフォーマティブなＳＮＰ部位を有し、これは、ＰＤＸモデルにおけるより高い遺伝的不均一性および／またはマウス夾雑を反映している。

夾雑の検出および定量
本発明者らは、３つの分析を組み合わせることによって、試料夾雑を検出した。第１に、夾雑された試料は、高い不均一性比率を有し得るが、夾雑なしの試料はそれを有さない。試験試料において、１１８の推定上夾雑なしの細胞株のうち１１５（９７．５％）が、不均一性比率＜２％を有し、全てが＜３％を有した（図１Ｂ）。対照的に、本発明者らは、夾雑された細胞株について高い不均一性比率を観測し、例えば、ＪＥＧ－３細胞と混合されたＡ－８７５細胞培養物は、１５．５％の不均一性比率を有した（表８）。上で示したように、不均一性比率は、夾雑比率（夾雑物のパーセンテージ）に比例し、したがって、夾雑の良好な指標である。ＰＤＸモデルから切開されたヒト腫瘍は、マウス間質を含有し、実際、本発明者らは、マウス夾雑（図１Ｃ）によって引き起こされる、ＰＤＸ腫瘍におけるより高い不均一性比率（図１Ｂ）を観測した。ＰＤＸＯは、ＰＤＸのｉｎｖｉｔｒｏ培養物として、はるかに小さいおよびしばしば痕跡量のみのマウス細胞に起因して、有意に小さい不均一性比率を有する（図１Ｂ）。

夾雑は、試料について、ＳＮＰ不均一性比率の確率密度における区別できる右ピークによっても示された（図２Ａ～２Ｆ）。夾雑および不均一性比率が増加するにつれて、ピークは右にシフトし、時には２つのピークに分かれる。二／三峰性分布は、消滅したか、または夾雑なしの細胞株もしくは非常に低い夾雑比率（＜１％）および不均一性比率（＜２％）の細胞株についてわずかに出現したに過ぎない。

最後に、夾雑物は、直感的な視覚化および厳密な確率論的測定を与える統計的モデル化によって直接検出することができる（実施例１、図３Ａを参照のこと）。各々別の細胞株と混合された９４の細胞株試料において、本発明者らは、不均一性比率が≧２％である場合、細胞株中の微量夾雑物細胞株を常に正確に推論することができる（図３Ｂ）。不均一性比率が１～２％および＜１％であるとき、精度は、約８０％および５０％まで下がる。８つの不首尾に終わった試料について、７つの試料がクリーンであると特徴づけられ、１つだけが、誤った夾雑している細胞株と評価された。もちろん、このような推論は、夾雑している細胞株も既知のＳＮＰフィンガープリントを有するものである場合にもっともらしいに過ぎない。本発明者らは、我々のバイオバンクにおいていくつかの夾雑された細胞株を検出し、１つの例は、細胞株「Ｇ－２９２クローンＡ１４１Ｂ１」であり、これは、７．６２％の高い不均一性比率を有し（図３Ｃ）、６．２１％のＯＣＩ－ＡＭＬ－２が夾雑していた（図３Ｄ）。

夾雑している細胞株を同定した後で、本発明者らは、最尤アプローチを使用して、夾雑比率（すなわち、第２の細胞株のパーセンテージ）を推定することができる（実施例１を参照のこと）。シミュレーション研究により、推定された夾雑比率が、既知の比率と極めて近いことが示された（図３Ｅ）。本発明者らは、不均一性比率と夾雑比率との間の緊密な線形の相関を観測した（図３Ｆ）。したがって、以前に議論したように、不均一性比率は、夾雑の良好な推定子であり、夾雑物が標準的な細胞株でない場合に特に有用である。やはり夾雑された試料においてであるが、夾雑物は、時には遺伝的不均一性の大部分に寄与するとはいえ、その一部に寄与するだけであり、その結果、夾雑比率は、対応する不均一性比率よりも概して小さく（表８を参照のこと）、わずかな逸脱が、データ処理方法によって引き起こされた。

要約すると、その値および分布による不均一性比率は、ヒト試料についての信頼性のある夾雑尺度である。不均一性比率≧２％を有する細胞株試料は、夾雑されている可能性が非常に高く、夾雑物がこれもまたＳＮＰフィンガープリント情報を有する別の細胞株である場合、その正体が推論され得、夾雑比率は、細胞またはＤＮＡ混合比率によって測定すると、≦１％で、前例のない感度で推定され得る（表７および８）。

［実施例３］
この実施例は、マウス腫瘍モデル認証を例示する。

マウスＳＮＰのパネル（表２を参照のこと）を、４Ｔ１、Ａ２０、Ｂ１６－ＢＬ６、Ｂ１６－Ｆ０、Ｂ１６－Ｆ１、Ｂ１６－Ｆ１０、Ｃ１４９８、Ｃｏｌｏｎ２６、ＣＴ２６ＷＴ、Ｅ．Ｇ７－Ｏｖａ、ＥＬ４、ＥＭＴ６、Ｈ２２、Ｈｅｐａ１－６、Ｊ５５８、Ｊ７７４Ａ１、ＪＣ、ＫＬＮ２０５、Ｌ１２１０、Ｌ５１７８－Ｒ、ＬＬＣ、ＭＢＴ２、ＭＣ３８、ＭＰＣ－１１、Ｎｅｕｒｏ－２ａ、Ｐ３８８Ｄ１、Ｐ８１５、Ｐａｎ０２、Ｒｅｎｃａ、ＲＭ１、Ｓ９１およびＷＥＨＩ１６４を含む、前臨床免疫調節薬物開発において一般に使用される３２の同系マウス腫瘍モデルを認証するために選択した。ほとんどのモデルは、６つの固有のＳＮＰを有する。Ｃｏｌｏｎ２６およびＣＴ２６ＷＴは、ＢＡＬＢ／ｃマウス系統に起源するマウス結腸腺癌モデルであり、各々、１２のＳＮＰを６つの共通のＳＮＰと併せて有し、合計１８の固有のＳＮＰを有する。Ｂ１６－ＢＬ６、Ｂ１６－Ｆ０、Ｂ１６－Ｆ１およびＢ１６－Ｆ１０は、Ｃ５７ＢＬ／６マウス系統におけるマウス黒色腫細胞株であり、全てＢ１６に由来し、したがって、高い遺伝的類似性を共有する。具体的には、Ｂ１６は、Ｂ１６－Ｆ０の親株であり、順に、Ｂ１６－Ｆ０は、Ｂ１６－Ｆ１の親株である。Ｂ１６－Ｆ１０は、Ｂ１６－Ｆ０の１０代目の連続継代であり、Ｂ１６－ＢＬ６^４６の親株である。本発明者らは、７つの共通のＳＮＰを使用して、試験細胞株をこの群に最初に割り当て、次いで、６つの固有のＳＮＰを各々が有するＢ１６－ＢＬ６、Ｂ１６－Ｆ０およびＢ１６－Ｆ１０に割り当て、１８のＳＮＰのいずれも観測されない場合には、試験細胞株にはＢ１６－Ｆ１が割り当てられる。これらのモデルについての認証は、１００％の精度を達成した。

［実施例４］
この実施例は、ヒト－マウス種間夾雑検出を例示する。

本発明者らは、ヒトｈｇ１９およびマウスｍｍ１０ゲノムを比較し、一群の１００～３００ｂｐのセグメントを同定した（表３を参照のこと）が、その結果、各セグメントは、ヒトとマウスとの間で、挿入、欠失および点変異によって有意に異なっているが（３１～９７％の配列類似性）、共通のプライマー対が設計できるような同一な隣接配列をなおも有する。ＮＧＳシークエンシングの後、本発明者らは、ヒト読み取りとマウス読み取りとを分離し、全てのセグメントについてマウス比率を計算し、これらの比率の中央値を、ヒト－マウス混合試料中のマウス比率とした。この方法は、マウスおよびヒトのＤＮＡが連続希釈によって混合されたベンチマーク試料のセットにおいて極めて高い精度を実証した（図４Ａ）。本発明者らは、ＲＮＡｓｅｑおよびＷＥＳデータからマウス含量を推定する方法もまた開発した（実施例１を参照のこと）。本発明者らは、２２０のＰＤＸおよび３１のＰＤＸＯモデルにおいてマウス比率を推定することにおいて、３つの方法を比較した（図４Ｂ～Ｃ）。ＤＮＡ（ＷＥＳおよびディープＮＧＳシークエンシングのため）およびＲＮＡ（ＲＮＡｓｅｑのため）を抽出し、モデルの同じ試料からシークエンシングして、試料の変動を除去した。ＰＤＸＯモデルは概して、低いマウス含量を有した。ＰＤＸモデルでは、ディープＮＧＳシークエンシングデータから正確に推定されたマウス比率は最も高く、次がＲＮＡｓｅｑからのものであり、次がＷＥＳからのものであった。これは、ＷＥＳにおいて使用したエキソン捕捉キットがヒトエキソンを富化するように設計されたものであり、相同なマウスエキソンに対する低いハイブリダイゼーション親和性を有したことに主に起因する。ＲＮＡｓｅｑは、種を優先しないポリＡ富化プロトコルを使用したが、遺伝子発現は、ＰＤＸのヒト腫瘍およびマウス間質において、大きな時空間的可変性を有する。実際、本発明者らは、ディープＮＧＳシークエンシングデータとＷＥＳデータとの間に、マウス比率について非常に強い二次関係を観測したが（Ｒ＝０．９６、図４Ｄ）、ディープシークエンシングデータとＲＮＡｓｅｑデータとの間には、はるかに弱い線形の相関を観測した（Ｒ＝０．６２）。

［実施例５］
この実施例は、試料中のマイコプラズマの検出を例示する。

本発明者らは、有効性が証明された、全てのマイコプラズマ種の検出のための一対のユニバーサルプライマー、ならびにＡ．ｌａｉｄｌａｗｉｉ、Ｍ．ａｒｇｉｎｉｎｅ、Ｍ．ｆｅｒｍｅｎｔａｎｓ、Ｍ．ｇｅｎｉｔａｌｉｕｍ、Ｍ．ｈｏｍｉｎｉｓ、Ｍ．ｈｙｏｒｈｉｎｉｓ、Ｍ．ｏｒａｌｅ、Ｍ．ｐｎｅｕｍｏｎｉａ、Ｍ．ｓａｌｉｖａｒｉｕｍおよびＵ．ｕｒｅａｌｙｔｉｃｕｍを含む１１のモリキュートを検出するための１１対のプライマーを使用した（ＭｏｌｌａＫａｚｅｍｉｈａ，Ｖ．ｅｔａｌ．Ｃｙｔｏｔｅｃｈｎｏｌｏｇｙ６１，１１７－２４（２００９））。本発明者らは、ディープＮＧＳシークエンシング方法によって、バイオバンクにおいて１つのマイコプラズマ夾雑された細胞株を同定し、引き続いて、マイコプラズマ検出キットによってそれを検証した。

［実施例６］
この実施例は、集団構造分析および性別決定を例示する。

ヒト試料認証に使用したＳＮＰのパネルのうち、１４３は、ＩｎｔｅｒｎａｔｉｏｎａｌＨａｐＭａｐＰｒｏｊｅｃｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＨａｐＭａｐ，Ｃ．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＨａｐＭａｐＰｒｏｊｅｃｔ．Ｎａｔｕｒｅ４２６，７８９－９６（２００３））によって特徴づけられたものである。本発明者らは、ｆａｓｔＳＴＲＵＣＴＵＲＥ（Ｒａｊ，Ａ．，Ｓｔｅｐｈｅｎｓ，Ｍ．＆Ｐｒｉｔｃｈａｒｄ，Ｊ．Ｋ．Ｇｅｎｅｔｉｃｓ１９７，５７３－８９（２０１４））を使用して、以下の３つの参照集団の集団構造分析を実施した：中国の漢族（ＣＨＢ）、ナイジェリアのヨルバ族（ＹＲＩ）ならびにＣＥＰＨコレクションからの北および西ヨーロッパ人祖先を持つユタ州住民（ＣＥＵ）。４０６人全ての個体を、高い確率で一義的に割り当てた。次いで、本発明者らは、東アジア人患者に由来する４２３のＰＤＸモデルおよび米国の西洋人患者に由来する６３４のＰＤＸモデルをプロファイリングした。全ての東アジア人ＰＤＸモデルは、１つの例外だけを除いて、支配的なＣＨＢ組成を有している。西洋人ＰＤＸモデルの大部分は、ＣＥＵ組成を支配的に有し、残りは、主要なＣＨＢもしくはＹＲＩ組成、または参照集団のうち２つもしくは３つの混合物を有している。本発明者らは、性別推論のためにＹ染色体にある３つのＳＮＰも使用し（表３）、これは、Ｙ染色体が失われた腫瘍試料を除き、常に正確であった。

本開示は、特定の実施形態（そのうちのいくつかは好ましい実施形態である）を参照しながら特に示し説明したが、当業者は、本明細書で開示した本開示の精神および範囲を逸脱することなく形態および詳細の様々な変化を行うことができることを理解されたい。

参考文献
1. Identity crisis. Nature 457, 935-6 (2009).
2. American Type Culture Collection Standards Development Organization Workgroup, A.S.N. Cell line misidentification: the beginning of the end. Nat Rev Cancer 10, 441-8 (2010).
3. Capes-Davis, A. et al. Match criteria for human cell line authentication: where do we draw the line? Int J Cancer 132, 2510-9 (2013).
4. Gartler, S.M. Apparent Hela cell contamination of human heteroploid cell lines. Nature 217, 750-1 (1968).
5. Lacroix, M. Persistent use of "false" cell lines. Int J Cancer 122, 1-4 (2008).
6. Lorsch, J.R., Collins, F.S. & Lippincott-Schwartz, J. Cell Biology. Fixing problems with cell lines. Science 346, 1452-3 (2014).
7. Fusenig, N.E., Capes-Davis, A., Bianchini, F., Sundell, S. & Lichter, P. The need for a worldwide consensus for cell line authentication: Experience implementing a mandatory requirement at the International Journal of Cancer. PLoS Biol 15, e2001438 (2017).
8. Yu, M. et al. A resource for cell line authentication, annotation and quality control. Nature 520, 307-11 (2015).
9. Bian, X., Yang, Z., Feng, H., Sun, H. & Liu, Y. A Combination of Species Identification and STR Profiling Identifies Cross-contaminated Cells from 482 Human Tumor Cell Lines. Sci Rep 7, 9774 (2017).
10. Horbach, S. & Halffman, W. The ghosts of HeLa: How cell line misidentification contaminates the scientific literature. PLoS One 12, e0186281 (2017).
11. de Maagd, R.A. et al. Identification of Bacillus thuringiensis delta-endotoxin Cry1C domain III amino acid residues involved in insect specificity. Appl Environ Microbiol 65, 4369-74 (1999).
12. Azari, S., Ahmadi, N., Tehrani, M.J. & Shokri, F. Profiling and authentication of human cell lines using short tandem repeat (STR) loci: Report from the National Cell Bank of Iran. Biologicals 35, 195-202 (2007).
13. Wu, M.L. et al. A 2-yr service report of cell line authentication. In Vitro Cell Dev Biol Anim 49, 743-5 (2013).
14. Masters, J.R. HeLa cells 50 years on: the good, the bad and the ugly. Nat Rev Cancer 2, 315-9 (2002).
15. MacLeod, R.A. et al. Widespread intraspecies cross-contamination of human tumor cell lines arising at source. Int J Cancer 83, 555-63 (1999).
16. Cosme, B. et al. Are your results valid? Cellular authentication a need from the past, an emergency on the present. In Vitro Cell Dev Biol Anim 53, 430-434 (2017).
17. Ye, F., Chen, C., Qin, J., Liu, J. & Zheng, C. Genetic profiling reveals an alarming rate of cross-contamination among human cell lines used in China. FASEB J 29, 4268-72 (2015).
18. Freedman, L.P. et al. The culture of cell culture practices and authentication--Results from a 2015 Survey. Biotechniques 59, 189-90, 192 (2015).
19. Nims, R.W. & Reid, Y. Best practices for authenticating cell lines. In Vitro Cell Dev Biol Anim 53, 880-887 (2017).
20. Almeida, J.L., Cole, K.D. & Plant, A.L. Standards for Cell Line Authentication and Beyond. PLoS Biol 14, e1002476 (2016).
21. Almeida, J.L. et al. Interlaboratory study to validate a STR profiling method for intraspecies identification of mouse cell lines. PLoS One 14, e0218412 (2019).
22. Zaaijer, S. et al. Rapid re-identification of human samples using portable DNA sequencing. Elife 6(2017).
23. Yousefi, S. et al. A SNP panel for identification of DNA and RNA specimens. BMC Genomics 19, 90 (2018).
24. Jobling, M.A. & Gill, P. Encoded evidence: DNA in forensic analysis. Nat Rev Genet 5, 739-51 (2004).
25. Sanchez, J.J. et al. A multiplex assay with 52 single nucleotide polymorphisms for human identification. Electrophoresis 27, 1713-24 (2006).
26. Didion, J.P. et al. SNP array profiling of mouse cell lines identifies their strains of origin and reveals cross-contamination and widespread aneuploidy. BMC Genomics 15, 847 (2014).
27. Liang-Chu, M.M. et al. Human biosample authentication using the high-throughput, cost-effective SNPtrace(TM) system. PLoS One 10, e0116218 (2015).
28. Pengelly, R.J. et al. A SNP profiling panel for sample tracking in whole-exome sequencing studies. Genome Med 5, 89 (2013).
29. Morgan, A.P. et al. The Mouse Universal Genotyping Array: From Substrains to Subspecies. G3 (Bethesda) 6, 263-79 (2015).
30. Castro, F. et al. High-throughput SNP-based authentication of human cell lines. Int J Cancer 132, 308-14 (2013).
31. El-Hoss, J. et al. A single nucleotide polymorphism genotyping platform for the authentication of patient derived xenografts. Oncotarget 7, 60475-60490 (2016).
32. Ruitberg, C.M., Reeder, D.J. & Butler, J.M. STRBase: a short tandem repeat DNA database for the human identity testing community. Nucleic Acids Res 29, 320-2 (2001).
33. van der Meer, D. et al. Cell Model Passports-a hub for clinical, genetic and functional datasets of preclinical cancer models. Nucleic Acids Res 47, D923-D929 (2019).
34. Tuveson, D. & Clevers, H. Cancer modeling meets human organoid technology. Science 364, 952-955 (2019).
35. Day, C.P., Merlino, G. & Van Dyke, T. Preclinical mouse cancer models: a maze of opportunities and challenges. Cell 163, 39-53 (2015).
36. Guo, S. et al. Molecular Pathology of Patient Tumors, Patient-Derived Xenografts, and Cancer Cell Lines. Cancer Res 76, 4619-26 (2016).
37. Khaled, W.T. & Liu, P. Cancer mouse models: past, present and future. Semin Cell Dev Biol 27, 54-60 (2014).
38. Li, Q.X., Feuer, G., Ouyang, X. & An, X. Experimental animal modeling for immuno-oncology. Pharmacol Ther 173, 34-46 (2017).
39. Chao, C. et al. Patient-derived Xenografts from Colorectal Carcinoma: A Temporal and Hierarchical Study of Murine Stromal Cell Replacement. Anticancer Res 37, 3405-3412 (2017).
40. Fasterius, E. & Al-Khalili Szigyarto, C. Analysis of public RNA-sequencing data reveals biological consequences of genetic heterogeneity in cell line populations. Sci Rep 8, 11226 (2018).
41. Ghandi, M. et al. Next-generation characterization of the Cancer Cell Line Encyclopedia. Nature 569, 503-508 (2019).
42. Vermeulen, S.J. et al. Did the four human cancer cell lines DLD-1, HCT-15, HCT-8, and HRT-18 originate from one and the same patient? Cancer Genet Cytogenet 107, 76-9 (1998).
43. Rebouissou, S., Zucman-Rossi, J., Moreau, R., Qiu, Z. & Hui, L. Note of caution: Contaminations of hepatocellular cell lines. J Hepatol 67, 896-897 (2017).
44. Barretina, J. et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature 483, 603-7 (2012).
45. Bairoch, A. The Cellosaurus, a Cell-Line Knowledge Resource. J Biomol Tech 29, 25-38 (2018).
46. Molla Kazemiha, V. et al. PCR-based detection and eradication of mycoplasmal infections from various mammalian cell lines: a local experience. Cytotechnology 61, 117-24 (2009).
47. International HapMap, C. The International HapMap Project. Nature 426, 789-96 (2003).
48. Raj, A., Stephens, M. & Pritchard, J.K. fastSTRUCTURE: variational inference of population structure in large SNP data sets. Genetics 197, 573-89 (2014).
49. Masters, J.R. et al. Short tandem repeat profiling provides an international reference standard for human cell lines. Proc Natl Acad Sci U S A 98, 8012-7 (2001).
50. Hideyuki Tanabe, Y.T., Daisuke Minegishi, Miharu Kurematsu, Tohru Masui, Hiroshi Mizusawa. Cell line individualization by STR multiplex system in the cell bank found cross-contamination between ECV304 and EJ-1/T24. Tiss. Cult. Res. Commun. 18, 329-338 (1999).
51. Team, R.C. R: A language and environment for statistical computing. 3.5.3 edn (R Foundation for Statistical Computing, Vienna, Austria., 2018).
52. Dobin, A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29, 15-21 (2013).
53. Li, H. & Durbin, R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754-60 (2009).

Claims

試料を認証するための方法であって、
前記試料から核酸を得ること；
表１に示される群から選択される５０個以上のヒト単一ヌクレオチド多型（ＳＮＰ）遺伝子座または表２に示される群から選択される５０個以上のマウスＳＮＰ遺伝子座において、前記試料の遺伝子型を検出すること；
前記試料の遺伝子型を参照遺伝子型と比較すること；および
前記試料の認証を決定すること
を含む、方法。
前記試料が、細胞、組織、オルガノイド、またはそれらの組合せである、請求項１に記載の方法。
前記試料が、細胞株または腫瘍組織である、請求項２に記載の方法。
前記試料が夾雑物を含み、前記方法が、前記試料中の夾雑物のパーセンテージを決定することをさらに含む、請求項１に記載の方法。
ヒト試料が夾雑物を含み、前記方法が、夾雑物の正体を決定することをさらに含む、請求項１に記載の方法。
検出するステップが、次世代シークエンシング（ＮＧＳ）を使用する、請求項１に記載の方法。
前記核酸がバーコード化される、請求項１に記載の方法。
表３に示される群から選択される性染色体ＳＮＰを検出することによって、前記試料を得た対象の性別を同定することをさらに含む、請求項１に記載の方法。
前記試料を得た対象の民族性を同定することをさらに含む、請求項１に記載の方法。
前記試料中のウイルスまたはマイコプラズマの存在を検出することをさらに含む、請求項１に記載の方法。
前記試料が、４Ｔ１、Ａ２０、Ｂ１６－ＢＬ６、Ｂ１６－Ｆ０、Ｂ１６－Ｆ１、Ｂ１６－Ｆ１０、Ｃ１４９８、Ｃｏｌｏｎ２６、ＣＴ２６ＷＴ、Ｅ．Ｇ７－Ｏｖａ、ＥＬ４、ＥＭＴ６、Ｈ２２、Ｈｅｐａ１－６、Ｊ５５８、Ｊ７７４Ａ１、ＪＣ、ＫＬＮ２０５、Ｌ１２１０、Ｌ５１７８－Ｒ、ＬＬＣ、ＭＢＴ２、ＭＣ３８、ＭＰＣ－１１、Ｎｅｕｒｏ－２ａ、Ｐ３８８Ｄ１、Ｐ８１５、Ｐａｎ０２、Ｒｅｎｃａ、ＲＭ１、Ｓ９１およびＷＥＨＩ１６４からなる群から選択されるマウス腫瘍モデルである、請求項１に記載の方法。
ヒト構成成分およびマウス構成成分を含む試料を認証する方法であって、
前記試料から核酸を得ること；
１００個よりも多くのマウスゲノム遺伝子座において、前記試料の遺伝子型を検出すること、ここで、前記マウスゲノム遺伝子座の各々が、対応する相同なヒトゲノム遺伝子座を有し、マウスゲノム遺伝子座の各々および対応する相同なヒトゲノム遺伝子座が、同一な隣接配列を有する；ならびに
前記遺伝子型に基づいて、前記試料中のマウス構成成分の比率を決定すること
を含む、方法。
前記マウスゲノム遺伝子座が、表６から選択される、請求項１２に記載の方法。
検出するステップが、ＮＧＳを使用する、請求項１２に記載の方法。
試料を認証するためのキットであって、
試料中の、表１に示される群から選択される少なくとも５０個のヒトＳＮＰまたは表２に示される群から選択される少なくとも５０個のマウスＳＮＰを検出するためのプライマー；および
ヒトまたはマウスＳＮＰを含有するＤＮＡ断片を、前記プライマーを使用して増幅するための薬剤
を含む、キット。
表３に示される群から選択される性染色体ＳＮＰを検出するためのプライマーをさらに含む、請求項１５に記載のキット。
前記試料中のウイルス感染またはマイコプラズマ夾雑を検出するためのプライマーをさらに含む、請求項１６に記載のキット。
ヒトまたはマウス試料を同定するためのマイクロアレイであって、
試料中の、表１に示される群から選択される少なくとも５０個のヒトＳＮＰまたは表２に示される群から選択される少なくとも５０個のマウスＳＮＰを検出するためのプローブを含む、マイクロアレイ。
指示が記憶された非一過性のコンピュータ可読媒体であって、前記指示がプロセッサによって実行されるとき、前記指示がプロセッサに、
表１に示される群から選択される５０個以上のヒトＳＮＰ遺伝子座または表２に示される群から選択される５０個以上のマウスＳＮＰ遺伝子座における、試料の遺伝子型の検索；
前記試料の遺伝子型の、参照遺伝子型との比較；および
前記試料の認証の決定
を行わせる、コンピュータ可読媒体。
主要構成成分および微量構成成分を含む試料を認証するための方法であって、
１００個よりも多くのＳＮＰ遺伝子座において、前記試料の遺伝子型を検出すること；
表１１に示される式に従って、ＳＮＰ遺伝子座の各々についてＳＮＰ不均一性比率を決定すること；
遺伝子型をモデル化する混合ガウスを使用して、ＳＮＰ遺伝子座についてのＳＮＰ不均一性比率に基づいて試料不均一性比率を決定すること；および
前記試料の遺伝子型を、参照試料において各々検出された一群の参照遺伝子型と比較すること、
前記試料の遺伝子型に対して最も高い同一性を有する参照遺伝子型を有する参照試料を同定すること、
参照遺伝子型が前記試料の遺伝子型に対して９０％よりも高く同一であり、かつ試料不均一性比率が１０％未満であるときに、または、参照遺伝子型が前記試料の遺伝子型に対して８０％よりも高く同一であり、かつ試料不均一性比率が１０％よりも高いときに、主要構成成分が参照試料であることを決定すること
によって、前記試料の主要構成成分を決定すること
を含む、方法。
前記試料の微量構成成分を決定することをさらに含む、請求項２０に記載の方法。
前記試料中の主要構成成分および微量構成成分のパーセンテージを決定することをさらに含む、請求項２１に記載の方法。