JP2017537646A

JP2017537646A - シーケンシングコントロール

Info

Publication number: JP2017537646A
Application number: JP2017532128A
Authority: JP
Inventors: マーサー，ティモシー
Original assignee: ガーヴァンインスティチュートオブメディカルリサーチ
Priority date: 2014-12-16
Filing date: 2015-12-15
Publication date: 2017-12-21
Also published as: AU2015367290A1; CN107250356A; CN114381455A; US20210317518A1; EP3234128A1; AU2022203184A1; WO2016094947A1; KR20240004617A; US20180148778A1; KR20170099939A; EP3234128A4; HK1245830A1; CA2965849A1

Abstract

本開示は、一般に、多種多様な遺伝的シーケンシング方法を校正するために用いることができる遺伝的シーケンシングコントロールに関する。例えば、本明細書に開示されたシーケンシングコントロールは、多種多様なハイスループットシーケンシング方法（例えば、次世代シーケンシング方法を意味するもの）を校正するために用いることができる。本開示は、また、一般に、例えば、多種多様なシーケンシング方法の校正を含む多種多様なアプリケーションでのシーケンシングコントロールの使用に関する。【選択図】図１

Description

本開示は、一般に、多種多様なシーケンシング方法を校正するために用いることができるシーケンシングコントロール（または「スタンダード」）に関する。例えば、本明細書に開示されたシーケンシングコントロールは、多種多様なハイスループットシーケンシング方法（例えば、次世代シーケンシング方法を意味するもの）を校正するために用いることができる。本開示は、また、一般に、例えば、多種多様なシーケンシング方法の校正を含む多種多様なアプリケーションでのシーケンシングコントロールの使用に関する。

次世代シーケンシング（ＮＧＳ）技術（Ｉｌｌｕｍｉｎａ、Ｎａｎｏｐｏｒｅ、ＰａｃＢｉｏ、ＩｏｎＴｏｒｒｅｎｔ、Ｒｏｃｈｅ４５４Ｐｙｒｏｓｅｑｕｅｎｃｉｎｇなどの企業によって提供されるサービス及び製品によって例示される（例えば、Ｂｅｎｔｌｅｙ，Ｄ．Ｒ．ｅｔａｌ．，２００８；Ｃｌａｒｋｅ，Ｊ．ｅｔａｌ．，２００９；Ｒｏｎａｇｈｉ，Ｍ．ｅｔａｌ．，１９９８；Ｅｉｄ，Ｊ．ｅｔａｌ．，２００９；Ｒｏｔｈｂｅｒｇ，Ｊ．Ｍ．ｅｔａｌ．，２０１１）などを参照）により、核酸分子のハイスループットマッシブパラレルシーケンシングが可能になる。これらの技術には、単一の試料内の何百万のＲＮＡ及びＤＮＡ分子のヌクレオチド塩基配列を決定する能力がある。さらに、個々のＲＮＡまたはＤＮＡ配列が決定される割合は、試料内のその個々のＲＮＡまたはＤＮＡ配列の相対的存在量に比例する。それゆえ、ＮＧＳは、また、試料内の１つ以上の核酸配列の量を測定するために用いることができる。

ＮＧＳは、動物、植物、微生物、または環境試料内の多様な集団の微生物などの天然ソースから採取された試料内にみられる核酸の配列を決定する及び／または核酸の量を測定するために広く用いられている（Ｅｄｗａｒｄｓ，Ｒ．Ａ．ｅｔａｌ．，２００６）。これらの使用としては、生物の全ゲノム配列の決定（例えば、Ｂｅｎｔｌｅｙ，Ｄ．Ｒ．ｅｔａｌ．，２００８を参照）、試料内に存在するメッセンジャーＲＮＡの配列及び存在量の決定（例えば、Ｍｏｒｔａｚａｖｉ，Ａ．ｅｔａｌ．，２００８を参照）、または、後成的修飾（例えば、Ｂｅｒｎｓｔｅｉｎ，Ｂ．Ｅ．ｅｔａｌ．，２００５を参照）、タンパク質結合部位（例えば、Ｊｏｈｎｓｏｎ，Ｄ．Ｓ．，ｅｔａｌ．，２００７を参照）、及び三次元ＤＮＡ構造（例えば、Ｌｉｅｂｅｒｍａｎ−Ａｉｄｅｎ，Ｅ．ｅｔａｌ．，２００９を参照）などの一定の範囲の細胞特徴及び他の特徴のシーケンシング及び測定が挙げられる。

ＮＧＳによって決定される何百万の個々のＲＮＡまたはＤＮＡ配列は、ｄｅｎｏｖｏアセンブリによって、より長い配列（コンティグと称される）にマージする、または公知の参照配列にマッチさせることができる。ＤＮＡ配列のｄｅｎｏｖｏアセンブリを用いて生物のゲノムをアセンブルすることができる；ＲＮＡ配列のｄｅｎｏｖｏアセンブリは、遺伝子配列、長さ及びアイソフォームを示すことができる。ＤＮＡ配列の参照ゲノムへのマッチングまたはアライメントは、個体間の遺伝的差または変動の位置を同定することができる。ＤＮＡ配列及び参照ゲノム間のマッチの位置は、ヒストン修飾、またはタンパク質結合部位などの後成的特徴の位置を示すことができる。ＲＮＡ配列の参照ゲノムへのアライメントは、遺伝子スプライシングのプロセス中に切除されるイントロン配列の存在を示すことができる。

いくつかの例では、かかるシーケンシング方法の作業中に、スタンダードと称される公知の量または配列の核酸が、核酸の天然試料に添加（または「スパイクイン」）される。その後、得られた混合された混合物は、マイクロアレイ技術、定量的ポリメラーゼ連鎖反応法などを含む一定の範囲の遺伝子工学（例えば、ＮＧＳ技術）を用いて、分析してよい。試料核酸の量または配列は、核酸の天然試料の量または配列を測定し、決定するために用いることができる参照スケールを提供するために、添加された核酸スタンダードの公知の量または配列と比較することができる。

現在用いられているＲＮＡ及びＤＮＡスタンダードは、天然ソースに由来する。例えば、当初から白色人種女性ヒトに由来するＮＡ１２８７８細胞株から抽出されたＤＮＡ配列は、広範囲に特徴付けられ、遺伝的変動を同定する分析ツールの性能を評価するために用いられる（Ｚｏｏｋ，Ｊ．Ｍ．ｅｔａｌ．，２０１４）。原始細菌メタノカルドコックスヤンナスキイに由来する配列を含有するリボ核酸スタンダード（ＥＲＣＣスパイクインとして知られる）が、マイクロアレイ及びｑＲＴ−ＰＣＲ技術のために開発され（Ｂａｋｅｒ，Ｓ．Ｃ．ｅｔａｌ．，２００５；Ｃｏｎｓｏｒｔｉｕｍ，Ｅ．Ｒ．Ｃ．、２００５）、ＲＮＡシーケンシングで用いられている（Ｊｉａｎｇ，Ｌ．ｅｔａｌ．，２０１１）。

しかし、天然ソースに由来する核酸スタンダードは、試料中の対象の核酸配列と相同性配列を共有するため、試料に直接添加することができないことが多いという不利益がある。天然ソースに由来する核酸スタンダードを使用すると、試料中に存在する対象の相同性配列とスタンダードを識別することができなくなる。したがって、対象の試料に適用されるシーケンシング方法を校正するツールとしてのかかるスタンダードの価値が制限され、代わりの改善されたシーケンシングコントロールが依然として必要である。

本発明者らが、単独にまたは人工染色体と共に用いることができる新たな人工シーケンシングコントロールを開発した。用語「コントロール」は、本明細書で用語「スタンダード」と交換可能に用いられる。このため、本開示は、新たな人工シーケンシングスタンダードを提供する。

１つの態様では、本開示は、人工ポリヌクレオチド配列を含み、当該人工ポリヌクレオチド配列のいずれかのフラグメントが公知の天然ゲノム配列のいずれかと識別可能である人工染色体を提供する。フラグメントのサイズは、２０〜１０，０００，０００隣接ヌクレオチドのいずれかとしてよい。１つの例では、フラグメントの長さが、１，０００以上のヌクレオチドである。もう１つの例では、フラグメントの長さが、１００以上のヌクレオチドである。もう１つの例では、フラグメントの長さが、２１以上のヌクレオチドである。

本明細書に開示された人工染色体では、人工ポリヌクレオチド配列の１，０００隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。もう１つの例では、人工ポリヌクレオチド配列の１００隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。もう１つの例では、人工ポリヌクレオチド配列の２１隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。もう１つの例では、人工ポリヌクレオチド配列の２０隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。

もう１つの例では、本明細書に開示された人工染色体で、人工ポリヌクレオチド配列の１，０００以上隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。もう１つの例では、人工ポリヌクレオチド配列の１００以上隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。もう１つの例では、人工ポリヌクレオチド配列の２１以上隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。もう１つの例では、人工ポリヌクレオチド配列の２０以上隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有することができる。

本明細書に開示された人工染色体は、遺伝子座、ＣｐＧアイランド、モバイルエレメント、反復ポリヌクレオチドの特徴、小規模な遺伝的変動及び大規模な遺伝的変動からなる群から選択される天然真核生物染色体の特徴のいずれか１つまたはそれ以上を含むことができる。人工ポリヌクレオチド配列は、複数の遺伝子座を含むことができる；反復ポリヌクレオチドの特徴は、末端反復、タンデム反復、逆方向反復及び散在性反復のいずれか１つまたはそれ以上を含むことができる；遺伝子座は、免疫受容体遺伝子座を含むことができる；小規模な遺伝的変動は、１つ以上のＳＮＰ、１つ以上の挿入、１つ以上の欠失、１つ以上のマイクロサテライト及び／または複数のヌクレオチド多型を含むことができる；及び／または大規模な遺伝的変動は、１つ以上の欠失、１つ以上の複製、１つ以上のコピー数変異、１つ以上の挿入、１つ以上の逆位及び／または１つ以上の転座を含むことができる。

代わりにまたはさらに、本明細書に開示された人工染色体は、天然原核生物染色体の１つ以上の特徴を含むことができる。例えば、人工染色体は、遺伝子座、ＤＮＡ反復、モバイルエレメント、及びオペロンからなる群から選択される天然原核生物染色体の特徴のいずれか１つまたはそれ以上を含んでよい。

本開示は、また、人工ポリヌクレオチド配列の２０〜１０，０００，０００隣接ヌクレオチドを含む本明細書に開示された人工染色体のフラグメントを提供する。フラグメントは、ＲＮＡフラグメントまたはＤＮＡフラグメントとしてよい。

本開示は、また、結合され、隣接ポリヌクレオチド配列を形成する本開示のフラグメントの２つ以上を含む人工ポリヌクレオチド配列を提供する。人工ポリヌクレオチド配列は、ＲＮＡまたはＤＮＡポリヌクレオチド配列としてよい。

本開示は、また、本明細書に開示された人工染色体のＤＮＡフラグメントを含み、当該フラグメントが人工ポリヌクレオチド配列の２０〜１０，０００，０００隣接ヌクレオチドを含むベクターを提供する。

本開示は、また、本明細書に開示された人工ポリヌクレオチド配列を含み、当該人工ポリヌクレオチド配列がＤＮＡポリヌクレオチド配列であるベクターを提供する。

本開示は、また、エンドヌクレアーゼ消化によって本明細書に開示されたベクターからフラグメントを切除すること、または、本明細書に開示されたベクター内に含まれるＤＮＡフラグメントを増幅もしくは転写することを含む本明細書に開示されたフラグメントの生成方法を提供する。１つの例では、増幅は、ポリメラーゼ連鎖増幅としてよい。本開示は、また、ＤＮＡ合成によってフラグメントを生成することを含む本明細書に開示されたフラグメントの生成方法を提供する。

本開示は、また、本明細書に開示された方法によって生成される人工染色体のフラグメントを提供する。このため、本開示は、エンドヌクレアーゼ消化によって本開示のベクターからフラグメントを切除すること、または、本開示のベクター内に含まれるＤＮＡフラグメントを転写することを含む方法によって生成される人工染色体のフラグメントを提供する。

本開示は、また、エンドヌクレアーゼ消化によって本明細書に開示されたベクターから人工ポリヌクレオチド配列を切除すること、または、本明細書に開示されたベクター内に含まれる人工ポリヌクレオチド配列を増幅もしくは転写することを含む本明細書に開示された人工ポリヌクレオチド配列の生成方法を提供する。１つの例では、増幅は、ポリメラーゼ連鎖増幅としてよい。本開示は、また、ＤＮＡ合成によって人工ポリヌクレオチド配列を生成することを含む本明細書に開示された人工ポリヌクレオチド配列の生成方法を提供する。

本開示は、また、本明細書に開示された方法によって生成される人工ポリヌクレオチド配列を提供する。このため、本開示は、エンドヌクレアーゼ消化によって本開示のベクターから人工ポリヌクレオチド配列を切除すること、または、本開示のベクター内に含まれる人工ポリヌクレオチド配列のＤＮＡを転写することを含む方法によって生成される人工ポリヌクレオチド配列を提供する。

本開示は、また、ポリヌクレオチドシーケンシングプロセスを校正するための本明細書に開示された人工染色体及び／または本明細書に開示されたフラグメント及び／または本明細書に開示された人工ポリヌクレオチド配列の使用を提供する。この点で多種多様なシーケンシングプロセスを校正してよい。

本開示は、また、以下を含むポリヌクレオチドシーケンシングプロセスの校正方法を提供する。
ｉ）決定される標的ポリヌクレオチド配列を含む試料に、１つ以上の本明細書に開示されたフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列を付加すること；
ｉｉ）標的ポリヌクレオチドの配列を決定すること；
ｉｉｉ）１つ以上の本明細書に開示されたフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列の配列を決定すること；及び
ｉｖ）オリジナル配列は、本明細書に開示された人工染色体中に存在する、フラグメント及び／または人工ポリヌクレオチド配列のオリジナル配列とｉｉｉ）で決定された配列を比較すること；
ｉｉ）の配列決定を校正するために、ｉｉｉ）の配列決定の精度が用いられる。ポリヌクレオチドシーケンシングプロセスは、例えば、ポリヌクレオチドアライメント、ポリヌクレオチドアセンブリ、または他の公知のシーケンシングプロセスとしてよい。

本開示は、また、ポリヌクレオチド定量プロセスを校正するための本明細書に開示された人工染色体及び／または本明細書に開示されたフラグメント及び／または本明細書に開示された人工ポリヌクレオチド配列の使用を提供する。

本開示は、また、以下を含むポリヌクレオチド定量プロセスの校正方法を提供する。
ｉ）決定される標的ポリヌクレオチド配列を含む試料に、公知の量の１つ以上の本明細書に開示されたフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列を付加すること；
ｉｉ）標的ポリヌクレオチドの量を測定すること；
ｉｉｉ）１つ以上の本明細書に開示されたフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列の量を測定すること；及び
ｉｖ）ｉ）の１つ以上のフラグメント及び／または１つ以上の人工ポリヌクレオチド配列の公知の量と、ｉｉｉ）で測定される１つ以上のフラグメント及び／または１つ以上の人工ポリヌクレオチド配列の量を比較すること；
ｉｉ）の量決定を校正するために、ｉｉｉ）の量決定の精度が用いられる。

本開示は、また、ポリヌクレオチド増幅プロセスを校正するための本明細書に開示された人工染色体及び／または本明細書に開示されたフラグメント及び／または本明細書に開示された人工ポリヌクレオチド配列の使用を提供する。

本開示は、また、以下を含むポリヌクレオチド増幅プロセスの校正方法を提供する。
ｉ）決定される標的ポリヌクレオチド配列を含む試料に、公知の量の１つ以上の本明細書に開示されたフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列を付加すること；
ｉｉ）標的ポリヌクレオチドを増幅すること；
ｉｉｉ）１つ以上の本明細書に開示されたフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列を増幅すること；及び
ｉｖ）ｉｉ）で増幅された標的ポリヌクレオチドの増幅された領域と、ｉｉｉ）で増幅された１つ以上のフラグメント及び／または１つ以上の人工ポリヌクレオチド配列の増幅された領域を比較すること；
ｉｉ）の増幅を校正するために、ｉｉｉ）の増幅が用いられる。

本明細書に開示された方法のいずれも、同じまたは異なる濃度で、試料に本明細書に開示された２つ以上のフラグメント（またはスタンダード）を添加してよい。これには、ホモ接合性またはヘテロ接合性、または異質性の天然状態の複写を可能にする利点がある（例えば、正常及び腫瘍細胞の双方を含有する不純試料の希少変異体対立遺伝子頻度を複写すること；例えば、染色体倍数性異常から生じる複合対立遺伝子頻度を複写すること；例えば、循環ＤＮＡ中の母体遺伝子型のバックグラウンドに対して胎児遺伝子型を複写すること）。

本開示は、また、１つ以上の本明細書に開示された人工染色体及び１つ以上の本明細書に開示されたフラグメントまたは１つ以上の本明細書に開示された人工ポリヌクレオチド配列を含むキットを提供する。

本開示は、また、コンピュータプログラム可能媒体を提供し、これに記憶される１つ以上の本明細書に開示された人工染色体を含有する。

本開示は、また、人工ポリヌクレオチド配列を含む人工染色体を生成するためにコンピュータ実装方法を提供し、当該コンピュータ実装方法は、以下を含む。
初期ポリヌクレオチド配列を示す初期データを生成すること；
初期ポリヌクレオチド配列及び１つ以上の公知の天然ポリヌクレオチド配列間の類似性を示すマッチング値を決定すること；
修飾されたポリヌクレオチド配列を示す変更データを決定するためにマッチング値に基づいて初期データを変更し、この結果、修飾されたポリヌクレオチド配列は、公知の天然ゲノム配列のいずれかと識別可能となること；及び
データストアに変更データを記憶すること。

本明細書に開示されたコンピュータ実装方法では、初期データを変更することが、初期データをシャッフルすることを含んでよい。

本開示は、また、ポリヌクレオチドシーケンシングプロセスを校正するコンピュータ実装方法を提供し、当該コンピュータ実装方法は、以下を含む。
標的ポリヌクレオチド配列に関する第１のデータを受けること；
本明細書に開示された人工染色体の１つ以上のフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列を示す第２のデータを受けること；第２のデータに基づいて、１つ以上のフラグメントの特性に関連する定量値または人工染色体の特性に関係する１つ以上の人工ポリヌクレオチド配列を決定し、当該定量値が、１つ以上のフラグメント及び／または１つ以上の人工ポリヌクレオチド配列の特性を決定する精度を示すこと；及び
定量値に基づいて第１のデータに関連する特性を調節し、標的ポリヌクレオチド配列の校正された特性を決定すること。

コンピュータ実装方法は、さらに、第１のデータ及び／または第２のデータを生成すること；及びデータストアに第１のデータ及び／または第２のデータを記憶することを含んでよい。

本開示は、また、ポリヌクレオチドシーケンシングプロセスを校正するためのコンピュータシステムを提供し、当該コンピュータシステムは、以下を含む。
標的ポリヌクレオチド配列に関する第１のデータ、本明細書に開示された人工染色体の１つ以上のフラグメント及び／または１つ以上の本明細書に開示された人工ポリヌクレオチド配列を示す第２のデータを受けるデータポート；及び
第２のデータに基づいて、１つ以上のフラグメントの特性に関連する第１の定量値及び／または人工染色体の特性に関係する１つ以上の人工ポリヌクレオチド配列を決定し、当該定量値が、１つ以上のフラグメント及び／または１つ以上の人工ポリヌクレオチド配列の特性を決定する精度を示し、定量値に基づいて第１のデータを調節し、標的ポリヌクレオチド配列の校正された特性を決定するプロセッサー。

本開示の特定の態様または実施形態または実施例のいずれかのそれぞれの特徴は、必要な変更を加えて、本開示の他の態様または実施形態または実施例のいずれかに適用してよい。

以下の図は、さらに、本開示のある特定の態様を示す。本開示は、本明細書で示される特定の実施形態の詳細な説明と組み合わせて、これらの１つ以上の図を参照して、さらに理解することができる。

本開示の人工染色体の可能性がある構造的特徴を示す。例示した人工染色体は、遺伝子、大規模な構造的変動、疾患関連変動事象、ＤＮＡ反復エレメント（セントロメア及びテロメアを含む）、免疫受容体遺伝子座（ｌｏｃｉ）、小規模な変動（例えば、＜５０ｎｔ）例えば、単一のヌクレオチド多型（ＳＮＰ）、挿入または欠失（インデル）；及びモバイルエレメント−引き出された配列を含む特徴（上部から下部まで）を含有する。公知の天然配列のいずれかとの相同性を除去するための配列をシャッフルすることによる人工染色体の生成を示す。５０ｎｔのウインドウサイズでＨＯＸＡ１遺伝子のプロモーター中で、ＣｐＧアイランド（パネルＡに示した黒色の箱）とオーバーラップしている公知のＤＮＡ配列（パネルＡ）をシャッフルした。これは、公知または天然の配列（パネルＢ）との相同性を除去すると同時に、５０ｎｔの分解でＣｐＧアイランド（パネルＢの白色の箱）を定義した高いＣｐＧジヌクレオチド含有率を維持した。人工染色体内の介在するエキソン及びイントロン配列を含む遺伝子座（パネルＡ）を示す。（Ｂ）エキソンの別の含有では、単一の遺伝子座と異なるいくつかのアイソフォームを生成することができる。下部パネル（Ｃ）は、隣接エキソン配列（介在するイントロンは除去される）を含むように生成したＲＮＡスタンダードを示す。異なるアイソフォームの典型であるＲＮＡスタンダードを生成することができ、コンセンサスエキソン（影付け）及び別のエキソン（白色）を示した。一定の範囲の濃度で別のアイソフォームの典型であるＲＮＡスタンダードを一緒に混合することによって、別のスプライシングの生物学的プロセスをエミュレートする。本開示の人工染色体中に含有されるモバイルエレメントの生成を示す。（Ａ）最初にヒトゲノムからモバイルエレメント（灰色の箱）の単一のコピーに対応する配列を取り出す。人工で古いモバイルエレメント（白色の箱）を形成するために相同性を除去する。（Ｂ）さらに、複数の人工モバイルエレメントをヌクレオチド置換、挿入または欠失させ、同時に個々の配列分散をモデル化する。その後、人工染色体で複数の人工モバイルエレメントをアセンブルする。（Ｃ）モバイルエレメント挿入の典型であるＤＮＡスタンダードを生成することができる。（Ｄ）このモバイルエレメントを同定するために、シーケンシング、人工染色体へのアライメント（シーケンスリード及び配列カバレッジのヒストグラムによって示される）及び分析することができる。本開示の人工染色体中に含むことができる人工ＤＮＡ反復の特定の例の生成を示す。（Ａ）最初にヒトゲノムから対象のＤＮＡ反復（例えば、マイクロサテライト、テロメアまたはセントロメア反復ユニット）の単一のコピーに対応する配列を取り出す。人工（「祖先」）モバイル反復エレメント（白色の箱）を形成するために相同性を除去する。（Ｂ）人工モバイルエレメントを増幅する。（Ｃ）増幅された人工モバイルエレメントを複数のヌクレオチド変化させ、同時に個々の配列分散をモデル化する。（Ｄ）人工モバイルエレメントを非対称に増幅することができる。（Ｅ）人工配列を複数の増幅及びヌクレオチド修飾サイクルにかけ、コピー数を変化させ、反復の複数のサブセットを有する大きなタンデムＤＮＡ複製を形成する。（Ｅ）ＤＮＡスタンダード存在量が反復コピー数に比例している異なる反復サブセットの典型であるＤＮＡスタンダードを生成することができる。本開示の人工染色体中に含むことができる人工の小規模な遺伝的変動の生成を示す。（Ａ）、単一の−ヌクレオチド多型、挿入、欠失等を含む小規模な遺伝的変動を人工染色体に導入し、小規模なヌクレオチド変動を有する変動型人工染色体を形成することができる。（Ｂ）それぞれの変異人工染色体配列とマッチする複数のＤＮＡスタンダードを生成し、これにより、ヘテロ接合体またはホモ接合体対立遺伝子頻度をエミュレートすることができる。（Ｃ）小規模な変動を同定するためのＤＮＡスタンダードのシーケンシング、参照人工染色体へのアライメント及び分析を示す。本開示の人工染色体中の遺伝的変動に関連する人工疾患の生成を示す。（Ａ）ヒトゲノムからＢＲＡＦ変動Ｖ６００Ｅの部位とオーバーラップしている配列を取り出した。ＢＲＡＦＶ６００Ｅ変動の部位から逓増距離で、逓増ウインドウサイズで周囲配列をシャッフルした。ＢＲＡＦＶ６００Ｅ変動の部位の周囲の１２のヌクレオチド配列をシャッフルしなかった。人工染色体内でシャッフルされた配列をアセンブルし、変異人工染色体配列を生成した。野生型及びＢＲＡＦＶ６００Ｅ変動に関連する疾患の双方とマッチするＤＮＡスタンダードを生成し、混合し、ホモ接合体またはヘテロ接合体遺伝子型をエミュレートした。（Ｂ）散布図が、変動型ＤＮＡスタンダードと参照ＤＮＡスタンダードの相対的希釈を比較した変動での配列リードカバレッジの深度間の関係性を示す。（Ｃ）散布図が、変異ＤＮＡスタンダードと参照ＤＮＡスタンダードの相対的希釈を比較した割り当てられた遺伝子型（示されたホモ接合体及びヘテロ接合体遺伝子型）と相関する信頼度を示す。本開示の人工染色体中に組み入れることができる人工の大規模な遺伝的変動を示す。（Ａ）挿入、（Ｂ）欠失、（Ｃ）逆位、（Ｄ）タンデム複製及び（Ｅ）モバイルエレメント挿入を含む大規模な変動の異なる型の測定が可能となるＤＮＡスタンダードの例を示し、ＤＮＡスタンダードの相対的存在量により、特徴、例えば、人工染色体中及びこれの間のコピー数変動をエミュレートすることができる。本開示の人工染色体中に組み入れることができる転座を示す。（Ａ）転座中に２つの異なる人工染色体間の配列を再配列することができる。示した例では、転座切断点が２つの人工遺伝子（Ａ１及びＢ１）内で生じる場合、融合遺伝子が生成される。２つの正常遺伝子及び融合遺伝子配列の典型である３つのＲＮＡスタンダードを生成し、異なる相対濃度で混合し、ホモ接合体及びヘテロ接合体遺伝子型をエミュレートすることができる。（Ｂ）散布図が、２つの正常遺伝子アイソフォームＲＮＡスタンダードに対する融合遺伝子ＲＮＡスタンダードのフラクション希釈と比較した、融合遺伝子ＲＮＡスタンダード（融合イントロンジャンクションとオーバーラップしているリード百万当たり（ＲＰＭ）として測定される）の存在量を示す。この散布図は、付随するライブラリーの定量的精度及び感度の限界を示す。また、付随するＫ５６２ＲＮＡ試料からの内因性ヒトＢＣＲ−ＡＢＬ融合遺伝子の存在量が示される（破線）。内因性ヒトＢＣＲ−ＡＢＬ融合遺伝子を含有しないＧＭ１２８７８ＲＮＡ試料と逓増希釈でＫ５６２ＲＮＡ試料を滴定する。（Ｃ）散布図が、２つの正常遺伝子アイソフォームＲＮＡスタンダードに対する融合遺伝子ＲＮＡスタンダードの逓増希釈での融合ジャンクションの同定と相関する有意（Ｐ−値）を示す。微生物コミュニティをシミュレートする人工染色体を示す。（Ａ）かかる人工染色体の生成では、天然配列との相同性を除去するために、サイズ、ＧＣ％、及び分類群に及ぶ広い範囲の微生物ゲノムいずれか１つまたはそれ以上を取り出し、シャッフルする。（Ｂ）人工染色体内の典型的な部分配列とマッチするＤＮＡスタンダードを生成することができる。一定の範囲の濃度でこれらのＤＮＡスタンダードを混合することによって、不均一微生物コミュニティをシミュレートすることができる。人工１６ＳｒＲＮＡマーカーの生成方法の１つの例を示す。メタゲノム系統的分析のためのマーカーとして１６ＳｒＲＮＡ配列を用いることができる。人工微生物ゲノム中にフランキングユニバーサルプライマー配列を含み、１６ＳｒＲＮＡ配列とマッチするＤＮＡスタンダードを生成する。このＤＮＡスタンダードは、メタゲノム分析中のＰＣＲ増幅及びシーケンシングのテンプレートの役割を果たすことができる。（Ｂ）散布図が、広い範囲の異なる微生物ゲノム（示される）に対応するシーケンシング１６ＳＤＮＡスタンダードからのシミュレートしたリードの存在量を示す。（Ｃ）散布図が、対応する微生物ゲノム中のｒＲＮＡオペロンカウントに従った１６ＳＤＮＡスタンダード存在量の正規化を示す。人工ＴＣＲγ遺伝子座（ｌｏｃｉ）の生成方法の１つの例を示す。（Ａ）ＴＣＲγ遺伝子座は、１４のＶγセグメント及び５のＪγセグメントを含む。（Ｂ）天然配列との相同性を除去するために配列をシャッフルする。（Ｃ）多くの人工ＴＣＲγクロノタイプを生成するためにＶＪ組み換え及び体細胞超変異の生物学的プロセスでモデル化されるプロセスでセグメントを一緒に結合する。（Ｄ）ユニバーサルプライマーと相補的な配列を維持する個々の人工ＴＣＲβクロノタイプの典型であるＤＮＡスタンダードを生成することができる。ユニバーサルプライマーによるＰＣＲ増幅、同時に、付随するヒトＤＮＡ試料中の天然ＴＣＲγ遺伝子座のＰＣＲ増幅のための標的ＤＮＡ分子として、ＤＮＡスタンダードを用いることができる。これにより、それぞれのＤＮＡスタンダードが別個のアンプリコンを増幅し、この存在量がプライマー結合効率及びＤＮＡスタンダードの存在量に比例する。人工ＴＣＲβ遺伝子座の１つの例を示す。（Ａ）ＴＣＲβ遺伝子座は、６５Ｖβセグメント、２Ｄβセグメント及び１３Ｊβを含む。（Ｂ）多くの人工ＴＣＲβクロノタイプを生成するために健康成人試料中で測定されるとおり、Ｖ（Ｄ）Ｊ組み換え及び体細胞超変異の生物学的プロセスでモデル化されるプロセスでセグメントを一緒に結合する。（Ｃ）個々の人工ＴＣＲβクロノタイプの典型であるＤＮＡスタンダードを生成することができる。ＤＮＡスタンダードが、免疫レパートリーシーケンシング中に遺伝子座のＰＣＲ増幅に用いられるプライマーと相補的な配列を保持することができる。ユニバーサルプライマーによるＰＣＲ増幅前に単一の連続テンプレートを形成するようにＤＮＡスタンダードを結合することができる。（Ｄ）健康成人対象内で同定されるクロノタイプの蓄積頻度分布、及び、比較のため、人工クロノタイプを測定するＤＮＡスタンダードの相対的存在量。人工クロノタイプは、天然クロノタイプのダイナミックレンジで拡張する定量的スケールを提供し、これを用いて存在量の結果とみなし、検出の限界を決定することができる。（Ｅ）健康成人対象内でみられる個々のＶ、Ｊ及びＤセグメントの蓄積頻度分布（黒色直線で示される）、及びＤＮＡスタンダードで表される個々のＶ、Ｊ及びＤセグメントの頻度分布（破線で示される）。ＲＮＡスタンダードを生成することができる方法の概略図を示す。対象の人工染色体配列を合成し、ＲＮＡスタンダードを生成するためにｉｎｖｉｔｒｏ転写に用いられる発現ベクターに挿入する。他のＲＮＡスタンダードと混合し、混合物を形成する前に、ＲＮＡスタンダードを精製し、定量化し、好適な濃度に希釈する。分析のために異なる試料に異なる最終混合物を添加することができる。ＤＮＡスタンダードを生成することができる方法の概略図を示す。対象の人工染色体配列を合成し、（ｉ）フランキングプライマーによるＰＣＲ増幅；または（ｉｉ）フランキング部位での制限エンドヌクレアーゼ消化のいずれかのテンプレートとして用いられるベクターに挿入する。他のＤＮＡスタンダードと混合し、混合物を形成する前に、切除されたＤＮＡスタンダードを精製し、定量化し、好適な濃度に希釈する。分析のために異なる試料に異なる最終混合物を添加することができる。結合されたＤＮＡスタンダードの生成方法の１つの例を示す。（Ａ）概略図が、より大きな結合されたＤＮＡスタンダードへの複数の個々のＤＮＡスタンダードの連結を示す。（Ｂ）異なるコピー数で個々のＤＮＡスタンダードを混合することによって、単一の結合されたＤＮＡスタンダードを含む個々のスタンダード間の存在量差をエミュレートするのが可能になる。（Ｃ）存在量の倍数変化は、個々のスタンダード間で依存するため、ピペット操作により生じる変動と変動の他の原因を識別することができる。この場合には、結合されたスタンダード内の個々のＤＮＡスタンダードの公知の存在量に対する測定値の傾きをグラフ化して、ピペット操作エラーの大きさを示す。（Ｄ）この傾きに従って個々のＤＮＡスタンダード存在量を正規化してこのエラーを正規化し、最少化することができる。バーコード変動の生成方法の１つの例を示す。隣接または非隣接ヌクレオチド配列をＲＮＡまたはＤＮＡスタンダードの配列に置換することができる。シーケンシング後に、バーコードを用いて、複数の同一ＤＮＡもしくはＲＮＡスタンダードまたはデリバティブシーケンスリード間で識別することができる。次世代シーケンシング実験中の人工染色体及び付随するＲＮＡ／ＤＮＡスタンダードの使用の１つの例の概略図を示す。ライブラリー調製及びシーケンシング前に、ＲＮＡ／ＤＮＡスタンダードを対象のＲＮＡ／ＤＮＡ試料に添加する。同時にシーケンスリードを対象の参照ゲノムならびに人工染色体にアラインする。付随する参照ゲノムの分析を校正するためにシーケンスリードの人工染色体へのアライメント及びアセンブリを用いることができる。ＲＮＡシーケンシング実験中のＲＮＡスタンダードの使用の概略図を示す。ＤＮＡスタンダードを用いて評価することができる分析的態様を示す（破線の箱）。ゲノムシーケンシング実験中のＤＮＡスタンダードの使用の概略図を示す。ＤＮＡスタンダードを用いて評価することができる分析的態様を示す（破線の箱）。メタゲノムシーケンシング実験中のＤＮＡスタンダードの使用の概略図を示す。ＤＮＡスタンダードを用いて評価することができる分析的態様を示す（破線の箱）。ＲＮＡスタンダード及びＫ５６２全細胞ＲＮＡを用いるＲＮＡシーケンシング分析の１つの例を示す。散布図が、ＲＮＡスタンダードの存在量に対する（Ａ）イントロン及び（Ｂ）エキソン発見の感度を示す。これは、それ以下であると転写産物がしっかりとアセンブリすることを可能にするのに不十分なカバレッジとなる検出の限界を示す。（Ｃ）散布図が、ＲＮＡスタンダードの公知の存在量に対するＲＮＡスタンダードの実測定量的測定と相関する信頼度を示す。ＲＮＡスタンダード及びＫ５６２全細胞ＲＮＡを用いるＲＮＡシーケンシング分析からのリードのアライメントを示す。（Ａ〜Ｅ）人工染色体上でコードされる複数のアイソフォームを含む遺伝子座の５つの例を示す。ＲＮＡスタンダードからのシーケンシングから生成されるリードを人工染色体にアラインする。黒色棒として連続アライメントを示し、細い線としてアライメントがスプリットされる領域を示す。その後、オーバーラップしているリードアライメントを用いて、イントロン及びエキソン及び別のスプライシング事象を含む完全長遺伝子座構造をアセンブルする。ヒストグラムが、蓄積リードアライメントからの配列カバレッジを示す。ヒト細胞ＲＮＡ試料によるＲＮＡスタンダードのＲＮＡシーケンシング分析からの定量的分析を示す。（Ａ、Ｂ）散布図が、（Ａ）Ｋ５６２ヒト細胞ＲＮＡ試料との混合物Ａまたは（Ｂ）ＧＭ１２８７８ヒト細胞ＲＮＡ試料との混合物Ｂとして混合した場合の遺伝子の典型であるＲＮＡスタンダードの公知の存在量に対する実測存在量（ＲＰＫＭで測定される）を示す。線形相関及び傾きが、それぞれのＲＮＡシーケンシングライブラリーの定量的精度を示す。（Ｃ）混合物Ａ（Ｋ５６２ＲＮＡに添加した）及び混合物Ｂ（ＧＭ１２８７８ＲＮＡに添加した）間の存在量の予測される倍数変化に対する遺伝子ＲＮＡスタンダード存在量の実測倍数変化を示す散布図。（Ｄ、Ｅ）散布図が、（Ｄ）Ｋ５６２ＲＮＡ試料に添加した混合物Ａまたは（Ｅ）ＧＭ１２８７８ＲＮＡ試料に添加した混合物Ｂとして混合した場合のそれぞれのＲＮＡスタンダードによって表される個々のアイソフォームの実測存在量を示す。（Ｆ）混合物Ａ及び混合物Ｂ間の存在量の予測される倍数変化に対するアイソフォームＲＮＡスタンダード存在量の実測倍数変化を示す散布図。個々のアイソフォーム間の倍数変化が、別のスプライシングをエミュレートする。スプライスＲＮＡスタンダードの使用の１つの例を示す。（Ａ）散布図が、ＲＮＡスタンダードによって表されるそれぞれの遺伝子の変異及び参照アイソフォームの実測相対的存在量を示す。（Ｂ）箱ひげ図（最少−最大）が、予測されるアイソフォーム倍数変化に対する、混合物Ａ（Ｋ５６２ＲＮＡ試料に添加した）及び混合物Ｂ（ＧＭ１２８７８７ＲＮＡ試料に添加した）中のアイソフォーム間の実測倍数変化を示す。（Ｂ）この例では、人工染色体上の単一の遺伝子座が、構成要素をなすエキソンを共有するが、３’別のエキソン及び終結部位が異なる２つの別個のアイソフォーム（Ｒ＿１０＿２＿Ｒ及びＲ＿１０＿２＿Ｖ）をコードする。混合物Ａでは異なる決まり（３：１比）で、混合物Ｂでは逆方向（１：３比）でそれぞれのアイソフォームの典型であるＲＮＡスタンダードを生成した。（Ｂ）グラフが、混合物Ａ及び混合物Ｂ中のＲ＿１０＿２遺伝子及びＲ＿１０＿２＿Ｒ及びＲ＿１０＿２＿Ｖアイソフォームの予測される（破線の）発現に対する実測値（最少から最大までを示す箱ひげ図；ｎ＝３）を示す。ＲＮＡスタンダード及びＥＲＣＣＲＮＡＳｐｉｋｅ−ｉｎｓの定量的比較を示す。（Ａ）散布図が、ＲＮＡスタンダード（灰色）に対するＥＲＣＣＲＮＡＳｐｉｋｅ−ｉｎｓ（黒色）の公知の濃度と実測存在量（ＲＰＫＭで測定される）の比較を示す。エラーによる３つの複写に基づいて標準偏差を示す棒。検出の限界が、それ以下であるとサンプリングが数少なく、可変となるＲＮＡスタンダードの公知の濃度を示す。（Ｂ）ＲＮＡスタンダード（灰色）に対するＥＲＣＣＲＮＡＳｐｉｋｅ−ｉｎｓ（黒色）が、ほぼ同じ線形プロファイル及び検出の限界を越える相関を示す。（Ｃ）散布図が、混合物Ａ（正常肺ＲＮＡ試料に添加した）及び混合物Ｂ（マッチした肺腺癌ＲＮＡ試料に添加した）間のＥＲＣＣＲＮＡＳｐｉｋｅ−ｉｎｓ（黒色）及びＲＮＡスタンダード（灰色）存在量の予測される倍数変化に対する実測倍数変化を示す（Ｄ）癌遺伝子発現（黒色直線）の蓄積頻度分布。添加したＲＮＡスタンダードの存在量の測定値が示され（破線）、付随する肺腺癌ＲＮＡ試料内の内因性癌遺伝子の濃度を測定するためのオーバーラップしている定量的参照ラダーが提供される。マウス肝臓ＲＮＡ試料に添加した場合、（Ａ）遺伝子または（Ｂ）個々のアイソフォームの典型であるＲＮＡスタンダードの公知の存在量に対する実測存在量（ＲＰＫＭで測定される）を示す散布図を示す。線形相関及び傾きが、ＲＮＡシーケンシングライブラリーの定量的精度を示す。ＤＮＡスタンダード及びＧＭ２１８７８ゲノムＤＮＡを用いるＤＮＡシーケンシング分析の１つの例を示す。（Ａ）散布図が、ＤＮＡスタンダードの公知の存在量に対してＤＮＡスタンダードの存在量の測定値（ＲＰＫＭで）を比較する。（Ｂ）散布図が、ＤＮＡスタンダードの公知の濃度に対するＤＮＡスタンダードによって表される遺伝的変異のアライメント倍数カバレッジを示す。（Ｃ）散布図が、公知の変異対立遺伝子頻度と比較した実測変異対立遺伝子頻度を示す。変異対立遺伝子頻度は、参照対立遺伝子頻度に対して示される。線形相関及び傾きが、対立遺伝子頻度がみられる定量的精度を示す。（Ｄ）散布図が、マウスゲノムＤＮＡによる分析に用いられる場合、ＤＮＡスタンダードの公知の存在量に対してＤＮＡスタンダードの存在量の測定値（ＲＰＫＭで）を比較する。（Ｅ）蓄積頻度分布グラフは、付随するＧＭ１２８７８ゲノムＤＮＡ試料（黒色直線）に対するＤＮＡスタンダード（破線）の（上部パネル）ＰＨＲＥＤクオリティスコア、（中部パネル）倍数カバレッジまたは（下部パネル）相対的変異対立遺伝子頻度の全分布を示す。ＤＮＡスタンダードを用いて、マッチした肺腺癌及び正常ゲノムＤＮＡを比較するＤＮＡシーケンシング分析の１つの例を示す。（Ａ）リードアライメントからのクオリティ（ＭＡＰＱ）スコアを人工染色体にマッピングする頻度分布。（Ｂ）ＤＮＡスタンダードからのシーケンスされたリードの長さ１２５ｎｔで（配列リード及び人工染色体間の）ヌクレオチドミスマッチの相対的分布。（Ｃ、Ｄ）散布図が、（Ｃ）マッチした正常肺ゲノムＤＮＡ試料に添加した混合物Ａまたは（Ｄ）マッチした肺腺癌ゲノムＤＮＡ試料に添加した混合物Ｂとして混合した場合、ＤＮＡスタンダードの公知の存在量に対する実測存在量を示した。線形相関及び傾きが、定量的精度を示す。（Ｅ）散布図が、ＤＮＡスタンダードの公知の濃度に対するＤＮＡスタンダードによって表される遺伝的変異のシーケンシングカバレッジを示す。検出の限界（破線）が境界濃度を示し、それより低い濃度では遺伝的変動が確実に検出されない。ＤＮＡスタンダードを用いて及びマッチした肺腺癌及び正常ゲノムＤＮＡを比較する遺伝的変動を同定するためのＤＮＡシーケンシング分析の１つの例を示す。（Ａ）蓄積頻度分布グラフが、正確に同定された（黒色直線）または誤って同定された（破線）変異に割り当てられたクオリティスコアの分布を示す。正確に及び誤って同定された変動のクオリティスコアの示された差を用いて、付随する肺腺癌ゲノムＤＮＡ試料中の正確に及び誤って同定された変動を同定することができる。（Ｂ）ヒストグラムが、正確に同定された変異と比較した誤って同定された変異の特定のヌクレオチド置換（ＣからＡへ及びＴからＧへ）の強化を示す。（Ｃ、Ｄ）散布図が、（Ｃ）肺腺癌ゲノムＤＮＡ試料を有する混合物Ａ及び（Ｄ）マッチした正常肺組織ゲノムＤＮＡ試料を有する混合物Ｂとして混合したＤＮＡスタンダードの公知の相対的変異対立遺伝子頻度と比較した実測相対的変異対立遺伝子頻度（参照対立遺伝子頻度に対する）を示す。線形相関及び傾きが、対立遺伝子頻度が測定される定量的精度を示す。対立遺伝子頻度の正確な及び感度のよい測定には、全肺腺癌試料内の腫瘍細胞の小サブセットだけが有してよい変動を検出する必要がある。結合されたＤＮＡスタンダードを用いるＤＮＡシーケンシング分析の１つの例を示す。（Ａ）ピペット操作エラーの正規化前（上部パネル）及び結合されたＤＮＡスタンダード群が１の傾きを示すように正規化後（下部パネル）の示されたＤＮＡスタンダードの公知の存在量と比較した個々のＤＮＡスタンダードの実測存在量を比較する散布図。これは、ピペット操作エラーによる変動の同定及び除去を可能にする。（Ｂ）複数のオーバーラップしている結合されたＤＮＡスタンダードが通常、製造され、それぞれの公知の存在量点で少なくとも３つの依存しない測定値が提供される。ピペット操作エラーによる結合されたＤＮＡスタンダード群異常値（示される）は、容易に同定及び除去することができる。（Ｃ）ヒストグラム（上部パネル）が、３つの依存しない測定値からそれぞれの公知の存在量点に決定される９５％信頼区間を示す。９５％信頼区間は、ピペット操作エラーを除去するためのＤＮＡスタンダード存在量の正規化後のより高い定量的精度のため明らかに小さい（下部パネル）。大規模な構造的変動の典型であるＤＮＡスタンダードの例を示す。（Ａ）逆位、（Ｂ）欠失、（Ｃ）挿入、（Ｄ）コピー−数変動及び（Ｅ）モバイルエレメント挿入の典型であるＤＮＡスタンダードを生成した。ライブラリー調製及びシーケンシングのためＧＭ１２８７８ヒト細胞ゲノムＤＮＡとＤＮＡスタンダードを混合した。個々の配列リードアライメント（灰色棒）の例と共にそれぞれの例のＤＮＡスタンダードからのアライメントカバレッジを示す（黒色ヒストグラム）。人工Ｄ４Ｚ４反復の生成方法の１つの例を示す。（Ａ）ヒトゲノムから単一のＤ４Ｚ４反復コピー（灰色の矢印が相対的方向を示す）を取り出す。相同性は、除去され（白色箱）、頭−尾反復アレーを形成するように増幅される。反復コピーとマッチし、上流及び下流半反復コピーに隣接するが、バーコード変動によって識別される複数のＤＮＡスタンダードが生成される。ＤＮＡスタンダードの相対的存在量は、反復コピー数の予測値に比例する。（Ｂ）散布図が、コピー数の予測値に対するそれぞれのＤＮＡスタンダード（リード百万当たりで）の実測存在量を示した。また、肺正常、腺癌、Ｋ５６２及びＧＭ１２８７８ゲノムＤＮＡ試料のＤＮＡスタンダードの比較によって決定されるＤ４Ｚ４反復ユニットコピー数が示される。ＢＩＯＭＥＤ２ユニバーサルプライマー（ＴＣＲγチューブＡ及びＢ）プライマーを用いて人工ＴＣＲγクロノタイプＤＮＡスタンダードの成功したＰＣＲ増幅によって生成される１５のアンプリコンのサイズ及び純度を確認するＢｉｏＡｎａｌｙｓｅｒ（２１００高感度ＤＮＡＡｓｓａｙ；Ａｇｉｌｅｎｔ）トレースを示す。メタゲノムＤＮＡスタンダードの分析を示す。（Ａ）散布図が、ＤＮＡスタンダードの濃度の予測値に対するアセンブルしたＤＮＡスタンダードコンティグの実測存在量（測定されるＲＰＫＭで）を示す。（Ｂ）３つの例が、ＤＮＡスタンダード存在量のコンティグアセンブリ及びカバレッジへのインパクトを示す。高濃度のＤＮＡスタンダード（上部パネル）が、高配列リードカバレッジ及び完全コンティグアセンブリを示し、一方、逆に、低存在量のＤＮＡスタンダード（下部パネル）が、低配列リードカバレッジを示し、不十分にアセンブルされる。（Ｃ、Ｄ）散布図が、（Ｃ）シーケンスリードアライメントまたは（Ｄ）ｄｅｎｏｖｏアセンブルしたコンティグを有するＤＮＡスタンダードのフラクションカバレッジに対するＤＮＡスタンダードの公知の濃度を示す。糞便または土壌微生物ＤＮＡと用いられるＤＮＡスタンダードのメタゲノム分析の１つの例を示す。（Ａ、Ｂ）散布図が、（Ａ）糞便試料複製１（Ｂ）及び糞便試料複製２と用いられるＤＮＡスタンダードの存在量の予測値と比較した実測存在量（ＲＰＫＭで測定される）を示す。（Ｃ）散布図が、ＤＮＡスタンダードの公知の存在量と比較したｄｅｎｏｖｏで正確にアセンブルされるＤＮＡスタンダードのフラクションを示す。（Ｄ、Ｅ）散布図が、ＷａｔｓｏｎｓＣｒｅｅｋ（Ｄ）複製１〜３（混合物Ａ）及び（Ｅ）複製４〜６（混合物Ｂ）からの土壌試料と用いられるＤＮＡスタンダードの存在量の予測値と比較した実測存在量（ＲＰＫＭで測定される）を示す。（Ｆ）散布図が、混合物Ａ（土壌試料複製１〜３）及び混合物Ｂ（土壌試料複製４〜６）間のＤＮＡスタンダードの存在量の予測される倍数変化と比較した実測倍数変化を示す。線形相関及び傾きが、ＤＮＡ存在量倍数変化が試料間で測定される定量的精度を示す。ＧＣ偏りを測定するために生成されるＤＮＡスタンダードの生成方法の１つの例を示す。（Ａ）ＧＣメタゲノムＤＮＡスタンダード（細い黒色直線）及び付随する土壌試料（複製１；濃い黒色直線）からのシーケンスリードのＧＣ含有率の蓄積頻度分布グラフ。（Ｂ）ＤＮＡスタンダードからのシミュレートしたリード（破線）の蓄積分布と比較した極端なＧＣ含有率（黒色直線）を有する選択されたＤＮＡスタンダードからの実験に由来するシーケンスリードの蓄積頻度分布。シミュレーションに対して極端なＧＣ含有率を有する実験に由来するシーケンスリードの発現が少ないことがみられる。これは、ＧＣ含有率のライブラリー調製及びシーケンシング方法への定量的インパクトを示す。（Ｃ）土壌試料１のシーケンシング中に添加したＤＮＡスタンダードのＧＣ含有率の蓄積頻度分布。ポリヌクレオチドシーケンシングプロセスを校正するのに好適なコンピュータシステム３８００を示す。コンピュータシステム３８００は、プログラムメモリ３８０４、データメモリ３８０６、コミュニケーションポート３８０８及びユーザーポート３８１０に接続されたプロセッサー３８０２を含む。ＮＧＳ方法でのピペット操作エラーの調節のための結合された合成スタンダードの生成方法の１つの例を示す。（Ａ）結合されたスタンダードの可能性のある作製を示す概略図。（Ｂ）重みつき正規化存在量の測定値と比較して、それぞれの個々のスタンダードの公知の重みつき正規化濃度（ホストする結合されたスタンダードの濃度及び結合されたスタンダード内のコピー数の双方に由来する）のグラフを示す。（Ｃ）公知の個々のスタンダード濃度を校正した後に行った調節を示す。（Ａ）正常遺伝子及び融合遺伝子合成スタンダードの生成を示す。（Ｂ）実験の混合物内の合成融合遺伝子の公知の濃度に対する融合ジャンクションの位置での合成融合遺伝子カバレッジのグラフを示す。（Ａ）は、ＮＡ１２８７８ゲノム（破線）及び合成染色体（灰色直線）の双方での単一のヌクレオチド変異が同定される感度を示す蓄積分布グラフである。（Ｂ）ＮＡ１２８７８ゲノム（破線）及び合成染色体（灰色直線）の双方での小さな挿入または欠失（インデル）が同定される感度を示す蓄積分布グラフ。（Ｃ）合成染色体へのリードアライメント中のヘテロ接合体変異を示すＩｎｔｅｇｒａｔｅｄＧｅｎｏｍｅＶｉｅｗｅｒ（ＩＧＶ）からのスクリーンショット。（Ａ）は、混合物内に存在する変異対立遺伝子頻度の範囲を示す箱髭図である。（Ｂ）参照（黒色円）及び変異（灰色円輪郭）の双方の実測配列カバレッジに対する変異対立遺伝子フラクションの予測値を示す散布図。（Ｃ）ＶａｒＳｃａｎ２（参照の変異対立遺伝子カバレッジへのフィッシャーの正確確率検定によって計算される）によるｐ−値閾値に従って同定される真及び偽の変異対立遺伝子の双方の蓄積分布。（Ｄ）ＶａｒＳｃａｎ２によるｐ−値閾値に対する変異対立遺伝子が検出される感度及び特異性の比を示す。（Ｅ）一定の範囲の胎児ＤＮＡロードでの胎児及び母親の変異の対立遺伝子存在量の予測値を示す箱髭図。また、トリソミー事象の典型である変異の存在量の予測値が示される（円輪郭）。

詳細説明
一般
本明細書全体にわたって、特に記載しない限り、または、文脈により特に要求されない限り、単一のステップ、物質の組成物、ステップの群または物質の組成物の群への参照では、これらのステップ、物質の組成物、ステップの群または物質の組成物の群の１つ及び複数（すなわち、１つ以上）を包含すると取らなければならない。

本明細書に用いられる場合、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈が明確に特に指示をしない限り、これらの単語の複数形を含む。

用語「及び／または」、例えば、「Ｘ及び／またはＹ」は、「Ｘ及びＹ」または「ＸまたはＹ」のいずれかを意味すると理解しなければならず、双方の意味またはいずれかの意味の明確な支持をもたらすと取らなければならない。

本明細書全体にわたって、単語「含む（ｃｏｍｐｒｉｓｅ）」、またはその変型、例えば、「ｃｏｍｐｒｉｓｅｓ」または「ｃｏｍｐｒｉｓｉｎｇ」は、記載した要素、整数もしくはステップ、または要素、整数もしくはステップの群を含むが、他の要素、整数もしくはステップ、または要素、整数もしくはステップの群のいずれかを除外しないことを意味すると理解しなければならない。

用語「約」は、本明細書に用いられる場合、一定の範囲の特定の値の＋／−１０％を指す。

人工染色体：
本明細書に開示された人工染色体は、物理的ポリヌクレオチド配列として生成してよい、またはコンピュータ中（ｉｎｓｉｌｉｃｏ）に生成し、記憶してよい。本明細書に記載されたアプリケーションの多くでは、人工染色体が、ｉｎｓｉｌｉｃｏのままで十分である。しかし、人工染色体の物理的ポリヌクレオチド配列は、スタンダードの、ポリヌクレオチド生成の公知の方法を用いて生成することができる。

本明細書に開示された人工染色体は、ＤＮＡまたはＲＮＡポリヌクレオチド配列を含んでよい。このため、本明細書でのポリヌクレオチド配列への参照のいずれかは、ＤＮＡ配列またはＲＮＡ配列への参照と理解しなければならない。

人工染色体の正確な長さは、人工染色体が設計される特定の使用に従って変えることができる。例えば、人工染色体の長さは、約１０³〜１０⁹ヌクレオチド長の範囲とすることができる。１つの例では、人工染色体は、少なくとも１，８００ヌクレオチド長であるポリヌクレオチド配列を含む、またはこれからなる。もう１つの例では、人工染色体は、２０メガベース（Ｍｂ；１Ｍｂは、１，０００、０００ヌクレオチドに等しい）未満長であるポリヌクレオチド配列を含む、またはこれからなる。このため、人工染色体は、例えば、１，８００ヌクレオチド長〜２０Ｍｂ長としてよい。

人工染色体は、人工ポリヌクレオチド配列を含み、当該人工ポリヌクレオチド配列のいずれかのフラグメントが公知の天然ゲノム配列のいずれかと識別可能である。人工ポリヌクレオチド配列の１つの利点が、かかるフラグメントは、対象の天然ポリヌクレオチド標的を含有する試料に直接添加することができ、同時に、なお、試料中に存在する天然ポリヌクレオチドのいずれかと識別可能であるということである。人工染色体は、公知の天然ゲノム配列といくつかの相同性（または配列同一性）を共有する追加の配列を含んでよいと理解される。かかる追加の配列のいずれも、人工染色体の人工ポリヌクレオチド配列内に含まれない。

人工ポリヌクレオチド配列は、人工染色体の任意の割合を形成することができる。このため、人工ポリヌクレオチド配列は、人工染色体の１％〜１００％を含むことができる。例えば、人工ポリヌクレオチド配列は、人工染色体の約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％または９５％を含むことができる。１つの例では、人工ポリヌクレオチド配列が、人工染色体の大部分を形成する。このため、人工ポリヌクレオチド配列は、人工染色体の５０％以上、６０％以上、７０％以上、８０％以上、９０％以上、９５％以上、９９％以上を形成してよい。もう１つの特定の例では、人工ポリヌクレオチド配列が、人工染色体の１００％を形成する。

人工ポリヌクレオチド配列の長さは、変えることができる。人工ポリヌクレオチド配列の長さは、人工染色体全体の長さとしてよい。したがって、人工ポリヌクレオチド配列の長さは、約１０³〜１０⁹ヌクレオチド長の範囲とすることができる。１つの例では、人工ポリヌクレオチド配列が、少なくとも１，８００ヌクレオチド長である。もう１つの例では、人工ポリヌクレオチド配列が、２０Ｍｂ未満長である。このため、人工ポリヌクレオチド配列は、例えば、１，８００ヌクレオチド長〜２０Ｍｂ長としてよい。もう１つの例では、人工ポリヌクレオチド配列の長さは、本明細書に開示されたフラグメントの長さと同じとしてよい。例えば、人工ポリヌクレオチド配列の長さは、例えば、２０ヌクレオチド〜１０，０００，０００ヌクレオチド長としてよい。

人工染色体の人工ポリヌクレオチド配列は、公知の天然配列（すなわち、生物のいずれかから分離されたポリヌクレオチド配列のいずれか）のいずれかと相同性がほとんどない、または相同性がない。したがって、本明細書に開示された染色体は、「人工」染色体として記載されている。相同性の程度は、当該技術分野で公知の好適な配列比較方法のいずれかを用いて、公知の天然ポリヌクレオチド配列のいずれかと人工染色体の人工ポリヌクレオチド配列の比較によって決定してよい。人工染色体の人工ポリヌクレオチド配列と公知の天然ポリヌクレオチド配列のいずれかの間に共有される配列同一性がほとんどない、または配列同一性がないということは、人工ポリヌクレオチド配列が、公知の天然配列のいずれかと相同性がほとんどない、または相同性がないことを示す。

人工染色体の人工ポリヌクレオチド配列は、完全に人工としてよく、公知の天然配列のいずれかと相同性がないとしてよい。このため、人工染色体配列は、公知の天然ヌクレオチド配列のいずれかと配列同一性を共有しないとしてよい。

１つの例では、人工ポリヌクレオチド配列の１０，０００，０００隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する。もう１つの例では、人工ポリヌクレオチド配列の１，０００，０００隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する。他の例では、人工ポリヌクレオチド配列の５００，０００隣接ヌクレオチドのいずれか、１００，０００隣接ヌクレオチドのいずれか、５０，０００隣接ヌクレオチドのいずれか、１０，０００隣接ヌクレオチドのいずれか、１，０００隣接ヌクレオチドのいずれか、５００隣接ヌクレオチドのいずれか、４００隣接ヌクレオチドのいずれか、３００隣接ヌクレオチドのいずれか、２５０隣接ヌクレオチドのいずれか、２００隣接ヌクレオチドのいずれか、１５０隣接ヌクレオチドのいずれか、１００隣接ヌクレオチドのいずれかまたは５０隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する。特定の例では、人工ポリヌクレオチド配列の２５０隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する。もう１つの特定の例では、人工ポリヌクレオチド配列の１５０隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する。特定の例では、人工ポリヌクレオチド配列の１００隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する。本明細書に開示された人工ポリヌクレオチド配列のいずれかでは、人工ポリヌクレオチド配列の１０，０００，０００隣接ヌクレオチドのいずれか、１，０００，０００隣接ヌクレオチドのいずれか、５００，０００隣接ヌクレオチドのいずれか、１００，０００隣接ヌクレオチドのいずれか、５０，０００隣接ヌクレオチドのいずれか、１０，０００隣接ヌクレオチドのいずれか、１，０００隣接ヌクレオチドのいずれか、５００隣接ヌクレオチドのいずれか、４００隣接ヌクレオチドのいずれか、３００隣接ヌクレオチドのいずれか、２５０隣接ヌクレオチドのいずれか、２００隣接ヌクレオチドのいずれか、１５０隣接ヌクレオチドのいずれか、１００隣接ヌクレオチドのいずれか、５０隣接ヌクレオチドのいずれか、２５隣接ヌクレオチドのいずれか、２１隣接ヌクレオチドのいずれかまたは２０隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと、任意の組み合わせまたは並べ換えで、１００％未満、９５％未満、９０％未満、８０％未満、７０％未満、６０％未満、５０％未満、４０％未満、３０％未満、２０％未満、１０％未満、５％未満、または１％未満の配列同一性を有してよい。このため、例えば、人工ポリヌクレオチド配列の２１隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと５０％未満、４０％未満、３０％未満、２０％未満、１０％未満、５％未満、または１％未満の配列同一性を有してよい。１つの特定の例では、人工ポリヌクレオチド配列の２１隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと５０％未満の配列同一性を有する。

人工染色体の小部分（例えば、８、９、１０、１１、１２、１３、１４または１５隣接ヌクレオチド）が、同じ長さの公知の天然ヌクレオチド配列のいずれかと相同としてよい。例えば、人工染色体のかかる小部分が、対象の配列変異を含む公知の天然ヌクレオチド配列の小部分を複写してよい。例えば、人工染色体の小部分（例えば、８、９、１０、１１、１２、１３、１４または１５隣接ヌクレオチド）が、その長さに渡って、特定の遺伝子の変異などの対象の配列変異を含む公知の天然ヌクレオチド配列と１００％同一としてよい。人工染色体配列の大部分が、公知の天然ヌクレオチド配列のいずれかと相同性をほとんど共有しなくてよい、または相同性を共有しなくてよい（それゆえ、人工ポリヌクレオチド配列としてよい）が、人工染色体は、追加で１つ以上の対象のかかる小部分または特定の配列を含有してよい。

人工染色体が、公知の天然ヌクレオチド配列といくつかの配列同一性を共有するポリヌクレオチド配列を含む、またはこれからなる場合、人工染色体は、機能性ｍＲＮＡ、ｒＲＮＡ、ｔＲＮＡ、ｌｎｃＲＮＡ、ｓｎＲＮＡ、ｓｎｏＲＮＡまたは機能性ポリペプチドもしくはタンパク質をコードしなくてよい。

本明細書に開示された人工染色体の人工ポリヌクレオチド配列は、公知の天然ポリヌクレオチド配列のいずれかと一次ヌクレオチド配列同一性を共有しないにもかかわらず、１つ以上の天然ポリヌクレオチド配列（例えば、天然染色体）の一般的特徴を含有することができる。このため、本明細書に開示された人工染色体のフラグメントは、１つ以上の天然ポリヌクレオチド配列の一般的特徴を含有することができる。例えば、人工ポリヌクレオチド配列は、遺伝子、反復エレメント、モバイルエレメント、小規模な遺伝的変動、大規模な遺伝的変動等（これらに限定されない）を含む、通常、真核生物及び／または原核生物染色体またはゲノムにみられる遺伝的特徴をコードすることができる。図１は、かかる典型的な特徴の実例を提供し、これらのいずれか１つまたはそれ以上が、任意の組み合わせで本明細書に開示された人工ポリヌクレオチド配列に含まれてよい。

人工染色体を生成すること：
本開示は、また、本明細書に開示された人工染色体またはそのフラグメントを生成する（または「作製する」）方法を提供する。さらに、本開示は、本明細書に開示された方法のいずれか１つまたはそれ以上によって生成される（または「作製される」）人工染色体またはそのフラグメントを提供する。本明細書に開示された人工染色体は、本明細書に記載されたとおり、いくつかの好適な方法によって作製してよい。例えば、人工染色体は、延長された隣接ポリヌクレオチド配列を形成するようにヌクレオチドのランダム付加によって、ｉｎｓｉｌｉｃｏで他の公知の天然配列と配列同一性をほとんど有しない、または配列同一性を有しない隣接ポリヌクレオチド配列を生成することによって作製してよい。人工染色体配列を生成するのに用いることができる好適なソフトウエアプログラムとしては、ランダムＤＮＡ配列を生成するためのソフトウエア、例えば、ＦａＢｏｘ（Ｖｉｌｌｅｓｅｎ２００７）またはＲＡＮＤＮＡ（ＰｉｖａａｎｄＰｒｉｎｃｉｐａｔｏ２００６）；ＤＮＡ配列をシャッフルするためのソフトウエア、例えば、ｕＳｈｕｆｆｌｅ（Ｊｉａｎｇ，Ａｎｄｅｒｓｏｎｅｔａｌ．２００８）及びＳｈｕｆｆｌｅｔ（Ｃｏｗａｒｄ１９９９）が挙げられる（例えば、これらのものであり、これらに限定されない）。

あるいは、人工染色体は、天然ソースから同定された公知または天然のヌクレオチド配列（本明細書では「テンプレート」配列を意味する）を取り出し、その後、テンプレート配列の公知の天然ポリヌクレオチド配列のいずれかと共有される配列同一性を除去する、または減少させるために、ヌクレオチドをシャッフルすること（または「再配列すること」）によって作製してよい。１つの例では、人工染色体の全ヌクレオチドを一緒にシャッフルし、ヌクレオチド順序を変えることができる。１つの例では、テンプレート配列に従って別々のヌクレオチド長のウインドウにテンプレートヌクレオチド配列内の隣接ヌクレオチドを分割することができ、単一のウインドウ内のヌクレオチドだけを一緒にシャッフルすることができる。これによりウインドウ内の一次ヌクレオチド配列を再配列することができ、この結果、シャッフルされた（または「再配列された」）配列が、公知の天然配列のいずれかと配列同一性をほとんど共有しない、または、共有しないが、同時に、オリジナルの公知または天然の配列に特有であるヌクレオチド組成物のより広い特性を保持している。例えば、テンプレート配列に当てはまるウインドウ中に存在する同じヌクレオチドが、同じウインドウ内のシャッフルされた配列中に保持されることを確実にすることによって、シャッフルされたウインドウの長さで、ウインドウ内のヌクレオチドの偏りのいずれか（例えば、高グアニンまたはシトシン含有率）を保持することができる（図２の実例によって例示されるとおり）。このため、本明細書で意味する「シャッフリング」は、ポリヌクレオチド配列の固定長内の同じヌクレオチドを再配列し、ポリヌクレオチド配列の固定長内に存在する特定のヌクレオチドそれぞれの数の変更を含まない。

配列特有の特徴が、次世代シーケンシング及び分析で、天然遺伝的特徴の発現を偏らせる可能性があるため、テンプレート配列の高レベルのヌクレオチド組成物特性を保持することには、利点がある可能性がある。例えば、高または低グアニンまたはシトシン含有率（ＧＣ％）を有する配列では、ライブラリー調製中のＰＣＲによって不十分に増幅され、その結果、シーケンシングライブラリー内の発現が不十分であってよい。あるいは、反復配列構造を有する配列を明白にアラインすることが困難であり、その結果、分析中の発現が不十分となる可能性がある。本明細書に開示された人工染色体及びスタンダードは、天然遺伝的特徴をエミュレートするように設計することができるため、テンプレート配列と同じ配列特有の偏りを反映するように人工染色体またはスタンダードの合成一次配列を生成することができる。このため、本明細書に開示された人工染色体またはスタンダードは、人工一次配列を有すると同時に、オリジナルテンプレート配列としてヌクレオチド組成物及び／または反復構造を維持することができる。

シャッフリングのいずれかを実施するために選択されるウインドウサイズは、固定のポリヌクレオチド長さ（例えば、１０、１５、２０、３０、４０、５０、６０、７０、８０、９０、１００、１５０、２００、２５０、３００、４００、５００、６００、７００、８００、９００、１０００以上のヌクレオチド）に一致させることができる。あるいは、選択されるウインドウサイズは、テンプレート配列中に存在するより高次の遺伝的特徴（例えば、イントロン、エキソン、ＣｐＧアイランドなど）の境界に一致させることができる。例えば、遺伝子の一次イントロン及びエキソン配列は、シャッフルすると同時に、なお、組織化エキソン及びイントロン特徴を維持することができる。このため、人工染色体内の人工ポリヌクレオチド配列の一次配列が公知または天然の配列とマッチングしないにもかかわらず、より高次の遺伝的特徴の構造及び組織化を保持することができる。

あるいは、人工染色体は、天然ソースから同定される公知または天然のヌクレオチド配列（「テンプレート」配列）を取り出し、その後、テンプレート配列をリバースすることによって作製してよい。天然ヌクレオチド配列（ＤＮＡまたはＲＮＡ配列）は、ヌクレオチド塩基間のリン酸ジエステル結合によって強いられる内因性の５’から３’への方向性を有する。３’から５’への方向に配列をリバースすると、この方向性が妨害され、オリジナルテンプレート配列への相同性（または配列同一性）をもはや有しない配列が生成される。人工染色体を生成する本方法の１つの利点が、テンプレート配列への配列同一性が除去されても、ヌクレオチド組成物及びオリジナル配列の反復性が保持されることである。それゆえ、リバースされた配列は、「人工」であり、オリジナル内因性配列（正しい方向性を有する）と識別することができる。

あるいは、人工染色体は、天然ソースから同定される公知または天然のヌクレオチド配列（「テンプレート」配列）を取り出し、その後、配列内の別のヌクレオチドにヌクレオチドを置換することによって作製してよい。例えば、グアニンヌクレオチドは、シトシンヌクレオチドに置換することができ、シトシンヌクレオチドは、グアニンヌクレオチドに置換することができ、アデニンヌクレオチドは、チミンヌクレオチドに置換することができ、及び／またはチミンヌクレオチドは、アデニンヌクレオチドに置換することができる。個々のヌクレオチド及び一次配列が、変化する可能があっても、体系的方法でヌクレオチドを置換することによって、配列の反復構造を維持することができ、ピリミジン及びプリン組成物を維持することができ、及び／またはＧＣ含有率を維持することができる。

シャッフルする、置換する及びリバースする技術は、任意の組み合わせまたは並べ換えで、人工染色体及び／またはそのフラグメントの作製中にそれぞれを適用することができると理解される。このため、リバースされた配列中の残りの公知の天然配列との相同性のいずれかを減少させる、または除去するために、例えば、テンプレート配列をリバースすることができ、その後、リバースされた配列中の選択されたウインドウをシャッフルすることができる。あるいは、シャッフルされた配列中の残りの公知の天然配列への相同性のいずれかを減少させる、または除去するために、例えば、テンプレート配列をシャッフルすることができ、シャッフルされた配列中の選択されたウインドウをリバースすることができる。

公知の天然配列との相同性が、人工染色体ヌクレオチド配列内に存在するかどうかを確認するために、ＢＬＡＳＴｎソフトウエアプログラム（Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．，ｅｔａｌ．，１９９０）などのソフトウエアプログラムで、公知のヌクレオチド配列データベース（例えば、ＮＣＢＩヌクレオチドコレクション（ｎｒ／ｎｔ）データベース）を検索することができる。また、複数のヌクレオチド配列のアライメント及び比較を容易にする他の好適なソフトウエアプログラム、例えば、ＦＡＳＴＡ（ＰｅａｒｓｏｎａｎｄＬｉｐｍａｎ１９８８）またはＥＮＡ配列サーチ（ｈｔｔｐ：／／ｗｗｗ．ｅｂｉ．ａｃ．ｕｋ／ｅｎａ／ｓｅａｒｃｈ／）を用いることができる。複合配列では、相同性は、通常、公知の配列とマッチングする２１以上の隣接ヌクレオチド配列（例えば、２１以上のヌクレオチド配列長に渡って１００％配列同一性を有する）に相当する。単一配列（例えば、反復またはモノヌクレオチド組成物）では、相同性は、０．０１未満またはこれに等しい期待（Ｅ）値（ＮＣＢ１ＢＬＡＳＴ（Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．，ｅｔａｌ．，１９９０）に定義されるとおり）に相当する。このため、本明細書に開示された人工ポリヌクレオチド配列の２１以上の隣接ヌクレオチドのいずれかは、０．０１未満またはこれに等しいＥ値（ＮＣＢ１ＢＬＡＳＴ（Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．，ｅｔａｌ．，１９９０）に定義されるとおり）を有してよい。

シャッフルする、置換する及び／またはリバースする技術が、所望の程度まで他の公知の天然配列と共有される配列同一性を除去しない、またはこれを十分に減少させない場合、所望のレベルの配列類似性の減少を実現するために個々のヌクレオチド置換を生成することができる。このため、残りの共有される配列同一性のいずれかを除去するために、ヌクレオチドの特定の挿入、欠失または置換によって、シャッフルされた、置換された、またはリバースされた配列をさらに、編集する（または「キュレートする」）ことができる。したがって、本明細書に開示された人工染色体の生成方法は、公知の天然配列のいずれかと共有される配列同一性のいずれかを減少させる、またはこれを除去するために、さらに、シャッフルされた、置換された、またはリバースされたヌクレオチド配列を編集することを含んでよい。

相同性を除去するために、天然ゲノムまたは染色体配列のいずれもシャッフルする、置換する、またはリバースすると同時に、天然ゲノムまたは染色体配列のヌクレオチド組成物の特徴を保持することができる。公に利用可能なヌクレオチドオンラインデータベースのいずれか１つまたはそれ以上から好適な天然ヌクレオチド配列を同定することができる。好適なヌクレオチドオンラインデータベースの例としては、ＧｅｎＢａｎｋ及びヌクレオチドコレクション（ｎｒ／ｎｔ）データベース（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ）、ＤＮＡＤａｔａＢａｎｋｏｆＪａｐａｎ（ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＧｅｎｅｔｉｃｓ）及びＥＭＢＬ−ＢＡＮＫ（ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ）が挙げられる。あるいは、天然ソースからポリヌクレオチドを分離し、公知のシーケンシング技術を用いて、そのポリヌクレオチドのシーケンシングによって好適な天然ヌクレオチド配列を得てよい。１つの例では、天然ゲノムまたは染色体配列が、ヒトまたはマウスゲノムまたは染色体配列などの哺乳動物ゲノムまたは染色体配列である。例えば、参照ヒトゲノム配列（例えば、最新の注釈バージョンｈｇ１９）から天然ヌクレオチド配列を選択してよい。あるいは、哺乳動物配列のいずれか（例えば、Ｍ．ｍｕｓｃｕｌｕｓｍｍ１０）、脊椎動物ゲノムのいずれか（例えば、Ｄ．ｒｅｒｉｏｄａｎＲｅｒ７）、動物配列のいずれか（例えば、Ｃ．ｅｌｅｇａｎｓｃｅ１０、Ｄ．ｍｅｌａｎｏｇａｓｔｏｒｄｍ３など）、植物配列のいずれか（例えば、Ａ．ｔｈａｌｉａｎｉｓｔａｉｒ９）、菌配列のいずれか（例えば、Ｎ．ｃｒａｓｓａ）または真核生物配列のいずれか（例えば、Ｓ．ｃｅｒｅｖｉｓａｅＳａｃＣｅｒ６）、または細菌配列のいずれか（例えば、Ｅ．ｃｏｌｉｅｓｃｈＣｏｌｉＫ１２）、または原始細菌配列のいずれか（例えば、Ｍ．ｋａｎｄｌｅｒｉｍｅｔｈＫａｎｄ１）、またはウイルス、ファージ及びオルガネラ配列のいずれか（（例えば、Ｈｅｐａｔｉｔｉｓｄｅｌｔａｖｉｒｕｓ）から天然ヌクレオチド配列を選択してよい。

本明細書に開示された人工染色体内の人工ポリヌクレオチド配列は、単一の種に由来する公知の天然ゲノム配列のいずれか、または複数の種に由来する公知の天然ゲノム配列のいずれかと識別可能なものとしてよい。例えば、本明細書に開示された人工染色体内の人工ポリヌクレオチド配列は、公知の天然ヒトゲノム配列のいずれかと識別可能なものとしてよい。もう１つの例では、本明細書に開示された人工染色体内の人工ポリヌクレオチド配列は、生物のいずれかの公知の天然ゲノム配列のすべてと識別可能なものとしてよい。

もう１つの実例では、テンプレート配列として、高ＧＣ含有率（７５％）を有するＡｎａｅｒｏｍｙｘｏｂａｃｔｅｒｄｅｈａｌｏｇｅｎｓゲノムを用いることができる。Ａ．ｄｅｈａｌｏｇｅｎｓゲノム配列をシャッフルすると、オリジナルＡ．ｄｅｈａｌｏｇｅｎｓゲノム（または他の天然または公知の配列のいずれか）と相同性がない（または、共有される配列同一性がない）ポリヌクレオチド配列を含むが、Ａ．ｄｅｈａｌｏｇｅｎｓゲノムの特徴である高ＧＣ含有率を保持する人工染色体を生成することができる。

本明細書に記載されたプロセスは、公知または天然の配列のいずれかと相同性（または共有される配列同一性）がない複数の隣接ヌクレオチド配列を生成するために用いることができる。単一のマージされた隣接配列を形成するために、これらの複数の配列を再配列し、混合することができる。このため、本明細書に開示された人工染色体は、そのデザイン及び構成に多くの柔軟性を提供するモジュール方式で作製することができる。例えば、まとめて単一の複合人工染色体にアセンブルする前に、できる限り異なる遺伝的特徴をコードする複数の配列を、単独で作製することができる。また、異なる配列組み合わせをアセンブルすると、特定の調査または診断の要件のためにカスタムビルド人工染色体の作製が可能になる。

さらに、複数の（すなわち、２つ以上の）人工染色体を生成し、一緒に用いることができる。したがって、本開示は、また、２つ以上の人工染色体のライブラリーを提供する。ライブラリーに入れるために選択される染色体の数は、ライブラリーの特定の意図される用途に応じて選択することができる。１つの例では、人工染色体のライブラリーは、倍数体ゲノムを含む全ゲノムの組織化をエミュレートすることができる。例えば、４６の別個の染色体配列でヒトゲノムの組織化をエミュレートするために、４６の人工染色体を含有する人工染色体のライブラリーを作製することができる。このため、個々の人工染色体配列を複製し、倍数体人工ゲノムを形成することができる。複製人工染色体間に配列変動を組み入れ、これにより、天然接合生殖性をシミュレートすることができる。もう１つの例では、人工染色体のライブラリーが、微生物のコレクションまたはコミュニティ（例えば、シーケンシング分析にかける環境試料中に存在するものとしてよい）として存在する複数の微生物ゲノムをエミュレートしてよい。例えば、かかるコレクションが、１０を越える、例えば、約３０の異なる人工染色体を含んでよい。

追加の人工染色体の特徴：
上記に記載されたとおり、人工染色体（またはそのフラグメント）は、１つ以上の（またはいずれか）天然生物中に存在しない一次ヌクレオチド配列を含有するにもかかわらず、より高いレベルの特徴、例えば、真核生物遺伝子座、ＣｐＧアイランド、モバイルエレメント、反復ポリヌクレオチド特徴、小規模な遺伝的変動及び大規模な遺伝的変動または原核生物遺伝子座、ＤＮＡ反復、及び／またはモバイルエレメントを組み入れることができ、完全長または機能性ｍＲＮＡ、ｒＲＮＡ、ｔＲＮＡ、ｍｉｃｒｏＲＮＡ、ｐｉＲＮＡ、ｌｎｃＲＮＡ、ｓｎＲＮＡ、ｓｎｏＲＮＡ、機能性翻訳リーディングフレーム、ポリペプチドまたはタンパク質をコードしない。人工染色体のこれらの特徴及び他の追加または別の特徴が、本明細書に記載されている。

人工遺伝子
人工染色体の人工ポリヌクレオチド配列は、１つ以上の人工遺伝子を含むことができる。１つ以上の人工遺伝子は、介在するイントロンと１つ以上のエキソンを含むことができる。イントロン及び／またはエキソンは、任意の好適な長さのものとすることができる。例えば、エキソンは、２５ヌクレオチド〜１０キロベース（ｋｂ）の長さとしてよい。イントロンは、５０ヌクレオチド〜２メガベース（Ｍｂ）の長さとしてよい。遺伝子全体のサイズは、２００ヌクレオチド〜４Ｍｂの範囲としてよい。人工染色体に存在する人工遺伝子の数は、１〜１０，０００で変えてよい。人工遺伝子それぞれの生成されるアイソフォームの数は、１〜２００で変えてよい。１つの人工遺伝子当たりのエキソンの数は、１〜３００で変えてよい。１つの人工遺伝子当たりのイントロンの数は、１〜３００で変えてよい。

人工遺伝子は、本明細書に記載された好適な方法のいずれかによって生成することができる。例えば、人工遺伝子は、本明細書に記載されたシャッフリング技術を用いて、天然テンプレートヌクレオチド配列の天然イントロン及びエキソン配列に対応するシャッフリングウインドウを用いて、生成することができる。いったんシャッフルされる（さらに、必要であれば、手動で編集される）と、人工遺伝子は、その後、オリジナル天然遺伝子のイントロン及びエキソン構造を有する人工染色体中に再作製することができる（図３の人工染色体の実例によって例示されるとおり）。さらに、人工染色体内にコードされる人工遺伝子座に、１５未満ヌクレオチドの小さな配列要素、例えば、スプライシング及び転写開始部位及び停止配列要素を入れることができる。

人工モバイルエレメント
人工染色体の人工ポリヌクレオチド配列は、１つ以上のモバイル反復エレメントを含むことができる。モバイル反復エレメントは、人工染色体全体に点在する複数のコピーとして存在するきわめて類似したＤＮＡ配列である。これらの長さ及び存在量は、必要に応じて、変えることができる。例えば、本開示の人工染色体に組み入れることができる人工モバイルエレメントの反復ユニットの長さは、５、６、７、８、９、１０、１５、２０、３０、４０、５０、６０、７０、８０、９０、１００、１５０、２００、２５０、３００、３５０、４００、４５０、５００、６００、７００、８００、９００、１０００以上のヌクレオチドとすることができる。例えば、人工モバイルエレメントの反復ユニットのサイズは、１００ヌクレオチド〜１０ｋｂで変えることができる。本明細書に開示された人工染色体中に存在する反復エレメントの数は、人工染色体の全長の０．１〜９０％を占めてよい。

１つの例では、モバイルエレメントの長さ及び存在量が、天然モバイル挿入エレメントをエミュレートするように合わせられる。さらに、モバイルエレメントの一次配列が、公知の天然モバイルエレメントのいずれかと配列同一性がほとんどない、またはこれがないように生成される。本開示の人工染色体に含めてよい好適なモバイルエレメントの例が、ヒトＳＩＮＥエレメントをエミュレートするモバイルエレメントである。かかるモバイルエレメントの長さは、約３５０ヌクレオチドである。１つの例では、人工染色体配列の約１０％（例えば、１０．７％）を含むように人工染色体にヒトＳＩＮＥエレメントをエミュレートする複数のモバイルエレメントを組み入れることができる。

古くから最近までの挿入事象の変異の蓄積から生じるモバイル反復エレメントの階層構造をエミュレートするように人工モバイルエレメントを生成することができる（Ｌａｎｄｅｒ，Ｅ．Ｓ．ｅｔａｌ．，２００１）。例えば、最初に、公知の天然配列との相同性を除去するために、モバイルエレメントのオリジナル天然（「祖先」）反復配列をシャッフルすることができる。その後、複数のコピーを生成するためにシャッフルされたモバイルエレメント配列を複製することができる。例えば、人工染色体は、人工モバイルエレメントの少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも１０、少なくとも２０、少なくとも３０、少なくとも４０、少なくとも５０、少なくとも６０、少なくとも７０、少なくとも８０、少なくとも９０、少なくとも１００、少なくとも５００、少なくとも１，０００または少なくとも２，０００以上のコピーを含有してよい。その後、祖先配列からモバイル反復配列の配列変性を複写するために、１つ以上のコピー（またはそれぞれのコピー）をランダムヌクレオチド置換、挿入及び欠失させることができる（図４の実例によって例示されるとおり）。モバイルエレメントは、また、一定の範囲のモバイルエレメントを生成するために、さらに、ヌクレオチド置換及び増幅の複数のサイクルにかけることができる。

反復ポリヌクレオチド配列
人工染色体の人工ポリヌクレオチド配列は、例えば、末端反復、例えばテロメア、逆方向反復、及びタンデム反復、例えばセントロメアを含む反復ＤＮＡ特徴などの反復ポリヌクレオチド特徴を含むことができる。タンデム、逆方向及び末端反復ＤＮＡは、一連の反復ユニット増幅事象から進め、新しい反復サブファミリーを広げることができる。反復ユニット増幅の連続ラウンド、続いて、人工的に複写された配列分散（例えば、ランダムヌクレオチド置換、欠失及び／または挿入を挿入するための反復ユニットの操作によって；図５の実例によって例示されるとおり）を用いることによって、人工反復ＤＮＡを設計する場合、反復ＤＮＡ配列を生成するこのプロセスをエミュレートすることができる。この反復プロセスは、反復ユニットのサブセット間の階層的関係性を維持する反復ＤＮＡタンデムアレーを生成することができる。

このため、人工染色体の人工ポリヌクレオチド配列は、サテライトＤＮＡなどの反復ヒト遺伝的特徴をエミュレートする人工反復ＤＮＡを含むことができる。もう１つの例では、人工染色体が、１つ以上のセントロメアを含有することができる。セントロメアは、２５〜５，０００ヌクレオチド長間のＤＮＡ配列を有するタンデム反復ユニットの大きなアレーを構成することができる。あるいは、または、さらに、人工染色体は、反復テロメア配列を含有することができる。反復テロメア配列は、任意の好適な長さのものとすることができる。例えば、反復テロメア配列は、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０以上のヌクレオチドの反復ユニットを含むことができる。例えば、反復テロメア配列は、４〜１０ヌクレオチド長とすることができる。１つの例では、かかるテロメア配列が、配列末端に最長１０ｋｂまでタンデム反復された６ヌクレオチドモチーフを含むことができる。必要に応じて、他の好適な反復を設計することができる。本明細書に開示された人工染色体に任意の好適な数の反復を組み入れることができる。１つの例では、テロメア反復のコピー数は、５，０００〜５０，０００としてよい。

小規模な遺伝的変動
小規模な遺伝的変動（例えば、すべて、５０未満隣接ヌクレオチド長である単一のヌクレオチド多型、挿入、欠失、複製、及び複数のヌクレオチド多型を含む）を本明細書に開示された複数の人工染色体に組み入れることができる。例えば、２つ以上の人工染色体に存在する２つ以上の変異が、２つ以上の対立遺伝子を示す（図６の実例によって例示されるとおり）遺伝的変動をシミュレートするために、一対の人工染色体間のヌクレオチド差を生成することができる。したがって、複数の人工染色体が、複数の対立遺伝子の典型とすることができる。例えば、１つの対立遺伝子の２つのコピーを含有するように、倍数体ゲノムの一部分をエミュレートする人工染色体の２つのマッチングコピーを生成することができる（これにより、ホモ接合性をシミュレートする）。あるいは、人工染色体の２つのコピーのそれぞれが、異なる対立遺伝子を含有することができる（これにより、ヘテロ接合性をシミュレートする）。所望のとおり、複数の人工染色体上に複数の対立遺伝子を調製することができると理解される。したがって、本開示は、天然対立遺伝子変動の典型である複数の人工染色体のコレクション（または「ライブラリー」）を提供する。１つの例では、２、３または４人工染色体上の２、３または４人工対立遺伝子が提供される。

本明細書に開示された人工染色体中に組み込むための小規模な遺伝的変動の生成中に、公知の天然配列との相同性のいずれかを除去するように編集するのに、小規模な変動ヌクレオチド配列及びフランキング人工配列が必要となる可能性がある。

また、本明細書に開示された人工染色体中に疾患と関係する遺伝的変動を示すポリヌクレオチド配列を組み入れることができる。例えば、変異のマッチング局所配列コンテクストを提供するために人工染色体に特定のＳＮＰなどの特定の診断の遺伝的特徴を挿入する同時に、より広いレベルで公知の天然配列と相同性がほとんどない、または、これがないことを維持することができる。

公知の遺伝的変動のエミュレーションが複数の人工染色体を必要とするため、「コンセンサス」、または「参照」配列（例えば、ｈｇ１９ヒトゲノムアセンブリ、ｍｍ１０マウスゲノムアセンブリ等のコンセンサスゲノムアセンブリと類似する）及び遺伝的変動の１つ以上の部位で参照染色体と異なる１つ以上の複数の別個の人工染色体（または「変動型」人工染色体）と考えられる特定の人工染色体を生成することができる。したがって、本明細書に開示された人工染色体のライブラリーは、単一の参照人工染色体及び遺伝的変動の１つ以上の部位で参照染色体と異なる１つ以上の変動型人工染色を含むことができる。

大規模な遺伝的変動
また、本明細書に開示された複数の人工染色体に、大規模な遺伝的変動（例えば、大きな欠失、複製、コピー数変異、挿入、逆位及び転座を含み、それぞれが５０以上の隣接ヌクレオチドのヌクレオチド配列と関係する）を組み入れることができる。天然大規模な遺伝的変動は、通常のショットガンショート配列リード長より大きなヌクレオチド配列に影響を及ぼし、さらに、天然の、試料ヌクレオチド配列中の構造的変動の検出及び分解を複雑にすることが多い。

本明細書に記載されたとおり、大規模な変動の構造的ユニットサイズとマッチするウインドウサイズで、トランスバージョン、コピー数変動及び／またはモバイルエレメント挿入によって影響を受けるヌクレオチド配列のシャッフリングを実施することができる。例えば、複製前に単一の反復ユニットをシャッフルし、複製されたコピーが同じシャッフルされた配列を共有することができる。もう１つの例では、トランスバージョン前に配列をシャッフルし、配向及び切断点だけがテンプレート配列と異なるようにすることができる。もう１つの例では、モバイルエレメントの挿入前に配列をシャッフルし、挿入により同じ人工染色体中の他のモバイルエレメントとの配列相同性を保持することができる。

本明細書に開示された複数の人工染色体に組み入れることができる大規模な遺伝的変動の１つの例が、転座である。転座は生じさせることができ、それによって、配列が２つの人工染色体間に再配列され、２つの相互融合人工染色体を生成する（図９の実例によって例示されるとおり）。２つの非相同性人工染色体間の転座の結果、２つの異なる遺伝子を融合させ、キメラ遺伝子融合を生成することができる。このため、本明細書に開示された人工染色体は、１つ以上の人工キメラ遺伝子融合を含むことができる。

人工微生物ゲノム
微生物ゲノム（人工染色体は、また、本明細書で「人工微生物ゲノム」を意味する）をシミュレートするために、本明細書に開示された人工染色体の人工ポリヌクレオチド配列を設計することができる。例えば、本明細書に開示された方法によって天然配列との一次配列相同性を除去するために、天然微生物ゲノムをシャッフルすることによって人工染色体を生成し（図１０の実例によって例示されるとおり）、同時に、なお、オリジナル微生物ゲノムの特定の特徴（例えば、サイズ、ｒＲＮＡオペロン数、ＧＣ％、反復含有率等であるが、これらに限定されない）を保持することができる。

メタゲノム分析の人工微生物コミュニティをシミュレートするために複数の人工染色体を生成することができる。このため、本開示は、また、オリジナルの、天然微生物ゲノム配列と共有される配列同一性のいずれもが減少した、またはこれが除去された２つ以上の人工微生物ゲノムのライブラリーを提供する。メタゲノム試料内の微生物集団のさまざまな存在量に一致させるように、個々の人工微生物ゲノムの相対的存在量を選択することができる。したがって、通常、メタゲノム分析中にプロファイルされる不均一微生物コミュニティをエミュレートするために人工微生物ゲノムのライブラリーを生成することができる。本明細書に開示された人工微生物ゲノムを、任意の好適な数でライブラリーに混合することができる。１つの例では、ライブラリーが、３〜３，０００人工微生物ゲノムを含有してよい。

本明細書に開示された人工微生物ゲノムは、１つ以上の遺伝子座をコードすることができる。遺伝子座は、通常、メタゲノムコミュニティの系統プロファイリングに用いられる人工１６遺伝子を含んでよい（例えば、Ｅｄｗａｒｄｓ，Ｒ．Ａ．ｅｔａｌ．，２００６を参照）。１６ＳｒＲＮＡ遺伝子内の可変領域のＰＣＲ増幅及びシーケンシングが、試料内の微生物の存在量及び分類学的多様性を評価する一次的アプローチとなる。本明細書に開示された人工微生物ゲノム中に存在する人工１６ＳｒＲＮＡ配列は、通常、公知の天然配列との相同性を除去するためにシャッフルされ、同時に、アンプリコンシーケンシングに用いられるユニバーサルプライマーと相補的な配列を合わせ、天然配列と同一であるままにすることができる（図１１の実例によって例示されるとおり）。

人工免疫受容体クロノタイプ
本明細書に開示された人工染色体の人工ポリヌクレオチド配列は、ＩｇＡ、ＩｇＨ、ＩｇＬ、ＩｇＫ、ＩｇＭ、ＴＣＲＡ、ＴＣＲＢ、及びＴＣＲＧ受容体等のいずれか１つまたはそれ以上の発現を含む１つ以上の免疫細胞受容体遺伝子座をコードすることができる。多様な範囲のクロノタイプと称される配列を生成するために、これらの免疫グロブリン及びＴ細胞受容体遺伝子座（ｌｏｃｉ）に、Ｖ（Ｄ）Ｊ組み換え及び体細胞超変異を受けさせる。人工クロノタイプのスイートを生成するために人工染色体配列を用いて、これらの生物学的プロセスをモデル化することができる。

免疫グロブリン及びＴ細胞受容体配列からの可変（Ｖ）セグメント、連結（Ｊ）セグメント及び多様性（Ｄ）セグメント配列（及びフランキングイントロン）をヒトゲノムなどのゲノム配列から取り出し、単独でシャッフルし、相同性を減少させる、またはこれを除去することができる。いくつかの例では、通常、免疫受容体のアンプリコンプロファイリングに用いられるユニバーサルプライマー配列と相補的な小さな（例えば、２０ヌクレオチド長）配列を保持することが必要とされる可能性がある（例えば、ｖａｎＤｏｎｇｅｎ，Ｊ．Ｊ．ｅｔａｌ．，２００３を参照）。その後、Ｄ−Ｊ遺伝子セグメントを形成するために、ランダムで選択される多様性（Ｄ）セグメントと最初に混合される連結（Ｊ）セグメントをランダムで選択することによって、人工免疫グロブリン及びＴ細胞受容体遺伝子座のＶ（Ｄ）Ｊ組み換えを実施し、除去される配列を介在させ、続いて、ランダムで選択される可変（Ｖ）セグメントと連結し、その結果、再配列された人工ＶＤＪ遺伝子セグメントとすることができる（図１２及び１３の実例によって例示されるとおり）。異なるセグメントのランダム選択は、異なるセグメント組み合わせの莫大なレパートリーを生成する。セグメントジャンクションまたはセグメント内でヌクレオチドの置換、付加または欠失によって追加の多様性を付加することができる。再配列された人工遺伝子セグメントのそれぞれが、本明細書で「クロノタイプ」を意味する。通常、ヒト白血球の免疫レパートリーシーケンシング中にみられる天然免疫受容体クロノタイプのサイズ、多様性、複雑度及びプロファイルをエミュレートするために、本方法によって、多くの人工クロノタイプを生成することができる。

コンピュータ読取可能媒体：
ｉｎｓｉｌｉｃｏで、本明細書に開示された人工染色体を提供してよく、それゆえ、コンピュータ読取可能媒体で提供してよい。このため、本開示は、また、１つ以上の本明細書に開示された人工染色体の典型であるデータを含有するコンピュータ読取可能媒体を提供する。コンピュータ読取可能媒体は、一時的でないものとしてよい。

コンピュータ読取可能媒体は、コンピュータ読取可能媒体に記憶される人工染色体または染色体を分析するように適合されるコンピュータシステムと一緒に提供してよい。

本開示は、また、コンピュータ読取可能媒体に記憶される人工染色体または染色体の分析を可能にするソフトウエアを提供する。例えば、ソフトウエアは、人工染色体配列と所与のインプット配列の配列を比較して、配列比較を実施可能にしてよい。この機能を実現することができる公知のソフトウエアパッケージのいずれかを用いることができる。

ポリヌクレオチドスタンダード：
ＲＮＡまたはＤＮＡポリヌクレオチドとして、本明細書に開示された人工染色体配列の一部または全部のいずれかを物理的に生成することができる。このため、本開示は、また、人工染色体の人工ポリヌクレオチド配列の２０〜１０，０００，０００隣接ヌクレオチドを含む、またはからなる本明細書に開示された人工染色体のフラグメントを提供する。例えば、当該フラグメントは、人工ポリヌクレオチド配列の１０，０００，０００隣接ヌクレオチドのいずれか、１，０００，０００隣接ヌクレオチドのいずれか、５００，０００隣接ヌクレオチドのいずれか、１００，０００隣接ヌクレオチドのいずれか、５０，０００隣接ヌクレオチドのいずれか、１０，０００隣接ヌクレオチドのいずれか、１，０００隣接ヌクレオチドのいずれか、５００隣接ヌクレオチドのいずれか、４００隣接ヌクレオチドのいずれか、３００隣接ヌクレオチドのいずれか、２５０隣接ヌクレオチドのいずれか、２００隣接ヌクレオチドのいずれか、１５０隣接ヌクレオチドのいずれか、１００隣接ヌクレオチドのいずれか、５０隣接ヌクレオチドのいずれか、２５隣接ヌクレオチドのいずれか、２１隣接ヌクレオチドのいずれかまたは２０隣接ヌクレオチドのいずれかを含んでよい、またはこれらからなるものでよい。かかるフラグメントが、本明細書で「スタンダード」を意味する。ポリヌクレオチドスタンダードは、人工染色体の対応する人工配列とマッチする。したがって、ポリヌクレオチドスタンダードは、本明細書に開示された人工染色体の特徴のいずれか１つまたはそれ以上の典型とすることができる。本明細書に開示されたスタンダードは、人工染色体と無関係に用いることができると理解される。例えば、人工スタンダードは、人工染色体への参照を必要としないで、ポリヌクレオチド定量プロセスを校正するために用いることができる。

本明細書に開示された人工染色体に基づいた物理的、実体的スタンダードの生成は、多種多様なシーケンシング方法（ＰＣＲ増幅及びＮＧＳシーケンシング方法を含む）の校正を可能にする。例えば、これは、増幅及び／またはシーケンシング方法が実施される前に、所与のＲＮＡまたはＤＮＡ試料に公知の量の１つ以上のポリヌクレオチドスタンダードを添加することによって実施してよい。人工染色体を参照した公知のポリヌクレオチドスタンダードのシーケンシングの分析により、用いられる特定の増幅及び／またはシーケンシング方法の有力な校正が提供される。

ＲＮＡスタンダードの生成
スタンダードは、ＲＮＡスタンダードとしてよい。ＲＮＡスタンダードは、人工染色体によってコードされる対象の特徴とマッチし、これの典型であるＲＮＡ分子である。例えば、ＲＮＡスタンダードは、人工染色体によってコードされる人工遺伝子または転写されるエレメントまたはそのフラグメントの典型とすることができる。１つの例では、ＲＮＡスタンダードが、公知の天然配列のいずれかとの相同性のいずれも含まない。それゆえ、ＲＮＡスタンダードの長さは、対象の特徴に応じて変えることができる。１つの例では、ＲＮＡスタンダードの長さが、２００ヌクレオチド〜３０ｋｂで変えることができる。

人工染色体からの対象の配列は、ＤＮＡ配列に合成することができる。ＤＮＡ配列は、活性プロモーターとの作動可能な結合でベクターに挿入することができる。このため、本開示は、また、人工染色体のフラグメントをコードするＤＮＡ分子を提供する。本開示は、また、人工染色体のフラグメントをコードするＤＮＡ配列を含むポリヌクレオチドベクター（例えば、ＤＮＡベクター）を提供する。任意の好適なベクターを用いることができる。１つの例では、ベクターが、発現ベクターである。発現ベクターは、本明細書に開示されたスタンダードの転写を命令することができる任意の好適なプロモーター及び／またはエンハンサーを含有することができる。

本明細書に開示されたベクターは、ＲＮＡ分子を生成するＲＮＡ合成反応のテンプレートとして用いることができる。このため、本開示は、また、本明細書に開示されたベクターからＲＮＡ分子を合成することを含む本明細書に開示されたポリヌクレオチドスタンダードの生成方法を提供する。好適なＲＮＡ合成方法は、よく知られている。例えば、無細胞のｉｎｖｉｔｒｏ発現系でかかる合成方法を実施してよい。あるいは、宿主細胞などのｉｎｖｉｖｏ発現系でかかる方法を実施してよい。任意の好適な宿主細胞を用いることができる。その後、最終ＲＮＡポリヌクレオチドスタンダードを生成するために、公知の方法によって、生成されたＲＮＡ分子を精製することができる。

このため、本開示は、人工染色体配列の人工配列の一部または全部とマッチするＲＮＡスタンダードを生成するのに用いることができる方法を提供する。ＲＮＡスタンダードの好適な生成方法の概略図が、図１４に示されている。

複数のＲＮＡスタンダードの混合物
混合物としてまとめて複数のＲＮＡスタンダードを用いることができる。したがって、本開示は、本明細書に開示された１つ以上のＲＮＡスタンダードの混合物を提供する。混合物は、ＲＮＡスタンダードの構造的完全性を維持するために任意の好適な緩衝剤を含むことができる。

一定の範囲の異なる濃度で個々のＲＮＡスタンダードを希釈し、その後、ＲＮＡスタンダードの混合物に混合することができる。それゆえ、一定の範囲の異なる濃度のＲＮＡスタンダードのこの混合物は、定量的スケールを含むことができる。定量的スケールは、異なる逐次的存在量でＲＮＡスタンダードのラダーを含むことができる。付随する試料内の天然ＲＮＡ転写産物の存在量を測定するための参照としてこのスケールを用いることができる。個々のＲＮＡスタンダードの相対濃度が異なる別の混合物を生成することができる。別の混合物中のＲＮＡスタンダードの比較により、ＲＮＡスタンダードの存在量差を測定することができ、これにより、例えば、遺伝子発現中に生じる２つ以上の試料間のＲＮＡ存在量の変化を測定するのに用いることができる参照スケールを提供することができる。

混合物ごとに提供されるＲＮＡスタンダードの数は、３〜３０００で、例えば、調製される混合物ごとに３〜３００で変えることができる。例えば、約９０ＲＮＡスタンダードを含有する混合物を提供してよい。試料中に存在する全ＲＮＡの０．００１〜５０％、例えば、約１％からなるように対象の試料にＲＮＡスタンダードを添加してよい。

人工遺伝子の典型であるＲＮＡスタンダード
人工染色体の人工ポリヌクレオチド配列内でコードされる対象の人工遺伝子のいずれかとマッチするようにＲＮＡスタンダードを設計することができる。隣接ＲＮＡスタンダード配列は、人工エキソン配列とマッチすると同時に、介在するイントロン配列は、除外される（図３の実例に例示したとおり）。このため、ＲＮＡスタンダードは、人工染色体によってコードされる人工遺伝子のエキソン配列だけに相当する隣接ヌクレオチド配列を含む、またはこれからなることができる。これは、遺伝子スプライシングの天然プロセスをエミュレートし、これにより、イントロン配列が除去され、エキソン配列が一緒に結合される。

特定のエキソンが含まれ、またはこれが除外され、遺伝子座の複数のアイソフォームが形成される別のスプライシングの生物学的プロセスをエミュレートするようにＲＮＡスタンダードを設計することができる。さらに、単一の遺伝子座から生成される複数のアイソフォームのそれぞれとマッチする複数のＲＮＡスタンダードを生成することができる。異なる濃度で複数の別のｍＲＮＡアイソフォームとマッチする複数のＲＮＡスタンダードを混合することによって、例えば、イントロンリテンション、カセットエキソン、別の転写開始及び終結、非カノニカルスプライシングなどを含む別のスプライシング事象をシミュレートすることができる。それぞれのアイソフォームの典型であるＲＮＡスタンダードの相対的存在量は、典型となる別のスプライシング事象の頻度に一致させるように変えることができる。

人工融合遺伝子の典型であるＲＮＡスタンダード
２つの人工染色体間の転座は、２つの異なる人工遺伝子を単一の融合遺伝子（または「キメラ」）に結合することができる。人工染色体間の転座によって生成される融合遺伝子とマッチするようにＲＮＡスタンダードを生成することができる。

転座は、通常、染色体対（または高次倍数性異常生物中の複数の当量染色体）の１つの染色体だけに影響を及ぼし、残りの対内の他の染色体に影響を及ぼさない。それゆえ、遺伝子の２つの正常な（すなわち、非融合）コピー及び融合された遺伝子の単一のコピーの典型であるＲＮＡスタンダードを生成し、これにより、ヘテロ接合体遺伝子型をエミュレートすることには利点がある可能性がある（図９の実例に例示したとおり）。モデル化される特定の融合遺伝子の試験される試験試料中の好適な濃度をエミュレートするために、融合遺伝子とマッチするＲＮＡスタンダードの相対濃度を変えることができる。例えば、腫瘍試料内の細胞のフラクションだけが、転座対立遺伝子を有し、融合遺伝子を発現する微小残存疾患の場合では、低濃度の人工融合遺伝子を用いてよい。

ＤＮＡスタンダードの生成
スタンダードは、ＤＮＡスタンダードとしてよい。ＤＮＡスタンダードは、人工染色体中の対象の人工配列とマッチし、これの典型であるＤＮＡ分子である。１つの例では、ＤＮＡスタンダードが、人工染色体中の特徴の配列とマッチする。このため、本開示は、また、本明細書に開示された人工染色体の人工配列のＤＮＡフラグメントを提供する。ＤＮＡ合成の任意の好適な公知の方法を用いてＤＮＡ分子として人工染色体配列の一部または全部を物理的に生成することができる。したがって、ＤＮＡスタンダードのサイズ及び含有率は、ＤＮＡスタンダードを形成するために選択される人工染色体の特定のフラグメントに応じて変えることができる。１つの例では、ＤＮＡスタンダードの長さが、２０ヌクレオチド〜２０Ｍｂで変えることができる。

人工染色体配列とマッチするＤＮＡ分子をベクターに挿入してよい。任意の好適なベクターを用いてよい。例えば、ベクターは、プラスミドベクターとしてよい。２つの好適な制限エンドヌクレアーゼコンセンサス認識部位のいずれかの間のベクターに合成されたＤＮＡ分子を挿入してよい。例えば、２つのＩＩＩ型制限エンドヌクレアーゼコンセンサス認識部位間のベクターに合成されたＤＮＡ分子を挿入してよい（図１５の実例に例示した）。これにより、１つ以上の制限エンドヌクレアーゼを用いたベクターからの切除によってＤＮＡスタンダードの生成が可能になる。したがって、本開示は、人工染色体の配列に対応するＤＮＡフラグメントを合成すること、ベクター（例えば、プラスミドベクター）にＤＮＡフラグメントを挿入すること及び次に制限エンドヌクレアーゼ消化によってベクターからＤＮＡフラグメントを切除することを含むＤＮＡスタンダードの生成方法を提供する。

ＤＮＡスタンダードの別の生成方法を用いることができる。例えば、増幅反応によってＤＮＡスタンダード（例えば、プラスミドベクターなどベクターの中に存在してよい）を生成してよい。例えば、ＤＮＡスタンダードのいずれかの末端で配列と相補的であるＰＣＲプライマーを用いることによって、ＤＮＡスタンダードの複数のコピーを生成するためにＰＣＲ増幅を用いることができる。ＤＮＡ分子の複数のコピーを生成するための公知の任意の好適な増幅方法を用いてよい。ＤＮＡスタンダードの好適な生成方法の概略図が、図１５に示されている。

複数のＤＮＡスタンダードの混合物
混合物としてまとめて複数のＤＮＡスタンダードを用いることができる。したがって、本開示は、本明細書に開示された１つ以上のＤＮＡスタンダードの混合物を提供する。混合物は、ＤＮＡスタンダードの構造的完全性を維持するために任意の好適な緩衝剤を含むことができる。

一定の範囲の異なる濃度で個々のＤＮＡスタンダードを希釈し、その後、ＤＮＡスタンダードの混合物に混合することができる。それゆえ、一定の範囲の異なる濃度のＤＮＡスタンダードのこの混合物は、定量的スケールを含むことができる。定量的スケールは、異なる逐次的存在量でＤＮＡスタンダードのラダーを含むことができる。付随する試料内の天然ＤＮＡ転写産物の存在量を測定するための参照としてこのスケールを用いることができる。

個々のＤＮＡスタンダードの相対濃度が異なる別の混合物を生成することができる。別の混合物中のＤＮＡスタンダードの比較により、ＤＮＡスタンダードの存在量差を測定することができ、これにより、２つ以上の付随する試料間のＤＮＡ分子の存在量の変化を測定するのに用いることができる参照スケールを提供することができる。例えば、２つの混合物間のＤＮＡスタンダードの存在量の差により、２つの試料間の微生物ゲノムＤＮＡの存在量の差を比較するスケールを提供することができる。

混合物ごとに提供されるＤＮＡスタンダードの数は、３〜３０００で、例えば、調製される混合物ごとに３〜３００で変えることができる。例えば、約９０ＤＮＡスタンダードを含有する混合物を提供してよい。試料中に存在する総ＤＮＡの０．００１〜５０％、例えば、約１％からなるように対象の試料にＤＮＡスタンダードを添加してよい。

結合されたＤＮＡスタンダード
標準分子生物学技術、例えば、制限消化及び連結反応またはＧｉｂｓｏｎアセンブリを用いて、単一の隣接配列に複数のＤＮＡスタンダードを一緒に連結する（または「結合する」）ことができる（例えば、図１６に示したとおり）。このため、本開示は、また、結合されたＤＮＡスタンダードを提供する。本開示は、また、単一の隣接配列に２つの以上の本明細書に開示されたＤＮＡスタンダードを一緒に連結することを含む結合されたＤＮＡスタンダードの調製方法を提供する。

単一の結合されたスタンダードは、複数のコピー数に反復される個々のＤＮＡスタンダードを含有することができる。したがって、ＤＮＡスタンダードの存在量差を確認するためにコピー数を用いることができる。本開示は、また、それぞれのＤＮＡスタンダードが、結合されたＤＮＡスタンダードの複数のコピーとして存在する複数の個々のＤＮＡスタンダードを含む結合されたＤＮＡスタンダードの調製方法を提供する。

さらに、単一の結合されたスタンダードは、それぞれが任意の組み合わせで任意の所望のコピー数にコピーされる複数の異なる個々のＤＮＡスタンダードを含有することができる。

個々のＤＮＡスタンダードの存在量の変化は、ピペット操作または分取のエラーから生じる可能性がある。しかし、複数の個々のＤＮＡスタンダードを大きな結合されたＤＮＡスタンダードに連結すると、ピペット操作または分取による個々間の変化のいずれかが除去される（結合されたＤＮＡスタンダードは１回で分取されるため）。

結合されたＤＮＡスタンダードを含む異なるコピー数での複数の個々のＤＮＡスタンダードの存在量は、ピペット操作によるエラーを推定するために用いることができる。これは、結合されたスタンダードのピペット操作のエラーが、結合されたＤＮＡスタンダードに一緒に混合されている個々のＤＮＡスタンダード間と同じであり、これに依存しているためである。単一の結合されたＤＮＡスタンダードに結合されている個々のＤＮＡスタンダードの公知の存在量と実測値間でグラフ化された最適合線の傾きは、結合されたＤＮＡスタンダードのピペット操作エラーの推定値を示す。この推定値に従ったＤＮＡスタンダード存在量の次の正規化により、この変化の発生源を最小化することができる。この内部正規化アプローチにより、存在量のより正確な測定値が可能になる。

個々のＤＮＡスタンダードの任意の好適な型及び数を結合し、結合されたＤＮＡスタンダードを形成することができる。１つの例では、６つの個々のＤＮＡスタンダードが結合され、単一の結合されたＤＮＡスタンダードが形成される。さらに、一定の範囲の濃度で複数の結合されたＤＮＡスタンダードを混合し、混合物を形成することができる。もう１つの例では、３０の結合されたＤＮＡスタンダードが混合され、混合物が形成される。

人工微生物ゲノムの典型であるＤＮＡスタンダード
メタゲノミクスは、さまざまな生物からの複数のゲノムの研究を必要とし、微生物ゲノムのコミュニティをプロファイルするのに適用することができる。例えば、メタゲノム分析を用い、配列を決定し、単一の試料（例えば、環境試料）内の複数の微生物ゲノムの存在量を測定することができる。人工微生物ゲノムとマッチし、これの典型であるＤＮＡスタンダードを調製し、これにより、微生物コミュニティ構造及び多様性をエミュレートすることができる。

このため、本開示は、人工微生物ゲノムに基づいているＤＮＡスタンダードを提供する。かかるＤＮＡスタンダードは、全人工微生物ゲノムの典型的な部分配列だけとマッチしてよい（例えば、図１０に示したとおり）。例えば、微生物ゲノムサイズは、かなり変わる（一般的な分類群に対し０．５〜７Ｍｂ）。それゆえ、ＤＮＡスタンダードは、完全長人工微生物ゲノムに比例する長さ（例えば、０．５〜７Ｋｂの１％サイズ）としてよい。

さらに、微生物のゲノムは、広い範囲のパーセンテージＧＣ含有率（例えば、２０％〜７５％）を示す。本明細書に開示されたＤＮＡスタンダードは、完全長人工微生物ゲノムに比例するＧＣ含有率（例えば、２０％〜７５％の範囲）としてよい。人工微生物ゲノム内の典型的な部分配列だけとマッチするＤＮＡスタンダードを用いると、微生物コミュニティをプロファイルするのに必要なシーケンシング深度を減少させると同時に、通常、天然試料に存在する微生物コミュニティ構造とほぼ同じであるスタンダード間の広い範囲の存在量を維持することができる。

小規模な遺伝的変動の典型であるＤＮＡスタンダード
小規模な遺伝的変動は、人工染色体配列の２つの以上の変動型対立遺伝子を識別する（例えば、図６に示したとおり）。複数の人工染色体間のかかる小規模な遺伝的変動の典型であるＤＮＡスタンダードを設計することができる。例えば、「参照」人工染色体中に存在する対立遺伝子の配列とマッチする個々のＤＮＡスタンダードを生成することができ、「変異」人工染色体中に存在する対立遺伝子の配列とマッチする個々のＤＮＡスタンダードを生成することができる。

ＤＮＡスタンダードの相対的存在量は、対立遺伝子の相対頻度とマッチする可能性がある。例えば、同じ存在量で、別の変異とマッチする１つのＤＮＡスタンダード及び参照変異とマッチする１つのＤＮＡスタンダードが、倍数体ゲノム中の対立遺伝子のヘテロ接合体頻度をエミュレートすることができる。もう１つの例では、別の変異とマッチする単一のＤＮＡスタンダードが、倍数体ゲノム中のホモ接合体変動をエミュレートすることができる。もう１つの例では、変化する存在量で、別の変異とマッチする１つのＤＮＡスタンダード及び参照変異とマッチする１つのＤＮＡスタンダードが、不均一頻度（非２対立遺伝子比で存在する、例えば、試料のサブセットだけが変異を有する場合）をエミュレートすることができる。したがって、人工染色体間の遺伝的変動の存在及び頻度をエミュレートするためにＤＮＡスタンダードを調製することができる。

大規模な構造的変動の典型であるＤＮＡスタンダード
大規模な遺伝的変動は、人工染色体配列の２つ以上の変動型対立遺伝子を識別することができる。複数の人工染色体間のかかる大規模な遺伝的変動とマッチし、これの典型であるＤＮＡスタンダードを設計することができる（例えば、図８に示したとおり）。ＤＮＡスタンダードの相対的存在量は、大規模な変動の相対頻度とマッチし、接合生殖性をエミュレートすることができる。

タンデム反復アレー中の１つ以上の反復ユニットとマッチするＤＮＡスタンダードを提供することができる（例えば、図５に示したとおり）。また、反復ユニットコピー数をエミュレートするためにＤＮＡスタンダードの濃度の変化を選択することができる。例えば、高コピー数変異に一致するように大量のＤＮＡ反復スタンダードを調製することができる。反対に、低コピー数変異に一致するように低存在量ＤＮＡ反復スタンダードを調製することができる。さらに、また、所望の対立遺伝子頻度とマッチするようにＤＮＡスタンダードの相対的存在量を校正することができる。

ＤＮＡスタンダードを識別するための配列バーコード
同じＤＮＡ配列（例えば、同じ反復エレメント）とマッチするＤＮＡスタンダード間で識別するために、ＤＮＡスタンダードに１つ以上の「バーコード」ヌクレオチド配列を組み入れることができる（例えば、図１７に示したとおり）。バーコードヌクレオチド配列は、通常、全ＤＮＡスタンダード配列の小さなフラクションだけを構成する小さな（例えば、４、５、６、７、８、９、または１０ヌクレオチド）隣接または非隣接ヌクレオチド配列である。例えば、１つ以上のバーコードヌクレオチド配列は、ＤＮＡスタンダードの全ヌクレオチド配列の１０％未満、例えば、９％未満、例えば、８％未満、例えば、７％未満、例えば、６％未満、例えば、５％未満、例えば、４％未満、例えば、３％未満、例えば、２％未満、例えば、１％を占めてよい。バーコードヌクレオチド配列の存在は、ＤＮＡスタンダードの同定を可能にすることができる。例えば、複数のＤＮＡスタンダードが同じ人工染色体配列とマッチする場合、「バーコード」ヌクレオチド配列は、同じ人工染色体配列とマッチする全ＤＮＡスタンダード内の特定のＤＮＡスタンダードの同定を可能にする。バーコード配列は、分析中に除去する、または修飾することができるため、アライメントを妨げない。

免疫受容体クロノタイプの典型であるＤＮＡスタンダード
本明細書に開示されたＤＮＡスタンダードは、対応する人工染色体内でコードされる免疫グロブリン及びＴ細胞受容体遺伝子座から生成される人工クロノタイプとマッチし、これの典型であるように設計することができる（例えば、図１２及び１３に示したとおり）。１つの例では、ＤＮＡスタンダードが、ランダムに選択されるＶ、Ｄ及びＪセグメントのクロノタイプ配列を包含する。本明細書に開示されたＤＮＡスタンダードは、また、通常、免疫レパートリーシーケンシングで用いられるユニバーサルプライマー配列と相補的な小配列を保持してよい。例えば、ＤＮＡスタンダードが、天然クロノタイプ多様性をプロファイルするためのＢＩＯＭＥＤ−２（ｖａｎＤｏｎｇｅｎ，Ｌａｎｇｅｒａｋｅｔａｌ．２００３）研究に記載されたプライマー配列を保持してよい。

本方法によって、それぞれが人工クロノタイプの典型である多くのＤＮＡスタンダードを生成することができる。通常、ヒト白血球の免疫レパートリーシーケンシング中にみられる天然受容体クロノタイプのサイズ、多様性、複雑度及びプロファイルをエミュレートする混合物にこれらのＤＮＡスタンダードを混合することができる。

１６Ｓマーカー遺伝子の典型であるＤＮＡスタンダード
ＤＮＡスタンダードを、人工微生物ゲノムから人工１６ＳｒＲＮＡ遺伝子配列の典型とすることができる（例えば、図１１に示したとおり）。人工１６ＳｒＲＮＡ遺伝子は、通常、アンプリコンシーケンシングで用いられるユニバーサル１６Ｓプライマーと相補的な２つの配列を保持することを除いて、公知の配列との相同性を有しない。これにより、ＤＮＡスタンダードが１６ＳプライマーによるＰＣＲ増幅のテンプレートの役割を果たすことができる。ＤＮＡスタンダードの増幅は、これにより、ＰＣＲ増幅の合成的及び定量的測定、及び通常、微生物コミュニティ同一性及び構造を決定するのに用いられる１６ＳｒＲＮＡマーカー遺伝子のシーケンシングを提供する。

使用方法：
本明細書に開示されたポリヌクレオチドスタンダードは、多種多様なシーケンシング方法を校正するために用いることができる。これは、測定される標的ＤＮＡ／ＲＮＡ配列を含む試料にポリヌクレオチドスタンダードを添加することによって実施することができる。標的ＤＮＡ／ＲＮＡのソースは、公知の生物または環境試料のいずれかに由来するものとすることができる。例えば、ポリヌクレオチドスタンダードは、動物（例えば、哺乳動物、ヒトなど）、植物（例えば、トウモロコシ、コメなど）、微生物（例えば、細菌、原始細菌など）及び環境（例えば、土壌試料、ヒトの大便、臨床試料、例えば、感染創傷液など）ソースに由来する天然ＲＮＡの試料に添加することができる。測定される標的ＤＮＡ／ＲＮＡ配列を含有する試料のいずれかで実施されるシーケンシング方法を校正するために本明細書に開示されたポリヌクレオチドスタンダードを用いることができると理解される。

本明細書に開示されたポリヌクレオチドスタンダードは、天然ポリヌクレオチド配列との相同性（または配列同一性）をほとんど有しない、または、これを有しないため、ポリヌクレオチドスタンダードに由来するシーケンスリードは、試料中に存在する天然ＲＮＡ／ＤＮＡに由来するシーケンスリードと識別することができる（例えば、図１８に示したとおり）。このため、本明細書に開示されたフラグメント（スタンダード）は、ポリヌクレオチドスタンダードに由来するシーケンスリードを試料中に存在する天然ＲＮＡ／ＤＮＡに由来するシーケンスリードと識別することができるように、選択される公知の天然配列に対してパーセンテージ同一性を有してよい。これにより、シーケンシング前にＲＮＡ／ＤＮＡ試料にポリヌクレオチドスタンダードを添加することが可能になり、それゆえ、対象のＤＮＡ／ＲＮＡ試料と同じライブラリー調製、シーケンシング、アライメント及び分析を行うことができる。しかし、シーケンシング後に、ポリヌクレオチドスタンダードとマッチするリードを、対象のＤＮＡ／ＲＮＡ試料とマッチするリードと識別することができる。

したがって、本明細書に開示された方法は、試料中の対象の標的ポリヌクレオチド（ＤＮＡまたはＲＮＡ）の配列を決定するステップを含む。本明細書に開示された方法は、また、試料に添加された１つ以上のポリヌクレオチドスタンダードの配列を決定するステップを含む。本明細書に開示された方法は、さらに、試料に添加された１つ以上のポリヌクレオチドスタンダードの配列及び／または量と、試料中の対象の標的ポリヌクレオチド（ＤＮＡまたはＲＮＡ）の配列及び／または量を比較するステップを含む。かかる比較により、１つ以上のポリヌクレオチドスタンダードの測定に由来する値に対して、試料中の標的ポリヌクレオチドの測定に由来する値の正規化が可能になる。したがって、本明細書に開示された方法は、さらに、１つ以上のポリヌクレオチドスタンダードの測定に由来する値に対して、試料中の標的ポリヌクレオチドの測定に由来する値を正規化するステップを含んでよい。これらの値を正規化することができる任意の好適な数学的アルゴリズムを用いることができる。

多くの場合では、ＲＮＡ／ＤＮＡ試料と混合されたポリヌクレオチドスタンダードは、試料中のＲＮＡ／ＤＮＡの混合総量のフラクションだけを構成する。この寄与率（通常、試料中のＲＮＡ／ＤＮＡの総量の０．１〜１０％、または通常、試料中のＲＮＡ／ＤＮＡの総量の１０％未満、例えば、５％未満、例えば、１％未満、例えば、０．５％未満）は、分析に用いられるライブラリー調製の型（例えば、ｒＲＮＡ除去、ｐｏｌｙＡまたは全ＲＮＡ精製調製）に従って変わる。ポリヌクレオチドスタンダードの寄与率は、ＲＮＡ／ＤＮＡ試料に帰するシーケンシング深度に反比例する可能性がある。それゆえ、ポリヌクレオチドスタンダードの分析を十分に行うことができるのに必要な最少量として、フラクション全体を選択することができる。

ポリヌクレオチドスタンダードのシーケンシングエラーを測定すること
ヌクレオチドが誤って決定される場合、シーケンシングエラーが生じ、これはライブラリー調製またはシーケンシングプロセス自体のエラーまたは人工産物から生じる可能性がある。ポリヌクレオチドスタンダードからのシーケンスリードの分析は、ヌクレオチドエラー差を同定し、定量化することができる。シーケンシングエラーの同定を容易にする好適なソフトウエアとしては、Ｑｕａｋｅ（Ｋｅｌｌｅｙ，Ｓｃｈａｔｚｅｔａｌ．２０１０）及びＳｙｓＣａｌｌ（Ｍｅａｃｈａｍ，Ｂｏｆｆｅｌｌｉｅｔａｌ．２０１１）が挙げられる。その後、この分析を用いて配列の性能及びクオリティを測定することができる。また、この分析により、その後、研究者が試料ＤＮＡ／ＲＮＡからのリード内の系統的シーケンシングエラーを正規化する、または訂正することが可能になり、試料中の対象の標的ＤＮＡ／ＲＮＡのはるかに正確な（質的及び量的の双方で）測定値が提供される。また、ポリヌクレオチドスタンダードのシーケンシングエラープロファイルを用いて、真のヌクレオチド差（例えば、ＳＮＰまたはヌクレオチド修飾）からのシーケンシングエラーを識別することができる。

ポリヌクレオチドスタンダードにより配列アライメントを評価すること
シーケンシング作業中に、小さなシーケンスリードが最初に参照ゲノムにアラインされることが多い。リードの大きな参照ゲノムへのアライメントは、速度、感度及び精度の結果に差をもたらし、多くの方法で実施することができるコンピュータを多用するタスクである。本明細書に開示されたポリヌクレオチドスタンダードを用いて、シーケンスリードが本明細書に開示された人工染色体にアラインされる効率及び精度を評価し、これにより、実施されるアライメント方法を校正することができる。したがって、本明細書に開示された方法は、さらに、ポリヌクレオチドスタンダードに由来するシーケンスリードを、そのスタンダードが由来する人工染色体にアラインするステップを含んでよい。任意の好適なアライメント方法を用いて、このステップを実施することができる。配列リードのアライメントを容易にする好適なソフトウエアの例としては、ＢＷＡ（ＬｉａｎｄＤｕｒｂｉｎ２００９、Ｋｅｌｌｅｙ，Ｓｃｈａｔｚｅｔａｌ．２０１０）及びＢｏｗｔｉｅ（Ｌａｎｇｍｅａｄ，Ｔｒａｐｎｅｌｌｅｔａｌ．２００９）が挙げられる。

好ましくは、シーケンスリードが、参照ゲノム及び人工染色体の双方に同時にアラインされる。１つの例では、人工染色体配列が、参照ゲノムと混合され、急速なアライメントを容易にするインデックスが作成される。これによりシーケンスリードを人工染色体及び参照ゲノムの双方に同時にアラインすることが可能になる（例えば、図１８に示したとおり）。リードが人工染色体にアラインする精度及び感度を評価することによって、天然ゲノムにアラインするリードの並行及び経験的評価を同時に実施することができる。

正確なリードアライメントの感度及び特異性；及び／または一致して、一致しないで、または一体化してマップされたリード対の割合；及び／またはアライメントミスマッチ及び塩基毎精度など（これらに限定されない）のいくつかの特性に従って、本明細書に開示されたポリヌクレオチドスタンダードに由来するリードの人工染色体へのアライメント、を評価することができる。

スプリットまたは非隣接方法で、参照ゲノムにイントロンをトラバースするＲＮＡシーケンスリードをアラインすることが必要である。イントロン及びエキソンのスプライシングをエミュレートするように設計されているＲＮＡスタンダードが、本明細書に開示されている。それゆえ、かかるＲＮＡスタンダードを用いて、イントロン中のリードのスプリットアライメントを評価することができる。人工染色体及び天然染色体の双方に、ＲＮＡスタンダードに由来するスプリットリードをアラインすることができる。配列リードのスプリットアライメントを容易にする好適なソフトウエアの例としては、Ｔｏｐｈａｔ２（Ｋｉｍ，Ｐｅｒｔｅａｅｔａｌ．２０１３）及びＳＴＡＲ（Ｄｏｂｉｎ，Ｄａｖｉｓｅｔａｌ．２０１３）が挙げられる。その後、人工遺伝子アノテーションと人工染色体のスプリットアライメントを比較し、リードがイントロン中でアラインする感度及び特異性を評価することができる。

別のスプライシング、転写開始及び終結が、単一の遺伝子座からの一定の範囲のアイソフォームを生成する。また、スプライス及び非スプライスアライメントが完全長転写モデルにアセンブルされる精度を評価するのに用いることができるＲＮＡスタンダードが、本明細書に開示されている。例えば、人工染色体及び天然染色体の双方で、オーバーラップしているリードアライメントから完全長転写アイソフォームをアセンブルすることができる。配列リードのアセンブリを容易にする好適なソフトウエアの例としては、Ｃｕｆｆｌｉｎｋｓ（Ｔｒａｐｎｅｌｌ，Ｗｉｌｌｉａｍｓｅｔａｌ．２０１０）及びＴｒｉｎｉｔｙ（Ｈａａｓ，Ｐａｐａｎｉｃｏｌａｏｕｅｔａｌ．２０１３）が挙げられる。その後、人工遺伝子アノテーションとアセンブルされるＲＮＡ転写産物の構造を比較し、転写アセンブリが生じた感度及び特異性を評価することができる（例えば、図３に示したとおり）。その後、この評価を用いて、付随する天然試料中の遺伝子モデルのアセンブリを知らせることができる。

ポリヌクレオチドスタンダードにより定量的精度を評価すること
個々のポリヌクレオチドスタンダードを公知の濃度に希釈し、まとめて混合し、かかるスタンダードの定量的スケールを提供する混合物を形成することができる。スケールを定義するために選択される特定の値は、分析される試料中に存在する標的ＲＮＡ／ＤＮＡの好適な量に基づいて決定することができる。シーケンシング後に、ポリヌクレオチドスタンダードにアラインするリードの数は、存在量の定量的測定をもたらすことができる。以下を含む（これらに限定されない）いくつかの方法で、公知の分子濃度及びポリヌクレオチドスタンダードの測定されたリード存在量間の比較を用いて、試料内及び試料間の定量的分析を知らせることができる。
（ｉ）ポリヌクレオチドスタンダードの公知の濃度と、同じポリヌクレオチドスタンダードの存在量の測定値との比較が、ＤＮＡ／ＲＮＡシーケンシング方法の定量的精度を示す。
（ｉｉ）ダイナミックレンジ（ポリヌクレオチドスタンダードの最大及び最少の存在量間の差）が、定量的直線性（またはこれの一部）を示す。これらの期待値から離れることが、定量的正規化の性能としてよい。
（ｉｉｉ）検出の下限（検出されたポリヌクレオチドスタンダードの最少濃度）が、ライブラリーサイズ及び感度を示す。
（ｉｖ）定量化されるポリヌクレオチドスタンダードが、対応する存在量で遺伝子を定量化するための内部参照を含む。
（ｖ）シーケンシングユニット（Ｒ／ＦＰＫＭ）のモルまたは絶対的（転写コピー数）ユニットへの変換を可能にすること。
（ｖｉ）ＲＮＡスタンダードの定量的範囲が、２つ以上の試料間の正規化を可能にし、遺伝子発現の比較分析を可能にする。

ＲＮＡスタンダードにより遺伝子発現を測定すること
遺伝子発現プロファイリングが、ＲＮＡシーケンシングリードを用いて複数の遺伝子の存在量を測定する。本明細書に開示されたＲＮＡスタンダードは、一定の範囲の濃度で添加され、混合物を形成し、これにより、遺伝子発現の差をエミュレートすることができる。ＲＮＡスタンダードの存在量が測定される精度を評価し、これにより、付随する天然ＲＮＡ試料中の遺伝子発現分析の定量的精度を評価することができる（例えば、図１９に示したとおり）。

一定の範囲の公知の濃度で複数のＲＮＡスタンダードを混合し、まとめて混合し、異なる混合物を形成し、試料間の遺伝子存在量の差及び遺伝子発現の倍数変化をエミュレートことができる。ＲＮＡスタンダードの存在量を測定することができる。ＲＮＡスタンダードの定量を容易にする好適なソフトウエアの例としては、ＥｄｇｅＲ（Ｒｏｂｉｎｓｏｎ，ＭｃＣａｒｔｈｙｅｔａｌ．２０１０）及びＤＥｓｅｑ（Ａｎｄｅｒｓ，ＭｃＣａｒｔｈｙｅｔａｌ．２０１３）が挙げられる。ＲＮＡスタンダードの存在量の測定値をその公知の分子濃度と比較すると、転写定量の精度を示すことができる。天然遺伝子の存在量をＲＮＡスタンダードまたは複数のＲＮＡスタンダードを含む定量的参照スケールと比較することは、また、遺伝子発現の測定値を知らせることができる。

同様に、別のＲＮＡスタンダードアイソフォームが、異なる濃度で含まれ、別のスプライシングをエミュレートすることができる。好適なソフトウエア、例えば、Ｃｕｆｆｌｉｎｋｓ（Ｔｒａｐｎｅｌｌ，Ｗｉｌｌｉａｍｓｅｔａｌ．２０１０）またはＭＩＳＯ（Ｋａｔｚ，Ｗａｎｇｅｔａｌ．２０１０）を用いてＲＮＡスタンダードアイソフォームの存在量を測定することができる。混合物間のＲＮＡスタンダードアイソフォーム存在量の実測倍数変化を決定し、遺伝子発現の変化と関係なく、試料間でアイソフォームスイッチング及び別のスプライシングが測定される精度を評価することができる。天然アイソフォームの存在量をＲＮＡスタンダードと比較することは、また、別のスプライシングの測定値を知らせることができる。

ＤＮＡスタンダードによって表される小規模な遺伝的変動を検出すること
人工染色体中の小規模な遺伝的変動の変動型及び参照対立遺伝子の典型である本明細書に開示されたＤＮＡスタンダードを生成することができる（例えば、図６に示したとおり）。一定の範囲の変数：例えば、変動型接合生殖性；リードアライメント、クオリティ及び／またはカバレッジ；変動型及び複雑度（例えば、ＳＮＰ、インデル、ホモポリマー）；隣接配列コンテクスト；及び小規模な遺伝的変動を同定するのに用いられるソフトウエア（これらに限定されない）が、変動型同定及び遺伝子型アサインメントに影響を及ぼす可能性がある。本明細書に開示されたＤＮＡスタンダードを用いて、小規模な遺伝的変動が同定される感度及び特異性を評価することができる。ＤＮＡスタンダードの配列決定は、参照人工染色体配列について小規模な変動を同定することができる。小規模な遺伝的変動を同定するための好適なソフトウエアとしては、ＧＡＴＫ（ＭｃＫｅｎｎａ，Ｈａｎｎａｅｔａｌ．２０１０）及びＳＡＭｔｏｏｌｓ（Ｌｉ，Ｈａｎｄｓａｋｅｒｅｔａｌ．２００９）が挙げられる。人工染色体について、小規模な遺伝的変動がＤＮＡスタンダード内で検出される精度及び感度を評価することができる（例えば、図２０に示したとおり）。不確実性（例えば、９５％信頼区間）の値は、また、精度の推定の結果とみなすことができる。人工染色体中で小規模な遺伝的変動が同定される信頼度及び感度を比較することは、また、付随するＤＮＡ試料中の小規模な遺伝的変動の同定を知らせることができる。

ＤＮＡスタンダードによって表される対立遺伝子頻度を測定すること
対立遺伝子の頻度の正確な定量は、正確に遺伝子型を割り当てる、または変異（例えば、腫瘍試料内の癌細胞のサブセットが、有害変異を有する場合）を有する試料内のＤＮＡのフラクションを推定するために必要である。本明細書に開示されたＤＮＡスタンダードを用いて、対立遺伝子頻度の差をエミュレートし、これにより、対立遺伝子頻度が測定される定量的精度を評価する、または校正することができる。

例えば、変化する濃度でシーケンシングのために天然ＤＮＡ試料と混合される混合物に、異なる対立遺伝子の典型であるＤＮＡスタンダードを混合することができる。公知のモル濃度及び変異対立遺伝子のそれぞれの測定されたリード存在量（それぞれが異なるＤＮＡスタンダードによって表される）間の比較により、その後、対立遺伝子頻度の定量的評価が実施可能になる。このため、本明細書に開示されたＤＮＡスタンダードを用いて、異なる相対濃度で変異検出の感度、特異性及び精密度を決定し、天然標的変異対立遺伝子の検出及び／または定量による比較のための定量的スケールを確立することができる。このため、本明細書に開示された方法は、それぞれの変異ＤＮＡスタンダードが所定の濃度で添加される変異対立遺伝子の典型であるＤＮＡスタンダードの混合物を調製するステップを含むことができる。本方法は、また、混合物中の変異ＤＮＡスタンダードのそれぞれの配列及び量を決定することを含んでよい。本明細書に開示された方法は、さらに、測定される変異ＤＮＡスタンダード頻度の定量的スケールをもたらすステップを含んでよく、当該スケールは、その後、単一のＤＮＡ試料中、または複数のＤＮＡ試料間で決定される天然ＤＮＡ対立遺伝子の定量的測定を校正するために用いることができる。

ＤＮＡスタンダードによって表される大規模な変動を分解すること
コンピュータで大規模な変動、または構造的遺伝的変動を正確に分解するのは、シーケンスリードの長さより長いことが多いため、困難である可能性がある。大規模な変動の典型であり、これをエミュレートする本明細書に開示されたＤＮＡスタンダードを生成することができる。例えば、正確に構造を分解するソフトウエアプログラム能力を評価する；及び構造的変動型の相対的存在量及びコピー数を定量化する、及び／または遺伝子型を構造的変動を含む配列に割り当てるために、構造的変動の典型であるＤＮＡスタンダードを用いることができる。大規模な変動を分解するための好適なソフトウエアとしては、ＢｒｅａｋＤａｎｃｅｒ（Ｃｈｅｎ，Ｗａｌｌｉｓｅｔａｌ．２００９）及びＣｏｒｔｅｘ（Ｉｑｂａｌ，Ｃａｃｃａｍｏｅｔａｌ．２０１２）が挙げられる。また、参照人工染色体についての構造的変動による配列リードの再分布をモデル化するために本明細書に開示されたＤＮＡスタンダードを用いることができる。ＤＮＡスタンダードの測定は、大規模な変動が付随する天然ゲノムＤＮＡ試料内で同定され、定量化される精度の評価を知らせることができる。

ＤＮＡスタンダードのｄｅｎｏｖｏアセンブリ
天然参照ゲノムが利用できない場合には、ゲノム配列は、オーバーラップしている配列リードからｄｅｎｏｖｏでアセンブルしなければならない。付随する標的ゲノムＤＮＡ試料で、ＤＮＡスタンダードの並行ｄｅｎｏｖｏアセンブリを同時に実施することができる。ｄｅｎｏｖｏアセンブリの好適なソフトウエアとしては、Ｖｅｌｖｅｔ（ＺｅｒｂｉｎｏａｎｄＢｉｒｎｅｙ２００８）及びＡＢｙＳＳ（Ｓｉｍｐｓｏｎ，Ｗｏｎｇｅｔａｌ．２００９）が挙げられる。ゲノムアセンブリに影響を及ぼす変数としては、ゲノム複雑度及び反復含有率；倍数性；シーケンシング深度、クオリティ及びエラー率；リード長さ及び挿入サイズ；ならびにソフトウエアプログラム及び用いられるパラメータ（ｋ−ｍｅｒ長さ、アライメントアプローチ、リードソフトクリッピング、及び他のパラメータを含む）が挙げられる（これらに限定されない）。これらの変数のＤＮＡスタンダードのｄｅｎｏｖｏアセンブリへのインパクトを評価することができる。

アセンブルされる配列を公知のＤＮＡスタンダードと比較し、ｄｅｎｏｖｏアセンブリの性能及び上記の変数のインパクトを評価することができる。Ｎ５０値；メジアン、最大及び／または混合コンティグサイズ；人工染色体と比較したコンティグのカバレッジ及びギャップ；人工染色体と比較したコンティグのミスマッチまたは塩基毎精度；ならびに大きなまたは系統的アセンブリエラーの同定のいずれか１つまたはそれ以上に従って人工染色体のｄｅｎｏｖｏアセンブリを評価することができる。ＤＮＡスタンダードのｄｅｎｏｖｏアセンブリの評価は、付随する標的天然ＤＮＡ試料のｄｅｎｏｖｏアセンブリの評価を知らせることができる。

ＤＮＡスタンダードによるメタゲノム分析
メタゲノム分析は、環境試料からの複数の微生物ゲノムのアセンブリ及び定量を含むことが多い。本明細書に開示されたＤＮＡスタンダードを用いて、一定の範囲の異なる存在量でゲノムの不均一コレクションからなる複合微生物コミュニティをエミュレートすることができる（例えば、図１０に示したとおり）。微生物ゲノムの典型であるこれらのＤＮＡスタンダードを用いて、メタゲノム分析を評価することができる。メタゲノム分析に影響を及ぼす変数としては、微生物コミュニティゲノムサイズ、複雑度、反復及びＧＣ含有率、ならびにユーザー定義変数、例えば、シーケンシング深度及びカバレッジ、クオリティ、リード長さ及び挿入サイズ、ならびにソフトウエア及び用いられるパラメータが挙げられる（これらに限定されない）。これらの変数のＤＮＡスタンダードのメタゲノム分析へのインパクトを評価することができる。

本明細書に開示されたメタゲノムＤＮＡスタンダードを用いて、ｄｅｎｏｖｏアセンブリ及び分析の性能を評価することができる（例えば、図２１に示したとおり）。Ｎ５０値；及びメジアン及び最大コンティグサイズ；カバレッジを含む（これらに限定されない）いくつかの特徴に従って、人工染色体に関してＤＮＡスタンダードのアセンブリを評価することができる；対応する人工染色体に関してアセンブルされるＤＮＡスタンダードコンティグの塩基毎精度を比較することができる。ＤＮＡスタンダードのメタゲノム分析の評価は、付随する標的天然ＤＮＡ試料のメタゲノム分析の評価を知らせることができる。

ＮＧＳシーケンシングは、サンプルを抽出したコミュニティ内の微生物の存在量及び多様性を決定することができる。異なる相対濃度で本明細書に開示されたＤＮＡスタンダードを混合し、定量的参照を含む混合物を形成することができる。本明細書に開示された方法は、さらに、測定されるメタゲノムＤＮＡスタンダード頻度の定量的スケールをもたらすステップを含んでよく、当該スケールは、その後、付随する環境試料中で決定される天然微生物ゲノムの定量的測定を校正するために用いることができる。

また、ＤＮＡスタンダードを用いて、定量的存在量に関するメタゲノム分析を評価することができる。例えば、ＤＮＡスタンダードを用いて、効率的なアセンブリに必要な最少配列カバレッジ；検出の下限（すなわち、メタゲノムＤＮＡスタンダードが検出される最少濃度）；及びライブラリー感度、サイズ及び／または多様性の測定値（これらに限定されない）を評価することができる。また、本明細書に開示されたメタゲノムＤＮＡスタンダードは、２つの以上の試料間の定量的比較に用いることができ、２つの以上の試料間で実施される微生物コミュニティ構造及び多様性の比較分析が可能になる。

ＤＮＡスタンダードによる１６ＳｒＲＮＡプロファイリング
１６ＳｒＲＮＡ遺伝子は、大きな複合微生物コミュニティをプロファイルするための系統的マーカーとして用いることが多い。人工微生物ゲノムからの１６ＳｒＲＮＡ遺伝子の一部分の典型であり、これとマッチするＤＮＡスタンダードを生成することができる（例えば、図１１に示したとおり）。さらに、異なる相対濃度で人工１６ＳｒＲＮＡ遺伝子の典型であるＤＮＡスタンダードを混合し、微生物コミュニティをエミュレートし、実施される１６Ｓプロファイリングアプリケーションを評価することができる。

人工１６ＳｒＲＮＡ遺伝子とマッチするＤＮＡスタンダードは、ユニバーサルプライマーと相補的な小配列を保持し、それゆえ、並行して天然１６ＳｒＲＮＡ遺伝子に増幅することができる。ＤＮＡスタンダードからの得られたアンプリコンを分析し、その後、（ｉ）ＰＣＲ増幅偏りの差；及び（ｉｉ）ＤＮＡスタンダードアンプリコンの測定存在量をこれらのＤＮＡスタンダードの公知の初期濃度に対して比較することによる定量的精度のいずれか１つまたはそれ以上を評価することができる。さらに、ＤＮＡスタンダードから得られたアンプリコンを用いて、比較のための定量的スケールを確立し、対象の付随するメタゲノム試料からのアンプリコンを定量化することができる。

ＤＮＡスタンダードによりＧＣ偏りを同定すること
ＧＣ含有率のライブラリー調製及びシーケンシング中のいくつかの反応へのインパクトの結果、アセンブリ及び定量の偏りを生じさせる微生物ゲノムの偏った発現となる（Ｃｈｅｎ，Ｙ．Ｃ．，ｅｔａｌ．，２０１３）。本明細書に開示されたＤＮＡスタンダードを用いて、ＧＣ含有率のシーケンシング及び分析へのインパクトを評価することができる。

微生物ゲノム中にみられる広い範囲のＧＣ含有率とマッチするＤＮＡスタンダードを生成することができる。シーケンシング及び分析前に、環境ＤＮＡ試料内でＤＮＡスタンダードを混合することができる。ＧＣ含有率と相関関係にあるＤＮＡスタンダードのアライメント、アセンブリ及び／または定量の偏りを同定することができる。例えば、ＤＮＡスタンダードの存在量の測定値及び公知の濃度間の差が、ＧＣ含有率と関係する偏りを同定することができ、順に次の定量的正規化がＧＣ含有率のインパクトを打ち消すことができる。本明細書に開示されたＤＮＡスタンダードは、また、ＤＮＡ定量のＧＣ含有率偏りを最少化する正規化パラメータを確立するためのトレーニングセットとして用いることができる。

免疫受容体シーケンシングでＤＮＡスタンダードを用いること
免疫レパートリーシーケンシングは、白血球によって発現される免疫受容体配列のスイートを増幅するために共通セットのプライマーを用いる。本明細書に開示されたＤＮＡスタンダードは、人工染色体の人工クロノタイプの典型となるように設計することができる（図１２及び１３に示した例）。クロノタイプＤＮＡスタンダードの範囲及び複雑度は、白血球の試料によって発現される天然クロノタイプの複合及び多様なプロファイルをエミュレートするように合わせることができる。

本明細書に開示されたＤＮＡスタンダードは、また、通常、免疫レパートリーシーケンシングで用いられるプライマー対のそれぞれと相補的な小配列を保持してよい。それゆえ、ＰＣＲ増幅は、試料内の対象の天然クロノタイプを増幅するために用いることができるが、また、ＤＮＡスタンダードによって表されるクロノタイプを増幅するために用いることができる。それゆえ、ＤＮＡスタンダードは、免疫レパートリーシーケンシング中にユニバーサルプライマーを用いた増幅のテンプレートの役割を果たすことができる。増幅及びシーケンシング後に、ＤＮＡスタンダードに由来するリードを分析して、免疫レパートリーシーケンシングの性能を評価し、異なるクロノタイプの相対的存在量を定量化することができる。また、ＤＮＡスタンダードを用いて、ハイブリダイゼーション効率の差による可能性がある異なるユニバーサルプライマーの増幅偏りを決定することができる。ＤＮＡスタンダードの公知の初期濃度に対してＤＮＡスタンダードアンプリコンの存在量の測定値を比較することによって増幅偏りを決定することができる。次にクロノタイプ存在量を正規化し、決定された増幅偏りをカウントすることができる。また、本明細書に開示されたＤＮＡスタンダードを用いて、人工クロノタイプの検出及び定量を評価することができ、付随する標的天然ＤＮＡ試料のクロノタイプ検出及び定量の評価を知らせることができる。

本明細書に開示された方法のいずれかが、ホモ接合性、ヘテロ接合性または異質性を複写するために、同じ濃度、または異なる濃度で試料に本明細書に開示された２つ以上のフラグメント（またはスタンダード）を添加することを含んでよい。例えば、同じ濃度で２つの異なるフラグメント（またはスタンダード）を添加し、ヘテロ接合性を複写してよい。このため、異なる濃度でフラグメント（またはスタンダード）を添加することによりホモ接合性、ヘテロ接合性または異質性を複写することができる。

キット：
上記から理解されるとおり、本開示は、また、１つ以上の本明細書に開示されたポリヌクレオチドスタンダードを含むキットを提供する。あるいはまたはさらに、キットは、１つ以上の本明細書に開示されたスタンダードをコードする１つ以上のポリヌクレオチド配列を含む１つ以上の本明細書に開示されたベクターを含んでよい。キットは、また、ポリヌクレオチドスタンダードを生成するためにベクターを発現するのに好適な１つ以上の成分を含んでよい。キットは、本明細書に開示されたポリヌクレオチドスタンダード及び本明細書に開示されたベクターの双方を含んでよい。キットは、また、その中に含有される特定のポリヌクレオチドスタンダードを記載している情報、例えば、その配列、濃度、対象の構造的ゲノム特徴など（これらに限定されない）を提供してよい。キットは、また、１つ以上の本明細書に開示された人工染色体を含んでよい。

キットは、任意の組み合わせで本明細書に開示されたポリヌクレオチドスタンダード及び／またはベクターのいずれか１つまたはそれ以上の混合物を含んでよい。スタンダード及び／またはベクターの混合物は、単一の緩衝剤中に一緒に提供してよく、１つ以上の容器中に提供してよい。あるいは、スタンダード及び／またはベクターの混合物は、それぞれが単一のスタンダード及び／またはベクター、または単一の濃度のスタンダード及び／またはベクターを含む複数の別個の容器の形態で提供してよい。別個の容器は、キットとして互いに関連させて提供してよい。

キットは、さらに、本明細書に開示されたコンピュータ機器、コンピュータプログラム可能媒体、及び／またはコンピュータソフトウエアを含んでよい。このため、キットは、物理的ポリヌクレオチドスタンダードを実験的に用いることができ、コンピュータ機器及びソフトウエアを用いて、実験に由来するシーケンシング情報を人工染色体に関係づけることができるパッケージとして提供してよい。

コンピュータシステム及びコンピュータ実装方法：
本開示は、また、コンピュータシステム及びコンピュータ実装方法を提供する。図３８は、ポリヌクレオチドシーケンシングプロセスを校正するのに好適なコンピュータシステム３８００を示す。コンピュータシステム３８００は、プログラムメモリ３８０４、データメモリ３８０６、コミュニケーションポート３８０８及びユーザーポート３８１０に接続されたプロセッサー３８０２を含む。プログラムメモリ３８０４は、非一過性コンピュータ読取可能媒体、例えばハードドライブ、ソリッドステートディスクまたはＣＤ−ＲＯＭである。ソフトウエア、すなわち、プログラムメモリ３８０４に記憶される実行可能プログラムがプロセッサー３８０２に本明細書に開示された方法を実施させる。

プロセッサー３８０２は、その後、データストア３８０６、例えば、ＲＡＭまたはプロセッサーレジスターに校正された結果を記憶してよい。プロセッサー３８０２は、また、コミュニケーションポート３８０８を介して、サーバー、例えば、ポリヌクレオチドシーケンシング実験を管理する試料配列データベースまたはコンピュータシステムに校正された結果を送ってよい。

プロセッサー３８０２は、データメモリ３８０６から、ならびに、コミュニケーションポート３８０８から、及びユーザー３８１６にシーケンシング結果の視覚的表示３８１４を示すディスプレイ３８１２に接続されているユーザーポート３８１０から、データ、例えば、ポリヌクレオチド配列、人工染色体のフラグメントまたは試料の配列を示すデータを受けてよい。１つの例では、プロセッサー３８０２は、例えば、ＩＥＥＥ８０２．１１に従ったＷｉ−Ｆｉネットワークを用いることによって、コミュニケーションポート３８０８を介してシーケンシングデバイスから配列データを受ける。Ｗｉ−Ｆｉネットワークは、専用マネージメントインフラストラクチャー、例えばルーター、を必要としない分散型アドホックネットワークとしてよく、またはネットワークを管理するルーターまたはアクセスポイントを備えた集中ネットワークとしてよい。

コミュニケーションポート３８０８及びユーザーポート３８１０は、別個の物として示されるが、データを受けるために任意の種類のデータポート、例えば、ネットワークコネクション、メモリインターフェイス、プロセッサー３８０２のチップパッケージのピン、またはロジカルポート、例えば、ＩＰソケットもしくはプログラムメモリ３８０４に記憶され、プロセッサー３８０２によって実行されるファンクションのパラメータを用いてよいと理解しなければならない。これらのパラメータは、データメモリ３８０６に記憶してよく、値渡しまたは参照渡し、すなわち、ソースコード中のポインターとして扱ってよい。

プロセッサー３８０２は、揮発性メモリ、例えばキャッシュまたはＲＡＭ、または非揮発性メモリ、例えば、オプティカルディスクドライブ、ハードディスクドライブ、ストレージサーバーもしくはクラウドストレージのメモリアクセスを含む、これらのインターフェイスすべてからデータを受けてよい。コンピュータシステム３８００は、さらに、クラウドコンピューティング環境、例えば、仮想マシンのダイナミックナンバーをホストする内部接続サーバーの管理グループ内で実施してよい。

のちに受けるデータを決定する、または計算するプロセッサー３８０２が、受けるステップのいずれも先導してよいと理解しなければならない。例えば、プロセッサー３８０２は、人工染色体の配列データを決定してよく、データメモリ３８０６、例えば、ＲＡＭまたはプロセッサーレジスター中に配列データを記憶してよい。プロセッサー３８０２は、その後、例えば、メモリアドレスと一緒にリードシグナルを提供することによって、データメモリ３８０６からのデータを要求してよい。データメモリ３８０６は、物理的ビットライン上の電圧シグナルとしてデータを提供してよく、プロセッサー３８０２は、メモリインターフェイスを介して人工染色体の配列データを受けてよい。

この開示全体を通じて特に記載しない限り、データは、データ構造、例えば、［「Ｇ」、「Ａ」、「Ｔ」、「Ｃ」］ストリングまたはヌクレオチドをコードするバイナリタプルのリストによって表してよいと理解しなければならない。データ構造は、データメモリ３８０６に物理的に記憶するまたはプロセッサー３８０２によって処理することができる。

本開示の技術は、さまざまな技術を用いて実施してよいと理解しなければならない。例えば、本明細書に記載された方法は、好適なコンピュータ読取可能媒体にある一連のコンピュータ実行可能命令によって実施してよい。好適なコンピュータ読取可能媒体が、揮発性（例えば、ＲＡＭ）及び／または非揮発性（例えば、ＲＯＭ、ディスク）メモリ、キャリア波及び伝送媒体を含んでよい。例示的なキャリア波は、局所ネットワークまたは公的アクセス可能ネットワーク、例えば、インターネットでデジタルデータストリームを伝達する電気、電磁または光学シグナルの形態を取ってよい。

また、特に記載しない限り、以下の記述から明らかなことと理解しなければならず、説明を通じて、用語、例えば、「処理すること」または「コンピュータで計算すること」または「計算すること」、または「決定すること」または「表示すること」または「校正すること」または「正規化する」などを用いる記述は、コンピュータシステムのレジスター及びメモリ内の物理的（電子的）量として表されるデータを処理し、コンピュータシステムメモリまたはレジスターまたは他の情報ストレージ、伝送またはディスプレイデバイス内の同様に物理的量として表される他のデータに変換するコンピュータシステム、または類似のエレクトロニックコンピューティングデバイスのアクション及びプロセスを意味することができると理解される。

本開示は、本明細書に、さらに、以下の非限定例中に記載される。
実施例１：
以下のとおり、人工染色体の１つの例を調製した。ヒトｃｈｒ７：２７１，３３５，００〜２７１，３８５，００（ｈｇ１９）から５，０００ｎｔ配列を取り出した。この配列は、ＨＯＸＡ１遺伝子のプロモーター中のＣｐＧアイランド（ＣｐＧジヌクレオチドの密度を含有する配列）をオーバーラップさせる。相同性を除去するために、５，０００ｎｔ配列をシャッフルし、同時に５０ｎｔのシャッフリングウインドウサイズでＣＧジヌクレオチドペアリングを維持した。このプロセスは、図２に示されている。相同性を除去するために、ウインドウ内の一次ＤＮＡ配列をシャッフルして、配列を再配列し、同時にウインドウサイズより大きな分解で遺伝的特徴を維持した。必要な場合、公知の天然配列との相同性を除去するために追加のヌクレオチド置換、挿入及び欠失を手動で生成した。ＢＬＡＳＴｎソフトウエアプログラム（Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．ｅｔａｌ．，ＪＭｏｌＢｉｏｌ２１５，４０３−１０（１９９０））を用いてヌクレオチドコレクション（ｎｒ／ｎｔ）データベースと得られたシャッフルされた配列を比較し、公知または天然の配列のいずれかとの２１ｎｔ隣接相同性より大きないずれかの配列がないことを確認した。この実施例の方法は、公知または天然の配列との相同性を有しないが、ＨＯＸＡ１プロモーター内に５０ｎｔの分解で高次のＣｐＧアイランド遺伝的特徴を保持する５，０００ｎｔ配列を生成した。

実施例２：
以下のとおり、人工染色体中の人工遺伝子配列の１つの例を調製した。最初に１２エキソン及び１１イントロンを含むヒトゲノム（ｈｇ１９）から遺伝子配列を取り出した。個々のエキソン及びイントロン配列ならびに上流／下流１，０００ｎｔ配列を取り出した。実施例１に記載されたとおり、相同性を除去するために２０ｎｔウインドウサイズでそれぞれの遺伝子エキソン及びイントロン配列を個々にシャッフルした。その後、正しい順序で、人工染色体内でシャッフルされたエキソン及びイントロン配列をアセンブルし、ヒトゲノム内のオリジナル遺伝子について、配向及び分布が保持された。この人工遺伝子が、図３に示したとおり、Ｒ＿１＿２＿Ｒを指す。挿入されたエキソンと隣接しているヌクレオチドを手動で編集し、カノニカルジヌクレオチドＡＧ−ＣＴスプライス部位及びポリ−ピリミジントラックヌクレオチドを挿入した。このため、当該人工遺伝子は、天然ヒト遺伝子中に存在する遺伝子座のより高次の遺伝的特徴を保持するが、オリジナルヒト遺伝子または他の公知のヌクレオチド配列のいずれかとの一次配列相同性を保持しない。

実施例３：
以下のとおり、それぞれの遺伝子が複数のアイソフォームを含み、複数の遺伝子が人工染色体に含まれるものの１つの例を実施した。最初に、ＧＥＮＣＯＤＥｖ１９基本的遺伝子アセンブリ（Ｈａｒｒｏｗ，Ｄｅｎｏｅｕｄｅｔａｌ．２００６）からヒトｍＲＮＡアイソフォーム配列を取り出した。混合されたエキソン長さ、エキソン数及びアイソフォーム数によってアイソフォームをランク付けした。このリストから系統立って２つ以上の別のアイソフォームを含む３０の遺伝子のサンプルを抽出した。エキソン除外、エキソン含有、別の転写開始、別の転写終結、イントロンリテンションならびに別の３’及び５’スプライス部位使用を含む別の遺伝子スプライシングの異なる例を含むようにこれらのアイソフォームをキュレートした。ヒトゲノム（ｈｇ１９）からのそれぞれの遺伝子エキソン及びイントロン配列を取り出し、相同性を除去するために、実施例１に上記のとおり、個々にシャッフルした。その後、人工染色体中でそれぞれのシャッフルされた配列を再アセンブルし、エキソン−イントロン構造を維持したが、天然配列との相同性を除去した。通常、ヒトゲノム中の遺伝子間でみられる距離とほぼ同じとなるように人工染色体中の挿入された遺伝子座間の距離を維持した。このプロセスによって、図１に示したとおり、人工染色体中に３０の人工遺伝子座を組み入れた。

実施例４：
以下のとおり、人工染色体中に含有されるモバイルエレメントの１つの例を調製した。共通反復クラス（ＡｌｕＳｘ、ＭＩＲｂ、Ｌ２ａ等）（Ａ．Ｆ．Ａ．Ｓｍｉｔ，Ｒ．Ｈｕｂｌｅｙ＆Ｐ．ＧｒｅｅｎＲｅｐｅａｔＭａｓｋｅｒａｔｈｔｔｐ：／／ｒｅｐｅａｔｍａｓｋｅｒ．ｏｒｇ）からモバイルエレメントの５つの例の天然ヒトＤＮＡ配列を取り出した。相同性を除去するために、実施例１に上記のとおり、反復配列をシャッフルし、キュレートした。十分な数にシャッフルされた反復配列を複製し、ヒトゲノム中に存在するものと同じ密度で人工染色体に挿入した。例えば、８Ｍｂ人工染色体配列が、ヒトゲノム中の類似天然反復エレメントの密度とマッチする７８８ＡｌｕＳｘ、５３４ＭＩＲｂ、４３３Ｌ２ａ、９３ＭＥＲ５Ｂ及び１６６Ｌ１Ｍ５反復モバイルエレメントを有する。その後、図４に示したとおり、個々の反復エレメントをランダムヌクレオチド置換、挿入、及び欠失させ、祖先配列から個々の反復モバイルエレメントの配列分散を生じさせた。ヒトゲノム中の類似天然エレメントの配列及び長さ分散とマッチするようにシャッフルされた反復モバイルエレメントの配列及び長さ分散を設計することができる。その後、図１に示したとおり、ヒトゲノム中の類似天然モバイルエレメントと同じ密度及び分布で、人工染色体配列にシャッフルされた反復モチーフを挿入した。

以下のとおり、人工染色体中に含有されるセントロメアの１つの例を調製した。ヒトゲノム中の個々のＡＬＲ／Ａｌｐｈａセントロメアから単一の１７１ｎｔタンデム反復ＤＮＡ配列を取り出した（Ａ．Ｆ．Ａ．Ｓｍｉｔ，Ｒ．Ｈｕｂｌｅｙ＆Ｐ．ＧｒｅｅｎＲｅｐｅａｔＭａｓｋｅｒａｔｈｔｔｐ：／／ｒｅｐｅａｔｍａｓｋｅｒ．ｏｒｇ）。この天然１７１ｎｔタンデム反復ＤＮＡ配列をシャッフルし、天然配列との相同性を除去するためにキュレートし、祖先反復を形成した。この祖先反復から、４連続ラウンドの４倍増幅を実施し、続いて、ランダムヌクレオチド置換、挿入、及び欠失によって１４％配列分散を実施した。この結果、オリジナルヒト配列の内部階層的反復構造と類似した内部階層的反復構造を有するが、オリジナルヒト配列と配列同一性を共有しない１０、９４４ヌクレオチド長人工セントロメアエレメントが形成された。その後、図１に示したとおり、染色体配列の中央領域に人工セントロメアエレメントを挿入した。

以下のとおり、人工染色体中に含有されるテロメアの１つの例を調製した。図１に示したとおり、手動で人工６−ｍｅｒヌクレオチド祖先反復モチーフ（ＡＴＴＧＧＧ）を生成し、複数のラウンドの増幅を行い、配列分散をシミュレートし、２つの１０．９及び８．３ｋｂ長の人工テロメア配列を生成し、その後、人工染色体配列のそれぞれの末端に付加した。

実施例５：
以下のとおり、人工染色体中に含有される小規模な遺伝的変動の１つの例を調製した。変異型、ヌクレオチド含有率及びサイズに従って、ＳＮＰ、挿入、欠失、ヘテロ接合体、マイクロサテライト及び複数のヌクレオチド多型を含むヒト小規模な変動のリスト（Ｓｈｅｒｒｙ，Ｓ．Ｔ．ｅｔａｌ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ２９，３０８−１１（２００１）をランク付けした。このリストから系統立って５１２の小規模な変異のすべてのサンプルを抽出した。選択した小規模な変異手動でキュレートし、広い範囲の変異型、ヌクレオチド含有率及びサイズの発現を確実にした。ヒトゲノム配列（ｈｇ１９）から上流及び下流フランキング５ヌクレオチド配列と共にヒト小規模な変動のＤＮＡ配列を取り出した。その後、２６８の小規模な変動を２つの人工染色体に置換し、これにより、オリジナル「参照」人工染色体に対するホモ接合体変動を組み入れる一対の変動型人工染色体が生成された。次に、２８９の小規模な変動を１つの単一の人工変動型対立遺伝子染色体だけに置換し、これにより、オリジナル「参照」人工染色体に対するヘテロ接合体変動が生成された。このプロセスによって、人工染色体中のホモ接合体及びヘテロ接合体の小規模な変動を示すことができる。

実施例６：
以下のとおり、人工染色体への疾患特異的小規模な遺伝的変動の組み入れの１つの例を実施した。ＢＲＡＦＶ６００Ｅ変異の結果、バリン（Ｖ）からグルタミン酸（Ｅ）のＢＲＡＦタンパク質中の位置６００で、アミノ酸置換が生じ、これは黒色腫症例の約８５％にみられている（Ｄａｖｉｅｓ，Ｈ．ｅｔａｌ．Ｎａｔｕｒｅ４１７，９４９−５４（２００２））。ヒトゲノムから野生型（Ｔ）または疾患関連変異ＢＲＡＦＶ６００Ｅ変異（Ａ）のいずれか及びフランキング上流及び下流１５０ヌクレオチドとマッチするＤＮＡ配列を取り出した（ｈｇ１９アセンブリ中のｃｈｒ７：１４０，４５２，９８６−１４０，４５３，２８６に対応する）。ＢＲＡＦＶ６００Ｅ変異への６上流及び下流ヌクレオチドは、シャッフルされなかった。しかし、図７に示したとおり、ＢＲＡＦＶ６００Ｅ変動の部位からの距離を増大させながら、増大する大きなウインドウサイズ中に残りのフランキング配列をシャッフルした。例えば、ＢＲＡＦＶ６００Ｅ変動の２０ｎｔ距離内の場合、６ｎｔウインドウサイズで配列をシャッフルし、ＢＲＡＦＶ６００Ｅ変動の１００ｎｔ距離内の場合、１０ｎｔウインドウサイズでシャッフルし、ＢＲＡＦＶ６００Ｅ変動の１００ｎｔ距離を越える場合、２０ｎｔウインドウサイズでシャッフルした。これは、遺伝子配列全体で公知の天然配列との相同性を除去したが、変異のすぐそばのシャッフリングのウインドウ分解を増大させた。その後、シャッフルされた配列を「参照」人工染色体に置換し、ＢＲＡＦＶ６００Ｅ変異を有する人工変異染色体が形成された。

もう１つの例では、Ｋ５６２細胞株は、ＴＰ５３遺伝子配列中のｃｈ１７：７５７８５２３−７５７８５２４（ｈｇ１９）でフレームシフトヌクレオチド挿入を含有する（Ｌａｗ，Ｊ．Ｃ．ｅｔａｌ．、ＬｅｕｋＲｅｓ１７，１０４５−５０（１９９３））。ヒトゲノムから参照（Ｔ）または疾患関連変異ＴＰ５３Ｑ１３６ｆｓ変異（ＴＧ）のいずれか及びフランキング上流及び下流１５０ヌクレオチドとマッチするＤＮＡ配列を取り出した（ｈｇ１９アセンブリ中のｃｈｒ１７：７，５７８，３７４−７，５７８，６７４に対応する）。ＴＰ５３Ｑ１３６ｆｓ変異への６上流及び下流ヌクレオチドはシャッフルされず、残りのシャッフルされた配列は、上記のとおり、ＴＰ５３Ｑ１３６ｆｓからの距離ごとのウインドウサイズが増大した。その後、この配列を「参照」人工染色体に置換し、ＴＰ５３Ｑ１３６ｆｓ変異を有する人工変異染色体が形成された。

実施例７：
以下のとおり、人工染色体への大規模な遺伝的変動（＞５０ｎｔ）の組み入れの１つの例を実施した。変異型、ヌクレオチド含有率及びサイズに従って、ヒト大規模な変動のカタログ（Ｓｈｅｒｒｙ，Ｗａｒｄｅｔａｌ．２００１，ＭａｃＤｏｎａｌｄ，Ｚｉｍａｎｅｔａｌ．２０１４）をランク付けした。ヒト大規模な変動のリストから系統立って大規模な変動の１２例すべてのサンプルを抽出し、手動でキュレートし、大きな欠失、挿入、逆位（トランスバージョン）、コピー数変動及びモバイルエレメント挿入を含む多様な範囲の異なる型の大規模な変動の完全発現を確実にした。追加の１，０００ヌクレオチドフランキング上流及び下流配列と構造的変動の配列をシャッフルし、実施例１に前述のとおり、公知の天然配列との相同性を除去するためにキュレートした。特に、実施例４に前述のとおり、内部階層構造を維持することができるように大規模な変動の内部構造（例えば、反復または逆方向ユニット）のいずれかについて可能なシャッフリングを実施した。その後、構造的変動のこれらの例を人工染色体配列に挿入し、変動型人工染色体を生成した。この方法では、図１２に示したとおり、人工染色体内に４つの異なる型の大規模な構造的変動の１２例を挿入した。上記の実施例６の方法に記載されたとおり、「参照」人工染色体に対する複数の変動型人工染色体の使用によって、一定の範囲の構造的変動の遺伝子型（ホモ接合体及びヘテロ接合体）を確立することができる。

もう１つの例では、以下のとおり、複数の人工染色体間のコピー数で変わるＤＮＡ反復を組み入れた。図３３に示したとおり、ヒトゲノム（ｈｇ１９）から単一のＤ４Ｚ４反復コピーのＤＮＡ配列を取り出し、公知の天然配列との相同性を除去するために反復コピーサイズとマッチするウインドウサイズとシャッフルした。シャッフルされたＤ４Ｚ４反復コピーは、その後、複写され、頭−尾配向に組織化され、１０、２０、５０、１００及び２００のシャッフルされたＤ４Ｚ４反復コピーのアレーを形成する。これらの反復コピー数は、ヒト対象の実測Ｄ４Ｚ４コピー数の大部分（９９％）を包含する（Ｓｃｈａａｐ，Ｌｅｍｍｅｒｓｅｔａｌ．２０１３）。これは、１０コピー（ＦＳＭＤ患者の９５％によって示された）、２０コピー（高リスク個体）、５０コピー（関連個体について）及び１００超のコピー（影響を受けない個体について）のコピー数を含む（ｖａｎｄｅｒＭａａｒｅｌａｎｄＦｒａｎｔｓ２００５）。その後、それぞれの反復アレーを人工染色体に組み入れ、これにより、人工Ｄ４Ｚ４反復コピー数で変わる一定の範囲の異なる遺伝子型が生成された。

実施例８：
以下のとおり、２つの人工染色体間の転座による融合遺伝子の形成の１つの例を実施した。最初に、実施例２に前述の方法を用いて、２つの人工遺伝子、Ｂ１及びＡ１遺伝子をコードする２つの人工染色体を生成した。Ａ１及びＢ１遺伝子のエキソン／イントロン構造は、それぞれ、ヒトＡＢＬ１及びＢＣＲ遺伝子に由来した。図９に示したとおり、Ｂ１遺伝子は、人工染色体Ａ上に２３エキソン／２１イントロンを含み、人工染色体Ｂ上に１１エキソンを含むＡ１遺伝子の典型である配列を生成した。それぞれの人工染色体内に遺伝子のエキソン／イントロン構造を維持したが、上記の実施例１に記載された方法によって、相同性を除去するためにＤＮＡ配列をシャッフルした。その後、図９に示したとおり、（ｉ）Ｂ１遺伝子中のエキソン４後及び（ｉｉ）Ａ１遺伝子中のエキソン２前の転座によって、人工染色体Ａ及びＢ配列を再配列し、これにより、人工染色体Ａ上にＢ１エキソン１〜１３及びＡ１エキソン２〜１１を含む融合遺伝子及び人工染色体Ｂ上でＡ１エキソン１及びＢ１エキソン１４〜２２とマッチする融合遺伝子が生成された。このプロセスによって、２つの人工染色体の転座を実施し、融合遺伝子事象が形成された。

実施例９：
以下のとおり、微生物ゲノムコミュニティをシミュレートするために、本明細書に開示された人工染色体の使用の１つの例を実施した。環境ＤＮＡ試料は、複数の微生物ゲノムの複合コミュニティを含有することが多い。そこで、型、サイズ、及び存在量が異なる微生物ゲノム（本明細書では「人工微生物ゲノム」を意味する）の典型である複数の人工染色体の複合コミュニティをシミュレートした。最初に、全部で３０の微生物の高クオリティドラフトゲノム配列（Ｃｈａｎ，Ｐ．Ｐ．，ｅｔａｌ．，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ４０，Ｄ６４６−５２（２０１２））を取り出した。選択した微生物ゲノムを手動でキュレートし、広い範囲の分類群（アーキア及び細菌の双方を含む）、サイズ（０．５〜１０Ｍｂｐ）、ＧＣ含有率（２７〜７０％）、ｒＲＮＡオペロンカウント（１〜１０）の発現、及び多様な範囲の環境（ヒト身体、水生、陸上及び極端な物理的または化学的条件）からの分離を確実にした。当該選択（表９に示した）は、環境ＤＮＡ試料内の複合微生物集団中でみられることが多い系統的及びゲノム異質性の典型となることを意図している。ゲノム配列をシャッフルし、公知の天然配列との配列相同性のいずれかを有する配列を除去するように操作した。このプロセスによって、３０の人工微生物ゲノムのライブラリーが生成された。

１６ＳｒＲＮＡ遺伝子を微生物ゲノムに組み入れるもう１つの例を実施した。前記の方法を用いて事前に生成された人工微生物ゲノムから、表９に示したとおりの３０の微生物ゲノム配列に対応する１６ＳｒＲＮＡ配列を取り出した。１６ＳｒＲＮＡ配列をシャッフルし、実施例１に前述のとおり、公知の天然配列との相同性を除去するために手動で編集した。しかし、ユニバーサル１６Ｓプライマー（フォワードプライマー：ＣＴＡＣＧＧＧＡＧＧＣＡＧＣＡＧ及びリバースプライマー：ＧＡＣＴＡＣＣＡＧＧＧＴＡＴＣＴＡＡＴＣＣ）に必要な配列が、保持されている。図１１に示したとおり、これらのプライマー配列は、１６ＳｒＲＮＡ遺伝子内のＶ３領域に対応するおよそ４６０ｎｔのシャッフルされた配列に接している。この介在するシャッフルされたＶ３配列は、ポリメラーゼ連鎖反応でユニバーサル１６Ｓプライマーを用いて増幅される公知の天然配列との相同性を有しない人工マーカーを含む。合成マーカー１６ＳｒＲＮＡ遺伝子は、微生物ゲノム配列が引き出されたオリジナル微生物のオペロンカウント（１〜１０）に関する頻度で、人工微生物ゲノム配列にアセンブルされる。

実施例１０：
本明細書に開示された人工染色体を用いて、哺乳動物免疫グロブリン配列多様性のシミュレーションの１つの例を実施した。人工免疫レパートリー配列の生成により、ヌクレオチドスタンダードの使用が可能になり、免疫レパートリーシーケンシング中にクロノタイプの精度及び定量が評価される。人工染色体上にＴＣＲβ座を生成し、Ｖ（Ｄ）Ｊ組み換えのプロセスをモデル化し、人工ＴＣＲβクロノタイプのスイートを生成した。最初に、ヒトゲノム（ｈｇ１９）からＴＣＲβ遺伝子配列（６５Ｖβセグメント、２Ｄβセグメント及び１３Ｊβセグメントを含む）を取り出した。公知の天然配列との相同性を除去するために、それぞれのセグメントまたはイントロン配列を単独でシャッフルし、ＢＩＯＭＥＤ−２研究（ｖａｎＤｏｎｇｅｎ，Ｊ．Ｊ．ｅｔａｌ．Ｌｅｕｋｅｍｉａ１７、２２５７−３１７（２００３））に用いられるプライマー配列と相補的な配列は除外された。図１３に示したとおり、その後、シャッフルされたセグメント及びフランキングイントロン配列を再アセンブルし、人工染色体上のＴＣＲβ遺伝子座を組み入れた。

人工ＴＣＲβ遺伝子座に、その後、以下のとおり、Ｖ（Ｄ）Ｊ組み換えのＴ細胞分化及び体細胞超変異中に生じる生物学的プロセスの単純化したシミュレーションを受けさせ、ＴＣＲβクローンを生成した。成人健康男性内で事前に同定されランダムで選択されたＴＣＲβクロノタイプに対応するＶβ、Ｄβ及びＪβセグメントの選択及び連結によって、Ｖ（Ｄ）Ｊ組み換えをシミュレートした（Ｚｖｙａｇｉｎ，Ｉ．Ｖ．ｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１１１、５９８０−５（２０１４））。成人健康男性にみられるＴＣＲβクロノタイプ中のランダムで選択された挿入及び欠失に基づく頻度で、ジャンクションでのヌクレオチドの挿入または欠失によって体細胞超変異をシミュレートした（Ｚｖｙａｇｉｎ，Ｉ．Ｖ．ｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１１１、５９８０−５（２０１４））。この方法ののちに、１５の人工ＴＣＲβクロノタイプが生成された。

もう１つの例では、人工染色体上にＴＣＲγ座を生成し、ＶＪ組み換えをモデル化し、人工ＴＣＲβクロノタイプのスイートを生成した。最初に、ヒトゲノム（ｈｇ１９）から１０Ｖγセグメント、５Ｊγセグメント及び２Ｃγセグメント及びフランキングイントロン配列を取り出した。公知の天然配列との相同性を除去するために、それぞれのセグメントまたはイントロン配列を単独でシャッフルし、ＢＩＯＭＥＤ−２研究（ｖａｎＤｏｎｇｅｎ，Ｌａｎｇｅｒａｋｅｔａｌ．２００３）に用いられるプライマー配列と相補的な配列は除外された。図１２に示したとおり、シャッフルされた配列及びフランキングイントロン配列を再アセンブルし、人工ＴＣＲγ遺伝子座を形成した。次に、人工Ｖγセグメント及びＪγセグメントをランダムで選択し、結合することによって、Ｔ細胞分化中に生じるＶγＪγ体細胞組み換えの多様化プロセスをモデル化し、一定の範囲のＴＣＲβクロノタイプを生成した。例えば、Ｖγ４セグメントをＪγ１セグメントに結合し、Ｖγ４Ｊγ１クローン（配列番号：２０３）を形成した。この方法ののちに、１５人工ＴＣＲＧＶγＪγクローン（配列番号：２０３−２１９）が生成された。

実施例１１：
人工染色体中のＲ＿１＿２＿Ｒ遺伝子の典型であるＲＮＡスタンダード配列の１つの例を実施した。実施例２に記載された方法を用いて、Ｒ＿１＿２＿Ｒ遺伝子座を人工染色体に組み入れた。その後、図３に示したとおり、Ｒ＿１＿２＿Ｒ遺伝子の１３−エキソン配列を一緒に結合し、連続１，３１０ｎｔ配列（配列番号：３）を形成し、同時に介在する１２イントロン配列を除去した。追加の約１００ヌクレオチドポリアデニントラクトをＲ＿１＿２＿ＲｍＲＮＡ配列の３’末端に付加した。シミュレートしたシーケンスリードを用いてＲ＿１＿２＿Ｒスタンダードの典型であるＲＮＡスタンダードの性能を評価した。Ｓｈｅｒｍａｎソフトウエアを用いて、Ｒ＿１＿２＿Ｒ配列（配列番号：３）からの１，０００ペアエンド１２５−ｎｔリードをシミュレートした。その後、以下のパラメータで、Ｔｏｐｈａｔ２ソフトウエア（Ｋｉｍ，Ｐｅｒｔｅａｅｔａｌ．２０１３）を用いてシミュレートしたリードを人工染色体にアラインした。
＞ｔｏｐｈａｔ２ｃｈｔ＿ｉｎｄｅｘｓｉｍｕｌａｔｅｄ＿ｒｅａｄｓ．Ｒ１．ｆｑｓｉｍｕｌａｔｅｄ＿ｒｅａｄｓ．Ｒ１．ｆｑ

１，０００リードすべてが一意に及び正確にＲ＿１＿２＿Ｒ遺伝子にアラインされたことがわかった。シミュレートしたリードが正確にスプリットされ、１２イントロン及び１３すべてにアラインされたことがわかり、Ｒ＿１＿２＿Ｒスタンダードの有用性が確認された。

実施例１２：
人工Ｒ＿１＿２遺伝子の別のスプライスｍＲＮＡアイソフォームの典型であるＲＮＡスタンダードの１つの例を実施した。Ｒ＿１＿２＿Ｖ配列は、人工染色体に含まれ、上記の実施例１１に記載されたＲ＿１＿２＿Ｒ配列への別のスプライスアイソフォームを含む。Ｒ＿１＿２＿Ｖアイソフォーム配列は、隣接１，３１０ｎｔ配列（配列番号：４）を形成する１２のエキソンを含むと同時に介在する１１のイントロン配列は、除去される。図３に示したとおり、Ｒ＿１＿２＿Ｖスタンダード配列は、別のアイソフォームＲ＿１＿２＿Ｒスタンダードと共通した１１エキソンを有することを明記する。しかし、それは、エキソン（４）を欠失し、追加の２つのエキソン（５及び６）を含有する。それゆえ、Ｒ＿１＿２人工遺伝子の別のスプライシングによって、Ｒ＿１＿２＿Ｒ及びエキソン４が除外されエキソン５及び６を含有するＲ＿１＿２＿ＶＲＮＡスタンダードモデルを比較する。

実施例１３：
Ｒ＿１＿２＿Ｒ遺伝子の成熟ｍＲＮＡ配列の典型であるＲＮＡスタンダードを生成するために、ＲＮＡスタンダードの製造の１つの例を実施した。市販のサービス（ＴｈｅｒｍｏＦｉｓｈｅｒＧｅｎｅＡｒｔ）を用いて、ＤＮＡ分子としてＲ＿１＿２＿Ｒ配列（配列番号：３）を最初に合成した。図１４に示したとおり、エレメントの以下の順序で：（ｉ）ＳＰ６プロモーター（ｉｉ）Ｒ＿１＿２＿Ｒ遺伝子配列（ｉｉｉ）約５０ヌクレオチドポリ−アデニン配列及び（ｉｖ）ＥｃｏＲ１制限部位、当該配列をｐＭＡ発現プラスミドに挿入した。当該プラスミドを変換し、Ｅ．ｃｏｌｉで培養した。ＱＩＡｐｒｅｐＳｐｉｎＭｉｄｉｐｒｅｐ（Ｃａｔ＃１２９４５）を用いて当該プラスミドを精製した。プラスミドクローンは、上記の配列要素の精度、挿入及び配向を確認するためにシーケンスされたＳａｎｇｅｒであった。その後、ＥｃｏＲ１制限エンドヌクレアーゼによる消化によって当該プラスミドを線状化した。次に、ｉｎｖｉｔｒｏＲＮＡ合成反応のテンプレートとして当該プラスミドを用いて、合成ＲＮＡポリヌクレオチドスタンダードを生成し、その後、これをＱＩＡｑｕｉｃｋｃｏｌｕｍｎ（ＱＩＡＧＥＮ）で精製した。ＢｉｏＡｎａｌｙｚｅｒＲＮＡＣｈｉｐ（Ａｇｉｌｅｎｔ）を用いてＲＮＡスタンダードのアリコットを分析し、予測される完全長転写及び濃度を確認した。その後、精製したＲＮＡスタンダードを必要な濃度に希釈した。

実施例１４：
複数のＲＮＡスタンダードの異なる混合物を生成する方法の１つの例を実施した。最初に上記の実施例１１及び１３に記載されたとおり、人工染色体中でコードされる３０の遺伝子の典型であるＲＮＡスタンダードを製造した。表１に示したとおり、３０のＲＮＡスタンダードを１０群（それぞれの群は、３つのＲＮＡスタンダードからなる）に分けた。１０群間で３倍連続滴定を実施し、最少及び最大群間の存在量が１０⁶倍の範囲に及ぶ。その後、異なる相対的存在量で３０のＲＮＡスタンダードを混合し、混合物を形成した。それゆえ、当該混合物は、ＲＮＡ存在量の定量的スケールまたはラダーを含む異なる濃度の逐次的範囲で３０の異なるＲＮＡスタンダードを含む。このＲＮＡスタンダードのコレクションを混合物Ａと称した。

次に、異なる範囲の存在量で同じ３０ＲＮＡスタンダードをアセンブルし、表１に示したとおり、異なる混合物を形成し、混合物Ｂと称した。混合物Ｂ中のＲＮＡスタンダードの存在量は、ＲＮＡスタンダードの存在量間の対ごとの比較で、混合物Ａ及び混合物Ｂ間のＲＮＡスタンダードの存在量が０、２倍または４倍増大または減少を示す量である。ＲＮＡスタンダード存在量の変化のこの差は、天然遺伝子集団とほぼ同じであり、遺伝子発現の変化をエミュレートするのにこれを用いることができる。

実施例１５：
複数の別のスプライスＲＮＡスタンダードの異なる混合物を生成する方法の１つの例を実施した。最初に実施例１３に記載された方法を用いて６０ＲＮＡスタンダード（配列番号：１−６２）を製造した。上記の実施例１２に記載されたとおり、互いに共有し、エキソン配列含有率が異なる２つの別のアイソフォームを含む対としてＲＮＡスタンダードを構成した。

３０対のＲＮＡスタンダードを混合し、２つの別の３倍連続希釈とし、混合物Ａ及びＢを形成し、別のアイソフォームＲＮＡスタンダード間の存在量の対ごとの比較が、１倍、２倍及び３倍の変化（表１に示した）に相当するようにした。例えば、混合物Ａ中に１５，０００アトモル／ｕｌでＲ＿１＿２＿Ｒ及び５，０００アトモル／ｕｌでＲ＿１＿２＿Ｖを添加し、混合物Ｂ中に１，２５０アトモル／ｕｌでＲ＿１＿２＿Ｒ及び３，７５０アトモル／ｕｌでＲ＿１＿２＿Ｖを添加した。これは、混合物Ａ及びＢ間のＲ＿１＿２遺伝子発現の４倍変化に相当し、また、個々のＲ＿１＿２＿Ｒ及びＲ＿１＿２＿Ｖアイソフォーム間の相対濃度の３倍変化に相当し、これにより、Ｒ＿１＿２遺伝子の別のスプライシングをエミュレートする。混合物間のアイソフォーム存在量の差を天然遺伝子集団の別のスプライシングと比較することができる。

実施例１６：
以下のとおり、融合遺伝子の典型であるＲＮＡスタンダードの１つの例を実施した。（ｉ）Ｂ１遺伝子配列（配列番号：１３６）（ｉｉ）Ａ１遺伝子配列（配列番号：１３５）及び（ｉｉｉ）Ｂ１エキソン１〜１３配列及びＡ１エキソン２〜１１配列（配列番号：１３７）とマッチするＢ１ｆＡ１遺伝子、とマッチするようにＲＮＡスタンダードを製造した。実施例１３に前述の方法を用いてＲＮＡスタンダードを製造した。

実施例１７：
６，９７４，４８６〜６，９７５，５９３ヌクレオチド間の人工染色体配列の典型であるようにＤＮＡスタンダードの製造の１つの例を実施した。最初に市販のサービス（ＴｈｅｒｍｏＦｉｓｈｅｒＧｅｎｅＡｒｔ）で、１，１２２ｎｔＤＮＡスタンダード配列（配列番号：６３）及び２つのフランキングＳａｐ１制限部位（ＧＣＴＣＴＴＣ）をＤＮＡ分子に合成した。その後、図１４に示したとおり、当該配列を高コピープラスミド（ｐＭＡ）にクローン化した。それぞれのプラスミドをＥ．ｃｏｌｉ培養物中で成長させ、ＱＩＡｐｒｅｐＳｐｉｎＭｉｄｉｐｒｅｐ（Ｃａｔ＃１２９４５）を用いて調製した。ＱＩＡｑｕｉｃｋカラム（ＱＩＡＧＥＮ）を用いてＤＮＡプラスミドを精製し、ストックを含むようにスタンダード濃度に希釈した。プラスミドクローンをＳａｎｇｅｒシーケンスし、プラスミドへの正確な配列及び挿入を確認した。ＰＣＲ（Ｄ＿１＿１＿Ｒ配列の末端でプライマー対を用いることがＤＮＡスタンダードを増幅するのに用いられる）または制限ダイジェスト（フランキングＳａｐ１部位の下流のＳａｐ１制限エンドヌクレアーゼ切断５／６ｎｔを用いて、切断後に末端に付加ヌクレオチドを残さず、Ｄ＿１＿１＿ＲスタンダードＤＮＡ分子を切除することができる）によるＤＮＡスタンダード合成のテンプレートとしてストックプラスミドを用いた。合成後に、Ａｇｉｌｅｎｔ２１０００ＢｉｏａｎａｌｙｓｅｒでＤ＿１＿１＿Ｒスタンダードのアリコットを分析し、当該スタンダードの予測される完全長サイズ及び濃度を確認した。その後、精製したＤＮＡスタンダードを必要な濃度に希釈する。

実施例１８：
複数のＤＮＡスタンダードの異なる混合物を生成する方法の１つの例を実施した。上記の実施例１７に記載された方法を用いて人工染色体配列とマッチする３０のＤＮＡスタンダードを製造した。ＤＮＡスタンダードを１０群に分け、それぞれが３つのＤＮＡスタンダードからなる。それぞれの群の３倍連続希釈（すなわち、３つのＤＮＡスタンダードが同じ濃度を有する）をアセンブルし、これにより、ＤＮＡスタンダードの最少及び最大群間の濃度が１０⁶倍の範囲に及ぶ（表５に示した）。この範囲の濃度のＤＮＡスタンダードの組み合わせは、混合物Ａと称される。これにより、この混合物は、ＤＮＡ存在量の定量的スケールまたはラダーを提供する。次に、異なる範囲の濃度で同じ３０のＤＮＡスタンダードをアセンブルし、表５に示したとおり、別の混合物Ｂを形成した。混合物Ｂ中の各ＤＮＡスタンダードの存在量は、ＤＮＡスタンダードの存在量間の対ごとの比較で、混合物Ａ及び混合物Ｂ間のＤＮＡスタンダードの存在量が０、２倍または４倍増大または減少を示す量である。混合物間のＤＮＡスタンダード存在量のこの変化は、天然ＤＮＡ配列とほぼ同じであり、ＤＮＡ存在量の倍数変化を測定する定量的スケールまたはラダーを含む。

実施例１９：
単一の、より大きな、または「結合された」ＤＮＡスタンダードを生成するために複数のＤＮＡスタンダードを結合する方法の１つの例を実施した。結合されたＤＮＡスタンダードが、上記の実施例１７に記載された方法を用いて生成される複数の個々のＤＮＡスタンダードを含む。例えば、結合されたＤＮＡスタンダードＡが、Ｄ＿１＿１＿Ｒの１コピー；Ｄ＿１＿２＿Ｒの２コピー；Ｄ＿１＿３＿Ｒの３コピー、Ｄ＿１＿４＿Ｒの４コピー；Ｄ＿１＿５＿Ｒの５コピー；Ｄ＿１＿６＿Ｒの６コピーを含む。また、図１６に示したとおり、１（Ｄ＿１＿１＿Ｒ）及び６（Ｄ＿１＿６＿Ｒ）間でコピー数を変えることが、個々のＤ＿１＿１＿Ｒ及びＤ＿１＿６＿Ｒスタンダード間の存在量の６倍の増大に相当することを明記する。表７．に示したとおり、このアプローチを用いて、計９０の個々のＤＮＡスタンダードからアセンブルした１５の結合されたＤＮＡスタンダード（Ａ〜Ｏ）を構成した。それゆえ、それぞれの結合されたＤＮＡスタンダードが、１倍〜６倍の相対的コピー数で６つの個々のＤＮＡスタンダードを含む。

以下のとおり、異なるコピー数（Ｄ＿１＿１＿Ｒの１コピー；Ｄ＿１＿２＿Ｒの２コピー；Ｄ＿１＿３＿Ｒの３コピー）で個々のＤＮＡスタンダードを結合されたＤＮＡスタンダードにアセンブルした。最初に、個々のＤＮＡスタンダードをｐＵＣ１９ベクターにクローン化した。ジャンクション領域で２０−ｂｐオーバーラップを有するオリゴヌクレオチドプライマーを用いてＰＣＲ増幅を実施した。製造者の指示書に従ってＧｉｂｓｏｎＡｓｓｅｍｂｌｙＭａｓｔｅｒＭｉｘ（ＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ、Ｉｐｓｗｉｃｈ、ＭＡ）を用いて得られたＰＣＲアンプリコンを一緒に連結した。簡潔にいうと、０．０６２ｐｍｏｌのベクターフラグメント、０．１８７ｐｍｏｌの５つの挿入フラグメント及び１０ｕｌのＧｉｂｓｏｎＡｓｓｅｍｂｌｙＭａｓｔｅｒＭｉｘ（２ｘ）で、６つのフラグメントＧｉｂｓｏｎアセンブリを設定し、２０ｕｌの最終容積とした。５０℃で２時間、最終Ｇｉｂｓｏｎアセンブリをインキュベートした。以下のインキュベーション後に、次の変換及びプラスミド精製のために−２０℃で試料を保管した。Ｓａｎｇｅｒシーケンシングを用いて、結合されたＤＮＡスタンダード挿入配列を確認した。

結合されたＤＮＡスタンダードを逓増相対濃度で滴定し、混合し、表７に示したとおり、存在量の１５倍の増大を包含する混合物Ｃを生成した。

実施例２０：
人工染色体間の遺伝的変動の典型であるＤＮＡスタンダードの１つの例を実施した。実施例５に前述のとおり、人工染色体間に遺伝的変動を組み入れることができる。上記の実施例１７に記載された方法によって、等しい長さ（１０００ｎｔ）の人工染色体配列の領域とマッチする３２対のＤＮＡスタンダード（配列番号：６３〜１３４）を製造した。それぞれの対が、「参照」染色体（＿Ｒで表される）または変異人工染色体（＿Ｖで表される）のいずれかとマッチする２つのＤＮＡスタンダードを含む。例えば、ＤＮＡスタンダード対；変異対立遺伝子（Ｄ＿１＿１＿Ｖと称される；配列番号：６４）とマッチする一方のＤＮＡスタンダード及び上記の実施例２０に記載された参照Ｄ＿１＿１＿Ｒスタンダード（配列番号：６３）とマッチする他方のＤＮＡスタンダードを生成した。図６に示したとおり、Ｄ＿１＿１＿Ｖスタンダード配列は、４ＳＮＰ、１２ｎｔ欠失、６ｎｔ挿入及び３３ｎｔ欠失を含む７部位でＤ＿１＿１＿Ｒスタンダード配列と異なる。可能な場合、変動の部位の上流及び下流に隣接する２００ｎｔ配列が、また、シーケンシングエッジ効果のインパクトを最少化するＤＮＡ配列中にある。全体で、上記の実施例１７に記載されたとおりの方法を用いて、２５２ＳＮＰ、挿入または欠失５０ｎｔ未満（ＤＮＡスタンダードごとに５〜８のＳＮＰ、挿入または欠失）を含有する３０のＤＮＡスタンダード対を製造した。

実施例２１：
遺伝的変動の典型であるＤＮＡスタンダードの異なる混合物を生成する方法の１つの例。実施例２０に記載されたとおり、遺伝的変動の典型であるＤＮＡスタンダード対の相対的存在量を変えることによって、異なる倍数体遺伝子型を示すことができる。最初に異なる存在量で３０のＤＮＡスタンダード対を添加し、表５に示したとおり、混合物Ａを形成し、その結果、ＤＮＡスタンダード対間の対ごとの比較が、変異及び参照ＤＮＡスタンダード間の変異全体の相対的存在量の変化が等しい、３倍、９倍、及び３０倍のものを示す。変動型及び参照ＤＮＡスタンダード間の相対的存在量のこの変化が、倍数体ゲノム中のホモ接合体、ヘテロ接合体、及び不均一変動のモデル化を可能にする。例えば、参照及び変異人工染色体の典型であるＤＮＡスタンダードの等しい濃度が、ヒトなどの倍数体生物中のヘテロ接合体遺伝子型の典型である。ＤＮＡスタンダードの異なる相対濃度は、定量的差を測定するためのスケールまたはラダーを確立することができる。次に、異なる範囲の存在量で同じ３０のＤＮＡスタンダード対をアセンブルし、表５に示したとおり、異なる混合物を形成し、混合物Ｂと称した。混合物Ｂ中のＤＮＡスタンダードの存在量は、参照及び変動型ＤＮＡスタンダードの相対的存在量間の対ごとの比較で、混合物Ａ及び混合物Ｂ間の遺伝的変動の存在量の一定の範囲の倍数変化を示す量である。この変異存在量の変化の差が、ＤＮＡ試料間の対立遺伝子頻度の変化とほぼ同じである。

実施例２２：
特定の疾患関連遺伝的変動の典型であるＤＮＡスタンダードの１つの例を実施した。実施例６に前述の参照及び変異人工染色体に対応する２つのＤＮＡスタンダードを生成した。それゆえ、参照ＤＮＡスタンダードは、参照配列（Ｑ１３９ｆｓのＴ及びＶ６００ＥのＴ；配列番号：１３８）とマッチし、変動型ＤＮＡスタンダードは、疾患関連遺伝的変動（Ｑ１３９ｆｓのＴＧ及びＶ６００ＥのＡ；配列番号：１３９）とマッチした。実施例１７に前述のとおり、ＤＮＡスタンダードを製造した。

等しい存在量でＤＮＡスタンダードを混合し、これにより、単一のＴＰ５３Ｑ１３６ｆｓ及びＢＲＡＦＶ６００Ｅ変異及び単一の野生型対立遺伝子を有するヘテロ接合体遺伝子型をエミュレートする。上記の実施例２１に記載されたとおり、参照ＤＮＡスタンダードに対する１０倍連続希釈によって変異ＤＮＡスタンダードの連続希釈を生成した。これにより、ＤＮＡ試料の逓増部分母集団が変異対立遺伝子を有する不均一対立遺伝子頻度をエミュレートすることができる。

参照及び変異（変異を含有する）ＤＮＡスタンダードの異なる混合物を含有するライブラリーで次世代シーケンシング（ＩｌｌｕｍｉｎａＨｉＳｅｑ４０００）を実施した。その後、以下のとおり、シーケンスリードを分析した。
１．ＢＷＡを用いてシーケンスリードをヒトゲノムにアラインした；
２．Ｐｉｃａｒｄツールを用いてアライメントを処理した；
３．ＧｅｎｏｍｅＡｎａｌｙｓｉｓＴｏｏｌＫｉｔ（ＧＡＴＫ）を用いて変異を同定した。
変異の双方（ヘテロ接合体混合物からの例のｏｕｔｐｕｔ．ｖｃｆｆｉｌｅから取った結果）を同定した：
ｐ５３フレームシフト変異
Ｂ５＿Ｒ３００．ＴＴＧ９６２．７３．＼
ＡＣ＝１；ＡＦ＝０．５００；ＡＮ＝２；ＢａｓｅＱＲａｎｋＳｕｍ＝１．７８０；ＣｌｉｐｐｉｎｇＲａｎｋＳｕｍ＝０．００８；＼
ＤＰ＝６０；ＦＳ＝２．２５０；ＭＬＥＡＣ＝１；ＭＬＥＡＦ＝０．５００；ＭＱ＝６０．００；ＭＱ０＝０；＼
ＭＱＲａｎｋＳｕｍ＝０．４７２；ＱＤ＝１６．０５；ＲｅａｄＰｏｓＲａｎｋＳｕｍ＝−０．００８；ＳＯＲ＝０．４３０＼
ＧＴ：ＡＤ：ＤＰ：ＧＱ：ＰＬ０／１：２４，３２：５６：９９：１０００，０，６７７（ＧＴ０／１がヘテロ接合体対立遺伝子を示し、０は、参照対立遺伝子であり、１は、変異対立遺伝子である）
ＢＲＡＦＶ６００Ｅ変異
Ｂ５＿Ｒ６０２．ＴＡ１３０．７７．＼
ＡＣ＝１；ＡＦ＝０．５００；ＡＮ＝２；ＢａｓｅＱＲａｎｋＳｕｍ＝０．３０６；ＣｌｉｐｐｉｎｇＲａｎｋＳｕｍ＝０．１８４；＼
ＤＰ＝１５；ＦＳ＝０．０００；ＭＬＥＡＣ＝１；ＭＬＥＡＦ＝０．５００；ＭＱ＝６０．００；ＭＱ０＝０；＼
ＭＱＲａｎｋＳｕｍ＝−０．４２９；ＱＤ＝８．７２；ＲｅａｄＰｏｓＲａｎｋＳｕｍ＝０．１８４；ＳＯＲ＝１．０２２＼
ＧＴ：ＡＤ：ＤＰ：ＧＱ：ＰＬ０／１：１０，５：１５：９９：１５９，０，３６４

この例は、異なるホモ接合体、ヘテロ接合体及びより低い変異体対立遺伝子頻度で合成ＤＮＡスタンダード上に表された臨床的に重要な変異の同定を示す。これは、倍数体ヒトゲノム中のヘテロ接合体対立遺伝子の典型であるように当該スタンダードの混合物が用いられる１つの例を提供する。ここでモデル化された変異（ＢＲＡＦＶ６００Ｅ変異）には、重要な臨床的意義があり、臨床診断の分野での本校正方法の価値を示している。

実施例２３：
大規模な遺伝的変動の典型であるＤＮＡスタンダードの１つの例を実施した。実施例７に記載されたとおり、人工染色体に事前に組み入れた構造的変動の１２例とオーバーラップしているＤＮＡスタンダードを製造した。それぞれのＤＮＡスタンダードでは、シーケンシング及びアセンブリに影響を及ぼす可能性がある末端効果を阻止するように、少なくとも６００ｎｔの上流及び下流フランキング配列が含まれた。実施例１７に前述のとおり、ＤＮＡスタンダード対を製造し、異なる相対的存在量で混合し、実施例２１に記載された方法を用いて異なる遺伝子型をモデル化する混合物を形成することができる。

実施例２３．１：
コピー数変動の典型であるＤＮＡスタンダードの１つの例を実施した。上記の実施例７の人工染色体に組み入れた人工Ｄ４Ｚ４反復アレーとオーバーラップしている６のＤＮＡスタンダード（配列番号：１６７〜１７２）を生成した。図３３に示したとおり、それぞれのＤＮＡスタンダードは、長さが計１，６００ｎｔであり、（ｉ）単一のＤ４Ｚ４反復コピーおよそ８００ｎｔ長（ｉｉ）半反復コピーとマッチする４００ｎｔ上流配列（ｉｉｉ）半反復コピーとマッチする４００ｎｔ下流配列を含む。それぞれのＤＮＡスタンダード間で識別するために、ＤＮＡ配列中に６の「バーコード」ヌクレオチド配列（ＡＧＣＴＡ、ＣＧＡＴＣ、ＣＡＣＴＧ、ＴＣＡＧＣ、ＴＡＧＡＣ、及びＧＣＡＧＴ）の１つを含めた。それぞれの配列は、１つのＤＮＡスタンダード上に存在するだけであり、他の５つのＤＮＡスタンダード上に存在しないことを明記する。図１７に示したとおり、バーコードヌクレオチドは、ＤＮＡスタンダード配列内に４０ｎｔの介在する距離を有し、その結果、それぞれの１００ｎｔウインドウが、常にバーコード配列の少なくとも２つの例を含有する。

図３３に示したとおり、実施例１７に記載された方法を用いてそれぞれのＤＮＡスタンダードを製造し、以下の相対濃度；１０倍、１３倍、５０倍及び１５０倍でＤＮＡスタンダードを滴定した。これは、ＦＳＭＤ患者の９５％によって示された１０コピーから、影響を受けない個体の１００超のコピー（ｖａｎｄｅｒＭａａｒｅｌａｎｄＦｒａｎｔｓ２００５）までのヒト対象の実測Ｄ４Ｚ４コピー数の大部分（Ｓｃｈａａｐ，Ｌｅｍｍｅｒｓｅｔａｌ．２０１３）を包含する。このプロセスは、反復ＤＮＡ配列の異なるコピー数の典型であるＤＮＡスタンダードの混合物を生成した。

実施例２４：
微生物ゲノムコミュニティの典型であるＤＮＡスタンダードの１つの例を実施した。実施例９でアセンブルした人工微生物ゲノム内の選択された配列とマッチする１２のＤＮＡスタンダード（配列番号：１４９〜１６０）を生成した。ＤＮＡスタンダードの長さ及びＧＣ％が、人工微生物ゲノムの長さ及びＧＣ％と比例し、それゆえ典型的であるように微生物ゲノム配列を選択した。これは、表９に示し、図１０に示した。例えば、人工「Ｅｎｔｅｒｏｃｏｃｃｕｓｆａｅｃａｌ様」ゲノムは、３．２Ｍｂであり、平均３８％ＧＣ含有率を有する。比較によって「Ｅ．ｆａｅｃａｌｉｓ様」ゲノムとマッチする典型的なＤＮＡスタンダードＭＧ＿１（配列番号：１４９）は、２．２ｋｂ長さ（全ゲノムの長さの６．８７５％）及び３８％ＧＣ含有率を有し、これにより、比例して「Ｅ．ｆａｅｃａｌｉｓ様」ゲノムの長さ及びＧＣ含有率の典型となる。実施例１７に前述のとおり、ＤＮＡスタンダードを製造した。１２のＤＮＡスタンダードを４つの群に構成し、１０倍連続希釈の濃度でそれぞれの群を混合し、１０⁴倍の範囲の濃度を包含する混合物を形成した。

実施例２５：
哺乳動物免疫グロブリン配列多様性の典型であるＤＮＡスタンダードの１つの例を実施した。実施例１０に記載された方法を用いて生成された人工ＴＣＲβＶＤＪクロノタイプ配列とマッチした長さ７５０ｎｔの１５のＤＮＡスタンダードを生成した。図１３に示したとおり、ＤＮＡスタンダードは、ＢＩＯＭＥＤ−２プライマー、ならびに介在するＶ、Ｊ及びＤセグメントと相補的な配列とオーバーラップする。実施例１７に前述のとおり、ＤＮＡスタンダードを製造した。ＤＮＡスタンダードを５つの群（すなわち、群ごとに３つのスタンダード）に構成し、１０倍連続希釈の濃度でそれぞれの群を混合し、１０⁵倍の範囲の濃度を包含する混合物を形成した。このダイナミックレンジは、健康試料（Ｚｖｙａｇｉｎ，Ｐｏｇｏｒｅｌｙｙｅｔａｌ．２０１４）にみられ、また、微小残存疾患（Ｌｏｇａｎ，Ｇａｏｅｔａｌ．２０１１）などの疾患状態にみられるヒトクロノタイプ分布プロファイルに及ぶ。

もう１つの例では、実施例１０に記載された人工ＴＣＲＧＶＪクロノタイプ配列の典型であるＤＮＡスタンダードを生成した。実施例１０で生成された人工ＴＣＲＧＶγＪγクロノタイプ配列とマッチした長さ７５０ｎｔの１５のＤＮＡスタンダード（配列番号：１８６〜２０２）を生成した。図１２に示したとおり、ＤＮＡスタンダードは、ＢＩＯＭＥＤ−２プライマー、ならびに介在するＶ、及びＪセグメントと相補的な配列とオーバーラップする。実施例１７に前述のとおり、ＤＮＡスタンダードを製造し、混合し、上記のとおり、混合物を形成した。

実施例２６：
シーケンシングのために天然ＲＮＡ試料にＲＮＡスタンダードを添加する方法の１つの例を実施した。最初に、ＣｏｒｉｅｌｌＣｅｌｌＲｅｐｏｓｉｔｏｒｉｅｓ成長プロトコール及び標準に従ってＫ５６２細胞を培養した。簡潔にいうと、５％ＣＯ２下で、３７℃で１０％胎児ウシ血清（ＦＢＳ）を補ったＲＰＭＩ１６４０培地（Ｇｉｂｃｏ（登録商標））中でＫ５６２細胞を培養した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、Ｋ５６２細胞から全ＲＮＡを抽出した。次に、それぞれの試料にＴＵＲＢＯＤＮａｓｅ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＤＮａｓｅ処理を実施し、続いて、ＲＮＡＣｌｅａｎａｎｄＣｏｎｃｅｎｔｒａｔｏｒＫｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップを実施した。全ＲＮＡにＢｉｏＡｎａｌｙｚｅｒを実行し、完全性をチェックし、濃度を決定した。ライブラリー調製のためにＲＮＡ完全性数（ＲＩＮ）＞９．５のＲＮＡだけを用いた。

実施例１４及び表１に前述のとおり、混合物ＡとしてＲＮＡスタンダードを混合した。その後、ＲＮＡ混合物Ａに約１％総容積までＫ５６２全ＲＮＡ（ＮａｎｏＤｒｏｐ、ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃで測定されるとおり）を添加した。製造者の指示書に従ってＴｒｕＳｅｑＳｔｒａｎｄｅｄＴｏｔａｌＲＮＡＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ）を用いて、ｔｏｐｒｅｐａｒｅＲＮＡライブラリーを調製した。シーケンシングのために試料をプールする前に、調製したライブラリーをＱｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）で確認した。ＨｉＳｅｑ２５００装置（Ｉｌｌｕｍｉｎｅ）を用いて、１２５ｎｔペアエンド配列リードでシーケンシングを実施する。

実施例２７：
ＲＮＡスタンダードのアライメント及びアセンブリを評価する方法の１つの例を実施した。上記の実施例１１及び１３に記載されたとおりの方法を用いて、２つの別のアイソフォームを含む３０の遺伝子（全部で６０のＲＮＡスタンダード）とマッチするＲＮＡスタンダードを生成した。ＲＮＡスタンダードを等しい存在量に希釈し、等しい割合で混合し、混合物Ｃの等しい部分を形成した。その後、製造者の指示書に従ってＴｒｕＳｅｑＳｔｒａｎｄｅｄＴｏｔａｌＲＮＡＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ）を用いて、ＲＮＡスタンダード混合物Ｃから直接、ライブラリーを調製した。ＨｉＳｅｑ２５００（Ｉｌｌｕｍｉｎａ）装置で、１２５ｎｔペアエンドリードで試料をシーケンスする前に、調製したライブラリーをＱｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）で確認した。実施例２８に記載された方法を用いて配列リード（．ｆａｓｔｑ）ファイルを処理した。その後、以下のパラメータで、Ｔｏｐｈａｔ２を用いて配列リードを人工染色体（ｃｈｒＴ）にアラインした。
＞ｔｏｐｈａｔ２ｃｈｒＴ＿ｉｎｄｅｘＭｉｘｔｕｒｅＣ．Ｒ１．ｆｑＭｉｘｔｕｒｅＣ．Ｒ２．ｆｑ

実施例２８に記載された方法を用いて、得られたアライメント（．ｂａｍ）ファイルから、アライメント統計量（全及びスプリットアライメントの双方の）を決定した。特に、全ＲＮＡスタンダードは、十分な存在量があり、その結果、完全配列リード倍数カバレッジに達し、それゆえ、これは、配列倍数カバレッジが、非限定である場合、アライメントの評価を可能にする。この結果は、表２にまとめられている。特に、ＲＮＡスタンダード混合物Ｃから全リードアライメントの９８％感度、及びスプライスリードアライメントの０．９９％感度を決定する。さらに、欠失した１８イントロン及び１６エキソンを除いて、全遺伝子構造をアセンブルし、これにより、人工染色体にコードされる遺伝子座（及びアイソフォーム）とマッチするＲＮＡスタンダードの性能を確認した。

比較のため、また、上記に記載された同じ６０のＲＮＡスタンダードをシーケンスして生成されるシーケンスリードをシミュレートした。シミュレートしたリードの上記に記載されたとおりＲＮＡスタンダードから生成される実験に由来するリードとの比較により、アライメント及びアセンブリによる変数のインパクト（シミュレートしたリード及び実験に由来するリードの双方に影響を及ぼす）とライブラリー調製及びシーケンシングによる変数のインパクト（実験に由来するリードだけに影響を及ぼし、シミュレートしたリードに影響を及ぼさない）を識別することができる。

ＲＮＡＳｅｑＲｅａｄＳｉｍｕｌａｔｏｒ（ｈｔｔｐ：／／ａｌｕｍｎｉ．ｃｓ．ｕｃｒ．ｅｄｕ／〜ｌｉｗ／ｒｎａｓｅｑｒｅａｄｓｉｍｕｌａｔｏｒ．ｈｔｍｌ）ソフトウエアを用いて、通常、Ｉｌｌｕｍｉｎａシーケンシング技術（Ｂｏｌｏｔｉｎ，Ｍａｍｅｄｏｖｅｔａｌ．２０１２）のために報告されている１％エラー率を組み入れるＲＮＡスタンダードから生成される１２５−ｎｔペアエンドリードをシミュレートした。これは、ＨｉＳｅｑ２５００装置でスタンダードシーケンシングごとに．ｆａｓｔｑファイルを生成する。配列リードファイルを処理し、上記のとおり、アラインし、実施例２８に記載された方法を用いてアライメント統計量（全及びスプリットアライメントの双方の）を決定した。結果は、表２にまとめられている。特に、アライメントの９８％感度、及びスプライスアライメントの９９％感度がみられると同時に、最終アセンブリから６のイントロン及び８のエキソンを欠失している。

遺伝子座のアライメント及びアセンブリ結果と、シミュレートしたシーケンスリード及び実験に由来するシーケンスリードとの比較により、シーケンシング実験でのＲＮＡスタンダードの使用が確認される。特に、シミュレートしたリードは、ＲＮＡスタンダードのアライメント及びアセンブリのための実験に由来するシーケンスリードの性能を十分にまとめており、人工染色体の転写される特徴とマッチするＲＮＡスタンダードを設計し、モデル化し、分析するときの有用性を示す。

実施例２８：
ＲＮＡスタンダード及び天然ＲＮＡ試料ライブラリーからなるリードを人工染色体及び天然参照ゲノムにアラインする方法の１つの例を実施した。実施例２６に記載された方法を用いて生成された配列ファイル（．ｆａｓｔｑ）をデマルチプレックスした。製造者の指示書に従って、ｔｒｉｍ＿ｇａｌｏｒｅを用いて、配列ファイルから低クオリティリード及び配列またはアダプターコンタミ配列を除去した。（ｈｔｔｐ：／／ｗｗｗ．ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｂａｂｒａｈａｍ．ａｃ．ｕｋ／ｐｒｏｊｅｃｔｓ／ｔｒｉｍ＿ｇａｌｏｒｅ／）。

ヒトゲノム（ｈｇ１９）配列を人工染色体（ｃｈｒＴ）配列と連結し、単一のファイル（．ｆａｓｔａ）を形成した。その後、製造者の指示書に従って、ｂｏｗｔｉｅ−ｂｕｉｌｄを用いて、混合した配列ファイルからインデックスファイル（ｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）を生成した（ＬａｎｇｍｅａｄａｎｄＳａｌｚｂｅｒｇ２０１２）。次に、以下のパラメータでＴｏｐｈａｔ２（Ｋｉｍ、Ｐｅｒｔｅａｅｔａｌ．２０１３）を用いて、シーケンスリード（．ｆａｓｔｑ）をインデックスファイル（ｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）にアラインした。
＞ｔｏｐｈａｔ２ｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．／Ｋ５６２．Ｒ１．ｆｑ．／Ｋ５６２．Ｒ２．ｆｑ

このアプローチは、アライメントを誘導するために以前の遺伝子アノテーションを組み入れず、新しい遺伝子の発見及び転写産物のｄｅｎｏｖｏアセンブリに必要であることが多い。次に、以下に記載され、表２にまとめられたいくつかの計量に従って、シーケンスリードの人工染色体及び天然ゲノムへのアライメントを評価した。ゲノム／人工染色体へのリードは、人工染色体（ＣｈｒＴへのリード）及びヒトゲノム（Ｈｇ１９へのリード）にアラインするリードの数によって決定される。Ｋ５６２では、１，０９１，６８３リードを人工染色体にアラインし、６５，７７８，７９６リードをヒトゲノム配列にアラインした。

ゲノムに対する人工染色体にアラインするリードのフラクションから計算されるフラクション希釈が、試料ライブラリーに対するスタンダードの希釈を示す。Ｋ５６２試料では、ライブラリーの１．６３％が人工染色体にアラインし、６１倍の希釈係数を示す。

アライメント感度は、アライメント（真陽性）を有する人工染色体にコードされる遺伝子座の人工遺伝子塩基の数を人工遺伝子塩基の総数で割ったものと定義される。Ｋ５６２試料１では、０．８１のアライメント感度がみられる。

アライメント特異性は、アライメントを有する人工遺伝子塩基の数をアライメントを有する塩基の総数で割ったものと定義される。Ｋ５６２試料１では、０．８３のアライメント特異性がみられる。

スプライスアライメント感度は、正確なスプリットアライメントを有する人工遺伝子イントロンの数を人工遺伝子イントロンの総数で割ったものと定義される。Ｋ５６２試料では、０．８６のアライメント感度であり、図２２Ａに示されている。

スプライスアライメント特異性は、スプリットアライメントとマッチする人工遺伝子イントロンの数をユニークスプリットアライメントの数で割ったものと定義される。Ｋ５６２試料では、０．８５のアライメント特異性がみられる。

シーケンスされたライブラリー内で確実に検出されず、オーバーラップしているアライメントを有しない最大存在量のＲＮＡスタンダードに相当する検出限界が、図２４Ｄに示されている。０．００５アトモル／ｕｌ（検出されない最大存在量ＲＮＡスタンダードＲ＿８＿２（配列番号：４７、４８）に希釈係数をかけたもの）で検出の下限を決定する。この濃度以下である対応する５６２ＲＮＡ試料内のアイソフォームが、シーケンシングライブラリー内に表れない、またはここで検出されない可能性があり、ライブラリーシーケンシングが、全飽和に進まない。

実施例２９：
ＲＮＡスタンダードからのリードを人工遺伝子にアセンブルする方法の１つの例を実施した。デフォルトパラメータ：
＞ｃｕｆｆｌｉｎｋｓＫ５６２＿１＿ｍｉｘＡ．ｂａｍ
に従って、Ｃｕｆｆｌｉｎｋ２（Ｔｒａｐｎｅｌｌ，Ｗｉｌｌｉａｍｓｅｔａｌ．２０１０）を用いて、実施例２８に記載された方法によって生成されたアライメントファイル（．ｂａｍ）を完全長転写構造にアセンブルした。

人工染色体上で１０８の転写構造をアセンブルし、１つの例が図２３に示されている。これは、複数のフラグメント構造としてのいくつかのＲＮＡスタンダードの部分的アセンブリのため、ＲＮＡスタンダードの数（６０）より多いことを明記する。

アセンブリ性能を評価するために、デフォルトパラメータに従ってＣｕｆｆｃｏｍｐａｒｅ（Ｔｒａｐｎｅｌｌ、Ｗｉｌｌｉａｍｓｅｔａｌ．２０１０）を用いて、人工染色体上の公知の転写アノテーションに対してアセンブルした転写産物を比較した。全レベル（ヌクレオチド、エキソン、イントロン、転写、遺伝子）での人工遺伝子構造、及びアセンブリから欠失している人工エキソン、イントロン及び遺伝子のフラクションに関して、アセンブリの感度及び特異性に従って、転写アセンブリを評価した。さらに、遺伝子構造に関する感度及び特異性の測定値の詳細が、以前に記載されている（ＢｕｒｓｅｔａｎｄＧｕｉｇｏ１９９６）。本例のＫ５６２ＲＮＡ試料と混合した場合のＲＮＡスタンダードのアセンブリの結果は、表２にまとめられている。特に、人工染色体上の遺伝子アセンブリに基づいたこれらの測定値は、付随するＫ５６２ＲＮＡ試料中の転写産物のマッチしたｄｅｎｏｖｏアセンブリの評価を知らせる。

正確にアイソフォームをアセンブルすることができないのは、低存在量のＲＮＡスタンダードの不十分な配列カバレッジによる結果である可能性がある。これにより、正確にアセンブルすることができない最も多いＲＮＡスタンダードは、転写アセンブリの下限を示す。これは、エキソン、イントロン及び全アイソフォーム構造がアセンブルされている感度に関して、それぞれのアイソフォームの公知の濃度をグラフ化することによって、図２２Ａ及び図２２Ｂに示されている。この濃度以下で存在する付随するＫ５６２ＲＮＡ試料からの転写産物は、不十分に、または部分的にだけアセンブルされたものと予測される。

実施例３０：
ＲＮＡスタンダード存在量を定量化する方法の１つの例を実施した。最初に、実施例２６に記載された方法を用いて、ライブラリー調製及びシーケンシングのために、実施例１５の混合物Ａとして事前に調製したとおりのＲＮＡスタンダードを、３つの生物学的複写Ｋ５６２ＲＮＡ試料に添加した。

最初に、以下のパラメータでＴｏｐｈａｔ２（Ｋｉｍ、Ｐｅｒｔｅａｅｔａｌ．２０１３）を用いて、シーケンスリード（．ｆａｓｔｑ）をインデックスファイル（ｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）にアラインした。
＞ｔｏｐｈａｔ２ −Ｇａｎｎｏｔａｔｉｏｎｓ．ｇｔｆｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．／Ｋ５６２．Ｒ１．ｆｑ．／Ｋ５６２．Ｒ２．ｆｑ

このアプローチは、アライメントを誘導するために遺伝子アノテーションを使用する。アノテーションファイル（ａｎｎｏｔａｔｉｏｎｓ．ｇｔｆ）は、人工染色体上の遺伝子座のアノテーション、及びヒトゲノムのＧＥＮＣＯＤＥｖ１９（Ｈａｒｒｏｗ、Ｆｒａｎｋｉｓｈｅｔａｌ．２０１２）からの天然遺伝子アノテーションを含む。デフォルトパラメータに従ってＣｕｆｆｌｉｎｋ２（Ｔｒａｐｎｅｌｌ、Ｗｉｌｌｉａｍｓｅｔａｌ．２０１０）を用いて、ＲＮＡスタンダード及びヒト遺伝子アノテーションに対してアライメントファイル（．ｂａｍ）を定量化した。
＞ｃｕｆｆｌｉｎｋｓ −Ｇａｎｎｏｔａｔｉｏｎｓ．ｇｔｆＫ５６２＿１＿ｍｉｘＡ．ｂａｍ

２つのレベルで存在量を定量化することができる；それぞれの人工遺伝子（すなわち、混合したＤＮＡスタンダード対の双方）及びそれぞれのアイソフォーム（すなわち、それぞれのＤＮＡスタンダードアイソフォーム）の存在量を測定した。図２４ＡにＲＮＡスタンダードの定量を示すために、それぞれの人工遺伝子の公知の遺伝子濃度（アトモル／ｕｌで）に対して、測定された遺伝子存在量（ＲＰＫＭで）をグラフ化した。ＲＮＡスタンダードの実測存在量（ＮＧシーケンシングによって測定されるとおり）間で、予測存在量（混合物Ａに混合した場合、その公知の濃度に相当する）との相関（ピアソンのｒ）によって定量的精度を測定することができる。この例（３つの複写Ｋ５６２ＲＮＡ試料と混合したＲＮＡスタンダード混合物Ａ）では、相関が、０．９５である。図２４Ａに示された傾きは、増大の比例性（直線とフィットし、１／Ｙ²加重している非線形回帰から決定される）を測定する。これは、ＲＮＡスタンダードのダイナミックレンジで予測存在量と比較した実測値の線形比例性を示す。

この例では、傾きは、０．９１である。この結果は、表２にまとめられている。

ＲＮＡスタンダードが、定量化される精度は、シーケンシングカバレッジに依存しており、低シーケンシングカバレッジを有する低存在量ＲＮＡスタンダードの定量は、高存在量ＲＮＡスタンダードより変わり易い。これを示すために、図２２ＣのそれぞれのＲＮＡスタンダードの公知の濃度に対するそれぞれのＲＮＡスタンダードの定量的測定値の変動率（ＣＯＶ％）をグラフ化した。これは、０．１５３アトモル／ｕｌのＲＮＡスタンダードが、高変動９７．０７（ＣＶ％）の変動を有すると同時に、１，２５０アトモル／ｕｌの遺伝子が、３．２４（ＣＶ％）の低変動を示すことを示す。これは、ＲＮＡスタンダードの使用が、遺伝子存在量が測定される信頼度を評価することを示す。

図２４Ａに示したとおり、百万当たりキロベース当たりのリード（ＲＰＫＭ）でＮＧシーケンシングによって測定される天然遺伝子の存在量（付随するＲＮＡ試料中）をモルユニット中の濃度（アトモル／ｕｌ）に変換するのにＲＮＡスタンダードを使用することができる。例えば、付随するＫ５６２ＲＮＡ試料では、切断点クラスター領域遺伝子（ＢＣＲ）の発現を測定し、２０．９０６３ＲＰＫＭである。これは、同様に大量のＲＮＡスタンダードとの比較によって０．０１９アトモル／ｕｌの濃度に相当する。

実施例３１：
別のスプライシングを測定するためにＲＮＡスタンダードを用いる方法の１つの例を実施した。個々のアイソフォームの正確な定量は、他の別の同じ遺伝子座からのスプライスアイソフォームと共有される配列のレベルを変えることによって複雑化する。それゆえ、アイソフォーム定量の精度を評価するために、図２４Ｄに示したとおり、混合物Ａ（実施例１５で調製した）中のＲＮＡスタンダードの公知のアイソフォーム存在量（アトモル／ｕｌで）に対して、測定されたアイソフォーム存在量（ＲＰＫＭで）をグラフ化した。次に、Ｋ５６２ＲＮＡ試料を添加したアイソフォームＲＮＡスタンダードの相関０．９３（ピアソンのｒ）及び傾き０．８６を決定し、これにより、アイソフォーム定量の評価が提供された。この結果は、表２にまとめられている。

次に、別のスプライシングをエミュレートするプロセスで単一の共有される人工遺伝子座から生成される複数の個々のアイソフォームＲＮＡスタンダード間の相対的存在量を測定した。図２５Ａに示したとおり、対のアイソフォームの公知の相対的存在量と比較した対のアイソフォームの実測相対的存在量をグラフ化し、別のスプライシング事象が測定される定量的精度を示す。この試料では、Ｋ５６２ＲＮＡ試料に添加した混合物Ａ中のＲＮＡアイソフォーム対間の相関０．７６（ピアソンのｒ）及び傾き０．８４がみられる。この評価は、付随するＫ５６２ＲＮＡ試料中の天然遺伝子の別のスプライシングの分析を知らせる。

実施例３２：
複数のＲＮＡ試料間の差を測定するためにＲＮＡスタンダードを用いる方法の１つの例を実施した。最初に、ＣｏｒｉｅｌｌＣｅｌｌＲｅｐｏｓｉｔｏｒｉｅｓ成長プロトコール及び標準に従ってＧＭ１２８７８細胞を培養した。簡潔にいうと、５％ＣＯ２下で、３７℃で１０％胎児ウシ血清（ＦＢＳ）を補ったＲＰＭＩ１６４０培地（Ｇｉｂｃｏ）中でＧＭ１２８７８を培養した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、ＧＭ１２８７８細胞からＲＮＡを抽出した。実施例１４に前述のとおり、及び表１に示したとおり、混合物Ａ及び混合物ＢとしてＲＮＡスタンダードを調製した。ＲＮＡ混合物ＡをＫ５６２ＲＮＡ試料に添加し、ＲＮＡ混合物ＢをＧＭ１２８７８ＲＮＡ試料に添加し、最終試料の最終容積１％（ＮａｎｏＤｒｏｐ、ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃによって測定されるとおり）とした。実施例２６の上記に記載されたとおりの配列のライブラリーを調製した。上記の実施例２８〜３０に記載された方法を用いて、人工染色体及び参照ヒトゲノムで、付随するＧＭ１２８７８ＲＮＡ試料とＲＮＡスタンダード混合物Ｂのシーケンスされたリードファイル（．ｆａｓｔｑ）を分析した。結果は、表２にまとめられ、図２４Ｂ、Ｆに示されている。

次に、混合物Ａ（Ｋ５６２細胞試料との）及び混合物Ｂ（ＧＭ１２８７８細胞試料との）間のＲＮＡスタンダードの存在量の差を比較した。図２４Ｃに示したとおり、予測される倍数変化と比較して混合物Ａ及びＢ間の実測倍数変化をグラフ化し、表３に示した。予測される倍数変化及び実測倍数変化間に相関０．７０（ピアソンのｒ）及び傾き０．８８がみられ、ＲＮＡ存在量の差が付随するＲＮＡ試料間で測定される精度を示す。

次に、試料間のＲＮＡスタンダードの相対的アイソフォーム存在量の差を測定した。図２４Ｆ及び２５Ｂに示したとおり、混合物Ａ及び混合物Ｂ間のアイソフォーム存在量の予測される倍数変化に対する実測倍数変化をグラフ化した。この試料では、予測されるアイソフォーム倍数変化に対する実測値が相関０．７３（ピアソンのｒ）及び傾き０．７５（表３にまとめられた）を有し、別のスプライシングの差が付随するＲＮＡ試料間で測定される精度を示す。

アイソフォーム存在量の倍数変化が、定量的な別のスプライシング事象をエミュレートする。Ｒ＿１０＿２遺伝子を使用して、どのようにして当該スタンダードが別のスプライシングの倍数変化をエミュレートすることができるかを図２５Ｃに示す。Ｒ＿１０＿２遺伝子は、より長いアイソフォーム（＿Ｒ）またはより短いバージョン（＿Ｖ）を生成する第５のエキソンの別のスプライシングから生じる２つの異なるアイソフォームを含む。実施例２７に前述の方法によって生成されるシミュレートした配列リードによるカバレッジは、Ｒ＿１０＿２アイソフォームを正確にアセンブルすることができることを示す。Ｒ＿１０＿２遺伝子の典型であるスタンダードを混合物Ａ及びＢに添加し、その結果、（ｉ）遺伝子発現が５倍減少し、（ｉｉ）Ｒ＿１０＿２＿Ｖアイソフォームのアイソフォーム発現変化が相対的に３倍増大し、これに伴ってＲ＿１０＿Ｒアイソフォームが３倍減少した。これは、図２５Ｃに示したとおり、エキソン５で別のスプライシングの３倍変化をエミュレートする。次に、混合物Ａを有するＫ５６２細胞及び混合物Ｂを有するＧＭ１２８７８細胞間のＲ＿１０＿２アイソフォーム存在量の倍数変化を定量化し、図２５Ｃに示したとおり、遺伝子発現の４倍減少（遺伝子存在量の５倍と予測される倍数変化の過少推定である）及び相対的アイソフォーム存在量の３倍変化がみられた。この例は、どのようにしてアイソフォームＲＮＡスタンダードの変化する存在量が、ＲＮＡ試料間の別のスプライシング差をエミュレートすることができるかを示す。

ＲＮＡスタンダードの特定のサブセットに上記分析のものを制限することができる。例えば、図２６Ｂに示したとおり、４．８アトモル／ｕｌで、アセンブリのユーザー定義される閾値存在量限界を越えてＲＮＡスタンダードの別のスプライシングの精度を決定することができる。このＲＮＡスタンダードのサブセットが、全ＲＮＡスタンダードの平均より高い配列カバレッジを有するため、アイソフォーム定量のより正確な測定値（相関、傾き）がみられる。

実施例３３：
疾患及び正常ＲＮＡ試料間の差を校正するためにＲＮＡスタンダードを用いる方法の１つの例を実施した。Ｏｒｉｇｅｎｅから３つの正常ヒト肺試料及び３つの肺腺癌試料からの全ＲＮＡ試料を購入した（試料ＩＤ：ＣＲ５６０１４２、ＣＲ５５９１８５、ＣＲ５６０１２８、ＣＲ５６００８３、ＣＲ５６０１３５、ＣＲ５６１３２４；Ｒｏｃｋｖｉｌｌｅ、ＭＤ）。実施例２６に前述の方法を用いて、ＲＮＡスタンダード混合物Ａを１％総容積でそれぞれの肺腺癌試料に添加し、ＲＮＡ混合物Ｂを１％容積でそれぞれの肺正常ＲＮＡに添加した。以前に公開されたＥＲＣＣＲＮＡＳｐｉｋｅ−Ｉｎ（Ｃｏｎｓｏｒｔｉｕｍ２００５）との比較を可能にするために、また、製造者の指示書（ｔｏｏｌｓ．ｌｉｆｅｔｅｃｈｎｏｌｏｇｉｅｓ．ｃｏｍ／ｃｏｎｔｅｎｔ／ｓｆｓ／ｍａｎｕａｌｓ／ｃｍｓ＿０８６３４０．ｐｄｆ）に従って、ＥＲＣＣＳｐｉｋｅ−Ｉｎ混合物１をそれぞれの肺腺癌試料に添加し、ＥＲＣＣＳｐｉｋｅ−Ｉｎ混合物２をそれぞれの肺正常試料に添加した。上記の実施例２８〜３０に記載された方法を用いて、シーケンシングのライブラリーとして混合したＲＮＡ試料を調製し、分析した。結果は、表２にまとめられている。

次に、ＥＲＣＣＳｐｉｋｅ−Ｉｎ配列と本明細書に記載されたＲＮＡスタンダードの性能を比較した。製造者の指示書に従って、ＥＲＣＣＳｐｉｋｅ−Ｉｎのアライメント及び発現倍数変化を決定し、前述のとおり（実施例２８〜３０に）、ＲＮＡスタンダード及びＥＲＣＣＳｐｉｋｅ−Ｉｎの双方について、アライメント特異性及び感度、フラクション希釈、検出限界及びダイナミックレンジ、ならびに量的な精度（相関及び傾き）を測定した。ＥＲＣＣＳｐｉｋｅ−Ｉｎ及びＲＮＡスタンダード間の比較は、表２にまとめられている。

図２６Ａ、Ｂに、ＲＮＡスタンダード及びＥＲＣＣＳｐｉｋｅ−Ｉｎの双方の公知の存在量に対する予測値をグラフ化した。また、図２６Ｃに示したとおり、ＲＮＡスタンダード及びＥＲＣＣＳｐｉｋｅ−Ｉｎの双方の混合物間の倍数変化を比較する。

ＥＲＣＣスタンダードは、ＲＮＡスタンダード（０．８１）と比較してほぼ同じアライメント感度（０．８４）を示すが、ＲＮＡスタンダードと比較してより高い特異性（０．９９）を示す。ＥＲＣＣアライメントのこのより高い特異性は、単一のＲＮＡ配列だけを含むＥＲＣＣＳｐｉｋｅ−Ｉｎの結果である。本明細書に記載されたＲＮＡスタンダード、及び内因性ヒト遺伝子と異なり、ＥＲＣＣＳｐｉｋｅ−Ｉｎは、複数のエキソン及びイントロン配列を含まず、それゆえ、非スピリットリードをＥＲＣＣＳｐｉｋｅ−Ｉｎ配列にアラインすることだけができる。

次に、正常肺ＲＮＡ試料または肺腺癌ＲＮＡ試料内の癌（ＷｅｌｌｃｏｍｅＴｒｕｓｔＳａｎｇｅｒＣａｎｃｅｒＣｅｎｓｕｓ（Ｆｕｔｒｅａｌ，Ｃｏｉｎｅｔａｌ．２００４）によってキュレートしたとおり）が原因となって関係するヒト遺伝子の発現を定量化した。人工染色体上の遺伝子の４６４の遺伝子コーディネートのゲノムコーディネート（ＧＥＮＣＯＤＥｖ１９アノテーション（Ｈａｒｒｏｗ，Ｄｅｎｏｅｕｄｅｔａｌ．２００６）から）を連結し、単一のアノテーションファイル（ＣａｎｃｅｒＧｅｎｅｓ＿ＲＮＡｓｔａｎｄａｒｄｓ．ｇｔｆ）を形成した。その後、以下のパラメータでＣｕｆｆｄｉｆｆ（Ｔｒａｐｎｅｌｌ，Ｗｉｌｌｉａｍｓｅｔａｌ．２０１０）を用いて、癌遺伝子及びＲＮＡスタンダードの発現を測定した。
＞Ｃｕｆｆｄｉｆｆ −ｇＣａｎｃｅｒＧｅｎｅｓ＿ＲＮＡｓｔａｎｄａｒｄｓ．ｇｔｆ＼
ＬｕｎＧＣａｎｃｅｒ１．ｓａｍ，ＬｕｎＧＣａｎｃｅｒ２．ｓａｍ，ＬｕｎＧＣａｎｃｅｒ３．ｓａｍ＼
ＬｕｎｇＮｏｒｍａｌ１．ｓａｍ，ＬｕｎｇＮｏｒｍａｌ２．ｓａｍ，ＬｕｎｇＮｏｒｍａｌ３．ｓａｍ

その後、実施例２８〜３０に前述の方法を用いて、混合物Ａ（肺正常）及び混合物Ｂ（肺腺癌）中のＲＮＡスタンダードの遺伝子発現の差及び別のスプライシングの定量的精度を評価するために比較分析を実施した。結果は、表３にまとめられている。

ＲＮＡスタンダードの存在量の測定値に対する癌遺伝子の存在量の測定値をグラフ化し、どのようにして対応する癌遺伝子の濃度（アトモル／ｕｌで）を推測するのにＲＮＡスタンダードの実測存在量（ＲＰＫＭで）を用いることができるかを図２６Ｄに示した。

どのようにしてＲＮＡスタンダードが、付随するＲＮＡ試料中の個々の遺伝子の分析を知らせることができるかを示すために、ミニ染色体維持２（ＭＣＭ２）遺伝子の発現を考慮した。ＭＣＭ２は、細胞増殖のマーカー（Ｙａｎｇ、Ｒａｍｎａｔｈｅｔａｌ．２００６、ＳｉｍｏｎａｎｄＳｃｈｗａｃｈａ２０１４）であり、ＭＣＭ２発現の強化が以前に肺腺癌試料中で報告されている（Ｚｈａｎｇ、Ｇｏｎｇｅｔａｌ．２０１４）。それゆえ、正常試料及びマッチした腫瘍試料間のＭＣＭ２発現の倍数変化を正確に測定することが重要である。ＭＣＭ２は、複合スプライス構造（１６のエキソンを含む）を有し、それゆえ、ＲＮＡスタンダードを用いてうまくモデル化される。ＭＣＭ２が、肺正常試料中で約６３．０ＲＰＫＭの平均発現を示すが、肺腺癌試料中で２．０７倍（平均１７０．１ＲＰＫＭまで）に強化されていることを観測した。ＲＮＡスタンダードとの比較によって、１９．５３アトモル／ｕｌの濃度に相当するＭＣＭ２発現を決定する。特に、ほぼ同じ濃度（例えば、Ｒ＿６＿１及びＲ＿６＿２）のＲＮＡスタンダードが、不十分にアセンブリ及び定量化される。これは、付随する肺正常及び肺腺癌ＲＮＡシーケンシング間のＭＣＭ２発現の測定は、注意深く解釈しなければならないことを示唆している。

図２６Ｄに示された測定されたＲＮＡスタンダード存在量のグラフが、約０．００５６１５アトモル／ｕｌでの検出の限界を示唆している。癌遺伝子の４２．７％が、この検出の限界を越えており、さらなる分析に好適であることを観測する。このライブラリーは、飽和までシーケンスされないため、追加の癌遺伝子が、この検出の限界以下の濃度で存在する可能性がある、または正確に検出されない可能性がある遺伝子発現が変化する可能性があることを明記する。

実施例３４：
シーケンシングのためにマウスＲＮＡ試料にＲＮＡスタンダードを添加する方法の１つの例を実施した。最初に４ヶ月齢野生型スイスマウスからマウス肝臓組織を得た。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、マウス肝臓試料から全ＲＮＡを抽出した。次に、それぞれの試料にＴＵＲＢＯＤＮａｓｅ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＤＮＡｓｅ処理を実施し、続いて、ＲＮＡＣｌｅａｎａｎｄＣｏｎｃｅｎｔｒａｔｏｒＫｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップを実施した。全ＲＮＡにＢｉｏＡｎａｌｙｚｅｒを実行し、完全性をチェックし、濃度を決定した。ライブラリー調製のためにＲＮＡ完全性数（ＲＩＮ）＞９．５のＲＮＡだけを用いた。１％容積（ＮａｎｏＤｒｏｐ、ＴｈｅｒｍｏＦｉｓｃｈｅｒによって決定されるとおり）で、実施例１５の混合物Ａとして事前に調製したＲＮＡスタンダードをマウス肝臓ＲＮＡ試料に添加した。実施例２６に記載された方法を用いてＲＮＡ試料を調製し、シーケンスした。

次に、人工染色体（ｃｈｒＴ）配列をマウスゲノム（ｍｍ１０）配列と連結し、単一のファイル（．ｆａｓｔａ）を形成した。その後、製造者の指示書に従って、ｂｏｗｔｉｅ−ｂｕｉｌｄを用いて、混合した配列ファイルからインデックスファイル（ｍｍ１０＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）を生成した（ＬａｎｇｍｅａｄａｎｄＳａｌｚｂｅｒｇ２０１２）。次に、以下のパラメータでＴｏｐｈａｔ２（Ｋｉｍ、Ｐｅｒｔｅａｅｔａｌ．２０１３）を用いて、シーケンスリード（．ｆａｓｔｑ）をインデックスファイル（ｍｍ１０＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）にアラインし：
＞ｔｏｐｈａｔ２ｍｍ１０＿ｃｈｒＴ＿ｉｎｄｅｘ．／ＭｏｕｓｅＬｉｖｅｒ．Ｒ１．ｆｑ．／ＭｏｕｓｅＬｉｖｅｒ．Ｒ２．ｆｑ
アライメントファイル（．ｂａｍ）が提供された。実施例２８〜３０に前述の方法を用いて、マウス肝臓試料に付随するＲＮＡスタンダードのアライメント、アセンブリ及び定量の分析を実施した。結果は、表２にまとめられ、図２７及び２８に示されている。特に、マウス肝臓ＲＮＡ試料を添加した混合物Ａ中のＲＮＡスタンダードの分析は、表２に示したとおり、ヒトＲＮＡ試料と用いられるＲＮＡスタンダードと、ほぼ同じ感度（０．５６）及び特異性（０．９７）を示した。これは、ＲＮＡスタンダードの性能がマウスＲＮＡ試料への添加によって影響を受けず、シーケンスリードのマウスゲノムへの付随するアライメントによっても影響を受けないことを裏付ける。

実施例３５：
非ヒトゲノムでＲＮＡスタンダードからのシーケンスリードを分析する方法の１つの例を実施した。ＲＮＡスタンダードが、一定の範囲の異なる生物クレードからの異なる天然ゲノムで用いられる場合、前記実施例２８〜３０及び３４に記載されたのと同等にうまく機能するかどうかを決定した。最初に以下の生物のゲノム配列をダウンロードした：Ｈ．ｓａｐｉｅｎｓ（ｈｇ１９）、Ｍ．ｍｕｓｃｕｌｕｓ（ｍｍ１０）、Ｃ．ｅｌｅｇａｎｓ（ｃｅ１０）、Ｄ．ｍｅｌａｎｏｇａｓｔｏｒ（ｄｍ３）、Ａ．ｔｈａｌｉａｎｉｓ（ｔａｉｒ９）Ｅ．ｃｏｌｉ（ｅｓｃｈＣｏｌｉＫ１２）及びＭ．ｋａｎｄｌｅｒｉ（ｍｅｔｈＫａｎｄ１）及びＳ．ｃｅｒｅｖｉｓａｅ（ＳａｃＣｅｒ６）。それぞれの個々のゲノム配列を人工染色体配列（ｃｈｒＴ）と連結し、単一の配列（．ｆａｓｔａ）ファイルを形成した。その後、Ｂｏｗｔｉｅ２−ｂｕｉｌｄを用いて、製造者の指示書に従って、混合された配列ファイルに対応するインデックスを作製した。

次に、実施例２７に記載されたとおり、等しい濃度で混合したＲＮＡスタンダードから調製したライブラリーからのシーケンスリードをアラインし、混合物Ｃを形成した。シーケンスリードを以下のパラメータを用いて生物ゲノム（＊によって表される）を有する人工染色体を含むそれぞれの個々のインデックスにアラインした。
＞ｔｏｐｈａｔ２＊＿ｃｈｒＴ＿ｉｎｄｅｘＭｉｘｔｕｒｅＣ．Ｒ１．ｆｑＭｉｘｔｕｒｅＣ．Ｒ２．ｆｑ
＊は、生物ゲノム（例えば、Ｄｍ３、ｈｇ１９等）に相当する。

それぞれの得られたアライメント（．ｂａｍ）では、上記の実施例２８に記載された方法を用いてアライメント統計量（全及びスプリットアライメントの双方の）を決定した。付随するゲノムに関係なく、ゲノムにアラインするリードの数、ならびにトータル及びスプライスリードの特異性及び感度がほとんど変わらないことがみられた。これらの結果は、表４にまとめられており、ＲＮＡスタンダードが付随するゲノムに関係なく同等にうまく機能すること及び広い範囲の生物からのＲＮＡ試料と共にＲＮＡスタンダードを用いることができることを示す。

実施例３６：
融合遺伝子発現を測定するためにＲＮＡスタンダードを用いる方法の１つの例を実施した。実施例８に前述のとおり、人工染色体の転座から得られた正常（Ａ１及びＢ１）遺伝子及び融合遺伝子（Ｂ１ｆＡ１）の典型であるＲＮＡスタンダードについて、実施例２７に記載された方法を用いてリードライブラリーをシミュレートした。図９Ｂに示したとおり、１０⁴倍の範囲を包含するように、２つの正常ＲＮＡスタンダード（Ａ１及びＢ１遺伝子）に対して融合ＲＮＡスタンダードの１０倍連続希釈に従ってリード存在量を配分する。この結果、リードの逓増小割合で融合ＲＮＡスタンダードの発現となった。ＲＮＡスタンダード配列リードを、１％の最終濃度まで、詳細が上記に記載されたＫ５６２、ＧＭ１２８７８、肺正常及び肺癌ＲＮＡ試料から生成した実験に由来するＲＮＡシーケンシングライブラリーと連結した。さらなる分析のためにライブラリーファイル（．ｆａｓｔｑ）を生成した。

次に、以下のパラメータでＴｏｐｈａｔ２−ｆｕｓｉｏｎ（Ｋｉｍ，Ｐｅｒｔｅａｅｔａｌ．２０１３）を用いて、シーケンスリード（．ｆａｓｔｑ）をインデックスファイル（ｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）にアラインし：
＞ｔｏｐｈａｔ２−ｆｕｓｉｏｎｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．／Ｋ５６２．Ｒ１．ｆｑ．／Ｋ５６２．Ｒ２．ｆｑ
アライメントファイル（．ｂａｍ）及び融合ファイル（ｆｕｓｉｏｎｓ．ｏｕｔ）を生成し、転座によって生成された融合イントロンとオーバーラップしているリードの数（百万当たり；ＲＰＭ）を示した。図９Ｂに示したとおり、リードカバレッジに対するそれぞれの融合ＲＮＡスタンダード希釈の公知の濃度をグラフ化した。相関（０．９８２）及び傾き（０．９２７）を用いて、融合遺伝子ＲＮＡスタンダードの定量的精度を評価し、正常遺伝子に対して融合遺伝子発現を定量化することが比較的高精度であることを示す。さらに、また、図９Ｃに示したとおり、ＲＮＡ融合遺伝子の相対的存在量と比較した融合ＲＮＡスタンダードの同定とみなされる信頼度をグラフ化した。この分析は、付随する天然ＲＮＡ試料内で対応するカバレッジの融合遺伝子を検出し、定量化することができる精度、感度及び信頼度を示す。

付随するＫ５６２ＲＮＡ試料は、染色体９及び２２間のＢＣＲ−ＡＢＬ遺伝子融合のヘテロ接合体である（Ｇｒｏｓｖｅｌｄ、Ｖｅｒｗｏｅｒｄｅｔａｌ．１９８６）。次に、Ｋ５６２ＲＮＡ試料中の内因性ＢＣＲ−ＡＢＬ１（ｐ２１０）融合遺伝子の相対的存在量の測定値を知らせるためにＲＮＡスタンダードを用いた。ＧＭ１２８７８ゲノムＤＮＡに対する１０倍連続希釈でＫ５６２細胞からのゲノムＤＮＡを滴定し、野生型細胞（ＧＭ１２８７８）バックグラウンドに対してＢＣＲ−ＡＢＬ１融合遺伝子を有する細胞（Ｋ５６２）の逓増小部分母集団をエミュレートした。図９Ｂに示したとおり、Ｋ５６２細胞フラクションの連続希釈で、ＢＣＲ−ＡＢＬ１（ｐ２１０）融合遺伝子のリード（百万当たり）存在量をグラフ化した。ＢＣＲ−ＡＢＬ１（ｐ２１０）融合遺伝子の存在量に対応するＲＮＡスタンダードは、微小残存疾患をモニターするのに不十分である融合遺伝子検出感度（約１：１０希釈に対応する）の相対的に浅い限界を示す。それゆえ、融合遺伝子の典型であるＲＮＡスタンダードの使用により、ＲＮＡシーケンシングライブラリー中の融合遺伝子を検出する感度及び精度の評価が可能になり、微小残存疾患をモニターするのに有用としてよい（Ｍｉｔｔｅｒｂａｕｅｒ，Ｎｅｍｅｔｈｅｔａｌ．１９９９）。

実施例３７：
シーケンシングのために天然ＤＮＡ試料にＤＮＡスタンダードを添加する方法の１つの例を実施した。５％ＣＯ２下で、３７℃で１０％胎児ウシ血清（ＦＢＳ）を補ったＲＰＭＩ１６４０培地（Ｇｉｂｃｏ（登録商標））中でヒトＧＭ１２８７８細胞株（ＣｏｒｉｅｌｌＣｅｌｌＲｅｐｏｓｉｔｏｒｉｅｓ）を培養した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、ＧＭ１２８７８からＤＮＡを抽出した。抽出されたＤＮＡ試料をＲＮａｓｅＡで処理し、続いて、ＧｅｎｏｍｉｃＤＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒｋｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップした。Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）上で、精製したＤＮＡを定量化した。実施例１８及び表５に前述のとおり、混合物ＡとしてＤＮＡスタンダードを混合した。その後、ＤＮＡ混合物Ａに約１％総容積までＧＭ１２８７８ゲノムＤＮＡ（ＮａｎｏＤｒｏｐ、ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃで測定されるとおり）を添加した。

製造者の指示書に従ってＴｒｕＳｅｑＳｔｒａｎｄｅｄＤＮＡＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ）を用いて、ＤＮＡライブラリーを調製した。シーケンシングのために試料をプールする前に、調製したライブラリーをＱｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）で確認した。ＨｉＳｅｑ２５００装置（Ｉｌｌｕｍｉｎｅ）を用いて、１２５ｎｔペアエンド配列リードでシーケンシングを実施する。

実施例３８：
ＤＮＡスタンダードのアライメント及びアセンブリを評価する方法の１つの例を実施した。上記の実施例１７及び２０に記載されたとおりの方法を用いて、２つの対立遺伝子（参照及び変異）を有する人工染色体の３０の領域とマッチするＤＮＡスタンダードを生成した。ＤＮＡスタンダードを等しい存在量に希釈し、等しい割合で混合し、混合物Ｃの等しい部分を形成した。製造者の指示書に従ってＴｒｕＳｅｑＳｔｒａｎｄｅｄＤＮＡＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ）を用いて、ＤＮＡライブラリーを調製した。ＨｉＳｅｑ２５００装置（Ｉｌｌｕｍｉｎａ）で、１２５ｎｔペアエンドリードとして試料をシーケンスする前に、調製したライブラリーをＱｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）で確認した。実施例３９に記載された方法を用いて、配列リード（．ｆａｓｔｑ）ファイルを処理し、アラインした。実施例３９に記載された方法を用いて、アライメント（．ｂａｍ）ファイルからのアライメントを評価した。特に、全ＲＮＡスタンダードは、十分な存在量があり、完全配列倍数カバレッジに達する。配列倍数カバレッジが限定されないアライメント測定値が、表６にまとめられている。特に、リードアライメントの９９％感度及び９７％特異性を決定し、これにより、人工染色体の領域の典型であるＤＮＡスタンダードの有用性が確認された。

比較のため、また、同じＤＮＡスタンダードから生成されると予測されるリードをシミュレートした。シミュレートしたリードと上記で生成された実験に由来するリードとの比較により、アライメント及びアセンブリによる変数のインパクト（シミュレートしたリード及び実験に由来するリードの双方に影響を及ぼす）とシーケンシングによる変数のインパクト（実験に由来するリードだけに影響を及ぼし、シミュレートしたリードに影響を及ぼさない）を識別することができる。

製造者の指示書に従って、Ｓｈｅｒｍａｎ（ｈｔｔｐ：／／ｗｗｗ．ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｂａｂｒａｈａｍ．ａｃ．ｕｋ／ｐｒｏｊｅｃｔｓ／ｓｈｅｒｍａｎ／）を用いて、ＨｉＳｅｑ装置上でシーケンシング当たりの１つ．ｆａｓｔｑファイルとしてＤＮＡスタンダードによって生成された１２５ｎｔペアエンドリードをシミュレートした。シーケンスリードに、通常、Ｉｌｌｕｍｉｎａシーケンシング技術（Ｂｏｌｏｔｉｎ，Ｍａｍｅｄｏｖｅｔａｌ．２０１２）のために報告されている１％エラー率を組み入れる。シミュレートした配列リードを人工染色体（上記と同一のパラメータでｂｗａを用いて）にアラインし、上記に記載されたとおり、アライメントを評価した。結果は、表６にまとめられている。特に、ＤＮＡスタンダードからのリードのアライメントの９９％感度及び１００％特異性がみられ、これにより、人工染色体からの配列とマッチするＤＮＡスタンダードの有用性が確認された。特に、シミュレートしたリードは、ＤＮＡスタンダードのアライメント及びアセンブリのための実験に由来するシーケンスリードの性能を十分にまとめており、人工染色体の特徴とマッチするＤＮＡスタンダードを設計し、モデル化し、分析するときの有用性を示す。

実施例３９：
ＤＮＡスタンダード及び天然ＤＮＡ試料ライブラリーからなるリードを人工染色体及び天然参照ゲノムにアラインする方法の１つの例を実施した。実施例３７の方法を用いて生成された配列ファイル（．ｆａｓｔｑ）をデマルチプレックスした。製造者の指示書に従って、ｔｒｉｍ＿ｇａｌｏｒｅを用いて、配列ファイルから低クオリティリード及び配列またはアダプターコンタミ配列を除去した。（ｈｔｔｐ：／／ｗｗｗ．ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｂａｂｒａｈａｍ．ａｃ．ｕｋ／ｐｒｏｊｅｃｔｓ／ｔｒｉｍ＿ｇａｌｏｒｅ／）。

ヒトゲノム（ｈｇ１９）配列を人工染色体（ｃｈｒＴ）配列と連結し、単一のファイル（．ｆａｓｔａ）を形成した。その後、製造者の指示書に従ってｂｗａインデックスを用いて（ＬａｎｇｍｅａｄａｎｄＳａｌｚｂｅｒｇ２０１２）、混合した配列ファイルからインデックスファイル（ｈｇ１９＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）を生成した。次に、ｂｗａを用いて（ＬｉａｎｄＤｕｒｂｉｎ２００９）リードをインデックスファイルにアラインし：
＞ｂｗａｍｅｍ −Ｍｈｇ１９＿ｃｈｒｔ．ｂｗａｓｅｑｕｅｎｃｅ．ｒｅａｄ１．ｆｑｓｅｑｕｅｎｃｅ．ｒｅａｄ２．ｆａ＞ａｌｉｇｎｍｅｎｔｓ．ｓａｍ
アライメント（．ｂａｍ）ファイルを生成した。

シーケンシングエラーが、リードアライメント及び人工染色体配列間の塩基毎ミスマッチを生成することができる。配列エラーアライメントを分析し、シーケンシングクオリティを評価することができる。例えば、シーケンシングエラー率は、シーケンスされた１００ｎｔ当たりのシーケンシングエラーの平均数を示す。ＤＮＡスタンダードにＧＭ１２８７８ＤＮＡ試料を添加したこの例では、図２９Ａに示したとおり、誤ったミスマッチを含有する０．６７％のリードを決定する。シーケンシングエラー分布は、また、図２９Ｂに示したとおり、リード全体の配列エラーの分布を示す。

次に、以下に記載され、表６にまとめられたいくつかの計量に従って、シーケンスリードの人工染色体及び天然ヒト（ｈｇ１９）ゲノムへのアライメントを評価した。

ゲノム／人工染色体へのリードは、人工染色体及びヒトゲノムにアラインするリードの数である。例えば、ＧＭ１２８７８試料では、２，０２９，５９７リードを人工染色体にアラインし、４５８，５２１，３４７リードをヒトゲノム配列にアラインした。

ゲノムに対する人工染色体にアラインするリードのフラクションであるフラクション希釈が、試料ライブラリーに対するスタンダードの希釈（フラクション希釈）を示す。ＧＭ１２８７８試料では、ライブラリーの０．４％が、人工染色体にアラインし、２５０倍の希釈係数を示す。

アライメント感度は、オーバーラップしているアライメント（真陽性）を有する人工ＤＮＡスタンダード塩基のサイズを人工ＤＮＡスタンダード塩基（真陽性及び偽陰性）の総数で割ったものと定義される。ＧＭ１２８７８試料では、０．８４９の塩基毎アライメント感度がみられる。

アライメント特異性は、オーバーラップしているアライメント（真陽性）を有する人工ＤＮＡスタンダード塩基の数をオーバーラップしているアライメント（真陽性及び偽陽性）を有する塩基の総数で割ったものと定義される。ＧＭ１２８７８試料では、０．９６１の塩基毎アライメント特異性がみられる。

検出限界は、リードアライメントを有せず、シーケンスされたライブラリー内で確実に検出されない最大存在量のＤＮＡスタンダードに相当する。ＧＭ１２８７８では、０．００３７アトモル／ｕｌの検出限界がみられる。

実施例４０：
以下のとおり、結合されたＤＮＡスタンダードからピペット操作エラーを計算する方法の１つの例を実施した。ここにどのようにして結合されたＤＮＡスタンダードでピペット操作エラーを計算するかを示し、ピペット操作エラーの計算が、どれだけ正確であるかを示す。これは、ピペット操作による変動及び他の原因からの変動の公知のレベルが必要である。これを行うために、最初に実施例３８に前述のとおり、等しい組み合わせで混合したＤＮＡスタンダードからのシーケンスされたライブラリーに基づいて、ピペット操作及び他の原因による変動の量をシミュレートした。ピペット操作エラーによる変動は、個々のＤＮＡスタンダードの存在量と全ＤＮＡスタンダードの平均存在量との差と定義した。これは、ピペット操作による予測される変動と称され、単一の結合されたＤＮＡスタンダードを一緒に含む個々のＤＮＡスタンダード間で依存し、同一である。同じＤＮＡスタンダード混合物Ｃから調製したテクニカル複写配列ライブラリーの分析によって、他の原因、例えば、ライブラリー調製及びシーケンシング、による変動を決定した。変動は、ＤＮＡＦｌａｔｍｉｘのテクニカル複写間の正規化した存在量の差に相当する。他の原因による予測される変動は、単一の結合されたＤＮＡスタンダードを一緒に含む個々のＤＮＡスタンダード間で依存せず、異なる。以下に従って、変動のこれらの２つの原因をＤＮＡスタンダード混合物の実測存在量に組み入れた。
実測存在量＝予測存在量×ピペット操作による予測される変動×他の原因による予測される変動

この例では、実施例３８に前述のとおり、ＤＮＡスタンダードに由来するリードをシミュレートした。表７に示したとおり、結合されたＤＮＡスタンダードの公知の存在量に従って、リード存在量を配分した。図３１Ａに示したとおり、それぞれのＤＮＡスタンダードの予測存在量に対する実測存在量をグラフ化した。これは、単一の結合されたＤＮＡスタンダードを一緒に含む個々のＤＮＡスタンダードによって示された特徴的な依存性線形傾き分布を示す。特に、一緒に結合された複数のＤＮＡスタンダードは、図３１Ｂに示したとおり、存在量に依存はするが不規則であり、ピペット操作による異常値の同定及び除外が容易になる。

以下のとおり、ＤＮＡスタンダードの実測存在量からのピペット操作変動を計算した（図３１Ｂに示した）；それぞれの結合されたＤＮＡスタンダードでは、最初に６つの個々のＤＮＡスタンダードで最適合線（Ｙ切片が０に制限され、１／Ｙ²に加重された非線形回帰）をグラフ化した。１つからの直線傾きの偏差は、ピペット操作の不正確さと比例している。例えば、結合されたＤＮＡスタンダードＡでは、１．１８８の傾きがみられ、結合されたＤＮＡスタンダードＡの追加の１８％が、ピペット操作エラーにより追加されたと推定される。全ての結合されたＤＮＡスタンダードの計算値が表７にまとめられている。計算されたピペット操作変動の予測されたピペット操作変動との比較では、このアプローチを用いて、ピペット操作によるエラーが３％の平均マージン内と推定されることを示す。

次に、以下のとおり、この計算した変動によるそれぞれの結合されたＤＮＡスタンダード測定値を正規化することによってピペット操作による変動を最少化することができる。最初に、図３１Ａ、Ｂに示したとおり、結合されたＤＮＡスタンダードの線形分布が１の傾きを示すようにした。これにより、ＤＮＡスタンダードの予測される及び実測存在量間の相関（ピアソンのｒ）が０．９９に改善する（ＤＮＡスタンダードが正規化なしで単独で測定される場合の０．９８７と比較して；図３１Ｂ）。ピペット操作エラーの正規化するによる定量的精度の改善は、結合されたＤＮＡスタンダード間の変動率が１６．１３から０．７３へという約１０倍の減少によって示されている（図３１Ｃに示した）。これは、ユーザーがピペット操作変動による変動ならびに不正確さの量及び他の原因からの変動の量を計算するのを可能にし、測定信頼度を改善する。

実施例４１：
ＤＮＡスタンダード存在量を定量化する方法の１つの例を実施した。最初にＤＮＡスタンダードによって表される人工染色体のそれぞれの領域でアライメントの頻度を測定した。長さの正規化後に、これにより、百万当たりキロベース当たりのリード（ＲＰＫＭ）でそれぞれのＤＮＡスタンダードの実測値を割り当てた。図２８Ａに示したとおり、それぞれのＤＮＡスタンダードの公知の濃度（アトモル／ｕｌで）と比較したＤＮＡスタンダード存在量の測定値をグラフ化し、定量的精度を評価した。したがって、相関（ピアソンのｒ）でＤＮＡスタンダード定量を測定し、ＤＮＡスタンダード存在量の実測値及び予測値間の一致の指標を提供することができる。例えば、実施例３７でＧＭ１２８７８ゲノムＤＮＡ試料で事前に調製したＤＮＡスタンダードでは、０．９４の相関がみられる。傾きは、ＤＮＡスタンダードのダイナミックレンジで予測存在量に対する実測値の線形比例性を示す。混合物ＡとしてＧＭ１２８７８試料と混合したＤＮＡスタンダードでは、傾きは、１．０１である。結果は、表６にまとめられている。

実施例４２：
ＤＮＡスタンダードの遺伝的変動を同定する方法の１つの例を実施した。最初に、以下のとおり、ＳＡＭｔｏｏｌｓ（Ｌｉ、Ｈａｎｄｓａｋｅｒｅｔａｌ．２００９）及びＰｉｃａｒｄツールを用いて、実施例４０に記載された方法を用いて調整したアライメント（．ｓａｍ）ファイルを前処理した。
＞ｊａｖａ −ｊａｒＣｒｅａｔｅＳｅｑｕｅｎｃｅＤｉｃｔｉｏｎａｒｙ．ｊａｒＲ＝ｈｇ１９＿ｃｈｒＴ．ｆａＯ＝ｈｇ１９＿ｃｈｒＴ．ｄｉｃｔ
＞ｓａｍｔｏｏｌｓｆａｉｄｘｈｇ１９＿ｃｈｒＴ．ｆａ＞ｈｇ１９＿ｃｈｒＴ．ｆａｉ
＞ｊａｖａ −ｊａｒＳｏｒｔＳａｍ．ｊａｒＩＮＰＵＴ＝ａｌｉｇｎｍｅｎｔｓ．ｓａｍＯＵＴＰＵＴ＝ａｌｉｇｎｍｅｎｔｓ．ｓｏｒｔ．ｂａｍ＼
ＳＯＲＴ＿ＯＲＤＥＲ＝ｃｏｏｒｄｉｎａｔｅ
＞ｊａｖａ −ｊａｒＲｅｏｒｄｅｒＳａｍ．ｊａｒＩＮＰＵＴ＝ａｌｉｇｎｍｅｎｔｓ．ｓｏｒｔ．ｂａｍ＼
ＯＵＴＰＵＴ＝ａｌｉｇｎｍｅｎｔｓ．ｓｏｒｔ．ｒｅｏｒｄｅｒ．ｂａｍＲＥＦＥＲＥＮＣＥ＝ｈｇ１９＿ｃｈｒＴ．ｆａ
＞ｊａｖａ −ｊａｒＢｕｉｌｄＢａｍＩｎｄｅｘ．ｊａｒＩＮＰＵＴ＝ａｌｉｇｎｍｅｎｔｓ．ｓｏｒｔ．ｒｅｏｒｄｅｒ．ｂａｍ

その後、遺伝的変動を同定するために以下のデフォルトパラメータを用いて、ＵｎｉｆｉｅｄＧｅｎｏｍｅＨａｐｌｏｔｙｐｅｃａｌｌｅｒを含む公開されたベストプラクティス（ｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄｉｎｓｔｉｔｕｔｅ．ｏｒｇ／ｇａｔｋ／ｇｕｉｄｅ／ｂｅｓｔ−ｐｒａｃｔｉｃｅｓ）に従って、ＧＡＴＫｔｏｏｌｋｉｔ（ＭｃＫｅｎｎａ，Ｈａｎｎａｅｔａｌ．２０１０）を用いた。

＞ｊａｖａ −ｊａｒＧｅｎｏｍｅＡｎａｌｙｓｉｓＴＫ．ｊａｒ −ＴＨａｐｌｏｔｙｐｅＣａｌｌｅｒ −Ｒｈｇ１９＿ｃｈｒＴ．ｆａ＼

−Ｉａｌｉｇｎｍｅｎｔｓ．ｓｏｒｔ．ｒｅｏｒｄｅｒ．ｂａｍ −−ｇｅｎｏｔｙｐｉｎｇ＿ｍｏｄｅＤＩＳＣＯＶＥＲＹ＼

−−ｄｅｆａｕｌｔＢａｓｅＱｕａｌｉｔｉｅｓ３０ −ｏｖａｒｉａｎｔｓ．ｖｃｆ

本明細書に記載された方法は、同時に人工染色体上の変動を同定するだけでなく、また、ＧＭ１２８７８ゲノムＤＮＡ及び参照ヒトゲノム間の変動を同定することを明記する。以下のとおり、人工染色体中の変異同定の性能を評価することができる。

変異カバレッジは、アライメントカバレッジと遺伝的変動の割合に相当する。例えば、アライメントオーバーラップ４９０（８８％）の変動では、ＧＭ１２８７８ＤＮＡ試料に付随するＤＮＡスタンダードを例にあげる。

変異感度は、正確に同定される（真陽性）変異の数をＤＮＡスタンダード（真陰性＋偽陰性）内に表れた変異の総数で割ったものと定義される。これは、シーケンシング深度及び変異検出の双方に依存する。例えば、ＧＭ１２８７８試料では、０．６５の変動感度に達する。

変異検出は、変動感度を変異カバレッジで割ったものと定義され、シーケンシング深度またはカバレッジと無関係な変異検出の測定値を提供する。例えば、ＧＭ１２８７８試料では、０．７３の変異効率に達する。

変異特異性は、正確に同定される変異（真陽性）の数を検出される変異（真陽性＋誤陰性）の総数で割ったものである。例えば、ＧＭ１２８７８試料では、０．５７の変異特異性に達する。

メジアンクオリティスコアは、変異がこの部位に存在するＰＨＲＥＤスケール確率と定義され、それぞれの同定された変異に割り当てることができる。ＧＭ１２８７８試料では、図２８Ｅに示したとおり、正確な変異コールのメジアンクオリティスコアは１，８０３であり、一方、誤った変異コールのメジアンクオリティスコアは、６１である。

この結果は、表６にまとめられている。ＤＮＡスタンダード内に表れる変動の特定のサブセットに記述統計量を制限することができる。例えば、ＤＮＡスタンダード内の挿入を検出する感度を決定することができる。

図３０Ａに示したとおり、人工染色体上の誤った変異コールが、正確なコールより低いクオリティスコアを示し、ＧＭ１２８７８ゲノム中の付随する変異同定の誤った変異同定を同定するのにクオリティスコアに有用性があることを示す。同様に、図３０Ｂに示したとおり、特定のヌクレオチド置換（ＣからＡへ及びＴからＧへ）が特に誤ってコールされた変動中で強化されるのがみられ、さらに注意してこれらのヌクレオチド変動型を解釈しなければならないことを示唆している。

正確に変動を同定することができないのは、不十分な配列カバレッジによることが多い可能性がある。変動を同定する感度のこの限界が、正確にそれぞれのＤＮＡスタンダードに割り当てられた変動のフラクションに対してそれぞれのＤＮＡスタンダードの濃度の予測値をグラフ化することによって、図２８Ｂ、Ｅに示されている。変動が検出されない最大濃度のＤＮＡスタンダードは、付随するＧＭ１２８７８ゲノム試料内で変動を確実に検出することができる下限を示す。

次に、参照及び変異ＤＮＡスタンダードの相対濃度を変えることによって生じた相対的対立遺伝子頻度を分析した。人工染色体上で同定される１１５の変異について、相対的対立遺伝子カバレッジの実測値（ＧＡＴＫｏｕｔｐｕｔ．ｖｃｆファイル中のＤＰによって示されるとおり）に対する相対的対立遺伝子頻度の予測値（すなわち、変異ＤＮＡスタンダードに対する参照の存在量割合）をグラフ化した。このグラフは、図２８Ｃに示したとおり、最少の正確に同定される対立遺伝子頻度が１％であり、正確な変動検出が、０．０８８アトモル／ｕｌの存在量のＤＮＡスタンダードに制限されることを示す。対立遺伝子をカバレッジ＞８アトモル／ｕｌであるものだけに制限すると、相関０．９５７４及び傾き０．９０４３で対立遺伝子頻度定量値を改善し、これは、正確に検出し、希少な変異を定量化するのに十分なシーケンシングカバレッジが重要であることを反映している。

また、ほぼ同じ配列リードカバレッジでＤＮＡスタンダード中の変異同定と付随するＧＭ１２８７８ゲノムＤＮＡ中の変異同定を比較することができる。例えば、ゲノムＤＮＡ変異の第２５〜第７５パーセンタイルは、３〜６倍のカバレッジの配列カバレッジを示す。この配列カバレッジは、０．１５アトモル／ｕｌの平均存在量を有する５つのＤＮＡスタンダードに相当する。ＤＮＡスタンダードのこのサブセットに分析を制限すると、ＧＭ１２８７８ゲノム中の変動を同定するには０．８４６の感度、及び０．９３の特異性となることを示唆している。

実施例４３：
疾患及び正常ヒトＤＮＡ試料間のＤＮＡスタンダードの変動を定量化する方法の１つの例を実施した。Ｏｒｉｇｅｎｅ（ＣＤ５６３９９３、ＣＲ５６３９７６；Ｒｏｃｋｖｉｌｌｅ、ＭＤ）から正常肺及び肺の腺癌からの市販のＤＮＡを購入した。実施例１８で調製したとおりのＤＮＡ混合物Ａを１％総容積で肺腺癌ＤＮＡ試料に添加し、ＤＮＡ混合物Ｂを１％容積（ＮａｎｏＤｒｏｐによって決定されるとおり）で肺正常ＤＮＡ試料に添加した。実施例３７に前述の方法を用いて、ＤＮＡ試料及びライブラリーを調製し、シーケンスした。実施例４１〜４２に記載された方法を用いて、リードをアラインし、分析した。結果は、表６にまとめられている。

ＤＮＡ試料は、不均一頻度（前述のホモ接合体／ヘテロ接合体対立遺伝子頻度と別の）で変動を有してよい。例えば、特定の変動を有している癌細胞は、小さな割合のシーケンスされた試料だけを含んでよい。図３０Ｃ、Ｄに示したとおり、対立遺伝子頻度の予測値に対する対立遺伝子頻度の実測値をグラフ化し、対立遺伝子定量の精度及び感度を決定する。例えば、肺腺癌試料は、相関（ピアソンのｒ）０．９１及び傾き０．９５を有する。検出の限界は、対立遺伝子を確実に同定することができるより低い頻度限界を示す。例えば、この例では、検出の下限は、０．００１９アトモル／ｕｌである。同様に、対立遺伝子頻度は、試料純度の推定値を提供し、サンプル抽出した肺腺癌組織内の癌細胞の割合を推定することを可能にし、１：１００対立遺伝子頻度を１３倍カバレッジまたは０．００８２アトモル／ｕｌに変えることができる。

実施例４４：
マウスＤＮＡ試料にＤＮＡスタンダードを添加する方法の１つの例。４ヶ月齢野生型スイスＳＷＲ／Ｊマウスからマウス肝臓組織を得た。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、マウス肝臓試料からゲノムＤＮＡを抽出した。抽出されたＤＮＡ試料をＲＮａｓｅＡで処理し、続いて、ＧｅｎｏｍｉｃＤＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒｋｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップした。Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）上で精製したＤＮＡを定量化した。実施例１８で調製したとおりのＤＮＡ混合物Ａを１％総容積（ＮａｎｏＤｒｏｐによって決定されるとおり）でマウスＤＮＡ試料に添加した。実施例３７に前述の方法を用いて、ＤＮＡ試料及びライブラリーを調製し、シーケンスした。

マウスゲノム（ｍｍ１０）配列を人工染色体（ｃｈｒＴ）配列と連結し、単一のファイル（ｍｍ１０＿ｃｈｒＴ．ｆａ）を形成した。その後、製造者の指示書に従ってｂｗａインデックスを用いて、混合した配列ファイルからインデックスファイル（ｍｍ１０＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）を生成した（ＬａｎｇｍｅａｄａｎｄＳａｌｚｂｅｒｇ２０１２）。実施例３９に記載された方法を用いて、ｂｗａを用いて（Ｋｉｍ、Ｐｅｒｔｅａｅｔａｌ．２０１３）シーケンスリード（．ｆａｓｔｑ）をインデックスファイル（ｍｍ１０＿ｃｈｒＴ＿ｉｎｄｅｘ．＊）にアラインした。実施例４１に記載された方法を用いて、ＤＮＡスタンダードのアライメント、定量及び変異検出を分析し、図２８Ｄに示した。表６にまとめられた結果は、ヒト及びマウスゲノムＤＮＡの双方とほぼ同じレベルのアライメント特異性、感度、及び定量を示し、ＤＮＡスタンダードの性能は、マウスＤＮＡ試料の添加またはマウスゲノムによる付随するアライメントによって影響を受けないことを示す。

実施例４５：
非ヒトゲノムでＤＮＡスタンダードからのシーケンスリードを分析する方法の１つの例を実施した。ＤＮＡスタンダードが、一定の範囲の異なる生物クレードからの異なる天然ゲノムで用いられる場合、同等にうまく機能するかどうかを決定した。実施例３５に前述の方法によって、付随する人工染色体を有する一定の範囲の生物ゲノムのためのインデックスビルドを生成した。次に、ＤＮＡスタンダードからのシーケンスリードを実施例３８に記載されたとおりの方法を用いて調製した混合物Ｃにアラインした。以下のデフォルトパラメータでｂｏｗｔｉｅ（ＬｉａｎｄＤｕｒｂｉｎ２００９）を用いて、配列リードをそれぞれの生物ゲノム／人工染色体配列にアラインした。
＞ｂｏｗｔｉｅ２ −ｘ＊＿ｃｈｒＴ＿ｉｎｄｅｘ −１ＭｉｘｔｕｒｅＣ．Ｒ１．ｆｑ −２ＭｉｘｔｕｒｅＣ．Ｒ２．ｆｑ
＊は、生物ゲノム（例えば、Ｄｍ３、ｈｇ１９等）に相当する。

それぞれの得られたアライメント（．ｂａｍ）では、実施例４０に記載された方法を用いて、アライメント感度及び特異性を測定した。表４にまとめられたこれらの結果は、ＤＮＡスタンダードアライメントが付随する生物ゲノムに関係なくほとんど変わらず、ＤＮＡスタンダードは、一定の範囲の異なる生物ＤＮＡ試料で用いられる場合、同等にうまく機能することを示す。

実施例４６：
ＤＮＡスタンダード中の疾患と関連した遺伝的変動を同定する方法の１つの例を実施した。実施例２２に前述の方法によって生成され、疾患と関係する変動の特定の例の典型であるＤＮＡスタンダードの性能を評価するために、実施例３８に記載された方法を用いてシーケンスリードをシミュレートした。遺伝子型（例えば、ヘテロ接合体または変化する不均一スケール）に従って、リード存在量を配分した。

Ｋ５６２細胞株は、ＴＰ５３Ｑ１３９ｆｓ変動を有するが、ＢＲＡＦＶ６００Ｅ変動を有しない。シーケンスされたリードを実施例３７で調製したＫ５６２ゲノムＤＮＡからのライブラリーに添加した。リードを１％総容積で添加し、その結果、ヘテロ接合性をモデル化するＤＮＡスタンダードが、付随するＫ５６２ゲノムとほぼ同じカバレッジ（すなわち、１０．４倍）に達する。以下のパラメータで、配列リード（Ｋ５６２及びＤＮＡスタンダードから）をゲノムにアラインした。
＞ｂｗａｍｅｍ −Ｍｈｇ１９＿ｃｈｒＡＢＫ５６２．Ｒ１．ｆｑＫ５６２．Ｒ２．ｆｑ＞ａｌｉｇｎｍｅｎｔｓ．ｃｈｒＢ５．ｓａｍ

実施例４２のとおり、アライメントを調製し、以下のパラメータで、ＧｅｎｏｍｅＡｎａｌｙｓｉｓＴｏｏｌｋｉｔ（ＤｅＰｒｉｓｔｏ、Ｂａｎｋｓｅｔａｌ．２０１１）を用いた。
＞ｊａｖａ −ｊａｒ￣／１０００Ｇ／ＧｅｎｏｍｅＡｎａｌｙｓｉｓＴＫ．ｊａｒ −ＴＨａｐｌｏｔｙｐｅＣａｌｌｅｒ −Ｒｈｇ１９＿ｃｈｒＡＢ＼
−Ｉａｌｉｇｎｍｅｎｔｓ．ｃｈｒＢ５．ｓａｍ −−ｇｅｎｏｔｙｐｉｎｇ＿ｍｏｄｅＤＩＳＣＯＶＥＲＹ
−−ｄｅｆａｕｌｔＢａｓｅＱｕａｌｉｔｉｅｓ３０ −ｏｖａｒｉａｎｔｓ．ｖｃｆ

次に、図７Ｂに示したとおり、変異カバレッジに対して、変異ＤＮＡスタンダード及び関連するＫ５６２ゲノムＤＮＡ中のそれぞれの変異の深度カバレッジ（ＧＡＴＫｏｕｔｐｕｔ．ｖｃｆファイル中のＤＰによって示されるとおり）をグラフ化した。さらに、図７Ｃに示したとおり、それぞれのＤＮＡスタンダードの公知の濃度に対してそれぞれの遺伝子型が割り当てられる信頼度をグラフ化し、これにより、ＳＮＰが１０⁴倍数ダイナミックレンジで同定される信頼度を示す。

野生型細胞集団に対する変動を有している細胞の逓増小部分母集団をモデル化するために、ＧＭ１２８７８ゲノムＤＮＡライブラリー（ＴＰ５３Ｑ１３９ｆｓ変動を含有しない）のバックグラウンドに対してＫ５６２細胞株ＤＮＡライブラリー（ＴＰ５３Ｑ１３９ｆｓ変動を含有する）を滴定し、１０⁵ダイナミックレンジを包含する１０倍連続希釈を形成した。その後、前記の実施例３９に記載された方法を用いて、これらの希釈したライブラリーをヒトゲノム／人工染色体にアラインした。ＤＮＡスタンダード及び付随するゲノムＤＮＡ試料中で同定された疾患関連変異の比較が、図７Ｂに示されている。変異及び参照ＤＮＡスタンダードが等しい存在量（すなわち、ヘテロ接合体遺伝子型）である場合、Ｖ６００Ｅ及びＱ１３９ｆｓ変動を正確に同定することができ、同様に、付随するＫ５６２ＤＮＡ試料中のＱ１３９ｆｓ変動をしっかりと同定することができることがみられた。しかし、参照ＤＮＡスタンダードに対して１０倍に変異ＤＮＡスタンダードを希釈した場合、または、付随するＤＮＡ試料が１０倍以上の希釈のＫ５６２ＤＮＡを含む場合、Ｑ１３９ｆｓ変動を検出することができなかった。

実施例４７：
ＤＮＡスタンダードによって表される構造的変異のアセンブリの方法の１つの例を実施した。人工染色体上の構造的変動の典型であるＤＮＡスタンダード（実施例２３に前述のとおり）を１％総容積でＫ５６２ゲノムＤＮＡ試料に添加した。ＤＮＡ試料及びライブラリーを調製し、実施例３７に前述の方法を用いて、シーケンスし、実施例３９に記載された方法を用いて、人工染色体／ヒトゲノムにアラインした。

人工染色体上の以下の構造的変動の配列カバレッジをプロファイルした；参照人工染色体に対して長さ６３５、６２４及び６９９ｎｔの逆方向ＤＮＡ配列を含有した長さ１８３７、１８２４及び１８９９の３つのＤＮＡスタンダード（配列番号：１７１〜１７３）（図３２Ａに示された）。参照人工染色体に対して長さ６９８、６６５及び６９６の大きなＤＮＡ配列挿入を含有した長さ１８９８、１８６５及び１８９６の３つのＤＮＡスタンダード（配列番号：１７４〜１７６）（図３２Ｂに示された）。参照人工染色体に対して長さ６５１、６３４及び６８３ｎｔの大きなＤＮＡ配列欠失を含有した長さ１２００ｎｔの３つのＤＮＡスタンダード（配列番号：１７７〜１７９）（図３２Ｃに示された）。参照人工染色体に対して４つの反復コピーｘ９６ｎｔ（３８０ｎｔ）、２つのコピーｘ２０２（４３８ｎｔ）コピー及び２つのコピーｘ６２１ｎｔの大きなＤＮＡ配列タンデム複製を含有した長さ１２００ｎｔの３つのＤＮＡスタンダード（配列番号：１８０〜１８２）（図３２Ｄに示された）。参照人工染色体に対してモバイルエレメント反復挿入を含有した長さ１９８８、１５８０または１４３０ｎｔの３つのＤＮＡスタンダード（配列番号：１８３〜１８５）。挿入された反復配列は、前述のとおり、ＡｌｕＳｘ、ＭＩＲｂ、Ｌ２ａトランスポゾンの古い反復ユニットとマッチした（図３２Ｅに示された）。

実施例４８：
コピー数反復の測定を校正するためにＤＮＡスタンダードを用いる方法の１つの例を実施した。実施例２３に前述の方法によって生成され、Ｄ４Ｚ４コピー数変動の典型であるＤＮＡスタンダードの性能を評価するために、実施例３８に記載された方法を用いてシーケンスリードをシミュレートした。実施例２３に前述のとおり、コピー数（１０〜１５０コピー）に従ってリード存在量を配分した。

実施例３７に記載された方法を用いて、Ｋ５６２、ＧＭ１２８７８、肺腺癌及び正常肺ＤＮＡ試料からのライブラリーにシーケンスされたリードを付加した。実施例３９に前述のとおり、ｂｗａ（ＬａｎｇｍｅａｄａｎｄＳａｌｚｂｅｒｇ２０１２）を用いてリードを人工染色体及びヒト（ｈｇ１９）ゲノムにアラインした。図３３Ｂに示したとおり、公知の反復コピー数に対してＤＮＡスタンダードの実測存在量（百万当たりリードで）をグラフ化し、反復コピー数の定量の評価を可能にした。付随するヒトＤＮＡ試料からのヒトゲノム中のＤ４Ｚ４反復配列のカバレッジとＤＮＡスタンダードコピー数を比較した。Ｄ４Ｚ４反復ユニット（約３、３０１ｎｔ）及びＤＮＡスタンダードのサイズの差を正規化した後に、ＤＮＡスタンダードとの比較によって付随する患者ゲノム中のＤ４Ｚ４反復ユニットの数を推定した。例えば、図３３Ｂに示したとおり、ＧＭ１２８７８ゲノム中の１６１の反復コピーと推定した。

実施例４９：
環境ＤＮＡ試料にＤＮＡスタンダードを添加する方法の１つの例。オーストラリアのクイーンズランドのＷａｔｓｏｎｓＣｒｅｅｋ及びマングローブ畑から土壌を採集した。化学的及び生物学的分析の双方前に４℃で土壌試料を保管した。製造者のプロトコールに従ってＰｏｗｅｒＳｏｉｌ（商標）ＤＮＡｋｉｔ（ＭｏＢｉｏＬａｂｏｒａｔｏｒｉｅｓ、Ｃａｒｌｓｂａｄ、ＣＡ、ＵＳＡ）を用いて土壌試料からゲノムＤＮＡを抽出した。Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）によって全ゲノムＤＮＡを定量化した。実施例１８で調製したとおりのＤＮＡ混合物Ａを１％総容積（ＮａｎｏＤｒｏｐによって決定されるとおり）で土壌ＤＮＡ試料に添加した。

製造者の指示書に従ってＴｒｕＳｅｑＤＮＡＰＣＲ−ｆｒｅｅＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ）を用いて、ＤＮＡライブラリーを調製した。試料をプールする前に、調製したライブラリーをＱｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）で確認した。１２５ｎｔペアエンドリードでＨｉＳｅｑ２５００装置（Ｉｌｌｕｍｉｎｅ）を用いて、シーケンシングを実施する。

実施例５０：
ＤＮＡスタンダードリードを微生物ゲノムにアラインする方法の１つの例を実施した。ＨｉＳｅｑ２５００装置によって生成された配列（．ｆａｓｔｑ）ファイルをデマルチプレックスした。製造者の指示書に従って、ｔｒｉｍ＿ｇａｌｏｒｅを用いて、低品質リード及び配列またはアダプターコンタミ配列を除去した。（ｈｔｔｐ：／／ｗｗｗ．ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｂａｂｒａｈａｍ．ａｃ．ｕｋ／ｐｒｏｊｅｃｔｓ／ｔｒｉｍ＿ｇａｌｏｒｅ／）。

実施例９に記載された方法によって生成された全人工微生物ゲノムを混合し、実施例３９に前述の方法を用いて単一のインデックスビルドを生成した。以下のパラメータでｂｗａ（ＬｉａｎｄＤｕｒｂｉｎ２００９）を用いてシーケンスリードを人工微生物ゲノムにアラインした。
＞ｂｗａｍｅｍ −ＭＡｒｔＣｈｒ．ｂｗａｓｅｑｕｅｎｃｅ．ｒｅａｄ１．ｆｑｓｅｑｕｅｎｃｅ．ｒｅａｄ２．ｆａ＼ａｌｉｇｎｍｅｎｔｓ．ｓａｍ

人工微生物ゲノムにアラインするリードに従って人工微生物ゲノムへのアライメント（．ｂａｍファイル）を評価した。例えば、土壌試料１中で、４，３１７，６２９リードを人工微生物ゲノムにアラインした。フラクション希釈は、全リードに対して人工微生物ゲノムにアラインするリードのフラクションである。例えば、土壌試料１中で、ライブラリー内の５．６％のリードが、人工微生物ゲノムにアラインし、１７．１倍希釈係数に対応する。検出限界は、シーケンスされたライブラリー内で確実に検出されず、アライメントを有しない最大存在量のＲＮＡスタンダードに相当する。土壌試料１では、１．００９３の検出限界がみられる。感度は、オーバーラップしているアライメントを有するＤＮＡスタンダード塩基の数と定義され、図３５Ｃに示したとおりである。これは、シーケンシング深度及びアライメントに依存する。例えば、土壌試料１中で、ＤＮＡスタンダード塩基の８０．２％が、オーバーラップしているアライメントを有する。結果は、表１０にまとめられている。

実施例５１：
以下のとおり、微生物ゲノムコミュニティのアセンブリを校正するためにＤＮＡスタンダードリードを用いる方法の１つの例を実施した。製造者の指示書に従ってＶｅｌｖｅｔ（ＺｅｒｂｉｎｏａｎｄＢｉｒｎｅｙ２００８）を用いてｄｅｎｏｖｏ配列アセンブリを実施した。
＞ｖｅｌｖｅｔ＿１．２．１０／ｖｅｌｖｅｔｈ．／ｏｕｔｐｕｔ９１ −ｓａｍｓｏｉｌ．ｓａｍ
＞ｖｅｌｖｅｔ＿１．２．１０／ｖｅｌｖｅｔｇ．／ｏｕｔｐｕｔ −ｅｘｐ＿ｃｏｖａｕｔｏ −ｃｏｖ＿ｃｕｔｏｆｆ０ −ｓｃａｆｆｏｌｄｉｎｇｎｏ

アセンブルしたコンティグによってオーバーラップされるＤＮＡスタンダードサイズの割合であるカバレッジに従ってコンティグアセンブリを評価した。これは、シーケンシング深度及びアセンブリの双方に依存する。例えば、土壌試料１中で、図３５Ｄに示したとおり、ＤＮＡスタンダードの３１．９％に及ぶコンティグをアセンブルした。ノードは、正確にアセンブルした（ＤＮＡスタンダードとマッチする）別個のコンティグの数である。例えば、土壌試料１中で、２０（３６のうち）ノードをアセンブリする。Ｎ５０統計量は、全アセンブリ（Ｎ５０）に対するコンティグのメジアン質量を指す。例えば、土壌試料１中で、５０８のＮ５０統計量を決定した。最大コンティグサイズは、正確にアセンブルしたコンティグの最大サイズである。例えば、土壌試料１中で、ＤＮＡスタンダード完全長の９２．１％に相当する９０４ｎｔまでコンティグをアセンブルした。アセンブリ中の全塩基は、ＤＮＡスタンダードにアラインするリードの総数に対して正確にアセンブルしたコンティグにアラインするリードの数である。例えば、土壌試料１中で、２２．１％リードをアセンブルしたコンティグにアラインする。この結果は、表１０にまとめられている。

実施例５２：
微生物ゲノムの定量を校正するためにＤＮＡスタンダードを用いる方法の１つの例を実施した。定量の精度を評価するために、それぞれのアセンブルしたコンティグの公知の濃度（アトモル／ｕｌで）に対して実測存在量（ＲＰＫＭで）をグラフ化した（図３６Ａ、Ｂに示したとおり）。最初にＤＮＡスタンダードによって表される人工微生物ゲノムのそれぞれの領域でアライメントの頻度を測定した。長さの正規化後に、百万当たりキロベース当たりのリード（ＲＰＫＭ）でそれぞれのＤＮＡスタンダードの実測値を割り当てた。図３５Ａに示したとおり、それぞれのＤＮＡスタンダードの公知の濃度（アトモル／ｕｌで）と比較したＤＮＡスタンダード存在量の測定値をグラフ化し、定量的精度を評価した。したがって、相関（ピアソンのｒ）でＤＮＡスタンダード定量を測定し、ＤＮＡスタンダード存在量の実測値及び予測値間の一致の指標を提供することができる。例えば、土壌試料１で調製したＤＮＡスタンダードでは、０．９６の相関がみられ、傾きは１．０６１である。結果は、表１０にまとめられている。

ゲノムアセンブリは、図３５Ａに示したとおり、十分なシーケンシングカバレッジに依存する。図３５Ｂに示したとおり、高濃度のＤＮＡスタンダードが、完全配列カバレッジ及びアセンブリを示し、一方、逆に、低濃度が予測されるＤＮＡスタンダードがスペア配列カバレッジ及び不十分アセンブリを示すことがみられる。これは、付随する土壌試料中のその相対的存在量に従って微生物ゲノムのカバレッジ及びアセンブリの予測値を決定するのを可能にする。

実施例５３：
複数の環境ＤＮＡ試料間の差を測定するためにＤＮＡスタンダードを用いる方法の１つの例を実施した。最初に、実施例４９に前述の方法を用いて低有機含有率の３つの土壌試料との比較のために、高有機含有率の土壌試料の３つの土壌試料からＤＮＡを抽出した。実施例１８で調製したとおりのＤＮＡ混合物Ａを１％総容積で高有機含有率の３つの土壌試料に添加し、ＤＮＡ混合物Ｂを１％容積で低有機含有率の３つの土壌試料に添加した。実施例４９に前述の方法を用いて、ＤＮＡ試料及びライブラリーを調製し、シーケンスした。実施例５０〜５２に記載された方法を用いて、リードをアラインし、分析した。結果は、表１０にまとめられ、図３６Ａ、Ｂに示されている。

低有機含有率土壌試料中の混合物Ｂを形成するＤＮＡスタンダードの実測存在量に対して、高有機含有率土壌試料中の混合物Ａを形成するＤＮＡスタンダードの実測存在量をグラフ化し、図３６Ｃ中にＤＮＡスタンダード倍数変化を示した。表１１にまとめられたとおり、０．８３２８（ピアソンのｒ）の相関及び傾き１．１４９がみられ、ＤＮＡ存在量の差が測定される精度を示す。

実施例５４：
環境ＤＮＡ試料中の微生物ゲノムの定量を校正するためにＤＮＡスタンダードを用いる方法の１つの例を実施した。５０ｍＬポリプロピレンチューブ中に健康男性から糞便試料を採集した。製造者のプロトコールに従ってＭｏＢｉｏＰｏｗｅｒＦｅｃａｌ（商標）ＤＮＡＩｓｏｌａｔｉｏｎｋｉｔ（ＭｏＢｉｏＬａｂｏｒａｔｏｒｉｅｓ、Ｃａｒｌｓｂａｄ、ＣＡ、ＵＳＡ）を用いて糞便試料からＤＮＡを抽出した（０．２５ｇ）。

実施例１８で調製したとおりのＤＮＡ混合物Ａを１％総容積で、健康ヒト対象からの２つの複製糞便試料に添加した。実施例４９に前述の方法を用いて、ＤＮＡ試料及びライブラリーを調製し、シーケンスした。実施例５０〜５２に記載された方法を用いて、リードをアラインし、分析した。結果は、表１０にまとめられ、図３６Ｄ〜Ｆに示されている。

上記の実施例５１に記載された方法を用いてＤＮＡスタンダードのアセンブリを評価した。例えば、糞便試料１中で、ＤＮＡスタンダードが、全リードの０．８９％（２２５百万からの２百万）で含まれた。シーケンスリードをＤＮＡスタンダードの５３．２％カバレッジを包含する１４のコンティグにアセンブルした。実施例５２に前述の方法を用いて、アセンブルしたＤＮＡスタンダードコンティグの存在量を測定した。これは、メタゲノムの定量のための内部参照ラダーを提供し、微生物コミュニティ分析（Ｓｉｎｇｈ、Ｂｅｈａｌｅｔａｌ．２００９）を知らせ、結果は、表１０にまとめられている。例えば、糞便試料１では、０．９７の相関及び１．０４１の傾きがみられ、アセンブルしたＤＮＡスタンダードの高い定量的精度を示す。

実施例５５：
ＰＣＲ増幅のテンプレートとしてＤＮＡスタンダードを用いる方法の１つの例を実施した。哺乳動物免疫グロブリン配列多様性が増幅され、シーケンスされる免疫レパートリーシーケンシングなどのアンプリコンシーケンシングの方法にＤＮＡスタンダードを用いることができる。実施例２５に記載された方法を用いて、人工ＴＣＲγクロノタイプの典型であるＤＮＡを事前に製造した。製造者の指示書に従ってＴＣＲγ遺伝子座（チューブＡ及びＢに存在する）のユニバーサルＢＩＯＭＥＤ２プライマー配列（ｖａｎＤｏｎｇｅｎ、Ｌａｎｇｅｒａｋｅｔａｌ．２００３）を用いてＤＮＡスタンダードにＰＣＲ増幅（ＫＡＰＡＢｉｏｓｙｓｔｅｍｓ）した。ＢｉｏＡｎａｌｙｓｅｒ（２１００ＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡＡｓｓａｙ；Ａｇｉｌｅｎｔ）を用いて増幅された生成物を分析した。図３４に示したとおり、ＢｉｏＡｎａｌｙｓｅｒトレースが、全１５のＴＣＲγクロノタイプＤＮＡスタンダードからの正確なサイズ７５０ｎｔ生成物の増幅を示す。これは、免疫レパートリーシーケンシング中のＰＣＲ増幅のテンプレートとしてのＤＮＡスタンダードの有用性を確認する。

次に、クローンＴ−ＡＬＬ細胞からの１０％ｇＤＮＡ及び健康な成人のＰＢＭＣからの９０％ｇＤＮＡのゲノムＤＮＡ混合物を生成し、ＴＣＲγクロノタイプのクローン集団をモデル化した。ＣｅｌｌＢａｎｋＡｕｓｔｒａｌｉａからクローンＴ−ＡＬＬ細胞株、ＫＡＲＰＡＳ４５（カタログ番号０６０７２６０２、ヒトＴ細胞白血病）を購入した。ＥｕｒｏｐｅａｎＣｏｌｌｅｃｔｉｏｎｏｆＣｅｌｌＣｕｌｔｕｒｅｓ成長プロトコール及び標準に従ってＫＡＲＰＡＳ４５細胞を培養した。簡潔にいうと、５％ＣＯ₂下で、３７℃で１５％胎児ウシ血清（ＦＢＳ）を補ったＲＰＭＩ１６４０培地（Ｇｉｂｃｏ（登録商標））中でＫＡＲＰＡＳ４５細胞を培養した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、ＫＡＲＰＡＳからゲノムＤＮＡを抽出した。抽出されたＤＮＡ試料をＲＮａｓｅＡで処理し、続いて、ＧｅｎｏｍｉｃＤＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒｋｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップした。Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）上で精製したＤＮＡを定量化した。ＭｏＢｉｏＵｌｔｒａＣｌｅａｎｋｉｔ（カタログ番号１２３３４−２５０）を用いて健康成人のＰＢＭＣからゲノムＤＮＡを抽出した。溶液ＴＤ３中にｇＤＮＡを溶離し、Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）上で分析した。

その後、混合物の全ゲノムＤＮＡ濃度の１％で、人工ＴＣＲγクロノタイプＤＮＡスタンダードを添加した。混合したクロノタイプＤＮＡスタンダード及びＴ−ＡＬＬ／ＰＢＭＣゲノムＤＮＡミックス上でユニバーサルＢＩＯＭＥＤ２プライマー配列（上記に記載されたとおり）を用いてＰＣＲ増幅（ＫＡＰＡＢｉｏｓｙｓｔｅｍｓ）を実施した。Ｗｉｚａｒｄ（登録商標）ＳＶＧｅｌ及びＰＣＲＣｌｅａｎ−Ｕｐシステム（Ｐｒｏｍｅｇａ）を用いてＰＣＲアンプリコンを精製し、Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）上で定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）上で確認した。

製造者の指示書に従ってＮｅｘｔｅｒａＸＴＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ）を用いて、ＰＣＲアンプリコンからライブラリーを調製した。試料をプールする前に、調製したライブラリーをＱｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）で確認した。１２５ｎｔペアエンドリードでＨｉＳｅｑ２５００装置（Ｉｌｌｕｍｉｎｅ）を用いて、シーケンシングを実施する。

実施例５６：
哺乳動物免疫グロブリン配列多様性の分析にＤＮＡスタンダードを用いる方法の１つの例を実施した。実施例２５に記載された方法によって生成され、人工ＴＣＲβクロノタイプの典型であるＤＮＡスタンダードの性能を評価するために、最初に、ＢＩＯＭＥＤ−２ＴＣＲβマルチプレックスプライマー配列（チューブＡ〜Ｃ）（ｖａｎＤｏｎｇｅｎ，Ｌａｎｇｅｒａｋｅｔａｌ．２００３）でＤＮＡスタンダードのｉｎｓｉｌｉｃｏＰＣＲ増幅（ｈｔｔｐ：／／ｉｎｓｉｌｉｃｏ．ｅｈｕ．ｅｓ／ＰＣＲ／）を実施し、約７５０ｎｔアンプリコン配列を生成した。正確な相補性を有するにはプライマー結合部位が必要であり、プライマー特異的増幅偏りがないと想定した。次に、実施例３８に前述の方法を用いてアンプリコン配列からのシーケンスリードをシミュレートした。実施例２５に記載されたとおり、ＤＮＡスタンダードの相対濃度に従ってリード存在量を配分した。３人の健康ヒト対象中のＴＣＲβ遺伝子座の事前に公開された実験的アンプリコンシーケンシングライブラリー（．ｆａｓｔｑ）に１％フラクションでリードを添加する（Ｚｖｙａｇｉｎ、Ｐｏｇｏｒｅｌｙｙｅｔａｌ．２０１４）。ＡｃｃｅｓｓｉｏｎＩＤ：ＳＲＰ０２８７５２で、ＮＣＢＩＳｈｏｒｔＲｅａｄＡｒｃｈｉｖｅ（ＳＲＡ）からこのデータを取り出した。これらの３つのライブラリーは、健康成人ヒト対象のＴＣＲβクロノタイププロファイルの典型である。製造者の推奨に従ってＭｉＴＣＲを用いてヒトライブラリーファイルを分析する（Ｂｏｌｏｔｉｎ、Ｍａｍｅｄｏｖｅｔａｌ．２０１２）。

それぞれのライブラリーでは、表８にまとめられたとおり、以下の計量を決定した。ヒトゲノム／人工ＴＣＲβクロノタイプにアラインするリードの数及びＤＮＡスタンダードにアラインするリードの数ヒト対象Ａのこの例では、人工ＴＣＲβクロノタイプにアラインする２５，１９１リードがみられる。人工ＴＣＲβクロノタイプにアラインするリードのフラクションが、ヒト対象Ａの１％の希釈係数を示す。検出の限界は、ライブラリー中のシーケンスリードによって検出されない最大存在量ＤＮＡスタンダードを示し、ダイナミックレンジは、ライブラリー中のシーケンスリードによって検出される最大及び最少存在量ＤＮＡスタンダード間の倍数差を示す。クローン感度は、人工ＴＣＲβクロノタイプが正確に割り当てられるＤＮＡスタンダードの割合を示す。これは、また、Ｖβ、Ｄβ、Ｊβセグメントアサインメント及び挿入／欠失の検出の精度を含むことができる。

公知の濃度に対して人工ＴＣＲβクロノタイプの実測頻度をグラフ化し、相関及び傾きによるＴＣＲβクロノタイプ存在量測定の精度を確認する（結果は、表８にまとめられている）。健康ヒト対象の天然ＴＣＲβクロノタイプに対する人工ＴＣＲβクロノタイプの存在量が、図１３Ｅに示されている。健康ヒト対象の天然ＴＣＲβ Ｖ、Ｊ及びＤセグメントに対する人工ＴＣＲβＶ、Ｊ及びＤセグメント使用の存在量が、図１３Ｆに示されている。

実施例５７：
１６ＳｒＲＮＡ系統プロファイリングの分析にＤＮＡスタンダードを用いる方法の１つの例を実施した。表９に示したとおり、一定の範囲の分類群、サイズ、ＧＣ含有率及びｒＲＮＡオペロンカウントの典型である６つの異なる人工微生物ゲノムからの１６ＳｒＲＮＡ遺伝子とマッチする長さ１０１８ｎｔの６つのＤＮＡスタンダード（配列番号：１６１〜１６６）を生成した。ＤＮＡスタンダードは、追加のフランキング２５０ｎｔ配列を有して、１６ＳｒＲＮＡ遺伝子のＶ３領域中の２つのユニバーサル１６Ｓプライマーとオーバーラップするように設計される。１６ＳＤＮＡスタンダードは、ユニークアンプリコン配列を生成するためのＰＣＲ増幅のテンプレートを形成する。ユニバーサル１６Ｓプライマー配列でｉｎｓｉｌｉｃｏＰＣＲ増幅（ｈｔｔｐ：／／ｉｎｓｉｌｉｃｏ．ｅｈｕ．ｅｓ／ＰＣＲ／）を実施した。これは、ＤＮＡスタンダードのそれぞれからユニークで別個のアンプリコンを生成した。図１１に示したとおり、（ｉ）人工コミュニティ内の微生物ゲノムの初期存在量及び（ｉｉ）人工微生物ゲノム内のｒＲＮＡオペロンコピー数に従って、それぞれのアンプリコンの存在量を配分した。また、アンプリコン存在量が、プライマー結合効率によって影響を受ける可能性がある、１６ＳＤＮＡスタンダードを用いてプライマー結合効率の差を同定し、正規化することができる。しかし、この分析では、ＰＣＲ増幅に偏りがないと想定した。次に、実施例３８に前述の方法を用いて１６ＳＤＮＡスタンダードからシーケンスされたリードライブラリーを生成した。意図されたアンプリコン濃度に従ってリード存在量を配分し、人工微生物コミュニティの１６Ｓプロファイリングから生成したシーケンスされたリードライブラリーとシーケンスされたリードライブラリーを混合した。図１１Ｂに示したとおり、意図された濃度に対して１６ＳＤＮＡスタンダードの実測存在量をグラフ化した。図１１Ｃに示したとおり、人工微生物ゲノムの存在量を完全に正規化するにはｒＲＮＡオペロンカウントが必要であることを明記する。これは、それ以下であると付随する試料中のいずれの微生物ゲノムも、確実に検出されない可能性がある検出の限界を示す。

実施例５８：
以下のとおり、シーケンシング中のＧＣ偏りを校正するためにＤＮＡスタンダードを用いる方法の１つの例を実施した。約２７％、６８％及び７４％ＧＣ含有率に対応する３つの異なる群に区別した９つのＤＮＡスタンダードを設計し、製造した（配列番号：１４０〜１４８）。ＧＣ−Ｍｅｔａスタンダード間の長さ特異的偏りを最少化するには、全ＤＮＡスタンダードがほぼ同じ長さ（１，０００ｎｔ）のものとなる。実施例３８に前述の方法を用いて、等しい濃度で９つのＤＮＡスタンダードを混合し、単一の混合物を形成した。クイーンズランドのＷａｔｓｏｎｓＣｒｅｅｋ及びマングローブ畑から採集した土壌から取ったＤＮＡにこの混合物を１％総容積で添加した。実施例４９に前述の方法を用いて、ライブラリーとして混合したＤＮＡ試料を調製し、シーケンスした。

最初にｂｗａ（ＬｉａｎｄＤｕｒｂｉｎ２００９）を用いて人工微生物ゲノムにシーケンスリードをアラインした。
＞ｂｗａｍｅｍ −Ｍｃｈｒｔ．ｂｗａｓｅｑｕｅｎｃｅ．ｒｅａｄ１．ｆｑｓｅｑｕｅｎｃｅ．ｒｅａｄ２．ｆａ／＞ａｌｉｇｎｍｅｎｔｓ．ｓａｍ

次に、図３７に示したとおり、アラインしたリードの存在量をそのＧＣ含有率に対して、グラフ化した。比較のため、ＤＮＡスタンダードから長さ及び頻度がマッチしたシミュレートしたリードを生成した。シーケンスされたリードとシミュレートしたリードの比較では、図３７Ａ〜Ｃに示したとおり、高ＧＣスタンダード及びＡＴリッチスタンダードの双方のアンダーサンプリングを示す。実測存在量及び予測存在量のこの差が、ＤＮＡ定量でのＧＣ依存偏りのインパクトを最少化するための正規化を知らせることができる。

実施例５９：
以下のとおり、免疫レパートリーシーケンシングを校正するためにＴＣＲγクロノタイプをミミックする合成ＤＮＡスタンダードを用いる方法の１つの例を実施した。ＴＣＲγ（ＴＣＲＧ）は、それが生成するクロノタイプの比較的制限されたスイートのためにクローン性分析の優先の標的である。この例では、マルチプレックスＰＣＲ及び免疫受容体シーケンシングの間に合成ＴＣＲＧスタンダードを設計し、製造し、用いた。

参照ヒトゲノム中のＴＣＲＧ遺伝子座から１０Ｖγセグメント、５Ｊγセグメント及び２Ｃγセグメント及びフランキングイントロン配列を取り出した（ｈｇ１９；図１２）。Ｃａｒｌｓｏｎｅｔ．ａｌ．２０１３に記載されたとおり、フォワード及びリバースプライマー配列と相補的な配列を除いて、公知の天然配列との相同性を除去するためにそれぞれのセグメントまたはイントロン配列を単独で逆方向にし、シャッフルした。その後、全フォワード及びリバースプライマー組み合わせで、合成セグメントを混合した。リードスルーＰＣＲ増幅を妨げるように設計された単一のＧＣリッチヘアピン配列が点在するそれぞれのセグメントを一緒に結合した。その後、配列を合成された４つのより大きな配列に混合した（配列番号：２０３〜２０６）。配列を４つの部分ＧｅｎｅＡｒｔ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）に合成し、ｐＭＡ−ＲＱベクターに挿入した。ＴＣＲＧスタンダードの４つの部分をＮＥＢｕｉｌｄｅｒ（登録商標）ＨｉＦｉＤＮＡＡｓｓｅｍｂｌｙＭａｓｔｅｒＭｉｘ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）を用いて１つの隣接配列ｐＵＣ１９に連結した。５０ｍＬ培養物中に最終１４．４ｋｂプラスミドを成長させ、精製し、ＤＮＡ配列確認のために用いた。ＴＣＲＧスタンダード合成では、最終プラスミドをＳａｐＩで消化し、Ｚｙｍｏｃｌｅａｎ（商標）ＧｅｌＤＮＡＲｅｃｏｖｅｒｙＫｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）で１２ｋｂフラグメントをゲル抽出した。

ＥｕｒｏｐｅａｎＣｏｌｌｅｃｔｉｏｎｏｆＣｅｌｌＣｕｌｔｕｒｅｓ成長プロトコール及び標準に従ってクローンＴ−ＡＬＬ細胞株、ＫＡＲＰＡＳ４５（カタログ番号０６０７２６０２、ヒトＴ細胞白血病）を培養した。簡潔にいうと、５％ＣＯ₂下で、３７℃で１５％胎児ウシ血清（ＦＢＳ）を補ったＲＰＭＩ１６４０培地（Ｇｉｂｃｏ（登録商標））中でＫＡＲＰＡＳ４５を培養した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、ＫＡＲＰＡＳ４５からゲノムＤＮＡ（ｇＤＮＡ）を抽出した。抽出されたＤＮＡ試料をＲＮａｓｅＡで処理し、続いて、ＧｅｎｏｍｉｃＤＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒｋｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップした。Ｑｕｂｉｔ２．０Ｆｌｕｏｒｏｍｅｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＢＲｄｓＤＮＡＱｕｂｉｔＡｓｓａｙを用いて、精製したＤＮＡを定量化した。健康成人のＰＢＭＣからのｇＤＮＡをバックグラウンドとして用いた。簡潔にいうと、製造者の指示書に従ってＭｏＢｉｏＵｌｔｒａＣｌｅａｎｋｉｔ（カタログ番号１２３３４−２５０）を用いてｇＤＮＡを抽出し、溶液ＴＤ３中に溶離した。Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）上で精製したｇＤＮＡを分析し、Ｑｕｂｉｔ２．０Ｆｌｕｏｒｏｍｅｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＢＲｄｓＤＮＡＱｕｂｉｔＡｓｓａｙを用いて、定量化した。

生物学的バックグラウンド中の合成ＴＣＲＧスタンダードの感度、再現性及び定量的精度を試験するために、クローンＴ−ＡＬＬ細胞（ＫＡＲＰＡＳ４５）からのｇＤＮＡの混合物を健康成人のＰＢＭＣｇＤＮＡからのｇＤＮＡ（ＴＣＲＧ遺伝子型の複合バックグラウンドを含む）で、１０、１及び０．１％最終濃度に希釈し、表１２に記載されたとおり、１０％合成ＴＣＲＧスタンダードを生成した。製造者の推奨に従って等モル比のＶＦ及びＪＲプライマープール、ＫＡＰＡＨｉＦｉＨｏｔＳｔａｒｔＲｅａｄｙＭｉｘ（ＫＡＰＡＢｉｏｓｙｓｔｅｍｓ）を含有するマルチプレックスＰＣＲ反応中のテンプレートとして個々に調製した混合物を用いた。ＤＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒ（商標）−５（ＺｙｍｏＲｅｓｅａｒｃｈ）を用いてマルチプレックスＰＣＲ反応からのＰＣＲ生成物を精製した。Ｑｕｂｉｔ２．０Ｆｌｕｏｒｏｍｅｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＢＲｄｓＤＮＡＱｕｂｉｔＡｓｓａｙを用いてＰＣＲ生成物を定量化し、ＡｇｉｌｅｎｔＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡＫｉｔを有するＡｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）上で確認した。

製造者の指示書に従ってＮｅｘｔｅｒａＸＴＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ（登録商標））を用いて、ＤＮＡライブラリーを調製した。Ｑｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で、調製したライブラリーを定量化し、ＡｇｉｌｅｎｔＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡＫｉｔを有するＡｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）上で確認した。ＫｉｎｇｈｏｒｎＣｅｎｔｒｅｆｏｒＣｌｉｎｉｃａｌＧｅｎｏｍｉｃｓでＨｉＳｅｑ２５００（Ｉｌｌｕｍｉｎａ（登録商標））上でライブラリーをシーケンスした。

シーケンシングファイルを受け取り、リードを以下のパラメータを用いて可能性のある実在及び合成ＴＣＲＧの全てを含むインデックスにアラインした。ｂｏｗｔｉｅ２ −ｐ１２ −ｘｔｃｒｇ＿ｃｏｍｂｓ −１１０ＴＡＬＬ＿ＴＣＲＧｓｔｄｓ１．１．ｆｑ −２１０ＴＡＬＬ＿ＴＣＲＧｓｔｄｓ１．２．ｆｑ −Ｓ１０ＴＡＬＬ＿ＴＣＲＧｓｔｄｓ１．ｃｏｍｂｓ．ｓａｍ

最初に合成ＴＣＲＧスタンダードを分析した。最初にアライメント頻度に従ってそれぞれの合成スタンダードの相対的存在量を決定した。最初に全プライマー組み合わせから生成物を生成し、シーケンスし、その機能の陽性対照の指標を提供することを明記する。

また、シーケンスされたアンプリコンの相対的存在量を使用して、プライマー組み合わせの定量的効率を評価することができる。全アンプリコンテンプレートが単一の配列に由来するため、初期テンプレート存在量が均一であり、それゆえ、差は、マルチプレックス混合物中のプライマー効率及びプライマー存在量のいずれかの差を反映する。それゆえ、アライメント頻度に従ってそれぞれの合成スタンダードの相対的存在量のマトリックスをアセンブルした（表１２）。このマトリックスは、ＰＣＲ反応内のそれぞれのプライマー対の相対的性能を示す。例えば、Ｊ１リバースプライマーと組み合わせたＶ１１フォワードプライマーは、平均より４．１倍未満不十分に機能し、一方、ＪＰ１リバースプライマーと組み合わせたＶ９フォワードプライマーは、平均より２．１５倍越えて機能する。これは、付随する試料中のＴＣＲＧクロノタイプの定量を調節するために用いることができる正規化係数を提供する。

特に、この正規化係数は、プライマーハイブリダイゼーション及びマルチプレックスプライマー混合物中の相対的プライマー濃度を定める温度など、同じ条件になりやすい内部合成コントロールから計算される。それゆえ、次に、付随する混合物中のＴＣＲＧクロノタイプの相対的存在量を決定した。いくつかのクロノタイプがライブラリーにない場合、それがＲＮＡ試料中にないと結論を下すことができる（上記の合成スタンダードで事前にそれぞれのプライマーを確認したため）。その後、上記の合成スタンダードから計算した正規化係数に従って、それぞれのＴＣＲＧクロノタイプの相対濃度を調節した。このため、本明細書に記載された合成ＤＮＡスタンダードは、免疫レパートリー配列の分析に向けたＮＧＳ方法の有用な校正を提供する。

実施例６０：
以下のとおり、結合された合成スタンダードを定量的ＤＮＡラダーとして用いる方法の１つの例を実施した。上記に説明したとおり、ピペット操作のエラーが、複数のスタンダードの存在量間で変動を生じさせる可能性がある。ピペット操作エラーを除去するために、個々のＤＮＡスタンダードを一緒に結合することができる。かかる場合には、コピー数の差が存在量差となる。個々のスタンダード間の依存する変動を用いて、ピペット操作の変動によるエラーを計算し、別のスタンダード間の正確な頻度を確実にすることができる。

以下のフォーマットで結合されたスタンダードを設計した（図３９にまとめられている）。それぞれ６００ｎｔの複数の個々のＤＮＡスタンダード（Ａ、Ｂ、Ｃ及びＤ）を設計した。その後、これらのＤＮＡスタンダードをその後、Ａの１コピー；Ｂの２コピー；Ｃの４コピー及びＤの８コピーを含む単一の隣接配列に一緒に結合することができるＡＢＢまたはＣＤＤフォーマットに組織化した（配列番号：２０７〜２９０）。さらに、個々のＤＮＡスタンダード間のＩ−ＳｃｅＩ制限消化部位をホストするさらに小さなリンカー配列を添加した。これは、制限消化によるピペット操作後に、複数のスタンダードから個々のスタンダードを遊離させ、これにより、ピペット操作による変動なしで個々のスタンダードの混合物を生成することができる。

ＧｅｎｅＡｒｔ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）によって個々にＡＢＢ及びＣＤＤ組織化中の混合した反復を含む配列を合成した。それぞれの結合スタンダードは、１つのＡＢＢ及び４つのＣＤＤのものからなる。製造者のプロトコールに従ってＮＥＢｕｉｌｄｅｒ（登録商標）ＨｉＦｉＤＮＡＡｓｓｅｍｂｌｙＭａｓｔｅｒＭｉｘを用いて、５つのフラグメントをｐＵＣ１９−ＦＡＦＢ（ＦＡＦＢフィラー配列を有するｐＵＣ１９）に連結した。ＥｃｏＲＩ及びＢａｍＨＩで、それぞれの結合スタンダードの最終プラスミド、例えば、ｐＵＣ１９−ＦＡＦＢ−ＧＡ９８を消化し、次にＺｙｍｏｃｌｅａｎ（商標）ＧｅｌＤＮＡＲｅｃｏｖｅｒｙＫｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でゲル抽出し、１０．４ｋｂ結合ＤＮＡスタンダードを得た。

Ｑｕｂｉｔ２．０Ｆｌｕｏｒｏｍｅｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＢＲｄｓＤＮＡＱｕｂｉｔＡｓｓａｙを用いて全２１の結合ＤＮＡスタンダードの濃度を測定した。結合ＤＮＡスタンダード混合物を混合し、ｅｐＭｏｔｉｏｎ５０７０ｅｐＢｌｕｅ（商標）ソフトウエアプログラムを用いて１０⁶倍濃度範囲に及ぶ混合物を形成し、ロボット的に最終混合物を生成した。

その後、混合物Ａを最終濃度１０％でＧＭ１２８７８細胞株から抽出された全ｇＤＮＡに添加した。ＧＭ１２８７８は、ＭａｄｈａｖｉＭａｄｄｕｇｏｄａ（ＥｐｉｇｅｎｅｔｉｃｓＲｅｓｅａｒｃｈＧｒｏｕｐ、ＧａｒｖａｎＩｎｓｔｉｔｕｔｅｏｆＭｅｄｉｃａｌＲｅｓｅａｒｃｈ）によって提供された。ＣｏｒｉｅｌｌＣｅｌｌＲｅｐｏｓｉｔｏｒｉｅｓ成長プロトコール及び標準に従ってＧＭ１２８７８細胞を培養した。簡潔にいうと、５％ＣＯ２下で、３７℃で１０％胎児ウシ血清（ＦＢＳ）を補ったＲＰＭＩ１６４０培地（Ｇｉｂｃｏ（登録商標））中でＧＭ１２８７８を培養した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、ＧＭ１２８７８及びマウスからＤＮＡを抽出した。抽出されたＤＮＡ試料をＲＮａｓｅＡで処理し、続いて、ＧｅｎｏｍｉｃＤＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒｋｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップした。Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）上で精製したＤＮＡを定量化した。

以下のとおり、結合された合成スタンダードからのシーケンスリードを分析した。最初に以下のパラメータでシーケンスリードをインデックス（それぞれの個々のスタンダードを含む）にアラインした。ｂｏｗｔｉｅ２ −ｘｃｏｎｊｏｉｎｅｄ＿ｓｅｑｕｅｎｃｅｓ −１ＮＧＳｒｅａｄｓ．１．ｆｑ −２ＮＧＳｒｅａｄｓ．２．ｆｑ −Ｓｏｕｔｐｕｔ．ｓａｍ

次に、アライメント頻度に従ってそれぞれの個々のスタンダードの存在量を決定した。その後、重みつき正規化存在量の測定値と比較して、それぞれの個々のスタンダードの公知の重みつき正規化濃度（ホストする結合されたスタンダードの濃度及び結合されたスタンダード内のコピー数の双方に由来する）をグラフ化した（図３９）。これは、ピペット操作の変動の程度を示した。例えば、予測値より高い濃度で混合物中に混合された著しい異常値の結合されたスタンダードがみられる（図３９Ｂに示した）。この異常値が結合されたスタンダード内の全スタンダードに等しく影響を及ぼす場合、当該異常値が別のテクニカルな変動でなくピペット操作によるものであり、それゆえ、さらに分析する前に除去することができることを示す。

スタンダードの公知の濃度及び存在量の測定値間の０．９４５１の相関を決定した。次に、結合されたスタンダード内の個々のスタンダードの全てに調節を適用し、１の傾きが示された（上記に詳細が記載された）。調節がスタンダードの分布を改善し、異常値を調節し、相関が０．９８０６に改善され（図３９Ｃ）、ＤＮＡスタンダードの定量的精度の改善を示す。

実施例６１：
以下のとおり、融合遺伝子事象をミミックする合成スタンダードを用いる方法の１つの例を実施した。融合遺伝子事象は多くのヒト癌の一因となるが、これはＲＮＡシーケンシング方法を用いて同定するのが難しい可能性がある。合成ＲＮＡスタンダードを用いて、融合遺伝子をエミュレートし、これにより、融合遺伝子を検出する能力を評価することができる。この例では、ＲＮＡシーケンシング方法を校正するために合成融合遺伝子スタンダードを設計し、製造し、用いた。

２４の正常遺伝子（上記の実施例３６に記載されたＲＮＡスタンダードのリストから）を選択した。その後、それぞれの遺伝子のイントロン内の融合部位を割り当て、１２の相互融合転座事象をエミュレートするために部位を対にした。これらの１２の事象が、その後、２４の融合遺伝子の配列（それぞれの転座が２つの相互融合遺伝子を形成する；配列番号：２９１−３１４及び図４０を参照）を生成した。

発現ベクター中にホストされる融合遺伝子配列を生成するために、製造者のプロトコールに従ってＮＥＢｕｉｌｄｅｒ（登録商標）ＨｉＦｉＤＮＡＡｓｓｅｍｂｌｙＭａｓｔｅｒＭｉｘ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）を用いた。簡潔にいうと、４０μＬアリコットのα−ＳｅｌｅｃｔＳｉｌｖｅｒＥｆｆｉｃｉｅｎｃｙＣｈｅｍｉｃａｌｌｙＣｏｍｐｅｔｅｎｔＥ．ｃｏｌｉ（Ｂｉｏｌｉｎｅ）を氷上で解かし、製造者の推薦したプロトコールによって２μＬの希釈したＮＥＢｕｉｌｄｅｒ（登録商標）ＨｉＦｉＤＮＡＡｓｓｅｍｂｌｅｄ生成物で変換した。変換した細胞を予熱した１００μｇ／ｍＬアンピシリンプレート上にプレートし、３７℃で一晩（１８時間）、インキュベートした。それぞれのプレートからの１つのコロニーを用いて、１００μｇ／ｍＬアンピシリンを含有する５ｍＬＬＢ液体培地を接種した。シェーカー上で、３７℃で一晩、接種したチューブをインキュベートした。ＱｉａｇｅｎＳｐｉｎＭｉｎｉｐｒｅｐＫｉｔを用いてプラスミドを分離した。Ｓａｎｇｅｒシーケンシングで精製したプラスミドの配列を確認した。

合成ＲＮＡスタンダードを生成するために、ｉｎｖｉｔｒｏ転写反応を用いた。ＲＮＡ合成では、それぞれのプラスミドをＥｃｏＲＩ−ＨＦ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）で線状化し、続いて、プロテイナーゼＫ処理した。ＺｙｍｏＣｈＩＰＤＣＣｃｏｌｕｍｎｓ（ＺｙｍｏＲｅｓｅａｒｃｈ）を用いて線状化したプラスミドをクリーンアップした。ｉｎｖｉｔｒｏ転写反応を実施し、ＲＮＡ転写産物を合成した。製造者の指示書に従ってＭＥＧＡｓｃｒｉｐｔ（登録商標）Ｓｐ６ｋｉｔ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）を用いて完全長ＲＮＡ転写産物を合成した。製造者の＞２００ｎｔプロトコールを用いてＲＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒ−２５ｃｏｌｕｍｎ（ＺｙｍｏＲｅｓｅａｒｃｈ）を用いてＲＮＡを精製した。ＲＮＡＮａｎｏｋｉｔを有するＡｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）上で精製したＲＮＡ転写産物を確認し、ストック在庫に含めた。

合成融合遺伝子スタンダードを希釈し、互いの発現のダイナミックレンジを含み、正常な親遺伝子を有する１０⁶倍数濃度に及ぶ混合物を形成した。Ｑｕｂｉｔ２．０Ｆｌｕｏｒｏｍｅｔｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｃａｒｌｓｂａｄ、ＣＡ、ＵＳＡ）上で、全ＲＮＡ融合転写産物の濃度を測定した。ｅｐＭｏｔｉｏｎ５０７０ｅｐＢｌｕｅ（商標）ソフトウエアプログラムを用いてＲＮＡ融合転写産物をプールし、１０⁶倍濃度範囲に及ぶ最終混合物をロボット的にアセンブルした。これが最終混合物ストックを形成した。

融合遺伝子合成スタンダード混合物を２つのヒト細胞型Ｋ５６２及びＧＭ１２８７８に由来する天然ＲＮＡ試料に加えた。ＣｏｒｉｅｌｌＣｅｌｌＲｅｐｏｓｉｔｏｒｉｅｓ成長プロトコール及び標準に従ってＫ５６２及びＧＭ１２８７８細胞を培養した。簡潔にいうと、５％ＣＯ₂下で、３７℃で１０％胎児ウシ血清（ＦＢＳ）を補ったＲＰＭＩ１６４０培地（Ｇｉｂｃｏ（登録商標））中でＫ５６２及びＧＭ１２８７８を培養した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、Ｋ５６２及びＧＭ１２８７８から全ＲＮＡを抽出した。次に、それぞれの試料にＴＵＲＢＯＤＮａｓｅ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）でＤＮＡｓｅ処理を実施し、続いて、ＲＮＡＣｌｅａｎａｎｄＣｏｎｃｅｎｔｒａｔｏｒ−２５Ｋｉｔ（ＺｙｍｏＲｅｓｅａｒｃｈ）でクリーンアップを実施した。全ＲＮＡにＡｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒを実行し、無損傷を評価し、Ｎａｎｏｄｒｏｐ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）及びＱｕｂｉｔ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）の双方を用いて、濃度を決定した。ライブラリー調製のためにＲＮＡ完全性数（ＲＩＮ）＞８．０のＲＮＡだけを用いた。

Ｋ５６２ＲＮＡは、公知のＢＣＲ−ＡＢＬ融合遺伝子を含有する。１：１、１：１０及び１：１００倍数比で、連続希釈Ｋ５６２対ＧＭ１２８７８ＲＮＡを生成した。それぞれのライブラリー調製に１μｇの混合したＲＮＡを用いた。ライブラリー調製前にＫ５６２及びＧＭ１２８７８の混合物の全ＲＮＡ濃度の１０％でＲＮＡ融合スタンダードを添加した。Ｒｉｂｏ−Ｚｅｒｏ（商標）ＭａｇｎｅｔｉｃＫｉｔ（ヒト／マウス／ラット）（Ｅｐｉｃｅｎｔｒｅ）を用いてＲＮＡ混合物のリボソームを除去した。リボソーム除去ＲＮＡを用い、製造者のプロトコールに従ってＩｌｌｕｍｉｎａ（登録商標）プラットホームのためのＫＡＰＡＳｔｒａｎｄｅｄＲＮＡ−ＳｅｑＬｉｂｒａｒｙＰｒｅｐａｒａｔｉｏｎＫｉｔ（ＫＡＰＡＢｉｏｓｙｓｔｅｍｓ）を用いてライブラリーを調製した。シーケンシングのために試料をプールする前に、Ｑｕｂｉｔ２．０Ｆｌｕｏｒｏｍｅｔｅｒ上のＨＳｄｓＤＮＡＱｕｂｉｔＡｓｓａｙ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｃａｒｌｓｂａｄ、ＣＡ、ＵＳＡ）を用いて調製したライブラリーを定量化し、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）上で確認した。

以下のとおり、シーケンスリードを分析した。最初に、以下のとおり、可能にする融合サーチオプションでＴｏｐｈａｔ２アライナーを用いてシーケンスリードを合成染色体及びヒトゲノム配列（ｈｇ３８）の双方を含むインデックスにアラインした。ｔｏｐｈａｔ −−ｆｕｓｉｏｎ−ｓｅａｒｃｈ −Ｇｇｅｎｃｏｄｅ．ｖ２３．ａｎｎｏｔａｔｉｏｎ．ｃｈｒＴ＿ｒｎａ．ｇｔｆｈｇ３８．ｃｈｒＴ１００Ｋ＿ＲＦＭＸＡ．１．ｆｑ１００Ｋ＿ＲＦＭＸＡ．２．ｆｑ

その後、得られたアライメントファイル（ａｃｃｅｐｔｅｄ＿ｈｉｔｓ．ｂａｍ）及びｆｕｓｉｏｎ．ｏｕｔファイルを処理し、合成遺伝子性能を評価した。正確に１９（２４のうち）の融合遺伝子を同定し、同時に、残りの５つの未同定融合遺伝子が、７．５５７アトモル／μｌ以下の存在量を示し、この実験での融合遺伝子発見の感度の限界を示した。

次に、混合物内の融合遺伝子の公知の濃度に対して融合ジャンクションでのカバレッジをグラフ化した。０．９６５２のピアソンの相関及び１．１６６の傾きで、線形関係性がみられ、融合遺伝子カバレッジが融合遺伝子発現の好適な測定値を提供することを示す（図４０を参照）。測定値として合成融合遺伝子を用いて、Ｋ５６２ＲＮＡ試料中のＢＣＲ−ＡＢＬ遺伝子にアラインする約１６リードとほぼ同じである約２１リードがＦＧ１＿１２＿Ｐ２融合遺伝子にアラインしたことがわかり、この融合遺伝子の発現が付随する試料中で少なく（Ｋ５６２ＲＮＡが約１０％で希釈されている）、約１．６アトモル／μｌであることを示す。

実施例６２：
以下のとおり、生殖細胞系変動をミミックする合成スタンダードを用いる方法の１つの例を実施した。倍数体ヒトゲノム中の生殖細胞系変動は、主としてホモ接合体及びヘテロ接合体対立遺伝子頻度で、生じる。ホモ接合体遺伝子型は、単一のＤＮＡスタンダードによって表すことができ、同時に、等しい頻度で２つの対立遺伝子を含むヘテロ接合体変動は、２つのＤＮＡスタンダードを必要とする。２つを越える対立遺伝子が集団中に存在してよく、それぞれの対立遺伝子の典型である新しいＤＮＡスタンダードが必要である。しかし、ヒトゲノムは、倍数体（すなわち、それぞれの常染色体性染色体の２つのコピーがある）であるため、２つのスタンダードだけが、個々のヒトの倍数体ゲノムをミミックする任意の１回で必要となる。

これを示すために、等しい（すなわち、ヘテロ接合体）または単一の（すなわち、ホモ接合体）濃度で、１３８の別の単一のヌクレオチド変異（ＳＮＶ）の典型であるＤＮＡスタンダードを混合した。ｅｐＭｏｔｉｏｎ５０７０ｅｐＢｌｕｅ（商標）ソフトウエアプログラムを用いてＤＮＡスタンダードをプールし、最終混合物をロボット的に生成した。その後、ＤＮＡスタンダードをＧＭ１２８７８ヒト細胞株から抽出されたゲノムＤＮＡに添加した。製造者の指示書に従ってＴＲＩｚｏｌ（Ｉｎｖｉｔｒｏｇｅｎ）を用いて、ＧＭ１２８７８及びマウスからＤＮＡを抽出した。製造者の指示書に従ってＮｅｘｔｅｒａＸＴＳａｍｐｌｅＰｒｅｐＫｉｔ（Ｉｌｌｕｍｉｎａ（登録商標））を用いて、ＤＮＡライブラリーを調製した。Ｑｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）で、調製したライブラリーを定量化し、ＡｇｉｌｅｎｔＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡＫｉｔを有するＡｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）上で確認した。ＫｉｎｇｈｏｒｎＣｅｎｔｒｅｆｏｒＣｌｉｎｉｃａｌＧｅｎｏｍｉｃｓでＨｉＳｅｑ２５００（Ｉｌｌｕｍｉｎａ（登録商標））上でライブラリーをシーケンスした。その後、デフォルトパラメータでＢＷＡＭＥＭ（ＬｉａｎｄＤｕｒｂｉｎ２００９）を用いてシーケンスリードをヒトゲノム（ｈｇ３８）及び合成染色体の双方にアラインした。その後、ベストプラクティスに従ってＧｅｎｏｍｅＡｎａｌｙｓｉｓＴｏｏｌｋｉｔ（ＧＡＴＫ）を用いて得られたアライメントを分析した。３０倍カバレッジで、合成染色体中のホモ接合体の８９％及びヘテロ接合体ＳＮＰの７１％を同定した（図４１Ａ）。変異検出のこの感度は、付随するＮＡ１２８７８ゲノムとほぼ同じであり、事前に記載された変異アノテーションとの比較によってホモ接合体の８６％及びヘテロ接合体ＳＮＰの６３％を同定したことを明記する（Ｚｏｏｋ、Ｊ．Ｍ．ｅｔａｌ．、２０１４）。

実施例６３：
以下のとおり、体細胞変動をミミックする合成スタンダードを用いる方法の１つの例を実施した。体細胞変動は、多くの状態を実証することができ、癌の腫瘍変動がそのうちで最も重要である。ホモ接合体またはヘテロ接合体のいずれかであり、所与の個体の全細胞中に存在する生殖細胞系変動と異なり、体細胞変動は、腫瘍試料内の細胞のフラクション（サブクローン集団）だけに存在する可能性があり、また、腫瘍ゲノム中の頻繁な再配列及びコピー数変動によって混同される可能性がある。例えば、腫瘍が、その細胞系列に従って別個の遺伝子型を有する複数のクローン細胞集団を含む可能性がある。結果として、体細胞変動は、広い範囲の異なる頻度で存在する可能性がある。

一定の範囲の頻度で１３８の体細胞変動の典型であるＤＮＡスタンダードの使用を示すために、参照対立遺伝子に対して２倍連続希釈でＤＮＡスタンダードを混合し、１：２（すなわち、ヘテロ接合体）から１：４０９６までの対立遺伝子頻度のスケールを確立した（図４２Ａ）。実施例６２に記載された方法を用いて、ＤＮＡスタンダードを調製し、混合し、ＮＡ１２８７８ゲノムＤＮＡに添加し、シーケンスした。ＫｉｎｇｈｏｒｎＣｅｎｔｒｅｆｏｒＣｌｉｎｉｃａｌＧｅｎｏｍｉｃｓでＨｉＳｅｑ２５００（Ｉｌｌｕｍｉｎａ（登録商標））上でライブラリーをシーケンスした。その後、デフォルトパラメータでＢＷＡＭＥＭ（ＬｉａｎｄＤｕｒｂｉｎ２００９）を用いてシーケンスリードをヒトゲノム（ｈｇ３８）及び合成染色体の双方にアラインした。その後、デフォルトパラメータでＶａｒＳｃａｎ２（Ｋｏｂｏｌｄｔｅｔａｌ．２００９）を用いて得られたアライメントを分析し、ＤＮＡスタンダードによって表される遺伝的変動を同定し、その相対頻度（すなわち、変動型対立遺伝子頻度）を定量化した。

変異の公知の濃度をその頻度の測定値に対してグラフ化した（図４２Ｂ）。これは、異なる対立遺伝子頻度で同定される変異の精度を示し、濃度の予測値及び存在量の測定値間の相関が、変異対立遺伝子頻度を測定する定量的精度、及び正確に変異を同定し、その頻度を測定することができる感度の限界を示す。対立遺伝子頻度のスケールは、付随する試料内のクローン部分母集団の相対的サイズを評価することができる参照を提供する。

高い２５，０００倍カバレッジで、２つの変異を除いて全てについて少なくとも１つの支持リードを同定することができ、例外のその双方とも最もまれな対立遺伝子フラクションに属する（１／４０９６；図４２Ｂ）。しかし、このカバレッジで、また、シーケンシング及びアライメントエラーによって生成したＤＮＡスタンダード中の＞２０００の偽陽性の可能性がある変異コールがみられ、さらに、変異候補をフィルターする必要があることを示す。それゆえ、次に、ＤＮＡスタンダードを用いて、必要な感度及び特異性に従ってｐ−値（ＶａｒＳｃａｎ２によって実施されたとおり、参照及び変異対立遺伝子を支持するリードカウントのフィッシャーの正確確率検定を含む）閾値を実験的に決定した。例えば、１ｘ１０^-6のｐ−値閾値が、体細胞変異を同定するための５４％の感度及び８２％の特異性を提供する。しかし、この厳密性を適用すると、アッセイの感度が１／１２８の対立遺伝子頻度（すなわち、１％未満頻度；図４２Ｃ、Ｄ）に制限される。

実施例６４：
以下のとおり、複合遺伝子型をミミックする合成スタンダードを用いる方法の１つの例を実施した。染色体異数性の場合、または複数の個々の遺伝子型が同時にサンプル抽出される場合、より多くの複合遺伝子型がみられる可能性がある。例えば、妊婦の血液中で循環するＤＮＡが考慮される場合、２つのオーバーラップしている遺伝子型、胎児（母親及び父親の双方の対立遺伝子を構成する）及び母親（２つの母親の対立遺伝子を構成する）が検出される。胎児対立遺伝子は、胎児に由来する循環ＤＮＡのフラクションと共に（これは妊娠中に母親の循環ＤＮＡの約１〜４０％から変えることができる）ホモ接合体及びヘテロ接合体対立遺伝子頻度の双方に従って、一定の範囲の濃度でみられる可能性がある。対立遺伝子頻度は、さらに、常染色体性染色体が、非倍数体頻度で、例えば、２１−トリソミー、最も一般的な遺伝的先天異常で存在する染色体異数性によって複雑化する可能性がある。例えば、染色体２１の変異の典型であるＤＮＡスタンダードを、他の常染色体性染色体の変動の典型であるＤＮＡスタンダードより１．５倍のより高い頻度で添加し、２１−トリソミーをエミュレートした。それゆえ、ＤＮＡスタンダードによって表される対立遺伝子頻度は、（ｉ）遺伝子型頻度（すなわち、ヘテロ接合体またはホモ接合体）（ｉｉ）循環中の胎児及び母親のＤＮＡの相対的存在量及び（ｉｉｉ）胎児ゲノム中のコピー数変動（例えば、染色体異数性）の混合に反映する。

胎児及び母親の遺伝子型の布置の典型である１２０のＤＮＡスタンダードを設計した（参照及び変異の双方；配列番号：３１５〜４３４）。それぞれのスタンダードは、通常、循環中にみられるＤＮＡフラグメントサイズに相当する約１６０ｎｔ長である。その後、一定の範囲の濃度でＤＮＡスタンダードを混合し、妊婦の血液内で循環する胎児及び母親のＤＮＡの相対的存在量をエミュレートした（図４２Ｅ）。例えば、等しい濃度でヘテロ接合体遺伝子型の典型である２つの胎児ＤＮＡスタンダードを混合し、その後、これらの２つのスタンダードを１０％フラクション濃度で母親のＤＮＡスタンダードに混合し、これにより、血液から取り出した循環ＤＮＡの残りの９０％を表す。

さらに、これを示すために、１２０の異なる変異事象を表したＤＮＡスタンダードの混合物からシミュレートしたライブラリー（上記のこの実施例に記載された方法を用いて）を生成した。当該混合物は、一定の範囲の異なる胎児ＤＮＡロード（０、１、１０、２５及び５０％）で一定の範囲の４つの異なる遺伝子型組み合わせ（胎児及び母親のホモ接合体及びヘテロ接合体）を包含し、追加の１．５倍濃縮で、ヒト染色体２１からの変動の典型であるＤＮＡスタンダードのサブセットを添加し、２１−トリソミーをエミュレートした。デフォルトパラメータでＢＷＡＭＥＭ（ＬｉａｎｄＤｕｒｂｉｎ２００９）を用いてシーケンスリードを合成染色体にアラインした。その後、デフォルトパラメータでＶａｒＳｃａｎ２（Ｋｏｂｏｌｄｔｅｔａｌ．２００９）を用いて得られたアライメントを分析し、ＤＮＡスタンダードによって表される遺伝的変動を同定し、その相対頻度（すなわち、変動型対立遺伝子頻度）を定量化した。実測遺伝子型頻度に対して予測値をグラフ化して、付随する試料中の胎児変異を測定することができる参照スケールを提供し、胎児遺伝子型及び染色体異数性の決定を知らせる。

実施例６５：
以下のとおり、テンプレート配列をリバースすることによるスタンダードの生成方法の１つの例を実施した。特に、以下の例は、コードされるタンパク質中でミスセンス置換（Ｖ６１７Ｅ）を生じさせ、癌と関係するＪＡＫ２遺伝子（ＣＯＳＭ１２６００）中で１，８４９ｎｔで生じる置換変動（Ｇ＞Ｔ）をエミュレートするためにどのようにＤＮＡスタンダードを設計するかを示す。

ＤＮＡスタンダードを生成するために、最初に、約２００ｎｔフランキング配列と共に参照及び変異対立遺伝子の双方を取り出した。ヒトゲノム内のオリジナル遺伝子座との相同性を阻止するために、当該配列をリバースした。ＣＯＳＭ１２６００参照対立遺伝子の典型であるＤＮＡスタンダードのリバースされたＤＮＡ配列は、配列番号：４３５に記載され、変異対立遺伝子は、配列番号：４３６に記載されている。

次に、偶然によるヒトゲノムとの有意な相同性を保持するＤＮＡスタンダード内のサブ配列を同定した。有意な（Ｅ−値＞０．０１）相同性を有するＤＮＡスタンダード配列（ＴＴＣＴＧＡＴＴＣＣＴＴＴＴＴＴＴＴＴＴＣＡＴＧＴＴＴＣＴＴＡＡＣＡ（配列番号：４３７））の３５ｎｔ小領域を同定した。その後、（ｉ）シャッフリング、これによりヌクレオチドが相同性を除去するために新しい順序にシャッフルされる（例えばＣＴＴＡＴＴＴＴＴＴＴＣＡＴＴＣＴＧＴＴＣＣＴＡＴＡＴＴＴＴＣＧＡＴ（配列番号：４３８））（ｉｉ）置換、これにより全ＧがＣに置換され、全ＣがＧに置換され、全ＡがＴに置換され及び全ＴがＡに置換される（例えば、ＧＡＡＴＡＡＡＡＡＡＡＧＴＡＡＧＡＣＡＡＧＧＡＴＡＴＡＡＡＡＧＣＴＡ（配列番号：４３９））のいずれかによって、この配列を修飾した。この場合には、シャッフリングは、オリジナル配列と同じヌクレオチド含有率を維持するが、配列反復性のいずれかをやめ、一方、置換は、配列反復性を維持するが、ヌクレオチド組成物を修飾する（しかし、相対的ピリミジン及びプリン含有率は維持される）。ＣＯＳＭ１２６００参照対立遺伝子の典型であるＤＮＡスタンダードの最終ＤＮＡ配列は、配列番号：４４０に記載され、変異対立遺伝子は、配列番号：４４１に記載されている。

同様に、変動のいずれかのＤＮＡスタンダードを設計するために本方法を使用することができる。実例として、ＢＲＡＦ（ＣＯＳＭ４７６；配列番号：４４２、配列番号：４４３）、ＫＲＡＳ（ＣＯＳＭ５２１；配列番号：４４４、配列番号：４４５）、ＩＤＨ１（ＣＯＳＭ２８７４６；配列番号：４４６、配列番号：４４７）、ＥＧＦＲ（ＣＯＳＭ６２２４；配列番号：４４８、配列番号：４４９）、ＦＧＦＲ３（ＣＯＳＭ７１５；配列番号：４５０、配列番号：４５１）、ＰＩＫ３ＣＡ（ＣＯＳＭ７７５；配列番号：４５２、配列番号：４５３）、ＭＹＤ８８（ＣＯＳＭ８５９４０；配列番号：４５４、配列番号：４５５）、キット（ＣＯＳＭ１３１４；配列番号：４５６、配列番号：４５７）、ＣＴＮＮＢ１（ＣＯＳＭ５６６４；配列番号：４５８、配列番号：４５９）、ＮＲＡＳ（ＣＯＳＭ５８４；配列番号：４６０、配列番号：４６１）、ＤＮＭＴ３Ａ（ＣＯＳＭ５２９４４；配列番号：４６２、配列番号：４６３）及びＦＯＸＬ２（ＣＯＳＭ３３６６１；配列番号：４６４、配列番号：４６５）中の変動を含む臨床的重要性がある一定の範囲の変動の典型であるＤＮＡスタンダードを生成した。

実施例６６：
以下のとおり、テンプレート配列をリバースすることによって小規模または大規模な遺伝的変動をミミックするスタンダードの生成方法の１つの例を実施した。欠失または挿入などのより大きな構造的遺伝的事象を表す場合、変動を取り巻く配列反復性及び構造を維持することが重要である可能性があり、これは、局所リードアライメントが大きな変異の構造を分解するのにきわめて重要である可能性があるためである。それゆえ、ＤＮＡスタンダードを生成するためのテンプレート配列のリバージョン及び／または置換は、大きな構造的変異を表し、天然の大きな構造的変異にみられる多くは複合のアーキテクチャ及び反復配列構造を維持するのに特に有利な方法を提供する。

この実施例は、ＥＧＲＦ遺伝子中の１７ｎｔ欠失（ＧＡＡＴＴＡＡＧＡＧＡＡＧＣＡＡ（配列番号：４６６）；ＣＯＳＭ６２２３）をエミュレートするためにどのようにしてＤＮＡスタンダードを設計したかを示す。最初に参照及び変異（すなわち、１７ｎｔ欠失を有する）ＥＧＲＦ配列に隣接する２００ｎｔの配列を取り出した。その後、３’から５’へ配列をリバースし、第２に、偶然によってヒトゲノムとの相同性（配列逆転にかかわらず）を保持したヌクレオチドのいずれも置換した。ＥＧＲＦ欠失（ＣＯＳＭ６２２３）の典型である最終ＤＮＡスタンダード配列は、配列番号：４６７（参照）及び配列番号：４６８（変異）で提供される。

重要なことに、挿入事象の典型であるＤＮＡスタンダードは、挿入切断点部位に隣接している配列をリバースする（３’から５’へ）だけでなく、切断点に挿入される配列をリバースするのにも必要である。これを示すために、ＥＲＢＢ２遺伝子中で生じる１４ｎｔ挿入（ＣＯＳＭ２０９５９）の典型であるＤＮＡスタンダードを設計した。この場合には、変動ならびに変異挿入配列に隣接する２００ｎｔ配列を取り出した（ＣＡＴＡＣＧＴＧＡＴＧＧＣ（配列番号：４６９））。その後、参照配列及び変異配列（挿入を含有する）をリバースし、続いて、ヌクレオチドを偶然によってヒトゲノムへの相同性を保持した部分配列のいずれかに置換した。ＥＲＢＢ２挿入の典型である最終ＤＮＡスタンダード配列は、配列番号：４７０（参照）及び配列番号：４７１（変異）で提供される。

実例として、ＥＧＦＲ（ＣＯＳＭ６２２３；配列番号：４７２、配列番号：４７３）、ＩＬ７Ｒ（ＣＯＳＭ２１４５８６；配列番号：４７４、配列番号：４７５）、ＩＬ６ＳＴ（ＣＯＳＭ２５１３６１；配列番号：４７６、配列番号：４７７）、キット（ＣＯＳＭ１３２６；配列番号：４７８、配列番号：４７９）遺伝子中の挿入及び欠失を含む、臨床的重要性がある一定の範囲の構造的変異の典型であるＤＮＡスタンダード配列を生成した。

当業者であれば、本明細書に記載された開示は、特に記載したもの以外に変更及び修正の余地があることを理解する。本開示は、かかる変動及び修飾の全てを含むと理解しなければならない。本開示は、また、本明細書に引用した、またはこれに示したステップ、特徴、組成物及び化合物の全て、これを個々に、またはまとめて、ならびに前記ステップまたは特徴のいずれか及び全ての組み合わせまたはいずれかの２つ以上を含む。本開示の広く一般的な範囲から逸脱することなく、上記に記載された実施形態に多くの変更及び／または修正が生じる可能性があることが、当業者によって理解される。それゆえ、本実施形態は、あらゆる点で、例示するものであり、制限するものではないと考えなければならない。機能的に均等である生成物、組成物及び方法は、本明細書に記載されたとおり、明白に本開示の範囲内である。

表：

文献：
・Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．，Ｇｉｓｈ，Ｗ．，Ｍｉｌｌｅｒ，Ｗ．，Ｍｙｅｒｓ，Ｅ．Ｗ．＆Ｌｉｐｍａｎ，Ｄ．Ｊ．Ｂａｓｉｃｌｏｃａｌａｌｉｇｎｍｅｎｔｓｅａｒｃｈｔｏｏｌ．ＪＭｏｌＢｉｏｌ２１５，４０３−１０（１９９０）。
・Ａｎｄｅｒｓ，Ｓ．，Ｄ．Ｊ．ＭｃＣａｒｔｈｙ，Ｙ．Ｃｈｅｎ，Ｍ．Ｏｋｏｎｉｅｗｓｋｉ，Ｇ．Ｋ．Ｓｍｙｔｈ，Ｗ．ＨｕｂｅｒａｎｄＭ．Ｄ．Ｒｏｂｉｎｓｏｎ（２０１３）．”Ｃｏｕｎｔ−ｂａｓｅｄｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｏｆＲＮＡｓｅｑｕｅｎｃｉｎｇｄａｔａｕｓｉｎｇＲａｎｄＢｉｏｃｏｎｄｕｃｔｏｒ．” ＮａｔＰｒｏｔｏｃ８（９）：１７６５−１７８６。
・Ｂａｋｅｒ，Ｓ．Ｃ．ｅｔａｌ．ＴｈｅＥｘｔｅｒｎａｌＲＮＡＣｏｎｔｒｏｌｓＣｏｎｓｏｒｔｉｕｍ：ａｐｒｏｇｒｅｓｓｒｅｐｏｒｔ．ＮａｔＭｅｔｈｏｄｓ２，７３１−４（２００５）。
・Ｂｅｎｔｌｅｙ，Ｄ．Ｒ．ｅｔａｌ．Ａｃｃｕｒａｔｅｗｈｏｌｅｈｕｍａｎｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｒｅｖｅｒｓｉｂｌｅｔｅｒｍｉｎａｔｏｒｃｈｅｍｉｓｔｒｙ．Ｎａｔｕｒｅ４５６，５３−９（２００８）。
・Ｂｅｒｎｓｔｅｉｎ，Ｂ．Ｅ．ｅｔａｌ．Ｇｅｎｏｍｉｃｍａｐｓａｎｄｃｏｍｐａｒａｔｉｖｅａｎａｌｙｓｉｓｏｆｈｉｓｔｏｎｅｍｏｄｉｆｉｃａｔｉｏｎｓｉｎｈｕｍａｎａｎｄｍｏｕｓｅ．Ｃｅｌｌ１２０，１６９−８１（２００５）。
・Ｂｏｌｏｔｉｎ，Ｄ．Ａ．，Ｉ．Ｚ．Ｍａｍｅｄｏｖ，Ｏ．Ｖ．Ｂｒｉｔａｎｏｖａ，Ｉ．Ｖ．Ｚｖｙａｇｉｎ，Ｄ．Ｓｈａｇｉｎ，Ｓ．Ｖ．Ｕｓｔｙｕｇｏｖａ，Ｍ．Ａ．Ｔｕｒｃｈａｎｉｎｏｖａ，Ｓ．Ｌｕｋｙａｎｏｖ，Ｙ．Ｂ．ＬｅｂｅｄｅｖａｎｄＤ．Ｍ．Ｃｈｕｄａｋｏｖ ”ＮｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｆｏｒＴＣＲｒｅｐｅｒｔｏｉｒｅｐｒｏｆｉｌｉｎｇ：ｐｌａｔｆｏｒｍ−ｓｐｅｃｉｆｉｃｆｅａｔｕｒｅｓａｎｄｃｏｒｒｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｓ．” ＥｕｒＪＩｍｍｕｎｏｌ４２（１１）：３０７３−３０８３（２０１２）。
・Ｂｕｒｓｅｔ，Ｍ．ａｎｄＲ．Ｇｕｉｇｏ ”Ｅｖａｌｕａｔｉｏｎｏｆｇｅｎｅｓｔｒｕｃｔｕｒｅｐｒｅｄｉｃｔｉｏｎｐｒｏｇｒａｍｓ．” Ｇｅｎｏｍｉｃｓ３４（３）：３５３−３６７（１９９６）。
・Ｃａｒｌｓｏｎ，Ｃ．，Ｏ’Ｅｍｅｒｓｏｎ，Ｒ．，Ｓｈｅｒｗｏｏｄ，Ａ．，Ｄｅｓｍａｒａｉｓ，Ｃ．，Ｃｈｕｎｇ，Ｍ−Ｗ．，Ｐａｒｓｏｎｓ，Ｊ．，Ｓｔｅｅｎ，Ｍ．，ＡＬａＭａｄｒｉｄ−Ｈｅｒｒｍａｎｎｓｆｅｌｄｔ，Ｍ．，Ｗｉｌｌｉａｍｓｏｎ，Ｄ．，Ｌｉｖｉｎｇｓｔｏｎ，Ｒ．，Ｗｕ，Ｄ．，Ｗｏｏｄ，Ｂ，Ｒｉｅｄｅｒ，Ｍ．＆Ｒｏｂｉｎｓ，Ｈ．”ＵｓｉｎｇｓｙｎｔｈｅｔｉｃｔｅｍｐｌａｔｅｓｔｏｄｅｓｉｇｎａｎｕｎｂｉａｓｅｄｍｕｌｔｉｐｌｅｘＰＣＲａｓｓａｙ．” ＮａｔｕｒｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ４，Ａｒｔｉｃｌｅｎｕｍｂｅｒ２６８０（２０１３）。
・Ｃｈｅｎ，Ｋ．，Ｊ．Ｗ．Ｗａｌｌｉｓ，Ｍ．Ｄ．ＭｃＬｅｌｌａｎ，Ｄ．Ｅ．Ｌａｒｓｏｎ，Ｊ．Ｍ．Ｋａｌｉｃｋｉ，Ｃ．Ｓ．Ｐｏｈｌ，Ｓ．Ｄ．ＭｃＧｒａｔｈ，Ｍ．Ｃ．Ｗｅｎｄｌ，Ｑ．Ｚｈａｎｇ，Ｄ．Ｐ．Ｌｏｃｋｅ，Ｘ．Ｓｈｉ，Ｒ．Ｓ．Ｆｕｌｔｏｎ，Ｔ．Ｊ．Ｌｅｙ，Ｒ．Ｋ．Ｗｉｌｓｏｎ，Ｌ．ＤｉｎｇａｎｄＥ．Ｒ．Ｍａｒｄｉｓ（２００９）．”ＢｒｅａｋＤａｎｃｅｒ：ａｎａｌｇｏｒｉｔｈｍｆｏｒｈｉｇｈ−ｒｅｓｏｌｕｔｉｏｎｍａｐｐｉｎｇｏｆｇｅｎｏｍｉｃｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎ．” ＮａｔＭｅｔｈｏｄｓ６（９）：６７７−６８１。
・Ｃｈｅｎ，Ｙ．Ｃ．，Ｌｉｕ，Ｔ．，Ｙｕ，Ｃ．Ｈ．，Ｃｈｉａｎｇ，Ｔ．Ｙ．＆Ｈｗａｎｇ，Ｃ．Ｃ．ＥｆｆｅｃｔｓｏｆＧＣｂｉａｓｉｎｎｅｘｔ−ｇｅｎｅｒａｔｉｏｎ−ｓｅｑｕｅｎｃｉｎｇｄａｔａｏｎｄｅｎｏｖｏｇｅｎｏｍｅａｓｓｅｍｂｌｙ．ＰＬｏＳＯｎｅ８，ｅ６２８５６（２０１３）。
・Ｃｌａｒｋｅ，Ｊ．ｅｔａｌ．Ｃｏｎｔｉｎｕｏｕｓｂａｓｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｆｏｒｓｉｎｇｌｅ−ｍｏｌｅｃｕｌｅｎａｎｏｐｏｒｅＤＮＡｓｅｑｕｅｎｃｉｎｇ．ＮａｔＮａｎｏｔｅｃｈｎｏｌ４，２６５−７０（２００９）。
・Ｃｏｎｓｏｒｔｉｕｍ，Ｅ．（２００５）．”ＰｒｏｐｏｓｅｄｍｅｔｈｏｄｓｆｏｒｔｅｓｔｉｎｇａｎｄｓｅｌｅｃｔｉｎｇｔｈｅＥＲＣＣｅｘｔｅｒｎａｌＲＮＡｃｏｎｔｒｏｌｓ．” ＢＭＣＧｅｎｏｍｉｃｓ６：１５０。
・Ｃｏｗａｒｄ，Ｅ．（１９９９）．”Ｓｈｕｆｆｌｅｔ：ｓｈｕｆｆｌｉｎｇｓｅｑｕｅｎｃｅｓｗｈｉｌｅｃｏｎｓｅｒｖｉｎｇｔｈｅｋ−ｌｅｔｃｏｕｎｔｓ．” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１５（１２）：１０５８−１０５９。
・Ｄａｖｉｅｓ，Ｈ．ｅｔａｌ．ＭｕｔａｔｉｏｎｓｏｆｔｈｅＢＲＡＦｇｅｎｅｉｎｈｕｍａｎｃａｎｃｅｒ．Ｎａｔｕｒｅ４１７，９４９−５４（２００２）。
・ＤｅＰｒｉｓｔｏ，Ｍ．Ａ．，Ｅ．Ｂａｎｋｓ，Ｒ．Ｐｏｐｌｉｎ，Ｋ．Ｖ．Ｇａｒｉｍｅｌｌａ，Ｊ．Ｒ．Ｍａｇｕｉｒｅ，Ｃ．Ｈａｒｔｌ，Ａ．Ａ．Ｐｈｉｌｉｐｐａｋｉｓ，Ｇ．ｄｅｌＡｎｇｅｌ，Ｍ．Ａ．Ｒｉｖａｓ，Ｍ．Ｈａｎｎａ，Ａ．ＭｃＫｅｎｎａ，Ｔ．Ｊ．Ｆｅｎｎｅｌｌ，Ａ．Ｍ．Ｋｅｒｎｙｔｓｋｙ，Ａ．Ｙ．Ｓｉｖａｃｈｅｎｋｏ，Ｋ．Ｃｉｂｕｌｓｋｉｓ，Ｓ．Ｂ．Ｇａｂｒｉｅｌ，Ｄ．ＡｌｔｓｈｕｌｅｒａｎｄＭ．Ｊ．Ｄａｌｙ（２０１１）．”Ａｆｒａｍｅｗｏｒｋｆｏｒｖａｒｉａｔｉｏｎｄｉｓｃｏｖｅｒｙａｎｄｇｅｎｏｔｙｐｉｎｇｕｓｉｎｇｎｅｘｔ−ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇｄａｔａ．” ＮａｔＧｅｎｅｔ４３（５）：４９１−４９８。
・Ｄｏｂｉｎ，Ａ．，Ｃ．Ａ．Ｄａｖｉｓ，Ｆ．Ｓｃｈｌｅｓｉｎｇｅｒ，Ｊ．Ｄｒｅｎｋｏｗ，Ｃ．Ｚａｌｅｓｋｉ，Ｓ．Ｊｈａ，Ｐ．Ｂａｔｕｔ，Ｍ．ＣｈａｉｓｓｏｎａｎｄＴ．Ｒ．Ｇｉｎｇｅｒａｓ（２０１３）．”ＳＴＡＲ：ｕｌｔｒａｆａｓｔｕｎｉｖｅｒｓａｌＲＮＡ−ｓｅｑａｌｉｇｎｅｒ．” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２９（１）：１５−２１。
・Ｅｄｗａｒｄｓ，Ｒ．Ａ．ｅｔａｌ．Ｕｓｉｎｇｐｙｒｏｓｅｑｕｅｎｃｉｎｇｔｏｓｈｅｄｌｉｇｈｔｏｎｄｅｅｐｍｉｎｅｍｉｃｒｏｂｉａｌｅｃｏｌｏｇｙ．ＢＭＣＧｅｎｏｍｉｃｓ７，５７（２００６）。
・Ｅｉｄ，Ｊ．ｅｔａｌ．Ｒｅａｌ−ｔｉｍｅＤＮＡｓｅｑｕｅｎｃｉｎｇｆｒｏｍｓｉｎｇｌｅｐｏｌｙｍｅｒａｓｅｍｏｌｅｃｕｌｅｓ．Ｓｃｉｅｎｃｅ３２３，１３３−８（２００９）。
・Ｆｕｔｒｅａｌ，Ｐ．Ａ．，Ｌ．Ｃｏｉｎ，Ｍ．Ｍａｒｓｈａｌｌ，Ｔ．Ｄｏｗｎ，Ｔ．Ｈｕｂｂａｒｄ，Ｒ．Ｗｏｏｓｔｅｒ，Ｎ．ＲａｈｍａｎａｎｄＭ．Ｒ．Ｓｔｒａｔｔｏｎ（２００４）．”Ａｃｅｎｓｕｓｏｆｈｕｍａｎｃａｎｃｅｒｇｅｎｅｓ．” ＮａｔＲｅｖＣａｎｃｅｒ４（３）：１７７−１８３。
・Ｇｒｏｓｖｅｌｄ，Ｇ．，Ｔ．Ｖｅｒｗｏｅｒｄ，Ｔ．ｖａｎＡｇｔｈｏｖｅｎ，Ａ．ｄｅＫｌｅｉｎ，Ｋ．Ｌ．Ｒａｍａｃｈａｎｄｒａｎ，Ｎ．Ｈｅｉｓｔｅｒｋａｍｐ，Ｋ．ＳｔａｍａｎｄＪ．Ｇｒｏｆｆｅｎ（１９８６）．”ＴｈｅｃｈｒｏｎｉｃｍｙｅｌｏｃｙｔｉｃｃｅｌｌｌｉｎｅＫ５６２ｃｏｎｔａｉｎｓａｂｒｅａｋｐｏｉｎｔｉｎｂｃｒａｎｄｐｒｏｄｕｃｅｓａｃｈｉｍｅｒｉｃｂｃｒ／ｃ−ａｂｌｔｒａｎｓｃｒｉｐｔ．” ＭｏｌＣｅｌｌＢｉｏｌ６（２）：６０７−６１６。
・Ｈａａｓ，Ｂ．Ｊ．，Ａ．Ｐａｐａｎｉｃｏｌａｏｕ，Ｍ．Ｙａｓｓｏｕｒ，Ｍ．Ｇｒａｂｈｅｒｒ，Ｐ．Ｄ．Ｂｌｏｏｄ，Ｊ．Ｂｏｗｄｅｎ，Ｍ．Ｂ．Ｃｏｕｇｅｒ，Ｄ．Ｅｃｃｌｅｓ，Ｂ．Ｌｉ，Ｍ．Ｌｉｅｂｅｒ，Ｍ．Ｄ．Ｍａｃｍａｎｅｓ，Ｍ．Ｏｔｔ，Ｊ．Ｏｒｖｉｓ，Ｎ．Ｐｏｃｈｅｔ，Ｆ．Ｓｔｒｏｚｚｉ，Ｎ．Ｗｅｅｋｓ，Ｒ．Ｗｅｓｔｅｒｍａｎ，Ｔ．Ｗｉｌｌｉａｍ，Ｃ．Ｎ．Ｄｅｗｅｙ，Ｒ．Ｈｅｎｓｃｈｅｌ，Ｒ．Ｄ．Ｌｅｄｕｃ，Ｎ．ＦｒｉｅｄｍａｎａｎｄＡ．Ｒｅｇｅｖ（２０１３）．”ＤｅｎｏｖｏｔｒａｎｓｃｒｉｐｔｓｅｑｕｅｎｃｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎｆｒｏｍＲＮＡ−ｓｅｑｕｓｉｎｇｔｈｅＴｒｉｎｉｔｙｐｌａｔｆｏｒｍｆｏｒｒｅｆｅｒｅｎｃｅｇｅｎｅｒａｔｉｏｎａｎｄａｎａｌｙｓｉｓ．” ＮａｔＰｒｏｔｏｃ８（８）：１４９４−１５１２。
・Ｈａｒｒｏｗ，Ｊ．，Ｆ．Ｄｅｎｏｅｕｄ，Ａ．Ｆｒａｎｋｉｓｈ，Ａ．Ｒｅｙｍｏｎｄ，Ｃ．Ｋ．Ｃｈｅｎ，Ｊ．Ｃｈｒａｓｔ，Ｊ．Ｌａｇａｒｄｅ，Ｊ．Ｇ．Ｇｉｌｂｅｒｔ，Ｒ．Ｓｔｏｒｅｙ，Ｄ．Ｓｗａｒｂｒｅｃｋ，Ｃ．Ｒｏｓｓｉｅｒ，Ｃ．Ｕｃｌａ，Ｔ．Ｈｕｂｂａｒｄ，Ｓ．Ｅ．ＡｎｔｏｎａｒａｋｉｓａｎｄＲ．Ｇｕｉｇｏ（２００６）．”ＧＥＮＣＯＤＥ：ｐｒｏｄｕｃｉｎｇａｒｅｆｅｒｅｎｃｅａｎｎｏｔａｔｉｏｎｆｏｒＥＮＣＯＤＥ．” ＧｅｎｏｍｅＢｉｏｌ７Ｓｕｐｐｌ１：Ｓ４１−９。
・Ｈａｒｒｏｗ，Ｊ．，Ａ．Ｆｒａｎｋｉｓｈ，Ｊ．Ｍ．Ｇｏｎｚａｌｅｚ，Ｅ．Ｔａｐａｎａｒｉ，Ｍ．Ｄｉｅｋｈａｎｓ，Ｆ．Ｋｏｋｏｃｉｎｓｋｉ，Ｂ．Ｌ．Ａｋｅｎ，Ｄ．Ｂａｒｒｅｌｌ，Ａ．Ｚａｄｉｓｓａ，Ｓ．Ｓｅａｒｌｅ，Ｉ．Ｂａｒｎｅｓ，Ａ．Ｂｉｇｎｅｌｌ，Ｖ．Ｂｏｙｃｈｅｎｋｏ，Ｔ．Ｈｕｎｔ，Ｍ．Ｋａｙ，Ｇ．Ｍｕｋｈｅｒｊｅｅ，Ｊ．Ｒａｊａｎ，Ｇ．Ｄｅｓｐａｃｉｏ−Ｒｅｙｅｓ，Ｇ．Ｓａｕｎｄｅｒｓ，Ｃ．Ｓｔｅｗａｒｄ，Ｒ．Ｈａｒｔｅ，Ｍ．Ｌｉｎ，Ｃ．Ｈｏｗａｌｄ，Ａ．Ｔａｎｚｅｒ，Ｔ．Ｄｅｒｒｉｅｎ，Ｊ．Ｃｈｒａｓｔ，Ｎ．Ｗａｌｔｅｒｓ，Ｓ．Ｂａｌａｓｕｂｒａｍａｎｉａｎ，Ｂ．Ｐｅｉ，Ｍ．Ｔｒｅｓｓ，Ｊ．Ｍ．Ｒｏｄｒｉｇｕｅｚ，Ｉ．Ｅｚｋｕｒｄｉａ，Ｊ．ｖａｎＢａｒｅｎ，Ｍ．Ｂｒｅｎｔ，Ｄ．Ｈａｕｓｓｌｅｒ，Ｍ．Ｋｅｌｌｉｓ，Ａ．Ｖａｌｅｎｃｉａ，Ａ．Ｒｅｙｍｏｎｄ，Ｍ．Ｇｅｒｓｔｅｉｎ，Ｒ．ＧｕｉｇｏａｎｄＴ．Ｊ．Ｈｕｂｂａｒｄ（２０１２）．”ＧＥＮＣＯＤＥ：ｔｈｅｒｅｆｅｒｅｎｃｅｈｕｍａｎｇｅｎｏｍｅａｎｎｏｔａｔｉｏｎｆｏｒＴｈｅＥＮＣＯＤＥＰｒｏｊｅｃｔ．” ＧｅｎｏｍｅＲｅｓ２２（９）：１７６０−１７７４。
・Ｉｑｂａｌ，Ｚ．，Ｍ．Ｃａｃｃａｍｏ，Ｉ．Ｔｕｒｎｅｒ，Ｐ．ＦｌｉｃｅｋａｎｄＧ．ＭｃＶｅａｎ（２０１２）．”ＤｅｎｏｖｏａｓｓｅｍｂｌｙａｎｄｇｅｎｏｔｙｐｉｎｇｏｆｖａｒｉａｎｔｓｕｓｉｎｇｃｏｌｏｒｅｄｄｅＢｒｕｉｊｎｇｒａｐｈｓ．” ＮａｔＧｅｎｅｔ４４（２）：２２６−２３２。
・Ｊｉａｎｇ，Ｍ．，Ｊ．Ａｎｄｅｒｓｏｎ，Ｊ．ＧｉｌｌｅｓｐｉｅａｎｄＭ．Ｍａｙｎｅ（２００８）．”ｕＳｈｕｆｆｌｅ：ａｕｓｅｆｕｌｔｏｏｌｆｏｒｓｈｕｆｆｌｉｎｇｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅｓｗｈｉｌｅｐｒｅｓｅｒｖｉｎｇｔｈｅｋ−ｌｅｔｃｏｕｎｔｓ．” ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ９：１９２。
・Ｊｉａｎｇ，Ｌ．ｅｔａｌ．Ｓｙｎｔｈｅｔｉｃｓｐｉｋｅ−ｉｎｓｔａｎｄａｒｄｓｆｏｒＲＮＡ−ｓｅｑｅｘｐｅｒｉｍｅｎｔｓ．ＧｅｎｏｍｅＲｅｓ２１，１５４３−５１（２０１１）。
・Ｊｏｈｎｓｏｎ，Ｄ．Ｓ．，Ｍｏｒｔａｚａｖｉ，Ａ．，Ｍｙｅｒｓ，Ｒ．Ｍ．＆Ｗｏｌｄ，Ｂ．Ｇｅｎｏｍｅ−ｗｉｄｅｍａｐｐｉｎｇｏｆｉｎｖｉｖｏｐｒｏｔｅｉｎ−ＤＮＡｉｎｔｅｒａｃｔｉｏｎｓ．Ｓｃｉｅｎｃｅ３１６，１４９７−５０２（２００７）。
・Ｋａｔｚ，Ｙ．，Ｅ．Ｔ．Ｗａｎｇ，Ｅ．Ｍ．ＡｉｒｏｌｄｉａｎｄＣ．Ｂ．Ｂｕｒｇｅ（２０１０）．”ＡｎａｌｙｓｉｓａｎｄｄｅｓｉｇｎｏｆＲＮＡｓｅｑｕｅｎｃｉｎｇｅｘｐｅｒｉｍｅｎｔｓｆｏｒｉｄｅｎｔｉｆｙｉｎｇｉｓｏｆｏｒｍｒｅｇｕｌａｔｉｏｎ．” ＮａｔＭｅｔｈｏｄｓ７（１２）：１００９−１０１５。
・Ｋｅｌｌｅｙ，Ｄ．Ｒ．，Ｍ．Ｃ．ＳｃｈａｔｚａｎｄＳ．Ｌ．Ｓａｌｚｂｅｒｇ（２０１０）．”Ｑｕａｋｅ：ｑｕａｌｉｔｙ−ａｗａｒｅｄｅｔｅｃｔｉｏｎａｎｄｃｏｒｒｅｃｔｉｏｎｏｆｓｅｑｕｅｎｃｉｎｇｅｒｒｏｒｓ．” ＧｅｎｏｍｅＢｉｏｌ１１（１１）：Ｒ１１６。
・Ｋｉｍ，Ｄ．，Ｇ．Ｐｅｒｔｅａ，Ｃ．Ｔｒａｐｎｅｌｌ，Ｈ．Ｐｉｍｅｎｔｅｌ，Ｒ．ＫｅｌｌｅｙａｎｄＳ．Ｌ．Ｓａｌｚｂｅｒｇ（２０１３）．”ＴｏｐＨａｔ２：ａｃｃｕｒａｔｅａｌｉｇｎｍｅｎｔｏｆｔｒａｎｓｃｒｉｐｔｏｍｅｓｉｎｔｈｅｐｒｅｓｅｎｃｅｏｆｉｎｓｅｒｔｉｏｎｓ，ｄｅｌｅｔｉｏｎｓａｎｄｇｅｎｅｆｕｓｉｏｎｓ．” ＧｅｎｏｍｅＢｉｏｌ１４（４）：Ｒ３６。
・Ｋｏｂｏｌｄｔ，Ｄ．Ｃ．ｅｔａｌ．（２００９） ”ＶａｒＳｃａｎ：ｖａｒｉａｎｔｄｅｔｅｃｔｉｏｎｉｎｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇｏｆｉｎｄｉｖｉｄｕａｌａｎｄｐｏｏｌｅｄｓａｍｐｌｅｓ．” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５：２２８３−５。
・Ｌａｎｄｅｒ，Ｅ．Ｓ．ｅｔａｌ．Ｉｎｉｔｉａｌｓｅｑｕｅｎｃｉｎｇａｎｄａｎａｌｙｓｉｓｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅ．Ｎａｔｕｒｅ４０９，８６０−９２１（２００１）。
・Ｌａｎｇｍｅａｄ，Ｂ．ａｎｄＳ．Ｌ．Ｓａｌｚｂｅｒｇ（２０１２）．”Ｆａｓｔｇａｐｐｅｄ−ｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈＢｏｗｔｉｅ２．” ＮａｔＭｅｔｈｏｄｓ９（４）：３５７−３５９。
・Ｌａｎｇｍｅａｄ，Ｂ．，Ｃ．Ｔｒａｐｎｅｌｌ，Ｍ．ＰｏｐａｎｄＳ．Ｌ．Ｓａｌｚｂｅｒｇ（２００９）．”Ｕｌｔｒａｆａｓｔａｎｄｍｅｍｏｒｙ−ｅｆｆｉｃｉｅｎｔａｌｉｇｎｍｅｎｔｏｆｓｈｏｒｔＤＮＡｓｅｑｕｅｎｃｅｓｔｏｔｈｅｈｕｍａｎｇｅｎｏｍｅ．” ＧｅｎｏｍｅＢｉｏｌ１０（３）：Ｒ２５。
・Ｌａｗ，Ｊ．Ｃ．，Ｒｉｔｋｅ，Ｍ．Ｋ．，Ｙａｌｏｗｉｃｈ，Ｊ．Ｃ．，Ｌｅｄｅｒ，Ｇ．Ｈ．＆Ｆｅｒｒｅｌｌ，Ｒ．Ｅ．Ｍｕｔａｔｉｏｎａｌｉｎａｃｔｉｖａｔｉｏｎｏｆｔｈｅｐ５３ｇｅｎｅｉｎｔｈｅｈｕｍａｎｅｒｙｔｈｒｏｉｄｌｅｕｋｅｍｉｃＫ５６２ｃｅｌｌｌｉｎｅ．ＬｅｕｋＲｅｓ１７，１０４５−５０（１９９３）。
・Ｌｉ，Ｈ．ａｎｄＲ．Ｄｕｒｂｉｎ（２００９）．”ＦａｓｔａｎｄａｃｃｕｒａｔｅｓｈｏｒｔｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒｔｒａｎｓｆｏｒｍ．” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５（１４）：１７５４−１７６０。
・Ｌｉ，Ｈ．，Ｂ．Ｈａｎｄｓａｋｅｒ，Ａ．Ｗｙｓｏｋｅｒ，Ｔ．Ｆｅｎｎｅｌｌ，Ｊ．Ｒｕａｎ，Ｎ．Ｈｏｍｅｒ，Ｇ．Ｍａｒｔｈ，Ｇ．ＡｂｅｃａｓｉｓａｎｄＲ．Ｄｕｒｂｉｎ（２００９）．”ＴｈｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ／ＭａｐｆｏｒｍａｔａｎｄＳＡＭｔｏｏｌｓ．” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５（１６）：２０７８−２０７９。
・Ｌｉ，Ｈ．，Ｂ．Ｈａｎｄｓａｋｅｒ，Ａ．Ｗｙｓｏｋｅｒ，Ｔ．Ｆｅｎｎｅｌｌ，Ｊ．Ｒｕａｎ，Ｎ．Ｈｏｍｅｒ，Ｇ．Ｍａｒｔｈ，Ｇ．Ａｂｅｃａｓｉｓ，Ｒ．ＤｕｒｂｉｎａｎｄＳ．ＧｅｎｏｍｅＰｒｏｊｅｃｔＤａｔａＰｒｏｃｅｓｓｉｎｇ（２００９）．”ＴｈｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ／ＭａｐｆｏｒｍａｔａｎｄＳＡＭｔｏｏｌｓ．” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５（１６）：２０７８−２０７９。
・Ｌｉｅｂｅｒｍａｎ−Ａｉｄｅｎ，Ｅ．ｅｔａｌ．Ｃｏｍｐｒｅｈｅｎｓｉｖｅｍａｐｐｉｎｇｏｆｌｏｎｇ−ｒａｎｇｅｉｎｔｅｒａｃｔｉｏｎｓｒｅｖｅａｌｓｆｏｌｄｉｎｇｐｒｉｎｃｉｐｌｅｓｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅ．Ｓｃｉｅｎｃｅ３２６，２８９−９３（２００９）。
・Ｌｏｇａｎ，Ａ．Ｃ．，Ｈ．Ｇａｏ，Ｃ．Ｗａｎｇ，Ｂ．Ｓａｈａｆ，Ｃ．Ｄ．Ｊｏｎｅｓ，Ｅ．Ｌ．Ｍａｒｓｈａｌｌ，Ｉ．Ｂｕｎｏ，Ｒ．Ａｒｍｓｔｒｏｎｇ，Ａ．Ｚ．Ｆｉｒｅ，Ｋ．Ｉ．Ｗｅｉｎｂｅｒｇ，Ｍ．Ｍｉｎｄｒｉｎｏｓ，Ｊ．Ｌ．Ｚｅｈｎｄｅｒ，Ｓ．Ｄ．Ｂｏｙｄ，Ｗ．Ｘｉａｏ，Ｒ．Ｗ．ＤａｖｉｓａｎｄＤ．Ｂ．Ｍｉｋｌｏｓ（２０１１）．”Ｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔＶＤＪｓｅｑｕｅｎｃｉｎｇｆｏｒｑｕａｎｔｉｆｉｃａｔｉｏｎｏｆｍｉｎｉｍａｌｒｅｓｉｄｕａｌｄｉｓｅａｓｅｉｎｃｈｒｏｎｉｃｌｙｍｐｈｏｃｙｔｉｃｌｅｕｋｅｍｉａａｎｄｉｍｍｕｎｅｒｅｃｏｎｓｔｉｔｕｔｉｏｎａｓｓｅｓｓｍｅｎｔ．” ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１０８（５２）：２１１９４−２１１９９。
・ＭａｃＤｏｎａｌｄ，Ｊ．Ｒ．，Ｒ．Ｚｉｍａｎ，Ｒ．Ｋ．Ｙｕｅｎ，Ｌ．ＦｅｕｋａｎｄＳ．Ｗ．Ｓｃｈｅｒｅｒ（２０１４）．”ＴｈｅＤａｔａｂａｓｅｏｆＧｅｎｏｍｉｃＶａｒｉａｎｔｓ：ａｃｕｒａｔｅｄｃｏｌｌｅｃｔｉｏｎｏｆｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎｉｎｔｈｅｈｕｍａｎｇｅｎｏｍｅ．” ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ４２（Ｄａｔａｂａｓｅｉｓｓｕｅ）：Ｄ９８６−９９２。
・ＭｃＫｅｎｎａ，Ａ．，Ｍ．Ｈａｎｎａ，Ｅ．Ｂａｎｋｓ，Ａ．Ｓｉｖａｃｈｅｎｋｏ，Ｋ．Ｃｉｂｕｌｓｋｉｓ，Ａ．Ｋｅｒｎｙｔｓｋｙ，Ｋ．Ｇａｒｉｍｅｌｌａ，Ｄ．Ａｌｔｓｈｕｌｅｒ，Ｓ．Ｇａｂｒｉｅｌ，Ｍ．ＤａｌｙａｎｄＭ．Ａ．Ｄｅｐｒｉｓｔｏ（２０１０）．”ＴｈｅＧｅｎｏｍｅＡｎａｌｙｓｉｓＴｏｏｌｋｉｔ：ＡＭａｐＲｅｄｕｃｅｆｒａｍｅｗｏｒｋｆｏｒａｎａｌｙｚｉｎｇｎｅｘｔ−ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇｄａｔａ．” ＧｅｎｏｍｅＲｅｓ。
・Ｍｅａｃｈａｍ，Ｆ．，Ｄ．Ｂｏｆｆｅｌｌｉ，Ｊ．Ｄｈａｈｂｉ，Ｄ．Ｉ．Ｍａｒｔｉｎ，Ｍ．ＳｉｎｇｅｒａｎｄＬ．Ｐａｃｈｔｅｒ（２０１１）．”Ｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｃｏｒｒｅｃｔｉｏｎｏｆｓｙｓｔｅｍａｔｉｃｅｒｒｏｒｉｎｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｓｅｑｕｅｎｃｅｄａｔａ．” ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１２：４５１。
・Ｍｉｔｔｅｒｂａｕｅｒ，Ｇ．，Ｐ．Ｎｅｍｅｔｈ，Ｓ．Ｗａｃｈａ，Ｎ．Ｃ．Ｃｒｏｓｓ，Ｉ．Ｓｃｈｗａｒｚｉｎｇｅｒ，Ｕ．Ｊａｅｇｅｒ，Ｋ．Ｇｅｉｓｓｌｅｒ，Ｈ．Ｔ．Ｇｒｅｉｎｉｘ，Ｐ．Ｋａｌｈｓ，Ｋ．ＬｅｃｈｎｅｒａｎｄＣ．Ｍａｎｎｈａｌｔｅｒ（１９９９）．”ＱｕａｎｔｉｆｉｃａｔｉｏｎｏｆｍｉｎｉｍａｌｒｅｓｉｄｕａｌｄｉｓｅａｓｅｉｎｐａｔｉｅｎｔｓｗｉｔｈＢＣＲ−ＡＢＬ−ｐｏｓｉｔｉｖｅａｃｕｔｅｌｙｍｐｈｏｂｌａｓｔｉｃｌｅｕｋａｅｍｉａｕｓｉｎｇｑｕａｎｔｉｔａｔｉｖｅｃｏｍｐｅｔｉｔｉｖｅｐｏｌｙｍｅｒａｓｅｃｈａｉｎｒｅａｃｔｉｏｎ．” ＢｒＪＨａｅｍａｔｏｌ１０６（３）：６３４−６４３。
・Ｍｏｒｔａｚａｖｉ，Ａ．，Ｗｉｌｌｉａｍｓ，Ｂ．Ａ．，ＭｃＣｕｅ，Ｋ．，Ｓｃｈａｅｆｆｅｒ，Ｌ．＆Ｗｏｌｄ，Ｂ．ＭａｐｐｉｎｇａｎｄｑｕａｎｔｉｆｙｉｎｇｍａｍｍａｌｉａｎｔｒａｎｓｃｒｉｐｔｏｍｅｓｂｙＲＮＡ−Ｓｅｑ．ＮａｔＭｅｔｈｏｄｓ５，６２１−８（２００８）。
・Ｐｅａｒｓｏｎ，Ｗ．Ｒ．ａｎｄＤ．Ｊ．Ｌｉｐｍａｎ（１９８８）．”Ｉｍｐｒｏｖｅｄｔｏｏｌｓｆｏｒｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅｃｏｍｐａｒｉｓｏｎ．” ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ８５（８）：２４４４−２４４８。
・Ｐｉｖａ，Ｆ．ａｎｄＧ．Ｐｒｉｎｃｉｐａｔｏ（２００６）．”ＲＡＮＤＮＡ：ａｒａｎｄｏｍＤＮＡｓｅｑｕｅｎｃｅｇｅｎｅｒａｔｏｒ．” ＩｎＳｉｌｉｃｏＢｉｏｌ６（３）：２５３−２５８。
・Ｒｏｂｉｎｓｏｎ，Ｍ．Ｄ．，Ｄ．Ｊ．ＭｃＣａｒｔｈｙａｎｄＧ．Ｋ．Ｓｍｙｔｈ（２０１０）．”ｅｄｇｅＲ：ａＢｉｏｃｏｎｄｕｃｔｏｒｐａｃｋａｇｅｆｏｒｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｏｆｄｉｇｉｔａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ．” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２６（１）：１３９−１４０。
・Ｒｏｎａｇｈｉ，Ｍ．，Ｕｈｌｅｎ，Ｍ．＆Ｎｙｒｅｎ，Ｐ．Ａｓｅｑｕｅｎｃｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｒｅａｌ−ｔｉｍｅｐｙｒｏｐｈｏｓｐｈａｔｅ．Ｓｃｉｅｎｃｅ２８１，３６３，３６５（１９９８）。
・Ｒｏｔｈｂｅｒｇ，Ｊ．Ｍ．ｅｔａｌ．Ａｎｉｎｔｅｇｒａｔｅｄｓｅｍｉｃｏｎｄｕｃｔｏｒｄｅｖｉｃｅｅｎａｂｌｉｎｇｎｏｎ−ｏｐｔｉｃａｌｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ．Ｎａｔｕｒｅ４７５，３４８−５２（２０１１）。
・Ｓｃｈａａｐ，Ｍ．，Ｒ．Ｊ．Ｌｅｍｍｅｒｓ，Ｒ．Ｍａａｓｓｅｎ，Ｐ．Ｊ．ｖａｎｄｅｒＶｌｉｅｔ，Ｌ．Ｆ．Ｈｏｏｇｅｒｈｅｉｄｅ，Ｈ．Ｋ．ｖａｎＤｉｊｋ，Ｎ．Ｂａｓｔｕｒｋ，Ｐ．ｄｅＫｎｉｊｆｆａｎｄＳ．Ｍ．ｖａｎｄｅｒＭａａｒｅｌ（２０１３）．”Ｇｅｎｏｍｅ−ｗｉｄｅａｎａｌｙｓｉｓｏｆｍａｃｒｏｓａｔｅｌｌｉｔｅｒｅｐｅａｔｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎｉｎｗｏｒｌｄｗｉｄｅｐｏｐｕｌａｔｉｏｎｓ：ｅｖｉｄｅｎｃｅｆｏｒｄｉｆｆｅｒｅｎｃｅｓａｎｄｃｏｍｍｏｎａｌｉｔｉｅｓｉｎｓｉｚｅｄｉｓｔｒｉｂｕｔｉｏｎｓａｎｄｓｉｚｅｒｅｓｔｒｉｃｔｉｏｎｓ．” ＢＭＣＧｅｎｏｍｉｃｓ１４：１４３。
・Ｓｈｅｒｒｙ，Ｓ．Ｔ．，Ｍ．Ｈ．Ｗａｒｄ，Ｍ．Ｋｈｏｌｏｄｏｖ，Ｊ．Ｂａｋｅｒ，Ｌ．Ｐｈａｎ，Ｅ．Ｍ．ＳｍｉｇｉｅｌｓｋｉａｎｄＫ．Ｓｉｒｏｔｋｉｎ（２００１）．”ｄｂＳＮＰ：ｔｈｅＮＣＢＩｄａｔａｂａｓｅｏｆｇｅｎｅｔｉｃｖａｒｉａｔｉｏｎ．” ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ２９（１）：３０８−３１１。
・Ｓｉｍｏｎ，Ｎ．Ｅ．ａｎｄＡ．Ｓｃｈｗａｃｈａ（２０１４）．”ＴｈｅＭｃｍ２−７ＲｅｐｌｉｃａｔｉｖｅＨｅｌｉｃａｓｅ：ＡＰｒｏｍｉｓｉｎｇＣｈｅｍｏｔｈｅｒａｐｅｕｔｉｃＴａｒｇｅｔ．” ＢｉｏｍｅｄＲｅｓＩｎｔ２０１４：５４９７１９。
・Ｓｉｍｐｓｏｎ，Ｊ．Ｔ．，Ｋ．Ｗｏｎｇ，Ｓ．Ｄ．Ｊａｃｋｍａｎ，Ｊ．Ｅ．Ｓｃｈｅｉｎ，Ｓ．Ｊ．ＪｏｎｅｓａｎｄＩ．Ｂｉｒｏｌ（２００９）．”ＡＢｙＳＳ：ａｐａｒａｌｌｅｌａｓｓｅｍｂｌｅｒｆｏｒｓｈｏｒｔｒｅａｄｓｅｑｕｅｎｃｅｄａｔａ．” ＧｅｎｏｍｅＲｅｓ１９（６）：１１１７−１１２３。
・Ｓｉｎｇｈ，Ｊ．，Ａ．Ｂｅｈａｌ，Ｎ．Ｓｉｎｇｌａ，Ａ．Ｊｏｓｈｉ，Ｎ．Ｂｉｒｂｉａｎ，Ｓ．Ｓｉｎｇｈ，Ｖ．ＢａｌｉａｎｄＮ．Ｂａｔｒａ（２００９）．”Ｍｅｔａｇｅｎｏｍｉｃｓ：Ｃｏｎｃｅｐｔ，ｍｅｔｈｏｄｏｌｏｇｙ，ｅｃｏｌｏｇｉｃａｌｉｎｆｅｒｅｎｃｅａｎｄｒｅｃｅｎｔａｄｖａｎｃｅｓ．” ＢｉｏｔｅｃｈｎｏｌＪ４（４）：４８０−４９４。
・Ｔｒａｐｎｅｌｌ，Ｃ．，Ｂ．Ａ．Ｗｉｌｌｉａｍｓ，Ｇ．Ｐｅｒｔｅａ，Ａ．Ｍｏｒｔａｚａｖｉ，Ｇ．Ｋｗａｎ，Ｍ．Ｊ．ｖａｎＢａｒｅｎ，Ｓ．Ｌ．Ｓａｌｚｂｅｒｇ，Ｂ．Ｊ．ＷｏｌｄａｎｄＬ．Ｐａｃｈｔｅｒ（２０１０）．”ＴｒａｎｓｃｒｉｐｔａｓｓｅｍｂｌｙａｎｄｑｕａｎｔｉｆｉｃａｔｉｏｎｂｙＲＮＡ−Ｓｅｑｒｅｖｅａｌｓｕｎａｎｎｏｔａｔｅｄｔｒａｎｓｃｒｉｐｔｓａｎｄｉｓｏｆｏｒｍｓｗｉｔｃｈｉｎｇｄｕｒｉｎｇｃｅｌｌｄｉｆｆｅｒｅｎｔｉａｔｉｏｎ．” ＮａｔＢｉｏｔｅｃｈｎｏｌ２８（５）：５１１−５１５。
・ｖａｎｄｅｒＭａａｒｅｌ，Ｓ．Ｍ．ａｎｄＲ．Ｒ．Ｆｒａｎｔｓ（２００５）．”ＴｈｅＤ４Ｚ４ｒｅｐｅａｔ−ｍｅｄｉａｔｅｄｐａｔｈｏｇｅｎｅｓｉｓｏｆｆａｃｉｏｓｃａｐｕｌｏｈｕｍｅｒａｌｍｕｓｃｕｌａｒｄｙｓｔｒｏｐｈｙ．” ＡｍＪＨｕｍＧｅｎｅｔ７６（３）：３７５−３８６。
・ｖａｎＤｏｎｇｅｎ，Ｊ．Ｊ．，Ａ．Ｗ．Ｌａｎｇｅｒａｋ，Ｍ．Ｂｒｕｇｇｅｍａｎｎ，Ｐ．Ａ．Ｅｖａｎｓ，Ｍ．Ｈｕｍｍｅｌ，Ｆ．Ｌ．Ｌａｖｅｎｄｅｒ，Ｅ．Ｄｅｌａｂｅｓｓｅ，Ｆ．Ｄａｖｉ，Ｅ．Ｓｃｈｕｕｒｉｎｇ，Ｒ．Ｇａｒｃｉａ−Ｓａｎｚ，Ｊ．Ｈ．ｖａｎＫｒｉｅｋｅｎ，Ｊ．Ｄｒｏｅｓｅ，Ｄ．Ｇｏｎｚａｌｅｚ，Ｃ．Ｂａｓｔａｒｄ，Ｈ．Ｅ．Ｗｈｉｔｅ，Ｍ．Ｓｐａａｒｇａｒｅｎ，Ｍ．Ｇｏｎｚａｌｅｚ，Ａ．Ｐａｒｒｅｉｒａ，Ｊ．Ｌ．Ｓｍｉｔｈ，Ｇ．Ｊ．Ｍｏｒｇａｎ，Ｍ．ＫｎｅｂａａｎｄＥ．Ａ．Ｍａｃｉｎｔｙｒｅ（２００３）．”ＤｅｓｉｇｎａｎｄｓｔａｎｄａｒｄｉｚａｔｉｏｎｏｆＰＣＲｐｒｉｍｅｒｓａｎｄｐｒｏｔｏｃｏｌｓｆｏｒｄｅｔｅｃｔｉｏｎｏｆｃｌｏｎａｌｉｍｍｕｎｏｇｌｏｂｕｌｉｎａｎｄＴ−ｃｅｌｌｒｅｃｅｐｔｏｒｇｅｎｅｒｅｃｏｍｂｉｎａｔｉｏｎｓｉｎｓｕｓｐｅｃｔｌｙｍｐｈｏｐｒｏｌｉｆｅｒａｔｉｏｎｓ：ｒｅｐｏｒｔｏｆｔｈｅＢＩＯＭＥＤ−２ＣｏｎｃｅｒｔｅｄＡｃｔｉｏｎＢＭＨ４−ＣＴ９８−３９３６．” Ｌｅｕｋｅｍｉａ１７（１２）：２２５７−２３１７。
・Ｖｉｌｌｅｓｅｎ，Ｐ．（２００７）．”ＦａＢｏｘ：ａｎｏｎｌｉｎｅｔｏｏｌｂｏｘｆｏｒｆａｓｔａｓｅｑｕｅｎｃｅｓ．” ＭｏｌｅｃｕｌａｒＥｃｏｌｏｇｙＮｏｔｅｓ７（６）：９６５−９６８。
・Ｙａｎｇ，Ｊ．，Ｎ．Ｒａｍｎａｔｈ，Ｋ．Ｂ．Ｍｏｙｓｉｃｈ，Ｈ．Ｌ．Ａｓｃｈ，Ｈ．Ｓｗｅｄｅ，Ｓ．Ｊ．Ａｌｒａｗｉ，Ｊ．Ｈｕｂｅｒｍａｎ，Ｊ．Ｇｅｒａｄｔｓ，Ｊ．Ｓ．ＢｒｏｏｋｓａｎｄＤ．Ｔａｎ（２００６）．”ＰｒｏｇｎｏｓｔｉｃｓｉｇｎｉｆｉｃａｎｃｅｏｆＭＣＭ２，Ｋｉ−６７ａｎｄｇｅｌｓｏｌｉｎｉｎｎｏｎ−ｓｍａｌｌｃｅｌｌｌｕｎｇｃａｎｃｅｒ．” ＢＭＣＣａｎｃｅｒ６：２０３。
・Ｚｅｒｂｉｎｏ，Ｄ．Ｒ．ａｎｄＥ．Ｂｉｒｎｅｙ（２００８）．”Ｖｅｌｖｅｔ：ａｌｇｏｒｉｔｈｍｓｆｏｒｄｅｎｏｖｏｓｈｏｒｔｒｅａｄａｓｓｅｍｂｌｙｕｓｉｎｇｄｅＢｒｕｉｊｎｇｒａｐｈｓ．” ＧｅｎｏｍｅＲｅｓ１８（５）：８２１−８２９。
・Ｚｈａｎｇ，Ｗ．，Ｗ．Ｇｏｎｇ，Ｈ．Ａｉ，Ｊ．ＴａｎｇａｎｄＣ．Ｓｈｅｎ（２０１４）．”Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｏｆｌｕｎｇａｄｅｎｏｃａｒｃｉｎｏｍａａｎｄｍａｔｃｈｅｄａｄｊａｃｅｎｔｎｏｎ−ｔｕｍｏｒｌｕｎｇｔｉｓｓｕｅ．” Ｔｕｍｏｒｉ１００（３）：３３８−３４５。
・Ｚｏｏｋ，Ｊ．Ｍ．ｅｔａｌ．ＩｎｔｅｇｒａｔｉｎｇｈｕｍａｎｓｅｑｕｅｎｃｅｄａｔａｓｅｔｓｐｒｏｖｉｄｅｓａｒｅｓｏｕｒｃｅｏｆｂｅｎｃｈｍａｒｋＳＮＰａｎｄｉｎｄｅｌｇｅｎｏｔｙｐｅｃａｌｌｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌ３２，２４６−５１（２０１４）。
・Ｚｖｙａｇｉｎ，Ｉ．Ｖ．，Ｍ．Ｖ．Ｐｏｇｏｒｅｌｙｙ，Ｍ．Ｅ．Ｉｖａｎｏｖａ，Ｅ．Ａ．Ｋｏｍｅｃｈ，Ｍ．Ｓｈｕｇａｙ，Ｄ．Ａ．Ｂｏｌｏｔｉｎ，Ａ．Ａ．Ｓｈｅｌｅｎｋｏｖ，Ａ．Ａ．Ｋｕｒｎｏｓｏｖ，Ｄ．Ｂ．Ｓｔａｒｏｖｅｒｏｖ，Ｄ．Ｍ．Ｃｈｕｄａｋｏｖ，Ｙ．Ｂ．ＬｅｂｅｄｅｖａｎｄＩ．Ｚ．Ｍａｍｅｄｏｖ（２０１４）．”Ｄｉｓｔｉｎｃｔｉｖｅｐｒｏｐｅｒｔｉｅｓｏｆｉｄｅｎｔｉｃａｌｔｗｉｎｓ’ ＴＣＲｒｅｐｅｒｔｏｉｒｅｓｒｅｖｅａｌｅｄｂｙｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｓｅｑｕｅｎｃｉｎｇ．” ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１１１（１６）：５９８０−５９８５。

Claims

人工ポリヌクレオチド配列を含む人工染色体であって、前記人工ポリヌクレオチド配列のいずれかのフラグメントが公知の天然ゲノム配列のいずれかと識別可能である前記人工染色体。
前記人工ポリヌクレオチド配列の１，０００隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する、請求項１に記載の人工染色体。
前記人工ポリヌクレオチド配列の１００隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する、請求項１に記載の人工染色体。
前記人工ポリヌクレオチド配列の２１隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと１００％未満の配列同一性を有する、請求項１に記載の人工染色体。
前記人工ポリヌクレオチド配列が、遺伝子座、ＣｐＧアイランド、モバイルエレメント、反復ポリヌクレオチド特徴、小規模な遺伝的変動及び大規模な遺伝的変動からなる群から選択される天然真核生物染色体の特徴のいずれか１つまたはそれ以上を含む、請求項１〜４のいずれか１項に記載の人工染色体。
請求項５に記載の人工染色体であって、
ｉ）前記人工ポリヌクレオチド配列が、複数の遺伝子座を含み；
ｉｉ）前記反復ポリヌクレオチドの特徴が、末端反復、タンデム反復、逆方向反復及び散在性反復のいずれか１つまたはそれ以上を含み；
ｉｉｉ）前記遺伝子座が、免疫受容体遺伝子座を含み；
ｉｖ）前記小規模な遺伝的変動が、１つ以上のＳＮＰ、１つ以上の挿入、１つ以上の欠失、１つ以上のマイクロサテライト及び／または複数のヌクレオチド多型を含み；及び／または
ｖ）前記大規模な遺伝的変動が、１つ以上の欠失、１つ以上の複製、１つ以上のコピー数変異、１つ以上の挿入、１つ以上の逆位及び／または１つ以上の転座を含む、前記人工染色体。
天然原核生物染色体の１つ以上の特徴を含む、請求項１〜４のいずれか１項に記載の人工染色体。
前記人工ポリヌクレオチド配列の２０〜１０，０００，０００隣接ヌクレオチドを含む、請求項１〜７のいずれか１項に記載の人工染色体のフラグメント。
ＲＮＡフラグメントまたはＤＮＡフラグメントである、請求項８に記載のフラグメント。
隣接ポリヌクレオチド配列を形成するように結合された２つの以上の請求項８に記載のフラグメントを含む人工ポリヌクレオチド配列。
ＲＮＡまたはＤＮＡポリヌクレオチド配列である、請求項１０に記載の人工ポリヌクレオチド配列。
フラグメントが前記人工ポリヌクレオチド配列の２０〜１０，０００，０００隣接ヌクレオチドを含む、請求項１〜７のいずれか１項に記載の人工染色体のＤＮＡフラグメントを含むベクター。
人工ポリヌクレオチド配列がＤＮＡポリヌクレオチド配列である、請求項１０に記載の人工ポリヌクレオチド配列を含むベクター。
エンドヌクレアーゼ消化によって請求項１２に記載のベクターから前記フラグメントを切除すること、または、請求項１２に記載のベクター内に含まれる前記ＤＮＡフラグメントを増幅もしくは転写することを含む、請求項８または請求項９に記載のフラグメントの生成方法。
エンドヌクレアーゼ消化によって請求項１３に記載のベクターから前記人工ポリヌクレオチド配列を切除すること、または、請求項１３に記載のベクター内に含まれる前記人工ポリヌクレオチド配列を増幅もしくは転写することを含む、請求項１０または請求項１１に記載の人工ポリヌクレオチド配列の生成方法。
ポリヌクレオチドシーケンシングプロセスを校正するための請求項１〜７のいずれか１項に記載の人工染色体及び／または請求項８もしくは請求項９に記載のフラグメント及び／または請求項１０もしくは請求項１１に記載の人工ポリヌクレオチド配列の使用。
ポリヌクレオチドシーケンシングプロセスの校正方法であって、
ｉ）請求項８もしくは請求項９に定義されるとおりの１つ以上のフラグメント及び／または請求項１０もしくは請求項１１に定義されるとおりの１つ以上の人工ポリヌクレオチド配列を、決定される標的ポリヌクレオチド配列を含む試料に添加すること；
ｉｉ）前記標的ポリヌクレオチドの配列を決定すること；
ｉｉｉ）請求項８もしくは請求項９に定義されるとおりの１つ以上のフラグメント及び／または請求項１０もしくは請求項１１に定義されるとおりの１つ以上の人工ポリヌクレオチド配列の配列を決定すること；及び
ｉｖ）オリジナル配列が請求項１〜７のいずれか１項に定義されるとおりの前記人工染色体中に存在する、前記フラグメント及び／または前記人工ポリヌクレオチド配列のオリジナル配列とｉｉｉ）で決定された前記配列を比較すること；
を含み、ｉｉ）の配列決定を校正するために、ｉｉｉ）の配列決定の精度が用いられる、前記方法。
ポリヌクレオチド定量プロセスを校正するための請求項１〜７のいずれか１項に記載の人工染色体及び／または請求項８もしくは請求項９に記載のフラグメント及び／または請求項１０もしくは請求項１１に記載の人工ポリヌクレオチド配列の使用。
ポリヌクレオチド定量プロセスの校正方法であって、
ｉ）公知の量の、請求項８もしくは請求項９に定義されるとおりの１つ以上のフラグメント及び／または請求項１０もしくは請求項１１に定義されるとおりの１つ以上の人工ポリヌクレオチド配列を、決定される標的ポリヌクレオチド配列を含む試料に添加すること；
ｉｉ）前記標的ポリヌクレオチドの量を測定すること；
ｉｉｉ）請求項８もしくは請求項９に定義されるとおりの１つ以上のフラグメント及び／または請求項１０もしくは請求項１１に定義されるとおりの１つ以上の人工ポリヌクレオチド配列の量を決定すること；及び
ｉｖ）ｉ）の１つ以上のフラグメント及び／または１つ以上の人工ポリヌクレオチド配列の公知の量と、ｉｉｉ）で測定される１つ以上のフラグメント及び／または１つ以上の人工ポリヌクレオチド配列の量を比較すること；
を含み、ｉｉ）の量決定を校正するために、ｉｉｉ）の量決定の精度が用いられる、前記方法。
請求項１〜７のいずれか１項に記載の１つ以上の人工染色体及び請求項８もしくは請求項９に定義されるとおりの１つ以上のフラグメントまたは請求項１０もしくは請求項１１に定義されるとおりの１つ以上の人工ポリヌクレオチド配列を含むキット。
コンピュータプログラム可能媒体であって、これに記憶される請求項１〜７のいずれか１項に記載の１つ以上の人工染色体を含有する、前記コンピュータプログラム可能媒体。