JP2020014478A

JP2020014478A - Ｒｎａ転写産物バリアントを定量するための方法及び製品

Info

Publication number: JP2020014478A
Application number: JP2019182851A
Authority: JP
Inventors: パウルルーカス; Paul Lukas; クバラペトラ; Kubala Petra; レダトルステン; Reda Torsten
Original assignee: Lexogen GmbH
Current assignee: Lexogen GmbH
Priority date: 2014-07-09
Filing date: 2019-10-03
Publication date: 2020-01-30
Also published as: EP3167076A1; KR20170028383A; JP2017525341A; US20170321248A1; AU2015286672A1; JP2021153588A; LT3167076T; KR102555447B1; EP3167076B1; HK1231518A1; JP6930910B2; WO2016005524A1; US10513726B2; AU2015286672B2; CA2954495A1; JP7568581B2; DK3167076T3; CN106471134B; CN106471134A; CA2954495C

Abstract

【課題】サンプルの転写産物バリアントのより正確な評価（すなわち、同定及び定量）を可能にする方法及び製品を提供すること。【解決手段】本発明は、トランスクリプトミクスの分野に関連し、そして、サンプル中の転写産物バリアントの管理された同定及び／又は定量のための方法であって、転写産物バリアントをシミュレートする人工ポリ核酸分子から成る標準セットを提供し、及び転写産物バリアントを含んでいるサンプルに外部対照として前記標準セットを加えることを含む方法を提供する。本発明は、斯かる標準セット、並びに斯かる標準セットを作製する方法を提供する。【選択図】図１

Description

発明の分野
本発明はトランスクリプトミクス、特にトランスクリプトーム全体のショットガンシークエンシング（「ＲＮＡ−ｓｅｑ」）の分野に関する。より詳しく述べると、それはＲＮＡ−ｓｅｑ、マイクロアレイ分析又は定量的ＰＣＲ（ｑＰＣＲ）によって分析されたサンプル中のＲＮＡ転写産物バリアントの同定及び定量に好適な方法及び製品に関する。

背景
次世代シークエンシング技術は、核酸サンプルを配列決定するときに大量のショートリードを作り出す。次世代シークエンシングに不可欠なステップは、ライブラリ調製（又は略してlibrary prep）である。このプロセスは、入力としてｍＲＮＡ又はｃＤＮＡを取り、各々がｍＲＮＡ分子の区分に対応する短いｃＤＮＡ断片のライブラリを作り出す。これらの断片は、次にＮＧＳシーケンサーによって、通常はそれらの全体ではなくそれらの開始及び／又はそれらの終結部において部分的に配列決定される。これは、ヌクレオチドの短い配列を生じ、この短い配列は、リードと称され、遺伝コードの核酸塩基を表すＡ、Ｃ、Ｇ、Ｔ又は０、１、２、３のような４つのＡＳＣＩＩ文字の一群の配列として、最も一般にはＮＧＳシーケンサーによって記憶される。元のサンプル中にどのｍＲＮＡ分子が存在したかを推測するために、リードを標準ゲノム又はトランスクリプトーム上へマッピング又は重ね合わせるか、或いは配列オーバラップに基づいて新規アセンブリされる。

次世代シークエンシングは、様々なゲノム・マッピング手順（ＵＳ２０１３／１１０４１０Ａ１）又は例えば、配列リードをある生物バリアントへ関連付けるためにマッピングされたゲノムを用いることによるＤＮＡ同定方法（ＷＯ２００９／０８５４１２Ａ１）において利用されてきた。

ＷＯ２００９／０９１７９８Ａ１は、生物のトランスクリプトームのプロファイルを得るための方法を記載し、この方法は、シークエンシングリードを得るために１若しくは複数のｃＤＮＡ分子を配列決定するステップと、各シークエンシングリードを標準配列と重ね合わせるステップとを備える。

しかしながら、短い配列リードを用いたトランスクリプトーム解析の根底にある主要な問題は、以下の段落に記載のように転写産物バリアントの場合における重ね合わせステップである。通常、短い配列リードを１つの転写産物バリアントへ正しく重ね合わせることは困難である。
ＥＰ２３３３１０４Ａ１は、潜在的に多様なＲＮＡ分子のプールに由来する核酸分子断片配列を順序づけるＲＮＡ分析方法に関する。遺伝子は、１つの転写産物バリアントで発現されるだけではなく、それらのエクソン−イントロン組成及び転写の開始（ＴＳＳ）や終結部位（ＴＥＳ）におけるバリエーションを有する多くの転写産物アイソフォームで所定のゲノム領域（例えば、Nilsen and Graveley, 2010; Wang et al., 2009; Koscielny et al., 2009を参照のこと）から転写された。転写産物アイソフォームはまた、それらの存在量が最大６桁異なるので、更に複雑性のレベルを高めている（Aird et al., 2013）。Zhangらは総合的な選択的スプライシングデータベースに関する。

ＲＮＡ−Ｓｅｑによってその複雑性の中でトランスクリプトームを分析することは、アノテーション付き標準ゲノムに対してショートリードを重ね合わせ、そして、コンティグ適用範囲や有効なエクソン−エクソンジャンクションなどの独特の特徴から転写産物の類推及び仮説を得ることを必要とする（例えば、Wang et al., 2009を参照のこと）。これらのアルゴリズムは正確であるには程遠く、不十分な且つ異なってキュレートされたアノテーション、並びに同様の特徴を共有し且つ同じ水準で発現される転写産物バリアントの判別に関する固有の問題に脅かされている。ゲノム配列とアノテーションの使用を伴わないトランスクリプトームデノボアッセンブリは、より一層難しく且つ効率が悪く、十分に特徴づけされていない生物に適用されることがほとんどである。
サンプルの転写産物バリアントのより正確な評価（すなわち、同定及び定量）を可能にする方法及び製品を提供することが本発明の目標である。

発明の概要
本発明は、１若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び／又は定量のための方法であって、以下のステップ：
ａ）各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つの異なったＮＡ分子ファミリーを含む、転写産物バリアントをシミュレートする人工核酸（ＮＡ）分子の標準セットを提供し、

ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ヌクレオチド（ｎｔ）、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、特に少なくとも２００ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、より一層好ましくは少なくとも２００ｎｔ、特に少なくとも３００ｎｔの長さの別の配列と異なり、且つ
ここで、前記ＮＡ分子の少なくとも２つ、好ましくは各々があらかじめ設定されたモル量で存在し；及び
ｂ）転写産物バリアントを含む１若しくは複数のサンプルに外部対照として前記標準セットを加え；及び
ｃ１）標準リードの割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが１若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成及び割り当てに基づくＮＡシークエンシングをおこなうこと；又は
ｃ２）１若しくは複数のサンプルに対して、ＮＡ検出若しくは定量方法、好ましくはマイクロアレイ分析又はｑＰＣＲをおこなうこと、

ここで、少なくとも１つのプローブが標準セットの少なくとも１つのＮＡ分子に結合し、標準セットの少なくとも１つのＮＡ分子に結合する少なくとも１つのプローブから得られたシグナルに基づく測定結果が、前記ＮＡ検出法又は定量法においてプローブに結合する１若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される、
を含む方法を提供する。
本発明は、上記の方法で使用されるのに非常に適している人工ＮＡ分子の標準セット、並びに斯かる標準セットを作り出す方法、並びに斯かる標準セットに含まれるのに好適なＮＡ分子を更に提供する。

以下の詳細な説明及び好ましい実施形態は、本発明のすべての態様に適用され、明示的に示された場合を除いて、制限なしに互いに組み合わせることができる。好ましい実施形態及び態様は、特許請求の範囲において更に定義される。

本発明を以下の図面及び実施例によってさらに説明するが、本発明のこれらの実施形態に限定されることはなく、各要素を本発明の任意の他の実施形態と組み合わせることができる。

ＳＩＲＶ設計原理の図式的概観。ＤＮＡ合成後の選択したＳＩＲＶのプラスミド線形化の代表的な結果。ＳＩＲＶが正しいサイズを有していたので、Ｔ７ポリメラーゼによるＲＮＡ転写に使用できる。選択したＳＩＲＶ及び条件でのＴ７ポリメラーゼによる転写の収量の代表的な結果。転写は、選択した条件の大部分で成功した。ｏ／ｎは、一晩である。ＫＬＫ５とＳＩＲＶ１ファミリーとの重ね合わせ。例示はＳＩＲＶ１と対応する標準遺伝子との転写産物重ね合わせを示す。ＳＩＲＶ１−１００がマスター転写産物であることに注意する。ＳＩＲＶ１−１０１〜１０５は（ＫＬＫ５転写産物に対する類似性の点で）基準転写産物である。転写産物ＳＩＲＶ１−１０６〜１０９は人工転写産物であり、それによって、後者の３つがオーバーラップしている（アンチセンス）転写産物である。ＭＴ＝マスター転写産物である。ＬＤＨＤとＳＩＲＶ２ファミリーとの重ね合わせ。例示はＳＩＲＶ２と対応する標準遺伝子との転写産物重ね合わせを示す。ＳＩＲＶ２−１００がマスター転写産物であることに注意する。ＳＩＲＶ２−２０１〜２０４は（ＬＤＨＤ転写産物に対する類似性の点で）基準転写産物である。転写産物ＳＩＲＶ２−２０５及び２０６は人工モノエクソンアンチセンスである。ＭＴ＝マスター転写産物である。ＬＧＡＬＳ１７ＡとＳＩＲＶ３ファミリーとの重ね合わせ。例示はＳＩＲＶ３と対応する標準遺伝子との転写産物重ね合わせを示す。ＳＩＲＶ３−１００がマスター転写産物であることに注意する。ＳＩＲＶ３−３０１〜３０６は（ＬＧＡＬＳ１７Ａ転写産物に対する類似性の点で）基準転写産物である。転写産物ＳＩＲＶ３−３０７〜３１１は人工転写産物であり、それによって、後者のものがモノエクソンアンチセンス転写産物である。転写産物ＳＩＲＶ３−３０８〜３１０はオーバーラップしているアンチセンス転写産物である。ＭＴ＝マスター転写産物である。ＤＡＰＫ３とＳＩＲＶ４ファミリーとの重ね合わせ。例示はＳＩＲＶ４と対応する標準遺伝子との転写産物重ね合わせを示す。ＳＩＲＶ４−１００がマスター転写産物であることに注意する。ＳＩＲＶ４−４０１〜４０７は（ＤＡＰＫ３転写産物に対する類似性の点で）基準転写産物である。転写産物ＳＩＲＶ４−４０８〜４１０は人工転写産物であり、それによって、後者の２つがオーバーラップしているアンチセンス転写産物である。ＭＴ＝マスター転写産物である。ＨＡＵＳ５とＳＩＲＶ５ファミリーとの重ね合わせ。例示はＳＩＲＶ５と対応する標準遺伝子との転写産物重ね合わせを示す。ＳＩＲＶ５−１００がマスター転写産物であることに注意する。ＳＩＲＶ５−５０１〜５１０は（ＨＡＵＳ５ＨＡＵＳ転写産物に対する類似性の点で）基準転写産物である。転写産物ＳＩＲＶ５−５１１及び５１２は人工転写産物であり、それによって、後者のものがモノエクソンアンチセンス転写産物である。ＭＴ＝マスター転写産物である。ＵＳＦ２とＳＩＲＶ６ファミリーとの重ね合わせ。例示はＳＩＲＶ６と対応する標準遺伝子との転写産物重ね合わせを示す。ＳＩＲＶ６−１００がマスター転写産物であることに注意する。ＳＩＲＶ６−６０１〜６１５は（ＵＳＦ２転写産物に対する類似性の点で）基準転写産物である。転写産物ＳＩＲＶ６−６１６〜６１８は人工転写産物であり、それによって、後者の２つがモノエクソンアンチセンス転写産物である。ＭＴ＝マスター転写産物である。ＴＥＳＫ２とＳＩＲＶ７ファミリーとの重ね合わせ。例示はＳＩＲＶ７と対応する標準遺伝子との転写産物重ね合わせを示す。ＳＩＲＶ７−１００がマスター転写産物であることに注意する。ＳＩＲＶ７−７０１〜７０７は（ＴＥＳＫ２転写産物に対する類似性の点で）基準転写産物である。転写産物ＳＩＲＶ７−７０８は人工転写産物である。ＭＴ＝マスター転写産物である。ＳＩＲＶのレイアウト。すべてのＳＩＲＶカセットが、ＸｈｏＩ制限部位から始まり、それにＴ７プロモーター、グアノシン、及びＳＩＲＶｍＲＮＡ本体が続く。どのＳＩＲＶも、３’末端に３０個のアデノシンから成るポリ（Ａ）テール、並びにランオフ転写を可能にするためのＮｓｉＩ制限部位を有する。ＦＰＫＭ相関のプロット。サンプル１及びサンプル２のＦＰＫＭ値が互いに対してプロットされている。人工遺伝子ＳＩＲＶ１の適用範囲を示すゲノムブラウザのスクリーンショット。ＳＩＲＶ１標識転写産物を有するすべてが所定のアノテーションに対応している。ＣｕｆｆｌｉｎｋｓはＣｕｆｆ．８及び．９と呼ばれる５つの転写産物バリアントを更に誘導し、そしてそれはエラーを導入した。ＭｉｘＥ０、Ｅ１、及びＥ２を得るためのＳＩＲＶ混合スキーム。Ａ）．８つのＰｒｅＭｉｘには、ＳＩＲＶがＢｉｏａｎａｌｙｚｅｒトレースにより明確に同定できるように長さが異なる６〜１１個のＳＩＲＶが入っている。２つのＰｒｅＭｉｘの各々が、等しい割合で組み合わせられて、合計で４つのＳｕｂＭｉｘをもたらした。これらを規定した比で順番に組み合わせて、最終的なＭｉｘＥ０、Ｅ１、及びＥ２を得た。評価されたトレースは赤で示され、そして、ＳｕｂＭｉｘ及び最終的なＭｉｘをバリデートするためにＰｒｅＭｉｘトレースから計算されたトレースは、青で示す。対照を含むＲＮＡ。ＳＩＲＶＭｉｘはまた、すぐに試験できる標準ＲＮＡサンプルＲＣ−０、ＲＣ−１、及びＲＣ−２として利用可能である。第１サンプル、Universal Human Reference RNA（ＵＨＲＲ、１０種類のプール癌細胞株由来、Agilent Technologies, Inc.）はＥＲＣＣＥｘＦｏｌｄＭｉｘ１でスパイクされた。第２サンプル、Human Brain Reference RNA（ＨＢＲＲ、２３人のドナーの複数の脳領域由来、Life Technologies, Inc.,）はＥＲＣＣＥｘＦｏｌｄＭｉｘ２でスパイクされ、そして第３サンプルに関しては、両方を２：１の比で組み合わせた。次に、３つのサンプルがＳＩＲＶＭｉｘＥ０、Ｅ１、及びＥ２でスパイクされて、全ＲＮＡの２％のｍＲＮＡ含有量と比較した相対測定値として概算されている図面中に示されているような質量比を得た。Ａ）．Ｅ１の入ったサンプルＲＣ−１及びＥ２の入ったＲＣ−２における、正しいアノテーションＳＩＲＶ＿Ｃに対するＳＩＲＶＮＧＳリードの割り当て、並びにＢ）．Ｅ２とＥ１との間の示差的出現比の結果としてのＳＩＲＶの入出力相関。個々のデータポイントは小さい灰色の印によって示され、そして平均値は大きい黒色の印によって強調した。各線は標準偏差を示す。灰色の直線は対角線を強調表示する。

発明の詳細な開示
（真核細胞からのほとんどすべての転写産物サンプルに適用する）転写産物バリアントを含むサンプルの質的計量の違いを決定すること及びそうした複雑な転写産物サンプルを分析することを試みる方法には、内部標準、外部標準、相対標準、及び、絶対標準が不可欠である。定量的データは相対的関係又は絶対的関係のいずれかで表される。それぞれ異なった方法（例えば、マイクロアレイ、ｑＰＣＲ又はＮＧＳ）には、測定結果を標準化するのにデータ分析における多くの特殊性がある。
マイクロアレイ及びｑＰＣＲによる相対定量に関して、ＲＮＡレベルは内部対照又は外部対照を使用することによりサンプル間で比較して、サンプル濃度や添加量の違いを標準化する。ＮＧＳ実験は、リード数と同定された転写産物の長さに対して異なった標準化手順を用いる。結果は、遺伝子アノテーションの特質及び状態、又は重ね合わせ及びアッセンブリアルゴリズムを用いたライブラリ調製とシークエンシングの偏りの間の取り決めのような多くの変数に依存する。例えば、対照は、ライブラリー調製効率の違いを補完する必要がある。

対照は、サンプル集合にわたって一定のレベルで発現される遺伝子（内部標準）又はスパイク−インされたＲＮＡ（外部標準）である。定量のために、実験的な遺伝子、エクソン、又はタグの発現レベルを表すシグナル強度（蛍光ユニット又はリード数）は、既知の数又は比が含まれる標準に関係づけられ、絶対標準又は相対標準と定義される。
ＵＳ２００４／００９５１２Ａ１は、内部標準プローブを使用することでｍＲＮＡスプライス産物を分析する方法を開示する（文献の請求項７、段落［００９７］及び［０１０６］）。本発明が関連する分子の長さを有するバリアントに相当する内部標準の開示はない。
多くの混成ＲＮＡ標準サンプル、例えば、普遍的なヒト標準ＲＮＡや普遍的なヒト脳標準ＲＮＡ（Ambion, Life Technologies）が市販されている。それらの標準は、複数のドナー及びいくつかの組織／脳領域からプールされており、そのため、遺伝子発現の幅広い不偏性及び再現性の適用範囲を目指している。斯かる標準サンプルの実験は、標準データを提供し、且つ、実験法をバリデート及び評価するのに使用される。互いに、そして前記標準サンプルに対して未知サンプルの測定値を連動させるために、内部又は外部標準が必要である。

内部ＲＮＡ標準は、分析されるサンプルのすべてにわたって相対的一定なレベルで発現される遺伝子である。内部標準は、生物の異なった組織の間で、すべての生育ステージにおいて、及び対照と実験的に処理された細胞型との両方で等しく発現されなければならないので、「ハウスキーピング」遺伝子と呼ばれることも多い。残念ながら、これらの状況のすべてにおいて一定な発現レベルを有する単独のＲＮＡは存在しないが、１８ＳｒＲＮＡは実験条件の最も広範囲にわたって理想的な内部標準であると思われる。しかしながら、ｒＲＮＡの相対高い存在量は、空のシークエンシングスペースに対してｒＲＮＡを特異的に枯渇させるライブラリ作成法につながる。
そのため、特定の実験事項のために、適当な対照ＲＮＡを同定することが必要となり、そしてそれは、たぶんｍＲＮＡである。次に、これは標準の適合性に対するｍＲＮＡアイソフォームの効果の考慮事項を必要とする。いくつかの内部標準は見つけられるが（β−アクチン、グリセルアルデヒド−３−リン酸脱水素酵素（ＧＡＰＤＨ）、又はシクロフィリンｍＲＮＡ）、外部標準だけが管理され信頼できる標準値を提供する。他の種のＲＮＡサンプルからの定常的な供給源は、例えば、哺乳類サンプルに加えられるバクテリアのトランスクリプトームが外部標準として使用される場合がある。
しかしながら、原核生物のような単純な生物でさえ、そうした多数の転写産物を既に有しているので、動態（濃度）範囲全体にわたる均整の取れた表示には非常に多くのシークエンシングスペースを浪費するであろう。そのため、低い複雑性にもかかわらず、共通点のある動態範囲の外部標準、ＥＲＣＣが以前に開発された。

米国標準技術局（ＮＩＳＴ、ＵＳＡ）によって主導され、３７の研究所から成るＥＲＣＣコンソーシアムは、合成ＤＮＡ配列又はバチルス・ズブチリス（Bacillus subtilis）若しくは深海の通気微生物メタノカルドコッカス・ヤンナスキイ（Methanocaldococcus jannaschii）ゲノム由来のＤＮＡのインビトロ転写による対照ＲＮＡを共に合成した。これらの転写産物は、モノエクソンであり且つアイソフォームを持たないことを意図している、すなわち、それらはスプライス又は他の転写産物バリアントを表すことはない。コンソーシアムは、１９〜２５個のアデニン（２３個のアデノシンが中央値）のポリ（Ａ）テール長、２５０〜２０００ｎｔの長さ、及び〜３０〜５５％のＧＣ含量と決定した。これらのさまざまの配列は、ＧＣ含量や長さの多様性などの内在性転写産物の少なくともいくつかの特性を示す。ＥＲＣＣＲＮＡは、配列決定された真核生物からの内在性転写産物と最小限の配列相同性を示す（External RNA Controls Consortium, 2005a）。ＥＲＣＣミックス開発は、スペシャルリポート（External RNA Controls Consortium, 2005）に記録されている。
Blomquistらは、ＮＧＳによるＤＮＡ配列決定について述べ、合成内部標準を用いる方法を使用する（文献の要約及び図１）。ＲＮＡプロセシング中、ＥＲＣＣスパイク−イン対照内部標準が使用されている（文献の４頁、左欄）。DevonshireらもＥＲＣＣについて述べている。
Ambion（Life Technologiesの一部）は、（６桁わたる濃度の）スタンドアロンミックス又は別個の遺伝子発現について比較される必要がある２つのサンプルにスパイク−インされるように設計された２つのミックス（倍量変化判定の精度計測；使用者ガイド：ERCC RNA Spike-In Control Mixes, Ambion）で９２のＥＲＣＣ転写産物を商業的に提供している。

初めはｑＰＣＲ及びマイクロアレイシステムで使用されるために発想されたが、それらは現在、ＲＮＡ−ＳｅｑＮＧＳ実験で広く用いられている。この異なった意図的目的が、現在のＥＲＣＣ使用を疑わしくしている。
ＥＲＣＣの制限は、それらがｉ）それらのサイズ範囲が限られていること、ｉｉ）短いポリ（Ａ）テールしか含んでいないこと、及びｉｉｉ）キャップ構造を含んでいないことである。しかしながら、ＥＲＣＣの主たる難点は、それらがどんな種類の転写産物バリアントも含まないということである。そのため、それらは、転写産物バリアントの管理された同定及び／又は定量に好適ではなく、並びにこの点に関してシークエンシング方法（又は他の解析法）の評価に好適でない。別の不都合は、それらが既知の配列（バチルス及びメタノコッカス）に類似性を有する点である。

Sunらは、選択的にスプラインシングされた転写産物の定量について述べている。ヒトテロメラーゼ逆転写酵素のスプライスバリアントが対照として使用されている。約２０種のスプライスバリアントが知られていて、そのうちの４種が腫瘍において一般的である（文献の３１９頁、中欄）。一般的な４種が文献中で調査された（文献の３２０頁中欄及び図１；３２１頁左欄；表１）。しかしながら、文献では、人工転写産物バリアントについて述べておらず、文献の対照は単一のヒト遺伝子に限られていて、天然の配列に頼る必要なしに選択的スプライシング事象の代表的で正確なシミュレーションを可能にする本発明と異なっていた（天然の配列への依存が実際には実験を妨げる可能性がある）。
本発明は、特にこれらの不都合を克服する。本発明に際して、転写産物バリアントの同定及び定量に関する該問題を解決するのに特別に好適な方法及び産物を思いつくように、多くの異なった方法及び標準セットが開発及び特徴づけされた。

そのため、本発明の態様では、１若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び／又は定量のための方法であって、以下のステップ：
ａ）各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つの異なったＮＡ分子ファミリーを含む、転写産物バリアントをシミュレートする人工核酸（ＮＡ）分子の標準セットを提供し、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ヌクレオチド（ｎｔ）、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、特に少なくとも２００ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、より一層好ましくは少なくとも２００ｎｔ、特に少なくとも３００ｎｔの長さの別の配列と異なり、且つ
ここで、前記ＮＡ分子の少なくとも２つ、好ましくは各々が（例えば、標準（すなわち、対照）リードの割り当てに対してサンプルリードの割り当ての標準化を可能にするとき、標準セットを該方法にとって特に好適にする）あらかじめ設定されたモル量で存在し；及び

ｂ）転写産物バリアントを含む１若しくは複数のサンプルに外部対照として前記標準セットを加え（該標準セットは分析のための（単数若しくは複数の）同じサンプルコンテナ及び／又は別々のコンテナ内に物理的に加えられる。加えて又は或いは、それはコンピューターに実装された方法ステップに：同じ分析装置、分析装置の同じモデル又は他の分析装置モデルから、標準セットの測定前に使用することによって、非物理的に加えられてもよい）；及び
ｃ１）標準リードの割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが１若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成（リードはどんな長さも有していてもよい）及び割り当て（すなわち、標準配列上へのリードのマッピング）に基づくＮＡシークエンシングをおこなうこと；又は
ｃ２）１若しくは複数のサンプルに対して、ＮＡ検出若しくは定量方法、好ましくはマイクロアレイ分析又はｑＰＣＲをおこなうこと、

ここで、少なくとも１つのプローブが標準セットの少なくとも１つのＮＡ分子に結合し、標準セットの少なくとも１つのＮＡ分子に結合する少なくとも１つのプローブから得られたシグナルに基づく測定結果が、前記ＮＡ検出法又は定量法においてプローブに結合する１若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される、
を含む方法を提供する。ｑＰＣＲでは、プローブは、ＰＣＲ反応で伸長されるプライマーであっても、又は標識されたＤＮＡプローブであってもよい；マイクロアレイ分析では、プローブは、ＤＮＡチップ上に固定されたＤＮＡプローブであってもよい。

ＮＡは、ＤＮＡであっても又はＲＮＡであってもよい。好ましくは、それはＲＮＡである。当業者が標準セットを適用する場合に、ＤＮＡを選ぶか又はＲＮＡを選ぶかは自由である。当業者はまた、ＮＡシークエンシング、ＮＡ検出法又は定量法のためにサンプルを準備する方法を知っている。有益なことには、標準セットは、該標準セットがすべて又はほとんどのサンプル調製ステップ中に存在するように、ＮＡシークエンシング、ＮＡ検出法又は定量法を適用する前のサンプル調製中の初期に加えられる。このために、転写産物バリアント（着目の分子）が通常ｍＲＮＡ分子である場合には、サンプル調製中の初期に、それがＲＮＡとして加えられるのが好ましい。

「人工ＮＡ分子」、「人工遺伝子」又は「人工配列」の中での「人工」という用語は、文中で使用される場合、天然の生物有機体（微生物、動物又は植物など）に生じることはないが、ヒトによって故意に考え出される及び作り出される人工的と呼ばれる実体を意味する。しかしながら、人工ＮＡ分子又は人工遺伝子などの人工実体は、その人工的であることの特質を失わずに、遺伝子組み換え生物により産生されることさえできる（例えば、天然のＥ．コリ（E.coli）細胞に導入され、そして、発現される）。
人工ＮＡ分子は、特にそれらが既知のＮＡ配列に対して配列相同性がないか又はわずかしか有していないとき、本発明の方法に非常によく適合する。これは、次世代シークエンシングに典型的な短配列（例えば、４０〜８０ｎｔ又は２０〜２００ｎｔであっても）についてでさえ「標準リード」としてリードの明白な割り当てを可能にする（すなわち、標準リードの割り当てを作り出す）。

一般に、転写産物は、転写開始部位から転写終結部位に至るＲＮＡ配列から成る（例えば、ＤＮＡ鋳型からの）１つの遺伝子からの（例えば、ＲＮＡポリメラーゼによって合成された）転写産物である。本発明の目的のために、転写産物は、少なくとも１つのエクソンを含むＮＡ分子である。転写産物という単語は、単一分子又は同一配列を有するすべての分子の群のいずれかを説明する。周知であるとおり、真核生物では、ｍＲＮＡ（転写産物）は、プレ−ｍＲＮＡ（ヘテロ核リボ核酸とも呼ばれる）から加工されて（特にスプライシングによって）成熟転写産物をもたらす。定義上、転写産物からスプラインシングで外された配列領域はイントロンと呼ばれ、成熟転写産物で維持されている配列領域はエクソンと呼ばれる。ある成熟転写産物バリアントのエクソンは、（前記バリアント中に存在しないことによって）別の成熟転写産物バリアントのイントロンであってもよい。すべての転写産物バリアントの配列が既知であるとき、エクソン及びイントロンとして遺伝子配列領域にどのようにアノテーションするか当業者には明らかである。本明細書中に使用される場合、エクソンはいずれかのバリアントのエクソンになり得る配列領域である。通常、それは、むしろ保存配列よりも、組み込まれたイントロン領域の両端によって特徴づけられ、そして、隣接しているエクソンによるいわゆるエクソン−エクソンジャンクションを形成している、表２も参照のこと。天然のエクソンはコード領域の一部であるが（逆もまた同様である）、しかしながら、本発明の人工ＮＡ分子の場合には、エクソンが、本発明の人工配列が現実に存在する生物に存在する既知の転写産物に対する類似性を欠くように設計され、開始及び停止コドンを有するリーディングフレーム又は開始コドンを有するオープンリーディングフレーム（ＯＲＦ）を含まないため、人工タンパク質又は天然タンパク質の一部のコード領域でないことが好ましい（逆もまた同様である）。本発明の人工ＮＡ分子に含まれたエクソンは、人工配列を含むので人工エクソンである。「転写産物」という単語は、別段の記述がない限り、「成熟転写産物」を意味すると本明細書中で解釈されるものとする。

最も幅広い用語では、転写産物「バリアント」は遺伝子の転写産物であり、ここで、前記遺伝子の少なくとも２つの転写産物が存在し、ここで、転写産物は少なくとも２つの転写産物のうちの別のものと（「選択的転写事象」によって作り出される）少なくとも１つのヌクレオチドが異なる。しかしながら、本方法との関連において、各（転写産物）ファミリーの人工ＮＡ分子は、各ファミリーで独立に、少なくとも８０ヌクレオチド（好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、特に少なくとも２００ｎｔ）の長さの配列を共有し、且つ、各ファミリーで独立に、各ファミリーの少なくとも２つのＮＡ分子が、少なくとも８０ヌクレオチド（好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、より一層好ましくは少なくとも２００ｎｔ、特に少なくとも３００ｎｔ）の長さの少なくとも別の配列と異なる。ファミリーの他のメンバーは、１つのヌクレオチドだけで更なるメンバーと異なってもよいが、バリアント間のより大きい違いが好ましい−例えば、ファミリーのすべてのメンバー間のちょうど８０ｎｔ、１００ｎｔ、１５０ｎｔ又は２００ｎｔの範囲に至るまでの配列同一性。

本明細書中では、（人工遺伝子の）「転写産物バリアントをシミュレートすること」は、天然に存在する真核生物（好ましくは動物又は植物、より好ましくは脊椎動物、そして、より一層好ましくは哺乳類、特にヒト）の遺伝子の天然に存在する真核生物（好ましくは動物又は植物、より好ましくは脊椎動物、そして、より一層好ましくは哺乳類、特にヒト）の転写産物を表す特徴を有することを意味する。当業者は、転写産物バリアントのこれらの典型的な特徴に詳しい。これらの特徴は、以下の：１若しくは複数の選択的スプラインシング事象の結果であり（以下及び表１を参照のこと）、特定のイントロンスプライシング部位ジヌクレオチドを有し（以下及び表２を参照のこと）、選択的転写産物開始及び終結部位を有し（以下を参照のこと）、アンチセンス転写産物であり、他の遺伝子／転写産物とオーバーラップし、ポリアデニル化される（Wang et al., 2008も参照のこと）のうちの１以上を含む。更に又は或いは、Wang et al., 2008、特に図２に定義された特徴を使用できる。有益なことには、標準セットのＮＡ（ＲＮＡ又はＤＮＡ）分子は、別個の例の少なくとも１つ、少なくとも２つ、少なくとも３つ又は少なくとも４つにおいて、各ＮＡ分子が、互いに独立に、先の文の１、２、３、４、５、又は６つを有しながら、先の２つの文中で列挙された特徴の少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも４つ、特に少なくとも５つを有する。本発明のＮＡ分子に関して、転写産物バリアントをシミュレートするために、ＲＮＡ分子であることが必要ではない。転写産物バリアントのシミュレーションもＤＮＡ又は他のＮＡ分子で可能である。

本発明の目的のために、当業者は（コンピューターにより概念的に、配列を並び替えることによって）人工遺伝子を含む人工ゲノムを作製し得る。この人工ゲノムの配列もまた、リードの割り当てに使用されてもよい。人工遺伝子は、プロモーターや、転写開始部位や、転写領域及び（ターミネーターとも呼ばれる）転写終結部位などの天然に存在する遺伝子から知られている特徴を有する。本発明が（人工遺伝子又は前記人工遺伝子自体から対応するタンパク質の物理的な合成でなく）人工遺伝子の転写産物バリアントのシミュレートに関係するとき、プロモーター領域は本発明の目的に無関係である。同じ人工遺伝子の標準転写産物バリアントである人工ＮＡ分子（すなわち、人工ＮＡ分子ファミリーのメンバー）は、同じ天然に存在する遺伝子の天然に存在する転写産物が互いに及び前記天然に存在する遺伝子に関連するのと同じように、（サイズなどのパラメーター、及び配列により）互いに及び前記人工遺伝子に関連する。それらの共通点は、転写産物バリアントが同じ仮説遺伝子から転写されるそれらの間でエクソン（又はその一部）を共有する点であり得る。本発明の目的のために、人工遺伝子とは、人工ＮＡ分子を定義する単なる概念であるので、定義されることが必ずしも必要でないことは人工ＮＡ分子の定義に必須でないのと同じである（例えば、先に言及されるとおり、遺伝子のプロモーター領域が定義される必要がない）ことは、当業者にとって明らかである。

有益なことには、転写産物バリアントをシミュレートする人工ポリ核酸ＮＡ（ＲＮＡ又はＤＮＡ）分子の標準セットは、少なくとも１つ、少なくとも２つ、少なくとも３つ又は少なくとも４つの別個の例において、標準セット中に存在する典型的な転写産物特徴の少なくとも１つと、好ましくは少なくとも２つ、少なくとも３つ、特に少なくとも４つ、特に、そのすべてで、真核生物（好ましくは動物又は植物、より好ましくは脊椎動物、より一層好ましくは哺乳類、特にヒト）のトランスクリプトームにおける（例えば、以下の段落で特定されるような）典型的な転写産物の対応する平均頻度と同様の先の段落で述べた典型的な転写産物特徴の頻度（少なくとも＋／−５０％、好ましくは少なくとも２５％、特に少なくとも＋／−１０％）を有する。

選択的スプライシング事象（ＡＳ）：
選択的スプライシングという用語は、一次転写産物（プレ−ｍＲＮＡ）が２つ以上パターンでスプラインシングされて複数の、異なった成熟ｍＲＮＡを作り出し得るいずれかの場合を説明するために生物学において使用される。選択的スプライシング事象の最も一般的なタイプが表１に示されている。ヒトでは、エクソンスキッピングが３３％で、分かっているものの中で最も一般的なスプライシング事象である。選択的５’及び３’スプライシング部位が各々２５％で続く。また、選択的スプライシング部位は一緒に起こることが多い（Barbazuk et al., 2008; Roy et al., 2013）。脳組織と睾丸の組織は、多数のＡＳ事象を起こすことがわかった（Roy et al., 2013）。有益なことには、標準セットのＮＡ分子全体は、少なくとも１つ、少なくとも２つ、少なくとも３又は少なくとも４つの別個の例において、先の文に列挙した特徴の０、１、２、３、４、５、６又は７つを、互いに独立に有する各ＮＡ分子と共に、表１で列挙した少なくとも１つであり、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも４つ、特に少なくとも５つの特徴を有する。

表１．選択的スプライシング事象
リストは、Ｅｎｓｅｍｂｌ遺伝子アノテーションから得られた数個の選択的スプライシング事象を示す。Ｅｎｓｅｍｂｌ遺伝子セットは、実験的証拠に基づくすべての転写産物の自動アノテーションと手動アノテーションの両方を含む（Wang et al., 2008も参照のこと）。

アンチセンス転写産物及びオーバーラッピング遺伝子：モノエクソンアンチセンス転写産物並びにオーバーラッピングバリアントは、後者が遺伝子のサブセットのすべての転写産物のかなりの部分を構成するように設計された（ヒトで９％、マウスで７．４％；Sanna et al., 2008）。オーバーラップバリアントは、モノエクソンであっても、又はスプライス（例えば、末端エクソンだけがオーバーラップしている３’エクソン）されていても、そして、センス方向であっても又はアンチセンス方向であってもよい。アンチセンス方向の遺伝子は、同じ方向のオーバーラッピング遺伝子に比べ１０倍超の頻度になり得る。有益なことには、標準セットのＮＡ分子全体は、センス及び／又はアンチセンス方向で、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも５つのオーバーラップ転写産物を備える。好ましくは、斯かる転写産物の頻度は、標準セット中に存在するすべての転写産物の約１０％である。２つの人工転写産物バリアント間のアンチセンスオーバラップは、例えば、１０ｎｔ〜５００ｎｔの長さであり得る。

選択的転写産物開始部位及び終結部位（ＴＳＳ及びＴＥＳ）：第１及び／又は選択的最終エクソン（ＡＦＥ及びＡＬＥ）をもたらす選択的スプライシング事象に加えて、アノテーション付エクソン内又はエクソン中の転写産物の実際の開始又は終結部位におけるバリエーションもまた可能である。マイクロバリエーションのために、アノテーション付部位からの正確な偏差には論争の余地があるが、通常、＜２０ｎｔである。そのうえ、それらは機能的に類似している、すなわち、同じプロモーター又は同じポリアデニル化シグナルに依存しており、そのためそれらの調整により共変する。マクロバリエーションのために、これらの選択的ＴＳＳ及びＴＥＳは、一般的に選択的プロモータ又はポリアデニル化シグナルに依存しているので、同じ第１又は最終エクソン内又はそれに隣接して配置される。それらは更に離れて配置される、すなわち、５００ｎｔはプロモーターの標準距離として見なされ（Xin et al., 2008）、そして、４０ｎｔはポリ（Ａ）部位調査において規定距離と考えられた（Yoon et al., 2012）。そのため、有益なことには、標準セットのＮＡ分子全体は、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも５つのＴＳＳ及び／又はＴＥＳを備える。好ましくは、ファミリー内の少なくとも２つの転写産物バリアントは、好ましくは２０ｎｔ、１０ｎｔ、長い５’又は３’末端領域において、少なくとも１ｎｔ、好ましくは２ｎｔ、３ｎｔ、４ｎｔ、５ｎｔ又はそれ以上で異なる。異なったｎｔが５’又は３’末端自体に存在することが特に好ましい。

本明細書中、選択的スプライシング事象、選択的転写産物開始及び終結部位、並びにアンチセンス転写産物及びオーバーラッピング遺伝子は、「選択的転写事象」という用語で包括される。
イントロンスプライシング部位ジヌクレオチド：ほとんどのイントロンが、スプライセオソーム成分によって認識され、且つ、スプライソソーム形成に必要である、それらの５’及び３’末端付近の一般的なコンセンサス配列を有する（図１）。主要なクラスにおいて、スプライスジャンクション対は、高度に保存されていて、且つ、イントロンドナー及び頻繁にＧＣ−ＡＧ及びＡＴ−ＡＣが後に続く、アクセプター配列ＧＴ−ＡＧ（アノテーション付ジャンクションの９８．７０％）を典型的には備える（表２）。より一般的な観点で、最も一般的なエクソン−イントロン配列は：エクソン...ＡＴ（略）ＧＴ...イントロン...ＡＧ（略）Ｇ...次のエクソン、と描写され得る。表２では、ドナー−アクセプター対の頻度が示されている。保存及び適度な変異性となるように、すべてのジャンクションの９７％がＧＴ−ＡＧであり、２％がＧＣ−ＡＧ、１％がＡＴ−ＡＣとなることを目指した。この模倣は、（ＴｏｐＨａｔなどの）アライナーの使用をして、それらの既存のジャンクション表を評価することを可能にしなければならない。エクソン境界は、それらがより重要なイントロン結合ジヌクレオチドを妨げない５’ＡＧ及び３’ＡＴでなければならない。有益なことには、標準セットのＮＡ分子全体が、
例えば、好ましくは、すべてのイントロンドナー−アクセプタージヌクレオチドの存在のそれぞれ約９７％、２％、及び１％の頻度を有するＧＵ−ＡＧ、ＧＣ−ＡＧ、ＡＵ−ＡＣから選択される、エクソンのイントロンドナー−アクセプタージヌクレオチドの１つ、好ましくは２つ、特にそのすべてを備える。

表２．正規及び非正規のドナー−アクセプター対
スプライシング部位ジヌクレオチドは、１０,８０３種のヒト遺伝子のゲノムスプライシング部位（ＳＳｓ）から成るＣｏｏｒｄｉｎａｔｅｓｏｆＥｘｏｎ（ＩＣＥ）データベースの情報から得られた。２５６組の理論的に可能なドナーとアクセプタージヌクレオチドとの対から、最も典型的であった具体的な３組（ＧＴ−ＡＧ、ＧＣ−ＡＧ、及びＡＴ−ＡＣ）は全例の９９．５６％（９１,８４６件のうちの９１,０２２件）に該当した（Chong et al., 2004）。

ポリアデニル化：成熟真核生物転写産物はポリ（Ａ）テールを有することが知られている。有益なことには、本発明の又は本発明の方法で使用するための人工ＮＡ分子は、少なくとも１０、好ましくは少なくとも２０、特に少なくとも３０個のアデノシンから成るポリ（Ａ）テールを有し、そしてそれは、実際の転写産物の厳密なシミュレーションを助ける。加えて、それは、（特に少なくとも３０個のアデノシンを用いた）適切なオリゴ（ｄＴ）ビーズ精製を確実にし、更に、すべての構築物を例外なく増幅するための、Ｔ７プロモーター及びポリ（Ａ）結合プライマーを用いたＰＣＲ増幅反応において５’／３’プライマー融解温度（Ｔｍ）のバランス調整も助ける。

本発明の上記方法は、標準リードの割り当てが標準セットリードを用いて作り出され、及び前記標準リードの割り当てが、１若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成（該リードは任意の長さであってよい）及び割り当て（すなわち、標準配列上への該リードのマッピング）に基づくＮＡシークエンシングをおこなうことを好ましくは含む。リードの割り当てを管理するか、照合するか、又は改変するのにどのように外部対照を使用するかは当該技術分野で知られている（例えば、Jiang et al., 2011）。例えばサンプル自体によって溶解されるように、コンテナ内に乾燥状態の人工ＮＡ分子の標準セットを準備しておくことで、取り扱いエラーが低減することが、本発明に際してわかった（実施例８も参照のこと）。加えて、ＮＡ分子（特にＲＮＡ分子）は一般的に乾燥時により安定している。そのため、特に好ましい実施形態において、人工ＮＡ分子の標準セットは、コンテナ内に乾燥させて、好ましくは凍結乾燥させて提供される。一般的に、標準セットと別のコンテナが各サンプルのために提供される。好ましくは、（ＮＡ、特にＲＮＡの分解を低減する）安定化剤が、乾燥前、乾燥中、又は乾燥後、特に乾燥前に標準セットに加えられる。斯かる安定化剤には、抗酸化剤、ＥＤＴＡ、ＤＤＴ、他のヌクレアーゼ又はＲＮＡｓｅ阻害剤（Promega製のＲＮＡｓｉｎ（登録商標）、Biomatrica製のるＲＮＡｓｔａｂｌｅ（登録商標）、GenTegra製のＧｅｎＴｅｇｒａ（登録商標）−ＲＮＡなど）が含まれる。一般的に、追加の安定化剤はＤＮＡ分子よりＲＮＡ分子に重要である。

前の段落によると、別の非常に好ましい実施形態において、外部対照としての標準セットの添加が、前記コンテナにサンプルを加えることによっておこなわれ、それによって、サンプル中に乾燥させた標準セットが溶解する。

以下に１若しくは複数のサンプルの転写産物バリアントのリードの割り当てをどのように管理するか、照合するか、又は改変するかに関する例を記載する：この設定では、遺伝子１（Ｇ１）は一方がイントロン配列だけを保有していることで互いに異なっている２つの転写産物バリアント、Ｇ１Ｔ１及びＧ１Ｔ２を有する。アライナーが開始部位分布、配列の偏り、長さの偏り、及び上記スプライシング部位ジヌクレオチドアノテーション（表２）のようなあらかじめ設定した又は引き出した情報を加重した様々なモデルを用いるプログラムされた確率アルゴリズムを使用してＧ１遺伝子座内に生成されたリードを分配するとき、最終的に割り当てられたリードは、カウントされ、例えばFragments Per Kilobase Of Exon Per Million Fragments Mapped（ＦＰＫＭ）に対して標準化されて、相対転写産物濃度及びＧ１Ｔ１対Ｇ１Ｔ２の比に関する計測値を得る。実験設定によって、ＦＰＫＭ値は全く同じ実験内の技術的な繰り返しから計算されるか、又は以前の標準実験から推測される信頼区間を含む。重ね合わせアルゴリズムが誤った偏りを課して、誤った発現値を生じた場合、Ｇ１Ｔ１とＧ１Ｔ２の結果は悪いままであり、そのうえ、サンプル自体又は実験条件を変更している場合には、完全に個人の判断に任されることもある。標準セットに関する知識がグラウンド実態（ground truth）だけで、同様の複雑性を有するＲｅｆ１Ｔ１及びＲｅｆ１Ｔ２（例えば、同様の長さ、近接したイントロン残存）は、リードの割り当てまでのシークエンシングによるライブラリ作成から特定の実験の成果を評価できるようになり、及び同様の複雑性の遺伝子及び転写産物バリアント分布に関する信頼区間について計算できるようになる。これにより、標準リードの割り当ては、好ましくはＦＰＫＭ値に対する標準化に基づくなどの、サンプルリードの統計的なリードの割り当てを調整又はシフトするのに使用され得る。標準セットのリードの割り当てのエラーは、標準セットの既知の組成及び量（プリセット値、所定のプラットフォームに好適なレジャー（leisure）で選択される）により補正されることができ、前記補正はサンプルリードの割り当てを改変するために適用され得る。

或いは、本発明の上記方法は、１若しくは複数のサンプルに対してＮＡ検出又は定量方法、好ましくはマイクロアレイ分析又はｑＰＣＲをおこなうことを好ましくは含み、ここで、少なくとも１つのプローブが、標準セットの少なくとも１つのＮＡ分子に結合して、そして、該標準セットの少なくとも１つのＮＡ分子に結合している少なくとも１つのプローブから得られたシグナルに基づく測定結果が、前記ＮＡ検出法又は定量法においてプローブに結合している１若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される。当該技術分野では、測定結果を管理するか、照合するか、又は改変するためにどのように外部対照を使用するか知られている。例えば、Devonshire et al., 2010を参照のこと。

本発明に際して、上記方法の適応がＮＡシークエンシング方法を評価するのに特に好適であることを驚いたことに見出した。それはまた、ＮＡシークエンシング方法を評価するか又はＮＡ検出法又は定量法を評価するのに非常に好適である。したがって、本発明の別の態様において、ＮＡシークエンシング方法を評価するか又はＮＡ検出法又は定量法を評価するために方法であって、以下のステップ：
ａ）各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つの異なったＮＡ分子ファミリーを含む、（以前説明したような）転写産物バリアントをシミュレートする人工ＮＡ分子の標準セットを提供し、

ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、特に少なくとも２００ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、より一層好ましくは少なくとも２００ｎｔ、特に少なくとも３００ｎｔの長さの別の配列と異なり、且つ
ここで、前記ＮＡ分子の少なくとも２つ、好ましくは各々があらかじめ設定されたモル量で存在し；及び

ｂ１）ＮＡシークエンシング方法を評価するために、標準リードの割り当てが標準セットのリードを用いて作り出される、リード生成及び割り当てに基づくＮＡシークエンシングをおこなうか；又は
ｂ２）ＮＡ検出法又は定量法を評価するために、標準セットに対して前記ＮＡ検出法又は定量法をおこない、
ここで、少なくとも１つのプローブが標準セットの少なくとも１つのＮＡ分子に結合し；及び

ｃ）前記あらかじめ設定したモル量に対して、及び／又はＮＡシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに／或いはそれらから計算又は予想された比及び／又は出力に対して、任意のステップｂ）の出力結果、特に、標準セットの少なくとも１つのＮＡ分子の出力モル量、出力濃度、及び／又はＮＡシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに／或いは標準セットの少なくとも２つのＮＡ分子に関する少なくとも１つのそれらの比を比較すること、
を含む方法を提供する。

本質的に、本発明は様々なＮＡ解析法を「ベンチマーク」（又は比較若しくは評価）する方法を提供し、それによって、研究者（又はＮＡ分析法及び／又はＮＡ分析施設のプロデューサー）が、特に（複雑な生物のトランスクリプトームに典型的である）転写産物バリアントを信頼性良く同定する及び／又は定量できることに関して、それらの方法を最適化するのを可能にする。
標準セットについての既知のパラメーター（例えば、濃度、存在する配列など−すなわち、標準セットはこの場合既知の対照に相当する）から、当業者は、予想される結果（例えば、リード数、推定される濃度など）を計算又は推測できる。（実際の）出力結果を予想された結果と比較することによって、当業者は、実際の結果と予想された結果との間の相違を判断することができ、それにより、核酸シークエンシング方法を評価する。
注目すべきは、核酸シークエンシング方法の演算的態様はまた、（繰り返して）標準セットのこれまでのシークエンシング計測値を使用し、そして、異なった演算的方法部分（例えば、アルゴリズム）を評価するために、又は該方法部分（例えば、（単数若しくは複数の）アルゴリズム）を改善するために、シークエンシング方法の演算的部分を（反復して）変更することによって評価され得る。

有益なことには、本発明のあらゆる標準セット（以下を参照のこと）が、特に前記標準セットのＮＡ分子の少なくとも２つ、好ましくはその各々があらかじめ設定されたモル量で存在しているとき、本発明の上記方法に好適である。
本発明に際して、多くの異なった標準セット（及びそのための製造法）が特徴づけされ、そして最終的に、以前に言及された方法にとって例外的に非常に好適な標準セット（及びそのための製造法）を見つけた（しかしながら、以前に言及された方法は本発明の標準セットを使用することに制限されない；他の標準セットも（本発明の標準セットほどではないが）好適であり得る）。

そのため、本発明の別の態様において、転写産物バリアントをシミュレートする人工ＮＡ分子、好ましくはＲＮＡ又はＤＮＡ分子の標準セットを作り出すための方法を提供するが、該方法は、以下のステップを含む：
Ａ）天然に存在する真核生物の遺伝子、好ましくは動物又は植物遺伝子、より好ましくは脊椎動物の遺伝子、より一層好ましくは哺乳動物遺伝子、特にヒト遺伝子の群から少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つの遺伝子を選択すること。それは斯かる遺伝子を見つけるための技術分野で知られている。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。例えば、当業者は、Ｅｎｓｅｍｂｌ、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏ−ｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）、ＧｅｎＢａｎｋ又は他のＮＣＢＩデータベースなどの公的にアクセス可能なデータベースからそれら（又はそれらのアノテーション付配列若しくは他の公的データベースで使用するためのそれらの名称）を入手し得る。一例として、ヒト遺伝子に関して、当業者は以下のＮＣＢＩ検索クエリー：
http://www.ncbi.nlm.nih.gov/gene/?term=Homo+sapiens[Orgn]
から遺伝子を選択し得る。更に又は或いは、当業者はＥｎｓｅｍｂｌデータベース（http://www.ensembl.org）でゲノムをブラウズできる。好ましくは、遺伝子は、その転写産物バリアント（転写産物表）に関してよくアノテーションされていて、そして、イントロン／エクソンはアノテーションされている。

Ｂ）各選択遺伝子あたり少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの天然に存在するｍＲＮＡ転写産物バリアントを選択すること、ここで、各転写産物バリアントは、少なくとも１００ｎｔの長さを有し、且つ、少なくとも１つのエクソンを含む。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。例えば、Ｅｎｓｅｍｂｌデータベースは、遺伝子（例えば、ヒト遺伝子）の十分なアノテーション付転写産物バリアント（転写産物表とも呼ばれる）を含んでいる。例えば、http://www.ensembl.org/Homo_sapiens/Gene/Summary?g= ENSG00000139618;r=13:32889611-32973805は、遺伝子ＢＲＣＡ２の転写産物表を示す。Ｅｎｓｅｍｂｌにはまた、アノテーション付スプラインシング事象（ＡＳＥ）も含まれている（Wang et al., 2008; Koscielny et al., 2009）。配列アノテーション、テキストベース形式のＦＡＳＴＡファイルは、純粋なヌクレオチド配列を表していて、以下のようなすべての関連情報を含むＧＴＦファイル（General Transfer Format）で一般的に保持された転写産物バリアントアノテーションと一緒に使用されるのが一般的である：

ｓｅｑｎａｍｅ−染色体又は足場の名称；染色体名は「ｃｈｒ」という接頭語と共に与えられることも又はそうでないこともある；起源−この特徴を作り出したプログラムの名称又はデータソース（データベース又はプロジェクト名）；特徴−特徴タイプ名、例えば、Ｇｅｎｅ、Ｖａｒｉａｔｉｏｎ、Ｓｉｍｉｌａｒｉｔｙ；開始−１から始まる配列番号付けを伴う特徴の開始位置；終結−１から始まる配列番号付けを伴う特徴の終結位置；スコア−浮動点の値；鎖−＋（フォワード）又は−（リバース）として定義される；フレーム−「０」、「１」又は「２」の１つ。「０」は、特徴の第１塩基がコドンの第１塩基であることを示し、「１」は第二塩基がコドンの第１塩基であることを示す、など；属性−各特徴に関して追加情報を提供し、タグ−値対のセミコロンで区切られた一覧；ＧＴＦファイルから、目視検査のためにズーム機能を有するプログラムによって異なった転写産物が表示され得る。

Ｃ）少なくとも１つのエクソンを含む前記選択される天然に存在するｍＲＮＡ転写産物バリアントのそれぞれの配列を提供すること、適宜ここで、配列はＤＮＡ配列などの別のＮＡ型に変換される。ＲＮＡをＤＮＡ配列に変換することは些細なことである。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。有益なことには、ｍＲＮＡ転写産物バリアントは成熟転写産物である。

Ｄ）ステップＣ）の各配列を以下のステップによって改変すること：
各エクソンとは独立に、（エクソン配列として）ほぼ同じ長さの配列によって各配列の各エクソンの配列を置換し、ここで、ほぼ同じ長さの配列が以下の群：ウイルス配列、バクテリオファージ配列、その逆位配列、その他の逆位天然配列（逆位にすることで、重ね合わせソフトウェアがそれらの本来の相補配列に対して配列を重ね合わせること、そしてまた、それらの本来の遺伝子座とのハイブリダイゼーションも妨げる）、非天然ランダム配列、及びその組み合わせ、から選択され、好ましくはほぼ同じ長さの配列は以下の群：ウイルス配列、バクテリオファージ配列、その逆位配列、非天然ランダム配列、及びその組み合わせ、から選択され、より好ましくはほぼ同じ長さの配列は以下の群：ウイルス配列、バクテリオファージ配列、その逆位配列、及びその組み合わせ、から選択され、

好ましくはここで、ほぼ同じ長さの配列が、多くても３つ、好ましくは多くても２つ、特に多くても１つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはＧＴ、ＧＣ、又はＡＴで及び／又は多くても３つ、好ましくは多くても２つ、特に多くても１つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはＡＧ、ＡＣ又はＡＴで置換することによって改変され、好ましくは、但し、例えば、ＩｎｆｏｒｍａｔｉｏｎｆｏｒｔｈｅＣｏｏｒｄｉｎａｔｅｓｏｆＥｘｏｎｓ（ＩＣＥ）データベース（Chong et al., 2004）に示される天然に存在する頻度を反映するように、このジヌクレオチド交換はエクソンをコードするイントロン結合ジヌクレオチドの存在量が９０〜１００％（ＧＴ−ＡＧ）、０〜１０％（ＧＣ−ＡＣ）及び０〜２％（ＡＴ−ＡＴ）になるようにおこなわれるものとする（ある配列におけるエクソンが、前記他の転写産物において存在しないことによって、別の転写産物のイントロンであり得ること）。

それによって、（少なくとも１つの人工エクソンを含む）１セットの人工転写産物配列を得ること、
但し、同じ選択遺伝子の選択される天然ｍＲＮＡ転写産物バリアントの配列から得られた人工転写産物配列は、好ましくは単一のエクソン配列内に含まれる少なくとも８０ｎｔの長さの配列を共有するものとし、及び、

好ましくは、但し、ステップＣ）の配列のエクソン配列がステップＣ）の配列の別のエクソン配列と同一であるとき、エクソン配列と別のエクソン配列はほぼ同じ長さの同じ前記配列で置換されるものとする。
好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。このステップ（及びすべてのその後の、好ましくはコンピュータによるステップ）は、例えば、広く使用されているソフトウェアＣＬＣＭａｉｎＷｏｒｋｂｅｎｃｈ（QIAGEN）、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージ、ＵＣＳＣＧｅｎｏｍｅＢｒｏｗｓｅｒ、又は他のものを用いておこなわれてもよい。

配列はまた、特にウイルス配列、バクテリオファージ配列、その逆位配列、その他の逆位天然配列、又は非天然ランダム配列がエクソン全体を満たすには短すぎる場合、ほぼ同じ長さの配列を形成するために組み合わせられてもよい。有益なことには、ウイルス配列、バクテリオファージ配列、その逆位配列、その他の逆位天然配列、又は非天然ランダム配列の長さは、特にあまりに短かすぎる配列構造を調製するのを避けるために、少なくとも１０ｎｔ、好ましくは少なくとも２０ｎｔ、より好ましくは少なくとも５０ｎｔ、特に少なくとも１００ｎｔであり、それによって、真核生物配列に対して非常に相同である配列が作り出される。好ましくは、組み合わせが配列の連結によっておこなわれる。

有益なことには、クローニングにおける良好な取り扱いを可能にするように、単一点変異を導入すること（例えば、ＸｈｏＩ及びＮｓｉＩの制限部位を取り除くこと）によって、特定の制限部位が人工転写産物配列から取り除かれる。

Ｅ）適宜、ステップＤ）のセットの少なくとも１つの人工転写産物を複製し、そして、前記複製した配列をセットに加え、それによって、ステップＦ）〜Ｋ）の１以上における選択的修飾のコピーを含むセットを得ること。
この複製は、標準セットに存在すべきであるが（標準セットがより好適である場合、選択的転写事象に関してより包括的なものが得られる）、選択される遺伝子と共に起こらない転写産物バリエーション事象のシミュレーションを可能にする。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

Ｆ）適宜、セットの少なくとも１つの人工転写産物配列に少なくとも１つの配列を挿入すること、
ここで、少なくとも１つの挿入された配列の各々は、互いに独立に、ステップＤ）の任意の人工転写産物配列と同じ長さ、好ましくは５ｎｔ〜１００００ｎｔ、特に１０ｎｔ〜１０００ｎｔの長さを有するセンス又はアンチセンス配列（すなわち、逆相補配列）と同一である。
有益なことには、多くても５つ、好ましくは多くても４つ、より好ましくは多くても３つ、そして特に多くても２つの挿入が人工転写産物配列ごとにおこなわれる。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

Ｇ）適宜、セットの人工転写産物配列の少なくとも１つから１ｎｔ〜１００００ｎｔに及ぶ長さを有する少なくとも１つの配列を取り除くこと、
ここで、１以上の人工転写産物配列の各々が、少なくとも１００ｎｔのサイズで残り、且つ、少なくとも１つのエクソン配列を含んだ状態を維持する。
有益なことには、多くても５つ、好ましくは多くても４つ、より好ましくは多くても３つ、そして特に多くても２つの除去が人工転写産物配列ごとにおこなわれる。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。
ステップＥ〜Ｇの組み合わせによって、選択される天然ｍＲＮＡ転写産物に存在しなかった追加の選択的転写事象を含むことが可能である。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

Ｈ）適宜、５’末端がグアノシンになるまで配列の５’末端を切断することによって、第１塩基をグアノシンに変更することによって、又は５’末端にグアノシンを付加することによって、好ましくは５’末端がグアノシンになるまで配列の５’末端を切断することによって又は第１塩基をグアノシンに変更することによって、特に５’末端がグアノシンになるまで配列の５’末端を切断することによって、各人工転写産物配列の第１のヌクレオチドとしてのグアノシンを確立すること。第１塩基としてグアノシンを有することで、Ｔ７ポリメラーゼによる効果的な転写が可能になる。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

Ｉ）適宜、人工転写産物配列のセットが、ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチド又はＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＡ、ＣＣ、ＣＧ、ＣＴ、ＧＡ、ＧＣ、ＧＧ、ＧＴ、ＴＡ、ＴＣ、ＴＧ、ＴＴから選択される５’開始ジヌクレオチド及び／又はＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＧ、ＣＴ、ＧＣ、ＧＧ、ＧＴ、ＴＣ、ＴＧ、ＴＴから選択される３’終結ジヌクレオチドの実質的にランダムに分布して出現するように、セットの人工転写産物配列の少なくとも１つを修飾すること。
好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。これで、生成した標準セットをＷＯ２０１１／０９５５０１Ａ１に記載の複雑性の低減方法に適合でき、そして特に好適になる。

本明細書、並びに本発明全体との関連において、（本発明の目的のための）「実質的にランダムに分布して出現」は、「実質的に均一に分布して出現」であってもよく、−広く使用されるカイ二乗検定（ピアソンによって開発された）を出現に対して適用して、適した分布のように不連続で均一な分布を有する（すなわち、あらゆる事象が一様に存在しそうな）とき−得られたｐ値（一般的にカイ二乗値にまとめられる）は０．１より高く、好ましくは０．２より高く、より好ましくは０．３より高く、より一層好ましくは０．５より高く、特に０．８より高いことを意味する。カイ二乗検定をどのように適用するかは当該技術分野で周知のことである。カイ二乗検定をどのように適用するかについては実施例４も参照のこと。

Ｊ）好ましくは、セットの人工転写産物配列の１以上、好ましくはそのすべてに、好ましくは少なくとも１０、特に少なくとも２０のアデノシンから成るポリ（Ａ）テール配列を付加すること。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。適宜、ポリ（Ａ）テールの後に、インデックス配列（ＤＮＡバーコード又は配列標識）がセットの人工転写産物配列の１以上、好ましくはそのすべてに付加される。インデックス配列は、標準セットの調製中の選択的定量及びバリデーション方法を可能にするが、標準セットとして適用される間は見えないようにする必要がある。見えなくするのは、続きの特定のワークフロー（ポリ（Ａ）プライミングを含むＲＮＡシークエンシングプロトコール）によって見られないポリテールの向こう側にインデックス配列を配置することによって達成されるか、又はインデックス配列はいずれかの潜在的リード内及び標準アノテーション内でマスクされなければならない。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

Ｋ）又は好ましくは、ステップＥ）〜Ｊ）の少なくとも２つの任意の組み合わせ、好ましくはここで、各方法ステップが一度だけおこなわれる；及び
Ｌ）セットの各人工転写産物配列について：
人工転写産物配列全体を含むＮＡ分子を物理的に合成すること。どのようにＮＡ、特にＤＮＡ及びＲＮＡ、分子を合成するかは当該技術分野で知られている。ＤＮＡ及びＲＮＡは、インビボ（組換え細胞、例えば、Ｅ．コリで発現される）又はインビトロにおける生化学的方法（例えば、ＤＮＡ／ＲＮＡポリメラーゼ、例えば、ポリメラーゼ連鎖反応−ＰＣＲによる合成／増幅）、並びに化学的合成によって製造され得る。人工ＮＡがＤＮＡであれば、それはデノボＤＮＡ合成によって好ましくは合成され、ＰＣＲによって増幅される。プラスミド内へのクローニング、微生物内への形質転換、配列検定、及び形質転換微生物の培養によりインビボでの増幅も可能である。ＤＮＡ鋳型から、Ｔ７ＲＮＡポリメラーゼを用いた転写によってＲＮＡを合成することが可能である。好ましくは、ＮＡがＲＮＡであれば、それは特にＴ７ＲＮＡポリメラーゼによってＤＮＡから転写される。

Ｍ）好ましくは、ステップＬ）のＮＡ分子がＲＮＡ分子であれば、該ＲＮＡ分子に５’キャップ構造を物理的に付加すること。これは実際の真核生物の転写産物の厳密なシミュレーションでも達成される。ｍＲＮＡのキャッピングは、例えば、Vaccinia Capping System（New England BioLabs, Inc.）によって酵素的におこなわれ得る。例えばもＷＯ２００９／０５８９１１Ａ２も参照のこと。
それによって、好ましくはＲＮＡ又はＤＮＡ分子の標準セットである、転写産物バリアントをシミュレートする人工ＮＡ分子の標準セットを物理的に得る。

好ましい実施形態において、ステップＤ）〜Ｇ）、好ましくはすべてのステップがおこなわれるが、但し、人工ＮＡ分子の標準セットは、真核生物の遺伝子について、好ましくは動物又は植物の遺伝子について、より好ましくは脊椎動物の遺伝子について、より一層好ましくは哺乳動物の遺伝子について、そして特にヒトの遺伝子について自然に起こる選択的転写事象をシミュレートするものとし、且つ、前記事象は以下の群：

選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の：スキップカセットエクソン（ＣＥ）、イントロン残存（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象、
から好ましくは選択される。

別の好ましい実施形態において、人工ＮＡ分子の標準セットは、以下の：選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の：スキップカセットエクソン（ＣＥ）、イントロン保持（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象の群から選択される選択的転写事象の少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも５、特にそのすべてをシミュレートする。

別の好ましい実施形態において、人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＧＴであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工ＮＡ分子に存在していない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し、及び／又は（好ましくは「及び」）人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＡＴであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工ＮＡ分子に存在しない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示す。

別の好ましい実施形態において、人工ＮＡ分子の標準セットが、５００ｎｔ〜２０００ｎｔ、好ましくは７５０ｎｔ〜１５００ｎｔ、特に１０００ｎｔ〜１４００ｎｔの平均である配列長有し；好ましくは、３００ｎｔ〜１２００ｎｔ、好ましくは６００ｎｔ〜９００ｎｔ、特に７００ｎｔ〜８００ｎｔの標準偏差を有し；少なくとも１００ｎｔの最小サイズを有し；そして、好ましくは１００００ｎｔの最大サイズを有する。
別の好ましい実施形態において、人工ＮＡ分子の標準セットには、ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチド又はＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＡ、ＣＣ、ＣＧ、ＣＴ、ＧＡ、ＧＣ、ＧＧ、ＧＴ、ＴＡ、ＴＣ、ＴＧ、ＴＴから選択される５’開始ジヌクレオチド及び／又はＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＧ、ＣＴ、ＧＣ、ＧＧ、ＧＴ、ＴＣ、ＴＧ、ＴＴから選択される３’終結ジヌクレオチドの実質的にランダムに分布して出現する。これで、生成した標準セットがＷＯ２０１１／０９５５０１Ａ１に記載の複雑性還元法に特に好適になる。

別の好ましい実施形態において、標準セットの人工ＮＡ分子の少なくとも５０％、好ましくはそのすべてが、２５％〜５５％の平均ＧＣ含量を有する。好ましくは、平均ＧＣ含量は、天然に存在するの遺伝子が選択された種（又は系統発生学的群）の転写産物の平均ＧＣ含量と同じくなるように選択される。
別の好ましい実施形態において、標準セットの各人工ＮＡ分子は、５’開始ヌクレオチドとしてグアノシンを有する。
別の好ましい実施形態において、標準セットの人工ＮＡ分子の少なくとも１つ、好ましくはその各々は、それがＲＮＡ分子であれば、５’キャップ構造を有する。

別の好ましい実施形態において、前記方法は、人工ＮＡ分子の標準セットを提供することを更に含み、ここで、該標準セットのＮＡ分子のうちの少なくとも２つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在する。有益なことには、それはすぐに使用できるキットの形態で提供される。好ましくは、少なくとも２つのＮＡ分子の各モル量が、少なくとも２桁、好ましくは少なくとも３桁、より好ましくは少なくとも５桁、特に少なくとも６桁異なり、特にここで、少なくとも２つのＮＡ分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は０．０１アトモル／μｌ〜１００フェムトモル／μｌ又は１００ゼプトモル／μｌ〜１フェムトモル／μｌの範囲に及ぶ。
先に述べたように、安定化及び取り扱いエラーの低減は重要である。そのため、非常に好ましい実施形態において、本発明の方法は、好ましくはコンテナ内で、好ましくは安定化剤と一緒に、物理的に得られた標準セットを乾燥、好ましくは凍結乾燥するステップを含む。

別の好ましい実施形態において、人工ＮＡ分子の標準セットの配列は、１０^−１未満、好ましくは１未満、特に１０未満の統計的有意性の閾値（期待値）で、ＮＣＢＩＧｅｎＢａｎｋデータベース受入番号が表３で列挙されている配列に対して類似性を有しない（すなわち、最もよく知られている真核生物の配列に対して類似性を有しない）、好ましくは表３及び表４のいずれか一方（すなわち、最もよく知られている真核生物及び最もよく知られている原核生物／ウイルス配列の両方に対して類似性を有しない）、特に２０１４年６月１５日のＮＣＢＩＧｅｎＢａｎｋデータベースリリース２０２のすべての配列に対して類似性を有しない。類似性は以下のパラメーター：低複雑性領域フィルタリングを伴った、２８のワードサイズ、１、−２の直鎖ギャップコスト及びマッチ／ミスマッチスコア、を用いてＢＬＡＳＴｎプログラムによって測定される。統計的有意性の閾値の解説については、Karlin & Altschul, 1990、そして、ＧｅｎＢａｎｋの序論についてはBenson et al., 2013を参照のこと。

この実施形態は、それが混成サンプルに加えられるときでさえ、標準セットの配列（但し、それらは、例えば３０ｎｔの最小限の長さを有し、例えばＲＮＡ−ｓｅｑによって容易に獲得可能である）の明確な同定を可能にするので、本発明の問題を解決するのに例外的にうまく合っている。現在のＧｅｎＢａｎｋバージョンは：ftp://ftp.ncbi.nlm.nih.gov/genbank/のダウンロードが無料で利用可能であり、ＢＬＡＳＴソフトウェアは：ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/のダウンロードが無料で利用可能である。ＧｅｎＢａｎｋの簡易版ＢＬＡＳＴ検索もhttp://blast.ncbi.nlm.nih.gov/Blast.cgi（ヌクレオチドｂｌａｓｔ、選択データベースヌクレオチドコレクション（ｎｒ／ｎｔ）、高類似配列（ｍｅｇａｂｌａｓｔ））において可能である。

本発明はまた、本発明の上記方法のいずれかの実施形態によって（特に本明細書中に明らかに言及された実施形態によって）入手可能な、転写産物バリアントをシミュレートする人工ＮＡ分子の標準セットを提供する。

表３．公表されている動物又は植物染色体配列のＧｅｎＢａｎｋ受入番号（登録バージョン番号「．Ｎ」を含む；ＧｅｎＢａｎｋデータベースリリース２０２、２０１４年６月１５日）

表４、公表されている原核生物染色体及びプラスミド配列、並びにウイルス配列のＧｅｎＢａｎｋ受入番号（登録バージョン番号「．Ｎ」を含む；ＧｅｎＢａｎｋデータベースリリース２０２、２０１４年６月１５日）

本発明の別の態様において、転写産物バリアント、好ましくはＲＮＡ分子又はＤＮＡ分子、特にＲＮＡ分子をシミュレートする、各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つのＮＡ分子のファミリーを含んでいる、人工ＮＡ分子の標準セットが提供され、

ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり；及び
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、特に少なくとも２００ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が、少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、より一層好ましくは少なくとも２００ｎｔ、特に少なくとも３００ｎｔの長さの少なくとも別の配列と異なる。

本発明に際して、本発明の目的にとって例外的に好適である人工ＮＡ分子の標準セットが見出された。これらの分子はＳＩＲＶ（Ｒスパイク−インＮＡバリアント）と呼ばれ、配列番号１〜１４８で本発明について開示されている（実施例１を参照のこと）。そのため、別の態様において、本発明は、配列番号１〜１４８の群から選択される配列全体に対して少なくとも５０％、好ましくは少なくとも６０％、より好ましくは少なくとも７０％、より一層好ましくは少なくとも８０％、更により一層好ましくは少なくとも９０％又は少なくとも９５％、特に１００％同一の配列を含むＮＡ分子、好ましくはＤＮＡ分子又はＲＮＡ分子を提供する。配列がＮＡ分析法における標準配列として使用するためだけのものであることを考えるとどの生物学的機能も保存される必要がないので、これらの配列の大きな変更が可能である。好ましくは、これらの配列番号に対するバリアントは、先で言われているように、表３の配列に対して類似性を有しない。これらのバリアントは、先に記載した方法によって得られる場合がある。

ＳＩＲＶのエクソンはそれら自体の理由により本発明の目的にとって十分に好適であるので、それらが別の配列に含まれているときでさえ、本発明はまた、配列番号１５６〜３３４の群から選択される配列全体に対して少なくとも５０％、好ましくは少なくとも６０％、より好ましくは少なくとも７０％、より一層好ましくは少なくとも８０％、更に一層好ましくは少なくとも９０％又は少なくとも９５％、特に１００％同一な配列を有する少なくとも１つのエクソンを有する配列を含むＮＡ分子、好ましくはＤＮＡ分子又はＲＮＡ分子も提供する。

加えて、ＳＩＲＶの断片もまた、それらが別のＮＡ分子に含まれているとき、本発明の目的に有用である。したがって、本発明はまた、少なくとも８０、好ましくは少なくとも１５０、好ましくは少なくとも２００、より好ましくは少なくとも３００、特に少なくとも４００の連続したヌクレオチドの配列を含むＮＡ分子、好ましくはＤＮＡ分子又はＲＮＡ分子も提供し、そしてその配列は、少なくとも８０ｎｔ、好ましくは少なくとも１５０ｎｔ、好ましくは少なくとも２００ｎｔ、より好ましくは少なくとも３００ｎｔ、特に少なくとも４００ｎｔの最小サイズを有し、配列番号１〜１４８から選択される配列の配列断片に対して少なくとも５０％、好ましくは少なくとも６０％、より好ましくは少なくとも７０％、より一層好ましくは少なくとも８０％、更により一層好ましくは少なくとも９０％又は少なくとも９５％、特に１００％同一である。

好ましい実施形態において、本発明のＮＡ分子は、各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの本発明の異なったＮＡ分子から成る少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つのＮＡ分子ファミリーを含む、転写産物バリアントをシミュレートする人工ＮＡ分子の標準セットとして提供され、ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり；及びここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、特に少なくとも２００ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が、少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、より一層好ましくは少なくとも２００ｎｔ、特に少なくとも３００ｎｔの長さの少なくとも別の配列と異なる。

好ましくは、本発明の任意の標準セットは、以下の：選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、及び以下の：スキップカセットエクソン（ＣＥ）、イントロン残存（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象、の群から選択される少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも５つ、特にそのすべての選択的転写事象をシミュレートする。

本発明の任意の標準セットの別の好ましい実施形態において、人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＧＴであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工ＮＡ分子に存在していない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し、及び／又は（好ましくは「及び」）人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＡＴであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工ＮＡ分子に存在しない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示す。

別の好ましい実施形態において、本発明の任意の標準セットが、５００ｎｔ〜２０００ｎｔ、好ましくは７５０ｎｔ〜１５００ｎｔ、特に１０００ｎｔ〜１４００ｎｔの平均である配列長有し；好ましくは、３００ｎｔ〜１２００ｎｔ、好ましくは６００ｎｔ〜９００ｎｔ、特に７００ｎｔ〜８００ｎｔの標準偏差を有し；少なくとも１００ｎｔの最小サイズを有し；そして、好ましくは１００００ｎｔの最大サイズを有する。
別の好ましい実施形態において、本発明の任意の標準セットは２５％〜５５％の平均ＧＣ含量を有する。

別の好ましい実施形態において、本発明の任意の標準セットには、ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチド又はＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＡ、ＣＣ、ＣＧ、ＣＴ、ＧＡ、ＧＣ、ＧＧ、ＧＴ、ＴＡ、ＴＣ、ＴＧ、ＴＴから選択される５’開始ジヌクレオチド及び／又はＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＧ、ＣＴ、ＧＣ、ＧＧ、ＧＴ、ＴＣ、ＴＧ、ＴＴから選択される３’終結ジヌクレオチドの実質的にランダムに分布して出現する。

別の好ましい実施形態において、本発明の任意の標準セットの各人工ＮＡ分子は、５’開始ヌクレオチドとしてグアノシンを有する。
別の好ましい実施形態において、標準セットの人工ＮＡ分子の少なくとも１つ、好ましくはその各々は、それがＲＮＡ分子であれば、５’キャップ構造を有し、及び／又は少なくとも１０、好ましくは少なくとも２０、特に少なくとも３０個のアデノシンから成るポリ（Ａ）テールを有する。好ましくは、本発明の任意の標準セットの配列は、１０^−１未満、好ましくは１未満、特に１０未満の統計的有意性の閾値（期待値）で、ＮＣＢＩＧｅｎＢａｎｋデータベース受入番号が表３で列挙されている配列に対して類似性を有しない、好ましくは表３及び表４のいずれか一方、特に２０１４年６月１５日のＮＣＢＩＧｅｎＢａｎｋデータベースリリース２０２のすべての配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター：低複雑性領域フィルタリングを伴った、２８のワードサイズ、１、−２の直鎖ギャップコスト及びマッチ／ミスマッチスコア、を用いてＢＬＡＳＴｎプログラムによって測定される。

特に好ましい実施形態において、本発明の任意の人工ＮＡ分子の標準セットが提供され、ここで、ＮＡ分子のうちの少なくとも２つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在し；そして、好ましくはここで、少なくとも２つのＮＡ分子の各モル量が、少なくとも２桁、好ましくは少なくとも３桁、より好ましくは少なくとも５桁、特に少なくとも６桁異なり、特にここで、少なくとも２つのＮＡ分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は０．０１アトモル／μｌ〜１００フェムトモル／μｌ又は１００ゼプトモル／μｌ〜１フェムトモル／μｌの範囲に及ぶ。広範囲な濃度を有することは、検出に関して高度な動態範囲を有する装置及び方法を開発するための更なる挑戦なので、例えば（例えば、ＲＮＡ−ｓｅｑにおける）装置及び方法をよりよく評価することを可能にする。

先に述べたように、安定化及び取り扱いエラーの低減は重要である。従って、別の、特に好ましい実施形態において、本発明の人工ＮＡ分子の標準セットは、コンテナ内に、好ましくは安定化剤と一緒に、乾燥させて、好ましくは凍結乾燥させて提供される。
ＤＮＡ配列をＲＮＡ配列に変換することが可能であり（ヌクレオチドの交換：Ｔ−＞Ｕ）、逆もまた同様である（ヌクレオチドの交換：Ｕ−＞Ｔ）。そのため、配列がＤＮＡ配列として（配列表を含む）本明細書中に与えられるときはいつも、それはまた、その各ＲＮＡ配列と読むものとし、逆もまた同様である。本明細書中に使用される場合、ＲＮＡは一般的に一本鎖であり、ＤＮＡ分子は一般的に二本鎖である。しかしながら、二本鎖又は一本鎖の形態の各ＲＮＡ／ＤＮＡもまた本発明について請求されるものとし、請求した配列に対して相補的な配列（例えば、ｃＤＮＡ）も同様である。

少なくとも１つ以上、例えばすべてのＮＡ分子の長さが、例えば、１００〜１００００００ヌクレオチド、好ましくは１３０〜１０００００ヌクレオチド又は１５０〜１００００ヌクレオチドであってもよい。
好ましい実施形態において、天然に存在する又は人工遺伝子は、タンパク質（例えば、ｍＲＮＡ）をコードするが、定義されているものでもあるタンパク質をコードしない転写産物、例えば、ｍｉｃｒｏＲＮＡ、ｓｎｏＲＮＡ若しくはｒＲＮＡ、並びにそれらの前駆体、特にｐｒｅ−ｍｉｃｒｏＲＮＡ又はｐｒｅ−ｒＲＮＡを含む、調節又は触媒ＲＮＡもコードする。

本明細書中で使用される場合、「遺伝子」は、１若しくは複数の転写産物を形成するために転写される配列を有する遺伝子ヌクレオチドに関する。
本明細書中で使用される場合、「アイソフォーム」又は「転写産物バリアント」は、転写産物の特定のバリアントに関係して使用される。
本明細書中で使用される場合、「約」とは、所定の値と同じ値又は所定の値と＋／−１０％異なる値を指し得る。
「備える」は、本明細書では、含むのように更なるメンバーを許容する開いた定義として理解するものとする。他方、「成る」は、成るの定義の特徴のさらなる要素を伴わない閉じた定義と見なされる。よって、「備える」はより広い定義であり、「成る」の定義を包含する。「備える」という語を用いた本明細書における任意の定義は、本発明の特別の実施形態では成るの制限を伴って読まれてもよい。

核酸シークエンシングステップは、当該技術分野で知られた任意の方法、例えば、ＰＣＲシークエンシングによって行うことができる。かかる方法は、マクサム−ギルバートシークエンシング、チェーンターミネーション法、ショットガンシークエンシング、ブリッジＰＣＲ、大規模並列処理特徴シークエンシング（ＭＰＳＳ）、ポロニーシークエンシング、ピロシークエンシング、イルミナ（Ｓｏｌｅｘａ）シークエンシング、ＳＯＬｉＤシークエンシング、イオン半導体シークエンシング、ＤＮＡナノボールシークエンシング、ヘリスコープ一分子シークエンシング、一分子リアルタイム（ＳＭＲＴ）シークエンシング、ナノポアＤＮＡシークエンシング、ハイブリダイゼーションによるシークエンシング、質量分光法を用いたシークエンシング、マイクロ流体サンガーシークエンシング、顕微鏡法ベース技術、ＲＮＡＰシークエンシング、インビトロウイルス高スループットシークエンシングを含む。

本明細書中に使用される場合、「桁」とは「１０進法等級での水準」を意味し、例えば「６桁」（本明細書中では「order of six magnitudes」とも呼ばれる）に及ぶとは、例えば１〜１×１０^６又は２×１０^−７〜０．２に及ぶ値ことを意味する。
本発明に関する任意の方法又はステップをコンピュータに実装した方法として行うことができる。ＮＡ分子をシークエンシング及び合成する通常は湿式化学的なステップでさえも、例えば、自動化または半自動化配列リーダを管理してそこからデータを得るためにコンピュータによって補助されてもよい。コンピュータプログラム製品又はメモリ装置にはサンプルからショートリードを得るリード生成コンポーネント、例えば、シーケンサー、好ましくは、コンピュータコンポーネントを備えるシーケンサーがさらに設けられてもよい。例えば、コンピュータ可読媒体は、磁気記憶装置（例えば、ハードディスク、フロッピディスク、磁気ストリップ、...）、光学ディスク（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）...）、スマートカードならびにフラッシュメモリ装置（例えば、カード、スティック、キーデバイス、...）を含み得るが、これだけに限定されるものではない。

標準ヌクレオチド配列に関して「パーセント（％）配列同一性」は、必要であれば、最大パーセント配列同一性を達成するように、配列を重ね合わせ、そしてギャップを導入し、そして、いずれの保存的置換も配列同一性の一部であると見なさなかった結果としての、標準配列のヌクレオチドと同一である候補配列のヌクレオチドのパーセンテージと定義される。ギャップは同一性の欠如を引き起こす。パーセントヌクレオチド配列同一性を決定する目的のための重ね合わせは、例えばＢＬＡＳＴ、ＢＬＡＳＴ−２、ＡＬＩＧＮ、ＡＬＩＧＮ−２、Ｍｅｇａｌｉｇｎ（DNASTAR）又はＥＭＢＯＳＳソフトウェアパッケージの「ｎｅｅｄｌｅ」対合配列重ね合わせアプリケーションなどの公的に入手可能なコンピュータソフトウェアを使用することで、当該技術分野の技能の範囲内にある様々な方法で達成され得る。当業者は、比較される配列の完全長にわたって最大重ね合わせを達成するのに必要とされる任意のアルゴリズムも含めて、配列を重ね合わせるために適当なパラメータを決定できる。しかしながら、本明細書の目的のために、％ヌクレオチド配列同一性値は、ＥＭＢＯＳＳソフトウェアパッケージのコンピュータープログラム「ｎｅｅｄｌｅ」（European Molecular Biology Laboratory; Rice et al., EMBOSS: the European Molecular Biology Open Software Suite, Trends Genet. 2000 Jun;16(6):276-7, PMID: 10827456から公的に入手可能）の配列アラインメントを使用することで計算される。

ｎｅｅｄｌｅプログラムは、ウェブサイトhttp://www.ebi.ac.uk/Tools/psa/emboss_ needle/nucleotide.htmlでアクセスしても又はＥＭＢＯＳＳパッケージの一部としてhttp://emboss.sourceforge.net/からローカルの装置にダウンロードしてもよい。それは、Ｌｉｎｕｘなどの幅広く使用されている多くのＵＮＩＸオペレーティングシステムで稼働する。
２つのヌクレオチド配列を重ね合わせるために、ｎｅｅｄｌｅプログラムは以下のパラメーターで好ましくは実行される：
コマンドライン：needle -auto -stdout -asequence SEQUENCE_FILE_A -bsequence SEQUENCE_FILE_B -datafile EDNAFULL -gapopen 10.0 -gapextend 0.5 -endopen 10.0 -endextend 0.5 -aformat3 pair -snucleotide1 -snucleotide2 (Align_format: pair Report_file: stdout)。

所定のヌクレオチド配列Ｂへの、との、又はに対する所定のヌクレオチド配列Ａの％ヌクレオチド配列同一性（所定のヌクレオチド配列Ｂへ、と、又はに対して特定の％ヌクレオチド配列同一性を有する又は備える所定のヌクレオチド配列Ａと代替的に表現することもできる）は次のように計算される：
１００×割合Ｘ／Ｙ
この場合、Ｘは配列アラインメントプログラムｎｅｅｄｌｅ、すなわち、ＡとＢのプログラムによる重ね合わせによって完全一致としてスコア化されたヌクレオチドの数であり、及びこの場合、ＹはＢのヌクレオチドの総数である。ヌクレオチド配列Ａの長さがヌクレオチド配列Ｂの長さと等しくない場合、Ｂに対するＡの％ヌクレオチド配列同一性がＡに対するＢの％ヌクレオチド配列同一性と等しくなたないことは理解される。「Ａの配列がＢの配列全体と少なくともＮ％同一である」場合、ＹはＢの全長である。別段の記述がない限り、本明細書中に使用されるすべての％ヌクレオチド配列同一性値が、ｎｅｅｄｌｅコンピュータプログラムを使用して直前の段落に記載のように得られる。

「配列類似性」、「配列同一性」、「配列の共有」及び同類の用語はまた、配列の逆相補配列にも当てはまるものとする、すなわち、「配列Ａは配列Ｂと８０％同一である」という表現はまた、「配列Ａは配列Ｂの逆相補配列（又はアンチセンス配列）と８０％同一である」の場合にも正しいものとする。
本明細書中では、ＮＡ配列と関連した「挿入」という用語は、５’又は３’末端における直接的な挿入（すなわち、５’ 又は３’末端における付加）も意味する。

代表的な実施形態
本発明の方法の特に好ましい実施形態は、以下のとおりである：
１若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び／又は定量のための方法であって、以下のステップ：

ａ）各ファミリーが少なくとも３つの異なったＮＡ分子から成る、少なくとも３つの異なったＮＡ分子ファミリーを含む、転写産物バリアントをシミュレートするＮＡ分子の標準セットを提供し、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ヌクレオチド（ｎｔ）、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、特に少なくとも２００ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が少なくとも８０ｎｔ、好ましくは少なくとも１００ｎｔ、より好ましくは少なくとも１５０ｎｔ、より一層好ましくは少なくとも２００ｎｔ、特に少なくとも３００ｎｔの長さの別の配列と異なり、且つ
ここで、各々人工ＮＡ分子があらかじめ設定されたモル量で提供され；そして更に
ここで、各々人工ＮＡ分子は：

−少なくとも１００ｎｔの長さを有し、且つ、少なくとも１つの人工エクソンを含み；ここで、前記共有された配列は単一の人工エクソン配列内に含まれ、及び
ここで、前記ＮＡ分子の標準セットは：
−２５％〜５５％の平均ＧＣ含量を有し、及び

−以下の群：
選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の：スキップカセットエクソン（ＣＥ）、イントロン残存（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象、から選択される少なくとも５つの選択的転写事象をシミュレートし、及び
ここで、人工ＮＡ分子の標準セットのエクソン配列のすべての５’開始ジヌクレオチドの少なくとも７５％がＧＴであり、且つ、人工ＮＡ分子の標準セットのエクソン配列のすべての３’終結ジヌクレオチドの少なくとも７５％がＡＴであり、及び
ここで、任意の標準セットの配列は、１０未満の統計的有意性の閾値（期待値）で、ＮＣＢＩＧｅｎＢａｎｋデータベース受入番号が表３及び表４のいずれか一方で列挙されている配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター：低複雑性領域フィルタリングを伴った、２８のワードサイズ、１、−２の直鎖ギャップコスト及びマッチ／ミスマッチスコア、を用いてＢＬＡＳＴｎプログラムによって測定され；及び

ｂ）転写産物バリアントを含む１若しくは複数のサンプルに外部対照として前記標準セットを加え；及び
ｃ）標準リードの割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが１若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成及び割り当てに基づくＮＡシークエンシングをおこなうこと、
を含む方法。

参考文献：
Aird SD, et al., (2013) Quantitative high-throughput profiling of snake venom gland transcriptomes and proteomes (Ovophis okinavensis and Protobothrops flavoviridis). BMC Genomics 14:790.
Benson DA, et al., "GenBank." Nucleic acids research (2012). doi: 10.1093/nar/gks1195.
Blomquist, Thomas M., et al. "Targeted RNA-sequencing with competitive multiplex-PCR amplicon libraries." (2013): e79120.
Brennecke P, et al., (2013) Accounting for technical noise in single-cell RNA-seq experiments. Nature Methods 10(11): 1093.
Chaitanya RS, et al. (2008) Overlapping genes in the human and mouse genomes. BMC Genomics 2008, 9:169.
Cronin M, et al., (2004) Universal RNA Reference Materials for Gene Expression. Clinical Chemistry 50(8): 1464 -1471.
Devonshire AS, et al., (2010) "Evaluation of external RNA controls for the standardisation of gene expression biomarker measurements." BMC genomics 11.1: 662.
External RNA Controls Consortium, (2005) Proposed methods for testing and selecting the ERCC external RNA controls. BMC Genomics 6:150. Available at www.biomedcentral.com//1471-2164/6/150.
External RNA Controls Consortium, (2005a) The External RNA Controls Consortium: a progress report. Nature Methods 2:731-734.
ERCC User Guide: ERCC RNA Spike-In Control Mixes (English). Life Technologies (2012). Publication Number 4455352, Revision D.
Hu Y, et al., (2014) PennSeq: accurate isoform-specific gene expression quantification in RNA-Seq by modeling non-uniform read distribution. Nucleic Acids Research 42:3 e20.
James HB, et al., (2010) Evaluation of statistical
methods for normalization and differential expression in mrna-seq experiments. BMC Bioinformatics, 11:94.
Jiang L, et al., (2011) Synthetic spike-in standards for RNA-seq experiments. Genome Research 21:1543-1551.
Lin CY, et al., (2012) Transcriptional Amplification in Tumor Cells with Elevated c-Myc. Cell 151:56-67.
Karlin S, and Altschul SF, (1990) "Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes." Proceedings of the National Academy of Sciences 87(6): 2264-2268.
Koscielny G, et al., (2009) ASTD: The Alternative Splicing and Transcript Diversity database. Genomics. 93(3):213-20.
Loven J, et al., (2012) Revisiting Global Gene Expression Analysis. Cell 151:476-482.
MAQC Consortium,( 2006) The MicroArray Quality Control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements. Nature Biotechnology, 24(9):1151-1161. .
Nilsen TW, and Graveley BR, (2010) Expansion of the eukaryotic proteome by alternative splicing. Nature 463.7280: 457-463.
Rapaport F, et al., (2013) Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data. Genome Biology, 14:R95.
Reid L (ERCC), (2005) Proposed methods for testing and selecting the ERCC external RNA controls. BMC Genomics 2005, 6:150.
Rice P, et al., (2000) EMBOSS: the European Molecular Biology Open Software Suite, Trends Genet, 16(6):276-7.
Roberts A, et al., (2011) Improving RNA-Seq expres-
sion estimates by correcting for fragment bias. Genome Biol, 12(3):R22.
Shippy R, et al., (2006) Using RNA sample titrations to assess microarray platform performance and normalization techniques. Nat Biotechnol. 24(9): 1123-1131.
Sun, Bing, Lian Tao, and Yun-Ling Zheng. "Simultaneous quantification of alternatively spliced transcripts in a single droplet digital PCR reaction." BioTechniques 56.6 (2014): 319.
Trapnell C, et al., (2010) Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology 28, 511-515.
Wang ET, et al., (2008) Alternative Isoform Regulation in Human Tissue Transcriptomes. Nature 456, 470-476.
Wang Z, et al., (2009) "RNA-Seq: a revolutionary tool for transcriptomics." Nature Reviews Genetics 10(1): 57-63.
Xin D, et al., (2008) Alternative Promoters Influence Alternative Splicing at the Genomic Level, PLOS One, DOI: 10.1371/journal.pone.0002377.
Yoon OK, et al., (2012) Genetics and Regulatory Impact of Alternative Polyadenylation in Human B-Lymphoblastoid Cells. PLoS Genet. e1002882, doi: 10.1371/journal.pgen.1002882.
Zhang, Fan, and Renee Drabier. "SASD: the Synthetic Alternative Splicing Database for identifying novel isoform from proteomics." BMC bioinformatics 14.Suppl 14 (2013): S13.

実施例１：ＳＩＲＶの特徴
表５：ＳＩＲＶ（本発明の人工ＮＡ分子、転写産物バリアントをシミュレートする）の特徴づけ。配列番号７５〜１４８は、３０個のアデノシンから成るポリ（Ａ）テールがなければ、それぞれ配列番号１〜７４と同一である。「鋳型なし」は、ＳＩＲＶには直接的なヒト転写産物モデル鋳型はないが、代わりにステップＥ）〜Ｇ）を用いた本発明の製造方法によって入手可能であることを意味する。ＳＩＲＶファミリーは、同じ人工遺伝子の転写産物バリアントを提供し、ヒトモデル遺伝子の条件をシミュレートする。

表６：ＳＩＲＶ（×は、特質が存在した回数を示す）の選択された特質

図１、及び４〜１０も参照のこと。
例示目的のために、ＳＩＲＶ転写産物ファミリー１〜７をもたらす７つの人工ＳＩＲＶ遺伝子（ＳＩＲＶ１〜ＳＩＲＶ７）を、配列番号１４９〜１５６に列挙する。ＳＩＲＶ遺伝子はそれらのエクソン配列によって定義され（すなわち、少なくとも１つの転写産物のエクソンである配列、それらはイントロンであってもよい、すなわち、他の転写産物になるために存在しない）、それらが転写産物として定義される場合、それらは該エクソン配列からもたらされる。本明細書中で言及する場合、それらが単に概念として存在する場合でも、それで十分である。

ＳＩＲＶのエクソンを配列番号１５６〜３３４で列挙する。
ＳＩＲＶは、ヌクレオチド及びタンパク質レベルにおけるｂｌａｓｔ検索によって明らかになるように、ＮＣＢＩデータベースにおける登録事項との同一性が不足している。人工ＳＩＲＶトランスクリプトームからコンピュータ内実験で作り出す５０ｎｔの長さのＮＧＳリード、ＳＩＲＶｏｍｅはまた、モデル生物、ヒト、マウス、シロイヌナズナ、Ｃ．エレガンス（C.elegans）、Ｄ．メラノガスター（D.Melanogaster）、Ｅ．コリ（ＣＧＡ１．２０）、Ｓ．セレビシエ（S.Cerevisiae）、及びＸ．トロピカリス（X. tropicalis）からのアノテーション付トランスクリプトームに顕著に重ね合わなかったが、ＳＩＲＶｏｍｅに対して非常にうまくマッピングされた。加えて、あらゆる的外れの重ね合わせが、リードスパイクとして容易に同定され得る。そのため、ＳＩＲＶ転写産物は試験されるモデル生物の転写産物と大きく異なっているので、これらのゲノムにおいてスパイク−イン対照として使用したとき、ＳＩＲＶ転写産物は、転写産物の発見及び定量を妨げることがありそうにないと結論づけられる。推定によると、更に多くの異なった物理的クラスからのゲノムがｎｔ−ｂｌａｓｔに加えて試験されるので、人工ＳＩＲＶ配列はいずれの既知のゲノムシステムも妨げないであろうことが合理的に想定され得る。

ＳＩＲＶはまた、ＥＲＣＣスパイク−イン転写産物に対する的外れなマッピングはほとんど存在しないので、ＥＲＣＣに関連して使用されることもできる。
７４種類のＳＩＲＶ転写産物は、
・ＮＧＳＲＮＡ−Ｓｅｑ実験、及びマイクロアレイ分析又はｑＰＣＲなどの他のＮＡ分析法でスパイク−イン転写産物として使用されることができ、
・的外れの重ね合わせの非常に少ない、ＳＩＲＶｏｍｅへの一意的なマッピングを可能にする人工配列であり、
・長さ、ＧＣ含量、イントロンスプライシング部位ジヌクレオチド、及びエクソン−イントロン構造に関して天然型のｍＲＮＡを模倣し、
・ＥＲＣＣに関連して使用されることができ、
・Ｔ７ＲＮＡポリメラーゼ転写産物として費用効率よく作製されることができる。

ＳＩＲＶは、次の、
・ポリ（Ａ）ベースの選択及び増幅、
・アイソフォーム検出、
・アノテーションベースのアイソフォームマッピング及び仮説の構築、
・アイソフォーム存在量の概算、
・（異なったＳＩＲＶ濃度を有する２つの混合物を使用することによる）ログ倍数変化のバリデーション、
・アイソフォーム存在量概算アルゴリズムの訓練及びバリデーション、
・アイソフォームのデノボアッセンブリ、
・ＳＱＵＡＲＥシステム（ＷＯ２０１１／０９５５０１Ａ１に記載の複雑性低減法）におけるアイソフォーム偏析、
を可能にする。

実施例２：ＳＩＲＶ作製
ＳＩＲＶを作製するために、インビトロ転写鋳型を外部ＤＮＡ合成プロバイダーに合成させた。これらの構築物は、５’から３’へと（ａ）一意的な制限部位（ＸｈｏＩ）と、そのすぐ上流の（ｂ）Ｔ７ＲＮＡポリメラーゼプロモーターを備え、その３’Ｇが（ｃ）ＳＩＲＶ配列の第１のヌクレオチドであって、シームレスに（ｄ）Ａ（３０）テールが続き、それには（ｅ）排他的なＮｓｉＩ制限部位が融合されている（図１１）。
Ｔ７プロモーターの融合並びにＡ（３０）テール内へのＮｓｉＩ部位の組み込みは、５’Ｇ（ＳＩＲＶ配列の一部、且つ、Ｔ７プロモーター）から始まり、そして追加の３’ヌクレオチドなしにポリ（Ａ）テールで終わる配列の正確なＲＮＡをもたらす転写を許す。

ＤＮＡ合成プロバイダーは、ベクター内にクローニングした遺伝子カセット、固有Ｔ７プロモーターを含まないプラスミドｐＵＣ５７を供給した。プラスミドｐＵＣ５７（長さ２７１０ｂｐ）は、ｐＵＣ１９の誘導体であり、Ｅ．コリにおけるクローニングベクターとして一般的に使用される。該ベクターには、アンピシリン耐性のためのｂｌａ遺伝子及び白／青セレクションのためのｌａｃＺ遺伝子が入っている。ＧｅｎＢａｎｋ受入番号Ｙ１４８３７．１、Bio Basic, Inc.によってマップが提供されている。
制限及び転写アッセイに十分である８〜１０μｇの各ベクターを得た。ＸｈｏＩとＮｓｉＩを用いた二重消化は適切なインサートサイズと制限処理の完了を示す。しかしながら、大規模調製用転写のために、ＳＩＲＶプラスミドを５０μｇバッチスケールで作製した。

プラスミドの線形化：多量のＲＮＡを作製するための最初のデフォルト方法は、ＳＩＲＶ発現カセットを含んでいるＮｓｉＩ制限処理されたベクターのランオフ転写である。これに関しては、数μｇのプラスミドを消化して、正確な３’末端を得た。Bio Basicによってすべての構築物に関して完全なＰｓｔＩ／ＮｓｉＩ制限が示されていたが、転写の開始がインビトロ転写反応の制限ステップの１つであり、且つ、鋳型整備物中の少量の環状プラスミドでさえ大きい割合の転写産物を作り出すので、我々はＮｓｉＩのみによる効率的開裂を調べた（図２を参照のこと）。
ＮｓｉＩ制限処理は３’突出末端を作り出す。これは第２鎖転写を開始するかもしれず、その場合我々は付着末端の平滑化を用いる。このために、Ｔ４ＤＮＡポリメラーゼの３’−５’エキソヌクレアーゼ活性を使用した。

Epicentre AmpliScribe Kits High Yield and Flashを使用したＴ７転写：線形化転写産物を、Ｅｐｉｃｅｎｔｅｒの市販のＴ７転写産物キット、AmpliScribe T7 High Yield Transcription Kit（Art.No150408）及びAmpliScribe T7Flash Transcription Kit（Art.No150405）で鋳型として使用した。
Ｔ７転写を制御する重要な要素は、高いｄＮＴＰ濃度を許容する転写条件を用いるキットの使用である。これは高収量を可能にする、すなわち、１μｇのプラスミドが最大１６０〜１８０μｇのＲＮＡを生じ得る（例えば、Epicentreの高収量キット）。

更に、絶対制限までは、より多くの鋳型がより多くのＲＮＡを作り出す。異なった長さの鋳型に関して、モル濃度を考慮に入れられなければならず、転写開始が速度制限段階であり、且つ、Ｔ７ポリメラーゼ伸長の１つの相が最大６００ｎｔをこなすので（Epicentreのウェブサイトからの情報）、短い鋳型はより長い鋳型と同じ質量のＲＮＡを生み出すことはない。
より長いインキュベーション時間は、開始機会を増やし、短い鋳型の収量に対してよりすばらしい効果を有する。したがって、標準的な２時間のインキュベートではなく、４〜６時間、或いは一晩のインキュベートが推奨されることもある。しかしながら、より長期間のインキュベーションは、Ｔ７転写バッファーがＭｇ^２＋陽イオンを含んでいるので、ＲＮＡ分解をもたらし得る。
３７℃から４２℃にＴ７転写酵素反応温度を上げることは、収量の多大な増大をもたらし得る。これは、更に複雑な（ＧＣリッチ、構造化）鋳型をより顕著にするであろう（図３を参照のこと）。

ＧｕＳＣＮ、フェノール、ＳＤＳ、ＲＮＡ又は金属イオンの痕跡量は、Ｔ７が転写酵素活性を阻害し得る。例えば、ワットマン精製による、線形化プラスミドの厳密な精製が推奨される。或いは、反応容量が増量され得るか、又はプラスミド入力体積が低減され得る。
鋳型ＤＮＡはＤＮアーゼによって取り除かれる必要がある。Epicentre（AmpliScribeマニュアル）によると、含まれているＤＮアーゼ１単位を転写に直接加え、３７℃で１５分間更なるインキュベーションを加える。ＤＮアーゼ処置をＲＮＡ完全性に影響しないか試験する、すなわち、それがＲＮＡを分解する場合には、残留ＲＮアーゼに起因する。或いは、ＤＮＡを、ＳＰＬＩＴプロトコール変法による酸フェノール抽出によって取り除くこともできる。しかしながら、ＧｕＳＣＮはその後のシリカカラム結合に不必要であろう。

残留プラスミドＤＮＡを、Ｂｉｏａｎａｌｙｚｅｒの利用（ＲＮＡ特異的色素を用いても）により、又はプライマーＧＣＴＡＡＴＡＣＧＡＣＴＣＡＣＴＡＴＡ^＊Ｇ（配列番号３３７）及びＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴ^＊Ｖ（配列番号３３８）（（^＊）はホスホチオアート結合を有するヌクレオチドである）を使用するｑＰＣＲアッセイにより−定量的に−検出する。
推奨されるＳＩＲＶ精製方法を次に記載する。ＰＡＧＥ：ＮＧＳスパイク−イン転写産物に必要とされる高い品質を有する転写ＲＮＡをインビトロで精製するための標準プロトコールがＰＡＧＥ溶出であるが、厄介なことに、あまり正確ではなく、ＵＶ架橋を誘発する可能性もあるので、それは＞１ｋｂの転写産物には好適でない。
シリカベースの精製：最初、精製は、核酸からｄＮＴＰｓ、添加物、及びタンパク質を取り除く技術分野の当業者に知られているワットマンプロトコールによってのみおこなわれる。しかしながら、この手順は損失傾向があり；試験マーカーの最大６０％が標準的手順において溶出されなかった。加えて、ＤＮＡ鋳型は一緒に溶出する。溶出バッファーＥＢ又は保存バッファーＳＢが効果的な溶出に使用しうるかどうかを試験しなければならない。

転写産物の磁性オリゴ（ｄＴ）ビーズ精製：転写反応が完全長のＲＮＡを生じない場合（ＮｓｉＩ制限部位まで）、このＲＮＡはＡ（３０）テールを含まない。したがって、オリゴ（ｄＴ）ビーズ精製は、完全長の転写産物を選択的に精製するのに使用できる。しかしながら、この方法はランスルー転写又は第２鎖転写によって生じる異常ＲＮＡを識別しない。なぜなら、これらのＲＮＡも最低１コピーのＡ（３０）構造を含んでいるからである。ＤＮＡ鋳型の一方の鎖もまたポリ（Ａ）鎖を含むことに注意する。（転写産物がその鋳型から放出されるので）ＤＮＡがそのｄｓＤＮＡ形態で存在し、且つ、オリゴ（ｄＴ）ハイブリダイゼーションに参加できないかどうか判定する必要がある。この方法の１つのバリエーションでは、オリゴはＲＮＡであり、そして、結合ステップの後にＲＮアーゼＨ消化が続く場合があり、そのコードＡ（３０）鎖を介してビーズに結合したすべてのプラスミドＤＮＡを取り除く。或いは、ＤＮアーゼ処置によってＤＮＡを取り除く。

Ｐｉｐｐｉｎｐｒｅｐ：ＳａｇｅＳｃｉｅｎｔｉｆｉｃＰｉｐｐｉｎｐｒｅｐは自動化されたゲル溶出システムであり、そしてそれは、１．５％又は２％の天然アガロースカセットからのｄｓＤＮＡ（例えば、ＮＧＳライブラリ）の溶出用に設計されている。ＲＮＡは、Ｐｉｐｐｉｎｐｒｅｐ外部又は内部ＤＮＡ標準に従って泳動されないので、長さの概算が不可能である。それにもかかわらず、十分な純度のＳＩＲＶは単一の、主要なピークで泳動され、そしてそれは、しきい塩基対値を設定後に次のピークを自動的に回収するサイズ選定プロトコール「Ｐｅａｋ」により検出され得る。
品質管理及び定量は、ＳＩＲＶ混合物を作製するのに重要である。Ｎａｎｏｄｒｏｐ定量：吸光光度測定は、Ａ２６０／Ａ２３０及びＡ２６０／Ａ２８０比の形態で濃度（これにより、収量）及び純度をもたらす。重要なことには、Ｎａｎｏｄｒｏｐ装置（Nanodrop Instruments）において吸光度測定は、２６０ｎｍに過剰比例する吸収度を有するｄＮＴＰｓの痕跡量もまた計測するので、不十分な精製には問題が多い。Ｑｕｂｉｔ測定値（LifeTechnologies）を第三の標準と見なす場合がある。
ＡｇｉｌｅｎｔＢｉｏａｎａｌｙｚｅｒＲＮＡナノチップ：ＳＩＲＶ転写産物は、適切な長さ、量、、ＲＮＡ完全性（すなわち、分離又は分解生成物）及び異常な（より長い）生成物についてＡｇｉｌｅｎｔＢｉｏａｎａｌｙｚｅｒＲＮＡチップ上で評価され得る。

変性ゲル電気泳動：Ｂｉｏａｎａｌｙｚｅｒを補足して、ＲＮＡを、それらのサイズに依存する変性ＰＡＡ又はアガロースゲルでも分析し得る。これは、転写産物の長さに関してより正確な評価を可能にするが、Ｂｉｏａｎａｌｙｚｅｒによって提供される定量及び範囲を伴わない。
ｑＰＣＲ：スパイク−イン転写産物の完全性を評価し、且つ、相補的な定量を得るために、完全長ｃＤＮＡ合成に続いて、転写産物の５’、中央、及び３’領域に配置した複数の単位複製配列のｑＰＣＲを実施した。外部標準として、ＰＣＲ転写鋳型を同じ設定で増幅し得る。これらの設定もＳＩＲＶミックスの相対濃度を決定するのに適切であり得る。
これらのＳＩＲＶ特異的プライマーは、例えば、所定の遺伝子のすべてのＳＩＲＶに共通のエクソンではなく、特定のＳＩＲＶの各々１つだけを標的とするように注意して設計される必要がある。

実施例３：ＲＮＡ−ｓｅｑの外部対照としてのＳＩＲＶの使用
実験手順が以下のステップ、ｉ）サンプル収集、ｉｉ）ＲＮＡ精製、ｉｉｉ）ＮＧＳライブラリ作成、ｉｖ）ＮＧＳシークエンシング、ｖ）標準アノテーションに対するリードの重ね合わせ、及びｖｉ）その後の正確に相対転写産物量を計算する生物情報科学的処理、から成ることは広く認識されている。しかしながら、異なった方法、例えば、異なったサンプル調製であるが、同様の以下の実施例に我々が示す同じ実験データセットの生物情報科学的処理ルーチンも可能である。
部分的にバリデートされた転写産物量を含んでいるほんのわずかなデータセットのみ利用可能である。これらのうちの１つは、ＭｉｃｒｏａｒｒａｙＱｕａｌｉｔｙＣｏｎｔｒｏｌ（ＭＡＱＣ）サンプル（MAQC Consortium, 2006）由来であり、普遍的なヒト標準ＲＮＡ（ＵＨＲＲ）及びヒト脳標準ＲＮＡ（ＨＢＲＲ）を含んでいる。両ＲＮＡサンプルについて、１０４４個のＴａｑｍａｎプローブを用いてｑＰＣＲ測定値を得た。これらの測定値は、ＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓから受入番号ＧＳＥ５３５０で入手可能である。

加えて、ＵＨＲ及び脳ＲＮＡサンプルをＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒの７つのレーンにより配列決定して、３５ｂｐのシングルエンドリードを得た（James et al., 2010）。ＮＣＢＩＲｅａｄＡｒｃｈｉｖｅから受入番号ＳＲＡ０１０１５３で入手可能であるこれらのリードを、ＥｎｓｅｍｂｌアノテーションＧＲＣｈ３７バージョン７５に対してＴｏｐＨａｔ２を用いてマッピングした。１０４４個のＴａｑｍａｎプローブから９０６個のプローブを残し、それをＧＳＥ５３５０に従って、単一のＲｅｆｓｅｑアノテーションに対してマッピングした。Ｅｎｓｅｍｂｌアノテーションを実験に使用したので、Ｅｎｓｅｍｂｌにおいて同等に一意的であることをＴａｑｍａｎプローブのＲｅｆｓｅｑアノテーションに求めることによって、このセットのＴａｑｍａｎプローブを更に削減した。最終的に、これらから、８９４個のＴａｑｍａｎプローブのみのものを使用して、そのＥｎｓｅｍｂｌ転写産物アノテーションを複数の転写産物を有する遺伝子内に入れた。これは７９８個のＴａｑｍａｎプローブの最終セットをもたらした。Ｐｅｎｎｓｅｑ（Hu et al., 2014）、方法１、並びにバイアス補正を含む及び含まないＣｕｆｆｌｉｎｋｓ（Roberts et al., 2011; Trapnell et al., 2010）、方法２及び３を使用して、７９８個の転写産物に対するＦＰＫＭ値の形で濃度の概算を得た。

異なった方法によって得られたＦＰＫＭ値とｑＰＣＲ値との間の相関を表７に示す。相関はログスペース内のＲ^２値及びスピアマン相関ρを用いて評価する。ゼロに近い値がログスペース内の統計データを顕著に歪曲し得るので、１ｅ−３未満のＦＰＫＭ値をすべての方法について１ｅ−３に設定する。或いは、１ｅ−３未満のＦＰＫＭを有する転写産物は検出されなかったものと見なしてもよい。

表７．ＦＰＫＭとｑＰＣＲとの相関及び検出されなかった（ＮＤ）転写産物、すなわち、ＵＨＲＲＮＡレーンＳＲＲ０３７４４５においてＦＰＫＭ＜１ｅ−３の転写産物の特性

表７に示されているように、Ｒ^２値は、一方ではＰｅｎｎｓｅｑについて０．４１８、バイアス補正のないＣｕｆｆｌｉｎｋｓについて０．３３１７及びバイアス補正のあるＣｕｆｆｌｉｎｋｓについて０．３９４３である。その一方、スピアマン相関は、Ｐｅｎｎｓｅｑについて０．７１２９、バイアス補正のないＣｕｆｆｌｉｎｋｓについて０．６５４１及びバイアス補正のあるＣｕｆｆｌｉｎｋｓについて０．７３１２である。印象的なことに、バイアス補正のある及びないＣｕｆｆｌｉｎｋｓはそれぞれ、ｑＰＣＲによって存在することが示された転写産物の１４．６１％及び１５．４８％を検出しておらず、これに対して、Ｐｅｎｎｓｅｑは２．７９％を検出していない。重要なことには、３つの計算法で検出されなかった転写産物は、ｑＰＣＲバリデーション実験において−１．６５〜−１．７６の高い平均ｌｏｇ_１０存在量を有していた。
実施例は、２以上のＥｎｓｅｍｂｌ転写産物アノテーションを含む７９８個のＴａｑｍａｎｑＰＣＲバリデート遺伝子座の選択を通じて、２つの異なった生物情報科学的アルゴリズム（更に一方が２つの異なったバイアス補正を有する（Ｃｕｆｆｌｉｎｋｓ））が３つの著しく異なった結果を生じることを証明した。重ね合わせは、間違った転写産物に対して多数の遺伝子内にリードを振り分ける。グラウンド最低値（ground trough）を我々は知らないので絶対相関は不可能である。天然に存在する遺伝子における転写産物と類似した複雑な状況で存在する、既知の存在量の人工転写産物バリアントだけで、個々のステップ及び全体的なワークフローで実施される測量法の精度の定量的な評価が可能である。

実施例４：ランダム分布を試験するためのカイ二乗検定
一例として、「ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチドの実質的にランダムに分布した出現がある人工転写産物配列のセット」に対してどのようにカイ二乗検定を適用するかについて説明するものである。

異なる場合又は細胞（ｎ）の数：１６（ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴ）
人工転写産物配列の数（Ｎ）：７４
５’開始ヌクレオチド（Ｏ_１、Ｏ_２、Ｏ_３、...、Ｏ_ｎ）の出現（カウント）：
ＧＡＡ５ＧＡＣ５ＧＡＧ４ＧＡＧ６ＧＡＴ３ＧＣＡ２ＧＣＣ４ＧＣＧ５ＧＣＴ６ＧＧＡ７ＧＧＣ４ＧＧＧ３ＧＴＡ４ＧＴＣ５ＧＴＧ６ＧＴＴ５

自由度（ｄｆ）：ｎ−ｐ＝１５（離散一様分布についてｐ＝１）
（離散一様分布の帰無仮説下での）任意の細胞に関する予想される出現：Ｅ_ｉ＝Ｎ／ｎ＝４．６２５。これは、５’開始トリヌクレオチドと言及されたトリヌクレオチドのそれぞれが４．６２５を、偽って、有するトリヌクレオチドの（完全）一様分布の状況を意味する。
カイ二乗（ピアソンの累積検定統計）は以下のとおり定義される：

Ｏ_ｉ、Ｅ_ｉ、及びｎに関する上記値が、直前の式に適用して得た：カイ二乗＝５．５７。
特定のカイ二乗値（この実施例では５．５７）及び特定の自由度（この実施例では１５）に関する確率値（「ｐ値」）は周知の表（いわゆるカイ二乗表）に要約されている。ｐ値はまた、ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ、ＬｉｂｒｅＯｆｆｉｃｅ又はＯｐｅｎＯｆｆｉｃｅ（それらのうちの後者２つは無料で利用可能である）などの広く使用されているオフィス用ソフトウェア、又は無料で利用可能なＲソフトウェアパッケージによって計算されてもよい。英語版のＭｉｃｒｏｓｏｆｔＥｘｃｅｌ２００３では、この機能はＣＨＩＤＩＳＴと呼ばれている。
カイ二乗値＝５．５７及びｄｆ＝１５に対応するｐ値は０．９８６１である。そのため、この実施例における開始ヌクレオチドの出現は、本明細書中に定義した「実質的にランダムに分布」している条件を満たす。

実施例５：ＳＩＲＶの評価
配列番号１〜７４によって与えられる上記セットからの７４個のＳＩＲＶのうちの６０個を、合成し、クローニングし、発現し、精製し、品質管理し、そして、電気泳動測定によりそれらの濃度を決定し（Ｂｉｏａｎａｌｙｚｅｒ、AgilentによるＲＮＡナノ及びピコチップ及びアッセイ）、その後、２つのマスターミックスに組み合わせ、そして、更なるサンプル調製のために１０ｎｇ／μｌ超の濃度に濃縮した。ＳＩＲＶＭｉｘ１は等しい質量で６０個のＳＩＲＶすべてを含んだ。ＳＩＲＶＭｉｘ２を、１：１０：１００の比でランダム化して最大２桁、ＳＩＲＶ遺伝子中の個々のＳＩＲＶの量が変動する混合スキームに従って調製した。このＳＩＲＶＭｉｘ２では、すべての副次的なＳＩＲＶの合計としての各ＳＩＲＶ遺伝子を等しい質量で提供した。

３種類のＲＮＡサンプルを調製した。サンプル１は、包括的なＳＩＲＶ転写産物混合物ＳＩＲＶＭｉｘ１（１００ｎｇ）だけを含んだ。サンプル２は、５００ｎｇの普遍的なヒト標準ＲＮＡ（Agilent）を、０．３ｎｇのＥＲＣＣ（Ambion）及び３ｎｇのＳＩＲＶＭｉｘ１と組み合わせた。サンプル３は、０．３ｎｇのＥＲＣＣ（Ambion）及び３ｎｇのＳＩＲＶＭｉｘ２と共に５００ｎｇの普遍的なヒト標準ＲＮＡ（Agilent）から成った。
３種類のｍＲＮＡサンプルをサービスプロバイダ（Fasteris, Suisse）に出荷し、該サービスプロバイダがサンプルを調製し、シークエンシングをおこなった。ＮＧＳライブラリを、ポリＡ選択なしでカスタムライブラリー調製によってサンプル１から準備し、そして一方、サンプル２及び３をポリＡ選択を伴ってＩｌｌｕｍｉｎａ鎖ｍＲＮＡライブラリー調製に供した。３種類のライブラリすべてを、バーコードを付し、試みた等比で混合した。シークエンシングを、ｖ３化学薬品を用いたＩｌｌｕｍｉｎａＭｉＳｅｑにより実施し、１５０ｂｐのインデックス付きリードを結果的に得た。

合計で、２６．７Ｍｉｏのリードを作り出し、所定のバーコードに割り当てられた。リードの品質をＦａｓｔＱＣ（ｖ０．１１．１）で評価した。何らかのアダプター夾雑を検出し、そして、以下のパラメーター：．／ｂｂｄｕｋ.ｓｈ...ｋｔｒｉｍ＝ｒｋ＝２８ｍｉｎｋ＝１２ｈｄｉｓｔ＝１ｍｉｎｌｅｎｇｔｈ＝２０、を用いてｂｂｍａｐ一式（バージョン３２．３２）からｂｂｄｕｋを使用することによって削除できた。得られたリードを、ＥｎｓｅｍｂｌのＧＲＣｈ３７．７５、AmbionのＥＲＣＣ９２、及びＳＩＲＶｏｍｅの組み合わせられた転写産物及びゲノム標準アノテーションに対してｔｏｐｈａｔ（ｖ．２．０．８）を用いてマッピングした。マッピング精度（mapping statistics）を表８に示す。

表８．マッピング精度

様々なアノテーションに渡る一意マッピングリードの分布を表９に示す。サンプル２及びサンプル３において、次のリード比ＵＨＲＲ：ＥＲＣＣ：ＳＩＲＶの７０．３：２．７：２７を、入力重量に従って予想し、そして、全ＲＮＡ中の２％のｍＲＮＡと仮定する。

表９．一意マッピングリードの分布。

サンプル１では、すべてのリードの９９．９４％の例外的に多数がＳＩＲＶｏｍｅにマッピングされ、その一方で、０．０６％だけがヒトゲノム及びＥＲＣＣの全体にマッピングされた。この結果は、他の既知の配列とＳＩＲＶｏｍｅの高い不適合性と、ＳＩＲＶ配列の一意性を立証する。
サンプル２及び３では、９２個のＥＲＣＣのうちの５８個及び５２個が、全リードの０．４５及び０．４２％に相当することが検出された。
加えられた３重量％未満のＥＲＣＣリードの繰り返し起こる出現不足は、２４個のアデノシンだけの相対的に短いポリ（Ａ）テール、並びに潜在的に加水分解された又は別の方法で断片化され、ポリ（Ａ）選択され、そして激減したＥＲＣＣに起因する。ＳＩＲＶを、ＥＲＣＣを越える１０倍増でサンプル中に混合し、そして３０個のアデノシンから成るより長いポリＡテールとＳＩＲＶの潜在的により高い完全性によって引き起こされ１０及び２０．７％になり、その結果、２０〜４０倍増になった。

マッピングしたリードを、ＩＧＶゲノムブラウザを使用することで目視により点検した。バイアス補正を伴うＣｕｆｆｌｉｎｋｓ（ｖ．１．３．０）を転写産物量を算定するのに使用した。すべてのＳＩＲＶ転写産物をＦＰＫＭ値＞０で検出した。０．８未満のＲ^２値を有する入出力相関は、インターカレーティング蛍光染料を使用した予備的なストック濃度測定に並んで、いくつかの独立した手段によるグラウンド最低入力濃度をバリデートするために大規模な品質計測が必要とされる。ｑＰＣＲ及びＴａｑｍａｎアッセイは濃度のそれぞれのバリデーションのために準備されている。

図１２は、サンプル２対サンプル１のＣｕｆｆｌｉｎｋｓ演算相対濃度値の相関を示す。サンプル２のＳＩＲＶ濃度は、ＵＨＲＲ及びＥＲＣＣバックグラウンドに起因してもちろん約１０倍低い。それにもかかわらず、同一のＳＩＲＶＭｉｘ１が両サンプル中で計測されているので、０．９５を超える高いＲ^２値が予想された。部分的に誤ったリードの割り当ては、図１３に示したように生物情報科学的処理によって引き起こされる。
ＳＩＲＶ遺伝子１の全体的な適用範囲は、ＳＩＲＶＭｉｘ１の７４個のＳＩＲＶのうちの６０個の一部ではなく、したがって、アノテーションで含まれない１０５以外の、以下の同定されたアノテーション付転写産物ＳＩＲＶ１０１〜１０９（ＳＩＲＶ１ですべてコードされる）と一緒に、図１３の上の行に示す。Ｃｕｆｆｌｉｎｋｓは追加の転写産物仮説を加え、そして、内部的に定義した長さ依存的確率分布及び他の多数の帰属則に従って転写産物バリアントのセットに対してリードを割り当てたので、０．８３のＲ^２値を有するサンプル１と２とのＳＩＲＶ相関が同一のサンプルについて低い場合、提示された値が単に正しくない。

生じた割り当てエラーの評価のために、提示したＳＩＲＶ標準セットを用いて唯一可能な入力濃度のグラウンド最低値を知ることが不可欠である。所定のモデル複雑性における入出力相関の分析だけが、未知の転写産物バリアントの完全なセットに対する測定値の精度に関して仮説を推定することを可能にし、そしてそれは、本発明によって初めて可能になった。

実施例６：定義した濃度及び濃度比を有するＳＩＲＶＭｉｘＥ０、Ｅ１、及びＥ２の調製、並びにスパイクＲＮＡサンプルＲＣ−０、ＲＣ−１、及びＲＣ−２へのＳＩＲＶＭｉｘの使用
ここで、７４個のＳＩＲＶから、キャピラリー電気泳動Ｂｉｏａｎａｌｙｚｅｒトレースにより、適切な計算サイズのメインピークにおいて≧８５ｗ／ｗ％を示すことによって規定される純度で得られた６９個のＳＩＲＶを選択した。
ＳＩＲＶ溶液を吸収度分光法（Nanodrop, Thermo Scientific）によって計測し、そして原液濃度を≧５０ｎｇ／μｌに調整した。２６０ｎｍ対２８０ｎｍ及び２６０ｎｍ対２３０ｎｍでの吸収度の比がＲＮＡの最も高い純度を示し、次のとおり記録された：
Ａ_{２６０ｎｍ／２８０ｎｍ} ２．１４±０．１２、
Ａ_{２６０ｎｍ／２８０ｎｍ} ２．１７±０．２０。
Ｎａｎｏｄｒｏｐは正確なＲＮＡ定量を可能にし、製造者の仕様書によるとエラーは、核酸サンプル≦１００ｎｇ／μｌに対して±２ｎｇ／μｌである。５０ｎｇ／μｌ前後の最終的なＳＩＲＶ原液濃度計測値の定量に関する相対エラー±４％である。

以下に従って、各溶液のモル濃度を、以下の式：
ＭＷ［ｇ／ｍｏｌ］＝Ａ＊３２９．２＋Ｕ＊３０６．２＋Ｃ＊３０５．２＋Ｇ＊３４５．２＋１５９
に従ってＳＩＲＶ配列の塩基分布に基づいて計算した。
等モル比で６〜１１種類のＳＩＲＶ転写産物を含む８種類のＰｒｅＭｉｘを設計した。それらの長さ分布は、ＰｒｅＭｉｘとその後のＭｉｘ中のＳＩＲＶの出現及び完全性を観察するための図１４Ａに示されているＢｉｏａｎａｌｙｚｅｒトレースによる一意的同定を可能にする（図１４Ｂ及びＣ）。Ｂｉｏａｎａｌｙｚｅｒトレースは絶対定量を可能にしないが、それらを相対混合物分布及び混合手法の整合性を追跡するのに使用した。

８種類のＰｒｅＭｉｘの正確な体積調製を、計算した目標濃度から０．００２％±３．４％（最大７．６％）の偏差でＮａｎｏｄｒｏｐ濃度測定で管理した。体積混合を、ＡｎａｌｙｔｉｃａｌＢａｌａｎｃｅによる計量によって更に観察し、そしてそれは、１．８％±０．６５％（最大２．５％）の偏差を示した。
８種類のＰｒｅＭｉｘを２つ一組で組み合わせて、４種類のＳｕｂＭｉｘを得た。混合ステップを、図１４Ｂに示したように電気泳動によって品質モニターした。４種類のＳｕｂＭｉｘの体積調製を、Ｎａｎｏｄｒｏｐ濃度測定で管理した（０．８％±２．５％の偏差、最大４．５％）。

４種類のＳｕｂＭｉｘを定義した体積比でＦｉｎａｌＭｉｘに組み合わせ、電気泳動による混合ステップのモニタリングを図１４Ｃに示した。４種類のＳｕｂＭｉｘＦｉｎａｌＭｉｘＥ０に組み合わせた比は１：１：１であり、ＦｉｎａｌＭｉｘＥ１については１／４：１／２：２：１であり、そして、ＦｉｎａｌＭｉｘＥ２に関しては４：１／４：１／３２：１であった。Ｎａｎｏｄｒｏｐ濃度測定は、計算した目標濃度からの５．１％±３．３％（最大８．６％）の偏差を示した。
非常に狭い許容範囲内で、ＭｉｘのすべてのＢｉｏａｎａｌｙｚｅｒトレースは、それらの各Ｐｒｅ及びＳｕｂＭｉｘ構成要素の合計に類似している（図１４）。相対ピーク形状及び位置は、ＳＩＲＶＭｉｘにとって高い信頼の定量的監視ツールである。
これらの手段によって、信頼できるＳＩＲＶ濃度及び濃度比が別個の混合物において保証され得る。

ＳＩＲＶＭｉｘＥ０、Ｅ１、及びＥ２を、更にＥＲＣＣ対照混合物１及び２を加えたUniversal Human Reference RNA（ＵＨＲＲ）及びHuman Brain Reference RNA（ＨＢＲＲ）をスパイクするために使用して、対照ＲＣ−０、ＲＣ−１、及びＲＣ−２を有する標準ＲＮＡを調製した。各ＲＮＡ画分の相対量を図１５に示し、そしてそれをＵＨＲＲ及びＨＢＲＲにおいて全ＲＮＡの２％の一定なｍＲＮＡ含有量に基づいて算出した。最終的なスパイクイン（ＳＩＲＶ及びＥＲＣＣＭｉｘ）の相対濃度は、標準ＲＮＡの正確なｍＲＮＡ含有量、並びにリボソームＲＮＡ及び他の高い存在量のＲＮＡの量の減少と同時に、喪失及び／又は濃縮法に依存する。これらのサンプルを様々なＲＮＡ−Ｓｅｑワークフローを試験するために設計した。

実施例７：ＮＧＳシークエンシング、ＳＩＲＶミックスを有するＲＮＡサンプルＲＣ−１及びＲＣ−２のデータ評価、及び異なったアノテーションを使用することによるＲＮＡシークエンシングパイプラインの精度の測定

ポリ（Ａ）テールのないＳＩＲＶ分子の配列番号１〜７４の配列、及びすべてのエクソンが純粋なＳＩＲＶ配列の配列番号１５６〜３３４の配列は、あらゆる一般的なアノテーションファイル形式に変換できる。その一例が、すべてのエクソン、イントロン、及び最初と最終のエクソンの側面に位置し、非翻訳領域と呼ばれる配列の純粋なヌクレオチド配列を列挙するＦＡＳＴＡ−ファイルと、各エクソンの開始及び終結部座標についての情報を保有する対応するＧＴＦ−ファイルとの組み合わせである。配列番号１５６〜３３４の配列を、ヒトモデル遺伝子の方向に対応する鎖方向に変換し、そして、すべてのイントロン配列を、表２に示した正規及び非正規ドナー−アクセプター対に対するそれらの相対出現に対応するすべてのイントロンドナー−アクセプター部位のそれぞれの長さのＧＣ加重ランダム配列で満たした。配列番号３３９〜３４５（７つの配列を有するＦＡＳＴＡファイルを表す）は１ｋｂの長い上流配列及び１ｋｂの長い下流配列と一緒に前記の完全なエクソン及びイントロン配列を含んでいる。ＧＴＦファイルは、バリアント構造物に関する情報を含んでいるので、以下のバリエーションが例として提供される、ＧＴＦファイル「ＳＩＲＶＣ」（付録Ｂに列挙）はＭｉｘＥ１及びＥ２内に存在するすべてのＳＩＲＶの正しいアノテーションを含んでいる。ＧＴＦファイル「ＳＩＲＶＩ」（付録Ａに列挙）は不十分なアノテーションのいくつかの可能性のうちの１つである。ここで、ミックス中に実質的に存在しているいくつかのＳＩＲＶがアノテーションされていない。ＧＴＦファイル「ＳＩＲＶＯ」（付録Ｃに列挙）は、無限数の可能性のある過剰アノテーションのうちの１つである。追加のＳＩＲＶがアノテーションされ、そしてそれはＭｉｘには存在していない。テキストでは、アノテーションのこれらのバリエーションはＳＩＲＶ＿Ｃ、ＳＩＲＶ＿Ｉ、及びＳＩＲＶ＿Ｏとも呼ばれている。

ＳＩＲＶを使用したデータの可能性の評価は多種多様である。以下の案は、ＲＮＡ−Ｓｅｑパイプラインの性能を評価するためにおこなわれなければならない基本的な手順について概説している。逆多重化、バーコード付与及び品質のトリミング後、リードが各ゲノム、ＳＩＲＶｏｍｅ（全ＳＩＲＶ配列の全体）、及び適切なＥＲＣＣ配列にマッピングされる必要がある。ＳＩＲＶｏｍｅにマッピングするすべてのリードを別々に濾過し、そして処理した。

遺伝子クラスへのリードの割り当ては、スパイク−イン手順の変異性に関して最初の全体像を提供する。ＳＩＲＶ含有量は、その予想される質量又はモル比と相関がなければならない。ＦＰＫＭなどを計測するためにＲＮＡ分子やリードのの長さをカバーする助けとなるライブラリー調製のために、ＳＩＲＶリードの割合は質量比に従わなければならない一方で、ＲＮＡ分子にタグを付与するか、又は独立にカウントするかのいずれかのためのライブラリ調製のために、ＳＩＲＶリードはモル比に従わなければならない。サンプル特異的な偏りの補正は、示差的出現（ＤＥ）分析に重要である。

ＲＮＡサンプルバックグラウンド、ｍＲＮＡ含有量及び完全性の変動、並びに喪失及び／又はｍＲＮＡ濃縮手順のバリエーションは、配列決定ライブラリにおいて異なったＳＩＲＶＭｉｘ含有量につながる。全ＲＮＡサンプル中のｍＲＮＡ含有量は最大２．５超の係数で変動し得る。斯かる偏りの補正は、示差的出現の正しい試験と、それに続くＲＮＡサンプル自体のＤＥ測定値の相対化及び補正に重要である。オフセット因子は、ＲＮＡクラス分布の手段であり、ＳＩＲＶの対照ベースの標準化に使用する。ＳＩＲＶミックスの慎重な定量的スパイク−イン手順は、必須条件であり、サンプル定量までの正確な体積測定用サンプル処理の下流が要求である。小さい体積スケールで操作するとき、計測とそれに続く標準化のすべてに、達成可能なピペット精度のような明らかに実験変数を伴う関係を設定する必要がある。

ある実施例において、ＴｒｕＳｅｑＳｔｒａｎｄｅｄｍＲＮＡＬｉｂｒａｒｙＰｒｅｐＫｉｔ（Illumina, Inc.）を使用してＲＣ−１及びＲＣ−２から成る５００ｎｇの入力ＲＮＡを用いて三連のＮＧＳライブラリを作製し、その後、６つのバーコードライブラリをペアドエンドシークエンシングにより配列決定し、ＨｉＳｅｑ２５００において名目上１２５ｂｐの長さを泳動して、それぞれ、ＲＣ−１の三連に関して１６．２７±０．１６Ｍｉｏのトリム済の保持されたペアドエンドリードを得、及びＲＣ−２の三連に関しては１６．９７±１．４５Ｍｉｏを得た。リードを、ＴｏｐＨａｔ２と共にヒト標準ゲノム、ＥＲＣＣ配列、及びＳＩＲＶ配列にマッピングした。ＳＩＲＶに属すリードの相対量は、サンプルＲＣ−１において２．３２±０．０５％、及びサンプルＲＣ−２において１．８７±０．１２％と計測した。

図１５には、より良い比較のために、スパイク−インしたＳＩＲＶの比を、全ＲＮＡにおいて想定した２％の平均ｍＲＮＡ含有量に対して示した。しかしながら、真のｍＲＮＡ含有量は可変することが知られている。以前、ＵＨＲＲでは約３％、及びＨＢＲＲでは約２％であることが計測された（Shippy et al., 2006）。ｍＲＮＡ比ＵＨＲＲ／ＨＢＲＲは１．５であると予想する。

サンプルＲＣ−２の標準ＲＮＡバックグラウンドがＲＣ−０標準ＲＮＡバックグラウンドの２／３番目及びＲＣ−１標準ＲＮＡバックグラウンドの１／３番目を含むので、ＲＣサンプルＲＣ−１及びＲＣ−２中の２つのＳＩＲＶ計測は、ＵＨＲＲ標準ＲＮＡ中のｍＲＮＡ含有量について計算することを可能にする（サンプルＲＣ−０において；上記を参照のこと）。ＳＩＲＶは、２％のｍＲＮＡに対して２．５３％でサンプルＲＣ−１にスパイクインされ、ＨＢＲＲｍＲＮＡ含有量の値が２．１８％であることにつながる２．３２％と計測され、そして、サンプルＲＣ−２のｍＲＮＡ含有量はＵＨＲＲｍＲＮＡの算出値が３．４４％となることにつながる２．８９％であった。それは、ｍＲＮＡ比ＵＨＲＲ／ＨＢＲＲが１．５８であると決定することを可能にし、そしてそれは、これまでに公表されている比１．５を立証した。ＳＩＲＶは、スパイクイン比に基づいて１００％近くが出現し、ポリ（Ａ３０）テールが、使用したｍＲＮＡＮＧＳライブラリー調製の一部であるポリ（Ａ）濃縮法における定量的出現に十分であることを証明した。

Ｃｕｆｆｌｉｎｋｓ２アルゴリズムを用いたＳＩＲＶリードの割り当てを、ＳＩＲＶ＿Ｃアノテーションを使用しておこなった。存在量をリードの割り当てに基づいて計算したので、既知の入力量に関連する場合があった。入出力相関を対数領域で算出したが、セット濃度領域がＲＣ−１において１桁、及びＲＣ−２において２桁にしか及んでいなかった場合、線形スペースで算出する場合があった。ピアソン積率相関係数（ピアソンのｒ）は正しい測定値のために１に近づけなければならない。相関プロットを図１６Ａに示す。ｒ値は、サンプルＲＣ−１のＳＩＲＶについて０．４４６であり、そしてサンプルＲＣ−２のＳＩＲＶについて０．９３２である、表１０を参照のこと。

同じサブミックスに由来する等モル濃度の１２〜２１個の転写産物は、有意な品質指標として平均と変化の計算を可能にする。各ＳＩＲＶＭｉｘに関して、シークエンシングパイプラインの品質は、対応する変化と一緒に４つの相対平均のセットとして実証され得る。試験したパイプラインの結果はそれぞれ、ＲＣ−１については１．２１±５６．０５％、０．９３±４６．５６％、０．９７±４９．４６％、及び１．０２±７１．６２％であり、及びＲＣ−２については１．５６±７５．７５％、０．９３±５４．８３％、０．９４±４４．４６％、及び１．０２±５４．４８％である。相対平均は全濃度領域にわたって約１であり、個々のＳＩＲＶが大きいバリエーションで測定されることを高い可変性が証明している。

表１０．様々なアノテーションＳＩＲＶ＿Ｃ、＿Ｉ及び＿Ｏにマッピングした後のＲＣ−１及びＲＣ−２のＳＩＲＶ内及びＳＩＲＶ間における、スパイク−イン及び実測相対濃度及び濃度比の比較。ｒ値はログスペースで計算した。予想及び実測総ＳＩＲＶ濃度を、ミックス内に実際に存在するＳＩＲＶについて（列４）、不十分なアノテーション付ＳＩＲＶについて（列１５〜１６）、及び過剰アノテーション付ＳＩＲＶについて（列２７〜２８）示す。

最も正確で再現性のよい評価は、示差的出現値又は倍数変化を測定することによって実現する。Ｍｉｘを４種類のＳｕｂＭｉｘの正確な体積組み合わせによって調製したとき、差異化はＳＩＲＶの完全長の完全性のような他の品質指標による影響を受けない。予想と実測の倍数変化の間の比較を図１６Ｂに示し、平均を表１０、欄９、５〜１３列に同じく示す。対応する変化と一緒に相対平均は、２．８２のオフセット及び±１６９．９％の変化を伴った比１／６４において始まり、１．０７±４１．０％、１．００±１６．２、及び０．７８±２３．５％まで続く値を示す。ｒ値は０．８５１に達した。比較的大きな変化は個々のＳＩＲＶの誤った測定値を示し、ＮＧＳパイプラインによる矛盾する定量は著しいバリエーション、したがって、正しい定量の中の不確定性につながる。大きい変化は、一部のＳＩＲＶがそれらが属するＳｕｂＭｉｘの主画分に対応しない挙動を既に示している。斯かる４種類の明白な例が、ＳＩＲＶファミリー１及び２で見ることができる、表１１を参照のこと、そして、より多くを他のＳＩＲＶファミリーで見ることができる。一方で、ＳＩＲＶ１０１、１０２、１０３、１０６、１０７、１０９、２０３、２０４、及び２０５の示差的遺伝子発現が１０％未満異なり、ＳＩＲＶ２０６では１５％未満であるのに対して、その一方、セット比から、ＳＩＲＶ１０５、１０８、及び２０２の比は４０％超、そしてＳＩＲＶ２０１の比は２５０％超異なる。種の大部分の比は適切であり、４種類の異なったＳｕｂＭｉｘのすべてで明白である。そのため、明白な偏差はライブラリ作成、シークエンシング及び／又はデータ分析で生じたエラーによって引き起こされる。

表１１．ＳＩＲＶファミリー１及び２からのＳＩＲＶのスパイク−イン及び実測（ｍｅａｓ）相対濃度比の比較

様々なアノテーションＳＩＲＶ＿Ｉ及びＳＩＲＶ＿Ｏを使用してマッピングを繰り返した。バージョンＳＩＲＶ＿Ｉ（不十分な過少アノテーション）は、新しい転写産物バリアントを検出するパイプラインの能力を判断することを可能にする。実験は、どのように非アノテーション付ＳＩＲＶのリードが定量を歪曲するアノテーション付サブセットに誤って振り分けられるかを示す。得られた濃度のバリエーションの程度がＲＮＡ−Ｓｅｑパイプラインのロバスト性に追加の指標を提供する。本実験に関して、相関プロットが低下する。ｒ値は、サンプルＲＣ−１のＳＩＲＶについて０．４０６に低下し、そしてサンプルＲＣ−２のＳＩＲＶについて０．８１３に低下する。追加エラーは均等に伝播するように思えるので、予想及び実測倍数変化の比較は、０．８８９のわずかに高いｒ値さえ示す。

過剰アノテーション付バージョンＳＩＲＶ＿Ｏは第三の状況を反映する。ここで、実際にサンプルに含まれているより多くのＳＩＲＶがアノテーションされる。アノテーションは、例えば、他の組織で、同じ組織であるが異なる発育時期で、発見されたか、
間違ってアノテーションされたか、又は典型的な長さのクローン化ＥＳＴを有する多数のバリアントが典型的な例である以前の実験の遺物である転写産物バリアントを含む。現在、リードは、実際には実在するサンプルの一部でないＳＩＲＶバリアントに割り当てられ得る。本実験に関して、相関プロットはＲＣ−１について０．５０６、そしてＲＣ−２について０．６９９のｒ値を示す。予想及び実測倍数変化の比較は０．８７１の同様のｒ値を示す。
正しいＳＩＲＶ検出の程度及びロバスト性はパイプライン性能の指標である。

ＲＮＡ−Ｓｅｑ実験における精度のレベルの測定は、ＳＩＲＶスパイク−イン対照を使用した様々な方法で実施され得る。ＳＩＲＶ遺伝子、同様にその他の天然に存在する遺伝子のバリアントは、独特の効果のある配列の範囲内の異なった程度まで変化する。配列の一意性は、転写産物バリアントにＮＧＳリードを割り当てるとき解決すべき「簡単な」タスクと「より難しい」タスクの組み合わせを含む遺伝子の複雑性の測定である。アノテーションの関係の範囲内の１つの転写産物の特異的な様子は、ヌクレオチドレベルでカウントされ、そしてその長さに対して標準化される相対バリアント特異的配列、ＲＳＳである。共有ヌクレオチドは、競合する転写産物バリアントの数に反比例する各転写産物と見なされる。配列複雑性（Ｃ）の測定は、転写産物の長さ（Ｌ）によって割られた、すべての逆ＲＳＳ値の合計である。実測対スパイク−イン濃度の相対倍偏差（Ｄ）は、ここでは、配列複雑性によって加重を加えられ得る。転写産物バリアントに対する正しいリードの割り当ての課題は、アノテーションの基本的な複雑性に比例している。配列複雑性（Ｃ）を掛けたログ倍偏差の逆係数（Ｄ）は、以下に従って濃度測定値（Ａ）の加重精度のために測定される。

２つの関数（ｆ_１及びｆ_２）は異なった成分の加重及び実測濃度とスパイク−イン濃度の完全な一致を可能にする境界条件の定義を可能にし、例えば、相対偏差が１に近づく、したがって、ログが０に近づき、及び商を規定しない。結論として、ＳＩＲＶ＿Ｏアノテーション内の６９個のＳＩＲＶすべての正しい計測は、正しい濃度測定を得るのが本質的に難しいので、ＳＩＲＶ＿Ｃアノテーション内のようにより高い値に達する。ゼロに近い他の値が重要なデータ評価を歪めるので、倍数変化は所定の閾値で割り当てられなければならない。

相対バリアント特異的配列（ＲＳＳ）及び複雑性（Ｃ）を、ＳＩＲＶ１の始まりのオーバーラッピング配列を参照のことによって実施例において説明され得る。ＳＩＲＶ１０７はオーバーラップセンス転写産物であるが、ＳＩＲＶ１０８及び１０９はオーバーラッピングアンチセンス転写産物である。アノテーションＳＩＲＶ＿Ｉでは、ＳＩＲＶ１０８が欠けていて、且つ、各ヌクレオチドのすべての１／ＲＳＳ値が１であり、ＳＩＲＶ１０９の長さを掛けても割っても該値は１のままなので、ＳＩＲＶ１０９の配列は一意的である。アノテーションＳＩＲＶ＿Ｃでは、ＳＩＲＶ１０９の配列は、その配列の部分をＳＩＲＶ１０８と共有するので、一意的でない。対応する１／ＲＳＳ値が２であり、そして、複雑性が＞１である。アノテーションＳＩＲＶ＿Ｏでは、ＳＩＲＶ１０９の配列は、その配列の部分をＳＩＲＶ１０８とだけ、その配列の部分をＳＩＲＶ１１０とだけ共有し、そこでは対応する１／ＲＳＳ値は同様に２であり、そして、その配列の部分を両方と共有すると、対応する１／ＲＳＳ値は３とカウントされたがその一方で、その配列はいずれも一意的でなかった。ここで、ＳＩＲＶ１０９のＣ値は、この場合も同様に大きかった。ＳＩＲＶ１０９の加重精度（Ａ）はそれらのＣ値に比例し、そしてミックスＥ１及びＥ２の既知のＳＩＲＶ１０９入力から決定したｌｏｇ_２倍偏差の係数に反比例している。
倍数変化は更に、示差的出現を予想する際に、真及び偽陽性率（ＴＰ及びＦＰ）のような多くのパラメーターの算出を可能にする。ＴＰ対ＦＰ曲線下の面積（ＡＵＣ）は、示差的出現分析における診断性能の指標と見なされ得る。

実施例８：信頼できる適用のためのＳＩＲＶ及び他の対照のアリコートの希釈、安定化、及び調製
ＲＮＡは、ＲＮアーゼ又は二価陽イオンと温度によって促進される加水分解によって分解される傾向がある。更に、ＲＮＡは、多くの表面に吸着される傾向がある。そのため、電気泳動ゲル用のＲＮＡラダー又はＥＲＣＣミックスのようなＲＮＡ対照は、抗酸化剤や、ＥＤＴＡ、ＤＤＴ、ＲＮａｓｉｎ若しくは他のＲＮアーゼ阻害剤のような添加剤を含むバッファー中に２５ｎｇ／μｌ以上の濃度で提供される。斯かるＲＮＡ溶液は一般的に−２０℃の低温で保存される。ｍＲＮＡと比較するために低いパーセンテージ範囲でＲＮＡ対照を使用すると、数十ピコグラム程度のアリコートが必要とされ、そして、高度に濃縮された対照はスパイク−インに好適になる手前まで希釈される必要がある。いくつかのサンプルだけが一度に加工される必要があるとき、希釈した対照の多くを処分しなければならない。アリコートの希釈及び調製は、好ましくないバリエーションを導入する危険がある。

本実施例では、ＳＩＲＶが所定の実験に必要な総量の使い易く、且つ、安定したアリコートとして調製される。上記のＥ０、Ｅ１、Ｅ２のようなＳＩＲＶミックス、又はＳＩＲＶ単独若しくは追加ＲＮＡ対照と一緒のその他の組み合わせは、ＧｅｎＴｅｇｒａ−ＲＮＡ（GenTegra）、ＲＮＡｓｔａｂｌｅ（Biomatrica）のような安定化剤、又は溶液の乾燥中にＲＮＡの分解を低減する他の添加剤を含んでいるＲＮアーゼ不含バッファーを使用して、原液から１ｐｇ／μｌ、１０ｐｇ／μｌ又は１００ｐｇ／μｌまで希釈される。次に、希釈されたＲＮＡ対照を含んでいる溶液はバイアル内の所望の量のアリコートに分割され、その後、それを周囲温度で素早く乾燥させるか又は凍結乾燥させる。より最近の適用から時間非依存的にアリコートを調製するとき、アリコートの数並びに体積は比較的大きくなる可能性があり、そしてそれが、対照調製の再現性を高める。乾燥させた対照ＲＮＡのアリコートは室温で保存できる。

対照ＲＮＡアリコートが必要なときには、どの処理段階であっても、標的ＲＮＡサンプルを乾燥対照ＲＮＡに加えるだけでよい。数分の程度の短いインキュベーション時間が、乾燥ＲＮＡ対照を溶解するために必要である。これらの手段によって、サンプルにＲＮＡ対照が確実にスパイクインされる。
ある好ましい実施例では、ＲＮＡ対照は、バーコード配列のような一意的同定要素と共にＲＮＡを含んでいる。バーコード配列は、バーコード配列の存在をマークする独特な人工配列が隣接している。対照中のバーコードは、ＲＮＡサンプルが対照に加えられた瞬間から、このサンプルが内部バーコードを用いて一意的に同定されることを確実にする。外部サンプル標識の内部バーコードとの一致は、高速大量処理設定の際に誤りのない同定が生じることを確実にする。

あらゆるシークエンシング実験においても、対照ＲＮＡとバーコードの存在が、サンプルのトレーサビリティ及びサンプル処理の比較性を確保する。

実施例９：配列特異的連結偏差の主な原因であるＭｉｃｒｏ−ＲＮＡのような追加のスパイク−イン対照とＳＩＲＶとの組み合わせ
ＳＩＲＶは、ＥＲＣＣ、上記バーコードＲＮＡ、又は人工マイクロＲＮＡのような他のＲＮＡ対照と組み合わせられてもよい。マイクロＲＮＡは一般的に２１〜２３ｎｔ程度の短いＲＮＡである。それらの限定されたサイズのため、マイクロＲＮＡライブラリー調製のワークフローは、プライミングと異なり、ｃＤＮＡ合成が妨げられる／影響を受ける。マイクロＲＮＡはすぐにそのまま連結されなければならない。末端配列及び特にいくつかの開始及び終結部位は、５桁くらいの大きさになり得る強い偏りの導入に関与する。そのため、特別なマイクロＲＮＡ対照は、連結反応において配列の偏りを評価することを可能にすることが求められる。

ここで、我々は、２１〜２３ｎｔの長さを優先するが、１６ｎｔくらい短くても３６ｎｔくらい長くてもよい配列の開始並びに終結部に４つ、５つ、そして最大８つのランダムなヌクレオチド（Ｎ（８））から成るランダム配列を有する人工マイクロＲＮＡを使用する。人工マイクロＲＮＡを合成する。本件での主なハードルは、Ａ、Ｕ、Ｇ、及びＣの混合物も、ヌクレオチド分布における顕著なバリエーションにつながり得るｍｉＲＮＡ合成実行の際の合成バイアスのわずかなバリエーションのいずれかを相殺するのに使用され、そしてそれが偏りを評価するのに使用されるので、同様にしっかり管理されなければならない点である。そのため、人工マイクロＲＮＡはまた、中央部にもまた、いくつかのランダムなヌクレオチド（Ｎ）を少なくとも１つ、最高で開始部位のＮと終結部位のＮの間のＮの最大数含んでいる。
中央部のＮは、ヌクレオチド分布のランダム性の独立した指標を提供し、Ｎのつながりの中で、開始部位及び終結部位のＮがマイクロＲＮＡライブラリー調製の配列の偏りを決定する。

Claims

１若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び／又は定量のための方法であって、以下のステップ：
ａ）各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つの異なったＮＡ分子ファミリーを含む、転写産物バリアントをシミュレートする人工核酸（ＮＡ）分子の標準セットを提供し、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ヌクレオチド（ｎｔ）の長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が少なくとも８０ｎｔの長さの別の配列と異なり、且つ
ここで、前記ＮＡ分子の少なくとも２つ、好ましくは各々があらかじめ設定されたモル量で存在し；及び
ｂ）転写産物バリアントを含む１若しくは複数のサンプルに外部対照として前記標準セットを加え；及び
ｃ１）標準リードの割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが１若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成及び割り当てに基づくＮＡシークエンシングをおこなうこと；又は
ｃ２）１若しくは複数のサンプルに対して、ＮＡ検出若しくは定量方法、好ましくはマイクロアレイ分析又はｑＰＣＲをおこなうこと、
ここで、少なくとも１つのプローブが標準セットの少なくとも１つのＮＡ分子に結合し、標準セットの少なくとも１つのＮＡ分子に結合する少なくとも１つのプローブから得られたのシグナルに基づく測定結果が、前記ＮＡ検出法又は定量法においてプローブに結合する１若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される、
を含む方法。
ＮＡシークエンシング方法を評価するか又はＮＡ検出法又は定量法を評価するために方法であって、以下のステップ：
ａ）各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つの異なったＮＡ分子ファミリーを含む、転写産物バリアントをシミュレートする人工ＮＡ分子の標準セットを提供し、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が少なくとも８０ｎｔの長さの別の配列と異なり、且つ
ここで、前記ＮＡ分子の少なくとも２つ、好ましくは各々があらかじめ設定されたモル量で存在し；及び
ｂ１）ＮＡシークエンシング方法を評価するために、標準リードの割り当てが標準セットのリードを用いて作り出される、リード生成及び割り当てに基づくＮＡシークエンシングをおこなうか；又は
ｂ２）ＮＡ検出法又は定量法を評価するために、標準セットに対して前記ＮＡ検出法又は定量法をおこない、
ここで、少なくとも１つのプローブが標準セットの少なくとも１つのＮＡ分子に結合し；及び
ｃ）前記あらかじめ設定したモル量に対して、及び／又はＮＡシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに／或いはそれらから計算又は予想された比及び／又は出力に対して、任意のステップｂ）の出力結果、特に、標準セットの少なくとも１つのＮＡ分子の出力モル量、出力濃度、及び／又はＮＡシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに／或いは標準セットの少なくとも２つのＮＡ分子に関する少なくとも１つのそれらの比を比較すること、
を含む方法。
前記ＮＡが、ＲＮＡ又はＤＮＡ、特にＲＮＡである、請求項１又は２に記載の方法。
転写産物バリアントをシミュレートする人工ＮＡ分子、好ましくはＲＮＡ又はＤＮＡ分子の標準セットを作り出すための方法であって、以下のステップ：
Ａ）天然に存在する真核生物の遺伝子、好ましくは動物又は植物遺伝子、より好ましくは脊椎動物の遺伝子、より一層好ましくは哺乳動物遺伝子、特にヒト遺伝子の群から少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つの遺伝子を選択し；
Ｂ）各選択遺伝子あたり少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの天然に存在するｍＲＮＡ転写産物バリアントを選択し、ここで、各転写産物バリアントは、少なくとも１００ｎｔの長さを有し、且つ、少なくとも１つのエクソンを含み；
Ｃ）少なくとも１つのエクソンを含む前記選択される天然に存在するｍＲＮＡ転写産物バリアントのそれぞれの配列を提供し、適宜ここで、配列はＤＮＡ配列などの別のＮＡ型に変換され；
Ｄ）ステップＣ）の各配列を以下のステップによって改変し：
ほぼ同じ長さの配列によって各配列の各エクソンの配列を置換し、
ここで、ほぼ同じ長さの配列が、以下の群：
ウイルス配列、バクテリオファージ配列、その逆位配列、その他の逆位天然配列、非天然配列、及びその組み合わせ、から選択され、好ましくはほぼ同じ長さの配列は以下の群：
ウイルス配列、バクテリオファージ配列、その逆位配列、非天然配列、及びその組み合わせ、から選択され、より好ましくはほぼ同じ長さの配列は以下の群：
ウイルス配列、バクテリオファージ配列、その逆位配列、及びその組み合わせ、から選択され、
好ましくはここで、ほぼ同じ長さの配列が、多くても１０つ、好ましくは多くても５つ、特に多くても２又は１つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはＧＴ、ＧＣ、又はＡＴで及び／又は多くても１０つ、好ましくは多くても５つ、特に多くても２又は１つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはＡＧ、ＡＣ又はＡＴで置換することによって改変され、
それによって、１セットの人工転写産物配列を得、
但し、同じ選択遺伝子の選択される天然ｍＲＮＡ転写産物バリアントの配列から得られた人工転写産物配列は、好ましくは単一のエクソン配列内に含まれる少なくとも８０ｎｔの長さの配列を共有するものとし、及び、
好ましくは、但し、ステップＣ）の配列のエクソン配列がステップＣ）の配列の別のエクソン配列と同一であるとき、エクソン配列と別のエクソン配列はほぼ同じ長さの同じ前記配列で置換されるものとし；
Ｅ）適宜、ステップＤ）のセットの少なくとも１つの人工転写産物を複製し、そして、前記複製した配列をセットに加え、それによって、ステップＦ）〜Ｊ）の１以上における選択的修飾のコピーを含むセットを得；
Ｆ）適宜、セットの少なくとも１つの人工転写産物配列に少なくとも１つの配列を挿入し、
ここで、少なくとも１つの挿入された配列の各々は、ステップＤ）の任意の人工転写産物配列と同じ長さを有するセンス又はアンチセンス配列と同一であり；
Ｇ）適宜、セットの人工転写産物配列の少なくとも１つから１ｎｔ〜１００００ｎｔに及ぶ長さを有する少なくとも１つの配列を取り除き、
ここで、１以上の人工転写産物配列の各々が、少なくとも１００ｎｔのサイズで残り、且つ、少なくとも１つのエクソン配列を含んだ状態を維持し；
Ｈ）適宜、５’末端がグアノシンになるまで配列の５’末端を切断することによって、第１塩基をグアノシンに変更することによって、又は５’末端にグアノシンを付加することによって、好ましくは５’末端がグアノシンになるまで配列の５’末端を切断することによって又は第１塩基をグアノシンに変更することによって、特に５’末端がグアノシンになるまで配列の５’末端を切断することによって、各人工転写産物配列の第１のヌクレオチドとしてのグアノシンを確立し；
Ｉ）適宜、人工転写産物配列のセットが、ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチド又はＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＡ、ＣＣ、ＣＧ、ＣＴ、ＧＡ、ＧＣ、ＧＧ、ＧＴ、ＴＡ、ＴＣ、ＴＧ、ＴＴから選択される５’開始ジヌクレオチド及び／又はＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＧ、ＣＴ、ＧＣ、ＧＧ、ＧＴ、ＴＣ、ＴＧ、ＴＴから選択される３’終結ジヌクレオチドの実質的にランダムに分布して出現するように、セットの人工転写産物配列の少なくとも１つを修飾し；
Ｊ）好ましくは、セットの人工転写産物配列の１以上、好ましくはそのすべてに、好ましくは少なくとも１０、特に少なくとも２０のアデノシンから成るポリＡテール配列を付加し；
Ｋ）又は好ましくは、ステップＥ）〜Ｊ）の少なくとも２つの任意の組み合わせ、好ましくはここで、各方法ステップを一度だけおこない；
Ｌ）セットの各人工転写産物配列について：
人工転写産物配列全体を含むＮＡ分子を物理的に合成し；及び
Ｍ）好ましくは、ステップＬ）のＮＡ分子がＲＮＡ分子であれば、該ＲＮＡ分子に５’キャップ構造を物理的に付加し、
それによって、人工ＮＡ分子、好ましくはＲＮＡ又はＤＮＡ分子の標準セットを物理的に得、そして、転写産物バリアントをシミュレートすること、
を含む方法。
前記ステップＤ）〜Ｇ）、好ましくはすべてのステップがおこなわれるが、但し、人工ＮＡ分子の標準セットは、真核生物の遺伝子について、好ましくは動物又は植物の遺伝子について、より好ましくは脊椎動物の遺伝子について、より一層好ましくは哺乳動物の遺伝子について、そして特にヒトの遺伝子について自然に起こる選択的転写事象をシミュレートするものとし、且つ、前記事象は以下の群：
選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の：スキップカセットエクソン（ＣＥ）、イントロン残存（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象、
から好ましくは選択され；及び／又は前記人工ＮＡ分子の標準セットが、以下の：選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の：スキップカセットエクソン（ＣＥ）、イントロン保持（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象の群から選択される選択的転写事象の少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも５、特にそのすべてをシミュレートし；及び／又は、ここで、前記人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＧＴであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工ＮＡ分子に存在していない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し、及び／又は、ここで、前記人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＡＴであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工ＮＡ分子に存在しない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し；及び／又は、ここで、前記人工ＮＡ分子の標準セットが、５００ｎｔ〜２０００ｎｔ、好ましくは７５０ｎｔ〜１５００ｎｔ、特に１０００ｎｔ〜１４００ｎｔの平均である配列長有し；好ましくは、３００ｎｔ〜１２００ｎｔ、好ましくは６００ｎｔ〜９００ｎｔ、特に７００ｎｔ〜８００ｎｔの標準偏差を有し；少なくとも１００ｎｔの最小サイズを有し；そして、好ましくは１００００ｎｔの最大サイズを有し；及び／又は、ここで、前記標準セットの人工ＮＡ分子が、２５％〜５５％の平均ＧＣ含量を有し；前記人工ＮＡ分子の標準セットには、ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチド又はＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＡ、ＣＣ、ＣＧ、ＣＴ、ＧＡ、ＧＣ、ＧＧ、ＧＴ、ＴＡ、ＴＣ、ＴＧ、ＴＴから選択される５’開始ジヌクレオチド及び／又はＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＧ、ＣＴ、ＧＣ、ＧＧ、ＧＴ、ＴＣ、ＴＧ、ＴＴから選択される３’終結ジヌクレオチドの実質的にランダムに分布して出現し；及び／又は、ここで、前記標準セットの各人工ＮＡ分子は、５’開始ヌクレオチドとしてグアノシンを有し；及び／又は、ここで、前記標準セットの人工ＮＡ分子の少なくとも１つ、好ましくはその各々は、それがＲＮＡ分子であれば、５’キャップ構造を有し、及び／又は少なくとも１０個、好ましくは少なくとも２０個のアデノシンから成るポリＡテールを有する、請求項４に記載の方法。
人工ＮＡ分子の標準セットを提供することを更に含み、ここで、該標準セットのＮＡ分子のうちの少なくとも２つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在し；且つ、好ましくは、ここで、少なくとも２つのＮＡ分子の各モル量が、少なくとも２桁、好ましくは少なくとも３桁、より好ましくは少なくとも５桁、特に少なくとも６桁異なり、特にここで、少なくとも２つのＮＡ分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は０．０１アトモル／μｌ〜１００フェムトモル／μｌ又は１００ゼプトモル／μｌ〜１フェムトモル／μｌの範囲に及ぶ、請求項４又は５に記載の方法。
前記人工ＮＡ分子の標準セットの配列が、１０^−１未満、好ましくは１未満、特に１０未満の統計的有意性の閾値（期待値）で、ＮＣＢＩＧｅｎＢａｎｋデータベース受入番号が表３で列挙されている配列に対して類似性を有しない、好ましくは表３及び表４のいずれか一方、特に好ましくは、２０１４年６月１５日のＮＣＢＩＧｅｎＢａｎｋデータベースリリース２０２のすべての配列に対して類似性を有さず、ここで、前記類似性が以下のパラメーター：低複雑性領域フィルタリングを伴った、２８のワードサイズ、１、−２の直鎖ギャップコスト及びマッチ／ミスマッチスコア、を用いてＢＬＡＳＴｎプログラムによって測定される、請求項４〜６のいずれか１項に記載の方法。
請求項４〜７のいずれか１項に記載の方法によって得ることができる、転写産物バリアントをシミュレートする人工ＮＡ分子の標準セット。
転写産物バリアント、好ましくはＲＮＡ分子又はＤＮＡ分子、特にＲＮＡ分子をシミュレートする人工ＮＡ分子の標準セットであって、
Ａ）以下の：
各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つのＮＡ分子のファミリーを含み、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、及び
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が、少なくとも８０ｎｔの長さの少なくとも別の配列と異なり；そして
Ｂ）ここで、標準セットが：
−以下の：選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、及び以下の：スキップカセットエクソン（ＣＥ）、イントロン残存（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象、の群から選択される少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも５つ、特にそのすべての選択的転写事象をシミュレートし；及び／又は
−５００ｎｔ〜２０００ｎｔ、好ましくは７５０ｎｔ〜１５００ｎｔ、特に１０００ｎｔ〜１４００ｎｔの平均である配列長有し；好ましくは、３００ｎｔ〜１２００ｎｔ、好ましくは６００ｎｔ〜９００ｎｔ、特に７００ｎｔ〜８００ｎｔの標準偏差を有し；少なくとも１００ｎｔの最小サイズを有し；そして、好ましくは１００００ｎｔの最大サイズを有し；及び／又は
−２５％〜５５％の平均ＧＣ含量を有し；及び／又は
−ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチド又はＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＡ、ＣＣ、ＣＧ、ＣＴ、ＧＡ、ＧＣ、ＧＧ、ＧＴ、ＴＡ、ＴＣ、ＴＧ、ＴＴから選択される５’開始ジヌクレオチド及び／又はＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＧ、ＣＴ、ＧＣ、ＧＧ、ＧＴ、ＴＣ、ＴＧ、ＴＴから選択される３’終結ジヌクレオチドの実質的にランダムに分布して出現し；及び／又は
ここで、標準セットの各人工ＮＡ分子が、５’開始ヌクレオチドとしてグアノシンを有し；及び／又は
ここで、人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＧＴであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工ＮＡ分子に存在していない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し；及び／又は
ここで、人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＡＴであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工ＮＡ分子に存在しない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し；及び／又は
ここで、標準セットの人工ＮＡ分子の少なくとも１つ、好ましくはその各々は、それがＲＮＡ分子であれば、５’キャップ構造を有し、及び／又は少なくとも１０、好ましくは少なくとも２０個のアデノシンから成るポリ（Ａ）テールを有し；そして
Ｃ）ここで、前記標準セットの配列が、１０^−１未満、好ましくは１未満、特に１０未満の統計的有意性の閾値（期待値）で、ＮＣＢＩＧｅｎＢａｎｋデータベース受入番号が表３で列挙されている配列に対して類似性を有しない、好ましくは表３及び表４のいずれか一方、特に好ましくは２０１４年６月１５日のＮＣＢＩＧｅｎＢａｎｋデータベースリリース２０２のすべての配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター：低複雑性領域フィルタリングを伴った、２８のワードサイズ、１、−２の直鎖ギャップコスト及びマッチ／ミスマッチスコア、を用いてＢＬＡＳＴｎプログラムによって測定される、標準セット。
以下の：
Ａ）配列番号１〜１４８の群から選択される配列全体に対して少なくとも８０％、好ましくは少なくとも９０％、より好ましくは少なくとも９５％、より一層好ましくは少なくとも９８％、特に１００％同一の配列；又は
Ｂ）配列番号１５６〜３３４の群から選択される配列全体に対して少なくとも８０％、好ましくは少なくとも９０％、より好ましくは少なくとも９５％、より一層好ましくは少なくとも９８％、特に１００％同一の配列を有する少なくとも１つのエクソンを有する配列、
を含むＮＡ分子、好ましくはＤＮＡ分子又はＲＮＡ分子。
少なくとも８０個、好ましくは少なくとも１５０個の連続したヌクレオチドから成る配列を含み、その配列が、配列番号１〜１４８から選択される配列の、８０ｎｔの最小サイズを有する配列断片に対して少なくとも８０％、好ましくは少なくとも９０％、より好ましくは少なくとも９５％、より一層好ましくはへの少なくとも９８％である、ＮＡ分子、好ましくはＤＮＡ分子又はＲＮＡ分子。
各ファミリーが少なくとも２つ、好ましくは少なくとも３つ、より好ましくは少なくとも４つ、特に少なくとも５つの、請求項１０又は１１に記載の異なったＮＡ分子から成る、少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、特に少なくとも５つのＮＡ分子ファミリーを含み、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのＮＡ分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのＮＡ分子が、少なくとも８０ｎｔの長さの配列を共有し、且つ、前記各ファミリーの少なくとも２つのＮＡ分子が少なくとも８０ｎｔの長さの別の配列と異なる、転写産物バリアントをシミュレートする人工ＮＡ分子の標準セット。
前記標準セットが：
−以下の：選択的転写産物開始部位（ＴＳＳ）、選択的転写産物終結部位（ＴＥＳ）、アンチセンス転写産物、オーバーラップ転写産物、及び以下の：スキップカセットエクソン（ＣＥ）、イントロン残存（ＩＲ）、相互除外エクソン（ＭＸＥ）、選択的３’スプライス部位（Ａ３ＳＳ）、選択的５’スプライス部位（Ａ５ＳＳ）、選択的第１エクソン（ＡＦＥ）、選択的最終エクソン（ＡＬＥ）、及びトランス−スプライシングの群から選択される選択的スプライシング事象、の群から選択される少なくとも１つ、好ましくは少なくとも２つ、より好ましくは少なくとも３つ、より一層好ましくは少なくとも５つ、特にそのすべての選択的転写事象をシミュレートし；及び／又は
−５００ｎｔ〜２０００ｎｔ、好ましくは７５０ｎｔ〜１５００ｎｔ、特に１０００ｎｔ〜１４００ｎｔの平均である配列長有し；好ましくは、３００ｎｔ〜１２００ｎｔ、好ましくは６００ｎｔ〜９００ｎｔ、特に７００ｎｔ〜８００ｎｔの標準偏差を有し；少なくとも１００ｎｔの最小サイズを有し；そして、好ましくは１００００ｎｔの最大サイズを有し；及び／又は
−２５％〜５５％の平均ＧＣ含量を有し；及び／又は
−ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＧＧＡ、ＧＧＣ、ＧＧＧ、ＧＧＴ、ＧＴＡ、ＧＴＣ、ＧＴＧ、ＧＴＴから選択される５’開始トリヌクレオチド又はＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＡ、ＣＣ、ＣＧ、ＣＴ、ＧＡ、ＧＣ、ＧＧ、ＧＴ、ＴＡ、ＴＣ、ＴＧ、ＴＴから選択される５’開始ジヌクレオチド及び／又はＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＧ、ＣＴ、ＧＣ、ＧＧ、ＧＴ、ＴＣ、ＴＧ、ＴＴから選択される３’終結ジヌクレオチドの実質的に均一に分布して出現し；及び／又は
ここで、標準セットの各人工ＮＡ分子が、５’開始ヌクレオチドとしてグアノシンを有し；及び／又は
ここで、人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＧＴであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工ＮＡ分子に存在していない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し；及び／又は
ここで、人工ＮＡ分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも５０％、好ましくは少なくとも７５％、特に少なくとも９５％がＡＴであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工ＮＡ分子に存在しない配列の５’終結ジヌクレオチドであるため、それによって、前記別の人工ＮＡ分子のイントロンを示し；及び／又は
ここで、標準セットの人工ＮＡ分子の少なくとも１つ、好ましくはその各々は、それがＲＮＡ分子であれば、５’キャップ構造を有し、及び／又は少なくとも１０、好ましくは少なくとも２０個のアデノシンから成るポリ（Ａ）テールを有し；そして
好ましくは、ここで、前記標準セットの配列が、１０^−１未満、好ましくは１未満、特に１０未満の統計的有意性の閾値（期待値）で、ＮＣＢＩＧｅｎＢａｎｋデータベース受入番号が表３で列挙されている配列に対して類似性を有しない、好ましくは表３及び表４のいずれか一方、特に好ましくは２０１４年６月１５日のＮＣＢＩＧｅｎＢａｎｋデータベースリリース２０２のすべての配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター：低複雑性領域フィルタリングを伴った、２８のワードサイズ、１、−２の直鎖ギャップコスト及びマッチ／ミスマッチスコア、を用いてＢＬＡＳＴｎプログラムによって測定される、請求項１２に記載の標準セット。
前記標準セットのＮＡ分子のうちの少なくとも２つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在し；且つ、好ましくは、ここで、少なくとも２つのＮＡ分子の各モル量が、少なくとも２桁、好ましくは少なくとも３桁、より好ましくは少なくとも５桁、特に少なくとも６桁異なり、特にここで、少なくとも２つのＮＡ分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は０．０１アトモル／μｌ〜１００フェムトモル／μｌ又は１００ゼプトモル／μｌ〜１フェムトモル／μｌの範囲に及ぶ、請求項９、１２又は１３のいずれか１項に記載のセット。
前記標準セットが、請求項８、９、１２又は１３、好ましくは請求項１２又は１３、特に請求項１３に記載の標準セットであって、且つ、前記ＮＡ分子のうちの少なくとも２つ、好ましくはそれぞれがあらかじめ設定したモル量で存在する、請求項１〜３のいずれか１項に記載の方法。
前記人工ＮＡ分子の標準セットが、安定化剤と一緒に、コンテナ内に乾燥状況で、好ましくは凍結乾燥状態で提供される、請求項１〜３のいずれか１項に記載の方法。
１若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び／又は定量のための方法が実施され、ここで、ステップｂ）が、コンテナにサンプルを加えることによって実施され、それによって、該サンプル中に乾燥状態の標準セットが溶解する、請求項１６に記載の方法。
物理的に得られた標準セットを乾燥させるステップ、好ましくは凍結乾燥させるステップ、好ましくはコンテナ内で乾燥させるステップ、好ましくは安定化剤と一緒に乾燥させるステップを更に含む、請求項４〜７のいずれか１項に記載の方法。
前記人工ＮＡ分子の標準セットを、安定化剤と一緒に、コンテナ内に、乾燥させて、好ましくは凍結乾燥させて提供する、請求項８、９、又は１２〜１４のいずれか１項に記載の方法。