JP2006525814A - ヌクレオチド配列の実質的表示 - Google Patents
ヌクレオチド配列の実質的表示 Download PDFInfo
- Publication number
- JP2006525814A JP2006525814A JP2006514923A JP2006514923A JP2006525814A JP 2006525814 A JP2006525814 A JP 2006525814A JP 2006514923 A JP2006514923 A JP 2006514923A JP 2006514923 A JP2006514923 A JP 2006514923A JP 2006525814 A JP2006525814 A JP 2006525814A
- Authority
- JP
- Japan
- Prior art keywords
- genome
- nucleic acid
- word
- acid molecules
- transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07H—SUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
- C07H21/00—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
- C07H21/04—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical
Abstract
Description
本発明は、一般には、分子生物学に関する。さらに詳しくは、本発明は、与えられた源DNA(例えば、ゲノム)の表示であるヌクレオチド配列を生じさせるための材料および方法に関する。
ゲノム分析のための全体的な方法は、癌および遺伝子成分に関する他の病気または疾患の病理生理学に対する有用な洞察を提供してきた。そのような方法は核型分析、倍数性の決定、比較ゲノムバイブリダイゼーション(CGH)、表示差分析(RDA)(例えば、米国特許第5,436,142)号、およびゲノム表示の分析(1999年5月14日に公開されたWO 99/23256)を含む。一般に、これらの方法は、特定の遺伝子の発現を問い合わせるためにプローブを用いること、またはゲノムそれ自体の変化を調べることいずれかを含む。
本発明は、核酸分子の集団を問い合わせるのに有用な組成物および方法を提供する。これらの組成物および方法を用いて、所望により、マイクロアレイ技術と組み合わせて、複雑なゲノム(例えば、哺乳動物ゲノム)で分析することができる。本発明は、複数の少なくとも100の核酸分子をその要旨とし、(A)ここに、(a)核酸分子の各々は少なくともZの塩基対のゲノム中の配列に特異的にハイブリダイズし;および(b)該複数の核酸分子の少なくともP%は(i)少なくともKのヌクレオチドの長さを有し;(ii)該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に特異的にハイブリダイズし、該表示は該ゲノムのR%以下の複雑性を有し;および(iii)該ゲノム(または該表示)に対してL1ヌクレオチドのX以下の正確なマッチおよび該ゲノム(または該表示)に対してL1ヌクレオチドのY以上の正確なマッチを有し;および(B)(ここに、(a)Z≧1×108;(b)300≧K≧30;(c)70≧R≧0.001;(d)P≧90−R;(e)(log4(Z)+2)に最も近い整数≧L1≧log4(Z)に最も近い整数;(f)XはD1×(K−L1+1)に最も近い整数であり;(g)YはD2×(K−L1+1)に最も近い整数であり;(h)1.5≧D1≧1;および(i)1>D2≧0.5。
本発明は、DNA集団(例えば、ゲノム、染色体、またはDNAの混合物)の表示を分析するためのオリゴヌクレオチドプローブをその要旨とする。該オリゴヌクレオチドプローブは溶液中で用いることができるか、あるいはそれらはアレイまたはマイクロビーズのような(半固体を含めた)固体表面に固定化することができる(例えば、Lechner et al.,Curr.Opin.Chem.Biol.6:31−38(2001);Kwok,Annu.Rev.Genomics Human Genet.2:235−58(2001);Aebersold et al., Nature 422:198−207(2003);および米国特許第6,355,431号および第6,429,027号)。表示は、得られたDNAが、典型的には、新しいフォーマットまたは低下した複雑性または双方を有するDNA集団の再現性のあるサンプリングである(Lisitsyn et al.,Science 258:946−51(1993);Lucito et al., Proc.Latl.Acat.Sci.USA 92:151−5(1998))。例えば、ゲノムの表示は、ゲノムの小さな部分のみからのものであって、反復配列がほとんど含まれていないDNA配列よりなることができる。ゲノム表示の分析は、欠失、増幅、染色体再編成および多形のような突然変異を含めたゲノムの変化を明らかにすることができる。臨床的設定でなされる場合、分析は、病気の分子的基礎に対する洞察、およびその診断および治療に対する有用なガイドを提供することができる。
本発明のオリゴヌクレオチドプローブは、好ましくは、参照個体のゲノムDNAのような源DNAの実質的表示によって設計される。ゲノムの表示は、一般的には、しかし不変的ではないが、その複雑性の単純化をもたらす。表示の複雑性は、そこに表されるゲノムのフラクションに対応する。複雑性を計算する1つの方法は、表示中のヌクレオチドの数をゲノム中のヌクレオチドの数で割ることである。表示のゲノム複雑性は、合計ゲノムの1%未満から、その95%ほど高い範囲とすることができる。比較的単純なゲノムを持つ生物からのDNAを用いる場合、表示は合計ゲノムの100%複雑性を有することができ、例えば、表示は増幅することなく全DNAの制限消化によって生じさせることができる。本発明に関連する表示は、典型的には、0.001%および70%の間の複雑性を有する。複雑性の低下は、望ましいハイブリダイゼーションキネティックスを可能とする。
本発明のオリゴヌクレオチドプローブはアレイ様式で用いることができる。アレイは、規定された座標またはアドレスに付着された核酸プローブを持つ個体支持体を含む。各アドレスは単一DNAプローブの多くのコピー、または異なるDNAプローブの混合物いずれかを含む。「マイクロアレイ」または「チップ」とも言われる核酸アレイは、一般には、当該分野で記載されてきた。例えば、米国特許第6,361,947号およびそこに引用された文献参照。我々は新しいアレイを用いる遺伝子解析を「表示オリゴヌクレオチドマイクロアレイ解析」(「ROMA」)と命名し、または切断が標的部位におけるメチル化に依存する場合には、「メチル化検出オリゴヌクレオチドマイクロアレイ解析」(「MOMA」)と命名した。
本発明のアレイは、典型的には、少なくとも100(例えば、少なくとも500、1,000、5,000または10,000)のオリゴヌクレオチドプローブを含み、より多くのプローブ、例えば、25,000、50,000、75,000、85,000、100,000、200,000、250,000、500,000または700,000までのプローブを含むことができる。本発明のアレイは、典型的には、700,000を超えるプローブは含まない。しかしながら、それらはより多い、例えば、800,000、900,000または1,000,000までのプローブを含むことができる。いくつかの具体例において、アレイは、1cm2当たり約60の異なるプローブを超える密度を持つ高密度アレイである。アレイ中のオリゴヌクレオチドは一本鎖または二本鎖であってよい。アレイの製造および使用を容易とするためには、本発明のオリゴヌクレオチドプローブは、例えば、ペプチジル構造およびアナログヌクレオチドをプローブに一体化させることによって修飾することができる。
本発明のオリゴヌクレオチドアレイを用いて、選択されたいずれの核酸試料もプローブすることができる。例えば、試料はcDNAライブラリー、ゲノムDNAライブラリー、またはRNA調製物であってよい。他の具体例においては、本発明のアレイを用いて、高等生物のゲノムのような、複雑なDNA集団の表示(または「テスト表示」)であるDNA試料をプローブする。
本発明のマイクロアレイは、典型的には、溶液中の一本鎖核酸の試料にハイブリダイズする。潜在的ハイブリダイゼーションシグナルはハイブリダイゼーションチャンバー中のアドレス間で変化し得るので、プローブアレイは好ましくはコンパレーターとして用いることができ、徹底的に混合され、したがって、同一のハイブリダイゼーション条件を共有する2つの異なって標識された標本(試料)の間のハイブリダイゼーションの比率を測定する。典型的には、2つの標本は、各々、テスト(例えば、病気の)および対照(例えば、病気のない)細胞からであろう。
本発明のオリゴヌクレオチドプローブを用いて、ゲノム中の特定の配列のコピー数またはメチル化状態の変化を検出し、定量することができる。複数のDNA試料に由来する表示を同一オリゴヌクレオチドプローブにハイブリダイズさせる場合、特定のプローブに対する2つの試料間のハイブリダイゼーションの相対的強度は、2つの試料中のそのプローブに対応する配列の相対的コピー数またはメチル化状態を示す。例えば、ゲノムは、典型的には、増幅によるある配列の過剰なコピー、または特定の領域の欠失によるある配列のよる少数のコピーまたは全くないコピーいずれかを含む。これらの方法を用いて、例えば、特定の配列の増幅、欠失またはメチル化状態が、例えば、癌、神経学的病気(例えば、自閉症)、糖尿病、心臓学的病気および炎症病(例えば、自己免疫疾患)を含めた特定の病気の素因、進行または停滞に関係する場合、参照試料および患者試料の間の配列のコピー数またはメチル化状態の変化を分析することができる。
以下に、前記したオリゴヌクレオチドプローブを得るのに用いることができるアルゴリズムを記載する。以下の記載は、このアルゴリズムがそのようなプローブを得るための唯一の手段であることを示すことを意図しないのは理解されるであろう。また、このアルゴリズムは本発明のオリゴヌクレオチドプローブを創製する以外に適応を有することも理解されるであろう。他の適用のいくつかはここに記載する。
サーチエンジンおよびその適用は、図7に示された説明的システム700を用いて本発明にしたがって実行することができる。システム700はコンピュータ710、ユーザーインターフェース機器730、インターネット740、および任意の実験室機器(図示せず)を含むことができる。システム700は多数のコンピュータ710およびユーザーインターフェース機器730を含むことができるが、各々の1つのみを図7に示して、図面を複雑にするのを回避する。コンピュータ710は、連絡経路790を介してユーザーインターフェース機器730およびインターネット740に連結されるのが示される。
さて、図8を参照し、例示的フローチャート800は、本発明の原理に従ってサーチエンジンで用いるためのゲノムを調製するにおける工程を示す。フローチャート800は、特定のゲノムのトランスフォームを創製するための基礎を提供する添字アレイデータ構造を形成するための技術を用いる。このトランスフォームは、本発明のサーチエンジンについての基礎を提供し、ここに、サーチエンジンは特定の単語(例えば、15、21、70または80文字の長さを有する単語)の出現の数を迅速にカウントすることができる。工程810において、ゲノムまたはゲノムの一部のようなヌクレオチド配列が提供される。ゲノムはNのヌクレオチドの長さを有する文字のストリングとして配置することができ、ここに、Nはゲノムを表す文字のストリングにおけるヌクレオチドの合計数を表す。
図9は、マーエンジンの原理に従って、与えられたゲノムに存在する特定の単語の回数の数をカウントするための例示的工程の単純化されたフローチャートである。工程910において出発し、ゲノムの圧縮されたトランスフォームおよび補助的データ構造が提供される。圧縮されたトランスフォームおよび補助的データ構造は、例えば、図8に示したフローチャートから得ることができる。工程914においては、特定の長さの質問パターンが供される(例えば、ACG...G)。該パターンは、好ましくは、ゲノムのトランスフォームにおいてサーチエンジンが探すヌクレオチドのストリングである。
出発位置=A+Z (1)
終了位置=出発位置+M−1 (2)
ここに、Aはアルファバウンドに従う先行文字の出発位置であり、Zは現在規定されたサーチ領域に先立ってトランスフォームが出現する先行文字の回数の数を表し、およびMは、現在規定されたサーチ領域で出現する先行文字の回数の数を表す。
サーチエンジンの操作特徴を記載してきたので、エンジンの現実的適用を考察することができる。サーチエンジンの1つの適用は、それを用いて、ゲノム(またはいずれかの他のタイプのヌクレオチド配列)を注釈することができることである。特に、ゲノム内に存在する特定の長さのサブストリングを用いてゲノムを注釈することができる。次いで、サーチエンジンは、ゲノムで起こる特定の長さのサブストリングの回数の数をカウントすることができる。これらのカウントは特定のサブストリングのユニーク性の指標を提供し、ここに、より低いカウントはより高いカウントよりも高度なユニーク性を表す。
以下の実施例は説明のためのみに掲げる。それは、本明細書中で開示する発明の範囲を限定する意図ではない。
本実施例は、ヒトゲノムのBglII−誘導表示に相補的であるオリゴヌクレオチドプローブの同定を示す。同様なアプローチを用いて、その配列が知られている、または予測される核酸のいずれの集団に対して相補的なオリゴヌクレオチドも設計することができる。ヒトゲノム配列の公表されたドラフトアセンブリーを用い、我々は、ドラフトアセンブリー内の全てのBglII制限部位を突き止めることによってヒトゲノムのin silico BglII消化を行った。我々は、さらに、長さが200ないし1,200塩基対の間であるBglII断片の全ての配列を選択した。次いで、我々は、本明細書中で記載したアルゴリズムを用いてこれらの断片の配列を分析した。(「マー−エンジン」とも呼ばれる)このアルゴリズムを用いて、いずれかの配列決定されたゲノムにおけるいずれかの与えられたオリゴヌクレオチド配列のコピー数を決定することができる。このコピー数は、ゲノム中のオリゴヌクレオチド配列の「単語カウント」とも呼ばれる。
我々は、実施例1に従って設計されたオリゴヌクレオチドプローブを含有するマイクロアレイを構築するための2つのフォーマットを用いた。これらのうち最初のもの、「印刷」フォーマットにおいて、我々は、固相化学で作成された約1,000オリゴヌクレオチドを購入し、それらをクイルでガラス表面に印刷した。具体的には、我々は、Cartesian PixSys5500(Genetic Microsystems)を用いて、4×4ビン遠心を用いて我々のプローブコレクションをスライド上に整列させた。各印刷されたアレイの寸法は概略2cm2であった。我々のアレイは、商業的に製造されたシラン化スライド(Cornig(登録商標) ultraGAPSTM #40015)上に印刷された。アレイで用いたビンは、Majer Precisionからのものであった。
本明細書中に記載したいくつかの実験では、我々はBglIIを選択して、表示を作成した。BglIIはこれらの特定の実験で有用な特徴を有する:それは頑強な酵素であり;その切断部位はCpGメチル化によって影響されず;それは4塩基突出を残し;およびその切断部位はヒトゲノム中の合理的に均一な分布を有する。BglII表示は、一般には1,200bpよりも小さな短い断片よりなる。我々は、17kbの平均間隔を持つ、ヒトゲノムの約2.5%を含むそれらの約200,000があると見積もった。
我々は、300mJに設定したStratagene(登録商標)Stratalinker(登録商標)を用いてオリゴヌクレオチドプローブをスライドへUV−架橋させ、スライドを180度回転させ、同一ポット中のスライドを架橋剤中に維持し、処理を反復した。我々は、スライドを0.1%SDS中で2分間洗浄し、Milli−Q(登録商標)水中で2分間洗浄し、沸騰したMilli−Q(登録商標)水中で5分間洗浄し、最後に、氷冷95%ベンゼンフリーのエタノール中で洗浄した。我々は、スライドを金属ラック中に入れ、それを75rcfにて5分間回転させることによって乾燥した。我々は、印刷されたマイクロアレイをコップリンジャーまたは他のスライド処理チャンバーに入れ、プレハイブリダイゼーション緩衝液(25%脱イオン化ホルムアミド、5× SSCおよび0.1%SDS)を加え、チャンバーを2時間で61℃まで予熱することによって印刷されたマイクロアレイをプレハイブリダイズさせ、次いで、Milli−Q(登録商標)水中でそれを10秒間洗浄した。我々は、再度、スライドを金属スライドラックに入れ、75rcfにて5分間回転させることによってそれを乾燥した。NimbleGenTM光印刷したアレイはUV架橋またはプレハイブリダイゼーションを必要としなかった。
実施例1で考察したように、我々は、オリゴヌクレオチドプローブがいずれの表示とハイブリダイズするかを、公表されたヒトゲノム配列に基づいて予測することができるはずである。これを確認するために、我々は、我々の10K印刷アレイを、1つの蛍光染料で標識した正常ヒトゲノムDNAのBglII表示に、およびもう1つの蛍光染料で標識した同一DNAのHindIII−枯渇BglII表示にハイブリダイズさせることによってそれをテストした。
本発明のオリゴヌクレオチドアレイは、それが欠失または増幅であるかにかかわらず、大規模のゲノム障害を容易に検出する。図2A1ないしA3、2B1ないしB3、および3C1ないし3C3は、3つのゲノム比較用のアレイハイブリダイゼーションデータを示し:図2A1ないしA3は同一バイオプシーからの正常なジプロイド細胞(CHTN159)と異数体乳癌細胞を比較する(2つの試料表示は約100ngのDNAから調製し、各々は、フローサイトメトリーによって分離された異数体およびジプロイド画分から単離した);図2B1ないしB3は未知の民族性の患者に由来する乳癌細胞系(SK−BR−3)を(欧州およびアフリカ混血血統の)無関係正常な男性J. Doe(実施例2参照)と比較し;および図2C1ないしC3はもう一人の正常な男性(アフリカピグミー)からの細胞を同J.Doeと比較する。各場合、試料を色逆転にて、2回ハイブリダイズさせ、幾何平均比率(logスケール)をオリゴヌクレオチドプローブのゲノム順に対してプロットした。増大したコピー数(増幅)は1を超える比率によって示され、減少したコピー数(欠失)は1未満の比率によって示される。図2A1、2B1および2C1に示されたデータは10K印刷アレイで得られた。図2A2、2B2および2C2で示されたデータは85K光印刷アレイで得られた。
また、我々は、ゲノムのより小さな領域からのデータを分析して、実施例6で見られた変異をマッピングした。例えば、我々は、偏差をコードした後にプローブ比率データを同様な平均のセグメントに分析する統計学的セグメント化アルゴリズムを用いて一度に1つの染色体からのデータを分析した(環状二元セグメント化(CBS)と呼ばれる;Olshen and Venkatraman,Change−Point Analysis of Array−Based Comparative Genomic Hybridization Data,Alexandrie, VA, American Statistical Association, 2002参照)。該アルゴリズムは、各染色体からの最良な可能なセグメント化を回帰的に同定し、平均の差が偶然に起こった確率に基づいて分割された各提案を拒絶または許諾する。この確率はランダム化方法によって決定される。その非パラメータ性質のため、該アルゴリズムは、我々が、3未満のプローブによって認識された異常を同定することを妨げた。
RM=(RT×SN+1)/(SN+1)
[式中、RMは平均測定比率であり、RTは真実の比率であって、SNは「非特異的に対する特異的」ノイズを測定する実験的に誘導された性質である]
を用いた。我々は、RMを、プラトーにおけるセグメントのプローブの平均として選択し、CN/Pに対するRTを設定し、ここに、CNはプラトーから知られた真実のコピー数であり、Pは腫瘍ゲノムの倍数性であった。該組合せは2つの方程式および2つの未知のPおよびSNを提供した。CHTN159実験では(図4A)、我々は、倍数性Pは2.60と計算し、SNは1.13と計算した。SK−BR−3実験では(図4C)、我々はPが3.93であって、SNが1.21であると計算した。
また、我々は、データを分析して、増幅または欠失を有する個々の染色体中の正確な破断点を決定した。我々の分析は、本発明のアレイを用いて、個々の遺伝子の分解におけるゲノム障害を同定することができることを示した。従って、アレイから得られたデータを用いて、癌細胞への正常細胞の変換についての特定の遺伝子における異常のインパクトを予測することができる。
また、我々は本発明のオリゴヌクレオチドアレイおよび方法を用いて、2つの正常なゲノムの間のコピー数変動を分析し、多形変動から得られた差を観察した。この分析は、例えば、腫瘍DNA試料が正常DNAに対してマッチできず、無関係な正常DNAが参照として用いられる状況で重要である。何故ならば、観察された差は多形変動の結果だからである。この変異は2つに分類でき、BglII断片を創製し、または破壊する分類の点配列変異、例えば、SNP、またはヒト遺伝子プールに存在する現実のコピー数の変動である。前者は本発明のアレイを用いる分析に対して限定されたインパクトを有する。というのは、それは、統計学的手段によって大いに濾過することができる散乱した「ノイズ」を生じるからである。
以下の実施例は、サーチエンジンの使用を説明するつもりである。当業者に明白である当該分野で通常遭遇する記載された条件およびパラメータの適当な修飾および適合は、本発明の精神および範囲内のものである。
前記したサーチエンジンはプローブの設計で用いることができる。プローブは、一般には、相補的DNAに特異的にハイブリダイズするその能力で有用であり、従って、プローブ設計における主な目的の1つは交差ハイブリダイゼーションを最小化することである。以前のプローブ設計適用は、反復マスキングを用いて、反復領域を考慮から外した。このタイプの解決は、それが、染色体特異的反復のような反復性である領域からの保護を提供せず、かつそれはユニークである「反復性」領域を排除する点で問題である。
どのようにしてアルゴリズムを実行して単語カウンティング機能を行うかをさらに説明するために、図12Aおよび12Bを参照されたし。図12Aは、アルゴリズムによって用いられた変数およびデータ構造をグラフで規定し、図12Bはアルゴリズムの偽暗号表示を示す。セクションVIIで示したように、トランスフォームは「実質的」ゲノム辞書または添字アレイ用の先導的ツールとして用いることができる。最も単純な場合には、サブストリングがゲノムで起こるか否か、およびもしそうであれば、どれくらい多くのコピーで起こるかを決定するのが望まれると仮定する。この場合、サブストリングは単一文字「X」であると仮定する。Xの全ての出現はブロック(例えば、サーチ領域)として辞書で見ることができ、ここに、FxおよびLxはXの最初および最後の出現の指標である。FxおよびLxはアルファバウンドデータ構造に由来することができる。このブロック(例えば、サーチ領域)のサイズはkx=Lx−Fx+1であり、これは、Xの出現の数でもある。この数は、トランスフォームにおけるXの出現の数をカウントすることによって決定できることに注意されたし。
Claims (100)
- 複数の核酸分子であって、
(a)該複数はNの核酸分子よりなり;
(b)該複数の核酸分子の各々は、Z塩基対のゲノム中の配列に特異的にハイブリダイズするヌクレオチド配列を有し;および
(c)該複数の核酸分子の少なくともP%は、
(i)Kヌクレオチドの長さを有し;
(ii)該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に特異的にハイブリダイズし、該表示は該ゲノムの複雑性のR%超を有し;および
(iii)該ゲノムに対してL1ヌクレオチドのX以下の正確なマッチおよび該ゲノムに対してL1ヌクレオチドのY以上の正確なマッチを有し;かつ
(A)N≧500;
(B)Z≧1×108;
(C)300≧K≧30;
(D)70≧R≧0.001;
(E)P=(N×R+(3×シグマ))/N;
(F)シグマは(N×R×(1−R))の平方根であり;
(G)(log4(Z)+2)に最も近い整数≧L1≧log4(Z)に最も近い整数;
(H)XはD1×(K−L1+1)に最も近い整数であり;
(I)YはD2×(K−L1+1)に最も近い整数であり;
(J)1.5≧D1≧1;および
(K)1≧D2≧0.5
である該核酸分子。 - Nが少なくとも500;少なくとも1,000;少なくとも2,500;少なくとも5,000;少なくとも10,000;少なくとも25,000;少なくとも50,000;少なくとも85,000;少なくとも190,000;少なくとも350,000;および少なくとも550,000の核酸分子よりなる群から選択される請求項1記載の複数の核酸分子。
- Zが少なくとも3×108、少なくとも1×109、少なくとも1×1010および少なくとも1×1011よりなる群から選択される請求項1記載の複数の核酸分子。
- 前記ゲノムが哺乳動物ゲノムである請求項1記載の複数の核酸分子。
- 前記ゲノムがヒトゲノムである請求項4記載の複数の核酸分子。
- Rが0.001、1、2、4、10、15、20、30,40、50および70よりなる群から選択される請求項1記載の複数の核酸分子。
- Pが少なくとも70、少なくとも80、少なくとも90、少なくとも95、少なくとも97、および少なくとも99よりなる群から選択される請求項1記載の複数の核酸分子。
- D1が1である請求項1記載の複数の核酸分子。
- D2が1である請求項1記載の複数の核酸分子。
- L1が15、16、17、18、19、20、21、22、23および24よりなる群から選択される請求項1記載の複数の核酸分子。
- 前記複数の核酸分子の前記P%の各々が、さらに、前記ゲノムに対してL2ヌクレオチドのA以下の正確なマッチ、および該ゲノムに対してL2ヌクレオチドのB以上の正確なマッチを有し;および
ここで、
(a)L1>L2≧log4(Z)−3に最も近い整数;
(b)AはD3×((K−L2+1)×(Z/4L 2))に最も近い整数であり;
(c)BはD4×((K−L2+1)×(Z/4L 2))に最も近い整数であり;
(d)4≧D3≧1;および
(e)1>D4≧0.5
である請求項1記載の複数の核酸分子。 - D3≦3、2または1.5である請求項11記載の複数の核酸分子。
- 前記複数の核酸分子の前記P%が、前記表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して、少なくとも91、92、93、94、95、96、97、98、99または100%の配列同一性を有する請求項1記載の複数の核酸分子。
- Kが40、50、60、70、80、90、100、110、120、140、160、180、200および250よりなる群から選択される請求項1記載の複数の核酸分子。
- 複数の核酸分子であって、
(a)該複数は少なくとも100の核酸分子よりなり;
(b)該複数の核酸分子の各々は少なくともZ塩基対のゲノム中の配列に少なくとも90%同一であるヌクレオチド配列を有し;および
(c)該複数の核酸分子の少なくともP%は、
(i)Kヌクレオチドの長さ;
(ii)該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して少なくとも90%配列同一性であって、該表示は該ゲノムの複雑性のR%以下を有する、配列同一性;および
(iii)該表示に対してL1ヌクレオチドのX以下の正確なマッチ、および該表示に対してL1ヌクレオチドのY以上の正確なマッチ;
を有し;および
(A)Z≧1×108;
(B)300≧K≧30;
(C)70≧R≧0.001;
(D)P≧90−R;
(E)(log4((Z×R)/100)+2)に最も近い整数≧L1≧log4((Z×R)/100)に最も近い整数;
(F)XはD1×(K−L1+1)に最も近い整数であり;
(G)YはD2×(K−L1+1)に最も近い整数であり;
(H)1.5≧D1≧1;および
(I)1>D2≧0.5;
である該複数の核酸分子。 - 少なくとも500;少なくとも1,000;少なくとも2,500;少なくとも5,000;少なくとも10,000;少なくとも25,000;少なくとも50,000;少なくとも85,000;少なくとも190,000;少なくとも350,000;または少なくとも550,000の核酸分子を含む請求項15記載の複数の核酸分子。
- Zが少なくとも3×108、少なくとも1×109、少なくとも1×1010および少なくとも1×1011よりなる群から選択される請求項15記載の複数の核酸分子。
- 前記ゲノムが哺乳動物ゲノムである請求項15記載の複数の核酸分子。
- 前記ゲノムがヒトゲノムである請求項18記載の複数の核酸分子。
- Rが0.001、1、2、4、10、15、20、30、40、50および70よりなる群から選択される請求項15記載の複数の核酸分子。
- Pが少なくとも70、少なくとも80、少なくとも90、少なくとも95、少なくとも97および少なくとも99よりなる群から選択される請求項15記載の複数の核酸分子。
- D1が1である請求項15記載の複数の核酸分子。
- D2が1である請求項15記載の複数の核酸分子。
- L1が15、16、17、18、19、20、21、22、23および24よりなる群から選択される請求項15記載の複数の核酸分子。
- 前記複数の核酸分子の前記P%の各々が、さらに、前記ゲノムに対してL2ヌクレオチドのA以下の正確なマッチ、および該ゲノムに対してL2ヌクレオチドのB以上の正確なマッチを有し;および
(a)L1>L2≧log4(Z)−3に最も近い整数;
(b)AはD3×((K−L2+1)×(Z/4L 2))に最も近い整数であり;
(c)BはD4×((K−L2+1)×(Z/4L 2))に最も近い整数であり;
(d)4≧D3≧1;および
(e)1>D4≧0.5;
である請求項15記載の複数の核酸分子。 - 前記複数の核酸分子の前記P%が前記表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して少なくとも91、92、93、94、95、96、97、98、99または100%の配列同一性を有する請求項15記載の複数の核酸分子。
- Kが40、50、60、70、80、90、100、110、120、140、160、180、200および250よりなる群から選択される請求項15記載の複数の核酸分子。
- 前記表示が前記ゲノムの配列特異的切断によって生じる請求項1記載の複数の核酸分子。
- 配列特異的切断が制限エンドヌクレアーゼによって達成される請求項28記載の複数の核酸分子。
- 前記表示が化合物表示である請求項1記載の複数の核酸分子。
- 前記複数の核酸分子が固相の表面に固定化された請求項1記載の複数の核酸分子。
- 前記固相がナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィアよりなる群から選択される請求項31記載の複数の核酸分子。
- 前記固相上の前記複数の核酸分子の位置が公知である請求項31記載の複数の核酸分子。
- 前記複数の核酸分子がマイクロアレイ上にある請求項33記載の複数の核酸分子。
- 前記複数の核酸分子がマイクロスフィアに固定化されている請求項33記載の複数の核酸分子。
- (a)請求項1記載の複数の核酸分子に試料をハイブリダイズさせ;次いで、
(b)該複数の核酸分子のいずれに該試料がハイブリダイズするかを決定する;
ことを包含する、核酸試料を分析する方法。 - 前記試料が表示である請求項36記載の方法。
- 前記複数の核酸分子が固相の表面に固定化された請求項36記載の方法。
- 前記固相がナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィアよりなる群から選択される請求項38記載の方法。
- 前記固相上の前記複数の核酸分子の位置が公知である請求項38記載の方法。
- 前記複数の核酸分子がマイクロアレイ上にある請求項40記載の方法。
- 前記複数の核酸分子がマイクロスフィアに固定化された請求項38記載の方法。
- 2つのゲノムの間のゲノム配列のコピー数変動を分析する方法であって、
(a)第一のゲノムおよび第二のゲノムを供し;
(b)少なくとも1つの同一制限酵素を用いて各ゲノムの検出可能に標識された表示を調製し;
(c)該表示を請求項1または31記載の複数の核酸分子と接触させて、該表示および該複数の核酸分子の間のハイブリダイゼーションを可能とし;次いで、
(d)該表示のハイブリダイゼーションのレベルを比較することを包含し、
ここに、該レベルの差が、該メンバーによって標的とされるゲノム配列に関して2つのゲノムの間のコピー数変動を示す、該方法。 - 前記2つの表示が区別可能に標識された請求項43記載の方法。
- 前記表示を前記複数の核酸分子と同時に接触させる請求項44記載の方法。
- 2つのゲノムの間のゲノム配列のメチル化状態を比較する方法であって、
(a)第一および第二のゲノムを提供する工程;
(b)少なくとも1つの同一酵素を用いて各ゲノムの検出可能に標識された表示を調製し、ここで、該表示はメチル化感受性方法によって調製する工程;
(c)該表示を請求項1または31記載の複数の核酸分子と接触させて、該表示および該複数の核酸分子の間のハイブリダイゼーションを可能とする工程;および
(d)該表示のハイブリダイゼーションのレベルを比較する工程を包含する方法であって、
ここで、該レベルの差は、該メンバーによって標的化されたゲノム配列に関して2つのゲノムの間のメチル化状態の差を示す、方法。 - 前記メチル化感受性方法が、第一の制限酵素を用いて第一の表示を、および第二の制限酵素を用いて第二の表示を調製する工程を包含し、ここで、該第一および第二の制限酵素は同一制限部位を認識するが、一方はメチル化感受性であって、他方はそうではない請求項46記載の方法。
- 前記メチル化感受性方法が、メチル化されたゲノムに由来する表示が非メチル化ゲノムに由来する表示と区別できるように、非メチル化感受性制限酵素で表示を作成した後に、メチル−C配列の化学的切断を含む請求項46記載の方法。
- (a)Kヌクレオチドの長さ;
(b)少なくともZ塩基対のゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して少なくとも90%の配列同一性;および
(c)該ゲノムに対してL1ヌクレオチドのX以下の正確なマッチ、および該ゲノムに対してL1ヌクレオチドのY以上の正確なマッチ;
を有し、
ここで、
(i)Z≧1×108;
(ii)300≧K≧30;
(iii)(log4(Z)+2)に最も近い整数≧L1≧log4(Z)に最も近い整数;
(iv)XはD1×(K−L1+1)に最も近い整数;
(v)YはD2×(K−L1+1)に最も近い整数;
(vi)1.5≧D1≧1;および
(vii)1>D2≧0.5;
であるオリゴヌクレオチドを同定する方法であって、
(A)該ゲノムを制限酵素でin silico切断して、複数の予測された核酸分子を生じさせる工程、
(B)各々が包括的に200ないし1,200塩基対の長さを有する予測された核酸分子を同定することによって該ゲノムの実質的表示を生じさせる工程;
(C)包括的に30ないし300ヌクレオチドの長さ、および(B)における予測された核酸分子に対して少なくとも90%の配列同一性を有するオリゴヌクレオチドを選択する工程;
(D)該オリゴヌクレオチドで起こるL1ヌクレオチドの全てのストレッチを同定する工程;および
(E)該ゲノムで起こる該ストレッチの各々の回数の数が(c)の要件を満たすことを確認する工程、を包含する、方法。 - 工程(E)が:
前記ゲノムの圧縮されたトランスフォームを提供する工程;
該ゲノムに関連する情報を含む補助的データ構造を提供する工程;および
該圧縮されたトランスフォームおよび補助的データ構造を用いてL1ヌクレオチドについての単語カウントを決定する工程、
を包含する請求項49記載の方法。 - 工程(E)が:
前記ゲノムの圧縮されたトランスフォームを提供する工程;
最後のヌクレオチドで開始し、第一のヌクレオチドまで反復当たり1文字で進行して、L1ヌクレオチドの前記ストレッチの各ヌクレオチドを通じて反復する工程であって、ここに、特定の反復に対応するヌクレオチドは指標ヌクレオチドとして貯蔵される、工程であって、該反復は、さらに:
該トランスフォーム内の連続した範囲のヌクレオチドを示すサーチ領域を規定する工程;
該サーチ範囲で起こる該指標ヌクレオチドに先行するヌクレオチドの回数の数をカウントする工程、を包含し;
ここで、該指標ヌクレオチドに先行するヌクレオチドの出現が該サーチ範囲で起こらない場合、該反復を終了する;および
L1ヌクレオチドの該ストレッチの第一のヌクレオチドがカウントされる回数の数を出力する工程であって、この数は該ゲノムで出現するL1ヌクレオチドの該ストレッチの回数の数と同等である、工程、
を包含する請求項49記載の方法。 - 補助的データ構造を提供する工程をさらに包含し、該補助的データ構造は:
前記圧縮されたトランスフォーム中の特定の所定の位置まで、およびそれを含めて、該トランスフォーム中で出現した各ヌクレオチドのランニング合計を維持するK間隔データ構造;および
速いルックアップアクセスを圧縮されたトランスフォームに提供する辞書カウントデータ構造を含み;
ここに、前記カウントする工程および前記規定する工程は、該補助的データ構造および該圧縮されたトランスフォームを用いて行われる請求項51記載の方法。 - 該トランスフォームは該カウンティングが実行される間は圧縮されたままである請求項52記載の方法。
- 前記圧縮解除されたトランスフォーム中の3つの文字ごとに圧縮されてバイトを形成するように該圧縮されたトランスフォームが圧縮され、該カウンティングは該反復の1つの間にせいぜい1つのそのようなバイトを圧縮解除する請求項52記載の方法。
- 前記ゲノムが少なくとも30億文字を含む請求項51記載の方法。
- 前記圧縮されたトランスフォームが前記ゲノムのBurrows−Wheelerトランスフォームである請求項51記載の方法。
- 前記トランスフォームに基づくデータを提供する工程をさらに包含し、ここに、前記規定する工程は該データおよび前記標識ヌクレオチドを用いて前サーチ領域を規定する工程を包含する、請求項51記載の方法。
- さらに、
前記トランスフォームに基づくデータを提供する工程;および
先行ヌクレオチドカウントを決定する工程であって、該先行ヌクレオチドカウントは、前記サーチ領域の開始前に該トランスフォームで起こる指標ヌクレオチドに先行するヌクレオチドの回数の数である、工程、
を包含する方法であって、
ここに、前記規定する工程は、該データ、該指標ヌクレオチド、および該先行ヌクレオチドカウントを用いて、該サーチ領域を規定する工程を包含する、請求項51記載の方法。 - 前記先行ヌクレオチドカウントが、K間隔を用いて得られ、該K間隔は前記トランスフォームに沿った所定の位置に貯蔵され、特定の所定の位置まで、およびそれを含めて、該トランスフォームで出現した各ヌクレオチドのランニング合計を維持する、請求項58記載の方法。
- 各々が請求項49記載の方法によって生産される複数のオリゴヌクレオチドであって、該複数は、少なくとも500オリゴヌクレオチドを含む、オリゴヌクレオチド。
- 各々が請求項49記載の方法によって生産される複数のオリゴヌクレオチドであって、該複数は、少なくとも1,000オリゴヌクレオチド;少なくとも2,500オリゴヌクレオチド;少なくとも5,000オリゴヌクレオチド;少なくとも10,000オリゴヌクレオチド;少なくとも25,000オリゴヌクレオチド;少なくとも50,000オリゴヌクレオチド;少なくとも85,000オリゴヌクレオチド;少なくとも190,000オリゴヌクレオチド;少なくとも350,000オリゴヌクレオチド;または少なくとも550,000オリゴヌクレオチドを含む、オリゴヌクレオチド。
- ヌクレオチド配列を注釈するための方法であって、該ヌクレオチド配列は、文字のストリングを含み、該方法は:
所定の長さの複数の単語に該ヌクレオチド配列を分割する工程であって、各単語は該所定の長さを有する該ヌクレオチド配列のサブ領域である、工程;および
該ヌクレオチド配列に出現する各単語の回数の数をカウントすることによって、各単語につき単語カウントを決定する工程、
を包含する、方法。 - 前記単語が重複する、請求項62記載の方法。
- 前記決定する工程が、前記ヌクレオチド配列の圧縮されたトランスフォームを利用する単語カウンティングアルゴリズムを用いて、各単語が該ヌクレオチド配列で何回起こるかをカウントする工程を包含する、請求項62記載の方法。
- 前記単語カウンティングアルゴリズムが:
最後の文字で出発し、最初の文字まで反復当たり1つの文字にて進行して、該単語の1つの各文字を通じて反復する工程であって、ここに、特定の反復に対応する文字は、指標文字として貯蔵される、工程、
を包含し、該反復する工程は、さらに:
前記トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程;
該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程、
を包含する方法であって、
ここに、該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、該反復する工程は終了する;および
第一の文字がカウントされる回数の数を出力する工程であって、この数は該ヌクレオチド配列で出現する特定の単語の回数の数と同等である、工程、
を包含する、請求項64記載の方法。 - 各単語で得られた単語カウントについて統計学的解析を行う工程をさらに包含する、請求項62記載の方法。
- 前記ヌクレオチド配列を第二の所定の長さの第二の複数の単語に分割する工程であって、該第二の複数の単語の各々は、該第二の所定の長さを有する該ヌクレオチド配列のサブ領域である、工程;および
該ヌクレオチド配列に出現する該第二の複数の単語の各々の回数の数をカウントすることによって、該第二の複数の単語の各々につき単語カウントを決定する工程、
をさらに包含する、請求項62記載の方法。 - 前記ヌクレオチド配列がゲノムである、請求項62記載の方法。
- ヌクレオチド配列を注釈するためのシステムであって、該ヌクレオチド配列は文字のストリングを含み、該システムは:
該ヌクレオチド配列を所定の長さの複数の単語に分割し、各単語は該所定の長さを有する該ヌクレオチド配列のサブ領域である;および
該ヌクレオチド配列で出現する各単語の回数をカウンティングすることによって、各単語につき単語カウントを決定する;
ように設定されたユーザー機器を備える、システム。 - 前記単語が重複する、請求項69記載のシステム。
- 前記ユーザー機器が、前記ヌクレオチド配列の圧縮されたトランスフォームを利用して、各単語が該ヌクレオチド配列で起こる回数をカウントする単語カウンティングアルゴリズムを用いるように設定された、請求項69記載の方法。
- 前記ユーザー機器が、さらに:
最後の文字で出発し、反復当たり1文字にて最初の文字まで進行するように、前記単語の1つの各文字を通じて反復し、ここに、特定の反復に対応する文字は、指標文字として貯蔵されるように設定され、該ユーザー機器は、さらに:
前記トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程;
該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程;および
該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、反復を終了する工程、
を反復することによって反復するように設定され;そして、
第一の文字がカウントされる回数の数を出力するように設定され、この数は特定の単語が前記ヌクレオチド配列で出現する回数の数と同等である、請求項71記載のシステム。 - 前記ユーザー機器が、各単語につき得られた単語カウントについて統計学的解析を行うように設定された、請求項69記載のシステム。
- 前記ユーザー機器が:
前記ヌクレオチド配列を第二の所定の長さの第二の複数の単語に分割し、該第二の複数の単語の各々は、該第二の所定の長さを有する該ヌクレオチド配列のサブ領域である;および
該第二の複数の単語の各々が、該ヌクレオチド配列で出現する回数の数をカウントすることによって、該第二の複数の単語の各々につき単語カウントを決定する;
ように設定された、請求項69記載のシステム。 - 該ヌクレオチド配列がゲノムである、請求項69記載のシステム。
- ヌクレオチド配列の望まない領域への交差ハイブリダイズする最小の可能性を有するポリヌクレオチドを選択するための方法であって、該方法は、以下:
該ヌクレオチド配列内に存在する所定の長さの複数のポリヌクレオチドを選択する工程;
各ヌクレオチドに対して統計学的データを生じさせる工程;および
該ポリヌクレオチドのいずれの1つが、所定の基準を最良に満足する統計学的データを有するかを決定する工程、
を包含する、方法。 - 前記生じさせる工程が、
各ポリヌクレオチドを所定の長さの複数の単語に分割する工程であって、各単語は該所定の長さを有するポリヌクレオチドのサブ領域である、工程;および
各単語が該ヌクレオチド配列で出現する回数の数をカウントすることによって、各単語につき単語カウントを決定する工程、
を包含する、請求項76記載の方法。 - 前記統計学的データが、各ポリヌクレオチドの構成単語が、前記ヌクレオチド配列で出現する回数の数を表す、請求項76記載の方法。
- 前記所定の基準が、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの総計合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを含む、請求項76記載の方法。
- 前記選択する工程が、
前記ヌクレオチド配列で起こる特定長さを有する特定の単語の単語カウントを生じさせる工程;および
前記領域内のサブストリングについての単語カウントが、所定の単語カウントを超えないように、該ヌクレオチド配列の領域からポリヌクレオチドを得る工程、
を包含する、請求項76記載の方法。 - ヌクレオチド配列の望まない領域へ交差ハイブリダイズする最小の可能性を有するポリヌクレオチドを選択するためのシステムであって、前記方法は、
該ヌクレオチド配列内に存在する所定の長さの複数のポリヌクレオチドを選択する;
各ポリヌクレオチドに対して統計学的データを生じさせる;および
該ポリヌクレオチドのいずれの1つが、所定の基準を最良に満足する統計学的データを有するかを決定する;
ように設定されたユーザー機器を含む、システム。 - 前記ユーザー機器が:
各ポリヌクレオチドを所定の長さの複数の単語に分割し、各単語は、該所定の長さを有するポリヌクレオチドのサブ領域である;および
各単語が前記ヌクレオチド配列に出現する回数の数をカウントすることによって、各単語につき単語カウントを決定する;
ように設定された、請求項81記載のシステム。 - 前記統計学的データが、各ポリヌクレオチドの構成単語が前記ヌクレオチド配列で出現する回数の数を表す、請求項81記載のシステム。
- 前記所定の基準が、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの総計合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを含む、請求項81記載のシステム。
- 前記ユーザー機器が:
前記ヌクレオチド配列で起こる特定の長さを有する特定の単語の単語カウントを生じさせる;および
前記領域内のサブストリングについての単語カウントが、所定の単語カウントを超えないように、該ヌクレオチド配列の領域からポリヌクレオチドを得る;
ように設定された、請求項81記載のシステム。 - ゲノムで起こる単語の回数の数をカウントするための方法であって、ここに、該単語は文字のストリングを含み、該方法は:
該ゲノムの圧縮されたトランスフォームを提供する工程;
最後の文字で出発し、反復当たり1文字にて第一の文字まで進行させて、該単語の各文字を通じて反復する工程であって、ここに、特定の反復に対応する文字は指標文字として貯蔵される、工程、
を包含し、該反復する工程は、さらに:
該トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程;
該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程、
を包含する、反復する工程であって、
ここに、該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、該反復する工程を終了する;ならびに
該単語の第一の文字の回数の数を出力する工程であって、この数は該ゲノムで出現する該単語の回数の数と同等である、工程、
を包含する、方法。 - 補助的データ構造を提供する工程をさらに包含し、該補助的データ構造は:
前記圧縮されたトランスフォーム中の特定の所定の位置まで、およびそれを含めて、該トランスフォームに出現する各文字のランニング合計を維持するK間隔データ構造;および
該圧縮されたトランスフォームへの速ルックアップアクセスを提供する辞書カウントデータ構造、を含み、
ここに、該カウンティングは、少なくとも該K間隔データ構造および該辞書カウントデータ構造を用いて行われる、請求項86記載の方法。 - 前記トランスフォームが、前記カウンティングが行われている間、圧縮されたままである、請求項87記載の方法。
- 前記圧縮されたトランスフォームは、圧縮解除されたトランスフォームにおける3文字ごとに圧縮されてバイトを形成するように圧縮され、前記カウンティングは、前記反復の1つの間に、1つのそのようなバイトを圧縮解除する、請求項87記載の方法。
- 前記ゲノムの圧縮されたトランスフォームが、3対1の圧縮比率を用いて誘導される、請求項86記載の方法。
- 前記ゲノムが少なくとも100万の文字を含む、請求項86記載の方法。
- 前記ゲノムが少なくとも400万の文字を含む、請求項86記載の方法。
- 前記ゲノムが少なくとも1億の文字を含む、請求項86記載の方法。
- 前記ゲノムが少なくとも30億の文字を含む、請求項86記載の方法。
- 前記単語が少なくとも15の文字を含む、請求項86記載の方法。
- 前記圧縮されたトランスフォームがゲノムのBurrows−Wheelerトランスフォームである、請求項86記載の方法。
- 前記トランスフォームに基づくデータを提供する工程をさらに包含し、ここに、前記規定する工程が、該データおよび前記指標文字を用いて、前記サーチ領域を規定する工程を包含する、請求項86記載の方法。
- 該トランスフォームに基づくデータを提供する工程;および
先行文字カウントを決定する工程であって、該先行文字カウントは、前記サーチ領域の開始前に該トランスフォームで起こる指標文字に先行する文字の回数の数である工程、をさらに包含し、
ここに、前記規定する工程が、該データ、該指標文字、および該先行文字カウントを用いて、該サーチ領域を規定する工程を包含する、請求項86記載の方法。 - 前記先行文字カウントが、K間隔を用いて得られ、該K間隔が前記トランスフォームに沿った所定の位置に貯蔵され、特定の所定の位置まで、およびそれを含めて、該トランスフォームに出現した各文字のランニング合計を維持する、請求項98記載の方法。
- 請求項86〜99記載の方法を実行するように設定されたユーザー機器を含む、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US47284503P | 2003-05-23 | 2003-05-23 | |
US47284303P | 2003-05-23 | 2003-05-23 | |
PCT/US2004/016060 WO2005035792A2 (en) | 2003-05-23 | 2004-05-21 | Counting exact word matches in genomes |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006525814A true JP2006525814A (ja) | 2006-11-16 |
JP2006525814A5 JP2006525814A5 (ja) | 2007-06-14 |
Family
ID=34437245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006514923A Pending JP2006525814A (ja) | 2003-05-23 | 2004-05-21 | ヌクレオチド配列の実質的表示 |
Country Status (13)
Country | Link |
---|---|
US (1) | US8694263B2 (ja) |
EP (1) | EP1631690A2 (ja) |
JP (1) | JP2006525814A (ja) |
KR (1) | KR20060103813A (ja) |
AU (1) | AU2004280531B2 (ja) |
BR (1) | BRPI0410636A (ja) |
CA (1) | CA2526810A1 (ja) |
GE (1) | GEP20125384B (ja) |
IL (1) | IL172093A0 (ja) |
NO (1) | NO20056160L (ja) |
NZ (1) | NZ544235A (ja) |
RU (1) | RU2390561C2 (ja) |
WO (1) | WO2005035792A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011521636A (ja) * | 2008-05-27 | 2011-07-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オリゴヌクレオチド・アレイの設計に関する方法 |
WO2012033961A2 (en) * | 2010-09-09 | 2012-03-15 | Abbott Laboratories | Systems and methods for displaying molecular probes and chromosomes |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001521754A (ja) | 1997-10-30 | 2001-11-13 | コールド スプリング ハーバー ラボラトリー | Dna識別のためのプローブアレイ及びプローブアレイの使用方法 |
US20090124514A1 (en) * | 2003-02-26 | 2009-05-14 | Perlegen Sciences, Inc. | Selection probe amplification |
US20060183132A1 (en) * | 2005-02-14 | 2006-08-17 | Perlegen Sciences, Inc. | Selection probe amplification |
JP2006525814A (ja) | 2003-05-23 | 2006-11-16 | コールド スプリング ハーバー ラボラトリー | ヌクレオチド配列の実質的表示 |
US7932027B2 (en) * | 2005-02-16 | 2011-04-26 | Epigenomics Ag | Method for determining the methylation pattern of a polynucleic acid |
WO2006088978A1 (en) * | 2005-02-16 | 2006-08-24 | Epigenomics, Inc. | Method for determining the methylation pattern of a polynucleic acid |
US8554488B2 (en) | 2005-12-14 | 2013-10-08 | Cold Spring Harbor Laboratory | Determining a probabilistic diagnosis of autism by analysis of genomic copy number variations |
WO2007070640A2 (en) * | 2005-12-14 | 2007-06-21 | Wigler Michael H | Use of roma for characterizing genomic rearrangements |
US10522240B2 (en) | 2006-05-03 | 2019-12-31 | Population Bio, Inc. | Evaluating genetic disorders |
US7702468B2 (en) * | 2006-05-03 | 2010-04-20 | Population Diagnostics, Inc. | Evaluating genetic disorders |
AU2010242073C1 (en) | 2009-04-30 | 2015-12-24 | Good Start Genetics, Inc. | Methods and compositions for evaluating genetic markers |
US9677139B2 (en) | 2009-12-11 | 2017-06-13 | Cold Spring Harbor Laboratory | Genetic markers indicative of a cancer patient response to trastuzumab (herceptin) |
CA2795815C (en) | 2010-04-23 | 2018-06-26 | Cold Spring Harbor Laboratory | Novel structurally designed shrnas |
US8423590B2 (en) * | 2010-05-30 | 2013-04-16 | International Business Machines Corporation | File generation for testing single-instance storage algorithm |
CN103392182B (zh) | 2010-08-02 | 2017-07-04 | 众有生物有限公司 | 用于发现遗传疾病中致病突变的系统和方法 |
HUE039766T2 (hu) | 2010-10-22 | 2019-02-28 | Cold Spring Harbor Laboratory | Nukleinsavak változatainak megszámlálása genom kópiaszám információ megszerzésére |
US20120102054A1 (en) * | 2010-10-25 | 2012-04-26 | Life Technologies Corporation | Systems and Methods for Annotating Biomolecule Data |
US9163281B2 (en) | 2010-12-23 | 2015-10-20 | Good Start Genetics, Inc. | Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction |
RU2486251C2 (ru) * | 2011-08-25 | 2013-06-27 | Учреждение Российской академии наук Институт биохимии им. А.Н. Баха РАН (ИНБИ РАН) | Способ идентификации и дифференциации прокариотических организмов |
US10221454B2 (en) | 2011-10-10 | 2019-03-05 | The Hospital For Sick Children | Methods and compositions for screening and treating developmental disorders |
EP2766838A2 (en) * | 2011-10-11 | 2014-08-20 | Life Technologies Corporation | Systems and methods for analysis and interpretation of nucleic acid sequence data |
CA2852665A1 (en) | 2011-10-17 | 2013-04-25 | Good Start Genetics, Inc. | Analysis methods |
US9773091B2 (en) | 2011-10-31 | 2017-09-26 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
EP2773779B1 (en) | 2011-11-04 | 2020-10-14 | Population Bio, Inc. | Methods and compositions for diagnosing, prognosing, and treating neurological conditions |
DK2812452T3 (da) | 2012-02-09 | 2020-06-29 | Population Bio Inc | Fremgangsmåder og sammensætninger til screening og behandling af udviklingsforstyrrelser |
US8209130B1 (en) | 2012-04-04 | 2012-06-26 | Good Start Genetics, Inc. | Sequence assembly |
US8812422B2 (en) | 2012-04-09 | 2014-08-19 | Good Start Genetics, Inc. | Variant database |
US10227635B2 (en) | 2012-04-16 | 2019-03-12 | Molecular Loop Biosolutions, Llc | Capture reactions |
DK2895621T3 (da) | 2012-09-14 | 2020-11-30 | Population Bio Inc | Fremgangsmåder og sammensætning til diagnosticering, prognose og behandling af neurologiske tilstande |
CA2922005A1 (en) | 2012-09-27 | 2014-04-03 | Population Diagnostics, Inc. | Methods and compositions for screening and treating developmental disorders |
WO2014152421A1 (en) | 2013-03-14 | 2014-09-25 | Good Start Genetics, Inc. | Methods for analyzing nucleic acids |
CA2942811A1 (en) | 2013-03-15 | 2014-09-25 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
US9418203B2 (en) | 2013-03-15 | 2016-08-16 | Cypher Genomics, Inc. | Systems and methods for genomic variant annotation |
US11342048B2 (en) | 2013-03-15 | 2022-05-24 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
US8847799B1 (en) | 2013-06-03 | 2014-09-30 | Good Start Genetics, Inc. | Methods and systems for storing sequence read data |
WO2015057565A1 (en) | 2013-10-18 | 2015-04-23 | Good Start Genetics, Inc. | Methods for assessing a genomic region of a subject |
US10851414B2 (en) | 2013-10-18 | 2020-12-01 | Good Start Genetics, Inc. | Methods for determining carrier status |
WO2015175530A1 (en) | 2014-05-12 | 2015-11-19 | Gore Athurva | Methods for detecting aneuploidy |
CA2996445A1 (en) | 2014-09-05 | 2016-03-10 | Eli Hatchwell | Methods and compositions for inhibiting and treating neurological conditions |
WO2016040446A1 (en) | 2014-09-10 | 2016-03-17 | Good Start Genetics, Inc. | Methods for selectively suppressing non-target sequences |
EP3224595A4 (en) | 2014-09-24 | 2018-06-13 | Good Start Genetics, Inc. | Process control for increased robustness of genetic assays |
EP3240909B1 (en) | 2014-10-17 | 2020-10-14 | Good Start Genetics, Inc. | Pre-implantation genetic screening and aneuploidy detection |
US10066259B2 (en) | 2015-01-06 | 2018-09-04 | Good Start Genetics, Inc. | Screening for structural variants |
US20160273049A1 (en) | 2015-03-16 | 2016-09-22 | Personal Genome Diagnostics, Inc. | Systems and methods for analyzing nucleic acid |
CN108474028A (zh) * | 2015-11-16 | 2018-08-31 | 雷瑞生物传感器有限责任公司 | 鉴别并区分遗传样品的系统及方法 |
CN106021986B (zh) * | 2016-05-24 | 2019-04-09 | 人和未来生物科技(长沙)有限公司 | 超低频突变分子一致性序列简并算法 |
US10240205B2 (en) | 2017-02-03 | 2019-03-26 | Population Bio, Inc. | Methods for assessing risk of developing a viral disease using a genetic test |
US11939638B2 (en) | 2017-05-09 | 2024-03-26 | Revere Biosensors, Llc | Systems and methods for identifying and distinguishing genetic samples |
US10892037B2 (en) * | 2017-05-16 | 2021-01-12 | Life Technologies Corporation | Methods for compression of molecular tagged nucleic acid sequence data |
CN109390039B (zh) * | 2017-08-11 | 2020-10-16 | 深圳华大基因股份有限公司 | 一种统计dna拷贝数信息的方法、装置及存储介质 |
EP4177356A1 (en) | 2018-08-08 | 2023-05-10 | PML Screening, LLC | Methods for assessing risk of developing a viral disease using a genetic test |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721098A (en) | 1986-01-16 | 1998-02-24 | The Regents Of The University Of California | Comparative genomic hybridization |
US5573933A (en) | 1987-04-14 | 1996-11-12 | Luminis Pty, Ltd. | Transgenic pigs |
GB8810400D0 (en) | 1988-05-03 | 1988-06-08 | Southern E | Analysing polynucleotide sequences |
US5800992A (en) * | 1989-06-07 | 1998-09-01 | Fodor; Stephen P.A. | Method of detecting nucleic acids |
US6040138A (en) | 1995-09-15 | 2000-03-21 | Affymetrix, Inc. | Expression monitoring by hybridization to high density oligonucleotide arrays |
US5143854A (en) | 1989-06-07 | 1992-09-01 | Affymax Technologies N.V. | Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof |
JP2802125B2 (ja) | 1989-06-23 | 1998-09-24 | キヤノン株式会社 | 核酸の検出方法 |
US6013431A (en) | 1990-02-16 | 2000-01-11 | Molecular Tool, Inc. | Method for determining specific nucleotide variations by primer extension in the presence of mixture of labeled nucleotides and terminators |
US5474796A (en) | 1991-09-04 | 1995-12-12 | Protogene Laboratories, Inc. | Method and apparatus for conducting an array of chemical reactions on a support surface |
IL103267A (en) | 1991-09-24 | 2004-07-25 | Keygene Nv | Process and kit for amplification of restriction fragment obtained from starting dna |
US5632957A (en) | 1993-11-01 | 1997-05-27 | Nanogen | Molecular biological diagnostic systems including electrodes |
ES2161715T3 (es) | 1992-03-04 | 2001-12-16 | Univ California | Hibridacion genomica comparativa (hgc). |
US6277606B1 (en) | 1993-11-09 | 2001-08-21 | Cold Spring Harbor Laboratory | Representational approach to DNA analysis |
US5436142A (en) | 1992-11-12 | 1995-07-25 | Cold Spring Harbor Laboratory | Methods for producing probes capable of distingushing variant genomic sequences |
US20040197774A1 (en) | 1992-11-12 | 2004-10-07 | Michael Wigler | Representational approach to DNA analysis |
US6153379A (en) | 1993-06-22 | 2000-11-28 | Baylor College Of Medicine | Parallel primer extension approach to nucleic acid sequence analysis |
US5710000A (en) | 1994-09-16 | 1998-01-20 | Affymetrix, Inc. | Capturing sequences adjacent to Type-IIs restriction sites for genomic library mapping |
US5830645A (en) | 1994-12-09 | 1998-11-03 | The Regents Of The University Of California | Comparative fluorescence hybridization to nucleic acid arrays |
US5569753A (en) | 1994-12-20 | 1996-10-29 | Cold Spring Harbor Laboratory | Cancer detection probes |
US6350576B1 (en) | 1994-12-20 | 2002-02-26 | Cold Spring Harbor Laboratory | Cancer detection probes |
EP0721987A1 (en) | 1995-01-16 | 1996-07-17 | Keygene N.V. | Amplification of simple sequence repeats |
US5871917A (en) | 1996-05-31 | 1999-02-16 | North Shore University Hospital Research Corp. | Identification of differentially methylated and mutated nucleic acids |
US6119120A (en) | 1996-06-28 | 2000-09-12 | Microsoft Corporation | Computer implemented methods for constructing a compressed data structure from a data string and for using the data structure to find data patterns in the data string |
US5858671A (en) | 1996-11-01 | 1999-01-12 | The University Of Iowa Research Foundation | Iterative and regenerative DNA sequencing method |
AUPO427996A0 (en) | 1996-12-20 | 1997-01-23 | Co-Operative Research Centre For Diagnostic Technologies | Method for detecting a nucleotide at a specific location within a polynucleotide sequence and apparatus therefor |
WO1998030721A1 (en) | 1997-01-10 | 1998-07-16 | Pioneer Hi-Bred International, Inc. | Hybridization-based genetic amplification and analysis |
AU729134B2 (en) | 1997-07-22 | 2001-01-25 | Qiagen Genomics, Inc. | Amplification and other enzymatic reactions performed on nucleic acid arrays |
JP2001521754A (ja) | 1997-10-30 | 2001-11-13 | コールド スプリング ハーバー ラボラトリー | Dna識別のためのプローブアレイ及びプローブアレイの使用方法 |
AU1603199A (en) * | 1997-12-03 | 1999-06-16 | Curagen Corporation | Methods and devices for measuring differential gene expression |
JP2002501760A (ja) | 1998-02-02 | 2002-01-22 | アマーシャム・ファルマシア・バイオテック・アクチボラグ | 核酸解析方法 |
US6287825B1 (en) | 1998-09-18 | 2001-09-11 | Molecular Staging Inc. | Methods for reducing the complexity of DNA sequences |
EP1124990B1 (en) | 1998-10-27 | 2006-01-18 | Affymetrix, Inc. | Complexity management and analysis of genomic dna |
US6313126B1 (en) | 1999-01-07 | 2001-11-06 | American Home Products Corp | Arylpiperazinyl-cyclohexyl indole derivatives for the treatment of depression |
US6465182B1 (en) * | 1999-04-29 | 2002-10-15 | The Regents Of The University Of California | Comparative fluorescence hybridization to oligonucleotide microarrays |
US20020048763A1 (en) * | 2000-02-04 | 2002-04-25 | Penn Sharron Gaynor | Human genome-derived single exon nucleic acid probes useful for gene expression analysis |
AU2001257448A1 (en) | 2000-05-01 | 2001-11-12 | Cold Spring Harbor Laboratory | Use of representations of dna for genetic analysis |
US7117095B2 (en) * | 2000-11-21 | 2006-10-03 | Affymetrix, Inc. | Methods for selecting nucleic acid probes |
JP2006525814A (ja) | 2003-05-23 | 2006-11-16 | コールド スプリング ハーバー ラボラトリー | ヌクレオチド配列の実質的表示 |
JP2005249455A (ja) * | 2004-03-02 | 2005-09-15 | Hitachi Ltd | 予測方法、そのプログラム及び予測システム |
US8554488B2 (en) | 2005-12-14 | 2013-10-08 | Cold Spring Harbor Laboratory | Determining a probabilistic diagnosis of autism by analysis of genomic copy number variations |
WO2007070640A2 (en) | 2005-12-14 | 2007-06-21 | Wigler Michael H | Use of roma for characterizing genomic rearrangements |
-
2004
- 2004-05-21 JP JP2006514923A patent/JP2006525814A/ja active Pending
- 2004-05-21 AU AU2004280531A patent/AU2004280531B2/en not_active Ceased
- 2004-05-21 RU RU2005140278/13A patent/RU2390561C2/ru not_active IP Right Cessation
- 2004-05-21 NZ NZ544235A patent/NZ544235A/en not_active IP Right Cessation
- 2004-05-21 CA CA002526810A patent/CA2526810A1/en not_active Abandoned
- 2004-05-21 KR KR1020057022426A patent/KR20060103813A/ko active IP Right Grant
- 2004-05-21 WO PCT/US2004/016060 patent/WO2005035792A2/en active Application Filing
- 2004-05-21 GE GEAP20049126A patent/GEP20125384B/en unknown
- 2004-05-21 BR BRPI0410636-9A patent/BRPI0410636A/pt not_active IP Right Cessation
- 2004-05-21 EP EP04809404A patent/EP1631690A2/en not_active Withdrawn
- 2004-05-21 US US10/851,779 patent/US8694263B2/en active Active
-
2005
- 2005-11-22 IL IL172093A patent/IL172093A0/en unknown
- 2005-12-23 NO NO20056160A patent/NO20056160L/no not_active Application Discontinuation
Non-Patent Citations (3)
Title |
---|
JPN6010027401, BIOINFOMATICS, 17[11](2001) p.1067−1076 * |
JPN6010027402, Genome Research, 11[8](2001) p.1418−1424 * |
JPN6010027403, Information Sciences, 135(2001) p.13−28 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011521636A (ja) * | 2008-05-27 | 2011-07-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オリゴヌクレオチド・アレイの設計に関する方法 |
WO2012033961A2 (en) * | 2010-09-09 | 2012-03-15 | Abbott Laboratories | Systems and methods for displaying molecular probes and chromosomes |
WO2012033961A3 (en) * | 2010-09-09 | 2012-05-31 | Abbott Laboratories | Systems and methods for displaying molecular probes and chromosomes |
Also Published As
Publication number | Publication date |
---|---|
CA2526810A1 (en) | 2005-04-21 |
GEP20125384B (en) | 2012-01-25 |
RU2005140278A (ru) | 2006-06-27 |
AU2004280531A1 (en) | 2005-04-21 |
IL172093A0 (en) | 2009-02-11 |
AU2004280531B2 (en) | 2010-03-25 |
WO2005035792A2 (en) | 2005-04-21 |
US20050032095A1 (en) | 2005-02-10 |
NO20056160L (no) | 2006-02-23 |
EP1631690A2 (en) | 2006-03-08 |
NZ544235A (en) | 2009-12-24 |
US8694263B2 (en) | 2014-04-08 |
BRPI0410636A (pt) | 2006-07-18 |
RU2390561C2 (ru) | 2010-05-27 |
WO2005035792A3 (en) | 2006-03-09 |
KR20060103813A (ko) | 2006-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006525814A (ja) | ヌクレオチド配列の実質的表示 | |
EP1124990B1 (en) | Complexity management and analysis of genomic dna | |
US20190153535A1 (en) | Varietal counting of nucleic acids for obtaining genomic copy number information | |
US8685642B2 (en) | Allele-specific copy number measurement using single nucleotide polymorphism and DNA arrays | |
AU753505B2 (en) | Probe arrays and methods of using probe arrays for distinguishing DNA | |
US20140243229A1 (en) | Methods and products related to genotyping and dna analysis | |
AU6344498A (en) | Contiguous genomic sequence scanning | |
JP2002525127A (ja) | 遺伝子型決定およびdna分析に関する、方法および生成物 | |
JP2004504059A (ja) | 転写された遺伝子を分析、及び同定するための方法、及びフインガープリント法 | |
US20020029113A1 (en) | Method and system for predicting splice variant from DNA chip expression data | |
WO1999058721A1 (en) | Multiplex dna amplification using chimeric primers | |
US10190155B2 (en) | Molecular tag attachment and transfer | |
MXPA05012638A (en) | Virtual representations of nucleotide sequences | |
WO2001083822A2 (en) | Use of representations of dna for genetic analysis | |
Edwards et al. | Mutation and polymorphism detection: a technical overview | |
Wigler et al. | High Resolution Analysis of Copy Number Mutation in Breast Cancer | |
CN1829805A (zh) | 核苷酸序列的虚拟代表 | |
Edwards et al. | Mutation and Polymorphism Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070411 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100817 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20100817 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111220 |