JP2022519786A

JP2022519786A - 生物学的配列情報の取り扱い

Info

Publication number: JP2022519786A
Application number: JP2021569592A
Authority: JP
Inventors: ヒフテ，ディルクヴァン; ヒフテ，アルノウトヴァン; ブランズ，イングリッド; ヒフテ，エワルドヴァン
Original assignee: バイオキービーブイ
Priority date: 2019-02-07
Filing date: 2020-02-07
Publication date: 2022-03-24
Anticipated expiration: 2040-02-07
Also published as: EP4250300A2; EP4250300A3; JP7352985B2; US20220199199A1; KR102614401B1; AU2020218104B2; EP3881326B1; CA3129108A1; EP3881326A1; ZA202106380B; AU2020218104A1; KR20210126031A; CA3129108C; IL285393A; CN113454727A; WO2020161344A1

Abstract

第１の態様では、本発明は、生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリに関し、各フィンガープリントデータストリングは、配列単位で構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースにおいて、それに利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される。【選択図】図３

Description

本発明は、生物学的配列情報の取り扱いに関し、例えば、当該生物学的配列情報の処理、記憶、および比較を含む。

生物学的配列決定は、過去数十年間に目のくらむような速さで進化しており、これまでにヒトゲノムプロジェクトが可能になり、すでに１５年以上も前に、ヒトゲノムの完全な配列決定が達成された。この進化を促進するために、試料調製および配列決定方法の進歩から、データの取得、処理、および分析に至るまで、十分な技術的進歩が必要とされてきた。同時に、ゲノミクス、プロテオミクス、バイオインフォマティクスなどの新しい科学分野が生まれ、発展してきた。

ポストゲノム時代にデータの取得が重視されてきたことで、この進化により、膨大な量の配列データの蓄積がもたらされた。しかしながら、この配列を整理し、分析し、解釈して、そこから生物学的に関連する情報を抽出する能力が、遅れをとっている。この問題は、依然として日常的に生成されている新しい配列情報の規模によって、さらに複雑になっている。Ｍｕｉｒらは、これがパラダイムシフトを引き起こしていることを観察し、結果として変化する配列決定のためのコスト構造および他の関連するハードルについてコメントしている（ＭＵＩＲ，Ｐａｕｌ，ｅｔａｌ．Ｔｈｅｒｅａｌｃｏｓｔｏｆｓｅｑｕｅｎｃｉｎｇ：ｓｃａｌｉｎｇｃｏｍｐｕｔａｔｉｏｎｔｏｋｅｅｐｐａｃｅｗｉｔｈｄａｔａｇｅｎｅｒａｔｉｏｎ．Ｇｅｎｏｍｅｂｉｏｌｏｇｙ，２０１６，１７．１：５３．）。

有意義な方法で配列情報をアクセスし、分析し、または利用するには、概して、配列整列（ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ）および類似性検索（ｓｉｍｉｌａｒｉｔｙｓｅａｒｃｈ）の形態の必要性が要求される。かかる整列および配列類似性検索を行うために、豊富な量のコンピュータソフトウェア（例えば、ＢＬＡＳＴ、ＰＳＩ－ＢＬＡＳＴ、ＳＳＥＡＲＣＨ、ＦＡＳＴＡ、ＨＭＭＥＲ３）が市販されている。それにもかかわらず、既知のアルゴリズムは、膨大な量の既存のデータを処理する速度または実用的能力を欠いている。ＵＳ２００６／０２０３９７Ａ１に開示されているようなハードウェア最適化も試みられているが、必要な突破口がもたらされていない。この取り組みの核心は、対処されている問題が、ＮＰ困難（ＮＰ－ｈａｒｄ）またはＮＰ完全（ＮＰ－ｃｏｍｐｌｅｔｅ）な性質（ＮＰ＝非決定性多項式時間）であることである。それゆえ、必要なリソースは、タスクの難易度が増すにつれて指数関数的に拡大する（例えば、配列の長さが増加する、または比較される配列の数が増加する）。

ゲノムグラフ（ｇｅｎｏｍｅｇｒａｐｈ）は、配列の処理、記憶、または比較における参照として使用され、かかる配列は、典型的には、より短いＤＮＡまたはＲＮＡの配列である単一リードから、典型的に再構築される。それによって、線形参照は、１つの単一ゲノムの表現である。完全に表現するためには、標本が有し得るすべてのバリエーションを見つけるために、複数のゲノムを組み合わせる必要がある。

パンゲノムグラフ（ｐａｎｇｅｎｏｍｅｇｒａｐｈ）を正確に構築するには、複数の問題が発生する。第一に、最良に構築された参照ゲノムでさえ、ギャップとエラーが含まれる。第２に、グラフマッピングのプロセスが実行された場合、後で生じる問題に対応するために、必要なすべての情報を包含するのに好適なグラフ表現を見つけることができない。ド・ブラウングラフ、有向グラフ、または双向グラフでも、鎖を正確に表すことができない。第３に、現在の技術を使用して参照コホートを作成することが可能であるように思われるが、構造座標が欠如しているため、実践では、構築されたコホートが本質的に使用不可能である。

さらに、グラフは、運用サイトの定義を欠いている。対数複雑性のため、繰り返し領域は、既知のｋ－ｍｅｒベースの技術を使用して表すことがさらに困難である。結論として、最先端技術を使用してすべての必要なデータを保持することが不可能であるために、１つの種についてのグラフ構造におけるバリエーションのコホートを構築することはほぼ不可能であり、ましてや、すべての生物種についてのグラフを構築することは不可能である。

構造的バリアントは、癌および他の疾患の発達において重要な役割を果たすが、読み取られたデータからの信頼性の高い同定が欠如しているため、単一ヌクレオチドバリエーションよりも十分に研究されていない。ｋ－ｍｅｒの技術を使用する場合、バリエーションの検出ウィンドウは、定義ごとに、ｋ－ｍｅｒの全長よりも小さくなる。ｋ－ｍｅｒウィンドウの問題を克服するためのアルゴリズムを使用すると、構造的分散を効果的に識別することができない。わずか１つの構造バリエーションの証拠を見つけるにも、高いカバレッジが必要である。したがって、ｋ－ｍｅｒの使用は、ノイズおよび読み取りエラーから実際の変動が効果的に識別され得る前に、大きなプールを必要とする。ｋ－ｍｅｒを整列する動的アルゴリズムが欠如しているため、ｋ－ｍｅｒの多くが困難な計算上の問題につながる。これは、検索空間を縮小するためのヒューリスティクスまたはパラメータ化の必要性を示している。それにもかかわらず、後者は必然的なエラーの蓄積をもたらし、これはｋ－ｍｅｒが統合された空間パターンには効果的でないことを示している。現時点では、これは厳密に一次元である構文的（ｓｙｎｔａｃｔｉｃ）な方法でのみ解決されている。

マッピングおよび構築プロセスのＮＰ困難な性質により、貪欲アルゴリズムは、典型的には、これらの問題を解決するために使用され、それによって、拡張マトリックスが特定の入力から適切な結果を計算するために使用される。

動的プログラミングが用いられているが、それに伴う問題は、ソースデータ（位置、リードＩＤなどのパラメータ）が失われ、バックトラッキングが不可能になっていることである。

上記の問題はすべて、効率的かつ正確なグラフの折り畳みをほぼ不可能にしている。これによって、使用可能なパンゲノムグラフを構築するために必要な精度または位置データを提供することが不可能になる。さらに、ｋ－ｍｅｒの使用は、遺伝子情報における多次元パラメータを区別するための特異性を欠く。これが、現在のゲノムグラフの非効率的な構築にさらに加わり、構造的分散、バイアスを呼び出すことができないこと、または高度な反復領域を効果的に包含することができないこと、によって示される。

したがって、当該技術分野では、特定の問題に対処するために、その中の関連情報を抽出および使用することを可能にする、配列情報を効率的に活用する方法が依然として必要とされている。

生物学的配列（ｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅ）情報を取り扱うための優れた方法を提供することが、本発明の目的である。この目的は、本発明による方法、デバイス、およびデータ構造によって達成される。

第１の態様では、本発明は、生物学的配列データベースのためのフィンガープリントデータストリング（ｆｉｎｇｅｒｐｒｉｎｔｄａｔａｓｔｒｉｎｇ）のリポジトリに関し、各フィンガープリントデータストリングは、配列単位で構成される特徴的な生物学的部分配列（ｃｈａｒａｃｔｅｒｉｓｔｉｃｂｉｏｌｏｇｉｃａｌｓｕｂｓｅｑｕｅｎｃｅ）を表し、各特徴的な生物学的部分配列は、生物学的配列データベースにおいて、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される。

本発明の実施形態の利点は、特徴的な生物学的部分配列に対応するフィンガープリントデータストリングのリポジトリを提供することができることである。本発明の実施形態のさらなる利点は、生物学的部分配列が単一の長さ（例えば、ｋ－ｍｅｒのような場合）である必要がないことである。

本発明の実施形態の利点は、さらなるデータ（例えば、メタデータ）、例えば、特徴的な生物学的部分配列に連続し得る（すなわち、直後または直前に続く）配列単位上のデータ、特徴的な生物学的部分配列の二次／三次／四次構造上のデータ（例えば、当該特徴的な生物学的部分配列が生物高分子内に存在する場合）、フィンガープリント間の関係に関するデータ（例えば、特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ）などをリポジトリに含めることができることである。

第２の態様では、本発明は、第１の態様の任意の実施形態で定義されるフィンガープリントデータストリングのリポジトリを、構築および／または更新するためのコンピュータ実装方法に関し、（ａ）生物学的配列データベース内の特徴的な生物学的部分配列を識別することであって、特徴的な生物学的部分配列は、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される、特徴的な生物学的部分配列を識別することと、（ｂ）任意選択的に、識別された特徴的な生物学的部分配列を、１つ以上のさらなる特徴的な生物学的部分配列に翻訳することと、（ｃ）当該リポジトリに、識別された特徴的な生物学的部分配列および／または１つ以上のさらなる特徴的な生物学的部分配列を表す１つ以上のフィンガープリントデータストリングを入力することと、を含む。

第３の態様では、本発明は、生物学的配列を処理するためのコンピュータ実装方法に関し、（ａ）第１の態様の任意の実施形態で定義される、フィンガープリントデータストリングのリポジトリから１つ以上のフィンガープリントデータストリングを取得することと、（ｂ）生物学的配列を、１つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列の出現について検索することと、（ｃ）ステップｂにおける各出現について、出現する特徴的な生物学的部分配列を表すフィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む処理された生物学的配列を構築することと、を含む。

本発明の実施形態の利点は、システムおよび方法が得られ、複雑性の低減が提供される。

本発明の実施形態の利点は、決定論的、すなわち、所与の解決策につながるシステムおよび方法が得られることである。

本発明の実施形態の利点は、生物学的配列が比較的容易にかつ効率的に処理することができることである。本発明の実施形態のさらなる利点は、生物学的配列を語彙的または意味的な様式で分析することができることである。

本発明の実施形態の利点は、処理された生物学的配列が、その中で識別された特徴的な生物学的部分配列を、対応するフィンガープリントデータストリングと関連付けられたマーカーによって置き換えることによって構築され得ることである。

本発明の実施形態の利点は、特徴的な生物学的部分配列の１つに対応しない生物学的配列の部分を様々な方法で取り扱うことができることである。一部の実施形態のさらなる利点は、生物学的配列が完全に可逆的な方法で処理され得ることである（すなわち、処理によって情報が失われることはない）。本発明の代替的な実施形態のさらなる利点は、生物学的配列が、より重要な情報がより圧縮された形式で蒸留されるように処理され得ることである。

本発明の実施形態の利点は、処理された生物学的配列が、それらの未処理の対応物よりも少ない記憶空間を占めるように圧縮され得ることである。

本発明の実施形態の利点は、生物学的配列の一部分を、特徴的な生物学的部分配列にマッチングすることは、単に一次構造に限定されず、二次／三次／四次構造も考慮され得ることである。

本発明の実施形態の利点は、生物学的部分配列の二次／三次／四次構造が、それに含まれる特徴的な生物学的部分配列の既知の二次／三次／四次構造に基づいて、少なくとも部分的に解明され得ることである。本発明の実施形態のさらなる利点は、生物学的配列の設計（例えば、タンパク質の設計）が、支援または促進され得ることである。

本発明の実施形態の利点は、可逆圧縮が得られることである。より具体的には、情報の損失なしに、ＨＹＦＴ（商標）の使用により、必要な計算能力がはるかに制限され、実行可能な解決策がもたらされる。

本発明の実施形態の利点は、本質的に方向性を含むＨＹＦＴ（商標）を使用することによって、グラフマッピングの処理が必要とされる場合に生じる問題に対処するための、すべての必要な情報を包含する好適なグラフ表現が提供されることである。

本発明の実施形態の利点は、システムおよび方法が、大きな柔軟性および／または拡張性を可能にすることである。

本発明の実施形態の利点は、分析がもはやＮＰ困難な問題ではなく、したがって、同様の結果を提供する既存の方法およびシステムと比較して、はるかに少ない計算要件を有することである。後者は、拡張マトリックスに基づくステップまたはパラメータ化のステップの必要性がないため、得ることができる。

第４の態様では、本発明は、第３の態様の任意の実施形態による、コンピュータ実装方法によって得ることが可能な、処理された生物学的配列に関する。

第５の態様では、本発明は、処理された生物学的配列のリポジトリを構築および／または更新するためのコンピュータ実装方法に関し、第４の態様の任意の実施形態で定義される処理された生物学的配列を、当該リポジトリに入力することを含む。

本発明の実施形態の利点は、処理された生物学的配列のリポジトリを構築し、記憶することができることである。

本発明の実施形態の利点は、リポジトリが、完全なリポジトリを再計算させることなく更新可能であることである。

第６の態様では、本発明は、第５の態様の任意の実施形態によるコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリに関する。

本発明の実施形態の利点は、処理された生物学的配列のリポジトリが、迅速に検索され、ナビゲートされ得ることである。本発明の実施形態のさらなる利点は、リポジトリの記憶サイズが、それに圧縮処理された生物学的配列を入力することによって、既知のデータベースと比較して、比較的小さくなり得ることである。

本発明の実施形態の利点は、リポジトリが、必要に応じて、記憶、維持、更新され得ることである（すなわち、使用のたびに再計算する必要がないことである）。

第７の態様では、本発明は、第１の生物学的配列を第２の生物学的配列と比較するためのコンピュータ実装方法に関し、（ａ）第３の態様の任意の実施形態によるコンピュータ実装方法によって第１の生物学的配列を処理して、第１の処理された生物学的配列を得るか、または第６の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第１の処理された生物学的配列を取得することと、（ｂ）第３の態様の任意の実施形態によるコンピュータ実装方法によって第２の生物学的配列を処理して、第２の処理された生物学的配列を得るか、または第６の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第２の処理された生物学的配列を取得することと、（ｃ）第１の処理された生物学的配列の少なくともフィンガープリントマーカーを、第２の処理された生物学的配列のフィンガープリントマーカーと比較することと、を含む。

本発明の実施形態の利点は、生物学的配列の比較が、ＮＰ完全またはＮＰ困難な問題から多項式時間問題に変更され得ることである。発明の実施形態のさらなる利点は、比較が、大幅に短縮された時間で実施することができ、複雑性が増すと共に（例えば、生物学的配列の長さまたは数の増加）、良好に拡大することである。本発明の実施形態のさらなる利点は、必要な計算能力および記憶空間を削減することができることである。

本発明の実施形態の利点は、生物学的配列間の類似性の程度を計算することができることである。本発明の実施形態のさらなる利点は、複数の生物学的配列がそれらの類似性の程度に基づいてランク付され得ることである。

本発明の実施形態の利点は、配列類似性検索が迅速かつ容易に（例えば、多項式時間において）実行され得ることである。本発明の実施形態のさらなる利点は、比較された生物学的配列が、容易かつ迅速に（例えば、多項式時間で）整列され得ることである。本発明の実施形態のさらなる利点は、（例えば、バイオポリマー断片の）バイオポリマー配列が、整列後に、容易かつ迅速に融合され得ること（例えば、配列アセンブリなどにおいて、元のバイオポリマー配列を再構築すること）である。

本発明の実施形態の利点は、複数の配列が、容易かつ迅速に比較、整列および／または融合され得ることである。本発明の実施形態のさらなる利点は、現在知られている方法（例えば、累進整列（ｐｒｏｇｒｅｓｓｉｖｅａｌｉｇｎｍｅｎｔ）に基づく）の場合のように、整列するときにエラーの蓄積がないことである。

第８の態様では、本発明は、記憶デバイスに関し、第１の態様の任意の実施形態によるフィンガープリントデータストリングのリポジトリ、および／または第６の態様の任意の実施形態による処理された生物学的配列のリポジトリを含む。

第９の態様では、本発明は、データ処理システムに関し、第２、第３、第５、または第７の態様の任意の実施形態によるコンピュータ実装方法を実行するように適合されている。

本発明の実施形態の利点は、用途に応じて、コンピュータベースのシステムまたはシーケンサなどの様々なシステムおよびデバイスによって方法が実装され得ることである。本発明の実施形態のさらなる利点は、本方法が、クラウドベースのシステムを含むコンピュータベースのシステムによって実装され得ることである。

第１０の態様では、本発明は、コンピュータプログラムに関し、プログラムがコンピュータによって実行された場合、コンピュータに、第２、第３、第５、または第７の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含む。

第１１の態様では、本発明は、コンピュータ可読媒体に関し、コンピュータによって実行された場合、コンピュータに、第２、第３、第５、または第７の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含む。

第１２の態様では、本発明は、生物学的配列の処理、処理された生物学的配列のリポジトリの構築、第１の生物学的配列と第２の生物学的配列との比較、第１の生物学的配列と第２の生物学的配列との整列、複数の配列整列の実施、配列類似性検索の実施、およびバリアントコーリング（ｖａｒｉａｎｔｃａｌｌｉｎｇ）の実施から選択される１つ以上のための、第１の態様の任意の実施形態で定義されるフィンガープリントデータストリングのリポジトリの使用に関する。

第１３の態様では、本発明は、第１の生物学的配列を第２の生物学的配列と比較すること、第１の生物学的配列を第２の生物学的配列と整列させること、多重配列整列を行うこと、配列類似性検索を実行すること、およびバリアントコーリングを実行することから選択される１つ以上のための、第４の態様の任意の実施形態で定義される処理された生物学的配列の使用、または第６の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリの使用に関する。

本発明の特定の好ましい態様は、添付の独立したおよび従属する特許請求の範囲に記載される。従属する特許請求の範囲からの特徴は、独立した特許請求の範囲の特徴と組み合わされてもよく、他の従属する特許請求の範囲の特徴と組み合わされてもよく、単に特許請求の範囲に明示的に記載されているようなものではない。

この分野では、デバイスの改善、変更、および進化が絶えず行われてきたが、本概念は、従来の慣行からの逸脱を含めて、実質的に新しい、新規の改善を表すと考えられ、この性質のより効率的で、安定した、信頼性の高いデバイスの提供をもたらす。

本発明の原理を例示する付属の図面と併せて、以下の詳細な説明から、本発明の上記および他の特性、特徴および利点が明らかになるであろう。この説明は、本発明の範囲を限定することなく、例示のためにのみ与えられる。以下に引用される参考図は、添付の図面を参照する。

本発明の実施形態によって可能になる、期待される進歩を示すグラフである。本発明の実施形態によって可能になる、期待される進歩を示すグラフである。本発明の実施形態による、システムを示す図である。本発明の実施形態による、システムを示す図である。本発明の実施形態による、システムを示す図である。本発明の実施形態による、処理されたタンパク質データバンク（ＰＤＢ）の分析に関する様々な指標を示すチャートである。本発明の実施形態による、処理されたタンパク質データバンク（ＰＤＢ）の分析に関する様々な指標を示すチャートである。本発明の実施形態による、処理されたタンパク質データバンク（ＰＤＢ）の分析に関する様々な指標を示すチャートである。本発明の実施形態による、処理されたタンパク質データバンク（ＰＤＢ）の分析に関する様々な指標を示すチャートである。本発明の実施形態による、処理されたタンパク質データバンク（ＰＤＢ）の分析に関する様々な指標を示すチャートである。２つの異なるマッチング戦略を使用してＰＤＢデータベースで見出されたＨＹＦＴ（商標）マッチングの数を互いにプロットするチャートである。一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の全長を比較するグラフである。一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の最長の共通サブストリングを比較するグラフである。一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の全長を比較するグラフである。一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の最長の共通サブストリングを比較するグラフである。

異なる図では、同じ参照符号は、同じまたは類似の要素を指す。

本発明は、特定の実施形態に関して、および特定の図面に関して説明されるが、本発明はそれに限定されず、特許請求の範囲のみによって説明される。記載される図面は、概略のみであり、非限定的である。図面では、要素の一部のサイズは誇張的であり得、例示の目的で、スケール通りに描かれていない。寸法および相対寸法は、本発明の実施に対する実際の縮小に対応していない。

さらに、説明および特許請求の範囲における第１、第２、第３などの用語は、類似の要素間を区別するために使用され、時間的、空間的、ランク付け、または任意の他の方法で配列を記述するために必ずしも使用されない。このように使用される用語は、適切な状況下で交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の配列で動作可能であることを理解されたい。

さらに、説明および特許請求の範囲における「前」、「後」などの用語は、説明のために使用され、必ずしも相対的な位置を説明するために使用されない。このように使用される用語は、適切な状況下でそれらの対義語と交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の方向で動作可能であることを理解されたい。

特許請求の範囲で使用される「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、その後に列挙される手段に限定されるものと解釈されるべきではなく、他の要素またはステップを除外しないことに留意されたい。したがって、記載された特徴、整数、ステップまたは構成要素の存在を特定するものと解釈されるべきであるが、１つ以上の他の特徴、整数、ステップまたは構成要素、またはそれらのグループの存在または追加を排除しない。したがって、用語「含む」は、記載された特徴のみが存在する状況と、これらの特徴および１つ以上の他の特徴が存在する状況とを包含する。したがって、「手段ＡおよびＢを含むデバイス」という表現の範囲は、構成要素ＡおよびＢのみからなるデバイスに限定されるものと解釈されるべきではない。これは、本発明に関して、デバイスの関連する構成要素がＡおよびＢのみであることを意味する。

本明細書全体を通して、「一実施形態」または「ある実施形態」への言及は、その実施形態に関連して記載される特定の特徴、構造、または特性が、本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通した様々な箇所での「一実施形態では」または「ある実施形態では」という語句の出現は、必ずしもすべて同じ実施形態を指しているわけではないが、そのような場合もある。さらに、特定の特徴、構造、または特性は、１つ以上の実施形態では、本開示から当業者には明らかなように、任意の好適な様式で組み合わされてもよい。

同様に、本発明の例示的な実施形態の説明では、本発明の様々な特徴が、時には、本開示を合理化し、様々な本発明の態様のうちの１つ以上の理解を助ける目的で、単一の実施形態、図面、またはその説明に一緒にまとめられることがあることを理解されたい。しかしながら、この開示の方法は、特許請求される発明が、各特許請求の範囲で明示的に列挙されたものよりも多くの特徴を必要とするという意図を反映しているものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、前述の単一の開示された実施形態のすべての特徴よりも少ない特徴にある。したがって、詳細な説明に続く特許請求の範囲は、ここに、この詳細な説明に明示的に組み込まれ、各特許請求の範囲は、本発明の別個の実施形態として、それ自体で成り立っている。

さらに、本明細書に記載される一部の実施形態は、他の実施形態に含まれるいくつかの（しかし、その他ではない）特徴を含むが、当業者に理解されるように、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態を形成することを意味する。例えば、以下の特許請求の範囲では、特許請求される実施形態のいずれかは、任意の組み合わせで使用され得る。

さらに、実施形態のいくつかは、方法として、または方法の要素の組み合わせとして、本明細書に記載され、コンピュータシステムのプロセッサによって、またはその機能を実行する他の手段によって、実装され得る。したがって、かかる方法または方法の要素を実行するために必要な命令を有するプロセッサは、方法または方法の要素を実行する手段を形成する。さらに、装置の実施形態の本明細書に記載される要素は、本発明を実施する目的のための要素によって行われる、機能を実行するための手段の一例である。

本明細書に提供される説明では、多数の特定の詳細が記載される。しかしながら、本発明の実施形態は、これらの特定の詳細なしに実施され得ることを理解されたい。他の場合、周知の方法、構造、および技術は、この説明の理解を曖昧にしないために詳細に示されていない。

以下の用語は、本発明の理解を助けるためにのみ提供される。

本明細書で使用される場合、生物学的配列は、少なくともバイオポリマーの一次構造を定義するバイオポリマーの配列である。バイオポリマーは、例えば、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、またはタンパク質であり得る。バイオポリマーは典型的には、バイオモノマー（例えば、ヌクレオチドまたはアミノ酸）のポリマーであるが、場合によっては、１つ以上の合成モノマーをさらに含み得る。

本明細書で使用される場合、生物学的配列における「配列単位」は、生物学的配列がタンパク質に関連する場合はアミノ酸であり、生物学的配列がＤＮＡまたはＲＮＡに関連する場合はコドンである。

本明細書で使用される場合、生物学的部分配列（ｓｕｂｓｅｑｕｅｎｃｅ）は、生物学的配列の一部であり、完全長の生物学的配列よりも小さい。生物学的部分配列は、例えば、１００配列単位以下、好ましくは５０以下、さらにより好ましくは２０以下の全長を有してもよい。

本明細書で使用される場合、「特徴的な生物学的部分配列」（または「（ＨＹＦＴ（商標））フィンガープリント」）、「（ＨＹＦＴ（商標））フィンガープリントデータストリング」および「（ＨＹＦＴ（商標））フィンガープリントマーカー」の区別がなされる。１つ目は、特定の特徴を有する部分配列であり、以下でより詳細に説明されている。２つ目は、そのようなＨＹＦＴ（商標）フィンガープリントのデータ表現であり、任意選択的に、追加のデータ（以下を参照）と組み合わされ、これは、例えば、対応するリポジトリに記憶され得る。一部の実施形態では、１つのＨＹＦＴ（商標）フィンガープリントデータストリングは、複数の同等のＨＹＦＴ（商標）フィンガープリントを同時に表すことができる（例えば、同じアミノ酸をコードする複数のコドンの場合など、同じ結果のコード化を通して同等であり得るか、または翻訳を通して同等であり得る、以下を参照）。３つ目は、ＨＹＦＴ（商標）フィンガープリントが配置され得るメモリアドレスなどのＨＹＦＴ（商標）フィンガープリントへのポインタであり、そこに、ＨＹＦＴ（商標）フィンガープリントが位置され得るか、またはフィンガープリントデータストリングのリポジトリにおいてＨＹＦＴ（商標）フィンガープリントを見つけることを可能にする参照であり得る。それにもかかわらず、それらの密接な関係を考慮すると（これらの３つの用語間の厳密な区別が引き出される必要がない場合、または文脈上で意味が明確である場合）、これらは、本明細書では単に「ＨＹＦＴ（商標）」と称され得る。

本明細書で使用される場合、「生物学的配列」と「加工された生物学的配列」と間の区別が行われる。前者は、当該技術分野で広く知られている生物学的配列であり、一方、後者は、本発明のＨＹＦＴ（商標）フィンガープリントと関連付けられたフィンガープリントマーカーを含む再構築された／書き換えられた生物学的配列である。

ＨＹＦＴ（商標）フィンガープリントデータストリングも、処理された生物学的配列も、これらを記憶するリポジトリも、認知データとみなすことはできず、それらが（ヒト）ユーザーを対象としていないことは明らかであろう。代わりに、それらは、コンピュータ（または、同様の技術システム）によって、様々なコンピュータ実装方法における機能データとして使用されることが意図され、その効果を発揮するように構成される。例えば、リポジトリは、関係データベース（例えば、ＳＱＬに基づく）またはＮｏＳＱＬデータベース（例えば、ＸＭＬデータベースなどのドキュメント指向データベース）としての構造であり得る。同様に、ＨＹＦＴ（商標）フィンガープリントデータストリングおよび／または処理された生物学的配列は、かかるデータベースに好適なエントリとして構成され得る。

本明細書で使用される場合、一部の概念は、タンパク質に関する実施例で例示され、考えられるモノマー配列単位は、２０個の正規（または「標準」）アミノ酸であると仮定される。しかしながら、これは単に例示を簡略化するためのものに過ぎず、同様に、類似の実施形態は、拡張された数のアミノ酸（例えば、非正規アミノ酸、またはさらには合成化合物を付加する）と共に、またはＤＮＡもしくはＲＮＡに関連して定式化することができることは明らかである。ＤＮＡまたはＲＮＡの場合、ＤＮＡまたはＲＮＡとタンパク質との間の関連は、コドンとアミノ酸との間の対応を通して容易に作成することができる。

本明細書で使用される場合、「二次／三次／四次」は、「二次、および／または三次、および／または四次」を指す。

以前、生物学的配列の一次構造は、本質的に独立した配列単位の選択からなり、その結果、例えば、ｍ個の可能な配列単位に基づく長さがｎの生物学的配列ではｍ^ｎ個（例えば、２０個の正規アミノ酸に基づくと、２０^ｎ個）が、原理的に存在すると想定されていたが、驚くべきことに、本発明の中で、これが事実上観察されないことに気付いた。確かに、特定の長さ以降から、あらゆる理論的な組み合わせが見られるわけではないことが発見された。一例のみを挙げると、タンパク質の部分配列「ＭＣＭＨＮＱＡ」は、公開データベースのいずれのタンパク質にも見られない。これは、データベース内の単なる欠落ではなく、この不在が物理的および／または化学的起源を有することが考えられてきた。理論に拘束されるものではないが、１つの可能な効果を挙げると、隣接アミノ酸（例えば、上記の例における「ＭＣＭＨＮＱ」）の立体障害は、１つ以上の他のアミノ酸（例えば、上記の例における「Ａ」）との結合を禁止し得る。したがって、不在の部分配列が特定されると、計算研究を使用して、この部分配列が潜在的に出現し得るかどうか、またはその存在が物理的にありえないのかどうか（もしくは、ありそうにないのかどうか、例えば、化学的に不安定であるため）を検証することができる。上で言及された「特定の長さ」は、検討されているデータセットに依存するが、例えば、公的に利用可能なタンパク質配列データベースの場合、約５個または６個のアミノ酸に対応する（これは、自然界で見られる全多様性を実質的に反映する）。より限定されたセット（例えば、特定の基準に基づいてフィルタリングされたセット、または特定の生物学的配列データベース、例えば、特定のドメインのために定式化されたセット）の場合、ｍ^ｎ組み合わせの理論上の最大値未満が、約４または５の長さについて既に見出されている。

同時に、部分配列「ＭＣＭＨＮＱＡ」は存在しないため、部分配列「ＭＣＭＨＮＱ」は単に５個のアミノ酸のランダムな組み合わせではなく、さらなる重要性を獲得し、かかる部分配列は、さらに「特徴的な生物学的部分配列」または「（ＨＹＦＴ（商標））フィンガープリント」と呼ばれることになる。これらのＨＹＦＴ（商標）フィンガープリントの追加の意義または意味のため、本発明は、より意味的な様式で生物学的配列情報を取り扱うことが考慮され得る。一般に、特性は、配列単位の最大数（すなわち、利用可能な異なる配列単位の総数、例えば、２０個の正規アミノ酸未満）よりも、配列単位に対してそれに直接続く（または先行する）可能性が少ない選択肢（すなわち、より少ない組み合わせ数）を有することを特徴とし、言い換えれば、配列単位のうちの少なくとも１つは、それに続く（または先行する）ことができない。しかしながら、より厳密な定義を選択することが可能である（例えば、おそらくそれに続き得る１５以下の配列単位、または１０以下、５以下、３、２、さらには１配列単位を有する部分配列のみ）。さらに、ＨＹＦＴ（商標）フィンガープリントとして、かかる各部分配列を考慮するように選択され得るか、または（すなわち、非冗長でない）別のＨＹＦＴ（商標）フィンガープリントをまだ含んでいないＨＹＦＴ（商標）フィンガープリントとして、それらの部分配列のみを考慮するように選択され得る。例えば、「ＭＣＭＨＮＱ」をＨＹＦＴ（商標）フィンガープリントとすると、「ＭＣＭＨＮＱ」を含む部分配列が長くなり、それに続く（または先行する）ことができる理論的な配列単位の数よりも少なくなる。その場合、長い配列と「ＭＣＭＨＮＱ」の両方をＨＹＦＴ（商標）フィンガープリントと見なすか、「ＭＣＭＨＮＱ」のみをＨＹＦＴ（商標）フィンガープリントと見なすかの選択肢がある。後者のアプローチは、典型的には、ＨＹＦＴ（商標）データストリングのリポジトリのサイズを保ちながら、それに関連する方法を高速化するのに好ましい場合がある。実際、ストリングと一致する生物学的配列を検索することは、典型的には、ストリングの長さが増すにつれて、よりリソースが集中し、より遅くなる。さらに、ＨＹＦＴ（商標）データストリングのリポジトリのサイズが増加するにつれて、特定のＨＹＦＴ（商標）データストリングの検索および取得は、通常、より長い時間がかかる。この非冗長アプローチでは、組み合わせの可能性が限定されたより長い部分配列は、依然として識別され得るが、次いでＨＹＦＴ（商標）のパターンとして（間隔の有無にかかわらず）識別することができる。そのため、このアプローチによって提供される利点は、必ずしも対応する情報の損失を伴わない。上記にもかかわらず、前者のアプローチはなおも可能であり、そうすれば、従来技術よりも有利であり続けることに留意されたい。

次いで、驚くべきことに、限られたセットの特徴的な生物学的部分配列が同定され得ることを見出した。さらに、これらの特徴的な生物学的部分配列は、一方では、十分に特異的であるため、あらゆる特的な生物学的部分配列が、あらゆる生物学的配列に見出されることはなく、他方では、十分に共通しているため、既知の生物学的配列が、典型的に、これらのＨＹＦＴ（商標）フィンガープリントのうちの少なくとも１つを含むという、これらの間のバランスをとることが観察された。

上記のアカウントのうち、ＨＹＦＴ（商標）フィンガープリントを識別し、対応するＨＹＦＴ（商標）データストリングのリポジトリ（または「ＨＹＦＴ（商標）リポジトリ」）を構築するためのプロトコルを定式化することができる。実際、目的は、生物学的配列データベース内の組み合わせの可能性が限定されているそれらの部分配列を識別することであるため、その中に現れない部分配列について、当該生物学的配列データベースを発掘することで十分である。そのような非発生部分配列（例えば、「ＭＣＭＨＮＱＡ」）が識別されると、配列単位が１つ短い部分配列（例えば、「ＭＣＭＨＮＱ」）は、ＨＹＦＴ（商標）フィンガープリントに対応する（ただし、より短い部分配列が現れるものとする）。識別されると、ＨＹＦＴ（商標）フィンガープリント上の追加データを得ることができる。例えば、組み合わせ数は、識別されたＨＹＦＴ（商標）フィンガープリントと他の配列単位との組み合わせ（例えば、「ＭＣＭＨＮＱＡ」の「Ａ」を毎回他の可能なアミノ酸のうちの１つと置き換える）について、生物学的配列データベースを検索し、出現することが見出される組み合わせの数をカウントすることによって得ることができる。任意選択的に、見つからない組み合わせも、別個に記憶してもよく、これらを、例えば、エラー検出用に使用してもよい。さらに、ＤＮＡ、ＲＮＡ、およびタンパク質間の対応は、典型的には、適用可能なコドン表を通して知られているので、特定のタイプのＨＹＦＴ（商標）フィンガープリントが識別されると（例えば、タンパク質ＨＹＦＴ（商標））、それは、異なるタイプの対応するＨＹＦＴ（商標）フィンガープリント（例えば、ＤＮＡおよび／またはＲＮＡＨＹＦＴ（商標））に翻訳され得る。上記のプロセスを繰り返し、少なくとも識別されたＨＹＦＴ（商標）を好適なフォーマットで記憶することによって、任意選択的に追加データおよび翻訳されたＨＹＦＴ（商標）－ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリと共に、最適に構築することができる。あるいは、またはそれと相補的に、少なくともいくつかのＨＹＦＴ（商標）フィンガープリントは、例えば、様々な部分配列を合成もしくはモデリングした後、検討中の生物学的配列データベースの文脈に出現し得ないか、または出現する可能性が非常に低い部分配列を識別することを通して、実験的もしくは計算的な方法によって見出され得る。

上記において、生物学的配列データベースは、タンパク質データバンク（ＰＤＢ）などの公的に利用可能なデータベース、または独自のデータベースであってもよい。実施形態では、生物学的配列データベースは、複数の個々のデータベースの組み合わせであってもよい。例えば、ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、アクセスできる限り多くの（信頼できる）生物学的配列データベースを組み合わせた生物学的配列データベースから定式化することができ、それによって、自然界で見出されるすべての生物学的配列を実質的に表すＨＹＦＴ（商標）フィンガープリントデータストリングの一般的なリポジトリになることが求められる。逆に、特定のドメインでは、その特定のドメインを表す生物学的配列データベースに基づいて、ＨＹＦＴ（商標）フィンガープリントデータストリングの特定のリポジトリを構築することが実りあるものとわかる。かかる特定のリポジトリは、実施形態では、ＨＹＦＴ（商標）を含んでもよく、それらが自然界に現れるものの、この特定のドメインには現れないため、一般的なリポジトリには存在しない。同様に、ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、合成配列について構築され得、それ自体の特定の内容を有する。

上記の発見に基づいて、異なるが相互に関連するそのすべての段階において、生物学的配列情報を取り扱うための新しいアプローチが、定式化され得る。これらのアプローチは、配列のより語彙的な分析に類似していると見なすことができる。図１に、結果が概略的に示され、配列単位数（ｎ）の増加に伴う、生物学的配列情報の複雑性のスケーリングを示す。この複雑さは、配列単位の可能な組み合わせの総数であり得るが、それは、次いで、それを取り扱うために（例えば、類似性検索を実行するために）必要な計算量（例えば、時間およびメモリ）にも関連する。実線の曲線は、すべての配列単位が独立して選択されると仮定した、理論的な組み合わせの数、ｍ^ｎとしてのスケーリングを示し、現在知られているアルゴリズムのスケーリングにも対応する。破線の曲線は、自然界で見出される（本発明内で観察される）実際の組み合わせの数を示し、曲線は、約５または６配列単位でｍ^ｎから出発し、大きなｎに対して漸近的に平坦になる。点線は、それに続き得る配列単位の数が１に等しい特徴的な配列に初めて対応する配列の数を示し、ここで、「初めて」とは、より長い配列が、すでにカウントされたＨＹＦＴ（商標）フィンガープリントを含む場合に、カウントされないことを意味する。したがって、後者は、（本発明において観察されるような）長さｎのＨＹＦＴ（商標）フィンガープリントの数に対応し、その定義は、それに潜在的に続き得る、別の（より短い）ＨＹＦＴ（商標）フィンガープリントを既に含まない（上記を参照）１つの配列単位のみを有する部分配列として選択される。

図２は、本発明の予測される利点を時間で示し、横軸上のマークは、現在を示す。曲線１は、ムーアの法則を参照する。曲線２は、取得した配列決定データの総量を示す。曲線３は、当該配列決定データの処理および維持の総コストを示す。本発明において提案される生物学的配列情報の取り扱いによって、データを配列決定するために必要な総記憶容量およびデータ処理および維持の総コストは、それぞれ曲線４および曲線５で示されるように低下することが予想される。

ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、典型的には、特定の生物学的配列データベース（または、それらの組み合わせ）に関して構築されるが、これは、ＨＹＦＴ（商標）フィンガープリントデータストリングが、その特定の生物学的配列データベースにおける生物学的配列の取り扱いにのみ好適であることを意味しないことに留意されたい。実際、ＨＹＦＴ（商標）フィンガープリントデータストリングの一般的なリポジトリは、例えば、より特異的な生物学的配列の処理に使用され得る。他の場合、ＨＹＦＴ（商標）フィンガープリントデータストリングの特定のリポジトリは、リポジトリを定式化するために使用されるデータベースの範囲外にある生物学的配列の文脈で使用され得る。どちらの場合も、依然として有利な結果を得ることができる。いずれの場合も、ＨＹＦＴ（商標）フィンガープリントデータストリングの既存のリポジトリを特定の用途に使用することができるかどうか、または、それに専用のＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリを用いて、より良い結果が得られるかどうかを、試行錯誤によって常に判断することができる。同様に、ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、生物学的配列データベースにおいて発見され得るすべてのＨＹＦＴ（商標）フィンガープリントを厳密に包含する必要はない。実際、部分リポジトリは、既に有益な結果を生み出している。そのような部分リポジトリは、例えば、選択された長さのＨＹＦＴ（商標）フィンガープリントに関連するものであり得る（すなわち、任意の長さのＨＹＦＴ（商標）フィンガープリントとは対照的である）。

第１の態様では、本発明は、生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリに関し、各フィンガープリントデータストリングは、配列単位で構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースにおいて、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される。図３に、フィンガープリントデータストリング１００のリポジトリ（例えば、データベース）が概略的に示されており、以下により詳細に説明される。

実施形態では、リポジトリは、第１の長さの第１の特徴的な生物学的部分配列を表す第１のフィンガープリントデータストリングと、第２の長さの第２の特徴的な生物学的部分配列を表す第２のフィンガープリントデータストリングとを、少なくとも含み得、第１の長さおよび第２の長さは４以上に等しく、第１の長さおよび第２の長さは互いに異なる。

実施形態では、長さは、配列単位の数に対応し得る。実施形態では、長さは、最大５００以下、例えば、最大１００以下、好ましくは５０以下、さらにより好ましくは２０以下であり得る。実施形態では、第１および第２の長さは、５以上、好ましくは６以上であり得る。実施形態では、特徴的な生物学的部分配列は、４～２０、好ましくは５～１５、さらにより好ましくは６～１２の長さを有し得る。

実施形態では、フィンガープリントデータストリングのリポジトリは、互いに長さが異なる少なくとも３つのフィンガープリントデータストリング、好ましくは少なくとも４つ、さらにより好ましくは少なくとも５つ、最も好ましくは少なくとも６つのフィンガープリントデータストリングを含み得る。特徴的な生物学的部分配列は、それらの長さによって定義されるのではなく、それに続く（または先行する）可能な配列単位の数によって定義されるため、特徴的な生物学的部分配列のセットは、典型的には、様々な長さの部分配列を有利に含む。本発明におけるフィンガープリントデータストリングのリポジトリは、それが（当該技術分野で知られているように）様々な長さの生物学的部分配列を含む点で、例えば、ｋ－ｍｅｒの集合とは異なる。さらに、ｋ－ｍｅｒの集合は、典型的には、固定長がｋのあらゆる置換（すなわち、配列単位のすべての可能な組み合わせ）を含み、これは、フィンガープリントデータストリングの本リポジトリには当てはまらない。

実施形態では、フィンガープリントデータストリングは、タンパク質フィンガープリントデータストリング、ＤＮＡフィンガープリントデータストリング、またはＲＮＡフィンガープリントデータストリング、またはそれらの組み合わせであり得る。実施形態では、特徴的な生物学的部分配列は、特徴的なタンパク質部分配列、特徴的なＤＮＡ部分配列、または特徴的なＲＮＡ部分配列であり得る。実施形態では、フィンガープリントデータストリングのリポジトリは、タンパク質フィンガープリントデータストリング、ＤＮＡフィンガープリントデータストリング、ＲＮＡフィンガープリントデータストリング、またはこれらのうちの１つ以上の組み合わせを含み得る（例えば、それらからなる）。特徴的なタンパク質部分配列は、実施形態では、特徴的なＤＮＡもしくはＲＮＡの部分配列に翻訳され得るか、またはその逆であり得る。この翻訳は、周知のＤＮＡおよびＲＮＡのコドン表に基づいてもよい。同様に、タンパク質フィンガープリントデータストリングは、ＤＮＡまたはＲＮＡのフィンガープリントデータストリングに翻訳され得る。実施形態では、ＤＮＡまたはＲＮＡフィンガープリントデータストリングのリポジトリは、等価なコドン（すなわち、同じアミノ酸をコードするコドン）に関する情報を含み得る。等価なコドンに関するこの情報は、そのようにフィンガープリントデータストリングに含まれ得るか、または、それとは別個にリポジトリに記憶され得る。特定の実施形態では、フィンガープリントデータストリングは、配列非依存的である形式であってもよく、フィンガープリントデータストリングならびに周囲のシステムおよびプロセスが、それらがＤＮＡ、ＲＮＡ、およびタンパク質配列と迅速に比較され得るような形式であることを意味する。これは、例えば、フィンガープリントデータストリングを使用する方法に、実行中に、必要な翻訳を行わせることによって達成され得る。かかるフィンガープリントデータストリングは、有利には、配列型にわたって普遍的に適用可能であるデータストリングの単一のリポジトリを定式化することを可能にする。

実施形態では、フィンガープリントデータストリングのリポジトリは、フィンガープリントデータストリングのうちの少なくとも１つについての追加データをさらに含み得る。好ましい実施形態では、当該データは、フィンガープリントデータストリングに含まれ得る。代替的な実施形態では、当該データは、フィンガープリントデータストリングとは別個に記憶され得る。実施形態では、追加データは、組み合わせデータ、構造データ、関係データ、位置データ、および方向データのうちの１つ以上を含み得る。

実施形態では、組み合わせデータは、特徴的な生物学的部分配列が生物学的配列に存在する場合、当該特徴的な生物学的部分配列に連続的であり得る（例えば、それらの組み合わせが安定であるように、それが直前または直後に現実的に現れ得る）１つ以上の配列単位に関連するデータであってもよい。実施形態では、組み合わせデータは、可能な配列単位の数、そのような可能な配列単位、各配列単位の尤度（例えば、確率）などを含み得る。

実施形態では、構造データは、フィンガープリントデータストリングに埋め込まれた構造情報および／または空間形状情報（例えば、特徴的な生物学的部分配列がバイオポリマーに存在する場合、当該特徴的な生物学的部分配列の二次／三次／四次構造に関連するデータ）であってもよい。複数の施形態では、構造データは、可能な構造の数、そのような可能な構造、各構造の尤度（例えば、確率）などを含み得る。所与の特徴的な生物学的部分配列に対する複数の可能な二次／三次／四次構造の場合、リポジトリは、実施形態では、特徴的な生物学的部分配列および関連する二次／三次／三次構造の各組み合わせに対する別個のエントリを含んでもよい。代替的な実施形態では、リポジトリは、特徴的な生物学的部分配列と、その関連する複数の二次／三次／四次構造とを含む、１つのエントリを含んでもよい。実施形態では、二次／三次／四次構造（特に、四次構造）は、ＤＮＡおよびＲＮＡよりもタンパク質に関連してもよい。

実施形態では、関係データは、特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータであり得る。実施形態では、関係データは、その近傍に通常現れるさらなる特徴的な生物学的部分配列、その近傍に現れるさらなる特徴的な生物学的部分配列の尤度、互いに近接して現れるこれらの特徴的な生物学的部分配列の特定の有意性（例えば、形質または二次／三次／四次構造などの生物学的に関連する意味）などを含んでもよい。実施形態では、関係は、２つ以上の特徴的な生物学的部分配列間の経路の形態で表現されてもよい。実施形態では、関係は、特徴的な生物学的部分配列の順序および／またはそれらの間隔（ｉｎｔｅｒｄｉｓｔａｎｃｅ）を含んでもよい。実施形態では、追加のデータはまた、当該経路を構築するのに有用なメタデータを含み得る。

実施形態では、位置データは、フィンガープリントデータストリングに関して（例えば、それらが表す特徴的な生物学的部分配列間の）間隔に関連するデータであってもよい。

実施形態では、方向データは、フィンガープリントデータストリング（例えば、それらが表す特徴的な生物学的部分配列）の方向（例えば、固有の方向）に関連するデータであってもよい。

一部の実施形態では、追加のデータは、既知のデータセットから取得されている場合があり、例えば、いくつかの生物学的配列の二次／三次／四次構造は、当該技術分野で利用可能である。他の実施形態では、追加のデータは、第４の態様の任意の実施形態で定義される処理された生物学的配列から抽出され得るか、または第６の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから抽出され得る。例えば、第３の態様の任意の実施形態による生物学的配列を処理した後（または第５の態様の任意の実施形態による処理された生物学的配列のリポジトリを構築した後）、特徴的な生物学的部分配列間の関係（例えば、経路）を抽出し、本態様のフィンガープリントデータストリングのリポジトリに追加してもよく、これは、図３に、処理された生物学的配列２１０および処理された生物学的配列のリポジトリ２２０からフィンガープリントデータストリングのリポジトリ１００までを指す破線の矢印によって概略的に示されている。

実施形態では、フィンガープリントデータストリングは、本質的に方向付けされてもよい。実施形態では、フィンガープリントデータストリングは、方向を含み得る（すなわち、明示的に方向を含み得る）。ＨＹＦＴ（商標）フィンガープリントは、バイオポリマーまたはバイオポリマー断片で生じる実際の断片に基づいて定義されるため、バイオポリマーに生じる組み合わせの可能性についての自然界で生じる固有の物理的、化学的、および構造的な制限は、ＨＹＦＴ（商標）に本質的に存在する。ここで、「本質的に存在する」の下では、かかる情報が、追加のデータとしてリポジトリに明示的に含まれていなくても、ＨＹＦＴ（商標）に暗黙的に関連付けられている（または、少なくとも可能である）ことが理解される。したがって、そのような生物学的配列は、通常、固有の方向性を有する（すなわち、ＤＮＡ／ＲＮＡにおける５’から３’への方向、およびタンパク質におけるＮ末端からＣ末端への方向に従う）ため、この同じ方向性が、ＨＹＦＴ（商標）に本質的に存在する。実際の断片とのこの関連は、ＨＹＦＴ（商標）の最後の文字の後、または最初の文字の前に続き得るバイオポリマー断片の最大量における制限をさらに定義する。後者はまた、次のまたは前の可能な組み合わせの総量を表すパラメータ（すなわち、組み合わせ数）によって明示的に表現され得る。これにより、ＨＹＦＴ（商標）は、固有の（厳密な）方向を持つことになる。

実施形態では、フィンガープリントデータストリングは、位置情報を含んでもよい。ＨＹＦＴ（商標）ならびにＨＹＦＴ（商標）間の文字は、構文レベルで相互に関連しているため、それら間または異なるＨＹＦＴ（商標）間の間隔を定義することができる。そのような位置または間隔は、ＨＹＦＴ（商標）に本質的に存在し得る位置情報に属する。

実施形態では、フィンガープリントデータストリングはまた、構造的および／または空間形状情報を含んでもよい。また、特定のＨＹＦＴ（商標）またはＨＹＦＴ（商標）の組み合わせの可能な構造および／または空間形状は、固有の物理的、化学的、および構造的制限のために制限されている。かかる情報は、ＨＹＦＴ（商標）または相互に関連するＨＹＦＴ（商標）のセットにも本質的に存在する。

第３の態様では、本発明は、生物学的配列を処理するためのコンピュータ実装方法に関し、（ａ）第１の態様の任意の実施形態で定義される、フィンガープリントデータストリングのリポジトリから１つ以上のフィンガープリントデータストリングを取得することと、（ｂ）生物学的配列を、１つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列の出現について検索することと、（ｃ）ステップｂにおける各出現について、出現する特徴的な生物学的部分配列を表すフィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む処理された生物学的配列を構築することと、を含む。図３は、フィンガープリントデータストリングのリポジトリ１００を使用して生物学的配列２００を処理し、それによって処理された生物学的配列２１０を得る配列処理ユニット３１０を概略的に示す。

一部の実施形態では、マーカーは、参照ストリングであってもよい。かかる参照ストリングは、例えば、リポジトリの対応するフィンガープリントデータストリングを指してもよい。他の実施形態では、マーカーは、そのようなフィンガープリントデータストリング、またはその一部であってもよい。

実施形態では、生物学的配列は、（ｉ）１つ以上の第１の部分であって、各第１の部分は、１つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの１つに対応する、第１の部分と、（ｉｉ）１つ以上の第２の部分であって、各第２の部分は、１つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちのいずれにも対応しない、第２の部分と、を含む。実施形態では、ステップｃにおいて処理された生物学的配列を構築することは、対応するマーカーによって少なくとも１つの第１の部分を置き換えることを含み得る。実施形態では、ステップｃにおいて処理された生物学的配列を構築することは、（例えば、マーカーに付加された）処理された生物学的配列に、当該第１の部分に関する位置情報を追加することを、さらに含み得る。実施形態では、ステップｃにおいて処理された生物学的配列を構築することは、少なくとも１つの第２の部分を不変のままにすること、および／または少なくとも１つの第２の部分を当該第２の部分の長さの指標によって置き換えること、および／または少なくとも１つの第２の部分を完全に除去すること、を含み得る。第２の部分を不変のままにする場合、生物学的配列は、完全に可逆的な方法で有利に処理され得る。

実施形態では、処理された生物学的配列は、圧縮形式で定式化され得る。例えば、特徴的な生物学的部分配列（すなわち、第１の部分）を参照ストリングで置き換えることによって、かつ／または第２の部分をその長さの指標で置き換えるか、もしくはそれを完全に除去するかのいずれかによって、元の（すなわち、未処理の）生物学的配列よりも少ない記憶空間を必要とする処理された生物学的配列が得られる。追加のデータの圧縮は、複数のフィンガープリントを相互関係によって表すことができる経路を利用することによって達成され得る。

実施形態では、１つ以上のフィンガープリントデータストリングは、生物学的配列（例えば、タンパク質対ＤＮＡ対ＲＮＡの配列情報）とは異なる生物学的形式であり得、ステップｂは、検索の前に特徴的な生物学的部分配列を翻訳または転写することをさらに含み得る。

実施形態では、ステップｂにおける検索は、部分マッチングまたは等価マッチング（例えば、等価のコドン、または同じ二次／三次／四次構造をもたらす異なるアミノ酸）を検索することを含み得る。実施形態では、ステップｂにおける検索は、特徴的な生物学的部分配列の二次／三次／四次構造を考慮してもよい。二次、三次、および四次構造は、典型的には、より進化的に保存され（例えば、その活性部位の二次／三次／四次構造が実質的に保存されているため）、バイオポリマーの機能を変化させない一次構造の変動がしばしば生じる。したがって、二次／三次／四次構造は、完全にマッチングする一次構造を厳密に検索する場合に失われるであろうバイオポリマーに関する関連情報を明らかにし得る。

好ましい実施形態では、ステップｂにおける特徴的な生物学的部分配列の出現の検索は、特定の順序で実行され得る。実施形態では、順序は、特徴的な生物学的部分配列の長さおよび組み合わせ数に基づいてもよい。実施形態では、検索は、最も少ない組み合わせ数を有する最長の特徴生物学的配列から始まり、最も多い組み合わせ数を有する最短の特徴生物学的配列で終わるように、順番に実行してもよい。好ましい実施形態では、順序は、最長から最短への特徴的な生物学的部分配列であってもよく、同じ長さの特徴的な生物学的部分配列の場合、最小から最大への組み合わせ数であってもよい。他の実施形態では、順序は、最小から最大への組み合わせ数であってもよく、同じ組み合わせ数を有する特徴的な生物学的部分配列の場合、最長から最短への特徴的な生物学的部分配列であってもよい。実施形態では、順序は、文脈データなどの追加データをさらに考慮し得る（例えば、同じ長さで、同じ組み合わせ数を有する特徴的な生物学的部分配列のセット内で順序を決定するために）。

実施形態では、本方法は、ステップｃの後に、さらなるステップｄを含んでもよく、第１の態様の実施形態で定義される構造データに基づいて処理された生物学的部分配列の二次／三次／四次構造を、少なくとも部分的に推測する。二次／三次／四次構造のこの少なくとも部分的な解明は、生物学的配列の設計を支援および／または促進するのに役立ち得る。特徴的な生物学的部分配列の単一の一次構造が複数の二次または三次または四次構造に関連する実施形態では、二次／三次／四次構造は、特徴的な生物活性が見出される文脈（例えば、それが取り囲む特徴的な生物学的部分配列）に基づいて、曖昧性が解消され得る。かかる曖昧性解消に必要な情報は、例えば、第１の態様の実施形態で定義されるように、特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の二次／三次／四次構造の観点での関係に関連するデータ（例えば、関係データ）の形態で、フィンガープリントデータストリングのリポジトリに見出すことができる。例えば、特定の第１のＨＹＦＴ（商標）フィンガープリントは、二次構造としてヘリックスまたはターン立体配置のいずれかを採用することが知られているが、特定の第２のＨＹＦＴ（商標）フィンガープリントが当該第１のＨＹＦＴ（商標）から一定の間隔内に存在する場合、常にヘリックス立体配置を採用することが知られている。このような場合、ＨＹＦＴ（商標）フィンガープリントのＨＹＦＴ（商標）パターンは、もし観察されると、第１のＨＹＦＴ（商標）の二次構造を、曖昧性解消のために使用することができる。

フィンガープリントデータストリングが本質的に方向づけされ、位置情報を含む実施形態では、ステップｃは、処理された生物学的配列を有向グラフとして構築することを含み得る。実施形態では、有向グラフ（ｄｉｒｅｃｔｉｏｎａｌｇｒａｐｈ）は、有向非巡回グラフ（ｄｉｒｅｃｔｉｏｎａｌａｃｙｃｌｉｃａｌｇｒａｐｈ）であり得る。非巡回グラフに言及するとき、これは、ループが出現し得ないことを意味するのではなく、むしろ全体のグラフが環状でないことを意味することに留意されたい。本発明の実施形態で得られる再構築配列についての結果として得られるグラフ表現は、ＨＹＦＴ（商標）グラフと称され得る。そのようなＨＹＦＴ（商標）グラフは、普遍的なゲノムのグラフ表現を可能にし得る。

実施形態では、処理された生物学的配列を構築することは、異なるフィンガープリントデータストリング間の間隔を考慮することを含み得、かつ／または有向グラフを構築するためのフィンガープリントデータストリングの方向（例えば、固有の方向）を考慮することを含み得る。

実施形態では、処理された生物学的配列を構築することは、有向グラフを構築するためのフィンガープリントデータストリング内に埋め込まれた構造的および／もしくは空間形状情報を考慮することを含み得、かつ／またはフィンガープリントデータストリング内に埋め込まれた構文情報を考慮することを含み得る。

実施形態では、ステップｂにおける検索は、位置情報、特徴的な生物学的配列の異なる要素間の間隔情報、特徴的な生物学的部分配列の二次構造、および／もしくは三次構造、および／もしくは四次構造、ならびに／または特徴的な生物学的部分配列の構造的バリエーションのうちのいずれかを考慮し得る。

例示として、本発明の実施形態は、これらに限定されないが、特定の配列をどのように検索することができるかという例を以下に示す。本方法は、第１のステップにおいて、検索される配列に存在するＨＹＦＴ（商標）を識別することを含む。次いで、本方法は、そのＨＹＦＴ（商標）も含む参照データベースのすべての配列を検索することによって、参照データベースを照会することをさらに含む。次に、見出された異なる配列を選別し、例えば、長さによって選別し、配列中のＨＹＦＴ（商標）の位置を識別する。さらに、整列を行う。一部の実施形態では、整列は、ナバロ・レーベンシュタイン・マッチングを使用して行われ得る。ナバロ・レーベンシュタイン・マッチングのより詳細な説明は、例えば、Ｎａｖａｒｒｏ，ＴｈｅｏｒｅｔｉｃａｌＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ２３７（２０００）４５５－４６３．に見出すことができる。整列は、有向グラフ、例えば、有向非巡回グラフにより行われ得る。後者は、普遍的なゲノム参照グラフであってもよいが、実施形態はこれに限定されない。整列は、特定の配列に対するバリアントの識別を含み得る。上記のステップを実行するために、配列はさらに処理され得、それによって、例えば、デッドエンドおよびループが除去され得る。

第４の態様では、本発明は、第３の態様の任意の実施形態による、コンピュータ実装方法によって得ることが可能な、処理された生物学的配列に関する。図３に、処理された生物学的配列２１０が、概略的に示されている。

第５の態様では、本発明は、処理された生物学的配列のリポジトリを構築および／または更新するためのコンピュータ実装方法に関し、第４の態様の任意の実施形態で定義される処理された生物学的配列を、当該リポジトリに入力することを含む。図３は、処理された生物学的配列２１０を、処理された生物学的配列のリポジトリ２２０に記憶するリポジトリ構築ユニット３２０を、模式的に示す。

第６の態様では、本発明は、第５の態様の任意の実施形態によるコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリに関する。図３に、２２０のリポジトリが概略的に示されている。

実施形態では、処理された生物学的配列のリポジトリは、フィンガープリントデータストリングのリポジトリと組み合わせることができる。

実施形態では、リポジトリは、データベースであり得る。一部の実施形態では、処理された生物学的配列のリポジトリは、インデックス化されたリポジトリであってもよい。レポジトリは、例えば、各処理された生物学的配列に存在するフィンガープリントマーカー（特徴的な生物学的部分配列に対応する）に基づいて、インデックス化され得る。他の実施形態では、リポジトリは、グラフリポジトリであってもよい。

第７の態様では、本発明は、第１の生物学的配列を第２の生物学的配列と比較するためのコンピュータ実装方法に関し、（ａ）第３の態様の任意の実施形態によるコンピュータ実装方法によって第１の生物学的配列を処理して、第１の処理された生物学的配列を得るか、または第６の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第１の処理された生物学的配列を取得することと、（ｂ）第３の態様の任意の実施形態によるコンピュータ実装方法によって第２の生物学的配列を処理して、第２の処理された生物学的配列を得るか、または第６の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第２の処理された生物学的配列を取得することと、（ｃ）第１の処理された生物学的配列の少なくともフィンガープリントマーカーを、第２の処理された生物学的配列のフィンガープリントマーカーと比較することと、を含む。図４は、比較ユニット３３０を概略的に示し、少なくとも第１の生物学的配列２１１および第２の生物学的配列２１２を、出力結果４００と比較する。

本発明の実施形態による特徴的な生物学的部分配列を使用することによって（処理された生物学的配列内のフィンガープリントマーカーを介して）、配列を比較する問題は、ＮＰ完全またはＮＰ困難な問題から多項式時間問題へと有利に再定式化される。実際、配列内のフィンガープリントを識別し、続いてこれらのフィンガープリントに基づいて配列を比較することは、語彙的アプローチと見なされ得るが、現在使用されているアルゴリズム（例えば、スライディングウィンドウアプローチに基づいて全配列を比較する）よりも計算上はるかに単純である。したがって、この比較は、より少ない計算能力および記憶空間を必要としながらも、著しく速く実行することができ、さらには、複雑性の増加（例えば、生物学的配列の長さまたは数の増加）に伴って良好にスケールする。

実施形態では、ステップｃは、第１の処理された生物学的配列の１つ以上の特徴的な生物学的部分配列（フィンガープリントマーカーによって表される）が、第２の処理された生物学的配列の１つ以上の特徴的な生物学的部分配列（フィンガープリントマーカーによって表される）と対応する（例えば、マッチングする）かどうかを識別することを含み得る。実施形態では、ステップｃは、対応する特徴的な生物学的部分配列が、第１の処理された生物学的配列におけるものと、第２の処理された生物学的配列におけるものとで、同じ順序で現れるかどうかを識別することを含んでもよい。実施形態では、ステップｃは、第１の処理された生物学的配列における特徴的な生物学的部分配列の１つ以上の対と、第２の処理された生物学的配列における特徴的な生物学的部分配列の１つ以上の対応する対とが、同じまたは類似の（例えば、１０００配列単位未満、例えば、１００配列単位未満、好ましくは５０配列単位未満、さらにより好ましくは２０配列単位未満、最も好ましくは１０配列単位未満が異なる）間隔を有するかどうかを識別することを含んでもよい。

実施形態では、ステップｃは、第１の処理された生物学的配列の１つ以上の第２の部分を、第２の処理された生物学的配列の１つ以上の第２の部分と比較することをさらに含み得る。実施形態では、１つ以上の第２の部分を比較することは、対応する第２の部分を比較することを含み得る（すなわち、第１の処理された生物学的配列における特徴的な生物学的部分配列の隣接する対の間に現れる第２の部分と、第１の処理された生物学的配列における特徴的な生物学的部分配列の対応する隣接する対の間に現れる第２の部分）。

実施形態では、ステップｃは、第１の生物学的配列と第２の生物学的配列との間の類似性の程度（例えば、レーベンシュタイン距離）を表す尺度を計算することをさらに含み得る。実施形態では、類似性の程度は、構文類似性の尺度を構造類似性の尺度と組み合わせるなど、複数の変数に基づいて計算され得る。

実施形態では、本方法は、照会配列（ｑｕｅｒｙｓｅｑｕｅｎｃｅ）を１つ以上の他の生物学的配列（例えば、検索される配列データベースに対応する。例えば、処理された生物学的配列のリポジトリの形態で）と比較することによって、配列類似性検索で使用され得る。実施形態では、類似性の程度は、他の生物学的配列の各々について計算され得る。実施形態では、本方法は、生物学的配列をランク付けする（例えば、類似性の程度の減少によって）さらなるステップを含み得る。実施形態では、本方法は、生物学的配列をフィルタリングすることを含み得る。フィルタリングは、ステップｃの前および／または後に実行されてもよい。例えば、フィルタリングは、特定の基準に適合する生物学的配列のみを、例えば、それらが由来する生物または生物群（例えば、植物、動物、ヒト、微生物など）、二次／三次／四次構造が既知であるかどうか、その長さに基づいて、データベースから比較のために選択することによって実行されてもよい。あるいは、フィルタリングは、同じ基準に基づいて、または計算された類似性の程度に基づいて、比較が行われた後に実行されてもよい（例えば、類似性の特定の閾値を上回る配列のみが選択されてもよい）。従来技術における配列類似性検索（整列ステップが典型的に必要とされ、次いで類似性の尺度がそれから確立される）とは対照的に、整列は、類似性検索のために厳密には必要ではない。実際、類似の配列は、整列なしで、同じフィンガープリントを有する配列を（任意選択的に、それらの順序およびそれらの間隔も考慮に入れて）検索することによって既に見つけることができ、ひいては、検索をさらに高速化することが可能になる。上記にもかかわらず、整列（以下を参照）も計算的に簡略化され、厳密には必要でなくても、とにかく整列を行うように選択することができる。

したがって、この態様の方法は、第１の生物学的配列と第２の生物学的配列との間の類似性を決定する（および、任意選択的に測定する）ことを可能にする。また、かかる比較は、整列および構築のための方法などの他の方法における基礎である（以下を参照）。

実施形態では、本方法は、第１の生物学的配列を、第２の生物学的配列と整列させるためのものであってもよい。実施形態では、ステップｃは、第１の処理された生物学的配列のフィンガープリントマーカーを、第２の処理された生物学的配列のフィンガープリントマーカーと整列させることをさらに含み得る。図４は、生物学的配列がフィンガープリントマーカーによって整列される比較ユニット３３０（この場合、「整列ユニット３３０」と称される方がよい）からの出力結果４００を概略的に示す。

したがって、単にフィンガープリントを整列することによって良好な整列を既に得ることができるため、実施形態では、整列も簡略化される。再度、これによって問題の計算複雑性が著しく低減される。さらに、累進整列に基づくものなどの従来技術の方法では、整列エラーの蓄積があり、前の配列のうちの１つに対する誤整列が典型的に伝播し、後の配列におけるさらなる誤整列を引き起こす。逆に、１つの（複数の）整列内に整列される（または、少なくともそれが試みられる）フィンガープリントマーカーの同じ個別のセットが毎回あるため、そのようなエラーの伝播はない。

実施形態では、本方法は、対応する第２の部分を、その後、整列させることをさらに含み得る。第２の部分の整列は、例えば、従来技術で既知の整列方法の１つを使用して行われ得る。実際、整列の「骨格」は、フィンガープリントマーカーを整列させることによってすでに提供されているため、これらのマーカー間の整列のみが後に肉付けされる。これらの第２の部分の各々は、典型的には、生物学的配列の全長と比較して比較的短いため、既知の方法は、典型的には、かかる整列を、比較的迅速かつ効率的に行うことができる。

実施形態では、本方法は、複数の配列整列を行うためのものであってもよい（すなわち、本方法は、３つ以上の生物学的配列を整列することを含み得る）。実施形態では、本方法は、第３（または第４など）の処理された生物学的配列のフィンガープリントマーカーを、第１および／または第２の処理された生物学的配列のフィンガープリントマーカーと整列させることを含んでもよい。図４に、これが概略的に示されており、整列ユニット３３０はまた、任意の数のさらなる処理された生物学的配列２１３～２１６を、比較および整列することができる。

実施形態では、本方法は、バリアントコーリング（ｖａｒｉａｎｔｃａｌｌｉｎｇ）において使用され得る。２つの生物学的配列間の配列整列の場合、バリアントコーリングは、照会配列と参照配列との間のバリアント（例えば、変異）を識別し得る。複数の配列整列の場合、バリアントコーリングは、任意選択的に、参照配列に関して、関連する配列のセットにおける可能なバリエーション（それらの出現頻度を決定することを含み得る）を識別し得る。さらに、バリアントを識別することは、一次構造に基づいて実行され得るが、二次／三次／四次構造も考慮してもよい。したがって、バリアントを識別することは、一次構造に基づいて、二次／三次／四次構造に基づいて、さらに配列内のＨＹＦＴ（商標）に相関する距離のあらゆる可能な相互関係に基づいて、または以降のもしくは以前のＨＹＦＴ（商標）に関する距離情報に基づいて、実行され得る。バリアントを同定することは、コドン表のバリエーションに基づいてもよく、したがって、同じバリアント分析において、ＤＮＡ、ＲＮＡ、およびアミノ酸のバリエーションに関するじかに得た情報を収集することができる。

実施形態では、本方法は、配列アセンブリを実行するためのものであってもよい。実施形態では、本方法は、（ａ）第１の生物学的配列を提供することであって、第１の生物学的配列が、第１のバイオポリマー断片の生物学的配列である、第１の生物学的配列を提供することと、（ｂ）第２の生物学的配列を提供することであって、第２の生物学的配列が、第２のバイオポリマー断片の生物学的配列であるか、または参照生物学的配列であるかのいずれかである、第２の生物学的配列を提供することと、（ｃ）第１の生物学的配列を、第２の生物学的配列に整列させることと、（ｄ）第１の生物学的配列を、第２の生物学的配列と融合させて、構築された生物学的配列を得ることと、を含む。図５は、最初に（それらのフィンガープリントマーカーによって）整列させ、続いて（少なくとも、第１の生物学的配列５０１と第２の生物学的配列５０２とを含む）任意の数の生物学的配列５００を融合することによって、構築された生物学的配列５１０を出力する配列構築ユニット３４０を、概略的に示す。

実施形態では、本方法のステップａ～ｄは、任意の数の生体ポリマー断片を、整列および融合させるために繰り返され得る。

配列決定を容易にするために、個々の断片は、当該技術分野で知られているように、より速くかつより容易に配列決定されるため（例えば、それらは並列で配列決定され得る）、より長いバイオポリマーは、断片化され得る。次いで、配列アセンブリを使用して、典型的には、断片配列を整列および融合させて、元の配列を再構築する。これはまた、「リードマッピング（ｒｅａｄｍａｐｐｉｎｇ）」と称されてもよく、断片配列からの「リード（ｒｅａｄ）」は、第２のバイオポリマー配列に「マッピング」される。実行される配列アセンブリの種類、例えば、デノボアセンブリ対マッピングアセンブリに応じて、第２のバイオポリマー配列は、適宜、第２のバイオポリマー断片または参照配列であるように選択され得る。本明細書では、デノボアセンブリは、テンプレート（例えば、骨格配列）を使用せずに、一からのアセンブリである。逆に、マッピングアセンブリは、１つ以上のバイオポリマー断片配列を既存の骨格配列（例えば、参照配列）にマッピングすることによるアセンブリであり、これは典型的には、将来再構築される配列と類似しているが、必ずしも同一ではない。参照配列は、例えば、完全なゲノムまたはトランスクリプトーム（の部分）に基づいてもよく、または以前のデノボアセンブリから得られたものであってもよい。

実施形態では、本方法は、ステップｄの後に、さらなるステップｅを含んでもよく、上に記載のように、構築された生物学的配列を第２の生物学的配列に整列させる。この追加の整列は、第２の生物学的配列（例えば、参照配列）に関して構築された生物学的配列のバリアントコーリングを実行するために使用され得る。

本発明は、さらに、処理システムに関し、かかる記憶デバイスを含み、記憶デバイスからフィンガープリントデータストリングを得るため、および／または記憶デバイスにフィンガープリントデータストリングを記憶するため、および／または記憶デバイスのフィンガープリントデータストリングを検索するために、適合されたプロセッサを含む。

第９の態様では、本発明は、データ処理システムに関し、第２、第３、第５、または第７の態様の任意の実施形態によるコンピュータ実装方法を実行するように適合されている（例えば、そのための手段を含む）。

システムは、典型的には、それが実行することが意図される方法に応じて、異なる形態をとってもよい。実施形態では、システムは、配列処理ユニット、リポジトリ構築ユニット、比較ユニット、整列ユニット、バリアントコーリングユニット、または配列アセンブリユニットであってもよく、もしくはそれを含んでいてもよい。実施形態では、汎用データ処理手段（例えば、パーソナルコンピュータまたはスマートフォン）または分散計算環境（例えば、クラウドベースのシステム）は、これらの機能のうちの１つ以上を実行するように構成され得る。分散計算環境は、例えば、サーバデバイスおよびネットワーク化されたクライアントデバイスを含み得る。本明細書では、サーバデバイスは、１つ以上の方法の大部分を実行することができ、フィンガープリントデータストリングのリポジトリおよび処理された生物学的配列のリポジトリを記憶することが含まれる。他方、ネットワーク化されたクライアントデバイスは、命令（例えば、照会配列などの入力、および検索プリファレンスなどの設定）をサーバデバイスと通信してもよく、方法の出力を受信してもよい。

第１０の態様では、本発明は、コンピュータプログラム（製品）に関し、プログラムがコンピュータ（システム）によって実行された場合、コンピュータに、第２、第３、第５、または第７の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含む。

また、本発明は、プログラムがコンピュータシステムによって実行された場合、それぞれ、フィンガープリントデータストリングのリポジトリからフィンガープリントデータストリングを得ること、フィンガープリントデータストリングのリポジトリでの検索、またはフィンガープリントデータストリングのリポジトリ、検索、または記憶を実行するためのコンピュータシステムを引き起こす命令を含むコンピュータプログラム製品に関する。

第１１の態様では、本発明は、コンピュータ（システム）によって実行されるとき、コンピュータに、第２、第３、第５、または第７の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含むコンピュータ可読媒体に関する。

第１２の態様では、本発明は、生物学的配列の処理、処理された生物学的配列のリポジトリの構築、第１の生物学的配列と第２の生物学的配列との比較、第１の生物学的配列と第２の生物学的配列との整列、複数の配列整列の実施、配列類似性検索の実施、およびバリアントコーリングの実施から選択される１つ以上のための、任意の実施形態で定義されるフィンガープリントデータストリングのリポジトリの第１の態様の使用に関する。

実施形態では、上記の態様のいずれかの任意の実施形態の任意の特徴は、独立して、他の態様のいずれかの任意の実施形態について、対応して説明され得る。

これから、一部の実施形態の詳細な説明が示される。他の実施形態は、かかる実施形態の真の技術的教示から逸脱することなく、当業者の知識に従って構成され得、実施形態が、添付の特許請求の範囲の条件によってのみ限定されることは明らかである。

実施例１：本発明によるタンパク質データバンクの処理
実施例１ａ：タンパク質データバンクの分析－そこで発見されたＨＹＦＴ（商標）フィンガープリントに関して
生物学的配列データベースにおけるＨＹＦＴ（商標）フィンガープリントの広範な存在を例示するために、タンパク質データバンク（ＰＤＢ）を、大規模で一般に利用可能な生物学的配列データベースの例として取り上げ、本発明に従って、上に記載のように得られたフィンガープリントデータストリングのリポジトリを使用して、処理した。様々な指標に関して結果を分析し、その選択を以下に提示する。

図６および図７は、それぞれ、長さが最大５０および長さが５０００超の処理されたタンパク質配列のＨＹＦＴ（商標）カバレッジ率（％）を示す。ここで、カバレッジ率は、配列単位がＨＹＦＴ（商標）フィンガープリントに起因する配列の全長の一部である。言い換えると、カバレッジ比は、１つ以上の第１の部分の長さの合計を、配列の全長で割ったものである。

逆統計（ｉｎｖｅｒｓｅｓｔａｔｉｓｔｉｃ）、すなわち、ＨＹＦＴ（商標）フィンガープリントによってカバーされない配列の全長の一部（または、１つ以上の第２の部分の長さの合計を配列の全長で割ったもの）が、長さが５０００超場までの場合について、図８に示されている。

上記に関連して、図９は、度数分布の形態で処理された配列あたりの取得されたＨＹＦＴ（商標）の数の概要を示す。

注目すべきことに、これらのチャートは、少なくとも１つのＨＹＦＴ（商標）フィンガープリントがすべての処理された生物学的配列において見出されたことを示している。実際、１つ以上のＨＹＦＴ（商標）でカバーされていないＰＤＢ配列は１つもなかった。さらに、長い配列は、ＨＹＦＴ（商標）パターンによって幅広くカバーされ、カバレッジの広がりは、配列の長さが増加するにつれて、一般に薄くなる。平均で、８０％に近いカバレッジ率が達成されている。

図１０に、観察された典型的な間隔が示され、ＨＹＦＴ（商標）フィンガープリントの前後に現れる第２の部分の長さの度数分布が示されている。

全体として、上記の結果は、事実上すべてのタンパク質配列（および伸長ＤＮＡおよび／またはＲＮＡ配列）が、本発明によるＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリに基づいて、１つ以上のＨＹＦＴ（商標）（すなわち、ＨＹＦＴ（商標）パターン）のストリングとして書き換えられ得ることを支持する。さらに、一般的に達成される良好なカバレッジ率のため、処理された配列は依然として、それらの未処理の対応物の本質的な特徴を依然として保持しており、特に、識別されたＨＹＦＴ（商標）だけが保持されるのではなく、これは、識別されたＨＹＦＴ（商標）の前、間、および後の間隔（すなわち、第２の部分の長さ）などの追加のデータ（上記を参照）で拡張される。ＨＹＦＴ（商標）パターンに基づく高性能なインデックス化が、ほぼ完璧な取得率で達成され得る。

実施例１ｂ：使用されたマッチング戦略の効果
本発明に従って生物学的配列を処理する際に異なる戦略を用いることができるため、２つの異なるアプローチの違いを調べた。第１のアプローチでは、ＰＤＢデータベースの生物学的配列を、ＨＹＦＴ（商標）フィンガープリントの重複を含むＨＹＦＴ（商標）フィンガープリントのすべての出現について、ＨＹＦＴ（商標）フィンガープリントが重要でなくなる順序で、検索した。第２のアプローチでは、ＰＤＢデータベースの生物学的配列を、より厳密な様式を使用して検索した。検索は、最長から最短へのＨＹＦＴ（商標）フィンガープリントの順序で、同じ長さの場合、最小から最大への組み合わせ数の順序で実行され、ＨＹＦＴ（商標）の重複は許されない（すなわち、ＨＹＦＴ（商標）に対応していることが見出される部分は、その後、さらなるＨＹＦＴ（商標）の検索では除外される）。第２のアプローチの目標は、オーバーラップを許容せず、余り厳しくないＨＹＦＴ（商標）（すなわち、組み合わせ数がより大きく、長さがより短い）に対して、よりもより厳しいＨＹＦＴ（商標）（すなわち、組み合わせ数がより小さく、長さがより長い）を優先することによって、良好なカバレッジを確保しながら、処理された生物学的配列を記述する最小の数のＨＹＦＴ（商標）を特定することである。

図１１に、生物学的配列あたりの見出された異なるマッチ数が、互いに対してプロットされている。観察されるように、概して線形の関係が見出され、実際、より厳しい第２のアプローチのマッチ数は、第１のアプローチのマッチ数よりも、概ね約５倍少ない。これらのより少ないマッチ数は、ＨＹＦＴ（商標）フィンガープリントを識別するためと、その後に処理された配列をさらなる方法で使用するための両方の処理時間の増加、および必要な記憶空間の増加につながるが、それでもなお、配列全体を十分に特徴付けている。したがって、第２のアプローチは最適なバランスを取ると考えられ、一般的に好ましい。

しかし、上記にもかかわらず、第１のアプローチを使用して見出されるマッチの数および性質は、同等のｋ－ｍｅｒアプローチよりも低く、かつ良好であることに留意されたい。したがって、第２のアプローチは、第１のアプローチよりも概して好ましい場合があるが、それにもかかわらず、第１のアプローチは、既知の技術的方法よりも有利なままである。

実施例２：従来技術で既知の配列探索と、本発明の一実施形態による配列探索との間の比較
実施例２ａ：短い検索ストリングを使用すること
検索ストリング「ＡＶＦＰＳＩＶＧＲＰＲＨＱＧＶＭＶＧＭＧＱＫＤＳＹ」に基づいて、２つの別個の検索を行った。これは、２５配列単位の長さを有する比較的短いタンパク質配列に対応し、例えば、タンパク質配列決定におけるタンパク質断片であり得る。

最初の検索は、ＢＬＡＳＴ（ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ）、より具体的には、「ＰｒｏｔｅｉｎＢＬＡＳＴ」（ＵＲＬ：ｈｔｔｐｓ：／／ｂｌａｓｔ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｂｌａｓｔ．ｃｇｉ？ＰＲＯＧＲＡＭ＝ｂｌａｓｔｐ＆ＰＡＧＥ＿ＴＹＰＥ＝ＢｌａｓｔＳｅａｒｃｈ＆ＬＩＮＫ＿ＬＯＣ＝ｂｌａｓｔｈｏｍｅで利用可能）を使用して行った。次の検索パラメータを使用した。データベース＝タンパク質データバンク（ｐｄｂ）、アルゴリズム＝ｂｌａｓｔｐ（タンパク質－タンパク質ＢＬＡＳＴ）、最大標的配列＝１０００、短いクエリ＝短い入力配列のパラメータの自動調整、期待閾値＝２００００、単語サイズ＝２、マトリックス＝ＰＡＭ３０、組成調整＝調整なし。ＢＬＡＳＴは、この検索に３０秒以上かかり、その後、６０４件の検索結果が返された。

他方で、本実施形態の原理に基づいて、「ＩＶＧＲＰＲＨＱＧＶＭ」は、上記の短いタンパク質配列に含まれる特徴的な生物学的部分配列（すなわち、「ＨＹＦＴ（商標）フィンガープリント」）であると判定された。したがって、第２の検索を、検索ストリング「ＩＶＧＲＰＲＨＱＧＶＭ」に基づいて、処理された生物学的配列のリポジトリで行った。このリポジトリは、ＢＬＡＳＴ（すなわち、タンパク質データバンク、ＰＤＢ）で使用されるものと同じタンパク質データベースに基づいており、フィンガープリントデータストリングのリポジトリ（上記を参照）を使用して以前に処理されていた。すなわち、フィンガープリントデータストリングによって表される特徴的な生物学的部分配列が識別され、公的に入手可能な生物学的配列のセットで標識された。この検索では、６６１件の結果が返された。ＢＬＡＳＴとは対照的に、この場合、必要な時間枠はわずか１９６ミリ秒であった。したがって、このような比較的短い配列であっても、本発明の方法は、既知の方法と比較して、所要時間を１５０倍超短縮できることが観察された。

ここで、図１２、図１３、および図１４を参照して、それらの全長（図１２）、それらのレーベンシュタイン距離（図１３）、および最長共通サブストリング（図１４）に関して、これらの探索の両方の結果を示す（ＢＬＡＳＴ＝点線、本方法＝実線）。各グラフについて、検索結果が、プロットされたパラメータ（すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング）に関して、低いものから高いものへの順に示されている。さらに、検索結果のうちの１つ、つまり、タンパク質配列５ＮＷ４＿Ｖ（すなわち、ＢＬＡＳＴによって列挙された最初の結果）が参照として選択され、それに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分かるように、本方法では、ＢＬＡＳＴ結果と比較して、検索結果の全範囲にわたって、全長のより小さな変動（結果のかなりの部分にまたがる相対的なプラトーによって特徴付けられる）、かなり短いレーベンシュタイン距離、およびかなり大きな最長共通サブストリングが得られた。これらの組み合わせは、本実施形態の方法が、実行される検索により関連性の高い結果を識別することができたことを示唆する。

実施例２ｂ：検索ストリングとして長いタンパク質を使用すること
前の実施例の繰り返しになるが、今度は、完全なタンパク質配列である３ＭＮ５＿Ａ（３５９配列単位の長さを有する）を検索した。

ＢＬＡＳＴを使用した最初の検索では、８８件の検索結果が返された。

一方、本実施形態の原理に基づいて、６つの特徴的な生物学的部分配列（すなわち、「ＨＹＦＴ（商標）フィンガープリント」）が、配列３ＭＮ５＿Ａに見出され得ることが決定された。これらは以下のように表された：
＋４６４１４７４４４４４１５０５２４１５６４６＿１、＋４９５６４７５２５０５２４８５１４７５６４ｄ＿１、
＋４９４９５４４ｅ５７４４４４４ｄ４５４ｂ４９＿１、＋４９４ｄ４６４５５４４６４ｅ５６５０４１４ｄ＿１、
＋４９４ｂ４５４ｂ４ｃ４３５９５６４１４ｃ４４＿１、および＋４９４７４ｄ４５５３４１４７４９４８４５５４＿１。
ここで、例えば、「４９４７４ｄ４５５３４１４７４９４８４５５４」は、それぞれの１６進数形式での部分配列に対応する。したがって、第２の検索は、前の実施例と同じ処理された生物学的配列のリポジトリにおいて、同じ順序で同じ６つの特徴的な生物学的部分配列を含むそれらのタンパク質配列を見つけるために実行された。この検索では、６６１件の結果が返された。

ここで、図１５、図１６、および図１７を参照して、それらの全長（図１５）、それらのレーベンシュタイン距離（図１６）、および最長共通サブストリング（図１７）に関して、これらの探索の両方の結果を示す（ＢＬＡＳＴ＝点線、本方法＝実線）。各グラフについて、検索結果が、プロットされたパラメータ（すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング）に関して、低いものから高いものへの順に示されている。この場合、元の照会配列３ＭＮ５＿Ａに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分るように、両方の方法についての検索結果の特徴は、極値でも比較的同等である。しかしながら、本方法は、中間範囲で、全長の変動がほとんどなく、レーベンシュタイン距離が短く、最長共通サブストリングがかなり長い、プラトーの結果もたらした。これらの組み合わせは、本実施形態の方法がより多くの関連する結果を識別することができたことを示唆する。

好ましい実施形態、特定の構造および構成、ならびに材料は、本実施形態によるデバイスについて本明細書で論じられてきたが、形態および詳細における様々な変更または修正は、本説明の範囲および技術的教示から逸脱することなく行われ得ることを理解されたい。例えば、上で与えられた任意の定式は、使用され得る手順の代表的なものにすぎない。機能は、ブロック図から追加または削除され得、操作は機能ブロック間で交換され得る。ステップは、本実施形態の範囲内で説明される方法に追加または削除され得る。

Claims

生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリ（１００）であって、各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、前記生物学的配列データベース中に、それに利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の前記組み合わせ数は、前記生物学的配列データベース中に、前記生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義される、リポジトリ。
前記リポジトリが、少なくとも、
－第１の長さの第１の特徴的な生物学的部分配列を表す第１のフィンガープリントデータストリングと、
－第２の長さの第２の特徴的な生物学的部分配列を表す第２のフィンガープリントデータストリングと、を含み、
前記第１の長さおよび前記第２の長さが、４以上であり、前記第１の長さおよび前記第２の長さが、互いに異なる、請求項１に記載のフィンガープリントデータストリングのリポジトリ（１００）。
前記フィンガープリントデータストリングのうちの少なくとも１つに関して、
－前記特徴的な生物学的部分配列が生物学的配列に存在する場合、前記特徴的な生物学的部分配列に連続し得る１つ以上の配列単位に関連するデータ、ならびに／または
－前記特徴的な生物学的部分配列がバイオポリマーに存在する場合、前記特徴的な生物学的部分配列の二次構造、および／もしくは三次構造、および／もしくは四次構造に関連するデータ、ならびに／または
－前記特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ、をさらに含む、請求項１または２に記載のフィンガープリントデータストリングのリポジトリ（１００）。
請求項１～３のいずれかで定義されるフィンガープリントデータストリングのリポジトリ（１００）を構築および／または更新するためのコンピュータ実装方法であって、
ａ．生物学的配列データベースの特徴的な生物学的部分配列を識別することであって、前記特徴的な生物学的部分配列が、それに利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の前記組み合わせ数が、前記生物学的配列データベース中に、前記生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義される、識別することと、
ｂ．任意選択的に、前記識別された特徴的な生物学的部分配列を、１つ以上のさらなる特徴的な生物学的部分配列に翻訳することと、
ｃ．前記リポジトリ（１００）に、前記識別された特徴的な生物学的部分配列および／または前記１つ以上のさらなる特徴的な生物学的部分配列を表す１つ以上のフィンガープリントデータストリングを入力することと、を含む、コンピュータ実装方法。
生物学的配列（２００）を処理するためのコンピュータ実装方法であって、
ａ．請求項１～３のいずれかで定義されるフィンガープリントデータストリングのリポジトリから、１つ以上のフィンガープリントデータストリングを取得することと、
ｂ．前記１つ以上のフィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列の出現について、前記生物学的配列を検索することと、
ｃ．ステップｂにおける各出現について、前記出現する特徴的な生物学的部分配列を表す前記フィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む、処理された生物学的配列（２１０）を構築することと、を含む、コンピュータ実装方法。
前記生物学的配列（２００）が、
ｉ．１つ以上の第１の部分であって、各第１の部分が、前記１つ以上のフィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のうちの１つに対応する、１つ以上の第１の部分と、
ｉｉ．１つ以上の第２の部分であって、各第２の部分が、前記１つ以上のフィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のいずれにも対応しない、１つ以上の第２の部分と、を含み、
ステップｃにおいて前記処理された生物学的配列（２１０）を構築することが、少なくとも１つの第１の部分を、対応するマーカーによって置き換えることを含む、請求項５に記載のコンピュータ実装方法。
ステップｂにおける前記特徴的な生物学的部分配列の出現についての前記検索が、最長から最短への特徴的な生物学的部分配列の順序で実行され、同じ長さの特徴的な生物学的部分配列の場合、最小から最大への組み合わせ数の順序で実行される、請求項５または６に記載のコンピュータ実装方法。
フィンガープリントデータストリングが、本質的に方向付けられ、位置情報を含み、ステップｃが、前記処理された生物学的配列（２１０）を有向グラフとして構築することを含む、請求項５または６に記載のコンピュータ実装方法。
請求項５～８のいずれかに記載のコンピュータ実装方法により得ることが可能な、処理された生物学的配列（２１０）。
処理された生物学的配列のリポジトリ（２２０）を構築および／または更新するためのコンピュータ実装方法であって、前記リポジトリ（２２０）に、請求項９で定義される処理された生物学的配列（２１０）を入力することを含む、コンピュータ実装方法。
請求項１０に記載のコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリ（２２０）。
第１の生物学的配列を第２の生物学的配列と比較するためのコンピュータ実装方法であって、
ａ．請求項５～８のいずれかに記載のコンピュータ実装方法によって、前記第１の生物学的配列を処理して、第１の処理された生物学的配列（２１１）を得ること、または請求項１１で定義される処理された生物学的配列のリポジトリ（２２０）から、前記第１の処理された生物学的配列（２１１）を取得することと、
ｂ．請求項５～８のいずれかに記載のコンピュータ実装方法によって、前記第２の生物学的配列を処理して、第２の処理された生物学的配列（２１２）を得ること、または請求項１１で定義される処理された生物学的配列のリポジトリ（２２０）から、前記第２の処理された生物学的配列（２１２）を取得することと、
ｃ．少なくとも、前記第１の処理された生物学的配列（２１１）の前記フィンガープリントマーカーを、前記第２の処理された生物学的配列（２１２）の前記フィンガープリントマーカーと比較することと、を含む、コンピュータ実装方法。
ステップｃが、前記第１の処理された生物学的配列（２１１）の前記フィンガープリントマーカーを、前記第２の処理された生物学的配列（２１２）の前記フィンガープリントマーカーと整列させることをさらに含む、請求項１１に記載のコンピュータ実装方法。
請求項１もしくは３に記載のフィンガープリントデータストリングのリポジトリ（１００）、および／または請求項１１に記載の処理された生物学的配列のリポジトリ（２２０）を備える、記憶デバイス。
請求項４～８、１０、または１２～１３のいずれかに記載のコンピュータ実装方法を実行するように適合されたデータ処理システム（３１０、３２０、３３０）。
コンピュータによって実行された場合、前記コンピュータに、請求項４～８、１０、または１２～１３のいずれかに記載のコンピュータ実装方法を実行させる命令を含む、コンピュータプログラムまたはコンピュータ可読媒体。