JP2022519786A - 生物学的配列情報の取り扱い - Google Patents

生物学的配列情報の取り扱い Download PDF

Info

Publication number
JP2022519786A
JP2022519786A JP2021569592A JP2021569592A JP2022519786A JP 2022519786 A JP2022519786 A JP 2022519786A JP 2021569592 A JP2021569592 A JP 2021569592A JP 2021569592 A JP2021569592 A JP 2021569592A JP 2022519786 A JP2022519786 A JP 2022519786A
Authority
JP
Japan
Prior art keywords
sequence
biological
characteristic
repository
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021569592A
Other languages
English (en)
Other versions
JPWO2020161344A5 (ja
JP7352985B2 (ja
Inventor
ヒフテ,ディルク ヴァン
ヒフテ,アルノウト ヴァン
ブランズ,イングリッド
ヒフテ,エワルド ヴァン
Original Assignee
バイオキー ビーブイ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from BE20195077A external-priority patent/BE1027035B1/nl
Priority claimed from EP19156085.3A external-priority patent/EP3693970A1/en
Application filed by バイオキー ビーブイ filed Critical バイオキー ビーブイ
Publication of JP2022519786A publication Critical patent/JP2022519786A/ja
Publication of JPWO2020161344A5 publication Critical patent/JPWO2020161344A5/ja
Application granted granted Critical
Publication of JP7352985B2 publication Critical patent/JP7352985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Abstract

第1の態様では、本発明は、生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリに関し、各フィンガープリントデータストリングは、配列単位で構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースにおいて、それに利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される。【選択図】図3

Description

本発明は、生物学的配列情報の取り扱いに関し、例えば、当該生物学的配列情報の処理、記憶、および比較を含む。
生物学的配列決定は、過去数十年間に目のくらむような速さで進化しており、これまでにヒトゲノムプロジェクトが可能になり、すでに15年以上も前に、ヒトゲノムの完全な配列決定が達成された。この進化を促進するために、試料調製および配列決定方法の進歩から、データの取得、処理、および分析に至るまで、十分な技術的進歩が必要とされてきた。同時に、ゲノミクス、プロテオミクス、バイオインフォマティクスなどの新しい科学分野が生まれ、発展してきた。
ポストゲノム時代にデータの取得が重視されてきたことで、この進化により、膨大な量の配列データの蓄積がもたらされた。しかしながら、この配列を整理し、分析し、解釈して、そこから生物学的に関連する情報を抽出する能力が、遅れをとっている。この問題は、依然として日常的に生成されている新しい配列情報の規模によって、さらに複雑になっている。Muirらは、これがパラダイムシフトを引き起こしていることを観察し、結果として変化する配列決定のためのコスト構造および他の関連するハードルについてコメントしている(MUIR,Paul,et al.The real cost of sequencing:scaling computation to keep pace with data generation.Genome biology,2016,17.1:53.)。
有意義な方法で配列情報をアクセスし、分析し、または利用するには、概して、配列整列(sequence alignment)および類似性検索(similarity search)の形態の必要性が要求される。かかる整列および配列類似性検索を行うために、豊富な量のコンピュータソフトウェア(例えば、BLAST、PSI-BLAST、SSEARCH、FASTA、HMMER3)が市販されている。それにもかかわらず、既知のアルゴリズムは、膨大な量の既存のデータを処理する速度または実用的能力を欠いている。US2006/020397A1に開示されているようなハードウェア最適化も試みられているが、必要な突破口がもたらされていない。この取り組みの核心は、対処されている問題が、NP困難(NP-hard)またはNP完全(NP-complete)な性質(NP=非決定性多項式時間)であることである。それゆえ、必要なリソースは、タスクの難易度が増すにつれて指数関数的に拡大する(例えば、配列の長さが増加する、または比較される配列の数が増加する)。
ゲノムグラフ(genome graph)は、配列の処理、記憶、または比較における参照として使用され、かかる配列は、典型的には、より短いDNAまたはRNAの配列である単一リードから、典型的に再構築される。それによって、線形参照は、1つの単一ゲノムの表現である。完全に表現するためには、標本が有し得るすべてのバリエーションを見つけるために、複数のゲノムを組み合わせる必要がある。
パンゲノムグラフ(pangenome graph)を正確に構築するには、複数の問題が発生する。第一に、最良に構築された参照ゲノムでさえ、ギャップとエラーが含まれる。第2に、グラフマッピングのプロセスが実行された場合、後で生じる問題に対応するために、必要なすべての情報を包含するのに好適なグラフ表現を見つけることができない。ド・ブラウングラフ、有向グラフ、または双向グラフでも、鎖を正確に表すことができない。第3に、現在の技術を使用して参照コホートを作成することが可能であるように思われるが、構造座標が欠如しているため、実践では、構築されたコホートが本質的に使用不可能である。
さらに、グラフは、運用サイトの定義を欠いている。対数複雑性のため、繰り返し領域は、既知のk-merベースの技術を使用して表すことがさらに困難である。結論として、最先端技術を使用してすべての必要なデータを保持することが不可能であるために、1つの種についてのグラフ構造におけるバリエーションのコホートを構築することはほぼ不可能であり、ましてや、すべての生物種についてのグラフを構築することは不可能である。
構造的バリアントは、癌および他の疾患の発達において重要な役割を果たすが、読み取られたデータからの信頼性の高い同定が欠如しているため、単一ヌクレオチドバリエーションよりも十分に研究されていない。k-merの技術を使用する場合、バリエーションの検出ウィンドウは、定義ごとに、k-merの全長よりも小さくなる。k-merウィンドウの問題を克服するためのアルゴリズムを使用すると、構造的分散を効果的に識別することができない。わずか1つの構造バリエーションの証拠を見つけるにも、高いカバレッジが必要である。したがって、k-merの使用は、ノイズおよび読み取りエラーから実際の変動が効果的に識別され得る前に、大きなプールを必要とする。k-merを整列する動的アルゴリズムが欠如しているため、k-merの多くが困難な計算上の問題につながる。これは、検索空間を縮小するためのヒューリスティクスまたはパラメータ化の必要性を示している。それにもかかわらず、後者は必然的なエラーの蓄積をもたらし、これはk-merが統合された空間パターンには効果的でないことを示している。現時点では、これは厳密に一次元である構文的(syntactic)な方法でのみ解決されている。
マッピングおよび構築プロセスのNP困難な性質により、貪欲アルゴリズムは、典型的には、これらの問題を解決するために使用され、それによって、拡張マトリックスが特定の入力から適切な結果を計算するために使用される。
動的プログラミングが用いられているが、それに伴う問題は、ソースデータ(位置、リードIDなどのパラメータ)が失われ、バックトラッキングが不可能になっていることである。
上記の問題はすべて、効率的かつ正確なグラフの折り畳みをほぼ不可能にしている。これによって、使用可能なパンゲノムグラフを構築するために必要な精度または位置データを提供することが不可能になる。さらに、k-merの使用は、遺伝子情報における多次元パラメータを区別するための特異性を欠く。これが、現在のゲノムグラフの非効率的な構築にさらに加わり、構造的分散、バイアスを呼び出すことができないこと、または高度な反復領域を効果的に包含することができないこと、によって示される。
したがって、当該技術分野では、特定の問題に対処するために、その中の関連情報を抽出および使用することを可能にする、配列情報を効率的に活用する方法が依然として必要とされている。
生物学的配列(biological sequence)情報を取り扱うための優れた方法を提供することが、本発明の目的である。この目的は、本発明による方法、デバイス、およびデータ構造によって達成される。
第1の態様では、本発明は、生物学的配列データベースのためのフィンガープリントデータストリング(fingerprint data string)のリポジトリに関し、各フィンガープリントデータストリングは、配列単位で構成される特徴的な生物学的部分配列(characteristic biological subsequence)を表し、各特徴的な生物学的部分配列は、生物学的配列データベースにおいて、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される。
本発明の実施形態の利点は、特徴的な生物学的部分配列に対応するフィンガープリントデータストリングのリポジトリを提供することができることである。本発明の実施形態のさらなる利点は、生物学的部分配列が単一の長さ(例えば、k-merのような場合)である必要がないことである。
本発明の実施形態の利点は、さらなるデータ(例えば、メタデータ)、例えば、特徴的な生物学的部分配列に連続し得る(すなわち、直後または直前に続く)配列単位上のデータ、特徴的な生物学的部分配列の二次/三次/四次構造上のデータ(例えば、当該特徴的な生物学的部分配列が生物高分子内に存在する場合)、フィンガープリント間の関係に関するデータ(例えば、特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ)などをリポジトリに含めることができることである。
第2の態様では、本発明は、第1の態様の任意の実施形態で定義されるフィンガープリントデータストリングのリポジトリを、構築および/または更新するためのコンピュータ実装方法に関し、(a)生物学的配列データベース内の特徴的な生物学的部分配列を識別することであって、特徴的な生物学的部分配列は、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される、特徴的な生物学的部分配列を識別することと、(b)任意選択的に、識別された特徴的な生物学的部分配列を、1つ以上のさらなる特徴的な生物学的部分配列に翻訳することと、(c)当該リポジトリに、識別された特徴的な生物学的部分配列および/または1つ以上のさらなる特徴的な生物学的部分配列を表す1つ以上のフィンガープリントデータストリングを入力することと、を含む。
第3の態様では、本発明は、生物学的配列を処理するためのコンピュータ実装方法に関し、(a)第1の態様の任意の実施形態で定義される、フィンガープリントデータストリングのリポジトリから1つ以上のフィンガープリントデータストリングを取得することと、(b)生物学的配列を、1つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列の出現について検索することと、(c)ステップbにおける各出現について、出現する特徴的な生物学的部分配列を表すフィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む処理された生物学的配列を構築することと、を含む。
本発明の実施形態の利点は、システムおよび方法が得られ、複雑性の低減が提供される。
本発明の実施形態の利点は、決定論的、すなわち、所与の解決策につながるシステムおよび方法が得られることである。
本発明の実施形態の利点は、生物学的配列が比較的容易にかつ効率的に処理することができることである。本発明の実施形態のさらなる利点は、生物学的配列を語彙的または意味的な様式で分析することができることである。
本発明の実施形態の利点は、処理された生物学的配列が、その中で識別された特徴的な生物学的部分配列を、対応するフィンガープリントデータストリングと関連付けられたマーカーによって置き換えることによって構築され得ることである。
本発明の実施形態の利点は、特徴的な生物学的部分配列の1つに対応しない生物学的配列の部分を様々な方法で取り扱うことができることである。一部の実施形態のさらなる利点は、生物学的配列が完全に可逆的な方法で処理され得ることである(すなわち、処理によって情報が失われることはない)。本発明の代替的な実施形態のさらなる利点は、生物学的配列が、より重要な情報がより圧縮された形式で蒸留されるように処理され得ることである。
本発明の実施形態の利点は、処理された生物学的配列が、それらの未処理の対応物よりも少ない記憶空間を占めるように圧縮され得ることである。
本発明の実施形態の利点は、生物学的配列の一部分を、特徴的な生物学的部分配列にマッチングすることは、単に一次構造に限定されず、二次/三次/四次構造も考慮され得ることである。
本発明の実施形態の利点は、生物学的部分配列の二次/三次/四次構造が、それに含まれる特徴的な生物学的部分配列の既知の二次/三次/四次構造に基づいて、少なくとも部分的に解明され得ることである。本発明の実施形態のさらなる利点は、生物学的配列の設計(例えば、タンパク質の設計)が、支援または促進され得ることである。
本発明の実施形態の利点は、可逆圧縮が得られることである。より具体的には、情報の損失なしに、HYFT(商標)の使用により、必要な計算能力がはるかに制限され、実行可能な解決策がもたらされる。
本発明の実施形態の利点は、本質的に方向性を含むHYFT(商標)を使用することによって、グラフマッピングの処理が必要とされる場合に生じる問題に対処するための、すべての必要な情報を包含する好適なグラフ表現が提供されることである。
本発明の実施形態の利点は、システムおよび方法が、大きな柔軟性および/または拡張性を可能にすることである。
本発明の実施形態の利点は、分析がもはやNP困難な問題ではなく、したがって、同様の結果を提供する既存の方法およびシステムと比較して、はるかに少ない計算要件を有することである。後者は、拡張マトリックスに基づくステップまたはパラメータ化のステップの必要性がないため、得ることができる。
第4の態様では、本発明は、第3の態様の任意の実施形態による、コンピュータ実装方法によって得ることが可能な、処理された生物学的配列に関する。
第5の態様では、本発明は、処理された生物学的配列のリポジトリを構築および/または更新するためのコンピュータ実装方法に関し、第4の態様の任意の実施形態で定義される処理された生物学的配列を、当該リポジトリに入力することを含む。
本発明の実施形態の利点は、処理された生物学的配列のリポジトリを構築し、記憶することができることである。
本発明の実施形態の利点は、リポジトリが、完全なリポジトリを再計算させることなく更新可能であることである。
第6の態様では、本発明は、第5の態様の任意の実施形態によるコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリに関する。
本発明の実施形態の利点は、処理された生物学的配列のリポジトリが、迅速に検索され、ナビゲートされ得ることである。本発明の実施形態のさらなる利点は、リポジトリの記憶サイズが、それに圧縮処理された生物学的配列を入力することによって、既知のデータベースと比較して、比較的小さくなり得ることである。
本発明の実施形態の利点は、リポジトリが、必要に応じて、記憶、維持、更新され得ることである(すなわち、使用のたびに再計算する必要がないことである)。
第7の態様では、本発明は、第1の生物学的配列を第2の生物学的配列と比較するためのコンピュータ実装方法に関し、(a)第3の態様の任意の実施形態によるコンピュータ実装方法によって第1の生物学的配列を処理して、第1の処理された生物学的配列を得るか、または第6の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第1の処理された生物学的配列を取得することと、(b)第3の態様の任意の実施形態によるコンピュータ実装方法によって第2の生物学的配列を処理して、第2の処理された生物学的配列を得るか、または第6の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第2の処理された生物学的配列を取得することと、(c)第1の処理された生物学的配列の少なくともフィンガープリントマーカーを、第2の処理された生物学的配列のフィンガープリントマーカーと比較することと、を含む。
本発明の実施形態の利点は、生物学的配列の比較が、NP完全またはNP困難な問題から多項式時間問題に変更され得ることである。発明の実施形態のさらなる利点は、比較が、大幅に短縮された時間で実施することができ、複雑性が増すと共に(例えば、生物学的配列の長さまたは数の増加)、良好に拡大することである。本発明の実施形態のさらなる利点は、必要な計算能力および記憶空間を削減することができることである。
本発明の実施形態の利点は、生物学的配列間の類似性の程度を計算することができることである。本発明の実施形態のさらなる利点は、複数の生物学的配列がそれらの類似性の程度に基づいてランク付され得ることである。
本発明の実施形態の利点は、配列類似性検索が迅速かつ容易に(例えば、多項式時間において)実行され得ることである。本発明の実施形態のさらなる利点は、比較された生物学的配列が、容易かつ迅速に(例えば、多項式時間で)整列され得ることである。本発明の実施形態のさらなる利点は、(例えば、バイオポリマー断片の)バイオポリマー配列が、整列後に、容易かつ迅速に融合され得ること(例えば、配列アセンブリなどにおいて、元のバイオポリマー配列を再構築すること)である。
本発明の実施形態の利点は、複数の配列が、容易かつ迅速に比較、整列および/または融合され得ることである。本発明の実施形態のさらなる利点は、現在知られている方法(例えば、累進整列(progressive alignment)に基づく)の場合のように、整列するときにエラーの蓄積がないことである。
第8の態様では、本発明は、記憶デバイスに関し、第1の態様の任意の実施形態によるフィンガープリントデータストリングのリポジトリ、および/または第6の態様の任意の実施形態による処理された生物学的配列のリポジトリを含む。
第9の態様では、本発明は、データ処理システムに関し、第2、第3、第5、または第7の態様の任意の実施形態によるコンピュータ実装方法を実行するように適合されている。
本発明の実施形態の利点は、用途に応じて、コンピュータベースのシステムまたはシーケンサなどの様々なシステムおよびデバイスによって方法が実装され得ることである。本発明の実施形態のさらなる利点は、本方法が、クラウドベースのシステムを含むコンピュータベースのシステムによって実装され得ることである。
第10の態様では、本発明は、コンピュータプログラムに関し、プログラムがコンピュータによって実行された場合、コンピュータに、第2、第3、第5、または第7の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含む。
第11の態様では、本発明は、コンピュータ可読媒体に関し、コンピュータによって実行された場合、コンピュータに、第2、第3、第5、または第7の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含む。
第12の態様では、本発明は、生物学的配列の処理、処理された生物学的配列のリポジトリの構築、第1の生物学的配列と第2の生物学的配列との比較、第1の生物学的配列と第2の生物学的配列との整列、複数の配列整列の実施、配列類似性検索の実施、およびバリアントコーリング(variant calling)の実施から選択される1つ以上のための、第1の態様の任意の実施形態で定義されるフィンガープリントデータストリングのリポジトリの使用に関する。
第13の態様では、本発明は、第1の生物学的配列を第2の生物学的配列と比較すること、第1の生物学的配列を第2の生物学的配列と整列させること、多重配列整列を行うこと、配列類似性検索を実行すること、およびバリアントコーリングを実行することから選択される1つ以上のための、第4の態様の任意の実施形態で定義される処理された生物学的配列の使用、または第6の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリの使用に関する。
本発明の特定の好ましい態様は、添付の独立したおよび従属する特許請求の範囲に記載される。従属する特許請求の範囲からの特徴は、独立した特許請求の範囲の特徴と組み合わされてもよく、他の従属する特許請求の範囲の特徴と組み合わされてもよく、単に特許請求の範囲に明示的に記載されているようなものではない。
この分野では、デバイスの改善、変更、および進化が絶えず行われてきたが、本概念は、従来の慣行からの逸脱を含めて、実質的に新しい、新規の改善を表すと考えられ、この性質のより効率的で、安定した、信頼性の高いデバイスの提供をもたらす。
本発明の原理を例示する付属の図面と併せて、以下の詳細な説明から、本発明の上記および他の特性、特徴および利点が明らかになるであろう。この説明は、本発明の範囲を限定することなく、例示のためにのみ与えられる。以下に引用される参考図は、添付の図面を参照する。
本発明の実施形態によって可能になる、期待される進歩を示すグラフである。 本発明の実施形態によって可能になる、期待される進歩を示すグラフである。 本発明の実施形態による、システムを示す図である。 本発明の実施形態による、システムを示す図である。 本発明の実施形態による、システムを示す図である。 本発明の実施形態による、処理されたタンパク質データバンク(PDB)の分析に関する様々な指標を示すチャートである。 本発明の実施形態による、処理されたタンパク質データバンク(PDB)の分析に関する様々な指標を示すチャートである。 本発明の実施形態による、処理されたタンパク質データバンク(PDB)の分析に関する様々な指標を示すチャートである。 本発明の実施形態による、処理されたタンパク質データバンク(PDB)の分析に関する様々な指標を示すチャートである。 本発明の実施形態による、処理されたタンパク質データバンク(PDB)の分析に関する様々な指標を示すチャートである。 2つの異なるマッチング戦略を使用してPDBデータベースで見出されたHYFT(商標)マッチングの数を互いにプロットするチャートである。 一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の全長を比較するグラフである。 一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。 一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の最長の共通サブストリングを比較するグラフである。 一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の全長を比較するグラフである。 一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。 一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の最長の共通サブストリングを比較するグラフである。
異なる図では、同じ参照符号は、同じまたは類似の要素を指す。
本発明は、特定の実施形態に関して、および特定の図面に関して説明されるが、本発明はそれに限定されず、特許請求の範囲のみによって説明される。記載される図面は、概略のみであり、非限定的である。図面では、要素の一部のサイズは誇張的であり得、例示の目的で、スケール通りに描かれていない。寸法および相対寸法は、本発明の実施に対する実際の縮小に対応していない。
さらに、説明および特許請求の範囲における第1、第2、第3などの用語は、類似の要素間を区別するために使用され、時間的、空間的、ランク付け、または任意の他の方法で配列を記述するために必ずしも使用されない。このように使用される用語は、適切な状況下で交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の配列で動作可能であることを理解されたい。
さらに、説明および特許請求の範囲における「前」、「後」などの用語は、説明のために使用され、必ずしも相対的な位置を説明するために使用されない。このように使用される用語は、適切な状況下でそれらの対義語と交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の方向で動作可能であることを理解されたい。
特許請求の範囲で使用される「含む(comprising)」という用語は、その後に列挙される手段に限定されるものと解釈されるべきではなく、他の要素またはステップを除外しないことに留意されたい。したがって、記載された特徴、整数、ステップまたは構成要素の存在を特定するものと解釈されるべきであるが、1つ以上の他の特徴、整数、ステップまたは構成要素、またはそれらのグループの存在または追加を排除しない。したがって、用語「含む」は、記載された特徴のみが存在する状況と、これらの特徴および1つ以上の他の特徴が存在する状況とを包含する。したがって、「手段AおよびBを含むデバイス」という表現の範囲は、構成要素AおよびBのみからなるデバイスに限定されるものと解釈されるべきではない。これは、本発明に関して、デバイスの関連する構成要素がAおよびBのみであることを意味する。
本明細書全体を通して、「一実施形態」または「ある実施形態」への言及は、その実施形態に関連して記載される特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通した様々な箇所での「一実施形態では」または「ある実施形態では」という語句の出現は、必ずしもすべて同じ実施形態を指しているわけではないが、そのような場合もある。さらに、特定の特徴、構造、または特性は、1つ以上の実施形態では、本開示から当業者には明らかなように、任意の好適な様式で組み合わされてもよい。
同様に、本発明の例示的な実施形態の説明では、本発明の様々な特徴が、時には、本開示を合理化し、様々な本発明の態様のうちの1つ以上の理解を助ける目的で、単一の実施形態、図面、またはその説明に一緒にまとめられることがあることを理解されたい。しかしながら、この開示の方法は、特許請求される発明が、各特許請求の範囲で明示的に列挙されたものよりも多くの特徴を必要とするという意図を反映しているものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、前述の単一の開示された実施形態のすべての特徴よりも少ない特徴にある。したがって、詳細な説明に続く特許請求の範囲は、ここに、この詳細な説明に明示的に組み込まれ、各特許請求の範囲は、本発明の別個の実施形態として、それ自体で成り立っている。
さらに、本明細書に記載される一部の実施形態は、他の実施形態に含まれるいくつかの(しかし、その他ではない)特徴を含むが、当業者に理解されるように、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態を形成することを意味する。例えば、以下の特許請求の範囲では、特許請求される実施形態のいずれかは、任意の組み合わせで使用され得る。
さらに、実施形態のいくつかは、方法として、または方法の要素の組み合わせとして、本明細書に記載され、コンピュータシステムのプロセッサによって、またはその機能を実行する他の手段によって、実装され得る。したがって、かかる方法または方法の要素を実行するために必要な命令を有するプロセッサは、方法または方法の要素を実行する手段を形成する。さらに、装置の実施形態の本明細書に記載される要素は、本発明を実施する目的のための要素によって行われる、機能を実行するための手段の一例である。
本明細書に提供される説明では、多数の特定の詳細が記載される。しかしながら、本発明の実施形態は、これらの特定の詳細なしに実施され得ることを理解されたい。他の場合、周知の方法、構造、および技術は、この説明の理解を曖昧にしないために詳細に示されていない。
以下の用語は、本発明の理解を助けるためにのみ提供される。
本明細書で使用される場合、生物学的配列は、少なくともバイオポリマーの一次構造を定義するバイオポリマーの配列である。バイオポリマーは、例えば、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはタンパク質であり得る。バイオポリマーは典型的には、バイオモノマー(例えば、ヌクレオチドまたはアミノ酸)のポリマーであるが、場合によっては、1つ以上の合成モノマーをさらに含み得る。
本明細書で使用される場合、生物学的配列における「配列単位」は、生物学的配列がタンパク質に関連する場合はアミノ酸であり、生物学的配列がDNAまたはRNAに関連する場合はコドンである。
本明細書で使用される場合、生物学的部分配列(subsequence)は、生物学的配列の一部であり、完全長の生物学的配列よりも小さい。生物学的部分配列は、例えば、100配列単位以下、好ましくは50以下、さらにより好ましくは20以下の全長を有してもよい。
本明細書で使用される場合、「特徴的な生物学的部分配列」(または「(HYFT(商標))フィンガープリント」)、「(HYFT(商標))フィンガープリントデータストリング」および「(HYFT(商標))フィンガープリントマーカー」の区別がなされる。1つ目は、特定の特徴を有する部分配列であり、以下でより詳細に説明されている。2つ目は、そのようなHYFT(商標)フィンガープリントのデータ表現であり、任意選択的に、追加のデータ(以下を参照)と組み合わされ、これは、例えば、対応するリポジトリに記憶され得る。一部の実施形態では、1つのHYFT(商標)フィンガープリントデータストリングは、複数の同等のHYFT(商標)フィンガープリントを同時に表すことができる(例えば、同じアミノ酸をコードする複数のコドンの場合など、同じ結果のコード化を通して同等であり得るか、または翻訳を通して同等であり得る、以下を参照)。3つ目は、HYFT(商標)フィンガープリントが配置され得るメモリアドレスなどのHYFT(商標)フィンガープリントへのポインタであり、そこに、HYFT(商標)フィンガープリントが位置され得るか、またはフィンガープリントデータストリングのリポジトリにおいてHYFT(商標)フィンガープリントを見つけることを可能にする参照であり得る。それにもかかわらず、それらの密接な関係を考慮すると(これらの3つの用語間の厳密な区別が引き出される必要がない場合、または文脈上で意味が明確である場合)、これらは、本明細書では単に「HYFT(商標)」と称され得る。
本明細書で使用される場合、「生物学的配列」と「加工された生物学的配列」と間の区別が行われる。前者は、当該技術分野で広く知られている生物学的配列であり、一方、後者は、本発明のHYFT(商標)フィンガープリントと関連付けられたフィンガープリントマーカーを含む再構築された/書き換えられた生物学的配列である。
HYFT(商標)フィンガープリントデータストリングも、処理された生物学的配列も、これらを記憶するリポジトリも、認知データとみなすことはできず、それらが(ヒト)ユーザーを対象としていないことは明らかであろう。代わりに、それらは、コンピュータ(または、同様の技術システム)によって、様々なコンピュータ実装方法における機能データとして使用されることが意図され、その効果を発揮するように構成される。例えば、リポジトリは、関係データベース(例えば、SQLに基づく)またはNoSQLデータベース(例えば、XMLデータベースなどのドキュメント指向データベース)としての構造であり得る。同様に、HYFT(商標)フィンガープリントデータストリングおよび/または処理された生物学的配列は、かかるデータベースに好適なエントリとして構成され得る。
本明細書で使用される場合、一部の概念は、タンパク質に関する実施例で例示され、考えられるモノマー配列単位は、20個の正規(または「標準」)アミノ酸であると仮定される。しかしながら、これは単に例示を簡略化するためのものに過ぎず、同様に、類似の実施形態は、拡張された数のアミノ酸(例えば、非正規アミノ酸、またはさらには合成化合物を付加する)と共に、またはDNAもしくはRNAに関連して定式化することができることは明らかである。DNAまたはRNAの場合、DNAまたはRNAとタンパク質との間の関連は、コドンとアミノ酸との間の対応を通して容易に作成することができる。
本明細書で使用される場合、「二次/三次/四次」は、「二次、および/または三次、および/または四次」を指す。
以前、生物学的配列の一次構造は、本質的に独立した配列単位の選択からなり、その結果、例えば、m個の可能な配列単位に基づく長さがnの生物学的配列ではm個(例えば、20個の正規アミノ酸に基づくと、20個)が、原理的に存在すると想定されていたが、驚くべきことに、本発明の中で、これが事実上観察されないことに気付いた。確かに、特定の長さ以降から、あらゆる理論的な組み合わせが見られるわけではないことが発見された。一例のみを挙げると、タンパク質の部分配列「MCMHNQA」は、公開データベースのいずれのタンパク質にも見られない。これは、データベース内の単なる欠落ではなく、この不在が物理的および/または化学的起源を有することが考えられてきた。理論に拘束されるものではないが、1つの可能な効果を挙げると、隣接アミノ酸(例えば、上記の例における「MCMHNQ」)の立体障害は、1つ以上の他のアミノ酸(例えば、上記の例における「A」)との結合を禁止し得る。したがって、不在の部分配列が特定されると、計算研究を使用して、この部分配列が潜在的に出現し得るかどうか、またはその存在が物理的にありえないのかどうか(もしくは、ありそうにないのかどうか、例えば、化学的に不安定であるため)を検証することができる。上で言及された「特定の長さ」は、検討されているデータセットに依存するが、例えば、公的に利用可能なタンパク質配列データベースの場合、約5個または6個のアミノ酸に対応する(これは、自然界で見られる全多様性を実質的に反映する)。より限定されたセット(例えば、特定の基準に基づいてフィルタリングされたセット、または特定の生物学的配列データベース、例えば、特定のドメインのために定式化されたセット)の場合、m組み合わせの理論上の最大値未満が、約4または5の長さについて既に見出されている。
同時に、部分配列「MCMHNQA」は存在しないため、部分配列「MCMHNQ」は単に5個のアミノ酸のランダムな組み合わせではなく、さらなる重要性を獲得し、かかる部分配列は、さらに「特徴的な生物学的部分配列」または「(HYFT(商標))フィンガープリント」と呼ばれることになる。これらのHYFT(商標)フィンガープリントの追加の意義または意味のため、本発明は、より意味的な様式で生物学的配列情報を取り扱うことが考慮され得る。一般に、特性は、配列単位の最大数(すなわち、利用可能な異なる配列単位の総数、例えば、20個の正規アミノ酸未満)よりも、配列単位に対してそれに直接続く(または先行する)可能性が少ない選択肢(すなわち、より少ない組み合わせ数)を有することを特徴とし、言い換えれば、配列単位のうちの少なくとも1つは、それに続く(または先行する)ことができない。しかしながら、より厳密な定義を選択することが可能である(例えば、おそらくそれに続き得る15以下の配列単位、または10以下、5以下、3、2、さらには1配列単位を有する部分配列のみ)。さらに、HYFT(商標)フィンガープリントとして、かかる各部分配列を考慮するように選択され得るか、または(すなわち、非冗長でない)別のHYFT(商標)フィンガープリントをまだ含んでいないHYFT(商標)フィンガープリントとして、それらの部分配列のみを考慮するように選択され得る。例えば、「MCMHNQ」をHYFT(商標)フィンガープリントとすると、「MCMHNQ」を含む部分配列が長くなり、それに続く(または先行する)ことができる理論的な配列単位の数よりも少なくなる。その場合、長い配列と「MCMHNQ」の両方をHYFT(商標)フィンガープリントと見なすか、「MCMHNQ」のみをHYFT(商標)フィンガープリントと見なすかの選択肢がある。後者のアプローチは、典型的には、HYFT(商標)データストリングのリポジトリのサイズを保ちながら、それに関連する方法を高速化するのに好ましい場合がある。実際、ストリングと一致する生物学的配列を検索することは、典型的には、ストリングの長さが増すにつれて、よりリソースが集中し、より遅くなる。さらに、HYFT(商標)データストリングのリポジトリのサイズが増加するにつれて、特定のHYFT(商標)データストリングの検索および取得は、通常、より長い時間がかかる。この非冗長アプローチでは、組み合わせの可能性が限定されたより長い部分配列は、依然として識別され得るが、次いでHYFT(商標)のパターンとして(間隔の有無にかかわらず)識別することができる。そのため、このアプローチによって提供される利点は、必ずしも対応する情報の損失を伴わない。上記にもかかわらず、前者のアプローチはなおも可能であり、そうすれば、従来技術よりも有利であり続けることに留意されたい。
次いで、驚くべきことに、限られたセットの特徴的な生物学的部分配列が同定され得ることを見出した。さらに、これらの特徴的な生物学的部分配列は、一方では、十分に特異的であるため、あらゆる特的な生物学的部分配列が、あらゆる生物学的配列に見出されることはなく、他方では、十分に共通しているため、既知の生物学的配列が、典型的に、これらのHYFT(商標)フィンガープリントのうちの少なくとも1つを含むという、これらの間のバランスをとることが観察された。
上記のアカウントのうち、HYFT(商標)フィンガープリントを識別し、対応するHYFT(商標)データストリングのリポジトリ(または「HYFT(商標)リポジトリ」)を構築するためのプロトコルを定式化することができる。実際、目的は、生物学的配列データベース内の組み合わせの可能性が限定されているそれらの部分配列を識別することであるため、その中に現れない部分配列について、当該生物学的配列データベースを発掘することで十分である。そのような非発生部分配列(例えば、「MCMHNQA」)が識別されると、配列単位が1つ短い部分配列(例えば、「MCMHNQ」)は、HYFT(商標)フィンガープリントに対応する(ただし、より短い部分配列が現れるものとする)。識別されると、HYFT(商標)フィンガープリント上の追加データを得ることができる。例えば、組み合わせ数は、識別されたHYFT(商標)フィンガープリントと他の配列単位との組み合わせ(例えば、「MCMHNQA」の「A」を毎回他の可能なアミノ酸のうちの1つと置き換える)について、生物学的配列データベースを検索し、出現することが見出される組み合わせの数をカウントすることによって得ることができる。任意選択的に、見つからない組み合わせも、別個に記憶してもよく、これらを、例えば、エラー検出用に使用してもよい。さらに、DNA、RNA、およびタンパク質間の対応は、典型的には、適用可能なコドン表を通して知られているので、特定のタイプのHYFT(商標)フィンガープリントが識別されると(例えば、タンパク質HYFT(商標))、それは、異なるタイプの対応するHYFT(商標)フィンガープリント(例えば、DNAおよび/またはRNA HYFT(商標))に翻訳され得る。上記のプロセスを繰り返し、少なくとも識別されたHYFT(商標)を好適なフォーマットで記憶することによって、任意選択的に追加データおよび翻訳されたHYFT(商標)-HYFT(商標)フィンガープリントデータストリングのリポジトリと共に、最適に構築することができる。あるいは、またはそれと相補的に、少なくともいくつかのHYFT(商標)フィンガープリントは、例えば、様々な部分配列を合成もしくはモデリングした後、検討中の生物学的配列データベースの文脈に出現し得ないか、または出現する可能性が非常に低い部分配列を識別することを通して、実験的もしくは計算的な方法によって見出され得る。
上記において、生物学的配列データベースは、タンパク質データバンク(PDB)などの公的に利用可能なデータベース、または独自のデータベースであってもよい。実施形態では、生物学的配列データベースは、複数の個々のデータベースの組み合わせであってもよい。例えば、HYFT(商標)フィンガープリントデータストリングのリポジトリは、アクセスできる限り多くの(信頼できる)生物学的配列データベースを組み合わせた生物学的配列データベースから定式化することができ、それによって、自然界で見出されるすべての生物学的配列を実質的に表すHYFT(商標)フィンガープリントデータストリングの一般的なリポジトリになることが求められる。逆に、特定のドメインでは、その特定のドメインを表す生物学的配列データベースに基づいて、HYFT(商標)フィンガープリントデータストリングの特定のリポジトリを構築することが実りあるものとわかる。かかる特定のリポジトリは、実施形態では、HYFT(商標)を含んでもよく、それらが自然界に現れるものの、この特定のドメインには現れないため、一般的なリポジトリには存在しない。同様に、HYFT(商標)フィンガープリントデータストリングのリポジトリは、合成配列について構築され得、それ自体の特定の内容を有する。
上記の発見に基づいて、異なるが相互に関連するそのすべての段階において、生物学的配列情報を取り扱うための新しいアプローチが、定式化され得る。これらのアプローチは、配列のより語彙的な分析に類似していると見なすことができる。図1に、結果が概略的に示され、配列単位数(n)の増加に伴う、生物学的配列情報の複雑性のスケーリングを示す。この複雑さは、配列単位の可能な組み合わせの総数であり得るが、それは、次いで、それを取り扱うために(例えば、類似性検索を実行するために)必要な計算量(例えば、時間およびメモリ)にも関連する。実線の曲線は、すべての配列単位が独立して選択されると仮定した、理論的な組み合わせの数、mとしてのスケーリングを示し、現在知られているアルゴリズムのスケーリングにも対応する。破線の曲線は、自然界で見出される(本発明内で観察される)実際の組み合わせの数を示し、曲線は、約5または6配列単位でmから出発し、大きなnに対して漸近的に平坦になる。点線は、それに続き得る配列単位の数が1に等しい特徴的な配列に初めて対応する配列の数を示し、ここで、「初めて」とは、より長い配列が、すでにカウントされたHYFT(商標)フィンガープリントを含む場合に、カウントされないことを意味する。したがって、後者は、(本発明において観察されるような)長さnのHYFT(商標)フィンガープリントの数に対応し、その定義は、それに潜在的に続き得る、別の(より短い)HYFT(商標)フィンガープリントを既に含まない(上記を参照)1つの配列単位のみを有する部分配列として選択される。
図2は、本発明の予測される利点を時間で示し、横軸上のマークは、現在を示す。曲線1は、ムーアの法則を参照する。曲線2は、取得した配列決定データの総量を示す。曲線3は、当該配列決定データの処理および維持の総コストを示す。本発明において提案される生物学的配列情報の取り扱いによって、データを配列決定するために必要な総記憶容量およびデータ処理および維持の総コストは、それぞれ曲線4および曲線5で示されるように低下することが予想される。
HYFT(商標)フィンガープリントデータストリングのリポジトリは、典型的には、特定の生物学的配列データベース(または、それらの組み合わせ)に関して構築されるが、これは、HYFT(商標)フィンガープリントデータストリングが、その特定の生物学的配列データベースにおける生物学的配列の取り扱いにのみ好適であることを意味しないことに留意されたい。実際、HYFT(商標)フィンガープリントデータストリングの一般的なリポジトリは、例えば、より特異的な生物学的配列の処理に使用され得る。他の場合、HYFT(商標)フィンガープリントデータストリングの特定のリポジトリは、リポジトリを定式化するために使用されるデータベースの範囲外にある生物学的配列の文脈で使用され得る。どちらの場合も、依然として有利な結果を得ることができる。いずれの場合も、HYFT(商標)フィンガープリントデータストリングの既存のリポジトリを特定の用途に使用することができるかどうか、または、それに専用のHYFT(商標)フィンガープリントデータストリングのリポジトリを用いて、より良い結果が得られるかどうかを、試行錯誤によって常に判断することができる。同様に、HYFT(商標)フィンガープリントデータストリングのリポジトリは、生物学的配列データベースにおいて発見され得るすべてのHYFT(商標)フィンガープリントを厳密に包含する必要はない。実際、部分リポジトリは、既に有益な結果を生み出している。そのような部分リポジトリは、例えば、選択された長さのHYFT(商標)フィンガープリントに関連するものであり得る(すなわち、任意の長さのHYFT(商標)フィンガープリントとは対照的である)。
第1の態様では、本発明は、生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリに関し、各フィンガープリントデータストリングは、配列単位で構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースにおいて、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される。図3に、フィンガープリントデータストリング100のリポジトリ(例えば、データベース)が概略的に示されており、以下により詳細に説明される。
実施形態では、リポジトリは、第1の長さの第1の特徴的な生物学的部分配列を表す第1のフィンガープリントデータストリングと、第2の長さの第2の特徴的な生物学的部分配列を表す第2のフィンガープリントデータストリングとを、少なくとも含み得、第1の長さおよび第2の長さは4以上に等しく、第1の長さおよび第2の長さは互いに異なる。
実施形態では、長さは、配列単位の数に対応し得る。実施形態では、長さは、最大500以下、例えば、最大100以下、好ましくは50以下、さらにより好ましくは20以下であり得る。実施形態では、第1および第2の長さは、5以上、好ましくは6以上であり得る。実施形態では、特徴的な生物学的部分配列は、4~20、好ましくは5~15、さらにより好ましくは6~12の長さを有し得る。
実施形態では、フィンガープリントデータストリングのリポジトリは、互いに長さが異なる少なくとも3つのフィンガープリントデータストリング、好ましくは少なくとも4つ、さらにより好ましくは少なくとも5つ、最も好ましくは少なくとも6つのフィンガープリントデータストリングを含み得る。特徴的な生物学的部分配列は、それらの長さによって定義されるのではなく、それに続く(または先行する)可能な配列単位の数によって定義されるため、特徴的な生物学的部分配列のセットは、典型的には、様々な長さの部分配列を有利に含む。本発明におけるフィンガープリントデータストリングのリポジトリは、それが(当該技術分野で知られているように)様々な長さの生物学的部分配列を含む点で、例えば、k-merの集合とは異なる。さらに、k-merの集合は、典型的には、固定長がkのあらゆる置換(すなわち、配列単位のすべての可能な組み合わせ)を含み、これは、フィンガープリントデータストリングの本リポジトリには当てはまらない。
実施形態では、フィンガープリントデータストリングは、タンパク質フィンガープリントデータストリング、DNAフィンガープリントデータストリング、またはRNAフィンガープリントデータストリング、またはそれらの組み合わせであり得る。実施形態では、特徴的な生物学的部分配列は、特徴的なタンパク質部分配列、特徴的なDNA部分配列、または特徴的なRNA部分配列であり得る。実施形態では、フィンガープリントデータストリングのリポジトリは、タンパク質フィンガープリントデータストリング、DNAフィンガープリントデータストリング、RNAフィンガープリントデータストリング、またはこれらのうちの1つ以上の組み合わせを含み得る(例えば、それらからなる)。特徴的なタンパク質部分配列は、実施形態では、特徴的なDNAもしくはRNAの部分配列に翻訳され得るか、またはその逆であり得る。この翻訳は、周知のDNAおよびRNAのコドン表に基づいてもよい。同様に、タンパク質フィンガープリントデータストリングは、DNAまたはRNAのフィンガープリントデータストリングに翻訳され得る。実施形態では、DNAまたはRNAフィンガープリントデータストリングのリポジトリは、等価なコドン(すなわち、同じアミノ酸をコードするコドン)に関する情報を含み得る。等価なコドンに関するこの情報は、そのようにフィンガープリントデータストリングに含まれ得るか、または、それとは別個にリポジトリに記憶され得る。特定の実施形態では、フィンガープリントデータストリングは、配列非依存的である形式であってもよく、フィンガープリントデータストリングならびに周囲のシステムおよびプロセスが、それらがDNA、RNA、およびタンパク質配列と迅速に比較され得るような形式であることを意味する。これは、例えば、フィンガープリントデータストリングを使用する方法に、実行中に、必要な翻訳を行わせることによって達成され得る。かかるフィンガープリントデータストリングは、有利には、配列型にわたって普遍的に適用可能であるデータストリングの単一のリポジトリを定式化することを可能にする。
実施形態では、フィンガープリントデータストリングのリポジトリは、フィンガープリントデータストリングのうちの少なくとも1つについての追加データをさらに含み得る。好ましい実施形態では、当該データは、フィンガープリントデータストリングに含まれ得る。代替的な実施形態では、当該データは、フィンガープリントデータストリングとは別個に記憶され得る。実施形態では、追加データは、組み合わせデータ、構造データ、関係データ、位置データ、および方向データのうちの1つ以上を含み得る。
実施形態では、組み合わせデータは、特徴的な生物学的部分配列が生物学的配列に存在する場合、当該特徴的な生物学的部分配列に連続的であり得る(例えば、それらの組み合わせが安定であるように、それが直前または直後に現実的に現れ得る)1つ以上の配列単位に関連するデータであってもよい。実施形態では、組み合わせデータは、可能な配列単位の数、そのような可能な配列単位、各配列単位の尤度(例えば、確率)などを含み得る。
実施形態では、構造データは、フィンガープリントデータストリングに埋め込まれた構造情報および/または空間形状情報(例えば、特徴的な生物学的部分配列がバイオポリマーに存在する場合、当該特徴的な生物学的部分配列の二次/三次/四次構造に関連するデータ)であってもよい。複数の施形態では、構造データは、可能な構造の数、そのような可能な構造、各構造の尤度(例えば、確率)などを含み得る。所与の特徴的な生物学的部分配列に対する複数の可能な二次/三次/四次構造の場合、リポジトリは、実施形態では、特徴的な生物学的部分配列および関連する二次/三次/三次構造の各組み合わせに対する別個のエントリを含んでもよい。代替的な実施形態では、リポジトリは、特徴的な生物学的部分配列と、その関連する複数の二次/三次/四次構造とを含む、1つのエントリを含んでもよい。実施形態では、二次/三次/四次構造(特に、四次構造)は、DNAおよびRNAよりもタンパク質に関連してもよい。
実施形態では、関係データは、特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータであり得る。実施形態では、関係データは、その近傍に通常現れるさらなる特徴的な生物学的部分配列、その近傍に現れるさらなる特徴的な生物学的部分配列の尤度、互いに近接して現れるこれらの特徴的な生物学的部分配列の特定の有意性(例えば、形質または二次/三次/四次構造などの生物学的に関連する意味)などを含んでもよい。実施形態では、関係は、2つ以上の特徴的な生物学的部分配列間の経路の形態で表現されてもよい。実施形態では、関係は、特徴的な生物学的部分配列の順序および/またはそれらの間隔(interdistance)を含んでもよい。実施形態では、追加のデータはまた、当該経路を構築するのに有用なメタデータを含み得る。
実施形態では、位置データは、フィンガープリントデータストリングに関して(例えば、それらが表す特徴的な生物学的部分配列間の)間隔に関連するデータであってもよい。
実施形態では、方向データは、フィンガープリントデータストリング(例えば、それらが表す特徴的な生物学的部分配列)の方向(例えば、固有の方向)に関連するデータであってもよい。
一部の実施形態では、追加のデータは、既知のデータセットから取得されている場合があり、例えば、いくつかの生物学的配列の二次/三次/四次構造は、当該技術分野で利用可能である。他の実施形態では、追加のデータは、第4の態様の任意の実施形態で定義される処理された生物学的配列から抽出され得るか、または第6の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから抽出され得る。例えば、第3の態様の任意の実施形態による生物学的配列を処理した後(または第5の態様の任意の実施形態による処理された生物学的配列のリポジトリを構築した後)、特徴的な生物学的部分配列間の関係(例えば、経路)を抽出し、本態様のフィンガープリントデータストリングのリポジトリに追加してもよく、これは、図3に、処理された生物学的配列210および処理された生物学的配列のリポジトリ220からフィンガープリントデータストリングのリポジトリ100までを指す破線の矢印によって概略的に示されている。
実施形態では、フィンガープリントデータストリングは、本質的に方向付けされてもよい。実施形態では、フィンガープリントデータストリングは、方向を含み得る(すなわち、明示的に方向を含み得る)。HYFT(商標)フィンガープリントは、バイオポリマーまたはバイオポリマー断片で生じる実際の断片に基づいて定義されるため、バイオポリマーに生じる組み合わせの可能性についての自然界で生じる固有の物理的、化学的、および構造的な制限は、HYFT(商標)に本質的に存在する。ここで、「本質的に存在する」の下では、かかる情報が、追加のデータとしてリポジトリに明示的に含まれていなくても、HYFT(商標)に暗黙的に関連付けられている(または、少なくとも可能である)ことが理解される。したがって、そのような生物学的配列は、通常、固有の方向性を有する(すなわち、DNA/RNAにおける5’から3’への方向、およびタンパク質におけるN末端からC末端への方向に従う)ため、この同じ方向性が、HYFT(商標)に本質的に存在する。実際の断片とのこの関連は、HYFT(商標)の最後の文字の後、または最初の文字の前に続き得るバイオポリマー断片の最大量における制限をさらに定義する。後者はまた、次のまたは前の可能な組み合わせの総量を表すパラメータ(すなわち、組み合わせ数)によって明示的に表現され得る。これにより、HYFT(商標)は、固有の(厳密な)方向を持つことになる。
実施形態では、フィンガープリントデータストリングは、位置情報を含んでもよい。HYFT(商標)ならびにHYFT(商標)間の文字は、構文レベルで相互に関連しているため、それら間または異なるHYFT(商標)間の間隔を定義することができる。そのような位置または間隔は、HYFT(商標)に本質的に存在し得る位置情報に属する。
実施形態では、フィンガープリントデータストリングはまた、構造的および/または空間形状情報を含んでもよい。また、特定のHYFT(商標)またはHYFT(商標)の組み合わせの可能な構造および/または空間形状は、固有の物理的、化学的、および構造的制限のために制限されている。かかる情報は、HYFT(商標)または相互に関連するHYFT(商標)のセットにも本質的に存在する。
第2の態様では、本発明は、第1の態様の任意の実施形態で定義されるフィンガープリントデータストリングのリポジトリを、構築および/または更新するためのコンピュータ実装方法に関し、(a)生物学的配列データベース内の特徴的な生物学的部分配列を識別することであって、特徴的な生物学的部分配列は、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される、特徴的な生物学的部分配列を識別することと、(b)任意選択的に、識別された特徴的な生物学的部分配列を、1つ以上のさらなる特徴的な生物学的部分配列に翻訳することと、(c)当該リポジトリに、識別された特徴的な生物学的部分配列および/または1つ以上のさらなる特徴的な生物学的部分配列を表す1つ以上のフィンガープリントデータストリングを入力することと、を含む。
第3の態様では、本発明は、生物学的配列を処理するためのコンピュータ実装方法に関し、(a)第1の態様の任意の実施形態で定義される、フィンガープリントデータストリングのリポジトリから1つ以上のフィンガープリントデータストリングを取得することと、(b)生物学的配列を、1つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列の出現について検索することと、(c)ステップbにおける各出現について、出現する特徴的な生物学的部分配列を表すフィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む処理された生物学的配列を構築することと、を含む。図3は、フィンガープリントデータストリングのリポジトリ100を使用して生物学的配列200を処理し、それによって処理された生物学的配列210を得る配列処理ユニット310を概略的に示す。
一部の実施形態では、マーカーは、参照ストリングであってもよい。かかる参照ストリングは、例えば、リポジトリの対応するフィンガープリントデータストリングを指してもよい。他の実施形態では、マーカーは、そのようなフィンガープリントデータストリング、またはその一部であってもよい。
実施形態では、生物学的配列は、(i)1つ以上の第1の部分であって、各第1の部分は、1つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つに対応する、第1の部分と、(ii)1つ以上の第2の部分であって、各第2の部分は、1つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちのいずれにも対応しない、第2の部分と、を含む。実施形態では、ステップcにおいて処理された生物学的配列を構築することは、対応するマーカーによって少なくとも1つの第1の部分を置き換えることを含み得る。実施形態では、ステップcにおいて処理された生物学的配列を構築することは、(例えば、マーカーに付加された)処理された生物学的配列に、当該第1の部分に関する位置情報を追加することを、さらに含み得る。実施形態では、ステップcにおいて処理された生物学的配列を構築することは、少なくとも1つの第2の部分を不変のままにすること、および/または少なくとも1つの第2の部分を当該第2の部分の長さの指標によって置き換えること、および/または少なくとも1つの第2の部分を完全に除去すること、を含み得る。第2の部分を不変のままにする場合、生物学的配列は、完全に可逆的な方法で有利に処理され得る。
実施形態では、処理された生物学的配列は、圧縮形式で定式化され得る。例えば、特徴的な生物学的部分配列(すなわち、第1の部分)を参照ストリングで置き換えることによって、かつ/または第2の部分をその長さの指標で置き換えるか、もしくはそれを完全に除去するかのいずれかによって、元の(すなわち、未処理の)生物学的配列よりも少ない記憶空間を必要とする処理された生物学的配列が得られる。追加のデータの圧縮は、複数のフィンガープリントを相互関係によって表すことができる経路を利用することによって達成され得る。
実施形態では、1つ以上のフィンガープリントデータストリングは、生物学的配列(例えば、タンパク質対DNA対RNAの配列情報)とは異なる生物学的形式であり得、ステップbは、検索の前に特徴的な生物学的部分配列を翻訳または転写することをさらに含み得る。
実施形態では、ステップbにおける検索は、部分マッチングまたは等価マッチング(例えば、等価のコドン、または同じ二次/三次/四次構造をもたらす異なるアミノ酸)を検索することを含み得る。実施形態では、ステップbにおける検索は、特徴的な生物学的部分配列の二次/三次/四次構造を考慮してもよい。二次、三次、および四次構造は、典型的には、より進化的に保存され(例えば、その活性部位の二次/三次/四次構造が実質的に保存されているため)、バイオポリマーの機能を変化させない一次構造の変動がしばしば生じる。したがって、二次/三次/四次構造は、完全にマッチングする一次構造を厳密に検索する場合に失われるであろうバイオポリマーに関する関連情報を明らかにし得る。
好ましい実施形態では、ステップbにおける特徴的な生物学的部分配列の出現の検索は、特定の順序で実行され得る。実施形態では、順序は、特徴的な生物学的部分配列の長さおよび組み合わせ数に基づいてもよい。実施形態では、検索は、最も少ない組み合わせ数を有する最長の特徴生物学的配列から始まり、最も多い組み合わせ数を有する最短の特徴生物学的配列で終わるように、順番に実行してもよい。好ましい実施形態では、順序は、最長から最短への特徴的な生物学的部分配列であってもよく、同じ長さの特徴的な生物学的部分配列の場合、最小から最大への組み合わせ数であってもよい。他の実施形態では、順序は、最小から最大への組み合わせ数であってもよく、同じ組み合わせ数を有する特徴的な生物学的部分配列の場合、最長から最短への特徴的な生物学的部分配列であってもよい。実施形態では、順序は、文脈データなどの追加データをさらに考慮し得る(例えば、同じ長さで、同じ組み合わせ数を有する特徴的な生物学的部分配列のセット内で順序を決定するために)。
実施形態では、本方法は、ステップcの後に、さらなるステップdを含んでもよく、第1の態様の実施形態で定義される構造データに基づいて処理された生物学的部分配列の二次/三次/四次構造を、少なくとも部分的に推測する。二次/三次/四次構造のこの少なくとも部分的な解明は、生物学的配列の設計を支援および/または促進するのに役立ち得る。特徴的な生物学的部分配列の単一の一次構造が複数の二次または三次または四次構造に関連する実施形態では、二次/三次/四次構造は、特徴的な生物活性が見出される文脈(例えば、それが取り囲む特徴的な生物学的部分配列)に基づいて、曖昧性が解消され得る。かかる曖昧性解消に必要な情報は、例えば、第1の態様の実施形態で定義されるように、特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の二次/三次/四次構造の観点での関係に関連するデータ(例えば、関係データ)の形態で、フィンガープリントデータストリングのリポジトリに見出すことができる。例えば、特定の第1のHYFT(商標)フィンガープリントは、二次構造としてヘリックスまたはターン立体配置のいずれかを採用することが知られているが、特定の第2のHYFT(商標)フィンガープリントが当該第1のHYFT(商標)から一定の間隔内に存在する場合、常にヘリックス立体配置を採用することが知られている。このような場合、HYFT(商標)フィンガープリントのHYFT(商標)パターンは、もし観察されると、第1のHYFT(商標)の二次構造を、曖昧性解消のために使用することができる。
フィンガープリントデータストリングが本質的に方向づけされ、位置情報を含む実施形態では、ステップcは、処理された生物学的配列を有向グラフとして構築することを含み得る。実施形態では、有向グラフ(directional graph)は、有向非巡回グラフ(directional a cyclical graph)であり得る。非巡回グラフに言及するとき、これは、ループが出現し得ないことを意味するのではなく、むしろ全体のグラフが環状でないことを意味することに留意されたい。本発明の実施形態で得られる再構築配列についての結果として得られるグラフ表現は、HYFT(商標)グラフと称され得る。そのようなHYFT(商標)グラフは、普遍的なゲノムのグラフ表現を可能にし得る。
実施形態では、処理された生物学的配列を構築することは、異なるフィンガープリントデータストリング間の間隔を考慮することを含み得、かつ/または有向グラフを構築するためのフィンガープリントデータストリングの方向(例えば、固有の方向)を考慮することを含み得る。
実施形態では、処理された生物学的配列を構築することは、有向グラフを構築するためのフィンガープリントデータストリング内に埋め込まれた構造的および/もしくは空間形状情報を考慮することを含み得、かつ/またはフィンガープリントデータストリング内に埋め込まれた構文情報を考慮することを含み得る。
実施形態では、ステップbにおける検索は、位置情報、特徴的な生物学的配列の異なる要素間の間隔情報、特徴的な生物学的部分配列の二次構造、および/もしくは三次構造、および/もしくは四次構造、ならびに/または特徴的な生物学的部分配列の構造的バリエーションのうちのいずれかを考慮し得る。
例示として、本発明の実施形態は、これらに限定されないが、特定の配列をどのように検索することができるかという例を以下に示す。本方法は、第1のステップにおいて、検索される配列に存在するHYFT(商標)を識別することを含む。次いで、本方法は、そのHYFT(商標)も含む参照データベースのすべての配列を検索することによって、参照データベースを照会することをさらに含む。次に、見出された異なる配列を選別し、例えば、長さによって選別し、配列中のHYFT(商標)の位置を識別する。さらに、整列を行う。一部の実施形態では、整列は、ナバロ・レーベンシュタイン・マッチングを使用して行われ得る。ナバロ・レーベンシュタイン・マッチングのより詳細な説明は、例えば、Navarro,Theoretical Computer Science 237(2000)455-463.に見出すことができる。整列は、有向グラフ、例えば、有向非巡回グラフにより行われ得る。後者は、普遍的なゲノム参照グラフであってもよいが、実施形態はこれに限定されない。整列は、特定の配列に対するバリアントの識別を含み得る。上記のステップを実行するために、配列はさらに処理され得、それによって、例えば、デッドエンドおよびループが除去され得る。
第4の態様では、本発明は、第3の態様の任意の実施形態による、コンピュータ実装方法によって得ることが可能な、処理された生物学的配列に関する。図3に、処理された生物学的配列210が、概略的に示されている。
第5の態様では、本発明は、処理された生物学的配列のリポジトリを構築および/または更新するためのコンピュータ実装方法に関し、第4の態様の任意の実施形態で定義される処理された生物学的配列を、当該リポジトリに入力することを含む。図3は、処理された生物学的配列210を、処理された生物学的配列のリポジトリ220に記憶するリポジトリ構築ユニット320を、模式的に示す。
第6の態様では、本発明は、第5の態様の任意の実施形態によるコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリに関する。図3に、220のリポジトリが概略的に示されている。
実施形態では、処理された生物学的配列のリポジトリは、フィンガープリントデータストリングのリポジトリと組み合わせることができる。
実施形態では、リポジトリは、データベースであり得る。一部の実施形態では、処理された生物学的配列のリポジトリは、インデックス化されたリポジトリであってもよい。レポジトリは、例えば、各処理された生物学的配列に存在するフィンガープリントマーカー(特徴的な生物学的部分配列に対応する)に基づいて、インデックス化され得る。他の実施形態では、リポジトリは、グラフリポジトリであってもよい。
第7の態様では、本発明は、第1の生物学的配列を第2の生物学的配列と比較するためのコンピュータ実装方法に関し、(a)第3の態様の任意の実施形態によるコンピュータ実装方法によって第1の生物学的配列を処理して、第1の処理された生物学的配列を得るか、または第6の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第1の処理された生物学的配列を取得することと、(b)第3の態様の任意の実施形態によるコンピュータ実装方法によって第2の生物学的配列を処理して、第2の処理された生物学的配列を得るか、または第6の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリから第2の処理された生物学的配列を取得することと、(c)第1の処理された生物学的配列の少なくともフィンガープリントマーカーを、第2の処理された生物学的配列のフィンガープリントマーカーと比較することと、を含む。図4は、比較ユニット330を概略的に示し、少なくとも第1の生物学的配列211および第2の生物学的配列212を、出力結果400と比較する。
本発明の実施形態による特徴的な生物学的部分配列を使用することによって(処理された生物学的配列内のフィンガープリントマーカーを介して)、配列を比較する問題は、NP完全またはNP困難な問題から多項式時間問題へと有利に再定式化される。実際、配列内のフィンガープリントを識別し、続いてこれらのフィンガープリントに基づいて配列を比較することは、語彙的アプローチと見なされ得るが、現在使用されているアルゴリズム(例えば、スライディングウィンドウアプローチに基づいて全配列を比較する)よりも計算上はるかに単純である。したがって、この比較は、より少ない計算能力および記憶空間を必要としながらも、著しく速く実行することができ、さらには、複雑性の増加(例えば、生物学的配列の長さまたは数の増加)に伴って良好にスケールする。
実施形態では、ステップcは、第1の処理された生物学的配列の1つ以上の特徴的な生物学的部分配列(フィンガープリントマーカーによって表される)が、第2の処理された生物学的配列の1つ以上の特徴的な生物学的部分配列(フィンガープリントマーカーによって表される)と対応する(例えば、マッチングする)かどうかを識別することを含み得る。実施形態では、ステップcは、対応する特徴的な生物学的部分配列が、第1の処理された生物学的配列におけるものと、第2の処理された生物学的配列におけるものとで、同じ順序で現れるかどうかを識別することを含んでもよい。実施形態では、ステップcは、第1の処理された生物学的配列における特徴的な生物学的部分配列の1つ以上の対と、第2の処理された生物学的配列における特徴的な生物学的部分配列の1つ以上の対応する対とが、同じまたは類似の(例えば、1000配列単位未満、例えば、100配列単位未満、好ましくは50配列単位未満、さらにより好ましくは20配列単位未満、最も好ましくは10配列単位未満が異なる)間隔を有するかどうかを識別することを含んでもよい。
実施形態では、ステップcは、第1の処理された生物学的配列の1つ以上の第2の部分を、第2の処理された生物学的配列の1つ以上の第2の部分と比較することをさらに含み得る。実施形態では、1つ以上の第2の部分を比較することは、対応する第2の部分を比較することを含み得る(すなわち、第1の処理された生物学的配列における特徴的な生物学的部分配列の隣接する対の間に現れる第2の部分と、第1の処理された生物学的配列における特徴的な生物学的部分配列の対応する隣接する対の間に現れる第2の部分)。
実施形態では、ステップcは、第1の生物学的配列と第2の生物学的配列との間の類似性の程度(例えば、レーベンシュタイン距離)を表す尺度を計算することをさらに含み得る。実施形態では、類似性の程度は、構文類似性の尺度を構造類似性の尺度と組み合わせるなど、複数の変数に基づいて計算され得る。
実施形態では、本方法は、照会配列(query sequence)を1つ以上の他の生物学的配列(例えば、検索される配列データベースに対応する。例えば、処理された生物学的配列のリポジトリの形態で)と比較することによって、配列類似性検索で使用され得る。実施形態では、類似性の程度は、他の生物学的配列の各々について計算され得る。実施形態では、本方法は、生物学的配列をランク付けする(例えば、類似性の程度の減少によって)さらなるステップを含み得る。実施形態では、本方法は、生物学的配列をフィルタリングすることを含み得る。フィルタリングは、ステップcの前および/または後に実行されてもよい。例えば、フィルタリングは、特定の基準に適合する生物学的配列のみを、例えば、それらが由来する生物または生物群(例えば、植物、動物、ヒト、微生物など)、二次/三次/四次構造が既知であるかどうか、その長さに基づいて、データベースから比較のために選択することによって実行されてもよい。あるいは、フィルタリングは、同じ基準に基づいて、または計算された類似性の程度に基づいて、比較が行われた後に実行されてもよい(例えば、類似性の特定の閾値を上回る配列のみが選択されてもよい)。従来技術における配列類似性検索(整列ステップが典型的に必要とされ、次いで類似性の尺度がそれから確立される)とは対照的に、整列は、類似性検索のために厳密には必要ではない。実際、類似の配列は、整列なしで、同じフィンガープリントを有する配列を(任意選択的に、それらの順序およびそれらの間隔も考慮に入れて)検索することによって既に見つけることができ、ひいては、検索をさらに高速化することが可能になる。上記にもかかわらず、整列(以下を参照)も計算的に簡略化され、厳密には必要でなくても、とにかく整列を行うように選択することができる。
したがって、この態様の方法は、第1の生物学的配列と第2の生物学的配列との間の類似性を決定する(および、任意選択的に測定する)ことを可能にする。また、かかる比較は、整列および構築のための方法などの他の方法における基礎である(以下を参照)。
実施形態では、本方法は、第1の生物学的配列を、第2の生物学的配列と整列させるためのものであってもよい。実施形態では、ステップcは、第1の処理された生物学的配列のフィンガープリントマーカーを、第2の処理された生物学的配列のフィンガープリントマーカーと整列させることをさらに含み得る。図4は、生物学的配列がフィンガープリントマーカーによって整列される比較ユニット330(この場合、「整列ユニット330」と称される方がよい)からの出力結果400を概略的に示す。
したがって、単にフィンガープリントを整列することによって良好な整列を既に得ることができるため、実施形態では、整列も簡略化される。再度、これによって問題の計算複雑性が著しく低減される。さらに、累進整列に基づくものなどの従来技術の方法では、整列エラーの蓄積があり、前の配列のうちの1つに対する誤整列が典型的に伝播し、後の配列におけるさらなる誤整列を引き起こす。逆に、1つの(複数の)整列内に整列される(または、少なくともそれが試みられる)フィンガープリントマーカーの同じ個別のセットが毎回あるため、そのようなエラーの伝播はない。
実施形態では、本方法は、対応する第2の部分を、その後、整列させることをさらに含み得る。第2の部分の整列は、例えば、従来技術で既知の整列方法の1つを使用して行われ得る。実際、整列の「骨格」は、フィンガープリントマーカーを整列させることによってすでに提供されているため、これらのマーカー間の整列のみが後に肉付けされる。これらの第2の部分の各々は、典型的には、生物学的配列の全長と比較して比較的短いため、既知の方法は、典型的には、かかる整列を、比較的迅速かつ効率的に行うことができる。
実施形態では、本方法は、複数の配列整列を行うためのものであってもよい(すなわち、本方法は、3つ以上の生物学的配列を整列することを含み得る)。実施形態では、本方法は、第3(または第4など)の処理された生物学的配列のフィンガープリントマーカーを、第1および/または第2の処理された生物学的配列のフィンガープリントマーカーと整列させることを含んでもよい。図4に、これが概略的に示されており、整列ユニット330はまた、任意の数のさらなる処理された生物学的配列213~216を、比較および整列することができる。
実施形態では、本方法は、バリアントコーリング(variant calling)において使用され得る。2つの生物学的配列間の配列整列の場合、バリアントコーリングは、照会配列と参照配列との間のバリアント(例えば、変異)を識別し得る。複数の配列整列の場合、バリアントコーリングは、任意選択的に、参照配列に関して、関連する配列のセットにおける可能なバリエーション(それらの出現頻度を決定することを含み得る)を識別し得る。さらに、バリアントを識別することは、一次構造に基づいて実行され得るが、二次/三次/四次構造も考慮してもよい。したがって、バリアントを識別することは、一次構造に基づいて、二次/三次/四次構造に基づいて、さらに配列内のHYFT(商標)に相関する距離のあらゆる可能な相互関係に基づいて、または以降のもしくは以前のHYFT(商標)に関する距離情報に基づいて、実行され得る。バリアントを同定することは、コドン表のバリエーションに基づいてもよく、したがって、同じバリアント分析において、DNA、RNA、およびアミノ酸のバリエーションに関するじかに得た情報を収集することができる。
実施形態では、本方法は、配列アセンブリを実行するためのものであってもよい。実施形態では、本方法は、(a)第1の生物学的配列を提供することであって、第1の生物学的配列が、第1のバイオポリマー断片の生物学的配列である、第1の生物学的配列を提供することと、(b)第2の生物学的配列を提供することであって、第2の生物学的配列が、第2のバイオポリマー断片の生物学的配列であるか、または参照生物学的配列であるかのいずれかである、第2の生物学的配列を提供することと、(c)第1の生物学的配列を、第2の生物学的配列に整列させることと、(d)第1の生物学的配列を、第2の生物学的配列と融合させて、構築された生物学的配列を得ることと、を含む。図5は、最初に(それらのフィンガープリントマーカーによって)整列させ、続いて(少なくとも、第1の生物学的配列501と第2の生物学的配列502とを含む)任意の数の生物学的配列500を融合することによって、構築された生物学的配列510を出力する配列構築ユニット340を、概略的に示す。
実施形態では、本方法のステップa~dは、任意の数の生体ポリマー断片を、整列および融合させるために繰り返され得る。
配列決定を容易にするために、個々の断片は、当該技術分野で知られているように、より速くかつより容易に配列決定されるため(例えば、それらは並列で配列決定され得る)、より長いバイオポリマーは、断片化され得る。次いで、配列アセンブリを使用して、典型的には、断片配列を整列および融合させて、元の配列を再構築する。これはまた、「リードマッピング(read mapping)」と称されてもよく、断片配列からの「リード(read)」は、第2のバイオポリマー配列に「マッピング」される。実行される配列アセンブリの種類、例えば、デノボアセンブリ対マッピングアセンブリに応じて、第2のバイオポリマー配列は、適宜、第2のバイオポリマー断片または参照配列であるように選択され得る。本明細書では、デノボアセンブリは、テンプレート(例えば、骨格配列)を使用せずに、一からのアセンブリである。逆に、マッピングアセンブリは、1つ以上のバイオポリマー断片配列を既存の骨格配列(例えば、参照配列)にマッピングすることによるアセンブリであり、これは典型的には、将来再構築される配列と類似しているが、必ずしも同一ではない。参照配列は、例えば、完全なゲノムまたはトランスクリプトーム(の部分)に基づいてもよく、または以前のデノボアセンブリから得られたものであってもよい。
実施形態では、本方法は、ステップdの後に、さらなるステップeを含んでもよく、上に記載のように、構築された生物学的配列を第2の生物学的配列に整列させる。この追加の整列は、第2の生物学的配列(例えば、参照配列)に関して構築された生物学的配列のバリアントコーリングを実行するために使用され得る。
第8の態様では、本発明は、記憶デバイスに関し、第1の態様の任意の実施形態によるフィンガープリントデータストリングのリポジトリ、および/または第6の態様の任意の実施形態による処理された生物学的配列のリポジトリを含む。
本発明は、さらに、処理システムに関し、かかる記憶デバイスを含み、記憶デバイスからフィンガープリントデータストリングを得るため、および/または記憶デバイスにフィンガープリントデータストリングを記憶するため、および/または記憶デバイスのフィンガープリントデータストリングを検索するために、適合されたプロセッサを含む。
第9の態様では、本発明は、データ処理システムに関し、第2、第3、第5、または第7の態様の任意の実施形態によるコンピュータ実装方法を実行するように適合されている(例えば、そのための手段を含む)。
システムは、典型的には、それが実行することが意図される方法に応じて、異なる形態をとってもよい。実施形態では、システムは、配列処理ユニット、リポジトリ構築ユニット、比較ユニット、整列ユニット、バリアントコーリングユニット、または配列アセンブリユニットであってもよく、もしくはそれを含んでいてもよい。実施形態では、汎用データ処理手段(例えば、パーソナルコンピュータまたはスマートフォン)または分散計算環境(例えば、クラウドベースのシステム)は、これらの機能のうちの1つ以上を実行するように構成され得る。分散計算環境は、例えば、サーバデバイスおよびネットワーク化されたクライアントデバイスを含み得る。本明細書では、サーバデバイスは、1つ以上の方法の大部分を実行することができ、フィンガープリントデータストリングのリポジトリおよび処理された生物学的配列のリポジトリを記憶することが含まれる。他方、ネットワーク化されたクライアントデバイスは、命令(例えば、照会配列などの入力、および検索プリファレンスなどの設定)をサーバデバイスと通信してもよく、方法の出力を受信してもよい。
第10の態様では、本発明は、コンピュータプログラム(製品)に関し、プログラムがコンピュータ(システム)によって実行された場合、コンピュータに、第2、第3、第5、または第7の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含む。
また、本発明は、プログラムがコンピュータシステムによって実行された場合、それぞれ、フィンガープリントデータストリングのリポジトリからフィンガープリントデータストリングを得ること、フィンガープリントデータストリングのリポジトリでの検索、またはフィンガープリントデータストリングのリポジトリ、検索、または記憶を実行するためのコンピュータシステムを引き起こす命令を含むコンピュータプログラム製品に関する。
第11の態様では、本発明は、コンピュータ(システム)によって実行されるとき、コンピュータに、第2、第3、第5、または第7の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含むコンピュータ可読媒体に関する。
第12の態様では、本発明は、生物学的配列の処理、処理された生物学的配列のリポジトリの構築、第1の生物学的配列と第2の生物学的配列との比較、第1の生物学的配列と第2の生物学的配列との整列、複数の配列整列の実施、配列類似性検索の実施、およびバリアントコーリングの実施から選択される1つ以上のための、任意の実施形態で定義されるフィンガープリントデータストリングのリポジトリの第1の態様の使用に関する。
第13の態様では、本発明は、第1の生物学的配列を第2の生物学的配列と比較すること、第1の生物学的配列を第2の生物学的配列と整列させること、多重配列整列を行うこと、配列類似性検索を実行すること、およびバリアントコーリングを実行することから選択される1つ以上のための、第4の態様の任意の実施形態で定義される処理された生物学的配列の使用、または第6の態様の任意の実施形態で定義される処理された生物学的配列のリポジトリの使用に関する。
実施形態では、上記の態様のいずれかの任意の実施形態の任意の特徴は、独立して、他の態様のいずれかの任意の実施形態について、対応して説明され得る。
これから、一部の実施形態の詳細な説明が示される。他の実施形態は、かかる実施形態の真の技術的教示から逸脱することなく、当業者の知識に従って構成され得、実施形態が、添付の特許請求の範囲の条件によってのみ限定されることは明らかである。
実施例1:本発明によるタンパク質データバンクの処理
実施例1a:タンパク質データバンクの分析-そこで発見されたHYFT(商標)フィンガープリントに関して
生物学的配列データベースにおけるHYFT(商標)フィンガープリントの広範な存在を例示するために、タンパク質データバンク(PDB)を、大規模で一般に利用可能な生物学的配列データベースの例として取り上げ、本発明に従って、上に記載のように得られたフィンガープリントデータストリングのリポジトリを使用して、処理した。様々な指標に関して結果を分析し、その選択を以下に提示する。
図6および図7は、それぞれ、長さが最大50および長さが5000超の処理されたタンパク質配列のHYFT(商標)カバレッジ率(%)を示す。ここで、カバレッジ率は、配列単位がHYFT(商標)フィンガープリントに起因する配列の全長の一部である。言い換えると、カバレッジ比は、1つ以上の第1の部分の長さの合計を、配列の全長で割ったものである。
逆統計(inverse statistic)、すなわち、HYFT(商標)フィンガープリントによってカバーされない配列の全長の一部(または、1つ以上の第2の部分の長さの合計を配列の全長で割ったもの)が、長さが5000超場までの場合について、図8に示されている。
上記に関連して、図9は、度数分布の形態で処理された配列あたりの取得されたHYFT(商標)の数の概要を示す。
注目すべきことに、これらのチャートは、少なくとも1つのHYFT(商標)フィンガープリントがすべての処理された生物学的配列において見出されたことを示している。実際、1つ以上のHYFT(商標)でカバーされていないPDB配列は1つもなかった。さらに、長い配列は、HYFT(商標)パターンによって幅広くカバーされ、カバレッジの広がりは、配列の長さが増加するにつれて、一般に薄くなる。平均で、80%に近いカバレッジ率が達成されている。
図10に、観察された典型的な間隔が示され、HYFT(商標)フィンガープリントの前後に現れる第2の部分の長さの度数分布が示されている。
全体として、上記の結果は、事実上すべてのタンパク質配列(および伸長DNAおよび/またはRNA配列)が、本発明によるHYFT(商標)フィンガープリントデータストリングのリポジトリに基づいて、1つ以上のHYFT(商標)(すなわち、HYFT(商標)パターン)のストリングとして書き換えられ得ることを支持する。さらに、一般的に達成される良好なカバレッジ率のため、処理された配列は依然として、それらの未処理の対応物の本質的な特徴を依然として保持しており、特に、識別されたHYFT(商標)だけが保持されるのではなく、これは、識別されたHYFT(商標)の前、間、および後の間隔(すなわち、第2の部分の長さ)などの追加のデータ(上記を参照)で拡張される。HYFT(商標)パターンに基づく高性能なインデックス化が、ほぼ完璧な取得率で達成され得る。
実施例1b:使用されたマッチング戦略の効果
本発明に従って生物学的配列を処理する際に異なる戦略を用いることができるため、2つの異なるアプローチの違いを調べた。第1のアプローチでは、PDBデータベースの生物学的配列を、HYFT(商標)フィンガープリントの重複を含むHYFT(商標)フィンガープリントのすべての出現について、HYFT(商標)フィンガープリントが重要でなくなる順序で、検索した。第2のアプローチでは、PDBデータベースの生物学的配列を、より厳密な様式を使用して検索した。検索は、最長から最短へのHYFT(商標)フィンガープリントの順序で、同じ長さの場合、最小から最大への組み合わせ数の順序で実行され、HYFT(商標)の重複は許されない(すなわち、HYFT(商標)に対応していることが見出される部分は、その後、さらなるHYFT(商標)の検索では除外される)。第2のアプローチの目標は、オーバーラップを許容せず、余り厳しくないHYFT(商標)(すなわち、組み合わせ数がより大きく、長さがより短い)に対して、よりもより厳しいHYFT(商標)(すなわち、組み合わせ数がより小さく、長さがより長い)を優先することによって、良好なカバレッジを確保しながら、処理された生物学的配列を記述する最小の数のHYFT(商標)を特定することである。
図11に、生物学的配列あたりの見出された異なるマッチ数が、互いに対してプロットされている。観察されるように、概して線形の関係が見出され、実際、より厳しい第2のアプローチのマッチ数は、第1のアプローチのマッチ数よりも、概ね約5倍少ない。これらのより少ないマッチ数は、HYFT(商標)フィンガープリントを識別するためと、その後に処理された配列をさらなる方法で使用するための両方の処理時間の増加、および必要な記憶空間の増加につながるが、それでもなお、配列全体を十分に特徴付けている。したがって、第2のアプローチは最適なバランスを取ると考えられ、一般的に好ましい。
しかし、上記にもかかわらず、第1のアプローチを使用して見出されるマッチの数および性質は、同等のk-merアプローチよりも低く、かつ良好であることに留意されたい。したがって、第2のアプローチは、第1のアプローチよりも概して好ましい場合があるが、それにもかかわらず、第1のアプローチは、既知の技術的方法よりも有利なままである。
実施例2:従来技術で既知の配列探索と、本発明の一実施形態による配列探索との間の比較
実施例2a:短い検索ストリングを使用すること
検索ストリング「AVFPSIVGRPRHQGVMVGMGQKDSY」に基づいて、2つの別個の検索を行った。これは、25配列単位の長さを有する比較的短いタンパク質配列に対応し、例えば、タンパク質配列決定におけるタンパク質断片であり得る。
最初の検索は、BLAST(Basic Local Alignment Search Tool)、より具体的には、「Protein BLAST」(URL:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthomeで利用可能)を使用して行った。次の検索パラメータを使用した。データベース=タンパク質データバンク(pdb)、アルゴリズム=blastp(タンパク質-タンパク質BLAST)、最大標的配列=1000、短いクエリ=短い入力配列のパラメータの自動調整、期待閾値=20000、単語サイズ=2、マトリックス=PAM30、組成調整=調整なし。BLASTは、この検索に30秒以上かかり、その後、604件の検索結果が返された。
他方で、本実施形態の原理に基づいて、「IVGRPRHQGVM」は、上記の短いタンパク質配列に含まれる特徴的な生物学的部分配列(すなわち、「HYFT(商標)フィンガープリント」)であると判定された。したがって、第2の検索を、検索ストリング「IVGRPRHQGVM」に基づいて、処理された生物学的配列のリポジトリで行った。このリポジトリは、BLAST(すなわち、タンパク質データバンク、PDB)で使用されるものと同じタンパク質データベースに基づいており、フィンガープリントデータストリングのリポジトリ(上記を参照)を使用して以前に処理されていた。すなわち、フィンガープリントデータストリングによって表される特徴的な生物学的部分配列が識別され、公的に入手可能な生物学的配列のセットで標識された。この検索では、661件の結果が返された。BLASTとは対照的に、この場合、必要な時間枠はわずか196ミリ秒であった。したがって、このような比較的短い配列であっても、本発明の方法は、既知の方法と比較して、所要時間を150倍超短縮できることが観察された。
ここで、図12、図13、および図14を参照して、それらの全長(図12)、それらのレーベンシュタイン距離(図13)、および最長共通サブストリング(図14)に関して、これらの探索の両方の結果を示す(BLAST=点線、本方法=実線)。各グラフについて、検索結果が、プロットされたパラメータ(すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング)に関して、低いものから高いものへの順に示されている。さらに、検索結果のうちの1つ、つまり、タンパク質配列5NW4_V(すなわち、BLASTによって列挙された最初の結果)が参照として選択され、それに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分かるように、本方法では、BLAST結果と比較して、検索結果の全範囲にわたって、全長のより小さな変動(結果のかなりの部分にまたがる相対的なプラトーによって特徴付けられる)、かなり短いレーベンシュタイン距離、およびかなり大きな最長共通サブストリングが得られた。これらの組み合わせは、本実施形態の方法が、実行される検索により関連性の高い結果を識別することができたことを示唆する。
実施例2b:検索ストリングとして長いタンパク質を使用すること
前の実施例の繰り返しになるが、今度は、完全なタンパク質配列である3MN5_A(359配列単位の長さを有する)を検索した。
BLASTを使用した最初の検索では、88件の検索結果が返された。
一方、本実施形態の原理に基づいて、6つの特徴的な生物学的部分配列(すなわち、「HYFT(商標)フィンガープリント」)が、配列3MN5_Aに見出され得ることが決定された。これらは以下のように表された:
+4641474444415052415646_1、+495647525052485147564d_1、
+4949544e5744444d454b49_1、+494d464554464e5650414d_1、
+494b454b4c435956414c44_1、および+49474d4553414749484554_1。
ここで、例えば、「49474d4553414749484554」は、それぞれの16進数形式での部分配列に対応する。したがって、第2の検索は、前の実施例と同じ処理された生物学的配列のリポジトリにおいて、同じ順序で同じ6つの特徴的な生物学的部分配列を含むそれらのタンパク質配列を見つけるために実行された。この検索では、661件の結果が返された。
ここで、図15、図16、および図17を参照して、それらの全長(図15)、それらのレーベンシュタイン距離(図16)、および最長共通サブストリング(図17)に関して、これらの探索の両方の結果を示す(BLAST=点線、本方法=実線)。各グラフについて、検索結果が、プロットされたパラメータ(すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング)に関して、低いものから高いものへの順に示されている。この場合、元の照会配列3MN5_Aに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分るように、両方の方法についての検索結果の特徴は、極値でも比較的同等である。しかしながら、本方法は、中間範囲で、全長の変動がほとんどなく、レーベンシュタイン距離が短く、最長共通サブストリングがかなり長い、プラトーの結果もたらした。これらの組み合わせは、本実施形態の方法がより多くの関連する結果を識別することができたことを示唆する。
好ましい実施形態、特定の構造および構成、ならびに材料は、本実施形態によるデバイスについて本明細書で論じられてきたが、形態および詳細における様々な変更または修正は、本説明の範囲および技術的教示から逸脱することなく行われ得ることを理解されたい。例えば、上で与えられた任意の定式は、使用され得る手順の代表的なものにすぎない。機能は、ブロック図から追加または削除され得、操作は機能ブロック間で交換され得る。ステップは、本実施形態の範囲内で説明される方法に追加または削除され得る。

Claims (16)

  1. 生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリ(100)であって、各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、前記生物学的配列データベース中に、それに利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の前記組み合わせ数は、前記生物学的配列データベース中に、前記生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義される、リポジトリ。
  2. 前記リポジトリが、少なくとも、
    -第1の長さの第1の特徴的な生物学的部分配列を表す第1のフィンガープリントデータストリングと、
    -第2の長さの第2の特徴的な生物学的部分配列を表す第2のフィンガープリントデータストリングと、を含み、
    前記第1の長さおよび前記第2の長さが、4以上であり、前記第1の長さおよび前記第2の長さが、互いに異なる、請求項1に記載のフィンガープリントデータストリングのリポジトリ(100)。
  3. 前記フィンガープリントデータストリングのうちの少なくとも1つに関して、
    -前記特徴的な生物学的部分配列が生物学的配列に存在する場合、前記特徴的な生物学的部分配列に連続し得る1つ以上の配列単位に関連するデータ、ならびに/または
    -前記特徴的な生物学的部分配列がバイオポリマーに存在する場合、前記特徴的な生物学的部分配列の二次構造、および/もしくは三次構造、および/もしくは四次構造に関連するデータ、ならびに/または
    -前記特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ、をさらに含む、請求項1または2に記載のフィンガープリントデータストリングのリポジトリ(100)。
  4. 請求項1~3のいずれかで定義されるフィンガープリントデータストリングのリポジトリ(100)を構築および/または更新するためのコンピュータ実装方法であって、
    a.生物学的配列データベースの特徴的な生物学的部分配列を識別することであって、前記特徴的な生物学的部分配列が、それに利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の前記組み合わせ数が、前記生物学的配列データベース中に、前記生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義される、識別することと、
    b.任意選択的に、前記識別された特徴的な生物学的部分配列を、1つ以上のさらなる特徴的な生物学的部分配列に翻訳することと、
    c.前記リポジトリ(100)に、前記識別された特徴的な生物学的部分配列および/または前記1つ以上のさらなる特徴的な生物学的部分配列を表す1つ以上のフィンガープリントデータストリングを入力することと、を含む、コンピュータ実装方法。
  5. 生物学的配列(200)を処理するためのコンピュータ実装方法であって、
    a.請求項1~3のいずれかで定義されるフィンガープリントデータストリングのリポジトリから、1つ以上のフィンガープリントデータストリングを取得することと、
    b.前記1つ以上のフィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列の出現について、前記生物学的配列を検索することと、
    c.ステップbにおける各出現について、前記出現する特徴的な生物学的部分配列を表す前記フィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む、処理された生物学的配列(210)を構築することと、を含む、コンピュータ実装方法。
  6. 前記生物学的配列(200)が、
    i.1つ以上の第1の部分であって、各第1の部分が、前記1つ以上のフィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のうちの1つに対応する、1つ以上の第1の部分と、
    ii.1つ以上の第2の部分であって、各第2の部分が、前記1つ以上のフィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のいずれにも対応しない、1つ以上の第2の部分と、を含み、
    ステップcにおいて前記処理された生物学的配列(210)を構築することが、少なくとも1つの第1の部分を、対応するマーカーによって置き換えることを含む、請求項5に記載のコンピュータ実装方法。
  7. ステップbにおける前記特徴的な生物学的部分配列の出現についての前記検索が、最長から最短への特徴的な生物学的部分配列の順序で実行され、同じ長さの特徴的な生物学的部分配列の場合、最小から最大への組み合わせ数の順序で実行される、請求項5または6に記載のコンピュータ実装方法。
  8. フィンガープリントデータストリングが、本質的に方向付けられ、位置情報を含み、ステップcが、前記処理された生物学的配列(210)を有向グラフとして構築することを含む、請求項5または6に記載のコンピュータ実装方法。
  9. 請求項5~8のいずれかに記載のコンピュータ実装方法により得ることが可能な、処理された生物学的配列(210)。
  10. 処理された生物学的配列のリポジトリ(220)を構築および/または更新するためのコンピュータ実装方法であって、前記リポジトリ(220)に、請求項9で定義される処理された生物学的配列(210)を入力することを含む、コンピュータ実装方法。
  11. 請求項10に記載のコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリ(220)。
  12. 第1の生物学的配列を第2の生物学的配列と比較するためのコンピュータ実装方法であって、
    a.請求項5~8のいずれかに記載のコンピュータ実装方法によって、前記第1の生物学的配列を処理して、第1の処理された生物学的配列(211)を得ること、または請求項11で定義される処理された生物学的配列のリポジトリ(220)から、前記第1の処理された生物学的配列(211)を取得することと、
    b.請求項5~8のいずれかに記載のコンピュータ実装方法によって、前記第2の生物学的配列を処理して、第2の処理された生物学的配列(212)を得ること、または請求項11で定義される処理された生物学的配列のリポジトリ(220)から、前記第2の処理された生物学的配列(212)を取得することと、
    c.少なくとも、前記第1の処理された生物学的配列(211)の前記フィンガープリントマーカーを、前記第2の処理された生物学的配列(212)の前記フィンガープリントマーカーと比較することと、を含む、コンピュータ実装方法。
  13. ステップcが、前記第1の処理された生物学的配列(211)の前記フィンガープリントマーカーを、前記第2の処理された生物学的配列(212)の前記フィンガープリントマーカーと整列させることをさらに含む、請求項11に記載のコンピュータ実装方法。
  14. 請求項1もしくは3に記載のフィンガープリントデータストリングのリポジトリ(100)、および/または請求項11に記載の処理された生物学的配列のリポジトリ(220)を備える、記憶デバイス。
  15. 請求項4~8、10、または12~13のいずれかに記載のコンピュータ実装方法を実行するように適合されたデータ処理システム(310、320、330)。
  16. コンピュータによって実行された場合、前記コンピュータに、請求項4~8、10、または12~13のいずれかに記載のコンピュータ実装方法を実行させる命令を含む、コンピュータプログラムまたはコンピュータ可読媒体。

JP2021569592A 2019-02-07 2020-02-07 生物学的配列情報の取り扱い Active JP7352985B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
BE20195077A BE1027035B1 (nl) 2019-02-07 2019-02-07 Depot van vingerafdruk-datastrings
EP19156085.3 2019-02-07
EP19156085.3A EP3693970A1 (en) 2019-02-07 2019-02-07 Biological sequence information handling
BEBE2019/5077 2019-02-07
EP19190899 2019-08-08
EP19190899.5 2019-08-08
PCT/EP2020/053220 WO2020161344A1 (en) 2019-02-07 2020-02-07 Biological sequence information handling

Publications (3)

Publication Number Publication Date
JP2022519786A true JP2022519786A (ja) 2022-03-24
JPWO2020161344A5 JPWO2020161344A5 (ja) 2023-02-14
JP7352985B2 JP7352985B2 (ja) 2023-09-29

Family

ID=69570650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569592A Active JP7352985B2 (ja) 2019-02-07 2020-02-07 生物学的配列情報の取り扱い

Country Status (10)

Country Link
US (1) US20220199199A1 (ja)
EP (2) EP4250300A3 (ja)
JP (1) JP7352985B2 (ja)
KR (1) KR102614401B1 (ja)
CN (1) CN113454727A (ja)
AU (1) AU2020218104B2 (ja)
CA (1) CA3129108C (ja)
IL (1) IL285393A (ja)
WO (1) WO2020161344A1 (ja)
ZA (1) ZA202106380B (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020397A1 (en) * 2004-07-21 2006-01-26 Kermani Bahram G Methods for nucleic acid and polypeptide similarity search employing content addressable memories
JP2007334769A (ja) * 2006-06-16 2007-12-27 Institute Of Physical & Chemical Research 配列抽出装置、配列抽出方法、プログラムおよび記録媒体
JP2015197899A (ja) * 2014-04-03 2015-11-09 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089328A1 (en) 2012-09-27 2014-03-27 International Business Machines Corporation Association of data to a biological sequence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020397A1 (en) * 2004-07-21 2006-01-26 Kermani Bahram G Methods for nucleic acid and polypeptide similarity search employing content addressable memories
JP2007334769A (ja) * 2006-06-16 2007-12-27 Institute Of Physical & Chemical Research 配列抽出装置、配列抽出方法、プログラムおよび記録媒体
JP2015197899A (ja) * 2014-04-03 2015-11-09 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法

Also Published As

Publication number Publication date
EP4250300A2 (en) 2023-09-27
EP4250300A3 (en) 2023-12-06
JP7352985B2 (ja) 2023-09-29
US20220199199A1 (en) 2022-06-23
KR102614401B1 (ko) 2023-12-14
AU2020218104B2 (en) 2024-03-28
EP3881326B1 (en) 2023-04-05
CA3129108A1 (en) 2020-08-13
EP3881326A1 (en) 2021-09-22
ZA202106380B (en) 2023-08-30
AU2020218104A1 (en) 2021-08-12
KR20210126031A (ko) 2021-10-19
CA3129108C (en) 2023-09-05
IL285393A (en) 2021-09-30
CN113454727A (zh) 2021-09-28
WO2020161344A1 (en) 2020-08-13

Similar Documents

Publication Publication Date Title
Canzar et al. Short read mapping: an algorithmic tour
Berger et al. Computational solutions for omics data
CA2839802A1 (en) Methods and systems for data analysis
WO2008156773A1 (en) Biological database index and query searching
Sternberg PROMOT: a FORTRAN program to scan protein sequences against a library of known motifs
Soares et al. Sequence comparison alignment-free approach based on suffix tree and L-words frequency
JP2022519686A (ja) 生物学的配列決定
JP2022519786A (ja) 生物学的配列情報の取り扱い
JP2022521052A (ja) 生物学的情報の取り扱い
EP3693970A1 (en) Biological sequence information handling
Esmat et al. A parallel hash‐based method for local sequence alignment
Nicolas et al. Finding and characterizing repeats in plant genomes
Runge et al. RnaBench: A Comprehensive Library for In Silico RNA Modelling
Pavesi et al. Methods for pattern discovery in unaligned biological sequences
Shih et al. BiMFG: Bioinformatics tools for marine and freshwater species
Chen et al. Comparative Analysis on Alignment-Based and Pretrained Feature Representations for the Identification of DNA-Binding Proteins
Caldonazzo Garbelini et al. biomapp:: chip: Large-Scale Motif Analysis
Hřivňák et al. Fast Hybrid Data Structure for a Large Alphabet K-Mers Indexing for Whole Genome Alignment
Rabea et al. SuffixAligner: A Python-based Aligner for Long Noisy Reads
Vanitha et al. An Improved Alignment-Free Method for Oculocutaneous Albinism Sequence Analysis
Wu Kmer-based sequence representations for fast retrieval and comparison
Sanghvi IFREE: An indexed forest of representer expressions extractor for position frequency matrices to rapidly detect sequence motifs
KUMAR Finding Sequential Patterns From Biological Sequences

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230206

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230911

R150 Certificate of patent or registration of utility model

Ref document number: 7352985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150