JP2023506271A

JP2023506271A - 遺伝子データを処理するための方法及びデータ処理装置

Info

Publication number: JP2023506271A
Application number: JP2022536935A
Authority: JP
Inventors: ツィンマーマン、ハイコ; ミュラー、サビーネ
Original assignee: フラウンホーファー－ゲゼルシャフトツゥアフェアデルングデアアンゲヴァンドテンフォァシュングエー．ファウ．
Priority date: 2019-12-20
Filing date: 2020-12-16
Publication date: 2023-02-15
Also published as: EP4078595A1; KR20220116536A; CN114902343A; WO2021122742A1; US20230021229A1; DE102019135380A1

Abstract

それぞれ生体分子を表す一連の配列要素を含む遺伝子データを処理するための方法は、配列フラグメントを形成するステップ（Ｓ２）であって、各配列フラグメントが少なくとも２つの配列要素のフラグメント長を有する、一連の配列要素のセクションを含む、ステップと、各々が配列フラグメントのうちの１つと関連付けられた複数の暗号化フラグメントデータを生成するために、配列フラグメントの各々に符号化関数を適用するステップ（Ｓ３）と、暗号化フラグメントデータを格納するステップ（Ｓ４）とを含み、配列フラグメントを形成するステップは、一連の配列要素のセクションが重なり合い、各配列要素が少なくとも２つの前記配列フラグメントに含まれるように行われる。また、遺伝子データを処理するための方法を使用して遺伝子データを処理するためのデータ処理装置、及び該方法を使用して生成され格納された暗号化フラグメントデータを含むデータベースを照会するための方法も開示される。

Description

本発明は、処理のための方法及びデータ処理装置に関し、詳細には、一連の生体分子を表す遺伝子データ、例えばヌクレオチド配列、アミノ酸配列及び／又はタンパク質配列からのデータを暗号化するための方法及びデータ処理装置に関する。本発明はまた、上記方法を用いて生成され格納された暗号化遺伝子データを含むデータベースを照会するための方法に関する。本発明の用途は、バイオインフォマティクス、医学、細胞生物学、幹細胞技術、薬理学及び／又はバイオテクノロジーの分野、特に遺伝子データの処理の分野である。

効果的な配列決定技術によって、ここ数年にわたって、遺伝子データが記録され蓄積される可能性、及び臨床施設のデータベースに蓄積される遺伝子データの範囲が著しく増大したことが一般に知られている。例えば、遺伝子データは、複数の受診者から臨床施設で取得され、その受診者に関する他のデータ、例えば識別データ並びにその受診者の生活状態及び／又は健康状態に関するデータと併せて蓄積される。

これらのデータは、当該受診者の検査及び／又は治療における診断及び治療目的のためだけのものではない。むしろ、これらのデータは、例えば薬理学における研究開発のための情報の貴重な蓄積である。遺伝子データは、疾患の原因又は疾患機序に関する情報を提供することができる。遺伝子データはまた、個別化された治療法、又は行動若しくは栄養に関する推奨の開発、及びそれらの患者への個別の適用を可能にする。また、研究のために、遺伝子データにアクセスし、例えば疾患モデルとしての、例えば薬理学的製剤の標的調査の目的、又は疾患の原因の分析の目的で、例えば、所定の遺伝的性質（及び、関連する場合、特定の疾患及び生活様式の状態）を有する特定の個体又はこれらの個体由来の細胞試料を同定することに関心が集まっている。

したがって、所定の特徴、例えば所定のアミノ酸配列の有無について多数の個体の蓄積された遺伝子データを検索すること、及びそれによって同定された個体の遺伝子データを取得し、またそれを更なる調査に利用することに関心が集まっている。

しかしながら、臨床的に又はその他の方法で得られた個々の遺伝子データの検索及び処理にあたって、また、それらのデータの共有（データ共有）にあたって、特に国際協力において、以下の問題が生じる。

ヒトゲノムは約３０億個の塩基対を有する。多数の個体、例えば数万人の患者のデータの調査においては、非常に大量のデータが発生し、特定の検索配列又は検索配列の組み合わせを検索するのに非常に手間がかかる。このように、遺伝子データの検索の有効性（例えば、エネルギー使用量及び／又は持続時間）を改善することに関心が集まっている。

遺伝子データの検索における更なる制約は、個人自らのデータ保護に対する関心にある。遺伝子データは、ヒトの先天的及び／又は後天的な遺伝的特性を定義するものであり、それは唯一無二の慎重に扱うべき情報である。現在では、遺伝子データをそれに関連する個人の識別データから分離した後でさえ、そのデータを特定の個人と照合することが依然として可能であると考えられている。遺伝子データの完全な匿名化には、その変造が必要となるが、その後は、そのデータについての更なる信頼できる調査は不可能になるであろう。そのため、遺伝子データは、良くて擬似命名されることはあるが、完全に匿名化されることはない。

したがって、遺伝子データを有するデータベースの操作については、データセキュリティ（損失、誤用、改ざん及び／又は他の脅威からの保護）が実質的な要件となる。ヒト関連データは、例えばドイツで一般データ保護規則（ＤＳＧＶＯ）によって制定されている、誤用に対する法的に規制された保護の対象となる。

データ保護に関する法的規則により、通常、臨床的に得られた遺伝子データを有するデータベースへの第三者によるアクセスは、排除され、具体的には物理的に中断される。遺伝子データの匿名化が本質的に不可能であり、又は困難であるため、データネットワークを介したオープンアクセス、又は認可された問い合わせのための条件付きアクセスのいずれも不可能である。データ保護を保証しつつ、研究開発又は他の調査目的でヒトに関連する遺伝子データのポテンシャルを更に利用することができるようにするために、遺伝子データの取り扱いに対する新しいアプローチに関心が集まっている。

圧縮目的で暗号化された遺伝子データを蓄積することが知られている。暗号化は、例えば、ハッシュ関数を使用することによって行うことができる。ＤＮＡ配列のバイナリコード化によって記憶空間を節約することが、Ａ．Ｍｅｈｔａらによって、“ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ”，２０１０，ｖｏｌ．２，Ｎｏ．２，ｐｐ．３８３－３８６における“ＤＮＡｃｏｍｐｒｅｓｓｉｏｎｕｓｉｎｇｈａｓｈｂａｓｅｄｄａｔａｓｔｒｕｃｔｕｒｅ”において提案されている。ＤＮＡ配列は、連続する重なり合わない部分にフラグメント化され、ハッシュ関数によってビットに符号化される。結果として、ビットのより短い配列が生じ、ハッシュテーブル（「ルックアップ」テーブル）と共にアルファベットとして格納される。ハッシュテーブルでは、各ＤＮＡフラグメントが文字にマッピングされる。このように、Ａ．Ｍｅｈｔａらによる方法では、遺伝子データの圧縮が実際に達成される。ハッシュテーブルを別個に格納することにより、更にデータ保護のための利点が得られる。しかしながら、不利な点は、暗号化された（例えば、ハッシュ化された）ＤＮＡ配列が検索可能でないことである。特定の部分配列が含まれているかどうかを確認するためには、最初に完全なＤＮＡ配列を展開しなければならない。その場合にのみ、サブ配列を検索することができるが、これにより再び労力が前述された高いレベルになり、データセキュリティが損なわれる。

更に、遺伝子データのより迅速な検索のために、それをハッシュ化によってインデックスすることが知られている（“ＡｌｇｏｒｉｔｈｍｓｆｏｒＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ”（２０１６）１１：５のＴ．Ｄ．Ｗｕによる発表“Ｂｉｔｐａｃｋｉｎｇｔｅｃｈｎｉｑｕｅｓｆｏｒｉｎｄｅｘｉｎｇｇｅｎｏｍｅｓ：Ｉ．Ｈａｓｈｔａｂｌｅｓ”を参照されたい）。いわゆる「リード」は、ＤＮＡ配列にマッピングされ、ハッシュテーブルは、配列内の対応するサブセクションの位置詳細が配置される「ルックアップ」テーブルとして使用される。この場合、ハッシュ化により、ＤＮＡ配列を効率的に検索することが可能になる。しかしながら、それは暗号化されていない形態で存在し、ユーザによって直接読み取り可能である。

ハッシュ関数の更なる使用は、データ処理の他の分野から知られている。例えば、ユーザ名とパスワードを用いたデータネットワーク上のアプリケーションにおけるユーザ登録後のパスワードの暗号化においては、そのパスワードが暗号ハッシュ関数によって符号化される。そこでは、ランダムに選択された文字列（「ソルト」）を最初にパスワードに付加することができるので、パスワードのハッキングがより困難になる。符号化により決定されたハッシュ値は、データベースに格納される。ユーザが自分のユーザ名及び自分のパスワードでアプリケーションにログインすると、パスワードはハッシュ関数で符号化され、決定されたハッシュ値はデータベース内のハッシュ値と比較され、入力されたユーザ名はこのパスワードのために格納されたユーザ名と比較される。ハッシュ関数のこの用法では、ユーザ識別に必要な正しいパスワードだけでなく、ユーザ名とパスワードの正しい関連付けも必要となる。この目的のために、ユーザ名（例えば、電子メールアドレス）は、ハッシュ値のテーブルエントリに加えて、格納値として平文で利用可能である。ハッカー攻撃の場合、ユーザ名は直接知られるようになるが、パスワードは依然として符号化されて存在する。しかしながら、パスワードを破るための多くの方法があり、そのため、アクセスデータが取得された場合には、単純なパスワード又は頻繁に使用されるパスワードの場合、復号は比較的容易であると考えることができる。データセキュリティは、平文のユーザ名とハッシュ値が連結して格納されることによって制限される。

Ａ．ＭｅｈｔａａｎｄＢ．Ｐａｔｅｌ "ＤＮＡｃｏｍｐｒｅｓｓｉｏｎｕｓｉｎｇｈａｓｈｂａｓｅｄｄａｔａｓｔｒｕｃｔｕｒｅ" ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ，２０１０，ｖｏｌ．２，Ｎｏ．２，ｐｐ．３８３－３８６Ｔ．Ｄ．Ｗｕ "Ｂｉｔｐａｃｋｉｎｇｔｅｃｈｎｉｑｕｅｓｆｏｒｉｎｄｅｘｉｎｇｇｅｎｏｍｅｓ：Ｉ．Ｈａｓｈｔａｂｌｅｓ" ＡｌｇｏｒｉｔｈｍｓｆｏｒＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ"（２０１６）１１：５

本発明の目的は、特に一連の生理学的及び／又は生物学的データ、特に遺伝子データを暗号化して蓄積するための処理のための改善された方法及び改善されたデータ処理装置を提供し、それによって従来技術の欠点を回避することである。本方法及びデータ処理装置は、特に、データがより効果的に検索されることを可能にし、且つ／又はアクセスが制限される場合において、検索中に元のデータが第三者に知られることなく検索をアクセス可能にすることを意図している。

この目的は、遺伝子データを処理するための方法及び／又はデータ処理装置、データベースを照会するための方法、コンピュータプログラム製品、並びに独立請求項の特徴を有するコンピュータ可読記憶媒体によって達成される。本発明の有利な実施形態及び使用は、従属請求項によって開示される。

本発明の第１の一般的な態様によれば、上記の目的は、各々が生体分子を表す一連の配列要素を含む遺伝子データを処理する方法によって達成される。好ましくは、所定の一連の配列要素は、遺伝物質の少なくとも１つのセクション、例えば、コードセクションのみ、非コードセクションのみ、又はコードセクションと非コードセクションとの両方を含む。生体分子は、例えば、ヌクレオチド及び／又はアミノ酸を含む。遺伝子データは、例えば、少なくとも１つの遺伝子配列を含むことができる。或いは、遺伝子データは、配列形態のショートタンデムリピート（ＳＴＲ）又は一塩基多型（ＳＮＰ）プロファイルを含むことができる。

各一連の配列要素は、個体、例えば、ヒト又は動物の対象に割り当てることができる。「遺伝子データ」という表現は、少なくとも１つの一連の配列要素に関する。単一の一連の配列要素、すなわち単一の個体の遺伝子データ、又は好ましくは複数の一連の配列要素、すなわち複数の個体の遺伝子データを処理することができる。換言すれば、複数の個体の遺伝子データが好ましくは処理され、各個体の遺伝子データは、それぞれが生体分子を表す一連の配列要素を含む。

配列フラグメントは、各一連の配列要素の遺伝子データから形成される。配列フラグメントは、少なくとも２つの配列要素のフラグメント長を有する、一連の配列要素のセクションを含む。各々が配列フラグメントのうちの１つと関連付けられる複数の暗号化フラグメントデータを生成するために、符号化関数が配列フラグメントの各々に適用される。符号化関数は、例えば連続する文字によって表される各配列フラグメントに正確に１つの暗号化値を割り当てる数学関数である。符号化関数は、不可逆的であることが好ましい。符号化関数の不可逆性は、符号化関数の数学的逆関数が存在しないことを意味する。本発明のこの実施形態では、暗号化フラグメントデータから配列フラグメントを決定することはできない。更に、符号化関数は衝突耐性であり、すなわち、２つの異なる配列フラグメントの入力は異なる暗号化フラグメントデータをもたらす。或いは、特にデータセキュリティが重要ではない本発明の特定の用途においては、可逆符号化関数を使用することができる。暗号化フラグメントデータは、ストレージデバイスに転送され格納される。

本発明によれば、配列フラグメントの形成は、一連の配列要素のセクションが重なり合い、各配列要素が少なくとも２つの配列フラグメントに含まれるように行われる。遺伝子データに関して、配列フラグメントは、重なり合う。したがって、有利には、各配列要素は、配列フラグメントのうちの少なくとも２つの配列フラグメントにおける一連の配列要素のうちの少なくとも１つの直接隣接する配列要素と共に含まれる。各配列フラグメントは暗号化される。ストレージデバイス内の格納は、順序を指定することなく有利に行うことができる。

暗号化フラグメントデータは、ストレージデバイスの後の照会にとって順序が重要でない場合、ランダムな順序で格納され得る。しかしながら、格納されたデータの後の検索において、遺伝子データの全体内の特定の検索配列の位置も併せて照会される場合には、暗号化フラグメントデータの順序は、格納中でも保持される。好ましくは、暗号化フラグメントデータは、遺伝子データ、すなわち個体の一連の配列要素との関連が保持されるように格納される。更に、暗号化フラグメントデータは、ロケーション情報の項目と併せて格納され得る。位置情報は、例えば、遺伝子データが得られた細胞バンク内の細胞材料の位置、又は遺伝子データが得られた細胞材料に関する更なる情報が格納されているデータベースの位置を含む。

本発明により、遺伝子データを暗号化するための方法が提供される。暗号化フラグメントデータは、有利には、遺伝子データの全体だけでなく、形成された配列フラグメントの長さを有する全ての部分配列である。これにより、格納された暗号化フラグメントデータ内の配列要素の配列についてのより効果的な検索が可能になる。結果として、時間及び／又はエネルギーの消費を低減しつつ、遺伝子データが検索されている一連の配列要素を含むかどうかを確認することができるという技術的効果が可能になる。暗号化を解くことなく検索を実行し得ることが特に有利である。本発明は、更なる技術的効果として、データセキュリティを損なうことなく、格納された暗号化フラグメントデータを含むデータベースへのアクセス制限を取り除くことを可能にする。検索されたデータ及び／又は見つかったデータの発見に関する情報は、暗号化されずに転送され得る。

暗号化フラグメントデータは、遺伝子データの全体を表すものであるが、符号化関数の不可逆性に起因して、暗号化フラグメントデータから遺伝子データに戻すことはできない。配列フラグメントの重なり合い及び任意選択的に異なるフラグメント長に起因して、これは、より効率的なハッキング技術をもってしても、おそらくは将来的にも可能ではない。

本発明の第２の一般的な態様によれば、上記の目的は、本発明の第１の一般的な態様又はその異なる実施形態に係る方法を使用して暗号化フラグメントデータを生成し格納するように構成された、遺伝子データを処理するためのデータ処理装置によって達成される。データ処理装置は、一連の配列要素のセクションが重なり合い、各配列要素が少なくとも２つの配列フラグメントに含まれるように、配列フラグメントを形成するように構成されたフラグメント化デバイスと、複数の暗号化フラグメントデータを生成するように構成された符号化デバイスと、暗号化フラグメントデータを格納するように構成されたストレージデバイスとを備える。データ処理装置は、好ましくはコンピュータによって実現される。ストレージデバイスは、コンピュータの一部とすることができ、又は別個のデータベースとすることができる。

本発明の第３の一般的な態様によれば、上記の目的は、本発明の第１の一般的な態様又はその異なる実施形態に係る方法を使用して生成し格納した暗号化フラグメントデータを含むデータベースを照会する方法によって達成される。照会方法は、それぞれが検索される生体分子を表す所定の一連の配列要素を含む少なくとも１つの検索配列の指定を行うことと、少なくとも１つの暗号化された検索配列を生成するために、暗号化フラグメントデータの生成に用いた符号化関数を少なくとも１つの検索配列に適用することと、格納された暗号化フラグメントデータにおいて少なくとも１つの暗号化された検索配列を検索することとを含む。検索結果が肯定的である場合、検索配列が見つかったという応答を、どの遺伝子データ又はどの試料でその検索配列が見つかったかに関する情報の項目と共に、可能性のある特定の個人に関する推測なしに、ユーザに返すことができる。

検索は、例えば、特定の疾患パターンに典型的であるデータを特定するために、以下の検索クエリのうちの少なくとも１つを対象とし得る。
－検索配列は、暗号化フラグメントデータに含まれているか？
－検索配列は、暗号化フラグメントデータによって表される特定の遺伝子セクションに含まれているか？
－複数の検索配列の組み合わせ及び／又は論理結合（例えば、配列１及び配列２は配列３ではない）が存在するか？
－遺伝子データが得られた生体細胞材料はどこにあるか（局在関数）？

本発明は、完全なＤＮＡ配列などの完全な遺伝子データを符号化後に再び利用する必要がないにもかかわらず、生物学的又は医学的に関心のある問いに答えることができるという実質的な利点を有する。例えば、特定の疾患関連突然変異がＤＮＡ配列内に含まれるかどうかを、そのＤＮＡ配列を明示的に指定することなく確認することができる。

本発明によれば、例えばＡ．Ｍｅｈｔａらによる圧縮とは異なり、隣接ではなく、むしろ重なり合う配列フラグメントが生成される。本発明者らは、データの範囲が拡大されているが、特定の一連の配列要素の検索がより効果的であることを見出した。本発明によれば、Ｔ．Ｄ．Ｗｕによる遺伝子データのインデックス化とは異なり、暗号化されたデータのみが格納される。

本発明の好ましい実施形態によれば、各配列フラグメントのフラグメント長は、少なくとも３である。したがって、有利には、ほとんどの検索クエリ、特に生体分子の配列の発生に関する生物学的又は医学的に関心のある問いのほとんどを、符号化及び格納の労力を過度に増大させることなく扱うことができる。

本発明の特定の好ましい実施形態によれば、配列フラグメントの形成は、遺伝子データからの連続する配列要素のセクションの段階的な読み出しによって行われ、新しいセクションごとに１ステップずつ読み出しが進行する（ステップ幅１のウィンドウスライディングによる配列フラグメントの形成）。遺伝子データにおけるフラグメント長及び開始要素の指定後、配列フラグメントはそれぞれ、開始要素及び後続の全ての配列要素から始まりかつ所定のフラグメント長を有する、一連の配列要素のセクションによって提供される。有利には、それにより、それぞれの長さの配列要素の部分配列ごとに、関連する配列フラグメントが、その配列内の位置にかかわらず遺伝子データから生成される。

本発明の第３の一般的な態様に係るデータベースの照会では、検索配列が指定されると、最初の検索配列を、暗号化フラグメントデータが生成された配列フラグメントのフラグメント長に等しい検索配列長に短縮することができる。それにより、検索配列の長さは、暗号化フラグメントデータにマッピングされたセグメントフラグメントの長さに有利に適合される。

好ましくは、全ての配列フラグメントは同じ長さ（配列要素の数）を有する。これにより、遺伝子データの体系的で均一なカバレッジが保証される。

或いは、配列フラグメントは異なる長さを有し得る。異なるフラグメント長を有する本発明のこの代替実施形態によれば、配列フラグメントは、配列フラグメントの複数のフラグメント群を形成することができ、各フラグメント群における配列フラグメントは、それぞれ同じ長さを有し、異なるフラグメント群における配列フラグメントは、異なる長さを有し、配列フラグメントの形成は、各フラグメント群内で一連の配列要素のセクションが重なり合い、各配列要素が少なくとも２つの配列フラグメントに含まれるように行われる。ハッシュ関数を符号化関数として適用すると、各フラグメント群は、ハッシュ値テーブルを提供する。この実施形態は、異なる長さを有する検索配列の発生について、暗号化フラグメントデータが格納されたデータベースを検索することができるという特別な利点を有し、その結果、データベースの照会によって、高い情報量がもたらされ得る。遺伝子データにおいて、（フラグメント群の配列フラグメントの長さの範囲内で）自由に選択可能な長さの検索配列の発生を、その遺伝子データを知らなくても見出すことができる。フラグメント長さは、３より長く、例えば最大２０、又はそれ以上にすることができる。例えば、格納されたデータの階層的に順序付けられた構造のために、配列フラグメントからフラグメント群を選択することができる。遺伝子データの階層的に順序付けられた構造を用いて、例えば、フラグメントサイズ又はいわゆるＢツリーに基づく、データ及び／又はクラスタのネストされた配列を生成することができる。

本発明の更なる特に有利な実施形態によれば、符号化関数は、ハッシュ関数であり、暗号化フラグメントデータは、ハッシュ値である。ハッシュ関数は、配列フラグメント、すなわち自由に選択可能な長さの配列要素の配列を、それぞれ、具体的には不可逆的に、１つのハッシュ値にマッピングする。暗号化のためにハッシュ関数を使用することには、ハッシュ関数が利用可能で十分に研究されており、且つ、暗号化フラグメントデータから遺伝子データを解読することが不可能か又は極めて困難になるように不可逆性であるがゆえに、特定の利点がある。個体の遺伝子データの符号化によって、暗号化フラグメントデータがハッシュ値の形で得られる。個体のハッシュ値は、例えば、ハッシュ値テーブルの形でデータベースに格納される。データベースは、それに応じて、好ましくは、複数のハッシュ値テーブルを含む。

データセキュリティを高めるために、ハッシュ関数は、好ましくは、以下の特性のうちの少なくとも１つを有する。
－ハッシュ関数は、暗号化ハッシュ関数である（これは、有利には衝突耐性であり、その結果、２つの異なる入力に対して同一のハッシュ値を得ることは実質的に不可能となる）。
－ハッシュ関数は、少なくとも１２８ビットに相当する長さを有するハッシュ値を生成する。
－ハッシュ関数は、少なくともＳＨＡ２（セキュアハッシュアルゴリズム）規格を満たす。
－ハッシュ関数は、入力に対する小さな変化であっても完全に異なるハッシュ値を生成するアバランシェ効果を奏するように構成されている。

本発明の更なる実施形態によれば、符号化関数を適用する前に、確率的に選択された文字列が配列フラグメントの各々に付加されると有利である場合がある。有利には、付加、例えばランダムに選択された文字列（「ソルト」）の結合によって、入力の更なる処理の前に入力エントロピーを増加させることができる。代替的又は追加的に、ハッシュ関数は、配列フラグメント及び／又は暗号化フラグメントデータに対して複数回適用することができる。有利には、これにより、総当たり法によってハッシュ値から入力を推測することがより困難になる。

本発明の別の有利な変形例によれば、暗号化フラグメントデータは、データベースに格納される。データベースは、遺伝子データが取得される１つ以上の施設、好ましくは本発明に従って暗号化された、例えば臨床施設及び／又は研究所から得られた複数の個体に関するフラグメントデータが格納されるストレージデバイスである。データベースは、ユーザがアクセスするように構成される。例えば、ネットワークを介した自由なアクセス、又は特定のユーザに限定されたユーザデータに対するアクセスを可能にすることができる。

コンピュータ可読記憶媒体に記憶され、本発明の第１の一般的な態様に係る方法で配列フラグメントを形成し、複数の暗号化フラグメントデータを生成するように構成されたコンピュータプログラム製品、本発明の第１の一般的な態様に係る方法で配列フラグメントを形成し、複数の暗号化フラグメントデータを生成するように構成されたコンピュータプログラム製品が格納されたコンピュータ可読記憶媒体、及び、本発明の第１の一般的な態様に係る方法で生成された複数の検索可能な暗号化フラグメントデータを有するデータベースは、本発明の更なる独立した主題である。

本発明の更なる独立した主題として、匿名化された遺伝子データを作成するための少なくとも１つの施設、例えば臨床施設及び／又は研究所と、少なくとも１人のオペレータがデータを使用するための少なくとも１つの施設、例えば大学又は産業研究施設とを備えるシステムが提供される。

本発明の更なる詳細及び利点を、以下に示す添付の図面を参照して以下説明する。

本発明の好ましい実施形態に係る遺伝子データの処理の概略図。本発明の更なる実施形態に係る遺伝子データの暗号化及び格納並びにデータベースの照会の更なる詳細を示す図。臨床的に得られた遺伝子データの処理及びユーザによるそれらの検索のための本発明の好ましい使用の概略図。

本発明の好ましい実施形態の詳細、特に配列フラグメントの形成、それらの符号化及びデータベースへの格納、並びにデータベースの照会に関連する詳細を以下説明する。符号化関数、特にハッシュ関数の選択についての詳細は、それ自体バイオインフォマティクス又は他の技術分野における従来の符号化技術から知られているので説明しない。例として、ヌクレオチド配列を含む遺伝子データの処理における本発明の使用について言及する。本発明の使用は、これらのデータに限定されず、例えばアミノ酸配列（タンパク質配列）などの他の遺伝子データに対しても可能である。

図１は、本発明の好ましい実施形態に係る遺伝子データを処理するための方法の主要なステップを概略的に示し、更なる詳細は、例として図２に記載されている。図２はまた、フラグメント化デバイス１０と、符号化デバイス２０と、ストレージデバイス３０／データベース３０Ａとを有するデータ処理装置１００の構成要素を概略的に示す。

図１による方法シーケンスでは、まず、ステップＳ１で遺伝子データ１の作成を示している。遺伝子データ１の作成は、例えば、少なくとも１つの個体の遺伝物質の配列決定を含む。配列決定は、それ自体が公知の配列決定技術を使用して行われる。或いは、遺伝子データ１の作成は、既存のデータソース、例えば自由にアクセス可能なデータベースから遺伝子データ１を検索することを含む。遺伝子データ１は、典型的には個体のゲノムの一部を含むが、ゲノム全体を表す場合もある。例えば、特定の個体の遺伝子データ１は、その個体のｉＰＳ細胞（人工多能性幹細胞）の遺伝子データに関する。

ステップＳ１は、本発明に係る方法の作成ステップである。ステップＳ１における遺伝子データ１の作成は、ステップＳ２からＳ４の後続の処理の直前に行うこともできるし、それらから時間をおいて行うこともできる。

ステップＳ２では、続いて遺伝子データ１から配列フラグメント３が形成される。図２は、一例として、ヌクレオチド配列の形態の配列要素からなる遺伝子データ１を示す。ヌクレオチド配列は、通常Ａ、Ｔ、Ｇ及びＣと略される核酸塩基アデニン、チミン、グアニン及びシトシンからなる。配列フラグメント３のように、ｋ量体（ここでは、例えばｋ＝３である）が形成される。開始要素２（例えば、Ｔ）から始まって、長さ３の配列フラグメント３の段階的読み出しが行われる。配列フラグメント３の提供は、スライディングウィンドウを使用した読み出しによって行われる。結果として、配列フラグメント３の連続体４が形成される。ステップＳ２は、それ自体既知のスライディングウィンドウアルゴリズムで実施することができる。

続いて、ステップＳ３では、配列フラグメント３の符号化が、符号化デバイス２０を用いて行われる。符号化デバイス２０は、配列フラグメント３にハッシュ関数ｆ_Ｈを適用するように構成される。ハッシュ関数を適用した結果、ハッシュ値テーブルが得られる。ハッシュ値テーブルの要素は、配列フラグメント３を表す暗号化フラグメントデータ５である。したがって、このハッシュ値テーブルは、個人のゲノム配列を、その個人の身元を推測することができない形態又はそれに同等の形態で含む。

図２の表現とは別に、ハッシュ関数ｆ_Ｈの単回の適用は、最初に配列フラグメント３に対して適用を行い、更に暗号化フラグメントデータ５に対して少なくとも１回の適用を行う形態の、ハッシュ関数ｆ_Ｈの反復（少なくとも２重）適用に置き換えることができる。

配列フラグメント３の符号化は、ハッシュ値テーブルに暗号化フラグメントデータ５を提供する。次に、ステップＳ４では、暗号化フラグメントデータ５（符号化配列フラグメント）が、ストレージデバイス３０、例えばデータベース３０Ａに格納される。データベース３０Ａは、データ処理装置１００の一部であるか、又は、それとは別に設けられる。ハッシュ値テーブルの、すなわち個体の暗号化フラグメントデータ５は、暗号化フラグメントデータ５と個体から得た匿名サンプルとの関連付けが維持されるように、それぞれ、所定のストレージセクションに格納され、且つ／又は特定のハッシュ値テーブルへの割り当てを表す配列識別情報（サンプルＩＤ）と共に格納される。

データベース３０Ａの照会のために、図２の右側部分に示すように、核酸、例えばＡＴＧの検索配列６が最初に作成され（ステップＳ５）、ハッシュ関数を適用することによって暗号化される（ステップＳ６）。これにより、暗号化された検索配列７がハッシュ値の形で作成される。その後、このハッシュ値の発生について、それ自体公知の検索技術を用いてデータベースを検索する（ステップＳ７）。暗号化された検索配列７が見つかると、見つかった検索配列が属するハッシュ値テーブルが取得される。複数のハッシュ値テーブルを有するデータベース３０Ａのデータ構造によって、この検索に要する実行時間は一定であり、それゆえ効率的である。

本発明の好ましい使用の更なる詳細を図３に示す。この使用では、臨床施設及び／又は研究所によって匿名化された遺伝子データを作成し、オペレータ、例えば大学又は産業研究施設がそのデータを使用するためのシステム２００が提供される。図３の左側には、例えば臨床施設４０において遺伝子データ１がどのように作成されるかが概略的に示されている（ステップＳ１）。実際の例では、システム２００は、複数のオペレータと、データベース又は複数のデータベースに共通にアクセスする複数のユーザとを含むことができる。続いて、遺伝子データ１は、符号化された配列フラグメント５を作成するために、本発明に係るステップＳ２及びＳ３の方法に供され、それらの配列フラグメント５をデータベース３０Ａに格納する（ステップＳ４）。

研究施設５０は、遺伝子データ１の評価に関心を持っている。例えば、特定の疾患の検索にあたって、作成された検索配列６（ステップＳ５）が遺伝子データ１に含まれているか否かという問いが生じる（上の両矢印参照）。しかしながら、この直接的なクエリは、遺伝子データ１の検索のための過度の労力及びデータの保護のために困難になり、又は不可能でさえある。それにもかかわらず、遺伝子データ１を検索できるようにするために、上述したように、検索配列６は、ハッシュ値を生成するための符号化に供され（ステップＳ６）、その後、データベース３０Ａにおいて検索を実行することができる（ステップＳ７）。検索の結果、格納された暗号化フラグメントデータ５が検索された暗号化された検索配列７を含む場合、関連する遺伝子データ１、すなわち特定の個体のデータセットが特定される。その後、この特別なデータセットに関連するクエリは、関連する検索配列を有する個体及び／又は関連する検索配列を有する個体の細胞材料に関する更なる情報を、例えば細胞バンクから取得するために、データセキュリティの規則を遵守しつつ、研究施設５０から臨床施設４０に対して行うことができる。

与えられた例は、遺伝子データの正確な知識なしに、個別化医療の分野からの特定の問いを処理できるようにする本発明の１つの可能な使用を表しているに過ぎないことに留意されたい。利用可能なデータ及び／又はデータ形式に応じて、データベース内における同じデータ点のハッシュ値の一致を実現するために、検索配列及び／又は検索の問いの必要なフォーマットのみが定められている。

本発明の使用のための更なる例としては、研究施設が特定の疾患を調査することを望み、この目的のために、細胞バンクから特定の遺伝的特徴を有する細胞材料を必要とする場合が挙げられる。細胞バンクに保存された材料の遺伝子データを本発明に従って処理する場合、本発明を適用することによって、遺伝子データにアクセスすることなく細胞バンクから適切な細胞株を見出すことができる。研究施設は、どの細胞株が計画された研究を実施するために必要とされるかに関する情報を、その細胞材料自体の配列決定を行うことを必要としないで、コスト及び時間の消費を大幅に削減しつつ取得する。

上記の説明、図面、及び特許請求の範囲に開示された本発明の特徴は、その様々な実施形態において本発明を実現するために、単独で、又はコンビネーション若しくはサブコンビネーションの形で意味をなし得る。

Claims

それぞれ生体分子を表す一連の配列要素を含む遺伝子データ（１）を処理するための方法であって、
配列フラグメント（３）を形成するステップであって、各配列フラグメント（３）は、少なくとも２つの配列要素のフラグメント長を有する、前記一連の配列要素のセクションを含む、ステップ（Ｓ２）と、
各々が前記配列フラグメント（３）のうちの１つと関連付けられた複数の暗号化フラグメントデータ（５）を生成するために、前記配列フラグメント（３）の各々に符号化関数を適用するステップ（Ｓ３）と、
前記暗号化フラグメントデータ（５）を格納するステップ（Ｓ４）と、
を含み、
前記配列フラグメント（３）を形成するステップは、前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも２つの配列フラグメント（３）に含まれるように行われる、
ことを特徴とする、
方法。
各配列フラグメント（３）の前記フラグメント長は、少なくとも３である、
請求項１に記載の方法。
前記配列フラグメント（３）を形成するステップは、
前記遺伝子データ（１）における前記フラグメント長及び開始要素（２）を指定することと、
前記開始要素（２）及び後続の全ての配列要素から始まりかつ前記所定のフラグメント長を有する、前記一連の配列要素のセクションによって、前記配列フラグメント（３）をそれぞれ提供することと、
を含む、
請求項１又は２に記載の方法。
全ての前記配列フラグメント（３）は、同じ長さを有する、
請求項１～３のいずれか一項に記載の方法。
前記配列フラグメント（３）は、配列フラグメント（３）の複数のフラグメント群を形成し、
各フラグメント群における前記配列フラグメント（３）は、それぞれ同じ長さを有し、
異なるフラグメント群における前記配列フラグメント（３）は、異なる長さを有し、
前記配列フラグメント（３）を形成するステップは、各フラグメント群において前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも２つの配列フラグメント（３）に含まれるように行われる、
請求項１～３のいずれか一項に記載の方法。
前記符号化関数は、ハッシュ関数（ｆ_Ｈ）であり、前記暗号化フラグメントデータ（５）は、ハッシュ値を含む、
請求項１～５のいずれか一項に記載の方法。
前記配列フラグメント（３）を形成するステップは、前記符号化関数を適用する前に、
確率的に選択された文字列を前記配列フラグメントの各々にそれぞれ付加することを含む、
請求項１～６のいずれか一項に記載の方法。
複数の個体からの遺伝子データ（１）が処理され、各個体の前記遺伝子データ（１）は、それぞれ生体分子を表す一連の配列要素を含むという特徴、
前記暗号化フラグメントデータ（５）は、データベース（３０Ａ）に格納されるという特徴、
前記所定の一連の配列要素は、遺伝物質のセクションを含むという特徴、及び
前記遺伝子データ（１）は、ヌクレオチド配列又はアミノ酸配列を表すという特徴、
のうちの少なくとも１つを有する、
請求項１～７のいずれか一項に記載の方法。
請求項１～８のいずれか一項に記載の方法を用いて暗号化フラグメントデータ（５）を生成し格納するように構成されたデータ処理装置（１００）であって、
前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも２つの配列フラグメント（３）に含まれるように、前記配列フラグメント（３）を形成するように構成されたフラグメント化デバイス（１０）と、
前記複数の暗号化フラグメントデータ（５）を生成するように構成された符号化デバイス（２０）と、
前記暗号化フラグメントデータ（５）を格納するように構成されたストレージデバイス（３０）と、
を備える、
データ処理装置（１００）。
コンピュータ可読記憶媒体に格納され、
請求項１～８のいずれか一項に記載の方法で前記配列フラグメント（３）を形成し、前記複数の暗号化フラグメントデータ（５）を生成するように構成された、
コンピュータプログラム製品。
請求項１～８のいずれか一項に記載の方法で前記配列フラグメント（３）を形成し、前記複数の暗号化フラグメントデータ（５）を生成するように構成されたコンピュータプログラム製品が格納された、
コンピュータ可読記憶媒体。
請求項１～８のいずれか一項に記載の方法で生成された複数の検索可能な暗号化フラグメントデータ（５）を有するデータベース（３０Ａ）。
請求項１～８のいずれか一項に記載の方法で生成され格納された暗号化フラグメントデータ（５）を含むデータベース（３０Ａ）を照会するための方法であって、
それぞれ生体分子を表す所定の一連の配列要素を含む検索配列（６）の指定を行うステップと、
暗号化された検索配列（７）を生成するために、前記暗号化フラグメントデータ（５）の生成に用いた前記符号化関数を前記検索配列に適用するステップと、
前記格納された暗号化フラグメントデータ（５）において前記暗号化された検索配列を検索するステップと、
を含む、
方法。
前記検索配列（６）の前記指定は、最初の検索配列を、前記暗号化フラグメントデータ（５）が生成された前記配列フラグメント（３）の前記フラグメント長に等しい検索配列長へ短縮することを含む、
請求項１３に記載の方法。