JP2023506271A - 遺伝子データを処理するための方法及びデータ処理装置 - Google Patents

遺伝子データを処理するための方法及びデータ処理装置 Download PDF

Info

Publication number
JP2023506271A
JP2023506271A JP2022536935A JP2022536935A JP2023506271A JP 2023506271 A JP2023506271 A JP 2023506271A JP 2022536935 A JP2022536935 A JP 2022536935A JP 2022536935 A JP2022536935 A JP 2022536935A JP 2023506271 A JP2023506271 A JP 2023506271A
Authority
JP
Japan
Prior art keywords
sequence
data
fragment
encrypted
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022536935A
Other languages
English (en)
Inventor
ツィンマーマン、ハイコ
ミュラー、サビーネ
Original Assignee
フラウンホーファー-ゲゼルシャフト ツゥア フェアデルング デア アンゲヴァンドテン フォァシュング エー.ファウ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト ツゥア フェアデルング デア アンゲヴァンドテン フォァシュング エー.ファウ. filed Critical フラウンホーファー-ゲゼルシャフト ツゥア フェアデルング デア アンゲヴァンドテン フォァシュング エー.ファウ.
Publication of JP2023506271A publication Critical patent/JP2023506271A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Computer Security & Cryptography (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

それぞれ生体分子を表す一連の配列要素を含む遺伝子データを処理するための方法は、配列フラグメントを形成するステップ(S2)であって、各配列フラグメントが少なくとも2つの配列要素のフラグメント長を有する、一連の配列要素のセクションを含む、ステップと、各々が配列フラグメントのうちの1つと関連付けられた複数の暗号化フラグメントデータを生成するために、配列フラグメントの各々に符号化関数を適用するステップ(S3)と、暗号化フラグメントデータを格納するステップ(S4)とを含み、配列フラグメントを形成するステップは、一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの前記配列フラグメントに含まれるように行われる。また、遺伝子データを処理するための方法を使用して遺伝子データを処理するためのデータ処理装置、及び該方法を使用して生成され格納された暗号化フラグメントデータを含むデータベースを照会するための方法も開示される。

Description

本発明は、処理のための方法及びデータ処理装置に関し、詳細には、一連の生体分子を表す遺伝子データ、例えばヌクレオチド配列、アミノ酸配列及び/又はタンパク質配列からのデータを暗号化するための方法及びデータ処理装置に関する。本発明はまた、上記方法を用いて生成され格納された暗号化遺伝子データを含むデータベースを照会するための方法に関する。本発明の用途は、バイオインフォマティクス、医学、細胞生物学、幹細胞技術、薬理学及び/又はバイオテクノロジーの分野、特に遺伝子データの処理の分野である。
効果的な配列決定技術によって、ここ数年にわたって、遺伝子データが記録され蓄積される可能性、及び臨床施設のデータベースに蓄積される遺伝子データの範囲が著しく増大したことが一般に知られている。例えば、遺伝子データは、複数の受診者から臨床施設で取得され、その受診者に関する他のデータ、例えば識別データ並びにその受診者の生活状態及び/又は健康状態に関するデータと併せて蓄積される。
これらのデータは、当該受診者の検査及び/又は治療における診断及び治療目的のためだけのものではない。むしろ、これらのデータは、例えば薬理学における研究開発のための情報の貴重な蓄積である。遺伝子データは、疾患の原因又は疾患機序に関する情報を提供することができる。遺伝子データはまた、個別化された治療法、又は行動若しくは栄養に関する推奨の開発、及びそれらの患者への個別の適用を可能にする。また、研究のために、遺伝子データにアクセスし、例えば疾患モデルとしての、例えば薬理学的製剤の標的調査の目的、又は疾患の原因の分析の目的で、例えば、所定の遺伝的性質(及び、関連する場合、特定の疾患及び生活様式の状態)を有する特定の個体又はこれらの個体由来の細胞試料を同定することに関心が集まっている。
したがって、所定の特徴、例えば所定のアミノ酸配列の有無について多数の個体の蓄積された遺伝子データを検索すること、及びそれによって同定された個体の遺伝子データを取得し、またそれを更なる調査に利用することに関心が集まっている。
しかしながら、臨床的に又はその他の方法で得られた個々の遺伝子データの検索及び処理にあたって、また、それらのデータの共有(データ共有)にあたって、特に国際協力において、以下の問題が生じる。
ヒトゲノムは約30億個の塩基対を有する。多数の個体、例えば数万人の患者のデータの調査においては、非常に大量のデータが発生し、特定の検索配列又は検索配列の組み合わせを検索するのに非常に手間がかかる。このように、遺伝子データの検索の有効性(例えば、エネルギー使用量及び/又は持続時間)を改善することに関心が集まっている。
遺伝子データの検索における更なる制約は、個人自らのデータ保護に対する関心にある。遺伝子データは、ヒトの先天的及び/又は後天的な遺伝的特性を定義するものであり、それは唯一無二の慎重に扱うべき情報である。現在では、遺伝子データをそれに関連する個人の識別データから分離した後でさえ、そのデータを特定の個人と照合することが依然として可能であると考えられている。遺伝子データの完全な匿名化には、その変造が必要となるが、その後は、そのデータについての更なる信頼できる調査は不可能になるであろう。そのため、遺伝子データは、良くて擬似命名されることはあるが、完全に匿名化されることはない。
したがって、遺伝子データを有するデータベースの操作については、データセキュリティ(損失、誤用、改ざん及び/又は他の脅威からの保護)が実質的な要件となる。ヒト関連データは、例えばドイツで一般データ保護規則(DSGVO)によって制定されている、誤用に対する法的に規制された保護の対象となる。
データ保護に関する法的規則により、通常、臨床的に得られた遺伝子データを有するデータベースへの第三者によるアクセスは、排除され、具体的には物理的に中断される。遺伝子データの匿名化が本質的に不可能であり、又は困難であるため、データネットワークを介したオープンアクセス、又は認可された問い合わせのための条件付きアクセスのいずれも不可能である。データ保護を保証しつつ、研究開発又は他の調査目的でヒトに関連する遺伝子データのポテンシャルを更に利用することができるようにするために、遺伝子データの取り扱いに対する新しいアプローチに関心が集まっている。
圧縮目的で暗号化された遺伝子データを蓄積することが知られている。暗号化は、例えば、ハッシュ関数を使用することによって行うことができる。DNA配列のバイナリコード化によって記憶空間を節約することが、A.Mehtaらによって、“International Journal of Information and Knowledge Management”,2010,vol.2,No.2,pp.383-386における“DNA compression using hash based data structure”において提案されている。DNA配列は、連続する重なり合わない部分にフラグメント化され、ハッシュ関数によってビットに符号化される。結果として、ビットのより短い配列が生じ、ハッシュテーブル(「ルックアップ」テーブル)と共にアルファベットとして格納される。ハッシュテーブルでは、各DNAフラグメントが文字にマッピングされる。このように、A.Mehtaらによる方法では、遺伝子データの圧縮が実際に達成される。ハッシュテーブルを別個に格納することにより、更にデータ保護のための利点が得られる。しかしながら、不利な点は、暗号化された(例えば、ハッシュ化された)DNA配列が検索可能でないことである。特定の部分配列が含まれているかどうかを確認するためには、最初に完全なDNA配列を展開しなければならない。その場合にのみ、サブ配列を検索することができるが、これにより再び労力が前述された高いレベルになり、データセキュリティが損なわれる。
更に、遺伝子データのより迅速な検索のために、それをハッシュ化によってインデックスすることが知られている(“Algorithms for Molecular Biology”(2016)11:5のT.D.Wuによる発表“Bitpacking techniques for indexing genomes:I.Hash tables”を参照されたい)。いわゆる「リード」は、DNA配列にマッピングされ、ハッシュテーブルは、配列内の対応するサブセクションの位置詳細が配置される「ルックアップ」テーブルとして使用される。この場合、ハッシュ化により、DNA配列を効率的に検索することが可能になる。しかしながら、それは暗号化されていない形態で存在し、ユーザによって直接読み取り可能である。
ハッシュ関数の更なる使用は、データ処理の他の分野から知られている。例えば、ユーザ名とパスワードを用いたデータネットワーク上のアプリケーションにおけるユーザ登録後のパスワードの暗号化においては、そのパスワードが暗号ハッシュ関数によって符号化される。そこでは、ランダムに選択された文字列(「ソルト」)を最初にパスワードに付加することができるので、パスワードのハッキングがより困難になる。符号化により決定されたハッシュ値は、データベースに格納される。ユーザが自分のユーザ名及び自分のパスワードでアプリケーションにログインすると、パスワードはハッシュ関数で符号化され、決定されたハッシュ値はデータベース内のハッシュ値と比較され、入力されたユーザ名はこのパスワードのために格納されたユーザ名と比較される。ハッシュ関数のこの用法では、ユーザ識別に必要な正しいパスワードだけでなく、ユーザ名とパスワードの正しい関連付けも必要となる。この目的のために、ユーザ名(例えば、電子メールアドレス)は、ハッシュ値のテーブルエントリに加えて、格納値として平文で利用可能である。ハッカー攻撃の場合、ユーザ名は直接知られるようになるが、パスワードは依然として符号化されて存在する。しかしながら、パスワードを破るための多くの方法があり、そのため、アクセスデータが取得された場合には、単純なパスワード又は頻繁に使用されるパスワードの場合、復号は比較的容易であると考えることができる。データセキュリティは、平文のユーザ名とハッシュ値が連結して格納されることによって制限される。
A. Mehta and B. Patel "DNA compression using hash based data structure" International Journal of Information and Knowledge Management,2010,vol.2,No.2,pp.383-386 T.D.Wu "Bitpacking techniques for indexing genomes:I.Hash tables" Algorithms for Molecular Biology"(2016)11:5
本発明の目的は、特に一連の生理学的及び/又は生物学的データ、特に遺伝子データを暗号化して蓄積するための処理のための改善された方法及び改善されたデータ処理装置を提供し、それによって従来技術の欠点を回避することである。本方法及びデータ処理装置は、特に、データがより効果的に検索されることを可能にし、且つ/又はアクセスが制限される場合において、検索中に元のデータが第三者に知られることなく検索をアクセス可能にすることを意図している。
この目的は、遺伝子データを処理するための方法及び/又はデータ処理装置、データベースを照会するための方法、コンピュータプログラム製品、並びに独立請求項の特徴を有するコンピュータ可読記憶媒体によって達成される。本発明の有利な実施形態及び使用は、従属請求項によって開示される。
本発明の第1の一般的な態様によれば、上記の目的は、各々が生体分子を表す一連の配列要素を含む遺伝子データを処理する方法によって達成される。好ましくは、所定の一連の配列要素は、遺伝物質の少なくとも1つのセクション、例えば、コードセクションのみ、非コードセクションのみ、又はコードセクションと非コードセクションとの両方を含む。生体分子は、例えば、ヌクレオチド及び/又はアミノ酸を含む。遺伝子データは、例えば、少なくとも1つの遺伝子配列を含むことができる。或いは、遺伝子データは、配列形態のショートタンデムリピート(STR)又は一塩基多型(SNP)プロファイルを含むことができる。
各一連の配列要素は、個体、例えば、ヒト又は動物の対象に割り当てることができる。「遺伝子データ」という表現は、少なくとも1つの一連の配列要素に関する。単一の一連の配列要素、すなわち単一の個体の遺伝子データ、又は好ましくは複数の一連の配列要素、すなわち複数の個体の遺伝子データを処理することができる。換言すれば、複数の個体の遺伝子データが好ましくは処理され、各個体の遺伝子データは、それぞれが生体分子を表す一連の配列要素を含む。
配列フラグメントは、各一連の配列要素の遺伝子データから形成される。配列フラグメントは、少なくとも2つの配列要素のフラグメント長を有する、一連の配列要素のセクションを含む。各々が配列フラグメントのうちの1つと関連付けられる複数の暗号化フラグメントデータを生成するために、符号化関数が配列フラグメントの各々に適用される。符号化関数は、例えば連続する文字によって表される各配列フラグメントに正確に1つの暗号化値を割り当てる数学関数である。符号化関数は、不可逆的であることが好ましい。符号化関数の不可逆性は、符号化関数の数学的逆関数が存在しないことを意味する。本発明のこの実施形態では、暗号化フラグメントデータから配列フラグメントを決定することはできない。更に、符号化関数は衝突耐性であり、すなわち、2つの異なる配列フラグメントの入力は異なる暗号化フラグメントデータをもたらす。或いは、特にデータセキュリティが重要ではない本発明の特定の用途においては、可逆符号化関数を使用することができる。暗号化フラグメントデータは、ストレージデバイスに転送され格納される。
本発明によれば、配列フラグメントの形成は、一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメントに含まれるように行われる。遺伝子データに関して、配列フラグメントは、重なり合う。したがって、有利には、各配列要素は、配列フラグメントのうちの少なくとも2つの配列フラグメントにおける一連の配列要素のうちの少なくとも1つの直接隣接する配列要素と共に含まれる。各配列フラグメントは暗号化される。ストレージデバイス内の格納は、順序を指定することなく有利に行うことができる。
暗号化フラグメントデータは、ストレージデバイスの後の照会にとって順序が重要でない場合、ランダムな順序で格納され得る。しかしながら、格納されたデータの後の検索において、遺伝子データの全体内の特定の検索配列の位置も併せて照会される場合には、暗号化フラグメントデータの順序は、格納中でも保持される。好ましくは、暗号化フラグメントデータは、遺伝子データ、すなわち個体の一連の配列要素との関連が保持されるように格納される。更に、暗号化フラグメントデータは、ロケーション情報の項目と併せて格納され得る。位置情報は、例えば、遺伝子データが得られた細胞バンク内の細胞材料の位置、又は遺伝子データが得られた細胞材料に関する更なる情報が格納されているデータベースの位置を含む。
本発明により、遺伝子データを暗号化するための方法が提供される。暗号化フラグメントデータは、有利には、遺伝子データの全体だけでなく、形成された配列フラグメントの長さを有する全ての部分配列である。これにより、格納された暗号化フラグメントデータ内の配列要素の配列についてのより効果的な検索が可能になる。結果として、時間及び/又はエネルギーの消費を低減しつつ、遺伝子データが検索されている一連の配列要素を含むかどうかを確認することができるという技術的効果が可能になる。暗号化を解くことなく検索を実行し得ることが特に有利である。本発明は、更なる技術的効果として、データセキュリティを損なうことなく、格納された暗号化フラグメントデータを含むデータベースへのアクセス制限を取り除くことを可能にする。検索されたデータ及び/又は見つかったデータの発見に関する情報は、暗号化されずに転送され得る。
暗号化フラグメントデータは、遺伝子データの全体を表すものであるが、符号化関数の不可逆性に起因して、暗号化フラグメントデータから遺伝子データに戻すことはできない。配列フラグメントの重なり合い及び任意選択的に異なるフラグメント長に起因して、これは、より効率的なハッキング技術をもってしても、おそらくは将来的にも可能ではない。
本発明の第2の一般的な態様によれば、上記の目的は、本発明の第1の一般的な態様又はその異なる実施形態に係る方法を使用して暗号化フラグメントデータを生成し格納するように構成された、遺伝子データを処理するためのデータ処理装置によって達成される。データ処理装置は、一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメントに含まれるように、配列フラグメントを形成するように構成されたフラグメント化デバイスと、複数の暗号化フラグメントデータを生成するように構成された符号化デバイスと、暗号化フラグメントデータを格納するように構成されたストレージデバイスとを備える。データ処理装置は、好ましくはコンピュータによって実現される。ストレージデバイスは、コンピュータの一部とすることができ、又は別個のデータベースとすることができる。
本発明の第3の一般的な態様によれば、上記の目的は、本発明の第1の一般的な態様又はその異なる実施形態に係る方法を使用して生成し格納した暗号化フラグメントデータを含むデータベースを照会する方法によって達成される。照会方法は、それぞれが検索される生体分子を表す所定の一連の配列要素を含む少なくとも1つの検索配列の指定を行うことと、少なくとも1つの暗号化された検索配列を生成するために、暗号化フラグメントデータの生成に用いた符号化関数を少なくとも1つの検索配列に適用することと、格納された暗号化フラグメントデータにおいて少なくとも1つの暗号化された検索配列を検索することとを含む。検索結果が肯定的である場合、検索配列が見つかったという応答を、どの遺伝子データ又はどの試料でその検索配列が見つかったかに関する情報の項目と共に、可能性のある特定の個人に関する推測なしに、ユーザに返すことができる。
検索は、例えば、特定の疾患パターンに典型的であるデータを特定するために、以下の検索クエリのうちの少なくとも1つを対象とし得る。
-検索配列は、暗号化フラグメントデータに含まれているか?
-検索配列は、暗号化フラグメントデータによって表される特定の遺伝子セクションに含まれているか?
-複数の検索配列の組み合わせ及び/又は論理結合(例えば、配列1及び配列2は配列3ではない)が存在するか?
-遺伝子データが得られた生体細胞材料はどこにあるか(局在関数)?
本発明は、完全なDNA配列などの完全な遺伝子データを符号化後に再び利用する必要がないにもかかわらず、生物学的又は医学的に関心のある問いに答えることができるという実質的な利点を有する。例えば、特定の疾患関連突然変異がDNA配列内に含まれるかどうかを、そのDNA配列を明示的に指定することなく確認することができる。
本発明によれば、例えばA.Mehtaらによる圧縮とは異なり、隣接ではなく、むしろ重なり合う配列フラグメントが生成される。本発明者らは、データの範囲が拡大されているが、特定の一連の配列要素の検索がより効果的であることを見出した。本発明によれば、T.D.Wuによる遺伝子データのインデックス化とは異なり、暗号化されたデータのみが格納される。
本発明の好ましい実施形態によれば、各配列フラグメントのフラグメント長は、少なくとも3である。したがって、有利には、ほとんどの検索クエリ、特に生体分子の配列の発生に関する生物学的又は医学的に関心のある問いのほとんどを、符号化及び格納の労力を過度に増大させることなく扱うことができる。
本発明の特定の好ましい実施形態によれば、配列フラグメントの形成は、遺伝子データからの連続する配列要素のセクションの段階的な読み出しによって行われ、新しいセクションごとに1ステップずつ読み出しが進行する(ステップ幅1のウィンドウスライディングによる配列フラグメントの形成)。遺伝子データにおけるフラグメント長及び開始要素の指定後、配列フラグメントはそれぞれ、開始要素及び後続の全ての配列要素から始まりかつ所定のフラグメント長を有する、一連の配列要素のセクションによって提供される。有利には、それにより、それぞれの長さの配列要素の部分配列ごとに、関連する配列フラグメントが、その配列内の位置にかかわらず遺伝子データから生成される。
本発明の第3の一般的な態様に係るデータベースの照会では、検索配列が指定されると、最初の検索配列を、暗号化フラグメントデータが生成された配列フラグメントのフラグメント長に等しい検索配列長に短縮することができる。それにより、検索配列の長さは、暗号化フラグメントデータにマッピングされたセグメントフラグメントの長さに有利に適合される。
好ましくは、全ての配列フラグメントは同じ長さ(配列要素の数)を有する。これにより、遺伝子データの体系的で均一なカバレッジが保証される。
或いは、配列フラグメントは異なる長さを有し得る。異なるフラグメント長を有する本発明のこの代替実施形態によれば、配列フラグメントは、配列フラグメントの複数のフラグメント群を形成することができ、各フラグメント群における配列フラグメントは、それぞれ同じ長さを有し、異なるフラグメント群における配列フラグメントは、異なる長さを有し、配列フラグメントの形成は、各フラグメント群内で一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメントに含まれるように行われる。ハッシュ関数を符号化関数として適用すると、各フラグメント群は、ハッシュ値テーブルを提供する。この実施形態は、異なる長さを有する検索配列の発生について、暗号化フラグメントデータが格納されたデータベースを検索することができるという特別な利点を有し、その結果、データベースの照会によって、高い情報量がもたらされ得る。遺伝子データにおいて、(フラグメント群の配列フラグメントの長さの範囲内で)自由に選択可能な長さの検索配列の発生を、その遺伝子データを知らなくても見出すことができる。フラグメント長さは、3より長く、例えば最大20、又はそれ以上にすることができる。例えば、格納されたデータの階層的に順序付けられた構造のために、配列フラグメントからフラグメント群を選択することができる。遺伝子データの階層的に順序付けられた構造を用いて、例えば、フラグメントサイズ又はいわゆるBツリーに基づく、データ及び/又はクラスタのネストされた配列を生成することができる。
本発明の更なる特に有利な実施形態によれば、符号化関数は、ハッシュ関数であり、暗号化フラグメントデータは、ハッシュ値である。ハッシュ関数は、配列フラグメント、すなわち自由に選択可能な長さの配列要素の配列を、それぞれ、具体的には不可逆的に、1つのハッシュ値にマッピングする。暗号化のためにハッシュ関数を使用することには、ハッシュ関数が利用可能で十分に研究されており、且つ、暗号化フラグメントデータから遺伝子データを解読することが不可能か又は極めて困難になるように不可逆性であるがゆえに、特定の利点がある。個体の遺伝子データの符号化によって、暗号化フラグメントデータがハッシュ値の形で得られる。個体のハッシュ値は、例えば、ハッシュ値テーブルの形でデータベースに格納される。データベースは、それに応じて、好ましくは、複数のハッシュ値テーブルを含む。
データセキュリティを高めるために、ハッシュ関数は、好ましくは、以下の特性のうちの少なくとも1つを有する。
-ハッシュ関数は、暗号化ハッシュ関数である(これは、有利には衝突耐性であり、その結果、2つの異なる入力に対して同一のハッシュ値を得ることは実質的に不可能となる)。
-ハッシュ関数は、少なくとも128ビットに相当する長さを有するハッシュ値を生成する。
-ハッシュ関数は、少なくともSHA2(セキュアハッシュアルゴリズム)規格を満たす。
-ハッシュ関数は、入力に対する小さな変化であっても完全に異なるハッシュ値を生成するアバランシェ効果を奏するように構成されている。
本発明の更なる実施形態によれば、符号化関数を適用する前に、確率的に選択された文字列が配列フラグメントの各々に付加されると有利である場合がある。有利には、付加、例えばランダムに選択された文字列(「ソルト」)の結合によって、入力の更なる処理の前に入力エントロピーを増加させることができる。代替的又は追加的に、ハッシュ関数は、配列フラグメント及び/又は暗号化フラグメントデータに対して複数回適用することができる。有利には、これにより、総当たり法によってハッシュ値から入力を推測することがより困難になる。
本発明の別の有利な変形例によれば、暗号化フラグメントデータは、データベースに格納される。データベースは、遺伝子データが取得される1つ以上の施設、好ましくは本発明に従って暗号化された、例えば臨床施設及び/又は研究所から得られた複数の個体に関するフラグメントデータが格納されるストレージデバイスである。データベースは、ユーザがアクセスするように構成される。例えば、ネットワークを介した自由なアクセス、又は特定のユーザに限定されたユーザデータに対するアクセスを可能にすることができる。
コンピュータ可読記憶媒体に記憶され、本発明の第1の一般的な態様に係る方法で配列フラグメントを形成し、複数の暗号化フラグメントデータを生成するように構成されたコンピュータプログラム製品、本発明の第1の一般的な態様に係る方法で配列フラグメントを形成し、複数の暗号化フラグメントデータを生成するように構成されたコンピュータプログラム製品が格納されたコンピュータ可読記憶媒体、及び、本発明の第1の一般的な態様に係る方法で生成された複数の検索可能な暗号化フラグメントデータを有するデータベースは、本発明の更なる独立した主題である。
本発明の更なる独立した主題として、匿名化された遺伝子データを作成するための少なくとも1つの施設、例えば臨床施設及び/又は研究所と、少なくとも1人のオペレータがデータを使用するための少なくとも1つの施設、例えば大学又は産業研究施設とを備えるシステムが提供される。
本発明の更なる詳細及び利点を、以下に示す添付の図面を参照して以下説明する。
本発明の好ましい実施形態に係る遺伝子データの処理の概略図。 本発明の更なる実施形態に係る遺伝子データの暗号化及び格納並びにデータベースの照会の更なる詳細を示す図。 臨床的に得られた遺伝子データの処理及びユーザによるそれらの検索のための本発明の好ましい使用の概略図。
本発明の好ましい実施形態の詳細、特に配列フラグメントの形成、それらの符号化及びデータベースへの格納、並びにデータベースの照会に関連する詳細を以下説明する。符号化関数、特にハッシュ関数の選択についての詳細は、それ自体バイオインフォマティクス又は他の技術分野における従来の符号化技術から知られているので説明しない。例として、ヌクレオチド配列を含む遺伝子データの処理における本発明の使用について言及する。本発明の使用は、これらのデータに限定されず、例えばアミノ酸配列(タンパク質配列)などの他の遺伝子データに対しても可能である。
図1は、本発明の好ましい実施形態に係る遺伝子データを処理するための方法の主要なステップを概略的に示し、更なる詳細は、例として図2に記載されている。図2はまた、フラグメント化デバイス10と、符号化デバイス20と、ストレージデバイス30/データベース30Aとを有するデータ処理装置100の構成要素を概略的に示す。
図1による方法シーケンスでは、まず、ステップS1で遺伝子データ1の作成を示している。遺伝子データ1の作成は、例えば、少なくとも1つの個体の遺伝物質の配列決定を含む。配列決定は、それ自体が公知の配列決定技術を使用して行われる。或いは、遺伝子データ1の作成は、既存のデータソース、例えば自由にアクセス可能なデータベースから遺伝子データ1を検索することを含む。遺伝子データ1は、典型的には個体のゲノムの一部を含むが、ゲノム全体を表す場合もある。例えば、特定の個体の遺伝子データ1は、その個体のiPS細胞(人工多能性幹細胞)の遺伝子データに関する。
ステップS1は、本発明に係る方法の作成ステップである。ステップS1における遺伝子データ1の作成は、ステップS2からS4の後続の処理の直前に行うこともできるし、それらから時間をおいて行うこともできる。
ステップS2では、続いて遺伝子データ1から配列フラグメント3が形成される。図2は、一例として、ヌクレオチド配列の形態の配列要素からなる遺伝子データ1を示す。ヌクレオチド配列は、通常A、T、G及びCと略される核酸塩基アデニン、チミン、グアニン及びシトシンからなる。配列フラグメント3のように、k量体(ここでは、例えばk=3である)が形成される。開始要素2(例えば、T)から始まって、長さ3の配列フラグメント3の段階的読み出しが行われる。配列フラグメント3の提供は、スライディングウィンドウを使用した読み出しによって行われる。結果として、配列フラグメント3の連続体4が形成される。ステップS2は、それ自体既知のスライディングウィンドウアルゴリズムで実施することができる。
続いて、ステップS3では、配列フラグメント3の符号化が、符号化デバイス20を用いて行われる。符号化デバイス20は、配列フラグメント3にハッシュ関数fを適用するように構成される。ハッシュ関数を適用した結果、ハッシュ値テーブルが得られる。ハッシュ値テーブルの要素は、配列フラグメント3を表す暗号化フラグメントデータ5である。したがって、このハッシュ値テーブルは、個人のゲノム配列を、その個人の身元を推測することができない形態又はそれに同等の形態で含む。
図2の表現とは別に、ハッシュ関数fの単回の適用は、最初に配列フラグメント3に対して適用を行い、更に暗号化フラグメントデータ5に対して少なくとも1回の適用を行う形態の、ハッシュ関数fの反復(少なくとも2重)適用に置き換えることができる。
配列フラグメント3の符号化は、ハッシュ値テーブルに暗号化フラグメントデータ5を提供する。次に、ステップS4では、暗号化フラグメントデータ5(符号化配列フラグメント)が、ストレージデバイス30、例えばデータベース30Aに格納される。データベース30Aは、データ処理装置100の一部であるか、又は、それとは別に設けられる。ハッシュ値テーブルの、すなわち個体の暗号化フラグメントデータ5は、暗号化フラグメントデータ5と個体から得た匿名サンプルとの関連付けが維持されるように、それぞれ、所定のストレージセクションに格納され、且つ/又は特定のハッシュ値テーブルへの割り当てを表す配列識別情報(サンプルID)と共に格納される。
データベース30Aの照会のために、図2の右側部分に示すように、核酸、例えばATGの検索配列6が最初に作成され(ステップS5)、ハッシュ関数を適用することによって暗号化される(ステップS6)。これにより、暗号化された検索配列7がハッシュ値の形で作成される。その後、このハッシュ値の発生について、それ自体公知の検索技術を用いてデータベースを検索する(ステップS7)。暗号化された検索配列7が見つかると、見つかった検索配列が属するハッシュ値テーブルが取得される。複数のハッシュ値テーブルを有するデータベース30Aのデータ構造によって、この検索に要する実行時間は一定であり、それゆえ効率的である。
本発明の好ましい使用の更なる詳細を図3に示す。この使用では、臨床施設及び/又は研究所によって匿名化された遺伝子データを作成し、オペレータ、例えば大学又は産業研究施設がそのデータを使用するためのシステム200が提供される。図3の左側には、例えば臨床施設40において遺伝子データ1がどのように作成されるかが概略的に示されている(ステップS1)。実際の例では、システム200は、複数のオペレータと、データベース又は複数のデータベースに共通にアクセスする複数のユーザとを含むことができる。続いて、遺伝子データ1は、符号化された配列フラグメント5を作成するために、本発明に係るステップS2及びS3の方法に供され、それらの配列フラグメント5をデータベース30Aに格納する(ステップS4)。
研究施設50は、遺伝子データ1の評価に関心を持っている。例えば、特定の疾患の検索にあたって、作成された検索配列6(ステップS5)が遺伝子データ1に含まれているか否かという問いが生じる(上の両矢印参照)。しかしながら、この直接的なクエリは、遺伝子データ1の検索のための過度の労力及びデータの保護のために困難になり、又は不可能でさえある。それにもかかわらず、遺伝子データ1を検索できるようにするために、上述したように、検索配列6は、ハッシュ値を生成するための符号化に供され(ステップS6)、その後、データベース30Aにおいて検索を実行することができる(ステップS7)。検索の結果、格納された暗号化フラグメントデータ5が検索された暗号化された検索配列7を含む場合、関連する遺伝子データ1、すなわち特定の個体のデータセットが特定される。その後、この特別なデータセットに関連するクエリは、関連する検索配列を有する個体及び/又は関連する検索配列を有する個体の細胞材料に関する更なる情報を、例えば細胞バンクから取得するために、データセキュリティの規則を遵守しつつ、研究施設50から臨床施設40に対して行うことができる。
与えられた例は、遺伝子データの正確な知識なしに、個別化医療の分野からの特定の問いを処理できるようにする本発明の1つの可能な使用を表しているに過ぎないことに留意されたい。利用可能なデータ及び/又はデータ形式に応じて、データベース内における同じデータ点のハッシュ値の一致を実現するために、検索配列及び/又は検索の問いの必要なフォーマットのみが定められている。
本発明の使用のための更なる例としては、研究施設が特定の疾患を調査することを望み、この目的のために、細胞バンクから特定の遺伝的特徴を有する細胞材料を必要とする場合が挙げられる。細胞バンクに保存された材料の遺伝子データを本発明に従って処理する場合、本発明を適用することによって、遺伝子データにアクセスすることなく細胞バンクから適切な細胞株を見出すことができる。研究施設は、どの細胞株が計画された研究を実施するために必要とされるかに関する情報を、その細胞材料自体の配列決定を行うことを必要としないで、コスト及び時間の消費を大幅に削減しつつ取得する。
上記の説明、図面、及び特許請求の範囲に開示された本発明の特徴は、その様々な実施形態において本発明を実現するために、単独で、又はコンビネーション若しくはサブコンビネーションの形で意味をなし得る。

Claims (14)

  1. それぞれ生体分子を表す一連の配列要素を含む遺伝子データ(1)を処理するための方法であって、
    配列フラグメント(3)を形成するステップであって、各配列フラグメント(3)は、少なくとも2つの配列要素のフラグメント長を有する、前記一連の配列要素のセクションを含む、ステップ(S2)と、
    各々が前記配列フラグメント(3)のうちの1つと関連付けられた複数の暗号化フラグメントデータ(5)を生成するために、前記配列フラグメント(3)の各々に符号化関数を適用するステップ(S3)と、
    前記暗号化フラグメントデータ(5)を格納するステップ(S4)と、
    を含み、
    前記配列フラグメント(3)を形成するステップは、前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメント(3)に含まれるように行われる、
    ことを特徴とする、
    方法。
  2. 各配列フラグメント(3)の前記フラグメント長は、少なくとも3である、
    請求項1に記載の方法。
  3. 前記配列フラグメント(3)を形成するステップは、
    前記遺伝子データ(1)における前記フラグメント長及び開始要素(2)を指定することと、
    前記開始要素(2)及び後続の全ての配列要素から始まりかつ前記所定のフラグメント長を有する、前記一連の配列要素のセクションによって、前記配列フラグメント(3)をそれぞれ提供することと、
    を含む、
    請求項1又は2に記載の方法。
  4. 全ての前記配列フラグメント(3)は、同じ長さを有する、
    請求項1~3のいずれか一項に記載の方法。
  5. 前記配列フラグメント(3)は、配列フラグメント(3)の複数のフラグメント群を形成し、
    各フラグメント群における前記配列フラグメント(3)は、それぞれ同じ長さを有し、
    異なるフラグメント群における前記配列フラグメント(3)は、異なる長さを有し、
    前記配列フラグメント(3)を形成するステップは、各フラグメント群において前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメント(3)に含まれるように行われる、
    請求項1~3のいずれか一項に記載の方法。
  6. 前記符号化関数は、ハッシュ関数(f)であり、前記暗号化フラグメントデータ(5)は、ハッシュ値を含む、
    請求項1~5のいずれか一項に記載の方法。
  7. 前記配列フラグメント(3)を形成するステップは、前記符号化関数を適用する前に、
    確率的に選択された文字列を前記配列フラグメントの各々にそれぞれ付加することを含む、
    請求項1~6のいずれか一項に記載の方法。
  8. 複数の個体からの遺伝子データ(1)が処理され、各個体の前記遺伝子データ(1)は、それぞれ生体分子を表す一連の配列要素を含むという特徴、
    前記暗号化フラグメントデータ(5)は、データベース(30A)に格納されるという特徴、
    前記所定の一連の配列要素は、遺伝物質のセクションを含むという特徴、及び
    前記遺伝子データ(1)は、ヌクレオチド配列又はアミノ酸配列を表すという特徴、
    のうちの少なくとも1つを有する、
    請求項1~7のいずれか一項に記載の方法。
  9. 請求項1~8のいずれか一項に記載の方法を用いて暗号化フラグメントデータ(5)を生成し格納するように構成されたデータ処理装置(100)であって、
    前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメント(3)に含まれるように、前記配列フラグメント(3)を形成するように構成されたフラグメント化デバイス(10)と、
    前記複数の暗号化フラグメントデータ(5)を生成するように構成された符号化デバイス(20)と、
    前記暗号化フラグメントデータ(5)を格納するように構成されたストレージデバイス(30)と、
    を備える、
    データ処理装置(100)。
  10. コンピュータ可読記憶媒体に格納され、
    請求項1~8のいずれか一項に記載の方法で前記配列フラグメント(3)を形成し、前記複数の暗号化フラグメントデータ(5)を生成するように構成された、
    コンピュータプログラム製品。
  11. 請求項1~8のいずれか一項に記載の方法で前記配列フラグメント(3)を形成し、前記複数の暗号化フラグメントデータ(5)を生成するように構成されたコンピュータプログラム製品が格納された、
    コンピュータ可読記憶媒体。
  12. 請求項1~8のいずれか一項に記載の方法で生成された複数の検索可能な暗号化フラグメントデータ(5)を有するデータベース(30A)。
  13. 請求項1~8のいずれか一項に記載の方法で生成され格納された暗号化フラグメントデータ(5)を含むデータベース(30A)を照会するための方法であって、
    それぞれ生体分子を表す所定の一連の配列要素を含む検索配列(6)の指定を行うステップと、
    暗号化された検索配列(7)を生成するために、前記暗号化フラグメントデータ(5)の生成に用いた前記符号化関数を前記検索配列に適用するステップと、
    前記格納された暗号化フラグメントデータ(5)において前記暗号化された検索配列を検索するステップと、
    を含む、
    方法。
  14. 前記検索配列(6)の前記指定は、最初の検索配列を、前記暗号化フラグメントデータ(5)が生成された前記配列フラグメント(3)の前記フラグメント長に等しい検索配列長へ短縮することを含む、
    請求項13に記載の方法。
JP2022536935A 2019-12-20 2020-12-16 遺伝子データを処理するための方法及びデータ処理装置 Pending JP2023506271A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102019135380.7A DE102019135380A1 (de) 2019-12-20 2019-12-20 Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten
DE102019135380.7 2019-12-20
PCT/EP2020/086414 WO2021122742A1 (de) 2019-12-20 2020-12-16 Verfahren und datenverarbeitungsvorrichtung zur bearbeitung von genetischen daten

Publications (1)

Publication Number Publication Date
JP2023506271A true JP2023506271A (ja) 2023-02-15

Family

ID=74187231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022536935A Pending JP2023506271A (ja) 2019-12-20 2020-12-16 遺伝子データを処理するための方法及びデータ処理装置

Country Status (7)

Country Link
US (1) US20230021229A1 (ja)
EP (1) EP4078595A1 (ja)
JP (1) JP2023506271A (ja)
KR (1) KR20220116536A (ja)
CN (1) CN114902343A (ja)
DE (1) DE102019135380A1 (ja)
WO (1) WO2021122742A1 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787169A (en) * 1995-12-28 1998-07-28 International Business Machines Corp. Method and apparatus for controlling access to encrypted data files in a computer system
US7809510B2 (en) * 2002-02-27 2010-10-05 Ip Genesis, Inc. Positional hashing method for performing DNA sequence similarity search
US8116988B2 (en) * 2006-05-19 2012-02-14 The University Of Chicago Method for indexing nucleic acid sequences for computer based searching
US20110125411A1 (en) * 2008-03-19 2011-05-26 Lawrence Livermore National Security, Llc Uniquemer Algorithm for Identification of Conserved and Unique Subsequences
US9276911B2 (en) * 2011-05-13 2016-03-01 Indiana University Research & Technology Corporation Secure and scalable mapping of human sequencing reads on hybrid clouds
US9449191B2 (en) * 2011-11-03 2016-09-20 Genformatic, Llc. Device, system and method for securing and comparing genomic data
RU2765241C2 (ru) * 2016-06-29 2022-01-27 Конинклейке Филипс Н.В. Ориентированная на заболевание геномная анонимизация
US12046329B2 (en) * 2018-06-07 2024-07-23 Microsoft Technology Licensing, Llc Efficient payload extraction from polynucleotide sequence reads

Also Published As

Publication number Publication date
EP4078595A1 (de) 2022-10-26
KR20220116536A (ko) 2022-08-23
CN114902343A (zh) 2022-08-12
WO2021122742A1 (de) 2021-06-24
US20230021229A1 (en) 2023-01-19
DE102019135380A1 (de) 2021-06-24

Similar Documents

Publication Publication Date Title
Ondov et al. Mash: fast genome and metagenome distance estimation using MinHash
Akgün et al. Privacy preserving processing of genomic data: A survey
US9935765B2 (en) Device, system and method for securing and comparing genomic data
US9449191B2 (en) Device, system and method for securing and comparing genomic data
KR102209178B1 (ko) 유전체 및 유전체 정보의 보존 및 활용을 위한 방법
US20140121990A1 (en) Secure Informatics Infrastructure for Genomic-Enabled Medicine, Social, and Other Applications
JP6373977B2 (ja) Dna配列の高速かつ安全な検索
RU2765241C2 (ru) Ориентированная на заболевание геномная анонимизация
Dugan et al. A survey of secure multiparty computation protocols for privacy preserving genetic tests
Sun et al. When gene meets cloud: Enabling scalable and efficient range query on encrypted genomic data
Criscuolo On the transformation of MinHash-based uncorrected distances into proper evolutionary distances for phylogenetic inference
WO2010056131A1 (en) A method and system for analysing data sequences
Akgün et al. Efficient privacy-preserving whole-genome variant queries
Chowdhury et al. Implementation of Central Dogma Based Cryptographic Algorithm in Data Warehouse Architecture for Performance Enhancement
Gürsoy Genome privacy and trust
JP2023506271A (ja) 遺伝子データを処理するための方法及びデータ処理装置
US20230124077A1 (en) Methods and systems for anonymizing genome segments and sequences and associated information
Oprisanu et al. How Much Does GenoGuard Really" Guard"? An Empirical Analysis of Long-Term Security for Genomic Data
WO2020259847A1 (en) A computer implemented method for privacy preserving storage of raw genome data
Dugan et al. Privacy-preserving evaluation techniques and their application in genetic tests
Hwang et al. Privacy-preserving compressed reference-oriented alignment map using decentralized storage
Mozumder et al. Towards privacy-preserving authenticated disease risk queries
Chen et al. Secure Relative Detection in (Forensic) Database with Homomorphic Encryption
REDDY et al. Securing Aggregate Queries for DNA Databases
Zhao Privacy-preserving sharing and analysis on human genomic data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220907

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240815

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241001