JP2022551186A - 核酸セキュリティーおよび認証 - Google Patents

核酸セキュリティーおよび認証 Download PDF

Info

Publication number
JP2022551186A
JP2022551186A JP2022521744A JP2022521744A JP2022551186A JP 2022551186 A JP2022551186 A JP 2022551186A JP 2022521744 A JP2022521744 A JP 2022521744A JP 2022521744 A JP2022521744 A JP 2022521744A JP 2022551186 A JP2022551186 A JP 2022551186A
Authority
JP
Japan
Prior art keywords
nucleic acid
library
identifier
information
identifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022521744A
Other languages
English (en)
Other versions
JPWO2021072398A5 (ja
Inventor
ナサニエル ロケ,
ヒョンジュン パク,
スワプニル ピー. バティア,
デビン リーク,
Original Assignee
カタログ テクノロジーズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カタログ テクノロジーズ, インコーポレイテッド filed Critical カタログ テクノロジーズ, インコーポレイテッド
Publication of JP2022551186A publication Critical patent/JP2022551186A/ja
Publication of JPWO2021072398A5 publication Critical patent/JPWO2021072398A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/002Biomolecular computers, i.e. using biomolecules, proteins, cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0869Generation of secret information including derivation or calculation of cryptographic keys or passwords involving random numbers or seeds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/321Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority
    • H04L9/3213Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority using tickets or tokens, e.g. Kerberos
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

情報を符号化する核酸(例えば、デオキシリボ核酸)分子を使用した、セキュリティー、認証、タグ付けおよび追跡のための方法およびシステム。暗号化またはランダム化された情報を符号化する核酸分子のライブラリーを迅速に産生するために、固有の核酸分子が、予め作られた断片から効率的に産生される。物理的オブジェクトまたはアーチファクトにライブラリーをタグ付けして、オブジェクトを認証する、保証された資産もしくは位置へのアクセスを許可する、またはオブジェクトもしくは実体を追跡することができる。化学的方法を適用して、真正性を立証する、暗号解読する、またはライブラリーに記憶された情報を復号することができる。

Description

関連出願の相互参照
本願は、その内容全体が参照により本明細書に組み込まれる、2019年10月11日に出願した、表題「DNA STORAGE FOR SECURITY AND AUTHENTICATION」の米国特許仮出願第62/914,086号の優先権および利益を主張するものである。
背景
核酸デジタルデータ記憶は、情報を符号化し、長期間にわたって記憶するための安定した手法であり、データは、磁気テープまたはハードドライブ記憶システムよりも高い密度で記憶される。加えて、低温および乾燥条件で保管される核酸分子に記憶されたデジタルデータを、60,000年もの年数またはそれより長い年数を経た後に取得することができる。
現行の方法は、配列内の塩基間の関係をデジタル情報(例えば、二進コード)に直接変換するような、塩基毎の核酸配列へのデジタル情報(例えば、二進コード)の符号化に依拠する。デジタル符号化された情報のビットストリームまたはバイトに読み込むことができる、塩基毎の配列に記憶されたデジタルデータの配列決定は、エラーを起こしやすい可能性があり、塩基毎のデノボ核酸合成の費用が高価であり得るため符号化費用が嵩み得る。核酸デジタルデータ記憶を実施する新規方法の機会は、あまり費用が嵩まず、商業的実装がより容易である、データの符号化および取得のための手法を提供し得る。
プール内の固有の核酸配列の存在または非存在下でビット値情報を符号化することにより、塩基毎の合成を伴わずに核酸(例えば、デオキシリボ核酸、DNA)分子にデジタル情報を符号化する方法およびシステムであって、固有の核酸配列を有するビットストリーム中の各ビット位置を指定すること、およびその位置におけるビット値をプール内の対応する固有の核酸配列の存在または非存在により指定することを含む、方法およびシステムが本明細書に提供される。これらの符号化された核酸分子は、非常に少ない化学量での、機密情報の符号化または情報によるアーチファクトのタグ付けに特に有用である。アーチファクトを、情報を符号化するある量の核酸分子と関連付けることにより、アーチファクトを堅牢な認証またはアーチファクトの起源の追跡のために使用することができるように、アーチファクトは、外部ユーザに容易に明らかとならない様式で固有にタグ付けすることができる。
ある態様では、本明細書には、追跡または認証のために流体をタグ付けするための方法が提供される。この方法は、デジタル情報を表す核酸分子のライブラリーを得るステップと、流体を、核酸分子のライブラリーを含むタグと組み合わせて、追跡または認証のためのタグ付けされた流体を得るステップとを含む。ライブラリーは、流体、その起源、その製造日、または流体の任意の他の特徴を固有に識別するように設計することができるため、流体のタグ付けは、価値ある燃料または医薬品などの流体の真正性の認定に有利であり得る。
一部の実装では、方法は、タグ付けされた流体をサンプリングして、核酸分子のライブラリーの少なくとも一部を含有する試料を得るステップをさらに含む。サンプリングステップは、タグまたはタグ付けされた流体からある体積を拭き取るまたは取り出すステップが関与することができる。一部の実装では、方法は、試料の核酸分子を配列決定して、配列決定読み出しを得るステップがさらに関与する。配列決定読み出しを参照配列と比較して、マッチする配列の存在を決定することができる。よって、ライブラリーによって符号化された情報を決定することができ、流体を認証または識別することができる。
流体は、油、インク、圧縮ガスまたは薬物のうちいずれか1つであり得る。一部の実装では、方法は、タグ付けされた流体におけるタグの濃度を測定して、希釈物の量を決定するステップをさらに含む。このステップは、流体が改ざんされたかどうかの決定に有用である。
一部の実装では、タグは、タグに特異的な分子バーコードを含む。情報は、メッセージまたは通貨価値を含むことができる。情報は、少なくとも1キロビットの情報を含むことができる。一部の実装では、方法は、タグ付けされた流体にアクセスし、これにより、タグ付けされた流体におけるタグを減衰させるステップをさらに含む。一部の実装では、タグは、2要素認証システムの一部である。
一部の実装では、ライブラリーは、ランダムに生成される。一部の実装では、ライブラリーは、核酸分子のプールから核酸分子のサブセットを選択することにより生成される。一部の実装では、情報は、複数の記号を含み、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、情報は、符号化方式により核酸分子のライブラリーによって表され、情報は、2つの可能な記号値のうち1つを有する複数の記号にマッピングされ、記号は、2つの可能な記号値の第1の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号は、2つの可能な記号値のうちの第2の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。
別の態様では、本明細書には、セキュリティーおよび認証における使用のための核酸分子のライブラリーを調製するための方法が提供される。この方法は、セキュリティートークンを表す核酸分子のライブラリーを得るステップと、前記セキュリティートークンを表すライブラリーに化学的操作を適用して、ハッシュ化されたトークンを表す核酸分子のハッシュ化されたライブラリーを得るステップとを含む。本方法は、プレハッシュ化ライブラリーの配列が明らかとならないように、核酸分子のライブラリーを読み取る前にトークンをハッシュ化することにより、セキュリティートークンの値をエアギャップすることによる従来方法よりも有利である。
一部の実装では、化学的操作は、セキュリティートークンにおける1つまたは複数のブール関数をもたらす。例えば、1つまたは複数のブール関数は、セキュリティートークンにハッシュ関数を適用して、ハッシュ化されたライブラリーによって表されるハッシュ化されたトークンを得る。一部の実装では、ハッシュ化されたライブラリー(hashed library)は、ライブラリーのサブセットである。
一部の実装では、方法は、ハッシュ化されたライブラリーの核酸分子の少なくとも一部を配列決定して、配列決定読み出しを得るステップをさらに含む。配列決定読み出しは、データベースまたはルックアップテーブルと比較して、マッチする配列の存在または非存在が決定される。方法は、それぞれマッチする配列の決定された存在または非存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップをさらに含み得る。例えば、配列決定は、ハイスループット配列決定、ショットガン配列決定またはナノポア配列決定のうちいずれか1つを含む。
一部の実装では、方法は、ハッシュ化されたトークンが参照配列にマッチする場合、追加的な化学的操作をハッシュ化されたライブラリーに適用して、出力分子を産生するステップと、アッセイにより出力分子の存在または非存在を決定するステップとをさらに含む。例えば、アッセイは、ポリメラーゼ連鎖反応(PCR)、リアルタイムPCR、逆転写PCR(RT-PCR)、蛍光定量法およびゲル電気泳動のうち1つである。出力分子は、ハッシュ化されたライブラリーの区別可能な核酸分子である。一部の実装では、方法は、出力分子の存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップがさらに関与する。ハッシュ化されたトークン(hashed token)を化学的に検証して出力分子を産生する、この実装は、ハッシュ化ライブラリーの配列決定の必要をなくすという点において有利である;むしろ、ハッシュ化されたライブラリーは、セキュリティートークンの真正性を決定するために、配列決定よりも安価または高速であり得る、さらに別の化学的操作を受ける。
一部の実装では、ライブラリーは、固有の分子バーコードを含む。一部の実装では、セキュリティートークンは、ランダムに生成されたキーを含む。一部の実装では、セキュリティートークンは、2要素認証システムの一部である。一部の実装では、ライブラリーは、アーチファクトと併置され、セキュリティートークンは、アーチファクトに対して固有である。例えば、アーチファクトは、流体である。流体は、油、インク、圧縮ガスまたは薬物のうちいずれか1つであり得る。一部の実装では、方法は、流体におけるライブラリーの濃度を測定して、希釈物の量を決定するステップがさらに関与する。別の例として、アーチファクトは、生物または文書である。一部の実装では、ライブラリーは、ウェル、液滴、スポット、密封された容器、ゲル、懸濁液または固体マトリックスのうちいずれか1つに含有される。一部の実装では、ライブラリーは、凍結乾燥されている。
一部の実装では、ライブラリーは、核酸分子のプールから核酸分子のサブセットを選択することにより生成される。一部の実装では、セキュリティートークンは、複数の記号を含み、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、ライブラリーは、ランダムに生成される。一部の実装では、セキュリティートークンは、符号化方式により、核酸分子のライブラリーによって表され、セキュリティートークンは、2つの可能な記号値のうち1つを有する複数の記号にマッピングされ、記号は、2つの可能な記号値の第1の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号は、2つの可能な記号値の第2の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。一部の実装では、セキュリティートークンは、少なくとも1キロビットの情報を含む。一部の実装では、セキュリティートークンは、ユーザに対して固有である。
本開示のさらなる態様および利点は、本開示の単なる例示的な実装が示され説明される以下の詳細な説明から、当業者には容易に明らかになる。分かるであろうが、本開示は、他の異なる実装が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、様々な明らかな点で変更が可能である。したがって、図面および説明を本質的に例示的と見なすべきであり、制限的と見なすべきではない。
参照による組込み
本明細書で言及される全ての刊行物、特許および特許出願は、個々の刊行物、特許または特許出願各々が参照により組み込まれると具体的かつ個別に示されている場合と同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に収載される本開示と相反する場合は、本明細書は、一切のそのような相反する物質に取って代わるおよび/または優先するように意図されている。
本発明の新規の特徴は、添付の特許請求の範囲において詳細に記載されている。本発明の原理を利用する例示的な実装が記載されている以下の詳細な説明、および付属図(本明細書では「図(Figure)」および「図(FIG.)」とも)を参照することにより、本発明の特徴および利点のよりよい理解が得られるであろう。
図1は、例示的な実装に従った、核酸配列に記憶されたデジタル情報を符号化し、書き込み、アクセスし、クエリーし、読み取り、復号するためのプロセスの概要を模式的に例示する。
図2Aおよび図2Bは、オブジェクトまたは識別子(例えば、核酸分子)を使用して「アドレスにおけるデータ」と称されるデジタルデータを符号化する方法の例を模式的に例示する。図2Aは、例示的な実装に従った、ランクオブジェクト(またはアドレスオブジェクト)とバイト値オブジェクト(またはデータオブジェクト)を組み合わせて識別子を創出することを例示する。図2Bは、例示的な実装に従った、ランクオブジェクトおよびバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるアドレス方式でのデータの実装を例示する。
図3Aおよび図3Bは、オブジェクトまたは識別子(例えば、核酸配列)を使用してデジタル情報を符号化する方法の例を模式的に例示する。図3Aは、例示的な実装に従った、ランクオブジェクトを識別子として使用してデジタル情報を符号化することを例示する。図3Bは、例示的な実装に従った、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の実装を例示する。
図4は、例示的な実装に従った、所与のサイズの情報が記憶されるように構築することができる(等高線)、可能な識別子の組合せ空間(C、x軸)と識別子の平均数(k、y軸)の間の関係の対数空間での等高線プロットを示す。
図5は、例示的な実装に従った、情報を核酸配列(例えば、デオキシリボ核酸)に書き込むための方法の概要を模式的に例示する。
図6Aおよび図6Bは、区別可能な成分(例えば、核酸配列)を組合せによりアセンブルすることによって識別子(例えば、核酸分子)を構築するための「産物スキーム」と称される方法の例を例示する。図6Aは、例示的な実装に従った、産物スキームを使用して構築された識別子のアーキテクチャを例示する。図6Bは、例示的な実装に従った、産物スキームを使用して構築することができる識別子の組合せ空間の例を例示する。
図7A~図7Cは、より多数の識別子由来のいくつかの特定の識別子にアクセスすることによって、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する。図7Aは、例示的な実装に従った、ポリメラーゼ連鎖反応、親和性タグ付けされたプローブおよび分解標的化プローブ(degradation targeting probe)を使用して、指定の成分を含有する識別子にアクセスするための方法の例を示す。図7Bは、例示的な実装に従った、ポリメラーゼ連鎖反応を使用して、「OR」または「AND」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図7Cは、例示的な実装に従った、親和性タグを使用して、「OR」または「AND」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。 図7A~図7Cは、より多数の識別子由来のいくつかの特定の識別子にアクセスすることによって、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する。図7Aは、例示的な実装に従った、ポリメラーゼ連鎖反応、親和性タグ付けされたプローブおよび分解標的化プローブ(degradation targeting probe)を使用して、指定の成分を含有する識別子にアクセスするための方法の例を示す。図7Bは、例示的な実装に従った、ポリメラーゼ連鎖反応を使用して、「OR」または「AND」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図7Cは、例示的な実装に従った、親和性タグを使用して、「OR」または「AND」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。 図7A~図7Cは、より多数の識別子由来のいくつかの特定の識別子にアクセスすることによって、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する。図7Aは、例示的な実装に従った、ポリメラーゼ連鎖反応、親和性タグ付けされたプローブおよび分解標的化プローブ(degradation targeting probe)を使用して、指定の成分を含有する識別子にアクセスするための方法の例を示す。図7Bは、例示的な実装に従った、ポリメラーゼ連鎖反応を使用して、「OR」または「AND」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図7Cは、例示的な実装に従った、親和性タグを使用して、「OR」または「AND」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。
図8は、例示的な実装に従った、本明細書に提供される方法を実行するようにプログラムされ、または他の様式で構成されたコンピュータシステムを示す。
図9は、例示的な実装に従った、識別子プールにおける定義された演算を使用したコンピュータによる計算のために調製された、2つのソースビットストリームおよびユニバーサル識別子ライブラリーの例を示す。
図10は、例示的な実装に従った、in vitroコンピュータによる計算のためのプラットフォームとして識別子ライブラリーがどのように使用され得るかを例示する、識別子のプールにおいて行われた論理演算の3つの例への入力およびその結果を示す。
図11は、例示的な実装に従った、ランダムビット文字列の創出に使用することができるエントロピーを生成するための方法の例を示す。
図12A~図12Cは、例示的な実装に従った、エントロピー(ランダムビット文字列)を生成および記憶するための方法の例を示す。
図13A~図13Bは、例示的な実装に従った、入力を使用してランダムビット文字列を組織化およびアクセスするための方法の例を示す。
図14は、例示的な実装に従った、物理的DNAキーを使用してアーチファクトへのアクセスを保証および認証するための方法の例を示す。
図15は、例示的な実装に従った、認証のための核酸ライブラリーを調製するための方法について説明するフローチャートを示す。
図16は、例示的な実装に従った、追跡または認証のための核酸タグにより流体をタグ付けするための方法について説明するフローチャートを示す。
図17Aおよび図17Bは、核酸分子に符号化されたデータを符号化し、書き込み、読み取ることの例を示す。図17Aは、例示的な実装に従った、5,856ビットのデータを符号化し、書き込み、読み取ることの例を示す。図17Bは、例示的な実装に従った、62,824ビットのデータを符号化し、書き込み、読み取ることの例を示す。
詳細な説明
本発明の様々な実装が本明細書に示され、説明されているが、そのような実装が単なる例として提供されることは、当業者には明らかであろう。本発明から逸脱しない非常に多くの変形形態、変更形態および置換形態が当業者の心に浮かぶだろう。本明細書に記載の本発明の実装の様々な代替案が利用される可能性があることは理解されるはずである。
用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を一般に指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号は、ビットであり得、ビットは、「0」または「1」の値を有し得る。
用語「区別可能な」または「固有の」は、本明細書で使用される場合、群の中の他のオブジェクトと区別することができるオブジェクトを一般に指す。例えば、区別可能な、または固有の、核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であることがある。区別可能な、または固有の、核酸分子は、いかなる他の核酸分子とも同じ配列を有さないことがある。区別可能な、または固有の、核酸配列または分子は、別の核酸配列または分子と類似領域を共有することもある。
用語「成分」は、本明細書で使用される場合、核酸配列を一般に指す。成分は、区別可能な配列であることがある。成分は、他の核酸配列または分子を生成するように、1つまたは複数の他の成分と連結またはアセンブルされることもある。
用語「層」は、本明細書で使用される場合、成分の群またはプールを一般に指す。各層は、1つの層内の成分が別の層内の成分と異なるような、1セットの区別可能な成分を含むことがある。1つまたは複数の層からの成分は、1つまたは複数の識別子を生成するようにアセンブルされることもある。
用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置および値を表す、核酸分子または核酸配列を一般に指す。より一般的には、識別子は、記号列中の記号を表す、または記号列中の記号に対応する、任意のオブジェクトを指すことがある。一部の実装では、識別子は、1つまたは複数の連結された成分を含み得る。
用語「組合せ空間」は、本明細書で使用される場合、成分などのオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な区別可能な識別子のセットを一般に指す。成分をアセンブルするまたは連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数、および識別子を生成するために使用される特定のアセンブリー方法に依存し得る。
用語「識別子ランク」は、本明細書で使用される場合、セットの中の識別子の順序を規定する関係を一般に指す。
用語「識別子ライブラリー」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の収集物を一般に指す。一部の実装では、識別子ライブラリー中の所与の識別子の非存在は、特定の位置における記号値を示すことができる。1つまたは複数の識別子ライブラリーを、識別子のプール、群、またはセットの中で組み合わせることができる。各識別子ライブラリーは、識別子ライブラリーを識別する固有のバーコードを含むこともある。
用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはこれらのバリアントを一般に指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)およびウラシル(U)、またはそのバリアントから選択される1つまたは複数のサブユニットを含み得る。ヌクレオチドは、A、C、G、TもしくはU、またはそのバリアントを含み得る。ヌクレオチドは、成長核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、A、C、G、TもしくはUであることもあり、あるいはより多くの相補的A、C、G、TもしくはUのうちの1つに特異的であり得る、またはプリン(すなわち、AもしくはG、またはそのバリアント)もしくはピリミジン(すなわち、C、TもしくはU、またはそのバリアント)と相補的であり得る、任意の他のサブユニットであることもある。一部の例では、核酸は、一本鎖状または二本鎖状であり得、一部の場合には、核酸分子は環状である。
用語「核酸分子」または「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド(DNA)もしくはリボヌクレオチド(RNA)のどちらかかまたはその類似体である、様々な長さを有し得る、ポリマー形態のヌクレオチド、またはポリヌクレオチドを一般に指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指すことがあり、あるいは、この用語は、物理的なポリヌクレオチド自体に適用されることもある。このアルファベット表現を、中央処理装置を有するコンピュータ内のデータベースに入力し、核酸配列または核酸分子を記号またはビットにマッピングするために、デジタル情報を符号化するために、使用することができる。核酸配列またはオリゴヌクレオチドは、1つまたは複数の非標準ヌクレオチド、ヌクレオチド類似体および/または改変ヌクレオチドを含むこともある。
「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を一般に指し、アデニン(A)、シトシン(C)、グアニン(G)およびチミン(T)という、またはポリヌクレオチドがRNAの場合はアデニン(A)、シトシン(C)、グアニン(G)およびウラシル(U)という、4つのヌクレオチド塩基の特異的配列で、典型的に構成されている。
改変ヌクレオチドの例としては、ジアミノプリン、5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨードウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシメチル)ウラシル、5-カルボキシメチルアミノメチル-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ-D-ガラクトシルキューオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2,2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアミノメチル-2-チオウラシル、ベータ-D-マンノシルキューオシン、5’-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、キューオシン、2-チオシトシン、5-メチル-2-チオウラシル、2-チオウラシル、4-チオウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2,6-ジアミノプリンなどが挙げられるが、これらに限定されない。核酸分子は、塩基部分が(例えば、相補的ヌクレオチドと水素結合を形成するために通常は利用可能である1つもしくは複数の原子が、および/または相補的ヌクレオチドと水素結合を形成することが通常はできない1つもしくは複数の原子が)修飾されていることもあり、糖部分が修飾されていることもあり、またはリン酸骨格が修飾されていることもある。核酸分子は、N-ヒドロキシスクシンイミドエステル(NHS)などのアミン反応性部分の共有結合を可能にするためにアミノアリル-dUTP(aa-dUTP)およびアミノヘキシルアクリルアミド(aminohexhylacrylamide)-dCTP(aha-dCTP)などのアミン修飾基を含有することもある。
用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応(PCR)などの核酸合成のための出発点としての役立つ核酸鎖を一般に指す。一例では、DNA試料の複製中に、複製を触媒する酵素が、DNA試料に結合したプライマーの3’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、PCRに関するより多くの情報については、化学方法セクションDを参照されたい。
用語「ポリメラーゼ」または「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を一般に指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在することもあり、または合成されることもある。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。一部の場合には、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)が、新たな核酸配列を構築するために、ポリメラーゼと併せてまたはポリメラーゼの代替として使用される。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、PfuポリメラーゼPwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、SsoポリメラーゼPocポリメラーゼ、Pabポリメラーゼ、MthポリメラーゼES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’→5’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにこれらのバリアント、改変産物および誘導体が挙げられる。PCRと共に使用することができるさらなるポリメラーゼについては、ならびにポリメラーゼ特性がPCRにいかなる影響を与え得るのかに関する詳細については、化学的方法セクションDを参照されたい。
用語「種」は、本明細書で使用される場合、同じ配列の1つまたは複数のDNA分子を一般に指す。「種」が、複数形の意味で使用される場合、複数の種における全ての種が、区別可能な配列を有することを仮定することができるが、これは、「種」の代わりに「区別可能な種」と書くことにより、明確にされる場合もある。
用語「約」および「およそ」は、前記用語の後に続く値のプラスマイナス20%以内を意味することを理解されたい。
二進コードの形での、コンピュータデータなどの、デジタル情報は、記号の配列または記号列を含み得る。二進コードは、例えば、ビットと呼ばれる2つの二進記号、通常は0および1、を有する二進法を使用して、テキストまたはコンピュータプロセッサ命令を符号化することまたは表すことができる。デジタル情報は、非二進記号の配列を含み得る非二進コードの形で表すことができる。符号化された各記号を、固有のビット列(または「バイト」)に再び割り当てることができ、固有のビット列またはバイトを、バイト列またはバイトストリームに配列することができる。所与のビットについてのビット値は、2つの記号のうちの1つ(例えば、0または1)であり得る。Nビットの列を含むことができるバイトは、合計2の固有のバイト値を有することができる。例えば、8ビットを含むバイトは、合計2または256の可能な固有のバイト値を生じさせることができ、256バイトの各々は、バイトで符号化することができる256の可能な区別可能な記号、文字または命令のうちの1つに対応し得る。生データ(例えば、テキストファイルおよびコンピュータ命令)を、バイト列またはバイトストリームとして表すことができる。zipファイル、または生データを含む圧縮データファイルを、バイトストリームで記憶することもでき、これらのファイルを圧縮形でバイトストリームとして記憶し、そしてその後、コンピュータにより読み取られる前に生データに復元することができる。
本開示の方法およびシステムを使用して、1ビットまたは複数のビットの一次情報を各々が表すことができる複数の識別子で、コンピュータデータまたは情報を符号化することができる。一部の例では、本開示の方法およびシステムは、2ビットの一次情報を各々が表す識別子を使用して、データまたは情報を符号化する。
デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基毎の合成に依拠しており、これは、費用が嵩み、時間がかかり得る。代替方法は、効率を向上させることができ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによりデジタル情報記憶の商業的実現可能性を向上させることができ、あらゆる新たな情報記憶要求のための区別可能な核酸配列のデノボ合成を無くすことができる。
新規方法は、塩基毎またはデノボ核酸合成(例えば、ホスホルアミダイト合成)に依拠するのではなく、成分の組合せ配列を含む複数の識別子または核酸配列にデジタル情報(例えば、二進コード)を符号化することができる。しかるが故に、新規戦略は、情報記憶の第1の要求のために区別可能な核酸配列(または成分)の第1のセットを生成することができ、その後、後続の情報記憶要求のために同じ核酸配列(または成分)を再利用することができる。これらの手法は、DNAへの情報の符号化および書き込みプロセスにおける核酸配列のデノボ合成の役割を低減することにより、DNAベースの情報記憶の費用を有意に削減することができる。さらに、各伸長核酸への各塩基の循環送達を使用し得る塩基毎の合成、例えばホスホルアミダイト化学ベースのまたは鋳型なしのポリメラーゼベースの核酸伸長、の実装と異なり、成分からの識別子構築を使用してDNAに情報を書き込む新規方法は、循環核酸伸長を必ずしも使用しない高度に並列化可能なプロセスである。したがって、新規方法は、昔ながらの方法と比較してDNAへのデジタル情報の書き込み速度を上昇させることができる。
情報を核酸配列に符号化する方法を本明細書中に提供する。核酸配列に情報を符号化する方法は、(a)情報を記号列に変換するステップと、(b)記号列を複数の識別子にマッピングするステップと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するステップとを含み得る。複数の識別子のうちの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、区別可能な識別子に対応し得る。個々の識別子は、記号列中の個々の位置の個々の記号に対応し得る。さらに、記号列中の各位置における1つの記号は、識別子の非存在に対応し得る。例えば、「0」および「1」の二進記号(例えば、ビット)列における「0」の出現各々が、識別子の非存在に対応し得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、(a)コンピュータデータを受信するステップと、(b)コンピュータデータを符号化する核酸配列を含む核酸分子を合成するステップと、(c)核酸配列を有する核酸分子を記憶させるステップとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化されるが、核酸分子の各々の配列に符号化されないことがある。
別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。この方法は、(a)情報を表す仮想識別子ライブラリーを受信または符号化するステップと、(b)識別子ライブラリーを物理的に構築するステップと、(c)識別子ライブラリーの1つまたは複数の物理的コピーを1つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、(a)コンピュータデータを受信するステップと、(b)コンピュータデータを符号化する少なくとも1つの核酸配列を含む核酸分子を合成するステップと、(c)少なくとも1つの核酸配列を含む核酸分子を記憶させるステップとを含み得る。核酸分子を合成するステップは、塩基毎の核酸合成の非存在下でのステップであり得る。
別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。核酸配列に情報を書き込むおよび記憶させる方法は、(a)情報を表す仮想識別子ライブラリーを受信または符号化するステップと、(b)識別子ライブラリーを物理的に構築するステップと、(c)識別子ライブラリーの1つまたは複数の物理的コピーを1つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。
図1は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み取り、読み取り情報を復号するためのプロセスの概要を示す。デジタル情報、またはデータを、1つまたは複数の記号列に変換することができる。一例では、記号は、ビットであり、各ビットは、「0」または「1」のどちらかの値を有し得る。各記号を、その記号を表すオブジェクト(例えば、識別子)にマッピングまたは符号化することができる。各記号を区別可能な識別子により表すことができる。区別可能な識別子は、成分で構成されている核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報を、その情報に対応する識別子ライブラリーを生成することにより、核酸配列に書き込むことができる。識別子ライブラリーは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。デジタル情報の全てのまたは任意の部分に同時にアクセスすることができる。一例では、識別子のサブセットが識別子ライブラリーからアクセスされる。識別子のサブセットは、識別子を配列決定または識別することにより読み取ることができる。識別された識別子をそれらの対応する記号と関連付けて、デジタルデータを復号することができる。
図1の手法を使用して情報を符号化するおよび読み取る方法は、例えば、ビットストリームを受信するステップと、識別子ランクまたは核酸インデックスを使用してビットストリーム中の各々1ビット(「1」のビット値を有するビット)を区別可能な核酸識別子にマッピングするステップとを含み得る。1のビット値に対応する(かつ0のビット値の識別子を含まない)識別子のコピーを含む、核酸試料プールまたは識別子ライブラリーを構築すること。試料の読み取りは、分子生物学方法(例えば、配列決定、ハイブリダイゼーション、PCRなど)を使用して、識別子ライブラリー中のどの識別子が表されるのかを決定することと、「1」のビット値をこれらの識別子に対応するビットにおよび「0」のビット値を他の場所に割り当てること(識別子ランクを再び参照して各識別子が対応する元のビットストリーム中のビットを識別すること)、かくて、情報を符号化された元のビットストリームに復号することとを含み得る。
区別可能なNビットの列の符号化は、可能な識別子として同じ数の固有の核酸配列を使用し得る。この情報符号化手法は、記憶するために情報の新しい項目(Nビットの列)毎に識別子(例えば、核酸分子)のデノボ合成を使用し得る。他の例では、記憶するために情報の新しい項目毎に識別子(数がNと同じであるかまたはそれ未満である)を新たに合成する費用を、情報の新しい項目の符号化が、事前に合成された(または既成の)識別子を機械的に選択し、互いに混合して、識別子ライブラリーを形成することを含み得るような、全ての可能な識別子の1回限りのデノボ合成およびその後の維持により、削減することができる。他の例では、(1)記憶するための情報の新しい項目毎の最大N個の識別子のデノボ合成のコストも、または(2)記憶するために情報の新しい項目毎にN個の可能な識別子を維持し、そこから選択することのコストも、またはこれらの任意の組合せのコストも、核酸配列を合成し、その数(N未満、一部の場合には、Nよりもはるかに少ない)を維持し、そしてその後、これらの配列を、記憶するための情報の新しい項目毎に最大N個の識別子を生成するように酵素反応によって改変することにより、削減することができる。
読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために識別子を合理的に設計することおよび選択することができる。書き込みエラー、変異、分解、および読み取りエラーを最小限にするように識別子を設計することおよび選択することができる。合成核酸ライブラリー(例えば、識別子ライブラリー)を含むDNA配列の合理的設計に関しては化学的方法セクションHを参照されたい。
図2Aおよび2Bは、オブジェクトまたは識別子(例えば、核酸分子)中のデジタルデータを符号化する、「アドレスにおけるデータ」と呼ばれる、方法の例を模式的に示す。図2Aは、個々の識別子が、識別子ランクを指定する単一の成分とバイト値を指定する単一の成分とを連結またはアセンブルすることにより構築される、識別子ライブラリーへのビットストリームの符号化を示す。一般に、アドレスにおけるデータ方法は、バイト値を識別する1つのオブジェクトである「バイト値オブジェクト」(または「データオブジェクト」)、および識別子ランク(または元のビットストリーム中のバイトの相対位置)を識別する1つのオブジェクトである「ランクオブジェクト」(または「アドレスオブジェクト」)という、2つのオブジェクトを含むことにより、情報をモジュール式に符号化する識別子を使用する。図2Bは、各ランクオブジェクトが、1セットの成分から組合せ的に構築され、各バイト値オブジェクトが、1セットの成分から組合せ的に構築され得る、アドレスにおけるデータ方法の例を示す。ランクオブジェクトとバイト値オブジェクトのこのような組合せ構築は、オブジェクトが単一成分のみから作成された場合(例えば、図2A)よりも多くの情報を識別子に書き込むことを可能にする。
図3Aおよび3Bは、オブジェクトまたは識別子(例えば、核酸配列)中のデジタル情報を符号化する方法の別の例を模式的に示す。図3Aは、識別子が、識別子ランクを指定する単一成分から構築される、識別子ライブラリーへのビットストリームの符号化を示す。特定のランク(またはアドレス)における識別子の存在により「1」のビット値が指定され、特定のランク(またはアドレス)における識別子の非存在により「0」のビット値が指定される。このタイプの符号化は、単にランク(元のビットストリーム中のビットの相対位置)を符号化する識別子を使用し、識別子ライブラリー中のこれらの識別子の存在または非存在を使用してそれぞれ「1」または「0」のビット値を符号化することができる。情報の読み取りおよび復号は、識別子ライブラリー中に存在する識別子を識別すること、「1」のビット値をそれらの対応するランクに割り当てること、および「0」のビット値を他の場所に割り当てることを含み得る。図3Bは、各識別子を1セットの成分から組合せ的に構築することができ、したがって、可能な組合せ構築各々がランクを指定する、符号化方法の例を示す。このような組合せ構築は、識別子が単一成分のみから作成された場合(例えば、図3A)よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、5つの区別可能な成分を含み得る。5つの区別可能な成分を、5成分のうちの2成分を各々が含む10の区別可能な識別子を生成するように、アセンブルすることができる。10の区別可能な識別子は、ビットストリーム中のビットの位置に対応するランク(またはアドレス)を各々が有し得る。識別子ライブラリーは、これらの10の可能な識別子のうちの、ビット値「1」の位置に対応するサブセットを含み、これらの10の可能な識別子のうちの、長さ10のビットストリーム内のビット値「0」の位置に対応するサブセットを除外することがある。
図4は、可能な識別子の組合せ空間(C、x軸)と、図3Aおよび3Bに示されている符号化方法を使用してビットの所与の元のサイズの情報(D、等高線)を記憶するために物理的に構築される識別子の平均数(k、y軸)との間の関係の、対数空間での、等高線プロットを示す。このプロットは、サイズDの一次情報が、数個、つまりk個のビットが「1」のビット値を有するCビットの列(Cは、Dより大きくなり得る)に再符号化されることを前提としている。さらに、このプロットは、核酸への情報の符号化が、再符号化されたビット列で行われること、およびビット値が「1」である位置については識別子が構築され、ビット値が「0」である位置については識別子が構築されないことを前提としている。これらの前提に従って、可能な識別子の組合せ空間は、再符号化されたビット列中のあらゆる位置を識別するためにサイズCを有し、サイズDのビット列を符号化するために使用される識別子の数は、D=log(Cchoosek)(式中、Cchoosekは、C個の可能性からk個の順不同結果を選ぶ方法の数についての数式であり得る)となるような数である。したがって、可能な識別子の組合せ空間が、情報の所与の項目のサイズ(ビットで)を超えて増加するにつれて、所与の情報を記憶させるために使用され得る物理的に構築される識別子の数が減少する。
図5は、情報を核酸配列に書き込む方法の概要を示す。情報を書き込む前に、情報を記号列に変換し、複数の識別子に符号化することができる。情報の書き込みは、可能な識別子を生成するための反応を始動することを含み得る。コンパートメントに入力を入れることにより、反応を始動することができる。入力は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。コンパートメントは、ウェル、管、表面上の位置、マイクロ流体デバイス内のチャンバー、またはエマルジョン中の液滴であり得る。複数の反応を複数のコンパートメントで始動することができる。反応が進行して、プログラムされた温度のインキュベーションまたは循環によって識別子を生成することができる。反応を選択的にまたは普遍的に除去(例えば、削除)することができる。1つのプールにそれらの識別子を回収するために、反応を選択的にまたは普遍的に中断、コンソリデート、および精製することもできる。複数の識別子ライブラリーからの識別子を同じプールに回収することができる。個々の識別子は、それがどの識別子ライブラリーに属するのかを識別するためにバーコードまたはタグを含み得る。あるいは、または加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸または識別子を識別子ライブラリーと一緒に識別子プールに含めることもできる。補足の核酸または識別子は、符号化された情報のメタデータを含むこともあり、または符号化された情報を難読化もしくは隠蔽するのに役立つこともある。
識別子ランク(例えば、核酸インデックス)は、識別子の順序付けを決定するための方法またはキーを含むことができる。方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。方法は、識別子を構成する全ての成分のランクと、これらの成分の組合せを含む任意の識別子の順序付けを決定するための関数とを有する、ルックアップテーブルを含むこともできる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書の中のワードがアルファベット順に順序付けられる様式に類似していることがある。アドレスにおけるデータ符号化方法では、識別子ランク(識別子のランクオブジェクトにより符号化された)を使用して、ビットストリーム内のバイトの位置(識別子のバイト値オブジェクトにより符号化された)を決定することができる。代替方法では、存在する識別子の識別子ランク(全識別子自体により符号化された)を使用して、ビットストリーム内の「1」のビット値の位置を決定することができる。
キーは、区別可能なバイトを試料中の識別子(例えば、核酸分子)の固有のサブセットに割り当てることができる。例えば、単純な形では、キーは、ビットの位置を指定する固有の核酸配列にバイト中の各ビットを割り当てることができ、そしてその後、試料中のその核酸配列の存在または非存在により、それぞれ1または0のビット値が指定され得る。核酸試料からの符号化された情報の読み取りは、配列決定、ハイブリダイゼーションまたはPCRを含む任意の数の分子生物学技術を含むことができる。一部の実装では、符号化されたデータセットの読み取りは、データセットの一部を再構築することを含むこともあり、または各核酸試料からの符号化されたデータセット全体を再構築することを含むこともある。配列を読み取ることができるとき、核酸インデックスを、固有の核酸配列の存在または非存在と共に使用することができ、核酸試料をビットストリーム(例えば、各ビット列、バイト(単数)、バイト(複数)、またはバイト列)に復号することができる。
識別子は、成分核酸配列を組合せ的にアセンブルすることにより構築することができる。例えば、分子の定義された群(例えば、組合せ空間)からの1セットの核酸分子(例えば、識別子)を使うことにより、情報を符号化することができる。分子の定義された群の可能な識別子各々は、層に分けることができる成分の既成のセットからの核酸配列(例えば、成分)のアセンブリーであることもある。個々の識別子各々は、固定された順序で全ての層から1つの成分を連結させることにより構築することができる。例えば、M個の層があり、各層がn個の成分を有する場合には、最大C=n個の固有の識別子を構築することができ、最大2個の異なる情報項目またはC個のビットを符号化し、記憶することができる。例えば、メガビットの情報の記憶は、1×10個の区別可能な識別子、またはサイズC=1×10の組合せ空間を使用することができる。この例での識別子は、異なる方法で構成された様々な成分からアセンブルすることができる。n=1×10の成分を各々が含有するM=2の既成の層からアセンブリーを作成することができる。あるいは、n=1×10の成分を各々が含有するM=3の層からアセンブリーを作成することができる。この例が例示するように、同じ量の情報をより多くの数の層を使用して符号化することによって、成分の総数をより少なくすることが可能になり得る。書き込み費用の観点から、より少数の総成分を使用することが有利であり得る。
各層内の核酸配列(例えば、成分)は、固有の(または区別可能な)配列、またはバーコード、を中央に、共通ハイブリダイゼーション領域を一方の末端に、および別の共通ハイブリダイゼーション領域をもう一方の他方の末端に含むことができる。バーコードは、層内のあらゆる配列を固有に識別するのに十分な数のヌクレオチドを含有することができる。例えば、通常は、バーコード内の各塩基位置に4つの可能なヌクレオチドが存在する。したがって、3塩基バーコードは、4=64の核酸配列を固有に識別することができる。バーコードを、無作為に生成されるように設計することができる。あるいは、バーコードを、識別子の構築化学または配列決定を複雑化する要因を生じさせる可能性がある配列を回避するように、設計することができる。加えて、バーコードを、各々が他のバーコードから最小ハミング距離を有し、それによって、塩基分解変異または読み取りエラーがバーコードの適切な識別に干渉し得る尤度を低下させるように、設計することができる。
核酸配列(例えば、成分)の一方の末端のハイブリダイゼーション領域は、層毎に異なり得るが、ハイブリダイゼーション領域は、層内の各メンバーについては同じであり得る。隣接する層は、それらの成分上に、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域を有するものである。例えば、層Xからのあらゆる成分が、層Yからのあらゆる成分に結合することが可能であり得る。なぜなら、それらは、相補的ハイブリダイゼーション領域を有し得るからである。反対側の末端のハイブリダイゼーション領域は、第1の末端のハイブリダイゼーション領域と同じ目的を果たすことができる。例えば、層Yからのあらゆる成分が、一方の末端で層Xのあらゆる成分に結合することができ、かつ反対側の末端で層Zのあらゆる成分に結合することができる。
図6Aおよび6Bは、固定された順序で各層から区別可能な成分(例えば、核酸配列)を組合せ的にアセンブルすることにより識別子(例えば、核酸分子)を構築するための、「積スキーム」と呼ばれる、方法の例を示す。図6Aは、積スキームを使用して構築された識別子のアーキテクチャを示す。識別子は、固定された順序で各層からの単一成分を組み合わせることにより構築することができる。N個の成分を各々が有するM個の層の場合、N個の可能な識別子がある。図6Bは、積スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、3つの区別可能な成分を各々が含む3つの層から、組合せ空間を生成することができる。これらの成分を、各層からの1つの成分を固定された順序で組み合わせることができるように、組み合わせることができる。このアセンブリー方法のための全組合せ空間は、27の可能な識別子を含むことができる。
識別子は、2017年12月21日に出願された表題「NUCLEIC ACID-BASED DATA STORAGE」の米国特許第10,650,312号(DNAにデジタル情報を符号化することについて記載);2019年5月16日に出願され、米国特許出願公開第2019/0362814号として公開された表題「SYSTEMS FOR NUCLEIC ACID-BASED DATA STORAGE」の米国特許出願第16/461,774号(DNAベースのデータ記憶のための符号化方式について記載);2019年5月16日に出願され、米国特許出願公開第2019/0351673号として公開された表題「PRINTER-FINISHER SYSTEM FOR DATA STORAGE IN DNA」の米国特許出願第16/414,752号(符号化されたDNAのアセンブリーのためのプリンター・フィニッシャーシステムについて記載);2019年5月16日に出願され、米国特許出願公開第2020/0193301号として公開された表題「COMPOSITIONS AND METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」の米国特許出願第16/414,758号(DNAベースのデータ記憶のための先進的アセンブリー方法について記載);2019年8月5日に出願され、米国特許出願公開第2020/0185057号として公開された表題「SYSTEMS AND METHODS FOR STORING AND READING NUCLEIC ACID-BASED DATA WITH ERROR PROTECTION」の米国特許出願第16/532,077号(DNA符号化のためのデータ構造ならびにエラー保護および補正について記載);2020年5月11日に出願された表題「DATA STRUCTURES AND OPERATIONS FOR SEARCHING, COMPUTING, AND INDEXING IN DNA-BASED DATA STORAGE」の米国特許出願第16/872,129号(アクセス、ランクおよび検索のためのデータ構造および演算について記載);および2020年9月4日に出願された表題「CHEMICAL METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」の米国特許出願第17/012,909号(符号化されたDNAアセンブリーのための化学的方法について記載)に記載されている実装方法のいずれかを使用して構築することができ、これらの各々は、その全体がこれにより参照により本明細書に組み込まれる。
一部の例では、可能な識別子の組合せ空間の全てまたは一部を、デジタル情報を符号化するまたは書き込む前に、構築することができ、したがって、書き込みプロセスは、既に存在するセットから識別子(情報を符号化する)を機械的に選択およびプールすることを含むことができる。他の例では、データ符号化または書き込みプロセスの1つまたは複数のステップが行われた後である可能性がある時点で(すなわち、情報が書き込まれている最中に)、識別子を構築することができる。
バーコードは、符号化すべきデジタル情報の量が、1つのプールだけに適合し得る量を超える場合、情報インデックス化を容易にすることができる。例えば、核酸インデックスを使用して符号化された固有の核酸配列を有するタグを含めることにより、図3で開示される手法を階層化することによって、より長いビット列および/または複数のバイトを含む情報を符号化することができる。情報カセットまたは識別子ライブラリーは、所与の配列が対応するビットストリームの成分(単数または複数)を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する固有の核酸配列を含む窒素含有塩基または核酸配列を含むことができる。情報カセットは、1つまたは複数の固有の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットおよび情報カセットに含まれる任意の配列についての参照を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ビットストリームのどの部分またはビットストリームのどのビット成分についての情報(例えば、ビット値およびビット位置情報)を固有の配列が符号化しているのかを示すことができる。
バーコードを使用して、ビットでの情報を、可能な識別子の組合せ空間のサイズよりも多く、プールに符号化することができる。例えば10ビットの配列を、各バイトが5ビットを含む2セットのバイトに分けることができる。各バイトを、可能な区別可能な識別子5個の1セットにマッピングすることができる。最初は、バイト毎に生成された識別子は同じであり得るが、それらを別々のプールで保持することができ、そうでなければ、情報を読み取る者が、特定の核酸配列が属するのがどのバイトであるのかを見分けることができない可能性がある。しかし、符号化された情報が当てはまるバイトに対応する標識(例えば、第1の5ビットを提供するために、バーコード1を、核酸プール内の配列に結合させることができ、および第2の5ビットを提供するために、バーコード2を、核酸プール内の配列に結合させることができる)を用いて各識別子をバーコード化またはタグ付けし、そしてその後、それら2つのバイトに対応する識別子を組み合わせて1つのプール(例えば、「ハイパープール」または1つもしくは複数の識別子ライブラリー)にすることができる。1つまたは複数の組み合わせられた識別子ライブラリーの各識別子ライブラリーは、所与の識別子を所与の識別子ライブラリーに属するものとして識別する、区別可能なバーコードを含み得る。
核酸試料プール、ハイパープール、識別子ライブラリー、識別子ライブラリーの群、または核酸試料プールもしくはハイパープールを収容しているウェルは、情報のビットに対応する固有の核酸分子(例えば、識別子)、および複数の補足核酸配列を含み得る。補足核酸配列は、符号化データに対応しないこともある(例えば、ビット値に対応しない)。補足核酸試料は、試料プールに記憶された情報をマスクまたは隠蔽することができる。補足核酸配列は、生物学的供給源に由来することもあり、合成的に生成されることもある。生物学的供給源に由来する補足核酸配列は、無作為に断片化された核酸配列を含むこともあり、または合理的に断片化された配列を含むこともある。生物学的に誘導された補足核酸は、特に、合成的に符号化された情報(例えば、識別子の組合せ空間)が天然遺伝情報(例えば、断片化されたゲノム)と似ているように作成された場合、合成的に符号化された情報と一緒に天然遺伝情報を提供することにより、試料プール内のデータ含有核酸を隠すまたは分かりにくくすることができる。一例では、識別子は、生物学的供給源に由来し、補足核酸は、生物学的供給源に由来する。試料プールは、識別子と補足核酸配列の複数のセットを含有し得る。識別子と補足核酸配列の各セットは、異なる生物に由来することもある。一例では、識別子は、1つまたは複数の生物に由来し、補足核酸配列は、単一の、異なる生物に由来する。補足核酸配列は、1つまたは複数の生物に由来することもあり、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来することがある。識別子と補足核酸配列の両方が、複数の異なる生物に由来することもある。キーを使用して、識別子と補足核酸配列を区別することができる。
補足核酸配列は、書き込まれた情報についてのメタデータを記憶することができる。メタデータは、一次情報源および/または一次情報の意図された受信者を決定および/または許可するための追加の情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに識別子への一次情報の書き込み日時についての追加情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに核酸配列への一次情報の書き込み日時についての追加の情報を含み得る。メタデータは、核酸配列への情報の書き込み後に一次情報に加えられた修正についての追加情報を含み得る。メタデータは、一次情報に対する注釈、または外部情報への1つもしくは複数の参照を含み得る。あるいは、または加えて、メタデータは、識別子に結合された1つもしくは複数のバーコードまたはタグに記憶されることもある。
識別子プール内の識別子は、互いに同じ、類似しているまたは異なる長さを有し得る。補足核酸配列は、識別子の長さ未満である長さ、識別子の長さと実質的に等しい長さ、または識別子の長さより長い長さを有し得る。補足核酸配列は、識別子の平均長の1塩基以内、2塩基以内、3塩基以内、4塩基以内、5塩基以内、6塩基以内、7塩基以内、8塩基以内、9塩基以内、10塩基以内、またはそれを超える塩基数以内である、平均長を有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリー中の識別子の濃度未満であることもあり、識別子の濃度と実質的に等しいこともあり、または識別子の濃度より高いこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれ未満より低いこともあり、または識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれ未満に等しいこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれを超える%より高いこともあり、または識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれを超える%に等しいこともある。より高い濃度は、難読化またはデータの隠蔽に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール中の識別子の濃度より実質的に高い(例えば、1×10%高い)。
PCRベースの方法を使用して、識別子または核酸試料プールからのデータにアクセスすることおよびそのようなデータをコピーすることができる。プールまたはハイパープール内の識別子に隣接する共通プライマー結合部位を使用して、情報を含有する核酸を容易にコピーすることができる。あるいは、等温増幅などの他の核酸増幅手法を使用して、試料プールまたはハイパープール(例えば、識別子ライブラリー)からデータを容易にコピーすることもできる。核酸増幅に関しては化学的方法セクションDを参照されたい。試料がハイパープールを含む例では、識別子の一方の縁にある特異的バーコードにフォワード方向に結合するプライマーを、識別子の反対側の縁にある共通配列にリバース方向に結合する別のプライマーと共に使用することにより、情報の特定のサブセット(例えば、特定のバーコードに関連する全ての核酸)にアクセスすること、およびそのようなサブセットを取得することができる。様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができ、例えば、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、および様々な配列決定プラットフォームをさらに使用して、符号化された配列を読み出すことおよび伸長によりデジタル符号化されたデータを読み出すことができる。
核酸分子(例えば、識別子)に記憶された情報へのアクセスは、識別子ライブラリーもしくは識別子のプールから非標的化識別子の一部を選択的に除去することにより、または例えば、複数の識別子ライブラリーのプールから識別子ライブラリーの全ての識別子を選択的に除去することにより、行うことができる。本明細書で使用される場合、「アクセス」および「クエリー」は、互換的に使用することができる。データへのアクセスを、識別子ライブラリーまたは識別子のプールから標的化された識別子を選択的に捕捉することにより行うこともできる。標的化された識別子は、より長い情報項目の中の目的のデータに対応し得る。識別子のプールは、補足核酸分子を含むこともある。補足核酸分子は、符号化された情報についてのメタデータを含有することがあり、情報に対応する識別子を隠蔽またはマスクするために使用されることもある。補足核酸分子は、標的化された識別子へのアクセス中に抽出されることもあり、または抽出されないこともある。図7A~7Cは、より多くの数の識別子からのいくつかの特定の識別子にアクセスすることにより核酸配列に記憶された情報の一部にアクセスする方法の例の概要を模式的に示す。図7Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。PCRベースのアクセスの場合、識別子のプール(例えば、識別子ライブラリー)は、各末端に共通配列を有する、各末端に可変配列を有する、または各末端に共通配列もしくは可変配列の一方を有する識別子を含み得る。共通配列または可変配列は、プライマー結合部位であることもある。1つまたは複数のプライマーが、識別子の縁の共通または可変領域に結合し得る。プライマーが結合している識別子を、PCRにより増幅することができる。増幅される識別子は、増幅されない識別子より数が大幅に上回り得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリーからの識別子は、その末端の一方または両方にそのライブラリーとは区別可能な配列を含むことができ、したがって、1つより多くの識別子ライブラリーのプールまたは群から単一のライブラリーに選択的にアクセスすることを可能にする。
核酸捕捉と呼ばれることもあるプロセスである、親和性タグベースのアクセスの場合、プール内の識別子を構成する成分は、1つまたは複数のプローブと相補性を共有し得る。1つまたは複数のプローブは、アクセスされることになる識別子に結合またはハイブリダイズすることができる。プローブが親和性タグを含むこともある。親和性タグは、ビーズに結合して、ビーズと少なくとも1つのプローブと少なくとも1つの識別子とを含む複合体を生成することができる。ビーズは磁性であり得、磁石と共に、ビーズは、アクセスされることになる識別子を収集し、単離することができる。読み取りの前に、識別子を変性条件下でビーズから除去することができる。あるいは、または加えて、ビーズは、非標的化識別子を収集し、それらをプールの残部から隔離除去することができ、プールの残部を洗浄して別々の容器に移し、読み取ることができる。親和性タグは、カラムに結合することができる。アクセスされることになる識別子は、捕捉用のカラムに結合することができる。その後、カラムに結合した識別子を、読み取りの前に、カラムから溶出することまたは変性させることができる。あるいは、非標的化識別子をカラムに選択的に標的化することができ、その一方で、標的化された識別子は、カラムを通って流れうる。標的化された識別子へのアクセスは、1つもしくは複数のプローブを識別子のプールに同時に適用することを含むこともあり、または1つもしくは複数のプローブを識別子のプールに逐次的に適用することを含むこともある。
分解ベースのアクセスの場合、プール内の識別子を構成する成分は、1つまたは複数の分解標的化プローブと相補性を共有し得る。プローブは、識別子の区別可能な成分に結合またはハイブリダイズすることができる。プローブは、エンドヌクレアーゼなどの分解酵素の標的になり得る。一例では、1つまたは複数の識別子ライブラリーを組み合わせることができる。プローブのセットは、識別子ライブラリーのうちの1つとハイブリダイズすることができる。プローブのセットは、RNAを含むことがあり、RNAは、Cas9酵素を誘導することができる。Cas9酵素を1つまたは複数の識別子ライブラリーに導入することができる。プローブとハイブリダイズした識別子は、Cas9酵素により分解されることがある。アクセスされることになる識別子は、分解酵素により分解されないこともある。別の例では、識別子は、一本鎖状であり得、識別子ライブラリーを、アクセスされることにならない識別子を選択的に分解する一本鎖特異的エンドヌクレアーゼ、例えばS1ヌクレアーゼ、と組み合わせることができる。アクセスされることになる識別子を識別子の相補的セットとハイブリダイズさせて、それらを一本鎖特異的エンドヌクレアーゼによる分解から保護することができる。アクセスされることになる識別子を、サイズ選択クロマトグラフィー(例えば、アガロースゲル電気泳動)などのサイズ選択により分解産物から分離することができる。あるいは、または加えて、分解されない識別子を(例えば、PCRを使用して)選択的に増幅することができ、したがって、分解産物は増幅されない。分解されていない識別子の各末端にハイブリダイズする、したがって、分解または切断された識別子の各末端にはハイブリダイズしないプライマーを使用して、分解されていない識別子を増幅することができる。
図7Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、2つのフォワードプライマーが左末端の識別子の区別可能なセットに結合する場合には、識別子のこれらのセットの結合の「OR」増幅を、右末端の識別子の全てに結合するリバースプライマーと共にマルチプレックスPCR反応において2つのフォワードプライマーを一緒に使用することにより、果たすことができる。別の例では、1つのフォワードプライマーが左末端の識別子のセットに結合し、1つのリバースプライマーが右末端の識別子のセットに結合する場合には、識別子のこれら2セットの交差点の「AND」増幅を、フォワードプライマーとリバースプライマーをPCR反応においてプライマー対として一緒に使用することにより、果たすことができる。
図7Cは、親和性タグを使用して「OR」または「AND」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、親和性プローブ「P1」が、成分「C1」を有する全ての識別子を捕捉し、別の親和性プローブ「P2」が、成分「C2」を有する全ての識別子を捕捉する場合には、P1およびP2を同時に使用することによりC1またはC2を有する全ての識別子のセットを捕捉することができる(「OR」操作に対応する)。同じ成分およびプローブを用いる別の例では、P1およびP2を逐次的に使用することによりC1およびC2を有する全ての識別子のセットを捕捉することができる(「AND」操作に対応する)。
別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法を提供する。核酸配列に符号化された情報を読み取る方法は、(a)識別子ライブラリーを提供するステップと、(b)識別子ライブラリー中に存在する識別子を識別するステップと、(c)識別子ライブラリー中に存在する識別子から記号列を生成するステップと、(d)記号列から情報をコンパイルするステップとを含み得る。識別子ライブラリーは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
情報を本明細書の他の箇所に記載されているように1つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。本明細書の他の箇所に記載の任意の方法を使用して、記憶されたデータをコピーすることおよび記憶されたデータにアクセスすることができる。
識別子は、符号化された記号の位置、符号化された記号の値、または符号化された記号の位置と値の両方に関する情報を含み得る。識別子は、符号化された記号の位置に関する情報を含むことがあり、識別子ライブラリー中の識別子の存在または非存在は、記号の値を示すことができる。識別子ライブラリー中の識別子の存在は、バイナリ文字列中の第1の記号値(例えば、第1のビット値)を示すことができ、識別子ライブラリー中の識別子の非存在は、バイナリ文字列中の第2の記号値(例えば、第2のビット値)を示すことができる。二進法で、識別子ライブラリー中の識別子の存在または非存在に対してビット値を基づかせることで、アセンブルされる識別子の数を低減させることができ、したがって、書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置における「1」のビット値を示すことができ、識別子の非存在は、マッピングされた位置における「0」のビット値を示すことができる。
1つの情報についての記号(例えば、ビット値)の生成は、記号(例えば、ビット)をマッピングまたは符号化することができる識別子の存在または非存在を識別することを含み得る。識別子の存在または非存在の決定は、識別子の存在を検出するために本識別子を配列決定することまたはハイブリダイゼーションアレイを使用することを含み得る。一例では、符号化された配列の復号および読み取りを、配列決定プラットフォームを使用して行うことができる。配列決定プラットフォームの例は、全体に参照により本明細書に組み込まれる、2019年8月5日に出願され、米国特許出願公開第2020/0185057号として公開された表題「SYSTEMS AND METHODS FOR STORING AND READING NUCLEIC ACID-BASED DATA WITH ERROR PROTECTION」の米国特許出願第16/532,077号に記載されている。
一例では、核酸符号化データの復号は、Illumina(登録商標)Sequencingなどの、核酸鎖の塩基毎の配列決定により果たすことができ、またはキャピラリー電気泳動による断片化解析などの、特定の核酸配列の存在もしくは非存在を示す配列決定技術を利用することにより果たすことができる。配列決定は、可逆的ターミネーターの使用を利用することもある。配列決定は、天然または非天然(例えば、操作された)ヌクレオチドまたはヌクレオチド類似体の使用を利用することもある。あるいは、または加えて、核酸配列の復号は、光学的、電気化学的または化学的シグナルを生成する任意の方法を含むがこれらに限定されない、様々な分析技術を使用して行うことができる。ポリメラーゼ連鎖反応(PCR)、デジタルPCR、サンガー配列決定、ハイスループット配列決定、合成による配列決定、単一分子配列決定、ライゲーションによる配列決定、RNA-Seq(Illumina)、次世代配列決定、デジタル遺伝子発現(Helicos)、クローナルシングルマイクロアレイ(Solexa)、ショットガン配列決定、マクサム(Maxim)・ギルバート配列決定、または大規模並列配列決定を含むがこれらに限定されない、様々な配列決定手法を使用することができる。
様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、および様々な配列決定プラットフォームをさらに使用して、符号化された配列、および伸長によりデジタル符号化されたデータを、読み出すことができる。
識別子ライブラリーは、情報についてのメタデータを提供する補足核酸配列、情報を隠蔽もしくはマスクする補足核酸配列、またはメタデータの提供も情報のマスクもする補足核酸配列を、さらに含み得る。補足核酸を識別子の識別と同時に識別することができる。あるいは、識別子を識別する前または識別した後に、補足核酸を識別することができる。一例では、補足核酸配列は、符号化された情報の読み取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子インデックスまたはキーを使用して、補足核酸分子と識別子を差別化することができる。
より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化および復号効率を高めることができる。例えば、符号化方法で3つの核酸分子(例えば、識別子)にマッピングされ得る「111」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「000」部分列に再符号化することができる。「000」の代替入力部分列を「111」に再符号化することもできる。この再符号化方法は、データセット中の「1」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させることができる。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「111」を「00」に再符号化することができ、これは、データセットのサイズを縮小し、データセット中の「1」の数を低減させることができる。
検出を容易にするために識別子を特異的に設計することにより、核酸符号化データを復号する速度および効率を制御する(例えば、高める)ことができる。例えば、検出を容易にするために設計される核酸配列(例えば、識別子)は、それらの光学的、電気化学的、化学的または物理学的特性に基づいて呼び出すことおよび検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。操作された核酸配列は、一本鎖状または二本鎖状のどちらであってもよい。操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成または非天然ヌクレオチドを含むこともある。操作された核酸配列は、全て天然ヌクレオチドを含むこともあり、全て合成もしくは非天然ヌクレオチドを含むこともあり、または天然ヌクレオチドと合成ヌクレオチドと非天然ヌクレオチドの組合せを含むこともある。合成ヌクレオチドとしては、ヌクレオチド類似体、例えば、ペプチド核酸、ロックド核酸、グリコール核酸およびトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、dNaM、3-メトキシ-2-ナフチル基を含有する人工ヌクレオシド、およびd5SICS、6-メチルイソキノリン-1-チオン-2-イル基を含有する人工ヌクレオシド、を挙げることができる。操作された核酸配列は、増強された光学的特性などの、単一の増強された特性のために設計されることもあり、または設計される核酸配列は、増強された光学的および電気化学的特性もしくは増強された光学的および化学的特性などの、複数の増強された特性を伴って設計されることもある。
操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を向上させない、反応性天然、合成および非天然ヌクレオチドを含むこともある。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。化学的部分の例としては、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変更する部分が挙げられるが、これらに限定されない。
配列決定プラットフォームを核酸配列に符号化された情報の復号および読み取りのために特異的に設計することができる。配列決定プラットフォームを一本鎖または二本鎖核酸分子の配列決定専用にすることができる。配列決定プラットフォームは、個々の塩基を読み取ること(例えば、塩基毎の配列決定)により、または核酸分子(例えば、識別子)に組み込まれた全核酸配列(例えば、成分)の存在もしくは非存在を検出することにより、核酸符号化データを復号することができる。配列決定プラットフォームは、無差別な試薬の使用、読み取り長の延長の使用、および検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含むことができる。配列決定中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読み取り効率を高めることができ、その結果として配列決定時間を短縮することができる。読み取り長の延長の使用は、符号化された核酸のより長い配列を読み取り毎に復号することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の存在または非存在により核酸配列の存在または非存在の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列に、固有の光学的、電気化学的または化学的シグナルを生成する化学的部分で、タグ付けすることができる。その固有の光学的、電気化学的または化学的シグナルの存在または非存在は、「0」または「1」ビット値を示すことができる。核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。データを符号化するための核酸配列の使用の前に、化学的部分を核酸配列に付加させることができる。あるいは、または加えて、データの符号化後だが、データを復号する前に、化学的部分を核酸配列に付加させることができる。化学的部分タグを核酸配列に直接付加させることができ、または核酸配列が合成または非天然ヌクレオチドアンカーを含むことができ、そのアンカーに化学的部分タグを付加させることができる。
符号化および復号エラーを最小限にするまたは検出するために、固有のコードを適用することができる。符号化および復号エラーは、偽陰性(無作為試料抽出に含まれない核酸分子または識別子)によって起こることがある。エラー検出コードの一例は、識別子ライブラリーに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリーの読み取り中に、チェックサムは、識別子のその連続セットからの取得期待数を示すことができ、識別子は、その期待数が満たされるまで読み取りのための試料抽出を継続することができる。一部の実装では、チェックサム配列をR識別子の連続セット毎に含めることができ、この場合のRは、サイズが1、2、5、10、50、100、200、500もしくは1000に等しいまたはそれより大きいこともあり、または1000、500、200、100、50、10、5もしくは2未満であることもある。Rの値が小さいほど、エラー検出は良好である。一部の実装では、チェックサムは、補足核酸配列であり得る。例えば、7個の核酸配列(例えば、成分)を含むセットを、積スキームで識別子を構築するための核酸配列(層X中の成分X1~X3、および層Y中のY1~Y3)と補足チェックサムのための核酸配列(X4~X7およびY4~Y7)という、2つの群に分けることができる。チェックサム配列X4~X7は、層Xの0、1、2または3個の配列が層Yの各メンバーとアセンブルさせるかどうかを示すことができる。あるいは、チェックサム配列Y4~Y7は、層Yの0、1、2または3個の配列が層Xの各メンバーとアセンブルされるかどうかを示すことができる。この例では、識別子{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3}を有する元の識別子ライブラリーを、次のプールになるようにチェックサムを含むように補足することができる:{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3、X1Y6、X2Y7、X3Y4、X6Y1、X5Y2、X6Y3}。チェックサム配列をエラー補正に使用することもできる。例えば、上記データセットにおけるX1Y1の非存在、ならびにX1Y6およびX6Y1の存在は、X1Y1核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリーの試料抽出または識別子ライブラリーのアクセスされる部分から欠けているかどうかを示すことができる。欠けているチェックサム配列の場合、PCRまたは親和性タグ付きプローブハイブリダイゼーションなどのアクセス方法は、それを増幅および/または単離することができる。一部の実装では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化することができ、その結果、それらは識別子により表される。
データ符号化および復号のノイズを、パリンドロームとして識別子を構築することにより、例えば、積スキームにおいて単一成分ではなく成分のパリンドローム対を使用することにより、低減させることができる。次いで、異なる層からの成分の対をパリンドローム様式(例えば、成分XおよびYについてXYではなくYXY)で互いにアセンブルすることができる。このパリンドローム方法を、より多くの数の層(例えば、XYZではなくZYXYZ)に拡大することができ、このパリンドローム方法により、識別子間の誤った交差反応の検出が可能になり得る。
識別子への過剰(例えば、大過剰)な補足核酸配列の付加は、配列決定による符号化された識別子の回収を妨げることがある。情報の復号の前に、識別子を補足核酸配列によって濃縮することができる。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子を濃縮することができる。よって、識別子特異的プライマーまたは識別子特異的プライマーの配列を保有した実体のみが、配列決定による回収のために符号化された識別子を富化することができるであろう。あるいは、または加えて、特異的プライマーを使用する配列決定(例えば、合成による配列決定)により、試料プールを濃縮することなく情報を復号することができる。両方の復号方法において、復号キーがなければ、または識別子の組成について何かのことが分かっていなければ、情報を濃縮または復号することは困難であり得る。親和性タグベースのプローブの使用などの代替アクセス方法を利用することもできる。
デジタル情報を核酸(例えば、DNA)に符号化するためのシステムは、ファイルおよびデータ(例えば、生データ、圧縮されたzipファイル、整数データ、および他の形態のデータ)をバイトに変換し、バイトを核酸、一般にはDNAのセグメントまたは配列、またはこれらの組合せに符号化するためのシステム、方法およびデバイスを含み得る。
デジタルデータを符号化するためのシステムを使用する方法の非限定的な実装は、デジタル情報をバイトストリームの形態で受け取るステップを含み得る。バイトストリームを個々のバイトに構文解析し、核酸インデックス(または識別子のランク)を使用してバイト内のビットの位置をマッピングし、ビット値1またはビット値0のいずれかに対応する配列を識別子に符号化する。デジタルデータを取得するステップは、1つまたは複数のビットにマッピングされる核酸の配列(例えば、識別子)を含む核酸試料または核酸プールについて配列決定し、識別子のランクを参照してその識別子が核酸プール内に存在するかどうかを確認し、各配列についての位置およびビット値情報を、デジタル情報の配列を含むバイトに復号する。
核酸分子に符号化され、書き込まれた情報を符号化し、書き込み、コピーし、アクセスし、読み取り、復号するためのシステムは、単一の統合されたユニットであってもよく、上述の操作の1つまたは複数が実行されるように構成された複数のユニットであってもよい。情報を核酸分子(例えば、識別子)に符号化し、書き込むためのシステムは、デバイスおよび1つまたは複数のコンピュータプロセッサを含み得る。1つまたは複数のコンピュータプロセッサは、情報が記号列(例えば、ビットの列)に構文解析されるようにプログラミングすることができるものである。コンピュータプロセッサは、識別子のランクを生じさせることができるものである。コンピュータプロセッサは、記号を2つまたはそれよりも多くのカテゴリーにカテゴリー化するものである。1つのカテゴリーは、識別子ライブラリー中の対応する識別子の存在によって表される記号を含み得、他のカテゴリーは、識別子ライブラリー中の対応する識別子の非存在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリー中に識別子が存在することによって表される記号に対応する識別子をアセンブルするようにデバイスを方向付けることができるものである。適したシステムは、2019年5月16日に出願され、米国特許出願公開第2019/0351673号として公開された表題「PRINTER-FINISHER SYSTEM FOR DATA STORAGE IN DNA」の米国特許出願第16/414,752号に記載されている。
デバイスは、複数の領域、セクション、またはパーティションを含み得る。識別子をアセンブルするための試薬および成分をデバイスの1つまたは複数の領域、セクション、またはパーティションに保管することができる。層をデバイスのセクションの別々の領域に保管することができる。層は、1つまたは複数の固有の成分を含み得る。1つの層内の成分は、別の層の成分と重複しない固有のものであり得る。領域またはセクションは容器を含み得、パーティションはウェルを含み得る。各層を別々の容器またはパーティションに保管することができる。各試薬または核酸配列を別々の容器またはパーティションに保管することができる。その代わりに、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成することができる。デバイスは、試薬、成分、および鋳型をデバイスの1つのセクションから別のセクションに組み合わされるように転送することができる。デバイスは、アセンブリー反応を完了させるための条件をもたらすことができるものである。例えば、デバイスは、加熱、撹拌、および反応進行の検出をもたらすことができるものである。構築された識別子を、1つまたは複数のその後の反応が行われて、識別子の1つまたは複数の末端にバーコード、共通配列、可変配列、またはタグが付加されるように方向付けることができる。次いで、識別子を領域またはパーティションに方向付けて、識別子ライブラリーを生成することができる。1つまたは複数の識別子ライブラリーをデバイスの各領域、セクション、または個々のパーティションに保管することができる。デバイスは、圧力、真空、または吸引を使用して流体(例えば、試薬、成分、鋳型)を転送することができる。
識別子ライブラリーは、デバイスにおいて記憶されても、別々のデータベースに移動されても、またはアーチファクトのタグ付け/追跡に適した組成物もしくは容器に移されてもよい。データベースは、1つまたは複数の識別子ライブラリーを含み得る。データベースは、識別子ライブラリーを長期保管するための条件(例えば、識別子の分解を低減するための条件)をもたらすものであり得る。識別子ライブラリーは、粉末、液体、または固体の形態で保管することができる。より安定な保管のために識別子の水溶液を凍結乾燥させることができる。データベースは、紫外線光防護、温度の低下(例えば、冷蔵または凍結)、ならびに分解性化学物質および酵素からの保護をもたらすものであり得る。データベースに移す前またはアーチファクトに機能付与する前に、識別子ライブラリーを凍結乾燥または凍結させることができる。識別子ライブラリーは、ヌクレアーゼを不活化するためにエチレンジアミン四酢酸(EDTA)および/または核酸分子の安定性を維持するために緩衝液を含み得る。
データベースは、識別子に情報を書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスとカップリングしていてもよく、当該デバイスを含んでもよく、当該デバイスとは分離されていてもよい。コピー、アクセスまたは読み取りの前に識別子ライブラリーの一部をデータベースから除去することができる。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じデバイスであっても異なるデバイスであってもよい。情報をコピーするデバイスは、アリコートの識別子ライブラリーをデバイスから抽出し、そのアリコートを試薬および構成成分と組み合わせて、識別子ライブラリーの一部または全部を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができるものである。デバイスは、パーティションを含んでよく、1つまたは複数の増幅反応を、識別子ライブラリーを含むパーティションで行うことができる。デバイスは、識別子の1つよりも多くのプールを同時にコピーすることができる。
アクセスされたデータを同じデバイスにおいて読み取ることができ、アクセスされたデータを別のデバイスに移すことができる。読み取りデバイスは、識別子を検出し、識別するための検出ユニットを含み得る。検出ユニットは、シークエンサー、ハイブリダイゼーションアレイ、または識別子の存在または非存在を識別するための他のユニットの一部であってよい。配列決定プラットフォームは、核酸配列に符号化された情報の復号および読み取りのために特別に設計されたものであってよい。配列決定プラットフォームは、一本鎖または二本鎖核酸分子の配列決定専用のものであってよい。配列決定プラットフォームは、個々の塩基を読み取ることによって(例えば、塩基ごとの配列決定)、または核酸分子(例えば、識別子)内に組み入れられた核酸配列全体(例えば、成分)の存在もしくは非存在を検出することによって核酸符号化データを復号することができるものである。あるいは、配列決定プラットフォームは、Illumina(登録商標)Sequencingなどのシステムまたはキャピラリー電気泳動による断片化解析であってよい。その代わりに、またはそれに加えて、核酸配列の復号は、これだけに限定されないが、光学的シグナル、電気化学的シグナル、または化学的シグナルを生じさせる任意の方法を含めた、デバイスによって実装される様々な解析技法を使用して実施することができる。
核酸分子中への情報保管は、これだけに限定されないが、長期の情報保管、機密情報保管、ワンタイムアクセスコードの保管、および医学的情報の保管を含めた種々の適用を有し得る。ある例では、人の医学的情報(例えば、病歴および診療記録)を核酸分子中に保管し、その彼または彼女に保有させることができる。情報は、体外に保管することもでき(例えば、着用できるデバイス中に)、体内に保管することもできる(例えば、皮下カプセル中に)。患者が診療所または病院に運び込まれた場合に、試料をデバイスまたはカプセルから取得することができ、核酸シークエンサーを使用して情報を復号することができる。核酸分子中への個人的な診療記録の保管により、コンピュータおよびクラウドに基づく保管システムの代替をもたらすことができる。核酸分子中への個人的な診療記録の保管により、診療記録がハッキングされる事例または蔓延を減少させることができる。カプセルに基づく診療記録の保管に使用される核酸分子は、ヒトゲノム配列に由来するものであってよい。ヒトゲノム配列を使用することにより、万一カプセルが破損し漏出した場合の核酸配列の免疫原性を低減することができる。
本開示は、本開示の方法を実装するようにプログラミングされたコンピュータシステムを提供する。図8は、デジタル情報を核酸配列に符号化し、かつ/または核酸配列から導き出された情報を読み取る(例えば、復号する)ようにプログラミングされたまたは他のやり方で構成されたコンピュータシステム801を示す。コンピュータシステム801は、例えば、符号化されたビットストリームまたはバイトストリーム由来の所与のビットまたはバイトについてのビット値およびビット位置情報などの、本開示の符号化および復号手順の種々の態様を調節することができるものである。
コンピュータシステム801は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも)805を含み、これは、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理のための複数のプロセッサであってよい。コンピュータシステム801はまた、メモリまたはメモリ位置810(例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリ)、電子記憶装置815(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース820(例えば、ネットワークアダプター)、ならびにキャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプターなどの周辺機器825も含む。メモリ810、記憶装置815、インターフェース820および周辺機器825は、CPU805と、マザーボードなどの通信バス(実線)を通じて通信する。記憶装置815は、データを保管するためのデータストレージユニット(またはデータリポジトリ)であってよい。コンピュータシステム801は、通信インターフェース820を利用してコンピュータネットワーク(「ネットワーク」)830と作動可能にカップリングすることができる。ネットワーク830は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび/もしくはエクストラネットであり得る。ネットワーク830は、一部の場合では、電気通信および/またはデータネットワークであり得る。ネットワーク830は、1つまたは複数のコンピュータサーバーを含んでよく、それにより、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる。ネットワーク830は、一部の場合ではコンピュータシステム801を利用して、ピアツーピアネットワークを実装することができ、それにより、コンピュータシステム801とカップリングしたデバイスをクライアントまたはサーバーとして動かすことを可能にすることができるものである。
CPU805は、プログラムまたはソフトウェアで具体化することができる機械可読命令のシークエンスを実行することができるものである。命令は、メモリ810などのメモリ位置に記憶させることができるものである。命令をCPU805に方向付けることができ、その後、それにより、CPU805を、本開示の方法を実装するようにプログラムするまたは他のやり方で構成することができる。CPU805により実施される操作の例は、フェッチ、復号、実行、およびライトバック(writeback)を含み得る。
CPU805は、集積回路などの回路の一部であってよい。システム801の1つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路(ASIC)である。
記憶装置815は、例えばドライバー、ライブラリーおよび保存プログラムなど、ファイルを記憶することができるものである。記憶装置815は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができるものである。コンピュータシステム801は、一部の場合では、例えばコンピュータシステム801とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するなどコンピュータシステム801に対して外付けである、1つまたは複数の追加的なデータストレージユニットを含み得る。
コンピュータシステム801は、1つまたは複数の遠隔コンピュータシステムとネットワーク830を通じて通信することができるものである。例えば、コンピュータシステム801は、ユーザの遠隔コンピュータシステムまたは核酸の配列に符号化または復号されたデータの解析過程でユーザが使用することができる他のデバイスおよび/もしくは機構(例えば、シークエンサーまたは核酸配列中の窒素含有塩基の順序を化学的に決定するための他のシステム)と通信することができるものである。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android(登録商標)使用可能デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザは、コンピュータシステム801にネットワーク830を介してアクセスすることができる。
本明細書に記載の方法は、例えば、メモリ810または電子記憶装置815など、コンピュータシステム801の電子ストレージ場所に記憶された機械(例えば、コンピュータプロセッサ)により実行可能なコードによって実装することができる。機械により実行可能なまたは機械により可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードをプロセッサ805によって実行することができる。一部の場合では、コードを記憶装置815から取得し、プロセッサ805による即時アクセスのためにメモリ810に記憶させることができる。一部の状況では、電子記憶装置815を除外し、機械により実行可能な命令をメモリ810に記憶させることができる。コンピュータシステム801は、本明細書に記載されている化学的方法および操作のいずれかを行うように構成された、配列決定機械、バーコードスキャナー、網膜スキャナー、指紋スキャナー、キーパッドエントリーデバイス、拭き取りデバイスおよび自動液体処理ユニットのうちいずれか1つに動作可能なように連結することができる。コンピュータシステム801は、保証された位置またはデポジットへの物理的アクセスをロックおよびロック解除するように構成することができる。
コードは、コードを実行するように適合させたプロセッサを有する機械を用いた使用のためにプレコンパイルし、構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードがプレコンパイル様式でまたは同時コンパイル様式(as-compiled fashion)で実行されることが可能になるように選択することができるプログラミング言語中に供給することができる。
コンピュータシステム801などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には機械可読媒体の一種に保有させるまたは具体化される機械(またはプロセッサ)実行可能なコードおよび/または関連データの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ(例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶させることができる。「ストレージ」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保存をもたらすことができる、コンピュータの有形メモリ、プロセッサなど、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部を、時々インターネットまたは種々の他の電気通信ネットワークを通じて通信させることができる。そのような通信により、例えば、ソフトウェアを1つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにロードすることが可能になる。したがって、ソフトウェア要素を運ぶことができる別の型の媒体として、有線および光陸線ネットワークを通じておよび種々のエアリンクを通じてローカルデバイス間の物理的インターフェースを横切って使用されるものなどの光波、電波および電磁波が挙げられる。有線または無線リンク、光リンクなどのそのような波を運ぶ物理的要素も、ソフトウェアを有する媒体とみなすことができる。本明細書で使用される場合、非一時的有形「ストレージ」媒体に制限されていなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令をもたらすことに関与するあらゆる媒体を指す。
したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的送信媒体を含めた多くの形態をとる。不揮発性記憶媒体としては、例えば、光学ディスクまたは磁気ディスク、例えば、任意のコンピュータ(複数可)中のストレージデバイスなど、例えば、図に示されているデータベースなどを実装するために使用することができるものが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル;コンピュータシステム内に母線を含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または高周波(RF)および赤外(IR)データ通信中に生じるものなどの音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは命令、そのような搬送波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために1つまたは複数の命令の1つまたは複数のシークエンスをプロセッサに運ぶことに関与し得る。
コンピュータシステム801は、例えば、クロマトグラフ、配列、ならびに、DNA記憶データに符号化または復号される核酸、生データ、ファイルおよび圧縮または復元されたzipファイルを符号化または復号している機械またはコンピュータシステムによって符号化されるまたは読み取られるビット、バイト、またはビットストリームを含む配列出力データをもたらすための、ユーザインタフェース(UI)840を含む電子ディスプレイ835を含み得るまたはそれと通信し得る。UIの例としては、限定することなく、グラフィカルユーザインターフェース(GUI)およびウェブに基づくユーザインタフェースが挙げられる。本開示の方法およびシステムは、1つまたは複数のアルゴリズムを介して実装することができる。アルゴリズムは、中央処理装置805により実行されるとソフトウェアを介して実装することができる。デジタル情報を符号化する前に、デジタル情報を生データまたはzipファイルに圧縮されたデータにコーディングするためのカスタマイズされた方法を決定するために、アルゴリズムを、例えば、DNAインデックスおよび生データまたはzipファイルに圧縮もしくは復元されたデータを用いて使用することができる。
本明細書に記載されているシステムおよび方法に関与する化学的方法は、2019年5月16日に出願され、米国特許出願公開第2020/0193301号として公開された表題「COMPOSITIONS AND METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」の米国特許出願第16/414,758号;および2020年9月4日に出願された表題「CHEMICAL METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」の米国特許出願第17/012,909号に記載されており、これらの各々は、その全体がこれにより参照により本明細書に組み込まれる。
ライゲーションを使用して、配列決定アダプターを核酸のライブラリーに付着させることができる。例えば、ライゲーションを、核酸ライブラリーの各メンバーの末端の共通の付着末端またはステープルを用いて実施することができる。核酸の一方の末端の付着末端またはステープルが他方の末端のものと区別可能な場合、配列決定アダプターを非対称にライゲーションすることができる。例えば、フォワード配列決定アダプターを核酸ライブラリーのメンバーの一方の末端にライゲーションすることができ、リバース配列決定アダプターを核酸ライブラリーのメンバーの他方の末端にライゲーションすることができる。あるいは、平滑末端化されたライゲーションを使用して、アダプターを平滑末端化された二本鎖核酸のライブラリーに付着させることができる。フォークアダプターを使用して、各末端で等価である平滑末端または付着末端のいずれかを有する核酸ライブラリーにアダプターを非対称に付着させることができる(例えば、A尾部など)。
核酸増幅は、ポリメラーゼ連鎖反応、またはPCRを用いて実行することができる。PCRでは、核酸の出発プール(鋳型プールまたは鋳型と称される)をポリメラーゼ、プライマー(短い核酸プローブ)、ヌクレオチド三リン酸(例えば、dATP、dTTP、dCTP、dGTP、およびその類似体またはバリアントなど)、ならびにベタイン、DMSO、およびマグネシウムイオンなどの追加的な補助因子および添加剤と組み合わせることができる。鋳型は、一本鎖核酸であっても二本鎖核酸であってもよい。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。「PCR」とは、一般には、特に前記形態の反応を指し得るが、より一般的には、あらゆる核酸増幅反応を指すためにも使用され得る。
ハイスループット単一分子PCRは、互いに妨げる可能性がある区別可能な核酸のプールを増幅するために有用であり得る。例えば、複数の区別可能な核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがPCR反応中に起こり、その結果、新しい、組み換えられた核酸がもたらされる可能性がある。単一分子PCRでは、区別可能な核酸配列が互いに区画化され、したがって、相互作用することができないので、この潜在的な増幅エラーが防止される。単一分子PCRは、配列決定のための核酸を調製するために特に有用であり得る。単一分子PCRは、鋳型プール中のいくつかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルPCR(またはdPCR)では、区別可能な単一分子PCR増幅シグナルの頻度を使用して、試料中の出発核酸分子の数を推定する。
PCRの一部の実装では、全ての核酸に共通するプライマー結合性部位に対するプライマーを使用し、核酸の群を非弁別的に増幅することができる。例えば、プライマー結合性部位に対するプライマーは、プール中の全ての核酸に隣接する。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリーを創出またはアセンブルすることができる。しかし、一部の実装では、PCRを使用し、例えば、プライマーを前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合性部位と使用することによって、標的化された核酸のサブセットをプールから選択的に増幅することができる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に増幅するために、目的の潜在的サブライブラリーに属する核酸全てがそれらの縁に共通のプライマー結合性部位を共有する(サブライブラリー中では共通するが、他のサブライブラリーとは区別可能な)ように創出またはアセンブルすることができる。
親和性タグ付き核酸を核酸捕捉のための配列特異的なプローブとして使用することができる。プローブを、核酸のプール内の標的配列と相補的になるように設計することができる。その後、プローブを核酸プールと一緒にインキュベートし、その標的とハイブリダイズさせることができる。
一般的な核酸捕捉のために共通のプローブ結合性部位を有する合成核酸ライブラリーを創出またはアセンブルすることができる。これらの共通部位を、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸をアセンブリー反応から選択的に捕捉し、それにより、部分的にアセンブルされたまたはミスアセンブルされた(または意図されたものではないもしくは望ましくない)副産物を濾過して取り除くために使用することができる。例えば、アセンブリーには、各縁配列にプローブ結合性部位を有する核酸を、完全にアセンブルされた核酸産物のみが、各プローブを使用して一連の2つの捕捉反応を通るのに必要な必須の2つのプローブ結合性部位を含有するようにアセンブルすることを含み得る。ストリンジェンシーを増大させるために、アセンブリーの各成分に共通のプローブ結合性部位を含めることができる。一部の実装では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉することができる。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合性部位を有するプローブを使用することによる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に捕捉するために、目的の潜在的なサブライブラリーに属する核酸の全てが共通のプローブ結合性部位を共有する(サブライブラリー中では共通であるが、他のサブライブラリーとは区別可能な)ように創出またはアセンブルすることができる。
一部の実装では、核酸のライブラリーは、例えば、保存のために、凍結乾燥を受けることができる。凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物(例えば、活性酵素)を維持するために、化学的安定剤などの添加剤を使用することができる。スクロースおよびトレハロースなどの二糖を化学的安定剤として使用することができる。
核酸は、配列決定が容易になるように設計することができる。例えば、核酸は、二次構造、ひと続きのホモポリマー、反復配列、およびGC含量が高すぎるまたは低すぎる配列などの典型的な配列決定複雑化が回避されるように設計することができる。ある特定のシークエンサーまたは配列決定方法は、エラープローンであり得る。合成ライブラリー(例えば、識別子ライブラリー)を構成する核酸配列(または成分)は、互いからのある特定のハミング距離で設計することができる。このように、配列決定において塩基分解能エラーが高い率で生じる場合であっても、エラーを含有する配列のひと続きをなおそれらの最も可能性がある核酸(または成分)にマッピングし戻すことができる。核酸配列は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、11塩基、12塩基、13塩基、14塩基、15塩基またはそれよりも多くの塩基の変異というハミング距離で設計することができる。ハミング距離の代替距離測定基準を使用して、設計される核酸間の最小の必要距離を規定することもできる。
いくつかの配列決定方法および計器では、アダプター配列またはプライマー結合性部位などの特定の配列を含有させるために入力核酸が必要になる。これらの配列は、「方法特異的配列」と称することができる。前記配列決定計器および方法の典型的な予備的ワークフローには、方法特異的配列を核酸ライブラリーにアセンブルすることが伴う。しかし、合成核酸ライブラリー(例えば、識別子ライブラリー)が特定の計器または方法で配列決定されることが前もって分かっている場合には、これらの方法特異的配列を、ライブラリー(例えば、識別子ライブラリー)を含む核酸(例えば、成分)中に設計することができる。例えば、合成核酸ライブラリーのメンバー自体が個々の核酸成分からアセンブルされるのと同じ反応ステップで、合成核酸ライブラリーのメンバー上に配列決定アダプターをアセンブルすることができる。
核酸は、DNA損傷を容易にし得る配列が回避されるように設計することができる。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避することができる。別の例として、UVB(紫外線-B)光により、隣接するチミンがピリミジン二量体を形成し、次いでそれにより配列決定およびPCRが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリーがUVBに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン(すなわち、TT)が回避されるように設計することが有益であり得る。
識別子によりコンピューティングする方法
化学的操作を使用して、識別子ライブラリーにおいて符号化されたデータにおけるコンピュータによる計算を行うことが可能であり得る。かかる操作は、アーカイブ全体の任意のサブセットまたはアーカイブ全体において並列化様式で行うことができるため、これを行うことが有利であり得る。第二に、コンピュータによる計算は、データを復号することなくin vitroで行うことができ、よって、コンピュータによる計算を可能にしながら機密を確実にする。一実施形態では、例えば、AND、OR、NOT、NANDなどのブール論理演算を含むコンピュータによる計算は、各ビット位置を表す識別子を使用して符号化されたビットストリームにおいて行うことができ、この場合、識別子の存在は、ビット値を「1」に符号化し、識別子の非存在は、ビット値を「0」に符号化する。
一実施形態では、全識別子が、一本鎖核酸分子として構築される(または初期には二本鎖核酸分子として、次いで一本鎖形態へと単離される)。任意の一本鎖識別子xについて、本発明者らは、xの逆相補体である識別子をxによって表示する。一本鎖識別子の任意のセットSについて、本発明者らは、Sにおける各識別子の逆相補体のセットをSとして表示する。本発明者らは、Uによって、ライブラリーにおけるあらゆる可能な一本鎖識別子のセットを表示し、Uによって、その逆相補体のセットを表示する。本発明者らは、これらのセットを、ユニバース(universe)およびユニバースと呼ぶ。UおよびU によって、本発明者らは、ユニバースおよびユニバースセットの第2の対を表示し、これらのセットにおける各識別子は、化学的方法によって標的化または選択され得る検索領域として公知の追加の核酸配列で拡張される。
所与の識別子ライブラリーにおけるコンピュータによる計算は、ハイブリダイゼーションおよび切断が関与する一連の化学的操作によって実行することができる。これらの操作の抽象化(Abstraction)については後述する。各演算は、入力として識別子のプールを受け取り、演算を行い、出力として識別子のプールを返す。
演算single(X)は、識別子のプール(二本鎖および/または一本鎖)を受け取り、一本鎖核酸識別子のみを返す(全ての二本鎖識別子を除去)。演算double(X)は、識別子のプール(二本鎖および/または一本鎖)を受け取り、二本鎖識別子のみを返す(全ての一本鎖識別子を除去)。演算make-single(X)およびmake-single(X)は、全ての二本鎖核酸識別子をその一本鎖形態に変換する(星印の付いたバージョンは、マイナス鎖を返す一方、星印の付いていないバージョンは、プラス鎖を返す)。演算get(X,q)は、クエリーqにマッチする全識別子のプールを返す。q=「全て」である場合、クエリーは、全識別子にマッチし、これを操作する。演算delete(X,q)は、クエリーqを満たす全識別子(二本鎖または一本鎖)を削除する。クエリーは、以前に記載された通りにランダムアクセスにより実装することができる。演算combine(P,Q)は、PまたはQにおける全識別子を含有するプールを返す。本発明者らは、Yの結果を変数名Xに割り当てる演算assign(X,Y)を定義する。簡潔に説明すると、本発明者らはまた、この演算を次式(form):X=Yにおいて表示する。本発明者らは、割当て演算が理想的条件下で実行し、変数が、いかなる「混入」問題も伴わずに再利用されることを可能にすると仮定する。
続きにおいて、本発明者らは、両者共に長さlのビットストリームaおよびbが、それぞれ二本鎖識別子ライブラリーdsAおよびdsBに書き込まれており、本発明者らは、一部のサブビットストリーム(sub-bitstream)s=a…aおよびt=b…bにおけるコンピューティングに関心があり、コンピュータによる計算の結果が、サブビットストリームsに記憶されるべきであると仮定する。すなわち、本発明者らは、次の演算が、initialize(dsA,dsB,s,t)演算によって表示される、指定の順序で初期に実行されたと仮定する。
Figure 2022551186000001
図9は、識別子ライブラリーによりコンピューティングするためのセットアップの例を例示する。本図は、抽象ツリーデータ構造(4と標識)として描かれた識別子の組合せ空間の例を例示する。この例では、ツリーの各レベルは、2つの成分(標識2によって示す)の間から選ぶ。ツリーのルート由来の各パスは、固有の識別子(標識3における例によって例示される通り)に対応し、その順序(またはランク)を決定する。標識4は、一本鎖ユニバーサル識別子ライブラリーを示す。標識5は、例えば「a」と呼ばれる特異的ビットストリームを符号化する一本鎖識別子ライブラリーを示す。標識7は、7ビットを含む「s」と呼ばれる「a」のサブビットストリームを示す。同様に、標識10は、同じ長さのビットストリーム「b」のサブビットストリーム「t」を示す。initialize(dsA,dsB,s,t)をコンピューティングするための初期化手順に記載されている通り、コンピューティングされるべきサブビットストリームは、プールPおよびQ(それぞれ6および9と標識)において利用でき、コンピュータによる計算の準備ができている。
ビットストリームsおよびt中のビットのビット単位の論理積として定義される演算and(s,t)は、下の一連の演算を使用して実装することができる。
Figure 2022551186000002
ビットストリームs中のビットのビット単位の論理否定として定義される演算not(s)は、下の一連の演算を使用して実装することができる。
Figure 2022551186000003
ビットストリームsおよびt中のビットのビット単位の論理和として定義される演算or(s,t)は、下の一連の演算を使用して実装することができる。
Figure 2022551186000004
ビットストリームsおよびt中のビットの積(conjunction)のビット単位の論理否定として定義される演算nand(s,t)は、下の一連の演算を使用して実装することができる。
Figure 2022551186000005
一実施形態では、演算single(X)は、X由来の一本鎖識別子が、ユニバーサル識別子にハイブリダイズするように、XをUまたはU のいずれかとまず組み合わせることが関与し得る。さらに、UおよびU におけるユニバーサル識別子は、特別な検索領域を有するため、ユニバーサル識別子にハイブリダイズするこれらの分子は、標的化された様式でアクセスされ得る。
一実施形態では、演算double(X)は、Xにおける識別子をS1ヌクレアーゼなどの一本鎖特異的ヌクレアーゼで処理し、次いで結果として生じるDNAのプールをゲルで泳動して、切断されなかった(したがって完全に二本鎖の)識別子のみを単離することが関与し得る。
図10は、識別子ライブラリーによって符号化されたビットストリーム「s」および「t」において論理演算をどのように行うことができるかの例を例示する。本図において、本発明者らは、コンピューティングされているプールに相補的となるような、ユニバーサルライブラリー(14と標識)を使用する。AND/NANDと標識された列は、ビットストリーム「s」および「t」(それぞれ5および7と標識)の積をどのようにコンピューティングすることができるかを示す。本発明者らは、プールが、正確なユニバーサルライブラリー(UまたはU)を使用して再フォーマットされると仮定する。2つのプールが組み合わされる場合、示される通り(例えば標識9)、相補的一本鎖識別子同士がハイブリダイズして、二本鎖(double)識別子を形成する。結果として生じるプールにおける二本鎖識別子の収集(10と標識)は、ANDのコンピュータによる計算の結果を符号化する:二本鎖産物の分離は、and(s,t)の識別子ライブラリー表現をもたらす。その代わりに、一本鎖産物の分離は、nand(s,t)の識別子ライブラリー表現をもたらす。ORと標識された列は、ビットストリーム「s」および「t」の和(disjunction)をそのようにコンピューティングすることができるかを示す。「s」および「t」を表す識別子を含有するプールが組み合わされる場合、結果として生じるライブラリーは、or(s,t)の表現を含有する。NOTと標識された列は、ビットストリーム「s」の否定をどのようにコンピューティングすることができるかを示す。そこで、ビットストリーム「s」を表す一本鎖識別子ライブラリーは、相補的ユニバーサル識別子ライブラリー(15と標識)と組み合わされる。結果として(19と標識)、形成された全ての二本鎖産物(例えば18と標識)は、「s」における「1」ビットを表し、廃棄され得る。残っている一本鎖産物(例えば、17と標識)は、「s」における「0」ビットを表し、よって、not(s)における「1」ビットに対応する。これらの一本鎖産物は、not(s)の識別子ライブラリー表現をもたらし、さらなるコンピュータによる計算に使用され得る。
DNAによるデータランダム化、暗号および認証の方法
DNAを使用してランダムビットストリームを生成および記憶する能力は、暗号および組合せアルゴリズムにおけるコンピュータによる計算に用途がある場合がある。多くの暗号化アルゴリズム、例えば、DESは、セキュリティーを保証するためにランダムビットの使用を要求する。他の暗号化アルゴリズム、例えば、AESは、暗号キーの使用を要求する。典型的には、ランダムビットまたはキーにおける任意のシステマティックパターンまたはバイアスは、暗号化されたメッセージを攻撃し破るために活用され得るため、このようなランダムビットおよびキーは、ランダム性の堅牢なソースを使用して生成される。さらに、暗号化に使用されるキーは典型的に、暗号解読のためにアーカイブされることが要求される。暗号化方法のセキュリティーの強度は、アルゴリズムにおいて使用されるキーの長さに依存する:一般に、キーが長いほど、暗号化は強くなる。ワンタイム・パッド(one-time-pad)などの方法は、最も堅牢な暗号化方法の1つであるが、その長いキー要件が原因で、用途が限られている。
本文書に記載されている方法を使用して、数十、数百、数千、数万またはそれよりも多いビットの長さであり得る、ランダムキーの極めて大きい収集物を生成およびアーカイブするこができる。1つの実装では、各核酸分子が次の設計を満たす核酸ライブラリーを生成することができる:n塩基の長さを有し、k<n塩基の可変領域を有する。可変領域中の塩基は、ライブラリーの構築の際にランダムに選択できる。例えば、nは、100であり得、kは、80であり得る;よって、サイズ1050の異なる分子のライブラリーが潜在的に生成され得る。例えば、サイズ1000の分子のかかるライブラリーのランダム試料を配列決定して、暗号化に使用され得る最大1000ビットランダムキーを得ることができる。
別の実装では、上記の核酸キー(キーを表す核酸分子)を識別子に取り付けて、キーセットの順序付けされた収集物を得ることができる。順序付けされたキーセットを使用して、暗号化の文脈で様々な団体によってキーが使用される順序を同期化することができる。例えば、識別子ライブラリーは、産物スキームを使用して組合せにより構築して、1012通りの固有の識別子を得ることができる。マイクロ流体法を使用して、各識別子を核酸キーと併置し、アセンブルして、固有の識別子およびランダムキーを含む核酸試料を形成することができる。識別子ライブラリーにおける識別子は順序付けされているため、次に、任意の指定の順序でキーを順序付けし、アクセスし、配列決定することができる。
別の実装では、識別子に取り付けられたキーを使用して、入力識別子を一続きのランダムビットにマッピングするランダム関数をインスタンス化することができる。かかるランダム関数は、ハッシュ化など、その値のコンピューティングが容易だが、所与の値からの反転が困難な関数を要求する適用において有用であり得る。かかる適用において、各々固有の識別子によりアセンブルされたキーのライブラリーが、ランダム関数として使用される。値は、ハッシュ化されるべきである場合、それは識別子にマッピングされる。次に、ハイブリダイゼーション捕捉またはPCRなど、ランダムアクセス方法を使用して、識別子は、キーライブラリーからアクセスされる。識別子は、ランダム塩基の配列を含むキーに取り付けられる。このキーは、配列決定され、一続きのビットへと翻訳され、ランダム関数の出力として使用される。
核酸分子ライブラリーは、安価かつ迅速にコピーすることができるため、また、少ない体積でひそかに輸送することができるため、上記の通りに生成された核酸キーセットは、地理的に併置されない複数の団体の間に堅牢かつひそかな様式で多数の暗号化キーが定期的に配布されなければならないという状況において有用であり得る。加えて、キーは、極めて長い期間にわたり確実にアーカイブされ、暗号化されたアーカイブされたデータの堅牢な記憶を可能にすることができる。
図11~図16は、DNAに記憶されたランダムなまたは暗号化されたデータを創出し、記憶し、アクセスし、使用するための方法の実装を例示する。DNAは、灰色および黒色のバーおよび記号を含む文字列として描写される。各描写されたDNAは、区別可能な種を表す。「種」は、同じ配列の1つまたは複数のDNA分子として定義される。「種」が、複数形の意味で使用される場合、複数の種における全ての種が、区別可能な配列を有することを仮定することができるが、これは、「種」の代わりに「区別可能な種」と書くことにより、明確にされる場合もある。
図11は、DNAの大きい組合せ空間およびシークエンサーを使用した、エントロピー(またはランダムデータ)生成器の例を描写する。方法は、シードと称されるDNA種のランダムプールで始まる。シードは、理想的には、DNAの定義された組合せセットの全ての種、例えば、50塩基を有する(450のメンバーを有する)全てのDNA種の均一な分布を含有するべきである。しかし、完全組合せ空間は、シードにおいて表されるべき全メンバーにとって大き過ぎる場合があるため、シードが、組合せ空間全体の代わりに組合せ空間のランダムサブセットを含有することが許容できる。シード種は、端(黒色および薄灰色のバー)に共通配列を、次いで中央(N…N)に区別可能な配列を有するように設計することができる。縮重オリゴヌクレオチド合成戦略を使用して、急速かつ廉価な様式で、この出発シードを製造することができる。共通端配列は、PCRによるシードの増幅またはある特定の読み出し(または配列決定)方法との互換性が可能になり得る。縮重オリゴヌクレオチド合成の代替として、組合せDNAアセンブリー(1回の反応において多重化)を使用して、シードを急速かつ廉価に生成することもできる。シークエンサーは、シードから種をランダムにサンプリングし、ランダムな順序でサンプリングする。任意の所与の時点でシークエンサーによって読み取られる種において不確実性が存在するため、システムは、エントロピー生成器として分類することができ、これは、例えば、暗号化キーとして、ランダムな数またはデータのランダムストリームの生成に使用することができる。
図12Aは、DNAにランダムに生成されたデータを記憶するための方法の概略図の例を例示する。この方法は、(1)シードと称されるDNA種の大きいランダムプールで始まる。シードは、理想的には、DNAの定義された組合せセットの全ての種、例えば、50塩基を有する(450のメンバーを有する)全てのDNA種の均一な分布を含有するべきである。しかし、完全組合せ空間は、シードにおいて表されるべき全メンバーにとって大き過ぎる場合があるため、シードが、組合せ空間のランダムサブセットを含有することが許容できる。シード自体は、縮重オリゴヌクレオチド合成または組合せDNAアセンブリーから生成され得る。(2)ランダムデータ(またはエントロピー)は、シードにおける種のランダムサブセットを受け取ることにより生成される。例えば、これは、シード溶液の釣り合った、分画体積を受け取ることにより達成することができる。例えば、シード溶液が、1マイクロリットル(uL)当たり推定百万の種からなる場合、シード溶液(十分に混合されていることを仮定)から1ナノリットル(nL)アリコートを受け取ることにより、およそ千の種のランダムサブセットを選択することができる。その代わりに、サブセットは、ナノポア膜を通るようにシード溶液のアリコートを流動させ、膜を通過した種のみを収集することにより選択することができる。膜を通過した種の数の計数は、ナノポアにわたる電圧差を測定することにより達成することができる。このプロセスは、望ましい数のシグネチャーが検出されるまで(例えば、100、1000、10000またはそれよりも多い種のシグネチャー)続けることができる。別の代替方法として、小さい液滴(例えば、油エマルジョンによる)において単一の種を単離することができる。単一の種を有する小さい液滴は、蛍光シグネチャーによって検出し、一連のマイクロ流体チャネルによって収集チャンバーへと選別することができる。(3)本発明者らは、各選択された種を識別子と言うことができ、さらに、本発明者らは、選択された種の完全サブセットを「ランダム識別子ライブラリー」またはRILと言うことができる。RILにおける情報を安定化し、これを分解から保護するために、RILは、種の末端における共通配列に結合するPCRプライマーにより増幅することができる。RILにおける識別子(およびしたがって、その中に記憶されたデータ)を決定するために、RILを配列決定することができる。真の識別子は、定義されたノイズ閾値を上回る富化を有する試料における種によって定義することができる。(4)RILに含有されたデータが決定されたら、余分なエラーチェックおよびエラー補正種をRILに加えることができる。例えば、何個の識別子を予想するかに関する情報を含有する「整数DNA」(例えば、チェックサムまたはパリティチェック)をRILに加えることができる。整数DNAは、情報の全てを回収するためにRILをどの程度深く配列決定するかについて知らせることができる。
RILは、固有のDNAタグによりバーコード化することができる。次に、任意の所与のRILが、その固有のDNAタグに対するハイブリダイゼーションアッセイ(またはPCR)により個々にアクセスされ得るように、いくつかのバーコード化されたRILを一緒にプールすることができる。固有のDNAタグを組合せによりアセンブルまたは合成し、次いでその対応するRILにおいてアセンブルすることができる。図12Bは、100個のランダム塩基を各々含有する4つの種を含むRILの例を示す。可能な種の組合せ空間は、4100であり、したがって、RILは、log(4100choose4)≒725ビットの情報を含有することができる。図12Cもまた、100個のランダム塩基を各々含有する4つの種を含むRILの例を示す。4100の組合せ空間から選ばれた4つの種の特定の順序付けされていない組合せに情報を記憶すること(図12Bにおけるような)の代替として、各種の最終的な90個のランダム塩基を保留して、log(490)=180ビットの情報を記憶することができる一方で、最初の10個のランダムな塩基を保留して、4つの種の各々に記憶された情報の間に相対的な順序を確立することができる。相対的な順序は、4塩基の定義された順序付けに基づく10塩基列の辞書式順序付けによって定義することができる(英語において単語がアルファベットにおける文字の順序に従って順序付けされる様式と同様に)。RILに情報を割り当てるための本方法は、バイナリ文字列にマッピングするには、図12Bに記載されている方法よりも、計算がより高速であり得る。
前の図(図12A~図12C)において、本発明者らは、複数のRILをバーコード化し、これらを一緒にプールするための戦略について考察する。これを行うために、入力-出力マッピングが創出され、これによると、入力は、バーコードハイブリダイゼーションプローブ(個々のRILにアクセスするための)に対応し、出力は、ランダムデータ文字列(標的されたRILによって符号化)に対応する。本方法において、予め定義されたバーコードは、組み合わせたプールからの検索のためにランダムデータにアセンブルされる一方、図13Aは、核酸プローブおよびランダムデータ文字列の間に入力-出力マッピングを創出するための異なる方法を実証し、それによると、バーコード(データにアクセスするための)は、ランダムデータそれ自体と共にランダムに生成される。例えば、バーコードは、1または複数の種の両方の端に現れることができるDNAの短い配列の一対であり得る。本実装では、各バーコードが、偶然に、1つまたは複数の種と関連するように、可能なバーコードの組合せ空間は、プールにおけるあらゆる可能な種の総数と比較して小さくてもよい。例えば、バーコードが、種におけるランダムDNA配列(共通配列によって挟まれた)の各端における3塩基である場合、4=4096の可能なバーコードが存在し、したがって、これらにアクセスするために構築され得る4=4096のプライマー対が存在する(12ビット入力に対応)。DNAのプールが、およそ400Kの種を有するように選択される場合、各バーコードは、平均しておよそ100の種に関連することができる。本実装では、RILは、各バーコードに関連する種のサブセットによって定義される。先行する例に従って、各種が、バーコード化に使用される塩基(または配列)とは別に25個のランダムな塩基(またはランダムな配列)を含む場合、100の種のRILに関連するバーコードは、最大log(425choose100)≒4475ビットの情報を含有することができる。
図13Bは、バーコード化されたRILのプールから記憶されたランダムデータにアクセスし、読み取るためのスキームの実装を実証する。シークエンサー(またはリーダー)は、出力を返す前に配列データをマニピュレートするための関数をさらに含むことができる。例えば、ハッシュ関数は、出力データ文字列を使用して逆向き化学的クエリーを行い、その入力を見出すことを困難にし得る。この機能性は、例えば、入力が、認証に使用されるキーまたは認証情報である場合に有用であり得る。
データのクエリー可能な(またはアクセス可能な)ランダム文字列を生成および記憶する方法は、暗号化キー(ランダムデータ文字列から生成)の生成およびアーカイブに特に有用であり得る。各入力を使用して、異なる暗号化キーにアクセスすることができる。例えば、各入力は、特定のユーザ、時間範囲、および/またはプライベートアーカイブデータベースにおけるプロジェクトに対応することができる。プライベートアーカイブデータベースにおける暗号化されたデータ(潜在的に、非常に大量のデータに達する)は、アーカイブサービスプロバイダーによって従来媒体において記憶され得る一方で、暗号化キーは、所有者によってDNAに記憶され得る。さらに、特定の入力のために化学的アクセスプロトコールを行うために要求される潜在的な待ち時間および高度化は、ハッキングに対する暗号化方法のセキュリティー障壁を高めることができる。
図14は、アーチファクトへのアクセスを保証および認証するためのシステムの例を例示する。システムは、可能な種の大きいプールから取られたDNAの種の特定の組合せを含む物理的なキーを要求する。「識別子キー」とも称される種の標的組合せは、例えば、組合せマイクロ流体チャネル、エレクトロウェッティング(electrowetting)もしくはプリンティングデバイスによって自動的に、またはピペッティングによって手動により生成され得る。ビルトインロックを有するリーダーまたはシークエンサーは、マッチする識別子キーを立証し、アーチファクトへのアクセスを可能にする。その代わりに、リーダーは、認証情報-トークンシステムとして挙動することができ、それによると、アーチファクトへのアクセスを直接的にロック解除する代わりに、これは、アーチファクトのアクセスに使用され得るトークンを返す。トークンは、例えば、リーダー内のビルトインハッシュ化関数によって生成することができ、それによると、ハッシュ化関数は、電子的にリーダー由来の読み取りまたは配列データに適用される。例えば、リーダーは、プロセッサ可読媒体におけるプログラムのステップを実行するように構成されたプロセッサを含み、ステップは、読み取りまたは配列データを取り込み、1つまたは複数の数学的または論理演算をデータに適用し、ハッシュ化された値またはハッシュ化されたトークンを出力することに関与する。
リーダー内でまたはその他の方法で識別子を配列決定した後に電子的にハッシュ化関数を適用するよりもむしろ、ハッシュ化関数を、識別子ライブラリーに適用された1つまたは複数の反応により化学的に適用して、ハッシュ化されたライブラリーを生成することができ、その後に、今やハッシュ化された識別子を配列決定し、または読み取る。ハッシュ化された識別子のみが、配列決定または読み取られることにより、識別子の元のライブラリーの配列データが明らかにならないことから、この手法は、識別子によって符号化された情報のより高いセキュリティーのためのエアギャップされた手法を表すため、有利である。図15は、セキュリティーおよび認証における使用のための核酸分子のライブラリーを調製するための方法1500について説明するフローチャートを示す。方法1500は、ステップ1502および1504が関与する。ステップ1502は、セキュリティートークンを表す核酸分子のライブラリーを得ることが関与する。ステップ1504は、セキュリティートークンを表すライブラリーに化学的操作を適用して、ハッシュ化されたトークンを表す核酸分子のハッシュ化されたライブラリーを得ることが関与する。
化学的操作は、セキュリティートークンにおける1つまたは複数のブール関数をもたらすように設計することができる。例えば、図9および図10に関する上記のブール関数は、ライブラリーに、よって、それが表すトークンに適用することができる。このようなブール関数は、ライブラリーに化学的に適用されるハッシュ関数を構成して、ハッシュ化されたトークンを表すハッシュ化されたライブラリーを得ることができる。ハッシュ化されたライブラリーは、元のライブラリーのサブセットであり得、サブセットは、ライブラリーの核酸分子の一部を選択することにより決定される。
一部の実装では、方法1500は、ハッシュ化されたライブラリーの核酸分子の少なくとも一部を配列決定して、配列決定読み出しを得るステップをさらに含む。さらに、方法1500は、配列決定読み出しをデータベースまたはルックアップテーブルと比較して、マッチする配列の存在または非存在を決定するステップが関与し得る。配列決定読み出しにおけるマッチする配列の存在または非存在に基づき、保証された資産または位置へのアクセスを許可または拒否することができる。配列決定の適した型は、サンガー配列決定、ハイスループット配列決定、ショットガン配列決定およびナノポア配列決定を含む。
ハッシュ化ライブラリーを配列決定するよりもむしろ、検証関数を適用して、完全なライブラリーを配列決定する必要なく、ハッシュ化されたトークンを認証することができる。ハッシュ化されたトークンが、参照配列にマッチする場合、検証関数が、ハッシュ化されたライブラリーにおける1つまたは複数の追加的な化学的操作によって行われて、出力分子が産生する。化学的操作は、ハッシュ化されたトークンへの、図9および図10に関する上記のものなど、ブール論理を行う効果を有することができる。次に、アッセイを使用して、出力分子の存在または非存在を決定する。検証関数の化学的操作は、ネステッドPCR、標的特異的プライマーによるPCR、プローブ(例えば、親和性タグ付けされたプローブまたは分解標的化プローブ)のセットの適用、またはハッシュ化されたライブラリーの核酸と相互作用する酵素もしくはタンパク質の適用が関与し得る。例えば、検証関数の化学的操作は、ハッシュ化されたライブラリーにプライマーを適用することにより、ハッシュ化されたトークンを参照パターン/配列と比較する効果を有することができ、プライマーは、参照パターンにマッチする配列を有する核酸分子のみにハイブリダイズするように設計されている。別の例は、参照パターンに対応する配列を有する核酸分子を標的化する、ジンクフィンガーヌクレアーゼ、転写活性化因子様エフェクターヌクレアーゼ(Talen)、またはCas9などのCRISPR関連タンパク質を使用することにより、ハッシュ化されたトークンを比較または評価することが関与する。これらのタンパク質は、標的化された核酸分子を切断して、断片を創出することができる。Cas9は特に、標的核酸に対して相補性を有するガイドRNAを使用することができる。出力分子は、小分子、核酸分子、特定の配列を有する核酸分子、ライブラリーの核酸のうち1つの核酸断片、タンパク質、酵素、機能付与されたタンパク質、タグ付けされた分子、または短い期間で減衰するように構成された分子のいずれかであり得る。例えば、出力分子は、RNA(例えば、ライブラリー由来のRNA)であり、これは、RNAの配列を改変し、配列忠実度の限定された寿命をRNAに与えるプロセスである、ウラシルからチミンへのメチル化またはウラシルの酸化的分解により分解する。
例えば、PCR、逆転写PCR(RT-PCR)、qPCR、親和性タグ付け、蛍光定量法または電気泳動を、検証関数を完成するためのアッセイとして使用することができる。出力分子が、フルオロフォアであるまたはフルオロフォアでタグ付けされる場合、蛍光定量法が特に有用であり得る。RNAよりも化学的に安定した相補的DNA(cDNA)を産生するための、RT-PCRは、出力分子としてのRNAのアッセイに有用である。アッセイを一緒にまたはその代わりに使用して、出力分子の化学的同一性を立証することができる。方法は、アッセイ結果に基づき、保証された資産または位置へのアクセスを許可または拒否するステップがさらに関与し得る。方法は、アッセイ結果に基づき、ライブラリーに関連するアーチファクトの真正性を決定するステップがさらに関与し得る。
一部の実装では、ライブラリーは、固有の分子バーコードを含む。ライブラリーは、安定化された貯蔵のために凍結乾燥されてよい。セキュリティートークンは、トークンのユーザに対して固有であり得る。セキュリティートークンは、メッセージ、コードワード、ランダム化されたコードワード/キー/文字列、身元、または通貨価値を符号化することができる。トークンは、パスワードをエンターしてシステムにログインし、ライブラリーを提示し、ハッシュ化し、検証して、システムへのアクセスを確認または拒否する2要素認証システムの一部であり得る。ライブラリーは、ある期間の後に減衰するように構成することができる。例えば、ライブラリーは、RNA(例えば、ライブラリー由来のRNA)であり、これは、RNAの配列を改変し、配列忠実度の限定された寿命をRNAに与えるプロセスである、ウラシルからチミンへのメチル化またはウラシルの酸化的分解により分解する。
一部の実装では、ライブラリーは、アーチファクトと併置され、セキュリティートークンは、アーチファクトに対して固有である。例えば、アーチファクトは、ウェル、液滴、スポット、密封された容器、ゲル、懸濁液または固体マトリックスなど、ライブラリーを封入するように構成された容器である。他の適したアーチファクトは、流体(例えば、液体、ガス、油、インク、圧縮ガスまたは薬物)、生物、通貨または文書を含む。アーチファクトが、文書である場合、ライブラリーを含有するインクまたはスタンプは、文書に刷り込まれる。
ライブラリーは、少なくとも約1キロビットの情報を符号化することができる。セキュリティートークンは、複数の記号を含むことができ、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、ライブラリーは、ランダムに生成される。例えば、図11~図13に関して記載されたランダムライブラリーのいずれかが用いられる。一部の実装では、セキュリティートークンは、符号化方式により、核酸分子のライブラリーによって表され、トークンは、2つの可能な記号値のうち1つを有する複数の記号にマッピングされ、記号が、2つの可能な記号値の第1の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号が、2つの可能な記号値のうちの第2の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。
DNAによりアーチファクトにタグ付けし、実体を追跡する方法
溶媒に溶解された識別子ライブラリーは、物理的アーチファクトの中にまたはその表面に噴霧、拡散、分配または注射して、これに情報をタグ付けすることができる。固体形態の(例えば、凍結乾燥された)識別子ライブラリーは、物理的アーチファクトの中にまたはその表面に沈着、静電気的に固着、化学的に結合、またはエアロゾル化し噴霧して、これに情報をタグ付けすることができる。例えば、固有の識別子ライブラリーを使用して、ある型のアーチファクトの区別可能な事例にタグ付けすることができる。アーチファクトにおける識別子ライブラリータグは、固有のバーコードもしくは値として作用することができる、または製品番号、製造もしくは発送日、起源の位置、もしくはアーチファクトの履歴に関係する任意の他の情報、例えば、以前の所有者のトランザクションリストなどのより高度化された情報を含有することができる。識別子を使用して、アーチファクトにタグ付けすることの主な利点は、識別子が、検出不能であり、耐久性があり、個々に膨大な数のアーチファクト事例をタグ付けするのに良く適していることである。
物理的オブジェクトは、固有に識別可能な合成DNAの試料でマークまたは塗布することができる。ガス(例えば、圧縮空気)および液体(例えば、インクまたは油)であってもタグ付けすることができ、これは、従来方法では不可能である。インク、例えば、プリントカートリッジまたはペンの中のインクが、固有のDNAライブラリーをタグ付けされ、文書におけるプリントまたは書き込みに使用される場合、前記文書の真正性は、文書からDNAを拭き取り、これを配列決定することにより検証することができる。その上、文書における材料の補充または検証のいずれかを行う、ひそかなメッセージがインクの中に含まれていてよい。タグは、守秘的(discreet)であり、例えば、オブジェクトが、ある特定の物理的空間を通って移動したかの、または別のオブジェクトと相互作用したかの識別に使用することができる。タグは、定量的でもあり、したがって、ある特定のオブジェクトが、改ざんされたまたは希釈された(液体または気体の場合)かの検証に使用することができる。例えば、液体が、1mL当たり1000コピーのタグをタグ付けされたが、後に1mL当たり100コピーで回収される場合、液体が希釈されたと推論され得る。タグおよびバーコードは、容易に創出および配置され得る。これらは、最大数キロビットまたはそれよりも多い情報を含有することができる。これらは、可能な識別子の予め作られた組合せ空間から識別子のサブセットを受け取ることにより創出され得る。
識別子ライブラリーは、堅牢な資産へのアクセスを獲得するためのトークンとして、容易に生成および使用することができる。トークンは、例えば、依然として堅牢であるが1キロビットの情報を符号化するなど、小さくてもよい。トークンを表す識別子ライブラリーは、可能な識別子の予め作られた組合せ空間から識別子のサブセットを受け取ることにより創出することができる。例えば、トークンは、寄託後に所有者に与え、資産の引き落とし後に容認することができる。その代わりに、トークンは、物理的なキーのように、所有者によって創出することができる。その物理的な性質のため、トークンは、電子的窃盗または改ざんを受けないであろう。同様に、その守秘的な性質のため、トークンは、偽造が困難となるであろう。化学的方法を使用して、トークンをハッシュまたは検証して、トークンが電子または可読形式を常にエンターすることを防止することができる。図9および図10に関する上記のブール論理ゲートなど、化学的操作を使用してハッシュ関数または検証関数を行うことができる。例えば、AND、OR、NOTおよびNANDなどの化学的論理ゲートを一緒に構成して、そのハッシュ化されたトークンを配列決定することにより元のトークンを推論することが難しくなるような、ハッシュ関数を形成することができる。ハッシュ化されたトークンの値は、資産に対する許可を決定するためにデータベースにマッチすることができるものである。ハッシュ関数の不可逆性が原因で、データベースは、許可されていない団体によって閲覧される可能性があるが、依然として、資産のセキュリティーおよびこれにアクセスする許可された団体の能力を損なうことはない。その上またはその代わりに、化学的論理ゲートは、これを含むDNA分子の配列決定を要求することなくトークンを検証することができる、トークンのための検証関数を含むことができる。例えば、トークンが正確なパターンにマッチする場合かつその場合に限り、検証関数を使用して、特定の出力識別子を産生することができる。例えば、リアルタイムPCR(qPCR)、蛍光定量法またはゲル電気泳動などのアッセイにより、前記識別子の存在を決定することができる。
図16は、追跡または認証のために流体にタグ付けするための方法1600について説明するフローチャートを示す。方法1600は、ステップ1602および1604を含む。ステップ1602は、情報を表す核酸分子のライブラリーを得ることが関与する。ステップ1604は、流体を、ライブラリーを含むタグと組み合わせて、追跡または認証のためのタグ付けされた流体を得ることが関与する。例えば、核酸分子のライブラリーを含むタグは、タグ付けされた流体の全体にわたりおよそ均一に分散される。
一部の実装では、方法1600は、タグ付けされた流体から核酸分子のライブラリーをサンプリングして、試料を得るステップをさらに含む。サンプリングは、タグもしくはタグ付けされた流体を拭き取ること、タグ付けされた流体からライブラリーの少なくとも一部を抽出すること(例えば、流体からある体積をピペッティングするまたは取り出すことにより)、またはタグ付けされた流体からタグを除去すること(例えば、濾過などの分離プロセスにより)が関与し得る。一部の実装では、タグは、磁気ビーズをさらに含み、サンプリングは、流体に磁石を適用して、磁気ビーズを介してタグを抽出することが関与する。方法1600は、核酸分子の試料を配列決定して、配列決定読み出しを得るステップをさらに含むことができる。上記の配列決定方法のいずれかをこのステップに用いることができる。配列決定読み出しは、図8に記載されているコンピュータネットワーク802など、コンピュータシステムに伝達することができる。本明細書に記載されている方法に従って、配列決定読み出しは、ハッシュ化関数を使用してハッシュ化して、情報のセキュリティーのためのハッシュ化されたデータを得ることができる。
ライブラリーは、少なくとも約1キロビットの情報を符号化することができる。情報の量は、ライブラリーおよび/または流体のサイズに基づき縮小拡大(scale)することができる。一部の実装では、タグは、タグまたは流体に特異的な分子バーコードを含む。核酸分子のライブラリーによって符号化された情報は、暗号化されたメッセージなど、メッセージであり得る。情報は、通貨価値を表すことができる。タグは、2要素認証システムの一部であり得る。
一部の実装では、流体は、液体、ガス、油、インク、圧縮ガスまたは薬物である。方法1600は、タグ付けされた流体におけるタグの濃度を測定して、希釈物の量を決定するステップが関与し得る。一部の実装では、タグは、ある期間内に減衰または希釈するように構成される。例えば、この期間は、タグまたは流体がアクセスまたはサンプリングされたときに開始される。例えば、タグの核酸は、RNAであり、これは、RNAの配列を改変し、配列忠実度の限定された寿命をRNAに与えるプロセスである、ウラシルからチミンへのメチル化またはウラシルの酸化的分解により分解する。その代わりに、流体は、ロックされた容器内に含有され、ロックされた容器が破損されると、試薬が流体中に放出されてタグと反応する。
核酸分子のライブラリーは、上記の通り情報を符号化する識別子ライブラリーであり得る。情報は、複数の記号を含むことができるまたはこれにマッピングすることができ、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、ライブラリーは、より大きいライブラリーのサブセットである。一部の実装では、図11~図13に関する上記の通り、ライブラリーは、ランダムに生成される。一部の実装では、情報は、符号化方式により、核酸分子のライブラリーによって表され、情報は、2つの可能な記号値のうち1つを有する複数の記号にマッピングされ、記号が、2つの可能な記号値の第1の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号が、2つの可能な記号値のうちの第2の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。例えば、2つの可能な記号値は、0および1であり、値0を有する記号に対応する核酸分子が、タグに存在せず、値1を有する記号に対応する核酸分子が、タグに存在する。
別の実装では、1つまたは複数の物理的位置に各々、識別子ライブラリー由来の固有の識別子をタグ付けすることができる。例えば、物理的部位A、BおよびCに、識別子ライブラリーを普遍的にタグ付けすることができる。部位Aを訪問したまたは部位Aと接触した実体、例えば、ビヒクル、人物または任意の他のオブジェクトは、意図的であるにしろそうでないにしろ、識別子ライブラリーの試料を拾得することができる。後に、実体のアクセス後に、実体から試料を集め、化学的に処理および復号して、実体によっていずれの部位が訪問されたかについて識別することができる。実体は、2つ以上の部位を訪問することができ、2つ以上の試料を拾得することができる。識別子ライブラリーが互いに共通の要素を含まない(disjoint)場合、同様のプロセスを使用して、実体によって訪問された部位の一部または全てを識別することができる。かかるスキームは、実体のひそかな追跡における適用を有することができる。このスキームを使用することのいくつかの利点は、特に探索しない限り識別子が検出不能であること、生物学的に不活性となるように設計することができること、および膨大な数の部位または実体を固有にタグ付けするのに使用することができることである。
別の実装では、識別子ライブラリーは、実体をタグ付けすることができる。実体は、訪問した部位に注射された識別子の試料を残すことができる。このような試料を集め、処理し、復号して、いずれの実体が部位を訪問したかについて識別することができる。
(実施例1:DNA分子における単一のポエム(poem)の符号化、書き込みおよび読み取り)
符号化されるデータは、ポエムを含有するテキストファイルである。オーバーラップ伸長PCRを用いて実装される産生スキームを使用して識別子を構築するために、データを、ピペットを用いて96種の成分の層2つからのDNA成分と一緒に混合して手動で符号化する。第1の層、Xは、96種の総DNA成分を含む。第2の層、Yも96種の総成分を含む。DNAへの書き込みの前に、データをバイナリにマッピングし、次いで、元のデータの61ビットの連続した(隣接する分離した)列の全てが正確に17のビット値1で96ビットの列に翻訳される均一の重みフォーマットに再符号化する。この均一の重みフォーマットは、天然のエラー調査品質を有し得る。次いで、データを96×96表にハッシュして、参照マップを形成する。
図17Aの中央のパネルは、ポエムが複数の識別子に符号化された96×96表の2次元の参照マップを示す。黒い点は「1」ビット値に対応し、白い点は「0」ビット値に対応する。データを、96種の成分の層2つを使用して識別子に符号化する。表の各X値およびY値に成分を割り当て、「1」値を有する各(X,Y)座標についてオーバーラップ伸長PCRを使用してX成分とY成分をアセンブルして識別子にする。識別子ライブラリーの配列決定を行って、可能な(X,Y)アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した(例えば、復号した)。
図17Aの右側のパネルは、配列決定によって決定された、識別子ライブラリー中に存在する配列の存在量の2次元のヒートマップを示す。各画素は対応するX成分およびY成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を各行の上位17の最も豊富な(X,Y)アセンブリとして取る(均一の重み符号化により、96ビットの連続した列各々が正確に17の「1」値、したがって、17の対応する識別子を有し得ることが保証される)。
(実施例2:62824ビットのテキストファイルの符号化)
符号化されるデータは、総計62824ビットになる3つのポエムのテキストファイルである。オーバーラップ伸長PCRを用いて実装される産生スキームを使用して識別子を構築するために、データを、Labcyte Echo(登録商標)リキッドハンドラーを使用して384種の成分の層2つからのDNA成分と一緒に混合して符号化する。第1の層、Xは384種の総DNA成分を含む。第2の層、Yも384種の総成分を含む。DNAへの書き込みの前に、データをバイナリにマッピングし、次いで、重み(ビット値「1」の数)が減少し、チェックサムが含まれるように再符号化する。チェックサムを、192ビットのデータの連続した列全てについてチェックサムに対応する識別子が存在するように確立させる。再符号化されたデータの重みはおよそ10,100であり、これは、構築される識別子の数に対応する。次いで、データを384×384表にハッシュして参照マップを形成することができる。
図17Bの中央のパネルは、テキストファイルが複数の識別子に符号化された384×384表の2次元の参照マップを示す。各座標(X,Y)は、X+(Y-1)*192位のデータのビットに対応する。黒い点はビット値「1」に対応し、白い点はビット値「0」に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック(例えば、データを復号するための辞書)である。表の各X値およびY値に成分を割り当て、「1」値を有する各(X,Y)座標についてオーバーラップ伸長PCRを使用してX成分とY成分をアセンブルして識別子にすることができる。識別子ライブラリーの配列決定を行って、可能な(X,Y)アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した(例えば、復号した)。
図17Bの右側のパネルは、配列決定によって決定された、識別子ライブラリー中に存在する配列の存在量の2次元のヒートマップを示す。各画素は対応するX成分およびY成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を、各行における上位Sの最も豊富な(X,Y)アセンブリとして取り、ここで、各行のSはチェックサム値であり得る。
本発明の好ましい実装が本明細書において示され、記載されているが、そのような実装は単に例として提供されていることは当業者には明白であろう。本発明は、本明細書の中で提供される特定の実施例によって限定されるものではない。本発明は上記の明細に関連して記載されているが、本明細書の実装の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載の発明の実装に対する種々の代替を本発明の実施において使用することができることが理解されるべきである。したがって、本発明は、あらゆるそのような代替物、改変物、変形物または均等物も包含することが意図されている。以下の特許請求の範囲により本発明の範囲が規定され、これらの特許請求の範囲の範囲内に入る方法および構造ならびにそれらの均等物がそれにより包含されるものとする。

Claims (46)

  1. 追跡または認証のために流体をタグ付けするための方法であって、
    デジタル情報を表す核酸分子のライブラリーを得るステップと、
    前記流体を、核酸分子の前記ライブラリーを含むタグと組み合わせて、追跡または認証のためのタグ付けされた流体を得るステップと
    を含む方法。
  2. 前記タグ付けされた流体をサンプリングして、核酸分子の前記ライブラリーの少なくとも一部を含有する試料を得るステップ
    をさらに含む、請求項1に記載の方法。
  3. サンプリングステップが、前記タグまたは前記タグ付けされた流体からある体積を拭き取るまたは取り出すステップを含む、請求項2に記載の方法。
  4. 前記試料の核酸分子を配列決定して、配列決定読み出しを得るステップ
    をさらに含む、請求項2および3のいずれかに記載の方法。
  5. 前記配列決定読み出しを参照配列と比較して、マッチする配列の存在を決定するステップ
    をさらに含む、請求項4に記載の方法。
  6. 前記タグが、前記タグに特異的な分子バーコードを含む、先行する請求項のいずれかに記載の方法。
  7. 前記情報が、メッセージを含む、先行する請求項のいずれかに記載の方法。
  8. 前記流体が、油、インク、圧縮ガスまたは薬物のうちいずれか1つである、先行する請求項のいずれかに記載の方法。
  9. 前記タグ付けされた流体における前記タグの濃度を測定して、希釈物の量を決定するステップ
    をさらに含む、先行する請求項のいずれかに記載の方法。
  10. 前記ライブラリーが、核酸分子のプールから核酸分子のサブセットを選択することにより生成される、先行する請求項のいずれかに記載の方法。
  11. 前記タグ付けされた流体にアクセスし、これにより、前記タグ付けされた流体における前記タグを減衰させるステップ
    をさらに含む、先行する請求項のいずれかに記載の方法。
  12. 前記タグが、2要素認証システムの一部である、先行する請求項のいずれかに記載の方法。
  13. 前記情報が、通貨価値を表す、先行する請求項のいずれかに記載の方法。
  14. 前記情報が、複数の記号を含み、各記号が、前記ライブラリーの核酸分子の区別可能な配列によって表される、先行する請求項のいずれかに記載の方法。
  15. 前記ライブラリーが、ランダムに生成される、先行する請求項のいずれかに記載の方法。
  16. 前記情報が、符号化方式により核酸分子の前記ライブラリーによって表され、前記情報が、2つの可能な記号値のうち1つを有する複数の記号にマッピングされ、前記記号が、前記2つの可能な記号値の第1の記号値を有する場合、前記複数の記号のうちのある記号が、前記ライブラリーにおける区別可能な核酸分子の存在によって表され、前記記号が、前記2つの可能な記号値のうちの第2の記号値を有する場合、前記記号が、前記区別可能な核酸分子の非存在によって表される、先行する請求項のいずれかに記載の方法。
  17. 前記情報が、少なくとも1キロビットの情報を含む、先行する請求項のいずれかに記載の方法。
  18. セキュリティーおよび認証における使用のための核酸分子のライブラリーを調製するための方法であって、
    セキュリティートークンを表す核酸分子の前記ライブラリーを得るステップと、
    前記セキュリティートークンを表す前記ライブラリーに化学的操作を適用して、ハッシュ化されたトークンを表す核酸分子のハッシュ化されたライブラリーを得るステップと
    を含む方法。
  19. 前記化学的操作が、前記セキュリティートークンにおける1つまたは複数のブール関数をもたらす、請求項18に記載の方法。
  20. 前記1つまたは複数のブール関数が、前記セキュリティートークンにハッシュ関数を適用して、前記ハッシュ化されたライブラリーによって表される前記ハッシュ化されたトークンを得る、請求項19に記載の方法。
  21. 前記ハッシュ化されたライブラリーの前記核酸分子の少なくとも一部を配列決定して、配列決定読み出しを得るステップ
    をさらに含む、請求項18~20のいずれかに記載の方法。
  22. 前記配列決定読み出しをデータベースまたはルックアップテーブルと比較して、マッチする配列の存在または非存在を決定するステップ
    をさらに含む、請求項21に記載の方法。
  23. それぞれ前記マッチする配列の前記決定された存在または非存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップ
    をさらに含む、請求項22に記載の方法。
  24. 配列決定が、ハイスループット配列決定、ショットガン配列決定またはナノポア配列決定のうちいずれか1つを含む、請求項21~23のいずれかに記載の方法。
  25. 前記ハッシュ化されたトークンが参照配列にマッチする場合、追加的な化学的操作を前記ハッシュ化されたライブラリーに適用して、出力分子を産生するステップと、
    アッセイにより前記出力分子の存在または非存在を決定するステップと
    をさらに含む、請求項18~20のいずれかに記載の方法。
  26. 前記アッセイが、ポリメラーゼ連鎖反応(PCR)、リアルタイムPCR、逆転写PCR(RT-PCR)、蛍光定量法およびゲル電気泳動のうち1つである、請求項25に記載の方法。
  27. 前記出力分子が、前記ハッシュ化されたライブラリーの区別可能な核酸分子である、請求項25および26のいずれかに記載の方法。
  28. 前記出力分子の存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップ
    をさらに含む、請求項25~27のいずれかに記載の方法。
  29. 前記ライブラリーが、固有の分子バーコードを含む、請求項18~28のいずれかに記載の方法。
  30. 前記セキュリティートークンが、ランダムに生成されたキーを含む、請求項18~29のいずれかに記載の方法。
  31. 前記ライブラリーが、凍結乾燥されている、請求項18~30のいずれかに記載の方法。
  32. 前記ライブラリーが、アーチファクトと併置され、前記セキュリティートークンが、前記アーチファクトに対して固有である、請求項18~31のいずれかに記載の方法。
  33. 前記アーチファクトが、流体である、請求項32に記載の方法。
  34. 前記流体が、油、インク、圧縮ガスまたは薬物のうちいずれか1つである、請求項33に記載の方法。
  35. 前記流体における前記ライブラリーの濃度を測定して、希釈物の量を決定するステップ
    をさらに含む、請求項33および34のいずれかに記載の方法。
  36. 前記アーチファクトが、生物である、請求項32に記載の方法。
  37. 前記アーチファクトが、文書である、請求項32に記載の方法。
  38. 前記ライブラリーが、ウェル、液滴、スポット、密封された容器、ゲル、懸濁液または固体マトリックスのうちいずれか1つに含有される、請求項18~37のいずれかに記載の方法。
  39. 前記ライブラリーが、核酸分子のプールから核酸分子のサブセットを選択することにより生成される、請求項18~38のいずれかに記載の方法。
  40. 前記セキュリティートークンが、2要素認証システムの一部である、請求項18~39のいずれかに記載の方法。
  41. 前記セキュリティートークンが、複数の記号を含み、各記号が、前記ライブラリーの核酸分子の区別可能な配列によって表される、請求項18~40のいずれかに記載の方法。
  42. 前記ライブラリーが、ランダムに生成される、請求項18~41のいずれかに記載の方法。
  43. 前記セキュリティートークンが、符号化方式により、核酸分子の前記ライブラリーによって表され、前記セキュリティートークンが、2つの可能な記号値のうち1つを有する複数の記号にマッピングされ、前記記号が、前記2つの可能な記号値の第1の記号値を有する場合、前記複数の記号のうちのある記号が、前記ライブラリーにおける区別可能な核酸分子の存在によって表され、前記記号が、前記2つの可能な記号値の第2の記号値を有する場合、前記記号が、前記区別可能な核酸分子の非存在によって表される、請求項18~42のいずれかに記載の方法。
  44. 前記セキュリティートークンが、少なくとも1キロビットの情報を含む、請求項18~43のいずれかに記載の方法。
  45. 前記セキュリティートークンが、ユーザに対して固有である、請求項18~44のいずれかに記載の方法。
  46. 前記ハッシュ化されたライブラリーが、前記ライブラリーのサブセットである、請求項18~45のいずれかに記載の方法。
JP2022521744A 2019-10-11 2020-10-13 核酸セキュリティーおよび認証 Pending JP2022551186A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962914086P 2019-10-11 2019-10-11
US62/914,086 2019-10-11
PCT/US2020/055351 WO2021072398A1 (en) 2019-10-11 2020-10-13 Nucleic acid security and authentication

Publications (2)

Publication Number Publication Date
JP2022551186A true JP2022551186A (ja) 2022-12-07
JPWO2021072398A5 JPWO2021072398A5 (ja) 2023-10-18

Family

ID=73198444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022521744A Pending JP2022551186A (ja) 2019-10-11 2020-10-13 核酸セキュリティーおよび認証

Country Status (7)

Country Link
US (2) US11535842B2 (ja)
EP (1) EP4041920A1 (ja)
JP (1) JP2022551186A (ja)
KR (1) KR20220080172A (ja)
AU (1) AU2020364250A1 (ja)
CA (1) CA3157804A1 (ja)
WO (1) WO2021072398A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021041667A1 (en) 2019-08-27 2021-03-04 President And Fellows Of Harvard College Modifying messages stored in mixtures of molecules using thin-layer chromatography
US20230101083A1 (en) * 2021-09-30 2023-03-30 Microsoft Technology Licensing, Llc Anti-counterfeit tags using base ratios of polynucleotides
EP4212653A1 (en) 2022-01-18 2023-07-19 Universität Potsdam Molecular tagging using position-oriented nucleic acid encryption

Family Cites Families (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050019760A1 (en) 1988-03-05 2005-01-27 Oxford Gene Technology Limited Analysing polynucleotide sequences
US6030657A (en) 1994-11-01 2000-02-29 Dna Technologies, Inc. Labeling technique for countering product diversion and product counterfeiting
US5821886A (en) 1996-10-18 1998-10-13 Samsung Electronics Company, Ltd. Variable length code detection in a signal processing system
US6384210B1 (en) 1997-03-20 2002-05-07 University Of Washington Solvent for biopolymer synthesis, solvent microdroplets and methods of use
US6419883B1 (en) 1998-01-16 2002-07-16 University Of Washington Chemical synthesis using solvent microdroplets
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6537747B1 (en) 1998-02-03 2003-03-25 Lucent Technologies Inc. Data transmission using DNA oligomers
US6187537B1 (en) 1998-04-27 2001-02-13 Donald E. Zinn, Jr. Process and apparatus for forming a dry DNA transfer film, a transfer film product formed thereby and an analyzing process using the same
US6458583B1 (en) 1998-09-09 2002-10-01 Agilent Technologies, Inc. Method and apparatus for making nucleic acid arrays
US6309828B1 (en) 1998-11-18 2001-10-30 Agilent Technologies, Inc. Method and apparatus for fabricating replicate arrays of nucleic acid molecules
US6221653B1 (en) 1999-04-27 2001-04-24 Agilent Technologies, Inc. Method of performing array-based hybridization assays using thermal inkjet deposition of sample fluids
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
US6446642B1 (en) 1999-11-22 2002-09-10 Agilent Technologies, Inc. Method and apparatus to clean an inkjet reagent deposition device
EP1388587A4 (en) 2001-05-11 2006-12-06 Matsushita Electric Ind Co Ltd BIOMOLECULAR SUBSTRATE AND METHOD AND DEVICE FOR EXAMINING AND DIAGNOSING THEREOF
WO2003025123A2 (en) 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
JP2005503813A (ja) 2001-09-25 2005-02-10 独立行政法人理化学研究所 オリゴマー及び/又はポリマーを適用した支持体を含む印刷物、その製造方法、ならびにその配送及び/又は保管方法
US7361310B1 (en) 2001-11-30 2008-04-22 Northwestern University Direct write nanolithographic deposition of nucleic acids from nanoscopic tips
US20030116630A1 (en) 2001-12-21 2003-06-26 Kba-Giori S.A. Encrypted biometric encoded security documents
US6773888B2 (en) 2002-04-08 2004-08-10 Affymetrix, Inc. Photoactivatable silane compounds and methods for their synthesis and use
WO2003101736A2 (en) 2002-05-29 2003-12-11 Arizona Board Of Regents, Acting On Behalf Of Arizona State University Nanoscale ink-jet printing
US20040043390A1 (en) 2002-07-18 2004-03-04 Asat Ag Applied Science & Technology Use of nucleotide sequences as carrier of cultural information
US8071168B2 (en) 2002-08-26 2011-12-06 Nanoink, Inc. Micrometric direct-write methods for patterning conductive material and applications to flat panel display repair
US7491422B2 (en) 2002-10-21 2009-02-17 Nanoink, Inc. Direct-write nanolithography method of transporting ink with an elastomeric polymer coated nanoscopic tip to form a structure having internal hollows on a substrate
DE10308931A1 (de) 2003-02-28 2004-09-23 Apibio Sas System und Verfahren zur Synthese von Polymeren
US6943417B2 (en) 2003-05-01 2005-09-13 Clemson University DNA-based memory device and method of reading and writing same
JP2005080523A (ja) 2003-09-05 2005-03-31 Sony Corp 生体遺伝子に導入するdna、遺伝子導入ベクター、細胞、生体遺伝子への情報導入方法、情報処理装置および方法、記録媒体、並びにプログラム
WO2005038431A2 (en) 2003-10-14 2005-04-28 Verseon Method and device for partitioning a molecule
US20050239102A1 (en) 2003-10-31 2005-10-27 Verdine Gregory L Nucleic acid binding oligonucleotides
DE102005012567B4 (de) 2005-03-04 2008-09-04 Identif Gmbh Markierungslösung, deren Verwendung und Verfahren zu ihrer Herstellung
EP1752213A1 (en) 2005-08-12 2007-02-14 Samsung Electronics Co., Ltd. Device for printing droplet or ink on substrate or paper
US20080252679A1 (en) 2005-10-07 2008-10-16 Koninklijke Philips Electronics, N.V. Ink Jet Device for the Controlled Positioning of Droplets of a Substance Onto a Substrate, Method for the Controlled Positioning of Droplets of a Substrate, and Use of an Ink Jet Device
US9616661B2 (en) 2005-10-07 2017-04-11 Koninklijke Philips N.V. Inkjet device and method for the controlled positioning of droplets of a substance onto a substrate
EP1782886A1 (en) 2005-11-02 2007-05-09 Sony Deutschland GmbH A method of patterning molecules on a substrate using a micro-contact printing process
JP2009517198A (ja) 2005-11-28 2009-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基板上に複数の物質を制御可能に放出するインクジェット装置、複数の物質同士を識別する方法、およびインクジェット装置の使用
WO2007072417A2 (en) 2005-12-22 2007-06-28 Koninklijke Philips Electronics N.V. Ink jet device for the positioning of a substance onto a substrate, method for the positioning of a substance onto a substrate and use of an ink jet device
WO2007080548A1 (en) 2006-01-12 2007-07-19 Koninklijke Philips Electronics N.V. Ink jet device and method for releasing a plurality of substances onto a substrate
CA2649725A1 (en) 2006-04-19 2007-10-25 Applera Corporation Reagents, methods, and libraries for gel-free bead-based sequencing
BRPI0717037A2 (pt) 2006-09-21 2013-11-26 Koninkl Philips Electronics Nv Dispositivo de jato de tinta para produzir um substrato de ensaio biológico, método para produzir um substrato de ensaio biológico, uso de um dispositivo de jato de tinta, e, substrato de ensaio.
BRPI0718223A2 (pt) 2006-10-30 2013-11-12 Koninkl Philips Electronics Nv Substrato de ensaio biológico poroso, métodos para produzir um substrato de ensaio biológico e para examinar fluidos de analito, e, dispositivo de jato de tinta para produzir um substrato de ensaio biológico
EP2156246A1 (en) 2007-05-09 2010-02-24 Nanoink, Inc. Compact nanofabrication apparatus
WO2008157550A2 (en) 2007-06-20 2008-12-24 Northwestern University Patterning with compositions containing nanomaterials and polymers
WO2009011709A1 (en) 2007-07-19 2009-01-22 The Board Of Trustees Of The University Of Illinois High resolution electrohydrodynamic jet printing for manufacturing systems
US9684678B2 (en) 2007-07-26 2017-06-20 Hamid Hatami-Hanza Methods and system for investigation of compositions of ontological subjects
US8452725B2 (en) 2008-09-03 2013-05-28 Hamid Hatami-Hanza System and method of ontological subject mapping for knowledge processing applications
CZ301799B6 (cs) 2007-07-30 2010-06-23 Kencl@Lukáš Zpusob úpravy datové informace v systému
WO2009025809A1 (en) 2007-08-20 2009-02-26 Rr Donnelley Nanoparticle-based compositions compatible with jet printing and methods therefor
DE102007057802B3 (de) 2007-11-30 2009-06-10 Geneart Ag Steganographische Einbettung von Informationen in kodierenden Genen
JP5171346B2 (ja) 2008-03-28 2013-03-27 株式会社日立ハイテクノロジーズ 文字列検索システム及び方法
CN102150169A (zh) 2008-09-10 2011-08-10 数据激光有限公司 多色编码
JPWO2010029629A1 (ja) 2008-09-11 2012-02-02 長浜バイオラボラトリー株式会社 Dna含有インク組成物
US8769689B2 (en) 2009-04-24 2014-07-01 Hb Gary, Inc. Digital DNA sequence
US8806127B2 (en) 2009-10-26 2014-08-12 Genisyss Llc Data storage device with integrated DNA storage media
US20110269119A1 (en) 2009-10-30 2011-11-03 Synthetic Genomics, Inc. Encoding text into nucleic acid sequences
US8735327B2 (en) 2010-01-07 2014-05-27 Jeansee, Llc Combinatorial DNA taggants and methods of preparation and use thereof
WO2011150168A1 (en) 2010-05-28 2011-12-01 Gen9, Inc. Methods and devices for in situ nucleic acid synthesis
US20110312561A1 (en) 2010-06-17 2011-12-22 Geneasys Pty Ltd Microfluidic device with photodiodes with controllable shunts to detect fluorescing hybridized probes
US9114399B2 (en) 2010-08-31 2015-08-25 Canon U.S. Life Sciences, Inc. System and method for serial processing of multiple nucleic acid assays
PL2630263T5 (pl) * 2010-10-22 2022-02-28 Cold Spring Harbor Laboratory Zliczanie wariantów kwasów nukleinowych w celu uzyskania informacji o liczbie kopii genomowych
EP2633080B1 (en) 2010-10-29 2018-12-05 President and Fellows of Harvard College Method of detecting targets using fluorescently labelled nucleic acid nanotube probes
US20120329561A1 (en) 2010-12-09 2012-12-27 Genomic Arts, LLC System and methods for generating avatars and art
KR101345337B1 (ko) 2011-06-13 2013-12-30 한국생명공학연구원 원자간력 현미경(afm)을 이용한 딥-펜 나노리소그래피에서의 단일 또는 다중팁을 이용한 나노포지셔닝 기판 제조장치 및 제조방법
CN103328973B (zh) 2011-07-20 2015-04-01 加利福尼亚大学董事会 双孔装置
US20150083797A1 (en) * 2012-05-09 2015-03-26 Apdn (B.V.I.) Inc. Verification of physical encryption taggants using digital representatives and authentications thereof
CA2874540A1 (en) 2012-06-01 2013-12-05 European Molecular Biology Laboratory High-capacity storage of digital information in dna
KR101743846B1 (ko) 2012-07-19 2017-06-05 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵산을 이용하여 정보를 저장하는 방법
US9266370B2 (en) 2012-10-10 2016-02-23 Apdn (B.V.I) Inc. DNA marking of previously undistinguished items for traceability
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
GB2547875B (en) 2013-02-01 2017-12-13 Univ California Methods for meta-genomics analysis of microbes
WO2014122467A1 (en) 2013-02-06 2014-08-14 Loxbridge Research Llp Systems and methods for early disease detection and real-time disease monitoring
KR102245192B1 (ko) 2013-05-06 2021-04-29 온테라 인크. 나노포어를 이용한 표적 검출
EP3058339B1 (en) 2013-10-07 2019-05-22 APDN (B.V.I.) Inc. Multimode image and spectral reader
US10027347B2 (en) 2014-03-28 2018-07-17 Thomson Licensing Methods for storing and reading digital data on a set of DNA strands
US10020826B2 (en) 2014-04-02 2018-07-10 International Business Machines Corporation Generating molecular encoding information for data storage
US20150312212A1 (en) 2014-04-24 2015-10-29 David Holmes Holistic embodiment of dna and ipv6
EP2958238A1 (en) 2014-06-17 2015-12-23 Thomson Licensing Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
KR101788673B1 (ko) 2014-06-24 2017-11-15 싸이퍼롬, 인코퍼레이티드 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체
WO2016019078A1 (en) 2014-07-30 2016-02-04 Tufts University Three dimensional printing of bio-ink compositions
WO2016015701A1 (de) 2014-07-31 2016-02-04 Schebo Biotech Ag Vorrichtung zur bioanalytik, deren herstellung und verfahren zum nachweis von bioanalyten mittels der vorrichtung
EP2983297A1 (en) 2014-08-08 2016-02-10 Thomson Licensing Code generation method, code generating apparatus and computer readable storage medium
AU2015307229A1 (en) 2014-08-28 2017-03-16 Apdn (B.V.I.) Inc. In-field dna extraction, detection and authentication methods and systems therefor
CN106796628B (zh) 2014-09-03 2020-11-10 南坦健康有限公司 基于合成基因组变体的安全交易设备、系统和方法
CA2964985A1 (en) 2014-10-18 2016-04-21 Girik MALIK A biomolecule based data storage system
WO2016070869A2 (de) 2014-11-03 2016-05-12 Universität Osnabrück Vorrichtung zur durchführung eines kapillar-nanodruck-verfahrens, ein verfahren zur durchführung eines kapillar-nanodrucks unter verwendung der vorrichtung, produkte erhältlich nach dem verfahren sowie die verwendung der vorrichtung
EP3221341B1 (en) 2014-11-20 2020-07-29 Cytonics Corporation Therapeutic variant alpha-2-macroglobulin compositions
US11164661B2 (en) 2015-04-10 2021-11-02 University Of Washington Integrated system for nucleic acid-based storage and retrieval of digital data using keys
US10385387B2 (en) 2015-04-20 2019-08-20 Pacific Biosciences Of California, Inc. Methods for selectively amplifying and tagging nucleic acids
WO2016182814A2 (en) 2015-05-08 2016-11-17 Illumina, Inc. Cationic polymers and method of surface application
US10423341B1 (en) 2015-06-12 2019-09-24 Bahram Ghaffarzadeh Kermani Accurate and efficient DNA-based storage of electronic data
US9898579B2 (en) 2015-06-16 2018-02-20 Microsoft Technology Licensing, Llc Relational DNA operations
CN108026557A (zh) 2015-07-13 2018-05-11 哈佛学院董事及会员团体 使用核酸用于可检索信息储存的方法
CN108698012A (zh) 2015-09-22 2018-10-23 特韦斯特生物科学公司 用于核酸合成的柔性基底
US20170093851A1 (en) 2015-09-30 2017-03-30 Aetna Inc. Biometric authentication system
EP3160049A1 (en) 2015-10-19 2017-04-26 Thomson Licensing Data processing method and device for recovering valid code words from a corrupted code word sequence
US20170136452A1 (en) 2015-11-13 2017-05-18 SoluDot LLC Method for high throughput dispensing of biological samples
US10566077B1 (en) 2015-11-19 2020-02-18 The Board Of Trustees Of The University Of Illinois Re-writable DNA-based digital storage with random access
US10047235B2 (en) 2015-12-08 2018-08-14 Xerox Corporation Encoding liquid ink with a device specific biomarker
US10640822B2 (en) 2016-02-29 2020-05-05 Iridia, Inc. Systems and methods for writing, reading, and controlling data stored in a polymer
US10438662B2 (en) 2016-02-29 2019-10-08 Iridia, Inc. Methods, compositions, and devices for information storage
WO2017151195A1 (en) 2016-02-29 2017-09-08 The Penn State Research Foundation Nucleic acid molecular diagnosis
US10883140B2 (en) 2016-04-21 2021-01-05 President And Fellows Of Harvard College Method and system of nanopore-based information encoding
WO2017189914A1 (en) 2016-04-27 2017-11-02 Massachusetts Institute Of Technology Sequence-controlled polymer random access memory storage
CN110199019A (zh) 2016-05-02 2019-09-03 Encodia有限公司 采用核酸编码的大分子分析
WO2017190297A1 (zh) 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用
WO2018005117A1 (en) 2016-07-01 2018-01-04 Microsoft Technology Licensing, Llc Storage through iterative dna editing
JP2019521713A (ja) 2016-07-22 2019-08-08 ヌクレオトレイス プロプライアタリー リミティド 核酸配列の増幅方法
US11326200B2 (en) 2016-07-22 2022-05-10 Hewlett-Packard Development Company, L.P. Method of preparing test samples
WO2018049272A1 (en) 2016-09-08 2018-03-15 Thomas Villwock Methods and systems for authenticating goods using analyte encoded security fluids
US10417457B2 (en) 2016-09-21 2019-09-17 Twist Bioscience Corporation Nucleic acid based data storage
US10370246B1 (en) 2016-10-20 2019-08-06 The Board Of Trustees Of The University Of Illinois Portable and low-error DNA-based data storage
EP3532965A1 (en) 2016-10-28 2019-09-04 Integrated DNA Technologies Inc. Dna data storage using reusable nucleic acids
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
CA3043887A1 (en) 2016-11-16 2018-05-24 Catalog Technologies, Inc. Nucleic acid-based data storage
US10853244B2 (en) 2016-12-07 2020-12-01 Sandisk Technologies Llc Randomly writable memory device and method of operating thereof
US10417208B2 (en) 2016-12-15 2019-09-17 Sap Se Constant range minimum query
US10984029B2 (en) 2016-12-15 2021-04-20 Sap Se Multi-level directory tree with fixed superblock and block sizes for select operations on bit vectors
KR102622275B1 (ko) 2017-01-10 2024-01-05 로스웰 바이오테크놀로지스 인코포레이티드 Dna 데이터 저장을 위한 방법들 및 시스템들
US10793897B2 (en) 2017-02-08 2020-10-06 Microsoft Technology Licensing, Llc Primer and payload design for retrieval of stored polynucleotides
US20200038859A1 (en) 2017-02-08 2020-02-06 Essenlix Corporation Digital Assay
US10787699B2 (en) 2017-02-08 2020-09-29 Microsoft Technology Licensing, Llc Generating pluralities of primer and payload designs for retrieval of stored nucleotides
WO2018148260A1 (en) 2017-02-13 2018-08-16 Thomson Licensing Apparatus, method and system for digital information storage in deoxyribonucleic acid (dna)
WO2018156352A1 (en) 2017-02-21 2018-08-30 Apdn (B.V.I) Inc. Nucleic acid coated submicron particles for authentication
CA3054303A1 (en) 2017-02-22 2018-08-30 Twist Bioscience Corporation Nucleic acid based data storage
US10774379B2 (en) 2017-03-15 2020-09-15 Microsoft Technology Licensing, Llc Random access of data encoded by polynucleotides
WO2018213856A2 (en) 2017-05-16 2018-11-22 Artentika (Pty) Ltd Digital data minutiae processing for the analysis of cultural artefacts
US11612873B2 (en) 2017-05-31 2023-03-28 Molecular Assemblies, Inc. Homopolymer encoded nucleic acid memory
US10742233B2 (en) 2017-07-11 2020-08-11 Erlich Lab Llc Efficient encoding of data for storage in polymers such as DNA
WO2019046768A1 (en) 2017-08-31 2019-03-07 William Marsh Rice University SYMBOLIC SEQUENCING OF DNA AND RNA BY SEQUENCE CODING
US11539516B2 (en) * 2017-10-27 2022-12-27 Eth Zurich Encoding and decoding information in synthetic DNA with cryptographic keys generated based on polymorphic features of nucleic acids
EP3707150A1 (en) 2017-11-10 2020-09-16 Massachusetts Institute Of Technology Microbial production of pure single stranded nucleic acids
JP7191448B2 (ja) 2018-01-04 2022-12-19 ツイスト バイオサイエンス コーポレーション Dnaベースのデジタル情報ストレージ
CN111868255A (zh) 2018-03-15 2020-10-30 特温斯特兰德生物科学有限公司 用于富集用于测序应用和其他核酸材料询问的核酸材料的方法和试剂
KR20200132921A (ko) 2018-03-16 2020-11-25 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터를 저장하기 위한 화학적 방법들
KR102138864B1 (ko) 2018-04-11 2020-07-28 경희대학교 산학협력단 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
US11106633B2 (en) * 2018-04-24 2021-08-31 EMC IP Holding Company, LLC DNA-based data center with deduplication capability
EP3794598A1 (en) 2018-05-16 2021-03-24 Catalog Technologies, Inc. Compositions and methods for nucleic acid-based data storage
WO2019222562A1 (en) 2018-05-16 2019-11-21 Catalog Technologies, Inc. Printer-finisher system for data storage in dna
WO2019246434A1 (en) 2018-06-20 2019-12-26 Brown University Methods of chemical computation
KR20210053292A (ko) 2018-08-03 2021-05-11 카탈로그 테크놀로지스, 인크. 오류 방지 기능을 갖춘 핵산 기반 데이터 저장 및 판독 시스템 및 방법
GB201821155D0 (en) 2018-12-21 2019-02-06 Oxford Nanopore Tech Ltd Method
WO2020132935A1 (zh) 2018-12-26 2020-07-02 深圳华大生命科学研究院 一种定点编辑存储有数据的核酸序列的方法及装置
US10956806B2 (en) 2019-06-10 2021-03-23 International Business Machines Corporation Efficient assembly of oligonucleotides for nucleic acid based data storage
US10917109B1 (en) 2020-03-06 2021-02-09 Centre National De La Recherche Scientifique Methods for storing digital data as, and for transforming digital data into, synthetic DNA

Also Published As

Publication number Publication date
US20230295607A1 (en) 2023-09-21
US20210108194A1 (en) 2021-04-15
WO2021072398A1 (en) 2021-04-15
CA3157804A1 (en) 2021-04-15
EP4041920A1 (en) 2022-08-17
AU2020364250A1 (en) 2022-04-28
KR20220080172A (ko) 2022-06-14
US11535842B2 (en) 2022-12-27

Similar Documents

Publication Publication Date Title
US11379729B2 (en) Nucleic acid-based data storage
US20230376788A1 (en) Nucleic acid-based data storage
US11227219B2 (en) Compositions and methods for nucleic acid-based data storage
US20230295607A1 (en) Nucleic acid security and authentication
US20230308275A1 (en) Nucleic acid storage for blockchain and non-fungible tokens
CA3214604A1 (en) Fixed point number representation and computation circuits
WO2023177864A1 (en) Combinatorial enumeration and search for nucleic acid-based data storage

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230713

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231006

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231006