JP6786144B1 - Dnaに基づくデータ記憶方法、復号方法、システムと装置 - Google Patents

Dnaに基づくデータ記憶方法、復号方法、システムと装置 Download PDF

Info

Publication number
JP6786144B1
JP6786144B1 JP2020152314A JP2020152314A JP6786144B1 JP 6786144 B1 JP6786144 B1 JP 6786144B1 JP 2020152314 A JP2020152314 A JP 2020152314A JP 2020152314 A JP2020152314 A JP 2020152314A JP 6786144 B1 JP6786144 B1 JP 6786144B1
Authority
JP
Japan
Prior art keywords
data
address
dna
encoded
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020152314A
Other languages
English (en)
Other versions
JP2021197724A (ja
Inventor
旭 楊
旭 楊
新建 張
新建 張
暁龍 石
暁龍 石
Original Assignee
▲広▼州大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ▲広▼州大学 filed Critical ▲広▼州大学
Application granted granted Critical
Publication of JP6786144B1 publication Critical patent/JP6786144B1/ja
Publication of JP2021197724A publication Critical patent/JP2021197724A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/02Conversion to or from weighted codes, i.e. the weight given to a digit depending on the position of the digit within the block or code word
    • H03M7/06Conversion to or from weighted codes, i.e. the weight given to a digit depending on the position of the digit within the block or code word the radix thereof being a positive integer different from two
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)

Abstract

本発明は、DNAに基づくデータ記憶方法、復号方法、システムと装置を開示する。本発明は、第一のデータを符号化してDNA分子鎖を得るプロセスにおいて、第一のアドレスと第二のアドレスの間のハミング距離を第一のアドレスの長さの半分以上にして読み取る時のアドレス選択エラーの可能性を低減するような第一のアドレスと第二のアドレスに対する様々な制約が追加されるため、符号化されたデータを効率的且つ正確に読み取ることができ、第一のアドレスのプレフィックスが第二のアドレスのプレフィックス及び第二のアドレスのサフィックスとは異なるため、読み取る過程におけるマッチングエラーの可能性を回避し、各プライマーのプレフィックスにおけるグアニンとシトシンの含有量がプライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占めるため、符号化されたデータを読み取って予めシーケンスする必要がある時に、精度が高い。本発明は、データ記憶技術分野に広く応用されてもよい。【選択図】図1

Description

本発明は、データ記憶分野に関し、特にDNAに基づくデータ記憶方法、復号方法、システムと装置に関する。
に関する。
科学技術の発展に伴い、人々が直面及び受信するデータは急速に増加しており、どのように大量のデータを記憶するかは、現在直面している重要な問題である。ここで、この問題を解決するために、デオキシリボ核酸(DNA)を利用してデータを記憶することに関する研究が行われ、すべての情報をDNA鎖の形で記憶し、この方法が理論的にはいかなるデータを失うことなく、情報を10万年以上保存することができる。現在のDNA記憶技術では、ある特定の位置のデータを取得する必要がある場合、DNAに記憶されたデータを全て読み取ってからフィルタリングすることだけであるが、特定位置に向けてその中の一部のデータのみを読み取ることができないため、効率が低く、欠陥が存在する。
中国特許出願公開第109887549号明細書
本出願は、データ記憶、復元方法及び装置を提供する。該方法では、記憶待ちファイルが分割された少なくとも1グループのデータ内の1グループのターゲットデータを確定し、ジェネレーターマトリックスとターゲットデータの積を計算し、ジェネレーターマトリックスにおける各データの第一のターゲットサブデータを得て、ジェネレーターマトリックスにおけるデータの第一のターゲットサブデータが遺伝子符号化制約条件を満たしていないと、生成された第一のターゲットサブデータが遺伝子符号化制約条件を満たしているまでマトリックスにおけるデータを更新し、ジェネレーターマトリックスにおける各データの第一のターゲットサブデータに基づき、ターゲットデータのDNAデータを生成することで、DNAをデータ記憶媒体とするデータ記憶の目的を達成するように、記憶待ちファイルを、DNAをデータ記憶媒体としてデータ記憶を行うためのDNAデータに変換する。
これに鑑みて、上記技術的問題を解決するために、本発明は、効率が高いDNAに基づくデータ記憶方法、復号方法、システムと装置を提供することを目的とする。
本発明に用いられる技術的解決策は、DNAに基づくデータ記憶方法である。前記方法は、
第一のデータを取得するステップと、
前記第一のデータを符号化してDNA分子鎖を得て、前記DNA分子鎖には符号化されたデータ及び第一のアドレスと第二のアドレスが含まれ、前記第一のアドレスが前記符号化されたデータの一端に位置し、前記第二のアドレスが前記符号化されたデータの他端に位置し、前記符号化されたデータにいくつかのプライマーが含まれるステップとを含み、
ここで、前記第一のアドレスと前記第二のアドレスの間のハミング距離が前記第一のアドレスの長さの半分以上であり、
前記第一のアドレスのプレフィックスが前記第二のアドレスのプレフィックス及び前記第二のアドレスのサフィックスとは異なり、
各前記プライマーのプレフィックスにおけるグアニンとシトシンの含有量が前記プライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占める。
さらに、前記符号化されたデータにはいくつかのデータブロックが含まれ、各前記データブロックに前記プライマーが含まれ、前記データを符号化してDNA分子鎖を得ることは、
前記データをいくつかの第二のデータに分割するステップと、
第一の方式及び/又は第二の方式によって符号化するステップとを含み、
前記第一の方式は、具体的には、
いくつかの前記第二のデータのハミング分布に従って、各前記第二のデータの次数分布関数を取得し、次数分布関数に基づいて1つの次数をパラメータとして選択し、
前記パラメータといくつかの前記第二のデータに基づき、有界ランニングデジタルサムコードを確定し、
前記有界ランニングデジタルサムコードに基づいて符号化し、前記データをグアニン、シトシン、アデニンとチミンにマッピングして、いくつかの前記データブロックを得ることであり、
前記第二の方式は、具体的には、
前記いくつかの第二のデータを積算して、ランニングデジタルサムを得て、
予め設定されたアルファベットに従って、前記ランニングデジタルサムをグアニン、シトシン、アデニンとチミンにマッピングし、符号化して、いくつかの前記データブロックを得ることである。
さらに、前記方法は、
前記第一の方式によって符号化すると、前記有界ランニングデジタルサムコードの誤差補正コードパラメータを確定するステップと、
前記誤差補正コードパラメータに基づき、前記誤差補正コードパラメータを有するコードワードを確認するステップと、
前記第二の方式によって符号化すると、前記有界ランニングデジタルサムコードを確定し、前記有界ランニングデジタルサムコードの誤差補正コードパラメータを確定するステップと、
前記誤差補正コードパラメータに基づき、前記誤差補正コードパラメータを有するコードワードを確認するステップとをさらに含む。
さらに、前記有界ランニングデジタルサムコードに基づいて符号化することは、
各前記第二のデータの次数分布関数に基づいて次数を確定するステップと、
前記数分布関数と前記有界ランニングデジタルサムコードに基づき、前記第二のデータからいくつかのデータを抽出してデジタルサム演算を行い、そして抽出されたデータに第一のマークを付け、抽出されていないデータに第二のマークを付けてマトリックスを得るステップと、
マトリックスに従って符号化するステップとを含む。
さらに、前記方法は
前記第一のマークに対応する行位置と列位置を記録し、前記列位置が同じである全ての前記行位置をパッケージ化するステップをさらに含む。
さらに、前記方法は、前記DNA分子鎖に対して排除処理を行い、前記DNA分子鎖中の無秩序な折りたたみ構造及び/又は非有界ランニングデジタルサムコードを排除するステップをさらに含む。
本発明はさらに、DNAに基づくデータ記憶方法に基づいて得られたDNAに応用されるDNAデータ復号方法を提供する。前記方法は、
パッケージ化結果に従って、復号処理を行うステップを含む。
本発明はさらにシステムを提供する。前記システムは、
第一のデータを取得するための取得モジュールと、
前記第一のデータを符号化してDNA分子鎖を得るために使用され、前記DNA分子鎖には符号化されたデータ及び第一のアドレスと第二のアドレスが含まれ、前記第一のアドレスが前記符号化されたデータの一端に位置し、前記第二のアドレスが前記符号化されたデータの他端に位置し、前記符号化されたデータにいくつかのプライマーが含まれる符号化モジュールとを備え、
ここで、前記第一のアドレスと前記第二のアドレスの間のハミング距離が前記第一のアドレスの長さの半分以上であり、
前記第一のアドレスのプレフィックスが前記第二のアドレスのプレフィックス及び前記第二のアドレスのサフィックスとは異なり、
各前記プライマーのプレフィックスに含まれるグアニンとシトシンの含有量が前記プライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占める。
本発明はさらに装置を提供する。前記装置は、
少なくとも1つのプロセッサと、
少なくとも1つのプログラムを記憶するための少なくとも1つのメモリとを備え、
前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが前記DNAに基づくデータ記憶方法を実現する。
本発明はさらに、前記DNAに基づくデータ記憶方法を完了するためにプロセッサによって実行されるプログラムを記憶している記憶媒体を提供する。
本発明の有益な効果は次のとおりである:前記第一のデータを符号化してDNA分子鎖を得るプロセスにおいて、前記第一のアドレスと前記第二のアドレスの間のハミング距離を第一のアドレスの長さの半分以上にして読み取る時のアドレス選択エラーの可能性を低減するような前記第一のアドレスと前記第二のアドレスに対する様々な制約が追加されるため、符号化されたデータを効率的且つ正確に読み取ることができ、前記第一のアドレスのプレフィックスが第二のアドレスのプレフィックス及び第二のアドレスのサフィックスとは異なるため、読み取る過程におけるマッチングエラーの可能性を回避し、各前記プライマーのプレフィックスにおけるグアニンとシトシンの含有量が前記プライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占めるため、符号化されたデータを読み取って予めシーケンスする必要がある時に、精度が高い。
本発明の方法のステップを示すフローチャートである。 本発明の具体的な実施例におけるDNA分子鎖を示す概略図である。 本発明の具体的な実施例におけるマトリックスの生成を示す概略図である
当業者が本出願の解決策をより良く理解するために、以下に本出願の実施例の図面を組み合わせながら、本出願の実施例における技術的解決策を明確且つ完全に説明し、明らかに、説明される実施例は、本出願の実施例の一部だけであり、全ての実施例ではない。本出願の実施例に基づき、当業者が創造的な労働をせずに得る他の実施例は、全て本出願の保護範囲に属するべきである。
本出願の明細書と特許請求の範囲及び前記図面中の用語「第一」、「第二」、「第三」と「第四」などは異なるオブジェクトを区別するために使用されるが、特定の順序を説明するためのものではない。また、用語「包括」と「有する」及びそれらのいかなる変形は、非排他的な包含をカバーすることを意図する。例えば一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、示されたステップ又はユニットに限定されず、選択可能に、示されないステップ又はユニットを含み、又は選択可能に、これらのプロセス、方法、製品又は装置固有の他のステップ又はユニットをさらに含む。
本明細書に言及される「実施例」は、実施例と組み合わせて説明される特定の特徴、構造又は特性が本出願の少なくとも一つの実施例に含まれてもよいことを意味する。本明細書の様々な箇所に現れる該語句は、必ずしも同じ実施例を指すわけではなく、他の実施例と相互に排他的に独立した実施例又は代替実施例ではない。当業者は、本明細書で説明される実施例が他の実施例と組合わせられてもよいことを明示的及び暗黙的に理解できる。
図1に示すように、本実施例は、DNAに基づくデータ記憶方法を提供する。前記方法は、
第一のデータを取得するステップと、
第一のデータを符号化してDNA分子鎖を得て、DNA分子鎖には符号化されたデータ及び第一のアドレスと第二のアドレスが含まれ、第一のアドレスが符号化されたデータの一端に位置し、第二のアドレスが符号化されたデータの他端に位置し、符号化されたデータにいくつかのプライマーが含まれるステップとを含み、
ここで、第一のアドレスと第二のアドレスの間のハミング距離が第一のアドレスの長さの半分以上であり、
第一のアドレスのプレフィックスが第二のアドレスのプレフィックス及び第二のアドレスのサフィックスとは異なり、
各プライマーのプレフィックスに含まれるグアニンとシトシンの含有量がプライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占める。
図2に示すように、本実施例では、目的は、高感度のランダムアクセスと正確なアドレス書き換えを実現することである。提案された方法の原理は、ランダムアクセス中のブロックごとに、システムがDNAによるユニークな選択及び増幅を可能にするアドレスシーケンスプライマーを装備する必要があることである。情報の符号化のため、データ情報の長さが確定されなく、データチェーンは1つの完全なデータ情報である可能性があり、また、1フラグメント又は極めて分散したチェーン情報である可能性もあり、したがって、異なるチェーン情報を識別するために、DNA分子鎖の前端、後端に第一のアドレスと第二のアドレスなどのアドレスチェーンを追加する。本実施例では、DNA分子鎖の長さが1000bpsであることを例として説明するが、他の実施例では他の長さであってもよく、第一のアドレスと第二のアドレスを、データを記憶するためブロックシーケンスの両端に合成し、第一のアドレスと第二のアドレスを20bpsの長さの短いブロックにそれぞれ保存する。符号化プロセスは、ブロックシーケンスの第一のデータを符号化し、符号化されたデータを得て、それによって符号化されたDNA分子鎖を得ることである。
本実施例では、第一のデータをいくつか(12つを含むこれに限定されない)の第二のデータに分割し、各第二のデータにプライマー、辞書符号化情報とテキストデータ情報が含まれ、プライマーがDNAプレフィックスの同期を記述するコードであり、書き換えをできるだけ簡単にし、可変コード長さによるエラー伝播を回避するように、選択された数の共通コードワードがターゲットによって制御され、「ワード符号化」操作は次のとおりである:まず、異なるテキストデータ情報内の単語がカウントされ、辞書で表に作られ、辞書内の各単語が辞書を符号化できる十分な長さのバイナリシーケンスに変換される。次に、現在実施及び選択されているテキストについて、補足情報セクションで説明しているように、この長さを連続する6つのワードのコードに設定してから21bpsの長さのバイナリシーケンステキスト情報にグループ化し、クォータナリモデルを用い、例えば、00、01、10、11をDNAの塩基A(アデニン)、T(チミン)、C(シトシン)、G(グアニン)と1対1で対応させて符号化することができる。選択可能に、符号化関係が実際の分子鎖のGCの含有量に従って確定されてもよく、最終的にバイナリシーケンスを80bpsの長さのデータブロックに翻訳し、即ち、第二のデータブロックの辞書符号化情報とテキストデータ情報に対して「ワード符号化」操作を行い、操作の結果とプライマーが80bpsのデータブロックを形成し、本実施例では、符号化されたデータは12つのデータブロックを含む。
本実施例では、高感度のランダムアクセスと正確なアドレス書き換えを実現するために、いくつかの制約を満たしている短いアドレスシーケンス、即ち第一のアドレスと第二のアドレスを設計し、これにより、アドレスシーケンスが選択性の高いランダムアクセスに適用することができる。符号化制約は、シーケンスエラーが発生しやすいDNAパターンを回避し、且つDNAライブラリ(例えばいくつかのDNAを含む)内の他のブロックに干渉したり、それを意図せずに選択したりすることなく、DNAブロックが正確にアクセス、増幅、および選択可能できることを、確保するために使用される。符号化制約は、アドレスプライマーの設計に適用されるだけでなく、同時に、完全に符号化されたDNA情報ブロックの性質を間接的に制御する。
選択可能に、本実施例では、アドレスシーケンスの制約は、C1−C4を含み、具体的には、
C1、各プライマーのプレフィックスにおけるG(グアニン)とC(シトシン)の含有量は、プライマーに含まれるG(グアニン)、C(シトシン)、A(アデニン)とT(チミン)の総含有量の予め設定された割合を占め、予め設定された割合が45%〜55%を含むがこれに限定されない。
その理由は、DNAがG(グアニン)、A(アデニン)、C(シトシン)とT(チミン)によって情報を記憶するため、AとT、CとGがペアリングした後に安定した二重鎖構造を形成でき、一本鎖DNAであっても二本鎖DNAであっても、バイナリコードの形態で情報を記憶でき、ここで、二本鎖DNAでは、一定のGC含有量を有するプレフィックス(GC含有量を全体の約45%〜55%にする)が必要であることにある。これは、GC含有量50%のDNA二本鎖が、GC含有量がより低く又は高いDNA二本鎖よりも安定しており、且つシーケンスする期間により良いカバレッジを有することができるためである。符号化プロセスにおけるユーザ情報がプレフィックスの同期によって実現されるため、アドレス及びそれらのプレフィックスにGCコンテンツの制約を印加することが重要であり、これは、以降の要求によって、符号化されたデータブロックのすべてのフラグメントが削除されたGCコンテンツを有することができることを確保する必要があるためである。
C2、第一のアドレスと第二のアドレスの間のハミング距離は第一のアドレスの長さの半分以上である。
その理由は、ハミング距離が特徴距離を測定する計算方式であり、その主な考えが2つの特徴間の違いを見つけることであり、アドレスシーケンスが比較的大きなハミング距離を有する必要があり、このようにしてエラーアドレス選択の確率を効果的に低減することができることにある。最小ハミング距離に対して、アドレスシーケンスの長さの半分に等しいハミング距離を適切に選択するだけで十分である(例えば64ビットバイトの長さのアドレスを使用する場合、必要な最小ハミング距離は32ビットである)。選択可能に、ハミング距離の代わりにレーベンシュタイン(編集)距離を使用して、1つの文字列を別の文字列に変換できるために必要な最少の挿入及び置き換えられたフラグメントの数をキャプチャすることもできる。
C3、第一のアドレスのプレフィックスは第二のアドレスのプレフィックス及び第二のアドレスのサフィックスとは異なる。
その理由は、アドレスがデータブロックに一意の識別子を提供するため、それらのサブ文字列が他のアドレス内の「類似した形態」で出現しなく、統合情報の検索及びソート期間にデータブロックを読み取ることによって引き起こされるアセンブリエラーを回避できることにある。
C4、DNA分子鎖の二次(折りたたみ)構造を制御及びスクリーニングし、即ち、DNA分子鎖の異常な構造、例えば無秩序な折りたたみ構造と非有界ランニングデジタルサムコードなどを排除し、これにおり、PCR増幅及びフラグメント書き過程にエラーが発生することを回避することができる。
本実施例では、符号化プロセスは選択可能に次のステップを含む。
S1、第一の方式S11又は第二の方式S12によって符号化する。
ここで、第一の方式S11は、
S111、いくつかの第二のデータのハミング分布に従って、各前記第二のデータの次数分布関数を取得し、次数分布関数に基づいて1つの次数をパラメータとして選択するステップと、
S112、パラメータといくつかの第二のデータに基づき、有界ランニングデジタルサムコードを確定するステップと、
S113、有界ランニングデジタルサムコードに基づいて符号化し、データをグアニン、シトシン、アデニンとチミンにマッピングして、いくつかのデータブロックを得るステップとを含む。
例えば、第一のデータがシーケンス(数列)aで表されると仮定し、a=a、a、a、...、a、aが第二のデータであり、そのシーケンス位置情報が文字シーケンス{A、......、A}に記憶され、一般的に、無向グラフでは、各ノードに接続されているエッジの数がノードの次数であるため、したがって、データ数列aのハミング分布に従って、各ノードの次数a、a......aを得て、それらを次数分布関数としてまとめることができ、ここで、理想的なソリトン分布関数、ロバストソリトン分布関数、バイナリ次数分布関数を指数分布関数として利用することができ、具体的な分布関数の選択が実際の符号化されたデータの状況に従って決定される必要があり、原則は、符号化されたDNAシーケンスがC1−C4の制約条件を満たし、さらに次数分布関数から1つの確定された次数Dを一定の確率で選択し(例えば、選択可能に、一様分布確率で選択し)、選択された所定の値がD(即ちパラメータ)であり、D>0、シーケンスaから抽出し、全てのk=1、...、iの場合、1グループのシーケンスb{b1、……b}(合計Dつの要素)をパラメータDを有する有界ランニングデジタルサムコードと呼ぶ。大きさが4であるアルファベットには有界ランニングデジタルサムコードを直接使用し、順に符号化を行い、且つデータをG(グアニン)、A(アデニン)、C(シトシン)、T(チミン)にマッピングし、いくつかのデータブロックを得る。
本実施例では、有界ランニングデジタルサムコードを利用して符号化し、具体的には、
各第二のデータの次数分布関数に基づいて次数を確定し、
次数分布関数と有界ランニングデジタルサムコードに基づき、第二のデータからいくつかのデータを抽出してデジタルサム演算(本実施例では排他的OR演算)を行い、そして抽出されたデータに第一のマークを付け、抽出されていないデータに第二のマークを付けてマトリックスを得て、
マトリックスに従って符号化する。
例えば、次数分布関数のシーケンスによって生成されたd(k=1、2、……n)を確定し、数列aからいくつかの(例えばnつの)データXをランダムに抽出してデジタルサム演算(有界ランニングデジタルサムコードに相当し)を行い、結果をXとして記し、選択されたデータ位置情報Aを1としてマークし(抽出されたデータに第一のマークを付けることに相当し)、選択されていないデータ位置を0としてマークし(抽出されていないデータに第二のマークを付けることに相当し)、情報相関度分布マトリックス(即ちマトリックス)Gを得て、生成プロセスが図3に示される。その後、マトリックスGに従って符号化し、本実施例では、LT(ファウンテンコード)を用いて符号化し、
T=G×S
Tが符号化されたシーケンス(即ち符号化されたデータ)であり、Sが元のデータシーケンス、即ち第一のデータ(又は第二のデータ)である。
例えば、元の情報シーケンスaについて、i=6とし、元のデータシーケンスの次数分布関数に従って、次数シーケンスd{1、2、3、2、2、1}を得て、次にシーケンスdに従って、シーケンスaから1、2、3、2、2、1つの要素をランダムに抽出する。この6回それぞれ抽出された{a、a、a、a、a、a}の場合、マトリックスGは次のとおりである:
本実施例では、第二の方式S12は、
S121、いくつかの第二のデータを積算して、ランニングデジタルサム(排他的OR演算の値)を得るステップと、
S122、予め設定されたアルファベットに従って、ランニングデジタルサムをグアニン、シトシン、アデニンとチミンにマッピングし、符号化して、いくつかのデータブロックを得るステップとを含む。
例えば、第一のデータがシーケンスaで表されると仮定し、a=a、a、a、...、a、aが第二のデータであり、そのシーケンス位置情報が文字シーケンス{A、...、A}に記憶され、G′がシーケンスaのランニングデジタルサム(RDS)であると仮定し、G′=a+a+……+a、予め設定されたアルファベットが用いられ、本実施例では対称的な{−q、−q+1、...、−1、0、1、...、q−1、q}であると仮定し、ここでq(aシーケンスの1番目の要素)についてそれぞれ+1シンボルをベース{A、T、G、C}のうちの1つにマッピングすることにより、例えば、{A、T}を直接構築でき、q+1を「A」にマッピングし、q+2を「T」にマッピングし、q+3を「A」にマッピングし、このようにして0まで循環して繰り返し、要素−1をベース{G、C}のいずれかに入れ、qが「G」をマッピングし、q−1が「C」をマッピングし、q−2が「G」をマッピングし、このようにして0まで循環して繰り返し、ランニングデジタルサム(RDS)をG(グアニン)、A(アデニン)、C(シトシン)、T(チミン)にマッピングし、さらに符号化して、いくつかのデータブロックを得る。
上記のマッピングにより、コードワードは、後ですべてのシーケンスプレフィックスに対して45%〜55%にほぼ等しいGCコンテンツを有するDNAシーケンスに変換されてもよく、相互に十分に大きなハミング距離を有する有界ランニングデジタルサムコードワードセットを構築し、制約C1、C2を満たす。
選択可能に、本実施例では、DNAに基づくデータ記憶方法は、
有界ランニングデジタルサムコードの誤差補正コードパラメータを確定し、第二の方式を用いて符号化する場合、第一の方式での方法を用いて有界ランニングデジタルサムコードを確定し、さらに有界ランニングデジタルサムコードの誤差補正コードパラメータを確定することができることを理解できるステップと、
誤差補正コードパラメータに基づき、誤差補正コードパラメータを有するコードワードを確認するステップとをさらに含む。
例えば、エラー補正コードパラメータが(n、C、d′、D′)であると仮定し、ここで、Cが長さnのコードワードの数を表し、d′がコードの最小距離を表し、D′がコードレートに等しい。D′=1及びd′=2の場合、有界ランニングデジタルサムコードにパラメータ(n、3^(n/2)、1、2)があることが最もよく知られている。D′=2及びd′=2の場合、パラメータ(n、3^(n/2−1)、2、2)を有するコードがあり、このパラメータを有するこれらのコードのそれぞれが指数関数的に多数のコードワードを有し、これにより、制約条件C3を満たしているように、エラー補正コードパラメータを有するコードワードを確認する。
本実施例では、DNAに基づくデータ記憶方法は、
DNA分子鎖に対して排除処理を行い、DNA分子鎖中の無秩序な折りたたみ構造及び/又は非有界ランニングデジタルサムコードを排除することをさらに含む。
例えば、コンピューターを介してDNA分子鎖を検索し、その異なる塩基によって配列されたDNA分子鎖の二次構造(DNA分子の二次構造では、AとTがペアになり、CとGがペアになり、それらはそれぞれ2つ及び3つの水素結合で結合され、異なる塩基数及び組み合わせ方式が無秩序な二次折りたたみにつながる可能性がある)を検索し、したがって、制約条件C4を満たすコードワードを見つけるために、二次構造の無秩序な折りたたみ及び非有界ランニングデジタルサムコードを排除する必要がある。
本実施例では、DNAに基づくデータ記憶方法は、
第一のマークに対応する行位置と列位置を記録し、列位置が同じである全ての行位置をパッケージ化することをさらに含む。
生成されたマトリックスGでの行と列の位置が1(第一のマーク)であるすべての単位をマトリックスから抽出し、バイナリを用いて対応する行の位置と列の位置を表し、その後列の位置が同じである全ての行の位置をまとめてパッケージ化し、完了するまで上記のステップを繰り返する。
また、本実施例では、DNA分子鎖のデータを書き換える必要がある場合、書き換え実験は次のとおりである。
1.PCR増幅には1つの1000bpsのシーケンスを選択しながら元の領域で増幅のための3つの1000bpsシーケンスを選択すると仮定し、32つの1000bpsの線形フラグメントがすべて混合形態で記憶され、且つ該混合物がPCR増幅及び選択のテンプレートとして用いられ、ゲル電気泳動で1000bpsのシーケンス長さを確認することで増幅結果を検証し、そしてその領域から3〜5つのシーケンスをランダムに選択し、それらに対してサンガー(Sanger)シーケンシングを行う。
2.1000つの印刷ブロックでの様々な位置にある編集済みの実験的コンテンツを合成して書き換える。記号を簡略化するために、プール内の選択が実行されたブロックをB1、B2とB3に編集する。フォワードとリバースの2つのプライマーがブロック内の書き換えごとに合成される。また、gBlockとOE−PCRの2つの異なる編集/突然変異技術が用いられる。gBlockはプライマーとして用いられる二本鎖ゲノムフラグメントのゲノム編集、又は目的のための二本鎖ゲノムフラグメントのゲノム編集であり、OE−PCRは、特定のDNAシーケンスのホールを編集するためのPCRのバリアントポイント編集/突然変異又はスプライシングである。コスト効果を有する方法の合理的な編集を証明するために、OE−PCRは汎用プライマー(60bps)のみで実現される。40bpsより短いシーケンスを編集する場合、突然変異シーケンスは、プライマーのオーバーハングとして設計される必要がある。その後、3回のPCR産物が1000bps全体で書き換えられた最終PCR反応のテンプレートとして用いられる。
各塩基対の重量が約650ダルトン(650×1.67×g)であると仮定し、13+4=17KBのASCIIフォーマットのファイルを符号化するために、27000+5000=32000bpsが必要となり、本解決策の潜在的な記憶密度は4.9xB/gである。本解決策が高価な多重カバーを回避し、ブロック長さがより長く且つレートが高い専用ワード符号化スキームを使用するため、この密度は、既存の記憶密度2.2xB/gよりも優れている。
本実施例では、第一のデータをいくつかの第二のデータに分割してLTコードを用いて符号化し、即ち平均サブフレーム長さのLTコードを用いる符号化システムを設計することに相当し、これにより、既存のLT符号化と比較して明らかな利点があり、以下に、それに関して説明する。
1)LTコードパラメータについて、
Sがシンボルノード次数1の平均値であり、K'がコード数であり、δが復号失敗の確率であり、cが定数であり、Kが元のデータ長さである。
符号化及び復号がKの線形関数に関するため、本発明の目的は、できるだけ少ない冗長性でより高い復号成功率を得ることであり、理想的な状態では、冗長性が0に近づくべきであり、したがって、δ限界値の式が次のとおりである:
d→K/e
上記の右矢印がK/eに近いことを示しており、上記2つの式から、δ<1とすると、K<eとなるので、復号の成功率を大きくすると、Kをできるだけ小さくする必要があることがわかる。
2)LTコードシステム性能パラメータについて、
関連するシステム性能の具体的なパラメータは、平均次数D’と符号化及び復号の複雑さQを含む。ここで、符号化及び復号の複雑さと平均次数の計算式は次のとおりである:
Kが元のデータの長さであり、qが符号化されたデータの選択可能なアドレス値である。本実施例における平均サブフレーム長さのLTコードシステムでは、元のデータKはXグループに均等に分割され、各グループのデータ長さがYであると仮定される:
この時、本発明の符号化及び復号の複雑さが
であり、平均次数が
であるが、既存の符号化システムの複雑さが
であり、平均次数が
である。
これからわかるように、本発明の平均サブフレーム長さのLTコード方式を応用する場合、符号化及び復号の複雑さを軽減することができ、元のデータが固定される場合、余分な演算量を増やすことなく、符号化時間を短縮し、復号レートを向上させることができる一方、復号の成功率を高めることができる。
マトリックスGの冗長性の低減率:
ここで、LがマトリックスG内の1の数であり、aがデータ情報の長さであり、Kが元のデータの長さであり、Mが符号化されたデータの長さであり、bが圧縮された行と列の位置情報である。
上述したように、本発明は、少なくとも以下の利点を有する。
1)、DNAに基づく記憶アーキテクチャが確立され、ランダムにアクセスできるデータブロックと書き換えられた情報は、データブロック内の任意の位置に記憶される。
2)、DNA二本鎖上のデータを符号化する際には、アドレスシーケンスに対して、選択性の高いランダムアクセスに適用する複数の制約条件を設定し、これにより、符号化されたデータを効率的かつ正確に読み取ることができる。
平均サブフレーム長さのLTコードの符号化システムを設計し、そしてマルチビットでパッケージ化することにより、符号化及び復号の複雑さを低減させ、符号化時間を短縮し、復号レートを高め、記憶の冗長性の桁数を減らし、且つWSN符号化及びデータセンターのデータ回復率の効率を向上させ、高感度のランダムアクセスと正確なアドレス書き換えを実現する。
本発明はさらにシステムを提供する。前記システムは、
第一のデータを取得するための取得モジュールと、
第一のデータを符号化してDNA分子鎖を得るために使用され、DNA分子鎖には符号化されたデータ及び第一のアドレスと第二のアドレスが含まれ、第一のアドレスが符号化されたデータの一端に位置し、第二のアドレスが符号化されたデータの他端に位置し、符号化されたデータにいくつかのプライマーが含まれる符号化モジュールとを備え、
ここで、第一のアドレスと第二のアドレスの間のハミング距離が第一のアドレスの長さの半分以上であり、
第一のアドレスのプレフィックスが第二のアドレスのプレフィックス及び第二のアドレスのサフィックスとは異なり、
各プライマーのプレフィックスにおけるグアニンとシトシンの含有量がプライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占める。
上記方法の実施例におけるコンテンツはいずれも本システムの実施例に適用し、本システムの実施例において具体的に実現される機能は上記方法の実施例における機能と同じであり、且つ達成される有益な効果は上記方法の実施例の効果と同じである。
本発明はさらに装置を提供する。前記装置は、
少なくとも1つのプロセッサと、
少なくとも1つのプログラムを記憶するための少なくとも1つのメモリとを備え、
少なくとも1つのプログラムが少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサがDNAに基づくデータ記憶方法を実現する。
上記方法の実施例におけるコンテンツはいずれも本装置の実施例に適用し、本装置の実施例において具体的に実現される機能は上記方法の実施例における機能と同じであり、且つ達成される有益な効果は上記方法の実施例の効果と同じである。
いくつかの選択可能な実施例では、本発明のステップで示され且つ説明される実施例は、技術のより包括的な理解を提供する目的で、例として提供される。開示される方法は、本明細書に示される操作と論理フローに限定されない。様々な操作の順序が変更され、より大きな操作として説明された一部のサブ操作が独立して実行される選択可能な実施形例は、意図されてもよい。
また、本発明は機能モジュールの文脈で説明されているが、特に断りのない限り、機能及び/又は特徴のうちの1つ又は複数が単一の物理デバイス及び/又はソフトウェアモジュールに統合されてもよく、又は1つ又は複数の機能及び/又は特徴が独立した物理デバイス又はソフトウェアモジュールで実現されてもよいことは理解可能である。また、各モジュールの実際の実現についての詳細な討論が本発明を理解するために必要ではないことは理解できる。より正確には、本明細書に開示された装置内の様々な機能モジュールの属性、機能と内部関係を考慮する場合で、モジュールの実際の実現は、エンジニアの従来の技術内で理解される。したがって、当業者は、通常の技術を用いて特許請求の範囲に記載された本発明を過度の実験を行うことなく実施することができる。また、開示された特定の概念が単なる例示であり、本発明の範囲を限定することを意図するものではなく、本発明の範囲が添付の特許請求の範囲及びその同等解決策の全範囲によって決定されることは理解可能である。
本発明の実施例はさらに、DNAに基づくデータ記憶方法を完了するためにプロセッサによって実行されるプログラムを記憶している記憶媒体を提供する。
同様に、上記方法の実施例におけるコンテンツがいずれも本記憶媒体の実施例に適用し、実現される機能と有益な効果が方法の実施例と同じであることがわかる。
機能がソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売又は使用される時に、一つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づき、本発明の技術的解決策は本質的に又は従来技術に寄与する部分又は該技術的解決策の部分がソフトウェア製品の形で具体化されてもよく、該コンピュータソフトウェア製品が1つの記憶媒体に記憶され、コンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワークデバイス等であってもよい)に本発明の様々な実施例の方法のステップの全て又は一部を実行させるためのいくつかの命令を含む。前記憶媒体はUSBフラッシュドライブ、モバイルハードディスク、読み出し専用メモリ(ROM:Read−Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる各種の媒体を含む。
実施例におけるステップ又はここで他の方式で説明される論理及び/又はステップは、例えば、論理機能を実現するための実行可能な命令のシーケンスリストと見なされてもよく、命令実行システム、装置又は機器(例えばコンピュータに基づくシステム、プロセッサを含むシステム、又は命令実行システム、装置又は機器から命令を取って実行することができる他のシステム)に用いられ、又はこれらの命令実行システム、装置又は機器と組み合わせて用いられるために、具体的に任意のコンピュータ可読媒体で実現されてもよい。本明細書において、「コンピュータ可読媒体」は命令実行システム、装置又は機器に用いられ又はこれらの命令実行システム、装置又は機器と組み合わせて用いられるためのプログラムを含み、記憶、通信、伝播又は伝送することができる装置であってもよい。
コンピュータ可読媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数の配線を有する電気接続部(電子デバイス)、ポータブルコンピューターカートリッジ(磁気デバイス)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブルランダムアクセスメモリ(EPROM)又はフラッシュメモリ、光ファイバーデバイス、及びコンパクトディスク読み取り専用メモリ(CDROM)を含む。また、コンピュータ可読媒体は、例えば紙又は他の媒体を光学的にスキャンし、次に編集し、解釈し又はニーズに応じて他の適切な方式で処理することでプログラムを電子的に取得し、次にコンピュータのメモリに格納することができるため、更にはプログラムを印刷できる紙又は他の適切な媒体であってもよい。
本実施例はさらにDNAデータを復号するための方法を提供する。前記方法は、パッケージ化結果に従って復号処理を実行することを含む。
DNAが上記パッケージ化方式で得られる場合、DNAを読み取って復号する必要がある時に、パッケージ化結果のみを使用し、即ち、生成されたマトリックスG全体を送信せず、生成されたマトリックスG内の1の行位置及びと列位置のみを送信した上で、受信された行位置と列位置に従って復号するだけで、生成されたマトリックスを復元して元のデータを翻訳する。この段階では、LTコードの符号化及び復号プロセスとアプリケーションは、元のデータの単位ごとにカプセル化して伝送することであるが、単位データパケット伝送は、大量のデータの場合、より多くのメモリと帯域幅を占有する問題が大きく及び出現する有効性及び信頼性の現象が減少するように見える。上記の処理方式により、即ち符号化して伝送された後のいくつかのビットをカプセル化して元の単位データを置き換えて伝送することにより、データ量から記憶スペースが大幅に削減され、記憶の冗長性が減少し、復号成功率が向上する。

Claims (10)

  1. DNAに基づくデータ記憶方法であって、
    第一のデータを取得するステップと、
    前記第一のデータを符号化してDNA分子鎖を得て、前記DNA分子鎖には符号化されたデータ及び第一のアドレスと第二のアドレスが含まれ、前記第一のアドレスが前記符号化されたデータの一端に位置し、前記第二のアドレスが前記符号化されたデータの他端に位置し、前記符号化されたデータにいくつかのプライマーが含まれるステップとを含み、
    ここで、前記第一のアドレスと前記第二のアドレスの間のハミング距離が前記第一のアドレスの長さの半分以上であり、
    前記第一のアドレスのプレフィックスが前記第二のアドレスのプレフィックス及び前記第二のアドレスのサフィックスとは異なり、
    各前記プライマーのプレフィックスにおけるグアニンとシトシンの含有量が前記プライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占める、ことを特徴とするDNAに基づくデータ記憶方法。
  2. 前記符号化されたデータにはいくつかのデータブロックが含まれ、各前記データブロックに前記プライマーが含まれ、前記データを符号化してDNA分子鎖を得ることは、
    前記データをいくつかの第二のデータに分割するステップと、
    第一の方式及び/又は第二の方式によって符号化するステップとを含み、
    前記第一の方式は、具体的には、
    いくつかの前記第二のデータのハミング分布に従って、各前記第二のデータの次数分布関数を取得し、次数分布関数に基づいて1つの次数をパラメータとして選択し、
    前記パラメータといくつかの前記第二のデータに基づき、有界ランニングデジタルサムコードを確定し、
    前記有界ランニングデジタルサムコードに基づいて符号化し、前記データをグアニン、シトシン、アデニンとチミンにマッピングして、いくつかの前記データブロックを得ることであり、
    前記第二の方式は、具体的には、
    前記いくつかの第二のデータを積算して、ランニングデジタルサムを得て、
    予め設定されたアルファベットに従って、前記ランニングデジタルサムをグアニン、シトシン、アデニンとチミンにマッピングし、符号化し、いくつかの前記データブロックを得ることである、ことを特徴とする請求項1に記載のDNAに基づくデータ記憶方法。
  3. 前記第一の方式によって符号化すると、前記有界ランニングデジタルサムコードの誤差補正コードパラメータを確定するステップと、
    前記誤差補正コードパラメータに基づき、前記誤差補正コードパラメータを有するコードワードを確認するステップと、
    前記第二の方式によって符号化すると、前記有界ランニングデジタルサムコードを確定し、前記有界ランニングデジタルサムコードの誤差補正コードパラメータを確定するステップと、
    前記誤差補正コードパラメータに基づき、前記誤差補正コードパラメータを有するコードワードを確認するステップとをさらに含む、ことを特徴とする請求項2に記載のDNAに基づくデータ記憶方法。
  4. 前記有界ランニングデジタルサムコードに基づいて符号化することは、
    各前記第二のデータの次数分布関数に基づいて次数を確定するステップと、
    前記数分布関数と前記有界ランニングデジタルサムコードに基づき、前記第二のデータからいくつかのデータを抽出してデジタルサム演算を行い、そして抽出されたデータに第一のマークを付け、抽出されていないデータに第二のマークを付けて、マトリックスを得るステップと、
    マトリックスに従って符号化するステップとを含む、ことを特徴とする請求項2に記載のDNAに基づくデータ記憶方法。
  5. 前記第一のマークに対応する行位置と列位置を記録し、前記列位置が同じである全ての前記行位置をパッケージ化するステップをさらに含む、ことを特徴とする請求項4に記載のDNAに基づくデータ記憶方法。
  6. 前記DNA分子鎖に対して排除処理を行い、前記DNA分子鎖中の無秩序な折りたたみ構造及び/又は非有界ランニングデジタルサムコードを排除するステップをさらに含む、ことを特徴とする請求項1に記載のDNAに基づくデータ記憶方法。
  7. 請求項5に記載のDNAに基づくデータ記憶方法に基づいて得られたDNAに応用されるDNAデータ復号方法であって、
    パッケージ化結果に従って、復号処理を行うステップを含む、ことを特徴とするDNAデータ復号方法。
  8. システムであって、
    第一のデータを取得するための取得モジュールと、
    前記第一のデータを符号化してDNA分子鎖を得るために使用され、前記DNA分子鎖には符号化されたデータ及び第一のアドレスと第二のアドレスが含まれ、前記第一のアドレスが前記符号化されたデータの一端に位置し、前記第二のアドレスが前記符号化されたデータの他端に位置し、前記符号化されたデータにいくつかのプライマーが含まれる符号化モジュールとを備え、
    ここで、前記第一のアドレスと前記第二のアドレスの間のハミング距離が前記第一のアドレスの長さの半分以上であり、
    前記第一のアドレスのプレフィックスが前記第二のアドレスのプレフィックス及び前記第二のアドレスのサフィックスとは異なり、
    各前記プライマーのプレフィックスにおけるグアニンとシトシンの含有量が前記プライマーに含まれるグアニン、シトシン、アデニンとチミンの総含有量の予め設定された割合を占める、ことを特徴とするシステム。
  9. 装置であって、
    少なくとも1つのプロセッサと、
    少なくとも1つのプログラムを記憶するための少なくとも1つのメモリとを備え、
    前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1−7のいずれか一項に記載のDNAに基づくデータ記憶方法を実現する、ことを特徴とする装置。
  10. 請求項1−7のいずれか一項に記載のDNAに基づくデータ記憶方法を完了するためにプロセッサによって実行されるプログラムを記憶している、ことを特徴とする記憶媒体。
JP2020152314A 2020-06-16 2020-09-10 Dnaに基づくデータ記憶方法、復号方法、システムと装置 Active JP6786144B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010547301.1A CN111858507B (zh) 2020-06-16 2020-06-16 基于dna的数据存储方法、解码方法、系统和装置
CN202010547301.1 2020-06-16

Publications (2)

Publication Number Publication Date
JP6786144B1 true JP6786144B1 (ja) 2020-11-18
JP2021197724A JP2021197724A (ja) 2021-12-27

Family

ID=72986620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020152314A Active JP6786144B1 (ja) 2020-06-16 2020-09-10 Dnaに基づくデータ記憶方法、復号方法、システムと装置

Country Status (2)

Country Link
JP (1) JP6786144B1 (ja)
CN (1) CN111858507B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096742B (zh) * 2021-04-14 2022-06-14 湖南科技大学 一种dna信息存储并行寻址写入方法及系统
CN113299347B (zh) * 2021-05-21 2023-09-26 广州大学 一种基于调制编码的dna存储方法
CN113314187B (zh) * 2021-05-27 2022-05-10 广州大学 一种数据存储方法、解码方法、系统、装置及存储介质
CN116451780B (zh) * 2022-01-05 2024-07-05 密码子(杭州)科技有限公司 用于在分子中存储信息的方法和设备
CN117669703A (zh) * 2022-08-17 2024-03-08 密码子(杭州)科技有限公司 用于在分子中存储信息的方法、设备和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1109111C (zh) * 1998-07-17 2003-05-21 中国科学院上海原子核研究所 大片段脱氧核糖核酸芯片及其制造方法
WO2003017499A2 (en) * 2001-08-20 2003-02-27 Koninklijke Philips Electronics N.V. Enhanced coding for informed decoders
CN102063643B (zh) * 2010-12-13 2014-07-30 北京航空航天大学 一种基于dna计算的智能优化仿真方法
EP3520221B1 (en) * 2016-09-30 2021-05-05 Microsoft Technology Licensing, LLC Efficient clustering of noisy polynucleotide sequence reads
CN107729762A (zh) * 2017-08-31 2018-02-23 徐州医科大学 一种基于差分隐私保护模型的dna闭频繁模体识别方法
CN110533096B (zh) * 2019-08-27 2021-09-10 大连大学 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法

Also Published As

Publication number Publication date
JP2021197724A (ja) 2021-12-27
CN111858507A (zh) 2020-10-30
CN111858507B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
JP6786144B1 (ja) Dnaに基づくデータ記憶方法、復号方法、システムと装置
CN112711935B (zh) 编码方法、解码方法、装置及计算机可读存储介质
US9830553B2 (en) Code generation method, code generating apparatus and computer readable storage medium
De Silva et al. New trends of digital data storage in DNA
US10370246B1 (en) Portable and low-error DNA-based data storage
JP7090148B2 (ja) Dnaベースのデータストレージ及びデータ取り出し
Bornholt et al. A DNA-based archival storage system
US10566077B1 (en) Re-writable DNA-based digital storage with random access
US9774351B2 (en) Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
Wang et al. High capacity DNA data storage with variable-length Oligonucleotides using repeat accumulate code and hybrid mapping
Akram et al. Trends to store digital data in DNA: an overview
JP6882490B2 (ja) ポーラ符号のレートマッチング方法及び装置
CN113314187B (zh) 一种数据存储方法、解码方法、系统、装置及存储介质
CN112749247B (zh) 文本信息存储和读取方法及其装置
Nassirpour et al. Embedded codes for reassembling non-overlapping random DNA fragments
Milenkovic et al. DNA-based data storage systems: A review of implementations and code constructions
Fan et al. Constrained channel capacity for dna-based data storage systems
TW202008302A (zh) 以dna為基礎之資料存取
KR20040071993A (ko) Dna 서열 부호화 방법 및 dna 서열 압축 방법
CN114730616A (zh) 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
EP2985915A1 (en) Method for generating codes, device for generating code word sequences for nucleic acid storage channel modulation, and computer readable storage medium
Mridula et al. Lossless segment based DNA compression
US20240185959A1 (en) Nested Error Correction Codes for DNA Data Storage
Tabatabaei Yazdi DNA–based data storage system
Limbachiya On designing DNA codes and their applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200910

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200910

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201021

R150 Certificate of patent or registration of utility model

Ref document number: 6786144

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250