JP7275301B2 - Dnaのコード化方法及びそのコード化方法の生命工学的応用 - Google Patents

Dnaのコード化方法及びそのコード化方法の生命工学的応用 Download PDF

Info

Publication number
JP7275301B2
JP7275301B2 JP2021553075A JP2021553075A JP7275301B2 JP 7275301 B2 JP7275301 B2 JP 7275301B2 JP 2021553075 A JP2021553075 A JP 2021553075A JP 2021553075 A JP2021553075 A JP 2021553075A JP 7275301 B2 JP7275301 B2 JP 7275301B2
Authority
JP
Japan
Prior art keywords
sequence
code
base
dna
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021553075A
Other languages
English (en)
Other versions
JP2022525042A (ja
Inventor
ヒョンジュ キム
インシク ソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hessegg Inc
Original Assignee
Hessegg Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hessegg Inc filed Critical Hessegg Inc
Publication of JP2022525042A publication Critical patent/JP2022525042A/ja
Application granted granted Critical
Publication of JP7275301B2 publication Critical patent/JP7275301B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/10Nucleic acid folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、DNAのコード標準化方法及びその方法の最適化された生命工学的応用に関する。
生命体に遺伝物質として存在するDNA(DeoxyriboNucleic Acid)は、タンパク質として発現する遺伝子部位と非遺伝子部位で構成されている。DNAの化学構造は、デオキシリボース(Deoxyribose)である五炭糖の5’炭素にリン酸基が、1’炭素に塩基(base)が連結されることによってヌクレオチド(Nucleotide)という単位体を形成するが、このとき、ヌクレオチドに連結された塩基の種類によってDNAの配列が決定される。
塩基の種類は2つの系列に区分されており、環状構造が2個であるプリン系列の塩基と、環状構造が1個であるピリミジン系列の塩基とがある。また、プリン系列としてはグアニン(G)とアデニン(A)、ピリミジン系列としてはシトシン(C)とチミン(T)などがあり、五炭糖の2’炭素に-OH基が連結されており、塩基の構成がチミンの代わりにウラシル(U)に置換されているRNAの場合と相違している。プリン系列のGは、ピリミジンであるCと水素結合で相補的な対を形成し、AはTと対を形成する。このとき、GとCの相補的な対は、3個の水素結合で連結されているので、2個の水素結合で連結されるAとTよりも強く結合されている。
DNAのヌクレオチド単位体は、5’炭素に連結されたリン酸基が他の単位体の3’炭素-OH基とリン酸ジエステル結合(Phosphodiester bond)で連結されることによって一つの鎖を形成する。リン酸ジエステル結合で連結された2個の相補的な単一鎖は、相補塩基の水素結合で二重らせん構造を形成している。このような二重らせん構造は、1953年にワトソンとクリックによって導入された。[Watson,J.D.,& Crick,F.H.(1953).Molecular structure of nucleic acids.Nature,171(4356),737-738.]
DNAのうち遺伝子部位の塩基配列は、3個の塩基コードがタンパク質を構成する一つのアミノ酸(Amino acid)に翻訳されて連結されながら、タンパク質が合成されるのに重要な役割をする。DNAは、mRNAに転写された後、塩基配列の順序によって20種のアミノ酸に翻訳されるが、翻訳されるアミノ酸がtRNAによって連結されながらタンパク質が形成される。また、このタンパク質は、細胞内の構成物質として存在し、生体内の多くの反応を媒介する酵素として作用することもある。
ヒトのDNAの場合、30億個の塩基対(bp)を有し、一人当たりGB単位のデータ容量を有する。この容量を人口数に換算すると、PB単位でも不足する実情にある。そのため、ヒトの全てのDNAシーケンスを分析するよりは、疾病特異的なSNP(Single Nucleotide polymorphism、塩基多型性)部位などを分析することによって短いDNA切片のシーケンスで疾病の予測分析がなされているが、これも全ての遺伝子のSNP部位を分析できない実情にあり、これを分析するための多様なプログラムの開発が必要である。
大韓民国公開特許10-2016-0001455
本発明は、前記問題を解決し、前記必要性によってなされたものであって、本発明の目的は、DNA塩基を各塩基の分子量が考慮された2進数コード(1塩基当たり2ビット)に標準化し、塩基配列内に存在する特定パターンを把握するために最適化された方法を提供することにある。
本発明の他の目的は、塩基配列のコードの和を用いた相補結合の有無及びパターンの把握が容易な方法を提供し、DNA断片やDNAアプタマーのパターン及び機能を予測するのが容易な方法を提供することにある。
本発明の更に他の目的は、塩基配列のコードのみで配列間の分子量の比率及び各塩基の比率などを把握するのが容易な方法を提供することにある。
本発明の更に他の目的は、塩基配列内の変異の把握が容易な方法を提供し、SNPなどの疾病特異的な配列の変異を用いることによって疾病の予測が容易な方法を提供することにある。
前記目的を達成するために、本発明は、次のステップを含むDNAのコード標準化方法を提供する:(a)C、T、A、Gである4つの塩基をそれぞれ00、01、10、11と命名し、(b)各塩基がGとC、及びAとTの塩基対を形成したときは、5’から3’方向に、GとCの場合は1100、CとGの場合は0011、AとTの場合は1001、TとAの場合は0110とそれぞれ命名する。
また、本発明は、次のステップを含むDNAのコード標準化を用いた特定DNA断片やアプタマーの特定パターンや2次構造を確認するために最適化された情報提供方法を提供する:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記数値で命名されたコードの配列と各コードの和の配列を比較するステップ。
本発明の一具現例において、前記コードの配列と各コードの和の配列を比較するステップは、前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後、各配列の和が3になるコードの配列が2対以上両端に配列されている場合にステム構造を形成できると判断し、互いに向かい合っている配列のコードの和が3より大きいか小さいため相補結合を形成し得ない配列が3個以上中心に連結されているときにループ構造を形成すると判断することを特徴とするDNAのコード標準化を用いた特定DNA断片やアプタマーの特定パターンや2次構造を確認するために最適化された情報提供方法が好ましいが、これに限定されない。
また、本発明は、次のステップを含むDNAのコード標準化を用いた特定DNA断片の塩基配列への変異の存在有無に関する情報提供方法を提供する:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記数値で命名されたコードの和を比較するステップ。
本発明の一具現例において、前記コードの和を比較するステップは、前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後でその和を求め、正常配列と比較したときに1~3の差がある場合に変異が存在すると判断することを特徴とすることが好ましいが、これに限定されない。
本発明の他の具現例において、前記方法は、特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名して得られたコードのそれぞれの数値を比較することによって変異配列の位置を確認できることが好ましいが、これに限定されない。
また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定DNA断片やアプタマーの特定パターンや2次構造を確認するために最適化された情報提供用コンピュータプログラムであって、前記各ステップは:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後、各配列の和が3になるコードの配列が2対以上両端に配列されている場合にステム構造を形成できると判断し、互いに向かい合っている配列のコードの和が3より大きいか小さいため相補結合を形成し得ない配列が3個以上中心に連結されているときにループ構造を形成すると判断するステップ;を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。
また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定DNA断片の塩基配列への変異の存在有無に関する情報提供用コンピュータプログラムであって、前記各ステップは:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記(a)ステップの2進数の数配列を10進数に変形した後でその和を求め、正常配列と比較したときに1~3の差がある場合に変異が存在すると判断するステップ;を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。
また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定DNA断片の塩基配列の変異配列に対する位置に関する情報提供用コンピュータプログラムであって、前記各ステップは:(a)特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名するステップ;及び(b)前記(a)ステップの特定DNA断片の塩基配列のC、T、A、及びGをそれぞれ00、01、10、11と命名して得られたコードのそれぞれの数値を比較することによって変異配列の位置を確認するステップ;を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。
以下、本発明を説明する。
本発明は、DNAのそれぞれの分子量が小さい順に、C、T、A、Gの4つの塩基にそれぞれ00、01、10、11のコードを命名し、各塩基がGとC、及びAとTの塩基対を形成したとき、それぞれの分子量の和がコードの和の比率と一致するようにコードを命名する方法を提供する。
また、本発明は、SELEXを用いて確認された各化合物に特異的なアプタマーをコードに標準化することによって各化合物に存在する反応基と結合する特定パターンを把握し、これをビッグデータとして活用して予測できるシステムを構築する。
また、本発明は、DNAの配列をコードに標準化した後、各配列の値を10進数に変換し、その和を導出することによって各配列への変異の有無を確認し、特定疾病へのSNPの存在有無を迅速に把握できる方法を提供する。
本発明は、DNAをコードに標準化することによって塩基配列内に存在する特定パターンの把握が容易な方法を提供する。
本発明は、特定ターゲット及び化学構造と結合するDNAシーケンスパターンを把握し、これをビッグデータとして活用することによってその化学構造単位に結合するアプタマーを予測し、SELEX(Systematic evolution of ligands by exponential enrichment)シミュレーションプログラム化に必要な情報を提供する。
また、本発明は、DNAを塩基の分子量が反映されたコードに標準化することによって、塩基配列のコードのみで配列間の分子量の比率及び各塩基の比率などを把握するために最適化された方法を提供する。
また、本発明は、DNAを塩基の分子量が反映されたコードに標準化することによって塩基配列内の変異の把握が容易な方法を提供し、コードの和と配列順序を比較するために最適化された方法を提供することによってSNPなどの疾病特異的な変異の把握が可能であり、疾病の予測が容易な方法を提供する。
本発明を通じて分かるように、本発明のDNAコード標準化方法は、塩基配列内の変異の把握が容易な方法を提供し、SNPなどの疾病特異的な配列の変異を用いることによって疾病の予測を容易にするなど、塩基配列内に存在する特定パターンの把握が容易な方法を提供する。
DNAの分子構造及び結合質量比の原理を反映して指定したコード値を、分子量が小さい塩基から大きい順にC、T、A、Gを00、01、10、11値の2進数に指定したことを示した図である。 指定された2進数のコードにおいてそれぞれGとC、AとTの塩基が対を形成するとき、各コードの和の比率が1:1となって実際の質量比と同一の比率を有するように設計したことを示した図である。 6つの配列のコード変換値を示したものであって、各配列のコードの和と各配列の分子量を比較して示した図である。 DNA配列のコードを用いて例示配列のパターンを確認したものであって、各配列のコードの和によって相補結合の可否を確認し、その結合の数及び連結された塩基の数によってステム-ループ構造形成及びパターンを確認した図である。 乳癌患者から確認されるSNP配列にコードを適用し、本発明のコード標準化の効率性を確認したものであって、Exton 2から14番目にあるA塩基がGに変異されているSNP配列をコードに変換し、2進数の数配列で配置した後でコードの和を求め、正常配列と変異配列のコードの和を比較した図である。
以下、本発明を非制限的な実施例を通じて詳細に説明する。但し、下記の実施例は、本発明を例示するために記載したものであって、本発明の範囲が下記の実施例によって制限されると解釈してはならない。
実施例1:各塩基の分子量によるコード標準化
DNAの配列を決定する4つの塩基をコンピュータ言語である2進法の二桁の数で示し、コードに標準化するために各塩基の分子量を分析した後、これを図1に表記した。それぞれの塩基G、A、T、Cと1個のリン酸基とが連結されたデオキシリボヌクレオチド(deoxyribonucleotide)をそれぞれdGMP、dAMP、dTMP、dCMPと表記した。
各塩基は、G、A、T、Cの順に大きい値を有し、Gと水素結合で対を形成するC、及びAと相補結合するTの分子量をそれぞれ合わせて比較した結果、654.4(=347.2+307.2)と653.4(=331.2+322.2)になり、約1:1の同等な分子質量を有した状態で互いに対を形成していることを確認した。GとCの分子量の和よりもAとTの分子量の和が1だけ少ない理由は、G≡には窒素(N)が、A=Tには炭素(C)、水素(H)が他の結合対に比べて1個ずつさらにあり、Nの分子量とC+Hの分子量の和との差だけ(14>12+1)各対の分子量の和の差(=1)が存在するためである。したがって、AとTは、水素結合が可能なOやNの不在で2個の水素結合を形成し、3個の水素結合を形成するG≡結合よりは弱く結合するという特性を有する。
したがって、各塩基のコードは、前記DNAの分子構造及び結合質量比の原理を反映して指定した。付与された各塩基のコードは、分子量が小さい塩基から大きい順にC、T、A、Gを00、01、10、11値の2進数に指定した(図1)。
指定されたコードの値は、それぞれGとC、AとTの塩基が対を形成するとき、それぞれのコードの和の比率が1:1になって実際の質量比と同一の比率を有するように設計した(図2)。
コードの和は、各塩基のコードを10進数に変換した後の各コード値の和を示したものであって、GとC、AとTのそれぞれのコードの和はいずれも「3」である。
実施例2:DNA断片とアプタマーの分子量比率反映の最適化
DNAの各塩基の分子量によって質量が小さいものから大きいものの順にコードを指定したので、DNA断片のコードの総和は、各配列の分子量の比率を反映して計算した(図3)。コードの分子量反映の比率を確認し、6個の例示配列でコードの和と分子量を比較した。
前記例示配列は、コードの分子量反映の比率を確認するために例示された配列であって、その範囲が配列番号1~6の配列に制限されると解釈してはならない。
前記配列番号1~6の配列は、下記の通りである。
5’ AGAGCTCGCGCCGGAGTTCTCAATGCAAGAGC 3’(配列番号1)
5’ GCGGCGGTGGCCTGAAGTCTGGCGGTGGCCCC 3’(配列番号2)
5’ GCGGCGGTGGCCAGAAGTCTCGCGGTGGCGGC 3’(配列番号3)
5’ GTGGAGGCGGTGGCCAGTCTCGCGGTGGCGGC 3’(配列番号4)
5’ GTGGCGGTGGCCAGCATAGTGGCGGTGGCCAG 3’(配列番号5)
5’ GTGGAGGCGGTGGCCGTGGAGGCGGAGGCCGC 3’(配列番号6)
前記6個の例示配列は32merの塩基配列であって、塩基の長さは同一であるが、塩基の種類及び順序は多様に構成されており、各塩基のコード変換値を図3に表記した。コードの和は、各塩基のコードを10進数に変換した後で総和を求めたものであって、各配列の塩基構成によって、コードの和も各配列の分子量を反映して計算した。
各配列の分子量(Mw)と比較したとき、分子量が小さいほどコードの和の値が小さい値になることが確認され、分子量が大きい配列である場合、コードの和は大きい値に計算された(図3)。
このように分子量の比率を反映し、コードを指定して変換した結果、コードの和を用いることによって各配列の分子量の比率を比較するために最適化した。
実施例3:DNA断片とアプタマーのパターン確認の最適化
DNA断片とアプタマーの配列を2進数の塩基コードに変換し、各配列を比較することによって、配列内に含まれている特定パターン及び2次構造(secondary structure)などを把握するために最適化した。これを把握するために、9個の塩基配列で構成されたDNA配列を例示配列として活用した(図4)。
前記例示配列は、コードのパターンを例示するために記載したものであって、その範囲が配列番号7の例示配列に制限されると解釈してはならない。
前記配列番号7の例示配列は、下記の通りである。
5’ GCGGTGGCG 3’(配列番号7)
前記例示配列を塩基コードに変換して並べた数は、下記の通りである。
11 00 11 11 01 11 11 00 11(例示配列コード1)
各塩基は、水素結合を形成し得る相補塩基とのコードの和が「3」になるようにコードが設計されており、このような配列の配列は、DNAアプタマー配列でステム構造を形成することができる(図4;Stem)。
DNAのステム-ループ(Stem-loop)構造のパターンのほとんどは、両端にステム構造を形成し得る塩基が2個以上連結されており、互いに向かい合っている配列のコードの和が3より大きいか小さいため相補結合を形成し得ない配列が3個以上中心に連結されているときにループ構造が形成され得るという特性を有する。
前記例示配列は、二つのステム-ループ構造を形成することができ、これは、塩基コード配列で簡単に確認することができる。1番目の11塩基コードと相補結合を形成し得る配列は、直ぐ横の00コードを除いた8番目の00コードの塩基(図4;(1)赤色矢印)で、2番目の00コードとの相補結合が可能な塩基としては、6番目の11(図4;(3)緑色矢印)、7番目の11、9番目の11コードがある。これと同様に、3番目の11コードの塩基は、8番目の00(図4;(2)青色矢印)コードとの相補結合が可能である。このとき、ステム-ループ構造のステム部位は、2個以上の塩基が連結されたときに構造を形成するので、図3の赤色矢印に連結された塩基の相補結合や青色矢印に連結された塩基の相補結合がステム構造(図4;点線の丸い円)を形成することができ、緑色矢印の相補結合は、単一の相補結合であるのでステム構造を形成することができない。ステム構造を形成し得る二つのケースのいずれにおいても、ループ構造を形成できる4個の塩基が中央に存在するので、ステム-ループ構造の形成が可能であると予測される。
このように各塩基をコードに標準化することによって、塩基コードの和によって各塩基との相補結合の可否を予測することができ、各配列の相補結合の数及びそれに連結された塩基の数によってDNA配列の2次構造及びパターンなどを予測するのが容易になることを確認した。
実施例4:コード標準化によるSNP把握の最適化
DNA配列をコードに変換し、各配列のコードの和を比較することによって特定DNA断片の塩基配列への変異の有無を把握するために最適化した。SNP配列は、塩基1個が変異したDNA断片の配列であるので、コードをSNP配列に適用し、正常配列と比較することによって変異の存在有無及び位置を把握するのが容易になることを確認した。多様なSNP配列のうち一つであり、84%の乳癌患者から確認されるCD44遺伝子のSNP配列に適用し、コード標準化の効率性を確認した。[Zhou,J.,Nagarkatti,P.S.,Zhong,Y.,Creek,K.,Zhang,J.,& Nagarkatti,M.(2010)。Unique SNP in CD44 intron 1 and its role in breast cancer development.Anticancer research,30(4),1263-1272。]
前記乳癌患者のSNP配列は、遺伝子の1番目のイントロン(intron 1)の位置に存在する配列のうちエクソン(Exon 2)から14番目にあるA塩基がGに変異しているものであって、この配列をコードに変換し、2進数の配列で配置した後でコードの和を求め、正常配列と変異配列のコードの和を比較した(図5)。
正常配列と変異配列のコードをそれぞれ10進数に変形した後で和を求めたとき、正常配列は39、変異配列は40であって、変異配列が正常配列より1だけ大きい値であることが確認された。このようにコードの和のみでDNA切片内への変異の存在有無を確認することができ、このとき、変異した塩基の種類によってコードの和に1~3程度の差が生じ得る。また、変異したコードのそれぞれの数値を比較することによって、配列の位置まで確認することができる。
このように正常対照群で確認されるDNA断片の各配列と疾病実験群で確認される特定変異配列をコードに変換し、コードの和を比較することによって配列間の差を迅速に確認し、SNPの存在有無を簡便に探索することができ、確認されたSNP配列にコードの和を適用し、これを疾病の診断に活用することができる。

Claims (2)

  1. コンピュータによって行われる下記のステップを含むDNAコード標準化する方法であって、
    前記ステップは、
    (a)特定DNA断片の塩基配列のC、T、A、Gである4つの塩基をそれぞれ00、01、10、11と命名するステップと
    (b)各塩基がGとCの塩基対を形成したときは、5’から3’方向にGとCの場合を1100と命名し、5’から3’方向にCとGの場合を0011と命名し、及び各塩基がAとTの塩基対を形成したときは、5’から3’方向AとTの場合1001と命名し、5’から3’方向にTとAの場合0110とそれぞれ命名するステップと、
    (c)前記(a)ステップの00、01、10、及び11の2進数の数配列を10進数に変形した後でその和を求め、正常配列の和と比較したときに1~3の差がある場合に変異が存在すると判断するステップを含む、DNAをコードに標準化する方法。
  2. コンピュータ可読媒体に格納され、コンピュータによって請求項1に記載の方法を行えるようにするためコンピュータ可読媒体に格納されたコンピュータプログラム。
JP2021553075A 2019-03-05 2019-03-27 Dnaのコード化方法及びそのコード化方法の生命工学的応用 Active JP7275301B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0025377 2019-03-05
KR1020190025377A KR102252977B1 (ko) 2019-03-05 2019-03-05 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
PCT/KR2019/003570 WO2020179962A1 (ko) 2019-03-05 2019-03-27 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용

Publications (2)

Publication Number Publication Date
JP2022525042A JP2022525042A (ja) 2022-05-11
JP7275301B2 true JP7275301B2 (ja) 2023-05-17

Family

ID=72338682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021553075A Active JP7275301B2 (ja) 2019-03-05 2019-03-27 Dnaのコード化方法及びそのコード化方法の生命工学的応用

Country Status (5)

Country Link
US (1) US20220139500A1 (ja)
EP (1) EP3937177A4 (ja)
JP (1) JP7275301B2 (ja)
KR (1) KR102252977B1 (ja)
WO (1) WO2020179962A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230070674A (ko) * 2021-11-15 2023-05-23 주식회사 넥스모스 신규한 압타머 및 그 압타머를 유효성분으로 포함하는 인지 기능 개선 및 항노화용 조성물
CN116092575A (zh) * 2023-02-03 2023-05-09 中国科学院地理科学与资源研究所 基于gmns法则的g-dna结构判别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240975A (ja) 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
US20050187916A1 (en) 2003-08-11 2005-08-25 Eugene Levin System and method for pattern recognition in sequential data
US20160259886A1 (en) 2013-07-05 2016-09-08 Academy Of Mathematics And System Science, Chinese Academy Of Sciences Method and system of mapping sequencing reads

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100537523B1 (ko) * 2003-02-03 2005-12-19 삼성전자주식회사 Dna 서열 부호화 장치 및 방법
KR20130068185A (ko) * 2011-12-14 2013-06-26 한국전자통신연구원 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법
KR20160001455A (ko) 2014-06-27 2016-01-06 한국생명공학연구원 데이터 저장용 dna 메모리 기술

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240975A (ja) 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
US20050187916A1 (en) 2003-08-11 2005-08-25 Eugene Levin System and method for pattern recognition in sequential data
US20160259886A1 (en) 2013-07-05 2016-09-08 Academy Of Mathematics And System Science, Chinese Academy Of Sciences Method and system of mapping sequencing reads

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANCHEZ, R.,A genetic code Boolean structure. I. The meaning of Boolean deductions,Bulletin of Mathematical Biology,2005年,p.1-14,DOI : 10.1016/j.bulm.2004.05.005
SUNTHORNWAT, R.,Detecting and classifying mutations in genetic code with an application to β-thalassaemia,ScienceAsia [online],2011年,p.51-61,[retrieved on 2022.10.27] URL : http://www.scienceasia.org/2011.37.n1/scias37_51.pdf,DOI : 10.2306/scienceasia1513-1874.2011.37.051

Also Published As

Publication number Publication date
WO2020179962A1 (ko) 2020-09-10
EP3937177A1 (en) 2022-01-12
JP2022525042A (ja) 2022-05-11
EP3937177A4 (en) 2022-12-07
US20220139500A1 (en) 2022-05-05
KR102252977B1 (ko) 2021-05-17
KR20200106761A (ko) 2020-09-15
CN113614834A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
US20220254443A1 (en) System and methods for detecting genetic variation
US20230049314A1 (en) Methods for Identifying Multiple Epitopes in Selected Sub-Populations of Cells
Jolma et al. Multiplexed massively parallel SELEX for characterization of human transcription factor binding specificities
Mathews et al. Dynalign: an algorithm for finding the secondary structure common to two RNA sequences
EP2875173B1 (en) System and methods for detecting genetic variation
Zhang et al. The impact of next-generation sequencing on genomics
Li et al. Finding the target sites of RNA‐binding proteins
US9747414B2 (en) Methods for accurate sequence data and modified base position determination
JP7275301B2 (ja) Dnaのコード化方法及びそのコード化方法の生命工学的応用
Sato et al. Recent trends in RNA informatics: a review of machine learning and deep learning for RNA secondary structure prediction and RNA drug discovery
KR102280758B1 (ko) Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
JP2022538378A (ja) 生物学的シーケンスの物理的/化学的特性を最適化するコンピュータ実施方法
CN113614834B (zh) 脱氧核糖核酸编码化方法及其编码化方法的医药生命工程用途
KR20200136354A (ko) Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
Pradeep et al. Comparative transcriptome profiling of disruptive technology, single-molecule direct RNA sequencing
Eremeev et al. Evaluation of runtime bounds for SELEX procedure with high selection pressure
JP2020178561A (ja) 心筋梗塞及び/又は狭心症のリスクを判定する方法
Thiyagarajan et al. PathogenMIPer: a tool for the design of molecular inversion probes to detect multiple pathogens
Gilmore High throughput investigative dermatology in 2012 and beyond: A new era beckons
Sudigyo et al. Bioinformatics pathway analysis pipeline for NGS transcriptome profile data on nasopharyngeal carcinoma
US20230213502A1 (en) Next-generation sequencing for protein measurement
CN107022622A (zh) 一种基于长链非编码rna的分子标记物鉴定方法
Nafees et al. Analyzing Genomic Data Using Tensor-based Orthogonal Polynomials
Nousiainen Computational Analysis and Modeling of High-Throughput Data to Understand T-helper Cell Differentiation
Wang ASPECT, an LDA-Based Predictive Algorithm for In Vitro Selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230502

R150 Certificate of patent or registration of utility model

Ref document number: 7275301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150