JP7275301B2

JP7275301B2 - Ｄｎａのコード化方法及びそのコード化方法の生命工学的応用

Info

Publication number: JP7275301B2
Application number: JP2021553075A
Authority: JP
Inventors: ヒョンジュキム; インシクソン
Original assignee: Hessegg Inc
Current assignee: Hessegg Inc
Priority date: 2019-03-05
Filing date: 2019-03-27
Publication date: 2023-05-17
Anticipated expiration: 2039-03-27
Also published as: WO2020179962A1; EP3937177A1; JP2022525042A; EP3937177A4; US20220139500A1; KR102252977B1; KR20200106761A; CN113614834A

Description

本発明は、ＤＮＡのコード標準化方法及びその方法の最適化された生命工学的応用に関する。

生命体に遺伝物質として存在するＤＮＡ（ＤｅｏｘｙｒｉｂｏＮｕｃｌｅｉｃＡｃｉｄ）は、タンパク質として発現する遺伝子部位と非遺伝子部位で構成されている。ＤＮＡの化学構造は、デオキシリボース（Ｄｅｏｘｙｒｉｂｏｓｅ）である五炭糖の５’炭素にリン酸基が、１’炭素に塩基（ｂａｓｅ）が連結されることによってヌクレオチド（Ｎｕｃｌｅｏｔｉｄｅ）という単位体を形成するが、このとき、ヌクレオチドに連結された塩基の種類によってＤＮＡの配列が決定される。

塩基の種類は２つの系列に区分されており、環状構造が２個であるプリン系列の塩基と、環状構造が１個であるピリミジン系列の塩基とがある。また、プリン系列としてはグアニン（Ｇ）とアデニン（Ａ）、ピリミジン系列としてはシトシン（Ｃ）とチミン（Ｔ）などがあり、五炭糖の２’炭素に－ＯＨ基が連結されており、塩基の構成がチミンの代わりにウラシル（Ｕ）に置換されているＲＮＡの場合と相違している。プリン系列のＧは、ピリミジンであるＣと水素結合で相補的な対を形成し、ＡはＴと対を形成する。このとき、ＧとＣの相補的な対は、３個の水素結合で連結されているので、２個の水素結合で連結されるＡとＴよりも強く結合されている。

ＤＮＡのヌクレオチド単位体は、５’炭素に連結されたリン酸基が他の単位体の３’炭素－ＯＨ基とリン酸ジエステル結合（Ｐｈｏｓｐｈｏｄｉｅｓｔｅｒｂｏｎｄ）で連結されることによって一つの鎖を形成する。リン酸ジエステル結合で連結された２個の相補的な単一鎖は、相補塩基の水素結合で二重らせん構造を形成している。このような二重らせん構造は、１９５３年にワトソンとクリックによって導入された。［Ｗａｔｓｏｎ，Ｊ．Ｄ．，＆Ｃｒｉｃｋ，Ｆ．Ｈ．（１９５３）．Ｍｏｌｅｃｕｌａｒｓｔｒｕｃｔｕｒｅｏｆｎｕｃｌｅｉｃａｃｉｄｓ．Ｎａｔｕｒｅ，１７１（４３５６），７３７－７３８．］

ＤＮＡのうち遺伝子部位の塩基配列は、３個の塩基コードがタンパク質を構成する一つのアミノ酸（Ａｍｉｎｏａｃｉｄ）に翻訳されて連結されながら、タンパク質が合成されるのに重要な役割をする。ＤＮＡは、ｍＲＮＡに転写された後、塩基配列の順序によって２０種のアミノ酸に翻訳されるが、翻訳されるアミノ酸がｔＲＮＡによって連結されながらタンパク質が形成される。また、このタンパク質は、細胞内の構成物質として存在し、生体内の多くの反応を媒介する酵素として作用することもある。

ヒトのＤＮＡの場合、３０億個の塩基対（ｂｐ）を有し、一人当たりＧＢ単位のデータ容量を有する。この容量を人口数に換算すると、ＰＢ単位でも不足する実情にある。そのため、ヒトの全てのＤＮＡシーケンスを分析するよりは、疾病特異的なＳＮＰ（ＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅｐｏｌｙｍｏｒｐｈｉｓｍ、塩基多型性）部位などを分析することによって短いＤＮＡ切片のシーケンスで疾病の予測分析がなされているが、これも全ての遺伝子のＳＮＰ部位を分析できない実情にあり、これを分析するための多様なプログラムの開発が必要である。

大韓民国公開特許１０－２０１６－０００１４５５

本発明は、前記問題を解決し、前記必要性によってなされたものであって、本発明の目的は、ＤＮＡ塩基を各塩基の分子量が考慮された２進数コード（１塩基当たり２ビット）に標準化し、塩基配列内に存在する特定パターンを把握するために最適化された方法を提供することにある。

本発明の他の目的は、塩基配列のコードの和を用いた相補結合の有無及びパターンの把握が容易な方法を提供し、ＤＮＡ断片やＤＮＡアプタマーのパターン及び機能を予測するのが容易な方法を提供することにある。

本発明の更に他の目的は、塩基配列のコードのみで配列間の分子量の比率及び各塩基の比率などを把握するのが容易な方法を提供することにある。

本発明の更に他の目的は、塩基配列内の変異の把握が容易な方法を提供し、ＳＮＰなどの疾病特異的な配列の変異を用いることによって疾病の予測が容易な方法を提供することにある。

前記目的を達成するために、本発明は、次のステップを含むＤＮＡのコード標準化方法を提供する：（ａ）Ｃ、Ｔ、Ａ、Ｇである４つの塩基をそれぞれ００、０１、１０、１１と命名し、（ｂ）各塩基がＧとＣ、及びＡとＴの塩基対を形成したときは、５’から３’方向に、ＧとＣの場合は１１００、ＣとＧの場合は００１１、ＡとＴの場合は１００１、ＴとＡの場合は０１１０とそれぞれ命名する。

また、本発明は、次のステップを含むＤＮＡのコード標準化を用いた特定ＤＮＡ断片やアプタマーの特定パターンや２次構造を確認するために最適化された情報提供方法を提供する：（ａ）特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、及びＧをそれぞれ００、０１、１０、１１と命名するステップ；及び（ｂ）前記数値で命名されたコードの配列と各コードの和の配列を比較するステップ。

本発明の一具現例において、前記コードの配列と各コードの和の配列を比較するステップは、前記（ａ）ステップの００、０１、１０、及び１１の２進数の数配列を１０進数に変形した後、各配列の和が３になるコードの配列が２対以上両端に配列されている場合にステム構造を形成できると判断し、互いに向かい合っている配列のコードの和が３より大きいか小さいため相補結合を形成し得ない配列が３個以上中心に連結されているときにループ構造を形成すると判断することを特徴とするＤＮＡのコード標準化を用いた特定ＤＮＡ断片やアプタマーの特定パターンや２次構造を確認するために最適化された情報提供方法が好ましいが、これに限定されない。

また、本発明は、次のステップを含むＤＮＡのコード標準化を用いた特定ＤＮＡ断片の塩基配列への変異の存在有無に関する情報提供方法を提供する：（ａ）特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、及びＧをそれぞれ００、０１、１０、１１と命名するステップ；及び（ｂ）前記数値で命名されたコードの和を比較するステップ。

本発明の一具現例において、前記コードの和を比較するステップは、前記（ａ）ステップの００、０１、１０、及び１１の２進数の数配列を１０進数に変形した後でその和を求め、正常配列と比較したときに１～３の差がある場合に変異が存在すると判断することを特徴とすることが好ましいが、これに限定されない。

本発明の他の具現例において、前記方法は、特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、及びＧをそれぞれ００、０１、１０、１１と命名して得られたコードのそれぞれの数値を比較することによって変異配列の位置を確認できることが好ましいが、これに限定されない。

また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定ＤＮＡ断片やアプタマーの特定パターンや２次構造を確認するために最適化された情報提供用コンピュータプログラムであって、前記各ステップは：（ａ）特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、及びＧをそれぞれ００、０１、１０、１１と命名するステップ；及び（ｂ）前記（ａ）ステップの００、０１、１０、及び１１の２進数の数配列を１０進数に変形した後、各配列の和が３になるコードの配列が２対以上両端に配列されている場合にステム構造を形成できると判断し、互いに向かい合っている配列のコードの和が３より大きいか小さいため相補結合を形成し得ない配列が３個以上中心に連結されているときにループ構造を形成すると判断するステップ；を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。

また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定ＤＮＡ断片の塩基配列への変異の存在有無に関する情報提供用コンピュータプログラムであって、前記各ステップは：（ａ）特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、及びＧをそれぞれ００、０１、１０、１１と命名するステップ；及び（ｂ）前記（ａ）ステップの２進数の数配列を１０進数に変形した後でその和を求め、正常配列と比較したときに１～３の差がある場合に変異が存在すると判断するステップ；を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。

また、本発明は、コンピュータ可読媒体に格納され、コンピュータによって以下の各ステップを行えるようにするための特定ＤＮＡ断片の塩基配列の変異配列に対する位置に関する情報提供用コンピュータプログラムであって、前記各ステップは：（ａ）特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、及びＧをそれぞれ００、０１、１０、１１と命名するステップ；及び（ｂ）前記（ａ）ステップの特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、及びＧをそれぞれ００、０１、１０、１１と命名して得られたコードのそれぞれの数値を比較することによって変異配列の位置を確認するステップ；を含む、コンピュータ可読媒体に格納されたコンピュータプログラムを提供する。

以下、本発明を説明する。
本発明は、ＤＮＡのそれぞれの分子量が小さい順に、Ｃ、Ｔ、Ａ、Ｇの４つの塩基にそれぞれ００、０１、１０、１１のコードを命名し、各塩基がＧとＣ、及びＡとＴの塩基対を形成したとき、それぞれの分子量の和がコードの和の比率と一致するようにコードを命名する方法を提供する。

また、本発明は、ＳＥＬＥＸを用いて確認された各化合物に特異的なアプタマーをコードに標準化することによって各化合物に存在する反応基と結合する特定パターンを把握し、これをビッグデータとして活用して予測できるシステムを構築する。

また、本発明は、ＤＮＡの配列をコードに標準化した後、各配列の値を１０進数に変換し、その和を導出することによって各配列への変異の有無を確認し、特定疾病へのＳＮＰの存在有無を迅速に把握できる方法を提供する。

本発明は、ＤＮＡをコードに標準化することによって塩基配列内に存在する特定パターンの把握が容易な方法を提供する。

本発明は、特定ターゲット及び化学構造と結合するＤＮＡシーケンスパターンを把握し、これをビッグデータとして活用することによってその化学構造単位に結合するアプタマーを予測し、ＳＥＬＥＸ（Ｓｙｓｔｅｍａｔｉｃｅｖｏｌｕｔｉｏｎｏｆｌｉｇａｎｄｓｂｙｅｘｐｏｎｅｎｔｉａｌｅｎｒｉｃｈｍｅｎｔ）シミュレーションプログラム化に必要な情報を提供する。

また、本発明は、ＤＮＡを塩基の分子量が反映されたコードに標準化することによって、塩基配列のコードのみで配列間の分子量の比率及び各塩基の比率などを把握するために最適化された方法を提供する。

また、本発明は、ＤＮＡを塩基の分子量が反映されたコードに標準化することによって塩基配列内の変異の把握が容易な方法を提供し、コードの和と配列順序を比較するために最適化された方法を提供することによってＳＮＰなどの疾病特異的な変異の把握が可能であり、疾病の予測が容易な方法を提供する。

本発明を通じて分かるように、本発明のＤＮＡコード標準化方法は、塩基配列内の変異の把握が容易な方法を提供し、ＳＮＰなどの疾病特異的な配列の変異を用いることによって疾病の予測を容易にするなど、塩基配列内に存在する特定パターンの把握が容易な方法を提供する。

ＤＮＡの分子構造及び結合質量比の原理を反映して指定したコード値を、分子量が小さい塩基から大きい順にＣ、Ｔ、Ａ、Ｇを００、０１、１０、１１値の２進数に指定したことを示した図である。指定された２進数のコードにおいてそれぞれＧとＣ、ＡとＴの塩基が対を形成するとき、各コードの和の比率が１：１となって実際の質量比と同一の比率を有するように設計したことを示した図である。６つの配列のコード変換値を示したものであって、各配列のコードの和と各配列の分子量を比較して示した図である。ＤＮＡ配列のコードを用いて例示配列のパターンを確認したものであって、各配列のコードの和によって相補結合の可否を確認し、その結合の数及び連結された塩基の数によってステム－ループ構造形成及びパターンを確認した図である。乳癌患者から確認されるＳＮＰ配列にコードを適用し、本発明のコード標準化の効率性を確認したものであって、Ｅｘｔｏｎ２から１４番目にあるＡ塩基がＧに変異されているＳＮＰ配列をコードに変換し、２進数の数配列で配置した後でコードの和を求め、正常配列と変異配列のコードの和を比較した図である。

以下、本発明を非制限的な実施例を通じて詳細に説明する。但し、下記の実施例は、本発明を例示するために記載したものであって、本発明の範囲が下記の実施例によって制限されると解釈してはならない。

実施例１：各塩基の分子量によるコード標準化
ＤＮＡの配列を決定する４つの塩基をコンピュータ言語である２進法の二桁の数で示し、コードに標準化するために各塩基の分子量を分析した後、これを図１に表記した。それぞれの塩基Ｇ、Ａ、Ｔ、Ｃと１個のリン酸基とが連結されたデオキシリボヌクレオチド（ｄｅｏｘｙｒｉｂｏｎｕｃｌｅｏｔｉｄｅ）をそれぞれｄＧＭＰ、ｄＡＭＰ、ｄＴＭＰ、ｄＣＭＰと表記した。

各塩基は、Ｇ、Ａ、Ｔ、Ｃの順に大きい値を有し、Ｇと水素結合で対を形成するＣ、及びＡと相補結合するＴの分子量をそれぞれ合わせて比較した結果、６５４．４（＝３４７．２＋３０７．２）と６５３．４（＝３３１．２＋３２２．２）になり、約１：１の同等な分子質量を有した状態で互いに対を形成していることを確認した。ＧとＣの分子量の和よりもＡとＴの分子量の和が１だけ少ない理由は、Ｇ≡には窒素（Ｎ）が、Ａ＝Ｔには炭素（Ｃ）、水素（Ｈ）が他の結合対に比べて１個ずつさらにあり、Ｎの分子量とＣ＋Ｈの分子量の和との差だけ（１４＞１２＋１）各対の分子量の和の差（＝１）が存在するためである。したがって、ＡとＴは、水素結合が可能なＯやＮの不在で２個の水素結合を形成し、３個の水素結合を形成するＧ≡結合よりは弱く結合するという特性を有する。

したがって、各塩基のコードは、前記ＤＮＡの分子構造及び結合質量比の原理を反映して指定した。付与された各塩基のコードは、分子量が小さい塩基から大きい順にＣ、Ｔ、Ａ、Ｇを００、０１、１０、１１値の２進数に指定した（図１）。

指定されたコードの値は、それぞれＧとＣ、ＡとＴの塩基が対を形成するとき、それぞれのコードの和の比率が１：１になって実際の質量比と同一の比率を有するように設計した（図２）。

コードの和は、各塩基のコードを１０進数に変換した後の各コード値の和を示したものであって、ＧとＣ、ＡとＴのそれぞれのコードの和はいずれも「３」である。

実施例２：ＤＮＡ断片とアプタマーの分子量比率反映の最適化
ＤＮＡの各塩基の分子量によって質量が小さいものから大きいものの順にコードを指定したので、ＤＮＡ断片のコードの総和は、各配列の分子量の比率を反映して計算した（図３）。コードの分子量反映の比率を確認し、６個の例示配列でコードの和と分子量を比較した。

前記例示配列は、コードの分子量反映の比率を確認するために例示された配列であって、その範囲が配列番号１～６の配列に制限されると解釈してはならない。

前記配列番号１～６の配列は、下記の通りである。
５’ ＡＧＡＧＣＴＣＧＣＧＣＣＧＧＡＧＴＴＣＴＣＡＡＴＧＣＡＡＧＡＧＣ３’（配列番号１）
５’ ＧＣＧＧＣＧＧＴＧＧＣＣＴＧＡＡＧＴＣＴＧＧＣＧＧＴＧＧＣＣＣＣ３’（配列番号２）
５’ ＧＣＧＧＣＧＧＴＧＧＣＣＡＧＡＡＧＴＣＴＣＧＣＧＧＴＧＧＣＧＧＣ３’（配列番号３）
５’ ＧＴＧＧＡＧＧＣＧＧＴＧＧＣＣＡＧＴＣＴＣＧＣＧＧＴＧＧＣＧＧＣ３’（配列番号４）
５’ ＧＴＧＧＣＧＧＴＧＧＣＣＡＧＣＡＴＡＧＴＧＧＣＧＧＴＧＧＣＣＡＧ３’（配列番号５）
５’ ＧＴＧＧＡＧＧＣＧＧＴＧＧＣＣＧＴＧＧＡＧＧＣＧＧＡＧＧＣＣＧＣ３’（配列番号６）

前記６個の例示配列は３２ｍｅｒの塩基配列であって、塩基の長さは同一であるが、塩基の種類及び順序は多様に構成されており、各塩基のコード変換値を図３に表記した。コードの和は、各塩基のコードを１０進数に変換した後で総和を求めたものであって、各配列の塩基構成によって、コードの和も各配列の分子量を反映して計算した。

各配列の分子量（Ｍｗ）と比較したとき、分子量が小さいほどコードの和の値が小さい値になることが確認され、分子量が大きい配列である場合、コードの和は大きい値に計算された（図３）。

このように分子量の比率を反映し、コードを指定して変換した結果、コードの和を用いることによって各配列の分子量の比率を比較するために最適化した。

実施例３：ＤＮＡ断片とアプタマーのパターン確認の最適化
ＤＮＡ断片とアプタマーの配列を２進数の塩基コードに変換し、各配列を比較することによって、配列内に含まれている特定パターン及び２次構造（ｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅ）などを把握するために最適化した。これを把握するために、９個の塩基配列で構成されたＤＮＡ配列を例示配列として活用した（図４）。

前記例示配列は、コードのパターンを例示するために記載したものであって、その範囲が配列番号７の例示配列に制限されると解釈してはならない。

前記配列番号７の例示配列は、下記の通りである。
５’ ＧＣＧＧＴＧＧＣＧ３’（配列番号７）

前記例示配列を塩基コードに変換して並べた数は、下記の通りである。
１１００１１１１０１１１１１００１１（例示配列コード１）

各塩基は、水素結合を形成し得る相補塩基とのコードの和が「３」になるようにコードが設計されており、このような配列の配列は、ＤＮＡアプタマー配列でステム構造を形成することができる（図４；Ｓｔｅｍ）。

ＤＮＡのステム－ループ（Ｓｔｅｍ－ｌｏｏｐ）構造のパターンのほとんどは、両端にステム構造を形成し得る塩基が２個以上連結されており、互いに向かい合っている配列のコードの和が３より大きいか小さいため相補結合を形成し得ない配列が３個以上中心に連結されているときにループ構造が形成され得るという特性を有する。

前記例示配列は、二つのステム－ループ構造を形成することができ、これは、塩基コード配列で簡単に確認することができる。１番目の１１塩基コードと相補結合を形成し得る配列は、直ぐ横の００コードを除いた８番目の００コードの塩基（図４；（１）赤色矢印）で、２番目の００コードとの相補結合が可能な塩基としては、６番目の１１（図４；（３）緑色矢印）、７番目の１１、９番目の１１コードがある。これと同様に、３番目の１１コードの塩基は、８番目の００（図４；（２）青色矢印）コードとの相補結合が可能である。このとき、ステム－ループ構造のステム部位は、２個以上の塩基が連結されたときに構造を形成するので、図３の赤色矢印に連結された塩基の相補結合や青色矢印に連結された塩基の相補結合がステム構造（図４；点線の丸い円）を形成することができ、緑色矢印の相補結合は、単一の相補結合であるのでステム構造を形成することができない。ステム構造を形成し得る二つのケースのいずれにおいても、ループ構造を形成できる４個の塩基が中央に存在するので、ステム－ループ構造の形成が可能であると予測される。

このように各塩基をコードに標準化することによって、塩基コードの和によって各塩基との相補結合の可否を予測することができ、各配列の相補結合の数及びそれに連結された塩基の数によってＤＮＡ配列の２次構造及びパターンなどを予測するのが容易になることを確認した。

実施例４：コード標準化によるＳＮＰ把握の最適化
ＤＮＡ配列をコードに変換し、各配列のコードの和を比較することによって特定ＤＮＡ断片の塩基配列への変異の有無を把握するために最適化した。ＳＮＰ配列は、塩基１個が変異したＤＮＡ断片の配列であるので、コードをＳＮＰ配列に適用し、正常配列と比較することによって変異の存在有無及び位置を把握するのが容易になることを確認した。多様なＳＮＰ配列のうち一つであり、８４％の乳癌患者から確認されるＣＤ４４遺伝子のＳＮＰ配列に適用し、コード標準化の効率性を確認した。［Ｚｈｏｕ，Ｊ．，Ｎａｇａｒｋａｔｔｉ，Ｐ．Ｓ．，Ｚｈｏｎｇ，Ｙ．，Ｃｒｅｅｋ，Ｋ．，Ｚｈａｎｇ，Ｊ．，＆Ｎａｇａｒｋａｔｔｉ，Ｍ．（２０１０）。ＵｎｉｑｕｅＳＮＰｉｎＣＤ４４ｉｎｔｒｏｎ１ａｎｄｉｔｓｒｏｌｅｉｎｂｒｅａｓｔｃａｎｃｅｒｄｅｖｅｌｏｐｍｅｎｔ．Ａｎｔｉｃａｎｃｅｒｒｅｓｅａｒｃｈ，３０（４），１２６３－１２７２。]

前記乳癌患者のＳＮＰ配列は、遺伝子の１番目のイントロン（ｉｎｔｒｏｎ１）の位置に存在する配列のうちエクソン（Ｅｘｏｎ２）から１４番目にあるＡ塩基がＧに変異しているものであって、この配列をコードに変換し、２進数の配列で配置した後でコードの和を求め、正常配列と変異配列のコードの和を比較した（図５）。

正常配列と変異配列のコードをそれぞれ１０進数に変形した後で和を求めたとき、正常配列は３９、変異配列は４０であって、変異配列が正常配列より１だけ大きい値であることが確認された。このようにコードの和のみでＤＮＡ切片内への変異の存在有無を確認することができ、このとき、変異した塩基の種類によってコードの和に１～３程度の差が生じ得る。また、変異したコードのそれぞれの数値を比較することによって、配列の位置まで確認することができる。

このように正常対照群で確認されるＤＮＡ断片の各配列と疾病実験群で確認される特定変異配列をコードに変換し、コードの和を比較することによって配列間の差を迅速に確認し、ＳＮＰの存在有無を簡便に探索することができ、確認されたＳＮＰ配列にコードの和を適用し、これを疾病の診断に活用することができる。

Claims

コンピュータによって行われる下記のステップを含むＤＮＡをコードに標準化する方法であって、
前記ステップは、
（ａ）特定ＤＮＡ断片の塩基配列のＣ、Ｔ、Ａ、Ｇである４つの塩基をそれぞれ００、０１、１０、１１と命名するステップと、
（ｂ）各塩基がＧとＣの塩基対を形成したときは、５’から３’方向にＧとＣの場合を１１００と命名し、５’から３’方向にＣとＧの場合を００１１と命名し、及び各塩基がＡとＴの塩基対を形成したときは、５’から３’方向にＡとＴの場合を１００１と命名し、５’から３’方向にＴとＡの場合を０１１０とそれぞれ命名するステップと、
（ｃ）前記（ａ）ステップの００、０１、１０、及び１１の２進数の数配列を１０進数に変形した後でその和を求め、正常配列の和と比較したときに１～３の差がある場合に変異が存在すると判断するステップを含む、ＤＮＡをコードに標準化する方法。
コンピュータ可読媒体に格納され、コンピュータによって請求項１に記載の方法を行えるようにするためのコンピュータ可読媒体に格納されたコンピュータプログラム。