JP2017510865A - 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体 - Google Patents

変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体 Download PDF

Info

Publication number
JP2017510865A
JP2017510865A JP2016538660A JP2016538660A JP2017510865A JP 2017510865 A JP2017510865 A JP 2017510865A JP 2016538660 A JP2016538660 A JP 2016538660A JP 2016538660 A JP2016538660 A JP 2016538660A JP 2017510865 A JP2017510865 A JP 2017510865A
Authority
JP
Japan
Prior art keywords
gene sequence
codon
mutant gene
mutant
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016538660A
Other languages
English (en)
Other versions
JP6223579B2 (ja
Inventor
スン アン,イン
スン アン,イン
Original Assignee
コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション
コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to KR10-2013-0165876 priority Critical
Priority to KR1020130165876A priority patent/KR101400947B1/ko
Application filed by コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション, コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション filed Critical コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション
Priority to PCT/KR2014/007784 priority patent/WO2015099262A1/ko
Publication of JP2017510865A publication Critical patent/JP2017510865A/ja
Application granted granted Critical
Publication of JP6223579B2 publication Critical patent/JP6223579B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/005Probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

それぞれ複数の遺伝体シーケンスを含む第1及び第2遺伝体シーケンスグループの入力を受け、分散処理技法を用いて前記第1及び第2遺伝体シーケンスグループ間の遺伝体の変異有無を計算し、前記計算結果を用いて61 by 61マトリックスとして表現される多重変異パラメータを生成し、前記多重変異パラメータを用いてシード遺伝体シーケンスの変異遺伝体シーケンスを生成し、前記生成された変異遺伝体シーケンスをディスプレイする変異遺伝体シーケンス予測プログラムを格納する格納媒体。

Description

本発明は、変異遺伝体シーケンス予測方法及び装置に関し、より詳細には、別個の遺伝体シーケンスグループをそれぞれコドン単位に分け、各遺伝体シーケンスグループ間の遺伝体変異を計算することによって多重変異パラメータを生成し、生成された多重変異パラメータを用いて変異遺伝体シーケンスを予測する方法、装置及びこれを行うプログラムに関する。
コドンとは、遺伝暗号の最小単位であって、タンパク質のアミノ酸配列を規定するmRNAの3塩基組み合わせを言う。コドンとしては合計64種類があり、これらのうち、3個のコドンはタンパク質合成を阻止させるために使用することができ、61個のコドンはアミノ酸の種類を決定するために使用することができる。この場合、61個のコドンによって決定されるアミノ酸の種類は、合計20個になり得る。しかし、一つのコドンが一つのアミノ酸を決定するのではなく、複数のコドンが重複的に同一のアミノ酸を指定することができる。このように同一のアミノ酸を指示するコドンを同義コドン(synonymous codon)と言う。
各生物種ごとに遺伝子塩基序列を集めてコドンの出現頻度を解釈すると、同義コドンは均一に使用されなく、複数の同義コドンのうち特定コドンが偏在して表れて使用されることが分かる。
このようなコドンの出現傾向又は使用傾向をコドン選好度(Codon―Usage)と言い、同義コドンの出現頻度数又は使用頻度数の差をコドン選好度バイアス(Codon―Usage Bias)と言う。
別個の二つの生物種間で特定同義コドンの使用頻度が類似する場合、すなわち、コドン選好度バイアスが類似する場合、両生物種は進化上連関している可能性がある。このようなコドン選好度バイアスの分析を通じて、各生物種間の進化パターン、ウイルスの進化パターンなどをコドン単位で詳細に分析することができる。
数年間、コドン選好度バイアス(Codon―Usage Bias)を試験するための多様な分析的なパラメータ及び同義コドンの相関関係を反映する方法及び装置などが開発されてきた。しかし、時系列的な遺伝体シーケンス内の隣接した各同義コドンの相関関係のみを計算する場合、遺伝体の部位別に異なる変異程度が表れる生物学的な特性を完全に反映することが困難であり得る。したがって、本発明は、各同義コドン間の相関関係を用いたコドンレベルで生物種別の特異性による遺伝体を分析するだけでなく、遺伝体の部位別に異なる変異程度が表れる生物学的な特性を反映するための方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体を提示しようとする。
特に、本発明は、別個の2個の遺伝体シーケンスグループに属する別個の遺伝体シーケンスに対して同義コドンでない順次的に同一の位置に該当するコドン単位で変異有無を比較し、変異遺伝体シーケンスを予測する方法、装置及びこれを行うプログラムを格納する格納媒体を提示する。
本発明の一実施例に係る変異遺伝体シーケンス予測方法は、第1及び第2遺伝体シーケンスグループの入力を受ける段階と、分散処理技法を用いて前記第1及び第2遺伝体シーケンスグループ間の遺伝体の変異有無を計算する段階―(ここで、第1及び第2遺伝体シーケンスグループは、それぞれ複数の遺伝体シーケンスを含む。)―と、前記計算結果を用いて多重変異パラメータを生成する段階―(ここで、前記多重変異パラメータは、それぞれ61 by 61マトリックスとして表現される。)―と、前記多重変異パラメータを用いてシード遺伝体シーケンスの変異遺伝体シーケンスを生成する段階と、前記生成された変異遺伝体シーケンスをディスプレイする段階とを含むことができる。
このような発明の効果は、次の通りである。
第一に、各アミノ酸を指定する隣接した各同義コドンの相関関係を計算し、生物種別の特異性による遺伝体の分析を行うことができる。すなわち、コドンレベルでの各生物の種を識別するための高い水準の識別情報を提供することができる。
第二に、各コドンの相関関係をマトリックスとして示し、これを再び各行の和に対する相対値に変換し、対象遺伝体シーケンスの長さ差から来る結果値の差を相殺させ、異なる生物種別間の遺伝体の比較をより詳細に行うことができる。
第三に、遺伝体シーケンスの各グループ間の比較を通じて、遺伝体の部位別に異なる変異程度が表れる生物学的な特性に対する情報を提供することができる。
第四に、遺伝体の部位別に異なる変異程度が表れる生物学的な特性に対する情報をシミュレーションに反映し、生物学的な完成度が高い未来変異を予測することができる。
本発明に関する理解を促進するために詳細な説明の一部として含まれる添付の図面は、本発明に対する実施例を提供し、詳細な説明と共に本発明の技術的思想を説明する。
図1は、mRNAを構成する塩基とコドンとの組み合わせを示した図である。 図2は、本発明の一実施例に係る遺伝体シーケンス内のコドン相関関係パターン計算装置のブロック図である。 図3は、本発明の一実施例に係る類似コドン探索モジュール2100においてSCAを探索する過程を示した概念図である。 図4は、本発明の一実施例に係るSCAMの一部分を示した図である。 図5は、本発明の一実施例に係る変異遺伝体シーケンス予測装置を示した図である。 図6は、本発明の一実施例に係る分散処理技法基盤の遺伝体変異計算過程を示した図である。 図7は、本発明の一実施例に係る変異遺伝体シーケンス予測過程を示した図である。 図8は、本発明の一実施例に係る変異遺伝体シーケンス予測方法を示したフローチャートである。
本発明の他の目的、特徴及び利点は、添付の図面を参照した各実施例の詳細な説明を通じて明らかになるだろう。
以下、添付の図面を参照して本発明の実施例の構成及びその作用を説明し、図面に図示され、また、これによって説明される本発明の構成及び作用は、少なくとも一つの実施例として説明されるものであり、これによって前記の本発明の技術的思想とその核心構成及び作用が制限されることはない。
2009年に新たに発生した新種のインフルエンザAの起源は、ユーラシア型の鳥型豚インフルエンザ(H1N1)と北米の豚の間で流行した3重再集合体(triple―reassortant)ウイルスと知られている。
新たな新種のインフルエンザAウイルスの遺伝子切片(genetic segments)は、北米の鳥ウイルスのPB2とPA遺伝子、ヒトのH3N2ウイルスのPB1遺伝子、伝統的な豚ウイルスのNS遺伝子、そして、ユーラシア型の鳥型豚インフルエンザウイルスのNA、M遺伝子などの多様なサブタイプ(subtype)から発生したものと知られている。
特に、豚インフルエンザから由来したインフルエンザAウイルス(H1N1)は、人々にも影響を及ぼし、その結果、1979年にニュージャージーのフォートディックスで200人以上の軍人達が感染したこともあった。当時、感染は人と人との間の転移を通じて行われた。しかし、当時、米国の全国的なワクチンキャンペーンにより、豚起源のインフルエンザAウイルスは深刻な流行病の水準に悪化されなかった。
このような新種のインフルエンザウイルスはH1N1と称することができる。H1N1において、Hは、ヘマグルチニン(hemagglutinin)の略字であり、Nは、ノイラミニダーゼ(neuraminidase)の略字である。
ウイルスは、遺伝物質である核酸及びこれを取り囲むタンパク質の殻からなっており、遺伝物質を有してはいるが、これを発現できるシステムを有していないので、単独で存在するときは生命活動を全く行うことができない。しかし、適当な宿主(又はホスト)細胞に会うと、ウイルスは、宿主細胞内に侵入して生命活動を行うことができる。この場合、ウイルスは、その特性に合う特定種類の宿主細胞にのみ侵入することができ、宿主細胞に侵入するときは、ウイルスの表面に存在するタンパク質で構成されたHとNという二つの種類のフォークを用いることができる。
前記のようなウイルスの表面に存在するタンパク質は、アミノ酸(Amino Acid)の連結体であり、生物体の主要な構成成分である。タンパク質は、各タンパク質を構成するアミノ酸の数、種類、結合順序によって変化可能であり、その種類は非常に多様である。アミノ酸の種類としては、合計20種が知られている。下記の表1は、アミノ酸の名称及び略字を示した表である。
このようなアミノ酸の種類を指示する遺伝暗号の最小単位をコドン(Codon)という。
図1は、mRNAを構成する塩基とコドンとの組み合わせを示した図である。
コドンは、タンパク質のアミノ酸種類を指示するmRNAの塩基組み合わせである。図1に示したように、mRNAの塩基は、合計4つ、すなわち、ウラシル(Uracil)、アデニン(Adenine)、シトシン(Cytosine)、グアニン(Guanine)で構成されており、これらは、それぞれ英文字の大文字を使用してU、A、C、Gと表現することができる。
コドンは、これら4つの塩基のうち3つの塩基の組み合わせからなり得る。例えば、図1に示したように、コドン1はGCU、コドン2はACG、コドン3はGAC…で構成することができる。したがって、コドンは、組み合わせのための三つのサイトにそれぞれU、A、C、Gの4つの塩基が来ることができ、その組み合わせ数は4x4x4として合計64になり得る。
しかし、64個のコドンのうち3個のコドンは、タンパク質の合成を阻止させるために使用することができ、残りの61個のコドンのみを、20種のアミノ酸の種類を決定又は指示するために使用することができる。しかし、コドンの種類がアミノ酸の種類より多いので、一つのコドンが一つのアミノ酸を指示する1対1の対応関係は成立されない。したがって、複数のコドンが重複的に同一のアミノ酸を指示することができる。このように同一のアミノ酸を指示する複数のコドンを同義コドンと言う。
下記の表2は、コドンの種類及び各同義コドンが指示するアミノ酸を示した表である。
表2に示したように、コドンUUUとコドンUUCは、同一のアミノ酸であるPheを指示することができる。したがって、コドンUUCとコドンUUUは互いに同義コドンになり得る。
本発明では、前記のような各同義コドン、すなわち、コドンUUUをPhe1、コドンUUCをPhe2と表示するように、各同義コドンが指定するアミノ酸の略字と数字で表示することを一実施例とすることができる。
また、各アミノ酸は、デジェネラシー(degeneracy、又は縮退)傾向によって分類することができる。デジェネラシー傾向は、該当アミノ酸を指示するための同義コドンの個数で分類することができる。一般に、n―フォールドデジェネレートアミノ酸(n―fold amino acid)は、該当アミノ酸を指示するためのn個の同義コドンを有し得ることを意味する。本発明では、前記20個のアミノ酸をそれぞれ2―フォールドデジェネレートアミノ酸(2―fold degenerate amino acid)グループ、4―フォールドデジェネレートアミノ酸(4―fold degenerate amino acid)グループ及び6―フォールドデジェネレートアミノ酸(6―fold degenerate amino acid)グループに分類することを一実施例とする。
2―フォールドデジェネレートアミノ酸グループには、アミノ酸Ile、Gln、His、Phe、Met、Cys、Tyr、Trp、Asn、Asp、Glu、Lysを含ませることができ、4―フォールドデジェネレートアミノ酸グループには、アミノ酸Pro、Ala、Val、Gly、Thrを含ませることができる。また、6―フォールドデジェネレートアミノ酸グループには、アミノ酸Leu、Ser、Argを含ませることができる。
各生物種ごとに遺伝子塩基序列を集めて全てのコドンの出現頻度を解釈すると、同一のアミノ酸を指定するための同義コドンは均一に使用されなく、特定同義コドンが偏在して使用されることが分かる。
このようなコドンの出現傾向又は使用傾向をコドン選好度(Codon―Usage)と言い、同義コドンの出現頻度数又は使用頻度数の差をコドン選好度バイアス(Codon―Usage Bias)と言う。
したがって、別個の二つの生物種間で特定同義コドンの使用頻度が類似する場合、すなわち、コドン選好度バイアスが類似する場合、両生物種は進化上連関している可能性がある。また、ウイルスの表面に存在するタンパク質のコドン選好度を年度別に分析すると、ウイルス表面のタンパク質の進化パターンを分析することができ、今後のウイルスの進化方向を先に把握することができる。また、他のウイルス間の起源、連関性などをコドン単位で把握することができる。
このようなコドン選好度バイアスを用いて、各生物種間の進化パターン、ウイルスの進化パターン、起源などをコドン単位でより詳細に分析することができる。
数年間、コドン選好度バイアス(Codon―Usage Bias)を試験するためにENC(effective number of codons)やRSCU(relative synonymous codon usage)などの多様な分析的なパラメータが開発されてきた。
ENCは、コドン選好度パラメータとして最小20から最大61までの値を有することができる。一つのコドンのみが20種のアミノ酸を指定する場合であって、極端的なコドン選好度を示す場合、ENC値は20になり得る。また、全てのコドンが同一に20種のアミノ酸を指定するために使用される場合、ENC値は61になり得る。一般に、ENC値が40より大きい場合は、コドン選好度バイアスが低いと見なすことができる。一つのENC値は、対象になる遺伝体シーケンスごとに計算して求めることができ、アミノ酸グループの特性とは関係なく、コドン選好度バイアスの平均的なパターンを一つの代表値として示すことができるという特徴を有する。
RSCUはコドン選好度パラメータであって、RSCU値は、対象になる遺伝体シーケンスに表れるコドンの出現頻度を出現頻度数の期待値で割って計算することができる。RSCU値は、次の数式1を通じて求めることができる。
Xijは、i番目のアミノ酸を指示するコドンiの使用頻度を示し、niは、対象になるアミノ酸グループを指示できる全ての同義コドンの個数を示す。RSCU値は、ENC値に比べてアミノ酸グループの特性を反映できるという長所を有する。しかし、RSCU値は、各同義コドン間の相関可能性を排除し、単純に遺伝体シーケンスのコドン選好度バイアスのみを示すという短所を有する。
したがって、本発明では、遺伝体内に含まれた各同義コドン間の可能な相関関係を計算する装置及び方法を提示しようとする。特に、各同義コドン間の相関関係を固有の色処理されたパターンでマトリックスに表示し、相関関係を可視的に示すコドンレベルの識別装置及び方法を提示しようとする。
図2は、本発明の一実施例に係る遺伝体シーケンス内のコドン相関関係パターン計算装置のブロック図である。
本発明の入力データは、各遺伝子シーケンスになり、バイオテクノロジー情報のための国際センター(National Center for Biotechnology Information)のインフルエンザウイルス資料であることを一実施例とすることができる。また、本発明の入力データは、基本的なソースデータから明らかでない一つ又は複数のヌクレオチドシーケンスを除去し、カテゴリーによってパースされた必要なヌクレオチドシーケンスであることを一実施例とすることができる。また、本発明に係るカテゴリーは、引受番号、該当年度、遺伝子名、ホスト、サブタイプなどになり得る。本発明の必要なヌクレオチドシーケンスをパースする過程は、ジャバ(JAVA)プログラムを通じて行うことを一実施例とする。
本発明では、入力データが、ヒトHINIウイルスのサブタイプのHA及びNA遺伝子に対する859個及び841個のシーケンス、鳥型HINIウイルスのサブタイプのHA及びNA遺伝子に対する159個及び147個のシーケンス、ヒトH3N2ウイルスのサブタイプのHA及びNA遺伝子に対する1178個及び1253個のシーケンスであることを一実施例とすることがでできる。
図2に示したように、本発明の一実施例に係るコドン相関関係パターン計算装置は、データ入力モジュール2000、類似コドン探索モジュール2100、結果記録モジュール1200及びデータ変換モジュール2300を含むことができる。以下、各モジュールに対して説明する。
対象データ入力モジュール2000は、一つのヌクレオチドシーケンスをそれぞれコドン単位、すなわち、3個の塩基序列の単位体に分け、これを序列の開始点から順序通りに類似コドン探索モジュール2100に出力する。
類似コドン探索モジュール2100は、コドン選好度関連性を分析するために、対象データ入力モジュール2000から入力されたコドンから以後のコドンを順次スキャンし、現在入力されたコドンの同義コドンを探し、その種類を計算することができる。この場合、類似コドン探索モジュール2100は、現在入力されたコドンと最も隣接した位置にある同義コドンを探すことを一実施例とすることができる。本発明では、これを同義コドン関連性(synonymous codon associations(SCA))と称することができる。これについての具体的な内容は後で説明する。
結果記録モジュール2200は、類似コドン探索モジュール2100から出力された探索結果を用いて、対象コドンとペアをなす同義コドンの種類及び探索結果による値を有することができる。結果記録モジュール2200は類似コドン探索モジュール2100内に含ませることができ、これは、設計者の意図によって変更可能である。
本発明は、探索結果を61 by 61マトリックスに記録することを一実施例とする。このような61 by 61マトリックスを類似コドン関連性マトリックス(synonymous codon associations matrix、SCAM)と称することができる。
SCAMの各行は対象コドンを意味し、行は、再び対象コドンが指示するアミノ酸単位で表示することができる。また、SCAMの列は同義コドンを意味し、列は、再び同義コドンが指示するアミノ酸単位で表示することができる。アミノ酸を指示するコドンの個数は合計61個であるので、行と列にはそれぞれ61個のコドンが表示される。したがって、SCAMは、61 by 61マトリックスの構造を有するようになる。
その後、データ変換モジュール2300は、結果記録モジュール2200で生成されたSCAMのデータをそれぞれの行の和に対する相対値を示す連関性マトリックスに変換することができる。このように変換されたマトリックスを類似コドン遷移マトリックス(synonymous codon transition matrix、SCTM)と称することを一実施例とすることができる。これについての具体的な内容は後で説明する。
図3は、本発明の一実施例に係る類似コドン探索モジュール2100でSCAを探索する過程を示した概念図である。
上述したように、対象データ入力モジュール2000は、一つの遺伝体シーケンス又は一つのヌクレオチドシーケンスをコドン単位に分け、順次的な順序で各コドンを類似コドン探索モジュール2100に出力することができる。類似コドン探索モジュール2100は、順次入力されたコドンに対してSCAを探索することができる。本発明では、SCAを探索するために指定されたコドンを対象コドン又はターゲットコドンと称することができる。その後、類似コドン探索モジュール2100は、対象コドン以後に順次入力される各コドンのうち最も隣接した位置にある対象コドンの同義コドンを探索することができる。
図3の3―Aの(1)及び(2)は、対象コドンがLeu1である場合の探索過程を示した概念図で、図3の3―Bの(1)及び(2)は、対象コドンがCys2である場合の探索過程を示した概念図である。以下、各概念図に対して説明する。
図3の3―Aの(1)に示したように、類似コドン探索モジュール2100は、Leu1、Cys2、Ala4…のような順次的な順序で各コドンの入力を受けることができる。上述したように、Leu1コドンは、アミノ酸Leuを指定するコドンを意味し、Leu1の同義コドンはLeu2、Leu3…と称することができる。
類似コドン探索モジュール2100は、1番目に入力されたコドンであるLeu1を1番目の対象コドンと指定し、Leu1以後に入力された各コドンのうち同義コドンがあるか否かを探索することができる。Leu1の次に入力されたコドンはCys2であって、アミノ酸Cysを指示するコドンであるので、Leu1の同義コドンではない。その後、類似コドン探索モジュール2100は、その次に入力されたコドンを継続して探索することができる。
図3の3―Aの(2)に示したように、類似コドン探索モジュール2100は、Cys2以後のコドンを順次探索し、3番目の探索過程で同義コドンLeu5を発見することができる。この場合、同義コドンLeu5は、対象コドンと最も隣接した同義コドンであって、探索結果として発見された同義コドンLeu5の個数は1個であるので、結果記録モジュール2200のSCAMの該当セルの値は1になり得る。その後、類似コドン探索モジュール2100は、順次入力されるコドンを継続的に探索することができる。探索過程を通じて同義コドンLeu5が再び発見された場合は、SCAMの該当セルの値は1から2に変更することができる。また、探索過程で新たな同義コドンLeu4が発見された場合、SCAMの該当セルの値は1になり得る。
対象コドンLeu1に対する全ての同義コドンの探索が終了すると、類似コドンモジュール2100は、2番目に入力されたコドンを新たな対象コドンと指定し、新たな同義コドンを探すための探索を開始することができる。
図3の3―Bの(1)に示したように、類似コドン探索モジュール2100は、Leu1以後に入力されたコドンCys2を2番目の対象コドンと指定し、同義コドンを探索することができる。
図3の3―Bの(2)に示したように、類似コドン探索モジュール2100は、5番目の探索で同義コドンであるCys1を発見することができる。上述したように、同義コドンのCys2の個数は1個であるので、SCAMの該当セルの値は1になり得る。その後、類似コドン探索モジュール2100の継続的な探索過程を通じて同義コドンCys1が再び発見された場合、SCAMの該当セルの値は1から2に変更することができる。対象コドンと同一のCys2が発見された場合、SCAMの該当セルの値は1になり得る。
対象コドンCys2の全ての同義コドンの探索が終了すると、類似コドンモジュール2100は、3番目に入力されたAla4を3番目の対象コドンと指定し、上述した探索過程を行うことができる。
このように、類似コドン探索モジュール2100は、順次入力された各コドンのうち20種のアミノ酸を指定するそれぞれのコドンのいずれか一つのコドンを対象コドンと指定し、入力された各コドンを全部探索し、同義コドンを発見する過程を行うことができる。
図4は、本発明の一実施例に係るSCAMの一部分を示した図である。
上述したように、結果記録モジュール2200は、類似コドン探索モジュール2100から出力された探索結果を用いて、対象コドンとペアをなす同義コドンの種類及び探索結果による値を61 by 61マトリックスであるSCAMに記録することができる。
SCAMの各セルには、対象コドンと探索で発見された同義コドンの種類を表示することができ、各セルは、類似コドン探索モジュール2100の探索結果による値を有することができる。
図4は、本発明の一実施例に係るSCAMの一部分を拡大して示した図で、以下、これについて具体的に説明する。
図4に示したように、1番目の行に示したアミノ酸Alaを指示する同義コドンは、GCU、GCC、GCA、GCGの合計4つで構成することができる。上述したように、GCUはAla1と、GCCはAla2と、GCAはAla3と、GCGはAla4と称することができる。
SCAMの1行1列のセルは、対象コドンがAla1であり、探索結果として発見された同義コドンもこれと同一のAla1である場合を意味する。この場合、セルは、C(Ala1,Ala1)又はCAla(1,1)と表現することができ、該当セルの値は、探索結果によって1、2…のいずれか一つの値になり得る。同様に、SCAMの1行2列は、対象コドンがAla1であり、探索結果として発見された同義コドンがAla2である場合であって、(Ala1,Ala2)と表現することができ、セル値は、探索結果によって1、2…のいずれか一つの値になり得る。
結果記録モジュール2200は、残りの対象コドンに対しても同一の方法で記録を行うことができる。
上述したように、データ変換モジュール2300は、結果記録モジュール1200で生成されたSCAMのセル値をそれぞれの行の和に対する相対値を示すSCTMに変換することができる。SCTMは、SCAMと同一に61 by 61マトリックスで構成することができ、各行は対象コドンを示し、各行は、再び対象コドンが指示するアミノ酸別にグループ化(Grouping)して表示することができる。また、各列は、探索結果として表れた同義コドンを示し、各列は、再び同義コドンが指示するアミノ酸別にグループ化して表示することができる。すなわち、SCTMの各行及び列は、図3に示したSCAMの各行及び列と同一である。
本発明では、各対象コドン間の計算偏差を最小化するために、マルコフ理論(Markov theory)の変化確率コンセプトを用いてSCAMのセル値を計算し、これをSCTMに変換することを一実施例とする。
SCTMの各セルに表示される相対値PAA(i,j)は、次の数式2を通じて計算することができる。
PAA(i,j)は、SCAMのi番目の行の対象コドンとj番目の列の同義コドンに対する相対値を意味し、AAは、各同義コドンによって指示されるそれぞれのアミノ酸の名称を意味する。例えば、図2に示したSCAMの1行1列はアミノ酸アラニンのコドンであるので、相対値はPAla(1,1)と表現することができる。
CAA(i,j)は、上述したように、SCAMの各セル値を意味し、その値は1、2、3…になり得る。また、SAA(i,)は、SCAMの各行の和を意味する。すなわち、PAA(i,j)は、下記の数式3及び4による属性を有することができる。
そして、全てのiに対して、下記数式4を満足しなければならない。数式4のnは、各アミノ酸に対する同義コドンの総個数を意味する。
本発明では、各アミノ酸を指示する各同義コドン間の相関関係をより容易に説明するために、TTRというパラメータを使用することを一実施例とする。TTRは、TPAhomo/TPAhetero ratioの略字であり、TPAは、同義コドン相関関係の変化確率(transition probability of synonymous codon association)を意味する。TPAhomoは、対象コドンと探索された同義コドンとが同一のタイプである場合、すなわち、図3の対象コドンがLeu1であり、探索された同義コドンも Leu1である場合のTPAの和を意味する。その一方、TPAheteroは、対象コドンと探索された同義コドンとが同一のタイプでない場合であって、図3を参照して説明したように、対象コドンがLeu1で、探索された同義コドンがLeu5である場合のTPAの和を意味する。本発明に係るTPA値は、各アミノ酸グループに対するSCTMの変化確率、PAA(i,j)を使用して計算することを一実施例とする。
本発明では、対象になる遺伝子内の同義コドン相関関係を決定するためにインフルエンザAウイルスのヌクレオチドシーケンスのSCAを全部計算することを一実施例とする。本発明の一実施例に係るSCTMは、ヒト起源のウイルスH1N1サブタイプのHA遺伝子及びNA遺伝子のSCTMであり、総数は189個であり得る。
上述したように、図2を参照して説明した遺伝体シーケンス内のコドン相関関係パターン計算装置及びそれに対応する方法に従う場合、コドンレベルで生物種別の特異性による遺伝体の分析は可能であるが、遺伝体の部位別に異なる変異程度が表れる生物学的特性を見出すことが難しい。
したがって、本発明では、遺伝体の部位別に異なる変異程度が表れる生物学的特性を探すために、別個のグループに属する遺伝体シーケンス間の比較を通じて変異遺伝体シーケンスを予測する装置及び方法に対して説明する。
図5は、本発明の一実施例に係る変異遺伝体シーケンス予測装置を示した図である。
本発明の一実施例に係る変異遺伝体シーケンス予測装置は、計算モジュール9000、パラメータ生成モジュール9100、シミュレーションモジュール9200及びディスプレイモジュール9300を含むことができる。以下、各モジュールの動作を中心に説明する。
本発明の一実施例に係る変異遺伝体シーケンス予測装置の入力データは、年度別に測定された各塩基シーケンスになり得る。本発明の一実施例に係る入力データは、米国のNCBI(National Center for Biotechnology Information)、ヨーロッパのEBI(European Bioinformatics Institute)、及び日本のDDBJ(DNA Data Bank of Japan)などを始めとする全世界の研究者等によって明らかになった多様な塩基シーケンスになり得る。本発明の一実施例に係る遺伝体シーケンスグループは、年度別に測定された各遺伝体シーケンスの集合と同一である。したがって、本発明の一実施例に係る1999年度に測定された各遺伝体シーケンスの集合と2000年度に測定された各遺伝体シーケンスの集合は、それぞれ異なるグループとして取り扱うことができる。
本発明の一実施例に係る計算モジュール9000は、分散処理技法を用いて遺伝体の変異有無を計算することができる。具体的に、本発明の一実施例に係る計算モジュール9000は、少なくとも二つ以上の遺伝体シーケンスグループを入力データとして受け、各遺伝体シーケンスグループを複数の地域(region)に分散し、各グループ内の同一の地域内の塩基シーケンスの変異有無を比較及び計算することができる。これについての具体的な内容は後で説明する。
その後、本発明の一実施例に係るパラメータ生成モジュール9100は、計算モジュールの計算結果による遷移マトリックスを生成することができる。各遷移マトリックスは、遺伝体内の多重変異パラメータを含むことができる。遷移マトリックスは、61 by 61マトリックスになり得る。これについての具体的な内容は後で説明する。
その後、本発明の一実施例に係るシミュレーションモジュール9200は、パラメータ生成モジュール9100から多重変異パラメータを受け、多重変異パラメータを用いてシード遺伝体シーケンスの特定位置ごとに変異コドンを生成することによって変異遺伝体シーケンスを生成することができる。これについての具体的な内容は後で説明する。その後、本発明の一実施例に係るディスプレイモジュール9300は、生成された変異遺伝体シーケンスをグラフィックなどを用いてディスプレイすることができる。
図6は、本発明の一実施例に係る分散処理技法基盤の遺伝体変異計算過程を示した図である。
図5を参照して説明したように、本発明の一実施例に係る計算モジュールは、少なくとも二つ以上の遺伝体シーケンスグループの入力を受け、分散処理技法を用いて各遺伝体シーケンスグループ間の遺伝体の変異有無を計算することができる。具体的に、図6に示したように、本発明の一実施例に係る計算モジュールは、初期年度(initial year)に測定された第1遺伝体シーケンスグループ10000と、最後の年度(final year)に測定された第2遺伝体シーケンスグループ10100とをそれぞれ第1地域10010、10110、第2地域10020、10120、及び第3地域10030、10130に分けることができる。入力された遺伝体シーケンスグループの個数、各遺伝体シーケンスグループ内に含まれた遺伝体シーケンスの個数、及び各遺伝体シーケンスグループを分ける地域の個数は、設計者の意図によって変更可能である。
また、図6に示したように、各遺伝体シーケンスを指示する遺伝体シーケンスの名称は、「>」の表示と共に表示することができる。このような形式の表示法をFASTA形式と称することができる。
上述した第1地域10010、10110、第2地域10020、10120及び第3地域10030、10130は、各遺伝体シーケンスグループ間の変異有無を比較するための塩基シーケンスを含んでいる。本発明の一実施例に係る計算モジュールは、同一の地域名を有する各地域間の変異有無に対する比較を行うことができる。すなわち、図6に示したように、本発明の一実施例に係る計算モジュールは、node(ノード)1で第1遺伝体シーケンスグループ10000の第1地域10010と第2遺伝体シーケンスグループ10100の第1地域10110内の各塩基シーケンスの変異有無を比較することができる。同一の方式で、本発明の一実施例に係る計算モジュールは、ノード2、ノード3で第2地域10020、10120及び第3地域10030、10130内の各塩基シーケンスの変異有無に対する比較を並列的に行うことができる。この場合、本発明の一実施例に係る計算モジュールは、最も小さい比較単位であるコドン単位で各地域内の塩基シーケンスの変異有無を計算することができる。
その後、本発明の一実施例に係る計算モジュールは、ノード0でノード1〜ノード3で行われた計算結果を集めることができる。集められた結果は、図5を参照して説明した本発明の一実施例に係るパラメータ生成モジュールに入力され、パラメータ生成モジュールは、計算モジュールの計算結果を用いて各遷移マトリックスを生成することができる。上述したように、各遺伝体シーケンスの変異有無に対する計算はコドン単位で行われるので、本発明の一実施例に係る遷移マトリックスは、遺伝体シーケンスの長さであるnを最小比較対象であるコドンの塩基シーケンス個数である3で割ったn/3個だけ生成することができる。
結果的に、第1遺伝体シーケンスグループ10000内に属した遺伝体シーケンスの個数がmで、第2遺伝体シーケンスグループ10100内に属した遺伝体シーケンスの個数がpであると、本発明の一実施例に係る計算モジュールは、合計m x p回の各遺伝体シーケンス間の変異比較を行うことができる。したがって、本発明の一実施例に係る計算モジュールは、第1遺伝体シーケンスグループ10000と第2遺伝体シーケンスグループ10100との間に存在し得る全ての可能な変異組み合わせを計算することができる。
図7は、本発明の一実施例に係る変異遺伝体シーケンス予測過程を示した図である。
図7の左側上部のブロック11000は、本発明の一実施例に係る計算モジュールの動作であって、図6を参照して説明した本発明の一実施例に係る分散処理技法基盤の遺伝体変異計算過程を示したブロックである。上述したように、本発明の一実施例に係る計算モジュールは、複数の遷移マトリックスを生成するための比較結果を出力することができる。図7の右側上部のブロック11100は、図5を参照して説明した本発明の一実施例に係るパラメータ生成モジュールの動作であって、本発明の一実施例に係るパラメータ生成モジュールは、計算モジュールから出力した比較結果の入力を受け、複数の遷移マトリックスを生成することができる。上述したように、本発明の一実施例に係る遷移マトリックスは、遺伝体シーケンスの長さであるnを最小比較対象であるコドンの塩基シーケンス個数である3で割ったn/3個だけ生成することができる。すなわち、本発明の一実施例に係る遷移マトリックスは、最小比較単位であるコドン個数だけ生成することができ、各遷移マトリックスは対応するコドンの位置情報を含むことができる。
また、本発明の比較対象になる各コドンの総個数がkである場合、最初開始コドンであるAUGは変異されないので、比較対象になるコドンの総個数はAUGを除いたk−1になる。したがって、本発明の一実施例に係るパラメータ生成モジュールは、合計k−1個の遷移マトリックスを生成することができる。
本発明では、パラメータ生成モジュールで生成されたk−1個の遷移マトリックスを多重変異パラメータ又は変異パラメータと称することができ、これは、設計者の意図によって変更可能である。
図7の下部のブロック11200は、図5を参照して説明したシミュレーションモジュールの動作を示したブロックである。本発明の一実施例に係るシミュレーションモジュールは、特定遺伝体シーケンスをシードシーケンスと設定し、パラメータ生成モジュールから出力した多重変異パラメータを使用してシードシーケンス内の各コドンを変形させ、変異遺伝体シーケンスを出力することができる。シード遺伝体シーケンスは、第1又は第2遺伝体シーケンスグループに含まれた各遺伝体シーケンスのいずれか一つに該当し、これは、設計者の意図によって変更可能である。
具体的に、図7のブロック11200に示したように、本発明の一実施例に係るシミュレーションモジュールは、シミュレートするための対象遺伝体シーケンス(又はシード遺伝体シーケンスと称する。)を選定することができる。本発明の一実施例に係る遺伝体シーケンスは、遺伝体序列と称することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、シード遺伝体シーケンスをコドン単位に分割し、各コドンの位置別に0から1までの任意の数(RN2、RN3…)を生成することができる。
その後、本発明の一実施例に係るシミュレーションモジュールは、パラメータ生成モジュールから出力した多重変異パラメータを用いて、任意の数をそれぞれ任意の数の位置に対応するコドンと確率的に同一のコドン又は変異されたコドンに変換することができる。
具体的に、本発明の一実施例に係る多重変異パラメータ、すなわち、遷移マトリックスは、各コドンの位置情報を含んでいる。したがって、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスに含まれたコドンの位置情報を用いて各任意の数に対応する特定コドンの位置と各遷移マトリックスとのマッチング有無を確認することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスを用いて各任意の数を任意の数に対応する特定コドンの同一のコドン又は変異されたコドンに変換することができる。
その後、本発明の一実施例に係るシミュレーションモジュールは、任意の数が同一のコドン又は変異されたコドンに変換されると、シード遺伝体シーケンスの変換されていない各コドンと併合し、変異された遺伝体シーケンスを生成することができる。
その後、図7には示していないが、本発明の一実施例に係るディスプレイモジュールは、生成された変異遺伝体シーケンスを視覚的コンテンツを用いてディスプレイすることができる。
図8は、本発明の一実施例に係る変異遺伝体シーケンス予測方法を示したフローチャートである。
上述したように、本発明の一実施例に係る変異遺伝体シーケンス予測装置の入力データは、年度別に測定された各塩基シーケンスになり得る。本発明の一実施例に係る入力データは、米国のNCBI(National Center for Biotechnology Information)、ヨーロッパのEBI(European Bioinformatics Institute)、及び日本のDDBJ(DNA Data Bank of Japan)などを始めとする全世界の研究者等によって明らかになった多様な塩基シーケンスになり得る。本発明の一実施例に係る遺伝体シーケンスグループは、年度別に測定された遺伝体シーケンスの集合と同一である。
本発明の一実施例に係る計算モジュールは、第1及び第2遺伝体シーケンスグループの入力を受けることができる(S12000)。また、本発明の一実施例に係る計算モジュールは、少なくとも二つ以上の遺伝体シーケンスグループの入力を受けることもできる。これは、設計者の意図によって変更可能である。
その後、本発明の一実施例に係る計算モジュールは、分散処理技法を用いて第1及び第2遺伝体シーケンスグループ間の遺伝体の変異有無を計算することができる(S12100)。上述したように、本発明の一実施例に係る計算モジュールは、第1遺伝体シーケンスグループと第2遺伝体シーケンスグループをそれぞれ第1地域、第2地域及び第3地域に分けることができる。各遺伝体シーケンスグループ内に含まれた遺伝体シーケンスの個数及び各遺伝体シーケンスグループを分ける地域の個数は、設計者の意図によって変更可能である。上述した第1地域、第2地域及び第3地域は、各遺伝体シーケンスグループ間の変異有無を比較するための塩基シーケンスを含んでいる。本発明の一実施例に係る計算モジュールは、同一の地域名を有する各地域間の変異有無に対する比較を行うことができる。この場合、本発明の一実施例に係る計算モジュールは、最も小さい比較単位であるコドン単位で各地域内の塩基シーケンスの変異有無を計算することができる。結果的に、第1遺伝体シーケンスグループ内に属した遺伝体シーケンスの個数がmで、第2遺伝体シーケンスグループ内に属した遺伝体シーケンスの個数がpであると、本発明の一実施例に係る計算モジュールは、合計m x p回の遺伝体シーケンス間の変異比較を行うことができる。したがって、本発明の一実施例に係る計算モジュールは、第1遺伝体シーケンスグループと第2遺伝体シーケンスグループとの間に存在し得る全ての可能な変異組み合わせを計算することができる。
その後、本発明の一実施例に係るパラメータ生成モジュールは、計算結果を用いて多重変異パラメータを生成することができる(S12200)。上述したように、本発明の一実施例に係るパラメータ生成モジュールは、計算モジュールから出力した比較結果の入力を受け、複数の遷移マトリックスを生成することができる。本発明では、パラメータ生成モジュールで生成されたk−1個の遷移マトリックスを多重変異パラメータ又は変異パラメータと称することができ、これは、設計者の意図によって変更可能である。
上述したように、遺伝体シーケンスの変異有無に対する計算はコドン単位で行われるので、本発明の一実施例に係る遷移マトリックスは、遺伝体シーケンスの長さであるnを最小比較対象であるコドンの塩基シーケンスの個数である3で割ったn/3個だけ生成することができる。
すなわち、本発明の一実施例に係る遷移マトリックスは、最小比較単位であるコドンの個数だけ生成することができ、各遷移マトリックスは、対応するコドンの位置情報を含むことができる。
また、本発明の比較対象になるコドンの総個数がkである場合、最初開始コドンであるAUGは変異されないので、比較対象になるコドンの総個数はAUGを除いたk−1になる。したがって、本発明の一実施例に係るパラメータ生成モジュールは、合計k−1個の遷移マトリックスを生成することができる。
その後、本発明の一実施例に係るシミュレーションモジュールは、多重変異パラメータを用いてシード遺伝体シーケンスの変異遺伝体シーケンスを生成することができる(S12300)。本発明の一実施例に係るシミュレーションモジュールは、シミュレートするための対象遺伝体シーケンス(又はシード遺伝体シーケンスと称する。)を選定することができる。本発明の一実施例に係る遺伝体シーケンスは、遺伝体序列と称することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、シード遺伝体シーケンスをコドン単位に分割し、各コドンの位置別に0から1までの任意の数を生成することができる。
その後、本発明の一実施例に係るシミュレーションモジュールは、パラメータ生成モジュールから出力した多重変異パラメータを用いて、生成した任意の数を任意の数の位置に対応するコドンと確率的に同一のコドン又は変異されたコドンに変換することができる。
具体的に、本発明の一実施例に係る多重変異パラメータ、すなわち、遷移マトリックスは各コドン別の位置情報を含んでいる。したがって、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスに含まれたコドンの位置情報を用いて各任意の数に対応する既存のコドンの位置と各遷移マトリックスとのマッチング有無を確認することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスを用いて各任意の数を任意の数に対応する特定コドンの同一のコドン又は変異されたコドンに変換することができる。
その後、本発明の一実施例に係るシミュレーションモジュールは、変換されたコドンと既存のシード遺伝体シーケンス内のコドンとを併合し、変異された遺伝体シーケンスを生成することができる。
その後、本発明の一実施例に係るディスプレイモジュールは、生成された変異遺伝体シーケンスをディスプレイすることができる(S12400)。上述したように、変異遺伝体シーケンスは、グラフィックイメージなどの視覚的コンテンツとして表現することができる。
上述したように、発明の実施のための最善の形態で関連する事項を記述した。
上述したように、本発明は、変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体に全体的に又は部分的に適用することができる。

Claims (19)

  1. 変異遺伝体シーケンス予測装置であって、
    第1遺伝体シーケンスグループ及び第2遺伝体シーケンスグループの入力を受け、
    分散処理技法を用いて前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループ間の遺伝体の変異有無を計算する計算モジュールと、
    前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループは、それぞれ複数の遺伝体シーケンスを含んでなるものであり、
    前記計算結果を用いて多重変異パラメータを生成するパラメータ生成モジュールと、
    前記多重変異パラメータは、それぞれ61 by 61マトリックスとして表現されるものであり、
    前記多重変異パラメータを用いてシード遺伝体シーケンスの変異遺伝体シーケンスを生成するシミュレーションモジュールと、及び
    前記生成された変異遺伝体シーケンスをディスプレイするディスプレイモジュールとを備えてなる、変異遺伝体シーケンス予測装置。
  2. 前記計算モジュールが、
    前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループに含まれた各遺伝体シーケンスをコドン単位に分割することを含んでなる、請求項1に記載の変異遺伝体シーケンス予測装置。
  3. 前記計算モジュールが、
    前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループをそれぞれ複数の地域に分け、
    前記第1遺伝体シーケンスグループに含まれた地域と前記第2遺伝体シーケンスグループに含まれた地域に対して、各遺伝体シーケンスグループの同一の位置に該当する地域同士の遺伝体の変異有無を計算することを含んでなる、請求項2に記載の変異遺伝体シーケンス予測装置。
  4. 前記計算モジュールが、
    前記各遺伝体シーケンスグループの同一の位置に該当する地域同士の遺伝体の変異有無を計算する際、コドン単位で計算することをさらに含んでなる、請求項3に記載の変異遺伝体シーケンス予測装置。
  5. 前記シミュレーションモジュールが、
    前記シード遺伝体シーケンスをコドン単位に分割し、前記シード遺伝体シーケンス内の特定コドンの位置に対応する位置ごとに0から1までの任意の数を生成することを含んでなる、請求項1に記載の変異遺伝体シーケンス予測装置。
  6. 前記シミュレーションモジュールが、
    前記生成された任意の数の位置ごとに前記多重変異パラメータを用いて前記特定コドンと同一のコドン又は変異されたコドンを生成し、
    前記シード遺伝体シーケンス内の前記特定コドンを前記生成された同一のコドン又は変異されたコドンに変換することを含んでなる、請求項5に記載の変異遺伝体シーケンス予測装置。
  7. 前記シミュレーションモジュールが、
    前記変換されたコドンドルと前記シード遺伝体シーケンス内の変換されていないコドンとを併合し、前記変異遺伝体シーケンスを生成することを含んでなる、請求項6に記載の変異遺伝体シーケンス予測装置。
  8. 前記生成された変異遺伝体シーケンスが、グラフィックイメージなどの視覚的コンテンツとしてディスプレイされることをさらに含んでなる、請求項1に記載の変異遺伝体シーケンス予測装置。
  9. 前記多重変異パラメータが、前記シード遺伝体シーケンス内のコドンの総個数から1を引いた個数だけ生成され、
    前記多重変異パラメータが、前記各コドンの位置情報を含んでなる、請求項1に記載の変異遺伝体シーケンス予測装置。
  10. 変異遺伝体シーケンス予測方法であって、
    第1遺伝体シーケンスグループ及び第2遺伝体シーケンスグループの入力を受ける段階と、
    分散処理技法を用いて前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループ間の遺伝体の変異有無を計算する段階と、
    前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループは、それぞれ複数の遺伝体シーケンスを含んでなり、
    前記計算結果を用いて多重変異パラメータを生成する段階と、
    前記多重変異パラメータは、それぞれ61 by 61マトリックスとして表現されるものであり、
    前記多重変異パラメータを用いてシード遺伝体シーケンスの変異遺伝体シーケンスを生成する段階と、及び
    前記生成された変異遺伝体シーケンスをディスプレイする段階とを含んでなる、変異遺伝体シーケンス予測方法。
  11. 前記計算段階が、
    前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループに含まれた各遺伝体シーケンスをコドン単位に分割する段階を含んでなる、請求項10に記載の変異遺伝体シーケンス予測方法。
  12. 前記計算段階が、
    前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループをそれぞれ複数の地域に分ける段階と、及び
    前記第1遺伝体シーケンスグループに含まれた地域と第2遺伝体シーケンスグループに含まれた地域に対して、各遺伝体シーケンスグループの同一の位置に該当する地域同士の遺伝体の変異有無を計算する段階とをさらに含んでなる、請求項11に記載の変異遺伝体シーケンス予測方法。
  13. 前記計算段階が、
    前記各遺伝体シーケンスグループの同一の位置に該当する地域同士の遺伝体の変異有無を計算する際に、コドン単位で計算することをさらに含んでなる、請求項12に記載の変異遺伝体シーケンス予測方法。
  14. 前記変異遺伝体シーケンス生成段階が、
    前記シード遺伝体シーケンスをコドン単位に分割する段階と、及び
    前記シード遺伝体シーケンス内の特定コドンの位置に対応する位置ごとに0から1までの任意の数を生成する段階とを含んでなる、請求項10に記載の変異遺伝体シーケンス予測方法。
  15. 前記変異遺伝体シーケンス生成段階が、
    前記生成された任意の数の位置ごとに前記多重変異パラメータを用いて前記特定コドンと同一のコドン又は変異されたコドンを生成する段階と、及び
    前記シード遺伝体シーケンス内の前記特定コドンを前記生成された同一のコドン又は変異されたコドンに変換する段階とをさらに含んでなる、請求項14に記載の変異遺伝体シーケンス予測方法。
  16. 前記変異遺伝体シーケンス生成段階が、
    前記変換されたコドンと前記シード遺伝体シーケンス内の変換されていないコドンとを併合し、前記変異遺伝体シーケンスを生成する段階を含んでなる、請求項15に記載の変異遺伝体シーケンス予測方法。
  17. 前記生成された変異遺伝体シーケンスが、グラフィックイメージなどの視覚的コンテンツとしてディスプレイされることを含んでなる、請求項10に記載の変異遺伝体シーケンス予測方法。
  18. 前記多重変異パラメータが、前記シード遺伝体シーケンス内のコドンの総個数から1を引いた個数だけ生成され、
    前記多重変異パラメータが、前記各コドンの位置情報を含んでなる、請求項10に記載の変異遺伝体シーケンス予測方法。
  19. 変異遺伝体シーケンス予測プログラムを格納する格納媒体であって、
    それぞれ複数の遺伝体シーケンスを含む第1遺伝体シーケンスグループ及び第2遺伝体シーケンスグループの入力を受け、
    分散処理技法を用いて前記第1遺伝体シーケンスグループ及び前記第2遺伝体シーケンスグループ間の遺伝体の変異有無を計算し、
    前記計算結果を用いて、61 by 61マトリックスとして表現される多重変異パラメータを生成し、
    前記多重変異パラメータを用いてシード遺伝体シーケンスの変異遺伝体シーケンスを生成し、
    前記生成された変異遺伝体シーケンスをディスプレイする、変異遺伝体シーケンス予測プログラムを格納する格納媒体。
JP2016538660A 2013-12-27 2014-08-21 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体 Active JP6223579B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR10-2013-0165876 2013-12-27
KR1020130165876A KR101400947B1 (ko) 2013-12-27 2013-12-27 변이 유전체 시퀀스 예측 방법, 장치 및 변이 유전체 시퀀스 예측 프로그램을 저장하는 저장매체
PCT/KR2014/007784 WO2015099262A1 (ko) 2013-12-27 2014-08-21 변이 유전체 시퀀스 예측 방법, 장치 및 변이 유전체 시퀀스 예측 프로그램을 저장하는 저장매체

Publications (2)

Publication Number Publication Date
JP2017510865A true JP2017510865A (ja) 2017-04-13
JP6223579B2 JP6223579B2 (ja) 2017-11-01

Family

ID=50895685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016538660A Active JP6223579B2 (ja) 2013-12-27 2014-08-21 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体

Country Status (4)

Country Link
US (1) US20160267245A1 (ja)
JP (1) JP6223579B2 (ja)
KR (1) KR101400947B1 (ja)
WO (1) WO2015099262A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021534492A (ja) * 2018-08-13 2021-12-09 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263436A (ja) * 2002-03-08 2003-09-19 Fujitsu Ltd 責任アミノ酸残基予測方法および責任アミノ酸残基予測プログラム
JP2008165375A (ja) * 2006-12-27 2008-07-17 Canon Inc 塩基配列を識別する変異セットの選別法
JP4284050B2 (ja) * 2002-09-27 2009-06-24 株式会社東芝 治療法の有効性を予測するためのプログラム、データベース、システム及び方法
JP2009277235A (ja) * 2002-03-01 2009-11-26 Maxygen Inc 機能的生体分子を同定する方法、システム、およびソフトウェア
JP2013094169A (ja) * 2011-10-31 2013-05-20 Samsung Sds Co Ltd 標的ゲノム配列内の新規配列生成装置及びその方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101263806B1 (ko) 2011-09-29 2013-05-13 한국과학기술정보연구원 유전체 시퀀스 내 코돈 상관 관계 패턴 계산 방법 및 장치
KR20130122991A (ko) * 2012-05-02 2013-11-12 크로시스(주) 분산처리기법을 이용한 트랜스코딩 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009277235A (ja) * 2002-03-01 2009-11-26 Maxygen Inc 機能的生体分子を同定する方法、システム、およびソフトウェア
JP2003263436A (ja) * 2002-03-08 2003-09-19 Fujitsu Ltd 責任アミノ酸残基予測方法および責任アミノ酸残基予測プログラム
JP4284050B2 (ja) * 2002-09-27 2009-06-24 株式会社東芝 治療法の有効性を予測するためのプログラム、データベース、システム及び方法
JP2008165375A (ja) * 2006-12-27 2008-07-17 Canon Inc 塩基配列を識別する変異セットの選別法
JP2013094169A (ja) * 2011-10-31 2013-05-20 Samsung Sds Co Ltd 標的ゲノム配列内の新規配列生成装置及びその方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021534492A (ja) * 2018-08-13 2021-12-09 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法

Also Published As

Publication number Publication date
WO2015099262A1 (ko) 2015-07-02
US20160267245A1 (en) 2016-09-15
KR101400947B1 (ko) 2014-05-29
JP6223579B2 (ja) 2017-11-01

Similar Documents

Publication Publication Date Title
Harrison et al. Quantifying the similarities within fold space
Sela-Culang et al. Using a combined computational-experimental approach to predict antibody-specific B cell epitopes
Agor et al. Models for predicting the evolution of influenza to inform vaccine strain selection
Klingen et al. In silico vaccine strain prediction for human influenza viruses
Huang et al. Matrix completion with side information and its applications in predicting the antigenicity of influenza viruses
Samee et al. Evaluating thermodynamic models of enhancer activity on cellular resolution gene expression data
Wu et al. Recognizing protein substructure similarity using segmental threading
Potter et al. Evolution and rapid spread of a reassortant A (H3N2) virus that predominated the 2017–2018 influenza season
JP6223579B2 (ja) 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体
Souza et al. Antigenic distance between North American swine and human seasonal H3N2 influenza A viruses as an indication of zoonotic risk to humans
CN101925902A (zh) 蛋白质聚集预测系统
Xu et al. Computational prediction of therapeutic peptides based on graph index
US20110280907A1 (en) Method and system for building a phylogeny from genetic sequences and using the same for recommendation of vaccine strain candidates for the influenza virus
Hovmöller et al. Tracking the geographical spread of avian influenza (H5N1) with multiple phylogenetic trees
Scott et al. Isling: a tool for detecting integration of wild-type viruses and clinical vectors
Lee et al. Use of AAScatterPlot tool for monitoring the evolution of the hemagglutinin cleavage site in H9 avian influenza viruses
Brylinski The utility of artificially evolved sequences in protein threading and fold recognition
Masso et al. Structure-based predictors of resistance to the HIV-1 integrase inhibitor Elvitegravir
Biswas et al. A novel approach to Peptide Vaccine Design for Ebola virus
Tan et al. Quantifying the Persistence of Vaccine-Related T Cell Epitopes in Circulating Swine Influenza A Strains from 2013–2017
Ahn et al. SimFlu: a simulation tool for predicting the variation pattern of influenza A virus
Nandy The GRANCH techniques for analysis of DNA, RNA and protein sequences
Poszewiecka et al. TADeus2: a web server facilitating the clinical diagnosis by pathogenicity assessment of structural variations disarranging 3D chromatin structure
KR101263806B1 (ko) 유전체 시퀀스 내 코돈 상관 관계 패턴 계산 방법 및 장치
He et al. A new hidden Markov model for protein quality assessment using compatibility between protein sequence and structure

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171003

R150 Certificate of patent or registration of utility model

Ref document number: 6223579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250