JP7188573B2 - 評価方法、評価プログラムおよび評価装置 - Google Patents

評価方法、評価プログラムおよび評価装置 Download PDF

Info

Publication number
JP7188573B2
JP7188573B2 JP2021519077A JP2021519077A JP7188573B2 JP 7188573 B2 JP7188573 B2 JP 7188573B2 JP 2021519077 A JP2021519077 A JP 2021519077A JP 2021519077 A JP2021519077 A JP 2021519077A JP 7188573 B2 JP7188573 B2 JP 7188573B2
Authority
JP
Japan
Prior art keywords
base sequence
codon
genome
sequence data
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519077A
Other languages
English (en)
Other versions
JPWO2020230240A1 (ja
Inventor
正弘 片岡
量 松村
薫 茂櫛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2020230240A1 publication Critical patent/JPWO2020230240A1/ja
Application granted granted Critical
Publication of JP7188573B2 publication Critical patent/JP7188573B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、評価方法等に関する。
ゲノム創薬とは、ゲノム情報をもとに病気と遺伝子の関連を解析することによって、より論理的、科学的に新たな医薬品を開発しようとするアプローチ法である。このアプローチ法では、解読されたゲノムの塩基配列データからいかにして特定の機能をもつ標的遺伝子を探索し、創薬に結びつけるのかが重要である。
現在では、塩基配列データに加えて、一塩基多型(SNPs)をはじめとするヒトゲノム多型データが着々とデータベースに蓄積されつつある。このデータベースを用いて、ポジショナルクローニングと呼ばれる解析を行い、創薬を目指す疾患に関連する標的遺伝子を見つけることが可能になっている。
また、ヒトの検体やマウス等の病態モデルを用いて、病気の組織と、正常組織とで発現が変化している遺伝子を見つけることで、ゲノム創薬に役立てている。たとえば、正常な塩基配列データに対して仮想的な突然変異を発生させ、癌ゲノム等の特定の塩基配列データとの類似度の評価を行い、正常な塩基配列データが突然変異によって癌化する可能性を推定する従来技術がある。この従来技術では、正常な塩基配列データのランダムな位置に対して、多様な突然変異を発生させ、各種の癌ゲノムの塩基配列データとの類似度を評価している。
従来技術では、癌や新型ウィルスを分析する場合に、FASTAやBLASTが用いられる。FASTAやBLASTでは、塩基配列をアミノ酸の記号に翻訳して、アミノ酸を比較の単位として、相同性検索を行い、既知の塩基配列データとの類似性を判定する。図29は、相同性検索で使用するスコア行列を示す図である。
特開2004-357702号公報 特開2006-075162号公報 特開2011-193868号公報
しかしながら、上述した従来技術では、正常な塩基配列データのランダムな位置に多様な突然変異を発生させているため、バリエーションが多い。このため、網羅的に、突然変異を発生させた塩基配列データと、各癌ゲノムの塩基配列データとの類似度を評価する場合に処理量が多く、評価に時間を要するという問題がある。
1つの側面では、本発明は、塩基配列データの評価を高速化することができる評価方法、評価プログラムおよび評価装置を提供することを目的とする。
第1の案では、コンピュータは、次の処理を実行する。コンピュータは、塩基配列データを取得し、取得した塩基配列データに含まれる複数の塩基の塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成する。コンピュータは、生成した新たな塩基配列データに含まれる複数の塩基を新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定する。コンピュータは、特定した部分塩基列と、複数の部分塩基列のうち、特定した部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を所定の塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した塩基配列データに関する評価を行う。
塩基配列データの評価を高速化することができる。
図1は、ゲノムを説明するための図である。 図2は、アミノ酸と塩基、およびコドンとの関係を示す図である。 図3は、本実施例1に係る評価装置の処理を説明するための図(1)である。 図4は、本実施例1に係る評価装置の処理を説明するための図(2)である。 図5は、本実施例1に係る評価装置の処理を説明するための図(3)である。 図6は、本実施例1に係る評価装置の構成を示す機能ブロック図である。 図7は、本実施例1に係る癌ゲノムDBのデータ構造の一例を示す図である。 図8は、本実施例1に係る変換テーブルのデータ構造の一例を示す図である。 図9は、本実施例1に係る転置インデックステーブルのデータ構造の一例を示す図である。 図10は、本実施例1に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。 図11は、転置インデックスをハッシュ化する処理の一例を説明するための図である。 図12は、本実施例1に係る評価部の処理の一例を説明するための図である。 図13は、ハッシュ化されたビットマップを復元する処理を説明するための図である。 図14は、本実施例1に係る評価装置の処理手順を示すフローチャートである。 図15は、本実施例2に係る評価装置の処理を説明するための図(1)である。 図16は、本実施例2に係る評価装置の処理を説明するための図(2)である。 図17は、本実施例2に係る評価装置の処理を説明するための図(3)である。 図18は、本実施例2に係る評価装置の処理を説明するための図(4)である。 図19は、本実施例2に係る評価装置の処理を説明するための図(5)である。 図20は、本実施例2に係る評価装置の構成を示す機能ブロック図である。 図21は、本実施例2に係る癌ゲノムDBのデータ構造の一例を示す図である。 図22は、本実施例2に係る転置インデックステーブルのデータ構造の一例を示す図である。 図23は、本実施例2に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。 図24は、本実施例2に係るタンパク質辞書情報のデータ構造の一例を示す図である。 図25は、本実施例2に係る評価装置が転置インデックステーブルを生成する処理手順を示すフローチャートである。 図26は、評価装置が実行する評価処理の処理手順を示すフローチャート(1)である。 図27は、評価装置が実行する評価処理の処理手順を示すフローチャート(2)である。 図28は、本実施例に係る評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図29は、相同性検索で使用するスコア行列を示す図である。
以下に、本願の開示する評価方法、評価プログラムおよび評価装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
本実施例1の説明を行う前に、ゲノムについて説明する。図1は、ゲノムを説明するための図である。ゲノム1は、複数のアミノ酸が連結する遺伝子情報である。ここで、アミノ酸は、複数の塩基、コドンによって決定される。また、ゲノム1には、タンパク質1aが含まれる。タンパク質1aは、20種類のアミノ酸が複数結合し、鎖状に多数が連結したものである。タンパク質1aの構造には、一次構造、二次構造、三次(高次)構造が存在する。タンパク質1bは、高次構造のタンパク質である。
DNAおよびRNAの塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。また、3つの塩基配列がひとかたまりで、20種類のアミノ酸を決定する。それぞれのアミノ酸は、「A」~「Y」の記号で示される。図2は、アミノ酸と塩基、およびコドンとの関係を示す図である。3つの塩基配列のかたまりは「コドン」と呼ばれる。各塩基の並びで、コドンが決定され、コドンが決定されるとアミノ酸が決定される。
図2に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン(Ala)」は、コドン「GCU」、「GCC」、「GCA」、または、「GCG」に対応付けられる。
次に、本実施例1に係る評価装置の処理の一例について説明する。図3、図4、図5は、本実施例1に係る評価装置の処理を説明するための図である。まず、図3について説明する。基準ゲノムデータ10は、基準となるヒトの全体の塩基配列データである。各ゲノムデータ11は、複数のヒトから、シークエンサー等によって、採取された塩基配列データである。基準ゲノムデータ10および複数のゲノムデータ11の塩基配列データには、複数のコドン(3塩基配列)が配列されている。コドンに含まれる3つの塩基のうち、先頭から1番目の塩基を第1塩基、2番目の塩基を第2塩基、3番目の塩基を第3塩基と表記する。
評価装置は、先頭から順に、基準ゲノムデータ10の塩基配列と、各ゲノムデータ11の塩基配列とをコドン単位に比較し、コドンの位置毎に、異なる塩基を含む1塩基多型のコドンの個数を集計する。基準ゲノムデータ10のコドンと異なる1塩基多型のコドンは、親から子に、子から孫に引き継がれるため、「遺伝子変異」とも呼ばれる。以下の説明では、先頭からのコドンの位置Nにおける、各ゲノムデータ11の塩基配列のうち、位置Nにおける基準ゲノムデータ10のコドンと異なるコドンの個数を「変異コドン数」と表記する。
評価装置は、位置毎に、変異コドン数を算出し、各位置のうち、変異コドン数が最大となるコドンの位置を特定する。以下の説明では、類似度の評価のため、変異コドン数が最大となる位置のコドンを便宜上、「基準コドン」と表記する。たとえば、変異コドン数が最大となるコドンの位置が位置10Aである場合には、基準ゲノムデータ10のコドン10Bが基準コドンとなる。
評価装置は、基準コドン10Bから、M個前のコドンを開始コドン15として特定する。また、評価装置は、開始コドン15の次のコドンを仮想的な突然変異を発生させるコドンとして選択し、変異対象コドン16を特定する。評価装置は、コドンの粒度で、先頭を基準とした開始コドン15の位置を示す開始コドン位置20Aを特定する。評価装置は、コドンの粒度で、先頭を基準とした基準コドン10Bの位置を示す基準位置20Bを特定する。
図4の説明に移行する。図4では、評価装置が、評価対象となる評価対象ゲノムデータ30に対して、突然変異「挿入」を発生させる場合について説明する。評価装置は、評価対象ゲノムデータ30を取得する。評価対象ゲノムデータ30は、コドン単位で符号化されているものとする。本実施例1では便宜上、符号化前のコドンの隣に、符号化後の符号を括弧書きで示す。たとえば、コドン「AUG」は、符号「63h」に変換されるが、変換された符号を「AUG(63h)」と表記する。「h」は16進数であることを示すものである。
評価装置は、評価対象ゲノムデータ30と、開始コドン位置20Aとを基にして、開始コドン「AUG(63h)」を特定し、開始コドンの次の変異対象コドン「UUU(40h)」を特定する。評価装置は、変異対象コドン「UUU(40h)」の先頭に塩基「A」を挿入し、突然変異「挿入」を発生させる。
たとえば、評価装置は、変異対象コドンの第1塩基に「A」を挿入し、挿入前の第1塩基を第2塩基にシフトし、挿入前の第2塩基を第3塩基にシフトすることで、変異対象コドン「UUU(40h)」を「AUU(60h)」とする。また、変異対象コドンに続くコドンについても、塩基を右方向にシフトさせる。たとえば、変異対象コドンの次のコドンについて、変異対象コドンの第3塩基を、次のコドンの第1塩基に挿入し、続く塩基も右方向にシフトさせる。これにより、基準コドン「UCA(46h)」の第3塩基「A」は、「AAA(6Ah)」の第1塩基となり、基準位置も右方向にシフトする。
評価装置は、評価対象ゲノムデータ30に対して突然変異「挿入」を発生させることで、新たな突然変異ゲノムデータ30Aを生成する。ここでは、変異対象コドンに塩基「A」を挿入する場合について説明したが、他の塩基「U」、「G」、「C」を挿入させてもよい。
評価装置は、突然変異ゲノムデータ30Aと、基準位置20Bとを基にして、基準コドン「AAA(6Ah)」を特定する。評価装置は、基準コドン「AAA(6Ah)」、および、この基準コドンの前後連続するコドンと、各癌ゲノムの塩基配列とを比較して、一致するコドンと、一致するコドンの長さを特定する。一致するコドンの長さが大きいほど、突然変異ゲノムデータ30Aと、癌ゲノムとが類似しているといえるため、一致するコドンの長さ(最大の長さ)は「類似度」といえる。
以下の説明では、基準コドンと、この基準コドンの前後の連続するコドンを、「基準コドン配列」と表記する。評価装置は、癌ゲノムの塩基配列と、基準コドン配列とを比較する場合に、癌ゲノムの転置インデックスを用いることで高速化を図ることができる。癌ゲノムの転置インデックスは、癌ゲノムの先頭からのオフセットと、コドン(符号化されたコドン)の種別とを対応付けた情報である。
癌ゲノム40Aを用いて説明する。評価装置は、癌ゲノム40Aと、基準コドン「AAA(6Ah)」とを比較して、癌ゲノム40Aにおける基準コドンと同じコドンの位置20Cを特定する。評価装置は、癌ゲノム40Aの位置20Cのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「AAA(6Ah)、GUA(72h)」および類似度「2」を特定する。
癌ゲノム40Bを用いて説明する。評価装置は、癌ゲノム40Bと、基準コドン「AAA(6Ah)」とを比較して、癌ゲノム40Bにおける基準コドンと同じコドンの位置20D、20Eを特定する。評価装置は、癌ゲノム40Bの位置20Dのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「UUC(41h)、AAA(6Ah)、GUA(72h)」および類似度「3」を特定する。
また、評価装置は、癌ゲノム40Bの位置20Eのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「AAA(6Ah)、GUA(72h)」および類似度「2」を特定する。評価装置は、癌ゲノム40Bのように、基準コドンと同じコドンが複数存在する場合には、基準コドン配列と一致するコドン配列のうち、最も長いものを、該当する癌ゲノムにおける一致するコドン配列の類似度として特定する。たとえば、癌ゲノム40Bに関して、類似度は「3」となる。
評価装置は、他の癌ゲノムについても上記処理を繰り返し実行することで、癌ゲノム毎に、一致するコドン配列の長さ(類似度)を特定する。評価装置は、類似度が最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合に最も類似する癌ゲノムとして評価する。また、評価装置は、類似度の降順に、複数の癌ゲノムをソートし、上位の癌ゲノムの情報を、リスト表示する。
図5の説明に移行する。図5では、評価装置が、正常な評価対象ゲノムデータ30に対して、突然変異「欠失」を発生させる場合について説明する。評価装置は、評価対象となる正常な評価対象ゲノムデータ30を取得する。
評価装置は、評価対象ゲノムデータ30と、開始コドン位置20Aとを基にして、開始コドン「AUG(63h)」を特定し、開始コドンの次の変異対象コドン「UUU(40h)」を特定する。評価装置は、変異対象コドン「UUU(40h)」の先頭の塩基(第1塩基)を取り除き、突然変異「欠失」を発生させる。
たとえば、評価装置は、変異対象コドンの第1塩基に「U」を削除し、欠失前の第2塩基を第1塩基にシフトし、欠失前の第3塩基を第2塩基にシフトし、変異対象コドンの次のコドンの第1塩基を、変異対象コドンの第3塩基にシフトすることで、変異対象コドン「UUU(40h)」を「UUC(41h)」とする。また、変異対象コドンに続くコドンについても、塩基を左方向にシフトさせる。たとえば、変異対象コドンの位置を20A+1とし、位置20A+2のコドンを第1コドンとし、位置20A+3のコドンを第2コドンとする。第1コドンの第2塩基を第1コドンにシフトさせ、第1コドンの第3塩基を第2塩基にシフトさせ、第2コドンの第1塩基を、第1コドンの第3塩基にシフトさせる。評価装置は、続く塩基も左方向にシフトさせる。
評価装置は、正常な評価対象ゲノムデータ30に対して突然変異「欠失」を発生させることで、新たな突然変異ゲノムデータ30Bを生成する。
評価装置は、突然変異ゲノムデータ30Bと、基準位置20Bとを基にして、基準コドン「CAA(5Ah)」を特定する。評価装置は、基準コドン「CAA(5Ah)」、および、この基準コドンの前後連続するコドン(基準コドン配列)と、各癌ゲノムの塩基配列とを比較して、一致するコドンと、一致するコドンの長さを特定する。
癌ゲノム40Cを用いて説明する。評価装置は、癌ゲノム40Cと、基準コドン「CAA(5Ah)」とを比較して、癌ゲノム40Cにおける基準コドンと同じコドンの位置20Fを特定する。評価装置は、癌ゲノム40Cの位置20Fのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「UUU(40h)、CAA(5Ah)」および長さ「2」を特定する。
癌ゲノム40Dを用いて説明する。評価装置は、癌ゲノム40Dと、基準コドン「CAA(5Ah)」とを比較して、癌ゲノム40Dにおける基準コドンと同じコドンの位置20G、20Hを特定する。評価装置は、癌ゲノム40Dの位置20Gのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「UUU(40h)、CAA(5Ah)、AGU(6Ch)」および長さ「3」を特定する。
また、評価装置は、癌ゲノム40Dの位置20Hのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「CAA(5Ah)、AGU(6Ch)」および長さ「2」を特定する。評価装置は、癌ゲノム40Dのように、基準コドンと同じコドンが複数存在する場合には、基準コドン配列と一致するコドン配列のうち、最も長いものを、該当する癌ゲノムにおける一致するコドン配列の長さとして特定する。たとえば、癌ゲノム40Dに関して、一致するコドン配列の長さは、「3」となる。
評価装置は、他の癌ゲノムについても上記処理を繰り返し実行することで、癌ゲノム毎に、一致するコドン配列の長さを特定する。評価装置は、一致するコドン配列の長さが最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合に最も類似する癌ゲノムとして評価する。評価装置は、一致するコドン配列の長さの降順に、複数の癌ゲノムをソートし、上位の癌ゲノムの情報を、リスト表示する。
上記のように、評価装置は、評価対象ゲノムデータ30の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ30A(30B)を生成する。評価装置は、突然変異ゲノムデータ30A(30B)の基準ゲノムを起点とする基準ゲノム配列と、癌ゲノムの塩基配列とを比較して、連続して一致するコドンの長さ(類似度)を特定する。評価装置は、連続して一致するコドンの長さが最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合の癌ゲノムとして評価する。
このように、評価装置では、突然変異を発生させるコドンを、変異対象コドンとして、開始コドンの次のコドンに固定することで、新たに生成するゲノムデータのバリエーションの数を抑止し、かつ、最長の突然変異した塩基配列を確保することができる。また、癌ゲノムと比較するコドン配列を、基準コドンを起点とする基準コドン配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、コドン(アミノ酸)の粒度で、既存の癌ゲノムとの類似度の評価を行うことができる。
次に、本実施例1に係る評価装置の構成の一例について説明する。図6は、本実施例1に係る評価装置の構成を示す機能ブロック図である。図6に示すように、この評価装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
通信部110は、ネットワークを介して他の外部装置(図示略)との間でデータ通信を実行する処理部である。たとえば、通信部110は、通信装置に対応する。たとえば、通信部110は、外部装置から、後述するゲノムDB141等を受信してもよい。
入力部120は、評価装置100に各種の情報を入力するための入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。
表示部130は、制御部150から出力される各種の情報を表示するための表示装置である。たとえば、表示部130は、液晶ディスプレイ、タッチパネル等に対応する。
記憶部140は、ゲノムDB(Data Base)141、癌ゲノムDB142、変換テーブル143、基準ゲノムデータ10、基準データ144、転置インデックステーブル145を有する。また、記憶部140は、評価対象ゲノムデータ30、突然変異ゲノムデータテーブル147、リストデータ148を有する。記憶部140は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
ゲノムDB141は、図3で説明した各ゲノムデータ11を保持するデータベースである。各ゲノムデータ11は、複数のヒトから、シークエンサー等によって、採取された塩基配列データである。各ゲノムデータ11は、コドン(3塩基配列)が順に配列されているものとする。各ゲノムデータ11は、後述する変換テーブル143に基づいて、コドン単位で符号化されていてもよい。
癌ゲノムDB142は、複数種類の癌ゲノムを保持するデータベースである。図7は、本実施例1に係る癌ゲノムDBのデータ構造の一例を示す図である。図7に示すように、癌ゲノムDBは、識別情報と、塩基配列と、類似度とを対応付ける。癌識別情報は、癌ゲノムを一意に識別する情報である。塩基配列は、癌ゲノムに対応する塩基配列である。類似度は、突然変異ゲノムデータ30A(30B)と、癌ゲノムとの比較により算出される値である。類似度が大きいほど、突然変異ゲノムデータ30A(30B)と、癌ゲノムとが類似していることを示す。癌ゲノムの塩基配列は、後述する前処理部152によって、コドン単位で符号化される。
変換テーブル143は、コドンと、コドンに対応する符号とを対応付けるテーブルである。図8は、本実施例1に係る変換テーブルのデータ構造の一例を示す図である。図8に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「UUU」の符号は「40h(01000000)」となる。「h」は16進数を示すものである。
基準ゲノムデータ10は、予め設定される基準の(遺伝子変異を含んでいない)塩基配列データである。たとえば、基準ゲノムデータ10は、複数のコドンが配列されている。
基準データ144は、図3で説明した処理によって特定される「開始コドン位置」および「基準位置」の情報を有する。
転置インデックステーブル145は、各癌ゲノムに対する転置インデックスをそれぞれ保持するテーブルである。図9は、本実施例1に係る転置インデックステーブルのデータ構造の一例を示す図である。癌識別情報は、癌ゲノムを一意に識別する情報である。転置インデックスは、癌識別情報により識別される転置インデックスである。
図10は、本実施例1に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。図10において、転置インデックスの横軸は、癌ゲノムの先頭からのオフセットに対応する軸である。転置インデックスの縦軸は、コドンの種別(コドンの符号)に対応する軸である。転置インデックスは、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
たとえば、癌ゲノムの先頭のコドンの符号のオフセットを「0」とする。癌ゲノムの先頭から7番目の位置に、コドンの符号「AUG(63h)」が含まれる場合、転置インデックスのオフセット「6」の列と、コドンの符号「AUG(63h)」の行とが交差する位置のビットが「1」となる。
評価対象ゲノムデータ30は、ヒトから採取された評価の対象となるゲノムデータである。評価対象ゲノムデータ30は、図4、図5で説明した評価対象ゲノムデータ30に対応するものである。
突然変異ゲノムデータテーブル147は、評価対象ゲノムデータ30に対して突然変異を発生させたゲノムデータを保持するテーブルである。たとえば、突然変異ゲノムデータテーブル147は、突然変異「挿入」を発生させた突然変異ゲノムデータ30Aと、突然変異「欠失」を発生させた突然変異ゲノムデータ30Bとを有する。
リストデータ148は、癌ゲノムDB142に格納された各癌ゲノムのうち、評価対象ゲノムデータ30が癌化した場合の癌ゲノムに類似する癌ゲノムを示すリストの情報である。
図6の説明に戻る。制御部150は、取得部151と、前処理部152と、生成部153と、特定部154と、評価部155とを有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部150は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
取得部151は、ネットワークを介して外部装置等から各種の情報を取得する処理部である。たとえば、取得部151は、ゲノムDB141、癌ゲノムDB142(符号化前)、基準ゲノムデータ10を取得した場合に、取得したゲノムDB141、癌ゲノムDB142、基準ゲノムデータ10を、記憶部140に登録する。
また、取得部151は、入力部120または外部装置から、評価対象ゲノムデータ30を取得する。取得部151は、評価対象ゲノムデータ30を記憶部140に登録する。
前処理部152は、各種の前処理を実行する処理部である。たとえば、前処理部152は、転置インデックステーブル145を生成する処理、基準データ144を生成する処理を実行する。
前処理部152が、転置インデックステーブル145を生成する処理の一例について説明する。前処理部152は、癌ゲノムDB142に登録される癌ゲノム(塩基配列)を符号化しつつ、癌ゲノムの転置インデックスを生成し、生成した転置インデックスを、転置インデックステーブル145に登録する。
前処理部152は、癌ゲノムDB142から、未選択の癌識別情報の塩基配列を取得し、取得した塩基配列から、3つずつ塩基を取り出す。前処理部152は、取り出した塩基と、変換テーブル143とを比較して、3つの塩基(コドン)に対応する符号を特定し、3つの塩基(コドン)を符号に変換する。たとえば、前処理部152は、コドン「AUG」を符号「63h」に変換する。前処理部152は、かかる処理を繰り返し実行することで、選択した塩基配列をコドン単位で符号化する。
前処理部152は、選択した塩基配列をコドン単位で符号化する際に、選択した塩基配列に対応する転置インデックスを生成する。たとえば、前処理部152は、変換したコドンの符号と、先頭からの符号のオフセットとに対応する転置インデックスのビットマップに「1」を設定する。前処理部152は、かかる処理を繰り返し実行することで、選択した塩基配列に対応する転置インデックスを生成する。前処理部152は、選択した塩基配列の癌識別情報と、生成した転置インデックスとを対応付けて、転置インデックステーブル145に登録する。
ここで、前処理部152は、転置インデックスを生成すると、情報量を削減するために、転置インデックスをハッシュ化してもよい。図11は、転置インデックスをハッシュ化する処理の一例を説明するための図である。
図11で説明する例では、32ビットレジスタを想定し、「29」と「31」の素数(底)を基に、転置インデックスの各行のビットマップをハッシュ化する。ここでは、一例として、ビットマップb1から、ハッシュ化ビットマップh11およびハッシュ化ビットマップh12を生成する場合について説明する。
ビットマップb1は、転置インデックス(たとえば、図10に示した転置インデックス)のある行を抽出したビットマップを示すものとする。ハッシュ化ビットマップh11は、底「29」によりハッシュ化されたビットマップである。ハッシュ化ビットマップh12は、底「31」によりハッシュ化されたビットマップである。
前処理部152は、ビットマップb1の各ビットの位置を、1つの低で割った余りの値を、ハッシュ化ビットマップの位置と対応付ける。前処理部152は、該当するビットマップb1のビットの位置に「1」が設定されている場合には、対応付けられたハッシュ化ビットマップの位置に「1」を設定する処理を行う。
ビットマップb1から、底「29」のハッシュ化ビットマップh11を生成する処理の一例について説明する。はじめに、前処理部152は、ビットマップb1の位置「0~28」の情報を、ハッシュ化ビットマップh11にコピーする。続いて、ビットマップb1のビットの位置「35」を、低「29」で割った余りは「6」となるので、ビットマップb1の位置「35」は、ハッシュ化ビットマップh11の位置「6」と対応付けられる。前処理部152は、ビットマップb1の位置「35」に「1」が設定されているため、ハッシュ化ビットマップh11の位置「6」に「1」を設定する。
ビットマップb1のビットの位置「42」を、低「29」で割った余りは「13」となるので、ビットマップb1の位置「42」は、ハッシュ化ビットマップh11の位置「13」と対応付けられる。前処理部152は、ビットマップb1の位置「42」に「1」が設定されているため、ハッシュ化ビットマップh11の位置「13」に「1」を設定する。
前処理部152は、ビットマップb1の位置「29」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップh11を生成する。
ビットマップb1から、底「31」のハッシュ化ビットマップh12を生成する処理の一例について説明する。はじめに、前処理部152は、ビットマップb1の位置「0~30」の情報を、ハッシュ化ビットマップh12にコピーする。続いて、ビットマップb1のビットの位置「35」を、低「31」で割った余りは「4」となるので、ビットマップb1の位置「35」は、ハッシュ化ビットマップh12の位置「4」と対応付けられる。前処理部152は、ビットマップb1の位置「35」に「1」が設定されているため、ハッシュ化ビットマップh12の位置「4」に「1」を設定する。
ビットマップb1のビットの位置「42」を、低「31」で割った余りは「11」となるので、ビットマップb1の位置「42」は、ハッシュ化ビットマップh12の位置「11」と対応付けられる。前処理部152は、ビットマップb1の位置「42」に「1」が設定されているため、ハッシュ化ビットマップh12の位置「11」に「1」を設定する。
前処理部152は、ビットマップb1の位置「31」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップh12を生成する。
前処理部152は、転置インデックスの各行について上記の折り返し技術による圧縮を行うことで、転置インデックスをハッシュ化する。なお、底「29」、「31」のハッシュ化ビットマップは、生成元のビットマップの行(符号化されたコドンの種別)の情報が付与される。前処理部152は、各癌ゲノムの転置インデックスについて、上記処理を繰り返し実行し、ハッシュ化した転置インデックスを、転置インデックステーブル145に登録する。
続いて、前処理部152が基準データ144を生成する処理の一例について説明する。前処理部152が基準データ144を生成する処理は、図3で説明した処理に対応する。前処理部152は、ゲノムDB141から、複数のゲノムデータ11を取得する。複数のゲノムデータ11がコドン単位で符号化されている場合には、変換テーブル143との比較により、複数のゲノムデータ11を復号する。
前処理部152は、先頭の塩基から順に、基準ゲノムデータ10の塩基と、各ゲノムデータ11の塩基とを比較し、塩基の位置毎に、異なる塩基の個数(変異塩基数)を集計する。
前処理部152は、位置毎に、変異塩基数を算出し、各位置のうち、変異塩基数が最大となる塩基の位置を特定し、特定した位置の塩基を含む基準コドン(たとえば、図3のコドン10B)を特定する。前処理部152は、基準コドンから、M個前のコドンを開始コドン(たとえば、図3のコドン15)として特定する。
前処理部152は、コドンの粒度で、基準ゲノムデータ10の先頭を基準とした開始コドン15の位置を示す開始コドン位置20Aを特定する。前処理部152は、コドンの粒度で、基準ゲノムデータ10の先頭を基準とした基準コドン10Bの位置を示す基準位置20Bを特定する。前処理部152は、開始コドン位置20Aおよび基準位置20Bの情報を、基準データ144として、記憶部140に登録する。
図6の説明に戻る。生成部153は、評価対象ゲノムデータ30に突然変異「挿入」、「欠失」を発生させることで、突然変異ゲノムデータを生成する処理部である。生成部153は、生成した突然変異ゲノムデータを、突然変異ゲノムデータテーブル147に登録する。
図4を用いて、生成部153が、突然変異「挿入」を発生させる処理について説明する。生成部153は、基準データ144から、開始コドン位置20Aの情報を取得する。生成部153は、評価対象ゲノムデータ30と、開始コドン位置20Aとを基にして、開始コドン「AUG(63h)」を特定し、開始コドンの次の変異対象コドン「UUU(40h)」を特定する。生成部153は、変異対象コドン「UUU(40h)」の先頭に塩基「A」を挿入し、突然変異「挿入」を発生させる。
たとえば、生成部153は、変異対象コドンの第1塩基に「A」を挿入し、挿入前の第1塩基を第2塩基にシフトし、挿入前の第2塩基を第3塩基にシフトすることで、変異対象コドン「UUU(40h)」を「AUU(60h)」とする。また、生成部153は、変異対象コドンに続くコドンについても、塩基を右方向にシフトさせる。たとえば、変異対象コドンの次のコドンについて、変異対象コドンの第3塩基を、次のコドンの第1塩基に挿入し、続く塩基も右方向にシフトさせる。
評価対象ゲノムデータ30に対して突然変異「挿入」を発生させることで、塩基の右シフトを行い、突然変異ゲノムデータ30Aを生成する。ここでは、変異対象コドンに塩基「A」を挿入する場合について説明したが、他の塩基「U」、「G」、「C」を挿入させてもよい。
図5を用いて、生成部153が、突然変異「欠失」を発生させる処理について説明する。生成部153は、評価対象ゲノムデータ30と、開始コドン位置20Aとを基にして、開始コドン「AUG(63h)」を特定し、開始コドンの次の変異対象コドン「UUU(40h)」を特定する。生成部153は、変異対象コドン「UUU(40h)」の先頭の塩基(第1塩基)を取り除き、突然変異「欠失」を発生させる。
たとえば、生成部153は、変異対象コドンの第1塩基に「A」を削除し、欠失前の第2塩基を第1塩基にシフトし、欠失前の第3塩基を第2塩基にシフトし、変異対象コドンの次のコドンの第1塩基を、変異対象コドンの第3塩基にシフトすることで、変異対象コドン「UUU(40h)」を「UUC(41h)」とする。また、変異対象コドンに続くコドンについても、塩基を左方向にシフトさせる。たとえば、変異対象コドンの位置を20A+1とし、位置20A+2のコドンを第1コドンとし、位置20A+3のコドンを第2コドンとする。第1コドンの第2塩基を第1コドンにシフトさせ、第1コドンの第3塩基を第2塩基にシフトさせ、第2コドンの第1塩基を、第1コドンの第3塩基にシフトさせる。評価装置は、続く塩基も右方向にシフトさせる。
評価対象ゲノムデータ30に対して突然変異「欠失」を発生させることで、塩基の左シフトを行い、突然変異ゲノムデータ30Bを生成する。
生成部153は、上記の処理を行うことで、突然変異ゲノムデータ30A,30Bを生成し、生成した突然変異ゲノムデータ30A,30Bを、突然変異ゲノムデータテーブル147に登録する。
特定部154は、突然変異ゲノムデータ30A(30B)と、基準位置20Bとを基にして、突然変異ゲノムデータ30A(30B)の基準コドン配列を特定する処理部である。特定部154は、特定した基準コドン配列の情報を、評価部155に出力する。
図4を用いて、特定部154が、突然変異ゲノムデータ30Aの基準コドン配列を特定する処理について説明する。特定部154は、基準データ144から基準位置20Bの情報を取得する。特定部154は、突然変異ゲノムデータ30Aと、基準位置20Bとを基にして、基準コドン「AAA(6Ah)」を特定する。特定部154は、基準位置20B-Nから、基準位置20B+Nまでのコドン配列を、基準コドン配列として特定する。Nは、予め設定される値であるものとする。
図5を用いて、特定部154が、突然変異ゲノムデータ30Bの基準コドン配列を特定する処理について説明する。特定部154は、基準データ144から基準位置20Bの情報を取得する。特定部154は、突然変異ゲノムデータ30Bと、基準位置20Bとを基にして、基準コドン「CAA(5Ah)」を特定する。特定部154は、基準位置20B-Nから、基準位置20B+Nまでのコドン配列を、基準コドン配列として特定する。
特定部154は、突然変異ゲノムデータ30Aの基準コドンおよび基準コドン配列と、突然変異ゲノムデータ30Bの基準コドンおよび基準コドン配列との情報を、評価部155に出力する。
評価部155は、癌ゲノムの塩基配列と、突然変異ゲノムデータ30A(30B)とを基にして、各癌ゲノムと、突然変異ゲノムデータ30A(30B)との類似度を評価する処理部である。評価部155は、癌ゲノムの塩基配列と、基準コドン配列とを比較により、一致するコドンの長さのうち最大の長さを、類似度とする。
評価部155の処理の概要は、図4、5で説明したように、癌ゲノムの塩基配列と、基準コドン配列とを比較により、一致するコドンの長さのうち最大の長さを特定するものである。
なお、評価部155は、一致するコドンの長さを特定する場合に、癌ゲノムの転置インデックスを利用する。以下において、評価部155が、転置インデックスを用いて、一致するコドンの長さを特定する処理の一例について説明する。
評価部155は、基準コドン配列と比較する癌ゲノムに対応する転置インデックスを、転置インデックステーブル145から取得する。評価部155は、基準コドン(符号)と、転置インデックスとを比較し、癌ゲノムの塩基配列上において、基準コドンと同一のコドンが出現する位置(オフセット)を特定し、比較する場合の起点とする。
評価部155は、転置インデックスの起点となる位置の前後の位置において、フラグ「1」に対応する行のコドンの符号を特定し、特定したコドンの符号が、基準コドン配列の符号と一致するか否かに応じて、一致するコドンの長さを特定する。
なお、評価部155は、転置インデックスから、基準コドン配列の各コドンに対応するビットマップを抽出し、シフトとAND演算を繰り返し実行することで、基準コドン配列の一部のコドン配列が、癌ゲノムの塩基配列上に含まれるか否かを評価することも可能である。
図12は、本実施例1に係る評価部の処理の一例を説明するための図である。ここでは一例として、評価部155は、基準コドン配列のうち、少なくとも基準コドンを含む部分配列「UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)、UGG(4Fh)」が存在するか否かを判定する場合について説明する。
評価部155は、比較対象とする癌ゲノムの転置インデックスを参照し、各コドン「UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)、UGG(4Fh)」に対応するビットマップを取得する。コドンの符号「UUU(40h)」のビットマップをビットマップb_UUUとする。コドンの符号「CAA(5Ah)」のビットマップをビットマップb_CAAとする。コドンの符号「AGU(6Ch)」のビットマップをビットマップb_AGUとする。コドンの符号「UCA(46h)」のビットマップをビットマップb_UCAとする。コドンの符号「UGG(4Fh)」のビットマップをビットマップb_UGGとする。
評価部155は、ビットマップb_UUUを取得し、ビットマップb_UUUを左シフトすることで、ビットマップb20を生成する。評価部155は、ビットマップb_CAAを取得し、ビットマップb_CAAと、ビットマップb20とをAND演算することで、ビットマップb21を生成する。ビットマップb21のオフセット「8」に「1」が立っているため、オフセット7~8に、コドン「UUU(40h)、CAA(5Ah)」が含まれることが分かる。
評価部155は、ビットマップb21を左シフトすることで、ビットマップb22を生成する。評価部155は、ビットマップb_AGUを取得し、ビットマップb_AGUと、ビットマップb22とをAND演算することで、ビットマップb23を生成する。ビットマップb23のオフセット「9」に「1」が立っているため、オフセット7~9に、コドン「UUU(40h)、CAA(5Ah)、AGU(6Ch)」が含まれることが分かる。
評価部155は、ビットマップb23を左シフトすることで、ビットマップb24を生成する。評価部155は、ビットマップb_UCAを取得し、ビットマップb_UCAと、ビットマップb24とをAND演算することで、ビットマップb25を生成する。ビットマップb25のオフセット「10」に「1」が立っているため、オフセット7~10に、コドン「UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)」が含まれることが分かる。
評価部155は、ビットマップb25を左シフトすることで、ビットマップb26を生成する。評価部155は、ビットマップb_UGGを取得し、ビットマップb_UGGと、ビットマップb26とをAND演算することで、ビットマップb27を生成する。ビットマップb25のオフセット「11」に「1」が立っているため、オフセット7~11に、コドン「UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)、UGG(4Fh)」が含まれることが分かる。
評価部155は、図12に示した処理を実行することで、比較対象とする癌ゲノムの塩基配列のオフセット「7~11」において、部分配列が含まれると評価する。評価部155は、部分配列のコドンを増やす、または、減らし、上記処理を繰り返し実行することで、基準コドン配列のうち、癌ゲノムの塩基配列と一致するコドンの最大の長さ(類似度)を特定する。
評価部155は、同一の癌ゲノムについて、突然変異ゲノムデータ30Aとの類似度、突然変異ゲノムデータ30Bとの類似度を評価する。評価部155は、各類似度を癌ゲノムDB142に登録してもよいし、大きい方の類似度を、癌ゲノムDB142に登録してもよい。
評価部155は、上記処理を繰り返し実行することで、癌ゲノムDB142の各癌識別情報に対応する類似度を登録する。
評価部155は、癌ゲノムDB142の各類似度を走査し、最大の類似度となる癌識別情報を特定し、特定した癌識別情報に対応する癌ゲノムの塩基配列データを、癌ゲノムDB142から検索し、検索した癌ゲノムの塩基配列データを、表示部130に出力して表示させる。
また、評価部155は、癌ゲノムDB142の各類似度を走査し、類似度の降順に各癌識別情報をソートする。評価部155は、ソートした各癌識別情報のうち、上位Nの癌識別情報を、リストデータ148に登録する。評価部155は、上位Nの癌識別情報に対応する癌ゲノムの塩基配列データを癌ゲノムDB142から検索し、リストデータ148に登録してもよい。評価部155は、リストデータ148を表示部130に出力して表示させてもよいし、ネットワークを介して、外部装置に送信してもよい。
なお、評価部155は、転置インデックスのビットマップがハッシュ化されている場合には、ハッシュ化されたビットマップを復元する。図13は、ハッシュ化されたビットマップを復元する処理を説明するための図である。ここでは一例として、評価部155が、ハッシュ化ビットマップh11およびハッシュ化ビットマップh12を基にして、ビットマップb1を復元する場合について説明する。
評価部155は、底「29」のハッシュ化ビットマップh11から、中間ビットマップh11’を生成する。評価部155は、ハッシュ化ビットマップh11の位置0~28の値を、中間ビットマップh11’の位置0~28にそれぞれ、コピーする。
評価部155は、中間ビットマップh11’の位置29以降の値については、「29」毎に、ハッシュ化ビットマップh11の位置0~28の値を、それぞれコピーする処理を繰り返し実行する。図13に示す例では、中間ビットマップh11’の位置29~43の位置に、ハッシュ化ビットマップh11の位置0~14の値を、コピーした例を示す。
評価部155は、底「31」のハッシュ化ビットマップh12から、中間ビットマップh12’を生成する。評価部155は、ハッシュ化ビットマップh12の位置0~30の値を、中間ビットマップh12’の位置0~30にそれぞれ、コピーする。
評価部155は、中間ビットマップh12’の位置31以降の値については、「31」毎に、ハッシュ化ビットマップh12の位置0~30の値を、それぞれコピーする処理を繰り返し実行する。図13に示す例では、中間ビットマップh12’の位置31~43の位置に、ハッシュ化ビットマップh12の位置0~12の値を、コピーした例を示す。
評価部155は、中間ビットマップh11’と、中間ビットマップh12’とを生成すると、中間ビットマップh11’と、中間ビットマップh12’とをAND演算することで、ハッシュ化前のビットマップb1を復元する。評価部155は、他のハッシュ化されたビットマップについても、同様の処理を繰り返し実行することで、転置インデックスに対応する各ビットマップを復元することができる。
次に、本実施例1に係る評価装置100の処理手順の一例について説明する。図14は、本実施例1に係る評価装置の処理手順を示すフローチャートである。図14に示すように、この評価装置100の取得部151は、評価対象ゲノムデータ30を取得し、記憶部140に登録する(ステップS101)。
評価装置100の生成部153は、評価対象ゲノムデータ30に突然変異を発生させて、突然変異ゲノムデータ30A(30B)を生成し、突然変異ゲノムデータテーブル147に登録する(ステップS102)。
評価装置100の特定部154は、基準データ144と、突然変異ゲノムデータ30A(30B)とを基にして、基準コドンおよび基準コドン配列を特定する(ステップS103)。評価装置100の評価部155は、未選択の癌識別情報を選択する(ステップS104)。
評価部155は、選択した癌識別情報の転置インデックスと、基準コドン配列とを基にして、類似度を算出する(ステップS105)。評価部155は、選択した癌識別情報と類似度とを対応付けて、癌ゲノムDB142に登録する(ステップS106)。
評価部155は、全ての癌識別情報を選択したか否かを判定する(ステップS107)。評価部155は、全ての癌識別情報を選択していない場合には(ステップS107,No)、ステップS104に移行する。評価部155は、全ての癌識別情報を選択した場合には(ステップS107,Yes)、ステップS108に移行する。
評価部155は、類似度の降順に、各癌識別情報をソートする(ステップS108)。評価部155は、上位の癌識別情報に対応する癌ゲノムの塩基配列データを、リストデータ148に登録する(ステップS109)。評価部155は、リストデータ148を表示部130に出力して表示させる(ステップS110)。
次に、本実施例1に係る評価装置100の効果について説明する。評価装置100は、評価対象ゲノムデータ30の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ30A(30B)を生成する。評価装置100は、突然変異ゲノムデータ30A(30B)の基準ゲノムを起点とする基準ゲノム配列と、癌ゲノムの塩基配列とを比較して、連続して一致するコドンの長さ(類似度)を評価する。評価装置100は、連続して一致するコドンの長さが最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合の癌ゲノムとして評価する。
このように、評価装置100では、突然変異を発生させるコドンを、変異対象コドンとして、開始コドンの次のコドンに固定することで、新たに生成するゲノムデータのバリエーションの数を抑止し、かつ、最長の突然変異した塩基配列を確保することができる。また、癌ゲノムと比較するコドン配列を、基準コドンを起点とする基準コドン配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、コドン(アミノ酸)の粒度で、既存の癌ゲノムとの類似度評価を行うことができる。なお、癌ゲノムの塩基配列は、突然変異を起こした細胞増殖因子に加え、細胞増殖因子に取り付かれた受容体を含む場合があり、受容体の塩基配列を除去する必要がある。
本実施例2に係る評価装置の処理の一例について説明する。図15、図16、図17は、本実施例2に係る評価装置の処理を説明するための図である。まず、図15について説明する。評価装置は、癌ゲノムDBから、コドン単位で符号化された癌ゲノム50を取得する。評価装置は、タンパク質辞書情報243Aと、動的辞書情報243Bとを基にして、癌ゲノム50をタンパク質の単位で符号化する。
タンパク質辞書情報243Aは、所定のタンパク質(既存のタンパク質)の符号と、コドン単位の符号の配列とを対応付ける静的辞書の情報である。以下の説明では、コドン単位の符号の配列を「コドン(アミノ酸)配列」と表記する。
動的辞書情報243Bは、タンパク質辞書情報243Aに登録されていないコドン配列を、タンパク質(未知タンパク質)の符号に動的符号化する場合に用いる動的辞書の情報である。
評価装置は、癌ゲノム50に対して、タンパク質の単位で、形態素解析を実行することで、癌ゲノムに含まれる複数の形態素を特定する。たとえば、一つの形態素には、一つのタンパク質に対応するコドン配列が含まれる。
評価装置は、癌ゲノム50に対して実行した形態素解析の結果と、タンパク質辞書情報243Aとを比較し、形態素が、タンパク質辞書情報243Aのコドン配列にヒットした場合には、癌ゲノム50の形態素を、タンパク質の符号に変換する。
評価装置は、癌ゲノム50に対して実行した形態素解析の結果と、タンパク質辞書情報243Aとを比較し、形態素が、タンパク質辞書情報243Aのコドン配列にヒットしない場合には、ユニークな登録番号を生成する。評価装置は、登録番号と、カウンタの初期値「1」と、形態素に含まれるコドン配列とを、動的辞書情報243Bに登録すると共に、癌ゲノム50の形態素を、登録番号に置き換えることで、符号化(動的符号化)する。
なお、評価装置は、タンパク質辞書情報234Aにヒットしない形態素のコドン配列が既に動的辞書情報243Bに登録されている場合には、該当する登録番号によって符号化すると共に、該当するカウンタに1を加算する。
評価装置は、上述したタンパク質辞書情報243Aによる符号化、動的辞書情報243Bによる動的符号化を繰り返し実行することで、コドン単位に符号化された癌ゲノム50から、タンパク質単位に符号化された癌ゲノム50Aを生成する。図示を省略するが、評価装置は、癌ゲノム50の先頭からのオフセットと、タンパク質の符号とを対応付けた転置インデックスを生成する。
評価装置は、癌ゲノムDBに登録された各癌ゲノムに対して上記処理を繰り返し実行することで、動的辞書情報243Bに、未知タンパク質のコドン配列を登録していく。タンパク質辞書情報234Aにヒットしない未知タンパク質は、癌特有のタンパク質に対応するコドン配列といる。
図16の説明に移行する。図16では、評価装置が、評価対象となる評価対象ゲノムデータ30に対して、突然変異「挿入」を発生させることで、新たな突然変異ゲノムデータ30Aを生成する。突然変異「挿入」を発生させ、突然変異ゲノムデータ30Aを生成する処理は、実施例1の図4で説明した処理と同様である。評価装置は、突然変異ゲノムデータ30Aの基準コドン「AAA(6Ah)」を、基準位置20Bを基にして特定する。
評価装置は、突然変異ゲノムデータ30Aに対して、タンパク質の単位で、形態素解析を実行することで、突然変異ゲノムデータ30Aに含まれる複数の形態素を特定する。たとえば、一つの形態素には、タンパク質に対応するコドン配列が含まれる。
評価装置は、突然変異ゲノムデータ30Aに対して実行した形態素解析の結果と、タンパク質辞書情報243Aとを比較し、突然変異ゲノムデータ30Aの形態素が、タンパク質辞書情報243Aのコドン配列にヒットした場合には、突然変異ゲノムデータ30Aの形態素を、タンパク質の符号に変換する。本実施例では、符号化したタンパク質を、適宜、タンパク質α、β、γ等のギリシャ文字によって表記する。
評価装置は、基準コドンを含む形態素のコドン配列が、タンパク質辞書情報243Aのコドン配列にヒットしない場合には、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットするか否かを判定する。評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットしない場合には、突然変異ゲノムデータ30Aに類似する癌ゲノムは、癌ゲノムDBに存在しないと判定する。
これに対して、評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットする場合には、突然変異ゲノムデータ30Aに類似する癌ゲノムは、癌ゲノムDBに存在すると判定する。たとえば、基準コドン「AAA(6Ah)」を含むコドン配列「UUC(41h)/AAA(6Ah)/GUA(72h)」は、動的辞書情報243Bに存在しているため、評価装置は、突然変異ゲノムデータ30Aに類似する癌ゲノムは、癌ゲノムDBに存在すると判定する。
評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットする場合には、登録番号によって、コドン配列を符号化する。評価装置は、上記処理を実行することで、タンパク質単位に符号化した、突然変異ゲノムデータ31Aを生成する。以下の説明では、類似度の評価のため、動的符号に符号化した、基準コドンを含む未知のタンパク質を便宜上、「基準タンパク質」と表記する。
図17の説明に移行する。評価装置は、基準タンパク質と、この基準タンパク質の前後の連続するタンパク質配列を特定する。以下の説明では、基準タンパク質と、この基準タンパク質の前後の連続するタンパク質配列を「基準タンパク質配列」と表記する。評価装置は、基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、基準タンパク質配列と一致するタンパク質の長さのうち、最大の長さを「類似度」として特定する。
癌ゲノム41Aを用いて説明する。評価装置は、癌ゲノム41Aと、基準タンパク質「未知タンパク質X4(A003h)」とを比較して、癌ゲノム41Aにおける基準タンパク質と同じタンパク質の位置20Iを特定する。評価装置は、癌ゲノム41Aの位置20Iの未知タンパク質X4を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質X4(A003h)、タンパク質β」および類似度「2」を特定する。
癌ゲノム41Bを用いて説明する。評価装置は、癌ゲノム41Bと、基準タンパク質「未知タンパク質X4(A003h)」とを比較して、癌ゲノム41Bにおける基準タンパク質と同じタンパク質の位置20J、20Kを特定する。評価装置は、癌ゲノム41Bの位置20Jの未知タンパク質X4を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「タンパク質α、未知タンパク質X4(A003h)、タンパク質β」および類似度「3」を特定する。
また、評価装置は、癌ゲノム41Bの位置20Kのタンパク質を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質X4(A003h)、タンパク質β」および類似度「2」を特定する。評価装置は、癌ゲノム41Bのように、基準タンパク質と同じタンパク質が複数存在する場合には、基準タンパク質配列と一致するタンパク質配列のうち、最も長いものを、該当する癌ゲノムにおける一致するタンパク質配列の類似度として特定する。たとえば、癌ゲノム41Bに関して、類似度は「3」となる。
評価装置は、他の癌ゲノムについても上記処理を繰り返し実行することで、癌ゲノム毎に、一致するタンパク質配列の長さ(類似度)を特定する。評価装置は、類似度が最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合に最も類似する癌ゲノムとして評価する。また、評価装置は、類似度の降順に、複数の癌ゲノムをソートし、上位の癌ゲノムの情報を、リスト表示する。
図18の説明に移行する。図18では、評価装置が、評価対象となる評価対象ゲノムデータ30に対して、突然変異「欠失」を発生させることで、新たな突然変異ゲノムデータ30Bを生成する。突然変異「欠失」を発生させ、突然変異ゲノムデータ30Bを生成する処理は、実施例1の図5で説明した処理と同様である。評価装置は、突然変異ゲノムデータ30Bの基準コドン「CAA(5Ah)」を、基準位置20Bを基にして特定する。
評価装置は、突然変異ゲノムデータ30Bに対して、タンパク質の単位で、形態素解析を実行することで、突然変異ゲノムデータ30Bに含まれる複数の形態素を特定する。
評価装置は、突然変異ゲノムデータ30Bに対して実行した形態素解析の結果と、タンパク質辞書情報243Aとを比較し、突然変異ゲノムデータ30Bの形態素が、タンパク質辞書情報243Aのコドン配列にヒットした場合には、突然変異ゲノムデータ30Bの形態素を、タンパク質の符号に変換する。
評価装置は、基準コドンを含む形態素のコドン配列が、タンパク質辞書情報243Aのコドン配列にヒットしない場合には、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットするか否かを判定する。評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットしない場合には、突然変異ゲノムデータ30Bに類似する癌ゲノムは、癌ゲノムDBに存在しないと判定する。
これに対して、評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットする場合には、突然変異ゲノムデータ30Aに類似する癌ゲノムは、癌ゲノムDBに存在すると判定する。たとえば、基準コドン「CAA(5Ah)」を含むコドン配列「UUU(40h)/CAA(5Ah)/AGU(6Ch)」は、動的辞書情報243Bに存在しているため、評価装置は、突然変異ゲノムデータ30Bに類似する癌ゲノムは、癌ゲノムDBに存在すると判定する。
評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報243Bのコドン配列にヒットする場合には、登録番号によって、コドン配列を符号化する。評価装置は、上記処理を実行することで、タンパク質単位に符号化した、突然変異ゲノムデータ31Bを生成する。
図19の説明に移行する。評価装置は、基準タンパク質と、基準タンパク質配列とを特定する。評価装置は、基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、基準タンパク質配列と一致するタンパク質の長さのうち、最大の長さを「類似度」として特定する。
癌ゲノム41Aを用いて説明する。評価装置は、癌ゲノム41Aと、基準タンパク質「未知タンパク質X1(A000h)」とを比較して、癌ゲノム41Aにおける基準タンパク質と同じタンパク質の位置20Lを特定する。評価装置は、癌ゲノム41Aの位置20Lの未知タンパク質X1を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質X1(A000h)、タンパク質γ」および類似度「2」を特定する。
癌ゲノム41Bを用いて説明する。評価装置は、癌ゲノム41Bと、基準タンパク質「未知タンパク質X1(A000h)」とを比較して、癌ゲノム41Bにおける基準タンパク質と同じタンパク質の位置20M、20Nを特定する。評価装置は、癌ゲノム41Bの位置20Mの未知タンパク質X1を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「タンパク質α、未知タンパク質X1(A000h)、タンパク質γ」および類似度「3」を特定する。
また、評価装置は、癌ゲノム41Bの位置20Nのタンパク質を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質X1(A000h)、タンパク質γ」および類似度「2」を特定する。評価装置は、癌ゲノム41Bのように、基準タンパク質と同じタンパク質が複数存在する場合には、基準タンパク質配列と一致するタンパク質配列のうち、最も長いものを、該当する癌ゲノムにおける一致するタンパク質配列の類似度として特定する。たとえば、癌ゲノム41Bに関して、類似度は「3」となる。
評価装置は、他の癌ゲノムについても上記処理を繰り返し実行することで、癌ゲノム毎に、一致するタンパク質配列の長さ(類似度)を特定する。評価装置は、類似度が最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合に最も類似する癌ゲノムとして評価する。また、評価装置は、類似度の降順に、複数の癌ゲノムをソートし、上位の癌ゲノムの情報を、リスト表示する。
上記のように、評価装置は、評価対象ゲノムデータ30の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ30A(30B)を生成する。評価装置は、突然変異ゲノムデータ30Aの基準ゲノムを起点とする基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、連続して一致するタンパク質の長さ(類似度)を特定する。評価装置は、連続して一致するタンパク質の長さが最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合の癌ゲノムとして評価する。
このように、評価装置では、突然変異を発生させるコドンを、変異対象コドンとして、開始コドンの次のコドンに固定することで、新たに生成するゲノムデータのバリエーションの数を抑止し、かつ、最長の突然変異した塩基配列を確保することができる。また、癌ゲノムと比較するタンパク質配列を、基準コドンを含む基準タンパク質配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、タンパク質の粒度で、癌特有のタンパク質配列との類似度の評価を行うことができる。
次に、本実施例2に係る評価装置の構成の一例について説明する。図20は、本実施例2に係る評価装置の構成を示す機能ブロック図である。図20に示すように、この評価装置200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。
通信部210は、ネットワークを介して他の外部装置(図示略)との間でデータ通信を実行する処理部である。たとえば、通信部210は、通信装置に対応する。たとえば、通信部210は、外部装置から、後述するゲノムDB141等を受信してもよい。
入力部220は、評価装置200に各種の情報を入力するための入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。
表示部230は、制御部250から出力される各種の情報を表示するための表示装置である。たとえば、表示部230は、液晶ディスプレイ、タッチパネル等に対応する。
記憶部240は、ゲノムDB141、癌ゲノムDB241、変換テーブル143、基準ゲノムデータ10、基準データ144、転置インデックステーブル242を有する。また、記憶部240は、タンパク質辞書情報243A、動的辞書情報243B、評価対象ゲノムデータ30、突然変異ゲノムデータテーブル147、リストデータ244を有する。記憶部240は、RAM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
ゲノムDB141は、実施例1の図3で説明した各ゲノムデータ11を保持するデータベースである。各ゲノムデータ11は、複数のヒトから、シークエンサー等によって、採取された塩基配列データである。各ゲノムデータ11は、コドン(3塩基配列)が順に配列されているものとする。各ゲノムデータ11は、変換テーブル143に基づいて、コドン単位で符号化されていてもよい。
癌ゲノムDB142は、複数種類の癌ゲノムを保持するデータベースである。図21は、本実施例2に係る癌ゲノムDBのデータ構造の一例を示す図である。図21に示すように、癌ゲノムDBは、識別情報と、塩基配列と、タンパク質配列と、類似度とを対応付ける。癌識別情報は、癌ゲノムを一意に識別する情報である。塩基配列は、癌ゲノムに対応する塩基配列である。タンパク質配列は、癌ゲノムに対応する符号化されたタンパク質の配列である。類似度は、突然変異ゲノムデータ30A(30B)と、癌ゲノムとの比較により算出される値である。類似度が大きいほど、突然変異ゲノムデータ30A(30B)と、癌ゲノムとが類似していることを示す。
変換テーブル143は、コドンと、コドンに対応する符号とを対応付けるテーブルである。変換テーブル143のデータ構造は、図8で説明したデータ構造と同様である。
基準ゲノムデータ10は、予め設定される基準の(遺伝子変異を含んでいない)塩基配列データである。たとえば、基準ゲノムデータ10は、複数のコドンが配列されている。
基準データ144は、実施例1の図3で説明した処理によって特定される「開始コドン位置」および「基準位置」の情報を有する。
転置インデックステーブル242は、各癌ゲノムに対する転置インデックスをそれぞれ保持するテーブルである。図22は、本実施例2に係る転置インデックステーブルのデータ構造の一例を示す図である。癌識別情報は、癌ゲノムを一意に識別する情報である。転置インデックスは、癌識別情報により識別される転置インデックスである。
図23は、本実施例2に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。図23において、転置インデックスの横軸は、癌ゲノムの先頭からのオフセットに対応する軸である。転置インデックスの縦軸は、タンパク質の種別(タンパク質の符号)に対応する軸である。転置インデックスは、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
たとえば、癌ゲノムの先頭のコドンの符号のオフセットを「0」とする。癌ゲノムの先頭から7番目の位置に、タンパク質の符号「タンパク質α」が含まれる場合、転置インデックスのオフセット「6」の列と、タンパク質の符号「タンパク質α」の行とが交差する位置のビットが「1」となる。癌ゲノムの先頭から20番目の位置に、タンパク質の符号「未知タンパク質X1(A000h)」が含まれる場合、転置インデックスのオフセット「19」の列と、タンパク質の符号「未知タンパク質X1(A000h)」の行とが交差する位置のビットが「1」となる。
タンパク質辞書情報243Aは、所定のタンパク質(既存のタンパク質)の符号と、コドン単位の符号の配列とを対応付ける静的辞書の情報である。図24は、本実施例2に係るタンパク質辞書情報のデータ構造の一例を示す図である。図24に示すように、このタンパク質辞書情報243Aは、タンパク質情報と、アミノ酸符号配列と、コドン符号配列とを対応付ける。
タンパク質情報には、タンパク質の「符号」と、タンパク質の属する「グループ」と、タンパク質の「名称」とが含まれる。アミノ酸符号配列は、タンパク質の符号(タンパク質の種別)に対応するアミノ酸の符号の配列である。コドン符号配列は、タンパク質の符号(タンパク質の種別)に対応するコドンの符号の配列である。
たとえば、タンパク質「一型コラーゲン」は、グループ「コラーゲン」に属し、符号は「タンパク質α」となる。符号「タンパク質α」に対するアミノ酸符号配列は「02h46h59h・・・03h」となる。また、コドン符号配列は「02h63h78h・・・03h」となる。
動的辞書情報243Bは、タンパク質辞書情報243Aに登録されていないコドン配列を、タンパク質(未知タンパク質)の符号に動的符号化する場合に用いる動的辞書の情報である。動的辞書情報243Bのデータ構造は、図15等で説明したように、登録番号と、カウンタと、コドン(アミノ酸)配列とを対応付ける。
評価対象ゲノムデータ30は、ユーザに指定される評価の対象となるゲノムデータである。評価対象ゲノムデータ30は、図16、図18で説明した評価対象ゲノムデータ30に対応するものである。
突然変異ゲノムデータテーブル147は、評価対象ゲノムデータ30に対して突然変異を発生させたゲノムデータを保持するテーブルである。たとえば、突然変異ゲノムデータテーブル147は、突然変異「挿入」を発生させた突然変異ゲノムデータ30Aと、突然変異「欠失」を発生させた突然変異ゲノムデータ30Bとを有する。
リストデータ244は、癌ゲノムDB241に格納された各癌ゲノムのうち、評価対象ゲノムデータ30が癌化した場合の癌ゲノムに類似する癌ゲノムを示すリストの情報である。
図20の説明に戻る。制御部250は、取得部251と、前処理部252と、生成部253と、特定部254と、評価部255とを有する。制御部250は、CPUやMPUなどによって実現できる。また、制御部250は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
取得部251は、ネットワークを介して外部装置等から各種の情報を取得する処理部である。たとえば、取得部251は、ゲノムDB141、癌ゲノムDB241(符号化前)、基準ゲノムデータ10を取得した場合に、取得したゲノムDB141、癌ゲノムDB241、基準ゲノムデータ10を、記憶部240に登録する。取得部251は、タンパク質辞書情報243Aを取得した場合に、タンパク質辞書情報243Aを、記憶部240に登録する。
また、取得部251は、入力部220または外部装置から、評価対象ゲノムデータ30を取得する。取得部251は、評価対象ゲノムデータ30を記憶部240に登録する。
前処理部252は、各種の前処理を実行する処理部である。たとえば、前処理部252は、転置インデックステーブル242を生成する処理、基準データ144を生成する処理を実行する。
前処理部252が、転置インデックステーブル242を生成する処理の一例について説明する。まず、前処理部252は、前処理部152と同様にして、癌ゲノムDB241に登録された塩基配列と、変換テーブル143とを比較して、塩基配列をコドン単位のコドン配列に符号化する。
前処理部252は、癌ゲノムDB142から、未選択の癌識別情報のコドン配列を取得し、コドン配列に対して、タンパク質の単位で、形態素解析を実行することで、癌ゲノムに含まれる複数の形態素を特定する。たとえば、一つの形態素には、一つのタンパク質に対応するコドン配列が含まれる。
前処理部252は、コドン配列に対して実行した形態素解析の結果と、タンパク質辞書情報243Aとを比較し、形態素が、タンパク質辞書情報243Aのコドン配列にヒットした場合には、形態素を、タンパク質の符号に変換する。また、前処理部252は、タンパク質の単位で、先頭を起点とする符号のオフセットを特定し、転置インデックスにおいて、オフセットと、タンパク質の符号とに対応する部分に「1」を設定する。
前処理部252は、コドン配列に対して実行した形態素解析の結果と、タンパク質辞書情報243Aとを比較し、形態素が、タンパク質辞書情報243Aのコドン配列にヒットしない場合には、ユニークな登録番号を生成する。前処理部252は、登録番号と、カウンタの初期値「1」と、形態素に含まれるコドン配列とを、動的辞書情報243Bに登録すると共に、形態素を、登録番号に置き換えることで、符号化(動的符号化)する。また、前処理部252は、タンパク質の単位で、先頭を起点する符号のオフセットを特定し、転置インデックスにおいて、オフセットと、タンパク質の符号(登録番号)とに対応する部分に「1」を設定する。
なお、前処理部252は、タンパク質辞書情報234Aにヒットしない形態素のコドン配列が既に動的辞書情報243Bに登録されている場合には、該当する登録番号によって符号化すると共に、該当するカウンタに1を加算する。また、前処理部252は、タンパク質の単位で、先頭を起点とする符号のオフセットを特定し、転置インデックスにおいて、オフセットと、タンパク質の符号(登録番号)とに対応する部分に「1」を設定する。
前処理部252は、癌ゲノムDB241に登録された各癌識別情報のコドン配列について、上記処理を繰り返し実行することで、動的辞書情報243Bに、未知タンパク質のコドン配列を登録すると共に、転置インデックスの該当部分に「1」を設定していく。また、前処理部252は、タンパク質の単位で符号化したタンパク質配列を、癌識別情報と対応付けて、癌ゲノムDB241に登録する。
前処理部252は、上記処理により生成した各癌識別情報に対応する転置インデックスを、転置インデックステーブル242に登録する。前処理部252は、実施例1と同様にして、転置インデックスを生成すると、情報量を削減するために、転置インデックスをハッシュ化してもよい。
続いて、前処理部252が基準データ144を生成する処理の一例について説明する。前処理部252が基準データ144を生成する処理は、実施例1の図3で説明した処理と同様であるため、説明を省略する。前処理部252は、開始コドン位置20Aおよび基準位置20Bの情報を、基準データ144として、記憶部240に登録する。
生成部253は、評価対象ゲノムデータ30に突然変異「挿入」、「欠失」を発生させることで、突然変異ゲノムデータ30A(30B)を生成する処理部である。生成部253は、生成した突然変異ゲノムデータ30A(30B)を、突然変異ゲノムデータテーブル147に登録する。生成部253が、突然変異ゲノムデータ30A(30B)を生成する処理は、実施例1で説明した生成部153の処理と同様である。
特定部254は、突然変異ゲノムデータ30A(30B)と、基準位置20Bとを基にして、突然変異ゲノムデータ30A(30B)の基準コドンを特定する。また、特定部254は、突然変異ゲノムデータ30A(30B)を、タンパク質の単位で形態素解析を実行し、基準コドンを含むコドン配列を特定する。特定部254は、基準コドンと、基準コドンを含むコドン配列の情報を、評価部255に出力する。
評価部255は、癌ゲノムのタンパク質配列と、突然変異ゲノムデータ30A(30B)の基準コドンを含むコドン配列とを基にして、各癌ゲノムと、突然変異ゲノムデータ30A(30B)との類似度を評価する処理部である。
評価部255は、動的辞書情報243Bと、基準コドンを含むコドン配列とを比較し、基準コドンを含むコドン配列が、動的辞書情報243Bのコドン配列に存在するか否かを判定する。評価部255は、基準コドンを含むコドン配列が、動的辞書情報243Bのコドン配列に存在しない場合には、突然変異ゲノムデータ30A(30B)に類似する癌ゲノムは、癌ゲノムDB241に存在しないと評価し、続く評価に関する処理をスキップする。
一方、評価部255は、基準コドンを含むコドン配列が、動的辞書情報243Bのコドン配列に存在する場合には、突然変異ゲノムデータ30A(30B)に類似する癌ゲノムが、癌ゲノムDB241に存在すると判定し、続く評価に関する処理を実行する。
評価部255は、図17、図19で説明したように、基準タンパク質と、基準タンパク質配列とを特定する。評価部255は、突然変異ゲノムデータ30A(30B)を、タンパク質辞書情報243Aおよび動的辞書情報243Bを基にして、タンパク質の粒度で符号化する。評価部255は、タンパク質の粒度で符号化した突然変異ゲノムデータ30A(30B)について、基準コドンを含むタンパク質の符号を、基準タンパク質として特定する。評価部255は、基準タンパク質の前後の連続するタンパク質配列を「基準タンパク質配列」として特定する。
評価部255は、基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、基準タンパク質配列と一致するタンパク質の長さのうち、最大の長さを「類似度」として特定する。
なお、評価部255は、一致するタンパク質の長さを特定する場合に、癌ゲノムの転置インデックスを利用する。以下において、評価部255が、転置インデックスを用いて、一致するタンパク質の長さを特定する処理の一例について説明する。
評価部255は、基準タンパク質配列と比較する癌ゲノムに対応する転置インデックスを、転置インデックステーブル242から取得する。評価部255は、基準タンパク質(符号)と、転置インデックスとを比較し、癌ゲノムのタンパク質配列上において、基準タンパク質と同一のタンパク質が出現する位置(オフセット)を特定し、比較する場合の起点とする。
評価部255は、転置インデックスの起点となる位置の前後の位置において、フラグ「1」に対応する行のタンパク質の符号を特定し、特定したタンパク質の符号が、基準タンパク質配列の符号と一致するか否かに応じて、一致するコドンの長さを特定する。
なお、評価部255は、転置インデックスから、基準タンパク質配列の各タンパク質に対応するビットマップを抽出し、シフトとAND演算を繰り返し実行することで、基準タンパク質配列の一部のタンパク質配列が、癌ゲノムのタンパク質配列上に含まれるか否かを評価することも可能である。かかる処理は、図12で説明したコドンの単位を、タンパク質の単位に置き換えた処理に対応する。
評価部255は、同一の癌ゲノムについて、突然変異ゲノムデータ30Aとの類似度、突然変異ゲノムデータ30Bとの類似度を評価する。評価部255は、各類似度を癌ゲノムDB241に登録してもよいし、大きい方の類似度を、癌ゲノムDB241に登録してもよい。
評価部255は、上記処理を繰り返し実行することで、癌ゲノムDB241の各癌識別情報に対応する類似度を登録する。
評価部255は、癌ゲノムDB241の各類似度を走査し、最大の類似度となる癌識別情報を特定し、特定した癌識別情報に対応する癌ゲノムの塩基配列データを、癌ゲノムDB241から検索し、検索した癌ゲノムのタンパク質配列を、表示部230に出力して表示させる。
また、評価部255は、癌ゲノムDB241の各類似度を走査し、類似度の降順に各癌識別情報をソートする。評価部255は、ソートした各癌識別情報のうち、上位Nの癌識別情報を、リストデータ244に登録する。評価部255は、上位Nの癌識別情報に対応する癌ゲノムのタンパク質配列を癌ゲノムDB241から検索し、リストデータ244に登録してもよい。評価部255は、リストデータ244を表示部230に出力して表示させてもよいし、ネットワークを介して、外部装置に送信してもよい。
評価部255は、実施例1と同様にして、転置インデックスのビットマップがハッシュ化されている場合には、ハッシュ化されたビットマップを復元する。
次に、本実施例2に係る評価装置200の処理手順の一例について説明する。図25は、本実施例2に係る評価装置が転置インデックステーブルを生成する処理手順を示すフローチャートである。図25に示すように、評価装置200の前処理部252は、未選択の癌識別情報を選択し、選択した癌識別情報に対応するコドン配列を癌ゲノムDB241から取得する(ステップS201)。前処理部252は、選択した癌識別情報に対応する転置インデックスを初期化する(ステップS202)。
前処理部252は、コドン配列に対して形態素解析を実行する(ステップS203)。前処理部252は、形態素に対応するコドン配列が、タンパク質辞書情報243Aに含まれる場合、形態素を、既知のタンパク質の符号に符号化し、転置インデックスを更新する(ステップS204)。
前処理部252は、形態素に対するコドン配列が、タンパク質辞書情報243Aに含まれていない場合、形態素を、動的符号化し、転置インデックスを更新する(ステップS205)。前処理部252は、全ての形態素を選択していない場合には(ステップS206,No)、ステップS204に移行する。
前処理部252は、全ての形態素を選択した場合には(ステップS206,Yes)、転置インデックスを転置インデックステーブル242に登録する(ステップS207)。前処理部252は、全ての癌識別情報を選択していない場合には(ステップS208,No)、ステップS201に移行する。前処理部252は、全ての癌識別情報を選択した場合には(ステップS208,Yes)、転置インデックステーブル242を生成する処理を終了する。
図26および図27は、評価装置が実行する評価処理の処理手順を示すフローチャートである。図26について説明する。評価装置200の取得部251は、評価対象ゲノムデータ30を取得し、記憶部240に登録する(ステップS301)。
評価装置200の生成部253は、評価対象ゲノムデータ30に突然変異を発生させて、突然変異ゲノムデータ30A(30B)を生成し、突然変異ゲノムデータテーブル147に登録する(ステップS302)。
評価装置200の評価部255は、基準データ144と、突然変異ゲノムデータ30A(30B)とを基にして、基準コドンを特定する(ステップS303)。評価装置200は、突然変異ゲノムデータ30A(30B)を基にして、形態素解析を実行する(ステップS304)。
評価部255は、基準コドンを含む形態素が、未知タンパク質であり、かつ、この未知タンパク質が、動的辞書情報243Bに登録されているという条件を満たすか否かを判定する(ステップS305)。評価部255は、条件を満たさない場合には(ステップS306,No)、類似の癌ゲノムはないと評価する(ステップS307)。
一方、条件を満たす場合には(ステップS306,Yes)、評価装置200の特定部254は、基準タンパク質配列を特定し(ステップS308)、図27のステップS309に移行する。
図27の説明に移行する。評価部255は、未選択の癌識別情報を選択する(ステップS309)。評価部255は、選択した癌識別情報の転置インデックスと、基準タンパク質配列とを基にして、類似度を算出する(ステップS310)。評価部255は、選択した癌識別情報と類似度とを対応付けて癌ゲノムDB241に登録する(ステップS311)。
評価部255は、全ての癌識別情報を選択していない場合には(ステップS312,No)、ステップS309に移行する。評価部255は、類似度の降順に、各癌識別情報をソートする(ステップS313)。
評価部255は、上位の癌識別情報に対応する癌ゲノムのタンパク質配列を、リストデータ244に登録する(ステップS314)。評価部255は、リストデータ244を表示部230に出力して表示させる(ステップS315)。
次に、本実施例2に係る評価装置200の効果について説明する。評価装置200は、評価対象ゲノムデータ30の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ30A(30B)を生成する。評価装置200は、突然変異ゲノムデータ30A(30B)の基準ゲノムを起点とする基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、連続して一致するタンパク質の長さ(類似度)を特定する。評価装置200は、連続して一致するタンパク質の長さが最大となる癌ゲノムを、評価対象ゲノムデータ30が癌化した場合の癌ゲノムとして評価する。
このように、評価装置200では、突然変異を発生させるコドンを、変異対象コドンに固定するため、新たに生成するゲノムデータのバリエーションの数を抑止することができる。また、癌ゲノムと比較するタンパク質配列を、基準コドンを含む基準タンパク質配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、タンパク質の粒度で、癌特有のタンパク質配列との類似度の評価を行うことができる。
次に、本実施例に示した評価装置200(100)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図28は、本実施例に係る評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図28に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置305とを有する。コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
ハードディスク装置307は、取得プログラム307a、前処理プログラム307b、生成プログラム307c、特定プログラム307d、評価プログラム307eを有する。CPU301は、取得プログラム307a、前処理プログラム307b、生成プログラム307c、特定プログラム307d、評価プログラム307eを読み出してRAM306に展開する。
取得プログラム307aは、取得プロセス306aとして機能する。前処理プログラム307bは、前処理プロセス306bとして機能する。生成プログラム307cは、生成プロセス306cとして機能する。特定プログラム307dは、特定プロセス306dとして機能する。評価プログラム307eは、評価プロセス306eとして機能する。
取得プロセス306aの処理は、取得部151,251の処理に対応する。前処理プロセス306bの処理は、前処理部152,252の処理に対応する。生成プロセス306cの処理は、生成部153,253の処理に対応する。特定プロセス306dの処理は、特定部154,254の処理に対応する。評価プロセス306eの処理は、評価部155,255の処理に対応する。
なお、各プログラム307a~307eについては、必ずしも最初からハードディスク装置307に記憶させておかなくてもよい。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307eを読み出して実行するようにしてもよい。
10 基準ゲノムデータ
30 評価対象ゲノムデータ
100,200 評価装置
120,220 入力部
130,230 表示部
140,240 記憶部
141 ゲノムDB
142,241 癌ゲノムDB
143 変換テーブル
144 基準データ
145,242 転置インデックステーブル
147 突然変異ゲノムデータテーブル
148,244 リストデータ
150,250 制御部
151,251 取得部
152,252 前処理部
153,253 生成部
154,254 特定部
155,255 評価部
243A タンパク質辞書情報
243B 動的辞書情報

Claims (8)

  1. 塩基配列データを取得し、
    取得した前記塩基配列データに含まれる複数の塩基の前記塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成し、
    生成した前記新たな塩基配列データに含まれる複数の塩基を前記新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定し、
    特定した前記部分塩基列と、前記複数の部分塩基列のうち、特定した前記部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した前記塩基配列データに関する評価を行う
    処理をコンピュータが実行することを特徴とする評価方法。
  2. 前記新たな塩基配列データを生成する処理は、取得した前記塩基配列データ上の前記基準位置の部分塩基列に続く部分塩基配列に、塩基を挿入することで、前記新たな塩基配列データを生成することを特徴とする請求項1に記載の評価方法。
  3. 前記新たな塩基配列データを生成する処理は、取得した前記塩基配列データ上の前記基準位置の部分塩基列に続く部分塩基配列の塩基を欠失させることで、前記新たな塩基配列データを生成することを特徴とする請求項1に記載の評価方法。
  4. 前記複数の部分塩基列を特定する処理は、前記新たな塩基配列データ上の基準位置から、コドン単位で区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定されるコドンを含む部分塩基列を特定することを特徴とする請求項1、2または3に記載の評価方法。
  5. 前記複数の部分塩基列を特定する処理は、前記新たな塩基配列データ上の基準位置から、タンパク質単位で区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定されるタンパク質を含む部分塩基列を特定することを特徴とする請求項1、2または3に記載の評価方法。
  6. 前記評価する処理は、前記並びと、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列とを比較し、連続して一致する部分塩基列の数を評価することを特徴とする請求項1、2または3に記載の評価方法。
  7. 塩基配列データを取得し、
    取得した前記塩基配列データに含まれる複数の塩基の前記塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成し、
    生成した前記新たな塩基配列データに含まれる複数の塩基を前記新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定し、
    特定した前記部分塩基列と、前記複数の部分塩基列のうち、特定した前記部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した前記塩基配列データに関する評価を行う
    処理をコンピュータに実行させることを特徴とする評価プログラム。
  8. 塩基配列データを取得する取得部と、
    取得した前記塩基配列データに含まれる複数の塩基の前記塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成する生成部と、
    生成した前記新たな塩基配列データに含まれる複数の塩基を前記新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定する特定部と、
    特定した前記部分塩基列と、前記複数の部分塩基列のうち、特定した前記部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した前記塩基配列データに関する評価を行う評価部と
    を有することを特徴とする評価装置。
JP2021519077A 2019-05-13 2019-05-13 評価方法、評価プログラムおよび評価装置 Active JP7188573B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/018965 WO2020230240A1 (ja) 2019-05-13 2019-05-13 評価方法、評価プログラムおよび評価装置

Publications (2)

Publication Number Publication Date
JPWO2020230240A1 JPWO2020230240A1 (ja) 2021-12-16
JP7188573B2 true JP7188573B2 (ja) 2022-12-13

Family

ID=73289840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519077A Active JP7188573B2 (ja) 2019-05-13 2019-05-13 評価方法、評価プログラムおよび評価装置

Country Status (6)

Country Link
US (1) US20220068435A1 (ja)
EP (1) EP3971903A4 (ja)
JP (1) JP7188573B2 (ja)
CN (1) CN113811949A (ja)
AU (1) AU2019445845B2 (ja)
WO (1) WO2020230240A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022224336A1 (ja) 2021-04-20 2022-10-27 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099436A (ja) 2001-09-20 2003-04-04 Pharma Design Inc cSNP情報提供データベースシステム、プログラム及び記録媒体
JP2004139254A (ja) 2002-10-16 2004-05-13 Nec Soft Ltd 近傍遺伝子情報検索装置及び方法
JP2004261179A (ja) 2003-02-14 2004-09-24 Research Association For Biotechnology 新規タンパク質およびそれをコードするdna
JP2006075162A (ja) 2004-09-13 2006-03-23 Agency For Science Technology & Research 遺伝子の転写物マッピング方法及びシステム
WO2012034030A1 (en) 2010-09-09 2012-03-15 Omicia, Inc. Variant annotation, analysis and selection tool

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912652B2 (en) * 2002-04-10 2011-03-22 Applied Biosystems, Llc System and method for mutation detection and identification using mixed-base frequencies
JP2004357702A (ja) 2003-05-09 2004-12-24 Research Association For Biotechnology 新規蛋白質およびそれをコードするdna
JP5672596B2 (ja) 2010-02-23 2015-02-18 独立行政法人産業技術総合研究所 立体配座相同性評価装置及び評価方法並びに構造パターン解析装置及び解析方法
JP2012146067A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法
WO2014119914A1 (ko) * 2013-02-01 2014-08-07 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
JP2016077227A (ja) * 2014-10-17 2016-05-16 国立大学法人大阪大学 ゲノム解析装置、ゲノム解析方法及びゲノム解析プログラム
JP7067896B2 (ja) * 2017-10-27 2022-05-16 シスメックス株式会社 品質評価方法、品質評価装置、プログラム、および記録媒体
EP3848935A4 (en) * 2018-09-07 2021-09-01 Fujitsu Limited SPECIFICATION PROCESS, SPECIFICATION PROGRAM, AND INFORMATION PROCESSING DEVICE

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099436A (ja) 2001-09-20 2003-04-04 Pharma Design Inc cSNP情報提供データベースシステム、プログラム及び記録媒体
JP2004139254A (ja) 2002-10-16 2004-05-13 Nec Soft Ltd 近傍遺伝子情報検索装置及び方法
JP2004261179A (ja) 2003-02-14 2004-09-24 Research Association For Biotechnology 新規タンパク質およびそれをコードするdna
JP2006075162A (ja) 2004-09-13 2006-03-23 Agency For Science Technology & Research 遺伝子の転写物マッピング方法及びシステム
WO2012034030A1 (en) 2010-09-09 2012-03-15 Omicia, Inc. Variant annotation, analysis and selection tool

Also Published As

Publication number Publication date
EP3971903A4 (en) 2022-06-08
CN113811949A (zh) 2021-12-17
WO2020230240A1 (ja) 2020-11-19
AU2019445845B2 (en) 2023-04-27
EP3971903A1 (en) 2022-03-23
JPWO2020230240A1 (ja) 2021-12-16
AU2019445845A1 (en) 2021-12-09
US20220068435A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
Ye et al. RAPSearch: a fast protein similarity search tool for short reads
Krishnamoorthy et al. Development of a four-body statistical pseudo-potential to discriminate native from non-native protein conformations
Wu et al. PMBC: Pattern mining from biological sequences with wildcard constraints
Haque et al. Pairwise sequence alignment algorithms: a survey
JP5985040B2 (ja) データ解析装置、及びその方法
US20210183466A1 (en) Identification method, information processing device, and recording medium
JP7188573B2 (ja) 評価方法、評価プログラムおよび評価装置
Wan et al. Discovering simple regions in biological sequences associated with scoring schemes
Zhao et al. Multitrans: an algorithm for path extraction through mixed integer linear programming for transcriptome assembly
JP7287005B2 (ja) 特定方法、特定プログラムおよび特定装置
Fu et al. A parsimony approach to genome-wide ortholog assignment
WO2022244089A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Li et al. Optimizing spaced $ k $-mer neighbors for efficient filtration in protein similarity search
WO2022264216A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
WO2022264385A1 (ja) 検索方法、検索プログラムおよび情報処理装置
Brito et al. Rearrangement distance with reversals, indels, and moves in intergenic regions on signed and unsigned permutations
Wang Using PhyloCon to identify conserved regulatory motifs
Startek et al. Efficient alternatives to PSI-BLAST
Yu et al. A new algorithm for DNA motif discovery using multiple sample sequence sets
Edgar et al. Muscle-3D: scalable multiple protein structure alignment
Yang et al. Homology prediction refinement and reconstruction of gene content and order of ancestral bacterial genomes
Lai et al. Using Genetic Algorithm to Solve Multiple Sequence Alignment Problem
Chen et al. Fold recognition via a tree
Shi et al. Accurate identification of ortholog groups among multiple genomes
Peterlongo DiscoSnp-RAD: de novo detection of small

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210818

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221114

R150 Certificate of patent or registration of utility model

Ref document number: 7188573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150