JP7188573B2

JP7188573B2 - 評価方法、評価プログラムおよび評価装置

Info

Publication number: JP7188573B2
Application number: JP2021519077A
Authority: JP
Inventors: 正弘片岡; 量松村; 薫茂櫛
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2022-12-13
Anticipated expiration: 2039-05-13
Also published as: EP3971903A4; CN113811949A; WO2020230240A1; AU2019445845B2; EP3971903A1; JPWO2020230240A1; AU2019445845A1; US20220068435A1

Description

本発明は、評価方法等に関する。

ゲノム創薬とは、ゲノム情報をもとに病気と遺伝子の関連を解析することによって、より論理的、科学的に新たな医薬品を開発しようとするアプローチ法である。このアプローチ法では、解読されたゲノムの塩基配列データからいかにして特定の機能をもつ標的遺伝子を探索し、創薬に結びつけるのかが重要である。

現在では、塩基配列データに加えて、一塩基多型（ＳＮＰｓ）をはじめとするヒトゲノム多型データが着々とデータベースに蓄積されつつある。このデータベースを用いて、ポジショナルクローニングと呼ばれる解析を行い、創薬を目指す疾患に関連する標的遺伝子を見つけることが可能になっている。

また、ヒトの検体やマウス等の病態モデルを用いて、病気の組織と、正常組織とで発現が変化している遺伝子を見つけることで、ゲノム創薬に役立てている。たとえば、正常な塩基配列データに対して仮想的な突然変異を発生させ、癌ゲノム等の特定の塩基配列データとの類似度の評価を行い、正常な塩基配列データが突然変異によって癌化する可能性を推定する従来技術がある。この従来技術では、正常な塩基配列データのランダムな位置に対して、多様な突然変異を発生させ、各種の癌ゲノムの塩基配列データとの類似度を評価している。

従来技術では、癌や新型ウィルスを分析する場合に、ＦＡＳＴＡやＢＬＡＳＴが用いられる。ＦＡＳＴＡやＢＬＡＳＴでは、塩基配列をアミノ酸の記号に翻訳して、アミノ酸を比較の単位として、相同性検索を行い、既知の塩基配列データとの類似性を判定する。図２９は、相同性検索で使用するスコア行列を示す図である。

特開２００４－３５７７０２号公報特開２００６－０７５１６２号公報特開２０１１－１９３８６８号公報

しかしながら、上述した従来技術では、正常な塩基配列データのランダムな位置に多様な突然変異を発生させているため、バリエーションが多い。このため、網羅的に、突然変異を発生させた塩基配列データと、各癌ゲノムの塩基配列データとの類似度を評価する場合に処理量が多く、評価に時間を要するという問題がある。

１つの側面では、本発明は、塩基配列データの評価を高速化することができる評価方法、評価プログラムおよび評価装置を提供することを目的とする。

第１の案では、コンピュータは、次の処理を実行する。コンピュータは、塩基配列データを取得し、取得した塩基配列データに含まれる複数の塩基の塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成する。コンピュータは、生成した新たな塩基配列データに含まれる複数の塩基を新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定する。コンピュータは、特定した部分塩基列と、複数の部分塩基列のうち、特定した部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を所定の塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した塩基配列データに関する評価を行う。

塩基配列データの評価を高速化することができる。

図１は、ゲノムを説明するための図である。図２は、アミノ酸と塩基、およびコドンとの関係を示す図である。図３は、本実施例１に係る評価装置の処理を説明するための図（１）である。図４は、本実施例１に係る評価装置の処理を説明するための図（２）である。図５は、本実施例１に係る評価装置の処理を説明するための図（３）である。図６は、本実施例１に係る評価装置の構成を示す機能ブロック図である。図７は、本実施例１に係る癌ゲノムＤＢのデータ構造の一例を示す図である。図８は、本実施例１に係る変換テーブルのデータ構造の一例を示す図である。図９は、本実施例１に係る転置インデックステーブルのデータ構造の一例を示す図である。図１０は、本実施例１に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。図１１は、転置インデックスをハッシュ化する処理の一例を説明するための図である。図１２は、本実施例１に係る評価部の処理の一例を説明するための図である。図１３は、ハッシュ化されたビットマップを復元する処理を説明するための図である。図１４は、本実施例１に係る評価装置の処理手順を示すフローチャートである。図１５は、本実施例２に係る評価装置の処理を説明するための図（１）である。図１６は、本実施例２に係る評価装置の処理を説明するための図（２）である。図１７は、本実施例２に係る評価装置の処理を説明するための図（３）である。図１８は、本実施例２に係る評価装置の処理を説明するための図（４）である。図１９は、本実施例２に係る評価装置の処理を説明するための図（５）である。図２０は、本実施例２に係る評価装置の構成を示す機能ブロック図である。図２１は、本実施例２に係る癌ゲノムＤＢのデータ構造の一例を示す図である。図２２は、本実施例２に係る転置インデックステーブルのデータ構造の一例を示す図である。図２３は、本実施例２に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。図２４は、本実施例２に係るタンパク質辞書情報のデータ構造の一例を示す図である。図２５は、本実施例２に係る評価装置が転置インデックステーブルを生成する処理手順を示すフローチャートである。図２６は、評価装置が実行する評価処理の処理手順を示すフローチャート（１）である。図２７は、評価装置が実行する評価処理の処理手順を示すフローチャート（２）である。図２８は、本実施例に係る評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２９は、相同性検索で使用するスコア行列を示す図である。

以下に、本願の開示する評価方法、評価プログラムおよび評価装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

本実施例１の説明を行う前に、ゲノムについて説明する。図１は、ゲノムを説明するための図である。ゲノム１は、複数のアミノ酸が連結する遺伝子情報である。ここで、アミノ酸は、複数の塩基、コドンによって決定される。また、ゲノム１には、タンパク質１ａが含まれる。タンパク質１ａは、２０種類のアミノ酸が複数結合し、鎖状に多数が連結したものである。タンパク質１ａの構造には、一次構造、二次構造、三次（高次）構造が存在する。タンパク質１ｂは、高次構造のタンパク質である。

ＤＮＡおよびＲＮＡの塩基は４種類で、「Ａ」、「Ｇ」、「Ｃ」、「Ｔ」または「Ｕ」の記号で示される。また、３つの塩基配列がひとかたまりで、２０種類のアミノ酸を決定する。それぞれのアミノ酸は、「Ａ」～「Ｙ」の記号で示される。図２は、アミノ酸と塩基、およびコドンとの関係を示す図である。３つの塩基配列のかたまりは「コドン」と呼ばれる。各塩基の並びで、コドンが決定され、コドンが決定されるとアミノ酸が決定される。

図２に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン（Ala）」は、コドン「ＧＣＵ」、「ＧＣＣ」、「ＧＣＡ」、または、「ＧＣＧ」に対応付けられる。

次に、本実施例１に係る評価装置の処理の一例について説明する。図３、図４、図５は、本実施例１に係る評価装置の処理を説明するための図である。まず、図３について説明する。基準ゲノムデータ１０は、基準となるヒトの全体の塩基配列データである。各ゲノムデータ１１は、複数のヒトから、シークエンサー等によって、採取された塩基配列データである。基準ゲノムデータ１０および複数のゲノムデータ１１の塩基配列データには、複数のコドン（３塩基配列）が配列されている。コドンに含まれる３つの塩基のうち、先頭から１番目の塩基を第１塩基、２番目の塩基を第２塩基、３番目の塩基を第３塩基と表記する。

評価装置は、先頭から順に、基準ゲノムデータ１０の塩基配列と、各ゲノムデータ１１の塩基配列とをコドン単位に比較し、コドンの位置毎に、異なる塩基を含む１塩基多型のコドンの個数を集計する。基準ゲノムデータ１０のコドンと異なる１塩基多型のコドンは、親から子に、子から孫に引き継がれるため、「遺伝子変異」とも呼ばれる。以下の説明では、先頭からのコドンの位置Ｎにおける、各ゲノムデータ１１の塩基配列のうち、位置Ｎにおける基準ゲノムデータ１０のコドンと異なるコドンの個数を「変異コドン数」と表記する。

評価装置は、位置毎に、変異コドン数を算出し、各位置のうち、変異コドン数が最大となるコドンの位置を特定する。以下の説明では、類似度の評価のため、変異コドン数が最大となる位置のコドンを便宜上、「基準コドン」と表記する。たとえば、変異コドン数が最大となるコドンの位置が位置１０Ａである場合には、基準ゲノムデータ１０のコドン１０Ｂが基準コドンとなる。

評価装置は、基準コドン１０Ｂから、Ｍ個前のコドンを開始コドン１５として特定する。また、評価装置は、開始コドン１５の次のコドンを仮想的な突然変異を発生させるコドンとして選択し、変異対象コドン１６を特定する。評価装置は、コドンの粒度で、先頭を基準とした開始コドン１５の位置を示す開始コドン位置２０Ａを特定する。評価装置は、コドンの粒度で、先頭を基準とした基準コドン１０Ｂの位置を示す基準位置２０Ｂを特定する。

図４の説明に移行する。図４では、評価装置が、評価対象となる評価対象ゲノムデータ３０に対して、突然変異「挿入」を発生させる場合について説明する。評価装置は、評価対象ゲノムデータ３０を取得する。評価対象ゲノムデータ３０は、コドン単位で符号化されているものとする。本実施例１では便宜上、符号化前のコドンの隣に、符号化後の符号を括弧書きで示す。たとえば、コドン「ＡＵＧ」は、符号「６３ｈ」に変換されるが、変換された符号を「ＡＵＧ（６３ｈ）」と表記する。「ｈ」は１６進数であることを示すものである。

評価装置は、評価対象ゲノムデータ３０と、開始コドン位置２０Ａとを基にして、開始コドン「ＡＵＧ（６３ｈ）」を特定し、開始コドンの次の変異対象コドン「ＵＵＵ（４０ｈ）」を特定する。評価装置は、変異対象コドン「ＵＵＵ（４０ｈ）」の先頭に塩基「Ａ」を挿入し、突然変異「挿入」を発生させる。

たとえば、評価装置は、変異対象コドンの第１塩基に「Ａ」を挿入し、挿入前の第１塩基を第２塩基にシフトし、挿入前の第２塩基を第３塩基にシフトすることで、変異対象コドン「ＵＵＵ（４０ｈ）」を「ＡＵＵ（６０ｈ）」とする。また、変異対象コドンに続くコドンについても、塩基を右方向にシフトさせる。たとえば、変異対象コドンの次のコドンについて、変異対象コドンの第３塩基を、次のコドンの第１塩基に挿入し、続く塩基も右方向にシフトさせる。これにより、基準コドン「ＵＣＡ（４６ｈ）」の第３塩基「Ａ」は、「ＡＡＡ（６Ａｈ）」の第１塩基となり、基準位置も右方向にシフトする。

評価装置は、評価対象ゲノムデータ３０に対して突然変異「挿入」を発生させることで、新たな突然変異ゲノムデータ３０Ａを生成する。ここでは、変異対象コドンに塩基「Ａ」を挿入する場合について説明したが、他の塩基「Ｕ」、「Ｇ」、「Ｃ」を挿入させてもよい。

評価装置は、突然変異ゲノムデータ３０Ａと、基準位置２０Ｂとを基にして、基準コドン「ＡＡＡ（６Ａｈ）」を特定する。評価装置は、基準コドン「ＡＡＡ（６Ａｈ）」、および、この基準コドンの前後連続するコドンと、各癌ゲノムの塩基配列とを比較して、一致するコドンと、一致するコドンの長さを特定する。一致するコドンの長さが大きいほど、突然変異ゲノムデータ３０Ａと、癌ゲノムとが類似しているといえるため、一致するコドンの長さ（最大の長さ）は「類似度」といえる。

以下の説明では、基準コドンと、この基準コドンの前後の連続するコドンを、「基準コドン配列」と表記する。評価装置は、癌ゲノムの塩基配列と、基準コドン配列とを比較する場合に、癌ゲノムの転置インデックスを用いることで高速化を図ることができる。癌ゲノムの転置インデックスは、癌ゲノムの先頭からのオフセットと、コドン（符号化されたコドン）の種別とを対応付けた情報である。

癌ゲノム４０Ａを用いて説明する。評価装置は、癌ゲノム４０Ａと、基準コドン「ＡＡＡ（６Ａｈ）」とを比較して、癌ゲノム４０Ａにおける基準コドンと同じコドンの位置２０Ｃを特定する。評価装置は、癌ゲノム４０Ａの位置２０Ｃのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「ＡＡＡ（６Ａｈ）、ＧＵＡ（７２ｈ）」および類似度「２」を特定する。

癌ゲノム４０Ｂを用いて説明する。評価装置は、癌ゲノム４０Ｂと、基準コドン「ＡＡＡ（６Ａｈ）」とを比較して、癌ゲノム４０Ｂにおける基準コドンと同じコドンの位置２０Ｄ、２０Ｅを特定する。評価装置は、癌ゲノム４０Ｂの位置２０Ｄのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「ＵＵＣ（４１ｈ）、ＡＡＡ（６Ａｈ）、ＧＵＡ（７２ｈ）」および類似度「３」を特定する。

また、評価装置は、癌ゲノム４０Ｂの位置２０Ｅのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「ＡＡＡ（６Ａｈ）、ＧＵＡ（７２ｈ）」および類似度「２」を特定する。評価装置は、癌ゲノム４０Ｂのように、基準コドンと同じコドンが複数存在する場合には、基準コドン配列と一致するコドン配列のうち、最も長いものを、該当する癌ゲノムにおける一致するコドン配列の類似度として特定する。たとえば、癌ゲノム４０Ｂに関して、類似度は「３」となる。

評価装置は、他の癌ゲノムについても上記処理を繰り返し実行することで、癌ゲノム毎に、一致するコドン配列の長さ（類似度）を特定する。評価装置は、類似度が最大となる癌ゲノムを、評価対象ゲノムデータ３０が癌化した場合に最も類似する癌ゲノムとして評価する。また、評価装置は、類似度の降順に、複数の癌ゲノムをソートし、上位の癌ゲノムの情報を、リスト表示する。

図５の説明に移行する。図５では、評価装置が、正常な評価対象ゲノムデータ３０に対して、突然変異「欠失」を発生させる場合について説明する。評価装置は、評価対象となる正常な評価対象ゲノムデータ３０を取得する。

評価装置は、評価対象ゲノムデータ３０と、開始コドン位置２０Ａとを基にして、開始コドン「ＡＵＧ（６３ｈ）」を特定し、開始コドンの次の変異対象コドン「ＵＵＵ（４０ｈ）」を特定する。評価装置は、変異対象コドン「ＵＵＵ（４０ｈ）」の先頭の塩基（第１塩基）を取り除き、突然変異「欠失」を発生させる。

たとえば、評価装置は、変異対象コドンの第１塩基に「Ｕ」を削除し、欠失前の第２塩基を第１塩基にシフトし、欠失前の第３塩基を第２塩基にシフトし、変異対象コドンの次のコドンの第１塩基を、変異対象コドンの第３塩基にシフトすることで、変異対象コドン「ＵＵＵ（４０ｈ）」を「ＵＵＣ（４１ｈ）」とする。また、変異対象コドンに続くコドンについても、塩基を左方向にシフトさせる。たとえば、変異対象コドンの位置を２０Ａ＋１とし、位置２０Ａ＋２のコドンを第１コドンとし、位置２０Ａ＋３のコドンを第２コドンとする。第１コドンの第２塩基を第１コドンにシフトさせ、第１コドンの第３塩基を第２塩基にシフトさせ、第２コドンの第１塩基を、第１コドンの第３塩基にシフトさせる。評価装置は、続く塩基も左方向にシフトさせる。

評価装置は、正常な評価対象ゲノムデータ３０に対して突然変異「欠失」を発生させることで、新たな突然変異ゲノムデータ３０Ｂを生成する。

評価装置は、突然変異ゲノムデータ３０Ｂと、基準位置２０Ｂとを基にして、基準コドン「ＣＡＡ（５Ａｈ）」を特定する。評価装置は、基準コドン「ＣＡＡ（５Ａｈ）」、および、この基準コドンの前後連続するコドン（基準コドン配列）と、各癌ゲノムの塩基配列とを比較して、一致するコドンと、一致するコドンの長さを特定する。

癌ゲノム４０Ｃを用いて説明する。評価装置は、癌ゲノム４０Ｃと、基準コドン「ＣＡＡ（５Ａｈ）」とを比較して、癌ゲノム４０Ｃにおける基準コドンと同じコドンの位置２０Ｆを特定する。評価装置は、癌ゲノム４０Ｃの位置２０Ｆのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）」および長さ「２」を特定する。

癌ゲノム４０Ｄを用いて説明する。評価装置は、癌ゲノム４０Ｄと、基準コドン「ＣＡＡ（５Ａｈ）」とを比較して、癌ゲノム４０Ｄにおける基準コドンと同じコドンの位置２０Ｇ、２０Ｈを特定する。評価装置は、癌ゲノム４０Ｄの位置２０Ｇのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）、ＡＧＵ（６Ｃｈ）」および長さ「３」を特定する。

また、評価装置は、癌ゲノム４０Ｄの位置２０Ｈのコドンを起点として、基準コドン配列と比較し、一致するコドン配列「ＣＡＡ（５Ａｈ）、ＡＧＵ（６Ｃｈ）」および長さ「２」を特定する。評価装置は、癌ゲノム４０Ｄのように、基準コドンと同じコドンが複数存在する場合には、基準コドン配列と一致するコドン配列のうち、最も長いものを、該当する癌ゲノムにおける一致するコドン配列の長さとして特定する。たとえば、癌ゲノム４０Ｄに関して、一致するコドン配列の長さは、「３」となる。

評価装置は、他の癌ゲノムについても上記処理を繰り返し実行することで、癌ゲノム毎に、一致するコドン配列の長さを特定する。評価装置は、一致するコドン配列の長さが最大となる癌ゲノムを、評価対象ゲノムデータ３０が癌化した場合に最も類似する癌ゲノムとして評価する。評価装置は、一致するコドン配列の長さの降順に、複数の癌ゲノムをソートし、上位の癌ゲノムの情報を、リスト表示する。

上記のように、評価装置は、評価対象ゲノムデータ３０の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成する。評価装置は、突然変異ゲノムデータ３０Ａ（３０Ｂ）の基準ゲノムを起点とする基準ゲノム配列と、癌ゲノムの塩基配列とを比較して、連続して一致するコドンの長さ（類似度）を特定する。評価装置は、連続して一致するコドンの長さが最大となる癌ゲノムを、評価対象ゲノムデータ３０が癌化した場合の癌ゲノムとして評価する。

このように、評価装置では、突然変異を発生させるコドンを、変異対象コドンとして、開始コドンの次のコドンに固定することで、新たに生成するゲノムデータのバリエーションの数を抑止し、かつ、最長の突然変異した塩基配列を確保することができる。また、癌ゲノムと比較するコドン配列を、基準コドンを起点とする基準コドン配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、コドン（アミノ酸）の粒度で、既存の癌ゲノムとの類似度の評価を行うことができる。

次に、本実施例１に係る評価装置の構成の一例について説明する。図６は、本実施例１に係る評価装置の構成を示す機能ブロック図である。図６に示すように、この評価装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

通信部１１０は、ネットワークを介して他の外部装置（図示略）との間でデータ通信を実行する処理部である。たとえば、通信部１１０は、通信装置に対応する。たとえば、通信部１１０は、外部装置から、後述するゲノムＤＢ１４１等を受信してもよい。

入力部１２０は、評価装置１００に各種の情報を入力するための入力装置である。たとえば、入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

表示部１３０は、制御部１５０から出力される各種の情報を表示するための表示装置である。たとえば、表示部１３０は、液晶ディスプレイ、タッチパネル等に対応する。

記憶部１４０は、ゲノムＤＢ（Data Base）１４１、癌ゲノムＤＢ１４２、変換テーブル１４３、基準ゲノムデータ１０、基準データ１４４、転置インデックステーブル１４５を有する。また、記憶部１４０は、評価対象ゲノムデータ３０、突然変異ゲノムデータテーブル１４７、リストデータ１４８を有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

ゲノムＤＢ１４１は、図３で説明した各ゲノムデータ１１を保持するデータベースである。各ゲノムデータ１１は、複数のヒトから、シークエンサー等によって、採取された塩基配列データである。各ゲノムデータ１１は、コドン（３塩基配列）が順に配列されているものとする。各ゲノムデータ１１は、後述する変換テーブル１４３に基づいて、コドン単位で符号化されていてもよい。

癌ゲノムＤＢ１４２は、複数種類の癌ゲノムを保持するデータベースである。図７は、本実施例１に係る癌ゲノムＤＢのデータ構造の一例を示す図である。図７に示すように、癌ゲノムＤＢは、識別情報と、塩基配列と、類似度とを対応付ける。癌識別情報は、癌ゲノムを一意に識別する情報である。塩基配列は、癌ゲノムに対応する塩基配列である。類似度は、突然変異ゲノムデータ３０Ａ（３０Ｂ）と、癌ゲノムとの比較により算出される値である。類似度が大きいほど、突然変異ゲノムデータ３０Ａ（３０Ｂ）と、癌ゲノムとが類似していることを示す。癌ゲノムの塩基配列は、後述する前処理部１５２によって、コドン単位で符号化される。

変換テーブル１４３は、コドンと、コドンに対応する符号とを対応付けるテーブルである。図８は、本実施例１に係る変換テーブルのデータ構造の一例を示す図である。図８に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「ＵＵＵ」の符号は「４０ｈ（０１００００００）」となる。「ｈ」は１６進数を示すものである。

基準ゲノムデータ１０は、予め設定される基準の（遺伝子変異を含んでいない）塩基配列データである。たとえば、基準ゲノムデータ１０は、複数のコドンが配列されている。

基準データ１４４は、図３で説明した処理によって特定される「開始コドン位置」および「基準位置」の情報を有する。

転置インデックステーブル１４５は、各癌ゲノムに対する転置インデックスをそれぞれ保持するテーブルである。図９は、本実施例１に係る転置インデックステーブルのデータ構造の一例を示す図である。癌識別情報は、癌ゲノムを一意に識別する情報である。転置インデックスは、癌識別情報により識別される転置インデックスである。

図１０は、本実施例１に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。図１０において、転置インデックスの横軸は、癌ゲノムの先頭からのオフセットに対応する軸である。転置インデックスの縦軸は、コドンの種別（コドンの符号）に対応する軸である。転置インデックスは、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

たとえば、癌ゲノムの先頭のコドンの符号のオフセットを「０」とする。癌ゲノムの先頭から７番目の位置に、コドンの符号「ＡＵＧ（６３ｈ）」が含まれる場合、転置インデックスのオフセット「６」の列と、コドンの符号「ＡＵＧ（６３ｈ）」の行とが交差する位置のビットが「１」となる。

評価対象ゲノムデータ３０は、ヒトから採取された評価の対象となるゲノムデータである。評価対象ゲノムデータ３０は、図４、図５で説明した評価対象ゲノムデータ３０に対応するものである。

突然変異ゲノムデータテーブル１４７は、評価対象ゲノムデータ３０に対して突然変異を発生させたゲノムデータを保持するテーブルである。たとえば、突然変異ゲノムデータテーブル１４７は、突然変異「挿入」を発生させた突然変異ゲノムデータ３０Ａと、突然変異「欠失」を発生させた突然変異ゲノムデータ３０Ｂとを有する。

リストデータ１４８は、癌ゲノムＤＢ１４２に格納された各癌ゲノムのうち、評価対象ゲノムデータ３０が癌化した場合の癌ゲノムに類似する癌ゲノムを示すリストの情報である。

図６の説明に戻る。制御部１５０は、取得部１５１と、前処理部１５２と、生成部１５３と、特定部１５４と、評価部１５５とを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１５０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

取得部１５１は、ネットワークを介して外部装置等から各種の情報を取得する処理部である。たとえば、取得部１５１は、ゲノムＤＢ１４１、癌ゲノムＤＢ１４２（符号化前）、基準ゲノムデータ１０を取得した場合に、取得したゲノムＤＢ１４１、癌ゲノムＤＢ１４２、基準ゲノムデータ１０を、記憶部１４０に登録する。

また、取得部１５１は、入力部１２０または外部装置から、評価対象ゲノムデータ３０を取得する。取得部１５１は、評価対象ゲノムデータ３０を記憶部１４０に登録する。

前処理部１５２は、各種の前処理を実行する処理部である。たとえば、前処理部１５２は、転置インデックステーブル１４５を生成する処理、基準データ１４４を生成する処理を実行する。

前処理部１５２が、転置インデックステーブル１４５を生成する処理の一例について説明する。前処理部１５２は、癌ゲノムＤＢ１４２に登録される癌ゲノム（塩基配列）を符号化しつつ、癌ゲノムの転置インデックスを生成し、生成した転置インデックスを、転置インデックステーブル１４５に登録する。

前処理部１５２は、癌ゲノムＤＢ１４２から、未選択の癌識別情報の塩基配列を取得し、取得した塩基配列から、３つずつ塩基を取り出す。前処理部１５２は、取り出した塩基と、変換テーブル１４３とを比較して、３つの塩基（コドン）に対応する符号を特定し、３つの塩基（コドン）を符号に変換する。たとえば、前処理部１５２は、コドン「ＡＵＧ」を符号「６３ｈ」に変換する。前処理部１５２は、かかる処理を繰り返し実行することで、選択した塩基配列をコドン単位で符号化する。

前処理部１５２は、選択した塩基配列をコドン単位で符号化する際に、選択した塩基配列に対応する転置インデックスを生成する。たとえば、前処理部１５２は、変換したコドンの符号と、先頭からの符号のオフセットとに対応する転置インデックスのビットマップに「１」を設定する。前処理部１５２は、かかる処理を繰り返し実行することで、選択した塩基配列に対応する転置インデックスを生成する。前処理部１５２は、選択した塩基配列の癌識別情報と、生成した転置インデックスとを対応付けて、転置インデックステーブル１４５に登録する。

ここで、前処理部１５２は、転置インデックスを生成すると、情報量を削減するために、転置インデックスをハッシュ化してもよい。図１１は、転置インデックスをハッシュ化する処理の一例を説明するための図である。

図１１で説明する例では、３２ビットレジスタを想定し、「２９」と「３１」の素数（底）を基に、転置インデックスの各行のビットマップをハッシュ化する。ここでは、一例として、ビットマップｂ１から、ハッシュ化ビットマップｈ１１およびハッシュ化ビットマップｈ１２を生成する場合について説明する。

ビットマップｂ１は、転置インデックス（たとえば、図１０に示した転置インデックス）のある行を抽出したビットマップを示すものとする。ハッシュ化ビットマップｈ１１は、底「２９」によりハッシュ化されたビットマップである。ハッシュ化ビットマップｈ１２は、底「３１」によりハッシュ化されたビットマップである。

前処理部１５２は、ビットマップｂ１の各ビットの位置を、１つの低で割った余りの値を、ハッシュ化ビットマップの位置と対応付ける。前処理部１５２は、該当するビットマップｂ１のビットの位置に「１」が設定されている場合には、対応付けられたハッシュ化ビットマップの位置に「１」を設定する処理を行う。

ビットマップｂ１から、底「２９」のハッシュ化ビットマップｈ１１を生成する処理の一例について説明する。はじめに、前処理部１５２は、ビットマップｂ１の位置「０～２８」の情報を、ハッシュ化ビットマップｈ１１にコピーする。続いて、ビットマップｂ１のビットの位置「３５」を、低「２９」で割った余りは「６」となるので、ビットマップｂ１の位置「３５」は、ハッシュ化ビットマップｈ１１の位置「６」と対応付けられる。前処理部１５２は、ビットマップｂ１の位置「３５」に「１」が設定されているため、ハッシュ化ビットマップｈ１１の位置「６」に「１」を設定する。

ビットマップｂ１のビットの位置「４２」を、低「２９」で割った余りは「１３」となるので、ビットマップｂ１の位置「４２」は、ハッシュ化ビットマップｈ１１の位置「１３」と対応付けられる。前処理部１５２は、ビットマップｂ１の位置「４２」に「１」が設定されているため、ハッシュ化ビットマップｈ１１の位置「１３」に「１」を設定する。

前処理部１５２は、ビットマップｂ１の位置「２９」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップｈ１１を生成する。

ビットマップｂ１から、底「３１」のハッシュ化ビットマップｈ１２を生成する処理の一例について説明する。はじめに、前処理部１５２は、ビットマップｂ１の位置「０～３０」の情報を、ハッシュ化ビットマップｈ１２にコピーする。続いて、ビットマップｂ１のビットの位置「３５」を、低「３１」で割った余りは「４」となるので、ビットマップｂ１の位置「３５」は、ハッシュ化ビットマップｈ１２の位置「４」と対応付けられる。前処理部１５２は、ビットマップｂ１の位置「３５」に「１」が設定されているため、ハッシュ化ビットマップｈ１２の位置「４」に「１」を設定する。

ビットマップｂ１のビットの位置「４２」を、低「３１」で割った余りは「１１」となるので、ビットマップｂ１の位置「４２」は、ハッシュ化ビットマップｈ１２の位置「１１」と対応付けられる。前処理部１５２は、ビットマップｂ１の位置「４２」に「１」が設定されているため、ハッシュ化ビットマップｈ１２の位置「１１」に「１」を設定する。

前処理部１５２は、ビットマップｂ１の位置「３１」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップｈ１２を生成する。

前処理部１５２は、転置インデックスの各行について上記の折り返し技術による圧縮を行うことで、転置インデックスをハッシュ化する。なお、底「２９」、「３１」のハッシュ化ビットマップは、生成元のビットマップの行（符号化されたコドンの種別）の情報が付与される。前処理部１５２は、各癌ゲノムの転置インデックスについて、上記処理を繰り返し実行し、ハッシュ化した転置インデックスを、転置インデックステーブル１４５に登録する。

続いて、前処理部１５２が基準データ１４４を生成する処理の一例について説明する。前処理部１５２が基準データ１４４を生成する処理は、図３で説明した処理に対応する。前処理部１５２は、ゲノムＤＢ１４１から、複数のゲノムデータ１１を取得する。複数のゲノムデータ１１がコドン単位で符号化されている場合には、変換テーブル１４３との比較により、複数のゲノムデータ１１を復号する。

前処理部１５２は、先頭の塩基から順に、基準ゲノムデータ１０の塩基と、各ゲノムデータ１１の塩基とを比較し、塩基の位置毎に、異なる塩基の個数（変異塩基数）を集計する。

前処理部１５２は、位置毎に、変異塩基数を算出し、各位置のうち、変異塩基数が最大となる塩基の位置を特定し、特定した位置の塩基を含む基準コドン（たとえば、図３のコドン１０Ｂ）を特定する。前処理部１５２は、基準コドンから、Ｍ個前のコドンを開始コドン（たとえば、図３のコドン１５）として特定する。

前処理部１５２は、コドンの粒度で、基準ゲノムデータ１０の先頭を基準とした開始コドン１５の位置を示す開始コドン位置２０Ａを特定する。前処理部１５２は、コドンの粒度で、基準ゲノムデータ１０の先頭を基準とした基準コドン１０Ｂの位置を示す基準位置２０Ｂを特定する。前処理部１５２は、開始コドン位置２０Ａおよび基準位置２０Ｂの情報を、基準データ１４４として、記憶部１４０に登録する。

図６の説明に戻る。生成部１５３は、評価対象ゲノムデータ３０に突然変異「挿入」、「欠失」を発生させることで、突然変異ゲノムデータを生成する処理部である。生成部１５３は、生成した突然変異ゲノムデータを、突然変異ゲノムデータテーブル１４７に登録する。

図４を用いて、生成部１５３が、突然変異「挿入」を発生させる処理について説明する。生成部１５３は、基準データ１４４から、開始コドン位置２０Ａの情報を取得する。生成部１５３は、評価対象ゲノムデータ３０と、開始コドン位置２０Ａとを基にして、開始コドン「ＡＵＧ（６３ｈ）」を特定し、開始コドンの次の変異対象コドン「ＵＵＵ（４０ｈ）」を特定する。生成部１５３は、変異対象コドン「ＵＵＵ（４０ｈ）」の先頭に塩基「Ａ」を挿入し、突然変異「挿入」を発生させる。

たとえば、生成部１５３は、変異対象コドンの第１塩基に「Ａ」を挿入し、挿入前の第１塩基を第２塩基にシフトし、挿入前の第２塩基を第３塩基にシフトすることで、変異対象コドン「ＵＵＵ（４０ｈ）」を「ＡＵＵ（６０ｈ）」とする。また、生成部１５３は、変異対象コドンに続くコドンについても、塩基を右方向にシフトさせる。たとえば、変異対象コドンの次のコドンについて、変異対象コドンの第３塩基を、次のコドンの第１塩基に挿入し、続く塩基も右方向にシフトさせる。

評価対象ゲノムデータ３０に対して突然変異「挿入」を発生させることで、塩基の右シフトを行い、突然変異ゲノムデータ３０Ａを生成する。ここでは、変異対象コドンに塩基「Ａ」を挿入する場合について説明したが、他の塩基「Ｕ」、「Ｇ」、「Ｃ」を挿入させてもよい。

図５を用いて、生成部１５３が、突然変異「欠失」を発生させる処理について説明する。生成部１５３は、評価対象ゲノムデータ３０と、開始コドン位置２０Ａとを基にして、開始コドン「ＡＵＧ（６３ｈ）」を特定し、開始コドンの次の変異対象コドン「ＵＵＵ（４０ｈ）」を特定する。生成部１５３は、変異対象コドン「ＵＵＵ（４０ｈ）」の先頭の塩基（第１塩基）を取り除き、突然変異「欠失」を発生させる。

たとえば、生成部１５３は、変異対象コドンの第１塩基に「Ａ」を削除し、欠失前の第２塩基を第１塩基にシフトし、欠失前の第３塩基を第２塩基にシフトし、変異対象コドンの次のコドンの第１塩基を、変異対象コドンの第３塩基にシフトすることで、変異対象コドン「ＵＵＵ（４０ｈ）」を「ＵＵＣ（４１ｈ）」とする。また、変異対象コドンに続くコドンについても、塩基を左方向にシフトさせる。たとえば、変異対象コドンの位置を２０Ａ＋１とし、位置２０Ａ＋２のコドンを第１コドンとし、位置２０Ａ＋３のコドンを第２コドンとする。第１コドンの第２塩基を第１コドンにシフトさせ、第１コドンの第３塩基を第２塩基にシフトさせ、第２コドンの第１塩基を、第１コドンの第３塩基にシフトさせる。評価装置は、続く塩基も右方向にシフトさせる。

評価対象ゲノムデータ３０に対して突然変異「欠失」を発生させることで、塩基の左シフトを行い、突然変異ゲノムデータ３０Ｂを生成する。

生成部１５３は、上記の処理を行うことで、突然変異ゲノムデータ３０Ａ，３０Ｂを生成し、生成した突然変異ゲノムデータ３０Ａ，３０Ｂを、突然変異ゲノムデータテーブル１４７に登録する。

特定部１５４は、突然変異ゲノムデータ３０Ａ（３０Ｂ）と、基準位置２０Ｂとを基にして、突然変異ゲノムデータ３０Ａ（３０Ｂ）の基準コドン配列を特定する処理部である。特定部１５４は、特定した基準コドン配列の情報を、評価部１５５に出力する。

図４を用いて、特定部１５４が、突然変異ゲノムデータ３０Ａの基準コドン配列を特定する処理について説明する。特定部１５４は、基準データ１４４から基準位置２０Ｂの情報を取得する。特定部１５４は、突然変異ゲノムデータ３０Ａと、基準位置２０Ｂとを基にして、基準コドン「ＡＡＡ（６Ａｈ）」を特定する。特定部１５４は、基準位置２０Ｂ－Ｎ_Ａから、基準位置２０Ｂ＋Ｎ_Ａまでのコドン配列を、基準コドン配列として特定する。Ｎ_Ａは、予め設定される値であるものとする。

図５を用いて、特定部１５４が、突然変異ゲノムデータ３０Ｂの基準コドン配列を特定する処理について説明する。特定部１５４は、基準データ１４４から基準位置２０Ｂの情報を取得する。特定部１５４は、突然変異ゲノムデータ３０Ｂと、基準位置２０Ｂとを基にして、基準コドン「ＣＡＡ（５Ａｈ）」を特定する。特定部１５４は、基準位置２０Ｂ－Ｎ_Ａから、基準位置２０Ｂ＋Ｎ_Ａまでのコドン配列を、基準コドン配列として特定する。

特定部１５４は、突然変異ゲノムデータ３０Ａの基準コドンおよび基準コドン配列と、突然変異ゲノムデータ３０Ｂの基準コドンおよび基準コドン配列との情報を、評価部１５５に出力する。

評価部１５５は、癌ゲノムの塩基配列と、突然変異ゲノムデータ３０Ａ（３０Ｂ）とを基にして、各癌ゲノムと、突然変異ゲノムデータ３０Ａ（３０Ｂ）との類似度を評価する処理部である。評価部１５５は、癌ゲノムの塩基配列と、基準コドン配列とを比較により、一致するコドンの長さのうち最大の長さを、類似度とする。

評価部１５５の処理の概要は、図４、５で説明したように、癌ゲノムの塩基配列と、基準コドン配列とを比較により、一致するコドンの長さのうち最大の長さを特定するものである。

なお、評価部１５５は、一致するコドンの長さを特定する場合に、癌ゲノムの転置インデックスを利用する。以下において、評価部１５５が、転置インデックスを用いて、一致するコドンの長さを特定する処理の一例について説明する。

評価部１５５は、基準コドン配列と比較する癌ゲノムに対応する転置インデックスを、転置インデックステーブル１４５から取得する。評価部１５５は、基準コドン（符号）と、転置インデックスとを比較し、癌ゲノムの塩基配列上において、基準コドンと同一のコドンが出現する位置（オフセット）を特定し、比較する場合の起点とする。

評価部１５５は、転置インデックスの起点となる位置の前後の位置において、フラグ「１」に対応する行のコドンの符号を特定し、特定したコドンの符号が、基準コドン配列の符号と一致するか否かに応じて、一致するコドンの長さを特定する。

なお、評価部１５５は、転置インデックスから、基準コドン配列の各コドンに対応するビットマップを抽出し、シフトとＡＮＤ演算を繰り返し実行することで、基準コドン配列の一部のコドン配列が、癌ゲノムの塩基配列上に含まれるか否かを評価することも可能である。

図１２は、本実施例１に係る評価部の処理の一例を説明するための図である。ここでは一例として、評価部１５５は、基準コドン配列のうち、少なくとも基準コドンを含む部分配列「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）、ＡＧＵ（６Ｃｈ）、ＵＣＡ（４６ｈ）、ＵＧＧ（４Ｆｈ）」が存在するか否かを判定する場合について説明する。

評価部１５５は、比較対象とする癌ゲノムの転置インデックスを参照し、各コドン「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）、ＡＧＵ（６Ｃｈ）、ＵＣＡ（４６ｈ）、ＵＧＧ（４Ｆｈ）」に対応するビットマップを取得する。コドンの符号「ＵＵＵ（４０ｈ）」のビットマップをビットマップｂ＿ＵＵＵとする。コドンの符号「ＣＡＡ（５Ａｈ）」のビットマップをビットマップｂ＿ＣＡＡとする。コドンの符号「ＡＧＵ（６Ｃｈ）」のビットマップをビットマップｂ＿ＡＧＵとする。コドンの符号「ＵＣＡ（４６ｈ）」のビットマップをビットマップｂ＿ＵＣＡとする。コドンの符号「ＵＧＧ（４Ｆｈ）」のビットマップをビットマップｂ＿ＵＧＧとする。

評価部１５５は、ビットマップｂ＿ＵＵＵを取得し、ビットマップｂ＿ＵＵＵを左シフトすることで、ビットマップｂ２０を生成する。評価部１５５は、ビットマップｂ＿ＣＡＡを取得し、ビットマップｂ＿ＣＡＡと、ビットマップｂ２０とをＡＮＤ演算することで、ビットマップｂ２１を生成する。ビットマップｂ２１のオフセット「８」に「１」が立っているため、オフセット７～８に、コドン「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）」が含まれることが分かる。

評価部１５５は、ビットマップｂ２１を左シフトすることで、ビットマップｂ２２を生成する。評価部１５５は、ビットマップｂ＿ＡＧＵを取得し、ビットマップｂ＿ＡＧＵと、ビットマップｂ２２とをＡＮＤ演算することで、ビットマップｂ２３を生成する。ビットマップｂ２３のオフセット「９」に「１」が立っているため、オフセット７～９に、コドン「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）、ＡＧＵ（６Ｃｈ）」が含まれることが分かる。

評価部１５５は、ビットマップｂ２３を左シフトすることで、ビットマップｂ２４を生成する。評価部１５５は、ビットマップｂ＿ＵＣＡを取得し、ビットマップｂ＿ＵＣＡと、ビットマップｂ２４とをＡＮＤ演算することで、ビットマップｂ２５を生成する。ビットマップｂ２５のオフセット「１０」に「１」が立っているため、オフセット７～１０に、コドン「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）、ＡＧＵ（６Ｃｈ）、ＵＣＡ（４６ｈ）」が含まれることが分かる。

評価部１５５は、ビットマップｂ２５を左シフトすることで、ビットマップｂ２６を生成する。評価部１５５は、ビットマップｂ＿ＵＧＧを取得し、ビットマップｂ＿ＵＧＧと、ビットマップｂ２６とをＡＮＤ演算することで、ビットマップｂ２７を生成する。ビットマップｂ２５のオフセット「１１」に「１」が立っているため、オフセット７～１１に、コドン「ＵＵＵ（４０ｈ）、ＣＡＡ（５Ａｈ）、ＡＧＵ（６Ｃｈ）、ＵＣＡ（４６ｈ）、ＵＧＧ（４Ｆｈ）」が含まれることが分かる。

評価部１５５は、図１２に示した処理を実行することで、比較対象とする癌ゲノムの塩基配列のオフセット「７～１１」において、部分配列が含まれると評価する。評価部１５５は、部分配列のコドンを増やす、または、減らし、上記処理を繰り返し実行することで、基準コドン配列のうち、癌ゲノムの塩基配列と一致するコドンの最大の長さ（類似度）を特定する。

評価部１５５は、同一の癌ゲノムについて、突然変異ゲノムデータ３０Ａとの類似度、突然変異ゲノムデータ３０Ｂとの類似度を評価する。評価部１５５は、各類似度を癌ゲノムＤＢ１４２に登録してもよいし、大きい方の類似度を、癌ゲノムＤＢ１４２に登録してもよい。

評価部１５５は、上記処理を繰り返し実行することで、癌ゲノムＤＢ１４２の各癌識別情報に対応する類似度を登録する。

評価部１５５は、癌ゲノムＤＢ１４２の各類似度を走査し、最大の類似度となる癌識別情報を特定し、特定した癌識別情報に対応する癌ゲノムの塩基配列データを、癌ゲノムＤＢ１４２から検索し、検索した癌ゲノムの塩基配列データを、表示部１３０に出力して表示させる。

また、評価部１５５は、癌ゲノムＤＢ１４２の各類似度を走査し、類似度の降順に各癌識別情報をソートする。評価部１５５は、ソートした各癌識別情報のうち、上位Ｎ_Ｂの癌識別情報を、リストデータ１４８に登録する。評価部１５５は、上位Ｎ_Ｂの癌識別情報に対応する癌ゲノムの塩基配列データを癌ゲノムＤＢ１４２から検索し、リストデータ１４８に登録してもよい。評価部１５５は、リストデータ１４８を表示部１３０に出力して表示させてもよいし、ネットワークを介して、外部装置に送信してもよい。

なお、評価部１５５は、転置インデックスのビットマップがハッシュ化されている場合には、ハッシュ化されたビットマップを復元する。図１３は、ハッシュ化されたビットマップを復元する処理を説明するための図である。ここでは一例として、評価部１５５が、ハッシュ化ビットマップｈ１１およびハッシュ化ビットマップｈ１２を基にして、ビットマップｂ１を復元する場合について説明する。

評価部１５５は、底「２９」のハッシュ化ビットマップｈ１１から、中間ビットマップｈ１１’を生成する。評価部１５５は、ハッシュ化ビットマップｈ１１の位置０～２８の値を、中間ビットマップｈ１１’の位置０～２８にそれぞれ、コピーする。

評価部１５５は、中間ビットマップｈ１１’の位置２９以降の値については、「２９」毎に、ハッシュ化ビットマップｈ１１の位置０～２８の値を、それぞれコピーする処理を繰り返し実行する。図１３に示す例では、中間ビットマップｈ１１’の位置２９～４３の位置に、ハッシュ化ビットマップｈ１１の位置０～１４の値を、コピーした例を示す。

評価部１５５は、底「３１」のハッシュ化ビットマップｈ１２から、中間ビットマップｈ１２’を生成する。評価部１５５は、ハッシュ化ビットマップｈ１２の位置０～３０の値を、中間ビットマップｈ１２’の位置０～３０にそれぞれ、コピーする。

評価部１５５は、中間ビットマップｈ１２’の位置３１以降の値については、「３１」毎に、ハッシュ化ビットマップｈ１２の位置０～３０の値を、それぞれコピーする処理を繰り返し実行する。図１３に示す例では、中間ビットマップｈ１２’の位置３１～４３の位置に、ハッシュ化ビットマップｈ１２の位置０～１２の値を、コピーした例を示す。

評価部１５５は、中間ビットマップｈ１１’と、中間ビットマップｈ１２’とを生成すると、中間ビットマップｈ１１’と、中間ビットマップｈ１２’とをＡＮＤ演算することで、ハッシュ化前のビットマップｂ１を復元する。評価部１５５は、他のハッシュ化されたビットマップについても、同様の処理を繰り返し実行することで、転置インデックスに対応する各ビットマップを復元することができる。

次に、本実施例１に係る評価装置１００の処理手順の一例について説明する。図１４は、本実施例１に係る評価装置の処理手順を示すフローチャートである。図１４に示すように、この評価装置１００の取得部１５１は、評価対象ゲノムデータ３０を取得し、記憶部１４０に登録する（ステップＳ１０１）。

評価装置１００の生成部１５３は、評価対象ゲノムデータ３０に突然変異を発生させて、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成し、突然変異ゲノムデータテーブル１４７に登録する（ステップＳ１０２）。

評価装置１００の特定部１５４は、基準データ１４４と、突然変異ゲノムデータ３０Ａ（３０Ｂ）とを基にして、基準コドンおよび基準コドン配列を特定する（ステップＳ１０３）。評価装置１００の評価部１５５は、未選択の癌識別情報を選択する（ステップＳ１０４）。

評価部１５５は、選択した癌識別情報の転置インデックスと、基準コドン配列とを基にして、類似度を算出する（ステップＳ１０５）。評価部１５５は、選択した癌識別情報と類似度とを対応付けて、癌ゲノムＤＢ１４２に登録する（ステップＳ１０６）。

評価部１５５は、全ての癌識別情報を選択したか否かを判定する（ステップＳ１０７）。評価部１５５は、全ての癌識別情報を選択していない場合には（ステップＳ１０７，Ｎｏ）、ステップＳ１０４に移行する。評価部１５５は、全ての癌識別情報を選択した場合には（ステップＳ１０７，Ｙｅｓ）、ステップＳ１０８に移行する。

評価部１５５は、類似度の降順に、各癌識別情報をソートする（ステップＳ１０８）。評価部１５５は、上位の癌識別情報に対応する癌ゲノムの塩基配列データを、リストデータ１４８に登録する（ステップＳ１０９）。評価部１５５は、リストデータ１４８を表示部１３０に出力して表示させる（ステップＳ１１０）。

次に、本実施例１に係る評価装置１００の効果について説明する。評価装置１００は、評価対象ゲノムデータ３０の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成する。評価装置１００は、突然変異ゲノムデータ３０Ａ（３０Ｂ）の基準ゲノムを起点とする基準ゲノム配列と、癌ゲノムの塩基配列とを比較して、連続して一致するコドンの長さ（類似度）を評価する。評価装置１００は、連続して一致するコドンの長さが最大となる癌ゲノムを、評価対象ゲノムデータ３０が癌化した場合の癌ゲノムとして評価する。

このように、評価装置１００では、突然変異を発生させるコドンを、変異対象コドンとして、開始コドンの次のコドンに固定することで、新たに生成するゲノムデータのバリエーションの数を抑止し、かつ、最長の突然変異した塩基配列を確保することができる。また、癌ゲノムと比較するコドン配列を、基準コドンを起点とする基準コドン配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、コドン（アミノ酸）の粒度で、既存の癌ゲノムとの類似度評価を行うことができる。なお、癌ゲノムの塩基配列は、突然変異を起こした細胞増殖因子に加え、細胞増殖因子に取り付かれた受容体を含む場合があり、受容体の塩基配列を除去する必要がある。

本実施例２に係る評価装置の処理の一例について説明する。図１５、図１６、図１７は、本実施例２に係る評価装置の処理を説明するための図である。まず、図１５について説明する。評価装置は、癌ゲノムＤＢから、コドン単位で符号化された癌ゲノム５０を取得する。評価装置は、タンパク質辞書情報２４３Ａと、動的辞書情報２４３Ｂとを基にして、癌ゲノム５０をタンパク質の単位で符号化する。

タンパク質辞書情報２４３Ａは、所定のタンパク質（既存のタンパク質）の符号と、コドン単位の符号の配列とを対応付ける静的辞書の情報である。以下の説明では、コドン単位の符号の配列を「コドン（アミノ酸）配列」と表記する。

動的辞書情報２４３Ｂは、タンパク質辞書情報２４３Ａに登録されていないコドン配列を、タンパク質（未知タンパク質）の符号に動的符号化する場合に用いる動的辞書の情報である。

評価装置は、癌ゲノム５０に対して、タンパク質の単位で、形態素解析を実行することで、癌ゲノムに含まれる複数の形態素を特定する。たとえば、一つの形態素には、一つのタンパク質に対応するコドン配列が含まれる。

評価装置は、癌ゲノム５０に対して実行した形態素解析の結果と、タンパク質辞書情報２４３Ａとを比較し、形態素が、タンパク質辞書情報２４３Ａのコドン配列にヒットした場合には、癌ゲノム５０の形態素を、タンパク質の符号に変換する。

評価装置は、癌ゲノム５０に対して実行した形態素解析の結果と、タンパク質辞書情報２４３Ａとを比較し、形態素が、タンパク質辞書情報２４３Ａのコドン配列にヒットしない場合には、ユニークな登録番号を生成する。評価装置は、登録番号と、カウンタの初期値「１」と、形態素に含まれるコドン配列とを、動的辞書情報２４３Ｂに登録すると共に、癌ゲノム５０の形態素を、登録番号に置き換えることで、符号化（動的符号化）する。

なお、評価装置は、タンパク質辞書情報２３４Ａにヒットしない形態素のコドン配列が既に動的辞書情報２４３Ｂに登録されている場合には、該当する登録番号によって符号化すると共に、該当するカウンタに１を加算する。

評価装置は、上述したタンパク質辞書情報２４３Ａによる符号化、動的辞書情報２４３Ｂによる動的符号化を繰り返し実行することで、コドン単位に符号化された癌ゲノム５０から、タンパク質単位に符号化された癌ゲノム５０Ａを生成する。図示を省略するが、評価装置は、癌ゲノム５０の先頭からのオフセットと、タンパク質の符号とを対応付けた転置インデックスを生成する。

評価装置は、癌ゲノムＤＢに登録された各癌ゲノムに対して上記処理を繰り返し実行することで、動的辞書情報２４３Ｂに、未知タンパク質のコドン配列を登録していく。タンパク質辞書情報２３４Ａにヒットしない未知タンパク質は、癌特有のタンパク質に対応するコドン配列といる。

図１６の説明に移行する。図１６では、評価装置が、評価対象となる評価対象ゲノムデータ３０に対して、突然変異「挿入」を発生させることで、新たな突然変異ゲノムデータ３０Ａを生成する。突然変異「挿入」を発生させ、突然変異ゲノムデータ３０Ａを生成する処理は、実施例１の図４で説明した処理と同様である。評価装置は、突然変異ゲノムデータ３０Ａの基準コドン「ＡＡＡ（６Ａｈ）」を、基準位置２０Ｂを基にして特定する。

評価装置は、突然変異ゲノムデータ３０Ａに対して、タンパク質の単位で、形態素解析を実行することで、突然変異ゲノムデータ３０Ａに含まれる複数の形態素を特定する。たとえば、一つの形態素には、タンパク質に対応するコドン配列が含まれる。

評価装置は、突然変異ゲノムデータ３０Ａに対して実行した形態素解析の結果と、タンパク質辞書情報２４３Ａとを比較し、突然変異ゲノムデータ３０Ａの形態素が、タンパク質辞書情報２４３Ａのコドン配列にヒットした場合には、突然変異ゲノムデータ３０Ａの形態素を、タンパク質の符号に変換する。本実施例では、符号化したタンパク質を、適宜、タンパク質α、β、γ等のギリシャ文字によって表記する。

評価装置は、基準コドンを含む形態素のコドン配列が、タンパク質辞書情報２４３Ａのコドン配列にヒットしない場合には、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットするか否かを判定する。評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットしない場合には、突然変異ゲノムデータ３０Ａに類似する癌ゲノムは、癌ゲノムＤＢに存在しないと判定する。

これに対して、評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットする場合には、突然変異ゲノムデータ３０Ａに類似する癌ゲノムは、癌ゲノムＤＢに存在すると判定する。たとえば、基準コドン「ＡＡＡ（６Ａｈ）」を含むコドン配列「ＵＵＣ（４１ｈ）／ＡＡＡ（６Ａｈ）／ＧＵＡ（７２ｈ）」は、動的辞書情報２４３Ｂに存在しているため、評価装置は、突然変異ゲノムデータ３０Ａに類似する癌ゲノムは、癌ゲノムＤＢに存在すると判定する。

評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットする場合には、登録番号によって、コドン配列を符号化する。評価装置は、上記処理を実行することで、タンパク質単位に符号化した、突然変異ゲノムデータ３１Ａを生成する。以下の説明では、類似度の評価のため、動的符号に符号化した、基準コドンを含む未知のタンパク質を便宜上、「基準タンパク質」と表記する。

図１７の説明に移行する。評価装置は、基準タンパク質と、この基準タンパク質の前後の連続するタンパク質配列を特定する。以下の説明では、基準タンパク質と、この基準タンパク質の前後の連続するタンパク質配列を「基準タンパク質配列」と表記する。評価装置は、基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、基準タンパク質配列と一致するタンパク質の長さのうち、最大の長さを「類似度」として特定する。

癌ゲノム４１Ａを用いて説明する。評価装置は、癌ゲノム４１Ａと、基準タンパク質「未知タンパク質Ｘ４（Ａ００３ｈ）」とを比較して、癌ゲノム４１Ａにおける基準タンパク質と同じタンパク質の位置２０Ｉを特定する。評価装置は、癌ゲノム４１Ａの位置２０Ｉの未知タンパク質Ｘ４を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質Ｘ４（Ａ００３ｈ）、タンパク質β」および類似度「２」を特定する。

癌ゲノム４１Ｂを用いて説明する。評価装置は、癌ゲノム４１Ｂと、基準タンパク質「未知タンパク質Ｘ４（Ａ００３ｈ）」とを比較して、癌ゲノム４１Ｂにおける基準タンパク質と同じタンパク質の位置２０Ｊ、２０Ｋを特定する。評価装置は、癌ゲノム４１Ｂの位置２０Ｊの未知タンパク質Ｘ４を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「タンパク質α、未知タンパク質Ｘ４（Ａ００３ｈ）、タンパク質β」および類似度「３」を特定する。

また、評価装置は、癌ゲノム４１Ｂの位置２０Ｋのタンパク質を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質Ｘ４（Ａ００３ｈ）、タンパク質β」および類似度「２」を特定する。評価装置は、癌ゲノム４１Ｂのように、基準タンパク質と同じタンパク質が複数存在する場合には、基準タンパク質配列と一致するタンパク質配列のうち、最も長いものを、該当する癌ゲノムにおける一致するタンパク質配列の類似度として特定する。たとえば、癌ゲノム４１Ｂに関して、類似度は「３」となる。

評価装置は、他の癌ゲノムについても上記処理を繰り返し実行することで、癌ゲノム毎に、一致するタンパク質配列の長さ（類似度）を特定する。評価装置は、類似度が最大となる癌ゲノムを、評価対象ゲノムデータ３０が癌化した場合に最も類似する癌ゲノムとして評価する。また、評価装置は、類似度の降順に、複数の癌ゲノムをソートし、上位の癌ゲノムの情報を、リスト表示する。

図１８の説明に移行する。図１８では、評価装置が、評価対象となる評価対象ゲノムデータ３０に対して、突然変異「欠失」を発生させることで、新たな突然変異ゲノムデータ３０Ｂを生成する。突然変異「欠失」を発生させ、突然変異ゲノムデータ３０Ｂを生成する処理は、実施例１の図５で説明した処理と同様である。評価装置は、突然変異ゲノムデータ３０Ｂの基準コドン「ＣＡＡ（５Ａｈ）」を、基準位置２０Ｂを基にして特定する。

評価装置は、突然変異ゲノムデータ３０Ｂに対して、タンパク質の単位で、形態素解析を実行することで、突然変異ゲノムデータ３０Ｂに含まれる複数の形態素を特定する。

評価装置は、突然変異ゲノムデータ３０Ｂに対して実行した形態素解析の結果と、タンパク質辞書情報２４３Ａとを比較し、突然変異ゲノムデータ３０Ｂの形態素が、タンパク質辞書情報２４３Ａのコドン配列にヒットした場合には、突然変異ゲノムデータ３０Ｂの形態素を、タンパク質の符号に変換する。

評価装置は、基準コドンを含む形態素のコドン配列が、タンパク質辞書情報２４３Ａのコドン配列にヒットしない場合には、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットするか否かを判定する。評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットしない場合には、突然変異ゲノムデータ３０Ｂに類似する癌ゲノムは、癌ゲノムＤＢに存在しないと判定する。

これに対して、評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットする場合には、突然変異ゲノムデータ３０Ａに類似する癌ゲノムは、癌ゲノムＤＢに存在すると判定する。たとえば、基準コドン「ＣＡＡ（５Ａｈ）」を含むコドン配列「ＵＵＵ（４０ｈ）／ＣＡＡ（５Ａｈ）／ＡＧＵ（６Ｃｈ）」は、動的辞書情報２４３Ｂに存在しているため、評価装置は、突然変異ゲノムデータ３０Ｂに類似する癌ゲノムは、癌ゲノムＤＢに存在すると判定する。

評価装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報２４３Ｂのコドン配列にヒットする場合には、登録番号によって、コドン配列を符号化する。評価装置は、上記処理を実行することで、タンパク質単位に符号化した、突然変異ゲノムデータ３１Ｂを生成する。

図１９の説明に移行する。評価装置は、基準タンパク質と、基準タンパク質配列とを特定する。評価装置は、基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、基準タンパク質配列と一致するタンパク質の長さのうち、最大の長さを「類似度」として特定する。

癌ゲノム４１Ａを用いて説明する。評価装置は、癌ゲノム４１Ａと、基準タンパク質「未知タンパク質Ｘ１（Ａ０００ｈ）」とを比較して、癌ゲノム４１Ａにおける基準タンパク質と同じタンパク質の位置２０Ｌを特定する。評価装置は、癌ゲノム４１Ａの位置２０Ｌの未知タンパク質Ｘ１を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質Ｘ１（Ａ０００ｈ）、タンパク質γ」および類似度「２」を特定する。

癌ゲノム４１Ｂを用いて説明する。評価装置は、癌ゲノム４１Ｂと、基準タンパク質「未知タンパク質Ｘ１（Ａ０００ｈ）」とを比較して、癌ゲノム４１Ｂにおける基準タンパク質と同じタンパク質の位置２０Ｍ、２０Ｎを特定する。評価装置は、癌ゲノム４１Ｂの位置２０Ｍの未知タンパク質Ｘ１を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「タンパク質α、未知タンパク質Ｘ１（Ａ０００ｈ）、タンパク質γ」および類似度「３」を特定する。

また、評価装置は、癌ゲノム４１Ｂの位置２０Ｎのタンパク質を起点として、基準タンパク質配列と比較し、一致するタンパク質配列「未知タンパク質Ｘ１（Ａ０００ｈ）、タンパク質γ」および類似度「２」を特定する。評価装置は、癌ゲノム４１Ｂのように、基準タンパク質と同じタンパク質が複数存在する場合には、基準タンパク質配列と一致するタンパク質配列のうち、最も長いものを、該当する癌ゲノムにおける一致するタンパク質配列の類似度として特定する。たとえば、癌ゲノム４１Ｂに関して、類似度は「３」となる。

上記のように、評価装置は、評価対象ゲノムデータ３０の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成する。評価装置は、突然変異ゲノムデータ３０Ａの基準ゲノムを起点とする基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、連続して一致するタンパク質の長さ（類似度）を特定する。評価装置は、連続して一致するタンパク質の長さが最大となる癌ゲノムを、評価対象ゲノムデータ３０が癌化した場合の癌ゲノムとして評価する。

このように、評価装置では、突然変異を発生させるコドンを、変異対象コドンとして、開始コドンの次のコドンに固定することで、新たに生成するゲノムデータのバリエーションの数を抑止し、かつ、最長の突然変異した塩基配列を確保することができる。また、癌ゲノムと比較するタンパク質配列を、基準コドンを含む基準タンパク質配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、タンパク質の粒度で、癌特有のタンパク質配列との類似度の評価を行うことができる。

次に、本実施例２に係る評価装置の構成の一例について説明する。図２０は、本実施例２に係る評価装置の構成を示す機能ブロック図である。図２０に示すように、この評価装置２００は、通信部２１０と、入力部２２０と、表示部２３０と、記憶部２４０と、制御部２５０とを有する。

通信部２１０は、ネットワークを介して他の外部装置（図示略）との間でデータ通信を実行する処理部である。たとえば、通信部２１０は、通信装置に対応する。たとえば、通信部２１０は、外部装置から、後述するゲノムＤＢ１４１等を受信してもよい。

入力部２２０は、評価装置２００に各種の情報を入力するための入力装置である。たとえば、入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

表示部２３０は、制御部２５０から出力される各種の情報を表示するための表示装置である。たとえば、表示部２３０は、液晶ディスプレイ、タッチパネル等に対応する。

記憶部２４０は、ゲノムＤＢ１４１、癌ゲノムＤＢ２４１、変換テーブル１４３、基準ゲノムデータ１０、基準データ１４４、転置インデックステーブル２４２を有する。また、記憶部２４０は、タンパク質辞書情報２４３Ａ、動的辞書情報２４３Ｂ、評価対象ゲノムデータ３０、突然変異ゲノムデータテーブル１４７、リストデータ２４４を有する。記憶部２４０は、ＲＡＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

ゲノムＤＢ１４１は、実施例１の図３で説明した各ゲノムデータ１１を保持するデータベースである。各ゲノムデータ１１は、複数のヒトから、シークエンサー等によって、採取された塩基配列データである。各ゲノムデータ１１は、コドン（３塩基配列）が順に配列されているものとする。各ゲノムデータ１１は、変換テーブル１４３に基づいて、コドン単位で符号化されていてもよい。

癌ゲノムＤＢ１４２は、複数種類の癌ゲノムを保持するデータベースである。図２１は、本実施例２に係る癌ゲノムＤＢのデータ構造の一例を示す図である。図２１に示すように、癌ゲノムＤＢは、識別情報と、塩基配列と、タンパク質配列と、類似度とを対応付ける。癌識別情報は、癌ゲノムを一意に識別する情報である。塩基配列は、癌ゲノムに対応する塩基配列である。タンパク質配列は、癌ゲノムに対応する符号化されたタンパク質の配列である。類似度は、突然変異ゲノムデータ３０Ａ（３０Ｂ）と、癌ゲノムとの比較により算出される値である。類似度が大きいほど、突然変異ゲノムデータ３０Ａ（３０Ｂ）と、癌ゲノムとが類似していることを示す。

変換テーブル１４３は、コドンと、コドンに対応する符号とを対応付けるテーブルである。変換テーブル１４３のデータ構造は、図８で説明したデータ構造と同様である。

基準データ１４４は、実施例１の図３で説明した処理によって特定される「開始コドン位置」および「基準位置」の情報を有する。

転置インデックステーブル２４２は、各癌ゲノムに対する転置インデックスをそれぞれ保持するテーブルである。図２２は、本実施例２に係る転置インデックステーブルのデータ構造の一例を示す図である。癌識別情報は、癌ゲノムを一意に識別する情報である。転置インデックスは、癌識別情報により識別される転置インデックスである。

図２３は、本実施例２に係る癌ゲノムの転置インデックスのデータ構造の一例を示す図である。図２３において、転置インデックスの横軸は、癌ゲノムの先頭からのオフセットに対応する軸である。転置インデックスの縦軸は、タンパク質の種別（タンパク質の符号）に対応する軸である。転置インデックスは、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

たとえば、癌ゲノムの先頭のコドンの符号のオフセットを「０」とする。癌ゲノムの先頭から７番目の位置に、タンパク質の符号「タンパク質α」が含まれる場合、転置インデックスのオフセット「６」の列と、タンパク質の符号「タンパク質α」の行とが交差する位置のビットが「１」となる。癌ゲノムの先頭から２０番目の位置に、タンパク質の符号「未知タンパク質Ｘ１（Ａ０００ｈ）」が含まれる場合、転置インデックスのオフセット「１９」の列と、タンパク質の符号「未知タンパク質Ｘ１（Ａ０００ｈ）」の行とが交差する位置のビットが「１」となる。

タンパク質辞書情報２４３Ａは、所定のタンパク質（既存のタンパク質）の符号と、コドン単位の符号の配列とを対応付ける静的辞書の情報である。図２４は、本実施例２に係るタンパク質辞書情報のデータ構造の一例を示す図である。図２４に示すように、このタンパク質辞書情報２４３Ａは、タンパク質情報と、アミノ酸符号配列と、コドン符号配列とを対応付ける。

タンパク質情報には、タンパク質の「符号」と、タンパク質の属する「グループ」と、タンパク質の「名称」とが含まれる。アミノ酸符号配列は、タンパク質の符号（タンパク質の種別）に対応するアミノ酸の符号の配列である。コドン符号配列は、タンパク質の符号（タンパク質の種別）に対応するコドンの符号の配列である。

たとえば、タンパク質「一型コラーゲン」は、グループ「コラーゲン」に属し、符号は「タンパク質α」となる。符号「タンパク質α」に対するアミノ酸符号配列は「02h46h59h・・・03h」となる。また、コドン符号配列は「02h63h78h・・・03h」となる。

動的辞書情報２４３Ｂは、タンパク質辞書情報２４３Ａに登録されていないコドン配列を、タンパク質（未知タンパク質）の符号に動的符号化する場合に用いる動的辞書の情報である。動的辞書情報２４３Ｂのデータ構造は、図１５等で説明したように、登録番号と、カウンタと、コドン（アミノ酸）配列とを対応付ける。

評価対象ゲノムデータ３０は、ユーザに指定される評価の対象となるゲノムデータである。評価対象ゲノムデータ３０は、図１６、図１８で説明した評価対象ゲノムデータ３０に対応するものである。

リストデータ２４４は、癌ゲノムＤＢ２４１に格納された各癌ゲノムのうち、評価対象ゲノムデータ３０が癌化した場合の癌ゲノムに類似する癌ゲノムを示すリストの情報である。

図２０の説明に戻る。制御部２５０は、取得部２５１と、前処理部２５２と、生成部２５３と、特定部２５４と、評価部２５５とを有する。制御部２５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

取得部２５１は、ネットワークを介して外部装置等から各種の情報を取得する処理部である。たとえば、取得部２５１は、ゲノムＤＢ１４１、癌ゲノムＤＢ２４１（符号化前）、基準ゲノムデータ１０を取得した場合に、取得したゲノムＤＢ１４１、癌ゲノムＤＢ２４１、基準ゲノムデータ１０を、記憶部２４０に登録する。取得部２５１は、タンパク質辞書情報２４３Ａを取得した場合に、タンパク質辞書情報２４３Ａを、記憶部２４０に登録する。

また、取得部２５１は、入力部２２０または外部装置から、評価対象ゲノムデータ３０を取得する。取得部２５１は、評価対象ゲノムデータ３０を記憶部２４０に登録する。

前処理部２５２は、各種の前処理を実行する処理部である。たとえば、前処理部２５２は、転置インデックステーブル２４２を生成する処理、基準データ１４４を生成する処理を実行する。

前処理部２５２が、転置インデックステーブル２４２を生成する処理の一例について説明する。まず、前処理部２５２は、前処理部１５２と同様にして、癌ゲノムＤＢ２４１に登録された塩基配列と、変換テーブル１４３とを比較して、塩基配列をコドン単位のコドン配列に符号化する。

前処理部２５２は、癌ゲノムＤＢ１４２から、未選択の癌識別情報のコドン配列を取得し、コドン配列に対して、タンパク質の単位で、形態素解析を実行することで、癌ゲノムに含まれる複数の形態素を特定する。たとえば、一つの形態素には、一つのタンパク質に対応するコドン配列が含まれる。

前処理部２５２は、コドン配列に対して実行した形態素解析の結果と、タンパク質辞書情報２４３Ａとを比較し、形態素が、タンパク質辞書情報２４３Ａのコドン配列にヒットした場合には、形態素を、タンパク質の符号に変換する。また、前処理部２５２は、タンパク質の単位で、先頭を起点とする符号のオフセットを特定し、転置インデックスにおいて、オフセットと、タンパク質の符号とに対応する部分に「１」を設定する。

前処理部２５２は、コドン配列に対して実行した形態素解析の結果と、タンパク質辞書情報２４３Ａとを比較し、形態素が、タンパク質辞書情報２４３Ａのコドン配列にヒットしない場合には、ユニークな登録番号を生成する。前処理部２５２は、登録番号と、カウンタの初期値「１」と、形態素に含まれるコドン配列とを、動的辞書情報２４３Ｂに登録すると共に、形態素を、登録番号に置き換えることで、符号化（動的符号化）する。また、前処理部２５２は、タンパク質の単位で、先頭を起点する符号のオフセットを特定し、転置インデックスにおいて、オフセットと、タンパク質の符号（登録番号）とに対応する部分に「１」を設定する。

なお、前処理部２５２は、タンパク質辞書情報２３４Ａにヒットしない形態素のコドン配列が既に動的辞書情報２４３Ｂに登録されている場合には、該当する登録番号によって符号化すると共に、該当するカウンタに１を加算する。また、前処理部２５２は、タンパク質の単位で、先頭を起点とする符号のオフセットを特定し、転置インデックスにおいて、オフセットと、タンパク質の符号（登録番号）とに対応する部分に「１」を設定する。

前処理部２５２は、癌ゲノムＤＢ２４１に登録された各癌識別情報のコドン配列について、上記処理を繰り返し実行することで、動的辞書情報２４３Ｂに、未知タンパク質のコドン配列を登録すると共に、転置インデックスの該当部分に「１」を設定していく。また、前処理部２５２は、タンパク質の単位で符号化したタンパク質配列を、癌識別情報と対応付けて、癌ゲノムＤＢ２４１に登録する。

前処理部２５２は、上記処理により生成した各癌識別情報に対応する転置インデックスを、転置インデックステーブル２４２に登録する。前処理部２５２は、実施例１と同様にして、転置インデックスを生成すると、情報量を削減するために、転置インデックスをハッシュ化してもよい。

続いて、前処理部２５２が基準データ１４４を生成する処理の一例について説明する。前処理部２５２が基準データ１４４を生成する処理は、実施例１の図３で説明した処理と同様であるため、説明を省略する。前処理部２５２は、開始コドン位置２０Ａおよび基準位置２０Ｂの情報を、基準データ１４４として、記憶部２４０に登録する。

生成部２５３は、評価対象ゲノムデータ３０に突然変異「挿入」、「欠失」を発生させることで、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成する処理部である。生成部２５３は、生成した突然変異ゲノムデータ３０Ａ（３０Ｂ）を、突然変異ゲノムデータテーブル１４７に登録する。生成部２５３が、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成する処理は、実施例１で説明した生成部１５３の処理と同様である。

特定部２５４は、突然変異ゲノムデータ３０Ａ（３０Ｂ）と、基準位置２０Ｂとを基にして、突然変異ゲノムデータ３０Ａ（３０Ｂ）の基準コドンを特定する。また、特定部２５４は、突然変異ゲノムデータ３０Ａ（３０Ｂ）を、タンパク質の単位で形態素解析を実行し、基準コドンを含むコドン配列を特定する。特定部２５４は、基準コドンと、基準コドンを含むコドン配列の情報を、評価部２５５に出力する。

評価部２５５は、癌ゲノムのタンパク質配列と、突然変異ゲノムデータ３０Ａ（３０Ｂ）の基準コドンを含むコドン配列とを基にして、各癌ゲノムと、突然変異ゲノムデータ３０Ａ（３０Ｂ）との類似度を評価する処理部である。

評価部２５５は、動的辞書情報２４３Ｂと、基準コドンを含むコドン配列とを比較し、基準コドンを含むコドン配列が、動的辞書情報２４３Ｂのコドン配列に存在するか否かを判定する。評価部２５５は、基準コドンを含むコドン配列が、動的辞書情報２４３Ｂのコドン配列に存在しない場合には、突然変異ゲノムデータ３０Ａ（３０Ｂ）に類似する癌ゲノムは、癌ゲノムＤＢ２４１に存在しないと評価し、続く評価に関する処理をスキップする。

一方、評価部２５５は、基準コドンを含むコドン配列が、動的辞書情報２４３Ｂのコドン配列に存在する場合には、突然変異ゲノムデータ３０Ａ（３０Ｂ）に類似する癌ゲノムが、癌ゲノムＤＢ２４１に存在すると判定し、続く評価に関する処理を実行する。

評価部２５５は、図１７、図１９で説明したように、基準タンパク質と、基準タンパク質配列とを特定する。評価部２５５は、突然変異ゲノムデータ３０Ａ（３０Ｂ）を、タンパク質辞書情報２４３Ａおよび動的辞書情報２４３Ｂを基にして、タンパク質の粒度で符号化する。評価部２５５は、タンパク質の粒度で符号化した突然変異ゲノムデータ３０Ａ（３０Ｂ）について、基準コドンを含むタンパク質の符号を、基準タンパク質として特定する。評価部２５５は、基準タンパク質の前後の連続するタンパク質配列を「基準タンパク質配列」として特定する。

評価部２５５は、基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、基準タンパク質配列と一致するタンパク質の長さのうち、最大の長さを「類似度」として特定する。

なお、評価部２５５は、一致するタンパク質の長さを特定する場合に、癌ゲノムの転置インデックスを利用する。以下において、評価部２５５が、転置インデックスを用いて、一致するタンパク質の長さを特定する処理の一例について説明する。

評価部２５５は、基準タンパク質配列と比較する癌ゲノムに対応する転置インデックスを、転置インデックステーブル２４２から取得する。評価部２５５は、基準タンパク質（符号）と、転置インデックスとを比較し、癌ゲノムのタンパク質配列上において、基準タンパク質と同一のタンパク質が出現する位置（オフセット）を特定し、比較する場合の起点とする。

評価部２５５は、転置インデックスの起点となる位置の前後の位置において、フラグ「１」に対応する行のタンパク質の符号を特定し、特定したタンパク質の符号が、基準タンパク質配列の符号と一致するか否かに応じて、一致するコドンの長さを特定する。

なお、評価部２５５は、転置インデックスから、基準タンパク質配列の各タンパク質に対応するビットマップを抽出し、シフトとＡＮＤ演算を繰り返し実行することで、基準タンパク質配列の一部のタンパク質配列が、癌ゲノムのタンパク質配列上に含まれるか否かを評価することも可能である。かかる処理は、図１２で説明したコドンの単位を、タンパク質の単位に置き換えた処理に対応する。

評価部２５５は、同一の癌ゲノムについて、突然変異ゲノムデータ３０Ａとの類似度、突然変異ゲノムデータ３０Ｂとの類似度を評価する。評価部２５５は、各類似度を癌ゲノムＤＢ２４１に登録してもよいし、大きい方の類似度を、癌ゲノムＤＢ２４１に登録してもよい。

評価部２５５は、上記処理を繰り返し実行することで、癌ゲノムＤＢ２４１の各癌識別情報に対応する類似度を登録する。

評価部２５５は、癌ゲノムＤＢ２４１の各類似度を走査し、最大の類似度となる癌識別情報を特定し、特定した癌識別情報に対応する癌ゲノムの塩基配列データを、癌ゲノムＤＢ２４１から検索し、検索した癌ゲノムのタンパク質配列を、表示部２３０に出力して表示させる。

また、評価部２５５は、癌ゲノムＤＢ２４１の各類似度を走査し、類似度の降順に各癌識別情報をソートする。評価部２５５は、ソートした各癌識別情報のうち、上位Ｎ_Ｂの癌識別情報を、リストデータ２４４に登録する。評価部２５５は、上位Ｎ_Ｂの癌識別情報に対応する癌ゲノムのタンパク質配列を癌ゲノムＤＢ２４１から検索し、リストデータ２４４に登録してもよい。評価部２５５は、リストデータ２４４を表示部２３０に出力して表示させてもよいし、ネットワークを介して、外部装置に送信してもよい。

評価部２５５は、実施例１と同様にして、転置インデックスのビットマップがハッシュ化されている場合には、ハッシュ化されたビットマップを復元する。

次に、本実施例２に係る評価装置２００の処理手順の一例について説明する。図２５は、本実施例２に係る評価装置が転置インデックステーブルを生成する処理手順を示すフローチャートである。図２５に示すように、評価装置２００の前処理部２５２は、未選択の癌識別情報を選択し、選択した癌識別情報に対応するコドン配列を癌ゲノムＤＢ２４１から取得する（ステップＳ２０１）。前処理部２５２は、選択した癌識別情報に対応する転置インデックスを初期化する（ステップＳ２０２）。

前処理部２５２は、コドン配列に対して形態素解析を実行する（ステップＳ２０３）。前処理部２５２は、形態素に対応するコドン配列が、タンパク質辞書情報２４３Ａに含まれる場合、形態素を、既知のタンパク質の符号に符号化し、転置インデックスを更新する（ステップＳ２０４）。

前処理部２５２は、形態素に対するコドン配列が、タンパク質辞書情報２４３Ａに含まれていない場合、形態素を、動的符号化し、転置インデックスを更新する（ステップＳ２０５）。前処理部２５２は、全ての形態素を選択していない場合には（ステップＳ２０６，Ｎｏ）、ステップＳ２０４に移行する。

前処理部２５２は、全ての形態素を選択した場合には（ステップＳ２０６，Ｙｅｓ）、転置インデックスを転置インデックステーブル２４２に登録する（ステップＳ２０７）。前処理部２５２は、全ての癌識別情報を選択していない場合には（ステップＳ２０８，Ｎｏ）、ステップＳ２０１に移行する。前処理部２５２は、全ての癌識別情報を選択した場合には（ステップＳ２０８，Ｙｅｓ）、転置インデックステーブル２４２を生成する処理を終了する。

図２６および図２７は、評価装置が実行する評価処理の処理手順を示すフローチャートである。図２６について説明する。評価装置２００の取得部２５１は、評価対象ゲノムデータ３０を取得し、記憶部２４０に登録する（ステップＳ３０１）。

評価装置２００の生成部２５３は、評価対象ゲノムデータ３０に突然変異を発生させて、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成し、突然変異ゲノムデータテーブル１４７に登録する（ステップＳ３０２）。

評価装置２００の評価部２５５は、基準データ１４４と、突然変異ゲノムデータ３０Ａ（３０Ｂ）とを基にして、基準コドンを特定する（ステップＳ３０３）。評価装置２００は、突然変異ゲノムデータ３０Ａ（３０Ｂ）を基にして、形態素解析を実行する（ステップＳ３０４）。

評価部２５５は、基準コドンを含む形態素が、未知タンパク質であり、かつ、この未知タンパク質が、動的辞書情報２４３Ｂに登録されているという条件を満たすか否かを判定する（ステップＳ３０５）。評価部２５５は、条件を満たさない場合には（ステップＳ３０６，Ｎｏ）、類似の癌ゲノムはないと評価する（ステップＳ３０７）。

一方、条件を満たす場合には（ステップＳ３０６，Ｙｅｓ）、評価装置２００の特定部２５４は、基準タンパク質配列を特定し（ステップＳ３０８）、図２７のステップＳ３０９に移行する。

図２７の説明に移行する。評価部２５５は、未選択の癌識別情報を選択する（ステップＳ３０９）。評価部２５５は、選択した癌識別情報の転置インデックスと、基準タンパク質配列とを基にして、類似度を算出する（ステップＳ３１０）。評価部２５５は、選択した癌識別情報と類似度とを対応付けて癌ゲノムＤＢ２４１に登録する（ステップＳ３１１）。

評価部２５５は、全ての癌識別情報を選択していない場合には（ステップＳ３１２，Ｎｏ）、ステップＳ３０９に移行する。評価部２５５は、類似度の降順に、各癌識別情報をソートする（ステップＳ３１３）。

評価部２５５は、上位の癌識別情報に対応する癌ゲノムのタンパク質配列を、リストデータ２４４に登録する（ステップＳ３１４）。評価部２５５は、リストデータ２４４を表示部２３０に出力して表示させる（ステップＳ３１５）。

次に、本実施例２に係る評価装置２００の効果について説明する。評価装置２００は、評価対象ゲノムデータ３０の変異対象コドンに対して、突然変異を発生させることで、突然変異ゲノムデータ３０Ａ（３０Ｂ）を生成する。評価装置２００は、突然変異ゲノムデータ３０Ａ（３０Ｂ）の基準ゲノムを起点とする基準タンパク質配列と、癌ゲノムのタンパク質配列とを比較して、連続して一致するタンパク質の長さ（類似度）を特定する。評価装置２００は、連続して一致するタンパク質の長さが最大となる癌ゲノムを、評価対象ゲノムデータ３０が癌化した場合の癌ゲノムとして評価する。

このように、評価装置２００では、突然変異を発生させるコドンを、変異対象コドンに固定するため、新たに生成するゲノムデータのバリエーションの数を抑止することができる。また、癌ゲノムと比較するタンパク質配列を、基準コドンを含む基準タンパク質配列に絞り込むことで、比較の試行回数を削減することができ、評価を高速化することができる。また、タンパク質の粒度で、癌特有のタンパク質配列との類似度の評価を行うことができる。

次に、本実施例に示した評価装置２００（１００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２８は、本実施例に係る評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図２８に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る読み取り装置３０４と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置３０５とを有する。コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

ハードディスク装置３０７は、取得プログラム３０７ａ、前処理プログラム３０７ｂ、生成プログラム３０７ｃ、特定プログラム３０７ｄ、評価プログラム３０７ｅを有する。ＣＰＵ３０１は、取得プログラム３０７ａ、前処理プログラム３０７ｂ、生成プログラム３０７ｃ、特定プログラム３０７ｄ、評価プログラム３０７ｅを読み出してＲＡＭ３０６に展開する。

取得プログラム３０７ａは、取得プロセス３０６ａとして機能する。前処理プログラム３０７ｂは、前処理プロセス３０６ｂとして機能する。生成プログラム３０７ｃは、生成プロセス３０６ｃとして機能する。特定プログラム３０７ｄは、特定プロセス３０６ｄとして機能する。評価プログラム３０７ｅは、評価プロセス３０６ｅとして機能する。

取得プロセス３０６ａの処理は、取得部１５１，２５１の処理に対応する。前処理プロセス３０６ｂの処理は、前処理部１５２，２５２の処理に対応する。生成プロセス３０６ｃの処理は、生成部１５３，２５３の処理に対応する。特定プロセス３０６ｄの処理は、特定部１５４，２５４の処理に対応する。評価プロセス３０６ｅの処理は、評価部１５５，２５５の処理に対応する。

なお、各プログラム３０７ａ～３０７ｅについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくてもよい。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｅを読み出して実行するようにしてもよい。

１０基準ゲノムデータ
３０評価対象ゲノムデータ
１００，２００評価装置
１２０，２２０入力部
１３０，２３０表示部
１４０，２４０記憶部
１４１ゲノムＤＢ
１４２，２４１癌ゲノムＤＢ
１４３変換テーブル
１４４基準データ
１４５，２４２転置インデックステーブル
１４７突然変異ゲノムデータテーブル
１４８，２４４リストデータ
１５０，２５０制御部
１５１，２５１取得部
１５２，２５２前処理部
１５３，２５３生成部
１５４，２５４特定部
１５５，２５５評価部
２４３Ａタンパク質辞書情報
２４３Ｂ動的辞書情報

Claims

塩基配列データを取得し、
取得した前記塩基配列データに含まれる複数の塩基の前記塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成し、
生成した前記新たな塩基配列データに含まれる複数の塩基を前記新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定し、
特定した前記部分塩基列と、前記複数の部分塩基列のうち、特定した前記部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した前記塩基配列データに関する評価を行う
処理をコンピュータが実行することを特徴とする評価方法。
前記新たな塩基配列データを生成する処理は、取得した前記塩基配列データ上の前記基準位置の部分塩基列に続く部分塩基配列に、塩基を挿入することで、前記新たな塩基配列データを生成することを特徴とする請求項１に記載の評価方法。
前記新たな塩基配列データを生成する処理は、取得した前記塩基配列データ上の前記基準位置の部分塩基列に続く部分塩基配列の塩基を欠失させることで、前記新たな塩基配列データを生成することを特徴とする請求項１に記載の評価方法。
前記複数の部分塩基列を特定する処理は、前記新たな塩基配列データ上の基準位置から、コドン単位で区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定されるコドンを含む部分塩基列を特定することを特徴とする請求項１、２または３に記載の評価方法。
前記複数の部分塩基列を特定する処理は、前記新たな塩基配列データ上の基準位置から、タンパク質単位で区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定されるタンパク質を含む部分塩基列を特定することを特徴とする請求項１、２または３に記載の評価方法。
前記評価する処理は、前記並びと、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列とを比較し、連続して一致する部分塩基列の数を評価することを特徴とする請求項１、２または３に記載の評価方法。
塩基配列データを取得し、
取得した前記塩基配列データに含まれる複数の塩基の前記塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成し、
生成した前記新たな塩基配列データに含まれる複数の塩基を前記新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定し、
特定した前記部分塩基列と、前記複数の部分塩基列のうち、特定した前記部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した前記塩基配列データに関する評価を行う
処理をコンピュータに実行させることを特徴とする評価プログラム。
塩基配列データを取得する取得部と、
取得した前記塩基配列データに含まれる複数の塩基の前記塩基配列データ上の位置をシフトさせることにより、新たな塩基配列データを生成する生成部と、
生成した前記新たな塩基配列データに含まれる複数の塩基を前記新たな塩基配列データ上の基準位置から所定ルールで区切ることで生成される複数の部分塩基列のうち、遺伝子変異が生じたと推定される塩基を含む部分塩基列を特定する特定部と、
特定した前記部分塩基列と、前記複数の部分塩基列のうち、特定した前記部分塩基列と所定の位置関係を有する部分塩基列との並びが、所定の塩基配列データに含まれる複数の塩基を前記所定の塩基配列データ上の前記基準位置から前記所定ルールで区切ることで生成される複数の部分塩基列で出現する出現状況に応じて、取得した前記塩基配列データに関する評価を行う評価部と
を有することを特徴とする評価装置。