JP3563394B2 - 画面表示システム - Google Patents

画面表示システム Download PDF

Info

Publication number
JP3563394B2
JP3563394B2 JP2002085962A JP2002085962A JP3563394B2 JP 3563394 B2 JP3563394 B2 JP 3563394B2 JP 2002085962 A JP2002085962 A JP 2002085962A JP 2002085962 A JP2002085962 A JP 2002085962A JP 3563394 B2 JP3563394 B2 JP 3563394B2
Authority
JP
Japan
Prior art keywords
group
expression level
rule
genes
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002085962A
Other languages
English (en)
Other versions
JP2003281156A (ja
Inventor
佳宏 大田
哲夫 西川
茂男 井原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002085962A priority Critical patent/JP3563394B2/ja
Priority to US10/309,141 priority patent/US20030187592A1/en
Publication of JP2003281156A publication Critical patent/JP2003281156A/ja
Application granted granted Critical
Publication of JP3563394B2 publication Critical patent/JP3563394B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Description

【0001】
【発明の属する技術分野】
本発明は、ある性質を有するサンプルのグループと有しないサンプルのグループについて、それぞれのグループに属するサンプルの遺伝子の特徴を抽出し、さらにその違いを抽出・可視化して表示する画面表示システム、及び新たなサンプルがどちらのグループに属する可能性が高いかを判定して医療診断に役立てる医療診断支援システムに関する。
【0002】
【従来の技術】
DNAマイクロアレー法により、多数の遺伝子の発現量を一度にモニターする事が可能となった。遺伝子の発現量は、その遺伝子をもつ個体の生命現象と密接に結びついていると考えられる。この遺伝子の発現量を解析することにより、生命現象の原因となる遺伝子の振る舞いの解明が期待されている。特に、遺伝的と考えられている疾患の原因遺伝子を特定することによる、診断や治療や創薬への利用の期待が大きい。
【0003】
解析の対象となる遺伝子の数は数千個にものぼり、遺伝的疾患にはそのうちの幾つかの遺伝子だけが関与していると考えられている。数千個の遺伝子の中から選択される数個の遺伝子の組み合わせを全て検証しようと考えると、非常に大きな数になってしまい、現実的な時間で作業を終えることはできない。そこで、効率的に有用な特徴を得るアルゴリズムが必要となってくる。
【0004】
発現量の解析方法には大きく分けて2つある。一つは、機械学習を行うSupport Vector Machineという解析法(Terrence S. Furey, Nello Cristianini, Nigel Duffy, David W. Bednarski, Michel Schummer, David Haussler, ”Support vector machine classification and validation of cancer tissue samples using microarray expression”)で、予め分類された細胞のサンプルを使って学習することで、新たに与えられたサンプルがそれらの分類のどれに属するかを評価することができる。この方法は、例えば細胞を疾患を持つ細胞と持たない細胞に分類し、診断システムとして利用することができる。しかし、この方法ではある疾患を持つかどうかを判断することはできるが、どの遺伝子が原因となっているかを突き止めることができないという問題が残る。
【0005】
もうひとつの期待される発現量の解析方法として、顧客の購入製品などに関する大規模なデータベースから相関関係を抽出するために利用されてきたデータマイニングが考えられる。相関関係を決定するために、サポートと確信度というルールの尺度を用いて、重要なルールを決定している。R. Agrawal, T. Imilienski, and A. Swami, ”Mining Association Rules between Sets of Items in Large Databases”やSergey Brin, Rajeev Motwani, Jeffrey D. ullman, Shalom Tsur, ”Dynamic Itemset Counting and Implication Rules for Market Basket Data”では効率的にサポートと確信度を満たすルールを抽出するアルゴリズムが与えられている。
しかし、DNAマイクロアレー法による発現量の測定は、コストがかかるため多くのサンプルの発現量データを得ることができない。サンプルの数が少ない場合、データマイニングを利用する方法ではサポートと確信度を満たすルールの決定が難しいという問題が考えられる。
【0006】
【発明が解決しようとする課題】
ある病気にかかりやすいか、ある薬が効きやすいか等、多くの状況において遺伝子が大きな情報を持っているという事が広く知られている。マイクロアレー法によって得られた遺伝子の発現量の情報をうまくつかう事によって、事前に病気の予防が出来たり、より効果的な治療方法を選択出来たりといった効果が得られる。そのため、より効果的にこの特徴を抽出する方法について、多くの研究がなされている。特に、ある性質を有するグループと有しないグループ間の遺伝子の違いを抽出する事は、その性質を有するグループの遺伝子だけを調べる方法と比べ、その効果が高い。そのため、一方のグループに強くでている特徴のうち、もう一方のグループにはほとんど出ていないものを抽出する方法が強く要求される。このような特徴は一般に複数の遺伝子の組み合わせで表される事が知られており、遺伝子の数が1万を越える状況では、特徴抽出にかかる計算量やメモリー量が莫大なものになってしまう。また、抽出される特徴が多数になってしまうため、これを効果的に可視化することが難しい。
【0007】
本発明の目的は、計算量・メモリーを効果的に削減できる方法を開発し、抽出された特徴を効果的に可視化して表示するシステムを提供することである。本発明の他の目的は、被検サンプルがどちらのグループに属する可能性が高いかを判定して医療診断に役立てる医療診断支援システムを提供することである。
【0008】
【課題を解決するための手段】
本明細書では、特徴を抽出したいグループとその比較対照となるグループをそれぞれPositiveとNegativeで表す。具体例としては、以下のようなものがあり、この他にも様々な医学的応用例を扱うことが可能である。
(1) ある疾患にかかっているか、かかっていないか
(2) 外科的な手術後に3年以上生存したか、しないか
(3) 薬剤投与後に効き目があったか、なかったか
(4) 放射線治療後に腫瘍の転移があったか、なかったか
【0009】
例えば、上記(1)を例にとると、ある疾患にかかっているグループをPositiveのグループ、かかっていないグループをNegativeのグループとする。上記(3)の例では、薬剤投与後に効き目があったグループをPositiveのグループ、効き目がなかったグループをNegativeのグループとする。
【0010】
DNAマイクロアレー法と原理的に同じ技術を用いたプロテインチップを用いた解析にも本発明は有効である。プロテインチップはプロテイン、つまりDNA情報によって作られたタンパク質の働きを調べるもので、チップにタンパク質の抗体などがついていて、特定の抗体と結びつく性質を利用してタンパク質の状況をレーザーなどで知る技術である。
【0011】
以下に、本発明の態様を列挙する。
(1)サンプルにおける遺伝子の発現量に関する情報を画面表示する画面表示システムにおいて、第1のグループに属する複数のサンプル各々の発現量に関する情報と、前記第1のグループとは性質を異にする第2のグループに属する複数のサンプル各々の発現量に関する情報とを対比して表示することを特徴とする画面表示システム。
(2)前記(1)記載の画面表示システムにおいて、複数の遺伝子の発現量に関する情報を対比して表示することを特徴とする画面表示システム。
【0012】
(3)前記(1)記載の画面表示システムにおいて、前記発現量に関する情報は、当該発現量が所定の範囲に入っているか否かの情報であることを特徴とする画面表示システム。
(4)前記(3)記載の画面表示システムにおいて、前記第1のグループは特定の性質を有するグループ(ポジティブのグループ)であり、前記第2のグループは当該特定の性質を有さないグループ(ネガティブのグループ)であることを特徴とする画面表示システム。
【0013】
(5)前記(1)記載の画面表示システムにおいて、前記第1のグループに属する複数のサンプルの発現量に関する情報同士を相互に隣接した位置に表示し、前記第2のグループに属する複数のサンプルの発現量に関する情報同士を相互に隣接した位置に表示することを特徴とする画面表示システム。
(6)サンプルにおける遺伝子の発現量に関する情報を画面表示する画面表示システムにおいて、第1のグループに属する複数のサンプル各々の発現量を元に作成された、一方の軸を発現量、他方の軸をサンプル数とする第1のヒストグラムと、前記第1のグループとは性質を異にする第2のグループに属する複数のサンプル各々の発現量を元に作成された、一方の軸を発現量、他方の軸をサンプル数とする第2のヒストグラムとを表示することを特徴とする画面表示システム。
【0014】
(7)前記(6)記載の画面表示システムにおいて、前記第1のヒストグラムと前記第2のヒストグラムを、前記一方の軸と他方の軸を共有する一つのグラフに重ねて表示することを特徴とする画面表示システム。
(8)前記(7)記載の画面表示システムにおいて、前記第1のヒストグラムと前記第2のヒストグラムを互いに表示の態様を変えて表示することを特徴とする画面表示システム。例えば表示の色や表示の濃淡等、表示の態様を変えて表示することにより、2つのヒストグラムを重ねて表示しても、それがどちらのヒストグラムの表示であるか、明確に区別することができる。
【0015】
(9)前記(6)記載の画面表示システムにおいて、前記発現量を表す軸は複数の発現量区間に分割されていることを特徴とする画面表示システム。
(10)前記(6)記載の画面表示システムにおいて、前記第1のグループは特定の性質を有するグループ(ポジティブのグループ)であり、前記第2のグループは当該特定の性質を有さないグループ(ネガティブのグループ)であることを特徴とする画面表示システム。
【0016】
(11)特定の性質を有することを特徴づける複数の遺伝子の発現量の範囲の組み合わせの集合と、当該性質を有しないことを特徴づける複数の遺伝子の発現量の範囲の組み合わせの集合とを記憶した記憶部と、被検サンプルの複数の遺伝子の発現量の範囲と前記記憶部に記憶された複数の遺伝子の発現量の範囲の組み合わせとを比較し、被検サンプルが前記特定の性質を有する可能性を計算する演算部と、前記演算部で計算された結果を表示する表示部とを備えることを特徴とする医療診断支援システム。
(12)前記(11)記載の医療診断支援システムにおいて、前記特定の性質は特定の治療方法が有効であるという性質であることを特徴とする医療診断支援システム。
【0017】
(13)前記(11)記載の医療診断支援システムにおいて、前記特定の性質は特定の疾患にかかっているという性質であることを特徴とする医療診断支援システム。
(14)前記(11)記載の医療診断支援システムにおいて、前記特定の性質は特定の疾患にかかりやすいという性質であることを特徴とする医療診断支援システム。
【0018】
(15)前記(11)記載の医療診断支援システムにおいて、前記演算部によって計算された結果を前記表示部に数値で表示することを特徴とする医療診断支援システム。
(16)前記(11)記載の医療診断支援システムにおいて、前記演算部によって計算された結果を前記表示部に割合としてグラフ表示することを特徴とする医療診断支援システム。
【0019】
(17)前記(11)記載の医療診断支援システムにおいて、特定の性質を有することを特徴づける複数の遺伝子の発現量の範囲の組み合わせの集合と、当該性質を有しないことを特徴づける複数の遺伝子の発現量の範囲の組み合わせの集合とを記憶した記憶部を、異なる複数の性質に関してそれぞれ有することを特徴とする医療診断支援システム。
(18)前記(17)記載の医療診断支援システムにおいて、前記演算部は、被検サンプルの複数の遺伝子の発現量の範囲と第1の記憶部に記憶された複数の遺伝子の発現量の範囲の組み合わせとを比較し、被検サンプルが第1の性質を有する可能性を計算するとともに、被検サンプルの複数の遺伝子の発現量の範囲と第2の記憶部に記憶された複数の遺伝子の発現量の範囲の組み合わせとを比較し、被検サンプルが第2の性質を有する可能性を計算することを特徴とする医療診断支援システム。
【0020】
(19)前記(18)記載の医療診断支援システムにおいて、前記表示部に、被検サンプルが前記第1の性質を有する可能性と前記第2の性質を有する可能性を表示することを特徴とする医療診断支援システム。
(20)前記(18)記載の医療診断支援システムにおいて、前記表示部に、被検サンプルが前記第1の性質を有する可能性と前記第2の性質を有する可能性を割合としてグラフ表示することを特徴とする医療診断支援システム。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
データの変換
データは、ある性質を有するグループと有しないグループについて、各遺伝子の発現量が実数値として与えられる。1.1でまずこのデータについて詳しく説明する。次に1.2で、この実数値のデータを検索・特徴抽出に適した離散値データに変換する方法を示す。最後に1.3でこのデータをより検索・特徴抽出に適した2値データに変換する方法を示す。また、これらの具体的な例を図1に示す。
【0022】
1.1 データの形態
データは、ある性質を有するグループのサンプルと有しないグループのサンプルについて、各遺伝子の発現量が実数値として与えられる(表101)。表101において、A1…Alはある性質を有する(Positive)l人のサンプルを表し、D1…Dmはある性質を有しない(Negative)m人のサンプルを表している。また遺伝子は、実際にはそれぞれ名前があるが、ここでは簡単のため、Genome1,Genome2,Genome3,…と、番号によって区別する。
【0023】
それぞれのグループの各サンプルについて、約一万の遺伝子の発現量が与えられる。発現量の値は解析方法にもよるが、例えば負の値から約数千の値まで様々な値をとる。しかし、その値が絶対的な量としてどのような意味をもつかという事は正確には分かっておらず、この値に何らかの意味をもたせるには相対的な評価が必要である。ここに示したデータ例の場合、ただ一つ絶対的な評価基準として与えられているのは、次の一点のみであるとする。
【0024】
・100以下の値は全て0とみなす
これは、各遺伝子が全く発現していないような時でも、計器の問題で100程度の値が出てしまう場合があるという事が分かっているからである。また、次のことも分かっている。
・100以上の値については実際の発現量以上の値は出ない
そのため、同じサンプル、遺伝子について2つ以上のデータがある場合は、大きい方のデータを採用することになる。
【0025】
このデータから、何らかの特徴抽出を行うわけであるが、連続値のデータはデータの検索、特徴抽出に適していない。なぜならば、連続値のデータではデータの検索、特徴抽出をする際に膨大な計算量、メモリー量を必要としてしまうからである。そこで次節以降で、この連続値データをデータの検索、特徴抽出に適した形式に変更する方法を示す。
【0026】
1.2 離散値への変換
1.1でも述べたとおり、データは連続値データとして与えられる。しかしながら、連続値のデータはデータの検索、特徴抽出に適していない。そこでこのデータを何らかの方法で離散値のデータに変換する方法が望まれる。しかしながら、連続値のデータを離散値のデータに変換するという事はデータの劣化を意味しており、変換方法によっては著しいデータの劣化を招き、特徴の抽出が正確に行われないと言う事も考えられる。著しいデータの劣化を招く方法として次の例があげられる。
【0027】
(例)閾値を適当に定め、この値より小さいものを0、大きいものを1として変換する。
この方法で変換した場合、大きな問題点が2つある。それは以下の通りである。
(問題点1)閾値をどのように定めるかという問題
(問題点2)ある区間に集中する特徴を抽出できない問題
まず、問題1について説明する。閾値を適当に設定するというのは非常に難しい問題である。例えば、大きすぎる閾値を設定してしまった場合、発現量の多くが0になってしまい、本来抽出されるべき特徴が抽出されないということが起こりうる。また、小さすぎる閾値を設定してしまった場合、この場合は逆に発現量の多くが1になってしまい、無意味に多くの特徴を抽出してしまう可能性がある。もうひとつ、例えば全体の値の平均を閾値として採用するという方法も考えられる。しかしながらこの方法では、全体の約半分が1で残り約半分が0というデータになってしまい、特徴のないデータになってしまう可能性がある。
【0028】
仮に問題1が解決されて適切な閾値の決定方法が確立されたとしても、問題2が依然として残る事になる。閾値を用いる方法では、ある値より大きいか小さいかの評価しか与えていない。しかしながら与えられるデータでは、極端に大きい、もしくは小さい発現量をもつサンプルが少量あり、残りの多くはある区間に集中しているという場合が多く見られる。このような重要な特徴を、1つの閾値を用いる方法では抽出できない事になる。
以上で述べたような問題1、問題2を解決する手段として、n個の境界を定め、これによってデータを離散化する方法について説明する。
【0029】
1.1でも述べたとおり、ここで取り扱うデータ例では、100以下の発現量は全て0とみなす事が出来る。そこで、発現量の最大値と100の間をn等分し、それぞれを境界値b…bとして設定する。この境界値を使って、それぞれの区間に入っている連続値に0からnまでの離散値を割り当てる。これはBorderという関数によって行われる。
【0030】
【数1】
Figure 0003563394
これによって、与えられた連続値データ(表101)は離散値データ(表103)に変換される。
【0031】
Border(x)によって連続値データを離散値データに変換する方法は、ひとつの閾値で変換する場合の2つの問題点をともに解決している。まず問題1の閾値の選び方であるが、この方法では複数の境界値を用いるため、境界値として選んだ値がデータに与える影響は、ひとつの閾値の場合に比べて非常に小さい。また、境界の数であるnを大きくすればその影響を任意に小さくすることが出来る。ただしこの場合、nを大きくする事で計算量、メモリー量のコストが大きくなってしまうというトレードオフがあるため、環境に合わせて適当に設定する必要がある。しかしながら3.1で説明する通り、nを大きくしてもあまりコストが大きくならない事が実験的に分かっており、この変換方法の有効性を証明している。次に問題2についてであるが、これはデータの変換方法から明らかに解決されている事が分かる。例えば、ある区間に集中しているデータは、変換後のデータでも例えば3〜5というようにある区間に集中している特徴として現れる。
【0032】
1.3 2 値への変換
1.2で得られた離散値のデータは、連続値のデータに比べてデータの検索、特徴抽出に適している。しかしながら、2.3で説明するサポートという特徴抽出を高速に行うための理論を用いるためには、データが2値で与えられている必要がある。そこで本節で、1.2で得られた離散値データ(表103)を2値データ(表105)に変換する方法を示す。
【0033】
1.2で得られた離散値データ(表103)の各値が示しているのは、元のデータの連続値がだいたいどの値をとっていたのかということである。そして、このデータから抽出すべき特徴というのは、例えば、ある性質を有するグループのある遺伝子はある範囲に発現量が集中している、といったものである。
(例)ある性質を有するグループは遺伝子3について90%以上のサンプルが3〜5の値をとっている
このような特徴は、例えば次のような2値データでも抽出する事が出来る。
【0034】
【数2】
Figure 0003563394
この関数による2値化は、1.2で示した閾値による2値化と大きく異なる。このように、適当な2値化が行われれば、特徴の抽出は正確に行われる。しかしながら実際はどのような範囲に入っているかが事前に分かるわけではない。そこで、様々な区間を対象とし、それぞれについて2値データへの変換をする方法を考える。このために次の表記を導入する。
【0035】
【数3】
Figure 0003563394
このiとjを1からnまで変化させることにより、全ての区間を網羅することが出来る。全ての区間の数は、幅1のものがn+1個、幅2のものがn個というように数えて行けば、
【0036】
【数4】
Figure 0003563394
となることが分かる。このようにして作られた各区間に対して、表103の離散値データがその区間に入っているかどうかで2値を割り当てる。すなわち次のような変換を行う。
【0037】
【数5】
Figure 0003563394
上記f(x)は、Binary(3,3)(x)と同じである事が分かる。
【0038】
この変換によって表103のGenom1に関する離散値データを2値データに変換したものが表105である。ここで注意しなければならないのは、各遺伝子についての1行のデータが[(n+1)(n+2)/2]行のデータになるという事である。それは各離散値データを、区間をいろいろに変えてそれぞれ2値化したためである。そのため、見た目上はデータが[(n+1)(n+2)/2]倍になったかの様に見える。しかしながら実質的にはデータの量としては変わっていない。しかも、3.1で示すとおり、表105のデータのうち実際に特徴抽出に用いるのは一部であり、データ量がnの2乗のオーダーで増えてしまうという問題は実際には起きない。
【0039】
本節の変換によって得られたデータ(表105)の各行は、ある遺伝子の発現量がある区間に属しているかどうかという事を表す2値データとなる。つまり、このデータに対して何らかの特徴が抽出された場合、それは遺伝子と発現量の区間に対する特徴を抽出した事になる。
【0040】
特徴の価値基準の定義
1で変換されたデータに対して特徴の抽出を行うわけであるが、そのまえに特徴という言葉について正確に言及する必要がある。そこでまず2.1で、目的を踏まえた上での抽出したい特徴について具体的に述べる。次に2.2節ではルールという言葉を導入し、さらに特徴という言葉を具体的に定義する。最後に2.3節において、ルールについて価値基準を定める。
【0041】
2.1 要求される特徴
本発明の方法によって抽出される特徴は、新たなサンプルが、ある性質を有するグループと有しないグループのどちらに属する可能性が高いかと言う事を調べる際に用いられる。すなわち、抽出された特徴は、ある性質を有するグループと有しないグループの差異を表している必要がある。すなわち、要求される特徴とは以下のように書くことが出来る。
【0042】
(要求される特徴)
「サンプルの遺伝子がその特徴を有しているならば、ある性質を持っている(もしくは、持っていない)可能性が高い」という事が分かる。
例えば、表105のGenom1(0,2)の行のデータを見ると、ある性質を有するサンプルの方は1が多いのに対して、ある性質を有しないサンプルの方は0が多い事が分かる。つまり、この遺伝子の区間に発現量が存在しているサンプルは、この性質を有している可能性が高い事が分かる。すなわち、この遺伝子の区間は要求される特徴となりうる。
【0043】
しかしながら、一般にはこのような遺伝子の特徴は、複数の遺伝子に起因するという事が知られている。そのため、表105のデータの複数の行の組み合わせについて同様の事を行うことになる。そこで次節以降で、遺伝子の発現量区間の組み合わせをルールとして定義し、さらにルールが要求される特徴となるための条件について説明する。
【0044】
2.2 ルール
ある性質を有するか有しないかと言う事は、一般には複数の遺伝子に起因するという事が知られている。そのため、表105のデータの複数の行の組み合わせについて特徴の抽出を行う必要がある。そこで本節で、この組み合わせについて正確に定義する。
まずはじめに、表105の各行を、サンプルに対して2値を割り当てる関数として見る事にする。すなわち、各行を表す関数rは、
【0045】
【数6】
Figure 0003563394
と表す事ができる。ただし、Positive,Negativeはそれぞれ、ある性質を有するサンプルと有しないサンプルの集合である。例えば1行目に対応する関数をrとすると、
【0046】
【数7】
Figure 0003563394
となる。同様に2行目に対応する関数をrとすると、
【0047】
【数8】
Figure 0003563394
となる。これを正確に定義すると以下のようになる。
【0048】
【数9】
Figure 0003563394
このようにして定義した各行を表す関数の集合としてルールを定義する。例えば、{r,r}や{r,r,r,r,r}はルールである。特に要素が1つのもの(例えば、{r}や{r})もルールである。
【0049】
ルールは、表105における各行を表す関数の組み合わせであり、すなわち各遺伝子の各区間の組み合わせとなっている。ここで注意しなければならないのは、同じ遺伝子の異なる区間を表す行が、ひとつのルールに混在する事は避けなければならないと言うことである。なぜならば、連続する区間は2値への変換においてすべて網羅されているため、この混在はデータの重複を意味するからである。例えば、表105の1行目に対応する関数Genom1(0,1)と2行目に対応する関数Genom1(1,1)をルールとした場合、5行目に対応する関数Genom1(0,2)と同じである事が分かる。このような事態を避けるため、ルールには、各遺伝子に起因する行はそれぞれ1つずつしか含む事ができないものとして扱う事にする。これは、アルゴリズムでルールを作る際に省かれる。
以上で定義されたルールについて、次節で価値基準を定め、要求される特徴となりうるものを選別する方法を示す。
【0050】
2.3 ルールの価値基準
要求される特徴は、「サンプルの遺伝子がその特徴を有しているならば、ある性質を持っている(もしくは持っていない)可能性が高い」という事が分かるというものである。すなわち、一方のグループで1が発生する確率が高く、もう一方のグループで1が発生する確率が低い、と言った状況がこれに対応する事が分かる。そこでこの「1が発生する確率」を表すためにサポートいう概念を導入する。
【0051】
(定義)サポート
【数10】
Figure 0003563394
spt(R),spt(R)はそれぞれ、サンプルの集合Positive(Negative)の中で、Rに属する全ての行が1となっているサンプルのみを抜き出した集合となっている。例えば、表105において9行目に対応する関数Genome1(1,3)と10行目に対応する関数Genom1(0,4)の集合をルールとすると、
【0052】
【数11】
Figure 0003563394
となる。この結果、サポートで定義される集合の要素数が大きいほど、それぞれのグループで1となる確率が高い事が分かる。次に、この2つのグループの差を表す指標としてdifferential confidenceを定義する。ただし、#Aは集合Aの要素数を表すものとする。
【0053】
(定義)differential confidence
【数12】
Figure 0003563394
differential confidenceはすなわち、1となったサンプル全体のうちグループPositiveに属しているサンプルの割合を表したものであり、この値が大きいほどグループPositiveで1が発生する確率と、グループNegativeで1が発生する確率の差が大きい事が分かる。すなわち、differential confidenceが大きいルールが要求される特徴となりうる事が分かる。このようにして定義されたdifferential confidenceは2つの集合の差を表す確信度としての意味をもっており、従来のconfidenceとは異なる。
【0054】
以上の議論より、differential confidenceが高いルールを探し出す事が、強い特徴を抽出することにつながる事が分かる。しかしながら実際には、この基準だけではよい特徴を抽出する事はできない。そのひとつの例として、次のような場合がある。
【0055】
(例)次の2つが、それぞれPositiveに属していてNegativeに属していない確率を高く与えるルールとして成り立っているとする。
(1) 被験者の遺伝子1,2が発現しているならば、Positiveに属していてNegativeに属していない可能性が高い
(2) 被験者の遺伝子1,2,3が発現しているならば、Positiveに属していてNegativeに属していない可能性が高い
このような場合、(1)の特徴だけがあれば十分である事が分かる。すなわち、あるルールの部分ルールが同様に高いdifferential confidenceを実現しているのであれば、その部分ルールの方のみを特徴として抽出すべきであることが分かる。
【0056】
ルールの要素を多くしていったとき、#sptPositive(R),#sptNegative(R)は増える事は決して無く、だんだんと小さくなっていく事がサポートの定義から分かる。differential confidenceを大きくするためには、#sptPositive(R)を大きく、#sptNegative(R)を小さくしなければならない。そのため、出来るだけ小さいルールで高いdifferential confidenceを実現するためには、#sptNegative(R)が効率的に減らされて行く事が不可欠である。そこでこの事を踏まえた上で余計なルールを含まないルール(そのルールが持つ価値を実現する最小のルール)として、最小遺伝子ルールを以下のように定義する。これは、同じ価値をもつルールであれば小さいルールほど利用価値が高いという事に基づく。
【0057】
(定義)最小遺伝子ルール
ルールRが全ての部分ルールR’(R’⊂R,R’≠R)について
#sptNegative(R’)>#sptNegative(R)
となるとき、ルールRは最小遺伝子ルールであるという。
【0058】
最小遺伝子ルールは、高いdifferential confidenceを実現する小さいルールを見つけ出す上で非常に有効な概念である。しかし、そのルールが最小遺伝子ルールであるかどうかを判定するのに、全ての部分ルールを調べる必要がある。つまりルールの要素数の2乗のオーダーの計算量が必要になってしまう。この計算量は、以下の定理によって高速化が保証される。
【0059】
(定理1)ルールRに関して次の2つは同値である。
(i) ルールRの全ての部分ルールR’(R’⊂R,R’≠R)について
#sptNegative(R’)>#sptNegative(R)
(ii) ルールRの部分ルールR’(R’⊂R,R’≠R)のうち、#R’=#R−1となる集合について
#sptNegative(R’)>#sptNegative(R)
【0060】
この定理によれば、全ての部分ルールでなく、要素数がひとつ小さい部分ルールについてのみ調べれば最小遺伝子ルールであるかどうか判定する事ができることが分かる。すなわち、最小遺伝子ルールの判定には、ルールの要素数の1乗のオーダーの計算量しかかからないことが分かる。
最小遺伝子ルールの概念は、より価値の高い特徴を抽出するのに役立つだけでなく、特徴抽出にかかる計算量を削減する事にも大きな役割を果たす。これを保証するのが次の定理である。
【0061】
(定理2)ルールR’が最小遺伝子ルールでないならば、それを部分ルールに含むルールR’(R’⊂R)も最小遺伝子ルールとならない。
この定理により、アルゴリズムでルールを作る際、最小遺伝子ルールでないルールはこれ以上ルールの要素を増やす必要がなく、その段階で破棄する事が出来る。これによって無駄な計算を避ける事ができ、計算量を大幅に削減することが出来る。
【0062】
ここまでの説明で、differential confidenceの高い最小遺伝子ルールが要求される特徴となりうることが分かった。しかしながら、要求される特徴となるためにはdifferential confidenceについて2点注意しなければならない点がある。
【0063】
まずその1つ目について説明する。differential confidenceは、1となったサンプル全体のうちグループPositiveに属しているサンプルの割合を表したものであるが、この指標には1となったサンプル全体の数は表れていない。そのため、例えばPositiveに属するものが1個でNegativeに属するものが0個の場合、実際には価値がないにも関わらず、differential confidenceは最大値となってしまう。このような事態を避けるために、#sptPositive(R)に下限BorderPositiveを設ける。同様に、#sptNegative(R)に上限BorderNegativeを設けることでdifferential confidenceに下限を与えるのと同じ意味になる。
【0064】
次に2つ目について説明する。最小遺伝子ルールの議論でも述べたが、抽出されるルールは出来るだけ小さいものが望ましい。一方、ここまでの議論に基づいて要求される特徴となるルールを定義した場合、これにさらにルールを追加したルールについても要求される特徴となるルールになってしまう場合がある。これを避けるために、部分ルールが要求される特徴となるルールになってはならないという条件を新たに加える事にする。
【0065】
以上の議論から、要求される特徴となるルールを疾患原因ルールとして以下のように定義する。これは、抽出されるルールが非常に膨大な数になってしまうため、ルール全体を順序付ける前に価値の低いものを削減するためである。
【0066】
(定義)疾患原因ルール
与えられたBorderPositive,BorderNegativeに対して、ルールRが以下の4つの条件を満たすとき、ルールRは疾患原因ルールであると言う。
(1) Rは最小遺伝子ルールである
(2) R’(R’⊂R,R’≠R)に対して、#sptNegative(R’)≧BorderNegative
(3) #sptPositive(R)≧BorderPositive
(4) #sptNegative(R)<BorderNegative
【0067】
ここで注意しておきたいのは、#sptPositive(R)≧BorderPositiveを満たす範囲で考えた場合に、疾患原因ルールとそうでないルールのdifferential confidenceの関係である。これについて、次の定理が明らかになっている。
(定理3)疾患原因ルールのdifferential confidenceの最小値が、#sptPositive(R)≧BorderPositiveを満たすその他のルールのdifferential confidenceの最大値よりも大きくなるための必要十分条件は次の不等式で与えられる。ただしlはPositiveのサンプル数である。
【0068】
【数13】
Figure 0003563394
【0069】
この定理によれば、BorderPositiveを大きく、BorderNegativeを小さく設定すれば条件を満たす事が分かる。実際、疾患原因ルールとして抽出されるルールのdifferential confidenceを大きくするためには、BorderPositive,BorderNegativeにそれぞれ大きい値、小さい値を割り当てる必要があり、定理3の条件は満たされることになる。
このようにして定義した疾患原因ルールについても、最小遺伝子ルールの場合と同様にそのサブルールに対して条件があり、これを使う事で計算量を減らすことが出来る。これは次の定理により保証される。
【0070】
(定理4)ルールR’(R’⊂R,R’≠R)が次の条件をひとつでも満たさない場合、ルールRは疾患原因ルールでない。
(1) ルールR’は最小遺伝子ルールである。
(2) #sptPositive(R’)≧BorderPositive
(3) #sptNegative(R’)≧BorderNegative
この定理により、条件(1)(2)(3)のいずれかを満たさないルールは、これ以上ルールを組み合わせる必要がなく、その段階で削除してよいことが分かる。これによって無駄な計算を避ける事ができ、計算量を大幅に削減することが出来る。
【0071】
このようにして定義された疾患原因ルールが表す特徴は、「サンプルの遺伝子がその特徴を有しているならば、ある性質を持っている(もしくは持っていない)可能性が高い」という性質をもっているという意味で価値ある特徴であり、またそれを実現する最小の組み合わせになっている。
【0072】
ルールの抽出を行うアルゴリズム
2.3で定義された疾患原因ルールとなる全てのルールを探し出すアルゴリズムについて説明する。まず3.1で、与えられる連続値データを変換して得られた2値データ(表105)のうち、疾患原因ルールになりうる行だけを選び出し、データを削減する事について説明する。次に3.2で、削減されたデータを組み合わせて、疾患原因ルールを作るアルゴリズムについて説明する。
【0073】
3.1 データの削減
与えられる連続値データを変換して得られた2値データの各行は、それぞれ要素数1のルールとして見る事ができる。すなわち、これらのルールのうち、疾患原因ルールの部分ルールに必要とされる条件を満たさないものは事前に削除する事が出来ることになる。これによって大幅なデータ削減を行う事ができる。図2に不必要な遺伝子の発現量の区間を取り除く場合と取り除かない場合のデータ量の違いを表す。図2における横軸は分割数、縦軸は処理するデータの数をそれぞれ表している。ここで使用したデータは、癌疾患に関する特徴を持つグループと特徴を持たないグループとそれぞれ16人づつの患者の7220個の遺伝子に関する発現量をもとにしている。
【0074】
またデータの削減は、計算量の削減という意味に加えて、特徴の絞り込みという一面も持っている。データの量が多すぎると、抽出される特徴もそれにともなって多くなってしまい、実際に使うのには適さないこともある。例えば、抽出した特徴が10000を越えるような場合、それをどのように使うのかという事が新たな問題となってしまう。かといって、無意味にデータを削減するのでは有用な特徴まで見逃しかねない。そこで次のような方法によって、特徴の抽出に対する影響を小さく押さえながら、効率的にデータの削減を行った。
【0075】
(1) 幅n+1の区間は除く
(2) 離散値の0を含み、幅が2以上の区間は除く
(3) 幅がn’以上のものは除く(n’<n)
【0076】
条件(1)は全ての区間を表すものであり、全ての値が1の行を作ってしまうため、当然取り除かれるべきである。上記条件(2)は、離散値の0が表す区間(100以下)を特別に扱ったものである。実験では、データは比較的小さい値と100以下の値に集中しており、条件(2)で除いたような区間は1が多く出来てしまい、特徴として抽出されやすい傾向がある。1.1でも述べたとおり、100以下の値は全く発現していないとみなす事が出来る。この全く発現していない区間と、100以上のある程度は発現しているとみなせる区間とを合わせた区間を考える事はあまり意味がないと考えられる。このあまり意味のない特徴が膨大に出力された結果として、価値ある特徴が埋もれてしまうのは問題がある。そのため2のような場合を除く事にした。最後に条件(3)であるが、これは(1)(2)の条件によるデータ削減によっても抽出される特徴が非常に多くなってしまったためにつけた条件である。(3)の条件をつける事によって、広い区間にまんべんなく分布しているような特徴は抽出できなくなってしまう。しかしながら、狭い区間に集中的に存在するという特徴の方が重要な特徴であることは明らかであり、これを重要視するのは価値あることである。n’を小さく選ぶ事によってデータを小さくする事ができるが、前述のように、特徴の抽出を犠牲にしてしまうので、適当に選ぶ必要がある。
【0077】
これら(1)(2)(3)の条件によるデータ削減によって、データ量を大幅に削減することができる。またこれによって抽出される特徴を効果的に絞り込むことが出来る。
【0078】
3.2 アルゴリズム
2.3で定義された疾患原因ルールとなるルールを全て探し出すためのアルゴリズムについて説明する。
まず考えなければならないのは、全てのルールの組み合わせを作ることである。そのために図3のような探索木を考える。 ルート(符号301)から出発して下のほうに次の枝(符号302)を伸ばす。新たにパスに加えるノードは今までのパスに含まれないものである。こうして、任意の長さのパスを考えることで、任意の組み合わせのパスが作れる。この全てのパスに対して疾患原因ルールになっているかどうかを調べればよい。
【0079】
しかしながら考えられる全てのルールに対して疾患原因ルールであるかどうかを確かめようとすると非常に大きな数の組み合わせを試さなければならない。例えば、遺伝子とその区間の組の数を10,000、結合ルールの長さを5に制限して考えてみても組み合わせの数は10000となり、非現実的な数である事が分かる。提案するアルゴリズムでは、この計算量の爆発を避けるためにパスを深さ優先順に作り、途中の段階で疾患原因ルールとなるための条件を満たさないものについてはそれ以上パスを伸ばさないようにしている。これによって計算量の爆発を避けている。
【0080】
この方法をとった場合、無駄な計算を削除できる代わりに、新しい組み合わせを作るたびに疾患原因ルールになるかどうかの判定が必要になる。この部分に多くの計算をかけてしまうと、全体の計算量が増えてしまうため、このアルゴリズムでは次のような工夫をしている。それは、疾患原因ルールとなるための条件のうち、計算量の少ないものから順番に判定すると言うものである。これをプログラムとして実装すると図4(a)のようになる。図4(b)は、図4(a)のプログラムをフローチャートで表したものである。
【0081】
疾患原因ルールの判定アルゴリズム401では、入力のルールMに対して、変換された遺伝子データの集合GenomからMに含まれていない要素数1のルールを加えて新たなルールSをつくり、再帰的にルールを構成している。ただし、再起呼び出しを行う前に、疾患原因ルールとなるための条件の判定を行っている。最小遺伝子ルールの判定は、他の判定と比べて計算量が多いため、#sptPositive(R)に関する条件で始めに判定している。同様に、#sptNegative(R)に関する条件も計算量が少ないが、仮にこの判定を先に持ってきても、どちらの場合にも最小遺伝子ルールの判定が必ず必要になってしまう。そのため、アルゴリズムの表記の簡単のため、最小遺伝子ルールの判定を先に行っている。
最小遺伝子ルールの判定アルゴリズム402では、最小遺伝子ルールの判定を行っている。ここでは前述の定理を用いて計算量の削減を行っている。
【0082】
診断支援システム
3で抽出した疾患原因ルールを用いて、新たなサンプルがどちらのグループに属する可能性が高いかを数値で表す方法について示す(図5)。
まず与えられたデータに対してPositiveとNegativeを入れ替えたものについても3のアルゴリズムを適用することによって、Positiveに対する疾患原因ルール(Positiveルール)とNegativeに対する疾患原因ルール(Negativeルール)がそれぞれ得られる。これらのルールをデータベース504として診断システム503を構成する。また、別のデータに対しても同様にしてデータベース506と診断システム505を構成した場合、これら複数の診断システムを同時に使う事でより効果的な診断システムを構成することが出来る。それぞれの診断システムでは次のように診断を行う。
【0083】
まず、データべースにある疾患原因ルールのdifferential confidenceの和をそれぞれCPositive,CNegativeで表す事にする。次に、新たなサンプル(符号501)について遺伝子発現量を測定し(符号502)、抽出された疾患原因ルールのうちこのサンプルにも存在するルールのdifferential confidenceの和をそれぞれC’Positive,C’Negativeで表す事にする。ここで、サンプルに存在するルールとは、疾患原因ルールのうち、サンプルの遺伝子の発現量が条件を満たすルールをいう。またこれらを用いて新たなサンプルが満たしている疾患原因ルールの割合をそれぞれ次のように定義する。
【0084】
【数14】
Figure 0003563394
これらをもとに、PositiveまたはNegativeに属する相対的な可能性PPositive、PNegativeはそれぞれ次のように表される。
【0085】
【数15】
Figure 0003563394
【0086】
Positive,PNegativeを比較する事で、新たなサンプルがどちらのグループに属する可能性が高いかを調べる事ができる。例えば与えられたデータが、ある薬を投与したときに効果があったグループとなかったグループであった場合は、この診断システムによって薬を投与すべきかどうか判断することが出来る(符号507)。別のデータとして手術を行った場合の効果に関するデータが与えられているとすると、このデータに関する診断システムの結果として手術すべきかどうかの結果が同様に得られる(符号508)。これらの診断結果から得られる複数のPPositiveの和が1になるように正規化することで、それぞれが治療方法のおすすめ度として得られる(符号509)。治療方法のおすすめ度は、数値で表現したり、グラフで表現したりして表示することができる。図示の例の場合、外科的治療のおすすめ度が70%、薬剤治療のおすすめ度が30%となっている。この結果をもとに、薬だけの治療や薬と手術を併用した治療など効果的な治療方法を選択することが出来る(符号510)。
【0087】
なお、図5には、診断システムとして外科的治療診断システム503と薬剤治療診断システム505を別個に設けた例を示したが、1つの診断システムでデータベース504を利用した外科的治療診断とデータベース506を利用した薬剤治療診断を実行するようにしてもよい。また、それぞれ別個の遺伝子疾患ルールを記憶させた3以上のデータベースを用いて、それら3以上の基準を用いて治療方法の診断支援を行ってもよい。
この診断システムによって診断することの可能な性質には、他にも特定の治療方法が有効であるという性質、特定の疾患にかかっているという性質、特定の疾患にかかりやすいという性質等、種々の性質が考えられる。
【0088】
オントロジーによる対象の選択
3のアルゴリズムは特徴抽出にかかる計算量を大幅に削減する事が出来るが、もともとの計算量、すなわち組み合わせの総数が非常に多いために依然として多くの計算量がかかってしまう。これを根本的に解決するためには、もともとの計算量を減らす必要があり、そのためには対象とする遺伝子をある程度絞り込む事が有効な手段となる。組み合わせの総数は、遺伝子の数をkとすると2と表す事が出来る。すなわち理論的には、遺伝子の数をひとつ減らすだけで、計算量を半分に減らすことが出来ることが分かる。さらには遺伝子の数をh個減らすと、計算量が1/2になることが分かる。これは例えば、遺伝子を10個減らせば計算量が1/1024になり、20個なら1/1048576、30個なら1/1073741824となる。これらの例から分かるように、対象の遺伝子を絞り込む事によって、極々小さい犠牲で非常に大きい効果が得ることが出来る。しかし極々小さい犠牲とは言え、対象とする遺伝子をいくつか取り除いてしまうと言う事は、場合によっては本来抽出されるべき重要な特徴が抽出されないという結果を招いてしまう事も考えられる。そこでオントロジーによる遺伝子の分類を使って遺伝子の絞り込みを行う事にする。
【0089】
オントロジーによる遺伝子の分類は、様々な要因に基づいて行われており、またその分類は階層構造を持っている(図6)。ユーザーはこの分類の中から様々な情報をもとに有効なものを選び出してアルゴリズムの対象とする。こうすることで、上記のようなリスクを小さくすることが出来る。
【0090】
ソフトではまず、オントロジーによる分類に基づいて図6の木構造の図が描画される。ユーザーはこの図の中から、各疾患に関連すると思われる項目601をクリックする事で選択を行う。関連する項目が絞り込まれていない場合は、「全ての遺伝子」602をクリックする事で遺伝子全体を対象とすることが出来る。選択後左上のスタートボタン603を押すと、選択された分類を対象としてアルゴリズムが起動する。選択を行わないでスタートボタンを押すと、全体を対象としてアルゴリズムが起動する。
【0091】
遺伝子の重要度の数値化
3のアルゴリズムにより、2で定義された疾患原因ルールが全て導き出される。疾患原因ルールは、遺伝子の組み合わせとして、ある性質を有するグループを強く特徴づけるものである。これは、新しいサンプルがどちらのグループに属する可能性が高いかという事を判定する上で非常に意味のあるデータであるが、一方で遺伝子個々についての情報という意味では分かりにくいものとなっている。実際の現場では、新しいサンプルに対する判定が正確に行えると言う事とともに、どの遺伝子がその性質に大きく寄与しているのかと言う事が明らかにされる事が非常に重要となる。そこで、抽出された疾患原因ルールから各遺伝子の重要度を導き出し、この性質に寄与する度合いを調べる方法を考える。
【0092】
たくさんのルールに現れている遺伝子はほとんどルールには現れない遺伝子より重要であり、よりdifferential confidenceの高いルールに現れる遺伝子のほうが重要だと考えられる。これから、ひとつの遺伝子の重要度は、その遺伝子が現れるルールのdifferential confidenceの値の総和とする。
【数16】
Figure 0003563394
【0093】
また、疾患に関係する遺伝子は複数であると考えられるので、ひとつの遺伝子の重要度をみる事も大切だが、遺伝子間の相互の結びつきを考えることが必要である。遺伝子の相互結合という観点から見ると、あるルールに同時に現れる2つの遺伝子は結びつきが強いと考えられる。このことより、ある2つの遺伝子g1,g2に対して、g1,g2が同時に現れるルールのdifferential confidenceの総和をg1,g2の結合度として考える。
【0094】
【数17】
Figure 0003563394
【0095】
ビジュアライゼーション
ユーザーに抽出したルール、重要な遺伝子、遺伝子の相関関係を分かりやすく伝えるためにJavaによって実装されたビューアを用いる。ビューアは次の4つからなる。これらのビューアはアルゴリズムのパラメータをパネルで変化することによって動的に変化させることができる。これによって、ユーザーはパラメータの変化による遺伝子の重要度、相関関係の微妙な移り変わりを視覚的に見ることができる。
【0096】
.1 ルールの可視化
Positive,Negativeの2つのグループを分ける特徴を証拠となる発現量分布を用いて可視化する。2つのグループを分ける特徴の候補は一般に複数得ることができる。図7に、抽出したルールのリストを表示するビューアを示す。このリストの各行が抽出された1つのルールに対応している。列701は抽出されたルールの識別番号を表す。列702は、各ルールのdifferential confidenceを表しておりリストはdifferential confidenceの大きい順に並べられている。列703では、ルールに含まれる遺伝子が分かるようになっている。
【0097】
図8に、1つのルールの特徴を可視化して表示するビューアの例を示す。図7に示したリストのビューアにおいて、ルールの行を選択することで、ルールの特徴を可視化した図8のビューアを開くことができる。図8に示したビューアには、図7に表示されたリストのNo.5のルールが可視化して表示されている。「分割数」は発現量の閾値から最大値までの区間の分割数を示す。図示の例の「分割数=10」は、1.2で説明したBorder関数による発現量データの離散値への変換の際に、発現量の最大値と100との間を10等分したことを示している。パラメータの欄807に表示されているように、このルールは、Positiveのサポートが7以上、Negativeのサポートが2より少なく、differential confidence 90%以上である。
【0098】
図中の各行は、それぞれNo.5のルールを構成するひとつの遺伝子とその発現量の区間を表している。GIDは遺伝子を識別する一意に与えられた番号である。発現量の最大値の欄には、データベースのサンプル中この遺伝子の発現量の最大値が表される。「下限≦x<上限」の欄には、区間の下限と上限が具体的な数値で表されている。「ブロックの数」は、分割した発現量の区間の内いくつの区域を範囲としているかを表し、「サンプルの分布」は、横軸に発現量を、縦軸にサンプル数をとった棒グラフであり、被験者がどのブロックに何人いるかをPositiveを濃い色の棒でNegativeを薄い色の棒で表している。拡大図を図9に示す。これにより、発現量0から最大値の間で、このルールの表す範囲が全体のどの位置にあるかを視覚的に分かりやすく表している。
【0099】
図中、中央の濃淡で表された「発現量の分布」の欄は、サンプルの遺伝子の発現量の高低を表しており、発現量が0に近ければ淡い色で、最大値に近ければ誓いの度濃い色で表示されている。また、×でマークされたサンプルはその遺伝子がルールを満たしていないということを表している。Positiveのグループに属しているサンプルに関して、図中の遺伝子の発現量の区間に入っているが、Negativeのグループに属しているサンプルに関してはその区間に入っているとは限らないということを見せて、このルールが2つのグループを分ける根拠となっていることへの理解を助けることができる。
【0100】
また、右の「関連文献」のボタンと「GenBank」のボタンは、それぞれその遺伝子の公的な論文のデータベースであるPubMedと塩基配列のデータベースGenBankへのリンクである。「関連文献」のボタンをクリックすると、図10に示すようなウィンドウにより関連文献に関する情報が表示され、「GenBank」のボタンをクリックすると、図11に示すようなウィンドウにより遺伝子の塩基配列が表示(図示省略)され、遺伝子の詳細な情報を見ることができる。次の順位のルールを表示するには「次のルール」ボタンを押せばよい。その上の順位のルールを表示するには「前のルール」ボタンを押せばよい。
【0101】
.2 重要遺伝子の可視化
ルールに現れる遺伝子の重要度を計算し、重要な順に並べ変えて表示する。図12にひとつの例を示す。図7のビューアにおいて「遺伝子頻度順ランキング」ボタンをクリックすると、図12の重要遺伝子のビューアが表示される。
図12に示したビューアにおいて、各行がひとつの遺伝子を表しており、上にある遺伝子ほど重要度が高い。図中の「POINT」は遺伝子の重要度を表し、「属しているRule No.」は、その行の遺伝子が属しているルールの番号(図8参照)を表示している。これらのRule No.の欄の数字をクリックすることで、図8に示すような対応するルールを表示することができる。また、遺伝子の名前となるDEFINITIONが表示される。「関連文献」のボタンをクリックすると、図10に示すようなウィンドウによりその遺伝子に関する公的な文献の情報を見ることができ、「GenBank」のボタンをクリックすると、図11に示すようなウィンドウにより遺伝子の塩基配列が表示(図示省略)され、ユーザーは即座に遺伝子に関する詳細を知ることができる。また、「次のページ」ボタンを押すことで、これより下位の遺伝子を見ることができ、「前のページ」ボタンを押すと、これより上位の遺伝子を見ることができる。
【0102】
.3 遺伝子の結合度の可視化
図13に示すように、ルールに現れる遺伝子間の結合度を計算し、結合度が成すネットワークをグラフとして表示できるようにする。これにより、ユーザーは、どの遺伝子とどの遺伝子が結びついているかを容易に理解することができる。グラフのノードは遺伝子を表し、辺がその両端の遺伝子の結合度を表している。2つの遺伝子の結合度が高いほど、対応する辺が強調して表示される。図示の例の場合、遺伝子G1,G3は強く結びついているが、遺伝子G1,G4は全く関連がないということが容易に分かる。また、辺をクリックすることで辺の両端のノードに対応する2つの遺伝子が同時に現れるルールのビューア1303を呼び出すことができる。図ではG1とG3が同時に現れるルールのビューアを表示している。加えて、ユーザーが遺伝子の関係が見やすいように、ノードの位置を計算して表示する。これにより、各辺が互いに重なりあわず、強調された辺が中央にくるようにすることができる。
【0103】
.4 文献に現れる遺伝子の相関関係が成すネットワークとの連携
遺伝子に関する論文中に現れる遺伝子の2項関係のなすネットワークのグラフを重要な遺伝子の組の成すネットワークと同時にグラフとして描く。二つの異なるネットワークを同時に見て、それらのネットワークに共通に現れる遺伝子の結合を視覚的に見ることで、ユーザーはグループの特徴を表す遺伝子に関する理解を広げることができる。
【0104】
図13で表された遺伝子の結合関係を表すネットワークと、論文に現れる遺伝子の相関関係が成すネットワークとを連携させて表示した例を図14に示す。新たに加わった正方形のノードが論文中の遺伝子にあたり、滑らかな線で描かれた辺が遺伝子に関する論文中に現れる遺伝子の2項関係のなすネットワーク内の遺伝子の関係を表している。
【0105】
図の上方に「text」と「profile」の2つの領域が描かれたパネル1401によって、グラフを変化させる。profileのみの領域、textのみの領域、2つの領域の共通部分をクリックすることで、動的に次のネットワークに対応するグラフ1402を描画する。
【0106】
(1) 遺伝子の結合度が成すネットワーク(Profile)
(2) 文献に現れる遺伝子の相関関係が成すネットワーク(Text)
(3) 2つのネットワークを結びつけたネットワーク(All)
(4) 2つのネットワークの重なり合う部分がなすネットワーク(And)
【0107】
システム構成
データの解析要求からその結果のビジュアライゼーションに至る一連の処理はインターネットまたはイントラネットを介して行われる(図15)。一般に公開可能なデータに関してはインターネットを選択し、機密性の高いデータに対してはイントラネットを選択することになる。ネットを介してユーザー1502は解析要求をサーバに対して送る。解析要求を受けたサーバ1504は要求された解析を行い、この結果をユーザーに対して表示する。このようにすることで、ユーザーは最新のデータに対する大規模な解析を容易に行うことが出来る。
【0108】
【発明の効果】
本発明によると、ある特徴を有するグループと有しないグループ間の遺伝子の違いを抽出し、それを可視化することが出来るようになる。これにより、その特徴を有するかどうかが分からないサンプルについても事前に予測が可能になり、効果的な治療を行える事が期待できる。
【図面の簡単な説明】
【図1】データの変換方法を示す図。
【図2】データ削減の効果を示す図。
【図3】探索木の説明図。
【図4】ルールの判定アルゴリズムを示す図。
【図5】診断システムの説明図。
【図6】オントロジーによる分類の説明図。
【図7】抽出したルールのリストを表示するビューアの図。
【図8】ルールのビジュアライゼーションの例を示す図。
【図9】サンプルの分布の拡大図。
【図10】遺伝子に関する論文のビューアの例を示す図。
【図11】遺伝子の塩基配列のビューアの例を示す図。
【図12】重要度で順序付けした遺伝子のビジュアライゼーションの例を示す図。
【図13】遺伝子の結合度の成すネットワークのビジュアライゼーションの例を示す図。
【図14】遺伝子の結合度の成すネットワークと文献に現れる遺伝子の相関関係が成すネットワークとを連携させて表示した例を示す図。
【図15】システムの構成例を示す図。
【符号の説明】
301:ルートのノード
302:枝
601:各分類を表すボタン
602:遺伝子全体をあらわすボタン

Claims (10)

  1. 第1のグループに属する複数のサンプルについての複数の遺伝子の発現量情報をそれぞれ表す複数の連続値データ及び前記第1のグループとは性質を異にする第2のグループに属する複数のサンプルについての複数の遺伝子の発現量情報をそれぞれ表す複数の連続値データを記憶する記憶部と、
    前記記憶部に記憶された複数の連続値データを離散値に変換し、更に離散値の区間を種々に変えたとき前記連続値データが当該区間に入っていれば1、入っていなければ0とすることによって遺伝子の発現量区間を変数とする2値データに変換する処理、及び、遺伝子の発現量区間の組み合わせであるルールについて、前記2値データが1となったサンプル全体のうち前記第1のグループに属しているサンプルの割合が大きいルールを抽出する処理を行い、前記第1のグループと前記第2のグループの差異を表す遺伝子の発現量区間の組み合わせを抽出する演算部と、
    前記演算部による抽出結果に基づいて、前記第1のグループに属する複数のサンプル各々の発現量に関する情報と、前記第2のグループに属する複数のサンプル各々の発現量に関する情報とを対比して表示する表示部とを備えることを特徴とする画面表示システム。
  2. 請求項1記載の画面表示システムにおいて、前記表示部は、複数の遺伝子の発現量に関する情報を対比して表示することを特徴とする画面表示システム。
  3. 請求項1記載の画面表示システムにおいて、前記発現量に関する情報は、当該発現量が前記発現量区間に入っているか否かの情報であることを特徴とする画面表示システム。
  4. 請求項3記載の画面表示システムにおいて、前記第1のグループは特定の性質を有するグループであり、前記第2のグループは当該特定の性質を有さないグループであることを特徴とする画面表示システム。
  5. 請求項1記載の画面表示システムにおいて、前記表示部は、前記第1のグループに属する複数のサンプルの発現量に関する情報同士を相互に隣接した位置に表示し、前記第2のグループに属する複数のサンプルの発現量に関する情報同士を相互に隣接した位置に表示することを特徴とする画面表示システム。
  6. 第1のグループに属する複数のサンプルについての複数の遺伝子の発現量情報をそれぞれ表す複数の連続値データ及び前記第1のグループとは性質を異にする第2のグループに属する複数のサンプルについての複数の遺伝子の発現量情報をそれぞれ表す複数の連続値データを記憶する記憶部と、
    前記記憶部に記憶された複数の連続値データを離散値に変換し、更に離散値の区間を種々に変えたとき前記連続値データが当該区間に入っていれば1、入っていなければ0とすることによって遺伝子の発現量区間を変数とする2値データに変換する処理、及び、遺伝子の発現量区間の組み合わせであるルールについて、前記2値データが1となったサンプル全体のうち前記第1のグループに属しているサンプルの割合が大きいルールを抽出する処理を行って前記第1のグループと前記第2のグループの差異を表す遺伝子の発現量区間の組み合わせを抽出し、その抽出結果に基づき、前記第1のグループに属する複数のサンプル各々の発現量を元に、一方の軸を発現量、他方の軸をサンプル数とする第1のヒストグラムと、前記第2のグループに属する複数のサンプル各々の発現量を元に、一方の軸を発現量、他方の軸をサンプル数とする第2のヒストグラムを作成する演算部と、
    前記演算部によって作成された前記第1のヒストグラムと第2のヒストグラムとを表示する表示部とを備えることを特徴とする画面表示システム。
  7. 請求項6記載の画面表示システムにおいて、前記表示部は、前記第1のヒストグラムと前記第2のヒストグラムを、前記一方の軸と他方の軸を共有する一つのグラフに重ねて表示することを特徴とする画面表示システム。
  8. 請求項7記載の画面表示システムにおいて、前記表示部は、前記第1のヒストグラムと前記第2のヒストグラムを互いに表示の態様を変えて表示することを特徴とする画面表示システム。
  9. 請求項6記載の画面表示システムにおいて、前記発現量を表す軸は複数の発現量区間に分割されていることを特徴とする画面表示システム。
  10. 請求項6記載の画面表示システムにおいて、前記第1のグループは特定の性質を有するグループであり、前記第2のグループは当該特定の性質を有さないグループであることを特徴とする画面表示システム。
JP2002085962A 2002-03-26 2002-03-26 画面表示システム Expired - Fee Related JP3563394B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002085962A JP3563394B2 (ja) 2002-03-26 2002-03-26 画面表示システム
US10/309,141 US20030187592A1 (en) 2002-03-26 2002-12-04 Association rule mining and visualization for disease related gene

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002085962A JP3563394B2 (ja) 2002-03-26 2002-03-26 画面表示システム

Publications (2)

Publication Number Publication Date
JP2003281156A JP2003281156A (ja) 2003-10-03
JP3563394B2 true JP3563394B2 (ja) 2004-09-08

Family

ID=28449280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002085962A Expired - Fee Related JP3563394B2 (ja) 2002-03-26 2002-03-26 画面表示システム

Country Status (2)

Country Link
US (1) US20030187592A1 (ja)
JP (1) JP3563394B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1562570A4 (en) * 2002-11-06 2007-09-05 Sinai School Medicine TREATMENT OF AMYOTROPHER LATERAL SCLEROSIS WITH NIMESULID
DE10333530A1 (de) * 2003-07-23 2005-03-17 Siemens Ag Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche
US7676379B2 (en) * 2004-04-27 2010-03-09 Humana Inc. System and method for automated extraction and display of past health care use to aid in predicting future health status
JP2010134773A (ja) * 2008-12-05 2010-06-17 Dna Chip Research Inc 生理的状態分析方法、生理的状態分析システム、及びコンピュータシステムに生理的状態を分析するための処理を実行させるコンピュータプログラム
EA201591411A1 (ru) 2013-01-29 2016-01-29 Молекьюлар Хелт Гмбх Системы и способы для поддержки клинических решений
JP6146813B2 (ja) * 2013-10-18 2017-06-14 Kddi株式会社 数値データ文書化装置及びプログラム
US10679002B2 (en) * 2017-04-13 2020-06-09 International Business Machines Corporation Text analysis of narrative documents
KR102636659B1 (ko) * 2019-04-02 2024-02-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
JP7207143B2 (ja) * 2019-05-09 2023-01-18 富士通株式会社 ルール提示方法、ルール提示プログラムおよびルール提示装置
US11450412B1 (en) 2021-07-30 2022-09-20 Specialty Diagnostic (SDI) Laboratories, Inc. System and method for smart pooling

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6059724A (en) * 1997-02-14 2000-05-09 Biosignal, Inc. System for predicting future health
US6420108B2 (en) * 1998-02-09 2002-07-16 Affymetrix, Inc. Computer-aided display for comparative gene expression
JP2000067139A (ja) * 1998-08-25 2000-03-03 Hitachi Ltd 電子カルテシステム
AU1092200A (en) * 1998-09-17 2000-04-03 Affymetrix, Inc. Method and apparatus for providing an expression data mining database and laboratory information management

Also Published As

Publication number Publication date
JP2003281156A (ja) 2003-10-03
US20030187592A1 (en) 2003-10-02

Similar Documents

Publication Publication Date Title
US11574706B2 (en) Systems and methods for visualization of single-cell resolution characteristics
Pritchard et al. Inference of population structure using multilocus genotype data
Duchesne et al. FLOCK provides reliable solutions to the “number of populations” problem
Schonlau The clustergram: A graph for visualizing hierarchical and nonhierarchical cluster analyses
Bao et al. Automated de novo identification of repeat sequence families in sequenced genomes
Nielsen et al. Statistical approaches for DNA barcoding
Rosenberg Statistical tests for taxonomic distinctiveness from observations of monophyly
JP4890806B2 (ja) 予測プログラムおよび予測装置
KR100806436B1 (ko) 유전자 진단을 위한 마커 선택 프로그램을 포함하는 컴퓨터판독가능 매체, 마커 선택 장치 및 시스템, 및 유전자진단 함수 생성 장치 및 시스템
Van Gassen et al. FloReMi: Flow density survival regression using minimal feature redundancy
JP3563394B2 (ja) 画面表示システム
US20080192995A1 (en) Example-Based Diagnosis Decision Support
CN113272912A (zh) 使用似然比范式的用于表型驱动临床基因组的方法和装置
CN106446575A (zh) 智能推送医疗资源的方法及系统
JP2018535488A (ja) 臨床データの特性を解析して患者コホートを生成するためのパターン発見視覚的解析システム
Duong et al. Neural networks for classification and image generation of aging in genetic syndromes
Zhang et al. Selection of models for the analysis of risk-factor trees: leveraging biological knowledge to mine large sets of risk factors with application to microbiome data
KR101045977B1 (ko) 특허정보분석을 위한 인용정보분석방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체
Pfeifer et al. Network module detection from multi-modal node features with a greedy decision forest for actionable explainable AI
Clark et al. Bayesian logistic regression using a perfect phylogeny
CN110223732A (zh) 多类生物序列注释的整合方法
Pfrieger TeamTree analysis: A new approach to evaluate scientific production
Malovini et al. Phenotype forecasting with SNPs data through gene-based Bayesian networks
Disanto et al. Measuring the external branches of a Kingman tree: A discrete approach
CN113270144A (zh) 一种基于表型的基因优先级排序方法和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040602

LAPS Cancellation because of no payment of annual fees