JP2005025711A

JP2005025711A - 遺伝子発現データの分類方法

Info

Publication number: JP2005025711A
Application number: JP2003289394A
Authority: JP
Inventors: Riichi Adachi; 理一足立
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-07-03
Filing date: 2003-07-03
Publication date: 2005-01-27

Abstract

【課題】ガン治療においてガンの種類を正確に診断することが重要であり、マイクロアレイによる遺伝子発現データからガン等の種類を正確・迅速に判別することが課題である。
【解決手段】遺伝子発現データについて遺伝子を固定し，患者方向に平均値ゼロ，標凖偏差１の正規化処理を行う。Ｌ型、Ｍ型の候補遺伝子を抽出するため、正規化発現データの２値化を行う。発現閾値レベルをＭ型とＬ型に対し異なった値とすることにより、２つの型に対しほぼ同数の候補遺伝子を抽出する。つぎに患者を固定し候補遺伝子方向の正規化処理を行う。この正規化発現量が教師信号になり、診断を必要とする新しい患者に対し、同じように候補遺伝子に対する正規化発現量を求め、教師信号との相関係数計算を行う。相関係数が最大となる型により患者の型を判定できる。
【選択図】図１

Description

発明の詳細な説明

この出願の発明は、コンピュータを用いてＤＮＡマイクロアレイによる遺伝子発現データからガン等の種類を判別する方法に関する。

従来、この出願の発明に関連する先行技術文献情報としては次のものがある。
Ｔ．Ｒ．Ｇｏｌｕｂ：ＭｏｌｅｃｕｌａｒＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＣａｎｃｅｒ：ＣｌａｓｓＤｉｓｃｏｖｅｒｙａｎｄＣｌａｓｓＰｒｅｄｉｃｔｉｏｎｂｙＧｅｎｅＥｘｐｒｅｓｓｉｏｎＭｏｎｉｔｏｒｉｎｇ，Ｓｃｉｅｎｃｅｖｏｌ．２８６１５Ｏｃｔ１９９９
本方法は、平均値０、標準偏差１に正規化した７１２９の遺伝子発現データからガン種類を診断する有用な遺伝子群を抽出するため、２種類のガン（ＡＬＬ、ＡＭＬ以下Ｌ型、Ｍ型という）に対応した遺伝子群の発現量の平均値ｍ１、ｍ２と標準偏差ｓｄ１、ｓｄ２から、指標１Ａｇ＝（ｍ１−ｍ２）／（ｓｄ１＋ｓｄ２）を計算し、各群の指標１の大きい順に同数の遺伝子を合計５０個抽出する。つぎに指標２Ｂｇ＝（ｍ１＋ｍ２）／２を計算し、指標１、指標２と前述の５０の抽出遺伝子を用いて新しいサンプル群のガンの種類を診断する。新しいサンプル（Ｘ）の発現量（Ｘｇ）に対し、多数決データＶｇ＝Ａｇ（Ｘｇ−Ｂｇ）を求め、５０個の抽出遺伝子全部のＶｇを積算して、ガンの種類を診断する方法が提案されている。

発明が解決しようとする課題

本発明はＤＮＡマイクロアレイの数千個の遺伝子発現データから有用な遺伝子群を抽出し、発現データを分類する課題を解決する。

課題を解決するための方法

ガンの特定の型に特異的に発現する遺伝子を抽出する統計処理を提供する。ＤＮＡマイクロアレイにより、数十名のガン患者から採取したガン細胞における約７０００の遺伝子の発現データを測定し、その発現データからＬ型、Ｍ型という２種類に分類する方法を提供する。ここでＬ型，Ｍ型は例示であり、本発明の範囲を限定するものではない。この分類では別の診断方法によりあらかじめＬ型、Ｍ型という種類が分かっているデータを本情報処理方法により学習し、新たにガン細胞の発現データが得られたとき、それがＬ型か、Ｍ型かを判定することができる。

マイクロアレイによる遺伝子発現データからガン等の種類を２分類する方法を述べる。患者をＸ軸方向にとり、遺伝子をＹ軸方向にとり２次元の平均差（ＡｖｅｒａｇｅＤｉｆｆｅｒｅｎｃｅ）の発現データを集める。本出願の発明では先行技術文献のＭＩＴのデータを利用し、３８人、遺伝子数７１２９個のデータを対象とする。これを統計処理して発現データとガンの種別の関係を求めておき、新たにガン細胞の発現データが得られたとき、それがＬ型か、Ｍ型かを判定する。Ｌ型、Ｍ型の２種類のガンに対し、それぞれのサンプル患者数は２７人、１１人である。前処理として７１２９個の遺伝子発現データに対し平均値０、標準偏差１の正規化処理を行う。
本実施例に使用した遺伝子発現データは次のホームページからダウンロードしたものを使用した．
ｈｔｔｐ：／／ｗｗｗ．ｇｅｎｏｍｅ．ｗｉ．ｍｉｔ．ｅｄｕ／ｃｇｉ−ｂｉｎ／ｃａｎｃｅｒ／ｐｕｂｌｉｃａｔｉｏｎ
ｄａｔａ＿ｓｅｔ＿ＡＬＬ＿ＡＭＬ＿ｔｒａｉｎ．ｔｓｖ
ｄａｔａ＿ｓｅｔ＿ＡＬＬ＿ＡＭＬ＿ｉｎｄｅｐｅｎｄｅｎｔ．ｔｓｖ

（１）候補遺伝子の抽出
Ｌ型、Ｍ型のいずれかに特異的に発現する遺伝子を候補遺伝子とよぶ。非遺伝子の医学的な方法により３８人の患者のガンの種類は特定されている。これらの患者の遺伝子データから候補遺伝子を抽出し、遺伝子の発現状態からガンの種類を特定するアルゴリズムを導く。同時に同じガンの患者をクラスタリングする。クラスタリングは医学的な診断法と統計処理を検証する意味をもつ。

ガンの分類のため、常に全数の遺伝子を使用することは時間的にも経済的にも不可能である。また、１つの遺伝子のみでＬ型とＭ型を明確に分類できるような万能遺伝子は存在しない。遺伝子発現データからＬ型、Ｍ型のそれぞれほぼ同数の候補遺伝子を抽出する。抽出総数は患者数の１から２倍程度とし、候補遺伝子を抽出するため、データの２値化を行う。Ｌ型にはまったく発現しないがＭ型の１人以上に発現する遺伝子とＭ型にはまったく発現しないがＬ型には１人以上発現する遺伝子を検索する。発現レベルをＭ型とＬ型に対し異なった閾値とすることにより、２つの型に対しほぼ同数の候補遺伝子を抽出できる。

（２）アルゴリズム
はじめに遺伝子を固定してＸ軸方向の正規化発現量を求める。発現量に閾値を設け、Ｌ型のみに特異的に発現するＬ型候補遺伝子とＭ型にのみ発現するＭ型候補遺伝子を抽出する。つぎに患者を固定しＹ軸方向の正規化発現量を計算する。このＹ軸方向の正規化発現量が教師信号になる。診断を必要とする新しい患者に対し、同じ候補遺伝子に対する正規化発現量を求め、教師信号との相関係数計算を行う。相関係数が最大となる型により患者の型を判定できる。

数１

Ｘ軸方向正規化計算
ｇ_ｊｉ：遺伝子の発現量
ｇｇｊｉ：Ｘ軸方向正規化発現量
ｉ：患者ＩＤｉ＝１．．．，３８（Ｌ型２７個を先に並べ次にＭ型１１個を並べる）
ｊ：遺伝子ＩＤｊ＝１．．．，７１２９
ｎｉ：患者数＝３８（Ｌ型患者数＝２７，Ｍ型患者数＝１１）
平均値（μ_ｊ）
＝（Σｇ_ｊｉ）／ｎｉ（ｉ＝１．．．，ｎｉ）
標準偏差（σ_ｊ）
＝ｓｑｒｔ（（Σ（ｇ_ｊｉ−μ_ｊ）＊（ｇ_ｊｉ−μ_ｊ））／ｎｉ）（ｉ＝１．．．，ｎｉ）ｓｑｒｔ：√演算
ｇｇ_ｊｉ＝（ｇ_ｊｉ−μ_ｊ）／σ_ｊ

候補遺伝子は２値化により抽出する。Ｍ型候補遺伝子はＬ型に無反応であり、すべてのＬ型患者に対し、Ｍ型閾値以下の発現量を示す。Ｌ型候補遺伝子はＭ型に無反応であり、すべてのＭ型患者に対し、Ｌ型閾値以下の発現量を示す。Ｍ型閾値およびＬ型閾値を適切に選択すると、２つの型でほぼ同数の候補遺伝子を抽出することができる。正規化発現量の閾値と候補遺伝子数の関係を図２に示す。

数２

閾値の設定
ｌｇ_ｋｉ＜Ｌ型（ｉ＝２８．．．，３８）
ｍｇ_ｋｉ＜Ｍ型（ｉ＝１．．．，２７）
Ｍ型：Ｍ型閾値
Ｌ型：Ｌ型閾値
ＨＬ：Ｌ型２値化用閾値
ＨＭ：Ｍ型２値化用閾値
ｌｇ_ｋｉ：Ｌ型候補遺伝子（ｋ＝１．．．，ｎｌ）
ｍｇ_ｋｉ：Ｍ型候補遺伝子（ｋ＝１．．．，ｎｍ）
ｎｌ：Ｌ型候補遺伝子数（本実施例：２４）
ｎｍ：Ｍ型候補遺伝子数（本実施例：２２）
ＨＬ＝Ｌ型＋δ_１（δ_１＞０）
ＨＭ＝Ｍ型＋δ_ｍ（δ_ｍ＞０）

さらにＨＬ、ＨＭの２値化用閾値を設定すると、発現量の大きい患者と候補遺伝子を特定することができる。これを図３に示す。図３においてＹ軸方向の正規化処理として患者を固定し、候補遺伝子による値の変動を正規化する。抽出した候補遺伝子を用いて平均値ゼロ、標準偏差１のＹ軸方向の正規化処理を行う。

数３

Ｙ軸方向の正規化計算
ｇｇ_ｊｉ＝ｌｇ_ｋｉ：ｌ＜＝ｊ＜＝ｎｌ（ｋ＝１．．．，ｎｌ）（ｉ＝１．．．，ｎｉ）
ｇｇ_ｊｉ＝ｍｇ_ｋｉ：ｎｌ＜ｊ＜＝（ｎｌ＋ｎｍ）（ｋ＝１．．．，ｎｍ）（ｉ＝１．．．，ｎｉ）
ｇｇｇ_ｊｉ：Ｙ軸方向の正規化発現量
平均値（μ_ｉ）
＝（Σｇｇ_ｊｉ）／（ｎｌ＋ｎｍ）（ｊ＝１．．．，（ｎｌ＋ｎｍ））
標準偏差（σ_ｉ）
＝ｓｑｒｔ（（Σ（ｇｇ_ｊｉ−μ_ｉ）＊（ｇｇ_ｊｉ−μ_ｉ））／（ｎｌ＋ｎｍ））（ｊ＝１．．．，（ｎｌ＋ｎｍ））
ｇｇｇ_ｊｉ＝（ｇｇ_ｊｉ−μ_ｉ）／σ_ｉ
３８人の患者間で相関係数の計算を行う。
ｋ：候補遺伝子ＩＤ
ｓ_ｉｊ：相関係数
ｓ_ｉｊ＝Σｇｇｇ_ｋｉ＊ｇｇｇ_ｋｊ（ｋ＝１．．．，（ｎｌ＋ｎｍ））（ｉ＝１．．．，ｎｉ）（ｊ＝１．．．，ｎｉ）

患者間の組み合わせで相関係数の最大値を選ぶとクラスタリングを行うことができる。対角線上は同じデータの掛算であり最大となるが、これを除いた残りの最大値をもつ患者と同じクラスタリングとなる。同時に医学的な判定と候補遺伝子による判定の相互チェックを行うことができる。これを図４に示す。

（３）新しい患者に対する診断法
新しい患者３４人のデータに対しても教師信号の候補遺伝子をもとにＹ軸方向の正規化処理を行い正規化発現量（ｇｇｇｇ_ｋｉ）を求める。
新しい患者ごとに３８人の教師信号との相関係数を計算し、その最大値が教師信号のＬ型、Ｍ型のどちらの型の患者に存在するかにより患者の型を診断する。

数４

ｉ：新患者ＩＤ
ｊ：教師信号ＩＤ
ｎｎ：新規患者数（本実施例：３４人）
ｎ２７：Ｌ型患者数
Ｓ_ｉｊ：相関係数
Ｓ_ｉｊ＝Σｇｇｇｇ_ｋｉ＊ｇｇｇ_ｋｊ（ｋ＝１．．．，（ｎｌ＋ｎｍ））（ｉ＝１．．．，ｎｎ）（ｊ＝１．．．，ｎｉ）
特定の新患者ｉに対し
ｉｍａｘ＝ａｒｇｍａｘ（ｓ_ｉｊ）（ｊ＝１．．．，ｎｉ）（ｓ_ｉｊの最大値のｉインデックスを求める）
ｉｍａｘ＜＝ｎ２７：Ｌ型患者
ｉｍａｘ＞ｎ２７：Ｍ型患者
と診断する。これを図５に示す。

発明の効果

図５のとおり、本出願の発明の判定と医学的な判定との間で３４例中３３例が一致し、不一致はわずかに○で囲んだ１例である。本方法はパソコンにより数秒で演算でき、高速で効率的な方法であることを証明できた。マイクロアレイ、ＤＮＡチップ等の遺伝子発現データを利用してガン以外の病気の診断にも応用が可能である。

請求範囲全体の処理の流れ図である。正規化発現量の閾値と候補遺伝子数の関係を示す図である。Ｘ軸方向の正規化発現量をもとにＬ型とＭ型に２値化された発現量を示す。着色セルは［１］を、第１行の数値は患者あたりの［１］の合計数であり、第１列の数値は候補遺伝子あたりの［１］の合計数を示す。教師信号間の相関係数を示す。ただし、数値は小数点以下を四捨五入し、着色セルは最大値を示す。最大値はすべて同じＬ型、またはＭ型に分布しているので、教師信号と医学的診断が一致していることを示す。四角で囲んだ範囲は最大のクラスタリング例を示す。教師信号と新規発現データとの相関係数を示す。Ｘ軸方向は新規患者を示し、Ｙ軸方向は教師信号を示す。着色セルは新規データあたりの最大値を示す。○で囲んだＬ型の１ケースが不一致である。四角で囲んだ範囲は最大のクラスタリング例を示す。

Claims

ＤＮＡマイクロアレイにおいて患者をＸ軸方向に並べ、遺伝子をＹ軸方向に並べた２次元の発現データから、患者の型を示すＬ群、Ｍ群の２種類の教師信号を抽出するため、遺伝子を固定してＸ軸方向の発現量について平均値ゼロ、標準偏差１のＸ軸方向正規化処理をおこない、Ｌ群またはＭ群のみに特異的に発現する候補遺伝子群を抽出する目的のＬ閾値とＭ閾値を設定し、Ｌ群の候補遺伝子の発現量はすべてのＭ群の患者に対しＬ閾値以下であり、一方Ｍ群の候補遺伝子の発現量はすべてのＬ群の患者に対しＭ閾値以下であると共に、Ｌ、Ｍ群の候補遺伝子が同数または患者数に比例するようにＬ、Ｍ閾値を設定する情報処理方法。
請求項１に記載の方法で抽出した候補遺伝子群に対し、患者を固定し候補遺伝子方向の発現量に対し平均値ゼロ、標準偏差１のＹ軸正規化処理を行い、すべての患者間でＹ軸正規化発現量の相関係数を求め、Ｌ、Ｍ群はそれぞれの群に属する患者間で最大の相関係数をもつ患者データのみを使用し、Ｌ、Ｍ群相互で最大の相関係数を持つ患者データを削除する情報処理方法。
請求項２に記載のＹ軸正規化発現量を教師信号とし、新たな２次元発現データをＬ群またはＭ群と診断するため、新規データに対し請求項１と同一の候補遺伝子を使用して、請求項２項のＹ軸方向正規化処理をおこない、新規正規化発現量と教師信号との相関係数をもとめ、相関係数の最大となる群からＬ、Ｍ群を判定する情報処理方法。