JP2005025711A - 遺伝子発現データの分類方法 - Google Patents
遺伝子発現データの分類方法 Download PDFInfo
- Publication number
- JP2005025711A JP2005025711A JP2003289394A JP2003289394A JP2005025711A JP 2005025711 A JP2005025711 A JP 2005025711A JP 2003289394 A JP2003289394 A JP 2003289394A JP 2003289394 A JP2003289394 A JP 2003289394A JP 2005025711 A JP2005025711 A JP 2005025711A
- Authority
- JP
- Japan
- Prior art keywords
- type
- group
- expression level
- patient
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Complex Calculations (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
【課題】ガン治療においてガンの種類を正確に診断することが重要であり、マイクロアレイによる遺伝子発現データからガン等の種類を正確・迅速に判別することが課題である。
【解決手段】遺伝子発現データについて遺伝子を固定し,患者方向に平均値ゼロ,標凖偏差1の正規化処理を行う。L型、M型の候補遺伝子を抽出するため、正規化発現データの2値化を行う。発現閾値レベルをM型とL型に対し異なった値とすることにより、2つの型に対しほぼ同数の候補遺伝子を抽出する。つぎに患者を固定し候補遺伝子方向の正規化処理を行う。この正規化発現量が教師信号になり、診断を必要とする新しい患者に対し、同じように候補遺伝子に対する正規化発現量を求め、教師信号との相関係数計算を行う。相関係数が最大となる型により患者の型を判定できる。
【選択図】図1
【解決手段】遺伝子発現データについて遺伝子を固定し,患者方向に平均値ゼロ,標凖偏差1の正規化処理を行う。L型、M型の候補遺伝子を抽出するため、正規化発現データの2値化を行う。発現閾値レベルをM型とL型に対し異なった値とすることにより、2つの型に対しほぼ同数の候補遺伝子を抽出する。つぎに患者を固定し候補遺伝子方向の正規化処理を行う。この正規化発現量が教師信号になり、診断を必要とする新しい患者に対し、同じように候補遺伝子に対する正規化発現量を求め、教師信号との相関係数計算を行う。相関係数が最大となる型により患者の型を判定できる。
【選択図】図1
Description
この出願の発明は、コンピュータを用いてDNAマイクロアレイによる遺伝子発現データからガン等の種類を判別する方法に関する。
従来、この出願の発明に関連する先行技術文献情報としては次のものがある。
T.R.Golub:Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring,Science vol.286 15 Oct 1999
本方法は、平均値0、標準偏差1に正規化した7129の遺伝子発現データからガン種類を診断する有用な遺伝子群を抽出するため、2種類のガン(ALL、AML 以下L型、M型という)に対応した遺伝子群の発現量の平均値m1、m2と標準偏差sd1、sd2から、指標1 Ag=(m1−m2)/(sd1+sd2)を計算し、各群の指標1の大きい順に同数の遺伝子を合計50個抽出する。つぎに指標2 Bg=(m1+m2)/2を計算し、指標1、指標2と前述の50の抽出遺伝子を用いて新しいサンプル群のガンの種類を診断する。新しいサンプル(X)の発現量(Xg)に対し、多数決データVg=Ag(Xg−Bg)を求め、50個の抽出遺伝子全部のVgを積算して、ガンの種類を診断する方法が提案されている。
T.R.Golub:Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring,Science vol.286 15 Oct 1999
本方法は、平均値0、標準偏差1に正規化した7129の遺伝子発現データからガン種類を診断する有用な遺伝子群を抽出するため、2種類のガン(ALL、AML 以下L型、M型という)に対応した遺伝子群の発現量の平均値m1、m2と標準偏差sd1、sd2から、指標1 Ag=(m1−m2)/(sd1+sd2)を計算し、各群の指標1の大きい順に同数の遺伝子を合計50個抽出する。つぎに指標2 Bg=(m1+m2)/2を計算し、指標1、指標2と前述の50の抽出遺伝子を用いて新しいサンプル群のガンの種類を診断する。新しいサンプル(X)の発現量(Xg)に対し、多数決データVg=Ag(Xg−Bg)を求め、50個の抽出遺伝子全部のVgを積算して、ガンの種類を診断する方法が提案されている。
本発明はDNAマイクロアレイの数千個の遺伝子発現データから有用な遺伝子群を抽出し、発現データを分類する課題を解決する。
ガンの特定の型に特異的に発現する遺伝子を抽出する統計処理を提供する。DNAマイクロアレイにより、数十名のガン患者から採取したガン細胞における約7000の遺伝子の発現データを測定し、その発現データからL型、M型という2種類に分類する方法を提供する。ここでL型,M型は例示であり、本発明の範囲を限定するものではない。この分類では別の診断方法によりあらかじめL型、M型という種類が分かっているデータを本情報処理方法により学習し、新たにガン細胞の発現データが得られたとき、それがL型か、M型かを判定することができる。
マイクロアレイによる遺伝子発現データからガン等の種類を2分類する方法を述べる。患者をX軸方向にとり、遺伝子をY軸方向にとり2次元の平均差(AverageDifference)の発現データを集める。本出願の発明では先行技術文献のMITのデータを利用し、38人、遺伝子数7129個のデータを対象とする。これを統計処理して発現データとガンの種別の関係を求めておき、新たにガン細胞の発現データが得られたとき、それがL型か、M型かを判定する。L型、M型の2種類のガンに対し、それぞれのサンプル患者数は27人、11人である。前処理として7129個の遺伝子発現データに対し平均値0、標準偏差1の正規化処理を行う。
本実施例に使用した遺伝子発現データは次のホームページからダウンロードしたものを使用した.
http://www.genome.wi.mit.edu/cgi−bin/cancer/publication
data_set_ALL_AML_train.tsv
data_set_ALL_AML_independent.tsv
本実施例に使用した遺伝子発現データは次のホームページからダウンロードしたものを使用した.
http://www.genome.wi.mit.edu/cgi−bin/cancer/publication
data_set_ALL_AML_train.tsv
data_set_ALL_AML_independent.tsv
(1) 候補遺伝子の抽出
L型、M型のいずれかに特異的に発現する遺伝子を候補遺伝子とよぶ。非遺伝子の医学的な方法により38人の患者のガンの種類は特定されている。これらの患者の遺伝子データから候補遺伝子を抽出し、遺伝子の発現状態からガンの種類を特定するアルゴリズムを導く。同時に同じガンの患者をクラスタリングする。クラスタリングは医学的な診断法と統計処理を検証する意味をもつ。
L型、M型のいずれかに特異的に発現する遺伝子を候補遺伝子とよぶ。非遺伝子の医学的な方法により38人の患者のガンの種類は特定されている。これらの患者の遺伝子データから候補遺伝子を抽出し、遺伝子の発現状態からガンの種類を特定するアルゴリズムを導く。同時に同じガンの患者をクラスタリングする。クラスタリングは医学的な診断法と統計処理を検証する意味をもつ。
ガンの分類のため、常に全数の遺伝子を使用することは時間的にも経済的にも不可能である。また、1つの遺伝子のみでL型とM型を明確に分類できるような万能遺伝子は存在しない。遺伝子発現データからL型、M型のそれぞれほぼ同数の候補遺伝子を抽出する。抽出総数は患者数の1から2倍程度とし、候補遺伝子を抽出するため、データの2値化を行う。L型にはまったく発現しないがM型の1人以上に発現する遺伝子とM型にはまったく発現しないがL型には1人以上発現する遺伝子を検索する。発現レベルをM型とL型に対し異なった閾値とすることにより、2つの型に対しほぼ同数の候補遺伝子を抽出できる。
(2) アルゴリズム
はじめに遺伝子を固定してX軸方向の正規化発現量を求める。発現量に閾値を設け、L型のみに特異的に発現するL型候補遺伝子とM型にのみ発現するM型候補遺伝子を抽出する。つぎに患者を固定しY軸方向の正規化発現量を計算する。このY軸方向の正規化発現量が教師信号になる。診断を必要とする新しい患者に対し、同じ候補遺伝子に対する正規化発現量を求め、教師信号との相関係数計算を行う。相関係数が最大となる型により患者の型を判定できる。
はじめに遺伝子を固定してX軸方向の正規化発現量を求める。発現量に閾値を設け、L型のみに特異的に発現するL型候補遺伝子とM型にのみ発現するM型候補遺伝子を抽出する。つぎに患者を固定しY軸方向の正規化発現量を計算する。このY軸方向の正規化発現量が教師信号になる。診断を必要とする新しい患者に対し、同じ候補遺伝子に対する正規化発現量を求め、教師信号との相関係数計算を行う。相関係数が最大となる型により患者の型を判定できる。
X軸方向正規化計算
gji:遺伝子の発現量
ggji:X軸方向正規化発現量
i:患者ID i=1...,38(L型27個を先に並べ次にM型11個を並べる)
j:遺伝子ID j=1...,7129
ni:患者数=38(L型患者数=27,M型患者数=11)
平均値(μj)
=(Σgji)/ni (i=1...,ni)
標準偏差(σj)
=sqrt((Σ(gji−μj)*(gji−μj))/ni)(i=1...,ni) sqrt:√演算
ggji=(gji−μj)/σj
gji:遺伝子の発現量
ggji:X軸方向正規化発現量
i:患者ID i=1...,38(L型27個を先に並べ次にM型11個を並べる)
j:遺伝子ID j=1...,7129
ni:患者数=38(L型患者数=27,M型患者数=11)
平均値(μj)
=(Σgji)/ni (i=1...,ni)
標準偏差(σj)
=sqrt((Σ(gji−μj)*(gji−μj))/ni)(i=1...,ni) sqrt:√演算
ggji=(gji−μj)/σj
候補遺伝子は2値化により抽出する。M型候補遺伝子はL型に無反応であり、すべてのL型患者に対し、M型閾値以下の発現量を示す。L型候補遺伝子はM型に無反応であり、すべてのM型患者に対し、L型閾値以下の発現量を示す。M型閾値およびL型閾値を適切に選択すると、2つの型でほぼ同数の候補遺伝子を抽出することができる。正規化発現量の閾値と候補遺伝子数の関係を図2に示す。
閾値の設定
lgki < L型(i=28...,38)
mgki < M型(i=1...,27)
M型:M型閾値
L型:L型閾値
HL:L型2値化用閾値
HM:M型2値化用閾値
lgki:L型候補遺伝子(k=1...,nl)
mgki:M型候補遺伝子(k=1...,nm)
nl:L型候補遺伝子数(本実施例:24)
nm:M型候補遺伝子数(本実施例:22)
HL=L型+δ1(δ1>0)
HM=M型+δm(δm>0)
lgki < L型(i=28...,38)
mgki < M型(i=1...,27)
M型:M型閾値
L型:L型閾値
HL:L型2値化用閾値
HM:M型2値化用閾値
lgki:L型候補遺伝子(k=1...,nl)
mgki:M型候補遺伝子(k=1...,nm)
nl:L型候補遺伝子数(本実施例:24)
nm:M型候補遺伝子数(本実施例:22)
HL=L型+δ1(δ1>0)
HM=M型+δm(δm>0)
さらにHL、HMの2値化用閾値を設定すると、発現量の大きい患者と候補遺伝子を特定することができる。これを図3に示す。図3においてY軸方向の正規化処理として患者を固定し、候補遺伝子による値の変動を正規化する。抽出した候補遺伝子を用いて平均値ゼロ、標準偏差1のY軸方向の正規化処理を行う。
Y軸方向の正規化計算
ggji=lgki:l<=j<=nl (k=1...,nl)(i=1...,ni)
ggji=mgki:nl<j<=(nl+nm) (k=1...,nm)(i=1...,ni)
gggji:Y軸方向の正規化発現量
平均値(μi)
=(Σggji)/(nl+nm) (j=1...,(nl+nm))
標準偏差(σi)
=sqrt((Σ(ggji−μi)*(ggji−μi))/(nl+nm))(j=1...,(nl+nm))
gggji=(ggji−μi)/σi
38人の患者間で相関係数の計算を行う。
k:候補遺伝子ID
sij:相関係数
sij=Σgggki*gggkj (k=1...,(nl+nm)) (i=1...,ni)(j=1...,ni)
ggji=lgki:l<=j<=nl (k=1...,nl)(i=1...,ni)
ggji=mgki:nl<j<=(nl+nm) (k=1...,nm)(i=1...,ni)
gggji:Y軸方向の正規化発現量
平均値(μi)
=(Σggji)/(nl+nm) (j=1...,(nl+nm))
標準偏差(σi)
=sqrt((Σ(ggji−μi)*(ggji−μi))/(nl+nm))(j=1...,(nl+nm))
gggji=(ggji−μi)/σi
38人の患者間で相関係数の計算を行う。
k:候補遺伝子ID
sij:相関係数
sij=Σgggki*gggkj (k=1...,(nl+nm)) (i=1...,ni)(j=1...,ni)
患者間の組み合わせで相関係数の最大値を選ぶとクラスタリングを行うことができる。対角線上は同じデータの掛算であり最大となるが、これを除いた残りの最大値をもつ患者と同じクラスタリングとなる。同時に医学的な判定と候補遺伝子による判定の相互チェックを行うことができる。これを図4に示す。
(3)新しい患者に対する診断法
新しい患者34人のデータに対しても教師信号の候補遺伝子をもとにY軸方向の正規化処理を行い正規化発現量(ggggki)を求める。
新しい患者ごとに38人の教師信号との相関係数を計算し、その最大値が教師信号のL型、M型のどちらの型の患者に存在するかにより患者の型を診断する。
新しい患者34人のデータに対しても教師信号の候補遺伝子をもとにY軸方向の正規化処理を行い正規化発現量(ggggki)を求める。
新しい患者ごとに38人の教師信号との相関係数を計算し、その最大値が教師信号のL型、M型のどちらの型の患者に存在するかにより患者の型を診断する。
i:新患者ID
j:教師信号ID
nn:新規患者数(本実施例:34人)
n27:L型患者数
Sij:相関係数
Sij=Σggggki*gggkj(k=1...,(nl+nm)) (i=1...,nn)(j=1...,ni)
特定の新患者iに対し
imax=argmax(sij)(j=1...,ni)(sijの最大値のiインデックスを求める)
imax<=n27:L型患者
imax>n27:M型患者
と診断する。これを図5に示す。
j:教師信号ID
nn:新規患者数(本実施例:34人)
n27:L型患者数
Sij:相関係数
Sij=Σggggki*gggkj(k=1...,(nl+nm)) (i=1...,nn)(j=1...,ni)
特定の新患者iに対し
imax=argmax(sij)(j=1...,ni)(sijの最大値のiインデックスを求める)
imax<=n27:L型患者
imax>n27:M型患者
と診断する。これを図5に示す。
図5のとおり、本出願の発明の判定と医学的な判定との間で34例中33例が一致し、不一致はわずかに○で囲んだ1例である。本方法はパソコンにより数秒で演算でき、高速で効率的な方法であることを証明できた。マイクロアレイ、DNAチップ等の遺伝子発現データを利用してガン以外の病気の診断にも応用が可能である。
Claims (3)
- DNAマイクロアレイにおいて患者をX軸方向に並べ、遺伝子をY軸方向に並べた2次元の発現データから、患者の型を示すL群、M群の2種類の教師信号を抽出するため、遺伝子を固定してX軸方向の発現量について平均値ゼロ、標準偏差1のX軸方向正規化処理をおこない、L群またはM群のみに特異的に発現する候補遺伝子群を抽出する目的のL閾値とM閾値を設定し、L群の候補遺伝子の発現量はすべてのM群の患者に対しL閾値以下であり、一方M群の候補遺伝子の発現量はすべてのL群の患者に対しM閾値以下であると共に、L、M群の候補遺伝子が同数または患者数に比例するようにL、M閾値を設定する情報処理方法。
- 請求項1に記載の方法で抽出した候補遺伝子群に対し、患者を固定し候補遺伝子方向の発現量に対し平均値ゼロ、標準偏差1のY軸正規化処理を行い、すべての患者間でY軸正規化発現量の相関係数を求め、L、M群はそれぞれの群に属する患者間で最大の相関係数をもつ患者データのみを使用し、L、M群相互で最大の相関係数を持つ患者データを削除する情報処理方法。
- 請求項2に記載のY軸正規化発現量を教師信号とし、新たな2次元発現データをL群またはM群と診断するため、新規データに対し請求項1と同一の候補遺伝子を使用して、請求項2項のY軸方向正規化処理をおこない、新規正規化発現量と教師信号との相関係数をもとめ、相関係数の最大となる群からL、M群を判定する情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003289394A JP2005025711A (ja) | 2003-07-03 | 2003-07-03 | 遺伝子発現データの分類方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003289394A JP2005025711A (ja) | 2003-07-03 | 2003-07-03 | 遺伝子発現データの分類方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005025711A true JP2005025711A (ja) | 2005-01-27 |
Family
ID=34190942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003289394A Pending JP2005025711A (ja) | 2003-07-03 | 2003-07-03 | 遺伝子発現データの分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005025711A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101489536B1 (ko) | 2010-12-30 | 2015-02-04 | 충북대학교 산학협력단 | 두 개 집단을 구별하는 유전자발현 데이터 마커 식별 방법 |
KR20220091930A (ko) * | 2020-12-24 | 2022-07-01 | 가톨릭대학교 산학협력단 | 진단 분류 장치 및 방법 |
-
2003
- 2003-07-03 JP JP2003289394A patent/JP2005025711A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101489536B1 (ko) | 2010-12-30 | 2015-02-04 | 충북대학교 산학협력단 | 두 개 집단을 구별하는 유전자발현 데이터 마커 식별 방법 |
KR20220091930A (ko) * | 2020-12-24 | 2022-07-01 | 가톨릭대학교 산학협력단 | 진단 분류 장치 및 방법 |
KR102507489B1 (ko) * | 2020-12-24 | 2023-03-08 | 가톨릭대학교 산학협력단 | 진단 분류 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2044431B1 (en) | Computer systems and methods for selecting subjects for clinical trials | |
US8478534B2 (en) | Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease | |
KR101542529B1 (ko) | 대립유전자의 바이오마커 발굴방법 | |
CN107075446B (zh) | 用于肥胖症相关疾病的生物标记物 | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
CN107586852B (zh) | 基于22个基因的胃癌腹膜转移预测模型及其应用 | |
CN111276252B (zh) | 一种肿瘤良恶性鉴别模型的构建方法及装置 | |
CN106460045B (zh) | 人类基因组常见拷贝数变异用于癌症易感风险评估 | |
US20190287646A1 (en) | Identifying copy number aberrations | |
US20220254450A1 (en) | method for classifying individuals in mixtures of DNA and its deep learning model | |
CN111020020A (zh) | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 | |
US20200024663A1 (en) | Method for detecting mood disorders | |
CN107760783B (zh) | 基于108个基因的胃癌腹膜转移预测模型及其应用 | |
KR20150024232A (ko) | 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법 | |
CN111540410B (zh) | 用于预测个体的吸烟状况的系统和方法 | |
KR102124193B1 (ko) | 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법 | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
US20220259657A1 (en) | Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis | |
JP2005025711A (ja) | 遺伝子発現データの分類方法 | |
Song et al. | Random forest classifier improving phenylketonuria screening performance in two Chinese populations | |
KR20210120782A (ko) | 피검 대상 맞춤형 변이체 기반 레퍼런스 데이터 세트의 구축 방법 | |
Ali et al. | MACHINE LEARNING IN EARLY GENETIC DETECTION OF MULTIPLE SCLEROSIS DISEASE: ASurvey | |
CN111020021A (zh) | 一种基于肠道菌群的小规模精神分裂症生物标志物组合、其应用及mOTU筛选方法 | |
Chen et al. | Design of ASD subtyping approach based on multi-omics data to promote personalized healthcare | |
Wu et al. | Classification and identification of differential gene expression for microarray data: improvement of the random forest method |