JP3800545B2 - 解析装置、解析方法、プログラム、及び記録媒体 - Google Patents

解析装置、解析方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP3800545B2
JP3800545B2 JP2003391457A JP2003391457A JP3800545B2 JP 3800545 B2 JP3800545 B2 JP 3800545B2 JP 2003391457 A JP2003391457 A JP 2003391457A JP 2003391457 A JP2003391457 A JP 2003391457A JP 3800545 B2 JP3800545 B2 JP 3800545B2
Authority
JP
Japan
Prior art keywords
gene
state
probability
chromosome
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003391457A
Other languages
English (en)
Other versions
JP2005157500A (ja
Inventor
真 加納
哲朗 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2003391457A priority Critical patent/JP3800545B2/ja
Priority to US10/983,405 priority patent/US8594940B2/en
Publication of JP2005157500A publication Critical patent/JP2005157500A/ja
Application granted granted Critical
Publication of JP3800545B2 publication Critical patent/JP3800545B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Description

本発明は、解析装置、解析方法、プログラム、及び記録媒体に関する。特に、本発明は、染色体の状態を解析する解析装置、解析方法、プログラム、及び記録媒体に関する。
近年、遺伝子に関する研究が盛んに行われるようになってきている。これにより、染色体の欠損又は増幅が、癌などの病気の発生や病気の進行の大きな要因であることが分かってきている。例えば、染色体欠損により癌を抑制する遺伝子が欠損している場合や、染色体増幅により癌遺伝子が増幅している場合には、癌の進行が速まってしまう。従って、病気にかかっている細胞の染色体上で、染色体欠損又は染色体増幅が発生している領域を適切に検出できれば、病気の原因となる遺伝子の解明に大きく貢献することができる。
従来、染色体欠損又は染色体増幅が発生している領域を検出する技術が提案されている(非特許文献1及び非特許文献2参照。)。非特許文献1は、発現マイクロアレイにより染色体上の各遺伝子の発現量を測定し、測定対象の遺伝子が配列される染色体上の位置に測定結果をグラフとして表す技術を提案している。また、非特許文献2は、染色体上のある領域に、所定の条件を満たす異常な遺伝子が所定の数以上存在する場合に、その領域を染色体異常であると判断する技術を提案している。
非特許文献3については後述する。
Fujii T, Dracheva T, Player A, Chacko S, Clifford R, Strausberg LS, Buetow K, Azumi N, Travis WD, Jen J. A preliminary transcriptome map of non-small cell lung cancer. Cancer Res 62: 3340-3346, 2002. Kano M, Nishimura K, Ishikawa S, Tsutsumi S, Hirota K, Hirose M, Aburatani H. Expression imbalance map: a new visualization method for detection of mRNA expression imbalance regions. Physiol Genomics. 2003 Mar 18;13(1):31-46. Epub 2003 Jan 07. Durbin R, Eddy S, Krogh A, Mitchison G. Biological sequence analysis. Cambridge University Press. 1998.
非特許文献1の技術によると、各遺伝子の発現量を詳細に把握することはできるものの、発現量が小さいにもかかわらず増幅領域に配列された遺伝子を適切に検出できない場合がある。即ち、発現量の多い遺伝子が集中して配列された領域であっても、その領域中に発現量の少ない遺伝子が含まれている場合には、その領域を染色体増幅の領域として検出できない場合がある。このため、病気などの原因となる遺伝子が集中していたとしても、その領域を適切に検出できない恐れがある。
一例として、図8に、癌細胞及び正常細胞の比較を示す。各図の横軸は、正常細胞における各遺伝子の発現量に対する、癌細胞における対応する遺伝子の発現量の比の対数値(Fold Change)を示す。縦軸は、測定された遺伝子の数を、各遺伝子の測定結果が均等に扱われるように正規化した値を示す。図8(a)は、癌細胞の染色体の正常な領域に配列された各遺伝子についての度数分布を示す。図8(b)は、癌細胞の染色体の欠損領域に配列された各遺伝子についての度数分布を示す。図8(c)は、癌細胞の染色体の増幅領域に配列された各遺伝子についての度数分布を示す。
本図に示すように、全体として増幅領域の遺伝子の発現量は多く、かつ欠損領域の発現量は少ない傾向がある。しかしながら、1つの遺伝子に注目した場合に、その遺伝子が増幅領域に配列される場合と比較して、その遺伝子が欠損領域に配列された場合の方が、発現量が多いこともある。
また、非特許文献2の技術は、染色体の異常を所定の領域毎に判断することができるものの、遺伝子が配列される位置などが考慮されないため、異常領域の精度が悪い場合がある。具体的には、この技術では、ある領域内の各遺伝子の数のみが解析の対象となり、その領域内の各遺伝子は等価に取り扱われるため、遺伝子間の距離に応じて遺伝子が他の遺伝子に与える影響等が考慮されない。このため、解析結果が不正確な場合がある。
そこで本発明は、上記の課題を解決することのできる解析装置、解析方法、プログラム、及び記録媒体を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、遺伝子の発現量に基づいて染色体の状態を解析する解析装置であって、染色体上に配列された複数の遺伝子の各々は、互いに発現量が異なる複数の遺伝子状態の何れかをとり、遺伝子の発現量の確率分布を遺伝子状態毎に格納する確率分布格納部と、染色体上の各々の遺伝子について、当該遺伝子が複数の遺伝子状態の各々である場合に、染色体上で当該遺伝子の隣に配列される隣接遺伝子が複数の遺伝子状態の各々となる確率を示す状態遷移確率を供給する状態遷移確率供給部と、染色体上の各々の遺伝子についての発現量の測定値である発現量測定値を入力する発現量入力部と、染色体上の複数の遺伝子のそれぞれについての遺伝子状態の集合を隠れ状態の集合とし、複数の遺伝子について入力された複数の発現量測定値の集合を出力系列とし、確率分布格納部に格納された確率分布を各遺伝子状態における出力確率とし、状態遷移確率供給部から供給された状態遷移確率により隣接する隠れ状態の間で遺伝子状態が遷移するものとした隠れマルコフモデルから、出力系列を出力する確率を最大とする隠れ状態の状態遷移系列を算出することにより、複数の遺伝子の発現量が対応する複数の発現量測定値となる確率を最大とする複数の遺伝子のそれぞれの遺伝子状態を検出する状態検出部とを備える解析装置と、これに関する解析方法、プログラム、および記録媒体とを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、高精度でかつ高速に染色体を解析することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、染色体解析システム10の概略を示す。染色体解析システム10は、測定装置30と、解析装置40とを備え、染色体20に含まれる各遺伝子の発現量の測定値である発現量測定値に基づいて、染色体20の状態を解析することを目的とする。測定装置30は、例えば発現マイクロアレイの技術により、染色体20に含まれる各遺伝子の発現量を測定し、測定結果を発現量測定値として解析装置40に送る。解析装置40は、測定装置30から受け取った発現量測定値に基づいて、染色体20上の各遺伝子がとり得る状態の組合せのうち、各遺伝子の発現量が発現量測定値と一致する確率を最大にする組合せを検出して、利用者に表示する。なお、本図は一例であり、これに代えて解析装置40は、ネットワークを介して他のサーバ装置から発現量測定値等を取得してもよい。
図2は、染色体20の構造を模式的に示す。染色体20上には、複数の遺伝子が配列されている。そして、これらの遺伝子が配列される間隔は、互いに異なる。また、染色体20は、通常単一であるべき遺伝子が重複して存在する増幅領域(斜線領域)と、通常配列されるべき遺伝子が欠損している欠損領域(2重斜線領域)と、増幅領域及び欠損領域の何れでもない正常領域とを有している。
本図は、更に、癌細胞の染色体上の各遺伝子についてのFold Changeを示す。増幅領域における遺伝子の発現量のFold Changeは、0より大きい場合が多い。欠損領域における遺伝子の発現量のFold Changeは、0より小さい場合が多い。
図3は、解析装置40が解析に用いる染色体20のパラメータを示す。本図では図2に示す染色体20のうち領域25を例に説明する。図3(a)に示すように、染色体20を一端から順次観測した場合に、k-1番目、k番目、及びk+1番目に配列される遺伝子は、遺伝子gk-1、遺伝子gk、及び遺伝子gk+1である。即ち、遺伝子gk-1及び遺伝子gkは互いに隣り合って配列され、遺伝子gk及び遺伝子gk+1は、互いに隣り合って配列される。このように、遺伝子が隣り合って配列されるとは、遺伝子間に他の遺伝子が配列されていないこと(或いは、遺伝子間に遺伝子と解明された部分がないこと)をいう。
そして、遺伝子gk-1及び遺伝子gk間の距離は、予め定められた単位距離(例えば塩基間の距離)のLk倍である。また、遺伝子gk及び遺伝子gk+1間の距離は、単位距離のLk+1倍である。即ち、図3(b)に示すように、実際には、各遺伝子は塩基に隣接する。例えば、遺伝子gk-1は塩基300に隣接する。そして、遺伝子間には複数の塩基が配列されており、その塩基の数に単位距離を乗じた数を遺伝子間の距離とする。これに代えて、単位距離とは、塩基の長さであり、遺伝子間の距離は、塩基の長さに塩基の数を乗じた長さであってもよい。
なお、遺伝子とは、複数の塩基の集合である。従って、実際には遺伝子自体も所定の長さを有している。しかしながら、遺伝子間の距離は、遺伝子自体の長さより充分大きいことから、遺伝子自体の長さが解析に与える影響は小さいと考えられる。そこで、本実施例においては、便宜上、遺伝子の長さを塩基1つ分の長さであるとみなす。
そして、遺伝子gk-1、遺伝子gk、及び遺伝子gk+1のそれぞれにおいて測定装置30により測定された発現量は、それぞれ発現量ek-1、発現量ek、及び発現量ek+1である。ここで、各遺伝子の発現量とは、その遺伝子から生成されたたんぱく質の量の測定値であってもよいし、その遺伝子から生成されたメッセンジャーRNAの量の測定値であってもよい。
また、染色体20上の各遺伝子は、互いに発現量が異なる複数の遺伝子状態の何れかをとる。例えば、各遺伝子の遺伝子状態は、その遺伝子が染色体の欠損領域にある旨を示す欠損状態(s1)、その遺伝子が染色体の増幅領域にある旨を示す増幅状態(s3)、及びその遺伝子が染色体の正常領域にある旨を示す正常状態(s2)の何れかである。また、発現量が異なるとは、実際に発現量が異なる場合のみならず、発現量の確率分布が異なる場合も含む。例えば、遺伝子が欠損状態、増幅状態、及び正常状態の何れであるかにより、その遺伝子の発現量の確率分布が異なる。
これに代えて、遺伝子状態とは、各遺伝子の働きを制御する塩基の集合であるプロモーターの状態であってもよい。具体的には、各遺伝子の遺伝子状態とは、その遺伝子のプロモーターが遺伝子の働きを活性させる状態、又は、その遺伝子のプロモーターが遺伝子の働きを抑制する状態であってもよい。即ち、プロモーターが遺伝子の働きを活性させる状態である場合には、遺伝子の発現量が増加し、プロモーターが遺伝子の働きを抑制する状態である場合には、遺伝子の発現量が減少する。このように、遺伝子状態とは、染色体の欠損・増幅等のゲノムレベルの変異に基づく状態のみならず、発現量を制御する制御レベルの変異に基づく状態であってもよい。
更に、遺伝子間の各塩基は、欠損領域、正常領域、又は増幅領域に配列されている。欠損領域にある塩基を欠損状態と呼び、正常領域にある塩基を正常状態と呼び、増幅領域に配列される塩基を増幅状態と呼ぶ。
更に、図3(a)の矢印は、染色体上の各々の遺伝子について、その遺伝子が複数の遺伝子状態の各々である場合に、その遺伝子の隣に配列される隣接遺伝子が複数の遺伝子状態の各々となる状態遷移を示す。そして、各々の矢印にその状態遷移の確率である状態遷移確率、例えばQ(Lk)及びQ(Lk+1)が定まっている。また、図3(b)の矢印は、染色体上の各々の遺伝子又は塩基について、その遺伝子又は塩基が複数の遺伝子状態の各々である場合に、その遺伝子の隣に配列される遺伝子又は塩基が複数の遺伝子状態の各々となる状態遷移を示す。そして、各々の矢印にこの状態遷移の確率である単位距離遷移確率が定まっている。
図4は、解析装置40の機能ブロック図を示す。解析装置40は、確率分布格納部400と、予測値入力部410と、単位距離遷移確率供給部420と、状態遷移確率供給部430と、発現量入力部440と、状態検出部450とを備える。確率分布格納部400は、遺伝子が欠損状態、増幅状態、及び正常状態の各々である場合における、その遺伝子の発現量の確率分布を格納する。例えば、確率分布格納部400は、染色体20を一端から順次観測した場合にk番目に配列される遺伝子の遺伝子状態がsiであった場合における発現量の確率分布、即ち発現量がek以上ek+Δe以下である確率として、以下の式(4)により定まるbi(ek)を格納している。但し、μiは発現量の平均値を示し、σiは発現量の分散値を示す。ここで、発現量の平均値及び分散値は、他の実験により予め測定された値であってもよい。
Figure 0003800545
これに代えて、確率分布格納部400は、確率が連続的に変化しない確率分布、例えば遺伝子状態のみに基づいて発現量が予め定まる確率分布を格納してもよい。また、確率分布は、予め他の実験により測定された発現量の度数分布自体であってもよい。
予測値入力部410は、染色体20において連続する欠損領域の長さである欠損距離の予測値と、染色体20において連続する増幅領域の長さである増幅距離の予測値を利用者から入力する。更に、予測値入力部410は、欠損領域、増幅領域、及び正常領域の比率である領域比率の予測値を利用者から入力する。単位距離遷移確率供給部420は、予測値入力部410により入力された欠損距離、増幅距離、及び領域比率に基づいて、染色体20上で予め定められた単位距離離れて2つの遺伝子が隣接して配列される場合における、一方の遺伝子及び他方の遺伝子との間の状態遷移確率である単位距離遷移確率を生成し、状態遷移確率供給部430に供給する。
単位距離遷移確率供給部420は、例えば、染色体20の所定の位置が欠損領域、増幅領域、及び正常領域となる確率を示すベクトルに基づいて、その所定の位置から単位距離離れた位置が欠損領域、増幅領域、及び正常領域となる確率を示すベクトルを算出する行列Qを、単位距離遷移確率として供給する。行列Qは、例えば以下の式(5)により表される。
Figure 0003800545
但し、式(5)で、染色体20を一端から順次観測する場合において、欠損領域である位置から単位距離離れた位置が正常領域となる確率をαとし、正常領域である位置から単位距離離れた位置が欠損領域となる確率をβとし、正常領域である位置から単位距離離れた位置が増幅領域となる確率をβとし、増幅領域である位置から単位距離離れた位置が正常領域となる確率をγとする。また、α、β、β、及びγは0から1であり、行列Qは正則行列である。
状態遷移確率供給部430は、単位距離遷移確率を状態遷移確率供給部430から受け取り、染色体上で隣り合って配列される2つの遺伝子間の距離を遺伝子データベース435から取得する。例えば、遺伝子間の距離は、染色体を含む生物種により予め定まっており、その遺伝子間の距離は予め遺伝子データベース435に格納されている。これに代えて、状態遷移確率供給部430は、他の測定装置により遺伝子間の距離を測定させ、その測定装置から遺伝子間の距離を示すデータを取得してもよい。
そして、状態遷移確率供給部430は、染色体20上の各々の遺伝子について、当該遺伝子が複数の遺伝子状態の各々である場合に、当該遺伝子の隣接遺伝子が複数の遺伝子状態の各々となる確率を示す状態遷移確率を生成し、状態検出部450に供給する。具体的には、状態遷移確率供給部430は、単位距離遷移確率を、取得した距離に応じた回数乗じることにより、染色体上で隣り合って配列される2つの遺伝子間の状態遷移確率を生成する。
より詳細には、状態遷移確率供給部430は、染色体20上の距離が単位距離のL倍である隣り合う2つの遺伝子間の状態遷移確率であるQ(L)として、上述した行列Qの各固有ベクトルを行方向に並べた行列Wの逆行列と、行列Qの各固有値を対角成分に配列した行列ΛのL乗と、行列Wとの積を生成する。行列W、行列ΛのL乗、及びQ(L)は、以下の式(6)により表される。
Figure 0003800545
これにより、状態遷移確率供給部430が供給する状態遷移確率において、当該遺伝子及び当該隣接遺伝子の遺伝子状態が同一となる確率は、当該遺伝子及び当該遺伝子の隣接遺伝子の距離がより短い場合に、当該距離がより長い場合と比較してより高くなる。
発現量入力部440は、染色体20上の各々の遺伝子についての発現量の測定値である発現量測定値を測定装置30から入力する。そして、状態検出部450は、染色体20上の複数の遺伝子がとり得る遺伝子状態の組合せのうち、複数の遺伝子の発現量が発現量測定値となる確率を最大にする組合せを、確率分布格納部400に格納された確率分布及び状態遷移確率供給部430から取得した状態遷移確率に基づいて検出する。
例えば、まず、状態検出部450は、複数の遺伝子状態を隠れ状態の集合とし、発現量測定値が示す複数の遺伝子の発現量を出力系列とし、確率分布を各遺伝子状態における出力確率とした隠れマルコフモデルを定める。そして、状態検出部450は、この隠れマルコフモデルにおいて隠れ状態の状態遷移確率を最大にする状態遷移系列を算出することにより、複数の遺伝子の発現量が発現量測定値となる確率を最大にする組合せを検出する。そして、状態検出部450は、検出結果に基づいて遺伝子の異常領域を更に検出して利用者に表示する。
具体的には、まず、欠損状態s1、正常状態s2、及び増幅状態s3を、隠れマルコフモデルの隠れ状態とする。そして、染色体20を一端から順次観測した場合にm番目に配列される遺伝子からn番目に配列される遺伝子までの発現量の集合である式(7)を、隠れマルコフモデルの出力系列とする。但し、elは、染色体20を一端から順次観測した場合にl番目に配列される遺伝子の発現量を示す。また、m番目に配列される遺伝子からn番目に配列される遺伝子までの遺伝子状態の集合である式(8)が、算出するべき状態遷移系列である。
Figure 0003800545
Figure 0003800545
ここで、状態検出部450は、式(7)に示す出力系列を出力する確率を最大にする状態遷移系列である式(8)を、例えばビタービのアルゴリズム(非特許文献3参照。)を用いて算出する。算出方法について詳細に説明する。まず、隠れマルコフモデルにおいて、1番目の遺伝子からk番目の遺伝子が予め定められた出力系列を出力し、k番目の遺伝子が遺伝子状態siとなる最大の確率は、式(9)で表される。また、式(9)に示す最大の確率値を与える直前の遺伝子状態は、式(10)で表される。
Figure 0003800545
Figure 0003800545
以下の説明において、数式の簡略化のため、式(9)に示す最大の確率値を与える直前の遺伝子状態を、式(10)に代えて式(10)’と表記する。
状態検出部450は、染色体20を一端から観測した場合に1番目からN番目に配列される遺伝子についての状態遷移系列を、以下の各ステップに示す処理により生成する。
(ステップ1)
状態検出部450は、染色体20上の1番目の遺伝子に隣接する0番目の遺伝子があると仮定した場合にその遺伝子についての各遺伝子状態si (i=1,2,3)に対しての最大の確率値及びその確率値を与える直前の状態を初期化する(式(11))。例えば、状態検出部450は、各遺伝子状態si (i=1,2,3)に対しての最大の確率値を、行列Qの固有値を1とした場合の固有ベクトルの各要素により初期化する。
Figure 0003800545
(ステップ2)
状態検出部450は、各遺伝子gk (k=1,2,…., N)、各状態Si (i=1,2, 3)に対して、再帰的に式(12)に示す計算を行う。
Figure 0003800545
(ステップ3)
状態検出部450は、ステップ2の処理により、確率値の最大値を式(13)として算出し、その確率値を与える場合にN番目の遺伝子がとる遺伝子状態を式(14)として算出する。
Figure 0003800545
Figure 0003800545
(ステップ4)
状態検出部450は、式(12)により算出した遺伝子状態を連結することにより、状態遷移系列を生成する。具体的には、k=N-1, ……, 1に対して以下の式(15)を実行する。
Figure 0003800545
このように、状態検出部450は、染色体20上に配列される各遺伝子について、式(12)に示す計算により確率値を順次計算する。そして、式(12)に示す計算は、遺伝子状態の数に比例する計算量を要する。ここで、遺伝子状態の数が、比較的小さい定数値、例えば、欠損状態、正常状態、及び増幅状態の3つであることから、状態検出部450は、遺伝子の数に比例した計算量及びメモリ量により上記の計算を行える。非特許文献2の技術が、遺伝子の数の2乗に比例する計算量及びメモリ量を要するのと比較して、解析装置40は、極めて効率が高い。
図5は、解析装置40が染色体の状態を解析する動作フローを示す。予測値入力部410は、染色体20において連続する欠損領域の長さである欠損距離の予測値と、染色体20において連続する増幅領域の長さである増幅距離の予測値を利用者から入力する(S500)。更に、予測値入力部410は、欠損領域、増幅領域、及び正常領域の比率である領域比率の予測値を入力する。
単位距離遷移確率供給部420は、予測値入力部410により入力された欠損距離、増幅距離、及び領域比率に基づいて単位距離遷移確率を生成する(S510)。例えば、単位距離遷移確率供給部420は、以下に示す性質に基づいて、まず、α及びγを生成する。
欠損領域がちょうど単位距離のk倍の長さ連続する確率は、(1-α)をk乗し、最後にαを乗じた値となる。従って、欠損領域が連続する長さの期待値は、以下の式(16)で表される。ここで、αが1より充分小さいとみなし、式(16)の最後の変形を行った。
Figure 0003800545
上記の性質を用いて、単位距離遷移確率供給部420は、染色体20上を一端から順次観測する場合において、欠損領域である位置から単位距離離れた位置が正常領域となる確率αを、予測値入力部410により入力された欠損距離の逆数に単位距離を乗じることにより生成する。ここで、式(16)のαをγに読みかえれば、増幅領域についても同様な性質が導かれるので、単位距離遷移確率供給部420は、更に、増幅領域である位置から単位距離離れた位置が正常領域となる確率を、予測値入力部410により入力された増幅距離の逆数に単位距離を乗じることにより生成することができる。
続いて、単位距離遷移確率供給部420は、以下に示すように、単位距離遷移確率を示す行列Qの性質に基づいて、β及びβを生成する。
まず、行列Qの固有値の性質を求める。行列Qの特性方程式である式(17)を解けば、固有値として式(18)が求められる。ここで、α、β、β、及びγの各々が0より大きく1より小さいことから、λ2及びλ3は0より大きく1より小さい。
Figure 0003800545
Figure 0003800545
この性質により、Lを無限大とした場合の、式(6)に示すQ(L)の極限値は、式(19)の行列Aとなる。ここで、wは、固有値を1とした場合の行列Qの固有ベクトルであり、wの各要素は、式(20)に示すように、βγ、γα、及びαβである。
Figure 0003800545
Figure 0003800545
以上の説明により、Lが無限大の場合に、欠損領域から単位距離のL倍離れた位置が欠損領域である確率は、βγに比例し、正常領域から単位距離のL倍離れた位置が正常領域である確率は、γαに比例し、増幅領域から単位距離のL倍離れた位置が増幅領域である確率はαβに比例する。従って、染色体上の各領域の比率である領域比率は、欠損領域:正常領域:増幅領域=βγ:γα:αβである。
以上で示した性質により、単位距離遷移確率供給部420は、予測値入力部410により入力された領域比率がβγ:γα:αβから導かれるα、β、β、及びγについての2つの方程式と、既に算出したα及びγの値とに基づいて、β及びβを生成する。
以上、S510で説明したように、単位距離遷移確率供給部420は、染色体上で所定の領域が連続する長さや、各領域の占める割合等、医師等の専門化が直感的に把握し易い情報に基づいて、単位距離遷移確率を生成することができる。
続いて、状態遷移確率供給部430は、染色体上で隣り合って配列される2つの遺伝子間の距離を遺伝子データベース435から取得する(S520)。状態遷移確率供給部430は、染色体20上の各々の遺伝子について状態遷移確率を生成する(S530)。発現量入力部440は、染色体20上の各々の遺伝子についての発現量の測定値である発現量測定値を測定装置30から入力する(S540)。
そして、状態検出部450は、染色体20上の複数の遺伝子がとり得る遺伝子状態の組合せのうち、これら複数の遺伝子の発現量が発現量測定値となる確率を最大にする組合せを、確率分布格納部400に格納された確率分布及び状態遷移確率供給部430から取得した状態遷移確率に基づいて検出する(S550)。状態検出部450は、検出結果に基づいて遺伝子の異常領域を更に検出して利用者に表示する(S560)。
図6は、状態検出部450が表示する画面の例を示す。本図において、染色体20を、中央縦方向に棒状に示す。染色体上の各遺伝子において測定された発現量を、その遺伝子が染色体20上に配列される位置に線状のグラフとして示す。即ち例えば、この線状のグラフは、発現マイクロアレイによる測定結果を示している。本図で示すように、発現量が比較的大きい領域に、発現量が少ない遺伝子が含まれている場合がある。これは、例えば、生体内にはある異常な状態を回復するフィードバック制御の働き等により引き起こされる。従来の技術によれば、発現量自体を解析対象とすることから、このような領域を異常領域として検出できない場合がある。
これに対して、状態検出部450は、遺伝子の発現を隠れマルコフモデルとみなして検出した遺伝子状態の組に基づいて、増幅状態の遺伝子が連続する部分又は欠損状態の遺伝子が連続する部分の中で、隣接する遺伝子間の距離が予め定められた長さ以下である部分を、染色体20上の異常領域として検出して表示する。即ち、状態検出部450は、増幅状態又は欠損状態の遺伝子が連続する場合であっても、遺伝子間の距離自体がある程度長い場合には、これらの領域を連続した異常領域として検出するのは不適切であるため、これらを別々の異常領域として検出する。
本図においては、具体的には、状態検出部450は、検出した異常領域を、点線の矩形領域として表示する。このように、解析装置40は、発現量を詳細に測定するのみでは検出できない異常領域をも適切に検出できる。
更に、肺がんの細胞株4検体を用いた実験によれば、本実施例を非特許文献2の技術と比較した結果、異常領域の検出の再現率、精度及び計算速度が向上したことが確かめられた。具体的には、再現率と精度が、それぞれ11%及び、22%改善し、それらの調和平均が19%改善した。また、非特許文献2の技術で141.95秒要していた計算時間を、6.83秒に短縮し、処理を約21倍高速化できることが確かめられた。
図7は、解析装置40のハードウェア構成の一例を示す。解析装置40は、ホストコントローラ782により相互に接続されるCPU700、RAM720、グラフィックコントローラ775、及び表示装置780を有するCPU周辺部と、入出力コントローラ784によりホストコントローラ782に接続される通信インターフェイス730、ハードディスクドライブ740、及びCD−ROMドライブ760を有する入出力部と、入出力コントローラ784に接続されるROM710、フレキシブルディスクドライブ750、及び入出力チップ770を有するレガシー入出力部とを備える。
ホストコントローラ782は、RAM720と、高い転送レートでRAM720をアクセスするCPU700及びグラフィックコントローラ775とを接続する。CPU700は、ROM710及びRAM720に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ775は、CPU700等がRAM720内に設けたフレームバッファ上に生成する画像データを取得し、表示装置780上に表示させる。これに代えて、グラフィックコントローラ775は、CPU700等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ784は、ホストコントローラ782と、比較的高速な入出力装置である通信インターフェイス730、ハードディスクドライブ740、及びCD−ROMドライブ760を接続する。通信インターフェイス730は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ740は、解析装置40が使用するプログラム及びデータを格納する。CD−ROMドライブ760は、CD−ROM795からプログラム又はデータを読み取り、RAM720を介して入出力チップ770に提供する。
また、入出力コントローラ784には、ROM710と、フレキシブルディスクドライブ750や入出力チップ770等の比較的低速な入出力装置とが接続される。ROM710は、解析装置40の起動時にCPU700が実行するブートプログラムや、解析装置40のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ750は、フレキシブルディスク790からプログラム又はデータを読み取り、RAM720を介して入出力チップ770に提供する。入出力チップ770は、フレキシブルディスク790や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
解析装置40に提供されるプログラムは、フレキシブルディスク790、CD−ROM795、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ770及び/又は入出力コントローラ784を介して、記録媒体から読み出され解析装置40にインストールされて実行される。
解析装置40にインストールされて実行されるプログラムは、予測値入力モジュールと、単位距離遷移確率供給モジュールと、状態遷移確率供給モジュールと、発現量入力モジュールと、状態検出モジュールとを含む。また、当該プログラムは、ハードディスクドライブ740を、確率分布格納部400又は遺伝子データベース435として用いてもよい。各モジュールが解析装置40に働きかけて行わせる動作は、図1から図6において説明した解析装置40における、対応する部材の動作と同一であるから、説明を省略する。
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク790、CD−ROM795の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを解析装置40に提供してもよい。
以上、本実施例に示すように、解析装置40は、発現マイクロアレイ等により実際の遺伝子の働きを直接測定した結果に基づいて、染色体20の状態を解析することができる。これにより、染色体20を直接観測する方法と比較して、遺伝子が生体に及ぼす作用により近い情報を元にして効果的な解析を実現できる。
また、解析装置40は、染色体20上に配列される各遺伝子について測定された遺伝子測定値に基づいて、各遺伝子がとる遺伝子状態の組合せのうち最も確率が高い組合せを検出することができる。これにより、解析装置40は、染色体20の状態をより正確に判断して、従来はノイズに埋もれて検出できなかった領域を、異常領域として適切に検出することができる。
また、解析装置40は、これらの処理を、遺伝子の数に比例する時間により、かつ遺伝子の数に比例する量のメモリを用いて効率よく実現できる。これにより、遺伝子の数が膨大な場合であっても、計算時間の増加を抑えることができる。
以上に示す実施例によれば、以下の各項目に示す解析装置、解析方法、プログラム、及び記録媒体が実現される。
(項目1) 遺伝子の発現量に基づいて染色体の状態を解析する解析装置であって、前記染色体上に配列された複数の遺伝子の各々は、互いに発現量が異なる複数の遺伝子状態の何れかをとり、遺伝子の発現量の確率分布を遺伝子状態毎に格納する確率分布格納部と、前記染色体上の各々の遺伝子について、当該遺伝子が前記複数の遺伝子状態の各々である場合に、前記染色体上で当該遺伝子の隣に配列される隣接遺伝子が前記複数の遺伝子状態の各々となる確率を示す状態遷移確率を供給する状態遷移確率供給部と、前記染色体上の各々の遺伝子についての発現量の測定値である発現量測定値を入力する発現量入力部と、前記染色体上の複数の遺伝子がとり得る遺伝子状態の組合せのうち、前記複数の遺伝子の発現量が前記発現量測定値となる確率を最大にする組合せを、前記確率分布及び前記状態遷移確率に基づいて検出する状態検出部とを備える解析装置。
(項目2) 前記状態遷移確率供給部は、染色体上の各々の遺伝子について、当該遺伝子及び当該遺伝子の隣接遺伝子の距離を取得し、当該距離がより短い場合に当該距離がより長い場合と比較して当該遺伝子及び当該隣接遺伝子の遺伝子状態が同一となる確率をより高くする前記状態遷移確率を生成する項目1記載の解析装置。
(項目3) 前記染色体上で予め定められた単位距離離れて2つの遺伝子が隣接して配列される場合における、一方の遺伝子及び他方の遺伝子との間の状態遷移確率である単位距離遷移確率を供給する単位距離遷移確率供給部を更に備え、前記状態遷移確率供給部は、前記単位距離遷移確率を、前記染色体上で隣り合う2つの遺伝子間の距離に応じた回数乗じることにより、当該2つの遺伝子間の前記状態遷移確率を生成する項目2記載の解析装置。
(項目4) 各遺伝子の前記遺伝子状態は、当該遺伝子が染色体の欠損領域にある旨を示す欠損状態、当該遺伝子が染色体の増幅領域にある旨を示す増幅状態、及び当該遺伝子が染色体の正常領域にある旨を示す正常状態の何れかであり、前記確率分布格納部は、遺伝子が前記欠損状態、前記増幅状態、及び前記正常状態の各々である場合における、当該遺伝子の発現量の確率分布を格納し、前記状態遷移確率供給部は、前記染色体上に配列された各遺伝子について、当該遺伝子が前記欠損状態、前記増幅状態、及び前記正常状態の各々である場合に、当該遺伝子の隣接遺伝子が前記欠損状態、前記増幅状態、及び前記正常状態の各々となる確率を、前記状態遷移確率として供給し、前記状態検出部は、前記染色体上の遺伝子の各々が前記欠損状態、前記増幅状態、及び前記正常状態の何れかである全ての組合せのうち、前記複数の遺伝子の発現量が前記発現量測定値となる確率を最大にする組合せを検出する項目3記載の解析装置。
(項目5) 前記染色体において連続する前記欠損領域の長さである欠損距離の予測値と、前記染色体において連続する前記増幅領域の長さである増幅距離の予測値とを入力する予測値入力部を更に備え、前記単位距離遷移確率供給部は、前記染色体上を一端から順次観測する場合において、前記欠損領域である位置から前記単位距離離れた位置が前記正常領域となる確率を、前記予測値入力部により入力された前記欠損距離の逆数に前記単位距離を乗じることにより生成し、前記増幅領域である位置から前記単位距離離れた位置が前記正常領域となる確率を、前記予測値入力部により入力された前記増幅距離の逆数に前記単位距離を乗じることにより生成する項目4記載の解析装置。
(項目6) 前記予測値入力部は、更に、前記欠損領域、前記増幅領域、及び前記正常領域の比率である領域比率の予測値を入力し、前記単位距離遷移確率供給部は、前記単位距離遷移確率のうち、前記染色体上で前記単位距離離れた位置の一方が前記欠損領域であり、かつ他方が前記増幅領域となる確率として0を生成し、前記予測値入力部により入力された前記領域比率に更に基づいて、他の単位距離遷移確率を生成する項目5記載の解析装置。
(項目7) 前記単位距離遷移確率供給部は、前記染色体の所定の位置が前記欠損領域、前記増幅領域、及び前記正常領域となる確率を示すベクトルに基づいて、当該所定の位置から前記単位距離離れた位置が前記欠損領域、前記増幅領域、及び前記正常領域となる確率を示すベクトルを算出する行列Qを、前記単位距離遷移確率として供給し、前記状態遷移確率供給部は、前記染色体上の距離が前記単位距離のL倍である隣り合う2つの遺伝子間の前記状態遷移確率であるQ(L)として、前記行列Qの各固有ベクトルを行方向に並べた行列Wの逆行列と、前記行列Qの各固有値を対角成分に配列した行列ΛのL乗と、前記行列Wとの積を生成する項目4記載の解析装置。
但し、行列Qは、式(21)で表される。式(21)で、前記染色体を一端から順次観測する場合において、前記欠損領域である位置から前記単位距離離れた位置が前記正常領域となる確率をαとし、前記正常領域である位置から前記単位距離離れた位置が前記欠損領域となる確率をβとし、前記正常領域である位置から前記単位距離離れた位置が前記増幅領域となる確率をβとし、前記増幅領域である位置から前記単位距離離れた位置が前記正常領域となる確率をγとする。
Figure 0003800545
また、行列W及び行列ΛのL乗は、式(22)で表される。但し、行列Qの固有ベクトルを、w、w、及びwとし、当該固有ベクトルに対応する固有値をそれぞれ1、λ、及びλとする。
Figure 0003800545
また、行列Q(L)は、以下の式(23)で表される。
Figure 0003800545
(項目8) 前記状態検出部は、検出した遺伝子状態の組に基づいて、更に、前記増幅状態の遺伝子が連続する部分又は前記欠損状態の遺伝子が連続する部分の中で、隣接する遺伝子間の距離が予め定められた長さ以下である部分を、前記染色体上の異常領域として検出して表示する項目4記載の解析装置。
(項目9) 前記状態検出部は、前記複数の遺伝子状態を隠れ状態の集合とし、前記発現量測定値が示す前記複数の遺伝子の発現量を出力系列とし、前記確率分布を各遺伝子状態における出力確率とした隠れマルコフモデルについて、当該隠れマルコフモデルにおいて状態遷移確率を最大にする状態遷移系列を算出することにより、前記複数の遺伝子の発現量が前記発現量測定値となる確率を最大にする組合せを検出する項目1記載の解析装置。
(項目10) 遺伝子の発現量に基づいて染色体の状態を解析する解析方法であって、前記染色体上に配列された複数の遺伝子の各々は、互いに発現量が異なる複数の遺伝子状態の何れかをとり、遺伝子の発現量の確率分布が遺伝子状態毎に定まっており、前記染色体上の各々の遺伝子について、当該遺伝子が前記複数の遺伝子状態の各々である場合に、前記染色体上で当該遺伝子の隣に配列される隣接遺伝子が前記複数の遺伝子状態の各々となる確率を示す状態遷移確率を供給する状態遷移確率供給段階と、前記染色体上の各々の遺伝子についての発現量の測定値である発現量測定値を入力する発現量入力段階と、前記染色体上の複数の遺伝子がとり得る遺伝子状態の組合せのうち、前記複数の遺伝子の発現量が前記発現量測定値となる確率を最大にする組合せを、前記確率分布及び前記状態遷移確率に基づいて検出する状態検出段階とを備える解析方法。
(項目11) 遺伝子の発現量に基づいて染色体の状態を解析する解析装置としてコンピュータを機能させるプログラムであって、前記染色体上に配列された複数の遺伝子の各々は、互いに発現量が異なる複数の遺伝子状態の何れかをとり、前記コンピュータを、遺伝子の発現量の確率分布を遺伝子状態毎に格納する確率分布格納部と、前記染色体上の各々の遺伝子について、当該遺伝子が前記複数の遺伝子状態の各々である場合に、前記染色体上で当該遺伝子の隣に配列される隣接遺伝子が前記複数の遺伝子状態の各々となる確率を示す状態遷移確率を供給する状態遷移確率供給部と、前記染色体上の各々の遺伝子についての発現量の測定値である発現量測定値を入力する発現量入力部と、前記染色体上の複数の遺伝子がとり得る遺伝子状態の組合せのうち、前記複数の遺伝子の発現量が前記発現量測定値となる確率を最大にする組合せを、前記確率分布及び前記状態遷移確率に基づいて検出する状態検出部として機能させるプログラム。
(項目12) 項目11記載のプログラムを記録した記録媒体。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、染色体解析システム10の概略を示す。 図2は、染色体20の構造を模式的に示す。 図3は、解析装置40が解析に用いる染色体20のパラメータを示す。 図4は、解析装置40の機能ブロック図を示す。 図5は、解析装置40が染色体の状態を解析する動作フローを示す。 図6は、状態検出部450が表示する画面の例を示す。 図7は、解析装置40のハードウェア構成の一例を示す。 図8は、癌細胞及び正常細胞の比較を示す。
符号の説明
10 染色体解析システム
20 染色体
30 測定装置
40 解析装置
300 塩基
400 確率分布格納部
410 予測値入力部
420 単位距離遷移確率供給部
430 状態遷移確率供給部
435 遺伝子データベース
440 発現量入力部
450 状態検出部

Claims (11)

  1. 遺伝子の発現量に基づいて染色体の状態を解析する解析装置であって、
    前記染色体上に配列された複数の遺伝子の各々は、互いに発現量が異なる複数の遺伝子状態の何れかをとり、
    遺伝子の発現量の確率分布を遺伝子状態毎に格納する確率分布格納部と、
    前記染色体上の各々の遺伝子について、当該遺伝子が前記複数の遺伝子状態の各々である場合に、前記染色体上で当該遺伝子の隣に配列される隣接遺伝子が前記複数の遺伝子状態の各々となる確率を示す状態遷移確率を供給する状態遷移確率供給部と、
    前記染色体上の各々の遺伝子についての発現量の測定値である発現量測定値を入力する発現量入力部と、
    前記染色体上の複数の遺伝子のそれぞれについての遺伝子状態の集合を隠れ状態の集合とし、前記複数の遺伝子について入力された複数の前記発現量測定値の集合を出力系列とし、前記確率分布格納部に格納された前記確率分布を各遺伝子状態における出力確率とし、前記状態遷移確率供給部から供給された前記状態遷移確率により隣接する隠れ状態の間で遺伝子状態が遷移するものとした隠れマルコフモデルから、前記出力系列を出力する確率を最大とする前記隠れ状態の状態遷移系列を算出することにより、前記複数の遺伝子の発現量が対応する複数の前記発現量測定値となる確率を最大とする前記複数の遺伝子のそれぞれの遺伝子状態を検出する状態検出部と
    を備える解析装置。
  2. 前記染色体上で隣り合って配列される遺伝子間の距離を記憶した遺伝子データベースを更に備え、
    前記状態遷移確率供給部は、前記染色体上の各々の遺伝子について、当該遺伝子及び当該遺伝子の隣接遺伝子の間の距離を前記遺伝子データベースから取得し、当該距離がより短い場合に当該距離がより長い場合と比較して当該遺伝子及び当該隣接遺伝子の遺伝子状態が同一となる確率をより高くする前記状態遷移確率を生成する
    請求項1記載の解析装置。
  3. 前記染色体上で予め定められた単位距離離れて2つの遺伝子が隣接して配列される場合における、一方の遺伝子及び他方の遺伝子との間の状態遷移確率である単位距離遷移確率を供給する単位距離遷移確率供給部を更に備え、
    前記状態遷移確率供給部は、前記単位距離遷移確率を、前記染色体上で隣り合う2つの遺伝子間の距離に応じた回数乗じることにより、当該2つの遺伝子間の前記状態遷移確率を生成する
    請求項2記載の解析装置。
  4. 各遺伝子の前記遺伝子状態は、当該遺伝子が染色体の欠損領域にある旨を示す欠損状態、当該遺伝子が染色体の増幅領域にある旨を示す増幅状態、及び当該遺伝子が染色体の正常領域にある旨を示す正常状態の何れかであり、
    前記確率分布格納部は、遺伝子が前記欠損状態、前記増幅状態、及び前記正常状態の各々である場合における、当該遺伝子の発現量の確率分布を格納し、
    前記状態遷移確率供給部は、前記染色体上に配列された各遺伝子について、当該遺伝子が前記欠損状態、前記増幅状態、及び前記正常状態の各々である場合に、当該遺伝子の隣接遺伝子が前記欠損状態、前記増幅状態、及び前記正常状態の各々となる確率を、前記状態遷移確率として供給し、
    前記状態検出部は前記欠損状態、前記増幅状態、及び前記正常状態の何れかをそれぞれの前記隠れ状態とする前記隠れマルコフモデルから、それぞれの前記隠れ状態について算出した前記欠損状態、前記増幅状態、及び前記正常状態のいずれかの遺伝子状態を連結した前記状態遷移系列を生成する
    請求項3記載の解析装置。
  5. 前記染色体において連続する前記欠損領域の長さである欠損距離の予測値と、前記染色体において連続する前記増幅領域の長さである増幅距離の予測値とを入力する予測値入力部を更に備え、
    前記単位距離遷移確率供給部は、前記染色体上を一端から順次観測する場合において、前記欠損領域である位置から前記単位距離離れた位置が前記正常領域となる確率を、前記予測値入力部により入力された前記欠損距離の逆数に前記単位距離を乗じることにより生成し、前記増幅領域である位置から前記単位距離離れた位置が前記正常領域となる確率を、前記予測値入力部により入力された前記増幅距離の逆数に前記単位距離を乗じることにより生成する
    請求項4記載の解析装置。
  6. 前記予測値入力部は、更に、前記欠損領域、前記増幅領域、及び前記正常領域の比率である領域比率の予測値を入力し、
    前記単位距離遷移確率供給部は、前記単位距離遷移確率のうち、前記染色体上で前記単位距離離れた位置の一方が前記欠損領域であり、かつ他方が前記増幅領域となる確率として0を生成し、前記予測値入力部により入力された前記領域比率に更に基づいて、他の単位距離遷移確率を生成する
    請求項5記載の解析装置。
  7. 前記単位距離遷移確率供給部は、前記染色体の所定の位置が前記欠損領域、前記増幅領域、及び前記正常領域となる確率を示すベクトルに基づいて、当該所定の位置から前記単位距離離れた位置が前記欠損領域、前記増幅領域、及び前記正常領域となる確率を示すベクトルを算出する行列Qを、前記単位距離遷移確率として供給し、
    前記状態遷移確率供給部は、前記染色体上の距離が前記単位距離のL倍である隣り合う2つの遺伝子間の前記状態遷移確率であるQ(L)として、前記行列Qの各固有ベクトルを行方向に並べた行列Wの逆行列と、前記行列Qの各固有値を対角成分に配列した行列ΛのL乗と、前記行列Wとの積を生成する
    請求項4記載の解析装置。
    但し、行列Qは、式(1)で表される。式(1)で、前記染色体を一端から順次観測する場合において、前記欠損領域である位置から前記単位距離離れた位置が前記正常領域となる確率をαとし、前記正常領域である位置から前記単位距離離れた位置が前記欠損領域となる確率をβとし、前記正常領域である位置から前記単位距離離れた位置が前記増幅領域となる確率をβとし、前記増幅領域である位置から前記単位距離離れた位置が前記正常領域となる確率をγとする。
    Figure 0003800545
    また、行列W及び行列ΛのL乗は、式(2)で表される。但し、行列Qの固有ベクトルを、w、w、及びwとし、当該固有ベクトルに対応する固有値をそれぞれ1、λ、及びλとする。
    Figure 0003800545
    また、行列Q(L)は、以下の式(3)で表される。
    Figure 0003800545
  8. 前記状態検出部は、検出した遺伝子状態の組に基づいて、更に、前記増幅状態の遺伝子が連続する部分又は前記欠損状態の遺伝子が連続する部分の中で、隣接する遺伝子間の距離が予め定められた長さ以下である部分を、前記染色体上の異常領域として検出して表示する
    請求項4記載の解析装置。
  9. 遺伝子の発現量に基づいて染色体の状態を解析する解析方法であって、
    前記染色体上に配列された複数の遺伝子の各々は、互いに発現量が異なる複数の遺伝子状態の何れかをとり、
    遺伝子の発現量の確率分布が遺伝子状態毎に定まっており、
    前記染色体上の各々の遺伝子について、当該遺伝子が前記複数の遺伝子状態の各々である場合に、前記染色体上で当該遺伝子の隣に配列される隣接遺伝子が前記複数の遺伝子状態の各々となる確率を示す状態遷移確率を供給する状態遷移確率供給段階と、
    前記染色体上の各々の遺伝子についての発現量の測定値である発現量測定値を入力する発現量入力段階と、
    前記染色体上の複数の遺伝子のそれぞれについての遺伝子状態の集合を隠れ状態の集合とし、前記複数の遺伝子について入力された複数の前記発現量測定値の集合を出力系列とし、遺伝子状態毎に定められた前記確率分布を出力確率とし、前記状態遷移確率供給段階から供給された前記状態遷移確率により隣接する隠れ状態の間で遺伝子状態が遷移するものとした隠れマルコフモデルから、前記出力系列を出力する確率を最大とする前記隠れ状態の状態遷移系列を算出することにより、前記複数の遺伝子の発現量が対応する複数の前記発現量測定値となる確率を最大とする前記複数の遺伝子のそれぞれの遺伝子状態を検出する状態検出段階と
    を備える解析方法。
  10. 遺伝子の発現量に基づいて染色体の状態を解析する解析装置としてコンピュータを機能させるプログラムであって、
    前記染色体上に配列された複数の遺伝子の各々は、互いに発現量が異なる複数の遺伝子状態の何れかをとり、
    前記コンピュータを、
    遺伝子の発現量の確率分布を遺伝子状態毎に格納する確率分布格納部と、
    前記染色体上の各々の遺伝子について、当該遺伝子が前記複数の遺伝子状態の各々である場合に、前記染色体上で当該遺伝子の隣に配列される隣接遺伝子が前記複数の遺伝子状態の各々となる確率を示す状態遷移確率を供給する状態遷移確率供給部と、
    前記染色体上の各々の遺伝子についての発現量の測定値である発現量測定値を入力する発現量入力部と、
    前記染色体上の複数の遺伝子のそれぞれについての遺伝子状態の集合を隠れ状態の集合とし、前記複数の遺伝子について入力された複数の前記発現量測定値の集合を出力系列とし、前記確率分布格納部に格納された前記確率分布を各遺伝子状態における出力確率とし、前記状態遷移確率供給部から供給された前記状態遷移確率により隣接する隠れ状態の間で遺伝子状態が遷移するものとした隠れマルコフモデルから、前記出力系列を出力する確率を最大とする前記隠れ状態の状態遷移系列を算出することにより、前記複数の遺伝子の発現量が対応する複数の前記発現量測定値となる確率を最大とする前記複数の遺伝子のそれぞれの遺伝子状態を検出する状態検出部と
    して機能させるプログラム。
  11. 請求項10記載のプログラムを記録した記録媒体。
JP2003391457A 2003-11-20 2003-11-20 解析装置、解析方法、プログラム、及び記録媒体 Expired - Fee Related JP3800545B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003391457A JP3800545B2 (ja) 2003-11-20 2003-11-20 解析装置、解析方法、プログラム、及び記録媒体
US10/983,405 US8594940B2 (en) 2003-11-20 2004-11-08 System and method for analyzing chromosomal states based on gene expression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003391457A JP3800545B2 (ja) 2003-11-20 2003-11-20 解析装置、解析方法、プログラム、及び記録媒体

Publications (2)

Publication Number Publication Date
JP2005157500A JP2005157500A (ja) 2005-06-16
JP3800545B2 true JP3800545B2 (ja) 2006-07-26

Family

ID=34587484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003391457A Expired - Fee Related JP3800545B2 (ja) 2003-11-20 2003-11-20 解析装置、解析方法、プログラム、及び記録媒体

Country Status (2)

Country Link
US (1) US8594940B2 (ja)
JP (1) JP3800545B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009517400A (ja) 2005-11-23 2009-04-30 コルゲート・パーモリブ・カンパニー 第一スズ塩及びトリポリリン酸ナトリウムの口腔用ケア組成物と方法

Also Published As

Publication number Publication date
US20050112670A1 (en) 2005-05-26
US8594940B2 (en) 2013-11-26
JP2005157500A (ja) 2005-06-16

Similar Documents

Publication Publication Date Title
US11501204B2 (en) Predicting a consumer selection preference based on estimated preference and environmental dependence
JP6253644B2 (ja) 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
JP6208227B2 (ja) バイオマーカシグネチャを生成するためのシステムおよび方法
Cao et al. ROC curves for the statistical analysis of microarray data
JPWO2012091093A1 (ja) 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法
US11232851B2 (en) System and method for modeling and subtracting background signals from a melt curve
Sesia et al. Controlling the false discovery rate in GWAS with population structure
US11487970B2 (en) Distance-based learning confidence model
JP3800545B2 (ja) 解析装置、解析方法、プログラム、及び記録媒体
CN101517579A (zh) 蛋白质查找方法和设备
US20180073070A1 (en) System and method for copy number variation analysis
Mahmud et al. Fast MCMC sampling for Hidden Markov Models to determine copy number variations
Sim et al. Evaluating mixture models for building RNA knowledge-based potentials
Hainy et al. Likelihood-free simulation-based optimal design
Farcomeni et al. A Bayesian autoregressive three-state hidden Markov model for identifying switching monotonic regimes in Microarray time course data
JP5247089B2 (ja) 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法
Seng et al. Instrumental variable model average with applications in Mendelian randomization
JP2004126857A (ja) 欠落データ推定装置、欠落データ推定方法、欠落データ推定プログラム及び同プログラムを記録した記録媒体
JP2018151913A (ja) 情報処理システム、情報処理方法、及びプログラム
WO2023181497A1 (ja) 評価装置、評価方法、およびプログラム
US10083275B2 (en) Stable genes in comparative transcriptomics
JP2004227279A (ja) マハラノビス距離を利用した異常原因診断方法及びプログラム
CN113862371A (zh) 一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法
CN117993956A (zh) 一种基于目标客户及市场数据处理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060404

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20060410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120512

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120512

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130512

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140512

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees