JP2004258991A - Edr方向推定方法、システム、プログラム、及び記録媒体 - Google Patents

Edr方向推定方法、システム、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2004258991A
JP2004258991A JP2003049223A JP2003049223A JP2004258991A JP 2004258991 A JP2004258991 A JP 2004258991A JP 2003049223 A JP2003049223 A JP 2003049223A JP 2003049223 A JP2003049223 A JP 2003049223A JP 2004258991 A JP2004258991 A JP 2004258991A
Authority
JP
Japan
Prior art keywords
edr
data
variable
variables
outputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003049223A
Other languages
English (en)
Inventor
Masaki Ando
正貴 安東
Akira Saito
彰 斎藤
Shigeru Otaki
慈 大瀧
Kenichi Sato
健一 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003049223A priority Critical patent/JP2004258991A/ja
Priority to US10/697,762 priority patent/US6931363B2/en
Publication of JP2004258991A publication Critical patent/JP2004258991A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】大量変数からなる単一指標モデルにおいて、分散共分散行列の逆行列および主成分分析を用いることなく、単純な計算でEDR方向を推定する。
【解決手段】データ変換手段21は入力装置1から、目的変数と説明変数の組からなる解析対象データを受け取り、説明変数を基準化してスライス平均計算手段22に送る。スライス平均計算手段22はデータを目的変数の中央値を基準として2つのスライスに分割して、スライスごとに説明変数の平均ベクトルを計算する。計算された平均ベクトルはEDR方向計算手段23に送られる。EDR方向計算手段23はスライスごとの平均ベクトルの差を計算し、EDR方向を推定する。また、説明変数の相関行列の逆行列を用いて、推定されたEDR方向を補正する。推定されたEDR方向および補正されたEDR方向はデータ変換手段21に送られ、データ変換手段21において元の座標系に変換する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は単一指標モデルにおけるEDR方向の推定方法およびシステムに関し、特に大量変数に関する単一指標モデルにおけるEDR方向の推定方法、システム、プログラム、及び記録媒体に関する。
【0002】
【従来の技術】
一般に、実際の現象を統計的に解析する目的の1つは、種々の特性間の関係を見出し、予測を行うことである。このような場合、回帰分析を用いてデータから何らかの関係を見出し、ある変数に対して予測することがよく行われる。例えば、線形回帰分析やロジステック回帰分析などを用いて、目的変数yと説明変数xの関係を解析する。
しかし、説明変数xの次元pが大きくなればなるほど、この種の回帰分析をすることが困難になる。この問題を解決するために、説明変数の次元数を減少させる方法がいくつか考案されている。
例えば、以下の非特許文献1を参照すると、Ker−Chau LiはSIR(Sliced Inverse Regression)を考案した。
【0003】
SIRは説明変数の次元数を減少するために、目的変数yを説明するのに十分なxの部分空間を求める方法である。ここで、求めた部分空間をEDR空間と呼び、EDR (Effective Dimension Reduction)空間を張るベクトルのことをEDR方向ベクトルと呼ぶ。この次元数が減少したEDR空間において通常の回帰分析を行うことにより、目的変数yと説明変数xの関係を調べることができる。
【0004】
又、以下の非特許文献2を参照すると、HallとIchimuraは平滑化法を用いてEDR方向を推定した。
【0005】
又、以下の非特許文献3を参照すると、Xia等は非線形平滑化法を用いたEDR空間を推定する手法を提案した。しかし、説明変数の数が膨大になると計算が非常に困難となる。
【0006】
次に、SIRについて説明する。SIRにおいては、以下の数1〜数6に示されるようなようなモデルを仮定している。
【0007】
【数1】
Figure 2004258991
ここで、変数yは目的変数とし、fは未知関数とし、εはxと独立な確率変数とし、xはp次元の説明変数とする。また、β,...,βはp次元の未知係数ベクトルとし、EDR方向ベクトルとする。
【0008】
図8、図9を用いて、SIRを説明する。初めに、入力装置1により入力されたデータファイルの説明変数をデータ解析装置2のデータ基準化手段24により基準化する(図9のステップA1)。
【0009】
【数2】
Figure 2004258991
ただし、外1はそれぞれ、xの分散共分散行列、平均である。
【0010】
【外1】
Figure 2004258991
次に、スライス平均計算手段22により、目的変数yをソートし、H個のスライスI,...,Iに分割する(ステップA2)。スライスIに属する目的変数の割合を外1−1として計算する(以下の数3参照)。
【0011】
【外1−1】
Figure 2004258991
【数3】
Figure 2004258991
ここで、δ(y)は外2とする。
【0012】
【外2】
Figure 2004258991
次に、以下の数4に示される数式を用いて、スライスごとに、基準化された説明変数の平均ベクトルを計算する(ステップA3)。
【0013】
【数4】
Figure 2004258991
次に、主成分分析手段25により、スライスごとの平均ベクトルmに対して主成分分析を行い、固有ベクトルを求める(ステップA4)。
【0014】
ここで、以下の数5に示される数式を用いて固有値・固有ベクトルを求める。
【0015】
【数5】
Figure 2004258991
データ基準化手段24により、個有値が大きい方からK個の固有ベクトルη(k=1,...,K)を抽出し、以下の数6に示された数式を用いて、元の座標系に変換する(ステップA5)。
【0016】
【数6】
Figure 2004258991
出力装置3において、ステップA5で求めたEDR方向ベクトルを出力する(ステップA6)。
【0017】
【非特許文献1】
Ker−Chau Li,1991年、ジャーナル・オブ・ジ・アメリカン・スタティスティカル・アソシエーション、第86巻、第414号(Journal of the American Statistical Association, vol86, 316−342, 1991)
【0018】
【非特許文献2】
Ichimura他,1993年、ジ・アナルズ・オブ・スタティスティクス、第21巻(The Annals of Statistics, 21, 157−178)
【0019】
【非特許文献3】
Xia et.al,2002年、ジャーナル・オブ・ジ・ロイアル・スタティスティカル・ソサイエティ・シリーズ・ビー、第64巻(Journal of the Royal Statistical Society : Series B)
【0020】
【発明が解決しようとする課題】
上記した従来技術における第1の問題点は、SIRが遺伝子発現解析用DNAチップやマイクロアレイなどの大量の変数を持つデータに適用できないことである。SIRにおいてはデータを基準化するために、説明変数の分散共分散行列の逆行列を必要としたり、EDR方向ベクトルを推定するために主成分分析を行って、固有ベクトルを求めたりする必要がある。しかし、大量変数においては、分散共分散行列の逆行列が数値計算上求められなかったり、主成分分析における計算時間が膨大となったりする。
第2の問題点は、SIRは説明変数の分布を楕円分布に限定していることである。そのため、説明変数が2値の場合には適用することができなかった。
【0021】
本発明の目的は、次の式で表される単一指標モデル(Single Index Model)に関して、スライス数が2つのときに分散共分散行列の逆行列および主成分分析を用いずに、単純な計算でEDR方向を推定する方法およびシステムを提供することである。単一指標モデルとは、1つの未知係数ベクトルからなるモデルであり、従来の重回帰分析やロジスティック回帰分析などを包含するようなモデルである。
【0022】
ここで、単一指標モデルは以下の数7に示されるような数式で表すことができる。
【0023】
【数7】
Figure 2004258991
ここで、変数yは目的変数とし、fは未知の大局的な単調関数とし、εはxと独立な確率変数とし、xはp次元の説明変数とする。また、βはp次元の未知係数ベクトルとし、真のEDR方向ベクトルとする。
本発明の他の目的は、説明変数xに特定の分布を仮定しないことである。これにより、本発明のEDR方向の推定システムが、説明変数が2値の場合にも適用できるようにすることにある。
本発明の更に他の目的は、大量変数のデータである、遺伝子発現解析用DNAチップやマイクロアレイなどのデータから、重要な遺伝子を探索する手法およびシステムを提供することである。
【0024】
【課題を解決するための手段】
本発明に係るEDR方向推定システムは、
解析対象となるデータファイルを入力する入力装置と、プログラム制御により動作するデータ解析装置と、出力装置とを含み、
前記データ解析装置は、
前記入力装置から、目的変数と説明変数の組からなる解析対象データを受け取り、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するデータ変換手段と、
前記基準化された説明変数と前記目的変数の組からなるデータを入力し、該データを前記目的変数の所定の閾値を基準として2つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するスライス平均計算手段と、
該各平均ベクトルを入力し、当該2つの平均ベクトルの差を計算してEDR方向を求め、該EDR方向データを前記データ変換手段へ出力するEDR方向計算手段とを有し、
前記データ変換手段は、当該EDR方向データを単位ベクトルに変換し、その単位ベクトルをEDR方向推定値として前記出力装置に出力する
ことを特徴とする。
【0025】
又、本発明に係るEDR方向推定方法は、
解析対象となるデータファイルを入力するステップと、
目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として2つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
該各平均ベクトルを受け、当該2つの平均ベクトルの差を計算してEDR方向を求め、該EDR方向データを前記データ変換手段へ出力するステップと、
当該EDR方向データを単位ベクトルに変換し、その単位ベクトルをEDR方向推定値として出力するステップ
を有することを特徴とする
【0026】
【発明の実施の形態】
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の第1の実施の形態は、解析対象となるデータファイルを入力する入力装置1と、プログラム制御により動作するデータ解析装置2と、ディスプレイ装置や印刷装置等の出力装置3とを含む。解析対象となるデータファイルはN個のデータの組からなり、それぞれの組は、1つの目的変数とp次元の説明変数からなる。データ解析装置2は、データ変換手段21と、スライス平均計算手段22と、EDR方向計算手段23とを備えている。
【0027】
データ変換手段21は、与えられたデータファイルのN個のp次元説明変数を基準化して、基準化された説明変数と目的変数の組からなるデータをスライス平均計算手段22に送る。また、EDR方向計算手段23から与えられたEDR方向と、補正したEDR方向とを元の座標系に変換し、さらに単位ベクトルに変換して出力装置3へ送る。
【0028】
スライス平均計算手段22は、目的変数の中央値を基準にして、N個のデータの組を2つのスライスに分割する。さらに、それぞれのスライスにおいて、基準化されたp次元の説明変数の平均ベクトルを計算して、EDR方向計算手段23へ送る。
【0029】
EDR方向計算手段23は、スライス平均計算手段22から与えられた2つの平均ベクトルの差を求める。これがEDR方向である。また、p次元説明変数の相関行列を求め、相関行列の逆行列が計算できれば、相関行列の逆行列でEDR方向を補正し、EDR方向と補正したEDR方向をデータ変換手段21へ送る。一方、相関行列の逆行列が計算できなければ、EDR方向のみをデータ変換手段21へ送る。
【0030】
次に、図1及び図2を参照して本実施の形態の動作について詳細に説明する。解析対象となるデータファイルにおけるデータは以下の数8に示されたものとする。
【0031】
【数8】
Figure 2004258991
ここで、yを目的変数とし、xをp次元の説明変数とする。解析対象データはデータ変換手段21へ送られる。データ変換手段21は、説明変数のサンプル平均外3及び分散外4により、以下の数9に示されるように説明変数x (j)を基準化する。
【0032】
【外3】
Figure 2004258991
【外4】
Figure 2004258991
【数9】
Figure 2004258991
ここで、x=(x (1),...,x (p))′とし、サンプル平均外5及び分散外6は、それぞれ以下の数10及び数11とする(図2のステップA1)。
【0033】
【外5】
Figure 2004258991
【外6】
Figure 2004258991
【数10】
Figure 2004258991
【数11】
Figure 2004258991
スライス平均計算手段22は、解析対象データにおける目的変数yを以下の数12に示される数式に従って、2つのスライスIとIに分割する。
【0034】
【数12】
Figure 2004258991
ここで、閾値tはyの中央値とし、I={1,...,N}とする(ステップA2)。 次に、それぞれのスライスI,Iに対して、基準化された説明変数zの平均ベクトル外7,外8を以下の数13に示された数式に従って計算する。
【0035】
【外7】
Figure 2004258991
【外8】
Figure 2004258991
【数13】
Figure 2004258991
ここで、NはIに属するデータの個数であり、N=N−N、Z=(Z (1),...,Z (1))′とする(ステップA3)。
【0036】
EDR方向計算手段23は、以下の数14に示された数式に従ってステップA3で求めた平均ベクトルの差を計算する(ステップA4)。
【0037】
【数14】
Figure 2004258991
次に、ステップA5で説明変数の相関行列外9を計算する。
【0038】
【外9】
Figure 2004258991
ステップA6で、相関行列外10の逆行列外11を求めることができれば、逆行列を用いて、以下の数15に示された数式に従って外12を補正する(ステップA7)。
【0039】
【外10】
Figure 2004258991
【外11】
Figure 2004258991
【外12】
Figure 2004258991
【数15】
Figure 2004258991
一方、逆行列外13が求められなければ、ステップA8へ進む。データ変換手段21は、求められた外14,外15を元の座標系に変換し、以下の数16に示された数式に従って単位ベクトルに規格化する(ステップA8)。
【0040】
【外13】
Figure 2004258991
【外14】
Figure 2004258991
【外15】
Figure 2004258991
【数16】
Figure 2004258991
ここで、外16、外17とする。
【0041】
【外16】
Figure 2004258991
【外17】
Figure 2004258991
求められたベクトルをEDR方向の推定値として出力装置3で出力する。
【0042】
出力装置3は、説明変数xのEDR方向外18,外19への写像(スコア)外20、外21に対する目的変数yのプロットをグラフで表示したり、印刷したりする。
【0043】
【外18】
Figure 2004258991
【外19】
Figure 2004258991
【外20】
Figure 2004258991
【外21】
Figure 2004258991
次に、本実施の形態の効果について説明する。本実施の形態では、主成分分析をせずにEDR方向を推定することができるので、複雑な行列計算の必要がなく、計算時間を大幅に短縮できる。また、ベクトルの平均と差を計算するだけでよいので、SIRでは不可能であった大量変数のデータに対してもEDR方向を推定することができる。
【0044】
次に、本発明の第2の実施の形態について説明する。本発明の第2の実施の形態は、スライスを分割する閾値tを平均値とする点である。第2の実施の形態の構成は第1の実施の形態の構成と同じであるが、第1の実施の形態の動作においては、スライスを分割する(図2のステップA2)ときに、閾値tを中央値としたが、第2の実施の形態の動作においては、閾値tを平均値とする点が第1の実施の形態と異なっている。
【0045】
次に、本実施の形態の効果について説明する。目的変数yの分布が大きい値と小さい値に偏っているときに、第1の実施の形態では中央値でスライスを分割することにより、両方の分布を分割できないことが考えられるが、本実施の形態では平均値でスライスを分割することにより、2つの偏った分布を分割することができる。
【0046】
次に、本発明の第3の実施の形態について説明する。本発明の第3の実施の形態は、目的変数が0,1の2値の場合に、スライスを分割する閾値tを0.5とする点である。第3の実施の形態の構成は第1の実施の形態の構成と同じであるが、第1の実施の形態の動作においては、スライスを分割する(図2のステップA2)ときに、閾値tを中央値としたが、第3の実施の形態の動作においては、閾値tを0.5とする点が第1の実施の形態と異なっている。
【0047】
次に、本実施の形態の効果について説明する。目的変数yが0,1の2値のときに、第1の実施の形態では中央値でスライスを分割するために、0または1でスライスを分割してしまうが、本実施の形態では0.5でスライスを分割することにより、目的変数を0と1のスライスに分割することができる。
次に、本発明の第4の実施の形態について説明する。本発明の第4の実施の形態は、欠測値に対する扱いである。第4の実施の形態の構成は第1の実施の形態の構成と同じであるが、第1の実施の形態の動作において、データを基準化したり(図2のステップA1)、スライスに分割したり(ステップA2)、各スライス内で平均ベクトルを計算したりする(ステップA3)ときに、欠測値を取り除いて計算する点が第1の実施の形態と異なっている。
【0048】
次に、本実施の形態の効果について説明する。解析対象データから欠測値の部分のみを取り除くことにより、欠測値を含んだ個体データを解析対象から取り除くことなく有効に利用し解析できる。
次に、本発明の第5の実施の形態について図面を参照して詳細に説明する。図3を参照すると、本発明の第5の実施の形態は、本発明の第1及び第2及び第3及び第4の実施の形態と同様に、入力装置、データ解析装置、出力装置を備え、更に、データ解析プログラムを記録した記録媒体4を備える。この記録媒体4は可搬形あるいは固定型のいずれであってもよく、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体であってもよい。
【0049】
また、本手法を実行できるコンピュータプログラムを、ネットワークに接続されたコンピュータの記録装置に格納しておき、ネットワークを介して他のコンピュータに転送することもできる。本アルゴリズムを実行するコンピュータプログラムを提供する提供媒体としては、様々な形式のコンピュータに読み出し可能な媒体として頒布可能であって、特定のタイプの媒体に限定されるものではない。
データ解析プログラムは記録媒体4からデータ解析装置5に読み込まれ、データ解析装置5の動作を制御し、入力装置1から入力されたデータファイルに対して第1及び第2及び第3及び第4の実施の形態におけるデータ解析装置2による処理と同一の処理を実行する。
【0050】
【実施例】
次に、本発明の実施例を、シミュレーションの結果を参照して具体的に説明する。かかる実施例は本発明の第1の実施の形態に対応するものである。
本実施例において用いたシミュレーションモデルは以下の数17に示された数式で表される。
【0051】
【数17】
Figure 2004258991
ただし、ε〜N(0,0.05)とし、η,zは以下の数18に示された数式で表され、Ω(ρ)は以下の数19に示される数式に従って求められる。
【0052】
【数18】
Figure 2004258991
【数19】
Figure 2004258991
ここで、ηは真のEDR方向とし、N(0,1)は平均0分散1の正規分布を表すものとする。
【0053】
図4は、このモデルによって生成されたデータ(解析対象データ)を示す散布図である。図4において、N=50,ρ=0.8であり、η′z(横軸)に対する目的変数yをプロットしている。すなわち、横軸に真のEDR方向η′zが、縦軸に目的変数yがプロットされている。ここで、η′zを真のEDR方向へのスコアと呼ぶ。このデータに対して、本発明を適用する。
【0054】
図5は、目的変数を2つのスライスに分割して(図2のステップA2)、各スライス内で平均ベクトルを計算した(ステップA3)後のz(1)とz(2)の散布図である。○は平均ベクトル外22,外23を示し、HとLはそれぞれ対応する目的変数が中央値よりも高いか低いかを表している。図5においては、6次元の説明変数zのうちz(1)とz(2)だけを示している。
【0055】
【外22】
Figure 2004258991
【外23】
Figure 2004258991
図6は、平均ベクトルの差(ステップA4)によって推定したEDR方向外24へのスコア外25(横軸)に対する目的変数yの散布図である。尚、横軸に外26が、縦軸に目的変数yがプロットされている。
【0056】
【外24】
Figure 2004258991
【外25】
Figure 2004258991
【外26】
Figure 2004258991
図7は、相関行列で補正したEDR方向外27へのスコア外28に対する目的変数yの散布図である。図4と図6,図7を比較してわかるように、本発明を用いて真のEDR方向を推定することができる。尚、横軸に外29が、縦軸に目的変数yがプロットされている。
【0057】
【外27】
Figure 2004258991
【外28】
Figure 2004258991
【外29】
Figure 2004258991
以下の表1は、真のEDR方向へのスコアと推定されたEDR方向へのスコアの相関係数の平均値および標準偏差(N=50,100,500、ρ=0.0,0.8として、100,000回試行)、および推定されたEDR方向へのスコアと2値化された目的変数の相関係数の平均値および標準偏差(N=50,100,500、ρ=0.0,0.8として、100,000回試行)を示す表である。ここで、δを2値化された目的変数とし、以下の数20に示された数式で表す。
【0058】
【表1】
Figure 2004258991
【数20】
Figure 2004258991
ここで、閾値tは目的変数yの中央値である。N=50,100,500、ρ=0.0,0.8と変化させて、それぞれ100,000回解析したときの、相関係数の平均値、標準偏差を示している。上記表1より、真のEDR方向へのスコアと推定されたEDR方向へのスコアの相関係数は1に近く、分散が小さい値を示している。これにより、本発明を用いて真のEDR方向を推定できることがわかる。
【0059】
また、推定されたEDR方向へのスコアと2値化された目的変数の相関係数はサンプル数が大きくなってもあまり変化しないことを示している。これにより、データ数にあまり影響されずにEDR方向を推定することができることがわかる。
【0060】
【発明の効果】
本発明の第1の発明の効果は、単一指標モデルにおいて、データを基準化するときに分散共分散行列の逆行列を用いないことにある。この結果、大量変数についても、データを基準化することができる。その理由は、データの平均と分散のみを用いてデータを基準化するためである。
本発明の第2の発明の効果は、単一指標モデルにおいて、スライス数が2つのときのEDR方向を求めるのに、主成分分析をしないでEDR方向を求めることができることにある。この結果、大量変数からなる単一指標モデルにおいて、スライス数が2つのときのEDR方向を求めることが可能となり、計算速度も改善される。その理由は、平均ベクトルの差を計算するだけでEDR方向を求めることができるからである。
【0061】
以上の理由により、本手法は遺伝子発現解析用DNAチップやマイクロアレイなどの大量変数のデータに適用することができる。マイクロアレイのデータに適用するときは、目的変数yは副作用などの表現形とし、xはマイクロアレイにより得られる各遺伝子の発現量とする。このとき、得られたEDR方向の係数に関して、係数が大きい遺伝子Aと係数が小さい遺伝子Bでは、表現型に対して遺伝子Aの方が遺伝子Bよりも影響が大きい、つまり重要であることを示す。よって、係数の大きさにしたがって、表現型に対して重要な遺伝子を探索することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロック図である。
【図2】本発明の第1の実施の形態の動作を示す流れ図である。
【図3】本発明の第5の実施の形態の構成を示すブロック図である。
【図4】モデルにより生成されたデータを表す散布図である。
【図5】z(1)とz(2)の散布図である。
【図6】推定されたEDR方向に対する目的変数の散布図である。
【図7】相関行列で補正したEDR方向に対する目的変数の散布図である。
【図8】従来の技術の構成を示すブロック図である。
【図9】従来の技術の動作を示す流れ図である。
【符号の説明】
1 入力装置
2 データ解析装置
3 出力装置
4 記録媒体
5 データ解析装置
21 データ変換手段
22 スライス平均計算手段
23 EDR方向計算手段
24 データ基準化手段
25 主成分分析手段

Claims (10)

  1. 大量変数に関する単一指標モデルにおいて、EDR方向を推定するEDR方向推定方法において、
    解析対象となるデータファイルを入力するステップと、
    目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
    前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として2つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
    該各平均ベクトルを受け、当該2つの平均ベクトルの差を計算してEDR方向を求め、該EDR方向データを前記データ変換手段へ出力するステップと、
    当該EDR方向データを単位ベクトルに変換し、その単位ベクトルをEDR方向推定値として出力するステップ
    を有することを特徴とするEDR方向推定方法。
  2. 前記EDR方向を計算するステップにおいて、
    相関行列の逆行列が存在する場合に、相関行列の逆行列で前記EDR方向データを補正し、前記EDR方向データ及び前記補正したEDR方向データを前記データ変換手段へ送出し、
    前記相関行列の逆行列が存在しない場合、前記EDR方向データのみ前記データ変換手段へ送出することを特徴とする請求項1記載のEDR方向推定方法。
  3. 前記閾値を前記目的変数の中央値とすることを特徴とする請求項1又は2記載のEDR方向推定方法。
  4. 前記閾値を前記目的変数の平均値とすることを特徴とする請求項1又は2記載のEDR方向推定方法。
  5. 前記目的変数が2値である場合、前記閾値を0.5とすることを特徴とする請求項1又は2記載のEDR方向推定方法。
  6. 前記説明変数の基準化の際、前記基準化された説明変数をスライスに分割する際、前記平均ベクトルを計算する際に、欠測値を取り除いて計算することを特徴とする請求項1〜5のいずれかに記載のEDR方向推定方法。
  7. 解析対象となるデータファイルを入力する入力装置と、プログラム制御により動作するデータ解析装置と、出力装置とを含み、大量変数に関する単一指標モデルにおいて、EDR方向を推定するEDR方向推定システムにおいて、
    前記データ解析装置は、
    前記入力装置から、目的変数と説明変数の組からなる解析対象データを受け取り、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するデータ変換手段と、
    前記基準化された説明変数と前記目的変数の組からなるデータを入力し、該データを前記目的変数の所定の閾値を基準として2つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するスライス平均計算手段と、
    該各平均ベクトルを入力し、当該2つの平均ベクトルの差を計算してEDR方向を求め、該EDR方向データを前記データ変換手段へ出力するEDR方向計算手段とを有し、
    前記データ変換手段は、当該EDR方向データを単位ベクトルに変換し、その単位ベクトルをEDR方向推定値として前記出力装置に出力する
    ことを特徴とするEDR方向推定システム。
  8. 前記EDR方向計算手段は、相関行列の逆行列が存在する場合に、相関行列の逆行列で前記EDR方向を補正し、前記EDR方向データ及び前記補正したEDR方向データを前記データ変換手段へ送出し、前記相関行列の逆行列が存在しない場合、前記EDR方向データのみ前記データ変換手段へ送出することを特徴とする請求項7記載のEDR方向推定システム。
  9. 大量変数に関する単一指標モデルにおいて、EDR方向を推定するためコンピュータに、
    解析対象となるデータファイルを入力するステップと、
    目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、当該基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
    前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として2つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
    該各平均ベクトルを受け、当該2つの平均ベクトルの差を計算してEDR方向を求め、該EDR方向データを前記データ変換手段へ出力するステップと、
    当該EDR方向データを単位ベクトルに変換し、その単位ベクトルをEDR方向推定値として出力するステップ
    を実行させるためのEDR方向推定プログラム。
  10. 大量変数に関する単一指標モデルにおいて、EDR方向を推定するためコンピュータに、
    解析対象となるデータファイルを入力するステップと、
    目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、当該基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
    前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として2つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
    該各平均ベクトルを受け、当該2つの平均ベクトルの差を計算してEDR方向を求め、該EDR方向データを前記データ変換手段へ出力するステップと、
    当該EDR方向データを単位ベクトルに変換し、その単位ベクトルをEDR方向推定値として出力するステップ
    を実行させるためのEDR方向推定プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003049223A 2003-02-26 2003-02-26 Edr方向推定方法、システム、プログラム、及び記録媒体 Pending JP2004258991A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003049223A JP2004258991A (ja) 2003-02-26 2003-02-26 Edr方向推定方法、システム、プログラム、及び記録媒体
US10/697,762 US6931363B2 (en) 2003-02-26 2003-10-30 EDR direction estimating method, system, and program, and memory medium for storing the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003049223A JP2004258991A (ja) 2003-02-26 2003-02-26 Edr方向推定方法、システム、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2004258991A true JP2004258991A (ja) 2004-09-16

Family

ID=33114993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003049223A Pending JP2004258991A (ja) 2003-02-26 2003-02-26 Edr方向推定方法、システム、プログラム、及び記録媒体

Country Status (2)

Country Link
US (1) US6931363B2 (ja)
JP (1) JP2004258991A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012068737A (ja) * 2010-09-21 2012-04-05 Hitachi East Japan Solutions Ltd 在庫管理方法
US20210287134A1 (en) * 2020-03-13 2021-09-16 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101303417B1 (ko) * 2009-12-15 2013-09-05 닛본 덴끼 가부시끼가이샤 정보 처리 장치, 정보 처리 방법 및 기록 매체
JP5524692B2 (ja) * 2010-04-20 2014-06-18 富士フイルム株式会社 情報処理装置および方法ならびにプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012068737A (ja) * 2010-09-21 2012-04-05 Hitachi East Japan Solutions Ltd 在庫管理方法
US20210287134A1 (en) * 2020-03-13 2021-09-16 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program

Also Published As

Publication number Publication date
US6931363B2 (en) 2005-08-16
US20040225478A1 (en) 2004-11-11

Similar Documents

Publication Publication Date Title
Finak et al. Optimizing transformations for automated, high throughput analysis of flow cytometry data
JP5854274B2 (ja) 情報処理装置および方法、並びにプログラム
US20070021952A1 (en) General graphical Gaussian modeling method and apparatus therefore
CN112613617A (zh) 基于回归模型的不确定性估计方法和装置
Todorov Robust selection of variables in linear discriminant analysis
JP2004258991A (ja) Edr方向推定方法、システム、プログラム、及び記録媒体
WO2022091408A1 (ja) 求解方法選択装置および方法
JP2011141866A (ja) データ分類装置、データ分類システムおよびプログラム
JP6398991B2 (ja) モデル推定装置、方法およびプログラム
JP2004272350A (ja) クラスタリング装置、クラスタリング方法、クラスタリングプログラム
CN107222328B (zh) 预测饱和拐点的方法及装置
JP2020095583A (ja) 人工知能を利用した倒産確率算出システム
CN112804650B (zh) 一种信道状态信息数据降维方法及智能室内定位方法
CN106055883B (zh) 一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法
JP2004349846A (ja) 外れ値検出方法
WO2006090731A1 (ja) 顔画像分類方法、顔画像分類装置及び顔画像分類プログラム
JP7056804B2 (ja) 経験損失推定システム、経験損失推定方法および経験損失推定プログラム
Hainy et al. Likelihood-free simulation-based optimal design
JP4055886B2 (ja) 識別処理装置およびそのコンピュータプログラム
JP2018151913A (ja) 情報処理システム、情報処理方法、及びプログラム
JP2010198518A (ja) クラスタリング距離学習装置およびそのプログラム、ならびに、クラスタリング装置
WO2023276255A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Zhang et al. Towards fine-scale population stratification modeling based on kernel principal component analysis and random forest
JP3800545B2 (ja) 解析装置、解析方法、プログラム、及び記録媒体
JP4576194B2 (ja) 化合物構造推定装置、化合物構造推定方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071212