JP2004258991A

JP2004258991A - Ｅｄｒ方向推定方法、システム、プログラム、及び記録媒体

Info

Publication number: JP2004258991A
Application number: JP2003049223A
Authority: JP
Inventors: Masaki Ando; 正貴安東; Akira Saito; 彰斎藤; Shigeru Otaki; 慈大瀧; Kenichi Sato; 健一佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-02-26
Filing date: 2003-02-26
Publication date: 2004-09-16
Also published as: US6931363B2; US20040225478A1

Abstract

【課題】大量変数からなる単一指標モデルにおいて、分散共分散行列の逆行列および主成分分析を用いることなく、単純な計算でＥＤＲ方向を推定する。
【解決手段】データ変換手段２１は入力装置１から、目的変数と説明変数の組からなる解析対象データを受け取り、説明変数を基準化してスライス平均計算手段２２に送る。スライス平均計算手段２２はデータを目的変数の中央値を基準として２つのスライスに分割して、スライスごとに説明変数の平均ベクトルを計算する。計算された平均ベクトルはＥＤＲ方向計算手段２３に送られる。ＥＤＲ方向計算手段２３はスライスごとの平均ベクトルの差を計算し、ＥＤＲ方向を推定する。また、説明変数の相関行列の逆行列を用いて、推定されたＥＤＲ方向を補正する。推定されたＥＤＲ方向および補正されたＥＤＲ方向はデータ変換手段２１に送られ、データ変換手段２１において元の座標系に変換する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は単一指標モデルにおけるＥＤＲ方向の推定方法およびシステムに関し、特に大量変数に関する単一指標モデルにおけるＥＤＲ方向の推定方法、システム、プログラム、及び記録媒体に関する。
【０００２】
【従来の技術】
一般に、実際の現象を統計的に解析する目的の１つは、種々の特性間の関係を見出し、予測を行うことである。このような場合、回帰分析を用いてデータから何らかの関係を見出し、ある変数に対して予測することがよく行われる。例えば、線形回帰分析やロジステック回帰分析などを用いて、目的変数ｙと説明変数ｘの関係を解析する。
しかし、説明変数ｘの次元ｐが大きくなればなるほど、この種の回帰分析をすることが困難になる。この問題を解決するために、説明変数の次元数を減少させる方法がいくつか考案されている。
例えば、以下の非特許文献１を参照すると、Ｋｅｒ−ＣｈａｕＬｉはＳＩＲ（ＳｌｉｃｅｄＩｎｖｅｒｓｅＲｅｇｒｅｓｓｉｏｎ）を考案した。
【０００３】
ＳＩＲは説明変数の次元数を減少するために、目的変数ｙを説明するのに十分なｘの部分空間を求める方法である。ここで、求めた部分空間をＥＤＲ空間と呼び、ＥＤＲ（ＥｆｆｅｃｔｉｖｅＤｉｍｅｎｓｉｏｎＲｅｄｕｃｔｉｏｎ）空間を張るベクトルのことをＥＤＲ方向ベクトルと呼ぶ。この次元数が減少したＥＤＲ空間において通常の回帰分析を行うことにより、目的変数ｙと説明変数ｘの関係を調べることができる。
【０００４】
又、以下の非特許文献２を参照すると、ＨａｌｌとＩｃｈｉｍｕｒａは平滑化法を用いてＥＤＲ方向を推定した。
【０００５】
又、以下の非特許文献３を参照すると、Ｘｉａ等は非線形平滑化法を用いたＥＤＲ空間を推定する手法を提案した。しかし、説明変数の数が膨大になると計算が非常に困難となる。
【０００６】
次に、ＳＩＲについて説明する。ＳＩＲにおいては、以下の数１〜数６に示されるようなようなモデルを仮定している。
【０００７】
【数１】

ここで、変数ｙは目的変数とし、ｆは未知関数とし、εはｘと独立な確率変数とし、ｘはｐ次元の説明変数とする。また、β_１，．．．，β_ｋはｐ次元の未知係数ベクトルとし、ＥＤＲ方向ベクトルとする。
【０００８】
図８、図９を用いて、ＳＩＲを説明する。初めに、入力装置１により入力されたデータファイルの説明変数をデータ解析装置２のデータ基準化手段２４により基準化する（図９のステップＡ１）。
【０００９】
【数２】

ただし、外１はそれぞれ、ｘの分散共分散行列、平均である。
【００１０】
【外１】

次に、スライス平均計算手段２２により、目的変数ｙをソートし、Ｈ個のスライスＩ_１，．．．，Ｉ_Ｈに分割する（ステップＡ２）。スライスＩ_ｋに属する目的変数の割合を外１−１として計算する（以下の数３参照）。
【００１１】
【外１−１】

【数３】

ここで、δ_ｋ（ｙ_ｉ）は外２とする。
【００１２】
【外２】

次に、以下の数４に示される数式を用いて、スライスごとに、基準化された説明変数の平均ベクトルを計算する（ステップＡ３）。
【００１３】
【数４】

次に、主成分分析手段２５により、スライスごとの平均ベクトルｍに対して主成分分析を行い、固有ベクトルを求める（ステップＡ４）。
【００１４】
ここで、以下の数５に示される数式を用いて固有値・固有ベクトルを求める。
【００１５】
【数５】

データ基準化手段２４により、個有値が大きい方からＫ個の固有ベクトルη_ｋ（ｋ＝１，．．．，Ｋ）を抽出し、以下の数６に示された数式を用いて、元の座標系に変換する（ステップＡ５）。
【００１６】
【数６】

出力装置３において、ステップＡ５で求めたＥＤＲ方向ベクトルを出力する（ステップＡ６）。
【００１７】
【非特許文献１】
Ｋｅｒ−ＣｈａｕＬｉ，１９９１年、ジャーナル・オブ・ジ・アメリカン・スタティスティカル・アソシエーション、第８６巻、第４１４号（ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃａｌＡｓｓｏｃｉａｔｉｏｎ，ｖｏｌ８６，３１６−３４２，１９９１）
【００１８】
【非特許文献２】
Ｉｃｈｉｍｕｒａ他，１９９３年、ジ・アナルズ・オブ・スタティスティクス、第２１巻（ＴｈｅＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ，２１，１５７−１７８）
【００１９】
【非特許文献３】
Ｘｉａｅｔ．ａｌ，２００２年、ジャーナル・オブ・ジ・ロイアル・スタティスティカル・ソサイエティ・シリーズ・ビー、第６４巻（ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ：ＳｅｒｉｅｓＢ）
【００２０】
【発明が解決しようとする課題】
上記した従来技術における第１の問題点は、ＳＩＲが遺伝子発現解析用ＤＮＡチップやマイクロアレイなどの大量の変数を持つデータに適用できないことである。ＳＩＲにおいてはデータを基準化するために、説明変数の分散共分散行列の逆行列を必要としたり、ＥＤＲ方向ベクトルを推定するために主成分分析を行って、固有ベクトルを求めたりする必要がある。しかし、大量変数においては、分散共分散行列の逆行列が数値計算上求められなかったり、主成分分析における計算時間が膨大となったりする。
第２の問題点は、ＳＩＲは説明変数の分布を楕円分布に限定していることである。そのため、説明変数が２値の場合には適用することができなかった。
【００２１】
本発明の目的は、次の式で表される単一指標モデル（ＳｉｎｇｌｅＩｎｄｅｘＭｏｄｅｌ）に関して、スライス数が２つのときに分散共分散行列の逆行列および主成分分析を用いずに、単純な計算でＥＤＲ方向を推定する方法およびシステムを提供することである。単一指標モデルとは、１つの未知係数ベクトルからなるモデルであり、従来の重回帰分析やロジスティック回帰分析などを包含するようなモデルである。
【００２２】
ここで、単一指標モデルは以下の数７に示されるような数式で表すことができる。
【００２３】
【数７】

ここで、変数ｙは目的変数とし、ｆは未知の大局的な単調関数とし、εはｘと独立な確率変数とし、ｘはｐ次元の説明変数とする。また、β_０はｐ次元の未知係数ベクトルとし、真のＥＤＲ方向ベクトルとする。
本発明の他の目的は、説明変数ｘに特定の分布を仮定しないことである。これにより、本発明のＥＤＲ方向の推定システムが、説明変数が２値の場合にも適用できるようにすることにある。
本発明の更に他の目的は、大量変数のデータである、遺伝子発現解析用ＤＮＡチップやマイクロアレイなどのデータから、重要な遺伝子を探索する手法およびシステムを提供することである。
【００２４】
【課題を解決するための手段】
本発明に係るＥＤＲ方向推定システムは、
解析対象となるデータファイルを入力する入力装置と、プログラム制御により動作するデータ解析装置と、出力装置とを含み、
前記データ解析装置は、
前記入力装置から、目的変数と説明変数の組からなる解析対象データを受け取り、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するデータ変換手段と、
前記基準化された説明変数と前記目的変数の組からなるデータを入力し、該データを前記目的変数の所定の閾値を基準として２つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するスライス平均計算手段と、
該各平均ベクトルを入力し、当該２つの平均ベクトルの差を計算してＥＤＲ方向を求め、該ＥＤＲ方向データを前記データ変換手段へ出力するＥＤＲ方向計算手段とを有し、
前記データ変換手段は、当該ＥＤＲ方向データを単位ベクトルに変換し、その単位ベクトルをＥＤＲ方向推定値として前記出力装置に出力する
ことを特徴とする。
【００２５】
又、本発明に係るＥＤＲ方向推定方法は、
解析対象となるデータファイルを入力するステップと、
目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として２つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
該各平均ベクトルを受け、当該２つの平均ベクトルの差を計算してＥＤＲ方向を求め、該ＥＤＲ方向データを前記データ変換手段へ出力するステップと、
当該ＥＤＲ方向データを単位ベクトルに変換し、その単位ベクトルをＥＤＲ方向推定値として出力するステップ
を有することを特徴とする
【００２６】
【発明の実施の形態】
次に、本発明の第１の実施の形態について図面を参照して詳細に説明する。図１を参照すると、本発明の第１の実施の形態は、解析対象となるデータファイルを入力する入力装置１と、プログラム制御により動作するデータ解析装置２と、ディスプレイ装置や印刷装置等の出力装置３とを含む。解析対象となるデータファイルはＮ個のデータの組からなり、それぞれの組は、１つの目的変数とｐ次元の説明変数からなる。データ解析装置２は、データ変換手段２１と、スライス平均計算手段２２と、ＥＤＲ方向計算手段２３とを備えている。
【００２７】
データ変換手段２１は、与えられたデータファイルのＮ個のｐ次元説明変数を基準化して、基準化された説明変数と目的変数の組からなるデータをスライス平均計算手段２２に送る。また、ＥＤＲ方向計算手段２３から与えられたＥＤＲ方向と、補正したＥＤＲ方向とを元の座標系に変換し、さらに単位ベクトルに変換して出力装置３へ送る。
【００２８】
スライス平均計算手段２２は、目的変数の中央値を基準にして、Ｎ個のデータの組を２つのスライスに分割する。さらに、それぞれのスライスにおいて、基準化されたｐ次元の説明変数の平均ベクトルを計算して、ＥＤＲ方向計算手段２３へ送る。
【００２９】
ＥＤＲ方向計算手段２３は、スライス平均計算手段２２から与えられた２つの平均ベクトルの差を求める。これがＥＤＲ方向である。また、ｐ次元説明変数の相関行列を求め、相関行列の逆行列が計算できれば、相関行列の逆行列でＥＤＲ方向を補正し、ＥＤＲ方向と補正したＥＤＲ方向をデータ変換手段２１へ送る。一方、相関行列の逆行列が計算できなければ、ＥＤＲ方向のみをデータ変換手段２１へ送る。
【００３０】
次に、図１及び図２を参照して本実施の形態の動作について詳細に説明する。解析対象となるデータファイルにおけるデータは以下の数８に示されたものとする。
【００３１】
【数８】

ここで、ｙ_ｉを目的変数とし、ｘ_ｉをｐ次元の説明変数とする。解析対象データはデータ変換手段２１へ送られる。データ変換手段２１は、説明変数のサンプル平均外３及び分散外４により、以下の数９に示されるように説明変数ｘ_ｉ ^（ｊ）を基準化する。
【００３２】
【外３】

【外４】

【数９】

ここで、ｘ_ｉ＝（ｘ_ｉ ^（１），．．．，ｘ_ｉ ^（ｐ））′とし、サンプル平均外５及び分散外６は、それぞれ以下の数１０及び数１１とする（図２のステップＡ１）。
【００３３】
【外５】

【外６】

【数１０】

【数１１】

スライス平均計算手段２２は、解析対象データにおける目的変数ｙ_ｉを以下の数１２に示される数式に従って、２つのスライスＩ_ＨとＩ_Ｌに分割する。
【００３４】
【数１２】

ここで、閾値ｔはｙの中央値とし、Ｉ＝｛１，．．．，Ｎ｝とする（ステップＡ２）。次に、それぞれのスライスＩ_Ｈ，Ｉ_Ｌに対して、基準化された説明変数ｚ_ｉの平均ベクトル外７，外８を以下の数１３に示された数式に従って計算する。
【００３５】
【外７】

【外８】

【数１３】

ここで、Ｎ_ＨはＩ_Ｈに属するデータの個数であり、Ｎ_Ｌ＝Ｎ−Ｎ_Ｈ、Ｚ_ｉ＝（Ｚ_ｉ ^（１），．．．，Ｚ_ｉ ^（１））′とする（ステップＡ３）。
【００３６】
ＥＤＲ方向計算手段２３は、以下の数１４に示された数式に従ってステップＡ３で求めた平均ベクトルの差を計算する（ステップＡ４）。
【００３７】
【数１４】

次に、ステップＡ５で説明変数の相関行列外９を計算する。
【００３８】
【外９】

ステップＡ６で、相関行列外１０の逆行列外１１を求めることができれば、逆行列を用いて、以下の数１５に示された数式に従って外１２を補正する（ステップＡ７）。
【００３９】
【外１０】

【外１１】

【外１２】

【数１５】

一方、逆行列外１３が求められなければ、ステップＡ８へ進む。データ変換手段２１は、求められた外１４，外１５を元の座標系に変換し、以下の数１６に示された数式に従って単位ベクトルに規格化する（ステップＡ８）。
【００４０】
【外１３】

【外１４】

【外１５】

【数１６】

ここで、外１６、外１７とする。
【００４１】
【外１６】

【外１７】

求められたベクトルをＥＤＲ方向の推定値として出力装置３で出力する。
【００４２】
出力装置３は、説明変数ｘのＥＤＲ方向外１８，外１９への写像（スコア）外２０、外２１に対する目的変数ｙのプロットをグラフで表示したり、印刷したりする。
【００４３】
【外１８】

【外１９】

【外２０】

【外２１】

次に、本実施の形態の効果について説明する。本実施の形態では、主成分分析をせずにＥＤＲ方向を推定することができるので、複雑な行列計算の必要がなく、計算時間を大幅に短縮できる。また、ベクトルの平均と差を計算するだけでよいので、ＳＩＲでは不可能であった大量変数のデータに対してもＥＤＲ方向を推定することができる。
【００４４】
次に、本発明の第２の実施の形態について説明する。本発明の第２の実施の形態は、スライスを分割する閾値ｔを平均値とする点である。第２の実施の形態の構成は第１の実施の形態の構成と同じであるが、第１の実施の形態の動作においては、スライスを分割する（図２のステップＡ２）ときに、閾値ｔを中央値としたが、第２の実施の形態の動作においては、閾値ｔを平均値とする点が第１の実施の形態と異なっている。
【００４５】
次に、本実施の形態の効果について説明する。目的変数ｙの分布が大きい値と小さい値に偏っているときに、第１の実施の形態では中央値でスライスを分割することにより、両方の分布を分割できないことが考えられるが、本実施の形態では平均値でスライスを分割することにより、２つの偏った分布を分割することができる。
【００４６】
次に、本発明の第３の実施の形態について説明する。本発明の第３の実施の形態は、目的変数が０，１の２値の場合に、スライスを分割する閾値ｔを０．５とする点である。第３の実施の形態の構成は第１の実施の形態の構成と同じであるが、第１の実施の形態の動作においては、スライスを分割する（図２のステップＡ２）ときに、閾値ｔを中央値としたが、第３の実施の形態の動作においては、閾値ｔを０．５とする点が第１の実施の形態と異なっている。
【００４７】
次に、本実施の形態の効果について説明する。目的変数ｙが０，１の２値のときに、第１の実施の形態では中央値でスライスを分割するために、０または１でスライスを分割してしまうが、本実施の形態では０．５でスライスを分割することにより、目的変数を０と１のスライスに分割することができる。
次に、本発明の第４の実施の形態について説明する。本発明の第４の実施の形態は、欠測値に対する扱いである。第４の実施の形態の構成は第１の実施の形態の構成と同じであるが、第１の実施の形態の動作において、データを基準化したり（図２のステップＡ１）、スライスに分割したり（ステップＡ２）、各スライス内で平均ベクトルを計算したりする（ステップＡ３）ときに、欠測値を取り除いて計算する点が第１の実施の形態と異なっている。
【００４８】
次に、本実施の形態の効果について説明する。解析対象データから欠測値の部分のみを取り除くことにより、欠測値を含んだ個体データを解析対象から取り除くことなく有効に利用し解析できる。
次に、本発明の第５の実施の形態について図面を参照して詳細に説明する。図３を参照すると、本発明の第５の実施の形態は、本発明の第１及び第２及び第３及び第４の実施の形態と同様に、入力装置、データ解析装置、出力装置を備え、更に、データ解析プログラムを記録した記録媒体４を備える。この記録媒体４は可搬形あるいは固定型のいずれであってもよく、磁気ディスク、半導体メモリ、ＣＤ−ＲＯＭその他の記録媒体であってもよい。
【００４９】
また、本手法を実行できるコンピュータプログラムを、ネットワークに接続されたコンピュータの記録装置に格納しておき、ネットワークを介して他のコンピュータに転送することもできる。本アルゴリズムを実行するコンピュータプログラムを提供する提供媒体としては、様々な形式のコンピュータに読み出し可能な媒体として頒布可能であって、特定のタイプの媒体に限定されるものではない。
データ解析プログラムは記録媒体４からデータ解析装置５に読み込まれ、データ解析装置５の動作を制御し、入力装置１から入力されたデータファイルに対して第１及び第２及び第３及び第４の実施の形態におけるデータ解析装置２による処理と同一の処理を実行する。
【００５０】
【実施例】
次に、本発明の実施例を、シミュレーションの結果を参照して具体的に説明する。かかる実施例は本発明の第１の実施の形態に対応するものである。
本実施例において用いたシミュレーションモデルは以下の数１７に示された数式で表される。
【００５１】
【数１７】

ただし、ε〜Ｎ（０，０．０５^２）とし、η_０，ｚは以下の数１８に示された数式で表され、Ω（ρ）は以下の数１９に示される数式に従って求められる。
【００５２】
【数１８】

【数１９】

ここで、η_０は真のＥＤＲ方向とし、Ｎ（０，１）は平均０分散１の正規分布を表すものとする。
【００５３】
図４は、このモデルによって生成されたデータ（解析対象データ）を示す散布図である。図４において、Ｎ＝５０，ρ＝０．８であり、η_０′ｚ（横軸）に対する目的変数ｙをプロットしている。すなわち、横軸に真のＥＤＲ方向η_０′ｚが、縦軸に目的変数ｙがプロットされている。ここで、η_０′ｚを真のＥＤＲ方向へのスコアと呼ぶ。このデータに対して、本発明を適用する。
【００５４】
図５は、目的変数を２つのスライスに分割して（図２のステップＡ２）、各スライス内で平均ベクトルを計算した（ステップＡ３）後のｚ^（１）とｚ^（２）の散布図である。○は平均ベクトル外２２，外２３を示し、ＨとＬはそれぞれ対応する目的変数が中央値よりも高いか低いかを表している。図５においては、６次元の説明変数ｚのうちｚ^（１）とｚ^（２）だけを示している。
【００５５】
【外２２】

【外２３】

図６は、平均ベクトルの差（ステップＡ４）によって推定したＥＤＲ方向外２４へのスコア外２５（横軸）に対する目的変数ｙの散布図である。尚、横軸に外２６が、縦軸に目的変数ｙがプロットされている。
【００５６】
【外２４】

【外２５】

【外２６】

図７は、相関行列で補正したＥＤＲ方向外２７へのスコア外２８に対する目的変数ｙの散布図である。図４と図６，図７を比較してわかるように、本発明を用いて真のＥＤＲ方向を推定することができる。尚、横軸に外２９が、縦軸に目的変数ｙがプロットされている。
【００５７】
【外２７】

【外２８】

【外２９】

以下の表１は、真のＥＤＲ方向へのスコアと推定されたＥＤＲ方向へのスコアの相関係数の平均値および標準偏差（Ｎ＝５０，１００，５００、ρ＝０．０，０．８として、１００，０００回試行）、および推定されたＥＤＲ方向へのスコアと２値化された目的変数の相関係数の平均値および標準偏差（Ｎ＝５０，１００，５００、ρ＝０．０，０．８として、１００，０００回試行）を示す表である。ここで、δを２値化された目的変数とし、以下の数２０に示された数式で表す。
【００５８】
【表１】

【数２０】

ここで、閾値ｔは目的変数ｙの中央値である。Ｎ＝５０，１００，５００、ρ＝０．０，０．８と変化させて、それぞれ１００，０００回解析したときの、相関係数の平均値、標準偏差を示している。上記表１より、真のＥＤＲ方向へのスコアと推定されたＥＤＲ方向へのスコアの相関係数は１に近く、分散が小さい値を示している。これにより、本発明を用いて真のＥＤＲ方向を推定できることがわかる。
【００５９】
また、推定されたＥＤＲ方向へのスコアと２値化された目的変数の相関係数はサンプル数が大きくなってもあまり変化しないことを示している。これにより、データ数にあまり影響されずにＥＤＲ方向を推定することができることがわかる。
【００６０】
【発明の効果】
本発明の第１の発明の効果は、単一指標モデルにおいて、データを基準化するときに分散共分散行列の逆行列を用いないことにある。この結果、大量変数についても、データを基準化することができる。その理由は、データの平均と分散のみを用いてデータを基準化するためである。
本発明の第２の発明の効果は、単一指標モデルにおいて、スライス数が２つのときのＥＤＲ方向を求めるのに、主成分分析をしないでＥＤＲ方向を求めることができることにある。この結果、大量変数からなる単一指標モデルにおいて、スライス数が２つのときのＥＤＲ方向を求めることが可能となり、計算速度も改善される。その理由は、平均ベクトルの差を計算するだけでＥＤＲ方向を求めることができるからである。
【００６１】
以上の理由により、本手法は遺伝子発現解析用ＤＮＡチップやマイクロアレイなどの大量変数のデータに適用することができる。マイクロアレイのデータに適用するときは、目的変数ｙは副作用などの表現形とし、ｘはマイクロアレイにより得られる各遺伝子の発現量とする。このとき、得られたＥＤＲ方向の係数に関して、係数が大きい遺伝子Ａと係数が小さい遺伝子Ｂでは、表現型に対して遺伝子Ａの方が遺伝子Ｂよりも影響が大きい、つまり重要であることを示す。よって、係数の大きさにしたがって、表現型に対して重要な遺伝子を探索することが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の構成を示すブロック図である。
【図２】本発明の第１の実施の形態の動作を示す流れ図である。
【図３】本発明の第５の実施の形態の構成を示すブロック図である。
【図４】モデルにより生成されたデータを表す散布図である。
【図５】ｚ^（１）とｚ^（２）の散布図である。
【図６】推定されたＥＤＲ方向に対する目的変数の散布図である。
【図７】相関行列で補正したＥＤＲ方向に対する目的変数の散布図である。
【図８】従来の技術の構成を示すブロック図である。
【図９】従来の技術の動作を示す流れ図である。
【符号の説明】
１入力装置
２データ解析装置
３出力装置
４記録媒体
５データ解析装置
２１データ変換手段
２２スライス平均計算手段
２３ＥＤＲ方向計算手段
２４データ基準化手段
２５主成分分析手段

Claims

大量変数に関する単一指標モデルにおいて、ＥＤＲ方向を推定するＥＤＲ方向推定方法において、
解析対象となるデータファイルを入力するステップと、
目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として２つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
該各平均ベクトルを受け、当該２つの平均ベクトルの差を計算してＥＤＲ方向を求め、該ＥＤＲ方向データを前記データ変換手段へ出力するステップと、
当該ＥＤＲ方向データを単位ベクトルに変換し、その単位ベクトルをＥＤＲ方向推定値として出力するステップ
を有することを特徴とするＥＤＲ方向推定方法。
前記ＥＤＲ方向を計算するステップにおいて、
相関行列の逆行列が存在する場合に、相関行列の逆行列で前記ＥＤＲ方向データを補正し、前記ＥＤＲ方向データ及び前記補正したＥＤＲ方向データを前記データ変換手段へ送出し、
前記相関行列の逆行列が存在しない場合、前記ＥＤＲ方向データのみ前記データ変換手段へ送出することを特徴とする請求項１記載のＥＤＲ方向推定方法。
前記閾値を前記目的変数の中央値とすることを特徴とする請求項１又は２記載のＥＤＲ方向推定方法。
前記閾値を前記目的変数の平均値とすることを特徴とする請求項１又は２記載のＥＤＲ方向推定方法。
前記目的変数が２値である場合、前記閾値を０．５とすることを特徴とする請求項１又は２記載のＥＤＲ方向推定方法。
前記説明変数の基準化の際、前記基準化された説明変数をスライスに分割する際、前記平均ベクトルを計算する際に、欠測値を取り除いて計算することを特徴とする請求項１〜５のいずれかに記載のＥＤＲ方向推定方法。
解析対象となるデータファイルを入力する入力装置と、プログラム制御により動作するデータ解析装置と、出力装置とを含み、大量変数に関する単一指標モデルにおいて、ＥＤＲ方向を推定するＥＤＲ方向推定システムにおいて、
前記データ解析装置は、
前記入力装置から、目的変数と説明変数の組からなる解析対象データを受け取り、前記説明変数を基準化して、基準化された説明変数と前記目的変数の組からなるデータを出力するデータ変換手段と、
前記基準化された説明変数と前記目的変数の組からなるデータを入力し、該データを前記目的変数の所定の閾値を基準として２つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するスライス平均計算手段と、
該各平均ベクトルを入力し、当該２つの平均ベクトルの差を計算してＥＤＲ方向を求め、該ＥＤＲ方向データを前記データ変換手段へ出力するＥＤＲ方向計算手段とを有し、
前記データ変換手段は、当該ＥＤＲ方向データを単位ベクトルに変換し、その単位ベクトルをＥＤＲ方向推定値として前記出力装置に出力する
ことを特徴とするＥＤＲ方向推定システム。
前記ＥＤＲ方向計算手段は、相関行列の逆行列が存在する場合に、相関行列の逆行列で前記ＥＤＲ方向を補正し、前記ＥＤＲ方向データ及び前記補正したＥＤＲ方向データを前記データ変換手段へ送出し、前記相関行列の逆行列が存在しない場合、前記ＥＤＲ方向データのみ前記データ変換手段へ送出することを特徴とする請求項７記載のＥＤＲ方向推定システム。
大量変数に関する単一指標モデルにおいて、ＥＤＲ方向を推定するためコンピュータに、
解析対象となるデータファイルを入力するステップと、
目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、当該基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として２つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
該各平均ベクトルを受け、当該２つの平均ベクトルの差を計算してＥＤＲ方向を求め、該ＥＤＲ方向データを前記データ変換手段へ出力するステップと、
当該ＥＤＲ方向データを単位ベクトルに変換し、その単位ベクトルをＥＤＲ方向推定値として出力するステップ
を実行させるためのＥＤＲ方向推定プログラム。
大量変数に関する単一指標モデルにおいて、ＥＤＲ方向を推定するためコンピュータに、
解析対象となるデータファイルを入力するステップと、
目的変数と説明変数の組からなる解析対象データを受け、前記説明変数を基準化して、当該基準化された説明変数と前記目的変数の組からなるデータを出力するステップと、
前記基準化された説明変数と前記目的変数の組からなるデータを受け、該データを前記目的変数の所定の閾値を基準として２つのスライスに分割して、各スライスごとに前記基準化された説明変数の平均ベクトルを計算し、該各平均ベクトルを出力するステップと、
該各平均ベクトルを受け、当該２つの平均ベクトルの差を計算してＥＤＲ方向を求め、該ＥＤＲ方向データを前記データ変換手段へ出力するステップと、
当該ＥＤＲ方向データを単位ベクトルに変換し、その単位ベクトルをＥＤＲ方向推定値として出力するステップ
を実行させるためのＥＤＲ方向推定プログラムを記録したコンピュータ読み取り可能な記録媒体。