JP2022158233A

JP2022158233A - 相関構造分析装置、相関構造分析方法およびプログラム

Info

Publication number: JP2022158233A
Application number: JP2021062989A
Authority: JP
Inventors: 秀策安田; Shusaku Yasuda; 俊也佐々木; Toshiya Sasaki
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2022-10-17

Abstract

【課題】疑似相関の影響を排除した相関関係を分析する方法を提供する。【解決手段】相関構造分析装置は、複数の変数を含んだデータを取得するデータ読込部と、前記複数の変数のうちの２つの前記変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算する指標計算部と、前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価する評価部と、を備え、前記評価部は、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する、を備える。【選択図】図１

Description

本開示は、相関構造分析装置、相関構造分析方法およびプログラムに関する。

データ分析において相関分析を実施し、分析結果を製品開発や業務プロセスの改善などに活用することがある。従来、多変量データに対する分析は、変数間の単純な相関関係を求めるものが多数であり、擬似相関まで分析することは稀である。これにより、分析者の知見、力量によっては、擬似相関を誤って相関があるものとして抽出してしまい、誤判断を誘発し、後工程でのトラブルや手戻りを生じさせる原因となっている。

特許文献１には、観測変数に関して得られたデータに基づき、観測変数間における因果関係を示した因果構造のモデル（完全グラフ）の候補を複数生成し、データとの適合度などの観点から、各モデルの評価を行って、評価が最も良いモデルを観測変数の因果構造として決定し、決定した因果構造を表示させる技術が開示されている。特許文献１には、技術的には因果関係がないにも関わらず、あたかも因果関係があるように表示される因果構造の例が挙げられ、このような関係が疑似相関によるものであることが記載されている。しかし、特許文献１に記載の技術によって、必ずしも真の相関と疑似相関の見分けができるわけでは無い。

特開２００８－２１７７１１号公報

疑似相関の影響を排除した相関関係の分析を可能とする技術が求められている。

本開示は、上記課題を解決することができる相関構造分析装置、相関構造分析方法およびプログラムを提供する。

本開示の相関構造分析装置は、複数の変数を含んだデータを取得するデータ読込部と、前記複数の変数のうちの２つの変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算する指標計算部と、前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価する評価部と、を備え、前記評価部は、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する。

本開示の相関構造分析方法は、複数の変数を含んだデータを取得するステップと、前記複数の変数のうちの２つの変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算するステップと、前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価するステップと、を有し、前記相関関係を評価するステップでは、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する。

本開示のプログラムは、コンピュータに、複数の変数を含んだデータを取得するステップと、前記複数の変数のうちの２つの変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算するステップと、前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価するステップと、を有し、前記相関関係を評価するステップでは、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する処理を実行させる。

上述の相関構造分析装置、相関構造分析方法およびプログラムによれば、疑似相関の影響を排除した相関関係を分析することができる。

実施形態の相関構造分析装置の一例を示すブロック図である。実施形態に係るデータ型と適用可能な相関指標の組合せを示す図である。相関指標の計算方法の説明に用いる図である。相互情報量の計算方法の説明に用いる第１の図である。相互情報量の計算方法の説明に用いる第２の図である。疑似相関指標の計算方法の説明に用いる図である。条件付き相互情報量の計算方法の説明に用いる図である。実施形態の条件付き相互情報量の最適化の一例を示す第１の図である。実施形態の条件付き相互情報量の最適化の一例を示す第２の図である。実施形態の条件付き相互情報量の最適化の一例を示す第３の図である。実施形態の条件付き相互情報量の最適化の一例を示す第４の図である。実施形態の疑似相関指標の計算方法について説明する図である。実施形態の相関指標および疑似相関指標の計算結果の一例を示す図である。実施形態の相関関係の評価方法について説明する図である。実施形態の閾値算出方法について説明する図である。実施形態の出力例を示す第１の図である。実施形態の出力例を示す第２の図である。実施形態の出力例を示す第３の図である。実施形態に係る相関構造分析処理の一例を示すフローチャートである。実施形態の相関構造分析装置のハードウェア構成の一例を示す図である。

＜実施形態＞
以下、本開示の実施形態に係る相関構造分析方法について、図１～図１９を参照しながら説明する。
（構成）
図１は、実施形態の相関構造分析装置の一例を示すブロック図である。
本実施形態の相関構造分析装置１０は、多変量データの相関関係を分析する。例えば、データＡ～Ｄの相関関係を分析する場合、データＡとＢ、ＡとＣ、ＡとＤ、ＢとＣ、ＢとＤ、ＣとＤの相関関係を分析する。また、データＡとＢの相関関係を分析する場合、データＣ、Ｄの影響を除いた相関関係を評価する。図示するように相関構造分析装置１０は、データ読込部１１と、入力部１２と、指標計算部１３と、評価部１４と、閾値算出部１５と、分析結果出力部１６と、記憶部１７と、を備える。

データ読込部１１は、相関関係を分析する対象となるデータを読み込む。分析対象とする変数の数に制限はないが、データＡ～Ｄの４つの変数を読み込むものとすると、データＡ～Ｄは、例えば、各列にデータＡ～Ｄがそれぞれ格納され、各行のデータＡ～Ｄが対応する１組のデータとして構成されたＣＳＶファイルなどの表形式データとしてまとめられていて、データ読込部１１は、この表形式データを読み込む。

データ読込部１１が読み込むデータは、数値データとカテゴリデータの２種類に分類される。数値データは、気温、速度など数値で表される計量尺度を持つデータ（以下、計量データと記載する。）又は、１位、２位、３位など順序や序列に意味はあるが間隔には意味が無い順序尺度を持つデータ（以下、順位データと記載する。）である。カテゴリデータは、性別、郵便番号、住所など他と区別し分類するための名義尺度を持つデータ（以下、名義データと記載する。）である。計量データ、順位データ、名義データをデータ型と呼ぶ。

入力部１２は、キーボード、マウス、タッチパネル、ボタン等の入力装置を用いて構成される。入力部１２は、入力装置を用いて入力された情報を受け付け、その情報を指標計算部１３等に出力する。

指標計算部１３は、データ読込部１１が読み込んだデータの相関関係を分析する。例えば、データＡ～Ｄが読み込まれ、データＡとデータＢの相関関係を分析する場合、指標計算部１３は、データＡとデータＢの相関指標と疑似相関指標を計算し、各指標の統計的妥当性を確認する。同様に、指標計算部１３は、他の変数の組合せについても相関指標および疑似相関指標を計算する。指標計算部１３は、データ型（計量データ、順位データ、名義データ）に応じて相関指標の分析方法を変更する。一般に計量データの相関分析では相関係数（ピアソンの累積相関係数）が相関指標として用いられ、Ｔ検定によって妥当性のチェックが行われることが多い。順位データの相関分析では順位相関係数（スピアマンの順位相関係数）が相関指標として用いられ、Ｔ検定によって妥当性のチェックが行われることが多い。名義データの相関分析では連関係数（相互情報量）が相関指標として用いられ、χ^２検定やＧ２検定によって妥当性のチェックが行われることが多い。指標計算部１３は、分析対象変数のデータ型に基づいて、相関係数、順位相関係数、相互情報量の何れかの指標を選択して、選択した指標に応じた計算方法によって、相関指標と疑似相関指標を計算する。データ型と指標の対応表を図２に示す。

図２は、データ型と適用可能な相関指標の組合せを示す図である。指標計算部１３は、図２の表において丸印があればその分析方法によって、丸印が無く三角印があればその分析方法によって、相関指標などを計算する。丸印は読み込んだデータをそのまま用いて指標を計算することが可能で、三角印は読み込んだデータを尺度変換してから指標の計算をすることを示す。例えば、一方の変数が計量データで、他方の変数が順位データであれば、計量データを区切って順位データに変換してから両者の相関指標などを計算する。例えば、変数１と変数２の相関を分析する場合、変数１と変数２が共に計量データの場合、指標計算部１３は、相関係数と疑似相関係数を計算する（項番１）。変数１が順位データで変数２が計量データの場合、指標計算部１３は、計量データを順位データに尺度変換して、順位相関係数と順位疑似相関係数を計算する（項番２）。変数１が名義データで変数２が計量データの場合、指標計算部１３は、計量データを名義データに尺度変換して、相互情報量と条件付き相互情報量を計算する（項番４）。他の組合せについても同様である。各指標の計算方法については後述する。

評価部１４は、指標計算部１３が計算した相関指標と疑似相関指標に基づいて、変数間の相関関係を評価する。具体的には、評価部１４は、変数間の相関関係が「（真の）相関あり」、「疑似相関」、「隠れていた相関」、「相関なし」の何れであるかを評価する。
閾値算出部１５は、評価部１４が相関関係の評価に用いる閾値を算出する。

分析結果出力部１６は、評価部１４による評価結果を表示する。また、分析結果出力部１６は、指標計算部１３で計算した相関指標、疑似相関指標および統計的妥当性の指標をグラフなどに表示して出力する。
記憶部１７は、データ読込部１１が読み込んだデータ、指標計算部１３の計算結果、判定に用いる閾値など各種データを記憶する。

＜相関指数の計算＞
指標計算部１３は、図２の表に応じて、（ａ）相関係数、（ｂ）順位相関係数、（ｃ）相互情報量の何れかの相関指標とそれぞれのp値とを計算する。このとき、（ａ）相関係数、（ｂ）順位相関係数の算出では、数値データのみを対象に行列形式で係数が算出される。また、（ｃ）相互情報量の算出では、数値データ・カテゴリデータともに行列形式で係数が算出される。

（ａ）相関係数
（線形）相関係数の計算方法は公知である。データ列Ｘ_ｐとデータ列Ｘ_ｑ（共にデータ数はｍ個）の相関係数ρ_ｐｑはＥを期待値とすると、公式により図３の式（１）となる。データテーブルＸ＝［ｘ_１、ｘ_２、・・・、ｘ_ｎ］とすると、（線形）相関行列Ｃは、Ｘの分散共分散行列を用いて図３の式（２）で計算することができる。ただし、ｄｉａｇ（シグマ）^－１／２は、分散共分散行列の対角成分以外（共分散成分）を０とし、対角成分を－１／２乗した行列である。またＴ検定に用いるｔ値は、図３の式（３）を用いて計算する。このようにして、指標計算部１３は、公知の方法によって、相関係数とｔ値を計算し、ｔ値からｐ値を計算する。

（ｂ）順位相関係数
順位相関係数の計算方法は公知である。順位相関係数行列は、データ列Ｘｐとデータ列Ｘｑの各列の変数を小さい値から順に１、２、・・・と番号付けしたうえで、相関係数行列を算出することで求められる。また、相関係数の場合と同様に図３の式（３）を用いてｔ値を計算する。

（ｃ）相互情報量
相互情報量は、ＭＩＣ（Maximum Information Coefficient）と呼ばれる公知の手法によって計算することができる。以下、図４Ａ、図４Ｂを参照して、簡単に計算手順を説明する。図４Ａのグリッドの各点は、変数１と変数２を組合せた１つのデータを示す。このようなデータが２０個取得できた場合の変数１（図４Ａのｘ）と変数２（図４Ａのｙ）の相互情報量は以下の手順で計算する。
（手順１）変数１をソートし、なるべく同数となるよう均等に値をまとめてｎ分割する。
図４Ａの例の場合、ｘは３分割されている。
（手順２）変数２を値ごとにｍ分割し、分割したときの相互情報量を計算する。なお、相互情報量ではなく、代わりにＡＩＣやＢＩＣなどの情報量基準を用いてもよい。
図４Ａの例の場合、ｙは３分割されている。相互情報量の計算は、ｍ×ｎに区切ってできたマスごとに以下の式（４）の計算を行い、全てのマスについての計算結果を合計したものが、今回のｍ×ｎの分割方法に対する相互情報量となる。
ｐ（ｘ，ｙ）・ｌｏｇ（ｐ（ｘ，ｙ）／ｐ（ｘ）・ｐ（ｙ）））・・・（４）
ｐ（ｘ，ｙ）はｘとｙが共に対象マスに含まれる確率、ｐ（ｘ）はデータが対象マスのｘと同じ列に含まれる確率、ｐ（ｙ）はデータが対象マスと同じ行に含まれる確率である。図４Ａに例示する計算例は中央のマス（ｘ、ｙのラベルが共に１の場合）についての計算結果である。

（手順３）ｎ，ｍの値を変えて異なった方法で分割を行い、相互情報量を計算する。全ての分割方法の中で、相互情報量が最大となったときのＭＩＣ相関を変数１と変数２の間の相関指標値とする。また、この値を相互情報量行列における変数１と変数２の相関指標を示す値とする。
一例として、４つの変数の場合について説明する。４変数それぞれｉ，ｊ，ｋ，ｌのラベル（マスの番号）を有する点の数をＣ_ｉｊｋｌと表す。また、特にラベルを指定しない場合、・で表記する。このとき、１、２番目の変数（変数１、変数２）のＭＩＣ相関Ｉ_１２の計算式を図４Ｂの式（５）に示す。なお、ｎ_ｍｉｎは１，２番目の変数のうち少ない方のラベルの数（図４Ａの例では３個）を表し、ｍは全データ数（図４Ａの例では２０個）を表す。

（手順４）変数１、２以外の他の変数の組み合わせについて、手順１～３を繰り返し実行し、各変数間の相互情報量を計算し、相互情報量行列を計算する。
また、相互情報量について、Ｇ２検定によってｐ値を計算する。具体的には、Ｐ（Ｘ、Ｙ）＝Ｐ（Ｘ）・Ｐ（Ｙ）を帰無仮説として、変数１，２のラベル数がそれぞれｎ１，ｎ２の場合、図４Ｂの式（６）の値Ｇ１２が自由度（ｎ_１－１）・（ｎ_２－１）のχ^２分布に従うとしてχ^２検定し、p値を計算する。

＜疑似相関指数の計算＞
指標計算部１３は、図２の表に応じて、（ｄ）疑似相関係数、（ｅ）疑似順位相関係数、（ｆ）条件付き相互情報量の何れかの疑似相関指標とそれぞれのp値とを計算する。このとき、（ｄ）疑似相関係数、（ｅ）順位相関係数の算出では、数値データのみを対象に、行列形式で係数が算出される。また、（ｆ）相互情報量の算出では、数値データ・カテゴリデータともに行列形式で係数が算出される。

（ｄ）疑似相関係数（線形偏相関係数）
線形偏相関係数の計算方法は公知である。偏相関係数の算出では、対象の変数以外の変数で、対象の変数を説明する重回帰モデルを構築し、重回帰モデルのモデル化誤差の相関を求める。分析対象のデータをｘｐ、ｘｑ、重回帰モデルによるｘｐ、ｘｑの推定値をｘｐ~、ｘｑ~とし、重回帰モデルのモデル化誤差をｘ´ｐ＝ｘｐ－ｘｐ~、ｘ´ｑ＝ｘｑ－ｘｑ~とすると、重回帰モデルのモデル化誤差の相関ρ_ｐ´ｑ´は公式により、図５の式（７）で表すことができる。相関係数の場合と同様にして、偏相関行列Ｐ´は、Ｉを単位行列とすると、図５の式（８）で計算することができる。また、Ｔ検定におけるｔ値は、相関係数と同様の方法により計算する。このように指標計算部１３は、公知の方法によって、線形偏相関係数とｔ値、ｐ値を計算する。

（ｅ）疑似順位相関係数（順位偏相関係数）
順位偏相関係数の計算方法は公知である。順位偏相関係数行列は、データ列Ｘｐとデータ列Ｘｑの各列の変数を小さい値から順に１、２、・・・と番号付けしたうえで、線形偏相関係数行列を算出することで求められる。また、Ｔ検定におけるｔ値は、疑似相関係数（線形偏相関係数）と同様の方法により計算する。

（ｆ）条件付き相互情報量
条件付き相互情報量は、以下の手順で計算される。この計算方法は、本実施形態に特徴的な手法である。
（手順１）変数１と変数２の相互情報量を計算し、相互情報量が最大となる分割数、分割位置（分割後のデータの分布）を取得する。
この計算は、相関指数の計算で説明したＭＩＣと同様である。
（手順２）手順１で得られた分割における変数１と変数２の組み合わせを１つの変数Ｘとみなし、この変数Ｘと相互情報量が最大となる変数３～Ｎの分割を得る。例えば、変数１～３について、変数１，２の条件付き相互情報量を求める場合、変数Ｘと変数３の間でＭＩＣと同様の処理を行い、相互情報量が最大となる分割数、分割位置を取得する。他の変数４～Ｎについても、変数Ｘとの間で最大となる相互情報量を求める。

（手順３）変数３～Ｎの下での変数１と変数２の条件付き相互情報量を算出する。
手順１、２の結果に基づいて、変数１と変数２の相互情報量から変数３～Ｎの影響を除いたＭＩＣ偏相関を計算する。ここで、変数１、２に対する変数３、４の条件付き相互情報量をＩ_{１２｜３４}とし、変数ｐ，ｑ、ｒに対するエントロピをＨ_ｐｑｒと記載すると、Ｉ_{１２｜３４}＝Ｈ_１３４＋Ｈ_２３４－Ｈ_３４－Ｈ_１２３４、と記述できる。このときのＭＩＣ偏相関Ｉ_{１２｜３４}は、図６の式（９）で計算する。なお、ｎ_ｍｉｎは１，２番目の変数のうち少ない方のラベルの数を表す。ｍはデータ数を表す。

（手順４）変数１，２の組合せ以外の他の全ての変数の組み合わせについて、手順１～３を繰り返し適用し、各変数間の疑似相関を排除した相関の度合いを計算する。
また、条件付き相互情報量については、Ｇ２検定によってｐ値を計算する。具体的には、Ｐ（Ｘ，Ｙ，Ｚ，Ｗ）＝Ｐ（Ｘ，Ｚ，Ｗ）・Ｐ（Ｙ，Ｚ，Ｗ）／Ｐ（Ｚ，Ｗ）を帰無仮説とする。変数１、２、３、４のラベル数がそれぞれｎ₁，ｎ_２，ｎ_３，ｎ_４とした場合、図６の式（１０）の値Ｇ_{１２｜３４}が自由度（ｎ_１－１）・（ｎ_２－１）・ｎ_３・ｎ_４のχ^２分布に従うとしてχ^２検定し、p値を計算する。

（手順２の最適化）
上記の（手順２）において、変数１と変数２の分割の組み合わせを最適化することが望ましい。例えば、（手順１）のＭＩＣによって、変数１がａ１、ａ２、ａ３、・・・と昇順に分割され、変数２がｂ１，ｂ２，ｂ３，・・・と昇順に分割されているものとする。このとき、（手順２）では変数１と変数２の組み合わせを変数Ｘとみなすことから、（ａｉ，ｂｊ）を１つの変数とみなし、新たにラベルｃ１，ｃ２，ｃ３，・・・を与えることになる。このとき、ｃ１，ｃ２，ｃ３，・・・は昇順に付与される必要がある。ａ，ｂがともに昇順に並んでいることから、ｃ１＝（ａ１，ｂ１）となることは自明であるが、ｃ２を（ａ１，ｂ２）とすべきか、（ａ２，ｂ１）とすべきか不明である。そこで、本実施形態では（ａｉ，ｂｊ）の順序を全探索するため、ｊに対するｉの増加比率をｒと定め、ｒ・ｉ＋（１－ｒ）・ｊの小さい順に（ａｉ，ｂｊ）を並び替えて順にｃ１，ｃ２，ｃ３，・・・とラベルを付与する。そして、このラベルｃｋに対し、相互情報量が最大となるよう第三の変数を分割し、相互情報量を求める。さらに、すべての増加比率rに対して最大の相互情報量を算出し、最も大きくなるラベルｃｋおよび第三変数の分割を求める。この処理には多大な計算を要するため、適宜間引きや打ち切りを行ってもよい。以下、（手順２）の最適化について例を挙げて説明する。

ＭＩＣを利用した相互情報量の計算では、カテゴリデータは序数（並び順）の割り当て、数値データは値で分割したうえでの序数の割り当てを行う必要がある。ＭＩＣでは、数値データの分割に、もう一方の変数の序数に基づいた動的分割手法を採用している。この動的分割手法では、分割・序数割り当て後の変数間相互情報量が最大となるよう、動的プログラミングを用いて分割の区切りを決定し、数値の大小をもとに分割ごとに序数を割り当てている。そのため、片方の序数が変わると、もう一方の変数の分割結果が変わる。例えば、ある変数がカテゴリデータ（名義データ）、もう一方の変数が数値データ（計量データ又は順位データ）の場合は、カテゴリデータに割り当てる序数の順序によって、動的分割手法の結果が変わり、数値データの分割結果が変わる。したがって、相互情報量を計算する変数がカテゴリデータと数値データの場合、最適な相互情報量の計算のために、カテゴリデータに割り当てる序数を最適化する必要がある。カテゴリデータに割り当てる順序の最適化では、全探索を行えばよい。すなわち、カテゴリと序数の順列組み合わせを計算し、すべての組み合わせから、最も相互情報量の高い最適な順序の序数を算出すればよい。

今、変数１、２に対する変数３の条件付き相互情報量を求めることを考える。変数１、２の序数は、それぞれの値の関係から、通常のＭＩＣと同じ方法で算出することができる。しかし、条件付き相互情報量の算出のためには、変数３も序数にする必要がある。変数３がカテゴリデータの場合は、そのままカテゴリごとに序数を割り当てればよいが、変数３が数値データの場合は、ＭＩＣと同様の動的分割手法を適用し、序数を割り当てる必要がある。ＭＩＣと同様の動的分割手法を適用するには、変数３の基準となるような、変数１、２の両方を加味した序数を定義する必要がある。本実施形態では、変数１，２の組み合わせに序数を割り当て、新たな変数Ｘとみなす。例えば、変数１、２がそれぞれ３，４分割されているとする。このとき、図７（ａ）の表のように変数Ｘの序数を定義すれば、これまでと同様の方法で、変数Ｘを基準に変数３を分割することが可能となる。

一方、変数Ｘの与え方は、変数１序数と変数２序数の大小関係さえ維持できていればよいので、図７～図１０に示すように複数通り考えられる。先に述べた通り、片方の序数が変わると、もう一方の変数の分割結果が変わる。したがって、変数Ｘの序数によって変数３の分割結果が変わるため、手順２）において変数Ｘの序数の最適化が必要となる。

ここで、変数Ｘへの序数の与え方を一般化する。変数１の序数をｉ、変数２の序数をjとし、新たなパラメータとして増加率r（0≦r≦1）を定義する。変数Ｘの序数を計算するための指標として、Ｏ（ｒ）＝ｒ・ｉ＋（１－ｒ）・ｊを定義する。このＯ（ｒ）の小さい順に序数を与えることで、変数１の序数と変数２の序数の大小関係を維持した変数Ｘの任意の序数を与えられる。たとえば、図７の表で例示した変数Ｘの序数はｒ＝０．９、図８の変数Ｘの序数はｒ＝０．１、図９の変数Ｘの序数はｒ＝０．６、図１０の変数Ｘの序数はｒ＝０．７で得ることができる。

なお、ｒ＝ｓｉｎ（ｐ）とすれば、ｐは、変数１と変数２の序数の平面における直線の角度を表すことになる。変数Ｘの順序の最適化では、ｒまたはｐについて全探索を行い、最も相互情報量の高い最適な順序の序数を算出する。これにより、第三の変数の最適な分割が得られる。

（変数がカテゴリデータの場合の最適化）
また、変数のいずれかがカテゴリデータの場合、カテゴリデータの数値化が必要となるが、数値化についても最適化することが望ましい。例えば、「りんご」「みかん」「なし」のような名義データを考える。これらをＭＩＣで処理するためには、それぞれのラベルに対し１、２、３、・・・のように序数を割り当てる必要がある。各ラベルには順序が存在しないことから、２、３、１、・・・のように、異なる順序で序数を割り当てることができる。しかし、ＭＩＣではヒューリスティックな動的プログラミングによる変数分割を行っているため、この序数の順序によって異なる結果が得られる。したがって、特に一方がカテゴリデータでもう一方が数値データの場合は、ＭＩＣをカテゴリデータに対し盲目的に使用することでは適切な相互情報量を得ることができない。そこで、本実施形態では、ラベルの順列すべてに対し相互情報量を評価することで、最大の相互情報量を算出する方法を用いる。具体的には、ラベルａ１、ａ２、ａ３、・・・に対し、１，２，３・・・、２，１，３・・・、・・・のように並び替えた序数を割り当て、それぞれに対し、変数２の相互情報量を算出して、全体で最大の相互情報量となる数値順を算出することで、ラベルに対する割り当てるべき数値順を定める。ただし、この処理には多大な計算を要するため、適宜間引きや打ち切りを行ってもよい。なお、カテゴリデータの最適化は、相互情報量の計算、条件付き相互情報量の計算の何れにも適用することができる。

図１１は、疑似相関指標の他の計算方法について説明する図である。
上記では、変数１、２以外の全ての変数３・・・Ｎに対する擬似相関指標、擬似順位相関指標、条件付き相互情報量の算出方法（２対多）を示した。この様子を図１０（ｂ）に示す。図１０（ｂ）のＡ（変数１）とＢ（変数２）が重なる領域の大きさは、ＡとＢの相関関係の大きさを示す。この領域に対してＣやＤが重なる範囲は、ＣやＤの影響でＡとＢに相関が生じているように見えるつまり疑似相関の大きさを示している。ＡとＢの真の相関を把握したい場合、図１０（ｂ）に示すようにＡとＢが重なる範囲からＣやＤが重なる範囲を除外した残りの範囲（偏相関係数）を求めることが一般的である。

これに対し、図１０（ａ）に示すように、Ａ（変数１）とＢ（変数２）が重なる領域からＣが重なる範囲のみを除外した残りの範囲と、Ｄが重なる範囲のみを除外した残りの範囲と、をそれぞれ計算し、その値が小さいものをＡとＢの偏相関として計算してもよい。これは、最も悪い偏相関となる変数、つまりＡとＢの相関関係に最も大きな影響を与える変数を見つけたい場合などに有効である。この処理は、別途、変数Ａ、Ｂと変数Ｃで構成されるサブデータ１をメモリ上に作成して擬似相関指標を算出し、変数Ａ、Ｂと変数Ｄで構成されるサブデータ２を作成して擬似相関指標を算出し、擬似相関指標の値が最も小さくなったときの変数を特定することによって実行することができる。例えば、変数１がプラントの運転状態を示す変数で、変数２が運転状態と相関する運転パラメータであるばあい、最も影響の大きい変数３（Ｃ）、変数４（Ｄ）を見つけ、その影響の大きさを計算することで、プラントの運転状態と真に相関する運転パラメータを見極めることができる。

図１２は、実施形態の相関指標および疑似相関指標の計算結果の一例を示す図である。
指標計算部１３が、変数のデータ型に応じた方法で相関指標、疑似相関指標、ｐ値を計算し終えると、図１２に例示するような結果が得られる。図１２（ａ）には、変数Ａ～Ｃ間の相関指標値（データ型の組合せに応じて計算された相関係数、順位相関係数、相互情報量の何れか）とｐ値の対応表が記載されている。この表の左下半分の領域にはｐ値、右上半分の領域には計算した指標値の値が記載されている。図１２（ｂ）には、変数Ａ～Ｃ間の疑似相関指標値（データ型の組合せに応じて計算された疑似相関係数、疑似順位相関係数、条件付き相互情報量の何れか）とｐ値の対応表が記載されている。

図１３は、実施形態の相関関係の評価方法について説明する図である。
変数間の相関指標と疑似相関指標が算出されると、評価部１４が、図１３に示す評価基準に基づいて変数間の相関関係を評価する。例えば、評価部１４は、変数１と変数２の相関指標を閾値１と比較して、相関指標が閾値１以上か、閾値１未満かを判定する。評価部１４は、変数１と変数２の疑似相関指標を閾値２と比較して、疑似相関指標が閾値２以上か、閾値１未満かを判定する。相関指標が閾値１以上で疑似相関指標を閾値２以上の場合、評価部１４は、変数１と変数２には真の相関があると評価する。相関指標が閾値１以上で疑似相関指標を閾値２未満の場合、評価部１４は、変数１と変数２は疑似相関であると評価する。相関指標が閾値１未満で疑似相関指標を閾値２以上の場合、評価部１４は、変数１と変数２には隠れていた相関があると評価する。相関指標が閾値１未満で疑似相関指標を閾値２未満の場合、評価部１４は、変数１と変数２には相関がないと評価する。

図１４は、実施形態の閾値算出方法について説明する図である。
上記の評価に用いる閾値１、閾値２は、分析者が任意に定めることができる。しかし、閾値算出部１５が、次のようにして設定してもよい。
閾値算出部１５が、分析対象と同数のサンプルデータ１を生成する（ステップＳ１）。次に閾値算出部１５が、サンプルデータ１と真の相関があるサンプルデータ２、サンプルデータ３を生成する（ステップＳ２）。例えば、閾値算出部１５は、サンプルデータ１を所定の関数Ｆｘ１（例えば２次関数）に入力して、関数Ｆｘ１の出力をサンプルデータ２とする。閾値算出部１５は、サンプルデータ１を別の関数Ｆｘ２（例えば指数関数）に入力して、関数Ｆｘ２の出力をサンプルデータ３とする。閾値算出部１５は、関数Ｆｘ１、Ｆｘ２が出力した値にさらにノイズを付加して、サンプルデータ２、３を生成してもよい。以上により、真の相関を持つサンプルデータ１とサンプルデータ２の組合せと、サンプルデータ１とサンプルデータ３の組合せが得られる。また、疑似相関をもつサンプルデータ２とサンプルデータ３の組合せが得られる。

なお、サンプルデータの生成方法は、ここで説明した方法に限定されず、真の相関を持つサンプルデータと疑似相関を持つサンプルデータを分析対象データと同数生成できれば、他の方法でサンプルデータを生成してもよい。

次にサンプルデータ１～３を入力として、指標計算部１３が、各データ間の相関指標と疑似相関指標を計算する（ステップＳ３）。次に閾値算出部１５は、相関指標に判定に用いる閾値１と疑似相関指標の判定に用いる閾値２の仮の値をランダムに設定する（ステップＳ４）。評価部１４が、閾値算出部１５によって仮設定された閾値１と閾値２に基づいて、サンプルデータ１～３について相関関係を評価する（ステップＳ５）。

次に閾値算出部１５が、ステップＳ３で計算された相関指標と疑似相関指標に基づいて、ＴＰ、ＦＮ、ＴＮ、ＦＰの各値を算出する（ステップＳ６）。ここで、ＴＰとは「真の相関を正しく真の相関として抽出した件数」である。ＦＮとは「真の相関を誤って擬似相関として抽出した件数」である。ＴＮとは「擬似相関を正しく擬似相関として抽出した件数」である。ＦＰとは「擬似相関を誤って真の相関として抽出した件数」である。

例えば、真の相関を有するサンプルデータ１～３のデータ数が１００件であって、評価部１４がステップＳ４にて、サンプルデータ１とサンプルデータ２は相関あり、サンプルデータ１とサンプルデータ３は疑似相関、サンプルデータ２とサンプルデータ３は相関あり、と評価したとする。すると、ＴＰの値は、１０００件（サンプルデータ１とサンプルデータ２は真の相関があり、そのように評価された。）である。ＦＮの値は、１０００件（サンプルデータ１とサンプルデータ３は真の相関があるにもかかわらず、疑似相関と評価された。）。ＴＮの値は、０件（サンプルデータ２、３は疑似相関にもかかわらず、相関ありと評価された。）である。ＦＰの値は、１０００件（サンプルデータ２、３は疑似相関にもかかわらず、相関ありと評価された。）である。

次に閾値算出部１５が、ステップＳ５で算出したＴＰ、ＦＮ、ＴＮ、ＦＰの値を用いて、仮設定した閾値１、２に基づくサンプルデータに対する相関関係の評価結果に対する評価指標値を計算する（ステップＳ７）。閾値算出部１５は、相関関係の評価結果を所定の評価指標によって評価することにより、仮設定した閾値１，２を評価する。例えば、閾値算出部１５は、評価指標として、Accuracy（正解率）、Precision（適合率）、Recall（再現率）、F1値のうちの１つ又は２以上の指標を用いて閾値１，２の評価を行う。これらの指標のいずれを重視するかは、ユーザによって設定されてもよい。各指標の値は、以下の式で計算することができる。
Accuracy ＝（ＴＰ＋ＴＮ）／（ＴＰ＋ＦＰ＋ＴＮ＋ＦＮ）
Precision ＝ＴＰ／（ＴＰ＋ＦＰ）
Recall ＝ＴＰ／（ＴＰ＋ＦＮ）
F1 ＝（２×Recall×Precision）／(Recall＋Precision)
これら、Accuracy、Precision、Recall、F1は、例えば、機械学習の分野で用いられる指標値である。閾値算出部１５は、Accuracy、Precision、Recall、F1をのうち使用するものについて、上の各式を用いて評価値を計算する。複数の評価指標を用いる場合、閾値算出部１５は、各評価指標の加重和を用いて閾値の適正さの評価を行ってもよい。

次に閾値算出部１５は、ステップＳ７で計算した評価指標値が適正かどうか判定する（ステップＳ８）。閾値算出部１５は、評価指標値の値を所定の閾値と比較して許容範囲内であれば、適切な評価指標値が得られたと判定し、今回仮設定した閾値１、２を正式な閾値として記憶部１７に記録して閾値の算出処理を終了する。評価指標値の値が許容範囲外であれば、ステップＳ４以降の処理を繰り返し実行する。

＜分析結果の表示＞
評価部１４による相関関係の評価が終了すると、記憶部１７には、指標計算部１３によって計算された各変数間の相関指標値および疑似相関指標値の値と、評価部１４によって評価された「相関あり」、「疑似相関」、「隠れていた相関」、「相関なし」の何れかの評価結果が記録される。分析結果出力部１６は、分析結果を人が理解しやすい形式に変換して表示する。例えば、分析結果出力部１６は、相関指標行列ならびに擬似相関指標行列を記憶部１７から読み出して、ネットワーク図として描画する。図１５にネットワーク図の一例を示す。ネットワーク図１００では変数を丸型のノードとして表現し、関係のあるノードを線(エッジ)で繋ぐことにより相関関係の有無を表現する。分析結果出力部１６は、評価部１４の評価結果に応じて、エッジの表示態様（色や線の種類）を変更して表示する。また、分析結果出力部１６は、ノードの付近には各変数の名前を表示し、エッジの付近に相関係数や偏相関係数の値、ｐ値などを表示する。これにより、ユーザは、ノード間の関係を容易に把握することができる。また、従来の相関係数のみで抽出できていなかった「隠れていた相関」関係や、誤って抽出していたと考えられる「擬似相関」を確認でき、相関分析の信頼性を向上することができる。

また、分析結果出力部１６は、変数間の相関関係の大小を色や濃淡で表現したヒートマップを作成して表示してもよい。図１６に変数間の相関指標値のヒートマップ２００と、疑似相関指標値のヒートマップ２０１とを示す。ヒートマップ２００、２０１の縦軸と横軸には、変数名が記載され、縦軸に記載された変数ａと横軸に記載された変数ｂが交わる領域に変数ａ，ｂの相関係数又は偏相関係数の値に応じた色が表示される。色が濃い程、相関係数などの値が大きい。ヒートマップを表示することにより、ユーザは、全ての変数についての相関関係を俯瞰的にとらえることができる。分析結果出力部１６は、ユーザが、マウスなどである領域を選択すると、その領域に関する２つの変数の名称や相関係数の値などを前面に拡大して表示してもよい（ホバーウィンドウ）。

また、分析結果出力部１６は、特定変数に対する相関指標の可視化として、棒グラフを表示してもよい。図１７に特定の変数Ｘと他の変数Ａ、Ｂ，Ｃ、・・・の間の偏相関係数の値を定量的に示した棒グラフ３００を示す。棒グラフ３００を参照することにより、ユーザは、特定変数Ｘに対する相関の大きさの定量的な比較を行うことができる。
なお、相関分析における補足情報として、分析結果出力部１６は、実データの分布の確認手段として散布図を表示してもよい（図示せず）。

（動作）
次に図１８を参照して、本実施形態の相関構造分析処理の流れについて説明する。
図１８は、実施形態に係る相関構造分析処理の一例を示すフローチャートである。
まず、データ読込部１１が、複数の変数に関するデータを取得する（ステップＳ１０）。例えば、データ読込部１１は、変数Ａ～Ｄのデータが多数記録された電子ファイルを読み込む。データ読込部１１は、読み込んだデータを記憶部１７に記録する。
次にユーザが、相関関係の評価を指示する操作を相関構造分析装置１０に対して行う。入力部１２は、この操作を受け付け、指標計算部１３に出力する。指標計算部１３は、データ型に基づいて、相関指標とｐ値を計算する（ステップＳ２０）。指標計算部１３は、変数ＡとＢ、変数ＡとＣ、変数ＡとＤ、変数ＢとＣ、変数ＢとＤ、変数ＣとＤの相関指標とｐ値を計算する。指標計算部１３は、図２の表に従って、計量データ同士であれば、相関係数を計算する。２つの変数の組合せが順位データと、計量データ又は順位データであれば、指標計算部１３は、計量データについて順位付けを行って、順位相関係数を計算する。２つの変数の組合せが名義データと、それ以外のデータ型であれば、指標計算部１３は、他のデータについて尺度変換を行って相互情報量を計算する。２つの変数の組合せが名義データ同士の場合は、指標計算部１３は、そのまま（尺度変換しないで）相互情報量を計算する。指標計算部１３は、計算した相関指標とｐ値を変数の組合せごとに記憶部１７に記録する。

指標計算部１３は、データ型に基づいて、疑似相関指標とｐ値を計算する（ステップＳ３０）。指標計算部１３は、変数ＡとＢ、変数ＡとＣ、変数ＡとＤ、変数ＢとＣ、変数ＢとＤ、変数ＣとＤの疑似相関指標とｐ値を計算する。例えば、変数ＡとＢに関する疑似相関指数について、指標計算部１３は、変数ＡとＢの相関に対して変数Ｃ，Ｄ両方の影響を排除した偏相関を計算するが、変数Ｃの影響だけを排除した場合と、変数Ｄの影響だけを排除した場合の両方を計算し、値が小さい方を採用してもよい（図１１）。指標計算部１３は、データ型に基づいて、疑似相関係数、順位疑似相関係数、条件付き疑似相関係数の何れかを計算する。ステップＳ２０で説明したように、指標計算部１３は、必要に応じて適宜、尺度変換を行って、条件付き相互情報量などの計算を行う。指標計算部１３は、計算した疑似相関指標とｐ値を変数の組合せごとに記憶部１７に記録する。

次に閾値の設定を行う（ステップＳ４０）。ユーザが、相関指標を判定する為の閾値１と疑似相関指標を判定するための閾値２を相関構造分析装置１０に入力してもよい。閾値算出部１５は、ユーザが入力した閾値１，２を、入力部１２を通じて取得し、記憶部１７に記録する。あるいは、閾値算出部１５は、図１４で説明した処理によって閾値１，２を設定してもよい。

次に評価部１４が、変数の組合せごとに相関関係を評価する（ステップＳ５０）。評価部１４は、ステップＳ２０、Ｓ３０の計算結果と、ステップＳ４０で設定された閾値と、図１３に示す評価ロジックと、に基づいて、変数ＡとＢ、変数ＡとＣ、変数ＡとＤ、変数ＢとＣ、変数ＢとＤ、変数ＣとＤの相関関係が「（真の）相関あり」、「疑似相関」、「隠れていた相関」、「相関なし」の何れであるかを評価し、その評価結果を変数の組合せごとに記憶部１７に記録する。

次に分析結果出力部１６が、分析結果を表示する（ステップＳ６０）。分析結果出力部１６は、記憶部１７から、各変数間の相関指標値、疑似相関指標値、評価結果（「相関あり」など）を読み出して、図１５に例示するネットワーク図１００、図１６に例示するヒートマップ２００，２０１、図１７に例示する棒グラフ３００などを作成する。分析結果出力部１６は、作成したグラフ類を表示装置に表示したり、電子ファイルへ出力したりする。

（効果）
以上説明したように、本実施形態によれば、多変量データの相関分析を自動的に実行することができる。また、相関分析にあたっては、疑似相関の影響を排除して真に相関があるかどうかを分析することができる。また、相関の有無だけではなく、「疑似相関」、「隠れていた相関」を検出することができる。また、指標計算部１３は、データ型に応じて適切な方法で相関指標、疑似相関指標を自動的に計算するので、ユーザは、様々なデータ型が混在する複数の変数についても、当該変数のデータを相関構造分析装置１０に入力するだけでよく、尺度変換などの作業を行う必要が無い。また、カテゴリデータ（名義データ）の尺度変換については、指標計算部１３は、最適化（「（変数がカテゴリデータの場合の最適化）」）処理を実行することができるので、正確な相互情報量、条件付き相互情報量を計算することができる。また、本実施形態によれば、分析結果をネットワーク図などで表示することができる。これにより、ユーザにとって理解しやすい相関構造を表示することができる。

図１９は、実施形態の相関構造分析装置のハードウェア構成の一例を示す図である。
コンピュータ９００は、ＣＰＵ９０１、主記憶装置９０２、補助記憶装置９０３、入出力インタフェース９０４、通信インタフェース９０５を備える。
上述の相関構造分析装置１０は、コンピュータ９００に実装される。そして、上述した各機能は、プログラムの形式で補助記憶装置９０３に記憶されている。ＣＰＵ９０１は、プログラムを補助記憶装置９０３から読み出して主記憶装置９０２に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ９０１は、プログラムに従って、記憶領域を主記憶装置９０２に確保する。また、ＣＰＵ９０１は、プログラムに従って、処理中のデータを記憶する記憶領域を補助記憶装置９０３に確保する。

なお、相関構造分析装置１０の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各機能部による処理を行ってもよい。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、ＣＤ、ＤＶＤ、ＵＳＢ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また、このプログラムが通信回線によってコンピュータ９００に配信される場合、配信を受けたコンピュータ９００が当該プログラムを主記憶装置９０２に展開し、上記処理を実行しても良い。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
なお、相関構造分析装置１０は、複数のコンピュータ９００によって構成されていても良い。

以上のとおり、本開示に係るいくつかの実施形態を説明したが、これら全ての実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これらの実施形態及びその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

＜付記＞
各実施形態に記載の相関構造分析装置、相関構造分析方法およびプログラムは、例えば以下のように把握される。

（１）第１の態様に係る相関構造分析装置１０は、複数の変数を含んだデータを取得するデータ読込部１１と、前記複数の変数のうちの２つの変数の相関を示す相関指標と、他の変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算する指標計算部１３と、前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価する評価部１４と、を備え、前記評価部１４は、前記２つの変数に疑似相関を排除した相関関係があるか否かを評価する。
これにより、疑似相関の影響を排除した相関関係を把握することができる。

（２）第２の態様に係る相関構造分析装置１０は、（１）の相関構造分析装置１０であって、前記評価部１４は、前記２つの変数の相関関係が、相関あり、相関なし、疑似相関、隠れていた相関あり、の何れであるかを評価する。
これにより、相関の有無だけではなく、２つの変数の間の「隠れていた相関」や「疑似相関」を認知することができる。

（３）第３の態様に係る相関構造分析装置１０は、（１）～（２）の相関構造分析装置１０であって、第１のサンプル変数と、前記第１のサンプル変数と相関を有する第２のサンプル変数と、前記第１のサンプル変数又は前記第２のサンプル変数と疑似相関を有する第３のサンプル変数と、を生成して、前記閾値を仮設定し、前記第１のサンプル変数と前記第２のサンプル変数と前記第３のサンプル変数について、仮設定された前記閾値に基づいて前記評価部が相関関係を評価した結果に基づいて、仮設定した前記閾値を評価する閾値算出部１５、をさらに備え、前記閾値算出部１５は、仮設定した前記閾値が適正であると評価できるまで、前記閾値の仮設定と仮設定した前記閾値に対する評価を繰り返す。
これにより、相関指標と疑似相関指標の判定に用いる閾値を自動で設定することができる。

（４）第４の態様に係る相関構造分析装置１０は、（３）の相関構造分析装置１０であって、前記閾値算出部１５は、仮設定した前記閾値の適正さの評価を、Accuracy、Precision、Recall、F1値の４つの評価指標のうちの何れか1つ又は複数を用いて行う。
機械学習の分野でモデルの評価に用いる評価指標を用いて閾値の精度を評価する。４つの評価指標を適切に組み合わせて用いることで、所望の性質を有する閾値を設定することができる。例えば、Precisionを重視することでＦＰを抑え、Recallを重視することでＦＮを抑えるような閾値を得ることができる。

（５）第５の態様に係る相関構造分析装置１０は、（１）～（４）の相関構造分析装置１０であって、前記指標計算部１３は、前記データ読込部１１が取得した前記変数ごとのデータ型が、計量尺度を有するデータか、順序尺度を有するデータか、名義尺度を有するデータか、に応じて、異なる計算方法で前記相関指標および前記疑似相関指標を計算する。
これにより、どのようなデータ型の変数が読み込まれても、自動的に適切な方法で、相関指標および疑似相関指標を計算することができる。

（６）第６の態様に係る相関構造分析装置１０は、（１）～（５）の相関構造分析装置１０であって、前記指標計算部１３は、前記２つの変数が計量尺度を有するデータの組合せの場合、前記相関指標として相関係数を計算し、前記疑似相関指標として偏相関係数を計算し、前記２つの変数が計量尺度を有するデータと順序尺度を有するデータの組合せの場合、計量尺度を有するデータを、順序尺度を有するデータに尺度変換して、前記相関指標として順位相関係数を計算し、前記疑似相関指標として順位偏相関係数を計算する。
これにより、変数が計量データ又は順位データの場合に、相関指標と疑似相関指標を計算することができる。

（７）第７の態様に係る相関構造分析装置１０は、（１）～（６）の相関構造分析装置１０であって、前記指標計算部１３は、前記２つの変数のうち少なくとも１つが名義尺度を有するデータの場合、前記相関指標として相互情報量を計算し、前記疑似相関指標として条件付き相互情報量を計算し、前記条件付き相互情報量の計算では、前記２つの変数の相互情報量を計算したのち、前記２つの変数を１つの変数Ｘとみなし、変数Ｘと他の変数との相互情報量を計算する。
これにより、変数がカテゴリデータの場合に、相関指標と疑似相関指標を計算することができる。特に、カテゴリデータに対する疑似相関指標の計算方法は確立されていなかったが、条件付き相互情報量を計算により、カテゴリデータの疑似相関指標を計算することができる。

（８）第８の態様に係る相関構造分析装置１０は、（７）の相関構造分析装置１０であって、前記指標計算部１３は、前記変数Ｘと他の変数との相互情報量の計算では、前記変数Ｘについて、前記２つの変数を昇順に並べ替え、その順番を維持しながら前記２つの変数の組合せを複数通り作成し、複数通りの組み合わせ方で作成されたそれぞれの前記変数Ｘについて、他の変数との間の相互情報量を計算する。
これにより、条件付き相互情報量の計算において妥当な計算結果を得ることができる。

（９）第９の態様に係る相関構造分析装置１０は、（７）～（８）の相関構造分析装置１０であって、前記指標計算部は、前記２つの変数のうち少なくとも１つが名義尺度を有するデータの場合、当該データの並び順を複数通り作成し、それぞれの並び順について相互情報量を計算する。
これにより、相互情報量および条件付き相互情報量の計算において妥当な計算結果を得ることができる。

（１０）第１０の態様に係る相関構造分析装置１０は、（１）～（９）の相関構造分析装置１０であって、前記複数の変数を平面上に並べて表示し、前記評価部による評価結果に基づいて、それぞれの前記変数の間の相関関係を表示したネットワーク図を出力する分析結果出力部、を更に備える。
これにより、各変数間の相関関係（相関の有無、疑似相関、隠れていた相関）を可視化することができる。

（１１）第１１の態様に係る相関構造分析装置１０は、（１０）の相関構造分析装置１０であって、前記分析結果出力部は、前記指標計算部の計算結果に基づいて、前記２つの変数の前記相関指標又は前記疑似相関指標の値の大きさに応じて、その相関の強さを色又は濃淡で表現したヒートマップを出力する。
これにより、各変数間の相関の強さを可視化することができる。

（１２）第１２の態様に係る相関構造分析方法は、複数の変数を含んだデータを取得するステップと、前記複数の変数のうちの２つの前記変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算するステップと、前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価するステップと、を有し、前記相関関係を評価するステップでは、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する。

（１３）第１３の態様に係るプログラムは、コンピュータ９００に、複数の変数を含んだデータを取得するステップと、前記複数の変数のうちの２つの前記変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算するステップと、前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価するステップと、を有し、前記相関関係を評価するステップでは、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する処理を実行させる。

１０・・・相関構造分析装置
１１・・・データ読込部
１２・・・入力部
１３・・・指標計算部
１４・・・評価部
１５・・・閾値算出部
１６・・・分析結果出力部
１７・・・記憶部
９００・・・コンピュータ
９０１・・・ＣＰＵ
９０２・・・主記憶装置
９０３・・・補助記憶装置
９０４・・・入出力インタフェース
９０５・・・通信インタフェース

Claims

複数の変数を含んだデータを取得するデータ読込部と、
前記複数の変数のうちの２つの変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算する指標計算部と、
前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価する評価部と、
を備え、
前記評価部は、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する、
相関構造分析装置。
前記評価部は、前記２つの変数の相関関係が、相関あり、相関なし、疑似相関、隠れていた相関あり、の何れであるかを評価する、
請求項１に記載の相関構造分析装置。
第１のサンプル変数と、前記第１のサンプル変数と相関を有する第２のサンプル変数と、前記第１のサンプル変数又は前記第２のサンプル変数と疑似相関を有する第３のサンプル変数と、を生成して、前記閾値を仮設定し、
前記第１のサンプル変数と前記第２のサンプル変数と前記第３のサンプル変数について、仮設定された前記閾値に基づいて前記評価部が相関関係を評価した結果に基づいて、仮設定した前記閾値を評価する閾値算出部、
をさらに備え、
前記閾値算出部は、仮設定した前記閾値が適切であると評価できるまで、前記閾値の仮設定と仮設定した前記閾値に対する評価を繰り返す、
請求項１または請求項２に記載の相関構造分析装置。
前記閾値算出部は、仮設定した前記閾値の適切さの評価を、Accuracy、Precision、Recall、F1値の４つの評価指標のうちの何れか1つ又は複数を用いて行う、
請求項３に記載の相関構造分析装置。
前記指標計算部は、前記データ読込部が取得した前記変数ごとのデータ型が、計量尺度を有するデータか、順序尺度を有するデータか、名義尺度を有するデータか、に応じて、異なる計算方法で前記相関指標および前記疑似相関指標を計算する、
請求項１から請求項４の何れか１項に記載の相関構造分析装置。
前記指標計算部は、
前記２つの変数が計量尺度を有するデータの組合せの場合、前記相関指標として相関係数を計算し、前記疑似相関指標として偏相関係数を計算し、
前記２つの変数が計量尺度を有するデータと順序尺度を有するデータの組合せの場合、計量尺度を有するデータを、順序尺度を有するデータに尺度変換して、前記相関指標として順位相関係数を計算し、前記疑似相関指標として順位偏相関係数を計算する、
請求項１から請求項５の何れか１項に記載の相関構造分析装置。
前記指標計算部は、
前記２つの変数のうち少なくとも１つが名義尺度を有するデータの場合、前記相関指標として相互情報量を計算し、前記疑似相関指標として条件付き相互情報量を計算し、
前記条件付き相互情報量の計算では、前記２つの変数の相互情報量を計算したのち、前記２つの変数を１つの変数Ｘとみなし、変数Ｘと他の変数との相互情報量を計算する、
請求項１から請求項６の何れか１項に記載の相関構造分析装置。
前記指標計算部は、前記変数Ｘと他の変数との相互情報量の計算では、前記変数Ｘについて、前記２つの変数を昇順に並べ替え、その順番を維持しながら前記２つの変数の組合せを複数通り作成し、複数通りの組み合わせ方で作成されたそれぞれの前記変数Ｘについて、他の変数との間の相互情報量を計算する、
請求項７に記載の相関構造分析装置。
前記指標計算部は、前記２つの変数のうち少なくとも１つが名義尺度を有するデータの場合、当該データの並び順を複数通り作成し、それぞれの並び順について相互情報量を計算する、
請求項７または請求項８に記載の相関構造分析装置。
前記複数の変数を平面上に並べて表示し、前記評価部による評価結果に基づいて、前記変数の間の相関関係を表示したネットワーク図を出力する分析結果出力部、
を更に備える請求項１から請求項９の何れか１項に記載の相関構造分析装置。
前記分析結果出力部は、前記指標計算部の計算結果に基づいて、前記２つの変数の前記相関指標又は前記疑似相関指標の値の大きさに応じて、その相関の強さを色又は濃淡で表現したヒートマップを出力する、
請求項１０に記載の相関構造分析装置。
複数の変数を含んだデータを取得するステップと、
前記複数の変数のうちの２つの変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算するステップと、
前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価するステップと、
を有し、
前記相関関係を評価するステップでは、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する、
相関構造分析方法。
コンピュータに、
複数の変数を含んだデータを取得するステップと、
前記複数の変数のうちの２つの変数の相関を示す相関指標と、他の前記変数の影響を除いた前記２つの変数の相関を示す疑似相関指標と、を計算するステップと、
前記相関指標および前記疑似相関指標とそれぞれの指標に対する所定の閾値とに基づいて、前記２つの変数の相関関係を評価するステップと、
を有し、
前記相関関係を評価するステップでは、前記２つの変数の間に疑似相関を排除した相関関係があるか否かを評価する処理、
を実行させるプログラム。