JP6820621B2

JP6820621B2 - 相互依存性の特定方法

Info

Publication number: JP6820621B2
Application number: JP2019509406A
Authority: JP
Inventors: 努森; 河村　隆; 隆河村
Original assignee: Fukushima Medical University
Current assignee: Fukushima Medical University
Priority date: 2017-03-31
Filing date: 2018-03-30
Publication date: 2021-01-27
Anticipated expiration: 2038-03-30
Also published as: JPWO2018181988A1; WO2018181988A1

Description

本発明は、大規模データの情報処理方法、当該方法を実行させるためのコンピュータ用プログラム、及び当該プログラムを保存した記録媒体に関する。詳しくは、本発明は、２つの事象間の相互依存性の特定方法、当該方法を実行させるためのコンピュータ用プログラム、及び当該プログラムを保存した記録媒体に関する。

昨今のコンピュータ技術の発展により、各種の手段によって、データが収集されており、異なる種類のデータを含む大量のデータが蓄積されている。これらの大規模のデータには、有用な情報が含まれていると期待されており、これを効果的に解析すれば、これらのデータに含まれる複数の事象相互の関係を統計的に有意に特定することを通じて、未知の事象の特性を正確に特定することができると期待される。しかしながら、これらの大規模のデータは、各種の異なる条件のもとで独立に取得されたものである場合も多く、含まれるデータに伴うノイズによって解析結果の精度が低下することもあり、このようなデータを、大規模な範囲にわたって網羅的に統一的に用いて効率的に解析を行うことは容易ではなかった。

複数の事象間の相互情報量は、当該事象間の相互依存性の尺度を表す量として用いられている。複数の事象間の相互情報量を算出することにより、複数の事象間の相互依存性を特定することができ、これにより、当該事象の特性を特定することができると期待される。ＸとＹの相互情報量は後述する式のとおり定義されるが、当該定義の式に示されるように、従来、相互情報量は、これを算出したサンプルの数Ｎを考慮するものではなく、統計的有意性を考慮するものとしては考えられていなかった。また、当該定義の式に示されるように、相互情報量は、異なる条件下で得られたデータを組み合わせて用いて算出することができるとは考えられていなかった。なお、相互情報量を用いて大量のデータを解析する技術は、文書、音声、画像、位置、生命、天文、金融、売上など多様な情報の処理に用いられている。生命情報のデータ解析のアルゴリズムとしては、例えばＡＲＡＣＮＥなどが知られている（非特許文献１）。

ところで、フィッシャーの正確確率検定は、主に標本数が少ない場合などに、２つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法であり、各種の統計処理に用いられてきた（非特許文献２〜３）。フィッシャーの正確確率と相互情報量との関係は、これまで知られていない。

ＮＡＴＵＲＥＲＥＶＩＥＷＳＣＡＮＣＥＲ，ＶＯＬＵＭＥ１７，ＦＥＢＲＵＡＲＹ２０１７，１１６−１３０知能と情報（日本知能情報ファジィ学会誌）Ｖｏｌ．２０，Ｎｏ．４，ｐｐ．４６１−４７２（２００８）ＪＴｈｅｏｒＢｉｏｌ．２００４Ｏｃｔ７；２３０（３）：３５９−７３

本発明は、異なる条件のもとで独立に取得された各種のデータを大規模な範囲にわたって網羅的に統一的に用いる場合であっても、これらのデータに示される複数の事象の相互依存性を、統計的に有意に、効率的に正確に特定することを目的とする。

本発明者らは、鋭意検討していたところ、２×２の分割表に基づいて算出したフィッシャーの正確確率Ｐと、当該分割表の作成に用いたサンプル数Ｎとを用いて、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）を算出すれば、相互情報量を近似的に算出することができることを見出した。すなわち、本発明者らは、Ｎ個のサンプルについて含むデータから、２値データを含むデータセットを取得し、これを用いて、２×２の分割表を作成し、これに基づいてフィッシャーの正確確率Ｐを算出し、前記Ｎ及び前記Ｐを用いて、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）を算出することにより、事象間の相互情報量を算出して、当該事象どうしの相互依存性を特定することができることを見出した。フィッシャーの正確確率Ｐは、確率理論において研究が進められてきた概念であるのに対して、相互情報量は、主に情報理論において研究が進められてきた概念であり、両者が関係することの発見は、極めて画期的である。なお、ここで、ｌｏｇ_１０２は定数であるため、当該事象どうしの相互依存性の特定は、−ｌｏｇ_１０Ｐ／Ｎの算出においても可能である。本明細書において、−ｌｏｇ_１０Ｐ／Ｎの算出は、広義において、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の算出を含意するものとする。

すなわち、本発明は、第１の態様において、第１の事象と第２の事象の相互依存性の特定方法であって、第１の事象の情報と第２の事象の情報をＮ個のサンプルについて含むデータから取得された、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、サンプルの数を集計した、２×２の分割表に基づいて算出された、フィッシャーの正確確率Ｐと、前記Ｎをもとに、−ｌｏｇ_１０Ｐ／Ｎを算出する工程を含むことを特徴とする、方法を提供するものである。

フィッシャーの正確確率Ｐは、統計学を用いるものであるため、従来知られている方法によって、メタ解析を行うことができる。メタ解析によれば、異なる種類のサンプルについてのデータなど、異なる条件によって取得したデータをもとにそれぞれ算出した複数のフィッシャーの正確確率Ｐを統合し、これらの全体のデータについてのフィッシャーの正確確率Ｐを算出することができる。したがって、前記の相互依存性の特定方法において、異なる条件によって取得したデータをもとに、それぞれフィッシャーの正確確率Ｐを算出し、算出したそれぞれのフィッシャーの正確確率Ｐを統合し、統合して得られたフィッシャーの正確確率を用いることによって、異なる条件によって取得したデータの全体をもとに、事象間の相互依存性を特定することができる。これは、異なる条件によって取得したデータの全体をもとにして事象間の相互情報量を算出し、当該事象間の相互依存性を特定するという、従来行うことができなかったことを可能にしたものである。なお、複数のフィッシャーの正確確率Ｐは、そのための２×２の分割表を集計する基準が異なっていても、メタ解析によって統合することができるため、その正確確率を算出するための２×２の分割表を集計する基準が異なっていても構わない。

したがって、本発明は、第２の態様において、前記第１の態様の方法であって、前記フィッシャーの正確確率Ｐが、（１）第１の事象の情報と第２の事象の情報をＮ_１個のサンプルについて含むデータから、第１の事象についての第１の基準及び第２の事象についての第１の基準に基づき取得された、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、サンプルの数を集計した、２×２の分割表に基づいて算出された、フィッシャーの正確確率Ｐ_１と、（２）第１の事象の情報と第２の事象の情報をＮ_２個のサンプルについて含むデータから、第１の事象についての第２の基準及び第２の事象についての第２の基準に基づき取得された、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、サンプルの数を集計した、２×２の分割表に基づいて算出された、フィッシャーの正確確率Ｐ_２とを含む、複数のフィッシャーの正確確率を、メタ解析を用いて統合する工程を含む方法により算出されたものである、方法を提供するものである。

本発明は、第３の態様において、第１の態様又は第２の態様に記載の方法を実行させるためのコンピュータ用プログラムを提供するものである。

本発明は、第４の態様において、第３の態様に記載のコンピュータ用プログラムを保存した記録媒体を提供するものである。

本発明によれば、サンプル数Ｎを考慮せず、統計的有意性に関する配慮を欠いていた従来の方法とは異なり、フィッシャーの正確確率とサンプル数を考慮した値として、統計的有意性を考慮しつつ、事象間の相互情報量を算出して、当該事象間の相互依存性を特定することができる。また、発明によれば、メタ解析を用いて事象間の相互情報量を算出するため、異なる条件下で取得された異なる種類のサンプルについてのデータであっても、それらを組み合わせた全体のデータにつき、事象間の相互情報量を算出して、当該事象間の相互依存性を特定することができる。このため、全体のデータに含まれる各種のサンプルの特性によるバイアスを低減させつつ、多量のデータをもとにして、より正確に統計的に有意に、事象間の相互依存性を特定することができる。さらに、本発明において、フィッシャーの正確確率を算出したのち、算出したその値につき、有意水準を適用して、得られた結果に応じて、得られたフィッシャーの正確確率のデータを破棄して、その後の演算に用いる対象としないことなどを行えば、各種のデータに伴うノイズを低減し、有意性に乏しいデータを大幅に除去することによって、計算負荷を低減させつつ、より正確に統計的に有意に、事象間の相互依存性を特定することができる。

フィッシャーの正確確率ｐと相互情報量ＭＩの関係を示すグラフである。各遺伝子につき算出したＥＧＦＲとの相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したＥＧＦＲとの相互情報量にＮｌｏｇ_１０２を掛けた値を示す。各遺伝子につき算出したＲＢ１との相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したＲＢ１との相互情報量にＮｌｏｇ_１０２を掛けた値を示す。各遺伝子につき算出したＩＦＮＧとの相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したＩＦＮＧとの相互情報量にＮｌｏｇ_１０２を掛けた値を示す。各遺伝子につき算出したＧＲＭ１との相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したＧＲＭ１との相互情報量にＮｌｏｇ_１０２を掛けた値を示す。

本発明は、第１の事象と第２の事象の相互依存性の特定方法を提供する。ここで、事象の例としては、対象について観察結果として把握される状態が挙げられる。対象の例としては、遺伝子、単語が挙げられる。対象の別の例としては、文書、音声、画像、位置、生命、天文、金融、売上などに関するものが挙げられる。状態の例としては、当該対象の平均的な性質と異なることが挙げられる。事象の例としては、遺伝子の変化、エピジェネティックな変化、株価の上昇・下落が挙げられる。事象の別の例としては、複数の単語が同一の文において用いられること、売り上げに特定の商品の売り上げが含まれることが挙げられる。

遺伝子の変化の例としては、遺伝子配列の変異、遺伝子の発現産物の変化、遺伝子の修飾の変化が挙げられる。遺伝子配列の変異の例としては、遺伝子の塩基配列の変異、遺伝子の染色体上のコピー数の変化、遺伝子の修飾の変化が挙げられる。遺伝子の塩基配列の変異の例としては、遺伝子の点突然変異、遺伝子に対する塩基配列の付加、遺伝子における塩基配列の欠失が挙げられる。遺伝子の発現産物の例としては、タンパク質、ｍＲＮＡ、ｍｉＲＮＡ（ｍｉｃｒｏ−ＲＮＡ）が挙げられる。遺伝子の発現産物の変化の例としては、遺伝子の発現産物の発現量の変化、遺伝子の発現産物の発現箇所の変化、遺伝子の発現産物の複合体の形成、遺伝子の発現産物の複合体の分解が挙げられる。遺伝子の修飾の例としては、ＤＮＡメチル化、ヒストン修飾が挙げられる。ヒストン修飾の例としては、アセチル化、メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化が挙げられる。また、遺伝子の修飾の例としては、翻訳後修飾が挙げられる。翻訳後修飾の例としては、官能基付加、タンパク質またはペプチドの付加、アミノ酸の化学的性質の変換、構造変換が挙げられる。官能基付加の例としては、アシル化、アセチル化、アルキル化、アミド化、ビオチニル化、ホルミル化、γカルボキシル化、グルタミル化、グリコシル化、グリシル化、ヘム、ヒドロキシル化、ヨウ素化、イソプレニル化、リポイル化（プレニル化、ＧＰＩアンカー形成、ミリストイル化、ファルネシル化、ゲラニルゲラニル化など）、ヌクレオチドまたは誘導体への共有結合の付加（ＡＤＰリボシル化、ＦＡＤ結合など）、酸化還元反応、ポリエチレングリコール化、ホスファチジルイノシトール、ホスホパンテテイニル化、リン酸化、ピログルタミン酸形成、ラセミ化、チロシン硫酸化、セレノイル化が挙げられる。タンパク質またはペプチドの付加の例としては、ＩＳＧ化、ＳＵＭＯ化、ユビキチン化が挙げられる。アミノ酸の化学的性質の変換の例としては、シトルリン化または脱アミン、脱アミドが挙げられる。構造変換の例としては、ジスルフィド、プロテアーゼによるものが挙げられる。

遺伝子の例としては、ヒト、サル、マウス、ラット等の哺乳類の遺伝子が挙げられる。エピジェネティックな変化の例としては、細胞分裂を通して受け継がれる変化であって、ＤＮＡ塩基配列の変化とは独立した変化が挙げられる。

第１の事象と第２の事象において、第１と第２は、第１の事象と第２の事象を区別するための記号であり、これらの事象の順序を限定するものではない。ここで、第１の事象と第２の事象とは、異なる対象についての同一の状態であってもよく、同一の対象についての異なる状態であってもよい。例えば、第１の事象が、遺伝子Ａの塩基配列の変異であり、第２の事象が、遺伝子Ｂの塩基配列の変異であってもよい。また、例えば、第１の事象が、遺伝子Ａの配列の変異であり、第２の事象が、遺伝子Ａの発現産物の発現量の変化であってもよい。なお、ここで、遺伝子Ａと遺伝子Ｂは、異なる遺伝子を指す。

事象の例としては、有無で表されるもの、数値で表されるものが挙げられる。数値で表されるものの例としては、２を超える離散量で表されるもの、連続量で表されるものが挙げられる。第１の事象と第２の事象は、異なるように表されるものであってよく、例えば、第１の事象が有無で表されるものであり、第２の事象が２を超える離散量で表されるものであってもよい。

本発明においては、第１の事象の情報と第２の事象の情報をＮ個のサンプルについて含むデータが用いられる。ここで、Ｎ個のサンプルは、例えば、事象についての観察結果を与える、共通の性質を有するＮ個の主体である。Ｎの例としては、１０以上、１００以上、１,０００以上、１０,０００以上、１００,０００以上などの数値が挙げられる。Ｎが大きいほど、より正確に、第１の事象と第２の事象の相互依存性を特定することができる。前記の共通の性質の例としては、生物に由来すること、ヒトに由来すること、疾患を有するヒトに由来すること、がんを有するヒトに由来すること、特定の種類のがんを有するヒトに由来することが挙げられる。前記主体の例としては、ヒト等の生物の細胞、臓器その他の生体試料が挙げられる。

特定の種類のがんの例としては、白血病、リンパ腫、ホジキン病、非ホジキンリンパ腫、多発性骨髄腫、脳腫瘍、乳がん、子宮体がん、子宮頚がん、卵巣がん、食道癌、胃癌、虫垂癌、大腸癌、肝癌、肝細胞癌、胆嚢癌、胆管癌、膵臓がん、副腎癌、消化管間質腫瘍、中皮腫、頭頚部癌、喉頭癌、口腔癌、口腔底癌、歯肉癌、舌癌、頬粘膜癌、唾液腺癌、副鼻腔癌、上顎洞癌、前頭洞癌、篩骨洞癌、蝶型骨洞癌、甲状腺癌、腎臓がん、肺癌、骨肉腫、前立腺癌、精巣腫瘍（睾丸がん）、腎細胞癌、膀胱癌、横紋筋肉腫、皮膚癌、肛門癌が挙げられる。

疾患、特にがんに罹患した生物は、遺伝子間の相互作用が増幅しているため、疾患、特にがんに罹患した生物に由来する細胞、臓器その他の生体試料は、異なる遺伝子についての相互依存性を特定するためのサンプルとして、好適である。

本発明において用いられる前記データは、第１の事象の情報と第２の事象の情報を、Ｎ個のサンプルについて含む。ここで、第１の事象の情報と第２の事象の情報をＮ個のサンプルについて含むデータにおいては、例えば、Ｎ個のそれぞれのサンプルが、第１の事象の情報と第２の事象の情報を含む。ここで、事象の情報の例としては、（１）事象が有無で表されるものである場合は、そのサンプルにつきその事象があったか、その事象がなかったかの情報が挙げられ、（２）事象が数値で表されるものである場合は、そのサンプルについての数値が挙げられる。

本発明においては、前記の第１の事象の情報と第２の事象の情報をＮ個のサンプルについて含むデータから、第１の事象についての２値データと第２の事象についての２値データを含むデータセットが取得される。ここで、事象についての２値データの例としては、事象が有無で表される場合における有無のデータ、事象が数値で表される場合における基準値以上又は基準値未満のデータが挙げられる。前記の事象についての２値データを含むデータセットは、例えば、（１）事象が有無で表される場合においては、データに含まれる事象の情報をそのまま用いることにより取得することができ、（２）事象が数値で表される場合においては、基準値を設定し、データに含まれるサンプルについての事象の情報を、基準値以上又は基準値未満と判定し、判定結果として２値データを取得し、これをＮ個のサンプルについて繰り返すことにより、取得することができる。第１の事象についての２値データと第２の事象についての２値データを含むデータセットの取得は、例えば、（１）第１の事象の情報につき前記の方法を行い、第１の事象についての２値データを取得し、（２）第２の事象の情報につき前記の方法を行い、第２の事象についての２値データを取得し、（３）取得されたそれぞれの２値データを組み合わせることによって、行うことができる。前記において取得された、第１の事象についての２値データと第２の事象についての２値データを含むデータセットは、例えば、線形インデックスを用いた形式であってもよい。

本発明の方法は、前記において取得された、第１の事象についての２値データと第２の事象についての２値データを含むデータセットを用いることにより、有無で表される事象、数値で表される事象、２を超える離散量で表される事象、連続量で表される事象などの事象の種類を問わずに用いることができる。したがって、本発明の方法は、複数の事象につき、繰り返し行うことに適している。本発明の方法は、複数の事象につき、繰り返し行う場合であっても、同一のアルゴリズムを用いて行うことができるため、簡便に統一的な解析を行うことができる。

生体内の各遺伝子の機能は多様であり、各遺伝子の状態を特定するパラメータは多様であり、各パラメータは連続的または離散的な値を取りうるものであるため、各種の遺伝子についての情報を含むデータを、統一的に用いて各種の遺伝子の相互依存性を特定することは容易ではなかった。本発明の方法は、各種の遺伝子についての情報の種類を問わずに用いることができ、各種の遺伝子について繰り返し行う場合であっても、共通の手法を用いて行うことができるため、簡便に統一的な解析を行うことができる。したがって、本発明の方法は、複数の遺伝子についての情報を含むデータを、統一的に用いてそれらの遺伝子の相互依存性を特定するために用いることに適している。

本発明においては、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、２×２の分割表にサンプルの数が集計される。当該２値データを含むデータセットからの２×２の分割表へのサンプルの数の集計は、例えば、第１の事象についての２値データと第２の事象についての２値データが、いずれも、有無で表される場合には、以下の表１における各欄の条件に該当するサンプル数であるａ、ｂ、ｃ及びｄを集計することにより行えばよい。なお、ａ〜ｄの総和は、前記データセットに含まれるサンプル数のＮである。

２×２の分割表への集計においては、前記の条件に該当するサンプル数であるａ、ｂ、ｃ及びｄを集計しさえすれば、表を用いなくてもよい。例えば、（１）第１の事象があり、第２の事象があるという条件（２）第１の事象があり、第２の事象がないという条件、（３）第１の事象がなく、第２の事象があるという条件、及び（４）第１の事象がなく、第２の事象がないという条件を設定し、Ｎ個のサンプルのそれぞれが（１）〜（４）の条件のいずれに該当するかを判定して、Ｎ個のサンプルのそれぞれを、前記各条件に分類し、これをＮ個の全サンプルについて繰り返し、各条件に分類されたサンプルの数を集計することによって、（１）〜（４）の条件に該当するサンプルの数として、それぞれ、サンプル数ａ、ｂ、ｃ及びｄを取得してもよい。この場合、（１）ａは、Ｎ個の全サンプルにしめる、第１の事象があり、第２の事象があるサンプルの数であり、（２）ｂは、Ｎ個の全サンプルにしめる、第１の事象があり、第２の事象がないサンプルの数であり、（３）ｃは、Ｎ個の全サンプルにしめる、第１の事象がなく、第２の事象があるサンプルの数であり、（４）ｄは、Ｎ個の全サンプルにしめる、第１の事象がなく、第２の事象がないサンプルの数である。

本発明においては、当該サンプルの数を集計した２×２の分割表に基づいて、フィッシャーの正確確率Ｐが算出される。フィッシャーの正確確率Ｐの算出においては、まず、前記のａ、ｂ、ｃ、ｄ及びＮと、以下の式により、ｐを算出する。

次に、前記の表１のように２×２の分割表にサンプルの数を集計した前記のデータセットよりも生起しにくいデータセットを全て想定し、そのそれぞれのデータセットにつき、同様に、２×２の分割表にサンプルの数を集計し、同様に、前記の式を用いてｐを算出する。算出された全てのｐを合計することにより、フィッシャーの正確確率Ｐを算出することができる。

本発明においては、算出された当該フィッシャーの正確確率Ｐと、前記Ｎをもとに、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）が算出される。−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の算出は、Ｐ及びＮをもとに、例えば、コンピュータをもとに行ってもよい。

本発明者らの見出したところによれば、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）は、第１の事象と第２の事象の間の相互情報量を近似する。ここで、相互情報量とは、情報理論において用いられている２つの確率変数の相互依存の尺度を表す量である。相互情報量は、ＸとＹが共有する情報量の尺度である。２つの離散確率変数ＸとＹの相互情報量ＭＩは、例えば、以下の式において定義される。

上の式において、ｐ（ｘ_ｉ，ｙ_ｊ）はＸとＹの同時分布関数、ｐ（ｘ_ｉ）とｐ（ｙ_ｊ）はそれぞれＸとＹの周辺確率分布関数である。

また、２つの連続確率変数ＸとＹの相互情報量Ｉ（Ｘ；Ｙ）は、例えば、以下の式において定義される。

上の式において、ｐ（ｘ，ｙ）はＸとＹの同時分布密度関数、ｐ（ｘ）とｐ（ｙ）はそれぞれＸとＹの周辺確率密度関数である。

これらの式は、あり得る全てのデータ範囲において２変数の同時確率の期待値を計算して、その総和を求めることによって、相互情報量が算出されることを意味している。

第１の事象と第２の事象の間の相互情報量ＭＩと、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）との関係につき、本発明者らの見出した知見を以下に示す。まず、２個の確率変数ＡとＢの間の以下の表２及び表３の分割表を考え、それらは、それぞれＡとＡ’、ＢとＢ’の２個の値を取るとする。

表２は確率変数の組み合わせの相対度数を示す。よって、Ｘ_０、Ｘ_１、Ｘ_２、Ｘ_３はそれぞれＡＢ、Ａ’Ｂ、ＡＢ’、Ａ’Ｂ’の割合である。表３は、相対度数にＮを掛けて得られる度数そのものを表す。

そのとき、相互情報量ＭＩは次のように定義される。ここで対数は自然対数である。

他方、フィッシャーの正確確率検定のｐ値の主要項は以下のようになる。

両辺においてｌｏｇを取ると、

スターリング（Ｓｔｉｒｌｉｎｇ）の公式を用いて、ｌｏｇＮ！を（ＮｌｏｇＮ−Ｎ）で近似して、Ｘ_０＋Ｘ_１＋Ｘ_２＋Ｘ_３＝１を使うと、

よって、

以上のとおり、本発明者らは、事象間の相互情報量ＭＩは、フィッシャーの正確確率Ｐを対数変換した−ｌｏｇ_１０Ｐ値の定数倍と近似的に等しいことを見出した。ここで、Ｎはサンプル数を示し、Ｎ→∞のとき両辺は等しい値に近づく。

さらに、本発明者らは、後記実施例において示すように、サンプル数が１０１９の場合において、相互情報量が、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）によって充分に近似できることを見出し、Ｎがこのような数値である場合において、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）を用いることによって、第１の事象と第２の事象の相互依存性を正確に特定することができることを見出した。したがって、本発明において、サンプルの個数であるＮは、好ましくは、１００以上、より好ましくは、５００以上、さらに好ましくは、１，０００以上である。従来、フィッシャーの正確確率Ｐは、サンプル数が少ない場合、すなわち、Ｎの数が小さい場合に用いられることが多かった。本発明は、このようにサンプル数が多いデータの解析のために、フィッシャーの正確確率Ｐを用いて、優れた効果を得るものであり、画期的である。また、従来の相互情報量の計算は、サンプル数Ｎを考慮せずに行われており、統計的有意性に関する配慮が欠如していた。例えば、１０例のデータだけから計算された相互情報量は、１，０００例のデータに基づく相互情報量に比べ統計的有意性は１０^−１００しかないが、相互情報量の従来の算出方法は、これらを区別していなかった。本発明における−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）を用いる上記の相互情報量の算出方法は、サンプル数Ｎを用いて近似的に相互情報量を求めるものであり、データの持つ重みを考慮したものとして相互情報量を算出することができ、画期的である。

このように、上記のとおり算出した−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）は、第１の事象と第２の事象の相互情報量に近似しており、これを用いることにより、第１の事象と第２の事象の相互依存性を特定することができる。ここで、第１の事象と第２の事象の相互依存性の特定は、上記のとおり算出した−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値それ自体を評価して行ってもよい。また、第１の事象と第２の事象の相互依存性の特定においては、第１の事象と第２の事象について行った−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の算出と同様の方法を、第２の事象に代えて、第２の事象と異なる第３の事象について行い、得られた第１の事象と第３の事象について算出した−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値と、第１の事象と第２の事象について算出した−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値との比較を行ってもよい。ここで、第３の事象は、第１の事象との相互依存性が既知であってもよい。相互依存性が既知であることの例としては、相互依存性の程度または意味を裏付ける実験結果が既に存在することが挙げられる。また、相互依存性の特定にあたっては、相互情報量そのものである−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）を算出してもよいが、−（ｌｏｇ_１０Ｐ）／Ｎを算出してもよい。−（ｌｏｇ_１０Ｐ）／Ｎは、相互依存性の高さを示す数値となり、この数値を用いて相互依存性の高さの比較を行うことが可能であり、この数値を用いて相互依存性の強さを判定することもでき、数値が高いほど相互依存性が強いと判定することができる。これらの方法により、第１の事象と第２の事象の相互依存性を、より正確に特定することができる。

同様に、相互に異なる複数の事象について、それぞれ、第１の事象について−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値を算出し、当該複数の事象について算出した値と、第１の事象と第２の事象について算出した−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値と比較してもよい。これらの方法により、第１の事象と第２の事象の相互依存性を、より一層正確に特定することができる。

さらに、相互に異なる複数の事象について、それぞれ、第１の事象について算出した−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値の大きさに応じて、当該事象を順位付けたリストを作成し、当該リストをもとに、第１の事象の性質を特定してもよい。当該リストをもとにして第１の事象の性質を特定するにあたっては、当該リストに含まれる事象の性質を考慮してもよい。なお、当該リストは、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）を算出せずに、−ｌｏｇ_１０Ｐ／Ｎの大きさに応じた順位付けによっても作成することができる。

−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値を算出する事象の数は、例えば、第１の事象及び第２の事象と共通の性質を有する事象の全体の数である。例えば、第１の事象と第２の事象がいずれもヒトの遺伝子についてのものである場合には、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の値を算出する事象の数の例は、ヒトの遺伝子の総数である約２０，０００である。前記のリストをもとに、第１の事象の性質を特定する場合、当該リストに含まれる事象の数は、例えば、当該第１の事象及び第２の事象と共通の性質を有する事象の全体の数の５０％以下、２０％以下又は１０％以下としてもよい。

事象が、遺伝子についてのものである場合において、特定する相互依存性の例としては、当該遺伝子の分子細胞機能、生理機能、疾患関連性、生物学的パスウェイに関するものが挙げられ、また、細胞表面分子同士の相互作用、代謝経路、分子機能経路、薬剤標的性に関するものが挙げられる。疾患関連性の例としては、がんの発症や進展、免疫アレルギー疾患、神経精神疾患、先天異常との関連性が挙げられる。

本発明においては、用いるサンプルが、がんに罹患した患者に由来するものである場合であっても、がんに関連しない遺伝子どうしについての相互依存性を特定することができる。がんに関連しない遺伝子の例としては、神経系、免疫系、代謝、内分泌関連の遺伝子が挙げられる。また、逆に、本発明においては、用いるサンプルが、がんに罹患しない患者に由来するものである場合であっても、がんに関連する遺伝子どうしについての相互依存性を特定することができる。本発明において特定された相互依存性を用いることによって、疾患に対する標的分子や薬剤の特定を行うことができる。また、本発明において特定された相互依存性を用いることによって、オーファン受容体のリガンドの探索を行うことができる。

事象が単語についてのものである場合においては、例えば、事象が特定の文章において特定の単語が用いられることである場合においては、特定する相互依存性の例としては、当該単語の意味が挙げられる。

本発明の前記の方法において−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）の算出に用いられる前記フィッシャーの正確確率Ｐは、フィッシャーの正確確率Ｐ_１と、フィッシャーの正確確率Ｐ_２を含む複数のフィッシャーの正確確率を、メタ解析を用いて統合する工程を含む方法により算出されたものであってもよい。ここで、フィッシャーの正確確率Ｐ_１は、第１の事象の情報と第２の事象の情報をＮ_１個のサンプルについて含むデータから、第１の事象についての第１の基準及び第２の事象についての第１の基準に基づき取得された、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、サンプルの数を集計した２×２の分割表に基づいて算出されたものである。また、フィッシャーの正確確率Ｐ_２は、第１の事象の情報と第２の事象の情報をＮ_２個のサンプルについて含むデータから、第１の事象についての第２の基準及び第２の事象についての第２の基準に基づき取得された、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、サンプルの数を集計した２×２の分割表に基づいて算出されたものである。

前記フィッシャーの正確確率Ｐ_１の算出において、第１の事象の情報と第２の事象の情報をＮ_１個のサンプルについて含むデータは、ＮとＮ_１の相違を除き、前述と同様に取得することができる。前記フィッシャーの正確確率Ｐ_２の算出において、第１の事象の情報と第２の事象の情報をＮ_２個のサンプルについて含むデータは、ＮとＮ_２の相違を除き、前述と同様に取得することができる。ここで、Ｎ_１とＮ_２の合計は、Ｎを超えないが、Ｎと同一であってもよく、Ｎより小さくてもよい。前述のＮ個のサンプルは、前記Ｎ_１個のサンプル及びＮ_２個のサンプルを含むものである。Ｎ_１個のサンプルは、好ましくは、事象についての観察結果を与える、共通の性質を有するＮ_１個の主体であり、Ｎ_２個のサンプルは、好ましくは、事象についての観察結果を与える、共通の性質を有するＮ_２個の主体である。Ｎ_１個の主体に共通の性質と、Ｎ_２個の主体に共通の性質は、完全に一致しなくてもよい。例えば、Ｎ_１個の主体に共通の性質が、ヒトの乳癌疾患に由来することであり、Ｎ_２個の主体に共通の性質が、ヒトの肺癌疾患に由来することであってもよい。この場合であっても、Ｎ_１個のサンプル及びＮ_２個のサンプルを含むＮ個のサンプルは、ヒトのがん疾患に由来する性質を共通に有している。

前記フィッシャーの正確確率Ｐ_１の算出においては、第１の事象についての２値データと第２の事象についての２値データを含むデータセットが、第１の事象についての第１の基準及び第２の事象についての第１の基準に基づき取得される。また、前記フィッシャーの正確確率Ｐ_２の算出においては、第１の事象についての２値データと第２の事象についての２値データを含むデータセットが、第１の事象についての第２の基準及び第２の事象についての第２の基準に基づき取得される。

ここで、当該データセットの取得は、第１の事象についての第１の基準及び第２の事象についての第１の基準に基づくこと及び第１の事象についての第２の基準及び第２の事象についての第２の基準に基づくことを除き、前述と同様に行うことができる。第１の事象についての第１の基準と、第２の事象についての第１の基準は、それぞれ、Ｎ_１個のサンプルについて第１の事象についての２値データと第２の事象についての２値データを取得するための基準である。第１の事象についての第２の基準と、第２の事象についての第２の基準は、それぞれ、Ｎ_２個のサンプルについて、第１の事象についての２値データと第２の事象についての２値データを取得するための基準である。当該基準の例としては、事象が有無で表される場合においては、有無が挙げられ、事象が数値で表される場合においては、その数値の上下で分類するための基準値が挙げられる。当該基準値を用いる場合においては、例えば、数値が基準値以上であること、又は数値が基準値未満であることに応じて２値データに変換することができる。第１の事象についての第１の基準と、第１の事象についての第２の基準は、同一であっても、異なるものであってもよい。例えば、第１の事象が数値で表される場合において、第１の基準となる基準値と、第２の基準となる基準値とは、同一の数値であってもよく、異なる数値であってもよい。また、第１の事象についての第１の基準と、第２の事象についての第１の基準は、同一であっても、異なるものであってもよく、第１の事象についての第２の基準と、第２の事象についての第２の基準は、同一であっても、異なるものであってもよい。例えば、第１の事象も第２の事象も数値で表される場合において、第１の事象についての第１の基準となる基準値と、第２の事象についての第１の基準となる基準値とは、同一の数値であってもよく、異なる数値であってもよい。

このように、本発明においては、２を超える離散量で表されるデータ、及び連続量で表されるデータから２値データに変換したデータを用いることによって、データセットのもととなるデータが離散量であるか、連続量であるか、２値データであるかなどの種類を問わず、当該データのサンプルが異種であるか同種であるかを問わず、各種のデータを統一的に統計処理に用いることができ、広範囲のデータに基づく解析結果を得ることができる。

前記のように取得された第１の事象についての２値データと第２の事象についての２値データを含むデータセットを用いて、前述と同様の方法を行うことにより、Ｎ_１個のサンプルについて、第１の事象についての第１の基準と第２の事象についての第１の基準とに応じてサンプルの数を集計した２×２の分割表を取得することができる。同様に、Ｎ_２個のサンプルについて、第１の事象についての第２の基準と第２の事象についての第２の基準とに応じてサンプルの数を集計した２×２の分割表を取得することができる。取得されたＮ_１個のサンプルについての前記２×２の分割表からのフィッシャーの正確確率Ｐ_１の算出は、前述のフィッシャーの正確確率Ｐの算出と同様に行うことができる。同様に、取得されたＮ_２個のサンプルについての前記２×２の分割表からのフィッシャーの正確確率Ｐ_２の算出も、前述のフィッシャーの正確確率Ｐの算出と同様に行うことができる。

本発明において用いるフィッシャーの正確確率Ｐは、フィッシャーの正確確率Ｐ_１と、フィッシャーの正確確率Ｐ_２を含む複数のフィッシャーの正確確率を、メタ解析を用いて統合する工程を含む方法により算出されたものであってもよい。ここで、複数のフィッシャーの正確確率は、フィッシャーの正確確率Ｐ_１と、フィッシャーの正確確率Ｐ_２を含むものであり、その数は、例えば、２であるが、それを超える数であってもよい。フィッシャーの正確確率Ｐ_１と、フィッシャーの正確確率Ｐ_２のほか、当該複数のフィッシャーの正確確率に含まれるものとしては、これらと同様の方法により算出したフィッシャーの正確確率Ｐ_ｎが挙げられる。メタ解析を用いて統合するフィッシャーの正確確率の数は、特に限定はないが、例えば、２〜１００である。

メタ解析を用いた統合は、各種の方法が知られており、例えば、Ｒｏｓｅｎｔａｌ，Ｒ．（１９８４）．Ｍｅｔａ−ａｎａｌｙｔｉｃｐｒｏｃｅｄｕｒｅｓｆｏｒｓｏｃｉａｌｒｅｓｅａｒｃｈ．ＢｅｖｅｒｌｙＨｉｌｌｓ，ＣＡ：Ｓａｇｅには、異なる複数の検討条件下で得られたｐ値を統合してＰ_{ｏｖｅｒａｌｌ}を計算する方法が説明されている。メタ解析を用いた統合は、例えば、フィッシャーの正確確率検定における片側検定を対象として、以下のように行うことができる。まず、統合するそれぞれのフィッシャーの正確確率をｐ_ｉとして、これをＺ値（ｚ_ｉ）に変換する。

Ｚ値の合計を統合する個数（ｋ）の平方根で割ったものであるＺ_{ｏｖｅｒａｌｌ}は正規分布に従う。

このＺ_{ｏｖｅｒａｌｌ}から、統合されたＰ値であるｐ_{ｏｖｅｒａｌｌ}を求めることにより、各フィッシャーの正確確率を統合することができる。

従来、様々な条件下で得られたデータを統合して相互情報量を算出することは、行われていなかった。本発明においては、前述のように、メタ解析を用いて統合したフィッシャーの正確確率Ｐを用いることにより、例えば、様々な条件下で得られたデータを組み合わせて用いて、広範なデータをもとに相互情報量を算出することができ、これにより、様々な異なる条件下（例えば、異なる細胞系譜、多様な細胞内外の条件など）での知見を総合しつつ、その条件下におけるバイアスに影響を受けずに、より正確に事象間の相互依存性を特定することができる。

本発明においては、共通の方法を用いて大規模なデータを解析することができるため、本発明の方法は、コンピュータによる実施が適している。本発明において、上記の方法は、この方法を実行させるためのコンピュータ用プログラムによって行ってもよい。当該コンピュータ用プログラムとしては、前述の方法の各工程を行う手段としてコンピュータを機能させるためのプログラムを挙げることができる。

当該コンピュータ用プログラムとしては、例えば、コンピュータを、
（１）第１の事象の情報と第２の事象の情報をＮ個のサンプルについて含むデータを取得する工程を行う手段、
（２）前記の第１の事象の情報と第２の事象の情報をＮ個のサンプルについて含むデータから、第１の事象についての２値データと第２の事象についての２値データを含むデータセットを取得する工程を行う手段、
（３）Ｎ個のサンプルのそれぞれが第１の事象についての基準と第２の事象についての基準に基づき、２×２の分割表の類型のいずれに該当するかを判定して、Ｎ個のサンプルのそれぞれを、前記各類型に分類する工程を行う手段、
（４）Ｎ個のサンプルのそれぞれを、前記各類型に分類し、これをＮ個の全サンプルについて繰り返し、各類型に分類されたサンプルの数を集計して、前記データセットから２×２の分割表にサンプルの数を集計する工程を行う手段、
（５）前記サンプルの数を集計した２×２の分割表に基づいて、フィッシャーの正確確率Ｐを算出する工程を行う手段、及び
（６）前記算出したフィッシャーの正確確率Ｐと、前記Ｎをもとに、−ｌｏｇ_１０Ｐ／（Ｎｌｏｇ_１０２）を算出する工程を行う手段
として機能させるためのプログラムを挙げることができる。

当該プログラムは、これをコンピュータに読み込ませ、コンピュータのハードウェア資源と、読み込まれたソフトウェアとを協調して、機能させることによって、実行させることができる。ハードウェア資源としては、ＣＰＵ等の演算手段、メモリ等の記憶手段を挙げることができる。

前記コンピュータ用プログラムは、記録媒体に保存したものであってもよい。記録媒体としては、例えば、ＣＤ−ＲＯＭ、ＤＶＤなどの光読取手段、半導体メモリ、フレキシブルディスク、ハードディスクなどの情報格納手段を挙げることができる。

実施例１：
米国ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）（http://cancergenome.nih.gov/）から、サンプル数１０１９の乳房浸潤癌患者のデータ（ＢＲＣＡ）をダウンロードした。このデータは、約２０，０００個の遺伝子についての情報を含んでいた。目的遺伝子としてのＣＬＳＴＮ３（Ｃａｌｓｙｎｔｅｎｉｎ３）のｍＲＮＡ発現につき、野生型に比して２倍を超えるか、２倍以下かを基準として、各乳房浸潤癌患者を２類型に分類した。同様に、他の残りの遺伝子のｍＲＮＡ発現についても、野生型に比して２倍を超えるか、２倍以下かを基準として、各乳房浸潤癌患者を２類型に分類した。分類後のデータをもとにして、上記の基準に応じて、ＣＬＳＴＮ３（Ｃａｌｓｙｎｔｅｎｉｎ３）と、他の残りの遺伝子のそれぞれにつき、２×２の分割表に乳房浸潤癌患者の数を集計した。集計された数をもとに、前述した相互情報量の定義の式を用いて、各遺伝子につき、ＣＬＳＴＮ３（Ｃａｌｓｙｎｔｅｎｉｎ３）との相互情報量を算出した。また、集計された数をもとに、各遺伝子につき、フィッシャーの正確確率ｐを算出した。各遺伝子につき、算出したＣＬＳＴＮ３（Ｃａｌｓｙｎｔｅｎｉｎ３）との相互情報量と、フィッシャーの正確確率ｐから求めた−ｌｏｇ（ｐ）の値を、グラフにプロットした。

結果を、図１に示す。図１に示すように、サンプル数１０１９において、相互情報量と、−ｌｏｇ（ｐ）の間には、直線的な関係があった。このように、Ｎが大きい場合には、フィッシャーの正確確率ｐについての−ｌｏｇ（ｐ）と、相互情報量との間には、比例関係があった。
点突然変異の有無を基準として各乳房浸潤癌患者を分類した場合においても同様の結果が得られた。

実施例２：
急性骨髄性白血病、膀胱尿路上皮癌、乳房浸潤癌、結腸腺癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓腎細胞癌、腎臓乳頭細胞癌、肺腺癌、肺扁平上皮癌、卵巣漿液性嚢胞腺癌、膵臓腺癌、前立腺癌、直腸腺癌、皮膚メラノーマ、胃腺癌、甲状腺癌、子宮内膜癌、がん細胞株（ＣＣＬＥ）という計１９種類のサンプルについて、それぞれのサンプルについてのデータをＴＣＧＡ（http://cancergenome.nih.gov/）からダウンロードした。なお、上記のＣＣＬＥは症例データではなく、１０２１種類の株化癌細胞を用いたデータである。それぞれのサンプルについてのデータは、サンプルとして６６〜１０２１症例を含み、約２０，０００個の遺伝子についての情報を含んでいた。

ＥＧＦＲ（上皮成長因子受容体、ｅｐｉｄｅｒｍａｌｇｒｏｗｔｈｆａｃｔｏｒｒｅｃｅｐｔｏｒ）を目的遺伝子として、１９種類のサンプルのそれぞれについて、残りの遺伝子のそれぞれにつき、実施例１と同様の方法により、ＥＧＦＲとの間で２×２の分割表にサンプル数を集計し、これをもとに、フィッシャーの正確確率Ｐを算出した。

各サンプルについて算出したＥＧＦＲと各遺伝子のフィッシャーの正確確率Ｐを、メタ解析法（Ｒｏｓｅｎｔｈａｌ，１９８４）を用いて統合した。すなわち、各Ｐ値をＺ値に変換し、Ｚ値を統合してＺ_{ｏｖｅｒａｌｌ}値を算出し、さらに算出したＺ_{ｏｖｅｒａｌｌ}値を変換し、各遺伝子につき、Ｐ_{ｏｖｅｒａｌｌ}値を得た。得られたＰ_{ｏｖｅｒａｌｌ}値と、統合して用いた全サンプルの数Ｎ_ａｌｌをもとに、前記Ｎをもとに、各遺伝子につき、−ｌｏｇ_１０Ｐ_{ｏｖｅｒａｌｌ}／（Ｎ_ａｌｌｌｏｇ_１０２）を算出した。

算出した値が高い遺伝子から順に並べた結果を図２に示す。また、算出した値が大きい遺伝子２０００個にＥＧＦＲを加えた２００１個をキアゲン社のＩｎｇｅｎｕｉｔｙＰａｔｈｗａｙＡｎａｌｙｓｉｓ（ＩＰＡ）（登録商標）解析ソフトウェアにて解析した。ＩＰＡにおける標準経路（ＣａｎｏｎｉｃａｌＰａｔｈｗａｙｓ）の上位５個の結果を、以下の表４に示す。

予測されたパスウェイの３番目がＥＧＦシグナル伝達であった。このように、１９種類のサンプルにつき、フィッシャーの正確確率をメタ解析によって統合した場合において、ＥＧＦＲと各遺伝子との相互依存性を正確に特定することができた。

実施例３：
ＲＢ１（ＲＢＴｒａｎｓｃｒｉｐｔｉｏｎａｌＣｏｒｅｐｒｅｓｓｏｒ１）、ＩＦＮＧ（ｉｎｔｅｒｆｅｒｏｎｇａｍｍａ）及びＧＲＭ１（ｇｌｕｔａｍａｔｅｍｅｔａｂｏｔｒｏｐｉｃｒｅｃｅｐｔｏｒ１）をそれぞれ目的遺伝子としたほかは、実施例２と同様の方法を行った。それぞれの目的遺伝子につき、算出した値が高い遺伝子から順に並べた結果を、図３〜図５に示す。

また、ＩＦＮＧにつき、算出した値が大きい遺伝子２０００個の遺伝子リストをＩＰＡ（登録商標）解析ソフトウェアにて解析した。その結果、ＩＰＡ（登録商標）におけるＵｐｓｔｒｅａｍＲｅｇｕｌａｔｏｒの予測の最上位はＩＦＮＧであった。このように、ＩＦＮＧなしにＩＦＮＧが予測できた。ＩＰＡ（登録商標）における標準経路（ＣａｎｏｎｉｃａｌＰａｔｈｗａｙｓ）の上位５個の結果を、以下の表５に示す。

予測されたパスウェイは、知られているＩＦＮＧのそれと極めて良く一致している。これらの結果は、ＩＰＡ（登録商標）の解析対象とした本発明による解析結果が高精度であることを強く示唆するとともに、本発明はがん以外の疾患領域にも有用であることを示す。

同様に、ＧＲＭ１との相互情報量が大きい遺伝子２０００個の遺伝子リストをＩＰＡ（登録商標）解析ソフトウェアにて解析した。疾患又は機能アノテーション（Ｄｉｓｅａｓｅ＆ＦｕｎｃｔｉｏｎｓＡｎｎｏｔａｔｉｏｎ）において活性ｚスコア（Ａｃｔｉｖａｔｉｏｎｚ−ｓｃｏｒｅ）の絶対値が３以上のものの上位１５個の結果を、以下の表６に示す。

予測されたＧＲＭ１の機能は、知られているＧＲＭ１の機能と極めて一致していることがわかる。このように、多数のサンプルにつき、フィッシャーの正確確率をメタ解析によって統合した場合において、ＧＲＭ１と各遺伝子との相互依存性を、極めて正確に特定することができた。

実施例４：
スーパーマーケットチェーンのＡ店舗での１週間の売り上げについて、サンプル数約５０００の購入履歴をＰＯＳシステムからダウンロードする。このデータは、個々の購入の内容についての情報を含むものである。５０００のサンプルについて、「おにぎり」のカテゴリーに属する商品を購入しているか否かを基準として、２類型に分類する。同様に、他の商品カテゴリー（商品カテゴリー数は約３００）についても、購入しているか否かを基準として、２類型に分類する。実施例１と同様の方法により、「おにぎり」と各商品カテゴリーについての２×２の分割表においてサンプルを集計し、その集計結果に基づきフィッシャーの正確確率Ｐを算出する。これを約２００の商品カテゴリーの全てについて行う。

スーパーマーケットチェーンの他の店舗Ｂ〜Ｚについても、同様に、「おにぎり」と各商品カテゴリーのフィッシャーの正確確率Ｐを算出し、実施例２と同様の方法により、メタ解析法を用いて統合する。統合して用いた全サンプル数のＮ_ａｌｌをもとに、各商品カテゴリーにつき、−ｌｏｇ_１０Ｐ_{ｏｖｅｒａｌｌ}／（Ｎ_ａｌｌｌｏｇ_１０２）を算出する。

この算出により得られた値が高い商品カテゴリーは、「おにぎり」と同時に購入されることが多いことが分析できる。例えば、「おにぎり」を購入するスーパーの顧客は「カップ味噌汁」を同時に購入することが多いと分析された場合には、両者を隣接して陳列することで、売り上げを伸ばすことができる。

実施例５：
東京証券取引所の第１部で株式が取引される銘柄（約２０００銘柄）についての２０１７年の株価推移のデータをダウンロードする。２０１７年の取引日は約２４０日あり、それぞれの日をサンプルとする。次に、２０１７年におけるドル円相場のレート（円換算した１ドルの価格）のデータをダウンロードする。ドル円相場のレートのデータを用い、サンプル日におけるドル円相場のレートが、前日のレートよりも高くなっているか否かを基準として、２類型に分類する。次に、株価推移のデータを用い、各会社の株価について、株の取引開始時よりも取引終了時の方が高くなっているか否かを基準として、２類型に分類する。実施例１と同様の方法により、ドル円相場の変動と会社の株価の変動についての２×２の分割表においてサンプルを集計し、その集計結果に基づきフィッシャーの正確確率Ｐを算出する。これを約２０００銘柄の株価について行う。

算出された各銘柄のＰを、東証業種分類中分類にしたがって業種ごとに、実施例２と同様の方法により、メタ解析法を用いて統合する。統合して用いた全サンプル数のＮ_ａｌｌをもとに、各業種につき、−ｌｏｇ_１０Ｐ_{ｏｖｅｒａｌｌ}／（Ｎ_ａｌｌｌｏｇ_１０２）を算出する。

この算出により得られた値が高い業種は、ドル円相場と連動して株価が変動する傾向が高いことが予測できる。

Claims

第１の事象と第２の事象の相互依存性の特定方法であって、
Ｎ個のサンプルについて第１の事象の情報と第２の事象の情報を含むデータから、コンピュータが第１の事象についての２値データと第２の事象についての２値データを含むデータセットを取得する工程、
前記データセットから、コンピュータが２×２の分割表にサンプルの数を集計する工程、
前記２×２の分割表に基づいて、コンピュータがフィッシャーの正確確率Ｐを算出する工程、及び、
前記フィッシャーの正確確率Ｐと、前記Ｎをもとに、コンピュータが−ｌｏｇ_１０Ｐ／Ｎを算出する工程
を含むことを特徴とする、方法。
請求項１に記載の方法であって、前記フィッシャーの正確確率Ｐが、
（１）Ｎ_１個のサンプルについて、
第１の事象についての第１の基準及び第２の事象についての第１の基準に基づいて、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、コンピュータが算出した、フィッシャーの正確確率Ｐ_１と、
（２）Ｎ_２個のサンプルについて、
第１の事象についての第２の基準及び第２の事象についての第２の基準に基づいて、第１の事象についての２値データと第２の事象についての２値データを含むデータセットから、コンピュータが算出した、フィッシャーの正確確率Ｐ_２とを含む、
複数のフィッシャーの正確確率を、コンピュータがメタ解析を用いて統合する工程を含む方法によりコンピュータが算出したものである、方法。
請求項１または２に記載の方法を実行させるためのコンピュータ用プログラム。
請求項３に記載のコンピュータ用プログラムを保存した記録媒体。