JP6820621B2 - 相互依存性の特定方法 - Google Patents

相互依存性の特定方法 Download PDF

Info

Publication number
JP6820621B2
JP6820621B2 JP2019509406A JP2019509406A JP6820621B2 JP 6820621 B2 JP6820621 B2 JP 6820621B2 JP 2019509406 A JP2019509406 A JP 2019509406A JP 2019509406 A JP2019509406 A JP 2019509406A JP 6820621 B2 JP6820621 B2 JP 6820621B2
Authority
JP
Japan
Prior art keywords
event
data
samples
fisher
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019509406A
Other languages
English (en)
Other versions
JPWO2018181988A1 (ja
Inventor
努 森
努 森
河村 隆
隆 河村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fukushima Medical University
Original Assignee
Fukushima Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fukushima Medical University filed Critical Fukushima Medical University
Publication of JPWO2018181988A1 publication Critical patent/JPWO2018181988A1/ja
Application granted granted Critical
Publication of JP6820621B2 publication Critical patent/JP6820621B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

本発明は、大規模データの情報処理方法、当該方法を実行させるためのコンピュータ用プログラム、及び当該プログラムを保存した記録媒体に関する。詳しくは、本発明は、2つの事象間の相互依存性の特定方法、当該方法を実行させるためのコンピュータ用プログラム、及び当該プログラムを保存した記録媒体に関する。
昨今のコンピュータ技術の発展により、各種の手段によって、データが収集されており、異なる種類のデータを含む大量のデータが蓄積されている。これらの大規模のデータには、有用な情報が含まれていると期待されており、これを効果的に解析すれば、これらのデータに含まれる複数の事象相互の関係を統計的に有意に特定することを通じて、未知の事象の特性を正確に特定することができると期待される。しかしながら、これらの大規模のデータは、各種の異なる条件のもとで独立に取得されたものである場合も多く、含まれるデータに伴うノイズによって解析結果の精度が低下することもあり、このようなデータを、大規模な範囲にわたって網羅的に統一的に用いて効率的に解析を行うことは容易ではなかった。
複数の事象間の相互情報量は、当該事象間の相互依存性の尺度を表す量として用いられている。複数の事象間の相互情報量を算出することにより、複数の事象間の相互依存性を特定することができ、これにより、当該事象の特性を特定することができると期待される。XとYの相互情報量は後述する式のとおり定義されるが、当該定義の式に示されるように、従来、相互情報量は、これを算出したサンプルの数Nを考慮するものではなく、統計的有意性を考慮するものとしては考えられていなかった。また、当該定義の式に示されるように、相互情報量は、異なる条件下で得られたデータを組み合わせて用いて算出することができるとは考えられていなかった。なお、相互情報量を用いて大量のデータを解析する技術は、文書、音声、画像、位置、生命、天文、金融、売上など多様な情報の処理に用いられている。生命情報のデータ解析のアルゴリズムとしては、例えばARACNEなどが知られている(非特許文献1)。
ところで、フィッシャーの正確確率検定は、主に標本数が少ない場合などに、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法であり、各種の統計処理に用いられてきた(非特許文献2〜3)。フィッシャーの正確確率と相互情報量との関係は、これまで知られていない。
NATURE REVIEWS CANCER,VOLUME 17,FEBRUARY 2017,116−130 知能と情報(日本知能情報ファジィ学会誌)Vol.20,No.4,pp.461−472(2008) J Theor Biol.2004 Oct 7;230(3):359−73
本発明は、異なる条件のもとで独立に取得された各種のデータを大規模な範囲にわたって網羅的に統一的に用いる場合であっても、これらのデータに示される複数の事象の相互依存性を、統計的に有意に、効率的に正確に特定することを目的とする。
本発明者らは、鋭意検討していたところ、2×2の分割表に基づいて算出したフィッシャーの正確確率Pと、当該分割表の作成に用いたサンプル数Nとを用いて、−log10P/(Nlog102)を算出すれば、相互情報量を近似的に算出することができることを見出した。すなわち、本発明者らは、N個のサンプルについて含むデータから、2値データを含むデータセットを取得し、これを用いて、2×2の分割表を作成し、これに基づいてフィッシャーの正確確率Pを算出し、前記N及び前記Pを用いて、−log10P/(Nlog102)を算出することにより、事象間の相互情報量を算出して、当該事象どうしの相互依存性を特定することができることを見出した。フィッシャーの正確確率Pは、確率理論において研究が進められてきた概念であるのに対して、相互情報量は、主に情報理論において研究が進められてきた概念であり、両者が関係することの発見は、極めて画期的である。なお、ここで、log102は定数であるため、当該事象どうしの相互依存性の特定は、−log10P/Nの算出においても可能である。本明細書において、−log10P/Nの算出は、広義において、−log10P/(Nlog102)の算出を含意するものとする。
すなわち、本発明は、第1の態様において、第1の事象と第2の事象の相互依存性の特定方法であって、第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータから取得された、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、サンプルの数を集計した、2×2の分割表に基づいて算出された、フィッシャーの正確確率Pと、前記Nをもとに、−log10P/Nを算出する工程を含むことを特徴とする、方法を提供するものである。
フィッシャーの正確確率Pは、統計学を用いるものであるため、従来知られている方法によって、メタ解析を行うことができる。メタ解析によれば、異なる種類のサンプルについてのデータなど、異なる条件によって取得したデータをもとにそれぞれ算出した複数のフィッシャーの正確確率Pを統合し、これらの全体のデータについてのフィッシャーの正確確率Pを算出することができる。したがって、前記の相互依存性の特定方法において、異なる条件によって取得したデータをもとに、それぞれフィッシャーの正確確率Pを算出し、算出したそれぞれのフィッシャーの正確確率Pを統合し、統合して得られたフィッシャーの正確確率を用いることによって、異なる条件によって取得したデータの全体をもとに、事象間の相互依存性を特定することができる。これは、異なる条件によって取得したデータの全体をもとにして事象間の相互情報量を算出し、当該事象間の相互依存性を特定するという、従来行うことができなかったことを可能にしたものである。なお、複数のフィッシャーの正確確率Pは、そのための2×2の分割表を集計する基準が異なっていても、メタ解析によって統合することができるため、その正確確率を算出するための2×2の分割表を集計する基準が異なっていても構わない。
したがって、本発明は、第2の態様において、前記第1の態様の方法であって、前記フィッシャーの正確確率Pが、(1)第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータから、第1の事象についての第1の基準及び第2の事象についての第1の基準に基づき取得された、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、サンプルの数を集計した、2×2の分割表に基づいて算出された、フィッシャーの正確確率Pと、(2)第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータから、第1の事象についての第2の基準及び第2の事象についての第2の基準に基づき取得された、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、サンプルの数を集計した、2×2の分割表に基づいて算出された、フィッシャーの正確確率Pとを含む、複数のフィッシャーの正確確率を、メタ解析を用いて統合する工程を含む方法により算出されたものである、方法を提供するものである。
本発明は、第3の態様において、第1の態様又は第2の態様に記載の方法を実行させるためのコンピュータ用プログラムを提供するものである。
本発明は、第4の態様において、第3の態様に記載のコンピュータ用プログラムを保存した記録媒体を提供するものである。
本発明によれば、サンプル数Nを考慮せず、統計的有意性に関する配慮を欠いていた従来の方法とは異なり、フィッシャーの正確確率とサンプル数を考慮した値として、統計的有意性を考慮しつつ、事象間の相互情報量を算出して、当該事象間の相互依存性を特定することができる。また、発明によれば、メタ解析を用いて事象間の相互情報量を算出するため、異なる条件下で取得された異なる種類のサンプルについてのデータであっても、それらを組み合わせた全体のデータにつき、事象間の相互情報量を算出して、当該事象間の相互依存性を特定することができる。このため、全体のデータに含まれる各種のサンプルの特性によるバイアスを低減させつつ、多量のデータをもとにして、より正確に統計的に有意に、事象間の相互依存性を特定することができる。さらに、本発明において、フィッシャーの正確確率を算出したのち、算出したその値につき、有意水準を適用して、得られた結果に応じて、得られたフィッシャーの正確確率のデータを破棄して、その後の演算に用いる対象としないことなどを行えば、各種のデータに伴うノイズを低減し、有意性に乏しいデータを大幅に除去することによって、計算負荷を低減させつつ、より正確に統計的に有意に、事象間の相互依存性を特定することができる。
フィッシャーの正確確率pと相互情報量MIの関係を示すグラフである。 各遺伝子につき算出したEGFRとの相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したEGFRとの相互情報量にNlog102を掛けた値を示す。 各遺伝子につき算出したRB1との相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したRB1との相互情報量にNlog102を掛けた値を示す。 各遺伝子につき算出したIFNGとの相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したIFNGとの相互情報量にNlog102を掛けた値を示す。 各遺伝子につき算出したGRM1との相互情報量を、数値が高い順に左から右に並べたグラフである。縦軸が、各遺伝子につき算出したGRM1との相互情報量にNlog102を掛けた値を示す。
本発明は、第1の事象と第2の事象の相互依存性の特定方法を提供する。ここで、事象の例としては、対象について観察結果として把握される状態が挙げられる。対象の例としては、遺伝子、単語が挙げられる。対象の別の例としては、文書、音声、画像、位置、生命、天文、金融、売上などに関するものが挙げられる。状態の例としては、当該対象の平均的な性質と異なることが挙げられる。事象の例としては、遺伝子の変化、エピジェネティックな変化、株価の上昇・下落が挙げられる。事象の別の例としては、複数の単語が同一の文において用いられること、売り上げに特定の商品の売り上げが含まれることが挙げられる。
遺伝子の変化の例としては、遺伝子配列の変異、遺伝子の発現産物の変化、遺伝子の修飾の変化が挙げられる。遺伝子配列の変異の例としては、遺伝子の塩基配列の変異、遺伝子の染色体上のコピー数の変化、遺伝子の修飾の変化が挙げられる。遺伝子の塩基配列の変異の例としては、遺伝子の点突然変異、遺伝子に対する塩基配列の付加、遺伝子における塩基配列の欠失が挙げられる。遺伝子の発現産物の例としては、タンパク質、mRNA、miRNA(micro−RNA)が挙げられる。遺伝子の発現産物の変化の例としては、遺伝子の発現産物の発現量の変化、遺伝子の発現産物の発現箇所の変化、遺伝子の発現産物の複合体の形成、遺伝子の発現産物の複合体の分解が挙げられる。遺伝子の修飾の例としては、DNAメチル化、ヒストン修飾が挙げられる。ヒストン修飾の例としては、アセチル化、メチル化、ユビキチン化、リン酸化、SUMO化が挙げられる。また、遺伝子の修飾の例としては、翻訳後修飾が挙げられる。翻訳後修飾の例としては、官能基付加、タンパク質またはペプチドの付加、アミノ酸の化学的性質の変換、構造変換が挙げられる。官能基付加の例としては、アシル化、アセチル化、アルキル化、アミド化、ビオチニル化、ホルミル化、γカルボキシル化、グルタミル化、グリコシル化、グリシル化、ヘム、ヒドロキシル化、ヨウ素化、イソプレニル化、リポイル化(プレニル化、GPIアンカー形成、ミリストイル化、ファルネシル化、ゲラニルゲラニル化など)、ヌクレオチドまたは誘導体への共有結合の付加(ADPリボシル化、FAD結合など)、酸化還元反応、ポリエチレングリコール化、ホスファチジルイノシトール、ホスホパンテテイニル化、リン酸化、ピログルタミン酸形成、ラセミ化、チロシン硫酸化、セレノイル化が挙げられる。タンパク質またはペプチドの付加の例としては、ISG化、SUMO化、ユビキチン化が挙げられる。アミノ酸の化学的性質の変換の例としては、シトルリン化または脱アミン、脱アミドが挙げられる。構造変換の例としては、ジスルフィド、プロテアーゼによるものが挙げられる。
遺伝子の例としては、ヒト、サル、マウス、ラット等の哺乳類の遺伝子が挙げられる。エピジェネティックな変化の例としては、細胞分裂を通して受け継がれる変化であって、DNA塩基配列の変化とは独立した変化が挙げられる。
第1の事象と第2の事象において、第1と第2は、第1の事象と第2の事象を区別するための記号であり、これらの事象の順序を限定するものではない。ここで、第1の事象と第2の事象とは、異なる対象についての同一の状態であってもよく、同一の対象についての異なる状態であってもよい。例えば、第1の事象が、遺伝子Aの塩基配列の変異であり、第2の事象が、遺伝子Bの塩基配列の変異であってもよい。また、例えば、第1の事象が、遺伝子Aの配列の変異であり、第2の事象が、遺伝子Aの発現産物の発現量の変化であってもよい。なお、ここで、遺伝子Aと遺伝子Bは、異なる遺伝子を指す。
事象の例としては、有無で表されるもの、数値で表されるものが挙げられる。数値で表されるものの例としては、2を超える離散量で表されるもの、連続量で表されるものが挙げられる。第1の事象と第2の事象は、異なるように表されるものであってよく、例えば、第1の事象が有無で表されるものであり、第2の事象が2を超える離散量で表されるものであってもよい。
本発明においては、第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータが用いられる。ここで、N個のサンプルは、例えば、事象についての観察結果を与える、共通の性質を有するN個の主体である。Nの例としては、10以上、100以上、1,000以上、10,000以上、100,000以上などの数値が挙げられる。Nが大きいほど、より正確に、第1の事象と第2の事象の相互依存性を特定することができる。前記の共通の性質の例としては、生物に由来すること、ヒトに由来すること、疾患を有するヒトに由来すること、がんを有するヒトに由来すること、特定の種類のがんを有するヒトに由来することが挙げられる。前記主体の例としては、ヒト等の生物の細胞、臓器その他の生体試料が挙げられる。
特定の種類のがんの例としては、白血病、リンパ腫、ホジキン病、非ホジキンリンパ腫、多発性骨髄腫、脳腫瘍、乳がん、子宮体がん、子宮頚がん、卵巣がん、食道癌、胃癌、虫垂癌、大腸癌、肝癌、肝細胞癌、胆嚢癌、胆管癌、膵臓がん、副腎癌、消化管間質腫瘍、中皮腫、頭頚部癌、喉頭癌、口腔癌、口腔底癌、歯肉癌、舌癌、頬粘膜癌、唾液腺癌、副鼻腔癌、上顎洞癌、前頭洞癌、篩骨洞癌、蝶型骨洞癌、甲状腺癌、腎臓がん、肺癌、骨肉腫、前立腺癌、精巣腫瘍(睾丸がん)、腎細胞癌、膀胱癌、横紋筋肉腫、皮膚癌、肛門癌が挙げられる。
疾患、特にがんに罹患した生物は、遺伝子間の相互作用が増幅しているため、疾患、特にがんに罹患した生物に由来する細胞、臓器その他の生体試料は、異なる遺伝子についての相互依存性を特定するためのサンプルとして、好適である。
本発明において用いられる前記データは、第1の事象の情報と第2の事象の情報を、N個のサンプルについて含む。ここで、第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータにおいては、例えば、N個のそれぞれのサンプルが、第1の事象の情報と第2の事象の情報を含む。ここで、事象の情報の例としては、(1)事象が有無で表されるものである場合は、そのサンプルにつきその事象があったか、その事象がなかったかの情報が挙げられ、(2)事象が数値で表されるものである場合は、そのサンプルについての数値が挙げられる。
本発明においては、前記の第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータから、第1の事象についての2値データと第2の事象についての2値データを含むデータセットが取得される。ここで、事象についての2値データの例としては、事象が有無で表される場合における有無のデータ、事象が数値で表される場合における基準値以上又は基準値未満のデータが挙げられる。前記の事象についての2値データを含むデータセットは、例えば、(1)事象が有無で表される場合においては、データに含まれる事象の情報をそのまま用いることにより取得することができ、(2)事象が数値で表される場合においては、基準値を設定し、データに含まれるサンプルについての事象の情報を、基準値以上又は基準値未満と判定し、判定結果として2値データを取得し、これをN個のサンプルについて繰り返すことにより、取得することができる。第1の事象についての2値データと第2の事象についての2値データを含むデータセットの取得は、例えば、(1)第1の事象の情報につき前記の方法を行い、第1の事象についての2値データを取得し、(2)第2の事象の情報につき前記の方法を行い、第2の事象についての2値データを取得し、(3)取得されたそれぞれの2値データを組み合わせることによって、行うことができる。前記において取得された、第1の事象についての2値データと第2の事象についての2値データを含むデータセットは、例えば、線形インデックスを用いた形式であってもよい。
本発明の方法は、前記において取得された、第1の事象についての2値データと第2の事象についての2値データを含むデータセットを用いることにより、有無で表される事象、数値で表される事象、2を超える離散量で表される事象、連続量で表される事象などの事象の種類を問わずに用いることができる。したがって、本発明の方法は、複数の事象につき、繰り返し行うことに適している。本発明の方法は、複数の事象につき、繰り返し行う場合であっても、同一のアルゴリズムを用いて行うことができるため、簡便に統一的な解析を行うことができる。
生体内の各遺伝子の機能は多様であり、各遺伝子の状態を特定するパラメータは多様であり、各パラメータは連続的または離散的な値を取りうるものであるため、各種の遺伝子についての情報を含むデータを、統一的に用いて各種の遺伝子の相互依存性を特定することは容易ではなかった。本発明の方法は、各種の遺伝子についての情報の種類を問わずに用いることができ、各種の遺伝子について繰り返し行う場合であっても、共通の手法を用いて行うことができるため、簡便に統一的な解析を行うことができる。したがって、本発明の方法は、複数の遺伝子についての情報を含むデータを、統一的に用いてそれらの遺伝子の相互依存性を特定するために用いることに適している。
本発明においては、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、2×2の分割表にサンプルの数が集計される。当該2値データを含むデータセットからの2×2の分割表へのサンプルの数の集計は、例えば、第1の事象についての2値データと第2の事象についての2値データが、いずれも、有無で表される場合には、以下の表1における各欄の条件に該当するサンプル数であるa、b、c及びdを集計することにより行えばよい。なお、a〜dの総和は、前記データセットに含まれるサンプル数のNである。
2×2の分割表への集計においては、前記の条件に該当するサンプル数であるa、b、c及びdを集計しさえすれば、表を用いなくてもよい。例えば、(1)第1の事象があり、第2の事象があるという条件(2)第1の事象があり、第2の事象がないという条件、(3)第1の事象がなく、第2の事象があるという条件、及び(4)第1の事象がなく、第2の事象がないという条件を設定し、N個のサンプルのそれぞれが(1)〜(4)の条件のいずれに該当するかを判定して、N個のサンプルのそれぞれを、前記各条件に分類し、これをN個の全サンプルについて繰り返し、各条件に分類されたサンプルの数を集計することによって、(1)〜(4)の条件に該当するサンプルの数として、それぞれ、サンプル数a、b、c及びdを取得してもよい。この場合、(1)aは、N個の全サンプルにしめる、第1の事象があり、第2の事象があるサンプルの数であり、(2)bは、N個の全サンプルにしめる、第1の事象があり、第2の事象がないサンプルの数であり、(3)cは、N個の全サンプルにしめる、第1の事象がなく、第2の事象があるサンプルの数であり、(4)dは、N個の全サンプルにしめる、第1の事象がなく、第2の事象がないサンプルの数である。
本発明においては、当該サンプルの数を集計した2×2の分割表に基づいて、フィッシャーの正確確率Pが算出される。フィッシャーの正確確率Pの算出においては、まず、前記のa、b、c、d及びNと、以下の式により、pを算出する。
次に、前記の表1のように2×2の分割表にサンプルの数を集計した前記のデータセットよりも生起しにくいデータセットを全て想定し、そのそれぞれのデータセットにつき、同様に、2×2の分割表にサンプルの数を集計し、同様に、前記の式を用いてpを算出する。算出された全てのpを合計することにより、フィッシャーの正確確率Pを算出することができる。
本発明においては、算出された当該フィッシャーの正確確率Pと、前記Nをもとに、−log10P/(Nlog102)が算出される。−log10P/(Nlog102)の算出は、P及びNをもとに、例えば、コンピュータをもとに行ってもよい。
本発明者らの見出したところによれば、−log10P/(Nlog102)は、第1の事象と第2の事象の間の相互情報量を近似する。ここで、相互情報量とは、情報理論において用いられている2つの確率変数の相互依存の尺度を表す量である。相互情報量は、XとYが共有する情報量の尺度である。2つの離散確率変数XとYの相互情報量MIは、例えば、以下の式において定義される。
上の式において、p(x,y)はXとYの同時分布関数、p(x)とp(y)はそれぞれXとYの周辺確率分布関数である。
また、2つの連続確率変数XとYの相互情報量I(X;Y)は、例えば、以下の式において定義される。
上の式において、p(x,y)はXとYの同時分布密度関数、p(x)とp(y)はそれぞれXとYの周辺確率密度関数である。
これらの式は、あり得る全てのデータ範囲において2変数の同時確率の期待値を計算して、その総和を求めることによって、相互情報量が算出されることを意味している。
第1の事象と第2の事象の間の相互情報量MIと、−log10P/(Nlog102)との関係につき、本発明者らの見出した知見を以下に示す。まず、2個の確率変数AとBの間の以下の表2及び表3の分割表を考え、それらは、それぞれAとA’、BとB’の2個の値を取るとする。
表2は確率変数の組み合わせの相対度数を示す。よって、X、X、X、XはそれぞれAB、A’B、AB’、A’B’の割合である。表3は、相対度数にNを掛けて得られる度数そのものを表す。
そのとき、相互情報量MIは次のように定義される。ここで対数は自然対数である。
他方、フィッシャーの正確確率検定のp値の主要項は以下のようになる。
両辺においてlogを取ると、
スターリング(Stirling)の公式を用いて、logN!を(NlogN−N)で近似して、X+X+X+X=1を使うと、
よって、
以上のとおり、本発明者らは、事象間の相互情報量MIは、フィッシャーの正確確率Pを対数変換した−log10P値の定数倍と近似的に等しいことを見出した。ここで、Nはサンプル数を示し、N→∞のとき両辺は等しい値に近づく。
さらに、本発明者らは、後記実施例において示すように、サンプル数が1019の場合において、相互情報量が、−log10P/(Nlog102)によって充分に近似できることを見出し、Nがこのような数値である場合において、−log10P/(Nlog102)を用いることによって、第1の事象と第2の事象の相互依存性を正確に特定することができることを見出した。したがって、本発明において、サンプルの個数であるNは、好ましくは、100以上、より好ましくは、500以上、さらに好ましくは、1,000以上である。従来、フィッシャーの正確確率Pは、サンプル数が少ない場合、すなわち、Nの数が小さい場合に用いられることが多かった。本発明は、このようにサンプル数が多いデータの解析のために、フィッシャーの正確確率Pを用いて、優れた効果を得るものであり、画期的である。また、従来の相互情報量の計算は、サンプル数Nを考慮せずに行われており、統計的有意性に関する配慮が欠如していた。例えば、10例のデータだけから計算された相互情報量は、1,000例のデータに基づく相互情報量に比べ統計的有意性は10−100しかないが、相互情報量の従来の算出方法は、これらを区別していなかった。本発明における−log10P/(Nlog102)を用いる上記の相互情報量の算出方法は、サンプル数Nを用いて近似的に相互情報量を求めるものであり、データの持つ重みを考慮したものとして相互情報量を算出することができ、画期的である。
このように、上記のとおり算出した−log10P/(Nlog102)は、第1の事象と第2の事象の相互情報量に近似しており、これを用いることにより、第1の事象と第2の事象の相互依存性を特定することができる。ここで、第1の事象と第2の事象の相互依存性の特定は、上記のとおり算出した−log10P/(Nlog102)の値それ自体を評価して行ってもよい。また、第1の事象と第2の事象の相互依存性の特定においては、第1の事象と第2の事象について行った−log10P/(Nlog102)の算出と同様の方法を、第2の事象に代えて、第2の事象と異なる第3の事象について行い、得られた第1の事象と第3の事象について算出した−log10P/(Nlog102)の値と、第1の事象と第2の事象について算出した−log10P/(Nlog102)の値との比較を行ってもよい。ここで、第3の事象は、第1の事象との相互依存性が既知であってもよい。相互依存性が既知であることの例としては、相互依存性の程度または意味を裏付ける実験結果が既に存在することが挙げられる。また、相互依存性の特定にあたっては、相互情報量そのものである−log10P/(Nlog102)を算出してもよいが、−(log10P)/Nを算出してもよい。−(log10P)/Nは、相互依存性の高さを示す数値となり、この数値を用いて相互依存性の高さの比較を行うことが可能であり、この数値を用いて相互依存性の強さを判定することもでき、数値が高いほど相互依存性が強いと判定することができる。これらの方法により、第1の事象と第2の事象の相互依存性を、より正確に特定することができる。
同様に、相互に異なる複数の事象について、それぞれ、第1の事象について−log10P/(Nlog102)の値を算出し、当該複数の事象について算出した値と、第1の事象と第2の事象について算出した−log10P/(Nlog102)の値と比較してもよい。これらの方法により、第1の事象と第2の事象の相互依存性を、より一層正確に特定することができる。
さらに、相互に異なる複数の事象について、それぞれ、第1の事象について算出した−log10P/(Nlog102)の値の大きさに応じて、当該事象を順位付けたリストを作成し、当該リストをもとに、第1の事象の性質を特定してもよい。当該リストをもとにして第1の事象の性質を特定するにあたっては、当該リストに含まれる事象の性質を考慮してもよい。なお、当該リストは、−log10P/(Nlog102)を算出せずに、−log10P/Nの大きさに応じた順位付けによっても作成することができる。
−log10P/(Nlog102)の値を算出する事象の数は、例えば、第1の事象及び第2の事象と共通の性質を有する事象の全体の数である。例えば、第1の事象と第2の事象がいずれもヒトの遺伝子についてのものである場合には、−log10P/(Nlog102)の値を算出する事象の数の例は、ヒトの遺伝子の総数である約20,000である。前記のリストをもとに、第1の事象の性質を特定する場合、当該リストに含まれる事象の数は、例えば、当該第1の事象及び第2の事象と共通の性質を有する事象の全体の数の50%以下、20%以下又は10%以下としてもよい。
事象が、遺伝子についてのものである場合において、特定する相互依存性の例としては、当該遺伝子の分子細胞機能、生理機能、疾患関連性、生物学的パスウェイに関するものが挙げられ、また、細胞表面分子同士の相互作用、代謝経路、分子機能経路、薬剤標的性に関するものが挙げられる。疾患関連性の例としては、がんの発症や進展、免疫アレルギー疾患、神経精神疾患、先天異常との関連性が挙げられる。
本発明においては、用いるサンプルが、がんに罹患した患者に由来するものである場合であっても、がんに関連しない遺伝子どうしについての相互依存性を特定することができる。がんに関連しない遺伝子の例としては、神経系、免疫系、代謝、内分泌関連の遺伝子が挙げられる。また、逆に、本発明においては、用いるサンプルが、がんに罹患しない患者に由来するものである場合であっても、がんに関連する遺伝子どうしについての相互依存性を特定することができる。本発明において特定された相互依存性を用いることによって、疾患に対する標的分子や薬剤の特定を行うことができる。また、本発明において特定された相互依存性を用いることによって、オーファン受容体のリガンドの探索を行うことができる。
事象が単語についてのものである場合においては、例えば、事象が特定の文章において特定の単語が用いられることである場合においては、特定する相互依存性の例としては、当該単語の意味が挙げられる。
本発明の前記の方法において−log10P/(Nlog102)の算出に用いられる前記フィッシャーの正確確率Pは、フィッシャーの正確確率Pと、フィッシャーの正確確率Pを含む複数のフィッシャーの正確確率を、メタ解析を用いて統合する工程を含む方法により算出されたものであってもよい。ここで、フィッシャーの正確確率Pは、第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータから、第1の事象についての第1の基準及び第2の事象についての第1の基準に基づき取得された、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、サンプルの数を集計した2×2の分割表に基づいて算出されたものである。また、フィッシャーの正確確率Pは、第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータから、第1の事象についての第2の基準及び第2の事象についての第2の基準に基づき取得された、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、サンプルの数を集計した2×2の分割表に基づいて算出されたものである。
前記フィッシャーの正確確率Pの算出において、第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータは、NとNの相違を除き、前述と同様に取得することができる。前記フィッシャーの正確確率Pの算出において、第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータは、NとNの相違を除き、前述と同様に取得することができる。ここで、NとNの合計は、Nを超えないが、Nと同一であってもよく、Nより小さくてもよい。前述のN個のサンプルは、前記N個のサンプル及びN個のサンプルを含むものである。N個のサンプルは、好ましくは、事象についての観察結果を与える、共通の性質を有するN個の主体であり、N個のサンプルは、好ましくは、事象についての観察結果を与える、共通の性質を有するN個の主体である。N個の主体に共通の性質と、N個の主体に共通の性質は、完全に一致しなくてもよい。例えば、N個の主体に共通の性質が、ヒトの乳癌疾患に由来することであり、N個の主体に共通の性質が、ヒトの肺癌疾患に由来することであってもよい。この場合であっても、N個のサンプル及びN個のサンプルを含むN個のサンプルは、ヒトのがん疾患に由来する性質を共通に有している。
前記フィッシャーの正確確率Pの算出においては、第1の事象についての2値データと第2の事象についての2値データを含むデータセットが、第1の事象についての第1の基準及び第2の事象についての第1の基準に基づき取得される。また、前記フィッシャーの正確確率Pの算出においては、第1の事象についての2値データと第2の事象についての2値データを含むデータセットが、第1の事象についての第2の基準及び第2の事象についての第2の基準に基づき取得される。
ここで、当該データセットの取得は、第1の事象についての第1の基準及び第2の事象についての第1の基準に基づくこと及び第1の事象についての第2の基準及び第2の事象についての第2の基準に基づくことを除き、前述と同様に行うことができる。第1の事象についての第1の基準と、第2の事象についての第1の基準は、それぞれ、N個のサンプルについて第1の事象についての2値データと第2の事象についての2値データを取得するための基準である。第1の事象についての第2の基準と、第2の事象についての第2の基準は、それぞれ、N個のサンプルについて、第1の事象についての2値データと第2の事象についての2値データを取得するための基準である。当該基準の例としては、事象が有無で表される場合においては、有無が挙げられ、事象が数値で表される場合においては、その数値の上下で分類するための基準値が挙げられる。当該基準値を用いる場合においては、例えば、数値が基準値以上であること、又は数値が基準値未満であることに応じて2値データに変換することができる。第1の事象についての第1の基準と、第1の事象についての第2の基準は、同一であっても、異なるものであってもよい。例えば、第1の事象が数値で表される場合において、第1の基準となる基準値と、第2の基準となる基準値とは、同一の数値であってもよく、異なる数値であってもよい。また、第1の事象についての第1の基準と、第2の事象についての第1の基準は、同一であっても、異なるものであってもよく、第1の事象についての第2の基準と、第2の事象についての第2の基準は、同一であっても、異なるものであってもよい。例えば、第1の事象も第2の事象も数値で表される場合において、第1の事象についての第1の基準となる基準値と、第2の事象についての第1の基準となる基準値とは、同一の数値であってもよく、異なる数値であってもよい。
このように、本発明においては、2を超える離散量で表されるデータ、及び連続量で表されるデータから2値データに変換したデータを用いることによって、データセットのもととなるデータが離散量であるか、連続量であるか、2値データであるかなどの種類を問わず、当該データのサンプルが異種であるか同種であるかを問わず、各種のデータを統一的に統計処理に用いることができ、広範囲のデータに基づく解析結果を得ることができる。
前記のように取得された第1の事象についての2値データと第2の事象についての2値データを含むデータセットを用いて、前述と同様の方法を行うことにより、N個のサンプルについて、第1の事象についての第1の基準と第2の事象についての第1の基準とに応じてサンプルの数を集計した2×2の分割表を取得することができる。同様に、N個のサンプルについて、第1の事象についての第2の基準と第2の事象についての第2の基準とに応じてサンプルの数を集計した2×2の分割表を取得することができる。取得されたN個のサンプルについての前記2×2の分割表からのフィッシャーの正確確率Pの算出は、前述のフィッシャーの正確確率Pの算出と同様に行うことができる。同様に、取得されたN個のサンプルについての前記2×2の分割表からのフィッシャーの正確確率Pの算出も、前述のフィッシャーの正確確率Pの算出と同様に行うことができる。
本発明において用いるフィッシャーの正確確率Pは、フィッシャーの正確確率Pと、フィッシャーの正確確率Pを含む複数のフィッシャーの正確確率を、メタ解析を用いて統合する工程を含む方法により算出されたものであってもよい。ここで、複数のフィッシャーの正確確率は、フィッシャーの正確確率Pと、フィッシャーの正確確率Pを含むものであり、その数は、例えば、2であるが、それを超える数であってもよい。フィッシャーの正確確率Pと、フィッシャーの正確確率Pのほか、当該複数のフィッシャーの正確確率に含まれるものとしては、これらと同様の方法により算出したフィッシャーの正確確率Pが挙げられる。メタ解析を用いて統合するフィッシャーの正確確率の数は、特に限定はないが、例えば、2〜100である。
メタ解析を用いた統合は、各種の方法が知られており、例えば、Rosental,R.(1984).Meta−analytic procedures for social research.Beverly Hills,CA:Sageには、異なる複数の検討条件下で得られたp値を統合してPoverallを計算する方法が説明されている。メタ解析を用いた統合は、例えば、フィッシャーの正確確率検定における片側検定を対象として、以下のように行うことができる。まず、統合するそれぞれのフィッシャーの正確確率をpとして、これをZ値(z)に変換する。
Z値の合計を統合する個数(k)の平方根で割ったものであるZoverallは正規分布に従う。
このZoverallから、統合されたP値であるpoverallを求めることにより、各フィッシャーの正確確率を統合することができる。
従来、様々な条件下で得られたデータを統合して相互情報量を算出することは、行われていなかった。本発明においては、前述のように、メタ解析を用いて統合したフィッシャーの正確確率Pを用いることにより、例えば、様々な条件下で得られたデータを組み合わせて用いて、広範なデータをもとに相互情報量を算出することができ、これにより、様々な異なる条件下(例えば、異なる細胞系譜、多様な細胞内外の条件など)での知見を総合しつつ、その条件下におけるバイアスに影響を受けずに、より正確に事象間の相互依存性を特定することができる。
本発明においては、共通の方法を用いて大規模なデータを解析することができるため、本発明の方法は、コンピュータによる実施が適している。本発明において、上記の方法は、この方法を実行させるためのコンピュータ用プログラムによって行ってもよい。当該コンピュータ用プログラムとしては、前述の方法の各工程を行う手段としてコンピュータを機能させるためのプログラムを挙げることができる。
当該コンピュータ用プログラムとしては、例えば、コンピュータを、
(1)第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータを取得する工程を行う手段、
(2)前記の第1の事象の情報と第2の事象の情報をN個のサンプルについて含むデータから、第1の事象についての2値データと第2の事象についての2値データを含むデータセットを取得する工程を行う手段、
(3)N個のサンプルのそれぞれが第1の事象についての基準と第2の事象についての基準に基づき、2×2の分割表の類型のいずれに該当するかを判定して、N個のサンプルのそれぞれを、前記各類型に分類する工程を行う手段、
(4)N個のサンプルのそれぞれを、前記各類型に分類し、これをN個の全サンプルについて繰り返し、各類型に分類されたサンプルの数を集計して、前記データセットから2×2の分割表にサンプルの数を集計する工程を行う手段、
(5)前記サンプルの数を集計した2×2の分割表に基づいて、フィッシャーの正確確率Pを算出する工程を行う手段、及び
(6)前記算出したフィッシャーの正確確率Pと、前記Nをもとに、−log10P/(Nlog102)を算出する工程を行う手段
として機能させるためのプログラムを挙げることができる。
当該プログラムは、これをコンピュータに読み込ませ、コンピュータのハードウェア資源と、読み込まれたソフトウェアとを協調して、機能させることによって、実行させることができる。ハードウェア資源としては、CPU等の演算手段、メモリ等の記憶手段を挙げることができる。
前記コンピュータ用プログラムは、記録媒体に保存したものであってもよい。記録媒体としては、例えば、CD−ROM、DVDなどの光読取手段、半導体メモリ、フレキシブルディスク、ハードディスクなどの情報格納手段を挙げることができる。
実施例1:
米国The Cancer Genome Atlas(TCGA)(http://cancergenome.nih.gov/)から、サンプル数1019の乳房浸潤癌患者のデータ(BRCA)をダウンロードした。このデータは、約20,000個の遺伝子についての情報を含んでいた。目的遺伝子としてのCLSTN3(Calsyntenin 3)のmRNA発現につき、野生型に比して2倍を超えるか、2倍以下かを基準として、各乳房浸潤癌患者を2類型に分類した。同様に、他の残りの遺伝子のmRNA発現についても、野生型に比して2倍を超えるか、2倍以下かを基準として、各乳房浸潤癌患者を2類型に分類した。分類後のデータをもとにして、上記の基準に応じて、CLSTN3(Calsyntenin 3)と、他の残りの遺伝子のそれぞれにつき、2×2の分割表に乳房浸潤癌患者の数を集計した。集計された数をもとに、前述した相互情報量の定義の式を用いて、各遺伝子につき、CLSTN3(Calsyntenin 3)との相互情報量を算出した。また、集計された数をもとに、各遺伝子につき、フィッシャーの正確確率pを算出した。各遺伝子につき、算出したCLSTN3(Calsyntenin 3)との相互情報量と、フィッシャーの正確確率pから求めた−log(p)の値を、グラフにプロットした。
結果を、図1に示す。図1に示すように、サンプル数1019において、相互情報量と、−log(p)の間には、直線的な関係があった。このように、Nが大きい場合には、フィッシャーの正確確率pについての−log(p)と、相互情報量との間には、比例関係があった。
点突然変異の有無を基準として各乳房浸潤癌患者を分類した場合においても同様の結果が得られた。
実施例2:
急性骨髄性白血病、膀胱尿路上皮癌、乳房浸潤癌、結腸腺癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓腎細胞癌、腎臓乳頭細胞癌、肺腺癌、肺扁平上皮癌、卵巣漿液性嚢胞腺癌、膵臓腺癌、前立腺癌、直腸腺癌、皮膚メラノーマ、胃腺癌、甲状腺癌、子宮内膜癌、がん細胞株(CCLE)という計19種類のサンプルについて、それぞれのサンプルについてのデータをTCGA(http://cancergenome.nih.gov/)からダウンロードした。なお、上記のCCLEは症例データではなく、1021種類の株化癌細胞を用いたデータである。それぞれのサンプルについてのデータは、サンプルとして66〜1021症例を含み、約20,000個の遺伝子についての情報を含んでいた。
EGFR(上皮成長因子受容体、epidermal growth factor receptor)を目的遺伝子として、19種類のサンプルのそれぞれについて、残りの遺伝子のそれぞれにつき、実施例1と同様の方法により、EGFRとの間で2×2の分割表にサンプル数を集計し、これをもとに、フィッシャーの正確確率Pを算出した。
各サンプルについて算出したEGFRと各遺伝子のフィッシャーの正確確率Pを、メタ解析法(Rosenthal,1984)を用いて統合した。すなわち、各P値をZ値に変換し、Z値を統合してZoverall値を算出し、さらに算出したZoverall値を変換し、各遺伝子につき、Poverall値を得た。得られたPoverall値と、統合して用いた全サンプルの数Nallをもとに、前記Nをもとに、各遺伝子につき、−log10overall/(Nalllog102)を算出した。
算出した値が高い遺伝子から順に並べた結果を図2に示す。また、算出した値が大きい遺伝子2000個にEGFRを加えた2001個をキアゲン社のIngenuity Pathway Analysis(IPA)(登録商標)解析ソフトウェアにて解析した。IPAにおける標準経路(Canonical Pathways)の上位5個の結果を、以下の表4に示す。
予測されたパスウェイの3番目がEGFシグナル伝達であった。このように、19種類のサンプルにつき、フィッシャーの正確確率をメタ解析によって統合した場合において、EGFRと各遺伝子との相互依存性を正確に特定することができた。
実施例3:
RB1(RB Transcriptional Corepressor 1)、IFNG(interferon gamma)及びGRM1(glutamate metabotropic receptor 1)をそれぞれ目的遺伝子としたほかは、実施例2と同様の方法を行った。それぞれの目的遺伝子につき、算出した値が高い遺伝子から順に並べた結果を、図3〜図5に示す。
また、IFNGにつき、算出した値が大きい遺伝子2000個の遺伝子リストをIPA(登録商標)解析ソフトウェアにて解析した。その結果、IPA(登録商標)におけるUpstream Regulatorの予測の最上位はIFNGであった。このように、IFNGなしにIFNGが予測できた。IPA(登録商標)における標準経路(Canonical Pathways)の上位5個の結果を、以下の表5に示す。
予測されたパスウェイは、知られているIFNGのそれと極めて良く一致している。これらの結果は、IPA(登録商標)の解析対象とした本発明による解析結果が高精度であることを強く示唆するとともに、本発明はがん以外の疾患領域にも有用であることを示す。
同様に、GRM1との相互情報量が大きい遺伝子2000個の遺伝子リストをIPA(登録商標)解析ソフトウェアにて解析した。疾患又は機能アノテーション(Disease & Functions Annotation)において活性zスコア(Activation z−score)の絶対値が3以上のものの上位15個の結果を、以下の表6に示す。
予測されたGRM1の機能は、知られているGRM1の機能と極めて一致していることがわかる。このように、多数のサンプルにつき、フィッシャーの正確確率をメタ解析によって統合した場合において、GRM1と各遺伝子との相互依存性を、極めて正確に特定することができた。
実施例4:
スーパーマーケットチェーンのA店舗での1週間の売り上げについて、サンプル数約5000の購入履歴をPOSシステムからダウンロードする。このデータは、個々の購入の内容についての情報を含むものである。5000のサンプルについて、「おにぎり」のカテゴリーに属する商品を購入しているか否かを基準として、2類型に分類する。同様に、他の商品カテゴリー(商品カテゴリー数は約300)についても、購入しているか否かを基準として、2類型に分類する。実施例1と同様の方法により、「おにぎり」と各商品カテゴリーについての2×2の分割表においてサンプルを集計し、その集計結果に基づきフィッシャーの正確確率Pを算出する。これを約200の商品カテゴリーの全てについて行う。
スーパーマーケットチェーンの他の店舗B〜Zについても、同様に、「おにぎり」と各商品カテゴリーのフィッシャーの正確確率Pを算出し、実施例2と同様の方法により、メタ解析法を用いて統合する。統合して用いた全サンプル数のNallをもとに、各商品カテゴリーにつき、−log10overall/(Nalllog102)を算出する。
この算出により得られた値が高い商品カテゴリーは、「おにぎり」と同時に購入されることが多いことが分析できる。例えば、「おにぎり」を購入するスーパーの顧客は「カップ味噌汁」を同時に購入することが多いと分析された場合には、両者を隣接して陳列することで、売り上げを伸ばすことができる。
実施例5:
東京証券取引所の第1部で株式が取引される銘柄(約2000銘柄)についての2017年の株価推移のデータをダウンロードする。2017年の取引日は約240日あり、それぞれの日をサンプルとする。次に、2017年におけるドル円相場のレート(円換算した1ドルの価格)のデータをダウンロードする。ドル円相場のレートのデータを用い、サンプル日におけるドル円相場のレートが、前日のレートよりも高くなっているか否かを基準として、2類型に分類する。次に、株価推移のデータを用い、各会社の株価について、株の取引開始時よりも取引終了時の方が高くなっているか否かを基準として、2類型に分類する。実施例1と同様の方法により、ドル円相場の変動と会社の株価の変動についての2×2の分割表においてサンプルを集計し、その集計結果に基づきフィッシャーの正確確率Pを算出する。これを約2000銘柄の株価について行う。
算出された各銘柄のPを、東証業種分類中分類にしたがって業種ごとに、実施例2と同様の方法により、メタ解析法を用いて統合する。統合して用いた全サンプル数のNallをもとに、各業種につき、−log10overall/(Nalllog102)を算出する。
この算出により得られた値が高い業種は、ドル円相場と連動して株価が変動する傾向が高いことが予測できる。

Claims (4)

  1. 第1の事象と第2の事象の相互依存性の特定方法であって、
    N個のサンプルについて第1の事象の情報と第2の事象の情報含むデータから、コンピュータが第1の事象についての2値データと第2の事象についての2値データを含むデータセットを取得する工程
    前記データセットから、コンピュータが2×2の分割表にサンプルの数を集計する工程
    前記2×2の分割表に基づいて、コンピュータがフィッシャーの正確確率Pを算出する工程、及び
    前記フィッシャーの正確確率Pと、前記Nをもとに、コンピュータが−log10P/Nを算出する工程
    を含むことを特徴とする、方法。
  2. 請求項1に記載の方法であって、前記フィッシャーの正確確率Pが、
    (1個のサンプルについ
    第1の事象についての第1の基準及び第2の事象についての第1の基準に基づいて、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、コンピュータが算出た、フィッシャーの正確確率Pと、
    (2個のサンプルについ
    第1の事象についての第2の基準及び第2の事象についての第2の基準に基づいて、第1の事象についての2値データと第2の事象についての2値データを含むデータセットから、コンピュータが算出た、フィッシャーの正確確率Pとを含む、
    複数のフィッシャーの正確確率を、コンピュータがメタ解析を用いて統合する工程を含む方法によりコンピュータが算出たものである、方法。
  3. 請求項1または2に記載の方法を実行させるためのコンピュータ用プログラム。
  4. 請求項3に記載のコンピュータ用プログラムを保存した記録媒体。
JP2019509406A 2017-03-31 2018-03-30 相互依存性の特定方法 Active JP6820621B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017072904 2017-03-31
JP2017072904 2017-03-31
PCT/JP2018/013877 WO2018181988A1 (ja) 2017-03-31 2018-03-30 相互依存性の特定方法

Publications (2)

Publication Number Publication Date
JPWO2018181988A1 JPWO2018181988A1 (ja) 2020-04-23
JP6820621B2 true JP6820621B2 (ja) 2021-01-27

Family

ID=63678171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019509406A Active JP6820621B2 (ja) 2017-03-31 2018-03-30 相互依存性の特定方法

Country Status (2)

Country Link
JP (1) JP6820621B2 (ja)
WO (1) WO2018181988A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1830289A1 (en) * 2005-11-30 2007-09-05 Institut National De La Sante Et De La Recherche Medicale (Inserm) Methods for hepatocellular carninoma classification and prognosis
JP2009048455A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 節間関係推定装置およびコンピュータプログラム
JP2009069911A (ja) * 2007-09-10 2009-04-02 Mizuho Information & Research Institute Inc 遺伝子関連解析装置及び遺伝子関連解析プログラム
JP2013123420A (ja) * 2011-12-15 2013-06-24 World Fusion Co Ltd 遺伝子セット作成方法
ES2731913T3 (es) * 2014-01-30 2019-11-19 Ares Genetics Gmbh Pruebas de resistencia genética

Also Published As

Publication number Publication date
JPWO2018181988A1 (ja) 2020-04-23
WO2018181988A1 (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
Jamshidi et al. Evaluation of cell-free DNA approaches for multi-cancer early detection
Suwinski et al. Advancing personalized medicine through the application of whole exome sequencing and big data analytics
Nabet et al. Noninvasive early identification of therapeutic benefit from immune checkpoint inhibition
Liu et al. Phenotype prediction and genome-wide association study using deep convolutional neural network of soybean
Ho et al. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis
Pang et al. Pathway analysis using random forests classification and regression
Kebschull et al. Molecular differences between chronic and aggressive periodontitis
Torang et al. An elastic-net logistic regression approach to generate classifiers and gene signatures for types of immune cells and T helper cell subsets
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
US10451626B2 (en) Method for detecting a solid tumor cancer
Ostrovnaya et al. Clonality: an R package for testing clonal relatedness of two tumors from the same patient based on their genomic profiles
Buckberry et al. massiR: a method for predicting the sex of samples in gene expression microarray datasets
Toh et al. Genetic risk score for ovarian cancer based on chromosomal-scale length variation
Kim et al. MHC II immunogenicity shapes the neoepitope landscape in human tumors
JP6820621B2 (ja) 相互依存性の特定方法
Zandavi et al. Disentangling single-cell omics representation with a power spectral density-based feature extraction
Ruan et al. An empirical Bayes’ approach to joint analysis of multiple microarray gene expression studies
Royston et al. Application of single-cell approaches to study myeloproliferative neoplasm biology
Asare et al. Power enhancement via multivariate outlier testing with gene expression arrays
Bedo et al. Precision-mapping and statistical validation of quantitative trait loci by machine learning
Salunkhe et al. CytoPred: 7-gene pair metric for AML cytogenetic risk prediction
Vasmatzis et al. Quantitating tissue specificity of human genes to facilitate biomarker discovery
Novianti et al. An application of sequential meta-analysis to gene expression studies
Yoon et al. Large scale data mining approach for gene-specific standardization of microarray gene expression data
Sun et al. The types of tumor infiltrating lymphocytes are valuable for the diagnosis and prognosis of breast cancer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201223

R150 Certificate of patent or registration of utility model

Ref document number: 6820621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250