JP6812789B2 - 情報処理装置、情報処理プログラム、および情報処理方法 - Google Patents

情報処理装置、情報処理プログラム、および情報処理方法 Download PDF

Info

Publication number
JP6812789B2
JP6812789B2 JP2016256723A JP2016256723A JP6812789B2 JP 6812789 B2 JP6812789 B2 JP 6812789B2 JP 2016256723 A JP2016256723 A JP 2016256723A JP 2016256723 A JP2016256723 A JP 2016256723A JP 6812789 B2 JP6812789 B2 JP 6812789B2
Authority
JP
Japan
Prior art keywords
value
test
lower limit
probability
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016256723A
Other languages
English (en)
Other versions
JP2018109828A (ja
Inventor
隆介 西川
隆介 西川
善史 宇治橋
善史 宇治橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016256723A priority Critical patent/JP6812789B2/ja
Priority to US15/808,924 priority patent/US11210599B2/en
Publication of JP2018109828A publication Critical patent/JP2018109828A/ja
Application granted granted Critical
Publication of JP6812789B2 publication Critical patent/JP6812789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理プログラム、および情報処理方法に関する。
統計学の分野では、ある仮説をたてて確率に基づいて検討する仮説検定がよく用いられている。
生物学、化学等のバイオアイテムの検索に関し、疾患関連遺伝子多型の探索研究における各患者の表現型と遺伝子型を記述した文書を各文献とし、各遺伝子型を各バイオアイテムとし、表現型に関する語句をキーワードとして用いる技術が提案されている。この技術により、表現型に最も相関する遺伝子型を統計学的な有意性確率の順位で検索可能とする。
国際公開第2007/126088号パンフレット
仮説検定では、ある仮説を棄却するかしないかを決める水準の確率を有意水準(αとよばれる)とよぶ。本来は陰性であるのに誤って陽性と判定されることを偽陽性、または第一種過誤とよぶ。α=0.05と設定すると、偽陽性の生じる確率は5%となる。
仮説検定では、与えられたデータから偽陽性の確率(p値とよばれる)を算出して、p値が有意水準よりも大きいかどうかで統計的有意性を判定する。例として、「男性と女性との間でダイエットしている人の割合に有意差がない」という仮説について、p値が有意水準よりも小さい場合に仮説を棄却する。つまり、p<0.05であれば、偶然起こる確率は5%以下であると考えられ、偶然ではく有意に差がある、と結論付ける。
しかしながら、同時に複数の仮説検定が発生する多重検定では、このp値を算出する演算量が膨大になる。上述した検索対象を精度良く定める関連技術では、p値の演算量を削減することができない。
したがって、1つの側面では、多重検定において偽陽性の確率の演算量を削減することを目的とする。
一態様によれば、多重検定によって得られた特定事象の発生有無に係る集計後データに基づいて、検定毎に偽陽性の確率の上限値と下限値とを求め、求めた複数の上限値から、所定の値を設定し、設定した前記所定の値よりも小さい下限値の検定に対して該偽陽性の確率を算出し、該偽陽性の確率のセットを取得する絞り込み部を有する情報処理装置が提供される。
また、上記課題を解決するための手段として、上記方法を行う装置、コンピュータに上記処理を実行させるためのプログラム、及び、そのプログラムを記憶した記憶媒体とすることもできる。
多重検定において偽陽性の確率の演算量を削減することができる。
クロス集計表の例を示す図である。 確率関数とp値とを説明するための図である。 多重検定において第一種過誤が生じる場合を説明するための図である。 検定間の従属性の例を示す図である。 最小p値の確率分布の例を示す図である。 本実施例における絞り込み処理の例を示す図である。 情報処理装置のハードウェア構成を示す図である。 本実施例における情報処理装置の機能構成の第1例を示す図である。 集計前データの構成例を示す図である。 集計後データの構成例を示す図である。 最小p値テーブルの構成例を示す図である。 図8の機能構成の第1例におけるp値算出処理を説明するためのフローチャート図である。 ステップS103での不等式による絞り込み処理を説明するためのフローチャート図である。 本実施例における情報処理装置の機能構成の第2例を示す図である。 図14の機能構成の第2例における不等式による絞り込み処理を説明するためのフローチャート図である。
以下、本発明の実施の形態を図面に基づいて説明する。先ず、仮説検定について説明する。フィッシャーの正確確率検定(以下、簡潔に、「フィッシャー検定」という)が、2つの集団を2つのカテゴリーに分類したデータの仮説検定を行う手法として統計学の分野でよく知られている。
一例として、男性と女性の2つの集団の間でダイエットしている人としていない人の2つのカテゴリーの割合に有意差がない、という仮説を検定するときにフィッシャー検定が用いられる。この仮説に対して、p値が有意水準よりも大きいか否かで統計的有意性を判定する。
以下に、フィッシャー検定の概要を説明する。ここでは、ある病気について発症している人(case)と発症していない人(control)の2群に分類し、それぞれの群について塩基(DNAの遺伝情報を担う要素)の変異がある人とない人とに分類する。このような分類は、図1に示すようなクロス集計表で表される。
図1は、クロス集計表の例を示す図である。図1に例示するクロス集計表では、
nは発症かつ変異ありの人数
xは変異ありの合計人数
Ncは発症の合計人数
Ntは集計表の合計人数
を表わす。クロス集計表内のn、x-n、Nc-n、およびNt-x-Nc+nは、観測度数といい、各項目の合計値を示すx、Nt-x、Nc、Nt-Nc、およびNtは、周辺度数を表わす。上述では、特定疾患の発症の有無を例としたが、商品購入の有無等でもよい。
このクロス集計表に基づいて、偽陽性の確率を示すp値の計算方法について説明する。与えられた図1のクロス集計表に対して、数1と数2によりp値を計算する。数1で得られる確率関数Prと数2で得られるp値との関係は、図2で示される。
まず、図1のクロス集計表において、周辺度数が与えられた状況で、発症かつ変異ありの人数がnとなる確率関数Prは、
Figure 0006812789
で表される。図2において、確率関数Pr(n;x,Nc,Nt)は簡潔にPr[n]で示される。確率関数Prより、フィッシャー検定のp値は、
Figure 0006812789
で表される。図2において、斜線領域は偶然起こる確率の領域を示し、一例として5%に設定され、p値が5%以下であった場合、偶然ではなく有意に差があることを示す。
上述では、1つの仮説検定であったが、同時に複数の仮説検定が発生する状況を多重検定と呼ぶ。例えば、ある病気と関連する塩基(DNAの遺伝情報を担う要素)を特定するために、多数の塩基について繰り返し仮説検定を行う場合がある。
図3は、多重検定において第一種過誤が生じる場合を説明するための図である。図3では、1つの検定が引き起こす偽陽性の確率を1つの丸い形状で表す。図3(A)では、1回の検定の結果例を示している。有意水準値αが5%とする。図3(A)において、偽陽性の起こる確率は5%である。
一方、図3(B)では、10回の検定の結果例を示している。1−0.9510により0.4を得る。即ち、少なくとも1つの検定で偽陽性の起こる確率は、40%である。このように、多重検定では、検定回数が多くなるほど高確率で第一種過誤が生じる。
このような偽陽性の確率が高くなる現象を抑えるために有意水準を補正する手法として、様々な多重検定補正が存在する。Bonferroni法、Holm法、Tarone法、およびpermutation(並べ替え)法(Westfall-Young法ともいう)等が知られている。
以下に、permutation法(Westfall-Young法)についてその概要を説明する。permutation法は、多数の検定間の従属性を扱うことができる。図4は、検定間の従属性の例を示す図である。図4においても、1つの検定が引き起こす偽陽性の確率を1つの丸い形状で表す。
図4(A)は、独立な2つの検定の例を示す。図4(B)は、従属性のある2つの検定の例を示している。permutation法は、図4(B)のように従属性のある複数の検定間の従属性を扱うことが可能である。
permutation法は、数値シミュレーション(以下、単に、シミュレーションという)を使用し、計算が収束するまで以下の処理を繰り返す。
・与えられたデータ(集計前データ42(図9))の特定事象発生有無をランダムに並べ替えて(permutation)、全ての検定について集計表を作成してp値を計算する。
・全ての検定の中から最小のp値を選択する。
・シミュレーションごとに得られた最小p値のセットから、最小p値の確率分布を数値的に求める。
・最小p値の確率分布をもとに多重検定補正の補正値を決定する。
図5は、最小p値の確率分布の例を示す図である。図5には、数値的に得られた最小p値の確率分布Pr[min p]を示し、この最小p値の確率分布Pr[min p]から求めた補正後の有意水準(有意水準補正値α’)を示している。
図5より、有意水準補正値α’よりも最小p値が小さくなる確率は5%である。言い換えると、多重検定のなかで1つでも偽陽性を生じる確率は5%である。
上述したフィッシャー検定は仮説検定によく使用されるが、p値算出の演算量が多く計算時間がかかる。具体的には、数1はクロス集計表の周辺度数Nが大きくなると、積の演算量が膨大になる。また、多重検定を補正するpermutation法ではp値を繰り返し計算するため、p値の計算コストの増大がpermutation法全体の計算コスト増大を招く。
そこで、フィッシャー検定のp値を高速に算出する方法として、lookup table(ルックアップテーブル)を用いる方法(非特許文献1)が知られている。この方法では、一度計算したp値をlookup tableに保存する。同じ引数(n,x,Nc,Nt)のp値を求める際に、lookup tableに保持されている値を検索する。
一例として、病気と関連する可能性のある多数の塩基について検定をする場合、観測度数nおよび周辺度数xは塩基毎に異なる値を取るが、周辺度数Nc, Ntはすべての塩基について共通の値を取る。それゆえ、lookup tableは、x、nの2変数の組み合わせについて保持すればよい。
このようにlookup tableを検索することで、直接p値を計算する場合よりも高速にp値を得ることができる。
一方で、欠損値を含むデータを扱う場合、n、xに加えてNc,Ntの値も塩基毎に異なるため、引数(n,x,Nc,Nt)の組み合わせが膨大になる。それゆえ、一度、計算したp値を再び計算する機械がほとんど無くなるため、lookup tableを検索する処理がほとんど無くなり、高速化が困難となる。
ここで、p値の計算の演算量を低減するために、permutation法について更なる検証を行う。まず、permutation法に関する知識を有する者が思いつくであろう方法について検証する。
permutation法は、全ての検定のp値を必要とせず、各permutation時の最小p値のみを必要とする。それゆえ、計算コストを縮減するために、最小p値の候補となる検定を絞込み、候補に対してのみp値を計算する方法が考えられる。
クロス集計表(図1)の統計的な偏りを表わす指標として、
Figure 0006812789
で表されるOdds Ratio(OR)が良く用いられる。
ORの計算コストはフィッシャー検定のp値算出のコストに比べて十分少ない。従って、まず、全ての検定のORを算出して、ORの値が大きくなる検定を最小p値を得られる候補として絞込みを行うことが考えられる。
この方法では、絞り込み時のORの閾値の決め方に任意性があるため、分析者の経験により計算コストや結果に差が生じる。ORの大小関係とフィッシャー検定のp値の大小関係は必ずしも一致しないので、閾値の決め方次第では正確な最小p値を得られない場合があり、その結果、有意水準補正の精度劣化を引き起こす場合がある。
以下に説明する本実施例では、正確な最小p値を得ることで検定の精度を劣化させずに、p値の計算の演算量を削減する。
上述したORを用いた検定の絞り込み方法では、正確な最小p値を得られない可能性がある。その問題を解決するために、発明者等は、フィッシャー検定のp値(数2)との大小関係が明確な関数を用いる方法を見出した。発明者等の方法では、p値の上限と下限を予め算出することで、正確にp値の絞り込みを行えるため、精度が劣化することなく有意水準値αの補正値(有意水準補正値α’)を求めることができる。
まず、p値の上限を与える効果的な不等式は以前から知られている(非特許文献2)。ここでいう効果的とは、正確なp値と上限との差が小さく、かつ上限を求める演算量が正確なp値を求める演算量よりも十分少ないことをいう。
このように、p値の上限を得る効果的な不等式(数6)は知られているが、p値の下限を与える効果的な不等式は知られていなかった。発明者等は、p値算出に必要な超幾何分布の確率密度関数(数1)の性質とpermutation法の両方に精通しているため、以下の方法を見出した。
まず、発明者等は、permutation法で必要となる最小p値の算出には、超幾何分布の確率密度関数のtail(裾野)のみが必要であることに着目した。上記のtail(裾野)が指数関数的に減少する性質に着目して、本来は確率密度関数の和で与えられるp値(式1)を近似的に確率密度関数1項のみで与える下限式を発案した。さらに、超幾何分布の確率密度関数にスターリングの公式を適用して演算量の少ない下限式に変形して、下限式(数5)を発案した。
以下に、発明者等によって見出された不等式による絞り込み処理について説明する。数2で定義される確率関数Prについて不等式
Figure 0006812789
を用いる。また、flow及びfuppは、
Figure 0006812789
Figure 0006812789
により定義する。
ここで、数2から数4を得るための式の変形について説明しておく。数2のフィッシャー検定のp値について、非特許文献2より、
Figure 0006812789
が成り立つことが知られている。一方、数2より、以下の不等式が成り立つ。
Figure 0006812789
数7及び数8より、対数をとると、
Figure 0006812789
が成り立つ。
上記数9の最左辺について、スターリングの公式
Figure 0006812789
を用いて、
Figure 0006812789
を得る。よって、数10と数11により、数4を得る。
本実施例における絞り込み処理では、全ての検定についてfuppを計算して最小となるfuppを求める。次に、全てのflowを計算して最小fuppよりもflowが小さくなる検定を選択する。そして、絞り込み処理で選択された検定についてのみ、p値を計算して最小p値を求めるp値計算処理を行う。
検定数Ntが大きい場合、p値の演算量に比べてfupp及びflowの演算量は十分少ない。したがって、全ての検定についてp値を算出するよりも、全ての検定についてfupp及びflowを算出して検定の絞り込みをし、絞り込み後の検定についてのみp値を算出することで、高速化できる。p値の積の演算量O((x-n)Nt)であるのに対して、本実施例におけるfupp及びflowによる積の演算量は、O(1)である。
図6は、本実施例における絞り込み処理の例を示す図である。図6において、横軸にp値の対数値(log p-value)を示し、左から右へとp値は小さくなる。検定毎に得られたfupp及びflowを示している。この例では、検定6a、6b、6c、6d、及び6eについて算出されたfupp及びflowを例示している。
絞り込み処理では、全ての検定6a〜6eのうち検定6aが最小fuppを示すため、検定6aの最小fuppより小さいflowの検定6b及び6cを特定する。この例では、検定6a〜6cが選択され、検定6d及び6eは除外される。本実施例では、特に、p値の下限を与える効果的な不等式(数4)を得たことで、検定毎に適切なp値の範囲を取得できるため、精度よく検定を選別し、p値算出処理を高速化する。
上述した本実施例に係るp値算出処理を実現する情報処理装置は、図7に示すようなハードウェア構成を有する。図7は、情報処理装置のハードウェア構成を示す図である。図7において、情報処理装置100は、コンピュータによって制御される情報処理装置であって、CPU(Central Processing Unit)11と、主記憶装置12と、補助記憶装置13と、入力装置14と、表示装置15と、通信I/F(インターフェース)17と、ドライブ装置18とを有し、バスBに接続される。
CPU11は、主記憶装置12に格納されたプログラムに従って情報処理装置100を制御するプロセッサに相当する。主記憶装置12には、RAM(Random Access Memory)、ROM(Read Only Memory)等が用いられ、CPU11にて実行されるプログラム、CPU11での処理に必要なデータ、CPU11での処理にて得られたデータ等を記憶又は一時保存する。
補助記憶装置13には、HDD(Hard Disk Drive)等が用いられ、各種処理を実行するためのプログラム等のデータを格納する。補助記憶装置13に格納されているプログラムの一部が主記憶装置12にロードされ、CPU11に実行されることによって、各種処理が実現される。記憶部130は、主記憶装置12及び補助記憶装置13の1以上に相当する。
入力装置14は、マウス、キーボード等を有し、分析者等の利用者が情報処理装置100による処理に必要な各種情報を入力するために用いられる。表示装置15は、CPU11の制御のもとに必要な各種情報を表示する。入力装置14と表示装置15とは、一体化したタッチパネル等によるユーザインタフェースであってもよい。通信I/F17は、有線又は無線などのネットワークを通じて通信を行う。通信I/F17による通信は無線又は有線に限定されるものではない。
情報処理装置100によって行われるp値算出処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によって情報処理装置100に提供される。
ドライブ装置18は、ドライブ装置18にセットされた記憶媒体19(例えば、CD−ROM等)と情報処理装置100とのインターフェースを行う。
また、記憶媒体19に、後述される本実施の形態に係るp値算出処理を実現するプログラムを格納し、この記憶媒体19に格納されたプログラムは、ドライブ装置18を介して情報処理装置100にインストールされる。インストールされたプログラムは、情報処理装置100により実行可能となる。
尚、プログラムを格納する記憶媒体19はCD−ROMに限定されず、コンピュータが読み取り可能な、データとしての構造(structure)を有する1つ以上の非一時的(non-transitory)な、有形(tangible)な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD−ROMの他に、DVD(Digital Versatile Disk)ディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。
図8は、本実施例における情報処理装置の機能構成の第1例を示す図である。図8において、情報処理装置100は、置換処理部31と、集計処理部32と、p値上限値算出部33と、p値下限値算出部34と、p値算出部35と、最小p値選択部36と、有意水準補正部37と、収束判定部38とを有する。
置換処理部31と、集計処理部32と、p値上限値算出部33と、p値下限値算出部34と、p値算出部35と、最小p値選択部36と、有意水準補正部37と、収束判定部38とは、情報処理装置100にインストールされたプログラムが、情報処理装置100のCPU11に実行させる処理により実現される。
また、記憶部130は、集計前データ42、集計後データ43、最小p値テーブル44、有意水準値α、有意水準補正値α’(k)、有意水準補正値α’(k-1)、誤差β(k)等を記憶する。
置換処理部31は、記憶部130に記憶された集計前データ42(図9)に記憶された特定事象発生有無との関連性に係る属性をランダムに並べ替える(permutation)。属性をランダムに並べ替えた置換結果で集計前データ42は、置き換えられる。
集計処理部32は、並び替えられた集計前データ42を入力として、多重検定を行う。特定事象発生有無と各属性に対する検定毎にクロス集計表を作成し、作成したクロス集計表から観測度数と周辺度数と取得し、観測度数と周辺度数と示した集計結果を記憶部130の集計後データ43(図10)に出力し記憶する。この観点において、集計後データ43は、多重検定同時集計テーブルと言える。
p値上限値算出部33は、集計後データ43から観測度数nと周辺度数x、Nc、Ntとを取得して、全ての検定のp値上限値(fupp)を算出し、p値上限値(fupp)の中から最小値(最小fupp)を選択する。最小fuppは、p値下限値算出部34に通知される。
p値下限値算出部34は、集計後データ43から観測度数nと周辺度数x、Nc、Ntとを取得して、全ての検定のp値下限値(flow)を算出し、算出したp値下限値(flow)のうちp値下限値(flow)よりも小さいp値下限値(flow)を得た検定をp値算出の候補として選択する。検定候補を示す絞り込み結果がp値算出部に通知される。
p値算出部35は、p値下限値算出部34によって得られた検定候補に対して、数1と数2とを用いてp値を算出する。算出して得られたp値のセットは最小p値選択部36に通知される。
p値上限値算出部33と、p値下限値算出部34と、p値算出部35とが、後述される不等式(数4)による絞り込み処理を行う絞り込み部P1に相当する。絞り込み処理は、図13で詳述される。
最小p値選択部36は、p値算出部35から通知されたp値のセットから最小p値を選択し、最小p値テーブル44(図11)に追加して記憶する。
有意水準補正部37は、有意水準補正値α’および誤差βを更新する。有意水準補正部37は、最小p値テーブル44から最小p値のセットを取得して、分析者等の利用者9によって定められた有意水準値αを用いて、最小p値のセット中の上位(100×α)%以下のうち、最大の最小p値を有意水準補正値α’(k)とする。
また、有意水準補正部37は、k回目のpermutation時の有意水準補正値α’(k)と(k−1)回目のpermutation時の有意水準補正値α’(k-1)から数12により、
Figure 0006812789
k回目の誤差β(k)を求める。
有意水準補正部37は、記憶部130に、現在の有意水準補正値α’(k)を有意水準補正値α’(k-1)に設定し、求めた誤差β(k)を記憶する。初期状態では、利用者9が指定した有意水準補正値α’が有意水準補正値α’(k-1)に設定される。有意水準補正値α’(k)と誤差β(k)とが、有意水準補正値α’と誤差βとして収束判定部38に通知される。
収束判定部38は、有意水準補正部37から有意水準補正値α’と誤差βとを受け付けると、予め定められた収束判定値εと誤差βとを比較し、誤差βが収束判定値ε未満であれば、有意水準補正値α’を得られたp値として表示装置15に表示させ、本実施例に係るp値判定処理を終了する。誤差βが収束判定値ε以上の場合、未収束を示す判定結果を置換処理部31に通知する。判定結果を受けた置換処理部31は、上述した処理を繰り返す。
次に、集計前データ42、集計後データ43、及び最小p値テーブル44の構成例について説明する。
図9は、集計前データの構成例を示す図である。図9において、集計前データ42は、統計データ等を蓄積し記憶するテーブルであり、ID、特定事象発生有無、複数の属性1、2、・・・、m等の項目を有する。
IDは、レコードを特定する識別情報を示す。患者、購買者等の個人に対応付けられてもよい。特定事象発生有無は、特定の疾患の発症の有無(case/control)、特定商品の購入の有無等を示す。発症した場合、購入した場合等は「1」を示し、発症していない場合、購入していない場合等は「0」を示す。
複数の属性1、2、・・・、mは、特定事象発生有無の関連性に係る属性を示す。属性が成立する場合、「1」を示し、属性が成立しない場合、「0」を示す。特定疾患に関する場合、複数の塩基の種類が属性1、2、・・・、mで示される。特定商品に関する場合、地域名、年齢層、天気情報、時間帯、同時に購入される得る他商品名等が示される。
図10は、集計後データの構成例を示す図である。図10において、集計後データ43は、検定毎に観測度数の値と、複数の周辺度数の値とを記憶するテーブルであり、観測度数と、複数の周辺度数等の項目を有する。集計後データ43は、多重検定同時集計テーブルに相当する。
観測度数は、検定毎のクロス集計表(図1)のnの値を示す。複数の周辺度数は、クロス集計表(図1)のxの値、Ncの値、およびNtの値を示す。
図11は、最小p値テーブルの構成例を示す図である。図11において、最小p値テーブル44は、最小p値選択部36によって選択された最小p値が蓄積され記憶されるテーブルである。p値算出処理が収束するまでの繰り返しごとに最小p値が最小p値テーブル44に蓄積される。
この例では、最小p値テーブル44に、繰り返しごとに、「0.0004」、「0.0006」、「0.0007」等が蓄積されたことを示している。繰り返しごとに得られた最小p値と、集計後データ43の、得られた最小p値の検定に係る観測度数と周辺度数のセットのレコードと関連付けされることが望ましい。又は、最小p値テーブル44に観測度数と周辺度数のセットを記憶する項目を含んでもよい。
図12は、図8の機能構成の第1例におけるp値算出処理を説明するためのフローチャート図である。図12において、利用者9から有意水準値αを取得すると記憶部130に記憶し、置換処理部31は、集計前データ42に対して特定事象発生有無をランダムに並べ替えて、集計前データ42を置き換える(ステップS101)。
次に、集計処理部32は、集計前データ42に対して多重検定を行い、検定毎の観察度数と複数の周辺度数とを示す集計後データ43を記憶部130に出力する(ステップS102)。
集計後データ43が記憶部130に出力されると、絞り込み部P1により、不等式(数4)による絞り込み処理が行われる(ステップS103)。不等式(数4)による絞り込み処理は、図13で詳述する。p値算出処理の対象となる検定の絞り込みが行われると、各検定候補のp値のセットが得られる。
最小p値選択部36は、p値のセットから最小p値を選択して最小p値テーブル44に追加する(ステップS104)。
最小p値テーブル44に最小p値が追加されると、有意水準補正部37は、最小p値テーブル44から最小p値のセットを読み出して、今回の繰り返しによる有意水準補正値α’を算出し、また、前回との誤差βを算出して、有意水準補正値α’及び誤差βを更新する(ステップS105)。
有意水準補正部37は、記憶部130に記憶されている利用者9が指定した有意水準値αを読み出して、最小p値テーブル44から読み出した最小p値のセットから上位(100×α)%以下で最大の最小p値を特定する。特定した最小p値を今回の有意水準補正値α’とする。
記憶部130に記憶されている前回の有意水準補正値α’を有意水準補正値α’(k-1)として記憶し、今回の有意水準補正値α’と前回の有意水準補正値α’(k-1)との誤差β(k)を算出する。有意水準補正部37は、今回の有意水準補正値α’及び誤差β(k)とを記憶部130に記憶して更新する。また、有意水準補正部37は、今回の有意水準補正値α’及び誤差β(k)とを収束判定部38に通知する。
収束判定部38は、有意水準補正部37からの通知に応じて、誤差β(k)が収束判定値ε未満であるか否かを判定する(ステップS106)。収束判定部38により、誤差β(k)が収束判定値ε以上であると判定された場合(ステップS106のNO)、p値算出処理は、ステップS101へと戻り、ランダム置換処理から繰り返される。一方、収束判定部38により、誤差β(k)が収束判定値ε未満であると判定された場合(ステップS106のYES)、p値算出処理は、終了する。
図13は、ステップS103での不等式による絞り込み処理を説明するためのフローチャート図である。図13において、p値上限値算出部33は、全ての検定のp値上限値(fupp)を算出する(ステップS201)。p値上限値算出部33は、集計後データ43の各レコードから観測度数と周辺度数のセットを取得して、検定のp値上限値(fupp)を算出する。
そして、p値上限値算出部33は、算出した複数のp値上限値(fupp)の中から最小値(最小fupp)を選択する(ステップS202)。選定されたp値上限値(fupp)の最小値(最小fupp)は、p値下限値算出部34に通知される。
p値下限値算出部34は、全ての検定のp値下限値(flow)を算出する(ステップS203)。p値下限値算出部34は、集計後データ43の各レコードから観測度数と周辺度数のセットを取得して、検定のp値下限値(flow)を算出する。
そして、p値下限値算出部34は、算出した複数のp値下限値(flow)の中から、p値上限値(fupp)の最小値(最小fupp)よりもp値下限値(flow)が小さい検定を候補として選択し、絞り込み結果をp値算出部35に通知する(ステップS204)。絞り込み結果は、各検定候補毎に、観測度数と周辺度数のセットを示す。
p値算出部35は、絞り込み結果に基づいて、検定候補毎に、集計後データ43から各検定候補の観測度数と周辺度数のセットを取得してp値を算出し、p値のセットを出力する(ステップS205)。その後、不等式による絞り込み処理を終了する。
図8の機能構成例では、p値上限値(fupp)の最小値よりもp値下限値(flow)が小さい検定を候補として選択したが、p値上限値(fupp)の最小値の検定でp値を求め、求めたp値より更に小さいp値下限値(flow)が存在する場合にはその検定を候補として選択することが考えられる。この場合のp値算出方法の機能構成例について説明する。
図14は、本実施例における情報処理装置の機能構成の第2例を示す図である。図14において、情報処理装置100は、置換処理部31と、集計処理部32と、p値上限値算出部33と、p値算出部54と、p値下限値算出部55と、最小p値選択部36と、有意水準補正部37と、収束判定部38とを有する。
置換処理部31と、集計処理部32と、p値上限値算出部33と、p値算出部54と、p値下限値算出部55と、最小p値選択部36と、有意水準補正部37と、収束判定部38とは、情報処理装置100にインストールされたプログラムが、情報処理装置100のCPU11に実行させる処理により実現される。
また、記憶部130は、集計前データ42、集計後データ43、最小p値テーブル44、有意水準値α、有意水準補正値α’(k)、有意水準補正値α’(k-1)、誤差β(k)等を記憶する。
置換処理部31は、記憶部130に記憶された集計前データ42(図9)に記憶された特定事象発生有無をランダムに並べ替える(permutation)。ランダムに並べ替えた置換結果で集計前データ42は、置き換えられる。
集計処理部32は、並び替えられた集計前データ42を入力として、多重検定を行う。特定事象発生有無と各属性に対する検定毎にクロス集計表を作成し、作成したクロス集計表から観測度数と周辺度数と取得し、観測度数と周辺度数と示した集計結果を記憶部130の集計後データ43(図10)に出力し記憶する。
p値上限値算出部33は、集計後データ43から観測度数nと周辺度数x、Nc、Ntとを取得して、全ての検定のp値上限値(fupp)を算出し、p値上限値(fupp)のなかから最小値(最小fupp)を選択する。最小fuppは、p値算出部54に通知される。
p値算出部54は、p値上限値算出部33から最小fuppの通知を受けると、最小fuppの検定の集計後データ43から観測度数nと周辺度数x、Nc、Ntとを取得して、p値を算出してp値閾値とする。p値算出部54は、p値下限値算出部55を呼び出して、算出したp値閾値に基づいて、検定候補の絞り込みを行わせる。
p値算出部54は、p値下限値算出部55から戻り値として検定候補を取得すると、各検定毎にp値を算出し、算出して得たp値のセットを最小p値選択部36に通知する。
p値下限値算出部55は、集計後データ43から観測度数nと周辺度数x、Nc、Ntとを取得して、全ての検定のp値下限値(flow)を算出し、p値下限値(flow)の中から、p値算出部54から通知されたp値閾値よりも小さいp値下限値(flow)となる検定を候補として選択する。p値下限値算出部55は、検定候補を戻り値としてp値算出部54に通知する。
p値上限値算出部33と、p値算出部54と、p値下限値算出部55とが、後述される不等式(数4)による絞り込み処理を行う絞り込み部P2に相当する。絞り込み処理は、図15で詳述される。
最小p値選択部36は、p値算出部54から通知されたp値のセットから最小p値を選択し、最小p値テーブル44(図11)に追加して記憶する。
有意水準補正部37は、有意水準補正値α’および誤差βを更新する。有意水準補正部37は、最小p値テーブル44から最小p値のセットを取得して、利用者9によって定められた有意水準値αを用いて、上位(100×α)%以下で最大の最小p値を有意水準補正値α’(k)とする。
また、有意水準補正部37は、k回目のpermutation時の有意水準補正値α’(k)と(k−1)回目のpermutation時の有意水準補正値α’(k-1)から、上述した数12によりk回目の誤差β(k)を求める。
有意水準補正部37は、記憶部130に、現在の有意水準補正値α’(k)を有意水準補正値α’(k-1)に設定し、求めた誤差β(k)を記憶する。初期状態では、利用者9が指定した有意水準補正値α’が有意水準補正値α’(k-1)に設定される。有意水準補正値α’(k)と誤差β(k)とが、有意水準補正値α’と誤差βとして収束判定部38に通知される。
収束判定部38は、有意水準補正部37から有意水準補正値α’と誤差βとを受け付けると、予め定められた収束判定値εと誤差βとを比較し、誤差βが収束判定値ε未満であれば、有意水準補正値α’を得られたp値として表示装置15に表示させ、本実施例に係るp値判定処理を終了する。誤差βが収束判定値ε以上の場合、未収束を示す判定結果を置換処理部31に通知する。判定結果を受けた置換処理部31は、上述した処理を繰り返す。
集計前データ42、集計後データ43、及び最小p値テーブル44の構成例は、機能構成の第1例と同様であるため、その説明を省略する。また、絞り込み部P2以外は、第2例と同様であるため、全体のフローチャートは、図12と同様である。よって、絞り込み部P2に係るフローチャートについて以下に説明する。
図15は、図14の機能構成の第2例における不等式による絞り込み処理を説明するためのフローチャート図である。図15において、p値上限値算出部33は、全ての検定のp値上限値(fupp)を算出する(ステップS401)。p値上限値算出部33は、集計後データ43の各レコードから観測度数と周辺度数のセットを取得して、検定のp値上限値(fupp)を算出する。
そして、p値上限値算出部33は、算出した複数のp値上限値(fupp)の中から最小値を選択する(ステップS402)。選定されたp値上限値(fupp)の最小値(最小fupp)は、p値算出部54に通知される。
p値算出部54は、p値上限値算出部33から通知された最小値(最小fupp)の検定の観測度数と周辺度数のセットを集計後データ43から取得してp値を算出し、p値閾値を得る(ステップS403)。p値閾値は、p値下限値算出部55に通知される。
p値下限値算出部55は、全ての検定のp値下限値(flow)を算出する(ステップS404)。p値下限値算出部55は、集計後データ43の各レコードから観測度数と周辺度数のセットを取得して、検定のp値下限値(flow)を算出する。
そして、p値下限値算出部55は、p値下限値(flow)の中から、p値閾値よりも小さいp値下限値(flow)の検定を選択し、絞り込み結果をp値算出部54に通知する(ステップS405)。
p値算出部54は、絞り込み結果で示される検定毎にp値を算出し、p値のセットを出力する(ステップS406)。その後、不等式による絞り込み処理を終了する。
上述より、本実施例によれば、p値上限値(fupp)とp値下限値(flow)とを用いて絞り込みを行うことで、分析者の経験に依存せずに機械的に絞り込みの閾値を設定することができる。したがって、分析者の熟練度に依存せずに、誰が分析しても計算コストを削減させることが可能である。
p値上限値(fupp)とp値下限値(flow)とを用いて絞り込みを行うことで、確実に最小p値を得ることができる。したがって、精度劣化を引き起こすことなく、高速に有意水準補正値α’を求めることができる。
また、Odds Ratio(OR)を用いた方法と比較した場合、p値閾値の決め方は分析者としてのユーザ9の経験に依存しているため、精度改善及び高速化の実現が困難である。更に、Odds Ratio(OR)を用いた方法では、正確な最小p値を得られない場合がある。
p値の上限値と下限値を求める演算量は、検定毎に偽陽性の確率(p値)を算出する場合の演算量に比べ十分に小さい。本実施例では、p値算出対象の検定を絞り込むため、演算量を削減することが可能である。ゲノム解析において多重検定を行う場合等では、p値算出対象の塩基が絞り込まれるため、演算量を削減できる。
上述したように、permutation法の各シミュレーションにおいて、各検定の観測度数nと周辺度数x、Nc、Ntの情報を持つ集計後データ43を作成する。集計後データ43に対して、不等式(数4)による絞り込み処理を実行して、最小p値の候補となる変数の組(n, x, Nc, Nt)の絞り込みを行う。変数の組(n, x, Nc, Nt)は、検定毎の引数を表わす。絞り込まれた変数の組(n, x, Nc, Nt)に対して、即ち、絞り込まれたp値算出対象の検定に対して、実際にp値を計算し、その中で最小p値を選択する。
このような手法により、本実施例では、絞り込んだ後の検定に対してのみp値を算出するため、全てのp値を計算する場合と比べて計算コストを抑えることができる。また、周辺度数Nc及びNtを固定せずに絞り込みを行うため、集計後データ43に関連技術では対応していなかった欠損値を含む場合であっても、効果を得ることができる。
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、主々の変形や変更が可能である。
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
多重検定によって得られた特定事象の発生有無に係る集計後データに基づいて、検定毎に偽陽性の確率の上限値と下限値とを求め、求めた複数の上限値から、所定の値を設定し、設定した前記所定の値よりも小さい下限値の検定に対して該偽陽性の確率を算出し、該偽陽性の確率のセットを取得する絞り込み部
を有する情報処理装置。
(付記2)
前記絞り込み部は、更に、
前記検定毎に前記偽陽性の確率の前記上限値を算出し、得られた複数の上限値から最小値を取得して前記所定の値に設定する上限値算出部と、
前記検定毎に前記偽陽性の確率の前記下限値を算出し、得られた複数の下限値の中から、前記所定の値よりも小さい下限値を選択する下限値算出部と、
前記下限値算出部が選択した前記所定の値よりも小さい下限値の検定に対して前記偽陽性の確率を算出する確率算出部と、
を有することを特徴とする付記1記載の情報処理装置。
(付記3)
前記絞り込み部は、更に、
前記検定毎に前記偽陽性の確率の前記上限値を算出し、得られた複数の上限値から最小値を取得する上限値算出部と、
前記最小値の検定の前記偽陽性の確率を算出して前記所定の値に設定する確率算出部と、
前記検定毎に前記偽陽性の確率の前記下限値を算出し、得られた複数の下限値から前記確率算出部が算出した前記所定の値よりも小さい下限値の検定を選択する下限値算出部とを有し、
前記確率算出部は、前記下限値算出部が選択した前記検定毎に前記偽陽性の確率を算出する
ことを特徴とする付記1記載の情報処理装置。
(付記4)
前記特定事象の発生有無と、該特定事象の発生有無との関連性に係る複数の属性の値を示す集計前データの特定事象発生有無の置き換え処理を行う置換処理部と、
前記特定事象発生有無がランダムに置き換えられた前記集計前データに基づいて、前記多重検定により得られた集計結果を示す前記集計後データを作成する集計処理部と、
を更に有する付記1乃至3のいずれか一項記載の情報処理装置。
(付記5)
取得した前記偽陽性の確率のセットの中から、有意水準補正値の算出対象となる最小の偽陽性の確率を選択して記憶部に追加する最小値選択部と、
前記記憶部に記憶されている前記最小の偽陽性の確率を用いて、有意水準補正値を算出する有意水準補正部と
前記有意水準補正値が収束するまで、前記置換処理部に前記置き換え処理を行わせる収束判定部と
を有する付記1乃至3のいずれか一項記載の情報処理装置。
(付記6)
多重検定によって得られた特定事象の発生有無に係る集計後データに基づいて、検定毎に偽陽性の確率の上限値と下限値とを求め、求めた複数の上限値から、所定の値を設定し、設定した前記所定の値よりも小さい下限値の検定に対して該偽陽性の確率を算出し、該偽陽性の確率のセットを取得する
処理をコンピュータに行わせる情報処理プログラム。
(付記7)
多重検定によって得られた特定事象の発生有無に係る集計後データに基づいて、検定毎に偽陽性の確率の上限値と下限値とを求め、求めた複数の上限値から、所定の値を設定し、設定した前記所定の値よりも小さい下限値の検定に対して該偽陽性の確率を算出し、該偽陽性の確率のセットを取得する
処理をコンピュータが行う情報処理方法。
6a、6b、6c、6d、6e 検定
9 利用者
11 CPU
12 主記憶装置
13 補助記憶装置
14 入力装置
15 表示装置
17 通信I/F
18 ドライブ装置
31 置換処理部
32 集計処理部
33 p値上限値算出部
34 p値下限値算出部
35 p値算出部
36 最小p値選択部
37 有意水準補正部
38 収束判定部
42 集計前データ
43 集計後データ
44 最小p値テーブル
54 p値算出部
55 p値下限値算出部
100 情報処理装置

Claims (6)

  1. 多重検定によって得られた特定事象の発生有無に係る集計後データに基づいて、検定毎に偽陽性の確率の上限値と下限値とを求め、求めた複数の上限値から、所定の値を設定し、設定した前記所定の値よりも小さい下限値の検定に対して該偽陽性の確率を算出し、該偽陽性の確率のセットを取得する絞り込み部
    を有する情報処理装置。
  2. 前記絞り込み部は、更に、
    前記検定毎に前記偽陽性の確率の前記上限値を算出し、得られた複数の上限値から最小値を取得して前記所定の値に設定する上限値算出部と、
    前記検定毎に前記偽陽性の確率の前記下限値を算出し、得られた複数の下限値の中から、前記所定の値よりも小さい下限値を選択する下限値算出部と、
    前記下限値算出部が選択した前記所定の値よりも小さい下限値の検定に対して前記偽陽性の確率を算出する確率算出部と、
    を有することを特徴とする請求項1記載の情報処理装置。
  3. 前記絞り込み部は、更に、
    前記検定毎に前記偽陽性の確率の前記上限値を算出し、得られた複数の上限値から最小値を取得する上限値算出部と、
    前記最小値の検定の前記偽陽性の確率を算出して前記所定の値に設定する確率算出部と、
    前記検定毎に前記偽陽性の確率の前記下限値を算出し、得られた複数の下限値から前記確率算出部が算出した前記所定の値よりも小さい下限値の検定を選択する下限値算出部とを有し、
    前記確率算出部は、前記下限値算出部が選択した前記検定毎に前記偽陽性の確率を算出する
    ことを特徴とする請求項1記載の情報処理装置。
  4. 前記特定事象の発生有無と、該特定事象の発生有無との関連性に係る複数の属性の値を示す集計前データの該特定事象の発生有無の置き換え処理を行う置換処理部と、
    前記該特定事象の発生有無がランダムに置き換えられた前記集計前データに基づいて、前記多重検定により得られた集計結果を示す前記集計後データを作成する集計処理部と、
    を更に有する請求項1乃至3のいずれか一項記載の情報処理装置。
  5. 多重検定によって得られた特定事象の発生有無に係る集計後データに基づいて、検定毎に偽陽性の確率の上限値と下限値とを求め、求めた複数の上限値から、所定の値を設定し、設定した前記所定の値よりも小さい下限値の検定に対して該偽陽性の確率を算出し、該偽陽性の確率のセットを取得する
    処理をコンピュータに行わせる情報処理プログラム。
  6. 多重検定によって得られた特定事象の発生有無に係る集計後データに基づいて、検定毎に偽陽性の確率の上限値と下限値とを求め、求めた複数の上限値から、所定の値を設定し、設定した前記所定の値よりも小さい下限値の検定に対して該偽陽性の確率を算出し、該偽陽性の確率のセットを取得する
    処理をコンピュータが行う情報処理方法。
JP2016256723A 2016-12-28 2016-12-28 情報処理装置、情報処理プログラム、および情報処理方法 Active JP6812789B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016256723A JP6812789B2 (ja) 2016-12-28 2016-12-28 情報処理装置、情報処理プログラム、および情報処理方法
US15/808,924 US11210599B2 (en) 2016-12-28 2017-11-10 Information processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016256723A JP6812789B2 (ja) 2016-12-28 2016-12-28 情報処理装置、情報処理プログラム、および情報処理方法

Publications (2)

Publication Number Publication Date
JP2018109828A JP2018109828A (ja) 2018-07-12
JP6812789B2 true JP6812789B2 (ja) 2021-01-13

Family

ID=62629884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016256723A Active JP6812789B2 (ja) 2016-12-28 2016-12-28 情報処理装置、情報処理プログラム、および情報処理方法

Country Status (2)

Country Link
US (1) US11210599B2 (ja)
JP (1) JP6812789B2 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1362485B1 (en) * 2001-02-12 2008-08-13 Gracenote, Inc. Generating and matching hashes of multimedia content
JP5180822B2 (ja) 2006-04-28 2013-04-10 独立行政法人理化学研究所 バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム
JPWO2008090930A1 (ja) * 2007-01-23 2010-05-20 オリンパス株式会社 癌の診断方法
US20100274893A1 (en) * 2009-04-27 2010-10-28 Sonus Networks, Inc. Methods and apparatus for detecting and limiting focused server overload in a network
EP2387033A1 (en) * 2010-05-11 2011-11-16 Thomson Licensing Method and apparatus for detecting which one of symbols of watermark data is embedded in a received signal
WO2012013199A1 (en) * 2010-07-26 2012-02-02 Prysmian S.P.A. Apparatus and method for monitoring an electric power transmission system through partial discharges analysis
US9644241B2 (en) * 2011-09-13 2017-05-09 Interpace Diagnostics, Llc Methods and compositions involving miR-135B for distinguishing pancreatic cancer from benign pancreatic disease
CA2867481A1 (en) * 2012-04-13 2013-10-17 Somalogic, Inc. Tuberculosis biomarkers and uses thereof
EP2971177B1 (en) * 2013-03-14 2019-09-11 Neogenomics Laboratories, Inc. Compositions and methods for detecting and determining a prognosis for prostate cancer
DK3370515T3 (da) * 2015-10-21 2022-05-02 Redcoat Solutions Inc Anordning til påvisning af væggelus

Also Published As

Publication number Publication date
US20180181874A1 (en) 2018-06-28
JP2018109828A (ja) 2018-07-12
US11210599B2 (en) 2021-12-28

Similar Documents

Publication Publication Date Title
JP5011830B2 (ja) データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
US9292550B2 (en) Feature generation and model selection for generalized linear models
JP7125358B2 (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
JP2018045559A (ja) 情報処理装置、情報処理方法およびプログラム
JP5985040B2 (ja) データ解析装置、及びその方法
JP6751376B2 (ja) 最適解探索方法、最適解探索プログラム及び最適解探索装置
WO2011078965A1 (en) Methods and systems for high sigma yield estimation using reduced dimensionality
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
WO2011078930A1 (en) Methods and systems for high sigma yield estimation
Mielniczuk et al. Stopping rules for mutual information-based feature selection
WO2020086433A1 (en) Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm
EP3779806A1 (en) Automated machine learning pipeline identification system and method
JP6696568B2 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
US11126695B2 (en) Polymer design device, polymer design method, and non-transitory recording medium
US20150120254A1 (en) Model estimation device and model estimation method
US11650999B2 (en) Database search enhancement and interactive user interface therefor
JP2014074994A (ja) 評価支援方法、情報処理装置、及びプログラム
JP6812789B2 (ja) 情報処理装置、情報処理プログラム、および情報処理方法
JP6070337B2 (ja) 物理故障解析プログラム、物理故障解析方法および物理故障解析装置
Aldahmani et al. Unbiased estimation for linear regression when n< v
JP2020161044A (ja) データ管理システム、データ管理方法、およびデータ管理プログラム
JP6209492B2 (ja) イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム
US12039267B2 (en) Automated categorization of data by generating unity and reliability metrics
WO2013115261A1 (ja) データクレンジングシステムとデータクレンジング方法およびプログラム
JP2017157109A (ja) 推定装置、推定方法および推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201130

R150 Certificate of patent or registration of utility model

Ref document number: 6812789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150