JP2006505858A - 第1データベースにおけるデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法 - Google Patents
第1データベースにおけるデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法 Download PDFInfo
- Publication number
- JP2006505858A JP2006505858A JP2004550701A JP2004550701A JP2006505858A JP 2006505858 A JP2006505858 A JP 2006505858A JP 2004550701 A JP2004550701 A JP 2004550701A JP 2004550701 A JP2004550701 A JP 2004550701A JP 2006505858 A JP2006505858 A JP 2006505858A
- Authority
- JP
- Japan
- Prior art keywords
- database
- computer
- statistical model
- statistical
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 139
- 230000015572 biosynthetic process Effects 0.000 title description 14
- 238000004891 communication Methods 0.000 claims abstract description 30
- 238000013179 statistical model Methods 0.000 claims description 154
- 230000008569 process Effects 0.000 claims description 28
- 238000007619 statistical method Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 description 36
- 230000015654 memory Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013068 supply chain management Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000131972 Sphingomonadaceae Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000004171 remote diagnosis Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】
第1データベースに含まれる複数のデータ要素間の統計関係を表す第1統計イメージが第1データベースに対して形成される。後に、第1統計イメージはサーバコンピュータに記憶され、通信ネットワークを介してこのサーバコンピュータからクライアントコンピュータに送信される。受信された第1統計イメージは、クライアントコンピュータによって処理される。
第1データベースに含まれる複数のデータ要素間の統計関係を表す第1統計イメージが第1データベースに対して形成される。後に、第1統計イメージはサーバコンピュータに記憶され、通信ネットワークを介してこのサーバコンピュータからクライアントコンピュータに送信される。受信された第1統計イメージは、クライアントコンピュータによって処理される。
Description
本発明は、第1データベースのデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法に関する
現在では、コンピュータの支援なしで実施されるプロセスを見つけることは、ほぼ不可能である。コンピュータをあるプロセスの範囲内で使用する場合、しばしばそのプロセスはコンピュータにより管理される。或いは、プロセス特有のデータが少なくともコンピュータにより記録される。これは、例えば、そのプロセスの個々のステップ及びその結果、又は中間結果に関するデータである。
例えばコールセンタには、通常、いつ電話を受けたか、電話の内容は何か、受けた電話がコールセンタの社員によりいつ処理されたか、コールセンタの他のどの社員に電話が回されたか等に関する詳細な記録がある。
また個々のプロセスに関するデータが記録される多数のログファイルは、通常、プロセスオートメーションオペレーションで形成されている。
3番目の応用分野は、電気通信業界である。例えば、移動無線ネットワークのスイッチでは、そのスイッチにおいて生じるデータ通信量に関するログデータが決定され記憶される。
最後に、データ通信量に関するログデータ、例えば、ウェブサーバコンピュータにより利用できる情報へのアクセス頻度に関するデータも、また、しばしばウェブサーバコンピュータにおいて形成される。
あるプロセスの過程で問題が起きると、そのプロセスを実施しているシステムのオペレータは、通常、生じた問題の原因を突き止めようとする。これがうまくいかない場合は、システムの製造者に引き渡す。製造者エンドでは、)ログ取りされたプロセスデータ、一般にはシステムの記録されたログデータ、にアクセスする際における問題の原因を突き止める必要がある。現在、ログデータを含むログファイルは、かなりのサイズであり、しばしば数十ギガバイト程度にも及ぶ。このため、このようなログファイルは、例えば、FTP(ファイル転送プロトコル)を用いてシステムの製造者に送信されるだけだが、満足いくものではない。たとえ、実質的に迅速な通信接続が可能であっても、システムの製造者が比較的多くの顧客に対する複数のログファイルを記憶し処理することは困難であり、費用がかかる。
その他の分野においては、分析のために多数のデータを送信する必要もある。例えば、データベースのデータを用いて一般の人々がリサーチできるようにするために、膨大なデータベースが一般の人々によってアクセス可能な場合である。このデータベースのデータは、(公的な)リサーチプロジェクトからのデータ(例えば、たんぱく質データベースにおける遺伝子データベースのデータ)、気象データ、人口統計データ、又はグリッドサーチ用に利用可能とされたデータ(この場合、限られた認定ユーザのグループのみが利用可能)であってよい。特に、バイオテクノロジー分野は現在かなりの注目をあびている。この分野には多数のデータベースがある。
加えて、データ保護の理由から、データベースのデータの全ての特定情報が伝播されないことが望ましい。
データベースの情報を、通信ネットワークを介してサーバコンピュータからクライアントコンピュータで利用可能にする一つの公知の方法は、複数のサーバに直接インストールされるべき複数のデータベースに含まれるデータを分析するための診断又は統計ツールである。例えば、サーバコンピュータにインストールされたワークサーバや、クライアントコンピュータにインストールされたウェブブラウザプログラムを使って、そのツールを用いることができる。この目的には、OLAP(on-line analytical processing:オンライン分析処理)ツールと称されるものを用いることができる。しかし、その使用には非常にコストがかかる。いくつかのOLAPツールの中には、処理されるべきデータ量がすでに非常に大きくなりすぎて、OLAPツールが機能しない場合もある。
加えて、情報に直接興味を有しているのは、当然ながら、クライアントコンピュータのユーザであるので、システムのオペレータが複数のサーバ内のツールを操作することは非常に不便であり、値段がかかる。システムのオペレータは、しばしば、サーバコンピュータ及びOLAPツールを利用可能にし、維持するための追加費用に備えていない。
更に、多数のクライアントコンピュータがあって、サーバへの照会が多い場合は、全照会に対応しようとすると、処理能力の面で非常に費用がかかり、その理由により、しばしば、サーバコンピュータのハードウェアは、受け入れがたいほどに高価である。
クリストファー・エム・ビショップ(Christopher M. Bishop)著、エム・アイ・ジョーダン編集(M.I. Jordan)、潜在変数モデル(Latent Variable Models)、グラフィカルモデル学習(Learning in Graphical Models)、クルワー(Kulwer)、 1998年、 371−405頁
エム・エイ・タンナー(M.A. Tanner)著、統計的推測のためのツール(Tools for Statistical Inference),シュプリンガー(Springer)、ニューヨーク(New York)、 第3版、 1996年、64-135頁
ランドフォード・エム・ニール(Radford M. Neal)及びジェフェリー・イー・ヒントン(Geoffrey E. Hinton)著、エム・アイ・ジョーダン(M.I. Jordan)編集、増加する希薄なその他の変量を評価するEMアルゴリズムの考察(A View of the EM Algorithm that Justifies Incremental, Sparse and Other variants)、グラフィカルモデル学習(Learning in Graphical Models)、クルワー(Kulwer)、 1998年、355-371頁
ディー・ヘッカーマン(D. Heckermann)、 データマイニング用ベイジアンネットワーク(Bayesian Networds for Data Mining)、データマイニング・アンド・ナレッジディスカバリー(Data Mining and Knowledge Discovery)、1997年、79-119頁
ライナー・ホフマン(Reimar Hofmann)、グラフィックモデルを用いた非線形従属性の構造の学習(Lernen der Struktur nichtlinearer Abhangigkeiten mit graphischen Modellen [Learning of the structure of nonlinear dependencies with graphic models])、ミュンヘン工科大学における論文(Dissertation an der Technischen Universitat Munchen [Dissertation at the Technical Uniersity of Munich])、 dissertation. De出版、 ISBN: 3-89825-131-4
本発明は、データベースに含まれるデータの機密性を維持しつつ、通信ネットワークを介してデータベースのコンテンツに効率的にアクセスする課題に基づいている。
上記課題は、第1データベースのデータベース情報を提供する方法及びコンピュータ構造、並びに特許請求の範囲における独立項に係る特徴を有するデータベースにおける統計モデルのコンピュータ援用形成のための方法により達成される。
本発明により解決される一般的な筋書きは、次のようである。即ち、データベースに記憶された大量のデータが、第1位置Aで利用可能とされる。第2位置Bで、この利用可能なデータを使いたいと望んでいる。位置Bにおけるユーザは個々のデータ記録にはあまり興味がないが、その代わり、主にそのデータベースのデータを特徴づける統計に興味を向けている。
第1データベースにおけるデータベース情報のコンピュータ援用提供方法では、共通確率モデル形態の第1統計イメージが、第1データベースの形態をなしている。このイメージ又はモデルは、複数のデータ要素間の統計関係を示している。第1統計モデルは、サーバコンピュータに記憶される。加えて、第1統計モデルは、通信ネットワークを介してサーバコンピュータからクライアントコンピュータに送信され、受信された第1統計モデルは、更にクライアントコンピュータにより処理される。
第1データベースにおけるデータベース情報のコンピュータ援用提供用コンピュータ構造は、通信ネットワークにより互いに接続されたサーバコンピュータとクライアントコンピュータとを備える。第1データベースに対して形成された第1統計イメージは、サーバコンピュータに記憶される。第1統計イメージは、第1データベースに含まれる複数のデータ要素間の統計関係を示している。クライアントコンピュータは、通信ネットワークを介してサーバコンピュータから当該クライアントコンピュータに送信された第1統計マップに対して更なる処理を実施する(例えば、分析する)ために用いることが可能なように構成される。。
複数のデータ要素を有するデータベースにおいて、データベース情報のコンピュータ援用提供方法は、EM(Expectation Maximization:期待値最大化)学習法(ラーニングメソッド)と称されるものを、複数のデータ要素上で実施することができる。或いは、その他の学習法を実施することもできる。共通確率モデル(データベース内の全ての領域を含む)の構成は、ベイジアンネットワーク(同義的には、因果ネットワーク又は一般的なグラフィック確率ネットワーク)の一般形式の範囲内で定義されてよい。この形態では、その構造は有向グラフにより定義される。有向グラフは、複数のノード及び該ノードと相互に関連する複数の端点を有しており、複数の端点は、データベースに存在する値に対応するモデル又はイメージの定義可能な次元(dimension)を示している。ここで複数のノードのいくつかは、観測不可能な変数(例えば非特許文献1に記載のように、潜在変数と称する)に対応することも可能である。一般的なEM学習法の範囲内では、存在しない又は観測不可能な変数が、期待値又は期待分布で置き換えられる。本発明に係る改良されたEM学習法の範囲内では、親ノードがデータベースから観測可能な値となる欠落変数として、期待値のみが決定される。
統計モデルは、統計イメージとして用いられることが望ましい。
この形態では、統計モデルは、これら全ての統計関係、又は、例えば、ベイジアン(又は因果)ネットワーク、マルコフネットワーク等の、データベースにおけるデータの共通度数分布(正確な又は近似されたもの)、又は一般的には、グラフィック確率モデル、「潜在変数モデル」、統計クラスタリングモデル、又は訓練を受けた人工ニューラルネットワークを表す任意のモデルとして理解されるべきである。よって、この統計モデルは、データベースの統計における、完全で正確な又は近似されたイメージとして実体化されてよい。
クライアントコンピュータによる統計モデルの更なる処理とは、データベース自体のデータ要素に基づいて、又は従来技術のようにOLAPツールに基づいて、分析が行われないことを意味する。その代わり、所望の(条件付き)可能性分布の全てが、共通確率モデル、統計モデルから決定される。
本発明に係る手順は、特に、次の利点を有する。
データベース自体と比較すると、統計モデルは、データベースにおける統計の圧縮されたマップ(データベースにおける個々のエントリのそれではない)であるので、非常に小さい。これは、JPEG規格に従って圧縮されたデジタル画像であって、該デジタル画像における圧縮されるが近似されたイメージを表すデジタル画像と同様である。
統計モデル自体は、かなり低費用のハードウェアを用いて、非常に迅速に評価されうる。
統計モデルの作成に用いる方法によっては、データベースの多大な圧縮を達成することができる。その達成可能な圧縮で縮尺できる学習法を用いると、1000の因数までの圧縮を実施できる。この間、統計モデルに含まれる情報は、品質的に十分である。よって、圧縮された統計モデルを、サーバコンピュータからクライアントコンピュータへ、例えば電子メール(eメール)、FTP(ファイル転送プロトコル)又はデータを転送するためのその他の通信プロトコルにより、送信することができる。従って、送信された統計モデルを、その後のクライアントエンドにおける統計分析に用いることができる。
統計モデルを送信するために、サーバコンピュータ及びクライアントコンピュータは、任意の通信ネットワーク、例えば、固定ネットワーク又は移動無線ネットワークを介して相互に接続可能である。
本発明は、送信データにより示されるデータベースの点から、送信されるデータの情報内容を最大に維持しながら、膨大なデータベース用の全データを送信せず、むしろできるだけ少量のデータのみを送信することが望まれる任意の領域で使用されることが適切である。
本発明の一つの利点は、特に、データベースにおける個々の入力の機密性をかなりの程度で確保できることに見られる。データベースの全てのデータ入力自体が送信されるのではなく、むしろ、データベースにおけるデータ要素の統計表現のみが、クライアントエンドで利用可能となるからである。統計表現により、クライアントエンドにおいて、クライアントエンドにおいて利用可能な秘密にされる可能性がある特定データを用いずに、データベースの統計分析が可能となる。
加えて、例えば技術的システムのオペレータは、このオペレータにより管理されるデータベースの統計内容を、複雑ではない方法で、また一般にはデータ保護ガイドラインを侵さずに、例えば、サーバコンピュータにインストールしたウェブサーバにより、クライアントコンピュータのユーザに利用可能とすることができる。この場合、統計モデルを、クライアントコンピュータにインストールしたウェブブラウザプログラムにより呼び出すことができる。
本発明は、ソフトウェア、即ち、コンピュータプログラムにより、ハードウェア、即ち特定の電子回路を用いて実施してよい。或いは、任意の所望のハイブリッド形態、即ち、部分的にソフトウェアを用い、部分的にハードウェアを用いて、実施してよい。
本発明を、従属項から好適に発展させる。
次の本発明の実施例は、コンピュータ援用提供方法及びコンピュータ構造に関するものである。
本発明の一の実施形態によれば、第1統計モデルと、クライアントコンピュータに記憶される第2データベースの複数のデータ要素とを用いて全体統計モデル又は全体統計イメージを形成し、該モデル又はイメージは、第1統計モデルに含まれる少なくともいくらかの統計情報と、第2データベースに含まれる少なくともいくらかの統計情報とを有している。
本発明の他の実施形態によれば、第2データベースに対して、第2データベースに含まれる複数のデータ要素間の統計関係を示す第2統計イメージ又は第2統計モデルが形成される。第2統計モデルは、通信ネットワークを介してクライアントコンピュータに送信され、第1統計モデルと第2統計モデルをクライアントコンピュータにより用いて、第1統計モデルに含まれる少なくともいくらかの統計情報と、前2統計モデルに含まれる少なくともいくらかの統計情報とを有している全体統計モデルを形成する。
本発明のこれらの実施形態は、本発明に係る次の一般的な筋書き、例えば、ある企業におけるほぼ全てのプロセス、特に各顧客への接触及び製品の各発注及び配達までもが、コンピュータの支援により実施されることを可能にする。この形態において、当該企業のプロセス又は顧客の任意の行動は、例えば、CRM(Customer Relationship Management)システム)と称されるものの範囲内で、又は、SCM(Supply Chain Management)システムの範囲内で、詳細にログファイルに記録される。ログデータは、多数の企業にとってかなりのリソースとなる。これに対して、企業においては、データ、例えば、顧客に関するデータを「顧客に関する知識(ナレッジ:knowledge)」に変換するという傾向があるようである。しかしながら、企業で利用可能な、例えば顧客に関する情報だけでなく、技術的システム等の動作に関する情報も、非常に一方的であることが明らかになってきた。全顧客又は個々の顧客の優位な属性や、例えば目標とするグループで狙ったマーケティングを実際に可能とする、一般的には高品質のデータの評価である技術システムは存在しない。顧客情報分野における一つの例は、顧客の年齢、その家族の社会的地位、又は子供の数である。しかしながら、顧客データベースか又は技術プロセスに関する情報を備えたその他のデータベースであるかを問わず、複数のデータベースからの情報を組み合わせる際には、より正確でより完全な「像」(マーケティングの場合は、「顧客像」)が得られることが明らかになってきた。従って、データベースを共通に使用すると又は複数企業における知識を共通に使用すると、その後の評価を大幅に改良することができるであろう。しかしながら、企業の境界を超えたデータ交換は、次の理由から、上記の問題に対して満足のいく解答を与えていない。
通常、企業は、自分達の顧客又は技術プロセスに関する詳細を、他の企業に渡す用意をしていない。一企業のクライアント、つまりは複数の顧客に関する詳細なデータが、しばしば絶対不可欠な企業リソースを構築する。
データベースのデータの交換とは、技術的な点から言うと、大量のデータが送信され、記憶されることを意味する。
データ保護法により、データベースのデータ交換、特に個人に関するデータについては、厳しい制限が課されている。
データが二企業間で交換されたとしても、追加措置がない限り、先ず、両企業において知られる顧客に対してのみ、改良された像が作成される。一企業にのみ知られる顧客に対しては、データは不完全なままであり、従って、その顧客の像も不完全なままとなる。
以上をまとめると、本発明に係る次の態様が得られることは明らかである。
顧客又はプロセス或いはシステムに関する知識、一般的には、データベースに含まれる情報が、次のように提供される。
高度に圧縮して、技術的に簡単な方法により、コンピュータ間で交換可能となるようにする。
有意な関係を表示するが、複数の企業が、予約をほとんど必要とせず、且つデータ保護ガイドラインを侵さずに、このような情報を交換するように、詳細情報を、定義可能な程度にのみ再度発見できるようにする。
このように提供されて異なるソース(異なるデータベース)から生じる情報を組み合わせて、関係する全ての企業が使用できる全体イメージを形成できる。
従って、上記の実施形態は、データ保護を維持しつつ、且つ統計情報の送信に必要な帯域を減じつつ、クライアントエンドにおいて統計モデルを組み合わせて、全体像、即ち、全体モデルを形成できるユーザが、統計情報を利用できるようにすることができる。
本発明の他の実施形態によれば、統計モデルは、異なる複数のサーバコンピュータに記憶され、夫々、通信ネットワークを介して前記サーバコンピュータから前記クライアントコンピュータに送信される。
この形態では、統計モデルを、単一の又は複数のサーバコンピュータにより形成でき、或いは、このその目的のために特別に構成されたと考えられるその他のコンピュータにより形成できることに留意すべきである。この場合、形成された統計モデルも、例えばローカルネットワークを介して、単一又は複数のサーバコンピュータに送信される。
その結果、統計モデルを世界中で異種のネットワークにおいて、例えばインターネット上で、使用可能とすることができる。
統計モデルの少なくとも一方は、夫々のデータベースに含まれるデータ要素に対する統計モデルの圧縮度を設定可能なスケーラブルメソッドにより形成できる。
また、統計モデルの少なくとも一方は、EM学習法又はその変量(例えば非特許文献2に記載されるもの等)、或いはグラジエントベース学習法により形成できる。例えば、APN(Adaptive Probabilistic Network:適応確率ネットワーク)学習法と称されるものをグラジエントベース学習法として用いることができる。一般に、例えば、非特許文献3に記載されるもの等の、可能性ベース学習法又はベイジアン学習法の全てを用いることができる。ここで、一般的確率モデルの構造は、グラフィック確率モデル(ベイジアンネットワーク、マルコフネットワーク又はそれらの組み合わせ)の形態で特定してもよい。潜在変数モデル又は統計クラスタリングモデルと称されるものは、この一般形式における具体例に相当する。更に、パラメータだけでなく、グラフィック確率モデルの構造を利用可能なデータ要素に関する学習法をも用いることができる。例えば、非特許文献4及び5における所望の構造学習法をいずれも用いることができる。
第1データベース及びは第2データベースの少なくとも一方は、少なくとも一つの技術システムを示す複数のデータ要素を有することができる。当該少なくとも一つの技術システムを示す複数のデータ要素は、技術システム上で少なくとも部分的に測定され且つ技術システムの動作態様を表す値を示してもよい。
本発明に係るコンピュータ構造の一の構成によれば、複数のデータ要素を有する第2データベースが、クライアントコンピュータに記憶される。クライアントコンピュータは、第1統計モデルと、第2データベースの複数のデータ要素とを用いて、全体統計モデルを形成するユニットを有しており、該全体統計モデルは、第1統計モデルに含まれる少なくともいくらかの統計情報と、第2データベースに含まれる少なくともいくらかの統計情報とを有している。
本発明に係るコンピュータ構造の他の構成によれば、第2データベースに対して形成された第2統計モデルを記憶する第2サーバコンピュータを有しており、該第2統計モデルは、第2データベースに含まれる複数のデータ要素間の統計関係を表す。クライアントコンピュータもまた、通信ネットワークにより第2サーバコンピュータに接続されている。前記クライアントコンピュータは、第1統計モデルと第2統計モデルとを用いて、全体統計モデルを形成するユニットを有しており、該全体統計モデルは、前記第1統計モデルに含まれる少なくともいくらかの統計情報と、前記第2統計モデルに含まれる少なくともいくらかの統計情報とを有している。
以下、本発明の実施例を図面で例示し、詳細に説明する。
図1は、本発明の第1実施例に係るコンピュータ構造100を示している。
コンピュータ構造100はコールセンタで用いられる。コンピュータ構造100は、コールセンタコンピュータ103、104、105に電話回線102で接続されている複数の電話端末機101を備えている。コールセンタ内では、電話をコールセンタの社員が受け、着信電話の処理、特に、電話の着信時間、通話時間、電話を受けた社員に関する情報、電話の理由や電話の処理の種類に関する情報、又はその他所望される情報を、コールセンタコンピュータ103、104、105により記録する。
コールセンタコンピュータ103、104、105は、夫々、各電話を受信するための公衆電話ネットワークにつながる第1入力/出力インターフェース106、107、108、プロセッサ109、110、111、メモリ112、113、114、及びコールセンタのローカルネットワーク121を備える第2入力/出力インターフェース115、116、117を備える。
各コールセンタコンピュータ103、104、105内の上記構成要素は、コンピュータバス118、119、120で相互に接続される。
コールセンタコンピュータ103、104、105は、ローカルネットワーク121によりサーバコンピュータ122に接続される。サーバコンピュータ122は、ローカルネットワーク121につながる第1入力/出力インターフェース123、メモリ124、プロセッサ127、及びインターネットを通じて通信するように構成された第2入力/出力インターフェース128を有しており、これらの構成要素は、コンピュータバス129で相互に接続されている。本実施例によれば、サーバコンピュータ122は、以下に詳細に説明するように、ウェブサーバコンピュータとして機能する。
コールセンタコンピュータ103、104、105により記録されたデータは、ローカルネットワーク121を介してサーバコンピュータ122に送信され、データベース126に記憶される。
更に、データベース126中に格納されるデータ要素間の統計関係を示す統計モデル125もまた、メモリ124に記憶される。
統計モデル125は、それ自体が公知のEM学習法を用いて形成される。その他、好適に使用される統計モデル125の形成方法についても、以下に詳細に説明する。
本発明の本実施例によれば、統計モデル125は、一定時間ごとに自動的に再形成される。いずれの場合にも、データベース126の最新データに基づいて行われる。
統計モデル125は、一以上のクライアントコンピュータ132に送信するために、サーバコンピュータ122により自動的に利用可能とされる。クライアントコンピュータ132は、第2通信リンク131を介して、サーバコンピュータ122の第2入力/出力インターフェース128に接続されている。第2通信リンク131は、例えば、TCP/IP通信プロトコルに従って通信を可能とする通信リンクである。
クライアントコンピュータ132は、TCP/IP通信プロトコルに従って通信するように構成された入力/出力インターフェース133とともに、プロセッサ134及びメモリ135を備える。
電子メッセージ130で、サーバコンピュータ122からクライアントコンピュータ132へ送信される統計モデル125は、クライアントコンピュータ132のメモリ135に記憶される。その後、クライアントコンピュータ132のユーザは、任意の所望されたユーザ特有の統計分析を、統計モデル125上、つまり間接的にデータベース126のデータ上で、膨大なデータベース126をクライアントコンピュータ132に送信する必要なしに行う。
クライアントエンド統計分析の目的は、コールセンタを最適化することであってよい。本実施例によれば、特に、次の質問への回答に関する分析が行われる。
「電話の発信者は、コールセンタにおける順番を、通常、どのくらいあきらめずに待てるか?」
「コールセンタにおいて受ける電話には、地域的又は日常的な関係があるか?」
「何時に、またその他のどのような特徴に基づき、どのような質問がなされ、その結果コールセンタにおいて何人のオペレータを使うことができるのか?」
「どのようなルーチン戦略がどのような結果を招くのか?」
結果として、上記の質問に回答するために、クライアントコンピュータ132のユーザにより分析が行われる。その後、分析結果が、コールセンタで作業を最適にするための適切な対策をコールセンタのオペレータに提供することとなる。
「コールセンタにおいて受ける電話には、地域的又は日常的な関係があるか?」
「何時に、またその他のどのような特徴に基づき、どのような質問がなされ、その結果コールセンタにおいて何人のオペレータを使うことができるのか?」
「どのようなルーチン戦略がどのような結果を招くのか?」
結果として、上記の質問に回答するために、クライアントコンピュータ132のユーザにより分析が行われる。その後、分析結果が、コールセンタで作業を最適にするための適切な対策をコールセンタのオペレータに提供することとなる。
図2は、本発明の第2実施例に係るコンピュータ構造200を示している。
コンピュータ構造200は、バイオテクノロジー分野で用いられる。
コンピュータ構造200は、メモリ202、プロセッサ203及びTCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース204を備えたサーバコンピュータ201を有している。これらの構成要素は、コンピュータバス205で相互に接続されている。
遺伝子配列又はアミノ酸配列を備えたデータベース206は、割り当てられた追加情報の配列とともに、メモリ202内に記憶される。
研究者、本実施形態によれば、しばしば、(新しい)配列の性質を研究しているクライアントコンピュータ209、210、211のうちの一のクライアントコンピュータのユーザにとっては、同一又は類似の性質を有する配列を見つけることはかなり興味深いことである。単一又は複数のサーバコンピュータ201により公的に利用可能なデータベースを通じて検索するために、研究者は、通信ネットワーク208を介してサーバコンピュータ201に接続されているクライアントコンピュータ209、210、211を用いて、対応する検索の質問を単一又は複数のサーバコンピュータ202に提示する。統計モデル207が、第1実施例と同様に、サーバコンピュータ201で形成され、記憶される。
各クライアントコンピュータ209、210、211は、TCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース212、213、214、プロセッサ215、216、217、及びメモリ218、219、220を備える。
クライアントコンピュータ209、210、211が質問を示した後、サーバコンピュータ201は、統計モデル206を、電子メッセージ221、222、223で、クライアントコンピュータ209、210、211に送信する。
統計モデル206を受信した後、クライアントコンピュータ209、210、211のユーザは、そのユーザにより研究されている配列を、統計モデル206と比較する。統計分析の結果とは、データベース206内に十分類似する配列がいくつあるか、またどの性質がこれらの配列を区別するかに関する情報である。
図3は、本発明の第3実施例に係るコンピュータ構造300を示している。
コンピュータ構造300は、第1コンピュータ301及び第2コンピュータ309を備える。
第1コンピュータ301は、メモリ302、プロセッサ303、及びTCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース304を備えており、これらの構成要素は、コンピュータバス305で相互に接続されている。
第1コンピュータ301は、自動車販売業者のコンピュータであり、メモリ302に記憶されている顧客データベース中に、顧客の姓名、住所、使用されている車種に関する情報を含んでいるが、年齢、社会的地位又は給料に関する情報は含んでいない。
第2コンピュータ309は、TCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース310、メモリ311、及びプロセッサ312を備えており、これらの構成要素は、コンピュータバス313で相互に接続されている。
第2コンピュータ309は、自動車販売業者と一緒に仕事をする銀行のコンピュータである。第2顧客データベース314が、第2コンピュータ309のメモリ311に記憶されている。第2顧客データベース314は、顧客の姓名、住所、社会的地位、及び給料という点から、銀行の顧客に関する情報を含んでいるが、各顧客により使用されている自動車の車種に関する情報は含んでいない。従って、銀行で記録されているデータから、どれくらいの給料をもらっているどのような家族が、通常、どのような自動車を使っているのかを決定することはできない。
この情報を得るためには、この二つの顧客データベースを組み合わせることが必要であるが、これは、データ保護法により許可されておらず、また、通常、これは両者から望まれていない。
本発明によれば、両データベースでは、例えば、車種や月収の関係を形成するために、いずれの場合においても近似的に知識が存在しているという事実により使用が促される。
この理由から、第1コンピュータにおいては、統計モデル306が、EM学習法を用いてデータベースにより形成される。データベースと比較して圧縮されている統計モデル306は、電子メッセージ307で、インターネット308を介して第1コンピュータ301と双方向に接続されている第2コンピュータ309に送信される。
統計モデル306を受信した後に、統計モデル306を第2コンピュータ309により第2顧客データベース314と組み合わせ、総合統計モデル315を形成する。
統計モデル306と第2顧客データベース314とを組み合わせ、総合統計モデル315を形成することを説明するために、二つの団体A及びBが統計モデルを交換したいと望んでいるとする。団体Aは、大量のランダム属性のシンボルである属性W、X、Yを有している。団体Bは、属性X、Y、Zを有している。団体B(本実施例では、自動車販売業者)が、団体A(本実施例では、銀行)に対して、団体Bのデータにおける統計モデルを提供する。当該統計モデルを以下ではPB(X,Y,Z)と称する。
団体Aの目的は、団体Aのデータベースのデータとともに、団体Bのデータから総合統計モデルP(W,X,Y,Z)を生成することである。
本実施例によれば、この目的のために、次の二つの方法が提供される。
団体Aは、その顧客の性質Zを、顧客に関して知られた情報X及び情報Yから評価するために、条件付きモデルPB(Z|X,Y)を統計モデルPB(X,Y,Z)から導き出す。各顧客は、変数Z(データベースの追加カラムにおける入力としての変数)の値として、可能性分布PB(Z|X,Y)に基づく最確値が割り当てられる。このように追加された各顧客に関する情報W,X,Y,Zとともに、団体Aは、慣例的統計分析方法を、4つの属性全てに対して適用することができる。或いは共通統計モデル、即ち、仮想的共通データベースイメージを明確に表す総合モデルP(W,X,Y,Z)を生成することができる。
●その他の手順においては、属性Zのための最確値を追加する代わりに、欠落変数Zの代わりにその値全体に全体分布を追加して、それを、総合統計モデルを生成する際に用いることも、さらに適切であろう。EM学習法は、この形態においては、モデルの見込みとして称されるものという点から、部分的に欠落した情報を統計的に満足のいくように取り扱うために用いられる。反復EM学習法における各学習ステップにおいては、欠落変数の代わりをする、欠落変数に関する評価(期待された十分統計量)は、現在のパラメータに基づいて生成される。条件付きモデルPB(Z|X,Y)もまた、EM学習法で用いることができる。このEM学習法は、変数Zに対して期待値又は期待された十分統計量を決定するためのものであり、よって、分布データの共通モデルを生成するために、この学習法を満足のいくように拡張するものである。
●その他の手順においては、属性Zのための最確値を追加する代わりに、欠落変数Zの代わりにその値全体に全体分布を追加して、それを、総合統計モデルを生成する際に用いることも、さらに適切であろう。EM学習法は、この形態においては、モデルの見込みとして称されるものという点から、部分的に欠落した情報を統計的に満足のいくように取り扱うために用いられる。反復EM学習法における各学習ステップにおいては、欠落変数の代わりをする、欠落変数に関する評価(期待された十分統計量)は、現在のパラメータに基づいて生成される。条件付きモデルPB(Z|X,Y)もまた、EM学習法で用いることができる。このEM学習法は、変数Zに対して期待値又は期待された十分統計量を決定するためのものであり、よって、分布データの共通モデルを生成するために、この学習法を満足のいくように拡張するものである。
従って、銀行は利用可能な全体統計情報を有し、そのデータにより対応する分析を実行できる。
この形態において、前述した筋書きを逆にも実行できることに留意すべきである。即ち、銀行が第2顧客データベースにより統計モデルを作成し、それを、総合統計モデルを形成している自動車販売業者に送信できる。自動車販売業者にとっては、例えば、顧客の年齢、その家族の社会的地位、給料を知ることが望ましく、或いは、いずれにせよ、年齢、その家族の社会的地位、給料を評価することが望ましい。その後、この情報に基づいて、適当な製品が、より目標を絞って、顧客に提示されてよい。例えば、平均的な給料の若い家族には、高給取りの独身者とは異なる自動車を提示することが確かに妥当である。
図4は、本発明の第4実施例に係るコンピュータ構造400を示している。
本実施形態によれば、複数のコンピュータ401、413、420を備えており、これらのコンピュータは、夫々、第3実施例に基づく顧客データベースを有している。
第1コンピュータ401は、メモリ402、プロセッサ403、及びTCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース404を有しており、これらの構成要素は、コンピュータバス405で相互に接続されている。
第1コンピュータ401は、自動車販売業者のコンピュータであり、メモリ402に記憶されている顧客データベース中に、顧客の姓名、住所、使用されている車種に関する情報を含んでいるが、年齢、社会的地位又は給料に関する情報は含んでいない。
顧客データベースにより、第1コンピュータ401は、第1統計モデル406を形成し、それをメモリ402に記憶する。
第2コンピュータ413は、メモリ414、プロセッサ415、及びTCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース416を有しており、これらの構成要素は、コンピュータバス417で相互に接続されている。
第2コンピュータ413は、銀行のコンピュータであり、メモリ414に記憶されている顧客データベース中に、第3実施例に記載の情報を含んでいる。第2統計モデル418は、第2コンピュータ413により第2顧客データベースから形成され、メモリ414に記憶される。
第nコンピュータ420も顧客データベースを備えている。第nコンピュータ420は、メモリ421、プロセッサ422、及びTCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース423を有しており、これらの構成要素は、コンピュータバス424で相互に接続されている。統計モデル425も、第nコンピュータ420においてEM学習法により顧客データベースを用いて形成され、第nコンピュータ420のメモリ421に記憶される。
コンピュータ401、413、420は、夫々の通信接続408により、クライアントコンピュータ409に接続されている。
クライアントコンピュータ409は、メモリ411、プロセッサ412、及びTCP/IPプロトコルに従って通信するように構成された入力/出力インターフェース410を有しており、これらの構成要素は、コンピュータバス426で相互に接続されている。
コンピュータ401、413、420は、統計モデル406、418、525を、夫々の電子メッセージ407、419、427でクライアントコンピュータ409に送信し、クライアントコンピュータ409はそれらをメモリ410に記憶する。
以下、より簡易に示すために、本実施例を、第1統計モデル306及び第2統計モデル418についてのみ、より詳細に説明するが、本発明によれば、例えば、以下に示される方法工程を繰り返して実施することにより、任意の所望される数の統計モデルを組み合わせて、総合モデルを形成してよいことに留意すべきである。
第3実施例と対照的に、第3実施例に係る目的は、複数の統計モデルを相互に組み合わせて、総合モデルを形成することである。
従って、第3実施例で用いられた命名法から類推して、統計モデルPA(W,X,Y,)も団体Aにより作成される。そして、モデルPA(W,X,Y,)及びPB(X,Y,Z)を組み合わせて、総合統計モデルP(W,X,Y,Z)を形成する。
総合モデルP(W,X,Y,Z)は、二つのモデルPA(W,X,Y,)及びPB(X,Y,Z)に基づいて、次のように定義できる。
P(W,X,Y,Z)= PA(W,X,Y,)PB(Z|X,Y)又は
P(W,X,Y,Z)= PB(X,Y,Z)PA (W|X,Y)
また本発明は、二つの手順の組み合わせも提供する。団体Aに対して、上記の第1の選択肢を選択することが最も適当である。その結果、団体Aは、属性W及びZの依存性(本実施例では、車種及び給料の依存性)を近似された手法で分析可能とする総合統計モデル426を有することになる。総合モデル426に基づいて、例えば、フォームP(X|Y)の条件付き可能性分布、例えば、ある月収に対する車種の分布又は関連性が決定される。この目的のために、変数X及びYに対する周辺化処理がなされる。
P(W,X,Y,Z)= PB(X,Y,Z)PA (W|X,Y)
また本発明は、二つの手順の組み合わせも提供する。団体Aに対して、上記の第1の選択肢を選択することが最も適当である。その結果、団体Aは、属性W及びZの依存性(本実施例では、車種及び給料の依存性)を近似された手法で分析可能とする総合統計モデル426を有することになる。総合モデル426に基づいて、例えば、フォームP(X|Y)の条件付き可能性分布、例えば、ある月収に対する車種の分布又は関連性が決定される。この目的のために、変数X及びYに対する周辺化処理がなされる。
説明のために、総合モデル426からの結果が、一種の2ステッププロセスで得られると仮定する。先ず、モデルPA(W,X,Y,)に基づき、共通変数X及びYを変数Wから推測する。変数X及びYに対して後に見込まれるあらゆる組み合わせに対応して、条件付き可能性分布PB(Z|X,Y)(変数X及びYからの変数Zの予測)を用いて変数Zに対する分布を決定する。
4つの属性全てを一のデータベースで見つけることができる場合とは対照的に、本発明によれば、間接的に結果が得られることとなり、噂話と同様に、そのプロセスで情報を失ってしまう恐れがある。
最悪の場合、具体的には、二つの統計イメージの間に重複部分が存在しない場合、その二つのモデルを組み合わせることもできない。しかしながら、例えば、共通変数がその二つのモデルにある場合には、二つの出力データベース中に共通の顧客が存在しており、例えば共通顧客キーがなくても、総合モデルを形成するができる。
総合モデル426P(W,X,Y,Z)は、これらの統計モデルの重複部分があまり大きくない場合、好ましくは共通変数が10より少ない場合には、数的に簡単な方法で維持してもよい。膨大な重複部分がある場合には、更なる近似処理を用いて、共通変数X及びYの共通状態の全てに対して本実施例に基づいて形成されなければならない次の総計処理の実行を迅速化してもよい。
又は
特に、これらの総計処理は、追加人為変数H及び追加条件付き分布(離散変数の場合は複数のテーブル)P(H|X,Y)及びP(Z|H)を次の形態で導入する方法に基づいて、好適に近似されてよい。
又は
条件付き分布P(H|X,Y)及びP(Z|H)の構造又はパラメータ化、或いは一方ではX及びYとHとのの依存性の形態、他方ではHとZとの依存性の形態は、上記総計処理が容易に実行されるように選択される。条件付き分布P(H|X,Y)及びP(Z|H)のパラメータは、近似された総合分布Papprox(W,X,Y,Z)が、所望の分布P(W,X,Y,Z)= PA(W,X,Y,)・PB(Z|X,Y)にできるだけうまく対応するように決定される。
特に対数尤度又はカルバック・ライブラー距離を、コスト関数としてここで用いてもよい。従って、繰り返すが、EM学習法又はグラジエントベース学習法は、最適化方法として適当である。
最適パラメータを見つけることは、処理能力(或いは、計算能力)という点からは非常に複雑になりうる。二つの確率モデルを「融合」して一つの総合モデルを形成するとすぐに、その総合モデルを非常に効率的に用いることができる。
特に、変数Hを隠し変数として導入することが適当である。即ち、分布P(W,X,Y,H)を、事前分布(即ち、priori distribution)P(H)と称されるものとともに、
P(W,X,Y,Z)=P(H)・P(W,X,Y|H)
としてパラメータ化することが適当である。
P(W,X,Y,Z)=P(H)・P(W,X,Y|H)
としてパラメータ化することが適当である。
モデルP(W,X,Y)が、既に次式の潜在変数モデル
として本来パラメータ化されている場合には、既に存在する潜在変数Hを直接用いてもよい。
隠し変数Hの代わりに、複数の変数を導入することもできる。同時に、数値を簡単にするために、隠し変数KをモデルPBに対して導入してもよい。従って、総合モデルP(W,X,Y,Z)の近似は、例えば次の形態を仮定する。
このモデルにおいては、公知の干渉法(例えば、ジャンクションツリーメソッドと称される方法)により、X及びYからなる重複部分について、容易に総計処理を行うことができる。二つのモデルを融合するために必要なことは、公知の学習法により、条件付き分布P(K|H)を決定することである。
サイズが小さく、相互に入出力可能ではあるが、非常に正確な「データベースのイメージ」を生成するという目的を達成するためには特に、高度に圧縮されたイメージを生成する、非常にスケーラブル(拡張可能)な学習法が用いられることが望ましい。同時に、そのイメージは、特に、欠落情報を非常に効率的に取り扱うという目的のために、効率的に融合、即ち、組み合わせられるべきである。公知の学習法は、データ中において複数のフィールドの多くが欠落している場合は特に遅くなる。
図5は、本発明の第5実施例に係るコンピュータ構造500を示している。
コンピュータ構造500は、顧客情報の交換という範囲内で使用されており、本実施例によれば、顧客の住所情報の交換の範囲内でしようされている。コンピュータ構造500は、サーバコンピュータ501と、通信ネットワーク502を介してサーバコンピュータ501と接続する一以上のクライアントコンピュータ503を備える。
サーバコンピュータ501は、メモリ504、プロセッサ505、及びインターネットを通じて通信するように構成された入力/出力インターフェース506を有しており、これらの構成要素はコンピュータバス507を介して相互に接続されている。本実施例によれば、サーバコンピュータ501は、以下に詳細に説明するように、ウェブサーバコンピュータとして機能する。
膨大な顧客データベース508(特に、顧客の住所情報及び顧客の購買行動を表す情報を備える)が、メモリ504に記憶される。加えて、サーバコンピュータ501により顧客データベース508から形成され、且つ顧客データベース508に含まれる複数のデータ要素間の統計関係を表す統計モデル509も、メモリ504に記憶される。
統計モデル509は、それ自体が公知のEM学習法を用いて形成される。その他、好適に使用される統計モデル509の形成方法についても、以下に詳細に説明する。
本発明の本実施例によれば、統計モデル509は、一定時間ごとに自動的に再形成される。いずれの場合にも、顧客データベース508の最新データに基づいて行われる。
統計モデル509は、一以上のクライアントコンピュータ503に送信するために、サーバコンピュータ501により自動的に利用可能とされる。
クライアントコンピュータ503も、TCP/IP通信プロトコルに従って通信するように構成された入力/出力インターフェース510とともに、プロセッサ511、及びメモリ512を備える。クライアントコンピュータの構成要素はコンピュータバス513を介して相互に接続されている。
電子メッセージ514でサーバコンピュータ501からクライアントコンピュータ503へ送信される統計モデル509は、クライアントコンピュータ503のメモリ512に記憶される。
ここでは、統計モデル509が顧客データベース508の詳細、特に、顧客の実際の住所を含まないことに留意すべきである。しかしながら、統計モデル509は、顧客の行動に関する統計情報、特に、購買行動に関する統計情報を含んでいる。
そして、クライアントコンピュータ503のユーザは、興味のある顧客グループ、即ち、ユーザが興味を持っていて、且つクライアントコンピュータ503のユーザの企業が興味を持っている購買行動を表す統計モデル509の一部515を選択する。統計モデル509における選択された部分に関する情報515は、クライアントコンピュータ503により第2電子メッセージ516でサーバコンピュータ501に送信される。
サーバコンピュータ501は、受信した情報を用いて、統計モデル509の一部515により指定され顧客、及び関連する顧客詳細情報517、特に顧客の住所を、顧客データベースから読み出し、その読み出した顧客詳細情報517を第3電子メッセージ518でクライアントコンピュータ503に送信する。
このように、例えば、クライアントコンピュータ503のユーザによるマーケティングキャンペーンのために、顧客データベース508に基づいて、キャンペーンにおいて興味がある、サーバコンピュータ501の企業における顧客の住所を、目標を絞って選択することができ、それらをサーバコンピュータ501から要求することができる。サーバコンピュータ501がクライアントコンピュータ503に対して、送信されることを実際に認められた情報を送信するにすぎないとも、かなりの利点である。
本発明の一の実施形態によれば、この送信は、支払いのために行われる。言い換えれば、このようにして、非常に効率的な、いわゆる「オンラインリスト取引」システムが実現される。
統計モデルを実行する各種のスケーラブル(拡張可能)方法を以下に明記する。
ナイーブベイジアンクラスタモデルの場合の、EM学習法において好適に使用される改良物の理解をよりよくするために、EM学習法の多数の原理を以下に詳細に説明する。
一組のK個の統計変数(例えば、データベースにおける複数のフィールドに対応してよい)が、X={Xk, k=1, ..., K}で表される。
これらの変数の状態は、小文字で表される。X1は、状態x1,1, x1,2, ...、即ち、X1∈{x1,i, i=1,..., L1}と仮定する。L1は、変数X1の状態数である。データレコード(データベースにおけるデータレコード)のエントリは、全変数に対する値で構成される。但し、xπ≡(x1 π, x2 π, x3 π,...)は、π番目のデータレコードを表す。例えば、π番目のデータレコードでは、変数X1は、状態x1 πであり、変数X2は、状態x2 πである。テーブルはM個のエントリを有している。即ち、{ xπ, π=1, ..., M}である。加えて、以下にΩで表される隠し変数又はクラスタ変数があり、それらの状態は、{ωi, i=1, ..., N}である。よって、N個のクラスタがある。
一つの統計クラスタリングモデルにおいては、P(Ω)は先験分布を表す。つまり、P(ωi)は、i番目クラスタの先験重み(priori weighting)であり、P(X|ωi)は、i番目クラスタの構造又はi番目クラスタにおける観測可能変数X={Xk, k=1, ..., K}の条件付き分布を表す(これらは、データベースに含まれる)。各クラスタに対する条件付き分布及び先験分布は、一緒に、共通確率モデルをパラメータ化し、X∪Ω又はXとする。
ナイーブベイジアンネットワークでは、p(X|ωi)は、
で因数分解できるという前提条件がある。
一般に、その目的は、モデルのパラメータ、即ち、先験分布p(Ω)及び条件付き尤度テーブルp(X|ω)を、共通モデルが入力データをできるだけ十分に反映するように、決定することである。対応するEM学習法は、一連の反復ステップにより構成されており、モデルにおける改良(いわゆる可能性又は尤度という意味)は、各反復ステップで達成される。各反復ステップでは、新たなパラメータpnew(...)を現在の又は「古い」パラメータpold(...)に基づいて、評価する。
各EMステップは、最初に、E(期待値)ステップから開始する。そこでは「十分統計量(sufficient statistics)」がテーブルにおいて決定される。当該テーブルは、その目的のために提供されたものである。その工程は、エントリがゼロ値から開始される尤度テーブルとともに開始される。テーブルにおける複数のフィールドは、Eステップの過程で、各データポイントに対する期待値を用いて、欠落情報(即ち、特に複数クラスタに対する各データポイントの割り当て)を補うことにより、いわゆる十分統計量S(Ω)及びS(X|Ω)で埋められる。
クラスタ変数Ωに対する期待値を計算するために、事後分布pold (wi|x π)が決定されなければならない。このステップは「推論ステップ」とも称される。
ナイーブベイジアンネットワークの場合、Ωに対する事後分布は、入力情報からの各データポイントx πに対する次の規則に従って計算されなければならない。
ここで、1/Zπは予め定義できるスケーリング係数である。
この計算における重要な部分は、k=1, ..., Kまでの全てについての積pold (xk π|ωi)の形成である。この積は、各ステップEで、全クラスタi=1, ..., N及び全データポイントxπ, π=1, ..., Mに対して形成されなければならない。
同様に複雑で、またしばしば更に複雑なのは、ナイーブベイジアンネットワークとしての、その他の依存構造の仮定に対する推論ステップである。従って、それはEM学習プロセスの本質的な計算能力コストを含んでいる。
テーブルs(Ω)及びS(X|Ω)のエントリは、各データポイントxπ, π=1, ..., Mに対する上記積を形成した後に変化する。s(ωi)は、全てのi毎に加えられるpold (ωi |x π)を有するからである。或いは全てのpold (ωi|x π)の和が形成される。これに対応して、S(x|ωi)(又はナイーブベイジアンネットワークの場合、全変数kに対するS(xkωi))は、全クラスタiについて加えられるpold(ωi|x π)を有する。これにより、E(期待)ステップが最初に終了される。
このステップを参照することにより、新たなパラメータpnew(Ω)及びpnew (x|Ω)がこの統計モデルに対して計算される。但し、p(x|ωi)は、i番目クラスタの構造、又はi番目クラスタにおいてデータベースに含まれる変数xの条件付き分布を示す。
M(最大化)ステップにおいては、数9で示される一般的な対数尤度Lを最適化することにより、既に計算されている十分統計量に基づく新たなパラメータpnew(Ω)及びpnew (x|Ω)を形成する。
従って、アルゴリズムの主な複雑さは、推論ステップ、又は数10で示される積の形成及び十分統計量の累積にあることは明白である。
しかしながら、尤度テーブルpold(X|ωi)又はpold(Xk|ωi)における多数のゼロ要素の形成は、好適なデータ構造並びに一のEMステップから次のステップへの中間結果の記憶により、効率的に積を計算するために用いられる。
EM学習法を促進させるために、全積の形成が、通常通り、推論ステップで行われる。それは全ての入力データポイントに対するメンバーシップ確率(membership probabilitis)の事後分布の因数から形成される。しかしながら、関連する因数において最初にゼロが生じるとすぐに、全ての積の形成が中断される。EM学習プロセスにおいて特定のデータポイントに対する重み付けを行うゼロに対してクラスタが割り当てられると、このクラスタはまた、このデータポイントに対するその他の全てのEMステップにおいても、重み付けを行うゼロに割り当てられることが示される。
これにより、一のEMステップから次のステップへ対応する結果をバッファリングし、その結果を、重み付けを行うゼロを持たないクラスタに対してのみ処理することで、過剰な数的複雑さを適当に排除することができる。
よって、重みを行うゼロを伴ってクラスタが生じる際に処理が中断することにより、EMステップだけでなくその他の全てのステップに対して、特に推論ステップにおける積が形成される間において、EM学習法が全体的にかなり促進されるという利点が生じる。
所定データに存在する尤度分布を決定する方法では、特定クラスに対するメンバーシップ確率が、反復方法におけるゼロ付近までのみ計算される。メンバーシップ確率が選択可能な値以下であるクラスは、もはや反復方法では用いられない。
この方法を発展させた一例では、殆ど発生し得ない変数の状態に関連する因子を最初に処理するように、計算されるべき因子列を決定する。積の形成を開始する前に、変数中にゼロが現れる頻度に応じて変数がリスト中に並べられるように、殆ど発生し得ない値を、割り当てられたリスト中に記憶できる。行われる。
尤度テーブルの対数表示を用いることも利点である。
また、尤度テーブルのまばらな提示を、例えば、ゼロでない要素のみを含むリストの形態で用いることも利点である。
加えて、十分統計量を計算する際、ゼロでない重み付けを有するクラスタのみが考慮される。
ゼロでない重みを有するクラスタは、リストに記憶されてよく、リストに記憶されるデータは、対応するクラスタへのポインタとなることができる。
また、この方法は、EM(期待値最大化)学習プロセスであってもよい。このプロセスでは、データポインタについて割り当てられる「ゼロ」の事後重み付けを有するクラスタの場合に、このクラスタは、このデータポイントに対するEM法におけるその他の全ステップにおいて、重み付けを行うゼロを受け取る。このクラスタは、その他の全ステップにおいては、もはや考慮されるべきものではない。
この方法は、また、ゼロとは異なる重み付けを有するクラスタを介してのみ実施されてもよい。
I.推論ステップの第1例
a)ゼロ値で中断がある全積の形成
全積は、推論ステップにおいて各クラスタωiに対して形成される。例えばメモリ、アレイ又はポインタリストから読み出される可能性のある、関連する因数で最初のゼロが生じるとすぐに、全積の形成が中断される。
I.推論ステップの第1例
a)ゼロ値で中断がある全積の形成
全積は、推論ステップにおいて各クラスタωiに対して形成される。例えばメモリ、アレイ又はポインタリストから読み出される可能性のある、関連する因数で最初のゼロが生じるとすぐに、全積の形成が中断される。
ゼロポイントが生じると、クラスタに関連する事後重み付けがゼロに設定される。或いは、最初に、積における因数の少なくとも一つがゼロであるかどうかを確認することもできる。ここでは、全積を形成するための全ての乗算は、全ての因数がゼロと異なる場合にのみ行われる。
他方、全積に関連する因数においてゼロ値が生じない場合には、積の形成は、正常に継続され、次の因数がメモリ、アレイ又はポインタリストから読み出され、積を形成するために用いられる。
b)データ処理を促進するための適当な配列の選択
積の因数がゼロである場合には、この因数が積の第1の因数の一つとして早急に生じる可能性が非常に高くなるように、好適な配列が選択される。その結果、全積の形成を早急に中断できる。ここで、データにおける変数の状態が発生する頻度に従って、新たな配列を定義してよい。殆ど発生し得ない変数の状態に関連する因数を、先ず処理する。従って、因数が処理される配列を、学習法を開始する前に、変数の値を対応して並べられたリストに記憶することにより、一度定義することができる。
c)テーブルの対数表示
上述の方法における計算の複雑さをできる限り抑制するために、テーブルの対数表示が好適に用いられる。例えば、アンダーフローという問題を避けるためである。この関数を用いて、本来ゼロの要素を、例えば正の値で置き換えることができる。その結果、仮想的にゼロであり、且つ小さなスケールで相互に異なる変数の複雑な処理又は除算がもはや必要ではなくなる。
d)十分統計量を計算する際における、増加した加算の回避
学習法に割り当てられる確率変数が、特定クラスタにおいて、低確率のメンバーシップを有する場合、多数のクラスタが、学習法の過程において、ゼロの先験重み付けを有することになろう。
b)データ処理を促進するための適当な配列の選択
積の因数がゼロである場合には、この因数が積の第1の因数の一つとして早急に生じる可能性が非常に高くなるように、好適な配列が選択される。その結果、全積の形成を早急に中断できる。ここで、データにおける変数の状態が発生する頻度に従って、新たな配列を定義してよい。殆ど発生し得ない変数の状態に関連する因数を、先ず処理する。従って、因数が処理される配列を、学習法を開始する前に、変数の値を対応して並べられたリストに記憶することにより、一度定義することができる。
c)テーブルの対数表示
上述の方法における計算の複雑さをできる限り抑制するために、テーブルの対数表示が好適に用いられる。例えば、アンダーフローという問題を避けるためである。この関数を用いて、本来ゼロの要素を、例えば正の値で置き換えることができる。その結果、仮想的にゼロであり、且つ小さなスケールで相互に異なる変数の複雑な処理又は除算がもはや必要ではなくなる。
d)十分統計量を計算する際における、増加した加算の回避
学習法に割り当てられる確率変数が、特定クラスタにおいて、低確率のメンバーシップを有する場合、多数のクラスタが、学習法の過程において、ゼロの先験重み付けを有することになろう。
十分統計量の累積を、その後のステップにおいても促進できるように、ゼロでない重み付けを有するクラスタのみが、このステップで考慮される。
ここで、ゼロでないクラスタを、ゼロでない要素のみを記憶できるリスト、アレイ、又は類似のデータ構造に記憶することは有利である。
II.EM学習法の第2例
a)データポイントに対してゼロ割り当てを備えたクラスタは考慮されない
特に、ゼロが発生した結果、どのクラスタがまだテーブル内で認可されているかを示す情報、及びもはや認可されていないかを示す情報が、ここで、各データポイントに対して、一ステップから次のステップへ遷移するEM学習法に記憶される。
II.EM学習法の第2例
a)データポイントに対してゼロ割り当てを備えたクラスタは考慮されない
特に、ゼロが発生した結果、どのクラスタがまだテーブル内で認可されているかを示す情報、及びもはや認可されていないかを示す情報が、ここで、各データポイントに対して、一ステップから次のステップへ遷移するEM学習法に記憶される。
ゼロによる乗算によりゼロの事後重み付けを与えられたクラスタが、数的複雑さを避けるために、第1例における全ての更なる計算から排除される場合には、本例では、一のEMステップから次のステップでの、個々のデータポイントにおけるクラスタメンバシップに関する中間結果(クラスタは既に排除されているか、或いはまだ許可可能である)も、付加的に必要なデータ構造に記憶される。
b)関連クラスタへの参照(リファレンス)を備えたリストの記憶
データポイントに対してゼロでない重み付けが割り当てられた関連クラスタへの参照を含むリスト又は類似のデータ構造を、データポイント毎に又は入力確率変数毎に、先ず記憶できる。
b)関連クラスタへの参照(リファレンス)を備えたリストの記憶
データポイントに対してゼロでない重み付けが割り当てられた関連クラスタへの参照を含むリスト又は類似のデータ構造を、データポイント毎に又は入力確率変数毎に、先ず記憶できる。
概して、この例においては、許可されたクラスタのみが記憶されるが、但し、データレコードにおけるデータポイント毎に記憶される。
上記の二例を相互に組み合わせることができる。これにより、「ゼロ」重み付けが推論ステップに存在する際に中断が可能となる。ここで、許可されたクラスタのみが、次のEMステップにおける第2実施例に従って、考慮される。
EM学習法の第2変量を、以下に詳細に説明する。この方法は、このように形成される統計モデルの使用とは独立したものであることに留意すべきである。
上記のEM学習法を参照すると、欠落情報を全ての変数に対して補う必要はないことは明らかである。本発明では、欠落情報のいくらかを「無視」できる。言い換えれば、これは、ランダム変数Y(ノードY)に関する情報がないデータから、該ランダム変数Yについて何かを探し出す試みはなされないという意味である。或いは、二つの変数Y及びX(二つのノードY及びX)の関係について、該変数Y及びXに関する情報がないデータから、何かを探し出す試みはなされないという意味である。
その結果、EM学習法を実行する際の数的複雑さが著しく減少するだけでなく、より迅速にEM学習法を収束させることができる。更なる利点は、この手順により、即ち、学習プロセスの間に、動的に統計モデルをより簡単に構築できることであると考えられる。よって、ネットワーク、即ち有向グラフにおいて、複数の変数(ノード)をより簡単に補うことができる。
本発明に係る方法の明瞭な例として、一つの統計モデルが、映画に行く人によりどのような評価が映画になされたかを表す変数を含んでいると仮定する。各映画に対しては、各変数が複数の状態について割り当てられ且つ各状態が夫々の場合における一の評価値を表す変数が存在する。各顧客に対しては、どの映画がどのような評価値を受けたかを示す情報が記憶されたデータレコードが存在する。新たな映画が提供される場合、この映画に対する評価値は、最初はしばしば欠落する。現在では、EM学習法の新たな変量により、新たな映画が登場するまでは、EM学習法が、それまでに知られている映画に対してのみ実行される可能性がある。即ち、新たな映画が最初に無視される可能性がある(即ち、一般には、有向グラフにおける新たなノードが無視される可能性がある)。新たな映画が登場して初めて、統計モデルに対して新たな変数(新たなノード)が動的に付加され、新たな映画の評価が考慮される。対数尤度という意味におけるこの方法の収束は、ここでいまだ保証されているが、この方法はより迅速に収束する。
欠落情報を考慮する必要がない条件について、以下に説明する。
次の表記法を用いて、手順を説明する。Hは隠しノードを表す。O={O1, O2, ... , OM}は、統計モデルの有向グラフにおけるM個の観測可能な一連のノードを表す。
一般的な利用可能性を制限することなく、数11に示される規則(2)に従って因数分解できるベイジアン確率モデルを以下に仮定する。
以下において、ランダム変数は大文字で表され、各ランダム変数のインスタンスは小文字で表される。
N個のデータレコード要素{Oi, i=1, ..., N}を有するデータレコードを仮定する。但し、いくつかの観測可能なノードのみが、各データレコード要素に対して実際に観測される。i番目のデータレコード要素に対しては、ノードX iが観測され、ノードY iの観測値が欠落していると仮定する。
従って、次の規則(3)が適用される。
X i∪Y i= O i (3)
各データレコード要素に対して複数のノードX iの異なるレコードが観測できることに留意すべきである。即ち、次の規則(4)が適用される。
各データレコード要素に対して複数のノードX iの異なるレコードが観測できることに留意すべきである。即ち、次の規則(4)が適用される。
i≠jに対してX i= X j (4)
存在しているノード(存在ノード)に対する指標は、κであらわされる。即ち、X i={Xi κ, κ=1, ..., Ki}である。また、存在していないノード(非存在ノード)に対する指標は、λであらわされる。即ち、Y i={Yi λ, λ=1, ..., Li}である。
存在しているノード(存在ノード)に対する指標は、κであらわされる。即ち、X i={Xi κ, κ=1, ..., Ki}である。また、存在していないノード(非存在ノード)に対する指標は、λであらわされる。即ち、Y i={Yi λ, λ=1, ..., Li}である。
ベイジアンネットワークの場合、慣例的EM学習法は、すでに簡単に前述したように、次のステップを備える。
1)Eステップ
この方法は、「空の」テーブルSS(H)及びSS(Oπ, H), i=1, ..., M(「ゼロ」で初期化される)を用いて開始される。これに基づき評価(十分統計量値)を累計するためである。隠しノードHに対する先験分布P(H|X i)、並びに隠しノードH及び非存在ノードY iの夫々に対する先験複合分布P(H, Yi π|x i)が、データレコード要素o i毎に計算される。
1)Eステップ
この方法は、「空の」テーブルSS(H)及びSS(Oπ, H), i=1, ..., M(「ゼロ」で初期化される)を用いて開始される。これに基づき評価(十分統計量値)を累計するためである。隠しノードHに対する先験分布P(H|X i)、並びに隠しノードH及び非存在ノードY iの夫々に対する先験複合分布P(H, Yi π|x i)が、データレコード要素o i毎に計算される。
次の数12から数14にて示される規則(5)から(7)に従って、統計モデルへの評価が各データレコード要素iに対して累計される。
2)Mステップ
全ノードに対するパラメータが、次の数式にて示される規則(8)及び(9)に従ってMステップにおいて更新される。
P(H)∝SS(H) (8)
P(Oπ|H)∝SS(Oπ, H) (9)
但し、符号∝は、SSをPに移行する際に確率テーブルを標準化すべきであることを示す。
P(Oπ|H)∝SS(Oπ, H) (9)
但し、符号∝は、SSをPに移行する際に確率テーブルを標準化すべきであることを示す。
EM学習法によれば、期待値は、非存在ノードY iに対して計算され、規則(7)に基づく十分統計量値に従い、これらのノードに対して更新される。
他方、全てのノードYi λ∈Y iに対する複合分布P(H, Yi λ|x i)の計算及び更新は、計算という点では、非常に複雑である。加えて、複合分布P(H, Yi λ|x i)の更新は、大部分の情報が欠落する場合においてEM学習法の収束が遅くなることの理由である。
EM学習法を開始する前に、テーブルが乱数で初期化されると仮定する。
この場合、複合分布P(H, Yi λ|x i)は、本質的に、この第1ステップにおける乱数に対応する。これは、既存の情報に対する欠落情報の割合に応じた十分統計量の値において、初期の乱数を考慮するという意味である。これは、各テーブルの初期の乱数は、欠落情報と既存情報との関係にのみ従って、「消去」されるという意味である。
以下において、統計モデルとしてのベイジアンネットワークの場合は、規則(7)に係るステップは必要ではなく、省略又は回避することができることがわかる。
統計モデルとしてのベイジアンネットワークの対数尤度は、数15にて示される規則(10)により与えられる。
数18及び数19にて示される規則(12)及び(13)による定義をR[P, B]及びH[P, B]について用いる。
L[P]= R[P, B]−H[P, B] (14)
H[P, P]−H[P, B]は、P(h|x i)及びB(h|x i)の非負クロスエントロピーを表すから、数20にて示される規則(15)が一般に適用される。
H[P, P]−H[P, B]は、P(h|x i)及びB(h|x i)の非負クロスエントロピーを表すから、数20にて示される規則(15)が一般に適用される。
R[P(t+1), P(t)] > R[P(t), P(t)] (16)
次式が適用される。
次式が適用される。
L[P(t+1)] = R[P(t+1), B] − H[P(t+1), B]
= R[P(t+1), P(t)] − H[P(t+1), P(t)] (17)
> R[P(t), P(t)] − H[P(t), P(t)]
= L[P(t)]
一般に、一行目は全てのBに対して適用される(規則(14)を比較)。規則(17)の2行目は、特に、次の規則(18)が成り立つ場合に適用される。
= R[P(t+1), P(t)] − H[P(t+1), P(t)] (17)
> R[P(t), P(t)] − H[P(t), P(t)]
= L[P(t)]
一般に、一行目は全てのBに対して適用される(規則(14)を比較)。規則(17)の2行目は、特に、次の規則(18)が成り立つ場合に適用される。
B=P(t) (18)
3行目は、規則(15)により適用される。規則(17)の最終行は、代わって規則(14)に対応する。
3行目は、規則(15)により適用される。規則(17)の最終行は、代わって規則(14)に対応する。
この結果、R[P(t+1), P(t)] > R[P(t), P(t)]の場合には、次の規則(19)が確実に適用される。
L[P(t+1))] > L[P(t)] (19)
R項が数21にて示される規則(20)に従って定義される標準EM学習法(非特許文献2)との違いについて述べる。
R項が数21にて示される規則(20)に従って定義される標準EM学習法(非特許文献2)との違いについて述べる。
一連のEM反復は、次の規則(21)が適用されるように形成される。
Rstandard[P(t+1), P(t)] > Rstandard [P(t), P(t)] (21)
本発明に係る学習法では、次の規則(16)が適用されるように、一連のEM反復がベイジアンネットワークに対して形成される。
本発明に係る学習法では、次の規則(16)が適用されるように、一連のEM反復がベイジアンネットワークに対して形成される。
R[P(t+1), P(t)] > R[P(t), P(t)] (16)
ここで、規則(12)に従って定義されたRは、規則(7)を回避した上記の学習法から導かれることが示される。反復tに対して与えられる現行の統計モデルP(t)の場合、この方法の目的は、反復t+1における新たな統計モデルP(t+1)を、Pに対して最適化されている R[P, P(t)]により計算することである。規則(2)に係る因数分解を用いると、数22にて示される規則(22)となる。
ここで、規則(12)に従って定義されたRは、規則(7)を回避した上記の学習法から導かれることが示される。反復tに対して与えられる現行の統計モデルP(t)の場合、この方法の目的は、反復t+1における新たな統計モデルP(t+1)を、Pに対して最適化されている R[P, P(t)]により計算することである。規則(2)に係る因数分解を用いると、数22にて示される規則(22)となる。
数23にて示される規則(23)により、規則(22)の第1項は、数24にて示される規則(24)として得られる。
規則(22)の第2項は、規則(6)および(9)により記載されるように、条件付き確率P(Oπ|H)のテーブルに対するEM更新を導く。これを例示するために、P(Oπ|H)に依存する全ての項がRにおいて集められる。これらの項は、次の数25にて示される規則(25)に従って得られる。
Oπは、観測されたノードの一つである。即ち、次の規則(26)が適用されるノードの一つである。
Oπ∈X i (26)
以上をまとめると、上記規則(25)は、P(OπH)及び規則(6)に従って累積された十分統計量の値のクロスエントロピーとして解釈することができる。従って、規則(7)に係る更新を提供する必要はなくなる。これは、規則(25)における和(即ち、数26にて示される和)又は、規則(22)における和(即ち、数27にて示される和)に起因するものである。この和は、観測されないノードY iも考慮されない規則(20)に係るRstandardの定義とは対照的に、観測されたノードのみ考慮にいれる。
以上をまとめると、上記規則(25)は、P(OπH)及び規則(6)に従って累積された十分統計量の値のクロスエントロピーとして解釈することができる。従って、規則(7)に係る更新を提供する必要はなくなる。これは、規則(25)における和(即ち、数26にて示される和)又は、規則(22)における和(即ち、数27にて示される和)に起因するものである。この和は、観測されないノードY iも考慮されない規則(20)に係るRstandardの定義とは対照的に、観測されたノードのみ考慮にいれる。
十分統計量テーブルにおける更新の範囲内で観測されないノードを考慮にいれない手順の有効性を、より一般的に通用する場合を想定して、以下に示す。その通用する場合とは、この手順はいわゆるベイジアンネットワークに制限されないことを示す。
一連の変数Z={Z1, Z2, ..., ZM}を仮定する。また、統計モデルは、数28にて示される規則27のように因数分解できると仮定する。
結果として、ノードX i及びH iに対する複合分布が、数31にて示される規則(29)に従って得られる。
各ノードZに対して、ゼロ値で初期化されるテーブルSS(Z,Π[Z])が形成又は利用可能とされる。データレコードにおける各データレコード要素iに対しては、先験分布P(Z,Π[Z]|X i=x i)が計算され、十分統計量値が、各ノードZ∈X i及びZ∈H iに対する次の規則(30)に従って累計される。
SS(Z,Π|Z) += P(Z,Π[Z]|X i=x i) (30)
X iにおけるノードに割り当てられたテーブルの十分統計量値は、更新されない。
2)Mステップ
全ノードにおけるパラメータ(テーブル)は、次の規則(31)に従って更新される。
X iにおけるノードに割り当てられたテーブルの十分統計量値は、更新されない。
2)Mステップ
全ノードにおけるパラメータ(テーブル)は、次の規則(31)に従って更新される。
P(Zσ|Π[Zσ]) ∝ SS(Zσ,Π[Zσ]) (31)
本発明は、データベースの内容に対する統計モデルを形成することにより、データベースにおける統計への幅広く簡単な(それにもかかわらず任意のレートで一般的に近似される)アクセス(好ましくは、インターネットを介したアクセス)が提供されるものであると考えることができる。その結果、統計モデルは、「遠隔診断」、いわゆる「リモートアシスタンス」又は「リモートリサーチ」のために、通信ネットワークを介して自動的に送られる。言い換えれば、統計モデルの形態を有する「知識」が、通信され、送られる。知識は、しばしば、ドメインにおける関係や相互依存性に関する知識、例えば、プロセスにおける依存性に関する知識である。データベースのデータから形成されるドメインの統計モデルは、これら全ての関係のマッピングである。技術的用語では、モデルは、データベースの次元(ディメンション)における共通確率分布を構成する。従って、モデルは、特定の関数定義には制限されず、むしろ次元の間の任意の依存性を構成する。統計モデルを形成するように圧縮される場合は、ドメインに関する知識は、容易に取り扱われ、送られ、任意の所望のユーザに利用可能とされる等が可能となる。
本発明は、データベースの内容に対する統計モデルを形成することにより、データベースにおける統計への幅広く簡単な(それにもかかわらず任意のレートで一般的に近似される)アクセス(好ましくは、インターネットを介したアクセス)が提供されるものであると考えることができる。その結果、統計モデルは、「遠隔診断」、いわゆる「リモートアシスタンス」又は「リモートリサーチ」のために、通信ネットワークを介して自動的に送られる。言い換えれば、統計モデルの形態を有する「知識」が、通信され、送られる。知識は、しばしば、ドメインにおける関係や相互依存性に関する知識、例えば、プロセスにおける依存性に関する知識である。データベースのデータから形成されるドメインの統計モデルは、これら全ての関係のマッピングである。技術的用語では、モデルは、データベースの次元(ディメンション)における共通確率分布を構成する。従って、モデルは、特定の関数定義には制限されず、むしろ次元の間の任意の依存性を構成する。統計モデルを形成するように圧縮される場合は、ドメインに関する知識は、容易に取り扱われ、送られ、任意の所望のユーザに利用可能とされる等が可能となる。
マッピング又は統計モデルの分解能ないしは精度は、データ保護の要求又は関与する者の要求に従って選択することができる。
Claims (12)
- 第1データベースにおけるデータベース情報のコンピュータ援用提供方法であって、
前記第1データベースに対して、該第1データベースに含まれる複数のデータ要素間の統計関係を表す第1統計モデルが形成され、
前記第1統計モデルは、サーバコンピュータに記憶され、
前記第1統計モデルは、通信ネットワークを介して前記サーバコンピュータからクライアントコンピュータに送信され、
前記受信された第1統計モデルは、更に前記クライアントコンピュータにより処理されることを特徴とするコンピュータ援用提供方法。 - 前記第1統計モデルと、前記クライアントコンピュータに記憶される第2データベースの複数のデータ要素とを用いて全体統計モデルが形成され、該モデルは、前記第1統計モデルに含まれる少なくともいくらかの統計情報と、前記第2データベースに含まれる少なくともいくらかの統計情報とを有していることを特徴とする請求項1に記載のコンピュータ援用提供方法。
- 第2データベースに対して、第2データベースに含まれる複数のデータ要素間の統計関係を表す第2統計モデルが形成され、
前記第2統計モデルは、前記通信ネットワークを介して前記クライアントコンピュータに送信され、
前記第1統計モデルに含まれる少なくともいくらかの統計情報と、前記第2統計モデルに含まれる少なくともいくらかの統計情報とを有している全体統計モデルが、前記第1統計モデルと前記第2統計モデルを用いて、前記クライアントコンピュータにより形成されることを特徴とする請求項1に記載のコンピュータ援用提供方法。 - 前記第2統計モデルは、第2サーバコンピュータに記憶され、
前記第2統計モデルは、前記通信ネットワークを介して前記第2サーバコンピュータから前記クライアントコンピュータに送信されることを特徴とする請求項3に記載のコンピュータ援用提供方法。 - 前記統計モデルの少なくとも一方は、夫々の前記データベースに含まれる前記データ要素に対する前記統計モデルの圧縮度が設定されるスケーラブル法により形成されることを特徴とする請求項1から4のいずれかに記載のコンピュータ援用提供方法。
- 前記統計モデルの少なくとも一方は、EM学習法又はグラジエントベース学習法により形成されることを特徴とする請求項1から5のいずれかに記載のコンピュータ援用提供方法。
- 前記第1データベース及び前記第2データベースの少なくとも一方が、少なくとも一つの技術システムを示す複数のデータ要素を有することを特徴とする請求項1から6のいずれかに記載のコンピュータ援用提供方法。
- 前記少なくとも一つの技術システムを示す複数のデータ要素は、前記技術システム上で少なくとも部分的に測定され且つ前記技術システムの動作態様を表す値を示すことを特徴とする請求項7に記載のコンピュータ援用提供方法。
- 複数のデータ要素を有するデータベースにおけるデータベース情報のコンピュータ援用提供方法であって、
予め定義可能な有向グラフとして前記複数のデータ要素間の統計関係が決定されるように、EM学習法が前記複数のデータ要素上で実行され、
前記有向グラフは、複数のノード及び端点を有しており、
前記複数の端点は、予め定義可能な観測可能なデータベース状態及び観測不可能なデータベース状態を表し、
前記EM学習法の範囲内では、期待される値のみが、前記観測可能なデータベース状態、及び親データベースの状態が観測可能なデータベース状態である前記観測不可能なデータベース状態として決定されることを特徴とするコンピュータ援用提供方法。 - 第1データベースにおけるデータベース情報のコンピュータ援用提供用コンピュータ構造であって、
前記第1データベースに対して形成された第1統計モデルを記憶するサーバコンピュータを有しており、該第1統計モデルは、前記第1データベースに含まれる複数のデータ要素間の統計関係を表し、
通信ネットワークを介して前記サーバコンピュータに接続され、前記通信ネットワークを介して前記サーバコンピュータから当該クライアントコンピュータに送信される前記第1統計モデルを更に処理するよう構成されたクライアントコンピュータを有していることを特徴とするコンピュータ構造。 - 複数のデータ要素を有する第2データベースが、前記クライアントコンピュータに記憶され、
前記クライアントコンピュータは、前記第1統計モデルと前記第2データベースの複数のデータ要素とを用いて全体統計モデルを形成するユニットを有しており、該全体統計モデルは、前記第1統計モデルに含まれる少なくともいくらかの統計情報と、前記第2データベースに含まれる少なくともいくらかの統計情報とを有していることを特徴とする請求項10に記載のコンピュータ構造。 - 第2データベースに対して形成された第2統計モデルを記憶する第2サーバコンピュータを有しており、該第2統計モデルは、前記第2データベースに含まれる複数のデータ要素間の統計関係を示し、
前記クライアントコンピュータは、前記通信ネットワークにより前記第2サーバコンピュータに接続されており、
前記クライアントコンピュータは、前記第1統計モデルと前記第2統計モデルとを用いて全体統計モデルを形成するユニットを有しており、該全体統計モデルは、前記第1統計モデルに含まれる少なくともいくらかの統計情報と、前記第2統計モデルに含まれる少なくともいくらかの統計情報とを有していることを特徴とする請求項10に記載のコンピュータ構造。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10252445A DE10252445A1 (de) | 2002-11-12 | 2002-11-12 | Verfahren und Computer-Anordnung zum Bereitstellen von Datenbankinformation einer ersten Datenbank und Verfahren zum rechnergestützten Bilden eines statistischen Abbildes einer Datenbank |
PCT/EP2003/011655 WO2004044772A2 (de) | 2002-11-12 | 2003-10-21 | Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006505858A true JP2006505858A (ja) | 2006-02-16 |
Family
ID=32185484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004550701A Pending JP2006505858A (ja) | 2002-11-12 | 2003-10-21 | 第1データベースにおけるデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20060129580A1 (ja) |
EP (1) | EP1561173A2 (ja) |
JP (1) | JP2006505858A (ja) |
AU (1) | AU2003279305A1 (ja) |
DE (1) | DE10252445A1 (ja) |
WO (1) | WO2004044772A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012010964A (ja) * | 2010-06-30 | 2012-01-19 | Nikon Corp | 統計情報提供システム、統計情報提供サーバ、移動端末、端末、検査端末及びプログラム |
JP2022178650A (ja) * | 2021-05-20 | 2022-12-02 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2022178653A (ja) * | 2021-05-20 | 2022-12-02 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7873724B2 (en) * | 2003-12-05 | 2011-01-18 | Microsoft Corporation | Systems and methods for guiding allocation of computational resources in automated perceptual systems |
US7761474B2 (en) * | 2004-06-30 | 2010-07-20 | Sap Ag | Indexing stored data |
US7623651B2 (en) * | 2004-09-10 | 2009-11-24 | Microsoft Corporation | Context retention across multiple calls in a telephone interaction system |
WO2006066556A2 (de) * | 2004-12-24 | 2006-06-29 | Panoratio Database Images Gmbh | Relationale komprimierte datenbank-abbilder (zur beschleunigten abfrage von datenbanken) |
US7512617B2 (en) * | 2004-12-29 | 2009-03-31 | Sap Aktiengesellschaft | Interval tree for identifying intervals that intersect with a query interval |
US20060159339A1 (en) * | 2005-01-20 | 2006-07-20 | Motorola, Inc. | Method and apparatus as pertains to captured image statistics |
US20150347421A1 (en) * | 2014-05-29 | 2015-12-03 | Avaya Inc. | Graph database for a contact center |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US623337A (en) * | 1899-04-18 | Birger isidor rydberg | ||
US6449612B1 (en) * | 1998-03-17 | 2002-09-10 | Microsoft Corporation | Varying cluster number in a scalable clustering system for use with large databases |
US6012058A (en) * | 1998-03-17 | 2000-01-04 | Microsoft Corporation | Scalable system for K-means clustering of large databases |
US6728713B1 (en) * | 1999-03-30 | 2004-04-27 | Tivo, Inc. | Distributed database management system |
US6549907B1 (en) * | 1999-04-22 | 2003-04-15 | Microsoft Corporation | Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions |
US20020129038A1 (en) * | 2000-12-18 | 2002-09-12 | Cunningham Scott Woodroofe | Gaussian mixture models in a data mining system |
-
2002
- 2002-11-12 DE DE10252445A patent/DE10252445A1/de not_active Ceased
-
2003
- 2003-10-21 WO PCT/EP2003/011655 patent/WO2004044772A2/de active Application Filing
- 2003-10-21 US US10/534,510 patent/US20060129580A1/en not_active Abandoned
- 2003-10-21 EP EP03772243A patent/EP1561173A2/de not_active Withdrawn
- 2003-10-21 AU AU2003279305A patent/AU2003279305A1/en not_active Abandoned
- 2003-10-21 JP JP2004550701A patent/JP2006505858A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012010964A (ja) * | 2010-06-30 | 2012-01-19 | Nikon Corp | 統計情報提供システム、統計情報提供サーバ、移動端末、端末、検査端末及びプログラム |
JP2022178650A (ja) * | 2021-05-20 | 2022-12-02 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2022178653A (ja) * | 2021-05-20 | 2022-12-02 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7212103B2 (ja) | 2021-05-20 | 2023-01-24 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7354181B2 (ja) | 2021-05-20 | 2023-10-02 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2004044772A9 (de) | 2004-08-19 |
EP1561173A2 (de) | 2005-08-10 |
US20060129580A1 (en) | 2006-06-15 |
AU2003279305A1 (en) | 2004-06-03 |
AU2003279305A8 (en) | 2004-06-03 |
WO2004044772A2 (de) | 2004-05-27 |
DE10252445A1 (de) | 2004-05-27 |
WO2004044772A3 (de) | 2004-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6803980B1 (ja) | 信頼されたイニシャライザを用いない秘密分散 | |
US20170293865A1 (en) | Real-time updates to item recommendation models based on matrix factorization | |
WO2019047790A1 (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN117555928A (zh) | 基于设备使用关联互联网设备的数据处理系统和方法 | |
CN112990486A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN109919316A (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN112163963B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN110555172B (zh) | 用户关系挖掘方法及装置、电子设备和存储介质 | |
CN109726331B (zh) | 对象偏好预测的方法、装置和计算机可读介质 | |
CN114329201A (zh) | 深度学习模型的训练方法、内容推荐方法和装置 | |
JP6799151B1 (ja) | 信頼できるイニシャライザを用いた秘密共有 | |
CN111898247B (zh) | 滑坡位移预测方法、设备及存储介质 | |
US20090157589A1 (en) | System for opinion reconciliation | |
WO2022188534A1 (zh) | 信息推送的方法和装置 | |
WO2023241207A1 (zh) | 一种数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品 | |
WO2022011553A1 (en) | Feature interaction via edge search | |
JP2022074133A (ja) | 多変量時系列モデリングおよび予測のためのコンピューティングデバイス、コンピュータ実装方法、およびコンピュータ可読記憶媒体(改良された多変量時系列モデリングおよび予測のための複数時系列にわたる確率的非線形関係および外部要因) | |
JP2006505858A (ja) | 第1データベースにおけるデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法 | |
CN112507724A (zh) | 词权重确定方法、装置、服务器及计算机可读存储介质 | |
JP7173234B2 (ja) | 情報処理に用いられる方法、装置、デバイス及び記憶媒体 | |
Taylor et al. | Reputation assessment: a review and unifying abstraction | |
US20070168329A1 (en) | Database query system using a statistical model of the database for an approximate query response | |
CN115700548A (zh) | 用户行为预测的方法、设备和计算机程序产品 | |
US20220374748A1 (en) | Automated determination of explanatory variables |