JP2006505858A

JP2006505858A - 第１データベースにおけるデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法

Info

Publication number: JP2006505858A
Application number: JP2004550701A
Authority: JP
Inventors: ハフト，ミヒャエル; ホフマン，ライマー
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2002-11-12
Filing date: 2003-10-21
Publication date: 2006-02-16
Also published as: WO2004044772A9; EP1561173A2; US20060129580A1; AU2003279305A1; AU2003279305A8; WO2004044772A2; DE10252445A1; WO2004044772A3

Abstract

【解決手段】
第１データベースに含まれる複数のデータ要素間の統計関係を表す第１統計イメージが第１データベースに対して形成される。後に、第１統計イメージはサーバコンピュータに記憶され、通信ネットワークを介してこのサーバコンピュータからクライアントコンピュータに送信される。受信された第１統計イメージは、クライアントコンピュータによって処理される。

Description

本発明は、第１データベースのデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法に関する

現在では、コンピュータの支援なしで実施されるプロセスを見つけることは、ほぼ不可能である。コンピュータをあるプロセスの範囲内で使用する場合、しばしばそのプロセスはコンピュータにより管理される。或いは、プロセス特有のデータが少なくともコンピュータにより記録される。これは、例えば、そのプロセスの個々のステップ及びその結果、又は中間結果に関するデータである。

例えばコールセンタには、通常、いつ電話を受けたか、電話の内容は何か、受けた電話がコールセンタの社員によりいつ処理されたか、コールセンタの他のどの社員に電話が回されたか等に関する詳細な記録がある。

また個々のプロセスに関するデータが記録される多数のログファイルは、通常、プロセスオートメーションオペレーションで形成されている。

３番目の応用分野は、電気通信業界である。例えば、移動無線ネットワークのスイッチでは、そのスイッチにおいて生じるデータ通信量に関するログデータが決定され記憶される。

最後に、データ通信量に関するログデータ、例えば、ウェブサーバコンピュータにより利用できる情報へのアクセス頻度に関するデータも、また、しばしばウェブサーバコンピュータにおいて形成される。

あるプロセスの過程で問題が起きると、そのプロセスを実施しているシステムのオペレータは、通常、生じた問題の原因を突き止めようとする。これがうまくいかない場合は、システムの製造者に引き渡す。製造者エンドでは、）ログ取りされたプロセスデータ、一般にはシステムの記録されたログデータ、にアクセスする際における問題の原因を突き止める必要がある。現在、ログデータを含むログファイルは、かなりのサイズであり、しばしば数十ギガバイト程度にも及ぶ。このため、このようなログファイルは、例えば、FTP（ファイル転送プロトコル）を用いてシステムの製造者に送信されるだけだが、満足いくものではない。たとえ、実質的に迅速な通信接続が可能であっても、システムの製造者が比較的多くの顧客に対する複数のログファイルを記憶し処理することは困難であり、費用がかかる。

その他の分野においては、分析のために多数のデータを送信する必要もある。例えば、データベースのデータを用いて一般の人々がリサーチできるようにするために、膨大なデータベースが一般の人々によってアクセス可能な場合である。このデータベースのデータは、（公的な）リサーチプロジェクトからのデータ（例えば、たんぱく質データベースにおける遺伝子データベースのデータ）、気象データ、人口統計データ、又はグリッドサーチ用に利用可能とされたデータ（この場合、限られた認定ユーザのグループのみが利用可能）であってよい。特に、バイオテクノロジー分野は現在かなりの注目をあびている。この分野には多数のデータベースがある。

加えて、データ保護の理由から、データベースのデータの全ての特定情報が伝播されないことが望ましい。

データベースの情報を、通信ネットワークを介してサーバコンピュータからクライアントコンピュータで利用可能にする一つの公知の方法は、複数のサーバに直接インストールされるべき複数のデータベースに含まれるデータを分析するための診断又は統計ツールである。例えば、サーバコンピュータにインストールされたワークサーバや、クライアントコンピュータにインストールされたウェブブラウザプログラムを使って、そのツールを用いることができる。この目的には、OLAP（on-line analytical processing：オンライン分析処理）ツールと称されるものを用いることができる。しかし、その使用には非常にコストがかかる。いくつかのOLAPツールの中には、処理されるべきデータ量がすでに非常に大きくなりすぎて、OLAPツールが機能しない場合もある。

加えて、情報に直接興味を有しているのは、当然ながら、クライアントコンピュータのユーザであるので、システムのオペレータが複数のサーバ内のツールを操作することは非常に不便であり、値段がかかる。システムのオペレータは、しばしば、サーバコンピュータ及びOLAPツールを利用可能にし、維持するための追加費用に備えていない。

更に、多数のクライアントコンピュータがあって、サーバへの照会が多い場合は、全照会に対応しようとすると、処理能力の面で非常に費用がかかり、その理由により、しばしば、サーバコンピュータのハードウェアは、受け入れがたいほどに高価である。

クリストファー・エム・ビショップ（Christopher M. Bishop）著、エム・アイ・ジョーダン編集（M.I. Jordan）、潜在変数モデル（Latent Variable Models）、グラフィカルモデル学習（Learning in Graphical Models）、クルワー（Kulwer）、１９９８年、３７１−４０５頁エム・エイ・タンナー（M.A. Tanner）著、統計的推測のためのツール（Tools for Statistical Inference）,シュプリンガー（Springer）、ニューヨーク（New York）、第3版、 1996年、64-135頁ランドフォード・エム・ニール（Radford M. Neal）及びジェフェリー・イー・ヒントン（Geoffrey E. Hinton）著、エム・アイ・ジョーダン（M.I. Jordan）編集、増加する希薄なその他の変量を評価するＥＭアルゴリズムの考察（A View of the EM Algorithm that Justifies Incremental, Sparse and Other variants）、グラフィカルモデル学習（Learning in Graphical Models）、クルワー（Kulwer）、 1998年、355-371頁ディー・ヘッカーマン（D. Heckermann）、データマイニング用ベイジアンネットワーク（Bayesian Networds for Data Mining）、データマイニング・アンド・ナレッジディスカバリー（Data Mining and Knowledge Discovery）、１９９７年、79-119頁ライナー・ホフマン（Reimar Hofmann）、グラフィックモデルを用いた非線形従属性の構造の学習（Lernen der Struktur nichtlinearer Abhangigkeiten mit graphischen Modellen [Learning of the structure of nonlinear dependencies with graphic models]）、ミュンヘン工科大学における論文（Dissertation an der Technischen Universitat Munchen [Dissertation at the Technical Uniersity of Munich]）、 dissertation. De出版、 ISBN: 3-89825-131-4

本発明は、データベースに含まれるデータの機密性を維持しつつ、通信ネットワークを介してデータベースのコンテンツに効率的にアクセスする課題に基づいている。

上記課題は、第１データベースのデータベース情報を提供する方法及びコンピュータ構造、並びに特許請求の範囲における独立項に係る特徴を有するデータベースにおける統計モデルのコンピュータ援用形成のための方法により達成される。

本発明により解決される一般的な筋書きは、次のようである。即ち、データベースに記憶された大量のデータが、第１位置Aで利用可能とされる。第２位置Bで、この利用可能なデータを使いたいと望んでいる。位置Bにおけるユーザは個々のデータ記録にはあまり興味がないが、その代わり、主にそのデータベースのデータを特徴づける統計に興味を向けている。

第１データベースにおけるデータベース情報のコンピュータ援用提供方法では、共通確率モデル形態の第１統計イメージが、第１データベースの形態をなしている。このイメージ又はモデルは、複数のデータ要素間の統計関係を示している。第１統計モデルは、サーバコンピュータに記憶される。加えて、第１統計モデルは、通信ネットワークを介してサーバコンピュータからクライアントコンピュータに送信され、受信された第１統計モデルは、更にクライアントコンピュータにより処理される。

第１データベースにおけるデータベース情報のコンピュータ援用提供用コンピュータ構造は、通信ネットワークにより互いに接続されたサーバコンピュータとクライアントコンピュータとを備える。第１データベースに対して形成された第１統計イメージは、サーバコンピュータに記憶される。第１統計イメージは、第１データベースに含まれる複数のデータ要素間の統計関係を示している。クライアントコンピュータは、通信ネットワークを介してサーバコンピュータから当該クライアントコンピュータに送信された第１統計マップに対して更なる処理を実施する（例えば、分析する）ために用いることが可能なように構成される。。

複数のデータ要素を有するデータベースにおいて、データベース情報のコンピュータ援用提供方法は、EM（Expectation Maximization：期待値最大化）学習法（ラーニングメソッド）と称されるものを、複数のデータ要素上で実施することができる。或いは、その他の学習法を実施することもできる。共通確率モデル（データベース内の全ての領域を含む）の構成は、ベイジアンネットワーク（同義的には、因果ネットワーク又は一般的なグラフィック確率ネットワーク）の一般形式の範囲内で定義されてよい。この形態では、その構造は有向グラフにより定義される。有向グラフは、複数のノード及び該ノードと相互に関連する複数の端点を有しており、複数の端点は、データベースに存在する値に対応するモデル又はイメージの定義可能な次元(dimension)を示している。ここで複数のノードのいくつかは、観測不可能な変数（例えば非特許文献１に記載のように、潜在変数と称する）に対応することも可能である。一般的なEM学習法の範囲内では、存在しない又は観測不可能な変数が、期待値又は期待分布で置き換えられる。本発明に係る改良されたEM学習法の範囲内では、親ノードがデータベースから観測可能な値となる欠落変数として、期待値のみが決定される。

統計モデルは、統計イメージとして用いられることが望ましい。

この形態では、統計モデルは、これら全ての統計関係、又は、例えば、ベイジアン（又は因果）ネットワーク、マルコフネットワーク等の、データベースにおけるデータの共通度数分布（正確な又は近似されたもの）、又は一般的には、グラフィック確率モデル、「潜在変数モデル」、統計クラスタリングモデル、又は訓練を受けた人工ニューラルネットワークを表す任意のモデルとして理解されるべきである。よって、この統計モデルは、データベースの統計における、完全で正確な又は近似されたイメージとして実体化されてよい。

クライアントコンピュータによる統計モデルの更なる処理とは、データベース自体のデータ要素に基づいて、又は従来技術のようにOLAPツールに基づいて、分析が行われないことを意味する。その代わり、所望の（条件付き）可能性分布の全てが、共通確率モデル、統計モデルから決定される。

本発明に係る手順は、特に、次の利点を有する。

データベース自体と比較すると、統計モデルは、データベースにおける統計の圧縮されたマップ（データベースにおける個々のエントリのそれではない）であるので、非常に小さい。これは、JPEG規格に従って圧縮されたデジタル画像であって、該デジタル画像における圧縮されるが近似されたイメージを表すデジタル画像と同様である。

統計モデル自体は、かなり低費用のハードウェアを用いて、非常に迅速に評価されうる。

統計モデルの作成に用いる方法によっては、データベースの多大な圧縮を達成することができる。その達成可能な圧縮で縮尺できる学習法を用いると、１０００の因数までの圧縮を実施できる。この間、統計モデルに含まれる情報は、品質的に十分である。よって、圧縮された統計モデルを、サーバコンピュータからクライアントコンピュータへ、例えば電子メール（ｅメール）、FTP（ファイル転送プロトコル）又はデータを転送するためのその他の通信プロトコルにより、送信することができる。従って、送信された統計モデルを、その後のクライアントエンドにおける統計分析に用いることができる。

統計モデルを送信するために、サーバコンピュータ及びクライアントコンピュータは、任意の通信ネットワーク、例えば、固定ネットワーク又は移動無線ネットワークを介して相互に接続可能である。

本発明は、送信データにより示されるデータベースの点から、送信されるデータの情報内容を最大に維持しながら、膨大なデータベース用の全データを送信せず、むしろできるだけ少量のデータのみを送信することが望まれる任意の領域で使用されることが適切である。

本発明の一つの利点は、特に、データベースにおける個々の入力の機密性をかなりの程度で確保できることに見られる。データベースの全てのデータ入力自体が送信されるのではなく、むしろ、データベースにおけるデータ要素の統計表現のみが、クライアントエンドで利用可能となるからである。統計表現により、クライアントエンドにおいて、クライアントエンドにおいて利用可能な秘密にされる可能性がある特定データを用いずに、データベースの統計分析が可能となる。

加えて、例えば技術的システムのオペレータは、このオペレータにより管理されるデータベースの統計内容を、複雑ではない方法で、また一般にはデータ保護ガイドラインを侵さずに、例えば、サーバコンピュータにインストールしたウェブサーバにより、クライアントコンピュータのユーザに利用可能とすることができる。この場合、統計モデルを、クライアントコンピュータにインストールしたウェブブラウザプログラムにより呼び出すことができる。

本発明は、ソフトウェア、即ち、コンピュータプログラムにより、ハードウェア、即ち特定の電子回路を用いて実施してよい。或いは、任意の所望のハイブリッド形態、即ち、部分的にソフトウェアを用い、部分的にハードウェアを用いて、実施してよい。

本発明を、従属項から好適に発展させる。

次の本発明の実施例は、コンピュータ援用提供方法及びコンピュータ構造に関するものである。

本発明の一の実施形態によれば、第１統計モデルと、クライアントコンピュータに記憶される第２データベースの複数のデータ要素とを用いて全体統計モデル又は全体統計イメージを形成し、該モデル又はイメージは、第１統計モデルに含まれる少なくともいくらかの統計情報と、第２データベースに含まれる少なくともいくらかの統計情報とを有している。

本発明の他の実施形態によれば、第２データベースに対して、第２データベースに含まれる複数のデータ要素間の統計関係を示す第２統計イメージ又は第２統計モデルが形成される。第２統計モデルは、通信ネットワークを介してクライアントコンピュータに送信され、第１統計モデルと第２統計モデルをクライアントコンピュータにより用いて、第１統計モデルに含まれる少なくともいくらかの統計情報と、前２統計モデルに含まれる少なくともいくらかの統計情報とを有している全体統計モデルを形成する。

本発明のこれらの実施形態は、本発明に係る次の一般的な筋書き、例えば、ある企業におけるほぼ全てのプロセス、特に各顧客への接触及び製品の各発注及び配達までもが、コンピュータの支援により実施されることを可能にする。この形態において、当該企業のプロセス又は顧客の任意の行動は、例えば、ＣＲＭ（Customer Relationship Management）システム）と称されるものの範囲内で、又は、ＳＣＭ（Supply Chain Management）システムの範囲内で、詳細にログファイルに記録される。ログデータは、多数の企業にとってかなりのリソースとなる。これに対して、企業においては、データ、例えば、顧客に関するデータを「顧客に関する知識（ナレッジ：knowledge）」に変換するという傾向があるようである。しかしながら、企業で利用可能な、例えば顧客に関する情報だけでなく、技術的システム等の動作に関する情報も、非常に一方的であることが明らかになってきた。全顧客又は個々の顧客の優位な属性や、例えば目標とするグループで狙ったマーケティングを実際に可能とする、一般的には高品質のデータの評価である技術システムは存在しない。顧客情報分野における一つの例は、顧客の年齢、その家族の社会的地位、又は子供の数である。しかしながら、顧客データベースか又は技術プロセスに関する情報を備えたその他のデータベースであるかを問わず、複数のデータベースからの情報を組み合わせる際には、より正確でより完全な「像」（マーケティングの場合は、「顧客像」）が得られることが明らかになってきた。従って、データベースを共通に使用すると又は複数企業における知識を共通に使用すると、その後の評価を大幅に改良することができるであろう。しかしながら、企業の境界を超えたデータ交換は、次の理由から、上記の問題に対して満足のいく解答を与えていない。

通常、企業は、自分達の顧客又は技術プロセスに関する詳細を、他の企業に渡す用意をしていない。一企業のクライアント、つまりは複数の顧客に関する詳細なデータが、しばしば絶対不可欠な企業リソースを構築する。

データベースのデータの交換とは、技術的な点から言うと、大量のデータが送信され、記憶されることを意味する。

データ保護法により、データベースのデータ交換、特に個人に関するデータについては、厳しい制限が課されている。

データが二企業間で交換されたとしても、追加措置がない限り、先ず、両企業において知られる顧客に対してのみ、改良された像が作成される。一企業にのみ知られる顧客に対しては、データは不完全なままであり、従って、その顧客の像も不完全なままとなる。

以上をまとめると、本発明に係る次の態様が得られることは明らかである。

顧客又はプロセス或いはシステムに関する知識、一般的には、データベースに含まれる情報が、次のように提供される。

高度に圧縮して、技術的に簡単な方法により、コンピュータ間で交換可能となるようにする。

有意な関係を表示するが、複数の企業が、予約をほとんど必要とせず、且つデータ保護ガイドラインを侵さずに、このような情報を交換するように、詳細情報を、定義可能な程度にのみ再度発見できるようにする。

このように提供されて異なるソース（異なるデータベース）から生じる情報を組み合わせて、関係する全ての企業が使用できる全体イメージを形成できる。

従って、上記の実施形態は、データ保護を維持しつつ、且つ統計情報の送信に必要な帯域を減じつつ、クライアントエンドにおいて統計モデルを組み合わせて、全体像、即ち、全体モデルを形成できるユーザが、統計情報を利用できるようにすることができる。

本発明の他の実施形態によれば、統計モデルは、異なる複数のサーバコンピュータに記憶され、夫々、通信ネットワークを介して前記サーバコンピュータから前記クライアントコンピュータに送信される。

この形態では、統計モデルを、単一の又は複数のサーバコンピュータにより形成でき、或いは、このその目的のために特別に構成されたと考えられるその他のコンピュータにより形成できることに留意すべきである。この場合、形成された統計モデルも、例えばローカルネットワークを介して、単一又は複数のサーバコンピュータに送信される。

その結果、統計モデルを世界中で異種のネットワークにおいて、例えばインターネット上で、使用可能とすることができる。

統計モデルの少なくとも一方は、夫々のデータベースに含まれるデータ要素に対する統計モデルの圧縮度を設定可能なスケーラブルメソッドにより形成できる。

また、統計モデルの少なくとも一方は、EM学習法又はその変量（例えば非特許文献２に記載されるもの等）、或いはグラジエントベース学習法により形成できる。例えば、APN（Adaptive Probabilistic Network：適応確率ネットワーク）学習法と称されるものをグラジエントベース学習法として用いることができる。一般に、例えば、非特許文献３に記載されるもの等の、可能性ベース学習法又はベイジアン学習法の全てを用いることができる。ここで、一般的確率モデルの構造は、グラフィック確率モデル（ベイジアンネットワーク、マルコフネットワーク又はそれらの組み合わせ）の形態で特定してもよい。潜在変数モデル又は統計クラスタリングモデルと称されるものは、この一般形式における具体例に相当する。更に、パラメータだけでなく、グラフィック確率モデルの構造を利用可能なデータ要素に関する学習法をも用いることができる。例えば、非特許文献４及び５における所望の構造学習法をいずれも用いることができる。

第１データベース及びは第２データベースの少なくとも一方は、少なくとも一つの技術システムを示す複数のデータ要素を有することができる。当該少なくとも一つの技術システムを示す複数のデータ要素は、技術システム上で少なくとも部分的に測定され且つ技術システムの動作態様を表す値を示してもよい。

本発明に係るコンピュータ構造の一の構成によれば、複数のデータ要素を有する第２データベースが、クライアントコンピュータに記憶される。クライアントコンピュータは、第１統計モデルと、第２データベースの複数のデータ要素とを用いて、全体統計モデルを形成するユニットを有しており、該全体統計モデルは、第１統計モデルに含まれる少なくともいくらかの統計情報と、第２データベースに含まれる少なくともいくらかの統計情報とを有している。

本発明に係るコンピュータ構造の他の構成によれば、第２データベースに対して形成された第２統計モデルを記憶する第２サーバコンピュータを有しており、該第２統計モデルは、第２データベースに含まれる複数のデータ要素間の統計関係を表す。クライアントコンピュータもまた、通信ネットワークにより第２サーバコンピュータに接続されている。前記クライアントコンピュータは、第１統計モデルと第２統計モデルとを用いて、全体統計モデルを形成するユニットを有しており、該全体統計モデルは、前記第１統計モデルに含まれる少なくともいくらかの統計情報と、前記第２統計モデルに含まれる少なくともいくらかの統計情報とを有している。

以下、本発明の実施例を図面で例示し、詳細に説明する。

図１は、本発明の第１実施例に係るコンピュータ構造１００を示している。

コンピュータ構造１００はコールセンタで用いられる。コンピュータ構造１００は、コールセンタコンピュータ１０３、１０４、１０５に電話回線１０２で接続されている複数の電話端末機１０１を備えている。コールセンタ内では、電話をコールセンタの社員が受け、着信電話の処理、特に、電話の着信時間、通話時間、電話を受けた社員に関する情報、電話の理由や電話の処理の種類に関する情報、又はその他所望される情報を、コールセンタコンピュータ１０３、１０４、１０５により記録する。

コールセンタコンピュータ１０３、１０４、１０５は、夫々、各電話を受信するための公衆電話ネットワークにつながる第１入力／出力インターフェース１０６、１０７、１０８、プロセッサ１０９、１１０、１１１、メモリ１１２、１１３、１１４、及びコールセンタのローカルネットワーク１２１を備える第２入力／出力インターフェース１１５、１１６、１１７を備える。

各コールセンタコンピュータ１０３、１０４、１０５内の上記構成要素は、コンピュータバス１１８、１１９、１２０で相互に接続される。

コールセンタコンピュータ１０３、１０４、１０５は、ローカルネットワーク１２１によりサーバコンピュータ１２２に接続される。サーバコンピュータ１２２は、ローカルネットワーク１２１につながる第１入力／出力インターフェース１２３、メモリ１２４、プロセッサ１２７、及びインターネットを通じて通信するように構成された第２入力／出力インターフェース１２８を有しており、これらの構成要素は、コンピュータバス１２９で相互に接続されている。本実施例によれば、サーバコンピュータ１２２は、以下に詳細に説明するように、ウェブサーバコンピュータとして機能する。

コールセンタコンピュータ１０３、１０４、１０５により記録されたデータは、ローカルネットワーク１２１を介してサーバコンピュータ１２２に送信され、データベース１２６に記憶される。

更に、データベース１２６中に格納されるデータ要素間の統計関係を示す統計モデル１２５もまた、メモリ１２４に記憶される。

統計モデル１２５は、それ自体が公知のEM学習法を用いて形成される。その他、好適に使用される統計モデル１２５の形成方法についても、以下に詳細に説明する。

本発明の本実施例によれば、統計モデル１２５は、一定時間ごとに自動的に再形成される。いずれの場合にも、データベース１２６の最新データに基づいて行われる。

統計モデル１２５は、一以上のクライアントコンピュータ１３２に送信するために、サーバコンピュータ１２２により自動的に利用可能とされる。クライアントコンピュータ１３２は、第２通信リンク１３１を介して、サーバコンピュータ１２２の第２入力／出力インターフェース１２８に接続されている。第２通信リンク１３１は、例えば、TCP/IP通信プロトコルに従って通信を可能とする通信リンクである。

クライアントコンピュータ１３２は、TCP/IP通信プロトコルに従って通信するように構成された入力／出力インターフェース１３３とともに、プロセッサ１３４及びメモリ１３５を備える。

電子メッセージ１３０で、サーバコンピュータ１２２からクライアントコンピュータ１３２へ送信される統計モデル１２５は、クライアントコンピュータ１３２のメモリ１３５に記憶される。その後、クライアントコンピュータ１３２のユーザは、任意の所望されたユーザ特有の統計分析を、統計モデル１２５上、つまり間接的にデータベース１２６のデータ上で、膨大なデータベース１２６をクライアントコンピュータ１３２に送信する必要なしに行う。

クライアントエンド統計分析の目的は、コールセンタを最適化することであってよい。本実施例によれば、特に、次の質問への回答に関する分析が行われる。

「電話の発信者は、コールセンタにおける順番を、通常、どのくらいあきらめずに待てるか？」
「コールセンタにおいて受ける電話には、地域的又は日常的な関係があるか？」
「何時に、またその他のどのような特徴に基づき、どのような質問がなされ、その結果コールセンタにおいて何人のオペレータを使うことができるのか？」
「どのようなルーチン戦略がどのような結果を招くのか？」
結果として、上記の質問に回答するために、クライアントコンピュータ１３２のユーザにより分析が行われる。その後、分析結果が、コールセンタで作業を最適にするための適切な対策をコールセンタのオペレータに提供することとなる。

図２は、本発明の第２実施例に係るコンピュータ構造２００を示している。

コンピュータ構造２００は、バイオテクノロジー分野で用いられる。

コンピュータ構造２００は、メモリ２０２、プロセッサ２０３及びTCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース２０４を備えたサーバコンピュータ２０１を有している。これらの構成要素は、コンピュータバス２０５で相互に接続されている。

遺伝子配列又はアミノ酸配列を備えたデータベース２０６は、割り当てられた追加情報の配列とともに、メモリ２０２内に記憶される。

研究者、本実施形態によれば、しばしば、（新しい）配列の性質を研究しているクライアントコンピュータ２０９、２１０、２１１のうちの一のクライアントコンピュータのユーザにとっては、同一又は類似の性質を有する配列を見つけることはかなり興味深いことである。単一又は複数のサーバコンピュータ２０１により公的に利用可能なデータベースを通じて検索するために、研究者は、通信ネットワーク２０８を介してサーバコンピュータ２０１に接続されているクライアントコンピュータ２０９、２１０、２１１を用いて、対応する検索の質問を単一又は複数のサーバコンピュータ２０２に提示する。統計モデル２０７が、第１実施例と同様に、サーバコンピュータ２０１で形成され、記憶される。

各クライアントコンピュータ２０９、２１０、２１１は、TCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース２１２、２１３、２１４、プロセッサ２１５、２１６、２１７、及びメモリ２１８、２１９、２２０を備える。

クライアントコンピュータ２０９、２１０、２１１が質問を示した後、サーバコンピュータ２０１は、統計モデル２０６を、電子メッセージ２２１、２２２、２２３で、クライアントコンピュータ２０９、２１０、２１１に送信する。

統計モデル２０６を受信した後、クライアントコンピュータ２０９、２１０、２１１のユーザは、そのユーザにより研究されている配列を、統計モデル２０６と比較する。統計分析の結果とは、データベース２０６内に十分類似する配列がいくつあるか、またどの性質がこれらの配列を区別するかに関する情報である。

図３は、本発明の第３実施例に係るコンピュータ構造３００を示している。

コンピュータ構造３００は、第１コンピュータ３０１及び第２コンピュータ３０９を備える。

第１コンピュータ３０１は、メモリ３０２、プロセッサ３０３、及びTCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース３０４を備えており、これらの構成要素は、コンピュータバス３０５で相互に接続されている。

第１コンピュータ３０１は、自動車販売業者のコンピュータであり、メモリ３０２に記憶されている顧客データベース中に、顧客の姓名、住所、使用されている車種に関する情報を含んでいるが、年齢、社会的地位又は給料に関する情報は含んでいない。

第２コンピュータ３０９は、TCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース３１０、メモリ３１１、及びプロセッサ３１２を備えており、これらの構成要素は、コンピュータバス３１３で相互に接続されている。

第２コンピュータ３０９は、自動車販売業者と一緒に仕事をする銀行のコンピュータである。第２顧客データベース３１４が、第２コンピュータ３０９のメモリ３１１に記憶されている。第２顧客データベース３１４は、顧客の姓名、住所、社会的地位、及び給料という点から、銀行の顧客に関する情報を含んでいるが、各顧客により使用されている自動車の車種に関する情報は含んでいない。従って、銀行で記録されているデータから、どれくらいの給料をもらっているどのような家族が、通常、どのような自動車を使っているのかを決定することはできない。

この情報を得るためには、この二つの顧客データベースを組み合わせることが必要であるが、これは、データ保護法により許可されておらず、また、通常、これは両者から望まれていない。

本発明によれば、両データベースでは、例えば、車種や月収の関係を形成するために、いずれの場合においても近似的に知識が存在しているという事実により使用が促される。

この理由から、第１コンピュータにおいては、統計モデル３０６が、EM学習法を用いてデータベースにより形成される。データベースと比較して圧縮されている統計モデル３０６は、電子メッセージ３０７で、インターネット３０８を介して第１コンピュータ３０１と双方向に接続されている第２コンピュータ３０９に送信される。

統計モデル３０６を受信した後に、統計モデル３０６を第２コンピュータ３０９により第２顧客データベース３１４と組み合わせ、総合統計モデル３１５を形成する。

統計モデル３０６と第２顧客データベース３１４とを組み合わせ、総合統計モデル３１５を形成することを説明するために、二つの団体A及びBが統計モデルを交換したいと望んでいるとする。団体Aは、大量のランダム属性のシンボルである属性W、X、Yを有している。団体Bは、属性X、Y、Zを有している。団体B（本実施例では、自動車販売業者）が、団体A（本実施例では、銀行）に対して、団体Bのデータにおける統計モデルを提供する。当該統計モデルを以下ではP_B(X,Y,Z）と称する。

団体Aの目的は、団体Aのデータベースのデータとともに、団体Bのデータから総合統計モデルP(W,X,Y,Z）を生成することである。

本実施例によれば、この目的のために、次の二つの方法が提供される。

団体Aは、その顧客の性質Zを、顧客に関して知られた情報X及び情報Yから評価するために、条件付きモデルP_B(Z|X,Y）を統計モデルP_B(X,Y,Z）から導き出す。各顧客は、変数Z（データベースの追加カラムにおける入力としての変数）の値として、可能性分布P_B(Z|X,Y）に基づく最確値が割り当てられる。このように追加された各顧客に関する情報W,X,Y,Zとともに、団体Aは、慣例的統計分析方法を、４つの属性全てに対して適用することができる。或いは共通統計モデル、即ち、仮想的共通データベースイメージを明確に表す総合モデルP(W,X,Y,Z）を生成することができる。
●その他の手順においては、属性Zのための最確値を追加する代わりに、欠落変数Zの代わりにその値全体に全体分布を追加して、それを、総合統計モデルを生成する際に用いることも、さらに適切であろう。EM学習法は、この形態においては、モデルの見込みとして称されるものという点から、部分的に欠落した情報を統計的に満足のいくように取り扱うために用いられる。反復EM学習法における各学習ステップにおいては、欠落変数の代わりをする、欠落変数に関する評価（期待された十分統計量）は、現在のパラメータに基づいて生成される。条件付きモデルP_B(Z|X,Y）もまた、EM学習法で用いることができる。このEM学習法は、変数Zに対して期待値又は期待された十分統計量を決定するためのものであり、よって、分布データの共通モデルを生成するために、この学習法を満足のいくように拡張するものである。

従って、銀行は利用可能な全体統計情報を有し、そのデータにより対応する分析を実行できる。

この形態において、前述した筋書きを逆にも実行できることに留意すべきである。即ち、銀行が第２顧客データベースにより統計モデルを作成し、それを、総合統計モデルを形成している自動車販売業者に送信できる。自動車販売業者にとっては、例えば、顧客の年齢、その家族の社会的地位、給料を知ることが望ましく、或いは、いずれにせよ、年齢、その家族の社会的地位、給料を評価することが望ましい。その後、この情報に基づいて、適当な製品が、より目標を絞って、顧客に提示されてよい。例えば、平均的な給料の若い家族には、高給取りの独身者とは異なる自動車を提示することが確かに妥当である。

図４は、本発明の第４実施例に係るコンピュータ構造４００を示している。

本実施形態によれば、複数のコンピュータ４０１、４１３、４２０を備えており、これらのコンピュータは、夫々、第３実施例に基づく顧客データベースを有している。

第１コンピュータ４０１は、メモリ４０２、プロセッサ４０３、及びTCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース４０４を有しており、これらの構成要素は、コンピュータバス４０５で相互に接続されている。

第１コンピュータ４０１は、自動車販売業者のコンピュータであり、メモリ４０２に記憶されている顧客データベース中に、顧客の姓名、住所、使用されている車種に関する情報を含んでいるが、年齢、社会的地位又は給料に関する情報は含んでいない。

顧客データベースにより、第１コンピュータ４０１は、第１統計モデル４０６を形成し、それをメモリ４０２に記憶する。

第２コンピュータ４１３は、メモリ４１４、プロセッサ４１５、及びTCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース４１６を有しており、これらの構成要素は、コンピュータバス４１７で相互に接続されている。

第２コンピュータ４１３は、銀行のコンピュータであり、メモリ４１４に記憶されている顧客データベース中に、第３実施例に記載の情報を含んでいる。第２統計モデル４１８は、第２コンピュータ４１３により第２顧客データベースから形成され、メモリ４１４に記憶される。

第ｎコンピュータ４２０も顧客データベースを備えている。第ｎコンピュータ４２０は、メモリ４２１、プロセッサ４２２、及びTCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース４２３を有しており、これらの構成要素は、コンピュータバス４２４で相互に接続されている。統計モデル４２５も、第ｎコンピュータ４２０においてEM学習法により顧客データベースを用いて形成され、第ｎコンピュータ４２０のメモリ４２１に記憶される。

コンピュータ４０１、４１３、４２０は、夫々の通信接続４０８により、クライアントコンピュータ４０９に接続されている。

クライアントコンピュータ４０９は、メモリ４１１、プロセッサ４１２、及びTCP/IPプロトコルに従って通信するように構成された入力／出力インターフェース４１０を有しており、これらの構成要素は、コンピュータバス４２６で相互に接続されている。

コンピュータ４０１、４１３、４２０は、統計モデル４０６、４１８、５２５を、夫々の電子メッセージ４０７、４１９、４２７でクライアントコンピュータ４０９に送信し、クライアントコンピュータ４０９はそれらをメモリ４１０に記憶する。

以下、より簡易に示すために、本実施例を、第１統計モデル３０６及び第２統計モデル４１８についてのみ、より詳細に説明するが、本発明によれば、例えば、以下に示される方法工程を繰り返して実施することにより、任意の所望される数の統計モデルを組み合わせて、総合モデルを形成してよいことに留意すべきである。

第３実施例と対照的に、第３実施例に係る目的は、複数の統計モデルを相互に組み合わせて、総合モデルを形成することである。

従って、第３実施例で用いられた命名法から類推して、統計モデルP_A(W,X,Y,）も団体Aにより作成される。そして、モデルP_A(W,X,Y,）及びP_B(X,Y,Z）を組み合わせて、総合統計モデルP(W,X,Y,Z）を形成する。

総合モデルP(W,X,Y,Z）は、二つのモデルP_A(W,X,Y,）及びP_B(X,Y,Z）に基づいて、次のように定義できる。

P(W,X,Y,Z）= P_A(W,X,Y,）P_B(Z|X,Y）又は
P(W,X,Y,Z）= P_B(X,Y,Z）P_A (W|X,Y）
また本発明は、二つの手順の組み合わせも提供する。団体Aに対して、上記の第１の選択肢を選択することが最も適当である。その結果、団体Aは、属性W及びZの依存性（本実施例では、車種及び給料の依存性）を近似された手法で分析可能とする総合統計モデル４２６を有することになる。総合モデル４２６に基づいて、例えば、フォームP(X|Y）の条件付き可能性分布、例えば、ある月収に対する車種の分布又は関連性が決定される。この目的のために、変数X及びYに対する周辺化処理がなされる。

説明のために、総合モデル４２６からの結果が、一種の２ステッププロセスで得られると仮定する。先ず、モデルP_A(W,X,Y,）に基づき、共通変数X及びYを変数Wから推測する。変数X及びYに対して後に見込まれるあらゆる組み合わせに対応して、条件付き可能性分布P_B(Z|X,Y）（変数X及びYからの変数Zの予測）を用いて変数Zに対する分布を決定する。

４つの属性全てを一のデータベースで見つけることができる場合とは対照的に、本発明によれば、間接的に結果が得られることとなり、噂話と同様に、そのプロセスで情報を失ってしまう恐れがある。

最悪の場合、具体的には、二つの統計イメージの間に重複部分が存在しない場合、その二つのモデルを組み合わせることもできない。しかしながら、例えば、共通変数がその二つのモデルにある場合には、二つの出力データベース中に共通の顧客が存在しており、例えば共通顧客キーがなくても、総合モデルを形成するができる。

総合モデル４２６P(W,X,Y,Z）は、これらの統計モデルの重複部分があまり大きくない場合、好ましくは共通変数が１０より少ない場合には、数的に簡単な方法で維持してもよい。膨大な重複部分がある場合には、更なる近似処理を用いて、共通変数X及びYの共通状態の全てに対して本実施例に基づいて形成されなければならない次の総計処理の実行を迅速化してもよい。

又は

特に、これらの総計処理は、追加人為変数H及び追加条件付き分布（離散変数の場合は複数のテーブル）P(H|X,Y)及びP(Z|H)を次の形態で導入する方法に基づいて、好適に近似されてよい。

又は

特に対数尤度又はカルバック・ライブラー距離を、コスト関数としてここで用いてもよい。従って、繰り返すが、EM学習法又はグラジエントベース学習法は、最適化方法として適当である。

最適パラメータを見つけることは、処理能力（或いは、計算能力）という点からは非常に複雑になりうる。二つの確率モデルを「融合」して一つの総合モデルを形成するとすぐに、その総合モデルを非常に効率的に用いることができる。

特に、変数Hを隠し変数として導入することが適当である。即ち、分布P(W,X,Y,H)を、事前分布（即ち、priori distribution）P(H)と称されるものとともに、
P(W,X,Y,Z)＝P(H)・P(W,X,Y|H)
としてパラメータ化することが適当である。

モデルP(W,X,Y)が、既に次式の潜在変数モデル

として本来パラメータ化されている場合には、既に存在する潜在変数Hを直接用いてもよい。

隠し変数Hの代わりに、複数の変数を導入することもできる。同時に、数値を簡単にするために、隠し変数KをモデルPBに対して導入してもよい。従って、総合モデルP(W,X,Y,Z)の近似は、例えば次の形態を仮定する。

このモデルにおいては、公知の干渉法（例えば、ジャンクションツリーメソッドと称される方法）により、X及びYからなる重複部分について、容易に総計処理を行うことができる。二つのモデルを融合するために必要なことは、公知の学習法により、条件付き分布P(K|H)を決定することである。

サイズが小さく、相互に入出力可能ではあるが、非常に正確な「データベースのイメージ」を生成するという目的を達成するためには特に、高度に圧縮されたイメージを生成する、非常にスケーラブル（拡張可能）な学習法が用いられることが望ましい。同時に、そのイメージは、特に、欠落情報を非常に効率的に取り扱うという目的のために、効率的に融合、即ち、組み合わせられるべきである。公知の学習法は、データ中において複数のフィールドの多くが欠落している場合は特に遅くなる。

図５は、本発明の第５実施例に係るコンピュータ構造５００を示している。

コンピュータ構造５００は、顧客情報の交換という範囲内で使用されており、本実施例によれば、顧客の住所情報の交換の範囲内でしようされている。コンピュータ構造５００は、サーバコンピュータ５０１と、通信ネットワーク５０２を介してサーバコンピュータ５０１と接続する一以上のクライアントコンピュータ５０３を備える。

サーバコンピュータ５０１は、メモリ５０４、プロセッサ５０５、及びインターネットを通じて通信するように構成された入力／出力インターフェース５０６を有しており、これらの構成要素はコンピュータバス５０７を介して相互に接続されている。本実施例によれば、サーバコンピュータ５０１は、以下に詳細に説明するように、ウェブサーバコンピュータとして機能する。

膨大な顧客データベース５０８（特に、顧客の住所情報及び顧客の購買行動を表す情報を備える）が、メモリ５０４に記憶される。加えて、サーバコンピュータ５０１により顧客データベース５０８から形成され、且つ顧客データベース５０８に含まれる複数のデータ要素間の統計関係を表す統計モデル５０９も、メモリ５０４に記憶される。

統計モデル５０９は、それ自体が公知のEM学習法を用いて形成される。その他、好適に使用される統計モデル５０９の形成方法についても、以下に詳細に説明する。

本発明の本実施例によれば、統計モデル５０９は、一定時間ごとに自動的に再形成される。いずれの場合にも、顧客データベース５０８の最新データに基づいて行われる。

統計モデル５０９は、一以上のクライアントコンピュータ５０３に送信するために、サーバコンピュータ５０１により自動的に利用可能とされる。

クライアントコンピュータ５０３も、TCP/IP通信プロトコルに従って通信するように構成された入力／出力インターフェース５１０とともに、プロセッサ５１１、及びメモリ５１２を備える。クライアントコンピュータの構成要素はコンピュータバス５１３を介して相互に接続されている。

電子メッセージ５１４でサーバコンピュータ５０１からクライアントコンピュータ５０３へ送信される統計モデル５０９は、クライアントコンピュータ５０３のメモリ５１２に記憶される。

ここでは、統計モデル５０９が顧客データベース５０８の詳細、特に、顧客の実際の住所を含まないことに留意すべきである。しかしながら、統計モデル５０９は、顧客の行動に関する統計情報、特に、購買行動に関する統計情報を含んでいる。

そして、クライアントコンピュータ５０３のユーザは、興味のある顧客グループ、即ち、ユーザが興味を持っていて、且つクライアントコンピュータ５０３のユーザの企業が興味を持っている購買行動を表す統計モデル５０９の一部５１５を選択する。統計モデル５０９における選択された部分に関する情報５１５は、クライアントコンピュータ５０３により第２電子メッセージ５１６でサーバコンピュータ５０１に送信される。

サーバコンピュータ５０１は、受信した情報を用いて、統計モデル５０９の一部５１５により指定され顧客、及び関連する顧客詳細情報５１７、特に顧客の住所を、顧客データベースから読み出し、その読み出した顧客詳細情報５１７を第３電子メッセージ５１８でクライアントコンピュータ５０３に送信する。

このように、例えば、クライアントコンピュータ５０３のユーザによるマーケティングキャンペーンのために、顧客データベース５０８に基づいて、キャンペーンにおいて興味がある、サーバコンピュータ５０１の企業における顧客の住所を、目標を絞って選択することができ、それらをサーバコンピュータ５０１から要求することができる。サーバコンピュータ５０１がクライアントコンピュータ５０３に対して、送信されることを実際に認められた情報を送信するにすぎないとも、かなりの利点である。

本発明の一の実施形態によれば、この送信は、支払いのために行われる。言い換えれば、このようにして、非常に効率的な、いわゆる「オンラインリスト取引」システムが実現される。

統計モデルを実行する各種のスケーラブル（拡張可能）方法を以下に明記する。

ナイーブベイジアンクラスタモデルの場合の、EM学習法において好適に使用される改良物の理解をよりよくするために、EM学習法の多数の原理を以下に詳細に説明する。

一組のK個の統計変数（例えば、データベースにおける複数のフィールドに対応してよい）が、X＝{X_k, k=1, ..., K}で表される。

これらの変数の状態は、小文字で表される。X₁は、状態x_1,1, x_1,2, ...、即ち、X₁∈{x_1,i, i=1,..., L₁}と仮定する。L₁は、変数X₁の状態数である。データレコード（データベースにおけるデータレコード）のエントリは、全変数に対する値で構成される。但し、x^π≡(x₁ ^π, x₂ ^π, x₃ ^π,...)は、π番目のデータレコードを表す。例えば、π番目のデータレコードでは、変数X₁は、状態x₁ ^πであり、変数X₂は、状態x₂ ^πである。テーブルはM個のエントリを有している。即ち、{ x^π, π=1, ..., M}である。加えて、以下にΩで表される隠し変数又はクラスタ変数があり、それらの状態は、{ω_i, i=1, ..., N}である。よって、N個のクラスタがある。

一つの統計クラスタリングモデルにおいては、P(Ω)は先験分布を表す。つまり、P(ω_i)は、i番目クラスタの先験重み(priori weighting)であり、P(X|ω_i)は、i番目クラスタの構造又はi番目クラスタにおける観測可能変数X＝{X_k, k=1, ..., K}の条件付き分布を表す（これらは、データベースに含まれる）。各クラスタに対する条件付き分布及び先験分布は、一緒に、共通確率モデルをパラメータ化し、X∪Ω又はXとする。

ナイーブベイジアンネットワークでは、p(X|ω_i)は、

で因数分解できるという前提条件がある。

一般に、その目的は、モデルのパラメータ、即ち、先験分布p(Ω)及び条件付き尤度テーブルp(X|ω)を、共通モデルが入力データをできるだけ十分に反映するように、決定することである。対応するEM学習法は、一連の反復ステップにより構成されており、モデルにおける改良（いわゆる可能性又は尤度という意味）は、各反復ステップで達成される。各反復ステップでは、新たなパラメータp^new(...)を現在の又は「古い」パラメータp^old(...)に基づいて、評価する。

各EMステップは、最初に、E（期待値）ステップから開始する。そこでは「十分統計量（sufficient statistics）」がテーブルにおいて決定される。当該テーブルは、その目的のために提供されたものである。その工程は、エントリがゼロ値から開始される尤度テーブルとともに開始される。テーブルにおける複数のフィールドは、Eステップの過程で、各データポイントに対する期待値を用いて、欠落情報（即ち、特に複数クラスタに対する各データポイントの割り当て）を補うことにより、いわゆる十分統計量S(Ω)及びS(X|Ω)で埋められる。

クラスタ変数Ωに対する期待値を計算するために、事後分布p^old (w_i|x ^π)が決定されなければならない。このステップは「推論ステップ」とも称される。

ナイーブベイジアンネットワークの場合、Ωに対する事後分布は、入力情報からの各データポイントx ^πに対する次の規則に従って計算されなければならない。

ここで、1/Z^πは予め定義できるスケーリング係数である。

この計算における重要な部分は、k=1, ..., Kまでの全てについての積p^old (x_k ^π|ω_i)の形成である。この積は、各ステップEで、全クラスタi=1, ..., N及び全データポイントx^π, π=1, ..., Mに対して形成されなければならない。

同様に複雑で、またしばしば更に複雑なのは、ナイーブベイジアンネットワークとしての、その他の依存構造の仮定に対する推論ステップである。従って、それはEM学習プロセスの本質的な計算能力コストを含んでいる。

テーブルs(Ω)及びS(X|Ω)のエントリは、各データポイントx^π, π=1, ..., Mに対する上記積を形成した後に変化する。s(ω_i)は、全てのi毎に加えられるp^old (ω_i |x ^π)を有するからである。或いは全てのp^old (ω_i|x ^π)の和が形成される。これに対応して、S(x|ω_i)(又はナイーブベイジアンネットワークの場合、全変数kに対するS(x_kω_i))は、全クラスタiについて加えられるp^old(ω_i|x ^π)を有する。これにより、E（期待）ステップが最初に終了される。

このステップを参照することにより、新たなパラメータp^new(Ω)及びp^new (x|Ω)がこの統計モデルに対して計算される。但し、p(x|ω_i)は、i番目クラスタの構造、又はi番目クラスタにおいてデータベースに含まれる変数xの条件付き分布を示す。

M（最大化）ステップにおいては、数９で示される一般的な対数尤度Ｌを最適化することにより、既に計算されている十分統計量に基づく新たなパラメータp^new(Ω)及びp^new (x|Ω)を形成する。

Mステップは、かなりの数的複雑さをもはや伴わない。

従って、アルゴリズムの主な複雑さは、推論ステップ、又は数１０で示される積の形成及び十分統計量の累積にあることは明白である。

しかしながら、尤度テーブルp^old(X|ω_i)又はp^old(X_k|ω_i)における多数のゼロ要素の形成は、好適なデータ構造並びに一のEMステップから次のステップへの中間結果の記憶により、効率的に積を計算するために用いられる。

EM学習法を促進させるために、全積の形成が、通常通り、推論ステップで行われる。それは全ての入力データポイントに対するメンバーシップ確率(membership probabilitis)の事後分布の因数から形成される。しかしながら、関連する因数において最初にゼロが生じるとすぐに、全ての積の形成が中断される。EM学習プロセスにおいて特定のデータポイントに対する重み付けを行うゼロに対してクラスタが割り当てられると、このクラスタはまた、このデータポイントに対するその他の全てのEMステップにおいても、重み付けを行うゼロに割り当てられることが示される。

これにより、一のEMステップから次のステップへ対応する結果をバッファリングし、その結果を、重み付けを行うゼロを持たないクラスタに対してのみ処理することで、過剰な数的複雑さを適当に排除することができる。

よって、重みを行うゼロを伴ってクラスタが生じる際に処理が中断することにより、EMステップだけでなくその他の全てのステップに対して、特に推論ステップにおける積が形成される間において、EM学習法が全体的にかなり促進されるという利点が生じる。

所定データに存在する尤度分布を決定する方法では、特定クラスに対するメンバーシップ確率が、反復方法におけるゼロ付近までのみ計算される。メンバーシップ確率が選択可能な値以下であるクラスは、もはや反復方法では用いられない。

この方法を発展させた一例では、殆ど発生し得ない変数の状態に関連する因子を最初に処理するように、計算されるべき因子列を決定する。積の形成を開始する前に、変数中にゼロが現れる頻度に応じて変数がリスト中に並べられるように、殆ど発生し得ない値を、割り当てられたリスト中に記憶できる。行われる。

尤度テーブルの対数表示を用いることも利点である。

また、尤度テーブルのまばらな提示を、例えば、ゼロでない要素のみを含むリストの形態で用いることも利点である。

加えて、十分統計量を計算する際、ゼロでない重み付けを有するクラスタのみが考慮される。

ゼロでない重みを有するクラスタは、リストに記憶されてよく、リストに記憶されるデータは、対応するクラスタへのポインタとなることができる。

また、この方法は、ＥＭ（期待値最大化）学習プロセスであってもよい。このプロセスでは、データポインタについて割り当てられる「ゼロ」の事後重み付けを有するクラスタの場合に、このクラスタは、このデータポイントに対するEM法におけるその他の全ステップにおいて、重み付けを行うゼロを受け取る。このクラスタは、その他の全ステップにおいては、もはや考慮されるべきものではない。

この方法は、また、ゼロとは異なる重み付けを有するクラスタを介してのみ実施されてもよい。
Ｉ．推論ステップの第１例
ａ）ゼロ値で中断がある全積の形成
全積は、推論ステップにおいて各クラスタω_iに対して形成される。例えばメモリ、アレイ又はポインタリストから読み出される可能性のある、関連する因数で最初のゼロが生じるとすぐに、全積の形成が中断される。

ゼロポイントが生じると、クラスタに関連する事後重み付けがゼロに設定される。或いは、最初に、積における因数の少なくとも一つがゼロであるかどうかを確認することもできる。ここでは、全積を形成するための全ての乗算は、全ての因数がゼロと異なる場合にのみ行われる。

他方、全積に関連する因数においてゼロ値が生じない場合には、積の形成は、正常に継続され、次の因数がメモリ、アレイ又はポインタリストから読み出され、積を形成するために用いられる。
ｂ）データ処理を促進するための適当な配列の選択
積の因数がゼロである場合には、この因数が積の第１の因数の一つとして早急に生じる可能性が非常に高くなるように、好適な配列が選択される。その結果、全積の形成を早急に中断できる。ここで、データにおける変数の状態が発生する頻度に従って、新たな配列を定義してよい。殆ど発生し得ない変数の状態に関連する因数を、先ず処理する。従って、因数が処理される配列を、学習法を開始する前に、変数の値を対応して並べられたリストに記憶することにより、一度定義することができる。
ｃ）テーブルの対数表示
上述の方法における計算の複雑さをできる限り抑制するために、テーブルの対数表示が好適に用いられる。例えば、アンダーフローという問題を避けるためである。この関数を用いて、本来ゼロの要素を、例えば正の値で置き換えることができる。その結果、仮想的にゼロであり、且つ小さなスケールで相互に異なる変数の複雑な処理又は除算がもはや必要ではなくなる。
ｄ）十分統計量を計算する際における、増加した加算の回避
学習法に割り当てられる確率変数が、特定クラスタにおいて、低確率のメンバーシップを有する場合、多数のクラスタが、学習法の過程において、ゼロの先験重み付けを有することになろう。

十分統計量の累積を、その後のステップにおいても促進できるように、ゼロでない重み付けを有するクラスタのみが、このステップで考慮される。

ここで、ゼロでないクラスタを、ゼロでない要素のみを記憶できるリスト、アレイ、又は類似のデータ構造に記憶することは有利である。
ＩＩ．ＥＭ学習法の第２例
ａ）データポイントに対してゼロ割り当てを備えたクラスタは考慮されない
特に、ゼロが発生した結果、どのクラスタがまだテーブル内で認可されているかを示す情報、及びもはや認可されていないかを示す情報が、ここで、各データポイントに対して、一ステップから次のステップへ遷移するEM学習法に記憶される。

ゼロによる乗算によりゼロの事後重み付けを与えられたクラスタが、数的複雑さを避けるために、第１例における全ての更なる計算から排除される場合には、本例では、一のEMステップから次のステップでの、個々のデータポイントにおけるクラスタメンバシップに関する中間結果（クラスタは既に排除されているか、或いはまだ許可可能である）も、付加的に必要なデータ構造に記憶される。
ｂ）関連クラスタへの参照（リファレンス）を備えたリストの記憶
データポイントに対してゼロでない重み付けが割り当てられた関連クラスタへの参照を含むリスト又は類似のデータ構造を、データポイント毎に又は入力確率変数毎に、先ず記憶できる。

概して、この例においては、許可されたクラスタのみが記憶されるが、但し、データレコードにおけるデータポイント毎に記憶される。

上記の二例を相互に組み合わせることができる。これにより、「ゼロ」重み付けが推論ステップに存在する際に中断が可能となる。ここで、許可されたクラスタのみが、次のEMステップにおける第２実施例に従って、考慮される。

EM学習法の第２変量を、以下に詳細に説明する。この方法は、このように形成される統計モデルの使用とは独立したものであることに留意すべきである。

上記のEM学習法を参照すると、欠落情報を全ての変数に対して補う必要はないことは明らかである。本発明では、欠落情報のいくらかを「無視」できる。言い換えれば、これは、ランダム変数Y（ノードY）に関する情報がないデータから、該ランダム変数Yについて何かを探し出す試みはなされないという意味である。或いは、二つの変数Y及びX（二つのノードY及びX）の関係について、該変数Y及びXに関する情報がないデータから、何かを探し出す試みはなされないという意味である。

その結果、EM学習法を実行する際の数的複雑さが著しく減少するだけでなく、より迅速にEM学習法を収束させることができる。更なる利点は、この手順により、即ち、学習プロセスの間に、動的に統計モデルをより簡単に構築できることであると考えられる。よって、ネットワーク、即ち有向グラフにおいて、複数の変数（ノード）をより簡単に補うことができる。

本発明に係る方法の明瞭な例として、一つの統計モデルが、映画に行く人によりどのような評価が映画になされたかを表す変数を含んでいると仮定する。各映画に対しては、各変数が複数の状態について割り当てられ且つ各状態が夫々の場合における一の評価値を表す変数が存在する。各顧客に対しては、どの映画がどのような評価値を受けたかを示す情報が記憶されたデータレコードが存在する。新たな映画が提供される場合、この映画に対する評価値は、最初はしばしば欠落する。現在では、EM学習法の新たな変量により、新たな映画が登場するまでは、EM学習法が、それまでに知られている映画に対してのみ実行される可能性がある。即ち、新たな映画が最初に無視される可能性がある（即ち、一般には、有向グラフにおける新たなノードが無視される可能性がある）。新たな映画が登場して初めて、統計モデルに対して新たな変数（新たなノード）が動的に付加され、新たな映画の評価が考慮される。対数尤度という意味におけるこの方法の収束は、ここでいまだ保証されているが、この方法はより迅速に収束する。

欠落情報を考慮する必要がない条件について、以下に説明する。

次の表記法を用いて、手順を説明する。Hは隠しノードを表す。O={O¹, O², ... , O^M}は、統計モデルの有向グラフにおけるM個の観測可能な一連のノードを表す。

一般的な利用可能性を制限することなく、数１１に示される規則（２）に従って因数分解できるベイジアン確率モデルを以下に仮定する。

ここでは、記載の手順は、以下に詳細に示すように、任意の統計モデルに適用でき、ベイジアン確率モデルに制限されないことに留意すべきである。

以下において、ランダム変数は大文字で表され、各ランダム変数のインスタンスは小文字で表される。

N個のデータレコード要素{O_i, i=1, ..., N}を有するデータレコードを仮定する。但し、いくつかの観測可能なノードのみが、各データレコード要素に対して実際に観測される。i番目のデータレコード要素に対しては、ノードX _iが観測され、ノードY _iの観測値が欠落していると仮定する。

従って、次の規則（３）が適用される。

X _i∪Y _i= O _i （３）
各データレコード要素に対して複数のノードX _iの異なるレコードが観測できることに留意すべきである。即ち、次の規則（４）が適用される。

i≠jに対してX _i= X _j （４）
存在しているノード（存在ノード）に対する指標は、κであらわされる。即ち、X _i={X_i ^κ, κ=1, ..., K_i}である。また、存在していないノード（非存在ノード）に対する指標は、λであらわされる。即ち、Y _i={Y_i ^λ, λ=1, ..., L_i}である。

ベイジアンネットワークの場合、慣例的EM学習法は、すでに簡単に前述したように、次のステップを備える。
１）Eステップ
この方法は、「空の」テーブルSS(H)及びSS(O^π, H), i=1, ..., M（「ゼロ」で初期化される）を用いて開始される。これに基づき評価（十分統計量値）を累計するためである。隠しノードHに対する先験分布P(H|X _i)、並びに隠しノードH及び非存在ノードY _iの夫々に対する先験複合分布P(H, Y_i ^π|x _i)が、データレコード要素o _i毎に計算される。

次の数１２から数１４にて示される規則（５）から（７）に従って、統計モデルへの評価が各データレコード要素iに対して累計される。

符号+=は、更新、即ち式の各「右辺」の値に基づく評価毎にテーブルの累積を表す。
２）Mステップ
全ノードに対するパラメータが、次の数式にて示される規則（８）及び（９）に従ってMステップにおいて更新される。

P(H)∝SS(H) （８）
P(O^π|H)∝SS(O^π, H) （９）
但し、符号∝は、SSをPに移行する際に確率テーブルを標準化すべきであることを示す。

EM学習法によれば、期待値は、非存在ノードY _iに対して計算され、規則（７）に基づく十分統計量値に従い、これらのノードに対して更新される。

他方、全てのノードY_i ^λ∈Y _iに対する複合分布P(H, Y_i ^λ|x _i)の計算及び更新は、計算という点では、非常に複雑である。加えて、複合分布P(H, Y_i ^λ|x _i)の更新は、大部分の情報が欠落する場合においてEM学習法の収束が遅くなることの理由である。

EM学習法を開始する前に、テーブルが乱数で初期化されると仮定する。

この場合、複合分布P(H, Y_i ^λ|x _i)は、本質的に、この第１ステップにおける乱数に対応する。これは、既存の情報に対する欠落情報の割合に応じた十分統計量の値において、初期の乱数を考慮するという意味である。これは、各テーブルの初期の乱数は、欠落情報と既存情報との関係にのみ従って、「消去」されるという意味である。

以下において、統計モデルとしてのベイジアンネットワークの場合は、規則（７）に係るステップは必要ではなく、省略又は回避することができることがわかる。

統計モデルとしてのベイジアンネットワークの対数尤度は、数１５にて示される規則（１０）により与えられる。

ノードHに関して標準化された予め自由に規定されたテーブルB(H|X _i)に対しては、数１６にて示される規則（１１）による対数尤度が得られる。

数１７にて示される和は、ノードHの全ての状態ｈの和を表す。

数１８及び数１９にて示される規則（１２）及び（１３）による定義をR[P, B]及びH[P, B]について用いる。

すると、規則（１４）にて示される以下の式が、規則（１１）に応じた対数尤度に対して得られる。

L[P]= R[P, B]−H[P, B] （１４）
H[P, P]−H[P, B]は、P(h|x _i)及びB(h|x _i)の非負クロスエントロピーを表すから、数２０にて示される規則（１５）が一般に適用される。

t番目のステップにおいて、現行の統計モデルはP^(t)と表される。新たな統計モデルP^(t+1)は、t番目のステップにおける現行の統計モデルはP^(t)に基づき、次の規則（１６）が適用されるように構成される。

R[P^(t+1), P^(t)] > R[P^(t), P^(t)] （１６）
次式が適用される。

L[P^(t+1)] = R[P^(t+1), B] − H[P^(t+1), B]
= R[P^(t+1), P^(t)] − H[P^(t+1), P^(t)] （１７）
> R[P^(t), P^(t)] − H[P^(t), P^(t)]
= L[P^(t)]
一般に、一行目は全てのBに対して適用される（規則（１４）を比較）。規則（１７）の２行目は、特に、次の規則（１８）が成り立つ場合に適用される。

B＝P^(t) （１８）
３行目は、規則（１５）により適用される。規則（１７）の最終行は、代わって規則（１４）に対応する。

この結果、R[P^(t+1), P^(t)] > R[P^(t), P^(t)]の場合には、次の規則（１９）が確実に適用される。

L[P^(t+1))] > L[P^(t)] （１９）
R項が数２１にて示される規則（２０）に従って定義される標準EM学習法（非特許文献２）との違いについて述べる。

規則（２０）におけるP及びBについては、規則（１２)及び（１３）に対応する定義とは対照的に、次の変数yも生じることに留意すべきである。

一連のEM反復は、次の規則（２１）が適用されるように形成される。

R^standard[P^(t+1), P^(t)] > R^standard [P^(t), P^(t)] （２１）
本発明に係る学習法では、次の規則（１６）が適用されるように、一連のEM反復がベイジアンネットワークに対して形成される。

R[P^(t+1), P^(t)] > R[P^(t), P^(t)] （１６）
ここで、規則（１２）に従って定義されたRは、規則（７）を回避した上記の学習法から導かれることが示される。反復tに対して与えられる現行の統計モデルP^(t)の場合、この方法の目的は、反復t+1における新たな統計モデルP^(t+1)を、Pに対して最適化されている R[P, P^(t)]により計算することである。規則（２）に係る因数分解を用いると、数２２にて示される規則（２２）となる。

モデルPに対してRを最適化すると、本発明に係る方法が導かれる。第１項は、規則（５)及び（７）に係るP(H)の標準的な更新を導く。

数２３にて示される規則（２３）により、規則（２２）の第１項は、数２４にて示される規則（２４）として得られる。

これは、本質的にSS(H)及びP(H)のクロスエントロピーに対応するものである。従って、最適なP(H)はSS(H)により与えられる。これは規則（８）に係るMステップに対応する。

規則（２２）の第２項は、規則（６)および（９）により記載されるように、条件付き確率P(O^π|H)のテーブルに対するEM更新を導く。これを例示するために、P(O^π|H)に依存する全ての項がRにおいて集められる。これらの項は、次の数２５にて示される規則（２５）に従って得られる。

数２６にて示される和は、データレコードにおける全てのデータ要素iの和を表す。

O^πは、観測されたノードの一つである。即ち、次の規則（２６）が適用されるノードの一つである。

O^π∈X _i （２６）
以上をまとめると、上記規則（２５）は、P(O^πH)及び規則（６）に従って累積された十分統計量の値のクロスエントロピーとして解釈することができる。従って、規則（７）に係る更新を提供する必要はなくなる。これは、規則（２５）における和（即ち、数２６にて示される和）又は、規則（２２）における和（即ち、数２７にて示される和）に起因するものである。この和は、観測されないノードY _iも考慮されない規則（２０）に係るR^standardの定義とは対照的に、観測されたノードのみ考慮にいれる。

十分統計量テーブルにおける更新の範囲内で観測されないノードを考慮にいれない手順の有効性を、より一般的に通用する場合を想定して、以下に示す。その通用する場合とは、この手順はいわゆるベイジアンネットワークに制限されないことを示す。

一連の変数Z={Z¹, Z², ..., Z^M}を仮定する。また、統計モデルは、数２８にて示される規則２７のように因数分解できると仮定する。

但し、Π[Z^σ]は、ベイジアンネットワークにおけるノードZ^σの「親」ノードを表す。加えて、N個のデータ記録要素を備えるデータレコード{z _i, i= 1, ..., N}は、各ノードZに対して仮定される。上記に既に仮定したように、いくつかのノードZのみが、この場合においても、N個のデータレコード要素の夫々において観測される。i番目のデータレコード要素に対しては、ノードX _iが観測され、すう２９にて示されるノードが観測されず、数３０にて示される規則（２８）が適用されると仮定する。

N個のデータレコード要素の夫々に対して、数２９にて示される観測されないノードは、セットX _i及びH _iにおけるノードがいずれも依存するように、即ちセットY _iにおけるノードの後続ノード（「子」ノード）ではないように、二つのサブセットH _i及びY _iに分けられる。これは、Y _iが、データ中に情報がないベイジアンネットワークにおける枝に対応することを明白に意味する。

結果として、ノードX _i及びH _iに対する複合分布が、数３１にて示される規則（２９）に従って得られる。

１）Eステップ
各ノードZに対して、ゼロ値で初期化されるテーブルSS(Z,Π[Z])が形成又は利用可能とされる。データレコードにおける各データレコード要素iに対しては、先験分布P(Z,Π[Z]|X _i=x _i)が計算され、十分統計量値が、各ノードZ∈X _i及びZ∈H _iに対する次の規則（３０）に従って累計される。

SS(Z,Π|Z) += P(Z,Π[Z]|X _i=x _i) （３０）
X _iにおけるノードに割り当てられたテーブルの十分統計量値は、更新されない。
２）Mステップ
全ノードにおけるパラメータ（テーブル）は、次の規則（３１）に従って更新される。

P(Z^σ|Π[Z^σ]) ∝ SS(Z^σ,Π[Z^σ]) （３１）
本発明は、データベースの内容に対する統計モデルを形成することにより、データベースにおける統計への幅広く簡単な（それにもかかわらず任意のレートで一般的に近似される）アクセス（好ましくは、インターネットを介したアクセス）が提供されるものであると考えることができる。その結果、統計モデルは、「遠隔診断」、いわゆる「リモートアシスタンス」又は「リモートリサーチ」のために、通信ネットワークを介して自動的に送られる。言い換えれば、統計モデルの形態を有する「知識」が、通信され、送られる。知識は、しばしば、ドメインにおける関係や相互依存性に関する知識、例えば、プロセスにおける依存性に関する知識である。データベースのデータから形成されるドメインの統計モデルは、これら全ての関係のマッピングである。技術的用語では、モデルは、データベースの次元（ディメンション）における共通確率分布を構成する。従って、モデルは、特定の関数定義には制限されず、むしろ次元の間の任意の依存性を構成する。統計モデルを形成するように圧縮される場合は、ドメインに関する知識は、容易に取り扱われ、送られ、任意の所望のユーザに利用可能とされる等が可能となる。

マッピング又は統計モデルの分解能ないしは精度は、データ保護の要求又は関与する者の要求に従って選択することができる。

本発明の第１実施例に係るコンピュータ構造のブロック図である。本発明の第２実施例に係るコンピュータ構造のブロック図である。本発明の第３実施例に係るコンピュータ構造のブロック図である。本発明の第４実施例に係るコンピュータ構造のブロック図である。本発明の第５実施例に係るコンピュータ構造のブロック図である。

Claims

第１データベースにおけるデータベース情報のコンピュータ援用提供方法であって、
前記第１データベースに対して、該第１データベースに含まれる複数のデータ要素間の統計関係を表す第１統計モデルが形成され、
前記第１統計モデルは、サーバコンピュータに記憶され、
前記第１統計モデルは、通信ネットワークを介して前記サーバコンピュータからクライアントコンピュータに送信され、
前記受信された第１統計モデルは、更に前記クライアントコンピュータにより処理されることを特徴とするコンピュータ援用提供方法。
前記第１統計モデルと、前記クライアントコンピュータに記憶される第２データベースの複数のデータ要素とを用いて全体統計モデルが形成され、該モデルは、前記第１統計モデルに含まれる少なくともいくらかの統計情報と、前記第２データベースに含まれる少なくともいくらかの統計情報とを有していることを特徴とする請求項１に記載のコンピュータ援用提供方法。
第２データベースに対して、第２データベースに含まれる複数のデータ要素間の統計関係を表す第２統計モデルが形成され、
前記第２統計モデルは、前記通信ネットワークを介して前記クライアントコンピュータに送信され、
前記第１統計モデルに含まれる少なくともいくらかの統計情報と、前記第２統計モデルに含まれる少なくともいくらかの統計情報とを有している全体統計モデルが、前記第１統計モデルと前記第２統計モデルを用いて、前記クライアントコンピュータにより形成されることを特徴とする請求項１に記載のコンピュータ援用提供方法。
前記第２統計モデルは、第２サーバコンピュータに記憶され、
前記第２統計モデルは、前記通信ネットワークを介して前記第２サーバコンピュータから前記クライアントコンピュータに送信されることを特徴とする請求項３に記載のコンピュータ援用提供方法。
前記統計モデルの少なくとも一方は、夫々の前記データベースに含まれる前記データ要素に対する前記統計モデルの圧縮度が設定されるスケーラブル法により形成されることを特徴とする請求項１から４のいずれかに記載のコンピュータ援用提供方法。
前記統計モデルの少なくとも一方は、EM学習法又はグラジエントベース学習法により形成されることを特徴とする請求項１から５のいずれかに記載のコンピュータ援用提供方法。
前記第１データベース及び前記第２データベースの少なくとも一方が、少なくとも一つの技術システムを示す複数のデータ要素を有することを特徴とする請求項１から６のいずれかに記載のコンピュータ援用提供方法。
前記少なくとも一つの技術システムを示す複数のデータ要素は、前記技術システム上で少なくとも部分的に測定され且つ前記技術システムの動作態様を表す値を示すことを特徴とする請求項７に記載のコンピュータ援用提供方法。
複数のデータ要素を有するデータベースにおけるデータベース情報のコンピュータ援用提供方法であって、
予め定義可能な有向グラフとして前記複数のデータ要素間の統計関係が決定されるように、ＥＭ学習法が前記複数のデータ要素上で実行され、
前記有向グラフは、複数のノード及び端点を有しており、
前記複数の端点は、予め定義可能な観測可能なデータベース状態及び観測不可能なデータベース状態を表し、
前記EM学習法の範囲内では、期待される値のみが、前記観測可能なデータベース状態、及び親データベースの状態が観測可能なデータベース状態である前記観測不可能なデータベース状態として決定されることを特徴とするコンピュータ援用提供方法。
第１データベースにおけるデータベース情報のコンピュータ援用提供用コンピュータ構造であって、
前記第１データベースに対して形成された第１統計モデルを記憶するサーバコンピュータを有しており、該第１統計モデルは、前記第１データベースに含まれる複数のデータ要素間の統計関係を表し、
通信ネットワークを介して前記サーバコンピュータに接続され、前記通信ネットワークを介して前記サーバコンピュータから当該クライアントコンピュータに送信される前記第１統計モデルを更に処理するよう構成されたクライアントコンピュータを有していることを特徴とするコンピュータ構造。
複数のデータ要素を有する第２データベースが、前記クライアントコンピュータに記憶され、
前記クライアントコンピュータは、前記第１統計モデルと前記第２データベースの複数のデータ要素とを用いて全体統計モデルを形成するユニットを有しており、該全体統計モデルは、前記第１統計モデルに含まれる少なくともいくらかの統計情報と、前記第２データベースに含まれる少なくともいくらかの統計情報とを有していることを特徴とする請求項１０に記載のコンピュータ構造。
第２データベースに対して形成された第２統計モデルを記憶する第２サーバコンピュータを有しており、該第２統計モデルは、前記第２データベースに含まれる複数のデータ要素間の統計関係を示し、
前記クライアントコンピュータは、前記通信ネットワークにより前記第２サーバコンピュータに接続されており、
前記クライアントコンピュータは、前記第１統計モデルと前記第２統計モデルとを用いて全体統計モデルを形成するユニットを有しており、該全体統計モデルは、前記第１統計モデルに含まれる少なくともいくらかの統計情報と、前記第２統計モデルに含まれる少なくともいくらかの統計情報とを有していることを特徴とする請求項１０に記載のコンピュータ構造。