JP2007011571A

JP2007011571A - 情報処理装置、およびプログラム

Info

Publication number: JP2007011571A
Application number: JP2005189912A
Authority: JP
Inventors: Daichi Mochihashi; 大地持橋
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-06-29
Filing date: 2005-06-29
Publication date: 2007-01-18

Abstract

【課題】従来の情報処理装置においては、自然言語の単語列の中の話題の変化点を推定できない、という課題があった。
【解決手段】処理対象情報が格納されるＮ個のバッファと、前記各バッファに対応付けて、ディリクレ分布を、それぞれ２以上格納しており、各バッファから、単位情報を取得し、バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から直前の単位情報までの１以上の単位情報に基づいて、ディリクレ分布を更新し、各バッファに対応する２以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、バッファごとに算出し、算出したバッファごとの予測確率分布に基づいて、バッファ変化点確率を算出し、バッファ変化点確率に基づいて所定の処理を行う情報処理装置により、自然言語の単語列の中の話題の変化点を推定できる。
【選択図】図１

Description

本発明は、話題の変化点等を検出する情報処理装置等に関するものである。

従来の情報処理装置が扱うモデルとして、ＭｅａｎＳｈｉｆｔＭｏｄｅｌ（ＭＳＭ）がある（例えば、非特許文献１参照）。ＭＳＭとは、文脈追跡のために、隠れた多項分布自体の変化をとらえるモデルである。これはＨＭＭの一種であるが、通常の離散ＨＭＭとは違う。通常のＨＭＭでは、真の状態はＭ個の離散状態のどれか一つであり、その確率的な推定値として多項分布を得るが、ここでは、真の状態自体が多項分布であり、その確率的な推定値として多項分布の分布（ディリクレ分布または混合ディリクレ分布）を得る。ＭＳＭとは、隠れ状態の間欠的な変化を記述する生成モデルであり、例えば、正規分布について導入され得る。

非特許文献１におけるＭＳＭに対して、ＰａｒｔｉｃｌｅＦｉｌｔｅｒを用いることで変化率をも動的に推定する拡張がなされた（非特許文献２）。非特許文献２における情報処理装置は、変化率を動的に推定する手法をＤＮＡ系列の推定に用いている。

なお、ＰａｒｔｉｃｌｅＦｉｌｔｅｒとは、モンテカルロ法をオンラインで行うアルゴリズムであり、近年の計算資源の増大に伴い、主に実ベクトル空間を対象として、信号処理やロボティクスなどの分野で使用されてきた（非特許文献３参照）。

また、関連する技術として、文脈推定のための確率的なテキストモデルであるＤＭ（ＤｉｒｉｃｈｌｅｔＭｉｘｔｕｒｅ）がある（非特許文献４参照）。ＤＭは、テキストのもつ多項分布の事前分布としてディリクレ分布ではなく、混合ディリクレ分布を仮定し、そのＭ個の混合比「λ（ベクトル）＝λ_１・・・λ_Ｍ」と対応するディリクレ分布のハイパーパラメータ「α（ベクトル）＝α_１・・・α_Ｍ」を、ＥＭ法とＮｅｗｔｏｎ法（高速化のため，実際には近似）を組み合わせることでコーパスから推定する技術である。

さらに、関連する技術として、ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ（ＬＤＡ）がある（非特許文献５参照）。ＬＤＡとは、テキスト集合の確率モデルであり、潜在意味モデルとして知られるＰＬＳＩ（非特許文献６参照）のベイズ的な発展形である。
Chernoff, H、他１名，「Estimating the Current Mean of a Normal Distribution Which is Subject to Changes in Time」、Annals of Mathematical Statistics、1964、35、p.999-1018 Yuguo Chen、他１名，「Sequential Monte Carlo Methods for Filtering and Smoothing in Hidden Markov Models」、Institute of Statistics and Decision Sciences, Duke University、Discussion Paper、2003、03-19 Arnaud Doucet、他２名，「Sequential Monte Carlo Methods in Practice」、Statistics for Engineering and Information Science、Springer-Verlag、2001 山本幹雄、他２名，「混合ディリクレ分布を用いた文脈のモデル化と言語モデルへの応用」、情報処理学会研究報告 2003-SLP-48、2003、p.29-34 David M. Blei、他２名，「Latent Dirichlet Allocation」、Journal of Machine Learning Research 、3、2003、p.993-1022 Thomas Hofmann、「Probabilistic Latent Semantic Indexing」、Proc. of SIGIR '99、1999、p. 50-57

しかしながら、従来の情報処理装置、特に、非特許文献２の情報処理装置においては、ＡＴＧＣの４種類しかアルファベットを持たないＤＮＡ系列の推定しかできなかった、という課題があった。つまり、例えば、自然言語には数万から数十万の単語が存在し、それらは独立ではなく、互いに強い相関を持っている。たとえば、「病院」という単語の後に「看護婦」という別の単語が多く出現しても、それらは関係が深く、潜在的な変化は起こっていないと考えられるが、やはり別の記号である「大学」がその後に多く出現すれば、それは別の話題に移った（この場合、「大学病院」というサブトピックに移った）と解すべきである。アルファベットを独立に扱う上記の従来の情報処理装置におけるＭＳＭでは、この関係はとらえることができない。

本第一の発明の情報処理装置は、２以上の単位情報を時系列的に有する情報である処理対象情報が格納されるＮ（Ｎは２以上）個のバッファと、前記各バッファに対応して、Ｎ個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ２以上格納されるディリクレ分布格納部と、前記各バッファから、単位情報を取得する単位情報取得部と、前記単位情報取得部が単位情報を取得する毎に、前記単位情報取得部が先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、各バッファに対応する２以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記各バッファごとに算出する予測確率分布算出部と、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの１以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新部と、前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出部と、前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断部と、前記変化点判断部が直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積部と、前記バッファ変化点確率算出部が算出したバッファ変化点確率、または前記予測確率分布算出部が算出したバッファごと予測確率分布に基づいて所定の処理を行う処理部を具備する情報処理装置である。
かかる構成により、例えば、自然言語の単語列の中の話題の変化点等を推定できる。

また、本第二の発明の情報処理装置は、第一の発明に対して、前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する変化点確率算出部を、さらに具備し、前記処理部は、前記変化点確率算出部が算出した変化点確率に基づいて所定の処理を行う情報処理装置である。
かかる構成により、例えば、自然言語の単語列の中の話題の変化点等を推定できる。

また、本第三の発明の情報処理装置は、第二の発明に対して、前記各バッファの重みに関する情報である重情報を格納している重情報格納部と、前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、前記重情報格納部の重情報を更新する重情報更新部をさらに具備し、前記変化点確率算出部は、前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率と、前記重情報格納部の各バッファの重情報に基づいて、変化点確率を算出する情報処理装置である。
かかる構成により、例えば、さらに精度高く、自然言語の単語列の中の話題の変化点等を推定できる。

また、本第四の発明の情報処理装置は、第三の発明に対して、前記重情報更新部が更新した重情報が第一の閾値と所定の関係にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新するリサンプリング部を、さらに具備する情報処理装置である。
かかる構成により、例えば、さらに精度高く、自然言語の単語列の中の話題の変化点等を推定できる。

また、本第五の発明の情報処理装置は、第一から第四いずれかの発明に対して、前記ディリクレ分布更新部は、処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの１以上の単位情報をも考慮したディリクレ分布に対して、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの１以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新する情報処理装置である。
かかる構成により、例えば、さらに精度高く、自然言語の単語列の中の話題の変化点等を推定できる。

また、本第六の発明の情報処理装置は、第一から第五いずれかの発明に対して、前記処理部は、前記変化点確率算出部が算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力する情報処理装置である。
かかる構成により、例えば、自然言語の単語列の中の話題の変化点に関する情報を出力できる。

本発明による情報処理装置によれば、例えば、自然言語の単語列などの離散的データ中の変化点（例えば、話題の変化点）等を推定できる。

以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
図１は、本実施の形態における情報処理装置のブロック図である。
情報処理装置は、受付部１０、Ｎ（Ｎは２以上）個のバッファ１１、ディリクレ分布格納部１２、重情報格納部１３、単位情報取得部１４、ディリクレ分布更新部１５、予測確率分布算出部１６、バッファ変化点確率算出部１７、変化点確率算出部１８、変化点判断部１９、変化点情報蓄積部２０、処理部２１、重情報更新部２２、リサンプリング部２３を具備する。また、情報処理装置は、指示などを入力するキーボード３０２、マウス３０３や、処理結果を表示するディスプレイ３０４を具備する。

受付部１０は、処理の開始の指示である開始指示を受け付ける。また、受付部１０は、Ｎ個のバッファ１１に格納される文章などを受け付けも良い。開始指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部１０は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

バッファ１１は、２以上の単位情報を時系列的に有する情報である処理対象情報が格納される。バッファ１１は、Ｎ（Ｎは２以上）個存在する。単位情報とは、一まとまりの情報である。単位情報は、例えば、単語である。また、処理対象情報とは、本情報処理装置が処理を行う対象の情報である。処理対象情報は、２以上の単位情報を含む。単位情報が単語の場合、処理対象情報は、単語列である。かかる場合、処理対象情報は、文章である。また、かかる場合の処理対象情報の言語は、英語、日本語等、問わない。また、単位情報は、例えば、あるユーザが購入した商品ＩＤや商品名である。かかる場合、処理対象情報は、あるユーザの一連の購入履歴の情報（商品ＩＤの列など）である。また、単位情報は、例えば、人気のある映画のタイトルなどのトレンドの情報である。かかる場合、処理対象情報は、トレンドの情報列である。Ｎ個のバッファ１１には、同一の処理対象情報が格納される。また、上記の「時系列的に有する情報」とは、単位情報には順序がある、ということである。バッファ１１は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。また、本情報処理装置に、Ｎ個のバッファ１１とは別に、記録媒体が存在し、かかる記憶媒体に処理対象情報が格納されており、当該処理対象情報がＮ個のバッファ１１に読み込まれる構成でも良い。

ディリクレ分布格納部１２は、各バッファ１１に対応して、Ｎ個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、各バッファ１１に対応付けて、それぞれ２以上格納される。ディリクレ分布格納部１２に格納されているディリクレ分布の初期の情報は、通常、事前の辞書から構築されたディリクレ分布である。なお、ディリクレ分布については、公知技術であるが、同様の情報について、本明細書のディリクレ分布に含まれることは言うまでもない。ディリクレ分布格納部１２におけるバッファ１１とディリクレ分布の対応の方法は問わない。ディリクレ分布格納部１２において、例えば、ディリクレ分布とバッファ１１が同じＩＤを持っている。また、ディリクレ分布格納部１２のディリクレ分布の格納順序が、バッファ１１の並びと一致しても良い。ディリクレ分布格納部１２は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。なお、ディリクレ分布格納部１２のディリクレ分布は、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報を用いて、ディリクレ分布更新部１５により動的に構成される。かかる処理も公知技術である。

重情報格納部１３は、各バッファの重みに関する情報である重情報を格納している。重情報は、例えば、「１．３」「０．８」などの重みの係数でも良いし、「Ａ」「Ｂ」などのランクを示す情報でも良い。重情報が「Ａ」「Ｂ」などのランクを示す情報である場合、例えば、「Ａ」は１、「Ｂ」は３、などと数値に対応付けられることは好適である。重情報格納部１３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

単位情報取得部１４は、各バッファ１１から、単位情報を取得する。単位情報取得部１４は、通常、各バッファ１１から、順次、単位情報を取得する。ここで、「順次」とは、必ずしも、一つずつ単位情報を読み出さなくても良い。つまり、例えば、予測確率分布算出部１６が一つずつ（ここで、「一つ」ということも例であり、二つずつでも良い。また、単位情報を1以上有する文章単位でも良い。）増加した単位情報を用いて、予測確率分布を算出すれば良い。ただし、単位情報取得部１４は、通常、バッファ１１ごとに、単位情報の読み出しのポインタを持っており、当該ポインタが示す箇所の単位情報を読み出す。そして、単位情報取得部１４は、単位情報の読み出し後、ポインタを進める。単位情報取得部１４は、通常、ＭＰＵやメモリ等から実現され得る。単位情報取得部１４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

ディリクレ分布更新部１５は、バッファ１１ごとに、処理対象情報の中の最も近い変化点以降の単位情報から単位情報取得部１４が取得した単位情報までの１以上の単位情報に基づいて、ディリクレ分布格納部１２のディリクレ分布を更新する。ディリクレ分布更新部１５は、通常、初期のディリクレ分布に対して、処理対象情報の中の最も近い変化点以降の単位情報から単位情報取得部１４が取得した単位情報までの１以上の単位情報に基づいて、更新処理を行う。かかるディリクレ分布更新部１５がディリクレ分布を更新する処理は公知技術であるので、詳細な説明を省略する。

なお、ディリクレ分布更新部１５は、処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの1以上の単位情報をも考慮したディリクレ分布に対して、処理対象情報の中の最も近い変化点以降の単位情報から単位情報取得部１４が取得した単位情報までの１以上の単位情報に基づいて、更新処理を行っても良い。かかる処理により、後述する予測確率分布算出部１６の予測確率分布の算出の精度が向上する。ディリクレ分布更新部１５は、通常、ＭＰＵやメモリ等から実現され得る。ディリクレ分布更新部１５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

予測確率分布算出部１６は、単位情報取得部１４が単位情報を取得する毎に、単位情報取得部１４が先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報を用いて、次の単位情報に関する確率分布である予測確率分布を、バッファごとに、算出する。この際、予測確率分布算出部１６は、当該バッファに対応する２以上のディリクレ分布をも用いて、バッファごとの予測確率分布を算出する。予測確率分布算出部１６が予測確率分布を算出する具体的な算出式の例は、後述する。予測確率分布算出部１６は、通常、ＭＰＵやメモリ等から実現され得る。予測確率分布算出部１６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

バッファ変化点確率算出部１７は、予測確率分布算出部１６が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出する。バッファ変化点確率算出部１７がバッファ変化点確率を算出する具体的な方法の例は、後述する。バッファ変化点確率算出部１７は、通常、ＭＰＵやメモリ等から実現され得る。バッファ変化点確率算出部１７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

変化点確率算出部１８は、バッファ変化点確率算出部１７が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する。変化点確率算出部１８は、バッファ変化点確率算出部１７が算出したバッファごとのバッファ変化点確率と、重情報格納部１３の各バッファの重情報に基づいて、変化点確率を算出することは好適である。変化点確率算出部１８は、例えば、バッファ変化点確率と重情報の積をバッファごとに算出し（Ｎ個の値が算出される）、当該算出したＮ個の値の和を変化点確率とする。変化点確率算出部１８は、通常、ＭＰＵやメモリ等から実現され得る。変化点確率算出部１８の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

変化点判断部１９は、バッファ変化点確率算出部１７が算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する。変化点判断部１９は、例えば、バッファごとのバッファ変化点確率に基づいて、確率的に「０」（変化点でない）か「１」（変化点である）か、を決定する処理を行う。変化点判断部１９は、通常、ＭＰＵやメモリ等から実現され得る。変化点判断部１９の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

変化点情報蓄積部２０は、変化点判断部１９が直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する。変化点に関する情報は、例えば、各バッファ１１に蓄積される。かかる場合、バッファ１１は、処理対象情報と変化点に関する情報を保持することとなる。変化点に関する情報とは、処理対象情報中の変化点の先頭からのバイト数でも良いし、処理対象情報中の変化点に対応する単位情報のＩＤ（例えば、先頭からの単語数など）でも良い。変化点情報蓄積部２０は、通常、ＭＰＵやメモリ等から実現され得る。変化点情報蓄積部２０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

処理部２１は、変化点確率算出部１８が算出した変化点確率に基づいて所定の処理を行う。所定の処理とは、例えば、変化点確率を蓄積したり、表示したり、外部の装置に送信したりする処理である。所定の処理とは、例えば、変化点確率算出部１８が算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力する処理である。また、処理部２１は、予測確率分布算出部１６が算出したバッファごとの予測確率分布に基づいて、所定の処理を行う。所定の処理とは、例えば、バッファごとの予測確率分布を蓄積したり、表示したり、外部の装置に送信したりする処理である。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、外部の装置への送信等を含む概念である。変化点を決定する処理は、例えば、変化点確率に基づいて、確率的に変化点であるか否かを決定する処理である。「変化点に関する情報を出力する」とは、処理対象情報は文章であり、前記単位情報は単語である場合、例えば、文章中の、区切りとなる単語情報の前に区切り記号（例えば、「｜」）を挿入し、出力することである。また、「変化点に関する情報を出力する」とは、処理対象情報は文章であり、前記単位情報は単語である場合、例えば、変化点となる単位情報を含む段落（例えば、段落は、リターンコードと全角スペースキーで検出される、とする。）の先頭が区切りである旨を出力する。「段落の先頭が区切りである旨を出力する」とは、例えば、当該段落と前段落の境に線を挿入し、出力することである。処理部２１は、通常、ＭＰＵやメモリ等から実現され得る。処理部２１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

重情報更新部２２は、予測確率分布算出部１６が算出したバッファごとの予測確率分布に基づいて、重情報格納部１３の重情報を更新する。各重情報は、当該重情報に対応するバッファの予測確率分布を用いて更新される。重情報更新部２２が重情報を更新するアルゴリズムや算出式の例は、後述する。重情報更新部２２は、通常、ＭＰＵやメモリ等から実現され得る。重情報更新部２２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

リサンプリング部２３は、重情報更新部２２が更新した重情報が第一の閾値と所定の関係（例えば、「第一の閾値以下」）にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定（例えば、最大）の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新する。つまり、あるバッファの重情報が数値で、他のバッファの重情報に比べて著しく低い値の場合、リサンプリング部２３は、当該バッファの影響度は少ないので、影響度の大きいバッファのコピーを構成する。その結果、本情報処理装置は、精度高く変化点を検出できる。なお、リサンプリング部２３がバッファに対応するディリクレ分布等を更新するタイミングは問わない。リサンプリング部２３は、通常、ＭＰＵやメモリ等から実現され得る。リサンプリング部２３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
次に、情報処理装置の動作について図２、図３のフローチャートを用いて説明する。
（ステップＳ２０１）受付部１０は、開始指示を受け付けたか否かを判断する。開始指示を受け付ければステップＳ２０２に行き、開始指示を受け付けなければステップＳ２０１に戻る。
（ステップＳ２０２）単位情報取得部１４は、カウンタｉに１を代入する。

（ステップＳ２０３）単位情報取得部１４は、各バッファ１１に格納されている処理対象情報の中に、ｉ番目の単位情報が存在するか否かを判断する。ｉ番目の単位情報が存在すればステップＳ２０４に行き、ｉ番目の単位情報が存在しなければ処理を終了する。
（ステップＳ２０４）単位情報取得部１４は、カウンタｊに１を代入する。
（ステップＳ２０５）単位情報取得部１４は、ｊはＮ以下であるか否かを判断する。ｊがＮ以下であればステップＳ２０６に行き、ｊがＮより大きければステップＳ２１５に行く。
（ステップＳ２０６）単位情報取得部１４は、ｊ番目のバッファ１１（ｊ）に格納されている処理対象情報の中の、ｉ番目の単位情報を取得する。

（ステップＳ２０７）予測確率分布算出部１６は、ｊ番目のバッファ１１（ｊ）における処理対象情報の中の最も近い変化点以降の単位情報から、ステップＳ２０５で取得した単位情報までの１以上の単位情報（これを適宜、「処理単位情報群」という。）とｊ番目のバッファ１１（ｊ）に対応する２以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を算出する。この予測確率分布は、ｊ番目のバッファ１１（ｊ）の予測確率分布である。

（ステップＳ２０８）ディリクレ分布更新部１５は、処理単位情報群に基づいて、ディリクレ分布格納部１２のディリクレ分布を更新する。このディリクレ分布は、ｊ番目のバッファ１１（ｊ）に対応するディリクレ分布であることは言うまでもない。また、ｊ番目のバッファ１１（ｊ）に対応して１以上の変化点に関する情報が格納されている。また、１番目の単位情報の前は、最初の変化点である。

（ステップＳ２０９）バッファ変化点確率算出部１７は、ステップＳ２０７で算出したｊ番目のバッファ１１（ｊ）に対応する予測確率分布に基づいて、ｊ番目のバッファ１１（ｊ）の直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出する。
（ステップＳ２１０）変化点判断部１９は、ステップＳ２０９で算出したバッファごとのｊ番目のバッファ１１（ｊ）のバッファ変化点確率に基づいて、直前に取得した単位情報が変化点か否かを判断する。
（ステップＳ２１１）変化点情報蓄積部２０は、ステップＳ２１０における判断が変化点であるとの判断の場合はステップＳ２１２に行き、変化点でないとの判断の場合はステップＳ２１３に行く。
（ステップＳ２１２）変化点情報蓄積部２０は、ｊ番目のバッファ１１（ｊ）に対応する変化点に関する情報を蓄積する。なお、変化点に関する情報は、例えば、本単位情報の識別子（先頭からの順序など）である。
（ステップＳ２１３）重情報更新部２２は、ステップＳ２０７で算出した予測確率分布に基づいて、重情報格納部１３の重情報を更新する。
（ステップＳ２１４）単位情報取得部１４は、カウンタｊを１、インクリメントする。ステップＳ２０５に戻る。

（ステップＳ２１５）変化点確率算出部１８は、バッファ変化点確率算出部１７が算出したバッファごとのバッファ変化点確率（Ｎ個のバッファ変化点確率）に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する。通常、変化点確率算出部１８は、バッファ変化点確率算出部１７が算出したバッファごとのバッファ変化点確率と、重情報格納部１３の各バッファの重情報に基づいて、変化点確率を算出する。
（ステップＳ２１６）リサンプリング部２３は、リサンプリング処理を行う。リサンプリング処理の詳細について、図３のフローチャートを用いて説明する。
（ステップＳ２１７）処理部２１は、変化点確率算出部１８が算出した変化点確率に基づいて所定の処理を行う。なお、処理部２１が行う所定の処理は、上述した他の処理でも良い。
（ステップＳ２１８）単位情報取得部１４は、カウンタｉを１、インクリメントする。ステップＳ２０３に戻る。

なお、図２のフローチャートにおいて、ステップＳ２１３の重情報の更新処理は一括して行っても良い。また、重情報の更新処理と他の処理との順序は、上述の順序以外の順序でも良い。その他、図２のフローチャートにおいて、各ステップの処理順序は問わない場合もあり得る。
次に、ステップＳ２１５のリサンプリング処理について図３のフローチャートを用いて説明する。
（ステップＳ３０１）リサンプリング部２３は、重情報格納部１３のＮ個の重情報の中で、最大の重情報を取得する。なお、最大の重情報が２以上存在する場合、どの重情報を取得しても良い。
（ステップＳ３０２）リサンプリング部２３は、最大の重情報に対するバッファのディリクレ分布、および当該バッファに対応する変化点に関する情報を取得する。
（ステップＳ３０３）リサンプリング部２３は、カウンタｊに１を代入する。
（ステップＳ３０４）リサンプリング部２３は、ｊがＮ以下であるか否かを判断する。ｊがＮ以下であればステップＳ３０５に行き、ｊがＮより大きければ上位関数にリターンする。
（ステップＳ３０５）リサンプリング部２３は、ｊ番目の重情報を取得する。

（ステップＳ３０６）リサンプリング部２３は、ｊ番目の重情報が閾値以下であるか否かを判断する。なお、閾値は予め格納されている、とする。また、本ステップの判断において、ｊ番目の重情報が閾より小さいか否かを判断しても良い。つまり、ｊ番目の重情報が閾値に対して所定の関係にあるか否かを判断すれば良い。

（ステップＳ３０７）リサンプリング部２３は、最大の重情報に対するバッファのディリクレ分布、重情報、変化点に関する情報を、ｊ番目の重情報に対するバッファのディリクレ分布、重情報、変化点に関する情報に上書きする。本処理は、重み（重情報）の小さな粒子（バッファ）を消し、重みの大きいサンプルから「子供」を作る処理である。本リサンプリング処理の基準として、重みの変動係数（ＣＶ）を用いることは好適である。ＣＶは、「標準偏差／平均」により算出され得る。
（ステップＳ３０８）リサンプリング部２３は、カウンタｊを１、インクリメントする。ステップＳ３０４に戻る。

なお、図３のフローチャートにおいて、子供を作る元となる情報は、最大の重情報に対応するバッファのディリクレ分布等であった。しかし、子供を作る元となる情報は、重情報が大きな値を有する他の重情報に対応するバッファのディリクレ分布等でも良い。

以下、本実施の形態における情報処理装置の動作について、算出式を用いて説明する。ユーザは、多数の単語を有する複数の文章からなる文書を、情報処理装置に入力する、とする。そして、受付部１０は、文書を受け付ける。ここでは、処理対象情報は文章であり、単位情報は単語である。なお、文章は、例えば、英語の文章である。
次に、Ｎ（Ｎは２以上）個のバッファ１１に、受け付けた文書が格納される。
かかる状況において、ユーザは、開始指示を入力する。次に、受付部１０は、開始指示を受け付ける。
次に、単位情報取得部１４は、Ｎ個のバッファ１１のそれぞれに対して、順次、１単語ずつ単位情報を取得する。

次に、予測確率分布算出部１６は、各バッファ１１の処理対象情報の中の最も近い変化点以降の単語から直前に取得した単語までの1以上の単語を用いて、次の単語に関する確率分布である予測確率分布を、バッファごとに、算出する。その際、予測確率分布算出部１６は、当該バッファに対応する２以上のディリクレ分布を用いる。予測確率分布は、数式１、数式２により算出できる。

なお、数式１において、ｎ（ｙ）は、単位情報（ｙ）が処理単位情報群（処理対象情報の中の最も近い変化点以降の単位情報から、直近に取得した単位情報まで）中に出現した回数である。また、ｈは、変化点から直前に取得した単位情報までの長さである。さらに、α_ｍは、全α_myの和である。
また、数式２において、「λ_ｍ」は、デフォルトの混合比を表す。また、「Γ（α_ｍ）」の「Γ」は、ガンマ関数を表す。

次に、ディリクレ分布更新部１５は、バッファ１１ごとに、処理対象情報の中の最も近い変化点（ここでは、バッファ１１の０バイト目）以降の単位情報から単位情報取得部１４が取得した単位情報までの１以上の単位情報に基づいて、ディリクレ分布格納部１２のディリクレ分布を更新する。更新後のディリクレ分布は、以下の数式３、数式４、数式５により求める。

数式３は、文脈推定のための確率的なテキストモデル（ＤＭ）である。ＤＭにおいて、履歴単語列「ｈ（ベクトル）＝（ｗ_１ｗ_２・・・ｗ_ｔ）」が与えられた場合に、これを仮想的な(順序のない)文書とみなし、次式によって次の語ｙを予測する。なお、数式１の各符号等は、以下の意義を有する。ｈ（ベクトル）は、履歴単語列（処理単位情報群）であり、「ｈ（ベクトル）＝（ｗ_１ｗ_２・・・ｗ_ｔ）」である。「ｗ_１」「ｗ_２」などは、単語（単位情報）を意味する。また、ｙは、次の予測された単語である。また、ｎ（ｙ）は、処理単位情報群中のｙの生起回数、ｈは履歴の長さ（最近の変化点から直前に取得した単位情報まで（処理単位情報群）の長さ）である。また、「λ（ベクトル）」は、混合ディリクレ分布を仮定した場合のＭ個の混合比「λｖ＝λ_１・・・λ_Ｍ」である。ここで、「Ｍ」は、履歴単語列中の単語の数である。また、「αｖ」は、Ｍ個の混合比と対応するディリクレ分布のハイパーパラメータ「α（ベクトル）＝α_１・・・α_Ｍ」である。「α_ｍｙ」は、ベクトル「α_ｍ」の中のｙ番目の要素である。さらに、Ｃ_ｍは数式２で表される。Ｃ_ｍは適切な重みである。かかるＣ_ｍにより、適切な次の語ｙを予測できる。なお、（ベクトル）は、数式中の「→」を示す。
数式４において、「λ_ｍ」は、デフォルトの混合比を表す。「Γ（α_ｍ）」の「Γ」は、ガンマ関数を表す。

数式５において、「ｐ_ｉｍ」は文書ｉがｍ番目の事前分布から生まれた確率である。「ｐ_ｉｍ」を履歴中の仮想的な「文書」に対して計算して和をとることで「λ_ｍ」の事後分布を求めることができる。数式３における処理により、初期のディリクレ分布を、単純に固定的に事前の辞書から構築されたディリクレ分布とするのではなく、初期のディリクレ分布を、事前の辞書、および処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの1以上の単位情報をも考慮したディリクレ分布とすることができる。

図４は、ディリクレ分布の変化の概念を示す図である。図４において、曲線がディリクレ分布であり、各ディリクレ分布は、「ｗ_１ｗ_２・・・ｗ_ｔ」というｔ個の単語の出現確率を示す。図４において、「hospital」という単語が単位情報取得部１４により取得された場合に、単語「nurse」の出現確率が上昇していることを示す。つまり、自然言語には数万から数十万の単語が存在し、それらは独立ではなく、互いに強い相関を持っている。たとえば、「hospital」という単語が出現すれば、「nurse」という単語が出現する確率を上げると、「hospital」の後に「nurse」という別の単語が多く出現しても、それらは関係が深く、潜在的な変化は起こっていないと判断できる。なお、かかる判断については後述する。また、図４に示すように、本情報処理システムにおいて、バッファ１１ごとに、２以上のディリクレ分布が存在する（図４においては、３つである）。

次に、バッファ変化点確率算出部１７は、予測確率分布算出部１６が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出する。バッファ変化点確率は、数式６により算出できる。
なお、数式６において、ａ，ｂは、数式８におけるａ，ｂである。

次に、変化点確率算出部１８は、バッファ変化点確率算出部１７が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する。変化点確率算出部１８は、例えば、バッファ毎に、「バッファ変化点確率×重情報（重み）」を算出し、当該バッファ毎の値の和を、変化点確率とする。

次に、変化点判断部１９は、バッファごとのバッファ変化点確率に基づいて、確率的に「０」（変化点でない）か「１」（変化点である）か、を決定する。つまり、変化点判断部１９は、例えば、バッファごとに、バッファ変化点確率を引数にして、「０」または「１」を発生させる関数（かかる関数は、バッファ変化点確率の値だけ「１」をリターンする関数である。）を実行し、「０」または「１」を得る（ベルヌーイ試行）。
次に、変化点情報蓄積部２０は、変化点判断部１９が直前に取得した単位情報が変化点であると判断した場合（上記の「１」の場合）に、当該変化点に関する情報を蓄積する。

次に、重情報更新部２２は、バッファ変化点確率算出部１７が算出したバッファ変化点確率に基づいて、重情報格納部１３の重情報を更新する。Ｎ個のバッファに対応する重情報の初期値は、すべて「１／Ｎ」である。
そして、重情報更新部２２は、数式７、数式８により、バッファの重情報を更新する。

なお、数式８は、時間ｔまでの観測値Ｙ_ｔと、（ｔ−１）までの変化点系列Ｉ_ｔ−１が与えられたとき、時間ｔで変化が起こった確率ｐ（Ｉ_ｔ＝１｜Ｉ_ｔ−１，Ｙ_ｔ）を求めている。かかる算出式は、ベイズの定理であり、公知である。「Ｉ_ｔ＝１」は変化が起こった場合、「Ｉ_ｔ＝０」は変化が起こらなかった場合である。
そして、情報処理装置は、上記の処理を、全バッファ１１に対して繰り返し行う。

次に、リサンプリング部２３は、リサンプリング処理を行う。リサンプリング処理とは、上記の重情報の更新の処理において、更新された重情報（適宜、「重み」という。）に大きなばらつきが生じた場合, それに適応するために粒子を再サンプルし、重みの小さな粒子を消し、重みの大きいサンプルから「子供」を作る操作である。この際の基準として、重みの変動係数（ＣＶ）を用いるとよい。なお、粒子とは、バッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報などを言う。

次に、処理の完了後、処理部２１は、例えば、バッファ変化点確率算出部１７が算出したバッファごとのバッファ変化点確率を、図５に示すようにグラフで出力しても良い。図５において、第一の軸の「０〜１０００」は、単語数を示している。第二の軸の「０〜０．８」は、バッファ変化点確率を示す。第三の軸の「０〜２０」はバッファを示す。つまり、本例において、バッファ１１の数Ｎは、２０である。図５によれば、概ね、話題の変化箇所が類推できる。

なお、図５を出力するために、ユーザは、図６に示す英語の文章を入力した。そして、情報処理装置は、図６の文章を受け付け、バッファごとのバッファ変化点確率を随時算出し、出力する。かかる出力例が図５である。
また、処理部２１は、話題の変化の単語から、話題転換の段落を決定し、話題転換の段落を視覚的に示す情報を出力しても良い。

さらに、図５において、図７に示すような話題の転換があったことが読み取れる。つまり、ユーザは、図５の出力結果と、図６の文章をチェックすることにより、最初、「香港、政治」のトピックであったのが、「議会」のサブトピックに移行し、次に「香港、ビジネス、中国内政」のトピックに移行し、さらに「経済」のサブトピックに移行したことが容易に読み取れる。なお、図７における各トピックやサブトピックの情報（例えば「トピック：香港、政治」）は、対応する単位情報群から話題抽出処理を行うことにより、自動的に取得され得る。かかる話題抽出処理は公知技術であるので詳細な説明は省略する。
また、上記で説明した情報処理装置を用いて、以下の実験を行った。

つまり、ＢｒｉｔｉｓｈＮａｔｉｏｎａｌＣｏｒｐｕｓ（ＢＮＣ）を使って実験を行った。ＢＮＣはトピックが限定されるＷＳＪ等と異なり、様々なトピックが含まれるバランスドコーパスであり、本実験に適している。実験にはＢＮＣのＷｒｉｔｔｅｎテキスト３，０４３ファイルのうち、ランダムに選んだ１００ファイルを評価データ、残りをＬＤＡ／ＤＭのパラメータ推定のための訓練データとした。ただし，ＢＮＣのテキストは非常に長く（平均約５５，０００語）、そのままの長さではＬＤＡおよびＤＭのパラメータを求めることができない。そこで、ここでは近似として、予備実験により、モデルの性能が低下しない最小のユニットとして１０文を採用し、訓練セットの各テキストを１０文毎に分割して文書としたものを訓練文書群とした。ただし、ＢＮＣのデータは膨大であるため、計算量の問題から、訓練データのそれぞれのファイルを上記に従って分割し、１ファイルあたり最大２０文書をランダムに抽出したものを最終的な訓練データとした。最終的に、ＬＤＡ／ＤＭのパラメータ推定のための文書数は５６，９３９文書、１１，０３２，２３３語のデータとなった。これはＢＮＣ全体の約１／１０に相当する。語彙は頻度５以上の５２，８４６語である。以上のデータを図８に示す。

本情報処理装置は、文書内の文脈の動的な変化をとらえることができ、変化の速度自体も事後分布として求めつつ、予測語の推定を行うものである。なお、変化の速度とは、変化するために要する平均的な単位情報の長さである。また、変化の速度は、変化する事前確率に基づいて決定され得る。

この評価のためには、様々な速度で変化するテキストが必要となるが、ここでは長いテキストから間隔を変化させてサンプリングを行うことで4種類の評価テキストを作成した。そして、手順は、以下のように行った。

第一に、各テキストに対し、最初の文をランダムに選ぶ。第二に、その文から, 連続するＸ文を採取する。第三に、Ｙ文だけスキップする。第四に、求める文数のテキストが得られるまで、第二、第三の処理を繰り返す。上記手順において、Ｘ、Ｙは図９に従う乱数である。この手順にしたがい、種類毎に評価セットの各文書について100文をサンプルし、評価用テキストとした。

ＬＤＡおよびＤＭのパラメータ推定においては、それぞれクラス数をＤＭ＝５０，ＬＤＡ＝２００とした。これは、現在のＤｉｒｉｃｈｌｅｔＭｉｘｔｕｒｅの実装がハイパーパラメータに関して最尤推定になっているため、混合数が少ない方が高い性能を持つからである。なお、ＬＤＡについては、上記の従来技術６に開示されている。
また、文脈変化率を表すベータ分布の事前パラメータは、原理的には一様分布「（α，β）＝（１，１）」としてよいが、ここでは予備実験の結果から、「（α，β）＝（１，５０）」とした。
図１０に、各評価テキストセットに対するＭＳＭ−ＬＤＡ、ＭＳＭ−ＤＭ、ＬＤＡ、ＤＭのユニグラムパープレキシティを示す。ユニグラムパープレキシティとは、平均予測確率の逆数である。

図１０において、「Ｔｅｘｔ」は文書の種類を示す。また、「Ｒａｗ」は実際の文章である、「Ｓｌｏｗ」は「Ｒａｗ」から若干の文書を削除して「Ｆａｓｔ」「ＶＦａｓｔ」より話題の変化を遅くした文章である。「Ｆａｓｔ」は「Ｓｌｏｗ」よりさらに文章を削除して「Ｓｌｏｗ」より話題の変化を速くした文章である。「ＶＦａｓｔ」は「Ｆａｓｔ」よりさらに文章を削除して「Ｆａｓｔ」より話題の変化を速くした文章である。
図１０で、ＭＳＭ−ＬＤＡにおいては、精度上昇はわずかであるが、ＭＳＭ−ＤＭにおいては常にパープレキシティが減少しており、文脈長を適応的に選択する効果があることがわかる。

図１１に、ＭＳＭ−ＤＭの，「Ｒａｗ」セットの各文書に対するパープレキシティ減少のプロットを示す。図１１によれば、ほとんどの文書で効果があり、ＤＭに比較して最大４００程度パープレキシティが減少していることがわかる。
以上、本実施の形態によれば、例えば、自然言語の単語列などの離散的データ中の変化点（例えば、話題の変化点）等を推定できる。

なお、本実施の形態によれば、単位情報は単語であり、処理対象情報は文章であった。かかる場合、本情報処理装置は、文章中の話題の変化点を抽出できる。しかし、単位情報を、例えば、あるユーザが購入した商品ＩＤや商品名とすれば、本情報処理装置は、ユーザが次に購入しそうな商品などが予測できることとなる。かかることにより、商品のレコメンドが可能となり、販売促進に貢献できる。

また、本実施の形態において、単位情報は仮名漢字変換機能の結果である漢字列でも良い。かかる場合、処理対象情報は、漢字列の集合である。この場合、本情報処理装置や情報処理方法をかな漢字変換に利用すれば、精度高く、次の漢字列候補を出力できる。

また、本実施の形態において、単位情報は人気のある映画のタイトルなどのトレンドの情報でも良い。かかる場合、処理対象情報は、トレンド情報列である。この場合、本情報処理装置や情報処理方法は、トレンドの予測に利用できる。つまり、売れる商品やサービスなどを予測することに利用できる。つまり、本実施の形態において、処理対象情報は、離散的データであれば何でも良い。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、２以上の単位情報を時系列的に有する情報である処理対象情報が格納されるＮ（Ｎは２以上）個のバッファを有し、前記各バッファに対応して、Ｎ個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ２以上格納されており、前記各バッファから、単位情報を取得する単位情報取得ステップと、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得ステップで取得した単位情報までの１以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新ステップと、前記単位情報取得ステップで単位情報を取得する毎に、前記単位情報取得ステップで先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、当該バッファに対応する２以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記バッファごとに算出する予測確率分布算出ステップと、前記予測確率分布算出ステップで算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出ステップと、前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断ステップと、前記変化点判断ステップで直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積ステップと、前記バッファ変化点確率算出ステップで算出したバッファ変化点確率、または前記予測確率分布算出ステップで算出したバッファごと予測確率分布に基づいて所定の処理を行う処理ステップを実行させるためのプログラム、である。

また、上記プログラムは、コンピュータに、前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する変化点確率算出ステップを、さらに実行させ、前記処理ステップは、前記変化点確率算出ステップで算出した変化点確率に基づいて所定の処理を行うことは好適である。

また、上記プログラムは、コンピュータに、前記各バッファの重みに関する情報である重情報を格納しており、前記予測確率分布算出ステップで算出したバッファごとの予測確率分布に基づいて、前記重情報を更新する重情報更新ステップをさらに実行させ、前記変化点確率算出ステップは、前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率と、前記各バッファの重情報に基づいて、変化点確率を算出することは好適である。

また、上記プログラムは、コンピュータに、前記重情報更新ステップで更新した重情報が第一の閾値と所定の関係にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新するリサンプリングステップをさらに実行させるプログラムであっても良い。
また、上記プログラムにおける前記処理ステップは、前記変化点確率算出ステップで算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力することは好適である。
また、上記プログラムにおける前記処理対象情報は文章であり、前記単位情報は単語であることは好適である。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図１２は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１２は、このコンピュータシステム３００の概観図であり、図１３は、システム３００のブロック図である。

図１２において、コンピュータシステム３００は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

図１３において、コンピュータ３０１は、ＦＤドライブ３０１１、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１３と、ＣＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２及びＦＤドライブ３０１１に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３０１５と、ＣＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１、またはＦＤ３１０２に記憶されて、ＣＤ−ＲＯＭドライブ３０１２またはＦＤドライブ３０１１に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１、ＦＤ３１０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する２以上の通信手段（情報送信部など）は、物理的に一の媒体で実現されても良いことは言うまでもない。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる情報処理装置は、離散的データ中の変化点（例えば、話題の変化点）等を推定できる等、という効果を有し、言語処理を行う情報処理装置や、トレンドの推定を行う情報処理装置等として有用である。

実施の形態１における情報処理装置のブロック図同情報処理装置の動作について説明するフローチャート同情報処理装置の動作について説明するフローチャート同ディリクレ分布の変化の概念を示す図同情報処理装置の出力例を示す図同入力される文章の例を示す図同情報処理装置の出力の利用について説明する図同実験データを示す図同評価用テキストの性質を説明する図同各評価テキストセットに対するパープレキシティを示す図同ＭＳＭ−ＤＭの「Ｒａｗ」セットの各文書に対するパープレキシティ減少のプロットを示す図同情報処理装置の概観図同情報処理装置のブロック図

符号の説明

１０受付部
１１バッファ
１２ディリクレ分布格納部
１３重情報格納部
１４単位情報取得部
１５ディリクレ分布更新部
１６予測確率分布算出部
１７バッファ変化点確率算出部
１８変化点確率算出部
１９変化点判断部
２０変化点情報蓄積部
２１処理部
２２重情報更新部
２３リサンプリング部

Claims

２以上の単位情報を時系列的に有する情報である処理対象情報が格納されるＮ（Ｎは２以上）個のバッファと、
Ｎ個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ２以上格納されるディリクレ分布格納部と、
前記各バッファから、単位情報を取得する単位情報取得部と、
前記単位情報取得部が単位情報を取得する毎に、前記単位情報取得部が先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、各バッファに対応する２以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記各バッファごとに算出する予測確率分布算出部と、
前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの１以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新部と、
前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出部と、
前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断部と、
前記変化点判断部が直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積部と、
前記バッファ変化点確率算出部が算出したバッファ変化点確率、または前記予測確率分布算出部が算出したバッファごと予測確率分布に基づいて所定の処理を行う処理部を具備する情報処理装置。
前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する変化点確率算出部を、さらに具備し、
前記処理部は、
前記変化点確率算出部が算出した変化点確率に基づいて所定の処理を行う請求項１記載の情報処理装置。
前記各バッファの重みに関する情報である重情報を格納している重情報格納部と、
前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、前記重情報格納部の重情報を更新する重情報更新部をさらに具備し、
前記変化点確率算出部は、
前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率と、前記重情報格納部の各バッファの重情報に基づいて、変化点確率を算出する請求項２記載の情報処理装置。
前記重情報更新部が更新した重情報が第一の閾値と所定の関係にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新するリサンプリング部を、さらに具備する請求項３記載の情報処理装置。
前記ディリクレ分布更新部は、
処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの1以上の単位情報をも考慮したディリクレ分布に対して、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの１以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新する請求項１から請求項４いずれか記載の情報処理装置。
前記処理部は、
前記変化点確率算出部が算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力する請求項１から請求項５いずれか記載の情報処理装置。
前記処理対象情報は文章であり、前記単位情報は単語である請求項請求項１から請求項６いずれか記載の情報処理装置。
コンピュータに、
２以上の単位情報を時系列的に有する情報である処理対象情報が格納されるＮ（Ｎは２以上）個のバッファを有し、
前記各バッファに対応して、Ｎ個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ２以上格納されており、
前記各バッファから、単位情報を取得する単位情報取得ステップと、
前記単位情報取得ステップで単位情報を取得する毎に、前記単位情報取得ステップで先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、各バッファに対応する２以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記バッファごとに算出する予測確率分布算出ステップと、
前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得ステップで取得した単位情報までの１以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新ステップと、
前記予測確率分布算出ステップで算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出ステップと、
前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断ステップと、
前記変化点判断ステップで直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積ステップと、
前記バッファ変化点確率算出ステップで算出したバッファ変化点確率、または前記予測確率分布算出ステップで算出したバッファごと予測確率分布に基づいて所定の処理を行う処理ステップを実行させるためのプログラム。