JP2007011571A - 情報処理装置、およびプログラム - Google Patents

情報処理装置、およびプログラム Download PDF

Info

Publication number
JP2007011571A
JP2007011571A JP2005189912A JP2005189912A JP2007011571A JP 2007011571 A JP2007011571 A JP 2007011571A JP 2005189912 A JP2005189912 A JP 2005189912A JP 2005189912 A JP2005189912 A JP 2005189912A JP 2007011571 A JP2007011571 A JP 2007011571A
Authority
JP
Japan
Prior art keywords
information
unit
change point
buffer
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005189912A
Other languages
English (en)
Inventor
Daichi Mochihashi
大地 持橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005189912A priority Critical patent/JP2007011571A/ja
Publication of JP2007011571A publication Critical patent/JP2007011571A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】従来の情報処理装置においては、自然言語の単語列の中の話題の変化点を推定できない、という課題があった。
【解決手段】処理対象情報が格納されるN個のバッファと、前記各バッファに対応付けて、ディリクレ分布を、それぞれ2以上格納しており、各バッファから、単位情報を取得し、バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から直前の単位情報までの1以上の単位情報に基づいて、ディリクレ分布を更新し、各バッファに対応する2以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、バッファごとに算出し、算出したバッファごとの予測確率分布に基づいて、バッファ変化点確率を算出し、バッファ変化点確率に基づいて所定の処理を行う情報処理装置により、自然言語の単語列の中の話題の変化点を推定できる。
【選択図】図1

Description

本発明は、話題の変化点等を検出する情報処理装置等に関するものである。
従来の情報処理装置が扱うモデルとして、Mean Shift Model(MSM)がある(例えば、非特許文献1参照)。MSMとは、文脈追跡のために、隠れた多項分布自体の変化をとらえるモデルである。これはHMMの一種であるが、通常の離散HMMとは違う。通常のHMMでは、真の状態はM個の離散状態のどれか一つであり、その確率的な推定値として多項分布を得るが、ここでは、真の状態自体が多項分布であり、その確率的な推定値として多項分布の分布(ディリクレ分布または混合ディリクレ分布)を得る。MSMとは、隠れ状態の間欠的な変化を記述する生成モデルであり、例えば、正規分布について導入され得る。
非特許文献1におけるMSMに対して、Particle Filterを用いることで変化率をも動的に推定する拡張がなされた(非特許文献2)。非特許文献2における情報処理装置は、変化率を動的に推定する手法をDNA系列の推定に用いている。
なお、Particle Filterとは、モンテカルロ法をオンラインで行うアルゴリズムであり、近年の計算資源の増大に伴い、主に実ベクトル空間を対象として、信号処理やロボティクスなどの分野で使用されてきた(非特許文献3参照)。
また、関連する技術として、文脈推定のための確率的なテキストモデルであるDM(Dirichlet Mixture)がある(非特許文献4参照)。DMは、テキストのもつ多項分布の事前分布としてディリクレ分布ではなく、混合ディリクレ分布を仮定し、そのM個の混合比「λ(ベクトル)=λ・・・λ」と対応するディリクレ分布のハイパーパラメータ「α(ベクトル)=α・・・α」を、EM法とNewton法(高速化のため,実際には近似)を組み合わせることでコーパスから推定する技術である。
さらに、関連する技術として、Latent Dirichlet Allocation (LDA)がある(非特許文献5参照)。LDAとは、テキスト集合の確率モデルであり、潜在意味モデルとして知られるPLSI(非特許文献6参照)のベイズ的な発展形である。
Chernoff, H、他1名,「Estimating the Current Mean of a Normal Distribution Which is Subject to Changes in Time」、Annals of Mathematical Statistics、1964、35、p.999-1018 Yuguo Chen、他1名,「Sequential Monte Carlo Methods for Filtering and Smoothing in Hidden Markov Models」、Institute of Statistics and Decision Sciences, Duke University、Discussion Paper、2003、03-19 Arnaud Doucet、他2名,「Sequential Monte Carlo Methods in Practice」、Statistics for Engineering and Information Science、Springer-Verlag、2001 山本 幹雄、他2名,「混合ディリクレ分布を用いた文脈のモデル化と言語モデルへの応用」、情報処理学会研究報告 2003-SLP-48、2003、p.29-34 David M. Blei、他2名,「Latent Dirichlet Allocation」、Journal of Machine Learning Research 、3、2003、p.993-1022 Thomas Hofmann、「Probabilistic Latent Semantic Indexing」、Proc. of SIGIR '99、1999、p. 50-57
しかしながら、従来の情報処理装置、特に、非特許文献2の情報処理装置においては、ATGCの4種類しかアルファベットを持たないDNA系列の推定しかできなかった、という課題があった。つまり、例えば、自然言語には数万から数十万の単語が存在し、それらは独立ではなく、互いに強い相関を持っている。たとえば、「病院」という単語の後に「看護婦」という別の単語が多く出現しても、それらは関係が深く、潜在的な変化は起こっていないと考えられるが、やはり別の記号である「大学」がその後に多く出現すれば、それは別の話題に移った(この場合、「大学病院」というサブトピックに移った)と解すべきである。アルファベットを独立に扱う上記の従来の情報処理装置におけるMSMでは、この関係はとらえることができない。
本第一の発明の情報処理装置は、2以上の単位情報を時系列的に有する情報である処理対象情報が格納されるN(Nは2以上)個のバッファと、前記各バッファに対応して、N個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ2以上格納されるディリクレ分布格納部と、前記各バッファから、単位情報を取得する単位情報取得部と、前記単位情報取得部が単位情報を取得する毎に、前記単位情報取得部が先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、各バッファに対応する2以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記各バッファごとに算出する予測確率分布算出部と、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの1以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新部と、前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出部と、前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断部と、前記変化点判断部が直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積部と、前記バッファ変化点確率算出部が算出したバッファ変化点確率、または前記予測確率分布算出部が算出したバッファごと予測確率分布に基づいて所定の処理を行う処理部を具備する情報処理装置である。
かかる構成により、例えば、自然言語の単語列の中の話題の変化点等を推定できる。
また、本第二の発明の情報処理装置は、第一の発明に対して、前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する変化点確率算出部を、さらに具備し、前記処理部は、前記変化点確率算出部が算出した変化点確率に基づいて所定の処理を行う情報処理装置である。
かかる構成により、例えば、自然言語の単語列の中の話題の変化点等を推定できる。
また、本第三の発明の情報処理装置は、第二の発明に対して、前記各バッファの重みに関する情報である重情報を格納している重情報格納部と、前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、前記重情報格納部の重情報を更新する重情報更新部をさらに具備し、前記変化点確率算出部は、前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率と、前記重情報格納部の各バッファの重情報に基づいて、変化点確率を算出する情報処理装置である。
かかる構成により、例えば、さらに精度高く、自然言語の単語列の中の話題の変化点等を推定できる。
また、本第四の発明の情報処理装置は、第三の発明に対して、前記重情報更新部が更新した重情報が第一の閾値と所定の関係にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新するリサンプリング部を、さらに具備する情報処理装置である。
かかる構成により、例えば、さらに精度高く、自然言語の単語列の中の話題の変化点等を推定できる。
また、本第五の発明の情報処理装置は、第一から第四いずれかの発明に対して、前記ディリクレ分布更新部は、処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの1以上の単位情報をも考慮したディリクレ分布に対して、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの1以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新する情報処理装置である。
かかる構成により、例えば、さらに精度高く、自然言語の単語列の中の話題の変化点等を推定できる。
また、本第六の発明の情報処理装置は、第一から第五いずれかの発明に対して、前記処理部は、前記変化点確率算出部が算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力する情報処理装置である。
かかる構成により、例えば、自然言語の単語列の中の話題の変化点に関する情報を出力できる。
本発明による情報処理装置によれば、例えば、自然言語の単語列などの離散的データ中の変化点(例えば、話題の変化点)等を推定できる。
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における情報処理装置のブロック図である。
情報処理装置は、受付部10、N(Nは2以上)個のバッファ11、ディリクレ分布格納部12、重情報格納部13、単位情報取得部14、ディリクレ分布更新部15、予測確率分布算出部16、バッファ変化点確率算出部17、変化点確率算出部18、変化点判断部19、変化点情報蓄積部20、処理部21、重情報更新部22、リサンプリング部23を具備する。また、情報処理装置は、指示などを入力するキーボード302、マウス303や、処理結果を表示するディスプレイ304を具備する。
受付部10は、処理の開始の指示である開始指示を受け付ける。また、受付部10は、N個のバッファ11に格納される文章などを受け付けも良い。開始指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部10は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
バッファ11は、2以上の単位情報を時系列的に有する情報である処理対象情報が格納される。バッファ11は、N(Nは2以上)個存在する。単位情報とは、一まとまりの情報である。単位情報は、例えば、単語である。また、処理対象情報とは、本情報処理装置が処理を行う対象の情報である。処理対象情報は、2以上の単位情報を含む。単位情報が単語の場合、処理対象情報は、単語列である。かかる場合、処理対象情報は、文章である。また、かかる場合の処理対象情報の言語は、英語、日本語等、問わない。また、単位情報は、例えば、あるユーザが購入した商品IDや商品名である。かかる場合、処理対象情報は、あるユーザの一連の購入履歴の情報(商品IDの列など)である。また、単位情報は、例えば、人気のある映画のタイトルなどのトレンドの情報である。かかる場合、処理対象情報は、トレンドの情報列である。N個のバッファ11には、同一の処理対象情報が格納される。また、上記の「時系列的に有する情報」とは、単位情報には順序がある、ということである。バッファ11は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。また、本情報処理装置に、N個のバッファ11とは別に、記録媒体が存在し、かかる記憶媒体に処理対象情報が格納されており、当該処理対象情報がN個のバッファ11に読み込まれる構成でも良い。
ディリクレ分布格納部12は、各バッファ11に対応して、N個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、各バッファ11に対応付けて、それぞれ2以上格納される。ディリクレ分布格納部12に格納されているディリクレ分布の初期の情報は、通常、事前の辞書から構築されたディリクレ分布である。なお、ディリクレ分布については、公知技術であるが、同様の情報について、本明細書のディリクレ分布に含まれることは言うまでもない。ディリクレ分布格納部12におけるバッファ11とディリクレ分布の対応の方法は問わない。ディリクレ分布格納部12において、例えば、ディリクレ分布とバッファ11が同じIDを持っている。また、ディリクレ分布格納部12のディリクレ分布の格納順序が、バッファ11の並びと一致しても良い。ディリクレ分布格納部12は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。なお、ディリクレ分布格納部12のディリクレ分布は、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報を用いて、ディリクレ分布更新部15により動的に構成される。かかる処理も公知技術である。
重情報格納部13は、各バッファの重みに関する情報である重情報を格納している。重情報は、例えば、「1.3」「0.8」などの重みの係数でも良いし、「A」「B」などのランクを示す情報でも良い。重情報が「A」「B」などのランクを示す情報である場合、例えば、「A」は1、「B」は3、などと数値に対応付けられることは好適である。重情報格納部13は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
単位情報取得部14は、各バッファ11から、単位情報を取得する。単位情報取得部14は、通常、各バッファ11から、順次、単位情報を取得する。ここで、「順次」とは、必ずしも、一つずつ単位情報を読み出さなくても良い。つまり、例えば、予測確率分布算出部16が一つずつ(ここで、「一つ」ということも例であり、二つずつでも良い。また、単位情報を1以上有する文章単位でも良い。)増加した単位情報を用いて、予測確率分布を算出すれば良い。ただし、単位情報取得部14は、通常、バッファ11ごとに、単位情報の読み出しのポインタを持っており、当該ポインタが示す箇所の単位情報を読み出す。そして、単位情報取得部14は、単位情報の読み出し後、ポインタを進める。単位情報取得部14は、通常、MPUやメモリ等から実現され得る。単位情報取得部14の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ディリクレ分布更新部15は、バッファ11ごとに、処理対象情報の中の最も近い変化点以降の単位情報から単位情報取得部14が取得した単位情報までの1以上の単位情報に基づいて、ディリクレ分布格納部12のディリクレ分布を更新する。ディリクレ分布更新部15は、通常、初期のディリクレ分布に対して、処理対象情報の中の最も近い変化点以降の単位情報から単位情報取得部14が取得した単位情報までの1以上の単位情報に基づいて、更新処理を行う。かかるディリクレ分布更新部15がディリクレ分布を更新する処理は公知技術であるので、詳細な説明を省略する。
なお、ディリクレ分布更新部15は、処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの1以上の単位情報をも考慮したディリクレ分布に対して、処理対象情報の中の最も近い変化点以降の単位情報から単位情報取得部14が取得した単位情報までの1以上の単位情報に基づいて、更新処理を行っても良い。かかる処理により、後述する予測確率分布算出部16の予測確率分布の算出の精度が向上する。ディリクレ分布更新部15は、通常、MPUやメモリ等から実現され得る。ディリクレ分布更新部15の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
予測確率分布算出部16は、単位情報取得部14が単位情報を取得する毎に、単位情報取得部14が先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報を用いて、次の単位情報に関する確率分布である予測確率分布を、バッファごとに、算出する。この際、予測確率分布算出部16は、当該バッファに対応する2以上のディリクレ分布をも用いて、バッファごとの予測確率分布を算出する。予測確率分布算出部16が予測確率分布を算出する具体的な算出式の例は、後述する。予測確率分布算出部16は、通常、MPUやメモリ等から実現され得る。予測確率分布算出部16の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
バッファ変化点確率算出部17は、予測確率分布算出部16が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出する。バッファ変化点確率算出部17がバッファ変化点確率を算出する具体的な方法の例は、後述する。バッファ変化点確率算出部17は、通常、MPUやメモリ等から実現され得る。バッファ変化点確率算出部17の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
変化点確率算出部18は、バッファ変化点確率算出部17が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する。変化点確率算出部18は、バッファ変化点確率算出部17が算出したバッファごとのバッファ変化点確率と、重情報格納部13の各バッファの重情報に基づいて、変化点確率を算出することは好適である。変化点確率算出部18は、例えば、バッファ変化点確率と重情報の積をバッファごとに算出し(N個の値が算出される)、当該算出したN個の値の和を変化点確率とする。変化点確率算出部18は、通常、MPUやメモリ等から実現され得る。変化点確率算出部18の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
変化点判断部19は、バッファ変化点確率算出部17が算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する。変化点判断部19は、例えば、バッファごとのバッファ変化点確率に基づいて、確率的に「0」(変化点でない)か「1」(変化点である)か、を決定する処理を行う。変化点判断部19は、通常、MPUやメモリ等から実現され得る。変化点判断部19の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
変化点情報蓄積部20は、変化点判断部19が直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する。変化点に関する情報は、例えば、各バッファ11に蓄積される。かかる場合、バッファ11は、処理対象情報と変化点に関する情報を保持することとなる。変化点に関する情報とは、処理対象情報中の変化点の先頭からのバイト数でも良いし、処理対象情報中の変化点に対応する単位情報のID(例えば、先頭からの単語数など)でも良い。変化点情報蓄積部20は、通常、MPUやメモリ等から実現され得る。変化点情報蓄積部20の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
処理部21は、変化点確率算出部18が算出した変化点確率に基づいて所定の処理を行う。所定の処理とは、例えば、変化点確率を蓄積したり、表示したり、外部の装置に送信したりする処理である。所定の処理とは、例えば、変化点確率算出部18が算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力する処理である。また、処理部21は、予測確率分布算出部16が算出したバッファごとの予測確率分布に基づいて、所定の処理を行う。所定の処理とは、例えば、バッファごとの予測確率分布を蓄積したり、表示したり、外部の装置に送信したりする処理である。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、外部の装置への送信等を含む概念である。変化点を決定する処理は、例えば、変化点確率に基づいて、確率的に変化点であるか否かを決定する処理である。「変化点に関する情報を出力する」とは、処理対象情報は文章であり、前記単位情報は単語である場合、例えば、文章中の、区切りとなる単語情報の前に区切り記号(例えば、「|」)を挿入し、出力することである。また、「変化点に関する情報を出力する」とは、処理対象情報は文章であり、前記単位情報は単語である場合、例えば、変化点となる単位情報を含む段落(例えば、段落は、リターンコードと全角スペースキーで検出される、とする。)の先頭が区切りである旨を出力する。「段落の先頭が区切りである旨を出力する」とは、例えば、当該段落と前段落の境に線を挿入し、出力することである。処理部21は、通常、MPUやメモリ等から実現され得る。処理部21の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
重情報更新部22は、予測確率分布算出部16が算出したバッファごとの予測確率分布に基づいて、重情報格納部13の重情報を更新する。各重情報は、当該重情報に対応するバッファの予測確率分布を用いて更新される。重情報更新部22が重情報を更新するアルゴリズムや算出式の例は、後述する。重情報更新部22は、通常、MPUやメモリ等から実現され得る。重情報更新部22の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
リサンプリング部23は、重情報更新部22が更新した重情報が第一の閾値と所定の関係(例えば、「第一の閾値以下」)にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定(例えば、最大)の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新する。つまり、あるバッファの重情報が数値で、他のバッファの重情報に比べて著しく低い値の場合、リサンプリング部23は、当該バッファの影響度は少ないので、影響度の大きいバッファのコピーを構成する。その結果、本情報処理装置は、精度高く変化点を検出できる。なお、リサンプリング部23がバッファに対応するディリクレ分布等を更新するタイミングは問わない。リサンプリング部23は、通常、MPUやメモリ等から実現され得る。リサンプリング部23の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置の動作について図2、図3のフローチャートを用いて説明する。
(ステップS201)受付部10は、開始指示を受け付けたか否かを判断する。開始指示を受け付ければステップS202に行き、開始指示を受け付けなければステップS201に戻る。
(ステップS202)単位情報取得部14は、カウンタiに1を代入する。
(ステップS203)単位情報取得部14は、各バッファ11に格納されている処理対象情報の中に、i番目の単位情報が存在するか否かを判断する。i番目の単位情報が存在すればステップS204に行き、i番目の単位情報が存在しなければ処理を終了する。
(ステップS204)単位情報取得部14は、カウンタjに1を代入する。
(ステップS205)単位情報取得部14は、jはN以下であるか否かを判断する。jがN以下であればステップS206に行き、jがNより大きければステップS215に行く。
(ステップS206)単位情報取得部14は、j番目のバッファ11(j)に格納されている処理対象情報の中の、i番目の単位情報を取得する。
(ステップS207)予測確率分布算出部16は、j番目のバッファ11(j)における処理対象情報の中の最も近い変化点以降の単位情報から、ステップS205で取得した単位情報までの1以上の単位情報(これを適宜、「処理単位情報群」という。)とj番目のバッファ11(j)に対応する2以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を算出する。この予測確率分布は、j番目のバッファ11(j)の予測確率分布である。
(ステップS208)ディリクレ分布更新部15は、処理単位情報群に基づいて、ディリクレ分布格納部12のディリクレ分布を更新する。このディリクレ分布は、j番目のバッファ11(j)に対応するディリクレ分布であることは言うまでもない。また、j番目のバッファ11(j)に対応して1以上の変化点に関する情報が格納されている。また、1番目の単位情報の前は、最初の変化点である。
(ステップS209)バッファ変化点確率算出部17は、ステップS207で算出したj番目のバッファ11(j)に対応する予測確率分布に基づいて、j番目のバッファ11(j)の直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出する。
(ステップS210)変化点判断部19は、ステップS209で算出したバッファごとのj番目のバッファ11(j)のバッファ変化点確率に基づいて、直前に取得した単位情報が変化点か否かを判断する。
(ステップS211)変化点情報蓄積部20は、ステップS210における判断が変化点であるとの判断の場合はステップS212に行き、変化点でないとの判断の場合はステップS213に行く。
(ステップS212)変化点情報蓄積部20は、j番目のバッファ11(j)に対応する変化点に関する情報を蓄積する。なお、変化点に関する情報は、例えば、本単位情報の識別子(先頭からの順序など)である。
(ステップS213)重情報更新部22は、ステップS207で算出した予測確率分布に基づいて、重情報格納部13の重情報を更新する。
(ステップS214)単位情報取得部14は、カウンタjを1、インクリメントする。ステップS205に戻る。
(ステップS215)変化点確率算出部18は、バッファ変化点確率算出部17が算出したバッファごとのバッファ変化点確率(N個のバッファ変化点確率)に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する。通常、変化点確率算出部18は、バッファ変化点確率算出部17が算出したバッファごとのバッファ変化点確率と、重情報格納部13の各バッファの重情報に基づいて、変化点確率を算出する。
(ステップS216)リサンプリング部23は、リサンプリング処理を行う。リサンプリング処理の詳細について、図3のフローチャートを用いて説明する。
(ステップS217)処理部21は、変化点確率算出部18が算出した変化点確率に基づいて所定の処理を行う。なお、処理部21が行う所定の処理は、上述した他の処理でも良い。
(ステップS218)単位情報取得部14は、カウンタiを1、インクリメントする。ステップS203に戻る。
なお、図2のフローチャートにおいて、ステップS213の重情報の更新処理は一括して行っても良い。また、重情報の更新処理と他の処理との順序は、上述の順序以外の順序でも良い。その他、図2のフローチャートにおいて、各ステップの処理順序は問わない場合もあり得る。
次に、ステップS215のリサンプリング処理について図3のフローチャートを用いて説明する。
(ステップS301)リサンプリング部23は、重情報格納部13のN個の重情報の中で、最大の重情報を取得する。なお、最大の重情報が2以上存在する場合、どの重情報を取得しても良い。
(ステップS302)リサンプリング部23は、最大の重情報に対するバッファのディリクレ分布、および当該バッファに対応する変化点に関する情報を取得する。
(ステップS303)リサンプリング部23は、カウンタjに1を代入する。
(ステップS304)リサンプリング部23は、jがN以下であるか否かを判断する。jがN以下であればステップS305に行き、jがNより大きければ上位関数にリターンする。
(ステップS305)リサンプリング部23は、j番目の重情報を取得する。
(ステップS306)リサンプリング部23は、j番目の重情報が閾値以下であるか否かを判断する。なお、閾値は予め格納されている、とする。また、本ステップの判断において、j番目の重情報が閾より小さいか否かを判断しても良い。つまり、j番目の重情報が閾値に対して所定の関係にあるか否かを判断すれば良い。
(ステップS307)リサンプリング部23は、最大の重情報に対するバッファのディリクレ分布、重情報、変化点に関する情報を、j番目の重情報に対するバッファのディリクレ分布、重情報、変化点に関する情報に上書きする。本処理は、重み(重情報)の小さな粒子(バッファ)を消し、重みの大きいサンプルから「子供」を作る処理である。本リサンプリング処理の基準として、重みの変動係数(CV)を用いることは好適である。CVは、「標準偏差/平均」により算出され得る。
(ステップS308)リサンプリング部23は、カウンタjを1、インクリメントする。ステップS304に戻る。
なお、図3のフローチャートにおいて、子供を作る元となる情報は、最大の重情報に対応するバッファのディリクレ分布等であった。しかし、子供を作る元となる情報は、重情報が大きな値を有する他の重情報に対応するバッファのディリクレ分布等でも良い。
以下、本実施の形態における情報処理装置の動作について、算出式を用いて説明する。ユーザは、多数の単語を有する複数の文章からなる文書を、情報処理装置に入力する、とする。そして、受付部10は、文書を受け付ける。ここでは、処理対象情報は文章であり、単位情報は単語である。なお、文章は、例えば、英語の文章である。
次に、N(Nは2以上)個のバッファ11に、受け付けた文書が格納される。
かかる状況において、ユーザは、開始指示を入力する。次に、受付部10は、開始指示を受け付ける。
次に、単位情報取得部14は、N個のバッファ11のそれぞれに対して、順次、1単語ずつ単位情報を取得する。
次に、予測確率分布算出部16は、各バッファ11の処理対象情報の中の最も近い変化点以降の単語から直前に取得した単語までの1以上の単語を用いて、次の単語に関する確率分布である予測確率分布を、バッファごとに、算出する。その際、予測確率分布算出部16は、当該バッファに対応する2以上のディリクレ分布を用いる。予測確率分布は、数式1、数式2により算出できる。

なお、数式1において、n(y)は、単位情報(y)が処理単位情報群(処理対象情報の中の最も近い変化点以降の単位情報から、直近に取得した単位情報まで)中に出現した回数である。また、hは、変化点から直前に取得した単位情報までの長さである。さらに、αは、全αmyの和である。
また、数式2において、「λ」は、デフォルトの混合比を表す。また、「Γ(α)」の「Γ」は、ガンマ関数を表す。
次に、ディリクレ分布更新部15は、バッファ11ごとに、処理対象情報の中の最も近い変化点(ここでは、バッファ11の0バイト目)以降の単位情報から単位情報取得部14が取得した単位情報までの1以上の単位情報に基づいて、ディリクレ分布格納部12のディリクレ分布を更新する。更新後のディリクレ分布は、以下の数式3、数式4、数式5により求める。

数式3は、文脈推定のための確率的なテキストモデル(DM)である。DMにおいて、履歴単語列「h(ベクトル)=(w・・・w)」が与えられた場合に、これを仮想的な(順序のない)文書とみなし、次式によって次の語yを予測する。なお、数式1の各符号等は、以下の意義を有する。h(ベクトル)は、履歴単語列(処理単位情報群)であり、「h(ベクトル)=(w・・・w)」である。「w」「w」などは、単語(単位情報)を意味する。また、yは、次の予測された単語である。また、n(y)は、処理単位情報群中のyの生起回数、hは履歴の長さ(最近の変化点から直前に取得した単位情報まで(処理単位情報群)の長さ)である。また、「λ(ベクトル)」は、混合ディリクレ分布を仮定した場合のM個の混合比「λv=λ・・・λ」である。ここで、「M」は、履歴単語列中の単語の数である。また、「αv」は、M個の混合比と対応するディリクレ分布のハイパーパラメータ「α(ベクトル)=α・・・α」である。「αmy」は、ベクトル「α」の中のy番目の要素である。さらに、Cは数式2で表される。Cは適切な重みである。かかるCにより、適切な次の語yを予測できる。なお、(ベクトル)は、数式中の「→」を示す。
数式4において、「λ」は、デフォルトの混合比を表す。「Γ(α)」の「Γ」は、ガンマ関数を表す。
数式5において、「pim」は文書iがm番目の事前分布から生まれた確率である。「pim」を履歴中の仮想的な「文書」に対して計算して和をとることで「λ」の事後分布を求めることができる。数式3における処理により、初期のディリクレ分布を、単純に固定的に事前の辞書から構築されたディリクレ分布とするのではなく、初期のディリクレ分布を、事前の辞書、および処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの1以上の単位情報をも考慮したディリクレ分布とすることができる。
図4は、ディリクレ分布の変化の概念を示す図である。図4において、曲線がディリクレ分布であり、各ディリクレ分布は、「w・・・w」というt個の単語の出現確率を示す。図4において、「hospital」という単語が単位情報取得部14により取得された場合に、単語「nurse」の出現確率が上昇していることを示す。つまり、自然言語には数万から数十万の単語が存在し、それらは独立ではなく、互いに強い相関を持っている。たとえば、「hospital」という単語が出現すれば、「nurse」という単語が出現する確率を上げると、「hospital」の後に「nurse」という別の単語が多く出現しても、それらは関係が深く、潜在的な変化は起こっていないと判断できる。なお、かかる判断については後述する。また、図4に示すように、本情報処理システムにおいて、バッファ11ごとに、2以上のディリクレ分布が存在する(図4においては、3つである)。
次に、バッファ変化点確率算出部17は、予測確率分布算出部16が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出する。バッファ変化点確率は、数式6により算出できる。
なお、数式6において、a,bは、数式8におけるa,bである。
次に、変化点確率算出部18は、バッファ変化点確率算出部17が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する。変化点確率算出部18は、例えば、バッファ毎に、「バッファ変化点確率×重情報(重み)」を算出し、当該バッファ毎の値の和を、変化点確率とする。
次に、変化点判断部19は、バッファごとのバッファ変化点確率に基づいて、確率的に「0」(変化点でない)か「1」(変化点である)か、を決定する。つまり、変化点判断部19は、例えば、バッファごとに、バッファ変化点確率を引数にして、「0」または「1」を発生させる関数(かかる関数は、バッファ変化点確率の値だけ「1」をリターンする関数である。)を実行し、「0」または「1」を得る(ベルヌーイ試行)。
次に、変化点情報蓄積部20は、変化点判断部19が直前に取得した単位情報が変化点であると判断した場合(上記の「1」の場合)に、当該変化点に関する情報を蓄積する。
次に、重情報更新部22は、バッファ変化点確率算出部17が算出したバッファ変化点確率に基づいて、重情報格納部13の重情報を更新する。N個のバッファに対応する重情報の初期値は、すべて「1/N」である。
そして、重情報更新部22は、数式7、数式8により、バッファの重情報を更新する。
なお、数式8は、時間tまでの観測値Yと、(t−1)までの変化点系列It−1が与えられたとき、時間tで変化が起こった確率p(I=1|It−1,Y)を求めている。かかる算出式は、ベイズの定理であり、公知である。「I=1」は変化が起こった場合、「I=0」は変化が起こらなかった場合である。
そして、情報処理装置は、上記の処理を、全バッファ11に対して繰り返し行う。
次に、リサンプリング部23は、リサンプリング処理を行う。リサンプリング処理とは、上記の重情報の更新の処理において、更新された重情報(適宜、「重み」という。)に大きなばらつきが生じた場合, それに適応するために粒子を再サンプルし、重みの小さな粒子を消し、重みの大きいサンプルから「子供」を作る操作である。この際の基準として、重みの変動係数(CV)を用いるとよい。なお、粒子とは、バッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報などを言う。
次に、処理の完了後、処理部21は、例えば、バッファ変化点確率算出部17が算出したバッファごとのバッファ変化点確率を、図5に示すようにグラフで出力しても良い。図5において、第一の軸の「0〜1000」は、単語数を示している。第二の軸の「0〜0.8」は、バッファ変化点確率を示す。第三の軸の「0〜20」はバッファを示す。つまり、本例において、バッファ11の数Nは、20である。図5によれば、概ね、話題の変化箇所が類推できる。
なお、図5を出力するために、ユーザは、図6に示す英語の文章を入力した。そして、情報処理装置は、図6の文章を受け付け、バッファごとのバッファ変化点確率を随時算出し、出力する。かかる出力例が図5である。
また、処理部21は、話題の変化の単語から、話題転換の段落を決定し、話題転換の段落を視覚的に示す情報を出力しても良い。
さらに、図5において、図7に示すような話題の転換があったことが読み取れる。つまり、ユーザは、図5の出力結果と、図6の文章をチェックすることにより、最初、「香港、政治」のトピックであったのが、「議会」のサブトピックに移行し、次に「香港、ビジネス、中国内政」のトピックに移行し、さらに「経済」のサブトピックに移行したことが容易に読み取れる。なお、図7における各トピックやサブトピックの情報(例えば「トピック:香港、政治」)は、対応する単位情報群から話題抽出処理を行うことにより、自動的に取得され得る。かかる話題抽出処理は公知技術であるので詳細な説明は省略する。
また、上記で説明した情報処理装置を用いて、以下の実験を行った。
つまり、British National Corpus(BNC)を使って実験を行った。BNCはトピックが限定されるWSJ等と異なり、様々なトピックが含まれるバランスドコーパスであり、本実験に適している。実験にはBNCのWrittenテキスト3,043ファイルのうち、ランダムに選んだ100ファイルを評価データ、残りをLDA/DMのパラメータ推定のための訓練データとした。ただし,BNCのテキストは非常に長く(平均約55,000語)、そのままの長さではLDAおよびDMのパラメータを求めることができない。そこで、ここでは近似として、予備実験により、モデルの性能が低下しない最小のユニットとして10文を採用し、訓練セットの各テキストを10文毎に分割して文書としたものを訓練文書群とした。ただし、BNCのデータは膨大であるため、計算量の問題から、訓練データのそれぞれのファイルを上記に従って分割し、1ファイルあたり最大20文書をランダムに抽出したものを最終的な訓練データとした。最終的に、LDA/DMのパラメータ推定のための文書数は56,939文書、11,032,233語のデータとなった。これはBNC全体の約1/10に相当する。語彙は頻度5以上の52,846語である。以上のデータを図8に示す。
本情報処理装置は、文書内の文脈の動的な変化をとらえることができ、変化の速度自体も事後分布として求めつつ、予測語の推定を行うものである。なお、変化の速度とは、変化するために要する平均的な単位情報の長さである。また、変化の速度は、変化する事前確率に基づいて決定され得る。
この評価のためには、様々な速度で変化するテキストが必要となるが、ここでは長いテキストから間隔を変化させてサンプリングを行うことで4種類の評価テキストを作成した。そして、手順は、以下のように行った。
第一に、各テキストに対し、最初の文をランダムに選ぶ。第二に、その文から, 連続するX文を採取する。第三に、Y文だけスキップする。第四に、求める文数のテキストが得られるまで、第二、第三の処理を繰り返す。上記手順において、X、Yは図9に従う乱数である。この手順にしたがい、種類毎に評価セットの各文書について100文をサンプルし、評価用テキストとした。
LDAおよびDMのパラメータ推定においては、それぞれクラス数をDM=50,LDA=200とした。これは、現在のDirichlet Mixtureの実装がハイパーパラメータに関して最尤推定になっているため、混合数が少ない方が高い性能を持つからである。なお、LDAについては、上記の従来技術6に開示されている。
また、文脈変化率を表すベータ分布の事前パラメータは、原理的には一様分布「(α,β)=(1,1)」としてよいが、ここでは予備実験の結果から、「(α,β)=(1,50)」とした。
図10に、各評価テキストセットに対するMSM−LDA、MSM−DM、LDA、DMのユニグラムパープレキシティを示す。ユニグラムパープレキシティとは、平均予測確率の逆数である。
図10において、「Text」は文書の種類を示す。また、「Raw」は実際の文章である、「Slow」は「Raw」から若干の文書を削除して「Fast」「VFast」より話題の変化を遅くした文章である。「Fast」は「Slow」よりさらに文章を削除して「Slow」より話題の変化を速くした文章である。「VFast」は「Fast」よりさらに文章を削除して「Fast」より話題の変化を速くした文章である。
図10で、MSM−LDAにおいては、精度上昇はわずかであるが、MSM−DMにおいては常にパープレキシティが減少しており、文脈長を適応的に選択する効果があることがわかる。
図11に、MSM−DMの,「Raw」セットの各文書に対するパープレキシティ減少のプロットを示す。図11によれば、ほとんどの文書で効果があり、DMに比較して最大400程度パープレキシティが減少していることがわかる。
以上、本実施の形態によれば、例えば、自然言語の単語列などの離散的データ中の変化点(例えば、話題の変化点)等を推定できる。
なお、本実施の形態によれば、単位情報は単語であり、処理対象情報は文章であった。かかる場合、本情報処理装置は、文章中の話題の変化点を抽出できる。しかし、単位情報を、例えば、あるユーザが購入した商品IDや商品名とすれば、本情報処理装置は、ユーザが次に購入しそうな商品などが予測できることとなる。かかることにより、商品のレコメンドが可能となり、販売促進に貢献できる。
また、本実施の形態において、単位情報は仮名漢字変換機能の結果である漢字列でも良い。かかる場合、処理対象情報は、漢字列の集合である。この場合、本情報処理装置や情報処理方法をかな漢字変換に利用すれば、精度高く、次の漢字列候補を出力できる。
また、本実施の形態において、単位情報は人気のある映画のタイトルなどのトレンドの情報でも良い。かかる場合、処理対象情報は、トレンド情報列である。この場合、本情報処理装置や情報処理方法は、トレンドの予測に利用できる。つまり、売れる商品やサービスなどを予測することに利用できる。つまり、本実施の形態において、処理対象情報は、離散的データであれば何でも良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、2以上の単位情報を時系列的に有する情報である処理対象情報が格納されるN(Nは2以上)個のバッファを有し、前記各バッファに対応して、N個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ2以上格納されており、前記各バッファから、単位情報を取得する単位情報取得ステップと、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得ステップで取得した単位情報までの1以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新ステップと、前記単位情報取得ステップで単位情報を取得する毎に、前記単位情報取得ステップで先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、当該バッファに対応する2以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記バッファごとに算出する予測確率分布算出ステップと、前記予測確率分布算出ステップで算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出ステップと、前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断ステップと、前記変化点判断ステップで直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積ステップと、前記バッファ変化点確率算出ステップで算出したバッファ変化点確率、または前記予測確率分布算出ステップで算出したバッファごと予測確率分布に基づいて所定の処理を行う処理ステップを実行させるためのプログラム、である。
また、上記プログラムは、コンピュータに、前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する変化点確率算出ステップを、さらに実行させ、前記処理ステップは、前記変化点確率算出ステップで算出した変化点確率に基づいて所定の処理を行うことは好適である。
また、上記プログラムは、コンピュータに、前記各バッファの重みに関する情報である重情報を格納しており、前記予測確率分布算出ステップで算出したバッファごとの予測確率分布に基づいて、前記重情報を更新する重情報更新ステップをさらに実行させ、前記変化点確率算出ステップは、前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率と、前記各バッファの重情報に基づいて、変化点確率を算出することは好適である。
また、上記プログラムは、コンピュータに、前記重情報更新ステップで更新した重情報が第一の閾値と所定の関係にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新するリサンプリングステップをさらに実行させるプログラムであっても良い。
また、上記プログラムにおける前記処理ステップは、前記変化点確率算出ステップで算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力することは好適である。
また、上記プログラムにおける前記処理対象情報は文章であり、前記単位情報は単語であることは好適である。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、図12は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図12は、このコンピュータシステム300の概観図であり、図13は、システム300のブロック図である。
図12において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
図13において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(情報送信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる情報処理装置は、離散的データ中の変化点(例えば、話題の変化点)等を推定できる等、という効果を有し、言語処理を行う情報処理装置や、トレンドの推定を行う情報処理装置等として有用である。
実施の形態1における情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作について説明するフローチャート 同ディリクレ分布の変化の概念を示す図 同情報処理装置の出力例を示す図 同入力される文章の例を示す図 同情報処理装置の出力の利用について説明する図 同実験データを示す図 同評価用テキストの性質を説明する図 同各評価テキストセットに対するパープレキシティを示す図 同MSM−DMの「Raw」セットの各文書に対するパープレキシティ減少のプロットを示す図 同情報処理装置の概観図 同情報処理装置のブロック図
符号の説明
10 受付部
11 バッファ
12 ディリクレ分布格納部
13 重情報格納部
14 単位情報取得部
15 ディリクレ分布更新部
16 予測確率分布算出部
17 バッファ変化点確率算出部
18 変化点確率算出部
19 変化点判断部
20 変化点情報蓄積部
21 処理部
22 重情報更新部
23 リサンプリング部

Claims (8)

  1. 2以上の単位情報を時系列的に有する情報である処理対象情報が格納されるN(Nは2以上)個のバッファと、
    N個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ2以上格納されるディリクレ分布格納部と、
    前記各バッファから、単位情報を取得する単位情報取得部と、
    前記単位情報取得部が単位情報を取得する毎に、前記単位情報取得部が先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、各バッファに対応する2以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記各バッファごとに算出する予測確率分布算出部と、
    前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの1以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新部と、
    前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出部と、
    前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断部と、
    前記変化点判断部が直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積部と、
    前記バッファ変化点確率算出部が算出したバッファ変化点確率、または前記予測確率分布算出部が算出したバッファごと予測確率分布に基づいて所定の処理を行う処理部を具備する情報処理装置。
  2. 前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率に基づいて、直前の単位情報が処理対象情報の中の変化点である確率である変化点確率を算出する変化点確率算出部を、さらに具備し、
    前記処理部は、
    前記変化点確率算出部が算出した変化点確率に基づいて所定の処理を行う請求項1記載の情報処理装置。
  3. 前記各バッファの重みに関する情報である重情報を格納している重情報格納部と、
    前記予測確率分布算出部が算出したバッファごとの予測確率分布に基づいて、前記重情報格納部の重情報を更新する重情報更新部をさらに具備し、
    前記変化点確率算出部は、
    前記バッファ変化点確率算出部が算出したバッファごとのバッファ変化点確率と、前記重情報格納部の各バッファの重情報に基づいて、変化点確率を算出する請求項2記載の情報処理装置。
  4. 前記重情報更新部が更新した重情報が第一の閾値と所定の関係にある場合に、当該重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報を、所定の重情報に対応するバッファに対応するディリクレ分布、当該バッファに対応する重情報、および当該バッファに対応する変化点に関する情報にそれぞれ更新するリサンプリング部を、さらに具備する請求項3記載の情報処理装置。
  5. 前記ディリクレ分布更新部は、
    処理対象情報の中の最初の単位情報から最も近い変化点より前の単位情報までの1以上の単位情報をも考慮したディリクレ分布に対して、前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得部が取得した単位情報までの1以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新する請求項1から請求項4いずれか記載の情報処理装置。
  6. 前記処理部は、
    前記変化点確率算出部が算出した変化点確率に基づいて、処理対象情報の中の変化点を決定し、当該変化点に関する情報を出力する請求項1から請求項5いずれか記載の情報処理装置。
  7. 前記処理対象情報は文章であり、前記単位情報は単語である請求項請求項1から請求項6いずれか記載の情報処理装置。
  8. コンピュータに、
    2以上の単位情報を時系列的に有する情報である処理対象情報が格納されるN(Nは2以上)個のバッファを有し、
    前記各バッファに対応して、N個の単位情報が出現する確率分布の確率に関する情報であるディリクレ分布を、前記各バッファに対応付けて、それぞれ2以上格納されており、
    前記各バッファから、単位情報を取得する単位情報取得ステップと、
    前記単位情報取得ステップで単位情報を取得する毎に、前記単位情報取得ステップで先に取得した1以上の単位情報であり、処理対象情報の中の最も近い変化点以降の単位情報から直前に取得した単位情報までの1以上の単位情報と、各バッファに対応する2以上のディリクレ分布を用いて、次の単位情報に関する確率分布である予測確率分布を、前記バッファごとに算出する予測確率分布算出ステップと、
    前記バッファごとに、処理対象情報の中の最も近い変化点以降の単位情報から前記単位情報取得ステップで取得した単位情報までの1以上の単位情報に基づいて、前記ディリクレ分布格納部のディリクレ分布を更新するディリクレ分布更新ステップと、
    前記予測確率分布算出ステップで算出したバッファごとの予測確率分布に基づいて、各バッファの直前の単位情報が処理対象情報の中の変化点である確率であるバッファ変化点確率を算出するバッファ変化点確率算出ステップと、
    前記バッファ変化点確率算出ステップで算出したバッファごとのバッファ変化点確率に基づいて、バッファごとに、直前に取得した単位情報が変化点か否かを判断する変化点判断ステップと、
    前記変化点判断ステップで直前に取得した単位情報が変化点であると判断した場合に、当該変化点に関する情報を蓄積する変化点情報蓄積ステップと、
    前記バッファ変化点確率算出ステップで算出したバッファ変化点確率、または前記予測確率分布算出ステップで算出したバッファごと予測確率分布に基づいて所定の処理を行う処理ステップを実行させるためのプログラム。
JP2005189912A 2005-06-29 2005-06-29 情報処理装置、およびプログラム Pending JP2007011571A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005189912A JP2007011571A (ja) 2005-06-29 2005-06-29 情報処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005189912A JP2007011571A (ja) 2005-06-29 2005-06-29 情報処理装置、およびプログラム

Publications (1)

Publication Number Publication Date
JP2007011571A true JP2007011571A (ja) 2007-01-18

Family

ID=37750008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005189912A Pending JP2007011571A (ja) 2005-06-29 2005-06-29 情報処理装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP2007011571A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134230A (ja) * 2009-12-25 2011-07-07 Nippon Telegr & Teleph Corp <Ntt> トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
JP2014004640A (ja) * 2012-06-21 2014-01-16 Honda Motor Co Ltd 行動制御システム
KR101575683B1 (ko) 2014-12-23 2015-12-09 고려대학교 산학협력단 시간 흐름에 따른 문맥 기반 트렌드 분석 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134230A (ja) * 2009-12-25 2011-07-07 Nippon Telegr & Teleph Corp <Ntt> トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
JP2014004640A (ja) * 2012-06-21 2014-01-16 Honda Motor Co Ltd 行動制御システム
KR101575683B1 (ko) 2014-12-23 2015-12-09 고려대학교 산학협력단 시간 흐름에 따른 문맥 기반 트렌드 분석 방법

Similar Documents

Publication Publication Date Title
KR101159340B1 (ko) 지수적 모델의 적응
US7275029B1 (en) System and method for joint optimization of language model performance and size
CN109635273A (zh) 文本关键词提取方法、装置、设备及存储介质
CN108595629B (zh) 用于答案选择系统的数据处理方法及应用
JP5379138B2 (ja) 領域辞書の作成
KR101923780B1 (ko) 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치
CN106445915B (zh) 一种新词发现方法及装置
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
CN109271639B (zh) 热门事件发现方法及装置
US20230409908A1 (en) Method of and system for training machine learning algorithm for object classification
CN110008474A (zh) 一种关键短语确定方法、装置、设备及存储介质
JP2007219929A (ja) 感性評価システム及び方法
CN111723260A (zh) 推荐内容的获取方法、装置、电子设备及可读存储介质
JP5522389B2 (ja) 類似度算出装置、類似度算出方法、及びプログラム
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP2007011571A (ja) 情報処理装置、およびプログラム
CN110378486B (zh) 网络嵌入方法、装置、电子设备和存储介质
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
CN111339287B (zh) 摘要生成方法及装置
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
WO2021234577A1 (en) Method of and system for training machine learning algorithm for object classification
JP7099254B2 (ja) 学習方法、学習プログラム及び学習装置
US20160196619A1 (en) Homogenizing time-based seniority signal with transition-based signal