JP2011150450A

JP2011150450A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2011150450A
Application number: JP2010009738A
Authority: JP
Inventors: Shingo Takamatsu; 慎吾高松
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-01-20
Filing date: 2010-01-20
Publication date: 2011-08-04
Also published as: CN102129446A; US20110179034A1; US8321418B2

Abstract

【課題】「近傍の単語は互いに関係がある」という仮定に基づきながらも、その仮定が成立していない可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立する。
【解決手段】ステップＳ１で、処理対象の文書が特徴量抽出部に入力され、ステップＳ２で、特徴量抽出部が、処理対象の文書に含まれる文脈情報毎に特徴量を抽出する。ステップＳ３で、特徴量解析部は、処理対象の文書の各文脈情報の特徴量に対応する潜在変数をギブスサンプリングにより推定する。ステップＳ４で、クラスタリング処理部は、各文脈の文脈トピック比を新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいて、文脈情報（の固有名詞ペア）のクラスタリングを行う。ステップＳ５で、基本情報生成部は、解析結果DBに保持されているクラスタリング結果に基づいて基本情報を生成する。本発明は、文書の統計的自然言語処理に適用することができる。
【選択図】図７

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、文書中における文脈情報（例えば、固有名詞とその前後に存在する所定の数の単語群）に基づいて、類義語解析、多義語解析、２名詞間の関連性解析、単語のモダリティ解析などの統計的自然言語処理を行う場合に用いて好適な情報処理装置、情報処理方法、およびプログラムに関する。

従来、大量の文書を統計的に解析する（統計的自然言語処理を行う）ことにより知識を獲得する試みが広く行われている。例えば、同義語辞書が整備されていない専門的な分野において、その専門的な分野の文書に統計的自然言語処理を行うことにより、その分野の同義語辞書を自動で作成することなどが行われている。このようにして獲得された知識は、例えば、情報検索などのアプリケーションプログラムに利用することができる。

統計的自然言語処理においては、しばしば文脈情報（文書中において注目する単語と、その前後に存在する所定の数の単語からなる単語群を指すものとする）の特徴量が利用される。そして、文脈情報の特徴量の類似度を計算することにより、注目する単語の類義語解析、多義語解析、２名詞間の関連性解析、単語のモダリティ解析などが行われている。例えば、非特許文献１では、固有名詞の関連性の同義解析に文脈情報の特徴量が利用されている。

Takaaki Hasegawa, Satoshi Sekine and Ralph Grishman, "Discovering Relations among Named Entities from Large Corpora", In Proceedings of the Conference of the Association for Computational Linguistics 2004.

ところで、文脈情報を利用した従来の統計的自然言語処理は、「近傍の単語は互いに関係がある」という仮定に基づいている。しかしながら、この仮定は常に正しいとは限らない。すなわち、文脈情報を構成する各単語は、当該文脈情報を含む文書全体に対するトピック（論題）には関連があるものの、当該文脈情報に対するトピックには直接的に関連がないことがある。このような文脈情報を従来の統計的自然言語処理の対象とした場合、解析結果に誤差が生じてしまうことになる。

したがって、「近傍の単語は互いに関係がある」という仮定に基づきながらも、その仮定が成立していない可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立すべきである。

本発明はこのような状況に鑑みてなされたものであり、「近傍の単語は互いに関係がある」という仮定に基づきながらも、その仮定が成立していない可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立できるようにするものである。

本発明の一側面である情報処理装置は、文書に対して統計的自然言語処理を行う情報処理装置において、前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段とを含む。

本発明の一側面である情報処理装置は、前記文脈情報に含まれる前記固有名詞のクラスタリング結果に基づき、前記文脈情報に対応する基本情報を生成する基本情報生成手段をさらに含むことができる。

本発明の一側面である情報処理装置は、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記特徴量の要素を選択する選択手段をさらに含むことができる。

前記特徴量解析手段は、抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、さらに前記文書トピックと前記文脈トピックの混合比も推定するようにすることができる。

前記特徴量抽出手段は、前記文書中の固有名詞を検出する検出手段と、前記文書に対して照応解析を行う照応解析手段と、照応解析された前記文書中に前記固有名詞ペアを設定し、前記固有名詞ペアを含む前記固有名詞ペアの前後の複数の単語からなる前記文脈情報を抽出する抽出手段と、抽出された前記文脈情報から予め用意された語彙辞書に登録されている単語のみを残したものを、前記文脈情報の前記特徴量に設定する設定手段とを含むようにすることができる。

前記統計的自然言語処理は、類義語解析、多義語解析、２名詞間の関連性解析、また単語のモダリティ解析であるようにすることができる。

本発明の一側面である情報処理方法は、文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段とを備え、文書に対して統計的自然言語処理を行う情報処理装置の情報処理方法において、前記特徴量抽出手段による、学習用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第１の特徴量抽出ステップと、前記特徴量解析手段による、学習用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数を推定する第１の特徴量解析ステップと、前記特徴量抽出手段による、解析用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第２の特徴量抽出ステップと、前記特徴量解析手段による、解析用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける文脈トピック比を推定する第２の特徴量解析ステップと、前記クラスタリング手段による、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリングステップとを含む。

本発明の一側面であるプログラムは、文書に対して統計的自然言語処理を行うコンピュータを、前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段として機能させる。

本発明の一側面においては、文書より固有名詞ペアを含む文脈情報が検出され、検出された文脈情報の特徴量が抽出される。また、抽出された文脈情報の特徴量を、文書の全体的なトピックを指す文書トピックと文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析されることにより、確率モデルにおける潜在変数、および文脈トピック比が推定される。さらに、各文脈情報の特徴量に対して推定された文脈トピック比に基づいて、文脈情報に含まれる固有名詞ペアがクラスタリングされる。

本発明の一側面によれば、「近傍の単語は互いに関係がある」という仮定に基づきながらも、その過程が崩れている可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立することができる。

処理対象とする英文書の例を示す図である。本発明を適用した文書解析装置の構成例を示すブロック図である。図２の特徴抽出部の構成例を示すブロック図である。文脈情報とそれに対応する特徴量の例を示す図である。文書を作成過程に対して想定される確率モデルを示す図である。基本情報の一例を示す図である。第１の基本情報生成処理を説明するフローチャートである。特徴量抽出処理を説明するフローチャートである。第２の基本情報生成処理を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。

＜１．本実施の形態＞
［本実施の形態の概要］
本実施の形態である文書解析装置は、英語による文書を対象として、固有名詞を含む文脈情報を利用した統計的自然言語処理により、固有名詞ペアをその関連性に従ってクラスタリングするものである。さらに、このクラスタリング結果に基づいて、文書の中から基本情報（インタネット上に公開されている百科事典サイトWikipediaのinfo boxに相当する情報）を抽出するものである。

図１は、文書解析装置が処理対象とする英語の文書（以下、単に文書と称する）の２例を示している。文書は、複数の文から構成され、文を構成する単語は、文書の全体に対応するトピック（以下、文書トピックと称する）と、各文に対応するトピック（以下、文脈トピックと称する）に従って生成されているものとする。なお、同図の２例は、上述した百科事典サイトWikipediaから抜粋したものである。

同図Ａの文書Ｄ１は、ヒップホップのジャンルに属する音楽アーティストであるエミネム(Eminem)についての出身地、共演者などの情報が記述されている。この場合、文書Ｄ１の全体としてのトピックとしては「ラップ」などが想定され、各文のトピックとしては「生まれ育ち」、「共演」などが想定される。

同図Ｂの文書Ｄ２は、ロックのジャンルに属する音楽アーティストであるポールマッカートニ(Paul McCartney)についての出身地、共演者などの情報が記述されている。この場合、文書Ｄ２の全体としてのトピックとしては「ロック」などが想定され、各文のトピックとしては「生まれ育ち」、「共演」などが想定される。

文書解析装置では、各文書に存在する固有名詞ペアの関連性に注目したいので、文書全体のトピックである「ラップ」、「ロック」に特化した情報は必ずしも必要ではない。そこで、文書全体のトピックに関連する情報を取り除き、各文のトピックに関連する情報にも注目し、それらを同じクラスタにクラスタリングできるようにする。

具体的には、同図Ａの文書から抽出した固有名詞ペア(Saint Joseph，Eminem)と同図Ｂの文書から抽出した固有名詞ペア(Paul McCartney，Liverpool)が同じクラスタにクラスタリングされるようにする。

［文書解析装置の構成例］
図２は、文書解析装置の構成例を示している。この文書解析装置１０は、文書DB（データベース）１１、特徴量抽出部１２、特徴量DB１３、特徴量解析部１４、潜在変数DB１５、クラスタリング処理部１６、解析結果DB１７、および基本情報生成部１８から構成される。

文書DB１１には、図１に示されたような文書が学習用として大量に保持されている。また、文書DB１１には、図１に示されたような文書が解析処理の対象として保持されている。特徴量抽出部１２は、文書DB１１から取得した文書から２つの固有名詞（固有名詞ペア）を含む文脈情報（詳細後述）を検出し、検出した各文脈情報の特徴量を抽出して特徴量DB１３に出力する。特徴量DB１３は、各文書から検出された各文脈情報に対応する特徴量を保持する。

特徴量解析部１４は、各文書が後述する確率モデルを用いて作成されているものと想定し、各文書から検出された各文脈情報に対応する特徴量を、確率モデルを用いて解析し、その結果得られる潜在変数を潜在変数DB１５に出力する。潜在変数DB１５は、各文書から検出された各文脈情報に対応する潜在変数を保持する。

クラスタリング処理部１６は、学習によって得られた各文脈情報に対応する潜在変数に基づき、解析対象の文書の各文脈情報に含まれる固有名詞ペアのクラスタリングを行い、クラスタリング結果を解析結果DB１７に出力する。このクラスタリングにより、同様の意味でありながら異なる単語でその関係が表現されていた固有名詞ペアが同じクラスタにクラスタリングされることになる。具体的には、例えば、”born in Saint Joseph,Eminem”と表現されていた固有名詞ペア(Saint Joseph，Eminem)と、” Paul McCartney was born in Liverpool”と表現されていた固有名詞ペア(Paul McCartney，Liverpool)とが同じクラスタにクラスタリングされる。解析結果DB１７は、固有名詞ペアのクラスタリング結果を保持する。

基本情報生成部１８は、解析結果DB１７に保持されているクラスタリング結果に基づいて基本情報を生成する。

［特徴量抽出部１２の説明］
図３は、図２の特徴量抽出部１２の詳細な構成例を示している。特徴量抽出部１２は、固有名詞抽出部２１、照応解析部２２、文脈情報抽出部２３、ステミング処理部２４、特徴量設定部２５、および語彙辞書２６から構成される。

固有名詞抽出部２１は、処理対象の文書から固有名詞を検出する。照応解析部２２は、処理対象の文書から代名詞、指示詞などの照応詞を検出し、それに対応する名詞を特定し、検出した照応詞のうち、固有名詞に対応するものを当該固有名詞に置換する照応解析処理を行う。

文脈情報抽出部２３は、処理対象の文書から、固有名詞（照応詞が置換されたものも含む）を２単語以上含む文を検出し、検出した文の中で固有名詞ペアを設定し、固有名詞ペア間の単語とその前後の所定数の単語を文脈情報として抽出する。したがって、文脈情報には、少なくとも２単語の固有名詞（固有名詞ペア）が含まれることになる。

ステミング処理部２４は、処理対象の文書から抽出された各文脈情報を構成する各単語の語幹を抽出するステミング(stemming)処理を行う。

特徴量設定部２５は、文脈情報を構成するステミング処理後の単語のうち、語彙辞書２６に登録されている単語（ステミング処理後の単語）のみを残し、語彙辞書２６に登録されていない単語を取り除く。そして、特徴量設定部２５は、取り除かれずに文脈情報に残った単語群を当該文脈情報の特徴量に設定する。特徴量に含まれるステミング処理後の単語を特徴量の要素と称する。

語彙辞書２６には、TF・IDF(term frequency・inverse document frequency)スコアが高い単語がステミング処理後の状態で予め登録されている。逆には、語彙辞書２６には、検索におけるストップワード（the，is，ofなど）、TF・IDFスコアが低い単語、所定の記号などは登録されていない。

なお、文脈情報には、上述したステミング処理後の単語の他、ステミング処理前の単語の品詞、各単語の属性情報、各単語の依存関係などの構文解析情報を含めるようにしてもよい。

図４は、図１に示された文書Ｄ１およびＤ２から抽出された文脈情報（に含まれる固有名詞ペア）とそれに対応する特徴量が特徴量DB１３に保持される状態を示している。同図に示すように、特徴量DB１３には、各文書にはそこから抽出された各文脈情報が対応付けられており、さらに、各文脈情報には特徴量が対応付けられている。

例えば、文書Ｄ１から抽出された、固有名詞(Saint Joseph，Eminem)を含む文脈情報には、その特徴量D1-1として(born，missouri，rais，Detroit，quick，…)が対応付けられている。また、固有名詞(The Source，Eminem)を含む文脈情報には、その特徴量D1-2として(hip-pop，magazin，magazin，featur，unsign，hype，…)が対応付けられている。

同様に、例えば、文書Ｄ２から抽出された、固有名詞(Paul，Liverpoor)を含む文脈情報には、その特徴量D2-1として(born，walton，hospital，england，wher，…)が対応付けられている。また、固有名詞(Paul，Ringo Starr)を含む文脈情報には、その特徴量D2-2として(gain，worldwid，fam，member，beatl，john，…)が対応付けられている。

［特徴量解析部１４にて想定される確率モデルの説明］
文書解析装置１０が処理する文書（学習用の文書、および解析対象の文書）は、複数の文から構成され、文を構成する単語は、文書の全体に対応するトピック（以下、文書トピックと称する）と、各文に対応するトピック（以下、文脈トピックと称する）に従って生成されるものと想定する。

図５は、このような想定に対応する確率モデル（グラフィカルモデル）を示している。同図において、Ｍは文書数、Ｓは各文書の文数、Ｎは各文の特徴量の要素数を表している。また、添え字docは文書に関連することを意味し、添え字conは文脈に関連することを意味する。

この確率モデルでは、文書トピックおよび文脈トピックは所定の辞書単語上の多項分布として表わされる。文書に対しては文書トピックが存在し、各文に対してはそれぞれ異なる文脈トピックが存在する。

文を生成する過程は次のとおりである。すなわち、文書数Ｍ、各文書の文数Ｓ、各文の特徴量の要素数Ｎとし、文書トピック数と文脈トピック数を１０乃至１００の値に設定する。特徴量の要素は次の生成過程で生成される。特徴量の各要素に順序をつける。

全ての文書に対して、

各文書に対して、
（２）文書のトピック生成確率をディリクレ分布ｐ（θ^doc｜α^doc）から生成する。
各文脈に対して、
（３）文脈のトピック比をディリクレ分布ｐ（θ^con｜α^con）から生成する。
（４）文書トピックと文脈トピック間の混合比をディリクレ分布ｐ（ｒ｜α^mix）から生成する。
特徴量の各要素に対して、
（５）文書トピックと文脈トピック間のトピック混合比に基づいて、文書トピックか、または文脈トピックかを選択する。

（７）選択されたトピックに従って多項分布ｐ（ｗ｜φ，ｚ）から特徴量の要素ｗを生成する。

上記の生成過程は次式（１）で表すことができる。

（１）

特徴量解析部１４では、上述した過程を経て生成されたものとして仮定する各文脈情報の特徴量を統計的解析することにより、対応する潜在変数を推定する。

具体的には、次式（２）に示すようにギブスサンプリングにより潜在変数を推定する。

（２）

ここで、c(i，j，t，v)は、ｉ番目の文書のｊ番目の文にトピックｔと語彙ｖが生成された数である。「・」は、その要素について和を取ることを表す。conは文脈トピックに関する周辺化を表す。docは文書トピックに関する周辺化を表す。ijkの添え字は、ｉ番目の文書、ｊ番目の文、ｋ番目の特徴量要素を示す。ｒ_ijkは、その特徴量の要素の生成の際に文書トピックと文脈トピックのどちらが選択されたかを示す。Ｔ^docは文書トピックの数を表す。Ｔ^conは文脈トピックの数を表す。if ｒ_ijk＝docは、文書トピックが選択された場合を表す。if ｒ_ijk＝conは、文脈トピックが選択された場合を表す。

これにより、パラメータおよび潜在変数は次式（３）に示すように計算される。

（３）

ここで、θ_tvは、トピックｔの多項分布においてｖ番目の特徴量要素の生成確率である。θ_itは、ｉ番目の文書がｔ番目の文書トピックを生成する確率である。θ_ijtは、ｉ番目の文書のｊ番目の文脈がｔ番目の文脈トピックを生成する確率である。if ｔ∈docは、トピックが文書トピックに含まれる場合を表す。if ｔ∈conは、トピックが文脈トピックに含まれる場合を表す。

例えば、図４に示された特徴量を例とすると、次のようにパラメータが学習されることが期待できる。特定の文書のみに出現する単語である”hip-hop”，”Missouri”などは文書トピックから出現し易く、”born”，”rais”などは文脈トピックから出現し易くなる。このようにして学習用の各文書、各文脈について推定された各潜在変数は潜在変数DB１５に記憶される。

解析対象の文書については、トピックφ_tvを固定し、新たな特徴量についてθ_ijtとθ_itを推定すればよい。

［クラスタリング処理部１６の説明］
クラスタリング処理部１６は、推定された潜在変数を利用して解析対象の文書の文脈情報（に含まれる固有名詞ペア）をクラスタリングする。具体的には、各文脈の文脈トピック比θ^conが文脈の情報を示しているので、この文脈トピック比θ^conを新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいてクラスタリングを行う。ここでは、k-meansを利用したクラスタリング手法や、混合分布を利用したクラスタリング手法を適用することにする。ただし、その他のクラスタリング手法を適用してもかなわない。本実施の形態とは直接関係しないが、分類に適用することもできる。

このクラスタリングにより、例えば、図４に示された特徴量D1-1に対応する固有名詞ペア(Saint Joseph，Eminem)と、特徴量D2-1に対応する固有名詞ペア(Paul McCartney，Liverpool)が同じクラスタにクラスタリングされることが期待できる。

［基本情報生成部１８の説明］
基本情報生成部１８は、解析結果DB１７に保持されているクラスタリング結果に基づいて基本情報を生成する。具体的には、例えば、各クラスタにクラスタリングされた文脈情報（の固有名詞ペア）の特徴量を構成する各単語をカウントし、もっとも頻度が大きい単語をクラスタの名前とし、固有名詞ペアのクラスタリング結果と対応付ければ、図６に示すような情報を生成することができる。この情報は、例えば、クラスタの名前（同図の場合、Eminem）のメタデータとして利用することができる。

［動作説明］
次に、文書解析装置１０が処理対象の文書を解析し、その基本情報を生成するまでの動作（以下、第１の基本情報生成処理と称する）について説明する。

図７は、第１の基本情報生成処理を説明するフローチャートである。この第１の基本情報生成処理の前提として、潜在変数DB１５には、既に学習用の多数の文書を解析することにより得られた潜在変数が保持されているものとする。

ステップＳ１において、文書DB１１に保持されている処理対象の文書が特徴量抽出部１２に入力される。ステップＳ２において、特徴量抽出部１２は、処理対象の文書に含まれる文脈情報毎に特徴量を抽出する。

図８は、ステップＳ２の処理を詳述するフローチャートである。

ステップＳ１１において、固有名詞抽出部２１は、処理対象の文書から固有名詞を検出する。ステップＳ１２において、照応解析部２２は、処理対象の文書に対して照応解析を行う。

ステップＳ１３において、文脈情報抽出部２３は、処理対象の文書から文脈情報を抽出する。ステップＳ１４において、ステミング処理部２４は、処理対象の文書から抽出された各文脈情報を構成する各単語に対してステミング処理を行う。ステップＳ１５において、特徴量設定部２５は、各文脈情報に対して特徴量に設定する。この結果は特徴量DB１３に出力され、特徴量DB１３にて、各文書に対して文脈情報が対応付けられ、さらに、各文脈情報に対して特徴量が対応付けられる。

図７に戻り、ステップＳ３において、特徴量解析部１４では、処理対象の文書の各文脈情報の特徴量に対応する潜在変数を、式（２）に示されたギブスサンプリングにより推定する。ただし、生成確率φ_tvは固定したままとする。

ステップＳ４において、クラスタリング処理部１６は、各文脈の文脈トピック比θ^conを新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいて、文脈情報（の固有名詞ペア）のクラスタリングを行う。

ステップＳ５において、基本情報生成部１８は、解析結果DB１７に保持されているクラスタリング結果に基づいて基本情報を生成する。以上で、第１の基本情報生成処理の説明を終了する。

［他の動作説明］
ところで、特徴量解析部１４にて、推定した潜在変数を利用して特徴量の要素を選択するようにし、クラスタリング処理部１６にて、選択された特徴量に基づいてクラスタリングを行うようにしてもよい。

特徴量の要素を選択するには、各文脈情報の文脈トピック比に基づいて、文脈トピックから生成され易い特徴量要素を選択する。具体的には、次式（４）に従い、文脈トピックから特徴量の各要素が生成される確率の和を計算すればよい。

（４）

式（４）において、p(w|φ,z)は文脈トピックに関する部分のみを指す。また、Σは全ての文脈トピックについての和の演算を意味する。この確率が大きい特徴量要素は文脈トピックから生成され易いので、文脈情報として有用である考えられる。よって、上記の確率が、所定の閾値以上である特徴量要素のみを選択し、文脈情報の特徴量として利用することで、局所的な文脈に依存する特徴量だけを利用することができる。

図９は、特徴量解析部１４にて、推定した潜在変数を利用して特徴量の要素を選択するようにした場合に対応する第２の基本情報生成処理を説明するフローチャートである。

この第２の基本情報生成処理の前提として、潜在変数DB１５には、既に学習用の多数の文書を解析することにより得られた潜在変数が保持されているものとする。

ステップＳ２１において、文書DB１１に保持されている処理対象の文書が特徴量抽出部１２に入力される。ステップＳ２２において、特徴量抽出部１２は、処理対象の文書に含まれる文脈情報毎に特徴量を抽出する。

ステップＳ２３において、特徴量解析部１４では、処理対象の文書の各文脈情報の特徴量に対応する潜在変数を、式（２）に示されたギブスサンプリングにより推定する。ただし、トピックφ_tvを固定したままとする。

ステップＳ２４において、特徴量解析部１４は、推定した潜在変数を利用して特徴量の要素を選択する。

ステップＳ２５において、クラスタリング処理部１６は、選択された特徴量空間で、文脈情報（の固有名詞ペア）のクラスタリングを行う。

ステップＳ２６において、基本情報生成部１８は、解析結果DB１７に保持されているクラスタリング結果に基づいて基本情報を生成する。以上で、第２の基本情報生成処理の説明を終了する。

第２の基本情報生成処理のように、各文脈情報の文脈トピック比に基づいて、文脈トピックから生成され易い特徴量要素を選択するようにすれば、これを前処理とすることにより、文脈情報を利用した従来の統計的自然言語処理の精度を向上させることができる。

例えば、次のように単語のモダリティ解析の推定にも利用することができる。モダリティ解析では、“近傍の単語は互いに評価極性が同じ傾向にある”という仮定を利用して単語の肯定・否定をブートストラップ的に推定することが行われる。つまり、シードとなる評価極性が既知の単語を用意し、「しかし」などの逆説表現がなければ文脈に出現する単語の評価極性をその単語の評価極性とし、シードに加えていく。単語候補として、本発明により文脈に関連の強い単語のみを利用することにより、前期仮定が成り立ちやすい単語のみ処理の対象とすることができる。

以上説明したように、本実施の形態によれば、文書トピックと文脈トピックの両方を慮でき、文脈に関連するトピックのみを利用すれば、文脈情報に関連する部分のみを考慮できるので、文脈情報を利用した言語処理の精度向上が期待できる。

また、文脈トピックを直接利用しなくても、文脈トピックから出現し易い特徴量のみを利用するための特徴量選択としても利用できる。これを、既に構築されている自然言語処理の前処理として組み込めば、その精度を向上させることができる。

構文解析処理などを従来に比較して少ない計算コストで実行することができる。このため、大量の文書を処理する必要がある統計的自然言語処理に好適である。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０文書解析装置，１１文書DB，１２特徴量抽出部，１３特徴量DB，１４特徴量解析部，１５潜在変数DB，１６クラスタリング処理部，１７解析結果DB，１８基本情報生成部

Claims

文書に対して統計的自然言語処理を行う情報処理装置において、
前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、
抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、
各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段と
を含む情報処理装置。
前記文脈情報に含まれる前記固有名詞のクラスタリング結果に基づき、前記文脈情報に対応する基本情報を生成する基本情報生成手段を
さらに含む請求項１に記載の情報処理装置。
各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記特徴量の要素を選択する選択手段を
さらに含む請求項２に記載の情報処理装置。
前記特徴量解析手段は、抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、さらに前記文書トピックと前記文脈トピックの混合比も推定する
請求項２に記載の情報処理装置。
前記特徴量抽出手段は、
前記文書中の固有名詞を検出する検出手段と、
前記文書に対して照応解析を行う照応解析手段と、
照応解析された前記文書中に前記固有名詞ペアを設定し、前記固有名詞ペアを含む前記固有名詞ペアの前後の複数の単語からなる前記文脈情報を抽出する抽出手段と、
抽出された前記文脈情報から予め用意された語彙辞書に登録されている単語のみを残したものを、前記文脈情報の前記特徴量に設定する設定手段と
を含む
請求項２に記載の情報処理装置。
前記統計的自然言語処理は、類義語解析、多義語解析、２名詞間の関連性解析、また単語のモダリティ解析である
請求項２に記載の情報処理装置。
文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、
抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、
各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段と
を備え、文書に対して統計的自然言語処理を行う情報処理装置の情報処理方法において、
前記特徴量抽出手段による、学習用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第１の特徴量抽出ステップと、
前記特徴量解析手段による、学習用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数を推定する第１の特徴量解析ステップと、
前記特徴量抽出手段による、解析用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第２の特徴量抽出ステップと、
前記特徴量解析手段による、解析用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける文脈トピック比を推定する第２の特徴量解析ステップと、
前記クラスタリング手段による、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリングステップと
を含む情報処理方法。
文書に対して統計的自然言語処理を行うコンピュータを、
前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、
抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、
各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段と
して機能させるプログラム。