JP2011150450A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2011150450A JP2011150450A JP2010009738A JP2010009738A JP2011150450A JP 2011150450 A JP2011150450 A JP 2011150450A JP 2010009738 A JP2010009738 A JP 2010009738A JP 2010009738 A JP2010009738 A JP 2010009738A JP 2011150450 A JP2011150450 A JP 2011150450A
- Authority
- JP
- Japan
- Prior art keywords
- document
- context information
- context
- feature amount
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
【課題】「近傍の単語は互いに関係がある」という仮定に基づきながらも、その仮定が成立していない可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立する。
【解決手段】ステップS1で、処理対象の文書が特徴量抽出部に入力され、ステップS2で、特徴量抽出部が、処理対象の文書に含まれる文脈情報毎に特徴量を抽出する。ステップS3で、特徴量解析部は、処理対象の文書の各文脈情報の特徴量に対応する潜在変数をギブスサンプリングにより推定する。ステップS4で、クラスタリング処理部は、各文脈の文脈トピック比を新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいて、文脈情報(の固有名詞ペア)のクラスタリングを行う。ステップS5で、基本情報生成部は、解析結果DBに保持されているクラスタリング結果に基づいて基本情報を生成する。本発明は、文書の統計的自然言語処理に適用することができる。
【選択図】図7
【解決手段】ステップS1で、処理対象の文書が特徴量抽出部に入力され、ステップS2で、特徴量抽出部が、処理対象の文書に含まれる文脈情報毎に特徴量を抽出する。ステップS3で、特徴量解析部は、処理対象の文書の各文脈情報の特徴量に対応する潜在変数をギブスサンプリングにより推定する。ステップS4で、クラスタリング処理部は、各文脈の文脈トピック比を新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいて、文脈情報(の固有名詞ペア)のクラスタリングを行う。ステップS5で、基本情報生成部は、解析結果DBに保持されているクラスタリング結果に基づいて基本情報を生成する。本発明は、文書の統計的自然言語処理に適用することができる。
【選択図】図7
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、文書中における文脈情報(例えば、固有名詞とその前後に存在する所定の数の単語群)に基づいて、類義語解析、多義語解析、2名詞間の関連性解析、単語のモダリティ解析などの統計的自然言語処理を行う場合に用いて好適な情報処理装置、情報処理方法、およびプログラムに関する。
従来、大量の文書を統計的に解析する(統計的自然言語処理を行う)ことにより知識を獲得する試みが広く行われている。例えば、同義語辞書が整備されていない専門的な分野において、その専門的な分野の文書に統計的自然言語処理を行うことにより、その分野の同義語辞書を自動で作成することなどが行われている。このようにして獲得された知識は、例えば、情報検索などのアプリケーションプログラムに利用することができる。
統計的自然言語処理においては、しばしば文脈情報(文書中において注目する単語と、その前後に存在する所定の数の単語からなる単語群を指すものとする)の特徴量が利用される。そして、文脈情報の特徴量の類似度を計算することにより、注目する単語の類義語解析、多義語解析、2名詞間の関連性解析、単語のモダリティ解析などが行われている。例えば、非特許文献1では、固有名詞の関連性の同義解析に文脈情報の特徴量が利用されている。
Takaaki Hasegawa, Satoshi Sekine and Ralph Grishman, "Discovering Relations among Named Entities from Large Corpora", In Proceedings of the Conference of the Association for Computational Linguistics 2004.
ところで、文脈情報を利用した従来の統計的自然言語処理は、「近傍の単語は互いに関係がある」という仮定に基づいている。しかしながら、この仮定は常に正しいとは限らない。すなわち、文脈情報を構成する各単語は、当該文脈情報を含む文書全体に対するトピック(論題)には関連があるものの、当該文脈情報に対するトピックには直接的に関連がないことがある。このような文脈情報を従来の統計的自然言語処理の対象とした場合、解析結果に誤差が生じてしまうことになる。
したがって、「近傍の単語は互いに関係がある」という仮定に基づきながらも、その仮定が成立していない可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立すべきである。
本発明はこのような状況に鑑みてなされたものであり、「近傍の単語は互いに関係がある」という仮定に基づきながらも、その仮定が成立していない可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立できるようにするものである。
本発明の一側面である情報処理装置は、文書に対して統計的自然言語処理を行う情報処理装置において、前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段とを含む。
本発明の一側面である情報処理装置は、前記文脈情報に含まれる前記固有名詞のクラスタリング結果に基づき、前記文脈情報に対応する基本情報を生成する基本情報生成手段をさらに含むことができる。
本発明の一側面である情報処理装置は、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記特徴量の要素を選択する選択手段をさらに含むことができる。
前記特徴量解析手段は、抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、さらに前記文書トピックと前記文脈トピックの混合比も推定するようにすることができる。
前記特徴量抽出手段は、前記文書中の固有名詞を検出する検出手段と、前記文書に対して照応解析を行う照応解析手段と、照応解析された前記文書中に前記固有名詞ペアを設定し、前記固有名詞ペアを含む前記固有名詞ペアの前後の複数の単語からなる前記文脈情報を抽出する抽出手段と、抽出された前記文脈情報から予め用意された語彙辞書に登録されている単語のみを残したものを、前記文脈情報の前記特徴量に設定する設定手段とを含むようにすることができる。
前記統計的自然言語処理は、類義語解析、多義語解析、2名詞間の関連性解析、また単語のモダリティ解析であるようにすることができる。
本発明の一側面である情報処理方法は、文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段とを備え、文書に対して統計的自然言語処理を行う情報処理装置の情報処理方法において、前記特徴量抽出手段による、学習用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第1の特徴量抽出ステップと、前記特徴量解析手段による、学習用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数を推定する第1の特徴量解析ステップと、前記特徴量抽出手段による、解析用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第2の特徴量抽出ステップと、前記特徴量解析手段による、解析用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける文脈トピック比を推定する第2の特徴量解析ステップと、前記クラスタリング手段による、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリングステップとを含む。
本発明の一側面であるプログラムは、文書に対して統計的自然言語処理を行うコンピュータを、前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段として機能させる。
本発明の一側面においては、文書より固有名詞ペアを含む文脈情報が検出され、検出された文脈情報の特徴量が抽出される。また、抽出された文脈情報の特徴量を、文書の全体的なトピックを指す文書トピックと文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析されることにより、確率モデルにおける潜在変数、および文脈トピック比が推定される。さらに、各文脈情報の特徴量に対して推定された文脈トピック比に基づいて、文脈情報に含まれる固有名詞ペアがクラスタリングされる。
本発明の一側面によれば、「近傍の単語は互いに関係がある」という仮定に基づきながらも、その過程が崩れている可能性をも考慮した、文脈情報を利用した統計的自然言語処理を確立することができる。
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。
<1.本実施の形態>
[本実施の形態の概要]
本実施の形態である文書解析装置は、英語による文書を対象として、固有名詞を含む文脈情報を利用した統計的自然言語処理により、固有名詞ペアをその関連性に従ってクラスタリングするものである。さらに、このクラスタリング結果に基づいて、文書の中から基本情報(インタネット上に公開されている百科事典サイトWikipediaのinfo boxに相当する情報)を抽出するものである。
[本実施の形態の概要]
本実施の形態である文書解析装置は、英語による文書を対象として、固有名詞を含む文脈情報を利用した統計的自然言語処理により、固有名詞ペアをその関連性に従ってクラスタリングするものである。さらに、このクラスタリング結果に基づいて、文書の中から基本情報(インタネット上に公開されている百科事典サイトWikipediaのinfo boxに相当する情報)を抽出するものである。
図1は、文書解析装置が処理対象とする英語の文書(以下、単に文書と称する)の2例を示している。文書は、複数の文から構成され、文を構成する単語は、文書の全体に対応するトピック(以下、文書トピックと称する)と、各文に対応するトピック(以下、文脈トピックと称する)に従って生成されているものとする。なお、同図の2例は、上述した百科事典サイトWikipediaから抜粋したものである。
同図Aの文書D1は、ヒップホップのジャンルに属する音楽アーティストであるエミネム(Eminem)についての出身地、共演者などの情報が記述されている。この場合、文書D1の全体としてのトピックとしては「ラップ」などが想定され、各文のトピックとしては「生まれ育ち」、「共演」などが想定される。
同図Bの文書D2は、ロックのジャンルに属する音楽アーティストであるポール マッカートニ(Paul McCartney)についての出身地、共演者などの情報が記述されている。この場合、文書D2の全体としてのトピックとしては「ロック」などが想定され、各文のトピックとしては「生まれ育ち」、「共演」などが想定される。
文書解析装置では、各文書に存在する固有名詞ペアの関連性に注目したいので、文書全体のトピックである「ラップ」、「ロック」に特化した情報は必ずしも必要ではない。そこで、文書全体のトピックに関連する情報を取り除き、各文のトピックに関連する情報にも注目し、それらを同じクラスタにクラスタリングできるようにする。
具体的には、同図Aの文書から抽出した固有名詞ペア(Saint Joseph,Eminem)と同図Bの文書から抽出した固有名詞ペア(Paul McCartney,Liverpool)が同じクラスタにクラスタリングされるようにする。
[文書解析装置の構成例]
図2は、文書解析装置の構成例を示している。この文書解析装置10は、文書DB(データベース)11、特徴量抽出部12、特徴量DB13、特徴量解析部14、潜在変数DB15、クラスタリング処理部16、解析結果DB17、および基本情報生成部18から構成される。
図2は、文書解析装置の構成例を示している。この文書解析装置10は、文書DB(データベース)11、特徴量抽出部12、特徴量DB13、特徴量解析部14、潜在変数DB15、クラスタリング処理部16、解析結果DB17、および基本情報生成部18から構成される。
文書DB11には、図1に示されたような文書が学習用として大量に保持されている。また、文書DB11には、図1に示されたような文書が解析処理の対象として保持されている。特徴量抽出部12は、文書DB11から取得した文書から2つの固有名詞(固有名詞ペア)を含む文脈情報(詳細後述)を検出し、検出した各文脈情報の特徴量を抽出して特徴量DB13に出力する。特徴量DB13は、各文書から検出された各文脈情報に対応する特徴量を保持する。
特徴量解析部14は、各文書が後述する確率モデルを用いて作成されているものと想定し、各文書から検出された各文脈情報に対応する特徴量を、確率モデルを用いて解析し、その結果得られる潜在変数を潜在変数DB15に出力する。潜在変数DB15は、各文書から検出された各文脈情報に対応する潜在変数を保持する。
クラスタリング処理部16は、学習によって得られた各文脈情報に対応する潜在変数に基づき、解析対象の文書の各文脈情報に含まれる固有名詞ペアのクラスタリングを行い、クラスタリング結果を解析結果DB17に出力する。このクラスタリングにより、同様の意味でありながら異なる単語でその関係が表現されていた固有名詞ペアが同じクラスタにクラスタリングされることになる。具体的には、例えば、”born in Saint Joseph,Eminem”と表現されていた固有名詞ペア(Saint Joseph,Eminem)と、” Paul McCartney was born in Liverpool”と表現されていた固有名詞ペア(Paul McCartney,Liverpool)とが同じクラスタにクラスタリングされる。解析結果DB17は、固有名詞ペアのクラスタリング結果を保持する。
基本情報生成部18は、解析結果DB17に保持されているクラスタリング結果に基づいて基本情報を生成する。
[特徴量抽出部12の説明]
図3は、図2の特徴量抽出部12の詳細な構成例を示している。特徴量抽出部12は、固有名詞抽出部21、照応解析部22、文脈情報抽出部23、ステミング処理部24、特徴量設定部25、および語彙辞書26から構成される。
図3は、図2の特徴量抽出部12の詳細な構成例を示している。特徴量抽出部12は、固有名詞抽出部21、照応解析部22、文脈情報抽出部23、ステミング処理部24、特徴量設定部25、および語彙辞書26から構成される。
固有名詞抽出部21は、処理対象の文書から固有名詞を検出する。照応解析部22は、処理対象の文書から代名詞、指示詞などの照応詞を検出し、それに対応する名詞を特定し、検出した照応詞のうち、固有名詞に対応するものを当該固有名詞に置換する照応解析処理を行う。
文脈情報抽出部23は、処理対象の文書から、固有名詞(照応詞が置換されたものも含む)を2単語以上含む文を検出し、検出した文の中で固有名詞ペアを設定し、固有名詞ペア間の単語とその前後の所定数の単語を文脈情報として抽出する。したがって、文脈情報には、少なくとも2単語の固有名詞(固有名詞ペア)が含まれることになる。
ステミング処理部24は、処理対象の文書から抽出された各文脈情報を構成する各単語の語幹を抽出するステミング(stemming)処理を行う。
特徴量設定部25は、文脈情報を構成するステミング処理後の単語のうち、語彙辞書26に登録されている単語(ステミング処理後の単語)のみを残し、語彙辞書26に登録されていない単語を取り除く。そして、特徴量設定部25は、取り除かれずに文脈情報に残った単語群を当該文脈情報の特徴量に設定する。特徴量に含まれるステミング処理後の単語を特徴量の要素と称する。
語彙辞書26には、TF・IDF(term frequency・inverse document frequency)スコアが高い単語がステミング処理後の状態で予め登録されている。逆には、語彙辞書26には、検索におけるストップワード(the,is,ofなど)、TF・IDFスコアが低い単語、所定の記号などは登録されていない。
なお、文脈情報には、上述したステミング処理後の単語の他、ステミング処理前の単語の品詞、各単語の属性情報、各単語の依存関係などの構文解析情報を含めるようにしてもよい。
図4は、図1に示された文書D1およびD2から抽出された文脈情報(に含まれる固有名詞ペア)とそれに対応する特徴量が特徴量DB13に保持される状態を示している。同図に示すように、特徴量DB13には、各文書にはそこから抽出された各文脈情報が対応付けられており、さらに、各文脈情報には特徴量が対応付けられている。
例えば、文書D1から抽出された、固有名詞(Saint Joseph,Eminem)を含む文脈情報には、その特徴量D1-1として(born,missouri,rais,Detroit,quick,…)が対応付けられている。また、固有名詞(The Source,Eminem)を含む文脈情報には、その特徴量D1-2として(hip-pop,magazin,magazin,featur,unsign,hype,…)が対応付けられている。
同様に、例えば、文書D2から抽出された、固有名詞(Paul,Liverpoor)を含む文脈情報には、その特徴量D2-1として(born,walton,hospital,england,wher,…)が対応付けられている。また、固有名詞(Paul,Ringo Starr)を含む文脈情報には、その特徴量D2-2として(gain,worldwid,fam,member,beatl,john,…)が対応付けられている。
[特徴量解析部14にて想定される確率モデルの説明]
文書解析装置10が処理する文書(学習用の文書、および解析対象の文書)は、複数の文から構成され、文を構成する単語は、文書の全体に対応するトピック(以下、文書トピックと称する)と、各文に対応するトピック(以下、文脈トピックと称する)に従って生成されるものと想定する。
文書解析装置10が処理する文書(学習用の文書、および解析対象の文書)は、複数の文から構成され、文を構成する単語は、文書の全体に対応するトピック(以下、文書トピックと称する)と、各文に対応するトピック(以下、文脈トピックと称する)に従って生成されるものと想定する。
図5は、このような想定に対応する確率モデル(グラフィカルモデル)を示している。同図において、Mは文書数、Sは各文書の文数、Nは各文の特徴量の要素数を表している。また、添え字docは文書に関連することを意味し、添え字conは文脈に関連することを意味する。
この確率モデルでは、文書トピックおよび文脈トピックは所定の辞書単語上の多項分布として表わされる。文書に対しては文書トピックが存在し、各文に対してはそれぞれ異なる文脈トピックが存在する。
文を生成する過程は次のとおりである。すなわち、文書数M、各文書の文数S、各文の特徴量の要素数Nとし、文書トピック数と文脈トピック数を10乃至100の値に設定する。特徴量の要素は次の生成過程で生成される。特徴量の各要素に順序をつける。
全ての文書に対して、
各文書に対して、
(2)文書のトピック生成確率をディリクレ分布p(θdoc|αdoc)から生成する。
各文脈に対して、
(3)文脈のトピック比をディリクレ分布p(θcon|αcon)から生成する。
(4)文書トピックと文脈トピック間の混合比をディリクレ分布p(r|αmix)から生成する。
特徴量の各要素に対して、
(5)文書トピックと文脈トピック間のトピック混合比に基づいて、文書トピックか、または文脈トピックかを選択する。
(7)選択されたトピックに従って多項分布p(w|φ,z)から特徴量の要素wを生成する。
各文書に対して、
(2)文書のトピック生成確率をディリクレ分布p(θdoc|αdoc)から生成する。
各文脈に対して、
(3)文脈のトピック比をディリクレ分布p(θcon|αcon)から生成する。
(4)文書トピックと文脈トピック間の混合比をディリクレ分布p(r|αmix)から生成する。
特徴量の各要素に対して、
(5)文書トピックと文脈トピック間のトピック混合比に基づいて、文書トピックか、または文脈トピックかを選択する。
(7)選択されたトピックに従って多項分布p(w|φ,z)から特徴量の要素wを生成する。
特徴量解析部14では、上述した過程を経て生成されたものとして仮定する各文脈情報の特徴量を統計的解析することにより、対応する潜在変数を推定する。
ここで、c(i,j,t,v)は、i番目の文書のj番目の文にトピックtと語彙vが生成された数である。「・」は、その要素について和を取ることを表す。conは文脈トピックに関する周辺化を表す。docは文書トピックに関する周辺化を表す。ijkの添え字は、i番目の文書、j番目の文、k番目の特徴量要素を示す。rijkは、その特徴量の要素の生成の際に文書トピックと文脈トピックのどちらが選択されたかを示す。Tdocは文書トピックの数を表す。Tconは文脈トピックの数を表す。if rijk=docは、文書トピックが選択された場合を表す。if rijk=conは、文脈トピックが選択された場合を表す。
ここで、θtvは、トピックtの多項分布においてv番目の特徴量要素の生成確率である。θitは、i番目の文書がt番目の文書トピックを生成する確率である。θijtは、i番目の文書のj番目の文脈がt番目の文脈トピックを生成する確率である。if t∈docは、トピックが文書トピックに含まれる場合を表す。if t∈conは、トピックが文脈トピックに含まれる場合を表す。
例えば、図4に示された特徴量を例とすると、次のようにパラメータが学習されることが期待できる。特定の文書のみに出現する単語である”hip-hop”,”Missouri”などは文書トピックから出現し易く、”born”,”rais”などは文脈トピックから出現し易くなる。このようにして学習用の各文書、各文脈について推定された各潜在変数は潜在変数DB15に記憶される。
解析対象の文書については、トピックφtvを固定し、新たな特徴量についてθijtとθitを推定すればよい。
[クラスタリング処理部16の説明]
クラスタリング処理部16は、推定された潜在変数を利用して解析対象の文書の文脈情報(に含まれる固有名詞ペア)をクラスタリングする。具体的には、各文脈の文脈トピック比θconが文脈の情報を示しているので、この文脈トピック比θconを新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいてクラスタリングを行う。ここでは、k-meansを利用したクラスタリング手法や、混合分布を利用したクラスタリング手法を適用することにする。ただし、その他のクラスタリング手法を適用してもかなわない。本実施の形態とは直接関係しないが、分類に適用することもできる。
クラスタリング処理部16は、推定された潜在変数を利用して解析対象の文書の文脈情報(に含まれる固有名詞ペア)をクラスタリングする。具体的には、各文脈の文脈トピック比θconが文脈の情報を示しているので、この文脈トピック比θconを新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいてクラスタリングを行う。ここでは、k-meansを利用したクラスタリング手法や、混合分布を利用したクラスタリング手法を適用することにする。ただし、その他のクラスタリング手法を適用してもかなわない。本実施の形態とは直接関係しないが、分類に適用することもできる。
このクラスタリングにより、例えば、図4に示された特徴量D1-1に対応する固有名詞ペア(Saint Joseph,Eminem)と、特徴量D2-1に対応する固有名詞ペア(Paul McCartney,Liverpool)が同じクラスタにクラスタリングされることが期待できる。
[基本情報生成部18の説明]
基本情報生成部18は、解析結果DB17に保持されているクラスタリング結果に基づいて基本情報を生成する。具体的には、例えば、各クラスタにクラスタリングされた文脈情報(の固有名詞ペア)の特徴量を構成する各単語をカウントし、もっとも頻度が大きい単語をクラスタの名前とし、固有名詞ペアのクラスタリング結果と対応付ければ、図6に示すような情報を生成することができる。この情報は、例えば、クラスタの名前(同図の場合、Eminem)のメタデータとして利用することができる。
基本情報生成部18は、解析結果DB17に保持されているクラスタリング結果に基づいて基本情報を生成する。具体的には、例えば、各クラスタにクラスタリングされた文脈情報(の固有名詞ペア)の特徴量を構成する各単語をカウントし、もっとも頻度が大きい単語をクラスタの名前とし、固有名詞ペアのクラスタリング結果と対応付ければ、図6に示すような情報を生成することができる。この情報は、例えば、クラスタの名前(同図の場合、Eminem)のメタデータとして利用することができる。
[動作説明]
次に、文書解析装置10が処理対象の文書を解析し、その基本情報を生成するまでの動作(以下、第1の基本情報生成処理と称する)について説明する。
次に、文書解析装置10が処理対象の文書を解析し、その基本情報を生成するまでの動作(以下、第1の基本情報生成処理と称する)について説明する。
図7は、第1の基本情報生成処理を説明するフローチャートである。この第1の基本情報生成処理の前提として、潜在変数DB15には、既に学習用の多数の文書を解析することにより得られた潜在変数が保持されているものとする。
ステップS1において、文書DB11に保持されている処理対象の文書が特徴量抽出部12に入力される。ステップS2において、特徴量抽出部12は、処理対象の文書に含まれる文脈情報毎に特徴量を抽出する。
図8は、ステップS2の処理を詳述するフローチャートである。
ステップS11において、固有名詞抽出部21は、処理対象の文書から固有名詞を検出する。ステップS12において、照応解析部22は、処理対象の文書に対して照応解析を行う。
ステップS13において、文脈情報抽出部23は、処理対象の文書から文脈情報を抽出する。ステップS14において、ステミング処理部24は、処理対象の文書から抽出された各文脈情報を構成する各単語に対してステミング処理を行う。ステップS15において、特徴量設定部25は、各文脈情報に対して特徴量に設定する。この結果は特徴量DB13に出力され、特徴量DB13にて、各文書に対して文脈情報が対応付けられ、さらに、各文脈情報に対して特徴量が対応付けられる。
図7に戻り、ステップS3において、特徴量解析部14では、処理対象の文書の各文脈情報の特徴量に対応する潜在変数を、式(2)に示されたギブスサンプリングにより推定する。ただし、生成確率φtvは固定したままとする。
ステップS4において、クラスタリング処理部16は、各文脈の文脈トピック比θconを新たな特徴量ベクトルとみなし、この特徴量ベクトルに基づいて、文脈情報(の固有名詞ペア)のクラスタリングを行う。
ステップS5において、基本情報生成部18は、解析結果DB17に保持されているクラスタリング結果に基づいて基本情報を生成する。以上で、第1の基本情報生成処理の説明を終了する。
[他の動作説明]
ところで、特徴量解析部14にて、推定した潜在変数を利用して特徴量の要素を選択するようにし、クラスタリング処理部16にて、選択された特徴量に基づいてクラスタリングを行うようにしてもよい。
ところで、特徴量解析部14にて、推定した潜在変数を利用して特徴量の要素を選択するようにし、クラスタリング処理部16にて、選択された特徴量に基づいてクラスタリングを行うようにしてもよい。
特徴量の要素を選択するには、各文脈情報の文脈トピック比に基づいて、文脈トピックから生成され易い特徴量要素を選択する。具体的には、次式(4)に従い、文脈トピックから特徴量の各要素が生成される確率の和を計算すればよい。
(4)
式(4)において、p(w|φ,z)は文脈トピックに関する部分のみを指す。また、Σは全ての文脈トピックについての和の演算を意味する。この確率が大きい特徴量要素は文脈トピックから生成され易いので、文脈情報として有用である考えられる。よって、上記の確率が、所定の閾値以上である特徴量要素のみを選択し、文脈情報の特徴量として利用することで、局所的な文脈に依存する特徴量だけを利用することができる。
図9は、特徴量解析部14にて、推定した潜在変数を利用して特徴量の要素を選択するようにした場合に対応する第2の基本情報生成処理を説明するフローチャートである。
この第2の基本情報生成処理の前提として、潜在変数DB15には、既に学習用の多数の文書を解析することにより得られた潜在変数が保持されているものとする。
ステップS21において、文書DB11に保持されている処理対象の文書が特徴量抽出部12に入力される。ステップS22において、特徴量抽出部12は、処理対象の文書に含まれる文脈情報毎に特徴量を抽出する。
ステップS23において、特徴量解析部14では、処理対象の文書の各文脈情報の特徴量に対応する潜在変数を、式(2)に示されたギブスサンプリングにより推定する。ただし、トピックφtvを固定したままとする。
ステップS24において、特徴量解析部14は、推定した潜在変数を利用して特徴量の要素を選択する。
ステップS25において、クラスタリング処理部16は、選択された特徴量空間で、文脈情報(の固有名詞ペア)のクラスタリングを行う。
ステップS26において、基本情報生成部18は、解析結果DB17に保持されているクラスタリング結果に基づいて基本情報を生成する。以上で、第2の基本情報生成処理の説明を終了する。
第2の基本情報生成処理のように、各文脈情報の文脈トピック比に基づいて、文脈トピックから生成され易い特徴量要素を選択するようにすれば、これを前処理とすることにより、文脈情報を利用した従来の統計的自然言語処理の精度を向上させることができる。
例えば、次のように単語のモダリティ解析の推定にも利用することができる。モダリティ解析では、“近傍の単語は互いに評価極性が同じ傾向にある”という仮定を利用して単語の肯定・否定をブートストラップ的に推定することが行われる。つまり、シードとなる評価極性が既知の単語を用意し、「しかし」などの逆説表現がなければ文脈に出現する単語の評価極性をその単語の評価極性とし、シードに加えていく。単語候補として、本発明により文脈に関連の強い単語のみを利用することにより、前期仮定が成り立ちやすい単語のみ処理の対象とすることができる。
以上説明したように、本実施の形態によれば、文書トピックと文脈トピックの両方を慮でき、文脈に関連するトピックのみを利用すれば、文脈情報に関連する部分のみを考慮できるので、文脈情報を利用した言語処理の精度向上が期待できる。
また、文脈トピックを直接利用しなくても、文脈トピックから出現し易い特徴量のみを利用するための特徴量選択としても利用できる。これを、既に構築されている自然言語処理の前処理として組み込めば、その精度を向上させることができる。
構文解析処理などを従来に比較して少ない計算コストで実行することができる。このため、大量の文書を処理する必要がある統計的自然言語処理に好適である。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図10は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
10 文書解析装置, 11 文書DB, 12 特徴量抽出部, 13 特徴量DB, 14 特徴量解析部, 15 潜在変数DB, 16 クラスタリング処理部, 17 解析結果DB, 18 基本情報生成部
Claims (8)
- 文書に対して統計的自然言語処理を行う情報処理装置において、
前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、
抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、
各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段と
を含む情報処理装置。 - 前記文脈情報に含まれる前記固有名詞のクラスタリング結果に基づき、前記文脈情報に対応する基本情報を生成する基本情報生成手段を
さらに含む請求項1に記載の情報処理装置。 - 各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記特徴量の要素を選択する選択手段を
さらに含む請求項2に記載の情報処理装置。 - 前記特徴量解析手段は、抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、さらに前記文書トピックと前記文脈トピックの混合比も推定する
請求項2に記載の情報処理装置。 - 前記特徴量抽出手段は、
前記文書中の固有名詞を検出する検出手段と、
前記文書に対して照応解析を行う照応解析手段と、
照応解析された前記文書中に前記固有名詞ペアを設定し、前記固有名詞ペアを含む前記固有名詞ペアの前後の複数の単語からなる前記文脈情報を抽出する抽出手段と、
抽出された前記文脈情報から予め用意された語彙辞書に登録されている単語のみを残したものを、前記文脈情報の前記特徴量に設定する設定手段と
を含む
請求項2に記載の情報処理装置。 - 前記統計的自然言語処理は、類義語解析、多義語解析、2名詞間の関連性解析、また単語のモダリティ解析である
請求項2に記載の情報処理装置。 - 文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、
抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、
各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段と
を備え、文書に対して統計的自然言語処理を行う情報処理装置の情報処理方法において、
前記特徴量抽出手段による、学習用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第1の特徴量抽出ステップと、
前記特徴量解析手段による、学習用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数を推定する第1の特徴量解析ステップと、
前記特徴量抽出手段による、解析用の文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する第2の特徴量抽出ステップと、
前記特徴量解析手段による、解析用の文書より抽出された前記文脈情報の前記特徴量を前記確率モデルを用いて解析することにより、前記確率モデルにおける文脈トピック比を推定する第2の特徴量解析ステップと、
前記クラスタリング手段による、各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリングステップと
を含む情報処理方法。 - 文書に対して統計的自然言語処理を行うコンピュータを、
前記文書より固有名詞ペアを含む文脈情報を検出し、検出した前記文脈情報の特徴量を抽出する特徴量抽出手段と、
抽出された前記文脈情報の前記特徴量を、前記文書の全体的なトピックを指す文書トピックと前記文書の局所的なトピックと指す文脈トピックとが考慮された確率モデルを用いて解析することにより、前記確率モデルにおける潜在変数、および文脈トピック比を推定する特徴量解析手段と、
各文脈情報の前記特徴量に対して推定された前記文脈トピック比に基づいて、前記文脈情報に含まれる前記固有名詞ペアをクラスタリングするクラスタリング手段と
して機能させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010009738A JP2011150450A (ja) | 2010-01-20 | 2010-01-20 | 情報処理装置、情報処理方法、およびプログラム |
CN2011100061938A CN102129446A (zh) | 2010-01-20 | 2011-01-13 | 信息处理器、处理信息的方法以及程序 |
US12/930,665 US8321418B2 (en) | 2010-01-20 | 2011-01-13 | Information processor, method of processing information, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010009738A JP2011150450A (ja) | 2010-01-20 | 2010-01-20 | 情報処理装置、情報処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011150450A true JP2011150450A (ja) | 2011-08-04 |
Family
ID=44267530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010009738A Withdrawn JP2011150450A (ja) | 2010-01-20 | 2010-01-20 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8321418B2 (ja) |
JP (1) | JP2011150450A (ja) |
CN (1) | CN102129446A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014088335A1 (ko) * | 2012-12-06 | 2014-06-12 | 고려대학교 산학협력단 | 시맨틱 토픽 추출 장치 및 방법 |
KR101679249B1 (ko) * | 2013-10-29 | 2016-11-24 | 인스티튜트 오브 사이언티픽 앤 테크니컬 인포메이션 오브 차이나 | 과학연구 정보 진화의 분석 방법 및 장치 |
KR101705804B1 (ko) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | 시맨틱 콘텐츠 분류 장치 및 이를 이용한 콘텐츠 분류 방법 |
KR101727686B1 (ko) | 2014-12-23 | 2017-04-20 | 고려대학교 산학협력단 | 시맨틱 엔티티 토픽 추출 방법 |
WO2017145811A1 (ja) * | 2016-02-24 | 2017-08-31 | 国立研究開発法人情報通信研究機構 | トピック推定装置、トピック推定方法、および記録媒体 |
KR102173382B1 (ko) * | 2020-02-25 | 2020-11-03 | 휴멜로 주식회사 | 텍스트 생성 장치 및 방법 |
US11100296B2 (en) | 2017-12-22 | 2021-08-24 | Samsung Electronics Co., Ltd. | Method and apparatus with natural language generation |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002172A1 (ja) * | 2012-06-25 | 2014-01-03 | 株式会社東芝 | 文脈解析装置および文脈解析方法 |
US9286291B2 (en) * | 2013-02-15 | 2016-03-15 | International Business Machines Corporation | Disambiguation of dependent referring expression in natural language processing |
JP2015036892A (ja) * | 2013-08-13 | 2015-02-23 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
EP3044699A4 (en) * | 2013-09-12 | 2017-07-19 | Hewlett-Packard Development Company, L.P. | Information extraction |
CN106407188A (zh) * | 2015-07-16 | 2017-02-15 | 中兴通讯股份有限公司 | 一种文档查错方法和装置 |
US11347944B2 (en) * | 2020-01-27 | 2022-05-31 | Walmart Apollo, Llc | Systems and methods for short text identification |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4828091B2 (ja) * | 2003-03-05 | 2011-11-30 | ヒューレット・パッカード・カンパニー | クラスタリング方法プログラム及び装置 |
CN100533441C (zh) * | 2006-04-19 | 2009-08-26 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN101231634B (zh) * | 2007-12-29 | 2011-05-04 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101587493B (zh) * | 2009-06-29 | 2012-07-04 | 中国科学技术大学 | 文本分类方法 |
US8849725B2 (en) * | 2009-08-10 | 2014-09-30 | Yahoo! Inc. | Automatic classification of segmented portions of web pages |
-
2010
- 2010-01-20 JP JP2010009738A patent/JP2011150450A/ja not_active Withdrawn
-
2011
- 2011-01-13 US US12/930,665 patent/US8321418B2/en not_active Expired - Fee Related
- 2011-01-13 CN CN2011100061938A patent/CN102129446A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014088335A1 (ko) * | 2012-12-06 | 2014-06-12 | 고려대학교 산학협력단 | 시맨틱 토픽 추출 장치 및 방법 |
KR101423544B1 (ko) * | 2012-12-06 | 2014-08-01 | 고려대학교 산학협력단 | 시맨틱 토픽 추출 장치 및 방법 |
US10423723B2 (en) | 2012-12-06 | 2019-09-24 | Korea University Research And Business Foundation | Apparatus and method for extracting semantic topic |
KR101679249B1 (ko) * | 2013-10-29 | 2016-11-24 | 인스티튜트 오브 사이언티픽 앤 테크니컬 인포메이션 오브 차이나 | 과학연구 정보 진화의 분석 방법 및 장치 |
KR101727686B1 (ko) | 2014-12-23 | 2017-04-20 | 고려대학교 산학협력단 | 시맨틱 엔티티 토픽 추출 방법 |
KR101705804B1 (ko) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | 시맨틱 콘텐츠 분류 장치 및 이를 이용한 콘텐츠 분류 방법 |
WO2017145811A1 (ja) * | 2016-02-24 | 2017-08-31 | 国立研究開発法人情報通信研究機構 | トピック推定装置、トピック推定方法、および記録媒体 |
US11301624B2 (en) | 2016-02-24 | 2022-04-12 | National Institute Of Information And Communications Technology | Topic inferring apparatus, topic inferring method, and storage medium |
US11100296B2 (en) | 2017-12-22 | 2021-08-24 | Samsung Electronics Co., Ltd. | Method and apparatus with natural language generation |
KR102173382B1 (ko) * | 2020-02-25 | 2020-11-03 | 휴멜로 주식회사 | 텍스트 생성 장치 및 방법 |
KR20210108293A (ko) * | 2020-02-25 | 2021-09-02 | 휴멜로 주식회사 | 텍스트 생성 장치 및 방법 |
KR102398993B1 (ko) | 2020-02-25 | 2022-05-17 | 휴멜로 주식회사 | 텍스트 생성 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN102129446A (zh) | 2011-07-20 |
US20110179034A1 (en) | 2011-07-21 |
US8321418B2 (en) | 2012-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011150450A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Lim et al. | Malwaretextdb: A database for annotated malware articles | |
Hua et al. | Short text understanding through lexical-semantic analysis | |
US9195646B2 (en) | Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium | |
US11334608B2 (en) | Method and system for key phrase extraction and generation from text | |
JP5389273B1 (ja) | 文脈解析装置および文脈解析方法 | |
CN109299228B (zh) | 计算机执行的文本风险预测方法及装置 | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
US10275454B2 (en) | Identifying salient terms for passage justification in a question answering system | |
JP5137567B2 (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
He et al. | A two-stage biomedical event trigger detection method integrating feature selection and word embeddings | |
US9164981B2 (en) | Information processing apparatus, information processing method, and program | |
Echeverry-Correa et al. | Topic identification techniques applied to dynamic language model adaptation for automatic speech recognition | |
US20120317125A1 (en) | Method and apparatus for identifier retrieval | |
Hou et al. | Mining pure high-order word associations via information geometry for information retrieval | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
Yokoi et al. | Contextual analysis of mathematical expressions for advanced mathematical search | |
Duma et al. | Rhetorical classification of anchor text for citation recommendation | |
KR102053419B1 (ko) | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
Berrahou et al. | How to extract unit of measure in scientific documents? | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
Qu et al. | Discovering correlations between sparse features in distant supervision for relation extraction | |
Gero et al. | Word centrality constrained representation for keyphrase extraction | |
Li et al. | Confidence estimation for knowledge base population | |
Momtazi et al. | Effective term weighting for sentence retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130402 |