JP2008021139A - 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム - Google Patents

意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2008021139A
JP2008021139A JP2006192645A JP2006192645A JP2008021139A JP 2008021139 A JP2008021139 A JP 2008021139A JP 2006192645 A JP2006192645 A JP 2006192645A JP 2006192645 A JP2006192645 A JP 2006192645A JP 2008021139 A JP2008021139 A JP 2008021139A
Authority
JP
Japan
Prior art keywords
feature
word
feature function
predetermined
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006192645A
Other languages
English (en)
Inventor
Finch Andrew
アンドリュー・フィンチ
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2006192645A priority Critical patent/JP2008021139A/ja
Publication of JP2008021139A publication Critical patent/JP2008021139A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】精度高く自動的に単語に対する意味タグ付けを行なうためのモデルを構築可能なモデル構築装置を提供する。
【解決手段】モデル構築装置454は、各単語に意味タグと文法タグとが付された学習用コーパス486中の単語に関するコンテキスト系の特徴関数及び依存性特徴関数を抽出するプロセス488と、オントロジー452からオントロジー特徴関数を抽出するプロセス490と、これら特徴関数の各々に関し、学習用コーパス486中の各単語に対し算出される特徴関数の値の統計に基づき特徴関数の相互情報量を算出し、情報量の大きな特徴関数を選択する特徴選択プロセス494と、選択された特徴関数に関して学習用コーパス486中の各単語に対し得られた特徴関数の値の統計に基づき、入力文中の各単語に対し得られる特徴関数の値に基づき、当該単語に対して各意味タグが付与される尤度を与える統計的モデル456を算出するプロセス498とを含む。
【選択図】 図9

Description

この発明は自然言語処理技術に関し、特に、自然言語文に意味タグを自動的に付するための意味タグ付け技術に関する。
自然言語処理を行なうための基本的な技術として、文法タグ付け技術が存在する。この技術は、文中の各語に対し、その文中におけるその後の文法的役割を示すタグを自動的に付するものである。文法的役割として主要なものには、品詞(Part−Of−Speech:POS)がある。
文法タグ付け技術と同様に重要視され、研究されている技術に、文中の各語の意味のあいまい性を解消する技術がある。この技術では、単語がどのような意味で使用されているかを明らかにする。
本発明はこの文法タグ付け技術と、あいまい性の解消技術との双方に関連している。すなわち本発明は、入力文中の各単語に対し、文法的なタグ付けを行なうと同時に、あいまい性を解消するための一つの情報として、意味タグ付けを自動的に行なう技術に関する。あいまい性解消の技術では、単語の意味が、その単語が持つ複数通りの意味のうちから一意に決定されるが、本発明が関連する意味タグ付けでは、そこまでの明確さは必要ではなく、より広い粒度での意味的な分類が要請されているだけである。そしてこの場合、ある単語に元々付随しているような複数個の意味のみに基づいて意味タグが決定されるのではなく、その単語と同種の意味を表していると思われる単語についても適用可能な意味的なラベルとしてはどのようなものがあるかを把握し、それらから適切な意味タグを決定することが望ましい。
文法タグ付け技術として、従来よく知られているものに、Nグラムに基づくものがある。この場合のNグラムとは、タグ付けの対象となる単語を中心とする、N個の単語列のことをいう。Nグラムに基づくタグ付け技術は、基本的には統計的なものである。すなわち、単語の生起が、自分自身を含む直前のN個の単語のみに依存していると考え、予め準備したコーパス中でのそれらの生起の統計情報を算出する。その統計情報に基づき、特定のNグラムが生じる確率を求め、タグ付け対象の単語列にそれを適用し、最も確率が高くなるタグ列を作用する。
Nグラムを用いた技術は、非常に単純であるにもかかわらず、自然言語処理において強力なツールであることが知られており、非常によく利用されている。
意味タグ付けも、基本的にはこのNグラムに基づく方式の拡張と考えられる。しかし、Nグラムに基づくタグ付けだけでは意味タグ付けを十分な信頼性をもって行なうことができず、あいまい性の解消を行なうために必要な何らかの特徴を補助的に使用することが必要である。
この点について有効と思われる自然言語処理ツールに、非特許文献1に開示された最大エントロピー(Maximum Entropy:ME)理論に基づくタグ付けプログラムがある。MEを用いるアプローチは、意味タグ付けのようなラベリング処理に好適である。なぜなら、MEによれば、多くの特徴量を用いることができるにもかかわらず、それらの間の干渉を明示的にモデル化する必要がないためである。
一方、あいまい性の解消に関する技術としては非常に広い範囲のものがある。本発明に直接関連する可能性の有る従来技術として、非特許文献2から非特許文献5がある。
非特許文献2は、あいまい性の解消の対象となる単語の前後の局部的な文脈を用いている。さらに、そのような局部的な情報だけでなく、より広い範囲での文脈を用いるために、WordNet等のように、単語をその意味に基づいて階層的なカテゴリーに分類した言語的資源を用いることも、例えば非特許文献3に記載されたようによく行なわれている。
非特許文献4に開示されたあいまい性解消のためのMEシステムは、あいまい性解消の対象となっている単語の前後±3つの単語と、POSタグと、レンマとからなる局部的な特徴の配列を用いている。
非特許文献5に開示された技術は、MEによるシステムであって、対象となる単語の直前の冠詞、前後のPOS、前後の前置詞、前後の単語の文法的カテゴリという、簡単な特徴量を用いている。
これら従来技術で使用されている特徴量は、通常のNグラム系の特徴量を用いたタグ付けプログラムとよく似ている。
A.ラトナパルキ、「最大エントロピー品詞タガー」、自然言語処理における経験法会議予稿集、1996(A. Ratnaparkhi, 1996. A maximum entropy part-of-speech tagger. In Proceedings of the Empirical Methods in Natural Language Processing Conference.) D.ヤロウスキー、「コローケーションにつき一つの意味」、ARPA人間言語ワークショップ予稿集、1993(D. Yarowski, 1993. One sense per collocation. In the Proceedings of ARPA Human Language Technology Workshop.) G.ラマクリシュナン及びB.プリトビラジ、「単語の意味のソフトなあいまい性解消」、グローバル・ワードネットに関する国際会議(GWC 04)、ブルノ、チェコ共和国、2004(G. Ramakrishnan and B. Prithviraj, 2004. Soft word sense disambiguation. In International Conference on Global Wordnet (GWC 04), Brno, Czeck Republic.) A.スアレス、「最大エントロピーによる単語意味の曖昧性解消」システム」、計算機言語に関する国際会議予稿集、2002(A. Suarez, 2002. A maximum entropy-based word sense disambiguation system. In Proc. International Conference on Computational Linguistics.) A.K.ラムジリ、O.El デメルダシュ、及びL.コサイム、「単語意味のあいまい性解消のための簡単な特徴量」、テキストの意味解析のためのシステム評価に関する第3回国際ワークショップ(Senseval−3)−ACL2004予稿集、2004、バルセロナ、スペイン(A.K. Lamjiri, O.El Demerdash, and L. Kosseim, 2004. Simple features for statistical word sense disambiguation. In Proc. ACL 2004 - Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spain.)
一方、あいまい性解消の技術にPOSタグ情報を使用したものとして、非特許文献4に記載されたものがある。しかし、一連の流れとして与えられる文の各単語に対し、POSタグを付与するのと同時に意味タグ付けをも行なう、という技術について記載した文献は非常に少ない。
それ故に本発明の目的は、より精度高く自動的に単語に対する意味タグ付けを行なうためのモデルを構築可能な意味タグ付け用モデル構築装置を提供することである。
本発明のさらに他の目的は、より精度高く自動的に単語に対する意味タグ付けを行なうためのモデルを、従来より短い時間で構築可能な意味タグ付け用モデル構築装置を提供することである。
本発明の追加の目的は、より精度高く自動的に単語に対する意味タグ付けを行なうためのモデルであって、特に学習用のコーパスに存在しない単語についても高い精度で意味タグ付けを行なうことが可能な意味タグ付け用モデル構築装置を提供することである。
本発明の第1の局面に係る意味タグ付け用モデル構築装置は、予め各単語に所定の意味タグセットに属する意味タグのいずれかと、所定の文法タグセットに属する文法タグのいずれかとが付された所定の言語のコーパスを用い、上記言語の単語に対する意味タグを自動的に付与するための統計的モデルを構築するための、意味タグ付け用モデル構築装置であって、コーパス中の各文の各単語に関する所定のコンテキスト系の特徴関数を抽出するための第1の特徴関数抽出手段と、コーパス中の各文について、各文に含まれる依存性の解析を行ない、依存性の特徴に関する特徴関数を抽出するための第2の特徴関数抽出手段と、第1及び第2の特徴関数抽出手段により抽出された特徴関数の各々に関し、コーパス中の各文及び各単語に対して算出される値に関する統計に基づく所定の算出方法により算出される情報量を基準とし、情報量の大きな特徴関数のみを所定の基準にしたがって選択するための特徴関数選択手段と、特徴関数選択手段により選択された特徴関数に関してコーパス中の各文及び各単語に対して得られた所定のコンテキスト系の特徴関数及び依存性の特徴に関する特徴関数に対して得られる特徴量の統計に基づき、所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる所定のコンテキスト系の特徴関数のうち特徴関数選択手段により選択された特徴関数の値、及び入力文に含まれる依存性の特徴に関する特徴関数のうち特徴関数選択手段により選択された特徴関数の値に基づいて、当該単語に対して所定の意味タグセットに属する意味タグが付与される尤度を与えるモデルを算出するためのモデル算出手段とを含む。
第1の特徴関数抽出手段は、コーパスからコンテキスト系の特徴関数を抽出する。第2の特徴関数抽出手段は、コーパスから依存性の特徴に関する特徴関数を抽出する。特徴関数選択手段は、コーパス中の各文及び各単語に対し、これらの特徴関数の値を算出し、その統計に基づき、所定の算出方法により算出される情報量を基準として、情報量の大きな特徴関数のみを選択する。選択の基準としては、情報量の大きなものから所定個数だけ選択したり、情報量の大きなものから所定の割合の個数だけ選択したりすることが考えられる。モデル算出手段は、特徴関数選択手段により選択された特徴関数に関してコーパス中の各文及び各単語に対して得られた所定のコンテキスト系の特徴関数及び依存性の特徴に関する特徴関数に対して特徴量を算出する。さらにその統計に基づき、入力文に含まれる単語の各々に対して得られる特徴関数のうち特徴関数選択手段により選択された特徴関数の値に基づいて、当該単語に対して所定の意味タグセットに属する意味タグが付与される尤度を与えるモデルを算出する。
このように、コンテキスト系の特徴関数だけでなく、依存性の特徴に関する特徴関数を用いることにより、得られるモデルの精度が向上することが確かめられた。また、特徴関数選択手段により特徴関数の一部を選択し、それら特徴関数のみを使用することにより、モデル構築の際の計算量を削減することができ、モデル構築の時間を少なくできる。またモデル構築が不可能な場合にもこのように特徴関数を絞ることでモデル構築が可能になる。
好ましくは、所定のコンテキスト系の特徴関数は、対象となる単語の前後の所定個数の単語からなる単語コンテキストの特徴関数と、対象となる単語の前の所定個数の意味タグからなる意味タグのコンテキストの特徴関数と、対象となる単語の前後の所定個数の文法タグからなる文法タグコンテキストの特徴関数とを含み、第1の特徴関数抽出手段は、コーパス中の各文の各単語に関し、当該単語に関する単語コンテキストの特徴関数と、意味タグのコンテキストの特徴関数と、文法タグコンテキストの特徴関数とをそれぞれ抽出するための手段を含む。
実験では、このように単語コンテキストと、意味タグのコンテキストと、文法タグコンテキストとを用いて得られたモデルでは、意味タグ以外のコンテキストについては、対象となる単語の前後のコンテキストまで考慮するので、入力文の単語に対し自動的な意味タグ付けを行なったところ、良好な結果が得られた。一方、意味タグについてはその前の単語に付された意味タグしか使用しないので、このモデルを用いて入力文中の単語について、自動的に、単語が入力されるたびに意味タグを付与することができる。
好ましくは、第2の特徴関数抽出手段は、コーパス中の各文について依存性解析を行ない、単語間の依存関係を出力するための依存性解析手段と、依存性解析手段により得られた依存関係の各々について、当該依存関係を構成する第1の単語及び第2の単語と、当該依存関係の分類を示す依存性ラベルとの組からなる、依存性に関する第1の特徴関数を抽出するための手段と、依存性解析手段により得られた依存関係の各々について、当該依存関係を構成する第2の単語及び第1の単語と、当該依存関係を逆転させた関係を示す分類を示す依存性ラベルとの組からなる、依存性に関する第2の特徴関数を抽出するための手段とを含む。
文中のある依存関係については、一方の単語から見た関係と、他方の単語から見た関係との二通りの依存関係を表すと見ることができる。一つの依存関係からこのように二つの依存関係に関する特徴関数を抽出することにより、モデル構築の際に利用可能な特徴関数の候補の数が増加し、得られたモデルによる意味タグ付けの精度を向上させることができる。
好ましくは、特徴関数選択手段は、第1及び第2の特徴関数抽出手段により抽出された特徴関数の各々に関し、コーパス中の各文及び各単語に対して算出される値に関する統計に基づく相互情報量を算出するための相互情報量算出手段と、相互情報量算出手段により算出された情報量の大きな特徴関数のみを、所定の基準にしたがって選択するための手段とを含む。
相互情報量の大きな特徴関数のみを、モデル構築の際に使用する。利用可能な情報量を大きく保ったまま、モデル構築の際の計算量を削減することができ、モデル構築の時間を削減できる。相互情報量の小さな特徴関数のみを選択する場合と比較して、モデル構築の時間が同程度ならばより精度の高い意味タグ付けが可能なモデルを構築できる。
好ましくは、モデル算出手段は、特徴関数選択手段により選択された特徴関数に関し、コーパス中の各文及び各単語に対して特徴量を算出するための特徴量算出手段と、特徴量算出手段により算出された特徴量の統計に基づき、所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる所定のコンテキスト系の特徴関数のうち特徴関数選択手段により選択された特徴関数、及び入力文に含まれる依存性の特徴に関する特徴関数のうち特徴関数選択手段により選択された特徴関数に基づいて、当該単語に対して所定の意味タグセットに属する意味タグが付与される尤度を与える、最大エントロピー法に基づくモデルを算出するための手段とを含む。
好ましくは、モデル構築装置はさらに、コンピュータ読取り可能な言語のオントロジーとともに用いられ、当該オントロジーは、言語の単語に関し、その意味に基づく階層的構造を与えるものであり、当該階層的構造は、階層的木構造を構成する複数のノードを含み、各ノードはそれぞれそのノードに属する単語の意味的カテゴリーに対応しており、モデル構築装置はさらに、オントロジーの各ノードに対応し、コーパス中の各文の各単語が当該ノードに属するか否かを示す値をとる所定のオントロジー特徴関数を抽出するための第3の特徴関数抽出手段を含み、特徴関数選択手段は、第1、第2、及び第3の特徴関数抽出手段により抽出された特徴関数の各々に関し、コーパス中の各文及び各単語に対して算出される値に関する統計に基づく所定の算出方法により算出される情報量を基準とし、情報量の大きな特徴関数のみを所定の基準にしたがって選択するための手段を含み、モデル算出手段は、選択するための手段により選択された特徴関数に関してコーパス中の各文及び各単語に対して得られた所定のコンテキスト系の特徴関数、依存性の特徴に関する特徴関数、及び所定のオントロジー特徴関数に対して得られる特徴量の統計を算出するための統計量算出手段と、統計量算出手段により算出された統計量に基づき、所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる、所定のコンテキスト系の特徴関数のうち選択するための手段により選択された特徴関数の値、入力文に含まれる依存性の特徴に関する特徴関数のうち、選択するための手段により選択された特徴関数の値、及び入力文に含まれる単語の各々に対し、当該単語に対して得られる、所定のオントロジー特徴関数のうち選択するための手段により選択された特徴関数の値に基づいて、当該単語に対して所定の意味タグセットに属する意味タグが付与される尤度を与えるモデルを算出するための手段を含む。
コンテキスト系の特徴関数及び依存性の特徴に関する特徴関数だけでなく、オントロジー特徴関数を用いることにより、得られるモデルの精度が向上することが確かめられた。特に、コーパス内に存在しない単語についての意味タグ付けの精度が向上することが確かめられた。また、特徴関数選択手段により特徴関数の一部を選択し、それら特徴関数のみを使用することにより、モデル構築の際の計算量を削減することができ、モデル構築の時間を少なくできる。またモデル構築が不可能な場合にもこのように特徴関数を絞ることでモデル構築が可能になる。
本発明の第2の局面に係る意味タグ付け用モデル構築装置は、予め各単語に所定の意味タグセットに属する意味タグのいずれかと、所定の文法タグセットに属する文法タグのいずれかとが付された所定の言語のコーパスと、コンピュータ読取り可能な言語のオントロジーとを用い、上記言語の単語に対する意味タグを自動的に付与するための統計的モデルを構築するためのモデル構築装置であって、オントロジーは、言語の単語に関し、その意味に基づく階層的構造を与えるものであり、当該階層的構造は、階層的木構造を構成する複数のノードを含み、各ノードはそれぞれそのノードに属する単語の意味的カテゴリーに対応しており、モデル構築装置は、コーパス中の各文の各単語に関する所定のコンテキスト系の特徴関数を抽出するための第1の特徴関数抽出手段と、オントロジーの各ノードに対応し、コーパス中の各文の各単語が当該ノードに属するか否かを示す値をとる所定のオントロジー特徴関数を抽出するための第2の特徴関数抽出手段と、第1及び第2の特徴関数抽出手段により抽出された特徴関数の各々に関し、コーパス中の各文及び各単語に対して算出される値に関する統計に基づく所定の算出方法により算出される情報量を基準とし、情報量の大きな特徴関数のみを所定の基準にしたがって選択するための特徴関数選択手段と、特徴関数選択手段により選択された特徴関数に関してコーパス中の各文及び各単語に対して得られた所定のコンテキスト系の特徴関数及び所定のオントロジー特徴関数に対して得られる特徴量の統計に基づき、所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる所定のコンテキスト系の特徴関数のうち特徴関数選択手段により選択された特徴関数の値、及び入力文に含まれる単語の各々に対し、当該単語に対して得られる、所定のオントロジー特徴関数のうち選択するための手段により選択された特徴関数の値に基づいて、当該単語に対して所定の意味タグセットに属する意味タグが付与される尤度を与えるモデルを算出するためのモデル算出手段とを含む。
第1の特徴関数抽出手段は、コーパスからコンテキスト系の特徴関数を抽出する。第2の特徴関数抽出手段は、オントロジーからオントロジー特徴関数を抽出する。特徴関数選択手段は、コーパス中の各文及び各単語に対し、これらの特徴関数の値を算出し、その統計に基づき、所定の算出方法により算出される情報量を基準として、情報量の大きな特徴関数のみを選択する。選択の基準としては、情報量の大きなものから所定個数だけ選択したり、情報量の大きなものから所定の割合の個数だけ選択したりすることが考えられる。モデル算出手段は、特徴関数選択手段により選択された特徴関数に関してコーパス中の各文及び各単語に対して得られた所定のコンテキスト系の特徴関数及びオントロジー特徴関数に対して特徴量を算出する。さらにその統計に基づき、入力文に含まれる単語の各々に対して得られる特徴関数のうち特徴関数選択手段により選択された特徴関数の値に基づいて、当該単語に対して所定の意味タグセットに属する意味タグが付与される尤度を与えるモデルを算出する。
このように、コンテキスト系の特徴関数だけでなく、オントロジー特徴関数を用いることにより、得られるモデルの精度が向上することが確かめられた。特に、コーパス内に存在しない単語についての意味タグ付けの精度が向上することが確かめられた。特徴関数選択手段により特徴関数の一部を選択し、それら特徴関数のみを使用することにより、モデル構築の際の計算量を削減することができることは第1の局面に係るモデル構築装置と同様であり、モデル構築の時間を少なくできる。またモデル構築が不可能な場合にもこのように特徴関数を絞ることでモデル構築が可能になる。
好ましくは、意味タグ付け用モデル構築装置は、特徴関数選択手段により選択された特徴関数を特定する情報を記憶するための、コンピュータにより読取り可能な記憶手段をさらに含む。
本発明の第3の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの意味タグ付け用モデル構築装置として機能させるものである。
本発明の第4の局面に係る意味タグ付け装置は、所定言語の入力文の各単語に対し、所定のコンテキスト系特徴関数と、単語間の依存関係に基づく依存性特徴関数及び予め準備されたオントロジーに基づくオントロジー特徴関数のいずれかとの組合せ、又はその双方との組合せを含む、予め定められた複数個の特徴関数の各々の値を算出するための特徴関数算出手段と、入力文の各単語に対し、特徴関数算出手段により算出された特徴関数の値と、予め準備された、複数個の特徴関数の値と所定の意味タグとの組合せが与えられると当該単語に当該意味タグが付与される確率を出力する統計的モデルを適用することにより、入力文の各単語に付与される意味タグの可能な組合せの各々の尤度を算出するための手段と、算出される尤度が最も大きくなる組合せにしたがい、入力文の各単語に対して意味タグを付与するための手段とを含む。
本発明の一実施の形態について詳細に説明する。本実施の形態では、意味タグ付けを最大エントロピー法によって行なう。最初に本実施の形態で採用している最大エントロピーによるモデリングについて説明し、さらに、意味タグ付けの概念と、以下で説明する実施の形態で採用している意味タグ付けの方法の概要とについて説明する。なお、以下の説明において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
本実施の形態で使用する最大エントロピー法によるモデル(MEモデル)は以下の形式をしている。
Figure 2008021139
ただし、tは確率を算出する対象となっているタグを示し、cはtの文脈(コンテキスト)を示し、ガンマは以下の式を満足させるための正規化係数である。
Figure 2008021139
ただしKはモデル中の特徴の数であり、Lは実施の形態で使用する意味タグセット中のタグの数である。
さらに、αは特徴fの重みであり、fは特徴関数でかつその値はf={0,1}であり、pはデフォルトのタグ付けモデルである。本実施の形態では、デフォルトのタグ付けモデルとして一様分布を使用する。これは、モデル中の全ての情報が最大エントロピーの制約を用いて特定されているためである。これらの値の中で、コーパスを用いた最大エントロピー法によるモデルとして算出されるのは、結局、特徴fの重みαの値である。
図1に、意味タグ付けがされた文の例(文20及び22)を示す。図1に示す文20は「Please mention this coupon when ordering」という文に含まれる各単語に対し、意味タグ30,32,34,36,38,40を付した例を示す。例えば「coupon」に付されている意味タグ「NN1DOCUMENT」の「NN」は普通名詞であることを、「1」は単数であることを、「DOCUMENT」はこの単語が文書という意味的カテゴリに属することを、それぞれ示している。文22の各単語にも、同様に意味タグ50,52,54,56及び58が付されている。
本発明では、このような意味タグ付けを自動的に行なうために、通常のNグラム系の特徴だけでなく、句構造から求められる依存性の特徴、及びWordNetに代表されるオントロジー(シソーラスと同様、単語群をその意味に基づき複数の階層的なカテゴリーに分割したもの)による特徴という、複数種類の特徴を用いる。さらに、Nグラム系の特徴として、対象となる単語の前の単語又は品詞だけでなく、後の単語又は品詞を用いる。これらは、単語の前後の情報を用いるため、以下「コンテキスト系の特徴量」と呼ぶ。
図2に、本実施の形態で採用しているコンテキスト系の特徴量100の構成を示す。図2を参照して、単語80を中心とし、その前に二つの単語82及び84、その後に二つの単語86及び88が連続しているような単語列を考え、単語80が意味タグ付けの対象であるものとする。各単語80〜88の単語をいずれも便宜的に単語wと表す。各単語には、その品詞を示すposタグが既に付されているものとする。一方、意味タグtについては、処理対象の単語80及びこの単語の後の単語86及び88には付与されておらず、単語80の前の単語82及び84には付与されているものとする。
本実施の形態では、単語80のタグtを定めるためのコンテキスト系特徴量として、単語80自身の単語(これをw0とする。)と、その前後二つずつの計4つの単語(これらをw−1、w−2、w+1、及びw+2とする。)とからなる、合計五つの単語からなる単語コンテキストと、それらのposタグpos、pos±1及びpos±2からなる品詞コンテキストと、直前の二つの単語の意味タグt−1及びt−2からなる意味コンテキストと、処理対象の単語wの最初の1文字、2文字、及び3文字をそれぞれ示すpref(w)〜pref(w)と、最後の1文字、2文字、及び3文字をそれぞれ示すsuff(w),suff(w),suff(w)とを含む。すなわち、コンテキスト系の特徴量として、本実施の形態では18種類の特徴量を使用する。
図3に、これらのコンテキスト系特徴量の形式を示す。図3を参照して、これら特徴量はいずれも特徴ベクトルとして表される。例えば単語に関する特徴量w、w−1、w−2、w+1、及びw+2はいずれも同じ形式の特徴ベクトルで表される。この特徴ベクトルは、使用するコーパスに含まれる語彙数と同じだけの要素数を持つ。各要素はいずれも一つの単語に対応している。各要素の値は0又は1であり、着目している単語に対応した要素の値を「1」で、それ以外の要素の値を「0」で、それぞれ表す。コーパス中に出現する単語が例えば20000種類あれば、この特徴量ベクトルの要素数は20000であり、そのうち一つの要素の値が「1」、他の要素の値は「0」である。このように、ある単語のコンテキスト等の特定の情報によって値が0か1かのいずれかを取る関数を以下「特徴関数」と呼ぶ。すなわち、コーパス中に出現する一つ一つの単語に対し、一つの特徴関数が定められ、しかもそれらがw、w−1、w−2、w+1、及びw+2の全てに対して定められる。
意味タグt、文法タグposの場合も同様に特徴関数が定められる。すなわち、これらに対しては、意味タグセット中のタグ数、及び文法タグセット中のタグ数に応じた数の特徴関数が定められる。ただしこれらタグの場合には、それらの種類がコーパス中の語彙数と比較して少ないため、特徴ベクトルの要素数もそれに応じて少なくなる。
pref〜pref,suff〜suffについては、それぞれ1文字、2文字からなる文字列、及び3文字からなる文字列のバリエーションに応じた数の要素数を持つ特徴ベクトルにより表される。例えば英語の場合、アルファベットが26文字とすると、prefに対応する特徴ベクトルの要素数は26、prefに対応する特徴量ベクトルの要素数は26、prefに対応する特徴量ベクトルの要素数は26となる。すなわち、コーパス中に出現する単語の一つ一つに対し、ほぼ26+26+26と等しい数だけの特徴関数が定められる。
図4を参照して、句構造から得られる依存性の特徴について説明する。図4(A)の文140と図4(B)の文180とは、いずれも「dog」という単語を含む。これらは同じ単語ではあるが、図4(A)の文140の場合には、意味タグ170により示されるように、動物の犬を表し、図4(B)の文180の場合には意味タグ220により表されるように、「ホットドッグ」という食べ物を表す。このような意味的な相違は、文中におけるこれら単語の出現位置と、それら単語を含む句の構造とに依存して生じてくる。このような特徴を依存性による特徴と呼ぶ。学習用のコーパス中にはこうした意味タグ170又は220のような意味タグが付されている。本実施の形態の目的は、入力された意味タグの付されていない文の各単語に、こうした意味タグを自動的に付すために使用する統計的なモデルをコーパス等から作成する、ということである。
本実施の形態では、ある単語の特徴として、その単語を含む文が、予めコーパス中から抽出された依存関係のうちのどれと一致する依存関係を持っているかを使用する。そのために、コーパス中から以下のようにして特徴を抽出する。
図4(A)を参照して、文140中の単語150「dog」は、単語152「ate」の主語である。また、単語152「ate」の目的語は単語154「cookie」である。文180でも同様で、単語200「man」は単語202「ate」の主語であり、単語202「ate」の目的語は単語204「dog」である。本実施の形態では、予めコーパス中の全ての文からこのような関係を抽出し、一つ一つを特徴とする。これらの特徴は、依存関係にある二つの単語と、その依存関係を表す記号(これを「依存性ラベル」と呼ぶ。)との組み合わせにより表される。
例えば、主語−動詞という依存関係は依存性ラベル「S」160及び210で表し、「動詞−目的語」という依存関係は依存性ラベル「O」162及び212で表すものとする。すると、図4(A)に示す文140からは、「dog,ate,S」という特徴と、「ate,cookie,O」という特徴とが抽出される。図4(B)に示す文180からは、「man,ate,S」という特徴と、「ate,dog,O」という特徴とが抽出される。コーパスに含まれる全ての文についてこの処理を行ない、図4(C)に示されるように、抽出された全ての依存関係250,252,254,256等を依存関係の集合240として記憶する。なお、上記した依存関係の各々に対し、それらの関係を逆にした関係を考えることもできる。すなわち、どの単語を主とみるかにより、依存関係は二通りに解釈できる。そこで、本実施の形態では、各依存関係ごとに、それら二通りの特徴を考える。
入力文中のある単語について、これらの特徴に対応する特徴量を定めるためには、入力文に対し文法的解析(これをここでは依存性解析と呼ぶ。)を行ない、依存関係の集合240に含まれる依存関係がある否かを調べる。あればその特徴に対する値を1、なければその特徴に対する値を0とする。これがこの場合の特徴関数である。すなわち、本実施の形態では、コーパスから抽出された依存関係の2倍の数だけの特徴関数が定められる。
こうして全ての依存関係に対してその値を調べ、その値を一定の順序によって配列することにより、特徴ベクトル260、262等の値が定められる。この特徴ベクトル260、262の各要素は、コーパスから抽出された特定の依存関係に対応している。図4(C)に示す特徴ベクトル260は図4(A)に示す文140に対し、依存関係の集合240に基づいて得られた、依存関係の特徴関数の値のみからなる特徴ベクトルを示す。特徴ベクトル262は、同様にして図4(B)に示す文180に対し依存関係の集合240を適用して得られた特徴ベクトルである。
図5に、入力文280に対し、依存関係の集合240を適用して特徴ベクトル286を求めるプロセスを示す。依存性パーズプロセス282により、入力文280中に含まれる全ての依存関係を抽出する。依存関係の集合240に含まれる全ての依存関係について、依存性パーズプロセス282により得られた依存関係と一致するか否かを依存性特徴ベクトル作成プロセス284により調べる。一致していれば、特徴ベクトル286の、その依存関係に対応する要素の値を「1」、それ以外の場合にはその要素の値を「0」とする。こうして、入力文280から依存関係の集合240に基づく特徴ベクトル286が得られる。
次に、オントロジーによる特徴量の算出方法について説明する。本実施の形態では、オントロジーとしてWordNetによる単語の階層的分類を使用する。WordNetによる単語の階層的分類の例を図6に示す。図6に示す分類は、単語300「apple」についてWordNetから得られる階層的カテゴリーを示している。これら階層的カテゴリーは、図示していないが木構造を有している。この木構造の各ノードには一意のカテゴリー名が与えられており、そのノードには、そのノードより下のノードに属する全ての単語が属する。
図6を参照して、単語300「apple」は、二つの意味の階層構造に属している。第1の意味の階層構造320と第2の意味の階層構造322とである。これらはそれぞれ、WordNetの階層構造のトップレベルカテゴリ310に属するObjectカテゴリ340及びPlantカテゴリ342に含まれる。
Objectカテゴリ340から単語300「apple」までには、複数のカテゴリ350〜360のノードが存在している。これらノードは、下位ノードに属す単語は、上位ノードにも属している、という関係にある。同様に、Plantカテゴリ342から単語300「apple」までには、複数のカテゴリ380〜390が存在している。
単語300「apple」の直前のノード360にはPear(370)及びGrape(372)などの他の果物を示す単語が属しており、同じく単語300「apple」の直前のノード390にはWild Apple(400)及びCrab Apple(402)などの他の種類のりんごを示す単語が属している。
本実施の形態では、上記した意味的階層構造に出現する全てのノードを所定の順序で配列した、図7に示すようなオントロジーカテゴリーリスト420を作成し、ある単語が与えられたときに、オントロジーカテゴリーリスト420の各ノードについて、その単語が直接的又は間接的に属しているノードについてはその値を1、それ以外のノードについてはその値を0とするような特徴量を算出する。すなわち、オントロジーに含まれる各ノードにつき、一つの特徴関数が定義される。オントロジーによる特徴関数の数は、オントロジー中に含まれる意味的階層構造中のノード数と同じだけ存在する。
それらの値を図7の右側に示すように、オントロジーカテゴリーリスト420と同じ一定の順序で並べることにより、処理対象の単語に対する、オントロジー特徴ベクトル422が得られる。図7には、単語300「apple」に対し、オントロジーカテゴリーリスト420を適用した結果得られた特徴ベクトル422を示してある。
なお、本実施の形態ではWordNetをオントロジーとして使用したが、コーパスから自動的なクラスタリングにより作成した2分木をオントロジーとして使用してもよい。
以上述べた各特徴量ベクトルの要素数はいずれも非常に大きい。そのため、よほど性能のよいコンピュータでなければこの計算に要する時間は非常に大きくなり、そもそも計算ができるかどうかさえ怪しくなる。
本実施の形態では、以上のようにコンテキスト系の特徴関数、依存関係による特徴関数、及びオントロジーによる依存関数をいずれも使用する。これら特徴関数の数は、以上の説明から明らかなように極めて大きくなる。このように多数の特徴ベクトルの要素の中から、他と比較して、より多くの情報量を含むような特徴のみを抽出し、入力文に対する処理に適用する。そのために、相互情報量(MI)を使用して、情報量の多い、有用性の高い特徴属性のみを選択する。
ある特徴属性の有用性(I(f,t))は以下の式にしたがい算出される。
Figure 2008021139
ただし、Tは使用タグの集合を示し、tはタグセットT中に含まれる各タグを示す。f∈{0,1}は、各特徴属性の値を示す。p(t)はタグtが生ずる事前確率を示し、p(f)はタグの値がfとなる事前確率を示し、p(f,t)はタグがtで、その値がfとなる同時確率を示す。
このように相互情報量を使用すると、特徴間の干渉について考慮していないことになる。そのため、ある特徴について、実際には他の特徴と同じ情報を異なる形で示しているに過ぎないにもかかわらず、情報量が多いと判断されることがある。それにもかかわらず、実際にはこの相互情報量という概念は有用である。相互情報量の少ないものを排除することにより、モデルに対して利益をもたらさないような特徴を排除することができ、その結果、学習の速度を上げることができる。ときには、相互情報量によって特徴の数を削減しなければそもそも学習そのものが不可能な場合さえある。したがって、このように相互特徴量を用いて、有用な特徴のみを使用することは、現実的な意味の有ることである。
<構成>
以下、本発明の一実施の形態に係る意味タグ付けシステムの構成について説明する。図8に、この実施の形態に係る意味タグ付けシステム440の全体構成をブロック図形式で示す。図8を参照して、意味タグ付けシステム440は、人手により予め意味タグ付けがされた文からなる、機械可読な英語の意味タグ付けコーパス450と、予め機械可読な形式で準備された、WordNetにより実現された英語に関するオントロジー452と、意味タグ付けコーパス450及びオントロジー452を用い、前述した通り、多数の特徴属性の中から相互情報量の大きな特徴属性を抽出し、それらを用いて意味タグ付け用のモデルを算出するためのモデル作成プロセス454と、モデル作成プロセス454により作成されたモデルを記憶するためのモデル記憶部456と、モデル作成プロセス454によるモデル作成時に抽出される特徴関数を記述した特徴関数の集合(特徴セット)を記憶する特徴セット記憶部458とを含む。
意味タグ付けシステム440はさらに、入力文462を受け、モデル記憶部456に記憶されたモデル、特徴セット記憶部458に記憶された特徴セット、及びオントロジー452を用い、入力文462中の各単語に対し意味タグ付けを行なって意味タグ付出力文464を出力するための意味タグ付けプロセス460とを含む。
モデル作成プロセス454と意味タグ付けプロセス460とは、別システムとして作成されてもよい。モデル、特徴セット、及びオントロジー452があれば意味タグ付けプロセス460は独立で動作できる。ただし意味タグ付けプロセス460が使用する意味タグセットはモデル作成プロセス454で使用した意味タグセットと同一である必要がある。
図9に、モデル作成プロセス454のより詳細なブロック図を示す。図9を参照して、モデル作成プロセス454は、予め準備された意味タグ付けコーパス450に対し文法タグ付け処理を行なうための文法タグ付けプロセス480と、文法タグ付けプロセス480により文法タグ付けがされたコーパスを記憶するための意味タグ・文法タグ付コーパス記憶部482と、意味タグ・文法タグ付コーパス記憶部482に含まれる各文に対し依存性解析を行ない、依存関係を抽出し、(第1の単語、第2の単語、依存関係のラベル)という形式の依存性特徴関数を各文に付して出力するための依存性パーザプロセス484と、依存性パーザプロセス484により出力される、意味タグ、文法タグ、及び依存性特徴関数が付された学習用コーパスを記憶するための学習用コーパス記憶部486とを含む。
モデル作成プロセス454はさらに、学習用コーパス記憶部486に記憶された学習用コーパスの各単語について、前述したコンテキスト系特徴関数及び依存性特徴関数を抽出するためのコンテキスト系特徴及び依存性特徴抽出部488と、オントロジー452から、オントロジー特徴関数を抽出するためのオントロジー特徴抽出プロセス490と、コンテキスト系特徴及び依存性特徴抽出プロセス488により学習用コーパスから抽出された特徴関数及びオントロジー特徴抽出プロセス490によりオントロジー452から抽出された特徴関数を記憶するための特徴記憶部492とを含む。
モデル作成プロセス454はさらに、特徴記憶部492に記憶された特徴関数と、学習用コーパス記憶部486中の各文及び各単語を用いた統計的な処理とにより、既に述べた相互情報量を各特徴関数に関して算出し、相互情報量の大きなものから所定数の特徴関数のみを選択して、特徴セットとして出力するための特徴選択プロセス494と、特徴選択プロセス494により出力された特徴セットを記憶するための特徴セット記憶部496と、特徴選択プロセス494により出力された特徴セットに含まれる特徴関数を用い、学習用コーパス記憶部486に含まれる各文及び各単語を用いて、前述した最大エントロピー法によるモデルを算出しモデル記憶部456に出力し記憶させるための学習プロセス498とを含む。特徴セット記憶部496は、そのまま図8に示す特徴セット記憶部458として意味タグ付けプロセス460に渡される。
図10に、意味タグ付けプロセス460のより詳細な構成をブロック図形式で示す。図10を参照して、意味タグ付けプロセス460は、入力文462に対して図9に示す文法タグ付けプロセス480と同様の処理により文法タグ付けを行なうための文法タグ付けプロセス510と、文法タグ付けプロセス510により文法タグ付けがされた入力文に対し、図9に示す依存性パーザプロセス484と同様の依存性解析を行ない、解析結果を入力文に付して出力するための依存性パーザプロセス512とを含む。
意味タグ付けプロセス460はさらに、依存性パーザプロセス512により出力される、依存性解析がされた入力文から、特徴セット記憶部496に記憶された依存性の特徴セットに含まれる特徴関数の値を算出するための依存性特徴抽出プロセス514と、文法タグ付けプロセス510が出力する文法タグ付けがされた入力文から、特徴セット記憶部496に記憶された特徴セットのうちのコンテキスト系の特徴関数の値を算出するためのコンテキスト系特徴抽出プロセス516と、入力文462に対し、オントロジー452を参照し、特徴セット記憶部496に含まれるオントロジー特徴に関するオントロジー特徴関数の値を算出し出力するためのオントロジー特徴抽出プロセス518とを含む。依存性特徴抽出プロセス514、コンテキスト系特徴抽出プロセス516、及びオントロジー特徴抽出プロセス518により、コーパスから得られた特徴関数のうちで、相互情報量の大きなもののみからなる特徴関数の値の群がえられる。
意味タグ付けプロセス460はさらに、依存性特徴抽出プロセス514から出力される依存性特徴関数の値、コンテキスト系特徴量抽出プロセス516から出力されるコンテキスト系特徴関数の値、オントロジー特徴抽出プロセス518から出力されるオントロジー特徴関数の値に対し、モデル記憶部456に記憶された統計的モデルを適用し、入力文に含まれる各単語に対する意味タグの付与方法の各々に対してその尤度を算出するための尤度算出部520と、尤度算出部520により算出される尤度の最も大きな意味タグの組合せを決定し、その組合せにしたがい、入力文の各単語に意味タグを付与する処理を実行し意味タグ付出力文464として出力するためのタグ選択部522とを含む。
尤度算出部520における尤度の算出方法は、以下のとおりである。入力文に含まれる単語の全てに対して任意の意味タグを付与する。すると、モデル記憶部456に記憶された統計的モデルによって、各単語に対し、その意味タグが付与される確率が、その単語に対するコンテキスト系特徴関数の値と、依存性特徴関数の値と、オントロジー特徴関数の値とを用いて算出される。意味タグのある組合せについて、各単語にその意味タグが付与される確率を計算し、それらを互いに乗算することで、その組合せの尤度が算出できる。
<動作>
図8〜図10に示す意味タグ付けシステム440は以下のように動作する。意味タグ付けシステム440の動作は大きく二つのフェーズに分割される。モデルの学習フェーズと、モデルを用いた入力文に対する意味タグ付けフェーズとである。最初に学習フェーズ、次に意味タグ付けフェーズにおける意味タグ付けシステム440の動作を説明する。
−モデルの学習フェーズ−
図8を参照して、意味タグ付けコーパス450、オントロジー452は予め準備されているものとする。また文法タグセット及び意味タグセットも予め選定されているものとする。
図9を参照して、文法タグ付けプロセス480は、意味タグ付けコーパス450に含まれる各文の各単語に対し文法タグ付けを行ない、意味タグ・文法タグ付コーパス記憶部482に意味タグ・文法タグ付コーパスを出力する。依存性パーザプロセス484は、意味タグ・文法タグ付コーパス記憶部482に記憶された各文に対し依存性解析を行ない、依存関係を抽出してコーパスの各文に付して学習用コーパス記憶部486に記憶させる。
コンテキスト系特徴及び依存性特徴抽出プロセス488は、学習用コーパス記憶部486に記憶された各文からコンテキスト系特徴関数を抽出し、さらに各文に付された依存性特徴関数を抽出して特徴記憶部492に記憶させる。
オントロジー特徴抽出プロセス490は、オントロジー452に含まれる階層構造中の各カテゴリをオントロジー特徴関数として抽出し特徴記憶部492に記憶させる。
特徴選択プロセス494は、特徴記憶部492に記憶された各特徴関数について、学習用コーパス記憶部486に記憶された、文法タグ、意味タグ、及び依存性特徴が付された学習用コーパスの各文の各単語を用いて相互情報量を算出し、上位の所定個数の特徴関数のみを選択し特徴セットとして特徴セット記憶部496に記憶させる。
学習プロセス498は、学習用コーパス記憶部486に記憶された学習用コーパスの各文の各単語と、それらに付された意味タグと、特徴セット記憶部496に記憶された特徴関数のセットとに基づき、特徴セット記憶部496に記憶された特徴セットに含まれる特徴関数のみを用いて既に述べた最大エントロピー法によるモデル(αの値)を算出し、モデル記憶部456に記憶させる。特徴セット記憶部496に記憶された学習用セットは、そのまま特徴セット記憶部458に与えられ、記憶される。モデルが算出されると、学習フェーズは終了である。
−意味タグ付けフェーズ−
図10を参照して、意味タグ付けフェーズでは、オントロジー452、特徴セット記憶部496及びモデル記憶部456ともに意味タグ付けプロセス460に予め与えられている。入力文462が与えられると、入力文462は文法タグ付けプロセス510及びオントロジー特徴抽出プロセス518に与えられる。
文法タグ付けプロセス510は、入力文462に対して文法タグ付けを行ない、得られた文を依存性パーザプロセス512及びコンテキスト系特徴抽出プロセス516に与える。依存性パーザプロセス512は、文法タグ付けプロセス510から与えられた文法タグ付けがされた文に対し、依存性の解析処理を行ない、解析結果を依存性特徴抽出プロセス514に与える。依存性特徴抽出プロセス514は、特徴セット記憶部496に記憶されている特徴セットのうち、依存性特徴に関する特徴関数の値を、依存性パーザプロセス512から与えられる依存性解析後の入力文から算出し、尤度算出部520に与える。
一方、文法タグ付けプロセス510から文法タグ付けされた入力文を与えられたコンテキスト系特徴抽出プロセス516は、入力文から得られるコンテキスト系特徴関数のうち、特徴セット記憶部496に記憶された特徴関数の値のみを算出し、尤度算出部520に与える。
入力文462が与えられたオントロジー特徴抽出プロセス518は、入力文の各単語に対し、特徴セット記憶部496に記憶されたオントロジー特徴関数の値のみを、オントロジー452を参照して算出し、尤度算出部520に与える。
尤度算出部520は、依存性特徴抽出プロセス514から与えられた依存性特徴の特徴関数、コンテキスト系特徴抽出プロセス516から与えられたコンテキスト系特徴の特徴関数、オントロジー特徴抽出プロセス518から与えられたオントロジー特徴の特徴関数をモデル記憶部456に対し適用し、入力文の各単語に対する意味タグの可能な組合せの全てについてその尤度を算出し、それらを全てタグ選択部522に与える。
タグ選択部522は、尤度算出部520から与えられた意味タグの組合せのうち、尤度算出部520により算出された尤度が最も高いものを選択する。タグ選択部522はさらに、選択された組合せにしたがって各単語に意味タグを付し、意味タグ付出力文464として出力する。
図11に、コンテキスト系の特徴関数のみを用いて得られた精度(モデル1の「ベースライン」)と、ベースラインに依存性特徴関数を付加して得られた精度(モデル2)と、ベースラインにオントロジー特徴関数を付加して得られた精度(モデル3)、ベースラインに依存性特徴関数及びオントロジー特徴関数の双方を付して得られた、本発明の実施の形態によって得られた精度(モデル4)とを対比して表形式で示す。
この実験には、出願人において作成した英文コーパスを用いた。使用したタグセットは、42個の名詞/形容詞/副詞カテゴリ及び29個の動詞/動詞的カテゴリ(両者の間には重複がある。)から選択した意味タグセットを用い、さらに、固有名詞と、ある主の名詞及び数量的表現についての35個の「固有名詞」カテゴリを追加した。
これら意味カテゴリは、共通ドメインの「標準アメリカ英語」を意図して作成されたものである。カテゴリの例として、「physical.attribute」(名詞/形容詞/副詞)、「alter」(動詞/動詞的)、「interpersonal.act」(名詞/形容詞/副詞/動詞/動詞的)、「orgname」(固有名詞)、及び「zipcode」(数詞)等がある。
文法タグとしては165種類の基本的タグを使用した。
テスト用のコーパスは、学習用のコーパスとほぼ同じドメインから選ばれた53,367個の単語を含んでいる。各単語には、6個までの許容できる意味タグが予め手作業で付されている。テストでは、本実施の形態に係るシステム及び比較用のシステムのいずれに対しても、ある単語に対して予測されたタグが、その単語に予め付されたタグのいずれとも一致しない場合のみエラーとした。
図11において、「精度」は、全体として正しく意味タグ付けされた単語の率(%)を示す。「OOV」とあるのは、学習用コーパスに出現しなかった単語(Out−Of−Vocabulary)について正しく意味タグ付けされた率を示す。名詞、動詞、形容詞/副詞とある欄はそれぞれ、名詞、動詞、形容詞/副詞について正しく意味タグ付けされた率を示す。なお、複数の人間によって行なった同様の意味タグ付けでは、各人の間でのタグ付けの一致率と、タグ付けの精度とを調べたところ、いずれも97%程度となった。したがって、本発明で実現した自動的な意味タグ付けにおける精度の、実質的な上限は97%程度であるものと考えられる。
図11を参照して明らかなように、ベースラインのコンテキスト系特徴関数のみでは全体的な精度は82.58%である。OOVに対する精度はわずか30.58%であった。これに対し、依存性特徴による特徴関数を追加して使用すると、全体的な精度は83.37%に、OOVに対する精度は31.24に、それぞれ向上した。さらに他の名詞等についてもいずれも精度が向上した。
一方、ベースラインに対しオントロジー特徴関数を加えた場合には、学習用コーパスでは得られない情報を使用できないため、OOVに対する精度が向上することが期待された。現実に、OOVに対する精度は30.58%から36.18%まで、大幅に向上し、名詞、動詞、形容詞/副詞についても同様で、全体の精度も82.58%から83.90%にまで向上した。
さらに、ベースラインに対し依存性特徴による特徴関数とオントロジー特徴関数との双方を用いてモデルを構築した場合には、他の三つのモデルよりも、いずれの面においても精度が向上していることが確認できた。その精度は全体として84.9%程度であるが、上限が97%程度であることを考えると、ベースラインと比較して、かなりよい結果であると考えることができる。
<コンピュータによる実現>
なお、上記したこの実施の形態に係る意味タグ付けシステム440は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図12はこのコンピュータシステム530の外観を示し、図13はコンピュータシステム530の内部構成を示す。
図12を参照して、このコンピュータシステム530は、携帯型メモリが着脱可能なメモリポート552及びDVD(Digital Versatile Disc)装着可能なドライブ550を有するコンピュータ540と、キーボード546と、マウス548と、モニタ542と、マイクロフォン570及び一対のスピーカ572とを含む。
図13を参照して、コンピュータ540は、メモリポート552及びDVDドライブ550に加えて、CPU(中央処理装置)556と、CPU556、メモリポート552及びDVDドライブ550に接続されたバス566と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)558と、バス566に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)560と、バス566に接続され、プログラム、コーパス、特徴セット、タグセットなどを記憶するためのハードディスクドライブ554と、バス566に接続され、図示しないローカルエリアネットワーク(LAN)への接続をコンピュータ540に対し提供するネットワークインターフェース(I/F)576と、バス566、スピーカ572及びマイクロフォン570に接続されたサウンドボード568とを含む。
コンピュータシステム530に意味タグ付けシステム440としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ550又はメモリポート552に挿入されるDVD562又は携帯型メモリ564に記憶され、さらにハードディスクドライブ554に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ540に送信されハードディスクドライブ554に記憶されてもよい。プログラムは実行の際にはハードディスクドライブ540からRAM560にロードされる。DVD562から、携帯型メモリ564から、又はネットワークを介して、直接にRAM560にプログラムをロードしてもよい。
このプログラムは、コンピュータ540にこの実施の形態の意味タグ付けシステム440として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ540上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ540にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した意味タグ付けシステム440としての動作を実行する命令のみを含んでいればよい。コンピュータシステム530の動作は周知であるので、ここでは繰返さない。
なお、既に述べたように、意味タグ付けシステム440は、図1に示すモデル作成プロセス454を実現する部分と、意味タグ付けプロセス460を実現する部分とに完全に分離できる。両者の間では、特徴セット記憶部458、モデル記憶部456、及びオントロジー452を共有するだけでよい。
なお、上記した実施の形態では、オントロジーとしてWordNetを用いている。WordNetのデータは容易に入手できるが、WordNetではなく、何らかのコーパスから自動的なクラスタリングを用いてWordNetと同様のオントロジーを構築しこれをオントロジー特徴抽出に用いてもよい。
また、上記実施の形態では、コンテキスト系特徴関数として図2に示すようなものを用いている。しかし本発明はそのような実施の形態には限定されず、コンテキスト系特徴関数の数を変更してもよいことはいうまでもない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
意味タグ付けがされた文の例を示す図である。 本発明の一実施の形態で採用しているコンテキスト系の特徴関数を示す図である。 図2に示すコンテキスト系特徴量の形式を示す図である。 依存性の特徴を説明するための図である。 依存性特徴関数を作成するプロセスを説明するための図である。 オントロジーにおける階層構造を示す図である。 オントロジーによる特徴関数の構成を示す図である。 本発明の一実施の形態に係る意味タグ付けシステム440のブロック図である。 モデル作成プロセス454のより詳細な構成を示すブロック図である。 意味タグ付けプロセス460のより詳細な構成を示すブロック図である。 本発明の一実施の形態の効果を表形式で示す図である。 本発明の一実施の形態に係る意味タグ付けシステム440を実現するコンピュータシステムの外観図である。 図12に示すコンピュータのブロック図である。
符号の説明
100 コンテキスト系の特徴量
240 依存関係の集合
420 オントロジーカテゴリーリスト
422 オントロジー特徴ベクトル
440 意味タグ付けシステム
450 意味タグ付けコーパス
452 オントロジー
454 モデル作成プロセス
456 モデル記憶部
458,496 特徴セット記憶部
460 意味タグ付けプロセス
462 入力文
464 意味タグ付出力文
480,510 文法タグ付けプロセス
482 意味タグ・文法タグ付コーパス記憶部
484,512 依存性パーザプロセス
486 学習用コーパス記憶部
488 コンテキスト系特徴及び依存性特徴抽出プロセス
490 オントロジー特徴抽出プロセス
492 特徴記憶部
494 特徴選択プロセス
498 学習プロセス
514 依存性特徴抽出プロセス
516 コンテキスト系特徴量抽出プロセス
518 オントロジー特徴抽出プロセス
520 尤度算出部
522 タグ選択部

Claims (10)

  1. 予め各単語に所定の意味タグセットに属する意味タグのいずれかと、所定の文法タグセットに属する文法タグのいずれかとが付された所定の言語のコーパスを用い、前記言語の単語に対する意味タグを自動的に付与するための統計的モデルを構築するための、意味タグ付け用モデル構築装置であって、
    前記コーパス中の各文の各単語に関する所定のコンテキスト系の特徴関数を抽出するための第1の特徴関数抽出手段と、
    前記コーパス中の各文について、各文に含まれる依存性の解析を行ない、依存性の特徴に関する特徴関数を抽出するための第2の特徴関数抽出手段と、
    前記第1及び第2の特徴関数抽出手段により抽出された特徴関数の各々に関し、前記コーパス中の各文及び各単語に対して算出される値に関する統計に基づく所定の算出方法により算出される情報量を基準とし、情報量の大きな特徴関数のみを所定の基準にしたがって選択するための特徴関数選択手段と、
    前記特徴関数選択手段により選択された特徴関数に関して前記コーパス中の各文及び各単語に対して得られた前記所定のコンテキスト系の特徴関数及び前記依存性の特徴に関する特徴関数に対して得られる特徴量の統計に基づき、前記所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる前記所定のコンテキスト系の特徴関数のうち前記特徴関数選択手段により選択された特徴関数の値、及び前記入力文に含まれる依存性の特徴に関する特徴関数のうち前記特徴関数選択手段により選択された特徴関数の値に基づいて、当該単語に対して前記所定の意味タグセットに属する意味タグが付与される尤度を与えるモデルを算出するためのモデル算出手段とを含む、意味タグ付け用モデル構築装置。
  2. 前記所定のコンテキスト系の特徴関数は、
    対象となる単語の前後の所定個数の単語からなる単語コンテキストの特徴関数と、
    対象となる単語の前の所定個数の意味タグからなる意味タグのコンテキストの特徴関数と、
    対象となる単語の前後の所定個数の文法タグからなる文法タグコンテキストの特徴関数とを含み、
    前記第1の特徴関数抽出手段は、
    前記コーパス中の各文の各単語に関し、当該単語に関する前記単語コンテキストの特徴関数と、前記意味タグのコンテキストの特徴関数と、前記文法タグコンテキストの特徴関数とをそれぞれ抽出するための手段を含む、請求項1に記載の意味タグ付け用モデル構築装置。
  3. 前記第2の特徴関数抽出手段は、
    前記コーパス中の各文について依存性解析を行ない、単語間の依存関係を出力するための依存性解析手段と、
    前記依存性解析手段により得られた依存関係の各々について、当該依存関係を構成する第1の単語及び第2の単語と、当該依存関係の分類を示す依存性ラベルとの組からなる、依存性に関する第1の特徴関数を抽出するための手段と、
    前記依存性解析手段により得られた依存関係の各々について、当該依存関係を構成する前記第2の単語及び第1の単語と、当該依存関係を逆転させた関係を示す分類を示す依存性ラベルとの組からなる、依存性に関する第2の特徴関数を抽出するための手段とを含む、請求項1又は請求項2に記載の意味タグ付け用モデル構築装置。
  4. 前記特徴関数選択手段は、
    前記第1及び第2の特徴関数抽出手段により抽出された特徴関数の各々に関し、前記コーパス中の各文及び各単語に対して算出される値に関する統計に基づく相互情報量を算出するための相互情報量算出手段と、
    前記相互情報量算出手段により算出された情報量の大きな特徴関数のみを、前記所定の基準にしたがって選択するための手段とを含む、請求項1〜請求項3のいずれかに記載の意味タグ付け用モデル構築装置。
  5. 前記モデル算出手段は、
    前記特徴関数選択手段により選択された特徴関数に関し、前記コーパス中の各文及び各単語に対して特徴量を算出するための特徴量算出手段と、
    前記特徴量算出手段により算出された特徴量の統計に基づき、前記所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる前記所定のコンテキスト系の特徴関数のうち前記特徴関数選択手段により選択された特徴関数、及び前記入力文に含まれる依存性の特徴に関する特徴関数のうち前記特徴関数選択手段により選択された特徴関数に基づいて、当該単語に対して前記所定の意味タグセットに属する意味タグが付与される尤度を与える、最大エントロピー法に基づくモデルを算出するための手段とを含む、請求項1〜請求項4のいずれかに記載の意味タグ付け用モデル構築装置。
  6. 前記モデル構築装置はさらに、コンピュータ読取り可能な前記言語のオントロジーとともに用いられ、当該オントロジーは、前記言語の単語に関し、その意味に基づく階層的構造を与えるものであり、当該階層的構造は、階層的木構造を構成する複数のノードを含み、各ノードはそれぞれそのノードに属する単語の意味的カテゴリーに対応しており、
    前記モデル構築装置はさらに、前記オントロジーの各ノードに対応し、コーパス中の各文の各単語が当該ノードに属するか否かを示す値をとる所定のオントロジー特徴関数を抽出するための第3の特徴関数抽出手段を含み、
    前記特徴関数選択手段は、前記第1、第2、及び第3の特徴関数抽出手段により抽出された特徴関数の各々に関し、前記コーパス中の各文及び各単語に対して算出される値に関する統計に基づく所定の算出方法により算出される情報量を基準とし、情報量の大きな特徴関数のみを所定の基準にしたがって選択するための手段を含み、
    前記モデル算出手段は、
    前記選択するための手段により選択された特徴関数に関して前記コーパス中の各文及び各単語に対して得られた前記所定のコンテキスト系の特徴関数、前記依存性の特徴に関する特徴関数、及び前記所定のオントロジー特徴関数に対して得られる特徴量の統計を算出するための統計量算出手段と、
    前記統計量算出手段により算出された統計量に基づき、前記所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる、前記所定のコンテキスト系の特徴関数のうち前記選択するための手段により選択された特徴関数の値、前記入力文に含まれる依存性の特徴に関する特徴関数のうち、前記選択するための手段により選択された特徴関数の値、及び前記入力文に含まれる単語の各々に対し、当該単語に対して得られる、前記所定のオントロジー特徴関数のうち前記選択するための手段により選択された特徴関数の値に基づいて、当該単語に対して前記所定の意味タグセットに属する意味タグが付与される尤度を与える前記モデルを算出するための手段を含む、請求項1〜請求項5のいずれかに記載の意味タグ付け用モデル構築装置。
  7. 予め各単語に所定の意味タグセットに属する意味タグのいずれかと、所定の文法タグセットに属する文法タグのいずれかとが付された所定の言語のコーパスと、コンピュータ読取り可能な前記言語のオントロジーとを用い、前記言語の単語に対する意味タグを自動的に付与するための統計的モデルを構築するためのモデル構築装置であって、
    前記オントロジーは、前記言語の単語に関し、その意味に基づく階層的構造を与えるものであり、当該階層的構造は、階層的木構造を構成する複数のノードを含み、各ノードはそれぞれそのノードに属する単語の意味的カテゴリーに対応しており、
    前記モデル構築装置は、
    前記コーパス中の各文の各単語に関する所定のコンテキスト系の特徴関数を抽出するための第1の特徴関数抽出手段と、
    前記オントロジーの各ノードに対応し、コーパス中の各文の各単語が当該ノードに属するか否かを示す値をとる所定のオントロジー特徴関数を抽出するための第2の特徴関数抽出手段と、
    前記第1及び第2の特徴関数抽出手段により抽出された特徴関数の各々に関し、前記コーパス中の各文及び各単語に対して算出される値に関する統計に基づく所定の算出方法により算出される情報量を基準とし、情報量の大きな特徴関数のみを所定の基準にしたがって選択するための特徴関数選択手段と、
    前記特徴関数選択手段により選択された特徴関数に関して前記コーパス中の各文及び各単語に対して得られた前記所定のコンテキスト系の特徴関数及び前記所定のオントロジー特徴関数に対して得られる特徴量の統計に基づき、前記所定の言語の入力文に含まれる単語の各々に対し、当該単語に対して得られる前記所定のコンテキスト系の特徴関数のうち前記特徴関数選択手段により選択された特徴関数の値、及び前記入力文に含まれる単語の各々に対し、当該単語に対して得られる、前記所定のオントロジー特徴関数のうち前記選択するための手段により選択された特徴関数の値に基づいて、当該単語に対して前記所定の意味タグセットに属する意味タグが付与される尤度を与えるモデルを算出するためのモデル算出手段とを含む、意味タグ付け用モデル構築装置。
  8. 前記特徴関数選択手段により選択された特徴関数を特定する情報を記憶するための、コンピュータにより読取り可能な記憶手段をさらに含む、請求項1〜請求項7のいずれかに記載の意味タグ付け用モデル構築装置。
  9. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項8のいずれかに記載の意味タグ付け用モデル構築装置として機能させる、コンピュータプログラム。
  10. 所定言語の入力文の各単語に対し、所定のコンテキスト系特徴関数と、単語間の依存関係に基づく依存性特徴関数及び予め準備されたオントロジーに基づくオントロジー特徴関数のいずれかとの組合せ、又はその双方との組合せを含む、予め定められた複数個の特徴関数の各々の値を算出するための特徴関数算出手段と、
    前記入力文の各単語に対し、前記特徴関数算出手段により算出された特徴関数の値と、予め準備された、前記複数個の特徴関数の値と所定の意味タグとの組合せが与えられると当該単語に当該意味タグが付与される確率を出力する統計的モデルを適用することにより、前記入力文の各単語に付与される意味タグの可能な組合せの各々の尤度を算出するための手段と、
    算出される前記尤度が最も大きくなる組合せにしたがい、前記入力文の各単語に対して意味タグを付与するための手段とを含む、意味タグ付け装置。
JP2006192645A 2006-07-13 2006-07-13 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム Pending JP2008021139A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006192645A JP2008021139A (ja) 2006-07-13 2006-07-13 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006192645A JP2008021139A (ja) 2006-07-13 2006-07-13 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2008021139A true JP2008021139A (ja) 2008-01-31

Family

ID=39077020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006192645A Pending JP2008021139A (ja) 2006-07-13 2006-07-13 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2008021139A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182291A (ja) * 2009-02-03 2010-08-19 Nec (China) Co Ltd 知識注釈結果検査方法および知識注釈結果検査システム
JP2016110440A (ja) * 2014-12-08 2016-06-20 日本電信電話株式会社 用語意味学習装置、用語意味判定装置、方法、及びプログラム
JP2017021523A (ja) * 2015-07-09 2017-01-26 日本電信電話株式会社 用語意味コード判定装置、方法、及びプログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係
JP2017538226A (ja) * 2014-12-12 2017-12-21 ヒューレット パッカード エンタープライズ デベロップメント エル ピーHewlett Packard Enterprise Development LP スケーラブルなウェブデータの抽出

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182291A (ja) * 2009-02-03 2010-08-19 Nec (China) Co Ltd 知識注釈結果検査方法および知識注釈結果検査システム
US8423503B2 (en) 2009-02-03 2013-04-16 Nec (China) Co., Ltd. Knowledge annotation result checking method and system
JP2016110440A (ja) * 2014-12-08 2016-06-20 日本電信電話株式会社 用語意味学習装置、用語意味判定装置、方法、及びプログラム
JP2017538226A (ja) * 2014-12-12 2017-12-21 ヒューレット パッカード エンタープライズ デベロップメント エル ピーHewlett Packard Enterprise Development LP スケーラブルなウェブデータの抽出
JP2017021523A (ja) * 2015-07-09 2017-01-26 日本電信電話株式会社 用語意味コード判定装置、方法、及びプログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係

Similar Documents

Publication Publication Date Title
US9053089B2 (en) Part-of-speech tagging using latent analogy
JP4129987B2 (ja) テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
US10936642B2 (en) Using machine learning to flag gender biased words within free-form text, such as job descriptions
JP5379138B2 (ja) 領域辞書の作成
US9128907B2 (en) Language model generating device, method thereof, and recording medium storing program thereof
US10242670B2 (en) Syntactic re-ranking of potential transcriptions during automatic speech recognition
CN108538286A (zh) 一种语音识别的方法以及计算机
WO2020229889A1 (en) Natural language text generation using semantic objects
Zalmout et al. Adversarial multitask learning for joint multi-feature and multi-dialect morphological modeling
Hollenstein et al. Inconsistency detection in semantic annotation
JP2015088064A (ja) テキスト要約装置、方法、及びプログラム
JP2008021139A (ja) 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
US9286289B2 (en) Ordering a lexicon network for automatic disambiguation
US11687725B2 (en) Computer-implemented method and device for processing data
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
CN113743090A (zh) 一种关键词提取方法及装置
Hajnicz Lexico-semantic annotation of składnica treebank by means of PLWN lexical units
US11531811B2 (en) Method and system for extracting keywords from text
Chawla et al. ProBot: an online aid to procurement
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
US11514248B2 (en) Non-transitory computer readable recording medium, semantic vector generation method, and semantic vector generation device
JP5225219B2 (ja) 述語項構造解析方法、その装置及びプログラム
Mammadov et al. Part-of-speech tagging for azerbaijani language
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Krishnapriya et al. Design of a POS tagger using conditional random fields for Malayalam

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120724