JP2008233964A - 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体 - Google Patents

構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体 Download PDF

Info

Publication number
JP2008233964A
JP2008233964A JP2007068208A JP2007068208A JP2008233964A JP 2008233964 A JP2008233964 A JP 2008233964A JP 2007068208 A JP2007068208 A JP 2007068208A JP 2007068208 A JP2007068208 A JP 2007068208A JP 2008233964 A JP2008233964 A JP 2008233964A
Authority
JP
Japan
Prior art keywords
semantic
syntax
analysis result
semantic information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007068208A
Other languages
English (en)
Other versions
JP4963245B2 (ja
Inventor
Sanae Fujita
早苗 藤田
Takaaki Tanaka
貴秋 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007068208A priority Critical patent/JP4963245B2/ja
Publication of JP2008233964A publication Critical patent/JP2008233964A/ja
Application granted granted Critical
Publication of JP4963245B2 publication Critical patent/JP4963245B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】構文・意味解析結果を高い精度でランキングを行なうことが可能な構文・意味解析ランキングモデルを作成する。
【解決手段】記憶部2で意味情報DB22を予め記憶しておき、意味情報抽出部11Aにより、前記記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて前記記憶部から読み出した処理対象文から選択した対象語句について、前記記憶部2の意味情報DB22を検索することにより、当該対象語句に関する意味情報を抽出し、素性作成部11Eにより、前記意味情報抽出部11Aで抽出された意味情報に基づいて前記対象語句を展開することにより、構文・意味解析結果ランキングモデル23の作成に用いる素性を作成する。
【選択図】 図1

Description

本発明は、自然言語処理技術に関し、特に入力された文から得られる複数の構文解析結果(ツリー)や意味解析結果から最も確からしい解析結果を決定するために用いられる言語モデル作成技術に関する。
近年、インターネットの発達や計算機の普及などで、自然言語で書かれた電子化文書が大量に流通するようになっている。これに伴い、これら電子化文書を計算機で解析し、自動要約、機械翻訳、情報検索などの情報処理を行なうといった需要が増加している。
こうした情報処理の精度を高めるためには、自然言語の文章を正しく構文解析することが重要である。また、より高度な情報処理を実現するには、構文解析だけでなく、より深い意味解析まで行なう必要がある。
このような自動的な構文解析や意味解析を行なう上で問題となるのが、膨大な解析曖昧性である。通常、特に長い文の統語解析を行なった場合、多くの解析結果が得られる。これは、対象文に含まれる統語的曖昧性に起因するものであり、この曖昧性を解消し、正しい解析結果を得ることが重要である。あるいは、提示されるN個の候補からコストが最小のものを選ぶN−best法の解析結果を利用する場合でも、より確からしい解析結果を上位にランキングすることが求められる。
従来の構文解析技術では、対象文の構文解析だけでなく意味解析にも利用されるような高度な言語知識を含む文法による解析に、統計モデルを導入することで、パーズランキングの精度を向上をさせることに成功している(例えば、非特許文献1−3など参照)。ここで用いられる統計モデルは、文法規則の出現確率、句の主辞である語の情報など、訓練データそのものから得られる情報からのみ作成した素性を用いて作成されている。
Riezler, Stefan, Tracy H. King, Ronald M. Kaplan, Richard Crouch, John T. Maxwell & Mark Johnson: 2002, 'Parsing the Wall Street Journal using a Lexical-Functional Grammar and discriminative estimation techniques', in 41st Annual Meeting of the Association for Computational Linguistics: ACL-2002. Oepen, Stephan, Iran Flickinger, Kristina Toutanova & Christoper D. Manning; 2004, 'LinGO redwoods: A rich and dynamic treebank for HPSG', Research on Language and Computation, 2(4}: 575-596. Malouf, Robert & Gertjan van Noord: 2004, 'Wide coverage parsing with stochastic attribute value grammars', in IJCNLP-04 Workshop: Beyond shallow analyses - Formalisms and statistical modeling for deep analyses., JST CREST. Malouf, Robert: 2002, 'A comparison of algorithms for maximum entropy parameter estimation', in CONLL-2002, Taipei, Taiwan.
しかしながら、このような従来技術では、構文・意味解析結果をランキングする場合、一般的な字面ベースの統計モデルを利用したランキング方法だけでは、十分な精度が得られていないという問題がある。
例えば、上記従来技術では、統計モデルを作成する際、訓練データそのものから得られる情報からのみ作成した素性を用いて学習しているため、それだけでは限界がある。例えば、語は複数の語義を持つことが多いが、これまでの字面ベースの統計モデルだと、どの語義で利用されているかは反映されない。しかし、語義が異なれば、その統語的振舞や意味も異なることが多い。したがって、従来技術において、かかりうけ解析レベルの構文解析を用いた場合でも、その構文解析の正解精度は未だに80%程度である。さらに深い意味解析の精度はさらに低くなり、自動的な解析結果を利用できるレベルには至っていない。
本発明はこのような課題を解決するためのものであり、構文・意味解析結果を高い精度でランキングを行なうことが可能な構文・意味解析ランキングモデルを作成する構文・意味解析ランキングモデル作成方法および装置、プログラム並びに記録媒体を提供することを目的としている。
このような目的を達成するために、本発明にかかる構文・意味解析結果ランキングモデル作成方法は、自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成方法であって、記憶部により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶ステップと、意味情報抽出部により、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき記憶部から読み出した処理対象文またはその処理対象文から選択した対象語句について、記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出ステップと、素性作成部により、意味情報抽出部で抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成ステップとを備えている。
この際、構文情報抽出部により、記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出ステップをさらに備え、素性作成ステップにより、構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしてもよい。
また、意味情報データベースを、処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス/オントロジーデータベースから構成し、意味情報抽出ステップにより、意味情報データベースを検索することにより、対象語句の語義、または対象語句と所定の関係にある他の語句や意味カテゴリを、意味情報として抽出するようにしてもよい。
また、記憶部により、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶する記憶ステップをさらに備え、意味情報抽出ステップにより、対象語句について構文意味情報辞書を検索することにより当該対象語句の構文意味情報を意味情報として抽出するようにしてもよい。
この際、構文意味情報辞書を、対象語句の結合価情報を蓄積する結合価辞書、対象語句の代表語あるいは典型語を蓄積する代表語/典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか1つ以上の辞書から構成し、意味情報抽出ステップにより、構文意味情報辞書を検索することにより、対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか1つ以上を、意味情報として抽出するようにしてもよい。
また、本発明にかかる構文・意味解析結果ランキングモデル作成装置は、自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成装置であって、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶部と、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出部と、意味情報抽出部で抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成部とを備えている。
この際、記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出部をさらに備え、素性作成部で、構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしてもよい。
また、意味情報データベースを、処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス/オントロジーデータベースから構成し、意味情報抽出部で、意味情報データベースを検索することにより、対象語句の語義、または対象語句と所定の関係にある他の語句や意味カテゴリを、意味情報として抽出するようにしてもよい。
また、記憶部で、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶し、意味情報抽出部で、対象語句について構文意味情報辞書を検索することにより当該対象語句の構文意味情報を意味情報として抽出するようにしてもよい。
この際、構文意味情報辞書で、対象語句の結合価情報を蓄積する結合価辞書、対象語句の代表語あるいは典型語を蓄積する代表語/典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか1つ以上の辞書を記憶し、意味情報抽出部で、構文意味情報辞書を検索することにより、対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか1つ以上を、意味情報として抽出するようにしてもよい。
また、本発明にかかるプログラムは、コンピュータに、上記構文・意味解析結果ランキングモデル作成方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。
本発明によれば、意味情報抽出部により、記憶部から読み出した構文・意味解析結果から意味解析結果が抽出され、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部の意味情報データベースが検索されて、当該対象語句に関する意味情報が抽出され、素性作成部により、意味情報抽出部11Aで抽出された意味情報に基づいて対象語句が展開されて、構文・意味解析結果ランキングモデルの作成に用いる素性が作成される。
これにより、処理対象文の構文・意味解析結果とその正否を示す評価結果と、この解析結果に対応する意味情報があれば、この意味情報を用いて、字面ベースではなく意味ベースの統計モデルである構文・意味解析結果ランキングモデルを作成できる。したがって、字面ベースの統計モデルを用いて構文・意味解析結果をランキングする場合と比較して、高い精度でランキングを行なうことが可能となり、自然言語処理システム、情報検索システム、機械翻訳システムなどに極めて有用である。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置について説明する。図1は、本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図である。
この構文・意味解析モデル作成装置10は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、入力されたツリーバンクデータベース(以下、ツリーバンクDBという)Xに含まれる各構文・意味解析結果を情報処理することにより、構文・意味解析結果をランキングするための構文・意味解析ランキングモデルYを作成して出力する機能を有している。
本実施の形態は、記憶部により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを予め記憶しておき、学習用素性作成部により、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出し、この抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしたものである。
以下、図1を参照して、本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置の構成について詳細に説明する。
構文・意味解析モデル作成装置10には、主な機能部として、一般的な情報処理装置と同様に、演算処理部1、記憶部2、入出力インターフェース部(以下、入出力I/F部という)3、通信インターフェース部(以下、通信I/F部という)4、操作入力部5、および画面表示部6が設けられている。
演算処理部1は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部2に格納されているプログラム20を読み出して実行することにより、上記ハードウェアとプログラム20とを協働させて各種処理部を実現する。
演算処理部1で実現される主な処理部としては、学習用素性作成部11および機械学習部12がある。
記憶部2は、ハードディスクやメモリなどの記憶装置からなり、演算処理部1で実行するプログラム20や、意味タグの付与処理に用いる各種処理情報を記憶する。プログラム20は、例えば入出力I/F部3を介して記録媒体Mから読み込まれ、あるいは通信I/F部4を介して外部装置(図示せず)から読み込まれ、記憶部2へ予め格納される。
記憶部2で記憶する主な処理情報としては、ツリーバンクデータベース(以下、ツリーバンクDBという)21、意味情報データベース(以下、意味情報DBという)22、および構文・意味解析ランキングモデル23がある。
入出力I/F部3は、専用のデータ入出力回路からなり、CDやDVD、さらには不揮発性メモリカードなどの記録媒体Mとの間で、演算処理部1からの指示に応じて、ツリーバンクDBX、構文・意味ランキングモデルY、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信I/F部4は、専用のデータ通信回路からなり、LANなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部1からの指示に応じて、ツリーバンクDBX、構文・意味ランキングモデルY、辞書、データベースなどの各種データやプログラムを送受信する機能を有している。
操作入力部5は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部1へ出力する機能を有している。
画面表示部6は、LCDやPDPなどの画面表示装置からなり、演算処理部1からの指示に応じてツリーバンクDBX、構文・意味ランキングモデルYなどの各種データや操作画面を画面表示する機能を有している。
図2は、本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図である。
学習用素性作成部11は、記憶部2のツリーバンクDB21に格納されている、対象処理文とその構文・意味解析結果とその正否を示す評価結果の組を読み出して、ランキングを行なうための素性を作成する機能を有している。
ツリーバンクDB21は、自然言語データからなる処理対象文と、この処理対象文を予め言語解析して得た構文・意味解析結果、この解析結果の正否すなわち正解/不正解を示す評価結果の組が格納されている。
学習用素性作成部11は、意味情報抽出部11A、構文情報抽出部11D、素性作成部11E、および素性選択部11Hから構成されている。
意味情報抽出部11Aは、ツリーバンクDB21から読み出した構文・意味解析結果から意味解析結果を抽出する機能と、この意味解析結果に基づきツリーバンクDB21から読み出した処理対象文またはその処理対象文から選択した対象語句について、意味情報DB22を検索することにより、対象語句に関する意味情報を抽出する機能とを有している。なお、対象語句は、その語句単独で語義を持つ最小単位で処理対象文から選択する。
意味情報DB22は、各種語句に関する意味を示す意味情報を蓄積するデータベースであり、センスバンクDB22Aとシソーラス/オントロジーDB22Bの両方、またはいずれか一方から構成される。
センスバンクDB22Aは、処理対象文ごとに当該対象処理部を構成する各対象語句に対する語義付与結果を蓄積するデータベースである。
シソーラス/オントロジーDB22Bは、互いに所定の関係にある各種語句や意味カテゴリを蓄積するデータベースである。
意味情報抽出部11Aは、具体的に、意味付与部11Bと語義付与部11Cから構成されている。
意味付与部11Bは、処理対象文についてセンスバンクDB22Aを検索し、当該対象語句に対する語義付与結果を抽出する機能と、シソーラス/オントロジーDB22Bを検索して、上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの意味情報を抽出する機能とを有している。
語義付与部11Cは、意味付与部11Bで対象語句の意味情報を抽出できなかった場合、当該語句に対する語義情報や、シソーラス/オントロジーDB22Bにおける上位語や意味カテゴリ、上位の意味カテゴリなどの意味情報を自動的に推定して出力する機能を有している。ここで、意味情報の自動的な推定方法としては、既存のセンスバンクやシソーラス/オントロジーを学習データとして用いて統計学習し、意味情報を推定するための統計モデルを作成して推定する方法や、当該語句の語義の中で最も出現頻度の高い語義情報を利用する方法などが考えられる。
なお、センスバンクDB22AとDB22Aについては、構文・意味解析ランキングモデルやその作成処理に要求される条件、例えば素性のバリエーションの広さ、ランキング精度、ランキング所要時間、モデル作成所要時間などの条件に基づいて選択すればよい。センスバンクDB22Aおよびシソーラス/オントロジーDB22Bの両方を設けてもよく、いずれか一方であってもよい。
構文情報抽出部11Dは、ツリーバンクDB21から読み出した構文・意味解析結果から構文解析結果を抽出する機能を有している。
素性作成部11Eは、意味情報抽出部11Aで抽出された意味情報と構文情報抽出部11Bで抽出された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する機能を有している。素性とは、構文・意味解析結果ランキングモデルの作成、特に後述する機械学習部12での学習に用いる学習情報である。
素性作成部11Eは、具体的に、意味的素性作成部11Fと構文的素性作成部11Gから構成されている。
意味的素性作成部11Fは、意味情報抽出部11Aで抽出された意味情報に含まれる、当該対象語句の語義、上位語や同義語、意味カテゴリ、上位の意味カテゴリに基づいて、対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる意味的素性を作成する機能を有している。
構文的素性作成部11Gは、構文情報抽出部11Bで抽出された構文情報に基づいて、対象語句、品詞、解析に適用される文法的ルールを展開することにより、構文・意味解析結果ランキングモデルの作成に用いる構文的素性を作成する機能を有している。
素性選択部11Hは、素性作成部11Eで作成された各素性のうち、所定の選択条件を満足する素性を、学習に利用する素性を選択する機能を有している。
機械学習部12は、素性選択部11Hで選択された素性を機械学習することにより構文・意味解析ランキングモデル23を作成する機能を有している。
構文・意味解析ランキングモデル23の作成結果は、素性の作成や選択を変化させるために素性作成部11Eや素性選択部11Hヘフィードバックされる。
最終的には、このようにして作成した構文・意味解析ランキングモデル23を、構文・意味解析器(図示せず)に組み込むか、後処理で構文解析結果のランキングを行なうかによって、構文解析の正解選択精度を改善してもよい。
[第1の実施の形態の動作]
次に、図3を参照して、本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置の動作について説明する。図3は、本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置のモデル作成処理を示すフローチャートである。
構文・意味解析モデル作成装置10の演算処理部1は、操作入力部5により、オペレータによるモデル作成処理の開始操作を検出した場合、図3のモデル作成処理を開始する。
まず、演算処理部1は、学習用素性作成部11により、記憶部2のツリーバンクDB21に格納されている、対象処理文とその構文・意味解析結果とその正否を示す評価結果の組を読み出す(ステップ100)。
学習用素性作成部11は、意味情報抽出部11Aの意味付与部11Bや語義付与部11Cにより、構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき処理対象文またはその処理対象文から選択した対象語句について意味情報DB22を検索することにより、対象語句に関する意味情報を抽出する(ステップ101)。
次に、学習用素性作成部11は、素性作成部11Eの意味的素性作成部11Fにより、意味情報抽出部11Aで抽出された意味情報に基づいて、対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる意味的素性を作成する(ステップ102)。
これと並行して、学習用素性作成部11は、構文情報抽出部11Dにより、構文・意味解析結果から構文解析結果を抽出し(ステップ103)、素性作成部11Eの構文的素性作成部11Gにより、構文情報抽出部11Bで抽出された構文情報に基づいて、対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる構文的素性を作成する(ステップ104)。
この後、学習用素性作成部11は、素性作成部11Eで作成された各素性のうち、所定の選択条件を満足する素性を、学習に利用する素性を選択し(ステップ105)、演算処理部1は、機械学習部12により、素性選択部11Hで選択された素性を機械学習することにより構文・意味解析ランキングモデル23を作成し(ステップ106)、一連のモデル作成処理を終了する。
[構文・意味解析結果]
次に、図4および図5を参照して、本実施の形態で用いる構文・意味解析結果について説明する。図4は、構文解析結果の例である。図5は、構文・意味解析結果の例である。ここでは、処理対象文が日本語の場合を例として説明するが、英語、中国語、スペイン語、ドイツ語、フランス語など、自然言語であればいずれの言語でもよい。
図4には、処理対象文「車を運転する人」について、構文解析した結果が示されており、解析結果T1−1は、その解析が正解した例、解析結果T1−2は、その解析が不正解であった例である。
一方、図5には、処理対象文「車を運転する人」について、構文解析した結果が示されており、解析結果T1−1−2は、その解析が正解した例、解析結果T1−1−1,T1−2−1,T1−2−2は、その解析が不正解であった例である。
図4の解析結果T1−1だけでは、「(車を)運転する」と「人」との関係がわからないが、図5においてT1−1に対する意味解析結果のうち正解と評価されている解析結果T1−1−2から、「運転する」が要求する2つの項のうち、「人」が項1に対応することがわかる。
図5のT1−1−1は、T1−1−2(図4のT1−1)と同じ構文構造であるが、このT1−1−1の場合は、「運転する」の項1が空になっていて、「(車を)運転する」は「人」にかかる単なる関係節との解釈になっている。
このような構文・意味解析結果が得られるツリーバンクDB21としては、処理対象文を日本語とすると、例えば、構文解析結果だけでなく、意味解析結果まで獲得できるタグ付きコーパスとして、檜ツリーバンク("The Hinoki Treebank: Working Toward Text Understanding", Francis Bond, Sanae Fujita, Chikara Hashimoto, Kaname Kasahara, Shigeko Nariyama, Eric Nichols, Akira Otani, Takaaki Tanaka, Shigeaki Amano, COLING-2004, Geneva, Switzerland, 2004, 8/23-8/29)、あるいは、述語−項関係などが抽出できるタグ付きコーパスとして、NAISTテキストコーパス(http://cl.naist.jp/nldata/corpus/)、京都テキストコーパスVersion 4.0(http://nlp.kuee.kyoto-u.ac.jp/nl-resource/corpus.html)などが存在する。
[意味情報DB]
次に、図6−8を参照して、本実施の形態で用いる意味情報DBについて説明する。図6は、センスバンクDBに格納された処理対象文の語義付与情報の例である。図7は、センスバンクDBに格納された処理対象文への語義付与の基準となる辞書のエントリの例である。図8は、シソーラス/オントロジーDBに格納された処理対象文のシソーラス/オントロジーの例である。
意味情報抽出部11Aは、図5に示したような意味解析結果に基づいて、図6のセンスバンクDB22Aや図8のシソーラス/オントロジーDB22Bを検索し、意味情報を抽出する。但し、図5のような意味解析結果がない場合、また、構文解析結果のみを獲得するための構文・意味解析ランキングモデルを作成したい場合など、図4のような構文解析結果のみからわかる述語項構造を利用することも考えられる。ここで、図6の語義は、図7で定義されている。
センスバンクDB22Aとしては、処理対象文を日本語とすると、例えば、Lexeed("「基本語意味データベース:Lexeed」の構築", 笠原要, 佐藤浩史, Francis Bond, 田中貴秋, 藤田早苗, 金杉友子, 天野昭成. 2004-NLC-159, PP.75-82, 2004)に準拠して語義付与された檜センスバンク("The Hinoki Sensebank - A Large-Scale Word Sense Tagged Corpus of Japanese -", Takaaki Tanaka, Francis Bond, Sanae Fujita. Proceedings of the Workshop on Frontiers in Linguistically Annotated Corpora 2006, Sydney, pp.62-69, 2006." (ACL Workshop)")、岩波国語辞典に準拠して語義付与された岩波国語辞典タグ付コーパス(http://gsk.or.jp/doc/IWANAMI2004.pdf)などが存在する。
但し、センスバンクDB22Aが存在しない場合、またはセンスバンクDB22Aに処理対象文の語義付与情報がない場合、意味情報抽出部11Aにおいて、語義付与部11Cを利用して処理対象文への語義、シソーラス/オントロジーDB22Bにおける、該語句の意味カテゴリや、上位語、上位意味カテゴリなどを獲得すればよい。
また、語義が付与できない場合でも、シソーラス/オントロジーDB22Bにおける、該語句の意味カテゴリや、上位語、上位意味カテゴリなどだけを獲得して利用することも考えられる。
シソーラス/オントロジーDB22Bとしては、処理対象文を日本語とすると、例えば、日本語語彙大系(日本電信電話株式会社、http://www.kecl.ntt.co.jp/icl/mtg/resources/GoiTaikei/index.html)、分類語彙表 -増補改訂版-(国立国語研究所、http://www.kokken.go.jp/katsudo/kanko/data/index.html)、檜オントロジー("Acquiring an Ontology for a Fundamental Vocabulary", Francis Bond, Eric Nichols, Sanae Fujita, Takaaki Tanaka. in COLING-2004, Geneva, pp.1319-1325, 2004.)などが存在する。
これらの例では、見出しは動詞であったが、必ずしも動詞である必要はなく、形容詞や項を取る名詞などでもよい。また、これらの例では見出し等は単語であったが、必ずしも単語である必要はなく、複合語など、複数の単語を含んでいてもよい。
また、センスバンクDB22Aに格納されるセンスバンクも1つである必要はなく、複数のセンスバンクを格納してもよく、例えば檜センスバンクと岩波国語辞典タグ付コーパスの両方を格納することが考えられる。また、センスバンクが存在しない場合、あるいは、センスバンクが存在しても対象文に対する語義付与情報がない場合、語義付与部11Cのみを利用することも考えられる。
また、シソーラス/オントロジーDB22Bに格納されるシソーラス/オントロジーも1つである必要はなく、複数の辞書を格納してもよく、例えば日本語語彙大系と檜オントロジーの両方を格納することが考えられる。
[意味情報抽出処理]
次に、図9および図10を参照して、本実施の形態における意味情報抽出処理について説明する。図9は、シソーラス/オントロジーの意味カテゴリに含まれる語の例である。図10は、意味情報抽出処理の実行結果例である。
意味情報抽出部11Aは、ツリーバンクDB21に格納された1つまたは複数のツリーバンクから、構文・意味解析結果とこの解析結果が正解であるか、不正解であるかの判定結果を取り出す(図4,5)。ここで、ツリーバンクDB21から図4の解析結果T1が提供されたとすると、意味情報抽出部11Aは、解析結果T1に対応する語義付与結果を図6のセンスバンクDB22Aから獲得する。
図8に示したように、シソーラスの意味カテゴリには、図9に示すように、その意味カテゴリに含まれる語そのものも登録されている。したがって、意味情報抽出部11Aは、図9より、対象語句すなわち解析結果T1の内容語「人」,「車」,「運転」についてそれぞれ意味カテゴリを獲得し、図10のような実行結果を得る。
ここで、利用するシソーラス/オントロジーDB22Bにおいて、例えば<操縦>に「運転(D2−1)」が含まれているように、意味カテゴリに語ではなく語彙が含まれる場合、意味情報抽出部11Aにおいて、語義付与結果を経由し、語義に対応する意味カテゴリを獲得することが考えられる。逆に、語義がわからない場合、語の字面に対応する意味カテゴリをすべて獲得したり、その語が最もよく使われる語義の意味カテゴリを獲得したり、その語の意味カテゴリを推定して利用することが考えられる。
さらに、意味情報抽出部11Aは、図8より、各意味カテゴリの上位カテゴリを獲得する。図8はレベル3までしか表示されていないが、<操縦>は<人間活動>配下のレベル9の意味カテゴリ、<乗り物(陸)>は<無生物>配下のレベル7の意味カテゴリとすると、図10のような上位カテゴリを獲得することができる。ここで、獲得する上位カテゴリのレベルを様々に設定することにより、様々な意味の粗さの意味カテゴリへと集約することができる。
[意味的素性作成処理]
次に、図11を参照して、本実施の形態における意味的素性作成処理について説明する。図11は、意味的素性作成処理の実行結果例である。なお、図11にあげた素性のうち、B0−B6は字面ベースの素性であり、先行研究で利用されている素性である。
意味的素性作成部11Fは、図4の解析結果T1−1、ここでは解析結果T1−1から抽出された素性B0−B5を元にして、意味情報抽出部11Aで抽出された図10の語義情報を用いて、解析結果の内容語を展開し、あるいは一部の内容語のみを展開し、語義情報に基づく素性F0−F5を作成する。
また、意味的素性作成部11Fは、同じく図10の意味カテゴリを用いて内容語を展開し、あるいは一部の内容語のみを展開し、意味カテゴリに基づく素性C0−C7を作成する。
また、意味的素性作成部11Fは、同じく図10の上位カテゴリを用いて内容語を展開し、あるいは一部の内容語のみを展開し、上位カテゴリに基づく素性H0−H7を作成する。ここで、H0−H7は、上位カテゴリとして、レベル3の意味カテゴリを利用している。
図11の情報以外にも、品詞によって素性を置き換えたり、組み合わせたりと、様々な素性の作成方法が考えられる。但し、図11のすべての素性を作成する必要はなく、シソーラス/オントロジーDB22Bが存在しなければ、意味カテゴリ、上位カテゴリを利用した素性(C0−C7,H0−H7)は作らないなど、様々な方法が考えられる。
ここで、作成した素性を利用する場合の効果を例示する。
まず、語義情報を利用する場合の効果である。(1)「ドライバーでねじを締めた。」と(2)「ドライバーがねじを締めた。」の文章は非常に類似しているが、(1)の「ドライバー」は、ねじまわしの意味のドライバー(D4−1)であり、「締める」にかかる随格である一方、(2)の「ドライバー」は運転手の意味のドライバー(D4−2)であり、主格である。このように非常に類似した文章であっても、語義によって全く異なる格になりうる。
語義情報を用いない場合には、正解の構造/意味解析結果の素性として、次のような素性が作成され、「締める」と「ドライバー」の関係に余計な曖昧性が増える。
[締める,項1:ドライバー,項2:ねじ]
[締める,項1:ドライバー]
[締める,項1:−,項2:ねじ,随格:ドライバー]
[締める,随格:ドライバー]
しかし、語義を利用することで、
[締める,項1=ドライバー(D4−2),項2:ねじ(D5−1)]
[締める,項1:ドライバー(D4−2)]
[締める,項1:−,項2:ねじ(D5−1),随格:ドライバー(D4−1)]
[締める,随格:ドライバー(D4−1)]
のように区別することができる。
次に、意味カテゴリを利用する場合の効果を示す。(3)「彼が新車を運転している。」を考えた場合、字面ベースの素性である、次のような素性は、図11には、全く出現していない。
[運転する,項1:彼,項2:新車]
しかし、図9から、「彼」,「新車」,「運転(する)」の意味カテゴリは、それぞれ、<人>,<乗り物(陸)>,<操縦>であることがわかるので、図12のC0−C7に一致する素性を獲得できる。
次に、上位意味カテゴリを利用する場合の効果を示す。(4)「飛行機を操縦するテストパイロット。」を考えた場合、字面ベースの素性は、(3)の場合と同様、出現していない。また、「テストパイロット」,「飛行機」,「操縦」の意味カテゴリは、それぞれ、<運転手>,<乗り物(空)>,<操縦>であり、意味属性で展開した素性も図11には、全く出現していない。しかし、これらの意味カテゴリをさらに上位カテゴリに展開すると、レベル3でそれぞれ、<人>,<無生物>,<人間活動>となり、図11のH0−H7に一致する素性を獲得できる。
[素性選択処理]
次に、図11を参照して、本実施の形態における素性選択処理について説明する。
図11には、意味的素性作成部11Fによって作成した素性が示されているが、これらすべての素性を、構文・意味解析ランキングモデル23の作成に利用する必要はない。
素性選択部11Hは、ある特定の条件を満たす素性を抽出あるいは削除し、構文・意味解析結果が正解であるか不正解であるかの判定結果と、この解析結果に対する素性を機械学習部12に出力する。
素性の選択方法は、例えば図11の素性のうち、基本の素性(B0−B6)と意味カテゴリを利用した素性(C0−C7)のみ利用する、B3の情報だけは利用しない、などの素性選択の条件を用いればよい。また、この素性選択の条件については、固定的ではなく、例えば所望する構文・意味解析ランキングモデル23の性格や用途に合わせて任意に変更すればよい。
[機械学習処理]
次に、図12を参照して、本実施の形態における機械学習処理について説明する。図12は、機械学習処理の実行結果例である。
機械学習部12は、学習用素性作成部11から、構文・意味解析結果の判定結果と、この解析結果に対して構文・意味解析ランキング用素性作成部11Eで作成された素性集合とを受け取り、どの素性が出現したときに解析結果が正解、あるいは不正解になりやすいかを統計的に学習し、学習結果を構文・意味解析ランキングモデル23へ出力する。
機械学習部12には、1つ以上の統計的学習器が格納されている。学習器は、ランキングを行なうという観点では、解析結果が正しい確率を出せる学習器、例えば対数線形モデルに基づく maximum entropy / minimum divergence(MEMD)(Malouf(2002),http:/tadm.sourceforge.net)や、解析結果が正しいか正しくないかを判定するという観点では、二値分類ができる学習器、例えば Support Vector Machine(SVM)(Vapnik, V. N.: Statistical Leaning Theory, Adaptive and Learning Systems for Signal Processing Communications, and control, John Wiley & Sons(1998))など、なんでもよい。
図12の処理結果は、機械学習部12として maximum entropy / minimum divergence を用いた場合、機械学習部12によって各素性に付与されたパラメタ例である。これらのパラメタが高ければ、その素性が出現したとき正解である確率が高く、逆にパラメタがマイナスであれば、その素性が出現したとき不正解である確率が高い。
一般に、正解データ、不正解データの両方で出現している素性はパラメタが小さく、正解データのみで出現していればプラス方向にパラメタが大きく、あるいは不正解データのみで出現していればマイナス方向にパラメタが大きくなる。
また、出現頻度によって、このパラメタの重みは変化する。新しい解析結果をランキングする場合、各解析結果から得られる素性集合とパラメタから、各解析結果のスコア(正解となる確率)を計算し、そのスコアによってランキングを行なう。
[構文・意味解析ランキングモデル]
次に、本実施の形態のおける構文・意味解析ランキングモデル23の機能を説明する。
構文・意味解析ランキングモデル23は、データベース機能を有しており、各種素性を蓄積するだけでなく、構文・意味解析ランキングモデルを評価し、評価結果によって素性の作成や選択方法を変更するためのフィードバックを素性選択部11Hや素性作成部11E5に返す。
例えば、ツリーバンクDB21に格納されたツリーバンクを訓練データとテストデータに分け、訓練データによって学習した構文・意味解析ランキングモデルを元にして、テストデータを評価する。素性選択部11Hによって、利用する素性、および、構文・意味解析ランキングモデルを変化させ、テストデータの評価結果、つまり、ツリーバンクで実際に正解とされた解析結果が機械学習部12で正解と評価される割合がよりよくなるよう、素性の作成、選択方法を変更させる。例えば、上位カテゴリのレベルを様々に変化させ、最もよい評価結果を出すレベルを利用したり、B3のタイプの素性によって評価結果が悪くなる場合には、B3のタイプの素性は利用しない、などである。
これにより、機械学習部における評価結果を元に、素性の有効性を判断し、素性の作成や選択方法を変化させ、より効果的な素性の作成、選択を行ない、より精度の高い構文・意味解析ランキングモデルを作成することができる。
[構文・意味解析ランキング装置]
次に、図13を用いて、本発明の第1の実施の形態にかかる構文・意味解析ランキングモデル作成装置によって作成した構文・意味解析ランキングモデルを用いた、構文・意味解析ランキング装置について説明する。図13は、構文・意味解析ランキング装置の概略構成を示すブロック図である。
構文・意味解析ランキング装置30は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語データからなる入力文3Xを取り込んで、構文・意味解析ランキングモデル23を参照して、順位付けられた構文・意味解析解3Y、あるいは各解析結果の正否を示す分類結果を出力する機能を有している。
この構文・意味解析ランキング装置30には、主な機能部として、一般的な情報処理装置が持つ機能部以外に、言語解析器31、構文・意味解析器32、学習用素性作成部11、および機械学習部12が設けられている。
このうち、学習用素性作成部11、および機械学習部12は、構文・意味解析モデル作成装置10のものと同等である。また、意味情報DB22および構文・意味解析ランキングモデル23についても、構文・意味解析モデル作成装置10のものと同等である。
また、言語解析器31は、一般的な形態素解析器やチャンカー等からなり、入力文3Xの形態素解析を行う形態素解析や語句区分調整を行う機能を有している。構文・意味解析器32は、一般的な構文・意味解析器であり、言語解析器31の解析結果に基づき入力文3Xの構文・意味解析を行う機能を有している。
構文・意味解析ランキング装置30では、まず構文・意味解析の対象文を入力文3Xとし、言語解析器31により基礎的な言語解析処理を行い、構文・意味解析器32により、構文・意味解析を行なう。この時、解析結果の候補が複数得られた場合、素性作成部11Eによって複数構文・意味解析解候補33に対する素性を作成する。
その後、構文・意味解析モデル作成装置10で予め作成しておいた構文・意味解析ランキングモデル23により、各解析結果が正解かどうかの確率を計算し、確率の高い順に解析結果を並べ、順位付けられた構文・意味解析解3Yとして出力する。あるいは、各解析結果が正解か不正解かの分類を行ない、正解か不正解かの分類結果を付けて出力する。
ここで、この出力結果として得られた順位付けられた構文・意味解析解3Yは、この構文・意味解析結果を利用したい場合、最も正解の確率が高い解析結果を抽出して利用したり、正解の確率が高い上位いくつかの解析結果を利用したり、一定の閾値以上の確率の解析結果を利用したりなど、様々な利用方法が考えられる。
例えば、(4)「飛行機を操縦するテストパイロット。」の構文・意味解析を考えた場合、図14および図15に示すような、構文解析の候補と意味解析の候補が得られる。図14は、構文解析の候補例である。図15は、意味解析の候補例である。このように、入力文3Xに対する解析結果は複数あり、これらの解析結果のいずれが正しいかは、複数構文・意味解析解候補33を出しただけの状態ではわからない。
これに対して、構文・意味解析ランキング装置30において、複数構文・意味解析解候補33の各解析結果に対し、素性作成部11Eを通して素性を作成すると、例えば、図15のU1−1−2から作成した素性には、正解データであるT1−1−2から作成した図11の素性のうち、素性C5,H4−H7が含まれ、図15のU1−1−1から作成した素性には、図11の素性H6,P6が含まれる。
しかし、U1−1−1から作成した素性は、不正解データであるT1−1−1から作成した素性と同じものが多く含まれる。同様に、U1−2−1から作成した素性は、図11の素性C5,H5,P5を含み、U1−2−2から作成した素性は、図11のいずれの素性も含まない。また、U1−2−1やU1−2−2から作成した素性は、不正解データであるT1−2−1やT1−2−2から作成した素性と同じものが多く含まれる。不正解データから作成したパラメタは、負のパラメタが多く、正解データから作成したパラメタは、正のパラメタが多い。
したがって、正解となる確率を計算したとき、U1−1−1,U1−1−2,U1−2−1,U1−2−2のそれぞれの確率が、例えば、8.263206,20.586221,-0.0199882,-10.57533となったとすると、正解の確率が高い上位から順に、U1−1−2,U1−1−1,U1−2−1,U1−2−2と並び替えられた構文・意味解析解3Yが得られる。
[第1の実施の形態の効果]
このように、本実施の形態は、記憶部2により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報DB22を予め記憶しておき、意味情報抽出部11Aにより、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部2の意味情報DB22を検索することにより、当該対象語句に関する意味情報を抽出し、素性作成部11Eにより、意味情報抽出部11Aで抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデル23の作成に用いる素性を作成するようにしたものである。
これにより、処理対象文の構文・意味解析結果とその正否を示す評価結果と、この解析結果に対応する意味情報があれば、この意味情報を用いて、字面ベースではなく意味ベースの統計モデルである構文・意味解析結果ランキングモデル23を作成できる。したがって、字面ベースの統計モデルを用いて構文・意味解析結果をランキングする場合と比較して、高い精度でランキングを行なうことが可能となり、自然言語処理システム、情報検索システム、機械翻訳システムなどに極めて有用である。
また、本実施の形態では、構文情報抽出部11Dにより、記憶部2から読み出した構文・意味解析結果から構文解析結果を抽出して構文情報として出力し、この構文情報に基づいて、素性作成部11Eにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしたので、構文情報と意味情報の両方を用いた学習を行うことが可能となり、構文・意味解析結果ランキングモデル23の精度を高めることができる。
また、本実施の形態では、意味情報DB22として、処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス/オントロジーデータベースを用い、意味情報抽出部11Aにより、意味情報DB22を検索することにより、対象語句の語義、または対象語句と所定の関係にある他の語句や意味カテゴリを、意味情報として抽出している。
したがって、対象語句の上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの意味情報を抽出することができる。このため、表層的な字面ベースや語義ベースの素性ではスパース過ぎる場合でも、統計モデルをスムージングして精度をあげることができる。また、この意味クラスや上位概念の粒度を調節することで、さらにスムージングの程度を調節して最適な粒度の統計モデルを構築できる。
[第2の実施の形態]
次に、図16および図17を参照して、本発明の第2の実施の形態にかかる構文・意味解析モデル作成装置について説明する。図16は、本発明の第2の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図であり、前述した図1と同じまたは同等部分について同一符号を付してある。図17は、本発明の第2の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図であり、前述した図2と同じまたは同等部分について同一符号を付してある。
第1の実施の形態では、学習用素性作成部11において、意味情報DB22から意味情報を抽出する場合を例として説明した。本実施の形態では、意味情報DB22と構文意味情報辞書24を検索して意味情報を抽出する場合について説明する。
本実施の形態にかかる構文・意味解析モデル作成装置には、第1の実施の形態と比較して、記憶部2に構文意味情報辞書24が追加されているとともに、学習用素性作成部11の意味情報抽出部11Aに構文意味情報抽出部11Iが追加されている。なお、他の構成については第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
構文意味情報辞書24は、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する辞書データベースであり、結合価辞書データベース(以下、結合価辞書DBという)23A、代表語・典型語辞書データベース(以下、代表語・典型語辞書DBという)23B、用例付き格フレーム辞書データベース(以下、用例付き格フレーム辞書DBという)23Cのすべて、またはいずれか1つ以上から構成される。
結合価辞書DB24Aは、処理対象文の結合価辞書を蓄積するデータベースであり、格納されている辞書レコードには、少なくとも対象語句の見出し語、品詞、および結合価情報が含まれている。結合価情報とは、共起する語(主に用言)と語(主に名詞)や句(主に名詞句)の条件を記述したものである。
代表語・典型語辞書DB24Bは、処理対象文の代表語辞書や典型語辞書を蓄積するデータベースであり、その辞書レコードには、少なくとも対象語句の見出しおよびその品詞、該見出し語と共起しやすい語(主に名詞)や句(主に名詞句)に関する情報が含まれている。
用例付き格フレーム辞書DB24Cは、処理対象文の用例付き格フレーム辞書を蓄積するデータベースであり、格納されている格フレーム辞書には、少なくとも対象語句の見出しおよびその品詞、該見出し語と実際に共起した語や句の用例に関する情報が含まれている。
構文意味情報抽出部11Iは、意味付与部11Bや語義付与部11Cで得られた、対象語句と他の語句との関係、対象語句の上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの関係に関する構文意味情報を、構文意味情報辞書24から抽出し、意味情報として出力する機能を有している。
図18は、結合価辞書のエントリ例である。結合価辞書DB24Aは、処理対象文を日本語とすると、例えば、ALT−JIEのパターン対辞書(NTT、「日英機械翻訳技術1、NTT R&D vol.46, pp107-141, 1997)の日本語側や、IPAL(情報処理振興事業協会、「計算機用日本語基本動詞辞書IPAL(Basic Verbs)」、解説編&辞書編、1987)、EDR電子化辞書(日本電子化辞書研究所、http://www.iijnet.or.jp/edr/J_index.html)などが存在する。
図18に示すように、処理対象文の結合価辞書エントリとしては、少なくとも見出しとその品詞および、格フレーム情報が登録されている。例えば、処理対象文の結合価辞書エントリPID1には、見出し「運転する」とその品詞「さ変名詞」、および、格フレーム情報「N1がN2を運転する」が登録されている。ここで、N1およびN2は、名詞あるいは名詞句を示している。
さらに、図18では、選択制限<人>や<乗物>の情報も登録されている。選択制限は、当該格フレームのN1やN2として当てはまる、名詞あるいは名詞句の条件を定義している。
また、図18では、見出し「運転する」の結合価辞書エントリとして、PID1の他にPID2が登録されている。
図19は、代表語・典型語辞書のエントリ例である。代表語/典型語辞書は、処理対象文を日本語とすると、例えば、秋葉らの代表的語彙("Interactive Generalization of a Translation Example Using Queries Based on a Semantic Hierarchy", Yasuhiro Akiba, Hiromi Nakaiwa, Satoshi Shirai and Yoshi-fumi 0oyama, in ICTAI-00, pp.326-332, 2000.)や、成山らの代表語("Extracting Representative Arguments from Dictionaries for Resolving Zero Pronouns", Shigeko Nariyama, Eric Nichols, Francis Bond, Takaaki Tanaka, Hiromi Nakaiwa. in Machine Translation Summit X, Phuket, pp.3-10, 2005.)などがある。
図20は、用例付き格フレームのエントリ例である。用例付き格フレーム辞書は、処理対象文を日本語とすると、例えば、Web格フレーム(http://www.kc.tu-tokyo.ac.jp/c/dehverables.html)などがある。
図19や図20に示したように、代表語/典型語辞書や用例付き格フレーム辞書には、結合価辞書と同様、少なくとも処理対象文の見出しとその品詞および、格フレーム情報などの、語句間の関係が登録されている。図19の場合、ある見出し語の項が典型的にとることが多い語やその意味カテゴリ、あるいはその項に入りやすい代表的な語のような情報が格納されている。図20の場合、新聞データやWebデータから獲得した格フレーム構造と各格に出現した語やその意味カテゴリなどの情報が格納されている。
これらの例では、見出しは動詞であったが、必ずしも動詞である必要はなく、形容詞や項を取る名詞などでもよい。また、これらの例では見出し等は単語であったが、必ずしも単語である必要はなく、複合語など、複数の単語を含んでいてもよい。
また、結合価辞書DB24A,代表語・典型語辞書DB24B,用例付き格フレーム辞書DB24Cに格納される辞書は、それぞれ1つである必要はなく、複数の辞書を格納してもよく、例えばALT−J/Eの結合価辞書とIPALの両方を格納することが考えられる。また、結合価辞書,代表語/典型語辞書,用例付き格フレーム辞書のいずれかが存在しなくても構わない。
[第2の実施の形態の動作]
次に、図3を参照して、本発明の第2の実施の形態にかかる構文・意味解析モデル作成装置の動作について説明する。
本実施の形態におけるモデル作成処理は、図3に示した第1の実施の形態のものとほぼ同様であるが、ステップ101,102において次のような相違がある。
第1の実施の形態では、図3のステップ101において、学習用素性作成部11は、意味情報抽出部11Aの意味付与部11Bや語義付与部11Cにより、構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき処理対象文またはその処理対象文から選択した対象語句について意味情報DB22を検索することにより、対象語句に関する意味情報を抽出している。
本実施の形態では、このステップ101において、さらに、構文意味情報抽出部11Iにより、意味付与部11Bや語義付与部11Cで得られた、対象語句と他の語句との関係、対象語句の上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの関係に関する構文意味情報を、構文意味情報辞書24から抽出し、意味情報として出力する。
この際、構文意味情報抽出部11Iは、処理対象文で用いられている語の情報が、結合価辞書,代表語/典型語辞書,用例付き格フレームのエントリとして登録されていれば、該エントリを抽出する。
例えば、図6の処理対象文T1:「車を運転する人」を考えた場合、この処理対象文で用いられている語の情報は、構文意味情報辞書24のうち、図18のPID1、図19のRID2、図20のCID1と一致する。
すなわち、図18において、見出し語である「運転する(1品詞]さ変名詞)」に一致するエントリは、PID1とPID2があるが、図10から、T1の「人」「車」は、それぞれ意味カテゴリ<人>,<乗り物(陸)>に一致するため、PID1の方がより適切なエントリであるとわかる。
ここで、一致するエントリを抽出する条件として、見出し語と品詞が一致するエントリと見出し語のみが一致するエントリのうち、さらに選択制限に一致する、あるいは選択嗜好に一致する、エントリに登録されたすべての項を満たす、一部の項を満たす、などのさまざまな条件が考えられる。また、それぞれの一致の仕方によって、コストを与え、最もコストの良いエントリを抽出する、あるいはコストの良いエントリを複数利用して最も効果的なエントリを探す、などの方法が考えられる。
また、本実施の形態では、図3のステップ102において、素性作成部11Eの意味的素性作成部11Fでは、構文意味情報抽出部11Iで抽出された構文意味情報を含む意味情報を意味情報抽出部11Aから受け取った場合、次のような方法で素性を作成する。図21は、意味的素性作成処理の実行結果例である。
まず、図10の意味情報と、図11のPID1、図12のRD2、図13のCID1からなる構文意味情報のそれぞれに共通して一致するエントリを選択する方法がある。この場合、図21における素性P0,R0,Y0が選択される。
また、結合価辞書,代表語/典型語辞書,用例付き格フレームのそれぞれに一致するエントリを選択してもよく、この場合には図21の素性P1,R1,Y1が選択される。
この他、それぞれの項(格)に一致するのは、どういった語(人、車)か、どういった意味カテゴリ(<人>,<乗り物>)かという検索を行う方法によれば、図21の素性P4が選択される。
また、どの項(格)に一致/不一致なのかという検索を行う方法では、図21の素性P3,P5,P6(一致))、素性Y5(不一致)が選択される。
また、一致したときのSC0REを入れる方法では、図21の素性P7が選択され、そのSC0REが高いか低いかの情報を入れる方法では、図21の素性P8が選択され、一致したときの用例の出現頻度が高いか低いかを検索する方法では、図21の素性Y0−Y4,Y6−Y8が選択される。
図21の情報以外にも、品詞によって素性を置き換えたり、組み合わせたりと、様々な素性の作成方法が考えられる。但し、図21のすべての素性を作成する必要はなく、結合価辞書が存在しなければ結合価辞書を利用した素性(P0−P8)は作らないなど、様々な方法が考えられる。
ここで、作成した素性を利用する場合の効果として、構文意味情報辞書24を利用する場合の効果を示す。
例えば、(5)「私は階段を誤って踏み外した。」を考えた場合、(5)の解析結果では、「階段を」が、「誤る」にかかるのか、「踏み外す」にかかるのかという曖昧性が出る。図18のPID3,PID4から、「階段を」が「誤る」にかかるとすると、PID3のN1は一致するが、N2には全く一致しない。一方、「踏み外す」なら、PID4のN1、N2の両方に一致する素性を作成でき、より確からしい素性を作成できる。
[第2の実施の形態の効果]
このように、本実施の形態では、記憶部2により、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書24を予め記憶しておき、意味情報抽出部11Aにより、対象語句について構文意味情報辞書を検索することにより当該対象語句の構文意味情報を意味情報として抽出するようにしたので、既存の構文辞書の情報を流用でき、効率的に構文・意味解析システムの精度をあげることができる。
本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図である。 本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図である。 本発明の第1の実施の形態にかかる構文・意味解析モデル作成装置のモデル作成処理を示すフローチャートである。 構文解析結果の例である。 構文・意味解析結果の例である。 センスバンクDBに格納された処理対象文の語義付与情報の例である。 センスバンクDBに格納された処理対象文への語義付与の基準となる辞書のエントリの例である。 シソーラス/オントロジーDBに格納された処理対象文のシソーラス/オントロジーの例である。 シソーラス/オントロジーの意味カテゴリに含まれる語の例である。 意味情報抽出処理の実行結果例である。 意味的素性作成処理の実行結果例である。 機械学習処理の実行結果例である。 構文・意味解析ランキング装置の概略構成を示すブロック図である。 構文解析の候補例である。 意味解析の候補例である。 本発明の第2の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図である。 本発明の第2の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図である。 結合価辞書のエントリ例である。 代表語・典型語辞書のエントリ例である。 用例付き格フレームのエントリ例である。 意味的素性作成処理の実行結果例である。
符号の説明
10…構文・意味解析モデル作成装置、1…演算処理部、11…学習用素性作成部、12…機械学習部、2…記憶部、20…プログラム、21…ツリーバンクDB、22…意味情報DB、22A…センスバンクDB 22B…シソーラス・オントロジーDB、23…構文・意味解析ランキングモデル、24…構文意味情報辞書、24A…結合価辞書DB、24B…代表語・典型語辞書DB、24C…用例付き格フレーム辞書DB、3…入出力I/F部、4…通信I/F部、5…操作入力部、6…画面表示部、X…ツリーバンクDB、Y…構文・意味解析ランキングモデル、M…記録媒体、30…構文・意味解析ランキング装置、31…言語解析器、32…構文・意味解析器、33…構文・意味解析解候補、3X…入力文、3Y…構文・意味解析解。

Claims (12)

  1. 自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成方法であって、
    記憶部により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶ステップと、
    意味情報抽出部により、前記記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき前記記憶部から読み出した処理対象文またはその処理対象文から選択した対象語句について、前記記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出ステップと、
    素性作成部により、前記意味情報抽出部で抽出された意味情報に基づいて前記対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成ステップと
    を備えることを特徴とする構文・意味解析結果ランキングモデル作成方法。
  2. 請求項1に記載の構文・意味解析結果ランキングモデル作成方法において、
    構文情報抽出部により、前記記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出ステップをさらに備え、
    前記素性作成ステップにより、前記構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する
    ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
  3. 請求項1に記載の構文・意味解析結果ランキングモデル作成方法において、
    前記意味情報データベースは、前記処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス/オントロジーデータベースからなり、
    前記意味情報抽出ステップにより、前記意味情報データベースを検索することにより、前記対象語句の語義、または前記対象語句と所定の関係にある他の語句や意味カテゴリを、前記意味情報として抽出する
    ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
  4. 請求項1に記載の構文・意味解析結果ランキングモデル作成方法において、
    前記記憶部により、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶する記憶ステップをさらに備え、
    前記意味情報抽出ステップにより、前記対象語句について前記構文意味情報辞書を検索することにより当該対象語句の構文意味情報を前記意味情報として抽出する
    ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
  5. 請求項4に記載の構文・意味解析結果ランキングモデル作成方法において、
    前記構文意味情報辞書は、前記対象語句の結合価情報を蓄積する結合価辞書、前記対象語句の代表語あるいは典型語を蓄積する代表語/典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか1つ以上の辞書からなり、
    前記意味情報抽出ステップにより、前記構文意味情報辞書を検索することにより、前記対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか1つ以上を、前記意味情報として抽出する
    ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
  6. 自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成装置であって、
    自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶部と、
    前記記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて前記記憶部から読み出した処理対象文から選択した対象語句について、前記記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出部と、
    前記意味情報抽出部で抽出された意味情報に基づいて前記対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成部と
    を備えることを特徴とする構文・意味解析結果ランキングモデル作成装置。
  7. 請求項6に記載の構文・意味解析結果ランキングモデル作成装置において、
    前記記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出部をさらに備え、
    前記素性作成部は、前記構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する
    ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
  8. 請求項6に記載の構文・意味解析結果ランキングモデル作成装置において、
    前記意味情報データベースは、前記処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス/オントロジーデータベースからなり、
    前記意味情報抽出部は、前記意味情報データベースを検索することにより、前記対象語句の語義、または前記対象語句と所定の関係にある他の語句や意味カテゴリを、前記意味情報として抽出する
    ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
  9. 請求項6に記載の構文・意味解析結果ランキングモデル作成装置において、
    前記記憶部は、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶し、
    前記意味情報抽出部は、前記対象語句について前記構文意味情報辞書を検索することにより当該対象語句の構文意味情報を前記意味情報として抽出する
    ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
  10. 請求項9に記載の構文・意味解析結果ランキングモデル作成装置において、
    前記構文意味情報辞書は、前記対象語句の結合価情報を蓄積する結合価辞書、前記対象語句の代表語あるいは典型語を蓄積する代表語/典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか1つ以上の辞書を記憶し、
    前記意味情報抽出部は、前記構文意味情報辞書を検索することにより、前記対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか1つ以上を、前記意味情報として抽出する
    ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
  11. コンピュータに、請求項1に記載の構文・意味解析結果ランキングモデル作成方法の各ステップを実行させるためのプログラム。
  12. 請求項11に記載のプログラムが記録された記録媒体。
JP2007068208A 2007-03-16 2007-03-16 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体 Expired - Fee Related JP4963245B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007068208A JP4963245B2 (ja) 2007-03-16 2007-03-16 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007068208A JP4963245B2 (ja) 2007-03-16 2007-03-16 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2008233964A true JP2008233964A (ja) 2008-10-02
JP4963245B2 JP4963245B2 (ja) 2012-06-27

Family

ID=39906720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007068208A Expired - Fee Related JP4963245B2 (ja) 2007-03-16 2007-03-16 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4963245B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282453A (ja) * 2009-06-05 2010-12-16 Hitachi Ltd 機械翻訳方法、及びシステム
JP2010282517A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 言語資源情報生成装置、方法、プログラム、および記録媒体
KR101061201B1 (ko) 2009-09-03 2011-08-31 주식회사 다음커뮤니케이션 검색 랭킹 모델 시뮬레이션 시스템 및 그 방법
JP2014059754A (ja) * 2012-09-18 2014-04-03 Hitachi Ltd 情報処理システム、及び、情報処理方法
US11687795B2 (en) 2019-02-19 2023-06-27 International Business Machines Corporation Machine learning engineering through hybrid knowledge representation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01113869A (ja) * 1987-10-28 1989-05-02 Hitachi Ltd 日本文解析方式
JP2007011775A (ja) * 2005-06-30 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法、プログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01113869A (ja) * 1987-10-28 1989-05-02 Hitachi Ltd 日本文解析方式
JP2007011775A (ja) * 2005-06-30 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法、プログラム及び記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282453A (ja) * 2009-06-05 2010-12-16 Hitachi Ltd 機械翻訳方法、及びシステム
JP2010282517A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 言語資源情報生成装置、方法、プログラム、および記録媒体
KR101061201B1 (ko) 2009-09-03 2011-08-31 주식회사 다음커뮤니케이션 검색 랭킹 모델 시뮬레이션 시스템 및 그 방법
JP2014059754A (ja) * 2012-09-18 2014-04-03 Hitachi Ltd 情報処理システム、及び、情報処理方法
US11687795B2 (en) 2019-02-19 2023-06-27 International Business Machines Corporation Machine learning engineering through hybrid knowledge representation

Also Published As

Publication number Publication date
JP4963245B2 (ja) 2012-06-27

Similar Documents

Publication Publication Date Title
Gambhir et al. Recent automatic text summarization techniques: a survey
Vajjala et al. On improving the accuracy of readability classification using insights from second language acquisition
Wong et al. Exploiting parse structures for native language identification
Dell’Orletta et al. READ–IT: Assessing readability of Italian texts with a view to text simplification
US11210468B2 (en) System and method for comparing plurality of documents
Malandrakis et al. Distributional semantic models for affective text analysis
JPH1173417A (ja) テキストジャンル識別方法
Fujita et al. Exploiting semantic information for HPSG parse selection
Atkinson et al. Rhetorics-based multi-document summarization
Jagadeesh et al. Sentence extraction based single document summarization
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
JP4963245B2 (ja) 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体
Yeom et al. Unsupervised-learning-based keyphrase extraction from a single document by the effective combination of the graph-based model and the modified C-value method
Parameswarappa et al. Kannada word sense disambiguation using decision list
Wu et al. Semantic segment extraction and matching for internet FAQ retrieval
Gurevych et al. Expert‐Built and Collaboratively Constructed Lexical Semantic Resources
Imperial et al. Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature
Ide et al. Japanese Lexical Complexity for Non-Native Readers: A New Dataset
JPH11120206A (ja) タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置
Zhang et al. Feature-based assessment of text readability
Gakis et al. Design and implementation of an electronic lexicon for Modern Greek
Dinu et al. Alternative measures of word relatedness in distributional semantics
Marian Orthographic and phonological neighborhood databases across multiple languages
Anttila Automatic Text Summarization
Luong et al. Assessing vietnamese text readability using multi-level linguistic features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees