JP2008233964A

JP2008233964A - 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体

Info

Publication number: JP2008233964A
Application number: JP2007068208A
Authority: JP
Inventors: Sanae Fujita; 早苗藤田; Takaaki Tanaka; 貴秋田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-03-16
Filing date: 2007-03-16
Publication date: 2008-10-02
Anticipated expiration: 2027-03-16
Also published as: JP4963245B2

Abstract

【課題】構文・意味解析結果を高い精度でランキングを行なうことが可能な構文・意味解析ランキングモデルを作成する。
【解決手段】記憶部２で意味情報ＤＢ２２を予め記憶しておき、意味情報抽出部１１Ａにより、前記記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて前記記憶部から読み出した処理対象文から選択した対象語句について、前記記憶部２の意味情報ＤＢ２２を検索することにより、当該対象語句に関する意味情報を抽出し、素性作成部１１Ｅにより、前記意味情報抽出部１１Ａで抽出された意味情報に基づいて前記対象語句を展開することにより、構文・意味解析結果ランキングモデル２３の作成に用いる素性を作成する。
【選択図】図１

Description

本発明は、自然言語処理技術に関し、特に入力された文から得られる複数の構文解析結果（ツリー）や意味解析結果から最も確からしい解析結果を決定するために用いられる言語モデル作成技術に関する。

近年、インターネットの発達や計算機の普及などで、自然言語で書かれた電子化文書が大量に流通するようになっている。これに伴い、これら電子化文書を計算機で解析し、自動要約、機械翻訳、情報検索などの情報処理を行なうといった需要が増加している。
こうした情報処理の精度を高めるためには、自然言語の文章を正しく構文解析することが重要である。また、より高度な情報処理を実現するには、構文解析だけでなく、より深い意味解析まで行なう必要がある。

このような自動的な構文解析や意味解析を行なう上で問題となるのが、膨大な解析曖昧性である。通常、特に長い文の統語解析を行なった場合、多くの解析結果が得られる。これは、対象文に含まれる統語的曖昧性に起因するものであり、この曖昧性を解消し、正しい解析結果を得ることが重要である。あるいは、提示されるＮ個の候補からコストが最小のものを選ぶＮ−ｂｅｓｔ法の解析結果を利用する場合でも、より確からしい解析結果を上位にランキングすることが求められる。

従来の構文解析技術では、対象文の構文解析だけでなく意味解析にも利用されるような高度な言語知識を含む文法による解析に、統計モデルを導入することで、パーズランキングの精度を向上をさせることに成功している（例えば、非特許文献１−３など参照）。ここで用いられる統計モデルは、文法規則の出現確率、句の主辞である語の情報など、訓練データそのものから得られる情報からのみ作成した素性を用いて作成されている。

Riezler, Stefan, Tracy H. King, Ronald M. Kaplan, Richard Crouch, John T. Maxwell & Mark Johnson: 2002, 'Parsing the Wall Street Journal using a Lexical-Functional Grammar and discriminative estimation techniques', in 41st Annual Meeting of the Association for Computational Linguistics: ACL-2002. Oepen, Stephan, Iran Flickinger, Kristina Toutanova & Christoper D. Manning; 2004, 'LinGO redwoods: A rich and dynamic treebank for HPSG', Research on Language and Computation, 2(4}: 575-596. Malouf, Robert & Gertjan van Noord: 2004, 'Wide coverage parsing with stochastic attribute value grammars', in IJCNLP-04 Workshop: Beyond shallow analyses - Formalisms and statistical modeling for deep analyses., JST CREST. Malouf, Robert: 2002, 'A comparison of algorithms for maximum entropy parameter estimation', in CONLL-2002, Taipei, Taiwan.

しかしながら、このような従来技術では、構文・意味解析結果をランキングする場合、一般的な字面ベースの統計モデルを利用したランキング方法だけでは、十分な精度が得られていないという問題がある。

例えば、上記従来技術では、統計モデルを作成する際、訓練データそのものから得られる情報からのみ作成した素性を用いて学習しているため、それだけでは限界がある。例えば、語は複数の語義を持つことが多いが、これまでの字面ベースの統計モデルだと、どの語義で利用されているかは反映されない。しかし、語義が異なれば、その統語的振舞や意味も異なることが多い。したがって、従来技術において、かかりうけ解析レベルの構文解析を用いた場合でも、その構文解析の正解精度は未だに８０％程度である。さらに深い意味解析の精度はさらに低くなり、自動的な解析結果を利用できるレベルには至っていない。

本発明はこのような課題を解決するためのものであり、構文・意味解析結果を高い精度でランキングを行なうことが可能な構文・意味解析ランキングモデルを作成する構文・意味解析ランキングモデル作成方法および装置、プログラム並びに記録媒体を提供することを目的としている。

このような目的を達成するために、本発明にかかる構文・意味解析結果ランキングモデル作成方法は、自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成方法であって、記憶部により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶ステップと、意味情報抽出部により、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき記憶部から読み出した処理対象文またはその処理対象文から選択した対象語句について、記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出ステップと、素性作成部により、意味情報抽出部で抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成ステップとを備えている。

この際、構文情報抽出部により、記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出ステップをさらに備え、素性作成ステップにより、構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしてもよい。

また、意味情報データベースを、処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス／オントロジーデータベースから構成し、意味情報抽出ステップにより、意味情報データベースを検索することにより、対象語句の語義、または対象語句と所定の関係にある他の語句や意味カテゴリを、意味情報として抽出するようにしてもよい。

また、記憶部により、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶する記憶ステップをさらに備え、意味情報抽出ステップにより、対象語句について構文意味情報辞書を検索することにより当該対象語句の構文意味情報を意味情報として抽出するようにしてもよい。

この際、構文意味情報辞書を、対象語句の結合価情報を蓄積する結合価辞書、対象語句の代表語あるいは典型語を蓄積する代表語／典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか１つ以上の辞書から構成し、意味情報抽出ステップにより、構文意味情報辞書を検索することにより、対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか１つ以上を、意味情報として抽出するようにしてもよい。

また、本発明にかかる構文・意味解析結果ランキングモデル作成装置は、自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成装置であって、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶部と、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出部と、意味情報抽出部で抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成部とを備えている。

この際、記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出部をさらに備え、素性作成部で、構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしてもよい。

また、意味情報データベースを、処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス／オントロジーデータベースから構成し、意味情報抽出部で、意味情報データベースを検索することにより、対象語句の語義、または対象語句と所定の関係にある他の語句や意味カテゴリを、意味情報として抽出するようにしてもよい。

また、記憶部で、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶し、意味情報抽出部で、対象語句について構文意味情報辞書を検索することにより当該対象語句の構文意味情報を意味情報として抽出するようにしてもよい。

この際、構文意味情報辞書で、対象語句の結合価情報を蓄積する結合価辞書、対象語句の代表語あるいは典型語を蓄積する代表語／典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか１つ以上の辞書を記憶し、意味情報抽出部で、構文意味情報辞書を検索することにより、対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか１つ以上を、意味情報として抽出するようにしてもよい。

また、本発明にかかるプログラムは、コンピュータに、上記構文・意味解析結果ランキングモデル作成方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。

本発明によれば、意味情報抽出部により、記憶部から読み出した構文・意味解析結果から意味解析結果が抽出され、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部の意味情報データベースが検索されて、当該対象語句に関する意味情報が抽出され、素性作成部により、意味情報抽出部１１Ａで抽出された意味情報に基づいて対象語句が展開されて、構文・意味解析結果ランキングモデルの作成に用いる素性が作成される。

これにより、処理対象文の構文・意味解析結果とその正否を示す評価結果と、この解析結果に対応する意味情報があれば、この意味情報を用いて、字面ベースではなく意味ベースの統計モデルである構文・意味解析結果ランキングモデルを作成できる。したがって、字面ベースの統計モデルを用いて構文・意味解析結果をランキングする場合と比較して、高い精度でランキングを行なうことが可能となり、自然言語処理システム、情報検索システム、機械翻訳システムなどに極めて有用である。

次に、本発明の実施の形態について図面を参照して説明する。
［第１の実施の形態］
まず、図１を参照して、本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置について説明する。図１は、本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図である。
この構文・意味解析モデル作成装置１０は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、入力されたツリーバンクデータベース（以下、ツリーバンクＤＢという）Ｘに含まれる各構文・意味解析結果を情報処理することにより、構文・意味解析結果をランキングするための構文・意味解析ランキングモデルＹを作成して出力する機能を有している。

本実施の形態は、記憶部により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを予め記憶しておき、学習用素性作成部により、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出し、この抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしたものである。

以下、図１を参照して、本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置の構成について詳細に説明する。
構文・意味解析モデル作成装置１０には、主な機能部として、一般的な情報処理装置と同様に、演算処理部１、記憶部２、入出力インターフェース部（以下、入出力Ｉ／Ｆ部という）３、通信インターフェース部（以下、通信Ｉ／Ｆ部という）４、操作入力部５、および画面表示部６が設けられている。

演算処理部１は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部２に格納されているプログラム２０を読み出して実行することにより、上記ハードウェアとプログラム２０とを協働させて各種処理部を実現する。
演算処理部１で実現される主な処理部としては、学習用素性作成部１１および機械学習部１２がある。

記憶部２は、ハードディスクやメモリなどの記憶装置からなり、演算処理部１で実行するプログラム２０や、意味タグの付与処理に用いる各種処理情報を記憶する。プログラム２０は、例えば入出力Ｉ／Ｆ部３を介して記録媒体Ｍから読み込まれ、あるいは通信Ｉ／Ｆ部４を介して外部装置（図示せず）から読み込まれ、記憶部２へ予め格納される。
記憶部２で記憶する主な処理情報としては、ツリーバンクデータベース（以下、ツリーバンクＤＢという）２１、意味情報データベース（以下、意味情報ＤＢという）２２、および構文・意味解析ランキングモデル２３がある。

入出力Ｉ／Ｆ部３は、専用のデータ入出力回路からなり、ＣＤやＤＶＤ、さらには不揮発性メモリカードなどの記録媒体Ｍとの間で、演算処理部１からの指示に応じて、ツリーバンクＤＢＸ、構文・意味ランキングモデルＹ、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信Ｉ／Ｆ部４は、専用のデータ通信回路からなり、ＬＡＮなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部１からの指示に応じて、ツリーバンクＤＢＸ、構文・意味ランキングモデルＹ、辞書、データベースなどの各種データやプログラムを送受信する機能を有している。

操作入力部５は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部１へ出力する機能を有している。
画面表示部６は、ＬＣＤやＰＤＰなどの画面表示装置からなり、演算処理部１からの指示に応じてツリーバンクＤＢＸ、構文・意味ランキングモデルＹなどの各種データや操作画面を画面表示する機能を有している。

図２は、本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図である。
学習用素性作成部１１は、記憶部２のツリーバンクＤＢ２１に格納されている、対象処理文とその構文・意味解析結果とその正否を示す評価結果の組を読み出して、ランキングを行なうための素性を作成する機能を有している。
ツリーバンクＤＢ２１は、自然言語データからなる処理対象文と、この処理対象文を予め言語解析して得た構文・意味解析結果、この解析結果の正否すなわち正解／不正解を示す評価結果の組が格納されている。

学習用素性作成部１１は、意味情報抽出部１１Ａ、構文情報抽出部１１Ｄ、素性作成部１１Ｅ、および素性選択部１１Ｈから構成されている。
意味情報抽出部１１Ａは、ツリーバンクＤＢ２１から読み出した構文・意味解析結果から意味解析結果を抽出する機能と、この意味解析結果に基づきツリーバンクＤＢ２１から読み出した処理対象文またはその処理対象文から選択した対象語句について、意味情報ＤＢ２２を検索することにより、対象語句に関する意味情報を抽出する機能とを有している。なお、対象語句は、その語句単独で語義を持つ最小単位で処理対象文から選択する。

意味情報ＤＢ２２は、各種語句に関する意味を示す意味情報を蓄積するデータベースであり、センスバンクＤＢ２２Ａとシソーラス／オントロジーＤＢ２２Ｂの両方、またはいずれか一方から構成される。
センスバンクＤＢ２２Ａは、処理対象文ごとに当該対象処理部を構成する各対象語句に対する語義付与結果を蓄積するデータベースである。
シソーラス／オントロジーＤＢ２２Ｂは、互いに所定の関係にある各種語句や意味カテゴリを蓄積するデータベースである。

意味情報抽出部１１Ａは、具体的に、意味付与部１１Ｂと語義付与部１１Ｃから構成されている。
意味付与部１１Ｂは、処理対象文についてセンスバンクＤＢ２２Ａを検索し、当該対象語句に対する語義付与結果を抽出する機能と、シソーラス／オントロジーＤＢ２２Ｂを検索して、上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの意味情報を抽出する機能とを有している。

語義付与部１１Ｃは、意味付与部１１Ｂで対象語句の意味情報を抽出できなかった場合、当該語句に対する語義情報や、シソーラス／オントロジーＤＢ２２Ｂにおける上位語や意味カテゴリ、上位の意味カテゴリなどの意味情報を自動的に推定して出力する機能を有している。ここで、意味情報の自動的な推定方法としては、既存のセンスバンクやシソーラス／オントロジーを学習データとして用いて統計学習し、意味情報を推定するための統計モデルを作成して推定する方法や、当該語句の語義の中で最も出現頻度の高い語義情報を利用する方法などが考えられる。
なお、センスバンクＤＢ２２ＡとＤＢ２２Ａについては、構文・意味解析ランキングモデルやその作成処理に要求される条件、例えば素性のバリエーションの広さ、ランキング精度、ランキング所要時間、モデル作成所要時間などの条件に基づいて選択すればよい。センスバンクＤＢ２２Ａおよびシソーラス／オントロジーＤＢ２２Ｂの両方を設けてもよく、いずれか一方であってもよい。

構文情報抽出部１１Ｄは、ツリーバンクＤＢ２１から読み出した構文・意味解析結果から構文解析結果を抽出する機能を有している。

素性作成部１１Ｅは、意味情報抽出部１１Ａで抽出された意味情報と構文情報抽出部１１Ｂで抽出された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する機能を有している。素性とは、構文・意味解析結果ランキングモデルの作成、特に後述する機械学習部１２での学習に用いる学習情報である。

素性作成部１１Ｅは、具体的に、意味的素性作成部１１Ｆと構文的素性作成部１１Ｇから構成されている。
意味的素性作成部１１Ｆは、意味情報抽出部１１Ａで抽出された意味情報に含まれる、当該対象語句の語義、上位語や同義語、意味カテゴリ、上位の意味カテゴリに基づいて、対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる意味的素性を作成する機能を有している。
構文的素性作成部１１Ｇは、構文情報抽出部１１Ｂで抽出された構文情報に基づいて、対象語句、品詞、解析に適用される文法的ルールを展開することにより、構文・意味解析結果ランキングモデルの作成に用いる構文的素性を作成する機能を有している。

素性選択部１１Ｈは、素性作成部１１Ｅで作成された各素性のうち、所定の選択条件を満足する素性を、学習に利用する素性を選択する機能を有している。
機械学習部１２は、素性選択部１１Ｈで選択された素性を機械学習することにより構文・意味解析ランキングモデル２３を作成する機能を有している。
構文・意味解析ランキングモデル２３の作成結果は、素性の作成や選択を変化させるために素性作成部１１Ｅや素性選択部１１Ｈヘフィードバックされる。
最終的には、このようにして作成した構文・意味解析ランキングモデル２３を、構文・意味解析器（図示せず）に組み込むか、後処理で構文解析結果のランキングを行なうかによって、構文解析の正解選択精度を改善してもよい。

［第１の実施の形態の動作］
次に、図３を参照して、本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置の動作について説明する。図３は、本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置のモデル作成処理を示すフローチャートである。
構文・意味解析モデル作成装置１０の演算処理部１は、操作入力部５により、オペレータによるモデル作成処理の開始操作を検出した場合、図３のモデル作成処理を開始する。

まず、演算処理部１は、学習用素性作成部１１により、記憶部２のツリーバンクＤＢ２１に格納されている、対象処理文とその構文・意味解析結果とその正否を示す評価結果の組を読み出す（ステップ１００）。

学習用素性作成部１１は、意味情報抽出部１１Ａの意味付与部１１Ｂや語義付与部１１Ｃにより、構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき処理対象文またはその処理対象文から選択した対象語句について意味情報ＤＢ２２を検索することにより、対象語句に関する意味情報を抽出する（ステップ１０１）。
次に、学習用素性作成部１１は、素性作成部１１Ｅの意味的素性作成部１１Ｆにより、意味情報抽出部１１Ａで抽出された意味情報に基づいて、対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる意味的素性を作成する（ステップ１０２）。

これと並行して、学習用素性作成部１１は、構文情報抽出部１１Ｄにより、構文・意味解析結果から構文解析結果を抽出し（ステップ１０３）、素性作成部１１Ｅの構文的素性作成部１１Ｇにより、構文情報抽出部１１Ｂで抽出された構文情報に基づいて、対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる構文的素性を作成する（ステップ１０４）。

この後、学習用素性作成部１１は、素性作成部１１Ｅで作成された各素性のうち、所定の選択条件を満足する素性を、学習に利用する素性を選択し（ステップ１０５）、演算処理部１は、機械学習部１２により、素性選択部１１Ｈで選択された素性を機械学習することにより構文・意味解析ランキングモデル２３を作成し（ステップ１０６）、一連のモデル作成処理を終了する。

［構文・意味解析結果］
次に、図４および図５を参照して、本実施の形態で用いる構文・意味解析結果について説明する。図４は、構文解析結果の例である。図５は、構文・意味解析結果の例である。ここでは、処理対象文が日本語の場合を例として説明するが、英語、中国語、スペイン語、ドイツ語、フランス語など、自然言語であればいずれの言語でもよい。

図４には、処理対象文「車を運転する人」について、構文解析した結果が示されており、解析結果Ｔ１−１は、その解析が正解した例、解析結果Ｔ１−２は、その解析が不正解であった例である。
一方、図５には、処理対象文「車を運転する人」について、構文解析した結果が示されており、解析結果Ｔ１−１−２は、その解析が正解した例、解析結果Ｔ１−１−１，Ｔ１−２−１，Ｔ１−２−２は、その解析が不正解であった例である。

図４の解析結果Ｔ１−１だけでは、「（車を）運転する」と「人」との関係がわからないが、図５においてＴ１−１に対する意味解析結果のうち正解と評価されている解析結果Ｔ１−１−２から、「運転する」が要求する２つの項のうち、「人」が項１に対応することがわかる。
図５のＴ１−１−１は、Ｔ１−１−２（図４のＴ１−１）と同じ構文構造であるが、このＴ１−１−１の場合は、「運転する」の項１が空になっていて、「（車を）運転する」は「人」にかかる単なる関係節との解釈になっている。

このような構文・意味解析結果が得られるツリーバンクＤＢ２１としては、処理対象文を日本語とすると、例えば、構文解析結果だけでなく、意味解析結果まで獲得できるタグ付きコーパスとして、檜ツリーバンク（"The Hinoki Treebank: Working Toward Text Understanding", Francis Bond, Sanae Fujita, Chikara Hashimoto, Kaname Kasahara, Shigeko Nariyama, Eric Nichols, Akira Otani, Takaaki Tanaka, Shigeaki Amano, COLING-2004, Geneva, Switzerland, 2004, 8/23-8/29）、あるいは、述語−項関係などが抽出できるタグ付きコーパスとして、ＮＡＩＳＴテキストコーパス（http://cl.naist.jp/nldata/corpus/）、京都テキストコーパスVersion 4.0（http://nlp.kuee.kyoto-u.ac.jp/nl-resource/corpus.html）などが存在する。

［意味情報ＤＢ］
次に、図６−８を参照して、本実施の形態で用いる意味情報ＤＢについて説明する。図６は、センスバンクＤＢに格納された処理対象文の語義付与情報の例である。図７は、センスバンクＤＢに格納された処理対象文への語義付与の基準となる辞書のエントリの例である。図８は、シソーラス／オントロジーＤＢに格納された処理対象文のシソーラス／オントロジーの例である。

意味情報抽出部１１Ａは、図５に示したような意味解析結果に基づいて、図６のセンスバンクＤＢ２２Ａや図８のシソーラス／オントロジーＤＢ２２Ｂを検索し、意味情報を抽出する。但し、図５のような意味解析結果がない場合、また、構文解析結果のみを獲得するための構文・意味解析ランキングモデルを作成したい場合など、図４のような構文解析結果のみからわかる述語項構造を利用することも考えられる。ここで、図６の語義は、図７で定義されている。

センスバンクＤＢ２２Ａとしては、処理対象文を日本語とすると、例えば、Ｌｅｘｅｅｄ（"「基本語意味データベース：Lexeed」の構築", 笠原要, 佐藤浩史, Francis Bond, 田中貴秋, 藤田早苗, 金杉友子, 天野昭成. 2004-NLC-159, PP.75-82, 2004）に準拠して語義付与された檜センスバンク（"The Hinoki Sensebank - A Large-Scale Word Sense Tagged Corpus of Japanese -", Takaaki Tanaka, Francis Bond, Sanae Fujita. Proceedings of the Workshop on Frontiers in Linguistically Annotated Corpora 2006, Sydney, pp.62-69, 2006." (ACL Workshop)"）、岩波国語辞典に準拠して語義付与された岩波国語辞典タグ付コーパス（http://gsk.or.jp/doc/IWANAMI2004.pdf）などが存在する。

但し、センスバンクＤＢ２２Ａが存在しない場合、またはセンスバンクＤＢ２２Ａに処理対象文の語義付与情報がない場合、意味情報抽出部１１Ａにおいて、語義付与部１１Ｃを利用して処理対象文への語義、シソーラス／オントロジーＤＢ２２Ｂにおける、該語句の意味カテゴリや、上位語、上位意味カテゴリなどを獲得すればよい。
また、語義が付与できない場合でも、シソーラス／オントロジーＤＢ２２Ｂにおける、該語句の意味カテゴリや、上位語、上位意味カテゴリなどだけを獲得して利用することも考えられる。

シソーラス／オントロジーＤＢ２２Ｂとしては、処理対象文を日本語とすると、例えば、日本語語彙大系（日本電信電話株式会社、http://www.kecl.ntt.co.jp/icl/mtg/resources/GoiTaikei/index.html）、分類語彙表 -増補改訂版-（国立国語研究所、http://www.kokken.go.jp/katsudo/kanko/data/index.html）、檜オントロジー（"Acquiring an Ontology for a Fundamental Vocabulary", Francis Bond, Eric Nichols, Sanae Fujita, Takaaki Tanaka. in COLING-2004, Geneva, pp.1319-1325, 2004.）などが存在する。

これらの例では、見出しは動詞であったが、必ずしも動詞である必要はなく、形容詞や項を取る名詞などでもよい。また、これらの例では見出し等は単語であったが、必ずしも単語である必要はなく、複合語など、複数の単語を含んでいてもよい。
また、センスバンクＤＢ２２Ａに格納されるセンスバンクも１つである必要はなく、複数のセンスバンクを格納してもよく、例えば檜センスバンクと岩波国語辞典タグ付コーパスの両方を格納することが考えられる。また、センスバンクが存在しない場合、あるいは、センスバンクが存在しても対象文に対する語義付与情報がない場合、語義付与部１１Ｃのみを利用することも考えられる。
また、シソーラス／オントロジーＤＢ２２Ｂに格納されるシソーラス／オントロジーも１つである必要はなく、複数の辞書を格納してもよく、例えば日本語語彙大系と檜オントロジーの両方を格納することが考えられる。

［意味情報抽出処理］
次に、図９および図１０を参照して、本実施の形態における意味情報抽出処理について説明する。図９は、シソーラス／オントロジーの意味カテゴリに含まれる語の例である。図１０は、意味情報抽出処理の実行結果例である。
意味情報抽出部１１Ａは、ツリーバンクＤＢ２１に格納された１つまたは複数のツリーバンクから、構文・意味解析結果とこの解析結果が正解であるか、不正解であるかの判定結果を取り出す（図４，５）。ここで、ツリーバンクＤＢ２１から図４の解析結果Ｔ１が提供されたとすると、意味情報抽出部１１Ａは、解析結果Ｔ１に対応する語義付与結果を図６のセンスバンクＤＢ２２Ａから獲得する。

図８に示したように、シソーラスの意味カテゴリには、図９に示すように、その意味カテゴリに含まれる語そのものも登録されている。したがって、意味情報抽出部１１Ａは、図９より、対象語句すなわち解析結果Ｔ１の内容語「人」，「車」，「運転」についてそれぞれ意味カテゴリを獲得し、図１０のような実行結果を得る。

ここで、利用するシソーラス／オントロジーＤＢ２２Ｂにおいて、例えば＜操縦＞に「運転（Ｄ２−１）」が含まれているように、意味カテゴリに語ではなく語彙が含まれる場合、意味情報抽出部１１Ａにおいて、語義付与結果を経由し、語義に対応する意味カテゴリを獲得することが考えられる。逆に、語義がわからない場合、語の字面に対応する意味カテゴリをすべて獲得したり、その語が最もよく使われる語義の意味カテゴリを獲得したり、その語の意味カテゴリを推定して利用することが考えられる。

さらに、意味情報抽出部１１Ａは、図８より、各意味カテゴリの上位カテゴリを獲得する。図８はレベル３までしか表示されていないが、＜操縦＞は＜人間活動＞配下のレベル９の意味カテゴリ、＜乗り物（陸）＞は＜無生物＞配下のレベル７の意味カテゴリとすると、図１０のような上位カテゴリを獲得することができる。ここで、獲得する上位カテゴリのレベルを様々に設定することにより、様々な意味の粗さの意味カテゴリへと集約することができる。

［意味的素性作成処理］
次に、図１１を参照して、本実施の形態における意味的素性作成処理について説明する。図１１は、意味的素性作成処理の実行結果例である。なお、図１１にあげた素性のうち、Ｂ０−Ｂ６は字面ベースの素性であり、先行研究で利用されている素性である。

意味的素性作成部１１Ｆは、図４の解析結果Ｔ１−１、ここでは解析結果Ｔ１−１から抽出された素性Ｂ０−Ｂ５を元にして、意味情報抽出部１１Ａで抽出された図１０の語義情報を用いて、解析結果の内容語を展開し、あるいは一部の内容語のみを展開し、語義情報に基づく素性Ｆ０−Ｆ５を作成する。

また、意味的素性作成部１１Ｆは、同じく図１０の意味カテゴリを用いて内容語を展開し、あるいは一部の内容語のみを展開し、意味カテゴリに基づく素性Ｃ０−Ｃ７を作成する。
また、意味的素性作成部１１Ｆは、同じく図１０の上位カテゴリを用いて内容語を展開し、あるいは一部の内容語のみを展開し、上位カテゴリに基づく素性Ｈ０−Ｈ７を作成する。ここで、Ｈ０−Ｈ７は、上位カテゴリとして、レベル３の意味カテゴリを利用している。

図１１の情報以外にも、品詞によって素性を置き換えたり、組み合わせたりと、様々な素性の作成方法が考えられる。但し、図１１のすべての素性を作成する必要はなく、シソーラス／オントロジーＤＢ２２Ｂが存在しなければ、意味カテゴリ、上位カテゴリを利用した素性（Ｃ０−Ｃ７，Ｈ０−Ｈ７）は作らないなど、様々な方法が考えられる。

ここで、作成した素性を利用する場合の効果を例示する。
まず、語義情報を利用する場合の効果である。(1)「ドライバーでねじを締めた。」と(2)「ドライバーがねじを締めた。」の文章は非常に類似しているが、(1)の「ドライバー」は、ねじまわしの意味のドライバー（Ｄ４−１）であり、「締める」にかかる随格である一方、(2)の「ドライバー」は運転手の意味のドライバー（Ｄ４−２）であり、主格である。このように非常に類似した文章であっても、語義によって全く異なる格になりうる。

語義情報を用いない場合には、正解の構造／意味解析結果の素性として、次のような素性が作成され、「締める」と「ドライバー」の関係に余計な曖昧性が増える。
［締める，項１：ドライバー，項２：ねじ］
［締める，項１：ドライバー］
［締める，項１：−，項２：ねじ，随格：ドライバー］
［締める，随格：ドライバー］

しかし、語義を利用することで、
［締める，項１＝ドライバー（Ｄ４−２），項２：ねじ（Ｄ５−１）］
［締める，項１：ドライバー（Ｄ４−２）］
［締める，項１：−，項２：ねじ（Ｄ５−１），随格：ドライバー（Ｄ４−１）］
［締める，随格：ドライバー（Ｄ４−１）］
のように区別することができる。

次に、意味カテゴリを利用する場合の効果を示す。(3)「彼が新車を運転している。」を考えた場合、字面ベースの素性である、次のような素性は、図１１には、全く出現していない。
［運転する，項１：彼，項２：新車］
しかし、図９から、「彼」，「新車」，「運転（する）」の意味カテゴリは、それぞれ、＜人＞，＜乗り物（陸）＞，＜操縦＞であることがわかるので、図１２のＣ０−Ｃ７に一致する素性を獲得できる。

次に、上位意味カテゴリを利用する場合の効果を示す。(4)「飛行機を操縦するテストパイロット。」を考えた場合、字面ベースの素性は、(3)の場合と同様、出現していない。また、「テストパイロット」，「飛行機」，「操縦」の意味カテゴリは、それぞれ、＜運転手＞，＜乗り物（空）＞，＜操縦＞であり、意味属性で展開した素性も図１１には、全く出現していない。しかし、これらの意味カテゴリをさらに上位カテゴリに展開すると、レベル３でそれぞれ、＜人＞，＜無生物＞，＜人間活動＞となり、図１１のＨ０−Ｈ７に一致する素性を獲得できる。

［素性選択処理］
次に、図１１を参照して、本実施の形態における素性選択処理について説明する。
図１１には、意味的素性作成部１１Ｆによって作成した素性が示されているが、これらすべての素性を、構文・意味解析ランキングモデル２３の作成に利用する必要はない。
素性選択部１１Ｈは、ある特定の条件を満たす素性を抽出あるいは削除し、構文・意味解析結果が正解であるか不正解であるかの判定結果と、この解析結果に対する素性を機械学習部１２に出力する。

素性の選択方法は、例えば図１１の素性のうち、基本の素性（Ｂ０−Ｂ６）と意味カテゴリを利用した素性（Ｃ０−Ｃ７）のみ利用する、Ｂ３の情報だけは利用しない、などの素性選択の条件を用いればよい。また、この素性選択の条件については、固定的ではなく、例えば所望する構文・意味解析ランキングモデル２３の性格や用途に合わせて任意に変更すればよい。

［機械学習処理］
次に、図１２を参照して、本実施の形態における機械学習処理について説明する。図１２は、機械学習処理の実行結果例である。
機械学習部１２は、学習用素性作成部１１から、構文・意味解析結果の判定結果と、この解析結果に対して構文・意味解析ランキング用素性作成部１１Ｅで作成された素性集合とを受け取り、どの素性が出現したときに解析結果が正解、あるいは不正解になりやすいかを統計的に学習し、学習結果を構文・意味解析ランキングモデル２３へ出力する。

機械学習部１２には、１つ以上の統計的学習器が格納されている。学習器は、ランキングを行なうという観点では、解析結果が正しい確率を出せる学習器、例えば対数線形モデルに基づく maximum entropy / minimum divergence(MEMD)(Malouf(2002),http:/tadm.sourceforge.net）や、解析結果が正しいか正しくないかを判定するという観点では、二値分類ができる学習器、例えば Support Vector Machine(SVM)(Vapnik, V. N.: Statistical Leaning Theory, Adaptive and Learning Systems for Signal Processing Communications, and control, John Wiley & Sons(1998))など、なんでもよい。

図１２の処理結果は、機械学習部１２として maximum entropy / minimum divergence を用いた場合、機械学習部１２によって各素性に付与されたパラメタ例である。これらのパラメタが高ければ、その素性が出現したとき正解である確率が高く、逆にパラメタがマイナスであれば、その素性が出現したとき不正解である確率が高い。

一般に、正解データ、不正解データの両方で出現している素性はパラメタが小さく、正解データのみで出現していればプラス方向にパラメタが大きく、あるいは不正解データのみで出現していればマイナス方向にパラメタが大きくなる。
また、出現頻度によって、このパラメタの重みは変化する。新しい解析結果をランキングする場合、各解析結果から得られる素性集合とパラメタから、各解析結果のスコア（正解となる確率）を計算し、そのスコアによってランキングを行なう。

［構文・意味解析ランキングモデル］
次に、本実施の形態のおける構文・意味解析ランキングモデル２３の機能を説明する。
構文・意味解析ランキングモデル２３は、データベース機能を有しており、各種素性を蓄積するだけでなく、構文・意味解析ランキングモデルを評価し、評価結果によって素性の作成や選択方法を変更するためのフィードバックを素性選択部１１Ｈや素性作成部１１Ｅ５に返す。

例えば、ツリーバンクＤＢ２１に格納されたツリーバンクを訓練データとテストデータに分け、訓練データによって学習した構文・意味解析ランキングモデルを元にして、テストデータを評価する。素性選択部１１Ｈによって、利用する素性、および、構文・意味解析ランキングモデルを変化させ、テストデータの評価結果、つまり、ツリーバンクで実際に正解とされた解析結果が機械学習部１２で正解と評価される割合がよりよくなるよう、素性の作成、選択方法を変更させる。例えば、上位カテゴリのレベルを様々に変化させ、最もよい評価結果を出すレベルを利用したり、Ｂ３のタイプの素性によって評価結果が悪くなる場合には、Ｂ３のタイプの素性は利用しない、などである。

これにより、機械学習部における評価結果を元に、素性の有効性を判断し、素性の作成や選択方法を変化させ、より効果的な素性の作成、選択を行ない、より精度の高い構文・意味解析ランキングモデルを作成することができる。

［構文・意味解析ランキング装置］
次に、図１３を用いて、本発明の第１の実施の形態にかかる構文・意味解析ランキングモデル作成装置によって作成した構文・意味解析ランキングモデルを用いた、構文・意味解析ランキング装置について説明する。図１３は、構文・意味解析ランキング装置の概略構成を示すブロック図である。

構文・意味解析ランキング装置３０は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語データからなる入力文３Ｘを取り込んで、構文・意味解析ランキングモデル２３を参照して、順位付けられた構文・意味解析解３Ｙ、あるいは各解析結果の正否を示す分類結果を出力する機能を有している。
この構文・意味解析ランキング装置３０には、主な機能部として、一般的な情報処理装置が持つ機能部以外に、言語解析器３１、構文・意味解析器３２、学習用素性作成部１１、および機械学習部１２が設けられている。

このうち、学習用素性作成部１１、および機械学習部１２は、構文・意味解析モデル作成装置１０のものと同等である。また、意味情報ＤＢ２２および構文・意味解析ランキングモデル２３についても、構文・意味解析モデル作成装置１０のものと同等である。
また、言語解析器３１は、一般的な形態素解析器やチャンカー等からなり、入力文３Ｘの形態素解析を行う形態素解析や語句区分調整を行う機能を有している。構文・意味解析器３２は、一般的な構文・意味解析器であり、言語解析器３１の解析結果に基づき入力文３Ｘの構文・意味解析を行う機能を有している。

構文・意味解析ランキング装置３０では、まず構文・意味解析の対象文を入力文３Ｘとし、言語解析器３１により基礎的な言語解析処理を行い、構文・意味解析器３２により、構文・意味解析を行なう。この時、解析結果の候補が複数得られた場合、素性作成部１１Ｅによって複数構文・意味解析解候補３３に対する素性を作成する。
その後、構文・意味解析モデル作成装置１０で予め作成しておいた構文・意味解析ランキングモデル２３により、各解析結果が正解かどうかの確率を計算し、確率の高い順に解析結果を並べ、順位付けられた構文・意味解析解３Ｙとして出力する。あるいは、各解析結果が正解か不正解かの分類を行ない、正解か不正解かの分類結果を付けて出力する。

ここで、この出力結果として得られた順位付けられた構文・意味解析解３Ｙは、この構文・意味解析結果を利用したい場合、最も正解の確率が高い解析結果を抽出して利用したり、正解の確率が高い上位いくつかの解析結果を利用したり、一定の閾値以上の確率の解析結果を利用したりなど、様々な利用方法が考えられる。

例えば、(4)「飛行機を操縦するテストパイロット。」の構文・意味解析を考えた場合、図１４および図１５に示すような、構文解析の候補と意味解析の候補が得られる。図１４は、構文解析の候補例である。図１５は、意味解析の候補例である。このように、入力文３Ｘに対する解析結果は複数あり、これらの解析結果のいずれが正しいかは、複数構文・意味解析解候補３３を出しただけの状態ではわからない。

これに対して、構文・意味解析ランキング装置３０において、複数構文・意味解析解候補３３の各解析結果に対し、素性作成部１１Ｅを通して素性を作成すると、例えば、図１５のＵ１−１−２から作成した素性には、正解データであるＴ１−１−２から作成した図１１の素性のうち、素性Ｃ５，Ｈ４−Ｈ７が含まれ、図１５のＵ１−１−１から作成した素性には、図１１の素性Ｈ６，Ｐ６が含まれる。

しかし、Ｕ１−１−１から作成した素性は、不正解データであるＴ１−１−１から作成した素性と同じものが多く含まれる。同様に、Ｕ１−２−１から作成した素性は、図１１の素性Ｃ５，Ｈ５，Ｐ５を含み、Ｕ１−２−２から作成した素性は、図１１のいずれの素性も含まない。また、Ｕ１−２−１やＵ１−２−２から作成した素性は、不正解データであるＴ１−２−１やＴ１−２−２から作成した素性と同じものが多く含まれる。不正解データから作成したパラメタは、負のパラメタが多く、正解データから作成したパラメタは、正のパラメタが多い。

したがって、正解となる確率を計算したとき、Ｕ１−１−１，Ｕ１−１−２，Ｕ１−２−１，Ｕ１−２−２のそれぞれの確率が、例えば、8.263206，20.586221，-0.0199882，-10.57533となったとすると、正解の確率が高い上位から順に、Ｕ１−１−２，Ｕ１−１−１，Ｕ１−２−１，Ｕ１−２−２と並び替えられた構文・意味解析解３Ｙが得られる。

［第１の実施の形態の効果］
このように、本実施の形態は、記憶部２により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報ＤＢ２２を予め記憶しておき、意味情報抽出部１１Ａにより、記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて記憶部から読み出した処理対象文から選択した対象語句について、記憶部２の意味情報ＤＢ２２を検索することにより、当該対象語句に関する意味情報を抽出し、素性作成部１１Ｅにより、意味情報抽出部１１Ａで抽出された意味情報に基づいて対象語句を展開することにより、構文・意味解析結果ランキングモデル２３の作成に用いる素性を作成するようにしたものである。

これにより、処理対象文の構文・意味解析結果とその正否を示す評価結果と、この解析結果に対応する意味情報があれば、この意味情報を用いて、字面ベースではなく意味ベースの統計モデルである構文・意味解析結果ランキングモデル２３を作成できる。したがって、字面ベースの統計モデルを用いて構文・意味解析結果をランキングする場合と比較して、高い精度でランキングを行なうことが可能となり、自然言語処理システム、情報検索システム、機械翻訳システムなどに極めて有用である。

また、本実施の形態では、構文情報抽出部１１Ｄにより、記憶部２から読み出した構文・意味解析結果から構文解析結果を抽出して構文情報として出力し、この構文情報に基づいて、素性作成部１１Ｅにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成するようにしたので、構文情報と意味情報の両方を用いた学習を行うことが可能となり、構文・意味解析結果ランキングモデル２３の精度を高めることができる。

また、本実施の形態では、意味情報ＤＢ２２として、処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス／オントロジーデータベースを用い、意味情報抽出部１１Ａにより、意味情報ＤＢ２２を検索することにより、対象語句の語義、または対象語句と所定の関係にある他の語句や意味カテゴリを、意味情報として抽出している。

したがって、対象語句の上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの意味情報を抽出することができる。このため、表層的な字面ベースや語義ベースの素性ではスパース過ぎる場合でも、統計モデルをスムージングして精度をあげることができる。また、この意味クラスや上位概念の粒度を調節することで、さらにスムージングの程度を調節して最適な粒度の統計モデルを構築できる。

［第２の実施の形態］
次に、図１６および図１７を参照して、本発明の第２の実施の形態にかかる構文・意味解析モデル作成装置について説明する。図１６は、本発明の第２の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図であり、前述した図１と同じまたは同等部分について同一符号を付してある。図１７は、本発明の第２の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図であり、前述した図２と同じまたは同等部分について同一符号を付してある。

第１の実施の形態では、学習用素性作成部１１において、意味情報ＤＢ２２から意味情報を抽出する場合を例として説明した。本実施の形態では、意味情報ＤＢ２２と構文意味情報辞書２４を検索して意味情報を抽出する場合について説明する。
本実施の形態にかかる構文・意味解析モデル作成装置には、第１の実施の形態と比較して、記憶部２に構文意味情報辞書２４が追加されているとともに、学習用素性作成部１１の意味情報抽出部１１Ａに構文意味情報抽出部１１Ｉが追加されている。なお、他の構成については第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

構文意味情報辞書２４は、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する辞書データベースであり、結合価辞書データベース（以下、結合価辞書ＤＢという）２３Ａ、代表語・典型語辞書データベース（以下、代表語・典型語辞書ＤＢという）２３Ｂ、用例付き格フレーム辞書データベース（以下、用例付き格フレーム辞書ＤＢという）２３Ｃのすべて、またはいずれか１つ以上から構成される。

結合価辞書ＤＢ２４Ａは、処理対象文の結合価辞書を蓄積するデータベースであり、格納されている辞書レコードには、少なくとも対象語句の見出し語、品詞、および結合価情報が含まれている。結合価情報とは、共起する語（主に用言）と語（主に名詞）や句（主に名詞句）の条件を記述したものである。
代表語・典型語辞書ＤＢ２４Ｂは、処理対象文の代表語辞書や典型語辞書を蓄積するデータベースであり、その辞書レコードには、少なくとも対象語句の見出しおよびその品詞、該見出し語と共起しやすい語（主に名詞）や句（主に名詞句）に関する情報が含まれている。
用例付き格フレーム辞書ＤＢ２４Ｃは、処理対象文の用例付き格フレーム辞書を蓄積するデータベースであり、格納されている格フレーム辞書には、少なくとも対象語句の見出しおよびその品詞、該見出し語と実際に共起した語や句の用例に関する情報が含まれている。

構文意味情報抽出部１１Ｉは、意味付与部１１Ｂや語義付与部１１Ｃで得られた、対象語句と他の語句との関係、対象語句の上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの関係に関する構文意味情報を、構文意味情報辞書２４から抽出し、意味情報として出力する機能を有している。

図１８は、結合価辞書のエントリ例である。結合価辞書ＤＢ２４Ａは、処理対象文を日本語とすると、例えば、ＡＬＴ−ＪＩＥのパターン対辞書（ＮＴＴ、「日英機械翻訳技術１、NTT R&D vol.46, pp107-141, 1997）の日本語側や、ＩＰＡＬ（情報処理振興事業協会、「計算機用日本語基本動詞辞書IPAL(Basic Verbs)」、解説編＆辞書編、1987）、ＥＤＲ電子化辞書（日本電子化辞書研究所、http://www.iijnet.or.jp/edr/J_index.html）などが存在する。

図１８に示すように、処理対象文の結合価辞書エントリとしては、少なくとも見出しとその品詞および、格フレーム情報が登録されている。例えば、処理対象文の結合価辞書エントリＰＩＤ１には、見出し「運転する」とその品詞「さ変名詞」、および、格フレーム情報「Ｎ１がＮ２を運転する」が登録されている。ここで、Ｎ１およびＮ２は、名詞あるいは名詞句を示している。

さらに、図１８では、選択制限＜人＞や＜乗物＞の情報も登録されている。選択制限は、当該格フレームのＮ１やＮ２として当てはまる、名詞あるいは名詞句の条件を定義している。
また、図１８では、見出し「運転する」の結合価辞書エントリとして、ＰＩＤ１の他にＰＩＤ２が登録されている。

図１９は、代表語・典型語辞書のエントリ例である。代表語／典型語辞書は、処理対象文を日本語とすると、例えば、秋葉らの代表的語彙（"Interactive Generalization of a Translation Example Using Queries Based on a Semantic Hierarchy", Yasuhiro Akiba, Hiromi Nakaiwa, Satoshi Shirai and Yoshi-fumi 0oyama, in ICTAI-00, pp.326-332, 2000.）や、成山らの代表語（"Extracting Representative Arguments from Dictionaries for Resolving Zero Pronouns", Shigeko Nariyama, Eric Nichols, Francis Bond, Takaaki Tanaka, Hiromi Nakaiwa. in Machine Translation Summit X, Phuket, pp.3-10, 2005.）などがある。

図２０は、用例付き格フレームのエントリ例である。用例付き格フレーム辞書は、処理対象文を日本語とすると、例えば、Ｗｅｂ格フレーム（http://www.kc.tu-tokyo.ac.jp/c/dehverables.html）などがある。

図１９や図２０に示したように、代表語／典型語辞書や用例付き格フレーム辞書には、結合価辞書と同様、少なくとも処理対象文の見出しとその品詞および、格フレーム情報などの、語句間の関係が登録されている。図１９の場合、ある見出し語の項が典型的にとることが多い語やその意味カテゴリ、あるいはその項に入りやすい代表的な語のような情報が格納されている。図２０の場合、新聞データやＷｅｂデータから獲得した格フレーム構造と各格に出現した語やその意味カテゴリなどの情報が格納されている。

これらの例では、見出しは動詞であったが、必ずしも動詞である必要はなく、形容詞や項を取る名詞などでもよい。また、これらの例では見出し等は単語であったが、必ずしも単語である必要はなく、複合語など、複数の単語を含んでいてもよい。
また、結合価辞書ＤＢ２４Ａ，代表語・典型語辞書ＤＢ２４Ｂ，用例付き格フレーム辞書ＤＢ２４Ｃに格納される辞書は、それぞれ１つである必要はなく、複数の辞書を格納してもよく、例えばＡＬＴ−Ｊ／Ｅの結合価辞書とＩＰＡＬの両方を格納することが考えられる。また、結合価辞書，代表語／典型語辞書，用例付き格フレーム辞書のいずれかが存在しなくても構わない。

［第２の実施の形態の動作］
次に、図３を参照して、本発明の第２の実施の形態にかかる構文・意味解析モデル作成装置の動作について説明する。
本実施の形態におけるモデル作成処理は、図３に示した第１の実施の形態のものとほぼ同様であるが、ステップ１０１，１０２において次のような相違がある。

第１の実施の形態では、図３のステップ１０１において、学習用素性作成部１１は、意味情報抽出部１１Ａの意味付与部１１Ｂや語義付与部１１Ｃにより、構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき処理対象文またはその処理対象文から選択した対象語句について意味情報ＤＢ２２を検索することにより、対象語句に関する意味情報を抽出している。

本実施の形態では、このステップ１０１において、さらに、構文意味情報抽出部１１Ｉにより、意味付与部１１Ｂや語義付与部１１Ｃで得られた、対象語句と他の語句との関係、対象語句の上位語や同義語、意味カテゴリ、上位の意味カテゴリなどの関係に関する構文意味情報を、構文意味情報辞書２４から抽出し、意味情報として出力する。

この際、構文意味情報抽出部１１Ｉは、処理対象文で用いられている語の情報が、結合価辞書，代表語／典型語辞書，用例付き格フレームのエントリとして登録されていれば、該エントリを抽出する。

例えば、図６の処理対象文Ｔ１：「車を運転する人」を考えた場合、この処理対象文で用いられている語の情報は、構文意味情報辞書２４のうち、図１８のＰＩＤ１、図１９のＲＩＤ２、図２０のＣＩＤ１と一致する。
すなわち、図１８において、見出し語である「運転する（１品詞］さ変名詞）」に一致するエントリは、ＰＩＤ１とＰＩＤ２があるが、図１０から、Ｔ１の「人」「車」は、それぞれ意味カテゴリ＜人＞，＜乗り物（陸）＞に一致するため、ＰＩＤ１の方がより適切なエントリであるとわかる。

ここで、一致するエントリを抽出する条件として、見出し語と品詞が一致するエントリと見出し語のみが一致するエントリのうち、さらに選択制限に一致する、あるいは選択嗜好に一致する、エントリに登録されたすべての項を満たす、一部の項を満たす、などのさまざまな条件が考えられる。また、それぞれの一致の仕方によって、コストを与え、最もコストの良いエントリを抽出する、あるいはコストの良いエントリを複数利用して最も効果的なエントリを探す、などの方法が考えられる。

また、本実施の形態では、図３のステップ１０２において、素性作成部１１Ｅの意味的素性作成部１１Ｆでは、構文意味情報抽出部１１Ｉで抽出された構文意味情報を含む意味情報を意味情報抽出部１１Ａから受け取った場合、次のような方法で素性を作成する。図２１は、意味的素性作成処理の実行結果例である。
まず、図１０の意味情報と、図１１のＰＩＤ１、図１２のＲＤ２、図１３のＣＩＤ１からなる構文意味情報のそれぞれに共通して一致するエントリを選択する方法がある。この場合、図２１における素性Ｐ０，Ｒ０，Ｙ０が選択される。
また、結合価辞書，代表語／典型語辞書，用例付き格フレームのそれぞれに一致するエントリを選択してもよく、この場合には図２１の素性Ｐ１，Ｒ１，Ｙ１が選択される。

この他、それぞれの項（格）に一致するのは、どういった語（人、車）か、どういった意味カテゴリ（＜人＞，＜乗り物＞）かという検索を行う方法によれば、図２１の素性Ｐ４が選択される。
また、どの項（格）に一致／不一致なのかという検索を行う方法では、図２１の素性Ｐ３，Ｐ５，Ｐ６（一致））、素性Ｙ５（不一致）が選択される。
また、一致したときのＳＣ０ＲＥを入れる方法では、図２１の素性Ｐ７が選択され、そのＳＣ０ＲＥが高いか低いかの情報を入れる方法では、図２１の素性Ｐ８が選択され、一致したときの用例の出現頻度が高いか低いかを検索する方法では、図２１の素性Ｙ０−Ｙ４，Ｙ６−Ｙ８が選択される。

図２１の情報以外にも、品詞によって素性を置き換えたり、組み合わせたりと、様々な素性の作成方法が考えられる。但し、図２１のすべての素性を作成する必要はなく、結合価辞書が存在しなければ結合価辞書を利用した素性（Ｐ０−Ｐ８）は作らないなど、様々な方法が考えられる。

ここで、作成した素性を利用する場合の効果として、構文意味情報辞書２４を利用する場合の効果を示す。
例えば、(5)「私は階段を誤って踏み外した。」を考えた場合、(5)の解析結果では、「階段を」が、「誤る」にかかるのか、「踏み外す」にかかるのかという曖昧性が出る。図１８のＰＩＤ３，ＰＩＤ４から、「階段を」が「誤る」にかかるとすると、ＰＩＤ３のＮ１は一致するが、Ｎ２には全く一致しない。一方、「踏み外す」なら、ＰＩＤ４のＮ１、Ｎ２の両方に一致する素性を作成でき、より確からしい素性を作成できる。

［第２の実施の形態の効果］
このように、本実施の形態では、記憶部２により、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書２４を予め記憶しておき、意味情報抽出部１１Ａにより、対象語句について構文意味情報辞書を検索することにより当該対象語句の構文意味情報を意味情報として抽出するようにしたので、既存の構文辞書の情報を流用でき、効率的に構文・意味解析システムの精度をあげることができる。

本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図である。本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図である。本発明の第１の実施の形態にかかる構文・意味解析モデル作成装置のモデル作成処理を示すフローチャートである。構文解析結果の例である。構文・意味解析結果の例である。センスバンクＤＢに格納された処理対象文の語義付与情報の例である。センスバンクＤＢに格納された処理対象文への語義付与の基準となる辞書のエントリの例である。シソーラス／オントロジーＤＢに格納された処理対象文のシソーラス／オントロジーの例である。シソーラス／オントロジーの意味カテゴリに含まれる語の例である。意味情報抽出処理の実行結果例である。意味的素性作成処理の実行結果例である。機械学習処理の実行結果例である。構文・意味解析ランキング装置の概略構成を示すブロック図である。構文解析の候補例である。意味解析の候補例である。本発明の第２の実施の形態にかかる構文・意味解析モデル作成装置の構成を示すブロック図である。本発明の第２の実施の形態にかかる構文・意味解析モデル作成装置の要部を示すブロック図である。結合価辞書のエントリ例である。代表語・典型語辞書のエントリ例である。用例付き格フレームのエントリ例である。意味的素性作成処理の実行結果例である。

符号の説明

１０…構文・意味解析モデル作成装置、１…演算処理部、１１…学習用素性作成部、１２…機械学習部、２…記憶部、２０…プログラム、２１…ツリーバンクＤＢ、２２…意味情報ＤＢ、２２Ａ…センスバンクＤＢ２２Ｂ…シソーラス・オントロジーＤＢ、２３…構文・意味解析ランキングモデル、２４…構文意味情報辞書、２４Ａ…結合価辞書ＤＢ、２４Ｂ…代表語・典型語辞書ＤＢ、２４Ｃ…用例付き格フレーム辞書ＤＢ、３…入出力Ｉ／Ｆ部、４…通信Ｉ／Ｆ部、５…操作入力部、６…画面表示部、Ｘ…ツリーバンクＤＢ、Ｙ…構文・意味解析ランキングモデル、Ｍ…記録媒体、３０…構文・意味解析ランキング装置、３１…言語解析器、３２…構文・意味解析器、３３…構文・意味解析解候補、３Ｘ…入力文、３Ｙ…構文・意味解析解。

Claims

自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成方法であって、
記憶部により、自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶ステップと、
意味情報抽出部により、前記記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づき前記記憶部から読み出した処理対象文またはその処理対象文から選択した対象語句について、前記記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出ステップと、
素性作成部により、前記意味情報抽出部で抽出された意味情報に基づいて前記対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成ステップと
を備えることを特徴とする構文・意味解析結果ランキングモデル作成方法。
請求項１に記載の構文・意味解析結果ランキングモデル作成方法において、
構文情報抽出部により、前記記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出ステップをさらに備え、
前記素性作成ステップにより、前記構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する
ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
請求項１に記載の構文・意味解析結果ランキングモデル作成方法において、
前記意味情報データベースは、前記処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス／オントロジーデータベースからなり、
前記意味情報抽出ステップにより、前記意味情報データベースを検索することにより、前記対象語句の語義、または前記対象語句と所定の関係にある他の語句や意味カテゴリを、前記意味情報として抽出する
ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
請求項１に記載の構文・意味解析結果ランキングモデル作成方法において、
前記記憶部により、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶する記憶ステップをさらに備え、
前記意味情報抽出ステップにより、前記対象語句について前記構文意味情報辞書を検索することにより当該対象語句の構文意味情報を前記意味情報として抽出する
ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
請求項４に記載の構文・意味解析結果ランキングモデル作成方法において、
前記構文意味情報辞書は、前記対象語句の結合価情報を蓄積する結合価辞書、前記対象語句の代表語あるいは典型語を蓄積する代表語／典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか１つ以上の辞書からなり、
前記意味情報抽出ステップにより、前記構文意味情報辞書を検索することにより、前記対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか１つ以上を、前記意味情報として抽出する
ことを特徴とする構文・意味解析結果ランキングモデル作成方法。
自然言語データからなる処理対象文とその構文・意味解析結果とその正否を示す評価結果との組から作成した素性を機械学習することにより、自然言語に対する解析結果を自動的にランキングするための構文・意味解析結果ランキングモデルを作成する構文・意味解析結果ランキングモデル作成装置であって、
自然言語データからなる処理対象文とその構文・意味解析結果とその解析結果の正否を示す評価結果との組を記憶するとともに、各種語句に関する意味を示す意味情報を蓄積する意味情報データベースを記憶する記憶部と、
前記記憶部から読み出した構文・意味解析結果から意味解析結果を抽出し、この意味解析結果に基づいて前記記憶部から読み出した処理対象文から選択した対象語句について、前記記憶部の意味情報データベースを検索することにより、当該対象語句に関する意味情報を抽出する意味情報抽出部と、
前記意味情報抽出部で抽出された意味情報に基づいて前記対象語句を展開することにより、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する素性作成部と
を備えることを特徴とする構文・意味解析結果ランキングモデル作成装置。
請求項６に記載の構文・意味解析結果ランキングモデル作成装置において、
前記記憶部から読み出した構文・意味解析結果から構文解析結果を抽出し、構文情報として出力する構文情報抽出部をさらに備え、
前記素性作成部は、前記構文情報抽出部から出力された構文情報に基づいて、構文・意味解析結果ランキングモデルの作成に用いる素性を作成する
ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
請求項６に記載の構文・意味解析結果ランキングモデル作成装置において、
前記意味情報データベースは、前記処理対象文の各対象語句に対する語義付与結果を蓄積するセンスバンクデータベース、または互いに所定の関係にある各種語句や意味カテゴリを蓄積するシソーラス／オントロジーデータベースからなり、
前記意味情報抽出部は、前記意味情報データベースを検索することにより、前記対象語句の語義、または前記対象語句と所定の関係にある他の語句や意味カテゴリを、前記意味情報として抽出する
ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
請求項６に記載の構文・意味解析結果ランキングモデル作成装置において、
前記記憶部は、各種語句ついて当該語句が用いられる構文ごとに当該語句の意味を示す構文意味情報を蓄積する構文意味情報辞書を記憶し、
前記意味情報抽出部は、前記対象語句について前記構文意味情報辞書を検索することにより当該対象語句の構文意味情報を前記意味情報として抽出する
ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
請求項９に記載の構文・意味解析結果ランキングモデル作成装置において、
前記構文意味情報辞書は、前記対象語句の結合価情報を蓄積する結合価辞書、前記対象語句の代表語あるいは典型語を蓄積する代表語／典型語辞書、または対象語句の用例付き格フレームを蓄積する用例付き格フレーム辞書のうちいずれか１つ以上の辞書を記憶し、
前記意味情報抽出部は、前記構文意味情報辞書を検索することにより、前記対象語句の結合価情報、代表語、典型語、または用例付き格フレームのうちのいずれか１つ以上を、前記意味情報として抽出する
ことを特徴とする構文・意味解析結果ランキングモデル作成装置。
コンピュータに、請求項１に記載の構文・意味解析結果ランキングモデル作成方法の各ステップを実行させるためのプログラム。
請求項１１に記載のプログラムが記録された記録媒体。