JP5220676B2

JP5220676B2 - 能動学習装置及び方法

Info

Publication number: JP5220676B2
Application number: JP2009094374A
Authority: JP
Inventors: 学颯々野
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2008-11-20
Filing date: 2009-04-08
Publication date: 2013-06-26
Anticipated expiration: 2029-04-08
Also published as: JP2010152858A

Description

本発明は、能動学習装置及び方法に関する。特に、自然言語処理における能動学習装置及び方法に関する。

自然言語処理は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術である。その中で、日本語を処理する基礎技術としては、言語で意味を持つ最小単位である形態素に文を分割する形態素解析、文の文法的な関係を解析する構文解析、文中の単語の語義を判断する語義の曖昧性解消等があり、研究されている。

このように研究されている日本語の構文解析のなかで、文節の係り関係を解析する日本語係り受け解析の精度のよい手法として、非特許文献１が知られている。非特許文献１には、コンピュータが正解データに基づいて日本語の係り受け解析を行う方法が記載されている。また、解析の精度を向上させる方法として、例えば、非特許文献２には、確率モデルに基づく英語の解析での能動学習について記載されている。

颯々野学（２００７．１．）"日本語係り受け解析の線形時間アルゴリズム"，自然言語処理，ｖｏｌ１４Ｎｏ．１，ｐｐ．３−１８ＭｉｎＴａｎｇ，ＸｉａｏｑｉａｎｇＬｕｏ，ａｎｄＳａｌｉｍＲｏｕｋｏｓ．２００２． "ＡｃｔｉｖｅｌｅａｒｎｉｎｇｆｏｒＳｔａｔｉｓｔｉｃａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＰａｒｓｉｎｇ，" ＡＣＬ２００２，ｐｐ．１２０ − １２７．

しかしながら、非特許文献１の方法は、一定量の正解データが前提となっている。このような正解データを作為なくランダムに、コンピュータに与える方式である受動学習では多大な人手コストがかかる。このような多大な人手コストを抑える方法として、コンピュータが正解データを学習していく能動学習があるが、非特許文献１には、適用できる能動学習の方法は提案されていない。また、非特許文献２の能動学習は、英語の解析についてであり、文法が英語とも異なり、解析アルゴリズムの違う日本語の係り受け解析には適用できない。

そこで、人手コストをかけずに、日本語係り受け解析について高い精度が得られる能動学習装置が望まれている。

本発明は、日本語係り受け解析において、受動学習の場合よりも、より少ない人手コストで高い精度が得られる能動学習装置及び方法を提供することを目的とする。

本発明では、以下のような解決手段を提供する。

（１）日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する能動学習装置であって、前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するモデル作成手段と、一の文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力する係り受け解析手段と、前記係り受け解析手段が出力した解析結果が所定の場合に前記一の文を選択する選択手段と、前記選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報を前記ユーザ端末から受け付ける正解受付手段と、前記受け付けた判定情報に基づく正解データを正解事例データに追加する正解事例追加手段と、を備え、前記モデル作成手段は、前記追加された正解事例データに基づいて前記係り関係モデルを更新することを特徴とする能動学習装置。

（１）の構成によれば、本発明に係る能動学習装置は、日本語を構成する文節の係り関係を明確にしたデータを集めた正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶する。すなわち、ここでいう係り関係モデルとは、文節の係り関係を判定するための判定情報（例えば、文節間の特徴量と評価値の組）を指している。そして、本発明に係る能動学習装置は、一の文を係り関係モデルを用いて係り受け解析を行い、解析結果を出力し、出力した解析結果が所定の場合に一の文を選択し、選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報をユーザ端末から受け付け、受け付けた判定情報に基づく正解データを正解事例データに追加し、追加された正解事例データに基づいて係り関係モデルを更新する。

すなわち、本発明に係る能動学習装置は、正解事例データに基づいて、係り関係モデルを作成し、作成した係り関係モデルを用いて一の文を選択し、選択した文から作成した正解データを正解事例データに追加し、追加された正解事例データに基づいて係り関係モデルを更新する。このように、係り関係モデルを用いて選択された一の文は、本発明に係る能動学習装置にとって文節の係り関係を決めるのが難しい文であるので、その文節の係り関係を明確にした正解データを正解事例データに追加することによって、同様の文を解析できるように更新された係り関係モデルを作成することができ、係り受け解析の精度を上げることができる。したがって、本発明に係る能動学習装置は、日本語係り受け解析において、係り関係モデルを用いて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。

（２）前記係り受け解析手段は、前記係り関係モデルを用いるサポートベクトルマシンの出力を前記係り受け解析の解析結果として出力することを特徴とする（１）に記載の能動学習装置。

（２）の構成によれば、本発明に係る能動学習装置は、係り関係モデルを用いるサポートベクトルマシンの出力を係り受け解析の解析結果として出力する。したがって、本発明に係る能動学習装置は、日本語係り受け解析において、係り関係モデルを用いるサポートベクトルマシンの出力に基づいて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。

（３）前記係り関係モデルは、文節の係り関係を判定するために、文節間の特徴量と評価値との組を用いることを特徴とする（１）又は（２）に記載の能動学習装置。

（３）の構成によれば、本発明に係る能動学習装置は、係り関係モデルに文節間の特徴量と評価値との組を用いるので、日本語係り受け解析において、受動学習の場合よりも、高い精度が得られる。

（４）前記所定の場合は、前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が最も小さい場合であることを特徴とする（１）乃至（３）のいずれかに記載の能動学習装置。

（４）の構成によれば、（１）乃至（３）のいずれかに記載の能動学習装置は、係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、評価値が最も小さい場合に一の文を選択する。したがって、本発明に係る能動学習装置は、係り関係が曖昧な文を優先して正解データとするので、受動学習の場合よりも、より少ない人手コストで高い精度を得ることができる。

（５）文節のペアを構成する第１の文節及び第２の文節と、前記正解受付手段が受け付けた第３の文節とにおいて、前記第１の文節の識別情報（文中での順番を表す識別番号）が前記第２の文節の前記識別情報より小さい場合であって、前記正解事例追加手段は、前記第１の文節及び前記第２の文節と前記第３の文節との位置関係により下記（イ）、（ロ）又は（ハ）のいずれかの手順によって正解データを作成し、作成した前記正解データを正解事例データに追加する、ことを特徴とする（１）乃至（４）のいずれかに記載の能動学習装置。
（イ）前記第３の文節の前記識別情報が、前記第２の文節の前記識別情報より大きい場合は、前記第１の文節が前記第２の文節に係らないことを示す正解データを作成し、かつ、前記第１の文節が前記第３の文節に係ることを示す正解データを作成する。
（ロ）前記第３の文節の前記識別情報が、前記第２の文節の前記識別情報に等しい場合は、前記第１の文節が前記第３の文節に係ることを示す正解データを作成する。
（ハ）前記第３の文節の前記識別情報が、前記第１の文節の前記識別情報より大きく前記第２の文節の識別情報より小さい場合は、前記第１の文節が前記第３の文節に係ることを示す正解データを作成し、かつ、前記第１の文節が前記第２の文節に係らないことを示す正解データを作成しない。

（５）の構成によれば、（１）乃至（４）のいずれかに記載の能動学習装置は、文節のペアを構成する第１の文節及び第２の文節と、正解受付手段が受け付けた第３の文節とにおいて、第１の文節の前記識別情報が第２の文節の前記識別情報より小さい場合であって、正解事例追加手段は、第１の文節及び第２の文節と第３の文節との位置関係により下記（イ）、（ロ）又は（ハ）のいずれかの手順によって正解データを作成し、作成した正解データを正解事例データに追加する。
（イ）第３の文節の前記識別情報が、第２の文節の前記識別情報より大きい場合は、第１の文節が第２の文節に係らないことを示す正解データを作成し、かつ、第１の文節が第３の文節に係ることを示す正解データを作成する。
（ロ）第３の文節の前記識別情報が、第２の文節の前記識別情報に等しい場合は、第１の文節が第３の文節に係ることを示す正解データを作成する。
（ハ）第３の文節の前記識別情報が、第１の文節の前記識別情報より大きく第２の文節の前記識別情報より小さい場合は、第１の文節が第３の文節に係ることを示す正解データを作成し、かつ、第１の文節が第２の文節に係らないことを示す正解データを作成しない。

すなわち、本発明に係る能動学習装置は、正解データとして受け付けた第３の文節が、係り元の第１の文節と、能動学習装置１０が係り先の文節であると判定した第２の文節との間に位置する場合は、第１の文節が第２の文節に係らないことを示す正解データを作成しない。したがって、本発明に係る能動学習装置は、正解データとして入力された係り先の文節までの文節について、作成した正解データを正解事例データに追加し、追加した正解事例データに基づいて係り関係モデルを更新することができるので、正解データとして入力された係り先の文節の後ろの文節までも、係らないという正解データを作成し、必要としていない事例までも追加してしまう場合と比較して、更に、係り受け解析の精度を向上させることができる。

（６）前記（イ）、（ロ）又は（ハ）の各々の手順において、前記正解データを作成すると共に、前記第３の文節の直前の文節の前記識別情報が前記第１の文節の前記識別情報より大きい場合に、前記第３の文節の直前の文節が前記第３の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データに追加する、ことを特徴とする（５）に記載の能動学習装置。

（６）の構成によれば、（５）に記載の能動学習装置は、（５）の（イ）、（ロ）又は（ハ）の各々の手順において、正解データを作成すると共に、第３の文節の直前の文節の前記識別情報が第１の文節の前記識別情報より大きい場合に、第３の文節の直前の文節が第３の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データに追加する。

すなわち、本発明に係る能動学習装置は、（５）の（イ）、（ロ）又は（ハ）の各々の手順において、正解データを作成すると共に、第３の文節の直前の文節が第３の文節に係ることを示す正解データを正解事例データに追加するので、係り関係は交差しないという日本語の特徴を反映し、正解事例の数を増やすことができる。したがって、更に、係り受け解析の精度を向上させることができる。

（７）前記選択手段は、文節のペアについて前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が小さい順に前記文節のペアを選択し、前記正解受付手段は、前記選択手段が選択した前記文節のペアをユーザ端末に提示し、提示した前記文節のペアの係り関係ごとに、正しい係り先文節の情報を前記ユーザ端末から受け付ける、ことを特徴とする請求項（１）乃至（６）のいずれかに記載の能動学習装置。

（７）の構成によれば、（１）乃至（６）のいずれかに記載の能動学習装置は、文節のペアについて出力した解析結果としての評価値を順次比較した中で、評価値が小さい順に文節のペアを選択し、選択した文節のペアをユーザ端末に提示し、提示した文節のペアの係り関係ごとに、正しい係り先文節の情報をユーザ端末から受け付ける。したがって、本発明に係る能動学習装置は、１文を構成する全ての文節の係り関係についてではなく、文節のペアについての係り関係の評価値が小さい、すなわち文節の係り関係が曖昧な文節のペアについて正しい係り先文節の情報を受け付けるので、１文を構成する全ての文節の係り関係について正しい係り先文節の情報を受け付ける場合よりも、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明に係る能動学習装置は、文節の係り関係を高い精度で判定することができる。

（８）前記提示において、前記正解受付手段は、前記文節のペアを含む文について、文節の係り関係を示す表示をし、前記文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた該情報に基づいて前記文節の係り関係を示す表示を改めて表示する、ことを特徴とする（７）に記載の能動学習装置。

（８）の構成によれば、（７）に記載の能動学習装置は、選択した文節のペアをユーザ端末に提示する際に、文節のペアを含む文について、文節の係り関係を示す表示をし、選択した文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた情報に基づいて文節の係り関係を示す表示を改めて表示する。したがって、本発明に係る能動学習装置は、文節の係り関係が曖昧な文節のペアについて、正しい係り先文節の情報についてユーザが容易に判断でき、正しい係り先文節の情報を容易に入力できる表示をするので、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明に係る能動学習装置は、文節の係り関係を高い精度で判定することができる。

（９）日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する方法であって、前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するステップと、一の文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力するステップと、前記係り受け解析手段が出力した解析結果が所定の場合に前記一の文を選択するステップと、前記選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報を前記ユーザ端末から受け付けるステップと、前記受け付けた判定情報に基づく正解データを正解事例データに追加するステップと、前記追加された正解事例データに基づいて前記係り関係モデルを更新するステップと、を備えることを特徴とする方法。

（９）の構成によれば、本発明に係る方法は、文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、一の文を係り関係モデルを用いて係り受け解析を行い、解析結果を出力し、出力した解析結果が所定の場合に一の文を選択し、選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報をユーザ端末から受け付け、受け付けた判定情報に基づく正解データを正解事例データに追加し、追加された正解事例データに基づいて係り関係モデルを更新する。したがって、本発明に係る方法は、日本語係り受け解析において、係り関係モデルを用いて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。

本発明によれば、日本語係り受け解析において、受動学習の場合よりも、より少ない人手コストで高い精度が得られる能動学習装置及び方法を提供することができる。

更に、本発明によれば、日本語係り受け解析において、訓練事例の１文を構成する全ての文節の係り関係についてではなく、一部の文節の係り関係について正解データを受け付けることで、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明によれば、受動学習の場合よりも文節の係り関係を高い精度で判定する能動学習装置及び方法を提供することができる。

本発明の一実施形態に係る能動学習装置１０の特徴を示す機能ブロック図である。本発明の一実施形態に係る能動学習装置１０の機能を示す機能ブロック図である。本発明の一実施形態に係る能動学習装置１０のハードウェア構成の一例を示す図である。本発明の一実施形態に係る正解事例データＤＢ４１を示す図である。本発明の一実施形態に係る係り関係モデルＤＢ３１の一つの例を示す図である。本発明の一実施形態に係る係り受け解析結果ＤＢ３２を示す図である。本発明の一実施形態に係る能動学習装置１０の処理内容を示すフローチャートである。本発明の一実施形態に係る能動学習装置１０が正解データを作成するためにユーザ端末６０に表示する例を示す図である。本発明の一実施形態に係る能動学習装置１０の実験結果を示す図である。本発明の一実施形態に係る実施例２の、文節のペアの選択を示す図である。本発明の一実施形態に係る能動学習装置１０の実施例２の処理内容を示すフローチャートである。本発明の一実施形態に係る能動学習装置１０が正解データを作成するためにユーザ端末６０に表示する実施例２の例を示す図である。図１２に続く例を示す図である。本発明の一実施形態に係る実施例２の正解事例データＤＢ４１を示す図である。本発明の一実施形態に係る能動学習装置１０の実施例２の実験結果を示す図である。本発明の一実施形態に係る能動学習装置１０の実施例２の別の実験結果を示す図である。

以下、本発明の実施形態について図を参照しながら説明する。

［実施例１］
図１は、本発明の一実施形態に係る能動学習装置１０の特徴を示す機能ブロック図である。

能動学習装置１０は、モデル作成手段としてモデル作成部１１と、係り関係モデルとして係り関係モデルＤＢ３１と、係り受け解析手段として係り受け解析部１２と、選択手段として選択部１３と、正解受付手段として正解受付部１４と、正解事例追加手段として正解事例追加部１５と、正解事例データＤＢ４１とを備えている。

モデル作成部１１は、文節の係り関係の正解事例データを記憶する正解事例データＤＢ４１に基づいて、文節の係り関係を判定する係り関係モデルを作成し、係り関係モデルＤＢ３１に記憶する。正解事例データＤＢ４１は、文節の係り関係を明確にしたデータを集めて、記憶している。ここで、日本語の構文的特徴として多くの場合、次のことが仮定できる。すなわち、文節は、１個以上の内容語とそれに続く０個以上の機能語から構成される。日本語では、文末の文節を除いて、全ての文節は必ず１つの係り先を持つ。また、係り先となる文節は、必ず係り元の文節の右側に位置する。

係り関係モデルＤＢ３１は、正解事例データＤＢ４１に基づいて作成した、文節の係り関係を判定するための判定情報を記憶している。すなわち、正解事例データＤＢ４１に基づいて、文節間の係り関係を特徴付ける素性を評価するパラメータの値を記憶している。例えば、２文節に関係する形態的、文法的情報を素性のベクタとして表現した場合に、そのベクタによって係るか否かを評価するためのパラメータ（例えば、文節間の特徴量と評価値の組）を記憶している。ここで、素性には、（１）概ね文節内の最も右の内容語に相当する主辞の品詞等、（２）概ね文節内の最も右の機能語に相当する語形の品詞等、（３）句読点、（４）開き括弧及び閉じ括弧、（５）文の先頭か末尾か、等のようなものが考えられる。

係り受け解析部１２は、一の文を係り関係モデルＤＢ３１を用いて係り受け解析を行い、解析結果を出力する。一の文は、文節の係り関係がまだ明確にされていない新たな事例である。係り受け解析部１２は、その文を形態素に分割し、文節にまとめ上げ、文節間の係り関係を解析する。文節間の係り関係は、係り関係モデルＤＢ３１に記憶されている、文節間の係り関係を特徴付ける素性を評価するパラメータを用いて解析される。

選択部１３は、係り受け解析部１２が出力した解析結果が所定の場合に一の文を選択する。すなわち、選択部１３は、一の文の係り受け解析の結果を判定し、能動学習装置１０にとって文節の係り関係を決めるのが難しい文であると判断すると、その文を選択する。

正解受付部１４は、選択部１３が選択した一の文をユーザ端末６０に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報をユーザ端末６０から受け付ける。判定情報は、例えば、文節の係り関係が正解である場合には正解である旨の情報であり、不正解の場合には正しい係り関係を明確にした情報である。正解受付部１４は、例えば、提示した文について人手を介して、あるいは他の適当な方法により入力した文節の正しい係り関係についての判定情報を受け付ける。

正解事例追加部１５は、正解受付部１４が受け付けた判定情報に基づく正解データを正解事例データＤＢ４１に追加する。正解データは、一の文を構成する文節の係り関係を明確にしたデータである。そして、この追加により、モデル作成部１１は、追加された正解事例データＤＢ４１に基づいて係り関係モデルＤＢ３１を更新する。

図２は、本発明の一実施形態に係る能動学習装置１０の機能を示す機能ブロック図である。図２では、図１における解析部１２を、ＳＶＭ２１（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）と、ＳＤＡ（ＳｔａｃｋＤｅｐｅｎｄｅｎｃｙＡｎａｌｙｓｉｓ）解析部２２とで構成し、新たな文を事例データ４２から取得する。

正解事例データＤＢ４１には、例えば、「僕が彼女にあの本をあげた」という文について、文節の係り関係を明確にした、例えば、僕が［４］彼女に［４］あの［３］本を［４］あげた［―］という正解データが集められている（後述する図４）。ここで、文節ＩＤは０から始まり、［］の中の数字は係り先の文節ＩＤを示している。すなわち、「僕が」は文節ＩＤ０であり、「あげた」は文節ＩＤ４であって、僕が［４］は係り元の文節ＩＤ０「僕が」が、係り先の文節ＩＤ４「あげた」に係ることを示している。

モデル作成部１１は、このような正解事例データＤＢ４１に基づいて、文節間の係り関係を特徴付ける素性を評価するパラメータの値を作成し、係り関係モデルＤＢ３１に記憶する（後述する図５参照）。例えば、文頭の文節が文末の文節に係るか否か、「内容語＋が」の構成をしている文節が文末の文節に係るか否か、「あの」等の指示語が直後の文節に係るか否か等を評価するためのパラメータを記憶している。

係り受け解析部１２のＳＤＡ解析部２２は、新たな文を取得し、例えば、「僕も彼女にあの本をあげた」という文について、「僕」、「も」、「彼女」、「に」、「あの」、「本」、「を」、「あげた」という形態素に分割し、文節ＩＤ０「僕も」、文節ＩＤ１「彼女に」、文節ＩＤ２「あの」、文節ＩＤ３「本を」、文節ＩＤ４「あげた」の文節にまとめ上げ、２文節に関係する素性のベクタとして表現する。そして、ＳＤＡ（ＳｔａｃｋＤｅｐｅｎｄｅｎｃｙＡｎａｌｙｓｉｓ）方式（スタック依存関係解析）により、係り関係モデルＤＢ３１を用いてＳＶＭ２１に、係り元文節が係り先候補文節に係るか否かを判断させる。

ＳＤＡ方式では、例えば、文節ＩＤ０「僕が」をスタックに積み、スタックから降ろした文節ＩＤ０「僕が」と、次の文節ＩＤ１「彼女に」との係り関係をＳＶＭにより判定し、係り関係ではないので、文節ＩＤ０「僕が」と次の文節ＩＤ１「彼女に」とをスタックに積む。同様に、スタックから降ろした文節と次の文節との係り関係を判定し、係り関係ではない場合にスタックに積み、係り関係である場合に、文節同士を係り元文節と係り先文節として対応付けて記憶し、更にスタックから文節を降ろし係り関係をＳＶＭによって判定し係り関係である場合には対応付け、係り関係でない場合にはスタックに積む。この処理を繰り返して、係り受け解析を行う。したがって、ＳＤＡ方式では、時間計算量の上限が文節数の数に比例し、計算効率の向上がされている（非特許文献１参照）。

ＳＶＭ２１は、素性のベクタとして表現された２文節の係り関係を、係り関係モデルＤＢ３１を用いて判定する。例えば、２文節の関係を表す素性ベクタを、係り関係モデルＤＢ３１のパラメータを用いて評価し、算出した評価値に基づいて２文節間の係り関係を判定すると共に、算出した２文節の係り関係の評価の絶対値を出力する。係り受け解析部１２は、ＳＶＭ２１が出力する２文節の文節ＩＤ、２文節の係り関係の評価の絶対値等を解析結果ＤＢ３２に記憶する（後述する図６参照）。そして、係り受け解析部１２は、ＳＶＭ２１が出力した値を絶対値の小さい順にソートし、絶対値の小さい順に、文ＩＤを取り出し、重複を除いてＮ文を選ぶ。ここで、Ｎは正解コーパスを作るのに準備できる作業者の数等に応じて決める。

選択部１３は、係り受け解析部１２が行った係り受け解析の結果が所定の場合に一の文を選択する。すなわち、一の文の係り受け解析の結果として、ＳＶＭ２１が出力した絶対値が所定の場合に、能動学習装置１０にとって文節の係り関係を決めるのが難しい文であると判断し、その文を選択する。所定の場合として、例えば、１つの文中で判断した文節間のＳＶＭ２１の出力値の平均値が所定の値よりも小さい場合、１つの文中で判断した文節間のＳＶＭ２１の出力値の最小値が所定の値よりも小さい場合、等がある。

正解受付部１４は、選択部１３が選択した一の文をユーザ端末６０に提示し、提示した一の文を構成する文節の係り関係についての判定情報をユーザ端末６０から受け付け、受け付けた判定情報に基づく正解データを作成する。例えば、選択した一の文を表示し、文節間の係り関係について、人手による、あるいは他の適当な方法による入力を受け付ける。この入力により、僕も［４］彼女に［４］あの［３］本を［４］あげた［―］、という正解データを得ることができる。

正解事例追加部１５は、受け付けた文節の係り関係を明確にした正解データを正解事例データＤＢ４１に追加する。例えば、僕も［４］彼女に［４］あの［３］本を［４］あげた［―］、という正解データに文ＩＤを対応付けて正解事例データＤＢ４１に追加する。この追加により、モデル作成部１１は、追加された正解事例データＤＢ４１に基づいて係り関係モデルＤＢ３１を更新する。

図３は、本発明の一実施形態に係る能動学習装置１０のハードウェア構成の一例を示す図である。能動学習装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１０（マルチプロセッサ構成ではＣＰＵ１０１２等複数のＣＰＵが追加されてもよい）、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、ＵＳＢポート１０９０、Ｉ／Ｏコントローラ１０７０、並びにキーボード及びマウス１１００等の入力手段や表示装置１０２２を備える。ＣＰＵ１０１０は、能動学習装置１０の機能を実行する。

Ｉ／Ｏコントローラ１０７０には、テープドライブ１０７２、ハードディスク１０７４、光ディスクドライブ１０７６、半導体メモリ１０７８、等の記憶手段を接続することができる。

ＢＩＯＳ１０６０は、能動学習装置１０の起動時にＣＰＵ１０１０が実行するブートプログラムや、能動学習装置１０のハードウェアに依存するプログラム等を格納する。

ハードディスク１０７４は、能動学習装置１０が本発明の機能を実行するためのプログラムを記憶しており、正解事例データＤＢ４１及び係り関係モデルＤＢ３１のデータベース等を記憶している。

光ディスクドライブ１０７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク１０７７を使用する。光ディスク１０７７から光ディスクドライブ１０７６によりプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０又はハードディスク１０７４に提供することもできる。また、同様にテープドライブ１０７２に対応したテープメディア１０７１を主としてバックアップのために使用することもできる。

能動学習装置１０に提供されるプログラムは、ハードディスク１０７４、光ディスク１０７７、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、Ｉ／Ｏコントローラ１０７０を介して、記録媒体から読み出され、又は通信Ｉ／Ｆ１０４０を介してダウンロードされることによって、能動学習装置１０にインストールされ実行されてもよい。

前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク１０７４、光ディスク１０７７、又はメモリカードの他に、ＭＤ等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを能動学習装置１０に提供してもよい。

ここで、表示装置１０２２は、能動学習装置１０による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

また、通信Ｉ／Ｆ１０４０は、能動学習装置１０を専用ネットワーク又は公共ネットワークを介して他のサーバ等と接続できるようにするためのネットワーク・アダプタである。通信Ｉ／Ｆ１０４０は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。

図４は、本発明の一実施形態に係る正解事例データＤＢ４１を示す図である。正解事例データＤＢ４１は、文ＩＤに対応付けて文節ＩＤと係り先文節ＩＤとのペアを、文を構成する文節の数だけ記憶している。

図５は、本発明の一実施形態に係る係り関係モデルＤＢ３１の一つの例を示す図である。係り関係モデルＤＢ３１は、文節の係り関係を判定するのに必要なパラメータ等を記憶している。係り関係モデルＤＢ３１は、例えば、文節と、係り先候補文節との特徴量についての評価値を、図５のような保存形式及び記述形式で記憶している。なお、係り関係モデルＤＢ３１のパラメータの保存形式及び記述形式等は、サポートベクトルマシンによって種々様々である（サポートベクトルマシンが用いるパラメータ等については、参考文献として「サポートベクターマシン入門」ネロクリスティアニーニ，ジョンショー‐テイラー著，大北剛翻訳（共立出版）等がある）。

図６は、本発明の一実施形態に係る係り受け解析結果ＤＢ３２を示す図である。係り受け解析結果ＤＢ３２は、文ＩＤに対応付けて、平均値と、係り関係があると判定した文節のペアごとに係り受け解析結果の評価の絶対値とを記憶している。例えば、文Ａ００１の文節ＩＤ０と、文節ＩＤ４との係り受け解析結果の評価の絶対値は、１．０である。平均値は、文節のペアごとの評価の絶対値を算術平均した値である。

図７は、本発明の一実施形態に係る能動学習装置１０の処理内容を示すフローチャートである。

ステップＳ１０１において、ＣＰＵ１０１０は、正解事例データを取得する。正解事例データは、文節の係り関係を明確にしたデータを集めた正解事例データＤＢ４１から取得するとしてもよいし、通信Ｉ／Ｆ１０４０を介してサーバ等から取得するとしてもよい。その後、ＣＰＵ１０１０は、処理をステップＳ１０２に移す。

ステップＳ１０２において、ＣＰＵ１０１０は、取得した正解事例データに基づいて、係り関係モデルＤＢ３１を作成する。すなわち、ＣＰＵ１０１０は、正解事例データに基づいて、文節の係り関係を判定する情報として、文節間の係り関係を特徴付ける素性（例えば、特徴量）を評価するパラメータ（例えば、評価値）を係り関係モデルＤＢ３１に記憶する。その後、ＣＰＵ１０１０は、処理をステップＳ１０３に移す。

ステップＳ１０３において、ＣＰＵ１０１０は、終了か否かを判断する。終了の判断は、新たな文が尽きたとき、処理時間等が超過したとき、予め用意した精度管理用の例文を解析させて所望の精度が得られたとき等のいずれかが成立するときとしてよい。この判断がＹＥＳの場合は、処理を終了する。この判断がＮＯの場合は、処理をステップＳ１０４に移す。

ステップＳ１０４において、ＣＰＵ１０１０は、新たな文を取得する。新たな文は、文節の係り関係が明確にされていない文である。新たな文の取得は、新たな文を集めたハードディスク１０７４から取得するとしてもよいし、通信Ｉ／Ｆ１０４０を介してサーバ等から取得するとしてもよい。その後、ＣＰＵ１０１０は、処理をステップＳ１０５に移す。

ステップＳ１０５において、ＣＰＵ１０１０は、解析すべき新たな文が終了か否かを判断する。この判断がＹＥＳの場合は、処理をステップＳ１０８に移す。この判断がＮＯの場合は、処理をステップＳ１０６に移す。

ステップＳ１０６において、ＣＰＵ１０１０は、新たな文について係り関係を解析する。すなわち、ＣＰＵ１０１０は、新たな文を形態素に分割し、文節にまとめ上げ、２文節に関係する素性のベクタとして表現する。そして、ＳＤＡ方式により、係り関係モデルＤＢ３１を用いてＳＶＭ２１に、係り元文節が係り先候補文節に係るか否かを判断させる。その後、ＣＰＵ１０１０は、処理をステップＳ１０７に移す。

ステップＳ１０７において、ＣＰＵ１０１０は、ＳＶＭ２１の出力を解析結果ＤＢ３２に記憶する。すなわち、ＣＰＵ１０１０は、ＳＶＭ２１が出力する２文節の文節ＩＤ、２文節の係り関係の評価の絶対値等を解析結果ＤＢ３２に記憶する。その後、ＣＰＵ１０１０は、処理をステップＳ１０４に移す。

ステップＳ１０８において、ＣＰＵ１０１０は、解析結果ＤＢ３２に記憶したデータをＳＶＭ２１の出力した絶対値によってソートする。ソートは、１文中で、２文節間の評価の絶対値を平均した平均値によってソートする。なお、１文中で、２文節間の評価の絶対値を比較した中の最小値でソートしてもよい。その後、ＣＰＵ１０１０は、処理をステップＳ１０９に移す。

ステップＳ１０９において、ＣＰＵ１０１０は、ソートしたデータの中からＳＶＭ２１が出力した絶対値の小さい順に重複を除いてＮ個の文を選択する。ここで、Ｎは正解コーパスを作るのに準備できる作業者の数等に応じて決める。なお、ＳＶＭ２１の出力した絶対値が所定の値以下である文を優先し、更に所定の値以上であっても作業者の数等に応じて決めるとしてもよい。その後、ＣＰＵ１０１０は、処理をステップＳ１１０に移す。

ステップＳ１１０において、ＣＰＵ１０１０は、正解データを作成する。より具体的には、ＣＰＵ１０１０は、選択したＮ個の文のうち一の文をユーザ端末６０に表示し、表示した一の文を構成する文節の係り関係についての判定情報を受け付け、受け付けた判定情報に基づく正解データを作成する（後述する図８を参照）そしてＮ個の文について同様にして文節の係り関係を明確にした正解データを作成する。その後、ＣＰＵ１０１０は、処理をステップＳ１１１に移す。

ステップＳ１１１において、ＣＰＵ１０１０は、正解データを正解事例データＤＢ４１に追加する。すなわち、ステップＳ１１０において受け付けた文節の係り関係を明確にしたデータを正解事例データＤＢ４１に追加する。その後、ＣＰＵ１０１０は、処理をステップＳ１０１に移し、正解事例データを取得する。

図８は、本発明の一実施形態に係る能動学習装置１０が正解データを作成するためにユーザ端末６０に表示する例を示す図である。図８の表示例は、ユーザ端末６０の表示装置６１に表示した一の文を構成する文節の係り関係についての判定情報を受け付け、受け付けた判定情報によりユーザに正解データの入力を要求し、ユーザが正解データを入力していることを示す表示例である。

ユーザ端末６０の表示装置６１のタイトル表示欄１０１には、図８に示すように、正解データを入力することを促すメッセージと、対象となっている文「僕も彼女にあの本をあげた」が表示されていることを示している。

そして、入力表示欄１０２には、図８に示すように、係り元の文節ごとに係り先の文節ＩＤを入力する欄を設けユーザが入力した文節ＩＤが表示されていることを示している。

図９は、本発明の一実施形態に係る能動学習装置１０の実験結果を示す図である。図９は、横軸を文の数とし、縦軸を係り受け解析の正解度とし、正解事例データ数に対する係り受け解析の正確度を示している。正解事例データの増加のさせ方の違いによる正解度の変化を示している。太線２０１（ｍｉｎａｃｔ）は、１つの文中で判断した文節間のＳＶＭの出力値の最小値が小さい文から追加した場合である。細線２０２（ａｖｇａｃｔ）は、１つの文中で判断した文節間のＳＶＭの出力値の平均値が所定の値よりも小さい文から追加した場合である。破線２０３（ｐａｓｓｉｖｅ）は、受動学習（訓練用の正解コーパス内での出現順）に追加した場合を示している。ｍｉｎの１０００文とｐａｓｓｉｖｅの２０００文が同程度の精度を得ていることが分かる。ｍｉｎの戦略に従うと、ｐａｓｓｉｖｅの半分の文数で同じ精度が得られたことを示している。

実施例１によれば、本発明に係る能動学習装置１０は、日本語を構成する文節の係り関係の正解事例データＤＢ４１に基づいて、文節の係り関係を判定するための判定情報を作成し、係り関係モデルＤＢ３１に記憶する。そして、本発明に係る能動学習装置１０は、一の文を係り関係モデルＤＢ３１を用いて係り受け解析を行い、解析結果を出力し、出力した解析結果が所定の場合に一の文を選択し、選択した一の文をユーザ端末６０の表示装置６１に表示し、表示した一の文を構成する文節の係り関係についての判定情報を受け付け、受け付けた判定情報に基づく正解データを正解事例データＤＢ４１に追加し、追加された正解事例データＤＢ４１に基づいて係り関係モデルＤＢ３１を更新する。

更に、本発明に係る能動学習装置１０は、係り関係モデルＤＢ３１を用いるＳＶＭ２１（サポートベクトルマシン）の出力を係り受け解析の解析結果として出力する。したがって、係り関係モデルＤＢ３１を用いるＳＶＭ２１の出力に基づいて選択された一の文は、能動学習装置１０にとって文節の係り関係を決めるのが難しい文であるので、文節の係り関係を明確にした正解データを作成し、正解事例データＤＢ４１に追加することによって、同様の文を解析できるように更新された係り関係モデルＤＢ３１を効率よく作成することができ、係り受け解析の精度も効率よく上げることができる。したがって、本発明に係る能動学習装置１０は、日本語係り受け解析において、係り関係モデルＤＢ３１を用いて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。

［実施例２］
実施例２に係る能動学習装置１０は、実施例１の図１〜図３と同様の構成を備えている。そして、訓練事例の１文を構成する全ての文節の係り関係について正解データを受け付ける必要はなく、一部の文節の係り関係についてのみ正しい係り関係を明確にした情報を受け付けることにより、正解事例データＤＢ４１に正解データを追加する。

選択部１３は、文節のペアについて係り受け解析部１２が解析結果として出力する評価値を比較し、評価値が小さい順に文節のペアを選択し、正解受付部１４は、選択部１３が選択した文節のペアをユーザ端末６０に提示し、提示した文節のペアの係り関係について、正しい係り先文節の情報をユーザ端末６０から受け付ける。すなわち、選択部１３は、文節のペアについての評価値を小さい順にソートし、評価値が小さい順に文節のペアを選択する。正解受付部１４は、選択部１３が選択した文節のペアをユーザ端末６０に表示し、正しい文節の係り関係をユーザ端末６０から受け付ける。

例えば、能動学習装置１０は、実施例１と同様に、２つの文節間が依存関係にあるかどうかをＳＶＭ２１により判定し、ＳＶＭ２１の出力の絶対値である評価値（ａ）、その出力が得られた文ＩＤ（ｂ）、依存関係を調べた文節ＩＤのペア（ｃ）を全て記憶する。次に、ＳＶＭ２１の出力の絶対値を小さい順にソートし、小さい順に｛（ａ），（ｂ），（ｃ）｝を単位とする組を複数取り出しｎ個を選ぶ。ｎは、正解コーパスを作成するのに準備できる作業者の人数等に応じて決める。その後、取り出したｎ個の文節ペアについて人手で正解データを入力し、今までの正解データに加える。すなわち、ＳＶＭ２１の出力値の絶対値（すなわち、評価値）がより小さい場合はＳＶＭ２１の判定がより不確かであることを示していると解釈できることから、能動学習装置１０は、係り関係が最も曖昧な文節のペアを含む文を選び、その文の正しい係り関係を作成し、優先して正解データに追加する。そして、能動学習装置１０は、この手順を繰り返し行い、予算（時間や費用）が尽きたとき、予め用意しておいた精度測定用の例文を解析させて精度を測定し所定の精度が得られたとき、あるいは、ラベルなし事例が尽きたときに終了する。

ここで、取り出した文節のペア（ｊ，ｉ）が係り元と係り先とを示し、第ｊ番目の文節を係り元とし、第ｋ番目の文節を本当の係り先（人手で与えたとする）とし、第ｉ番目の文節を能動学習装置１０が判定した係り先の文節とする。能動学習装置１０は、次の場合に正解データを作成する（以下、モードＳという）。
（イ）ｊ＜ｉ＜ｋの場合：第ｊ番目の文節が第ｉ番目の文節に係らないという正解事例を加え、かつ、第ｊ番目の文節が第ｋ番目の文節に係るという正解事例を加える。
（ロ）ｊ＜ｉ＝ｋの場合：第ｊ番目の文節が第ｋ番目の文節に係るという正解事例を加える。
（ハ）ｊ＜ｋ＜ｉの場合：第ｊ番目の文節が第ｋ番目の文節に係るという正解事例を加え、かつ、第ｊ番目の文節が第ｉ番目の文節に係らないという正解事例は加えない（すなわち、第ｊ番目の文節が第ｉ番目の文節に係らないという正解事例は作成しない）。

更に、能動学習装置１０は、前述の場合に、通常の書き言葉の日本語で仮定される係り受けの制約条件において、係り関係は交差しない、という特徴を取り入れて、次の場合に正解データを作成する（以下、拡張モードＳという）。
（イ）ｊ＜ｉ＜ｋの場合：第ｊ番目の文節が第ｉ番目の文節に係らないという正解事例を加え、かつ、第ｊ番目の文節が第ｋ番目の文節に係るという正解事例を加える。更に、ｋ−１＞ｊの場合、第ｋ番目の文節の直前の第（ｋ−１）番目の文節は第ｋ番目の文節に係るという正解事例を加える。
（ロ）ｊ＜ｉ＝ｋの場合：第ｊ番目の文節が第ｋ番目の文節に係るという正解事例を加える。更に、ｋ−１＞ｊの場合、第ｋ番目の文節の直前の第（ｋ−１）番目の文節は第ｋ番目の文節に係るという正解事例を加える。
（ハ）ｊ＜ｋ＜ｉの場合：第ｊ番目の文節が第ｋ番目の文節に係るという正解事例を加え、かつ、第ｊ番目の文節が第ｉ番目の文節に係らないという正解事例は加えない（すなわち、第ｊ番目の文節が第ｉ番目の文節に係らないという正解事例は作成しない）。更に、ｋ−１＞ｊの場合、第ｋ番目の文節の直前の第（ｋ−１）番目の文節は第ｋ番目の文節に係るという正解事例を加える。

図１０は、本発明の一実施形態に係る実施例２の、文節のペアの選択を示す図である。図１０の例では、文ＩＤ、文節のペア及び評価値で構成されるデータを、評価値でソートした結果、文ＩＤがＢ００１の文節ＩＤ［０］と［１］のペアが最も評価値が小さいことを示している。そして、能動学習装置１０は、評価値が小さい順に、例えば５個の文節のペアを選択する。なお、能動学習装置１０は、評価値が小さい順に選択した、例えば５個の文節のペアのうち、評価値が所定の値（例えば、０．２）以下である文節のペア（図１０の例では、番号１及び２）を選択するとしてもよい。

図１１は、本発明の一実施形態に係る能動学習装置１０の実施例２の処理内容を示すフローチャートである。

ステップＳ２０１〜Ｓ２０７は、図７のステップＳ１０１〜Ｓ１０７と同様である。すなわち、ＣＰＵ１０１０は、正解事例データを取得し（ステップＳ２０１）、取得した正解事例データに基づいて、係り関係モデルＤＢ３１を作成し（ステップＳ２０２）、ＣＰＵ１０１０は、終了か否かを判断する（ステップＳ２０３）。この判断がＹＥＳの場合は、処理を終了する。この判断がＮＯの場合は、処理をステップＳ２０４に移す。そして、ＣＰＵ１０１０は、新たな文を取得し（ステップＳ２０４）、解析すべき新たな文が終了か否かを判断する（ステップＳ２０５）。この判断がＹＥＳの場合は、処理をステップＳ２０８に移す。この判断がＮＯの場合は、処理をステップＳ２０６に移す。

ステップＳ２０６において、ＣＰＵ１０１０は、新たな文について係り関係を解析し、ステップＳ２０７において、ＣＰＵ１０１０は、ＳＶＭ２１の出力等を解析結果ＤＢ３２に記憶する。すなわち、ＣＰＵ１０１０は、ＳＶＭ２１が出力する２文節の文節ＩＤ及び２文節の係り関係の評価の絶対値、その出力が得られた文ＩＤ等を解析結果ＤＢ３２に記憶する。その後、ＣＰＵ１０１０は、処理をステップＳ２０４に移す。

ステップＳ２０８において、ＣＰＵ１０１０は、解析結果ＤＢ３２に記憶したデータをＳＶＭ２１の出力した絶対値によってソートする。ソートは、ＳＶＭ２１が出力した２文節間の評価の絶対値でソートする。その後、ＣＰＵ１０１０は、処理をステップＳ２０９に移す。

ステップＳ２０９において、ＣＰＵ１０１０は、ソートしたデータの中からＳＶＭ２１が出力した絶対値の小さい順に重複を除いてＮ個の文節を選択する。ここで、Ｎは正解コーパスを作るのに準備できる作業者の数等に応じて決める。なお、選択するＮ個の文節は、ＳＶＭ２１の出力した絶対値が所定の値以下である文節を優先する。更に、所定の値以上であっても作業者の数等に応じて決めるとしてもよい。その後、ＣＰＵ１０１０は、処理をステップＳ２１０に移す。

ステップＳ２１０において、ＣＰＵ１０１０は、正解データを作成する。より具体的には、ＣＰＵ１０１０は、選択したＮ個の文節のうち当該文節を含む文を、文節の係り関係を示すようにユーザ端末６０に表示し、表示した一の文を構成する当該文節の係り関係について、正しい係り先文節の情報を受け付ける（後述する図１２及び図１３を参照）。正しい係り先文節の情報の受け付けは、ＳＶＭ２１の出力した絶対値に基づいて選択した文節について受け付ける。

そして、文節ｊを係り元とし、文節ｉを能動学習装置１０が判定した係り先の文節とする文節のペア（ｊ，ｉ）と、正解として受け付けた文節ｋとにおいて、文節ｋの位置が
（イ）ｊ＜ｉ＜ｋの場合は、文節ｊが文節ｉに係らないという正解データを作成し、かつ、文節ｊが文節ｋに係るという正解データを作成する。
（ロ）ｊ＜ｉ＝ｋの場合は、文節ｊが文節ｋに係るという正解データを作成する。
（ハ）ｊ＜ｋ＜ｉの場合は、文節ｊが文節ｋに係るという正解データを作成し、かつ、文節ｊが文節ｉに係らないという正解データを作成しない。

更に、（イ）、（ロ）又は（ハ）の各々の手順において、正解データを作成すると共に、文節ｋの直前の文節（ｋ−１）の位置が（ｋ−１）＞ｊの場合に、文節（ｋ−１）が文節ｋに係ることを示す正解データを作成する。

そしてＮ個の文節について同様に、文節の係り関係を明確にした正解データを作成する。その後、ＣＰＵ１０１０は、処理をステップＳ２１１に移す。

ステップＳ２１１において、ＣＰＵ１０１０は、正解データを正解事例データＤＢ４１に追加する。すなわち、ステップＳ２１０において受け付けた文節の係り関係を明確にしたデータを正解事例データＤＢ４１に追加する。その後、ＣＰＵ１０１０は、処理をステップＳ２０１に移し、正解事例データを取得する。

図１２は、本発明の一実施形態に係る能動学習装置１０が正解データを作成するためにユーザ端末６０に表示する実施例２の例を示す図である。図１２の表示例は、ユーザ端末６０の表示装置６１に表示した一の文を構成する文節の係り関係において、該当する文節のみについて、正しい係り先文節の情報を受け付けていることを示す表示例である。

図１２に示すように、ユーザ端末６０の表示装置６１の係り関係表示欄３０１には、対象となっている文「欲しかった本棚と夫の机を買いにＩＫＥＡに行った」について、能動学習装置１０が行った係り受け解析の結果に基づいて、文節の係り関係を示す表示がされていることを示している。判定情報入力欄３０２には、係り受け解析の結果に基づいて、係り元の文節ＩＤごとに係り先の文節（係り関係のチェック、係り先の文節ＩＤ、係り関係のマーク、及び文節の内容）を示し、文節の係り関係が曖昧であると判断した文節のペアに対して、文末に近い文節からハイライト表示３０３をすることによって、正しい係り関係の入力を受け付けていることを示している。正しい係り先文節の情報の入力は、文末に近い文節から受け付ける。

図１３は、図１２に続く例を示す図である。図１３の表示例は、図１２に続いて、ユーザがハイライト表示３０３をされている文節について、正しい係り関係を入力したことを示す例である。そして、図１３の係り関係表示欄３０１には、文節ＩＤ［１］の係り先が入力された文節ＩＤ［３］であるという正解データに基づいて、係り関係表示欄３０１の文節の係り関係を示す表示が改めて表示され、「本棚と」が「机を」に係る表示に改められていることを示している。同様に、図１３の係り関係表示欄３０１には、文節ＩＤ［４］の係り先が入力された文節ＩＤ［６］であるという正解データに基づいて、係り関係表示欄３０１の文節の係り関係を示す表示が改めて表示され、「買いに」が「行った」に係る表示に改められていることを示している。

図１４は、本発明の一実施形態に係る実施例２の正解事例データＤＢ４１を示す図である。正解事例データＤＢ４１は、文ＩＤに対応付けて文節ＩＤと係り先文節ＩＤとのペアを、文を構成する文節の数だけ記憶している。そして、係り先文節は、文節ごとに対応付けられた係り先候補の文節のなかで、文節が係り先文節であることを示すデータ（例えば、Ｄ）、又は文節が係り先文節でないことを示すデータ（例えば、Ｏ）を記憶することによって表される。

図１４の文ＩＤがＡ００１の例において、文節ＩＤ［３］が文節ＩＤ［４］に係り、文節ＩＤ［２］が文節ＩＤ［３］に係り、文節ＩＤ［１］が文節ＩＤ［４］に係ることが示されると、文節ＩＤ［０］は、文節ＩＤ［１］に係るか、又は文節ＩＤ［４］に係るかについてのみ、正しい係り先文節の情報を受け付ける。その結果、図１４の例は、文節ＩＤ［０］と文節ＩＤ［２］及び文節ＩＤ［３］との係り先関係を示すべき欄に空欄マーク「−」が記憶されることを示している。日本語の係り関係は交差しないという原則に従って、より少ない人手コストでより効率を上げて、正解データを作成することができる。

図１５は、本発明の一実施形態に係る能動学習装置１０の実施例２の実験結果を示す図である。図１５は、横軸を文の数とし、縦軸を係り受け解析の正解度とし、正解事例データ数に対する係り受け解析の正確度を示している。正解事例データの増加のさせ方の違いによる正解度の変化を示している。太線４０１は、実施例２の選択した文節ごとに正解データの入力を受け付ける実験結果である。細線４０２は、文ごとに正解データを入力する実施例１の実験結果、破線４０３は、受動学習の実験結果を示している。実施例２の実験結果によれば、同じ正解事例データ数であっても、実施例２では曖昧な文節のペアを解析できる正解事例データをより多く記憶しているので、実施例１よりも文節の係り関係を解析する精度が向上していることを示している。

図１６は、本発明の一実施形態に係る能動学習装置１０の実施例２の別の実験結果を示す図である。図１６は、横軸を文の数とし、縦軸を係り受け解析の正解度とし、正解事例データ数に対する係り受け解析の正確度を示している。正解事例データの増加のさせ方の違いによる正解度の変化を示している。太線４１１は、実施例２の拡張モードＳを示し、細線４１２は、実施例２のモードＳを示し、破線４１３は、ｊ＜ｋ＜ｉのとき、文節ｊが文節ｉに係らないという正解データを作成する（以下、通常モードという）、実験結果を示している。当該実験結果によれば、モードＳ及び通常モードでは、正解事例データ数が約８０００で正解度が０．８７５を超えるのに比べ、拡張モードＳでは、正解事例データ数が約４０００で正解度が０．８７５を超えている。すなわち、拡張モードＳは、モードＳ及び通常モードよりもより少ない正解事例データで、一定の精度に到達し、文節の係り関係を解析する精度が向上していることを示している。

実施例２によれば、本発明に係る能動学習装置１０は、文節のペアを構成する第１の文節及び第２の文節と、受け付けた正解データである第３の文節において、第１の文節の識別情報が第２の文節の識別情報より小さい場合であって、
（イ）第３の文節が、第２の文節より後ろに位置する場合は、第１の文節が第２の文節に係らないことを示す正解データを作成し、かつ、第１の文節が第３の文節に係ることを示す正解データを作成し、
（ロ）第３の文節が、第２の文節に等しい場合は、第１の文節が第３の文節に係ることを示す正解データを作成し、
（ハ）第３の文節が、第１の文節と第２の文節との間に位置する場合は、第１の文節が第３の文節に係ることを示す正解データを作成し、かつ、第１の文節が第２の文節に係らないことを示す正解データを作成しない。
そして、作成した正解データを正解事例データＤＢ４１に追加し、追加された正解事例データＤＢ４１に基づいて係り関係モデルＤＢ３１を更新する。したがって、正解データとして入力された係り先の文節の後ろの文節までも、係らないという正解データを作成し、必要としていない事例までも追加してしまう場合と比較して、更に、係り受け解析の精度を向上させることができる。

更に、実施例２によれば、本発明に係る能動学習装置１０は、前述の（イ）、（ロ）又は（ハ）の各々の手順において、正解データを作成すると共に、第３の文節の直前の文節の識別情報が第１の文節の識別情報より大きい場合に、第３の文節の直前の文節が第３の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データＤＢ４１に追加し、追加された正解事例データＤＢ４１に基づいて係り関係モデルＤＢ３１を更新する。したがって、日本語の係り関係は交差しないという特徴を正解事例データに反映し、正解事例の数を増やすことができるので、更に、係り受け解析の精度を向上させることができる。

更に、実施例２によれば、本発明に係る能動学習装置１０は、日本語を構成する文節の係り関係の正解事例データＤＢ４１に基づいて、文節の係り関係を判定するための判定情報を作成し、係り関係モデルＤＢ３１に記憶する。そして、本発明に係る能動学習装置１０は、一の文を係り関係モデルＤＢ３１を用いて係り受け解析を行い、文節のペアについて出力した解析結果としての評価値を順次比較した中で、評価値が小さい順に文節のペアを選択し、選択した文節のペアをユーザ端末６０の表示装置６１に表示する。更に、選択した文節のペアをユーザ端末６０の表示装置６１に表示する際に、文節のペアを含む文について、文節の係り関係を示す表示をし、選択した文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた情報に基づいて文節の係り関係を示す表示を改めて表示する。そして、表示した文節の係り関係について、正しい係り先文節の情報をユーザ端末６０から受け付け、受け付けた情報に基づく正解データを正解事例データＤＢ４１に追加し、追加された正解事例データＤＢ４１に基づいて係り関係モデルＤＢ３１を更新する。したがって、本発明に係る能動学習装置１０は、１文を構成する全ての文節の係り関係についてではなく、文節のペアについての係り関係の評価値が小さい、すなわち文節の係り関係が曖昧な文節のペアについて、正しい係り先文節の情報についてユーザが容易に判断でき、正しい係り先文節の情報を容易に入力できる表示をし、正解データを受け付けるので、１文を構成する全ての文節の係り関係について正解データを受け付ける場合よりも、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明に係る能動学習装置１０は、文節の係り関係を高い精度で判定することができる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

１０能動学習装置
１１モデル作成部
１２係り受け解析部
１３選択部
１４正解受付部
１５正解事例追加部
３１係り関係モデルＤＢ
３２解析結果ＤＢ
４１正解事例データＤＢ

Claims

日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する能動学習装置であって、
前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するモデル作成手段と、
一文を構成する一部の文節を含む当該一文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力する係り受け解析手段と、
前記係り受け解析手段が出力した解析結果から前記一文を構成する一部の文節から、係り関係を有すると判定された第１の文節と第２の文節とからなる文節のペアを選択する選択手段と、
前記選択した文節のペアをユーザ端末に提示し、第３の文節を前記ユーザ端末から受け付ける正解受付手段と、
前記第１の文節、前記第２の文節および前記第３の文節の前記一文における位置関係に応じて、異なる正解データを作成し正解事例データに追加する正解事例追加手段と、を備え、
前記モデル作成手段は、前記追加された正解事例データに基づいて前記係り関係モデルを更新することを特徴とする能動学習装置。
前記係り受け解析手段は、前記係り関係モデルを用いるサポートベクトルマシンの出力を前記係り受け解析の解析結果として出力することを特徴とする請求項１に記載の能動学習装置。
前記係り関係モデルは、文節の係り関係を判定するために、文節間の特徴量と評価値との組を用いることを特徴とする請求項１又は２に記載の能動学習装置。
前記所定の場合は、前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が最も小さい場合であることを特徴とする請求項１乃至３のいずれかに記載の能動学習装置。
前記文節のペアを構成する前記第１の文節及び前記第２の文節と、前記正解受付手段が受け付けた前記第３の文節とにおいて、前記第１の文節の識別情報（文中での順番を表す識別番号）が前記第２の文節の前記識別情報より小さい場合であって、
前記正解事例追加手段は、前記第１の文節及び前記第２の文節と前記第３の文節との位置関係により下記（イ）、（ロ）又は（ハ）のいずれかの手順によって正解データを作成し、作成した前記正解データを正解事例データに追加する、ことを特徴とする請求項１乃至４のいずれかに記載の能動学習装置。
（イ）前記第３の文節の前記識別情報が、前記第２の文節の前記識別情報より大きい場合は、前記第１の文節が前記第２の文節に係らないことを示す正解データを作成し、かつ、前記第１の文節が前記第３の文節に係ることを示す正解データを作成する。
（ロ）前記第３の文節の前記識別情報が、前記第２の文節の前記識別情報に等しい場合は、前記第１の文節が前記第３の文節に係ることを示す正解データを作成する。
（ハ）前記第３の文節の前記識別情報が、前記第１の文節の前記識別情報より大きく前記第２の文節の識別情報より小さい場合は、前記第１の文節が前記第３の文節に係ることを示す正解データを作成し、かつ、前記第１の文節が前記第２の文節に係らないことを示す正解データを作成しない。
前記（イ）、（ロ）又は（ハ）の各々の手順において、前記正解データを作成すると共に、前記第３の文節の直前の文節の前記識別情報が前記第１の文節の前記識別情報より大きい場合に、前記第３の文節の直前の文節が前記第３の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データに追加する、ことを特徴とする請求項５に記載の能動学習装置。
前記選択手段は、文節のペアについて前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が小さい順に前記文節のペアを選択し、
前記正解受付手段は、前記選択手段が選択した前記文節のペアをユーザ端末に提示し、提示した前記文節のペアの係り関係ごとに、正しい係り先文節の情報を前記ユーザ端末から受け付ける、ことを特徴とする請求項１乃至６のいずれかに記載の能動学習装置。
前記提示において、前記正解受付手段は、前記文節のペアを含む文について、文節の係り関係を示す表示をし、前記文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた該情報に基づいて前記文節の係り関係を示す表示を改めて表示する、ことを特徴とする請求項７に記載の能動学習装置。
能動学習装置が実行する、日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する方法であって、
前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するステップと、
一文を構成する一部の文節を含む当該一文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力するステップと、
前記係り受け解析手段が出力した解析結果から前記一文を構成する一部の文節から、係り関係を有すると判定された第１の文節と第２の文節とからなる文節のペアを選択するステップと、
前記選択した文節のペアをユーザ端末に提示し、第３の文節を前記ユーザ端末から受け付けるステップと、
前記第１の文節、前記第２の文節および前記第３の文節の前記一文における位置関係に応じて、異なる正解データを作成し正解事例データに追加するステップと、
前記追加された正解事例データに基づいて前記係り関係モデルを更新するステップと、
を備えることを特徴とする方法。