JP5220676B2 - 能動学習装置及び方法 - Google Patents

能動学習装置及び方法 Download PDF

Info

Publication number
JP5220676B2
JP5220676B2 JP2009094374A JP2009094374A JP5220676B2 JP 5220676 B2 JP5220676 B2 JP 5220676B2 JP 2009094374 A JP2009094374 A JP 2009094374A JP 2009094374 A JP2009094374 A JP 2009094374A JP 5220676 B2 JP5220676 B2 JP 5220676B2
Authority
JP
Japan
Prior art keywords
clause
relationship
correct
phrase
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009094374A
Other languages
English (en)
Other versions
JP2010152858A (ja
Inventor
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009094374A priority Critical patent/JP5220676B2/ja
Publication of JP2010152858A publication Critical patent/JP2010152858A/ja
Application granted granted Critical
Publication of JP5220676B2 publication Critical patent/JP5220676B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、能動学習装置及び方法に関する。特に、自然言語処理における能動学習装置及び方法に関する。
自然言語処理は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術である。その中で、日本語を処理する基礎技術としては、言語で意味を持つ最小単位である形態素に文を分割する形態素解析、文の文法的な関係を解析する構文解析、文中の単語の語義を判断する語義の曖昧性解消等があり、研究されている。
このように研究されている日本語の構文解析のなかで、文節の係り関係を解析する日本語係り受け解析の精度のよい手法として、非特許文献1が知られている。非特許文献1には、コンピュータが正解データに基づいて日本語の係り受け解析を行う方法が記載されている。また、解析の精度を向上させる方法として、例えば、非特許文献2には、確率モデルに基づく英語の解析での能動学習について記載されている。
颯々野学(2007.1.)"日本語係り受け解析の線形時間アルゴリズム",自然言語処理,vol14 No.1,pp.3−18 Min Tang, Xiaoqiang Luo, and Salim Roukos. 2002. "Active learning for Statistical Natural Language Parsing," ACL 2002, pp.120 − 127.
しかしながら、非特許文献1の方法は、一定量の正解データが前提となっている。このような正解データを作為なくランダムに、コンピュータに与える方式である受動学習では多大な人手コストがかかる。このような多大な人手コストを抑える方法として、コンピュータが正解データを学習していく能動学習があるが、非特許文献1には、適用できる能動学習の方法は提案されていない。また、非特許文献2の能動学習は、英語の解析についてであり、文法が英語とも異なり、解析アルゴリズムの違う日本語の係り受け解析には適用できない。
そこで、人手コストをかけずに、日本語係り受け解析について高い精度が得られる能動学習装置が望まれている。
本発明は、日本語係り受け解析において、受動学習の場合よりも、より少ない人手コストで高い精度が得られる能動学習装置及び方法を提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) 日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する能動学習装置であって、前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するモデル作成手段と、一の文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力する係り受け解析手段と、前記係り受け解析手段が出力した解析結果が所定の場合に前記一の文を選択する選択手段と、前記選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報を前記ユーザ端末から受け付ける正解受付手段と、前記受け付けた判定情報に基づく正解データを正解事例データに追加する正解事例追加手段と、を備え、前記モデル作成手段は、前記追加された正解事例データに基づいて前記係り関係モデルを更新することを特徴とする能動学習装置。
(1)の構成によれば、本発明に係る能動学習装置は、日本語を構成する文節の係り関係を明確にしたデータを集めた正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶する。すなわち、ここでいう係り関係モデルとは、文節の係り関係を判定するための判定情報(例えば、文節間の特徴量と評価値の組)を指している。そして、本発明に係る能動学習装置は、一の文を係り関係モデルを用いて係り受け解析を行い、解析結果を出力し、出力した解析結果が所定の場合に一の文を選択し、選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報をユーザ端末から受け付け、受け付けた判定情報に基づく正解データを正解事例データに追加し、追加された正解事例データに基づいて係り関係モデルを更新する。
すなわち、本発明に係る能動学習装置は、正解事例データに基づいて、係り関係モデルを作成し、作成した係り関係モデルを用いて一の文を選択し、選択した文から作成した正解データを正解事例データに追加し、追加された正解事例データに基づいて係り関係モデルを更新する。このように、係り関係モデルを用いて選択された一の文は、本発明に係る能動学習装置にとって文節の係り関係を決めるのが難しい文であるので、その文節の係り関係を明確にした正解データを正解事例データに追加することによって、同様の文を解析できるように更新された係り関係モデルを作成することができ、係り受け解析の精度を上げることができる。したがって、本発明に係る能動学習装置は、日本語係り受け解析において、係り関係モデルを用いて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。
(2) 前記係り受け解析手段は、前記係り関係モデルを用いるサポートベクトルマシンの出力を前記係り受け解析の解析結果として出力することを特徴とする(1)に記載の能動学習装置。
(2)の構成によれば、本発明に係る能動学習装置は、係り関係モデルを用いるサポートベクトルマシンの出力を係り受け解析の解析結果として出力する。したがって、本発明に係る能動学習装置は、日本語係り受け解析において、係り関係モデルを用いるサポートベクトルマシンの出力に基づいて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。
(3) 前記係り関係モデルは、文節の係り関係を判定するために、文節間の特徴量と評価値との組を用いることを特徴とする(1)又は(2)に記載の能動学習装置。
(3)の構成によれば、本発明に係る能動学習装置は、係り関係モデルに文節間の特徴量と評価値との組を用いるので、日本語係り受け解析において、受動学習の場合よりも、高い精度が得られる。
(4) 前記所定の場合は、前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が最も小さい場合であることを特徴とする(1)乃至(3)のいずれかに記載の能動学習装置。
(4)の構成によれば、(1)乃至(3)のいずれかに記載の能動学習装置は、係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、評価値が最も小さい場合に一の文を選択する。したがって、本発明に係る能動学習装置は、係り関係が曖昧な文を優先して正解データとするので、受動学習の場合よりも、より少ない人手コストで高い精度を得ることができる。
(5) 文節のペアを構成する第1の文節及び第2の文節と、前記正解受付手段が受け付けた第3の文節とにおいて、前記第1の文節の識別情報(文中での順番を表す識別番号)が前記第2の文節の前記識別情報より小さい場合であって、前記正解事例追加手段は、前記第1の文節及び前記第2の文節と前記第3の文節との位置関係により下記(イ)、(ロ)又は(ハ)のいずれかの手順によって正解データを作成し、作成した前記正解データを正解事例データに追加する、ことを特徴とする(1)乃至(4)のいずれかに記載の能動学習装置。
(イ)前記第3の文節の前記識別情報が、前記第2の文節の前記識別情報より大きい場合は、前記第1の文節が前記第2の文節に係らないことを示す正解データを作成し、かつ、前記第1の文節が前記第3の文節に係ることを示す正解データを作成する。
(ロ)前記第3の文節の前記識別情報が、前記第2の文節の前記識別情報に等しい場合は、前記第1の文節が前記第3の文節に係ることを示す正解データを作成する。
(ハ)前記第3の文節の前記識別情報が、前記第1の文節の前記識別情報より大きく前記第2の文節の識別情報より小さい場合は、前記第1の文節が前記第3の文節に係ることを示す正解データを作成し、かつ、前記第1の文節が前記第2の文節に係らないことを示す正解データを作成しない。
(5)の構成によれば、(1)乃至(4)のいずれかに記載の能動学習装置は、文節のペアを構成する第1の文節及び第2の文節と、正解受付手段が受け付けた第3の文節とにおいて、第1の文節の前記識別情報が第2の文節の前記識別情報より小さい場合であって、正解事例追加手段は、第1の文節及び第2の文節と第3の文節との位置関係により下記(イ)、(ロ)又は(ハ)のいずれかの手順によって正解データを作成し、作成した正解データを正解事例データに追加する。
(イ)第3の文節の前記識別情報が、第2の文節の前記識別情報より大きい場合は、第1の文節が第2の文節に係らないことを示す正解データを作成し、かつ、第1の文節が第3の文節に係ることを示す正解データを作成する。
(ロ)第3の文節の前記識別情報が、第2の文節の前記識別情報に等しい場合は、第1の文節が第3の文節に係ることを示す正解データを作成する。
(ハ)第3の文節の前記識別情報が、第1の文節の前記識別情報より大きく第2の文節の前記識別情報より小さい場合は、第1の文節が第3の文節に係ることを示す正解データを作成し、かつ、第1の文節が第2の文節に係らないことを示す正解データを作成しない。
すなわち、本発明に係る能動学習装置は、正解データとして受け付けた第3の文節が、係り元の第1の文節と、能動学習装置10が係り先の文節であると判定した第2の文節との間に位置する場合は、第1の文節が第2の文節に係らないことを示す正解データを作成しない。したがって、本発明に係る能動学習装置は、正解データとして入力された係り先の文節までの文節について、作成した正解データを正解事例データに追加し、追加した正解事例データに基づいて係り関係モデルを更新することができるので、正解データとして入力された係り先の文節の後ろの文節までも、係らないという正解データを作成し、必要としていない事例までも追加してしまう場合と比較して、更に、係り受け解析の精度を向上させることができる。
(6) 前記(イ)、(ロ)又は(ハ)の各々の手順において、前記正解データを作成すると共に、前記第3の文節の直前の文節の前記識別情報が前記第1の文節の前記識別情報より大きい場合に、前記第3の文節の直前の文節が前記第3の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データに追加する、ことを特徴とする(5)に記載の能動学習装置。
(6)の構成によれば、(5)に記載の能動学習装置は、(5)の(イ)、(ロ)又は(ハ)の各々の手順において、正解データを作成すると共に、第3の文節の直前の文節の前記識別情報が第1の文節の前記識別情報より大きい場合に、第3の文節の直前の文節が第3の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データに追加する。
すなわち、本発明に係る能動学習装置は、(5)の(イ)、(ロ)又は(ハ)の各々の手順において、正解データを作成すると共に、第3の文節の直前の文節が第3の文節に係ることを示す正解データを正解事例データに追加するので、係り関係は交差しないという日本語の特徴を反映し、正解事例の数を増やすことができる。したがって、更に、係り受け解析の精度を向上させることができる。
(7) 前記選択手段は、文節のペアについて前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が小さい順に前記文節のペアを選択し、前記正解受付手段は、前記選択手段が選択した前記文節のペアをユーザ端末に提示し、提示した前記文節のペアの係り関係ごとに、正しい係り先文節の情報を前記ユーザ端末から受け付ける、ことを特徴とする請求項(1)乃至(6)のいずれかに記載の能動学習装置。
(7)の構成によれば、(1)乃至(6)のいずれかに記載の能動学習装置は、文節のペアについて出力した解析結果としての評価値を順次比較した中で、評価値が小さい順に文節のペアを選択し、選択した文節のペアをユーザ端末に提示し、提示した文節のペアの係り関係ごとに、正しい係り先文節の情報をユーザ端末から受け付ける。したがって、本発明に係る能動学習装置は、1文を構成する全ての文節の係り関係についてではなく、文節のペアについての係り関係の評価値が小さい、すなわち文節の係り関係が曖昧な文節のペアについて正しい係り先文節の情報を受け付けるので、1文を構成する全ての文節の係り関係について正しい係り先文節の情報を受け付ける場合よりも、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明に係る能動学習装置は、文節の係り関係を高い精度で判定することができる。
(8) 前記提示において、前記正解受付手段は、前記文節のペアを含む文について、文節の係り関係を示す表示をし、前記文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた該情報に基づいて前記文節の係り関係を示す表示を改めて表示する、ことを特徴とする(7)に記載の能動学習装置。
(8)の構成によれば、(7)に記載の能動学習装置は、選択した文節のペアをユーザ端末に提示する際に、文節のペアを含む文について、文節の係り関係を示す表示をし、選択した文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた情報に基づいて文節の係り関係を示す表示を改めて表示する。したがって、本発明に係る能動学習装置は、文節の係り関係が曖昧な文節のペアについて、正しい係り先文節の情報についてユーザが容易に判断でき、正しい係り先文節の情報を容易に入力できる表示をするので、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明に係る能動学習装置は、文節の係り関係を高い精度で判定することができる。
(9) 日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する方法であって、前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するステップと、一の文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力するステップと、前記係り受け解析手段が出力した解析結果が所定の場合に前記一の文を選択するステップと、前記選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報を前記ユーザ端末から受け付けるステップと、前記受け付けた判定情報に基づく正解データを正解事例データに追加するステップと、前記追加された正解事例データに基づいて前記係り関係モデルを更新するステップと、を備えることを特徴とする方法。
(9)の構成によれば、本発明に係る方法は、文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、一の文を係り関係モデルを用いて係り受け解析を行い、解析結果を出力し、出力した解析結果が所定の場合に一の文を選択し、選択した一の文をユーザ端末に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報をユーザ端末から受け付け、受け付けた判定情報に基づく正解データを正解事例データに追加し、追加された正解事例データに基づいて係り関係モデルを更新する。したがって、本発明に係る方法は、日本語係り受け解析において、係り関係モデルを用いて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。
本発明によれば、日本語係り受け解析において、受動学習の場合よりも、より少ない人手コストで高い精度が得られる能動学習装置及び方法を提供することができる。
更に、本発明によれば、日本語係り受け解析において、訓練事例の1文を構成する全ての文節の係り関係についてではなく、一部の文節の係り関係について正解データを受け付けることで、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明によれば、受動学習の場合よりも文節の係り関係を高い精度で判定する能動学習装置及び方法を提供することができる。
本発明の一実施形態に係る能動学習装置10の特徴を示す機能ブロック図である。 本発明の一実施形態に係る能動学習装置10の機能を示す機能ブロック図である。 本発明の一実施形態に係る能動学習装置10のハードウェア構成の一例を示す図である。 本発明の一実施形態に係る正解事例データDB41を示す図である。 本発明の一実施形態に係る係り関係モデルDB31の一つの例を示す図である。 本発明の一実施形態に係る係り受け解析結果DB32を示す図である。 本発明の一実施形態に係る能動学習装置10の処理内容を示すフローチャートである。 本発明の一実施形態に係る能動学習装置10が正解データを作成するためにユーザ端末60に表示する例を示す図である。 本発明の一実施形態に係る能動学習装置10の実験結果を示す図である。 本発明の一実施形態に係る実施例2の、文節のペアの選択を示す図である。 本発明の一実施形態に係る能動学習装置10の実施例2の処理内容を示すフローチャートである。 本発明の一実施形態に係る能動学習装置10が正解データを作成するためにユーザ端末60に表示する実施例2の例を示す図である。 図12に続く例を示す図である。 本発明の一実施形態に係る実施例2の正解事例データDB41を示す図である。 本発明の一実施形態に係る能動学習装置10の実施例2の実験結果を示す図である。 本発明の一実施形態に係る能動学習装置10の実施例2の別の実験結果を示す図である。
以下、本発明の実施形態について図を参照しながら説明する。
[実施例1]
図1は、本発明の一実施形態に係る能動学習装置10の特徴を示す機能ブロック図である。
能動学習装置10は、モデル作成手段としてモデル作成部11と、係り関係モデルとして係り関係モデルDB31と、係り受け解析手段として係り受け解析部12と、選択手段として選択部13と、正解受付手段として正解受付部14と、正解事例追加手段として正解事例追加部15と、正解事例データDB41とを備えている。
モデル作成部11は、文節の係り関係の正解事例データを記憶する正解事例データDB41に基づいて、文節の係り関係を判定する係り関係モデルを作成し、係り関係モデルDB31に記憶する。正解事例データDB41は、文節の係り関係を明確にしたデータを集めて、記憶している。ここで、日本語の構文的特徴として多くの場合、次のことが仮定できる。すなわち、文節は、1個以上の内容語とそれに続く0個以上の機能語から構成される。日本語では、文末の文節を除いて、全ての文節は必ず1つの係り先を持つ。また、係り先となる文節は、必ず係り元の文節の右側に位置する。
係り関係モデルDB31は、正解事例データDB41に基づいて作成した、文節の係り関係を判定するための判定情報を記憶している。すなわち、正解事例データDB41に基づいて、文節間の係り関係を特徴付ける素性を評価するパラメータの値を記憶している。例えば、2文節に関係する形態的、文法的情報を素性のベクタとして表現した場合に、そのベクタによって係るか否かを評価するためのパラメータ(例えば、文節間の特徴量と評価値の組)を記憶している。ここで、素性には、(1)概ね文節内の最も右の内容語に相当する主辞の品詞等、(2)概ね文節内の最も右の機能語に相当する語形の品詞等、(3)句読点、(4)開き括弧及び閉じ括弧、(5)文の先頭か末尾か、等のようなものが考えられる。
係り受け解析部12は、一の文を係り関係モデルDB31を用いて係り受け解析を行い、解析結果を出力する。一の文は、文節の係り関係がまだ明確にされていない新たな事例である。係り受け解析部12は、その文を形態素に分割し、文節にまとめ上げ、文節間の係り関係を解析する。文節間の係り関係は、係り関係モデルDB31に記憶されている、文節間の係り関係を特徴付ける素性を評価するパラメータを用いて解析される。
選択部13は、係り受け解析部12が出力した解析結果が所定の場合に一の文を選択する。すなわち、選択部13は、一の文の係り受け解析の結果を判定し、能動学習装置10にとって文節の係り関係を決めるのが難しい文であると判断すると、その文を選択する。
正解受付部14は、選択部13が選択した一の文をユーザ端末60に提示し、提示した一の文を構成する文節の係り関係について、正解データか否かの判定情報をユーザ端末60から受け付ける。判定情報は、例えば、文節の係り関係が正解である場合には正解である旨の情報であり、不正解の場合には正しい係り関係を明確にした情報である。正解受付部14は、例えば、提示した文について人手を介して、あるいは他の適当な方法により入力した文節の正しい係り関係についての判定情報を受け付ける。
正解事例追加部15は、正解受付部14が受け付けた判定情報に基づく正解データを正解事例データDB41に追加する。正解データは、一の文を構成する文節の係り関係を明確にしたデータである。そして、この追加により、モデル作成部11は、追加された正解事例データDB41に基づいて係り関係モデルDB31を更新する。
図2は、本発明の一実施形態に係る能動学習装置10の機能を示す機能ブロック図である。図2では、図1における解析部12を、SVM21(Support Vector Machines)と、SDA(Stack Dependency Analysis)解析部22とで構成し、新たな文を事例データ42から取得する。
正解事例データDB41には、例えば、「僕が彼女にあの本をあげた」という文について、文節の係り関係を明確にした、例えば、僕が[4]彼女に[4]あの[3]本を[4]あげた[―]という正解データが集められている(後述する図4)。ここで、文節IDは0から始まり、[]の中の数字は係り先の文節IDを示している。すなわち、「僕が」は文節ID0であり、「あげた」は文節ID4であって、僕が[4]は係り元の文節ID0「僕が」が、係り先の文節ID4「あげた」に係ることを示している。
モデル作成部11は、このような正解事例データDB41に基づいて、文節間の係り関係を特徴付ける素性を評価するパラメータの値を作成し、係り関係モデルDB31に記憶する(後述する図5参照)。例えば、文頭の文節が文末の文節に係るか否か、「内容語+が」の構成をしている文節が文末の文節に係るか否か、「あの」等の指示語が直後の文節に係るか否か等を評価するためのパラメータを記憶している。
係り受け解析部12のSDA解析部22は、新たな文を取得し、例えば、「僕も彼女にあの本をあげた」という文について、「僕」、「も」、「彼女」、「に」、「あの」、「本」、「を」、「あげた」という形態素に分割し、文節ID0「僕も」、文節ID1「彼女に」、文節ID2「あの」、文節ID3「本を」、文節ID4「あげた」の文節にまとめ上げ、2文節に関係する素性のベクタとして表現する。そして、SDA(Stack Dependency Analysis)方式(スタック依存関係解析)により、係り関係モデルDB31を用いてSVM21に、係り元文節が係り先候補文節に係るか否かを判断させる。
SDA方式では、例えば、文節ID0「僕が」をスタックに積み、スタックから降ろした文節ID0「僕が」と、次の文節ID1「彼女に」との係り関係をSVMにより判定し、係り関係ではないので、文節ID0「僕が」と次の文節ID1「彼女に」とをスタックに積む。同様に、スタックから降ろした文節と次の文節との係り関係を判定し、係り関係ではない場合にスタックに積み、係り関係である場合に、文節同士を係り元文節と係り先文節として対応付けて記憶し、更にスタックから文節を降ろし係り関係をSVMによって判定し係り関係である場合には対応付け、係り関係でない場合にはスタックに積む。この処理を繰り返して、係り受け解析を行う。したがって、SDA方式では、時間計算量の上限が文節数の数に比例し、計算効率の向上がされている(非特許文献1参照)。
SVM21は、素性のベクタとして表現された2文節の係り関係を、係り関係モデルDB31を用いて判定する。例えば、2文節の関係を表す素性ベクタを、係り関係モデルDB31のパラメータを用いて評価し、算出した評価値に基づいて2文節間の係り関係を判定すると共に、算出した2文節の係り関係の評価の絶対値を出力する。係り受け解析部12は、SVM21が出力する2文節の文節ID、2文節の係り関係の評価の絶対値等を解析結果DB32に記憶する(後述する図6参照)。そして、係り受け解析部12は、SVM21が出力した値を絶対値の小さい順にソートし、絶対値の小さい順に、文IDを取り出し、重複を除いてN文を選ぶ。ここで、Nは正解コーパスを作るのに準備できる作業者の数等に応じて決める。
選択部13は、係り受け解析部12が行った係り受け解析の結果が所定の場合に一の文を選択する。すなわち、一の文の係り受け解析の結果として、SVM21が出力した絶対値が所定の場合に、能動学習装置10にとって文節の係り関係を決めるのが難しい文であると判断し、その文を選択する。所定の場合として、例えば、1つの文中で判断した文節間のSVM21の出力値の平均値が所定の値よりも小さい場合、1つの文中で判断した文節間のSVM21の出力値の最小値が所定の値よりも小さい場合、等がある。
正解受付部14は、選択部13が選択した一の文をユーザ端末60に提示し、提示した一の文を構成する文節の係り関係についての判定情報をユーザ端末60から受け付け、受け付けた判定情報に基づく正解データを作成する。例えば、選択した一の文を表示し、文節間の係り関係について、人手による、あるいは他の適当な方法による入力を受け付ける。この入力により、僕も[4]彼女に[4]あの[3]本を[4]あげた[―]、という正解データを得ることができる。
正解事例追加部15は、受け付けた文節の係り関係を明確にした正解データを正解事例データDB41に追加する。例えば、僕も[4]彼女に[4]あの[3]本を[4]あげた[―]、という正解データに文IDを対応付けて正解事例データDB41に追加する。この追加により、モデル作成部11は、追加された正解事例データDB41に基づいて係り関係モデルDB31を更新する。
図3は、本発明の一実施形態に係る能動学習装置10のハードウェア構成の一例を示す図である。能動学習装置10は、CPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。CPU1010は、能動学習装置10の機能を実行する。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
BIOS1060は、能動学習装置10の起動時にCPU1010が実行するブートプログラムや、能動学習装置10のハードウェアに依存するプログラム等を格納する。
ハードディスク1074は、能動学習装置10が本発明の機能を実行するためのプログラムを記憶しており、正解事例データDB41及び係り関係モデルDB31のデータベース等を記憶している。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
能動学習装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、能動学習装置10にインストールされ実行されてもよい。
前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを能動学習装置10に提供してもよい。
ここで、表示装置1022は、能動学習装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
また、通信I/F1040は、能動学習装置10を専用ネットワーク又は公共ネットワークを介して他のサーバ等と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
図4は、本発明の一実施形態に係る正解事例データDB41を示す図である。正解事例データDB41は、文IDに対応付けて文節IDと係り先文節IDとのペアを、文を構成する文節の数だけ記憶している。
図5は、本発明の一実施形態に係る係り関係モデルDB31の一つの例を示す図である。係り関係モデルDB31は、文節の係り関係を判定するのに必要なパラメータ等を記憶している。係り関係モデルDB31は、例えば、文節と、係り先候補文節との特徴量についての評価値を、図5のような保存形式及び記述形式で記憶している。なお、係り関係モデルDB31のパラメータの保存形式及び記述形式等は、サポートベクトルマシンによって種々様々である(サポートベクトルマシンが用いるパラメータ等については、参考文献として「サポートベクターマシン入門」ネロ クリスティアニーニ,ジョン ショー‐テイラー著,大北 剛翻訳(共立出版)等がある)。
図6は、本発明の一実施形態に係る係り受け解析結果DB32を示す図である。係り受け解析結果DB32は、文IDに対応付けて、平均値と、係り関係があると判定した文節のペアごとに係り受け解析結果の評価の絶対値とを記憶している。例えば、文A001の文節ID0と、文節ID4との係り受け解析結果の評価の絶対値は、1.0である。平均値は、文節のペアごとの評価の絶対値を算術平均した値である。
図7は、本発明の一実施形態に係る能動学習装置10の処理内容を示すフローチャートである。
ステップS101において、CPU1010は、正解事例データを取得する。正解事例データは、文節の係り関係を明確にしたデータを集めた正解事例データDB41から取得するとしてもよいし、通信I/F1040を介してサーバ等から取得するとしてもよい。その後、CPU1010は、処理をステップS102に移す。
ステップS102において、CPU1010は、取得した正解事例データに基づいて、係り関係モデルDB31を作成する。すなわち、CPU1010は、正解事例データに基づいて、文節の係り関係を判定する情報として、文節間の係り関係を特徴付ける素性(例えば、特徴量)を評価するパラメータ(例えば、評価値)を係り関係モデルDB31に記憶する。その後、CPU1010は、処理をステップS103に移す。
ステップS103において、CPU1010は、終了か否かを判断する。終了の判断は、新たな文が尽きたとき、処理時間等が超過したとき、予め用意した精度管理用の例文を解析させて所望の精度が得られたとき等のいずれかが成立するときとしてよい。この判断がYESの場合は、処理を終了する。この判断がNOの場合は、処理をステップS104に移す。
ステップS104において、CPU1010は、新たな文を取得する。新たな文は、文節の係り関係が明確にされていない文である。新たな文の取得は、新たな文を集めたハードディスク1074から取得するとしてもよいし、通信I/F1040を介してサーバ等から取得するとしてもよい。その後、CPU1010は、処理をステップS105に移す。
ステップS105において、CPU1010は、解析すべき新たな文が終了か否かを判断する。この判断がYESの場合は、処理をステップS108に移す。この判断がNOの場合は、処理をステップS106に移す。
ステップS106において、CPU1010は、新たな文について係り関係を解析する。すなわち、CPU1010は、新たな文を形態素に分割し、文節にまとめ上げ、2文節に関係する素性のベクタとして表現する。そして、SDA方式により、係り関係モデルDB31を用いてSVM21に、係り元文節が係り先候補文節に係るか否かを判断させる。その後、CPU1010は、処理をステップS107に移す。
ステップS107において、CPU1010は、SVM21の出力を解析結果DB32に記憶する。すなわち、CPU1010は、SVM21が出力する2文節の文節ID、2文節の係り関係の評価の絶対値等を解析結果DB32に記憶する。その後、CPU1010は、処理をステップS104に移す。
ステップS108において、CPU1010は、解析結果DB32に記憶したデータをSVM21の出力した絶対値によってソートする。ソートは、1文中で、2文節間の評価の絶対値を平均した平均値によってソートする。なお、1文中で、2文節間の評価の絶対値を比較した中の最小値でソートしてもよい。その後、CPU1010は、処理をステップS109に移す。
ステップS109において、CPU1010は、ソートしたデータの中からSVM21が出力した絶対値の小さい順に重複を除いてN個の文を選択する。ここで、Nは正解コーパスを作るのに準備できる作業者の数等に応じて決める。なお、SVM21の出力した絶対値が所定の値以下である文を優先し、更に所定の値以上であっても作業者の数等に応じて決めるとしてもよい。その後、CPU1010は、処理をステップS110に移す。
ステップS110において、CPU1010は、正解データを作成する。より具体的には、CPU1010は、選択したN個の文のうち一の文をユーザ端末60に表示し、表示した一の文を構成する文節の係り関係についての判定情報を受け付け、受け付けた判定情報に基づく正解データを作成する(後述する図8を参照)そしてN個の文について同様にして文節の係り関係を明確にした正解データを作成する。その後、CPU1010は、処理をステップS111に移す。
ステップS111において、CPU1010は、正解データを正解事例データDB41に追加する。すなわち、ステップS110において受け付けた文節の係り関係を明確にしたデータを正解事例データDB41に追加する。その後、CPU1010は、処理をステップS101に移し、正解事例データを取得する。
図8は、本発明の一実施形態に係る能動学習装置10が正解データを作成するためにユーザ端末60に表示する例を示す図である。図8の表示例は、ユーザ端末60の表示装置61に表示した一の文を構成する文節の係り関係についての判定情報を受け付け、受け付けた判定情報によりユーザに正解データの入力を要求し、ユーザが正解データを入力していることを示す表示例である。
ユーザ端末60の表示装置61のタイトル表示欄101には、図8に示すように、正解データを入力することを促すメッセージと、対象となっている文「僕も彼女にあの本をあげた」が表示されていることを示している。
そして、入力表示欄102には、図8に示すように、係り元の文節ごとに係り先の文節IDを入力する欄を設けユーザが入力した文節IDが表示されていることを示している。
図9は、本発明の一実施形態に係る能動学習装置10の実験結果を示す図である。図9は、横軸を文の数とし、縦軸を係り受け解析の正解度とし、正解事例データ数に対する係り受け解析の正確度を示している。正解事例データの増加のさせ方の違いによる正解度の変化を示している。太線201(min act)は、1つの文中で判断した文節間のSVMの出力値の最小値が小さい文から追加した場合である。細線202(avg act)は、1つの文中で判断した文節間のSVMの出力値の平均値が所定の値よりも小さい文から追加した場合である。破線203(passive)は、受動学習(訓練用の正解コーパス内での出現順)に追加した場合を示している。minの1000文とpassiveの2000文が同程度の精度を得ていることが分かる。minの戦略に従うと、passiveの半分の文数で同じ精度が得られたことを示している。
実施例1によれば、本発明に係る能動学習装置10は、日本語を構成する文節の係り関係の正解事例データDB41に基づいて、文節の係り関係を判定するための判定情報を作成し、係り関係モデルDB31に記憶する。そして、本発明に係る能動学習装置10は、一の文を係り関係モデルDB31を用いて係り受け解析を行い、解析結果を出力し、出力した解析結果が所定の場合に一の文を選択し、選択した一の文をユーザ端末60の表示装置61に表示し、表示した一の文を構成する文節の係り関係についての判定情報を受け付け、受け付けた判定情報に基づく正解データを正解事例データDB41に追加し、追加された正解事例データDB41に基づいて係り関係モデルDB31を更新する。
更に、本発明に係る能動学習装置10は、係り関係モデルDB31を用いるSVM21(サポートベクトルマシン)の出力を係り受け解析の解析結果として出力する。したがって、係り関係モデルDB31を用いるSVM21の出力に基づいて選択された一の文は、能動学習装置10にとって文節の係り関係を決めるのが難しい文であるので、文節の係り関係を明確にした正解データを作成し、正解事例データDB41に追加することによって、同様の文を解析できるように更新された係り関係モデルDB31を効率よく作成することができ、係り受け解析の精度も効率よく上げることができる。したがって、本発明に係る能動学習装置10は、日本語係り受け解析において、係り関係モデルDB31を用いて選択した文の正解データを作成するので、受動学習の場合よりも、より少ない人手コストで高い精度が得られる。
[実施例2]
実施例2に係る能動学習装置10は、実施例1の図1〜図3と同様の構成を備えている。そして、訓練事例の1文を構成する全ての文節の係り関係について正解データを受け付ける必要はなく、一部の文節の係り関係についてのみ正しい係り関係を明確にした情報を受け付けることにより、正解事例データDB41に正解データを追加する。
選択部13は、文節のペアについて係り受け解析部12が解析結果として出力する評価値を比較し、評価値が小さい順に文節のペアを選択し、正解受付部14は、選択部13が選択した文節のペアをユーザ端末60に提示し、提示した文節のペアの係り関係について、正しい係り先文節の情報をユーザ端末60から受け付ける。すなわち、選択部13は、文節のペアについての評価値を小さい順にソートし、評価値が小さい順に文節のペアを選択する。正解受付部14は、選択部13が選択した文節のペアをユーザ端末60に表示し、正しい文節の係り関係をユーザ端末60から受け付ける。
例えば、能動学習装置10は、実施例1と同様に、2つの文節間が依存関係にあるかどうかをSVM21により判定し、SVM21の出力の絶対値である評価値(a)、その出力が得られた文ID(b)、依存関係を調べた文節IDのペア(c)を全て記憶する。次に、SVM21の出力の絶対値を小さい順にソートし、小さい順に{(a),(b),(c)}を単位とする組を複数取り出しn個を選ぶ。nは、正解コーパスを作成するのに準備できる作業者の人数等に応じて決める。その後、取り出したn個の文節ペアについて人手で正解データを入力し、今までの正解データに加える。すなわち、SVM21の出力値の絶対値(すなわち、評価値)がより小さい場合はSVM21の判定がより不確かであることを示していると解釈できることから、能動学習装置10は、係り関係が最も曖昧な文節のペアを含む文を選び、その文の正しい係り関係を作成し、優先して正解データに追加する。そして、能動学習装置10は、この手順を繰り返し行い、予算(時間や費用)が尽きたとき、予め用意しておいた精度測定用の例文を解析させて精度を測定し所定の精度が得られたとき、あるいは、ラベルなし事例が尽きたときに終了する。
ここで、取り出した文節のペア(j,i)が係り元と係り先とを示し、第j番目の文節を係り元とし、第k番目の文節を本当の係り先(人手で与えたとする)とし、第i番目の文節を能動学習装置10が判定した係り先の文節とする。能動学習装置10は、次の場合に正解データを作成する(以下、モードSという)。
(イ)j<i<kの場合:第j番目の文節が第i番目の文節に係らないという正解事例を加え、かつ、第j番目の文節が第k番目の文節に係るという正解事例を加える。
(ロ)j<i=kの場合:第j番目の文節が第k番目の文節に係るという正解事例を加える。
(ハ)j<k<iの場合:第j番目の文節が第k番目の文節に係るという正解事例を加え、かつ、第j番目の文節が第i番目の文節に係らないという正解事例は加えない(すなわち、第j番目の文節が第i番目の文節に係らないという正解事例は作成しない)。
更に、能動学習装置10は、前述の場合に、通常の書き言葉の日本語で仮定される係り受けの制約条件において、係り関係は交差しない、という特徴を取り入れて、次の場合に正解データを作成する(以下、拡張モードSという)。
(イ)j<i<kの場合:第j番目の文節が第i番目の文節に係らないという正解事例を加え、かつ、第j番目の文節が第k番目の文節に係るという正解事例を加える。更に、k−1>jの場合、第k番目の文節の直前の第(k−1)番目の文節は第k番目の文節に係るという正解事例を加える。
(ロ)j<i=kの場合:第j番目の文節が第k番目の文節に係るという正解事例を加える。更に、k−1>jの場合、第k番目の文節の直前の第(k−1)番目の文節は第k番目の文節に係るという正解事例を加える。
(ハ)j<k<iの場合:第j番目の文節が第k番目の文節に係るという正解事例を加え、かつ、第j番目の文節が第i番目の文節に係らないという正解事例は加えない(すなわち、第j番目の文節が第i番目の文節に係らないという正解事例は作成しない)。更に、k−1>jの場合、第k番目の文節の直前の第(k−1)番目の文節は第k番目の文節に係るという正解事例を加える。
図10は、本発明の一実施形態に係る実施例2の、文節のペアの選択を示す図である。図10の例では、文ID、文節のペア及び評価値で構成されるデータを、評価値でソートした結果、文IDがB001の文節ID[0]と[1]のペアが最も評価値が小さいことを示している。そして、能動学習装置10は、評価値が小さい順に、例えば5個の文節のペアを選択する。なお、能動学習装置10は、評価値が小さい順に選択した、例えば5個の文節のペアのうち、評価値が所定の値(例えば、0.2)以下である文節のペア(図10の例では、番号1及び2)を選択するとしてもよい。
図11は、本発明の一実施形態に係る能動学習装置10の実施例2の処理内容を示すフローチャートである。
ステップS201〜S207は、図7のステップS101〜S107と同様である。すなわち、CPU1010は、正解事例データを取得し(ステップS201)、取得した正解事例データに基づいて、係り関係モデルDB31を作成し(ステップS202)、CPU1010は、終了か否かを判断する(ステップS203)。この判断がYESの場合は、処理を終了する。この判断がNOの場合は、処理をステップS204に移す。そして、CPU1010は、新たな文を取得し(ステップS204)、解析すべき新たな文が終了か否かを判断する(ステップS205)。この判断がYESの場合は、処理をステップS208に移す。この判断がNOの場合は、処理をステップS206に移す。
ステップS206において、CPU1010は、新たな文について係り関係を解析し、ステップS207において、CPU1010は、SVM21の出力等を解析結果DB32に記憶する。すなわち、CPU1010は、SVM21が出力する2文節の文節ID及び2文節の係り関係の評価の絶対値、その出力が得られた文ID等を解析結果DB32に記憶する。その後、CPU1010は、処理をステップS204に移す。
ステップS208において、CPU1010は、解析結果DB32に記憶したデータをSVM21の出力した絶対値によってソートする。ソートは、SVM21が出力した2文節間の評価の絶対値でソートする。その後、CPU1010は、処理をステップS209に移す。
ステップS209において、CPU1010は、ソートしたデータの中からSVM21が出力した絶対値の小さい順に重複を除いてN個の文節を選択する。ここで、Nは正解コーパスを作るのに準備できる作業者の数等に応じて決める。なお、選択するN個の文節は、SVM21の出力した絶対値が所定の値以下である文節を優先する。更に、所定の値以上であっても作業者の数等に応じて決めるとしてもよい。その後、CPU1010は、処理をステップS210に移す。
ステップS210において、CPU1010は、正解データを作成する。より具体的には、CPU1010は、選択したN個の文節のうち当該文節を含む文を、文節の係り関係を示すようにユーザ端末60に表示し、表示した一の文を構成する当該文節の係り関係について、正しい係り先文節の情報を受け付ける(後述する図12及び図13を参照)。正しい係り先文節の情報の受け付けは、SVM21の出力した絶対値に基づいて選択した文節について受け付ける。
そして、文節jを係り元とし、文節iを能動学習装置10が判定した係り先の文節とする文節のペア(j,i)と、正解として受け付けた文節kとにおいて、文節kの位置が
(イ)j<i<kの場合は、文節jが文節iに係らないという正解データを作成し、かつ、文節jが文節kに係るという正解データを作成する。
(ロ)j<i=kの場合は、文節jが文節kに係るという正解データを作成する。
(ハ)j<k<iの場合は、文節jが文節kに係るという正解データを作成し、かつ、文節jが文節iに係らないという正解データを作成しない。
更に、(イ)、(ロ)又は(ハ)の各々の手順において、正解データを作成すると共に、文節kの直前の文節(k−1)の位置が(k−1)>jの場合に、文節(k−1)が文節kに係ることを示す正解データを作成する。
そしてN個の文節について同様に、文節の係り関係を明確にした正解データを作成する。その後、CPU1010は、処理をステップS211に移す。
ステップS211において、CPU1010は、正解データを正解事例データDB41に追加する。すなわち、ステップS210において受け付けた文節の係り関係を明確にしたデータを正解事例データDB41に追加する。その後、CPU1010は、処理をステップS201に移し、正解事例データを取得する。
図12は、本発明の一実施形態に係る能動学習装置10が正解データを作成するためにユーザ端末60に表示する実施例2の例を示す図である。図12の表示例は、ユーザ端末60の表示装置61に表示した一の文を構成する文節の係り関係において、該当する文節のみについて、正しい係り先文節の情報を受け付けていることを示す表示例である。
図12に示すように、ユーザ端末60の表示装置61の係り関係表示欄301には、対象となっている文「欲しかった本棚と夫の机を買いにIKEAに行った」について、能動学習装置10が行った係り受け解析の結果に基づいて、文節の係り関係を示す表示がされていることを示している。判定情報入力欄302には、係り受け解析の結果に基づいて、係り元の文節IDごとに係り先の文節(係り関係のチェック、係り先の文節ID、係り関係のマーク、及び文節の内容)を示し、文節の係り関係が曖昧であると判断した文節のペアに対して、文末に近い文節からハイライト表示303をすることによって、正しい係り関係の入力を受け付けていることを示している。正しい係り先文節の情報の入力は、文末に近い文節から受け付ける。
図13は、図12に続く例を示す図である。図13の表示例は、図12に続いて、ユーザがハイライト表示303をされている文節について、正しい係り関係を入力したことを示す例である。そして、図13の係り関係表示欄301には、文節ID[1]の係り先が入力された文節ID[3]であるという正解データに基づいて、係り関係表示欄301の文節の係り関係を示す表示が改めて表示され、「本棚と」が「机を」に係る表示に改められていることを示している。同様に、図13の係り関係表示欄301には、文節ID[4]の係り先が入力された文節ID[6]であるという正解データに基づいて、係り関係表示欄301の文節の係り関係を示す表示が改めて表示され、「買いに」が「行った」に係る表示に改められていることを示している。
図14は、本発明の一実施形態に係る実施例2の正解事例データDB41を示す図である。正解事例データDB41は、文IDに対応付けて文節IDと係り先文節IDとのペアを、文を構成する文節の数だけ記憶している。そして、係り先文節は、文節ごとに対応付けられた係り先候補の文節のなかで、文節が係り先文節であることを示すデータ(例えば、D)、又は文節が係り先文節でないことを示すデータ(例えば、O)を記憶することによって表される。
図14の文IDがA001の例において、文節ID[3]が文節ID[4]に係り、文節ID[2]が文節ID[3]に係り、文節ID[1]が文節ID[4]に係ることが示されると、文節ID[0]は、文節ID[1]に係るか、又は文節ID[4]に係るかについてのみ、正しい係り先文節の情報を受け付ける。その結果、図14の例は、文節ID[0]と文節ID[2]及び文節ID[3]との係り先関係を示すべき欄に空欄マーク「−」が記憶されることを示している。日本語の係り関係は交差しないという原則に従って、より少ない人手コストでより効率を上げて、正解データを作成することができる。
図15は、本発明の一実施形態に係る能動学習装置10の実施例2の実験結果を示す図である。図15は、横軸を文の数とし、縦軸を係り受け解析の正解度とし、正解事例データ数に対する係り受け解析の正確度を示している。正解事例データの増加のさせ方の違いによる正解度の変化を示している。太線401は、実施例2の選択した文節ごとに正解データの入力を受け付ける実験結果である。細線402は、文ごとに正解データを入力する実施例1の実験結果、破線403は、受動学習の実験結果を示している。実施例2の実験結果によれば、同じ正解事例データ数であっても、実施例2では曖昧な文節のペアを解析できる正解事例データをより多く記憶しているので、実施例1よりも文節の係り関係を解析する精度が向上していることを示している。
図16は、本発明の一実施形態に係る能動学習装置10の実施例2の別の実験結果を示す図である。図16は、横軸を文の数とし、縦軸を係り受け解析の正解度とし、正解事例データ数に対する係り受け解析の正確度を示している。正解事例データの増加のさせ方の違いによる正解度の変化を示している。太線411は、実施例2の拡張モードSを示し、細線412は、実施例2のモードSを示し、破線413は、j<k<iのとき、文節jが文節iに係らないという正解データを作成する(以下、通常モードという)、実験結果を示している。当該実験結果によれば、モードS及び通常モードでは、正解事例データ数が約8000で正解度が0.875を超えるのに比べ、拡張モードSでは、正解事例データ数が約4000で正解度が0.875を超えている。すなわち、拡張モードSは、モードS及び通常モードよりもより少ない正解事例データで、一定の精度に到達し、文節の係り関係を解析する精度が向上していることを示している。
実施例2によれば、本発明に係る能動学習装置10は、文節のペアを構成する第1の文節及び第2の文節と、受け付けた正解データである第3の文節において、第1の文節の識別情報が第2の文節の識別情報より小さい場合であって、
(イ)第3の文節が、第2の文節より後ろに位置する場合は、第1の文節が第2の文節に係らないことを示す正解データを作成し、かつ、第1の文節が第3の文節に係ることを示す正解データを作成し、
(ロ)第3の文節が、第2の文節に等しい場合は、第1の文節が第3の文節に係ることを示す正解データを作成し、
(ハ)第3の文節が、第1の文節と第2の文節との間に位置する場合は、第1の文節が第3の文節に係ることを示す正解データを作成し、かつ、第1の文節が第2の文節に係らないことを示す正解データを作成しない。
そして、作成した正解データを正解事例データDB41に追加し、追加された正解事例データDB41に基づいて係り関係モデルDB31を更新する。したがって、正解データとして入力された係り先の文節の後ろの文節までも、係らないという正解データを作成し、必要としていない事例までも追加してしまう場合と比較して、更に、係り受け解析の精度を向上させることができる。
更に、実施例2によれば、本発明に係る能動学習装置10は、前述の(イ)、(ロ)又は(ハ)の各々の手順において、正解データを作成すると共に、第3の文節の直前の文節の識別情報が第1の文節の識別情報より大きい場合に、第3の文節の直前の文節が第3の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データDB41に追加し、追加された正解事例データDB41に基づいて係り関係モデルDB31を更新する。したがって、日本語の係り関係は交差しないという特徴を正解事例データに反映し、正解事例の数を増やすことができるので、更に、係り受け解析の精度を向上させることができる。
更に、実施例2によれば、本発明に係る能動学習装置10は、日本語を構成する文節の係り関係の正解事例データDB41に基づいて、文節の係り関係を判定するための判定情報を作成し、係り関係モデルDB31に記憶する。そして、本発明に係る能動学習装置10は、一の文を係り関係モデルDB31を用いて係り受け解析を行い、文節のペアについて出力した解析結果としての評価値を順次比較した中で、評価値が小さい順に文節のペアを選択し、選択した文節のペアをユーザ端末60の表示装置61に表示する。更に、選択した文節のペアをユーザ端末60の表示装置61に表示する際に、文節のペアを含む文について、文節の係り関係を示す表示をし、選択した文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた情報に基づいて文節の係り関係を示す表示を改めて表示する。そして、表示した文節の係り関係について、正しい係り先文節の情報をユーザ端末60から受け付け、受け付けた情報に基づく正解データを正解事例データDB41に追加し、追加された正解事例データDB41に基づいて係り関係モデルDB31を更新する。したがって、本発明に係る能動学習装置10は、1文を構成する全ての文節の係り関係についてではなく、文節のペアについての係り関係の評価値が小さい、すなわち文節の係り関係が曖昧な文節のペアについて、正しい係り先文節の情報についてユーザが容易に判断でき、正しい係り先文節の情報を容易に入力できる表示をし、正解データを受け付けるので、1文を構成する全ての文節の係り関係について正解データを受け付ける場合よりも、より少ない人手コストでより効率を上げて、正解データを作成することができる。その結果、本発明に係る能動学習装置10は、文節の係り関係を高い精度で判定することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
10 能動学習装置
11 モデル作成部
12 係り受け解析部
13 選択部
14 正解受付部
15 正解事例追加部
31 係り関係モデルDB
32 解析結果DB
41 正解事例データDB

Claims (9)

  1. 日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する能動学習装置であって、
    前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するモデル作成手段と、
    一文を構成する一部の文節を含む当該一文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力する係り受け解析手段と、
    前記係り受け解析手段が出力した解析結果から前記一文を構成する一部の文節から、係り関係を有すると判定された第1の文節と第2の文節とからなる文節のペアを選択する選択手段と、
    前記選択した文節のペアをユーザ端末に提示し、第3の文節を前記ユーザ端末から受け付ける正解受付手段と、
    前記第1の文節、前記第2の文節および前記第3の文節の前記一文における位置関係に応じて、異なる正解データを作成し正解事例データに追加する正解事例追加手段と、を備え、
    前記モデル作成手段は、前記追加された正解事例データに基づいて前記係り関係モデルを更新することを特徴とする能動学習装置。
  2. 前記係り受け解析手段は、前記係り関係モデルを用いるサポートベクトルマシンの出力を前記係り受け解析の解析結果として出力することを特徴とする請求項1に記載の能動学習装置。
  3. 前記係り関係モデルは、文節の係り関係を判定するために、文節間の特徴量と評価値との組を用いることを特徴とする請求項1又は2に記載の能動学習装置。
  4. 前記所定の場合は、前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が最も小さい場合であることを特徴とする請求項1乃至3のいずれかに記載の能動学習装置。
  5. 前記文節のペアを構成する前記第1の文節及び前記第2の文節と、前記正解受付手段が受け付けた前記第3の文節とにおいて、前記第1の文節の識別情報(文中での順番を表す識別番号)が前記第2の文節の前記識別情報より小さい場合であって、
    前記正解事例追加手段は、前記第1の文節及び前記第2の文節と前記第3の文節との位置関係により下記(イ)、(ロ)又は(ハ)のいずれかの手順によって正解データを作成し、作成した前記正解データを正解事例データに追加する、ことを特徴とする請求項1乃至4のいずれかに記載の能動学習装置。
    (イ)前記第3の文節の前記識別情報が、前記第2の文節の前記識別情報より大きい場合は、前記第1の文節が前記第2の文節に係らないことを示す正解データを作成し、かつ、前記第1の文節が前記第3の文節に係ることを示す正解データを作成する。
    (ロ)前記第3の文節の前記識別情報が、前記第2の文節の前記識別情報に等しい場合は、前記第1の文節が前記第3の文節に係ることを示す正解データを作成する。
    (ハ)前記第3の文節の前記識別情報が、前記第1の文節の前記識別情報より大きく前記第2の文節の識別情報より小さい場合は、前記第1の文節が前記第3の文節に係ることを示す正解データを作成し、かつ、前記第1の文節が前記第2の文節に係らないことを示す正解データを作成しない。
  6. 前記(イ)、(ロ)又は(ハ)の各々の手順において、前記正解データを作成すると共に、前記第3の文節の直前の文節の前記識別情報が前記第1の文節の前記識別情報より大きい場合に、前記第3の文節の直前の文節が前記第3の文節に係ることを示す正解データを作成し、作成した正解データを正解事例データに追加する、ことを特徴とする請求項5に記載の能動学習装置。
  7. 前記選択手段は、文節のペアについて前記係り受け解析手段が出力した解析結果としての評価値を順次比較した中で、前記評価値が小さい順に前記文節のペアを選択し、
    前記正解受付手段は、前記選択手段が選択した前記文節のペアをユーザ端末に提示し、提示した前記文節のペアの係り関係ごとに、正しい係り先文節の情報を前記ユーザ端末から受け付ける、ことを特徴とする請求項1乃至6のいずれかに記載の能動学習装置。
  8. 前記提示において、前記正解受付手段は、前記文節のペアを含む文について、文節の係り関係を示す表示をし、前記文節のペアの係り関係ごとに、正しい係り先文節の情報の入力を受け付け、受け付けた該情報に基づいて前記文節の係り関係を示す表示を改めて表示する、ことを特徴とする請求項7に記載の能動学習装置。
  9. 能動学習装置が実行する、日本語を構成する文節の係り関係を解析する係り受け解析について能動学習する方法であって、
    前記文節の係り関係の正解事例データに基づいて、文節の係り関係を判定する係り関係モデルを作成し、記憶するステップと、
    一文を構成する一部の文節を含む当該一文を前記係り関係モデルを用いて前記係り受け解析を行い、解析結果を出力するステップと、
    前記係り受け解析手段が出力した解析結果から前記一文を構成する一部の文節から、係り関係を有すると判定された第1の文節と第2の文節とからなる文節のペアを選択するステップと、
    前記選択した文節のペアをユーザ端末に提示し、第3の文節を前記ユーザ端末から受け付けるステップと、
    前記第1の文節、前記第2の文節および前記第3の文節の前記一文における位置関係に応じて、異なる正解データを作成し正解事例データに追加するステップと、
    前記追加された正解事例データに基づいて前記係り関係モデルを更新するステップと、
    を備えることを特徴とする方法。
JP2009094374A 2008-11-20 2009-04-08 能動学習装置及び方法 Active JP5220676B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009094374A JP5220676B2 (ja) 2008-11-20 2009-04-08 能動学習装置及び方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008297282 2008-11-20
JP2008297282 2008-11-20
JP2009094374A JP5220676B2 (ja) 2008-11-20 2009-04-08 能動学習装置及び方法

Publications (2)

Publication Number Publication Date
JP2010152858A JP2010152858A (ja) 2010-07-08
JP5220676B2 true JP5220676B2 (ja) 2013-06-26

Family

ID=42571833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009094374A Active JP5220676B2 (ja) 2008-11-20 2009-04-08 能動学習装置及び方法

Country Status (1)

Country Link
JP (1) JP5220676B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5823441B2 (ja) * 2013-04-26 2015-11-25 日本電信電話株式会社 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
JP6391617B2 (ja) * 2016-03-18 2018-09-19 ヤフー株式会社 学習装置、文章自動生成装置および学習方法

Also Published As

Publication number Publication date
JP2010152858A (ja) 2010-07-08

Similar Documents

Publication Publication Date Title
US9727553B2 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
JPH05197712A (ja) 共起辞書構築・更新方法と共起・意味解析方法
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
CN103324609A (zh) 文本校对装置和文本校对方法
CN105045777A (zh) 使用互联网语料库的自动的上下文相关的语言校正和增强
KR20080021017A (ko) 텍스트 기반의 문서 비교
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
RU2646380C1 (ru) Использование верифицированных пользователем данных для обучения моделей уверенности
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
Ünal et al. A hierarchical approach to makam classification of Turkish makam music, using symbolic data
CN115860006A (zh) 一种基于语义句法的方面级情感预测方法及装置
JP5220676B2 (ja) 能動学習装置及び方法
RU2640718C1 (ru) Верификация атрибутов информационных объектов
CN112988962B (zh) 文本纠错方法、装置、电子设备及存储介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN114580556A (zh) 专利文献的预评估方法及装置
CN112071304B (zh) 一种语意分析方法及装置
CN114595684A (zh) 一种摘要生成方法、装置、电子设备及存储介质
Romanchuk et al. Intellectual Analysis System Project for Ukrainian-language Artistic Works to Determine the Text Authorship Attribution Probability
CN113901203A (zh) 一种文本分类方法、装置、电子设备及存储介质
Stehouwer Statistical language models for alternative sequence selection
KR20210003540A (ko) 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130306

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5220676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250