JP5087844B2 - 照応解析システム、照応解析方法及び照応解析プログラム - Google Patents

照応解析システム、照応解析方法及び照応解析プログラム Download PDF

Info

Publication number
JP5087844B2
JP5087844B2 JP2006038138A JP2006038138A JP5087844B2 JP 5087844 B2 JP5087844 B2 JP 5087844B2 JP 2006038138 A JP2006038138 A JP 2006038138A JP 2006038138 A JP2006038138 A JP 2006038138A JP 5087844 B2 JP5087844 B2 JP 5087844B2
Authority
JP
Japan
Prior art keywords
noun
lexical chain
nouns
anaphoric
lexical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006038138A
Other languages
English (en)
Other versions
JP2007219726A (ja
Inventor
大悟 杉原
博 増市
智子 大熊
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2006038138A priority Critical patent/JP5087844B2/ja
Publication of JP2007219726A publication Critical patent/JP2007219726A/ja
Application granted granted Critical
Publication of JP5087844B2 publication Critical patent/JP5087844B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、入力した文集合に対して照応解析を行う照応解析システム、入力した文集合に対して照応解析を行う方法、及び、照応解析システムにて実行されるプログラムに関する。
文集合内のある言語表現が、別の位置に現れている言語表現と同一の対象を表す場合、これらの言語表現は照応関係にあるといい、それぞれが照応連鎖の要素となる。照応関係にある2つの言語表現のうち一方を照応詞と称し、他方を先行詞と称する。照応解析とは、文集合内の照応関係を特定する処理であり、高品質な翻訳システムや照応解析システム等の高度な自然言語処理アプリケーションの実現に不可欠な処理である。照応詞は、名詞、代名詞及びゼロ代名詞に分類することができ、それぞれの照応現象を名詞照応、代名詞照応及びゼロ照応と称する。
これらのうち、名詞照応の解析手法には、機械学習による手法がある。例えば、非特許文献1や非特許文献2に記載された名詞照応解析の手法は、解析対象の名詞の前方の文脈の利用が照応解析の精度向上に有益であることに鑑み、名詞照応解析の過程において、システムがそれまでに行った解析結果を用いて、照応詞と先行詞候補集合とが照応関係にあるか否かを判定する。また、特許文献1に記載の名詞照応解析の手法は、システムがユーザとの対話を行う際に、対話履歴を保持しておき、対話の際に省略された名詞を補間する。この手法も名詞照応解析における前方文脈の利用の1つである。
文集合内の名詞が照応関係にあるか否か、換言すれば、照応連鎖の要素となるか否かの評価には、2つの側面からの視点が必要となる。すなわち、2つの名詞が同一の対象を表すか否かという視点と、名詞が文集合上で言及されている要素であるか否かという視点である。2つの名詞が同一の対象を表すか否かという視点は、例えば、「モナコの外交官」と「イギリスの外交官」は、いずれも「外交官」という意味を有するが、それぞれ異なる対象を表すことを判断する視点である。
一方、名詞が文集合上で言及されている要素であるか否かという視点は、名詞指示性とも称され、2つの名詞が同一の対象を表すか否かという視点にも影響を与える。例えば、「北京オリンピックは2008年に北京で開催される。オリンピックの精神に則った大会になることを期待する。今回のオリンピックでは168カ国が参加する予定だ。」という文集合において、「北京オリンピック」は「今回のオリンピック」として文集合において直接に話題になっていることに鑑み、「北京オリンピック」における「オリンピック」と「今回のオリンピック」における「オリンピック」とは2つの名詞が同一の対象を表すことを判断し、一方、「オリンピックの精神」における「オリンピック」は、「オリンピック一般」のことであり、直接に話題になっていないことに鑑み、「北京オリンピック」や「今回のオリンピック」における「オリンピック」とは区別するという視点である。
特許第3212618号公報 飯田龍、乾健太郎、松本裕治、関根聡著、「最尤先行詞候補を用いた日本語名詞同一指示解析」情報処理学会論文誌、Vol.46、No.3、2005年 X.Yang,J.Su,G.Zhou and C.L.Tan著、「An NP-Cluster approach to coreference resolution」、In Proceedings of 20th International Conference on Computational Linguistics (COLING04)、2004年
上述した名詞照応解析における解析の手がかりは、照応詞と先行詞候補のペアについての素性である。この素性は、例えば非特許文献1に記載された手法では、形態的な類似、文法的な類似、意味的な類似、位置的なタイプであり、非特許文献2に記載された手法では、名詞集合中の名詞と解析対象の名詞の数が一致するか否かの判定結果、名詞集合中の名詞と解析対象の名詞の性別が一致するか否かの判定結果、名詞集合中の名詞と解析対象の名詞の意味クラスが一致するか否かの判定結果、名詞集合の大きさ、名詞集合中の名詞と解析対象の名詞の文字列編集距離である。しかしながら、このような素性は、照応詞と先行詞候補のペアの関係を表すものであり、名詞が文集合上で言及されている要素であるか否かを表すものではない。
本発明の目的は、上述した問題を解決するものであり、照応解析の精度を向上させた照応解析システム、照応解析方法及び照応解析プログラムを提供するものである。
本発明は、入力した文集合に対して照応解析を行う照応解析システムであって、前記文集合における名詞について、語彙的な繋がりを有するものを組み合わせた第1の語彙的連鎖を生成する生成手段と、前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞のすべてが前記文集合の全体において修飾句としてのみ用いられているか否かを含む出現の仕方を表す素性を取得する取得手段と、前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定する特定手段とを有することを特徴とする。
この構成によれば、名詞のすべてが文集合全体において修飾句としてのみ用いられているか否かを含む出現の仕方を素性として用い、名詞の照応関係を特定しており、文集合の全体から得た情報に基づく照応解析が可能となり、精度向上を図ることができる。
また、本発明の照応解析システムは、前記生成手段が、同一の形態素、前方一致又は後方一致する文字列、及び、同一の意味を有する名詞を組み合わせた前記第1の語彙的連鎖を生成するようにしてもよい。
また、本発明の照応解析システムは、前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞の前記文集合の全体における出現の仕方を表す素性は、前記第1の語彙的連鎖に含まれる名詞の形態に関する出現の仕方を表す素性と文法に関する出現の仕方を表す素性とに分類されるようにしてもよい。
また、本発明の照応解析システムは、前記第1の語彙的連鎖に含まれる名詞の形態に関する出現の仕方を表す素性は、前記第1の語彙的連鎖に含まれる名詞と完全一致する名詞の数、及び前記第1の語彙的連鎖に含まれる名詞と主辞一致する名詞の数を含み、前記第1の語彙的連鎖に含まれる名詞の文法に関する出現の仕方を表す素性は、前記第1の語彙的連鎖に含まれる名詞と同一の文字列を有する名詞の文法機能の種類、前記第1の語彙的連鎖に含まれる名詞と同一の文字列を有する名詞が述語に係った回数、及び前記第1の語彙的連鎖に含まれる名詞と同一の主辞を有する名詞が述語に係った回数を含むようにしてもよい。
また、本発明の照応解析システムは、前記素性が、前記第1の語彙的連鎖に含まれる名詞の修飾句又は係り先の名詞についての素性を含むようにしてもよい。
また、本発明の照応解析システムは、前記特定手段が、前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞が照応連鎖の要素として相応しいか否かを評価し、該評価に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定するようにしてもよい。
また、本発明の照応解析システムは、前記特定手段が、前記素性に基づいて前記第1の語彙的連鎖を再構成した第2の語彙的連鎖を生成し、該第2の語彙的連鎖を前記第1の語彙的連鎖に含まれる名詞の照応関係として特定するようにしてもよい。
また、本発明の照応解析システムは、前記特定手段が、前記第1の語彙的連鎖に含まれず、且つ、前記第2の語彙的連鎖に含まれる名詞と予め定められた関係を有する名詞を前記第2の語彙的連鎖に加えた第3の語彙的連鎖を生成し、該第3の語彙的連鎖を前記第1の語彙的連鎖に含まれる名詞の照応関係として特定するようにしてもよい。
また、本発明は、入力した文集合に対して照応解析を行う方法であって、前記文集合における名詞について、語彙的な繋がりを有するものを組み合わせた第1の語彙的連鎖を生成する生成ステップと、前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞のすべてが前記文集合全体において修飾句としてのみ用いられているか否かを含む出現の仕方を表す素性を取得する取得ステップと、前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定する特定ステップとを有することを特徴とする。
また、本発明は、入力した文集合に対して照応解析を行う照応解析システムにて実行されるプログラムであって、前記文集合における名詞について、語彙的な繋がりを有するものを組み合わせた第1の語彙的連鎖を生成する生成ステップと、前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞のすべてが前記文集合全体において修飾句としてのみ用いられているか否かを含む出現の仕方を表す素性を取得する取得ステップと、前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定する特定ステップとを有することを特徴とする。
本発明によれば、文集合の全体から得た情報に基づく照応解析が可能となり、精度向上を図ることができる。
本発明の実施の形態について、図面を参照して具体的に説明する。図1及び図2は、照応解析システムのハードウェア構成の一例を示す図である。図1に示す照応解析システム100は、パーソナルコンピュータ(PC)であり、内部バス107に接続されたCPU101、メモリ102、ハードディスクドライブ(HDD)103、操作部105及びモニタ106によって構成される。一方、図2に示す照応解析システム100は、LAN等のバス113に接続されたサーバ111及びPC112により構成される。
図3は、照応解析システム100の機能ブロック図である。同図に示す照応解析システム100は、入力した文集合に対して照応解析を行うものである。この照応解析システム100は、構文意味解析部11、語彙的連鎖生成部12、素性抽出部13、機械学習部14、語彙的連鎖分割部15、語彙的連鎖外照応関係付与部16及び出力部17により構成される。これら各機能ブロックは、図1のハードウェア構成においては、CPU101がHDD103から読み出してメモリ102に記憶させた所定のプログラムを実行することによって実現される。一方、これら各機能ブロックは、図2のハードウェア構成においては、サーバ111がPC112の要求に応じて所定のプログラムを実行することによって実現される。
以下、図3に示す照応解析システム100における、入力した文集合中に出現した名詞の照応関係を特定する処理について説明する。この処理において最も重要な手掛かりは、表現の形態的な類似であり、多くの名詞照応解析の先行研究で利用されている。本実施形態では、名詞の照応現象が「語彙的連鎖に含まれる照応連鎖」と「語彙的連鎖に含まれない照応連鎖」とから成立していると考え、照応解析システム100は、文集合から「語彙的連鎖中に含まれる照応連鎖」と「語彙的連鎖に含まれない照応連鎖」とをそれぞれ別の処理によって得る。
図4は、照応解析システム100の処理を示すフローチャートであり、図5は、当該フローチャートの処理における情報の遷移を示す図である。構文意味解析部11は、文集合を入力すると(S101)、その入力した文集合に対して、形態素解析処理及び構文意味解析処理を施し、文集合における各文の形態素情報及び構文意味情報を取得する(S102)。
語彙的連鎖生成部12は、形態素情報及び構文意味情報に基づいて、文集合から語彙的なつながりを有するものを組み合わせた語彙的連鎖(図5のLC−A、LC−B、・・・)を生成する(S103)。語彙的連鎖とは、文集合に含まれる名詞について、同一の形態素、前方一致又は後方一致する文字列、及び、同一の意味を有するものを組み合わせたものである。ここで、名詞の意味については、例えば、語彙的連鎖生成部12が予め保持する分類語彙表における意味番号によって特定される。図6は、文集合と語彙的連鎖の対応関係の一例を示す図であり、文集合について、語彙的連鎖LC1及び語彙的連鎖LC2が生成される。
素性抽出部13は、語彙的連鎖に含まれる各名詞について、その名詞が照応連鎖の要素として相応しいか否かを評価するための素性を抽出する(S104)。具体的には、素性抽出部13は、非特許文献1に記載された手法によって、形態的な類似、文法的な類似、意味的な類似、位置的なタイプを素性として抽出するとともに、非特許文献2に記載された手法によって、名詞集合中の名詞と解析対象の名詞の数が一致するか否かの判定結果、名詞集合中の名詞と解析対象の名詞の性別が一致するか否かの判定結果、名詞集合中の名詞と解析対象の名詞の意味クラスが一致するか否かの判定結果、名詞集合の大きさ、名詞集合中の名詞と解析対象の名詞の文字列編集距離を素性として抽出する。これらの素性を基本素性と称する。
更に、素性抽出部13は、語彙的連鎖に含まれる名詞の文集合全体における出現の仕方を表す素性(LC素性)を抽出する。LC素性は、語彙的連鎖中の名詞の形態的な出現に関するものと、語彙的連鎖中の名詞の文法的な出現に関するものとに分類される。語彙的連鎖中の名詞の形態的な出現に関するLC素性は2種類存在し、語彙的連鎖中の1の名詞と完全一致する名詞の数、語彙的連鎖中の1の名詞と主辞一致する名詞の数である。一方、語彙的連鎖中の名詞の文法的な出現に関するLC素性は4種類存在し、語彙的連鎖中の1の名詞と同一の文字列を有する名詞が全て修飾句であるか否かの判定結果、語彙的連鎖中の1の名詞と同一の文字列を有する名詞の文法機能の種類、語彙的連鎖中の1の名詞と同一の文字列を有する名詞が述語に係った回数、語彙的連鎖中の1の名詞と同一の主辞を有する名詞が述語に係った回数である。
文集合の全体において、一度でも主語として用いられた名詞は、修飾句としてのみ用いられた名詞よりも文集合中での主要な話題を表しており、照応関係になりやすいと考えることができる。このため、本実施形態では、語彙的連鎖に含まれる名詞の文集合全体における出現の仕方を表すLC素性を用いるようにしている。
機械学習部14は、機械学習法の1つであるSVM(Support Vector Machine)の手法により、基本素性及びLC素性に基づいて、照応連鎖の要素として相応しいか否かを評価するための学習データを生成する。具体的には、機械学習部14は、語彙的連鎖に含まれる2つの名詞の全ての組み合わせに対応する名詞ペアを生成し、照応関係の正解コーパスに基づいて、各名詞ペアについて、同一の対象を表すならば正例、同一の対象を表さないならば負例とした学習データを生成する(S105)。
語彙的連鎖分割部15は、各語彙的連鎖中の全ての名詞ペアについて、照応連鎖として相応しいか否かを評価する(S106)。この評価には、名詞ペアが文字を共有しているか否かについてのヒューリスティクスと、上述した学習データとを用いる。更に、語彙的連鎖分割部15は、語彙的連鎖中の名詞ペアのうち、照応連鎖として相応しいものを抽出して、その相応しいものを組み合わせた新たな語彙的連鎖(再構成語彙的連鎖、図5のLC−A1、LC−A2、LC−B1、・・・))を生成する(S107)。図は、語彙的連鎖と再構成語彙的連鎖の対応関係の一例を示す図である。
語彙的連鎖外照応関係付与部16は、再構成語彙的連鎖中の名詞に、元の語彙的連鎖中の名詞以外の名詞との間に予め定められた関係を有する場合、その元の語彙的連鎖中の名詞以外の名詞を再構成語彙的連鎖に追加する(図5では、再構成語彙的連鎖LC−A2に名詞P1が追加されている)(S108)。
具体的には、語彙的連鎖外照応関係付与部16は、再構成語彙的連鎖に含まれる名詞Aに続く括弧内の名詞P、再構成語彙的連鎖に含まれる名詞Aが括弧に囲まれている場合における当該名詞Aの直前の名詞P、再構成語彙的連鎖に含まれる名詞Aと同一の品詞である名詞Pであって、且つ、名詞A及び名詞Pのいずれかが未知の語である場合における名詞Pが存在する場合、名詞Pを名詞Aが含まれる再構成語彙的連鎖に追加する。
出力部17は、語彙的連鎖外照応関係付与部16からの語彙的連鎖外の名詞が追加された再構成語彙的連鎖を、照応連鎖として出力する(S109)。
以下、従来の照応解析と比較しつつ、本実施形態の照応解析の一例を説明する。一例として、図8に示す文集合について考える。図8(a)に示す文集合1は文1、文2、文3からなり、図8(b)に示す文集合2は文4、文5、文6からなる。文1と文4、文2と文5はそれぞれ同じ文であり、名詞「地中」の文法的な使われ方は修飾句であり同一である。一方、文3と文6は、名詞「地中」の文法的な使われ方が異なる。具体的には、文3における名詞「地中」は修飾句として用いられているのに対し、文6における名詞「地中」は主語として用いられている。
すなわち、文1、文2、文3と文が連なる文集合1では、名詞「地中」は文集合1の全体を通して修飾表現として用いられており、文集合1の文脈の上で主要な話題を表しているとは判定されにくく、このような名詞は照応関係にはなりにくい。一方、文4、文5、文6と文が連なる文集合2では、文6において名詞「地中」が主語として出現しており、文集合2の文脈の上で主要な話題を表していると判定されやすく、このような名詞は照応関係にはなりやすい。このように、名詞が照応関係を有するか否かを判定するためには、文集合全体の情報が必要となる。
しかしながら、非特許文献2に記載された手法では、解析の対象としている名詞の前方の文脈のみを用い、後方の文脈については考慮されていないため、上述したような照応関係の生じやすさを判定できない。例えば、非特許文献2に記載された手法では、文集合1における文1の名詞「地中」と文2の名詞「地中」に対応する素性は、前方の文脈しか考慮されていないため、文集合2における文4の名詞「地中」と文5の名詞「地中」に対応する素性と同じものとなる。本来は、文集合1の文1の名詞「地中」と文2の名詞「地中」のペアには照応関係があり(正例)、文集合2の文4の名詞「地中」と文5の名詞「地中」のペアには照応関係がない(負例)との正解付けがなされる学習データが生成されるべきである。しかし、文集合1における文1の名詞「地中」と文2の名詞「地中」に対応する素性と、文集合2における文4の名詞「地中」と文5の名詞「地中」に対応する素性とが同一であるために、結果的に機械学習部14が誤った学習データを生成してしまうことになる。
一方、本実施形態におけるLC素性を用いた場合には、文集合1の文3の名詞「地中」と文集合2の文6の名詞「地中」とが文法的な使われ方が異なるために、文集合1の文1の名詞「地中」と文2の名詞「地中」に対応するLC素性と、文集合2の文4の名詞「地中」と文5の名詞「地中」に対応するLC素性とは異なる。
具体的には、非特許文献2に記載された手法では、文集合1の文1の名詞「地中」と文2の名詞「地中」に対応する素性のセットは、文1の名詞「地中」と文2の名詞「地中」に対応する基本素性、文1の名詞「地中」が属する名詞集合(それまでの解析結果)」と文2の名詞「地中」の素性となる。また、文集合2の文4の名詞「地中」と文5の名詞「地中」に対応する素性のセットは、文4の名詞「地中」と文5の名詞「地中」に対応する基本素性、文4の名詞「地中」が属する名詞集合(それまでの解析結果)」と文5の名詞「地中」の素性となる。これらの素性は、名詞のペアに関する素性と前方の文脈に関する素性のみであり、文集合の全体が考慮されていないために、文集合1の文1の名詞「地中」と文2の名詞「地中」に対応する素性のセットと、文集合2の文4の名詞「地中」と文5の名詞「地中」に対応する素性のセットとは、同一となってしまう。
一方、本実施形態では、文集合1の文1の名詞「地中」と文2の名詞「地中」に対応する素性のセットは、文1の名詞「地中」及び文2の名詞「地中」に対応する基本素性、文1の名詞「地中」に対応するLC素性及び文2の名詞「地中」に対応するLC素性である。そして、文1の名詞「地中」に対応するLC素性は、文1の名詞「地中」と完全一致する語彙的連鎖中の名詞の数=3、文1の名詞「地中」と主辞一致する語彙的連鎖中の名詞の数=3、文1の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が全て修飾句であるか否かの判定結果=1(YES)、文1の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞の文法機能の種類=1、文1の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が述語に係った回数=0、文1の名詞「地中」と同じ主辞を有する語彙的連鎖中の名詞が述語に係った回数=0となる。また、文2の名詞「地中」に対応するLC素性は、文2の名詞「地中」と完全一致する語彙的連鎖中の名詞の数=3、文2の名詞「地中」と主辞一致する語彙的連鎖中の名詞の数=3、文2の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が全て修飾句であるか否かの判定結果=1(YES)、文2の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞の文法機能の種類=1、文1の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が述語に係った回数=0、文1の名詞「地中」と同じ主辞を有する語彙的連鎖中の名詞が述語に係った回数=0となる。
また、文集合2の文4の名詞「地中」と文5の名詞「地中」に対応する素性のセットは、文4の名詞「地中」及び文5の名詞「地中」に対応する基本素性、文4の名詞「地中」に対応するLC素性及び文5の名詞「地中」に対応するLC素性である。そして、文4の名詞「地中」に対応するLC素性は、文4の名詞「地中」と完全一致する語彙的連鎖中の名詞の数=3、文1の名詞「地中」と主辞一致する語彙的連鎖中の名詞の数=3、文4の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が全て修飾句であるか否かの判定結果=0(NO)、文4の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞の文法機能の種類=2、文4の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が述語に係った回数=1、文1の名詞「地中」と同じ主辞を有する語彙的連鎖中の名詞が述語に係った回数=1となる。また、文5の名詞「地中」に対応するLC素性は、文5の名詞「地中」と完全一致する語彙的連鎖中の名詞の数=3、文5の名詞「地中」と主辞一致する語彙的連鎖中の名詞の数=3、文5の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が全て修飾句であるか否かの判定結果=0(NO)、文5の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞の文法機能の種類=2、文5の名詞「地中」と同じ文字列を有する語彙的連鎖中の名詞が述語に係った回数=1、文5の名詞「地中」と同じ主辞を有する語彙的連鎖中の名詞が述語に係った回数=1となる。これらの素性は、文集合の全体が考慮されているため、文集合1の文1の名詞「地中」と文2の名詞「地中」に対応する素性のセットと、文集合2の文4の名詞「地中」と文5の名詞「地中」に対応する素性のセットとは、異なるものとなり、学習データが正しく生成され、更には照応解析の精度を向上させることができる。
更には、本実施形態では、述語と係り受け関係にある名詞は、係り受け関係にない名詞よりも文集合中での主要な話題を表しており、照応関係になりやすいことに基づいて、名詞の修飾句や係り先の名詞についてのLC素性を用いることも可能である。
一例として、図9に示す文集合について考える。図9に示す文集合の「2005年に愛知で開催される万博」における名詞「万博」(万博(1))は、2005年に愛知で開催される特定の万博を表し、一方、「万国の人々が集まる万博の場」における名詞「万博(万博(2))は、万博一般を表している。本来は、これらの名詞「万博(1)」と名詞「万博(2)」とは、照応関係になく、これらのペアには負例との正解付けがなされる学習データが生成されるべきである。しかし、名詞「万博(1)」と名詞「万博(2)」とは、文字列が完全に同一であり、意味も同一であり、更には、文法的な使われ方も「修飾句」であり同一であるために、結果的に機械学習部14が誤った学習データを生成してしまう可能性がある。
そこで、素性抽出部13は、更に、名詞の修飾句や係り先の名詞についてのLC素性を抽出する。すなわち、名詞「万博(1)」には直接に係る名詞はなく、係り先の名詞は「渡辺代表」であり、名詞「万博(2)」に直接係る名詞はなく、係り先の名詞は「場」である。このため、素性抽出部13は、名詞「渡辺代表」のLC素性を名詞「万博(1)」の素性のセットに、名詞「場」のLC素性を名詞「万博(2)」の素性のセットに加える。
具体的には、名詞「万博(1)」の係り先の名詞「渡辺代表」のLC素性は、名詞「渡辺代表」と完全一致する語彙的連鎖中の名詞の数=2、名詞「渡辺代表」と主辞一致する語彙的連鎖中の名詞の数=4、名詞「渡辺代表」と同じ文字列を有する語彙的連鎖中の名詞が全て修飾句であるか否かの判定結果=0(NO)、名詞「渡辺代表」と同じ文字列を有する語彙的連鎖中の名詞の文法機能の種類=1、名詞「渡辺代表」と同じ文字列を有する語彙的連鎖中の名詞が述語に係った回数=2、名詞「渡辺代表」と同じ主辞を有する語彙的連鎖中の名詞が述語に係った回数=4であり、このLC素性が名詞「万博(1)」の素性のセットに加えられる。一方、名詞「万博(2)」の係り先の名詞「場」のLC素性は、名詞「場」と完全一致する語彙的連鎖中の名詞の数=0、名詞「場」と主辞一致する語彙的連鎖中の名詞の数=0、名詞「場」と同じ文字列を有する語彙的連鎖中の名詞が全て修飾句であるか否かの判定結果=0(NO)、名詞「場」と同じ文字列を有する語彙的連鎖中の名詞の文法機能の種類=0、名詞「場」と同じ文字列を有する語彙的連鎖中の名詞が述語に係った回数=0、名詞「場」と同じ主辞を有する語彙的連鎖中の名詞が述語に係った回数=0であり、このLC素性が名詞「万博(2)」の素性のセットに加えられる。従って、名詞「万博(1)」の素性のセットと詞「万博(2)」の素性のセットとは異なるものとなり、学習データが正しく生成され、更には照応解析の精度を向上させることができる。
このように、本実施形態の照応解析システム100では、名詞の文集合全体における出現の仕方をLC素性として用い、更にこのLC素性に基づく学習データによって名詞の照応関係を特定している。すなわち、文集合の全体から得た情報に基づく照応解析によって精度向上を図ることができる。なお、上述した実施形態では、語彙的連鎖外照応関係付与部16は、再構成語彙的連鎖中の名詞に、元の語彙的連鎖中の名詞以外の名詞との間に予め定められた関係を有する場合に、その元の語彙的連鎖中の名詞以外の名詞を再構成語彙的連鎖に追加したが、このような処理を行わない照応解析システムでもよい。
以上、説明したように、本発明に係る照応解析システム、照応解析方法及び照応解析プログラムによれば、照応解析の精度を向上させることができ、照応解析システム等として有用である。
照応解析システムのハードウェア構成の第1の例を示す図である。 照応解析システムのハードウェア構成の第2の例を示す図である。 照応解析システムの機能ブロック図である。 照応解析システムの処理を示すフローチャートである。 図5のフローチャートにおける情報遷移を示す図である。 文集合と語彙的連鎖の対応関係の一例を示す図である。 語彙的連鎖と再構成語彙的連鎖の対応関係の一例を示す図である。 文集合の第1及び第2の例を示す図である。 文集合の第3の例を示す図である。
符号の説明
11 構文意味解析部
12 語彙的連鎖生成部
13 素性抽出部
14 機械学習部
15 語彙的連鎖分割部
16 語彙的連鎖外照応関係付与部
17 出力部
100 照応解析システム
101 CPU
102 メモリ
103 HDD
105 操作部
106 モニタ
107 内部バス
111 サーバ
112 PC
113 バス

Claims (10)

  1. 入力した文集合に対して照応解析を行う照応解析システムであって、
    前記文集合における名詞について、語彙的な繋がりを有するものを組み合わせた第1の語彙的連鎖を生成する生成手段と、
    前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞のすべてが前記文集合の全体において修飾句としてのみ用いられているか否かを含む出現の仕方を表す素性を取得する取得手段と、
    前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定する特定手段とを有することを特徴とする照応解析システム。
  2. 前記生成手段は、同一の形態素、前方一致又は後方一致する文字列、及び、同一の意味を有する名詞を組み合わせた前記第1の語彙的連鎖を生成することを特徴とする請求項1に記載の照応解析システム。
  3. 前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞の前記文集合の全体における出現の仕方を表す素性は、前記第1の語彙的連鎖に含まれる名詞の形態に関する出現の仕方を表す素性と文法に関する出現の仕方を表す素性とに分類されることを特徴とする請求項1又は2に記載の照応解析システム。
  4. 前記第1の語彙的連鎖に含まれる名詞の形態に関する出現の仕方を表す素性は、前記第1の語彙的連鎖に含まれる名詞と完全一致する名詞の数、及び前記第1の語彙的連鎖に含まれる名詞と主辞一致する名詞の数を含み、
    前記第1の語彙的連鎖に含まれる名詞の文法に関する出現の仕方を表す素性は、前記第1の語彙的連鎖に含まれる名詞と同一の文字列を有する名詞の文法機能の種類、前記第1の語彙的連鎖に含まれる名詞と同一の文字列を有する名詞が述語に係った回数、及び前記第1の語彙的連鎖に含まれる名詞と同一の主辞を有する名詞が述語に係った回数を含むことを特徴とする請求項3に記載の照応解析システム。
  5. 前記素性は、前記第1の語彙的連鎖に含まれる名詞の修飾句又は係り先の名詞についての素性を含むことを特徴とする請求項3又は4に記載の照応解析システム。
  6. 前記特定手段は、前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞が照応連鎖の要素として相応しいか否かを評価し、該評価に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定することを特徴とする請求項1乃至5のいずれかに記載の照応解析システム。
  7. 前記特定手段は、前記素性に基づいて、前記第1の語彙的連鎖を再構成した第2の語彙的連鎖を生成し、該第2の語彙的連鎖を前記第1の語彙的連鎖に含まれる名詞の照応関係として特定することを特徴とする請求項1乃至6のいずれかに記載の照応解析システム。
  8. 前記特定手段は、前記第1の語彙的連鎖に含まれず、且つ、前記第2の語彙的連鎖に含まれる名詞と予め定められた関係を有する名詞を前記第2の語彙的連鎖に加えた第3の語彙的連鎖を生成し、該第3の語彙的連鎖を前記第1の語彙的連鎖に含まれる名詞の照応関係として特定することを特徴とする請求項7に記載の照応解析システム。
  9. 入力した文集合に対して照応解析を行う方法であって、
    前記文集合における名詞について、語彙的な繋がりを有するものを組み合わせた第1の語彙的連鎖を生成する生成ステップと、
    前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞のすべてが前記文集合全体において修飾句としてのみ用いられているか否かを含む出現の仕方を表す素性を取得する取得ステップと、
    前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定する特定ステップとを有することを特徴とする照応解析方法。
  10. 入力した文集合に対して照応解析を行う照応解析システムにて実行されるプログラムであって、
    前記文集合における名詞について、語彙的な繋がりを有するものを組み合わせた第1の語彙的連鎖を生成する生成ステップと、
    前記第1の語彙的連鎖中の1の名詞と同一の文字列を有する名詞のすべてが前記文集合全体において修飾句としてのみ用いられているか否かを含む出現の仕方を表す素性を取得する取得ステップと、
    前記素性に基づいて、前記第1の語彙的連鎖に含まれる名詞の照応関係を特定する特定ステップとを有することを特徴とする照応解析プログラム。
JP2006038138A 2006-02-15 2006-02-15 照応解析システム、照応解析方法及び照応解析プログラム Expired - Fee Related JP5087844B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006038138A JP5087844B2 (ja) 2006-02-15 2006-02-15 照応解析システム、照応解析方法及び照応解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006038138A JP5087844B2 (ja) 2006-02-15 2006-02-15 照応解析システム、照応解析方法及び照応解析プログラム

Publications (2)

Publication Number Publication Date
JP2007219726A JP2007219726A (ja) 2007-08-30
JP5087844B2 true JP5087844B2 (ja) 2012-12-05

Family

ID=38496979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006038138A Expired - Fee Related JP5087844B2 (ja) 2006-02-15 2006-02-15 照応解析システム、照応解析方法及び照応解析プログラム

Country Status (1)

Country Link
JP (1) JP5087844B2 (ja)

Also Published As

Publication number Publication date
JP2007219726A (ja) 2007-08-30

Similar Documents

Publication Publication Date Title
JP3906356B2 (ja) 構文解析方法及び装置
JP6727610B2 (ja) 文脈解析装置及びそのためのコンピュータプログラム
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
JP5497048B2 (ja) コンパラブルコーパスを使用する固有表現の翻字
EP1262879A1 (en) Automatic extraction of transfer mappings from bilingual corpora
Kuznetsov et al. A matter of framing: The impact of linguistic formalism on probing results
Glass et al. A naive salience-based method for speaker identification in fiction books
Oh et al. An ensemble of grapheme and phoneme for machine transliteration
Chen et al. Automated extraction of tree-adjoining grammars from treebanks
Kwong Natural language processing
Aghzal et al. Distributional word representations for code-mixed text in Moroccan Darija
Cho et al. Machines getting with the program: Understanding intent arguments of non-canonical directives
JP4401269B2 (ja) 対訳判断装置及びプログラム
Naptali et al. Topic-dependent language model with voting on noun history
JP2006252323A (ja) データ変換適性評価方法及びデータ変換装置
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
WO2018179729A1 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP5087844B2 (ja) 照応解析システム、照応解析方法及び照応解析プログラム
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2007133905A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Tsai et al. Applying an NVEF Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem
WO2009144890A1 (ja) 翻訳前換言規則生成システム
Turcato et al. Pre-processing closed captions for machine translation
Zhang et al. Robust Parsing with a Large HPSG Grammar.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120814

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5087844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees