JP2006252047A

JP2006252047A - 言語処理装置および言語処理プログラム

Info

Publication number: JP2006252047A
Application number: JP2005065959A
Authority: JP
Inventors: Daigo Sugihara; 大悟杉原; Hiroshi Masuichi; 博増市; Shunichi Kimura; 俊一木村; Katsuhiko Itonori; 勝彦糸乘; Hideaki Ashikaga; 英昭足利; Hiroki Yoshimura; 宏樹吉村; Masanori Onda; 昌徳恩田; Masahiro Kato; 雅弘加藤; Masaki Satake; 雅紀佐竹
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-03-09
Filing date: 2005-03-09
Publication date: 2006-09-21
Also published as: US7664631B2; US20060206307A1

Abstract

【課題】処理対象である文章の断片が先行部分との間に照応連鎖の途切れを生じている場合の照応解析の誤解析を防ぐ。
【解決手段】
テキスト入力手段１１は、テキストデータを取得する。文書部分判定手段１５は、テキスト入力手段１１により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する。照応解析処理手段１７は、テキストデータの中から先行詞候補を選択するための基準として、文書部分判定手段１５により判定される照応連鎖の途切れの有無により異なった基準に従い、テキストデータに照応解析処理を施して出力する。
【選択図】図２

Description

この発明は、翻訳を含む言語処理を行う装置およびプログラムに関する。

スキャナなどの画像読取装置を用いて文書の画像を読み取り、その画像をテキスト化して得られる自然言語文に対して翻訳を行う技術が知られている。この種の技術として、例えば特許文献１や特許文献２に開示されたものがある。
特開平５−５４０７３６号公報特開平５−１０８７０３号公報特開平７−０９３３３３号公報特開２００２−５５９７７号公報特許０２８７８０４４号河原大輔、黒崎禎男、"語の大域的多義性解消に基づく省略解析の精度向上"、言語処理学会第１０回年次大会、２００４村田真樹、長尾真、"用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定"、自然言語処理、Ｖｏｌ．４、Ｎｏ．１、ｐｐ．８７−１０９、１９９７ Nigam, K., MacCallum, A., Thrun, S., Mitchell, T., "Learning to classify text form labeled and unlabeled documents", I proceedings of the 15th National Conference on Artificial Intelligence, 1998 Vapnik, V.N. "The Nature of Statistical Learning Theory, Springer", 1995

ところで、上記特許文献１および２を含めて、これまでの技術においては、取り込んだ自然言語文における照応現象、あるいは文書の一部のみを対象にした翻訳における照応現象が適切に取り扱われていなかった。ここで、照応現象とは、自然言語による情報の伝達の過程において、情報の受け取り側に容易に推測可能な事柄を指示する表現が、別の表現で置き換えられる現象である。ある言語表現が、後に現れる言語表現と同一の対象を指す場合、これら表現は照応関係にあるといい、前者を先行詞(antecedent)、後者を照応詞(anaphor)という。例えば、「太郎が本屋に行きました。彼は雑誌を買いました」における2文目の「彼」は照応詞であり、先行詞である「太郎」を参照している。日本語においては、照応詞はしばしば省略され、「太郎が本屋に行きました。雑誌を買いました」のような形態となる。省略された照応詞をゼロ代名詞という。仮に上記文の英訳を行う場合には、このゼロ代名詞の参照先が「太郎」であることが分からなければ、適切な英訳文を作成することはできない。今まで、文章内に現れる照応関係を同定する照応解析は、商品質な翻訳システムや質問応答タスクなどの応用分野において重要であると言及されてきており、数多くの研究および発明が存在する。例えば、特許文献３および４は、ゼロ代名詞の存在を前提とした照応解析を組み込むことによって翻訳機の性能を高めようとした発明を開示している。また、照応解析そのものに関しても、例えば非特許文献１など多々挙げることができる。しかしながら、それら既存の研究や発明における照応解析が対象としてきた自然言語による情報の伝達の過程とは、新聞記事や人間の会話のログなど、自然言語による情報の伝達に始点と終点が明確に存在するタイプのものであった。しかし、我々が実際に扱う書類や文献には、情報の伝達の終点と始点が途切れている場合も多い。例えば、スキャナを用いて文献の一部だけを取り込み、取り込んだ内容に対して翻訳などの処理を行いたい場合などは、取り込まれた内容は文献における情報の伝達の断片にすぎないのである。そのような場合に、情報の伝達の始点と終点が途切れている断片的な文書に対しては、先行詞と照応詞の参照の繋がりが途切れてしまい、必然的に、そのような場合の照応解析は不完全となる。文章の前の部分が省かれた場合、先行詞に関する情報を十分に照応解析システムに与えることができないからである。

この発明は、以上説明した事情に鑑みてなされたものであり、処理対象である文章の断片が先行部分との間で照応連鎖の途切れを生じている場合に照応解析の誤解析を防ぐことが可能な言語処理装置および言語処理プログラムを提供することを目的としている。

この発明は、テキストデータを取得するテキスト入力手段と、前記テキスト入力手段により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する文書部分判定手段と、テキストデータの中から照応詞に対応した先行詞候補を選択するための基準として、前記文書部分判定手段の判定結果により示される照応連鎖の途切れの有無により異なった基準に従い、前記テキストデータ入力手段により取得されたテキストデータに照応解析処理を施して出力する照応解析処理手段とを具備することを特徴とする言語処理装置並びにコンピュータを上記各手段として機能させる言語処理プログラムを提供する。
かかる言語処理装置および言語処理プログラムによれば、処理対象であるテキストデータが先行部分との間に照応連鎖の途切れを生じているか否かの判定結果に基づき、照応解析処理において照応詞に対応した先行詞候補を選択する基準が切り換えられる。このような切り換え制御により、誤った照応解析処理が行われるのを回避することができる。
好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段を具備し、前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段を具備し、前記文書部分判定手段は、前記照応詞検出手段により検出された照応詞に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段と、前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段とを具備し、前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報と前記照応詞検出手段により検出された照応詞とに基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、前記書式情報抽出手段は、文書の種類毎に定められた書式情報抽出ルールのうち前記文書分類手段により判定された種類に対応した書式情報抽出ルールに従い、前記テキストデータから書式情報を検出する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、前記照応詞検出手段は、文書の種類毎に定められた照応詞検出ルールのうち前記文書分類手段により判定された種類に対応した照応詞検出ルールに従い、前記テキストデータから照応詞を検出する。
他の好ましい態様において、前記文書部分判定手段は、文書の種類毎に設けられた学習データにより照応連鎖の途切れの有無の判定基準を学習し、前記テキストデータに先行部分との間に照応連鎖の途切れが生じているか否かを判定する２値分類器である。

以下、図面を参照し、この発明を実施するための最良の形態について説明する。図1はこの発明の一実施形態である言語処理装置の基本構成を示すブロック図である。この言語処理装置は、本実施形態に係る言語処理プログラムを例えばパーソナルコンピュータにインストールしてなるものであり、制御中枢たるＣＰＵ１と、ユーザインタフェースである表示部２および操作部３と、ネットワークを利用した通信の制御を行う通信インタフェース４と、ＣＰＵ１の作業エリアとして利用される揮発性メモリ５と、ＣＰＵ１により実行される各種のプログラムを記憶する不揮発性メモリ６を有している。また、本実施形態に係る言語処理装置には、スキャナ等の画像読取装置７と印刷装置８が接続される。

不揮発性メモリ６に記憶されたプログラムのうち主要なものとして、本実施形態に係る言語処理プログラムがある。この言語処理プログラムは、文章を表すテキストデータの照応解析を行い、欠けている情報を補うことにより翻訳可能なテキストデータに改善する前処理と、この前処理により改善されたテキストデータの翻訳を行う翻訳処理を行うものである。本実施形態では、画像読取装置７によって読み取られた画像データに文字認識処理を施すことにより得られるテキストデータが揮発性メモリ５に格納され、この揮発性メモリ５に格納されたテキストデータが言語処理プログラムの処理対象となり得る。このため、先行部分との間に照応連鎖の途切れを生じた文章の断片のテキストデータが言語処理プログラムの処理対象とされ易い。このような先行部分との間に照応連鎖の途切れを生じたテキストデータの照応解析を行ったとしても誤った照応解析結果しか得られない。この言語プログラムの特徴は、文章の断片のテキストデータの照応解析を行う場合に生じ易いこのような誤解析を防止する手段を講じた点にある。以下、言語処理プログラムの内容を説明するのに先立ち、この照応解析における誤解析の問題について説明する。

まず、以下の部分１および２を含む文章があったとする。
＜部分１＞Ａ市のＢ市長は２５日の会見で市による「Ｃ跡地」の買収を白紙撤回することを明らかにした。理由について市長は「跡地には債務上の問題があり公金を使って関与することができない」としている。
＜部分２＞かつて同市による買収方針が決定していたが撤回された経緯もあり、「二度の変更について市民の皆様に申し訳ない」と謝罪している。
そして、上記文章の部分２のみが照応解析の対象とされたとする。この時、部分2の「謝罪している」の部分にはガ格のゼロ代名詞があり、このゼロ代名詞は、照応解析の対象になっていない部分１に存在する「Ｂ市長」を参照している。照応解析を行った場合に、このゼロ代名詞は部分２中に現れる他の表現である「同市」、「買収方針」、「経緯」、「変更」、「二度」、「市民」、「皆様」などの名詞であると解析されてはならない。

しかし、既存の照応解析手法では、部分１が与えられてはいない状況において誤った解析を行う可能性がある。例えば、ガ格のゼロ代名詞の先行詞候補について、以下のようなルールによって先行詞候補をポイント付けし、最もポイントの高い先行詞候補を先行詞として選択する照応解析を行う場合を考える。
ルール１：ガ格のゼロ代名詞があった場合には先行詞候補が「が」や「は」が後置する先行詞候補ならば＋１０点
ルール２：ゼロ代名詞があった場合には、同じ文に含まれる先行詞候補は＋１０点、一文前には＋5点、2文前には＋2点をプラスする。
ルール３：台詞などの「」内の引用の先行詞候補には−５点
ルール４：ガ格のゼロ代名詞として、選択制限を満たすような先行詞候補には＋１５点

このようなルールを先行詞候補に対して適用し、最もポイントの高かつた先行詞候補をゼロ代名詞の先行詞として認定する。ここで、ルール1は、提題助詞「は」や格助詞「が」が後置する名詞はガ格の格要素になりやすいという一般的な観測結果、ルール2は、先行詞は照応詞の近くに存在しやすいという一般的な観測結果、ルール3は、台詞のような「」内の名詞は先行詞になりにくいという観測結果、ルール4は、ゼロ代名詞のガ格になれる名詞は限定されるという言語の性質を根拠とするものである。なお、これに類する手法を開示している文献として非特許文献２がある。

上記ルールを部分２に適用した場合、先行詞候補である「同市」、「買収方針」、「経緯」、「変更」、「市民」、「二度」、「皆様」に与えられるポイントは次のようになる。
同市：２５点、買収方針：１０点、経緯：１０点、方針：１０点、変更：１０点、市民：１０点、二度：５点、皆様：５点

結果として、上記の先行詞候補のうち、選択制限を満たし、かつゼロ代名詞と同文に含まれる「同市」がゼロ代名詞の先行詞として認定されることになる。しかし、この結果は誤りである。ここで、先行詞として認定されるために先行詞候補が持つべきポイントのスレシュホールドを定めて誤解析を防ぐという手段を講じたシステムも多々ある。しかし、一般にスレシュホールドの設定は難しく、先に挙げた非特許文献１の手法においても人手で設定されている。例えば、このゼロ代名詞の先行詞候補が持つべきポイントを「３０より大なり」と設定すると、「同市」はこのスレシュホールドを越えないので、「謝罪している」の先行詞としては選ばれない。しかし、その場合であると、部分１と部分２が同時に入力された場合に、「謝罪している」の正しい先行詞である「Ｂ市長」(ポイント２７)も「市長」(ポイント３０）も先行詞として選ばれない。照応解析がこのような不完全なものである場合には、画像読取装置７により取り込んだ文章の断片の翻訳を行う場合に翻訳の品質が保証されない。

本実施形態に係る言語処理プログラムの特徴は、照応解析の対象となっている文章がそれ単独で照応解析の対象となった場合に適切な照応解析結果が得られるものであるか否かを判断し、誤った照応解析が行われるのを回避する手段を設けた点にある。

図2はこの言語処理プログラムの特徴的な部分である前処理の内容をハードウェア的に表したブロック図である。この図において、テキスト入力手段１１は、前処理および翻訳処理の対象であるテキストデータを取得する手段である。文書分類手段１２は、テキスト入力手段１１により取得されたテキストデータの文書としての種類を分類する。この場合の文書の種類とは、新聞やマニュアル、特許文書など文書の形態に関する分類である。文書の種類によって文章の途切れていることの判定方法および文章における照応現象の現れ方は異なってくるため、この言語処理プログラムでは、文書の種類を判定するのである。

文書分類に関する手法は、例えば特許文献５に開示された手法や非特許文献３に開示された手法など多数の手法の中から選択可能である。本実施形態では、特許文献５に開示された手法に基づき、テキストデータを新聞記事、科学論文、マニュアル、特許文書など文書の種類などに分類する。この分類を行うために、本実施形態ではべクトル空間法により学習データから予め学習した分類リソースを用いて文書分類処理を行う。

書式情報抽出手段１３では、分類の結果を受けて、文書の種類毎に定められた書式抽出ルールのうちテキストデータによって表されている文書の種類に対応した書式抽出ルールに従ってテキストデータから書式情報を抽出する。例えば特許文書などでは、「請求項２」といった表現や「発明を実施するための最良の形態」などといった表現をパターンマッチにより書式情報として抽出する。論文などでは、「１章」、「２．２」などの章立てや、単独で出現する「abstract」や「conclusion」などの表現をルールに従って書式情報として抽出する。このような書式情報は、入力されたテキストデータが先行部分との間に照応連鎖の途切れを生じていないかの判定を行う上で有益である。例えば、論文などの文章において、abstractやタイトルなどがテキストデータの先頭にあった場合には、そのテキストデータは、始点から入力された一連のテキストデータであり、先行部分との間の照応連鎖の途切れはないと判断することができる。

照応詞検出手段１４では、テキスト入力手段１１により取得されたテキストデータに対して照応詞検出処理を施し、代名詞およびゼロ代名詞に関しての情報および「同市」や「同社」や「この」などの指示詞のような照応詞の存在を示す表現を抽出する。先に挙げた例の場合、この照応詞検出手段１４では、部分２の「謝罪している」にガ格のゼロ代名詞が存在していることが検出され、このゼロ代名詞位置は第一文目の主節とされる。例えば、「同市」や「同社」などの照応詞は必ず先行詞となる市の名前や会社の名前が、先行文脈において先行詞として存在することを表しており、このような表現が入力されたテキストデータの第一文に含まれている場合には入力テキストデータが文章の途中から始まっていると考えるのが妥当である。また、入力テキストデータの先頭に現れる代名詞、指示詞、ゼロ代名詞なども入力テキストデータが文章の途中から始まっていることを表す手掛かりとなる。そこで、照応詞検出手段１４では、この種の照応詞を入力テキストデータから検出して保持する。

文書部分判定手段１５は、書式情報抽出手段１３により入力テキストデータから抽出された書式情報および照応詞検出手段１４により入力テキストデータから検出されて保持された照応詞に基づき、入力テキストデータにおいて先行部分との間に照応連鎖の途切れがあるか否かの判定を行う手段である。この文書部分判定手段１５として例えばサポートベクトルマシン（ＳＶＭ）などの学習機能付き２値分類器を用いることができる。

ＳＶＭは、統計学習理論の枠組みとして提案された機械学習手法であり、例えば非特許文献４に開示されている。入力テキストデータにおいて照応連鎖の途切れがあるか否かの分類をＳＶＭに行わせるためには、その分類のための学習データをＳＶＭに与える必要がある。本実施形態では、この学習データを、実際に存在する論文、マニュアル、特許文書、新聞記事など文書分類の種類ごとに作成する。さらに詳述すると、各種の文書のコーパスデータを用意し、これらのコーパスデータに既存の照応解析システムによって照応解析処理を施す。そして、コーパスデータにおいて先行詞と照応詞の照応連鎖が途切れているものを正例、照応連鎖が途切れていないものを負例として、学習データを作成し、ＳＶＭに与えて学習させる。

本実施形態において画像読取装置７などにより入力されるテキストデータは、多様な途切れ方をしているものと考えられる。文章が途切れているかいないかを判定する判断材料は、先に挙げた書式情報と照応詞の検出結果であり、ＳＶＭはそれらの情報が様々な組み合わせで与えられた時の文章の途切れやすさを学習する。例えば、新聞などで「同市」や「同日」などの表現がテキストの最初の文に出現した場合は、文章が途切れている場合が多く、そのような場合はタイトルに相当する表現は文章にはないと考えられる。また、論文では、abstractという書式情報に続く一連のテキストは記述が完結しており、以後の論文の本文におけるゼロ代名詞や指示詞、代名詞の直接の先行詞が現れにくい。論文の第一章では、新たに論文の内容が詳しく論じられ、論文のabstractと以後の章の間に区切りが存在していたとしても照応解析に問題をもたらすことはない。しかし、第一章第一節と第二節にそれぞれ記述されている内容には、ゼロ代名詞や指示詞、代名詞による照応連鎖が存在している場合が多い。そのような文書分類ごとの各書式情報や照応詞の現れ方は、それぞれの文書分類ごとの照応連鎖が途切れやすさの偏りを示す手がかりとなる。そして、ユーザの多様な入力に２値分類器が対応できるよう、学習もそれら書式情報と照応詞の多様な組み合わせの学習データを用いてＳＶＭの学習を行う。

文書部分判定手段１５では、このようにして照応詞の検出結果と書式情報から入力テキストデータが文章の途中から始まっているか否かの判定が行われる。そして、文書部分判定結果出力手段１６によりその判定結果が出力される。

照応解析処理手段１７は、テキスト入力手段１１により取得されたテキストデータに照応解析処理を施し、テキストデータに対して翻訳に必要な情報を補充し、翻訳プログラムに引き渡す手段である。この照応解析処理手段１７は、テキストデータに照応詞が含まれている場合に、テキストデータ中の先行詞候補の中から照応詞に対応した先行詞を選択する。この選択では、各先行詞候補に例えば上述したルールを適用し、各先行詞に与えられるポイントを求める。そして、各先行詞候補に与えられたポイントの中にスレシュホールドを越えるものがない場合には、テキストデータ中に先行詞がないと判断し、照応解析処理のために現在のテキストデータに先行するテキストデータの入力を要求するメッセージを表示部２に表示するなど、誤った照応解析を避けるための処理を行う。

本実施形態では、文書部分判定手段１５の判定結果を示す情報が文書部分判定結果出力手段１６から照応解析処理手段１７に与えられ、スレシュホールドの制御が行われる。すなわち、現在、照応解析処理の対象となっているテキストデータにおいて照応連鎖が途切れていると判定された場合には、照応解析処理手段１７における照応解析処理の先行詞候補認定の条件を厳しくする。これにより、誤った照応解析を防ぐことができる。例えば、先に挙げた「同市」を誤って先行詞と認定してしまう例において、照応解析処理手段１７が各先行詞候補の持つべきポイントのスレシュホールドを「３０より大なり」とすると、「同市」はこのスレシュホールドを越えないので、「謝罪している」の先行詞としては選ばれない。この時、照応解析処理手段１７は、「謝罪している」のガ格のゼロ代名詞についで、先行詞の決定が不能であるとして処理を進めることができる。

この場合、上述のように先行するテキストデータの補充をユーザに要求する他、例えばゼロ代名詞が係る動詞の格フレーム辞書の内容から、その動詞のゼロ代名詞として適当な表現をそのゼロ代名詞の仮の先行詞として補完することもできる。上述の例だと、「謝罪する」の格フレーム辞書から、「謝罪している」のガ格の格要素は「人」や「組織」であることを得る。そして、「人」や「組織」の格要素は「何者か」という表現で置換するということをあらかじめ定めておき、「謝罪している」のガ格のゼロ代名詞は「何者かが」として補完を行うのである。「何者か」によるゼロ代名詞補完は、真に正しい補完ではないが、「同市」のような明らかに誤った補完でもなく、限られた入力に対する最良の解である。この時、「何者か」は「someone」として訳出が可能であり、入力文に対する翻訳結果も出力することができる。あらかじめ厳しいスレシュホールドを照応解析処理手段１７に設定した場合には、照応解析処理手段１７が正しい先行詞として選択可能な先行詞候補を選択することができないこと起こり得る。しかしながら、本実施形態では、入力テキストデータにおいて照応連鎖が途切れているか否かの判定結果により、スレシュホールドをその都度設定するので、入力テキストデータの性質に応じた柔軟な照応解析結果を得ることができる。

また、入力テキストデータにおいて照応連鎖が途切れていると判定したときにユーザに対して先行するテキストデータの補充を要請する態様では、照応解析処理手段１７が誤った照応解析処理を行う恐れを軽減することができ、同様に入力テキストデータを翻訳する場合にも、高品質な翻訳結果も得ることができる。

＜他の実施形態＞
以上、この発明の一実施形態を説明したが、この発明には、これ以外にも各種の実施形態が考えられる。
（１）上記実施形態において文書部分判定手段１５は、書式情報抽出手段１３により抽出された書式情報および照応詞検出手段１４により検出された照応詞の両方に基づいて、テキストデータにおける先行部分との間の照応連鎖の途切れの有無を判定したが、書式情報または照応詞のいずれか一方に基づいて途切れの有無を判定するようにしてもよい。
（２）例えば文献全体の画像を読み取ってテキスト化し、テキストデータを揮発性メモリ５に格納した後、このテキストデータを表示部２に表示させ、操作部３のマウス操作などによりテキストデータにおいて翻訳対象とする部分をユーザに選択させる態様が考えられる。この場合、翻訳対象であるテキストデータにおいて照応連鎖の途切れがある旨の判定結果が得られた場合に、揮発性メモリ５に格納されたテキストデータの範囲内において照応解析の対照となるテキストデータの範囲を拡大する処理を行うようにしてもよい。

この発明の一実施形態である言語処理装置の構成を示すブロック図である。同実施形態における言語処理プログラムの処理内容をハードウェア的に示したブロック図である。

符号の説明

１１…テキスト入力手段、１２…文書分類手段、１３…書式情報抽出手段、１４…照応詞検出手段、１５…文書部分判定手段、１６…文書部分判定結果出力手段、１７…照応解析処理手段。

Claims

テキストデータを取得するテキスト入力手段と、
前記テキスト入力手段により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する文書部分判定手段と、
テキストデータの中から照応詞に対応した先行詞候補を選択するための基準として、前記文書部分判定手段の判定結果により示される照応連鎖の途切れの有無により異なった基準に従い、前記テキストデータ入力手段により取得されたテキストデータに照応解析処理を施して出力する照応解析処理手段と
を具備することを特徴とする言語処理装置。
前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段を具備し、
前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定することを特徴とする請求項１に記載の言語処理装置。
前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段を具備し、
前記文書部分判定手段は、前記照応詞検出手段により検出された照応詞に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定することを特徴とする請求項１に記載の言語処理装置。
前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段と、
前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段とを具備し、
前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報と前記照応詞検出手段により検出された照応詞とに基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定することを特徴とする請求項１に記載の言語処理装置。
前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、
前記書式情報抽出手段は、文書の種類毎に定められた書式情報抽出ルールのうち前記文書分類手段により判定された種類に対応した書式情報抽出ルールに従い、前記テキストデータから書式情報を検出することを特徴とする請求項２または４に記載の言語処理装置。
前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、
前記照応詞検出手段は、文書の種類毎に定められた照応詞検出ルールのうち前記文書分類手段により判定された種類に対応した照応詞検出ルールに従い、前記テキストデータから照応詞を検出することを特徴とする請求項３または４に記載の言語処理装置。
前記文書部分判定手段は、文書の種類毎に設けられた学習データにより照応連鎖の途切れの有無の判定基準を学習し、前記テキストデータに先行部分との間に照応連鎖の途切れが生じているか否かを判定する２値分類器であることを特徴とする請求項１〜６のいずれか１の請求項に記載の言語処理装置。
コンピュータを、
テキストデータを取得するテキスト入力手段と、
前記テキスト入力手段により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する文書部分判定手段と、
テキストデータの中から照応詞に対応した先行詞候補を選択するための基準として、前記文書部分判定手段の判定結果により示される照応連鎖の途切れの有無により異なった基準に従い、前記テキストデータ入力手段により取得されたテキストデータに照応解析処理を施して出力する照応解析処理手段として機能させることを特徴とする言語処理プログラム。