JP2006252047A - 言語処理装置および言語処理プログラム - Google Patents
言語処理装置および言語処理プログラム Download PDFInfo
- Publication number
- JP2006252047A JP2006252047A JP2005065959A JP2005065959A JP2006252047A JP 2006252047 A JP2006252047 A JP 2006252047A JP 2005065959 A JP2005065959 A JP 2005065959A JP 2005065959 A JP2005065959 A JP 2005065959A JP 2006252047 A JP2006252047 A JP 2006252047A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- anaphoric
- document
- anaphor
- format information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Abstract
【課題】 処理対象である文章の断片が先行部分との間に照応連鎖の途切れを生じている場合の照応解析の誤解析を防ぐ。
【解決手段】
テキスト入力手段11は、テキストデータを取得する。文書部分判定手段15は、テキスト入力手段11により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する。照応解析処理手段17は、テキストデータの中から先行詞候補を選択するための基準として、文書部分判定手段15により判定される照応連鎖の途切れの有無により異なった基準に従い、テキストデータに照応解析処理を施して出力する。
【選択図】 図2
【解決手段】
テキスト入力手段11は、テキストデータを取得する。文書部分判定手段15は、テキスト入力手段11により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する。照応解析処理手段17は、テキストデータの中から先行詞候補を選択するための基準として、文書部分判定手段15により判定される照応連鎖の途切れの有無により異なった基準に従い、テキストデータに照応解析処理を施して出力する。
【選択図】 図2
Description
この発明は、翻訳を含む言語処理を行う装置およびプログラムに関する。
スキャナなどの画像読取装置を用いて文書の画像を読み取り、その画像をテキスト化して得られる自然言語文に対して翻訳を行う技術が知られている。この種の技術として、例えば特許文献1や特許文献2に開示されたものがある。
特開平5−540736号公報
特開平5−108703号公報
特開平7−093333号公報
特開2002−55977号公報
特許02878044号
河原大輔、黒崎禎男、"語の大域的多義性解消に基づく省略解析の精度向上"、言語処理学会第10回年次大会、2004
村田真樹、長尾真、"用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定"、自然言語処理、Vol.4、No.1、pp.87−109、1997
Nigam, K., MacCallum, A., Thrun, S., Mitchell, T., "Learning to classify text form labeled and unlabeled documents", I proceedings of the 15th National Conference on Artificial Intelligence, 1998
Vapnik, V.N. "The Nature of Statistical Learning Theory, Springer", 1995
ところで、上記特許文献1および2を含めて、これまでの技術においては、取り込んだ自然言語文における照応現象、あるいは文書の一部のみを対象にした翻訳における照応現象が適切に取り扱われていなかった。ここで、照応現象とは、自然言語による情報の伝達の過程において、情報の受け取り側に容易に推測可能な事柄を指示する表現が、別の表現で置き換えられる現象である。ある言語表現が、後に現れる言語表現と同一の対象を指す場合、これら表現は照応関係にあるといい、前者を先行詞(antecedent)、後者を照応詞(anaphor)という。例えば、「太郎が本屋に行きました。彼は雑誌を買いました」における2文目の「彼」は照応詞であり、先行詞である「太郎」を参照している。日本語においては、照応詞はしばしば省略され、「太郎が本屋に行きました。雑誌を買いました」のような形態となる。省略された照応詞をゼロ代名詞という。仮に上記文の英訳を行う場合には、このゼロ代名詞の参照先が「太郎」であることが分からなければ、適切な英訳文を作成することはできない。今まで、文章内に現れる照応関係を同定する照応解析は、商品質な翻訳システムや質問応答タスクなどの応用分野において重要であると言及されてきており、数多くの研究および発明が存在する。例えば、特許文献3および4は、ゼロ代名詞の存在を前提とした照応解析を組み込むことによって翻訳機の性能を高めようとした発明を開示している。また、照応解析そのものに関しても、例えば非特許文献1など多々挙げることができる。しかしながら、それら既存の研究や発明における照応解析が対象としてきた自然言語による情報の伝達の過程とは、新聞記事や人間の会話のログなど、自然言語による情報の伝達に始点と終点が明確に存在するタイプのものであった。しかし、我々が実際に扱う書類や文献には、情報の伝達の終点と始点が途切れている場合も多い。例えば、スキャナを用いて文献の一部だけを取り込み、取り込んだ内容に対して翻訳などの処理を行いたい場合などは、取り込まれた内容は文献における情報の伝達の断片にすぎないのである。そのような場合に、情報の伝達の始点と終点が途切れている断片的な文書に対しては、先行詞と照応詞の参照の繋がりが途切れてしまい、必然的に、そのような場合の照応解析は不完全となる。文章の前の部分が省かれた場合、先行詞に関する情報を十分に照応解析システムに与えることができないからである。
この発明は、以上説明した事情に鑑みてなされたものであり、処理対象である文章の断片が先行部分との間で照応連鎖の途切れを生じている場合に照応解析の誤解析を防ぐことが可能な言語処理装置および言語処理プログラムを提供することを目的としている。
この発明は、テキストデータを取得するテキスト入力手段と、前記テキスト入力手段により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する文書部分判定手段と、テキストデータの中から照応詞に対応した先行詞候補を選択するための基準として、前記文書部分判定手段の判定結果により示される照応連鎖の途切れの有無により異なった基準に従い、前記テキストデータ入力手段により取得されたテキストデータに照応解析処理を施して出力する照応解析処理手段とを具備することを特徴とする言語処理装置並びにコンピュータを上記各手段として機能させる言語処理プログラムを提供する。
かかる言語処理装置および言語処理プログラムによれば、処理対象であるテキストデータが先行部分との間に照応連鎖の途切れを生じているか否かの判定結果に基づき、照応解析処理において照応詞に対応した先行詞候補を選択する基準が切り換えられる。このような切り換え制御により、誤った照応解析処理が行われるのを回避することができる。
好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段を具備し、前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段を具備し、前記文書部分判定手段は、前記照応詞検出手段により検出された照応詞に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段と、前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段とを具備し、前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報と前記照応詞検出手段により検出された照応詞とに基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、前記書式情報抽出手段は、文書の種類毎に定められた書式情報抽出ルールのうち前記文書分類手段により判定された種類に対応した書式情報抽出ルールに従い、前記テキストデータから書式情報を検出する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、前記照応詞検出手段は、文書の種類毎に定められた照応詞検出ルールのうち前記文書分類手段により判定された種類に対応した照応詞検出ルールに従い、前記テキストデータから照応詞を検出する。
他の好ましい態様において、前記文書部分判定手段は、文書の種類毎に設けられた学習データにより照応連鎖の途切れの有無の判定基準を学習し、前記テキストデータに先行部分との間に照応連鎖の途切れが生じているか否かを判定する2値分類器である。
かかる言語処理装置および言語処理プログラムによれば、処理対象であるテキストデータが先行部分との間に照応連鎖の途切れを生じているか否かの判定結果に基づき、照応解析処理において照応詞に対応した先行詞候補を選択する基準が切り換えられる。このような切り換え制御により、誤った照応解析処理が行われるのを回避することができる。
好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段を具備し、前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段を具備し、前記文書部分判定手段は、前記照応詞検出手段により検出された照応詞に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段と、前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段とを具備し、前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報と前記照応詞検出手段により検出された照応詞とに基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、前記書式情報抽出手段は、文書の種類毎に定められた書式情報抽出ルールのうち前記文書分類手段により判定された種類に対応した書式情報抽出ルールに従い、前記テキストデータから書式情報を検出する。
他の好ましい態様において、言語処理装置または言語処理プログラムは、前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、前記照応詞検出手段は、文書の種類毎に定められた照応詞検出ルールのうち前記文書分類手段により判定された種類に対応した照応詞検出ルールに従い、前記テキストデータから照応詞を検出する。
他の好ましい態様において、前記文書部分判定手段は、文書の種類毎に設けられた学習データにより照応連鎖の途切れの有無の判定基準を学習し、前記テキストデータに先行部分との間に照応連鎖の途切れが生じているか否かを判定する2値分類器である。
以下、図面を参照し、この発明を実施するための最良の形態について説明する。図1はこの発明の一実施形態である言語処理装置の基本構成を示すブロック図である。この言語処理装置は、本実施形態に係る言語処理プログラムを例えばパーソナルコンピュータにインストールしてなるものであり、制御中枢たるCPU1と、ユーザインタフェースである表示部2および操作部3と、ネットワークを利用した通信の制御を行う通信インタフェース4と、CPU1の作業エリアとして利用される揮発性メモリ5と、CPU1により実行される各種のプログラムを記憶する不揮発性メモリ6を有している。また、本実施形態に係る言語処理装置には、スキャナ等の画像読取装置7と印刷装置8が接続される。
不揮発性メモリ6に記憶されたプログラムのうち主要なものとして、本実施形態に係る言語処理プログラムがある。この言語処理プログラムは、文章を表すテキストデータの照応解析を行い、欠けている情報を補うことにより翻訳可能なテキストデータに改善する前処理と、この前処理により改善されたテキストデータの翻訳を行う翻訳処理を行うものである。本実施形態では、画像読取装置7によって読み取られた画像データに文字認識処理を施すことにより得られるテキストデータが揮発性メモリ5に格納され、この揮発性メモリ5に格納されたテキストデータが言語処理プログラムの処理対象となり得る。このため、先行部分との間に照応連鎖の途切れを生じた文章の断片のテキストデータが言語処理プログラムの処理対象とされ易い。このような先行部分との間に照応連鎖の途切れを生じたテキストデータの照応解析を行ったとしても誤った照応解析結果しか得られない。この言語プログラムの特徴は、文章の断片のテキストデータの照応解析を行う場合に生じ易いこのような誤解析を防止する手段を講じた点にある。以下、言語処理プログラムの内容を説明するのに先立ち、この照応解析における誤解析の問題について説明する。
まず、以下の部分1および2を含む文章があったとする。
<部分1> A市のB市長は25日の会見で市による「C跡地」の買収を白紙撤回することを明らかにした。理由について市長は「跡地には債務上の問題があり公金を使って関与することができない」としている。
<部分2> かつて同市による買収方針が決定していたが撤回された経緯もあり、「二度の変更について市民の皆様に申し訳ない」と謝罪している。
そして、上記文章の部分2のみが照応解析の対象とされたとする。この時、部分2の「謝罪している」の部分にはガ格のゼロ代名詞があり、このゼロ代名詞は、照応解析の対象になっていない部分1に存在する「B市長」を参照している。照応解析を行った場合に、このゼロ代名詞は部分2中に現れる他の表現である「同市」、「買収方針」、「経緯」、「変更」、「二度」、「市民」、「皆様」などの名詞であると解析されてはならない。
<部分1> A市のB市長は25日の会見で市による「C跡地」の買収を白紙撤回することを明らかにした。理由について市長は「跡地には債務上の問題があり公金を使って関与することができない」としている。
<部分2> かつて同市による買収方針が決定していたが撤回された経緯もあり、「二度の変更について市民の皆様に申し訳ない」と謝罪している。
そして、上記文章の部分2のみが照応解析の対象とされたとする。この時、部分2の「謝罪している」の部分にはガ格のゼロ代名詞があり、このゼロ代名詞は、照応解析の対象になっていない部分1に存在する「B市長」を参照している。照応解析を行った場合に、このゼロ代名詞は部分2中に現れる他の表現である「同市」、「買収方針」、「経緯」、「変更」、「二度」、「市民」、「皆様」などの名詞であると解析されてはならない。
しかし、既存の照応解析手法では、部分1が与えられてはいない状況において誤った解析を行う可能性がある。例えば、ガ格のゼロ代名詞の先行詞候補について、以下のようなルールによって先行詞候補をポイント付けし、最もポイントの高い先行詞候補を先行詞として選択する照応解析を行う場合を考える。
ルール1:ガ格のゼロ代名詞があった場合には先行詞候補が「が」や「は」が後置する先行詞候補ならば+10点
ルール2:ゼロ代名詞があった場合には、同じ文に含まれる先行詞候補は+10点、一文前には+5点、2文前には+2点をプラスする。
ルール3:台詞などの「」内の引用の先行詞候補には−5点
ルール4:ガ格のゼロ代名詞として、選択制限を満たすような先行詞候補には+15点
ルール1:ガ格のゼロ代名詞があった場合には先行詞候補が「が」や「は」が後置する先行詞候補ならば+10点
ルール2:ゼロ代名詞があった場合には、同じ文に含まれる先行詞候補は+10点、一文前には+5点、2文前には+2点をプラスする。
ルール3:台詞などの「」内の引用の先行詞候補には−5点
ルール4:ガ格のゼロ代名詞として、選択制限を満たすような先行詞候補には+15点
このようなルールを先行詞候補に対して適用し、最もポイントの高かつた先行詞候補をゼロ代名詞の先行詞として認定する。ここで、ルール1は、提題助詞「は」や格助詞「が」が後置する名詞はガ格の格要素になりやすいという一般的な観測結果、ルール2は、先行詞は照応詞の近くに存在しやすいという一般的な観測結果、ルール3は、台詞のような「」内の名詞は先行詞になりにくいという観測結果、ルール4は、ゼロ代名詞のガ格になれる名詞は限定されるという言語の性質を根拠とするものである。なお、これに類する手法を開示している文献として非特許文献2がある。
上記ルールを部分2に適用した場合、先行詞候補である「同市」、「買収方針」、「経緯」、「変更」、「市民」、「二度」、「皆様」に与えられるポイントは次のようになる。
同市:25点、買収方針:10点、経緯:10点、方針:10点、変更:10点、市民:10点、二度:5点、皆様:5点
同市:25点、買収方針:10点、経緯:10点、方針:10点、変更:10点、市民:10点、二度:5点、皆様:5点
結果として、上記の先行詞候補のうち、選択制限を満たし、かつゼロ代名詞と同文に含まれる「同市」がゼロ代名詞の先行詞として認定されることになる。しかし、この結果は誤りである。ここで、先行詞として認定されるために先行詞候補が持つべきポイントのスレシュホールドを定めて誤解析を防ぐという手段を講じたシステムも多々ある。しかし、一般にスレシュホールドの設定は難しく、先に挙げた非特許文献1の手法においても人手で設定されている。例えば、このゼロ代名詞の先行詞候補が持つべきポイントを「30より大なり」と設定すると、「同市」はこのスレシュホールドを越えないので、「謝罪している」の先行詞としては選ばれない。しかし、その場合であると、部分1と部分2が同時に入力された場合に、「謝罪している」の正しい先行詞である「B市長」(ポイント27)も「市長」(ポイント30)も先行詞として選ばれない。照応解析がこのような不完全なものである場合には、画像読取装置7により取り込んだ文章の断片の翻訳を行う場合に翻訳の品質が保証されない。
本実施形態に係る言語処理プログラムの特徴は、照応解析の対象となっている文章がそれ単独で照応解析の対象となった場合に適切な照応解析結果が得られるものであるか否かを判断し、誤った照応解析が行われるのを回避する手段を設けた点にある。
図2はこの言語処理プログラムの特徴的な部分である前処理の内容をハードウェア的に表したブロック図である。この図において、テキスト入力手段11は、前処理および翻訳処理の対象であるテキストデータを取得する手段である。文書分類手段12は、テキスト入力手段11により取得されたテキストデータの文書としての種類を分類する。この場合の文書の種類とは、新聞やマニュアル、特許文書など文書の形態に関する分類である。文書の種類によって文章の途切れていることの判定方法および文章における照応現象の現れ方は異なってくるため、この言語処理プログラムでは、文書の種類を判定するのである。
文書分類に関する手法は、例えば特許文献5に開示された手法や非特許文献3に開示された手法など多数の手法の中から選択可能である。本実施形態では、特許文献5に開示された手法に基づき、テキストデータを新聞記事、科学論文、マニュアル、特許文書など文書の種類などに分類する。この分類を行うために、本実施形態ではべクトル空間法により学習データから予め学習した分類リソースを用いて文書分類処理を行う。
書式情報抽出手段13では、分類の結果を受けて、文書の種類毎に定められた書式抽出ルールのうちテキストデータによって表されている文書の種類に対応した書式抽出ルールに従ってテキストデータから書式情報を抽出する。例えば特許文書などでは、「請求項2」といった表現や「発明を実施するための最良の形態」などといった表現をパターンマッチにより書式情報として抽出する。論文などでは、「1章」、「2.2」などの章立てや、単独で出現する「abstract」や「conclusion」などの表現をルールに従って書式情報として抽出する。このような書式情報は、入力されたテキストデータが先行部分との間に照応連鎖の途切れを生じていないかの判定を行う上で有益である。例えば、論文などの文章において、abstractやタイトルなどがテキストデータの先頭にあった場合には、そのテキストデータは、始点から入力された一連のテキストデータであり、先行部分との間の照応連鎖の途切れはないと判断することができる。
照応詞検出手段14では、テキスト入力手段11により取得されたテキストデータに対して照応詞検出処理を施し、代名詞およびゼロ代名詞に関しての情報および「同市」や「同社」や「この」などの指示詞のような照応詞の存在を示す表現を抽出する。先に挙げた例の場合、この照応詞検出手段14では、部分2の「謝罪している」にガ格のゼロ代名詞が存在していることが検出され、このゼロ代名詞位置は第一文目の主節とされる。例えば、「同市」や「同社」などの照応詞は必ず先行詞となる市の名前や会社の名前が、先行文脈において先行詞として存在することを表しており、このような表現が入力されたテキストデータの第一文に含まれている場合には入力テキストデータが文章の途中から始まっていると考えるのが妥当である。また、入力テキストデータの先頭に現れる代名詞、指示詞、ゼロ代名詞なども入力テキストデータが文章の途中から始まっていることを表す手掛かりとなる。そこで、照応詞検出手段14では、この種の照応詞を入力テキストデータから検出して保持する。
文書部分判定手段15は、書式情報抽出手段13により入力テキストデータから抽出された書式情報および照応詞検出手段14により入力テキストデータから検出されて保持された照応詞に基づき、入力テキストデータにおいて先行部分との間に照応連鎖の途切れがあるか否かの判定を行う手段である。この文書部分判定手段15として例えばサポートベクトルマシン(SVM)などの学習機能付き2値分類器を用いることができる。
SVMは、統計学習理論の枠組みとして提案された機械学習手法であり、例えば非特許文献4に開示されている。入力テキストデータにおいて照応連鎖の途切れがあるか否かの分類をSVMに行わせるためには、その分類のための学習データをSVMに与える必要がある。本実施形態では、この学習データを、実際に存在する論文、マニュアル、特許文書、新聞記事など文書分類の種類ごとに作成する。さらに詳述すると、各種の文書のコーパスデータを用意し、これらのコーパスデータに既存の照応解析システムによって照応解析処理を施す。そして、コーパスデータにおいて先行詞と照応詞の照応連鎖が途切れているものを正例、照応連鎖が途切れていないものを負例として、学習データを作成し、SVMに与えて学習させる。
本実施形態において画像読取装置7などにより入力されるテキストデータは、多様な途切れ方をしているものと考えられる。文章が途切れているかいないかを判定する判断材料は、先に挙げた書式情報と照応詞の検出結果であり、SVMはそれらの情報が様々な組み合わせで与えられた時の文章の途切れやすさを学習する。例えば、新聞などで「同市」や「同日」などの表現がテキストの最初の文に出現した場合は、文章が途切れている場合が多く、そのような場合はタイトルに相当する表現は文章にはないと考えられる。また、論文では、abstractという書式情報に続く一連のテキストは記述が完結しており、以後の論文の本文におけるゼロ代名詞や指示詞、代名詞の直接の先行詞が現れにくい。論文の第一章では、新たに論文の内容が詳しく論じられ、論文のabstractと以後の章の間に区切りが存在していたとしても照応解析に問題をもたらすことはない。しかし、第一章第一節と第二節にそれぞれ記述されている内容には、ゼロ代名詞や指示詞、代名詞による照応連鎖が存在している場合が多い。そのような文書分類ごとの各書式情報や照応詞の現れ方は、それぞれの文書分類ごとの照応連鎖が途切れやすさの偏りを示す手がかりとなる。そして、ユーザの多様な入力に2値分類器が対応できるよう、学習もそれら書式情報と照応詞の多様な組み合わせの学習データを用いてSVMの学習を行う。
文書部分判定手段15では、このようにして照応詞の検出結果と書式情報から入力テキストデータが文章の途中から始まっているか否かの判定が行われる。そして、文書部分判定結果出力手段16によりその判定結果が出力される。
照応解析処理手段17は、テキスト入力手段11により取得されたテキストデータに照応解析処理を施し、テキストデータに対して翻訳に必要な情報を補充し、翻訳プログラムに引き渡す手段である。この照応解析処理手段17は、テキストデータに照応詞が含まれている場合に、テキストデータ中の先行詞候補の中から照応詞に対応した先行詞を選択する。この選択では、各先行詞候補に例えば上述したルールを適用し、各先行詞に与えられるポイントを求める。そして、各先行詞候補に与えられたポイントの中にスレシュホールドを越えるものがない場合には、テキストデータ中に先行詞がないと判断し、照応解析処理のために現在のテキストデータに先行するテキストデータの入力を要求するメッセージを表示部2に表示するなど、誤った照応解析を避けるための処理を行う。
本実施形態では、文書部分判定手段15の判定結果を示す情報が文書部分判定結果出力手段16から照応解析処理手段17に与えられ、スレシュホールドの制御が行われる。すなわち、現在、照応解析処理の対象となっているテキストデータにおいて照応連鎖が途切れていると判定された場合には、照応解析処理手段17における照応解析処理の先行詞候補認定の条件を厳しくする。これにより、誤った照応解析を防ぐことができる。例えば、先に挙げた「同市」を誤って先行詞と認定してしまう例において、照応解析処理手段17が各先行詞候補の持つべきポイントのスレシュホールドを「30より大なり」とすると、「同市」はこのスレシュホールドを越えないので、「謝罪している」の先行詞としては選ばれない。この時、照応解析処理手段17は、「謝罪している」のガ格のゼロ代名詞についで、先行詞の決定が不能であるとして処理を進めることができる。
この場合、上述のように先行するテキストデータの補充をユーザに要求する他、例えばゼロ代名詞が係る動詞の格フレーム辞書の内容から、その動詞のゼロ代名詞として適当な表現をそのゼロ代名詞の仮の先行詞として補完することもできる。上述の例だと、「謝罪する」の格フレーム辞書から、「謝罪している」のガ格の格要素は「人」や「組織」であることを得る。そして、「人」や「組織」の格要素は「何者か」という表現で置換するということをあらかじめ定めておき、「謝罪している」のガ格のゼロ代名詞は「何者かが」として補完を行うのである。「何者か」によるゼロ代名詞補完は、真に正しい補完ではないが、「同市」のような明らかに誤った補完でもなく、限られた入力に対する最良の解である。この時、「何者か」は「someone」として訳出が可能であり、入力文に対する翻訳結果も出力することができる。あらかじめ厳しいスレシュホールドを照応解析処理手段17に設定した場合には、照応解析処理手段17が正しい先行詞として選択可能な先行詞候補を選択することができないこと起こり得る。しかしながら、本実施形態では、入力テキストデータにおいて照応連鎖が途切れているか否かの判定結果により、スレシュホールドをその都度設定するので、入力テキストデータの性質に応じた柔軟な照応解析結果を得ることができる。
また、入力テキストデータにおいて照応連鎖が途切れていると判定したときにユーザに対して先行するテキストデータの補充を要請する態様では、照応解析処理手段17が誤った照応解析処理を行う恐れを軽減することができ、同様に入力テキストデータを翻訳する場合にも、高品質な翻訳結果も得ることができる。
<他の実施形態>
以上、この発明の一実施形態を説明したが、この発明には、これ以外にも各種の実施形態が考えられる。
(1)上記実施形態において文書部分判定手段15は、書式情報抽出手段13により抽出された書式情報および照応詞検出手段14により検出された照応詞の両方に基づいて、テキストデータにおける先行部分との間の照応連鎖の途切れの有無を判定したが、書式情報または照応詞のいずれか一方に基づいて途切れの有無を判定するようにしてもよい。
(2)例えば文献全体の画像を読み取ってテキスト化し、テキストデータを揮発性メモリ5に格納した後、このテキストデータを表示部2に表示させ、操作部3のマウス操作などによりテキストデータにおいて翻訳対象とする部分をユーザに選択させる態様が考えられる。この場合、翻訳対象であるテキストデータにおいて照応連鎖の途切れがある旨の判定結果が得られた場合に、揮発性メモリ5に格納されたテキストデータの範囲内において照応解析の対照となるテキストデータの範囲を拡大する処理を行うようにしてもよい。
以上、この発明の一実施形態を説明したが、この発明には、これ以外にも各種の実施形態が考えられる。
(1)上記実施形態において文書部分判定手段15は、書式情報抽出手段13により抽出された書式情報および照応詞検出手段14により検出された照応詞の両方に基づいて、テキストデータにおける先行部分との間の照応連鎖の途切れの有無を判定したが、書式情報または照応詞のいずれか一方に基づいて途切れの有無を判定するようにしてもよい。
(2)例えば文献全体の画像を読み取ってテキスト化し、テキストデータを揮発性メモリ5に格納した後、このテキストデータを表示部2に表示させ、操作部3のマウス操作などによりテキストデータにおいて翻訳対象とする部分をユーザに選択させる態様が考えられる。この場合、翻訳対象であるテキストデータにおいて照応連鎖の途切れがある旨の判定結果が得られた場合に、揮発性メモリ5に格納されたテキストデータの範囲内において照応解析の対照となるテキストデータの範囲を拡大する処理を行うようにしてもよい。
11…テキスト入力手段、12…文書分類手段、13…書式情報抽出手段、14…照応詞検出手段、15…文書部分判定手段、16…文書部分判定結果出力手段、17…照応解析処理手段。
Claims (8)
- テキストデータを取得するテキスト入力手段と、
前記テキスト入力手段により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する文書部分判定手段と、
テキストデータの中から照応詞に対応した先行詞候補を選択するための基準として、前記文書部分判定手段の判定結果により示される照応連鎖の途切れの有無により異なった基準に従い、前記テキストデータ入力手段により取得されたテキストデータに照応解析処理を施して出力する照応解析処理手段と
を具備することを特徴とする言語処理装置。 - 前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段を具備し、
前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定することを特徴とする請求項1に記載の言語処理装置。 - 前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段を具備し、
前記文書部分判定手段は、前記照応詞検出手段により検出された照応詞に基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定することを特徴とする請求項1に記載の言語処理装置。 - 前記テキスト入力手段により取得されたテキストデータから書式情報を抽出する書式情報抽出手段と、
前記テキスト入力手段により取得されたテキストデータから照応詞を検出する照応詞検出手段とを具備し、
前記文書部分判定手段は、前記書式情報抽出手段により抽出された書式情報と前記照応詞検出手段により検出された照応詞とに基づいて、当該テキストデータにおける照応連鎖の途切れの有無を判定することを特徴とする請求項1に記載の言語処理装置。 - 前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、
前記書式情報抽出手段は、文書の種類毎に定められた書式情報抽出ルールのうち前記文書分類手段により判定された種類に対応した書式情報抽出ルールに従い、前記テキストデータから書式情報を検出することを特徴とする請求項2または4に記載の言語処理装置。 - 前記テキスト入力手段により取得されたテキストデータが表す文書の種類を判定する文書分類手段を具備し、
前記照応詞検出手段は、文書の種類毎に定められた照応詞検出ルールのうち前記文書分類手段により判定された種類に対応した照応詞検出ルールに従い、前記テキストデータから照応詞を検出することを特徴とする請求項3または4に記載の言語処理装置。 - 前記文書部分判定手段は、文書の種類毎に設けられた学習データにより照応連鎖の途切れの有無の判定基準を学習し、前記テキストデータに先行部分との間に照応連鎖の途切れが生じているか否かを判定する2値分類器であることを特徴とする請求項1〜6のいずれか1の請求項に記載の言語処理装置。
- コンピュータを、
テキストデータを取得するテキスト入力手段と、
前記テキスト入力手段により取得されたテキストデータにおいて照応連鎖の途切れがあるか否かを判定する文書部分判定手段と、
テキストデータの中から照応詞に対応した先行詞候補を選択するための基準として、前記文書部分判定手段の判定結果により示される照応連鎖の途切れの有無により異なった基準に従い、前記テキストデータ入力手段により取得されたテキストデータに照応解析処理を施して出力する照応解析処理手段として機能させることを特徴とする言語処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005065959A JP2006252047A (ja) | 2005-03-09 | 2005-03-09 | 言語処理装置および言語処理プログラム |
US11/311,416 US7664631B2 (en) | 2005-03-09 | 2005-12-20 | Language processing device, language processing method and language processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005065959A JP2006252047A (ja) | 2005-03-09 | 2005-03-09 | 言語処理装置および言語処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006252047A true JP2006252047A (ja) | 2006-09-21 |
Family
ID=36972143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005065959A Pending JP2006252047A (ja) | 2005-03-09 | 2005-03-09 | 言語処理装置および言語処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7664631B2 (ja) |
JP (1) | JP2006252047A (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024173B1 (en) | 2006-09-11 | 2011-09-20 | WordRake Holdings, LLC | Computer processes for detecting and correcting writing problems associated with nominalizations |
US8028230B2 (en) * | 2007-02-12 | 2011-09-27 | Google Inc. | Contextual input method |
US8712758B2 (en) * | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
JP4626777B2 (ja) * | 2008-03-14 | 2011-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US8082248B2 (en) * | 2008-05-29 | 2011-12-20 | Rania Abouyounes | Method and system for document classification based on document structure and written style |
US9286291B2 (en) * | 2013-02-15 | 2016-03-15 | International Business Machines Corporation | Disambiguation of dependent referring expression in natural language processing |
US9727619B1 (en) * | 2013-05-02 | 2017-08-08 | Intelligent Language, LLC | Automated search |
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
US10467598B2 (en) * | 2015-04-30 | 2019-11-05 | Samsung Electronics Co., Ltd. | Apparatus and method for automatically converting note to action reminders |
US10489400B2 (en) | 2017-03-03 | 2019-11-26 | International Business Machines Corporation | Question pre-processing in a question and answer system |
CN111241855B (zh) * | 2019-03-25 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0554073A (ja) | 1991-08-23 | 1993-03-05 | Ricoh Co Ltd | デジタル翻訳装置 |
JPH05108703A (ja) | 1991-10-21 | 1993-04-30 | Matsushita Electric Ind Co Ltd | 機械翻訳機 |
US5774845A (en) * | 1993-09-17 | 1998-06-30 | Nec Corporation | Information extraction processor |
JPH0793333A (ja) | 1993-09-21 | 1995-04-07 | Nippon Telegr & Teleph Corp <Ntt> | 自動翻訳装置 |
JP2978044B2 (ja) | 1993-10-18 | 1999-11-15 | シャープ株式会社 | 文書分類装置 |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
JP2002055977A (ja) | 2000-08-08 | 2002-02-20 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳処理装置 |
US7610190B2 (en) * | 2003-10-15 | 2009-10-27 | Fuji Xerox Co., Ltd. | Systems and methods for hybrid text summarization |
US7720675B2 (en) * | 2003-10-27 | 2010-05-18 | Educational Testing Service | Method and system for determining text coherence |
-
2005
- 2005-03-09 JP JP2005065959A patent/JP2006252047A/ja active Pending
- 2005-12-20 US US11/311,416 patent/US7664631B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7664631B2 (en) | 2010-02-16 |
US20060206307A1 (en) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006252047A (ja) | 言語処理装置および言語処理プログラム | |
US10157171B2 (en) | Annotation assisting apparatus and computer program therefor | |
US8275604B2 (en) | Adaptive pattern learning for bilingual data mining | |
US8923618B2 (en) | Information output device and information output method | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
Kammoun et al. | The MORPH2 new version: A robust morphological analyzer for Arabic texts | |
JP2020190970A (ja) | 文書処理装置およびその方法、プログラム | |
US9529792B2 (en) | Glossary management device, glossary management system, and recording medium for glossary generation | |
KR102617753B1 (ko) | 텍스트 데이터 증강 장치 및 방법 | |
JP2005208782A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP2007052700A (ja) | 機械翻訳装置および機械翻訳プログラム | |
JP3692399B2 (ja) | 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム | |
JP2011039576A (ja) | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム | |
JPH10232863A (ja) | かな漢字変換装置および方法、並びに記録媒体 | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
JP5238560B2 (ja) | 翻訳装置、方法、及びプログラム | |
JP2007286925A (ja) | 部分翻訳装置 | |
KR20190130905A (ko) | 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 | |
JP2006331246A (ja) | 意見分析処理方法、意見分析処理装置およびプログラム | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JP2007034425A (ja) | 翻訳装置、プログラム及び記憶媒体 | |
JP2006330628A (ja) | 自然言語学習支援装置、方法及びプログラム | |
KR20220089137A (ko) | 학습용 대화 시스템 및 방법 | |
JP3410163B2 (ja) | 言語処理装置 | |
JP2004021857A (ja) | グループウェアにおけるユーザの対話支援装置 |