JP2005234800A - 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム - Google Patents

用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム Download PDF

Info

Publication number
JP2005234800A
JP2005234800A JP2004041751A JP2004041751A JP2005234800A JP 2005234800 A JP2005234800 A JP 2005234800A JP 2004041751 A JP2004041751 A JP 2004041751A JP 2004041751 A JP2004041751 A JP 2004041751A JP 2005234800 A JP2005234800 A JP 2005234800A
Authority
JP
Japan
Prior art keywords
distance
search
word
language
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004041751A
Other languages
English (en)
Other versions
JP2005234800A5 (ja
Inventor
Yoshio Doi
誉生 土居
Hiroshi Yamamoto
博史 山本
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004041751A priority Critical patent/JP2005234800A/ja
Publication of JP2005234800A publication Critical patent/JP2005234800A/ja
Publication of JP2005234800A5 publication Critical patent/JP2005234800A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】、高速で単語列編集距離を基準にして入力文と所定の関係を持つ用例を高速に検索可能にする。
【解決手段】用例機械翻訳装置で用いられる用例検索装置は、各用例に含まれる第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割されたコーパスから、第1の言語の入力文に最も近い用例を検索するために、各グループに含まれる第1の言語の単語列と入力文との間で可能な最小の単語列編集距離を算出する最小距離算出部120と、距離の下限値がしきい値以下のものを選択するグループ選択部122と、選択されたグループに含まれる用例の中で、単語列編集距離により定義される入力文との距離が最小の解を探索する探索部124−140とを含む。探索にはA*アルゴリズムを使用しても良い。
【選択図】 図4

Description

この発明は機械翻訳装置に関し、特に、用例を用いて機械翻訳を行なう用例機械翻訳装置並びに当該装置において用例を高速に検索するための用例検索装置に関する。
アナロジーに基づく機械翻訳の概念が提唱されて以来、このアイデアを具体化した用例翻訳が数多く提案されてきた。用例翻訳では、あらかじめ二つの言語で同じ意味を表す対訳からなる対訳コーパスを準備する。そしてこの対訳コーパスから対訳表現を抽出し、翻訳すべき文を構成する各部分に適合する対訳表現を見つけ、それらを組み合わせて翻訳文を生成する。
一方、用例翻訳以前の代表的な翻訳方式としてルールベース翻訳がある。ルールベース翻訳では、言語現象について人間が内省することにより作成した翻訳のためのルールに基づいて翻訳を実行する。
ルールベース翻訳では、翻訳ルールの精密な構築が翻訳システムの能力を決める。これに対し、用例翻訳では対訳コーパスからの学習によって能力が決定する。用例翻訳の大きな利点は、人手による翻訳ルールの記述が不要であり、翻訳システムの保守を含めた開発の効率が高いことである。この特長により、異なるドメインへの移植や新たな言語対への適用が容易になる。
特許文献1において、用例翻訳の一つとしてDP(Dynamic Programming)マッチに基づいた翻訳方式が提案されている。
この方式では、用例は原言語文と目的言語文との対である。各文は単語列として表現される。翻訳実行時には入力文との類似度の最も高いと判定される原言語文を持つ用例を検索する。検索された用例の原言語文と入力文との差異、及び差異部分と対応する目的言語文の部分を求め、翻訳パターンを生成する。
他の用例翻訳方式と比べたときのこの方式の特徴は、以下の通りである。
(1)多くの方式ではあらかじめ翻訳パターンを作成しているが、この方式では翻訳実行時に翻訳パターンを作成する。
(2)多くの方式では構文解析又はツリーバンクの利用を仮定しているが、この方式ではそれらを利用しない。
このように特許文献1において提案された翻訳方式では、用例を抽象化せず単語列の形のまま保持し、検索する。さらに訳文を生成する際にも用例の目的言語文の変更を最低限にとどめる。そのため、入力文に近い用例が存在すれば自然な表現の翻訳結果が得られるという特徴がある。また、多くの言語に高精度パーザを期待することができない現状を考えると、この方式は解析知識を使わないため用例翻訳方式の中でも特に多言語に適用することが容易であり、その点で他方式と比較して優れるものと考えられる。
特開2003−6193号公報 特開平8−185482号公報 ラップ R.、「翻訳メモリのための品詞に基づく検索アルゴリズム」、LREC2002予稿集、pp.466−472、2002年(Rapp,R.: A Part−of−Speech−Based Search Algorithm for Translation Memories、Proc. of LREC 2002、pp.466−472、2002)
特許文献1に記載の用例翻訳方式では、記憶した文の集合の中から最も入力文に類似したものを選び出す仕組みがその中核にある。特に大量の用例を利用する場合、その仕組みの効率的な実装が必須となる。
用例検索処理の効率的な実装は、翻訳メモリの課題と共通である。翻訳メモリに関する非特許文献1に記載の研究では、品詞レベルでの文の完全一致に基づいた検索が提案されている。しかし、この用例翻訳方式では単語列の間の編集距離を基準にして用例を検索している。そのために、用例の検索では単語の挿入及び削除をも考慮しなければならない。そのため非特許文献1において提案された方式は用例翻訳方式には採用できない。
特許文献2では、編集距離最小文を検索する方法を提示しているが、個々の候補に対する計算を繰返すので大量の用例を使った場合の高速化には限界があると考えられる。
それゆえにこの発明の目的は、高速で単語列編集距離を基準にして用例を検索することができる用例検索装置及びそれを用いた用例機械翻訳装置、ならびにそれらのコンピュータプログラムを提供することである。
本発明の第1の局面に係る用例機械翻訳装置は、コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶手段と、それぞれコンピュータ読取可能な、第1及び第2の言語の対訳辞書並びに第1及び第2の言語のシソーラスを記憶するための第2の記憶手段と、第1の言語の入力文を受け、シソーラスを用いて用例コーパスから入力文と所定の関係を有する用例を検索するための用例検索手段と、用例検索手段により検索された用例と、対訳辞書及びシソーラスとを用いて第1の言語の入力文を第2の言語の文に翻訳するための翻訳手段とを含み、用例コーパスは、各用例に含まれる第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割され、用例検索手段は、複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる第1の言語の単語列と入力文との間で距離の下限値を算出するための最小距離算出手段と、複数のグループのうち、最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、グループ選択手段により選択されたグループに含まれる用例の中で、単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む。
好ましくは、用例検索手段はさらに、探索手段により解が見出されたことに応答して、探索手段による探索と並行して、所定のしきい値を見出された解の距離で置換するための手段を含む。
さらに好ましくは、複数のグループの各々に含まれる用例の、第1の言語の単語列は、一つの単語グラフ形式で表現されており、探索手段は、単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む。
経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含んでもよい。
本発明の第2の局面に係る用例翻訳コンピュータプログラムは、コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶装置と、それぞれコンピュータ読取可能な、第1及び第2の言語の対訳辞書並びに第1及び第2の言語のシソーラスを記憶するための第2の記憶装置とを備えたコンピュータ上で実行されると、当該コンピュータを、用例コーパスを用いた用例機械翻訳装置として動作させる、用例翻訳コンピュータプログラムである。このプログラムにより実現される用例機械翻訳装置は、第1の言語の入力文を受け、シソーラスを用いて用例コーパスから入力文と所定の関係を有する用例を検索するための用例検索手段と、用例検索手段により検索された用例と、対訳辞書及びシソーラスとを用いて第1の言語の入力文を第2の言語の文に翻訳するための翻訳手段とを含み、用例コーパスは、各用例に含まれる第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割され、用例検索手段は、複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる第1の言語の単語列と入力文との間で距離の下限値を算出するための最小距離算出手段と、複数のグループのうち、最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、グループ選択手段により選択されたグループに含まれる用例の中で、単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む。
好ましくは、用例検索手段はさらに、探索手段により解が見出されたことに応答して、探索手段による探索と並行して、所定のしきい値を見出された解の距離で置換するための手段を含む。
さらに好ましくは、複数のグループの各々に含まれる用例の、第1の言語の単語列は、一つの単語グラフ形式で表現され、探索手段は、単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む。
経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含んでもよい。
本発明の第3の局面に係る用例検索装置は、コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶手段と、それぞれコンピュータ読取可能な、第1及び第2の言語の対訳辞書並びに第1及び第2の言語のシソーラスを記憶するための第2の記憶手段と、用例コーパスから検索された用例と、対訳辞書及びシソーラスとを用いて第1の言語の入力文を第2の言語の文に翻訳するための翻訳手段とを含む用例機械翻訳装置で使用され、第1の言語の入力文を受け、シソーラスを用いて用例コーパスから入力文と所定の関係を有する用例を検索するための用例検索装置である。用例コーパスは、各用例に含まれる第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割されている。用例検索装置は、複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる第1の言語の単語列と入力文との間で距離の下限値を算出するための最小距離算出手段と、複数のグループのうち、最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、グループ選択手段により選択されたグループに含まれる用例の中で、単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む。
好ましくは、用例検索装置はさらに、探索手段により解が見出されたことに応答して、探索手段による探索と並行して、所定のしきい値を見出された解の距離で置換するための手段を含む。
さらに好ましくは、複数のグループの各々に含まれる用例の、第1の言語の単語列は、一つの単語グラフ形式で表現され、探索手段は、単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む。
経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含んでもよい。
本発明の第4の局面に係る用例検索コンピュータプログラムは、コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶装置と、それぞれコンピュータ読取可能な、第1及び第2の言語の対訳辞書並びに第1及び第2の言語のシソーラスを記憶するための第2の記憶装置と、対訳コーパスから検索された用例を用いて、第1の言語の入力文を第2の言語の文に翻訳する用例機械翻訳手段とを備えたコンピュータ上で実行されると、当該コンピュータを、第1の言語の入力文を受け、シソーラスを用いて用例コーパスから入力文と所定の関係を有する用例を検索する用例検索装置として動作させる、用例検索コンピュータプログラムである。用例コーパスは、各用例に含まれる第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割されている。当該用例検索装置は、複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる第1の言語の単語列と入力文との間で距離の下限値を算出するための最小距離算出手段と、複数のグループのうち、最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、グループ選択手段により選択されたグループに含まれる用例の中で、単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む。
好ましくは、用例検索装置はさらに、探索手段により解が見出されたことに応答して、探索手段による探索と並行して、所定のしきい値を見出された解の距離で置換するための手段を含む。
さらに好ましくは、複数のグループの各々に含まれる用例の、第1の言語の単語列は、一つの単語グラフ形式で表現され、探索手段は、単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む。
経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含んでもよい。
−構成−
図1に、本発明の一実施の形態に係る用例に基づく用例機械翻訳装置30のブロック図を示す。図1を参照して、この用例機械翻訳装置30は、言語資源としてコンピュータ読取可能な対訳コーパス42、第1の言語のシソーラス44、第2の言語のシソーラス45及び対訳辞書50を含む。これらはいずれもハードディスク等の記憶装置に格納される。
対訳コーパス42は、翻訳方向における原言語と目的言語との文の対の集合である。両言語の文は互いに対訳関係にある。対訳コーパス42中の文は単語に分割されそれぞれ品詞情報が付与されている。
この用例機械翻訳装置30では、特許文献1に記載の方式と同様に、対訳コーパス42中の対訳関係にある文のペアを利用して翻訳を実行する。以下、この文のペアを「用例」と呼ぶ。
対訳辞書50は、後述するように翻訳パターンの抽出と訳語の置換処理において使用される。
シソーラスとしては、第1の言語(原言語)のシソーラス44と第2の言語(目的言語)のシソーラス45とが用意されている。シソーラスは、単語を単語間の意味の近さに基づいてツリー状の階層関係に配置したものである。第1の言語のシソーラス44は、用例検索及び翻訳パターン抽出処理において使用される。第2の言語の言語のシソーラス45は、翻訳パターンの抽出に用いられる。
用例機械翻訳装置30はさらに、原言語の入力文40を受け、対訳コーパス42及びシソーラス44を用いて、対訳コーパス42の中で入力文40と最も類似した原言語の文を持つ用例を検索するための用例検索部46と、用例検索部46により検索された用例から、第1のシソーラス44、第2のシソーラス45及び対訳辞書50を参照して翻訳パターンを抽出するための翻訳パターン抽出部48と、用例検索部46により検索された用例が複数ある場合、翻訳パターン抽出部48から出力される複数の翻訳パターンの中で所定のものを選択するための翻訳パターン選択部52と、翻訳パターン選択部52により選択された翻訳パターンの中で、変数に束縛された単語の訳語を対訳辞書50から引き、その訳語でもって目的言語パターンの変数を具体化する処理を行なって出力文56を生成するための訳語置換部54とを含む。
以下簡単に用例検索部46、翻訳パターン抽出部48、翻訳パターン選択部52及び訳語置換部54について説明する。用例検索部46の詳細については、後にさらに詳述する。
用例検索部46は、全用例の原言語文を走査する。入力文と用例原言語文の単語列間の距離を測り、最小距離の用例を選び出す。ただしこの最小距離が大きければ、検索された用例は翻訳処理に有用ではない。そのため距離にしきい値を設ける。しきい値以内の距離の用例が存在しなければ用例検索及び翻訳処理は失敗に終わる。
単語列間の距離には意味距離の加味された単語列編集距離が使われる。この単語列編集距離distは次の式で表される。
Figure 2005234800

ここでLinputは入力文の単語数、Lexampleは用例原言語文の単語数、Iは用例原言語文を入力文に変換するために必要な挿入単語数、Dは同じく必要な削除単語数、SEMDISTは同じく必要な置換により置換される語の間の意味距離を示す。
この式に従って、挿入語と削除語の数、及び置換語の意味距離が足し合わされ、入力文と用例原言語文の長さの和でもって正規化して単語列編集距離distが算出される。2単語が同品詞の内容語である場合のみ置換の対象となる。この場合には2単語間の意味距離が単語列編集距離の計算に使われる。意味距離計算においては、二つの単語に関して第1の言語のシソーラス44中の概念階層における意味概念間の位置関係によって意味距離を計算する。意味距離は0〜1までを値域とし、0に近いほど2単語が意味的に類似していることを示す。
以下、日英翻訳における用例検索の例を示す。(1‐j)は入力文、(2‐j)は用例の原言語文とする。このうち入力文(1‐j)の「色」と用例の原言語文(2‐j)の「デザイン」の部分が両文の差分となる。
(1‐j)色/が/気/に/入り/ません
(2‐j)デザイン/が/気/に/入り/ません
ここで、「色」と「デザイン」とがシソーラス44上で完全に異なった語であるものとすると、単語間の意味距離は1となる。従ってこの2文間の単語列編集距離は(0+0+2*1)/(6+6)=0.167となる。
翻訳パターン抽出部48は、用例検索部46により検索された全ての用例に対し、原言語文中の、入力文と異なる箇所を変数で置換し、用例目的言語文中の対応する箇所に同じ変数を当てはめた翻訳パターンを生成する。両言語の文の間で対応をとる際は、変数となる単語のみ対象とし、全ての単語の対応をとる必要はない。つまり、変数部分以外の箇所は全体として対応していると仮定する。このため用例のほとんどの部分は変更されず、訳文の組み合わせ時に発生する誤りや不自然さの回避が期待される。
この原言語と目的言語の単語間の対応をとるには、様々な単語アライメント手法を適用できる。本実施の形態では、対訳辞書50、第1の言語のシソーラス44及び第2の言語のシソーラス45に基づいて単語間の対応関係を判断している。
先の例の(2‐j)に対応する目的言語文を(2‐e)とする。
(2‐j)デザイン/が/気/に/入り/ません
(2‐e)I do not like the design.
このフェーズでは目的言語文(2‐e)中で「デザイン」に対応する箇所が探し出され、「デザイン」と「design」との間の対応が取られる。この結果、以下に示すような原言語パターン(2‐j‐p)と目的言語パターン(2‐e‐p)とからなる翻訳パターンが作られる。入力文によるその変数束縛は(1‐j‐b)となる。
(2‐j‐p)X/が/気/に/入り/ません
(2‐e‐p)I do not like the X.
(1‐j‐b)X=「色」
翻訳パターン選択部52は、用例検索部46により複数の用例が検索され、その結果翻訳パターン抽出部48によって複数の翻訳パターンが抽出された際に、その中の一つを選択するための処理を行なうものである。翻訳パターン選択部52は、複数の翻訳パターンから一つを選択するために、(1)より多くの用例検索結果から同じ翻訳パターンが抽出された方を選ぶ、(2)翻訳パターン中に現れる単語のコーパスでの出現頻度の合計が大きい方を選ぶ、というヒューリスティクスを使用して翻訳パターンを選択する。これらで一つの翻訳パターンを決定できない場合には、翻訳パターン選択部52は任意の一つの翻訳パターンを選ぶ。
訳語置換部54は、翻訳パターン選択部52により選択された翻訳パターンの変数に束縛された単語の訳を対訳辞書50から引き、その訳語でもって目的言語パターンの変数を具体化する。先の例に基づいて説明すると、目的言語側の変数束縛は以下の(1‐e‐b)となり、訳文(1‐e)が得られる。
(1‐e‐b)X=“color”
(1‐e)I do not like the color.
−用例検索部46の詳細−
図1に示す用例機械翻訳装置30の各処理の中で翻訳実行時間の大きな割合を占めるのは、用例検索部46による用例検索である。用例の選択基準には、前述した単語列編集距離が使われる。
用例検索処理は、用例の原言語文を候補文とし、入力文との単語列編集距離がしきい値以内で最小の候補文をすべて求める。単語列編集距離は2文間の関係で定義され、二つの単語列のDPマッチにより計算可能である。従って各候補文と入力文間のDPマッチを逐次的に繰り返すことで単語列編集距離が最小の候補文を求めることができる。
しかし単純にこの方法を使おうとすれば、用例数に比例した処理時間がかかる。そのため大規模コーパスを利用したリアルタイムの翻訳処理をそうした方法で実現することは通常のコンピュータでは困難である。そこで本実施の形態では、以下に述べるような実装により用例検索を効率的に短時間で行なえるようにした。
[候補文集合の分割]
図2を参照して、対訳コーパス42に含まれる候補文を、その内容語数と機能語数とを元に複数(M個)のグループ70−1、70−2、…70―Mにグループ分けする。このようにグループ分けすることにより、入力文の内容語数と機能語数及び距離しきい値を用いて検索対象の候補文数を絞ることができる。具体的には以下のように用例検索を行なう。
まず、機能語同士、内容語同士はすべて一致すると仮定した場合の、グループごとに可能な最小距離を求める。最小距離が距離しきい値の範囲内で小さいグループから順に、単語列編集距離が最初に定めたしきい値以内で最小の候補文を検索する。あるグループ中に解が見つかれば、その解の距離を新たなしきい値として検索対象のグループをさらに絞ることができる。グループ内での用例検索については後述するが、グループ内では全ての候補文の内容語数と機能語数が等しい、つまりは単語数も等しいという事実が用例検索の前提条件として利用されている。
[単語グラフ]
内容語数と機能語数とを基準に分けられたグループ70−1,70−2,…,70―Mの各々に対し、複数の候補文を一つの単語グラフ72―1,72−2,…,72−Mにまとめる。すなわち一つのグループごとに一つの単語グラフが作成される。図3に単語グラフの例を示す。
図3に示されるように、単語グラフ80は有向グラフであり、先頭ノード90から最終ノード108に至る可能な道筋がそれぞれ一つの候補文に対応する。図3に示す単語グラフ80は、先頭ノード90及び最終ノード108を含めて、全部で10個のノード90、92、94、96、98、100、102、104、106及び108を含む。ノードの間を結ぶリンクが単語に対応する。
例えば「全部売り切れました」という文はノード90、92、96、102及び108という道筋に対応する。ノード列だけで見れば「全部届きました」という単語列も同じ道筋に対応する。ただし先の文では「売り切れる」というリンクによりノード92及び96が接続されていたが、この文では「届く」というリンクでこれらノードが接続されている点が異なる。このようにして、複数の文で共通な単語列をグラフ中では一つにまとめていくことにより、1グループに含まれる全ての候補文を一つの単語グラフ80で表すことができる。
単語グラフを利用することにより、グループ内の全候補文を同時並行的に調べながら、入力文との距離が最小の候補文を検索することができる。
[A*アルゴリズム]
二つの単語列を照合した結果を示す単語の一致、置換、挿入、削除の列を「照合列」と呼ぶこととする。グループ内において単語列編集距離を最小とする候補文又は解を検索することは、単語グラフの先頭ノードから最終ノードまでの可能な全経路について、各経路に現れる単語列と入力単語列との照合列の中から単語列編集距離を最小にするものを探索することである。本実施の形態では、この探索問題の解放にA*アルゴリズムを用いている。
一般にA*アルゴリズムでは、問題状態集合の中から最小コストの下限の推定値が最小のものが選ばれ、継続状態に展開される。ここで対象とする問題では、状態は、単語グラフの経路と入力文との照合の途中経過を意味する。また「継続状態に展開」とは、選ばれた状態から遷移可能な全ての状態を生成し考慮の対象とすることを意味する。
[探索]
ここでは、ある単語グラフを用いた、単語列編集距離最小の経路を探索する処理について説明する。図3に示すように、ある単語グラフはノードとリンクとを含む。リンクは単語をラベルとして持ち、一つの始点ノードと一つの終点ノードとを結ぶ。例えば図3に示す「売り切れる」というリンクはノード92と96とを結んでいる。単語グラフ全体で一つの先頭ノードと一つの最終ノードとを持つ。図3ではこれらはノード90及び108に相当する。
対象となる問題状態空間は以下で説明する状態、作用素、初期状態及び目標状態により構成される。
(1)状態
状態はpaths,node,input,transという属性を持つ。各属性の内容は以下の通りである。
・paths:その時点までの照合列のリスト
・node:単語グラフのノード。このノードまで照合が進んだことを示す。
・input:入力単語列のうち、まだ照合に使われていない部分
・trans:適用可能な作用素。
paths内の各照合列の一致、置換、挿入、削除をそれぞれ(E:単語)、(S:グラフ側単語、入力側単語)、(I:入力側単語)、(D:グラフ側単語)の形式で表し、それぞれEレコード、Sレコード、Iレコード及びDレコードと呼ぶ。
状態のコストはpaths内の任意の一つの照合列のコストである。paths内のどの照合列も等しいコストを持つ。照合列のコストは、それに含まれるレコードのコストの和である。Eレコードのコストは0、Iレコードのコストは1、Dレコードのコストは1と定義する。Sレコードのコストは、置換される2単語間の意味距離を2倍した値であるが、意味距離が0の場合には0でなく小さな正の値を与える。これは、類似語関係と同一語関係とを区別するためである。この値がSレコードの最小コストとなる。
状態に作用素を適用することにより継続状態が生成される。一般に一つの状態に複数の作用素を適用することが可能である。従って一つの状態からいくつかの継続状態が生成される。
(2)作用素
5種類の作用素、T作用素、E作用素、S作用素、I作用素及びD作用素を以下のように定義する。T作用素とI作用素は状態に適用されるが、E、S、Dの各作用素は状態、及びその状態のnodeを始点とするリンクの組に適用される。T作用素は実際に照合を進める作用素ではなく、trans属性とともにE、S、I、Dの各作用素の適用順序を制御する役目を持つ。なお以下の説明では、作用素が適用される状態をs、リンクをl、生成される継続状態をs´と表し、各作用素について適用条件とどのような継続状態が生成されるかを示す。
・T作用素:
−条件:s.transがE作用素又はS作用素である。
−生成:s´.trans=s.transがE作用素ならばS作用素とNILとから選択(説明は後述)、s.transがS作用素ならばNIL。s´の他の属性値はsと同じ。
・E作用素:
−条件:s.transがE作用素である。
かつ、s.inputが空リストでない。
かつ、lのラベルと、s.inputの先頭とが同一語である。
−生成:s´.paths=s.pathsの各要素にEレコードを追加した値
s´.node=lの終点
s´.input=s.inputから先頭を消去した値
s´.trans=E作用素とS作用素とNILとから選択(説明は後述)
・S作用素:
−条件:s.transがS作用素である。
かつ、s.inputが空リストでない。
かつ、s.inputの先頭と、lのラベルとが同品詞の内容語であり、かつ同一語ではない。
かつ、これら2単語の意味距離は1未満である。
−生成:s´.paths=s.pathsの各要素にSレコードを追加した値
s´.node=lの終点
s´.input=s.inputから先頭を消去した値
s´.trans=E作用素とS作用素とNILとから選択
・I作用素:
−条件:s.transがNILである。
かつ、s.inputが空リストでない。
−生成:s´.paths=s.pathsの各要素にIレコードを追加した値
s´.node=s.node
s´.input=s.inputから先頭を消去した値
s´.trans=E作用素とS作用素とNILとから選択
・D作用素:
−条件:s.transがNILである。
かつ、s.pathsに最新レコードがIレコードでない要素がある。
−生成:s´.paths=s.pathsから最新レコードがIレコードである要素を除き、残った要素にDレコードを追加した値
s´.node=lの終点
s´.input=s.input
s´.trans=E作用素とS作用素とNILとから選択
上の記載において、「S作用素とNILとから選択」とは、s´にS作用素を適用できる可能性があればs´.transの値をS作用素とし、可能性がなければNILとすることを意味する。本実施の形態では、s´.inputの先頭が内容語であり、その語と同一の語を除く同品詞語をラベルとしs´.nodeを始点とするリンクが存在する場合にS作用素を適用できる可能性があると判断する。
また、「E作用素とS作用素とNILとから選択」とは、s´.inputの先頭語をラベルとし、s´.nodeを始点とするリンクが存在すればs´.transの値をE作用素とし、そうでなければS作用素とNILとから選択する。
D作用素の2番目の条件はIレコードの後にDレコードが来るのを防いでいる。つまり、IレコードとDレコードとが連続する場合、Dレコードが先に来るようにし、実質的に同じ削除と挿入が入れ替わっただけの異なる状態が現れる冗長性を排除する。
(3)初期状態と目標状態
初期状態では、pathsは空リストを要素とするリスト、nodeは先頭ノード、inputは入力単語列全体、transはE作用素である。目標状態は、nodeが最終ノード、かつinputが空リストであるような状態である。
[探索アルゴリズム]
上記の初期状態、作用素及び目標状態で表現される状態空間からコスト最小の目標状態を探索する。初期条件としてコスト上限値が与えられる。コスト上限値は入力文長と候補文長の和を距離しきい値に乗じた値である。
[評価関数]
状態空間探索時に使用する評価関数fを次のように定義する。
(s)=g(s)+h(s)
g(s)は初期状態から状態sに達するまでにかかったコストを示す。つまりg(s)は先に定義した状態のコストであり、s.pathsから計算できる。目標状態ではf(s)=g(s)となる。h(s)は状態sから目標状態までにかかるコストの下限である。
一つの単語グラフを構成する全候補文の内容語数及び機能語数はそれぞれ同一である。従って状態sにおいて入力文側とグラフ側の未処理の内容語数及び機能語数がそれぞれ一意に決まる。それぞれの個数をCinput、Cgraph、Finput、Fgraphとして、残り語数に基づく最小コストh´(s)を次のように計算する。
h´(s)=|Cinput−Cgraph|+|Finput−Fgraph
さらに、T作用素の適用が先行する場合を含めて状態sに最初に適用可能なE、S、I及びDの各作用素について、それが適用されたと仮定したときの目標状態までにかかるコストの下限を次の値とする。
・E作用素:h´(s)
・S作用素:h´(s)にSレコードの最小コストを加えた値。
・I作用素:s.inputの先頭が内容語の場合は、|(Cinput−1)−Cgraph|+|Finput−Fgraph|に1を加えた値、機能語の場合は|Cinput−Cgraph|+|(Finput−1)−Fgraph|に1を加えた値。
・D作用素:|Cinput−(Cgraph−1)|+|Finput−Fgraph|と|Cinput−Cgraph|+|Finput−(Fgraph−1)|を求め、その小さいほうの値に1を加えた値。ただし、s.nodeを始点とするリンクのラベルが内容語のみであるか機能語のみであれば、対応する一方の値に1を加えた値。
これらを使ってh(s)を以下のように計算する。
(1)s.transがE作用素のときは、E作用素が適用されたときのコストの下限
(2)s.transがS作用素のときは、S作用素、I作用素又はD作用素が適用されたときのコストの下限の最小値
(3)s.transがNILのときは、I作用素又はD作用素が適用されたときのコストの下限の最小値。
[探索処理]
探索処理は以下のように行なわれる。以下に示す探索処理は、コンピュータ上で実行されるプログラムにより上記した用例検索を行なう際のプログラムの制御の流れを示すものである。なお以下の説明中において、OPENは未展開状態を、CLOSEDは展開済状態を、それぞれ保持するためのリストを示す。また「同じ状態」とは、pathsを除く属性値が等しい状態を意味する。
図4は、この処理全体のフローチャートである。まずステップ120で、グループごとに可能な最小距離を算出する。ステップ122で、可能な最小距離がしきい値以下のグループを選択する。ステップ124で、選択されたグループを最小距離の昇順でソートする。ステップ126で、選択されたグループの数をグループ数の値NMAXに代入する。
ステップ128以下がグループごとの繰り返し処理である。まずステップ128で繰り返し制御変数Jに0を代入する。ステップ130で変数Jに1を加算する。ステップ132でJがグループ数NMAXを超えたか否かを判定する。超えていれば処理を終了する。超えていなければステップ134でグループ(J)の可能な最小距離がしきい値以下か否かを判定する。しきい値以下であればステップ136に進み、それ以外の場合には処理を終了する。
ステップ136ではグループ(j)内で距離≦しきい値の解を探索する処理を行なう。この処理の詳細については図5を参照して説明する。
ステップ138で解が存在したか否かについての判定が行なわれる。解が存在していれば制御はステップ140に進み、それ以外の場合にはステップ130に戻る。
ステップ140では、求められた解の距離を新たなしきい値に代入し、ステップ130に戻る。
図5に、ステップ136で行なわれる処理の詳細について示す。ステップ160で、コスト上限CMAXに、所与の値(入力文長と候補文長の和を距離しきい値に乗じた値)を代入する。
ステップ162でOPENに初期状態のみを入れる。
ステップ164でOPEN内にコストがCMAX以下の状態があるか否かについての判定を行なう。条件を満たす状態がなければ処理を終了する。条件を満たす状態があればステップ166に進む。
ステップ166ではOPENから評価関数fを最小にする状態sを取り除き、CLOSEDに入れる。
ステップ168で、状態sが目標状態か否かを判定する。目標状態であればステップ174に進み、それ以外の場合にはステップ170に進む。
ステップ174では状態sを解の一つとし、続くステップ176でコスト上限CMAXを状態sのコストで置換し、ステップ164に戻る。
一方ステップ170では、状態sの全ての継続状態を生成する。そしてステップ172で、各継続状態s´について図6に示す処理を実行する。
図6を参照して、ステップ190でf(s´)がコスト上限CMAX以下か否かを判定する。条件が充足されていなければ処理を終了する。条件が充足されていればステップ192で、OPEN及びCLOSED中の同じ状態と比較し、条件により以下の処理を行なう。
(a)同じ状態がなければ、状態s´をOPENに追加する(ステップ194)
(b)状態s´よりコストの大きい同じ状態がOPEN又はCLOSEDに既存であれば、この既存状態を消去し(ステップ196)、状態s´をOPENに追加する(ステップ198)。
(c)状態s´とコストの等しい同じ状態がCLOSEDに既存であれば、この既存状態を消去し(ステップ200)、状態s´をOPENに追加する(ステップ202)。
(d)コストの等しい同じ状態がOPENに既存であれば、この既存状態のpathsにs´.pathsをマージする(ステップ204)。
以上の処理が終了したら図6の処理を終了し、図5のステップ164に戻る。
[単語グラフの特徴の利用]
単語グラフの形状の特徴として、開始ノードを始点とするリンク数が他のノードを始点とするリンク数よりも圧倒的に大きくなる傾向がある。そのためnode属性に開始ノードを持つ状態にD作用素が適用されると、多くの継続状態が作られることとなり計算時間が大きくなる。これは、照合列の先頭要素がDレコードとなる場合である。この展開数の増大を避けるため、単語グラフ中、先頭ノードから数段階の仮のリンクとノードを加える。先頭ノードを持つ状態からD作用素によって第1の仮のノードを持つ状態へ遷移する。第1の仮のノードは、全候補文について2番目の語をラベルとするリンクの始点となり、通常の単語グラフのノードに合流する。第1の仮のノードにある状態はE作用素又はS作用素の適用により通常のノードの状態、D作用素によって第2の仮のノードを持つ状態に遷移する。
何段階まで仮のノードを用意するかは、用例検索時に使われる可能性のある距離しきい値の最大値から計算できる。候補文の長さをLとすると、照合列の先頭にDレコードがd個並ぶという条件で、候補文とその距離を最小にする入力文は、候補文から先頭d語を除いた文である。そのときの距離はd/((L−d)+L)である。この値が距離しきい値の最大値を越える場合は探索する必要はない。距離しきい値の最大値をΘとすると、d/((L−d)+L)≦Θからd≦2ΘL/(1+Θ)が導かれる。この式を満たすdの最大の整数値が用意すべき仮のノードの段数である。
−動作−
以下、本実施の形態に係る用例機械翻訳装置30の動作について説明する。図1において、翻訳パターン抽出部48、翻訳パターン選択部52及び訳語置換部54の動作は特許文献1において提案されている用例機械翻訳装置の動作と同様である。従ってここではそれらについての詳しい説明は繰り返さず、用例検索部46による用例検索の詳細について説明する。
用例検索部46の動作を説明するために、用例検索の実行例を示す。ここでは、図3に示す単語グラフ80から入力文「全部揃いました」の類似文を検索することにする。以下の説明では状態を[paths,node,input,trans,f関数値]の形式で記述する。node値には図3中でノードにつけた参照番号(90−108)を用いる。δをSレコードの最小コストとする。また「揃う」と「売り切れる」の意味距離を1.0、「揃う」と「届く」との意味距離を0.7であると仮定する。
初期状態s0は次のようになる。
s0=[(()),ノード90,(全部,揃う,ます,た),E作用素,0]
状態s0に適用可能な作用素はE作用素とT作用素とである。これらの作用素を適用して継続状態s1とs2とが得られる。OPENは{s1,s2}となる。
s1=[(((E,全部))),ノード92,(揃う,ます,た),S作用素,δ]
s2=[(()),ノード90,(全部,揃う,ます,た),NIL,2]
ここでOPENの中から、f関数値の小さな状態s1が選ばれ展開される。状態s1に適用可能な作用素はS作用素とT作用素とである。「売り切れる」と「届く」とをラベルとする二つのリンクに関してS作用素の適用条件がテストされる。ここでは、1未満の意味距離の得られる「届く」のリンクについてのみテストが成功する。S作用素の適用により継続状態s3が得られる。またT作用素の適用により継続状態s4が生成される。OPENは{s2,s3,s4}となる。
s3=[(((E,全部),(S,届く,揃う))),ノード96,(ます,た),E作用素,1.4]
s4=[(((E,全部))),ノード92,(揃う,ます,た),NIL,2]
ここでOPENの中から、f関数値が最小の状態s3が選ばれ展開される。状態s3にE作用素を2回適用した状態s7が解となる。
s7=[(((E,全部),(S,届く,揃う),(E,ます),(E,た))),ノード108,(),NIL,1.4]
この例の状態遷移の様子を図7に示す。図7に示されるように、T作用素の適用による遷移を除き、解である状態s7に向かって一直線に探索が進んでいる。
以上のようにこの実施の形態に係る用例機械翻訳装置30によれば、大規模なコーパスから短時間で入力文との編集距離が最小の用例を探索することができる。探索された用例から翻訳パターンを抽出し、翻訳パターン中の変数部分を訳語置換することにより、入力文40(図1参照)に対応する翻訳出力文56を得ることができる。
特に、本実施の形態は、(1)シソーラスを使わず、単語列編集距離の定義において意味距離を定数とする、(2)内容語・機能語の分類を行なわない(全ての語が一方に属するとする。)、又は他の分類を使う(文字種で分ける場合など。)、並びに(3)1文字ずつを1単語として扱う、という場合に編集距離に基づいたストリング検索装置を提供し、特許文献2が挙げている各応用課題において、大量の候補の中から解を効率よく検索する手段となる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態に係る用例機械翻訳装置30のブロック図である。 本実施の形態における対訳コーパス42のグループへの分割と単語グラフの作成とを模式的に示す図である。 単語グラフの例を示す図である。 本実施の形態に係る用例機械翻訳装置30の用例検索部46で実行される処理のプログラムフローチャートである。 用例グループ内で解を探索する処理のプログラムフローチャートである。 探索処理において継続状態ごとに行なわれる処理のプログラムフローチャートである。 本発明の一実施の形態に係る用例機械翻訳装置30の用例検索部46の動作例を説明するための図である。
符号の説明
40 入力文、42 対訳コーパス、44 第1の言語のシソーラス、45 第2の言語のシソーラス、46 用例検索部、48 翻訳パターン抽出部、50 対訳辞書、52 翻訳パターン選択部、54 訳語置換部、56 出力文、80 単語グラフ

Claims (16)

  1. コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶手段と、
    それぞれコンピュータ読取可能な、前記第1及び第2の言語の対訳辞書並びに前記第1及び第2の言語のシソーラスを記憶するための第2の記憶手段と、
    前記第1の言語の入力文を受け、前記シソーラスを用いて前記用例コーパスから前記入力文と所定の関係を有する用例を検索するための用例検索手段と、
    前記用例検索手段により検索された用例と、前記対訳辞書及び前記シソーラスとを用いて前記第1の言語の入力文を前記第2の言語の文に翻訳するための翻訳手段とを含み、
    前記用例コーパスは、各用例に含まれる前記第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割され、
    前記用例検索手段は、
    前記複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる前記第1の言語の単語列と前記入力文との間で距離の下限値を算出するための最小距離算出手段と、
    前記複数のグループのうち、前記最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、
    前記グループ選択手段により選択されたグループに含まれる用例の中で、前記単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む、用例機械翻訳装置。
  2. 前記用例検索手段はさらに、前記探索手段により解が見出されたことに応答して、前記探索手段による探索と並行して、前記所定のしきい値を前記見出された解の距離で置換するための手段を含む、請求項1に記載の用例機械翻訳装置。
  3. 前記複数のグループの各々に含まれる用例の、前記第1の言語の単語列は、一つの単語グラフ形式で表現され、
    前記探索手段は、前記単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、前記入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む、請求項1又は請求項2に記載の用例機械翻訳装置。
  4. 前記経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含む、請求項3に記載の用例機械翻訳装置。
  5. コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶装置と、それぞれコンピュータ読取可能な、前記第1及び第2の言語の対訳辞書並びに前記第1及び第2の言語のシソーラスを記憶するための第2の記憶装置とを備えたコンピュータ上で実行されると、当該コンピュータを、前記用例コーパスを用いた用例機械翻訳装置として動作させる、用例翻訳コンピュータプログラムであって、
    前記用例機械翻訳装置は、
    前記第1の言語の入力文を受け、前記シソーラスを用いて前記用例コーパスから前記入力文と所定の関係を有する用例を検索するための用例検索手段と、
    前記用例検索手段により検索された用例と、前記対訳辞書及び前記シソーラスとを用いて前記第1の言語の入力文を前記第2の言語の文に翻訳するための翻訳手段とを含み、
    前記用例コーパスは、各用例に含まれる前記第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割され、
    前記用例検索手段は、
    前記複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる前記第1の言語の単語列と前記入力文との間で距離の下限値を算出するための最小距離算出手段と、
    前記複数のグループのうち、前記最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、
    前記グループ選択手段により選択されたグループに含まれる用例の中で、前記単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む、用例翻訳コンピュータプログラム。
  6. 前記用例検索手段はさらに、前記探索手段により解が見出されたことに応答して、前記探索手段による探索と並行して、前記所定のしきい値を前記見出された解の距離で置換するための手段を含む、請求項5に記載の用例翻訳コンピュータプログラム。
  7. 前記複数のグループの各々に含まれる用例の、前記第1の言語の単語列は、一つの単語グラフ形式で表現され、
    前記探索手段は、前記単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、前記入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む、請求項5又は請求項6に記載の用例翻訳コンピュータプログラム。
  8. 前記経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含む、請求項7に記載の用例翻訳コンピュータプログラム。
  9. コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶手段と、それぞれコンピュータ読取可能な、前記第1及び第2の言語の対訳辞書並びに前記第1及び第2の言語のシソーラスを記憶するための第2の記憶手段と、前記用例コーパスから検索された用例と、前記対訳辞書及び前記シソーラスとを用いて前記第1の言語の入力文を前記第2の言語の文に翻訳するための翻訳手段とを含む用例機械翻訳装置で使用され、前記第1の言語の入力文を受け、前記シソーラスを用いて前記用例コーパスから前記入力文と所定の関係を有する用例を検索するための用例検索装置であって、
    前記用例コーパスは、各用例に含まれる前記第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割され、
    前記用例検索装置は、
    前記複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる前記第1の言語の単語列と前記入力文との間で距離の下限値を算出するための最小距離算出手段と、
    前記複数のグループのうち、前記最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、
    前記グループ選択手段により選択されたグループに含まれる用例の中で、前記単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む、用例検索装置。
  10. さらに、前記探索手段により解が見出されたことに応答して、前記探索手段による探索と並行して、前記所定のしきい値を前記見出された解の距離で置換するための手段を含む、請求項9に記載の用例検索装置。
  11. 前記複数のグループの各々に含まれる用例の、前記第1の言語の単語列は、一つの単語グラフ形式で表現され、
    前記探索手段は、前記単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、前記入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む、請求項9又は請求項10に記載の用例検索装置。
  12. 前記経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含む、請求項11に記載の用例検索装置。
  13. コンピュータ読取可能な、第1及び第2の言語の対訳関係にある用例からなる用例コーパスを記憶するための第1の記憶装置と、それぞれコンピュータ読取可能な、前記第1及び第2の言語の対訳辞書並びに前記第1及び第2の言語のシソーラスを記憶するための第2の記憶装置と、前記対訳コーパスから検索された用例を用いて、前記第1の言語の入力文を前記第2の言語の文に翻訳する用例機械翻訳手段とを備えたコンピュータ上で実行されると、当該コンピュータを、前記第1の言語の入力文を受け、前記シソーラスを用いて前記用例コーパスから前記入力文と所定の関係を有する用例を検索する用例検索装置として動作させる、用例検索コンピュータプログラムであって、
    前記用例コーパスは、各用例に含まれる前記第1の言語の単語列に含まれる内容語数及び機能語数に基づいて複数のグループに分割され、
    前記用例検索装置は、
    前記複数のグループの各々について、予め定義された単語列編集距離を用い、当該グループに含まれる前記第1の言語の単語列と前記入力文との間で距離の下限値を算出するための最小距離算出手段と、
    前記複数のグループのうち、前記最小距離算出手段により算出された距離の下限値が所定のしきい値以下のもののみを選択するためのグループ選択手段と、
    前記グループ選択手段により選択されたグループに含まれる用例の中で、前記単語列編集距離により定義される入力文との距離が最小の解を探索するための探索手段とを含む、用例検索コンピュータプログラム。
  14. 前記用例検索装置はさらに、前記探索手段により解が見出されたことに応答して、前記探索手段による探索と並行して、前記所定のしきい値を前記見出された解の距離で置換するための手段を含む、請求項13に記載の用例検索コンピュータプログラム。
  15. 前記複数のグループの各々に含まれる用例の、前記第1の言語の単語列は、一つの単語グラフ形式で表現され、
    前記探索手段は、前記単語グラフの先頭ノードから最終ノードまでの可能な全経路について、当該経路に現れる単語列と入力単語列との照合を行なうことによって、前記入力単語列との間の単語列編集距離が最小となる経路を選択するための経路選択手段を含む、請求項13又は請求項14に記載の用例検索コンピュータプログラム。
  16. 前記経路選択手段は、各グループに含まれる単語グラフの各経路に現れる単語列と、入力文との間の照合の途中経過を状態とする問題状態集合の中から、A*アルゴリズムを用いて単語列編集距離を最小にする目標状態を探索するための手段を含む、請求項15に記載の用例検索コンピュータプログラム。
JP2004041751A 2004-02-18 2004-02-18 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム Pending JP2005234800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004041751A JP2005234800A (ja) 2004-02-18 2004-02-18 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004041751A JP2005234800A (ja) 2004-02-18 2004-02-18 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2005234800A true JP2005234800A (ja) 2005-09-02
JP2005234800A5 JP2005234800A5 (ja) 2005-10-27

Family

ID=35017710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004041751A Pending JP2005234800A (ja) 2004-02-18 2004-02-18 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2005234800A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007132564A1 (ja) * 2006-05-13 2007-11-22 Justsystems Corporation データ処理装置及び方法
JP2008152768A (ja) * 2006-11-23 2008-07-03 Sharp Corp 翻訳システムにて二言語テキストのマッチングを行って精度を向上するための方法
JP2009289219A (ja) * 2008-05-30 2009-12-10 Fuji Xerox Co Ltd 翻訳メモリ翻訳装置および翻訳プログラム
WO2022044954A1 (en) * 2020-08-31 2022-03-03 Recruit Co., Ltd. Systems and methods for unsupervised paraphrase mining

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007132564A1 (ja) * 2006-05-13 2007-11-22 Justsystems Corporation データ処理装置及び方法
JP2008152768A (ja) * 2006-11-23 2008-07-03 Sharp Corp 翻訳システムにて二言語テキストのマッチングを行って精度を向上するための方法
JP2009289219A (ja) * 2008-05-30 2009-12-10 Fuji Xerox Co Ltd 翻訳メモリ翻訳装置および翻訳プログラム
WO2022044954A1 (en) * 2020-08-31 2022-03-03 Recruit Co., Ltd. Systems and methods for unsupervised paraphrase mining
US11741312B2 (en) 2020-08-31 2023-08-29 Recruit Co., Ltd. Systems and methods for unsupervised paraphrase mining

Similar Documents

Publication Publication Date Title
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JPH09153047A (ja) テキストのトークン分割方法
JP2007323671A (ja) 中国語テキストにおける単語分割
JP3781561B2 (ja) 自然言語解析装置、システム及び記録媒体
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
JP5238034B2 (ja) 近似照合装置、近似照合方法、プログラム及び記録媒体
Zheng et al. Character-based parsing with convolutional neural network
JP2005234800A (ja) 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR102146625B1 (ko) 오토마타 기반 증분적 중위 확률 계산 장치 및 방법
JP2004046775A (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP4084816B2 (ja) 依存構造情報処理装置、そのプログラム及び記録媒体
JP3027553B2 (ja) 構文解析装置
JP6772393B1 (ja) 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム
JP5521670B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP4105756B2 (ja) 自然言語解析装置及び方法、自然言語解析プログラム
JP5339236B2 (ja) 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体
JP4933118B2 (ja) 文章区間抽出装置及びプログラム
JP3528849B2 (ja) キーワード抽出装置およびキーワード抽出方法
JP4060832B2 (ja) 自然言語解析装置及び方法、自然言語解析プログラム
Haritz Enriching Scientific Source Code by means of Mining Relations between Papers and their Implementation

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050729

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071225