JP4021813B2 - 複合語登録プログラムおよび登録装置 - Google Patents

複合語登録プログラムおよび登録装置 Download PDF

Info

Publication number
JP4021813B2
JP4021813B2 JP2003184646A JP2003184646A JP4021813B2 JP 4021813 B2 JP4021813 B2 JP 4021813B2 JP 2003184646 A JP2003184646 A JP 2003184646A JP 2003184646 A JP2003184646 A JP 2003184646A JP 4021813 B2 JP4021813 B2 JP 4021813B2
Authority
JP
Japan
Prior art keywords
word
translation
language
compound word
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003184646A
Other languages
English (en)
Other versions
JP2005018571A (ja
Inventor
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003184646A priority Critical patent/JP4021813B2/ja
Publication of JP2005018571A publication Critical patent/JP2005018571A/ja
Application granted granted Critical
Publication of JP4021813B2 publication Critical patent/JP4021813B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は自然言語処理システムに係わり、更に詳しくはコンピュータを用いた機械翻訳装置において、2語以上からなる複合語を登録するプログラム、および登録装置に関する。
【0002】
【従来技術】
近年、例えば英語から日本語に、あるいは日本語から英語にコンピュータを用いて翻訳する機械翻訳装置が利用されるようになっている。
【0003】
このような機械翻訳装置では、例えばユーザが利用する専門用語に対応して、ユーザ辞書へのその単語の登録機能を用いることによって、適切な翻訳結果を得ることが可能となる。
【0004】
このような機械翻訳装置の従来例として、次の文献がある。
【0005】
【特許文献1】
特開平5−12332号公報「翻訳処理装置」
【0006】
この文献では、入力された文字集合から、複合語で名詞の単語を検出し、その複合語を構成する各要素について最適の訳語を求め、その後に各要素が単独で出現した場合に、その最適な訳語を用いて翻訳処理を行なう翻訳処理装置が開示されている。
【0007】
このように複合語を構成する各要素に最適な訳語を、その出現以後に各要素が単独で出現した場合に利用することもできるが、複数の単語からなる複合語を1つの語として登録し、その登録結果を用いることも考えられる。このように複合語自体を登録することにより、翻訳精度が上がることが期待される。
【0008】
【発明が解決しようとする課題】
しかしながらこのように複合語自体を登録する場合には、その後の入力文に複合語として登録された語の一部、例えば4つの単語からなる複合語の中の3つの単語からなる語が含まれていたとしても、登録された複合語は翻訳処理においては全く利用することができないという問題点があった。
【0009】
例えば仮に“国際聖路加病院=International Seiroka Hospital”という複合語が登録されていても「聖路加病院の先生」という入力文の翻訳にはその登録結果を全く利用することができないという問題点があった。
【0010】
本発明の課題は上述の問題点に鑑み、例えば4つの単語からなる複合語が登録されている場合に、その中の3つの単語からなる新たな複合語を構成し、例えば英語とそれに対する日本語訳の新語として辞書に自動的に登録することにより、機械翻訳による翻訳品質の向上を図ることである。
【0011】
【課題を解決するための手段】
図1は本発明の複合語登録プログラムの原理的な機能ブロック図である。同図は、第一言語の文章を、第二言語の文書に翻訳する機械翻訳装置によって使用されるプログラムの機能ブロック図である。
【0012】
図1において、まず1で第一言語の複合語の第二言語の訳語が調べられ、2で複合語の要素となっている単語のうちで、先頭と末尾の単語の訳語がそれぞれ1つ以上求められる。
【0013】
そして3で、その先頭と末尾の単語の訳語のうちで、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かが調べられ、一致するものがある時、4でその訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から一致した訳語を除いた部分の第二言語とが対応させられ、新語として辞書に登録される。
【0014】
これによって本発明によれば、すでに辞書に登録されている第一言語の複合語とその訳語とを用いて、その複合語よりも構成単語数の少ない複合語とその訳語とが対応させられ、新語として自動的に辞書に登録されることになる。
【0015】
発明の実施の形態においては、新語が登録される辞書は翻訳処理中の文書のみに適用される一時的な辞書であることもでき、またその新語を、すでに辞書に登録されている単語とは識別可能な形式で登録することも可能である。
【0016】
次に本発明の複合語登録プログラムとして、利用者から入力される3語以上の複合語とその訳語とを新たに辞書に登録するにあたって、登録すべき複合語よりも単語数の少ない複合語とその訳語とを自動的に対応させ、利用者の承認を得た後に、あるいは承認を得ることなく自動的に、新語として更に辞書に登録するプログラムを用いることもできる。
【0017】
このプログラムにおいては、図1の1で第一言語の複合語と第二言語の訳語とを調べる手順の代わりに、利用者からの入力に応じて3語以上から成る第一言語の複合語と、その複合語の第二言語の訳語とを辞書に登録する手順が実行され、その後利用者から入力された複合語を対象として図1の2から4の機能が実行される。
【0018】
次に本発明において機械翻訳装置によって使用される記憶媒体として、図1の1〜4のブロックにそれぞれ対応するステップの処理を計算機に実行させるためのプログラムを格納した計算機読出し可能可搬型記憶媒体が用いられる。また利用者からの入力に応じて3語以上から成る第一言語の複合語とその複合語の第二言語の訳語とを辞書に登録するステップの後に、前述の図1の2〜4のブロックに対応するステップを計算機に実行させるためのプログラムを格納した計算機読み出し可能可搬型記憶媒体が用いられる。
【0019】
また発明の実施の形態においては、機械翻訳装置における複合語登録方法として、図1の1〜4の各ブロックの機能を実行する方法と、利用者からの入力に応じて3語以上からなる第一言語の複合語と、その複合語の第二言語の訳語とを辞書に登録した後に、2〜4の機能を実行する方法とが用いられる。
【0020】
次に本発明の機械翻訳装置は、第一言語の文章を第二言語の文章に翻訳する装置であり、第一言語の複合語の第二言語の訳語を調べる複合語訳語調査手段と、その複合語を構成する要素単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める単語訳語調査手段と、先頭と末尾の単語の訳語のうちで、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段と、一致するものがある時、その訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する新語登録手段とを備える。
【0021】
また本発明の機械翻訳装置は、利用者からの入力に応じて3語以上からなる第一言語の複合語と、その複合語の第二言語の訳語とを辞書に登録する複合語登録手段と、その複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める単語訳語調査手段と、先頭と末尾の単語の訳語のうちに、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段と、一致するものがある時、訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する新語登録手段とを備える。
【0022】
以上のように本発明によれば、すでに辞書に登録されている複合語、または利用者から新たに登録される複合語と、その複合語に対応する訳語とを用いて、構成単語数の少ない複合語が新たに辞書に登録され、翻訳に利用される。
【0023】
【発明の実施の形態】
図2は本発明の機械翻訳装置の第1の実施形態における構成ブロック図である。同図において機械翻訳装置10は、原文入力部11、形態素解析部12、構文解析部13、訳文生成部14、対訳辞書15、単語訳語推定部16、登録判定部17、単語登録部18、補助対訳辞書19を備えている。
【0024】
原文入力部11は、対訳エディタなど、利用者から入力された原文を翻訳処理プログラムに与えるものである。
形態素解析部12は、対訳辞書15などを参照して、利用者から入力された原文を形態素、例えば単語に分割するプログラムである。形態素解析の技術は、自然言語処理の分野でほぼ完成されており、種々のアルゴリズムが存在する。
【0025】
構文解析部13、および訳文生成部14は、機械翻訳システムにおいて一般的な構文解析と訳文生成を行なうプログラムである。
単語訳語推定部16は、形態素解析部12による解析結果を利用して、複合語部分を、それを構成する単語に分割して、構成単語のそれぞれについて適切な訳語を推定するものであり、第1の実施形態は、この推定結果を用いて、例えばすでに辞書に登録されている複合語よりも構成単語数の少ない複合語を、登録語候補として作成するものである。
【0026】
登録判定部17は、単語訳語推定部16によって作成された複合語候補について、例えば補助対訳辞書19内にすでに登録されているか否かを判定し、作成された登録候補の登録の可否について判定を行なうものであり、単語登録部18は登録判定部17によって登録すべきものと判定された候補を補助対訳辞書19に登録するものである。
【0027】
ここで図2における各ブロックと、例えば請求項3における各手段との対応について説明する。請求項3における複合語訳語調査手段、単語訳語調査手段、および一致検出手段は、例えば図2における単語訳語推定部16に対応し、また新語登録手段は、例えば単語登録部18に対応する。
【0028】
図2の対訳辞書15は、機械翻訳装置によって用いられる基本辞書であり、本実施形態では英語から日本語への翻訳を例として、英語辞書が格納されているものとする。システムによっては日本語辞書、すなわち和英辞書と、英語辞書すなわち英和辞書は別のファイルになっているものとする。ここでは対訳辞書15では、1つの日本語表記がN個の英語訳に対応しているものとする。
【0029】
補助対訳辞書19は、本実施例において新たに登録すべき複合語が格納される辞書であり、対訳辞書15を補完する辞書として用いられる。
図2の機械翻訳装置の動作について、次の入力文を例として説明する。
【0030】
【表1】
Figure 0004021813
【0031】
まず形態素解析部12によって、入力文の形態素解析が行なわれる。ここでは全解探索型の形態素解析を使うものとする。全解探索型の形態素解析では、全ての単語分割の可能性をラティスの形で表現し、形態素解析の結果として最適のパス(文頭から文末への到達ルート)を返す処理が行なわれる。
【0032】
図3は前述の入力文の形態素解析結果を示す。同図では“no hit no run game”の部分に、単語分割の曖昧性が存在することを示す2通りのパスが示されている。形態素解析では、一般に短い単語が形態素として連なった解析結果よりも、複数の単語で構成される1つの形態素(複合語に対応)を含む結果が優先的に出力されるために、“no hit no run game”を1つの形態素とした解が採用されるのが普通である。
【0033】
形態素解析結果は、単語訳語推定部16に渡される。単語訳語推定部16は、形態素解析結果に含まれる形態素の中で、3つ以上の単語からなる形態素が存在するか否かを調べ、そのような形態素がある場合には、以下の方法で登録語候補の推定を行なう。
【0034】
まず第1に、対訳辞書15を用いて複合語“no hit no run game”の日本語訳を求める。一般に複合語の訳語はユニークに決まることが多いが、複数の日本語訳が存在する場合には、プライオリティが最も高いものを選択すればよい。ここでは「ノーヒットノーランゲーム」が訳語として求められたものとする。
【0035】
【表2】
Figure 0004021813
【0036】
第2に、複合語の英語単語の5つのうちで先頭(no)、および末尾(game)の単語について対訳辞書15を引き、それぞれについて訳語候補リストを作る。訳語の品詞が先頭の単語については名詞、形容詞以外のものは候補のリストから落とし、末尾単語については名詞以外のものは候補のリストから落とす。1つも候補が存在しない単語については、処理対象としないものとする。
【0037】
【表3】
Figure 0004021813
【0038】
第3に先頭、または末尾の単語の訳語候補リストの中で複合語自体の日本語訳「ノーヒットノーランゲーム」の先頭、または末尾の訳語と一致するものがあれば、その訳語候補と複合語訳中の対応する文字列とに例えば印をつけることによって、その対応を明白にする。この例では“game”の訳語候補「ゲーム」と、複合語訳「ノーヒットノーランゲーム」の末尾の文字列とが一致するため、英語の「game」と、訳語の「ゲーム」とに印をつける。
【0039】
【表4】
Figure 0004021813
【0040】
第4に、複合語から印のついた部分を除いた残りの部分と、訳語から印のついた部分を除いた残りの部分とを対応させて、登録すべき複合語の候補とする。
【0041】
【表5】
Figure 0004021813
【0042】
最後に登録語候補の妥当性をチェックし、登録語表記(対訳)を確定する。すなわち、登録語候補の英語表記において先頭、または末尾に前置詞が存在する場合には、英語表記から前置詞を削除して、登録語候補とする。
【0043】
図2の登録判定部17によって、登録語候補が既存の辞書、本実施形態では補助対訳辞書19に登録済でないことが判定され、単語登録部18によって補助対訳辞書19への登録が行なわれる。
【0044】
以上のように本発明の実施形態として、複合語を構成する単語のうちで先頭と末尾の単語の訳語と、複合語の訳語の先頭または末尾の位置にある単語との間で、一致するものがあるか否かが調べられ、一致するものがある時に、一致するものを除いた複合語の残りの部分と、複合語の訳語から一致した訳語を除いた部分とが対応させられて新語として辞書に登録される。
【0045】
これに対して処理は複雑になるものの、このように先頭と末尾とに限定することなく、複合語を構成する各単語の訳語と、複合語の訳語を構成する単語との間で一致するものがあるか否かを調べ、互いに中程の構成要素で一致するものがある時には、それぞれ一致するものを除いた2つの連続する部分と一致する語の左右とを対応させて、新語として辞書に登録することも当然可能である。
【0046】
ここで単語訳語推定部16による複合語登録の作成について、更に具体例を用いて説明する。次の例1は、日本語の先頭と英語の末尾がマッチする例であり、例えば日本語の「日本」を除いた部分が新たな登録語候補とされ、前置詞“of”を除いた部分が登録される。
【0047】
【表6】
Figure 0004021813
【0048】
次の例2は、日本語の末尾と英語の先頭がマッチした例を示し、例えば日本語の「政府間関係」が登録語として登録される。
【0049】
【表7】
Figure 0004021813
【0050】
次の例3では、1つの複合語から複数、ここでは3つの登録語が抽出されている。すなわち、先頭の単語を削除した複合語、末尾の単語を削除した複合語に加えて、先頭と末尾の単語を共に削除した複合語の抽出が行なわれている。
【0051】
【表8】
Figure 0004021813
【0052】
図2において、新しい複合語を登録すべき辞書としては、補助対訳辞書19の代わりに、通常ユーザが使用しているユーザ専用の辞書を用いるか、またはメモリやファイル上に一時的な辞書を作って、それを用いることにする。この一時的な領域は、通常の利用者辞書と同様に使用するものとするが、例えば現在処理中のテキストのみに対する入力文の解析辞書として使用するものとし、現在処理中の文書の翻訳が終わったら、その一時領域の記憶内容をクリアして、別の文書の翻訳には用いないように運用することも可能である。あるいは補助対訳辞書19の内部で、推定された新しい複合語であることを示す識別子を付加することによって、例えばユーザからの入力によって登録された複合語と区別することも可能である。
【0053】
以上が図2において、形態素解析の結果から新しい複合語を推定して、その複合語を登録するまでの処理である。一方形態素解析部12による処理の後で、構文解析部13、および訳文生成部14の処理を行なって、翻訳結果を出力する処理は通常の機械翻訳におけると同じである。
【0054】
但し、新たに登録した複合語を一時領域に作成されている辞書に登録している場合などには、基本辞書に対応する対訳辞書15、補助対訳辞書19、図示しないユーザ専用辞書の他に、その一時領域に作成されている辞書を参照することによって、新たに登録された複合語がそれ以後の入力文の翻訳に反映されることになる。
【0055】
続いて図2の機械翻訳装置における新たな複合語登録までの処理について、図4、図5のフローチャート、およびこれらのフローチャートにおいて、利用される新語推定制御テーブルの格納例を示す図6を用いて更に説明する。
【0056】
図4において処理が開始されると、ステップS1で図2の形態素解析部12による形態素解析が行なわれ、ステップS2でカレントワード(CW)、すなわち処理対象が、形態素解析結果としての形態素リストの左端の形態素、すなわち形態素リストの先頭で1つの形態素としての単語、または複合語にセットされ、ステップS3でカレントワードが複合語であるか否かが判定される。
【0057】
複合語でない場合には、ステップS4でカレントワードが1つ右にシフトされ、ステップS5で形態素リストがすでに終わっていたか否かが判定され、終わっていない場合には、そのシフトされた形態素を対象としてステップS3以降の処理が繰り返される。そしてステップS5で形態素リストがすでに終わっていた場合には、ステップS6で、図6で説明する新語判定制御テーブル内に除外表記がセットされた新語推定制御データが格納されているか否かが判定され、格納されていない場合には処理を終了し、格納されている場合には図5の処理に移行する。
【0058】
ステップS3でカレントワードが複合語である場合には、ステップS7で複合語が構成単語のリスト、すなわち単語リストに分解される。この分解処理においては、例えば図2の対訳辞書15を用いて単語分割が行なわれる。
【0059】
そしてステップS8で複合語の構成単語数が3語以上であるか否かが判定され、3語以上でない場合、すなわち2語の場合には、その2語の複合語から1語を除外した結果の1語は複合語にはならないため、その複合語に対する処理を終了し、形態素リストの次の形態素に対する処理を行なうために、ステップS4以降の処理が繰り返される。
【0060】
ステップS8で構成単語数が3語以上の場合には、ステップS9でその単語リストが図6の新語推定制御テーブルに登録される。
図6の新語推定制御テーブルは、複合語単語リストと、その単語リスト内の除外表記の対象となる単語、およびその除外表記の単語の単語リスト内の位置とが格納されるテーブルである。ここで除外表記は、複合語の構成単語リストにおいて先頭、または末尾の位置にあり、新たに推定される複合語においては除外される可能性のある単語であり、位置はその除外表記の単語の単語リスト内の位置である。
【0061】
続いて図4のステップS10で、単語リストの先頭が名詞、または形容詞であるか否かが判定され、名詞または形容詞である場合には、ステップS11でその先頭単語が、その位置とともに図6のテーブルの除外表記にセットされた後に、また名詞または形容詞のいずれでもない場合には直ちに、ステップS12の処理に移行する。
【0062】
ステップS12では、複合語の単語リストの末尾が名詞であるか否かが判定され、名詞である場合には末尾単語が、その位置とともに図6のテーブルの除外表記にステップS13でセットされた後に、また名詞でない場合には直ちに、形態素リスト内の次の形態素に対する処理を行なうために、ステップS4以降の処理が行なわれる。
【0063】
前述のように、ステップS5で形態素リストが終わっていたと判定され、ステップS6で図6の新語推定制御テーブルにデータがあると判定されると、図5の処理に移行する。
【0064】
図5ではまずステップS21で、図6の新語推定制御テーブルから1つのレコードが取得され、ステップS22でそのレコードの中の複合語単語リストから複合語表記(a)、例えば“no hit no run game”が復元され、ステップS23ではその表記(a)を用いて翻訳用辞書、例えば図2の対訳辞書15が引かれて、複合語の訳語(b)が求められる。
【0065】
続いてステップS24で、新語推定制御テーブルの原語除外表記(c)を用いて翻訳用辞書が引かれ、その除外表記に対する訳語、一般に複数の訳語の対訳リストが求められ、ステップS25で次のステップ以降で用いられるポインタが対訳リストの先頭にセットされ、ステップS26でポインタの先の表記(d)、すなわち原語除外表記(c)の複数の訳語のうち先頭の訳語が、複数語の訳語(b)の先頭または末尾と一致するか否かが判定され、一致する場合にはステップS31以降の処理が行なわれる。
【0066】
表記(d)が訳語(b)の先頭または末尾のいずれとも一致しない場合には、ステップS27でポインタが次のノード、すなわち対訳リストの2番目の訳語に進められ、ステップS28でポインタがリストの末尾をこえたか否かが判定され、こえていない場合にはステップS26以降の処理が繰り返される。
【0067】
ステップS28でポインタがリストの末尾をこえたと判定されると、ステップS29で新語推定制御テーブルにデータの残りがあるか、すなわちレコードがまだ残っているかが判定され、残っている場合にはステップS21以降の処理が繰り返され、残っていない場合には処理を終了する。
【0068】
ステップS26で表記(d)が訳語(b)の先頭または末尾と一致した場合には、ステップS31で複合語表記(a)の先頭または末尾からステップS24における原語除外表記(c)を除いた部分が新語の原語表記に設定され、ステップS32で複合語の訳語(b)からステップS26におけるポインタの先の表記(d)を除いた部分が新語の訳語表記に設定され、ステップS33で新語の原語表記の先頭または末尾が前置詞であるか否かが判定され、前置詞である場合にはステップS34で新語の原語表記の先頭または末尾からその前置詞が除かれた後に、また前置詞でない場合には直ちにステップS35の処理に移行する。
【0069】
ステップS35では、図2の登録判定部17によって、登録語候補となっている複合語が、例えば補助対訳辞書19にすでに登録されていないかが判定され、登録されていない場合にはステップS36で新語、すなわち登録語候補の原語表記と訳語表記とが対応させられる形で辞書に登録された後に、またすでに辞書に登録されている場合には直ちに、ステップS29以降の処理が繰り返され、ステップS29で新語推定制御テーブルにレコードの残りがないと判定された時点で処理を終了する。
【0070】
ここで例えば請求項1のプログラムの各手順と、フローチャートにおける各ステップとの対応について説明する。請求項1の複合語の訳語を調べる手順は、例えば図5のステップS23に対応し、複合語の先頭と末尾の単語の訳語を求める手順は、図4のステップS10〜S13、および図5のステップS24に対応する。またこれらの訳語のうちで、複合語の訳語の先頭または末尾の単語と一致するものがあるか否かを調べる手順は、例えば図5のステップS26〜S28に対応し、新語を辞書に登録する手順は例えばステップS31〜S36に対応する。
【0071】
続いて本発明の第2の実施形態について、図7〜図9を用いて説明する。図7は、第2の実施形態における機械翻訳装置のうちの、第2の実施形態の説明に必要な部分の構成ブロック図である。同図において、機械翻訳装置20は、図2における原文入力部11に代わる対訳データ入力部21に加えて、図2におけると同様に形態素解析部12、対訳辞書15、単語訳語推定部16、登録判定部17、単語登録部18、補助対訳辞書19を備えている。
【0072】
第2の実施形態においては、利用者から複合語の原語表記とその訳語表記、例えば英語表記とそれに対応する日本語表記が入力され、利用者が登録ボタンを押すことによって、利用者辞書にその複合語が登録されることを可能とする辞書登録ツールが、機械翻訳装置にあらかじめ備えられている場合に、利用者から入力される原語表記とその訳語表記とを用いて、登録される複合語よりも単語数の少ない複合語を自動的に推定して、例えば利用者の確認を得た後に、推定された複合語を辞書に登録する動作が行なわれる。
【0073】
図7の対訳データ入力部21は、前述のように例えば機械翻訳ソフトに含まれる辞書登録ツールなど、利用者が辞書に新しい単語を登録するための手段であり、利用者から入力された原語表記とそれに対応する訳語表記は、対訳データ入力部21を介して形態素解析部12に与えられる。形態素解析部12から補助対訳辞書19までの各部の動作は、第1の実施形態におけると、複合語の訳語を求める処理が不要となる以外は、同様である。
【0074】
図8は単語登録ツールを用いた利用者からの複合語登録画面の例である。例えば英語表記から日本語表記への対応を記述した英語辞書への登録データとして、図のように英語の複合語とそれの訳語とを入力することによって、例えば利用者辞書への複合語の登録が行なわれる。
【0075】
図8の画面の状態で、例えば英日登録(A)が押されることによって、例えば英語辞書に次の語の対応関係が登録される。
【0076】
【表9】
Figure 0004021813
【0077】
第2の実施形態においては、この登録される複合語から単語数を減らした部分的な文字列を新たな複合語として推定し、推定された複合語を、例えば利用者の確認の後に、例えば図7の補助対訳辞書19に登録することになる。
【0078】
図9は、図7の第2の実施形態における処理フローチャートである。同図において処理が開始されると、まずステップS41で、図7の対訳データ入力部21を介して単語登録ツールなどから入力された複合語の原語表記(a)と、その訳語表記(b)の情報が得られる。ステップS42で原語表記が翻訳用辞書、例えば対訳辞書15を用いて形態素解析部12によって形態素解析され、ステップS43で入力された複合語の原語表記を構成する単語数が3語以上であるか否かが判定され、3語以上でない場合、例えば2語である場合には、直ちに処理を終了する。
【0079】
ステップS43で原語表記(a)の構成単語数が3語以上である場合には、図4のステップS10〜S13におけると同様に、ステップS44〜S47で複合語の単語リストの先頭が名詞または形容詞である場合にその先頭単語を除外表記とし、単語リストの末尾が名詞である場合に末尾単語を除外表記とする処理が行なわれる。但し、この第2の実施形態では対象となる複合語が1つだけであるため、図6の新語推定制御テーブルのセットは行なわれない。
【0080】
続いてステップS48で除外表記が存在するか否かが判定され、存在しない場合には直ちに処理を終了し、存在する場合には図5のステップS24〜S28と同じ処理が行なわれる。この処理では、ポインタが対訳リストの末尾をこえるまで、対訳リスト内の表記(d)が複合語の訳語(b)の先頭または末尾と一致するか否かを判定する処理が行なわれ、一致するものがないうちにポインタがリストの末尾をこえたとステップS28で判定されると、処理を終了する。
【0081】
ステップS26で対訳リストの訳語のうちで、ポインタの先の表記(d)が複合語の訳語(b)の先頭または末尾と一致したものがあると判定されると、ステップS31〜S36で図5におけると同じ処理が行なわれ、ステップS36で新語の原語表記と訳語表記が辞書に登録されて処理を終了する。但し、このステップS36の前に、ステップS50で新語の登録についての利用者の確認を求め、利用者の確認があった場合にのみ、ステップS36で新語の辞書への登録が行なわれる。
【0082】
このように第2の実施形態において、利用者から入力された複合語から単語数を減らして部分的な文字列を新語として自動的に辞書に登録する場合には、その単語を登録すべき辞書としては、通常使用している利用者辞書を用いてもよく、あるいはメンテナンスが容易なように専用の別の辞書に登録してもよく、あるいは前述のように、利用者辞書に特別な識別子をつけて登録してもよい。
【0083】
以上において本発明の複合語登録装置、およびプログラムについてその詳細を説明したが、この複合語登録装置は当然一般的なコンピュータシステムを中心として構成することが可能である。図10はそのようなコンピュータシステム、すなわちハードウエア環境の構成ブロック図である。
【0084】
図10においてコンピュータシステムは中央処理装置(CPU)30、リードオンリメモリ(ROM)31、ランダムアクセスメモリ(RAM)32、通信インタフェース33、記憶装置34、入出力装置35、可搬型記憶媒体の読み取り装置36、およびこれらの全てが接続されたバス37によって構成されている。
【0085】
記憶装置34としてはハードディスク、磁気ディスクなど様々な形式の記憶装置を使用することができ、このような記憶装置34、またはROM31に図4,図5、および図9などのフローチャートに示されたプログラムや、本発明の特許請求の範囲の請求項1,2、および3のプログラムなどが格納され、そのようなプログラムがCPU30によって実行されることにより、第1の実施形態における新たな複合語の登録などが可能となる。
【0086】
このようなプログラムは、プログラム提供者38側からネットワーク39、および通信インタフェース33を介して、例えば記憶装置34に格納されることも、また市販され、流通している可搬型記憶媒体40に格納され、読み取り装置36にセットされて、CPU30によって実行されることも可能である。可搬型記憶媒体40としてはCD−ROM、フレキシブルディスク、光ディスク、光磁気ディスク、DVDなど様々な形式の記憶媒体を使用することができ、このような記憶媒体に格納されたプログラムが読み取り装置36によって読み取られることにより、例えば第2の実施形態における利用者の新語登録を利用した複合語の推定とその登録が可能となる。さらにプログラムをリモートサーバ41に置いて、クライアント/サーバモデルまたはWebブラウザから利用することも可能である。
【0087】
(付記1) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置を構成する計算機によって使用されるプログラムにおいて、
該第一言語の複合語の第二言語の訳語を調べる手順と、
該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める手順と、
該先頭と末尾の単語の訳語のうちで、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる手順と、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する手順とを計算機に実行させるための複合語登録プログラム。
【0088】
(付記2) 前記新語が登録される辞書は、翻訳処理中の文書のみに適用される一時的な辞書であることを特徴とする付記1記載の複合語登録プログラム。
(付記3) 前記新語の登録手順において、該新語を、既に辞書に登録されている内容と識別可能な形式で登録することを特徴とする付記1記載の複合語登録プログラム。
【0089】
(付記4) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置を構成する計算機によって使用されるプログラムにおいて、
利用者からの入力に応じて、3語以上からなる第一言語の複合語と、該複合語の第二言語の訳語とを辞書に登録する手順と、
該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める手順と、
該、先頭と末尾の単語の訳語のうちに、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる手順と、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する手順とを計算機に実行させるための複合語登録プログラム。
【0090】
(付記5) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置を構成する計算機によって使用されるプログラムにおいて、
該第一言語の複合語の第二言語の訳語を調べる手順と、
該複合語を構成する各単語の訳語をそれそれ1つ以上求める手順と、
該各単語の訳語のうちで、複合語の訳語を構成する単語に一致するものがあるか否かを調べる手順と、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する手順とを計算機に実行させるための複合語登録プログラム。
【0091】
(付記6)第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置において、
該第一言語の複合語の第二言語の訳語を調べる複合語訳語調査手段と、
該複合語を構成する要素の単語の訳語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める単語訳語調査手段と、
該先頭と末尾の単語の訳語のうちで、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段と、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する新語登録手段とを備えることを特徴とする複合語登録装置。
【0092】
(付記7) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置において、
利用者からの入力に応じて、3語以上からなる第一言語の複合語と、該複合語の第二言語の訳語とを辞書に登録する複合語登録手段と、
該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める単語訳語調査手段と、
該先頭と末尾の単語の訳語のうちに、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段と、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する新語登録手段とを備えることを特徴とする複合語登録装置。
【0093】
(付記8) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳用の複合語登録方法において、
該第一言語の複合語の第二言語の訳語を調べ、
該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求め、
該先頭と末尾の単語の訳語のうちで、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べ、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録することを特徴とする複合語登録方法。
【0094】
(付記9) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳用の複合語登録方法において、
利用者からの入力に応じて、3語以上からなる第一言語の複合語と、該複合語の第二言語の訳語とを辞書に登録し、
該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求め、
該先頭と末尾の単語の訳語のうちに、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べ、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録することを特徴とする複合語登録方法。
【0095】
(付記10) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置を構成する計算機によって使用される記憶媒体において、
該第一言語の複合語の第二言語の訳語を調べるステップと、
該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求めるステップと、
該先頭と末尾の単語の訳語のうちで、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べるステップと、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録するステップとを計算機に実行させるためのプログラムを格納した計算機読出し可能可搬型記憶媒体。
【0096】
(付記11) 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置を構成する計算機によって使用される記憶媒体において、
利用者からの入力に応じて、3語以上からなる第一言語の複合語と、該複合語の第二言語の訳語とを辞書に登録するステップと、
該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求めるステップと、
該先頭と末尾の単語の訳語のうちに、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べるステップと、
一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録するステップとを計算機に実行させるためのプログラムを格納した計算機読出し可能可搬型記憶媒体。
【0097】
【発明の効果】
以上詳細に説明したように本発明によれば、すでに辞書に登録されている複合語を利用して新たな複合語を推定し、その複合語を辞書に登録することによって、翻訳処理で利用できる登録単語数を自動的に増加させることができる。
【0098】
また辞書登録機能を使った利用者による複合語の登録に際して、利用者から入力される複合語の部分文字列についても、自動的に新しい複合語として推定し、例えば利用者の確認を得た後に辞書への登録を行なうことにより、辞書の自動的整備が可能となり、機械翻訳の翻訳品質の向上に寄与するところが大きい。
【図面の簡単な説明】
【図1】本発明の複合語登録プログラムの原理的な機能ブロック図である。
【図2】第1の実施形態における機械翻訳装置の構成を示すブロック図である。
【図3】形態素解析結果の例を示す図である。
【図4】第1の実施形態における複合語自動登録処理の全体フローチャートである。
【図5】第1の実施形態における複合語自動登録処理の全体フローチャート(続き)である。
【図6】新語推定制御テーブルの格納内容の例を示す図である。
【図7】第2の実施形態における機械翻訳装置の構成を示すブロック図である。
【図8】利用者からの複合語登録画面の例を示す図である。
【図9】第2の実施形態における複合語登録処理の全体フローチャートである。
【図10】本発明におけるプログラムのコンピュータへのローディングを説明する図である。
【符号の説明】
10、20 機械翻訳装置
11 原文入力部
12 形態素解析部
13 構文解析部
14 訳文生成部
15 対訳辞書
16 単語訳語推定部
17 登録判定部
18 単語登録部
19 補助対訳辞書
21 対訳データ入力部
30 中央処理装置(CPU)
31 リードオンリメモリ(ROM)
32 ランダムアクセスメモリ(RAM)
33 通信インタフェース
34 記憶装置
35 入出力装置
36 読み取り装置
37 バス
38 プログラム提供者
39 ネットワーク
40 可搬型記憶媒体

Claims (5)

  1. 第一言語の文章を、第二言語の文章に翻訳するコンピュータで使用される複合語登録プログラムであって、
    コンピュータを、
    入力された該第一言語の複合語の第二言語の訳語を調べる複合語訳語調査手段、
    該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求めて、訳語候補リストを作成し記憶する単語訳語調査手段、
    該先頭と末尾の単語の訳語を該訳語候補リストから読み出し、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段、
    一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に書き込み登録する新語登録手段、
    として機能させるための複合語登録プログラム。
  2. 第一言語の文章を、第二言語の文章に翻訳するコンピュータで使用される複合語登録プログラムであって、
    コンピュータを、
    利用者からの入力に応じて、3語以上からなる第一言語の複合語と、該複合語の第二言語の訳語とを辞書に書き込み登録する複合語登録手段、
    該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求めて、訳語候補リストを作成し記憶する単語訳語調査手段、
    該先頭と末尾の単語の訳語を該訳語候補リストから読み出し、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段
    一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に書き込み登録する新語登録手段、
    として機能させるための複合語登録プログラム。
  3. 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置において、
    該第一言語の複合語の第二言語の訳語を調べる複合語訳語調査手段と、
    該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める単語訳語調査手段と、
    該先頭と末尾の単語の訳語のうちで、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段と、
    一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する新語登録手段とを備えることを特徴とする複合語登録装置。
  4. 第一言語の文章を、第二言語の文章に翻訳する機械翻訳装置又は電子辞書装置において、
    利用者からの入力に応じて、3語以上からなる第一言語の複合語と、該複合語の第二言語の訳語とを辞書に登録する複合語登録手段と、
    該複合語を構成する要素の単語のうちで、先頭と末尾の単語の訳語をそれぞれ1つ以上求める単語訳語調査手段と、
    該先頭と末尾の単語の訳語のうちに、複合語の訳語の先頭、または末尾の位置にある単語に一致するものがあるか否かを調べる一致検出手段と、
    一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に登録する新語登録手段とを備えることを特徴とする複合語登録装置。
  5. 第一言語の文章を、第二言語の文章に翻訳するコンピュータで使用される複合語登録プログラムであって、
    コンピュータを、
    入力された該第一言語の複合語の第二言語の訳語を調べる複合語訳語調査手段、
    該複合語を構成する各単語の訳語をそれぞれ1つ以上求めて、訳語候補リストを作成し記憶する単語訳語調査手段、
    該各単語の訳語を該訳語候補リストから読み出し、複合語の訳語を構成する単語に一致するものがあるか否かを調べる一致検出手段、
    一致するものがある時、該訳語が一致する単語を除いた複合語の残りの部分の第一言語と、複合語の訳語から該一致した訳語を除いた部分の第二言語とを対応させて、新語として辞書に書き込み登録する新語登録手段
    として機能させるための複合語登録プログラム。
JP2003184646A 2003-06-27 2003-06-27 複合語登録プログラムおよび登録装置 Expired - Fee Related JP4021813B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003184646A JP4021813B2 (ja) 2003-06-27 2003-06-27 複合語登録プログラムおよび登録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003184646A JP4021813B2 (ja) 2003-06-27 2003-06-27 複合語登録プログラムおよび登録装置

Publications (2)

Publication Number Publication Date
JP2005018571A JP2005018571A (ja) 2005-01-20
JP4021813B2 true JP4021813B2 (ja) 2007-12-12

Family

ID=34184347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003184646A Expired - Fee Related JP4021813B2 (ja) 2003-06-27 2003-06-27 複合語登録プログラムおよび登録装置

Country Status (1)

Country Link
JP (1) JP4021813B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5354483B2 (ja) * 2006-12-15 2013-11-27 シャープ株式会社 電子機器および電子機器の制御方法

Also Published As

Publication number Publication date
JP2005018571A (ja) 2005-01-20

Similar Documents

Publication Publication Date Title
US8886514B2 (en) Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
JP4237001B2 (ja) 文書のコロケーション誤りを自動的に検出するシステムおよび方法
JP3973549B2 (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP5235344B2 (ja) 機械翻訳を行う装置、方法およびプログラム
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP5002271B2 (ja) 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP4401269B2 (ja) 対訳判断装置及びプログラム
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
JP4021813B2 (ja) 複合語登録プログラムおよび登録装置
JP2000163441A (ja) 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP3236027B2 (ja) 機械翻訳装置
JP2002132764A (ja) 機械翻訳前処理装置
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JP2004171397A (ja) 翻訳支援装置
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
JPH11259474A (ja) 機械翻訳装置及び機械翻訳方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070927

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101005

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111005

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111005

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121005

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121005

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131005

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees