JP3383478B2 - 機械翻訳装置 - Google Patents
機械翻訳装置Info
- Publication number
- JP3383478B2 JP3383478B2 JP15682895A JP15682895A JP3383478B2 JP 3383478 B2 JP3383478 B2 JP 3383478B2 JP 15682895 A JP15682895 A JP 15682895A JP 15682895 A JP15682895 A JP 15682895A JP 3383478 B2 JP3383478 B2 JP 3383478B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- frozen
- sentence
- machine translation
- translated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
原文書を目的言語の訳文書に翻訳する機械翻訳装置に関
する。
機械翻訳装置では、未知語の扱いが問題となる。この未
知語とは、機械翻訳装置の辞書に登録されていない文字
列であり、機械翻訳装置はそのような文字列に関する翻
訳のための情報を得ることができないため、原文の解析
に失敗したり、訳文の生成に悪影響を及ぼす。そこで、
未知語に対しては、何らかの方策を施す必要が出てく
る。
−306766号公報に記載されているように、未知語
である英文字列等がローマ字の文字列として認識できれ
ば、その文字列をかなに置き換えるようにしたものがあ
った。即ち、これは、翻訳文中に英文字列等が現れるの
を防ぎ、翻訳文の質を向上させる目的で、入力された英
文字列等の機械翻訳を行う過程で辞書に登録されていな
い語が現れた場合、その語がローマ字として認識できる
かどうかを判定し、ローマ字として認識されれば、ロー
マ字かなテーブルを用いてかなに変換し、翻訳結果を出
力するという構成であった。
来の装置では、未知語に対して、未知語の記憶部やロー
マ字かなテーブルを設ける必要があり、これは、機械翻
訳装置の辞書に未知語を登録することと等価である。こ
の登録の手間をかけることを考えた場合、確かに英文字
列をローマ字を経てかなに変換する場合には効果がある
が、その他の未知語に対して適用できるかどうかは疑問
の余地が残されるという問題があった。このような点か
ら、未知語等が混在した原文を訳文の生成に悪影響を及
ぼすことなく高品位の翻訳結果を保証することのできる
機械翻訳装置の実現が望まれていた。
解決するために、視点を変えて、入力された未知語に対
する機械翻訳装置の本来は問題とされていた振舞い、つ
まり、未知語に対して機械翻訳装置は積極的に翻訳処理
を行わないという性質を利用することで、有用な翻訳装
置を構築するようにしたものである。そのために、本発
明は、入力文(原文)の従来の未知語や、更に、翻訳対
象としたくない部分が、機械翻訳装置に積極的に翻訳処
理されないようにするために、それらを機械翻訳装置に
対して見せかけの未知語とする手段を設けた。
力し、入力された原文中における各用語の中で、翻訳対
象外とすべき任意の用語については未知語相当語である
凍結用語に置換を行い且つそれ以外の各用語は原文のま
まとして出力する用語凍結手段と、翻訳対象外とすべき
任意の用語に対応した凍結用語と解凍用語とを示す照合
表と、用語凍結手段から出力された文を翻訳し、目的言
語の訳文を生成すると共に、当該文中に未知語相当語で
ある凍結用語が含まれていた場合は、その凍結用語を未
知語としてそのまま出力する機械翻訳手段と、この機械
翻訳手段から出力された文に対して、照合表を参照し、
凍結用語が適合した場合は、対応する解凍用語に変換し
て出力する用語解凍手段とを備えたことを特徴とするも
のである。
段は、原文を入力し、入力された原文中における各用語
の中で、翻訳対象外とすべき任意の用語については未知
語相当語である凍結用語に置換を行い且つそれ以外の各
用語は原文のままとして出力する。また、照合表には、
翻訳対象外とすべき任意の用語に対応した凍結用語と解
凍用語との情報が格納されている。機械翻訳手段は、用
語凍結手段から出力された文中に未知語相当語である凍
結用語が含まれていた場合は、その凍結用語を未知語と
してそのまま出力する。用語解凍手段は、機械翻訳手段
から出力された文に対して、照合表に適合する凍結用語
があるか否かを判定し、適合する凍結用語があった場合
は対応する解凍用語に変換して出力する。
説明する。図1は本発明の機械翻訳装置の実施例を示す
構成図である。図の装置は、原文1に対して前編集を行
い機械翻訳して訳文5を出力する装置であり、そのため
の構成として、用語凍結手段2、機械翻訳手段3、用語
解凍手段4、辞書手段6、照合表7を備えている。
然言語で記述された文章である。用語凍結手段2は、入
力された原文1中、任意の用語を翻訳対象外となる凍結
用語に置換して機械翻訳手段3に出力する機能を有して
いる。尚、この凍結とは、機械翻訳手段3が翻訳対象外
とする未知語相当にする動作を意味している。また、こ
の用語凍結手段2は、凍結処理を行った場合は、その用
語、凍結用語、解凍用語の情報を照合表7に格納する機
能を有している。
原文を翻訳し、目的言語の訳文を生成する既知の機械翻
訳部であり、また、この機械翻訳手段3は原文中に凍結
状態として識別できる部分(未知語相当語である凍結用
語)が含まれていた場合は、その部分を翻訳対象外であ
る未知語(即ち、未知語相当語)としてそのまま出力す
るよう構成されている。用語解凍手段4は、機械翻訳手
段3が出力する訳文中の用語のうち、用語凍結手段2に
より凍結された用語を、後述する照合表7を参照して必
要に応じて原文の用語に復元したり、目的言語の用語に
変換したりする機能を有している。尚、以下、この復元
/変換する動作を解凍と呼ぶ。また、訳文5は用語解凍
手段4で解凍が行われた結果を反映した文である。
使用したり、必要に応じて用語凍結手段2や用語解凍手
段4が用いるための既知の辞書手段であり、任意の単語
についての字種情報やコード体系および形態素情報等を
有している。尚、この形態素とは、例えば英語や日本語
でいえば、単語等の一定の意味を持つ文字群のことをい
う。照合表7は用語凍結手段2により作成されるもの
で、用語凍結手段2が凍結した用語の凍結方法と解凍方
法とが格納され、また、用語解凍手段4が解凍時に参照
して解凍動作を行うためのものである。
る。この照合表7は、用語凍結手段2が凍結時に作成し
たり、予め作成しておくものである。図中、10は照合
表7に格納される情報の一般形式を示し、スラッシュ
「/」で区切られた三つの記述フィールド(左から「用
語」、「凍結用語」、「解凍用語」)で構成されてい
る。ここで、「用語」フィールドには、原文1におい
て、翻訳処理の対象としない部分、即ち、翻訳非対象用
語が記載される。この翻訳非対象用語は、複数の単語で
構成される場合もあるので、それを一つの翻訳非対象用
語部分として原文1中に示しておく必要がある。その場
合には、「凍結用語」フィールドに、「用語」フィール
ドに記載された翻訳非対象用語に対応させた未知語相当
語(以下、これを凍結用語と呼ぶ)を記載しておく。ま
た、「解凍用語」フィールドには、「用語」フィールド
に記載されている翻訳非対象用語に対して、訳文5を生
成する際に置換すべき目的言語の用語(以下、これを解
凍用語と呼ぶ)を記載する。
ドに記載の用語に等しい場合には省略されることも有り
得る。図中、11がこの状態を示しており、これは、英
語中の典型的な未知語「ODA」に対する情報である。
英文中、「ODA」は、固有名詞である「小田」の英語
表現や「政府開発援助」の略称である「ODA」等が考
えられるが、この場合は、凍結用語および解凍用語共に
原文の元の用語の表記のままで問題ないため、それらの
フィールド内の記載は省略されている。
場合の用語「Machine Translation」に対する情報であ
る。この場合は凍結用語は未知語として扱われることを
想定して辞書手段6に存在しない「μτ」という表記が
なされ、解凍用語には、訳文での置換表記「MT」が記
載されている。
yする」の「copy」の部分を翻訳非対象用語として
扱う場合の情報である。通常、翻訳非対象用語は、名詞
が殆どであるが、この例は、動詞を翻訳非対象用語とし
て扱う場合を示している。この例から分かるように、動
詞等のように原言語と目的言語の間で一意に対応しない
用語は対応関係を明確にするための冗長な用語(「co
pyする」の「する」の部分)も含めた記載が可能であ
る。尚、照合表7における凍結用語の記法は特に限定さ
れるものではないが、本実施例では、12の例にあるよ
うに記号列を用いることで実現した。即ち、通常、「μ
τ」といった用語は存在しないことから、これを見せか
けの未知語としている。
中に一時的に作成されるが、予め同等の照合表を作成し
ておき、本機械翻訳装置の実行時に利用するよう構成し
てもよい。また、本機械翻訳装置の処理実行後に、利用
した照合表7の内容を保存し蓄積することにより学習知
識として利用することも可能である。即ち、用語凍結手
段2に対して原文1が与えらえた場合、用語凍結手段2
は照合表7を参照して、原文1中に翻訳非対象用語が含
まれていないかどうかを判定するよう構成してもよい。
する。図3は、本機械翻訳装置における用語凍結手段2
の動作を示すフローチャートである。原文1が入力され
ると、用語凍結手段2は先ず、その原文1を単語に分割
する(ステップS1)。この単語への分割は形態素解析
の技術をもって行う。即ち、用語凍結手段2は、最初
に、辞書手段6を利用して形態素解析のための情報を得
る。そして、辞書手段6から得られた形態素解析情報を
利用して、原文1の分割した単語が翻訳対象であるかど
うかの検査を実施する(ステップS2)。ここで、その
単語が翻訳対象でない、つまり、翻訳非対象であるとい
うことには以下の要件が含まれる。
の情報は、辞書手段6から得られる情報、即ち、辞書に
形態素としてその用語が登録されているかどうかの情報
で判断が可能である。また、(b)については、原文中
での当該単語の字種(漢字/ひらがな/カタカナ/アル
ファベット/記号等)や、コード体系(JIS/シフト
JIS等)などからの情報で判断が可能であり、これら
の情報についても辞書手段6から得ることができる。
が、特定の単語もしくは単語列に対して予め翻訳対象と
しない旨を指定した場合に判断可能である。これを実現
するには原文中に翻訳非対象用語をマークしておく方法
等がある。尚、このマークの方法としては、例えば、一
般に前編集記号と呼ばれている括弧等の記号を用い、翻
訳非対象用語を括弧でくくるといった方法で行う。ま
た、本装置の使用者が指定する場合は、図示省略したキ
ーボードやポインティングデバイスといった入出力イン
タフェースを用いて行う。
翻訳非対象、つまり、凍結対象であると判断されると
(ステップS3)、上記(a)〜(c)の要件に対応し
た凍結方法を決定する(ステップS4)。例えば、
(a)に該当する未知語「ODA」については、図2中
の11に示すように、用語をそのまま固定する方法を採
用する。また、(b)に該当する用語「copyする」
については、図2の13にしめすように、凍結用語を
「★する」とし、解凍用語を「copy」とするよう
に、日本語である原文に出現する英語「copy」を識
別し、凍結する方法を採用する。更に、(c)に該当す
る用語「Machine Translation 」は、通常に翻訳しても
「機械翻訳」なる問題ない訳語を得ることができるはず
であるが、この場合は、本装置の使用者の意向により、
図2中の12に示すように略語「MT」と訳出する方法
を採用する。
と、最後に、決定された凍結方法で原文中の対象となる
用語を凍結し、必要に応じて照合表7にその情報、即
ち、図2に示すような用語、凍結用語、解凍用語からな
る情報を格納する(ステップS5)。一方、上記ステッ
プS3の凍結対象であるか否かの判断処理において、そ
の用語が凍結対象でなければ、ステップS4、S5のス
テップは省略される。最後に、未処理の単語があるかを
チェックし(ステップS6)、まだ、単語が残されてい
るならば、ステップS2〜S6を繰り返す。そして、原
文1の全ての単語について処理を終えれば、用語凍結手
段2は、凍結対象の単語には凍結処理が施され、それ以
外の単語は元の原文のままである文を機械翻訳手段3に
渡して動作を終了する。次に、機械翻訳手段3は、用語
凍結手段2から出力された文を辞書手段6を用いて翻訳
し、目的言語の訳文を生成し、出力する。その際、用語
凍結手段2から出力された文の中に凍結状態の部分(即
ち、未知語相当語である凍結用語)が含まれている場合
は、その部分は翻訳対象外の未知語(即ち、未知語相当
語)として翻訳は行わず、そのまま出力を行う。
作を説明する。図4は、用語解凍手段4の動作を示すフ
ローチャートである。先ず、機械翻訳手段3から出力さ
れた文を入力する(ステップS11)。次に、入力され
た文中の用語を照合表7から得た情報により検索し(ス
テップS12)、その用語が解凍の対象であるかを判断
する(ステップS13)。この判断によって、その用語
が解凍対象であるならば、照合表7から得た当該用語の
解凍用語によってその解凍方法を決定し(ステップS1
4)、用語の解凍を行い、その結果を訳文5(図1参
照)に反映させる(ステップS15)。一方、ステップ
S13において、解凍の必要がないと判断された場合
は、ステップS14、S15の処理は省略される。そし
て、最後に未処理の用語があるかをチェックし(ステッ
プS16)、まだ、用語が残されているならば、ステッ
プS12〜S16を繰り返す。入力された文中の全ての
用語について処理を終えれば、用語解凍手段4は、凍結
用語には解凍処理を施した結果を反映させた訳文5(図
1参照)を出力して動作を終了する。
の機械翻訳手段に対し、原文中の未知語や翻訳対象とし
たくない部分を翻訳されないようにするために、用語を
凍結し、かつ、凍結した用語を機械翻訳後に解凍するよ
うにしたので、機械翻訳手段が未知語に対して積極的に
翻訳処理を行わなくても、未知語や異言語が混在した原
文を、訳文の生成に悪影響を及ぼすことなく高品位の翻
訳結果を保証して翻訳することができる。
象となる用語と、その用語を置換する凍結用語と、その
凍結用語に対応した解凍用語からなる記述フィールドを
有する情報で構成されているため、任意の用語に対し
て、容易に作成および変更等が可能である。更に、本実
施例では、用語凍結手段2は、原文1中、任意の用語を
凍結状態とした場合は、その凍結対象となる用語と、凍
結用語と、解凍用語とを照合表7に格納するようにした
ため、別途に照合表7を作成する手間がいらず、機械翻
訳装置としての操作性の向上に寄与することができる。
したように、原文1が与えられた場合、照合表7を参照
し、その原文1中に、凍結対象となる用語が含まれてい
るかを判定して、その用語が含まれていた場合は、照合
表7に基づいて凍結処理を行うよう構成してもよく、こ
のような構成であれば、その都度、凍結処理の操作を行
う必要がなく、より操作性の向上を図ることができる。
用語(いずれも自然言語)に対して凍結/解凍処理を行
う場合、即ち、原文1における自然言語である用語その
ものの凍結/解凍処理に適用した例を示したが、原文1
に付与されているフォント情報や文書のタグ情報といっ
た文書書式や文書構造を表す情報についても適用するこ
とが可能である。この場合も、文書書式や文書構造を表
す情報に対して、上述の実施例と同様にして、凍結処
理、解凍処理を行うことができる。
装置によれば、翻訳対象とはしたくない部分を凍結用語
として機械翻訳を行い、その訳文に対して凍結用語に対
応した解凍処理を行うようにしたので、未知語等が混在
した原文であっても高品位の翻訳結果を保証することが
できる。
る。
を示す図である。
動作を示すフローチャートである。
動作を示すフローチャートである。
Claims (6)
- 【請求項1】 原文を入力し、入力された原文中におけ
る各用語の中で、翻訳対象外とすべき任意の用語につい
ては未知語相当語である凍結用語に置換を行い且つそれ
以外の各用語は原文のままとして出力する用語凍結手段
と、 翻訳対象外とすべき前記任意の用語に対応した凍結用語
と解凍用語とを示す照合表と、 前記用語凍結手段から出力された文を翻訳し、目的言語
の訳文を生成すると共に、当該文中に未知語相当語であ
る前記凍結用語が含まれていた場合は、当該凍結用語を
未知語としてそのまま出力する機械翻訳手段と、 前記機械翻訳手段から出力された文に対して、前記照合
表を参照し、前記凍結用語が適合した場合は、対応する
解凍用語に変換して出力する用語解凍手段とを備えたこ
とを特徴とする機械翻訳装置。 - 【請求項2】 請求項1記載の機械翻訳装置において、 照合表は、凍結対象となる用語と、その用語を置換する
凍結用語と、その凍結用語に対応した解凍用語からなる
記述フィールドを有する情報で構成されていることを特
徴とする機械翻訳装置。 - 【請求項3】 請求項2に記載の機械翻訳装置におい
て、 用語凍結手段は、原文中、翻訳対象外とすべき任意の用
語を凍結状態とした場合は、その凍結対象となる用語
と、それに対応する凍結用語及び解凍用語とを照合表に
格納することを特徴とする機械翻訳装置。 - 【請求項4】 請求項1〜3のいずれかに記載の機械翻
訳装置において、 用語凍結手段は、原文が与えられた場合、照合表を参照
し、当該原文中に、凍結対象となる用語が含まれている
かを判定して、その用語が含まれていた場合は、当該照
合表に基づいて凍結処理を行うことを特徴とする機械翻
訳装置。 - 【請求項5】 原文を入力し、入力された原文中、原文
中の用語以外の文書書式又は文書構造を表す情報につい
ては未知語相当語である凍結用語に置換を行い且つそれ
以外の各用語は原文のままとして出力する用語凍結手段
と、 前記文書書式又は文書構造を表す情報に対応した凍結用
語と解凍用語とを示す照合表と、 前記用語凍結手段から出力された文を翻訳し、目的言語
の訳文を生成すると共に、当該文中に未知語相当語であ
る前記凍結用語が含まれていた場合は、当該凍結用語を
未知語としてそのまま出力する機械翻訳手段と、 前記機械翻訳手段から出力された文に対して、前記照合
表を参照し、前記凍結用語が適合した場合は、対応する
解凍用語に変換して出力する用語解凍手段とを備えたこ
とを特徴とする機械翻訳装置。 - 【請求項6】 原文を入力し、入力された原文中、原文
中の各用語の中で翻訳対象外とすべき任意の用語および
原文中の用語以外の文書書式又は文書構造を表す情報に
ついてはそれぞれ未知語相当語である凍結用語に置換を
行い且つそれら以外の各用語は原文のままとして出力す
る用語凍結手段と、 翻訳対象外とすべき前記任意の用語および文書書式又は
文書構造を表す情報にそれぞれ対応した凍結用語と解凍
用語とを示す照合表と、 前記用語凍結手段から出力された文を翻訳し、目的言語
の訳文を生成すると共に、当該文中に未知語相当語であ
る前記凍結用語が含まれていた場合は、当該凍結用語を
未知語としてそのまま出力する機械翻訳手段と、 前記機械翻訳手段から出力された文に対して、前記照合
表を参照し、前記凍結用語が適合した場合は、対応する
解凍用語に変換して出力する用語解凍手段とを備えたこ
とを特徴とする機械翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15682895A JP3383478B2 (ja) | 1995-05-31 | 1995-05-31 | 機械翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15682895A JP3383478B2 (ja) | 1995-05-31 | 1995-05-31 | 機械翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08329091A JPH08329091A (ja) | 1996-12-13 |
JP3383478B2 true JP3383478B2 (ja) | 2003-03-04 |
Family
ID=15636247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15682895A Expired - Fee Related JP3383478B2 (ja) | 1995-05-31 | 1995-05-31 | 機械翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3383478B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6373198B2 (ja) * | 2015-01-28 | 2018-08-15 | 日本電信電話株式会社 | テキスト変換装置、方法、及びプログラム |
JP6857554B2 (ja) * | 2017-06-06 | 2021-04-14 | 池上通信機株式会社 | 放送用モニタシステム |
-
1995
- 1995-05-31 JP JP15682895A patent/JP3383478B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08329091A (ja) | 1996-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO1998008169A1 (en) | Method and apparatus for breaking words in a stream of text | |
JP3383478B2 (ja) | 機械翻訳装置 | |
US5075851A (en) | System for translating a source language word with a prefix into a target language word with multiple forms | |
JP3197110B2 (ja) | 自然言語解析装置および機械翻訳装置 | |
JPH03260764A (ja) | 翻訳用辞書登録方式 | |
JP2007316834A (ja) | 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム | |
JPH09114828A (ja) | 変換候補の優先順位情報の更新方法 | |
JP2655922B2 (ja) | 機械翻訳装置 | |
JPH06259469A (ja) | 固有名詞辞書の利用方式 | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JP3410163B2 (ja) | 言語処理装置 | |
JP2737160B2 (ja) | 文章処理装置 | |
JPH1166068A (ja) | 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体 | |
JPH10198664A (ja) | 日本語入力システム及び日本語入力プログラムを記録した媒体 | |
JPH0232467A (ja) | 機械翻訳方式 | |
JP4111941B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JPH03214356A (ja) | 言語翻訳方式 | |
JPH10240736A (ja) | 形態素解析装置 | |
JPH10340264A (ja) | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH0348366A (ja) | 形態素解析、構文解析及び形態素生成方式 | |
JPH02118785A (ja) | 誤認識修正方法及び装置 | |
JPH05342258A (ja) | 自然語処理システム | |
JPS60225248A (ja) | 文字列表示方式 | |
JPH07295981A (ja) | 箇条書処理機能付き自然言語処理装置 | |
JPH03127264A (ja) | 括弧付き文の機械翻訳方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081220 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081220 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091220 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091220 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101220 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101220 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111220 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111220 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121220 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131220 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |