JP3874844B2

JP3874844B2 - 機械翻訳装置

Info

Publication number: JP3874844B2
Application number: JP19445096A
Authority: JP
Inventors: 一夫西浦
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-07-24
Filing date: 1996-07-24
Publication date: 2007-01-31
Anticipated expiration: 2016-07-24
Also published as: JPH1040251A

Description

【０００１】
【発明の属する技術分野】
第１言語で記述され付加情報を含む文書を、所望の第２言語に翻訳する機械翻訳装置に関するものである。
【０００２】
【従来の技術】
機械翻訳装置を含め、ワードプロセッサやコンピュータ等の計算機上で取り扱われる文書データの多くは、文字データ本体である文字情報以外にも、文書の構成、レイアウトや文字の修飾情報、例えば罫線の付与や書体の変更など各種の付加情報を含んでいる。
【０００３】
これら付加情報の方式としてはいくつかの規格が既に提案されており、文書の論理構造などを記述するためのＳＧＭＬ，ハイパーテキスト文書を記述するためのＨＴＭＬなどが知られている。
【０００４】
このような状況において、機械翻訳の分野においても、原文書のデータの中に含まれている付加情報をできるだけ損なわずに、通常の文書の部分を翻訳することが行われている。このような装置で翻訳された翻訳結果の文書は、原文書データとほとんど同様の書式で出力することが可能となっている。
【０００５】
このような機械翻訳装置において、開始タグ／終了タグと呼ばれる記号を用いて、特定の区間に付加情報を付与させている文の処理過程の例を次に示す。
【０００６】
Time flies <italic> like an arrow </italic> .
上記の文において、”<italic>”、”</italic>”がそれぞれ開始タグ、終了タグであり、これらの両タグはこの二つのタグではさまれた区間をイタリック体で出力することを表している。
【０００７】
この文は以下に説明する処理手順によって、同じ付加情報を持った訳文へと変換される。図１１の処理ブロック図を元に説明する。
【０００８】
まず、一文切り出し部２では、入力文書１中の文区切り記号（例えば“．”や改行記号等を検出することにより、一文毎に文字列を次の処理へと受け渡す。
【０００９】
一文切り出し部２は、図１２のブロック図に示されるような構成を持つ。操作部２−１では入力される文を先頭から順に走査し、２−２の文区切り記号検出部において所定の文区切り記号を検出する。検出された文区切り記号に基づいて、２−３の分割処理部において分割を行う。
【００１０】
タグ分離部３で、一文切り出し部１から受け取った文字列中に出現するタグを識別し、どの単語にタグ情報が付加されているのか記憶する。図１３はタグ情報の記憶状態（原文タグ情報８）を示す図である。タグ情報を記憶後、タグ分離部３はタグを原文から分離する。
【００１１】
次に、翻訳部４によって、タグが削除された文の翻訳を行う。さらに、翻訳過程で得られる原文と訳文の単語の対応情報を記憶する。図１４は訳語の対応情報の例（訳語対応情報７）を示す図である。
【００１２】
さらに、タグ復元部５は、翻訳部４で得られた翻訳結果、単語の対応情報とタグ分離部で記憶しておいた原文タグ情報をもとにして、新たに訳文にタグを付与する。図１５が得られる訳文タグ情報を示す図である。これに基づいて訳文にタグを付加し、出力文書６が出力される。この例で得られる出力文書（翻訳結果）は次のようになる。この例では入力文における“ｌｉｋｅ”、“ａｎ”、“ａｒｒｒｏｗ”に対応する訳語である“矢”、“のように”にタグが復元されて出力されている。
【００１３】
時間は<italic>矢のように</italic>飛ぶ。
【００１４】
【発明が解決しようとする課題】
しかしながら、タグ情報を含んだ文書の翻訳装置においては、上記のような処理を行っても必ずしも使用者の要求する出力結果が得られない場合がある。以下のその問題点を説明する。
【００１５】
まず、問題の一つは、複数の文より構成される原文書から、翻訳する文を一文ずつを切り出す処理に関する点である。現在の機械翻訳装置においては、翻訳を行う文書が複数の文から構成される場合には、文書から一文ずつ文を切り出す処理を行い、それぞれの文に対して順次翻訳処理を行うのが通常である。
【００１６】
これらの文の切り出しは、原文書中の句読点や改行など、装置によってあらかじめ定められた記号を区切りとして処理が行われる。また、文の区切りとする記号をユーザが任意に設定可能な装置も存在する。
【００１７】
ところがタグ情報を含む文書の翻訳装置においては、この切り出し処理が上記の方法ではうまく行えないことがある。例えば以下はＨＴＭＬで記述された文の例である。この例ではリンク先のアドレスをタグ内に記載している。
【００１８】
Click <a href = http://www.sharp.co.jp> here </a> !
このような例において、例えば文の切り出し記号として“:”が設定されていると、
Click <a href = http:
の部分で文の切り出しが行われてしまう。よって、この文の翻訳が正常に行えなくなってしまう。また、翻訳が正常に行われないだけでなく、タグ情報も分離により破壊されてしまう。
【００１９】
別の問題点としては、以下のような例である。
【００２０】
Click here !
これは文の先頭以外の文字のフォントサイズを異ならせ、文書表示の際のレイアウトを工夫したＨＴＭＬタグの記述の一例である。タグによりClickの単語の先頭文字以外のフォントを変更している。
【００２１】
この文の翻訳を、前記した従来技術によって処理することを考える。従来の技術においては、処理の手順から明らかなようにタグ情報の扱いは単語単位が前提となるから、この文の処理においては本来１単語である“Click”を“C”と“lick”の２単語とし、単語“lick”以降にタグが付与されているとして、扱われることとなる。そのためタグ情報は残されるものの、翻訳結果として正常な訳文は得られなくなってしまう。
【００２２】
その他、タグ情報を含む文書の翻訳の際の問題として、タグの仕様に基づく特殊記号の扱いがある。例えば、ＨＴＭＬの仕様ではタグの開始記号、終了記号として“＜”，“＞”が定義されている。そのため、文書の作成者が文中に“＜”や“＞”の記号を利用したい時には、これをタグの開始、終了記号と区別するために、“<”、“>”を代わりに用いることになっている。そのため、
Click < here! >
といった文を翻訳する際には、単純にタグを除去して翻訳するだけでは望ましい翻訳結果は得られない。
【００２３】
また、原文の翻訳結果として訳文中に“<”や“>”の記号が含まれる場合には、翻訳した文書をブラウザ等の表示処理により表示を行う際にこれらの記号がタグ記号と判断されてしまい、表示が翻訳結果と異なってしまうという問題もある。
【００２４】
従来においてタグ情報を含む文書の翻訳の際にはこれらが原因となって、タグを含まない文書に比べて翻訳の精度が低下してしまっていた。また逆に、タグ処理を行う翻訳装置でタグを含まない文書の翻訳をおこなった際には、タグ処理の副作用のために本来の翻訳結果と異なってしまうこともあった。
【００２５】
【課題を解決するための手段】
本発明は、第 1 言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力する入力部と、前記入力部より入力された文字データおよび付加情報を、所定の文区切り記号によって分割する一文切り出し部と、前記一文切り出し部によって切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するタグ分離部と、前記タグ分離部によって分離された文字データを所望の第２言語に翻訳し、訳語の対応を記憶する翻訳部と、前記翻訳部によって翻訳された第２言語の訳文に、付加情報を復元するタグ復元部と、前記タグ復元部によって、復元された第２言語の訳文を出力する出力部を備えた機械翻訳装置において、前記翻訳部における翻訳処理の前であって、タグ分離部による文字データの分離の後に、文字データに含まれる特定の意味を表わす特殊記号を、その本来の特定文字へと復元する特殊記号復元部と、翻訳部による翻訳処理の後であって、タグ復元部の付加情報を復元する前に、前記特殊記号復元部によって復元された特定文字を、特殊記号へと変換する特殊記号変換部を備えたことを特徴とする機械翻訳装置を提供するものである。
【００２６】
また、本発明は、第 1 言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力するステップと、前記入力された文字データおよび付加情報を、所定の文区切り記号によって分割して切り出すステップと、前記切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するステップと、前記分離された文字データ中の特定の意味を表す特殊記号を、その本来の特定文字へと復元するステップと、前記復元された文字データを所望の第２言語の訳文に翻訳するステップと、前記翻訳された第２言語の訳文中の特定文字を、特定の意味を表す特殊記号へと変換するステップと、前記変換された第２言語の訳文に、付加情報を復元するステップと、前記復元された第２言語の訳文を出力するステップとを含むことを特徴とする機械翻訳方法を提供するものである。
【００２８】
【発明の実施の形態】
本発明の実施の形態を図面を用いて詳細に説明する。図１は本発明の構成を示すブロック図である。従来技術として示した図１１に比べてタグ移動処理部９、特殊記号復元部１０、特殊記号変換部１１、および制御部１２−１から１２−５、設定部１３、特殊記号変換テーブル１４が追加されている。
【００２９】
また、一文切り出し部２の処理が従来の一文切り出し部とは異なっている。図２は本発明における一文切り出し部２の詳細な構成を示すブロック図であるが、従来の一文切り出し部のブロック図１２と比べてタグ記号処理部２−４、制御部２−５が追加されている。入力文書１、タグ分離部３、翻訳部４、タグ復元部５、出力文書６、訳語対応情報７、原文タグ情報８は図１１で示した従来技術のものと同様の構成である。
【００３０】
一文切り出し部２では、入力文書１中の文区切り記号を検出することにより、一文毎に文字列を次の処理へと受け渡す。一文切り出し部２の処理の流れを示す図が図３である。一文切り出し部２は、メモリーやファイルに存在する入力文書から、定められた文区切り記号を検出することにより、入力文書を一文単位で次の処理に受け渡す処理を行う部分である。
【００３１】
図３において、ステップＳ１、ステップＳ５、ステップＳ６、ステップＳ７、ステップＳ８は一文切り出し部で従来より行われる処理である。走査位置の文字を検査して（ステップＳ１）、文区切り記号であれば（ステップＳ５）、現在の走査位置までを一文の区切りとして次の処理部に受け渡す（ステップＳ６）。走査位置を次々と進め（ステップＳ７）、以上の処理を文書の終わりまで繰り返す（ステップＳ８）。
【００３２】
ステップＳ２、ステップＳ３、ステップＳ４が本発明でタグ記号処理部２−４の追加により行われる処理である。現在の走査位置がタグ開始記号であれば（ステップＳ２）、タグ終了記号が出現するまで（ステップＳ４）、走査をスキップする（ステップＳ３）。
【００３３】
この処理の追加によりタグ中の文区切り記号が検出されることがなくなり、タグの途中で文が分割されることなく次の処理へと文字列を受け渡すことが可能となる。
【００３４】
図４は入力文字列の例である。先頭から順に走査を行い、タグの開始記号を検出すると、次のタグの終了記号を検出するまで、区切り記号の処理は行わない。つまり、図４の例では“＜”が検出されたあと、“＞”が検出されるまで、区切り記号“：”や“．”が出現しても文の区切りを行わない。
【００３５】
次に図１のタグ移動処理部９の流れを図５に示す。以下、図５のフローチャートに従って説明を行う。タグ移動処理部９においては、まず一文切り出し部２から受け渡された文字列を図示しない一時的なバッファにセットする（ステップＳ１１）。次に、セットしたバッファを先頭から走査し、タグの検出を行う（ステップＳ１２）。タグの検出が行われたら、そのタグが一単語中に割り込んで出現しているかを判断する。検出したタグの直前の文字及び直後の文字を調べ、これらが共に単語区切り記号でない場合には、タグが一単語中に割り込んでいると判定する（ステップＳ１３、Ｓ１４）。単語区切り記号とは空白記号や改行記号に代表されるような、単語と単語の区切りとして使用される記号である。
【００３６】
タグが一単語中に割り込んでいると判定された時には、そのタグが開始タグか終了タグかを調べ（ステップＳ１５）、開始タグならばタグの前方へバッファの走査を行い、単語区切り記号より単語の先頭位置を検出して（ステップＳ１６）、その位置へとタグを移動させる（ステップＳ１８）。タグが終了タグならばタグの後方へ走査を行い、単語区切り記号より単語の末尾を検出して（ステップＳ１７）、その位置へとタグを移動させる（ステップＳ１８）。
【００３７】
図６および図７は、タグ移動処理部での処理実行例である。図６は図５におけるステップＳ１１で文字列のセットを行った直後のバッファの状態を示している。この文字列に対して、ステップＳ１２でバッファ中のタグおよびが検出される。
【００３８】
次にそれぞれのタグについてステップＳ１３、Ｓ１４でタグの前後の文字を検査するが、タグについては、タグの直前が単語区切り記号（空白記号）なのでタグの移動処理は行われない。タグは前後の文字共に単語区切り記号でないのでタグの移動処理が行われる。は終了タグであるため、タグ後方の単語区切り記号を調べ（ステップＳ１７）、その位置までタグを移動する（ステップＳ１８）。タグの移動を行った後のバッファの状態が図７である。
【００３９】
図６では“ｈｅｒｅ”の単語の中にタグ“＜／ｂ＞”が割り込んで“＜ｂ＞ｈ＜／ｂ＞ｅｒｅ”となっている。割り込んでいるタグ“＜／ｂ＞”は終了タグなので、次の単語区切り位置である“ｈｅｒｅ”と“！”の間にタグ“＜／ｂ＞”を移動させる。
【００４０】
タグ分離部３では、一文切り出し部１から受け取った文字列中に出現するタグを識別し、どの単語にタグ情報が付加されているのか記憶する。タグ情報を原文タグ情報８として記憶後、タグ分離部３はタグを原文から分離する。
【００４１】
次に、図１の特殊記号復元部１０、特殊記号変換部１１、特殊記号変換テーブル１４について説明する。特殊記号復元部１０の処理の流れを図８に、特殊記号変換部１１の処理の流れを図９に示す。
【００４２】
特殊記号復元部１０では、タグ分離部３からタグ記号が完全に分離された文字列を受け取り、この文字列中に出現する特殊記号を本来の記号へと復元する処理を行う。
【００４３】
特殊記号の復元処理は、特殊記号変換テーブル１４を参照して行う。図１０は特殊記号変換テーブル１４の一例であり、特殊記号と、本来の記号とが対応付けてある。
【００４４】
図８のステップＳ２１で、受け取った文字列を図示しない一時バッファにセットし、ステップＳ２２で文字列照合により特殊記号の検出を行い、特殊記号変換テーブルに基づいて特殊記号の復元を行う（ステップＳ２３）。復元後の文字列はタグや特殊記号を一切含まない通常の文として次の翻訳部４へと受け渡される。
【００４５】
例えば、“LAN > local area network <”という入力文においては、まずタグ分離部３により、“”と“”のタグがまず分離され、特殊記号復元部１０に文字列が引き渡される。特殊記号復元部１０では所定の特殊記号が特殊記号変換テーブルによって変換され、ここでの最終的な出力は“LAN < local area network >”となる。
【００４６】
次に、翻訳部４によって、タグが削除された文の翻訳を行う。さらに、翻訳過程で得られる原文と訳文の単語の対応情報を訳語対応情報７として記憶する。
【００４７】
特殊記号変換部１１では、図９に示すように、翻訳部４から翻訳結果を受け取り、バッファにセットし（ステップＳ３１）、この文字列中に出現するタグ記号として使用される記号等を検出し（ステップＳ３２）、特殊記号へと変換する（ステップＳ３３）処理を行う。この処理は特殊記号復元部１０と同様に特殊記号変換テーブル１４に基づいて行われる。
【００４８】
例えば、翻訳部４から“セットする<ステップ１>”という翻訳文が出力された場合、“<”“>”の記号がそれぞれ“&st;”“<”に変換され、“セットする &st; ステップ１ <”と出力される。
【００４９】
変換後の文字列は次のタグ復元部５へと受け渡され、タグ復元部でタグ情報が復元される。その結果出力される出力文書６はタグの仕様に基づくタグ記号、及び特殊記号に従った翻訳結果となる。
【００５０】
さらに、以上で説明したタグに関する処理を行う各部に対してそれぞれ制御部１２−１〜１２−５、２−５を設け、設定に応じて、タグに関する処理を行う／処理を行わずに次の処理部へ受け渡す、という処理の振り分けを行うことでタグを含む文書、タグを含まない文書のどちらについても適切な翻訳処理を行うことが可能となる。
【００５１】
図１の制御部１２−１から１２−５、および図２の制御部２−５が上記処理を行う部分であり、設定部１３での設定内容を受けて処理の振り分けを行う。設定部１３は、ユーザがインターフェイスを通じて明示的に設定するものでも良いし、入力文書を元に装置が自動的に設定を行うようなものでもよい。
【００５２】
【発明の効果】
本発明によれば、タグを復元することのできる機械翻訳装置において、タグ記号中の不本意な箇所で文が分割されて、翻訳が正常に行われなくなる事を防ぐことができる。さらに、文中の一単語がタグにより分割され、二つの単語として認識されてしまうことを防止することが可能となる。
【００５３】
また、タグの仕様に基づく特殊記号が文書中に出現する際に、特殊記号をそのまま翻訳してしまい、翻訳の精度低下の原因となることを防ぐ。また、翻訳結果中にタグ記号と重複する記号が出現する場合において、これらを特殊記号に変換してから訳文の出力を行うことで、翻訳結果の表示の際にこれらの記号がタグとして扱われてしまうという問題を回避できる。
【図面の簡単な説明】
【図１】本発明の一実施の形態における構成を示すブロック図である。
【図２】本発明の一実施の形態における一文切り出し部２の詳細な構成を示すブロック図である。
【図３】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図４】一文切り出し部での入力文書の走査状態例を示す図である。
【図５】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図６】タグ移動処理部で処理を行う前の文字列の状態を示す図である。
【図７】タグ移動処理部で処理を行った後の文字列の状態を示す図である。
【図８】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図９】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図１０】特殊記号復元部、特殊記号変換部で用いる特殊記号変換テーブルの一例である。
【図１１】従来技術の構成を示すブロック図である。
【図１２】従来技術における一文切り出し部２の詳細な構成を示すブロック図である。
【図１３】従来技術におけるタグ情報の記憶例を示す図である。
【図１４】従来技術におけるタグ情報の記憶例を示す図である。
【図１５】従来技術における訳文タグ情報の記憶例を示す図である。
【符号の説明】
１入力文書
２一文切り出し部
３タグ分離部
４翻訳部
５タグ復元部
６出力文書
７訳語対応情報
８原文タグ情報
９タグ移動処理部
１０特殊記号復元部
１１特殊記号変換部
１２制御部
１３設定部
１４特殊記号変換テーブル

Claims

第1言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力する入力部と、
前記入力部より入力された文字データおよび付加情報を、所定の文区切り記号によって分割する一文切り出し部と、
前記一文切り出し部によって切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するタグ分離部と、
前記タグ分離部によって分離された文字データを所望の第２言語に翻訳し、訳語の対応を記憶する翻訳部と、
前記翻訳部によって翻訳された第２言語の訳文に、付加情報を復元するタグ復元部と、
前記タグ復元部によって、復元された第２言語の訳文を出力する出力部を備えた機械翻訳装置において、
前記翻訳部における翻訳処理の前であって、タグ分離部による文字データの分離の後に、文字データに含まれる特定の意味を表わす特殊記号を、その本来の特定文字へと復元する特殊記号復元部と、
翻訳部による翻訳処理の後であって、タグ復元部の付加情報を復元する前に、前記特殊記号復元部によって復元された特定文字を、特殊記号へと変換する特殊記号変換部を備えたことを特徴とする機械翻訳装置。