JP3874844B2 - 機械翻訳装置 - Google Patents
機械翻訳装置 Download PDFInfo
- Publication number
- JP3874844B2 JP3874844B2 JP19445096A JP19445096A JP3874844B2 JP 3874844 B2 JP3874844 B2 JP 3874844B2 JP 19445096 A JP19445096 A JP 19445096A JP 19445096 A JP19445096 A JP 19445096A JP 3874844 B2 JP3874844 B2 JP 3874844B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- tag
- translation
- special symbol
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【発明の属する技術分野】
第1言語で記述され付加情報を含む文書を、所望の第2言語に翻訳する機械翻訳装置に関するものである。
【0002】
【従来の技術】
機械翻訳装置を含め、ワードプロセッサやコンピュータ等の計算機上で取り扱われる文書データの多くは、文字データ本体である文字情報以外にも、文書の構成、レイアウトや文字の修飾情報、例えば罫線の付与や書体の変更など各種の付加情報を含んでいる。
【0003】
これら付加情報の方式としてはいくつかの規格が既に提案されており、文書の論理構造などを記述するためのSGML,ハイパーテキスト文書を記述するためのHTMLなどが知られている。
【0004】
このような状況において、機械翻訳の分野においても、原文書のデータの中に含まれている付加情報をできるだけ損なわずに、通常の文書の部分を翻訳することが行われている。このような装置で翻訳された翻訳結果の文書は、原文書データとほとんど同様の書式で出力することが可能となっている。
【0005】
このような機械翻訳装置において、開始タグ/終了タグと呼ばれる記号を用いて、特定の区間に付加情報を付与させている文の処理過程の例を次に示す。
【0006】
Time flies <italic> like an arrow </italic> .
上記の文において、”<italic>”、”</italic>”がそれぞれ開始タグ、終了タグであり、これらの両タグはこの二つのタグではさまれた区間をイタリック体で出力することを表している。
【0007】
この文は以下に説明する処理手順によって、同じ付加情報を持った訳文へと変換される。図11の処理ブロック図を元に説明する。
【0008】
まず、一文切り出し部2では、入力文書1中の文区切り記号(例えば“.”や改行記号等を検出することにより、一文毎に文字列を次の処理へと受け渡す。
【0009】
一文切り出し部2は、図12のブロック図に示されるような構成を持つ。操作部2−1では入力される文を先頭から順に走査し、2−2の文区切り記号検出部において所定の文区切り記号を検出する。検出された文区切り記号に基づいて、2−3の分割処理部において分割を行う。
【0010】
タグ分離部3で、一文切り出し部1から受け取った文字列中に出現するタグを識別し、どの単語にタグ情報が付加されているのか記憶する。図13はタグ情報の記憶状態(原文タグ情報8)を示す図である。タグ情報を記憶後、タグ分離部3はタグを原文から分離する。
【0011】
次に、翻訳部4によって、タグが削除された文の翻訳を行う。さらに、翻訳過程で得られる原文と訳文の単語の対応情報を記憶する。図14は訳語の対応情報の例(訳語対応情報7)を示す図である。
【0012】
さらに、タグ復元部5は、翻訳部4で得られた翻訳結果、単語の対応情報とタグ分離部で記憶しておいた原文タグ情報をもとにして、新たに訳文にタグを付与する。図15が得られる訳文タグ情報を示す図である。これに基づいて訳文にタグを付加し、出力文書6が出力される。この例で得られる出力文書(翻訳結果)は次のようになる。この例では入力文における“like”、“an”、“arrrow”に対応する訳語である“矢”、“のように”にタグが復元されて出力されている。
【0013】
時間は<italic>矢のように</italic>飛ぶ。
【0014】
【発明が解決しようとする課題】
しかしながら、タグ情報を含んだ文書の翻訳装置においては、上記のような処理を行っても必ずしも使用者の要求する出力結果が得られない場合がある。以下のその問題点を説明する。
【0015】
まず、問題の一つは、複数の文より構成される原文書から、翻訳する文を一文ずつを切り出す処理に関する点である。現在の機械翻訳装置においては、翻訳を行う文書が複数の文から構成される場合には、文書から一文ずつ文を切り出す処理を行い、それぞれの文に対して順次翻訳処理を行うのが通常である。
【0016】
これらの文の切り出しは、原文書中の句読点や改行など、装置によってあらかじめ定められた記号を区切りとして処理が行われる。また、文の区切りとする記号をユーザが任意に設定可能な装置も存在する。
【0017】
ところがタグ情報を含む文書の翻訳装置においては、この切り出し処理が上記の方法ではうまく行えないことがある。例えば以下はHTMLで記述された文の例である。この例ではリンク先のアドレスをタグ内に記載している。
【0018】
Click <a href = http://www.sharp.co.jp> here </a> !
このような例において、例えば文の切り出し記号として“:”が設定されていると、
Click <a href = http:
の部分で文の切り出しが行われてしまう。よって、この文の翻訳が正常に行えなくなってしまう。また、翻訳が正常に行われないだけでなく、タグ情報も分離により破壊されてしまう。
【0019】
別の問題点としては、以下のような例である。
【0020】
C<font size=1>lick here</font> !
これは文の先頭以外の文字のフォントサイズを異ならせ、文書表示の際のレイアウトを工夫したHTMLタグの記述の一例である。タグによりClickの単語の先頭文字以外のフォントを変更している。
【0021】
この文の翻訳を、前記した従来技術によって処理することを考える。従来の技術においては、処理の手順から明らかなようにタグ情報の扱いは単語単位が前提となるから、この文の処理においては本来1単語である“Click”を“C”と“lick”の2単語とし、単語“lick”以降にタグが付与されているとして、扱われることとなる。そのためタグ情報は残されるものの、翻訳結果として正常な訳文は得られなくなってしまう。
【0022】
その他、タグ情報を含む文書の翻訳の際の問題として、タグの仕様に基づく特殊記号の扱いがある。例えば、HTMLの仕様ではタグの開始記号、終了記号として“<”,“>”が定義されている。そのため、文書の作成者が文中に“<”や“>”の記号を利用したい時には、これをタグの開始、終了記号と区別するために、“<”、“>”を代わりに用いることになっている。そのため、
<font size=10>C</font>lick < here! >
といった文を翻訳する際には、単純にタグを除去して翻訳するだけでは望ましい翻訳結果は得られない。
【0023】
また、原文の翻訳結果として訳文中に“<”や“>”の記号が含まれる場合には、翻訳した文書をブラウザ等の表示処理により表示を行う際にこれらの記号がタグ記号と判断されてしまい、表示が翻訳結果と異なってしまうという問題もある。
【0024】
従来においてタグ情報を含む文書の翻訳の際にはこれらが原因となって、タグを含まない文書に比べて翻訳の精度が低下してしまっていた。また逆に、タグ処理を行う翻訳装置でタグを含まない文書の翻訳をおこなった際には、タグ処理の副作用のために本来の翻訳結果と異なってしまうこともあった。
【0025】
【課題を解決するための手段】
本発明は、第 1 言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力する入力部と、前記入力部より入力された文字データおよび付加情報を、所定の文区切り記号によって分割する一文切り出し部と、前記一文切り出し部によって切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するタグ分離部と、前記タグ分離部によって分離された文字データを所望の第2言語に翻訳し、訳語の対応を記憶する翻訳部と、前記翻訳部によって翻訳された第2言語の訳文に、付加情報を復元するタグ復元部と、前記タグ復元部によって、復元された第2言語の訳文を出力する出力部を備えた機械翻訳装置において、前記翻訳部における翻訳処理の前であって、タグ分離部による文字データの分離の後に、文字データに含まれる特定の意味を表わす特殊記号を、その本来の特定文字へと復元する特殊記号復元部と、翻訳部による翻訳処理の後であって、タグ復元部の付加情報を復元する前に、前記特殊記号復元部によって復元された特定文字を、特殊記号へと変換する特殊記号変換部を備えたことを特徴とする機械翻訳装置を提供するものである。
【0026】
また、本発明は、第 1 言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力するステップと、前記入力された文字データおよび付加情報を、所定の文区切り記号によって分割して切り出すステップと、前記切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するステップと、前記分離された文字データ中の特定の意味を表す特殊記号を、その本来の特定文字へと復元するステップと、前記復元された文字データを所望の第2言語の訳文に翻訳するステップと、前記翻訳された第2言語の訳文中の特定文字を、特定の意味を表す特殊記号へと変換するステップと、前記変換された第2言語の訳文に、付加情報を復元するステップと、前記復元された第2言語の訳文を出力するステップとを含むことを特徴とする機械翻訳方法を提供するものである。
【0028】
【発明の実施の形態】
本発明の実施の形態を図面を用いて詳細に説明する。図1は本発明の構成を示すブロック図である。従来技術として示した図11に比べてタグ移動処理部9、特殊記号復元部10、特殊記号変換部11、および制御部12−1から12−5、設定部13、特殊記号変換テーブル14が追加されている。
【0029】
また、一文切り出し部2の処理が従来の一文切り出し部とは異なっている。図2は本発明における一文切り出し部2の詳細な構成を示すブロック図であるが、従来の一文切り出し部のブロック図12と比べてタグ記号処理部2−4、制御部2−5が追加されている。入力文書1、タグ分離部3、翻訳部4、タグ復元部5、出力文書6、訳語対応情報7、原文タグ情報8は図11で示した従来技術のものと同様の構成である。
【0030】
一文切り出し部2では、入力文書1中の文区切り記号を検出することにより、一文毎に文字列を次の処理へと受け渡す。一文切り出し部2の処理の流れを示す図が図3である。一文切り出し部2は、メモリーやファイルに存在する入力文書から、定められた文区切り記号を検出することにより、入力文書を一文単位で次の処理に受け渡す処理を行う部分である。
【0031】
図3において、ステップS1、ステップS5、ステップS6、ステップS7、ステップS8は一文切り出し部で従来より行われる処理である。走査位置の文字を検査して(ステップS1)、文区切り記号であれば(ステップS5)、現在の走査位置までを一文の区切りとして次の処理部に受け渡す(ステップS6)。走査位置を次々と進め(ステップS7)、以上の処理を文書の終わりまで繰り返す(ステップS8)。
【0032】
ステップS2、ステップS3、ステップS4が本発明でタグ記号処理部2−4の追加により行われる処理である。現在の走査位置がタグ開始記号であれば(ステップS2)、タグ終了記号が出現するまで(ステップS4)、走査をスキップする(ステップS3)。
【0033】
この処理の追加によりタグ中の文区切り記号が検出されることがなくなり、タグの途中で文が分割されることなく次の処理へと文字列を受け渡すことが可能となる。
【0034】
図4は入力文字列の例である。先頭から順に走査を行い、タグの開始記号を検出すると、次のタグの終了記号を検出するまで、区切り記号の処理は行わない。つまり、図4の例では“<”が検出されたあと、“>”が検出されるまで、区切り記号“:”や“.”が出現しても文の区切りを行わない。
【0035】
次に図1のタグ移動処理部9の流れを図5に示す。以下、図5のフローチャートに従って説明を行う。タグ移動処理部9においては、まず一文切り出し部2から受け渡された文字列を図示しない一時的なバッファにセットする(ステップS11)。次に、セットしたバッファを先頭から走査し、タグの検出を行う(ステップS12)。タグの検出が行われたら、そのタグが一単語中に割り込んで出現しているかを判断する。検出したタグの直前の文字及び直後の文字を調べ、これらが共に単語区切り記号でない場合には、タグが一単語中に割り込んでいると判定する(ステップS13、S14)。単語区切り記号とは空白記号や改行記号に代表されるような、単語と単語の区切りとして使用される記号である。
【0036】
タグが一単語中に割り込んでいると判定された時には、そのタグが開始タグか終了タグかを調べ(ステップS15)、開始タグならばタグの前方へバッファの走査を行い、単語区切り記号より単語の先頭位置を検出して(ステップS16)、その位置へとタグを移動させる(ステップS18)。タグが終了タグならばタグの後方へ走査を行い、単語区切り記号より単語の末尾を検出して(ステップS17)、その位置へとタグを移動させる(ステップS18)。
【0037】
図6および図7は、タグ移動処理部での処理実行例である。図6は図5におけるステップS11で文字列のセットを行った直後のバッファの状態を示している。この文字列に対して、ステップS12でバッファ中のタグ<b>および</b>が検出される。
【0038】
次にそれぞれのタグについてステップS13、S14でタグの前後の文字を検査するが、タグ<b>については、タグの直前が単語区切り記号(空白記号)なのでタグの移動処理は行われない。タグ</b>は前後の文字共に単語区切り記号でないのでタグの移動処理が行われる。</b>は終了タグであるため、タグ後方の単語区切り記号を調べ(ステップS17)、その位置までタグを移動する(ステップS18)。タグの移動を行った後のバッファの状態が図7である。
【0039】
図6では“here”の単語の中にタグ“</b>”が割り込んで“<b>h</b>ere”となっている。割り込んでいるタグ“</b>”は終了タグなので、次の単語区切り位置である“here”と“!”の間にタグ“</b>”を移動させる。
【0040】
タグ分離部3では、一文切り出し部1から受け取った文字列中に出現するタグを識別し、どの単語にタグ情報が付加されているのか記憶する。タグ情報を原文タグ情報8として記憶後、タグ分離部3はタグを原文から分離する。
【0041】
次に、図1の特殊記号復元部10、特殊記号変換部11、特殊記号変換テーブル14について説明する。特殊記号復元部10の処理の流れを図8に、特殊記号変換部11の処理の流れを図9に示す。
【0042】
特殊記号復元部10では、タグ分離部3からタグ記号が完全に分離された文字列を受け取り、この文字列中に出現する特殊記号を本来の記号へと復元する処理を行う。
【0043】
特殊記号の復元処理は、特殊記号変換テーブル14を参照して行う。図10は特殊記号変換テーブル14の一例であり、特殊記号と、本来の記号とが対応付けてある。
【0044】
図8のステップS21で、受け取った文字列を図示しない一時バッファにセットし、ステップS22で文字列照合により特殊記号の検出を行い、特殊記号変換テーブルに基づいて特殊記号の復元を行う(ステップS23)。復元後の文字列はタグや特殊記号を一切含まない通常の文として次の翻訳部4へと受け渡される。
【0045】
例えば、“<b>LAN</b> > local area network <”という入力文においては、まずタグ分離部3により、“<b>”と“</b>”のタグがまず分離され、特殊記号復元部10に文字列が引き渡される。特殊記号復元部10では所定の特殊記号が特殊記号変換テーブルによって変換され、ここでの最終的な出力は“LAN < local area network >”となる。
【0046】
次に、翻訳部4によって、タグが削除された文の翻訳を行う。さらに、翻訳過程で得られる原文と訳文の単語の対応情報を訳語対応情報7として記憶する。
【0047】
特殊記号変換部11では、図9に示すように、翻訳部4から翻訳結果を受け取り、バッファにセットし(ステップS31)、この文字列中に出現するタグ記号として使用される記号等を検出し(ステップS32)、特殊記号へと変換する(ステップS33)処理を行う。この処理は特殊記号復元部10と同様に特殊記号変換テーブル14に基づいて行われる。
【0048】
例えば、翻訳部4から“セットする<ステップ1>”という翻訳文が出力された場合、“<”“>”の記号がそれぞれ“&st;”“<”に変換され、“セットする &st; ステップ1 <”と出力される。
【0049】
変換後の文字列は次のタグ復元部5へと受け渡され、タグ復元部でタグ情報が復元される。その結果出力される出力文書6はタグの仕様に基づくタグ記号、及び特殊記号に従った翻訳結果となる。
【0050】
さらに、以上で説明したタグに関する処理を行う各部に対してそれぞれ制御部12−1〜12−5、2−5を設け、設定に応じて、タグに関する処理を行う/処理を行わずに次の処理部へ受け渡す、という処理の振り分けを行うことでタグを含む文書、タグを含まない文書のどちらについても適切な翻訳処理を行うことが可能となる。
【0051】
図1の制御部12−1から12−5、および図2の制御部2−5が上記処理を行う部分であり、設定部13での設定内容を受けて処理の振り分けを行う。設定部13は、ユーザがインターフェイスを通じて明示的に設定するものでも良いし、入力文書を元に装置が自動的に設定を行うようなものでもよい。
【0052】
【発明の効果】
本発明によれば、タグを復元することのできる機械翻訳装置において、タグ記号中の不本意な箇所で文が分割されて、翻訳が正常に行われなくなる事を防ぐことができる。さらに、文中の一単語がタグにより分割され、二つの単語として認識されてしまうことを防止することが可能となる。
【0053】
また、タグの仕様に基づく特殊記号が文書中に出現する際に、特殊記号をそのまま翻訳してしまい、翻訳の精度低下の原因となることを防ぐ。また、翻訳結果中にタグ記号と重複する記号が出現する場合において、これらを特殊記号に変換してから訳文の出力を行うことで、翻訳結果の表示の際にこれらの記号がタグとして扱われてしまうという問題を回避できる。
【図面の簡単な説明】
【図1】本発明の一実施の形態における構成を示すブロック図である。
【図2】本発明の一実施の形態における一文切り出し部2の詳細な構成を示すブロック図である。
【図3】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図4】一文切り出し部での入力文書の走査状態例を示す図である。
【図5】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図6】タグ移動処理部で処理を行う前の文字列の状態を示す図である。
【図7】タグ移動処理部で処理を行った後の文字列の状態を示す図である。
【図8】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図9】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図10】特殊記号復元部、特殊記号変換部で用いる特殊記号変換テーブルの一例である。
【図11】従来技術の構成を示すブロック図である。
【図12】従来技術における一文切り出し部2の詳細な構成を示すブロック図である。
【図13】従来技術におけるタグ情報の記憶例を示す図である。
【図14】従来技術におけるタグ情報の記憶例を示す図である。
【図15】従来技術における訳文タグ情報の記憶例を示す図である。
【符号の説明】
1 入力文書
2 一文切り出し部
3 タグ分離部
4 翻訳部
5 タグ復元部
6 出力文書
7 訳語対応情報
8 原文タグ情報
9 タグ移動処理部
10 特殊記号復元部
11 特殊記号変換部
12 制御部
13 設定部
14 特殊記号変換テーブル
【発明の属する技術分野】
第1言語で記述され付加情報を含む文書を、所望の第2言語に翻訳する機械翻訳装置に関するものである。
【0002】
【従来の技術】
機械翻訳装置を含め、ワードプロセッサやコンピュータ等の計算機上で取り扱われる文書データの多くは、文字データ本体である文字情報以外にも、文書の構成、レイアウトや文字の修飾情報、例えば罫線の付与や書体の変更など各種の付加情報を含んでいる。
【0003】
これら付加情報の方式としてはいくつかの規格が既に提案されており、文書の論理構造などを記述するためのSGML,ハイパーテキスト文書を記述するためのHTMLなどが知られている。
【0004】
このような状況において、機械翻訳の分野においても、原文書のデータの中に含まれている付加情報をできるだけ損なわずに、通常の文書の部分を翻訳することが行われている。このような装置で翻訳された翻訳結果の文書は、原文書データとほとんど同様の書式で出力することが可能となっている。
【0005】
このような機械翻訳装置において、開始タグ/終了タグと呼ばれる記号を用いて、特定の区間に付加情報を付与させている文の処理過程の例を次に示す。
【0006】
Time flies <italic> like an arrow </italic> .
上記の文において、”<italic>”、”</italic>”がそれぞれ開始タグ、終了タグであり、これらの両タグはこの二つのタグではさまれた区間をイタリック体で出力することを表している。
【0007】
この文は以下に説明する処理手順によって、同じ付加情報を持った訳文へと変換される。図11の処理ブロック図を元に説明する。
【0008】
まず、一文切り出し部2では、入力文書1中の文区切り記号(例えば“.”や改行記号等を検出することにより、一文毎に文字列を次の処理へと受け渡す。
【0009】
一文切り出し部2は、図12のブロック図に示されるような構成を持つ。操作部2−1では入力される文を先頭から順に走査し、2−2の文区切り記号検出部において所定の文区切り記号を検出する。検出された文区切り記号に基づいて、2−3の分割処理部において分割を行う。
【0010】
タグ分離部3で、一文切り出し部1から受け取った文字列中に出現するタグを識別し、どの単語にタグ情報が付加されているのか記憶する。図13はタグ情報の記憶状態(原文タグ情報8)を示す図である。タグ情報を記憶後、タグ分離部3はタグを原文から分離する。
【0011】
次に、翻訳部4によって、タグが削除された文の翻訳を行う。さらに、翻訳過程で得られる原文と訳文の単語の対応情報を記憶する。図14は訳語の対応情報の例(訳語対応情報7)を示す図である。
【0012】
さらに、タグ復元部5は、翻訳部4で得られた翻訳結果、単語の対応情報とタグ分離部で記憶しておいた原文タグ情報をもとにして、新たに訳文にタグを付与する。図15が得られる訳文タグ情報を示す図である。これに基づいて訳文にタグを付加し、出力文書6が出力される。この例で得られる出力文書(翻訳結果)は次のようになる。この例では入力文における“like”、“an”、“arrrow”に対応する訳語である“矢”、“のように”にタグが復元されて出力されている。
【0013】
時間は<italic>矢のように</italic>飛ぶ。
【0014】
【発明が解決しようとする課題】
しかしながら、タグ情報を含んだ文書の翻訳装置においては、上記のような処理を行っても必ずしも使用者の要求する出力結果が得られない場合がある。以下のその問題点を説明する。
【0015】
まず、問題の一つは、複数の文より構成される原文書から、翻訳する文を一文ずつを切り出す処理に関する点である。現在の機械翻訳装置においては、翻訳を行う文書が複数の文から構成される場合には、文書から一文ずつ文を切り出す処理を行い、それぞれの文に対して順次翻訳処理を行うのが通常である。
【0016】
これらの文の切り出しは、原文書中の句読点や改行など、装置によってあらかじめ定められた記号を区切りとして処理が行われる。また、文の区切りとする記号をユーザが任意に設定可能な装置も存在する。
【0017】
ところがタグ情報を含む文書の翻訳装置においては、この切り出し処理が上記の方法ではうまく行えないことがある。例えば以下はHTMLで記述された文の例である。この例ではリンク先のアドレスをタグ内に記載している。
【0018】
Click <a href = http://www.sharp.co.jp> here </a> !
このような例において、例えば文の切り出し記号として“:”が設定されていると、
Click <a href = http:
の部分で文の切り出しが行われてしまう。よって、この文の翻訳が正常に行えなくなってしまう。また、翻訳が正常に行われないだけでなく、タグ情報も分離により破壊されてしまう。
【0019】
別の問題点としては、以下のような例である。
【0020】
C<font size=1>lick here</font> !
これは文の先頭以外の文字のフォントサイズを異ならせ、文書表示の際のレイアウトを工夫したHTMLタグの記述の一例である。タグによりClickの単語の先頭文字以外のフォントを変更している。
【0021】
この文の翻訳を、前記した従来技術によって処理することを考える。従来の技術においては、処理の手順から明らかなようにタグ情報の扱いは単語単位が前提となるから、この文の処理においては本来1単語である“Click”を“C”と“lick”の2単語とし、単語“lick”以降にタグが付与されているとして、扱われることとなる。そのためタグ情報は残されるものの、翻訳結果として正常な訳文は得られなくなってしまう。
【0022】
その他、タグ情報を含む文書の翻訳の際の問題として、タグの仕様に基づく特殊記号の扱いがある。例えば、HTMLの仕様ではタグの開始記号、終了記号として“<”,“>”が定義されている。そのため、文書の作成者が文中に“<”や“>”の記号を利用したい時には、これをタグの開始、終了記号と区別するために、“<”、“>”を代わりに用いることになっている。そのため、
<font size=10>C</font>lick < here! >
といった文を翻訳する際には、単純にタグを除去して翻訳するだけでは望ましい翻訳結果は得られない。
【0023】
また、原文の翻訳結果として訳文中に“<”や“>”の記号が含まれる場合には、翻訳した文書をブラウザ等の表示処理により表示を行う際にこれらの記号がタグ記号と判断されてしまい、表示が翻訳結果と異なってしまうという問題もある。
【0024】
従来においてタグ情報を含む文書の翻訳の際にはこれらが原因となって、タグを含まない文書に比べて翻訳の精度が低下してしまっていた。また逆に、タグ処理を行う翻訳装置でタグを含まない文書の翻訳をおこなった際には、タグ処理の副作用のために本来の翻訳結果と異なってしまうこともあった。
【0025】
【課題を解決するための手段】
本発明は、第 1 言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力する入力部と、前記入力部より入力された文字データおよび付加情報を、所定の文区切り記号によって分割する一文切り出し部と、前記一文切り出し部によって切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するタグ分離部と、前記タグ分離部によって分離された文字データを所望の第2言語に翻訳し、訳語の対応を記憶する翻訳部と、前記翻訳部によって翻訳された第2言語の訳文に、付加情報を復元するタグ復元部と、前記タグ復元部によって、復元された第2言語の訳文を出力する出力部を備えた機械翻訳装置において、前記翻訳部における翻訳処理の前であって、タグ分離部による文字データの分離の後に、文字データに含まれる特定の意味を表わす特殊記号を、その本来の特定文字へと復元する特殊記号復元部と、翻訳部による翻訳処理の後であって、タグ復元部の付加情報を復元する前に、前記特殊記号復元部によって復元された特定文字を、特殊記号へと変換する特殊記号変換部を備えたことを特徴とする機械翻訳装置を提供するものである。
【0026】
また、本発明は、第 1 言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力するステップと、前記入力された文字データおよび付加情報を、所定の文区切り記号によって分割して切り出すステップと、前記切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するステップと、前記分離された文字データ中の特定の意味を表す特殊記号を、その本来の特定文字へと復元するステップと、前記復元された文字データを所望の第2言語の訳文に翻訳するステップと、前記翻訳された第2言語の訳文中の特定文字を、特定の意味を表す特殊記号へと変換するステップと、前記変換された第2言語の訳文に、付加情報を復元するステップと、前記復元された第2言語の訳文を出力するステップとを含むことを特徴とする機械翻訳方法を提供するものである。
【0028】
【発明の実施の形態】
本発明の実施の形態を図面を用いて詳細に説明する。図1は本発明の構成を示すブロック図である。従来技術として示した図11に比べてタグ移動処理部9、特殊記号復元部10、特殊記号変換部11、および制御部12−1から12−5、設定部13、特殊記号変換テーブル14が追加されている。
【0029】
また、一文切り出し部2の処理が従来の一文切り出し部とは異なっている。図2は本発明における一文切り出し部2の詳細な構成を示すブロック図であるが、従来の一文切り出し部のブロック図12と比べてタグ記号処理部2−4、制御部2−5が追加されている。入力文書1、タグ分離部3、翻訳部4、タグ復元部5、出力文書6、訳語対応情報7、原文タグ情報8は図11で示した従来技術のものと同様の構成である。
【0030】
一文切り出し部2では、入力文書1中の文区切り記号を検出することにより、一文毎に文字列を次の処理へと受け渡す。一文切り出し部2の処理の流れを示す図が図3である。一文切り出し部2は、メモリーやファイルに存在する入力文書から、定められた文区切り記号を検出することにより、入力文書を一文単位で次の処理に受け渡す処理を行う部分である。
【0031】
図3において、ステップS1、ステップS5、ステップS6、ステップS7、ステップS8は一文切り出し部で従来より行われる処理である。走査位置の文字を検査して(ステップS1)、文区切り記号であれば(ステップS5)、現在の走査位置までを一文の区切りとして次の処理部に受け渡す(ステップS6)。走査位置を次々と進め(ステップS7)、以上の処理を文書の終わりまで繰り返す(ステップS8)。
【0032】
ステップS2、ステップS3、ステップS4が本発明でタグ記号処理部2−4の追加により行われる処理である。現在の走査位置がタグ開始記号であれば(ステップS2)、タグ終了記号が出現するまで(ステップS4)、走査をスキップする(ステップS3)。
【0033】
この処理の追加によりタグ中の文区切り記号が検出されることがなくなり、タグの途中で文が分割されることなく次の処理へと文字列を受け渡すことが可能となる。
【0034】
図4は入力文字列の例である。先頭から順に走査を行い、タグの開始記号を検出すると、次のタグの終了記号を検出するまで、区切り記号の処理は行わない。つまり、図4の例では“<”が検出されたあと、“>”が検出されるまで、区切り記号“:”や“.”が出現しても文の区切りを行わない。
【0035】
次に図1のタグ移動処理部9の流れを図5に示す。以下、図5のフローチャートに従って説明を行う。タグ移動処理部9においては、まず一文切り出し部2から受け渡された文字列を図示しない一時的なバッファにセットする(ステップS11)。次に、セットしたバッファを先頭から走査し、タグの検出を行う(ステップS12)。タグの検出が行われたら、そのタグが一単語中に割り込んで出現しているかを判断する。検出したタグの直前の文字及び直後の文字を調べ、これらが共に単語区切り記号でない場合には、タグが一単語中に割り込んでいると判定する(ステップS13、S14)。単語区切り記号とは空白記号や改行記号に代表されるような、単語と単語の区切りとして使用される記号である。
【0036】
タグが一単語中に割り込んでいると判定された時には、そのタグが開始タグか終了タグかを調べ(ステップS15)、開始タグならばタグの前方へバッファの走査を行い、単語区切り記号より単語の先頭位置を検出して(ステップS16)、その位置へとタグを移動させる(ステップS18)。タグが終了タグならばタグの後方へ走査を行い、単語区切り記号より単語の末尾を検出して(ステップS17)、その位置へとタグを移動させる(ステップS18)。
【0037】
図6および図7は、タグ移動処理部での処理実行例である。図6は図5におけるステップS11で文字列のセットを行った直後のバッファの状態を示している。この文字列に対して、ステップS12でバッファ中のタグ<b>および</b>が検出される。
【0038】
次にそれぞれのタグについてステップS13、S14でタグの前後の文字を検査するが、タグ<b>については、タグの直前が単語区切り記号(空白記号)なのでタグの移動処理は行われない。タグ</b>は前後の文字共に単語区切り記号でないのでタグの移動処理が行われる。</b>は終了タグであるため、タグ後方の単語区切り記号を調べ(ステップS17)、その位置までタグを移動する(ステップS18)。タグの移動を行った後のバッファの状態が図7である。
【0039】
図6では“here”の単語の中にタグ“</b>”が割り込んで“<b>h</b>ere”となっている。割り込んでいるタグ“</b>”は終了タグなので、次の単語区切り位置である“here”と“!”の間にタグ“</b>”を移動させる。
【0040】
タグ分離部3では、一文切り出し部1から受け取った文字列中に出現するタグを識別し、どの単語にタグ情報が付加されているのか記憶する。タグ情報を原文タグ情報8として記憶後、タグ分離部3はタグを原文から分離する。
【0041】
次に、図1の特殊記号復元部10、特殊記号変換部11、特殊記号変換テーブル14について説明する。特殊記号復元部10の処理の流れを図8に、特殊記号変換部11の処理の流れを図9に示す。
【0042】
特殊記号復元部10では、タグ分離部3からタグ記号が完全に分離された文字列を受け取り、この文字列中に出現する特殊記号を本来の記号へと復元する処理を行う。
【0043】
特殊記号の復元処理は、特殊記号変換テーブル14を参照して行う。図10は特殊記号変換テーブル14の一例であり、特殊記号と、本来の記号とが対応付けてある。
【0044】
図8のステップS21で、受け取った文字列を図示しない一時バッファにセットし、ステップS22で文字列照合により特殊記号の検出を行い、特殊記号変換テーブルに基づいて特殊記号の復元を行う(ステップS23)。復元後の文字列はタグや特殊記号を一切含まない通常の文として次の翻訳部4へと受け渡される。
【0045】
例えば、“<b>LAN</b> > local area network <”という入力文においては、まずタグ分離部3により、“<b>”と“</b>”のタグがまず分離され、特殊記号復元部10に文字列が引き渡される。特殊記号復元部10では所定の特殊記号が特殊記号変換テーブルによって変換され、ここでの最終的な出力は“LAN < local area network >”となる。
【0046】
次に、翻訳部4によって、タグが削除された文の翻訳を行う。さらに、翻訳過程で得られる原文と訳文の単語の対応情報を訳語対応情報7として記憶する。
【0047】
特殊記号変換部11では、図9に示すように、翻訳部4から翻訳結果を受け取り、バッファにセットし(ステップS31)、この文字列中に出現するタグ記号として使用される記号等を検出し(ステップS32)、特殊記号へと変換する(ステップS33)処理を行う。この処理は特殊記号復元部10と同様に特殊記号変換テーブル14に基づいて行われる。
【0048】
例えば、翻訳部4から“セットする<ステップ1>”という翻訳文が出力された場合、“<”“>”の記号がそれぞれ“&st;”“<”に変換され、“セットする &st; ステップ1 <”と出力される。
【0049】
変換後の文字列は次のタグ復元部5へと受け渡され、タグ復元部でタグ情報が復元される。その結果出力される出力文書6はタグの仕様に基づくタグ記号、及び特殊記号に従った翻訳結果となる。
【0050】
さらに、以上で説明したタグに関する処理を行う各部に対してそれぞれ制御部12−1〜12−5、2−5を設け、設定に応じて、タグに関する処理を行う/処理を行わずに次の処理部へ受け渡す、という処理の振り分けを行うことでタグを含む文書、タグを含まない文書のどちらについても適切な翻訳処理を行うことが可能となる。
【0051】
図1の制御部12−1から12−5、および図2の制御部2−5が上記処理を行う部分であり、設定部13での設定内容を受けて処理の振り分けを行う。設定部13は、ユーザがインターフェイスを通じて明示的に設定するものでも良いし、入力文書を元に装置が自動的に設定を行うようなものでもよい。
【0052】
【発明の効果】
本発明によれば、タグを復元することのできる機械翻訳装置において、タグ記号中の不本意な箇所で文が分割されて、翻訳が正常に行われなくなる事を防ぐことができる。さらに、文中の一単語がタグにより分割され、二つの単語として認識されてしまうことを防止することが可能となる。
【0053】
また、タグの仕様に基づく特殊記号が文書中に出現する際に、特殊記号をそのまま翻訳してしまい、翻訳の精度低下の原因となることを防ぐ。また、翻訳結果中にタグ記号と重複する記号が出現する場合において、これらを特殊記号に変換してから訳文の出力を行うことで、翻訳結果の表示の際にこれらの記号がタグとして扱われてしまうという問題を回避できる。
【図面の簡単な説明】
【図1】本発明の一実施の形態における構成を示すブロック図である。
【図2】本発明の一実施の形態における一文切り出し部2の詳細な構成を示すブロック図である。
【図3】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図4】一文切り出し部での入力文書の走査状態例を示す図である。
【図5】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図6】タグ移動処理部で処理を行う前の文字列の状態を示す図である。
【図7】タグ移動処理部で処理を行った後の文字列の状態を示す図である。
【図8】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図9】本発明の一実施の形態における処理の流れを示すフローチャートである。
【図10】特殊記号復元部、特殊記号変換部で用いる特殊記号変換テーブルの一例である。
【図11】従来技術の構成を示すブロック図である。
【図12】従来技術における一文切り出し部2の詳細な構成を示すブロック図である。
【図13】従来技術におけるタグ情報の記憶例を示す図である。
【図14】従来技術におけるタグ情報の記憶例を示す図である。
【図15】従来技術における訳文タグ情報の記憶例を示す図である。
【符号の説明】
1 入力文書
2 一文切り出し部
3 タグ分離部
4 翻訳部
5 タグ復元部
6 出力文書
7 訳語対応情報
8 原文タグ情報
9 タグ移動処理部
10 特殊記号復元部
11 特殊記号変換部
12 制御部
13 設定部
14 特殊記号変換テーブル
Claims (1)
- 第1言語により記述された文字データおよび、開始位置及び終了位置を示す一対のタグにより、その区間において各種情報を付加する付加情報とからなる入力文を入力する入力部と、
前記入力部より入力された文字データおよび付加情報を、所定の文区切り記号によって分割する一文切り出し部と、
前記一文切り出し部によって切り出された文字列における、文字データと付加情報の関係を記憶し、前記付加情報と文字データを分離するタグ分離部と、
前記タグ分離部によって分離された文字データを所望の第2言語に翻訳し、訳語の対応を記憶する翻訳部と、
前記翻訳部によって翻訳された第2言語の訳文に、付加情報を復元するタグ復元部と、
前記タグ復元部によって、復元された第2言語の訳文を出力する出力部を備えた機械翻訳装置において、
前記翻訳部における翻訳処理の前であって、タグ分離部による文字データの分離の後に、文字データに含まれる特定の意味を表わす特殊記号を、その本来の特定文字へと復元する特殊記号復元部と、
翻訳部による翻訳処理の後であって、タグ復元部の付加情報を復元する前に、前記特殊記号復元部によって復元された特定文字を、特殊記号へと変換する特殊記号変換部を備えたことを特徴とする機械翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19445096A JP3874844B2 (ja) | 1996-07-24 | 1996-07-24 | 機械翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19445096A JP3874844B2 (ja) | 1996-07-24 | 1996-07-24 | 機械翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1040251A JPH1040251A (ja) | 1998-02-13 |
JP3874844B2 true JP3874844B2 (ja) | 2007-01-31 |
Family
ID=16324781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19445096A Expired - Fee Related JP3874844B2 (ja) | 1996-07-24 | 1996-07-24 | 機械翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3874844B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4571991B2 (ja) * | 2008-04-02 | 2010-10-27 | 富士通株式会社 | 構造化文書変換装置 |
-
1996
- 1996-07-24 JP JP19445096A patent/JP3874844B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1040251A (ja) | 1998-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6336124B1 (en) | Conversion data representing a document to other formats for manipulation and display | |
US7984076B2 (en) | Document processing apparatus, document processing method, document processing program and recording medium | |
US20040202352A1 (en) | Enhanced readability with flowed bitmaps | |
JPH0798765A (ja) | 方向検出方法および画像解析装置 | |
JP2004086851A (ja) | 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 | |
JP2003022269A (ja) | 漫画翻訳装置及びそのシステム並びに漫画翻訳方法 | |
JP3874844B2 (ja) | 機械翻訳装置 | |
US7661062B1 (en) | System and method of analyzing an HTML document for changes such that the changed areas can be displayed with the original formatting intact | |
JPH05135025A (ja) | 文書編集装置 | |
JPH0619962A (ja) | テキスト分割装置 | |
JP3758813B2 (ja) | テキストデータ処理装置および記録媒体 | |
CN112487791B (zh) | 一种多语言混合智能翻译方法 | |
JPH06301713A (ja) | 対訳表示方法及び文書表示装置並びにディジタル複写装置 | |
JP2004086843A (ja) | 情報抽出装置および方法 | |
JPH07182344A (ja) | 機械翻訳装置 | |
JP2003346161A (ja) | 図表内テキスト・図表キャプション・図表説明文・図表種類抽出プログラム、及び当該抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表内テキスト・図表キャプション・図表説明文・図表種類抽出装置 | |
JPH04167048A (ja) | 文書レイアウト装置 | |
KR20010018214A (ko) | 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법 | |
JPH1011449A (ja) | 文書処理システム | |
US9405732B1 (en) | System and method for displaying quotations | |
JP2008084191A (ja) | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム | |
JP3792060B2 (ja) | 改行評価方法及び改行評価処理装置 | |
JP2562067B2 (ja) | 文字画像の単語切出し装置 | |
JPH0727528B2 (ja) | シラブルハイフン表示・非表示制御方式 | |
JP2000348028A (ja) | 言語処理方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061025 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |