JP3954520B2 - 翻訳支援システム - Google Patents

翻訳支援システム Download PDF

Info

Publication number
JP3954520B2
JP3954520B2 JP2003106303A JP2003106303A JP3954520B2 JP 3954520 B2 JP3954520 B2 JP 3954520B2 JP 2003106303 A JP2003106303 A JP 2003106303A JP 2003106303 A JP2003106303 A JP 2003106303A JP 3954520 B2 JP3954520 B2 JP 3954520B2
Authority
JP
Japan
Prior art keywords
data
translation
text data
character
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003106303A
Other languages
English (en)
Other versions
JP2004310648A (ja
Inventor
俊和 築山
利広 笠原
正人 西村
Original Assignee
株式会社シュライバー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社シュライバー filed Critical 株式会社シュライバー
Priority to JP2003106303A priority Critical patent/JP3954520B2/ja
Publication of JP2004310648A publication Critical patent/JP2004310648A/ja
Application granted granted Critical
Publication of JP3954520B2 publication Critical patent/JP3954520B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、DTP(Desk Top Publishing application)等の文書デザインソフトウェアや、その他のソフトウェアにより作成された原文データ中のテキストデータを翻訳する際に、翻訳メモリ装置や機械翻訳装置を利用して翻訳作業を円滑に行なうための翻訳支援システムに関する。
【0002】
【従来の技術】
近年、印刷される文書やインターネット等の電気通信回線で交換される文書の殆どのものは、そのテキストデータや図版データがDTPソフトウェア等の文書デザインソフトウェアを利用して、文字指定やレイアウト(版組み)がなされ、テキストデータや図版のデータ(コンテンツと称される)と文字指定や文字、図版のレイアウトデータ(エクスプレッションと称される)とを含むドキュメントファイルが作成され、上記エクスプレッションは個々のDTPソフトウェアに依存する。
【0003】
ところで、複数の言語によるドキュメントファイルを作成する場合には、あらかじめ各言語による文書を作成し、これら各言語に対応して各言語のテキストデータ、図版データ等のコンテンツに、レイアウトデータ等のエクスプレッションを付加するという方法があるが、この方法では翻訳の作業のほかに言語の数の分だけエクスプレッションを付加する作業も行なわなければならず、非効率的で実際的ではなく、例えば世界各国に輸出される製品に添付される取扱説明書のようなドキュメントを作成する場合には不向きである。
【0004】
したがって、通常はある1つの言語を用いてドキュメントファイルを作成し、このドキュメントファイルを原文ドキュメントファイルとし、この原文ドキュメントファイル中からテキストデータ(原文テキストデータ)を抜き出し、この原文テキストデータに基づいて他の言語に翻訳した翻訳テキストデータを作成して原文テキストデータと置き換え、原文ドキュメントファイル中のエクスプレッションを殆ど変更せずにほぼそのまま使って翻訳ドキュメントファイルを作成するという方法が一般的に採用されている。
【0005】
テキストデータを翻訳する際には、翻訳者が全ての文書を手作業で翻訳して翻訳テキストデータを入力するというプリミティブな方法もあるが、翻訳すべきテキストデータの量が多い場合、通常は複数の翻訳者が分担して翻訳作業を行なうため、翻訳テキストデータの文章に用語や表現のばらつきが生じ、翻訳文に統一性がなくなるというような問題がある。
【0006】
そこで、翻訳メモリ装置を用いて翻訳者が作成した翻訳文と原文との関係から対訳文のデータを蓄積し、この蓄積データを利用することによって複数の翻訳者による翻訳作業に統一性を持たせ、しかも一度翻訳した文章と同じあるいは類似の表現については自動的に翻訳文が生成されるようにして翻訳作業の翻訳品質を向上させることが一般的に行なわれるようになってきており、このような翻訳メモリ装置を、現状では翻訳精度が不充分であるといわれている機械翻訳装置と併用することによって高精度の翻訳を円滑に行なうようにする試みもなされている(特許文献1参照)。
【0007】
翻訳メモリ装置や機械翻訳装置を利用して原文ドキュメントファイル中のテキストデータを翻訳する場合、例えばDTPソフトウェアの機能(通常はプラグインアプリケーションとして提供される)を利用して原文ドキュメントファイルをXML(Extensible Markup Language)文書等の標準化されたメタ言語(メタタグ)を付したファイル(以下、メタ言語ファイルと呼ぶ)として出力し、このメタ言語ファイルを翻訳メモリ装置や機械翻訳装置に入力して原文テキストデータを翻訳する。
【0008】
ここで、翻訳メモリ装置や機械翻訳装置は1つのセンテンスを単位とする文章認識を行なって構文を解析し、この解析結果に基づいて単語の置き換えや語順の変更を行なうのであるが、DTPソフトウェアから出力されるメタ言語ファイルには、エクスプレッション用の制御コードに対応するメタ言語のタグ(メタタグ)とこのメタタグにはないDTPソフトウェア独自の制御コードが特殊キャラクタとして挿入されており、メタタグについては一般的に使用されている翻訳メモリ装置や機械翻訳装置ではテキストとして認識しないようにすることが可能であるが、DTPソフトウェア独自に設定された特殊キャラクタはテキストと混同して認識されてしまい、この誤認が原因となって翻訳メモリ装置や機械翻訳装置によるセンテンスの区切りの認識が正確に行なわれない場合がある。
【0009】
なお、メタ言語により記述されたメタ言語ファイルをブラウザアプリケーションで表示すると、DTPソフトウェアに依存する特殊キャラクタは表示されないかあるいはスペースに置換されて表示されるので、いずれも検索、置換を行なうことは不可能であり、特殊キャラクタをソースファイルから翻訳者や編集者が手作業によって置き換えたり、削除したりするのは極めて煩雑であり、実際的ではない。
【0010】
また、上述した従来技術は文書デザインソフトウェアにて取扱われるドキュメントファイル中のテキストデータの翻訳に関するものであるが、ドキュメントファイルに限らず、ファイル内にテキストデータを含むコンテンツと、このコンテンツの表示用にソフトウェア独自の制御コードを含むファイル、例えばワードプロセッシングソフトウェアや表計算ソフトウェアのファイルにおいてもファイル中のテキストデータの翻訳が必要である場合にはドキュメントファイルと同様の問題が生じる。
【0011】
なお、ワードプロセッシングソフトウェアの場合には、ソフトウェアに依存する制御コードを除去したり、このような制御コードをHTML(Hyper Text Markup Language)タグ等の標準化された制御コードに変換して出力したりする機能を備えるものが多いので、上述した文書デザインソフトウェアによるドキュメントファイルほどには問題が生じないとも考えられるが、ソフトウェアに依存する機能を活用して作成したファイルは、HTML文書等の他の形式のファイルとして出力するとソフトウェア独自の機能を充分に発揮することのできないものとなってしまい、上述した文書デザインソフトウェアのドキュメントファイルと同様の問題が生じる。
【0012】
【特許文献1】
特開2002−278964(第3頁−第13頁、図1、2)
【0013】
【目的】
本発明の目的とするところは、DTPソフトウェア等の文書デザインソフトウェアやその他のソフトウェアを利用して作成されたデータ中のテキストデータを、翻訳メモリ装置や機械翻訳装置を利用した翻訳作業に容易に利用することができて正確な翻訳を行なうことができる状態に変換でき、しかも翻訳後のテキストデータを文書デザインソフトウェア等の元のソフトウェアで利用できる状態すなわちレイアウト等のエクスプレッションを含む状態のデータにほぼ自動的に復元することができる支援システムを提供することにある。
【0014】
【発明の構成】
本発明は、文書データをエンコード変換すると、文書データ中の特定のキャラクタが意味のないキャラクタとして表示されて、文書の内容を読み取ることができなくなるといういわゆる文字化けと呼ばれる現象が生じることに着目して構成したものである。
【0015】
すなわち、通常は文書に文字化けが生じると文書の内容を読み取ることができなくなるので、いかに文字化けが生じないようにするかということについての考察や提案は従来から多数なされてきたが、敢えて文字化けを生じさせることによって文書データ中に含まれる、ソフトウェアに依存する特殊キャラクタを翻訳作業に支障を与えない特定のキャラクタに置換したり、あるいは不要な特殊キャラクタを除去したりするという全く新規な技術的発想に基づいてなされたものである。
【0016】
しかして本発明の請求項1に係る翻訳支援システムは、中央処理部、エンコードデータ記憶部、キャラクタ置換用データ記憶部と、文書デザイン装置とのデータの入出力を行う第1入出力インターフェース部および翻訳メモリ装置や機械翻訳装置等の翻訳装置とのデータの入出力を行う第2入出力インターフェース部とを備え、原文テキストデータと、あるアプリケーションソフトウェアに依存する各種の機能制御用コードたる特殊キャラクタを含む1次原文データが、前記文書デザイン装置から第1インターフェース部を経て中央処理部に送られると、同中央処理部は前記エンコードデータ部に記憶部に予め記録されているエンコード変換用データを参照して1次原文データのエンコード方式を変更し、前記特殊キャラクタに文字化けを生じせしめることにより、特殊キャラクタを文字化け部分として中央処理部にて自動的に検索できる状態の2次原文データを生成し、同データ中の特殊キャラクタを、中央処理部が前記キャラクタ置換用データ記憶部に予め記録されているデータを参照ながら前記翻訳装置における構文解析に支障を与えない特定のキャラクタに自動置換あるいは除去して3次原文データを生成し、この3次原文データをそのままあるいは中央処理部にて元のエンコード方式に戻して前記第2入出力インターフェース部を介して前記翻訳装置に出力できるようにした構成のものとしてある。
【0017】
本発明の請求項2に係る翻訳支援システムは、前記1次原文データを、原文テキストデータに、標準化されたメタ言語が付されたメタ言語データで構成したものとしてある。
【0018】
本発明の請求項3に係る翻訳支援システムは、前記1次原文データを、前記文書デザイン装置の文書デザインソフトウェアに依存する前記特殊キャラクタを含み、原文テキストデータ、標準化されたメタ言語が付されたメタ言語データで構成したものとしてある。
【0019】
本発明の請求項4に係る翻訳支援システムは、前記翻訳装置において2次原文データ中の原文テキストデータが訳文テキストデータに置き換えられ、前記特定キャラクタが残された1次訳文データが前記第2入出力インターフェース部を経て中央処理部に入力されると、この1次訳文データからあるいは前記中央処理部が前記エンコードデータ記憶部を参照して1次訳文データを元のエンコード方式に戻したものから訳文データ中に残された前記特定キャラクタを、前記キャラクタ置換用データ記憶部を参照して元の特殊キャラクタに置き換えて、前記第1入出力インターフェース部を介して文書デザイン装置へ同装置の文書デザインソフトウェア用の2次訳文データとして出力するようにした構成のものとしてある。
【0020】
本発明の請求項5に係る翻訳支援システムは、前記2次訳文データを、訳文テキストデータに、標準化されたメタ言語が付されたメタ言語データで構成したものとしてある。
【0021】
本発明の請求項6に係る翻訳支援システムは、前記2次訳文データを、前記文書デザイン装置の文書デザインソフトウェアに依存する前記特殊キャラクタを含み、訳文テキストデータにメタ言語が付されたメタ言語データで構成したものとしてある。
【0022】
【実施例】
以下、本発明に係る翻訳支援システムの実施例を添付図面に示す具体例に基づいて詳細に説明する。
図1はシステム構成の具体例を示し、同図において1は本発明に係る支援システム、2は文書デザイン装置、3は翻訳メモリ装置をそれぞれ示している。
【0023】
支援システム1は、文書デザイン装置2および翻訳メモリ装置3との間の各データ入出力用の第1と第2の入出力インターフェース部4、5と、これらインターフェース部を介して文書デザイン装置2や翻訳メモリ装置3から入力されたデータのエンコード変換を行なうとともに、前記文書デザイン装置2にて稼動する文書デザイン用のアプリケーションソフトウェア(以下、文書デザインソフトと称する)に依存する各種の機能制御用コードたる特殊キャラクタと、予め設定した特定のキャラクタとの間の検索・置換を行なう中央処理部6と、上記エンコード変換用のデータを格納するエンコードデータ記憶部7および上記特殊キャラクタと特定キャラクタの対応関係に関するデータを格納するキャラクタ置換用データ記憶部8を備えており、これら両記憶部7、8はいずれも中央処理部6を介して別途の入力装置から新規データの追加や既存データの変更等のデータ更新を行なうことができるようになっている。
【0024】
なお、上記支援システム1はパーソナルコンピュータ等の電子計算機で構成するが、エンコードの変更やキャラクタの検索・置換は電子計算機にインストールしたワードプロセッシングソフトウェア、例えばマイクロソフト社のMicrosoft Word(商品名)やテキストエディタあるいは適宜のブラウズソフトウェアの機能を使用することできる。
【0025】
前記文書デザイン装置2は、DTP等の文書デザインソフト、例えばアドビシステムズ社の市販アプリケーションソフトウェアであるAdobe inDesign(商品名)を備え、同ソフトを稼動する主処理部2aと、文書デザインソフトにより作成されたソフト独自の形式によるドキュメントデータと、W3C (World Wide Web Consortium)によって標準化されたXML(Extensible Markup Language)規格等によるメタ言語を付された文書データ(以下、メタ言語データと呼ぶ)との間の相互の変換および入出力を行なう変換処理部2bとを備えている。
【0026】
なお、具体的には上記文書デザイン装置はパーソナルコンピュータ等の電子計算機に文書デザインソフトをインストールしたもので構成し、変換処理部2bは文書デザインソフトにプラグインされたソフトウェア、例えばアドビシステムズ社のXMedia(商品名)で構成されるものとし、さらに前記メタ言語データの入出力はメタ言語データがファイル化されたXMLファイルで行なうようにする。
【0027】
前記翻訳メモリ装置3は、制御タグ処理部3a、解析処理部3bおよび対訳文データベース3cを備えており、制御タグ処理部3aは外部から入力されたメタ言語データ中の制御コードであるメタタグと原文テキストデータとを識別し、解析処理部3bにて原文テキストデータの構文を解析して対訳文データベース3cに蓄積されているデータを参照し、解析処理部3bにて適切な対訳文を選出または翻訳者に対訳文の候補を提示し、また対訳文が蓄積されていない場合は翻訳者により入力された新たな対訳文を新規の対訳文データとして対訳文データベース3cに蓄積するものとしてある。
【0028】
上記翻訳メモリ装置3も前述した文書デザイン装置2の場合と同様に、パーソナルコンピュータ等の電子計算機に翻訳メモリソフトウェア、例えばトラドス社のTrados(商品名)をインストールしたもので構成し、この翻訳メモリソフトウェアは対訳文データベース3cを管理するとともに、同ソフトウェアにプラグインされた例えば同トラドス社のWinAlign(商品名)とTranslator's Workbench(商品名)を解析処理部3b、同トラドス社のTag Editor(商品名)を制御タグ処理部3aとして利用する。
【0029】
なお、支援システム1、文書デザイン装置2および翻訳メモリ装置3は上述のように個別のパーソナルコンピュータ等の電子計算機を使用することもできるし、これら各装置に対応するソフトウェアをインストールした1台の電子計算機とすることもでき、あるいは複数台の電子計算機を相互に接続したネットワークシステムで使用することもでき、いずれの構成であっても、支援システム1、文書デザイン装置2および翻訳メモリ装置3間の相互のデータは適宜の形式のファイルあるいはメモリデータとして受け渡す構成とする。
【0030】
次に、上述のように構成した本発明の翻訳支援システムにおける翻訳作業の具体例について説明する。
図2は文書デザイン装置2にて作成された原文たるドキュメントデータ(例えば同図2中に示されるように英文)から、支援システム1によって翻訳メモリ装置3で利用可能な3次原文データを生成するまでのプロセスを示すフローチャートである。
【0031】
なお、原文であるドキュメントデータに使用される特殊キャラクタは前述のとおり文書デザインソフトに依存するので、以下の具体例においては、上記ドキュメントデータをアドビシステムズ社のAdobe inDesign(商品名)で作成されたものとし、1次原文データは同アドビシステムズ社のXMedia(商品名)によってXML文書ファイルとして出力されるものとする。
【0032】
同図2において、原文第1ステップ表示(A1)は文書デザインソフトにて作成されたドキュメントの文書デザイン装置における表示状態を示している。同ドキュメントのデータには、画面に表示されている原文テキストのほかに、各種制御用の特殊キャラクタが隠れており、これらの特殊キャラクタのうち、メタタグたるXMLの制御タグ(XMLタグ)に一意対応するものは変換処理部2bにおいてXMLタグに自動的に変換され、また、対応しない特殊キャラクタはそのままデータ中に残され、その後ある特定のエンコード方式、例えば国際標準化機構(ISO)によって標準化されたエンコード方式であるUTF−8規格に基づいて1次原文データとしてファイル(XMLファイル)出力される。
【0033】
文書デザイン装置2から出力された1次原文データを支援システム1の中央処理部6によって、具体的には支援システム1にインストールされたブラウズソフトウェア例えばワードプロセッシングソフトウェアであるマイクロソフト社のMicrosoft Word(商品名)にて表示させると、原文第2ステップ表示(A2)のようにXMLタグが表示される。
【0034】
上記1次原文データを、中央処理部6にてエンコードデータ記憶部7を参照することによってエンコード方式、例えば前記UTF−8から日本工業規格(JIS)によって規格化(標準化)されたShift−JIS規格のエンコード方式に変更すると2次原文データが生成され、原文第3ステップ表示(A3)のようにXMLタグはそのまま表示されるが、原文テキスト中に、自動的に検索が可能な文字化けが生じる。
【0035】
なお、上記UTF−8からShift−JISにエンコードを変更した場合に発生する文字化けと特殊キャラクタの対応関係の具体例を図3に示す。
同図3において、「元の文字列」の列は文書デザイン装置2における表示、「UTF−8」の列は1次原文データ中に含まれる特殊キャラクタ、「Shift−JIS」の列は中央処理部6におけるエンコード変換後の文字化け、「特定キャラクタ」の列は文字化けの置換用文字列の具体例をそれぞれ示す。
【0036】
また、同図3において、「カテゴリーA」の行は置換処理が必要なキャラクタであり、翻訳メモリ装置3において原文テキストの文節区切りと認識させることが必要なもの、「カテゴリーB」の行は、「カテゴリーA」と同様に置換処理が必要なキャラクタであり、翻訳メモリ装置3において原文テキストの文節区切りと認識させないようにしなければならないもの、「カテゴリーC」の行は置換処理が必要であるが、後述する復元処理は必要ないものであり、この「カテゴリーC」のキャラクタは文書デザイン装置2の機能(または仕様)によりカール付きの文字または文字列に復元されるもの、「カテゴリーD」の行は削除のみで置換処理も復元処理も必要がないものであり、原文言語に特有の版組に固有の制御を行なうためのものとしてある。
【0037】
上述のように発生した文字化けは支援システム1の中央処理部6によって検索され、検索された文字化けに対し、前記キャラクタ置換用データ記憶部8のデータに基いて同図3中の「Shift−JIS」の列の文字化けと「特定キャラクタ」の列の置換用文字列との対応関係に基づいて文字化けが特定キャラクタの文字列に置換または除去されて、図2に示される原文第4ステップ表示(A4)のようにXMLタグと、原文テキストおよび特定キャラクタを含む、翻訳メモリで利用可能な3次原文データが生成、表示される。
【0038】
なお、同図3に示されている「特定キャラクタ」の置換用文字列は、あくまでも一例であり、翻訳メモリにおける構文解析に支障を与えないものであれば任意のものに設定することが可能であり、また、いわゆる「文字列」でなくても単一の文字や記号等のキャラクタを使用することもできる。さらに、同図3中、「カテゴリーA」として分類した改行記号や行頭ドットを元のキャラクタとする文字化けに対して、XMLの開始タグと終了タグとの間に文字列がない「<R></R>」「<D></D>」のようないわゆる空タグを使用すると文字化けとの対応関係を把握しやすいというメリットがあり、また、注釈文(REM文)等の制御を行なわないタグや内容を持たない空要素タグを置換用文字列として使用 するのも好適である。
【0039】
図4は翻訳メモリ装置3にて作成された訳文たるドキュメントデータ(例えば同図4中に示されるように仏文)から、支援システム1によって文書デザイン装置2で利用可能な2次訳文データを生成するまでのプロセスを示すフローチャートである。
【0040】
前記3次原文データは翻訳メモリ装置3によって構文解析、対訳文との置き換え等の翻訳作業がなされて訳文(例えば図4中に示されるように仏文)テキストデータとなって翻訳メモリ装置3から支援システム1へ出力される(訳文第1ステップ表示(B1))。
【0041】
上記翻訳メモリ装置3からの出力データは1次訳文データであり、同データは翻訳メモリ装置に入力されたときと同じエンコードすなわち本実施例ではShift−JISであり、またメタタグであるXMLタグを含むXMLデータであって特定キャラクタが含まれている。
【0042】
次に、上述した1次訳文データは、前記第2入出力インターフェース5を経て中央処理部6に送られ、中央処理部が前記キャラクタ置換用データ記憶部8内のデータを参照して同データ中の特定キャラクタが「Shift−JIS」の文字化けに復元(再置換)される(訳文第2ステップ表示(B2))。
なお、この際、図3中にカテゴリーCおよびDとした復元処理の不要なものについてはこの復元処理は行なわれない。
【0043】
復元処理後のデータは、中央処理部6がエンコードデータ記憶部7を参照することにより例えばShift−JISからUTF−8にエンコードが変更され、このエンコード変換によって復元された文字化けが元の特殊キャラクタに戻されて2次訳文データとして文書デザイン装置2に出力される(訳文第3ステップ表示(B3)。
【0044】
文書デザイン装置においては、2次訳文データのXMLタグを同デザイン装置固有の制御コードである特殊キャラクタに戻し、あるいは2次訳文データに含まれている特殊キャラクタをそのまま利用して、訳文テキストデータを図版等のその他のコンテンツとともに、所定のエクスプレッションに基づいて表示する(訳文第4ステップ表示(B4))。
【0045】
なお、文書デザイン装置における表示、印刷は原文言語から訳文言語に置き換えられた際に文字の長さや強制改行の位置等の文書デザイン上での操作、編集が必要となる。
【0046】
上述した実施例においては、原文から訳文への翻訳作業に翻訳メモリ装置を用いる場合の具体例に基づいて説明したが、翻訳メモリ装置と機械翻訳装置とを複合して使用する場合もあるし、翻訳メモリ装置に代えて機械翻訳装置を単独で使用する場合もある。
【0047】
また、エンコード方式については「UTF−8」と「Shift−JIS」との関係に基づいて説明したが、一方のエンコード方式に代えて他のエンコード方式を用いる場合もあるし、2種類の他のエンコード方式を使用する場合もあり、これらの場合には、エンコード方式の変更にともなって生じる文字化けは、本実施例で説明したものとは自ずと異なるが、特殊キャラクタと文字化けとの対応関係を、使用するエンコード方式に応じて支援システムに予め登録しておくことによって適用することが可能である。
【0048】
【発明の効果】
以上、本発明に係る翻訳支援システムによれば文書データをエンコード変換することによって生じる文字化けを敢えて生成することにより、文書データ中に含まれる、ソフトウェアに依存する特殊キャラクタが翻訳作業に支障を与えない特定のキャラクタに置換されたり、あるいは不要な特殊キャラクタが除去されたりするという全く新規な技術的発想に基づき、DTPソフトウェア等の文書デザインソフトウェアやその他のソフトウェアを利用して作成されたデータ中のテキストデータを、翻訳メモリ装置や機械翻訳装置を利用した翻訳作業に容易に利用することができて正確な翻訳を行なうことができる状態に変換でき、しかも翻訳語のテキストデータを文書デザインソフトウェア等の元のソフトウェアで利用できる状態すなわちレイアウト等のエクスプレッションを含む状態のデータにほぼ自動的に復元することができる。
【0049】
したがって、文書デザインソフトウェアで制作された文書中のテキストの翻訳作業に際し、この翻訳作業に伴う文書デザインの編集に要する時間を大幅に短縮することができる。
【図面の簡単な説明】
【図1】 本発明に係る支援システムの実施例を他の装置との関係とともに示す構成図。
【図2】 文書デザイン装置の原文データを翻訳メモリ装置で利用できるデータに変換するまでの過程を示すフローチャート。
【図3】 エンコード方式をUTF−8からShift−JISに変更した場合に発生する文字化けと特殊キャラクタの対応関係の具体例を示す表。
【図4】 翻訳メモリ装置からの訳文データを文書デザイン装置で利用できるデータに変換するまでの過程を示すフローチャート。
【符号の説明】
1 支援システム
2 文書デザイン装置
3 翻訳メモリ装置
4、5 入出力インターフェース部
6 中央処理部
7 エンコードデータ記憶部
8 キャラクタ置換用データ記憶部

Claims (6)

  1. 中央処理部、エンコードデータ記憶部、キャラクタ置換用データ記憶部と、文書デザイン装置とのデータの入出力を行う第1入出力インターフェース部および翻訳メモリ装置や機械翻訳装置等の翻訳装置とのデータの入出力を行う第2入出力インターフェース部とを備え、
    原文テキストデータと、あるアプリケーションソフトウェアに依存する各種の機能制御用コードたる特殊キャラクタを含む1次原文データが、前記文書デザイン装置から第1インターフェース部を経て中央処理部に送られると、同中央処理部は前記エンコードデータ部に記憶部に予め記録されているエンコード変換用データを参照して1次原文データのエンコード方式を変更し、前記特殊キャラクタに文字化けを生じせしめることにより、特殊キャラクタを文字化け部分として中央処理部にて自動的に検索できる状態の2次原文データを生成し、同データ中の特殊キャラクタを、中央処理部が前記キャラクタ置換用データ記憶部に予め記録されているデータを参照ながら前記翻訳装置における構文解析に支障を与えない特定のキャラクタに自動置換あるいは除去して3次原文データを生成し、この3次原文データをそのままあるいは中央処理部にて元のエンコード方式に戻して前記第2入出力インターフェース部を介して前記翻訳装置に出力できるように構成した翻訳支援システム。
  2. 前記1次原文データは、原文テキストデータに、標準化されたメタ言語が付されたメタ言語データである請求項1に記載の翻訳支援システム。
  3. 前記1次原文データは、前記文書デザイン装置の文書デザインソフトウェアに依存する前記特殊キャラクタを含み、原文テキストデータに、標準化されたメタ言語が付されたメタ言語データである請求項1に記載の翻訳支援システム。
  4. 前記翻訳装置において2次原文データ中の原文テキストデータが訳文テキストデータに置き換えられ、前記特定キャラクタが残された1次訳文データが前記第2入出力インターフェース部を経て中央処理部に入力されると、この1次訳文データからあるいは前記中央処理部が前記エンコードデータ記憶部を参照して1次訳文データを元のエンコード方式に戻したものから訳文データ中に残された前記特定キャラクタを、前記キャラクタ置換用データ記憶部を参照して元の特殊キャラクタに置き換えて、前記第1入出力インターフェース部を介して文書デザイン装置へ同装置の文書デザインソフトウェア用の2次訳文データとして出力するように構成した請求項1乃至3に記載の翻訳支援システム。
  5. 前記2次訳文データは、訳文テキストデータに、標準化されたメタ言語が付されたメタ言語データである請求項4に記載の翻訳支援システム。
  6. 前記2次訳文データは、前記文書デザイン装置の文書デザインソフトウェアに依存する前記特殊キャラクタを含み、訳文テキストデータにメタ言語が付されたメタ言語データである請求項4に記載の翻訳支援システム。
JP2003106303A 2003-04-10 2003-04-10 翻訳支援システム Expired - Fee Related JP3954520B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003106303A JP3954520B2 (ja) 2003-04-10 2003-04-10 翻訳支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003106303A JP3954520B2 (ja) 2003-04-10 2003-04-10 翻訳支援システム

Publications (2)

Publication Number Publication Date
JP2004310648A JP2004310648A (ja) 2004-11-04
JP3954520B2 true JP3954520B2 (ja) 2007-08-08

Family

ID=33468534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003106303A Expired - Fee Related JP3954520B2 (ja) 2003-04-10 2003-04-10 翻訳支援システム

Country Status (1)

Country Link
JP (1) JP3954520B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101321130B1 (ko) * 2012-02-17 2013-10-23 한보환 다국어 전자 출판 관리 시스템 및 그 관리 방법
CN103390155B (zh) * 2012-05-11 2017-05-17 腾讯科技(深圳)有限公司 一种图文识别方法及图文识别装置

Also Published As

Publication number Publication date
JP2004310648A (ja) 2004-11-04

Similar Documents

Publication Publication Date Title
Bradley The XML companion
US7958444B2 (en) Visualizing document annotations in the context of the source document
Van Herwijnen Practical sgml
JP3220560B2 (ja) 機械翻訳装置
Grätzer Math into LATEX
US5548508A (en) Machine translation apparatus for translating document with tag
US7478092B2 (en) Key term extraction
US20020147748A1 (en) Extensible stylesheet designs using meta-tag information
US20060236228A1 (en) Extensible markup language schemas for bibliographies and citations
US20070011160A1 (en) Literacy automation software
Bow et al. Towards a general model of interlinear text
JP3954520B2 (ja) 翻訳支援システム
CN101464875B (zh) 使用xml表示电子字典数据的方法
Dipper et al. Challenges in modelling a richly annotated diachronic corpus of German
JP4012047B2 (ja) 電子文書作成装置、電子文書作成方法およびその方法をコンピュータに実行させるプログラム
JP3966086B2 (ja) 文書処理装置および方法
WO2006113538A2 (en) Determining fields for presentable files and extensible markup language schemas for bibliographies and citations
EP1377917A2 (en) Extensible stylesheet designs using meta-tag information
JP7083473B2 (ja) 入力支援装置
US20220343069A1 (en) Method of converting between an n-tuple and a document using a readable text and a text grammar
JP2007265429A (ja) 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3701050B2 (ja) 文書形態素解析装置
Eryiğit et al. The Turkish Treebank
Kimber et al. Internationalized Back-of-the-Book Indexes for XSL Formatting Objects.
de Sousa et al. Building a historical corpus for Classical Portuguese: some technological aspects.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041208

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070426

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140511

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees