JP4797507B2

JP4797507B2 - 翻訳装置、翻訳システムおよびプログラム

Info

Publication number: JP4797507B2
Application number: JP2005236981A
Authority: JP
Inventors: 明男山下; 一成橋本
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-08-17
Filing date: 2005-08-17
Publication date: 2011-10-19
Anticipated expiration: 2025-08-17
Also published as: JP2007052614A

Description

本発明は、翻訳装置、翻訳システムおよびプログラムに関する。

近年のグローバルな情報流通、経済活動など、国境を越えた活動の広がりにより、ある言語（例えば、日本語）から別の言語（例えば、英語、中国語）へ変換する翻訳の需要が高まっている。しかし、翻訳を業者（翻訳者）に依頼すると、一般に価格が高く、また時間もかかってしまうため、コンピュータなどの機械を用いて自動的に翻訳する自動翻訳の需要が高まっている。

一般的に、自動翻訳は、文章が印刷された紙をスキャナ装置で走査してイメージ化された画像データを取得し、この画像データを文字認識（例えば、ＯＣＲ（Optical Character Recognition：光学的文字認識））処理によってテキスト化した文書データに変換し、この文書データを機械翻訳のソフトウェアを用いて第１言語から第２言語に翻訳するものである。
この機械翻訳のソフトウェアは、文書解析によりテキスト化された文書データから単語単位で文字を認識させ、翻訳辞書を参照して単語の意味を導き、係り受けの関係から翻訳文を作成するといった具合で行っている。

また、機械翻訳では、その翻訳精度は翻訳辞書に記憶された単語数に依存しているため、記憶容量に対応したデータ数によって機械翻訳の精度が設定されてしまう。さらに、日本語を他の言語に翻訳する場合を考えると、日本語は主語を省略して記載する場合があるため、機械翻訳では省略されている主語を補って翻訳することは困難である。
これに対し、人による翻訳は、辞書に記憶されていない新語に対しても、翻訳者の経験によって対応させて翻訳させることもでき、前後の文章から省略されている主語を補完して翻訳することも可能である。
このように、機械翻訳による翻訳精度は、文字認識による精度と機械翻訳のソフトウェアによる精度によって決められしまうため、人による翻訳よりも精度が落ちることになる。例えば、第２言語で記載された翻訳データを第１言語に戻す場合、２度翻訳処理を行うため、得られた文書データはかなり難解な文章となってしまい、理解できなくなってしまう虞がある。

ここで、翻訳精度を上げる技術としては、文字認識により認識した文字を翻訳する際、翻訳辞書に該当する単語が存在しない場合には、自動的に単語の修正を行う技術（特許文献１、参照）、文字列の一部或いは全部を置換したバーコードを原稿に印刷し、必要に応じて専用のバーコード読取装置を用いて、このバーコードを読取って文字列に変換する技術（特許文献２、参照）がある。

特開平５−５４０７０号公報特開平８−８３２８３号公報

しかし、特許文献１が機械翻訳のソフトウェアの精度を上げるものであり、特許文献２がイメージデータからテキストデータに変換する文字認識の精度を上げるものである。しかし、何れの技術であっても、所詮人による翻訳精度には到達することができない。

一方、文書データの管理を行っていないと、ある文書に対して改訂版が存在する場合であっても、利用者が翻訳を要求する原稿が旧バージョンであったとしても、この利用者は最新版の存在を知らずに翻訳処理を行う。このため、利用者に対して最新版の情報を提供することができない。

本発明は、前述した先行技術に鑑みてなされたもので、入力される文書データに関連した文書データがある場合には、その文書データを利用することで、短時間に高い精度の文書データを得るとともに、例えば、関連したデータが改訂による最新のバージョン情報の場合には、利用者に対して最新の情報を容易に提供することが可能となる文書管理装置、文書管理システムおよび文書管理方法を提供することを目的とする。

前記目的を達成するために、本発明が採用する翻訳装置は、文書を示すテキストデータである文書データと、当該文書を識別する文書識別情報、当該文書データの記述に用いられている言語を識別する言語識別情報及び当該文書データの版を識別する版識別情報から構成される文書ＩＤと、当該文書の最新の版を示す最新版情報とを格納した文書データ格納手段と、第１言語で記述された文書の画像データと、前記第１言語と異なる翻訳対象言語である第２言語を示す指示情報とを受信する受信手段と、（１）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを翻訳データとして読み出し、（２）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第１言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを前記第２言語に翻訳して翻訳データを生成し、（３）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第１言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときは、前記受信手段により受信された画像データをテキスト化し、前記テキスト化された文書データを前記第２言語に翻訳して翻訳データを生成する制御を行う制御手段と、前記翻訳データを出力する出力手段と、を具備したことを特徴とする翻訳装置を提供する。

この発明によれば、第１の判定手段により識別情報と同一の識別情報が文書データ格納手段に記憶されていると判定され、第２の判定手段により同一のグループとして区分されている識別情報が文書データ格納手段内にあると判定された場合、文書データ出力手段が、予め決められた選択ルールに基づき、同一のグループ内の他の識別情報に対応する文書データを文書データ格納手段から読み出して出力する。これにより、識別情報をキーとして、入力される文書データに対応した文書データを出力することができる。
例えば、入力される文書データがバージョンの古い文書に対応したものであって、最新の文書データが文書データ格納手段に格納されている場合には、入力される文書データの識別情報をキーにして最新の文書データが出力される。

上記構成において、前記区分ルールは、前記識別情報の格納エリアによる区分であることが好ましい。

上記構成において、前記識別情報は、予め決められた体系に従った内容に設定され、前記区分ルールは、前記識別情報の内容の共通事項によって区分するルールであることが好ましい。

上記構成において、前記識別情報は、文書の種類を示すコードとバージョン情報とを含んだ所定の体系に従った内容に設定され、前記第２の判定手段における予め決められた選択ルールは、最新のバージョン情報を含んだ識別情報を選択するというルールに設定されていることが好ましい。

上記構成において、前記識別情報は、文書の種類を示すコード、バージョン情報および文書が表される言語形式を含んだ所定の体系に従った内容に設定され、前記第２の判定手段における予め決められた選択ルールは、最新のバージョン情報と指定の言語形式を含んだ識別情報を選択するというルールに設定されていることが好ましい。

上記構成において、前記識別情報は、所定の体系に従った識別コードまたは文書の名称を示す文書名であることが好ましい。

上記構成において、前記文書データ出力手段は、前記他の文書データと前記受信手段が受け取った文書データの相違点を検出し、出力する文書データ中の相違点に対応する部分には、表示上の特徴付けとなる修飾処理を施すことが好ましい。

上記構成において、前記文書データ出力手段は、前記他の文書データと前記受信手段が受け取った文書データの相違点を検出するに際し、両者の言語が違う場合には、前記受信手段が受け取った文書データを前記他の文書データの言語に翻訳した後に相違点検出を行うことが好ましい。

上記構成において、前記第１の判定手段の判定が肯定的でも前記第２の判定手段の判定が否定的となった識別情報については、前記第１の判定手段の判定で肯定的となった識別情報と同一のグループに区分するとともに、当該識別情報およびこれに対応する文書データを前記文書データ格納手段に更新記憶するデータ更新記憶手段を備えることが好ましい。

上記構成において、前記更新記憶手段は、前記第１の判定手段の判定が否定的となった識別情報については、新たな区分に分類して、当該識別情報およびこれに対応する文書データを前記文書データ格納手段に更新記憶することが好ましい。

上記構成において、前記識別情報は、特定文字列または特定画像であることが好ましい。

上記構成において、原稿から画像を読み取って識別情報および入力される文書データを生成して前記受信手段に受け渡す画像読取手段を備えることが好ましい。

本発明に係る文書管理装置によれば、入力される文書データに関連した文書データが予め記憶された文書データ格納手段に格納されている場合には、その文書データを利用することで、文字認識処理を行う必要がなく、精度の高い文書を得ることができる。しかも、格納された文書データであるため、文字認識等の変換時間が必要ないため、短時間で正確な文書データを得ることができる。

例えば、関連したデータが改訂による複数個の文書データの場合には、入力される文書が旧バージョンの文書データであった際、この文書に対して最新版の文書データが文書データ格納手段に格納されていれば、最新版の文書データを出力でき、利用者に対して最新の文書データを提供することが可能となる。

＜Ａ．第１実施形態＞
以下、図面を参照し、本発明に係る第１実施形態を説明する。図１は、本実施形態による翻訳システム１の全体構成を示す図である。このシステム１は、ネットワーク３００を介して接続された複合機１００および翻訳サーバ２００を具備している。
複合機１００は、コピー、スキャナ、プリンタの機能を備える。複合機１００は、ネットワーク３００を介して翻訳サーバ２００或いはパソコン等の利用者端末（図示せず）に接続されている。翻訳サーバ２００は、翻訳処理を専門に行うサーバ装置であり、複合機１００から原文に対応するデータを受信し、受信した原文に対して関連した翻訳データを生成して返信する機能を有する。

本実施形態によるシステム１は、関連文書を改訂による得られるバージョンの異なった取扱説明書とし、システム１は、複合機１００に読み込まれる原文Ｍが旧バージョンの文書であった場合には、最新版の原文に対応した翻訳データに基づいた翻訳原稿Ｔが得られるものである。

＜Ａ−１．複合機１００の構成＞
図２は、複合機１００の機能構成を示すブロック図である。この複合機１００は、読み取り部１１０、画像データ生成部１２０、指示入力部１３０、送受信部１４０、印刷部１５０およびこれらを制御する制御部１６０を具備する。制御部１６０は、図示しないＣＰＵ，ＲＡＭおよびＲＯＭを備えており、各種処理を司る機能を有する。

指示入力部１３０は、表示部を兼ねたタッチパネルやスイッチ等から構成され、利用者の操作により各種の指示情報が入力される。その指示情報は、翻訳対象言語（以下、指定言語という），関連文書の種類（旧バージョン、最新版），出力方式（表示、印刷），版の異なった文書中の相違点を表示するか否か等である。
送受信部１４０は、翻訳サーバ２００等のネットワーク３００に接続された外部機器（図示せず）との間でデータの授受を行う。印刷部１５０は、画像データ生成部１２０で生成された画像データを受けて用紙（記録材）上に画像を印刷する。

そして、複合機１００は、読み取り部１１０が読み取った画像データを、送受信部１４０を経由して外部の装置に出力することによりスキャナ機として機能する。また、読み取り部１１０が読み取った画像データに応じた画像を画像印刷部１５０から出力することによりコピー機として機能する。さらに、複合機１００は、外部からデータ送受信部１４０を経由して受信したデータに応じた画像を画像印刷部１５０において出力することにより、プリンタ機として機能する。

ここで、図１に示すように、原稿Ｍには、余白の所定位置にこの原文文書ＩＤを示すバーコードＢＭが印刷されている。翻訳原稿Ｔには、余白の所定位置にこの翻訳文書ＩＤを示すバーコードＢＴが印刷される。なお、本実施形態では、原稿Ｍに対し、改訂によって何種類かのバージョンの異なった文書が存在するものとする。

＜Ａ−２．翻訳サーバ２００の構成＞
図３は、翻訳サーバ２００の機能構成を示すブロック図である。翻訳サーバ２００は、文書データベース２１０が接続された文書データ管理部２２０、翻訳辞書部２３０、送受信部２４０およびこれらを制御する制御部２５０を具備する。制御部２５０は、図示しないＣＰＵ，ＲＡＭおよびＲＯＭを備えており、各種処理を司る機能を有する。

送受信部２４０は、複合機１００等のネットワーク３００に接続された外部機器（図示せず）との間でデータの授受を行う。翻訳辞書部２３０は、制御部２５０からの指示に基づき、原文データを指示言語に翻訳する際に用いられるものであり、種々の言語に対する辞書を備えている。

文書データベース２１０には、テキスト形式の文書データ（ファイル）が文書ＩＤ毎に対応付けて格納されている。この文書データの文書データベース２１０への格納処理は、後述する図６のステップＳ１８における処理のみでなく、複合機１００のスキャナ機能、コピー機能、プリンタ機能を動作させた際、或いは利用者によるマニュアル操作された際に行われる。この際、格納処理は、原稿のバージョンと文書データ（原文データ或いは翻訳データ）を文書ＩＤと共に文書データベース２１０に格納させ、文書データ管理部２２０に翻訳データの文書ＩＤと文書名を記憶更新させる。

文書データ管理部２２０は、文書データベース２１０に格納されている文書データを管理するもので、図４に示すようなグループ化された複数のデータテーブル毎に、それぞれ識別番号と文書名の対として記憶されている。データテーブルは、関連した文書毎に１つ形成される。
本実施形態では、関連した文書を例えば取扱説明書とし、第１版から第３版までの文書データが存在する場合を例に挙げて示す。
このデータテーブルには、例えば、日本語の文書ＩＤと日本語文書名（ファイル名）、英語の文書ＩＤと英語文書名（ファイル名）、中国語の文書ＩＤと中国語文書名（ファイル名）が、改訂のバージョン毎にそれぞれ記憶されている。つまり、このデータテーブルでは、第１版から第３版までの取扱説明書の文書名が、日本語，英語，中国語の言語形式の文書名として記憶され、さらに、この文書名に対応した文書データが文書データベース２１０に格納されることになる。
この例の文書ＩＤは、初めの３文字を共通の文字列にして各文書が関連（例えば、取扱説明書）あることを示し、「−」（ハイフン）以下の添え字の十の位が文書の言語形式（第１言語、第２言語、第３言語）、１の位がバージョン（第１版、第２版、第３版）を示している。

さらに、図４のデータテーブルについて説明すると、原文が日本語の第１版の文書であった場合には、この文書の文書ＩＤは“００１−１１”となり、この文書ＩＤ“００１−１１”に対応した改訂版の文書ＩＤは、第２版“００１−１２”、第３版“００１−１３”となる。さらに、他の言語形式の対応は、英語の文書ＩＤは、第１版“００１−２１”、第２版“００１−２２”、第３版“００１−２３”となり、中国語の文書ＩＤは、第１版“００１−３１”、第２版“００１−３２”、第３版“００１−３３”となる。
例えば、原文が英語の第２版の文書であった場合には、この文書の文書ＩＤは“００１−２２”となり、この文書ＩＤ“００１−２２”のバージョンの異なった文書ＩＤは、第１版“００１−２１”、第３版“００１−２３”となる。さらに、他の言語形式におけるバージョンの対応は、日本語の文書ＩＤは、第１版“００１−１１”、第２版“００１−１２”、第３版“００１−１３”となり、中国語の文書ＩＤは、第１版“００１−３１”、第２版“００１−３２”、第３版“００１−３３”となる。

また、文書データ管理部２２０には、１つの関連した文書に対して１つのデータテーブルが形成されるため、文書データ管理部２２０では、複数のグループ化した文書を管理するため、複数のデータテーブルを備えることになる。

＜Ａ−３．翻訳システム１の動作＞
次に、図５のシーケンスチャートに基づき、翻訳システム１の全体の動作について説明する。
まず、利用者が複合機１００の指示入力部１３０を操作して指示情報を入力することにより、制御部１６０はこの指示情報を記憶する（ステップＳ１）。この指示情報は、翻訳対象語となる指示言語、改訂版があった場合に出力する版の種類等である。本実施形態では、指示言語を英語、改訂版の出力を最新版とする。

次に、利用者が読み取り部１１０に原稿Ｍをセットして所定のスイッチを操作することにより、制御部１６０は読み取り部１１０を動作させて原稿Ｍを読み取る。これにより、イメージ形式の原文画像データを取得して記憶する（ステップＳ２）。
さらに、複合機１００の制御部１６０は、記憶された指示情報および原文画像データを送受信部１４０を経由して翻訳サーバ２００に送信する（ステップＳ３）。

翻訳サーバ２００の制御部２５０では、指示情報および原文画像データを送受信部２４０で受信することにより、後述する翻訳処理を行い（ステップＳ４）、この翻訳処理によって得られた翻訳データを送受信部２４０を経由して複合機１００に送信する（ステップＳ５）。

複合機１００の制御部１６０では、送受信部１４０で翻訳データを受信することにより、この翻訳データを画像データ生成部１２０に転送し、画像データ生成部１２０がテキスト形式の翻訳データからイメージ形式の翻訳画像データを生成する（ステップＳ６）。この際、翻訳データにこの翻訳データの文書ＩＤを示すバーコードを印刷するためのデータが付加されている場合には、変換したバーコードの画像データを翻訳画像データに付加する。
さらに、制御部１６０は、画像データ生成部１２０で生成された翻訳画像データを印刷部１５０に転送し、印刷部１５０がこの翻訳画像データを用紙に印刷して翻訳原稿Ｔを出力する（ステップＳ７）。

次に、図６のフローチャートに基づき、翻訳サーバ２００における翻訳処理について説明する。
この翻訳サーバ２００は、複合機１００から送信された指示情報および原文画像データ（文書ＩＤを含む）を送受信部２４０で受信することによって動作を開始する。

制御部２５０は、この制御部２５０内でイメージ形式の原文画像データを文字認識処理（例えば、ＯＣＲ処理）してテキスト形式のデータに変換し、文書ＩＤを示すバーコードがある場合には、このバーコード部分の画像データから文書ＩＤを抽出する（ステップＳ１１）。本実施形態の場合には、第１版（日本語）の取扱説明書を示す文書ＩＤ“００１−１１”が抽出されたものとする。

次に、制御部２５０は、ステップＳ１１の処理により、バーコードによる文書ＩＤが抽出されたか否かを判定する（ステップＳ１２）。制御部２５０は、文書ＩＤが抽出された場合には（ステップＳ１２；ＹＥＳ）、ステップＳ１３に移行する。

制御部２５０は、抽出された文書ＩＤを検索キーとして、文書データ管理部２２０（データーテーブル）の文書ＩＤとを照合させることにより、文書データベース２１０に格納されている文書データおよび翻訳データを検索して検索結果を得る（ステップＳ１３）。
図４のデータテーブルの例では、抽出された文書ＩＤが“００１−１１”である場合には、初めの３文字を検索キーとしてデータテーブルが選択され、日本語の第１版の文書データを始め、第２版，第３版の日本語の文書データ、さらに第１〜第３版の英語の翻訳データ、中国語の翻訳データが文書データベース２１０に格納されていることを検索結果として得る。

制御部２５０は、検索結果および指示情報から文書データベース２１０に翻訳データ（この場合、最新版の英語）が格納されているか否かを判定する（ステップＳ１４）。翻訳対象語となる指示言語（英語）で且つ最新版の翻訳データ（この場合、文書ＩＤ“００１−２３”）が文書データベース２１０に格納されていた場合には（ステップＳ１４；ＹＥＳ）、該当する翻訳データ（この場合、文書ＩＤ“００１−２３”）を読み出し、この翻訳データを記憶エリア（図示せず）に一時的に記憶する（ステップＳ１５）。

一方、ステップＳ１４の判定において、最新版の英語による翻訳データが文書データベース２１０に格納されていない場合には（ステップＳ１４；ＮＯ）、制御部２５０は、検索結果から文書データベース２１０に原文の言語による最新版の文書データ（この場合、文書ＩＤ“００１−１３”）が格納されているか否かを判定する（ステップＳ１６）。
制御部２５０は、最新版の文書データ（この場合、文書ＩＤ“００１−１３”）が文書データベース２１０に格納されていた場合には（ステップＳ１６；ＹＥＳ）、この最新版の文書データを読み出し、この文書データに基づいた翻訳処理を翻訳辞書部２３０を利用して行い、この処理で得られた翻訳データを記憶エリアに一時的に記憶する（ステップＳ１７）。

さらに、制御部２５０は、ステップＳ１７で得られた翻訳データを文書データベース２１０に格納すると共に、文書データ管理部２２０のデータテーブルに原文の文書ＩＤの添え字を変えた文書ＩＤを翻訳文の文書名（ファイル名）に対応付けて加えることによりデータベースを更新する（ステップＳ１８）。

一方、制御部２５０は、受信した原文画像データから文書ＩＤが抽出されなかった場合（ステップＳ１２；ＮＯ）、或いは文書データベース２１０に原文データに対応した最新版の文書データが格納されていない場合には（ステップＳ１６；ＮＯ）、原文画像データをテキスト化したデータに対して翻訳処理を行い、この処理で得られた翻訳データを記憶エリアに一時的に記憶する（ステップＳ１９）。この処理後に、文書データベース２１０に翻訳前の原文データを文書ＩＤと共に格納し、文書データ管理部２２０に原文データを文書ＩＤに対応した新たなデータテーブルとして作成するようにしてもよい。

このように、翻訳サーバ２００の制御部２５０では、三通りの処理のうち何れかの処理により得られた最新版の翻訳データを送受信部２４０を介して複合機１００に送信する（図５中のステップＳ５）。この送信される翻訳データには、翻訳文を表すデータと共に、この翻訳文を示す文書ＩＤが含まれている。この翻訳データを受けた複合機１００は、原文に対して最新版の翻訳文が印刷して翻訳文献Ｔを出力する。

＜Ａ−４．第１実施形態の効果＞
このように、本実施形態による翻訳システム１では、予め翻訳サーバ２００の文書データベース２１０に原文に関連した最新版の翻訳データが格納されている場合には、その翻訳データを複合機１００に送信することにより、ＯＣＲ処理や翻訳処理を省略でき、翻訳精度の高い翻訳文を利用者に提供することができる。しかも、翻訳処理を行わなわずに済むため、翻訳時間を大幅に短縮することができる。

また、翻訳データが文書データベース２１０に格納されていない場合であっても、原文の文書データが文書データベース２１０に格納されている場合には、この文書データを翻訳処理することにより、ＯＣＲ処理を行わずに済むため、ＯＣＲ処理による文字の誤認識を防止でき、原文をＯＣＲ処理および翻訳処理を行って得た翻訳文に比べて誤翻訳を低減することができる。
以上のように、本実施形態による翻訳システム１は、利用者に対して精度の高い翻訳文を提供することが可能となる。

このように、本実施形態による翻訳システム１は、改訂等によりバージョンの異なった文書があることを知らずに、利用者が複合機１００を利用して機械翻訳を行おうとした場合、最新版の翻訳データが出力され、利用者に対して最新の翻訳データを自動的に提供することができる。

＜Ｂ．第２実施形態＞
以下、図面を参照しつつ、本発明に係る第２実施形態を説明する。なお、第２実施形態の特徴は、原文のバーコードから特定される文書と最新版の文書とを照合するこにより相違点を検出し、この相違点を特徴付けて表現した翻訳データを得る点にある。
本実施形態では、前述した第１実施形態と同一の構成要件に同一の符号を付し、その説明は省略するものとする。

＜Ｂ−１．翻訳システムの動作＞
本実施形態による翻訳システムの全体の動作については、前述した第１実施形態で示した図５のシーケンスチャートと同様であるので、その説明は省略する。
次に、図７および図８のフローチャートに基づき、翻訳サーバ２００における翻訳処理および相違点検出処理について説明する。
この翻訳サーバ２００は、複合機１００から送信された指示情報および原文画像データを送受信部２４０で受信することによって動作を開始する。

制御部２５０は、その制御部２５０内でイメージ形式の原文画像データを文字認識処理（例えば、ＯＣＲ処理）してテキスト形式のデータに変換し、文書ＩＤを示すバーコードがある場合には、このバーコード部分の画像データから文書ＩＤを抽出する（ステップＳ１１）。本実施形態の場合には、第１版（日）の取扱説明書を示す文書ＩＤ“００１−１１”が抽出されたものとする。

制御部２５０は、抽出された文書ＩＤを検索キーとして、文書データ管理部２２０（データーテーブル）の文書ＩＤとを照合させることにより、文書データベース２１０に格納されている文書データおよび翻訳データを検索して検索結果を得る（ステップＳ１３）。
図４のデータテーブルの例では、抽出された文書ＩＤが“００１−１１”である場合には、初めの３文字を検索キーとしてデータテーブルが選択され、日本語の第１版の文書データを始め、第２版，第３版の日本語の文書データ、さらに第１〜第３版の英語の翻訳データ、第１〜第３版の中国語の翻訳データが文書データベース２１０に格納されていることを検索結果として得る。

ここで、翻訳サーバ２００における相違点検出処理を、図８のフローチャートに基づいて説明する。
制御部２５０は、検索結果から文書データベース２１０に原文の翻訳データ（この場合、第１版の英語）が格納されているか否かを判定する（ステップＳ３１）。翻訳対象語となる指示言語（英語）で且つ第１版の翻訳データ（この場合、文書ＩＤ“００１−２１”）が文書データベース２１０に格納されていた場合には（ステップＳ３１；ＹＥＳ）、この翻訳データを読み出し、この翻訳データを記憶エリア（図示せず）に一時的に記憶する（ステップＳ３５）。

一方、ステップＳ３１の判定において、指示言語（英語）で且つ第１版の翻訳データ（この場合、文書ＩＤ“００１−２１”）が文書データベース２１０に格納されていない場合には（ステップＳ３１；ＮＯ）、制御部２５０は、原文の文書データ（この場合、第１版の日本語）が文書データベース２１０に有るか否かを判定する（ステップＳ３２）。日本語で且つ第１版の文書データ（この場合、文書ＩＤ“００１−１１”）が文書データベースに格納されていた場合には（ステップＳ３２；ＹＥＳ）、この文書データを読み出し、この文書データに基づいた翻訳処理を翻訳辞書部２３０を利用して行い（ステップＳ３３）、この処理で得られた翻訳データを記憶エリアに一時的に記憶する（ステップＳ３５）。

さらに、制御部２５０は、受信した原文画像データから文書ＩＤが抽出されなかった場合（図７中ステップＳ１２；ＮＯ）、或いは文書データベース２１０に原文データに対応した第１版の文書データが格納されていない場合には（ステップＳ３２；ＮＯ）、原文画像データをテキスト化したデータに対して翻訳処理を行い（ステップＳ３４）、この処理で得られた翻訳データを記憶エリアに一時的に記憶する（ステップＳ３５）。
このステップＳ３１〜Ｓ３５までの処理が、原文に対応した翻訳データを生成する処理である。

また、制御部２５０は、検索結果および指示情報から文書データベース２１０に翻訳データ（この場合、最新版の英語）が格納されているか否かを判定する（ステップＳ３６）。翻訳対象語となる指示言語（英語）で且つ最新版の翻訳データ（この場合、文書ＩＤ“００１−２３”）が文書データベース２１０に格納されていた場合には（ステップＳ３６；ＹＥＳ）、この翻訳データを読み出し、この翻訳データを記憶エリア（図示せず）に一時的に記憶する（ステップＳ３９）。

一方、ステップＳ３６の判定において、指示言語（英語）で且つ最新版の翻訳データ（この場合、文書ＩＤ“００１−２３”）が文書データベース２１０に格納されていない場合には（ステップＳ３６；ＮＯ）、制御部２５０は、検索結果から原文の言語による最新版の文書データ（この場合、文書ＩＤ“００１−１３”）が文書データベース２１０に有るか否かを判定する（ステップＳ３７）。ステップＳ３７の判定処理において、最新版の文書データ（この場合、文書ＩＤ“００１−１３”）が文書データベース２１０に有る場合には（ステップＳ３７；ＹＥＳ）、この文書データを読み出し、この文書データに基づいた翻訳処理を翻訳辞書部２３０を利用して行い（ステップＳ３８）、この処理で得られた翻訳データを記憶エリアに一時的に記憶する（ステップＳ３９）。

さらに、制御部２５０は、ステップＳ３７の判定において、文書データベース２１０に最新版の文書データが格納されていない場合には（ステップＳ３７；ＮＯ）、最新版の翻訳データが入手できない旨を記憶エリアに一時的に記憶する（ステップＳ３９）。
このステップＳ３６〜Ｓ３９までの処理が、最新版の翻訳データを生成する処理である。

そして、制御部２５０は、記憶エリアに記憶された原文の翻訳データと最新版の翻訳データを照合させてその相違点を検出する（ステップＳ４０）。
制御部２５０は、ステップＳ４０で抽出された原文の翻訳データと最新版の翻訳データとの相違点を特徴付けた修飾処理を施した翻訳データとして生成する（図７中のステップＳ２２）。ここで、修飾処理としては、追記された箇所にアンダーラインを付し、削除された箇所に取消線を引いて表示したり、文字に色を付けたり、文字網掛け処理をしたり、文字のフォントを変えたり、文字ポイントを変えたり等、利用者に対して識別できる表示による修飾である。
なお、最新版の翻訳データおよび文書データが文書データベース２１０に格納されていない場合には（ステップＳ３６，３７；ＮＯ）、最新の文書データがないため、相違点の検出は行われないことになる。

＜Ｂ−２．第２実施形態の効果＞
本実施形態による翻訳システムにおいても、第１の実施形態と同様に、利用者に対して精度の高い翻訳文を提供するという効果を奏する。
また、バージョンの古い文書を複合機１００で読み込むことにより、最新版の文書を翻訳した翻訳原稿Ｔが得られ、しかも改訂された部分を特徴付けて表示できるため、利用者に対して改訂部分を印象付けることができる。

＜Ｂ−３．第２実施形態の変形例＞
第２実施形態では、旧版の文書と新版の文書との相違点を抽出するのに、翻訳後のデータを用いて照合することにより行ったが、本発明はこれに限らず、原文の言語の段階で相違点を抽出しても、翻訳に一般的に用いられる中間言語の段階で相違点を抽出するようにしてもよい。

＜Ｃ．変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した各実施形態に限定されるものではなく、種々の態様が可能である。
前記各実施形態では、複合機１００の読み取り部１１０で、読み取った原文画像データを翻訳サーバ２００に送信するようにしたが、本発明は、原稿の所定位置にバーコードが印刷されていれば、原稿画像データからバーコードの識別ＩＤのみを読み取り、翻訳サーバ２００に送信するようにしてもよい。これにより、バーコードのデータ容量に比べて大容量となる原文画像データを送信することがなくなり、ネットワーク３００を経由しての送信時間を大幅に短縮できる。

翻訳サーバ２００の文書データベース２１０に翻訳データおよび文書データが格納されていない場合、原文画像データを再度複合機１００から翻訳サーバ２００に送信すればよい。
また、複合機１００の読み取り部１１０で原稿Ｍを読み取った段階で、ＯＣＲ処理を施してイメージ形式の原文画像データからテキスト形式の原文入力データに変換してもよい。但し、この原文入力データと予め文書データベース２１０に格納されている文書データとは異なったものである。

前記各実施形態では、複合機１００と翻訳サーバ２００とをネットワーク３００で接続する翻訳システムとして説明したが、本発明はこれに限らず、複合機１００内に翻訳サーバ２００の機能を備え、複合機１００が翻訳装置してもよい。このような複合機１００は、複合機１台で仕事をサポートできる比較的小さな会社への適用が好適である。この際、文書データベース２１０に格納される文書データは、図６のステップＳ１８による記憶更新のみでなく、複合機１００のスキャナ機能、コピー機能、プリンタ機能を動作させた際に、文書データベース２１０に格納させてもよい。この際、スキャナ・コピー・プリントされる原稿の文書データを文書ＩＤおよびバージョン（版番）と共に文書データベース２１０に格納すると共に、文書データ管理部２２０に翻訳データの文書ＩＤと文書名を記憶更新するようにすればよい。

また、前記各実施形態では、利用者が最新の翻訳文を得ることを目的として翻訳システムについて詳述したが、本発明はこれに限らず、入力された識別番号に対して異なったバージョンの文書データを出力する文書管理システムとしてもよいことは勿論である。
さらに、読み取り部１１０は、スキャナ機構を前提に記載したが、ネットワーク３００を介して接続されたユーザ端末（例えば、パーソナルコンピュータ）からの印刷指令信号に重畳された文書データをキーにして異なったバージョンの文書データを出力するようにしてもよい。この際、ユーザ端末に対してその旨を通知してモニタに表示させて、利用者からの指示を促してもよい。

前記実施形態のデータテーブルでは、図４に示すように、共通の文字列を有する文書ＩＤとして文書データを関連付けたが、本発明はこれに限らず、異なった文書ＩＤであっても、１つのデータテーブルで関連付けられるようにしてもよい。
本発明は、翻訳可能な言語は、第１〜第３言語の３つに限らず、２または４以上の言語に対応できることは勿論である。

前各記実施形態では、文書管理システムとして版の異なった翻訳文書データを管理する場合に例示したが、本発明はこれに限らず、１カ国の言語に対して改訂によるバージョンの異なった文書データを管理する場合に用いても、見積書・納品書・請求書といった一連の文書データの管理する場合に用いても、特許書類のような願書・明細書・要約書といった一連の文書データの管理する場合に用いてもよいことは勿論である。

前記各実施形態では、文書ＩＤの抽出を用紙に印刷されたバーコードから抽出する構成としたが、本発明はこれに限らず、指定領域に存在する文字列を識別情報（文書ＩＤ）としてもよい。例えば、用紙に印刷された文章が横書きの場合、文書の中央部分の列を所定領域とし、この所定領域をＯＣＲ処理することによりこの文字列を文書ＩＤとしてもよい。

また、原稿に利用者が注釈や付箋等のアノテーションを記載している場合には、読み取り部１１０で原稿を読み取る際に、アノテーションに記載された文字とその位置情報を算出し、翻訳サーバ２００から翻訳データが返信された場合には、この翻訳データ、アノテーションの位置情報に基づき、印刷部１５０が翻訳文と共に、翻訳されたアノテーションを元の原稿と同じ位置に印刷する。

図６のステップＳ１８で文書データベース２１０に記憶更新される翻訳データは、翻訳サーバ２００による機械翻訳による翻訳データを格納させるようにしたが、ここでは格納させずに、この翻訳データに基づき翻訳者が補正した翻訳データ、或いは翻訳者が原文の原稿から翻訳した翻訳データを文書データベース２１０に新たに格納させるようにしてもよい。

前記各実施形態では、複合機１００および翻訳サーバ２００で翻訳システム１を構成するものとして述べたが、個人的なクライアント端末（例えば、パーソナルコンピュータ）と翻訳サーバ２００とをネットワーク３００を介して接続した翻訳システムとしてもよい。
このシステムでは、クライアント端末の表示部に、テキスト形式の翻訳データ或いは原文データと翻訳データとを比較させながら表示させることも可能となる。さらに、データを表示部に表示し、マウス等の領域指定手段によって文章領域を指定することにより、この文章領域に対応した翻訳文を表示させる等、種々の使用方法が適用できる。

なお、図１においては図面が煩雑になるのを防ぐため、複合機１００および翻訳サーバ２００はそれぞれ１台のみ図示されているが、翻訳システム１は、複合機１００および翻訳サーバ２００を複数有してもよいことは勿論である。

また、上述の実施形態においては、複合機１００は制御部１６０が、翻訳サーバ２００は制御部２５０がそれぞれプログラムを実行することにより実現されたが、この一部または全部をハードウェアで実現する構成としてもよい。

本発明の実施形態に係る翻訳システムの構成を示す図である。本発明実施形態に用いられる複合機の構成を示すブロック図である。本発明実施形態に用いられる翻訳サーバの構成を示すブロック図である。文書データ管理部に記憶されているデータテーブルを示す図である。実施形態による翻訳システムの動作を示す流れ図である。第１実施形態による翻訳サーバにおける翻訳処理の動作を示す流れ図である。第２実施形態による翻訳サーバにおける翻訳処理の動作を示す流れ図である。図７に続く翻訳処理の動作を示す流れ図である。

符号の説明

１…翻訳システム、１００…複合機、１１０…読み取り部、１２０…画像形成部、１３０…指示入力部、１４０…送受信部、１５０…印刷部、１６０…制御部、２００…翻訳サーバ、２１０…文書データベース、２２０…文書データ管理部、２３０…翻訳辞書部、２４０…送受信部、２５０…制御部、３００…ネットワーク。

Claims

文書を示すテキストデータである文書データと、当該文書を識別する文書識別情報、当該文書データの記述に用いられている言語を識別する言語識別情報及び当該文書データの版を識別する版識別情報から構成される文書ＩＤと、当該文書の最新の版を示す最新版情報とを格納した文書データ格納手段と、
第１言語で記述された文書の画像データと、前記第１言語と異なる翻訳対象言語である第２言語を示す指示情報とを受信する受信手段と、
（１）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを翻訳データとして読み出し、
（２）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第１言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを前記第２言語に翻訳して翻訳データを生成し、
（３）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第１言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときは、前記受信手段により受信された画像データをテキスト化し、前記テキスト化された文書データを前記第２言語に翻訳して翻訳データを生成する制御を行う制御手段と、
前記翻訳データを出力する出力手段と
を有する翻訳装置。
請求項１に記載の翻訳装置と、
端末装置と
を有し、
前記端末装置は、
前記第２言語を示す指示情報の入力を受け付ける受付手段と、
原稿から前記第１言語で記述された画像データを読み取る画像読取手段と、
前記指示情報および画像データを前記翻訳装置に送信する送信手段と
を備える翻訳システム。
文書を示すテキストデータである文書データと、当該文書を識別する文書識別情報、当該文書データの記述に用いられている言語を識別する言語識別情報及び当該文書データの版を識別する版識別情報から構成される文書ＩＤと、当該文書の最新の版を示す最新版情報とを記憶した記憶手段、制御手段並びに通信手段を有するコンピュータに、
第１言語で記述された文書の画像データと、前記第１言語と異なる翻訳対象言語である第２言語を示す指示情報とを前記通信手段が受信するステップと、
（１）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、前記制御手段が当該文書データを翻訳データとして読み出し、
（２）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第１言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、前記制御手段が当該文書データを前記第２言語に翻訳して翻訳データを生成し、
（３）前記受信手段により受信された画像データから当該文書の文書ＩＤを抽出できた場合において、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第２言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書ＩＤに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第１言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときは、前記制御手段が前記受信手段により受信された画像データをテキスト化し、前記テキスト化された文書データを前記第２言語に翻訳して翻訳データを生成する制御を行うステップと、
前記翻訳データを前記通信手段が出力するステップと
を実行させるためのプログラム。