JP4797507B2 - 翻訳装置、翻訳システムおよびプログラム - Google Patents

翻訳装置、翻訳システムおよびプログラム Download PDF

Info

Publication number
JP4797507B2
JP4797507B2 JP2005236981A JP2005236981A JP4797507B2 JP 4797507 B2 JP4797507 B2 JP 4797507B2 JP 2005236981 A JP2005236981 A JP 2005236981A JP 2005236981 A JP2005236981 A JP 2005236981A JP 4797507 B2 JP4797507 B2 JP 4797507B2
Authority
JP
Japan
Prior art keywords
document
data
language
identification information
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005236981A
Other languages
English (en)
Other versions
JP2007052614A (ja
Inventor
明男 山下
一成 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005236981A priority Critical patent/JP4797507B2/ja
Publication of JP2007052614A publication Critical patent/JP2007052614A/ja
Application granted granted Critical
Publication of JP4797507B2 publication Critical patent/JP4797507B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、翻訳装置、翻訳システムおよびプログラムに関する。
近年のグローバルな情報流通、経済活動など、国境を越えた活動の広がりにより、ある言語(例えば、日本語)から別の言語(例えば、英語、中国語)へ変換する翻訳の需要が高まっている。しかし、翻訳を業者(翻訳者)に依頼すると、一般に価格が高く、また時間もかかってしまうため、コンピュータなどの機械を用いて自動的に翻訳する自動翻訳の需要が高まっている。
一般的に、自動翻訳は、文章が印刷された紙をスキャナ装置で走査してイメージ化された画像データを取得し、この画像データを文字認識(例えば、OCR(Optical Character Recognition:光学的文字認識))処理によってテキスト化した文書データに変換し、この文書データを機械翻訳のソフトウェアを用いて第1言語から第2言語に翻訳するものである。
この機械翻訳のソフトウェアは、文書解析によりテキスト化された文書データから単語単位で文字を認識させ、翻訳辞書を参照して単語の意味を導き、係り受けの関係から翻訳文を作成するといった具合で行っている。
また、機械翻訳では、その翻訳精度は翻訳辞書に記憶された単語数に依存しているため、記憶容量に対応したデータ数によって機械翻訳の精度が設定されてしまう。さらに、日本語を他の言語に翻訳する場合を考えると、日本語は主語を省略して記載する場合があるため、機械翻訳では省略されている主語を補って翻訳することは困難である。
これに対し、人による翻訳は、辞書に記憶されていない新語に対しても、翻訳者の経験によって対応させて翻訳させることもでき、前後の文章から省略されている主語を補完して翻訳することも可能である。
このように、機械翻訳による翻訳精度は、文字認識による精度と機械翻訳のソフトウェアによる精度によって決められしまうため、人による翻訳よりも精度が落ちることになる。例えば、第2言語で記載された翻訳データを第1言語に戻す場合、2度翻訳処理を行うため、得られた文書データはかなり難解な文章となってしまい、理解できなくなってしまう虞がある。
ここで、翻訳精度を上げる技術としては、文字認識により認識した文字を翻訳する際、翻訳辞書に該当する単語が存在しない場合には、自動的に単語の修正を行う技術(特許文献1、参照)、文字列の一部或いは全部を置換したバーコードを原稿に印刷し、必要に応じて専用のバーコード読取装置を用いて、このバーコードを読取って文字列に変換する技術(特許文献2、参照)がある。
特開平5−54070号公報 特開平8−83283号公報
しかし、特許文献1が機械翻訳のソフトウェアの精度を上げるものであり、特許文献2がイメージデータからテキストデータに変換する文字認識の精度を上げるものである。しかし、何れの技術であっても、所詮人による翻訳精度には到達することができない。
一方、文書データの管理を行っていないと、ある文書に対して改訂版が存在する場合であっても、利用者が翻訳を要求する原稿が旧バージョンであったとしても、この利用者は最新版の存在を知らずに翻訳処理を行う。このため、利用者に対して最新版の情報を提供することができない。
本発明は、前述した先行技術に鑑みてなされたもので、入力される文書データに関連した文書データがある場合には、その文書データを利用することで、短時間に高い精度の文書データを得るとともに、例えば、関連したデータが改訂による最新のバージョン情報の場合には、利用者に対して最新の情報を容易に提供することが可能となる文書管理装置、文書管理システムおよび文書管理方法を提供することを目的とする。
前記目的を達成するために、本発明が採用する翻訳装置は、文書を示すテキストデータである文書データと、当該文書を識別する文書識別情報、当該文書データの記述に用いられている言語を識別する言語識別情報及び当該文書データの版を識別する版識別情報から構成される文書IDと、当該文書の最新の版を示す最新版情報とを格納した文書データ格納手段と、第1言語で記述された文書の画像データと、前記第1言語と異なる翻訳対象言語である第2言語を示す指示情報とを受信する受信手段と、(1)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを翻訳データとして読み出し、(2)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第1言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを前記第2言語に翻訳して翻訳データを生成し、(3)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第1言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときは、前記受信手段により受信された画像データをテキスト化し、前記テキスト化された文書データを前記第2言語に翻訳して翻訳データを生成する制御を行う制御手段と、前記翻訳データを出力する出力手段と、を具備したことを特徴とする翻訳装置を提供する。
この発明によれば、第1の判定手段により識別情報と同一の識別情報が文書データ格納手段に記憶されていると判定され、第2の判定手段により同一のグループとして区分されている識別情報が文書データ格納手段内にあると判定された場合、文書データ出力手段が、予め決められた選択ルールに基づき、同一のグループ内の他の識別情報に対応する文書データを文書データ格納手段から読み出して出力する。これにより、識別情報をキーとして、入力される文書データに対応した文書データを出力することができる。
例えば、入力される文書データがバージョンの古い文書に対応したものであって、最新の文書データが文書データ格納手段に格納されている場合には、入力される文書データの識別情報をキーにして最新の文書データが出力される。
上記構成において、前記区分ルールは、前記識別情報の格納エリアによる区分であることが好ましい。
上記構成において、前記識別情報は、予め決められた体系に従った内容に設定され、前記区分ルールは、前記識別情報の内容の共通事項によって区分するルールであることが好ましい。
上記構成において、前記識別情報は、文書の種類を示すコードとバージョン情報とを含んだ所定の体系に従った内容に設定され、前記第2の判定手段における予め決められた選択ルールは、最新のバージョン情報を含んだ識別情報を選択するというルールに設定されていることが好ましい。
上記構成において、前記識別情報は、文書の種類を示すコード、バージョン情報および文書が表される言語形式を含んだ所定の体系に従った内容に設定され、前記第2の判定手段における予め決められた選択ルールは、最新のバージョン情報と指定の言語形式を含んだ識別情報を選択するというルールに設定されていることが好ましい。
上記構成において、前記識別情報は、所定の体系に従った識別コードまたは文書の名称を示す文書名であることが好ましい。
上記構成において、前記文書データ出力手段は、前記他の文書データと前記受信手段が受け取った文書データの相違点を検出し、出力する文書データ中の相違点に対応する部分には、表示上の特徴付けとなる修飾処理を施すことが好ましい。
上記構成において、前記文書データ出力手段は、前記他の文書データと前記受信手段が受け取った文書データの相違点を検出するに際し、両者の言語が違う場合には、前記受信手段が受け取った文書データを前記他の文書データの言語に翻訳した後に相違点検出を行うことが好ましい。
上記構成において、前記第1の判定手段の判定が肯定的でも前記第2の判定手段の判定が否定的となった識別情報については、前記第1の判定手段の判定で肯定的となった識別情報と同一のグループに区分するとともに、当該識別情報およびこれに対応する文書データを前記文書データ格納手段に更新記憶するデータ更新記憶手段を備えることが好ましい。
上記構成において、前記更新記憶手段は、前記第1の判定手段の判定が否定的となった識別情報については、新たな区分に分類して、当該識別情報およびこれに対応する文書データを前記文書データ格納手段に更新記憶することが好ましい。
上記構成において、前記識別情報は、特定文字列または特定画像であることが好ましい。
上記構成において、原稿から画像を読み取って識別情報および入力される文書データを生成して前記受信手段に受け渡す画像読取手段を備えることが好ましい。
本発明に係る文書管理装置によれば、入力される文書データに関連した文書データが予め記憶された文書データ格納手段に格納されている場合には、その文書データを利用することで、文字認識処理を行う必要がなく、精度の高い文書を得ることができる。しかも、格納された文書データであるため、文字認識等の変換時間が必要ないため、短時間で正確な文書データを得ることができる。
例えば、関連したデータが改訂による複数個の文書データの場合には、入力される文書が旧バージョンの文書データであった際、この文書に対して最新版の文書データが文書データ格納手段に格納されていれば、最新版の文書データを出力でき、利用者に対して最新の文書データを提供することが可能となる。
<A.第1実施形態>
以下、図面を参照し、本発明に係る第1実施形態を説明する。図1は、本実施形態による翻訳システム1の全体構成を示す図である。このシステム1は、ネットワーク300を介して接続された複合機100および翻訳サーバ200を具備している。
複合機100は、コピー、スキャナ、プリンタの機能を備える。複合機100は、ネットワーク300を介して翻訳サーバ200或いはパソコン等の利用者端末(図示せず)に接続されている。翻訳サーバ200は、翻訳処理を専門に行うサーバ装置であり、複合機100から原文に対応するデータを受信し、受信した原文に対して関連した翻訳データを生成して返信する機能を有する。
本実施形態によるシステム1は、関連文書を改訂による得られるバージョンの異なった取扱説明書とし、システム1は、複合機100に読み込まれる原文Mが旧バージョンの文書であった場合には、最新版の原文に対応した翻訳データに基づいた翻訳原稿Tが得られるものである。
<A−1.複合機100の構成>
図2は、複合機100の機能構成を示すブロック図である。この複合機100は、読み取り部110、画像データ生成部120、指示入力部130、送受信部140、印刷部150およびこれらを制御する制御部160を具備する。制御部160は、図示しないCPU,RAMおよびROMを備えており、各種処理を司る機能を有する。
指示入力部130は、表示部を兼ねたタッチパネルやスイッチ等から構成され、利用者の操作により各種の指示情報が入力される。その指示情報は、翻訳対象言語(以下、指定言語という),関連文書の種類(旧バージョン、最新版),出力方式(表示、印刷),版の異なった文書中の相違点を表示するか否か等である。
送受信部140は、翻訳サーバ200等のネットワーク300に接続された外部機器(図示せず)との間でデータの授受を行う。印刷部150は、画像データ生成部120で生成された画像データを受けて用紙(記録材)上に画像を印刷する。
そして、複合機100は、読み取り部110が読み取った画像データを、送受信部140を経由して外部の装置に出力することによりスキャナ機として機能する。また、読み取り部110が読み取った画像データに応じた画像を画像印刷部150から出力することによりコピー機として機能する。さらに、複合機100は、外部からデータ送受信部140を経由して受信したデータに応じた画像を画像印刷部150において出力することにより、プリンタ機として機能する。
ここで、図1に示すように、原稿Mには、余白の所定位置にこの原文文書IDを示すバーコードBMが印刷されている。翻訳原稿Tには、余白の所定位置にこの翻訳文書IDを示すバーコードBTが印刷される。なお、本実施形態では、原稿Mに対し、改訂によって何種類かのバージョンの異なった文書が存在するものとする。
<A−2.翻訳サーバ200の構成>
図3は、翻訳サーバ200の機能構成を示すブロック図である。翻訳サーバ200は、文書データベース210が接続された文書データ管理部220、翻訳辞書部230、送受信部240およびこれらを制御する制御部250を具備する。制御部250は、図示しないCPU,RAMおよびROMを備えており、各種処理を司る機能を有する。
送受信部240は、複合機100等のネットワーク300に接続された外部機器(図示せず)との間でデータの授受を行う。翻訳辞書部230は、制御部250からの指示に基づき、原文データを指示言語に翻訳する際に用いられるものであり、種々の言語に対する辞書を備えている。
文書データベース210には、テキスト形式の文書データ(ファイル)が文書ID毎に対応付けて格納されている。この文書データの文書データベース210への格納処理は、後述する図6のステップS18における処理のみでなく、複合機100のスキャナ機能、コピー機能、プリンタ機能を動作させた際、或いは利用者によるマニュアル操作された際に行われる。この際、格納処理は、原稿のバージョンと文書データ(原文データ或いは翻訳データ)を文書IDと共に文書データベース210に格納させ、文書データ管理部220に翻訳データの文書IDと文書名を記憶更新させる。
文書データ管理部220は、文書データベース210に格納されている文書データを管理するもので、図4に示すようなグループ化された複数のデータテーブル毎に、それぞれ識別番号と文書名の対として記憶されている。データテーブルは、関連した文書毎に1つ形成される。
本実施形態では、関連した文書を例えば取扱説明書とし、第1版から第3版までの文書データが存在する場合を例に挙げて示す。
このデータテーブルには、例えば、日本語の文書IDと日本語文書名(ファイル名)、英語の文書IDと英語文書名(ファイル名)、中国語の文書IDと中国語文書名(ファイル名)が、改訂のバージョン毎にそれぞれ記憶されている。つまり、このデータテーブルでは、第1版から第3版までの取扱説明書の文書名が、日本語,英語,中国語の言語形式の文書名として記憶され、さらに、この文書名に対応した文書データが文書データベース210に格納されることになる。
この例の文書IDは、初めの3文字を共通の文字列にして各文書が関連(例えば、取扱説明書)あることを示し、「−」(ハイフン)以下の添え字の十の位が文書の言語形式(第1言語、第2言語、第3言語)、1の位がバージョン(第1版、第2版、第3版)を示している。
さらに、図4のデータテーブルについて説明すると、原文が日本語の第1版の文書であった場合には、この文書の文書IDは“001−11”となり、この文書ID“001−11”に対応した改訂版の文書IDは、第2版“001−12”、第3版“001−13”となる。さらに、他の言語形式の対応は、英語の文書IDは、第1版“001−21”、第2版“001−22”、第3版“001−23”となり、中国語の文書IDは、第1版“001−31”、第2版“001−32”、第3版“001−33”となる。
例えば、原文が英語の第2版の文書であった場合には、この文書の文書IDは“001−22”となり、この文書ID“001−22”のバージョンの異なった文書IDは、第1版“001−21”、第3版“001−23”となる。さらに、他の言語形式におけるバージョンの対応は、日本語の文書IDは、第1版“001−11”、第2版“001−12”、第3版“001−13”となり、中国語の文書IDは、第1版“001−31”、第2版“001−32”、第3版“001−33”となる。
また、文書データ管理部220には、1つの関連した文書に対して1つのデータテーブルが形成されるため、文書データ管理部220では、複数のグループ化した文書を管理するため、複数のデータテーブルを備えることになる。
<A−3.翻訳システム1の動作>
次に、図5のシーケンスチャートに基づき、翻訳システム1の全体の動作について説明する。
まず、利用者が複合機100の指示入力部130を操作して指示情報を入力することにより、制御部160はこの指示情報を記憶する(ステップS1)。この指示情報は、翻訳対象語となる指示言語、改訂版があった場合に出力する版の種類等である。本実施形態では、指示言語を英語、改訂版の出力を最新版とする。
次に、利用者が読み取り部110に原稿Mをセットして所定のスイッチを操作することにより、制御部160は読み取り部110を動作させて原稿Mを読み取る。これにより、イメージ形式の原文画像データを取得して記憶する(ステップS2)。
さらに、複合機100の制御部160は、記憶された指示情報および原文画像データを送受信部140を経由して翻訳サーバ200に送信する(ステップS3)。
翻訳サーバ200の制御部250では、指示情報および原文画像データを送受信部240で受信することにより、後述する翻訳処理を行い(ステップS4)、この翻訳処理によって得られた翻訳データを送受信部240を経由して複合機100に送信する(ステップS5)。
複合機100の制御部160では、送受信部140で翻訳データを受信することにより、この翻訳データを画像データ生成部120に転送し、画像データ生成部120がテキスト形式の翻訳データからイメージ形式の翻訳画像データを生成する(ステップS6)。この際、翻訳データにこの翻訳データの文書IDを示すバーコードを印刷するためのデータが付加されている場合には、変換したバーコードの画像データを翻訳画像データに付加する。
さらに、制御部160は、画像データ生成部120で生成された翻訳画像データを印刷部150に転送し、印刷部150がこの翻訳画像データを用紙に印刷して翻訳原稿Tを出力する(ステップS7)。
次に、図6のフローチャートに基づき、翻訳サーバ200における翻訳処理について説明する。
この翻訳サーバ200は、複合機100から送信された指示情報および原文画像データ(文書IDを含む)を送受信部240で受信することによって動作を開始する。
制御部250は、この制御部250内でイメージ形式の原文画像データを文字認識処理(例えば、OCR処理)してテキスト形式のデータに変換し、文書IDを示すバーコードがある場合には、このバーコード部分の画像データから文書IDを抽出する(ステップS11)。本実施形態の場合には、第1版(日本語)の取扱説明書を示す文書ID“001−11”が抽出されたものとする。
次に、制御部250は、ステップS11の処理により、バーコードによる文書IDが抽出されたか否かを判定する(ステップS12)。制御部250は、文書IDが抽出された場合には(ステップS12;YES)、ステップS13に移行する。
制御部250は、抽出された文書IDを検索キーとして、文書データ管理部220(データーテーブル)の文書IDとを照合させることにより、文書データベース210に格納されている文書データおよび翻訳データを検索して検索結果を得る(ステップS13)。
図4のデータテーブルの例では、抽出された文書IDが“001−11”である場合には、初めの3文字を検索キーとしてデータテーブルが選択され、日本語の第1版の文書データを始め、第2版,第3版の日本語の文書データ、さらに第1〜第3版の英語の翻訳データ、中国語の翻訳データが文書データベース210に格納されていることを検索結果として得る。
制御部250は、検索結果および指示情報から文書データベース210に翻訳データ(この場合、最新版の英語)が格納されているか否かを判定する(ステップS14)。翻訳対象語となる指示言語(英語)で且つ最新版の翻訳データ(この場合、文書ID“001−23”)が文書データベース210に格納されていた場合には(ステップS14;YES)、該当する翻訳データ(この場合、文書ID“001−23”)を読み出し、この翻訳データを記憶エリア(図示せず)に一時的に記憶する(ステップS15)。
一方、ステップS14の判定において、最新版の英語による翻訳データが文書データベース210に格納されていない場合には(ステップS14;NO)、制御部250は、検索結果から文書データベース210に原文の言語による最新版の文書データ(この場合、文書ID“001−13”)が格納されているか否かを判定する(ステップS16)。
制御部250は、最新版の文書データ(この場合、文書ID“001−13”)が文書データベース210に格納されていた場合には(ステップS16;YES)、この最新版の文書データを読み出し、この文書データに基づいた翻訳処理を翻訳辞書部230を利用して行い、この処理で得られた翻訳データを記憶エリアに一時的に記憶する(ステップS17)。
さらに、制御部250は、ステップS17で得られた翻訳データを文書データベース210に格納すると共に、文書データ管理部220のデータテーブルに原文の文書IDの添え字を変えた文書IDを翻訳文の文書名(ファイル名)に対応付けて加えることによりデータベースを更新する(ステップS18)。
一方、制御部250は、受信した原文画像データから文書IDが抽出されなかった場合(ステップS12;NO)、或いは文書データベース210に原文データに対応した最新版の文書データが格納されていない場合には(ステップS16;NO)、原文画像データをテキスト化したデータに対して翻訳処理を行い、この処理で得られた翻訳データを記憶エリアに一時的に記憶する(ステップS19)。この処理後に、文書データベース210に翻訳前の原文データを文書IDと共に格納し、文書データ管理部220に原文データを文書IDに対応した新たなデータテーブルとして作成するようにしてもよい。
このように、翻訳サーバ200の制御部250では、三通りの処理のうち何れかの処理により得られた最新版の翻訳データを送受信部240を介して複合機100に送信する(図5中のステップS5)。この送信される翻訳データには、翻訳文を表すデータと共に、この翻訳文を示す文書IDが含まれている。この翻訳データを受けた複合機100は、原文に対して最新版の翻訳文が印刷して翻訳文献Tを出力する。
<A−4.第1実施形態の効果>
このように、本実施形態による翻訳システム1では、予め翻訳サーバ200の文書データベース210に原文に関連した最新版の翻訳データが格納されている場合には、その翻訳データを複合機100に送信することにより、OCR処理や翻訳処理を省略でき、翻訳精度の高い翻訳文を利用者に提供することができる。しかも、翻訳処理を行わなわずに済むため、翻訳時間を大幅に短縮することができる。
また、翻訳データが文書データベース210に格納されていない場合であっても、原文の文書データが文書データベース210に格納されている場合には、この文書データを翻訳処理することにより、OCR処理を行わずに済むため、OCR処理による文字の誤認識を防止でき、原文をOCR処理および翻訳処理を行って得た翻訳文に比べて誤翻訳を低減することができる。
以上のように、本実施形態による翻訳システム1は、利用者に対して精度の高い翻訳文を提供することが可能となる。
このように、本実施形態による翻訳システム1は、改訂等によりバージョンの異なった文書があることを知らずに、利用者が複合機100を利用して機械翻訳を行おうとした場合、最新版の翻訳データが出力され、利用者に対して最新の翻訳データを自動的に提供することができる。
<B.第2実施形態>
以下、図面を参照しつつ、本発明に係る第2実施形態を説明する。なお、第2実施形態の特徴は、原文のバーコードから特定される文書と最新版の文書とを照合するこにより相違点を検出し、この相違点を特徴付けて表現した翻訳データを得る点にある。
本実施形態では、前述した第1実施形態と同一の構成要件に同一の符号を付し、その説明は省略するものとする。
<B−1.翻訳システムの動作>
本実施形態による翻訳システムの全体の動作については、前述した第1実施形態で示した図5のシーケンスチャートと同様であるので、その説明は省略する。
次に、図7および図8のフローチャートに基づき、翻訳サーバ200における翻訳処理および相違点検出処理について説明する。
この翻訳サーバ200は、複合機100から送信された指示情報および原文画像データを送受信部240で受信することによって動作を開始する。
制御部250は、その制御部250内でイメージ形式の原文画像データを文字認識処理(例えば、OCR処理)してテキスト形式のデータに変換し、文書IDを示すバーコードがある場合には、このバーコード部分の画像データから文書IDを抽出する(ステップS11)。本実施形態の場合には、第1版(日)の取扱説明書を示す文書ID“001−11”が抽出されたものとする。
次に、制御部250は、ステップS11の処理により、バーコードによる文書IDが抽出されたか否かを判定する(ステップS12)。制御部250は、文書IDが抽出された場合には(ステップS12;YES)、ステップS13に移行する。
制御部250は、抽出された文書IDを検索キーとして、文書データ管理部220(データーテーブル)の文書IDとを照合させることにより、文書データベース210に格納されている文書データおよび翻訳データを検索して検索結果を得る(ステップS13)。
図4のデータテーブルの例では、抽出された文書IDが“001−11”である場合には、初めの3文字を検索キーとしてデータテーブルが選択され、日本語の第1版の文書データを始め、第2版,第3版の日本語の文書データ、さらに第1〜第3版の英語の翻訳データ、第1〜第3版の中国語の翻訳データが文書データベース210に格納されていることを検索結果として得る。
ここで、翻訳サーバ200における相違点検出処理を、図8のフローチャートに基づいて説明する。
制御部250は、検索結果から文書データベース210に原文の翻訳データ(この場合、第1版の英語)が格納されているか否かを判定する(ステップS31)。翻訳対象語となる指示言語(英語)で且つ第1版の翻訳データ(この場合、文書ID“001−21”)が文書データベース210に格納されていた場合には(ステップS31;YES)、この翻訳データを読み出し、この翻訳データを記憶エリア(図示せず)に一時的に記憶する(ステップS35)。
一方、ステップS31の判定において、指示言語(英語)で且つ第1版の翻訳データ(この場合、文書ID“001−21”)が文書データベース210に格納されていない場合には(ステップS31;NO)、制御部250は、原文の文書データ(この場合、第1版の日本語)が文書データベース210に有るか否かを判定する(ステップS32)。日本語で且つ第1版の文書データ(この場合、文書ID“001−11”)が文書データベースに格納されていた場合には(ステップS32;YES)、この文書データを読み出し、この文書データに基づいた翻訳処理を翻訳辞書部230を利用して行い(ステップS33)、この処理で得られた翻訳データを記憶エリアに一時的に記憶する(ステップS35)。
さらに、制御部250は、受信した原文画像データから文書IDが抽出されなかった場合(図7中ステップS12;NO)、或いは文書データベース210に原文データに対応した第1版の文書データが格納されていない場合には(ステップS32;NO)、原文画像データをテキスト化したデータに対して翻訳処理を行い(ステップS34)、この処理で得られた翻訳データを記憶エリアに一時的に記憶する(ステップS35)。
このステップS31〜S35までの処理が、原文に対応した翻訳データを生成する処理である。
また、制御部250は、検索結果および指示情報から文書データベース210に翻訳データ(この場合、最新版の英語)が格納されているか否かを判定する(ステップS36)。翻訳対象語となる指示言語(英語)で且つ最新版の翻訳データ(この場合、文書ID“001−23”)が文書データベース210に格納されていた場合には(ステップS36;YES)、この翻訳データを読み出し、この翻訳データを記憶エリア(図示せず)に一時的に記憶する(ステップS39)。
一方、ステップS36の判定において、指示言語(英語)で且つ最新版の翻訳データ(この場合、文書ID“001−23”)が文書データベース210に格納されていない場合には(ステップS36;NO)、制御部250は、検索結果から原文の言語による最新版の文書データ(この場合、文書ID“001−13”)が文書データベース210に有るか否かを判定する(ステップS37)。ステップS37の判定処理において、最新版の文書データ(この場合、文書ID“001−13”)が文書データベース210に有る場合には(ステップS37;YES)、この文書データを読み出し、この文書データに基づいた翻訳処理を翻訳辞書部230を利用して行い(ステップS38)、この処理で得られた翻訳データを記憶エリアに一時的に記憶する(ステップS39)。
さらに、制御部250は、ステップS37の判定において、文書データベース210に最新版の文書データが格納されていない場合には(ステップS37;NO)、最新版の翻訳データが入手できない旨を記憶エリアに一時的に記憶する(ステップS39)。
このステップS36〜S39までの処理が、最新版の翻訳データを生成する処理である。
そして、制御部250は、記憶エリアに記憶された原文の翻訳データと最新版の翻訳データを照合させてその相違点を検出する(ステップS40)。
制御部250は、ステップS40で抽出された原文の翻訳データと最新版の翻訳データとの相違点を特徴付けた修飾処理を施した翻訳データとして生成する(図7中のステップS22)。ここで、修飾処理としては、追記された箇所にアンダーラインを付し、削除された箇所に取消線を引いて表示したり、文字に色を付けたり、文字網掛け処理をしたり、文字のフォントを変えたり、文字ポイントを変えたり等、利用者に対して識別できる表示による修飾である。
なお、最新版の翻訳データおよび文書データが文書データベース210に格納されていない場合には(ステップS36,37;NO)、最新の文書データがないため、相違点の検出は行われないことになる。
<B−2.第2実施形態の効果>
本実施形態による翻訳システムにおいても、第1の実施形態と同様に、利用者に対して精度の高い翻訳文を提供するという効果を奏する。
また、バージョンの古い文書を複合機100で読み込むことにより、最新版の文書を翻訳した翻訳原稿Tが得られ、しかも改訂された部分を特徴付けて表示できるため、利用者に対して改訂部分を印象付けることができる。
<B−3.第2実施形態の変形例>
第2実施形態では、旧版の文書と新版の文書との相違点を抽出するのに、翻訳後のデータを用いて照合することにより行ったが、本発明はこれに限らず、原文の言語の段階で相違点を抽出しても、翻訳に一般的に用いられる中間言語の段階で相違点を抽出するようにしてもよい。
<C.変形例>
以上、本発明の実施形態について説明したが、本発明は上述した各実施形態に限定されるものではなく、種々の態様が可能である。
前記各実施形態では、複合機100の読み取り部110で、読み取った原文画像データを翻訳サーバ200に送信するようにしたが、本発明は、原稿の所定位置にバーコードが印刷されていれば、原稿画像データからバーコードの識別IDのみを読み取り、翻訳サーバ200に送信するようにしてもよい。これにより、バーコードのデータ容量に比べて大容量となる原文画像データを送信することがなくなり、ネットワーク300を経由しての送信時間を大幅に短縮できる。
翻訳サーバ200の文書データベース210に翻訳データおよび文書データが格納されていない場合、原文画像データを再度複合機100から翻訳サーバ200に送信すればよい。
また、複合機100の読み取り部110で原稿Mを読み取った段階で、OCR処理を施してイメージ形式の原文画像データからテキスト形式の原文入力データに変換してもよい。但し、この原文入力データと予め文書データベース210に格納されている文書データとは異なったものである。
前記各実施形態では、複合機100と翻訳サーバ200とをネットワーク300で接続する翻訳システムとして説明したが、本発明はこれに限らず、複合機100内に翻訳サーバ200の機能を備え、複合機100が翻訳装置してもよい。このような複合機100は、複合機1台で仕事をサポートできる比較的小さな会社への適用が好適である。この際、文書データベース210に格納される文書データは、図6のステップS18による記憶更新のみでなく、複合機100のスキャナ機能、コピー機能、プリンタ機能を動作させた際に、文書データベース210に格納させてもよい。この際、スキャナ・コピー・プリントされる原稿の文書データを文書IDおよびバージョン(版番)と共に文書データベース210に格納すると共に、文書データ管理部220に翻訳データの文書IDと文書名を記憶更新するようにすればよい。
また、前記各実施形態では、利用者が最新の翻訳文を得ることを目的として翻訳システムについて詳述したが、本発明はこれに限らず、入力された識別番号に対して異なったバージョンの文書データを出力する文書管理システムとしてもよいことは勿論である。
さらに、読み取り部110は、スキャナ機構を前提に記載したが、ネットワーク300を介して接続されたユーザ端末(例えば、パーソナルコンピュータ)からの印刷指令信号に重畳された文書データをキーにして異なったバージョンの文書データを出力するようにしてもよい。この際、ユーザ端末に対してその旨を通知してモニタに表示させて、利用者からの指示を促してもよい。
前記実施形態のデータテーブルでは、図4に示すように、共通の文字列を有する文書IDとして文書データを関連付けたが、本発明はこれに限らず、異なった文書IDであっても、1つのデータテーブルで関連付けられるようにしてもよい。
本発明は、翻訳可能な言語は、第1〜第3言語の3つに限らず、2または4以上の言語に対応できることは勿論である。
前各記実施形態では、文書管理システムとして版の異なった翻訳文書データを管理する場合に例示したが、本発明はこれに限らず、1カ国の言語に対して改訂によるバージョンの異なった文書データを管理する場合に用いても、見積書・納品書・請求書といった一連の文書データの管理する場合に用いても、特許書類のような願書・明細書・要約書といった一連の文書データの管理する場合に用いてもよいことは勿論である。
前記各実施形態では、文書IDの抽出を用紙に印刷されたバーコードから抽出する構成としたが、本発明はこれに限らず、指定領域に存在する文字列を識別情報(文書ID)としてもよい。例えば、用紙に印刷された文章が横書きの場合、文書の中央部分の列を所定領域とし、この所定領域をOCR処理することによりこの文字列を文書IDとしてもよい。
また、原稿に利用者が注釈や付箋等のアノテーションを記載している場合には、読み取り部110で原稿を読み取る際に、アノテーションに記載された文字とその位置情報を算出し、翻訳サーバ200から翻訳データが返信された場合には、この翻訳データ、アノテーションの位置情報に基づき、印刷部150が翻訳文と共に、翻訳されたアノテーションを元の原稿と同じ位置に印刷する。
図6のステップS18で文書データベース210に記憶更新される翻訳データは、翻訳サーバ200による機械翻訳による翻訳データを格納させるようにしたが、ここでは格納させずに、この翻訳データに基づき翻訳者が補正した翻訳データ、或いは翻訳者が原文の原稿から翻訳した翻訳データを文書データベース210に新たに格納させるようにしてもよい。
前記各実施形態では、複合機100および翻訳サーバ200で翻訳システム1を構成するものとして述べたが、個人的なクライアント端末(例えば、パーソナルコンピュータ)と翻訳サーバ200とをネットワーク300を介して接続した翻訳システムとしてもよい。
このシステムでは、クライアント端末の表示部に、テキスト形式の翻訳データ或いは原文データと翻訳データとを比較させながら表示させることも可能となる。さらに、データを表示部に表示し、マウス等の領域指定手段によって文章領域を指定することにより、この文章領域に対応した翻訳文を表示させる等、種々の使用方法が適用できる。
なお、図1においては図面が煩雑になるのを防ぐため、複合機100および翻訳サーバ200はそれぞれ1台のみ図示されているが、翻訳システム1は、複合機100および翻訳サーバ200を複数有してもよいことは勿論である。
また、上述の実施形態においては、複合機100は制御部160が、翻訳サーバ200は制御部250がそれぞれプログラムを実行することにより実現されたが、この一部または全部をハードウェアで実現する構成としてもよい。
本発明の実施形態に係る翻訳システムの構成を示す図である。 本発明実施形態に用いられる複合機の構成を示すブロック図である。 本発明実施形態に用いられる翻訳サーバの構成を示すブロック図である。 文書データ管理部に記憶されているデータテーブルを示す図である。 実施形態による翻訳システムの動作を示す流れ図である。 第1実施形態による翻訳サーバにおける翻訳処理の動作を示す流れ図である。 第2実施形態による翻訳サーバにおける翻訳処理の動作を示す流れ図である。 図7に続く翻訳処理の動作を示す流れ図である。
符号の説明
1…翻訳システム、100…複合機、110…読み取り部、120…画像形成部、130…指示入力部、140…送受信部、150…印刷部、160…制御部、200…翻訳サーバ、210…文書データベース、220…文書データ管理部、230…翻訳辞書部、240…送受信部、250…制御部、300…ネットワーク。

Claims (3)

  1. 文書を示すテキストデータである文書データと、当該文書を識別する文書識別情報、当該文書データの記述に用いられている言語を識別する言語識別情報及び当該文書データの版を識別する版識別情報から構成される文書IDと、当該文書の最新の版を示す最新版情報とを格納た文書データ格納手段と、
    第1言語で記述された文書の画像データと、前記第1言語と異なる翻訳対象言語である第2言語を示す指示情報とを受信する受信手段と、
    (1)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを翻訳データとして読み出し、
    (2)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第1言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、当該文書データを前記第2言語に翻訳して翻訳データを生成し、
    (3)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第1言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときは、前記受信手段により受信された画像データをテキスト化し、前記テキスト化された文書データを前記第2言語に翻訳して翻訳データを生成する制御を行う制御手段と、
    前記翻訳データを出力する出力手段
    を有する翻訳装置。
  2. 請求項1に記載の翻訳装置と、
    端末装置と
    を有し、
    前記端末装置は、
    前記第2言語を示す指示情報の入力を受け付ける受付手段と、
    原稿から前記第1言語で記述された画像データを読み取る画像読取手段と、
    前記指示情報および画像データを前記翻訳装置に送信する送信手段と
    を備える翻訳システム。
  3. 文書を示すテキストデータである文書データと、当該文書を識別する文書識別情報、当該文書データの記述に用いられている言語を識別する言語識別情報及び当該文書データの版を識別する版識別情報から構成される文書IDと、当該文書の最新の版を示す最新版情報とを記憶した記憶手段、制御手段並びに通信手段を有するコンピュータに、
    第1言語で記述された文書の画像データと、前記第1言語と異なる翻訳対象言語である第2言語を示す指示情報とを前記通信手段が受信するステップと、
    (1)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、前記制御手段が当該文書データを翻訳データとして読み出し、
    (2)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第1言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されているときは、前記制御手段が当該文書データを前記第2言語に翻訳して翻訳データを生成し、
    (3)前記受信手段により受信された画像データから当該文書の文書IDを抽出できた場合において、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第2言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときであって、前記抽出された文書IDに含まれる文書識別情報に対応する文書識別情報を有し、前記言語識別情報により前記第1言語で記述されたことが示され、かつ、前記版識別情報により最新の版であることが示される文書データが前記文書データ格納手段内に格納されていないときは、前記制御手段が前記受信手段により受信された画像データをテキスト化し、前記テキスト化された文書データを前記第2言語に翻訳して翻訳データを生成する制御を行うステップと、
    前記翻訳データを前記通信手段が出力するステップと
    を実行させるためのプログラム。
JP2005236981A 2005-08-17 2005-08-17 翻訳装置、翻訳システムおよびプログラム Expired - Fee Related JP4797507B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005236981A JP4797507B2 (ja) 2005-08-17 2005-08-17 翻訳装置、翻訳システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005236981A JP4797507B2 (ja) 2005-08-17 2005-08-17 翻訳装置、翻訳システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2007052614A JP2007052614A (ja) 2007-03-01
JP4797507B2 true JP4797507B2 (ja) 2011-10-19

Family

ID=37917024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005236981A Expired - Fee Related JP4797507B2 (ja) 2005-08-17 2005-08-17 翻訳装置、翻訳システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP4797507B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5927781B2 (ja) * 2011-05-27 2016-06-01 沖電気工業株式会社 携帯端末、制御方法、およびプログラム
JP2013255014A (ja) * 2012-06-05 2013-12-19 Ricoh Co Ltd 画像処理システム、撮像装置、およびサーバ装置
GB201309402D0 (en) * 2013-05-24 2013-07-10 Rws Group Ltd Computer systems
US20230325612A1 (en) 2022-04-09 2023-10-12 Accenture Global Solutions Limited Multi-platform voice analysis and translation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2822385B2 (ja) * 1988-04-22 1998-11-11 富士ゼロックス株式会社 情報処理装置
JPH05113975A (ja) * 1991-10-22 1993-05-07 Toshiba Corp 共同文書処理システム
JPH09128380A (ja) * 1995-10-30 1997-05-16 Matsushita Electric Ind Co Ltd 文書蓄積管理システム
JP3467160B2 (ja) * 1996-12-13 2003-11-17 ブラザー工業株式会社 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法
JP2001005874A (ja) * 1999-06-23 2001-01-12 Hitachi Ltd 文書情報管理機能をもつ議事録管理システム
JP2001109747A (ja) * 1999-10-07 2001-04-20 Casio Comput Co Ltd 翻訳装置、翻訳プログラムが記録された記録媒体

Also Published As

Publication number Publication date
JP2007052614A (ja) 2007-03-01

Similar Documents

Publication Publication Date Title
US8732570B2 (en) Non-symbolic data system for the automated completion of forms
US7797150B2 (en) Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
CN101923541A (zh) 翻译装置、翻译方法
US20070242282A1 (en) Image forming apparatus for detecting index data of document data, and control method and program product for the same
JP2006276911A (ja) 電子機器およびプログラム
CN101178725A (zh) 用于信息检索的设备、方法和计算机程序产品
US10810383B2 (en) Image processing apparatus for comparing documents in different languages
JP2006350664A (ja) 文書処理装置
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
US8854635B2 (en) Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings
US11301675B2 (en) Image processing apparatus, image processing method, and storage medium
JP2010109420A (ja) 画像形成装置
JP4797507B2 (ja) 翻訳装置、翻訳システムおよびプログラム
US10902223B2 (en) Image processing apparatus
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP2007011683A (ja) 文書管理支援装置
JP4872285B2 (ja) 文書管理装置、文書管理システムおよび文書管理方法
WO1997004409A1 (fr) Dispositif de recherche de fichiers
US20050256868A1 (en) Document search system
JP2006276904A (ja) ファックス装置
US11637937B2 (en) Information processing apparatus, information processing method, and non-transitory storage medium
JP6281739B2 (ja) 処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4797507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees