JP2006252049A - 翻訳システム、翻訳方法およびプログラム - Google Patents

翻訳システム、翻訳方法およびプログラム Download PDF

Info

Publication number
JP2006252049A
JP2006252049A JP2005065962A JP2005065962A JP2006252049A JP 2006252049 A JP2006252049 A JP 2006252049A JP 2005065962 A JP2005065962 A JP 2005065962A JP 2005065962 A JP2005065962 A JP 2005065962A JP 2006252049 A JP2006252049 A JP 2006252049A
Authority
JP
Japan
Prior art keywords
sentence
translation
language
identifier
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005065962A
Other languages
English (en)
Inventor
Shunichi Kimura
俊一 木村
Hiroki Yoshimura
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005065962A priority Critical patent/JP2006252049A/ja
Priority to US11/223,009 priority patent/US7797150B2/en
Publication of JP2006252049A publication Critical patent/JP2006252049A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 あらかじめ存在する翻訳文を有効に活用することができる翻訳システムを提供すること
【解決手段】 本発明は、原稿から画像データを生成する画像読み取り手段と、翻訳先言語を入力する入力手段と、前記画像データに対し文字認識処理を行い原文を生成する文字認識手段と、前記原文および前記翻訳先言語を特定する言語識別子を記憶する原文記憶手段と、翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文の内容を特定する文書識別子とを対応付けて記憶した翻訳文データベースと、前記原文から、文書識別子を抽出する抽出手段と、前記翻訳文データベースから、前記抽出手段により前記原文から抽出された文書識別子と同一の文書識別子および前記原文記憶手段に記憶された言語識別子と同一の文書識別子および言語識別子と対応付けられた翻訳文を検索する検索手段と、前記翻訳文を出力する出力手段とを有する翻訳システムを提供する
【選択図】 図1

Description

本発明は、自動翻訳システムに関する。
近年のグローバルな情報流通、経済活動など、国境を越えた活動の広がりにより、ある言語(例えば、英語)から別の言語(例えば、日本語)への翻訳の需要が高まっている。しかし、翻訳を業者(翻訳者)に依頼すると、一般に価格が高く、また時間もかかるため、コンピュータなどの機械を用いて自動的に翻訳する自動翻訳(機械翻訳)装置の需要が高まっている。
翻訳元の文章(原文)が紙文書で提供された場合、紙文書を読み取り画像データ化した後、文字認識処理を行う必要がある。このような場合、画像読み取り装置と翻訳装置とを一体化すると便利である。このように画像読み取り装置と翻訳装置を組み合わせた装置が、例えば特許文献1に開示されている。
特開平2−195479号公報
機械翻訳の品質は、人間(翻訳家)による翻訳と比較して品質が劣るのが一般的である。したがって、可能であるならば、翻訳家により作成された翻訳文を使用したいという要求がある。ここで、例えば、観光名所、国際会議、オリンピック等、様々な国から多数の人間が集まる状況においては、あらかじめ翻訳家により作成された翻訳文が存在している場合がある。このような状況下では、あらかじめ存在する翻訳文を有効に活用することが望まれるが、特許文献1に記載の技術はこのような状況を全く想定しておらず、あらかじめ存在する翻訳文を有効に活用することができないという問題があった。
本発明は上述の事情に鑑みてなされたものであり、あらかじめ存在する翻訳文を有効に活用することができる翻訳システムを提供することを目的とする。
上述の課題を解決するため、本発明は、原稿から画像を光学的に読み取り画像データを生成する画像読み取り手段と、翻訳先言語を入力する入力手段と、前記画像読み取り手段により生成された画像データに対し文字認識処理を行い原文を生成する文字認識手段と、前記文字認識手段により生成された原文および前記入力手段により入力された翻訳先言語を特定する言語識別子を記憶する原文記憶手段と、翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文の内容を特定する文書識別子とを対応付けて記憶した翻訳文データベースと、前記原文記憶手段に記憶された原文から、その原文の内容を特定する文書識別子を抽出する抽出手段と、前記翻訳文データベースから、前記抽出手段により前記原文から抽出された文書識別子と同一の文書識別子および前記原文記憶手段に記憶された言語識別子と同一の文書識別子および言語識別子と対応付けられた翻訳文を検索する検索手段と、前記検索手段により検索された翻訳文を出力する出力手段とを有する翻訳システムを提供する。
また、本発明は、原稿から画像を光学的に読み取り画像データを生成する画像読み取り手段と、翻訳先言語を入力する入力手段と、前記画像読み取り手段により生成された画像データに対し文字認識処理を行い原文を生成する文字認識手段と、前記文字認識手段により生成された原文および前記入力手段により入力された翻訳先言語を特定する言語識別子を記憶する原文記憶手段と、翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文から生成された中間言語文とを対応付けて記憶した翻訳文データベースと、前記原文記憶手段に記憶された原文を中間言語に翻訳し中間言語文を生成する中間言語化手段と、前記中間言語化手段により得られた中間言語文と、前記翻訳文データベースに記憶された中間言語文との近似度を算出する近似度算出手段と、前記翻訳文データベースから、前記近似度算出手段により算出された近似度が所定の条件を満たし、かつ前記原文記憶手段に記憶された言語識別子と同一の言語識別子と対応付けられた翻訳文を検索する検索手段とを有する翻訳システムを提供する。
この翻訳システムにおいて、前記所定の条件が、前記近似度算出手段により算出された近似度のうち最小値が、しきい値以下であるという条件であってもよい。
以上の翻訳処理によれば、人間の翻訳家によって翻訳された翻訳文であって、それまでに蓄積された翻訳文を有効に活用することができる。
好ましい態様において、上記いずれかの翻訳システムは、前記検索手段が翻訳文データベースから条件を満足する翻訳文を発見できない場合に、その旨を通知する通知手段をさらに有してもよい。
別の好ましい態様において、上記いずれかの翻訳システムは、前記検索手段が翻訳文データベースから条件を満足する翻訳文を発見できない場合に、前記原文を前記翻訳先言語に翻訳して翻訳文を生成する翻訳手段をさらに有してもよい。
また、本発明は、翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文の内容を特定する文書識別子とを対応付けて記憶した翻訳文データベースを有するコンピュータ装置またはこのコンピュータ装置に接続された別のコンピュータ装置における翻訳方法であって、原稿から画像を光学的に読み取り画像データを生成する画像読み取りステップと、翻訳先言語を入力する入力ステップと、前記画像データに対し文字認識処理を行い原文を生成する文字認識ステップと、前記原文および前記入力ステップにおいて入力された翻訳先言語を特定する言語識別子を記憶する原文記憶ステップと、前記原文から、その原文の内容を特定する文書識別子を抽出する抽出ステップと、前記翻訳文データベースから、前記抽出ステップにおいて前記原文から抽出された文書識別子と同一の文書識別子および前記原文記憶ステップにおいて記憶された言語識別子と同一の文書識別子および言語識別子と対応付けられた翻訳文を検索する検索ステップと、前記検索ステップにおいて検索された翻訳文を出力する出力ステップとを有する翻訳方法を提供する。
さらに、本発明は、コンピュータ装置に上記の翻訳方法を実行させるプログラムを提供する。
また、本発明は、翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文から生成された中間言語文とを対応付けて記憶した翻訳文データベースを有するコンピュータ装置またはこのコンピュータ装置に接続された別のコンピュータ装置における翻訳方法であって、原稿から画像を光学的に読み取り画像データを生成する画像読み取りステップと、翻訳先言語を入力する入力ステップと、前記画像データに対し文字認識処理を行い原文を生成する文字認識ステップと、前記原文および前記入力ステップにおいて入力された翻訳先言語を特定する言語識別子を記憶する原文記憶ステップと、前記原文を中間言語に翻訳し中間言語文を生成する中間言語化ステップと、前記中間言語文と、前記翻訳文データベースに記憶された中間言語文との近似度を算出する近似度算出ステップと、前記翻訳文データベースから、前記近似度が所定の条件を満たし、かつ前記原文記憶ステップにおいて記憶された言語識別子と同一の言語識別子と対応付けられた翻訳文を検索する検索ステップとを有する翻訳方法を提供する。
さらに、本発明は、コンピュータ装置に上記の翻訳方法を実行させるプログラムを提供する。
以下、図面を参照して本発明の実施形態について説明する。
<第1実施形態>
図1は、本発明の第1実施形態に係る翻訳システム1の機能構成を示すブロック図である。画像読み取り部11は、原稿60を光学的に読み取り、画像データを生成する。翻訳文検索部12は、生成された画像データに対し文字認識処理を行い、テキストデータを生成する。翻訳文検索部12は、文字認識処理により生成された原文テキストデータに基づいて翻訳文蓄積部14から翻訳文を検索する。より詳細には、翻訳文蓄積部14は、複数の翻訳文を記録した翻訳文データベースDB1を記憶している。翻訳文検索部12は、翻訳文データベースDB1から、原文テキストデータに対応する翻訳文を検索する。翻訳文出力部13は、翻訳文データベースDB1から抽出した翻訳文を出力する。
図2は、翻訳システム1の構成を示す図である。翻訳システム1は、複合機100およびサーバ200から構成される。複合機100は、複写機、プリンタ、スキャナ、FAX送受信機、翻訳機等の複数の機能を有する装置である。サーバ200は、クライアント装置である複合機100に翻訳文を提供するサーバ装置である。複合機100およびサーバ200は、インターネット等のネットワーク300を介して接続されている。なお、図面が煩雑になるのを避けるため、図2においては複合機100およびサーバ200がそれぞれ1台ずつ描かれているが、翻訳システム1が複数の複合機100およびサーバ200を有していてもよい。
図3は、複合機100のハードウェア構成を示すブロック図である。複合機100は主に、CPU(Central Processing Unit)110等からなる制御系、原稿の画像を読み取る画像読み取り系160、用紙(記録材)上に画像形成を行う画像形成系170から構成される。CPU110は、記憶部120に記憶されている制御プログラムを読み出して実行することにより、複合機100の各構成要素を制御する機能を有する。記憶部120は、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)等から構成され、制御プログラムや翻訳プログラム等の各種プログラムおよび、画像データやテキストデータ等の各種データを記憶する。表示部130および操作部140は、ユーザインターフェースである。表示部130は、例えば液晶ディスプレイで構成され、CPU110からの制御信号に従ってユーザへのメッセージや作業状況を示す画像などを表示する。操作部140は、テンキー、スタートボタン、ストップボタン、液晶ディスプレイ上に設置されたタッチパネル等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する。ユーザは表示部130に表示された画像やメッセージを見ながら操作部140を操作することにより、複合機100に対して指示入力を行うことができる。
I/F150は、サーバ200等他の装置との間で制御信号やデータの送受信を行うためのインターフェースである。I/F150を介して、例えば公衆電話回線に接続することにより、複合機100はFAXの送受信を行うことができる。あるいは、I/F150を介してインターネット等のネットワークに接続することにより電子メールメッセージの送受信を行うことができる。
画像読み取り系160は、原稿を読み取り位置まで搬送する原稿搬送部161と、読み取り位置にある原稿を光学的に読み取りアナログ画像信号を生成する画像読み取り部162と、アナログ画像信号をデジタル画像データに変換し、必要な画像処理を行う画像処理部163とを有する。原稿搬送部161は、例えばADF(Automatic Document Feeder)等の原稿搬送装置である。画像読み取り部162は、原稿を載置するプラテンガラス、光源やCCD(Charge Coupled Device)センサ等の光デバイス、レンズやミラー等の光学系を有する(いずれも図示略)。画像処理部163は、デジタル/アナログ変換を行うA/D変換回路や、シェーディング補正や色空間変換等の処理を行う画像処理回路を有する(いずれも図示略)。
画像形成系170は、用紙を画像形成位置まで搬送する用紙搬送部171と、搬送された用紙上に画像形成を行う画像形成部172とを有する。用紙搬送部171は、用紙を収納する用紙トレイ、用紙トレイから用紙を1枚ずつ所定の位置まで搬送する搬送ローラ等を有する(いずれも図示略)。画像形成部172は、例えばYMCK各色のトナー像が作像される感光体ドラム、感光体ドラムを帯電させる帯電器、帯電した感光体ドラムに静電画像を形成する露光装置、感光体ドラムにYMCK各色のトナー像を形成する現像器等を有する(いずれも図示略)。
以上の各構成要素は、バス190で相互に接続されている。例えば、画像読み取り系160で原稿から画像データを生成し、生成した画像データに従って画像形成系170で用紙上に画像形成を行うと、複合機100は複写機として機能する。画像読み取り系160で原稿から画像データを生成し、生成した画像データをI/F150を介して他の装置に出力すると、複合機100はスキャナとして機能する。I/F150を介して受信した画像データに従って、画像形成系170で用紙上に画像形成を行うと、複合機100はプリンタとして機能する。画像読み取り系160で原稿からFAXデータを生成し、生成したFAXデータをI/F150および公衆電話回線を介してFAX受信装置に送信すると、複合機100はFAX送信機として機能する。あるいは、画像読み取り系160で原稿から画像データを生成し、さらに、文字認識処理により画像データからテキストデータを生成し、翻訳プログラムを実行することによりテキストデータの翻訳文を生成すると、複合機100はスキャン翻訳機として機能する。
図4は、サーバ200のハードウェア構成を示す図である。CPU210は、RAM230を作業エリアとして、ROM220あるいはHDD250に記憶されているプログラムを実行する。HDD250は、各種プログラムやデータを記憶する記憶装置である。本実施形態において、特に、HDD250は、翻訳文データベースDB1を記憶している(後述)。ユーザは、キーボード260、マウス270を操作することにより、サーバ200に対してデータ入力等を行うことができる。サーバ200はI/F240を介してスキャナ100に接続されており、スキャナ100とデータの送受信を行うことができる。ディスプレイ280は、CPU210の制御下でプログラムの実行結果等を示す画像やメッセージを表示する。これらの構成要素はバス290で相互に接続されている。
図5は、翻訳文データベースDB1の内容を例示する図である。翻訳文データベースDB1は、「文書識別子」、「言語」、「翻訳文」の3つのデータフィールドを有するデータベースである。「文書識別子」のフィールドには、翻訳文の内容を特定する文書識別子が記録されている。文書識別子は、記述されている言語によらず、内容が同一であれば同一の値となる。「言語」のフィールドには、翻訳文が記述された言語を特定する言語識別子が記録されている。図5に示される例では、「JP」、「EN」、「DE」、「FR」はそれぞれ、日本語、英語、ドイツ語、フランス語を示している。「翻訳文」のフィールドには、言語識別子で示される言語で記述されたテキスト(翻訳文)が記録されている。
なお、翻訳文データベースDB1のデータは、キーボード260やマウス270等を操作してあらかじめ入力しておけばよい。また、他の装置で入力あるいは生成されたデータをI/F240を介して受信し、それを記憶してもよい。あるいは、サーバ200自身が翻訳プログラム等により翻訳文を生成し、それをあらかじめ記憶しておいてもよい。
図6は、翻訳システム1の動作を示すフローチャートである。ユーザはまず、原稿60をプラテンガラスあるいはADFにセットする。表示部130には複合機100に指示入力を行うためのメニュー画面が表示されている。ユーザはメニュー画面を見ながら操作部140を操作し、原稿60の翻訳指示を入力する。翻訳指示には、翻訳元言語および翻訳先言語を特定する情報が含まれている。翻訳指示が入力されると、複合機100のCPU110は、原稿60の画像読み取りを行う(ステップS110)。すなわち、CPU110は画像読み取り系160を制御し、原稿60の画像データを生成する。CPU110は生成された画像データを記憶部120に記憶する。次にCPU110は、画像データに対し文字認識処理を行い、原文テキストデータを生成する(ステップS120)。CPU110は、文字認識処理により生成された原文テキストデータを記憶部120に記憶する。
次に、CPU110は、翻訳文データベースDB1から翻訳文の検索を行う(ステップS130)。具体的には次のとおりである。CPU110はまず、原文テキストデータから文書識別子を抽出する。本実施形態において、原稿60には、文書識別子を示す情報(例えば、「文書識別子:A000001」といった文字列)が含まれている。CPU110は、原文テキストデータから、「文書識別子:」というキーワードを検索する。CPU110は、検索により発見された「文書識別子:」という文字列に後続するあらかじめ決められた数(例えば、7文字)の文字を抽出する。CPU110は、抽出した文字列を、原稿60の文書識別子として記憶部120に記憶する。また、CPU110は、入力された翻訳指示から翻訳先言語を特定する情報を抽出する。CPU110は、抽出した情報を翻訳先言語を示す言語識別子として記憶部120に記憶する。
次に、CPU110は、原稿60の文書識別子および翻訳先言語を示す言語識別子を含む翻訳文検索要求を生成する。CPU110は、生成した翻訳文検索要求を、I/F150を介してサーバ200に送信する。
翻訳文検索要求を受信すると、サーバ200のCPU210は、受信した翻訳文検索要求をRAM230に記憶する。CPU210は、翻訳文検索要求から文書識別子および言語識別子を抽出する。CPU210は、抽出した文書識別子および言語識別子を検索キーとして、翻訳文データベースDB1から翻訳文を検索する。CPU210は、翻訳文検索要求に対する翻訳文として、検索により発見した翻訳文データを抽出する。CPU210は抽出した翻訳文データをRAM230に記憶する。CPU210は、文書識別子および抽出した翻訳文データを含む翻訳文検索応答を生成する。CPU210は、生成した翻訳文検索応答を、翻訳文検索要求の送信元である複合機100に送信する。
翻訳文検索応答を受信すると、複合機100のCPU110は、受信した翻訳文検索応答を記憶部120に記憶する。CPU110は、翻訳文検索応答から文書識別子および翻訳文データを抽出する。CPU110は、抽出した文書識別子および翻訳文データを記憶部120に記憶する。CPU110は、抽出した文書識別子が、処理対象の原文テキストデータの文書識別子と一致するか判断する。双方の文書識別子が一致した場合、CPU110は、受信した翻訳文データを、処理対象の原文テキストデータに対する翻訳文として記憶部120に記憶する。双方の文書識別子が一致しない場合、CPU110は、その旨を示す再送要求をサーバ200に送信する。再送要求を受信したサーバ200は、翻訳文検索要求と同様に翻訳文を検索し複合機100に送信する。
次に、CPU110は、翻訳文を出力する(ステップS140)。すなわち、CPU110は、記憶部120に記憶された翻訳文データから、画像データを生成する。CPU110は生成された画像データを記憶部120に記憶する。CPU110は、画像形成系170を制御して、画像データに従って用紙上に画像形成を行う。用紙には、翻訳文が印刷される。あるいは、CPU110は、翻訳文データを、I/F150を介して他のPC等に送信してもよい。
以上で説明したように、本実施形態に係る複合機100によれば、ユーザは原稿を複合機100にセットし、翻訳処理を指示する指示入力を行うだけで、翻訳文が印刷された用紙を得ることができる。ここで得られる翻訳文は、人間の翻訳家によりあらかじめ翻訳されたものである。したがって、ユーザは、高品質の翻訳文を短時間で入手することができる。
なお、サーバ200の翻訳文検索処理において、翻訳文検索要求に対する翻訳文が翻訳文データベースDB1に存在しなかった場合、CPU210は、HDD250から翻訳プログラムを読出して実行する。CPU210は、翻訳プログラムを実行することにより、原文テキストデータに対する翻訳文データを生成する。CPU210は、生成した翻訳文データを翻訳文データベースDB1に追加する。また、CPU210は、生成した翻訳文データを複合機100に送信する。あるいは、CPU210は、要求された原文に対する翻訳文が存在しない旨を示すメッセージを複合機100に送信してもよい。
上述の第1実施形態において、文字認識処理により原稿60から文書識別情報を抽出する態様について説明したが、文書識別情報を抽出する態様はこれに限定されない。例えば、バーコード等の図形を画像処理によって識別することにより文書識別情報を抽出してもよい。あるいは、翻訳処理の指示入力の際にユーザが文書識別情報を入力してもよい。
<第2実施形態>
図7は、本発明の第2実施形態に係る翻訳システム2の機能構成を示すブロック図である。翻訳システム2が第1実施形態に係る翻訳システム1と異なる点は、中間言語化部21を有する点、および翻訳文蓄積部14が翻訳文データベースDB1の代わりに翻訳文データベースDB2を記憶する点のみである。以下、第1実施形態と共通する構成要素には共通の参照符号を用いて説明する。また、第1実施形態と共通する事項についてはその説明を省略する。
中間言語化部21は、原稿60から生成された画像データに対し文字認識処理を行い、原文テキストデータを生成する。中間言語化部21はさらに、原文テキストデータから中間言語テキストデータを生成する。中間言語とは、機械翻訳を行うための独自の言語である。すなわち、複数の翻訳元言語および翻訳先言語に対応した翻訳装置において、仮に翻訳元言語から翻訳先言語に直接翻訳を行うとすると、翻訳言語および翻訳先言語の組み合わせの数だけ翻訳アルゴリズムおよび翻訳辞書を準備しなければならなくなり、翻訳装置に過大な負荷がかかってしまう。そこで、共通の中間言語を介して翻訳を行うことにより、負荷の軽減を行うものである。
翻訳システム2は、翻訳システム1と同様に複合機100およびサーバ200から構成される。複合機100のハードウェア構成は図3に示されるものと同一であるのでその説明を省略する。サーバ200のハードウェア構成は、HDD250が翻訳文データベースDB2を記憶している点以外は図4に示されるものと同一であるのでその説明を省略する。
図8は、翻訳文データベースDB2の内容を例示する図である。翻訳文データベースDB1と異なる点は、文書識別子に代わり中間言語文が記録されている点である。
図9は、翻訳システム2の動作を示すフローチャートである。第1実施形態と同様に、原稿60に対する画像読み取り処理(ステップS110)および文字認識処理(ステップS120)を行った後、複合機100のCPU110は、原文テキストデータおよび翻訳先言語を指定する言語識別子を含む翻訳文検索要求を生成する。CPU110は、生成された翻訳文検索要求をI/F150を介してサーバ200に送信する。
翻訳文検索要求を受信すると、サーバ200のCPU210は、受信した翻訳文検索要求をRAM230に記憶する。CPU210は、翻訳文検索要求から原文テキストデータおよび翻訳先言語の言語識別子を抽出する。CPU210は、抽出した原文テキストデータおよび言語識別子をRAM230に記憶する。CPU210は、HDD250から中間言語生成プログラムを読み出して実行する。中間言語生成プログラムを実行することにより、CPU210は、原文テキストデータから、中間言語テキストデータを生成する(ステップS210)。CPU210は、生成された中間言語テキストデータ(中間言語文)をRAM230に記憶する。
次に、CPU210は、翻訳文の検索処理を行う(ステップS220)。CPU210は、原文から生成された中間言語文と、翻訳文データベースDB2に記録された中間言語文との近似度を反映したパラメータを用いて翻訳文を検索する。本実施形態においては、2つの文章間の近似度を反映したパラメータとして、文書間の距離dを用いる。距離dは2つの文章間の乖離度を示すパラメータである。つまり、距離が近いほど、すなわちdが小さいほど2つの文章は近似している(近似度が高い)ことを表す。文章間の距離dを算出する技術は、例えば、特開2003−271666号公報、特開2003−271667号公報、特開2004−110161号公報、あるいは特開2004−110200号公報に開示された技術を用いることができる。
CPU210は、算出した距離dがしきい値以下であるか判断する。HDD250は、2つの文章間の距離のしきい値dthをあらかじめ記憶している。d≦dthを満たす場合、CPU110は、2つの文章が同じものであると判断する。CPU110は、翻訳文データベースDB2から、翻訳先言語に対応する翻訳文データを抽出する。以下、翻訳文を出力する処理(ステップS140)は第1実施形態で説明したものと同一であるのでその説明を省略する。
本実施形態に係る複合機100によれば、ユーザは原稿を複合機100にセットし、翻訳処理を指示する指示入力を行うだけで、翻訳文が印刷された用紙を得ることができる。ここで得られる翻訳文は、人間の翻訳家によりあらかじめ翻訳されたものである。したがって、ユーザは、高品質の翻訳文を短時間で入手することができる。また、原稿60は、第1実施形態で説明したような、その内容を特定する文書識別情報を含んでいる必要がない。したがって、より一般的な原稿に対して本発明を適用することができる。
以上の第2実施形態において、翻訳文データベースDB2があらかじめ翻訳文と中間言語文とを対応付けて記憶している態様について説明したが、翻訳文データベースDB2は中間言語文のデータを記憶していなくてもよい。この場合、サーバ200のCPU210は、中間言語生成プログラムを実行することにより翻訳文から中間言語文を生成し、翻訳文から生成した中間言語文と原文から生成した中間言語文との距離dを算出することにより翻訳文を検索してもよい。
<他の実施形態>
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
例えば、図6あるいは図9に示される各処理の実行主体は、上述の実施形態で説明されたものに限られない。上述の説明で複合機100が行った処理の一部または全部をサーバ200が実行してもよい。あるいは、上述の説明でサーバ200が行った処理の一部または全部を複合機100が実行してもよい。
また、上述の実施形態においては、翻訳システムがネットワーク300を介して接続された複合機100およびサーバ200により構成される態様について説明したが、翻訳システムが単一の装置によって構成されてもよい。すなわち、複合機100が上述のすべての機能を有する構成としてもよい。
第1実施形態に係る翻訳システム1の機能構成を示すブロック図である。 翻訳システム1の構成を示す図である。 複合機100のハードウェア構成を示すブロック図である。 サーバ200のハードウェア構成を示す図である。 翻訳文データベースDB1の内容を例示する図である。 翻訳システム1の動作を示すフローチャートである。 第2実施形態に係る翻訳システム2の機能構成を示すブロック図である。 翻訳文データベースDB2の内容を例示する図である。 翻訳システム2の動作を示すフローチャートである。
符号の説明
1・2…翻訳システム、11…画像読み取り部、12…翻訳文検索部、13…翻訳文出力部、14…翻訳文蓄積部、21…中間言語化部、60…原稿、100…複合機、110…CPU、120…記憶部、130…表示部、140…操作部、150…I/F、160…画像読み取り系、161…原稿搬送部、162…画像読み取り部、163…画像処理部、170…画像形成系、171…用紙搬送部、172…画像形成部、190…バス、200…サーバ、210…CPU、220…ROM、230…RAM、240…I/F、250…HDD、260…キーボード、270…マウス、280…ディスプレイ、300…ネットワーク、DB1・DB2…翻訳文データベース

Claims (9)

  1. 原稿から画像を光学的に読み取り画像データを生成する画像読み取り手段と、
    翻訳先言語を入力する入力手段と、
    前記画像読み取り手段により生成された画像データに対し文字認識処理を行い原文を生成する文字認識手段と、
    前記文字認識手段により生成された原文および前記入力手段により入力された翻訳先言語を特定する言語識別子を記憶する原文記憶手段と、
    翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文の内容を特定する文書識別子とを対応付けて記憶した翻訳文データベースと、
    前記原文記憶手段に記憶された原文から、その原文の内容を特定する文書識別子を抽出する抽出手段と、
    前記翻訳文データベースから、前記抽出手段により前記原文から抽出された文書識別子と同一の文書識別子および前記原文記憶手段に記憶された言語識別子と同一の文書識別子および言語識別子と対応付けられた翻訳文を検索する検索手段と、
    前記検索手段により検索された翻訳文を出力する出力手段と
    を有する翻訳システム。
  2. 原稿から画像を光学的に読み取り画像データを生成する画像読み取り手段と、
    翻訳先言語を入力する入力手段と、
    前記画像読み取り手段により生成された画像データに対し文字認識処理を行い原文を生成する文字認識手段と、
    前記文字認識手段により生成された原文および前記入力手段により入力された翻訳先言語を特定する言語識別子を記憶する原文記憶手段と、
    翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文から生成された中間言語文とを対応付けて記憶した翻訳文データベースと、
    前記原文記憶手段に記憶された原文を中間言語に翻訳し中間言語文を生成する中間言語化手段と、
    前記中間言語化手段により得られた中間言語文と、前記翻訳文データベースに記憶された中間言語文との近似度を算出する近似度算出手段と、
    前記翻訳文データベースから、前記近似度算出手段により算出された近似度が所定の条件を満たし、かつ前記原文記憶手段に記憶された言語識別子と同一の言語識別子と対応付けられた翻訳文を検索する検索手段と
    を有する翻訳システム。
  3. 前記所定の条件が、前記近似度算出手段により算出された近似度のうち最小値が、しきい値以下であるという条件であることを特徴とする請求項2に記載の翻訳システム。
  4. 前記検索手段が前記翻訳文データベースから条件を満足する翻訳文を発見できない場合に、その旨を通知する通知手段をさらに有する請求項1または2のいずれかに記載の翻訳システム。
  5. 前記検索手段が前記翻訳文データベースから条件を満足する翻訳文を発見できない場合に、前記原文を前記翻訳先言語に翻訳して翻訳文を生成する翻訳手段をさらに有する請求項1または2のいずれかに記載の翻訳システム。
  6. 翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文の内容を特定する文書識別子とを対応付けて記憶した翻訳文データベースを有するコンピュータ装置またはこのコンピュータ装置に接続された別のコンピュータ装置における翻訳方法であって、
    原稿から画像を光学的に読み取り画像データを生成する画像読み取りステップと、
    翻訳先言語を入力する入力ステップと、
    前記画像データに対し文字認識処理を行い原文を生成する文字認識ステップと、
    前記原文および前記入力ステップにおいて入力された翻訳先言語を特定する言語識別子を記憶する原文記憶ステップと、
    前記原文から、その原文の内容を特定する文書識別子を抽出する抽出ステップと、
    前記翻訳文データベースから、前記抽出ステップにおいて前記原文から抽出された文書識別子と同一の文書識別子および前記原文記憶ステップにおいて記憶された言語識別子と同一の文書識別子および言語識別子と対応付けられた翻訳文を検索する検索ステップと、
    前記検索ステップにおいて検索された翻訳文を出力する出力ステップと
    を有する翻訳方法。
  7. 翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文から生成された中間言語文とを対応付けて記憶した翻訳文データベースを有するコンピュータ装置またはこのコンピュータ装置に接続された別のコンピュータ装置における翻訳方法であって、
    原稿から画像を光学的に読み取り画像データを生成する画像読み取りステップと、
    翻訳先言語を入力する入力ステップと、
    前記画像データに対し文字認識処理を行い原文を生成する文字認識ステップと、
    前記原文および前記入力ステップにおいて入力された翻訳先言語を特定する言語識別子を記憶する原文記憶ステップと、
    前記原文を中間言語に翻訳し中間言語文を生成する中間言語化ステップと、
    前記中間言語文と、前記翻訳文データベースに記憶された中間言語文との近似度を算出する近似度算出ステップと、
    前記翻訳文データベースから、前記近似度が所定の条件を満たし、かつ前記原文記憶ステップにおいて記憶された言語識別子と同一の言語識別子と対応付けられた翻訳文を検索する検索ステップと
    を有する翻訳方法。
  8. 翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文の内容を特定する文書識別子とを対応付けて記憶した翻訳文データベースを有するコンピュータ装置またはこのコンピュータ装置に接続された別のコンピュータ装置に、
    原稿から画像を光学的に読み取り画像データを生成する画像読み取りステップと、
    翻訳先言語を入力する入力ステップと、
    前記画像データに対し文字認識処理を行い原文を生成する文字認識ステップと、
    前記原文および前記入力ステップにおいて入力された翻訳先言語を特定する言語識別子を記憶する原文記憶ステップと、
    前記原文から、その原文の内容を特定する文書識別子を抽出する抽出ステップと、
    前記翻訳文データベースから、前記抽出ステップにおいて前記原文から抽出された文書識別子と同一の文書識別子および前記原文記憶ステップにおいて記憶された言語識別子と同一の文書識別子および言語識別子と対応付けられた翻訳文を検索する検索ステップと、
    前記検索ステップにおいて検索された翻訳文を出力する出力ステップと
    を実行させるプログラム。
  9. 翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文から生成された中間言語文とを対応付けて記憶した翻訳文データベースを有するコンピュータ装置またはこのコンピュータ装置に接続された別のコンピュータ装置に、
    原稿から画像を光学的に読み取り画像データを生成する画像読み取りステップと、
    翻訳先言語を入力する入力ステップと、
    前記画像データに対し文字認識処理を行い原文を生成する文字認識ステップと、
    前記原文および前記入力ステップにおいて入力された翻訳先言語を特定する言語識別子を記憶する原文記憶ステップと、
    前記原文を中間言語に翻訳し中間言語文を生成する中間言語化ステップと、
    前記中間言語文と、前記翻訳文データベースに記憶された中間言語文との近似度を算出する近似度算出ステップと、
    前記翻訳文データベースから、前記近似度が所定の条件を満たし、かつ前記原文記憶ステップにおいて記憶された言語識別子と同一の言語識別子と対応付けられた翻訳文を検索する検索ステップと
    を実行させるプログラム。
JP2005065962A 2005-03-09 2005-03-09 翻訳システム、翻訳方法およびプログラム Pending JP2006252049A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005065962A JP2006252049A (ja) 2005-03-09 2005-03-09 翻訳システム、翻訳方法およびプログラム
US11/223,009 US7797150B2 (en) 2005-03-09 2005-09-12 Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005065962A JP2006252049A (ja) 2005-03-09 2005-03-09 翻訳システム、翻訳方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2006252049A true JP2006252049A (ja) 2006-09-21

Family

ID=36972141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005065962A Pending JP2006252049A (ja) 2005-03-09 2005-03-09 翻訳システム、翻訳方法およびプログラム

Country Status (2)

Country Link
US (1) US7797150B2 (ja)
JP (1) JP2006252049A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015172792A (ja) * 2014-03-11 2015-10-01 株式会社リコー 翻訳システム、情報処理装置、情報処理方法およびプログラム

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050122537A1 (en) * 2003-12-05 2005-06-09 Shin Dong-Hyup Combination machine having an image data conversion function and image data conversion method therefor
US7665063B1 (en) 2004-05-26 2010-02-16 Pegasystems, Inc. Integration of declarative rule-based processing with procedural programming
US20060149528A1 (en) * 2005-01-05 2006-07-06 Inventec Corporation System and method of automatic Japanese kanji labeling
US8335704B2 (en) 2005-01-28 2012-12-18 Pegasystems Inc. Methods and apparatus for work management and routing
JP2007180789A (ja) * 2005-12-27 2007-07-12 Brother Ind Ltd 複写機能付画像形成装置
US8924335B1 (en) 2006-03-30 2014-12-30 Pegasystems Inc. Rule-based user interface conformance methods
US8250525B2 (en) 2007-03-02 2012-08-21 Pegasystems Inc. Proactive performance management for multi-user enterprise software systems
JP4623169B2 (ja) * 2008-08-28 2011-02-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8843435B1 (en) 2009-03-12 2014-09-23 Pegasystems Inc. Techniques for dynamic data processing
US8468492B1 (en) 2009-03-30 2013-06-18 Pegasystems, Inc. System and method for creation and modification of software applications
US8635058B2 (en) * 2010-03-02 2014-01-21 Nilang Patel Increasing the relevancy of media content
JP5124001B2 (ja) * 2010-09-08 2013-01-23 シャープ株式会社 翻訳装置、翻訳方法、コンピュータプログラムおよび記録媒体
CN103229167A (zh) * 2010-10-06 2013-07-31 星汇数据解决方案公司 用于为电子发现数据编索引的系统和方法
US8880487B1 (en) 2011-02-18 2014-11-04 Pegasystems Inc. Systems and methods for distributed rules processing
JP5847807B2 (ja) * 2011-04-18 2016-01-27 キヤノン株式会社 データ処理装置、データ処理装置の制御方法、及びプログラム
US9367539B2 (en) * 2011-11-03 2016-06-14 Microsoft Technology Licensing, Llc Techniques for automated document translation
US9195936B1 (en) 2011-12-30 2015-11-24 Pegasystems Inc. System and method for updating or modifying an application without manual coding
JP2013164728A (ja) * 2012-02-10 2013-08-22 Canon Inc 画像内の文字に係る言語を判定する情報処理装置
US9465797B2 (en) * 2012-02-23 2016-10-11 Google Inc. Translating text using a bridge language
WO2014155742A1 (ja) * 2013-03-29 2014-10-02 楽天株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、情報処理装置の制御方法、情報記憶媒体、及びプログラム
US10469396B2 (en) 2014-10-10 2019-11-05 Pegasystems, Inc. Event processing with enhanced throughput
KR101769981B1 (ko) * 2016-03-29 2017-08-22 네이버 주식회사 이미지를 이용한 번역문 제공 방법, 사용자 단말, 서버, 시스템 및 컴퓨터 프로그램
US10698599B2 (en) 2016-06-03 2020-06-30 Pegasystems, Inc. Connecting graphical shapes using gestures
JP6809005B2 (ja) * 2016-07-07 2021-01-06 富士ゼロックス株式会社 翻訳装置、翻訳システムおよびプログラム
US10698647B2 (en) 2016-07-11 2020-06-30 Pegasystems Inc. Selective sharing for collaborative application usage
KR102457894B1 (ko) * 2017-08-22 2022-10-25 삼성전자주식회사 디스플레이에 표시된 텍스트를 번역하는 방법 및 장치
CN109902269A (zh) * 2017-12-08 2019-06-18 珠海金山办公软件有限公司 一种文档显示方法、装置、电子设备和可读存储介质
US11048488B2 (en) 2018-08-14 2021-06-29 Pegasystems, Inc. Software code optimizer and method
CN110309517B (zh) * 2019-07-02 2023-10-17 北京百度网讯科技有限公司 表情文案处理方法、装置、系统及存储介质
US11567945B1 (en) 2020-08-27 2023-01-31 Pegasystems Inc. Customized digital content generation systems and methods
CN112651248B (zh) * 2020-12-21 2024-02-13 科大讯飞股份有限公司 扫描翻译方法、装置、扫描笔及相关产品

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0743719B2 (ja) * 1986-05-20 1995-05-15 シャープ株式会社 機械翻訳装置
GB2197510A (en) * 1986-10-27 1988-05-18 Sharp Kk Translation apparatus
USRE35464E (en) * 1986-11-28 1997-02-25 Sharp Kabushiki Kaisha Apparatus and method for translating sentences containing punctuation marks
JPH02195479A (ja) 1989-01-25 1990-08-02 Toshiba Corp 機械翻訳システム
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5267156A (en) * 1991-12-05 1993-11-30 International Business Machines Corporation Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US6463404B1 (en) * 1997-08-08 2002-10-08 British Telecommunications Public Limited Company Translation
US7418390B1 (en) * 2000-11-20 2008-08-26 Yahoo! Inc. Multi-language system for online communications
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method
US20030120478A1 (en) * 2001-12-21 2003-06-26 Robert Palmquist Network-based translation system
US20030200078A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for language translation of character strings occurring in captured image data
JP3813911B2 (ja) * 2002-08-22 2006-08-23 株式会社東芝 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム
CN1894688A (zh) * 2003-12-15 2007-01-10 有限会社言语技术研究所 对译判断装置、方法及程序
US20050197825A1 (en) * 2004-03-05 2005-09-08 Lucent Technologies Inc. Personal digital assistant with text scanner and language translator
WO2005096708A2 (en) * 2004-04-06 2005-10-20 Department Of Information Technology A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015172792A (ja) * 2014-03-11 2015-10-01 株式会社リコー 翻訳システム、情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
US20060206305A1 (en) 2006-09-14
US7797150B2 (en) 2010-09-14

Similar Documents

Publication Publication Date Title
JP2006252049A (ja) 翻訳システム、翻訳方法およびプログラム
US7853866B2 (en) Apparatus, method and system for document conversion, apparatuses for document processing and information processing, and storage media that store programs for realizing the apparatuses
US8339645B2 (en) Managing apparatus, image processing apparatus, and processing method for the same, wherein a first user stores a temporary object having attribute information specified but not partial-area data, at a later time an object is received from a second user that includes both partial-area data and attribute information, the storage unit is searched for the temporary object that matches attribute information of the received object, and the first user is notified in response to a match
US8479095B2 (en) Workflow executing device, preview creating method
JP6720795B2 (ja) 機器、情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP2006270446A (ja) 画像読み取り装置
JP2021163178A (ja) 情報処理装置
US8051137B2 (en) Multifunctional input/output device
US20190188267A1 (en) Image processing apparatus
JP2009124258A6 (ja) 多機能入出力装置
JP2020184276A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2006261821A (ja) 画像形成装置および画像読み取り装置
JP2007280223A (ja) 画像形成装置及び情報処理方法
US10902223B2 (en) Image processing apparatus
US20120057186A1 (en) Image processing apparatus, method for managing image data, and computer-readable storage medium for computer program
US11475213B2 (en) Information processing apparatus and image forming apparatus that add modification history to modified source image, according to modification made
US20160246771A1 (en) Text editing apparatus and print data storage apparatus that becomes unnecessary to reprint of print data
JP2008242820A (ja) ドキュメント処理システム
JP2006331222A (ja) 画像読取装置及び情報処理装置
JP4432810B2 (ja) 文書処理装置
US11743400B2 (en) Electronic apparatus that causes display device to display information corresponding to keyword and interrogative in inputted character string for questioning a location, and image forming apparatus
US11720694B2 (en) Image transmission system that allows transmission of image file satisfying predetermined condition to shared folder, but restricts transmission of image file not satisfying predetermined condition to shared folder, and image reading apparatus
JP2006277104A (ja) 画像読み取り装置、辞書登録対象語句の抽出方法およびプログラム
US11343401B2 (en) Information processing device and control method to acquire and execute a workflow including interrelated jobs
US10445375B2 (en) Retrieval information generation device, image processing device, and non-transitory computer readable medium