JP2009205209A - 文書画像処理装置、及び文書画像処理プログラム - Google Patents

文書画像処理装置、及び文書画像処理プログラム Download PDF

Info

Publication number
JP2009205209A
JP2009205209A JP2008043887A JP2008043887A JP2009205209A JP 2009205209 A JP2009205209 A JP 2009205209A JP 2008043887 A JP2008043887 A JP 2008043887A JP 2008043887 A JP2008043887 A JP 2008043887A JP 2009205209 A JP2009205209 A JP 2009205209A
Authority
JP
Japan
Prior art keywords
character string
document image
translation
image processing
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008043887A
Other languages
English (en)
Inventor
Hironari Konno
裕也 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008043887A priority Critical patent/JP2009205209A/ja
Publication of JP2009205209A publication Critical patent/JP2009205209A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】処理の無駄を省き、さらには翻訳結果の誤りを軽減させる。
【解決手段】文書画像処理装置10は、文書画像に含まれる文字列を認識する文字列認識部16と、文字列認識部16により認識された文字列毎に翻訳処理の対象とするか否かを判断する翻訳対象判断部18と、翻訳対象判断部18により翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理部20と、を含む。
【選択図】図2

Description

本発明は、文書画像処理装置、及び文書画像処理プログラムに関する。
従来から、原稿をスキャンし、スキャンした原稿内に記載されたテキストを機械翻訳した後に出力する技術は数多く提案されてきており、それらにおける出力態様には様々なバリエーションがある。そして、元のレイアウトの領域毎に、翻訳済みの文字列を置換したり、翻訳文を追加したりする手法については、例えば以下のような手法が提案されている。
まず、下記の特許文献1では、原稿画像に含まれるテキストを取得し、取得したテキストの翻訳をそのテキストと共に上下位置に合成して翻訳文書を生成する技術が開示されている。
また、下記の特許文献2では、原稿画像のレイアウトを解析し、原稿画像に含まれるテキスト部分を文字認識して得た文字列に対して翻訳を行い、翻訳文を対応するレイアウトに配置した翻訳文書を生成するとともに、表面には元の原稿、裏面には翻訳した翻訳文書を印刷する装置が提案されている。
特開平5−324720号公報 特許第3636490号公報
しかしながら、例えば数字や単位、そして一部のアルファベットの文字列等は複数の言語間で共通して認識可能であるのに対して、上述した先行技術では原稿中に存在する全ての文章を機械的に翻訳していたため、処理の無駄が発生してしまうことがある上に、翻訳不要な文字列にあえてOCRを行ってしまうことにより翻訳文書に誤字が含まれてしまうことがあった。
本発明は上記課題に鑑みてなされたものであって、本発明の目的の一つは、処理の無駄を省き、さらには翻訳結果の誤りを軽減させることができる文書画像処理装置、及び文書画像処理プログラムを提供することにある。
上記目的を達成するために、請求項1に記載の文書画像処理装置の発明は、文書画像に含まれる文字列を認識する文字列認識手段と、前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、前記判断手段により翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、を含むことを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の文書画像処理装置において、前記判断手段は、前記認識された文字列が所定の文字種から構成される場合に、当該文字列を翻訳処理の対象としないと判断する、ことを特徴とする。
また、請求項3に記載の発明は、請求項2に記載の文書画像処理装置において、前記所定の文字種は、数字又は英文字の少なくとも一方を含む、ことを特徴とする。
また、請求項4に記載の発明は、請求項1乃至3のいずれかに記載の文書画像処理装置において、前記判断手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、当該文字列を翻訳処理の対象としないと判断する、ことを特徴とする。
また、請求項5に記載の発明は、請求項1乃至4のいずれかに記載の文書画像処理装置において、前記翻訳処理手段により翻訳された文字列を含む翻訳文書を生成する生成手段をさらに含む、ことを特徴とする。
また、請求項6に記載の発明は、請求項5に記載の文書画像処理装置において、前記生成手段は、前記判断手段により翻訳処理の対象とすると判断された文字列については前記翻訳された文字列を用い、前記判断手段により翻訳処理の対象としないと判断された文字列については前記文書画像に含まれる当該文字列の画像を用いて前記翻訳文書を生成する、ことを特徴とする。
また、請求項7に記載の発明は、請求項5又は6に記載の文書画像処理装置において、前記生成手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、前記翻訳された文字列を前記認識された文字列と異なる大きさに設定して、前記翻訳文書を生成する、ことを特徴とする。
また、請求項8に記載の文書画像処理プログラムの発明は、コンピュータを、文書画像に含まれる文字列を認識する文字列認識手段と、前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、前記判断手段による翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、して機能させることを特徴とする。
請求項1に記載の発明によれば、文書画像に含まれる文字列毎に翻訳処理の対象とするか否かの判断を行い、翻訳の対象としない文字列については処理を行わないため、処理の無駄を省くとともに、翻訳結果の誤りを軽減させることができる。
請求項2に記載の発明によれば、文字列の文字種に応じて翻訳を行うか否かを判断することができる。
請求項3に記載の発明によれば、数字又は英文字の少なくとも一方の文字種から構成される文字列については翻訳の対象としないことで、複数言語間で共通して認識可能な文字列についての翻訳処理を省略できる。
請求項4に記載の発明によれば、認識された文字列の文字サイズが所定の範囲内にない場合には翻訳の対象から除外することで、翻訳結果の誤りが発生しないようにすることができる。
請求項5に記載の発明によれば、翻訳の対象とされた文字列について翻訳した文字列を含む電子文書を生成することができる。
請求項6に記載の発明によれば、翻訳の対象としない文字列については元の文字列の画像を用いて翻訳文書を生成するため、処理負荷が低減できる。
請求項7に記載の発明によれば、認識された文字列の大きさが所定の範囲内にない場合には、翻訳文字列の大きさを認識された文字列とは異なる大きさに設定して翻訳文書を生成することで、翻訳文書の文字を見やすくすることができる。
請求項8に記載の発明によれば、文書画像に含まれる文字列毎に翻訳処理の対象とするか否かの判断を行い、翻訳の対象としない文字列については処理を行わないため、処理の無駄を省くとともに、翻訳結果の誤りを軽減させるようにコンピュータを機能させることができる。
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
まず、図1を参照しつつ、本実施形態に係る文書画像処理装置により行われる処理の概要を説明する。図1(A)には、処理対象の原稿の一例が示されており、本実施形態に係る文書画像処理装置では、図1(A)に示された原稿をスキャンして原稿に含まれるテキストを読み取り、それらのテキストを所定の言語(ここでは英語とする)に翻訳して翻訳文書を生成する処理を行う。ここで、図1(A)に示される処理対象の原稿は、基本的には日本語で文章が記載されているが、その中には「Computer Cable」というアルファベット(英文字)で構成された文字列や、「10.0」等の数字又は記号から構成された文字列等のように他の言語でも認識可能な文字列が含まれている。なお、図1(A)において点線で囲まれた文字列はそれぞれ原稿の中から認識された文字列であるとする。
図1(B)には従来の技術を用いた場合に生成される翻訳文書の一例を示す。図1(B)に示されるように、従来の技術では原稿に含まれる認識可能な全文字列に対して機械的に翻訳処理を実行しており、「Computer Cable」等のアルファベット文字列や「10.0」等の数字、記号からなる文字列等の翻訳を要しない文字列に対しても翻訳処理を実行してしまっていたため、翻訳文書には文字列1,2,3のような誤字が含まれてしまうことがあった。
そこで、本発明では、図1(C)に示されるように、元の原稿から認識された文字列のうち、翻訳後の言語でも認識可能な文字、そして文字の大きさが小さい等で翻訳が正常に行われない可能性の高い文字については翻訳処理を行わずに元の原稿の画像をそのまま用いることで、処理負荷の軽減を図るとともに誤翻訳の発生を低減させて翻訳文書の品質向上を図るものである。なお、図1(C)において、点線で囲まれていない文字列については翻訳の対象から除外されたことを示している。以下、上述した処理を実現するために本実施形態に係る文書画像処理装置に備えられた構成を詳細に説明する。
図2には、本実施形態に係る文書画像処理装置10の機能ブロック図を示す。図2に示されるように、文書画像処理装置10は、画像取得部12、レイアウト解析部14、文字列認識部16、翻訳対象判断部18、翻訳処理部20、及び翻訳文書生成部22を含み構成される。各部の機能は、コンピュータ読み取り可能な情報記憶媒体に格納された文書画像処理プログラムが、図示しない媒体読取装置を用いてコンピュータシステムたる文書画像処理装置10に読み込まれ、該文書画像処理装置10により実行されることで実現されるものとしてよい。なお、ここでは情報記憶媒体によって文書画像処理プログラムが文書画像処理装置10に供給されることとしたが、インターネット等のデータ通信ネットワークを介して遠隔地から文書画像処理プログラムが文書画像処理装置10にダウンロードされてもよい。
また、図2に示されるように、文書画像処理装置10は、USB等のインターフェースを介してスキャナ50と接続する。スキャナ50は、CCDカメラを具備し、文書画像をCCDカメラにより走査してスキャン画像を取得するとともに、取得したスキャン画像を文書画像処理装置10に転送する。
画像取得部12は、文書画像処理装置10に接続されるスキャナ50から文書画像のスキャンデータを受信して取得する。
レイアウト解析部14は、画像取得部12により取得された文書画像のレイアウトを解析する。レイアウト解析は、文書画像を構成するタイトル領域、本文領域、ヘッダ/フッタ領域、図領域、表領域等に分割することにより行われる。レイアウト解析には公知の手法を用いることとしてよい。そして、レイアウト解析部14により解析されたレイアウトの中から、テキストが含まれる領域(以下、文章領域とする)が処理対象として抽出される。文章領域の抽出は、文字を含まない領域、例えば図のみからなる領域を除外することで行うこととしてよい。なお、抽出される各文章領域は、図1における点線で示されている領域に対応する。
文字列認識部16は、文章領域に含まれる文字をOCR処理により認識するとともに、認識された文字からなる文字列を一つのまとまりとして認識する。OCR処理は、文章領域を文字毎の領域に分割した上で、各分割領域を対象としたパターンマッチングを行い、そのマッチング結果に基づいて各領域に含まれる文字を決定することで行われる。
翻訳対象判断部18は、文字列認識部16により認識された文字列毎にその文字列を翻訳の対象とするか否かを判断する。翻訳対象判断部18は、判断の対象とする文字列が翻訳後の言語においても共通して認識可能か否かをその基準の1つとして、当該文字列を翻訳対象とするか否かを判断する。
そして本実施形態では、翻訳対象判断部18は、文字列認識部16により認識された文字列が数字、記号またはそれらの組み合わせから形成されている場合には、翻訳後の言語においても認識可能であるとして、当該文字列を翻訳対象から除外することと判断する。ここで、記号には、cm(センチメートル)、V(ボルト)等の単位を含む。そして、数字及びその数字に付加されている文字の数が所定数以下の場合には、それらの文字列を翻訳対象から除外することとしてもよい。また、翻訳対象判断部18は、アルファベットで記述される言語以外の言語を翻訳対象としたときに、認識された文字列がアルファベットから構成されている場合には、翻訳後の言語においても認識可能であるとして、当該文字列を翻訳対象から除外することと判断することとしてもよい。
また、翻訳対象判断部18は、認識された文字列が翻訳後の言語においても認識できない文字列であったとしても、当該認識された文字列の文字サイズが所定の許容範囲内にない場合には、その文字列を翻訳してもエラーの発生する可能性が高くなるとして、当該認識された文字列を翻訳対象から除外することと判断することとしてもよい。なお、上記所定の許容範囲は例えばOCRの性能限界に基づいて定めることとしてよい。
翻訳処理部20は、翻訳対象判断部18により翻訳対象にすると判断された文字列に対して、それらの文字列を構文解析した後に、所定の言語(例えば英語や中国語等)に翻訳する。なお、翻訳処理には公知の手法を用いることとしてよい。
翻訳文書生成部22は、翻訳処理部20により翻訳された文字列を、レイアウト解析部14により解析された元の文書画像のレイアウトに配置して翻訳文書を生成する。翻訳文書は、図1(C)に示されるように、原文の文字列を翻訳文の文字列で置換して構成することとしてもよいし、原文文字列と翻訳文文字列とを例えば上下に併記して構成することとしてもよく、これらの形式には特に限定されるものではない。翻訳文書生成部22は、レイアウト毎に配置する翻訳文の文字サイズ、行間隔、文字間隔を、配置する翻訳文の文字数とレイアウトのサイズに基づいて決定する。そして、生成される翻訳文書のデータ形式は、ビットマップ等のイメージデータ、ワードプロセッサー等のアプリケーションデータ、PDLデータ等の種々のデータ形式を用いることとしてよい。
次に、図3及び図4に示されたフロー図を参照しつつ、文書画像処理装置10による原文の文書(スキャン画像)から翻訳文書を生成する処理の具体的な流れを説明する。図3には、翻訳文書を生成する全体的な処理の流れが、そして図4には文字列を翻訳対象とするか否かを判断する処理の流れが示されている。
図3に示されるように、文書画像処理装置10は、接続されたスキャナ50により読み取られた文書画像を取得する(S101)。そして、文書画像処理装置10は取得した文書画像のレイアウトを解析して(S102)、文字列が含まれる文章領域を抽出する。文書画像処理装置10は、各文章領域に含まれる文字列を認識するとともに(S103)、認識した文字列毎に翻訳の対象とするか否かを判断する(S104)。文字列を翻訳の対象とするか否かの判断処理については図4に示されたフロー図を参照して説明する。
図4に示されるように、文書画像処理装置10は、認識された文字列が、アルファベットから構成されているか否か(S201)、数字及び記号から構成されているか否か(S202)、そして文字列の文字サイズが所定範囲に含まれないか否か(S203)を判断し、それらのいずれかを満たした場合には、当該文字列を翻訳対象でないと判断する(S204)。一方で、処理対象とする文字列が上記S201乃至S203の全ての判断において「否」であった場合には、当該文字列を翻訳対象と判断する(S205)。
文書画像処理装置10は、翻訳対象とされた文字列について翻訳処理を実行し(S105)、翻訳処理により得られた翻訳文を文書画像の対応するレイアウトに配置して翻訳文書を生成する(S106)。生成される翻訳文書のレイアウトやフォーマットは上述したように特に限定されるものではなく、また、生成された翻訳文書は印刷出力されることとしてもよいし、データとして記憶装置に記憶されることとしてもよい。
以上説明した本実施形態に係る文書画像処理装置10によれば、翻訳後の言語においても認識が可能な文字列については翻訳処理を省略することで、OCRの誤認識を低減するとともに、処理負荷を低減させることができる。また、原文と翻訳文とを併記して出力する場合にも、翻訳処理を省略した文字列については翻訳文を配置しないことで、翻訳文に配置するスペースを節約して見やすいレイアウトを維持することができる。また、文字認識のしにくい文字のサイズの文字列については処理対象から除外することにより、OCRの誤認識を低減するとともに、処理負荷を低減させることができる。
なお、本発明は上記の実施形態に限定されるものではなく、上記実施形態においては、元の文書画像の文字列画像を翻訳文字列で置換して出力しているが、元の文書画像の文字列画像を表示するとともに、翻訳文字列はテキストデータとして文書に埋め込んだ電子文書データを生成して出力することとしてもよい。そして、レイアウト解析で抽出された文字列画像が後に文字列ではなかったと判断された場合にも、その文字列画像を翻訳対象外とすることとしてよい。
また、本発明は日本語以外の他の言語の原稿についても同様に適用することができるほか、紙に印字された原稿をスキャンしたスキャン画像以外の他の形式の文書画像についても同様に適用することができるのはもちろんである。
本実施形態に係る文書画像処理装置により行われる処理の概要を説明する図である。 文書画像処理装置の機能ブロック図である。 翻訳文書を生成する全体的な処理を示したフロー図である。 文字列を翻訳対象とするか否かを判断する処理を示したフロー図である。
符号の説明
1,2,3 文字列、10 文書画像処理装置、12 画像取得部、14 レイアウト解析部、16 文字列認識部、18 翻訳対象判断部、20 翻訳処理部、22 翻訳文書生成部、50 スキャナ。

Claims (8)

  1. 文書画像に含まれる文字列を認識する文字列認識手段と、
    前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、
    前記判断手段により翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、
    を含むことを特徴とする文書画像処理装置。
  2. 前記判断手段は、前記認識された文字列が所定の文字種から構成される場合に、当該文字列を翻訳処理の対象としないと判断する、
    ことを特徴とする請求項1に記載の文書画像処理装置。
  3. 前記所定の文字種は、数字又は英文字の少なくとも一方を含む、
    ことを特徴とする請求項2に記載の文書画像処理装置。
  4. 前記判断手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、当該文字列を翻訳処理の対象としないと判断する、
    ことを特徴とする請求項1乃至3のいずれかに記載の文書画像処理装置。
  5. 前記翻訳処理手段により翻訳された文字列を含む翻訳文書を生成する生成手段をさらに含む、
    ことを特徴とする請求項1乃至4のいずれかに記載の文書画像処理装置。
  6. 前記生成手段は、前記判断手段により翻訳処理の対象とすると判断された文字列については前記翻訳された文字列を用い、前記判断手段により翻訳処理の対象としないと判断された文字列については前記文書画像に含まれる当該文字列の画像を用いて前記翻訳文書を生成する、
    ことを特徴とする請求項5に記載の文書画像処理装置。
  7. 前記生成手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、前記翻訳された文字列を前記認識された文字列と異なる大きさに設定して、前記翻訳文書を生成する、
    ことを特徴とする請求項5又は6に記載の文書画像処理装置。
  8. コンピュータを、
    文書画像に含まれる文字列を認識する文字列認識手段と、
    前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、
    前記判断手段による翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、
    して機能させることを特徴とする文書画像処理プログラム。
JP2008043887A 2008-02-26 2008-02-26 文書画像処理装置、及び文書画像処理プログラム Pending JP2009205209A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008043887A JP2009205209A (ja) 2008-02-26 2008-02-26 文書画像処理装置、及び文書画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008043887A JP2009205209A (ja) 2008-02-26 2008-02-26 文書画像処理装置、及び文書画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2009205209A true JP2009205209A (ja) 2009-09-10

Family

ID=41147440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008043887A Pending JP2009205209A (ja) 2008-02-26 2008-02-26 文書画像処理装置、及び文書画像処理プログラム

Country Status (1)

Country Link
JP (1) JP2009205209A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097446A (ja) * 2011-10-28 2013-05-20 Sharp Corp 情報出力装置、情報出力方法、及びコンピュータプログラム
WO2015136692A1 (ja) * 2014-03-14 2015-09-17 株式会社日立製作所 電子イメージ文書編集システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097446A (ja) * 2011-10-28 2013-05-20 Sharp Corp 情報出力装置、情報出力方法、及びコンピュータプログラム
WO2015136692A1 (ja) * 2014-03-14 2015-09-17 株式会社日立製作所 電子イメージ文書編集システム
JPWO2015136692A1 (ja) * 2014-03-14 2017-04-06 株式会社日立製作所 電子イメージ文書編集システム

Similar Documents

Publication Publication Date Title
JP4311365B2 (ja) 文書処理装置およびプログラム
US8155945B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
US8923618B2 (en) Information output device and information output method
US20060285748A1 (en) Document processing device
JP2009294788A (ja) 情報処理装置、情報処理方法、制御プログラム及び記録媒体
JP2006251902A (ja) 翻訳文書画像生成装置、翻訳文書画像生成プログラム及び翻訳文書画像生成方法
US20130308862A1 (en) Image processing apparatus, image processing method, and computer readable medium
JP2009053932A (ja) 文書画像処理装置、及び文書画像処理プログラム
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP2011141749A (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
KR101248449B1 (ko) 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독 가능한 기억 매체
JP7379876B2 (ja) 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP2009205209A (ja) 文書画像処理装置、及び文書画像処理プログラム
JP4576211B2 (ja) 文書情報検索システム
JP6809005B2 (ja) 翻訳装置、翻訳システムおよびプログラム
JP7333526B2 (ja) 漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム
JP2008065594A (ja) 文書変換装置及びコンピュータのプログラム
JP4998176B2 (ja) 翻訳装置及びプログラム
JP2001326804A (ja) 画像処理装置及び画像処理システム
JP4552822B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP2008193580A (ja) 情報処理装置
JP2010146143A (ja) 文書処理装置及びプログラム
JP4083723B2 (ja) 画像処理装置
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム