JP2009205209A

JP2009205209A - 文書画像処理装置、及び文書画像処理プログラム

Info

Publication number: JP2009205209A
Application number: JP2008043887A
Authority: JP
Inventors: Hironari Konno; 裕也今野
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-02-26
Filing date: 2008-02-26
Publication date: 2009-09-10

Abstract

【課題】処理の無駄を省き、さらには翻訳結果の誤りを軽減させる。
【解決手段】文書画像処理装置１０は、文書画像に含まれる文字列を認識する文字列認識部１６と、文字列認識部１６により認識された文字列毎に翻訳処理の対象とするか否かを判断する翻訳対象判断部１８と、翻訳対象判断部１８により翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理部２０と、を含む。
【選択図】図２

Description

本発明は、文書画像処理装置、及び文書画像処理プログラムに関する。

従来から、原稿をスキャンし、スキャンした原稿内に記載されたテキストを機械翻訳した後に出力する技術は数多く提案されてきており、それらにおける出力態様には様々なバリエーションがある。そして、元のレイアウトの領域毎に、翻訳済みの文字列を置換したり、翻訳文を追加したりする手法については、例えば以下のような手法が提案されている。

まず、下記の特許文献１では、原稿画像に含まれるテキストを取得し、取得したテキストの翻訳をそのテキストと共に上下位置に合成して翻訳文書を生成する技術が開示されている。

また、下記の特許文献２では、原稿画像のレイアウトを解析し、原稿画像に含まれるテキスト部分を文字認識して得た文字列に対して翻訳を行い、翻訳文を対応するレイアウトに配置した翻訳文書を生成するとともに、表面には元の原稿、裏面には翻訳した翻訳文書を印刷する装置が提案されている。
特開平５−３２４７２０号公報特許第３６３６４９０号公報

しかしながら、例えば数字や単位、そして一部のアルファベットの文字列等は複数の言語間で共通して認識可能であるのに対して、上述した先行技術では原稿中に存在する全ての文章を機械的に翻訳していたため、処理の無駄が発生してしまうことがある上に、翻訳不要な文字列にあえてＯＣＲを行ってしまうことにより翻訳文書に誤字が含まれてしまうことがあった。

本発明は上記課題に鑑みてなされたものであって、本発明の目的の一つは、処理の無駄を省き、さらには翻訳結果の誤りを軽減させることができる文書画像処理装置、及び文書画像処理プログラムを提供することにある。

上記目的を達成するために、請求項１に記載の文書画像処理装置の発明は、文書画像に含まれる文字列を認識する文字列認識手段と、前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、前記判断手段により翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、を含むことを特徴とする。

また、請求項２に記載の発明は、請求項１に記載の文書画像処理装置において、前記判断手段は、前記認識された文字列が所定の文字種から構成される場合に、当該文字列を翻訳処理の対象としないと判断する、ことを特徴とする。

また、請求項３に記載の発明は、請求項２に記載の文書画像処理装置において、前記所定の文字種は、数字又は英文字の少なくとも一方を含む、ことを特徴とする。

また、請求項４に記載の発明は、請求項１乃至３のいずれかに記載の文書画像処理装置において、前記判断手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、当該文字列を翻訳処理の対象としないと判断する、ことを特徴とする。

また、請求項５に記載の発明は、請求項１乃至４のいずれかに記載の文書画像処理装置において、前記翻訳処理手段により翻訳された文字列を含む翻訳文書を生成する生成手段をさらに含む、ことを特徴とする。

また、請求項６に記載の発明は、請求項５に記載の文書画像処理装置において、前記生成手段は、前記判断手段により翻訳処理の対象とすると判断された文字列については前記翻訳された文字列を用い、前記判断手段により翻訳処理の対象としないと判断された文字列については前記文書画像に含まれる当該文字列の画像を用いて前記翻訳文書を生成する、ことを特徴とする。

また、請求項７に記載の発明は、請求項５又は６に記載の文書画像処理装置において、前記生成手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、前記翻訳された文字列を前記認識された文字列と異なる大きさに設定して、前記翻訳文書を生成する、ことを特徴とする。

また、請求項８に記載の文書画像処理プログラムの発明は、コンピュータを、文書画像に含まれる文字列を認識する文字列認識手段と、前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、前記判断手段による翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、して機能させることを特徴とする。

請求項１に記載の発明によれば、文書画像に含まれる文字列毎に翻訳処理の対象とするか否かの判断を行い、翻訳の対象としない文字列については処理を行わないため、処理の無駄を省くとともに、翻訳結果の誤りを軽減させることができる。

請求項２に記載の発明によれば、文字列の文字種に応じて翻訳を行うか否かを判断することができる。

請求項３に記載の発明によれば、数字又は英文字の少なくとも一方の文字種から構成される文字列については翻訳の対象としないことで、複数言語間で共通して認識可能な文字列についての翻訳処理を省略できる。

請求項４に記載の発明によれば、認識された文字列の文字サイズが所定の範囲内にない場合には翻訳の対象から除外することで、翻訳結果の誤りが発生しないようにすることができる。

請求項５に記載の発明によれば、翻訳の対象とされた文字列について翻訳した文字列を含む電子文書を生成することができる。

請求項６に記載の発明によれば、翻訳の対象としない文字列については元の文字列の画像を用いて翻訳文書を生成するため、処理負荷が低減できる。

請求項７に記載の発明によれば、認識された文字列の大きさが所定の範囲内にない場合には、翻訳文字列の大きさを認識された文字列とは異なる大きさに設定して翻訳文書を生成することで、翻訳文書の文字を見やすくすることができる。

請求項８に記載の発明によれば、文書画像に含まれる文字列毎に翻訳処理の対象とするか否かの判断を行い、翻訳の対象としない文字列については処理を行わないため、処理の無駄を省くとともに、翻訳結果の誤りを軽減させるようにコンピュータを機能させることができる。

以下、本発明を実施するための好適な実施の形態（以下、実施形態という）を、図面に従って説明する。

まず、図１を参照しつつ、本実施形態に係る文書画像処理装置により行われる処理の概要を説明する。図１（Ａ）には、処理対象の原稿の一例が示されており、本実施形態に係る文書画像処理装置では、図１（Ａ）に示された原稿をスキャンして原稿に含まれるテキストを読み取り、それらのテキストを所定の言語（ここでは英語とする）に翻訳して翻訳文書を生成する処理を行う。ここで、図１（Ａ）に示される処理対象の原稿は、基本的には日本語で文章が記載されているが、その中には「Computer Cable」というアルファベット（英文字）で構成された文字列や、「10.0」等の数字又は記号から構成された文字列等のように他の言語でも認識可能な文字列が含まれている。なお、図１（Ａ）において点線で囲まれた文字列はそれぞれ原稿の中から認識された文字列であるとする。

図１（Ｂ）には従来の技術を用いた場合に生成される翻訳文書の一例を示す。図１（Ｂ）に示されるように、従来の技術では原稿に含まれる認識可能な全文字列に対して機械的に翻訳処理を実行しており、「Computer Cable」等のアルファベット文字列や「10.0」等の数字、記号からなる文字列等の翻訳を要しない文字列に対しても翻訳処理を実行してしまっていたため、翻訳文書には文字列１，２，３のような誤字が含まれてしまうことがあった。

そこで、本発明では、図１（Ｃ）に示されるように、元の原稿から認識された文字列のうち、翻訳後の言語でも認識可能な文字、そして文字の大きさが小さい等で翻訳が正常に行われない可能性の高い文字については翻訳処理を行わずに元の原稿の画像をそのまま用いることで、処理負荷の軽減を図るとともに誤翻訳の発生を低減させて翻訳文書の品質向上を図るものである。なお、図１（Ｃ）において、点線で囲まれていない文字列については翻訳の対象から除外されたことを示している。以下、上述した処理を実現するために本実施形態に係る文書画像処理装置に備えられた構成を詳細に説明する。

図２には、本実施形態に係る文書画像処理装置１０の機能ブロック図を示す。図２に示されるように、文書画像処理装置１０は、画像取得部１２、レイアウト解析部１４、文字列認識部１６、翻訳対象判断部１８、翻訳処理部２０、及び翻訳文書生成部２２を含み構成される。各部の機能は、コンピュータ読み取り可能な情報記憶媒体に格納された文書画像処理プログラムが、図示しない媒体読取装置を用いてコンピュータシステムたる文書画像処理装置１０に読み込まれ、該文書画像処理装置１０により実行されることで実現されるものとしてよい。なお、ここでは情報記憶媒体によって文書画像処理プログラムが文書画像処理装置１０に供給されることとしたが、インターネット等のデータ通信ネットワークを介して遠隔地から文書画像処理プログラムが文書画像処理装置１０にダウンロードされてもよい。

また、図２に示されるように、文書画像処理装置１０は、ＵＳＢ等のインターフェースを介してスキャナ５０と接続する。スキャナ５０は、ＣＣＤカメラを具備し、文書画像をＣＣＤカメラにより走査してスキャン画像を取得するとともに、取得したスキャン画像を文書画像処理装置１０に転送する。

画像取得部１２は、文書画像処理装置１０に接続されるスキャナ５０から文書画像のスキャンデータを受信して取得する。

レイアウト解析部１４は、画像取得部１２により取得された文書画像のレイアウトを解析する。レイアウト解析は、文書画像を構成するタイトル領域、本文領域、ヘッダ／フッタ領域、図領域、表領域等に分割することにより行われる。レイアウト解析には公知の手法を用いることとしてよい。そして、レイアウト解析部１４により解析されたレイアウトの中から、テキストが含まれる領域（以下、文章領域とする）が処理対象として抽出される。文章領域の抽出は、文字を含まない領域、例えば図のみからなる領域を除外することで行うこととしてよい。なお、抽出される各文章領域は、図１における点線で示されている領域に対応する。

文字列認識部１６は、文章領域に含まれる文字をＯＣＲ処理により認識するとともに、認識された文字からなる文字列を一つのまとまりとして認識する。ＯＣＲ処理は、文章領域を文字毎の領域に分割した上で、各分割領域を対象としたパターンマッチングを行い、そのマッチング結果に基づいて各領域に含まれる文字を決定することで行われる。

翻訳対象判断部１８は、文字列認識部１６により認識された文字列毎にその文字列を翻訳の対象とするか否かを判断する。翻訳対象判断部１８は、判断の対象とする文字列が翻訳後の言語においても共通して認識可能か否かをその基準の１つとして、当該文字列を翻訳対象とするか否かを判断する。

そして本実施形態では、翻訳対象判断部１８は、文字列認識部１６により認識された文字列が数字、記号またはそれらの組み合わせから形成されている場合には、翻訳後の言語においても認識可能であるとして、当該文字列を翻訳対象から除外することと判断する。ここで、記号には、cm（センチメートル）、V（ボルト）等の単位を含む。そして、数字及びその数字に付加されている文字の数が所定数以下の場合には、それらの文字列を翻訳対象から除外することとしてもよい。また、翻訳対象判断部１８は、アルファベットで記述される言語以外の言語を翻訳対象としたときに、認識された文字列がアルファベットから構成されている場合には、翻訳後の言語においても認識可能であるとして、当該文字列を翻訳対象から除外することと判断することとしてもよい。

また、翻訳対象判断部１８は、認識された文字列が翻訳後の言語においても認識できない文字列であったとしても、当該認識された文字列の文字サイズが所定の許容範囲内にない場合には、その文字列を翻訳してもエラーの発生する可能性が高くなるとして、当該認識された文字列を翻訳対象から除外することと判断することとしてもよい。なお、上記所定の許容範囲は例えばＯＣＲの性能限界に基づいて定めることとしてよい。

翻訳処理部２０は、翻訳対象判断部１８により翻訳対象にすると判断された文字列に対して、それらの文字列を構文解析した後に、所定の言語（例えば英語や中国語等）に翻訳する。なお、翻訳処理には公知の手法を用いることとしてよい。

翻訳文書生成部２２は、翻訳処理部２０により翻訳された文字列を、レイアウト解析部１４により解析された元の文書画像のレイアウトに配置して翻訳文書を生成する。翻訳文書は、図１（Ｃ）に示されるように、原文の文字列を翻訳文の文字列で置換して構成することとしてもよいし、原文文字列と翻訳文文字列とを例えば上下に併記して構成することとしてもよく、これらの形式には特に限定されるものではない。翻訳文書生成部２２は、レイアウト毎に配置する翻訳文の文字サイズ、行間隔、文字間隔を、配置する翻訳文の文字数とレイアウトのサイズに基づいて決定する。そして、生成される翻訳文書のデータ形式は、ビットマップ等のイメージデータ、ワードプロセッサー等のアプリケーションデータ、ＰＤＬデータ等の種々のデータ形式を用いることとしてよい。

次に、図３及び図４に示されたフロー図を参照しつつ、文書画像処理装置１０による原文の文書（スキャン画像）から翻訳文書を生成する処理の具体的な流れを説明する。図３には、翻訳文書を生成する全体的な処理の流れが、そして図４には文字列を翻訳対象とするか否かを判断する処理の流れが示されている。

図３に示されるように、文書画像処理装置１０は、接続されたスキャナ５０により読み取られた文書画像を取得する（Ｓ１０１）。そして、文書画像処理装置１０は取得した文書画像のレイアウトを解析して（Ｓ１０２）、文字列が含まれる文章領域を抽出する。文書画像処理装置１０は、各文章領域に含まれる文字列を認識するとともに（Ｓ１０３）、認識した文字列毎に翻訳の対象とするか否かを判断する（Ｓ１０４）。文字列を翻訳の対象とするか否かの判断処理については図４に示されたフロー図を参照して説明する。

図４に示されるように、文書画像処理装置１０は、認識された文字列が、アルファベットから構成されているか否か（Ｓ２０１）、数字及び記号から構成されているか否か（Ｓ２０２）、そして文字列の文字サイズが所定範囲に含まれないか否か（Ｓ２０３）を判断し、それらのいずれかを満たした場合には、当該文字列を翻訳対象でないと判断する（Ｓ２０４）。一方で、処理対象とする文字列が上記Ｓ２０１乃至Ｓ２０３の全ての判断において「否」であった場合には、当該文字列を翻訳対象と判断する（Ｓ２０５）。

文書画像処理装置１０は、翻訳対象とされた文字列について翻訳処理を実行し（Ｓ１０５）、翻訳処理により得られた翻訳文を文書画像の対応するレイアウトに配置して翻訳文書を生成する（Ｓ１０６）。生成される翻訳文書のレイアウトやフォーマットは上述したように特に限定されるものではなく、また、生成された翻訳文書は印刷出力されることとしてもよいし、データとして記憶装置に記憶されることとしてもよい。

以上説明した本実施形態に係る文書画像処理装置１０によれば、翻訳後の言語においても認識が可能な文字列については翻訳処理を省略することで、ＯＣＲの誤認識を低減するとともに、処理負荷を低減させることができる。また、原文と翻訳文とを併記して出力する場合にも、翻訳処理を省略した文字列については翻訳文を配置しないことで、翻訳文に配置するスペースを節約して見やすいレイアウトを維持することができる。また、文字認識のしにくい文字のサイズの文字列については処理対象から除外することにより、ＯＣＲの誤認識を低減するとともに、処理負荷を低減させることができる。

なお、本発明は上記の実施形態に限定されるものではなく、上記実施形態においては、元の文書画像の文字列画像を翻訳文字列で置換して出力しているが、元の文書画像の文字列画像を表示するとともに、翻訳文字列はテキストデータとして文書に埋め込んだ電子文書データを生成して出力することとしてもよい。そして、レイアウト解析で抽出された文字列画像が後に文字列ではなかったと判断された場合にも、その文字列画像を翻訳対象外とすることとしてよい。

また、本発明は日本語以外の他の言語の原稿についても同様に適用することができるほか、紙に印字された原稿をスキャンしたスキャン画像以外の他の形式の文書画像についても同様に適用することができるのはもちろんである。

本実施形態に係る文書画像処理装置により行われる処理の概要を説明する図である。文書画像処理装置の機能ブロック図である。翻訳文書を生成する全体的な処理を示したフロー図である。文字列を翻訳対象とするか否かを判断する処理を示したフロー図である。

符号の説明

１，２，３文字列、１０文書画像処理装置、１２画像取得部、１４レイアウト解析部、１６文字列認識部、１８翻訳対象判断部、２０翻訳処理部、２２翻訳文書生成部、５０スキャナ。

Claims

文書画像に含まれる文字列を認識する文字列認識手段と、
前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、
前記判断手段により翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、
を含むことを特徴とする文書画像処理装置。
前記判断手段は、前記認識された文字列が所定の文字種から構成される場合に、当該文字列を翻訳処理の対象としないと判断する、
ことを特徴とする請求項１に記載の文書画像処理装置。
前記所定の文字種は、数字又は英文字の少なくとも一方を含む、
ことを特徴とする請求項２に記載の文書画像処理装置。
前記判断手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、当該文字列を翻訳処理の対象としないと判断する、
ことを特徴とする請求項１乃至３のいずれかに記載の文書画像処理装置。
前記翻訳処理手段により翻訳された文字列を含む翻訳文書を生成する生成手段をさらに含む、
ことを特徴とする請求項１乃至４のいずれかに記載の文書画像処理装置。
前記生成手段は、前記判断手段により翻訳処理の対象とすると判断された文字列については前記翻訳された文字列を用い、前記判断手段により翻訳処理の対象としないと判断された文字列については前記文書画像に含まれる当該文字列の画像を用いて前記翻訳文書を生成する、
ことを特徴とする請求項５に記載の文書画像処理装置。
前記生成手段は、前記認識された文字列の文字サイズが所定の範囲内にない場合には、前記翻訳された文字列を前記認識された文字列と異なる大きさに設定して、前記翻訳文書を生成する、
ことを特徴とする請求項５又は６に記載の文書画像処理装置。
コンピュータを、
文書画像に含まれる文字列を認識する文字列認識手段と、
前記文字列認識手段により認識された文字列毎に翻訳処理の対象とするか否かを判断する判断手段と、
前記判断手段による翻訳処理の対象とすると判断された文字列について翻訳処理を行う翻訳処理手段と、
して機能させることを特徴とする文書画像処理プログラム。