JP2010287178A

JP2010287178A - 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体

Info

Publication number: JP2010287178A
Application number: JP2009142553A
Authority: JP
Inventors: Hiroshi Kawamura; 洋志川村; Tetsuya Shibata; 哲也柴田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2009-06-15
Filing date: 2009-06-15
Publication date: 2010-12-24

Abstract

【課題】文字認識処理において、文字認識精度を維持しつつ、処理速度を向上させる。
【解決手段】画像処理装置１は文字認識部１３を有し、文字認識部１３は第１認識処理部３２、第２認識処理部３３、辞書選択部３４を有している。第１認識処理部３２は、画像データから抽出された文書原稿のタイトル部に対して日本語の辞書データおよび外国語の辞書データを用いて第１文字認識処理を行う。第２認識処理部３３は、画像データ全体に対して第２文字認識処理を行う。また、辞書選択部３４は、第１文字認識処理の処理結果に基づいて、第２認識処理部３３にて使用される辞書データを選択する。
【選択図】図５

Description

本発明は、画像データに対して文字認識を行う画像処理装置、画像処理方法、複合機、プログラム、当該プログラムを記録した記録媒体に関するものである。

従来から、紙媒体の原稿に記載されている情報をスキャナで読み取って画像データを取得し、当該画像データに対して文字認識処理（ＯＣＲ：Optical character recognition）を施して当該画像データに含まれる文字に関するテキストデータを作成し、上記画像データと上記テキストデータとを対応付けた画像ファイルを作成する技術がある。

また、日本語の他に外国語がアルファベット等のまま記載されている文書がある。そこで、通常、文字認識においては、日本語の辞書データ（認識辞書）の他に外国語の辞書データも使用し、これら辞書データに示される文字パターンまたは単語と文書中の文字または単語とのマッチングを行って、文書中の文字や単語を認識している。

さらに、日本語の辞書データおよび外国語の辞書データを用いる文字認識処理において、文書の示された画像に対して、行単位で日本語からなる行か外国語からなる行かを判定し、行毎に辞書データを切り替えるようにする技術が知られている。例えば、下記の特許文献１には、紙媒体に記載されている情報をスキャナで読み取ってビットマップ画像データを取得し、当該ビットマップ画像データに対して領域分離を行って文字を含む領域を行単位に分け、行と行との間のスペース数と行の幅とに基づいて日本語の行かアルファベット使用言語の行かを判定することが記載されている。

特開平１０−２１３３６号公報（１９９８年１月２３日公開）

しかしながら、文書の示された画像に対して行単位で言語の種別の判定処理を行う文字認識処理によれば、言語の種別の判定処理に時間を要するため、文字認識処理の速度が遅いという問題が生じていた。

これに対し、言語の種別の判定処理を行わずに、日本語（第１言語）の辞書データおよび外国語（第２言語）の辞書データの両方を用いて文字認識を行う場合も処理が遅いという問題が生じる。これは、例えば、日本語のみからなる文書に対しても日本語の辞書データのみならず外国語の辞書データを用いてマッチングを行うため、無駄な処理が発生してしまうためである。

本発明の目的は、第１言語の辞書データおよび第２言語の辞書データを用いる文字認識処理において処理速度を向上させることにある。

文書原稿におけるタイトル部、または、文書原稿において文字サイズが相対的に大きな領域である大文字領域には、前記文書原稿のエッセンスとなる語句が含まれている事が多い。それゆえ、例えば、前記タイトル部（または前記大文字領域）が第１言語の文字のみからなるような場合、前記文書原稿における前記タイトル部（または前記大文字領域）以外の箇所も第１言語のみからなる傾向にある。したがって、前記タイトル部（または前記大文字領域）が第１言語の文字のみからなるような場合、前記文書原稿全体に対する文字認識処理において、第１言語の辞書のみを選択して使用するようにすれば、文字認識精度を維持しつつ、処理速度を向上させることができる。

そこで、本発明は、前記の問題を解決するために、文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理装置において、前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出するレイアウト解析部と、前記レイアウト解析部にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第１言語の辞書データおよび第２言語の辞書データを用いて第１文字認識処理を行う第１処理部と、前記画像データに対して第２文字認識処理を行う第２処理部と、第２文字認識処理にて第２処理部に使用させる辞書データとして、第１文字認識処理の処理結果に応じた言語の辞書データを選択する辞書選択部とを含むことを特徴とする。これにより、文字認識精度を維持しつつ、処理速度を向上させることができる。

例えば、第１言語が画像処理装置の利用者の母国語で、第２言語が外国語であるような場合、第１文字認識処理において母国語のみ認識されると、第２文字認識処理に用いる辞書データとして母国語の辞書データのみを選択し、第１文字認識処理において外国語のみ認識されると、第２文字認識処理に用いる辞書データとして外国語の辞書データのみを選択する形態が考えられる。

また、第１文字認識処理において母国語のみ認識されると、第２文字認識処理に用いる辞書データとして母国語の辞書データのみを選択する一方、第１文字認識処理において外国語のみ認識されると、第２文字認識処理に用いる辞書データとして外国語の辞書データのみを選択するのではなく、外国語の辞書データと母国語の辞書データとを選択するような形態であってもよい。これは、タイトル部が外国語のみであっても、文書全体では母国語も含まれている可能性があるためである。

また、前記タイトル部（または前記大文字領域）が平仮名および／または漢字のみからなる場合、前記文書原稿は日本語のみからなる傾向にある。そこで、本発明の画像処理装置において、前記第１言語が日本語であって前記第２言語が日本語以外の言語である場合、前記辞書選択部は、第１文字認識処理において、平仮名のみ或いは漢字のみ或いは平仮名および漢字のみが認識された場合、第２文字認識処理に用いられる辞書データとして第１言語の辞書データのみを選択することが好ましい。これにより、文字認識精度を維持しつつ、処理速度を向上させることができる。

また、片仮名は外来語もしくは外国語の発音をそのまま表記したものであることが多く、前記タイトル部（または前記大文字領域）に片仮名があるということは、文書原稿において外国語の文字が使用されている可能性がある。そこで、本発明の画像処理装置において、前記辞書選択部は、第１文字認識処理において片仮名が認識された場合、第２文字認識処理に用いられる辞書データとして第１言語の辞書データと第２言語の辞書データとを選択することが好ましい。これにより、文字認識精度の劣化を抑制できる。

さらに、複数の頁からなる文書原稿において、単一の頁から前記タイトル部または前記大文字領域を検出した場合であっても、当該タイトル部（または大文字領域）には前記文書原稿全体のエッセンスとなる語句が含まれている事が多い。そこで、本発明の画像処理装置において、前記画像データが複数の頁からなる文書原稿を示したデータである場合、前記レイアウト解析部は、前記文書原稿に含まれる複数の頁のうちの単一の頁から前記タイトル部または前記大文字領域を抽出することが好ましい。これにより、複数の頁の各々からタイトル部（または大文字領域）を検出せずに、第２文字認識処理にて用いる辞書データを適切に選択でき、処理の遅延を抑制できるという効果を奏する。

また、本発明の画像処理装置は、前記構成に加えて、前記第２処理部は、第２文字認識処理にて認識した単語に対する略語が辞書データに登録されている場合、前記単語および略語を認識結果として出力し、前記第２処理部の認識結果に基づいて、前記画像データに重畳するための透明テキストを生成するテキスト生成部を有していてもよい。この構成によれば、略語をキーワードとしてサーチした場合に当該略語に対応する正式単語をヒットさせる事の可能なサーチャブル画像ファイル（透明テキストの埋め込まれたＰＤＦファイル）を生成できるという効果を奏する。

本発明の画像読取装置は、前記画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えている。本発明の複合機は、前記画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えている。本発明は、文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理方法において、前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出する第１工程と、前記第１工程にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第１言語の辞書データおよび第２言語の辞書データを用いて第１文字認識処理を行う第２工程と、前記画像データに対して第２文字認識処理を行う第３工程とを含み、第２文字認識処理にて使用する辞書データとして、第１文字認識処理の処理結果に応じた言語の辞書データを選択することを特徴とする。

なお、上記画像処理装置は、コンピュータによって実現されてもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。

本発明の画像処理装置は、以上にて示したように、第２文字認識処理にて第２処理部に使用させる辞書データとして、第１文字認識処理の処理結果に応じた言語の辞書データを選択することを特徴とする。これにより、文字認識精度を維持しつつ、処理速度を向上させることができる。

本発明の一実施形態に係る画像処理装置の構成を示したブロック図である。図１の画像処理装置に含まれている原稿検知部の構成を示したブロック図である。画像データに示される文書原稿の文字の外接矩形を示した説明図である。（ａ）は、図１の画像処理装置に処理される画像データに示される文書原稿の一例を示した図である。（ｂ）は、（ａ）の文書原稿の各行に設定される外接矩形を示した図である。（ｃ）は、（ａ）の文書原稿に設定される外接矩形を文字のない状態で示した図である。（ｄ）は、（ｃ）に示される文書の右上領域を拡大した図である。図１の画像処理装置に含まれている文字認識部の構成を示したブロック図である。本発明の一実施形態に係る画像処理装置の処理内容を示したフローチャートである。本発明の別の実施形態に係る画像処理装置を有する画像形成装置を示したブロック図である。図７に示される画像形成装置と同一の画像形成装置を示した図であって、画像ファイルを送受信装置２０４に出力する際のデータの流れを示したブロック図である。原稿自動判別部を備える画像処理装置を有する画像形成装置を示したブロック図である。本発明のさらに別の実施形態に係る画像処理装置を有する画像読取装置を示したブロック図である。（ａ）は、画像表示装置の表示特性に応じたガンマ曲線の一例を示した図である。（ｂ）は、文字をくっきりと表示させるためのガンマ曲線の一例を実線で示した図である。

〔実施の形態１〕
本発明の一実施形態を図面に基づいて以下に説明する。図１は、本発明の実施形態の画像処理装置１の概略構成を示すブロック図である。画像処理装置１は、画像読取装置（スキャナ専用機）または複合機に備えられるものである。画像読取装置または複合機は、ＣＣＤ（Charge Coupled Device）ラインセンサを備えた画像入力装置を有しており、この画像入力装置によって原稿を読み取り、原稿画像を示したＲ，Ｇ，Ｂの画像データを取得する。画像処理装置１は、上記画像データに対して画像処理を行う装置（集積回路またはコンピュータ）である。なお、Ｒは赤色成分、Ｇは緑色成分、Ｂは青色成分を示す。

図１に示すように、画像処理装置１は記憶装置２および送受信装置３に接続されている。記憶装置２としては、一般的なハードディスク装置を用いることができる。送受信装置３は、通信ネットワークに接続されており、当該通信ネットワークに接続されている他の装置と通信するための装置である。

画像入力装置によって取得された画像データは記憶装置２に一旦保存される。画像処理装置１は、記憶装置２から読み出した画像データに原稿傾き補正等の画像処理を施す。また、画像処理装置１は、この画像データに示される原稿画像（文書原稿）の各文字に対して文字認識処理を施して透明テキスト（テキストデータ）を取得する。さらに、画像処理装置１は、原稿傾き補正の施された画像データと、上記の透明テキストとを含む画像ファイルを作成し、この画像ファイルを送受信装置３に送るようになっている。そして、送受信装置３は、通信ネットワークを介して上記画像ファイルを他の装置（例えば、パーソナルコンピュータ、サーバ装置、表示装置等）に送信するようになっている。

画像処理装置１は、図１に示すように、原稿検知部１１、原稿補正部１２、文字認識部１３、描画コマンド生成部１４、フォーマット化処理部１５を有している。

原稿検知部１１は、記憶装置２から読み出された画像データに基づき、原稿画像（文書原稿）の傾き角度を検出し、さらに、原稿画像のレイアウトの解析を行うブロックである。以下では原稿検知部１１について詳細に説明する。原稿検知部１１は、図２に示すように、信号変換部２１、２値化処理部２２、解像度変換部２３、原稿傾き検知部２４、レイアウト解析部２５を有している。

信号変換部２１は、記憶装置２から読み出されたＲ，Ｇ，Ｂの画像データを受け取ると、下記の式ａを用いて、Ｒ，Ｇ，Ｂの画像データを輝度信号に変換するものである。この輝度信号は２値化処理部２２に送られる。
Ｙｉ＝０．３０Ｒｉ＋０．５９Ｇｉ＋０．１１Ｂｉ式ａ
Ｙ：各画素の輝度信号（輝度値）
Ｒ，Ｇ，Ｂ：各画素の各色成分の値
ｉ：画素毎に付与される値（ｉは１以上の整数）
２値化処理部２２は、信号変換部２１から送られてきた輝度信号に対して２値化処理を行って２値化データを作成する。２値化処理に用いられる閾値は、例えば、画像データが８ビットの場合は１２８に設定される。また、画像データにおいて複数の画素からなるブロック（例えば５×５画素）を設定し、このブロックにおける輝度値の平均値を求め、求めた平均値を当該ブロック内の画素についての閾値としてもよい。

なお、輝度信号を２値化するのではなく、ＲＧＢの画像データからＬ^＊ａ^＊ｂ^＊値を求め、Ｌ^＊値を２値化することによって２値化データを生成してもよい。Ｌ^＊値は、ＣＩＥ１９７６Ｌ^＊ａ^＊ｂ^＊表色系（CIE：Commission Internationale de l'Eclairage）における明度を示す値であり、ａ^＊値およびｂ^＊値は前記Ｌ^＊ａ^＊ｂ^＊表色系における色度を示す値である。また、Ｇ信号の値を２値化して２値化データを生成してもよい。

解像度変換部２３は、２値化処理部２２にて生成された２値化データを低解像度化する。具体的に、解像度変換部２３は、１２００ｄｐｉないし６００ｄｐｉで読み取られ且つ信号変換部２１および２値化処理部２２にて処理された２値化データから、３００ｄｐｉの２値化データと７５ｄｐｉの２値化データとを生成する。そして、解像度変換部２３は、３００ｄｐｉの２値化データを原稿傾き検知部２４に入力し、７５ｄｐｉの２値化データをレイアウト解析部２５に入力する。なお、レイアウト解析に利用される２値化データは、原稿画像の傾き角度の検知に利用される２値化データほど解像度が高くなくてもよいため、レイアウト解析部２５に入力する２値化データの解像度を、原稿傾き検知部２４に入力する２値化データの解像度よりも低くしている。また、解像度変換は、公知のニアレストネイバー法、バイリニア法、バイキュービック法等を用いて行われる。

原稿傾き検知部２４は、画像データに示される原稿画像の傾き角度を検知する。この傾き角度とは、原稿画像の一辺と基準方向とのなす角度である。検知された傾き角度は、原稿像の傾き補正に用いられる。なお、基準方向とは主走査方向または副走査方向に対応する方向である。

傾き角度を検知する方法としては従来から知られている様々な手法を用いることができるが、本実施形態の原稿傾き検知部２４は、特開平７−１９２０８６に記載の方法を利用して傾き角度を検出する。以下、原稿傾き検知部２４の処理について説明する。
（ｃ１）解像度変換部２３から送られてきた２値化データから、黒画素と白画素との境界点を複数個抽出し、各境界点の点列の座標データを求める。この場合、黒画素と白画素の境界点は、例えば各文字の上端における白／黒境界点の座標であり、この座標を求めてメモリ（不図示）に格納する。
（ｃ２）上記（ｃ１）の処理によって得られた多数の境界点の座標からなる点列座標データを参照して、この点列座標から回帰直線を求め、その回帰係数ｂを計算してメモリに格納する（下記式（１））。

なお、Ｓｘ，Ｓｙはそれぞれ変量ｘとｙの残差平方和で、Ｓｘｙはｘの残差とｙの残差の積の和である。すなわち、次の式（２）〜式（４）で表わされる。

回帰係数ｂより傾き角度（θ°）を下記の式（５）によって算出する。

そして、原稿傾き検知部２４は、以上のようにして求めた傾き角度を、図１の原稿補正部１２に伝達するようになっている。

図１の原稿補正部１２は、原稿傾き検知部２４にて求められた傾き角度が閾値以上であれば、傾き補正が必要と判定し、記憶装置２に記憶されている画像データに対して傾き補正を施し、傾き補正後の画像データを記憶装置２に書き込むようになっている。また、原稿補正部１２は、傾き角度が閾値未満であれば、傾き補正が不要と判定し、記憶装置２に記憶されている画像データに対して傾き補正を施さない。

なお、傾き補正の手法としては従来から知られている様々な手法を用いることができるが、例えば、アフィン変換によって画像データをθ°回転させて原稿画像の傾きを補正する手法を用いることができる。

つぎに、図２に示されるレイアウト解析部２５について説明する。レイアウト解析部２５は、解像度変換部２３から入力される２値化データに基づいて、記憶装置２に記憶されている画像データに示される原稿画像のレイアウト解析を行う。なお、本実施形態におけるレイアウト解析とは、（ａ）原稿画像が縦書き文書か横書き文書のいずれの文書を示すものであるかを判定する縦横判定処理、および、（ｂ）原稿画像に示される各行のうち、タイトルの記載されている行をタイトル部として抽出するタイトル特定処理を意味する。

以下では、まず、縦横判定処理の内容について説明する。レイアウト解析部２５は、２値化データにおける副走査方向に延伸する最初のラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素に所定のラベルを割り付ける。
その後、レイアウト解析部２５は、上記の最初のラインに対して主走査方向に隣接する第２のラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素に対し、上記の最初のラインで用いたラベルとは異なるラベルを割り付ける。
レイアウト解析部２５は、第２のラインの黒画素のうち、最初のラインの黒画素と連結している画素を検出し、検出した画素のラベルを最初のラインにて用いたラベルと同じラベルに変更する。その後、レイアウト解析部２５は、上記の処理を主走査方向に並ぶ各ラインについて繰り返し、最初のラインで用いたラベルと同じラベルが付された画素を抽出することにより、文字の抽出を行う。
そして、レイアウト解析部２５は、図３に示すように、抽出した各文字の外接矩形を検出する。なお、各文字および各外接矩形の座標値は、例えば画像データに示される画像の上端かつ左端の位置を原点として算出する。
さらに、レイアウト解析部２５は、隣接する外接矩形間の距離を算出し、得られた外接矩形間の距離に基づいて画像データに示される原稿像が縦書き文書であるか横書き文書であるかを判定する。
例えば、レイアウト解析部２５は、原稿画像の縦方向の外接矩形間の距離の平均値が横方向の外接矩形間の距離の平均値よりも大きく、両平均値の差の絶対値が所定値以上の場合、横書き文書であると判定する。また、レイアウト解析部２５は、原稿画像の縦方向の外接矩形間の距離の平均値が横方向の外接矩形間の距離の平均値よりも小さく、両平均値の差の絶対値が所定値以上の場合、縦書きの文書であると判定する。

つぎに、タイトルの記載されている行を特定するタイトル特定処理について説明する。レイアウト解析部２５は、文書原稿を示す原稿画像の各行の外接矩形を設定し、設定した外接矩形の座標値を求める。つまり、原稿画像が縦書き文書および横書き文書のうちのいずれを示す画像であるかが判明すれば、文書の各行を特定できるため、各行の外接矩形を設定できることになる。
例えば、図４（ａ）に示すように、原稿画像が横書き文書である場合、図４（ｂ）および図４（ｃ）に示すように、文書の各行に対して横方向を長辺とした外接矩形が設定され、各行の外接矩形の座標値が求められる。なお、座標値の単位は、画素数でもよいし、長さ（例えばｍｍ）であってもよい。長さは画素数と画像データの解像度とから求めることが可能である。
さらに、レイアウト解析部２５は、原稿画像の行毎に、一方の側の行間の長さ（外接矩形間の最短距離）と他方の側の行間の長さとの和を求め、この和が最も大きい行をタイトル部として特定する。但し、横書き文書の場合の最下段の行と、縦書き文書の場合の左から１番目の行とは、タイトル部として扱わない。また、横書き文書の場合の最上段の行については、紙面の上辺から最上段の行までの最短距離を一方の側の行間の長さとし、最上段の行と上から２つ目の行との最短距離を他方の側の行間の長さとする。さらに、縦書きの場合の右から１番目の行については、右から１番目の行と紙面の右辺との間の最短距離を一方の側の行間の長さとし、右から１番目の行と右から２番目の行との間の最短距離を他方の側の行間の長さとする。
以下、タイトル特定処理をより具体的に説明する。図４（ｄ）は、図４（ｃ）に示される原稿画像の右上領域を拡大した図である。図４（ｄ）に示されるように、行Ａ〜行Ｅについての行間の長さをａ〜ｆとする。つまり、行Ａについては、一方の行間の長さはａとなり、他方の行間の長さはｂとなり、行Ｂについては、一方の行間の長さはｂであり、他方の行間の長さはｃとなり、行Ｃについては、一方の行間の長さはｃとなり、他方の行間の長さはｄとなる。行Ｄについては、一方の行間の長さはｄとなり、他方の行間の長さはｅとなり、行Ｅについては、一方の行間の長さはｅとなり、他方の行間の長さはｆとなる。なお、行Ａは最上段の行であり、行Ａの一方の行間の長さａとは、紙面の上辺から行Ａまでの最短距離を意味する。
そして、図４（ｃ）および（ｄ）の例において、行Ａ〜行Ｅの各々について、一方の行間の長さと他方の行間の長さとの和を求めると下記のようになる。
行Ａ：ａ＋ｂ＝２０
行Ｂ：ｂ＋ｃ＝１６
行Ｃ：ｃ＋ｄ＝５
行Ｄ：ｄ＋ｅ＝２
行Ｅ：ｅ＋ｆ＝２
また、横書き文書の場合の最下段の行はタイトル部として扱わないため、図４（ｃ）に示される行Ｐはタイトル部として扱わない。そして、説明は省略したが、図４（ｃ）の行Ｅ〜行Ｐの間の各行についての一方の行間の長さと他方の行間の長さとの和は、各々２となる。それゆえ、図４（ｃ）および（ｄ）の例において、各行について、一方の行間の距離と他方の行間の距離との和を比較すると、行Ｐ以外では、行Ａについての値が一番大きくなる。したがって、レイアウト解析部２５は、図４（ｃ）（ｄ）に示される行Ａを文書のタイトル部として抽出する。

以上示した縦横判定処理およびタイトル特定処理を含むレイアウト解析処理が終了すると、レイアウト解析部２５は、レイアウト解析処理の結果であるレイアウト解析結果を文字認識部１３へ伝達する。

つぎに、図１の文字認識部１３について説明する。図５は、図１の文字認識部１３の構成を示すブロック図である。図５に示すように、文字認識部１３は、前処理部３１、第１認識処理部３２、第２認識処理部３３、辞書選択部３４を有している。また、画像処理装置１は辞書メモリ３５を有しており、図５に示すように文字認識部１３は辞書メモリ３５に接続されている。

辞書メモリ３５は、文字認識処理用の辞書データ（認識辞書）を格納する情報記憶装置である。辞書メモリ３５には、字形パターンを示す字形辞書データ、単語を示す単語辞書データ等が格納されている。また、字形辞書データ、単語辞書データの各々には、日本語（第１言語）のものの他に、外国語（第２言語）のものが用意されている。つまり、辞書メモリ３５には、日本語の辞書データの他に、外国語の辞書データも格納されている。
なお、外国語には、英語、ドイツ語、スペイン語、アラビア語等の様々な言語があり、可能な限り多種類の言語の辞書データを辞書メモリ３５に格納してもよいが、記憶容量やコンピュータのリソースとの関係上、必要性の高い言語の辞書データのみを辞書メモリ３５に格納する形態であってもよい。例えば、画像処理装置１を備える複合機のユーザ登録情報に示されるユーザが日本人である場合、もしくは、前記複合機にて使用されている言語が日本語である場合、日本語の辞書データと英語の辞書データとを辞書メモリ３５に格納しておけばよい。また、画像処理装置１を備える複合機が観光案内のような文書を扱うオフィスにて用いられている場合、日本語の辞書データおよび英語の辞書データの他に、中国語の辞書データやハングルの辞書データも辞書メモリ３５に格納されていることが好ましい。
さらに、画像処理装置１にて使用される辞書データの全てが辞書メモリ３５に保存される形態であってもよいし、使用頻度が高い言語の辞書データ若しくはユーザが予め指定しておいた言語の辞書データのみを記憶装置２から読み出して辞書メモリ３５に格納して使用する形態であってもよい。
また、最新版の辞書データを用いれば文字認識の精度を高めることができるため、常に最新版の辞書データを保持するサーバ（不図示）と画像処理装置１とをネットワークを介して接続させておき、例えばユーザが指定した辞書データやプログラムの処理によって指定された辞書データをサーバから読み出して辞書メモリ３５に格納して使用する形態であってもよい。
さらに、コンピュータや医療等の各種専門分野の辞書データを上記のサーバに保存しておき、ユーザに指定された辞書データまたはプログラムの処理によって指定された辞書データをサーバから読み出して辞書メモリ３５に格納して使用する形態であってもよい。また、単一の辞書データのデータ量が極めて多すぎる場合、辞書データ全体のうち、利用者に指定された一部分のみまたはプログラムの処理によって指定された一部分のみをサーバから読み出して辞書メモリ３５に書き込んで使用する形態であってもよい。例えば、医療分野の辞書データの場合、利用者の指示に応じて、眼科に関連する部分のみを読み出して辞書メモリ３５に格納する形態や、心臓や肝臓など内臓に関する部分のみを読み出して辞書メモリ３５に格納する形態が考えられる。

前処理部３１は、（ａ）記憶装置２に保存されている傾き補正後の画像データを読み出す読出処理、（ｂ）上記読出処理にて読み出した画像データを輝度信号に変換する信号変換処理、（ｃ）上記輝度信号を２値化して２値化データを生成する２値化処理、（ｄ）上記２値化データの解像度を３００ｄｐｉにまで低下させる解像度変換処理を行う。そして、前処理部３１は、解像度変換処理後の２値化データを第１認識処理部３２および第２認識処理部３３に入力する。なお、前処理部３１の信号変換処理は図２の信号変換部２１にて実行される処理と同様であり、前処理部３１の２値化処理は図２の２値化処理部２２の処理と同様であり、前処理部３１の解像度変換処理は図２の解像度変換部２３にて実行される処理と同様である。

また、原稿補正部１２による傾き補正が行われない場合、前処理部３１は、傾き補正のなされていない画像データを記憶装置２から読み出し、この画像データに対して、上記の信号変換処理、２値化処理、解像度変換処理を行い、この解像度変換処理にて得られる２値化データを第１認識処理部３２および第２認識処理部３３に入力するようになっている。なお、解像度変換部２３から出力される２値化データを記憶装置２に保存しておき、原稿補正部１２による傾き補正が行われない場合、記憶装置２に保存されている２値化データを第１認識処理部３２および第２認識処理部３３に入力するようになっていてもよい。このようにすれば、前処理部３１による処理を省略できる。

第１認識処理部３２は、レイアウト解析部２５から送られてくるレイアウト解析結果に基づいて、２値化データにおいて原稿画像（文書原稿）のタイトル部を認識し、このタイトル部の文字に対して文字認識処理を行う。

ここで、文字認識処理は下記のようにして行われる。２値化データに示される原稿画像の文字の特徴量を抽出し、字形辞書データに含まれる各文字の特徴量と比較する。そして、文字認識処理にて用いられる全ての字形辞書データの全ての文字のうち、原稿画像の文字の特徴量に最も近い特徴量を有する文字の文字コードを特定する。これにより、原稿画像の文字の文字コードを認識できる。また、レイアウト解析部２５から送られてくるレイアウト解析結果に基づいて縦書き文書および横書き文書のいずれであるかを検知すると、隣接する文字によって構成される文字群を特定できる。そして、文字認識処理にて用いられる全ての単語辞書データの全ての単語と、原稿画像における文字群との比較を行うことにより、原稿画像に記載されている単語を認識できる。

なお、第１認識処理部３２は、日本語（画像処理装置１が用いられるオフィスの母国語）の辞書データだけでなく、外国語の辞書データも使用してタイトル部に対する文字認識処理を行う。そして、第１認識処理部３２は、タイトル部に対する文字認識処理の結果を辞書選択部３４に伝達するようになっている。

辞書選択部３４は、第１認識処理部３２による文字認識の結果が下記の（Ｄ１）〜（Ｄ３）である場合、日本語の辞書データのみを用いる指示を示したコマンドを第２認識処理部３３に送信する。
（Ｄ１）タイトル部が漢字のみからなる。
（Ｄ２）タイトル部が平仮名のみからなる。
（Ｄ３）タイトル部が漢字および平仮名のみからなる。

また、辞書選択部３４は、タイトル部に日本語以外の言語の文字が含まれていると判定した場合、タイトル部における日本語の有無に拘わらず、上記コマンドに日本語の辞書データを用いる指示のみならず当該言語の辞書データを用いる指示を含ませる。つまり、この場合、少なくとも日本語の辞書データと当該言語の辞書データとを用いる指示を示したコマンドが第２認識処理部３３に送信される。例えば、タイトル部にハングル文字が含まれる場合、韓国語の辞書データと日本語の辞書データとを用いる指示を示したコマンドを第２認識処理部３３に送信する。

なお、辞書選択部３４は、複数の言語にて使用される文字（例えば、アルファベット）を認識した場合、下記の（Ａ１）のように処理を行う形態であってもよいし、下記の（Ａ２）のように処理を行う形態であってもよい。
（Ａ１）複数の言語にて使用される文字を認識した場合、当該複数の言語の各々の辞書データの使用指示と日本語の辞書データの使用指示とを示したコマンドを生成する。
（Ａ２）複数の言語にて使用される文字を認識した場合、当該複数の言語の中から優先度の高い言語または使用頻度の高い言語を１つ選択し、当該選択した言語の辞書データの使用指示と日本語の辞書データの使用指示とを示したコマンドを生成する。例えば、アルファベットが使用される言語として英語，ドイツ語，スペイン語等があるが、通常、優先度の高い言語または使用頻度の高い言語は英語であるため、第１認識処理部３２は、アルファベットを認識した場合、英語の辞書データと日本語の辞書データとを用いる指示を示したコマンドを生成する。

また、辞書選択部３４は、タイトル部に片仮名が含まれる場合、日本語以外の文字の有無に拘わらず、前記したコマンドに英語の辞書データを用いる指示を含ませる。例えば、タイトル部が漢字と片仮名とからなる場合、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドが第２認識処理部３３に送信される。これは、片仮名は外来語もしくは外国語の発音をそのまま表記したものであることが多く、タイトル部分に片仮名があるということは、原稿画像に示される文書原稿において外国語の文字が使用されている可能性があり、使用される可能性が最も高いのが英語だからである。但し、タイトル部に片仮名が含まれる場合、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを生成する形態に限定されるものではなく、日本語の辞書データと英語以外の外国語の辞書データとを用いる指示を示したコマンドを生成する形態であっても構わない。

第２認識処理部３３は、前処理部３１から入力される２値化データに基づき、原稿画像（文書原稿）の全体に対して文字認識処理を行う。ここで、第２認識処理部３３にて行われる文字認識処理は第１認識処理部３２にて行われる文字認識処理と同様である。つまり、原稿画像の文字の特徴量と字形辞書データに含まれる各文字の特徴量との比較により、原稿画像の文字の文字コードを特定する。また、レイアウト解析部２５から送られてくるレイアウト解析結果に基づいて縦書き文書および横書き文書のいずれであるかを検知することによって、隣接する文字によって構成される文字群を特定し、当該文字群と単語辞書データとを比較して単語を認識する。

但し、第２認識処理部３３は、辞書メモリ３５に格納されている全ての辞書データを用いて文字認識処理を行うのではなく、辞書選択部３４から送られてきたコマンドに示される辞書データのみを用いて文字認識処理を行うようになっている。つまり、第２認識処理部３３は、日本語の辞書データのみを用いる指示を示したコマンドを受け取った場合、外国語の辞書データを一切用いず、日本語の辞書データのみを用いて、原稿画像に対して文字認識処理を行う。また、第２認識処理部３３は、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを受け取った場合、日本語の辞書データのみならず英語の辞書データを用いて、原稿画像に対して文字認識処理を行う。

そして、第２認識処理部３３は、認識した各文字コードおよび単語を文字認識結果として描画コマンド生成部１４に出力するようになっている。また、第２認識処理部３３は、単語辞書データによって単語の認識を行っている際、その単語自体のみならずその単語の略語が単語辞書データに登録されていれば、その単語の略語をも文字認識結果として描画コマンド生成部１４に出力する。

つぎに、図１の描画コマンド生成部１４およびフォーマット化処理部１５について説明する。

描画コマンド生成部１４は、第２認識処理部３３による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成する。ここで、透明テキストとは、第２認識処理部３３にて認識された文字コードや単語をテキスト情報として見かけ上は見えない形で画像データに重ね合わせる（あるいは埋め込む）ためのデータである。つまり、上記の画像ファイルとは、画像データと透明テキストとを対応付けたデータであり、例えば透明テキストを埋め込んだＰＤＦファイルがあげられる。

また、描画コマンド生成部１４は、第２認識処理部３３にて単語と共に当該単語の略語が認識された場合、当該略語の透明テキストを前記画像データに重ね合わせるための命令を生成する。つまり、上記の画像ファイルにおいては、画像データの文字群と、当該文字群の単語とその単語の略語とを含むテキスト情報とが対応付けられる。

フォーマット化処理部１５は、描画コマンド生成部１４から入力された命令に応じて透明テキストを生成する。さらに、フォーマット化処理部１５は、記憶装置２から読み出した画像データに上記の透明テキストを埋め込み、所定のフォーマットの画像ファイルを生成する。そして、生成した画像ファイルを送受信装置３に出力する。本実施形態では、フォーマット化処理部１５はサーチャブルのＰＤＦファイルを生成するようになっている。

なお、原稿補正部１２にて傾き補正が施された場合、フォーマット化処理部１５は、傾き補正の施された画像データを記憶装置２から読み出し、この画像データに透明テキストを埋め込むようになっている。これに対し、原稿補正部１２にて傾き補正が実行されない場合、フォーマット化処理部１５は、傾き補正の施されていない画像データを記憶装置２から読み出し、この画像データに透明テキストを埋め込むようになっている。

つぎに、画像処理装置１の処理の流れを図６のフローチャートに基づいて説明する。図６は、画像処理装置１の処理の流れを示したフローチャートである。

画像入力装置に文書原稿が読み取られることによって画像データが生成されると、この画像データが記憶装置２に記憶される。そして、原稿検知部１１は、前記画像データに基づいて原稿の傾き角度を検出し（Ｓ１）、さらにレイアウト解析を行う（Ｓ２）。このレイアウト解析によって、原稿画像において文書原稿のタイトル部が抽出されることになる。

Ｓ２の後、原稿補正部１２が、記憶装置２に記憶されている画像データに対して傾き補正を行う（Ｓ３）。Ｓ３の後、第１認識処理部３２は、Ｓ２のレイアウト解析の結果を参照して、原稿画像に示される文書原稿のタイトル部を検知する。そして、第１認識処理部３２は、タイトル部のみに対して文字認識処理を行い、辞書選択部３４は、タイトル部が平仮名および／または漢字のみからなるか否かを判定する（Ｓ４）。

辞書選択部３４は、タイトル部が平仮名および／または漢字のみからなると判定した場合（Ｓ４にてＹＥＳ）、日本語の辞書データのみを用いる指示を示したコマンドを第２認識処理部３３に送信する（Ｓ５）。これに対し、辞書選択部３４は、タイトル部が平仮名および漢字以外の文字を含むと判定した場合（Ｓ４にてＮＯ）、その文字の属する言語（外国語）の辞書データと日本語の辞書データとを用いる指示を示したコマンドを第２認識処理部３３に送信する（Ｓ６）。なお、タイトル部に記述されている平仮名および漢字以外の文字が片仮名である場合、辞書選択部３４は、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを第２認識処理部３３に送信するようになっている。

Ｓ５またはＳ６の後、第２認識処理部３３は、辞書選択部３４から送られてきたコマンドに示される辞書データのみを用いて、文書原稿を示す画像データに文字認識処理を行う（Ｓ７）。そして、第２認識処理部３３は、文書原稿に記述されている全ての文字に対して文字認識処理が行われるまでＳ７を繰り返し（Ｓ７においてＮＯ）、全ての文字に対して文字認識処理が行われると（Ｓ７においてＹＥＳ）、処理を終了する。

以上示したように、本実施の形態の画像処理装置１によれば、文書原稿におけるタイトル部を検出している。ここで、文書原稿におけるタイトル部には、前記文書原稿のエッセンスとなる語句が含まれている事が多い。それゆえ、例えば、前記タイトル部が漢字および／または平仮名のみからなるような場合、前記文書原稿における前記タイトル部以外の箇所は日本語のみからなる傾向にある。したがって、例えば、前記タイトル部が漢字および／または平仮名のみからなるような場合、前記文書原稿を示す画像データ全体に対する文字認識処理において、日本語の辞書のみを選択して使用するようにすれば、文字認識精度を維持しつつ、処理速度を向上させることができる。

そこで、本実施の形態の画像処理装置１においては、第１認識処理部（第１処理部）３２が、前記タイトル部に対して、日本語（母国語，第１言語）の辞書データおよび日本語以外の外国語（第２言語）の辞書データを用いて第１文字認識処理を行い、第２認識処理部（第２処理部）３３が、文書原稿を示す画像データ全体に対して第２文字認識処理を行うようになっている。そして、辞書選択部３４が、第１文字認識処理の処理結果に応じた言語の辞書データを、第２文字認識処理にて第２認識処理部３３に使用させる辞書データとして選択するようになっている。これにより、文字認識処理において、文字認識精度を維持しつつ、処理速度を向上させることができる。

また、本実施形態では、第２認識処理部３３は、文字認識処理にて使用する辞書データにおいて、文字認識処理にて認識した単語に対する略語（例えばデジタルカメラに対するデジカメ）が登録されている場合、前記単語および略語を認識結果として出力するようになっている。そして、フォーマット化処理部（画像ファイル生成部）１５は、第２認識処理部３３の認識結果に基づいて透明テキストを生成し、この透明テキストと画像データとを対応付けたサーチャブルＰＤＦファイルを作成するようになっている。これにより、略語をキーワードとしてサーチした場合に当該略語に対応する正式単語をヒットさせる事の可能なサーチャブルＰＤＦファイルを生成できる。

また、複数の頁からなる文書原稿において、単一の頁から前記タイトル部または前記大文字領域を検出した場合であっても、当該タイトル部には前記文書原稿全体のエッセンスとなる語句が含まれている事が多い。そこで、画像データが複数頁の文書原稿を示した原稿画像のデータである場合、第１認識処理部３２、辞書選択部３４、第２認識処理部３３は以下のように動作することが好ましい。
画像データが複数頁の文書原稿を示した原稿画像のデータである場合、第１認識処理部３２は、複数頁のうちの単一の頁（例えば最初の頁）からタイトル部分を１つだけ検出し、このタイトル部のみに対して文字認識処理を行う。辞書選択部３４は、この文字認識処理の結果に応じて、使用する辞書データを示したコマンドを生成する。そして、第２認識処理部３３は、全ての頁に対して、辞書選択部３４から送られてきたコマンドに示される辞書データのみを用いて文字認識処理を行う。これにより、複数の頁の各々からタイトル部を検出せずに、第２認識処理部３３にて用いる辞書データを適切に選択でき、処理の遅延を抑制できる。

また、本実施形態では、第１認識処理部３２が、文書原像のタイトル部のみに対して文字認識処理を行い、辞書選択部３４が、この文字認識処理の結果に応じて辞書データを選択している。しかし、第１認識処理部３２によって文字認識処理の行われる箇所は文書原稿のタイトル部に限られるものではない。例えば、文書原稿を行（領域）毎に分離した場合において、文字サイズの平均値が最も大きな行（大文字領域）を特定し、この特定した行に対して文字認識処理を行い、この文字認識処理の結果に応じて辞書データを選択するような形態であってもよい。これは、文書原稿において文字サイズが相対的に大きな領域も、タイトル部と同様、前記文書原稿のエッセンスとなる語句が含まれている事が多いからである。以下、文字サイズの平均値が最も大きな行に対する文字認識の結果に基づいて辞書データを選択する形態について説明する。
まず、レイアウト解析部２５は、原稿画像に示される文書原稿の各行を特定できると、行毎に文字サイズの平均値を算出する。なお、文字サイズは文字の外接矩形の座標値から特定できる。そして、レイアウト解析部２５は、文字サイズの平均値の最も大きな行を特定し、特定した行を第１認識処理部３２に伝達する。
第１認識処理部３２は、レイアウト解析部２５によって特定された行（文字サイズの平均値の最も大きな行）に対して文字認識処理を行う。そして、辞書選択部３４は、文字サイズの平均値の最も大きな行が平仮名および／または漢字のみからなる場合、日本語の辞書データのみを用いる指示を示したコマンドを第２認識処理部３３に送信する。また、辞書選択部３４は、文字サイズの平均値の最も大きな行に片仮名が含まれる場合、第２認識処理部３３に対して送信するコマンドに、日本語の辞書データを用いる指示の他、英語の辞書データを用いる指示を含ませる。さらに、辞書選択部３４は、文字サイズの平均値の最も大きな行に日本語以外の言語の文字が含まれる場合、第２認識処理部３３に対して送信するコマンドに、日本語の辞書データを用いる指示の他、当該言語の辞書データを用いる指示を含ませるようになっている。

また、本実施形態のレイアウト解析部２５は、原稿傾き補正が施される前の画像データから得られた２値化データを用いてレイアウト解析を行う形態である。しかし、このような形態に限定されるものではなく、レイアウト解析部２５は、原稿傾き補正が施された後の画像データに基づいてレイアウト解析を行うようになっていてもよい。但し、原稿傾き補正が施された後の画像データに基づいてレイアウト解析を行うためには、レイアウト解析部２５は、解像度変換部２３から２値化データを入力するのではなく、前処理部３１から２値化データを入力し、前処理部３１から入力した２値化データに基づいてレイアウト解析を行う必要がある。このようにすれば、原稿傾き補正後のデータに基づいてレイアウト解析（タイトル特定処理と縦横判定処理（縦書きおよび横書きの判定））を行うことができ、レイアウト解析の精度を高めることができる。なお、原稿傾き補正後のデータに基づいてレイアウト解析を行う形態の場合、図６のＳ２とＳ３との順序が逆になる。

なお、辞書選択部３４は、タイトル部に片仮名が含まれる場合、日本語以外の文字が含まれていなくても、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを生成する形態であるが、当該形態に限定されるものではない。つまり、第１認識処理部３２は、タイトル部が日本語のみからなる場合、片仮名が含まれていても、日本語の辞書データのみを用いる指示を示したコマンドを生成するようになっていても構わない。

また、本実施形態の画像処理装置１は、画像入力装置によって原稿から読み取られた画像データを処理するのみならず、受信した電子メールに添付されている画像データ（文書原稿を示すデータ）をも処理可能になっている。つまり、画像処理装置１は、外部装置から電子メールを受信するメール処理部（不図示）を有し、このメール処理部は受信メールに画像データが添付されていると、当該画像データを記憶装置２に一旦保存するようになっている。そして、画像処理装置１は、当該画像データを読み出して、処理することが可能である。

また、画像処理装置１は、送受信装置３が外部装置から受信した画像データを処理することも可能になっている。つまり、送受信装置３は、通信ネットワークを介して外部装置から受信した画像データを記憶装置２に一旦保存するようになっている。そして、画像処理装置１は、当該画像データを読み出して、処理することが可能である。

〔実施の形態２〕
本発明の他の実施の形態を図面に基づいて以下に説明する。本実施の形態は、図１に示した画像処理装置１を複合機である画像形成装置に適用した例を示すものである。図７は画像形成装置２００における印刷動作の状態を示すブロック図である。図８は画像形成装置２００のイメージ送信状態を示すブロック図である。

本実施形態の画像形成装置２００は、複写機能（複写モード）、プリンタ機能（プリントモード）、ファクシミリ送受信信機能（ファクシミリ送信モード、ファクシミリ受信モード）およびscan to e-mail機能（scan to e-mailモード）等を備えたデジタルカラー複合機である。

複写モードは、原稿の画像データを読み取り、その画像データの画像を用紙に印刷するモードである。プリントモードは、画像形成装置２００に接続されている端末装置から送られてくる画像データの画像を用紙に印刷するモードである。ファクシミリ送信モードは、原稿の画像データを読み取り、その画像データを電話回線によって外部装置に送信するモードである。ファクシミリ受信モードは、外部装置から画像データをファクシミリにて受信し、受信した画像データの画像を用紙に印刷するモードである。scan to e-mailモードは、原稿を読み取って生成した画像データを電子メールに添付して指定されたアドレスへ送信するモードである。

画像形成装置２００は、図７および図８に示すように、画像処理装置２０１、画像入力装置２０２、画像出力装置２０３、送受信装置２０４、記憶装置２０６および制御装置２０７を備えている。

画像入力装置２０２は、ＣＣＤ（Charge Coupled Device）ラインセンサを備え、原稿の読取動作を行う。すなわち、原稿に対して光りを照射し、原稿から反射してきた光をＲ、Ｇ、Ｂ（Ｒ：赤・Ｇ：緑・Ｂ：青）に色分解された電気信号に変換する。画像処理装置２０１は、画像入力装置２０２から入力した画像データに対して画像処理を施す。画像出力装置２０３は、例えば電子写真方式プリンタやインクジェット方式のプリンタであり、画像処理装置２０１から入力した画像データの画像を用紙に印刷する。送受信装置２０４は、通信ネットワークに接続されており、画像データを電子メールに添付して送信する機能を有する。

記憶装置２０６は、図１に示した記憶装置２に対応する。制御装置２０７は、ＣＰＵを含むコンピュータであり、画像形成装置２００が備える各種ハードウエアや各ハードウエア間のデータ転送等を統括的に制御する。また、制御部２０７は、画像処理装置２０１に備えられる各ブロックを制御する機能も有する。

画像処理装置２０１は、Ａ/Ｄ（アナログ/デジタル）変換部２２１、シェーディング補正部２２２、入力処理部２２３、原稿検知部２２４、原稿補正部２２５、色補正部２２６、黒生成／下色除去部２２７、空間フィルタ部２２８、出力階調補正部２２９、中間調生成部２３０、領域分離部２３１、文字認識部２３３、描画コマンド生成部２３４およびフォーマット化処理部２３５を有している。

以下では、まず画像形成装置２００が複写処理を行う際の画像処理装置２０１の処理内容について説明する。

（複写処理を行う場合）
図７に示すように、Ａ／Ｄ変換部２２１は、画像入力装置２０２から入力されたアナログのＲＧＢの画像信号をデジタルのＲＧＢの画像データに変換する。シェーディング補正部２２２は、Ａ／Ｄ変換部２２１から入力された画像データに対して、画像入力装置２０２の照明系、結像系、撮像系で生じる各種の歪みを取り除く処理を施す。入力処理部２２３は、シェーディング補正部２２２から入力されたＲＧＢの画像データのそれぞれに対してγ補正処理などの階調変換処理を施す。入力処理部２２３は、入力処理部２２３にて処理された後の画像データを記憶装置２０６に書き込み、且つ、この画像データを原稿検知部２２４に送る。

原稿検知部２２４は、上記の画像データに基づいて原稿像の傾き検知処理を行う。また、原稿検知部２２４は、上記の画像データを原稿補正部２２５に送るようになっている。

原稿補正部２２５は、原稿検知部２２４での傾き検知の結果に基づいて画像データに対して傾き補正処理を行う。原稿補正部２２５は、傾き補正後の画像データを色補正部２２６および領域分離部２３１に送ると共に記憶装置２０６に保存するようになっている。

なお、原稿検知部２２４において原稿の天地方向の判定が行われ、原稿補正部２２５において、原稿の方向補正（天地方向の補正）が行われるようになっていてもよい。

また、原稿補正部２２５によって傾き補正処理が施された画像データをファイリングデータとして管理するようにしてもよい。この場合、上記画像データは、例えば、ＪＰＥＧ圧縮アルゴリズムに基づいてＪＰＥＧコードに圧縮されて記憶装置２０６に格納される。そして、この画像データに対するコピー出力動作やプリント出力動作が指示された場合には、記憶装置２０６からＪＰＥＧコードが引き出されて不図示のＪＰＥＧ伸張部に引き渡され、復号化処理が施されてＲＧＢデータに変換される。また、上記の画像データに対して送信動作が指示された場合には、記憶装置２０６からＪＰＥＧコードが引き出され、ネットワーク網や通信回線を介して送受信装置２０４から外部装置へ送信される。なお、ファイリングデータの管理やデータの引渡しの動作制御については制御装置２０７が行うものとする。

色補正部２２６は、原稿補正部２２５から入力したＲＧＢの画像データをＣＭＹの画像データに変換し、また当該画像データに対して色再現性を高める処理を施す。黒生成／下色除去部２２７は、色補正部２２６から入力したＣＭＹの画像データから黒（Ｋ）の画像データを生成し、入力したＣＭＹの画像データから黒（Ｋ）の画像データを差し引いて新たなＣＭＹの画像データを生成する。

空間フィルタ部２２８は、黒生成／下色除去部２２７から入力したＣＭＹＫまたはＣＭＹの画像データに対して、領域分離データを基にデジタルフィルタによる空間フィルタ処理（強調処理、平滑化処理等）を行う。

出力階調補正部２２９は、空間フィルタ部２２８から入力した画像データに対して、用紙等の記録媒体に出力するためのγ補正処理を行う。

中間調生成部２３０は、出力階調補正部２２９から入力した画像データに対し、誤差拡散法やディザ法を用いて、画像出力装置２０３において画像を印刷するために必要な階調再現処理（中間調生成処理）を行う。

領域分離部２３１は、原稿補正部２２５から入力したＲＧＢの画像データについて、各画素が例えば黒文字領域、色文字領域あるいは網点領域のうちの何れの領域に属するかを判別し、その判別結果を示す領域分離データを生成する。生成した領域分離データは、黒生成／下色除去部２２７、空間フィルタ部２２８および中間調生成部２３０に出力される。黒生成／下色除去部２２７、空間フィルタ部２２８および中間調生成部２３０は、領域分離処理の結果に応じて、画像処理内容の変更を行う。

文字認識部２３３、描画コマンド生成部２３４、フォーマット化処理部２３５は、複写処理においては動作を行わない。上述した各処理が施された画像データは、一旦、図示しないメモリに記憶されたのち、所定のタイミングで読み出されて画像出力装置２０３に入力される。そして、画像出力装置２０３は、入力した画像データに基づいて、用紙に画像を印刷するようになっている。

次に、画像形成装置２００がイメージ送信処理（外部への画像ファイルの送信）を行う際の画像処理装置２０１の処理内容について図８を用いて説明する。

（イメージ送信処理を行う場合）
イメージ送信処理時におけるＡ/Ｄ変換部２２１、シェーディング補正部２２２、入力処理部２２３、原稿補正部２２５、領域分離部２３１の処理は、複写処理時と同様である。なお、領域分離部２３１は、図８に示すように、領域分離データを空間フィルタ部２２８および出力階調補正部２２９に送信するようになっている。

原稿検知部２２４は、送信処理時においては、図１の原稿検知部１１と同様の処理を行う。つまり、原稿検知部２２４は、入力処理部２２３から画像データを受け取り、この画像データに基づいて、原稿の傾き角度の検出処理と、レイアウト解析処理とを行う。なお、原稿検知部２２４は、図８に示すように、レイアウト解析結果を文字認識部２３３に伝達するようになっている。

色補正部２２６は、原稿補正部２２５から入力されたＲＧＢの画像データを、一般に普及している表示装置の表示特性に適合したＲ’Ｇ’Ｂ’の画像データ（例えば、ｓＲＧＢデータ）に変換し、黒生成／下色除去部２２７に出力する。黒生成／下色除去部２２７は、色補正部２２６から入力された画像データをそのまま空間フィルタ部２２８に出力（スルー）する。

空間フィルタ部２２８は、黒生成／下色除去部２２７より入力されるＲ’Ｇ’Ｂ’の画像データに対して、領域分離データを基にデジタルフィルタによる空間フィルタ処理（強調処理および／または平滑化処理）を行い、処理後の画像データを出力階調補正部２２９に出力する。出力階調補正部２２９は、画像データの文字領域に対して、文字をくっきりさせるガンマ曲線を用いた階調補正を行い、画像データの文字以外の領域に対して、ディスプレィの表示特性に応じたガンマ曲線を用いた階調補正を行う。なお、図１１（ａ）は、ディスプレィの表示特性に応じたガンマ曲線の一例である。また、図１１（ｂ）は、文字をくっきりさせるガンマ曲線の一例を示したものである（図１１（ｂ）の破線は図１１（ａ）のガンマ曲線である）。

中間調生成部２３０は、出力階調補正部２２９から入力されたＲ’Ｇ’Ｂ’の画像データに対して処理を施さず、そのままフォーマット化処理部２３５に出力する（スルーする）。

文字認識部２３３は、図１に示した文字認識部１３と同様の処理と行うものである。つまり、文字認識部２３３は、傾き補正後の画像データを記憶装置２０６から読み出し、この画像データおよびレイアウト解析結果に基づき、画像データの原稿像に示される各文字に対して文字認識処理を行う。そして、図８のように、文字認識部２３３は、文字認識結果を描画コマンド生成部２３４に伝達するようになっている。

描画コマンド生成部２３４は、図１に示した描画コマンド生成部１４と同様の処理と行う。つまり、描画コマンド生成部２３４は、認識処理部３３による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成し、この命令をフォーマット化処理部２３５に伝達する。

フォーマット化処理部２３５は、図１に示したフォーマット化処理部１５と同様の処理と行う。つまり、フォーマット化処理部２３５は、中間調生成部２３０から入力した画像データに、描画コマンド生成部２３４から入力された命令に応じて透明テキストを埋め込み、所定のフォーマットの画像ファイルを生成する。そして、生成した画像ファイルを送受信装置２０４に出力する。

送受信装置２０４は、フォーマット化処理部２３５から入力された画像ファイルを電子メールに添付し、ネットワークを介して通信可能に接続された外部装置に上記電子メールを送信する。

なお、図９に示すように、入力処理部２２３の後段且つ原稿検知部２２４の前段に、Ｒ，Ｇ，Ｂの画像データに基づいて原稿の種類を判別する原稿自動判別部２９０が設けられていてもよい。この原稿自動判別部２９０は、文字原稿、文字印刷写真原稿、文字印画紙写真原稿、印刷写真原稿、印画紙写真原稿を判別できるものである。そして、原稿自動判別部２９０の判別結果を文字認識部２３３に入力し、文字原稿、文字印刷写真原稿、文字印画紙写真原稿の場合のみ、文字認識部２３３を動作するようにしてもよい。つまり、フォーマット化処理部２３５は、文字原稿、文字印刷写真原稿、文字印画紙写真原稿の場合、文字認識部２３３による認識結果に基づいて透明テキストが埋め込まれた画像ファイルを作成し、印刷写真原稿または印画紙写真原稿の場合、透明テキストの無い画像ファイルを作成することになる。

〔実施の形態３〕
本発明のさらに他の実施の形態を図面に基づいて以下に説明する。本実施の形態は、図１に示した画像処理装置１を画像読取装置（スキャナ専用機）に適用した例を示すものである。図１０は画像読取装置３００の構成を示すブロック図である。

画像読取装置３００は画像入力装置２０２と画像処理装置３０１と記憶装置２０６と制御装置２０７とを備えている。画像処理装置３０１は、Ａ／Ｄ変換部２２１、シェーディング補正部２２２、入力処理部２２３、原稿検知部２２４、原稿補正部２２５、色補正部２２６、文字認識部２３３、描画コマンド生成部２３４およびフォーマット化処理部２３５を備えている。画像処理装置３０１の各処理部の処理内容は、前述の画像形成装置２００におけるイメージ送信処理の場合（図８の場合）と同様である。フォーマット化処理部２３５から出力される画像ファイル（例えばＰＤＦファイル）はコンピュータ、サーバ、ハードディスク、ネットワークなどへ出力される。

また、以上の各実施形態に示した画像処理装置１，２０１，３０１の各部は、ハードウェアロジックによって構成してもよいし、コンピュータであってもよい。この場合、コンピュータに実行させるためのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）を記録したコンピュータ読み取り可能な記録媒体に、画像処理装置の各部にて実行される処理内容を記録するものとすることもできる。この結果、当該プログラムを記録した記録媒体を持ち運び自在に提供することができる。

なお、マイクロコンピュータで処理が行われる場合、図示していないメモリ（例えばＲＯＭのようなもの）をプログラムメディアとしてもよい。また、図示していないが外部記憶装置としてプログラム読み取り装置が設けられ、そこにプログラムメディアである記録媒体を挿入することで、プログラムが読み取り可能になっていてもよい。

いずれの場合においても、格納されているプログラムコードはマイクロプロセッサがアクセスして実行させる構成であってもよいし、あるいは、いずれの場合もプログラムコードを読み出し、読み出されたプログラムコードは、マイクロコンピュータの図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムコードが実行される方式であってもよい。このダウンロード用のプログラムは予め本体装置に格納されているものとする。

ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスクやハードディスク等の磁気ディスクやCD−ROM／MO／MD／DVD等の光ディスクのディスク系、ICカード（メモリカードを含む）／光カード等のカード系、あるいはマスクROM、EPROM（Erasable Programmable Read Only Memory）、EEPROM（Electrically Erasable Programmable Read Only Memory）、フラッシュROM等による半導体メモリを含めた固定的にプログラムコードを担持する媒体であってもよい。

また、本実施の形態においては、インターネットを含む通信ネットワークを接続可能なシステム構成であることから、通信ネットワークからプログラムコードをダウンロードするように流動的にプログラムコードを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムコードをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別の記録媒体からインストールされるものであってもよい。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

デジタルカラー画像形成装置やコンピュータシステムに備えられるプログラム読み取り装置により、上記記録媒体のプログラムが読み取られることで、上述した画像処理装置の各部の処理が実行される。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本発明は、画像データに対して文字認識を行う画像処理装置、画像読取装置、複合機、プログラム、当該プログラムを記録した記録媒体に適用できる。

１画像処理装置
１１原稿検知部
１２原稿補正部
１３文字認識部
１４描画コマンド生成部
１５フォーマット化処理部（テキスト生成部）
２５レイアウト解析部
３１前処理部
３２第１認識処理部（第１処理部）
３３第２認識処理部（第２処理部）
３４辞書選択部
３５辞書メモリ
２００画像形成装置
２０１画像処理装置
２０２画像入力装置

Claims

文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理装置において、
前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出するレイアウト解析部と、
前記レイアウト解析部にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第１言語の辞書データおよび第２言語の辞書データを用いて第１文字認識処理を行う第１処理部と、
前記画像データに対して第２文字認識処理を行う第２処理部と、
第２文字認識処理にて第２処理部に使用させる辞書データとして、第１文字認識処理の処理結果に応じた言語の辞書データを選択する辞書選択部とを含むことを特徴とする画像処理装置。
前記第１言語が日本語であって前記第２言語が日本語以外の言語である場合、
前記辞書選択部は、第１文字認識処理において、平仮名のみ或いは漢字のみ或いは平仮名および漢字のみが認識された場合、第２文字認識処理に用いられる辞書データとして第１言語の辞書データのみを選択することを特徴とする請求項１に記載の画像処理装置。
前記辞書選択部は、第１文字認識処理において片仮名が認識された場合、第２文字認識処理に用いられる辞書データとして第１言語の辞書データと第２言語の辞書データとを選択することを特徴とする請求項２に記載の画像処理装置。
前記画像データが複数の頁からなる文書原稿を示したデータである場合、前記レイアウト解析部は、前記文書原稿に含まれる複数の頁のうちの単一の頁から前記タイトル部または前記大文字領域を抽出することを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
前記第２処理部は、第２文字認識処理にて認識した単語に対する略語が辞書データに登録されている場合、前記単語および略語を認識結果として出力し、
前記第２処理部の認識結果に基づいて、前記画像データに重畳するための透明テキストを生成するテキスト生成部を有することを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
請求項１から５のいずれか１項に記載の画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えることを特徴とする画像読取装置。
請求項１から５のいずれか１項に記載の画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えることを特徴とする複合機。
文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理方法において、
前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出する第１工程と、
前記第１工程にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第１言語の辞書データおよび第２言語の辞書データを用いて第１文字認識処理を行う第２工程と、
前記画像データに対して第２文字認識処理を行う第３工程とを含み、
第２文字認識処理にて使用する辞書データとして、第１文字認識処理の処理結果に応じた言語の辞書データを選択することを特徴とする画像処理方法。
コンピュータを請求項１から５の何れかに１項に記載の画像処理装置の前記各部として機能させるためのプログラム。
請求項９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。