JP2010146185A

JP2010146185A - 画像処理装置、画像読取装置、画像送信装置、画像処理方法、プログラムおよびその記録媒体

Info

Publication number: JP2010146185A
Application number: JP2008321210A
Authority: JP
Inventors: 章人 ▲吉▼田; Akito Yoshida
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-12-17
Filing date: 2008-12-17
Publication date: 2010-07-01
Also published as: US20100149569A1; CN101753764B; CN101753764A; US8363963B2

Abstract

【課題】原稿から読み取って取得した画像データとこの画像データに対する文字認識処理によって得られたテキストデータとを対応付けた画像ファイルを作成する画像処理装置において、上記テキストデータに基づくキーワード検索を行う場合に、検索漏れが生じることを抑制する。
【解決手段】原稿から読み取って取得した画像データに基づいて上記原稿に含まれる文字の文字認識処理を行う文字認識部４１と、文字認識処理によって得られたテキストデータと上記画像データとを対応付けた画像ファイルを作成するフォーマット化処理部４３とを備え、文字認識部４１は、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、フォーマット化処理部４３は、文字認識部４１が作成した各テキストデータをそれぞれ画像データに対応付けて画像ファイルを作成する。
【選択図】図１

Description

本発明は、原稿から読み取って取得した画像データとこの画像データに対する文字認識処理によって得られたテキストデータとを対応付けた画像ファイルを作成する画像処理装置、画像読取装置、画像送信装置、画像処理方法、プログラムおよびその記録媒体に関するものである。

従来から、紙媒体の原稿に記載されている情報をスキャナで読み取って画像データを取得し、当該画像データに対して文字認識処理を施して当該画像データに含まれる文字に関するテキストデータを作成し、上記画像データと上記テキストデータとを対応付けた画像ファイルを作成する技術がある。

例えば、特許文献１には、紙媒体に記載されている情報をスキャナで読み取ってＰＤＦ画像データを取得し、当該ＰＤＦ画像データに対して文字認識処理を施してテキストデータを作成し、当該ＰＤＦ画像データの余白領域および余白領域の色を検出し、上記テキストデータを上記ＰＤＦ画像データの余白領域に余白領域と同一色で埋め込む技術が開示されている。この技術によれば、画像品位を低下させることなく、テキストデータを用いた検索処理等を行うことができる。すなわち、テキストデータは余白領域に余白領域と同一色で埋め込まれているので、ユーザに視認されることがなく、画像品位が低下しない。また、余白領域に埋め込まれたテキストデータに基づいてキーワード検索を行うなどして原稿に記載された情報を抽出することができる。
特開２００４−２８０５１４号公報（平成１６年１０月７日公開）特開平７−１９２０８６号公報（平成７年７月２８日公開）

しかしながら、上記特許文献１の技術では、１つの文字に対して１つの文字認識結果のみを対応付けたテキストデータを用いている。このため、例えば、画像データにおける文字方向が縦書きか横書きか不明である場合や、１つの文字に対して複数の文字認識結果の候補が存在する場合などに上記テキストデータを用いて検索処理を行うと、検索漏れが生じる場合がある。

本発明は、上記の問題に鑑みてなされたものであり、その目的は、原稿から読み取って取得した画像データとこの画像データに対する文字認識処理によって得られたテキストデータとを対応付けた画像ファイルを作成する画像処理装置において、上記テキストデータに基づくキーワード検索を行う場合に、検索漏れが生じることを抑制することにある。

本発明の画像処理装置は、上記の課題を解決するために、原稿から読み取って取得した画像データに基づいて上記原稿に含まれる文字の文字認識処理を行う文字認識部と、文字認識処理によって得られたテキストデータと上記画像データとを対応付けた画像ファイルを作成する画像ファイル生成部とを備えた画像処理装置であって、上記文字認識部は、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成することを特徴としている。

また、本発明の画像処理方法は、上記の課題を解決するために、原稿から読み取って取得した画像データに基づいて上記原稿に含まれる文字の文字認識処理を行う文字認識工程と、文字認識処理によって得られたテキストデータと上記画像データとを対応付けた画像ファイルを作成する画像ファイル生成工程とを含む画像処理方法であって、上記文字認識工程においては、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、上記画像ファイル生成工程においては、上記文字認識工程で作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成することを特徴としている。

上記の画像処理装置および画像処理方法によれば、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成する。これにより、作成された画像ファイルを用いてキーワード検索を行う場合に、複数の文字認識結果の候補が存在する場合であっても、これら各候補を検索対象に含めることができる。したがって、検索漏れが生じることを抑制できる。

また、上記文字認識部は、１つの文字に対する文字認識結果の候補として複数の文字が検出された場合に、これら複数の文字に対応するテキストデータをそれぞれ作成し、上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成する構成としてもよい。

上記の構成によれば、１つの文字に対する文字認識結果の候補として複数の文字が検出された場合に、これら複数の文字に対応する各テキストデータをそれぞれ上記画像データに対応付けて上記画像ファイルを作成する。これにより、作成された画像ファイルを用いてキーワード検索を行う場合に、複数の文字認識結果の候補が存在する文字について、これら各候補を含めて検索することができる。したがって、検索漏れが生じることを抑制できる。

また、上記画像データに基づいて、上記原稿に記載された単語または文章が縦書きであるか横書きかであるかを解析するレイアウト解析部を備え、上記文字認識部は、上記レイアウト解析部によって上記原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合に、縦書きに応じた文字認識処理と横書きに応じた文字認識処理の両方を行い、これら両方の文字認識処理の結果に応じたテキストデータをそれぞれ作成し、上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成する構成としてもよい。

上記の構成によれば、原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合に、縦書きに応じた文字認識処理と横書きに応じた文字認識処理の両方の結果に応じたテキストデータをそれぞれ画像データに対応付けて画像ファイルを作成する。これにより、原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合であっても、作成された画像ファイルを用いてキーワード検索を行う場合に検索漏れが生じることを抑制できる。

また、上記文字認識部は、上記画像データに含まれる各文字に対する文字認識結果と上記レイアウト解析部の解析結果とに基づいて上記原稿に含まれる単語の認識処理を行うようになっており、上記レイアウト解析部によって上記原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合に、縦書きに応じた単語の認識処理で検出された単語と横書きに応じた単語の認識処理で検出された単語の両方に対応するテキストデータをそれぞれ作成し、上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成する構成としてもよい。

上記の構成によれば、原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合に、縦書きに応じた文字認識処理で検出された単語と横書きに応じた文字認識処理で検出された単語の両方に対応する各テキストデータをそれぞれ画像データに対応付けて画像ファイルを作成する。これにより、原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合であっても、作成された画像ファイルを用いてキーワード検索を行う場合に検索漏れが生じることを抑制できる。

また、上記画像ファイル生成部は、上記画像ファイルにおいて上記テキストデータと上記画像データにおける当該テキストデータに対応する文字の上記原稿上の位置とを対応付ける構成としてもよい。例えば、上記画像ファイル生成部は、上記テキストデータを、上記画像データにおける当該テキストデータに対応する文字の上記原稿上の位置に応じた位置に透明テキストとして配置する構成としてもよい。

上記の構成によれば、作成された画像ファイルを用いたキーワード検索で検出された文字に対応する文字画像を特定することができる。

本発明の画像読取装置は、原稿を読み取って原稿画像の画像データを取得する画像読取部と、上記したいずれかの画像処理装置とを備えている。また、本発明の画像送信装置は、上記したいずれかの画像処理装置と、上記画像ファイル生成部によって生成された画像ファイルを通信可能に接続された他の装置に送信する通信部とを備えている。また、本発明の画像形成装置は、上記したいずれかの画像処理装置と、画像データに応じた画像を記録材上に形成する画像形成部とを備えている。

上記の各構成によれば、作成された画像ファイルを用いてキーワード検索を行う場合に、複数の文字認識結果の候補が存在する文字について、これら各候補を含めて検索することができる。したがって、検索漏れが生じることを抑制できる。

なお、上記画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させる画像処理プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。

以上のように、本発明の画像処理装置および画像処理方法は、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成する。

それゆえ、作成された画像ファイルを用いてキーワード検索を行う場合に、複数の文字認識結果の候補が存在する場合であっても、これら各候補を検索対象に含めることができる。したがって、検索漏れが生じることを抑制できる。

本発明の一実施形態について説明する。なお、本実施形態では、主に、本発明をデジタルカラー複合機に適用する場合の一例について説明する。

（１）デジタルカラー複合機の全体構成
図２および図３は、本実施形態にかかるデジタルカラー複合機１の概略構成を示すブロック図である。なお、デジタルカラー複合機１は、（１）画像入力装置２で読み取った画像データに応じた画像を画像出力装置４によって記録材上に形成する画像形成モード、および（２）画像入力装置２で読み取った画像データに傾き補正等の処理を施した画像データと、この画像データに対して文字認識処理を施して取得したテキストデータとを含む画像ファイルを通信装置５によって外部装置に送信する画像送信モードを備えている。そして、図２は画像形成モードにおけるデータの流れを示しており、図３は画像送信モードにおけるデータの流れを示している。

図２および図３に示すように、デジタルカラー複合機１は、画像入力装置２、画像処理装置３、画像出力装置４、通信装置５、および操作パネル６を備えている。

画像入力装置２は、原稿の画像を読み取って画像データを生成するものであり、例えばＣＣＤ（Charge Coupled Device ）などの光学情報を電気信号に変換するデバイスを備えたスキャナ部（図示せず）より構成されている。本実施形態では、画像入力装置２は、原稿からの反射光像を、ＲＧＢ（Ｒ：赤・Ｇ：緑・Ｂ：青）のアナログ信号として画像処理装置３に出力する。

図４は、画像入力装置２の一例を示す断面図である。この図に示す画像入力装置２は、上部筐体６０と下部筐体６１とを備えている。上部筐体（原稿カバー）６０は、原稿押さえマット５７、整合ローラ対５５、原稿搬送路５６、イメージセンサ部５３、上側原稿搬送ガイド５８等を備えており、下部筐体６１は、第１コンタクトガラス（原稿台）５１、第２コンタクトガラス５２、読取部７０、遮光部材５９等を備えている。また、上部筐体６０は下部筐体６１に対して開閉可能に構成されている。

なお、画像入力装置２は、（１）第１コンタクトガラス５１上に載置された原稿の下面側を読取部７０によって読み取る静止読取モード、（２）第２コンタクトガラス５２上を走行（移動）する原稿の下面側を読取部７０によって読み取る走行読取モード、および（３）第２コンタクトガラス５２上を走行（移動）する原稿の下面側を読取部７０によって読み取るとともに、上面側をイメージセンサ部５３で読み取る両面読取モードを備えている。

整合ローラ対５５は、走行読取モードおよび両面読取モードにおいて、搬送されてきた原稿の先端が搬送方向に垂直になるように原稿の角度を整合させるためのものである。搬送された原稿の先端が回転停止状態の整合ローラ対５５のニップ部に付き当たることによってこの原稿に所定の撓みを形成され、その後、整合ローラ対５５を回転させることによって上記原稿の向きが整合されて整合ローラ対５５の下流側に搬送される。

イメージセンサ部５３は、両面モードが選択されたときに、第２コンタクトガラス５２上を搬送される原稿の上面側の画像を読み取るためのものである。

原稿押さえマット５７は、静止読取モードが選択されたときに、第１コンタクトガラス５１上に載置された原稿を第１コンタクトガラス５１側に押さえつけて原稿の位置を安定させるためのものである。

読取部７０は、第１走査ユニット６３、第２走査ユニット６４、結像レンズ６５、およびＣＣＤ（Charge Coupled Device）６６を備えている。

第１走査ユニット６３は、原稿の読み取り面を露光する光源（露光ランプ）６２と、原稿からの反射光を第２走査ユニット６４に向けて反射する第１反射ミラー６７とを備えている。

なお、第１走査ユニット６３は、静止読取モード時には、第１コンタクトガラス５１に対して平行に図のＰの位置から右に向かって原稿サイズに応じた距離だけ一定速度Ｖで移動しながら、第１コンタクトガラス５１上に載置された原稿を光源６２から出射した光で露光し、原稿からの反射光を第１反射ミラー６７で反射させて第２走査ユニット６４に導く。上記の原稿サイズは、図示しない原稿サイズ検出手段（例えば、フォトトランジスタなどの光電変換素子からなる原稿サイズ検出手段）によって第１コンタクトガラス５１上に載置された原稿サイズを検知した結果であってもよく、ユーザが操作パネルを介して入力したものであってもよい。なお、本実施形態では、第１コンタクトガラス５１は、Ａ３サイズまでの原稿を読み取り可能な大きさに形成されている。

また、第１走査ユニット６３は、走行読取モード時および両面読取モード時には、第２コンタクトガラス５２に対向する所定の位置において、第２コンタクトガラス５２上を搬送される原稿を光源６２から出射した光で露光し、原稿からの反射光を第１反射ミラー６７で反射させて第２走査ユニット６４に導く。

第２走査ユニット６４は、第２反射ミラー６８と第３反射ミラー６９とを備えており、これら両ミラーによって第１反射ミラー６７から入射した光を結像レンズ６５およびＣＣＤ６６に導くように構成されている。なお、第２走査ユニット６４は、静止読取モードでは第１走査ユニット６３に追随してＶ／２の速度で移動するようになっている。

遮光部材５９は、読取部５４の光源６２の光が、イメージセンサ部５３に入射することによってイメージセンサ部５３が画像を適切な濃度で読み取れなくなることを防止するためのものである。

結像レンズ６５は、第３反射ミラー６９から入射した原稿からの反射光を、ＣＣＤ６６上に結像させるためのものである。

ＣＣＤ６６は、結像レンズ６５を介して入射した光をアナログの電気信号に変換するためのものである。なお、この電気信号は、後述する画像処理装置３によってデジタルの画像データに変換される。なお、両面読取モードの場合、読取部７０によって読み取られた原稿の下面側の画像データが画像処理装置３に入力されて処理され、その後、イメージセンサ部５３によって読み取られた原稿の上面側の画像データが画像処理装置３に入力されて処理される。画像処理装置３において原稿の下面側の画像データが処理されている間、イメージセンサ部５３によって読み取られた原稿の上面側の画像データは図示しないメモリに一旦格納されており、原稿の上面側の画像データに対する処理が終了した時にこのメモリから読み出されて画像処理装置３に送られ、処理が施される。

画像処理装置３は、図２および図４に示すように、Ａ／Ｄ変換部１１、シェーディング補正部１２、入力処理部１３、原稿検知部１４、原稿補正部１５、色補正部１６、黒生成下色除去部１７、空間フィルタ処理部１８、出力階調補正部１９、中間調生成部（中間調生成部）２０、領域分離部２１、画像ファイル生成部２２、記憶部２３、および制御部２４を備えている。記憶部２３は画像処理装置３で扱われる各種データ（画像データ等）を記憶する記憶手段である。記憶部２３の構成は特に限定されるものではないが、例えばハードディスクなどを用いることができる。また、制御部２４は、画像処理装置３に備えられる各部の動作を制御する制御手段である。この制御部２４は、デジタルカラー複合機１の主制御部（図示せず）に備えられるものであってもよく、主制御部とは別に備えられ、主制御部と協働して処理を行うものであってもよい。

画像処理装置３は、画像形成モードでは、画像入力装置２から入力された画像データに種々の画像処理を施して得られるＣＭＹＫの画像データを画像出力装置４に出力する。また、画像送信モードでは、画像入力装置２から入力された画像データに傾き補正処理、画像領域抽出処理、変倍処理、回転処理等の画像処理を施すと共に、画像データに対して文字認識処理を施してテキストデータを取得し、画像データとテキストデータとを含む画像ファイルを生成して通信装置５に出力するなお、画像処理装置３の詳細については後述する。

画像出力装置４は、画像処理装置３から入力された画像データを記録材（例えば紙等）上に出力するものである。画像出力装置４の構成は特に限定されるものではなく、例えば、電子写真方式やインクジェット方式を用いた画像出力装置を用いることができる。

通信装置５は、例えばモデムやネットワークカードより構成される。通信装置５は、ネットワークカード、ＬＡＮケーブル等を介して、ネットワークに接続された他の装置（例えば、パーソナルコンピュータ、サーバ装置、表示装置、他のデジタル複合機、ファクシミリ装置等）とデータ通信を行う。通信装置５は、画像データを送信する場合、相手先との送信手続きを行って送信可能な状態が確保されると、所定の形式で圧縮された画像データをメモリから読み出し、圧縮形式の変更など必要な処理を施して、通信回線を介して相手先に順次送信する。また、通信装置５は、画像データを受信する場合、通信手続きを行うとともに、相手先から送信されてくる画像データを受信して画像処理装置３に入力する。受信した画像データは、画像処理装置３で伸張処理、回転処理、解像度変換処理、出力階調補正、階調再現処理などの所定の処理が施され、画像出力装置４によって出力される。なお、受信した画像データを記憶装置（図示せず）に保存し、画像処理装置３が必要に応じて読み出して上記所定の処理を施すようにしてもよい。

操作パネル６は、例えば、液晶ディスプレイなどの表示部と設定ボタンなどより構成され（いずれも図示せず）、デジタルカラー複合機１の主制御部（図示せず）の指示に応じた情報を上記表示部に表示するとともに、上記設定ボタンを介してユーザから入力される情報を上記主制御部に伝達する。ユーザは、操作パネル６を介して入力画像データに対する処理モード、印刷枚数、用紙サイズ、送信先アドレスなどの各種情報を入力することができる。

上記主制御部は、例えばＣＰＵ（Central Processing Unit）等からなり、図示しないＲＯＭ等に格納されたプログラムや各種データ、操作パネル６から入力される情報等に基づいて、デジタルカラー複合機１の各部の動作を制御する。

次に、画像処理装置３に備えられる各部における上記各モードでの処理について説明する。

（２）画像処理装置３の構成および動作
（２−１）画像形成モード
次に、画像処理装置３の構成、および画像形成モードにおける画像処理装置３の動作についてより詳細に説明する。画像形成モードの場合、図２に示すように、まず、Ａ／Ｄ変換部１１が、画像入力装置２から入力されたＲＧＢのアナログ信号をデジタル信号に変換してシェーディング補正部１２に出力する。

シェーディング補正部１２は、Ａ／Ｄ変換部１１から送られてきたデジタルのＲＧＢ信号に対して、画像入力装置２の照明系、結像系、撮像系で生じる各種の歪みを取り除く処理を施し、入力処理部１３に出力する。

入力処理部（入力階調補正部）１３は、シェーディング補正部１２にて各種の歪みが取り除かれたＲＧＢ信号に対して、カラーバランスを整えると同時に、濃度信号など画像処理装置３に採用されている画像処理システムの扱い易い信号に変換する処理を施すものである。また、下地濃度の除去やコントラストなどの画質調整処理を行う。また、入力処理部１３は、上記の各処理を施した画像データを記憶部２３に記憶させる。

原稿検知部１４は、画像データに基づいて原稿画像の傾き角度、天地方向、画像データ中の画像が存在する領域である画像領域などを検出する。また、原稿補正部１５は、原稿検知部１４の検知結果に基づいて画像データに傾き補正処理、天地補正処理、画像抽出処理などを行う。

図５は、原稿検知部１４の概略構成を示すブロック図である。この図に示すように、原稿検知部１４は、信号変換部３１、２値化処理部３２、解像度変換部３３、原稿傾き検知部３４、およびレイアウト解析部３５を備えている。

信号変換部３１は、入力処理部１３によって上記各処理を施された画像データがカラー画像であった場合にこの画像データを無彩化して、明度信号もしくは輝度信号に変換するものである。

例えば、信号変換部３１は、Ｙｉ＝０．３０Ｒｉ＋０．５９Ｇｉ＋０．１１Ｂｉを演算することによりＲＧＢ信号を輝度信号Ｙに変換する。ここで、Ｙは各画素の輝度信号であり、Ｒ，Ｇ，Ｂは各画素のＲＧＢ信号における各色成分であり、添え字のｉは画素毎に付与された値（ｉは１以上の整数）である。

あるいは、ＲＧＢ信号をＣＩＥ１９７６Ｌ^*ａ^*ｂ^*信号（ＣＩＥ:Commission International de l'Eclairage、Ｌ^*：明度、a^*,ｂ^*:色度）に変換してもよい。

２値化処理部３２は、無彩化された画像データ（輝度値（輝度信号）または明度値（明度信号））と、予め設定された閾値とを比較することにより画像データを２値化する。例えば、画像データが８ビットである場合、上記閾値を１２８とする。あるいは、複数の画素（例えば５画素×５画素）からなるブロックにおける濃度（画素値）の平均値を閾値としてもよい。

解像度変換部３３は、２値化された画像データの解像度を低解像度に変換する。例えば、１２００ｄｐｉ、７５０ｄｐｉ、あるいは６００ｄｐｉで読み込まれた画像データを３００ｄｐｉに変換する。解像度変換の方法は特に限定されるものではなく、例えば、公知のニアレストネイバー法、バイリニア法、バイキュービック法などを用いることができる。また、解像度変換部３３は、低解像度化した画像データ（本実施形態では３００ｄｐｉの画像データ）を原稿傾き検知部３４に出力する。なお、解像度変換部３３は、画像送信モードの場合には、第１解像度（本実施形態では３００ｄｐｉ）に低解像度化した画像データを原稿傾き検知部３４とレイアウト解析部３５とに出力するとともに、第１解像度よりも解像度が低い第２解像度（本実施形態では７５ｄｐｉ）に低解像度化した画像データをレイアウト解析部３５に出力するようになっている。

原稿傾き検知部３４は、解像度変換部３３によって低解像度に変換された画像データに基づいて、画像読取時のスキャン範囲（正規の原稿位置）に対する原稿の傾き角度を検知し、検知結果を原稿補正部１５に出力する。つまり、図６に示すように、画像入力装置２におけるスキャン範囲（正規の原稿位置）に対して、画像読取時における原稿の位置が傾いていた場合に、この傾き角度を検知する。

傾き角度の検知方法は特に限定されるものではなく、従来から公知の種々の方法を用いることができる。例えば、特許文献２に記載されている方法を用いてもよい。この方法では、２値化された画像データからを黒画素と白画素との境界点（例えば各文字の上端における白／黒の境界点の座標）を複数個抽出し、各境界点の点列の座標データを求める。そして、この点列の座標データに基づいて回帰直線を求め、その回帰係数ｂを下記式（１）に基づいて算出する。

ｂ＝Ｓｘｙ／Ｓｘ・・・（１）
なお、Ｓｘ，Ｓｙはそれぞれ変量ｘ，ｙの残差平方和であり、Ｓｘｙはｘの残差とｙの残差の積の和である。すなわち、Ｓｘ，Ｓｙ，Ｓｘｙは下記式（２）〜（４）で表わされる。

そして、上記のように算出した回帰係数ｂより、下記式（５）に基づいて傾き角度θを算出する。

ｔａｎθ＝ｂ・・・（５）
レイアウト解析部３５は画像形成モードでは動作しない。レイアウト解析部３５の動作については後述する。

原稿補正部１５は、原稿傾き検知部３４の傾き角度検知結果に基づいて、画像データに対して傾き補正処理を施す。また、原稿補正部１５は、傾き補正処理を施した画像データを色補正部１６および領域分離部２１に出力する。

なお、原稿補正部１５によって傾き補正処理が施された画像データをファイリングデータとして管理するようにしてもよい。この場合、上記画像データは、例えば、ＪＰＥＧ圧縮アルゴリズムに基づいてＪＰＥＧコードに圧縮されて記憶部２３に格納される。そして、この画像データに対するコピー出力動作やプリント出力動作が指示された場合には、記憶部２３からＪＰＥＧコードが引き出されて不図示のＪＰＥＧ伸張部に引き渡され、復号化処理が施されてＲＧＢデータに変換される。また、上記の画像データに対して送信動作が指示された場合には、記憶部２３からＪＰＥＧコードが引き出され、ネットワーク網や通信回線を介して通信装置５から外部装置へ送信される。

色補正部１６は、色再現の忠実化実現のために、不要吸収成分を含むＣＭＹ（Ｃ：シアン・Ｍ：マゼンタ・Ｙ：イエロー）色材の分光特性に基づいた色濁りを取り除く処理を行うものである。

黒生成下色除去部１７は、色補正後のＣＭＹの３色信号から黒（Ｋ）信号を生成する黒生成、元のＣＭＹ信号から黒生成で得たＫ信号を差し引いて新たなＣＭＹ信号を生成する処理を行うものである。これにより、ＣＭＹの３色信号はＣＭＹＫの４色信号に変換される。

空間フィルタ処理部１８は、黒生成下色除去部１７より入力されるＣＭＹＫ信号の画像データに対して、領域識別信号を基にデジタルフィルタによる空間フィルタ処理（強調処理および／または平滑化処理）を行い、空間周波数特性を補正する。これにより、出力画像のぼやけや粒状性劣化を軽減することができる。

中間調生成部２０は、空間フィルタ処理部１８と同様、ＣＭＹＫ信号の画像データに対して領域識別信号を基に所定の処理を施すものである。例えば、領域分離部２１にて文字に分離された領域は、特に黒文字あるいは色文字の再現性を高めるために、空間フィルタ処理部１８による空間フィルタ処理における鮮鋭強調処理で高周波数の強調量が大きくされる。同時に、中間調生成部２０においては、高域周波数の再現に適した高解像度のスクリーンでの二値化または多値化処理が選択される。また、領域分離部２１にて網点領域に分離された領域に関しては、空間フィルタ処理部１８において、入力網点成分を除去するためのローパス・フィルタ処理が施される。そして、出力階調補正部１９では、濃度信号などの信号を画像出力装置４の特性値である網点面積率に変換する出力階調補正処理を行った後、中間調生成部２０で、最終的に画像を画素に分離してそれぞれの階調を再現できるように処理する階調再現処理（中間調生成）が施される。領域分離部２１にて写真に分離された領域に関しては、階調再現性を重視したスクリーンでの二値化または多値化処理が行われる。

領域分離部２１は、ＲＧＢ信号より、入力画像中の各画素を黒文字領域、色文字領域、網点領域、印画紙写真（連続階調領域）領域の何れかに分離するものである。領域分離部２１は、分離結果に基づき、画素がどの領域に属しているかを示す領域分離信号を、黒生成下色除去部１７、空間フィルタ処理部１８、および中間調生成部２０へと出力する。

画像ファイル生成部２２は、画像ファイル生成部２２は画像形成モードでは動作を行わない。画像ファイル生成部２２の詳細については後述する。

上述した各処理が施された画像データは、一旦、図示しないメモリに記憶されたのち、所定のタイミングで読み出されて画像出力装置４に入力される。

（２−２）画像送信モード
次に、画像送信モードにおける画像処理装置３の動作について、図３を参照しながらより詳細に説明する。なお、通常送信モードにおけるＡ/Ｄ変換部１１、シェーディング補正部１２、入力処理部１３、原稿補正部１５、および領域分離部２１の処理は、画像形成モード時と同様である。

原稿検知部１４における信号変換部３１、２値化処理部３２、解像度変換部３３、および原稿傾き検知部３４の動作は画像形成モードの場合と略同様である。

原稿検知部１４に備えられるレイアウト解析部３５は、画像送信モードの場合、図７に示すように、解像度変換部３３から入力される第２解像度の画像データに含まれる文字を抽出し、各文字の外接矩形を求め、隣接する外接矩形間の距離を算出する。そして、この隣接する外接矩形間の距離に基づいて画像データの文字が縦書きであるか横書きであるかを判定する。また、レイアウト解析部３５は、判定結果を示す信号と、第１解像度の画像データとを画像ファイル生成部２２に備えられる文字認識部４１に出力する。なお、縦書きであるか横書きであるかを明確に判定することが困難な場合、レイアウト解析部３５は、その旨を判定結果として出力する。

レイアウト解析部３５は、具体的には、画像データにおける副走査方向に延伸する最初のラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素に所定のラベルを割り付ける。

その後、ラベル付けを行った上記のラインに対して主走査方向に隣接するラインについて、当該ラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素にラベル付け済みの上記ラインで用いたラベルとは異なるラベルを割り付ける。そして、黒画素であると判断した各画素について、当該画素に対して隣接するラベル付け済みの上記ラインの画素が黒文字であるかを判断し、黒文字であると判断した場合には、黒画素が連結していると判断し、当該画素のラベルを隣接するラベル付け済みの上記ラインの画素と同じラベル（１つ上のラインのラベルと同じラベル）に変更する。

その後、上記の処理を主走査方向に並ぶ各ラインについて繰り返し、同じラベルが付された画素を抽出することにより、文字の抽出を行う。

そして、抽出した各文字の外接矩形を算出する。なお、各文字および各外接矩形の座標は、例えば画像データの上端かつ左端の位置を原点として算出する。
画像ファイル生成部
なお、レイアウト解析部３５が、原稿内の領域毎にレイアウト認識処理を行うようにしてもよい。例えば、レイアウト解析部３５が、外接矩形間の距離が略均等である文字群からなる領域を抽出し、抽出した領域毎にレイアウト認識処理を行って縦書きであるか横書きであるかを判断するようにしてもよい。

色補正部１６は、原稿補正部１５から入力されたＲＧＢの画像データを、一般に普及している表示装置の表示特性に適合したＲ’Ｇ’Ｂ’の画像データ（例えば、ｓＲＧＢデータ）に変換し、黒生成下色除去部１７に出力する。黒生成下色除去部１７は、通常送信モードでは色補正部１６から入力された画像データをそのまま空間フィルタ処理部１８に出力（スルー）する。

空間フィルタ処理部１８は、黒生成下色除去部１７より入力されるＲ’Ｇ’Ｂ’の画像データに対して、領域識別信号を基にデジタルフィルタによる空間フィルタ処理（強調処理および／または平滑化処理）を行い、出力階調補正部１９に出力する。出力階調補正部１９は、通常送信モードでは空間フィルタ処理部１８から入力された画像データをそのまま中間調生成部２０に出力（スルー）する。

中間調生成部２０は、出力階調補正部１９から入力されたＲ’Ｇ’Ｂ’の画像データに対して領域識別信号を基に所定の処理を施し、画像ファイル生成部２２に出力する。例えば、中間調生成部２０は、文字領域に対しては図８に実線で示したガンマ曲線を用いた補正を行い、文字領域以外の領域に対しては図８に破線で示したガンマ曲線を用いた補正を行う。なお、文字領域以外の領域に対するガンマ曲線としては、例えば送信先の外部装置に備えられる表示装置の表示特性に応じた曲線を設定しておき、文字領域のガンマ曲線は文字をくっきり表示できるように設定しておくことが好ましい。

中間調生成部２０から出力されたＲ’Ｇ’Ｂ’の画像データは、画像ファイル生成部２２のフォーマット化処理部４３に入力される。

画像ファイル生成部２２は、文字認識部４１、描画コマンド生成部４２、およびフォーマット化処理部４３を備えている。

文字認識部４１は、原稿検知部１４から入力された第２解像度の画像データに基づいて画像データに含まれる文字の特徴量を抽出し、抽出結果を辞書データに含まれる文字の特徴量と比較して文字認識を行い、類似する文字に対応する文字コードを検出する。また、レイアウト解析部３５の判定結果（縦書きであるか横書きであるか）に基づいて、隣接する文字によって構成される単語の認識処理を行う。つまり、隣接する文字の組み合わせと、辞書データに含まれる単語データとのマッチングを行うことによって原稿に記載されている単語の認識処理を行う。そして、各文字および各単語の認識結果を文字認識結果として描画コマンド生成部４２に出力する。

なお、本実施形態では、文字認識部４１が、画像データに含まれる文字から抽出した特徴量と辞書データに含まれる文字の特徴量とを比較して両者の類似度を判定する。そして、辞書データに含まれる文字の中に画像データに含まれる文字に対する類似度が所定値以上である文字が複数存在する場合、これら複数の文字の文字コードを文字認識結果として描画コマンド生成部４２に出力する。

例えば、類似度の取り得る値が０から１までの範囲であり、上記所定値が０．８に設定されている場合であって、辞書データに含まれる文字の中に、画像データに含まれる文字に対する類似度が（０．７２６）、（０．８９１）、（０．９３１）、（０．７７６）、（０．７２２）の文字が含まれている場合、類似度（０．８９１）および（０．９３１）に対応する各文字が文字認識結果として検出される。

なお、辞書データに含まれる文字の中に、画像データに含まれる文字に最も類似している文字の類似度（最高最大値）に対する類似度の差が規定値未満である文字が存在する場合に、それら各文字の文字コードを文字認識結果として描画コマンド生成部４２に出力するようにしてもよい。

例えば、類似度の取り得る値が０から１までの範囲であり、上記規定値が０．２に設定されている場合であって、辞書データに含まれる文字の中に、画像データに含まれる文字に対する類似度が（０．７２６）、（０．８９１）、（０．９３１）、（０．７７６）、（０．７２２）の文字が含まれている場合、最高類似度である（０．９３１）に対応する文字、および最高類似度に対する差が０．２未満である（０．８９１）に対応する文字が文字認識結果として検出される。

これにより、例えば、図９に示すように、原稿に「開口部」という文字列が含まれていた場合、「口」という文字に対して漢字の「口」という文字と、カタカナの「ロ」という文字の２通りの文字認識結果が検出される。また、図９に示すように、原稿に「シャープ」という文字が含まれていた場合、「ー」という文字に対して長音符号の「ー」と、漢数字の「一」の２通りの文字認識結果が検出される。

また、文字認識部４１は、レイアウト解析部３５の判定結果（縦書きであるか横書きであるか）に基づいて、隣接する文字によって構成される単語の認識処理を行う。

例えば、レイアウト解析部３５の判定結果が横書きであることを示しており、図９に示すように、原稿に「開口部」という文字列が含まれていた場合、「開口部（かいこうぶ）」と「開ロ部（かいロぶ）」の２通りの単語が検出される。同様に、レイアウト解析部３５の判定結果が横書きであることを示しており、図９に示すように、原稿に「シャ−プ」という文字列が含まれていた場合、「しゃーぷ」と「しゃいちぷ」の２通りの単語が検出される。

一方、レイアウト解析部３５の判定結果が縦書きであるか横書きであるかの明確な判定が困難であることを示している場合、文字認識部４１は、縦書きの場合と横書きの場合の２通りについて単語の検出を行う。例えば、図９に示すように、原稿に、
画面
像に
という文字が含まれている場合、文字認識部４１は、「がめん」「ぞうに」という単語（横書きとみなした場合に検出される単語）と、「がぞう」「めんに」という単語（縦書きとみなした場合に検出される単語）の２通りの単語を検出する。

なお、類似度の算出方法は特に限定されるものではなく、従来から公知の種々の方法を用いることができる。

描画コマンド生成部４２は、文字認識部４１による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成する。ここで、透明テキストとは、認識された文字および単語をテキスト情報として見掛け上は見えない形で画像データに重ね合わせる（あるいは埋め込む）ためのデータである。例えば、ＰＤＦファイルでは、画像データに透明テキストを付加した画像ファイルが一般に使用されている。

フォーマット化処理部４３は、中間調生成部２０から入力された画像データに、描画コマンド生成部４２から入力された命令に応じて透明テキストを埋め込み、所定のフォーマットの画像ファイルを生成する。そして、生成した画像ファイルを通信装置５に出力する。なお、本実施形態では、フォーマット化処理部４３がＰＤＦ形式の画像ファイルを生成する。ただし、画像ファイルのフォーマットはこれに限るものではなく、画像データに透明テキストを埋め込むことができるフォーマットであればよい。

図１０は、フォーマット化処理部４３によって生成されるＰＤＦ形式の画像ファイルの構成を示す説明図である。この図に示すように、上記画像ファイルは、ヘッダ部、ボディ部、相互参照表、およびトレーラ部によって構成されている。

ヘッダ部には、このファイルがＰＤＦファイルであることを示す文字列とバージョン番号とが含まれる。ボディ部には、表示する情報やページ情報などが含まれる。相互参照表には、ボディ部の中身にアクセスするためのアドレス情報が記述されている。トレーラ部には、はじめにどこから読み込むかを示す情報などが記述されている。

ボディ部は、各ページからなるオブジェクトに対する参照情報などが記述される文書カタログ記述部、ページ毎の表示範囲等の情報が記述されるページ記述部、画像データが記述される画像データ記述部、および対応するページを描画する際に適用する条件が記述される画像描画記述部からなる。なお、ページ記述部、画像データ記述部、および画像描画記述部は各ページに対応して設けられる。

図１１は、図９に示した原稿から検出された文字認識結果を透明テキストとして画像データに埋め込む場合の画像データ記述部に対する記述の例を示している。この図に示すように、１つの文字に対して複数の文字認識結果が検出された場合には、当該文字に対応する座標と対応付けて上記複数の文字認識結果（文字コード）が記述される。また、縦書きであるか横書きであるかが不明である場合には、縦書きとみなして検出された単語、および横書きとみなして検出された単語の両方が、対応する文字列の座標と対応付けて記述される。

通信装置５は、フォーマット化処理部４３から入力された画像ファイルを、ネットワークを介して通信可能に接続された外部装置に送信する。例えば、通信装置５は、上記の画像ファイルを図示しないメール処理部（ジョブ装置）によって電子メールに添付して送信する。

（２−３）画像処理装置３における処理の概要
図１は、画像処理装置３における概略的な処理の流れを示すフロー図である。この図に示すように、まず、制御部２４は、操作パネル６を介して入力されるユーザからの処理モードの選択指示を受け付ける（Ｓ１）。また、画像入力装置２から、原稿を読み取って得られた画像データを取得する（Ｓ２）。

その後、制御部２４は、原稿検知部１４に傾き角度の検出処理を行わせ（Ｓ３）、この検出結果に基づいて原稿補正部１５に傾き補正処理を行わせる（Ｓ４）。

その後、制御部２４は、Ｓ１で選択指示された処理モードが画像形成モードであるか否かを判断する（Ｓ５）。そして、画像形成モードが選択されたと判断した場合、傾き補正処理を施した画像データに対して所定の処理を施し、画像出力装置４に出力させて（Ｓ６）処理を終了する。

一方、Ｓ５において画像形成モードではないと判断した場合、制御部２４は、Ｓ１で選択指示された処理モードが画像送信モードであると判断し、原稿検知部１４のレイアウト解析部３５にレイアウト解析（原稿画像における文字方向が縦書きであるか横書きであるかを解析する処理）を行わせる（Ｓ７）。そして、制御部２４は、レイアウト（縦書きであるか横書きであるか）を特定可能であるか否かを判断する（Ｓ８）。

Ｓ８においてレイアウトを特定可能であると判断した場合、制御部２４は、文字認識部４１にレイアウト解析部３５の解析結果に応じた文字方向に基づいて文字認識処理を行わせる（Ｓ９）。一方、Ｓ８においてレイアウトを特定不可能であると判断した場合、制御部２４は、文字認識部４１に縦方向および横方向の両方について文字認識処理を行わせる（Ｓ１０）。

その後、制御部２４は、原稿に含まれる各文字について、複数の文字認識結果が検出されたか否かを判断する（Ｓ１１）。そして、文字認識結果が１つのみである場合にはその認識結果を採用し（Ｓ１２）、文字認識結果が複数存在する場合にはこれら複数の文字認識結果を採用する（Ｓ１３）。

その後、制御部２４は、描画コマンド生成部４２に文字認識結果に基づく透明テキストを画像データに埋め込むための透明テキストの配置コマンドを生成させ（Ｓ１４）、フォーマット化処理部４３に透明テキストを埋め込んだ画像データについての所定形式の画像ファイルを生成（フォーマット化）させる（Ｓ１５）。そして、制御部２４は、フォーマット化した画像ファイルを、通信装置５を介して外部装置に送信させ（Ｓ１６）、処理を終了する。

以上のように、本実施形態にかかるデジタルカラー複合機１は、原稿から読み取った画像データに基づいて文字認識処理を行い、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、作成した各テキストデータを透明テキストとして画像データに埋め込む。

これにより、画像データに埋め込まれた透明テキストに基づいてキーワード検索を行う場合に、キーワードの検索漏れが生じることを抑制できる。

図１２（ａ）〜図１２（ｆ）は、図９に示した原稿から読み取った画像データに基づいて生成された画像ファイルに対してキーワードの検索処理を行った場合の検索結果の例を示す説明図である。

本実施形態では、横書きとみなした場合に検出される単語と、縦書きとみなした場合に検出される単語の両方が透明テキストとして画像データに埋め込むので、図１２（ａ）および図１２（ｂ）に示すように、キーワードを「画面」とした場合と「画像」とした場合の両方において対応する文字列が抽出される。

また、本実施形態では、１つの文字に対して複数の文字認識結果が検出された場合に、これら複数の文字認識結果を透明テキストとして画像データに埋め込むので、図１２（ｃ）および図１２（ｄ）に示すように、「開口部」という文字列に対して、キーワードを「開口部（かいこうぶ）」とした場合にも「開ロ部（かいロぶ）」とした場合にもこの「開口部」という文字列が抽出される。同様に、図１２（ｅ）および図１２（ｆ）に示すように、「シャ−プ」という文字列に対して、キーワードを「しゃーぷ」とした場合にも「しゃいちぷ」とした場合にもこの「シャープ」という文字列が抽出される。

なお、本実施形態では、原稿検知部１４が２値化および低解像度化した画像データを画像ファイル生成部２２へ出力するものとしているが、これに限るものではなく、例えば、図３に破線で示したように、原稿補正部１５が上記の２値化および低解像度化された画像データに対して傾き補正処理を施した画像データを画像ファイル生成部２２に出力し、画像ファイル生成部２２の文字認識部４１が傾き補正後の上記画像データを用いて文字認識処理を行うようにしてもよい。これにより、傾き補正前の画像データに基づいて文字認識を行う場合よりも文字認識の精度を向上させることができる。

また、本実施形態では、原稿検知部１４によって白黒２値（輝度信号）に変換され、かつ低解像度（例えば３００ｄｐｉ）に変換された画像データに基づいて文字認識を行っている。これにより、文字サイズが比較的大きい場合であっても文字認識処理を適切に行える。ただし、文字認識処理に用いる画像の解像度は上記した例に限るものではない。

また、本実施形態では、フォーマット化処理部４３がＰＤＦ形式の画像ファイルを生成する場合の実施例について説明したが、これに限るものではなく、画像データとテキストデータとを対応付けることが可能な形式の画像ファイルであればよい。例えば、プレゼンテーションソフトなどのフォーマットでテキストデータを配置した上に画像データを重畳させて配置し、テキストデータを不可視状態にし、画像データのみを可視状態にした画像ファイルを作成するようにしてもよい。

また、本実施形態では、透明テキストを埋め込んだ画像データを、通信装置５を介して外部装置に送信する場合について説明したが、これに限るものではない。例えば、透明テキストを埋め込んだ画像データを、デジタルカラー複合機１に備えられる記憶部あるいはデジタルカラー複合機１に脱着可能に装着される記憶部に記憶させるようにしてもよい。

また、本実施形態では、文字認識部４１が原稿検知部１４または原稿補正部１５から入力される２値化および低解像度化を施された画像データに基づいて文字認識処理を施すものとしているが、これに限るものではない。例えば、図１３に示すように、領域分離部２１から出力される領域分離信号を文字認識部４１に入力させ、文字認識部４１がこの領域分離信号に基づいて、文字領域（文字エッジと判定された画素からなる画像領域）を示すテキストマップを生成し、文字領域に対してのみ文字認識処理を行うようにしてもよい。

あるいは、図１４に示すように、画像データに基づいて原稿の種別を判別する原稿種別自動判別部２５を設け、この原稿種別自動判別部２５から出力される原稿種別判別信号を文字認識部４１に入力させ、原稿種別判別信号が文字を含む原稿（例えば文字原稿、文字印刷写真原稿、文字印画紙写真原稿など）であることを示す場合にのみ文字認識部４１が基づいて文字認識処理を行うようにしてもよい。原稿種別自動判別部２５における原稿種別の判別方法は、少なくとも文字を含む原稿と文字を含まない原稿とを判別できる方法であれば特に限定されるものではなく、従来から公知の種々の方法を用いることができる。

また、本実施形態では、本発明をデジタルカラー複合機に適用する場合について説明したが、これに限らず、モノクロの複合機に適用してもよい。また、複合機に限らず、例えば単体の画像読取装置に適用してもよい。

図１５は、本発明を画像読取装置に適用する場合の構成例を示すブロック図である。この図に示す画像読取装置１００は、画像入力装置２、画像処理装置３ｂ、通信装置５、および操作パネル６を備えている。画像入力装置２、通信装置５、および操作パネル６の構成および機能は上述したデジタルカラー複合機１の場合と略同様なので、ここではその説明を省略する。

画像処理装置３ｂは、Ａ／Ｄ変換部１１、シェーディング補正部１２、入力処理部１３、原稿検知部１４、原稿補正部１５、色補正部１６、画像ファイル生成部２２、記憶部２３、および制御部２４を備えている。また、画像ファイル生成部２２は、文字認識部４１、描画コマンド生成部４２、およびフォーマット化処理部４３を備えている。

なお、画像形成モードを備えていない点、および、色補正部１６が色補正処理後の画像データをフォーマット化処理部４３に出力し、フォーマット化処理部４３が色補正部１６から入力された画像データに基づいて外部装置に送信する画像ファイルを生成する点以外は、画像処理装置３ｂに備えられる各部の機能は上述したデジタルカラー複合機１の場合と略同様である。画像処理装置３ｂにおいて上述した各処理が施されて生成された画像ファイルは、通信装置５により、ネットワークを介して通信可能に接続されたコンピュータやサーバなどに送信される。

また、上記各実施形態において、デジタルカラー複合機１、画像読取装置１００に備えられる各部（各ブロック）を、ＣＰＵ等のプロセッサを用いてソフトウェアによって実現してもよい。この場合、デジタルカラー複合機１、画像読取装置１００は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアであるデジタルカラー複合機１、画像読取装置１００の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、デジタルカラー複合機１、画像読取装置１００に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによって達成される。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、デジタルカラー複合機１、画像読取装置１００を通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

また、デジタルカラー複合機１、画像読取装置１００の各ブロックは、ソフトウェアを用いて実現されるものに限らず、ハードウェアロジックによって構成されるものであってもよく、処理の一部を行うハードウェアと当該ハードウェアの制御や残余の処理を行うソフトウェアを実行する演算手段とを組み合わせたものであってもよい。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本発明は、原稿から読み取って取得した画像データとこの画像データに対する文字認識処理によって得られたテキストデータとを対応付けた画像ファイルを作成する画像処理装置、画像読取装置、および画像送信装置に適用できる。

本発明の一実施形態にかかる画像処理装置における処理の流れを示すフロー図である。本発明の一実施形態にかかる画像処理装置の概略構成、および画像形成モードにおけるデータの流れを示すブロック図である。図２に示した画像処理装置における画像送信モードでのデータの流れを示すブロック図である。図２に示した画像処理装置に備えられる画像入力装置の構成例を示す断面図である。図２に示した画像処理装置に備えられる原稿検知部の概略構成を示すブロック図である。図４に示した画像入力装置におけるスキャン範囲とスキャン時の原稿位置との関係の一例を示す説明図である。図５に示した原稿検知部におけるレイアウト解析処理を説明するための説明図である。図２に示した画像処理装置において中間調補正処理に用いるガンマ曲線の一例を示すグラフである。図４に示した画像入力装置によって読み取られる原稿の一例を示す説明図である。図２に示した画像処理装置において画像送信モードのときに送信される画像ファイルの構成を示す説明図である。図２に示した画像処理装置において、画像データに透明テキストを埋め込むためのコマンドの例を示す説明図である。（ａ）〜（ｆ）は、図２に示した画像処理装置において生成された画像ファイルに対するキーワード検索結果の例を示す説明図である。図２に示した画像処理装置の変形例を示すブロック図である。図２に示した画像処理装置の変形例を示すブロック図である。図２に示した画像処理装置の変形例を示すブロック図である。

符号の説明

１デジタルカラー複合機（画像処理装置、画像読取装置、画像送信装置）
２画像入力装置
３、３ｂ画像処理装置
４画像出力装置
５通信装置
６操作パネル
１４原稿検知部
１５原稿補正部
２１領域分離部
２２画像ファイル生成部
２３記憶部
２４制御部
３１信号変換部
３２２値化処理部
３３解像度変換部
３４原稿傾き検知部
３５レイアウト解析部
４１文字認識部
４２描画コマンド生成部
４３フォーマット化処理部
１００画像読取装置（画像処理装置、画像読取装置）

Claims

原稿から読み取って取得した画像データに基づいて上記原稿に含まれる文字の文字認識処理を行う文字認識部と、文字認識処理によって得られたテキストデータと上記画像データとを対応付けた画像ファイルを作成する画像ファイル生成部とを備えた画像処理装置であって、
上記文字認識部は、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、
上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成することを特徴とする画像処理装置。
上記文字認識部は、１つの文字に対する文字認識結果の候補として複数の文字が検出された場合に、これら複数の文字に対応するテキストデータをそれぞれ作成し、
上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成することを特徴とする請求項１に記載の画像処理装置。
上記画像データに基づいて、上記原稿に記載された単語または文章が縦書きであるか横書きかであるかを解析するレイアウト解析部を備え、
上記文字認識部は、上記レイアウト解析部によって上記原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合に、縦書きに応じた文字認識処理と横書きに応じた文字認識処理の両方を行い、これら両方の文字認識処理の結果に応じたテキストデータをそれぞれ作成し、
上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成することを特徴とする請求項１または２に記載の画像処理装置。
上記文字認識部は、
上記画像データに含まれる各文字に対する文字認識結果と上記レイアウト解析部の解析結果とに基づいて上記原稿に含まれる単語の認識処理を行うようになっており、
上記レイアウト解析部によって上記原稿に記載された単語または文章が縦書きであるか横書きかであるかを特定できない場合に、縦書きに応じた単語の認識処理で検出された単語と横書きに応じた単語の認識処理で検出された単語の両方に対応するテキストデータをそれぞれ作成し、
上記画像ファイル生成部は、上記文字認識部が作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成することを特徴とする請求項３に記載の画像処理装置。
上記画像ファイル生成部は、上記画像ファイルにおいて上記テキストデータと上記画像データにおける当該テキストデータに対応する文字の上記原稿上の位置とを対応付けることを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
上記画像ファイル生成部は、
上記テキストデータを、上記画像データにおける当該テキストデータに対応する文字の上記原稿上の位置に応じた位置に透明テキストとして配置することを特徴とする請求項５に記載の画像処理装置。
原稿を読み取って原稿画像の画像データを取得する画像読取部と、
請求項１から６のいずれか１項に記載の画像処理装置とを備えていることを特徴とする画像読取装置。
請求項１から６のいずれか１項に記載の画像処理装置と、
上記画像ファイル生成部によって生成された画像ファイルを通信可能に接続された他の装置に送信する通信部とを備えていることを特徴とする画像送信装置。
請求項１から６のいずれか１項に記載の画像処理装置と、
画像データに応じた画像を記録材上に形成する画像形成部とを備えていることを特徴とする画像形成装置。
原稿から読み取って取得した画像データに基づいて上記原稿に含まれる文字の文字認識処理を行う文字認識工程と、文字認識処理によって得られたテキストデータと上記画像データとを対応付けた画像ファイルを作成する画像ファイル生成工程とを含む画像処理方法であって、
上記文字認識工程においては、複数通りの文字認識結果の候補が検出された場合に、これら各候補に対応するテキストデータをそれぞれ作成し、
上記画像ファイル生成工程においては、上記文字認識工程で作成した各テキストデータを上記画像データに対応付けて上記画像ファイルを作成することを特徴とする画像処理方法。
請求項１から６のいずれか１項に記載の画像処理装置を動作させるプログラムであって、コンピュータを上記の各部として機能させるためのプログラム。
請求項１１に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。