JP4772888B2

JP4772888B2 - 画像処理装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体

Info

Publication number: JP4772888B2
Application number: JP2009080351A
Authority: JP
Inventors: 哲也柴田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2011-09-14
Anticipated expiration: 2029-03-27
Also published as: US20100245870A1; CN101848303A; CN101848303B; JP2010231648A

Description

本発明は、画像データに対する文字認識処理を行う画像処理装置、画像形成装置、および画像処理方法に関するものである。

従来から、紙媒体の原稿に記載されている情報をスキャナで読み取って画像データを取得し、当該画像データに対して文字認識処理を施して当該画像データに含まれる文字に関するテキストデータを作成し、上記画像データと上記テキストデータとを対応付けた画像ファイルを作成する技術がある。

例えば、特許文献１には、紙媒体に記載されている情報をスキャナで読み取ってＰＤＦ画像データを取得し、当該ＰＤＦ画像データに対して文字認識処理を施してテキストデータを作成し、当該ＰＤＦ画像データの余白領域および余白領域の色を検出し、上記テキストデータを上記ＰＤＦ画像データの余白領域に余白領域と同一色で埋め込む技術が開示されている。この技術によれば、画像品位を低下させることなく、テキストデータを用いた検索処理等を行うことができる。すなわち、テキストデータは余白領域に余白領域と同一色で埋め込まれているので、ユーザに視認されることがなく、画像品位が低下しない。また、余白領域に埋め込まれたテキストデータに基づいてキーワード検索を行うなどして原稿に記載された情報を抽出することができる。

ところが、文字認識処理には誤認識が生じる場合があるが、上記特許文献１の技術では、ユーザが文字認識結果を確認できないので、誤認識が生じた場合であってもそれを訂正することができない。

一方、特許文献２には、原稿から読み取った画像データをそのまま表示させるとともに、この画像データに対して文字認識処理を行い、認識された文字のドットパターンを上記画像データにおける対応する文字の文字イメージに当該文字イメージと同じ大きさかつ異なる色で重ねて表示する技術が開示されている。

特開２００４−２８０５１４号公報（平成１６年１０月７日公開）特開昭６３−２１６１８７号公報（昭和６３年９月８日公開）特開平７−１９２０８６号公報（平成７年７月２８日公開）特開２００２−２３２７０８号公報（平成１４年８月１６日公開）

しかしながら、上記特許文献２の技術では、文字認識された結果を元の文字に完全に重ねて表示するので、認識結果の適否を判定しにくいという問題がある。特に、文字サイズが小さい場合や複雑な文字の場合には認識結果の適否を非常に判定しにくい。

また、認識された文字のドットパターン同士は同じ色で表示されるので、ユーザが認識された文字同士を識別しにくいという問題もある。また、認識結果を採用しない文字を削除する場合に、削除対象の文字を個別に抽出して削除指示する必要があるので、手間がかかるという問題もある。

本発明は、上記の問題に鑑みてなされたものであり、その目的は、ユーザが文字認識結果の適否を容易に確認し、認識結果を容易に編集することができる画像処理装置を提供することにある。

本発明の画像処理装置は、上記の課題を解決するために、原稿画像データに基づいて原稿に含まれる文字の文字認識処理を行う画像処理装置であって、上記文字認識処理によって認識された各文字の文字画像からなる文字画像データを生成する文字画像データ生成部と、上記文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように上記原稿画像データと上記文字画像データとを合成した合成画像データを生成する画像合成部と、上記合成画像データに応じた画像を表示装置に表示させる表示制御部とを備え、上記文字画像データ生成部は、上記文字画像データにおける各文字の色を、文字の種別毎に異ならせることを特徴としている。

また、本発明の画像処理方法は、上記の課題を解決するために、原稿画像データに基づいて原稿に含まれる文字の文字認識処理を行う画像処理方法であって、上記文字認識処理によって認識された各文字の文字画像からなる文字画像データを生成する文字画像生成工程と、上記文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように上記原稿画像データと上記文字画像データとを合成した合成画像データを生成する画像合成工程と、上記合成画像データに応じた画像を表示装置に表示させる表示工程とを含み、上記文字画像生成工程では、上記文字画像データにおける各文字の色を文字の種別毎に異ならせることを特徴としている。

上記の画像処理装置および画像処理方法によれば、文字認識処理によって認識された各文字の文字画像からなる文字画像データを生成し、上記文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように上記原稿画像データと上記文字画像データとを合成した合成画像データを生成し、合成画像データに応じた画像を表示装置に表示させる。また、文字画像データにおける各文字の色を文字の種別毎に異ならせる。

これにより、文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳して表示されるので、ユーザが原稿中の各文字と各文字の文字認識結果とをより対比しやすくなる。また、文字認識結果に応じた文字画像が文字の種別毎に異なる色で表示されるので、ユーザが各文字の文字認識結果を識別しやすい。したがって、文字認識結果の適否を容易に確認し、必要に応じて編集することができる。なお、上記の文字の種別としては、例えば、文字の種類（漢字、ひらがな、カタカナ、アルファベット、数字、記号など）、文字のフォント、文字のサイズ（ポイント数）などが挙げられる。

また、ユーザからの指示入力を受け付ける操作入力部を備え、上記文字画像データ生成部は、上記文字の種別毎の色をユーザからの指示入力に応じて設定する構成としてもよい。

上記の構成によれば、文字認識結果に応じた文字画像の文字の種別毎の色をユーザが設定できるので、ユーザが文字認識結果をより容易に確認することができる。

また、原稿の画像データに基づいて上記原稿上の領域を少なくとも文字領域とそれ以外の領域とに分離する領域分離部を備え、上記文字画像データ生成部は、上記文字画像データにおける各文字の色を、原稿上の領域の種別毎に異ならせる構成としてもよい。

上記の構成によれば、文字認識結果に応じた文字画像の色を原稿上の領域の種別毎に異ならせることにより、ユーザが文字領域に対する文字認識結果とそれ以外の領域に対する文字認識結果とを容易に識別することができる。

また、ユーザからの指示入力を受け付ける操作入力部を備え、上記画像合成部は、上記操作入力部を介して入力されるユーザからの指示入力に応じて、原稿の画像データと文字画像データとを合成する際の上記文字画像データにおける各文字画像の当該各文字画像に対応する原稿中の文字の画像に対する相対位置を変更する構成としてもよい。

上記の構成によれば、ユーザが文字認識処理によって認識された各文字の文字画像を表示させる位置を調整することができる。これにより、原稿中の各文字と各文字の文字認識結果とをより対比しやすくすることができる。

また、ユーザからの指示入力を受け付ける操作入力部と、ユーザからの指示入力に応じて上記認識処理の結果を編集する編集処理部とを備えている構成としてもよい。

上記の構成によれば、文字認識結果の適否を確認した結果に基づいて文字認識処理の結果を修正したり、文字認識結果の一部を削除したりすることができる。

また、原稿の画像データに基づいて上記原稿上の領域を少なくとも文字領域とそれ以外の領域とに分離する領域分離部を備え、上記表示制御部は、上記各領域を識別可能に表示し、上記編集処理部は、ユーザから指示された領域に対する上記認識処理の結果を一括削除する構成としてもよい。

上記の構成によれば、文字認識処理を行う必要のない領域をユーザが指定することにより、当該領域に対する文字認識処理結果を一括削除できるので、文字認識結果の編集時間を短縮することができる。

また、上記認識処理の結果に応じたテキストデータを上記画像データに対応付けた画像ファイルを生成する画像ファイル生成部を備えている構成としてもよい。

上記の構成によれば、作成された画像ファイルに基づいてキーワード検索を行うことができる。

また、上記画像ファイル生成部は、上記テキストデータの各文字を当該各文字に対応する原稿上の文字に重畳する位置に透明テキストとして配置する構成としてもよい。

上記の構成によれば、キーワード検索で検出された文字に対応する原稿中の文字を容易に特定することができる。

本発明の画像形成装置は、原稿を読み取って原稿画像データを取得する画像入力装置と、上記したいずれかの画像処理装置と、原稿画像データに応じた画像を記録材上に形成する画像形成部とを備えていることを特徴としている。

上記の構成によれば、画像入力装置によって読み取った原稿画像データに基づいて原稿に対する文字認識処理を行うとともに、文字認識結果の適否を容易に確認することができる。

なお、上記画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させる画像処理プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。

以上のように、本発明の画像処理装置は、上記文字認識処理によって認識された各文字の文字画像からなる文字画像データを生成する文字画像データ生成部と、上記文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように上記原稿画像データと上記文字画像データとを合成した合成画像データを生成する画像合成部と、上記合成画像データに応じた画像を表示装置に表示させる表示制御部とを備え、上記文字画像データ生成部は、上記文字画像データにおける各文字の色を、文字の種別毎に異ならせる。

また、本発明の画像処理方法は、上記文字認識処理によって認識された各文字の文字画像からなる文字画像データを生成する文字画像生成工程と、上記文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように上記原稿画像データと上記文字画像データとを合成した合成画像データを生成する画像合成工程と、上記合成画像データに応じた画像を表示装置に表示させる表示工程とを含み、上記文字画像生成工程では、上記文字画像データにおける各文字の色を文字の種別毎に異ならせる。

これにより、文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳して表示されるので、ユーザが原稿中の各文字と各文字の文字認識結果とをより対比しやすくなる。また、文字認識結果に応じた文字画像が文字の種別毎に異なる色で表示されるので、ユーザが各文字の文字認識結果を識別しやすい。したがって、文字認識結果の適否を容易に確認し、必要に応じて編集することができる。

本発明の一実施形態にかかる画像処理装置に備えられる文字認識部の構成を示すブロック図である。本発明の一実施形態にかかる画像処理装置の概略構成、および画像形成モードにおけるデータの流れを示すブロック図である。図２に示した画像処理装置において文字認識結果を表示させる場合のデータの流れを示すブロック図である。図２に示した画像処理装置において画像データと文字認識結果とを対応付けた画像ファイルを生成する場合のデータの流れを示すブロック図である。図２に示した画像処理装置に備えられる原稿検知部の概略構成を示すブロック図である。原稿読み取り時のスキャン範囲とスキャン時の原稿位置との関係の一例を示す説明図である。図２に示した画像処理装置の変形例の構成を示すブロック図である。図５に示した原稿検知部におけるレイアウト解析処理を説明するための説明図である。（ａ）〜（ｄ）は、文字認識結果を表示させる場合の表示方法の設定方法を示す説明図である。図２に示した画像処理装置において文字認識結果を表示させる場合の表示方法の一例を示す説明図である。図２に示した画像処理装置において文字認識結果を表示させる場合の表示方法の一例を示す説明図である。図２に示した画像処理装置において文字認識結果の編集を行う場合の編集方法の一例を示す説明図である。図２に示した画像処理装置において文字認識結果の編集を行う場合の編集方法の一例を示す説明図である。原稿読み取り時の原稿載置方法の一例を示す説明図である。原稿読み取り時の読み取り濃度レベルの設定方法の一例を示す説明図である。図２に示した画像処理装置において中間調補正処理に用いるガンマ曲線の一例を示すグラフである。図２に示した画像処理装置において画像送信モードのときに送信される画像ファイルの構成を示す説明図である。図２に示した画像処理装置における処理の流れを示すフロー図である。図２に示した画像処理装置の変形例を示すブロック図である。

本発明の一実施形態について説明する。なお、本実施形態では、主に、本発明をコピア機能・プリンタ機能・ファクシミリ送信機能・scan to e-mail機能等を備えるデジタルカラー複合機に適用する場合の一例について説明する。ただし、本発明の適用対象はこれに限るものではなく、画像データに対する文字認識処理を行う画像処理装置であれば適用できる。

（１）デジタルカラー複合機の全体構成
図２〜図４は、本実施形態にかかるデジタルカラー複合機１の概略構成を示すブロック図である。なお、デジタルカラー複合機１は、（１）画像入力装置２で読み取った画像データに応じた画像を画像出力装置４によって記録材上に形成する画像形成モード、および（２）画像入力装置２で読み取った画像データに傾き補正等の処理を施した画像データを通信装置５によって外部装置に送信する画像送信モードを備えている。

また、画像送信モードの場合、文字認識処理を行うか否かをユーザが選択可能になっており、文字認識処理を行う場合には、画像入力装置２で読み取った画像データに傾き補正等の処理を施した画像データと、この画像データに対して文字認識処理を施して取得したテキストデータとを対応付けた画像ファイルを外部装置に送信するようになっている。また、文字認識処理を行う場合、画像データとテキストデータとを含む画像ファイルを生成する前に、文字認識結果を表示し、ユーザが表示された文字認識結果を確認，修正できるようになっている。

なお、図２は画像形成モードにおけるデータの流れを示しており、図３は文字認識結果を表示させる際のデータの流れを示しており、図４は画像データとテキストデータとを対応付けた画像ファイルを生成して外部装置に送信する際のデータの流れを示している。

図２〜図４に示すように、デジタルカラー複合機１は、画像入力装置２、画像処理装置３、画像出力装置４、通信装置５、操作パネル６、および表示装置７を備えている。

画像入力装置２は、原稿の画像を読み取って画像データ（原稿画像データ）を生成するものであり、例えばＣＣＤ（Charge Coupled Device ）などの光学情報を電気信号に変換するデバイスを備えたスキャナ部（図示せず）より構成されている。本実施形態では、画像入力装置２は、原稿からの反射光像を、ＲＧＢ（Ｒ：赤・Ｇ：緑・Ｂ：青）のアナログ信号として画像処理装置３に出力する。なお、画像入力装置２の構成は特に限定されるものではなく、例えば原稿載置台に載置された原稿を読み取るものであってもよく、原稿搬送手段によって搬送されている原稿を読み取るものであってもよい。

画像処理装置３は、図２〜図４に示すように、Ａ／Ｄ変換部１１、シェーディング補正部１２、入力処理部１３、原稿検知部１４、原稿補正部１５、色補正部１６、黒生成下色除去部１７、空間フィルタ処理部１８、出力階調補正部１９、中間調生成部（中間調生成部）２０、領域分離部２１、画像ファイル生成部２２、記憶部２３、および制御部２４を備えている。記憶部２３は画像処理装置３で扱われる各種データ（画像データ等）を記憶する記憶手段である。記憶部２３の構成は特に限定されるものではないが、例えばハードディスクなどを用いることができる。また、制御部２４は、画像処理装置３に備えられる各部の動作を制御する制御手段である。この制御部２４は、デジタルカラー複合機１の主制御部（図示せず）に備えられるものであってもよく、主制御部とは別に備えられ、主制御部と協働して処理を行うものであってもよい。

画像処理装置３は、画像形成モードでは、画像入力装置２から入力された画像データに種々の画像処理を施して得られるＣＭＹＫの画像データを画像出力装置４に出力する。また、画像送信モードでは、画像入力装置２から入力された画像データに種々の画像処理を施すと共に、画像データに対して文字認識処理を施してテキストデータを取得し、画像データとテキストデータとを対応付けた画像ファイルを生成して通信装置５に出力する。なお、画像処理装置３の詳細については後述する。

画像出力装置４は、画像処理装置３から入力された画像データを記録材（例えば紙等）上に出力するものである。画像出力装置４の構成は特に限定されるものではなく、例えば、電子写真方式やインクジェット方式を用いた画像出力装置を用いることができる。

通信装置５は、例えばモデムやネットワークカードより構成される。通信装置５は、ネットワークカード、ＬＡＮケーブル等を介して、ネットワークに接続された他の装置（例えば、パーソナルコンピュータ、サーバ装置、表示装置、他のデジタル複合機、ファクシミリ装置等）とデータ通信を行う。

操作パネル６は、例えば、液晶ディスプレイなどの表示部と設定ボタンなどより構成され（いずれも図示せず）、デジタルカラー複合機１の主制御部（図示せず）の指示に応じた情報を上記表示部に表示するとともに、上記設定ボタンを介してユーザから入力される情報を上記主制御部に伝達する。ユーザは、操作パネル６を介して入力画像データに対する処理モード、印刷枚数、用紙サイズ、送信先アドレスなどの各種情報を入力することができる。

表示装置７は、画像入力装置２によって原稿から読み取られた画像データに応じた画像と、この画像データに対する文字認識処理の結果とを合成した画像を表示する。なお、表示装置７は、操作パネル６に備えられる表示部と共通であってもよい。また、表示装置７はデジタルカラー複合機１に対して通信可能に接続されるパーソナルコンピュータ等のモニタであってもよく、その場合には表示装置７にデジタルカラー複合機１の各種設定画面（ドライバ）を表示させ、ユーザがこのコンピュータシステムに備えられるマウスやキーボード等の指示入力装置を用いて各種の指示を入力するようにしてもよい。また、画像処理装置３の処理の一部または全部をデジタルカラー複合機１に対して通信可能に接続されるパーソナルコンピュータ等のコンピュータシステムによって実現してもよい。

上記主制御部は、例えばＣＰＵ（Central Processing Unit）等からなり、図示しないＲＯＭ等に格納されたプログラムや各種データ、操作パネル６から入力される情報等に基づいて、デジタルカラー複合機１の各部の動作を制御する。

（２）画像処理装置３の構成および動作
（２−１）画像形成モード
次に、画像処理装置３の構成、および画像形成モードにおける画像処理装置３の動作についてより詳細に説明する。

画像形成モードの場合、図２に示すように、まず、Ａ／Ｄ変換部１１が、画像入力装置２から入力されたＲＧＢのアナログ信号をデジタル信号に変換してシェーディング補正部１２に出力する。

シェーディング補正部１２は、Ａ／Ｄ変換部１１から送られてきたデジタルのＲＧＢ信号に対して、画像入力装置２の照明系、結像系、撮像系で生じる各種の歪みを取り除く処理を施し、入力処理部１３に出力する。

入力処理部（入力階調補正部）１３は、シェーディング補正部１２にて各種の歪みが取り除かれたＲＧＢ信号に対して、カラーバランスを整えると同時に、濃度信号など画像処理装置３に採用されている画像処理システムの扱い易い信号に変換する処理を施す。また、下地濃度の除去やコントラストなどの画質調整処理を行う。また、入力処理部１３は、上記の各処理を施した画像データを記憶部２３に記憶させる。

原稿検知部１４は、入力処理部１３によって上記の処理を施された画像データに基づいて原稿画像の傾き角度、天地方向、画像データ中の画像が存在する領域である画像領域などを検出し、検出結果を原稿補正部１５に出力する。また、原稿補正部１５は、原稿検知部１４の検知結果に基づいて画像データに傾き補正処理および天地補正処理を行い、これらの処理を施した画像データを色補正部１６および領域分離部２１に出力する。なお、原稿補正部１５が原稿検知部１４の傾き角度検知結果に基づいて傾き補正処理を行い、傾き補正後の画像データに基づいて原稿検知部１４が天地判定を行い、天地判定結果に基づいて原稿補正部１５が天地補正処理を行うようにしてもよい。また、原稿補正部１５が、原稿検知部１４によって低解像度化された２値画像データと入力処理部１３によって上述の処理が施された原稿画像データの両方に対して傾き補正処理および天地補正処理を行うようにしてもよい。

また、原稿補正部１５によって傾き補正処理および天地補正処理が施された画像データをファイリングデータとして管理するようにしてもよい。この場合、上記画像データは、例えば、ＪＰＥＧ圧縮アルゴリズムに基づいてＪＰＥＧコードに圧縮されて記憶部２３に格納される。そして、この画像データに対するコピー出力動作やプリント出力動作が指示された場合には、記憶部２３からＪＰＥＧコードが引き出されて不図示のＪＰＥＧ伸張部に引き渡され、復号化処理が施されてＲＧＢデータに変換される。また、上記の画像データに対して送信動作が指示された場合には、記憶部２３からＪＰＥＧコードが引き出され、ネットワーク網や通信回線を介して通信装置５から外部装置へ送信される。

図５は、原稿検知部１４の概略構成を示すブロック図である。この図に示すように、原稿検知部１４は、信号変換部３１、２値化処理部３２、解像度変換部３３、原稿傾き検知部３４、およびレイアウト解析部３５を備えている。

信号変換部３１は、入力処理部１３によって上記各処理を施された画像データがカラー画像であった場合にこの画像データを無彩化して、明度信号もしくは輝度信号に変換するものである。

例えば、信号変換部３１は、Ｙｉ＝０．３０Ｒｉ＋０．５９Ｇｉ＋０．１１Ｂｉを演算することによりＲＧＢ信号を輝度信号Ｙに変換する。ここで、Ｙは各画素の輝度信号であり、Ｒ，Ｇ，Ｂは各画素のＲＧＢ信号における各色成分であり、添え字のｉは画素毎に付与された値（ｉは１以上の整数）である。

あるいは、ＲＧＢ信号をＣＩＥ１９７６Ｌ*ａ*ｂ*信号（ＣＩＥ:Commission International de l'Eclairage、Ｌ*：明度、a*,ｂ*:色度）に変換してもよく、Ｇ信号を用いても良い。

２値化処理部３２は、無彩化された画像データ（輝度値（輝度信号）または明度値（明度信号））と、予め設定された閾値とを比較することにより画像データを２値化する。例えば、画像データが８ビットである場合、上記閾値を１２８とする。あるいは、複数の画素（例えば５画素×５画素）からなるブロックにおける濃度（画素値）の平均値を閾値としてもよい。

解像度変換部３３は、２値化された画像データの解像度を低解像度に変換する。例えば、１２００ｄｐｉ、あるいは６００ｄｐｉで読み込まれた画像データを３００ｄｐｉに変換する。解像度変換の方法は特に限定されるものではなく、例えば、公知のニアレストネイバー法、バイリニア法、バイキュービック法などを用いることができる。

なお、本実施形態では、解像度変換部３３は、２値化された画像データの解像度を第１解像度（本実施形態では３００ｄｐｉ）に変換した画像データと第２解像度（本実施形態では７５ｄｐｉ）に変換した画像データとを生成する。そして、第１解像度の画像データを原稿傾き検知部３４に出力し、第２解像度の画像データをレイアウト解析部３５に出力する。つまり、レイアウト解析部３５ではレイアウトの概要を認識できればよく、必ずしも高精細な画像データは必要でないことから、原稿傾き検知部３４よりも低解像度の画像を用いる。

原稿傾き検知部３４は、解像度変換部３３によって第１解像度に低解像度化された画像データに基づいて、画像読取時のスキャン範囲（正規の原稿位置）に対する原稿の傾き角度を検知し、検知結果を原稿補正部１５に出力する。つまり、図６に示すように、画像入力装置２におけるスキャン範囲（正規の原稿位置）に対して、画像読取時における原稿の位置が傾いていた場合に、この傾き角度を検知する。

傾き角度の検知方法は特に限定されるものではなく、従来から公知の種々の方法を用いることができる。例えば、特許文献３に記載されている方法を用いてもよい。この方法では、２値化された画像データからを黒画素と白画素との境界点（例えば各文字の上端における白／黒の境界点の座標）を複数個抽出し、各境界点の点列の座標データを求める。黒画素と白画素の境界については、例えば、各文字の上端における白／黒境界点の座標を求める。そして、この点列の座標データに基づいて回帰直線を求め、その回帰係数ｂを下記式（１）に基づいて算出する。

ｂ＝Ｓｘｙ／Ｓｘ・・・（１）
なお、Ｓｘ，Ｓｙはそれぞれ変量ｘ，ｙの残差平方和であり、Ｓｘｙはｘの残差とｙの残差の積の和である。すなわち、Ｓｘ，Ｓｙ，Ｓｘｙは下記式（２）〜（４）で表わされる。

そして、上記のように算出した回帰係数ｂより、下記式（５）に基づいて傾き角度θを算出する。

ｔａｎθ＝ｂ・・・（５）
レイアウト解析部３５は、画像送信モードが選択され、かつ文字認識処理を行うことが選択された場合に画像データに含まれる文字の方向が縦書きであるか横書きであるかを解析する。なお、画像出力モードではレイアウト解析部３５は動作を行わない。レイアウト解析部３５の詳細については後述する。

色補正部１６は、記憶部２３から読み出した画像データをＲＧＢ信号の補色であるＣＭＹ（Ｃ：シアン・Ｍ：マゼンタ・Ｙ：イエロー）信号に変換するとともに、色再現性を高める処理を行う。

黒生成下色除去部１７は、色補正後のＣＭＹの３色信号から黒（Ｋ）信号を生成する黒生成、元のＣＭＹ信号から黒生成で得たＫ信号を差し引いて新たなＣＭＹ信号を生成する処理を行うものである。これにより、ＣＭＹの３色信号はＣＭＹＫの４色信号に変換される。

空間フィルタ処理部１８は、黒生成下色除去部１７より入力されるＣＭＹＫ信号の画像データに対して、領域識別信号を基にデジタルフィルタによる空間フィルタ処理（強調処理および／または平滑化処理）を行い、空間周波数特性を補正する。これにより、出力画像のぼやけや粒状性劣化を軽減することができる。

出力階調補正部１９は、用紙等の記録材に出力するための出力γ補正処理を行い、出力γ補正処理後の画像データを中間調生成部２０に出力する。

中間調生成部２０は、最終的に画像を画素に分離してそれぞれの階調を再現できるように処理する階調再現処理（中間調生成）を施す。

領域分離部２１は、ＲＧＢ信号より、入力画像中の各画素を黒文字領域、色文字領域、網点領域、印画紙写真（連続階調領域）領域の何れかに分離するものである。領域分離部２１は、分離結果に基づき、画素がどの領域に属しているかを示す領域分離信号を、黒生成下色除去部１７、空間フィルタ処理部１８、および中間調生成部２０へと出力する。黒生成下色除去部１７、空間フィルタ処理部１８、および中間調生成部２０では、入力された領域分離信号に基づいて、各領域に適した処理が行われる。

領域分離処理の方法は特に限定されるものではないが、例えば特許文献４に開示されている方法を用いることができる。

この方法では、注目画素を含むｎ×ｍのブロック（例えば、１５×１５画素）における最小濃度値と最大濃度値の差分である最大濃度差と、隣接する画素間における濃度差の絶対値の総和である総和濃度繁雑度とを算出し、最大濃度差と予め定められた最大濃度差閾値との比較、および総和濃度繁雑度と総和濃度繁雑度閾値との比較を行う。そして、これらの比較結果に応じて注目画素を文字エッジ領域・網点領域またはその他領域（下地・印画紙写真領域）に分類する。

具体的には、下地領域の濃度分布は、通常、濃度変化が少ないので最大濃度差及び総和濃度繁雑度ともに非常に小さくなる。また、印画紙写真領域（例えば、印画紙写真のような連続階調領域を、ここでは、印画紙写真領域と表現する。）の濃度分布は、滑らかな濃度変化をしており、最大濃度差及び総和濃度繁雑度はともに小さく、かつ、下地領域よりは多少大きくなる。すなわち、下地領域や印画紙写真領域（その他領域）においては、最大濃度差及び総和濃度繁雑度とも小さい値をとなる。

そこで、最大濃度差が最大濃度差閾値よりも小さく、かつ、総和濃度繁雑度が総和濃度繁雑度閾値よりも小さいと判断されたときは、注目画素はその他領域（下地・印画紙写真領域）であると判定し、そうでない場合は、文字・網点領域であると判定する。

また、上記文字エッジ領域・網点領域であると判断された場合、算出された総和濃度繁雑度と最大濃度差に文字・網点判定閾値を掛けた値との比較を行い、比較結果に基づいて文字エッジ領域または網点領域に分類する。

具体的には、網点領域の濃度分布は、最大濃度差は網点によりさまざまであるが、総和濃度繁雑度が網点の数だけ濃度変化が存在するので、最大濃度差に対する総和濃度繁雑度の割合が大きくなる。一方、文字エッジ領域の濃度分布は、最大濃度差が大きく、それに伴い総和濃度繁雑度も大きくなるが、網点領域よりも濃度変化が少ないため、網点領域よりも総和濃度繁雑度は小さくなる。

そこで、最大濃度差と文字・網点判定閾値との積よりも総和濃度繁雑度が大きい場合には網点領域の画素であると判別し、最大濃度差と文字・網点判定閾値との積よりも総和濃度繁雑度が小さい場合には文字エッジ領域の画素であると判別する。

画像ファイル生成部２２は、文字認識部４１、表示制御部４２、描画コマンド生成部４３、およびフォーマット化処理部４４を備えており、画像送信モードが選択された場合に、必要に応じて文字認識処理を行うとともに、外部装置に送信するための画像ファイルを生成する。なお、画像ファイル生成部２２は、画像形成モードでは動作を行わない。画像ファイル生成部２２の詳細については後述する。

上述した各処理が施された画像データは、一旦、図示しないメモリに記憶されたのち、所定のタイミングで読み出されて画像出力装置４に入力される。

（２−２）画像送信モード
次に、画像送信モードにおける画像処理装置３の動作について、図３および図４を参照しながらより詳細に説明する。なお、通常送信モードにおけるＡ/Ｄ変換部１１、シェーディング補正部１２、入力処理部１３、原稿補正部１５、および領域分離部２１の処理、および原稿検知部１４における信号変換部３１、２値化処理部３２、解像度変換部３３、および原稿傾き検知部３４の動作は画像形成モードの場合と略同様である。

本実施形態では、画像処理モードが選択された場合、ユーザが、操作パネル６を介して、文字認識処理を行うか否か、および文字認識結果を表示装置７に表示させるか否か（文字認識結果の確認・修正を行うか否か）を選択できるようになっている。

なお、例えば、図７に示すように、文字認識部４１よりも前段に画像データに基づいて原稿の種別を判別する原稿種別自動判別部２５を設け、この原稿種別自動判別部２５から出力される原稿種別判別信号を文字認識部４１に入力させ、原稿種別判別信号が文字を含む原稿（例えば文字原稿、文字印刷写真原稿、文字印画紙写真原稿など）であることを示す場合に文字認識を行うようにしてもよい。原稿種別自動判別部２５における原稿種別の判別方法は、少なくとも文字を含む原稿と文字を含まない原稿とを判別できる方法であれば特に限定されるものではなく、従来から公知の種々の方法を用いることができる。

（２−２−１）文字認識処理
まず、文字認識処理を行う場合について図３を参照しながら説明する。

原稿検知部１４に備えられるレイアウト解析部３５は、画像送信モードが選択され、かつ文字認識処理を行うことが選択された場合に画像データに含まれる文字の方向が縦書きであるか横書きであるかを解析し、解析結果を画像ファイル生成部２２に備えられる文字認識部４１に出力する。

具体的には、レイアウト解析部３５は、図８に示すように、解像度変換部３３から入力される第２解像度の画像データに含まれる文字を抽出し、各文字の外接矩形を求め、隣接する外接矩形間の距離を算出する。そして、この隣接する外接矩形間の距離に基づいて画像データの文字が縦書きであるか横書きであるかを判定する。また、レイアウト解析部３５は、判定結果を示す信号を画像ファイル生成部２２に備えられる文字認識部４１に出力する。

レイアウト解析部３５は、具体的には、画像データにおける副走査方向に延伸する最初のラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素に所定のラベルを割り付ける。

その後、ラベル付けを行った上記のラインに対して主走査方向に隣接するラインについて、当該ラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素にラベル付け済みの上記ラインで用いたラベルとは異なるラベルを割り付ける。そして、黒画素であると判断した各画素について、当該画素に対して隣接するラベル付け済みの上記ラインの画素が黒文字であるかを判断し、黒文字であると判断した場合には、黒画素が連結していると判断し、当該画素のラベルを隣接するラベル付け済みの上記ラインの画素と同じラベル（１つ上のラインのラベルと同じラベル）に変更する。

その後、上記の処理を主走査方向に並ぶ各ラインについて繰り返し、同じラベルが付された画素を抽出することにより、文字の抽出を行う。

そして、抽出された各文字の上端、下端、左端および右端の画素位置に基づいてこれら各文字の外接矩形を抽出する。なお、各文字および各外接矩形の座標は、例えば画像データの上端かつ左端の位置を原点として算出する。

なお、レイアウト解析部３５が、原稿内の領域毎にレイアウト認識処理を行うようにしてもよい。例えば、レイアウト解析部３５が、外接矩形間の距離が略均等である文字群からなる領域をそれぞれ抽出し、抽出した領域毎に縦書きであるか横書きであるかを判断するようにしてもよい。

文字認識部４１は、原稿補正部１５によって傾き補正処理および天地補正処理を施された第２解像度の２値画像データを記憶部２３から読み出し、この画像データに対して文字認識処理を行う。なお、傾き補正処理および天地補正処理が不要な画像データの場合には、原稿検知部１４から出力されて記憶部２３に記憶された第２解像度の２値画像データを読み出して文字認識処理を行うようにしてもよい。

図１は、文字認識部４１の構成を示すブロック図である。この図に示すように、文字認識部４１は、認識処理部５１、有彩色テキスト生成部（文字画像データ生成部）５２、画像合成部５３、および編集処理部５４を備えている。

認識処理部５１は、原稿検知部１４によって第２解像度に低解像度化された２値画像（輝度信号）の画像データの特徴量を抽出し、抽出結果を辞書データに含まれる文字の特徴量と比較して文字認識を行い、類似する文字に対応する文字コードを検出してメモリ（図示せず）に記憶させる。

有彩色テキスト生成部５２は、認識処理部５１によって認識された文字コードに応じた文字の有彩色の文字画像からなるカラーテキストデータ（文字画像データ）を生成する。なお、このカラーテキストの色は、デフォルトの色に設定してもよく、ユーザが操作パネル６等を介して選択してもよい。例えば、ユーザが操作パネル６を介して文字認識結果を表示させるモードを選択したときに、カラーテキストの色を設定するようにしてもよい。また、文字認識結果を表示させるか否かの選択は、文字認識処理が終了した段階で行うのではなく、画像送信モードの選択指示がなされたときに、文字認識結果を表示させるか否かをユーザが選択するようにしてもよい。

なお、本実施形態では有彩色テキスト生成部５２が有彩色の文字画像データを作成するものとしたが、これに限るものではない。ただし、ユーザが文字認識結果と原稿中の文字とを識別しやすいように、文字認識結果に基づく各文字画像の色と、これら各文字画像に対応する原稿中の文字の色とを異ならせることが好ましい。

本実施形態では、文字認識結果に応じた文字画像の色を、この文字画像に対応する原稿画像中の文字の属性毎に異ならせるようになっている。上記の属性としては、例えば、文字の種別（例えば、フォント、文字の種類（漢字・ひらがな・カタカナ・英数など）、サイズ（ポイント数）など）、画像中の領域の種別（例えば、文字領域、写真領域など）、原稿画像におけるページ（例えば奇数ページか偶数ページか）などが挙げられる。

また、上記の各属性に対応する表示色を、デフォルトで設定しておいてもよく、図９（ａ）〜図９（ｄ）に示すようにユーザが任意に設定できるようになっている。例えば、図９（ａ）の場合、まず文字の種類についての入力を促す画面を表示させ、文字の種類が選択されるとそれに対応する色についての入力を促す画面を表示させ、色が選択されると当該種類に対応する画像（ボタン）の表示色を選択された色に変更する。そして、この処理を繰り返すことにより、各種類に対応する色を設定する。また、文字の大きさ、ページ、領域等の他の属性についても図９（ｂ）〜図９（ｄ）に示すように、文字の種類の場合と略同様の方法で表示色を設定する。

また、文字認識結果に応じた文字画像のフォントは、特に限定されるものではないが、例えば当該文字画像に対する原稿画像中の文字のフォントと同じフォントあるいは類似するフォントを用いてもよい。あるいは、ユーザが任意に設定できるようにしてもよい。また、文字認識結果に応じた文字画像の表示サイズについても、特に限定されるものではなく、例えば当該文字画像に対する原稿画像中の文字のサイズと略同様のサイズにしてもよく、それよりも小さいサイズにしてもよい。また、ユーザが表示サイズを任意に設定できるようにしてもよい。

画像合成部５３は、記憶部２３から読み出した画像データと、有彩色テキスト生成部５２によって生成されたカラーテキストデータとを合成して合成画像データを生成し、表示制御部４２に出力する。この際、画像合成部５３は、カラーテキストデータにおける各文字画像が当該各文字画像に対応する原稿中の文字の画像の近傍に表示されるように原稿画像データとカラーテキストデータとを重畳させて合成する。

例えば、図１０に示すように、文字認識結果に応じた文字画像の位置を、元の原稿画像における当該文字の位置から当該文字の主走査方向についての幅の１／２程度主走査方向にシフトさせ、当該文字の副走査方向についての幅の１／２程度副走査方向にシフトさせる。あるいは、主走査方向にのみシフトさせるようにしてもよく、副走査方向にのみにシフトさせるようにしてもよい。また、シフトさせる量は、文字の幅の１／２程度に限るものではなく、例えば、所定画素数だけシフトさせてもよく、所定距離だけシフトさせるようにしてもよい。

また、文字認識結果に対応する文字画像をシフトさせる量についてのユーザの入力を促す画像を表示装置７あるいは操作パネル６の表示部に表示させ、それに対するユーザの応答に応じてシフト量を設定するようにしてもよい。例えば、文字認識結果を原稿画像に重ねて表示した画面に、後述する表示制御部４２が認識結果の表示位置を変更するか否かの入力を促すメッセージを表示させ、変更することが選択されたとき、図１１に示すように、上下左右に対するシフト量（例えば、長さ（単位ｍｍ））を入力する欄を表示させるようにすればよい。なお、図１１の例では、表示されている位置を基準とし、右方向および下方向へのシフトの場合には＋の数値を入力し、左方向および上方向へのシフトの場合には−の数値を入力させるようになっている。また、シフト量を入力する欄の近傍に、上記内容を表示し、操作パネル６等をユーザが介して所望する数値を入力するようにしてもよい。

表示制御部４２は画像合成部５３によって合成された合成画像データに応じた画像を表示装置７に表示させる。なお、画像合成部５３が合成画像データをメモリ（図示せず）に一旦格納し、表示制御部４２がそれを適宜読み出して表示装置７に表示させるようにしてもよい。

また、表示制御部４２が、表示装置７の表示画面のサイズや解像度等に応じて、この表示画面に原稿画像全体を表示できるように画素を間引く等の処理を施すようにしてもよい。画素を間引く方法は特に限定されるものではないが、例えば、（１）ニアレストネイバー法（補間する画素に一番近い既存画素、あるいは補間する画素に対して所定の位置関係にある既存画素の値をその補間画素の値とする方法）、（２）バイリニア法（補間する画素を囲む周囲４点の既存画素の距離に比例した形で重み付けした値の平均を求め、その値をその補間画素とする方法）、（３）バイキュービック法（補間する画素を囲む４点に加え、更にそれらを囲む１２点を加えた計１６点の画素の値を用いて、補間演算を行う方法）などを用いることができる。

また、表示制御部４２が、画像合成部５３によって合成された合成画像データに対して、表示装置７の特性等に応じたγ補正処理を施して表示するようにしてもよい。

また、１つの文字に対して複数の文字認識結果の候補が抽出された場合に、有彩色テキスト生成部５２が、これら複数の候補に対応する文字のカラーテキストを互いに異なる色および表示位置で表示させるように生成してもよい。また、画像合成部５３によって合成された画像を表示装置７に表示させるときに、表示制御部４２が複数の候補のいずれを選択するかを指定するためのボタン画像（例えば、候補１、候補２）を表示させ、ユーザがいずれの候補を採用するかを選択できるようにしてもよい。また、この場合、表示されている認識結果の候補については、例えば、上記ボタンの縁取りをカラーの太線で表したり、ボタン全面をカラーで表示したりすることで識別可能にしてもよい。

編集処理部５４は、操作パネル６を介して入力される文字認識結果に対するユーザの編集指示（認識結果の削除，修正，複数の認識結果の候補からの適切な候補の選択などの指示）に応じて、メモリに格納されている認識処理部５１による文字認識結果を修正する。なお、ユーザは、表示装置７に表示される合成画像データに応じた画像に基づいて文字認識結果の編集の要否および編集内容を検討し、操作パネル６あるいはマウスやキーボード等を介して修正指示を入力する。なお、表示装置７あるいは操作パネル６に備えられる表示部をタッチパネルとし、このタッチパネルを用いて修正指示を入力するようにしてもよい。

例えば、表示制御部４２は、図１２に示すように、表示装置７に「修正」「削除」「再読み込み」の各ボタンを表示させる。文字認識結果の編集が必要な場合、ユーザは、操作パネル６等を介してこれらのボタンのいずれかを選択する。

例えば、図１２に示した例では、本来は「Ｃ」である文字が「Ｇ」として誤認識されている。この場合、ユーザは、操作パネル６等を介して「修正」ボタンを選択し、修正する文字（図１２の例では「Ｇ」）を選択し、正しい文字（図１２の例では「Ｃ」）を入力する。

また、図１２に示した画面においてユーザが「削除」を選択すると、表示制御部４２は、表示装置７に削除方法の選択を促す画面を表示させる。削除方法としては、例えば、（１）削除する文字を指定する、（２）削除する文字の属性（あるいは削除する文字の属性に対応する色）を指定する、（３）削除する範囲を指定する、などの方法が挙げられる。

例えば、上記（２）の場合、文字領域と写真領域とで認識結果の色を異ならせている場合であって写真領域については文字認識が不要である場合などには、写真領域の色を指定（選択）することで、写真領域に対する文字認識結果を一括して削除することができる。また、文字領域と写真領域とを識別可能に表示しておき（例えば図１３のように写真領域の外縁を示す矩形を表示しておき）、写真領域に対応する範囲（例えば写真領域が矩形である場合にはこの矩形領域の各角部に対応する４点）を選択することで、写真領域に対する文字認識結果を一括して削除することができる。なお、削除する範囲を選択した後、表示制御部４２が、図１３に示すように「削除します。」のメッセージと「Yes」および「No」のボタンを表示し、「Yes」が選択された場合に削除を実行するようにしてもよい。また、文字認識部４１が領域分離部２１から入力される領域分離信号に基づいて、文字領域（文字エッジと判定された画素からなる画像領域）を示すテキストマップを生成し、文字領域に対してのみ文字認識処理を行うように予め設定しておいてもよい。なお、本実施形態では、２値化された画像データに基づいて文字認識処理を行っているので、写真領域であっても、２値化されたデータが文字列（アルファベットや括弧、句点など）に類似している場合には誤判別が生じる恐れがある。

また、上記（２）については、文字の属性に応じた表示色が設定されている場合にのみ選択可能とし、文字の属性に応じた表示色が設定されていない場合には上記（２）を指定するためのボタン等をグレーアウト表示するなどして選択できないようにしてもよい。

また、修正が必要な箇所が多い場合などには、図１２の画面で「再読み込み」を選択し、例えば読み込み条件を変更して再読み込みを行うことができる。

変更する読み込み条件としては、例えば、（１）原稿の向き、（２）解像度、（３）濃度、（４）下地除去レベル、あるいはこれらの組み合わせが挙げられる。

すなわち、例えば、原稿に記載されている文字の方向が副走査方向ではなかった場合などには、原稿の向きを変更し、原稿に記載されている文字の方向が副走査方向なるようにして再読み込みを行えばよい。具体的には、例えば、図１４に示すように、２ｉｎ１の横書き原稿を縦置きにして読み取っていた場合、縦置きにして読み取っていた原稿を横置きにして再読み込みするように変更すればよい。

また、画像入力装置２における読み取り時の解像度を変更してもよい。あるいは、文字認識処理を行う２値画像の解像度、すなわち解像度変換部３３における変換後の解像度を変更してもよい。

また、画像入力装置２における読み取り濃度を変更してもよい。（例えば、濃度の濃さを表す数値等を表示してユーザに変更後の濃度レベルを選択させ、選択された濃度レベルに応じて光源の光量を変更したりγ曲線を変更したりしてもよい。）
また、下地除去を行うレベルを変更してもよい。例えば、下地除去を行うレベルを複数段階に設定して各段階に対応する補正曲線を用意しておき、図１５に示すように各段階を示す数値等を表示してユーザに所望する段階を選択させ、選択された段階に応じた補正曲線を用いて下地除去を行うようにしてもよい。

なお、上記各項目の設定変更は、操作パネル６あるいはデジタルカラー複合機１に通信可能に接続されたコンピュータシステム等の設定画面から行うようにしてもよい。

また、編集処理部５４によって文字認識結果が修正された場合、有彩色テキスト生成部５２が修正後の文字についてカラーテキストデータを生成し、画像合成部５３が画像データと修正後の文字に対応するカラーテキストデータとを合成し、表示制御部４２がその合成後の画像データを表示装置７に表示させる。

また、ユーザが文字認識結果の修正処理の完了を指示した場合、編集処理部５４は、決定した文字認識結果を描画コマンド生成部４３に出力する。

（２−２−２）画像ファイル生成処理
文字認識処理が終了すると、原稿から読み取った画像データに所定の処理を施した画像データと、文字認識処理によって生成したテキストデータとを含む画像ファイルの生成処理が行われる。

具体的には、色補正部１６は、原稿補正部１５から入力されたＲＧＢの画像データを、一般に普及している表示装置の表示特性に適合したＲ’Ｇ’Ｂ’の画像データ（例えば、ｓＲＧＢデータ）に変換し、黒生成下色除去部１７に出力する。黒生成下色除去部１７は、通常送信モードでは色補正部１６から入力された画像データをそのまま空間フィルタ処理部１８に出力（スルー）する。

空間フィルタ処理部１８は、黒生成下色除去部１７より入力されるＲ’Ｇ’Ｂ’の画像データに対して、領域識別信号を基にデジタルフィルタによる空間フィルタ処理（強調処理および／または平滑化処理）を行い、出力階調補正部１９に出力する。

出力階調補正部１９は、空間フィルタ処理部１８から入力されたＲ’Ｇ’Ｂ’の画像データに対して領域識別信号を基に所定の処理を施し、中間調生成部２０に出力する。例えば、出力階調補正部１９は、文字領域に対しては図１６に実線で示したガンマ曲線を用いた補正を行い、文字領域以外の領域に対しては図１６に破線で示したガンマ曲線を用いた補正を行う。なお、文字領域以外の領域に対するガンマ曲線としては、例えば送信先の外部装置に備えられる表示装置の表示特性に応じた曲線を設定しておき、文字領域のガンマ曲線は文字をくっきり表示できるように設定しておくことが好ましい。

中間調生成部２０は、出力階調補正部１９から入力されたＲ’Ｇ’Ｂ’の画像データを画像ファイル生成部２２のフォーマット化処理部４４に出力（スルー）する。

画像ファイル生成部２２は、文字認識部４１、表示制御部４２、描画コマンド生成部４３、およびフォーマット化処理部４４を備えている。

文字認識部４１は、文字認識処理結果に基づいてテキストデータを生成し、描画コマンド生成部４３に出力する。なお、このテキストデータは、各文字の文字コードと各文字の位置とを含む。

描画コマンド生成部４３は、文字認識部４１による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成する。ここで、透明テキストとは、認識された文字および単語をテキスト情報として見掛け上は見えない形で画像データに重ね合わせる（あるいは埋め込む）ためのデータである。例えば、ＰＤＦファイルでは、画像データに透明テキストを付加した画像ファイルが一般に使用されている。

フォーマット化処理部４４は、中間調生成部２０から入力された画像データに、描画コマンド生成部４３から入力された命令に応じて透明テキストを埋め込み、所定のフォーマットの画像ファイルを生成する。そして、生成した画像ファイルを通信装置５に出力する。なお、本実施形態では、フォーマット化処理部４４がＰＤＦ形式の画像ファイルを生成する。ただし、画像ファイルのフォーマットはこれに限るものではなく、画像データに透明テキストを埋め込むことができるフォーマット、あるいは画像データとテキストデータとを対応付けることのできるフォーマットであればよい。

図１７は、フォーマット化処理部４４によって生成されるＰＤＦ形式の画像ファイルの構成を示す説明図である。この図に示すように、上記画像ファイルは、ヘッダ部、ボディ部、相互参照表、およびトレーラ部によって構成されている。

ヘッダ部には、このファイルがＰＤＦファイルであることを示す文字列とバージョン番号とが含まれる。ボディ部には、表示する情報やページ情報などが含まれる。相互参照表には、ボディ部の中身にアクセスするためのアドレス情報が記述されている。トレーラ部には、はじめにどこから読み込むかを示す情報などが記述されている。

ボディ部は、各ページからなるオブジェクトに対する参照情報などが記述される文書カタログ記述部、ページ毎の表示範囲等の情報が記述されるページ記述部、画像データが記述される画像データ記述部、および対応するページを描画する際に適用する条件が記述される画像描画記述部からなる。なお、ページ記述部、画像データ記述部、および画像描画記述部は各ページに対応して設けられる。

通信装置５は、フォーマット化処理部４４から入力された画像ファイルを、ネットワークを介して通信可能に接続された外部装置に送信する。例えば、通信装置５は、上記の画像ファイルを図示しないメール処理部（ジョブ装置）によって電子メールに添付して送信する。

（２−３）画像処理装置３における処理の概要
図１８は、画像処理装置３における概略的な処理の流れを示すフロー図である。この図に示すように、まず、制御部２４は、操作パネル６を介して入力されるユーザからの処理モードの選択指示を受け付ける（Ｓ１）。また、画像入力装置２から、原稿を読み取って得られた画像データを取得する（Ｓ２）。

その後、制御部２４は、原稿検知部１４に傾き角度の検出処理を行わせ、この検出結果に基づいて原稿補正部１５に傾き補正処理を行わせる（Ｓ３）。

その後、制御部２４は、Ｓ１で選択指示された処理モードが画像送信モードであるか否かを判断する（Ｓ５）。そして、選択されたモードが画像送信モードではないと判断した場合、傾き補正処理を施した画像データに対して所定の処理を施させ、画像出力装置４に出力させて（Ｓ５）処理を終了する。

一方、Ｓ４において画像送信モードが選択されたと判断した場合、制御部２４は、文字認識処理を行うか否かを判断する（Ｓ６）。この判断は、例えばユーザの選択指示に基づいて行えばよい。

そして、文字認識処理を行わないと判断した場合、制御部２４は、傾き補正処理を施した画像データに対して所定の処理を施させ、フォーマット化処理部４４に所定形式の画像ファイルを生成（フォーマット化）させる（Ｓ１８）。そして、生成した画像ファイルを通信装置５に出力させ（Ｓ１９）、処理を終了する。

一方、文字認識を行うと判断した場合、制御部２４は、原稿検知部１４のレイアウト解析部３５にレイアウト解析（原稿画像における文字方向が縦書きであるか横書きであるかを解析する処理）を行わせる（Ｓ７）。そして、制御部２４は、文字認識部４１の認識処理部５１にレイアウト解析部３５の解析結果に応じた文字方向に基づいて文字認識処理を行わせる（Ｓ８）。

その後、制御部２４は、文字認識結果を表示させるか否かを判断する（Ｓ９）。なお、この判断は、例えばユーザの選択指示に基づいて行えばよい。

そして、文字認識結果を表示させると判断した場合、制御部２４は、有彩色テキスト生成部５２に文字認識結果に基づくカラーテキストデータを生成させ（Ｓ１０）、画像合成部５３に原稿から読み取った画像データとカラーテキストデータとを合成させ（Ｓ１１）、表示制御部４２を制御して合成した画像データを表示装置７に表示させる（Ｓ１２）。

その後、制御部２４は、文字認識結果の編集を行うか否かを判断する（Ｓ１３）。この判断は、例えばユーザの選択指示に基づいて行えばよい。

文字認識結果の編集を行うと判断した場合、制御部２４は、画像データの再取得（原稿の再読み込み）を行うか否かを判断する（Ｓ１４）。そして、再取得を行うと判断した場合、Ｓ２に戻って画像データを再取得する。この際、必要に応じて画像入力装置２における画像読み取り条件を適宜変更してもよい。

一方、画像データの再取得を行わないと判断した場合、制御部２４は、ユーザからの指示入力に応じて文字認識結果を編集（修正、削除等）する（Ｓ１５）。そして、編集処理を終了するか否かを判断し（Ｓ１６）、終了しないと判断した場合にはＳ１４の処理に戻る。

そして、Ｓ９において文字認識結果を表示しないと判断した場合、Ｓ１３において文字認識結果を編集しないと判断した場合、およびＳ１６において編集処理を終了すると判断した場合、制御部２４は、描画コマンド生成部４３に文字認識結果に応じた透明テキストを画像ファイル内に配置するための命令（コマンド）を生成させる（Ｓ１７）。

そして、制御部２４は、フォーマット化処理部４４を制御し、傾き補正処理等の所定の処理を施された画像データに描画コマンド生成部４３から入力される命令に応じた透明テキストを埋め込ませて所定のフォーマットの画像ファイルを生成させ（Ｓ１８）、生成した画像ファイルを通信装置５に出力させ（Ｓ１９）、処理を終了する。

以上のように、本実施形態にかかるデジタルカラー複合機１は、原稿画像データに基づいて原稿に含まれる文字の文字認識処理を行う認識処理部５１と、文字認識処理によって認識された各文字を文字の種別毎に異なる色で表現した文字画像からなるカラーテキストデータ（文字画像データ）を生成する有彩色テキスト生成部５２と、カラーテキストデータにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように原稿画像データとカラーテキストデータとを合成した合成画像データを生成する画像合成部５３と、合成画像データに応じた画像を表示装置に表示させる表示制御部４２とを備えている。

これにより、カラーテキストデータにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳して表示されるので、ユーザが原稿中の各文字と各文字の文字認識結果とをより対比しやすくなる。また、文字認識結果に応じた文字画像が文字の種別毎に異なる色で表示されるので、ユーザが各文字の文字認識結果を識別しやすい。したがって、文字認識結果の適否を容易に確認し、必要に応じて編集することができる。

なお、画像合成部５３が、原稿画像データを２値化した２値画像（例えば原稿検知部１４によって２値化された第１解像度または第２解像度の２値画像）と、カラーテキストデータとを合成するようにしてもよい。この場合、原稿の画像がモノクロ表示され、文字認識結果が有彩色で表示されるので、ユーザが原稿の画像と文字認識結果とをより容易に対比することができる。

また、本実施形態では、原稿検知部１４が２値化および低解像度化した画像データを画像ファイル生成部２２へ出力するものとしているが、これに限るものではなく、例えば、原稿補正部１５が上記の２値化および低解像度化された画像データに対して傾き補正処理を施した画像データを画像ファイル生成部２２に出力し、画像ファイル生成部２２の文字認識部４１が傾き補正後の上記画像データを用いて文字認識処理を行うようにしてもよい。これにより、傾き補正前の画像データに基づいて文字認識を行う場合よりも文字認識の精度を向上させることができる。

また、本実施形態では、原稿検知部１４によって白黒２値（輝度信号）に変換され、かつ低解像度（例えば３００ｄｐｉ）に変換された画像データに基づいて文字認識を行っている。これにより、文字サイズが比較的大きい場合であっても文字認識処理を適切に行える。ただし、文字認識処理に用いる画像の解像度は上記した例に限るものではない。

また、本実施形態では、フォーマット化処理部４４がＰＤＦ形式の画像ファイルを生成する場合の実施例について説明したが、これに限るものではなく、画像データとテキストデータとを対応付けることが可能な形式の画像ファイルであればよい。例えば、プレゼンテーションソフトなどのフォーマットでテキストデータを配置した上に画像データを重畳させて配置し、テキストデータを不可視状態にし、画像データのみを可視状態にした画像ファイルを作成するようにしてもよい。

また、本実施形態では、透明テキストを埋め込んだ画像データを、通信装置５を介して外部装置に送信する場合について説明したが、これに限るものではない。例えば、透明テキストを埋め込んだ画像データを、デジタルカラー複合機１に備えられる記憶部あるいはデジタルカラー複合機１に脱着可能に装着される記憶部に記憶（ファイリング）させるようにしてもよい。

また、本実施形態では、本発明をデジタルカラー複合機に適用する場合について説明したが、これに限らず、モノクロの複合機に適用してもよい。また、複合機に限らず、例えば単体の画像読取装置に適用してもよい。

図１９は、本発明を画像読取装置に適用する場合の構成例を示すブロック図である。この図に示す画像読取装置１００は、画像入力装置２、画像処理装置３ｂ、通信装置５、操作パネル６、および表示装置７を備えている。画像入力装置２、通信装置５、および操作パネル６の構成および機能は上述したデジタルカラー複合機１の場合と略同様なので、ここではその説明を省略する。

画像処理装置３ｂは、Ａ／Ｄ変換部１１、シェーディング補正部１２、入力処理部１３、原稿検知部１４、原稿補正部１５、色補正部１６、画像ファイル生成部２２、記憶部２３、および制御部２４を備えている。また、画像ファイル生成部２２は、文字認識部４１、表示制御部４２、描画コマンド生成部４３、およびフォーマット化処理部４４を備えている。

なお、画像形成モードを備えていない点、および、色補正部１６が色補正処理後の画像データをフォーマット化処理部４４に出力し、フォーマット化処理部４４が色補正部１６から入力された画像データに基づいて外部装置に送信する画像ファイルを生成する点以外は、画像処理装置３ｂに備えられる各部の機能は上述したデジタルカラー複合機１の場合と略同様である。画像処理装置３ｂにおいて上述した各処理が施されて生成された画像ファイルは、通信装置５により、ネットワークを介して通信可能に接続されたコンピュータやサーバなどに送信される。

また、上記各実施形態において、デジタルカラー複合機１、画像読取装置１００に備えられる各部（各ブロック）を、ＣＰＵ等のプロセッサを用いてソフトウェアによって実現してもよい。この場合、デジタルカラー複合機１、画像読取装置１００は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアであるデジタルカラー複合機１、画像読取装置１００の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、デジタルカラー複合機１、画像読取装置１００に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによって達成される。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、デジタルカラー複合機１、画像読取装置１００を通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

また、デジタルカラー複合機１、画像読取装置１００の各ブロックは、ソフトウェアを用いて実現されるものに限らず、ハードウェアロジックによって構成されるものであってもよく、処理の一部を行うハードウェアと当該ハードウェアの制御や残余の処理を行うソフトウェアを実行する演算手段とを組み合わせたものであってもよい。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本発明は、原稿から読み取って取得した画像データに対する文字認識処理を行う画像処理装置、画像読取装置、および画像送信装置に適用できる。

１デジタルカラー複合機（画像読取装置、画像送信装置、画像形成装置）
２画像入力装置
３、３ｂ画像処理装置
５通信装置
６操作パネル
７表示装置
１４原稿検知部
２１領域分離部
２２画像ファイル生成部
２３記憶部
２４制御部
２５原稿種別自動判別部
３１信号変換部
３２２値化処理部
３３解像度変換部
３４原稿傾き検知部
３５レイアウト解析部
４１文字認識部
４２表示制御部
４３描画コマンド生成部
４４フォーマット化処理部
５１認識処理部
５２有彩色テキスト生成部（文字画像データ生成部）
５３画像合成部
５４編集処理部
１００画像読取装置

Claims

原稿画像データに基づいて原稿に含まれる文字の文字認識処理を行う画像処理装置であって、
上記文字認識処理によって認識された各文字の文字画像からなる文字画像データを生成する文字画像データ生成部と、
上記文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように上記原稿画像データと上記文字画像データとを合成した合成画像データを生成する画像合成部と、
上記合成画像データに応じた画像を表示装置に表示させる表示制御部と、
原稿の画像データに基づいて上記原稿上の領域を少なくとも文字領域とそれ以外の領域とに分離する領域分離部と
ユーザからの指示入力を受け付ける操作入力部と、
ユーザからの指示入力に応じて上記文字認識処理の結果を編集する編集処理部とを備え、
上記文字画像データ生成部は、上記文字画像データにおける各文字の色を、上記原稿上の領域の種別毎に異ならせ、
上記編集処理部は、ユーザから指示された文字の色に対応する領域に対する上記文字認識処理の結果を一括削除することを特徴とする画像処理装置。
上記文字画像データ生成部は、上記原稿上の領域の種別毎の色をユーザからの指示入力に応じて設定することを特徴とする請求項１に記載の画像処理装置。
上記画像合成部は、上記操作入力部を介して入力されるユーザからの指示入力に応じて、原稿の画像データと文字画像データとを合成する際の上記文字画像データにおける各文字画像の当該各文字画像に対応する原稿中の文字の画像に対する相対位置を変更することを特徴とする請求項１または２に記載の画像処理装置。
上記表示制御部は、上記各領域を識別可能に表示し、
上記編集処理部は、ユーザから指示された領域に対する上記文字認識処理の結果を一括削除することを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
上記文字認識処理の結果に応じたテキストデータを上記画像データに対応付けた画像ファイルを生成する画像ファイル生成部を備えていることを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
上記画像ファイル生成部は、上記テキストデータの各文字を当該各文字に対応する原稿上の文字に重畳する位置に透明テキストとして配置することを特徴とする請求項５に記載の画像処理装置。
原稿を読み取って原稿画像データを取得する画像入力装置と、
請求項１から６のいずれか１項に記載の画像処理装置と、
原稿画像データに応じた画像を記録材上に形成する画像形成部とを備えていることを特徴とする画像形成装置。
原稿画像データに基づいて原稿に含まれる文字の文字認識処理を行う画像処理方法であって、
原稿の画像データに基づいて上記原稿上の領域を少なくとも文字領域とそれ以外の領域とに分離する領域分離工程と、
上記文字認識処理によって認識された各文字の文字画像からなる文字画像データを生成する文字画像生成工程と、
上記文字画像データにおける各文字画像の一部が当該各文字画像に対応する原稿中の文字の画像に重畳するように上記原稿画像データと上記文字画像データとを合成した合成画像データを生成する画像合成工程と、
上記合成画像データに応じた画像を表示装置に表示させる表示工程と、
ユーザからの指示入力を受け付ける操作入力工程と、
ユーザからの指示入力に応じて上記文字認識処理の結果を編集する編集処理工程とを含み、
上記文字画像生成工程では、上記文字画像データにおける各文字の色を、上記原稿上の領域の種別毎に異ならせ、
上記編集処理工程では、ユーザから指示された文字の色に対応する領域に対する上記認識処理の結果を一括削除することを特徴とする画像処理方法。
請求項１から６のいずれか１項に記載の画像処理装置を動作させるプログラムであって、コンピュータを上記の各部として機能させるためのプログラム。
請求項９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。