JP2009277093A

JP2009277093A - 画像処理装置、方法、及び、プログラム

Info

Publication number: JP2009277093A
Application number: JP2008128791A
Authority: JP
Inventors: Hitoshi Imai; 仁今井
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-05-15
Filing date: 2008-05-15
Publication date: 2009-11-26
Also published as: US8259313B2; US20090284777A1

Abstract

【課題】入力されたページ記述言語のデータに対して、柔軟に、かつ、高速に文字認識処理を行うことができる画像処理装置を提供する。
【解決手段】ページ記述データを受信する受信手段と、ページ記述データを変換しオブジェクトごとに記述される第１の中間データを生成する第１の中間データ生成手段と、第１の中間データを変換しオブジェクトのエッジ情報で記述された第２の中間データを生成する第２の中間データ生成手段と、オブジェクトの描画位置情報を示すデータを記憶領域に格納する第１の格納手段と、オブジェクトが他のオブジェクトと重なって背面に位置しているか否かを判定する第１の判定手段と、背面に位置していると判定された場合に、第１の中間データに対して文字認識処理を行い、背面に位置していないと判定された場合に、第２の中間データに対して文字認識処理を行う文字認識手段とを備える。
【選択図】図１５

Description

本発明は、文字認識処理を行う画像処理装置に関する。

近年、ページ記述データを元に画像処理を行う画像処理装置が広く用いられている。また、そのような画像処理装置を用いた画像処理システムにおいては、画像処理装置に投入されたページ記述データやスキャンデータを、情報管理の容易なファイル形式で、画像処理装置内やネットワーク接続されたサーバに保持することができる。また、逆に画像処理装置内やネットワーク接続されたサーバに保持されている目的のファイルや印刷ジョブ等を必要に応じて用いることができる。

そのような様々な画像処理システムの使用形態において、例えば、複数のファイルから目的のファイルを検索する必要がある場合が考えられる。一般的に、そのような場合には、ファイル中の特徴を検索条件として指定して検索が行われる。例えば、ファイル内に含まれる文字列が検索時に指定されるファイルの特徴（ヒント情報ともいう）として用いられる場合が多い。

従来、そのようなヒント情報に用いられる文字列をファイルから認識する処理について、様々な技術が開発されている。特許文献１には、印刷ジョブのレンダリングを行い、レンダリングされたビットマップデータに対して文字認識処理を行う方法が記載されている。

しかしながら、レンダリングしたビットマップデータに対する文字認識処理について、下記のような課題点がある。一つには、文字の大きさが小さくなる程、１文字当りの情報量（ピクセル数）が減少し、文字の認識率が悪くなってしまうことが考えられる。例えば、カタログの注意書き等の細かい文字については、文字の認識率が悪くなってしまう。

また、他のオブジェクトの背面に回り込んだ文字に対して、文字認識が行えなくなってしまうことが考えられる。ここで、スキャンデータが入力された場合には、そのような問題は起きないが、例えば、電子文書上で注釈をつけた際に、文字の一部が注釈の後ろに隠れた状態でその電子文書の印刷を行う場合に問題となる。また、レンダリング処理を行う必要があるので、ビットマップデータを生成するまでの時間を考えると、結果的に、文字認識処理を行うための処理時間が長くなってしまう。

入力がスキャンデータである場合には、以上のような課題点を回避することは難しい。ここで、入力がページ記述言語である場合には、ビットマップ化する前の種々のデータに対して文字認識処理を行い、上記の課題点を回避することが考えられる。

一般的に、入力されたページ記述言語から生成されるデータとして、主に、ベクタデータ、フィルマップデータがあることが知られている。

ベクタデータに対する文字認識処理は、文字認識処理の成功率が高く、文字がオブジェクトの背後に存在しても認識が可能であり、文字の区切りの認識が容易であるという長所がある。しかしながら、文字認識処理の速度が遅いという短所がある。

フィルマップデータに対する文字認識処理は、文字認識処理の成功率が高く、文字認識処理の速度が速いという長所がある。しかしながら、オブジェクトの後ろに回り込んだ文字の認識が行えず、文字の区切りの認識が難しいという短所がある。

以上のように、入力されたページ記述言語から生成される種々のデータに対して行う文字認識処理はそれぞれの特徴を有しているので、データに応じて柔軟に文字認識処理を行うことが望ましい。
特開２００６−２０２１９７号公報（段落０１３７）

そこで、上記の点に鑑み、本発明は、入力されたページ記述言語のデータに対して、柔軟に、かつ、高速に文字認識処理を行うことができる画像処理装置を提供することを目的とする。

本発明に係る画像処理装置は、ドキュメントに含まれる文字を認識する文字認識処理を行う画像処理装置であって、ドキュメントのページ記述データを受信する受信手段と、受信手段によって受信したページ記述データを変換し、オブジェクトごとに記述される第１の中間データを生成する第１の中間データ生成手段と、第１の中間データ生成手段によって生成された第１の中間データを変換し、オブジェクトのエッジ情報で記述された第２の中間データを生成する第２の中間データ生成手段と、ドキュメントに含まれるオブジェクトの描画位置情報を示すデータを記憶領域に格納する第１の格納手段と、第１の格納手段によって格納されたオブジェクトの描画位置情報を示すデータを参照し、該オブジェクトが、他のオブジェクトと重なって背面に位置しているか否かを判定する第１の判定手段と、第１の判定手段によって判定された結果、他のオブジェクトと重なって背面に位置していると判定された場合に、第１の中間データ生成手段によって生成された第１の中間データに対して文字認識処理を行って文字を認識し、一方、他のオブジェクトと重なって背面に位置していないと判定された場合に、第２の中間データ生成手段によって生成された第２の中間データに対して文字認識処理を行って文字を認識する文字認識手段とを備える。

本発明によれば、入力されたページ記述言語のデータに対して、柔軟に、かつ、高速に文字認識処理を行うことができる。

以下に、本発明を実施するための最良の形態について、図面を参照しながら詳しく説明する。なお、同一の構成要素には同一の参照番号を付して、説明を省略する。
＜画像処理装置の構成＞
図１は、本発明に係る実施形態における画像処理装置の構成を示す図である。以下、本実施形態を適用するに好適な１Ｄカラー系ＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ：マルチファンクション周辺機器）の構成について説明する。１Ｄカラー系ＭＦＰは、スキャナ部、レーザ露光部、感光ドラム、作像部、定着部、給紙／搬送部、及び、これらを制御する不図示のプリンタ制御部から構成される。

スキャナ部は、原稿台に置かれた原稿に対して、照明を当てて原稿画像を光学的に読み取り、その像を電気信号に変換して画像データを作成する。レーザ露光部は、画像データに応じて変調されたレーザ光などの光線を等角速度で回転する回転多面鏡（ポリゴンミラー）に入射させ、反射走査光を感光ドラムに照射させる。

作像部は、感光ドラムを回転駆動し、帯電器によって帯電させ、レーザ露光部によって感光ドラム上に形成された潜像をトナーによって現像化し、現像化されたトナー像をシートに転写する。また、転写されずに感光ドラム上に残った微小トナーは回収される。以上のような一連の電子写真プロセスを実行して作像が行われる。シートが転写ベルトの所定位置に巻きついて４回転する間に、マゼンタ（Ｍ）、シアン（Ｃ）、イエロー（Ｙ）、ブラック（Ｋ）のトナーを持つそれぞれの現像ユニット（現像ステーション）が、入れ替わりで順次前述の電子写真プロセスを繰り返し実行する。４回転の後、４色のフルカラートナー像を転写されたシートは、転写ドラムを離れ、定着部に搬送される。

定着部は、ローラやベルトの組み合わせによって構成され、ハロゲンヒータなどの熱源を内蔵している。また、定着部は、作像部によってトナー像が転写されたシート上のトナーを、熱と圧力によって溶解し定着させる。給紙／搬送部は、シートカセットやペーパーデッキに代表されるシート収納庫を１つ以上有する。また、給紙／搬送部は、プリンタ制御部の指示に応じてシート収納庫に収納された複数のシートから１枚を分離し、作像部・定着部に搬送する。シートは、作像部の転写ドラムに巻きつけられ、４回転した後に定着部に搬送される。シートが４回転する間に、前述のＹＭＣＫ各色のトナー像がシートに転写される。また、給紙／搬送部は、シートの両面に画像形成する場合に、定着部を通過したシートを、再度作像部に搬送する搬送経路を通るように制御する。

プリンタ制御部は、ＭＦＰ全体を制御するＭＦＰ制御部と通信し、ＭＦＰ制御部の指示に応じて、上述のスキャナ、レーザ露光、作像部、定着部、給紙／搬送部の各部の状態を管理しながら、全体が調和を保って円滑に動作するように制御する。
＜コントローラユニットの構成＞
図２は、本実施形態におけるＭＦＰのコントロールユニット（コントローラ）のブロック構成を示す図である。図２に示すコントロールユニット２００は、画像入力デバイスであるスキャナ２０１や画像出力デバイスであるプリンタエンジン２０２と接続され、内部の各ブロックを制御して、画像データの読み取りやプリント出力を行う。また、コントロールユニット２００は、ＬＡＮ１０や公衆回線２０４と接続され、内部の各ブロックを制御して、画像情報やデバイス情報をＬＡＮ１０や公衆回線２０４経由で入出力する。

ＣＰＵ２０５は、ＭＦＰ全体を制御するための中央処理装置である。ＲＡＭ２０６は、ＣＰＵ２０５が動作する際に用いられるシステムワークメモリであり、入力された画像データを一時記憶するための画像メモリとしても機能する。更に、ＲＯＭ２０７は、ブートＲＯＭであり、システムのブートプログラムが格納されている。ＨＤＤ２０８はハードディスクドライブであり、各種処理のためのシステムソフトウェア及び入力された画像データ等を格納する。操作部Ｉ／Ｆ２０９は、画像データ等を表示する表示画面を有する操作部２１０に対するインタフェース部であり、操作部２１０に対して操作画面のデータを出力する。また、操作部Ｉ／Ｆ２０９は、操作部２１０により操作者が入力した情報をＣＰＵ２０５に伝える。ネットワークインタフェース２１１は、例えばＬＡＮカードで構成され、ＬＡＮ１０に接続されて、外部装置との間で情報の入出力を行う。更に、モデム２１２は公衆回線２０４に接続され、外部装置との間で情報の入出力を行う。以上説明したブロックは、システムバス２１３上に配置され、ＣＰＵ２０５によって制御される。

イメージバスＩ／Ｆ２１４は、システムバス２１３と画像データを高速で転送する画像バス２１５とを接続するためのインタフェースであり、また、データ構造を変換するバスブリッジである。画像バス２１５上には、ラスタイメージプロセッサ２１６、デバイスＩ／Ｆ２１７、スキャナ画像処理部２１８、プリンタ画像処理部２１９、画像編集用画像処理部２２０、カラーマネージメントモジュールであるＣＭＭ２３０が接続される。ラスタイメージプロセッサ２１６（図２において「ＲＩＰ」と図示）は、ページ記述言語（ＰＤＬ）コードや後述するベクトルデータをイメージに展開する。デバイスＩ／Ｆ２１７は、スキャナ２０１やプリンタエンジン２０２とコントロールユニット２００とを接続し、画像データの同期系／非同期系の変換を行う。また、スキャナ画像処理部２１８は、スキャナ２０１から入力された画像データに対して、補正、加工、編集等の各種処理を行う。プリンタ画像処理部２１９は、プリント出力する画像データに対して、プリンタエンジンに応じた補正、解像度変換等の処理を行う。画像編集用画像処理部２２０は、画像データの回転や、圧縮伸長処理等の各種画像処理を行う。ＣＭＭ２３０は、画像データに対して、プロファイルやキャリブレーションデータに基づいた、色変換処理（色空間変換処理ともいう）を施すための専用ハードウェアモジュールである。ここで、プロファイルとは、機器に依存した色空間で表現したカラー画像データを機器に依存しない色空間（例えば、Ｌａｂ）に変換するための関数のような情報をいう。また、キャリブレーションデータとは、カラー複合機において、スキャナ２０１やプリンタエンジン２０２の色再現特性を修正するためのデータである。
＜コントローラソフトウェア構成＞
図３は、ＭＦＰの動作を制御するコントローラソフトウェアのブロック構成を示す図である。プリンタインタフェース３０１は、外部との入出力を行う。プロトコル制御部３０２は、ネットワークプロトコルを解析することによって外部との通信を行う。ＰＤＬ／ベクタ変換部３０３は、ページ記述データ（以降、「ＰＤＬデータ」と呼ぶ）を解釈し、解像度に依存しない描画記述であるベクタデータを生成（ベクタライズ）する。ベクタ／フィルマップ変換部３０４は、生成されたベクタデータを解釈し、解像度に依存しない塗り領域データであるフィルマップデータを生成する。フィルマップデータは、ベクタデータから生成される中間データであり、図１０において説明する。レンダリング部３０５は、フィルマップデータで指示される塗り領域情報に基づいて画像形成を行い、ビットマップデータを生成（レンダリング）する。生成されたビットマップデータはワークメモリ３１５に格納される。

ベクタデータ文字認識部３０６は、ベクタデータを分析することにより文字認識を行う。フィルマップ文字認識部３０７は、フィルマップデータを分析することにより文字認識を行う。ビットマップデータ文字認識部３０８は、ビットマップデータを分析することにより文字認識を行う。ベクタデータヒント情報生成部３０９は、ベクタデータ文字認識部３０６、フィルマップ文字認識部３０７、ビットマップデータ文字認識部３０８で得られた文字列とベクタデータを関連付けてベクタデータヒント情報を生成する。ベクタデータヒント情報については、後述する。

パネル入出力制御部３１０は、操作パネルからの入力及び操作パネルへの出力を制御する。ドキュメント記憶部３１１は、ベクタデータとベクタデータヒント情報を格納し、ハードディスク等の記憶装置によって構成される。印刷制御部３１３は、記録紙に永久可視画像を形成する際に、ワークメモリ３１５にページごとに格納されているレンダリングデータをビデオ信号に変換処理し、プリンタエンジン部３１４に画像転送する。

プリンタエンジン部３１４は、画像転送されたビデオ信号を記録紙に永久可視画像形成するための印刷機構部である。スキャン制御部３１２は、スキャナの動作を制御する。ワークメモリ３１５は、ＭＦＰで行われるソフトウェア処理で扱う様々なデータを一時的に格納し、ＤＲＡＭ等の記憶装置によって構成される。
＜システム構成＞
図４は、本実施形態における画像処理装置を含む画像処理システムの全体構成を示す図である。図４に示すように、ホストＰＣ、ＭＦＰ１、ＭＦＰ２がネットワークを介して接続されている。基本的な使用形態として、ユーザが所望するドキュメントの印刷を行いたい場合に、ユーザは、ホストＰＣ又はＭＦＰ上で出力を所望するＭＦＰに対して印刷指示を行う。印刷指示を受けたホストＰＣ又はＭＦＰは、ドキュメントからＰＤＬデータを生成し、そのＰＤＬデータを印刷に使用するＭＦＰに転送して印刷を行う。

一方、高度な使用形態として、ユーザがドキュメントをＭＦＰ（サーバやホストＰＣでも良い）上に保存し、必要に応じて印刷する。本実施形態において、ドキュメントをＭＦＰ上に保存する方法（以降、「ボックス」機能と呼ぶ）について説明する。ボックスへの保存を行いたい場合に、ユーザは、基本的な使用形態と同様の方法を用いて、ドキュメントをボックスに保存する必要がある。即ち、ユーザがボックス保存先にするＭＦＰに対して、ボックス保存指示を行う。ボックス保存指示を受けたホストＰＣ又はＭＦＰは、ドキュメントからＰＤＬデータを生成し、生成されたＰＤＬデータをボックス保存を行うＭＦＰに転送する。ＰＤＬデータを受信したＭＦＰは、ＰＤＬデータを保存に適したデータに変換し、ドキュメント記憶部３１１に格納する。ユーザが格納したドキュメントの印刷を行いたい場合には、ユーザが、ドキュメントのファイル名を指定するか、又は、ドキュメントに含まれる文字列で検索を行い、対象となるドキュメントの印刷を実行する。
＜文字認識処理のデータフロー＞
以下、本実施形態における文字認識処理までのデータフローの概略について説明する。本実施形態においては、場合に応じて、３種類の文字認識処理を行うことができる。まず、それぞれの文字認識処理を行う場合のデータフローの概略について個別に説明する。

図５は、フィルマップデータに対する文字認識処理を行う場合を説明する図である。図５に示すように、ベクタデータから生成されたフィルマップデータに対して文字認識処理が行われる。フィルマップデータについては、図１０において説明する。

まず、画像処理装置は、受信したＰＤＬデータに対してＰＤＬ／ベクタ変換処理を行って、ベクタデータを生成する。更に、画像処理装置は、生成されたベクタデータに対してベクタ／フィルマップ変換処理を行ってフィルマップデータを生成するとともに、ベクタデータから「オブジェクト描画位置情報」を抽出する。ベクタデータもフィルマップデータもＰＤＬデータから生成される中間データである。ベクタデータは、本実施形態における第１の中間データの一例であり、フィルマップデータは、本実施形態における第２の中間データの一例である。オブジェクト描画位置情報については、後述する。画像処理装置は、オブジェクト描画位置情報を参照して、フィルマップデータに対して文字認識処理を行って文字列を抽出する。

図６は、ベクタデータに対する文字認識処理を行う場合を説明する図である。図６に示すように、ベクタデータに対して文字認識処理が行われる。

まず、画像処理装置は、受信したＰＤＬデータに対してＰＤＬ／ベクタ変換処理を行って、ベクタデータを生成する。更に、画像処理装置は、生成されたベクタデータに対してベクタ／フィルマップ変換処理を行ってフィルマップデータを生成するとともに、ベクタデータからオブジェクト描画位置情報を抽出する。

ここで、オブジェクト描画位置情報を参照し、対象としているオブジェクトが他のオブジェクトの背面に回り込んでいるか否かを判定し、他のオブジェクトの背面に回り込んでいると判定されれば、ベクタデータに対して文字認識処理を行って文字列を抽出する。

図７は、ビットマップデータに対する文字認識処理を行う場合を説明する図である。図７に示すように、ビットマップデータに対して文字認識処理が行われる。

ここで、フィルマップデータを参照し、テキストとイメージについての描画命令が混在している場合には、フィルマップデータに対してレンダリングを行ってビットマップデータを生成し、ビットマップデータに対して文字認識処理を行って文字列を抽出する。
＜データ構造の説明＞
ここで、本実施形態において生成される各データについて説明する。

図８は、本実施形態におけるＰＤＬデータの一例を示す図である。ＰＤＬデータは、人間が編集しやすい高水準言語で記述されたデータであり、画像処理装置の行うべき処理手続きが記述されている。また、ＰＤＬデータは、解像度に依存しない解像度非依存のデータである。

図８の（ａ）に示すように、最初にグラフィックス属性を有する楕円の描画命令が記述され、次に、テキスト属性を有する「Ａ」「Ｂ」「Ｃ」が順に上書きされるように、描画命令が記述される。ここで、「上書き」とは後に描画されるものが、必ず前面に描画されることをいう。ＰＤＬデータはオブジェクトごとに情報が存在するので、図８の（ｂ）に示すように、オブジェクトが重なっていても、隠れている部分がどのようなオブジェクトであるかを、分解して知ることができる。図８の（ａ）に示される「（Ｘ０，Ｙ０）−（Ｘ１，Ｙ１）」等は、後述するオブジェクト描画位置情報である。

図９は、本実施形態におけるベクタデータの一例を示す図である。ベクタデータは、ＰＤＬデータで指示された内容をデバイスが実行し易い形にフォーマット変換され、冗長部の間引き等が行われた低水準言語で記述されたデータである。また、ベクタデータは、解像度に依存しない解像度非依存のデータである。ベクタデータも、ＰＤＬデータと同じく、オブジェクトごとに情報が存在するので、図９の（ｂ）に示すように、オブジェクトが重なっていても、隠れている部分がどのようなオブジェクトであるかを、分解して知ることができる。図９の（ａ）に示すように、例えば、「Ａ」というテキストについては、「文字ＩＤ＝０」の記述によって、「Ａ」というフォントのデータ列が指定される。また、各テキストと楕円について、オブジェクト描画位置情報も示されている。

図１０は、本実施形態におけるフィルマップデータの一例を示す図である。フィルマップデータは、ＰＤＬデータやベクタデータとは異なり、オブジェクトの重なりを示さない１階層のデータ構造である。従って、オブジェクト毎の情報は存在せず、レンダリング時に、ピクセルをどのような配置でマッピングするかをエッジ情報として指示する解像度非依存のデータである。

従って、図１０の（ｃ）に示すように、オブジェクトが重なっている場合には、他のオブジェクトの下に回り込んだオブジェクトについて、オブジェクト全体を復元することはできない。しかしながら、フィルマップデータは１階層のデータ構造であるので、フィルマップを用いた各種処理（文字認識、レンダリング等）を高速に行えるという特徴がある。図１０の（ａ）に示すように、エッジ情報として、例えば「（Ｘ２，Ｘ３）」のように、１つのｙ座標における左端と右端の座標が記述されている。また、座標で示されたエッジ情報で示される部分がテキスト情報、又は、グラフィックス情報であることが記述されている。図１０に示されるようなフィルマップデータ対してレンダリングが行われる際には、矢印で示されるように、上段から下段のフィルマップデータに向けて順にレンダリングが行われる。
＜文字認識処理のアルゴリズム＞
以下、本実施形態における文字認識処理のアルゴリズムの概要について説明する。

図１１は、フィルマップデータに対して行われる文字認識処理のアルゴリズムの概要を説明する図である。フィルマップデータは、まず、ステップＳ１１０１において、レンダリング時の塗りつぶし領域を左右の座標で示したエッジリストの集合が生成される。これは、図１０における説明と同様である。次に、ステップＳ１１０２において、エッジリストのｘ軸方向の中点を導出し、ステップＳ１１０３において、存在するべきｘ軸方向の線を補間する。

次に、ステップＳ１１０４において、存在するべき交点と線とを補間し、ステップＳ１１０５において、線分と線分の傾きを量子化して文字の特徴（成分）を抽出する。次に、ステップＳ１１０６において、文字の成分を分解して、抽出された成分の特性に最も近い文字を選択することによって文字認識を行う。

図１２は、ビットマップデータに対して行われる文字認識処理のアルゴリズムの概要を説明する図である。ビットマップデータに書かれている文字については、どこが１文字であるかを判定する必要がある。従って、画像処理装置は、まず、ステップＳ１２０１において、文字領域を切り出す。文字領域の切り出しについては、ヒストグラムを用いて孤立文字を抽出する方法を始めとした一般的なアルゴリズムが用いられる。次に、ステップＳ１２０２において、認識対象の文字を切り出し、ステップＳ１２０３において、文字のエッジのベクトルを抽出する。抽出されたベクトルに対して、ステップＳ１２０４において、線分と線分の傾きを量子化して文字の特徴（成分）を抽出する。ステップＳ１２０５において、文字の成分を分解し、ステップＳ１２０６において、抽出された成分の特性に最も近い文字を選択することによって文字認識を行う。
＜オブジェクト描画位置情報に関して＞
以下、本実施形態において用いられるオブジェクト描画位置情報について説明する。

図１３は、オブジェクト描画位置情報について説明する図である。図１３の（ａ）に、「ＡＢＣ」という文字列が描画され、「Ｂ」のみ楕円の上に描かれていることが、ＰＤＬデータとして記述されている。そのような場合に、ＰＤＬデータとして、グラフィックス属性で楕円を上書き描画し、続いてテキスト属性で「ＡＢＣ」を上書き描画するというように記述される。

図８においても説明したように、各オブジェクト毎に、オブジェクト描画位置情報が定義される。ここで、オブジェクト描画位置情報は、各オブジェクトの描画領域を示す座標情報を含んでいる。描画位置情報は、デバイスが各オブジェクトごとに確保するメモリサイズの算出を目的とし、無駄なメモリを使用しないように、基本的にオブジェクトの上下左右に外接する矩形領域として表現される。図１３の（ｂ）に、描画位置情報が図示されている。本実施形態においては、この描画位置情報の重なりを見ることによって、オブジェクト同士で重なりがあるか否かを判定する。

また、複数のオブジェクト間で、どのオブジェクトが前面にくるかは、ＰＤＬデータに記述された各オブジェクトの描画順番と、上書き等の描画方法の指定によって判定することができる。例えば、図１３の（ａ）に示す例においては、前面から「Ｃ」、「Ｂ」、「Ａ」、楕円の順番となる。図１３の（ｃ）に示すように、ユーザから見て、「Ｃ」、「Ｂ」、「Ａ」、楕円の順に、階層が深くなっている。以上のように、本実施形態においては、オブジェクトが他のオブジェクトの背面に回り込んでいるか否かを判定することができる。

図１４は、オブジェクト描画位置情報について説明する他の図である。図１４の（ａ）に、「ＡＢＣ」という文字列が描画され、「Ｂ」の上に楕円が描かれ、更に、「ＥＦＧ」が描画されていることが、ＰＤＬデータとして記述されている。ここで、「ＥＦＧ」は、手書き文字をスキャンすることによって取り込まれたオブジェクトであり、「ＥＦＧ」全体で１つのビットマップデータのオブジェクトとして扱われる。図１４の（ａ）の場合に、ＰＤＬデータとして、テキスト属性で「ＡＢＣ」を上書き描画し、続いてグラフィックス属性で楕円を上書き描画し、続いてテキスト属性で「ＥＦＧ」のビットマップデータを上書き描画するというように記述される。図１４の（ｂ）に、図１４の（ａ）の場合についての描画位置情報が図示されている。

ビットマップデータのオブジェクトである「ＥＦＧ」も、「ＡＢＣ」と同様に、オブジェクトの上下左右に外接する矩形領域として表現される。従って、ビットマップデータのオブジェクトが混在している場合においても、この描画位置情報の重なりを見ることによって、オブジェクト同士で重なりがあるか否かを判定することができる。また、ビットマップデータのオブジェクトが混在している場合においても、複数のオブジェクト間で、どのオブジェクトが前面にくるかを、ＰＤＬデータに記述された各オブジェクトの描画順番と、上書き等の描画方法の指定によって判定することができる。例えば、図１４の（ａ）に示す例においては、前面から「ＥＦＧ」、楕円、「Ｃ」、「Ｂ」、「Ａ」の順番となる。図１４の（ｃ）に示すように、ユーザから見て「ＥＦＧ」、楕円、「Ｃ」、「Ｂ」、「Ａ」の順に、階層が深くなっている。以上のように、オブジェクトが他のオブジェクトの背面に回り込んでいるか否かを判定することができる。
＜ＰＤＬデータ文字認識処理の流れ＞
図１５は、本実施形態における文字認識処理の手順を示すフローチャートである。

まず、画像処理装置は、ステップＳ１５０１において、図８に示すようなＰＤＬデータを受信し、ステップＳ１５０２に進む。ステップＳ１５０２において、ＰＤＬコマンドを解釈して図９に示すようなベクタデータに変換し、ステップＳ１５０３に進む（第１の中間データ生成）。ステップＳ１５０３において、ベクタデータを解釈して図１０に示すようなフィルマップデータに変換し、ステップＳ１５０４に進む（第２の中間データ生成）。ここで、変換されたベクタデータ及びフィルマップデータは、メモリ等の記憶領域に格納されるようにしても良い。

ステップＳ１５０４において、テキスト属性を有するオブジェクトが存在するか否かを判定する。ここで、存在すると判定された場合には、ステップＳ１５０５に進み、一方、存在しないと判定された場合には、本処理を終了する。ステップＳ１５０４における判定は、図８に示すようなＰＤＬデータから判定しても良いし、又は、図９に示すようなベクタデータから判定しても良い。ステップＳ１５０４の判定処理は、本実施形態における第２の判定手段の一例である。

次に、ステップＳ１５０５において、テキスト属性のオブジェクトの描画位置情報を抽出してワークメモリに格納し、ステップＳ１５０６に進む。ステップＳ１５０５の処理は、本実施形態における第１の格納手段の一例である。ここで、オブジェクトの描画位置情報は、例えば、ＰＤＬデータから抽出しても良いし、又は、ベクタデータから抽出しても良い。ステップＳ１５０６において、ステップＳ１５０３において変換されたフィルマップデータからテキスト属性のフィルマップデータを抽出し、ステップＳ１５０７に進む。

ステップＳ１５０７において、抽出されたテキスト属性のフィルマップデータを参照し、テキスト描画命令とイメージ描画命令とが混在しているか否かを判定する。テキスト属性を有するオブジェクトには、テキスト描画オブジェクトとイメージ描画オブジェクトとがある。テキスト描画オブジェクトとは、「ＡＢＣ」等の文字列の描画を指示するテキスト描画命令によって記述されたオブジェクトである。また、イメージ描画オブジェクトとは、ワードアート等の飾り文字の描画を指示するイメージ描画命令によって記述されたオブジェクトである。例えば、通常のテキスト文字と飾り文字とが一体化したオブジェクトは、テキスト属性を有するが、描画命令としては、テキスト描画命令とイメージ描画命令とが混在する。本実施形態において、そのようなテキスト属性のオブジェクトについては、ステップＳ１５１２においてフィルマップデータに対してレンダリングを行い、ビットマップデータを生成して文字認識処理を行う。

ステップＳ１５１２の処理は、本実施形態におけるビットマップデータ生成手段の一例である。一方、抽出された１つのテキスト属性のフィルマップデータ（描画命令群）においてテキスト描画命令とイメージ描画命令とが混在していないと判定された場合には、ステップＳ１５０８に進む。ステップＳ１５０７の処理は、ドキュメント内における、全てのテキスト属性のフィルマップデータについて行われる。ステップＳ１５０７の判定処理は、本実施形態における第３の判定手段の一例である。

ステップＳ１５０８において、格納されたテキスト属性のオブジェクトの描画位置情報をワークメモリから読み出し、ステップＳ１５０９に進む。

ステップＳ１５０９において、読み出されたテキスト属性のオブジェクトの描画位置情報を参照して、他のオブジェクトの背面に回り込んでいるか否かを判定する。ここで、存在すると判定された場合には、ステップＳ１５１０に進み、そのオブジェクトについてのみ、図１６に示すベクタデータに対する文字認識処理を行う。一方、回り込んでいないと判定された場合には、ステップＳ１５１１に進み、図１７に示すフィルマップデータに対する文字認識処理を行う。ステップＳ１５０９の処理は、ドキュメント内における、全てのテキスト属性のオブジェクトについて行われる。以上のように、受信したＰＤＬデータで記述されたドキュメントに対して、各条件に応じた文字認識処理が行われ、本処理を終了する。ステップＳ１５０９の判定処理は、第１の判定手段の一例である。

図１６は、図１５のステップＳ１５１０に示すベクタデータに対する文字認識処理の手順を示すフローチャートである。まず、画像処理装置は、ステップＳ１６０１において、他のオブジェクトの背面に回り込んでいるテキスト属性を有するオブジェクトを検索し、ステップＳ１６０２に進む。ステップＳ１６０２において、検索されたオブジェクトに対してのみ、ベクタデータからフィルマップデータに変換し、ステップＳ１６０３に進む。ステップＳ１６０３において、図１７に示すフィルマップデータに対する文字認識処理を行い、本処理を終了する。

図１７は、図１６のステップＳ１６０３に示すフィルマップデータに対する文字認識処理の手順を示すフローチャートである。画像処理装置は、ステップＳ１７０１において、テキスト属性を有するオブジェクトの描画位置情報をワークメモリから読み出し、ステップＳ１７０２に進む。ステップＳ１７０２において、テキスト属性を有するオブジェクトの描画位置情報から文字領域を取得し、ステップＳ１７０３に進む。ステップＳ１７０３において、取得された文字領域中のフィルマップデータを分析して文字の構成成分を取得し、ステップＳ１７０４に進む。ステップＳ１７０３における処理は、図１１における説明と同じである。ステップＳ１７０４において、文字の構成成分から文字を特定し、本処理を終了する。

図１８は、図１５のステップＳ１５１２に示すビットマップデータに対する文字認識処理の手順を示すフローチャートである。画像処理装置は、ステップＳ１８０１において、対象のオブジェクトに対してのみ、レンダリング処理を行い、ステップＳ１８０２に進む。ステップＳ１８０２において、ビットマップデータに対して文字領域切り出しを行い、ステップＳ１８０３に進む。ステップＳ１８０３において、対象の文字領域中のビットマップデータを分析して文字の構成成分を取得し、ステップＳ１８０４に進む。ステップＳ１８０３における処理は、図１２における説明と同じである。ステップＳ１８０４において、文字の構成成分から文字を特定し、本処理を終了する。

以上のように、本実施形態においては、ドキュメントに含まれるテキスト属性を有するオブジェクトについて、ＰＤＬデータから生成されたエッジ情報を有する中間データ（フィルマップデータ）に対して文字認識処理を行う。また、オブジェクト間に重なりがある場合や、テキスト属性を有するイメージ描画命令を含む場合には、適宜、その対象となる部分についてのみ、ベクタデータ又はビットマップデータに対して文字認識処理を行う。

即ち、本実施形態における画像処理装置は、受信したＰＤＬデータから中間データ（ベクタデータとフィルマップデータ）を生成する。また、テキスト属性を有するオブジェクトがテキスト属性を有するイメージ描画命令を含んでいるかということと、テキスト属性を有するオブジェクトが他のオブジェクトの背後に回り込んでいるかということを判定する。テキスト属性を有するオブジェクトがテキスト属性を有するイメージ描画命令を含まず、他のオブジェクトに回り込んでいない場合には、エッジ情報を有するフィルマップデータに対して文字認識処理を行う。また、他のオブジェクトに回り込んでいる場合においては、重なりのあるオブジェクトについてのみ、ベクタデータに対して文字認識処理を行う。また、テキスト属性を有するオブジェクトがテキスト属性を有するイメージ描画命令を含む場合には、そのオブジェクトについてのみ、レンダリング処理を行って文字認識処理を行う。その結果、全体として、文字認識処理を高速化することができる。

次に、図１５に示す文字認識処理を用いて得られた文字列情報をヒント情報として付加した印刷ドキュメントをボックス格納する例について説明する。
＜ボックス格納のデータフロー＞
図１９は、フィルマップデータに対する文字認識処理で得られた文字列をヒント情報とする場合を説明する図である。図５において説明したように、画像処理装置は、ＰＤＬデータに対してＰＤＬ／ベクタ変換処理を行い、ベクタデータを生成する。次に、ベクタデータに対してベクタ／フィルマップ変換処理を行ってフィルマップデータを生成し、同時に、オブジェクト描画位置情報を生成する。次に、オブジェクト描画位置情報を参照し、フィルマップデータに対して文字認識処理を行って文字列を生成する。

画像処理装置は、更に、生成された文字列をベクタデータに関連付けたベクタデータヒント情報を生成し、ベクタデータとベクタデータヒント情報を組としてドキュメント記憶部３１１に格納する。図１９においては、ベクタデータとベクタデータヒント情報との組がフィルマップデータとともにドキュメント記憶部３１１に格納されている様子が示されている。

図２０は、ベクタデータに対する文字認識処理で得られた文字列をヒント情報とする場合を説明する図である。図６において説明したように、画像処理装置は、ＰＤＬデータに対してＰＤＬ／ベクタ変換処理を行い、ベクタデータを生成する。次に、ベクタデータに対してベクタ／フィルマップ変換処理を行ってフィルマップデータを生成し、同時に、オブジェクト描画位置情報を生成する。次に、オブジェクト描画位置情報を参照し、他のオブジェクトの背面に回りこんでいるテキスト属性を有するオブジェクトが存在するか、又は、イメージ描画命令とテキスト描画命令が混在したテキスト属性のオブジェクトでないかを判定する。ここで、両方を満たしていると判定された場合には、ベクタデータから対応するオブジェクトを抽出し文字認識処理を行い、文字列を生成する。

画像処理装置は、更に、生成された文字列をベクタデータに関連付けたベクタデータヒント情報を生成し、ベクタデータとベクタデータヒント情報を組としてドキュメント記憶部３１１に格納する。図２０においては、ベクタデータとベクタデータヒント情報との組がフィルマップデータとともにドキュメント記憶部３１１に格納されている様子が示されている。

図２１は、ビットマップデータに対する文字認識処理で得られた文字列をヒント情報とする場合を説明する図である。図７において説明したように、画像処理装置は、ＰＤＬデータに対してＰＤＬ／ベクタ変換処理を行い、ベクタデータを生成する。次に、ベクタデータに対してベクタ／フィルマップ変換処理を行ってフィルマップデータを生成し、同時に、オブジェクト描画位置情報を生成する。次に、オブジェクト描画位置情報を参照し、イメージ描画命令とテキスト描画命令が混在したテキスト属性のオブジェクトであるかを判定する。ここで、イメージ描画命令とテキスト描画命令が混在したテキスト属性のオブジェクトと判定された場合には、そのテキスト属性のフィルマップデータについてレンダリングを行う。次に、生成されたビットマップデータに対して文字認識処理を行って文字列を生成する。

画像処理装置は、更に、生成された文字列をベクタデータに関連付けたベクタデータヒント情報を生成し、ベクタデータとベクタデータヒント情報を組としてドキュメント記憶部３１１に格納する。図２１においては、ベクタデータとベクタデータヒント情報との組がフィルマップデータとともにドキュメント記憶部３１１に格納されている様子が示されている。
＜ボックス格納の処理の流れ＞
図２２は、本実施形態におけるボックス格納処理の手順を示すフローチャートである。まず、画像処理装置は、ステップＳ２２０１において、図１５に示す文字認識処理を行って、ステップＳ２２０２に進む。ステップＳ２２０２において、文字認識処理で得られた文字列をベクタデータに関連付けてベクタデータヒント情報を生成し、ステップＳ２２０３に進む。ステップＳ２２０３において、ベクタデータとベクタデータヒント情報とを組として、ドキュメント記憶部３１１に格納し、本処理を終了する。ステップＳ２２０３は、本実施形態における第２の格納手段の一例である。
＜ベクタデータヒント情報の概要＞
図２３は、本実施形態におけるベクタデータヒント情報の概要を示す図である。例えば、図２３の（ａ）に示すようなデータを例に挙げる。文字列２３０１は、テキスト属性のフィルマップデータに対して文字認識処理することによって得られる。一方、文字列２３０２は、図１５のステップＳ１５０７においてイメージ属性のテキスト描画命令と判定され、ビットマップデータに対して文字認識処理することによって得られる。

文字認識されたそれぞれのデータについて図１９〜図２１に示すように、ベクタデータヒント情報が生成され、ドキュメント記憶部３１１に格納される。図２３の（ｂ）は、ベクタデータヒント情報が格納された一例を示している。図２３の（ｂ）に示すように、文字列２３０１と文字列２３０２は、ベクタデータのファイル名と関連付けられて、ドキュメント記憶部３１１において別々に格納されている。従って、ボックスに格納されたドキュメントを文字列を用いて検索する場合に、文書内に元々存在していた活字部分と、それ以外の部分（署名等）とを別々に検索することができる。

本発明には、プログラム（画像処理プログラム）コードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた場合についても、本発明は適用される。その場合に、書き込まれたプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される。

本発明に係る実施形態における画像処理装置の構成を示す図である。本実施形態におけるＭＦＰのコントロールユニット（コントローラ）のブロック構成を示す図である。ＭＦＰの動作を制御するコントローラソフトウェアのブロック構成を示す図である。本実施形態における画像処理装置を含む画像処理システムの全体構成を示す図である。フィルマップデータに対する文字認識処理を行う場合を説明する図である。ベクタデータに対する文字認識処理を行う場合を説明する図である。ビットマップデータに対する文字認識処理を行う場合を説明する図である。本実施形態におけるＰＤＬデータの一例を説明する図である。本実施形態におけるベクタデータの一例を説明する図である。本実施形態におけるフィルマップデータの一例を説明する図である。フィルマップデータに対して行われる文字認識処理のアルゴリズムの概要を説明する図である。ビットマップデータに対して行われる文字認識処理のアルゴリズムの概要を説明する図である。オブジェクト描画位置情報について説明する図である。オブジェクト描画位置情報について説明する他の図である。本実施形態における文字認識処理の手順を示すフローチャートである。図１５のステップＳ１５１０に示すベクタデータに対する文字認識処理の手順を示すフローチャートである。図１６のステップＳ１６０３に示すフィルマップデータに対する文字認識処理の手順を示すフローチャートである。図１５のステップＳ１５１２に示すビットマップデータに対する文字認識処理の手順を示すフローチャートである。フィルマップデータに対する文字認識処理で得られた文字列をヒント情報とする場合を説明する図である。ベクタデータに対する文字認識処理で得られた文字列をヒント情報とする場合を説明する図である。ビットマップデータに対する文字認識処理で得られた文字列をヒント情報とする場合を説明する図である。本実施形態におけるボックス格納処理の手順を示すフローチャートである。本実施形態におけるベクタデータヒント情報の概要を示す図である。

符号の説明

１０ＬＡＮ
２００コントロールユニット
２０４公衆回線
２３０１、２３０２文字列

Claims

ドキュメントに含まれる文字を認識する文字認識処理を行う画像処理装置であって、
前記ドキュメントのページ記述データを受信する受信手段と、
前記受信手段によって受信したページ記述データを変換し、オブジェクトごとに記述された第１の中間データを生成する第１の中間データ生成手段と、
前記第１の中間データ生成手段によって生成された第１の中間データを変換し、オブジェクトのエッジ情報で記述された第２の中間データを生成する第２の中間データ生成手段と、
前記ドキュメントに含まれるオブジェクトの描画位置情報を示すデータを記憶領域に格納する第１の格納手段と、
前記第１の格納手段によって格納されたオブジェクトの描画位置情報を示すデータを参照し、該オブジェクトが、他のオブジェクトと重なって背面に位置しているか否かを判定する第１の判定手段と、
前記第１の判定手段によって判定された結果、他のオブジェクトと重なって背面に位置していると判定された場合に、前記第１の中間データ生成手段によって生成された第１の中間データに対して文字認識処理を行って該オブジェクトの文字を認識し、一方、他のオブジェクトと重なって背面に位置していないと判定された場合に、前記第２の中間データ生成手段によって生成された第２の中間データに対して文字認識処理を行って該オブジェクトの文字を認識する文字認識手段と
を備えることを特徴とする画像処理装置。
前記描画位置情報は、オブジェクトに外接する矩形領域の座標を示す情報であることを特徴とする請求項１に記載の画像処理装置。
ドキュメントにおいて、テキスト属性を有するオブジェクトが存在するか否かを判定する第２の判定手段を更に備え、
前記第２の判定手段によって判定された結果、テキスト属性を有するオブジェクトが存在すると判定された場合に、前記文字認識手段によって文字認識処理を行い、一方、テキスト属性を有するオブジェクトが存在しないと判定された場合に、前記文字認識手段によって文字認識処理を行わないことを特徴とする請求項１又は２に記載の画像処理装置。
前記テキスト属性を有するオブジェクトには、テキスト描画命令で記述されたテキスト描画オブジェクトと、イメージ描画命令で記述されたイメージ描画オブジェクトとの内、少なくともいずれかが含まれ、
前記第２の中間データ生成手段によって生成された第２の中間データを参照し、前記テキスト属性を有するオブジェクトが、前記イメージ描画オブジェクトを含んでいるか否かを判定する第３の判定手段と、
前記第３の判定手段によって判定された結果、前記イメージ描画オブジェクトを含んでいると判定された場合に、前記第２の中間データをレンダリングして、ビットマップデータを生成するビットマップデータ生成手段とを更に備え、
前記文字認識手段は、前記ビットマップデータ生成手段によって生成されたビットマップデータに対して文字認識処理を行い、
前記第３の判定手段によって判定された結果、前記イメージ描画オブジェクトを含んでいないと判定された場合に、前記第１の中間データ生成手段によって生成された第１の中間データ、又は、前記第２の中間データ生成手段によって生成された第２の中間データに対して文字認識処理を行うことを特徴とする請求項３に記載の画像処理装置。
前記文字認識手段は、生成された前記第２の中間データ、又は、生成された前記ビットマップデータから文字を構成する成分を抽出することによって、文字を認識することを特徴とする請求項４に記載の画像処理装置。
前記文字認識手段によって認識された文字を含む文字列を前記第１の中間データとともに、ドキュメントと関連付けて記憶領域に格納する第２の格納手段を更に備えることを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
ドキュメントに含まれる文字を認識する文字認識処理を行う画像処理装置において実行される画像処理方法であって、
前記画像処理装置の受信手段が、ドキュメントのページ記述データを受信する受信工程と、
前記画像処理装置の第１の中間データ生成手段が、前記受信工程において受信したページ記述データを変換し、オブジェクトごとに記述された第１の中間データを生成する第１の中間データ生成工程と、
前記画像処理装置の第２の中間データ生成手段が、前記第１の中間データ生成工程において生成された第１の中間データを変換し、オブジェクトのエッジ情報で記述された第２の中間データを生成する第２の中間データ生成工程と、
前記画像処理装置の第１の判定手段が、前記ドキュメントに含まれるオブジェクトの描画位置情報を示すデータを参照し、該オブジェクトが、他のオブジェクトと重なって背面に位置しているか否かを判定する第１の判定工程と、
前記画像処理装置の文字認識手段が、前記第１の判定工程において判定された結果、他のオブジェクトと重なって背面に位置していると判定された場合に、前記第１の中間データ生成工程において生成された第１の中間データに対して文字認識処理を行って該オブジェクトの文字を認識し、一方、他のオブジェクトと重なって背面に位置していないと判定された場合に、前記第２の中間データ生成工程において生成された第２の中間データに対して文字認識処理を行って該オブジェクトの文字を認識する文字認識工程と
を備えることを特徴とする画像処理方法。
ドキュメントに含まれる文字を認識する文字認識処理を行うための画像処理プログラムであって、
ドキュメントのページ記述データを受信する受信手段と、
前記受信手段によって受信したページ記述データを変換し、オブジェクトごとに記述された第１の中間データを生成する第１の中間データ生成手段と、
前記第１の中間データ生成手段によって生成された第１の中間データを変換し、オブジェクトのエッジ情報で記述された第２の中間データを生成する第２の中間データ生成手段と、
前記ドキュメントに含まれるオブジェクトの描画位置情報を示すデータを参照し、該オブジェクトが、他のオブジェクトと重なって背面に位置しているか否かを判定する第１の判定手段と、
前記第１の判定手段によって判定された結果、他のオブジェクトと重なって背面に位置していると判定された場合に、前記第１の中間データ生成手段によって生成された第１の中間データに対して文字認識処理を行って該オブジェクトの文字を認識し、一方、他のオブジェクトと重なって背面に位置していないと判定された場合に、前記第２の中間データ生成手段によって生成された第２の中間データに対して文字認識処理を行って該オブジェクトの文字を認識する文字認識手段と
してコンピュータを機能させることを特徴とする画像処理プログラム。