JP2011048816A

JP2011048816A - 識別方法、識別装置およびコンピュータプログラム

Info

Publication number: JP2011048816A
Application number: JP2010129890A
Authority: JP
Inventors: Patrick Chiu; チィーウパトリック; Francine Chen; チェンフランシーン; Laurent Denoue; ドゥヌローラン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2009-08-25
Filing date: 2010-06-07
Publication date: 2011-03-10
Anticipated expiration: 2030-06-07
Also published as: US20110052062A1; US8634644B2; JP5659563B2

Abstract

【課題】ドキュメントのページ中に含まれる図画の領域の識別能力を向上させる。
【解決手段】ドキュメントのページを表す画像を受信し、ページ内のテキストオブジェクトを識別するために画像を分析し、ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成し、マスク画像中の、ページ中の少なくとも一つの図画に対応する画素グループを識別し、一以上の画素グループに基づいてページ中の少なくとも一つの図画に対応する領域を識別し、少なくとも一つの図画に対応する領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存するようにした。
【選択図】図１

Description

本発明はドキュメント中の図画を識別する技術に関する。

オンラインドキュメントマネジメントシステムの普及により、より多くのユーザがオンライン上にドキュメントを保存するようになってきている。こうしたドキュメントの閲覧や検索を支援するために、これらのドキュメントにインデックス付けすることが望まれる。例えば、コンピュータ上のワードプロセッシングプログラムにより作成されたような、一つのドキュメントについて、テキストや図画のインデックス付けは、テキストオブジェクトや図画の情報が電子化されたドキュメントのドキュメント構造から直接取得できるので、容易に行える。しかし、スキャナなどを使って電子形式に変換されたスキャンドキュメントはテキストオブジェクトや図画に関する情報を含まない、元のドキュメントのイメージである。このため、スキャンドキュメントをインデックス付けするためには、テキストオブジェクトや図画を最初に識別しなければならない。

テキストオブジェクトや図画を識別する一つの手法は光学的文字認識技術（OCR)を用いることである。通常、OCR技術はスキャンドキュメントをテキストを含む領域と非テキストの領域とに区分する。しかし、OCR技術は図画を識別するようには作られていない。非テキスト領域は、図画に常に対応すると言うわけではない。例えば、非テキスト領域は、図画とは異なる区切り線のような装丁用のグラフィックスや他のシンボルを含んだりする。より複雑なケースとしては、通常、内部にテキストを含んだサブ領域を含んでいるブロック図がある。OCRにはこのようなブロック図を図形オブジェクトとして識別することは困難である。

スキャンドキュメント中の図画認識のために、幾何学に基づく手法もまた利用されている。例えば、スキャンドキュメント中の連結したコンポーネントの幾何学的な特徴を利用する。形態学あるいはレイアウト解析によりスキャンドキュメント中の図画の識別が可能かもしれない。しかし、これらの技術は正確に図画を識別することはできない。例えば、スキャンドキュメント中の互いに近くにある２つの図画は一つの図画オブジェクトとして認識されるかもしれない。同様に、中央に白い空白を含んだ一つの図画オブジェクトを、２つの分離した図画として識別してしまうかもしれない。

プレゼンテーションスライドの画像中の図画を識別する他の方法として、OCRとHough変換を用いたものがある。関心領域（ROI）を識別するために、形態クラスタリングを利用することもできる。しかし、これらの手法は背景を識別するためにプレゼンテーションスライドに含まれる一連のページを用いる。したがって、これらの手法をそれぞれが独立したページには用いることができない。

このため、上述のような課題を解消する、ドキュメント中の図画を識別するシステムおよび方法が必要とされている。

シュワルツＫ．バークナー (Schwartz K. Berkner) 他１名、「スマートネールズ −画像とディスプレイ依存サムネイル（SmartNails - Image and display dependent thumbnails）」、ＳＰＩＥ‘０４予稿集、２００４年、第５２９６巻、ｐ．５３−６５スーザンＥ．ハウザー（Susan E. Hauser）他２名、「ビットマップドキュメント画像中の自動領域修正（Automated zone correction in bitmapped document images)」、ＳＰＩＥ‘００予稿集ドキュメント認識および検索ＶＩＩ（Proceedings of SPIE ’00: Document Recognition and Retrieval VII）、２０００年、ｐ．２４８−２５８ジアンボシ（Jianbo Shi）他１名、「正規化切断と画像セグメント化（Normalized Cuts and Image Segmentation）」、ＩＥＥＥパターン分析及び機械知能会報（IEEETransactions on Pattern Analysis and Machine Intelligence）、２０００年、第２２巻, 第８号、ｐ．８８８−９０５

ドキュメント中に含まれる図画の領域の識別能力を、従来と比較して向上させる。

上述の課題を解決するために、本発明の方法、システムおよびコンピュータプログラムは、次の構成を有する。

本発明の第１の態様にかかる方法では、受信手段により、ドキュメントのページを表す画像を受信し、分析手段により、前記ページ内のテキストオブジェクトを識別するために前記画像を分析し、マスク画像生成手段により、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成し、画素グループ識別手段により、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別し、図画領域識別手段により、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別し、保存手段により、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する、ことを特徴とする。

別の態様の方法においては、前記図画領域識別手段は、前記ページ内のテキストオブジェクトを識別するために光学文字認識技術（OCR)を用いて前記画像を分析することを特徴とする。

別の態様の方法においては、前記マスク画像生成手段は、前記画像の背景色を識別し、前記テキストオブジェクトを含む画像領域内の画素について、前記背景色のカラー値をカラー値として設定することを特徴とする。

別の態様の方法においては、前記マスク画像生成手段は、前記画像の背景色を識別し、前記テキストオブジェクトの境界ボックスで囲まれる画像領域内の画素について、前記背景色のカラー値をカラー値として設定することを特徴とする。

別の態様の方法においては、前記画素グループ識別手段による前記マスク画像内の一以上の前記画素グループの識別に先立って、さらに画像処理手段が、前記マスク画像をダウンサンプリングすることを特徴とする。

別の態様の方法においては、前記マスク画像のダウンサンプリングに先立って、さらに前記画像処理手段が、前記マスク画像を平滑化することを特徴とする。

別の態様の方法においては、前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、前記マスク画像を二値化する工程を含み、前記マスク画像を二値化する工程は、前記画像の背景色のカラー値に関する所定の閾値の範囲内にないカラー値を有する画素に第１のカラー値を設定し、前記画像の背景色のカラー値に関する所定の閾値の範囲内にあるカラー値を有する画素に第２のカラー値を設定することを特徴とする。

別の態様の方法においては、前記マスク画像に対して、前記第１のカラー値を有する画素の数を削減する処理を施すことを特徴とする。

別の態様の方法においては、前記第１のカラー値を有する画素の削減処理は、周囲を前記第１のカラー値を有する画素で囲まれた内部画素を削減することを含むことを特徴とする。

別の態様の方法においては、前記内部画素を削減するために、モルフォロジ収縮エッジ検出器を用いることを含むことを特徴とする。

別の態様の方法においては、前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、画像処理手段が、前記マスク画像からノイズを除去することをさらに含むことを特徴とする。

別の態様の方法においては、前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、画像処理手段が、前記マスク画像から装丁用グラフィックスを削除することをさらに含む。

別の態様の方法においては、前記画素グループ識別手段は、倍率変更画像を生成するために、結合コンポーネントの寸法に基づいて前記マスク画像を拡縮し、ノーマライズドカット法を用いて、Ｎ個の要素を含むとともに、前記要素ｋの各々はｋ個のクラスタを含む（ここでｋは０＜ｋ≦Ｎの整数）、倍率変換した前記マスク画像の画素のクラスタリングシーケンスを取得し、所定の条件を満たすクラスタリングシーケンスの要素を識別することを特徴とする。

別の態様の方法においては、前記所定の条件は、前記クラスタリングのシーケンス中の隣接する要素中のクラスタ間の距離の変化を最大化するクラスタリングシーケンスの要素を含むことであることを特徴とする。

別の態様の方法においては、前記図画領域識別手段が、一以上の前記画素グループに基づいて前記図画の領域を識別する工程は、前記一以上の画素グループのセグメント化不足あるいは過剰セグメント化を修正し、修正された前記画素グループに基づいて前記図画の領域の識別を行う、ことを含む。

別の態様の方法においては、一以上の前記画素グループの修正は、前記ページ内の前記図画に対応するキャプションテキストを識別し、前記キャプションテキストに基づいて前記一以上の画素グループを調整することを特徴とする。

別の態様の方法においては、前記キャプションテキストに基づく前記一以上の画素グループの調整は、前記一以上の画素グループの一部を結合することを含むことを特徴とする。

別の態様の方法においては、前記キャプションテキストに基づく前記一以上の画素グループの調整は、前記一以上の画素グループの一部を分割することを含むことを特徴とする。

別の態様の方法においては、前記ページ内の前記図画に対応するキャプションテキストの識別は、光学文字認識技術を用いて、前記ページを表す画像中で、前記一以上の画素グループから所定の距離内に存在するテキストを識別し、識別された前記キャプションテキストが、キャプションテキストであることを示す所定のテキストトークンであるかを識別するために、文字列マッチング処理を行うことを特徴とする。

別の態様の方法においては、前記図画の各々の前記メタデータタグとともに前記キャプションテキストの各々を保存することを特徴とする。
本発明の第２の態様にかかる画像識別システムは、ドキュメントのページを表す画像を受信する受信手段と、前記ページ内のテキストオブジェクトを識別するために前記画像を分析する分析手段と、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成するマスク画像生成手段と、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別する画素グループ識別手段と、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別する図画領域識別手段と、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する保存手段と、を備えることを特徴とする。

本発明の第３の態様にかかる画像識別用のコンピュータプログラムは、コンピュータを、受信手段により、ドキュメントのページを表す画像を受信し、分析手段により、前記ページ内のテキストオブジェクトを識別するために前記画像を分析し、マスク画像生成手段により、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成し、画素グループ識別手段により、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別し、図画領域識別手段により、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別し、保存手段により、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する、ように動作させるためのプログラムであることを特徴とする。

ドキュメント中に含まれる図画の領域の識別能力を、従来と比較して向上させることが可能となる。

本発明の一実施形態に係る画像システムを表すブロック図である。本発明の一実施形態に係るコンピュータシステムを表すブロック図である。本発明の一実施形態に係るドキュメント中の図画を識別するための方法のフローチャートである。本発明の一実施形態に係る、ドキュメントからマスク画像を生成する手法のフローチャートである。本発明の一実施形態に係る、ドキュメントのマスク画像を二値化する方法のフローチャートである。本発明の一実施形態に係る、ドキュメントのマスク画像中の一以上の画素を識別する方法のフローチャートである。本発明の一実施形態に係る、ドキュメント中の図画領域を識別する方法のフローチャートである。本発明の一実施形態に係る一以上の画素グループを改良するための方法のフローチャートである。本発明の一実施形態に係る、ページ上の図画のキャプションテキストを識別する方法のフローチャートである。本発明の一実施形態に係る、ドキュメントのページを表す画像を示す。本発明の一実施形態に係る、ドキュメントのページのマスク画像を示す。本発明の一実施形態に係る、ドキュメントのページのマスク画像の二値化画像を示す。本発明の一実施形態に係る画素数を減少させた二値化画像を示す。本発明の一実施形態に係る、画素グループを示す。本発明の一実施形態に係る、他の画素グループを示す。本発明の一実施形態に係る、例示的なマスク画像を示すブロック図である。本発明の一実施形態に係る、図１６Ａの例示的なマスク画像のサイズ変更版を示すブロック図である。

上述した課題を解決するために、いくつかの実施形態では、ドキュメント中の図画を識別するためのシステムと方法を提供する。いくつかの実施形態では、ドキュメント中の図画に関するキャプションテキストも識別される。いくつかの実施形態では識別された図画に関するメタデータが生成される。このメタデータはページ内の識別された図画の位置を示す位置情報と、識別された図画に関するキャプションテキスト（あるいはキャプションテキストの一部）を含んでよい。図画をインデックス付けすることは、インデックスの利用、アクセス、検索およびドキュメントの閲覧といった作業に有効である。さらに、ドキュメント中の図画を識別することで、使用するディスプレイにより適した方法でドキュメントのコンテントを再配置したり表示したりすることで、大小のディスプレイを利用したドキュメント閲覧を改善することができる。さらに、ドキュメントに関するソーシャルあるいは共同作業アプリケーションで、図画の識別やタグ付けに利用することもできる。

一般に、ドキュメントはテキストと画像を含む。画像には図画とグラフィックスが含まれる。本発明で取り扱う図画とは、それ自体がドキュメントの提供する情報を構成する画像であって、写真のような撮像と、ブロック図、スクリーンショット、チャート、ロゴといった画像が含まれる。一方グラフィックスとは、それ自体はドキュメントの情報を構成しないが、例えばページの体裁を整えるために用いられる装丁用画像であって、例えば段区切りの直線といった、テキストでもなく図画でもない、図形要素を指す。なお、いくつかの実施形態では、図画と装丁用グラフィックスを厳密に区別しないで、いずれも図画として取り扱うことも可能である。

図１は、本発明のいくつかの実施形態に係る、画像システムを示すブロック図１００である。いくつかの実施形態では、画像システムはドキュメント１０２を受信し、画像１０６を生成する。例えば、画像入力システム１０４はドキュメントをスキャンし、画像１０６を生成する。いくつかの実施形態では画像１０６はデジタル形式にエンコードされた画像を含む。デジタルエンコードには、ビットマップ、JPEG、GIF、TIFF、PDF、PNG、XDWといった形式が含まれる。なお、ここではドキュメントの一ページの画像を指すのに、「画像」という用語を用いている。なおいくつかの実施形態では、複数のページが１つの単位領域（例えば用紙の所定のサイズ）上に印刷されたドキュメントを取り扱うことも可能であり、そのときは後の処理で一ページとして取り扱われる電子情報の単位が「画像」に対応する。

いくつかの実施形態では、ドキュメント１０２は電子ドキュメントである。この実施形態ではドキュメント１０２は画像１０６に変換される。いくつかの実施形態では、電子ドキュメントはデジタル形式にエンコードされたテキストおよび／あるいは図画を含む。例えば、テキストは、ASCII、Unicodeといったデジタル文字コードに変換されてもよい。電子ドキュメン中の写真はベクトル画像、ビットマップ、JPEG、TIFFといった形式でエンコードされていてもよい。

いくつかの実施形態では、画像入力システム１０４は画像形成デバイスを含む。例えば、画像形成デバイスとしては、多機能複写機、スキャナ、ファクシミリ、デジタルカメラ、カムコーダー、携帯電話といったものを含むことができる。いくつかの実施形態では画像形成デバイスはドキュメントのデジタル画像を生成する。

いくつかの実施形態では、図画識別モジュール１０８が、境界ボックスのような領域や図画１１０のキャプションテキストを画像１０６から識別する。いくつかの実施形態では、図画識別モジュール１０８はコンピュータシステム（例えば、パーソナルコンピュータ、サーバなど）中に内蔵されてもよい。いくつかの実施形態では、図画識別モジュール１０８は、携帯電話、デジタルカメラといった携帯機器に搭載されていてもよい。もし、図画識別モジュール１０８が画像入力システム１０４と分離している場合には、画像１０６はネットワークを通じて図画識別モジュール１０８に伝送される。なお、ネットワークは、有線、無線のノード間を繋ぐいかなる通信チャネルであってもよい。さらに、ネットワークは、例えば、LAN、WANやこれらの組み合わせであってもよいが、これらに限定されない。いくつかの実施形態では、ネットワークとしてインターネットを含む。あるいは、画像１０６は物理メディア（例えば、CD ROM、DVD、フラッシュドライブ、フロッピー（登録商標）ディスク、ハードディスクなど）を用いて、図画識別モジュール１０８に入力されてもよい。いくつかの実施形態では、図画識別モジュール１０８は、図画を識別するためのメタデータタグ１１２を生成する。図画識別モジュール１０８については図２〜図１５を用いて以下で詳述する。

図２は、いくつかの実施形態に係る、コンピュータシステム２００を示すブロック図である。コンピュータシステム２００は図１の画像入力システム１０４あるいはスタンドアロンなコンピュータシステムとすることもできる。コンピュータシステム２００は通常一以上の処理ユニット（CPU)２０２、一以上のネットワークコミュニケーションインターフェース（通信インターフェース）２０４、メモリ２１０、そしてこれらを接続する一以上の通信バス２０９を含む。通信バス２０９は、チップセットと呼ばれるような、システムコンポーネント間を接続し通信を制御する回路を含んでもよい。コンピュータシステム２００は、さらに表示デバイス（ディスプレイ）２０６と入力装置２０８（キーボード、マウス、タッチスクリーン、キーパッド等）を含んでもよい。いくつかの実施形態では、コンピュータシステム２００はスキャナのような画像形成デバイス（画像入力装置）２６０を含んでもよい。メモリ２１０は、DRAM、SRAM、DDR、RAMといった高速ランダムアクセスメモリ２１０や他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えたりしてもよい。メモリ２１０はCPU２０２とは分離した一以上の記憶デバイスとすることもできる。メモリ２１０あるいはメモリ２１０内の不揮発性記憶デバイスは、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ２１０は以下のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・オペレーティングシステム２１２様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・通信モジュール２１４コンピュータシステム２００を他のコンピュータに一以上の通信インターフェース２０４（有線あるいは無線、インターネット、WAN、LAN、都市間通信ネットワークなど）を介して接続する。
・ユーザインターフェースモジュール２１６入力装置２０８を通じてユーザからのコマンドを受信し、表示デバイス２０６にユーザインタフェースオブジェクトを生成する。
・画像形成モジュール２１８画像形成デバイス２６０のインターフェースを構成する。
・図画識別モジュール１０８後で詳述するように、ドキュメント中の図画を識別する。
・ドキュメントページの画像２５０識別された図画の領域２５２と関連づけられたキャプションテキスト２５４を含む。
・メタデータ２５６
なお、図画識別モジュール１０８は、以下のモジュールを含む。
・光学文字認識（OCR)モジュール２２２画像中のテキストオブジェクトを識別する。
・マスキングモジュール２２４画像中の領域をマスクする。
・二値化モジュール２２６所定の条件に応じて画素のカラー値を１あるいは０に設定する。
・フィルタリングモジュール２２８画像を滑らかにする。
・グループ化モジュール２３０画像中の画素をグループ化する。
・図画識別モジュール２３２グループ化された画素から個々の図画を識別する。
・メタデータモジュール２３４識別された図画のメタデータあるいはメタデータタグを生成、記憶する。
・ダウンサンプリングモジュール２３６画像をダウンサンプリングする。
・ノイズ除去モジュール２３８画像からノイズや装丁用グラフィックスを除去する。
・画素削減モジュール２４０画像中の画素数を削減する。

いくつかの実施形態では、識別された図画のメタデータ２５６は、領域２５２の座標と関連付けられたキャプションテキスト２５４を含む。いくつかの実施形態では、メタデータ２５６は画像２５０のファイル中に含まれる。例えば、メタデータ２５６は画像に関するファイルの特定のメタデータ領域に記憶されてもよい。いくつかの実施形態では、メタデータ２５６は画像２５０とは別個に記憶されている。例えば、メタデータ２５６はデータベース中や一以上のドキュメント中に記憶することもできる。これらの実施形態では、各画像の各メタデータは、各画像が記憶された場所（例えばURL、ファイルシステムアドレスなど）を識別する情報を含んでいる。いくつかの実施形態では、メタデータ２５６には、メタデータの属性や値を特定するために用いられるタグ（例えば、XMLタグ）を含む。

上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ（CPU２０２）によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成したりするなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ２１０は上述のモジュールおよびデータ構造の一部を記憶してもよい。さらに、メモリ２１０は記述していない追加のモジュールやデータ構造を記憶させることもできる。

図２はコンピュータシステムを示すが、図２はコンピュータシステムに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示された要素を結合したり、ある要素を分離したりすることも可能である。例えば、図２で別々に示されているアイテムを一台のコンピュータシステムで実現できるし、一つのアイテムを複数のコンピュータシステムで実現することもできる。

図３〜図９は、本発明のいくつかの実施形態において、ドキュメント中の図画を識別する方法を示す。図３〜図９のいくつかの処理については、図１０〜図１６に記載もしくは参照して説明される。図１０〜図１６はドキュメント中の図画の識別のためのドキュメントの画像処理の異なるフェーズを示している。

図３は、いくつかの実施形態において、ドキュメント中の図画を識別するための方法のフローチャート３００である。図画識別モジュール１０８は、テキストや図画を含む可能性のあるドキュメントのページを表す画像を受信する。例えば、図１０はいくつかの実施形態に関する、ドキュメントのページを表す例示的な画像１０００を示す。図１０に示すように、画像１０００は、テキストオブジェクト１００２、図画１００４、１００６、キャプションテキスト１００８、１０１０と、装丁用グラフィックス１０１２と、を含む。いくつかの実施形態では、ドキュメントは、PDF、スプレッドシート、プレゼンテーション、ワードプロセッサなどの、電子ドキュメントである。いくつかの実施形態では、ドキュメントのページを表す画像は、コピー機、デジタルカメラ、デジタルスキャナといった、画像入力デバイス（システム）１０４から受信される。いくつかの実施形態では、ドキュメントのページを表す画像は、電子ドキュメントを画像に変化させる、Ghostscript、Xpdf、DocuWorksといったアプリケーションから受信される。

次に、OCRモジュール２２２は、ページ中のテキストオブジェクトを識別するために解析を行う（例えば、画像１０００内のテキストオブジェクト１００２）。いくつかの実施形態では、OCRモジュール２２２は、ページ内のテキストオブジェクトを識別するためにOCR技術を使う。いくつかの実施形態では、OCRモジュール２２２は、ページ内のテキストオブジェクトの境界ボックスを識別するためにOCR技術を用いる。各境界ボックスは、対角する2点の座標あるいは4つの角の座標で定義できる。いくつかの実施形態では、OCR技術によって、ページ内のテキストトークン（例えば、単語）と境界ボックスの両方を識別する。

マスキングモジュール２２４は、ページ内のテキストオブジェクトを含む画像領域をマスクすることでマスク画像を生成する（３０６）。例えば、テキストオブジェクトを含む画像領域は、そのテキストオブジェクトの境界ボックスで定義されてもよい。その境界ボックスの内部がマスクされる。図4は、いくつかの実施形態における、ドキュメントのマスク画像を生成する方法（３０６）のフローチャートである。マスキングモジュール２２４は、画像の背景色を識別し（４０２）、画素のカラー値を、テキストオブジェクトを含む画像領域内の画素の背景色のカラー値に設定する（４０４）。あるいは、マスキングモジュール２２４は、画素のカラー値を、テキストオブジェクトの境界ボックスで囲まれる画像領域内の画素の背景色のカラー値に設定する（４０４）。図１１は、いくつかの実施形態における、ドキュメントのページのマスク画像を示す。図１１に示されるように、ドキュメント１０００のテキストオブジェクト１００２、キャプションテキスト１００８、１０１０がマスク画像１１００を生成するためにマスクされる。マスク画像１１００には、それぞれ図画１００４と１００６に対応する図画１１０４と１１０６と、装丁用グラフィックス１０１２と、が含まれている。図１０と比較すると図画１００６中の一部のテキストがマスクされてしまっているが、後述する手法によって図画１００６は適切に識別することができる。

ステップ３０８〜３１８は、任意の操作である。これらの操作の組み合わせを、マスク画像に対して施すことができる。いくつかの実施形態では、ステップ３０８〜３１８の順序で処理がなされる。

いくつかの実施形態では、フィルタリングモジュール２２８は、マスク画像を平滑化処理する（３０８）。いくつかの実施形態では、フィルタリングモジュール２２８は、マスク画像を平滑化するのにローパスフィルタを用いる。マスク画像を平滑化するのにローパスフィルタを用いることでマスク画像中のエイリアシングを低減させることができる。

場合によってはページの画像は高解像度（例えば、スキャナから１７００×２２００画素を受信）の場合がある。ここで述べる実施形態では高解像度画像を用いて得られるような高精度は必要ないので、いくつかの実施形態では、ダウンサンプリングモジュール２３６によって、マスク画像をダウンサンプリングする（３１０）。例えば、マスク画像は１２０×１５５画素の解像度にダウンサンプリングされる。

ここで説明する実施形態では、ページ内の図画を識別するのにカラー情報は必要としない。このため、いくつかの実施形態では、二値化モジュール２２６がマスク画像を二値化する（３１２）。マスク画像の二値化では、画素が前景か背景かの判断に応じて、画素値を１（例えば、前景の画素）、画素値を０（例えば背景の画素）に変換する。図５は、いくつかの実施形態における、ドキュメントのマスク画像の二値化方法（３１２）のフローチャートである。二値化モジュール２２６は、そのカラー値が画像の背景色に対応する所定の色閾値の範囲内になければ、その画素のカラー値を１（１の画素）に設定し、そのカラー値が画像の背景色の所定の色閾値の範囲内であれば、その画素のカラー値を０（０の画素）に設定する。いくつかの実施形態では、画像の背景色のカラー値は、マスク画像の画素のもっとも頻度の高いカラー値を識別することで決定される。図１２は、いくつかの実施形態における、ドキュメントのページのマスク画像１１００の２値化画像１２００を示すものである。背景色（例えば白）でないか、背景色の所定の色閾値の範囲内にない、カラー値を有する全ての画素のカラー値は１とする。それ以外の画素のカラー値は０とする。こうして、図画１００４と１００６に対応する画像領域１２０４と１２０６と装丁用グラフィックス１０１２の画素とが１に設定される。それ以外の画素のカラー値は０に設定される。

いくつかの実施形態では、画素削減モジュール２４０は、マスク画像中のカラー値が１の画素を削除し、処理対象となる画素を減らす。このため、これらの実施形態は、処理能力に制約がある装置（例えば、多機能複写機、スキャナ、デジタルカメラ、携帯電話等）を用いて処理を行う場合に有効である。しかし、たとえ十分な処理能力のある装置（例えば、マルチプロセッサやマルチコアのプロセッサをもったコンピュータシステム）であっても、マスク画像から多くの画素を削減することで、ドキュメント中の画像の図画を識別するために必要な処理時間を減らすことができる。いくつかの実施形態では、画素削減モジュール２４０は、カラー値が１の内部画素（値１の画素）のみを削減する。いくつかの実施形態では、内部画素はモルフォロジ収縮残留エッジ検出器（morphological erosion residue edge detector）を用いて削減される。いくつかの実施形態では、値１の内部画素とは、上下左右（４つの隣接点）で値１の画素と隣合っている、カラー値が１の画素を言う。いくつかの実施形態では、上下左右、左上、左下、右上、右下（８つの隣接点）で値１の画素と隣り合っている、カラー値が１の画素としてもよい。値１の内部画素を削減することで、平方根の比率で値１の画素の数を減少させることができる。いくつかの実施形態では、値１の内部画素を削減するかわりに、１つおき（例えば市松模様）に値１の画素を削減してもよい。図１３に示すように、図画１００４と１００６とにそれぞれ対応する図画１３０４と１３０６との値１の内部画素が削減される。

いくつかの実施形態では、ノイズ除去モジュール２３８が、マスク画像のノイズの除去（３１６）と装飾グラフィックスの削除（３１８）を行う。例えば、斑点や他の付着物のようなノイズ、長く細い線等の高アスペクト比の装丁用グラフィックスが除去されうる。図１３に示すように、ノイズ除去モジュール２３８は装丁用グラフィックスを削除している。

次に、グループ化モジュール２３０は、マスク画像中の画素グループを識別する（３２０）。なお、各画素グループはページ内の少なくとも一つの図画に対応している。いくつかの実施形態では、画素のグループはページの二値化されたマスク画像中の値１の画素のグループである。いくつかの実施形態では、グループ化モジュール２３０はｋ平均クラスタリング手法を用いて画素をグループ化する。いくつかの実施形態では、グループ化モジュール２３０は、修正ノーマライズドカット法（modified Normalized Cuts）を用いて、画素をグループ化する。こうした形態の場合には、画像中の各画素を、重み付けしたグラフのノードとする標準のノーマライズドカット法の代わりに、修正ノーマライズドカット法で、減少させた二値化画像と値１の画素のクラスタを得るために画像を処理する。

図６は、いくつかの実施形態に係る、修正ノーマライズドカット法を用いて、ドキュメントのマスク画像中の画素を一以上のグループに判別する方法（３２０）のフローチャートである。グループ化モジュール２３０は、縮小マスク画像を生成するために、結合コンポーネントの範囲に基づいてマスク画像を縮小する（６０２）。この縮小処理により、細長いクラスタに対するノーマライズドカット法の処理が改善される。標準ノーマライズドカット法では、時々細長いクラスタを分割してしまう。この問題を解決するために、いくつかの実施形態では、マスク画像は、結合コンポーネントの平均幅と高さそれぞれに基づいて、x軸およびｙ軸方向の寸法が縮小される。ここで、この各値１の画素のセットは、値１の画素のセット中の他の値１の画素と、値１の画素のセット中の連続近接する値１の画素を介して連続している、値１の画素を含む、値１の画素のセットを構成することで、結合コンポーネントは判別できる。例えば、いくつかの実施形態では、マスク画像は、全ての結合コンポーネントの幅と高さが等しくなるようにｘ、ｙ軸方向の寸法を縮小される。図１６Ａおよび図１６Ｂは、例示的なマスク画像１６０１を示すブロック図１６００である。マスク画像１６０１は画素グループ１６０２、１６０６を含んでいる。図１６Ａおよび図１６Ｂに示すように、画素グループ１６０２および１６０３は細長い。このため、ｘ軸方向に画素グループを縮小することが望ましい。図１６Bはマスク画像１６０１の縮小版である、縮小マスク画像１６２１を示すブロック図１６２０である。この例では、画素グループ１６０２〜１６０６は縮小画素グループ１６２２〜１６２６をそれぞれ生成するようにｘ軸方向に縮小されている。このように、画素グループ１６０２および１６０３のアスペクト比は図１６Bでは縮小されていて、細長さは低減されている。

次に、グループ化モジュール２３０は、縮小マスク画像の画素のクラスタリングシーケンスを得るために、ノーマライズドカット法を適用する（６０４）。ここで、クラスタリングのシーケンスにはNの要素が含まれ、クラスタリングのシーケンス中のk番目の要素はｋ個のクラスタを含み、ｋは０＜ｋ≦Nの整数である。例えば、クラスタリングのシーケンスの５番目の要素は、５つの画素のクラスタを含む。言い換えると、ノーマライズドカット法は、ｋ個のクラスタのシーケンスを特定することで、縮小された画素（例えば値１の画素）に適用される（ここで、ｋはターゲットクラスタの数で、例えばｋ=｛１，２，３，…，N｝）。このプロセスは、クラスタリングのシーケンス｛Ck｝を生成する。ここで各クラスタリングC_ｋはクラスタ｛ｃ_k,i} （ここでi≦ｋ）から形成される。なお、ノーマライズドカット法については、非特許文献３に詳細が記載されているので、詳細は省略する。

グループ化モジュール２３０は、次に所定の条件を満たすクラスタリングのシーケンスの要素を識別する（６０６）。いくつかの実施形態では、所定の条件は、クラスタリングのシーケンス中の隣接する要素のクラスタ間の最小（あるいは平均）距離での実質的な変化が最大となるクラスタリングのシーケンスの要素を含む。いくつかの実施形態では、所定の条件は、値ｋがC_kおよびC_k-1中のクラスタ間の距離の変化を最大化するときに満たされる。いくつかの実施形態では、もしC_k+1,C_k+2,…，C_k+Mがクラスタ間の最小（もしくは平均）距離の時に実質的に同じ増加を持つ場合、C_k+Mは所定の条件を満たす。

図１４は、いくつかの実施形態に関し、画像１０００の画素グループ１４０２を示す。図１４に示すように、画素グループ１４０２は、セグメント化不足の例である、図画１００４および１００６を含む。この状態を修正する方法を図７を参照して説明する。

ここで、０以上の画素グループが識別されうることに注意をされたい。例えば、テキストしか含まないドキュメントのページ中では、すべての画素が予めマスクされてしまうので０個の画素グループが生成されることになる（例えば、図３の工程３０６）。いくつかの実施形態では、画素グループが０個であるとき、図画識別モジュール１０８はその画像の処理を終了し、ドキュメントのページの次の画像を処理する（３２６）。一以上の画素グループがあるときに、いくつかの画素グループは一より多い図画を含むかもしれないし、いくつかの画素グループは１より少ない（０個の）図画しか含まないかもしれない。このため、いくつかの実施形態では、一以上の画素グループがあるときに、図画識別モジュール２３２は、一以上の画素グループに基づいて図画の領域（例えば、境界ボックス）を識別する（３２２）。図７は、いくつかの実施形態に係る、ドキュメント中の図画の領域を識別する方法のフローチャートである（３２２）。図画識別モジュール２３２は、セグメント化不足と過剰セグメント化を修正するために一以上の画素グループを改善処理し（７０２）、一以上の改善処理されたグループに基づいて図画の領域を識別する（７０４）。いくつかの実施形態では、図画識別モジュール２３２は、図画の領域の座標を識別する。例えば、もし領域が矩形領域であれば、図画識別モジュール２３２は、その図画の境界ボックスの対向する２角の座標を識別する。あるいは、図画識別モジュール２３２は、図画の境界ボックスの４つの角の座標を識別してもよい。ただし、図画の領域は非矩形形状（例えば、円、多角形あるいは他の形状）であってもよい。

視覚情報だけからでは、近接する画素グループが分離されるべきか、結合されるべきか、決定することが難しいかもしれない。このとき、いくつかの実施形態では近接する画素グループを改善処理するためにキャプションテキストを使う。図８は、いくつかの実施形態に係る、一以上の画素グループを改善処理する方法（７０２）のフローチャートである。図画識別モジュール２３２は、ページ中の図画に関するキャプションテキストを識別する（８０２）。いくつかの実施形態では、クラスタのキャプションテキストを検出するのにOCR技術を用いる。この場合、文字列マッチング処理が、キャプションテキストを示す単語を識別するOCR技術により識別されたテキストに対して適用される。例えば、キャプションテキストを示す単語（文、文字）には、「図」、「表」、といった単語が含まれる場合が多い。いくつかの実施形態では、文字列マッチング処理には、OCR技術により誤認識された文字に対処するために、ワイルドカードを用いても良い。OCR技術により識別されたページ画像上のテキストトークン（あるいは単語）の位置を用いると、クラスタから所定の距離以上離れた位置にある、あるいは、クラスタに近接した行から開始されないテキストトークン（あるいは単語）は除外される。いくつかの実施形態では、もしフォント情報（例えば、イタリック、太字等）が入手出来る場合、キャプションテキストを示す語を識別するためにフォント情報を用いてもよい。例えば、「図」という語は、太字にされている可能性がある。これらのキャプションテキストを示すと識別された各単語に対して、キャプションテキストを示す単語とその単語を含む文を含む、キャプションオブジェクトが生成される。

図画に対するキャプションテキストが識別されたのち、図画識別モジュール２３２は、キャプションテキストに基づいて一以上のグループを調整する（８０４）。例えば、２つのキャプションテキスト（例えば、「図」、という語を含むキャプションテキスト）が近接している画素グループは、２つの図画を含んでいる可能性が高く、これらは分離される。いくつかの実施形態では、キャプションテキストは、画素グループの近傍のテキストから図画を示す単語を識別することで、識別される。いくつかの実施形態では、図画識別モジュール２３２はキャプションテキストに基づく一以上のグループを調整するために、一以上のグループの一部を組み合わせる。いくつかの実施形態では、図画識別モジュール２３２は、キャプションテキストに基づいて、一以上のグループを調整するために、一以上のグループの一部を分離する。図１５は、いくつかの実施形態に係る、他の画素グループ１５０２、１５０４を示している。画素のグループ１４０２はセグメント化不足である。言い換えると、画素グループ１４０２は一以上の図画を含んでいる。図１５に示すように、改善処理によりセグメント化不足が修正され、画素グループ１５０２および１５０４を生成する（例えば、図７および８に示す方法による場合）。

図９は、いくつかの実施形態に係る、ページ内の図画に対するキャプションテキストを識別するための方法（８０２）のフローチャートである。図画識別モジュール２３２は、一以上のグループからテキストを識別するためにページを表す画像にOCR技術を用い（９０２）、キャプションテキストを示す所定のテキストトークンを識別するために抽出したテキストに文字列マッチング処理を施す（９０４）。いくつかの実施形態では、各図画に対するキャプションテキストは、各図画の各メタデータ（あるいはメタデータタグ）とともに保存される。

図３に戻って、メタデータモジュール２３４は、図画に関するメタデータ２５６（あるいはメタデータタグ）を保存する（３２４）。ここで、各図画に対する各メタデータ（あるいはメタデータタグ）は、各図画のそれぞれの領域に関する情報を含む。いくつかの実施形態では、各図画に対するメタデータ（あるいはメタデータタグ）は、ページ画像内の各図画の位置に関する情報と、各図画に対応するキャプションテキストの少なくとも一部を含んでいる。例えば、図画に関するメタデータ（あるいはメタデータタグ）は、図画の領域の位置を識別する座標情報と、図画に対応するキャプションテキストから抽出された説明文やキーワードを含んでいて良い。いくつかの実施形態では、XMLタグが利用される。例えば、図画に対するXMLタグは＜picture＞タグ中に含められる。＜picture＞タグ内では、キャプションは＜caption＞タグ内に含めることができる。＜picture＞タグは、図画の領域の座標を示す＜location＞タグを含んでいてもよい。＜type＞タグは図画の種別を示すのに用いることができる（例えば、図、表、ブロック図、フローチャート等）。

いくつかの実施形態では、図画に関するメタデータタグが保存された後、図画識別モジュール１０８は、ドキュメントのページの次の画像を処理する（３２６）。

マスク画像をダウンサンプリングする場合には、図画の位置は、ページの原画像の図画の位置に対応するように、再マッピングされる。例えば、各識別された図画の領域の座標は、マスク画像がダウンサンプリングされた比率に応じて縮倍される。もしマスク画像が１／２倍にダウンサンプリングされた場合、識別された図画の各領域のx軸とｙ軸の両方の座標は１／２倍される。

連結コンポーネントの幅および高さに基づいて、マスク画像を拡縮倍し直すときには、識別された図画の位置は、ページの原画像中の図画の位置に対応するように、結合コンポーネントの平均幅および平均高さに基づいて、再マッピングされる。例えば、各識別された領域のx軸は結合コンポーネントの平均幅倍とされ、各識別された領域のy軸は結合コンポーネントの平均高さ倍とされる。

図３〜図９に記述された方法は、コンピュータ可読記憶媒体中に保存されたプログラムにより実現することができ、一以上のサーバの一以上のプロセッサにより実行させることができる。図３〜図９に示された各処理は、コンピュータメモリあるいはコンピュータ可読記憶媒体中に保存されたプログラムに対応させることができる。コンピュータ可読記憶媒体としては、磁気または光学記憶装置、フラッシュメモリのような固体状態記憶装置、あるいは他の不揮発性メモリデバイスを含んで良い。コンピュータ可読記憶媒体に記憶されたコンピュータプログラムとしては、ソースコード、アセンブリ言語、オブジェクトコード、あるいは他の一以上のプロセッサにより解釈され、実行可能な指令形式であってよい。

なお、これまでの記述は、説明を目的として、特定の実施形態を参照して説明されている。しかし、この具体的な説明は本発明を開示された詳細な形態に制限したり限定したりするためのものではない。多くの変更と変形を本開示に基づいて施すことができる。実施形態は発明の原理とその応用を説明するのにより適したものを選択して開示しており、当業者が本発明と多様の変形を加えた多様な実施形態を、特定の用途に適するように、利用できるようにするためのものである。

１０２ドキュメント
１０４画像入力システム
１０６画像
１０８図画識別システム

Claims

受信手段により、ドキュメントのページを表す画像を受信し、
分析手段により、前記ページ内のテキストオブジェクトを識別するために前記画像を分析し、
マスク画像生成手段により、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成し、
画素グループ識別手段により、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別し、
図画領域識別手段により、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別し、
保存手段により、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する、
ことを特徴とするドキュメント中の図画の識別方法。
前記図画領域識別手段は、前記ページ内のテキストオブジェクトを識別するために光学文字認識技術（OCR)を用いて前記画像を分析することを特徴とする請求項１記載の識別方法。
前記マスク画像生成手段は、前記画像の背景色を識別し、前記テキストオブジェクトを含む画像領域内の画素について、前記背景色のカラー値をカラー値として設定することを特徴とする請求項１記載の識別方法。
前記マスク画像生成手段は、前記画像の背景色を識別し、前記テキストオブジェクトの境界ボックスで囲まれる画像領域内の画素について、前記背景色のカラー値をカラー値として設定することを特徴とする請求項１記載の識別方法。
前記画素グループ識別手段による前記マスク画像内の一以上の前記画素グループの識別に先立って、さらに画像処理手段が、前記マスク画像をダウンサンプリングすることを特徴とすることを特徴とする請求項１記載の識別方法。
前記マスク画像のダウンサンプリングに先立って、さらに前記画像処理手段が、前記マスク画像を平滑化することを特徴とする請求項５記載の識別方法。
前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、前記マスク画像を二値化する工程を含み、
前記マスク画像を二値化する工程は、前記画像の背景色のカラー値に関する所定の閾値の範囲内にないカラー値を有する画素に第１のカラー値を設定し、前記画像の背景色のカラー値に関する所定の閾値の範囲内にあるカラー値を有する画素に第２のカラー値を設定することを特徴とする請求項１記載の識別方法。
前記マスク画像に対して、前記第１のカラー値を有する画素の数を削減する処理を施すことを特徴とする請求項７記載の識別方法。
前記第１のカラー値を有する画素の削減処理は、周囲を前記第１のカラー値を有する画素で囲まれた内部画素を削減することを含むことを特徴とする請求項８記載の識別方法。
前記内部画素を削減するために、モルフォロジ収縮エッジ検出器を用いることを含むことを特徴とする請求項９記載の識別方法。
前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、画像処理手段が、前記マスク画像からノイズを除去することをさらに含むことを特徴とする請求項１記載の識別方法。
前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、画像処理手段が、前記マスク画像から装丁用グラフィックスを削除することをさらに含む請求項１記載の識別方法。
前記画素グループ識別手段は、倍率変更画像を生成するために、結合コンポーネントの寸法に基づいて前記マスク画像を拡縮し、ノーマライズドカット法を用いて、N個の要素を含むとともに、前記要素ｋの各々はｋ個のクラスタを含む（ここでｋは０＜ｋ≦Nの整数）、倍率変換した前記マスク画像の画素のクラスタリングシーケンスを取得し、
所定の条件を満たすクラスタリングシーケンスの要素を識別する、
ことを特徴とする請求項１記載の識別方法。
前記所定の条件は、前記クラスタリングのシーケンス中の隣接する要素中のクラスタ間の距離の変化を最大化するクラスタリングシーケンスの要素を含むことであることを特徴とする請求項１３記載の識別方法。
前記図画領域識別手段が、一以上の前記画素グループに基づいて前記図画の領域を識別する工程は、
前記一以上の画素グループのセグメント化不足あるいは過剰セグメント化を修正し、
修正された前記画素グループに基づいて前記図画の領域の識別を行う、
ことを含む、
請求項１記載の識別方法。
一以上の前記画素グループの修正は、前記ページ内の前記図画に対応するキャプションテキストを識別し、前記キャプションテキストに基づいて前記一以上の画素グループを調整することを特徴とする請求項１５記載の識別方法。
前記キャプションテキストに基づく前記一以上の画素グループの調整は、前記一以上の画素グループの一部を結合することを含むことを特徴とする請求項１６記載の識別方法。
前記キャプションテキストに基づく前記一以上の画素グループの調整は、前記一以上の画素グループの一部を分割することを含むことを特徴とする請求項１６記載の識別方法。
前記ページ内の前記図画に対応するキャプションテキストの識別は、光学文字認識技術を用いて、前記ページを表す画像中で、前記一以上の画素グループから所定の距離内に存在するテキストを識別し、
識別された前記キャプションテキストが、キャプションテキストであることを示す所定のテキストトークンであるかを識別するために、文字列マッチング処理を行う、
ことを特徴とする請求項１６記載の識別方法。
前記図画の各々のメタデータタグとともに各前記キャプションテキストを保存することを特徴とする請求項１９記載の識別方法。
ドキュメントのページを表す画像を受信する受信手段と、
前記ページ内のテキストオブジェクトを識別するために前記画像を分析する分析手段と、
前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成するマスク画像生成手段と、
前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別する画素グループ識別手段と、
一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別する図画領域識別手段と、
前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する保存手段と、
と備えることを特徴とするドキュメント中の図画の識別システム。
コンピュータを、
受信手段により、ドキュメントのページを表す画像を受信し、
分析手段により、前記ページ内のテキストオブジェクトを識別するために前記画像を分析し、
マスク画像生成手段により、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成し、
画素グループ識別手段により、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別し、
図画領域識別手段により、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別し、
保存手段により、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、各前記図画に対応づけて保存する、
ように動作させるためのドキュメント中の図画の識別用のコンピュータプログラム。