JP5659563B2 - 識別方法、識別装置およびコンピュータプログラム - Google Patents

識別方法、識別装置およびコンピュータプログラム Download PDF

Info

Publication number
JP5659563B2
JP5659563B2 JP2010129890A JP2010129890A JP5659563B2 JP 5659563 B2 JP5659563 B2 JP 5659563B2 JP 2010129890 A JP2010129890 A JP 2010129890A JP 2010129890 A JP2010129890 A JP 2010129890A JP 5659563 B2 JP5659563 B2 JP 5659563B2
Authority
JP
Japan
Prior art keywords
image
identifying
pixel
pixels
portions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010129890A
Other languages
English (en)
Other versions
JP2011048816A (ja
Inventor
パトリック チィーウ
チィーウ パトリック
チェン フランシーン
チェン フランシーン
ローラン ドゥヌ
ドゥヌ ローラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2011048816A publication Critical patent/JP2011048816A/ja
Application granted granted Critical
Publication of JP5659563B2 publication Critical patent/JP5659563B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

本発明はドキュメント中の図画を識別する技術に関する。
オンラインドキュメントマネジメントシステムの普及により、より多くのユーザがオンライン上にドキュメントを保存するようになってきている。こうしたドキュメントの閲覧や検索を支援するために、これらのドキュメントにインデックス付けすることが望まれる。例えば、コンピュータ上のワードプロセッシングプログラムにより作成されたような、一つのドキュメントについて、テキストや図画のインデックス付けは、テキストオブジェクトや図画の情報が電子化されたドキュメントのドキュメント構造から直接取得できるので、容易に行える。しかし、スキャナなどを使って電子形式に変換されたスキャンドキュメントはテキストオブジェクトや図画に関する情報を含まない、元のドキュメントのイメージである。このため、スキャンドキュメントをインデックス付けするためには、テキストオブジェクトや図画を最初に識別しなければならない。
テキストオブジェクトや図画を識別する一つの手法は光学的文字認識技術(OCR)を用いることである。通常、OCR技術はスキャンドキュメントをテキストを含む領域と非テキストの領域とに区分する。しかし、OCR技術は図画を識別するようには作られていない。非テキスト領域は、図画に常に対応すると言うわけではない。例えば、非テキスト領域は、図画とは異なる区切り線のような装丁用のグラフィックスや他のシンボルを含んだりする。より複雑なケースとしては、通常、内部にテキストを含んだサブ領域を含んでいるブロック図がある。OCRにはこのようなブロック図を図形オブジェクトとして識別することは困難である。
スキャンドキュメント中の図画認識のために、幾何学に基づく手法もまた利用されている。例えば、スキャンドキュメント中の連結したコンポーネントの幾何学的な特徴を利用する。形態学あるいはレイアウト解析によりスキャンドキュメント中の図画の識別が可能かもしれない。しかし、これらの技術は正確に図画を識別することはできない。例えば、スキャンドキュメント中の互いに近くにある2つの図画は一つの図画オブジェクトとして認識されるかもしれない。同様に、中央に白い空白を含んだ一つの図画オブジェクトを、2つの分離した図画として識別してしまうかもしれない。
プレゼンテーションスライドの画像中の図画を識別する他の方法として、OCRとHough変換を用いたものがある。関心領域(ROI)を識別するために、形態クラスタリングを利用することもできる。しかし、これらの手法は背景を識別するためにプレゼンテーションスライドに含まれる一連のページを用いる。したがって、これらの手法をそれぞれが独立したページには用いることができない。
このため、上述のような課題を解消する、ドキュメント中の図画を識別するシステムおよび方法が必要とされている。
シュワルツ K.バークナー (Schwartz K. Berkner) 他1名、「スマートネールズ −画像とディスプレイ依存サムネイル(SmartNails - Image and display dependent thumbnails)」、SPIE‘04予稿集、2004年、第5296巻、p.53−65 スーザン E.ハウザー(Susan E. Hauser) 他2名、「ビットマップドキュメント画像中の自動領域修正(Automated zone correction in bitmapped document images)」、SPIE‘00予稿集 ドキュメント認識および検索VII(Proceedings of SPIE ’00: Document Recognition and Retrieval VII)、2000年、p.248−258 ジアンボ シ(Jianbo Shi) 他1名、「正規化切断と画像セグメント化(Normalized Cuts and Image Segmentation)」、IEEEパターン分析及び機械知能会報(IEEETransactions on Pattern Analysis and Machine Intelligence)、2000年、第22巻, 第8号、p.888−905
ドキュメント中に含まれる図画の領域の識別能力を、従来と比較して向上させる。
上述の課題を解決するために、本発明の方法、システムおよびコンピュータプログラムは、次の構成を有する。
本発明の第1の態様にかかる方法では、受信手段により、ドキュメントのページを表す画像を受信し、分析手段により、前記ページ内のテキストオブジェクトを識別するために前記画像を分析し、マスク画像生成手段により、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成し、画素グループ識別手段により、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別し、図画領域識別手段により、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別し、保存手段により、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する、ことを特徴とする。
別の態様の方法においては、前記図画領域識別手段は、前記ページ内のテキストオブジェクトを識別するために光学文字認識技術(OCR)を用いて前記画像を分析することを特徴とする。
別の態様の方法においては、前記マスク画像生成手段は、前記画像の背景色を識別し、前記テキストオブジェクトを含む画像領域内の画素について、前記背景色のカラー値をカラー値として設定することを特徴とする。
別の態様の方法においては、前記マスク画像生成手段は、前記画像の背景色を識別し、前記テキストオブジェクトの境界ボックスで囲まれる画像領域内の画素について、前記背景色のカラー値をカラー値として設定することを特徴とする。
別の態様の方法においては、前記画素グループ識別手段による前記マスク画像内の一以上の前記画素グループの識別に先立って、さらに画像処理手段が、前記マスク画像をダウンサンプリングすることを特徴とする。
別の態様の方法においては、前記マスク画像のダウンサンプリングに先立って、さらに前記画像処理手段が、前記マスク画像を平滑化することを特徴とする。
別の態様の方法においては、前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、前記マスク画像を二値化する工程を含み、前記マスク画像を二値化する工程は、前記画像の背景色のカラー値に関する所定の閾値の範囲内にないカラー値を有する画素に第1のカラー値を設定し、前記画像の背景色のカラー値に関する所定の閾値の範囲内にあるカラー値を有する画素に第2のカラー値を設定することを特徴とする。
別の態様の方法においては、前記マスク画像に対して、前記第1のカラー値を有する画素の数を削減する処理を施すことを特徴とする。
別の態様の方法においては、前記第1のカラー値を有する画素の削減処理は、周囲を前記第1のカラー値を有する画素で囲まれた内部画素を削減することを含むことを特徴とする。
別の態様の方法においては、前記内部画素を削減するために、モルフォロジ収縮エッジ検出器を用いることを含むことを特徴とする。
別の態様の方法においては、前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、画像処理手段が、前記マスク画像からノイズを除去することをさらに含むことを特徴とする。
別の態様の方法においては、前記画素グループ識別手段による前記マスク画像中の一以上の画素グループの識別に先立って、画像処理手段が、前記マスク画像から装丁用グラフィックスを削除することをさらに含む。
別の態様の方法においては、前記画素グループ識別手段は、倍率変更画像を生成するために、結合コンポーネントの寸法に基づいて前記マスク画像を拡縮し、ノーマライズドカット法を用いて、N個の要素を含むとともに、前記要素kの各々はk個のクラスタを含む(ここでkは0<k≦Nの整数)、倍率変換した前記マスク画像の画素のクラスタリングシーケンスを取得し、所定の条件を満たすクラスタリングシーケンスの要素を識別することを特徴とする。
別の態様の方法においては、前記所定の条件は、前記クラスタリングのシーケンス中の隣接する要素中のクラスタ間の距離の変化を最大化するクラスタリングシーケンスの要素を含むことであることを特徴とする。
別の態様の方法においては、前記図画領域識別手段が、一以上の前記画素グループに基づいて前記図画の領域を識別する工程は、前記一以上の画素グループのセグメント化不足あるいは過剰セグメント化を修正し、修正された前記画素グループに基づいて前記図画の領域の識別を行う、ことを含む。
別の態様の方法においては、一以上の前記画素グループの修正は、前記ページ内の前記図画に対応するキャプションテキストを識別し、前記キャプションテキストに基づいて前記一以上の画素グループを調整することを特徴とする。
別の態様の方法においては、前記キャプションテキストに基づく前記一以上の画素グループの調整は、前記一以上の画素グループの一部を結合することを含むことを特徴とする。
別の態様の方法においては、前記キャプションテキストに基づく前記一以上の画素グループの調整は、前記一以上の画素グループの一部を分割することを含むことを特徴とする。
別の態様の方法においては、前記ページ内の前記図画に対応するキャプションテキストの識別は、光学文字認識技術を用いて、前記ページを表す画像中で、前記一以上の画素グループから所定の距離内に存在するテキストを識別し、識別された前記キャプションテキストが、キャプションテキストであることを示す所定のテキストトークンであるかを識別するために、文字列マッチング処理を行うことを特徴とする。
別の態様の方法においては、前記図画の各々の前記メタデータタグとともに前記キャプションテキストの各々を保存することを特徴とする。
本発明の第2の態様にかかる画像識別システムは、ドキュメントのページを表す画像を受信する受信手段と、前記ページ内のテキストオブジェクトを識別するために前記画像を分析する分析手段と、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成するマスク画像生成手段と、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別する画素グループ識別手段と、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別する図画領域識別手段と、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する保存手段と、を備えることを特徴とする。
本発明の第3の態様にかかる画像識別用のコンピュータプログラムは、コンピュータを、受信手段により、ドキュメントのページを表す画像を受信し、分析手段により、前記ページ内のテキストオブジェクトを識別するために前記画像を分析し、マスク画像生成手段により、前記ページ中のテキストオブジェクトを含む画像領域をマスクしてマスク画像を生成し、画素グループ識別手段により、前記マスク画像中の、前記ページ中の少なくとも一つの図画に対応する画素グループを識別し、図画領域識別手段により、一以上の前記画素グループに基づいて前記ページ中の前記少なくとも一つの図画に対応する領域を識別し、保存手段により、前記少なくとも一つの図画に対応する前記領域に関する情報を含む属性情報を、前記図画の各々に対応づけて保存する、ように動作させるためのプログラムであることを特徴とする。
ドキュメント中に含まれる図画の領域の識別能力を、従来と比較して向上させることが可能となる。
本発明の一実施形態に係る画像システムを表すブロック図である。 本発明の一実施形態に係るコンピュータシステムを表すブロック図である。 本発明の一実施形態に係るドキュメント中の図画を識別するための方法のフローチャートである。 本発明の一実施形態に係る、ドキュメントからマスク画像を生成する手法のフローチャートである。 本発明の一実施形態に係る、ドキュメントのマスク画像を二値化する方法のフローチャートである。 本発明の一実施形態に係る、ドキュメントのマスク画像中の一以上の画素を識別する方法のフローチャートである。 本発明の一実施形態に係る、ドキュメント中の図画領域を識別する方法のフローチャートである。 本発明の一実施形態に係る一以上の画素グループを改良するための方法のフローチャートである。 本発明の一実施形態に係る、ページ上の図画のキャプションテキストを識別する方法のフローチャートである。 本発明の一実施形態に係る、ドキュメントのページを表す画像を示す。 本発明の一実施形態に係る、ドキュメントのページのマスク画像を示す。 本発明の一実施形態に係る、ドキュメントのページのマスク画像の二値化画像を示す。 本発明の一実施形態に係る画素数を減少させた二値化画像を示す。 本発明の一実施形態に係る、画素グループを示す。 本発明の一実施形態に係る、他の画素グループを示す。 本発明の一実施形態に係る、例示的なマスク画像を示すブロック図である。 本発明の一実施形態に係る、図16Aの例示的なマスク画像のサイズ変更版を示すブロック図である。
上述した課題を解決するために、いくつかの実施形態では、ドキュメント中の図画を識別するためのシステムと方法を提供する。いくつかの実施形態では、ドキュメント中の図画に関するキャプションテキストも識別される。いくつかの実施形態では識別された図画に関するメタデータが生成される。このメタデータはページ内の識別された図画の位置を示す位置情報と、識別された図画に関するキャプションテキスト(あるいはキャプションテキストの一部)を含んでよい。図画をインデックス付けすることは、インデックスの利用、アクセス、検索およびドキュメントの閲覧といった作業に有効である。さらに、ドキュメント中の図画を識別することで、使用するディスプレイにより適した方法でドキュメントのコンテントを再配置したり表示したりすることで、大小のディスプレイを利用したドキュメント閲覧を改善することができる。さらに、ドキュメントに関するソーシャルあるいは共同作業アプリケーションで、図画の識別やタグ付けに利用することもできる。
一般に、ドキュメントはテキストと画像を含む。画像には図画とグラフィックスが含まれる。本発明で取り扱う図画とは、それ自体がドキュメントの提供する情報を構成する画像であって、写真のような撮像と、ブロック図、スクリーンショット、チャート、ロゴといった画像が含まれる。一方グラフィックスとは、それ自体はドキュメントの情報を構成しないが、例えばページの体裁を整えるために用いられる装丁用画像であって、例えば段区切りの直線といった、テキストでもなく図画でもない、図形要素を指す。なお、いくつかの実施形態では、図画と装丁用グラフィックスを厳密に区別しないで、いずれも図画として取り扱うことも可能である。
図1は、本発明のいくつかの実施形態に係る、画像システムを示すブロック図100である。いくつかの実施形態では、画像システムはドキュメント102を受信し、画像106を生成する。例えば、画像入力システム104はドキュメントをスキャンし、画像106を生成する。いくつかの実施形態では画像106はデジタル形式にエンコードされた画像を含む。デジタルエンコードには、ビットマップ、JPEG、GIF、TIFF、PDF、PNG、XDWといった形式が含まれる。なお、ここではドキュメントの一ページの画像を指すのに、「画像」という用語を用いている。なおいくつかの実施形態では、複数のページが1つの単位領域(例えば用紙の所定のサイズ)上に印刷されたドキュメントを取り扱うことも可能であり、そのときは後の処理で一ページとして取り扱われる電子情報の単位が「画像」に対応する。
いくつかの実施形態では、ドキュメント102は電子ドキュメントである。この実施形態ではドキュメント102は画像106に変換される。いくつかの実施形態では、電子ドキュメントはデジタル形式にエンコードされたテキストおよび/あるいは図画を含む。例えば、テキストは、ASCII、Unicodeといったデジタル文字コードに変換されてもよい。電子ドキュメン中の写真はベクトル画像、ビットマップ、JPEG、TIFFといった形式でエンコードされていてもよい。
いくつかの実施形態では、画像入力システム104は画像形成デバイスを含む。例えば、画像形成デバイスとしては、多機能複写機、スキャナ、ファクシミリ、デジタルカメラ、カムコーダー、携帯電話といったものを含むことができる。いくつかの実施形態では画像形成デバイスはドキュメントのデジタル画像を生成する。
いくつかの実施形態では、図画識別モジュール108が、境界ボックスのような領域や図画110のキャプションテキストを画像106から識別する。いくつかの実施形態では、図画識別モジュール108はコンピュータシステム(例えば、パーソナルコンピュータ、サーバなど)中に内蔵されてもよい。いくつかの実施形態では、図画識別モジュール108は、携帯電話、デジタルカメラといった携帯機器に搭載されていてもよい。もし、図画識別モジュール108が画像入力システム104と分離している場合には、画像106はネットワークを通じて図画識別モジュール108に伝送される。なお、ネットワークは、有線、無線のノード間を繋ぐいかなる通信チャネルであってもよい。さらに、ネットワークは、例えば、LAN、WANやこれらの組み合わせであってもよいが、これらに限定されない。いくつかの実施形態では、ネットワークとしてインターネットを含む。あるいは、画像106は物理メディア(例えば、CD ROM、DVD、フラッシュドライブ、フロッピー(登録商標)ディスク、ハードディスクなど)を用いて、図画識別モジュール108に入力されてもよい。いくつかの実施形態では、図画識別モジュール108は、図画を識別するためのメタデータタグ112を生成する。図画識別モジュール108については図2〜図15を用いて以下で詳述する。
図2は、いくつかの実施形態に係る、コンピュータシステム200を示すブロック図である。コンピュータシステム200は図1の画像入力システム104あるいはスタンドアロンなコンピュータシステムとすることもできる。コンピュータシステム200は通常一以上の処理ユニット(CPU)202、一以上のネットワークコミュニケーションインターフェース(通信インターフェース)204、メモリ210、そしてこれらを接続する一以上の通信バス209を含む。通信バス209は、チップセットと呼ばれるような、システムコンポーネント間を接続し通信を制御する回路を含んでもよい。コンピュータシステム200は、さらに表示デバイス(ディスプレイ)206と入力装置208(キーボード、マウス、タッチスクリーン、キーパッド等)を含んでもよい。いくつかの実施形態では、コンピュータシステム200はスキャナのような画像形成デバイス(画像入力装置)260を含んでもよい。メモリ210は、DRAM、SRAM、DDR、RAMといった高速ランダムアクセスメモリ210や他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えたりしてもよい。メモリ210はCPU202とは分離した一以上の記憶デバイスとすることもできる。メモリ210あるいはメモリ210内の不揮発性記憶デバイスは、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ210は以下のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・ オペレーティングシステム212 様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・ 通信モジュール214 コンピュータシステム200を他のコンピュータに一以上の通信インターフェース204(有線あるいは無線、インターネット、WAN、LAN、都市間通信ネットワークなど)を介して接続する。
・ ユーザインターフェースモジュール216 入力装置208を通じてユーザからのコマンドを受信し、表示デバイス206にユーザインタフェースオブジェクトを生成する。
・ 画像形成モジュール218 画像形成デバイス260のインターフェースを構成する。
・ 図画識別モジュール108 後で詳述するように、ドキュメント中の図画を識別する。
・ ドキュメントページの画像250 識別された図画の領域252と関連づけられたキャプションテキスト254を含む。
・ メタデータ256
なお、図画識別モジュール108は、以下のモジュールを含む。
・ 光学文字認識(OCR)モジュール222 画像中のテキストオブジェクトを識別する。
・ マスキングモジュール224 画像中の領域をマスクする。
・ 二値化モジュール226 所定の条件に応じて画素のカラー値を1あるいは0に設定する。
・ フィルタリングモジュール228 画像を滑らかにする。
・ グループ化モジュール230 画像中の画素をグループ化する。
・ 図画識別モジュール232 グループ化された画素から個々の図画を識別する。
・ メタデータモジュール234 識別された図画のメタデータあるいはメタデータタグを生成、記憶する。
・ ダウンサンプリングモジュール236 画像をダウンサンプリングする。
・ ノイズ除去モジュール238 画像からノイズや装丁用グラフィックスを除去する。
・ 画素削減モジュール240 画像中の画素数を削減する。
いくつかの実施形態では、識別された図画のメタデータ256は、領域252の座標と関連付けられたキャプションテキスト254を含む。いくつかの実施形態では、メタデータ256は画像250のファイル中に含まれる。例えば、メタデータ256は画像に関するファイルの特定のメタデータ領域に記憶されてもよい。いくつかの実施形態では、メタデータ256は画像250とは別個に記憶されている。例えば、メタデータ256はデータベース中や一以上のドキュメント中に記憶することもできる。これらの実施形態では、各画像の各メタデータは、各画像が記憶された場所(例えばURL、ファイルシステムアドレスなど)を識別する情報を含んでいる。いくつかの実施形態では、メタデータ256には、メタデータの属性や値を特定するために用いられるタグ(例えば、XMLタグ)を含む。
上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ(CPU202)によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成したりするなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ210は上述のモジュールおよびデータ構造の一部を記憶してもよい。さらに、メモリ210は記述していない追加のモジュールやデータ構造を記憶させることもできる。
図2はコンピュータシステムを示すが、図2はコンピュータシステムに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示された要素を結合したり、ある要素を分離したりすることも可能である。例えば、図2で別々に示されているアイテムを一台のコンピュータシステムで実現できるし、一つのアイテムを複数のコンピュータシステムで実現することもできる。
図3〜図9は、本発明のいくつかの実施形態において、ドキュメント中の図画を識別する方法を示す。図3〜図9のいくつかの処理については、図10〜図16に記載もしくは参照して説明される。図10〜図16はドキュメント中の図画の識別のためのドキュメントの画像処理の異なるフェーズを示している。
図3は、いくつかの実施形態において、ドキュメント中の図画を識別するための方法のフローチャート300である。図画識別モジュール108は、テキストや図画を含む可能性のあるドキュメントのページを表す画像を受信する。例えば、図10はいくつかの実施形態に関する、ドキュメントのページを表す例示的な画像1000を示す。図10に示すように、画像1000は、テキストオブジェクト1002、図画1004、1006、キャプションテキスト1008、1010と、装丁用グラフィックス1012と、を含む。いくつかの実施形態では、ドキュメントは、PDF、スプレッドシート、プレゼンテーション、ワードプロセッサなどの、電子ドキュメントである。いくつかの実施形態では、ドキュメントのページを表す画像は、コピー機、デジタルカメラ、デジタルスキャナといった、画像入力デバイス(システム)104から受信される。いくつかの実施形態では、ドキュメントのページを表す画像は、電子ドキュメントを画像に変化させる、Ghostscript、Xpdf、DocuWorksといったアプリケーションから受信される。
次に、OCRモジュール222は、ページ中のテキストオブジェクトを識別するために解析を行う(例えば、画像1000内のテキストオブジェクト1002)。いくつかの実施形態では、OCRモジュール222は、ページ内のテキストオブジェクトを識別するためにOCR技術を使う。いくつかの実施形態では、OCRモジュール222は、ページ内のテキストオブジェクトの境界ボックスを識別するためにOCR技術を用いる。各境界ボックスは、対角する2点の座標あるいは4つの角の座標で定義できる。いくつかの実施形態では、OCR技術によって、ページ内のテキストトークン(例えば、単語)と境界ボックスの両方を識別する。
マスキングモジュール224は、ページ内のテキストオブジェクトを含む画像領域をマスクすることでマスク画像を生成する(306)。例えば、テキストオブジェクトを含む画像領域は、そのテキストオブジェクトの境界ボックスで定義されてもよい。その境界ボックスの内部がマスクされる。図4は、いくつかの実施形態における、ドキュメントのマスク画像を生成する方法(306)のフローチャートである。マスキングモジュール224は、画像の背景色を識別し(402)、画素のカラー値を、テキストオブジェクトを含む画像領域内の画素の背景色のカラー値に設定する(404)。あるいは、マスキングモジュール224は、画素のカラー値を、テキストオブジェクトの境界ボックスで囲まれる画像領域内の画素の背景色のカラー値に設定する(404)。図11は、いくつかの実施形態における、ドキュメントのページのマスク画像を示す。図11に示されるように、ドキュメント1000のテキストオブジェクト1002、キャプションテキスト1008、1010がマスク画像1100を生成するためにマスクされる。マスク画像1100には、それぞれ図画1004と1006に対応する図画1104と1106と、装丁用グラフィックス1012と、が含まれている。図10と比較すると図画1006中の一部のテキストがマスクされてしまっているが、後述する手法によって図画1006は適切に識別することができる。
ステップ308〜318は、任意の操作である。これらの操作の組み合わせを、マスク画像に対して施すことができる。いくつかの実施形態では、ステップ308〜318の順序で処理がなされる。
いくつかの実施形態では、フィルタリングモジュール228は、マスク画像を平滑化処理する(308)。いくつかの実施形態では、フィルタリングモジュール228は、マスク画像を平滑化するのにローパスフィルタを用いる。マスク画像を平滑化するのにローパスフィルタを用いることでマスク画像中のエイリアシングを低減させることができる。
場合によってはページの画像は高解像度(例えば、スキャナから1700×2200画素を受信)の場合がある。ここで述べる実施形態では高解像度画像を用いて得られるような高精度は必要ないので、いくつかの実施形態では、ダウンサンプリングモジュール236によって、マスク画像をダウンサンプリングする(310)。例えば、マスク画像は120×155画素の解像度にダウンサンプリングされる。
ここで説明する実施形態では、ページ内の図画を識別するのにカラー情報は必要としない。このため、いくつかの実施形態では、二値化モジュール226がマスク画像を二値化する(312)。マスク画像の二値化では、画素が前景か背景かの判断に応じて、画素値を1(例えば、前景の画素)、画素値を0(例えば背景の画素)に変換する。図5は、いくつかの実施形態における、ドキュメントのマスク画像の二値化方法(312)のフローチャートである。二値化モジュール226は、そのカラー値が画像の背景色に対応する所定の色閾値の範囲内になければ、その画素のカラー値を1(1の画素)に設定し、そのカラー値が画像の背景色の所定の色閾値の範囲内であれば、その画素のカラー値を0(0の画素)に設定する。いくつかの実施形態では、画像の背景色のカラー値は、マスク画像の画素のもっとも頻度の高いカラー値を識別することで決定される。図12は、いくつかの実施形態における、ドキュメントのページのマスク画像1100の2値化画像1200を示すものである。背景色(例えば白)でないか、背景色の所定の色閾値の範囲内にない、カラー値を有する全ての画素のカラー値は1とする。それ以外の画素のカラー値は0とする。こうして、図画1004と1006に対応する画像領域1204と1206と装丁用グラフィックス1012の画素とが1に設定される。それ以外の画素のカラー値は0に設定される。
いくつかの実施形態では、画素削減モジュール240は、マスク画像中のカラー値が1の画素を削除し、処理対象となる画素を減らす。このため、これらの実施形態は、処理能力に制約がある装置(例えば、多機能複写機、スキャナ、デジタルカメラ、携帯電話等)を用いて処理を行う場合に有効である。しかし、たとえ十分な処理能力のある装置(例えば、マルチプロセッサやマルチコアのプロセッサをもったコンピュータシステム)であっても、マスク画像から多くの画素を削減することで、ドキュメント中の画像の図画を識別するために必要な処理時間を減らすことができる。いくつかの実施形態では、画素削減モジュール240は、カラー値が1の内部画素(値1の画素)のみを削減する。いくつかの実施形態では、内部画素はモルフォロジ収縮残留エッジ検出器(morphological erosion residue edge detector)を用いて削減される。いくつかの実施形態では、値1の内部画素とは、上下左右(4つの隣接点)で値1の画素と隣合っている、カラー値が1の画素を言う。いくつかの実施形態では、上下左右、左上、左下、右上、右下(8つの隣接点)で値1の画素と隣り合っている、カラー値が1の画素としてもよい。値1の内部画素を削減することで、平方根の比率で値1の画素の数を減少させることができる。いくつかの実施形態では、値1の内部画素を削減するかわりに、1つおき(例えば市松模様)に値1の画素を削減してもよい。図13に示すように、図画1004と1006とにそれぞれ対応する図画1304と1306との値1の内部画素が削減される。
いくつかの実施形態では、ノイズ除去モジュール238が、マスク画像のノイズの除去(316)と装飾グラフィックスの削除(318)を行う。例えば、斑点や他の付着物のようなノイズ、長く細い線等の高アスペクト比の装丁用グラフィックスが除去されうる。図13に示すように、ノイズ除去モジュール238は装丁用グラフィックスを削除している。
次に、グループ化モジュール230は、マスク画像中の画素グループを識別する(320)。なお、各画素グループはページ内の少なくとも一つの図画に対応している。いくつかの実施形態では、画素のグループはページの二値化されたマスク画像中の値1の画素のグループである。いくつかの実施形態では、グループ化モジュール230はk平均クラスタリング手法を用いて画素をグループ化する。いくつかの実施形態では、グループ化モジュール230は、修正ノーマライズドカット法(modified Normalized Cuts)を用いて、画素をグループ化する。こうした形態の場合には、画像中の各画素を、重み付けしたグラフのノードとする標準のノーマライズドカット法の代わりに、修正ノーマライズドカット法で、減少させた二値化画像と値1の画素のクラスタを得るために画像を処理する。
図6は、いくつかの実施形態に係る、修正ノーマライズドカット法を用いて、ドキュメントのマスク画像中の画素を一以上のグループに判別する方法(320)のフローチャートである。グループ化モジュール230は、縮小マスク画像を生成するために、結合コンポーネントの範囲に基づいてマスク画像を縮小する(602)。この縮小処理により、細長いクラスタに対するノーマライズドカット法の処理が改善される。標準ノーマライズドカット法では、時々細長いクラスタを分割してしまう。この問題を解決するために、いくつかの実施形態では、マスク画像は、結合コンポーネントの平均幅と高さそれぞれに基づいて、x軸およびy軸方向の寸法が縮小される。ここで、この各値1の画素のセットは、値1の画素のセット中の他の値1の画素と、値1の画素のセット中の連続近接する値1の画素を介して連続している、値1の画素を含む、値1の画素のセットを構成することで、結合コンポーネントは判別できる。例えば、いくつかの実施形態では、マスク画像は、全ての結合コンポーネントの幅と高さが等しくなるようにx、y軸方向の寸法を縮小される。図16Aおよび図16Bは、例示的なマスク画像1601を示すブロック図1600である。マスク画像1601は画素グループ1602、1606を含んでいる。図16Aおよび図16Bに示すように、画素グループ1602および1603は細長い。このため、x軸方向に画素グループを縮小することが望ましい。図16Bはマスク画像1601の縮小版である、縮小マスク画像1621を示すブロック図1620である。この例では、画素グループ1602〜1606は縮小画素グループ1622〜1626をそれぞれ生成するようにx軸方向に縮小されている。このように、画素グループ1602および1603のアスペクト比は図16Bでは縮小されていて、細長さは低減されている。
次に、グループ化モジュール230は、縮小マスク画像の画素のクラスタリングシーケンスを得るために、ノーマライズドカット法を適用する(604)。ここで、クラスタリングのシーケンスにはNの要素が含まれ、クラスタリングのシーケンス中のk番目の要素はk個のクラスタを含み、kは0<k≦Nの整数である。例えば、クラスタリングのシーケンスの5番目の要素は、5つの画素のクラスタを含む。言い換えると、ノーマライズドカット法は、k個のクラスタのシーケンスを特定することで、縮小された画素(例えば値1の画素)に適用される(ここで、kはターゲットクラスタの数で、例えばk={1,2,3,…,N})。このプロセスは、クラスタリングのシーケンス{Ck}を生成する。ここで各クラスタリングCはクラスタ{ck,i} (ここでi≦k)から形成される。なお、ノーマライズドカット法については、非特許文献3に詳細が記載されているので、詳細は省略する。
グループ化モジュール230は、次に所定の条件を満たすクラスタリングのシーケンスの要素を識別する(606)。いくつかの実施形態では、所定の条件は、クラスタリングのシーケンス中の隣接する要素のクラスタ間の最小(あるいは平均)距離での実質的な変化が最大となるクラスタリングのシーケンスの要素を含む。いくつかの実施形態では、所定の条件は、値kがCkおよびCk-1中のクラスタ間の距離の変化を最大化するときに満たされる。いくつかの実施形態では、もしCk+1,Ck+2,…,Ck+Mがクラスタ間の最小(もしくは平均)距離の時に実質的に同じ増加を持つ場合、Ck+Mは所定の条件を満たす。
図14は、いくつかの実施形態に関し、画像1000の画素グループ1402を示す。図14に示すように、画素グループ1402は、セグメント化不足の例である、図画1004および1006を含む。この状態を修正する方法を図7を参照して説明する。
ここで、0以上の画素グループが識別されうることに注意をされたい。例えば、テキストしか含まないドキュメントのページ中では、すべての画素が予めマスクされてしまうので0個の画素グループが生成されることになる(例えば、図3の工程306)。いくつかの実施形態では、画素グループが0個であるとき、図画識別モジュール108はその画像の処理を終了し、ドキュメントのページの次の画像を処理する(326)。一以上の画素グループがあるときに、いくつかの画素グループは一より多い図画を含むかもしれないし、いくつかの画素グループは1より少ない(0個の)図画しか含まないかもしれない。このため、いくつかの実施形態では、一以上の画素グループがあるときに、図画識別モジュール232は、一以上の画素グループに基づいて図画の領域(例えば、境界ボックス)を識別する(322)。図7は、いくつかの実施形態に係る、ドキュメント中の図画の領域を識別する方法のフローチャートである(322)。図画識別モジュール232は、セグメント化不足と過剰セグメント化を修正するために一以上の画素グループを改善処理し(702)、一以上の改善処理されたグループに基づいて図画の領域を識別する(704)。いくつかの実施形態では、図画識別モジュール232は、図画の領域の座標を識別する。例えば、もし領域が矩形領域であれば、図画識別モジュール232は、その図画の境界ボックスの対向する2角の座標を識別する。あるいは、図画識別モジュール232は、図画の境界ボックスの4つの角の座標を識別してもよい。ただし、図画の領域は非矩形形状(例えば、円、多角形あるいは他の形状)であってもよい。
視覚情報だけからでは、近接する画素グループが分離されるべきか、結合されるべきか、決定することが難しいかもしれない。このとき、いくつかの実施形態では近接する画素グループを改善処理するためにキャプションテキストを使う。図8は、いくつかの実施形態に係る、一以上の画素グループを改善処理する方法(702)のフローチャートである。図画識別モジュール232は、ページ中の図画に関するキャプションテキストを識別する(802)。いくつかの実施形態では、クラスタのキャプションテキストを検出するのにOCR技術を用いる。この場合、文字列マッチング処理が、キャプションテキストを示す単語を識別するOCR技術により識別されたテキストに対して適用される。例えば、キャプションテキストを示す単語(文、文字)には、「図」、「表」、といった単語が含まれる場合が多い。いくつかの実施形態では、文字列マッチング処理には、OCR技術により誤認識された文字に対処するために、ワイルドカードを用いても良い。OCR技術により識別されたページ画像上のテキストトークン(あるいは単語)の位置を用いると、クラスタから所定の距離以上離れた位置にある、あるいは、クラスタに近接した行から開始されないテキストトークン(あるいは単語)は除外される。いくつかの実施形態では、もしフォント情報(例えば、イタリック、太字等)が入手出来る場合、キャプションテキストを示す語を識別するためにフォント情報を用いてもよい。例えば、「図」という語は、太字にされている可能性がある。これらのキャプションテキストを示すと識別された各単語に対して、キャプションテキストを示す単語とその単語を含む文を含む、キャプションオブジェクトが生成される。
図画に対するキャプションテキストが識別されたのち、図画識別モジュール232は、キャプションテキストに基づいて一以上のグループを調整する(804)。例えば、2つのキャプションテキスト(例えば、「図」、という語を含むキャプションテキスト)が近接している画素グループは、2つの図画を含んでいる可能性が高く、これらは分離される。いくつかの実施形態では、キャプションテキストは、画素グループの近傍のテキストから図画を示す単語を識別することで、識別される。いくつかの実施形態では、図画識別モジュール232はキャプションテキストに基づく一以上のグループを調整するために、一以上のグループの一部を組み合わせる。いくつかの実施形態では、図画識別モジュール232は、キャプションテキストに基づいて、一以上のグループを調整するために、一以上のグループの一部を分離する。図15は、いくつかの実施形態に係る、他の画素グループ1502、1504を示している。画素のグループ1402はセグメント化不足である。言い換えると、画素グループ1402は一以上の図画を含んでいる。図15に示すように、改善処理によりセグメント化不足が修正され、画素グループ1502および1504を生成する(例えば、図7および8に示す方法による場合)。
図9は、いくつかの実施形態に係る、ページ内の図画に対するキャプションテキストを識別するための方法(802)のフローチャートである。図画識別モジュール232は、一以上のグループからテキストを識別するためにページを表す画像にOCR技術を用い(902)、キャプションテキストを示す所定のテキストトークンを識別するために抽出したテキストに文字列マッチング処理を施す(904)。いくつかの実施形態では、各図画に対するキャプションテキストは、各図画の各メタデータ(あるいはメタデータタグ)とともに保存される。
図3に戻って、メタデータモジュール234は、図画に関するメタデータ256(あるいはメタデータタグ)を保存する(324)。ここで、各図画に対する各メタデータ(あるいはメタデータタグ)は、各図画のそれぞれの領域に関する情報を含む。いくつかの実施形態では、各図画に対するメタデータ(あるいはメタデータタグ)は、ページ画像内の各図画の位置に関する情報と、各図画に対応するキャプションテキストの少なくとも一部を含んでいる。例えば、図画に関するメタデータ(あるいはメタデータタグ)は、図画の領域の位置を識別する座標情報と、図画に対応するキャプションテキストから抽出された説明文やキーワードを含んでいて良い。いくつかの実施形態では、XMLタグが利用される。例えば、図画に対するXMLタグは<picture>タグ中に含められる。<picture>タグ内では、キャプションは<caption>タグ内に含めることができる。<picture>タグは、図画の領域の座標を示す<location>タグを含んでいてもよい。<type>タグは図画の種別を示すのに用いることができる(例えば、図、表、ブロック図、フローチャート等)。
いくつかの実施形態では、図画に関するメタデータタグが保存された後、図画識別モジュール108は、ドキュメントのページの次の画像を処理する(326)。
マスク画像をダウンサンプリングする場合には、図画の位置は、ページの原画像の図画の位置に対応するように、再マッピングされる。例えば、各識別された図画の領域の座標は、マスク画像がダウンサンプリングされた比率に応じて縮倍される。もしマスク画像が1/2倍にダウンサンプリングされた場合、識別された図画の各領域のx軸とy軸の両方の座標は1/2倍される。
連結コンポーネントの幅および高さに基づいて、マスク画像を拡縮倍し直すときには、識別された図画の位置は、ページの原画像中の図画の位置に対応するように、結合コンポーネントの平均幅および平均高さに基づいて、再マッピングされる。例えば、各識別された領域のx軸は結合コンポーネントの平均幅倍とされ、各識別された領域のy軸は結合コンポーネントの平均高さ倍とされる。
図3〜図9に記述された方法は、コンピュータ可読記憶媒体中に保存されたプログラムにより実現することができ、一以上のサーバの一以上のプロセッサにより実行させることができる。図3〜図9に示された各処理は、コンピュータメモリあるいはコンピュータ可読記憶媒体中に保存されたプログラムに対応させることができる。コンピュータ可読記憶媒体としては、磁気または光学記憶装置、フラッシュメモリのような固体状態記憶装置、あるいは他の不揮発性メモリデバイスを含んで良い。コンピュータ可読記憶媒体に記憶されたコンピュータプログラムとしては、ソースコード、アセンブリ言語、オブジェクトコード、あるいは他の一以上のプロセッサにより解釈され、実行可能な指令形式であってよい。
なお、これまでの記述は、説明を目的として、特定の実施形態を参照して説明されている。しかし、この具体的な説明は本発明を開示された詳細な形態に制限したり限定したりするためのものではない。多くの変更と変形を本開示に基づいて施すことができる。実施形態は発明の原理とその応用を説明するのにより適したものを選択して開示しており、当業者が本発明と多様の変形を加えた多様な実施形態を、特定の用途に適するように、利用できるようにするためのものである。
102 ドキュメント
104 画像入力システム
106 画像
108 図画識別システム

Claims (19)

  1. 受信手段ドキュメントのページを表す画像を受信し、
    図画領域識別手段が前記画像の複数のキャプション識別し、
    前記図画領域識別手段が前記画像の部分の各々を識別し、
    前記図画領域識別手段が前記画像の部分の各々が少なくとも前記画像の複数のキャプションの数及び位置に基づいて複数の図画を含むことを識別し、
    保存手段前記複数の図画のメタデータタグを保存
    前記図画領域識別手段が、前記画像の部分の各々が少なくとも前記画像の複数のキャプションの数及び位置に基づいて複数の図画を含むことを識別することは、
    一以上の画素グループへの前記画像の部分の各々の予備画素グループ化を決定し、
    前記一以上の画素グループに前記画像の部分の各々の画素をグループ化する画素の修正グループを生成し、
    前記画素の修正グループは、予備画素グループのセグメント化不足及び/または過剰セグメント化を修正し、
    前記画素の修正グループに基づいて前記複数の図画の識別を行う、
    ことを含
    前記画素の修正グループを生成することは、
    前記画像の部分の各々に対応するキャプションの数と、前記予備画素グループの画素グループの数と、を比較し、
    前記修正グループの画素グループの数と前記画像の部分の各々に対応するキャプションの数とが等しくなるように、前記画像の部分の各々に対応するキャプションの数と、前記予備画素グループの画素グループの数とが異なる判定に応じて、前記比較に基づいて前記一以上の画素グループを調整する
    ことを含む、
    ドキュメント中の図画の識別方法。
  2. 前記図画領域識別手段が前記複数のキャプションを識別することは、光学文字認識技術(OCR)を用いることを含む、請求項1記載の識別方法。
  3. 前記画像の部分の各々を識別することは、前記画像のテキストオブジェクトを含む画像領域をマスクすることを含み、
    前記画像のテキストオブジェクトを含む画像領域をマスクすることは、
    前記画像の背景色を識別し、前記テキストオブジェクトを含む画像領域内の画素について、前記背景色のカラー値をカラー値として設定する
    ことを含む、
    請求項1または2に記載の識別方法。
  4. 前記画像の部分の各々を識別することは、前記画像のテキストオブジェクトを含む画像領域をマスクすることを含み、
    前記画像のテキストオブジェクトを含む画像領域をマスクすることは、
    前記画像の背景色を識別し、前記テキストオブジェクトの境界ボックスで囲まれる画像領域内の画素について、前記背景色のカラー値をカラー値として設定する
    ことを含む、
    請求項1または2に記載の識別方法。
  5. 前記画像の部分の各々を識別することに先立って、画像処理手段が、前記画像をダウンサンプリングする
    ことをさらに含む、請求項1〜4のいずれか1項に記載の識別方法。
  6. 前記画像のダウンサンプリングに先立って、前記画像処理手段が、前記画像を平滑化する
    ことをさらに含む、請求項5記載の識別方法。
  7. 前記画像の部分の各々を識別することに先立って、前記画像を二値化する工程をさらに含み、
    前記画像を二値化する工程は、
    前記画像の背景色のカラー値に関する所定の閾値の範囲内にないカラー値を有する画素に第1のカラー値を設定し、
    前記画像の背景色のカラー値に関する所定の閾値の範囲内にあるカラー値を有する画素に第2のカラー値を設定する
    ことを含む、
    請求項1〜6のいずれか1項に記載の識別方法。
  8. 前記第1のカラー値を有する画素の数を削減する、ことをさらに含む請求項7記載の識別方法。
  9. 前記第1のカラー値を有する画素の数を削減することは、周囲を前記第1のカラー値を有する画素で囲まれた内部画素を削減することを含む請求項8記載の識別方法。
  10. 前記内部画素を削減することは、モルフォロジ収縮エッジ検出器を用いることを含む請求項9記載の識別方法。
  11. 前記画像の部分の各々を識別することに先立って、前記画像からノイズを除去することをさらに含む請求項1〜10のいずれか1項に記載の識別方法。
  12. 前記画像の部分の各々を識別することに先立って、前記画像から装丁用グラフィックスを削減することをさらに含む請求項1〜11のいずれか1項に記載の識別方法。
  13. 画素グループ識別手段は、倍率変更画像を生成するために、結合コンポーネントの寸法に基づいて前記画像を拡縮し、ノーマライズドカット法を用いて、N個の要素を含むとともに、前記要素kの各々はk個のクラスタを含む(ここでkは0<k≦Nの整数)、倍率変換した前記画像の画素のクラスタリングシーケンスを取得し、
    所定の条件を満たすクラスタリングシーケンスの要素を識別する、
    請求項1〜12のいずれか1項に記載の識別方法。
  14. 前記所定の条件を満たすクラスタリングシーケンスの要素を識別することは、クラスタリングのシーケンス中の隣接する要素中のクラスタ間の距離の変化を最大化するクラスタリングシーケンスの要素を識別することを含む請求項13記載の識別方法。
  15. 前記比較に基づく前記一以上の画素グループの調整は、前記予備画素グループの画素の前記一以上の画素グループの一部を結合することを含む請求項1〜14のいずれか1項に記載の識別方法。
  16. 前記比較に基づく前記一以上の画素グループの調整は、前記予備画素グループの画素の前記一以上の画素グループの一部を分割することを含む請求項1〜14のいずれか1項に記載の識別方法。
  17. 前記画像の複数のキャプションを識別することは、光学文字認識技術を用いて、画像中で、前記画像の部分の各々から所定の距離内に存在するテキストの各々を識別し、
    キャプションテキストであることを示す所定のテキストトークンであるかを識別するために、前記テキストの各々に、文字列マッチング処理を行い、
    前記テキストの各々の複数のテキストオブジェクトの各々について、前記テキストオブジェクトの各々がキャプション識別条件に適合することに応じて、前記テキストオブジェクトの各々をキャプションとして識別し、
    前記キャプション識別条件は、前記テキストオブジェクトの各々が前記所定のテキストトークンの一つを含む、ことを含む、
    請求項1〜16のいずれか1項に記載の識別方法。
  18. ドキュメントのページを表す画像を受信する受信手段と、
    前記画像の複数のキャプションを識別し、前記画像の部分の各々を識別し、前記画像の部分の各々が少なくとも前記画像の複数のキャプションの数及び位置に基づいて複数の図画を含むことを識別する図画領域識別手段と、
    前記複数の図画のメタデータタグを保存する保存手段と、
    備え
    前記図画領域識別手段が、前記画像の部分の各々が少なくとも前記画像の複数のキャプションの数及び位置に基づいて複数の図画を含むことを識別することは、
    一以上の画素グループへの前記画像の部分の各々の予備画素グループ化を決定し、
    前記一以上の画素グループに前記画像の部分の各々の画素をグループ化する画素の修正グループを生成し、
    前記画素の修正グループは、予備画素グループのセグメント化不足及び/または過剰セグメント化を修正し、
    前記画素の修正グループに基づいて前記複数の図画の識別を行う、
    ことを含み、
    前記画素の修正グループを生成することは、
    前記画像の部分の各々に対応するキャプションの数と、前記予備画素グループの画素グループの数と、を比較し、
    前記修正グループの画素グループの数と前記画像の部分の各々に対応するキャプションの数とが等しくなるように、前記画像の部分の各々に対応するキャプションの数と、前記予備画素グループの画素グループの数とが異なる判定に応じて、前記比較に基づいて前記一以上の画素グループを調整する
    ことを含む、
    ドキュメント中の図画の識別システム。
  19. コンピュータを、
    ドキュメントのページを表す画像を受信し、
    前記画像の複数のキャプション識別し、
    前記画像の部分の各々を識別し、
    前記画像の部分の各々が少なくとも前記画像の複数のキャプションの数及び位置に基づいて複数の図画を含むことを識別し、
    前記複数の図画のメタデータタグを保存する、
    ように動作させるためのドキュメント中の図画の識別用のコンピュータプログラムであって、
    前記画像の部分の各々が少なくとも前記画像の複数のキャプションの数及び位置に基づいて複数の図画を含むことを識別することは、
    一以上の画素グループへの前記画像の部分の各々の予備画素グループ化を決定し、
    前記一以上の画素グループに前記画像の部分の各々の画素をグループ化する画素の修正グループを生成し、
    前記画素の修正グループは、予備画素グループのセグメント化不足及び/または過剰セグメント化を修正し、
    前記画素の修正グループに基づいて前記複数の図画の識別を行う、
    ことを含み、
    前記画素の修正グループを生成することは、
    前記画像の部分の各々に対応するキャプションの数と、前記予備画素グループの画素グループの数と、を比較し、
    前記修正グループの画素グループの数と前記画像の部分の各々に対応するキャプションの数とが等しくなるように、前記画像の部分の各々に対応するキャプションの数と、前記予備画素グループの画素グループの数とが異なる判定に応じて、前記比較に基づいて前記一以上の画素グループを調整する
    ことを含む、
    コンピュータプログラム
JP2010129890A 2009-08-25 2010-06-07 識別方法、識別装置およびコンピュータプログラム Expired - Fee Related JP5659563B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/547,396 2009-08-25
US12/547,396 US8634644B2 (en) 2009-08-25 2009-08-25 System and method for identifying pictures in documents

Publications (2)

Publication Number Publication Date
JP2011048816A JP2011048816A (ja) 2011-03-10
JP5659563B2 true JP5659563B2 (ja) 2015-01-28

Family

ID=43625012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010129890A Expired - Fee Related JP5659563B2 (ja) 2009-08-25 2010-06-07 識別方法、識別装置およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US8634644B2 (ja)
JP (1) JP5659563B2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8184910B2 (en) * 2008-03-18 2012-05-22 Toshiba Tec Kabushiki Kaisha Image recognition device, image recognition method, and image scanning apparatus having image recognition device
JP5132416B2 (ja) * 2008-05-08 2013-01-30 キヤノン株式会社 画像処理装置およびその制御方法
US20120284276A1 (en) * 2011-05-02 2012-11-08 Barry Fernando Access to Annotated Digital File Via a Network
US9105073B2 (en) * 2012-04-24 2015-08-11 Amadeus S.A.S. Method and system of producing an interactive version of a plan or the like
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
RU2595557C2 (ru) 2014-09-17 2016-08-27 Общество с ограниченной ответственностью "Аби Девелопмент" Выявление снимков экрана на изображениях документов
US9355311B2 (en) 2014-09-23 2016-05-31 Konica Minolta Laboratory U.S.A., Inc. Removal of graphics from document images using heuristic text analysis and text recovery
US9830508B1 (en) * 2015-01-30 2017-11-28 Quest Consultants LLC Systems and methods of extracting text from a digital image
US20160267569A1 (en) * 2015-03-10 2016-09-15 Google Inc. Providing Search Results Comprising Purchase Links For Products Associated With The Search Results
US10298907B2 (en) * 2016-04-20 2019-05-21 Fuji Xerox Co., Ltd. Method and system for rendering documents with depth camera for telepresence
US11176621B1 (en) * 2017-01-30 2021-11-16 Intuit Inc. Computer-implemented methods systems and articles of manufacture for addressing optical character recognition triggered import errors during preparation of electronic tax return
US10977744B1 (en) 2017-01-30 2021-04-13 Intuit Inc. Computer-implemented methods systems and articles of manufacture for validating electronic tax return data
US11295396B1 (en) 2017-01-30 2022-04-05 Intuit Inc. Computer-implemented methods systems and articles of manufacture for image-initiated preparation of electronic tax return
US10445615B2 (en) * 2017-05-24 2019-10-15 Wipro Limited Method and device for extracting images from portable document format (PDF) documents
JP7006009B2 (ja) * 2017-08-15 2022-01-24 富士フイルムビジネスイノベーション株式会社 画像識別装置及び画像形成プログラム
EP3682372A4 (en) 2017-09-14 2021-07-21 Chevron U.S.A. Inc. CLASSIFICATION OF STRINGS USING MACHINE LEARNING
US11080808B2 (en) 2017-12-05 2021-08-03 Lendingclub Corporation Automatically attaching optical character recognition data to images
US10861162B2 (en) 2017-12-08 2020-12-08 Ebay Inc. Object identification in digital images
US10769429B2 (en) * 2018-08-31 2020-09-08 Wipro Limited Method and system for extracting text from an engineering drawing
CA3114255C (en) * 2018-09-25 2023-08-22 Element Ai Inc. Automatically detecting and isolating objects in images
JP7252818B2 (ja) * 2019-04-05 2023-04-05 株式会社日立製作所 デジタル文書からのデータ抽出システム
US11514702B2 (en) 2020-01-31 2022-11-29 Servicenow Canada Inc. Systems and methods for processing images
WO2021152550A1 (en) * 2020-01-31 2021-08-05 Element Ai Inc. Systems and methods for processing images
CN111695558B (zh) * 2020-04-28 2023-08-04 深圳市跨越新科技有限公司 基于YoloV3模型的物流运单图片摆正方法及系统
KR102285269B1 (ko) * 2020-05-18 2021-08-04 주식회사 선도소프트 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법
US11423265B1 (en) * 2020-06-30 2022-08-23 Amazon Technologies, Inc. Content moderation using object detection and image classification
CN111860502B (zh) * 2020-07-15 2024-07-16 北京思图场景数据科技服务有限公司 图片表格的识别方法、装置、电子设备及存储介质
CN112464852B (zh) * 2020-12-09 2023-12-05 重庆大学 一种车辆行驶证图片自适应矫正与识别方法
CN113269183A (zh) * 2021-05-21 2021-08-17 上海蜜度信息技术有限公司 一种用于确定文字图片的方法与设备
US20230215207A1 (en) * 2021-11-29 2023-07-06 RedShred LLC Geographic management of document content
US11749006B2 (en) * 2021-12-15 2023-09-05 Intuit Inc. Optical character recognition quality evaluation and optimization
US11856261B1 (en) * 2022-09-29 2023-12-26 Motorola Solutions, Inc. System and method for redaction based on group association
KR102571815B1 (ko) * 2022-11-14 2023-08-28 주식회사 플랜티넷 객체 군집화 및 객체 선택 기반 문서 분류 방법 및 장치
CN116110051B (zh) * 2023-04-13 2023-07-14 合肥机数量子科技有限公司 一种文件信息处理方法、装置、计算机设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5784487A (en) * 1996-05-23 1998-07-21 Xerox Corporation System for document layout analysis
US6804403B1 (en) * 1998-07-15 2004-10-12 Digital Accelerator Corporation Region-based scalable image coding
JP2000090239A (ja) * 1998-09-10 2000-03-31 Matsushita Electric Ind Co Ltd 画像検索装置
US6463175B1 (en) * 2000-12-15 2002-10-08 Shih-Jong J. Lee Structure-guided image processing and image feature enhancement
JP2003346161A (ja) * 2002-05-23 2003-12-05 Kansai Electric Power Co Inc:The 図表内テキスト・図表キャプション・図表説明文・図表種類抽出プログラム、及び当該抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表内テキスト・図表キャプション・図表説明文・図表種類抽出装置
US7391917B2 (en) * 2003-02-13 2008-06-24 Canon Kabushiki Kaisha Image processing method
US7782339B1 (en) * 2004-06-30 2010-08-24 Teradici Corporation Method and apparatus for generating masks for a multi-layer image decomposition
JP4548062B2 (ja) * 2004-09-22 2010-09-22 富士ゼロックス株式会社 画像処理装置
US7848567B2 (en) 2004-09-23 2010-12-07 Fuji Xerox Co., Ltd. Determining regions of interest in synthetic images
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
US20090112830A1 (en) 2007-10-25 2009-04-30 Fuji Xerox Co., Ltd. System and methods for searching images in presentations
US8601393B2 (en) * 2008-01-28 2013-12-03 Fuji Xerox Co., Ltd. System and method for supporting document navigation on mobile devices using segmentation and keyphrase summarization
JP5302768B2 (ja) * 2008-06-26 2013-10-02 キヤノン株式会社 画像処理装置及び画像処理方法
US8290268B2 (en) * 2008-08-13 2012-10-16 Google Inc. Segmenting printed media pages into articles

Also Published As

Publication number Publication date
US8634644B2 (en) 2014-01-21
JP2011048816A (ja) 2011-03-10
US20110052062A1 (en) 2011-03-03

Similar Documents

Publication Publication Date Title
JP5659563B2 (ja) 識別方法、識別装置およびコンピュータプログラム
US20210256253A1 (en) Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium
Ye et al. Text detection and recognition in imagery: A survey
JP4918776B2 (ja) 電子文書比較プログラム、電子文書比較装置および電子文書比較方法
US6009196A (en) Method for classifying non-running text in an image
US5889886A (en) Method and apparatus for detecting running text in an image
JP4271878B2 (ja) 映像中の文字検索方法及び装置並びに文字検索処理プログラム
US9396540B1 (en) Method and system for identifying anchors for fields using optical character recognition data
US8843494B1 (en) Method and system for using keywords to merge document clusters
Rigaud et al. Robust frame and text extraction from comic books
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP2004318879A (ja) 画像内容を比較する自動化技術
JP2007102715A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
Akram et al. Document Image Processing- A Review
Mizan et al. Text Recognition using Image Processing.
JP2011065621A (ja) 情報処理装置及び情報処理プログラム
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2019016350A (ja) 電子文書における強調テキストの識別
Faustina Joan et al. A survey on text information extraction from born-digital and scene text images
Sahare et al. Robust character segmentation and recognition schemes for multilingual Indian document images
Fateh et al. Persian printed text line detection based on font size
Kumar et al. Online handwritten character recognition for Telugu language using support vector machines
JP2008028716A (ja) 画像処理方法及び装置
JP2006253842A (ja) 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法
Nazemi et al. Practical segmentation methods for logical and geometric layout analysis to improve scanned PDF accessibility to Vision Impaired

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141117

R150 Certificate of patent or registration of utility model

Ref document number: 5659563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees