JP5633188B2 - 移植可能な電子文書からラスタ画像を抽出する方法及び装置 - Google Patents

移植可能な電子文書からラスタ画像を抽出する方法及び装置 Download PDF

Info

Publication number
JP5633188B2
JP5633188B2 JP2010117428A JP2010117428A JP5633188B2 JP 5633188 B2 JP5633188 B2 JP 5633188B2 JP 2010117428 A JP2010117428 A JP 2010117428A JP 2010117428 A JP2010117428 A JP 2010117428A JP 5633188 B2 JP5633188 B2 JP 5633188B2
Authority
JP
Japan
Prior art keywords
image
candidate
raster image
candidate raster
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010117428A
Other languages
English (en)
Other versions
JP2010272117A (ja
Inventor
ドゥ チョン
ドゥ チョン
シュイ ワヌホォイ
シュイ ワヌホォイ
長谷川 史裕
史裕 長谷川
井上 浩一
浩一 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2010272117A publication Critical patent/JP2010272117A/ja
Application granted granted Critical
Publication of JP5633188B2 publication Critical patent/JP5633188B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • G06K15/18Conditioning data for presenting it to the physical printing elements
    • G06K15/1801Input data handling means
    • G06K15/181Receiving print data characterized by its formatting, e.g. particular page description languages
    • G06K15/1811Receiving print data characterized by its formatting, e.g. particular page description languages including high level document description only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • G06K15/18Conditioning data for presenting it to the physical printing elements
    • G06K15/1801Input data handling means
    • G06K15/1822Analysing the received data before processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K15/00Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
    • G06K15/02Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
    • G06K15/18Conditioning data for presenting it to the physical printing elements
    • G06K15/1848Generation of the printable image
    • G06K15/1852Generation of the printable image involving combining data of different types
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0065Converting image data to a format usable by the connected apparatus or vice versa
    • H04N2201/0067Converting to still picture data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Description

本発明は、移植可能な電子文書からラスタ画像を抽出する方法及び装置に関し、詳細には、移植可能な電子文書のフォーマットを分析することにより、その中のラスタ画像を抽出する方法及び装置に関する。
PDFやPS形式のような移植可能な電子文書は、日常の事務作業で幅広く用いられている。移植可能な電子文書は、文書を表示するための一種の電子文書フォーマットであり、このような電子文書の生成及び出力や、表示等の出力動作は、異なるアプリケーション、ハードウェア及びOSにより行われる。
移植可能な電子文書は、インライン(Inline)画像とImageXObjectの2種類のラスタ画像の記録方式を定義している。インライン画像に対応するPDFコマンドと画像データは、すべて、ページのコンテンツストリームに保存されるが、ImageXObjectに対応するPDFコマンドは、ページのコンテンツストリームに保存され、画像データは、ページのリソースに保存される。
画像における一連の制御点を記述し、制御点間のパスを接続することにより、画像の記述を行うベクトル画像と異なり、ラスタ画像は、ビットマップ画像とも呼ばれており、画像における各画素の色情報により該画像の表示を行っている。
移植可能な電子文書から、段落や表のような成分を抽出することは、やはり困難な作業である。例えば、Adobe Acrobatにより、PDF形式ファイルからのラスタ画像の抽出を行っているが、抽出結果が好ましくない場合がある。
先ず、インライン(Inline)ラスタ画像は、抽出することができない。例えば、AdobeのAcrobat Readerは、ImageXObjectラスタ画像しか抽出することができない。
次に、PDF形式ファイルにおいて、視覚上完全なラスタ画像は、通常、接続されている複数の画像断片で表示され、Adobe Acrobatにより、完全な画像ではなく、複数の画像断片を抽出している。
さらに、PDF形式ファイルにおいて、表の罫線は、通常、複数の細長いラスタ画像で表示され、Adobe Acrobatにより、このような表の罫線を表すラスタ画像も抽出されるが、このような細長い罫線は、通常、感知意味上のコンテンツではない。例えば、画像検索により、文書検索を行う場合、罫線を表すこのような細長いラスタ画像は、検索意味上の顕著な特徴を有していないため、ユーザは、このような細長いラスタ画像の検出は望んでいない。
特許文献1には、PDF形式ファイルにおける単語の抽出が開示されている。該特許は、文字断片における単語の分離記号(空白)の検出により、単語の抽出、或いは、隣り合う文字断片間の距離の判断を行っており、該距離が一定の閾値を超えていると、隣り合う文字断片を、2つの単語と判断する。該特許は、PDF形式ファイルを入力とし、該ファイルに含まれる単語の集合を出力としている。
特許文献2には、PDF形式ファイルからコンテンツ断片を抽出するツールが開示されている。先ず、ユーザは、PDFのブラウザインタフェースから1つの矩形をドラッグし、該ツールにより、該矩形内に含まれているPDF形式ファイルのコンテンツ断片の抽出を行い、抽出したコンテンツ断片を新たなPDF形式ファイルとして保存している。該ツールは、PDFコマンドの抽出と貼り付けは行っているが、画像や表の情報等の感知的な意味をもつ文書コンテンツの抽出は行っていない。
本発明は、従来技術の問題に鑑みてなされたもので、その目的は、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書の中のラスタ画像を抽出する方法及び装置を提供する。
本発明による移植可能な電子文書からラスタ画像を抽出する方法は、a)移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、b)前記コマンドとリソースを処理し、候補ラスタ画像を抽出するステップと、c)接続されている候補ラスタ画像を統合するステップと、d)偽ラスタ画像を除去するステップと、を含む。
また、本発明による移植可能な電子文書からラスタ画像を抽出する装置は、移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、前記コマンドとリソースを処理し、候補ラスタ画像を抽出する候補ラスタ画像抽出装置と、接続されている候補ラスタ画像を統合するラスタ画像統合装置と、偽ラスタ画像を除去する偽ラスタ画像除去装置と、を含む。
本発明の実施例によると、文書のコンテンツの抽出、文書の再利用、または文書の検索のような文書処理と文書理解分野に適用することができる。例えば、ラスタ画像の抽出は、文書の再利用と文書の検索システムに応用することができる。
本発明の実施例によると、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書からラスタ画像の抽出を行っており、インライン(Inline)ラスタ画像であっても、ImageXObjectラスタ画像であっても抽出することが可能となり、かつ、視覚上完全なラスタ画像を、完全な画像として抽出し、非感知意味上のコンテンツとしての細長い罫線は排除することが可能である。
本発明は、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書の中のラスタ画像を抽出する方法及び装置を提供することができる。
本発明の実施例による移植可能な電子文書からラスタ画像の抽出を行うコンピュータシステムのハードウェアの配置図である。 本発明の実施列による移植可能な電子文書からラスタ画像を抽出する方法の全体フローチャートである。 移植可能な電子文書から、ラスタ画像に関するコマンドとリソースを抽出する方法のフローチャートである。 候補ラスタ画像の抽出方法のフローチャートである。 接続されている候補ラスタ画像の統合方法のフローチャートである。 偽ラスタ画像の除去方法のフローチャートである。 PDF形式ファイルのツリー状文書構成及びコンテンツストリームの例を示す図である。 接続されているラスタ画像の統合例を示す図であり、詳細には、統合前の接続されている複数のラスタ画像を示す図である。 接続されているラスタ画像の統合例を示す図であり、詳細には、ラスタ画像統合後の結果を示す図である。 候補ラスタ画像が接続されているか否かを判断するためのパラメータを示す図である。
本発明は、移植可能な電子文書からラスタ画像を抽出するのに用いられる。ここで、移植可能な電子文書のフォーマットは、Adobe社のPDF(Portable Document Format)、PS(PostScript)等が含まれる。抽出したラスタ画像は、文書の再利用や文書の検索等に用いられる。本実施例は、PDF形式ファイルからラスタ画像の抽出について説明しているが、本発明は、任意の種類の移植可能な電子文書に用いることができることは、当業者であれば分かるはずである。
図1は、本発明の実施例による移植可能な電子文書からラスタ画像の抽出を行うコンピュータシステムのハードウェアの配置図である。図1に示されているように、PDF形式ファイルからラスタ画像の抽出を行うコンピュータシステム10は、コンピュータ11と、キーボード16と、モニター17と、プリンタ18、フロッピディスクドライブ19と、ネットワーク接続器20と、ハードディスクドライブ21が備えられている。コンピュータ11は、データバス12と、RAM13と、ROM14と、CPU15と、外部バス22を備えている。
CPU15は、RAM13からのコマンドにより、入力データの受信と処理、及びモニター17や他の周辺機器への出力を制御する。本実施例において、CPU15の一つの機能としては、入力されたPDF形式ファイルに対して処理を行い、該ファイルに含まれているラスタ画像を抽出することである。抽出したラスタ画像は、CPU15における他のアプリケーションにより用いられてもよい。
CPU15は、データバス12により、RAM13とROM14へのアクセスを行う。RAM13は、読み取り・書き込み可能なメモリとして用いることができ、各プロセスのワークエリアと可変データの記憶領域として用いることができる。ROM14には、PDF形式ファイル、ラスタ画像抽出プログラム、及び他のラスタ画像を抽出するためのプログラムが保存される。
外部バス22は、コンピュータ11に接続されている入力装置、出力装置、記憶装置等の周辺機器へのアクセスに用いられる。本実施例において、前記周辺機器は、モニター17、プリンタ18、フロッピディスクドライブ19、ネットワーク接続器20、ハードディスクドライブ21を備えている。モニター17は、外部バス22により、CPU15からの出力データと画像を表示しており、CRTやLCDディスプレイ等のようなグリッド形式(またはマトリックス形式と呼ばれる)の表示装置でもよい。プリンタ18は、CPUからの入力データと画像を紙や紙のような媒体に印刷する。モニター17やプリンタ18等の出力装置にPDF形式ファイルを表示するために、コンピュータシステム10は、PDF形式ファイルからその対応画像の表示への変換を行う必要がある。他の実施例においては、プリンタ18のような出力装置にCPUやCPUのようなプロセッサを設け、このようなプロセッサにより類似のPDF形式ファイルから画像への変換を行ってもよい。フロッピディスクドライブ19とハードディスクドライブ21は、PDF形式ファイルの保存に用いられる。フロッピディスクドライブ19により、異なるコンピュータシステム間のPDF形式ファイルの転送が可能となり、ハードディスク21は、より大きい記憶スペースと、より速いアクセス速度を有している。他の記憶装置、例えば、フラッシュメモリのようなものにPDF形式ファイルを保存し、コンピュータシステム10のアクセスに供してもよい。コンピュータシステム10は、ネットワーク接続器20により、ネットワーク上でデータの送信と他のコンピュータシステムからのデータの受信を行う。ユーザは、キーボード16等により、コマンドをコンピュータシステム10に入力することができる。
図2は、本発明の実施列による移植可能な電子文書からラスタ画像を抽出する方法の全体フローチャートである。図2に示されたように、本実施例による、例えばPDF形式ファイルの移植可能な電子文書からラスタ画像を抽出する方法30は、全体として、ステップS31において、ラスタ画像に関するコマンドとリソースを取得し、ステップS32において、候補ラスタ画像を抽出し、ステップS33において、接続されている候補ラスタ画像を統合し、ステップS34において、偽ラスタ画像を除去する動作を含んでいる。具体的には、ステップS31において、メモリにPDF形式ファイルをロードし、PDF形式ファイルのフォーマットを解析してページごとのラスタ画像に関するコマンドとリソースを取得する。ステップS32において、取得したコマンドとリソースに対して処理を施して候補ラスタ画像を抽出し、候補ラスタ画像リストに保存する。ここで、いわゆる「抽出」とは、画像位置、サイズの算出、及びPDF形式ファイルの指定された画像暗号形式に基づく画像データへの解読が含まれている。PDF形式ファイルにおいては、ImageXObject及びインライン画像(Inline Image)の2種類のラスタ画像が定義されている。本実施例において、該2種類のラスタ画像は、それぞれ、処理されて異なる候補ラスタ画像リストに保存される。ステップS33において、候補ラスタ画像リストにおける異なるラスタ画像の比較を行い、接続されている小さなラスタ画像を統合して大きなラスタ画像とする。最後に、ステップS34において、候補ラスタ画像リストにおける仕切線や表の罫線等を示す細長いラスタ画像を削除する。
図3は、移植可能な電子文書からラスタ画像に関するコマンドとリソースを抽出する方法、即ち、ステップS31のフローチャートである。図3に示されているように、ラスタ画像に関するコマンドやリソースの抽出工程において、先ず、ステップS311で、PDF形式ファイルをメモリにロードし、その後、ステップS312で、PDF形式ファイルのフォーマット構造を解析し、ファイルのツリー状構造を構築する。該ツリー状構造により、ファイルの各ページのコンテンツストリーム及びリソースへのアクセス及び取得を容易に行うことができる。例えば、図7は、PDF形式ファイルのツリー状文書構造及びページのコンテンツストリームの例を示しており、図7の左側の外郭が該文書の1ページ目のリソースを示し、左側の内郭が、該ページのリソースにおける1つの画像リソースを示し、右側が、該ページの対応コンテンツストリーム断片を示している。次に、ステップS313において、PDF形式ファイルの各ページのコンテンツストリームとリソースを順にロードし、現在のページが最後のページであるか否かを判断し、最後のページになるまでロードを続ける。ステップS314において、対応するページのコンテンツストリームの暗号方式に基づき、該ページのコンテンツストリームの解読を行う。PDF形式ファイルの仕様書(PDFフォーマットの遵守すべき規定を定義する)によると、PDF形式ファイルは、FlateDecode、LZWDecode等の様々なコンテンツストリームの暗号方式をサポートしている。ステップS314において、PDF形式ファイルに採用されている暗号方式に応じて解読を行い、解読されたPDFコンテンツストリームは、PDFコマンド集合からなるものである。ステップS315において、各行ごとに解読後のPDFコンテンツストリームにおけるコマンドを解析し、コマンド集合からラスタ画像に関するコマンドを抽出する。PDF形式ファイル仕様書は、ImageXObject及びインライン画像に対し、異なる記憶メカニズムと表示コマンドを定義している。例えば、コマンド「cm 100 0 0 100 40 90」は、ラスタ画像の始点(40、90)、及び画像表示サイズ(100*100)への制御に用いられ、コマンド「Do Img1」は、コマンド「cm」で指定される位置とサイズにより、ImageXObjectラスタ画像Img1の表示を行う。ImageXObjectラスタ画像では、Img1と対応する画像データは、該ページのリソースに保存する。コマンド「BI」は、インライン画像対象の形成を開始し、コマンド「ID」は、インライン画像データを表し、コマンド「EI」は、インライン画像データの終了を表し、かつ該インライン画像を表示する。ImageObjextXと異なり、インライン画像データは、ページのコンテンツストリームに直接保存されるため、ページのリソースからの抽出ではなく、ページのコンテンツストリームから直接抽出されることになる。このため、ステップS316において、ラスタ画像がImageXObject画像の場合は、各ページのリソースからラスタ画像に関するリソースを抽出し、ラスタ画像がインライン画像の場合は、解読されたコンテンツストリームからラスタ画像に関するリソースを抽出する。
図4は、候補ラスタ画像の抽出方法、即ち、ステップS32のフローチャートである。図4に示されているように、ステップS321において、各行ごとに抽出したラスタ画像に関するコマンドをロードする。ステップS322において、どのコマンドが画像表示コマンドであるかを判断する。PDF形式ファイルの仕様書によると、ImageXObjectに対応する表示命令は、「Do」であり、インライン画像に対応する表示コマンドは、「EI」である。各画像表示コマンドは、PDFページ面への1つのラスタ画像の表示に用いられる。ステップS323において、現在の表示コマンドに対応する候補ラスタ画像の位置とサイズ情報を取得する。PDF形式ファイルにおいて、ラスタ画像の位置とサイズ情報は、コマンド「cm a b c d e f」により定義される1つのアフィン変換により決められる。ここで、「cm」は、表示コマンドであり、「a b c d e f」は、パラメータである。「a b c d」により、画像のサイズと回転情報を取得し、パラメータ「e f」により、ページに対する画像の始点の座標を確定することができる。例えば、コマンド「cm 100 0 0 100 40 90」によると、「40 90」は、ラスタ画像の始点で、画像サイズは、100*100であり、回転角は、0である。ステップS324において、該PDF形式ファイルの指定された暗号方式に基づき、候補ラスタ画像の画像データを解読し、ラスタ画像を抽出する。ここで、ImageXObjectの暗号方式は、対応する画像リソースに保存され、インライン画像の対応する暗号方式は、ページのコンテンツストリームにおける「BI」、「EI」コマンド対の中に保存される。ステップS325において、抽出したImageXObjetラスタ画像とインラインラスタ画像を、それぞれ異なる候補ラスタ画像リストに保存する。
図5は、接続されている候補ラスタ画像の統合方法、即ち、図2のステップS33のフローチャートであり、接続されている小さなラスタ画像を大きなラスタ画像に統合している。PDF形式ファイルにおいて、視覚上完全な画像は、一般に複数の小さな接続されているラスタ画像で表示されている。ImageXObjetラスタ画像とインラインラスタ画像は、それぞれ異なる候補ラスタ画像リストと対応しており、ここでは、異なる候補ラスタ画像リストに対して、それぞれ統合処理を行う。まず、ステップS331において、ある候補ラスタ画像リストに対して、候補ラスタ画像の位置情報により、リストにおける候補ラスタ画像に対して配列を行う。ここで、画像の始点とページの始点が最も近い画像を第1画像とし、画像の始点と第1画像の始点が最も近い画像を第2画像とし、これによって類推して、リストにおけるすべての画像の配列を行う。ステップS332において、画像の標識パラメータIMG_INDEXを0とし、画像パラメータCUR_IMGを、画像リストにおける標識IMG_INDEXと対応する画像とする。ステップS333において、画像パラメータNEXT_IMGを、候補ラスタ画像リストにおける標識IMG_INDEX+1と対応する画像とし、即ち、該リストにおけるCUR_IMGと隣り合う次の画像とする。ステップS334において、CUR_IMGとNEXT_IMGの位置情報を比較し、接続画像であるか否かを判断する。2つの画像が垂直方向において近接し、例えば、所定の第1閾値未満であり、かつ、水平方向において長めの重複があり、例えば、所定の第2閾値を超えていると、これらの画像を接続画像と判断する。本実施例においては、gap<thre_gap、且つ、
であると、該2つの画像を接続画像と判断し、そうでなければ、非接続画像と判断することができる。ここで、パラメータgap、overlapping、width1、width2、thre_gap、及びthre_overlappingの定義として、図9に示すように、width1は、画像CUR_IMGの幅、width2は、画像NEXT_IMGの幅、gapは、2つの画像の垂直方向における距離、overlappingは、2つの画像の水平方向における重畳領域の長さを表す。第1閾値thre_gap及び第2閾値thre_overlappingは、例えば、thre_gap=2、thre_overlapping=0.4のように、異なる応用に応じて設定可能である。ステップS334において、2つの画像が接続画像と判断されると、ステップS335で、CUR_IMGとNEXT_IMGの統合を行うとともに、画像パラメータCUR_IMGを統合後の画像とし、IMG_INDEXをIMG_INDEX+1とする。ここで、画像の統合は、画像位置、画像サイズの統合及び画像データの統合が含まれる。本実施例において、下記式(1)〜(4)により、第1画像と第2画像を統合後の画像の位置を算出する。
ここで、new_startxは、統合後のラスタ画像の始点のx方向の座標、new_startyは、統合後のラスタ画像の始点のy方向の座標、new_endxは、統合後のラスタ画像の終点のx方向の座標、new_endyは、統合後のラスタ画像の終点のy方向の座標、start_x1は、統合前の第1画像の始点のx方向の座標、start_y1は、統合前の第1画像の始点のy方向の座標、end_x1は、統合前の第1画像の終点のx方向の座標、end_y1は、統合前の第1画像の終点のy方向の座標、start_x2は、統合前の第2画像の始点のx方向の座標、start_y2は、統合前の第2画像の始点のy方向の座標、end_x2は、統合前の第2画像の終点のx方向の座標、end_y2は、統合前の第2画像の終点のy方向の座標を表す。
画像データの統合工程において、第1画像と第2画像のデータは、それぞれ統合画像の対応の位置に貼り付けられ、統合画像における残りの空白領域は、黒画素で充填される。ステップS334で、画像CUR_IMGとNEXT_IMGを非接続画像、即ち、接続されていないと判断すると、ステップS336で、画像CUR_IMGを元候補ラスタ画像リストとは別のリストに追加し、この別のリストを第2候補ラスタ画像リストと称する。ステップS337において、パラメータCUR_IMGを、元候補ラスタ画像リストの候補ラスタ画像配列における標識CUR_INDEX+1の画像とし、パラメータCUR_INDEXをCUR_INDEX+1とする。ステップS338において、元候補ラスタ画像リストにさらに画像があるか否かの検出を行い、画像があれば、ステップS333の処理に進み、画像がなければ、ステップS339へ進み、画像CUR_IMGを第2候補ラスタ画像リストに追加し、処理を終了する。前記画像統合工程は、ImageXObjectとインライン画像配列に対し、それぞれ処理が行われる。図8Aは、統合前の接続されている複数のラスタ画像を示し、図8Bは、ラスタ画像統合後の結果を示している。
図6は、新たに生成された第2候補ラスタ画像リストにおける細長い微小ラスタ画像を除去する偽ラスタ画像の除去方法、即ち、図2におけるステップS34のフローチャートである。PDF形式ファイルにおいて、ラスタ画像は、文書の仕切り線、罫線、項目符号等の表示に用いることができるが、このようなラスタ画像は、通常、感知意味上のコンテンツではなく、検索意味上の顕著な特徴もないため、本発明における抽出すべきラスタ画像ではない。ステップS341において、第2候補ラスタ画像リストにおける各画像は偽画像として削除すべきかどうかの判断基準として、下記式(5)を用いる。先ず、ページのサイズと該ページの最小文字サイズにより、閾値thre1を算出する。例えば、page_heightを該ページの高さとし、smallest_char_heightを該ページの最小文字の高さとした時、thre1=max(page_height/100、smallest_char_height)となる。なお、閾値thre2と閾値thre3は、例えば、thre2=0.1、thre3=10のように、ラスタ画像の高さ/幅への要求に応じて設定することができる。
(Width < thre1 and height < thre1) or ((width < thre1 || height < thre1) && (width/height < thre2 || width/height > thre3)) (5)
ステップS342において、あるラスタ画像の幅widthと高さheightが式(5)を満たしていると、該ラスタ画像を偽画像と判断し、削除する。その後、第2候補ラスタ画像リストのラスタ画像配列における残りのラスタ画像が、最終的に抽出したPDF形式ファイルのラスタ画像となる。
本発明は、本発明の前記実施例による移植可能な電子文書からラスタ画像を抽出する方法を実行する、移植可能な電子文書からラスタ画像を抽出する装置としても実施することができる。該装置において、文書解析装置は、移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する前記ステップS31の処理を行う。候補ラスタ画像抽出装置は、前記コマンドとリソースに対して処理を施して候補ラスタ画像を抽出する前記S32の処理を行う。ラスタ画像統合装置は、接続されている候補ラスタ画像に対して統合を行う前記ステップS33の処理を行う。偽ラスタ画像除去装置は、偽ラスタ画像を除去する前記ステップS34の処理を行う。
具体的には、前記文書解析装置において、取得装置は、移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する前記ステップS312の処理を行う。解読装置は、ページごとのコンテンツストリームを解読し、コマンド集合を取得する前記ステップS314の処理を行う。コマンド抽出装置は、前記コマンド集合からラスタ画像に関するコマンドを抽出する前記ステップS315の処理を行う。リソース抽出装置は、ラスタ画像に関するリソースを抽出する前記S316の処理を行う。
前記候補ラスタ画像抽出装置は、前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、当該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像リストに保存する、前記ステップS322〜S325の処理を行う。
前記ラスタ画像統合装置において、配列装置は、候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う前記ステップS331〜S333の処理を行う。判断装置は、候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重複領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、さらに、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける1つ下の候補ラスタ画像とが、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば、統合を行う前記ステップS334〜S335の処理を行う。追加装置は、1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第2候補ラスタ画像リストに追加するステップS336〜S337の処理を行う。
前記一部の説明においては、PDF形式ファイルを例としているが、前記実施形態は、PDF形式ファイルの特殊な性質に依存するものではなく、いずれの移植可能な電子文書に適用することができるということは、当業者であれば、理解することができるはずである。
また、明細書における一連の操作は、ハードウェア、ソフトウェアやハードウェアとソフトウェアの組み合わせにより行うことができる。
例えば、コンピュータプログラムを予め記録媒体であるハードディスクやROM等に記憶しておいてもよく、一時的に或いは永久的にフロッピディスク、CD−ROM、MO、DVD、ディスク、半導体メモリ等の移動可能な記録媒体にコンピュータプログラムを記憶しておいてもよい。
以上のように、具体的な実施例により本発明を詳細に説明したが、本発明の精神を逸脱しない範囲内で、当業者は、実施例に対して、様々な変更と代替を行うことが可能なことは、言うまでもない。言い換えれば、本発明は説明形式で開示されているが、限定的に解釈されてはならない。本発明の要旨は、添付された請求範囲により判断すべきである。
米国特許第6801673B2号明細書 米国特許第5832530A号明細書

Claims (12)

  1. 移植可能な電子文書からラスタ画像を抽出する方法であって、
    前記移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する取得ステップと、
    前記コマンドとリソースに対して処理を施し、複数の候補ラスタ画像を抽出する抽出ステップであって、前記コマンドにおける画像表示コマンドを判断し、前記複数の候補ラスタ画像の位置及びサイズ情報を抽出し、前記移植可能な電子文書の指定された暗号形式に基づき、前記複数の候補ラスタ画像の解読を行い、前記複数の候補ラスタ画像を候補ラスタ画像リストに保存する、抽出ステップと、
    前記候補ラスタ画像リストにおける前記複数の候補ラスタ画像の位置に基づいて、前記複数の候補ラスタ画像のうち、接続されているものを統合し、接続されていないものを第2候補ラスタ画像リストに追加する統合ステップと、
    偽ラスタ画像を除去する除去ステップと、
    を含む方法。
  2. 前記取得ステップは、
    前記移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得するステップと、
    ページごとのコンテンツストリームを解読し、コマンド集合を取得するステップと、
    前記コマンド集合からラスタ画像に関するコマンドを抽出するステップと、
    ラスタ画像に関するリソースを抽出するステップと、
    を含む請求項1に記載の方法。
  3. 前記抽出ステップは、
    抽出した前記複数の候補ラスタ画像の各々は、それぞれ異なる候補ラスタ画像リストに保存されるImageXObject画像と、インライン(Inline)画像と、を含む請求項1に記載の方法。
  4. 前記統合ステップは、
    前記複数の候補ラスタ画像が保存されている前記候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う第一ステップと、
    前記候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重複領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、接続されている候補ラスタ画像を統合する第二ステップと、
    統合後の候補ラスタ画像と前記候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対して、前記第二ステップの動作を繰り返す第三ステップと、
    前記1つ下の候補ラスタ画像と接続されていないと判断された候補ラスタ画像を接続されていない候補ラスタ画像と判断し、前記第2候補ラスタ画像リストに追加する第四ステップと、
    を含む請求項1に記載の方法。
  5. 前記第二ステップは、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項4に記載の方法。
  6. 前記除去ステップは、文書のページサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項1に記載の方法。
  7. 移植可能な電子文書からラスタ画像を抽出する装置であって、
    前記移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、
    前記コマンドとリソースに対して処理を施し、複数の候補ラスタ画像を抽出する候補ラスタ画像抽出装置であって、前記コマンドにおける画像表示コマンドを判断し、前記複数の候補ラスタ画像の位置及びサイズ情報を抽出し、前記移植可能な電子文書の指定された暗号形式に基づき、前記複数の候補ラスタ画像の解読を行い、前記複数の候補ラスタ画像を候補ラスタ画像リストに保存する、候補ラスタ画像抽出装置と、
    前記候補ラスタ画像リストにおける前記複数の候補ラスタ画像の位置に基づいて、前記複数の候補ラスタ画像のうち、接続されているものを統合し、接続されていないものを第2候補ラスタ画像リストに追加するラスタ画像統合装置と、
    偽ラスタ画像を除去する偽ラスタ画像除去装置と、
    を含む装置。
  8. 前記文書解析装置は、
    前記移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する取得装置と、
    ページごとのコンテンツストリームを解読し、コマンド集合を取得する解読装置と、
    前記コマンド集合からラスタ画像に関するコマンドを抽出するコマンド抽出装置と、
    ラスタ画像に関するリソースを抽出するリソース抽出装置と、
    を含む請求項7に記載の装置。
  9. 前記候補ラスタ画像抽出装置により抽出された前記複数の候補ラスタ画像の各々は、ImageXObject画像とインライン画像を含み、該ImageXObject画像とインライン画像は、それぞれ異なる候補ラスタ画像リストに保存される請求項7に記載の装置。
  10. 前記ラスタ画像統合装置は、
    前記複数の候補ラスタ画像が保存されている前記候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う配列装置と、
    前記候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重畳領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、かつ、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対し、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば統合を行う判断装置と、
    前記1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を接続されていない候補ラスタ画像と判断し、前記第2候補ラスタ画像リストに追加する追加装置と、
    を含む請求項7に記載の装置。
  11. 前記接続されている候補ラスタ画像の統合は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項10に記載の装置。
  12. 前記偽ラスタ画像除去装置は、文書のページのサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項7に記載の装置。
JP2010117428A 2009-05-25 2010-05-21 移植可能な電子文書からラスタ画像を抽出する方法及び装置 Expired - Fee Related JP5633188B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910141741.0 2009-05-25
CN200910141741.0A CN101901341B (zh) 2009-05-25 2009-05-25 从可移植电子文档中提取光栅图像的方法和设备

Publications (2)

Publication Number Publication Date
JP2010272117A JP2010272117A (ja) 2010-12-02
JP5633188B2 true JP5633188B2 (ja) 2014-12-03

Family

ID=43125353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010117428A Expired - Fee Related JP5633188B2 (ja) 2009-05-25 2010-05-21 移植可能な電子文書からラスタ画像を抽出する方法及び装置

Country Status (3)

Country Link
US (1) US8559725B2 (ja)
JP (1) JP5633188B2 (ja)
CN (1) CN101901341B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8830513B2 (en) * 2012-10-12 2014-09-09 Esko Software Bvba Method and apparatus for optimizing a destination variable document from a source variable document having recurring and variable content
US10290287B1 (en) * 2014-07-01 2019-05-14 Xilinx, Inc. Visualizing operation of a memory controller
US10185903B2 (en) 2016-10-06 2019-01-22 Ricoh Company, Ltd. Image forming output control device and non-transitory recording medium storing program
CN112597422A (zh) * 2020-12-30 2021-04-02 深圳市世强元件网络有限公司 一种pdf文件分割方法和网页中pdf文件加载方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems, Inc. Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
US7072061B2 (en) * 2001-02-13 2006-07-04 Ariba, Inc. Method and system for extracting information from RFQ documents and compressing RFQ files into a common RFQ file type
US6801673B2 (en) * 2001-10-09 2004-10-05 Hewlett-Packard Development Company, L.P. Section extraction tool for PDF documents
JP2003346146A (ja) * 2002-05-23 2003-12-05 Kansai Electric Power Co Inc:The 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
DE102006025928A1 (de) * 2006-06-02 2007-12-06 Siemens Ag Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente
US8711372B2 (en) * 2006-08-31 2014-04-29 Ricoh Co., Ltd. Techniques for image segment accumulation in document rendering
JP2010034683A (ja) * 2008-07-25 2010-02-12 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Also Published As

Publication number Publication date
US20100299535A1 (en) 2010-11-25
CN101901341B (zh) 2013-10-23
US8559725B2 (en) 2013-10-15
JP2010272117A (ja) 2010-12-02
CN101901341A (zh) 2010-12-01

Similar Documents

Publication Publication Date Title
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
JP5664174B2 (ja) 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法
US20150228045A1 (en) Methods for embedding and extracting a watermark in a text document and devices thereof
US20110221766A1 (en) Method for printing a captured screen of web pages
US9436882B2 (en) Automated redaction
KR20110124255A (ko) 클라이언트 디바이스상의 간행물로부터 광학 문자 인식된 텍스트 및 대응하는 이미지의 선택적인 디스플레이
US20080144062A1 (en) Document processing method and document processing apparatus
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP5633188B2 (ja) 移植可能な電子文書からラスタ画像を抽出する方法及び装置
US20130136360A1 (en) Image processing apparatus, image processing method, and computer readable medium
JP2009087270A (ja) 画像処理装置及びプログラム
US8331736B2 (en) Image processing device and method therefor
US9019552B2 (en) Information processing apparatus, system and method for outputting data to a medium
JP5880089B2 (ja) コミック画像データ検出装置及びコミック画像データ検出プログラム
US20150128027A1 (en) Preparation of textual content
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2010097262A (ja) データベース生成装置、データベース生成方法及びコンピュータプログラム
US9075776B2 (en) Document processing apparatus, document processing method, and program
JP2006279090A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP2014044555A (ja) 画像処理装置、画像処理システム及びプログラム
JP5414615B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2009157470A (ja) 電子文書処理装置及びプログラム
WO2021117128A1 (ja) 帳票画像処理システム
JP2010262578A (ja) 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム
JP2009053826A (ja) 文書処理装置及び文書処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140929

R151 Written notification of patent or utility model registration

Ref document number: 5633188

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees