JP2017211936A - 文書保存処理システム - Google Patents

文書保存処理システム Download PDF

Info

Publication number
JP2017211936A
JP2017211936A JP2016106494A JP2016106494A JP2017211936A JP 2017211936 A JP2017211936 A JP 2017211936A JP 2016106494 A JP2016106494 A JP 2016106494A JP 2016106494 A JP2016106494 A JP 2016106494A JP 2017211936 A JP2017211936 A JP 2017211936A
Authority
JP
Japan
Prior art keywords
image
obj
page
text
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016106494A
Other languages
English (en)
Other versions
JP6708476B2 (ja
JP2017211936A5 (ja
Inventor
忠則 中塚
Tadanori Nakatsuka
忠則 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016106494A priority Critical patent/JP6708476B2/ja
Priority to US15/601,167 priority patent/US10515286B2/en
Priority to KR1020170065128A priority patent/KR102137039B1/ko
Publication of JP2017211936A publication Critical patent/JP2017211936A/ja
Publication of JP2017211936A5 publication Critical patent/JP2017211936A5/ja
Application granted granted Critical
Publication of JP6708476B2 publication Critical patent/JP6708476B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • H04N1/32149Methods relating to embedding, encoding, decoding, detection or retrieval operations
    • H04N1/32267Methods relating to embedding, encoding, decoding, detection or retrieval operations combined with processing of the image
    • H04N1/32277Compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • H04N1/32149Methods relating to embedding, encoding, decoding, detection or retrieval operations
    • H04N1/32288Multiple embedding, e.g. cocktail embedding, or redundant embedding, e.g. repeating the additional information at a plurality of locations in the image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】ページ内に注釈やテキストを含む文書ファイルであっても、注釈やテキストの情報を保持しつつ、保存時のファイルサイズを小さくする。
【解決手段】画像処理装置であって、入力された文書ファイルのページから、注釈及びテキストのオブジェクトを抽出して保持する抽出手段と、前記ページについてのイメージのオブジェクトを圧縮処理する圧縮手段と、前記圧縮処理されたイメージのオブジェクトを含む前記ページに、前記保持した注釈及びテキストのオブジェクトを戻す復元手段と、注釈及びテキストのオブジェクトが戻された前記ページで構成される文書ファイルを保存する保存手段とを備えたことを特徴とする。
【選択図】図3

Description

本発明は、文書データの保存技術に関する。
文書を保存する手法に関しては、その目的や用途に応じて従来から様々な提案がなされている。例えば特許文献1には、文書画像を保存する際のデータ量の抑制と画質維持を目的として、文書内のテキスト領域とイメージ領域の占める割合に基づいて、テキスト系文書とピクチャー系文書のいずれかに分類して保存方法を変える手法が提案されている。
特開2000−332984号公報
ここで、例えばPDFのように、ページを構成するコンテンツとして、イメージの他、テキスト、パス(図形)、注釈といったオブジェクトを個別に保持可能なフォーマットの文書ファイルを保存する場合を考える。なお、注釈とは、本文を補足・強調等する目的で付される、本文とは独立したオブジェクトである。このようなフォーマットの文書ファイルを、上記特許文献1の技術を適用して保存しようとすると、ページの画像化に伴って注釈の情報が保持できなくなってしまう。加えて、ページ内のテキスト情報部分の編集もできなくなってしまう。また、文書の保存にあたっては、一般的にそのデータ量を極力抑えることも同時に求められるところ、この点に関して特許文献1は特に配慮されていない。
本発明に係る画像処理装置は、入力された文書ファイルのページから、注釈及びテキストのオブジェクトを抽出して保持する抽出手段と、前記ページについてのイメージのオブジェクトを圧縮処理する圧縮手段と、前記圧縮処理されたイメージのオブジェクトを含む前記ページに、前記保持した注釈及びテキストのオブジェクトを戻す復元手段と、注釈及びテキストのオブジェクトが戻された前記ページで構成される文書ファイルを保存する保存手段とを備えたことを特徴とする。
本発明によれば、ページ内に注釈やテキストを含む文書ファイルであっても、注釈やテキストの情報を保持しつつ、ファイルサイズを小さくして保存することができる。
画像処理装置のハードウェア構成の一例を示す図である。 文書編集アプリケーションの論理構成の一例を示すブロック図である。 実施例1に係る、文書ファイル保存処理の流れを示すフローチャートである。 文書ファイル保存の過程を示す図である。 高圧縮処理の一例を示す図である。 高圧縮処理の一例を示す図である。 イメージが共有されているケースの一例を示す図である。 実施例2に係る、文書ファイル保存処理の流れを示すフローチャートである。 実施例3の課題を説明する図である。 実施例3に係る、文書ファイル保存処理の流れを示すフローチャートである。
以下、本発明の実施例について、図面を参照して説明する。なお、以下の実施例は本発明を限定するものではなく、また、本実施例で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
図1は、本実施例に係る、画像処理装置のハードウェア構成の一例を示す図である。画像処理装置100は、例えばPC等であり、CPU101、RAM102、HDD103、汎用インターフェース(I/F)104、モニタ107、及びメインバス108を備える。そして、汎用I/F104によって、マウス、キーボードなどの入力装置105、及びメモリカードなどの外部メモリ106がメインバス109に接続される。CPU101は、HDD103に格納された所定のアプリケーション(コンピュータプログラム)を動作させることで、文章や表の作成・編集といった様々な処理を実現する。以下、図1に示す構成の画像処理装置100において、CPU101が文書編集アプリケーションを実行することで、文書ファイルに含まれる注釈やテキストの情報を保持しつつ、ファイルサイズを小さくして保存する処理について説明する。
(画像処理装置の論理構成)
図2は、文書編集アプリケーションの論理構成の一例を示すブロック図である。任意のアプリケーションで作成された保存対象の文書ファイルは、まずオブジェクト制御部201に入力される。ここで、保存対象の文書ファイルは、イメージ、テキスト、パス(図形)、注釈といった様々な属性のオブジェクト(以下、「OBJ」と表記)を個別に保持可能なフォーマットの文書ファイルを想定している。この場合のフォーマットとしては、例えば前述のPDF(Portable Document Format)が挙げられる。
オブジェクト制御部201は、まず、入力文書ファイルの各ページから注釈やテキストのオブジェクトを一旦抜き出して保持する処理(抽出処理)を行う。また、後述の圧縮処理が施されたページデータに、当該保持した注釈OBJやテキストOBJを戻す処理(復元処理)を行う。さらに、注釈及びテキストのオブジェクトが抽出された後のページ全体を1つのイメージのオブジェクトに変換する処理(変換処理)も行う。これらの処理により、オブジェクト制御部201は、入力文書ファイルの各ページについて、最初の状態と見た目が変わらずに、ファイルサイズを小さくした保存用データをページ毎に生成する。生成された保存用データは、文書保存部203に渡される。なお、本実施例では、オブジェクト調整部201が、抽出処理、復元処理、変換処理のすべてを担う構成としているが、処理毎に別個のモジュールを設けてもよい。
高圧縮処理部202は、ページ内にあるイメージOBJ(注釈やテキストのOBJを取り除いた後のページ全体をイメージ化して得られた全面イメージOBJを含む)に対し、領域分割を行って、それぞれの領域に適した圧縮処理を行う。
文書保存部203は、オブジェクト制御部201から受け取ったページ単位の保存用データを1つのファイルにまとめ、出力文書ファイルとしてHDD103に保存する。
(文書ファイルの保存の流れ)
続いて、文書編集アプリケーションにおける文書ファイル保存の一連の流れについて説明する。図3は、本実施例に係る、文書ファイル保存処理の流れを示すフローチャートである。図2で示した各処理部によって実現されるこの一連の処理は、CPU101がHDD103に格納されている所定のプログラムをRAM102にロードし実行することで実現される。
ステップ301では、オブジェクト制御部201が、入力文書ファイルを取得する。例えば、ハードディスク103に保存されている文書ファイルを読み込んでRAM102上に展開する。
ステップ302では、オブジェクト制御部201が、RAM102に展開された文書ファイルのページのうち、処理対象として注目するページ(以下、「注目ページ」)を決定する。図4は、文書ファイルが保存されるまでの過程を、具体例と供に示した図である。図4において、注目ページとしてのページ400は、テキストOBJ401、注釈OBJ402、イメージOBJ403、パスOBJ群404で構成されている。テキストOBJ401は、“今日も雨”の文字列(色:黒)が縦に2つ並んだテキスト属性のオブジェクトである。イメージOBJ403は、山を被写体とするイメージ属性のオブジェクトであり、その中に黒色の文字で“本日は晴天なり”と赤色の文字で“日本の山”が縦に並んだテキスト情報(イメージ内テキスト)410を含んでいる。ここで、テキストOBJ401は、文字コード、フォント情報、文字ピッチなどの情報により描画される文字データ(コード情報)である。一方、イメージ内テキスト410は、単純なイメージデータ(文字コードを含まない画像情報)である。このように、テキストOBJ401とイメージ内テキスト410とは、まったく性質の異なるデータである。パス属性のオブジェクトの集合であるパスOBJ群404は、複数の円が重なった図形を表している。パスOBJ群404に含まれる各パスOBJは複数の点を結ぶ直線から構成されており、点の数を増やすことで複雑な形状を表現可能である。そして、直線の色や太さの指定、直線によって囲まれる領域が存在するときはその領域内の色や透過するかどうかを指定可能である。多数の色からなる複雑な物体などを描画するときは、多数の小さなパスOBJを使用する。図4に示すパスOBJ群404は、10000個のパスOBJで構成されているものとする。“重要”の文字を吹き出しで示す注釈402は、本文を構成する上述のOBJ(テキストOBJ401、イメージOBJ403、パスOBJ群404)とは異なり、本文を補足等する注釈属性のオブジェクトである。注釈OBJ402の内容は各OBJと同様、テキスト、イメージ、パス描画などで表現される。本文を構成する各OBJには、その属性を表す属性情報が付加されており、注釈OBJには、それに加え、注釈であることを示す属性情報も付加されている。また、注釈OBJは、その表示の有無、回転方向、位置などを、本文を構成する各OBJとは別個独立に制御可能である。図3のフローの説明に戻る。
ステップ303では、オブジェクト制御部201が、注目ページ内に注釈OBJ又はテキストOBJがあるかどうかを、各OBJに付加された属性情報に基づいて判定する。注目ページ内に注釈OBJ又はテキストOBJが存在すればステップ304に進む。一方、注目ページ内に注釈OBJ又はテキストOBJが存在しなければステップ305に進む。図4の例では、ページ400内に注釈OBJ402とテキストOBJ401の両方が存在するので、ステップ304に進むことになる。
ステップ304では、オブジェクト制御部201が、注目ページから注釈OBJ及びテキストOBJを抜き出して保持(RAM102に格納)する。注釈OBJの場合は、その外観(描画内容)を構成する情報と注釈であることを示す情報が保持されることになる。具体的には、ページ内の表示位置を示す位置座標や色・傾きの外、文字の注釈であればフォント名、フォントサイズ、文字コード列、図形の注釈であれば始点や終点、線の太さや実線/破線といった形状、イメージの注釈であればその画像データ、拡縮割合などである。また、テキストOBJの場合は、その文字を表示する位置座標、フォント名、フォントサイズ、文字コード列、色、傾きといった情報が保持されることになる。図4の例では、ページ400から注釈OBJ402とテキストOBJ401のデータが抜き出され保持されることになる。これにより、ページ400には、イメージOBJ403とパスOBJ群404だけが残る。
ステップ305では、オブジェクト制御部201が、注目ページ内にイメージOBJ又はパスOBJが存在するかどうかを、各OBJに付加された属性情報に基づいて判定する。注目ページ内にイメージOBJ又はパスOBJが存在すればステップ306に進む。一方、注目ページ内にイメージOBJ又はパスOBJが存在しなければステップ313に進む。図4の例では、ページ400内にイメージOBJ403とパスOBJ群404が存在するので、ステップ306に進むことになる。
ステップ306では、オブジェクト制御部201が、注目ページ内に存在するイメージOBJの数やパスOBJの数が所定の閾値以上かどうかを判定する。所定の閾値は、CPU101の処理能力などを考慮して決定すればよい。この際、イメージOBJとパスOBJの合計数を求め、求めた合計数と1つの閾値とを比較してもよいし、イメージOBJ用とパスOBJ用とで別々に閾値を設定し、いずれかが閾値以上になるかを判定してもよい。パスOBJはイメージOBJに比べてサイズが小さく、ファイルサイズを圧迫する程度は小さい。ただし、大量に存在すると描画処理に時間が掛かることから、イメージ化して一つのOBJに変更することが望ましい。所定の閾値はこのような点を考慮して設定すればよい。判定の結果、イメージOBJやパスOBJの数が閾値以上であればステップ307に進む。一方、イメージOBJやパスOBJの数が閾値未満であればステップ308に進む。仮に閾値を1000個とすると、図4の例では、ページ400内のイメージOBJは1個であるが、パスOBJは10000個であるので、ステップ307に進むことになる。
ステップ307では、オブジェクト調整部201が、注目ページを全面イメージ化する。この場合の注目ページとは、注釈OBJやテキストOBJが抜き出された後のページ(イメージOBJやパスOBJのみで構成されるページ)である。この全面イメージ化によって、ページ全体が1つのイメージOBJとなる。図4における符号420は、ページ400から注釈OBJ402とテキストOBJ401が抜き出された後のページを全面イメージ化して得られた、ページ全体のイメージOBJを示している。このイメージOBJ420には、イメージOBJ403とパスOBJ群404の描画内容が含まれている。このように、一定数以上のイメージOBJやパスOBJを含むページ全体を1つのイメージOBJに変換することで、後の描画処理や印刷処理に要する時間を短縮することが可能となる。全面イメージ化の後は、ステップ308へ進む。
ステップ308では、オブジェクト制御部201が、注目ページについてのイメージOBJの中から注目するイメージOBJを決定する。この場合において、注目ページについてのイメージOBJには、注目ページ内にもともと存在したイメージOBJの他、ステップ307の全面イメージ化で得られたページ全体のイメージOBJが含まれる。決定された注目イメージOBJのデータは、高圧縮処理部202に渡される。
ステップ309では、高圧縮処理部202が、注目イメージOBJに対し、テキスト領域とそれ以外の背景領域とに領域分割し、それぞれの領域に応じた方式で圧縮する。もし注目イメージOBJ内に文字情報がなければ、本ステップはスルーし、次のステップ310に進む。以下、本ステップにおける高圧縮処理について説明する。
まず、注目イメージOBJを2値化し、得られたモノクロの2値画像に対して領域分割処理を行う。この場合の領域分割は、例えば特許文献1に記載されているような一般的なレイアウト解析手法で構わない。図5は、前述の具体例のケース(図4)における高圧縮処理の内容を示した図である。全面イメージ化されたイメージOBJ420の場合、イメージ内テキスト410の部分をテキスト領域501、それ以外の部分を背景領域502とした領域分割がなされることになる。そして、テキスト領域501に対しては、“本日は晴天なり”“日本の山”の字形(グリフ)情報で構成される2値の画像(文字画像510)が生成される。さらに、テキスト領域501については、イメージOBJ420と文字画像510とから文字色の抽出がなされ、テキスト領域501に対応する文字色画像520が生成される。この文字色画像520は、“本日は晴天なり”の文字色を表す黒の矩形521と、“日本の山”の文字色を表す赤の矩形522とで構成される、多値のイメージ属性の画像となる。そして、背景領域502については、文字画像510における文字領域部分を穴埋め処理した多値の背景画像530が生成される。そして、2値の文字画像510に対しては可逆方式の圧縮処理(例えばMMR圧縮)、多値の文字色画像520と背景画像530に対しては非可逆方式の圧縮処理(例えばJPEG圧縮)がそれぞれ施される。テキスト領域の字形情報について可逆圧縮を適用するのは、伸長時の画質劣化を抑え可読性を維持するためである。以上のようにして、文字情報を含むイメージOBJは、文字画像(2値)、文字色画像(多値)、背景画像(多値)の3種類の圧縮画像に変換される。
ステップ310では、オブジェクト制御部201が、注目ページ内に未処理のイメージOBJがあるかどうかを判定する。判定の結果、注目ページ内に未処理のイメージOBJがあれば、ステップ308に戻り、次のイメージOBJを決定して処理を続行する。一方、注目ページ内のイメージOBJがすべて処理されていれば、ステップ311に進む。ステップ307でページ全体が全面イメージ化されていた場合は、未処理のイメージOBJがページ内に残っている場合はないので、直ちにステップ311に進むことになる。
ステップ311では、オブジェクト制御部201が、注目ページから抜き出して保持しておいた注釈OBJ又はテキストOBJがあるかどうかを確認する。RAM102に注釈OBJ又はテキストOBJのデータが保持されていればステップ312に進む。一方、RAM102に注釈OBJ又はテキストOBJのデータが保持されていなければステップ313に進む。
ステップ312では、オブジェクト制御部201が、保持しておいた注釈OBJやテキストOBJを、注目ページ内に外観が維持されるように戻し、出力ファイルとしての新たなページデータを生成する。すなわち、注釈OBJやテキストOBJは、その位置や大きさ、回転角などが元ページとまったく同じ見た目になるように、注目ページ内に戻される。上述のとおり本実施例では、イメージOBJは、テキスト領域を構成する2つの画像(文字画像と文字色画像)とテキスト領域以外の領域を構成する背景画像の合計3種類のイメージに分解される。新たなページデータでは、背景画像は、文字画像と文字色画像の下の、ページ内の同じ位置、大きさに描画されるようにページ記述される。そして、イメージOBJの上に注釈OBJが重なっているケースでは、3つのイメージのさらに上に注釈OBJが描画されるようにページ記述される。
ステップ313では、オブジェクト制御部201が、RAM102に展開された文書ファイルのすべてのページを処理したかどうかを判定する。処理していないページがあれば、ステップ302に戻って次の注目ページを決定して処理を継続する。一方、すべてのページを処理していれば、ステップ314に進む。
ステップ314では、文書保存部203が、各ページデータをまとめて1つの保存用文書ファイルを生成し、HDD103に保存する。
以上が、本実施例に係る文書ファイル保存処理の内容である。
なお、上述の高圧縮処理では、領域分割によって得られたテキスト領域を、文字画像(2値)と文字色画像(多値)の2種類の圧縮画像に変換していたが、文字色の情報をイメージではなく文字コードで表してもよい。図6は、テキスト領域における文字色の情報を文字コードで表す場合の高圧縮処理の一例を示す図である。この例では、イメージOBJ420に対して領域分割を行うのとは別に、文字部分の色判定を行う。そして、文字部分の色判定結果に基づき、文字色毎に2値の文字画像を生成する。図6の例では、黒色文字の“本日は晴天なり”に対応する文字画像601と、赤色文字の“日本の山”に対応する文字画像602の、2つの文字画像が生成される。そして、これら2つの文字画像(2値)に対して、可逆方式の圧縮処理がなされる。そして、色判定結果に従った文字色コード(黒色と赤色の文字色コード)が、2つの文字画像601及び602の圧縮画像それぞれと対応付けられる。このように、領域分割によって得られたテキスト領域を、文字色毎の文字画像(2値)と文字色コードに変換し、文字色毎に生成した文字画像に圧縮処理を行ってもよい。
また、イメージOBJを領域分割によってテキスト領域と背景領域とに分離して圧縮するのに代えて、イメージの解像度を減少させたり、圧縮率の高い手法への変更などによりイメージOBJのデータサイズを小さくしても構わない。
本実施例によれば、保存対象の文書ファイルのページ内に注釈やテキストが入っている場合に、それらの情報を保持しつつ、ファイルサイズを小さくすることができる。また、一定条件下でページ全体がイメージ化された場合はOBJ数が削減されているので、保存文書ファイルにおいてはページの描画処理に要する時間を短くすることが可能となる。
実施例1は、注釈やテキストを抜き出した後のページ内のイメージOBJやパスOBJの数が閾値以上である場合に、当該ページを全面イメージ化する態様であった。しかし、複数のページでイメージOBJのリソースが共有されている場合、実施例1の手法では却ってファイルサイズが増大してしまうケースがある。ここで、イメージOBJのリソースが共有される一例を説明する。図7は、ページ710〜730の全3ページからなる文書ファイルにおいて、イメージが共有されている一例である。ページ710内にはイメージOBJ711、ページ720内にはイメージOBJ721、ページ730内にはイメージOBJ731が含まれている。そして、これら3つのイメージOBJ711、721、731は、1つのイメージリソース700を共有している。また、各ページに含まれるパスOBJ群712、722、732はそれぞれ10000個のパスOBJで構成され、各ページにおいて独立にそのデータが保有されるものとする。ここで、仮にイメージリソース700のデータサイズが100MB、パスOBJ群3つ分のデータサイズが10MBであるとすると、文書全体のファイルサイズは110MBとなる。実施例1の場合は、イメージOBJやパスOBJの数が閾値以上であれば各ページが全面イメージ化されるところ、各ページを全面イメージ化した結果、イメージ領域が広がることで各ページのデータサイズが150MBになったとする。この場合、各ページに存在するイメージOBJが圧縮処理によって仮に50MBになったとしても、文書全体のファイルサイズは50MB×3頁分=150MBとなる。これでは、当初の110MBよりファイルサイズが大きくなってしまうことになる。
そこで、ページ内のイメージOBJやパスOBJの数が閾値以上の場合であっても、複数のページで共有されているイメージOBJが存在する場合はページの全面イメージ化を行わない態様について、実施例2として説明する。なお、実施例1と共通する内容については説明を省略ないしは簡略化し、以下では差異点を中心に説明を行うものとする。
図8は、本実施例に係る、文書ファイル保存処理の流れを示すフローチャートである。ステップ801〜806は、実施例1の図3のフローにおけるステップ301〜306に対応する。すなわち、取得した保存対象の文書ファイル内の注目ページに注釈OBJやテキストOBJがあれば、それらがページから抜き出され保持される(S801〜804)。さらに注目ページ内にイメージOBJやパスOBJがあれば、イメージOBJとパスOBJの合計数が閾値以上であるかどうかが判定される(S805、806)。判定の結果、イメージOBJやパスOBJの数が閾値以上であればステップ807に進む。一方、イメージOBJやパスOBJの数が閾値未満であればステップ810に進む。
ステップ807では、複数のページでリソースが共有されているイメージOBJ(以下、共有イメージOBJ)が注目ページ内に存在するかどうかが判定される。共有イメージOBJが存在する場合はステップ808に進む。一方、共有イメージOBJが存在しない場合はステップ809に進む。
ステップ808では、共有イメージOBJを除くページ全体が全面イメージ化される。すなわち、注釈OBJやテキストOBJに加え共有イメージOBJが除去されたページ(その他のイメージOBJとパスOBJのみで構成されるページ)が、本ステップにおける全面イメージ化処理の対象となる。この全面イメージ化によって、共有イメージOBJを除いたページ全体が1つのイメージOBJとなる。この全面イメージ化の後は、注目イメージOBJを決定するステップ810に進む。
ステップ809では、図3のフローにおけるステップ307と同様、注釈OBJやテキストOBJを除去した後のページが、全面イメージ化される。この全面イメージ化の後は、注目イメージOBJを決定するステップ810に進む。
ステップ810では、注目ページについてのイメージOBJの中から注目するイメージOBJが決定される。そして、注目イメージOBJに対して、前述の高圧縮処理が施される(ステップ811、図3のフローのステップ309に対応)。以降のステップ812〜816の各処理は、図3のフローにおけるステップ310〜314にそれぞれ対応し、特に異なる点はないので説明を省く。
以上のような処理により、例えば前述の図7の例では、イメージリソース分のデータサイズが50MB、パスOBJ群3つ分のデータサイズが10MBで合計60MBとなり、元の110MBよりファイルサイズを小さくすることができる。
本実施例によれば、複数のページでイメージリソースを共有している文書ファイルでも実施例1と同様の効果を得ることができる。
実施例1では、注釈OBJやテキストOBJを一旦削除することになるが、これによって機密保持など情報セキュリティの観点で問題が生じる場合がある。図9にその具体例を示す。図9の例は、請求書としてのページ900内にテキストOBJ901が存在し、当該テキストOBJ901における宛先部分を不透過の塗りつぶし矩形の注釈OBJ902で見えないようにしているケースである。このようなケースで実施例1を適用すると、注釈OBJをページから取り除いた後の途中の処理において、本来は見えないはずの宛先が見えてしまうことになる。また、最終的には注釈OBJは元の位置に戻されるが、例えばこの文書フォーマットがPDFの場合、PDFの編集が可能なソフトウェアによって簡単に当該注釈OBJを移動して宛先を見ることができてしまう。このような問題に対処可能な態様について、実施例3として説明する。なお、実施例1と共通する内容については説明を省略ないしは簡略化し、以下では差異点を中心に説明を行うものとする。
図10は、本実施例に係る、文書ファイル保存処理の流れを示すフローチャートである。ステップ1001〜1003は、実施例1の図3のフローにおけるステップ301〜303に対応する。すなわち、保存対象の文書ファイルが取得され(S1001)、注目ページが決定されると(S1002)、当該注目ページ内に注釈OBJやテキストOBJがあるかどうか判定される(S1003)。判定の結果、注目ページ内に注釈OBJ又はテキストOBJが存在すればステップ1004に進む。一方、注目ページ内に注釈OBJ又はテキストOBJが存在しなければステップ1010に進む。
ステップ1004では、オブジェクト制御部201が、注目ページ内で注目する注釈OBJ又はテキストOBJ(以下、注目注釈OBJ又は注目テキストOBJ)を決定する。
ステップ1005では、オブジェクト制御部201が、注目注釈OBJもしくは注目テキストOBJが、他のOBJと重なっているかどうかを判定する。他のOBJと重なっていればステップ1006に進む。他のOBJと重なっていなければステップ1008に進む。図9の例では、注釈OBJ902とテキストOBJ901とは、互いに重なっている。したがって、いずれが注目するOBJであってもステップ1006に進むことになる。
ステップ1006では、オブジェクト制御部201が、互いに重なっているOBJのうち、上にくる方(上層側)のOBJについて、塗りつぶしが指定されているかどうかを判定する。例えば、上にくる方のOBJの色情報について、不透過色が指定されていれば塗りつぶしが指定されていると判定する。判定の結果、上にくる方のOBJについて塗りつぶしが指定されていれば、ステップ1007に進む。一方、上にくる方のOBJについて塗りつぶしが指定されていなければステップ1008に進む。図9の例で注釈OBJ902は、横長の矩形内部を不透過な黒で塗りつぶすことを指定した注釈OBJであるので、ステップ1007に進むことになる。
ステップ1007では、オブジェクト制御部201が、重なりのあるオブジェクト同士をまとめてイメージ化し、一つのイメージOBJを生成する。図9の例では、テキストOBJ901と注釈OBJ902とを合わせた一つのイメージOBJが生成されることになる。つまり、注釈OBJ901は、テキストOBJ901と一体化された1つのイメージOBJとなり、もはや独立した注釈OBJではなくなる。これにより、その後の処理や編集において、本来は注釈によって隠されている宛先を見られてしまうことを防ぐことができる。
ステップ1008は、図3のフローにおけるステップ304に対応し、注目注釈OBJあるいは注目テキストOBJが、注目ページから抜き出され保持される。
ステップ1009では、注目ページ内に未処理の注釈OBJ又はテキストOBJがあるかどうかが判定される。判定の結果、注目ページ内に未処理の注釈OBJ又はテキストOBJがあれば、ステップ1004に戻り、次の注釈OBJ又はテキストOBJを決定して処理を続行する。一方、注目ページ内の注釈OBJ又はテキストOBJがすべて処理されていれば、ステップ1010に進む。
ステップ1010〜1019の各処理は、図3のフローにおけるステップ305〜314にそれぞれ対応し、特に異なる点はないので説明を省く。
前述の図9の例では、注釈OBJ902のデータがステップ1008で保持されることはないので、ステップ1017においてページ内に戻されることもない。すなわち、テキストOBJ901内の宛先が注釈OBJ902によって塗りつぶされたままの状態のページが、ステップ1019において保存されることになる。
以上が、本実施例にかかわる文書保存処理の内容である。
本実施例によれば、注釈等のオブジェクトが、ページ内の機密情報を視認できなくする目的で使われているようなケースにおいて、機密情報を保持しつつ実施例1と同様の効果を得ることができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (11)

  1. 入力された文書ファイルのページから、注釈及びテキストのオブジェクトを抽出して保持する抽出手段と、
    前記ページについてのイメージのオブジェクトを圧縮処理する圧縮手段と、
    前記圧縮処理されたイメージのオブジェクトを含む前記ページに、前記保持した注釈及びテキストのオブジェクトを戻す復元手段と、
    注釈及びテキストのオブジェクトが戻された前記ページで構成される文書ファイルを保存する保存手段と
    を備えたことを特徴とする画像処理装置。
  2. 注釈及びテキストのオブジェクトが抽出された後のページ内に残っているオブジェクトの数が所定の閾値以上の場合、当該ページ全体を1つのイメージのオブジェクトに変換する第1の変換手段をさらに備え、
    前記圧縮手段は、前記ページ全体に対応する1つのイメージのオブジェクトに対し前記圧縮処理を行い、
    前記復元手段は、前記圧縮処理された前記ページ全体に対応する1つのイメージのオブジェクトを含む前記ページに、前記保持した注釈及びテキストのオブジェクトを戻す
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記残っているオブジェクトの種類は、イメージ又はパスのオブジェクトであることを特徴とする請求項2に記載の画像処理装置。
  4. 前記所定の閾値として、イメージのオブジェクトの数とパスのオブジェクトの数との合計数と比較するための閾値が1つ設定され、
    前記第1の変換手段は、イメージのオブジェクトの数とパスのオブジェクトの数との合計数が、前記設定された閾値以上の場合に、ページ全体を1つのイメージのオブジェクトに変換する
    ことを特徴とする請求項3に記載の画像処理装置。
  5. 前記所定の閾値として、イメージのオブジェクトの数と比較するための閾値と、パスのオブジェクトの数と比較するための閾値とが別個に設定され、
    前記第1の変換手段は、イメージ及びパスのいずれかのオブジェクトの数が、対応する閾値以上の場合に、ページ全体を1つのイメージのオブジェクトに変換する
    ことを特徴とする請求項3に記載の画像処理装置。
  6. 前記圧縮手段は、イメージのオブジェクトをテキスト領域とそれ以外の領域である背景領域とに分割し、当該テキスト領域と背景領域とに対して、それぞれ異なる方式の圧縮処理を適用することを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。
  7. 前記圧縮手段は、前記テキスト領域の字形情報に対しては可逆方式の圧縮処理を適用し、前記背景領域に対しては非可逆方式の圧縮処理を適用することを特徴とする請求項6に記載の画像処理装置。
  8. 前記入力された文書ファイルにおける複数のページでイメージのオブジェクトのリソースが共有されている場合、
    前記第1の変換手段は、前記残っているオブジェクトの数が前記所定の閾値以上であっても、ページ全体を1つのイメージのオブジェクトに変換しない
    ことを特徴とする請求項2乃至7のいずれか1項に記載の画像処理装置。
  9. さらに、前記入力された文書ファイルのページにおいて、注釈又はテキストのオブジェクトが他のオブジェクトと重なっており、かつ、上にくる方のオブジェクトについて不透過な色での塗りつぶしが指定されている場合、当該重なっているオブジェクトを1つのイメージのオブジェクトに変換する第2の変換手段を備え、
    前記圧縮手段は、前記重なっているオブジェクトに対応する1つのイメージのオブジェクトに対し前記圧縮処理を行い、
    前記復元手段は、前記圧縮処理された前記重なっているオブジェクトに対応する1つのイメージのオブジェクトを含む前記ページに、前記保持した注釈属性及びテキスト属性のオブジェクトを戻す
    ことを特徴とする請求項1乃至8のいずれか1項に記載の画像処理装置。
  10. 画像処理装置における文書ファイルの保存方法であって、
    入力された前記文書ファイルのページから、注釈及びテキストのオブジェクトを抽出して保持するステップと、
    前記ページについてのイメージのオブジェクトを圧縮処理するステップと、
    前記圧縮処理されたイメージのオブジェクトを含む前記ページに、前記保持した注釈及びテキストのオブジェクトを戻すステップと、
    注釈及びテキストのオブジェクトが戻された前記ページで構成される文書ファイルを保存するステップと
    を含むことを特徴とする保存方法。
  11. コンピュータを、請求項1乃至9のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2016106494A 2016-05-27 2016-05-27 文書保存処理システム Expired - Fee Related JP6708476B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016106494A JP6708476B2 (ja) 2016-05-27 2016-05-27 文書保存処理システム
US15/601,167 US10515286B2 (en) 2016-05-27 2017-05-22 Image processing apparatus that performs compression processing of document file and compression method of document file and storage medium
KR1020170065128A KR102137039B1 (ko) 2016-05-27 2017-05-26 문서 파일의 압축 처리를 행하는 화상 처리 장치, 문서 파일의 압축 방법 및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016106494A JP6708476B2 (ja) 2016-05-27 2016-05-27 文書保存処理システム

Publications (3)

Publication Number Publication Date
JP2017211936A true JP2017211936A (ja) 2017-11-30
JP2017211936A5 JP2017211936A5 (ja) 2019-06-27
JP6708476B2 JP6708476B2 (ja) 2020-06-10

Family

ID=60418809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016106494A Expired - Fee Related JP6708476B2 (ja) 2016-05-27 2016-05-27 文書保存処理システム

Country Status (3)

Country Link
US (1) US10515286B2 (ja)
JP (1) JP6708476B2 (ja)
KR (1) KR102137039B1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6769045B2 (ja) * 2016-02-29 2020-10-14 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
AU2017320475B2 (en) 2016-09-02 2022-02-10 FutureVault Inc. Automated document filing and processing methods and systems
JP7039882B2 (ja) * 2017-08-16 2022-03-23 富士フイルムビジネスイノベーション株式会社 画像解析装置及び画像解析プログラム
CN111506272B (zh) * 2020-07-02 2020-10-27 深圳市千分一智能技术有限公司 笔记文件的存储方法、装置、设备及计算机可读存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8401933D0 (en) * 1984-01-25 1984-02-29 Crosfield Electronics Ltd Half-tone imaging
US4899394A (en) * 1986-05-09 1990-02-06 Prodigy Systems Corporation Apparatus and method for image compression
US5046121A (en) * 1989-01-31 1991-09-03 Konica Corporation Image data compression apparatus
US5239625A (en) * 1991-03-05 1993-08-24 Rampage Systems, Inc. Apparatus and method to merge images rasterized at different resolutions
US5327265A (en) * 1992-05-01 1994-07-05 Mcdonald Bruce A Modem accessable image database system for on-demand printing
US5402148A (en) * 1992-10-15 1995-03-28 Hewlett-Packard Corporation Multi-resolution video apparatus and method for displaying biological data
US5426594A (en) * 1993-04-02 1995-06-20 Motorola, Inc. Electronic greeting card store and communication system
US5696848A (en) * 1995-03-09 1997-12-09 Eastman Kodak Company System for creating a high resolution image from a sequence of lower resolution motion images
US20020057441A1 (en) * 1998-01-13 2002-05-16 Jindong Chen Image caching in an open prepress interface
JP4054428B2 (ja) * 1998-02-05 2008-02-27 キヤノン株式会社 画像検索装置及びその方法、コンピュータ可読メモリ
US5980044A (en) * 1998-09-16 1999-11-09 Evans & Sutherland Computer Corp. Area of interest display system with image combining using error dithering
JP2000306103A (ja) 1999-04-26 2000-11-02 Canon Inc 情報処理装置及び方法
JP4065473B2 (ja) 1999-05-14 2008-03-26 キヤノン株式会社 画像処理装置及び方法及び記憶媒体及びシステム
US20040148274A1 (en) * 1999-10-15 2004-07-29 Warnock Christopher M. Method and apparatus for improved information transactions
EP1126380A1 (en) * 2000-02-16 2001-08-22 Sun Microsystems, Inc. Converting a formatted document into an XML-document
JP2002084417A (ja) * 2000-09-08 2002-03-22 Matsushita Electric Ind Co Ltd 画像入力装置
US20020067502A1 (en) * 2000-12-04 2002-06-06 Hansen David R. Methods for digitally printing composite documents
KR100747879B1 (ko) 2004-06-10 2007-08-08 캐논 가부시끼가이샤 화상 처리 장치, 제어 방법 및 기록 매체
US20060224697A1 (en) * 2005-04-04 2006-10-05 Norris Stephen R Method to display and manipulate new content on top of an existing web page
JP4717562B2 (ja) * 2005-09-02 2011-07-06 キヤノン株式会社 画像処理装置及び方法
US20070100846A1 (en) * 2005-10-28 2007-05-03 Adobe Systems Incorporated Aggregate file containing a content-description file and a resource file
JP2007334437A (ja) 2006-06-12 2007-12-27 Canon Inc 画像処理装置及び方法、並びにプログラム及び記憶媒体
US8519925B2 (en) * 2006-11-30 2013-08-27 Vp Assets Limited Multi-resolution display system
US7889949B2 (en) * 2007-04-30 2011-02-15 Microsoft Corporation Joint bilateral upsampling
KR101256104B1 (ko) * 2007-08-06 2013-05-02 삼성전자주식회사 복합기 및 그 제어 방법
US20090235161A1 (en) * 2008-03-15 2009-09-17 Microsoft Corporation Lossless Web-Based Editor For Complex Documents
US8648858B1 (en) * 2009-03-25 2014-02-11 Skyfire Labs, Inc. Hybrid text and image based encoding
US8433997B1 (en) * 2009-07-31 2013-04-30 Google Inc. Efficient portable document
JP5369982B2 (ja) * 2009-08-06 2013-12-18 株式会社リコー 画像処理装置および画像処理方法
JP5482238B2 (ja) * 2010-01-29 2014-05-07 コニカミノルタ株式会社 画像処理装置、画像形成装置、画像処理方法、画像形成方法及びプログラム
JP2011175569A (ja) * 2010-02-25 2011-09-08 Sharp Corp 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
WO2014051577A1 (en) * 2012-09-27 2014-04-03 Hewlett-Packard Development Company, L. P. Sharing content between collocated mobile devices in an ad-hoc private social group
US9977771B2 (en) * 2013-03-14 2018-05-22 Pti Marketing Technologies Inc. System and method for printable document viewer optimization

Also Published As

Publication number Publication date
US10515286B2 (en) 2019-12-24
JP6708476B2 (ja) 2020-06-10
US20170344583A1 (en) 2017-11-30
KR102137039B1 (ko) 2020-08-13
KR20170134251A (ko) 2017-12-06

Similar Documents

Publication Publication Date Title
JP5274305B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP5302768B2 (ja) 画像処理装置及び画像処理方法
CN101520901B (zh) 图像处理装置和图像处理方法
RU2579899C1 (ru) Обработка документа с использованием нескольких потоков обработки
MXPA03002793A (es) Archivos de contenido de trama mezclada.
KR102137039B1 (ko) 문서 파일의 압축 처리를 행하는 화상 처리 장치, 문서 파일의 압축 방법 및 저장 매체
US9247099B2 (en) Image file editing apparatus and method, and program
JP2000306103A (ja) 情報処理装置及び方法
JP5653494B2 (ja) クラウドにより支援されるレンダリング
US7426054B1 (en) Image processing apparatus, image reproduction apparatus, system, method and storage medium for image processing and image reproduction
CN115659917A (zh) 一种文档版式还原方法、装置、电子设备及存储设备
JP2008165381A (ja) 画像処理装置及び画像処理方法
US9741142B2 (en) Method and apparatus for enabling text editing in a scanned document while maintaining fidelity of the appearance of the text
JP2004362541A (ja) 画像処理装置、プログラム及び記憶媒体
JP2006197178A (ja) 画像処理装置および画像処理方法およびプログラムおよび記憶媒体
JP2003244447A (ja) 画像処理装置及び画像処理方法
RU2648636C2 (ru) Сохранение контента в конвертированных документах
US9412187B2 (en) Delayed rendering of content
CN109218556B (zh) 进行绘制处理的图像处理装置、绘制处理方法和存储介质
JP5612851B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102185851B1 (ko) 전자책 제작방법 및 그를 위한 컴퓨터 프로그램
US8941881B2 (en) Method and apparatus for rasterizing transparent page
JP4650236B2 (ja) データ圧縮装置、データ圧縮方法、及びデータ圧縮プログラム
JP2006222940A (ja) 画像処理装置
JP2016024495A (ja) 情報処理装置、情報処理方法、プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200521

R151 Written notification of patent or utility model registration

Ref document number: 6708476

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees