JP4792117B2 - 文書画像処理装置、文書画像処理方法および文書画像処理プログラム - Google Patents

文書画像処理装置、文書画像処理方法および文書画像処理プログラム Download PDF

Info

Publication number
JP4792117B2
JP4792117B2 JP2010058475A JP2010058475A JP4792117B2 JP 4792117 B2 JP4792117 B2 JP 4792117B2 JP 2010058475 A JP2010058475 A JP 2010058475A JP 2010058475 A JP2010058475 A JP 2010058475A JP 4792117 B2 JP4792117 B2 JP 4792117B2
Authority
JP
Japan
Prior art keywords
color
document image
pixel
representative
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010058475A
Other languages
English (en)
Other versions
JP2011193294A (ja
Inventor
直朗 小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010058475A priority Critical patent/JP4792117B2/ja
Priority to US13/026,735 priority patent/US8830545B2/en
Priority to CN201110041846.6A priority patent/CN102194116B/zh
Publication of JP2011193294A publication Critical patent/JP2011193294A/ja
Application granted granted Critical
Publication of JP4792117B2 publication Critical patent/JP4792117B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/64Systems for the transmission or the storage of the colour picture signal; Details therefor, e.g. coding or decoding means therefor
    • H04N1/642Adapting to different types of images, e.g. characters, graphs, black and white image portions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Color Image Communication Systems (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Description

本発明は文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関する。
スキャナ等を利用して帳票などの文書をデジタルデータに変換する際、データ量を減少させるなどの目的でモノクロ画像もしくはグレースケール画像として保存することが多い。しかし、近年では、カラープリンタ等の普及によりカラーの文書が多くなり、それにつれてカラー画像として保存する必要性が多くなってきている。カラー画像は、モノクロ画像やグレースケール画像と比較してデータ量が膨大であるため、一般的に何らかの圧縮処理を施して保存する。カラー画像の圧縮手段として、一般的なJPEG(Joint Photographic Experts Group)方式の圧縮では、文字などを含んだ文書画像の圧縮率を高くすると、ブロックノイズにより文字のエッジ部分がぼやけてしまい、視認性が低下することが知られている。その対策として、まず、画像を減色化して圧縮する技術が挙げられる。文書をスキャナで読み取ると、量子化誤差や読み取り時の位置ずれなどにより、その色数は膨大な数になる。文書画像において効果的な圧縮処理を行うためには、その色数を減らす減色処理によってデータ量の削減を図ることが有効である。この減色処理の従来技術として、例えば特開平7−44709号公報(特許文献1)、特開2007−116419号公報(特許文献2)、および特開平5−67234号公報(特許文献3)が知られている。
特許文献1の発明では、色空間における頻度分布に対してハフ(Hough)変換または主成分分析を行って、色数を決定する。これとともに、前記色空間における色の直線状の分布を求めて、その分布をクラスタリングして得られたクラスタの数色を用いて、減色化を行うものである。
また、特許文献2の発明では、色空間における頻度分布に対して主成分分析を行って、次元数(色数)を算出する。その算出した色数に基づいたパラメータを設定して、頻度分布領域の凸部を決定する。決定した凸部に対応する画素値を原稿使用色の色値とするものである。
また、特許文献3の発明では、被読取物から文字だけを抽出するために、色空間における頻度分布から極大点を求める。そして、最も明度が高い極大点(たとえば、下地色による極大点)からの方向のベクトルデータに変換し、このベクトルデータの分類結果から文字色を判別する。そして、文字以外の模様(絵柄部)の2つの極大点と下地色による極大点とで平面を張り、この平面に垂直な直線で文字色のベクトルを投影することで平面までの距離を算出する。この算出した距離によって、文字と絵柄部又は下地を分離するものである。
また、あらかじめ記入欄などが用意された帳票においては手書き等で追記された画像のみを抽出する技術も挙げられる。帳票をスキャナで読み取り、通信手段によって遠隔地にその帳票画像データを送信する場合、読み取ったデータ全てを送信すると膨大なデータ量となりコストがかかる。通常、帳票においては、予め設定された項目が印字もしくは印刷されている用紙に、人が手書き等で項目欄に内容を記入することが多い。しかしながら、既に印字もしくは印刷されている画像データ(以下、プレプリントデータという)は事前に知り得ており、手書き等で追記されたデータが重要なものとなる。したがって、スキャナで読み取った画像から、手書き等で追記されたデータの画像のみを抽出し、抽出した画像データを遠隔地に送信すれば効率がよい。そして、受信側では、受信した画像データと予め用意してあるプレプリントデータとを合成することで、送信側と同じ画像データを復元・表示することができる。このような手法の一つとして、特開平11−96297号公報(特許文献4)に開示されているものがある。この特許文献4の方法では、手書き等で追記された帳票画像に対してプレプリントデータを除去した画像と色領域画像に分解し、それぞれ独立して画像圧縮を行うこと特徴としている。
しかしながら、文字のエッジ部分の画像は、特に、スキャン時の色ずれなどにより実際に使用されているインク色から外れることが多い。たとえば、インク色と下地色の両方の影響を受けて中間の色となる。この場合、上記した特許文献1の方法では、直線分布からはずれた色の取り扱いが不明であるため対応できない。
また、帳票などの文書画像では、網点にすることで意図して特定の欄を中間色にしている場合がある。さらには、その網点上に網点と同じ色のインクで文字を印刷することもある。この場合、上記した特許文献2の方法では、この文書画像の色の置き換え処理を行うと、文字と網点が同じ色として認識され、文字が読みにくくなる恐れがある。また、同系色で文字、罫線、その他の画像が印字された帳票の読み取り画像データは、クラスタリングが難しい。例えば、赤色の文字や罫線が印字され、後から印鑑の捺印による朱色が加わった文書の画像を読み取った場合、赤色の文字や罫線と朱色を別の色としてクラスタリングすることが難しい。
また、上記した特許文献3の方法では、絵柄部の極大点と下地色の極大点とで平面を張る必要がある。このため、事前に色数が既知である必要があり、文字色以外の色数が多いと前記平面を張ることができなくなる。また、上記した特許文献4の方法では、対象となる色が赤や青といった特定のドロップアウト色に限定している。このため、帳票読み取りを前提で設計された帳票以外、つまり既存帳票では対応できない。したがって、特許文献1、特許文献2、特許文献3、および特許文献4の技術では、一般的な文書画像に対して効果的に減色処理を行うことが難しいという問題がある。
特開平7−44709号公報 特開2007−116419号公報 特開平5−67234号公報 特開平11−96297号公報
本発明は、このような課題を解決するためになされたもので、入力文書画像の各画素を的確に代表色に置き換える減色処理を行った文書画像とプレプリントデータとの差分画像を生成することで情報量を削減する文書画像処理装置、文書画像処理方法、および文書画像処理プログラムを提供することを目的とする。
上記の問題を解決するために、本発明に係る文書画像処理装置は、入力文書画像と、前記入力文書画像に対応するプレプリントデータの各画素から各々の文書要素を抽出する文書要素抽出部と、前記入力文書画像および前記プレプリントデータの各々から抽出された前記文書要素の色空間における代表色を推定する代表色推定部と、前記入力文書画像および前記プレプリントデータ各々の前記代表色を前記色空間上で各々分離する分離平面を算出する分離平面算出部と、前記入力文書画像および前記プレプリントデータ各々の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換える色置換処理部と、各画素の色を前記代表色に置き換えた前記入力文書画像の各画素と、各画素の色を前記代表色に置き換えた前記プレプリントデータの各画素との差分画像を生成する差分画像生成部とを備えることを特徴とする。
本発明に係る文書画像処理方法は、前記入力文書画像と、前記入力文書画像に対応するプレプリントデータの各画素から各々の文書要素を抽出するステップと、前記入力文書画像および前記プレプリントデータの各々から抽出された前記文書要素の色空間における代表色を推定するステップと、前記入力文書画像および前記プレプリントデータ各々の前記代表色を前記色空間上で各々分離する分離平面を算出するステップと、前記入力文書画像および前記プレプリントデータ各々の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換えるステップと、各画素の色を前記代表色に置き換えた前記文書画像と、各画素の色を前記代表色に置き換えた前記プレプリントデータの各画素との差分画像を生成するステップとを具備することを特徴とする。
本発明に係る文書画像処理プログラムは、入力文書画像を減色処理する文書画像処理装置の文書画像処理プログラムであって、コンピュータに、前記入力文書画像と、前記入力文書画像に対応するプレプリントデータの各画素から各々の文書要素を抽出する機能と、前記入力文書画像および前記プレプリントデータの各々から抽出された前記文書要素の色空間における代表色を推定する機能と、前記入力文書画像および前記プレプリントデータ各々の前記代表色を前記色空間上で各々分離する分離平面を算出する機能と、前記入力文書画像および前記プレプリントデータ各々の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換える機能と、各画素の色を前記代表色に置き換えた前記文書画像と、各画素の色を前記代表色に置き換えた前記プレプリントデータの各画素との差分画像を生成する機能とを具備することを特徴とする。
本発明によれば、入力文書画像の各画素を的確に代表色に置き換える減色処理を行った文書画像と事前に登録されたプレプリントデータとの差分画像を生成することで、情報量を大幅に削減とすることができる。
本発明の一実施形態の文書画像処理装置の構成を示す図である。 図1に示した第1の実施形態に係るCPUの機能構成を示す図である。 図2に示した文書像入力部に入力される入力文書画像の一例を示す図である。 図2に示した文書識別部2よる識別処理の一例を示すフローチャートである。 図2示した文書識別部により記憶装置から抽出された図3の入力文書画像に対するプレプリントデータの一例を示す図である。 図2に示した減色処理部の機能構成を示す図である。 図6に示した文書要素抽出部の処理の一例を示すフローチャートである。 図3に示した入力文書画像に対して2値化処理を行って生成された2値入力文書画像の一例を示す図である。 図8に示した2値画像に対して文字領域と判別した黒画素のみを抽出した結果の一例を示す図である。 図8に示した2値画像に対して罫線領域と判別した黒画像のみを抽出した結果の一例を示す図である。 図6に示した代表色推定部の処理の概念を説明するための頻度分布の一例を示す図である。 図11に示した頻度分布において、下地色の頻度分布から各頻度分布への各ベクトルと2値化平面とを加えた頻度分布の一例を示す図である。 分離平面算出部の処理を説明するための頻度分布の一例を示す図である。 図13に示した頻度分布において、代表色間のベクトルに分布を射影した頻度分布の一例を示す図である。 複数の分離平面を求める状況を説明するための頻度分布の一例を示す図である。 プレプリントデータにおいて代表色推定部が求めた頻度分布を示す図である。 プレプリントデータにおいて代表色推定部が求めた頻度分布に2値化平面を加えた一例を示す図である。 差分画像生成部における差分画像生成処理の一例を示す図である。 図5に示すプレプリントデータと図3に示す入力文書画像に対して差分画像生成処理を行った結果作成された差分画像の一例を示す図である。 本発明の第2の実施形態における減色処理部の機能構成を示す図である。 図20に示す代表色統一部における代表色統一処理を示すフローチャートである。
以下、本発明の実施の形態について図面を参照しながら説明する。
(第1の実施の形態)
図1は、本発明の一つの実施の形態に係る文書画像処理装置10の構成を示すブロック図である。
文書画像処理装置10は、CPU11、CPUバス12、記憶装置13、主記憶部14、データ入力装置15、入力インターフェイス装置16、出力インターフェイス装置17、画像入力装置18、画像出力装置19で構成される。
CPU11、記憶装置13、主記憶部14、データ入力装置15、入力インターフェイス装置16および出力インターフェイス装置17は、CPUバス12を介してそれぞれ接続されている。
記憶装置13は、CPU11の作業用メモリである。記憶装置13は、例えば磁気ディスク装置又は半導体メモリなどで構成されている。主記憶部14は、プログラム格納領域とテンポラリ記憶領域とを有する。このプログラム格納領域には、この文書画像処理装置10を制御するプログラムなどが格納される。また、テンポラリ記憶領域は、CPU11の一時記憶領域として使用される。主記憶部14は、例えば半導体メモリなどで構成されている。本発明に係る文書画像処理プログラムは記憶装置13に格納されており、文書画像処理装置10が起動された時に記憶装置13から主記憶部14にローディングされる。
データ入力装置15は、たとえばキーボードやマウスなどからなり、オペレータの操作に応じたデータまたは指令が入力される。入力インターフェイス装置16には、画像入力装置18が接続されている。画像入力装置18は、文字および文字以外の画像(例えば罫線、図形、写真)が印字された文書を読み取るスキャナ装置である。入力インターフェイス装置16は、画像入力装置18によって読み取られた文書画像データを入力する。この文書画像データは、CPUバス12を介して記憶装置13に送られて、そこに記憶される。
出力インターフェイス装置17には、画像出力装置19が接続されている。出力インターフェイス装置17は、記憶装置13に記憶された文書画像データを、CPUバス12を介して受信して画像出力装置19へ出力する。画像出力装置19は、出力インターフェイス装置17からの文書画像データを出力するデバイス(例えば、表示装置、印刷装置、ファイル装置など)である。
図2は、図1に示した第1の実施形態に係るCPU11の機能構成を示す図である。CPU11は、文書画像処理装置10の全体を制御する。CPU11は、文書画像入力部1、文書識別部2、減色処理部3、差分画像生成部4を備える。この文書画像入力部1、文書識別部2、減色処理部3、差分画像生成部4は、CPU11が文書画像処理プログラムを実行する際に動作する機能を表したものである。
本実施形態では、プレプリントデータを画像入力装置18から入力し、入力したプレプリントデータを事前登録プレプリントデータ(以下、単に登録プレプリントデータという)として記憶装置13が記憶している文書画像処理装置10の動作を、図3乃至図19を参照して説明する。なお、登録プレプリントデータは、文書識別部2によって抽出された識別情報とともに記憶装置13に記憶されているとする。
図2に示した文書画像入力部1は、文書画像データを受信する入力部として機能する。この文書画像データは、スキャナ装置から読み取ったカラー画像データである。
図2における文書画像入力部1によって入力されるカラー文書の画像データである文書画像の一例を図3に示す。図3は、文書画像入力部1によって入力されるあらかじめ印字もしくは印刷された文書に追記及び捺印をした入力文書画像301を示す図である。入力文書画像301は下地色が白色であり、「申込書」の文字302は赤色、太線枠303は青色、網点部304は薄い青色、「氏名」の文字305は青色、罫線枠306は黒色、捺印場所の「印」の文字307は黒色、記入文字「東芝タロー」308は薄い黒色、捺印309は朱色であるとする。なお、記入文字「東芝タロー」308は鉛筆で記入されたとする。また、捺印309は、他の色と比較して画素数が小さいものとする。
図2に示した文書識別部2は、文書画像入力部1が受信した入力文書画像と記憶装置13に記憶されている登録プレプリントデータとを比較することにより、前記入力文書画像に対する登録プレプリントデータを識別する。図4は、文書識別部2による登録プレプリントデータの識別処理手順を示す。
図4では、文書識別部2は、文書画像入力部1が受信した入力文書画像301の識別情報を抽出する(ステップS21)。識別情報とは、文書サイズ、プレプリントされている罫線や文字などの文書要素としての属性情報や、その位置・形状情報等である。たとえば、図3に示す入力文書画像301においては、入力文書画像301のサイズ、プレプリントされている文字である「申込書」302、「氏名」305、同じくプレプリントされている罫線の太線枠303や、罫線枠306等が識別情報として定義される。識別情報の抽出は、具体的には、2値化処理、連結成分抽出処理、特徴量測定処理、属性分類処理によって行う。これらの処理については、後述する文書要素抽出部の処理の説明で詳しく述べる。
続いて、文書識別部2は、登録プレプリントデータの識別情報DB30に記憶された登録プレプリントデータの識別情報と、入力文書画像301の識別情報を比較する(ステップS22)。そして、一致した登録プレプリントデータ、もしくは最も類似した登録プレプリントデータを入力文書画像301に対する登録プレプリントデータと識別する(ステップS23)。なお、この文書識別部2における文書の識別技術としては、特開2002−109469に開示された方法を用いてもよい。なお、本実施形態においては登録プレプリントデータの識別情報をあらかじめ登録プレプリントデータの識別情報DB30に登録してあるが、入力文書画像301の識別情報を抽出する際に登録プレプリントデータの識別情報を抽出するという方法でもよい。
図5は、文書識別部2が識別した入力文書画像301に対する登録プレプリントデータ201を示す。登録プレプリントデータ201は、例えば下地色が白色であり、「申込書」の文字202は赤色、太線枠203が青色、網点部204は薄い青色、「氏名」の文字205は青色、罫線枠206は黒色、捺印場所の「印」の文字207は黒色であるとする。
図2に示した減色処理部3は、入力された入力文書画像301と抽出された登録プレプリントデータ201のそれぞれに対し、減色処理を行う。すなわち、減色処理部3は、文書画像に対して文字や罫線などの文書要素を抽出する。次に、それらの文書要素の代表色および代表色間における分離平面を求める。次に、2値化平面と分離平面で囲まれた領域を代表色で置き換える。これにより、文書画像に特化した減色処理が行われる。
図6は、減色処理部3の機能構成を示す図である。減色処理部3は、文書要素抽出部101、代表色推定部102、分離平面算出部103、色置換処理部104等から構成されている。ここでは、図3に例示した入力文書画像301に対して減色処理部3による減色処理の手順を、図6乃至図15を用いて具体的に説明する。
文書要素抽出部101は、まず文書画像の文字や罫線などの文書要素を抽出する。図7は、文書要素抽出部101の処理の一例を示すフローチャートである。文書要素抽出部101は、2値化処理、連結成分抽出処理、特徴量測定処理および属性分類処理を行う。以下、文書要素抽出部101が図3に示す入力文書画像301に対して前記処理を行った際の処理手順について、図8〜図10を用いて説明する。
(2値化処理)
文書要素抽出部101は、前処理として2値化処理を行う(図7のステップS111)。通常、この文書要素の判別として重要なものは、下地と区別可能な濃い濃度の色である。そこで、この文書要素抽出部101での2値化処理によって、ノイズや薄い網点領域などを除去した白画素と黒画素からなる2値画像を生成する。2値画像の生成は、たとえば、濃淡画像を2値化処理する際に最適閾値を求める判別分析法などの一般に知られている技法を利用してよい。
図8は、図3に示した入力文書画像301に対して2値化処理を行って生成された2値入力文書画像311の一例を示す図である。図8において、2値入力文書画像311の黒画素312は、図3に示した「申込書」の文字302に対応する。2値入力文書画像311の黒画素313は、太線枠303に対応する。2値入力文書画像311の黒画素315は、「氏名」の文字305に対応する。2値入力文書画像311の黒画素316は、罫線枠306に対応する。2値入力文書画像311の黒画素317は、捺印場所の「印」に対応する。2値入力文書画像311の黒画素318は、記入文字「東芝タロー」307に対応する。2値入力文書画像311の黒画素319は、捺印308に対応する。しかしながら、2値化処理により図3に示した網点部304は、色濃度が薄いために白画素314となる。
(連結成分抽出処理)
文書要素抽出部101は、この2値化処理によって生成された2値入力文書画像311に対して、黒画素312〜319の連結性を検出する。そして、連結されているものは1つの塊として抽出する連結成分抽出処理を行う(図7のステップS112)。
(特徴量測定処理)
文書要素抽出部101は、この抽出された各連結成分に対して、「大きさ」、「形状」、「黒画素比率」、「黒画素分布」などの特徴量を計測する(図7のステップS113)。たとえば、「大きさ」は、連結成分の外接矩形の縦横の画素数から測定する。「形状」は、連結成分の外接矩形が正方形、横に細長い長方形、あるいは縦に細長い長方形等の形状を計測する。「黒画素比率」は、連結成分の外接矩形に対して、黒画素の比率の大小を計測する。「黒画素分布」は、連結成分の外接矩形内における黒画素の分布に偏りがあるか、または一様かを計測する。
(属性分類処理)
文書要素抽出部101は、この特徴量測定処理の計測結果を用いて、各連結成分がどのような種類の文書要素であるかの属性分類を行う(図7のステップS114)。たとえば、「大きさ」が文書画像の大きさに比較して小さく、「形状」が正方形に近く、「黒画素比率」が高い文書要素は、文字と判別する。また、「大きさ」が文字よりも大きく、内部が空白で「黒画素比率」が低く、「黒画素分布」では連結成分の外接矩形付近にのみ黒画素が存在する文書要素は、罫線枠と判別する。また、文字として抽出された連結成分について、周囲で同様な連結成分があった場合のみ、文字として判別してもよい。これにより、2値化時に発生するノイズ成分を除去することが可能である。
図9に示す文字画像321は、図8に示した2値入力文書画像311に対して文字領域と判別した黒画素312,315,318を抽出した結果を示す図である。文書要素抽出部101は、「申込書」の文字322、「氏名」の文字325、「印」327、記入文字「東芝タロー」328、捺印329を文字画像として抽出している。ただし、文字画像321の枠は、文書画像の全体の大きさを便宜的に示すものであり、文書要素抽出部101の抽出結果ではない。
図10に示す罫線画像331は、図8に示した2値入力文書画像311に対して罫線領域と判別した黒画像313,316を抽出した結果を示す図である。文書要素抽出部101は、太線枠333と罫線枠336を罫線画像331として抽出している。文字画像321と同様に、罫線画像331の枠は、文書画像の全体の大きさを便宜的に示すものであり、文書要素抽出部101の抽出結果ではない。文書要素抽出部101は、前記入力された文書画像の各画素から、この文書画像の文書要素を抽出する抽出部として機能する。
こうして、文書要素抽出部101で抽出された結果情報は、代表色推定部102に出力される。代表色推定部102は、抽出した文字や罫線といった文書要素の画素の色や、下地などの画素の色を、色空間における頻度分布を利用して推定する。すなわち、代表色推定部102は入力文書画像301に対して、各画素の色値をRGBで表現するものとして、3次元の頻度分布を求める。図11は、代表色推定部102の処理を説明するための頻度分布501の一例を示す図である。つまり、図11の頻度分布501は、図3に示した入力文書画像301の各画素全てについて頻度分布を求め、プロットした結果である。
この頻度分布501は、たとえば白色の下地色の頻度分布(以下、「下地色の頻度分布」という)502、青色の文字や罫線の頻度分布503、薄い青色の網点の頻度分布504、黒色の文字や罫線の頻度分布505、赤色の文字の頻度分布506、鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布507、朱色の捺印の頻度分布508を含んで構成される。
図11の各頻度分布503〜508を図3の入力文書画像302〜309で表すと、下地色の頻度分布502は、下地色に対応する。また、青色の文字や罫線の頻度分布503は、太線枠303、「氏名」の文字305に対応する。また、薄い青色の網点の頻度分布504は、網点部304に対応する。また、黒色の文字や罫線の頻度分布505は、罫線枠306、捺印場所の「印」の文字307に対応する。また、赤色の文字の頻度分布506は、「申込書」の文字302に対応する。また、鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布507は、記入文字「東芝タロー」308に対応する。また、朱色の捺印の頻度分布508は、捺印309に対応する。
下地色の頻度分布502と各頻度分布503〜508との間には中間色の頻度分布が広がっている。頻度分布501は、これら中間色を包含したものと見做すことができる。ただし、実際には、頻度分布501の外側のRGB値を持った画素も存在している。これについては後述する。各頻度分布503〜508は、中心付近が最も頻度の高いものとなる。したがって、下地色の頻度分布502から各頻度分布503〜508へのベクトルをそれぞれ求め、これを各頻度分布の代表色と見做すことができる。
なお、各頻度分布503〜508は、文書要素として抽出された領域のみから頻度分布を求めることが可能であり、この場合、頻度分布501のように広がりを持った領域は発生しない。この代表色推定部102は、前記抽出された文書要素の色空間における代表色を推定する推定部として機能する。
図12は、下地色の頻度分布502から各頻度分布503〜508への各ベクトル510〜515と、2値化平面520とを加えた頻度分布の一例を示す図である。なお、各頻度分布501〜508は、図11で説明したものと同じである。各ベクトル510〜515は、それぞれ頻度分布503〜508の代表ベクトルを示す。また、頻度分布501は、2値化平面520によって平面上部520Uと平面下部520Dとに分割されている。各代表ベクトル510〜515は、各頻度分布501〜508における頻度が高いRGB値を始点と終点としている。
この実施形態では、各代表ベクトル510〜515を文書画像の頻度分布501より算出する場合を考える。この場合、各頻度分布503,505〜508の極大値を調べることにより、各頻度分布への代表ベクトルが算出できる。ところが、頻度分布504のように中間色の場合、頻度分布501が横に広がり、かつ頻度分布503との距離が近い。このため、頻度分布504が頻度分布503の影響を受け、代表ベクトル511が正しく算出できない恐れがある。逆に、頻度分布503の代表ベクトル510の算出も、頻度分布504の影響により正しく算出できない恐れがある。
また、朱色の捺印の頻度分布508は、他の頻度分布502〜507と比較して画素数が少ないため、下地色の頻度分布502からの広がりにより代表ベクトル515が正しく算出できない場合もある。代表ベクトル515が正しく算出できないと、後述する分離平面算出部103で正しい分離平面を求めることができず、この結果視認性が低下した画像となる。
そこで、本実施形態では、文字や罫線といった重要な文書要素の代表ベクトルを頻度分布全体から算出するのではなく、下地色や中間色と区別して決定する。そのために、本実施形態では、文書要素抽出部101での2値化処理の結果、および文書要素抽出処理の結果を利用する。
図12において、2値化平面520により頻度分布501を平面上部520Uと平面下部520Dに分割することは、RGBの色空間における2値化処理を表している。つまり、この平面上部520Uは下地など濃度が薄い領域となり、この平面下部520Dは文字や罫線といった文書要素を含む濃度が濃い領域となる。この平面上部520Uに存在する頻度分布のうち、下地色の頻度分布502は薄い青色の網点の頻度分布504よりも頻度分布における極大値(RGB値)がかなり大きい。このため、下地色の頻度分布502を代表ベクトルの基準となる下地色の代表色と推定することが可能となる。推定された極大値は、下地色となりその他の代表ベクトルの基準点となる。その後、次の極大値があると考えられる薄い青色の網点部の頻度分布504の極大値を求め、頻度分布504の代表色とする。
次に、2値化平面520の平面下部520Dに存在する各頻度分布503、505、506、507、508に対して、同様に極大値を求め代表色を決定する。この際、頻度分布501の全体から代表色を決定するのではなく、文書要素の抽出結果を利用した頻度分布から決定する。つまり、青色の文字や罫線の頻度分布503、薄い青色の網点の頻度分布504、黒色の文字や罫線の頻度分布505、赤色の文字の頻度分布506、鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布507、朱色の捺印の頻度分布508から求めることにより、分布の広がりの影響を受けないようにする。このため、正しく代表色を決定することが可能となる。なお、具体的な代表ベクトルの算出方法は、特開平5−61974号公報に開示されている手法を用いてもよい。この手法では、文書画像のRGBデータが入力されると、濃度ヒストグラムを作成して極大点を検出する。そして、下地色を基準点とする極大点の方向ベクトルデータへの変換を行うことにより実現できる。
こうして、代表色推定部102で推定された各代表色の情報は、分離平面算出部103に出力される。分離平面算出部103は、色空間において各代表色間を分離するための平面を求める。図13は、分離平面算出部103の処理を説明するための頻度分布の一例を示す図である。この図13では、色空間において頻度分布701が存在し、その中に頻度分布702と頻度分布703の2色の分布が含まれる。たとえば、頻度分布702が図11の頻度分布504に対応し、頻度分布703が図11の頻度分布503に対応している。
これら頻度分布701〜703の色は、文字や罫線といった文書要素を構成する色であるものとする。これら頻度分布702、703の代表色を、それぞれ代表色705、706とし、下地色の頻度分布の代表色を代表色704とする。なお、下地色の頻度分布は、たとえば、図11の頻度分布502を想定するとよい。この例では、頻度分布702と703は、それぞれ別の色であるが、頻度分布701に示すように完全に分離できていない。
実際にはこのように頻度分布同士が完全に分離できていないことが多い。この現象は、たとえば文字と罫線が別の色であるときに、又は文字と罫線が接触している場合などに発生すると考えられる。このような状態では、後述する色置換処理部104で各画素の色を代表色に置き換える際に、どちらの色に置き換えるかの判断がつかない。そこで、2色の頻度分布間における分離平面710を求める。この分離平面710の上部のRGB値を持った画素は全て代表色705へ置き換えることが可能となる。同様に、分離平面710の下部のRGB値を持った画素は全て代表色706へ置き換えることが可能となる。分離平面算出部103は、前記推定された代表色を前記色空間上でそれぞれ分離する分離平面710を算出する算出部として機能する。
次に、具体的な分離平面710の算出方法について説明する。まず、下地色の代表色704と各頻度分布702、703の代表色705、706によって求めた2色の代表ベクトル707、708から2色間のベクトル709が求まる。このベクトル709の方向ベクトルを(a、b、c)とする。分離平面710は、ベクトル709と垂直に交差する平面とすると、分離平面710の法線ベクトルも(a、b、c)となる。したがって、分離平面710の式(1)は、
ax+by+cz+d=0 …(1)
となる。
次に、係数dの求め方について説明する。図14は、図13に示した2色間の分布において、代表色間のベクトルに分布を射影した頻度分布の一例を示す図である。図13のベクトル709は、射影軸806に対応する。また、図13の代表色705と706は、射影するとそれぞれ分布804と805に対応する。また、図13の頻度分布701〜703は、それぞれ射影分布801〜803に対応する。この射影分布801〜803から分離平面807を求める。算出方法としては、2値化処理と同様に一般に知られている判別分析法を用いてもよい。この結果、分離平面807の射影軸806上における座標値(α、β、γ)が算出される。この座標値を式(1)に代入して係数dを求めることにより、図17の色空間における分離平面710が算出される。すなわち、係数dは、
d=−(aα+bβ+cγ)
となる。
分離平面算出部103は、実際には各代表色間で求めることとなる。つまり、隣接した代表色間でそれぞれ分離平面を算出し、その平面によって囲まれた領域毎で代表色間の分離を行う。たとえば、図11の頻度分布503、505、506、507、508の相互間で分離平面を算出し、それぞれの分離平面によって囲まれた領域毎にそれぞれの代表色を設定する。
ここでは、分離平面に対して正(+)側と負(−)側を定義し、ある代表色の座標値が正側か負側かを判定する。この代表色がたとえば正側だったら、正側に存在する色の座標値を全て求める。これを各分離平面に対して行い、これら分離平面によって囲まれた領域がこの代表色の該当領域となる。その際、演算コスト削減のため、代表色間の距離を算出し、その距離が予め設定した閾値以上に離れている場合は分離平面の算出を行わなくてもよい。
図15は、複数の分離平面911、912、915〜919を求める状況を説明するための頻度分布の一例を示す図である。この図15は、図11のRGB軸の原点側、つまり黒側から見た図となっている。すなわち、青色の文字や罫線の頻度分布901とその代表色906、黒色の文字や罫線の頻度分布902とその代表色907、赤色の文字の頻度分布903とその代表色908、鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布904とその代表色909、朱色の捺印の頻度分布905とその代表色910がある。
図15を図11の文書画像で表現すると、青色の頻度分布901は頻度分布503の領域である。また、黒色の頻度分布902は頻度分布505の領域である。また、赤色の頻度分布903は頻度分布506の領域である。また、鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布904とは頻度分布507の領域である。また、朱色の捺印頻度分布905は頻度分布508の領域である。
ここで、青色の頻度分布901の分離を考えると、頻度分布901と代表色906、黒色の頻度分布902と代表色907によって分離平面911を求めることができる。同様に、青色の頻度分布901と代表色906、赤色の頻度分布903と代表色908によって分離平面912を求めることができる。なお、青色の頻度分布901と鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布904、および青色の頻度分布901と朱色の捺印の頻度分布905間は、距離が離れているため、分離平面の算出は行わない。実際に、頻度分布901と頻度分布904間の分離平面を求めても、この分離平面は代表色906から見て分離平面911と912の外側となるためである。この分離平面911および912で囲まれた領域913が青色の領域Aとなる。
また、黒色の頻度分布902と代表色907、赤色の頻度分布903と代表色908によって分離平面915を求めることができる。また、黒色の頻度分布902と代表色907、鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布904と代表色909によって分離平面917を求めることができる。また、黒色の頻度分布902と代表色907、朱色の頻度分布905と代表色910によって分離平面916を求めることができる。また、赤色の頻度分布903と代表色908、朱色の頻度分布905と代表色910によって分離平面918を求めることができる。また、鉛筆で記入された多少濃度が薄い黒色の記入文字の頻度分布904と代表色909、朱色の頻度分布905と代表色910によって分離平面919を求めることができる。
黒色の頻度分布902の分離で、代表色907と他の3つの代表色906、908、909、910との距離が予め設定した閾値以下である場合、分離平面911、915、916をそれぞれ求め、各分離平面に囲まれた領域が黒色の領域Bと設定してもよい。なお、図15には図示していないが、白色側は図12の2値化平面520によって分離されている。
したがって、実際には青色の領域Aは、求めた分離平面911、912および2値化平面520の3つの平面で囲まれた領域となる。同様に、黒色の領域Bは、求めた分離平面911、915、917および2値化平面520の4つの平面で囲まれた領域となる。同様に、赤色の領域Cは、分離平面912、915、918および2値化平面520の4つの平面で囲まれた領域となる。同様に、鉛筆で記入された多少濃度が薄い黒色の記入文字の領域Dは、分離平面916、919および2値化平面520の3つの平面で囲まれた領域となる。同様に、朱色の領域Eは、分離平面918、919および2値化平面520の3つの平面で囲まれた領域となる。
こうして、分離平面算出部103で算出された分離平面の領域情報A〜Eは、色置換処理部104に出力される。色置換処理部104は、図15で説明したように、入力された文書画像の各画素領域を代表色推定部102で推定し代表色に置き換える。すなわち、色置換処理部104は、各画素のRGB値を色空間上の点とみなし、分離平面算出処理で算出された分離平面によってどの代表色に分離されるかを検知し、検知した代表色に置き換える。色置換処理部104は、前記算出された各平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素領域の色を、同じ前記分離領域に分布する前記代表色に置き換える置換部として機能する。
なお、色置換処理部104が分離平面による分離を行う際、図15の領域914に示すような、どの代表色の領域にも属さない領域が発生する場合がある。この領域914に画素が存在する場合は、分離平面から代表色を探すのではなく、置き換えが終了した文書画像の周囲の画素を調べることにより置き換えてもよい。具体的には、対象画素がどの代表色にも属さない場合、その対象画素の周囲8方向(上下左右、左斜めの上下、右斜めの上下の方向)の画素を調べ、最も多い代表色をその画素の代表色としてもよい。
減色処理部3は、図5に示す登録プレプリントデータ201に対しても同じように減色処理を行う。登録プレプリントデータ201に対して代表色推定部102が求めた頻度分布401を図16に示す。また、登録プレプリントデータ201に対して代表色推定部102が求めた頻度分布に2値化平面420を加えた一例を図17に示す。図17には、図12と同様に、ベクトル410〜413、すなわち、それぞれ頻度分布403〜406の代表色を求めるための代表ベクトルを示している。
減色処理部3は、入力された文書画像の全画素について上述した処理を行い、それぞれの代表色への置き換え(減色処理)を行う。
図2に示した差分画像生成部4は、減色処理部3が減色処理を行った、登録プレプリントデータと入力文書画像との間の差分演算により記入文字を抽出する。差分画像生成部4は、抽出した記入文字を差分画像データとして出力する。次に、差分画像生成部4による差分画像の生成処理について、図18乃至図19を用いて説明する。
図18は、差分画像生成部4による差分画像の生成処理手順の一例を示すフローチャートである。まず、減色処理部3が減色処理を行った登録プレプリントデータと入力文書画像のそれぞれに対して文書画像の傾き量の算出を行う(ステップS41)。次に、算出した傾き量をゼロに補正する(ステップS42)。
一般に、スキャナで読み込まれた画像には画像に傾きが生じることがある。その傾き量は、読み取り対象の文書をスキャナに置くごとに異なってくる。傾きが存在する文書画像を用いて差分を算出すると、プレプリントの文字や罫線などの位置にズレが生じてしまう。その結果、作成した差分画像にノイズが発生する。したがって、差分画像に発生するノイズを削減するために、文書画像の傾き量を算出し、算出された傾き量をゼロにする傾き補正を行う。
ステップS41における傾き検知処理は、例えば特開平5−174183号公報に開示される手法により実現できる。また、ステップS42における傾き補正処理は、良く知られたアフィン変換を用いて実現できる。
次に、どちらか一方の文書画像を固定し、他方の文書画像の平行移動量を算出することで、文書画像間の移動量の算出を行う(ステップS43)。すなわち、どちらか一方の文書画像を固定し、その他方の文書画像をx方向もしくはy方向に1ドットずつ移動させ、文書画像間の画素各々における画素値の差分和を求める。双方の文書画像が正しい位置であるほど差分和が小さくなることから、差分和が最小となるx、yの組み合わせを平行移動量と見なすことができる。なお、ステップS43の移動量の算出処理は、文書画像全体において行っても良い。しかし、文書の紙自体の伸縮やスキャン時のズレなどにより、文書画像全体で均一の移動量にならない場合もある。その場合、文書画像をメッシュに分割し、メッシュ毎に移動量を算出しても良い。また、紙の伸縮が大きい場合、移動量だけではなく、事前に拡大縮小率を求め、画像全体を拡大縮小しても良い。
続いて、双方の文書画像間の画素の差分を計算し、計算結果を用いて文書画像間の差分画像を生成する(ステップS44)。上述の通り、既に減色処理を行っているため、色数の少ない差分画像が生成される。具体的には、ステップS43の移動量の算出処理にて算出されたx、yの移動量に従って一方の画像を移動する。これにより双方の文書画像の位置が正しく重なる。
ステップS44では、双方の文書画像の画素値を比較し、同じである場合に対応する位置の差分画像の値を白とする。一方、双方の文書画像の画素値が異なる場合、入力された入力文書画像の画素値を差分画像の値とする。これにより、登録プレプリントデータに追記された画素だけを示す差分画像を生成することができる。この差分画像は、記憶装置13もしくは主記憶部14に保存される。
図19は、図5に示す登録プレプリントデータ201と図3に示す入力文書画像301に対して差分画像の生成処理を行った結果として、作成された差分画像601の一例を示す図である。すなわち、減色処理部3による減色処理が行われた登録プレプリントデータ201の各代表色の画素と、入力文書画像301の各代表色の画素との間で、ステップS44の画像間差分演算処理を行った結果の差分画像である。図19において、差分画像601は登録プレプリントデータに追記された記入文字「東芝タロー」608、および捺印609で構成されている。
このようして作成・出力された差分画像に対して、圧縮処理などを施すことによって、よりデータ量を削減することが可能となる。その結果、ストレージ量や通信量の削減につながる。
また、本実施形態における文書画像処理装置は、登録プレプリントデータ201の減色処理後の画像と差分画像602とを用いて、追記や捺印された入力文書画像301の減色処理後の文書画像を再構成する再構築処理部を備えてもよい。具体的には、差分画像を生成する際に算出された移動量をもとに、差分画像と登録文書画像の位置を合わせる。その結果、差分画像で白では無い画素値があった場合、登録文書画像のその画素値を差分画像の画素値に置き換える。これにより再構成画像が生成される。
その場合、差分画像と登録文書画像のみを保存すればよいため、ストレージ量を大幅に削減することができる。なお、本実施例においては、双方の文書画像の画素値を比較し、同じである場合に対応する位置の差分画像の値を白としたが、背景色にあわせてもよいし、nullとしてもよい。
(第2の実施例)
本発明の第2の実施形態について図面を用いて説明する。図20は、本実施形態における減色処理部3の機能構成を示す図である。本実施形態においては、減色処理部3がさらに代表色統一部105を備える。この代表色統一処理部105による代表色統一処理について、図3、図5、図12、図17、図20、図21を用いて説明する。なお、第1の実施形態と同じ動作の説明は省略する。
図5に示す登録プレプリントデータ201は、入力文書画像301のプレプリント部分の画像であるため、登録プレプリントデータ201のRGBの3次元頻度分布401と入力文書画像301のRGBの3次元頻度分布501は大きく変わらない。すなわち、図12の頻度分布501において、頻度分布502〜506は、図17に示した頻度分布402〜406とほぼ同じである。ただし、記入文字308による薄い黒色の頻度分布507と捺印309による朱色の捺印の頻度分布508を除く。しかしながら、スキャナにて図3に示す入力文書画像301および図5に示す登録プレプリントデータ201を読み取る際に、量子化誤差や位置ズレ等が発生する。また、プレプリントの色であっても色ズレが発生する。
同様に、図17における代表ベクトル410〜413は、図12における代表ベクトル510〜513に対応(類似)しているが、上述したように頻度分布にズレが発生するため、代表ベクトルも異なる。このズレが差分画像を作成する際のノイズとなる。代表色統一部105は、このノイズを削減する機能を有する。すなわち、図12に示す入力文書画像301の代表ベクトル510〜515のうち、図17に示した代表ベクトル411〜413に対応する(類似する)代表ベクトルが存在する場合(本例では、代表ベクトル510〜513)、それを図17の代表ベクトル411〜413に置き換える。すなわち、登録プレプリントデータ201の代表色に対応する入力文書画像301の代表色を登録プレプリントデータ201の代表色に置き換える。
図21は、図20に示す代表色統一部105における代表色統一処理手順を示すフローチャートである。
まず、図12に示す入力文書画像301の下地色の頻度分布502から各頻度分布503〜508への各代表ベクトル510〜515と、図17に示す登録プレプリントデータ201の下地色の頻度分布402から各頻度分布403〜406への各代表ベクトル410〜413との距離を計算する。この各代表ベクトル間の距離の計算は、ユークリッド距離を用いて計算できる。算出した距離に基づいて、代表色が類似しているか否かの判定を行う(ステップS51)。すなわち、登録プレプリントデータ201の代表ベクトルと入力文書画像301の代表ベクトルとの距離が予め定めた閾値未満である場合(ステップS52のYes)、入力文書画像301の代表ベクトルはプレプリントデータ201の代表ベクトルと対応していると判定する。なお、入力文書画像301の一つ代表ベクトルに対する距離が閾値未満である登録プレプリントデータ201の代表ベクトルが複数存在する場合がある。この場合、最も距離が近い登録プレプリントデータ201の代表ベクトルが対応していると判定する。そして、入力文書画像301の代表ベクトルを、対応していると判定された登録プレプリントデータ201の代表ベクトルに置き換える(ステップS53)。つまり、入力文書画像301の代表色を登録プレプリントデータ201の代表色に置き換える。一方、登録プレプリントデータ201の代表ベクトルと入力文書画像301の代表ベクトルとの距離が予め定めた閾値以上である場合(ステップS52のNo)、入力文書画像301の代表ベクトルはプレプリントデータ201の代表ベクトルに置き換えられない。つまり、入力文書画像301の代表色と登録プレプリントデータ201の代表色との置き換えは行われない。入力文書画像301と登録プレプリントデータ201の全ての代表ベクトルにおいて各代表ベクトル間の距離の計算が行われていない場合(ステップS54のNo)、ステップS51に戻り、ステップS51〜ステップS54の処理を繰り返す。入力文書画像301と登録プレプリントデータ201の全ての代表ベクトルにおいて各代表ベクトル間の距離の計算が行われた場合(ステップS54のYes)、代表色の統一処理を終了する。
代表色の統一処理を行った入力文書画像301に対し第1の実施形態で説明した分離平面を算出し、色置換処理を行うことにより減色処理を行う。なお、双方の各代表ベクトルの距離を求める際に、各ベクトルの基準となる下地色に関しては、入力文書画像における最大値を登録プレプリントデータの下地色に置き換えてもよい。これは、一般に全ての頻度分布の最大値となる色を下地色とするためである。
本第2の実施形態により、差分画像生成部4が差分画像を生成する際に発生するノイズを削減するとともに、さらなる色数の削減も図ることができる。
なお、本発明は上記した実施形態に限定されず、発明の要旨を逸脱しない範囲において、設計変更して構わない。
例えば、本実施形態では登録プレプリントデータと文書画像入力部101より入力された入力文書画像との差分画像を生成しているが、登録プレプリントデータと登録プレプリントデータに追記した入力文書画像とを文書画像入力部101より入力し、入力した文書画像データを用いて差分画像を生成してもよい。また、事前にプレプリントデータを登録する際に、減色処理部3による減色処理や、差分画像生成部4による傾き検知処理および傾き補正処理を行った後の文書画像を登録してもよい。
これにより、差分画像生成部4がプレプリントデータと入力文書画像との間で差分画像生成処理を行う際の処理時間短縮を図ることが可能となる。また、薄い青色の網点の頻度分布404、504は2値化平面より下地色側に存在する薄い濃度の分布であり文書情報としての重要性は低いとみなせるため代表ベクトルを減色後の代表ベクトルとして採用しない。すなわち、色を残さないとしてもよい。
1…文書画像入力部、2…文書識別部、3…減色処理部、4…差分画像生成部、10…文書画像処理装置、11…CPU、12…CPUバス、13…記憶装置、14…主記憶部、15…データ入力装置、16…入力インターフェイス装置、17…出力インターフェイス装置、18…画像入力装置、19…画像出力装置、30…登録プレプリントデータの識別情報、101…文書要素抽出部、102…代表色推定部、103…分離平面算出部、104…色置換処理部、105…代表色統一部、201…プレプリントデータ、202…「申込書」の文字、203…太線枠、204…網点部、205…「氏名」の文字、206…罫線枠、207…「印」の文字、301…入力文書画像、302…「申込書」の文字、303…太線枠、304…網点部、305…「氏名」の文字、306…罫線枠、307…「印」の文字、308…記入文字「東芝タロー」、309…捺印、401、501…頻度分布、420、520…2値化平面、705、706、906〜910…代表色、710、807、911、912、915〜919…分離平面、913、914…領域

Claims (9)

  1. 入力文書画像と、前記入力文書画像に対応するプレプリントデータの各画素から各々の文書要素を抽出する文書要素抽出部と、
    前記入力文書画像および前記プレプリントデータの各々から抽出された前記文書要素の色空間における代表色を推定する代表色推定部と、
    前記入力文書画像および前記プレプリントデータ各々の前記代表色を前記色空間上で各々分離する分離平面を算出する分離平面算出部と、
    前記入力文書画像および前記プレプリントデータ各々の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換える色置換処理部と、
    各画素の色を前記代表色に置き換えた前記入力文書画像の各画素と、各画素の色を前記代表色に置き換えた前記プレプリントデータの各画素との差分画像を生成する差分画像生成部と、
    を備えることを特徴とする文書画像処理装置。
  2. 前記プレプリントデータの前記代表色と、それに対応する前記入力文書画像の前記代表色が類似している場合、前記入力文書画像の前記代表色を前記プレプリントデータの前記代表色に置き換える代表色統一部を更に備えること特徴とする請求項1に記載の文書画像処理装置。
  3. 前記各画素の色を前記代表色に置き換えた前記プレプリントデータと前記差分画像生成部により生成された前記差分画像とを用いて文書画像を構築する再構築処理部を更に備えることを特徴とする請求項1に記載の文書画像処理装置。
  4. 前記プレプリントデータを識別情報と対応付けて記憶する記憶部と、
    前記入力文書画像の識別情報と一致又は類似する前記記憶部に記憶された前記プレプリントデータを前記入力文書画像のプレプリントデータとして識別する文書識別部と
    を更に備えることを特徴とする請求項1に記載の文書画像処理装置。
  5. 前記各画素の色を前記代表色に置き換えた前記プレプリントデータを記憶する記憶部を更に備え、
    前記差分画像生成部は前記各画素の色を前記代表色に置き換えた前記入力文書画像の各画素と前記記憶部に記憶された前記プレプリントデータとを用いて前記差分画像を生成することを特徴とする請求項1に記載の文書画像処理装置。
  6. 入力文書画像から各々の文書要素を抽出する文書要素抽出部と、
    前記入力文書画像から抽出された前記文書要素の色空間における代表色を推定する代表色推定部と、
    前記入力文書画像の前記代表色を前記色空間上で各々分離する分離平面を算出する分離平面算出部と、
    前記入力文書画像の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換える色置換処理部と、
    各画素の色を前記代表色に置き換えた前記入力文書画像の各画素と、前記代表色の置き換えが既に施された前記入力文書画像に対応するプレプリントデータの各画素との差分画像を生成する差分画像生成部と、
    を備えることを特徴とする文書画像処理装置。
  7. 前記入力文書画像と、前記入力文書画像に対応するプレプリントデータの各画素から各々の文書要素を抽出するステップと、
    前記入力文書画像および前記プレプリントデータの各々から抽出された前記文書要素の色空間における代表色を推定するステップと、
    前記入力文書画像および前記プレプリントデータ各々の前記代表色を前記色空間上で各々分離する分離平面を算出するステップと、
    前記入力文書画像および前記プレプリントデータ各々の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換えるステップと、
    各画素の色を前記代表色に置き換えた前記文書画像と、各画素の色を前記代表色に置き換えた前記プレプリントデータの各画素との差分画像を生成するステップと、
    を具備することを特徴とする文書画像処理方法。
  8. 文書画像を入力するステップと、
    前記入力文書画像の各画素から文書要素を抽出するステップと、
    前記入力文書画像から抽出された前記文書要素の色空間における代表色を推定するステップと、
    前記入力文書画像の前記代表色を前記色空間上で分離する分離平面を算出するステップと、
    前記入力文書画像の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換えるステップと、
    前記各画素の色を前記代表色に置き換えた前記入力文書画像と、前記代表色の置き換えが既に施された前記入力文書画像に対応するプレプリントデータの各画素との差分画像を生成するステップと、
    を有することを特徴とする文書画像処理方法。
  9. 入力文書画像を減色処理する文書画像処理装置の文書画像処理プログラムであって、
    コンピュータに、
    前記入力文書画像と、前記入力文書画像に対応するプレプリントデータの各画素から各々の文書要素を抽出する機能と、
    前記入力文書画像および前記プレプリントデータの各々から抽出された前記文書要素の色空間における代表色を推定する機能と、
    前記入力文書画像および前記プレプリントデータ各々の前記代表色を前記色空間上で各々分離する分離平面を算出する機能と、
    前記入力文書画像および前記プレプリントデータ各々の前記分離平面によって分離される前記色空間の分離領域に分布する前記文書要素の各画素の色を、同じ前記分離領域に分布する前記代表色に置き換える機能と、
    各画素の色を前記代表色に置き換えた前記文書画像と、各画素の色を前記代表色に置き換えた前記プレプリントデータの各画素との差分画像を生成する機能と、
    を実行させることを特徴とする文書画像処理プログラム。
JP2010058475A 2010-03-15 2010-03-15 文書画像処理装置、文書画像処理方法および文書画像処理プログラム Active JP4792117B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010058475A JP4792117B2 (ja) 2010-03-15 2010-03-15 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US13/026,735 US8830545B2 (en) 2010-03-15 2011-02-14 Document image processing system including pixel color substitution
CN201110041846.6A CN102194116B (zh) 2010-03-15 2011-02-22 文档图像处理装置、文档图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010058475A JP4792117B2 (ja) 2010-03-15 2010-03-15 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2011193294A JP2011193294A (ja) 2011-09-29
JP4792117B2 true JP4792117B2 (ja) 2011-10-12

Family

ID=44559739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010058475A Active JP4792117B2 (ja) 2010-03-15 2010-03-15 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Country Status (3)

Country Link
US (1) US8830545B2 (ja)
JP (1) JP4792117B2 (ja)
CN (1) CN102194116B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6354253B2 (ja) * 2014-03-26 2018-07-11 富士通株式会社 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
JP2025042090A (ja) * 2023-09-14 2025-03-27 理想科学工業株式会社 文書評価装置、方法およびプログラム並びに文書評価システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06139364A (ja) * 1992-10-27 1994-05-20 Fuji Xerox Co Ltd ページ記述言語処理装置
JP3483912B2 (ja) * 1993-07-29 2004-01-06 株式会社東芝 色判別装置および色判別方法
US6148102A (en) * 1997-05-29 2000-11-14 Adobe Systems Incorporated Recognizing text in a multicolor image
JPH1196297A (ja) * 1997-09-17 1999-04-09 Hitachi Ltd 帳票画像処理方法及び帳票画像処理装置
JP4375322B2 (ja) * 2005-11-04 2009-12-02 オムロン株式会社 画像処理装置、画像処理方法、そのプログラム、およびそのプログラムを記録したコンピュータ読取り可能な記録媒体
JP4823725B2 (ja) 2006-03-15 2011-11-24 オリンパスメディカルシステムズ株式会社 医療用画像処理装置
JP4697035B2 (ja) * 2006-04-28 2011-06-08 富士ゼロックス株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4993093B2 (ja) * 2007-05-31 2012-08-08 富士ゼロックス株式会社 画像処理装置および画像処理プログラム
JP4362538B2 (ja) * 2007-06-06 2009-11-11 シャープ株式会社 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP5091549B2 (ja) * 2007-06-06 2012-12-05 株式会社東芝 文書データ処理装置
JP4825888B2 (ja) 2009-03-17 2011-11-30 株式会社東芝 文書画像処理装置および文書画像処理方法
WO2011053300A1 (en) * 2009-10-29 2011-05-05 Hewlett-Packard Development Company, L.P. Joint image compression method and apparatus

Also Published As

Publication number Publication date
CN102194116B (zh) 2014-10-15
CN102194116A (zh) 2011-09-21
US20110222134A1 (en) 2011-09-15
JP2011193294A (ja) 2011-09-29
US8830545B2 (en) 2014-09-09

Similar Documents

Publication Publication Date Title
TWI606406B (zh) 從成像檔案擷取正文之方法、設備以及有形電腦可讀儲存媒體
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
US7965892B2 (en) Image processing apparatus, control method thereof, and program
US20120294528A1 (en) Method of Detecting and Correcting Digital Images of Books in the Book Spine Area
CN101295359B (zh) 图像处理装置及图像处理方法
JP4902603B2 (ja) 画像データの特徴を特定する方法及びシステム
CN101344925A (zh) 字符识别方法
JP2011022867A (ja) 画像処理装置、画像処理システムおよびプログラム
US8229214B2 (en) Image processing apparatus and image processing method
US8249364B2 (en) Method for resolving contradicting output data from an optical character recognition (OCR) system, wherein the output data comprises more than one recognition alternative for an image of a character
JP5005732B2 (ja) 画像形成装置及び画像処理方法
JP4792117B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP2021149452A (ja) 画像処理装置、制御方法及び制御プログラム
JP2017174031A (ja) 画像処理装置及び画像処理プログラム
JP4208520B2 (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
JP2021044803A (ja) 画像処理装置、画像処理方法、及びプログラム
JP4825888B2 (ja) 文書画像処理装置および文書画像処理方法
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
US20220343666A1 (en) Image processing apparatus, image processing method, and storage medium
JP5517028B2 (ja) 画像処理装置
JP2008269131A (ja) 画像処理装置及び画像処理プログラム
JP4910635B2 (ja) 画像処理装置及び画像処理プログラム
JP4803001B2 (ja) 画像処理装置及び画像処理プログラム
CN113705430B (zh) 基于检测模型的表格检测方法、装置、设备及存储介质
CN118823808A (zh) 基于自适应结构元素的表格结构提取方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110624

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110722

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4792117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350