JP2008176521A - パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法 - Google Patents

パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法 Download PDF

Info

Publication number
JP2008176521A
JP2008176521A JP2007008643A JP2007008643A JP2008176521A JP 2008176521 A JP2008176521 A JP 2008176521A JP 2007008643 A JP2007008643 A JP 2007008643A JP 2007008643 A JP2007008643 A JP 2007008643A JP 2008176521 A JP2008176521 A JP 2008176521A
Authority
JP
Japan
Prior art keywords
color
print pattern
attribution
pixel
approximate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007008643A
Other languages
English (en)
Other versions
JP4443576B2 (ja
Inventor
Misako Suwa
美佐子 諏訪
Katsuto Fujimoto
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007008643A priority Critical patent/JP4443576B2/ja
Priority to US12/004,798 priority patent/US8615129B2/en
Priority to CN2008100030552A priority patent/CN101226594B/zh
Publication of JP2008176521A publication Critical patent/JP2008176521A/ja
Application granted granted Critical
Publication of JP4443576B2 publication Critical patent/JP4443576B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

【課題】帳票イメージから各プリントパターンが個別に抽出され得るようにすること。
【解決手段】パターン分離抽出装置10は、表示装置10aに表示された帳票イメージのうち、ドラッグ等により色サンプルが幾つか選択されると、選択された帳票イメージに含まれる複数のプリントパターンのそれぞれについて、そのプリントパターン一つのみからなるイメージデータを生成し、出力する。各プリントパターンのイメージデータが生成される際、帳票イメージの全画素のうち、複数のプリントパターンへの帰属度が高い画素については、それら全てのプリントパターンイメージを構成する画素として採用される。
【選択図】図3

Description

本発明は、互いに重なる複数のプリントパターンから何れかのプリントパターンを分離抽出するためのプログラム、装置及び方法に、関する。
周知のように、帳票は、所定の書式に従って罫線により形成された幾つかの記入欄に対し、手書きや印字で文字や記号が記入されたり判子が押印されたりした紙片を言う。ここで、人により紙面に加えられた手書き文字、カーボンコピー文字、又は、判子の印影からなるパターンは、ポストプリントパターンと称され、人がそのポストプリントパターンを加える前の紙面に事前に印刷されている罫線、文字、又は、記号からなるパターンは、プレプリントパターンと称されている。
近年、紙原本の保管場所の確保が不要になるということで、帳票のコンテンツがデジタル化されてディスク装置に保存される場合がある。このデジタル化には、スキャナやデジタルカメラなどの画像データ生成装置とOCR[Optical Character Reader]とが、必要である。
ここで、OCRとは、処理対象イメージの中に含まれる文字パターン又は文字特徴を基準文字パターン又は基準文字特徴と照合することによって、或いは、処理対象イメージ中の分布境界を求めることによって、テキストデータを生成する装置をいう。なお、OCRの中には、テキストデータを生成するという基本的な機能の他、処理対象イメージ中のレイアウトを解析して図形や印影として認識した領域をイメージデータとして保存するための機能や、処理対象イメージ中から罫線や印字文字を抽出することによってプレプリントパターン構造を解析して編集自在に復元可能なベクタデータとして保存するための機能を持つものもある。
このようなOCRが、処理対象イメージ中の手書き文字を認識したり印影をイメージデータとして保存したりプレプリントパターンをベクタデータとして保存したりする場合、手書き文字、印影、罫線、印字文字などのプリントパターン同士が重なり合っているため、それらの重なりが、文字認識、レイアウト解析、プレプリントパターン構造解析の各処理に悪影響を及ぼす。このため、OCRの操作者は、それら各処理の下準備として、互いに重なり合っている複数のプリントパターンをそれぞれ分離抽出しておかねばならない。
なお、互いに重なり合っている二つのプリントパターンを分離抽出する方法は、特許文献1に開示されている。この特許文献1に係る分離抽出方法は、色情報を利用して一方のプリントパターンを抽出し他方のプリントパターンを除去するというものである。
具体的には、その特許文献1に係る技術では、まず、罫線と手書き文字とが記載された帳票のイメージにつき、各画素の色の座標点が色空間座標系上にプロットされることにより、罫線の色分布と手書き文字の色分布とが色空間座標上に形成される。そして、罫線の色分布と手書き文字の色分布とを切り分ける単一境界(当文献では閾値と表記)が設定され、帳票イメージにおいて、その境界における罫線の色分布側にある画素の輝度が、ゼロとされる。これにより、帳票イメージから罫線が除去され、手書き文字が残ることとなる。この罫線が除去された帳票イメージを使えば、OCRは、罫線部分の影響を受けることなく、文字認識処理が行えるようになる。
特開2005−071134号公報(段落0027,図5)
前述したように、特許文献1に係る技術では、帳票イメージから、手書き文字だけからなるプリントパターンを抽出することはできるものの、そのプリントパターンに重なっていた罫線だけからなるパターンを、同時に分離抽出できないものとなっていた。
勿論、その分離抽出処理を、互いに重なっている複数のプリントパターンのそれぞれについて、繰り返し順に実行することにより、文字の部分だけからなるプリントパターン、罫線の部分だけからなるプリントパターン、その他の部分だけからなるプリントパターンのイメージを、それぞれ、一つずつ個別に生成することは可能である。しかし、そうすると、抽出しようとするプリントパターンの数だけ、この抽出処理を繰り返さねばならず、作業が非常に煩雑になる。
本発明は、前述したような従来技術の有する問題点に鑑みてなされたものであり、その課題は、帳票イメージから各プリントパターンが個別に抽出され得るようにすることにある。
上記の課題を解決するために案出されたパターン分離抽出プログラムは、コンピュータを、一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示手段,その表示手段が表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、プリントパターン毎に、入力装置を通じて受け付ける受付手段,その受付手段が受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定手段,帳票イメージの全画素のそれぞれについて、近似直線特定手段が特定した各近似直線に対するその画素の色の近さに基づいて各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出手段,帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定手段,帰属先決定手段により帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成手段,及び、その生成手段が生成した各プリントパターンイメージデータを出力する出力手段として機能させることを、特徴としている。
このように構成されると、コンピュータは、複数のプリントパターンを含む帳票イメージから、一つのプリントパターンのみのイメージデータを、プリントパターン毎に生成するよう動作する。これにより、帳票イメージから各プリントパターンが個別に抽出されることとなる。
然も、コンピュータは、一つのプリントパターンのみのイメージデータをプリントパターン毎に生成するときに、帳票イメージの全画素のうち、複数のプリントパターンへの帰属度が高い画素については、それら全てのプリントパターンイメージを構成する画素として採用する。つまり、帳票イメージの画素は、何れか一つのプリントパターンイメージを構成するのではなく、場合によっては、複数のプリントパターンイメージを構成する。これにより、生成される複数のプリントパターンイメージが、何れも、帰属度の高い画素の欠損などによる影響を受けることなく、OCRにおける文字認識処理に耐え得る素材として利用することができることになる。
以上に説明したように、本発明によれば、帳票イメージから各プリントパターンが個別に抽出され得るようになる。
以下、添付図面を参照しながら、本発明を実施するための形態について、説明する。
まず、本実施形態のパターン分離抽出装置のハードウエア構成及びソフトウエア構成について、説明する。
図1は、本実施形態のパターン分離抽出装置の構成図である。
本実施形態のパターン分離抽出装置10は、パターン分離抽出機能が付加されたパーソナルコンピュータである。従って、パターン分離抽出装置10は、液晶ディスプレイ等の表示装置10aと、キーボードやマウス等の入力装置10bと、これら装置が接続された本体とからなる。そして、その本体は、ストレージ10c,CPU[Central Processing Unit]10d,及び、DRAM[Dynamic Random Access Memory]10eを、内蔵している。ストレージ10cは、各種のプログラムやデータを記憶する記憶装置である。CPU10dは、ストレージ10c内のプログラムに従って処理を行う演算処理装置である。DRAM10eは、CPU10dが処理を行う際にプログラムがキャッシュされたり作業領域が展開されたりする揮発性記憶装置である。
そして、このパターン分離抽出装置10のストレージ10cには、帳票イメージデータ11とパターン分離抽出ツールソフトウエア12とが、導入されている。なお、図1には、これら帳票イメージデータ11とパターン分離抽出ツールソフトウエア12とが、DRAM10eに展開された状態が、示されている。
帳票イメージデータ11は、帳票イメージを表示するためのデータであり、スキャナにより帳票のコンテンツがデジタル化されることにより生成されたものである。ここで、帳票とは、所定の書式に従って罫線により形成された幾つかの記入欄に対し、手書きや印字で文字や記号が記入されたり判子が押印されたりした紙片を言い、プリントパターンは、人により紙面に加えられた手書き文字,カーボンコピー文字,又は、判子の印影からなるポストプリントパターン,及び、人がそのポストプリントパターンを加える前の紙面に事前に印刷されている罫線,文字,又は、記号からなるプレプリントパターンを、含んだ概念である。
図2は、帳票イメージデータ11による帳票イメージの一例を示す図である。
図2に示すように、本実施形態では、帳票イメージは、一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含んでおり、それらプリントパターンは、互いに一部が重なっている。具体的には、帳票イメージには、印字された「山田太郎」という文字列からなる第1プリントパターンと、四角枠内に「印」という文字を含む印影からなる第2プリントパターンとが、含まれている。そして、第2プリントパターンは、第1プリントパターンにおける「郎」の文字にその上半部分が重なるように、配置されている。
図1のパターン分離抽出ツールソフトウエア12は、図2のような帳票イメージから、一つのプリントパターンのみからなるイメージを、プリントパターン毎に生成するためのツールソフトウエアである。なお、このパターン分離抽出ツールソフトウエア12に従ってCPU10dが実行する処理の内容については、後述する。
次に、本実施形態のパターン分離抽出装置10による処理の流れについて、説明する。
パターン分離抽出ツールソフトウエア12は、入力装置10bにおいて所定の操作がなされることにより、CPU10dによって起動される。すると、パターン分離抽出装置10では、パターン分離抽出処理が開始される。
図3は、パターン分離抽出処理の流れを示す図である。
このパターン分離抽出処理の開始後、最初のステップS101では、CPU10dは、ストレージ10c内の幾つかの帳票イメージデータ11のうちの何れか1つの指定を、操作者から、入力装置10bを通じて、受け付ける。
次のステップS102では、CPU10dは、ステップS101で受け付けた指定にて特定される帳票イメージデータ11に基づき、帳票イメージを表示装置10aに表示する。なお、このステップS102は、前述した表示手順に相当し、ステップS102を実行するCPU10dは、前述した表示手段に相当する。その後、CPU10dは、ステップS103へ処理を進める。
ステップS103では、CPU10dは、表示装置10aに表示した帳票イメージのうち、ドラッグにより任意の部分を色サンプルとして選択する指定を、操作者から、入力装置10bを通じて、受け付ける。なお、このとき、操作者は、帳票イメージの中から選択する部分に、地色とそれ以外の一色のみが含まれるように、選択せねばならない。
図4は、その色サンプルの選択方法について説明する図である。
図4に示すように、操作者は、第1プリントパターンにおける「山」の文字に第2プリントパターンが重なってないため、この「山」を含む一部を、第1色サンプル11aとして選択する。これにより、第1色サンプル11aには、地色と第1プリントパターンの文字の色のみが含まれることとなる。また、操作者は、第2プリントパターンにおける第1プリントパターンの「郎」に重なってない下半部分を、第2色サンプル11bとして選択する。これにより、第2色サンプル11bには、地色と第2プリントパターンの印影の色のみが含まれることとなる。
次のステップS104では、CPU10dは、ステップS103で受け付けた指定にて特定される部分を帳票イメージデータ11から切り出し、色サンプルのデータとしてDRAM12に記憶する。
次のステップS105では、CPU10dは、色サンプルの指定の作業を終了する指示が操作者からあったか否かを、判別する。そして、色サンプルの指定の作業を終了する指示が操作者からなかった場合、CPU10dは、ステップS105から処理を分岐させ、ステップS103へ処理を戻す。一方、色サンプルの指定の作業を終了する指示が操作者からあった場合、CPU10dは、第1の処理ループL1を実行する。なお、これらステップS103乃至S105は、前述した受付手順に相当し、ステップS103乃至S105を実行するCPU10dは、前述した受付手段に相当する。
第1の処理ループL1では、CPU10dは、ステップS103で受け付けた各指定により特定される全ての色サンプルのそれぞれについて、一つずつ順に、ステップS106を実行する。
ステップS106では、CPU10dは、前景色分布近似直線特定サブルーチンを実行する。
図5は、前景色分布近似直線特定サブルーチンの流れを示す図である。
前景色分布近似直線特定サブルーチンの開始後、最初のステップS201では、CPU10dは、処理対象の色サンプルの各画素の輝度値を所定の閾値で二値化して、二値画像を生成する。
次のステップS202では、CPU10dは、ステップS201で生成した二値画像における輝度値のある方の画素の集合と、輝度値のない方の画素の集合とを、それぞれ、前景画素及び背景画素として、分離する。
次のステップS203では、CPU10dは、帳票イメージ中の全ての背景画素の色成分の平均値を算出することによって、背景代表色の成分値を特定する。
次のステップS204では、CPU10dは、例えばXYZ表色系のような色空間座標系において、ステップS203で設定した背景代表色の座標点をプロットし、その座標点を中心とする単位球を設定する。
次のステップS205では、CPU10dは、ステップS204で設定した単位球の球面を所定個の単位領域に区分する。
図6は、球面が所定個の単位領域に区分された状態の単位球を概念的に示す図である。
図6に示すように、単位球は、多面体近似によって、互いに等しい面積を有する複数の単位領域(単位面)に、区分される。各単位領域には、それらを個別に識別するための領域番号が、割り当てられる。また、各単位領域の位置を特定する位置情報が、生成される。この位置情報は、その単位領域の頂点の座標、或いは、重心座標などである。これら領域番号と位置情報とは、単位球上に単位領域が設定されたときに生成され、第1のワークテーブル上で管理される。
図7は、この第1のワークテーブルのデータ構造の一例を示す図である。
図7に示すように、第1のワークテーブルは、単位球上に設定された単位領域と同数のレコードを、有している。各レコードは、「領域番号」,「位置情報」及び「度数」のフィールドを、有している。「領域番号」フィールドは、その単位領域の領域番号が記録されるフィールドであり、「位置情報」フィールドは、その単位領域の位置情報が記録されるフィールドである。「度数」フィールドは、処理対象の前景画素の色の座標点と単位球の中心とを結ぶ直線のうち、この単位領域を貫く直線の本数が記録されるフィールドである。
なお、ステップS205の時点では、この第1のワークテーブルの各レコードの「度数」フィールドには、初期値としてゼロが記録される。
CPU10dは、図6に示すように単位球上に単位領域を設定し、図7に示すような第1のワークテーブルをDRAM10e上に生成した後、図5の第3の処理ループL3を実行する。
第3の処理ループL3では、CPU10dは、処理対象の色サンプルの全ての前景画素のそれぞれについて、一つずつ順に、ステップS206乃至S207を実行する。
ステップS206では、CPU10dは、色空間座標系において、処理対象の前景画素の色の座標点と上記単位球の中心とを結ぶ直線が貫く単位領域を、特定する。
次のステップS207では、CPU10dは、図7の第1のワークテーブルにおけるステップS206で特定した単位領域のレコードの「度数」フィールドの値を、1つ増やす処理を行う。
このように、CPU10dが、処理対象の色サンプルの前景画素の全てについて、ステップS206及びS207を実行することにより、ステップS205で単位球上に設定された単位領域のそれぞれについて、それを貫く直線の本数が計数されることとなる。
この第3の処理ループL3の実行後、次のステップS208では、CPU10dは、図7の第1のワークテーブルにおいて、「度数」フィールドの値が最大となっている単位領域のレコードを、特定する。
次のステップS209では、CPU10dは、ステップS204で設定した単位球の中心の座標と、ステップS208で特定したレコードの「位置情報」フィールドの値とに基づき、その単位領域の中心と上記単位球の中心とを結ぶ直線を、特定する。ここで、直線を特定するとは、具体的には、この直線の方向ベクトル及び単位球の中心座標を特定することを意味する。方向ベクトルを特定するにあたっては、CPU10dは、特定された単位領域の重心座標を(Xg,Yg,Zg)とし、単位球の中心座標を(Xo,Yo,Zo)としたとき、(Xg−Xo,Yg−Yo,Zg−Zo)を算出する。CPU10dは、これ以降、特定された方向ベクトルと単位球中心座標とにより規定される直線を、処理対象の色サンプルの全ての前景画素の色の分布についての近似直線として、利用する。CPU10dは、処理対象の色サンプルの全前景画素の分布について近似直線を特定した後、その近似直線の方向ベクトル及び単位球の中心座標を、第2のワークテーブルに格納する。
図8は、この第2のワークテーブルのデータ構造の一例を示す図である。
図8に示すように、第2のワークテーブルは、色サンプルと同数のレコードを、有している。各レコードは、「サンプル」、「方向ベクトル」及び「単位球中心座標」のフィールドを、有している。「サンプル」フィールドは、ステップS103で受け付けた色サンプルを個別に識別するための色サンプル番号が記録されるフィールドであり、「方向ベクトル」フィールドは、その色サンプルについてステップS209で算出された方向ベクトルが記録されるフィールドである。「単位球中心座標」フィールドは、ステップ204で設定された単位球の中心座標が記録されるフィールドである。
CPU10dは、この図8に示すような第2のワークテーブルに、ステップS209で特定した直線の方向ベクトルと単位球中心座標とを記録した後、図5に係る前景色分布近似直線特定サブルーチンを終了し、図3の第1の処理ループL1におけるこの処理対象の光サンプルに対する処理を終了する。
このように、CPU10dが、ステップS103で受け付けた各指定により特定される色サンプルの全てについて、図3のステップS106(図5の前景色分布近似直線特定サブルーチン)を実行することにより、色サンプルのそれぞれについて、色空間座標系上の近似直線が特定され、図8の第2のワークテーブル内に、各色サンプルに対応するレコードが、蓄積されることとなる。
ここで、近似直線について説明する。文字や図形や印影が印刷された紙片について、そのコンテンツがデジタルイメージとしてデジタル化されたとき、そのデジタルイメージの各画素の色の色空間上での分布を取ると、紙の地を表す画素やベタ塗りされた面図形を表す画素の色分布は、ガウス分布となり、文字や印影などの線図形を表す画素の色分布は、インク斑などによって、紙の地色の色分布の中心を一端とした線状の分布となる。この現象は、平成11年(西暦1999年)のパターン認識国際会議(ICDAR)においてウォリングとトドランによって報告されたものである。そして、この線図形の線状の色分布を最小二乗法などで近似した直線が、近似直線である。
図9(a),(b)は、それぞれ、図4の第1色サンプル11a及び第2色サンプル11bの前景画素の色についての分布を示す図である。
図9(a),(b)において薄い色で表された座標点の集まりで示されるように、イメージ中の地を表す画素(背景画素)の色分布は、指向を持たない塊状となっており、一方、濃い色で表された座標点の集まりで示されように、文字や印影などの線図形を表す画素(前景画素)の色分布は、上記塊の中心を一端とした線状の分布となっている。なお、図6の(a),(b)の色分布には、文字や印影などの線図形を表す画素(前景画素)の色分布を最小二乗法などで近似した直線が、示されている。
図10は、背景画素の代表色の座標を中心とした単位球と近似直線との関係を示す図である。
図10に示すように、近似直線は、単位球の中心を一端としており、且つ、その単位球の球面に各画素の色の座標を投影したときの分布の頂点を、通っている。前述した図5のステップS204乃至S208は、各画素の色の座標点を球面に投影したときの分布の頂点を特定する処理となっている。なお、本実施形態では、最小二乗法ではなく、球面投影したときの分布に基づいて、近似直線を特定している。
CPU10dは、この第1の処理ループL1を実行して各色サンプルについて近似直線を取得した後、図3のステップS107へ処理を進める。なお、この第1の処理ループl1は、前述した近似直線特定手順に相当し、第1の処理ループL1を実行するCPU10dは、前述した近似直線特定手段に相当する。
ステップS107では、CPU10dは、帳票イメージの各画素の輝度値を所定の閾値で二値化して、二値画像を生成する。
次のステップS108では、CPU10dは、ステップS107で生成した二値画像における輝度値のある方の画素の集合を、前景画素として抽出する。その後、CPU10dは、第2の処理ループL2を実行する。
第2の処理ループL2では、CPU10dは、帳票イメージ中の全ての前景画素のそれぞれについて、一つずつ順に、ステップS109を実行する。
ステップS109では、CPU10dは、帰属先決定サブルーチンを実行する。
図11は、帰属先決定サブルーチンの流れを示す図である。
帰属先決定サブルーチンの開始後、最初のステップS301では、CPU10dは、ステップS106で特定した近似直線のそれぞれに対する処理対象前景画素の距離を算出し、その算出した距離を後述の帰属度として第3のワークテーブルに記録する。
図12は、この第3のワークテーブルのデータ構造の一例を示す図である。
図12に示すように、第3のワークテーブルは、前景画素と同数のレコードを、有している。各レコードは、「前景画素番号」,「座標」,「帰属度」,「帰属」及び「近似平面までの距離」のフィールドを、有している。「前景画素番号」フィールドは、各前景画素の中からその前景画素を個別に特定するための前景画素番号が記録されるフィールドである。「座標」フィールドは、その前景画素の色空間内での座標が記録されるフィールドである。「帰属度」フィールドは、その前景画素の各プリントパターンへの帰属度(後述)の組み合わせが記録されるフィールドである。「帰属」フィールドは、その前景画素が帰属するプリントパターンに対応する色サンプルの番号が記録されるフィールドである。「近似平面までの距離」フィールドは、2本の近似直線を含む近似平面とその前景画素との間の距離が記録されるフィールドである。なお、近似平面は、全ての近似直線から2本の近似直線を取り出すときの全通りの組み合わせの数だけ存在し、「近似平面までの距離」フィールドには、その数と同数の距離が記録されることとなる。
なお、ステップS301の時点では、第3のワークテーブルにおける処理対象前景画素のレコードの「帰属」フィールドは、空欄となっている。
図13は、帰属度の算出方法を説明するための図である。
図13には、背景画素の代表色の座標点(上記単位球の中心)から近似直線が2本伸びている例が、示されている。通常、前景画素の色の座標点は、近似直線の周囲か、2本の近似直線の間に分布する。そして、2本の近似直線の間に前景画素があった場合において、その前景画素の座標点と第1近似直線との間の距離をdとし、その前景画素の座標点と第2近似直線との間の距離をdとしたとき、第1近似直線近傍に色分布が存在する第1プリントパターンに対するその前景画素の色の帰属度mは、1−{d/(d+d)}と表される。同様に、第2近似直線近傍に色分布が存在する第2プリントパターンに対するその前景画素の色の帰属度mは、1−{d/(d+d)}と表される。なお、式から明らかなように、何れの帰属度とも、0乃至1の何れかの値となる。
CPU10dは、このような帰属度m,mを近似直線ごとに算出した後、これら帰属度の組み合わせを、図12の第3のワークテーブルにおける処理対象前景画素のレコードの「帰属度」フィールドに格納する。その後、CPU10dは、図11の第4の処理ループL4を実行する。なお、このステップS301は、前述した帰属度算出手順に相当し、ステップS301を実行するCPU10dは、前述した帰属度算出手段に相当する。
第4の処理ループL4では、CPU10dは、ステップS301で処理対象前景画素について算出した全ての帰属度のそれぞれについて、一つずつ順に、ステップS302及びS303を実行する。
ステップS302では、CPU10dは、処理対象の帰属度が所定の閾値以上であるかいなかを、判別する。なお、所定の閾値には、例えば、0.3がある。そして、処理対象の帰属度が所定の閾値未満であった場合、CPU10dは、ステップS302から処理を分岐させて、第4の処理ループL4におけるこの処理対象帰属度に対する処理を終了する。一方、処理対象の帰属度が所定の閾値以上であった場合、CPU10dは、ステップS303へ処理を進める。
ステップS303では、CPU10dは、処理対象帰属度を持って処理対象前景画素が帰属するプリントパターンに対し、その処理対象前景画素を採用する。すなわち、CPU10dは、図12の第3のワークテーブルにおける処理対象前景画素のレコードの「帰属」フィールドに、そのプリントパターンに対応する色サンプルの番号を、追加登録する。これにより、そのプリントパターンのみからなるイメージのデータを生成する際に、処理対象前景画素が、そのイメージを構成する画素として、採用されることとなる。その後、CPU10dは、第4の処理ループL4におけるこの処理対象帰属度に対する処理を終了する。
このように、CPU10dが、ステップS301で算出した帰属度の全てについて、ステップS303及びS304を実行することにより、処理対象の前景画素の帰属先となるプリントパターンが一つ以上決まることとなる。
この第4の処理ループL4の実行後、CPU10dは、ステップS304へ処理を進める。
ステップS304では、CPU10dは、ステップS106で特定した全ての近似直線から2本の近似直線を取り出すときの全通りの組み合わせのそれぞれについて、その組み合わせの近似直線を含む近似平面と処理対象前景画素との距離を算出する。その後、CPU10dは、図12の第3のワークテーブルにおける処理対象前景画素のレコードの「近似平面までの距離」フィールドに、算出した距離を全て記録する。
次のステップS305では、CPU10dは、ステップS304で算出した全ての距離が所定の閾値を超えているか否かを、判別する。
そして、ステップS304で算出した距離の何れもが所定の閾値を超えていた場合、CPU10dは、ステップS306へ処理を進める。
ステップS306では、CPU10dは、処理対象前景画素についてのステップS303におけるプリントパターンの前景画素としての採用を、取り止める。すなわち、CPU10dは、図12の第3のワークテーブルにおける処理対象前景画素のレコードの「帰属」フィールドから全ての値を削除して、当該フィールドを空欄にする。
このように、各近似平面までの距離が何れも閾値を超えていると、処理対象前景画素は、ノイズとして、何れのプリントパターンにも採用されなくなる。
このステップS306の実行後、CPU10dは、図11に係る帰属先決定サブルーチンを終了し、図3の第2の処理ループL2におけるこの処理対象の前景画素に対する処理を終了する。
一方、ステップS305において、ステップS304で算出した距離の何れかが所定の閾値を超えていなかった場合、CPU10dは、ステップS305から処理を分岐させ、ステップS306を実行することなく、図11に係る帰属先決定サブルーチンを終了し、図3の第2の処理ループL2におけるこの処理対象の前景画素に対する処理を終了する。
このように、CPU10dが、帳票イメージ中の前景画素の全てについて、図3のステップS109(図11の帰属先決定サブルーチン)を実行することにより、帳票イメージ中の複数のプリントパターンに帰属すべき前景画素が、決まることとなる。なお、この第4の処理ループL4は、前述した帰属先決定手順に相当し、第4の処理ループL4を実行するCPU10dは、前述した帰属先決定手段に相当する。
この第2の処理ループL2の実行後、次のステップS110では、CPU10dは、図12の第3のワークテーブルに基づいて、帳票イメージ中の複数のプリントパターンのそれぞれについて、そのプリントパターンに帰属する前景画素を含むイメージのデータを生成する処理を行う。これにより、プリントパターンのみからなるイメージのデータが、各プリントパターン毎に生成されることとなる。なお、このステップS110は、前述した生成手順に相当し、ステップS110を実行するCPU10dは、前述した生成手段に相当する。
次のステップS111では、CPU10dは、ステップS110で生成されたプリントパターンイメージデータを出力する。なお、出力先としては、例えば、ディスク装置,表示装置10a,OCR[Optical Character Reader],ネットワーク上の他のコンピュータなどがある。CPU10dは、プリントパターンイメージデータを出力した後、図3に係る処理を終了する。なお、このステップS111は、前述した出力手順に相当し、ステップS111を実行するCPU10dは、前述した出力手段に相当する。
次に、本実施形態のパターン分離抽出装置10の作用及び効果について、説明する。
このパターン分離抽出装置10の操作者が、入力装置10bを通じてパターン分離抽出ツール12を起動すると、例えば入力画面などが表示装置10aに表示され、ストレージ10c内の何れかの帳票イメージデータを選択して指定することができる(ステップS101)。
続いて、表示装置10aには、操作者が選択した帳票イメージが表示され(ステップS102)、ドラッグ等により色サンプルを選択して指定することができる(ステップS103)。そして、操作者が、幾つかの色サンプルを指定したあと、色サンプルを指定する作業を終了する指示を、入力装置10bを通じて入力すると、パターン分離抽出装置10が、操作者が選択した帳票イメージに含まれる複数のプリントパターンのそれぞれについて、そのプリントパターン一つのみからなるイメージデータが生成され、出力される。
図14(a),(b)は、第1プリントパターンイメージ及び第2プリントパターンイメージの一例を示す図である。
図14(a),(b)に示すように、図2の帳票イメージに重なった状態で含まれている第1プリントパターン及び第2プリントパターンが、それぞれ別途取り出されて、単独のイメージとして、示されている。
ここで、各プリントパターンのイメージデータが生成される際、帳票イメージの全画素のうち、複数のプリントパターンへの帰属度が高い画素については、それら全てのプリントパターンイメージを構成する画素として採用される(ステップS303)。つまり、帳票イメージの画素は、何れか一つのプリントパターンイメージを構成するのではなく、場合によっては、複数のプリントパターンイメージを構成する。例えば、或る前景画素についての第1プリントパターンへの帰属度と第2プリントパターンへの帰属度との組み合わせが、(0.1,0.9)であれば、閾値が0.3である場合、この前景画素は、第2プリントパターンにのみ帰属する。しかし、その組み合わせが、(0.45,0.55)であれば、この前景画素は、第1プリントパターンにも第2プリントパターンにも帰属することになる。これにより、生成される複数のプリントパターンイメージが、何れも、帰属度の高い画素の欠損などによる影響を受けることなく、OCRにおける文字認識処理に耐え得る素材として利用することができることになる。
なお、本実施形態では、帰属度の高さを判定するための閾値を、どの近似直線にも共通して使用していたが、これに限定されない。例えば、近似直線ごとに閾値の大きさを変えてもよい。
また、本実施形態では、図13に示すように、前景画素の座標点と各近似直線との距離d1,d2に基づいて、帰属度を算出していたが、これに限定されない。例えば、図15に示すように、前景画素の座標点と背景画素の代表色の座標点とを結ぶ直線と、各近似直線との内角θ1,θ2に基づいて、算出しても構わない。
(付記1)
コンピュータを、
一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示手段,
前記表示手段が表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、前記プリントパターン毎に、入力装置を通じて受け付ける受付手段,
前記受付手段が受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定手段,
前記帳票イメージの全画素のそれぞれについて、前記近似直線特定手段が特定した各近似直線に対するその画素の色の近さに基づいて前記各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出手段,
前記帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定手段,
前記帰属先決定手段により帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成手段,及び、
前記生成手段が生成した各プリントパターンイメージデータを出力する出力手段
として機能させる
ことを特徴とするパターン分離抽出プログラム。
(付記2)
前記近似直線特定手段は、前記色空間において、前記色サンプルにおける地色の座標を中心とした単位球の球面のうち、その地色の座標と地色以外の色の座標とを結ぶ各直線との交点の密度が最も高い単位領域を特定し、その単位領域と地色の座標とを結ぶ直線を近似直線として特定する
ことを特徴とする付記1記載のパターン分離抽出プログラム。
(付記3)
前記帰属度算出手段は、N本の前記近似直線と画素の色の座標との距離をそれぞれdi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(di/Σdi)にて算出する
ことを特徴とする付記1又は2記載のパターン分離抽出プログラム。
(付記4)
前記帰属度算出手段は、地色の座標と画素の色の座標とを結ぶ直線に対するN本の前記近似直線との内角をそれぞれθi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(θi/Σθi)にて算出する
ことを特徴とする付記1又は2記載のパターン分離抽出プログラム。
(付記5)
前記帰属度決定手段は、前記近似直線特定手段が特定した全ての近似直線のうちから取り出した2本の近似直線を含む平面を近似平面としたとき、前記帳票イメージの全画素のそれぞれについて、2本の近似直線の組み合わせが互いに異なる全ての近似平面とその画素との間の距離をそれぞれ算出するとともに、それら距離の何れもが所定の閾値を超えている場合に、その画素をその帰属先のプリントパターンから除外する処理を行う
ことを特徴とする付記1乃至4の何れかに記載のパターン分離抽出プログラム。
(付記6)
コンピュータを、
一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示手段,
前記表示手段が表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、前記プリントパターン毎に、入力装置を通じて受け付ける受付手段,
前記受付手段が受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定手段,
前記帳票イメージの全画素のそれぞれについて、前記近似直線特定手段が特定した各近似直線に対するその画素の色の近さに基づいて前記各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出手段,
前記帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定手段,
前記帰属先決定手段により帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成手段,及び、
前記生成手段が生成した各プリントパターンイメージデータを出力する出力手段
として機能させるパターン分離抽出プログラム
を格納したことを特徴とするコンピュータ可読媒体。
(付記7)
前記近似直線特定手段は、前記色空間において、前記色サンプルにおける地色の座標を中心とした単位球の球面のうち、その地色の座標と地色以外の色の座標とを結ぶ各直線との交点の密度が最も高い単位領域を特定し、その単位領域と地色の座標とを結ぶ直線を近似直線として特定する
ことを特徴とする付記6記載のコンピュータ可読媒体。
(付記8)
前記帰属度算出手段は、N本の前記近似直線と画素の色の座標との距離をそれぞれdi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(di/Σdi)にて算出する
ことを特徴とする付記6又は7記載のコンピュータ可読媒体。
(付記9)
前記帰属度算出手段は、地色の座標と画素の色の座標とを結ぶ直線に対するN本の前記近似直線との内角をそれぞれθi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(θi/Σθi)にて算出する
ことを特徴とする付記6又は7記載のコンピュータ可読媒体。
(付記10)
前記帰属度決定手段は、前記近似直線特定手段が特定した全ての近似直線のうちから取り出した2本の近似直線を含む平面を近似平面としたとき、前記帳票イメージの全画素のそれぞれについて、2本の近似直線の組み合わせが互いに異なる全ての近似平面とその画素との間の距離をそれぞれ算出するとともに、それら距離の何れもが所定の閾値を超えている場合に、その画素をその帰属先のプリントパターンから除外する処理を行う
ことを特徴とする付記6乃至9の何れかに記載のコンピュータ可読媒体。
(付記11)
一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示部,
前記表示部が表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、前記プリントパターン毎に、入力装置を通じて受け付ける受付部,
前記受付部が受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定部,
前記帳票イメージの全画素のそれぞれについて、前記近似直線特定部が特定した各近似直線に対するその画素の色の近さに基づいて前記各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出部,
前記帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定部,
前記帰属先決定部により帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成部,及び、
前記生成部が生成した各プリントパターンイメージデータを出力する出力部
を備えることを特徴とするパターン分離抽出装置。
(付記12)
前記近似直線特定部は、前記色空間において、前記色サンプルにおける地色の座標を中心とした単位球の球面のうち、その地色の座標と地色以外の色の座標とを結ぶ各直線との交点の密度が最も高い単位領域を特定し、その単位領域と地色の座標とを結ぶ直線を近似直線として特定する
ことを特徴とする付記11記載のパターン分離抽出装置。
(付記13)
前記帰属度算出部は、N本の前記近似直線と画素の色の座標との距離をそれぞれdi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(di/Σdi)にて算出する
ことを特徴とする付記11又は12記載のパターン分離抽出装置。
(付記14)
前記帰属度算出部は、地色の座標と画素の色の座標とを結ぶ直線に対するN本の前記近似直線との内角をそれぞれθi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(θi/Σθi)にて算出する
ことを特徴とする付記11又は12記載のパターン分離抽出装置。
(付記15)
前記帰属度決定部は、前記近似直線特定部が特定した全ての近似直線のうちから取り出した2本の近似直線を含む平面を近似平面としたとき、前記帳票イメージの全画素のそれぞれについて、2本の近似直線の組み合わせが互いに異なる全ての近似平面とその画素との間の距離をそれぞれ算出するとともに、それら距離の何れもが所定の閾値を超えている場合に、その画素をその帰属先のプリントパターンから除外する処理を行う
ことを特徴とする付記11乃至14の何れかに記載のパターン分離抽出装置。
(付記16)
コンピュータが、
一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示手順,
前記表示手順において表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、前記プリントパターン毎に、入力装置を通じて受け付ける受付手順,
前記受付手順において受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定手順,
前記帳票イメージの全画素のそれぞれについて、前記近似直線特定手順において特定した各近似直線に対するその画素の色の近さに基づいて前記各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出手順,
前記帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定手順,
前記帰属先決定手順において帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成手順,及び、
前記生成手順において生成した各プリントパターンイメージデータを出力する出力手順
を実行する
ことを特徴とするパターン分離抽出方法。
(付記17)
前記コンピュータが、
前記近似直線特定手順において、前記色空間において、前記色サンプルにおける地色の座標を中心とした単位球の球面のうち、その地色の座標と地色以外の色の座標とを結ぶ各直線との交点の密度が最も高い単位領域を特定し、その単位領域と地色の座標とを結ぶ直線を近似直線として特定する
ことを特徴とする付記16記載のパターン分離抽出方法。
(付記18)
前記コンピュータが、
前記帰属度算出手順において、N本の前記近似直線と画素の色の座標との距離をそれぞれdi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(di/Σdi)にて算出する
ことを特徴とする付記16又は17記載のパターン分離抽出方法。
(付記19)
前記コンピュータが、
前記帰属度算出手順において、地色の座標と画素の色の座標とを結ぶ直線に対するN本の前記近似直線との内角をそれぞれθi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(θi/Σθi)にて算出する
ことを特徴とする付記16又は17記載のパターン分離抽出方法。
(付記20)
前記コンピュータが、
前記帰属度決定手順において、前記近似直線特定手順で特定した全ての近似直線のうちから取り出した2本の近似直線を含む平面を近似平面としたとき、前記帳票イメージの全画素のそれぞれについて、2本の近似直線の組み合わせが互いに異なる全ての近似平面とその画素との間の距離をそれぞれ算出するとともに、それら距離の何れもが所定の閾値を超えている場合に、その画素をその帰属先のプリントパターンから除外する処理を行う
ことを特徴とする付記16乃至19の何れかに記載のパターン分離抽出方法。
本実施形態のパターン分離抽出装置の構成図 帳票イメージデータによる帳票イメージの一例を示す図 パターン分離抽出処理の流れを示す図 色サンプルの選択方法について説明する図 前景色分布近似直線特定サブルーチンの流れを示す図 球面が所定個の単位領域に区分された状態の単位球を概念的に示す図 第1のワークテーブルのデータ構造の一例を示す図 第2のワークテーブルのデータ構造の一例を示す図 (a)第1色サンプルの前景画素の色分布及び(b)第2色サンプルの前景画素の色分布をそれぞれ示す図 背景画素の代表色の座標を中心とした単位球と近似直線との関係を示す図 帰属先決定サブルーチンの流れを示す図 第3のワークテーブルのデータ構造の一例を示す図 帰属度の算出方法を説明するための図 (a)第1プリントパターンのみからなるイメージ及び(b)第2プリントパターンのみからなるイメージ 帰属度の算出方法の変形例を説明するための図
符号の説明
10 パターン分離抽出装置
10a 表示装置
10b 入力装置
10c ストレージ
10d CPU
10e DRAM
11 帳票イメージデータ
11a 色サンプル
11b 色サンプル
12 パターン分離抽出ツールソフトウエア

Claims (7)

  1. コンピュータを、
    一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示手段,
    前記表示手段が表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、前記プリントパターン毎に、入力装置を通じて受け付ける受付手段,
    前記受付手段が受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定手段,
    前記帳票イメージの全画素のそれぞれについて、前記近似直線特定手段が特定した各近似直線に対するその画素の色の近さに基づいて前記各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出手段,
    前記帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定手段,
    前記帰属先決定手段により帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成手段,及び、
    前記生成手段が生成した各プリントパターンイメージデータを出力する出力手段
    として機能させる
    ことを特徴とするパターン分離抽出プログラム。
  2. 前記近似直線特定手段は、前記色空間において、前記色サンプルにおける地色の座標を中心とした単位球の球面のうち、その地色の座標と地色以外の色の座標とを結ぶ各直線との交点の密度が最も高い単位領域を特定し、その単位領域と地色の座標とを結ぶ直線を近似直線として特定する
    ことを特徴とする請求項1記載のパターン分離抽出プログラム。
  3. 前記帰属度算出手段は、N本の前記近似直線と画素の色の座標との距離をそれぞれdi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(di/Σdi)にて算出する
    ことを特徴とする請求項1又は2記載のパターン分離抽出プログラム。
  4. 前記帰属度算出手段は、地色の座標と画素の色の座標とを結ぶ直線に対するN本の前記近似直線との内角をそれぞれθi(1≦i≦N)としたとき、i本目の近似直線に対応するプリントパターンへの当該画素の帰属度を、1−(θi/Σθi)にて算出する
    ことを特徴とする請求項1又は2記載のパターン分離抽出プログラム。
  5. 前記帰属度決定手段は、前記近似直線特定手段が特定した全ての近似直線のうちから取り出した2本の近似直線を含む平面を近似平面としたとき、前記帳票イメージの全画素のそれぞれについて、2本の近似直線の組み合わせが互いに異なる全ての近似平面とその画素との間の距離をそれぞれ算出するとともに、それら距離の何れもが所定の閾値を超えている場合に、その画素をその帰属先のプリントパターンから除外する処理を行う
    ことを特徴とする請求項1乃至4の何れかに記載のパターン分離抽出プログラム。
  6. 一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示部,
    前記表示部が表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、前記プリントパターン毎に、入力装置を通じて受け付ける受付部,
    前記受付部が受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定部,
    前記帳票イメージの全画素のそれぞれについて、前記近似直線特定部が特定した各近似直線に対するその画素の色の近さに基づいて前記各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出部,
    前記帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定部,
    前記帰属先決定部により帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成部,及び、
    前記生成部が生成した各プリントパターンイメージデータを出力する出力部
    を備えることを特徴とするパターン分離抽出装置。
  7. コンピュータが、
    一つのポストプリントパターンと一つ以上のポストプリントパターン及び/又はプレプリントパターンとからなる複数のプリントパターンを含む帳票イメージを表示装置に表示する表示手順,
    前記表示手順において表示した帳票イメージのうち、地色と一つのプリントパターンの色のみからなる部分を色サンプルとして選択する指定を、前記プリントパターン毎に、入力装置を通じて受け付ける受付手順,
    前記受付手順において受け付けた各指定により特定される色サンプルのそれぞれについて、その色サンプルにおける地色以外の色についての色空間における分布の近似直線を特定する処理を行う近似直線特定手順,
    前記帳票イメージの全画素のそれぞれについて、前記近似直線特定手順において特定した各近似直線に対するその画素の色の近さに基づいて前記各プリントパターンに対するその画素の帰属度を算出する処理を行う帰属度算出手順,
    前記帳票イメージの全画素のそれぞれについて、その画素について算出された各帰属度のうち所定の閾値を超過している各帰属度に対応するプリントパターンをその画素の帰属先として決定する処理を行う帰属先決定手順,
    前記帰属先決定手順において帰属する画素が決定されたプリントパターンのそれぞれについて、そのプリントパターンに帰属する画素に基づいてそのプリントパターンのみのイメージのイメージデータを生成する生成手順,及び、
    前記生成手順において生成した各プリントパターンイメージデータを出力する出力手順
    を実行する
    ことを特徴とするパターン分離抽出方法。
JP2007008643A 2007-01-18 2007-01-18 パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法 Expired - Fee Related JP4443576B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007008643A JP4443576B2 (ja) 2007-01-18 2007-01-18 パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法
US12/004,798 US8615129B2 (en) 2007-01-18 2007-12-21 Pattern separating extraction device, and pattern separating extraction method
CN2008100030552A CN101226594B (zh) 2007-01-18 2008-01-18 图案分离提取装置和图案分离提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007008643A JP4443576B2 (ja) 2007-01-18 2007-01-18 パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法

Publications (2)

Publication Number Publication Date
JP2008176521A true JP2008176521A (ja) 2008-07-31
JP4443576B2 JP4443576B2 (ja) 2010-03-31

Family

ID=39641274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007008643A Expired - Fee Related JP4443576B2 (ja) 2007-01-18 2007-01-18 パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法

Country Status (3)

Country Link
US (1) US8615129B2 (ja)
JP (1) JP4443576B2 (ja)
CN (1) CN101226594B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010157107A (ja) * 2008-12-26 2010-07-15 Hitachi Software Eng Co Ltd 業務文書処理装置
JP2010211466A (ja) * 2009-03-10 2010-09-24 Canon Inc 画像処理装置および画像処理方法及びプログラム
JP5300534B2 (ja) 2009-03-10 2013-09-25 キヤノン株式会社 画像処理装置および画像処理方法及びプログラム
US9047528B1 (en) * 2013-02-19 2015-06-02 Amazon Technologies, Inc. Identifying characters in grid-based text
CN105094785A (zh) * 2014-05-20 2015-11-25 腾讯科技(深圳)有限公司 一种配色文件生成方法及装置
CN104486351A (zh) * 2014-12-24 2015-04-01 昆山百润科技有限公司 支持多人对同一份文件签章的客户端、服务器及处理方法
CN104463931B (zh) * 2015-01-07 2017-12-22 昆山百润科技有限公司 多人并发签章情形下实现印章重叠检测及处理的方法
CN107710278A (zh) * 2015-06-18 2018-02-16 日本电气方案创新株式会社 图像处理设备,图像处理方法和计算机可读记录介质
JP7259491B2 (ja) * 2019-04-01 2023-04-18 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
CN111563510B (zh) * 2020-04-30 2023-04-18 广东小天才科技有限公司 一种图像处理的方法和系统
CN113569864B (zh) * 2021-09-26 2022-01-25 广东电网有限责任公司中山供电局 一种识别签字和印章的方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0993443A (ja) 1995-05-16 1997-04-04 Sanyo Electric Co Ltd カラーモノクロ画像変換方法および被検査対象のエッジ位置検出方法
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
US5920644A (en) * 1996-06-06 1999-07-06 Fujitsu Limited Apparatus and method of recognizing pattern through feature selection by projecting feature vector on partial eigenspace
US6832002B2 (en) * 1997-02-10 2004-12-14 Definiens Ag Method of iterative segmentation of a digital picture
US20040130546A1 (en) * 2003-01-06 2004-07-08 Porikli Fatih M. Region growing with adaptive thresholds and distance function parameters
JP2005071134A (ja) 2003-08-26 2005-03-17 Toshiba Corp 光学的文字読取装置
JP4071701B2 (ja) * 2003-11-11 2008-04-02 富士通株式会社 カラー画像の圧縮方法及びカラー画像圧縮装置
JP4603807B2 (ja) * 2004-03-10 2010-12-22 富士通株式会社 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006287764A (ja) * 2005-04-04 2006-10-19 Mitsubishi Electric Corp 画像処理装置及び方法

Also Published As

Publication number Publication date
US8615129B2 (en) 2013-12-24
US20080175483A1 (en) 2008-07-24
CN101226594B (zh) 2012-05-30
JP4443576B2 (ja) 2010-03-31
CN101226594A (zh) 2008-07-23

Similar Documents

Publication Publication Date Title
JP4443576B2 (ja) パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法
JP4764231B2 (ja) 画像処理装置、制御方法、コンピュータプログラム
JP5361574B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
US20120250048A1 (en) Image processing apparatus and image processing method
JP2007148677A (ja) 画像処理装置、画像処理方法
US6532302B2 (en) Multiple size reductions for image segmentation
EP1017011A2 (en) Block selection of table features
JP7433887B2 (ja) 画像を処理するための装置、プログラム、画像処理方法
JP2002007963A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006025129A (ja) 画像処理システム及び画像処理方法
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2008028716A (ja) 画像処理方法及び装置
JP5767549B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP2003046746A (ja) 画像処理方法及び画像処理装置
JP2022090469A (ja) 書式定義装置、書式定義方法、及びプログラム
JP4741363B2 (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP2002358521A (ja) 帳票フォーマット登録・識別装置、方法及びプログラム
JP2006054817A (ja) ドキュメント処理装置
JP2009193170A (ja) 文字認識装置及び文字認識方法
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体
JP4587167B2 (ja) 画像処理装置及び画像処理方法
JP5361315B2 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100112

R150 Certificate of patent or registration of utility model

Ref document number: 4443576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees