JP4522468B2 - 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体 - Google Patents

画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4522468B2
JP4522468B2 JP2008184320A JP2008184320A JP4522468B2 JP 4522468 B2 JP4522468 B2 JP 4522468B2 JP 2008184320 A JP2008184320 A JP 2008184320A JP 2008184320 A JP2008184320 A JP 2008184320A JP 4522468 B2 JP4522468 B2 JP 4522468B2
Authority
JP
Japan
Prior art keywords
image data
search
document image
document
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008184320A
Other languages
English (en)
Other versions
JP2009246930A (ja
Inventor
季▲りん▼ 李
志剛 范
亜棟 呉
波 呉
寧 楽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2009246930A publication Critical patent/JP2009246930A/ja
Application granted granted Critical
Publication of JP4522468B2 publication Critical patent/JP4522468B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

本発明は、入力された画像データが文書画像データであるか非文書画像データであるかを判別する画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体に関する。
複写機、ファクシミリ装置、プリンターおよびこれらの機能を複数併せ持つ複合機などの画像形成装置では、入力された原稿画像などの画像データを大容量の記憶装置に記憶しておき、1度入力され、登録された画像データであればいつでも読み出して再出力することができる機能が備えられているものがある。
再出力できる機能は便利ではあるが、登録されるデータ量が多くなると再出力したいデータを探すことが困難になるため、複数の画像データの中から所望の画像データを検索する画像検索技術が重要となる。
画像データを検索する際には、登録された画像データと、入力された画像データを比較して類似性を算出する必要があるが、登録された画像データには、文書画像データと、非文書画像データ(写真や図形、イラスト画像など)とが混在している。
従来の技術においては、たとえば、特許文献1に記載の画像検索装置では、文書画像データと、非文書画像データの2種類の画像データに対して同じアルゴリズムを使用して特徴量を算出しており、文書画像データと、非文書画像データとを判別するような処理ステップはない。
一方で、画像データの判別に応用される技術として領域分離技術がある。領域分離技術は、たとえば、1つの画像データを文字領域、写真領域、網点領域、下地領域などの複数の領域に分離し、領域毎に適切な処理(フィルタ処理、中間調処理)を施すために予め行われる処理ステップである。
このような領域分離技術は、特許文献2〜4などに開示される。
また、特許文献5記載の領域属性識別装置は、黒ランと黒ランとの連結箇所を検出し、連結が終了していると黒画素群の外接矩形を検出する。この外接矩形の高さまたは幅を度数とするヒストグラムを作成し、微小矩形の出現度数が閾値以上であると写真領域とみなし、ヒストグラムの標準偏差からばらつきが小さいと文字領域とみなし、ばらつきが大きいと図形領域とみなす。
従来の技術では、文書画像データと、非文書画像データの2種類の画像データに対して同じアルゴリズムを使用して特徴量を算出していることから、検索精度を十分に向上させることができない。検索に当たって入力された画像データをすべての登録画像データと比較する必要があるので、登録画像データが多いほど検索処理に要する時間がかかってしまう。
また、文書画像データと、非文書画像データのいずれかに判別する判別精度については、従来技術では十分な精度は得られていない。
中国特許第200510005334.9号明細書 米国特許第5465304号明細書 米国特許第7085420号明細書 中国特許第200510063768.4号明細書 特開平4−309191号公報
本発明の目的は、判別精度を向上させることが可能な画像判別装置を提供することであり、他の目的は、検索処理に要する時間を短縮するとともに検索精度を向上させることが可能な画像検索装置、画像検索プログラムおよび記録媒体を提供することである。
本発明は、入力された画像データが、文書画像データであるか非文書画像データであるかを判別する画像判別装置であって、
入力された画像データを2値化して2値画像データに変換し、画像データを構成する全画素数のうち、黒画素数の割合である全体黒画素割合を算出する2値化処理部と、
前記2値画像データ中に含まれる、同じ色の画素が連結して集合した画素群である結合要素を検出し、この結合要素に外接する外接矩形を検出し、階級を外接矩形の大きさとし、度数を結合要素数とするヒストグラムを生成する特徴抽出部と、
生成されたヒストグラムに関連する情報と、前記全体黒画素割合とに基づいて、入力された画像データが、文書画像データであるか非文書画像データであるかを判別する判別部とを備え
前記判別部は、外接矩形の大きさが最も小さい階級の結合要素数をr1とし、すべての結合要素数のうち前記結合要素数r1の割合をr2とし、前記全体黒画素割合をr0としたとき、判別特徴量FをF=r1×r2/r0として算出し、判別特徴量Fと2つの閾値TH1およびTH2(>TH1)とを比較して閾値処理を行い、判別特徴量Fが閾値TH2より大きければ、入力画像データが文書画像データであると判断し、判別特徴量Fが閾値TH1より小さければ、入力画像データが、非文書画像データであると判断することを特徴とする画像判別装置である。
また本発明は、前記特徴抽出部は、外接矩形の大きさと、外接矩形内の全画素数のうち結合要素を構成する画素数の割合である矩形黒画素割合とに基づいて、すべての結合要素から外接矩形の大きさが所定の大きさよりも小さい結合要素を除去し、さらに前記矩形黒画素割合が所定の範囲外となる結合要素を除去し、残余の結合要素を用いてヒストグラムを生成することを特徴とする。
また本発明は、予め登録された画像データの中から、入力された画像データに類似した画像データを検索する画像検索装置であって、
前記画像判別装置と、
前記画像判別装置の判別結果に基づいて、入力された画像データが文書画像データであれば、文書画像データ用の特徴データを生成し、非文書画像データであれば、非文書画像データ用の特徴データを生成する特徴データ生成部と、
予め登録された画像データの特徴データと、前記特徴データ生成部で生成された特徴データとに基づいて、予め登録された画像データの中から、入力された画像データに類似した画像データを検索する検索部と、
検索部による検索結果に基づいて、予め登録された画像データのうち入力された画像データに類似した画像データを表示する表示部とを備えることを特徴とする画像検索装置である。
また本発明は、予め登録された画像データは、文書画像データと非文書画像データとに分類されて登録され、
前記検索部は、前記画像判別装置の判別結果に基づいて、入力された画像データが文書画像データであれば、文書画像データとして登録された画像データを検索対象とし、入力された画像データが非文書画像データであれば、非文書画像データとして登録された画像データを検索対象とすることを特徴とする。
また本発明は、コンピュータを上記の画像検索装置として機能させるための画像検索プログラムである。
また本発明は、コンピュータを上記の画像検索装置として機能させるための画像検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、まず2値化処理部によって、入力された画像データを2値化し、全体黒画素割合を算出する。
特徴抽出部では、前記2値画像データ中に含まれる、同じ色の画素が連結して集合した画素群である結合要素を検出し、この結合要素に外接する外接矩形を検出する。階級を外接矩形の大きさとし、度数を結合要素数とするヒストグラムを生成する。
前記判別部は、外接矩形の大きさが最も小さい階級の結合要素数をr1とし、すべての結合要素数のうち前記結合要素数r1の割合をr2とし、前記全体黒画素割合をr0としたとき、判別特徴量FをF=r1×r2/r0として算出し、判別特徴量Fと2つの閾値TH1およびTH2(>TH1)とを比較して閾値処理を行い、判別特徴量Fが閾値TH2より大きければ、入力画像データが文書画像データであると判断し、判別特徴量Fが閾値TH1より小さければ、入力画像データが、非文書画像データであると判断する。
文書画像データのヒストグラムでは、外接矩形の大きさが最も小さい階級の結合要素数に顕著なピークが現れるので、r1およびr2が比較的大きく、全体的な黒画素は少ないので、r0は小さい。したがって、Fは大きな値となる傾向がある。逆に、非文書画像データのヒストグラムでは、各階級の結合要素数が平坦で、顕著なピークが見られないので、r1およびr2が比較的小さく、全体的な黒画素は多いので、r0は大きい。したがって、Fは小さな値となる傾向がある。
ヒストグラムに関連する情報と、前記全体黒画素割合とに基づくことで、判別処理に要する時間の短縮、および判別精度を向上させることができ、判別特徴量Fと2つの閾値TH1およびTH2(>TH1)とを用いて、上記のような閾値処理による判別を行うことで、判別精度をより向上させることができる。
また本発明によれば、前記特徴抽出部は、第1段階として、外接矩形の大きさが所定の大きさよりも小さい結合要素を除去し、第2段階として前記矩形黒画素割合が所定の範囲外となる結合要素を除去する。このような不要の結合要素が除去された残余の結合要素を用いて、ヒストグラムを作成する。
外接矩形の大きさが極端に小さい場合、点であったり罫線であることが多く、文書画像データであるか非文書画像データであるかを判別するにあたって、判別精度に与える影響が小さいので、これを予め除去することでヒストグラム生成における演算量を抑えることができる。
矩形黒画素割合が極端に大きいものは、たとえばインク汚れなどがあり、単なる汚れなどを予め除去できていないと、汚れ部分が文字の外接矩形に類似していれば、文字でないのにもかかわらず文書画像データへの判別に寄与され、汚れ部分が図形の外接矩形に類似していれば、図形でないのにもかかわらず非文書画像データへの判別に寄与され、結果的に誤判別を引き起こし、判別精度を低下させる原因となる。
このようにして結合要素の除去を行うことで、ヒストグラム処理における演算量を抑えるとともに、判別精度を向上させることができる。
た本発明によれば、特徴データ生成部が、上記の画像判別装置の判別結果に基づいて、入力された画像データが文書画像データであれば、文書画像データ用の特徴データを生成し、非文書画像データであれば、非文書画像データ用の特徴データを生成する。検索部が、予め登録された画像データの特徴データと、前記特徴データ生成部で生成された特徴データとに基づいて、入力された画像データに類似した画像データを検索すると、表示部が、予め登録された画像データのうち入力された画像データに類似した画像データを表示する。
入力された画像データが、文書画像データであるか非文書画像データであるかを、検索処理よりも前に判別することで、好適な特徴量を算出することができ、検索精度を向上させることができる。
また本発明によれば、入力された画像データが文書画像データであれば、文書画像データとして登録された画像データを検索対象とし、入力された画像データが非文書画像データであれば、非文書画像データとして登録された画像データを検索対象とする。
これにより、検索部において特徴量を比較する対象の画像データ数を限定することができるので、検索処理に要する時間を短縮することができる。
また本発明によれば、画像検索プログラム、画像検索プログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。
以下図面を参考にして本発明の好適な実施形態を詳細に説明する。
図1は、画像検索装置10の機械的構成を示すブロック図である。画像検索装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウェアなどを格納する外部記憶装置5とを含む。
プロセッサ4は、入力された画像データ(以下では「入力画像データ」という)が、文書画像データであるか非文書画像データであるかを判別する判別処理を行い、さらにその判別結果に基づいて入力画像データと、予め登録されている複数の画像データ(以下では「登録画像データ」という)との照合を行い、入力画像データに類似の登録画像データを検索して表示する画像検索処理などを実際に行う。プロセッサ4における実際の処理は、外部記憶装置5に格納されるソフトウェアによって実行される。プロセッサ4は、たとえば通常のコンピュータ本体などで構成される。
外部記憶装置5は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置5は、登録画像データを大量に保持するために光ディスクなどの大容量デバイスを用いるような構成であっても構わない。また、判別処理中および検索処理中に各処理ステップの段階で作成された一時的なデータなどは、外部記憶装置5に記憶してもよいし、プロセッサ4に内蔵される半導体メモリに記憶してもよい。
画像検索装置10には、キーボード1が接続されるとともに、表示装置3が接続される。キーボード1は、各種ソフトウェアを実行するための指示の入力などに用いられる。
表示装置3は、入力画像データおよび登録画像データに基づく画像の表示、検索結果の表示などを行う。
画像検索装置10には、イメージスキャナ2がさらに接続される。イメージスキャナ2は、画像が印刷された原稿を読み取り、入力画像データを取り込むために用いられる。
入力画像データの取得は、イメージスキャナ2からの入力の他に通信I/F(インターフェイス)6を介して、ネットワーク上の他の装置からデータ通信により取得することもできる。通信I/F6は、LAN(Local Area Network)に接続するためのLANカードや、公衆交換電話網に接続してデータ通信を行うためのモデムカードなどで実現される。
図2は、画像検索装置10の機能的構成を示すブロック図である。
画像検索装置10は、入力部11、画像判別部12、検索部13、表示部14および登録画像記憶部15を含んで構成される。
入力部11は、入力画像データ、登録画像データを入力する。図1に示したハードウェア構成のうち、イメージスキャナ2、通信I/F6などが機能的に入力部11に相当する。登録画像データは、入力画像データが入力されるより前に予め入力されていた画像データであり、登録画像記憶部15に記憶されている。
図3は、画像判別部12の機能的構成を示すブロック図である。
画像判別部12は、前処理部120、特徴抽出部121、判別部122を含んで構成される。
画像判別部12は、入力部11によって入力された画像データが、文書画像データであるか非文書画像データであるかを判別し、その判別結果を後段の検索部13に出力する。検索部13では、入力画像データが、文書画像データか非文書画像データかによって、検索処理に必要な特徴量を変更し、画像データに好適な特徴量を算出する。
図4は、画像判別部12による判別処理を示すフローチャートである。ステップA1では、前処理部120が、入力された画像データに対する前処理として2値化処理を施す。ステップA2では、2値化された画像データに基づいて、特徴抽出部121が、結合画素の外接矩形の検出および外接矩形の統計処理(ヒストグラム作成)を行う。ステップA3では、判別部122が、統計処理結果に基づいて、入力画像データが文書画像データであるか非文書画像データであるかを判別し、ステップA4で、判別結果を検索部13に出力する。
以下では、各ステップについて詳細に説明する。
前処理部120によるステップA1の前処理は、たとえば図5のフローチャートに示される。
画像データが入力されると、ステップB1で、入力された画像データがカラー画像データかどうかを判断する。カラー画像データであれば、ステップB2に進み、明度成分に基づくグレイ化を行い濃淡画像データに変換する。カラー画像でなければ、ステップB3に進み、濃淡画像データであるかどうかを判断する。濃淡画像データであれば、ステップB4に進み、予め定める閾値を用いて2値化し、濃淡画像データを2値画像データに変換する。濃淡画像データでなければ、すなわち2値画像データであるので、処理を終了する。
2値画像データは、画像データを構成する各画素の画素値を0か1(白画素か黒画素)のいずれかとする、いわゆる白黒画像データであり、濃淡画像データの各画素の濃淡度(濃度)を閾値処理して、全画素を黒画素と白画素とに分類する。
また、ステップB4では、判別対象となる画像データを構成する全画素数のうち、黒画素数の割合である全体黒画素割合を算出する。
特徴抽出部121によるステップA2の特徴抽出処理は、たとえば図6のフローチャートに示される。
前処理部120によって2値化処理された2値画像データが入力されると、ステップC1では、2値画像データ中のすべての結合要素を検出する。
結合要素とは、連結した同じ色の画素が集合した画素群である。黒画素の結合要素を検出するか、白画素の結合要素を検出するかは、入力された画像データn下地が黒画素であるか白画素であるかに依存する。一般的には下地が白画素である場合が多く、文字画像や図形画像が黒画素で描画されているので、本実施形態では、黒画素の結合要素を検出するとして説明する。下地が黒画素の場合は、文字画像や図形画像が白画素で描画される、白抜き文字や白抜き図形であり、この場合は、白画素の結合要素を検出することになる。
なお、下地が黒画素であるか白画素であるかは、公知の下地判別処理で判別することができ、たとえば、上記の全体黒画素割合が所定の割合よりも小さいと下地が白画素と判別し、所定の割合よりも大きいと下地が黒画素と判別する。
結合要素の検出は、公知の検出方法で検出することができる。たとえば、1ラインについて、そのライン中で互いに隣接する黒画素の連続部分(黒ラン)を検出し、黒ランのランレングスと、黒ランの両端の黒画素の座標とを、ラインごとに記憶しておく。座標は、たとえば、ラインに平行な方向をx軸とし、ラインに直交する方向をy軸として予め決定される。
1つの注目ラインをy方向に挟む上下ラインの黒ランについて、その両端の黒
画素のx座標が、注目ラインの各黒ランにおける両端の黒画素座標のx座標の範囲内にあれば注目ラインの当該黒ランと、x座標が範囲内となる黒画素を端部画素とする黒ランとはy方向に連結されているものとみなすことができる。
このようにして、注目ラインを順次ずらしながらすべての画像データに対して、x方向の連結部分とy方向の連結部分を検出し、黒画素の結合要素を検出する。
黒画素の結合要素を検出すると、検出したすべての結合要素に外接する外接矩形を生成する。外接矩形は、x方向に平行な辺とy方向に平行な辺とで構成される矩形であって、x方向の辺の長さを矩形幅とし、y方向の辺の長さを矩形高さとする。
外接矩形の生成は、公知の生成方法で生成することができる。たとえば、結合要素を検出した際に、各黒ランの両端の黒画素の座標は既に検出されているので、すべての黒ランを対象として、x座標の最小値と最大値とを抽出し、最大値と最小値との差が矩形幅(画素数)として算出する。また、結合要素を構成するすべての黒ランを対象として、y座標の最小値と最大値とを抽出し、最大値と最小値との差が矩形高さ(画素数)として算出する。
本発明ではさらに、すべての結合要素について、外接矩形内の画素のうち黒画素が占める割合である矩形黒画素割合を算出する。上記のように、外接矩形のサイズ情報である矩形幅と矩形高さとが算出されているので、これらを用いて外接矩形内の全画素数を算出し、結合要素を構成するすべての黒ランのランレングスの総和から黒画素数を算出する。
したがって、矩形黒画素割合は、(結合要素を構成する黒画素数)/(外接矩形内の全画素数)の算出式で算出できる。
以上のようにして、ステップC1では、2値画像データ中のすべての結合要素に対し、結合要素を構成する黒画素の位置(座標)、外接矩形の位置(座標)、外接矩形の矩形幅、矩形高さおよび矩形黒画素割合を、各結合要素に関連付けて所定の記憶領域に記憶する。
次にステップC2では、統計処理を行う前に結合要素の選別を行う。ここでの選別は、統計処理に使用しない結合要素を除去することを目的とする。ステップC2における選別、すなわち結合要素の除去は、2つの段階を経て行われる。
第1段階目の選別は、外接矩形のサイズに基づく選別である。
外接矩形の矩形幅および矩形高さに対して閾値(たとえば0.4)を設定しておき、閾値と矩形幅および矩形高さとを比較し、矩形幅および矩形高さのいずれかが閾値よりも小さい場合は、その外接矩形の結合要素を除去する。
矩形幅または矩形高さが極端に小さいものは、点であったり罫線であることが多く、文書画像データであるか非文書画像データであるかを判別するにあたって、判別精度に与える影響が小さいので、これを予め除去することで統計処理における演算量を抑えることができる。
第2段階目の選別は、矩形黒画素割合に基づく選別である。
矩形黒画素割合に対して所定の範囲(たとえば0.05〜0.8)を設定しておき、所定範囲と矩形黒画素割合とを比較し、矩形黒画素割合が所定範囲外であった場合は、その外接矩形の結合要素を除去する。
矩形黒画素割合が極端に小さいものは、たとえば斜線の罫線などがあり、判別精度に与える影響が小さいので、これを予め除去することで後段の統計処理における演算量を抑えることができる。
矩形黒画素割合が極端に大きいものは、たとえばインク汚れなどがあり、単なる汚れなどを予め除去できていないと、汚れ部分が文字の外接矩形に類似していれば、文字でないのにもかかわらず文書画像データへの判別に寄与され、汚れ部分が図形の外接矩形に類似していれば、図形でないのにもかかわらず非文書画像データへの判別に寄与され、結果的に誤判別を引き起こし、判別精度を低下させる原因となる。
矩形黒画素割合に基づいて選別を行うことで、後段の統計処理における演算量を抑えるとともに、判別精度を向上させることができる。
以上のようにして、ステップC2では、2段階の選別を行い、統計処理前に予め不要な結合要素を削除し、選別後の残余の結合要素のみを統計処理に使用させる。
ステップC3では、選別後の結合要素を用いて統計処理を行う。
統計処理は、具体的にはヒストグラムの生成である。すべての結合要素は、矩形幅および矩形高さのサイズ情報を有しているので、このサイズ情報を用いてヒストグラムを生成する。
ここで生成するヒストグラムは、階級を外接矩形のサイズ(矩形幅または矩形高さ)とし、度数を階級に含まれる結合要素数として生成する。
生成するヒストグラムの階級は、画像データ全体の幅Wまたは高さHによって決まる。階級の数をNとすると1×W/Nよりも矩形幅が小さい結合要素は、第1階級に含まれるものとして度数をカウントする。したがって、矩形幅がk×W/N〜(k+1)×W/Nの範囲に含まれる結合要素は、第k階級に含まれるものとしてカウントする。
作成したヒストグラムをグラフとして可視化すると、たとえば図7に示すように横軸がサイズであり、縦軸が結合要素数の度数分布グラフとなる。
図7(a)は、文書画像データのヒストグラム例を示し、図7(b)は、非文書画像データのヒストグラム例を示す。結合要素が文字である場合、外接矩形が正方形に近く、同じサイズの結合要素が多く含まれるので、ヒストグラムとしては、主に小さいサイズの階級の結合要素数に顕著なピークが見られることが特徴である。また、結合要素が非文字である場合、結合要素が点状、線形状、ブロック状などであり、形状に規則性がなく、サイズにもばらつきがある。したがって、ヒストグラムとしては、各階級の結合要素数が平坦で、顕著なピークが見られないことが特徴である。
なお本発明では、必ずしもヒストグラムをグラフ化して表示しなくとも後段の処理は可能であるが、表示部14でグラフ化したヒストグラムを表示するように構成してもよい。
判別部122は、このようなヒストグラムの特徴に基づいて、入力画像データが文書画像データであるか、非文書画像データであるかを判別することができる。
特徴抽出部121から判別部122へ出力されるヒストグラムに関連する情報としては、たとえば、全体黒画素割合r0、第1階級の結合要素数r1、全結合要素数に対する第1階級の結合要素数の割合をr2および判別処理に用いる特徴量(判別特徴量)Fである。判別特徴量Fは、F=r1×r2/r0で算出される。
ヒストグラムの特徴から、文書画像データは、第1階級の結合要素数に顕著なピークが現れるので、r1およびr2が比較的大きく、全体的な黒画素は少ないので、r0は小さい。したがって、Fは大きな値となる傾向がある。
逆に、非文書画像データは、各階級の結合要素数が平坦で、顕著なピークが見られないので、r1およびr2が比較的小さく、全体的な黒画素は多いので、r0は大きい。したがって、Fは小さな値となる傾向がある。
判別部122によるステップA3の判別処理は、たとえば図8のフローチャートに示される。判別処理では、判別特徴量Fと2つの閾値TH1およびTH2(>TH1)とを比較して閾値処理を行う。
特徴抽出部121によって生成されたヒストグラムに関連する情報として判別特徴量Fが入力されると、ステップD1では、FとTH2とを比較し、FがTH2より大きいかどうかを判断する。FがTH2より大きければステップD2で入力画像データが、文書画像データであると判断する。FがTH2以下であればステップD3で、FとTH1とを比較し、FがTH1より小さいかどうかを判断する。FがTH1より小さければステップD4で入力画像データが、非文書画像データであると判断する。FがTH1以上であれば、すなわちFがTH1とTH2との間の値であれば判別不能であると判断する。
判別部122によるステップA4の出力処理は、ステップA3での判別結果を検索部13に出力する。
検索部13では、入力画像データを検索するにあたって、入力画像データの検索用の特徴データを生成し、登録画像データの特徴データと比較する。文書画像データの場合と非文書画像データの場合とでは、生成すべき入力画像データの特徴データの種類が異なるので、画像判別部12から入力される判別結果に基づいて、好適な特徴データを生成することができる。
文書画像データの特徴データとしては、たとえば文書画像データに対して文字認識を行って得たテキストデータを用いることができる。非文書画像データの特徴データとしては、たとえば非文書画像データが濃淡画像であればヒストグラム生成処理によって得た輝度ヒストグラムを用いることができ、非文書画像データがカラー画像であればRGBの各色成分に対応するヒストグラム生成処理によって得たカラー輝度ヒストグラムを用いることができる。
入力画像データに対して生成した特徴データと、予め生成されている登録画像データに対する特徴データとを比較し、これらの類似度を求め、最も類似度が高い登録画像データを選択し、検索結果とする。
検索結果としては、最も類似度が高い登録画像データのみではなく、類似度の高い方から所定数の登録画像データを選択してこれを検索結果としてもよい。
検索部13によって検索結果が出力されると、表示部14が検索結果として選択された登録画像データを可視化した画像を表示する。
登録画像データについては、登録時に上記のような画像判別処理を施し、文書画像データであるか非文書画像データであるかを示す種別情報を関連付けて登録画像記憶部15に記憶しておくことが好ましい。
種別情報を関連付けておけば、入力画像データを判別した結果、入力画像データと同じ種別の登録画像データのみを検索対象とすればよいので、すべての登録画像データとの比較を行わないでよいので、検索処理に要する時間を短縮することができる。
本発明によれば以下のような効果が得られる。
結合要素の選別を行うことにより、不要な要素を予め除去し、統計処理における演算量を減少させ、判別処理、検索処理に要する時間を短縮することができる。さらに、誤判別の原因となるような結合要素を予め除去することで、判別精度を向上させることができる
なお、画像検索装置10の各ブロック、特に、入力部11、画像判別部12、検索部13、表示部14および登録画像記憶部15等は、ハードウエアロジックによって構成してもよいし、次のようにCPUを用いてソフトウエアによって実現してもよい。
すなわち、画像検索装置10は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only
memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである画像検索装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像検索装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープなどのテープ系、フロッピー(登録商標)ディスク/ハードディスクなどの磁気ディスクやCD−ROM/MO/MD/DVD/CD−Rなどの光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カードなどのカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROMなどの半導体メモリ系などを用いることができる。
また、画像検索装置10を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線などの有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更はすべて本発明の範囲内のものである。
画像検索装置10の機械的構成を示すブロック図である。 画像検索装置10の機能的構成を示すブロック図である。 画像判別部12の機能的構成を示すブロック図である。 画像判別部12による判別処理を示すフローチャートである。 前処理部120による前処理を示すフローチャートである。 特徴抽出部121による特徴抽出処理を示すフローチャートである。 ヒストグラムを可視化したグラフである。 判別部122による判別処理を示すフローチャートである。
符号の説明
1 キーボード
2 イメージスキャナ
3 表示装置
4 プロセッサ
5 外部記憶装置
10 画像検索装置
11 入力部
12 画像判別部
13 検索部
14 表示部
15 登録画像記憶部
120 前処理部
121 特徴抽出部
122 判別部

Claims (6)

  1. 入力された画像データが、文書画像データであるか非文書画像データであるかを判別する画像判別装置であって、
    入力された画像データを2値化して2値画像データに変換し、画像データを構成する全画素数のうち、黒画素数の割合である全体黒画素割合を算出する2値化処理部と、
    前記2値画像データ中に含まれる、同じ色の画素が連結して集合した画素群である結合要素を検出し、この結合要素に外接する外接矩形を検出し、階級を外接矩形の大きさとし、度数を結合要素数とするヒストグラムを生成する特徴抽出部と、
    生成されたヒストグラムに関連する情報と、前記全体黒画素割合とに基づいて、入力された画像データが、文書画像データであるか非文書画像データであるかを判別する判別部とを備え
    前記判別部は、外接矩形の大きさが最も小さい階級の結合要素数をr1とし、すべての結合要素数のうち前記結合要素数r1の割合をr2とし、前記全体黒画素割合をr0としたとき、判別特徴量FをF=r1×r2/r0として算出し、判別特徴量Fと2つの閾値TH1およびTH2(>TH1)とを比較して閾値処理を行い、判別特徴量Fが閾値TH2より大きければ、入力画像データが文書画像データであると判断し、判別特徴量Fが閾値TH1より小さければ、入力画像データが、非文書画像データであると判断することを特徴とする画像判別装置。
  2. 前記特徴抽出部は、外接矩形の大きさと、外接矩形内の全画素数のうち結合要素を構成する画素数の割合である矩形黒画素割合とに基づいて、すべての結合要素から外接矩形の大きさが所定の大きさよりも小さい結合要素を除去し、さらに前記矩形黒画素割合が所定の範囲外となる結合要素を除去し、残余の結合要素を用いてヒストグラムを生成することを特徴とする請求項1記載の画像判別装置。
  3. 予め登録された画像データの中から、入力された画像データに類似した画像データを検索する画像検索装置であって、
    請求項1記載の画像判別装置と、
    前記画像判別装置の判別結果に基づいて、入力された画像データが文書画像データであれば、文書画像データ用の特徴データを生成し、非文書画像データであれば、非文書画像データ用の特徴データを生成する特徴データ生成部と、
    予め登録された画像データの特徴データと、前記特徴データ生成部で生成された特徴データとに基づいて、予め登録された画像データの中から、入力された画像データに類似した画像データを検索する検索部と、
    検索部による検索結果に基づいて、予め登録された画像データのうち入力された画像データに類似した画像データを表示する表示部とを備えることを特徴とする画像検索装置。
  4. 予め登録された画像データは、文書画像データと非文書画像データとに分類されて登録され、
    前記検索部は、前記画像判別装置の判別結果に基づいて、入力された画像データが文書画像データであれば、文書画像データとして登録された画像データを検索対象とし、入力された画像データが非文書画像データであれば、非文書画像データとして登録された画像データを検索対象とすることを特徴とする請求項記載の画像検索装置。
  5. コンピュータを請求項記載の画像検索装置として機能させるための画像検索プログラム。
  6. コンピュータを請求項記載の画像検索装置として機能させるための画像検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008184320A 2008-03-31 2008-07-15 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体 Active JP4522468B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100904068A CN101551859B (zh) 2008-03-31 2008-03-31 图像辨别装置及图像检索装置

Publications (2)

Publication Number Publication Date
JP2009246930A JP2009246930A (ja) 2009-10-22
JP4522468B2 true JP4522468B2 (ja) 2010-08-11

Family

ID=41117307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008184320A Active JP4522468B2 (ja) 2008-03-31 2008-07-15 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体

Country Status (3)

Country Link
US (1) US8385643B2 (ja)
JP (1) JP4522468B2 (ja)
CN (1) CN101551859B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052653A (zh) * 2016-12-30 2018-05-18 徐庆 图像特征描述符的获取方法、装置、存储介质、终端及图像检索方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957995A (zh) * 2010-10-14 2011-01-26 华中科技大学 一种图像中关联像素点的检测提取方法及其应用
KR101992153B1 (ko) 2012-11-13 2019-06-25 삼성전자주식회사 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법
JP6161484B2 (ja) * 2013-09-19 2017-07-12 株式会社Pfu 画像処理装置、画像処理方法及びコンピュータプログラム
CN105590082B (zh) * 2014-10-22 2019-02-22 北京拓尔思信息技术股份有限公司 文档图像识别方法
CN106874947B (zh) * 2017-02-07 2019-03-12 第四范式(北京)技术有限公司 用于确定文字形近度的方法和设备
WO2019203920A1 (en) * 2018-04-17 2019-10-24 Hrl Laboratories, Llc Hardware and system of bounding box generation for image processing pipeline
CN109840278A (zh) * 2019-01-28 2019-06-04 平安科技(深圳)有限公司 柱状图数据转换控制方法、装置、计算机设备及存储介质
US11776093B2 (en) * 2019-07-16 2023-10-03 University Of Florida Research Foundation, Incorporated Automatic sharpness adjustment for imaging modalities
CN111583247B (zh) * 2020-05-12 2023-11-03 中南大学 一种图像二值化处理方法及装置
US20220335240A1 (en) * 2021-04-15 2022-10-20 Microsoft Technology Licensing, Llc Inferring Structure Information from Table Images

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04309191A (ja) * 1991-04-08 1992-10-30 Matsushita Electric Ind Co Ltd 領域属性識別装置
JPH05282492A (ja) * 1992-04-01 1993-10-29 Matsushita Electric Ind Co Ltd 文字サイズ抽出方法
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
JP3253356B2 (ja) * 1992-07-06 2002-02-04 株式会社リコー 文書画像の領域識別方法
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
US5860075A (en) * 1993-06-30 1999-01-12 Matsushita Electric Industrial Co., Ltd. Document data filing apparatus for generating visual attribute values of document data to be filed
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
JPH07220091A (ja) * 1994-02-04 1995-08-18 Canon Inc 画像処理装置及び方法
JPH0822507A (ja) * 1994-07-08 1996-01-23 Matsushita Electric Ind Co Ltd 文書認識装置
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
JP3606500B2 (ja) * 1997-01-31 2005-01-05 株式会社リコー 矩形分類方法
JPH1166230A (ja) * 1997-08-11 1999-03-09 Matsushita Electric Ind Co Ltd 文書認識装置、文書認識方法及び媒体
JP4170441B2 (ja) * 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
US6233353B1 (en) * 1998-06-29 2001-05-15 Xerox Corporation System for segmenting line drawings from text within a binary digital image
JP4454789B2 (ja) * 1999-05-13 2010-04-21 キヤノン株式会社 帳票分類方法及び装置
JP3995185B2 (ja) * 2000-07-28 2007-10-24 株式会社リコー 枠認識装置及び記録媒体
US7013309B2 (en) * 2000-12-18 2006-03-14 Siemens Corporate Research Method and apparatus for extracting anchorable information units from complex PDF documents
US7085420B2 (en) * 2002-06-28 2006-08-01 Microsoft Corporation Text detection in continuous tone image segments
JP3950777B2 (ja) * 2002-09-30 2007-08-01 キヤノン株式会社 画像処理方法、画像処理装置および画像処理プログラム
EP1555804A3 (en) * 2004-01-19 2006-08-16 Ricoh Company, Ltd. Image processing apparatus, image processing program and storage medium
JP4352940B2 (ja) * 2004-03-04 2009-10-28 富士ゼロックス株式会社 画像検索装置およびプログラム
JP4477468B2 (ja) 2004-10-15 2010-06-09 富士通株式会社 組み立て図面の装置部品イメージ検索装置
US8036497B2 (en) * 2005-03-01 2011-10-11 Osaka Prefecture University Public Corporation Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image
WO2006092957A1 (ja) * 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
US7545529B2 (en) * 2005-03-24 2009-06-09 Kofax, Inc. Systems and methods of accessing random access cache for rescanning
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP4771804B2 (ja) * 2005-12-20 2011-09-14 富士通株式会社 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
JP4791295B2 (ja) * 2006-08-31 2011-10-12 富士通株式会社 罫線抽出プログラム、罫線抽出装置、罫線抽出方法
JPWO2009081791A1 (ja) * 2007-12-21 2011-05-06 日本電気株式会社 情報処理システム、その方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052653A (zh) * 2016-12-30 2018-05-18 徐庆 图像特征描述符的获取方法、装置、存储介质、终端及图像检索方法

Also Published As

Publication number Publication date
CN101551859A (zh) 2009-10-07
US8385643B2 (en) 2013-02-26
JP2009246930A (ja) 2009-10-22
US20090245640A1 (en) 2009-10-01
CN101551859B (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
JP4522468B2 (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
JP4729601B2 (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
JP4516778B2 (ja) データ処理システム
US8594431B2 (en) Adaptive partial character recognition
US7773808B2 (en) Apparatus and method for recognizing a character image from an image screen
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
JP4469873B2 (ja) 画像文書の検索装置、プログラム、及び記録媒体
WO2017140233A1 (zh) 文字检测方法及系统、设备、存储介质
JP2003132358A (ja) 画像処理方法、装置およびシステム
JP4339925B2 (ja) 文書画像処理方法、文書画像処理装置、文書画像処理プログラムおよび記憶媒体
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
JP4772819B2 (ja) 画像検索装置および画像検索方法
JP4391704B2 (ja) 多値画像から二値画像を生成する画像処理装置および方法
JP4441300B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
JP3985928B2 (ja) 画像処理方法、画像処理装置、文字認識装置及び記憶媒体
JP2011018311A (ja) 画像検索装置、画像検索プログラムおよび記録媒体
JP4213357B2 (ja) 画像処理装置、画像処理方法及び該方法を実行させるためのプログラム
Dey et al. A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images
JP4890351B2 (ja) 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
Boiangiu et al. Bitonal image creation for automatic content conversion
US11948342B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium for determining extraction target pixel
JP2003281469A (ja) 文書画像処理方法
JP6493559B2 (ja) 文字認識装置及び文字認識方法
JP2011070327A (ja) 画像属性判定装置、画像属性判定方法および画像属性判定プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100427

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100525

R150 Certificate of patent or registration of utility model

Ref document number: 4522468

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130604

Year of fee payment: 3