JPH09212677A - 画像領域分割方法及びその装置 - Google Patents

画像領域分割方法及びその装置

Info

Publication number
JPH09212677A
JPH09212677A JP8344308A JP34430896A JPH09212677A JP H09212677 A JPH09212677 A JP H09212677A JP 8344308 A JP8344308 A JP 8344308A JP 34430896 A JP34430896 A JP 34430896A JP H09212677 A JPH09212677 A JP H09212677A
Authority
JP
Japan
Prior art keywords
image
block
features
text
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8344308A
Other languages
English (en)
Inventor
Yan Zuu Jiyurii
ヤン ズー ジュリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JPH09212677A publication Critical patent/JPH09212677A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/168Segmentation; Edge detection involving transform domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

(57)【要約】 【課題】 画像のテキスト部分と自然部分の識別を効果
的に行なえない。 【解決手段】 画像のテキストらしき部分と非テキスト
らしき部分とを識別するためのファジー検出ルールセッ
トを確立し、これを複数セグメントに分割した画像に適
用して、各セグメントを分類する。このファジー検出ル
ールセットを確立する際、画像の異なる部分を差別化す
る複数の画像特徴を識別する。また、複数のファジー検
出ルールを最小化して、所定量の学習用画像によってサ
ポートされないルールを除き、除かれなかったルールを
セットに割り当てる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、「ビデオ」型ディスプ
レイ装置等の電子表示装置による画像表示に関し、特
に、効果的な表示更新が可能な画像領域分割方法及びそ
の装置に関するものである。
【0002】
【従来の技術】例えば、パーソナルコンピュータ、コン
ピュータ化されたワークステーション、ディスクトップ
出版システムは、一般に1つかそれ以上の電子ディスプ
レイを統合しており、それによりユーザに画像が提供さ
れるので、ユーザは、ある機能を実行するためにそのシ
ステムの操作が可能になり、また、単なる情報提供のた
めに画像が提供される。従来より、そのようなディスプ
レイは、ビデオディスプレイとして、より一般的に知ら
れた陰極管(CRT)装置からなり、そこでは、インタ
ーレースされた時系列フィールドか、または非インター
レースにて、イメージデータがラスター化された形式で
表示される。そのような装置は、一般には、使用される
特定の標準に依存した、1秒間に25から30フレーム
(即ち、1秒間に50から60フィールド)の画像表示
速度を持っている。そのような構成はまた、テレビジョ
ン表示や他のビデオタイプの信号の表示に用いられる。
【0003】そのような装置で表示される画像は、一般
にはテキスト、グラフィックオブジェクトアニメーショ
ンやシンボル、自然(写真)タイプの画像からなる。ビ
デオディスプレイが相対的に高いリフレシュ速度を有し
ているため、連続した滑らかな画像表示のために、その
ようなシステムにおいては、一般的には異なる画像要素
間を識別する必要はない。そのような構成は、表示を規
則的に維持したり、そこでの画像部分の更新が確実に行
なわれるように、一般には、かなりの計算的なオーバヘ
ッドを必要とする。
【0004】しかしながら、より低リフレッシュ速度で
動作し、また表示処理動作を低い計算オーバヘッドです
ることができる表示装置がある。そのようなディスプレ
イの例として、1秒間に6フレームと低いリフレッシュ
速度で動作可能な強誘電液晶フィールド(FLCD)が
あり、人間の目で検出可能な潜像を越えるイメージ潜像
を可能にする。そのような低リフレッシュ速度は、表示
処理に関する計算的なオーバヘッドをCRT装置に比較
して削減することができる。
【0005】しかし、そのような低リフレッシュ速度
を、例えば、最近の演算やディスクトップ出版の用途に
使うことは難しい。特に、画像の一部がテキストである
場合、画像のその部分が、1秒間に6フレームというよ
うな低リフレッシュ速度でも十分適応できるような、相
対的に低速度で更新されるだけであるということは、よ
くあるケースである。
【0006】アニメーション画像と自然(写真タイプ)
画像のような複合画像を表示する場合には、低リフレッ
シュ速度では、重大な画像品質の悪化を招く。このこと
は、特に、そのような装置で動画を表示する場合に起こ
るが、相対的な複合静止画を表示する場合にも起こる。
【0007】この困難性を克服するいくつかの方法が提
案されており、それには、異なる方法にて画像を中間調
処理したり、ディザ処理することが含まれる。しかしな
がら、そのような方法は、例えば、自然画像に対して適
切な結果をもたらすことができる一方、そのようなシス
テムは、テキスト画像に対して、それほど有利には働か
ず、その逆もまた同じである。また、表示の一部分での
動きを検出する構成も提案されており、これは、高速度
でリフレッシュされる必要がある表示の一部分を識別で
きる、しきい値技術を用いている。
【0008】
【発明が解決しようとする課題】しかしながら、中間調
処理とディザ処理は、表示画像にノイズを引き起こし
て、動きとして誤解される可能性がある。そのために、
不必要な表示の更新をさせ、表示処理システムを過度に
使用することになる可能性がある。従来の白地に黒や黒
地に白のテキスト表示とは対照的に、テキストがカラー
の背景にカラー表示される場合には、これらの困難性も
また悪化する。
【0009】従って、そのようなディスプレイを低リフ
レッシュ速度にて最適な利用をするためには、画像のテ
キスト部分と自然部分を検出し識別する、より効果的な
手段が必要とされる。
【0010】
【課題を解決するための手段】上記の課題を解決するた
め、本発明の第1の態様によれば、画像中におけるテキ
ストらしき部分と非テキストらしき部分を検出する方法
であって、(a)前記画像のテキストらしき部分と前記
画像の非テキストらしき部分とを識別するためのファジ
ー検出ルールセットを確立する確立工程と、(b)前記
画像を複数セグメントに分割する工程と、(c)前記フ
ァジー検出ルールセットを前記画像の各セグメントに適
用して、該各セグメントをテキストらしき部分と非テキ
ストらしき部分として分類する工程とを備える。
【0011】好ましくは、前記確立工程は、画像の異な
る部分を区別する複数の画像特徴を識別する工程と、前
記特徴の異なる組み合わせをテキストらしき学習用画像
と非テキストらしき学習用画像とに適用することによっ
て、複数のファジー検出ルールを生成する工程と、前記
複数のファジー検出ルールを最小化して、所定量の前記
学習用画像によってサポートされないルールを除き、除
かれなかったルールを前記セットに割り当てる工程とを
備える。
【0012】さらには、前記生成工程は、各画像特徴を
0から1の範囲の値に正規化する工程と、各入力特徴空
間を複数の等間隔領域に仕切る工程と、各入力特徴を前
記領域の1つのラベルに割り当てて、前記領域の1つの
ラベルのメンバーシップ値を最大化する工程と、前記領
域の各々に対して、前記特徴の各々のための最大化され
たラベルを選択して、それぞれのファジールールを形成
する工程とを備える。
【0013】本発明の第2の態様によれば、画像中にお
けるテキストらしき部分と非テキストらしき部分を検出
する装置であって、画像のテキストらしき部分と画像の
非テキストらしき部分とを識別するためのファジー検出
ルールセットを確立する手段と、前記画像を複数セグメ
ントに分割する手段と、前記ファジー検出ルールセット
を前記画像の各セグメントに適用して、前記各セグメン
トをテキストらしき部分と非テキストらしき部分の一つ
として分類する手段とを備える。
【0014】本発明の第3の態様によれば、各々が所定
数の画素を有する複数ブロックとして処理されるデジタ
ル画像を表示手段に表示するために区域分割する方法に
おいて、前記ブロックに対する特徴ベクトルを生成する
ために各ブロックから特徴セットを抽出する工程と、フ
ァジールールセットを用いて、前記ブロックに対する前
記特徴ベクトルによって、前記ブロックをテキストタイ
プの画像かまたは自然タイプの画像のいづれかに分類す
る工程とを備える。
【0015】本発明の第4の態様によれば、各々が所定
数の画素を有する複数ブロックとして処理されるデジタ
ル画像を表示手段に表示するために区域分割する装置に
おいて、前記ブロックに対する特徴ベクトルを生成する
ために各ブロックから特徴セットを抽出する手段と、フ
ァジールールセットを用いて、前記ブロックに対する前
記特徴ベクトルによって、前記ブロックをテキストタイ
プの画像かまたは自然タイプの画像のいづれかに分類す
る手段とを備える。
【0016】本発明の第5の態様によれば、入力ビデオ
信号に対応して表示装置に表示させるための表示信号を
生成する表示方法であって、前記入力ビデオ信号のフレ
ームを複数ブロックに区分けする工程であって、各ブロ
ックが所定数の画素からなる工程と、前記ブロックに対
する特徴ベクトルを生成するために各ブロックから特徴
セットを抽出する工程と、ファジールールを用い、前記
ブロックに対する前記特徴ベクトルに依存して、各ブロ
ックがテキストらしき画像あるいは自然らしき画像のい
ずれであるかを識別する工程と、識別されたブロックを
メモリに格納する工程と、前記識別されたブロックに依
存して、前記入力ビデオ信号よりも低いデータ速度で前
記表示信号を生成する工程であって、多数の識別された
テキストらしきブロックからなる前記フレームの第1の
領域は、多数の識別された自然らしき画像ブロックから
なる前記フレームの第2の領域とは異なるように生成さ
れる工程とを備える。
【0017】本発明の第6の態様によれば、入力ビデオ
信号に対応して表示デバイスに表示させるための表示信
号を生成する表示装置であって、前記入力ビデオ信号の
フレームを複数ブロックに区分けする手段であって、各
ブロックが所定数の画素からなる手段と、前記ブロック
に対する特徴ベクトルを生成するために各ブロックから
特徴セットを抽出する手段と、ファジールールを用い、
前記ブロックに対する前記特徴ベクトルに依存して、各
ブロックがテキストらしき画像あるいは自然らしき画像
のいずれであるかを識別する手段と、前記識別手段に結
合して、識別されたブロックを格納するメモリと、前記
識別されたブロックに依存して、前記入力ビデオ信号よ
りも低いデータ速度で前記表示信号を生成する手段であ
って、多数の識別されたテキストらしきブロックからな
る前記フレームの第1の領域は、多数の識別された自然
らしき画像ブロックからなる前記フレームの第2の領域
とは異なるように生成される手段とを備える。
【0018】
【発明の実施の形態】以下、添付図面を参照して、本発
明に係る実施の形態を詳細に説明する。
【0019】本発明は、ディスプレイスクリーンを異な
る領域に分類するのに使用さわる領域分割(zone segmen
tation)の方法と装置を提供する。これは、最適な中間
調処理/色つけを可能とし、表示処理と再生品質を最適
化するために部分的な更新方法をそれらの領域に適用す
ることを可能とする。
【0020】特に、本発明の実施の形態では、ゾーンセ
グメント表示信号に対するファジー分類技術を用いる。
他の好適な実施の形態における特異な作業は、画像を2
つのタイプの領域に分けることである。これらの内、第
1の領域はテキストに対する領域であり、第2の領域
は、自然画像を含む他の全ての画像に対する領域であ
る。表示される特定画像、あるいは表示される画像(例
えば、異なるページ)に適応可能なルールが必要とな
る。例えば、複数ページの書類は、書類全体を通して適
用される所定のルールセットを持っている。別の方法で
は、複数ページの書類は、各ページ内容に依存する、異
なるページに適用される異なるルールを持つことができ
る。
【0021】本発明による領域分割で使われる解決方法
は、個々の画素と、それらとその近傍画素間の関係が、
特徴セットで完全に説明されることを想定している。さ
らに、与えられた画像中の異なる要素は、中間調レベル
(カラー)、テクスチャ、またはその両方によって異な
る。従って、本発明に係る実施の形態の領域分割は、特
徴抽出、それに続く分割という、2つの重要な局面を備
える。重要なことは、特徴セットが、自然画像領域から
テキスト領域を区別するのに適しているとされ、また、
ハードウエアによる実行に適している。
【0022】ハードウエアによる実行は、好適には、後
述する図2のディスプレイシステム203で実行可能な
用途特定集積回路(ASIC)の形態を取る。しかしな
がら、次に説明する別の好適な実施の形態に鑑みた場
合、当業者にとっては、本発明の他の実施の形態が本発
明の範囲とその思想から逸脱しない範囲で実施可能であ
ることは明らかである。
【0023】特徴選択は、最初は多くの特徴(視覚的な
特徴)を含んでいる画像データを次元的に減らすという
問題と関係する。画像データ内のサブ構造を、コンピュ
ータ化して検出するのに必須となる情報を保持する、当
初からの特徴について最適な部分集合(subset)を選択
し、他方、多くの特徴を用いることに起因する計算上の
負荷を減らすことが必要となる。
【0024】特徴抽出を行なうことによって、パターン
分類のための計算上の複雑さを、画像データの低次元空
間での扱いにて減らすことが可能である。さらに、クラ
ス条件付き濃度関数の推定値を、画像データについての
所定数のトレーニングサンプルに対して得ることができ
る。このようにして、実際の画像上で使われる決定ルー
ルを得ることができる。
【0025】決定ルールが、観測空間に適用される他の
ルールよりも実際に良好に働くかどうかは、特徴変換で
どのくらいの情報が失われるかによる。いくつかのケー
スでは、分類に必要な情報を1つも無駄にすることなく
特徴を獲得できる可能性がある。
【0026】画像に対して特徴を獲得する方法はたくさ
んある。好適な実施の形態では、特徴セットは空間領域
特徴からなる。別の実施の形態では、線形変換が画像ブ
ロックに適用される。好適には、この別の実施の形態中
でウエーブレット変換を用いて特徴セットを獲得する。
しかしながら、例えば、アダマール変換とフーリエ変換
を含む他の変換が、選択的に適用される。
【0027】テキストクラスと自然画像クラスの特徴は
部分的に重なる。輪郭をはっきりさせる(crisp)しきい
値技術を用いた従来(先行技術)の問題解決方法には、
画像の2つのクラス(例えば、テキストと自然)間に境
界を定める効率的な方法がないために、領域分割に対し
て十分ではない。
【0028】本発明の実施の形態では、ファジー分類技
術を用いて、画像データのあいまいさを取り扱う方法を
提供する。そのような技術は、2つの近傍クラス間の境
界が連続で、部分的に重なる領域であるとして、その領
域内では、対象が各クラスの部分的メンバーシップを有
する。この見方は、領域分割におけるカテゴリ間での境
界をうまく設定できていないという現実を反映してい
る。
【0029】好適な実施の形態及び別の好適な実施の形
態に係るファジールールを基盤とした方法は、過渡的領
域でのあいまいさを扱うことで、人間らしい性能を達成
する。実行される特定の方法は、2つの基本フェーズか
ら構成される。
【0030】第1の基本フェーズはトレーニングフェー
ズであり、ここでは、トレーニングセットの全サンプル
にラベルがつけられ、特徴セットが計算される。これに
より、ファジールールがトレーニングセットに基づいて
生成される。これに関連して、ルールを基盤とした方法
の最終目標は、小(S)、中(M)、大(L)のような
ラベルに基づくルールを用いて、画像の分割を行なうこ
とである。ルールは普通、以下の形態をとる。
【0031】IF(条件セットが満たされれば) TH
EN(結果のセットを推論できる)従って、ファジール
ールは、前提と結論がファジー概念(メンバーシップ関
数をもつ表現のような)と関連するものである。
【0032】第2の基本フェーズは、特徴が各テスティ
ングブロック(決定される特定画像ブロック)に対して
計算されるランフェーズ(run phase)である。そして、
上記のトレーニングフェーズで生成されたルールに従っ
て、入力(画像)ブロックが対象1(テキスト)か対象
2(自然画像)であるかが決定される。以下の説明で
は、“ブロック”という用語は、所定サイズ(例えば、
9x9画素)の画素グループを説明するために使われ
る。他には、そのようなブロックは“タイル”あるいは
“セグメント”と呼ばれる。
【0033】図5Aと図5Bは、好適な実施の形態及び
他の実施の形態に係るトレーニングフェーズとランフェ
ーズを示す、ハイレベルのフロー図である。図5Aで
は、トレーニング画像502は、ブロック単位に処理さ
れる。ここでは、各ブロックは所定数の画素から構成さ
れる。好適な実施の形態では、ステップ504にて、ト
レーニング画像502の各ブロックにおいて、空間領域
での特徴抽出が実行される。括弧書きで示しているが、
別の実施の形態では、ウエーブレット領域特徴が各ブロ
ックから抽出される。そして、ステップ506では、抽
出された特徴を用いてファジールールが生成され、自然
画像あるいはテキスト画像として、ブロックを分類する
のに使われる。このステップ506の出力は、ファジー
ルールセット508である。
【0034】図5Bは、本好適な実施の形態に係るルー
ルベースの分割方法のランフェーズを示す、ハイレベル
のフロー図である。テスト画像532は、ブロック単位
に処理される。ここでも、各ブロックが所定のサイズを
有する。ステップ534では、空間領域特徴の抽出が実
行される。別の実施の形態では、ウエーブレット領域特
徴が抽出される。ステップ536では、ルールベースの
分類が、ステップ534で抽出された各ブロックの特徴
に対して実行される。これとの関連において、ファジー
ルールセットがステップ536にて提供され、ルールベ
ースの分類が実行される。
【0035】各ブロックに対するステップ536での出
力は、そのブロックが自然画像か、あるいはテキスト画
像であるかの指標538となる。選択的にランフェーズ
方法は、さらに個々の画像ブロックの誤分類を補償する
か訂正するため、テスト画像ブロックを後処理するステ
ップ540を備える。この選択的なステップ540での
出力は、1つかそれ以上の自然画像かテキスト画像の領
域542となる。
【0036】本発明の実施の形態に係る領域分割ユニッ
トについて説明する前に、領域分割ユニットを内蔵する
ディスプレイシステムを簡単に説明する。 <全ディスプレイシステムの構成>図1は、デバイス1
01とディスプレイコントローラ104との間に接続さ
れたディスプレイシステム103の構成を示す図であ
る。ディスプレイコントローラ104は、次にディスプ
レイ105に接続される。以下に説明するが、好適な実
施の形態に係る領域分割ユニットはディスプレイシステ
ム103に供給される。
【0037】ディスプレイシステム103は、コンピュ
ータ等のデバイス101から、ケーブル102経由で画
像出力を受信する構成となるように示されている。画像
は、好適には同期情報だけでなく、赤、緑、青の画像情
報に分離されたカラーチャネルの形態をとる。しかしな
がら、YIQ,HSV,HLS,LABを含む他のカラ
ーモデルでもよい。
【0038】本好適の実施の形態では、ディスプレイシ
ステム103は、強誘電液晶ディスプレイ(FLCD)
及び対応するFLCDディスプレイコントローラとの組
み合わせで用いられる。画像は、ディスプレイコントロ
ーラ104を経由してディスプレイデバイス105上に
表示され、その画像は、デバイス101が予期している
ものよりも低いフレーム速度を有している。しかしなが
ら、本好適な実施の形態をFLCDディスプレイとFL
CDディスプレイコントローラを用いて実施する一方
で、カラー再現デバイス、通常の画像レンダリング技
術、他のタイプのディスプレイシステムを含む非常に他
の多くの分野にて応用できることは、当業者には十分に
理解できることである。<ファジールールベースの領域
分割を組み込んだディスプレイシステム>図2は、領域
分割ユニットを実施できるディスプレイシステム103
を示している。以下の説明では、本発明のさらなる完全
な説明のため、多くの具体的な詳細説明がなされる。本
発明がこれらの具体的な詳細説明がなくても実施できる
ということは、当業者にとっては明らかなことである。
他の例では、本発明を不明瞭にしないために、周知の特
徴についての詳細説明は行なわない。
【0039】ディスプレイシステム103は、本好適な
実施の形態による領域分割ユニット221と、ゾーンテ
ーブル格納部208、フレームストア部206、中間調
処理(ハーフトーン)ユニット217、部分更新(P
U)ユニット214を備える。また、入力デバイダ、ア
ナログ・デジタル変換ユニット212、動き検出ユニッ
ト216、モデル特定パラメータユニット219、初期
化/コントロールユニット213、図1のFLCDディ
スプレイコントローラ104に対応するディスプレイコ
ントローラ204を備える。
【0040】アナログ入力は、ケーブル202(図1の
ケーブル102に対応する)を介して、ディスプレイシ
ステム103に供給される。アナログ入力の同期情報
は、入力デバイダ209によって分割、即ちカラー情報
から分離される。カラー情報211と同期情報210
は、次にアナログ・デジタル変換(ADC)ユニット2
12に送られる。デバイダ209からの赤、緑、青のア
ナログ入力チャネル情報は、アナログーデジタル(A/
D)変換ユニット212内の3つのアナログ・デジタル
(A/D)コンバータ(不図示)に送られる。各A/D
コンバータは、そのアナログチャネル入力情報を、対応
するデジタル値に変換する。
【0041】同期化、すなわち制御のための情報21
0,211はまた、アナログ・デジタル変換ユニット2
12に送られる。そして、そこで復号化され、デジタル
化されて、画素クロック(PCLK)信号、ライン再ト
レース信号、フレーム再トレース信号(これらは個別に
示されていない)等のシステムコントロール情報を生成
する。
【0042】コントロール情報は、ディスプレイシステ
ム203の残りの部分に、双方向コントロールチャネル
218経由で供給され、画素カラー情報と共に出力され
る。コントロールチャネル218は、これらの信号を、
初期化・コントロールユニット213、本好適な実施の
形態による領域分割ユニット221、中間調処理ユニッ
ト217、ゾーンテーブル格納部208、部分更新ユニ
ット214、フレームストア部206、動き検出ユニッ
ト216、ディスプレイコントローラ204を含むシス
テム103全体のさまざまな部分に伝達する。初期化・
コントロールユニット213は、好適には、マイクロプ
ロセッサを用いて実施される。
【0043】アナログ・デジタル変換ユニット212
は、3つのアナログ入力チャネルだけでなく、モデル特
定パラメータ、クリスタルタイミング入力情報、入力コ
ントロール同期情報を利用して、モデル特定パラメータ
にて決定された画素クロック速度にて、各入力画素に対
して、対応する2値の出力画素を生成する。これらのパ
ラメータは、格納デバイスとしてのモデル特定パラメー
タユニット219に格納され、好ましくは、初期化・コ
ントロールユニット213によるスタートアップ時にア
ナログーデジタル変換ユニット212にロードされる。
モデル特定パラメータユニット219は、好ましくは、
シリアルのEEPROMである。
【0044】アナログ入力の代わりに、ケーブル202
は、入力信号をデジタル形式で直接、アナログ・デジタ
ル変換ユニット212の代わりとなる入力バッファ(図
示していないが、周知の技術である)に伝送することが
できる。
【0045】単独のディスプレイシステムが多くの異な
るコンピュータシステムに接続されるために、ケーブル
アセンブリ202は、好ましくはモード特定クリスタル
に適合し、及び/または、初期化・コントロールユニッ
ト213は、格納デバイスとしてのモデル特定パラメー
タユニット219からモデル特定パラメータを、スター
トアップ時にディスプレイシステムコントローラにロー
ドする。
【0046】システム毎に変わる傾向があるモデル特定
パラメータには、コンピュータデバイス101の画素出
力クロックの周波数、ライン当たりの画素数、フレーム
当たりのライン数、水平帰線消去時間、垂直帰線消去時
間、アナログ・デジタル利得、オフセットパラメータ等
が含まれる。これらのパラメータは、異なるコンピュー
タデバイス101にとって利用可能な異なるケーブルを
有するケーブル202に供給することができ、これによ
って、ディスプレイシステム203の多能性と実用性を
向上させることができる。
【0047】ビット数とそれによる解像度と共にアナロ
グ・デジタル変換ユニット212からは、デジタル値が
出力されるが、これらビット数と解像度は、使用される
A/D変換器のコストと速度等の要素によって変わる。
本実施の形態では、アナログ・デジタル変換ユニット2
12の各A/D変換器は、その各々の入力カラーに対す
る8ビット情報をA/D出力バス220に出力する。従
って、A/D出力バス220は、少なくとも24ビット
幅であり、ディスプレイ情報の単一の画素を表現する。
さらに、アナログ・デジタル変換ユニット212は、画
素クロック、フレーム、他の同期情報をA/D出力バス
220に出力する。
【0048】ディスプレイシステム103に対する代表
的なアナログ入力速度は、60Hzであり、他方、ディ
スプレイデバイス105のスクリーン更新速度は、およ
そ15Hzである。結果として、A/Dバス220から
の出力によって供給された画素ディスプレイ情報は、フ
レームバッファであるフレーム格納部206に動き検出
ユニット216を介して送られる。フレームストア20
6の出力207は、フレームに中間調処理を適用するハ
ーフトーン処理ユニット217に伝送される。動き検出
ユニット216の出力225と、ハーフトーン処理ユニ
ット217の出力は、画像フレームの部分的な更新処理
を実行する部分更新ユニット(PU)214に出力され
る。この部分更新ユニット214の出力215は、ディ
スプレイコントローラ204に送られる。実質的には、
前フレームから変更された現フレームの画素ディスプレ
イ情報は、ディスプレイデバイス105上で更新され
る。従って、スクリーン更新速度が低下する。
【0049】本好適な実施の形態に係る領域分割ユニッ
ト221は、A/D出力バス220から画素ディスプレ
イ情報222を受信する。領域分割ユニット221は、
入力画像シーケンスのフレーム内において複数領域の各
々に対する領域タイプを決定する。ここで、入力画像領
域は、所定の画像フォーマットからなる。特に、領域分
割ユニット221は、入力画像を、実質的に“テキスト
文字”や“自然画像”(すなわち、“テキスト文字”以
外)を含む領域に分割する。領域タイプは、例えば、少
なくとも1ビットの識別子で表現される。ここで、ゼロ
(0)のビットは、領域分割ユニット221で分割された
画像領域は、“自然画像”を示し、1のビットは、実質
的に“テキスト文字”領域を示す。
【0050】図2の実施の形態では、領域分割ユニット
221は、複数領域各々の領域タイプの他に加えて、全
入力画像に関連する領域の座標セットを決定するように
なっている。座標セットと領域タイプは、領域分割ユニ
ット221によって、大きな動き領域を好適に更新する
部分更新ユニット214と通信を行なう。
【0051】ゾーンテーブル格納部208は、領域分割
ユニット221に接続され、入力画像の複数領域の各々
に対する座標セットと領域タイプを格納する。ゾーンテ
ーブル格納部208は、領域分割ユニット221によっ
て、双方向データバス223経由で絶えず更新される、
つまり、書き込みや読み出しが行なわれるランダムアク
セスメモリ(RAM)デバイスである。
【0052】ゾーンテーブル格納部208はまた、動き
検出ユニット216とハーフトーン処理ユニット217
に情報を提供するが、それらは、それぞれのユニット
(216,217)によって処理される入力画像領域の
領域タイプと座標位置とについての知識が進化すること
により利益を得る。本好適な実施の形態による領域分割
ユニットについては、以後、詳細に説明する。<空間的
領域特徴を用いたルールベースの領域分割>上述したよ
うに、領域分割技術は、2段階の工程を有する。図6
は、領域分割技術のトレーニングフェーズを詳細に説明
するフロー図である。処理はステップ602から始ま
る。ステップ604では、ファジー分類ルールを生成に
使われる特徴セットが選択される。ステップ606で
は、処理のために画像を所定サイズのブロックに分割す
る。以下の説明は単一つの画像に関するものであるが、
実際には多数の画像を、システムをトレーニングするた
めに使い、分類のためのファジールールを生成する。ス
テップ608では、画像の第1のブロックが、処理のた
めに選択される。
【0053】判定ブロック610では、全ブロックが処
理されたかどうかをチェックする。もし、決定ブロック
610が真(YES)を返したならば、処理はステップ
620で終了する。この段階では、分類のための最終的
なファジールールが出力される。また、判定ブロック6
10が偽(NO)を返したならば、処理はステップ61
2に進む。このステップ612では、特徴セットが注目
ブロックから抽出される。ステップ614では、抽出さ
れた特徴をもとにブロックに対して特徴ベクトルが生成
される。ステップ616では、分類用のファジールール
を生成するために特徴ベクトルが使用される。ステップ
618では、次の画像ブロックが処理のために選択され
る。そして、処理は、次に判定ブロック610に進む。
【0054】上述したように、本好適な実施の形態で
は、空間領域から直接、得られた特徴を用い、これによ
り、直接、画像画素上で処理を行なう。表1に記載の空
間領域の特徴セットを、画像のセグメントやブロックに
適用することができる。ここでの特徴は、領域分割に適
していることがわかる。 《表 1》 特 徴 説 明 記 号  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ 1 ブロックの平均グレイレベル MI 2 ブロックのグレイレベルの分散(または、標準偏差) SI 3 勾配の絶対値 G 4 ブロックでのオンゼロ勾配の平均絶対値 MG 5 ブロックでの非ゼロ勾配の最大絶対値 GG 6 ブロックでのオンゼロ勾配の絶対値の標準偏差 SG 7 局部コントラストの絶対値 C 8 非ゼロの局部コントラストの絶対値の平均 MC 9 ブロックでの非ゼロの局部コントラストの最大絶対値 CC 10 ブロックでの非ゼロのコントラストの絶対値の SC 標準偏差 11 背景に対して暗い画素のコントラスト CB 12 支配的な局部オリエンテーション DO 13 ブロック内でのグレイレベルの数 NG 14 最大グレイレベルを持つブロックでの画素数 P 15 ブロックの平均グレイレベルより大きいグレイレベル NL を有するブロック内の画素数 16 ブロックの平均グレイレベルより小さいグレイレベル NS を有するブロック内の画素数 17 方向勾配 x,y,45° 及び135° 18 領域特徴変換 FFT, ハー(Haar) DCT、 アダマール 20 x,y方向射影 表1中の特徴は、グレイレベルの画像に基づいて得られ
たものである。カラー画像では、式(1)に定義されて
いるように画像の輝度が使われる。
【0055】 I(x,y)=0.299R(x,y) + 0.587G(x,y) + 0.114B(x,y) (1) 空間領域の特徴の分析では、多くの異なる特徴を決定す
ることが必要となる。例えば、表1で示される勾配(特
徴17)は、以下のように計算される。
【0056】
【数2】
【0057】ここで、ソーベルオペレータ(Sobel opera
tor)は、以下のように定義される。
【0058】
【数3】
【0059】局部コントラストは、近傍の画素と比較さ
れた画素のコントラストとして、以下に示すように定義
される。
【0060】
【数4】
【0061】ここで、δは、注目画素に対する近傍の距
離である。
【0062】コントラストC(x,y)は、画素輝度と
その画素から距離δ以内の4つの近傍画素の平均輝度と
の差を測定するものである。もし、δ=2ならば、I
(x,y)のラプラシアンとなる。
【0063】表2に、表1の多数の特徴に対する検出確
率の属性を示す。 《表 2》 記号 説 明 属性/ 属性/ コメント テキスト 自然  ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ MI ブロック内の平均グレイレベル N/A N/A 領域とブロック を併合する SI ブロック内のグレイレベル分散 ハイ ロー コンスタントブロ ックの検出 G 勾配の絶対値 ハイ ロー 必要なしきい値 処理 MG ブロックの非ゼロ勾配の平均値 ハイ ロー しきい値処理なし SG ブロックの非ゼロ勾配の標準 ハイ ロー しきい値処理なし 偏差 C 局部コントラストの絶対値 ハイ ロー 必要なしきい値 処理 MC ブロックの非ゼロコントラスト ハイ ロー 狭いテキストライ の平均値 ンに対して真 SC ブロックの非ゼロコントラスト ハイ ロー しきい値処理なし の標準偏差 CB 背景に対する暗い画素のコント ハイ ロー 周囲より暗いテキ ラスト トに対して DO 支配的な局部オリエンテー ハイ ロー 方向づけられたタ ション イル NG ブロック内のグレイレベル数 ロー ハイ P 最大グレイレベルを持つ ハイ ロー ブロック内の画素数 表2を参照すると、特徴の幾つかは、高いテキスト属性
値(または、結果)と、対応する低い自然画像属性値を
持つことがわかる。興味深いことには、表2の唯一つの
特徴だけが、高い自然画像属性値と低いテキスト属性値
を持つ。
【0064】画像分割に対してブロックを基盤とした
(タイルによる)問題解決方法が使われ、そこでは、ト
レーニング用画像及びテスト用画像等の各画像が、ま
ず、等しいサイズのブロック等のセグメントや領域に分
割され、各ブロックは入力データとして扱われる。ブロ
ック当たり4x4乃至32x32画素の範囲の正方形ブ
ロックを使うことができる。好ましくは、いずれか1つ
のブロックにおいて十分な複雑さを達成し、また、いず
れか1つの画像内のブロック数をも管理可能な割合内に
維持するために、9x9のブロックを使うことができ
る。しかしながら、本発明の範囲とその主旨を逸脱する
ことなく、他の形のブロックを用いることができる。
【0065】画像をブロックに分割することによって、
表2の特徴セットが各ブロックのデータから抽出され
る。
【0066】図3は、本好適な実施の形態に係るルール
ベースの領域分割を実行するために構成されたプロセッ
サの構造を示す。画像302が入力され、多数の画像ブ
ロック301に分割される。各画像ブロック301は、
各ブロックに対する特徴ベクトルを計算するために、多
数の特徴f1〜fn303に関して測定される。好まし
く、6つの特徴要素が使われるが(表3を参照して、以
下に説明する)、本発明の範囲と主旨から逸脱すること
なく、その他の数の特徴を使うこともできる。特徴ベク
トルは、特徴ベクトルレジスタ304に保持される。レ
ジスタ304の出力がルール分類レジスタ305に供給
され、レジスタ305は、対象メンバーシップの度合い
の関数として画像に適用される特定のルールを出力す
る。好ましくは、ファジールール分類に続いて後処理工
程が始まり、画像ブロックを画像領域に併合する。
【0067】ファジールール分類のために、一様に分布
した三角形のメンバーシップ関数が選択される。図4A
と図4Bは、異なるファジー領域を有する1次元のメン
バーシップ関数を示している。図4Aは、0と1を含め
た0と1の間の範囲にある特徴値に対するラベルS,
M,L(小、中、大)のための3つのメンバーシップ関
数を有する、3つのファジー領域を示す。これとは対照
的に、図4Bは、ラベルS,Lが付された2つのファジ
ー領域を示す。
【0068】図8にファジールールの生成について、そ
の詳細が示されている。ステップ802では、各入力特
徴ベクトルは、0から1の範囲の値を持つように正規化
される。ステップ804では、各入力特徴空間は、異な
る重畳部分を持つ、いくつかの等間隔領域に分割され
る。ステップ806では、トレーニングデータから学習
することによって、ファジールールが生成される。
【0069】各入力特徴は、最大のメンバーシップ値が
得られる領域のラベルに割り当てられる。ステップ80
8では、多数の学習サンプルによってサポートされるル
ールだけを許容することにより、ファジールールが最小
化される。ステップ810では、デファジー処理の段階
においてセントロイドデファジー処理(centroid defuzz
ification) が適用される。p番目の入力パターンに対
するセントロイドデファジー処理の出力Opは、
【0070】
【数5】
【0071】で与えられる。ここで、Kはルールの数、
Oiは、ルールiで生成されるクラスであり、Dip
は、p番目のパターンがi番目のルールのIF条件にど
のように適合するかを測定するものである。
【0072】測定Dipは、i番目のルールで使われる
ラベルに対する、特徴ベクトルのメンバーシップ値の積
によって与えられる。すなわち、
【0073】
【数6】
【0074】ここで、nは特徴の数であり、mijは、
i番目のルールが用いるラベルに対する特徴jのメンバ
ーシップ値である。
【0075】“0”をテキスト画像ブロックに、そし
て、“1”を自然画像ブロックに割り当てることによっ
て、出力がOp<0.5であるならば、入力パターン
(画像ブロック)は、テキスト画像ブロックとして分類
される。そうでなければ、そのブロックは自然画像ブロ
ックとして分類される。
【0076】例えば、p番目の入力パターンは、特徴ベ
クトル(0.0,0.1,0.25,0.3,0.2,0.8
5)を有する。ルール1(表4)で使われるラベルに対
するメンバーシップ値は、m11=1.0,m21=0.73
3,m31=0.333,m41=0.2,m51=0.4667,m6
1=0.6である。ルール16で使われるラベルに対する
メンバーシップ値は、m1,16=1.0,m2,16=0.73
3,m3,16=0.333,m4,16=0.2,m5,16=0.466
7,m6,16=0.067である。適合するパターンは、次
式で与えられる。
【0077】
【数7】
【0078】と、
【0079】
【数8】
【0080】ルール1とルール16のみに基づいた場
合、p番目の入力パターンは、
【0081】
【数9】
【0082】となる。Op ≦0.5であるので、p番
目の入力がテキストに割り当てられる。このことは、特
徴ベクトル(0.0,0.1,0.25,0.3,0.2,
0.85)を有する入力パターン(画像ブロック)は、
表4のルール1とルール16に基づいて、テキスト画像
ブロックとして分類される。
【0083】本好適な実施の形態のファジールールベー
スのシステムで使われる特徴は、表3に示されている。 《表 3》 見出し 説 明 値の範囲 領域数とそのラベル  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ F1 非ゼロ画素勾配の平均値(MG) [0,1](大、中、小) F2 非ゼロ画素勾配の標準偏差(SG) [0,1](大、中、小) F3 非ゼロ局部コントラストの平均値 [0,1](大、中、小) (MC) F4 非ゼロ局部コントラストの標準偏差 [0,1](大、中、小) (SC) F5 ブロック内で際立つグレイレベルの数[0,1](大、中、小) (NG) または、(大、小) F6 ブロックグレイレベルヒストグラム [0,1](大、中、小) のピーク値(P) または、(大、小) このような特徴セットの性能を測定するために、567
個のテキストブロックと1296個の自然画像ブロック
を有する1863個のサンプルを、8つのトレーニング
画像から抽出した。トレーニング画像は、64x64,
64x64,64x64,128x128画素の4つの
テキスト画像と、各々が128x128画素の“自然”
画像からなる。
【0084】使用されたトレーニング画像902,90
4の2つは、図9A,図9Bに示されており、それぞれ
がテキスト画像902、自然画像904を示している。
これら2つの画像に対して、テスト用として3564個
のテキストブロックと7184個の自然画像ブロックか
らなる10748個のサンプルを採取した。図4Aに示
す3つのファジー領域を選択することによって、各特徴
領域では、56個のルールがトレーニングサンプルから
生成された。それらの内、10個より少ないトレーニン
グサンプルにてサポートされるルールを取り除くことに
よって、もとの56個のルールの内、25個のルールが
得られ、それらは、表4に掲げてある。 《表 4》 ルール IF THEN サポート F1と F2と F3と F4と F5と F6と サンプル数  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ 1 S S S S S L テキスト 160 2 L L M M S L テキスト 30 3 M M M M S L テキスト 33 4 M M S S S L テキスト 11 5 L M M M S L テキスト 59 6 L L L L S M テキスト 15 7 L M M L S L テキスト 46 8 L M M L S M テキスト 13 9 L L M L S M テキスト 10 10 L L M L S L テキスト 14 11 L M M S S L テキスト 15 12 L M S S S L テキスト 17 13 M M M S S L テキスト 22 14 L M L L S M テキスト 15 15 S S S S M S 自然 916 16 S S S S S M 自然 99 17 S S S S L S 自然 105 18 S S S S S S 自然 16 19 S M M S L S 自然 23 20 S M M S M S 自然 23 21 S M S S M S 自然 20 22 S M S S L S 自然 26 23 S S S S M M 自然 30 24 S M S S S M テキスト 13 25 M M M M S M テキスト 18 表4は、25個のルールを与え、各々は、表3の6つの
特徴の論理ANDを取った組み合わせを有しており、こ
れにより、画像の、ある部分がテキストか、あるいは自
然かを識別することができる。例えば、ルール1は: (F1=S) AND (F2=S) AND (F3=S) AND (F4=S) AND (F5=S)
AND (F6=L)である。もし、この条件が満足されると、
分割されたブロックはテキストとして識別される。
【0085】図7を参照してランモードを詳細に説明す
る。処理はステップ702から始まる。ステップ704
では、画像は所定サイズの多数のブロックに分割され
る。ステップ706では、最初のブロックが処理のため
に選択される。
【0086】判定ブロック708では、全ブロックが処
理されたかどうかをチェックする。この判定ブロック7
08が偽(NO)を返すと、処理はステップ710に進
む。ステップ710では、特徴セットが注目ブロックか
ら抽出される。ステップ712では、抽出された特徴を
用いて、ブロックに対する特徴ベクトルが生成される。
ステップ714では、特徴ベクトルについてのルール分
類が実行され、そのブロックに対してテキスト画像か、
または自然画像かのクラスが決定される。そして、ステ
ップ716では、次のブロックが選択され、処理は判定
ブロック708に進む。
【0087】判定ブロック708が真(YES)を返す
と、処理はステップ718に進む。ステップ718で
は、画像ブロックを画像特徴に併合することで、後処理
が選択的に画像ブロックについて実行され、テキストブ
ロックと自然画像ブロックの誤分類が画像の近傍ブロッ
クに基づいて訂正される。このことは、以下に詳細に説
明する。
【0088】表5は、表4に掲げられたルールを用いた
トレーニングとテストに対する性能の測定結果を示す。
特に、成功率は、例えば、テキストをテキストとして検
出する成功率に関連づけられる。失敗率は、全画像の
内、未知の部分の合計数に関連づけられる。 《表 5》 画像タイプ トレーニングに対する成功率 テストに対する成功率 失敗率  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ テキスト 99.826% 99.523% 6.37% 自然 98.843% 97.37% 0.097% 表3に掲げられた最初の4つの特徴に対する3つのファ
ジー領域(図4Aに示されている)と、最後の2つの特
徴(F5とF6)に対する2つのファジー領域(図4B
に示されている)を選択することによって、選択的に、
合計43個のルール(第2のルールセット)が、トレー
ニングサンプルから生成される。表5で使われたものと
同じ画像に対して、第2のルールセットを用いた性能測
定結果が表6に示されている。 《表 6》 画像タイプ トレーニングに対する成功率 テストに対する成功率 失敗率  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ テキスト 98.942% 99.476% 6.34% 自然 95.293% 91.80% 0.445% 好適な実施の形態についての性能を、図10A,図10
Bと図11A,図11Bとを比較して示す。図10Aと
図10Bはそれぞれ、検出の目的でテストされるテキス
ト画像1002と自然画像1004を示す。
【0089】図11Aと図11Bはそれぞれ、テスト画
像1002,1004に対する分割結果1102,11
04を示す。ここでは、その結果1102,1104
は、グレイの3つの陰影で示されている。図11Aと図
11Bでは、明るい陰影1110が、検出された自然の
シーンに相当し、最も暗い陰影1112が、検出された
テキスト画像ブロックに相当する。そして、中間グレイ
の陰影1114が、自然またはテキストとしては、不定
あるいは未知のブロックに相当する。
【0090】好適な実施の形態の性能についての質的な
指標は、自然画像に際立つ黒エッジ1010を含む図1
0Bの左下端と、好適な実施の形態の構成がエッジ11
20をほとんどテキストであるとして検出した図11B
とを比較することによって示される。図10Bに見られ
る際だった変化は、テキストを明示するものとして解釈
される。それと対照して、モデルの頭髪の生え際におけ
るような、図10B内での他の変化は、自然画像として
検出される。視覚的な検査と、図10Aと図11Aの比
較とにより、対応する結果を質的に決定することができ
る。
【0091】上記より、テスト画像を用いたオフライン
方法で検出ルールを決定することによって、テキスト/
自然画像検出に対するファジールールベースの方法が決
定でき、簡単に実行できることが明らかであろう。 <ウエーブレット変換を用いたルールベースの領域分割
>本発明の他の実施の形態では、好ましくは、領域分割
に関する特徴抽出/分析のための混合画像(即ち、画像
がテキスト画像領域と自然画像領域からなる)の分析
に、ウエーブレット変換が使われる。ディスクリートウ
エーブレット変換(DWT)は、フーリエ級数係数に似
た態様で使うことができる係数マトリクスの形で、多解
像度分析を表わすものである。このDWT表現を用い
て、元画像についての特徴抽出を実行する。上述のよう
に、アダマール変換やフーリエ変換を含む他の線形変換
を、周波数領域特徴を得るために選択的に実行してもよ
い。
【0092】他の実施の形態では、ブロックベースのウ
エーブレット変換が、ファジールールベースシステムに
先行する特徴抽出器としての標準及び非標準の2D分解
を用いて実行される。標準の2D分解には、列ごと、そ
の次に行ごとに分解を実行することが含まれ、その逆も
実行される。非標準の2D分解は、行ごとと列ごとの両
方、即ち、2D方法での分解の実行を含む。
【0093】本発明に係る他の実施の形態では、4つの
タップD4と8つのタップD8を有する、ハー(Haar)ウ
エーブレットフィルタとドーベチス(Daubechies)ウエー
ブレットフィルタを選択的に用いる。しかしながら、考
えられる他のウエーブレットベースを選択的に使用して
もよい。
【0094】以下の説明では、ピラミッドウエーブレッ
ト変換での多解像度レベルについての指標は、図12と
図13に示される最も高い解像度より始まるものとす
る。括弧内の表記は、多解像度レベル(0〜3)、それ
ぞれ水平、垂直、または、対角方向を有する高(H)周
波数サブバンド、そして、各レベルでの低(L)周波数
サブバンドを示す。
【0095】図12には、8x8画素ブロックの3レベ
ル分解が示されている。ウエーブレット変換されたブロ
ック1202は、スケールまたはレベルにおいて0の
L,Hh,Hv,Hdサブバンドである、4つのサブバ
ンド1210,1212,1214,1216からな
る。好ましくは、ウエーブレット変換ブロック1202
を作るために変換された画像ブロックは、両方向矢印で
示された8x8画素ブロックである。
【0096】スケールゼロでのLサブバンド1210
は、再度、低解像度にウエーブレット変換され、スケー
ル1でのL,Hh,Hv,Hdサブバンド1220,1
222,1224,1226を与える。サブバンド12
20をさらにウエーブレット変換すると、スケール2で
のL,Hh,Hv,Hdサブバンド1230,123
2,1234,1236を生み出す。当業者には理解で
きることであるが、図12におけるスケール2のサブバ
ンドの場合のように、ウエーブレット変換は、結果とし
て得られるサブバンドが1x1画素である最低の解像度
にスケールが達するまで、サブバンドに対して繰り返し
適用できる。
【0097】図13において、8x8画素の入力画像ブ
ロック1200が、ピラミッド形ウエーブレット変換構
造の最上部に示されている。第1のウエーブレット変換
で作られたサブバンドの各々は、画像1200から、そ
れぞれがサブバンド指示記号LL,LH,HL,HHで
ラベル付けされた、対応するサブバンド1210,12
12,1214,1216まで延びる矢印で示されてい
る。同様に、低解像度スケール1を作るために、ウエー
ブレット変換をLサブバンド1210に適用すること
が、レベル0でのLサブバンド1210から、各々がL
LLL,LLLH,LLHL,LLHHとラベル付けさ
れたサブバンド1220,1222,1224,122
6まで延びる矢印によって示されている。
【0098】Iの深さを有する2次元ウエーブレット変
換によって、N=1+3Iのサブバンドが生み出され
る。従って、図12には、計10個のサブバンドがあ
る。他の実施の形態では、特徴抽出に対して高解像度サ
ブバンドを用いる。
【0099】特に、他の実施の形態では、ピラミッド形
ウエーブレット変換特徴とエネルギーベースのウエーブ
レット特徴を、基本選択のためのクラス分離度ベースの
アルゴリズムとして用いる。ウエーブレット領域の特徴
セットは、最も低い解像度(即ち、図12のLサブバン
ド)でのサブバンドを除く変換ピラミッドのサブバンド
またはレベルのような、注目領域Rでの変換係数から得
られた局部エネルギー測定を含む。
【0100】好ましくは、注目領域Rでのl1ノルム、
l2ノルム、そして係数分散を含む3つのエネルギー測
定が使われる。
【0101】Rでの係数のl1ノルムは、次式で与えら
れる。
【0102】
【数10】
【0103】ここで、xiは、n個の係数を有する領域
Rのi番目に変換された係数である。Rでの係数のl2
ノルムは、次式で与えられる。
【0104】
【数11】
【0105】Rでの絶対係数の分散は、次式で与えられ
る。
【0106】
【数12】
【0107】式(12)で、xのバーは、Rでの係数の
平均絶対値である。2つの正規化方法が、 (1)平均エネルギー ;Rでの係数の全数nで除算さ
れたRでのエネルギー (2)相対エネルギー ;全係数での総エネルギーで除
算されたRでのエネルギーを得るために使われる。上述
のエネルギー特徴の表記法は、表7に示されている。 《表 7》 エネルギー 注目領域 レベル サブバンド  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ l1ノルム el1 es1 l2ノルム el2 es2 分散 elv esv 8x8ブロックベースのフルスケールウエーブレット変
換の場合、レベルエネルギーセットに3つの特徴が、サ
ブバンドベースのエネルギーセットに9つの特徴があ
る。
【0108】ここで、クラス分離度測定と特徴選択につ
いて説明する。優れた分類性能を達成するために、特徴
空間で良好にデータクラスタが分離されるよう、異なる
クラス間で顕著な違いを示すのに最も効果的な特徴が選
択されなければならない。特徴空間において互いに重な
り合う特徴ベクトルのクラスがほとんどないならば、特
徴ベクトルはよく分離できる。その結果、分類段階で、
よりよい性能を達成できる。
【0109】クラス内距離測定とクラス間距離測定に基
づくクラス分離度の基準が特徴評価のために使われる。
クラス内距離測定は、
【0110】
【数13】
【0111】として定義される。ここで、|C|は、ク
ラスC内の特徴ベクトル数であり、dは、(ユークリッ
ド)距離測定であり、xハットはクラスの代表:
【0112】
【数14】
【0113】である。
【0114】選択的に、クラスの平均ベクトルは、クラ
ス代表として使われる。クラス間距離Dbは、
【0115】
【数15】
【0116】として定義される。ここでKは、データセ
ット内の異なるクラスの数である。
【0117】クラス内距離Dwは、代表クラスメンバー
xハットまでの、クラスCの特徴ベクトルの平均距離を
計算することによって、クラスの簡潔さの評価を与え
る。クラス間距離Dbは、他のクラス個々の最も近い代
表xハットCjに対するクラス代表xハットCjの距離
dを合計する。
【0118】分類について良好な分離度を有するため
に、大きなクラス間測定結果Dwと小さなクラス間測定
結果Dbが同時に必要とされる。他の実施の形態では、
クラス分離度の測定を、
【0119】
【数16】
【0120】と定義することで、両方の測定が組み合わ
される。ここで、Cバー={C1,C2,...,C
k}は、代表値xハットCjを有する1組のクラスであ
る。
【0121】1周りのJ値は、全て考慮に入れたクラス
に渡る平均オーバラップが非常に低いことを示してお
り、他方、ゼロに近い値は、テストデータサンプルの分
類が選択された特徴セットでは難しいことを示してい
る。
【0122】クラス分離度の基準としてJを用いて、異
なるフィルタと変換方法を用いたウエーブレット領域で
得られたエネルギー特徴は、表8〜表11に示された結
果を生み出す。トレーニングデータセットに対して、ブ
ロックベースのウエーブレット変換(特に示さない限
り、8x8ブロックが使われる)を実行することによっ
て、全特徴セットを抽出した。
【0123】表8には、上記で定義された異なるエネル
ギー特徴セットから推定されたクラス分離度測定結果を
掲げてある。8x8のハー変換を、トレーニングセット
内の各画像に対して実行した。全て特徴は、変換ピラミ
ッドの各レベルにて獲得される。
【0124】表9のクラス分離度測定結果は、平均分散
エネルギー特徴セットevが、上記で定義されたウエー
ブレット領域の特徴セット間で、最適な分類性能を与え
ることを示している。以下の説明では、evを選択し、
ウエーブレット領域特徴セットと呼ぶ。 《表 8》 特徴セット クラス分離度  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 平均ev 0.911706 平均e1 0.880033 相対e1 0.627975 平均e2 0.851606 相対e2 0.715594 表9は、異なる型のフィルタを第2のトレーニングセッ
トに適用することによって得られた、クラス分離度測定
結果を示す。それによれば、異なるフィルタが似たよう
な結果を与えることがある一方、サブバンドベースのフ
ィルタが、レベルベースの特徴よりもわずかに良好な性
能を与えることがある。 《表 9》 フィルタの型 フィルタ長 特 徴 数 クラス分離度  ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ドーベチス 4 2(レベルエネルギー) 0.780071 6(サブバンドエネルギー) 0.869765 ドーベチス 8 1(レベルエネルギー) 0.8053262 3(サブバンドエネルギー) 0.8223574 ハー 2 3(レベルエネルギー) 0.776416 9(サブバンドエネルギー) 0.863850 表10,表11には、2D変換方法について考えられる
いくつかの組み合わせの結果と、ブロックサイズの効果
が示されている。 《表 10》 2D方法 3レベル特徴 9サブバンド特徴  ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 標準 0.766948 0.796441 非標準 0.776416 0.863850 表10は、非標準2D方法が良好な結果を生み出し、計
算の複雑さについては要求が低いことを示している。従
って、非標準2D方法の方が好ましい。
【0125】表11は、ブロックサイズが大きくなるに
つれてクラス分離度が増大することを示している。 《表 11》 ブロックサイズ 8x8 16x16 32x32  ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ クラス分離度 0.776416 0.843544 0.886901 他の実施の形態がサンプル画像を用いて考案されたが、
そのサンプル画像は、2つの画像クラス、即ち、テキス
ト画像と自然画像からなる。第1の画素セットは16個
の8ビット画像からなり、第2の画像セットは、16個
の24ビット画像からなる。各セットの画像の半分はト
レーニングセットとして使われ、残りの半分はランフェ
ーズに使われた。64x64,128x128,256
x256画素の画像サイズは、テキストに使われ、32
x32,128x128,254x392,420x5
94画素の画像サイズが、自然画像に使われた。
【0126】全てのトレーニングデータサンプルが、上
述したトレーニング画像より生成された。分類器をトレ
ーニングするための大量のデータを獲得するために、オ
ーバラップによるサンプリング方法を採用し、NxNサ
イズ(即ち、ここでは、特定しない限り8x8が使われ
る)のサブブロックを、5画素から9画素の範囲のオー
バラップ量を有する各トレーニング画像から抽出した。
約10000個のトレーニングサンプルが、各画像クラ
スに対して生成された。
【0127】以下、ルールベースの分割のためのファジ
ールールの生成について説明する。上記図5A,図5
B,図6,図7,図8の記載に鑑みた場合、以下の説明
は実施の形態における相違を示すものとなる。ルールベ
ースシステムが行なうのは、トレーニングサンプルセッ
トから学習したルールを用いて、画像をテキスト画像領
域と自然画像領域という異なる領域に分割することであ
る。分割は、ブロック統合の前に、各画像ブロックの局
部処理によって実行される。表示スクリーンのように大
きな画像データを処理する場合のハードウエアの制約が
あるため、ブロックベースの問題解決方法が好ましい。
【0128】上述のウエーブレット領域特徴セットは、
ルールベースシステムに統合される。図5Aと図5Bを
参照して、他の実施の形態に係る領域分割ユニットの主
要な工程を説明する。トレーニング段階では、トレーニ
ング画像ブロックが、2Dウエーブレット変換を用いて
分解され、エネルギー特徴が、各トレーニングサンプル
に対する変換係数から計算される(ステップ504)。
ステップ506では、入力領域の顕著な特徴がトレーニ
ングサンプルから学習され、ファジールールセットとし
て表現される。
【0129】その後、テスト(またはランフェーズ)画
像ブロックは、図5Bのステップ534、ステップ53
6に従って、生成されたルール508を用いて分類され
る。図4Aに示されているように、一様に分布した三角
形メンバーシップ関数が選択される。各ピラミッドレベ
ルでウエーブレット領域特徴を抽出するために、ハー変
換を使した。
【0130】表12に示すように、ウエーブレット領域
特徴セットを用いた分割は、自然画像に対する空間領域
特徴よりも高い分類正解率を有する。 《表 12》 特徴領域 特徴数 自然画像ブロック テキストブロック に対する正解率 に対する正解率  ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ウエーブレット 3 99.3412% 64.75% (ハー) 空間 6 98.935% 98.698% 空間領域特徴を用いると、98%を超える正しい分類が
できた。ウエーブレット領域特徴を用いると、自然画像
ブロックの分類に対しては性能が改善されたが、テキス
トブロックに対しては、正確な結果が得られなかった。
ウエーブレット領域特徴は、テキストブロックを画像ブ
ロックとして誤分類する傾向がある。
【0131】3つの異なるウエーブレットフィルタから
得られたウエーブレット特徴を用いた分類が、第2のラ
ンフェーズのデータセットに基づいて実行された。表1
3は、異なるウエーブレットフィルタが同じような性能
を持っている一方、サブバンドベースのエネルギー特徴
では、わずかに良好な結果をもたらしたことを示してい
る。 《表 13》 特徴領域 特徴数 自然画像ブロック テキストブロック に対する正解率 に対する正解率  ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ドーベチス D4 2 99.957% 52.734% 6 99.826% 62.196% ドーベチス D8 1 99.978% 51.812% 3 99.978% 59.983% ハー 3 99.946% 57.096% 9 99.523% 64.551% 空間 6 94.466% 91.775% 表14に、分類性能におけるブロックサイズの効果が示
されている。ブロックベースのウエーブレット変換に対
してブロックサイズを大きくすることは、テキストに対
する正しい認識率を急速に向上させる一方、自然画像に
対する性能は変わらないという結果を有する。 《表 14》 ブロックサイズ 特徴数 自然画像ブロック テキストブロック に対する正解率 に対する正解率  ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 8x8 3 99.946% 57.096% 16x16 4 99.957% 75.09% 32x32 5 99.785% 80.332% 表15に、他の実施の形態でのファジールールベースの
システムで使われる特徴を示す。 《表 15》 指 標 説 明 値の範囲 領域数とそのラベル  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ F1 レベル0の平均ev [0,1] (大、中、小) F2 レベル1の平均ev [0,1] (大、中、小) F3 レベル2の平均ev [0,1] (大、中、小) 好ましくは、特徴セットF1,F2,F3は、それぞれ
レベル0,1,2の平均evを有する。選択的には、特
徴セットは、3レベル分解において各サブバンドの分散
evである、9つの特徴を有する。
【0132】他の実施の形態のルールは、表15に示さ
れた特徴に基づいており、1472個のトレーニングサ
ンプルを用いて決定された。3個以下のトレーニングサ
ンプルによってサポートされるルールを排除することに
よって、表16に示す11個のルールが得られた。 《表 16》 ルール IF THEN サポートサンプル数 F1と F2と F3と  ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 1 M S S テキスト 51 2 S S S 自然 1018 3 M M S テキスト 124 4 L S S テキスト 5 5 M M M テキスト 8 6 L L S テキスト 4 7 M S M テキスト 4 8 L M S テキスト 8 9 M L S テキスト 5 10 S M S テキスト 18 11 S S M 自然 3 テキスト領域を特徴づける空間的な変化を捕らえるため
に、ブロックサイズを大きくすることができる。テキス
ト分類にウエーブレット領域特徴を用いたことに関連し
て認識率が不十分になることは、ウエーブレット変換に
対して大きなブロックサイズを使用することで改善でき
る。
【0133】分類された画像からは、テキスト領域のほ
とんどが正確に分類される。大きなフォントサイズのテ
キストと、テキストとパラグラフ間のギャップを含む領
域は、誤分類される傾向にある。これは、テキスト領域
に対して認識率が低いことが、時折、誤分類された領域
をまばらに作る、ブロックベースの分割の局部性に一部
起因するものである、ということを指し示している。例
えば、スクリーンのテキスト領域での2つのパラグラフ
間のギャップの特性が、局部的に自然画像に似ており、
それゆえ、イメージブロックとして分類されることがあ
る。 <後処理>上記のまばらな誤分類領域は、ブロック統合
処理を用いて減らすことが可能である。この処理では、
“小さな”非直線状の領域(non-colinear area)が誤分
類されたとして、再ラベル付けできる。図5Bと図7に
おいてステップ540、ステップ718で示されている
ように、画像中において、誤分類されたブロック数を減
らすために、後処理を実行することが可能である。この
ブロックには、画像中で重なり合うディスプレイウイン
ドウに起因する不規則な形状領域を持つものを含む。
【0134】図14は、上述のステップ540またはス
テップ718で実行される後処理またはブロック統合処
理を説明するフロー図である。説明の目的のため、後処
理の方法を、図15〜図19を参照して述べる。特に、
図15は、テキスト1506,1508,1510と、
自然画像1502,1504とが重なり合う領域を含む
混合画像1500を示す。
【0135】図16に、図14の2値画像1400のそ
れに対応する、混合画像1500を領域分割して得た2
値画像1600を示す。その2値画像は、各画素が1か
0の2値を有するところへ入力される。値1は、自然画
像ブロック(明るいグレイの画素として描かれている
(例えば、画素1604,1610))を表現する白画
素を示し、値0は、非自然画像ブロックかまたはテキス
ト画像ブロック(暗いグレイの画素として描かれている
(例えば、1602,1612))を表現する黒画素を
示す。
【0136】画像中のごま塩ノイズを減らすために、選
択的にkFillフィルタが、まず、2値画像に適用され
る。好ましくは、小さな孤立穴を2つ以下のブロックで
埋めるために、k=2の値が使われる。図17は、 図
15の混合画像1500に対して2値画像1600をkF
illフィルタ処理した結果1700示す。図16の16
02,1610,1612のような誤分類されたブロッ
クが取り除かれたことがわかる。
【0137】ステップ1402では、文字、テキスト
行、パラグラフを接続領域へ加えることによって、テキ
スト(非自然)領域が平滑化される。ランレングス平滑
化ステップ1402は、2値画像1700上で処理を行
ない、その下では、所定のしきい値Tに等しいか、ある
いはそれ以下離れた、どの2つの黒画素(0が非自然ブ
ロックに対応する)も、黒画素の連続した流れと併合さ
れる。従って、例えば、入力シーケンスが、 0001100001011111100010000011111111110000 であり、しきい値Tが3であれば、上述のシーケンスの
ランレングス平滑化処理の結果は、 0000000000011111100000000011111111110000 となる。
【0138】ランレングス平滑化ステップ1402は、
列ごとと行ごとに適用されて、2つの別個のビットマッ
プが作られる。そして、各画素位置に論理ANDを適用
することによって、これら2つの結果が合成される。2
方向へのしきい値は、同じである必要はない。
【0139】多くの自然ブロックを、高解像度の小フォ
ントテキストを含むテスト領域を除くテキスト領域内に
ばらまいてもよい。平滑化処理1402では、非常に接
近したテキストブロックを加えることによって、これら
ばらまかれた自然ブロックを取り除くので、文字、テキ
ストライン、テキストパラグラフが、1つの型の画像ク
ラス、即ちテキストのみを含む、より大きな領域に併合
される。図18に、ランレングス平滑化処理結果180
0が示されている。
【0140】平滑化処理1402はまた、接続したコン
ポーネントの全数を徹底的に削減することによって、次
の、接続されたコンポーネントの生成処理ステップ14
04を簡単にする。
【0141】ステップ1406では、白画素が前景画素
(foreground pixel)であるとして、接続されたコンポー
ネントの生成処理が適用され、自然画像領域に対応す
る、前景が接続されたコンポーネントを識別する(ラベ
ル付けする)。各コンポーネントの周囲の長方形の座標
は測定され、保持される。このようにして、各長方形
は、相接する自然画像領域に対応する単一の接続された
コンポーネントを識別する。そして、フィルタセットが
適用され、直感的な制約に基づいて、誤分類された自然
画像ブロックを取り除く。
【0142】接続されたコンポーネントの生成ステップ
1406の出力は、接続されたコンポーネント周囲の長
方形の最大及び最小座標、各接続されたコンポーネント
のトップ及びボトムシード(top and bottom seed)の座
標、及び各コンポーネントの前景画素数を特定する情報
列である。
【0143】この情報に基づいてステップ1408で
は、各コンポーネントに対して属性セットが測定され
る。即ち:ブロック周囲の長方形のx,yサイズΔx,
Δy; 周囲の長方形領域: A=Δx,Δy; 各ブロック内の前景画素数NF; 前景画素密度:D=NF/A、これは、Dが1に近けれ
ば、ブロックはだいたい長方形であることを反映してい
る; 各ブロック周囲の長方形の寸法的な定量(離心率):E
=Δx/Δy である。
【0144】接続されたコンポーネントを前景領域のメ
ンバーとして拒否するか、あるいは受け入れるために、
その属性に基づいて、差別化の適用が行なわれる。小領
域の削除、長く狭い領域の削除、まばらな自然画像領域
処理を含む、直感的な制約が使用される。
【0145】ステップ1410では、最小の受容可能な
自然画像上の制約が、実際の領域:A<MINIMUM
_AREA ではなさそうな、小さな自然画像領域を削減するか、ま
たは取り去るために適用される。
【0146】しきい値MINIMUM_AREAが、最
も一般的な自然画像領域の下に確実に設定されているこ
とにより、自然画像領域の有効なメンバーを破棄する可
能性がなくなる。
【0147】ステップ1412では、非常に薄いブロッ
クは自然画像領域にはなりそうにないので、そのような
ブロックは破棄される。次の制約が使われる。
【0148】 E>DIMENSIONAL_RATIO ここで、 DIMENSIONAL_RATIOは0.
1となるように設定されるので、1:10以下か、1
0:1以上の寸法率DIMENSIONAL_RATI
Oを有する、接続されたコンポーネントは破棄される。
【0149】ステップ1414では、接続されたコンポ
ーネントが次の制約を満足させると、まばらなブロック
として分類される。
【0150】S<MINIMUM_DENSITY ここでSは、ブロックのまばらさ(密度)である。この
まばらさは、領域中の全ブロック数に対する、領域内の
テキストブロックまたは自然ブロックいづれかの数の割
合を示す。まばらなブロックは、重なり合う自然画像と
テキスト画像を含む。自然画像領域となりそうもないと
し、テキストとして再分類する代わりに、重なり合う領
域を識別するための、さらなる処理が必要である。まば
らな領域の処理は、次の工程からなる。即ち: A.その領域中で、接続された非自然コンポーネントを
生成する; B.その領域内で、小さく不規則に接続された非自然コ
ンポーネントを取り除く; C.大きく、規則的に接続された非自然コンポーネント
の周囲長方形を決定し、その長方形領域を非自然に設定
する。
【0151】D.その領域中での残り領域を自然と設定
する。
【0152】図19に、図15の画像1500について
の後処理の最終結果1900を示す。ここには、明瞭に
定義されたテキスト領域(暗いグレイ)1906と、自
然画像領域(明るいグレイ)1902,1904とが示
されている。従って、図14で示されている後処理の手
続きを、ウエーブレット変換ベースの領域分割技術にお
いて、テキストブロックの誤分類の数を著しく減らすた
めに使うことができる。この後処理は、空間領域技術に
よるブロックの適切な分類を改善するために選択的に使
うようにしてもよい。
【0153】本発明の実施の形態は、空間領域特徴と周
波数空間特徴に関して説明されているが、この2つのタ
イプの特徴の組み合わせを用いても本発明を実施でき
る。
【0154】以上において、本発明について少数の実施
の形態のみ説明したが、本発明の範囲を逸脱せずに、そ
の発明について、当業者には明らかな変形を行なうこと
が可能である。なお、本発明は、複数の機器(例えば、
ホストコンピュータ,インタフェイス機器,リーダ,プ
リンタ等)から構成されるシステムに適用しても、一つ
の機器からなる装置(例えば、複写機,ファクシミリ装
置等)に適用してもよい。
【0155】本発明の目的は、上述の実施形態の機能を
実現するソフトウェアのプログラムコードを記録した記
憶媒体を、システムあるいは装置に供給し、そのシステ
ムあるいは装置のコンピュータ(またはCPUやMP
U)が記憶媒体に格納されたプログラムコードを読み出
し実行することによっても、達成されることは言うまで
もない。
【0156】この場合、記憶媒体から読み出されたプロ
グラムコード自体が、前述した実施形態の機能を実現す
ることになり、そのプログラムコードを記憶した記憶媒
体は本発明を構成することになる。
【0157】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROM等
を用いることができる。
【0158】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているOS(オペ
レーティングシステム)等が実際の処理の一部または全
部を行ない、その処理によって、前述した実施形態の機
能が実現される場合も含まれることは言うまでもない。
【0159】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張ボー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPU等が、実際の処理の一部または全部を行な
い、その処理によって、前述した実施形態の機能が実現
される場合も含まれることは言うまでもない。
【0160】
【発明の効果】以上説明したように、本発明によれば、
画像のテキストらしき部分と非テキストらしき部分とを
識別するためのファジー検出ルールセットを確立して、
複数セグメントに分割した画像に適用することで、画像
のテキスト部分と自然部分を適切に検出し、識別でき
る。
【0161】
【図面の簡単な説明】
【図1】本発明が実施される表示システム全体の構成を
示す図である。
【図2】好適な実施の形態に係る、領域分割ユニットを
含む図1の表示システム103の構成を示す図である。
【図3】好適な実施の形態で使われるファジールールベ
ースの領域分割のための構造を示すブロック図である。
【図4A】3つのファジー領域に対する1次元の三角形
メンバーシップ関数を示す図である。
【図4B】2つのファジー領域に対する1次元の三角形
メンバーシップ関数を示す図である。
【図5A】好適な実施の形態(他の実施の形態)に係る
ルールベースの領域分割のトレーニングフェーズを示す
高レベルのフロー図である。
【図5B】好適な実施の形態(他の実施の形態)に係る
ルールベースの領域分割のランフェーズを示す高レベル
のフロー図である。
【図6】好適な実施の形態に係る領域分割のトレーニン
グフェーズを詳細に示すフロー図である。
【図7】好適な実施の形態に係る領域分割方法のランフ
ェーズの詳細を描いたフロー図である。
【図8】ブロック分類のためのファジールールを生成す
る工程を説明する詳細フロー図である。
【図9A】テスト画像からなるトレーニングテスト画像
を示す図である。
【図9B】自然画像からなるトレーニングテスト画像を
示す図である。
【図10A】テスト画像からなるテスト(ランフェー
ズ)画像を示す図である。
【図10B】自然画像からなるテスト(ランフェーズ)
画像を示す図である。
【図11A】図10Aのテスト画像に対して好適な実施
の形態を用いた領域分割結果を示す図である。
【図11B】図10Bのテスト画像に対して好適な実施
の形態を用いた領域分割結果を示す図である。
【図12】ウエーブレット変換を用いて得られた画像の
画素ブロックの分解を示す図である。
【図13】図12の分解についての各レベルのサブバン
ドのピラミッド構造を示す図である。
【図14】他の実施の形態に係る後処理を示すフロー図
である。
【図15】重なり合うテキスト画像と自然画像領域から
なる混合画像を示す図である。
【図16】他の実施の形態に係る領域分割の結果であ
る、図15に示す画像に対応する2値マップを示す図で
ある。
【図17】他の実施の形態に係る後処理に従って、図1
5の画像をkfillフィルタ処理した結果を示す図であ
る。
【図18】図17に示された結果をランレングススムー
ジングした結果を示す図である。
【図19】図15の画像を後処理した最終結果を示す図
である。

Claims (51)

    【特許請求の範囲】
  1. 【請求項1】 画像中におけるテキストらしき部分と非
    テキストらしき部分を検出する方法であって、 (a)前記画像のテキストらしき部分と前記画像の非テ
    キストらしき部分とを識別するためのファジー検出ルー
    ルセットを確立する確立工程と、 (b)前記画像を複数セグメントに分割する工程と、 (c)前記ファジー検出ルールセットを前記画像の各セ
    グメントに適用して、該各セグメントをテキストらしき
    部分と非テキストらしき部分として分類する工程とを備
    えることを特徴とする方法。
  2. 【請求項2】 前記確立工程(a)は、さらに、(a
    a)画像の異なる部分を区別する複数の画像特徴を識別
    する工程と、(ab)前記特徴の異なる組み合わせをテ
    キストらしき学習用画像と非テキストらしき学習用画像
    とに適用することによって、複数のファジー検出ルール
    を生成する工程と、(ac) 前記複数のファジー検出
    ルールを最小化して、所定量の前記学習用画像によって
    サポートされないルールを除き、除かれなかったルール
    を前記セットに割り当てる工程とを備えることを特徴と
    する請求項1に記載の方法。
  3. 【請求項3】 前記生成工程(ab)は、(aba)各
    画像特徴を0から1の範囲の値に正規化する工程と、
    (abb)各入力特徴空間を複数の等間隔領域に仕切る
    工程と、(abc)各入力特徴を前記領域の1つのラベ
    ルに割り当てて、前記領域の1つのラベルのメンバーシ
    ップ値を最大化する工程と、(abd)前記領域の各々
    に対して、前記特徴の各々のための最大化されたラベル
    を選択して、それぞれのファジールールを形成する工程
    とを備えることを特徴とする請求項2に記載の方法。
  4. 【請求項4】 前記等間隔領域の近傍領域は重なり合う
    ことを特徴とする請求項3に記載の方法。
  5. 【請求項5】 前記ファジールールのそれぞれは、前記
    画像特徴の論理ANDが取られた組み合わせからなるこ
    とを特徴とする請求項3に記載の方法。
  6. 【請求項6】 前記工程(abd)は、p番目の入力パ
    ターンに対する出力値Op 【数17】 を決定する工程を備え、ここで、Kはルール数、Oiは
    ルールiで生成されたクラス、Dipはp番目パターンが
    i番目のルールのIF条件にどのように適合するかを測
    定するものであり、Dipは、 【数18】 のような、i番目のルールで使われるラベルに対する特
    徴ベクトルのメンバーシップ値の積によって与えられ、
    ここで、nは特徴数、mijはi番目のルールが用いるラ
    ベルに対する特徴jのメンバーシップ値であることを特
    徴とする請求項3に記載の方法。
  7. 【請求項7】 前記画像特徴は空間領域特徴からなるこ
    とを特徴とする請求項2に記載の方法。
  8. 【請求項8】 前記画像特徴は、 (i)領域の平均グレイレベル; (ii)領域の平均グレイレベルの分散(または標準偏
    差); (iii)勾配の絶対値; (iv)領域でのオンゼロ(on-zero)勾配の平均絶対
    値; (v)領域での非ゼロ(non-zero)勾配の最大絶対値; (vi)領域でのオンゼロ勾配の絶対値の標準偏差; (vii)局部コントラスト(local contrast)の絶対
    値; (viii)非ゼロ局部コントラストの絶対値の平均; (ix)領域での非ゼロ局部コントラストの最大絶対
    値; (x)領域での非ゼロ局部コントラストの絶対値の標準
    偏差; (xi)暗い画素のその背景に対するコントラスト; (xii)支配的な局部オリエンテーション; (xiii)領域内のグレイレベル数; (xiv)領域内で最大グレイレベルを有するブロック
    内の画素数; (xv)領域内で平均グレイレベルより大きいグレイレ
    ベルを有するブロック内の画素数; (xvi)領域内で平均グレイレベルより小さいグレイ
    レベルを有するブロック内の画素数; (xvii)変換領域特徴; (xix)x,y方向射影 からなるグループより選択されることを特徴とする請求
    項7に記載の方法。
  9. 【請求項9】 前記画像特徴は、各セグメントに含まれ
    る前記画像の一部の周波数特性情報に依存することを特
    徴とする請求項2に記載の方法。
  10. 【請求項10】 前記画像特徴は、前記各セグメントを
    分解することによって得られたエネルギー特徴からなる
    ことを特徴とする請求項9に記載の方法。
  11. 【請求項11】 前記各セグメントの分解は、前記各セ
    グメントに少なくとも1度、ウエーブレット(wavelet)
    変換を適用することによって実行されることを特徴とす
    る請求項10に記載の方法。
  12. 【請求項12】 前記領域は、テスト画像の前記セグメ
    ントに対応することを特徴とする請求項3に記載の方
    法。
  13. 【請求項13】 前記セグメントは前記画像に渡って規
    則的配列を構成し、セグメントの近傍は重なり合うこと
    を特徴とする請求項1に記載の方法。
  14. 【請求項14】 前記セグメントは、4x4画素から3
    2x32画素の範囲のサイズのブロックからなり、該ブ
    ロックは、好ましくは9x9画素であることを特徴とす
    る請求項1に記載の方法。
  15. 【請求項15】 画像中におけるテキストらしき部分と
    非テキストらしき部分を検出する装置であって、 画像のテキストらしき部分と画像の非テキストらしき部
    分とを識別するためのファジー検出ルールセットを確立
    する手段と、 前記画像を複数セグメントに分割する手段と、 前記ファジー検出ルールセットを前記画像の各セグメン
    トに適用して、前記各セグメントをテキストらしき部分
    と非テキストらしき部分の一つとして分類する手段とを
    備えることを特徴とする装置。
  16. 【請求項16】 前記確立手段は、さらに、 画像の異なる部分を区別する複数の画像特徴を識別する
    手段と、 前記特徴の異なる組み合わせをテキストらしき学習用画
    像と非テキストらしき学習用画像とに適用することによ
    って、複数のファジー検出ルールを生成する手段と、 前記ルールを最小化して、所定量の前記学習用画像によ
    ってサポートされないルールを除き、除かれなかったル
    ールを前記セットに割り当てる手段とを備えることを特
    徴とする請求項15に記載の装置。
  17. 【請求項17】 前記生成手段は、さらに、 各画像特徴を0から1の範囲の値に正規化する手段と、 各入力特徴空間を複数の等間隔領域に仕切る手段と、 各入力特徴を前記領域の1つのラベルに割り当てて、前
    記領域の1つのラベルのメンバーシップ値を最大化する
    手段と、 前記領域の各々に対して、前記特徴の各々のための最大
    化されたラベルを選択して、それぞれのファジールール
    を形成する手段とを備えることを特徴とする請求項16
    に記載の装置。
  18. 【請求項18】 前記等間隔領域の近傍領域は重なり合
    うことを特徴とする請求項17に記載の装置。
  19. 【請求項19】 前記ファジールールのそれぞれは、前
    記画像特徴の論理ANDが取られた組み合わせからなる
    ことを特徴とする請求項17に記載の装置。
  20. 【請求項20】 前記選択手段は、p番目の入力パター
    ンに対する出力値Op 【数19】 を決定する手段を備え、ここで、Kはルール数、Oiは
    ルールiで生成されたクラス、Dipはp番目パターンが
    i番目のルールのIF条件にどのように適合するかを測
    定するものであり、Dipは、 【数20】 のような、i番目のルールで使われるラベルに対する特
    徴ベクトルのメンバーシップ値の積によって与えられ、
    ここで、nは特徴数、mijはi番目のルールが用いるラ
    ベルに対する特徴jのメンバーシップ値であることを特
    徴とする請求項17に記載の装置。
  21. 【請求項21】 前記画像特徴は空間領域特徴からなる
    ことを特徴とする請求項16に記載の装置。
  22. 【請求項22】 前記画像特徴は、 (i)領域の平均グレイレベル; (ii)領域の平均グレイレベルの分散(または標準偏
    差); (iii)勾配の絶対値; (iv)領域でのオンゼロ(on-zero)勾配の平均絶対
    値; (v)領域での非ゼロ(non-zero)勾配の最大絶対値; (vi)領域でのオンゼロ勾配の絶対値の標準偏差; (vii)局部コントラスト(local contrast)の絶対
    値; (viii)非ゼロ局部コントラストの絶対値の平均; (ix)領域での非ゼロ局部コントラストの最大絶対
    値; (x)領域での非ゼロ局部コントラストの絶対値の標準
    偏差; (xi)暗い画素のその背景に対するコントラスト; (xii)支配的な局部オリエンテーション; (xiii)領域内のグレイレベル数; (xiv)領域内で最大グレイレベルを有するブロック
    内の画素数; (xv)領域内で平均グレイレベルより大きいグレイレ
    ベルを有するブロック内の画素数; (xvi)領域内で平均グレイレベルより小さいグレイ
    レベルを有するブロック内の画素数; (xvii)変換領域特徴; (xix)x,y方向射影 からなるグループより選択されることを特徴とする請求
    項21に記載の装置。
  23. 【請求項23】 前記画像特徴は、各セグメントに含ま
    れる前記画像の一部の周波数特性情報に依存することを
    特徴とする請求項16に記載の装置。
  24. 【請求項24】 前記画像特徴は、前記各セグメントを
    分解することによって得られたエネルギー特徴からなる
    ことを特徴とする請求項23に記載の装置。
  25. 【請求項25】 前記各セグメントの分解は、前記各セ
    グメントに少なくとも1度、ウエーブレット(wavelet)
    変換を適用することによって実行されることを特徴とす
    る請求項24に記載の装置。
  26. 【請求項26】 各々が所定数の画素を有する複数ブロ
    ックとして処理されるデジタル画像を表示手段に表示す
    るために区域分割する方法において、 前記ブロックに対する特徴ベクトルを生成するために各
    ブロックから特徴セットを抽出する工程と、 ファジールールセットを用いて、前記ブロックに対する
    前記特徴ベクトルによって、前記ブロックをテキストタ
    イプの画像かまたは自然タイプの画像のいづれかに分類
    する工程とを備えることを特徴とする方法。
  27. 【請求項27】 前記特徴セットは、各ブロックの画素
    値から抽出された空間領域特徴からなることを特徴とす
    る請求項26に記載の方法。
  28. 【請求項28】 さらに、M個の可能な特徴からN個の
    特徴を選択する工程を備え、MとNは、N≦Mの関係を
    有する整数であることを特徴とする請求項27に記載の
    方法。
  29. 【請求項29】 トレーニング画像データを用いて前記
    ファジールールを生成するために、さらに、 前記トレーニング画像データの各ブロックから前記N個
    の特徴を抽出する工程と、 前記N個の特徴のそれぞれの値に基づいて、それぞれの
    ラベルを前記N個の特徴のそれぞれに割り当てる工程
    と、 前記N個の可能な特徴のラベルに依存するQ個のファジ
    ールールを決定する工程であって、前記Q個のファジー
    ルールのそれぞれは、前記トレーニング画像データの前
    記ブロックに基づく、対応する量のサポートを有する工
    程と、 前記ファジールールセットとして、前記Q個の可能なフ
    ァジールールからP個のファジールールを選択する工程
    であって、P,QはP≦Mの整数で、所定のしきい値を
    超える前記P個のファジールールそれぞれについての対
    応するサポート量に依存するものである工程とを備える
    ことを特徴とする請求項28に記載の方法。
  30. 【請求項30】 前記特徴セットは、各ブロックに対す
    る注目領域内の係数から抽出されたエネルギー測定特徴
    からなることを特徴とする請求項26に記載の方法。
  31. 【請求項31】 前記係数は、少なくとも1度、各ブロ
    ックをウエーブレット変換することによって得られるこ
    とを特徴とする請求項30に記載の方法。
  32. 【請求項32】 前記エネルギー測定特徴は、各ブロッ
    クに対する前記注目領域に渡る前記係数の分散からなる
    ことを特徴とする請求項30に記載の方法。
  33. 【請求項33】 前記エネルギー測定特徴は、前記注目
    領域内の前記係数の2つかそれ以上のスケールの解像度
    に基づいて獲得されることを特徴とする請求項32に記
    載の方法。
  34. 【請求項34】 さらに、誤分類されたブロック数を減
    らすために、分類されたブロックをタイル統合する(til
    e integrating)工程を備えることを特徴とする請求項3
    1に記載の方法。
  35. 【請求項35】 各々が所定数の画素を有する複数ブロ
    ックとして処理されるデジタル画像を表示手段に表示す
    るために区域分割する装置において、 前記ブロックに対する特徴ベクトルを生成するために各
    ブロックから特徴セットを抽出する手段と、 ファジールールセットを用いて、前記ブロックに対する
    前記特徴ベクトルによって、前記ブロックをテキストタ
    イプの画像かまたは自然タイプの画像のいづれかに分類
    する手段とを備えることを特徴とする装置。
  36. 【請求項36】 前記特徴セットは、各ブロックの画素
    値から抽出された空間領域特徴からなることを特徴とす
    る請求項35に記載の装置。
  37. 【請求項37】 さらに、M個の可能な特徴からN個の
    特徴を選択する手段を備え、MとNは、N≦Mの関係を
    有する整数であることを特徴とする請求項36に記載の
    装置。
  38. 【請求項38】 トレーニング画像データを用いて前記
    ファジールールを生成するために、さらに、 前記トレーニング画像データの各ブロックから前記N個
    の特徴を抽出する手段と、 前記N個の特徴のそれぞれの値に基づいて、それぞれの
    ラベルを前記N個の特徴のそれぞれに割り当てる手段
    と、 前記N個の可能な特徴のラベルに依存するQ個のファジ
    ールールを決定する手段であって、前記Q個のファジー
    ルールのそれぞれは、前記トレーニング画像データの前
    記ブロックに基づく、対応する量のサポートを有する手
    段と、 前記ファジールールセットとして、前記Q個の可能なフ
    ァジールールからP個のファジールールを選択する手段
    であって、P,QはP≦Mの整数で、所定のしきい値を
    超える前記P個のファジールールそれぞれについての対
    応するサポート量に依存するものである手段とを備える
    ことを特徴とする請求項37に記載の装置。
  39. 【請求項39】 前記特徴セットは、各ブロックに対す
    る注目領域内の係数から抽出されたエネルギー測定特徴
    からなることを特徴とする請求項35に記載の装置。
  40. 【請求項40】 前記係数は、少なくとも1度、各ブロ
    ックをウエーブレット変換することによって得られるこ
    とを特徴とする請求項39に記載の装置。
  41. 【請求項41】 前記エネルギー測定特徴は、各ブロッ
    クに対する前記注目領域に渡る前記係数の分散からなる
    ことを特徴とする請求項39に記載の装置。
  42. 【請求項42】 前記エネルギー測定特徴は、前記注目
    領域内の前記係数の2つかそれ以上のスケールの解像度
    に基づいて獲得されることを特徴とする請求項41に記
    載の装置。
  43. 【請求項43】 さらに、誤分類されたブロック数を減
    らすために、分類されたブロックをタイル統合する(til
    e integrating)手段を備えることを特徴とする請求項4
    0に記載の装置。
  44. 【請求項44】 入力ビデオ信号に対応して表示装置に
    表示させるための表示信号を生成する表示方法であっ
    て、 前記入力ビデオ信号のフレームを複数ブロックに区分け
    する工程であって、各ブロックが所定数の画素からなる
    工程と、 前記ブロックに対する特徴ベクトルを生成するために各
    ブロックから特徴セットを抽出する工程と、 ファジールールを用い、前記ブロックに対する前記特徴
    ベクトルに依存して、各ブロックがテキストらしき画像
    あるいは自然らしき画像のいずれであるかを識別する工
    程と、 識別されたブロックをメモリに格納する工程と、 前記識別されたブロックに依存して、前記入力ビデオ信
    号よりも低いデータ速度で前記表示信号を生成する工程
    であって、多数の識別されたテキストらしきブロックか
    らなる前記フレームの第1の領域は、多数の識別された
    自然らしき画像ブロックからなる前記フレームの第2の
    領域とは異なるように生成される工程とを備えることを
    特徴とする表示方法。
  45. 【請求項45】 前記表示信号のデータ速度は、前記入
    力ビデオ信号のデータ速度よりも低いことを特徴とする
    請求項44に記載の表示方法。
  46. 【請求項46】 さらに、画像の異なる部分を区別する
    複数の特徴を識別する工程と、 前記特徴の、異なる組み合わせをテキストらしき学習用
    画像と非テキストらしき学習用画像に適用して、複数の
    ファジー検出ルールを生成する工程と、 前記複数のルールを最小化して、所定量の前記学習用画
    像によってサポートされないルールを排除し、排除され
    なかったルールを前記ファジールールセットに割り当て
    る工程とを備えることを特徴とする請求項44に記載の
    表示方法。
  47. 【請求項47】 前記適用工程は、さらに、 各画像特徴を0から1の範囲の値に正規化する工程と、 各入力特徴空間を複数の等間隔領域に区分けする工程
    と、 各入力特徴を前記領域の1つのラベルに割り当て、前記
    領域の1つの前記ラベルのメンバーシップ値を最大化す
    る工程と、 前記領域の各々に対して、前記特徴の各々について最大
    化されたラベルを選択して、それぞれのファジールール
    を形成する工程とを備えることを特徴とする請求項46
    に記載の表示方法。
  48. 【請求項48】 入力ビデオ信号に対応して表示デバイ
    スに表示させるための表示信号を生成する表示装置であ
    って、 前記入力ビデオ信号のフレームを複数ブロックに区分け
    する手段であって、各ブロックが所定数の画素からなる
    手段と、 前記ブロックに対する特徴ベクトルを生成するために各
    ブロックから特徴セットを抽出する手段と、 ファジールールを用い、前記ブロックに対する前記特徴
    ベクトルに依存して、各ブロックがテキストらしき画像
    あるいは自然らしき画像のいずれであるかを識別する手
    段と、 前記識別手段に結合され、識別されたブロックを格納す
    るメモリと、 前記識別されたブロックに依存して、前記入力ビデオ信
    号よりも低いデータ速度で前記表示信号を生成する手段
    であって、多数の識別されたテキストらしきブロックか
    らなる前記フレームの第1の領域は、多数の識別された
    自然らしき画像ブロックからなる前記フレームの第2の
    領域とは異なるように生成される手段とを備えることを
    特徴とする表示装置。
  49. 【請求項49】 前記表示信号のデータ速度は、前記入
    力ビデオ信号のデータ速度よりも低いことを特徴とする
    請求項48に記載の表示装置。
  50. 【請求項50】 さらに、画像の異なる部分を区別する
    複数の特徴を識別する手段と、 前記特徴の、異なる組み合わせをテキストらしき学習用
    画像と自然らしき学習用画像に適用して、複数のファジ
    ー検出ルールを生成する手段と、 前記複数のルールを最小化して、所定量の前記学習用画
    像によってサポートされないルールを排除し、排除され
    なかったルールを前記ファジールールセットに割り当て
    る手段とを備えることを特徴とする請求項48に記載の
    表示装置。
  51. 【請求項51】 前記適用手段は、さらに、 各画像特徴を0から1の範囲のベクトルに正規化する手
    段と、 各入力特徴空間を複数の等間隔領域に区分けする手段
    と、 各入力特徴を前記領域の1つのラベルに割り当て、前記
    領域の1つの前記ラベルのメンバーシップ値を最大化す
    る手段と、 前記領域の各々に対して、前記特徴の各々について最大
    化されたラベルを選択して、それぞれのファジールール
    を形成する手段とを備えることを特徴とする請求項50
    に記載の表示装置。
JP8344308A 1995-12-21 1996-12-24 画像領域分割方法及びその装置 Withdrawn JPH09212677A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU7272 1995-12-21
AUPN7272A AUPN727295A0 (en) 1995-12-21 1995-12-21 Zone segmentation for image display

Publications (1)

Publication Number Publication Date
JPH09212677A true JPH09212677A (ja) 1997-08-15

Family

ID=3791591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8344308A Withdrawn JPH09212677A (ja) 1995-12-21 1996-12-24 画像領域分割方法及びその装置

Country Status (3)

Country Link
US (1) US6195459B1 (ja)
JP (1) JPH09212677A (ja)
AU (1) AUPN727295A0 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11289450A (ja) * 1997-10-13 1999-10-19 Matsushita Electric Ind Co Ltd ファジィ推論方法及びその装置、画像作成方法及びその装置
EP1369818A1 (en) * 1998-04-06 2003-12-10 Seiko Epson Corporation Apparatus and method for image data interpolation
JP2006216031A (ja) * 1997-09-24 2006-08-17 Ricoh Co Ltd 画像特徴抽出方法及び装置
EP1173826B1 (en) * 2000-01-17 2007-08-29 Koninklijke Philips Electronics N.V. Text improvement
KR20160073172A (ko) * 2014-12-16 2016-06-24 전남대학교산학협력단 퍼지 에너지 매트릭스에 기반하여 문서 구조를 분석하기 위한 방법, 장치 및 컴퓨터 프로그램

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0961228A3 (en) * 1998-05-29 2001-03-21 Canon Kabushiki Kaisha Image processing method and apparatus
US6697107B1 (en) * 1998-07-09 2004-02-24 Eastman Kodak Company Smoothing a digital color image using luminance values
US6542187B1 (en) * 1998-07-09 2003-04-01 Eastman Kodak Company Correcting for chrominance interpolation artifacts
KR100308456B1 (ko) * 1999-07-09 2001-11-02 오길록 주파수 공간상에서의 질감표현방법 및 질감기반 검색방법
US6771833B1 (en) * 1999-08-20 2004-08-03 Eastman Kodak Company Method and system for enhancing digital images
US6882997B1 (en) * 1999-08-25 2005-04-19 The Research Foundation Of Suny At Buffalo Wavelet-based clustering method for managing spatial data in very large databases
US6976223B1 (en) * 1999-10-04 2005-12-13 Xerox Corporation Method and system to establish dedicated interfaces for the manipulation of segmented images
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US7239424B1 (en) * 2000-09-08 2007-07-03 Ricoh Co., Ltd. Wavelet-based image processing path
JP2002351779A (ja) * 2001-05-22 2002-12-06 Minolta Co Ltd データ表示システム、データ送信装置、携帯端末、データ表示方法、データ表示プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004530992A (ja) * 2001-06-15 2004-10-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ情報における自動的な自然コンテンツ検出
WO2003034335A2 (en) * 2001-10-11 2003-04-24 Koninklijke Philips Electronics N.V. Method and apparatus for discriminating between different regions of an image
EP1306805A1 (en) * 2001-10-25 2003-05-02 Mitsubishi Electric Information Technology Centre Europe B.V. Image Analysis
WO2003049036A2 (en) * 2001-12-04 2003-06-12 Koninklijke Philips Electronics N.V. Discriminating between synthetic and natural image regions
US7019761B2 (en) * 2002-02-25 2006-03-28 Zoran Corporation Methods for auto-separation of texts and graphics
US7319468B2 (en) * 2002-03-11 2008-01-15 Koninklijke Philips Electronics N.V. Image display apparatus
US7277596B2 (en) * 2002-04-10 2007-10-02 Ricoh Company, Ltd. Apparatus configured to eliminate image data show-through
US7278117B2 (en) * 2002-07-02 2007-10-02 Hewlett-Packard Development Company, L.P. Image segmentation and warping for specialized display viewing
US7116823B2 (en) * 2002-07-10 2006-10-03 Northrop Grumman Corporation System and method for analyzing a contour of an image by applying a Sobel operator thereto
US7149356B2 (en) * 2002-07-10 2006-12-12 Northrop Grumman Corporation System and method for template matching of candidates within a two-dimensional image
US7146057B2 (en) * 2002-07-10 2006-12-05 Northrop Grumman Corporation System and method for image analysis using a chaincode
KR100703284B1 (ko) * 2003-01-30 2007-04-03 삼성전자주식회사 영상신호의 이진화 장치 및 방법
KR100694074B1 (ko) * 2004-12-16 2007-03-12 삼성전자주식회사 영상 처리장치 및 방법
WO2006087666A1 (en) * 2005-02-16 2006-08-24 Koninklijke Philips Electronics N.V. Method for natural content detection and natural content detector
WO2006103396A1 (en) * 2005-04-01 2006-10-05 British Telecommunications Public Limited Company Adaptive classifier, and method of creation of classification parameters therefor
EP1893091A4 (en) * 2005-05-27 2010-11-03 Agency Science Tech & Res BRAIN PICTURE SEPARATION FROM CT DATA
US7599556B2 (en) * 2005-08-25 2009-10-06 Joseph Stanley Czyszczewski Apparatus, system, and method for scanning segmentation
US7729546B2 (en) 2005-12-23 2010-06-01 Lexmark International, Inc. Document segmentation for mixed raster content representation
DE102006010763A1 (de) * 2006-03-08 2007-09-13 Netviewer Gmbh Hybrides Bildkompressionsverfahren
KR100834669B1 (ko) * 2006-10-20 2008-06-02 삼성전자주식회사 썸네일 이미지 생성을 위한 웨이블릿 변환 기반 이미지부호화기, 복호화기 및 그 방법
US7840071B2 (en) * 2006-12-12 2010-11-23 Seiko Epson Corporation Method and apparatus for identifying regions of different content in an image
US20080219561A1 (en) * 2007-03-05 2008-09-11 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program product
GB2455142A (en) * 2007-11-30 2009-06-03 Tandberg Television Asa Pre-processing of image data by marking of macroblocks
US8917935B2 (en) 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
JP4772839B2 (ja) * 2008-08-13 2011-09-14 株式会社エヌ・ティ・ティ・ドコモ 画像識別方法および撮像装置
JP4623388B2 (ja) * 2008-09-08 2011-02-02 ソニー株式会社 画像処理装置および方法、並びにプログラム
US9070011B2 (en) 2010-06-18 2015-06-30 Csr Imaging Us, Lp Automated segmentation tuner
JP5668932B2 (ja) * 2011-05-23 2015-02-12 株式会社モルフォ 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体
JP2012247897A (ja) * 2011-05-26 2012-12-13 Sony Corp 画像処理装置および画像処理方法
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
US20150030233A1 (en) * 2011-12-12 2015-01-29 The University Of British Columbia System and Method for Determining a Depth Map Sequence for a Two-Dimensional Video Sequence
JP6642970B2 (ja) * 2015-03-05 2020-02-12 キヤノン株式会社 注目領域検出装置、注目領域検出方法及びプログラム
US9799126B2 (en) * 2015-10-02 2017-10-24 Toshiba Medical Systems Corporation Apparatus and method for robust non-local means filtering of tomographic images
US11748877B2 (en) 2017-05-11 2023-09-05 The Research Foundation For The State University Of New York System and method associated with predicting segmentation quality of objects in analysis of copious image data
CN107566842B (zh) * 2017-08-31 2019-08-23 西安万像电子科技有限公司 图像编解码压缩的方法、装置和系统
CN113657385B (zh) * 2021-10-20 2022-01-25 山东摄云信息技术有限公司 一种电子计量装置的数据检测方法、装置及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
US5425108A (en) 1992-09-04 1995-06-13 Industrial Technology Research Institute Mobile type of automatic identification system for a car plate
US5850490A (en) * 1993-12-22 1998-12-15 Xerox Corporation Analyzing an image of a document using alternative positionings of a class of segments
US5765029A (en) * 1996-05-08 1998-06-09 Xerox Corporation Method and system for fuzzy image classification

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006216031A (ja) * 1997-09-24 2006-08-17 Ricoh Co Ltd 画像特徴抽出方法及び装置
JPH11289450A (ja) * 1997-10-13 1999-10-19 Matsushita Electric Ind Co Ltd ファジィ推論方法及びその装置、画像作成方法及びその装置
EP1369818A1 (en) * 1998-04-06 2003-12-10 Seiko Epson Corporation Apparatus and method for image data interpolation
US6760489B1 (en) 1998-04-06 2004-07-06 Seiko Epson Corporation Apparatus and method for image data interpolation and medium on which image data interpolation program is recorded
EP1173826B1 (en) * 2000-01-17 2007-08-29 Koninklijke Philips Electronics N.V. Text improvement
KR20160073172A (ko) * 2014-12-16 2016-06-24 전남대학교산학협력단 퍼지 에너지 매트릭스에 기반하여 문서 구조를 분석하기 위한 방법, 장치 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
US6195459B1 (en) 2001-02-27
AUPN727295A0 (en) 1996-01-18

Similar Documents

Publication Publication Date Title
JPH09212677A (ja) 画像領域分割方法及びその装置
US6993185B2 (en) Method of texture-based color document segmentation
Gllavata et al. A robust algorithm for text detection in images
JP4745296B2 (ja) デジタル画像の領域分離方法および領域分離システム
US7054485B2 (en) Image processing method, apparatus and system
JP4745297B2 (ja) デジタル画像における均一な色の領域を特定する方法およびシステム
US7376272B2 (en) Method for image segmentation to identify regions with constant foreground color
TW516008B (en) Method and apparatus for digital image segmentation
KR20010110416A (ko) 비디오 스트림 분류가능 심볼 고립 방법 및 시스템
US6738517B2 (en) Document image segmentation using loose gray scale template matching
JP3346795B2 (ja) 画像処理方法
EP0949579A2 (en) Multiple size reductions for image segmentation
JP3772262B2 (ja) 画像の型を識別する方法
Sathiya et al. Pattern recognition based detection recognition of traffic sign using SVM
KR20030027953A (ko) 영상 정보에서의 자동적인 자연 콘텐트 검출
JP2005275854A (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
JP6377214B2 (ja) テキスト検出方法および装置
Nomura et al. A new method for degraded color image binarization based on adaptive lightning on grayscale versions
AU728856B2 (en) Zone segmentation for image display
Pandey et al. Review of different binarization techniques used in different areas of image analysis
JP4409713B2 (ja) 文書画像認識装置及び記録媒体
CN113139936B (zh) 一种图像分割处理方法及装置
Vidyarthi et al. Text and non-text region identification using texture and connected components
JP2576336B2 (ja) 画像分割方法、及び装置
JP2003271973A (ja) 画像処理方法および画像処理プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040302