JP2005078233A

JP2005078233A - 領域抽出法および領域抽出装置

Info

Publication number: JP2005078233A
Application number: JP2003305639A
Authority: JP
Inventors: Akira Hirose; 明廣瀬; Yoichiro Baba; 洋一郎馬場
Original assignee: Todai TLO Ltd
Current assignee: Todai TLO Ltd
Priority date: 2003-08-29
Filing date: 2003-08-29
Publication date: 2005-03-24

Abstract

【課題】
画像のテクスチャの変化に着目することで、一般画像から目立った領域、特に、文字領域、を抽出する。
【解決手段】
着目画素を含む小領域の空間周波数スペクトルを算出し、該スペクトルを該着目画素が有するテクスチャ情報とみなし、ある画素(ｘ，ｙ)とそれに隣接する一つあるいは複数の画素間のスペクトル勾配に基づいて該画素(ｘ，ｙ)の注視度を算出し、該注視度に基づいて原画像から注視度の高い領域、例えば文字領域、を抽出する。該スペクトルは１次元あるいは／および２次元の周波数スペクトルである。
【選択図】
図２

Description

本発明は画像中で目立つ領域を抽出する方法および装置に係り、好適には、自然画像等の一般的な画像から目立つ領域として文字領域を抽出する方法および装置に関するものである。

近年、文字認識の研究は発展し、活字であればほぼ100%、手書き文字においても高い精度で認識が出来るようになった。しかし、風景写真等の一般的な画像から文字領域を抽出することは未だ難しい課題であると言える。一般的な情景画像から精度良く文字領域を切り出し既存の文字認識技術を用いてその抽出領域の認識を行うことが出来れば、画像の膨大なデータから文字という密度が濃い情報を得ることができる。応用範囲もビデオの自動インデクス付けや地図情報自動取得など幅広い。

一般的な画像から文字領域を切り出す手法として多くの手法が報告されている。情景画像から文字部分を切り出す研究、映像中に含まれるテロップを抽出する研究、また動画像から車のナンバープレートを抽出する研究など様々な研究が行われている。

これらのうち、情景画像から文字部分を抽出する研究は古くから盛んに行われている。たとえば情景画像中に含まれる看板等の文字領域を自動的に2値化する動的2値化処理法が提案されている。その手法では、画像を複数の部分画像に分割し、各部分画像で閾値を定めて2値化を行っており、その際にコントラスト評価値という尺度を用いることで背景雑音を減らしている。また、画像の明度、色相と彩度を用いて2値化を行った画像から閉領域を抽出し、その外接矩形により文字列を抽出する方法も提案されている。その他に、空間周波数に着目し、高周波成分を含む画像を切り出して文字列候補とし、形状や大きさ等の条件を用いて文字列を抽出する方法もある。

これらの手法は、文字が含まれる画像や文字自体に条件を与えることで切り出しを行っている。具体的には文字部分は高輝度、高周波であるといったものや、看板中の文字領域は輝度ヒストグラムが双峰性を持つということなどを利用している。また文字の大きさやアスペクト比等に制約を与えて性能を向上させている手法もある。そのような条件を用いることで、精度よく文字が切り出せるといった長所はあるが、条件を満たさない画像であれば全く文字を抽出することが出来ないために画像の撮影条件（明るさ、撮影角度、他のオブジェクトの条件）等に依存してしまうといった問題点もある。
塩昭夫、「情景中文字の検出のための動的２値化処理法」、信学論（D）,vol. J71-D, No.5, pp.863-873, May 1988 Jun Ohya, Akio Shio, and Shigeru Akamatsu, "Recognizing Characters in Scene Images," EEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 16, No.2, pp.214-220, February 1994 松尾賢一、梅田三千雄、「濃淡及び色情報による情景画像からの文字列抽出」、信学技報、vol. PRU92-121, pp. 25-32, 1993-01 村山健二、岡田至弘、「色の対比を用いた情景画像からの文字列抽出」、信学技報、vol. PRMU2000-227, pp. 37-42, 2001-03 劉泳海、山村毅、大西昇、杉江昇、「シーン内の文字列領域の抽出について」、信学論(D-II) , vol. J81-D-II, No.4, pp. 641-650, April 1998 堀修、三田雄志、「テロップ認識のための映像からのロバストな文字部抽出法」、信学論（D-II）, vol. J84-D-II, No.8, pp. 1800-1808, 2001 崔亨振、安居院猛、中嶋正之、横前高弘、「動画像処理による通行車両とそのナンバープレート領域の抽出」、信学論（D-II）, vol. J73-D-II, No.3, pp. 392-398, March 1990 滝沢圭、仙田修司、美濃導彦、池田克夫、「動画像からの看板文字パターン列の抽出」、信学技報、vol. IE94-133, pp. 25-32, 1995-03

本発明は、人間の注視のあり方に基づいて創案されたものであって、画像のテクスチャの変化に着目することで、画像から目立った領域を抽出することを目的とするものである。本発明はさらに、自然物を含む画像から文字領域を抽出することを目的とするものである。

かかる課題を解決するために本発明が採用した技術手段は、着目画素を含む小領域のテクスチャ情報を該着目画素に代表させて画像中の各画素にテクスチャ情報を持たせ、隣接する画素間のテクスチャ情報の変化量に基づいて各画素の注視度を求め、該注視度に基づいて画像から領域を抽出することを特徴とするものである。

一般に、画像のテクスチャというものを考えると、テクスチャの変化が大きい場所は目立つ場所であるということができる。これは同じようなテクスチャを持っている場合、その領域は同一領域と見なすためにオブジェクトと背景領域とで異なった２つの領域が存在するように見えるためである。

ここで、コンピュータによってテクスチャを表現するには、一つの好適な手法として、画像の周波数成分を利用する方法が考えられる。画像の周波数情報は画像のテクスチャの情報を持っていると考えられる。画像における空間周波数の変化量というものを考えると、その値が大きいところに情報が乗っているといえる。すなわち、テクスチャの変化量が大きい部分とは画像の周波数成分の変化が大きいことに対応し、画像の周波数成分の変化量を求めることで注視点探索を行うことができ、画像中で文字領域等の目立つ領域を抽出することができる。

ある着目画素が持つテクスチャの情報を、その着目画素からある一定の範囲内（小領域）の画素における周波数成分で表す。それを、周波数という観点から見てその着目画素が有する「ポテンシャル」と定義する。このポテンシャルはスカラー値ではなく、ＲＧＢの色空間においてｘ方向、ｙ方向の周波数を成分に含む量として定義される。そして、一の画素のポテンシャルと該一の画素に隣接する一つあるいは複数の画素のポテンシャルとの差分によってスペクトル勾配が与えられる。例えば、着目画素の４近傍あるいは９近傍の画素を隣接画素として、該隣接画素の一つあるいは複数の画素のポテンシャルと該着目画素のポテンシャルとの差分を取る。そして、算出されたスペクトル勾配に基づいて該一の画素の注視度を決定する。空間周波数変化（スペクトル勾配）の大きさの求め方は限定されず、パワースペクトル、またはスペクトルの振幅等を用いることができ、また、スペクトル（ベクトル）間の変化量の大きさの計算についてもユーグリット距離、マンハッタン距離等を用いることができる。また、ある画素が有するテクスチャ情報が周波数以外のベクトルで表されたような場合においても、該画素と隣接する画素とのテクスチャ情報の変化量は、ユーグリット距離、マンハッタン距離等を用いることで算出できる。

図１３に基づいて具体的に説明する。図１３の左上図では、画像における背景は、画像の位置によらず一定である。したがって、着目画素と隣接画素との間のスペクトルの空間勾配（周波数の「ポテンシャル」の差）は打ち消しあってなくなる。このとき、背景部分の注視度の値を０とする。それに対して文字がある部分では周波数成分に変化が生じる。このとき、注視度の値を０ではない値とする。したがって、文字がある部分の注視度はある有限の値を持ち、図１３の右上図のような評価画像が得られる。

図１３の左下図では、画像における背景は周期的なテクスチャにより構成されており、その中に文字が書かれている。背景部分の周波数成分は周期的なテクスチャであるため、その周期以上に短時間フーリエ変換の窓関数がかけられていれば、その周波数の成分の振幅は画像の位置によらず一定である。そのため、背景部分のスペクトルの空間勾配は０に近い値となり、文字がある部分に大きい値が出る。図１３右下図のような評価画像が得られる。

小領域の画像の空間周波数変換手段は、好適には、フーリエ変換（ＦＦＴ，ＤＦＴ，ＤＣＴを含む）あるいはウェーブレット変換である。一つの好ましい態様では、周波数変換手段は、２次元フーリエ変換あるいは２次元ウェーブレット変換である。

他の好ましい態様では、１次元の周波数空間変換手段が用いられ、好適には、ｘ方向および／あるいはｙ方向における１次元フーリエ変換あるいは１次元ウェーブレット変換が用いられる。１次元の周波数空間変換を用いることで、該小領域内のテクスチャ変化の情報を取得し、該小領域内のテクスチャ情報の変化を注視度に反映させることが好ましい。

ここで、通常、画像領域中には、草木等の自然物が含まれる領域と道路・建物等の人工物を含む領域がある。人工物がある領域はテクスチャが比較的一定であり、探索が容易である。それに対して、自然物の領域は一般的にテクスチャが一定である場合が少ないため、探索が困難である。そこで、画像から自然物領域を分離することが重要となる。

自然物領域を分離する工程は、好適な例では、フラクタル次元を用いるものである。フラクタル次元を用いる自然物領域分離工程は、原画像から輪郭線画像を生成する工程と、該輪郭線画像の輪郭線の局所的なフラクタル次元を算出する工程とを含み、算出されたフラクタル次元に基づいて人工物である度合いを表す重みを算出するものである。

本発明では、画像のテクスチャの変化に着目することによって、画像において目立つ領域を抽出することができる。好適な例としては、テクスチャ変化として空間周波数変化（スペクトル勾配）が採用される。目立つ領域としては、好適例には、文字領域が例示され、本発明によれば、画像中のある部分が文字領域である可能性を評価することができる。本発明では、従来から行なわれているルールベース的抽出手法で起こり得る、照明やアングルといった撮影条件の問題や背景と文字の置かれている状態、また文字の種類等に対する制約を受けることなく、一般的な情景画像中から頑強に文字候補領域を抽出することができる。

図１は、本システムを用いた文字認識の全体のフローを示しており、ＣＣＤカメラ等の画像入力手段によって原画像が本システムに入力されると、本システムによって文字領域が指示された画像が作製され、文字認識処理（既存技術）を用いて指示された領域から文字認識を行い、認識結果が出力される。本システムは、注目すべき度合いを算出するための主モジュールと副モジュールとを有する。主モジュールは、テクスチャ変化抽出モジュールである。副モジュールは人工物抽出モジュールである。主モジュールの注目度出力によって、あるいは、これら２つのモジュールの注目度出力を合算することで、画像の中のどこに注目すべきか、あるいは、どの領域が文字領域であるかを判定する。

次に述べる実施例では、主モジュール及び副モジュールを同一の画像に対して並列に動作させ、その出力の積を取ることによって文字領域を抽出するシステムを構築している。

処理の手順について説明する。先ず、直交座標系（ｘ，ｙ）の整数交点が画像ピクセル位置となる画像Ｉを考え、画像全体が横Ｘピクセル、縦Yピクセルで合計Ｘ×Ｙピクセルであるとする。この画像から、文字領域と考えられる度合いの空間分布を算出し、それによって文字領域と推定される領域を抽出する。

図２に本発明のシステムの構造を示す。本システムは、以下の三つの手順を含む。主モジュールによって、原画像に対してテクスチャ変化の大きさを算出し、注視度が高いと考えられる領域（あるいはピクセル）に高い値が割り振られた評価画像を製作する（ステップ１）。ステップ１と同一の原画像に対して、副モジュールによって人工物（文字を含む）と考えられる領域（あるいはピクセル）に高い値が割り振られた評価画像を作成する（ステップ２）。ステップ１及びステップ２で得られた評価画像の積を各ピクセルで算出する。そして、適切に（または適応的に）閾値を設けて領域区分を行い、文字領域と推定される部分とそうでない部分とを区分する（ステップ３）。

［Ａ］注視領域を示唆する画像の作成（主モジュール処理）
先ず、主モジュールの処理を説明する。主モジュールはテクスチャ変化をスペクトルの勾配（空間的な変化）に基づいて評価し、注視領域であると推定される度合いの画像を作製する。本明細書では、この処理をスペクトル勾配法と名付ける。

画像Iの位置（ｘ，ｙ）におけるピクセル値をｓ^col（ｘ，ｙ）とする。上付きのcolは色成分を指すインデクスで、例えば赤、緑、青の３原色に対応するR,G,Bである。尚、グレースケール画像であれば、色に関して画像データは縮退しており、これを省略できる。以下において、カラー画像を考え、全色数を３とする。提案方式では、画像がカラーかグレースケールかによって、その処理方式が左右されない。すなわち、画像がグレースケールの場合、カラー処理でそのままグレースケール画像を扱ってもよい。または、全色数を１とすれば、計算負荷を低減することができる。

[Ａ１]２次元スペクトル勾配法
あるピクセルが注視領域に含まれるか否かの度合いを、次のように算出する。着目画素（ｘ，ｙ）の近傍にＬ×Ｍの空間的な窓（小領域）Ｗを設ける。窓の中の点を（ｘ´，ｙ´）とする。ここでは、窓の重み付け関数ｗ（ｘ´−ｘ，ｙ´−ｙ）をハニング窓としている。そして窓内画像（小領域）を２次元フーリエ変換して、位置（ｘ，ｙ）における局所的な空間周波数スペクトルS_uv ^col(x,y)を得る。ただし、u,vは離散的な空間周波数であり、その数をU×Vとする。

周波数空間への変換手段はフーリエ変換に限定されず、ウェーブレット変換等の他の手段を用いても良い。ウェーブレット変換を用いた場合は任意のマザーウェーブレットψ（・）を用いて次のように表すことができる。

次に、このスペクトルS_uv ^col(x,y)のパワースペクトル|S_uv ^col(x,y)|^２の空間勾配∇|S_uv ^col(x,y)|^２を算出する。本来は、このパワースペルトル勾配も離散量(|S_uv ^col (x+1,y)|^２−|S_uv ^col (x,y)|^２, |S_uv ^col (x,y+1)|^２−|S_uv ^col (x,y)|^２)であるが、簡単に∇|S_uv ^col(x,y) |^２で表すことにする。そして、推定される注視度A_{grad-texture2}(これは、また文字領域として推定される度合いでもある)を、次のように決定する。

但し、ｌ(・)は、ベクトル▽Sの大きさを取ることを表し、具体的には目的に応じて決定される。また、それぞれの和はさらに各周波数成分・色成分（
col,u,v）に関する和を意味する。これは、空間周波数成分の空間変化のある種の大きさをとることに相当する。尚、空間周波数成分の空間変化の大きさの取り方はこれには限定されない。

この方法によって、テクスチャの変化を抽出することができる。一方、特に文字を抽出する場合には、これに改良を加えた次の方法が有利である。本方式は２次元スペクトルS_uv ^col(x,y)の空間変化（２次元パワースペクトル|S_uv ^col|^２）に着目したものであり、２次元スペクトル勾配法と呼ぶ。

[Ａ２]ハイブリッド・スペクトル勾配法
上記(3)の注視度を用いた方法は、わずかにずれた窓間でテクスチャの変化があると、これに反応する。この方法で文字を抽出しようとすると、文字面積が窓面積よりも小さい場合に、抽出結果の中央が抜け落ちる中抜け現象が生じる場合がある。幾何学的図形と異なり、文字の場合には、窓内を細かく見るとそのテクスチャは変化している。もし、この変化も抽出できるならば、中抜けは解消される。

これを実現するためには、空間周波数の空間的な変化が解像度高く採取できるよう工夫すればよい。フーリエ変換（ウェーブレット変換でも同様）は、窓領域全体の性質を反映するため、フーリエ変換と空間的局所性を両立させることが難しい。したがって、そのままの２次元のフーリエ変換によると、空間的変化の解像度を高くとることが困難である。

そこで、１次元のフーリエ変換を考え、それと直交する方向に空間変化を検出することによって、フーリエ変換というある程度広い領域の操作と、高い空間的解像度の両立を実現する。１次元フーリエ変換を直交する２方向（ｘ方向とｙ方向）についてそれぞれ行い、異方性を軽減する。この修正方式は、ｘ周波数成分とｙ実空間成分の組み合わせ（及びｘ実空間成分とｙ周波数成分の組み合わせ）の勾配を考える方法ということができ、本修正方式を、ハイブリッド・スペクトル勾配法と呼ぶ。

ハイブリッド・スペクトル勾配法について説明する。２次元スペクトル勾配法と同様に、着目画素（ｘ，ｙ）の近傍にＬ×Ｍの空間的な窓（小領域）Ｗを設け、窓の中の点を（ｘ´，ｙ´）とする。窓内でｘ方向およびｙ方向にそれぞれ１次元フーリエ変換を行い、各ｙ´においてｘ方向に１次元周波数変換が行なわれて、スペクトルSu^col、Sｖ^colを得る。

ここで、ｕ_ｐ，ｖ_ｑはそれぞれｘ方向及びｙ方向の空間周波数成分である。その結果を用いて、それぞれの成分のｘ方向及びｙ方向の変化量を次のように定める。

但し、l_up（・），ｌ_y'j（・）はそれぞれ＝｛up｝，＝｛vq｝によって張られる空間におけるベクトルの大きさを求めることを意味する。そして、それらを用いて勾配の大きさd|S_u ^col(x,y)|^２，d|S_v ^col(x,y)|^２を求める。

但し、式(12)の右辺の＋は２つの大きさを合成することを表し、実験では単にスカラー和をとっている。

２次元スペクトル勾配法と同様、式(4),(5)のフーリエ変換はウェーブレット変換等の他の周波数空間変換手段でもよい。また、窓の採り方を周波数によって可変としても本質的に同様のことを意味する。式(12)の変化量の大きさの定め方は、この式に限定されない。パワースペクトル（あるいはスペクトルの振幅）やベクトルの大きさにはいろいろな取り方が考えられ、用途に応じてそれぞれに利害得失がある。後述の実験では、パワースペクトルの代わりにスペクトルの振幅を取り、またｘ成分、ｙ成分の絶対値の和を取ることで、演算の負担を軽減している。また、距離の定義としてManhattan距離を用いている。その結果式(6)から式(12)は次のような式に簡略化される。

但し、ｌ^M（・）はベクトルの大きさ（Manhattan距離に基づく）を表す。

上述のハイブリット・スペクトル勾配法を図３、図４に基づいて説明する。図３は、入力画像I上を走査するＬ×Ｍの空間的な窓（小領域）Ｗを表しており、着目画素（ｘ，ｙ）を含む窓（拡大した上下の２つの窓の上の窓であり、窓Ａとする）と該着目画素に隣接する画素（ｘ＋１，ｙ）を含む窓（拡大した上下の２つの窓の下の窓であり、窓Ｂとする）とが示してある。図４に示すように、夫々の窓Ａ，Ｂ内で各ｙ´においてｘ方向に１次元周波数変換が行なわれて、スペクトルSu^colを得る（式(4)）。そして、そのパワースペクトルの勾配∇|Su^col (x,y)|^２を算出し、ベクトルの大きさを求める。具体的には、求められたパワースペクトルに基づいて、窓Ａ内におけるｙ方向のパワースペクトル勾配を算出すると共に（式（7））、ｘ方向のパワースペクトル勾配（各ｙ´において、窓Ａで得られたｘ方向の１次元パワースペクトルと窓Ｂで得られたｘ方向の１次元パワースペクトルとの差）を算出する（式(6)）。算出された勾配（ベクトル）の大きさを求めると共に、求められた各勾配の大きさを足し合わせて図４における出力値とする(式(10))。

このハイブリッド・スペクトル勾配法によって、中抜け現象の起きない文字抽出が実現される。この方法は、生体の初期視覚系のガボール・フィルタ処理が基本的には１次元であることとも対応している。その意味において、ハイブリッド・スペクトル勾配法は、人間の脳の処理機能をより良く反映している可能性が高い。

[Ｂ]人工物を示唆する画像の作製（副モジュール処理）
次に、副モジュールについてその処理を説明する。副モジュールは、同一の原画像Iに対して、人工物的領域に高い評価を、自然物的領域である領域に低い評価を当てた評価画像を作製する。この処理を行なう理由は次のとおりである。主モジュールでテクスチャ変化に着目して、局所的な推定注視度（推定文字度でもある）を算出するが、その際に、文字と共に草木の枝葉なども抽出されやすい傾向があることがわかった。システムの目的が文字抽出である場合、ある領域が人工物（文字も含まれる）であると推定されることは、該領域が文字である確率を増大させる。そこで、輪郭のフラクタル性を利用して対象領域が人工物的である度合いを算出し、その結果が文字抽出に反映されるようにした。

原画像Iに対して、空間フィルタによって大まかに輪郭線画像Jを作製する。そして、輪郭画像Jを、位置（ｘ，ｙ）を中心とするサイズＬ´×Ｍ´の小領域に分割し、その小領域に含まれる画像が人工物である度合いを、次のように算出する。

先ず、小領域にボックス・カウンティング法を適用し、輪郭線の局所的なフラクタル次元Ｄ（ｘ，ｙ）を算出する。実験によると、多くの人工物の輪郭線はそのフラクタル次元が低く、１に近い値になる。一方、自然物はこれが１．４程度（Ｄ_nature）になる。また、それ以上の次元はほとんど見られない。そこで、人工物である度合いを表す重みＡ_artifactを次のように定める。

ただし、Ｄ_natureは自然物の典型的なフラクタル次元であり、またαは正の定数である。この方法を、フラクタル次元法と呼ぶ。尚、フラクタル次元の算出方法はボックス・カウンティング法に限定されるものではなく、フラクタル次元が算出できるるものであれば、既知であるか将来考案されるかを問わず、いかなる方法であってもよい。また具体的にはＡ_artifactの決め方も(14)による必要はなく、Ｄ_natureに近いDで小さい値となるようにすればよい。

さらに具体的に説明すると、例えば、５１２×３８４ピクセルの画像を６４×６４ピクセルの領域に分割し、それぞれの分割領域に対してエッジを抽出する。得られたエッジ画像からフラクタル次元を算出する。フラクタル次元による重み付けは各領域において１つの値である。そこで、分割領域内のある適当な画素Ａ_artifact (x,y)の重みをその算出された重みＡ_artifact (x',y')とし、他の画素の重みは周辺領域から得られる複数の重みから補間して評価画像を作成する。補間のやり方の一例を示す。いま、周辺領域から２つの重みＡ_artifact (x+Δx, y)とＡ_artifact (x,y+Δy)が与えられた場合、A(x',y')=[A(x+Δx, y)−A(x,y), A(x,y+Δy)−A(x,y)] [x'−x, y'−y]^T +A(x,y)により補間する。

[Ｃ]文字領域の区分
先ず、主モジュールで得られた注視度画像と副モジュールで得られた人工物である度合いの画像の積の画像Ａ（ｘ，ｙ）を作製する。

そして、Ａの高い領域を適当な方法で区分し、それを文字領域とする。その具体的な方法も、用途に応じて色々なものが考えられる。後の実験例では、Aを正規化した後閾値処理をし、領域区分を行う。そして、領域面積の小さいものは重要度が低いと考え棄却している。そして、残った領域を最終的な文字候補領域としている。

しかしながら、主モジュール及び副モジュールを用いた領域抽出手段はこれには限定されず、主モジュール及び副モジュールの出力の和を取ることで文字領域を抽出してもよく、あるいは、副モジュールによって原画像の画素に重み付けを行い、重み付け後の画像に対して主モジュールを適用するものでもよい。上述の主モジュール、副モジュールによる領域抽出手順は、一つの好ましい態様では、コンピュータプログラムとして具現化され、該コンピュータプログラムは、コンピュータ読み取り可能な記録媒体として提供される。

本発明の領域抽出手段（ハイブリッド・スペクトル勾配法）を用いて、静止画像から文字領域を抽出した。図５乃至図８は、静止画像からの文字領域の抽出手順を示す図である。図５は入力画像（実際はカラー画像である）であり、画像Iに相当する。画像中には、緑地に黒色、青地に白色で書かれた文字列がある。さらに、画像中には店舗の看板に書かれている文字も存在する。画像に含まれる文字の大きさは様々であり、輝度コントラスト、色相、彩度も様々である。図６は主モジュール及び副モジュール処理後の注視度画像であり、画像Ａに相当する。図７は図６における画像を閾値を用いて２値化した画像である。図８は、図７で得られた画像を原画像に重ね合わせた画像である。図８から明らかなように、本発明によって文字領域が良好に抽出されていることがわかる。図６に示す画像は、入力画像に対してＬ×Ｍの窓Ｗをラスター走査することによって得られる。「入谷朝顔まつり」の文字は、ラスター走査を行う窓に対して比較的大きいサイズであり、その出力結果は、各文字の輪郭を抽出する結果となっている。また、窓Ｗの幅より小さい「交通安全は正しい歩行から」の文字に対しては、文字列の輪郭を抽出する結果となっている。結果として、異なる大きさの文字からなる部分についても良好に抽出出来ている。

動画像に対しても本発明は良好に機能する。本発明の領域抽出手段（ハイブリッド・スペクトル勾配法）を用いて、動画像から文字領域を抽出した。図９乃至図１２は、動画像のある１フレームを示す画像であって、図９は原画像（画像Iに相当する）、図１０は主モジュール及び副モジュール処理後の画像（画像Ａに相当する）、図１１は図９における画像を閾値処理した画像、図１２は、図１１で得られた画像を原画像に重ね合わせた画像である。図１２から明らかなように、本発明によって文字領域が良好に抽出されていることがわかる。また、図示はしていないが、動画を構成する連続した画像に対して、文字領域の出力結果も連続的に変化していることが確認された。

本発明に係る領域抽出について、主として文字領域の抽出に基づいて説明して来たが、本発明による領域抽出は文字領域の抽出に限定されず、様々な領域抽出に適用され得る。本発明は、テクスチャ変化量というものに注目しているため、２次元スペクトル勾配法を用いれば、例えば断層のような部分など、ある部分でテクスチャが変化しているところにも反応することができる。ハイブリッド・スペクトル勾配法は、さらに文字や記号などのそれ自体内部のテクスチャが変化しているものに敏感に反応するので、多言語の文字・記号を抽出することがでる。また、ハイブリッド・スペクトル勾配法は、テクスチャが違う部分で、かつ輝度や色相が大きく変わっているところには大きい出力を出すことが出来る。したがって、車載カメラで街を走って看板等を撮像している状態を考えると、看板が小さく見えるときは看板自体を注視し、近づくとその中の
文字を注視するというような、人の感覚に近い結果が得られる。

実施例では、情報空間として周波数空間を用いる方式について説明した。しかし、それ以外の情報空間においても本方式と類似の機能を表現することが可能である。その際に使用する情報空間は、情報をあまり縮退させず、位相情報を排除した情報空間である必要がある。また、本方式では評価尺度を周波数空間の各基底における係数間の距離を用いているが、相互情報量又はエントロピーを用いた類似の手法も考えられる。相関関数を直接用いる方法も考えられる。また、相関関数をフーリエ変換したものはパワースペクトルとなり、本方式と同様にテクスチャ変化の抽出が可能である。

本発明は、画像から目立つ領域、特に文字領域を抽出するものである。本発明によると、一般な街頭の風景中にある看板の文字等も抽出することができる。本発明の対象となる画像は動画も含み、ビデオカメラで撮像した動画から文字領域を抽出することに用いられる。例えば、運動会の様子をビデオカメラで撮像する際に、運動会の文字を撮像しておけば、文字領域を抽出し、抽出した領域の文字を認識することで、インデックス付けを自動的に行なうことができる。あるいは、街の看板等をビデオカメラで撮像しておけば、文字領域を抽出し、抽出した領域の文字を認識することで、有用な地図情報を自動的に得ることができる。

本発明を用いた文字認識処理の概略フロー図である。本発明に係る文字領域抽出処理の概略フロー図である。画像を走査する窓部がｘ方向に１ピクセルシフトした状態を示す図である。ハイブリット・スペクトル勾配法を説明する図である。本発明による処理前の静止画像である。図５の画像に主モジュール及び副モジュール処理を実行して得られた画像である。図６の画像を閾値処理した画像である。図７で得られた画像を原画像に重ね合わせた画像である。本発明による処理前の動画像のある１フレームを示す画像である。図９の画像に主モジュール及び副モジュール処理を実行して得られた画像である。図１０の画像を閾値処理した画像である。図１１で得られた画像を原画像に重ね合わせた画像である。本発明の主モジュールによる処理を説明する図である。

Claims

着目画素を含む小領域のテクスチャ情報を該着目画素に代表させて画像中の各画素にテクスチャ情報を持たせ、隣接する画素間のテクスチャ情報の変化量に基づいて各画素の注視度を求め、該注視度に基づいて画像から領域を抽出することを特徴とする領域抽出法。
請求項１において、該テクスチャ情報は該小領域の空間周波数スペクトルであることを特徴とする領域抽出法。
請求項２において、該スペクトルは１次元あるいは／および２次元の周波数スペクトルであることを特徴とする領域抽出法。
請求項２，３いずれかにおいて、該テクスチャ情報の変化量はスペクトル勾配であることを特徴とする領域抽出法。
請求項４において、該スペクトル勾配はパワースペクトルに基づいて算出することを特徴とする領域抽出法。
請求項４において、該スペクトル勾配は振幅スペクトルに基づいて算出することを特徴とする領域抽出法。
請求項２乃至６いずれかにおいて、該空間周波数スペクトルは、フーリエ変換（ＦＦＴを含む）あるいはウェーブレット変換によって求めることを特徴とする領域抽出法。
請求項１乃至７いずれかにおいて、該小領域のテクスチャ情報には該小領域内のテクスチャ変化の情報が含まれており、該小領域内のテクスチャ変化の情報を該注視度に反映させることを特徴とする領域抽出法。
請求項７において、該小領域内のテクスチャ変化は、ｘ方向および／あるいはｙ方向の１次元の空間周波数スペクトルを求め、該方向に直交する方向のスペクトル勾配を求めることで得るものであることを特徴とする領域抽出法。
請求項８，９いずれかにおいて、隣接する画素間のテクスチャ情報の変化量は、ｘ方向および／あるいはｙ方向の１次元の空間周波数スペクトルのスペクトル勾配を含むことを特徴とする領域抽出法。
請求項１において、該小領域のテクスチャ情報は、該小領域内の画素間の相関関数、あるいは、該相関関数から算出されたパワースペクトルであることを特徴とする領域抽出法。
請求項１乃至１１いずれかにおいて、該領域抽出法は、原画像から自然物領域を分離する工程を含むことを特徴とする領域抽出法。
請求項１２において、注視度に基づく領域抽出工程と自然物領域分離工程は原画像に対して独立して実行され、両工程の結果を合わせることで領域を抽出することを特徴とする領域抽出法。
請求項１２において、原画像に対して自然物領域分離工程を実行し、自然物を分離した処理後画像に対して注視度に基づく領域抽出工程を実行することで領域を抽出することを特徴とする領域抽出法。
請求項１２乃至１４いずれかにおいて、自然物領域分離工程は、フラクタル次元を用いるものであることを特徴とする領域抽出法。
請求項１５において、自然物領域分離工程は、原画像から輪郭線画像を生成する工程と、該輪郭線画像の輪郭線のフラクタル次元を算出する工程とを含み、算出されたフラクタル次元に基づいて人工物である度合いを表す重みを算出することを特徴とする領域抽出法。
画像中の各画素について該画素を含む小領域の空間周波数スペクトルを求めるステップと、隣接する画素間の該スペクトルの変化量に基づいて各画素の注視度を求めるステップと、該注視度に基づいて画像から領域を抽出するステップとを備えたことを特徴とする領域抽出法。
請求項１７において、該空間周波数スペクトルは、該小領域の２次元周波数スペクトルであることを特徴とする領域抽出法。
請求項１７において、該空間周波数スペクトルは、該小領域のｘ方向および／あるいはｙ方向の１次元の空間周波数スペクトルであることを特徴とする領域抽出法。
請求項１７乃至１９において、該小領域内の空間周波数変化量を該注視度に反映させることを含み、該小領域内の空間周波数変化量は、ｘ方向および／あるいはｙ方向の１次元の空間周波数スペクトルの該方向に直交する方向のスペクトルの変化量であることを特徴とする領域抽出法。
画像中の各画素について該画素を含む小領域のｘ方向および／あるいはｙ方向の１次元の空間周波数スペクトルを求めるステップと、該１次元空間周波数スペクトルの該小領域内における該方向に直交する方向のスペクトルの変化量を求めるステップと、隣接する画素間の該１次元空間周波数スペクトルの変化量を求めるステップと、小領域内及び隣接する画素間の該１次元空間周波数スペクトルの変化量に基づいて各画素の注視度を求めるステップと、該注視度に基づいて画像から領域を抽出するステップとを備えたことを特徴とする領域抽出法。
請求項１７乃至２２いずれかにおいて、該領域抽出法は、フラクタル次元に基づいて各画素について人工物である度合いを表す重みを求めるステップを有し、該重みを該注視度に基づく画像からの領域抽出に反映させることを特徴とする領域抽出法。
請求項１乃至２２いずれかに記載の領域抽出法をコンピュータに実行させるための画像処理プログラム。
請求項２３に記載の画像処理プログラムを記録させたコンピュータ読み取り可能な記録媒体。
注目画素を含む小領域のテクスチャ情報を求め、該テクスチャ情報を該注目画素に代表させて画像中の各画素にテクスチャ情報を持たせる手段と、隣接する画素間のテクスチャ情報の変化量に基づいて各画素の注視度を求める手段と、該注視度に基づいて画像から領域を抽出する手段を備えたことを特徴とする領域抽出装置。
請求項２５において、該小領域のテクスチャ情報には該小領域内のテクスチャ変化の情報が含まれており、該小領域内のテクスチャ変化の情報を求める手段を有し、該変化の情報を注視度に反映するように構成されていることを特徴とする領域抽出装置。
入力画像の各画素について該画素を含む小領域の空間周波数スペクトルを求める手段と、隣接する画素間の該スペクトルの変化量に基づいて各画素の注視度を求める手段と、該注視度に基づいて画像から領域を抽出する手段とを備えたことを特徴とする領域抽出装置。
画像中の各画素について該画素を含む小領域のｘ方向および／あるいはｙ方向の１次元の空間周波数スペクトルを求める手段と、該１次元空間周波数スペクトルの該小領域内における該方向に直交する方向のスペクトルの変化量を求める手段と、隣接する画素間の該１次元空間周波数スペクトルの変化量を求める手段と、小領域内及び隣接する画素間の該１次元空間周波数スペクトルの変化量に基づいて各画素の注視度を求める手段と、該注視度に基づいて画像から領域を抽出する手段とを備えたことを特徴とする領域抽出装置。
請求項２５乃至２８いずれかにおいて、該領域抽出装置は、フラクタル次元に基づいて各画素について人工物である度合いを表す重みを求める手段を有し、該重みを該注視度に基づく画像からの領域抽出に反映させることを特徴とする領域抽出装置。