JP2005078233A - 領域抽出法および領域抽出装置 - Google Patents
領域抽出法および領域抽出装置 Download PDFInfo
- Publication number
- JP2005078233A JP2005078233A JP2003305639A JP2003305639A JP2005078233A JP 2005078233 A JP2005078233 A JP 2005078233A JP 2003305639 A JP2003305639 A JP 2003305639A JP 2003305639 A JP2003305639 A JP 2003305639A JP 2005078233 A JP2005078233 A JP 2005078233A
- Authority
- JP
- Japan
- Prior art keywords
- region
- image
- pixel
- extraction method
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
【課題】
画像のテクスチャの変化に着目することで、一般画像から目立った領域、特に、文字領域、を抽出する。
【解決手段】
着目画素を含む小領域の空間周波数スペクトルを算出し、該スペクトルを該着目画素が有するテクスチャ情報とみなし、ある画素(x,y)とそれに隣接する一つあるいは複数の画素間のスペクトル勾配に基づいて該画素(x,y)の注視度を算出し、該注視度に基づいて原画像から注視度の高い領域、例えば文字領域、を抽出する。該スペクトルは1次元あるいは/および2次元の周波数スペクトルである。
【選択図】
図2
画像のテクスチャの変化に着目することで、一般画像から目立った領域、特に、文字領域、を抽出する。
【解決手段】
着目画素を含む小領域の空間周波数スペクトルを算出し、該スペクトルを該着目画素が有するテクスチャ情報とみなし、ある画素(x,y)とそれに隣接する一つあるいは複数の画素間のスペクトル勾配に基づいて該画素(x,y)の注視度を算出し、該注視度に基づいて原画像から注視度の高い領域、例えば文字領域、を抽出する。該スペクトルは1次元あるいは/および2次元の周波数スペクトルである。
【選択図】
図2
Description
本発明は画像中で目立つ領域を抽出する方法および装置に係り、好適には、自然画像等の一般的な画像から目立つ領域として文字領域を抽出する方法および装置に関するものである。
近年、文字認識の研究は発展し、活字であればほぼ100%、手書き文字においても高い精度で認識が出来るようになった。しかし、風景写真等の一般的な画像から文字領域を抽出することは未だ難しい課題であると言える。一般的な情景画像から精度良く文字領域を切り出し既存の文字認識技術を用いてその抽出領域の認識を行うことが出来れば、画像の膨大なデータから文字という密度が濃い情報を得ることができる。応用範囲もビデオの自動インデクス付けや地図情報自動取得など幅広い。
一般的な画像から文字領域を切り出す手法として多くの手法が報告されている。情景画像から文字部分を切り出す研究、映像中に含まれるテロップを抽出する研究、また動画像から車のナンバープレートを抽出する研究など様々な研究が行われている。
これらのうち、情景画像から文字部分を抽出する研究は古くから盛んに行われている。たとえば情景画像中に含まれる看板等の文字領域を自動的に2値化する動的2値化処理法が提案されている。その手法では、画像を複数の部分画像に分割し、各部分画像で閾値を定めて2値化を行っており、その際にコントラスト評価値という尺度を用いることで背景雑音を減らしている。また、画像の明度、色相と彩度を用いて2値化を行った画像から閉領域を抽出し、その外接矩形により文字列を抽出する方法も提案されている。その他に、空間周波数に着目し、高周波成分を含む画像を切り出して文字列候補とし、形状や大きさ等の条件を用いて文字列を抽出する方法もある。
これらの手法は、文字が含まれる画像や文字自体に条件を与えることで切り出しを行っている。具体的には文字部分は高輝度、高周波であるといったものや、看板中の文字領域は輝度ヒストグラムが双峰性を持つということなどを利用している。また文字の大きさやアスペクト比等に制約を与えて性能を向上させている手法もある。そのような条件を用いることで、精度よく文字が切り出せるといった長所はあるが、条件を満たさない画像であれば全く文字を抽出することが出来ないために画像の撮影条件(明るさ、撮影角度、他のオブジェクトの条件)等に依存してしまうといった問題点もある。
塩 昭夫、「情景中文字の検出のための動的2値化処理法」、信学論(D),vol. J71-D, No.5, pp.863-873, May 1988 Jun Ohya, Akio Shio, and Shigeru Akamatsu, "Recognizing Characters in Scene Images," EEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 16, No.2, pp.214-220, February 1994 松尾賢一、梅田三千雄、「濃淡及び色情報による情景画像からの文字列抽出」、信学技報、vol. PRU92-121, pp. 25-32, 1993-01 村山健二、岡田至弘、「色の対比を用いた情景画像からの文字列抽出」、信学技報、vol. PRMU2000-227, pp. 37-42, 2001-03 劉 泳海、山村 毅、大西 昇、杉江 昇、「シーン内の文字列領域の抽出について」、信学論(D-II) , vol. J81-D-II, No.4, pp. 641-650, April 1998 堀 修、三田雄志、「テロップ認識のための映像からのロバストな文字部抽出法」、信学論(D-II), vol. J84-D-II, No.8, pp. 1800-1808, 2001 崔 亨振、安居院猛、中嶋正之、横前高弘、「動画像処理による通行車両とそのナンバープレート領域の抽出」、信学論(D-II), vol. J73-D-II, No.3, pp. 392-398, March 1990 滝沢 圭、仙田修司、美濃導彦、池田克夫、「動画像からの看板文字パターン列の抽出」、信学技報、vol. IE94-133, pp. 25-32, 1995-03
塩 昭夫、「情景中文字の検出のための動的2値化処理法」、信学論(D),vol. J71-D, No.5, pp.863-873, May 1988 Jun Ohya, Akio Shio, and Shigeru Akamatsu, "Recognizing Characters in Scene Images," EEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 16, No.2, pp.214-220, February 1994 松尾賢一、梅田三千雄、「濃淡及び色情報による情景画像からの文字列抽出」、信学技報、vol. PRU92-121, pp. 25-32, 1993-01 村山健二、岡田至弘、「色の対比を用いた情景画像からの文字列抽出」、信学技報、vol. PRMU2000-227, pp. 37-42, 2001-03 劉 泳海、山村 毅、大西 昇、杉江 昇、「シーン内の文字列領域の抽出について」、信学論(D-II) , vol. J81-D-II, No.4, pp. 641-650, April 1998 堀 修、三田雄志、「テロップ認識のための映像からのロバストな文字部抽出法」、信学論(D-II), vol. J84-D-II, No.8, pp. 1800-1808, 2001 崔 亨振、安居院猛、中嶋正之、横前高弘、「動画像処理による通行車両とそのナンバープレート領域の抽出」、信学論(D-II), vol. J73-D-II, No.3, pp. 392-398, March 1990 滝沢 圭、仙田修司、美濃導彦、池田克夫、「動画像からの看板文字パターン列の抽出」、信学技報、vol. IE94-133, pp. 25-32, 1995-03
本発明は、人間の注視のあり方に基づいて創案されたものであって、画像のテクスチャの変化に着目することで、画像から目立った領域を抽出することを目的とするものである。本発明はさらに、自然物を含む画像から文字領域を抽出することを目的とするものである。
かかる課題を解決するために本発明が採用した技術手段は、着目画素を含む小領域のテクスチャ情報を該着目画素に代表させて画像中の各画素にテクスチャ情報を持たせ、隣接する画素間のテクスチャ情報の変化量に基づいて各画素の注視度を求め、該注視度に基づいて画像から領域を抽出することを特徴とするものである。
一般に、画像のテクスチャというものを考えると、テクスチャの変化が大きい場所は目立つ場所であるということができる。これは同じようなテクスチャを持っている場合、その領域は同一領域と見なすためにオブジェクトと背景領域とで異なった2つの領域が存在するように見えるためである。
ここで、コンピュータによってテクスチャを表現するには、一つの好適な手法として、画像の周波数成分を利用する方法が考えられる。画像の周波数情報は画像のテクスチャの情報を持っていると考えられる。画像における空間周波数の変化量というものを考えると、その値が大きいところに情報が乗っているといえる。すなわち、テクスチャの変化量が大きい部分とは画像の周波数成分の変化が大きいことに対応し、画像の周波数成分の変化量を求めることで注視点探索を行うことができ、画像中で文字領域等の目立つ領域を抽出することができる。
ある着目画素が持つテクスチャの情報を、その着目画素からある一定の範囲内(小領域)の画素における周波数成分で表す。それを、周波数という観点から見てその着目画素が有する「ポテンシャル」と定義する。このポテンシャルはスカラー値ではなく、RGBの色空間においてx方向、y方向の周波数を成分に含む量として定義される。そして、一の画素のポテンシャルと該一の画素に隣接する一つあるいは複数の画素のポテンシャルとの差分によってスペクトル勾配が与えられる。例えば、着目画素の4近傍あるいは9近傍の画素を隣接画素として、該隣接画素の一つあるいは複数の画素のポテンシャルと該着目画素のポテンシャルとの差分を取る。そして、算出されたスペクトル勾配に基づいて該一の画素の注視度を決定する。空間周波数変化(スペクトル勾配)の大きさの求め方は限定されず、パワースペクトル、またはスペクトルの振幅等を用いることができ、また、スペクトル(ベクトル)間の変化量の大きさの計算についてもユーグリット距離、マンハッタン距離等を用いることができる。また、ある画素が有するテクスチャ情報が周波数以外のベクトルで表されたような場合においても、該画素と隣接する画素とのテクスチャ情報の変化量は、ユーグリット距離、マンハッタン距離等を用いることで算出できる。
図13に基づいて具体的に説明する。図13の左上図では、画像における背景は、画像の位置によらず一定である。したがって、着目画素と隣接画素との間のスペクトルの空間勾配(周波数の「ポテンシャル」の差)は打ち消しあってなくなる。このとき、背景部分の注視度の値を0とする。それに対して文字がある部分では周波数成分に変化が生じる。このとき、注視度の値を0ではない値とする。したがって、文字がある部分の注視度はある有限の値を持ち、図13の右上図のような評価画像が得られる。
図13の左下図では、画像における背景は周期的なテクスチャにより構成されており、その中に文字が書かれている。背景部分の周波数成分は周期的なテクスチャであるため、その周期以上に短時間フーリエ変換の窓関数がかけられていれば、その周波数の成分の振幅は画像の位置によらず一定である。そのため、背景部分のスペクトルの空間勾配は0に近い値となり、文字がある部分に大きい値が出る。図13右下図のような評価画像が得られる。
小領域の画像の空間周波数変換手段は、好適には、フーリエ変換(FFT,DFT,DCTを含む)あるいはウェーブレット変換である。一つの好ましい態様では、周波数変換手段は、2次元フーリエ変換あるいは2次元ウェーブレット変換である。
他の好ましい態様では、1次元の周波数空間変換手段が用いられ、好適には、x方向および/あるいはy方向における1次元フーリエ変換あるいは1次元ウェーブレット変換が用いられる。1次元の周波数空間変換を用いることで、該小領域内のテクスチャ変化の情報を取得し、該小領域内のテクスチャ情報の変化を注視度に反映させることが好ましい。
ここで、通常、画像領域中には、草木等の自然物が含まれる領域と道路・建物等の人工物を含む領域がある。人工物がある領域はテクスチャが比較的一定であり、探索が容易である。それに対して、自然物の領域は一般的にテクスチャが一定である場合が少ないため、探索が困難である。そこで、画像から自然物領域を分離することが重要となる。
自然物領域を分離する工程は、好適な例では、フラクタル次元を用いるものである。フラクタル次元を用いる自然物領域分離工程は、原画像から輪郭線画像を生成する工程と、該輪郭線画像の輪郭線の局所的なフラクタル次元を算出する工程とを含み、算出されたフラクタル次元に基づいて人工物である度合いを表す重みを算出するものである。
本発明では、画像のテクスチャの変化に着目することによって、画像において目立つ領域を抽出することができる。好適な例としては、テクスチャ変化として空間周波数変化(スペクトル勾配)が採用される。目立つ領域としては、好適例には、文字領域が例示され、本発明によれば、画像中のある部分が文字領域である可能性を評価することができる。本発明では、従来から行なわれているルールベース的抽出手法で起こり得る、照明やアングルといった撮影条件の問題や背景と文字の置かれている状態、また文字の種類等に対する制約を受けることなく、一般的な情景画像中から頑強に文字候補領域を抽出することができる。
図1は、本システムを用いた文字認識の全体のフローを示しており、CCDカメラ等の画像入力手段によって原画像が本システムに入力されると、本システムによって文字領域が指示された画像が作製され、文字認識処理(既存技術)を用いて指示された領域から文字認識を行い、認識結果が出力される。本システムは、注目すべき度合いを算出するための主モジュールと副モジュールとを有する。主モジュールは、テクスチャ変化抽出モジュールである。副モジュールは人工物抽出モジュールである。主モジュールの注目度出力によって、あるいは、これら2つのモジュールの注目度出力を合算することで、画像の中のどこに注目すべきか、あるいは、どの領域が文字領域であるかを判定する。
次に述べる実施例では、主モジュール及び副モジュールを同一の画像に対して並列に動作させ、その出力の積を取ることによって文字領域を抽出するシステムを構築している。
処理の手順について説明する。先ず、直交座標系(x,y)の整数交点が画像ピクセル位置となる画像Iを考え、画像全体が横Xピクセル、縦Yピクセルで合計X×Yピクセルであるとする。この画像から、文字領域と考えられる度合いの空間分布を算出し、それによって文字領域と推定される領域を抽出する。
図2に本発明のシステムの構造を示す。本システムは、以下の三つの手順を含む。主モジュールによって、原画像に対してテクスチャ変化の大きさを算出し、注視度が高いと考えられる領域(あるいはピクセル)に高い値が割り振られた評価画像を製作する(ステップ1)。ステップ1と同一の原画像に対して、副モジュールによって人工物(文字を含む)と考えられる領域(あるいはピクセル)に高い値が割り振られた評価画像を作成する(ステップ2)。ステップ1及びステップ2で得られた評価画像の積を各ピクセルで算出する。そして、適切に(または適応的に)閾値を設けて領域区分を行い、文字領域と推定される部分とそうでない部分とを区分する(ステップ3)。
[A]注視領域を示唆する画像の作成(主モジュール処理)
先ず、主モジュールの処理を説明する。主モジュールはテクスチャ変化をスペクトルの勾配(空間的な変化)に基づいて評価し、注視領域であると推定される度合いの画像を作製する。本明細書では、この処理をスペクトル勾配法と名付ける。
先ず、主モジュールの処理を説明する。主モジュールはテクスチャ変化をスペクトルの勾配(空間的な変化)に基づいて評価し、注視領域であると推定される度合いの画像を作製する。本明細書では、この処理をスペクトル勾配法と名付ける。
画像Iの位置(x,y)におけるピクセル値をscol(x,y)とする。上付きのcolは色成分を指すインデクスで、例えば赤、緑、青の3原色に対応するR,G,Bである。尚、グレースケール画像であれば、色に関して画像データは縮退しており、これを省略できる。以下において、カラー画像を考え、全色数を3とする。提案方式では、画像がカラーかグレースケールかによって、その処理方式が左右されない。すなわち、画像がグレースケールの場合、カラー処理でそのままグレースケール画像を扱ってもよい。または、全色数を1とすれば、計算負荷を低減することができる。
[A1]2次元スペクトル勾配法
あるピクセルが注視領域に含まれるか否かの度合いを、次のように算出する。着目画素(x,y)の近傍にL×Mの空間的な窓(小領域)Wを設ける。窓の中の点を(x´,y´)とする。ここでは、窓の重み付け関数w(x´−x,y´−y)をハニング窓としている。そして窓内画像(小領域)を2次元フーリエ変換して、位置(x,y)における局所的な空間周波数スペクトルSuv col(x,y)を得る。ただし、u,vは離散的な空間周波数であり、その数をU×Vとする。
あるピクセルが注視領域に含まれるか否かの度合いを、次のように算出する。着目画素(x,y)の近傍にL×Mの空間的な窓(小領域)Wを設ける。窓の中の点を(x´,y´)とする。ここでは、窓の重み付け関数w(x´−x,y´−y)をハニング窓としている。そして窓内画像(小領域)を2次元フーリエ変換して、位置(x,y)における局所的な空間周波数スペクトルSuv col(x,y)を得る。ただし、u,vは離散的な空間周波数であり、その数をU×Vとする。
次に、このスペクトルSuv col(x,y)のパワースペクトル|Suv col(x,y)|2の空間勾配∇|Suv col(x,y)|2を算出する。本来は、このパワースペルトル勾配も離散量(|Suv col (x+1,y)|2−|Suv col (x,y)|2, |Suv col (x,y+1)|2−|Suv col (x,y)|2)であるが、簡単に∇|Suv col(x,y) |2で表すことにする。そして、推定される注視度Agrad-texture2(これは、また文字領域として推定される度合いでもある)を、次のように決定する。
但し、l(・)は、ベクトル▽Sの大きさを取ることを表し、具体的には目的に応じて決定される。また、それぞれの和はさらに各周波数成分・色成分(
col,u,v)に関する和を意味する。これは、空間周波数成分の空間変化のある種の大きさをとることに相当する。尚、空間周波数成分の空間変化の大きさの取り方はこれには限定されない。
col,u,v)に関する和を意味する。これは、空間周波数成分の空間変化のある種の大きさをとることに相当する。尚、空間周波数成分の空間変化の大きさの取り方はこれには限定されない。
この方法によって、テクスチャの変化を抽出することができる。一方、特に文字を抽出する場合には、これに改良を加えた次の方法が有利である。本方式は2次元スペクトルS uv col(x,y)の空間変化(2次元パワースペクトル|Suv col|2)に着目したものであり、2次元スペクトル勾配法と呼ぶ。
[A2]ハイブリッド・スペクトル勾配法
上記(3)の注視度を用いた方法は、わずかにずれた窓間でテクスチャの変化があると、これに反応する。この方法で文字を抽出しようとすると、文字面積が窓面積よりも小さい場合に、抽出結果の中央が抜け落ちる中抜け現象が生じる場合がある。幾何学的図形と異なり、文字の場合には、窓内を細かく見るとそのテクスチャは変化している。もし、この変化も抽出できるならば、中抜けは解消される。
上記(3)の注視度を用いた方法は、わずかにずれた窓間でテクスチャの変化があると、これに反応する。この方法で文字を抽出しようとすると、文字面積が窓面積よりも小さい場合に、抽出結果の中央が抜け落ちる中抜け現象が生じる場合がある。幾何学的図形と異なり、文字の場合には、窓内を細かく見るとそのテクスチャは変化している。もし、この変化も抽出できるならば、中抜けは解消される。
これを実現するためには、空間周波数の空間的な変化が解像度高く採取できるよう工夫すればよい。フーリエ変換(ウェーブレット変換でも同様)は、窓領域全体の性質を反映するため、フーリエ変換と空間的局所性を両立させることが難しい。したがって、そのままの2次元のフーリエ変換によると、空間的変化の解像度を高くとることが困難である。
そこで、1次元のフーリエ変換を考え、それと直交する方向に空間変化を検出することによって、フーリエ変換というある程度広い領域の操作と、高い空間的解像度の両立を実現する。1次元フーリエ変換を直交する2方向(x方向とy方向)についてそれぞれ行い、異方性を軽減する。この修正方式は、x周波数成分とy実空間成分の組み合わせ(及びx実空間成分とy周波数成分の組み合わせ)の勾配を考える方法ということができ、本修正方式を、ハイブリッド・スペクトル勾配法と呼ぶ。
ハイブリッド・スペクトル勾配法について説明する。2次元スペクトル勾配法と同様に、着目画素(x,y)の近傍にL×Mの空間的な窓(小領域)Wを設け、窓の中の点を(x´,y´)とする。窓内でx方向およびy方向にそれぞれ1次元フーリエ変換を行い、各y´においてx方向に1次元周波数変換が行なわれて、スペクトルSucol、Svcolを得る。
ここで、up,vqはそれぞれx方向及びy方向の空間周波数成分である。その結果を用いて、それぞれの成分のx方向及びy方向の変化量を次のように定める。
但し、lup(・),ly'j(・)はそれぞれ={up},={vq}によって張られる空間におけるベクトルの大きさを求めることを意味する。そして、それらを用いて勾配の大きさd|Su col(x,y)|2,d|Sv col(x,y)|2を求める。
ここで、d|Su col(x,y)|2,d|Sv col(x,y)|2は|Su col(x,y)|2,|Sv col(x,y)|2の空間全微分に対応している。これらによって、注視度画像Agrad-textureを次のように求める。
但し、式(12)の右辺の+は2つの大きさを合成することを表し、実験では単にスカラー和をとっている。
2次元スペクトル勾配法と同様、式(4),(5)のフーリエ変換はウェーブレット変換等の他の周波数空間変換手段でもよい。また、窓の採り方を周波数によって可変としても本質的に同様のことを意味する。式(12)の変化量の大きさの定め方は、この式に限定されない。パワースペクトル(あるいはスペクトルの振幅)やベクトルの大きさにはいろいろな取り方が考えられ、用途に応じてそれぞれに利害得失がある。後述の実験では、パワースペクトルの代わりにスペクトルの振幅を取り、またx成分、y成分の絶対値の和を取ることで、演算の負担を軽減している。また、距離の定義としてManhattan距離を用いている。その結果式(6)から式(12)は次のような式に簡略化される。
但し、lM(・)はベクトルの大きさ(Manhattan距離に基づく)を表す。
上述のハイブリット・スペクトル勾配法を図3、図4に基づいて説明する。図3は、入力画像I上を走査するL×Mの空間的な窓(小領域)Wを表しており、着目画素(x,y)を含む窓(拡大した上下の2つの窓の上の窓であり、窓Aとする)と該着目画素に隣接する画素(x+1,y)を含む窓(拡大した上下の2つの窓の下の窓であり、窓Bとする)とが示してある。図4に示すように、夫々の窓A,B内で各y´においてx方向に1次元周波数変換が行なわれて、スペクトルSucolを得る(式(4))。そして、そのパワースペクトルの勾配∇|Sucol (x,y)| 2を算出し、ベクトルの大きさを求める。具体的には、求められたパワースペクトルに基づいて、窓A内におけるy方向のパワースペクトル勾配を算出すると共に(式(7))、x方向のパワースペクトル勾配(各y´において、窓Aで得られたx方向の1次元パワースペクトルと窓Bで得られたx方向の1次元パワースペクトルとの差)を算出する(式(6))。算出された勾配(ベクトル)の大きさを求めると共に、求められた各勾配の大きさを足し合わせて図4における出力値とする(式(10))。
このハイブリッド・スペクトル勾配法によって、中抜け現象の起きない文字抽出が実現される。この方法は、生体の初期視覚系のガボール・フィルタ処理が基本的には1次元であることとも対応している。その意味において、ハイブリッド・スペクトル勾配法は、人間の脳の処理機能をより良く反映している可能性が高い。
[B]人工物を示唆する画像の作製(副モジュール処理)
次に、副モジュールについてその処理を説明する。副モジュールは、同一の原画像Iに対して、人工物的領域に高い評価を、自然物的領域である領域に低い評価を当てた評価画像を作製する。この処理を行なう理由は次のとおりである。主モジュールでテクスチャ変化に着目して、局所的な推定注視度(推定文字度でもある)を算出するが、その際に、文字と共に草木の枝葉なども抽出されやすい傾向があることがわかった。システムの目的が文字抽出である場合、ある領域が人工物(文字も含まれる)であると推定されることは、該領域が文字である確率を増大させる。そこで、輪郭のフラクタル性を利用して対象領域が人工物的である度合いを算出し、その結果が文字抽出に反映されるようにした。
次に、副モジュールについてその処理を説明する。副モジュールは、同一の原画像Iに対して、人工物的領域に高い評価を、自然物的領域である領域に低い評価を当てた評価画像を作製する。この処理を行なう理由は次のとおりである。主モジュールでテクスチャ変化に着目して、局所的な推定注視度(推定文字度でもある)を算出するが、その際に、文字と共に草木の枝葉なども抽出されやすい傾向があることがわかった。システムの目的が文字抽出である場合、ある領域が人工物(文字も含まれる)であると推定されることは、該領域が文字である確率を増大させる。そこで、輪郭のフラクタル性を利用して対象領域が人工物的である度合いを算出し、その結果が文字抽出に反映されるようにした。
原画像Iに対して、空間フィルタによって大まかに輪郭線画像Jを作製する。そして、輪郭画像Jを、位置(x,y)を中心とするサイズL´×M´の小領域に分割し、その小領域に含まれる画像が人工物である度合いを、次のように算出する。
先ず、小領域にボックス・カウンティング法を適用し、輪郭線の局所的なフラクタル次元D(x,y)を算出する。実験によると、多くの人工物の輪郭線はそのフラクタル次元が低く、1に近い値になる。一方、自然物はこれが1.4程度(Dnature)になる。また、それ以上の次元はほとんど見られない。そこで、人工物である度合いを表す重みAartifactを次のように定める。
ただし、Dnatureは自然物の典型的なフラクタル次元であり、またαは正の定数である。この方法を、フラクタル次元法と呼ぶ。尚、フラクタル次元の算出方法はボックス・カウンティング法に限定されるものではなく、フラクタル次元が算出できるるものであれば、既知であるか将来考案されるかを問わず、いかなる方法であってもよい。また具体的にはAartifactの決め方も(14)による必要はなく、Dnatureに近いDで小さい値となるようにすればよい。
さらに具体的に説明すると、例えば、512×384ピクセルの画像を64×64ピクセルの領域に分割し、それぞれの分割領域に対してエッジを抽出する。得られたエッジ画像からフラクタル次元を算出する。フラクタル次元による重み付けは各領域において1つの値である。そこで、分割領域内のある適当な画素Aartifact (x,y)の重みをその算出された重みAartifact (x',y')とし、他の画素の重みは周辺領域から得られる複数の重みから補間して評価画像を作成する。補間のやり方の一例を示す。いま、周辺領域から2つの重みAartifact (x+Δx, y)とAartifact (x,y+Δy)が与えられた場合、A(x',y')=[A(x+Δx, y)−A(x,y), A(x,y+Δy)−A(x,y)] [x'−x, y'−y] T +A(x,y)により補間する。
[C]文字領域の区分
先ず、主モジュールで得られた注視度画像と副モジュールで得られた人工物である度合いの画像の積の画像A(x,y)を作製する。
そして、Aの高い領域を適当な方法で区分し、それを文字領域とする。その具体的な方法も、用途に応じて色々なものが考えられる。後の実験例では、Aを正規化した後閾値処理をし、領域区分を行う。そして、領域面積の小さいものは重要度が低いと考え棄却している。そして、残った領域を最終的な文字候補領域としている。
先ず、主モジュールで得られた注視度画像と副モジュールで得られた人工物である度合いの画像の積の画像A(x,y)を作製する。
しかしながら、主モジュール及び副モジュールを用いた領域抽出手段はこれには限定されず、主モジュール及び副モジュールの出力の和を取ることで文字領域を抽出してもよく、あるいは、副モジュールによって原画像の画素に重み付けを行い、重み付け後の画像に対して主モジュールを適用するものでもよい。上述の主モジュール、副モジュールによる領域抽出手順は、一つの好ましい態様では、コンピュータプログラムとして具現化され、該コンピュータプログラムは、コンピュータ読み取り可能な記録媒体として提供される。
本発明の領域抽出手段(ハイブリッド・スペクトル勾配法)を用いて、静止画像から文字領域を抽出した。図5乃至図8は、静止画像からの文字領域の抽出手順を示す図である。図5は入力画像(実際はカラー画像である)であり、画像Iに相当する。画像中には、緑地に黒色、青地に白色で書かれた文字列がある。さらに、画像中には店舗の看板に書かれている文字も存在する。画像に含まれる文字の大きさは様々であり、輝度コントラスト、色相、彩度も様々である。図6は主モジュール及び副モジュール処理後の注視度画像であり、画像Aに相当する。図7は図6における画像を閾値を用いて2値化した画像である。図8は、図7で得られた画像を原画像に重ね合わせた画像である。図8から明らかなように、本発明によって文字領域が良好に抽出されていることがわかる。図6に示す画像は、入力画像に対してL×Mの窓Wをラスター走査することによって得られる。「入谷朝顔まつり」の文字は、ラスター走査を行う窓に対して比較的大きいサイズであり、その出力結果は、各文字の輪郭を抽出する結果となっている。また、窓Wの幅より小さい「交通安全は正しい歩行から」の文字に対しては、文字列の輪郭を抽出する結果となっている。結果として、異なる大きさの文字からなる部分についても良好に抽出出来ている。
動画像に対しても本発明は良好に機能する。本発明の領域抽出手段(ハイブリッド・スペクトル勾配法)を用いて、動画像から文字領域を抽出した。図9乃至図12は、動画像のある1フレームを示す画像であって、図9は原画像(画像Iに相当する)、図10は主モジュール及び副モジュール処理後の画像(画像Aに相当する)、図11は図9における画像を閾値処理した画像、図12は、図11で得られた画像を原画像に重ね合わせた画像である。図12から明らかなように、本発明によって文字領域が良好に抽出されていることがわかる。また、図示はしていないが、動画を構成する連続した画像に対して、文字領域の出力結果も連続的に変化していることが確認された。
本発明に係る領域抽出について、主として文字領域の抽出に基づいて説明して来たが、本発明による領域抽出は文字領域の抽出に限定されず、様々な領域抽出に適用され得る。本発明は、テクスチャ変化量というものに注目しているため、2次元スペクトル勾配法を用いれば、例えば断層のような部分など、ある部分でテクスチャが変化しているところにも反応することができる。ハイブリッド・スペクトル勾配法は、さらに文字や記号などのそれ自体内部のテクスチャが変化しているものに敏感に反応するので、多言語の文字・記号を抽出することがでる。また、ハイブリッド・スペクトル勾配法は、テクスチャが違う部分で、かつ輝度や色相が大きく変わっているところには大きい出力を出すことが出来る。したがって、車載カメラで街を走って看板等を撮像している状態を考えると、看板が小さく見えるときは看板自体を注視し、近づくとその中の
文字を注視するというような、人の感覚に近い結果が得られる。
文字を注視するというような、人の感覚に近い結果が得られる。
実施例では、情報空間として周波数空間を用いる方式について説明した。しかし、それ以外の情報空間においても本方式と類似の機能を表現することが可能である。その際に使用する情報空間は、情報をあまり縮退させず、位相情報を排除した情報空間である必要がある。また、本方式では評価尺度を周波数空間の各基底における係数間の距離を用いているが、相互情報量又はエントロピーを用いた類似の手法も考えられる。相関関数を直接用いる方法も考えられる。また、相関関数をフーリエ変換したものはパワースペクトルとなり、本方式と同様にテクスチャ変化の抽出が可能である。
本発明は、画像から目立つ領域、特に文字領域を抽出するものである。本発明によると、一般な街頭の風景中にある看板の文字等も抽出することができる。本発明の対象となる画像は動画も含み、ビデオカメラで撮像した動画から文字領域を抽出することに用いられる。例えば、運動会の様子をビデオカメラで撮像する際に、運動会の文字を撮像しておけば、文字領域を抽出し、抽出した領域の文字を認識することで、インデックス付けを自動的に行なうことができる。あるいは、街の看板等をビデオカメラで撮像しておけば、文字領域を抽出し、抽出した領域の文字を認識することで、有用な地図情報を自動的に得ることができる。
Claims (29)
- 着目画素を含む小領域のテクスチャ情報を該着目画素に代表させて画像中の各画素にテクスチャ情報を持たせ、隣接する画素間のテクスチャ情報の変化量に基づいて各画素の注視度を求め、該注視度に基づいて画像から領域を抽出することを特徴とする領域抽出法。
- 請求項1において、該テクスチャ情報は該小領域の空間周波数スペクトルであることを特徴とする領域抽出法。
- 請求項2において、該スペクトルは1次元あるいは/および2次元の周波数スペクトルであることを特徴とする領域抽出法。
- 請求項2,3いずれかにおいて、該テクスチャ情報の変化量はスペクトル勾配であることを特徴とする領域抽出法。
- 請求項4において、該スペクトル勾配はパワースペクトルに基づいて算出することを特徴とする領域抽出法。
- 請求項4において、該スペクトル勾配は振幅スペクトルに基づいて算出することを特徴とする領域抽出法。
- 請求項2乃至6いずれかにおいて、該空間周波数スペクトルは、フーリエ変換(FFTを含む)あるいはウェーブレット変換によって求めることを特徴とする領域抽出法。
- 請求項1乃至7いずれかにおいて、該小領域のテクスチャ情報には該小領域内のテクスチャ変化の情報が含まれており、該小領域内のテクスチャ変化の情報を該注視度に反映させることを特徴とする領域抽出法。
- 請求項7において、該小領域内のテクスチャ変化は、x方向および/あるいはy方向の1次元の空間周波数スペクトルを求め、該方向に直交する方向のスペクトル勾配を求めることで得るものであることを特徴とする領域抽出法。
- 請求項8,9いずれかにおいて、隣接する画素間のテクスチャ情報の変化量は、x方向および/あるいはy方向の1次元の空間周波数スペクトルのスペクトル勾配を含むことを特徴とする領域抽出法。
- 請求項1において、該小領域のテクスチャ情報は、該小領域内の画素間の相関関数、あるいは、該相関関数から算出されたパワースペクトルであることを特徴とする領域抽出法。
- 請求項1乃至11いずれかにおいて、該領域抽出法は、原画像から自然物領域を分離する工程を含むことを特徴とする領域抽出法。
- 請求項12において、注視度に基づく領域抽出工程と自然物領域分離工程は原画像に対して独立して実行され、両工程の結果を合わせることで領域を抽出することを特徴とする領域抽出法。
- 請求項12において、原画像に対して自然物領域分離工程を実行し、自然物を分離した処理後画像に対して注視度に基づく領域抽出工程を実行することで領域を抽出することを特徴とする領域抽出法。
- 請求項12乃至14いずれかにおいて、自然物領域分離工程は、フラクタル次元を用いるものであることを特徴とする領域抽出法。
- 請求項15において、自然物領域分離工程は、原画像から輪郭線画像を生成する工程と、該輪郭線画像の輪郭線のフラクタル次元を算出する工程とを含み、算出されたフラクタル次元に基づいて人工物である度合いを表す重みを算出することを特徴とする領域抽出法。
- 画像中の各画素について該画素を含む小領域の空間周波数スペクトルを求めるステップと、隣接する画素間の該スペクトルの変化量に基づいて各画素の注視度を求めるステップと、該注視度に基づいて画像から領域を抽出するステップとを備えたことを特徴とする領域抽出法。
- 請求項17において、該空間周波数スペクトルは、該小領域の2次元周波数スペクトルであることを特徴とする領域抽出法。
- 請求項17において、該空間周波数スペクトルは、該小領域のx方向および/あるいはy方向の1次元の空間周波数スペクトルであることを特徴とする領域抽出法。
- 請求項17乃至19において、該小領域内の空間周波数変化量を該注視度に反映させることを含み、該小領域内の空間周波数変化量は、x方向および/あるいはy方向の1次元の空間周波数スペクトルの該方向に直交する方向のスペクトルの変化量であることを特徴とする領域抽出法。
- 画像中の各画素について該画素を含む小領域のx方向および/あるいはy方向の1次元の空間周波数スペクトルを求めるステップと、該1次元空間周波数スペクトルの該小領域内における該方向に直交する方向のスペクトルの変化量を求めるステップと、隣接する画素間の該1次元空間周波数スペクトルの変化量を求めるステップと、小領域内及び隣接する画素間の該1次元空間周波数スペクトルの変化量に基づいて各画素の注視度を求めるステップと、該注視度に基づいて画像から領域を抽出するステップとを備えたことを特徴とする領域抽出法。
- 請求項17乃至22いずれかにおいて、該領域抽出法は、フラクタル次元に基づいて各画素について人工物である度合いを表す重みを求めるステップを有し、該重みを該注視度に基づく画像からの領域抽出に反映させることを特徴とする領域抽出法。
- 請求項1乃至22いずれかに記載の領域抽出法をコンピュータに実行させるための画像処理プログラム。
- 請求項23に記載の画像処理プログラムを記録させたコンピュータ読み取り可能な記録媒体。
- 注目画素を含む小領域のテクスチャ情報を求め、該テクスチャ情報を該注目画素に代表させて画像中の各画素にテクスチャ情報を持たせる手段と、隣接する画素間のテクスチャ情報の変化量に基づいて各画素の注視度を求める手段と、該注視度に基づいて画像から領域を抽出する手段を備えたことを特徴とする領域抽出装置。
- 請求項25において、該小領域のテクスチャ情報には該小領域内のテクスチャ変化の情報が含まれており、該小領域内のテクスチャ変化の情報を求める手段を有し、該変化の情報を注視度に反映するように構成されていることを特徴とする領域抽出装置。
- 入力画像の各画素について該画素を含む小領域の空間周波数スペクトルを求める手段と、隣接する画素間の該スペクトルの変化量に基づいて各画素の注視度を求める手段と、該注視度に基づいて画像から領域を抽出する手段とを備えたことを特徴とする領域抽出装置。
- 画像中の各画素について該画素を含む小領域のx方向および/あるいはy方向の1次元の空間周波数スペクトルを求める手段と、該1次元空間周波数スペクトルの該小領域内における該方向に直交する方向のスペクトルの変化量を求める手段と、隣接する画素間の該1次元空間周波数スペクトルの変化量を求める手段と、小領域内及び隣接する画素間の該1次元空間周波数スペクトルの変化量に基づいて各画素の注視度を求める手段と、該注視度に基づいて画像から領域を抽出する手段とを備えたことを特徴とする領域抽出装置。
- 請求項25乃至28いずれかにおいて、該領域抽出装置は、フラクタル次元に基づいて各画素について人工物である度合いを表す重みを求める手段を有し、該重みを該注視度に基づく画像からの領域抽出に反映させることを特徴とする領域抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003305639A JP2005078233A (ja) | 2003-08-29 | 2003-08-29 | 領域抽出法および領域抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003305639A JP2005078233A (ja) | 2003-08-29 | 2003-08-29 | 領域抽出法および領域抽出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005078233A true JP2005078233A (ja) | 2005-03-24 |
Family
ID=34408935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003305639A Pending JP2005078233A (ja) | 2003-08-29 | 2003-08-29 | 領域抽出法および領域抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005078233A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007000999A1 (ja) * | 2005-06-27 | 2007-01-04 | Pioneer Corporation | 画像分析装置および画像分析方法 |
WO2007029455A1 (ja) * | 2005-09-07 | 2007-03-15 | Pioneer Corporation | 風景単調度演算装置及び方法 |
JP2008033604A (ja) * | 2006-07-28 | 2008-02-14 | Univ Of Tokyo | 画像処理システム、文字認識システムおよび画像処理プログラム |
JP2009009179A (ja) * | 2007-06-26 | 2009-01-15 | Univ Of Tokyo | 画像処理装置及び画像処理プログラム |
-
2003
- 2003-08-29 JP JP2003305639A patent/JP2005078233A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007000999A1 (ja) * | 2005-06-27 | 2007-01-04 | Pioneer Corporation | 画像分析装置および画像分析方法 |
JPWO2007000999A1 (ja) * | 2005-06-27 | 2009-01-22 | パイオニア株式会社 | 画像分析装置および画像分析方法 |
JP4493050B2 (ja) * | 2005-06-27 | 2010-06-30 | パイオニア株式会社 | 画像分析装置および画像分析方法 |
US8086046B2 (en) | 2005-06-27 | 2011-12-27 | Pioneer Corporation | Image analysis device and image analysis method |
WO2007029455A1 (ja) * | 2005-09-07 | 2007-03-15 | Pioneer Corporation | 風景単調度演算装置及び方法 |
JP2008033604A (ja) * | 2006-07-28 | 2008-02-14 | Univ Of Tokyo | 画像処理システム、文字認識システムおよび画像処理プログラム |
JP2009009179A (ja) * | 2007-06-26 | 2009-01-15 | Univ Of Tokyo | 画像処理装置及び画像処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10339643B2 (en) | Algorithm and device for image processing | |
Wang et al. | Improved human detection and classification in thermal images | |
JP4234378B2 (ja) | 画像中で素材の領域を検出する方法 | |
WO2018145470A1 (zh) | 一种图像检测方法和装置 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN109242888A (zh) | 一种结合图像显著性和非下采样轮廓波变换的红外与可见光图像融合方法 | |
US20120057791A1 (en) | Information processing apparatus and control method thereof | |
JP2012038318A (ja) | ターゲット検出方法及び装置 | |
KR20200119369A (ko) | 객체 검출 장치 및 방법 | |
CN104008404B (zh) | 一种基于显著直方图特征的行人检测方法及系统 | |
Chen et al. | Visual depth guided image rain streaks removal via sparse coding | |
CN103164843B (zh) | 一种医学影像彩色化方法 | |
JP2009123234A (ja) | オブジェクト識別方法および装置ならびにプログラム | |
JP4285640B2 (ja) | オブジェクト識別方法および装置ならびにプログラム | |
Shaikh et al. | Image binarization using iterative partitioning: A global thresholding approach | |
JP2966084B2 (ja) | 画像処理における局所的領域分割方法 | |
JP2005078233A (ja) | 領域抽出法および領域抽出装置 | |
Liu et al. | A simple and fast text localization algorithm for indoor mobile robot navigation | |
CN112926500B (zh) | 一种结合头部和整体信息的行人检测方法 | |
CN109784176B (zh) | 车载热成像行人检测RoIs提取方法和装置 | |
Negri et al. | Pedestrian detection using a feature space based on colored level lines | |
Farhat et al. | Effect of color spaces on video segmentation performances | |
Jang et al. | Image processing-based validation of unrecognizable numbers in severely distorted license plate images | |
JP2011018199A (ja) | 画像処理装置および方法、並びにプログラム | |
Shetty et al. | Automated Identity Document Recognition and Classification (AIDRAC)-A Review |