JP5712859B2 - 画像認識装置および画像認識方法 - Google Patents

画像認識装置および画像認識方法 Download PDF

Info

Publication number
JP5712859B2
JP5712859B2 JP2011175879A JP2011175879A JP5712859B2 JP 5712859 B2 JP5712859 B2 JP 5712859B2 JP 2011175879 A JP2011175879 A JP 2011175879A JP 2011175879 A JP2011175879 A JP 2011175879A JP 5712859 B2 JP5712859 B2 JP 5712859B2
Authority
JP
Japan
Prior art keywords
edge
image
extracted
rectangular area
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011175879A
Other languages
English (en)
Other versions
JP2013041315A (ja
Inventor
武部 浩明
浩明 武部
堀田 悦伸
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011175879A priority Critical patent/JP5712859B2/ja
Publication of JP2013041315A publication Critical patent/JP2013041315A/ja
Application granted granted Critical
Publication of JP5712859B2 publication Critical patent/JP5712859B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像から所定の幾何学的図形に対応する領域を認識する画像認識装置および画像認識方法に係わる。
画像から特定の幾何学的図形を構成する物体に対応する領域を認識して抽出するニーズが存在する。たとえば、矩形のメモ書シールが貼られたホワイトボードをデジタルカメラで撮影し、得られた画像からメモ書シールに対応する領域を抽出する用途がある。この場合、例えば、抽出した画像に対して文字認識を行うことにより、メモ書シールに記載されている文字等を電子データとして保存することができる。そして、このような用途に対して、画像からエッジを抽出し、エッジで囲まれる領域を認識することで、対象とする物体に対応する領域を抽出する方法が知られている。
関連する技術として、下記の図形切り出し方法が提案されている。この方法は、周囲の少なくとも2辺が直線となる構成のマトリックス状にデータを配した矩形の2次元コード図形又はそれに類似した図形を含む画像を読取り、その読取った画像から前記2次元コード図形又はそれに類似した図形を切出して認識する画像認識装置において、前記2次元コード図形又はそれに類似した図形の画像に対してハフ変換法及び最小2乗近似法により周囲の互いに交差する2本の直線の位置を検出するステップと、このステップにて検出した2本の直線の長さを検出するステップと、前記各ステップで検出した2本の直線の位置と長さを元に周囲の互いに交差する残り2本の直線の位置を検出するステップを設け、前記各ステップにより前記2次元コード図形又はそれに類似した図形を切出す。(例えば、特許文献1)
また、他の関連する技術として、下記の画像整合方法が提案されている。この方法においては、画像を処理し、建造物の候補の領域を得て建造物領域を含む画素は1、含まない画素は0の値を有するバイナリ画像表現により領域の垂直水平方向の寸法を試作建造物の寸法のセットにサイズテストして、寸法が大き過ぎたり小さ過ぎる場合は、それは建造物ではないと判断する。バイナリ画像表現に基づき各建造物の候補の輪郭線のX−Y画素リストを求め、更にバイナリ画像の画素格子に各領域の輪郭線の主要軸を整合させ、輪郭線リストの水平、垂直エッジ部の方向ヒストグラムを計算してヒストグラムのピーク集中率が現在のステッシュホルドより小さい場合には領域は建造物ではないと判断する。エッジ部のヒストグラム内のピークを領域画素の座標リストのコーナー候補として仮定し、最も多くのコーナー候補の有効となった組み合わせを建造物全周として選択する。(例えば、特許文献2)
特開平7−220081号公報 特開平5−101183号公報
従来技術においては、画像から特定の幾何学的図形を構成する物体に対応する領域を抽出する処理において、複数の物体が互いに重なり合っているときには、画像から抽出される各エッジがそれぞれどの物体を構成するエッジであるかを判定することが困難である。この場合、各物体に対応する領域を抽出する精度が低下する。また、物体の色が背景の色と類似しているときは、1つのエッジが複数の部分に分かれて抽出されてしまうことがある。この場合も、各物体に対応する領域を正しく抽出することは困難である。
本発明の課題は、画像から特定の幾何学的図形を構成する物体に対応する領域を精度よく抽出する装置および方法を提供することである。
本発明の1つの態様の画像認識装置は、画像からエッジセグメントを抽出するエッジ抽出部と、前記エッジ抽出部により抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを取得する取得部と、前記取得部により取得された各組合せについて、前記図形の候補の外周が前記抽出されたエッジセグメントによってカバーされる程度を表す再現率、および、前記抽出されたエッジセグメントが前記図形の候補として利用される程度を表す適合率をそれぞれ算出する算出部と、前記再現率および前記適合率に基づいて決まる評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する画像抽出部、を有する。
上述の態様によれば、画像から特定の幾何学的図形を構成する物体に対応する領域を精度よく抽出することができる。
実施形態の画像認識装置の機能を示すブロック図である。 実施形態の画像認識方法を示すフローチャートである。 ソーベルフィルタを示す図である。 入力画像から生成される2値化エッジ画像の例を示す図である。 画像の方向分解について説明する図である。 方向分解処理について説明する図である。 方向分解により生成された2値化エッジ画像の例を示す図である。 ラベリングおよび外接矩形について説明する図である。 黒画素連結成分の重なり統合について説明する図である。 エッジ抽出部により抽出されたエッジセグメントの例を示す図である。 矩形領域候補を抽出する処理を示すフローチャートである。 エッジセグメントが矩形領域を構成する条件を説明する図(その1)である。 エッジセグメントが矩形領域を構成する条件を説明する図(その2)である。 エッジセグメントが矩形領域を構成する条件を説明する図(その3)である。 エッジセグメントが矩形領域を構成する条件を説明する図(その4)である。 矩形領域候補を取得するためのグラフ及びクリークを説明する図である。 矩形領域候補の組合せを取得する処理を示すフローチャートである。 矩形領域候補の組合せを取得するためのグラフ及びクリークを説明する図である。 抽出されたエッジセグメントを示す図である。 (a)はエッジセグメントについてのグラフ、(b)は抽出されたクリークを示す図である。 矩形領域候補を示す図である。 (a)は矩形領域候補についてのグラフ、(b)は抽出されたクリークを示す図である。 矩形領域候補の組合せを示す図である。 正三角形領域を抽出するための方向分解について説明する図である。 エッジセグメントが正三角形領域を構成する条件を説明する図(その1)である。 エッジセグメントが正三角形領域を構成する条件を説明する図(その2)である。 エッジセグメントが正三角形領域を構成する条件を説明する図(その3)である。 画像認識装置を実現するためのコンピュータシステムのハードウェア構成を示す図である。
図1は、実施形態の画像認識装置の機能を示すブロック図である。実施形態の画像認識装置1は、画像データ格納部2、処理部3、抽出結果格納部8、出力部9を有する。
画像データ格納部2は、デジタルカメラまたはスキャナ等により得られた画像データを格納する。ここで、画像認識装置1は、デジタルカメラまたはスキャナ等から画像データを受信するためのインタフェースを備えていてもよい。或いは、画像認識装置1は、デジタルカメラ等に内蔵されてもよい。また、画像データは、この実施例では、カラー画像データである。なお、以下の説明では、画像データを、単に「画像」と呼ぶことがある。
処理部3は、画像データ格納部2に格納されている画像から、予め決められた幾何学的な図形(この実施例では、矩形)を抽出する。処理部3は、画像から幾何学的な図形を抽出するために、エッジ抽出部4、取得部5、算出部6、画像抽出部7を有する。エッジ抽出部4、取得部5、算出部6、画像抽出部7の動作は、後で説明する。
抽出結果格納部8は、処理部3により抽出された図形に対応する領域の画像データを格納する。そして、出力部9は、抽出結果格納部8に格納されている、処理部3により抽出された領域の画像データを出力する。出力部9は、例えば、表示装置に画像データを出力する。或いは、出力部9は、外部の記憶装置に画像データを出力してもよい。
図2は、実施形態の画像認識方法を示すフローチャートである。このフローチャートの処理は、例えば、画像認識装置1に抽出指示が与えられたときに、処理部3によって実行される。抽出指示は、この実施例では、画像から矩形領域を抽出する指示である。また、抽出指示は、例えば、ユーザにより画像認識装置1に入力される。そして、抽出指示が与えられると、処理部3は、画像データ格納部2からカラー画像を取得する。
ステップS1において、エッジ抽出部4は、画像データ格納部2から取得したカラー画像をグレー化する。ステップS2において、エッジ抽出部4は、グレー化した画像に対してソーベルフィルタ演算を行う。このソーベルフィルタ演算により、エッジが強調された画像(以下、エッジ画像)が得られる。ステップS3において、エッジ抽出部4は、エッジ画像に対して2値化処理を実行し、2値化エッジ画像を生成する。ステップS4において、エッジ抽出部4は、ソーベルフィルタ演算の結果を利用して、2値化エッジ画像を予め決められている複数の方向に分解する。そして、ステップS5において、エッジ抽出部4は、各方向に分解された複数の2値化エッジ画像から、それぞれエッジセグメントを抽出する。
ステップS6において、取得部5は、ステップS1〜S5で抽出されたエッジセグメントを利用して形成される幾何学的な図形の候補をリストアップする。すなわち、取得部5は、ステップS1〜S5で抽出されたエッジセグメントの中から、矩形領域の外周(すなわち、辺)を構成する可能性のあるエッジセグメントを取り出すことにより、1または複数の矩形領域候補を取得する。そして、ステップS7において、取得部5は、矩形領域候補の組合せを取得する。このとき、取得部5は、矩形領域候補の組合せの中から、矩形領域間の関係が矛盾するものではなく、且つ、矩形領域候補とエッジセグメントとの関係が矛盾するものではない組合せを選択する。
ステップS8において、算出部6は、ステップS7で得られた各組合せについて、再現率および適合率を算出する。この実施例では、再現率は、矩形領域候補の辺がエッジセグメントによってカバーされている程度または割合を表す。適合率は、エッジ抽出部4によって抽出された全エッジセグメントのうち、矩形領域候補の辺として使用されている程度または割合を表す。
ステップS9において、画像抽出部7は、再現率および適合率に基づいて決まる評価値が最大となる組合せを特定する。評価値は、たとえば、F値である。そして、画像抽出部7は、特定した組合せに含まれる矩形領域候補を、取得すべき矩形領域として抽出する。なお、白黒画像が処理部3に入力されるときは、ステップS1のグレー化処理は省略される。
次に、図面を参照しながら、図2に示すフローチャートの各ステップの処理について詳しく説明する。以下の説明では、画像認識装置1は、入力画像から矩形領域を抽出するものとする。
<ステップS1:グレー化>
カラー画像のグレー化は、RGB空間の原点を通過する任意の直線に各画素の画素値を投影する処理に相当する。よって、RGB空間における方向ベクトルの設定に応じて、様々なグレー化が可能である。例えば、各画素の画素値を明度で表すグレー化は、画像処理において広く行われており、下記の式で計算される。なお、各画素の画素値は、RGB空間上の座標(R,G,B)で表される。
明度=0.299R + 0.587G + 0.114B
エッジ抽出部4は、他の方法でカラー画像をグレー化してもよい。例えば、エッジ抽出部4は、色差を利用してカラー画像をグレー化することができる。
<ステップS2〜S3:ソーベルフィルタおよび2値化処理>
エッジ抽出部4は、ステップS1で得られるグレー画像に対してソーベルフィルタ演算を実行する。ソーベルフィルタは、画像のエッジを強調するエッジオペレータの1つであり、グレー画像の各画素に対してX方向フィルタ演算およびY方向フィルタ演算を行う。X方向フィルタおよびY方向フィルタは、図3に示す通りである。即ち、画素(x,y)に対するX方向フィルタ演算の結果Sx(x,y)は、下式で得られる。
g(x+1,y+1)+2g(x,y+1)+g(x-1,y+1)-g(x+1,y-1)-2g(x,y-1)-g(x-1,y-1)
また、画素(x,y)に対するY方向フィルタ演算の結果Sy(x,y)は、下式で得られる。
g(x+1,y+1)+2g(x+1,y)+g(x+1,y-1)-g(x-1,y+1)-2g(x-1,y)-g(x-1,y-1)
なお、g(i,j)は、グレー化処理により計算された画素(i,j)の濃度値を表す。
続いて、エッジ抽出部4は、ソーベルフィルタ演算の結果を利用して、各画素について強度および方向を計算する。画素(x,y)の強度および方向は、下式で計算される。
強度=√(Sx(x,y)2 + Sy(x,y)2)
方向=arctan(Sy(x,y)/Sx(x,y))
ここで、各画素について得られる上述の強度値を濃度値と考えると、ソーベルフィルタから出力は、グレー画像として処理することができる。そして、エッジ抽出部4は、このグレー画像について2値化処理を行うことで、2値化エッジ画像を生成する。2値化処理は、例えば、大津の2値化方式を使用することができる。
図4は、入力画像から生成される2値化エッジ画像の例を示す。この例では、デジタルカメラでホワイトボートを撮影することにより入力画像が得られたものである。また、撮影されたホワイトボードには、4枚のメモ書シールが貼り付けられている。
入力画像内には、図4(a)に示すように、ホワイトボード11に対応する領域、およびメモ書シール12a〜12dに対応する領域が形成されている。なお、メモ書シール12a〜12dは、ホワイトボード11と異なる色を有しており、図4(a)では、斜線領域で表されている。また、この例では、メモ書シール12a、12bは互いに一部が重なり合っており、メモ書シール12b、12cも互いに一部が重なり合っている。なお、メモ書シール12a〜12dには、それぞれ文字等が表記されているが、ここでは図面を見やすくするために、文字等の表記は省略されている。
図4(b)は、図4(a)に示す入力画像から生成される2値化エッジ画像を示す。この2値化エッジ画像においては、ホワイトボード11の端部に対応する領域の画素、メモ書シール12a〜12dの端部に対応する領域の画素、およびメモ書シール12a〜12dに表記されている文字等に対応する領域の画素の濃度値(または、画素値)が「1」であり、他の領域の画素値が「0」である。すなわち、ホワイトボード11の端部に対応する領域、メモ書シール12a〜12dの端部に対応する領域、およびメモ書シール12a〜12dに表記されている文字等に対応する領域に、エッジが存在している。
<ステップS4:方向分解>
エッジ抽出部4は、上述したように、ソーベルフィルタ演算の結果を利用して、各画素について強度および方向を計算する。ここで、強度は、上述の2値化処理により2値化されている。すなわち、図4(b)に示すような2値化エッジ画像が生成されている。そして、抽出部4は、2値化エッジ画像を、予め決められた複数の方向に分解する。
この実施例では、2値化エッジ画像は、図5(a)に示す8つの方向dir0〜dir7に分解される。この場合、分解方向dir0〜dir7に対してそれぞれ下記の角度範囲が設定される。
Dir0:-π/8<θ≦π/8
Dir1:π/8<θ≦3π/8
Dir2:3π/8<θ≦5π/8
Dir3:5π/8<θ≦7π/8
Dir4:7π/8<θ≦9π/8(-7π/8)
Dir5:-7π/8<θ≦-5π/8
Dir6:-5π/8<θ≦-3π/8
Dir7:-3π/8<θ≦-π/8
図5(b)は、画像領域の方向と分解方向との関係を示す。図5(b)に示す例では、画像上に2つの矩形領域12e、12fが形成されている。この場合、矩形領域12eの下辺は、分解方向dir0の角度範囲に属する。また、矩形領域12eの右辺、上辺、左辺は、それぞれ、分解方向dir2、dir4、dir6の角度範囲に属する。同様に、矩形領域12fの各辺は、分解方向dir1、dir3、dir5、dir7の角度範囲に属する。
図6は、方向分解処理について説明する図である。図6において、各マス目は、それぞれ1つの画素に相当する。また、図6(a)に示す2値化エッジ画像において、各画素内の上段に表記されている値は、ソーベルフィルタ演算の結果に基づいて得られる強度を表している。ここで、強度は、2値化されている。また、各画素内の下段に表記されている値は、ソーベルフィルタ演算の結果に基づいて得られる方向を表している。ただし、強度がゼロである画素においては、方向を表す値は省略されている。
エッジ抽出部4は、各分解方向dir0〜dir7において、強度が1であり、且つ、方向が対応する分解方向の角度範囲に属する画素を抽出する。例えば、分解方向dir4については、強度が1であり、且つ、方向が7π/8〜9π/8(すなわち、157.5〜202.5度)に属する画素を抽出する。この結果、図6(a)に示す2値化エッジ画像から5個の画素が抽出され、方向dir4の2値化エッジ画像として、図6(b)に示す画像が得られる。他の分解方向においても、それぞれ、同様に2値化エッジ画像が生成される。
図7は、方向分解により生成された2値化エッジ画像の例を示す。ここで、図7(a)は、図4(b)に示す2値化エッジ画像から得られる、分解方向dir2の2値化エッジ画像を示している。この2値化エッジ画像は、各メモ書シール12a〜12dの右側端部に相当するエッジを含んでいる。また、図7(b)は、図4(b)に示す2値化エッジ画像から得られる、分解方向dir6の2値化エッジ画像を示している。この2値化エッジ画像は、各メモ書シール12a〜12dの左側端部に相当するエッジを含んでいる。同様に、図7(c)は、分解方向dir4の2値化エッジ画像を示しており、各メモ書シール12a〜12dの上側端部に相当するエッジを含んでいる。図7(d)は、分解方向dir0の2値化エッジ画像を示しており、各メモ書シール12a〜12dの下側端部に相当するエッジを含んでいる。
<ステップS5:エッジセグメントの抽出>
エッジ抽出部4は、各方向の2値化エッジ画像において、それぞれエッジセグメントを抽出する。エッジセグメントは、エッジを構成する要素である。また、エッジセグメントは、この例では、4点で囲まれる領域であって、それら4点の座標で表される。エッジセグメントの抽出は、以下に説明するラベリング処理、重なり統合処理、ノイズ除去処理、統合処理を含む。
(1)ラベリング
エッジ抽出部4は、2値化エッジ画像において、各黒画素連結成分に対してラベルを付与する。黒画素連結成分は、所定数よりも多くの黒画素が連結している領域である。黒画素とは、2値化された画素値(または、濃度値)が1である画素である。また、ラベルは、各黒画素連結成分を識別する識別番号である。図8(a)に示す例では、各黒画素連結成分に対して、ラベルL1、L2が付与されている。
エッジ抽出部4は、処理対象の2値化エッジ画像の座標系において、各黒画素連結成分を射影する。処理対象の2値化エッジ画像の座標系は、入力画像の座標系に対して、分解方向の角度だけ回転した直交座標系である。例えば、分解方向dir1の2値化エッジ画像の座標系は、入力画像の座標系に対してπ/4だけ回転している。そして、エッジ抽出部4は、図8(b)に示すように、処理対象の2値化エッジ画像の座標系の各射影軸に黒画素連結成分を射影することで得られる射影値の最大値および最小値を取得する。
エッジ抽出部4は、上述の各最大値および各最小値を通過し、且つ、それぞれ対応する射影軸に直交する直線の交点を求める。ここで、図8(b)において、一方の射影軸上の最大値および最小値をそれぞれa、bとし、他方の射影軸上の最大値および最小値をそれぞれc、dとすると、4つの交点座標(a,c)(a,d)(b,c)(b,d)が得られる。これらの4つの交点座標は、黒画素連結成分を取り囲む最小の矩形(すなわち、外接矩形)の4つの頂点の座標を表す。そして、エッジ抽出部4は、ラベリング処理の結果として、各黒画素連結成分について、黒画素連結成分を識別するラベルおよび黒画素連結成分の外接矩形を表す4つの交点座標を出力する。
(2)重なり統合
エッジ抽出部4は、2値化エッジ画像において、任意の2つの黒画素連結成分に対して、それぞれの外接矩形が互いに重なり合うか判定する。図9(a)に示す例では、黒画素連結成分L3、L4の外接矩形が互いに重なり合っている。この場合、エッジ抽出部4は、黒画素連結成分L3、L4を1つの黒画素連結成分に統合する。すなわち、これら2つの黒画素連結成分に対して同じラベルが付与される。図9(b)においては、これら2つの黒画素連結成分に対して同じラベルL3が付与されている。また、これら2つの黒画素連結成分を取り囲む最小の矩形(黒画素連結成分L3、L4の外接矩形)の各頂点の座標が算出される。そして、エッジ抽出部4は、互いに重なり合う黒画素連結成分が存在しなくなるまで、重なり統合処理を繰り返す。
(3)ノイズ除去
エッジ抽出部4は、重なり統合処理後に得られる黒画素連結成分の集合に対してノイズ除去処理を行う。例えば、重なり統合処理後に得られる黒画素連結成分の大きさが所定値よりも小さいときは、その黒画素連結成分は、ノイズと判定されて上述の集合から取り除かれる。なお、黒画素連結成分の大きさは、例えば、その黒画素連結成分の外接矩形の長辺の長さで規定される。
(4)統合
エッジ抽出部4は、2値化エッジ画像において、互いに近接する黒画素連結成分どうしを統合する。すなわち、互いに近接する黒画素連結成分は、1つの黒画素連結成分に統合される。ここで、黒画素連結成分間の距離は、例えば、各黒画素連結成分を上述した射影軸に射影したときの射影値の差分で表される。この場合、少なくとも一方の射影軸上の射影値の差分が予め設定されている閾値よりも小さければ、黒画素連結成分を統合すべきと判定される。なお、2つの黒画素連結成分が統合されたときは、上述の重なり統合処理と同様に、それら2つの黒画素連結成分に対して同じラベルが付与される。また、統合された2つの黒画素連結成分を取り囲む最小の矩形の各頂点の座標が算出される。
エッジ抽出部4は、互いに近接する黒画素連結成分が存在しなくなるまで、統合処理を繰り返す。この統合処理により得られる各黒画素連結成分(または、各黒画素連結成分の外接矩形)が、エッジセグメントとして抽出される。
図10は、エッジ抽出部4により抽出されたエッジセグメントの例を示す図である。図10(a)は、図7(a)に示す分解方向dir2における2値化エッジ画像から抽出されたエッジセグメントを示している。この例では、エッジセグメントE1〜E5が抽出されている。エッジセグメントE1〜E4は、それぞれ、図4(a)に示すメモ書シール12a〜12dの右側端部(または、その一部)に対応している。エッジセグメントE5は、ホワイトボード11の端部に対応している。図10(b)は、分解方向dir0〜dir7の2値化エッジ画像からそれぞれ抽出されるエッジセグメントをすべて重ねて示している。この例では、エッジセグメントE1〜E18が抽出されている。
このように、エッジ抽出部4は、各分解方向dir0〜dir7の2値化エッジ画像からそれぞれエッジセグメントを抽出する。各エッジセグメントは、それぞれラベルによって識別される。また、各エッジセグメントの位置および形状は、そのエッジセグメント内の黒画素連結成分の外接矩形の4つの頂点の座標によって表される。
<ステップS6:矩形領域候補の取得>
取得部5は、ステップS1〜S5で抽出されたエッジセグメントに基づいて、すべての矩形領域候補をリストアップする。矩形領域候補は、矩形領域を構成する可能性のあるエッジセグメントの集合で表される。
図11は、矩形領域候補を抽出する処理を示すフローチャートである。このフローチャートは、上述のようにしてエッジ抽出部4によりエッジセグメントが抽出された後に、取得部5により実行される。なお、取得部5は、エッジ抽出4からエッジセグメント情報を受け取る。エッジセグメント情報は、エッジセグメントの個数を表す情報、各エッジセグメントの外接矩形の座標、各エッジセグメントが抽出された分解方向(dir0〜dir7)を表す情報を含む。
ステップS11において、取得部5は、入力されるエッジセグメント情報からグラフを作成する。ステップS12において、取得部5は、このグラフからクリークを抽出することにより、矩形領域候補として、矩形領域を構成する可能性のあるエッジセグメントの集合を求める。そして、ステップS13において、取得部5は、所定の最大サイズよりも大きな矩形領域候補、および所定の最小サイズよりも小さい矩形領域候補を、ノイズとみなして除去する。これにより、最終的な矩形領域候補が得られる。そして、取得部5は、矩形領域候補の個数を表す情報、及び各矩形領域候補を構成するエッジセグメントの識別番号(すなわち、ラベル)を出力する。
(1)グラフの作成
取得部5は、ステップS11において、入力されるエッジセグメント情報からグラフを作成する。グラフは、ノードおよびノード間を接続するパスから構成される。この例では、各ノードは、1つのエッジセグメントに対応する。また、ノード間を接続するパスは、対応する2つのエッジセグメントが矩形領域を構成する可能性を表す。
グラフは、各エッジセグメントについて、当該エッジセグメントおよび他の各エッジセグメントを利用してそれぞれ矩形領域を構成する条件を満たすか否かを判定することにより作成される。図10(b)に示す例では、エッジセグメントE1について、各エッジセグメントE2〜E18と組み合わせることで、矩形領域を構成する条件を満たすか判定される。例えば、エッジセグメントE1、E2間の判定では、エッジセグメントE1が矩形領域の1つの辺に対応すると過程したときに、エッジセグメントE2が同じ矩形領域の任意の辺に対応するか否かがチェックされる。そして、取得部5は、すべてのエッジセグメントに組合せについてこの判定を行うことにより、グラフを作成する。
2つのエッジセグメントが矩形領域を構成するための条件の実施例を示す。ここでは、図5(a)に示す分解方向dir2のエッジセグメントを一例として説明する。なお、分解方向dir2のエッジセグメントは、矩形領域の右辺に対応する。
以下の説明においては、エッジセグメントLの重心座標を(L.ave_x, L.ave_y)を表記する。エッジセグメントの重心座標は、エッジセグメントの形状を特定する外接矩形の4つの頂点座標から算出される。エッジセグメントの形状を特定する外接矩形については、エッジセグメントを抽出する際の重なり統合処理および統合処理に関連して説明した通りである。また、エッジセグメントの形状を特定する外接矩形の4つの頂点について、最大のx座標をL.max_x、最大のy座標をL.max_y、最小のx座標をL.min_x、最小のy座標をL.min_yと表記する。
取得部5は、仮想的な矩形領域を設定する。そして、分解方向dir2のエッジセグメントの1つが、その仮想的な矩形領域の右辺(または、その一部)に対応していると仮定する。図12〜図15に示す例では、仮想的な矩形領域21が設定され、分解方向dir2のエッジセグメントL1について、矩形領域候補を構成する他のエッジセグメント(以下、探索対象エッジセグメント)が探索される。
探索対象エッジセグメント(L2)が分解方向dir0から抽出された場合、下記の条件を満たせば、取得部5は、エッジセグメントL1、L2が矩形領域を構成する可能性があると判定する。この場合、エッジセグメントL1およびL2は、図12に示すように、それぞれ矩形領域21の右辺および下辺に対応する。
L1.ave_x >= L2.max_x かつ L1.max_y <= L2.ave_y
なお、2つ目の不等式において、L2.ave_yの代わりにL2.min_yを使用してもよい。
探索対象エッジセグメント(L3)が分解方向dir2から抽出された場合、下記の条件を満たせば、取得部5は、エッジセグメントL1、L3が矩形領域を構成する可能性があると判定する。この場合、エッジセグメントL1およびL3は、図13に示すように、いずれも矩形領域21の右辺に対応する。なお、TH1は、予め決められた所定の閾値である。
|L1.ave_x - L3.ave_x| < TH1
探索対象エッジセグメント(L4)が分解方向dir4から抽出された場合、下記の条件を満たせば、取得部5は、エッジセグメントL1、L4が矩形領域を構成する可能性があると判定する。この場合、エッジセグメントL1およびL4は、図14に示すように、それぞれ矩形領域21の右辺および上辺に対応する。
L1.ave_x >= L4.max_x かつ L1.min_y >= L4.ave_y
なお、2つ目の不等式において、L4.ave_yの代わりにL4.max_yを使用してもよい。
探索対象エッジセグメント(L5)が分解方向dir6から抽出された場合、下記の条件を満たせば、取得部5は、エッジセグメントL1、L5が矩形領域を構成する可能性があると判定する。この場合、エッジセグメントL1およびL5は、図15に示すように、それぞれ矩形領域21の右辺および左辺に対応する。
L1.ave_x >= L5.ave_x
探索対象エッジセグメントが分解方向dir0、dir2、dir4、dir6以外の分解方向から抽出された場合は、取得部5は、エッジセグメントL1およびその探索対象エッジセグメントが矩形領域を構成する可能性が無いと判定する。なお、ここでは、図12〜図15を参照しながら、一方のエッジセグメントが矩形領域の右辺である場合の判定条件を説明したが、一方のエッジセグメントが矩形領域の左辺、上辺、または下辺である場合の判定条件も、同様に得ることができる。
このように、取得部5は、各エッジセグメントについて他のエッジセグメントと共に矩形領域を構成する可能性があるか判定する。したがって、上記判定により作成されるグラフは、抽出されたエッジセグメントの総数がnである場合、n×n行列で表される。この場合、取得部5は、i番目のエッジセグメントとj番目のエッジセグメントとの組合せが矩形領域を構成するための条件を満たすときは、この行列の(i,j)成分および(j,i)成分にそれぞれ1を設定し、この組合せが上記条件を満たさないときは、この行列の(i,j)成分および(j,i)成分にそれぞれ0を設定する。作成されたグラフの一例を図16(a)に示す。
(2)クリークの抽出
取得部5は、上述のようにして作成したグラフからクリークを抽出する。クリークは、グラフの極大完全部分グラフに相当する。グラフが完全であるとは、グラフを構成する全てのノードがそれぞれ自分以外の全てのノードとパスで接続されている状態を意味する。また、極大完全部分グラフは、完全な部分グラフであって、且つ、その部分グラフを真に包含する他の完全部分グラフが存在しない部分グラフを意味する。したがって、クリークを構成するエッジセグメントの集合は、自分以外のエッジセグメントのすべてと互いに矩形領域を構成する可能性がある。図16(a)に示すグラフから抽出されたクリークの実施例を図16(b)に示す。なお、図16(b)において、「−1」は、クリークの構成要素の終了を意味している。
図16(b)に示す実施例において、例えば、クリーク1は、矩形領域を構成する可能性のあるエッジセグメントの集合として、L25、L24、L23、L18、L1を要素として有している。この場合、L25、L24、L23、L18、L1の中から任意の2つのエッジセグメントを抽出すると、抽出された2つのエッジセグメントは、常に、上述の矩形領域を構成するための条件を満たすことになる。
このように、取得部5は、エッジセグメント情報からグラフを作成し、さらにそのグラフからクリークを抽出する。ここで、各クリークは、矩形領域を構成する可能性のあるエッジセグメントの集合である。すなわち、取得部5は、複数のエッジセグメントの集合で表現される、1または複数の矩形領域候補を取得する。
<ステップS7:矩形領域候補の組合せの取得>
取得部5は、ステップS6で抽出した矩形領域候補に基づいて、矩形領域候補の組合せをリストアップする。矩形領域候補の組合せは、両立可能な矩形領域候補の集合で表される。
図17は、矩形領域候補の組合せを取得する処理を示すフローチャートである。このフローチャートは、上述のようにして矩形領域候補が抽出された後に、取得部5により実行される。このとき、取得部5は、矩形領域候補情報を使用する。矩形領域候補情報は、矩形領域候補の個数を表す情報、各矩形領域候補を識別する番号、および各矩形領域候補を構成するエッジセグメントの番号を含む。
ステップS21において、取得部5は、矩形領域候補情報からグラフを作成する。ステップS22において、取得部5は、このグラフからクリークを抽出することにより、矩形領域候補の組合せを求める。そして、取得部5は、矩形領域候補の組合せの個数を表す情報、及び各矩形領域候補の組合せを構成する矩形領域候補の識別番号を出力する。
(1)グラフの作成
取得部5は、ステップS21において、矩形領域候補情報からグラフを作成する。グラフは、上述したように、ノードおよびノード間を接続するパスから構成される。ただし、矩形領域候補の組合せを得る場合、各ノードは、1つの矩形領域候補に対応する。また、ノード間を接続するパスは、対応する2つの矩形領域候補が互いに両立する可能性を表す。
グラフは、各矩形領域候補について、当該矩形領域候補および他の各矩形領域候補が互いに両立する条件を満たすか否かを判定することにより作成される。2つの矩形領域候補が両立する条件は、例えば、下記の2つである。
条件1:一方の矩形領域候補が他方の矩形領域候補によって完全に包含されていない
条件2:2つの矩形領域候補が同じエッジセグメントを共有していない
たとえば、矩形領域候補1が矩形領域候補2の中に形成されているものとする。この場合、矩形領域候補1は、矩形領域候補2に完全に包含されているので、条件1を満たしていない。すなわち、矩形領域候補1、2は両立しないと判定される。
また、矩形領域候補1がエッジエレメントL1、L2、L3から構成され、矩形領域候補3がエッジエレメントL3、L5、L6から構成されるものとするこの場合、矩形領域候補1、3は、エッジエレメントL3を共有しているので、条件2を満たしていない。すなわち、矩形領域候補1、3は両立しないと判定される。
このように、取得部5は、各矩形領域候補について他の矩形領域候補と両立できるか否かを判定する。したがって、上記判定により作成されるグラフは、抽出された矩形領域候補の総数がmである場合、m×m行列で表される。この場合、取得部5は、i番目の矩形領域候補およびj番目の矩形領域候補が両立し得るときは、この行列の(i,j)成分および(j,i)成分にそれぞれ1を設定し、これらの矩形領域候補が両立できないときは、この行列の(i,j)成分および(j,i)成分にそれぞれ0を設定する。作成されたグラフの一例を図18(a)に示す。
(2)クリークの抽出
取得部5は、上述のようにして作成したグラフからクリークを抽出する。クリークは、上述したように、グラフの極大完全部分グラフに相当する。したがって、各クリークは、それぞれ、互いに両立し得る矩形領域候補の集合である。図18(a)に示すグラフから抽出されたクリークの実施例を図18(b)に示す。
このように、取得部5は、矩形領域候補情報からグラフを作成し、さらにそのグラフからクリークを抽出する。ここで、各クリークは、両立し得る矩形領域候補の集合である。すなわち、取得部5は、1または複数の矩形領域候補の集合で表現される、1または複数の矩形領域候補の組合せを取得する。
<ステップS8〜S9:評価および抽出>
算出部6は、両立可能な矩形領域候補の組合せのそれぞれに対して、再現率および適合率を算出し、さらに再現率および適合率に基づいて決まる評価値を算出する。評価値は、いわゆるF値である。そして、画像抽出部7は、最も評価値の高い矩形領域候補の組合せを特定し、その組合せに含まれる矩形領域の画像を抽出する。
(1)再現率の計算
算出部6は、矩形領域候補の組合せのそれぞれについて再現率を計算する。再現率は、矩形領域候補の組合せが抽出されたエッジセグメントによってどれだけ説明されているかを表す。この実施例では、再現率は、矩形領域候補の組合せに含まれている各矩形領域の外周が、抽出されたエッジセグメントによりカバーされている程度または割合を表す。
(2)適合率の計算
算出部6は、矩形領域候補の組合せのそれぞれについて適合率を計算する。適合率は、矩形領域候補の組合せが、抽出されたエッジセグメントをどれだけ説明できるかを表す。この実施例では、適合率は、エッジ抽出部4により抽出されたすべてのエッジセグメントのうち、矩形領域候補の組合せに含まれている矩形領域の辺として使用されている程度または割合を表す。
(3)F値
算出部6は、矩形領域候補の組合せのそれぞれについてF値を計算する。F値は、再現率および適合率を考慮した評価尺度であり、再現率および適合率の調和平均(調和平均に定数を乗算した値を含む)により得られる。すなわち、再現率をRで表し、適合率をPで表すとき、F値は下式で計算される。
F値=2×R×P/(R+P)
(4)画像抽出
画像抽出部7は、最も評価値の高い矩形領域候補の組合せを特定し、その組合せに含まれる1または複数の矩形領域の画像を抽出する。抽出された画像データは、抽出結果格納部8に格納される。そして、抽出結果格納部8に格納された抽出画像データは、例えばユーザからの指示に応じて、出力部9により出力される。
<実施例>
以下の実施例では、図19に示すように、入力画像から9個のエッジセグメントL1〜L9が抽出されているものとする。エッジセグメントの抽出は、図2に示すフローチャートのステップS1〜S5により実現される。
図19において、各エッジセグメントL1〜L9に対して「方向」および「長さ」が表記されている。「方向」は、ソーベルフィルタの出力に基づいて算出される角度に対応しており、この実施例では、図5(a)に示すdir0〜dir7で表される。「長さ」は、エッジセグメントを形成する矩形領域の長辺の長さであり、例えば、画素数で表される。
取得部5は、まず、エッジセグメントL1〜L9を参照し、矩形領域候補を取得する。矩形領域候補を取得するためには、取得部5は、エッジセグメントL1〜L9から抽出される任意の2個のエッジセグメントが矩形領域を構成する可能性を有するか判定する。このとき、取得部5は、すべての組合せについて矩形領域を構成する可能性を有しているか否かを判定する。この結果、図20(a)に示すグラフが作成される。
一例として、エッジセグメントL3について説明する。すなわち、エッジセグメントL3および他の各エッジセグメントのペアが、それぞれ矩形領域を構成する可能性があるか否かが判定される。なお、エッジセグメントL3の方向は、dir2である。
(1)エッジセグメントL1
エッジセグメントL1の方向は、dir4である。よって、エッジセグメントL3、L1が矩形領域を構成するためには、下記の条件を満たす必要がある。
L3.ave_x >= L1.max_x かつ L3.min_y >= L1.ave_y
ここで、エッジセグメントL3はエッジセグメントL1よりも右側に位置しており、エッジセグメントL3のX方向の重心座標は、エッジセグメントL1のX方向の最大座標よりも大きい。また、エッジセグメントL3はエッジセグメントL1よりも下側に位置しており、エッジセグメントL3のY方向の最小座標は、エッジセグメントL1のY方向の重心座標よりも大きい。すなわち、上記2つの条件は満たされており、エッジセグメントL3、L1は矩形領域を構成することができる。したがって、図20(a)に示すグラフにおいて、エッジセグメントL3、L1に対して「1」が設定される。
(2)エッジセグメントL2
エッジセグメントL2の方向は、エッジセグメントL1と同じであり、dir4である。また、エッジセグメントL3、L2間の位置関係は、エッジセグメントL3、L1間の位置関係と同じである。したがって、エッジセグメントL3、L2は矩形領域を構成することができ、エッジセグメントL3、L2に対して「1」が設定される。
(3)エッジセグメントL4
エッジセグメントL4の方向も、エッジセグメントL1と同じであり、dir4である。よって、エッジセグメントL3、L4が矩形領域を構成するための条件は、上述したエッジセグメントL3、L1についての条件と類似しており、下記の通りである。
L3.ave_x >= L4.max_x かつ L3.min_y >= L4.ave_y
ところが、エッジセグメントL3はエッジセグメントL4よりも左側に位置しており、エッジセグメントL3のX方向の重心座標は、エッジセグメントL4のX方向の最大座標よりも小さい。すなわち、上記条件は満たされず、エッジセグメントL3、L4は矩形領域を構成できない。したがって、図20(a)に示すグラフにおいて、エッジセグメントL3、L4に対して「0」が設定される。
(4)エッジセグメントL5
エッジセグメントL5の方向は、エッジセグメントL3と同じであり、dir2である。よって、エッジセグメントL3、L5が矩形領域を構成するためには、下記の条件を満たす必要がある。
|L3.ave_x - L5.ave_x| < TH1
閾値TH1は、2つのエッジセグメントがほぼ同一の直線上に配置されるような小さい値であるものとする。ここで、エッジセグメントL3はエッジセグメントL5よりも左側に位置しており、エッジセグメントL3のX方向の重心座標とエッジセグメントL5のX方向の重心座標との差分は、閾値TH1よりも大きい。すなわち、上記条件は満たされず、エッジセグメントL3、L5は矩形領域を構成できない。よって、図20(a)に示すグラフにおいて、エッジセグメントL3、L5に対して「0」が設定される。
(5)エッジセグメントL6
エッジセグメントL6の方向は、dir0である。よって、エッジセグメントL3、L6が矩形領域を構成するためには、下記の条件を満たす必要がある。
L3.ave_x >= L6.max_x かつ L3.max_y <= L6.ave_y
ここで、エッジセグメントL3はエッジセグメントL6の右先端部よりも左側に位置しており、エッジセグメントL3のX方向の重心座標は、エッジセグメントL6のX方向の最大座標よりも小さい。すなわち、上記条件は満たされず、エッジセグメントL3、L6は矩形領域を構成できない。よって、図20(a)に示すグラフにおいて、エッジセグメントL3、L6に対して「0」が設定される。
(6)エッジセグメントL7〜L8
エッジセグメントL7の方向も、dir0である。よって、エッジセグメントL3、L7が矩形領域を構成するためには、下記の条件を満たす必要がある。
L3.ave_x >= L7.max_x かつ L3.max_y <= L7.ave_y
ここで、エッジセグメントL3はエッジセグメントL7の右先端部よりも右側に位置しており、エッジセグメントL3のX方向の重心座標は、エッジセグメントL7のX方向の最大座標よりも大きい。また、エッジセグメントL3はエッジセグメントL7よりも上側に位置しており、エッジセグメントL3のY方向の最大座標は、エッジセグメントL7のY方向の重心座標よりも小さい。すなわち、上記2つの条件は満たされており、エッジセグメントL3、L7は矩形領域を構成することができる。したがって、図20(a)に示すグラフにおいて、エッジセグメントL3、L7に対して「1」が設定される。エッジセグメントL3、L8に対しても同様に「1」が設定される。
(7)エッジセグメントL9
エッジセグメントL9の方向は、dir6である。よって、エッジセグメントL3、L9が矩形領域を構成するためには、下記の条件を満たす必要がある。
L3.ave_x >= L9.ave_x
ここで、エッジセグメントL3はエッジセグメントL9の右側に位置しており、エッジセグメントL3のX方向の重心座標は、エッジセグメントL9のX方向の重心座標よりも大きい。すなわち、上記条件は満たされており、エッジセグメントL3、L9は矩形領域を構成することができる。したがって、図20(a)に示すグラフにおいて、エッジセグメントL3、L9に対して「1」が設定される。
同様に、取得部5は、すべてのエッジセグメントのペアについて矩形領域を構成し得るか判定する。この結果、図20(a)に示すグラフが作成される。
続いて、取得部5は、上述のようにして作成したグラフからクリークを抽出する。すなわち、図20(a)に示すグラフから極大完全部分グラフが抽出される。この結果、図20(b)に示す4つのクリークC1〜C4が抽出される。
各クリークは、それぞれ1つの矩形領域候補を表す。例えば、クリークC1は、5個のエッジセグメントL1、L2、L3、L8、L9が外周(すなわち、辺)の構成要素として使用される矩形領域候補を表す。このように、この実施例では、4個の矩形領域候補が得られる。
図21(a)〜図21(d)は、それぞれ、クリークC1〜C4に相当する矩形領域候補を示している。例えば、図21(a)において破線で表されている矩形領域候補REC1は、クリークC1の要素であるエッジセグメントL1、L2、L3、L8、L9によって形成されている。同様に、図21(b)〜図21(d)においてそれぞれ破線で表されている矩形領域候補REC2〜REC4は、クリークC2〜C4の要素によって形成されている。
なお、この実施例では、取得部5は、要素として3以上のエッジセグメントを有するクリークのみを抽出する。すなわち、極大完全部分グラフであっても、要素数(すなわち、エッジセグメントの個数)が2以下である場合は、取得部5は、そのようなクリークを抽出しない。例えば、エッジセグメントL4、L7は、矩形領域を構成する可能性がある。ところが、2つのエッジセグメントで矩形領域の形状を特定することは困難である。したがって、エッジセグメントL4、L7は、クリークとして抽出されない。エッジセグメントL4、L8も同様に、クリークとして抽出されない。ただし、取得部5は、要素数が2であるクリークを抽出するようにしてもよい。
さらに、取得部5は、上述のようにして得られる矩形領域候補REC1〜REC4について、矩形領域候補どうしの組合せが両立可能であるか否かを判定する。ここで、各エッジセグメントは、それぞれ1つの矩形領域候補に属するものであって、複数の矩形領域候補に共有されることはない。
例えば、矩形領域候補REC1に属する要素はエッジセグメントL1、L2、L3、L8、L9であり、矩形領域候補REC3に属する要素はエッジセグメントL1、L2、L5、L6、L9である。すなわち、矩形領域候補REC1、REC3は、エッジセグメントL1、L2、L9を共有している。したがって、矩形領域候補REC1、REC3が両立することはない。同様に、矩形領域候補REC1、REC4、矩形領域候補REC2、REC3、矩形領域候補REC3、REC4もそれぞれ両立することはない。
換言すれば、矩形領域候補REC1〜REC4においては、矩形領域候補REC1、REC2の組合せ、および矩形領域候補REC2、REC4の組合せのみが両立し得る。図22(a)は、上記判定結果により作成されるグラフを示している。
続いて、取得部5は、上述のようにして作成したグラフからクリークを抽出する。すなわち、図22(a)に示すグラフから極大完全部分グラフが抽出される。この結果、図22(b)に示す3つのクリークC11〜C13が抽出される。
各クリークは、それぞれ1つの矩形領域候補の組合せを表す。例えば、クリークC11は、2つの矩形領域候補REC1、REC2が存在する画像を表す。なお、この実施例では、要素が1つのみである部分グラフであっても、その要素が他のクリークに属していないときは、1つのクリークとして抽出される。例えば、クリークC12の要素は、矩形領域候補REC3のみである。
ここで、例えば、矩形領域候補REC1は、クリークC11に属する。このため、矩形領域候補REC1のみを要素として有する部分グラフは、極大グラフではない。よって、矩形領域候補REC1のみを要素として有する部分グラフは、クリークとして抽出されることはない。矩形領域候補REC2、REC4についても同様である。
図23(a)〜図23(c)は、それぞれ、クリークC11〜C13に相当する矩形領域候補の組合せを示している。図23(a)は、エッジセグメントL1、L2、L3、L8、L9を要素として有する矩形領域候補REC1、及びエッジセグメントL4、L5、L6を要素として有する矩形領域候補REC2が存在する画像を示す。図23(b)は、エッジセグメントL1、L2、L5、L6、L9を要素として有する矩形領域候補REC3が存在する画像を示す。図23(c)は、エッジセグメントL4、L5、L6を要素として有する矩形領域候補REC2、及びエッジセグメントL1、L2、L3、L7、L9を要素として有する矩形領域候補REC4が存在する画像を示す。
また、図23(a)〜図23(c)においては、各矩形領域候補の形状を示している。例えば、矩形領域候補REC1のサイズは「80×60」である。この表記は、矩形領域候補REC1のX方向の長さが「80」であり、Y方向の長さが「60」であることを表している。他の矩形領域候補REC2〜REC4についても同様である。
算出部6は、図23(a)〜図23(c)に示す矩形領域候補の組合せのそれぞれについて、再現率Rおよび適合率Pを計算し、さらに再現率Rおよび適合率PからF値を計算する。
再現率Rは、「矩形領域候補を構成するエッジセグメントの長さの和/矩形領域候補の周囲長の和」で算出される。また、適合率Pは、「矩形領域候補を構成するエッジセグメントの長さの和/抽出されている全てのエッジセグメントの長さの和」で算出される。そして、F値は、「2RP/(R+P)」で算出される。なお、矩形領域候補REC1、REC2、REC3、REC4の周囲長は、図23(a)〜図23(c)に示すように、それぞれ「280」「280」「480」「320」である。また、エッジ抽出部4によって抽出されているすべてのエッジセグメントL1〜L9の長さの和は、図19に示すように、「411」である。
図23(a)に示す組合せについての再現率R、適合率P、F値は、以下の通り算出される。
再現率R={(35+25+20+55+55)+(60+58+78)}/(280+280)=0.689
適合率P={(35+25+20+55+55)+(60+58+78)}/411=0.939
F値=2*0.689*0.939/(0.689+0.939)=0.795
図23(b)に示す組合せについての再現率R、適合率P、F値は、以下の通り算出される。
再現率R=(35+25+58+78+55)/480=0.523
適合率P=(35+25+58+78+55)/411=0.611
F値=2*0.523*0.611/(0.523+0.611)=0.564
図23(c)に示す組合せについての再現率R、適合率P、F値は、以下の通り算出される。
再現率R={(60+58+78)+(35+25+20+25+55)}/(280+320)=0.593
適合率P={(60+58+78)+(35+25+20+25+55)}/411=0.866
F値=2*0.593*0.866/(0.593+0.866)=0.704
画像抽出部7は、図23(a)〜図23(c)に示す矩形領域候補の組合せから、最もF値の高い組合せを特定する。この実施例では、図23(a)に示す矩形領域候補の組合せについてのF値が最も高い。よって、画像抽出部7は、図23(a)に示す矩形領域候補REC1、REC2に対応する画像を抽出して出力する。
<他の幾何学的図形の抽出>
上述の実施形態では、画像認識装置1は、入力画像から矩形の画像領域を抽出する。ただし、画像認識装置1は、矩形の画像領域を抽出する構成に限定されるものではなく、他の幾何学的図形に対応する画像領域を抽出してもよい。以下では、入力画像から正三角形の画像領域を抽出する構成および方法を説明する。
入力画像から正三角形の画像領域を抽出する方法は、図2に示すフローチャートの手順とほぼ同じである。ただし、正三角形の画像領域を抽出する場合、ステップS4およびステップS6の処理は、矩形領域を抽出する処理と異なる。
正三角形の画像領域を抽出する場合、エッジ抽出部4は、図24に示すように、2値化エッジ画像を24方向dir0〜dir23に分解する。各分解方向に割り当てられる角度範囲は、それぞれ15度である。
取得部5は、エッジ抽出部4により得られるエッジセグメントを利用して構成される正三角形領域候補を抽出する。ここで、任意の2つのエッジセグメントが正三角形領域を構成できるか否かを判定する条件を説明する。以下の説明では、一方のエッジセグメントL1の方向がdir0であるものとする。
探索対象エッジセグメント(L2)が分解方向dir0から抽出された場合、下記の条件を満たすときは、取得部5は、エッジセグメントL1、L2が正三角形領域を構成する可能性があると判定する。この場合、エッジセグメントL1およびL2は、図25に示すように、いずれも正三角形領域31の下辺に対応する。
|L1.ave_y - L2.ave_y| < TH1
探索対象エッジセグメント(L3)が分解方向dir8から抽出された場合、下記の条件を満たすときは、取得部5は、エッジセグメントL1、L3が正三角形領域を構成する可能性があると判定する。この場合、エッジセグメントL1およびL3は、図26に示すように、それぞれ正三角形領域31の下辺および右斜め上辺に対応する。「sqrt」は、平方根を表す。
L1.ave_x <= (L1.ave_y - L3.ave_y)/(sqrt(3)) + L3.ave_x
探索対象エッジセグメント(L4)が分解方向dir16から抽出された場合、下記の条件を満たすときは、取得部5は、エッジセグメントL1、L4が正三角形領域を構成する可能性があると判定する。この場合、エッジセグメントL1およびL4は、図27に示すように、それぞれ正三角形領域31の下辺および左斜め上辺に対応する。
L1.min_x >= -(L1.ave_y - L4.ave_y)/(sqrt(3)) + L4.ave_x
探索対象エッジセグメントが分解方向dir0、dir8、dir16以外の分解方向から抽出された場合は、取得部5は、エッジセグメントL1およびその探索対象エッジセグメントが正三角形領域を構成する可能性が無いと判定する。なお、ここでは、図25〜図27を参照しながら、一方のエッジセグメントが正三角形領域の下辺である場合の判定条件を説明したが、一方のエッジセグメントが正三角形領域の右斜め上辺または左斜め上辺である場合の判定条件も、同様に得ることができる。
この後、画像認識装置1は、両立可能な正三角形領域候補の組合せを取得し、さらに各組み合わせについてF値を算出する。そして、画像認識装置1は、F値の最も高い組合せに属する1または複数の正三角形領域候補の画像を抽出する。
<画像認識装置のハードウェア構成>
図28は、画像認識装置1を実現するためのコンピュータシステムのハードウェア構成を示す図である。コンピュータシステム100は、図28に示すように、CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、および入出力装置107を備える。CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、入出力装置107は、例えば、バス108を介して互いに接続されている。
CPU101は、メモリ102を利用して画像認識プログラムを実行することにより、エッジ抽出部4、取得部5、算出部6、画像抽出部7の一部または全部の機能を提供することができる。このとき、CPU101は、図2に示すフローチャートの処理を記述したプログラムを実行することにより、エッジ抽出部4、取得部5、算出部6、画像抽出部7の機能を提供してもよい。
メモリ102は、例えば半導体メモリであり、RAM領域およびROM領域を含んで構成される。記憶装置103は、例えばハードディスクであり、実施形態の画像認識に係わる画像認識プログラムを格納する。なお、記憶装置103は、フラッシュメモリ等の半導体メモリであってもよい。また、記憶装置103は、外部記録装置であってもよい。画像データ格納部2および抽出結果格納部8は、メモリ102および/または記憶装置103を利用して実現される。
読み取り装置104は、CPU101の指示に従って着脱可能記録媒体105にアクセスする。着脱可能記録媒体105は、たとえば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD−ROM、DVD等)などにより実現される。通信インタフェース106は、CPU101の指示に従ってネットワークを介してデータを送受信する。入出力装置107は、例えば、ユーザからの指示を受け付けるデバイス、デジタルカメラ等から画像データを受信するインタフェース、認識結果を出力するインタフェース等に相当する。
実施形態の画像認識プログラムは、例えば、下記の形態でコンピュータシステム100に提供される。
(1)記憶装置103に予めインストールされている。
(2)着脱可能記録媒体105により提供される。
(3)プログラムサーバ110から提供される。
なお、実施形態の画像認識方法は、複数のコンピュータを利用して上述の処理を提供してもよい。この場合、あるコンピュータが、上述の処理の一部を、ネットワークを介して他のコンピュータに依頼し、その処理結果を受け取るようにしてもよい。
さらに、実施形態の画像認識装置の一部は、ハードウェアで実現してもよい。或いは、実施形態の画像認識装置は、ソフトウェアおよびハードウェアの組み合わせで実現してもよい。
<実施形態の効果>
このように、実施形態の画像認識装置によれば、入力画像において抽出されるエッジセグメントを利用して、両立可能な、所定の幾何学的形状の対象物に対応する領域候補の組合せがすべて抽出される。よって、対象物が互いに重なり合っている場合、或いは、抽出されたエッジセグメントが途切れている場合であっても、正しい対象物(すなわち、実際の対象物に対応する領域)は、上述の領域候補の組合せの中に含まれている。よって、実施形態の画像認識装置によれば、入力画像を認識する際に、対象物が抽出されずに漏れてしまう可能性は低い。
また、実施形態の画像認識装置によれば、抽出すべき領域候補の組合せのそれぞれについて、エッジセグメントおよび領域候補に関する再現率および適合率に基づいて決まる評価値が算出される。そして、この評価値に従って抽出すべき領域が決定される。これにより、複数の領域候補の中から、正しい1または複数の抽出すべき領域を高い精度で特定できる。したがって、対象物が互いに重なり合っている場合、或いは、対象物と背景の色が類似している場合であっても、対象物の画像を精度よく抽出できる。
以上記載した各実施例を含む実施形態に関し、さらに以下の付記を開示する。なお、本発明は、以下の付記に限定されるものではない。
(付記1)
画像からエッジセグメントを抽出するエッジ抽出部と、
前記エッジ抽出部により抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを取得する取得部と、
前記取得部により取得された各組合せについて、前記図形の候補の外周が前記抽出されたエッジセグメントによってカバーされる程度を表す再現率、および、前記抽出されたエッジセグメントが前記図形の候補として利用される程度を表す適合率をそれぞれ算出する算出部と、
前記再現率および前記適合率に基づいて決まる評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する画像抽出部と、
を有する画像認識装置。
(付記2)
前記算出部は、前記図形の候補に利用されるエッジセグメントの長さの和を、前記図形の候補の外周の長さの和で除算することで前記再現率を算出し、前記図形の候補に利用されるエッジセグメントの長さの和を、前記エッジ抽出部により抽出された全てのエッジセグメントの長さの和で除算することで前記適合率を算出する
ことを特徴とする付記1に記載の画像認識装置。
(付記3)
前記評価値は、前記再現率および前記適合率の調和平均である
ことを特徴とする付記1または2に記載の画像認識装置。
(付記4)
前記取得部は、前記エッジ抽出部により抽出されたエッジセグメントを利用して形成される幾何学的な図形の候補を抽出し、抽出した図形の候補どうしの組合せの中で、図形の候補が両立し得る組合せを取得する
ことを特徴とする付記1〜3のいずれか1つに記載の画像認識装置。
(付記5)
前記取得部は、抽出した図形の候補どうしの組合せの中で、包含関係にない図形の候補の組合せを取得する
ことを特徴とする付記4に記載の画像認識装置。
(付記6)
前記取得部は、抽出した図形の候補どうしの組合せの中で、前記エッジセグメントが複数の図形の候補により共有されることのない図形の候補の組合せを取得する
ことを特徴とする付記4に記載の画像認識装置。
(付記7)
画像からエッジセグメントを抽出するエッジ抽出部と、
前記エッジ抽出部により抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを抽出し、前記組合せの中から、2以上の図形の候補が包含関係を有しておらず、且つ、2以上の図形の候補が同じエッジセグメント共有していない組合せを取得する取得部と、
前記取得部により取得された各組合せについて、前記抽出されたエッジセグメントに対する前記図形の候補の妥当性を表す評価値を算出する算出部と、
前記算出部により算出される評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する画像抽出部と、
を有する画像認識装置。
(付記8)
コンピュータが、
画像からエッジセグメントを抽出し、
前記抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを取得し、
前記各組合せについて、前記図形の候補の外周が前記抽出されたエッジセグメントによってカバーされる程度を表す再現率、および、前記抽出されたエッジセグメントが前記図形の候補として利用される程度を表す適合率をそれぞれ算出し、
前記再現率および前記適合率に基づいて決まる評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する
ことを特徴とする画像認識方法。
(付記9)
画像からエッジセグメントを抽出し、
前記抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを取得し、
前記各組合せについて、前記図形の候補の外周が前記抽出されたエッジセグメントによってカバーされる程度を表す再現率、および、前記抽出されたエッジセグメントが前記図形の候補として利用される程度を表す適合率をそれぞれ算出し、
前記再現率および前記適合率に基づいて決まる評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する
処理をコンピュータに実行させるための画像認識プログラム。
1 画像認識装置
3 処理部
4 エッジ抽出部
5 取得部
6 算出部
7 画像抽出部

Claims (5)

  1. 画像からエッジセグメントを抽出するエッジ抽出部と、
    前記エッジ抽出部により抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを取得する取得部と、
    前記取得部により取得された各組合せについて、前記図形の候補の外周が前記抽出されたエッジセグメントによってカバーされる程度を表す再現率、および、前記抽出されたエッジセグメントが前記図形の候補として利用される程度を表す適合率をそれぞれ算出する算出部と、
    前記再現率および前記適合率に基づいて決まる評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する画像抽出部と、
    を有する画像認識装置。
  2. 前記算出部は、前記図形の候補に利用されるエッジセグメントの長さの和を、前記図形の候補の外周の長さの和で除算することで前記再現率を算出し、前記図形の候補に利用されるエッジセグメントの長さの和を、前記エッジ抽出部により抽出された全てのエッジセグメントの長さの和で除算することで前記適合率を算出する
    ことを特徴とする請求項1に記載の画像認識装置。
  3. 画像からエッジセグメントを抽出するエッジ抽出部と、
    前記エッジ抽出部により抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを抽出し、前記組合せの中から、2以上の図形の候補が包含関係を有しておらず、且つ、2以上の図形の候補が同じエッジセグメント共有していない組合せを取得する取得部と、
    前記取得部により取得された各組合せについて、前記抽出されたエッジセグメントに対する前記図形の候補の妥当性を表す評価値を算出する算出部と、
    前記算出部により算出される評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する画像抽出部と、
    を有する画像認識装置。
  4. コンピュータが、
    画像からエッジセグメントを抽出し、
    前記抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを取得し、
    前記各組合せについて、前記図形の候補の外周が前記抽出されたエッジセグメントによってカバーされる程度を表す再現率、および、前記抽出されたエッジセグメントが前記図形の候補として利用される程度を表す適合率をそれぞれ算出し、
    前記再現率および前記適合率に基づいて決まる評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する
    ことを特徴とする画像認識方法。
  5. 画像からエッジセグメントを抽出し、
    前記抽出されたエッジセグメントを利用して形成される予め決められた幾何学的な図形の候補の組合せを取得し、
    前記各組合せについて、前記図形の候補の外周が前記抽出されたエッジセグメントによってカバーされる程度を表す再現率、および、前記抽出されたエッジセグメントが前記図形の候補として利用される程度を表す適合率をそれぞれ算出し、
    前記再現率および前記適合率に基づいて決まる評価値が最大となる組合せに含まれる図形の候補に対応する領域を抽出する
    処理をコンピュータに実行させるための画像認識プログラム。
JP2011175879A 2011-08-11 2011-08-11 画像認識装置および画像認識方法 Expired - Fee Related JP5712859B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011175879A JP5712859B2 (ja) 2011-08-11 2011-08-11 画像認識装置および画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011175879A JP5712859B2 (ja) 2011-08-11 2011-08-11 画像認識装置および画像認識方法

Publications (2)

Publication Number Publication Date
JP2013041315A JP2013041315A (ja) 2013-02-28
JP5712859B2 true JP5712859B2 (ja) 2015-05-07

Family

ID=47889687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011175879A Expired - Fee Related JP5712859B2 (ja) 2011-08-11 2011-08-11 画像認識装置および画像認識方法

Country Status (1)

Country Link
JP (1) JP5712859B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6543025B2 (ja) * 2014-09-12 2019-07-10 キヤノン株式会社 画像処理装置および画像処理方法
US9898683B2 (en) * 2016-05-31 2018-02-20 Konica Minolta Laboratory U.S.A., Inc. Robust method for tracing lines of table
CN114467111B (zh) * 2019-08-28 2023-08-22 日产自动车株式会社 物体识别方法及物体识别装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3720892B2 (ja) * 1995-12-15 2005-11-30 株式会社東芝 画像処理方法および画像処理装置
JP2006107034A (ja) * 2004-10-04 2006-04-20 Konica Minolta Photo Imaging Inc 画像解析方法及び装置、画像処理方法及びシステム、これらの動作プログラム
JP4525519B2 (ja) * 2005-08-18 2010-08-18 日本電信電話株式会社 四辺形評価方法及び装置及びプログラム
JP4712487B2 (ja) * 2005-08-25 2011-06-29 株式会社リコー 画像処理方法及び装置、デジタルカメラ装置、並びに画像処理プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2013041315A (ja) 2013-02-28

Similar Documents

Publication Publication Date Title
US20170308736A1 (en) Three dimensional object recognition
CN112581629A (zh) 增强现实显示方法、装置、电子设备及存储介质
US8340433B2 (en) Image processing apparatus, electronic medium, and image processing method
CN108563559A (zh) 一种验证码的测试方法、装置、终端设备及存储介质
JP2018067120A (ja) 指紋処理装置、指紋処理方法、プログラム、指紋処理回路
CN111583381B (zh) 游戏资源图的渲染方法、装置及电子设备
US10229543B2 (en) Information processing device, information superimposed image display device, non-transitory computer readable medium recorded with marker display program, non-transitory computer readable medium recorded with information superimposed image display program, marker display method, and information-superimposed image display method
CN110264523B (zh) 一种确定测试图像中的目标图像的位置信息的方法与设备
CN111290684B (zh) 图像显示方法、图像显示装置及终端设备
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN116168351B (zh) 电力设备巡检方法及装置
JP2018055199A (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
CN112651953A (zh) 图片相似度计算方法、装置、计算机设备及存储介质
JP5712859B2 (ja) 画像認識装置および画像認識方法
CN113781505B (zh) 染色体分割方法、染色体分析仪及存储介质
JP2009110070A (ja) 画像処理装置及び画像処理方法、コンピュータプログラム
CN114359352A (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN117593420A (zh) 基于图像处理的平面图纸标注方法、装置、介质及设备
CN115546219B (zh) 检测板式生成方法、板卡缺陷检测方法、装置及产品
Han et al. L-split marker for augmented reality in aircraft assembly
CN111950356B (zh) 印章文本定位方法、装置及电子设备
CN112464753A (zh) 图像中关键点的检测方法、检测装置及终端设备
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
Tybusch et al. Color-based and recursive fiducial marker for augmented reality
CN113516131A (zh) 图像处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150223

R150 Certificate of patent or registration of utility model

Ref document number: 5712859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees