JP2017227993A - 画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2017227993A
JP2017227993A JP2016122068A JP2016122068A JP2017227993A JP 2017227993 A JP2017227993 A JP 2017227993A JP 2016122068 A JP2016122068 A JP 2016122068A JP 2016122068 A JP2016122068 A JP 2016122068A JP 2017227993 A JP2017227993 A JP 2017227993A
Authority
JP
Japan
Prior art keywords
image
rectangular frame
pattern
candidate
recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016122068A
Other languages
English (en)
Other versions
JP7037875B2 (ja
Inventor
伸 水谷
Shin Mizutani
伸 水谷
白井 良成
Yoshinari Shirai
良成 白井
泰恵 岸野
Yasue Kishino
泰恵 岸野
太 納谷
Futoshi Naya
太 納谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016122068A priority Critical patent/JP7037875B2/ja
Publication of JP2017227993A publication Critical patent/JP2017227993A/ja
Application granted granted Critical
Publication of JP7037875B2 publication Critical patent/JP7037875B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Abstract

【課題】認識器を用いた認識に合わせて、異方的な拡大又は縮小により正規化した画像を生成することができる画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体を提供する。【解決手段】画像正規化装置100は、演算部20において、候補獲得部32が、入力画像に写っている物体を表す領域である図パターンを、図パターンがはみ出さず、かつ、図パターンに接するよう長方形の枠によって囲み、長方形の枠を用いて候補画像を獲得し、画像正規化部34が、候補画像を、長方形の枠が、認識器が認識する物体の縦横比となるように拡大又は縮小することにより正規化する。【選択図】図1

Description

本発明は、画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体に係り、特に、認識器に入力するための正規化された画像を生成する画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体に関する。
画像認識分野で、ある物体と当該物体を撮影するカメラとの距離が変化したり、カメラに対して物体が回転したりして、画像中のその物体の像が、回転/拡大/縮小する場合、それらを不変に認識/識別することは、単純な画像認識技術では困難である。画像認識部分だけで、回転/拡大/縮小パターンを認識させるには、各々全ての変化に対応したパターン認識/識別器を前もって用意する必要があり、莫大な数のパターン認識/識別器が必要となる。これらを回避する方法として、認識させたい画像パターンの特徴量を計算し、それを入力画像パターンの特徴量と比較する方法が考案されている。例えば、非特許文献1に記載されている画像の特徴量であるSIFT(Histogram of Oriented Gradients)/SURF(Speed Up Robust Features)[SIFT/SURF]などは、回転、拡大、縮小の変形には依存しない特徴量を用いて、画像パターンの判別/マッチングを行なうことが可能である。
中部大学工学部情報工学科 藤吉研究室,「画像局所特徴量と特定物体認識-SIFTと最近のアプローチ-」,[平成28年6月20日検索],インターネット<http://www.vision.cs.chubu.ac.jp/cvtutorial/PDF/02SIFTandMore.pdf>
しかし、これらの特徴量は、Difference−of−Gaussian(DoG)と呼ばれる二次元等方的なガウス関数によるフィルタを用いて対象画像のスケールを得るため、対象画像の拡大、縮小に関して、二次元平面の直交する二つの軸で等方的な場合のみを想定している。そのため、SIFT/SURFは、二次元の直交軸で異方的な拡大/縮小する画像による不変な判別/マッチングに使用することはできない。一般的には、三次元物体の画像上の二次元平面での見えは、射影変換となり、その一部である台形変換などは、ある回転角の範囲で、画像上の直交する二つの軸の独立な拡大/縮小に近似できる。二つの軸で独立な拡大/縮小となる不変認識ができれば、射影変換の一部の台形変換が不変認識でき、SIFT/SURFで困難だった台形変換への適用もある程度広がる。
また、SIFT/SURFなどの特徴量は、入力画像中の局所領域と、テンプレートと呼ばれる特定物体画像を比較し同じものか否かを判定するテンプレートマッチング(参考文献1参照)を行なうために使用されることが主である。例えば、道路標識など、特定物体の同定/検出には有効であるが、画像中の物体のクラス分類(画像分類)や、クラス分類を行なう一般物体認識/検出には、そのままではSIFT/SURF特徴量を使用することが困難であるという問題があった。
[参考文献1]中京大学工学部 橋本学,「テンプレートマッチングの魅力」,インターネット<http://isl.sist.chukyo-u.ac.jp/Archives/SSII2013TS-Hashimoto.pdf>
この問題のために、bag−of−keypoints(BoK)という方法で、画像分類を行なうことが提案されているが、この方法は、複数の局所特徴量の画像上の位置関係は無視されるという、画像認識上重要な副作用的欠点がある。つまり、局所特徴量のセットが同じならば、局所的な画像の位置の入れ替わりがあっても、同じクラスとして分類されてしまう。bag−of−keypointsという方法は、画像をSIFT/SURFで使用する局所特徴量(keypoints)の一つの集まり(bag−of−keypoints)とみなし、その統計量により、画像をカテゴリに分けるものである(参考文献2参照)。
[参考文献2]中部大学工学部情報工学科 藤吉研究室,「局所特徴量と統計学習手法による物体検出」,[平成28年6月20日検索],インターネット<http://www.vision.cs.chubu.ac.jp/CVTutorial/PDF/03ObjectDetection.pdf>
そのため、局所特徴量の画像上の位置関係は無視される。一般的に、画像分類は、画像中の物体がどんなカテゴリに属するかを分類する機能で、同じカテゴリ内のものは、その個体差を無視し、共通の特徴からクラス分類を行い、異なるカテゴリの間は、そのカテゴリ間の特徴差によりクラス分類を行う必要がある。そのため、画像分類は、機械学習などの統計的な学習法により、画像認識器を構成する必要があり、前述の特定物体の同定/検出に使用されるテンプレートマッチングを分類に使用することは、複数のテンプレートでカテゴリを形成するなどの特別な工夫を導入するなどの方法以外では通常困難である。
以上、画像二次元平面で異方的な拡大/縮小する画像を不変に認識すること、及びSIFT/SURF特徴量を一般物体認識に使用することの二点について、同時に満たすことが困難であるという課題があった。
本発明は、上記課題を鑑みて成されたものであり、認識器を用いた認識に合わせて、異方的な拡大又は縮小により正規化した画像を生成することができる画像正規化装置、方法、及び記録媒体を提供することを目的とする。
上記目的を達成するために、第1の発明に係る画像正規化装置は、入力画像から、認識器に入力するための正規化された画像を生成する画像正規化装置であって、前記入力画像に写っている物体を表す領域である図パターンを、前記図パターンがはみ出さず、かつ、前記図パターンに接するよう長方形の枠によって囲み、前記長方形の枠を用いて、候補画像を獲得する候補獲得部と、前記候補画像を、前記長方形の枠が、前記認識器が認識する物体の縦横比となるように拡大又は縮小することにより正規化する画像正規化部と、を含んで構成されている。
また、第1の発明に係る画像正規化装置において、前記候補獲得部は、前記図パターン及び前記長方形の枠の何れか一方を回転させて得られる複数の長方形の枠のうち、予め定めた前記長方形の枠に関する基準条件を満たす前記長方形の枠を用いて、前記候補画像を各々獲得するようにしてもよい。
また、第1の発明に係る画像正規化装置において、前記基準条件を、前記長方形の枠についての、外周の長さ、対角線の長さ、又は面積が最小であることとするようにしてもよい。
第2の発明に係る画像正規化方法は、入力画像から、認識器に入力するための正規化された画像を生成する画像正規化装置における画像正規化方法であって、候補獲得部が、前記入力画像に写っている物体を表す領域である図パターンを、前記図パターンがはみ出さず、かつ、前記図パターンに接するよう長方形の枠によって囲み、前記長方形の枠を用いて、候補画像を獲得するステップと、画像正規化部が、前記候補画像を、前記長方形の枠が、前記認識器が認識する物体の縦横比となるように拡大又は縮小することにより正規化するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る画像正規化方法において、前記候補獲得部が候補画像を獲得するステップは、前記図パターン及び前記長方形の枠の何れか一方を回転させて得られる複数の長方形の枠のうち、予め定めた前記長方形の枠に関する基準条件を満たす前記長方形の枠を用いて、前記候補画像を各々獲得するようにしてもよい。
また、第2の発明に係る画像正規化方法において、前記基準条件を、前記長方形の枠についての、外周の長さ、対角線の長さ、又は面積が最小であることとするようにしてもよい。
また、第3の発明に係る記録媒体は、コンピュータを、第1の発明に係る画像正規化装置を構成する各部として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明の画像正規化装置、方法、及び記録媒体によれば、入力画像に写っている物体を表す領域である図パターンを、図パターンがはみ出さず、かつ、図パターンに接するよう長方形の枠によって囲み、長方形の枠を用いて、候補画像を獲得し、候補画像を、長方形の枠が、認識器が認識する物体の縦横比となるように拡大又は縮小して正規化することにより、認識器を用いた認識に合わせて、異方的な拡大又は縮小により正規化した画像を生成することができる、という効果が得られる。
本発明の実施の形態に係る画像正規化装置の構成を示すブロック図である。 文字を写した入力画像の一例を示す図である。 文字のテンプレートの一例を示す図である。 背景領域と文字領域の図地分離した二値画像の一例を示す図である。 連結領域をラベリング後、最初に当てはめた長方形の枠で切り出した図パターンの各々の一例を示す図である。 回転させた図パターンの各々の一例を示す図である。 候補画像の各々の一例を示す図である。 、最小の面積になった長方形の枠と、外側の一定領域とを含む候補画像の一例を示す図である。 候補画像の各々を正規化した場合の一例を示す図である。 入力画像に長方形の枠を当てはめた場合の一例を示す図である。 文字Eと読める図パターンを認識した場合の一例を示す図である。 長方形の枠を回転させる場合の一例を示す図である。 本発明の実施の形態に係る画像正規化装置における画像正規化処理ルーチンを示すフローチャートである。 魚を写した入力画像の一例を示す図である。 魚の領域と背景の領域を分離した一例を示す図である。 魚の背骨の検出例を示す図である。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本実施の形態の手法は、上記の課題の困難を解決する方法を提供する。上記の二つの課題の内、まず、拡大/縮小の変形に対して、二次元平面で等方的な拡大/縮小する画像の場合だけ、正規化できていた機能を、異方的な拡大/縮小する画像も各々の二次元軸で独立に正規化できるようにする。これにより、正規化画像を、認識/判別器へ送る画像とし、拡大/縮小の変形には依存しない認識/判別処理ができるようにする。
また、同時に、認識部分は、単なるテンプレートマッチングだけでなく、統計的な学習で構成される認識器への入力もできるように、従来の局所特徴量が使用できるようにする。
<本発明の実施の形態に係る原理>
次に、本発明の実施の形態における原理を説明する。
本発明の実施の形態は、物体による二次元の像が、閉曲線の内部(背景に対する閉領域)の図パターンと、その他の背景の地の二つの領域に分離できる場合、その図パターンがはみ出さず、かつ、接するように囲む長方形の枠をある基準により生成し、その枠内と周辺の二次元像を含む入力画像を正規化して切り出し、認識器へ伝えるという手法で、上記の課題を解決する。必要な図地分離は、認識したい物体が、図地分離したときに図パターンに入っていればよく、認識したい物体とそれ以外が完全に分離されている必要はなく(分離できていれば、改めて認識する必要なし)、認識したい物体を含む図パターン候補を全て認識器へ入力することにより、認識器側で判断する。対象物の図パターンがはみ出さず、接するように囲むことができる長方形の枠で対象物の画像の大きさを把握する。この処理の結果、枠の各々の辺の長さがわかるので、拡大/縮小の変形を正規化することができる。ある物体の二次元像の一つの図パターンを囲む長方形の枠は、様々存在するが、それを一意に決めるために、基準条件を一つ設ける。当然、長方形の枠は、対象物の図パターンがはみ出さず、接するように囲むことができる必要がある。その上での基準である。例えば、長方形の枠の外周長さが最小、長方形の枠の対角線の長さが最小、長方形の枠の面積が最小など複数考えられ、物体による図パターン形状によっては、これらの内、いくつかの条件が同じ長方形の枠になる場合もある。これらのうちの一つの基準条件により、対象物にもよるが、基準条件を満たす長方形の枠は、高々数個で、対象の図パターンを囲むことができる。その後、長方形の枠内とその周り一定の範囲内の画像を、長方形の枠の大きさに応じて正規化し、認識器に高々数回入力する。これらの内、最も当てはまるものを認識器の判断とすればよい。長方形の枠の周り一定の範囲とは、理想的には、長方形の枠内とその周りの範囲で、図地パターンの面積が半分ずつになるようなもので、実際には、最初から長方形の枠の各々の辺の何倍かを決めて用いてもよい。
回転に関する正規化は、長方形の枠の大きさに応じて拡大/縮小を正規化する際に4方向の可能性だけを考慮に入れ、全ての場合を認識器に入力すれば、達成できる。可能性のある四つの正規化した画像を認識器に入力し、最も当てはまるものを選択すればよい。これにより、回転変換にも不変な入力ができる。認識器に全てを入力する前に、四つの正規化した画像の様々な特徴量を用いて、最も適したと思われる方向だけを選ぶことも可能である。使用できる特徴量は、様々である。
枠は、SIFT/SURFのように円でも、楕円、三角形などの多角形でもつくれるが、長方形にする理由は、以下の通りである。画像は二次元平面で表現されるため、独立な軸は、x、y軸の二つである。そのため、この独立な軸に対して、それと平行な辺を持つ長方形を用いることにより、画像の単純な拡大/縮小変形を表現できる。他の多角形では、画像の単純な拡大/縮小変形を表現することは困難である。円は、等方的な拡大/縮小変形しか表現できない。また、楕円の場合、対象の図パターンに接するものを見つけるのが困難である。このため、枠を長方形にしている。
以下に、正規化の具体的方法を示す。具体的には、例えば、物体による閉領域の図パターンの中心を任意に設定して、図パターンを様々な角度で回転させ、長方形の枠で囲み、その外周長さや対角線の長さ、又は面積が最小になる角度のものを選べばよい。ここでは、長方形の枠の方は、回転させず、対象物の画像を回転させる方法を説明する。方法としては、この逆でも、もちろんよい。長方形の枠は、対象物の図パターンがはみ出さず、接するように囲むため、回転させた閉領域の図パターンの最小、最大のx座標と同じくy座標が枠を構成する直線となるように構成し、対象物の画像の様々な回転角度で同様に枠を作り、その中で、基準条件を満たすものを選べばよい。その際、相対角度差として0度、90度、180度、及び270度の回転した図パターンに対応する枠が、基準を満たすものとして選ばれる。この四通りの長方形の枠の大きさに応じて拡大/縮小の正規化を行なった後、認識/判別器に入力し、いずれの回転角度の画像が最も当てはまるかを判定すればよい。この際、認識/判別器が、二分器の場合、最も近いとされても、相対的に近いだけでは判断できず、絶対的な近さのしきい値により判断が必要である。判断は、これだけ近ければ、この分類は正しいと判断できるしきい値を用いる。
上記の説明では、対象とする物体による二次元の像が、閉曲線の内部(背景に対する閉領域)の図パターンと、その他の背景の地の二つの領域に分離できる場合を想定した。この状況は、画像として、各々の画素に割り当てられたスカラー値(特徴量、例えば、輝度やRGB色の一つの成分量など)が、二値(二つのグループ)に分けられ、図と地の二つの領域に分離できる場合である。画像中の対象となる物体が図を含む領域として、画像中では二次元的に閉曲線内の領域(閉領域)で切り出せ、その他の領域は地として分離できるものである。しかし、物体による二次元像の図パターンが、閉領域になっていない場合には、長方形の枠で囲むことは不可能になる。例えば、近接する画素が近い連続値の特徴量を持つ画像などで、特に白黒グレイスケールの輝度画像では、近接する画素の輝度が近い連続値になっている場合である。これらの場合では、画像そのもの、画素の輝度値ではなく、各々の画素のある特徴量を計算し、二値化などを行なった後に、図と地が分離し、対象となる物体の画像部分を閉領域にできれば、この方法を用いることは可能である。輝度の場合は、輝度値があるしきい値以上の明るい/暗い領域であるが、例えば、二つの画像の相違のある領域とない領域に分けるために、二つの画像の各々の画素の特徴量の差を用いることも可能である。背景画像が何らかの方法で得られる場合、入力画像と背景画像の特徴量との差があるしきい値以上の変化があった領域とそうでない領域に分けるなどである。
上記の方法は、様々な特徴量を用いた画像処理を行なって得られる閉領域を対象にできる。しかし、上記の方法でも困難な場合も考えられ、例えば、人間や動物の顔など部位を対象にする場合で、どこまでが顔で首、胴体との境目が画像処理で得られない場合が存在する。照明条件によっては、二値化などの方法で適用可能な場合がある。しかし、このような特定のカテゴリを対象とする画像認識では、特に対象の物体の事前知識を利用して、入力画像を正規化することが可能である。人間の顔、動物の顔などを入力画像から検出するタスクでは、目の特徴を使用し、二つの目の位置が検出できれば、目の間の距離から顔の大きさを推定でき、その領域を対象物の画像とすればよい。不確定な場合、対象物の画像候補を複数考えてもよい。目が一つのみ、または、二つ以上検出した場合も、複数の組み合わせにより、対象物の画像候補を複数考えればよい。画像から目を検出するためには、テンプレートマッチングなどの手法を用いることができる。他にも、枠を用いた方法を使わない、対象の事前知識を用いることができる例がある。枠も使用できるが、例えば、魚ならば、その背骨など、その対象に特徴的な部位を用いれば良いので、様々に考えられる。
また、物体による二次元像の図パターンとしての閉領域に地パターンが入り込む場合も考えられる。例えば、ドーナツのような穴がある物体や、二値化される過程で、本来、図パターンとして分類される画素が何らかの理由により、地パターンに分類される場合である。この場合は、入り込んだまま上記の枠を当てはめても構わない。上記と同様に回転、拡大、縮小に対して正規化できる。
以降の説明においても、説明を簡単にするため、対象となる物体が、画像パターンで閉曲線内の領域として図地分離できるものを用いるが、その図地分離には、従来からある様々な画像処理技術を用いることにより、達成できる場合が多い。
認識器に入力する画像は、当てはめた枠内と周辺を含む二次元像を正規化したもので、対象となる領域とそうでない領域との面積比が約1:1になるように設定するのが、その後の認識器やテンプレートマッチングにとって望ましい。
また、認識器に伝える枠情報付きの入力画像は、次の二通り考えられる。一つは、認識したい物体による二次元像の図パターンを閉領域にするために用いたしきい値処理などをした結果から得られた二値特徴量である。次に、その処理をする前の元画像から同じサイズで切り出した画像から計算した各々の画素の特徴量である。一般的に、認識器は、通常その入力された特徴量画像を使用して認識する。
また、本実施の形態の手法は、入力画像を正規化する方法なので、特に認識器/テンプレートマッチングは特定する必要はない。しかし、使用する認識器に用いるテンプレートや学習画像にも、長方形の枠を上記の基準により、当てはめ、長方形の枠の外側を一定領域含めて正規化された画像を使用し、認識器/テンプレートマッチングを構成する必要がある。回転角に関しては、対象物の特徴的な軸の角度を統一し、一つに決め、配置し、拡大/縮小は、学習画像の縦横の長さを複数学習画像間で同じにすることにより上記の認識器/テンプレートマッチングに対する条件を達成できる。
以上の手法で入力画像をテンプレートマッチングや認識器に合わせて正規化できるが、複数の対象三次元物体が接近して、その二次元像が重なった場合には、重なった画像や図パターンが得られるため、上記の方法で正規化して認識器に入力しても、正しい認識は得られない。この場合には、以上の処理に加えて、何からの工夫を入れないと認識はできない点には留意する必要がある。
以上、本発明の実施の形態の手法によって、認識/識別器への入力画像を正規化することができ、正規化により、二次元独立軸における拡大/縮小によって、不変のパターン認識/識別ができる。一般的には、三次元物体の画像上の二次元平面での見えは、射影変換となり、その一部である台形変換などは、ある回転角の範囲で、画像上の直交する二つの軸の独立な拡大/縮小に近似できる。二つの軸で独立な拡大/縮小となる不変認識ができれば、射影変換の一部の台形変換が不変認識でき、SIFT/SURFで困難だった台形変換への適用もある程度広がる。
また、本発明の実施の形態の手法は、画像認識に用いる特徴量として、画像から計算できるどんなものでも使用できる。そのため、特定物体認識のテンプレートマッチングだけではなく、機械学習による統計的認識/識別器を使用し、個別変化の大きい物体のカテゴリ分類を伴う一般的な物体認識方法にも使用できる、特徴量の例としては、二値化された局所領域の図の画素数のヒストグラム、二値化する前のオリジナル画像のRGB色の成分値のヒストグラム、HOG(Histogram of Oriented Gradients)と呼ばれる輝度の勾配方向とその強度のヒストグラム[HOG]など様々なものが考えられる(参考文献3参照)。これにより、統計的認識/識別器として、単なるテンプレートマッチングだけではなく、AdaBoostやNN(Neural Networks)、SVM(Support Vector Machine)[AdaBoost/NN/SVM]など、従来技術を自由に選ぶことができる。
[参考文献3]中部大学工学部情報工学科 藤吉研究室,「HOG特徴量とBoostingを用いた人検出」,[平成28年6月20日検索],インターネット<http://www.vision.cs.chubu.ac.jp/joint_hog/pdf/HOG+Boosting_LN.pdf>
また、本発明の実施の形態の手法では、対象物の存在領域を二値画像など使用して、その候補の位置/領域を決める。そのため、この方法の副次的効果として、入力画像をラスタスキャンし、大量に処理せずに、認識/識別器に入力する局所画像の候補を絞り込むことができ、処理時間を大幅に少なくすることができるという利点がある。
以下、図面を参照して本発明の実施の形態における構成を詳細に説明する。
<本発明の第1の実施の形態に係る画像正規化装置の構成>
次に、本発明の第1の実施の形態に係る画像正規化装置の構成について説明する。
図1に示すように、本発明の第1の実施の形態に係る画像正規化装置100は、CPUと、RAMと、後述する画像正規化処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像正規化装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、図2に示すような、物体として文字が写り込んだ画像を入力画像として受け付ける。入力画像の輝度値はグレイスケールになっている。本実施の形態では、入力画像の中の文字パターンを、図3に示す認識対象である文字Eとテンプレートマッチングするために、回転/拡大/縮小し、不変に認識/検出する場合を考える。
演算部20は、領域抽出部30と、候補獲得部32と、画像正規化部34と、画像認識部36と、認識器40とを含んで構成されている。
認識器40には、文字とのテンプレートマッチングにより認識する認識器が記憶されている。なお、認識器は、テンプレートマッチングでなくても、どんなものでも使用できる。
領域抽出部30は、以下に説明するように、入力部10で受け付けた入力画像に写っている物体を表す領域である図パターンを、図パターンがはみ出さず、かつ、図パターンに接するよう長方形の枠によって囲み、長方形の枠で囲まれた対象領域画像を切り出す。本実施の形態では、入力画像に写っている文字を物体とする。
領域抽出部30は、まず、文字の図パターンがある物体領域とそうでない背景領域の図地分離を行なう。入力画像には、輝度がグレイスケールの様々な文字の画像パターンがあるが、図地分離のために、入力画像の画素の輝度を二値化すると図4のようになる。図4は、輝度値に対するしきい値処理後の二値画像であり、背景領域と文字領域の図地分離ができている。
領域抽出部30は、次に、地の部分と分離できた文字の部分の図パターンに対して、連結領域をラベリングし、図パターンの数を調べる。図パターンの数が、判定すべき対象の数となる。図4の場合は、図パターンの数は8個である。次に、対象となる図パターンを長方形の枠によって囲み、長方形の枠で囲まれた対象領域画像を一つずつ切り出す。最初に、対象となる図パターンの各々に接するように当てはめた長方形の枠で対象領域画像を切り出したものが、図5である。図5は、連結領域をラベリング後、最初に当てはめた長方形の枠で切り出した図パターンの各々である。
候補獲得部32は、以下に説明するように、領域抽出部30によって切り出した対象領域画像から、長方形の枠に関する基準条件を満たす長方形の枠を用いて、候補画像を各々獲得する。本実施の形態では、基準条件を、長方形の枠についての面積が最小であることとする。また、対象領域画像を回転させて、当てはめた複数の長方形の枠のうち、面積が最小となる長方形の枠を用いて、候補画像を各々獲得する。
候補獲得部32は、まず、切り出した対象領域画像に対して、中心を任意にとった様々な角度の回転変換を加える。図6では、0度から90度分までの回転で15度毎の回転のみ(90度回転を除く)を表示しているが、360度全ての角度で回転変換したものが候補となる。
候補獲得部32は、次に、回転させた対象領域画像の各々に対し、図パターンの閉領域の最小、最大のx座標と、同じく最小、最大のy座標とを用いて、長方形の枠を構成する各辺が垂直/水平の直線になるように、長方形の枠を構成する。次に、例えば、面積が最小という基準条件で、長方形の枠を選択し、選択された長方形の枠内と、外側の一定領域とを含む画像を、候補画像とする。図7に示すように、回転された対象領域画像の各々の図パターンの下に書かれた数字は、回転角度と、長方形の枠の面積である。回転させた対象領域画像の各々に当てはめた長方形の枠の中で、最小の面積になった長方形の枠と、外側の一定領域とを含む画像が、図8に示す候補画像の各々である。
画像正規化部34は、候補画像の各々について、当該候補画像の長方形の枠の大きさが、認識器40が認識する文字の縦横比となるように、当該候補画像を拡大又は縮小することにより正規化する。回転角90度分で一つの候補画像が得られるため、360度分では、図9のように、図パターンの各々において面積が最小となる4つの候補画像が得られる。この4つの候補画像で、当てはめた枠の縦横比を、図3の文字Eの縦横比に合わせるように正規化してテンプレートマッチングを行った場合の二乗差の値が、候補画像の各々の左下に表示されている。最も小さい差のものは正方形で囲っている。
画像認識部36では、画像正規化部34で正規化された候補画像の各々から、認識器40を用いて、入力画像の文字を認識し、出力部50に出力する。候補画像を、もとの二値画像に表示すると図10のようになる。また、差が小さい値を認識器40の文字Eのテンプレートと同じであると見なすと、図11の中の枠で囲まれた図パターンが該当する。これらの枠で囲まれた図パターンは、文字Eと読めるものと認識される。上記の手法によって、回転、拡大、及び縮小により図パターンを正規化した画像を用いて文字を認識できることが分かる。
また、本実施の形態では、文字パターンが裏返ったパターンは、元の文字パターンとは異なるものであると問題を設定している。
なお、基準条件は、長方形の枠についての、外周の長さ、又は対角線の長さが最小であることとしてもよい。また、長方形の枠の方は回転させず、対象領域画像を回転させる方法を説明したが、方法としては、この逆でもよい。長方形の枠を回転させる場合は、図12のようになる。
<本発明の第1の実施の形態に係る画像正規化装置の作用>
次に、本発明の第1の実施の形態に係る画像正規化装置100の作用について説明する。入力部10において入力画像を受け付けると、画像正規化装置100は、図13に示す画像正規化処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けた入力画像に写っている文字を表す領域である図パターンを、図パターンがはみ出さず、かつ、図パターンに接するよう長方形の枠によって囲み、長方形の枠で囲まれた対象領域画像を切り出す。
次に、ステップS102では、ステップS100で切り出した対象領域画像を回転させて当てはめた複数の長方形の枠のうち、面積が最小となる長方形の枠を用いて、候補画像を各々獲得する。
ステップS104では、ステップS102で獲得した候補画像の各々について、当該候補画像の長方形の枠の長さが、認識器40が認識する文字の縦横比となるように、当該候補画像を拡大又は縮小することにより正規化する。
ステップS106では、ステップS104で正規化された候補画像の各々から、認識器40を用いて、入力画像の文字を認識し、出力部50に出力して処理を終了する。
以上説明したように、第1の実施の形態に係る画像正規化装置によれば、入力画像に写っている物体を表す領域である図パターンを、図パターンがはみ出さず、かつ、図パターンに接するよう長方形の枠によって囲み、長方形の枠を用いて、候補画像を獲得し、候補画像を、長方形の枠が、認識器が認識する物体の縦横比となるように拡大又は縮小して正規化することにより、認識器を用いた認識に合わせて、異方的な拡大又は縮小により正規化した画像を生成することができる。
<本発明の第2の実施の形態に係る画像正規化装置の構成>
次に、本発明の第2の実施の形態に係る画像正規化装置の構成について説明する。なお、第1の実施の形態と同様の構成となる箇所については同一符号を付して説明を省略する。
第2の実施の形態では、水中の魚を表す入力画像から得られる画像を、回転、拡大、又は縮小させて正規化して認識させる。
本発明の第2の実施の形態に係る画像正規化装置100は、第1の実施の形態と同様に、上記図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、図14に示すような、水中の魚を撮影した動画を入力画像群として受け付ける。
第2の実施の形態の演算部20は、第1の実施の形態と同様に、領域抽出部30と、候補獲得部32と、画像正規化部34と、画像認識部36と、認識器40とを含んで構成されている。
領域抽出部30は、入力部10で受け付けた入力画像群の各々について、第1の実施の形態と同様に、入力画像に写っている物体を表す領域である図パターンを、図パターンがはみ出さず、かつ、図パターンに接するよう長方形の枠によって囲み、長方形の枠で囲まれた対象領域画像を切り出す。本実施の形態では、入力画像群に写っている魚を物体とする。
具体的には、領域抽出部30は、まず、魚の領域を図パターンとして、その他、背景を地パターンとして図地分離を行う。そのために、動画として撮影された入力画像群から、背景画像を計算し、魚が写っている場面の画像との差を各々の画素で計算し、その値があるしきい値以上ならば、変化があり、魚が写っている領域の候補とする。
各々の画素で差をとる値は、輝度やカラーのHSV成分のH成分値だけや様々に考えられる。ここでは、例として、輝度値の場合を説明する。背景画像は、例えば、各々の画素で、輝度値のヒストグラムを動画から構成し、ヒストグラムの最頻値(モード)で構成できる。その他、Eigen Background法(参考文献4参照)など、様々な方法で構成することが可能である。ここでは、説明のため、動くものを魚のみとし、水の流れなどの動きがない場合を想定すると比較的簡単に、きれいに魚が写っている領域の候補が取れる。この変化領域、背景領域の二値にわける処理により、背景とは異なり、変化があった領域を検出し、図15のように、魚がいると思われる領域とその背景の領域に分離できる。
[参考文献4]川西康友,椋木雅之,美濃導彦,「背景の時間変化に着目した固有空間中での時系列フィルタに基づく背景画像推定」,電子情報通信学会
また、魚と思われる図パターンとされた領域の内、面積の小さいものは無視し、魚ではないと判断して処理を省略する。また、魚が写っている領域全てが、完全に図パターンになっていない場合もあり得るが、ある程度魚の形をしていればよい。魚か否かを判断するのは、その後の認識/識別器の役割であり、そこで必要な情報量を、その領域の図パターンが含んでいればよい。
領域抽出部30は、次に、魚がいると想定される領域を分離できた図パターンに対して、ラベリングをし、図パターンの数を調べる。次に、対象となる図パターンを長方形の枠によって囲み、長方形の枠で囲まれた対象領域画像を一つずつ切り出す。なお、入力画像群の入力画像の各々から、一匹の魚の図パターンについて複数の対象領域画像を切り出す場合も考えられるが、本実施の形態では、任意の入力画像から切り出した対象領域画像を候補獲得部32に出力すればよい。
候補獲得部32は、入力画像群の各々について、第1の実施の形態と同様に、領域抽出部30によって切り出した対象領域画像から、長方形の枠に関する基準条件を満たす長方形の枠を用いて、候補画像を各々獲得する。
候補獲得部32は、まず、第1の実施の形態の文字の図パターンの場合と同様に、切り出した対象領域画像の各々に対して、中心を任意にとった回転変換を加える。回転させた対象領域画像の各々に対し、閉領域の最小、最大のx座標と、同じく最小、最大のy座標とを用いて、長方形の枠を構成する各辺が垂直/水平の直線になるように、長方形の枠を構成する。例えば、面積が最も小さいという基準条件で、長方形の枠を選択し、選択された長方形の枠内と、外側の一定領域とを含む画像を、候補画像とする。図15の長方形の枠が、選択された枠である。
画像正規化部34は、入力画像群の各々について、第1の実施の形態と同様に、候補画像の各々について、当該候補画像の長方形の枠の大きさが、認識器40が認識する魚の縦横比となるように、当該候補画像を拡大又は縮小することにより正規化する。
画像認識部36では、入力画像群の各々について、第1の実施の形態と同様に、画像正規化部34で正規化された候補画像の各々から、認識器40を用いて、入力画像の魚を認識し、出力部50に出力する。
なお、第2の実施の形態の他の構成及び作用は、第1の実施の形態と同様となるため、詳細な説明を省略する。
なお、本実施の形態の魚の例では、魚の面が裏返った画像でも、魚と認識しなければならないという要請により、二分器認識器を用いるならば、魚のある面とその反対面用の認識器の二つを用意する必要がある。
また、魚の場合は、枠ではなく、背骨を検出することにより画像を正規化できる。例えば、図16の線分は、背骨として検出された部位である。魚領域として検出された図パターンの連結領域の輪郭線上の二点で、最も距離が長いものを記したものである。このように、同じ対象物で、枠や枠以外でも正規化可能な場合がある、枠で困難なものは、対象物の最も特徴的な部分を検出すれば、正規化が可能である。
以上、第2の実施の形態に係る画像正規化装置によれば、入力画像群の入力画像に写っている物体を表す領域である図パターンを、図パターンがはみ出さず、かつ、図パターンに接するよう長方形の枠によって囲み、長方形の枠を用いて、候補画像を獲得し、候補画像を、長方形の枠が、認識器が認識する物体の縦横比となるように拡大又は縮小して正規化することにより、認識器を用いた認識に合わせて、異方的な拡大又は縮小により正規化した画像を生成することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、長方形の枠に関する基準条件に基づいて、対象領域画像を回転させて当てはめた複数の長方形の枠のうち、長方形の枠に関する基準条件を満たす長方形の枠を用いて、候補画像を各々獲得する場合を例に説明したが、これに限定されるものではない。例えば、物体の回転を考慮しなくてもよい場合には、対象領域画像を回転させずに当てはめた長方形の枠を用いて、候補画像を獲得すればよい。
10 入力部
20 演算部
30 領域抽出部
32 候補獲得部
34 画像正規化部
36 画像認識部
40 認識器
50 出力部
100 画像正規化装置

Claims (7)

  1. 入力画像から、認識器に入力するための正規化された画像を生成する画像正規化装置であって、
    前記入力画像に写っている物体を表す領域である図パターンを、前記図パターンがはみ出さず、かつ、前記図パターンに接するよう長方形の枠によって囲み、前記長方形の枠を用いて、候補画像を獲得する候補獲得部と、
    前記候補画像を、前記長方形の枠が、前記認識器が認識する物体の縦横比となるように拡大又は縮小することにより正規化する画像正規化部と、
    を含む画像正規化装置。
  2. 前記候補獲得部は、前記図パターン及び前記長方形の枠の何れか一方を回転させて得られる複数の長方形の枠のうち、予め定めた前記長方形の枠に関する基準条件を満たす前記長方形の枠を用いて、前記候補画像を各々獲得する請求項1に記載の画像正規化装置。
  3. 前記基準条件を、前記長方形の枠についての、外周の長さ、対角線の長さ、又は面積が最小であることとする請求項2に記載の画像正規化装置。
  4. 入力画像から、認識器に入力するための正規化された画像を生成する画像正規化装置における画像正規化方法であって、
    候補獲得部が、前記入力画像に写っている物体を表す領域である図パターンを、前記図パターンがはみ出さず、かつ、前記図パターンに接するよう長方形の枠によって囲み、前記長方形の枠を用いて、候補画像を獲得するステップと、
    画像正規化部が、前記候補画像を、前記長方形の枠が、前記認識器が認識する物体の縦横比となるように拡大又は縮小することにより正規化するステップと、
    を含む画像正規化方法。
  5. 前記候補獲得部が候補画像を獲得するステップは、前記図パターン及び前記長方形の枠の何れか一方を回転させて得られる複数の長方形の枠のうち、予め定めた前記長方形の枠に関する基準条件を満たす前記長方形の枠を用いて、前記候補画像を各々獲得する請求項4に記載の画像正規化方法。
  6. 前記基準条件を、前記長方形の枠についての、外周の長さ、対角線の長さ、又は面積が最小であることとする請求項5に記載の画像正規化方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項に記載の画像正規化装置を構成する各部として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2016122068A 2016-06-20 2016-06-20 画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体 Active JP7037875B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016122068A JP7037875B2 (ja) 2016-06-20 2016-06-20 画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016122068A JP7037875B2 (ja) 2016-06-20 2016-06-20 画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2017227993A true JP2017227993A (ja) 2017-12-28
JP7037875B2 JP7037875B2 (ja) 2022-03-17

Family

ID=60889278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016122068A Active JP7037875B2 (ja) 2016-06-20 2016-06-20 画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP7037875B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461495A (zh) * 2018-11-01 2019-03-12 腾讯科技(深圳)有限公司 一种医学图像的识别方法、模型训练的方法及服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034613A (ja) * 2005-07-26 2007-02-08 Canon Inc 画像処理装置及びその方法
JP2007122594A (ja) * 2005-10-31 2007-05-17 Denso Corp 画像処理装置
JP2008176768A (ja) * 2006-12-19 2008-07-31 Hitachi Kokusai Electric Inc 画像処理装置
JP2010211460A (ja) * 2009-03-10 2010-09-24 Toyota Central R&D Labs Inc 識別モデル生成装置、対象物検出装置、及び識別モデル生成プログラム
JP2011141600A (ja) * 2010-01-05 2011-07-21 Canon Inc 画像処理装置及び方法、並びに、プログラム
JP2015185033A (ja) * 2014-03-25 2015-10-22 株式会社日立情報通信エンジニアリング 文字認識装置及び識別関数生成方法
JP2015184691A (ja) * 2014-03-20 2015-10-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034613A (ja) * 2005-07-26 2007-02-08 Canon Inc 画像処理装置及びその方法
JP2007122594A (ja) * 2005-10-31 2007-05-17 Denso Corp 画像処理装置
JP2008176768A (ja) * 2006-12-19 2008-07-31 Hitachi Kokusai Electric Inc 画像処理装置
JP2010211460A (ja) * 2009-03-10 2010-09-24 Toyota Central R&D Labs Inc 識別モデル生成装置、対象物検出装置、及び識別モデル生成プログラム
JP2011141600A (ja) * 2010-01-05 2011-07-21 Canon Inc 画像処理装置及び方法、並びに、プログラム
JP2015184691A (ja) * 2014-03-20 2015-10-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2015185033A (ja) * 2014-03-25 2015-10-22 株式会社日立情報通信エンジニアリング 文字認識装置及び識別関数生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461495A (zh) * 2018-11-01 2019-03-12 腾讯科技(深圳)有限公司 一种医学图像的识别方法、模型训练的方法及服务器
JP2021518966A (ja) * 2018-11-01 2021-08-05 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 医用画像認識方法及びシステム、並びに、モデルトレーニング方法、コンピュータ装置、及びプログラム
JP7383010B2 (ja) 2018-11-01 2023-11-17 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 医用画像認識方法及びシステム、並びに、モデルトレーニング方法、コンピュータ装置、及びプログラム
US11961226B2 (en) 2018-11-01 2024-04-16 Tencent Technology (Shenzhen) Company Limited Medical image recognition method, model training method, and computer device

Also Published As

Publication number Publication date
JP7037875B2 (ja) 2022-03-17

Similar Documents

Publication Publication Date Title
Ikeuchi Computer vision: A reference guide
US10956719B2 (en) Depth image based face anti-spoofing
Greenhalgh et al. Recognizing text-based traffic signs
Fuhl et al. Evaluation of state-of-the-art pupil detection algorithms on remote eye images
Liang et al. Traffic sign detection by ROI extraction and histogram features-based recognition
Tan et al. Weakly supervised metric learning for traffic sign recognition in a LIDAR-equipped vehicle
Zhou et al. Moving vehicle detection for automatic traffic monitoring
US7912253B2 (en) Object recognition method and apparatus therefor
JP5214367B2 (ja) 特徴量抽出装置、特徴量抽出方法、画像処理装置、及び、プログラム
Gudigar et al. Multiple thresholding and subspace based approach for detection and recognition of traffic sign
Lu et al. Learning attention map from images
Uchida et al. A keypoint-based approach toward scenery character detection
Qin et al. A general framework for road marking detection and analysis
Abedin et al. Traffic sign recognition using surf: Speeded up robust feature descriptor and artificial neural network classifier
Sun et al. A visual attention based approach to text extraction
Hasinoff Saturation (imaging)
Blondel et al. Human detection in uncluttered environments: From ground to UAV view
Hartl et al. Real-time detection and recognition of machine-readable zones with mobile devices.
Rohini et al. Attendance monitoring system design based on face segmentation and recognition
Fisher Subpixel estimation
Nishigaki et al. The image torque operator: A new tool for mid-level vision
Jang et al. Data debiased traffic sign recognition using MSERs and CNN
JP7037875B2 (ja) 画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体
Ye et al. Reading labels of cylinder objects for blind persons
Ning Vehicle license plate detection and recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210108

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210114

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210119

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210122

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210226

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210304

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210707

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210709

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20211006

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20211110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220125

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220302

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220307

R150 Certificate of patent or registration of utility model

Ref document number: 7037875

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150