JP4995024B2 - パターン認識方法、パターン認識装置及びプログラム - Google Patents

パターン認識方法、パターン認識装置及びプログラム Download PDF

Info

Publication number
JP4995024B2
JP4995024B2 JP2007259059A JP2007259059A JP4995024B2 JP 4995024 B2 JP4995024 B2 JP 4995024B2 JP 2007259059 A JP2007259059 A JP 2007259059A JP 2007259059 A JP2007259059 A JP 2007259059A JP 4995024 B2 JP4995024 B2 JP 4995024B2
Authority
JP
Japan
Prior art keywords
accuracy
pattern
classification
input information
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007259059A
Other languages
English (en)
Other versions
JP2009087251A (ja
Inventor
寛 鳥居
裕輔 御手洗
優和 真継
政美 加藤
克彦 森
博 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007259059A priority Critical patent/JP4995024B2/ja
Priority to US12/242,470 priority patent/US8625858B2/en
Publication of JP2009087251A publication Critical patent/JP2009087251A/ja
Application granted granted Critical
Publication of JP4995024B2 publication Critical patent/JP4995024B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像認識や音声認識などを含むパターン認識方法及びパターン認識装置、並びに、当該パターン認識方法をコンピュータに実行させるためのプログラムに関する。
画像認識や音声認識などを含むパターン認識を目的とした従来のパターン認識方法では、識別精度(認識精度)を向上させると処理速度が犠牲になり、処理速度を上げようとすると識別精度が犠牲になるという傾向がある。そのため、従来のパターン認識方法では、処理速度と識別精度の両立を図るために、処理速度の高い第1の識別器と識別精度の高い第2の識別器を連結する方法が取られている(例えば、下記の非特許文献1参照)。このようなパターン認識方法においては、第1の識別器によって高速に候補領域を絞り込み、第2の識別器によってより厳密な評価を行う。
しかしながら、第1の識別器や第2の識別器として使う多くの識別器においては、明確な識別結果が得られることは少なく、確度と呼ばれる多値の出力値しか得られない。そして、従来では、この確度と呼ばれる多値の出力値を閾値で分離することによって2値化して、パターンの有無を判定するということが行われている(例えば、下記の特許文献1の[発明の実施の形態]参照)。
また、入力情報を複数の分類に識別する場合には、複数の識別器(判別関数)を利用して、その中で最も出力値の高い識別器に対応する分類を採用することが典型的である。例えばパーセプトロンと呼ばれる識別器は、入力情報の線形和が最大となる線形関数を選び、その線形関数に対応する分類を識別結果とする。あるいは、例えば、下記の非特許文献2に示されるrouter networkように、各識別器の出力値を重み係数とした線形和を求めて、分類(この文献の場合には顔の回転角度)を一意に求めることもできる。
御手洗裕輔、森克彦、真継優和、「選択的モジュール起動を用いたConvolutional Neural Networks による変動にロバストな顔検出システム」、第2回 情報科学技術フォーラム、2003. Rowley, Henry A., Baluja, Shumeet, & Kanade, Takeo,"Rotation Invariant Neural Network-Based Face Detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1998. 特開2001−309225号公報 特許第3078166号公報 特開2002−8032号公報 特開2002−8033号公報
従来のように複数の識別器における出力の確度を固定の閾値で2値化する場合、この閾値の選択を適正に行うことは困難であった。これは、各識別器の出力の範囲が入力情報の取得条件によって異なるためである。例えば、入力情報が画像データであり、各識別器が顔を検出するようなものであった場合、当該画像データに係る画像を撮影した条件によっては顔の検出が難しくなり、識別器の出力が弱くなる。このような状況で、高すぎる閾値を適用すると、画像の中に顔があるにもかかわらず、出力値が弱いために、候補からふるい落とされてしまうことになる。逆に、低すぎる閾値を適用すると、数多くの候補が第2の識別器に入力されることになり、処理速度の低下を招く。つまり、この場合、固定の閾値を利用して、様々な撮影条件に対応するのは難しかった。
一方、複数の識別器の出力から最大の出力値を採用するなどして候補を1つだけに絞る方法を採用する場合、第1の識別器の識別精度が低いような構成においては、正しい候補を見落としてしまう危険性が高い。これは、第1の識別器の識別精度が低い場合には、正解に対応する識別器の出力が最大値を取るとは限らないためである。また、正解が2つ以上あるような状況においては、候補を1つに絞ってしまうこの方法は適用できない。
さらに、複数の識別器から構成される複合的な識別器において、それぞれの識別器を直列と並列の両方式で連結しようとする場合は、直列に連結した識別器群を並列に並べるのがメモリ使用量の点からは望ましい。しかしながら、このような構造を採用する場合、直列に連結した識別器群の内、後段の識別器が無駄に実行されることが多く、処理時間が長くかったり、誤識別が起きやすかったりするといった問題が起きる。これは直列に連結した識別器群がそれぞれ独立に実行されていることが原因である。実際には、1つの識別器群の中で後段の識別器を実行するべきかどうかは、他の識別器群の後段の識別器が実行されるかどうかによる。
本発明は上述した問題点に鑑みてなされたものであり、入力情報に対してパターン認識を行う際の閾値の選択を容易に行えるようにすると共に、その処理速度と認識精度とを両立させることができるようにすることを目的とする。
本発明のパターン認識方法は、複数の領域を有する入力情報のパターンを認識するパターン認識方法であって、前記入力情報の各領域において前記パターンを含んでいる確度を求める確度抽出ステップと、前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域選択する上位選択ステップと、前記上位選択ステップにより選択された領域に対して、前記パターンの検出処理を行う検出ステップとを含む。
本発明のパターン認識方法における他の態様は、入力情報のパターンを認識するパターン認識方法であって、前記入力情報が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する分類選択する上位選択ステップと、前記上位選択ステップにより選択された分類に基づいて、前記入力情報のパターンの検出処理を行う検出ステップとを含む。
また、本発明のパターン認識方法におけるその他の態様は、複数の領域を有する入力情報のパターンを識別するパターン認識方法であって、前記入力情報の各領域が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域と分類との組選択する上位選択ステップと、前記上位選択ステップにより選択された、領域と分類との組の組み合わせに応じて、前記入力情報のパターンの検出処理を行う検出ステップとを含む。
本発明のパターン認識装置は、複数の領域を有する入力情報のパターンを認識するパターン認識装置であって、前記入力情報の各領域において前記パターンを含んでいる確度を求める確度抽出手段と、前記確度抽出手段により求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定手段と、前記確度抽出手段により求めた確度において前記閾値以上の確度を有する領域選択する上位選択手段と、前記上位選択手段により選択された領域に対して、前記パターンの検出処理を行う検出手段とを含む。
本発明のパターン認識装置における他の態様は、入力情報のパターンを認識するパターン認識装置であって、前記入力情報が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出手段と、前記確度抽出手段により求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定手段と、前記確度抽出手段により求めた確度において前記閾値以上の確度を有する分類選択する上位選択手段と、前記上位選択手段により選択された分類に基づいて、前記入力情報のパターンの検出処理を行う検出手段とを含む。
また、本発明のパターン認識装置におけるその他の態様は、複数の領域を有する入力情報のパターンを識別するパターン認識装置であって、前記入力情報の各領域が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出手段と、前記確度抽出手段により求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定手段と、前記確度抽出手段により求めた確度において前記閾値以上の確度を有する領域と分類との組選択する上位選択手段と、前記上位選択手段により選択された、領域と分類との組の組み合わせに応じて、前記入力情報のパターンの検出処理を行う検出手段とを含む。
本発明のプログラムは、複数の領域を有する入力情報のパターンを認識するパターン認識方法をコンピュータに実行させるためのプログラムであって、前記入力情報の各領域において前記パターンを含んでいる確度を求める確度抽出ステップと、前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域選択する上位選択ステップと、前記上位選択ステップにより選択された領域に対して、前記パターンの検出処理を行う検出ステップとをコンピュータに実行させるためのものである。
本発明のプログラムにおけるの態様は、入力情報のパターンを認識するパターン認識方法をコンピュータに実行させるためのプログラムであって、前記入力情報が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する分類選択する上位選択ステップと、前記上位選択ステップにより選択された分類に基づいて、前記入力情報のパターンの検出処理を行う検出ステップとをコンピュータに実行させるためのものである。
また、本発明のプログラムにおけるその他の態様は、複数の領域を有する入力情報のパターンを識別するパターン認識方法をコンピュータに実行させるためのプログラムであって、前記入力情報の各領域が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域と分類との組選択する上位選択ステップと、前記上位選択ステップにより選択された、領域と分類との組の組み合わせに応じて、前記入力情報のパターンの検出処理を行う検出ステップとをコンピュータに実行させるためのものである。
本発明によれば、入力情報に対してパターン認識を行う際の閾値の選択を容易に行うことができると共に、その処理速度と認識精度とを両立させることができる。
以下、添付図面を参照しながら、本発明の各実施形態を説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係るパターン認識装置のハードウェア構成の一例を示すブロック図である。ここで、第1の実施形態に係るパターン認識装置100は、例えば、情報処理装置で構成されている。また、本実施形態では、複数の領域を有する入力情報として画像データを適用し、認識する画像データのパターンとして顔を適用した例を示す。
図1に示すように、第1の実施形態のパターン認識装置100は、CPU101、プログラムメモリ102、RAM103、ハードディスク(画像データベース)104、フラッシュメモリ105、及び、制御バス・データバス110を有して構成されている。
CPU(中央演算装置)101は、パターン認識装置100における動作を統括的に制御するものであり、特に、本実施形態で説明する画像処理方法をプログラムに従って実行する。
プログラムメモリ102は、CPU101により実行されるプログラムを記憶する。RAM103は、CPU101によるプログラムの実行時に、各種の情報や各種のデータを一時的に記憶するためのメモリである。
ハードディスク104は、例えば、外部装置から入力された入力情報である画像データ(画像ファイル)などの各種のデータを保存する。フラッシュメモリ105は、CPU101が、各種の情報や各種のデータを読み取ったり書き込んだりできるようになっている。このフラッシュメモリ105は、パターン認識装置100に対して脱着可能となっており、書き込まれた各種の情報や各種のデータをユーザが持ち歩くことができるようになっている。
制御バス・データバス110は、102〜105の各構成部とCPU101とを接続しているバスである。なお、パターン認識装置100には、これ以外にも、キーボードやポインティングデバイスなどの入力機器や、表示デバイスなどを備えていても良い。
図2は、本発明の第1の実施形態に係るパターン認識装置の機能構成の一例を示すブロック図である。ここで、図2に示す201〜203の各機能構成部は、CPU101がプログラムメモリ102に記憶されているプログラムを実行することにより実現される。
図2に示すハードディスク104は、図1に示すハードディスクと同じものであり、画像データ(画像ファイル)などが保存されている。画像読み込み部201は、ハードディスク104に保存されている画像データをRAM103に読み出し、記憶する。
顔検出部202は、RAM103に書き込まれた画像データに、顔があるかどうかを検出する。画像書き込み部203は、RAM103に書き込まれた画像データをフラッシュメモリ105に書き込む。フラッシュメモリ105は、図1に示すフラッシュメモリと同じものである。
図3は、本発明の第1の実施形態に係るパターン認識装置の処理手順の一例を示すフローチャートである。より具体的には、図2に示す各機能構成における処理手順の一例を示すフローチャートである。
まず、ステップS301において、画像読み込み部201は、画像ポインタが最初の画像データを指し示すように、当該画像ポインタを初期化する。ここで、画像ポインタは、ハードディスク104に保存されている画像データ(画像ファイル)を順に指し示す変数である。
続いて、ステップS302において、画像読み込み部201は、ハードディスク104内に、処理するべき画像データが残っているか否かを判断する。この判断の結果、処理するべき画像データが残っていない場合、即ち、全ての画像データの処理が終了した場合には、当該フローチャートにおける処理を終了する。
一方、ステップS302の判断の結果、処理するべき画像データが残っている場合には、ステップS303に進む。ステップS303に進むと、画像読み込み部201は、その時点で画像ポインタが指す画像データをハードディスク104からRAM103に読み込む。
続いて、ステップS304において、顔検出部202は、ステップS303でRAM103に読み込まれた画像データに顔が含まれているか否かを判断する。この際の判断の方法は後述する。
ステップS304の判断の結果、画像データに顔が含まれている場合には、ステップS305に進む。ステップS305に進むと、画像書き込み部203は、RAM103に読み込まれた当該画像データをフラッシュメモリ105に書き込む。
ステップS305の処理が終了した場合、或いは、ステップS304で画像データに顔が含まれていないと判断された場合には、ステップS306に進む。ステップS306に進むと、画像読み込み部201は、画像ポインタを1つ進めて、ハードディスク104に保存されている次の画像データ(画像ファイル)を指し示すようにする。その後、ステップS302に戻る。
以上のステップS301〜ステップS306の処理を経ることにより、ハードディスク104に保存されている全ての画像データに対して、顔検出部202による顔検出処理がなされる。
図4は、図3のステップS304において顔検出処理を行う際の処理手順の一例を示す模式図である。ここで、図3のステップS304における顔検出処理を行う顔検出部202内には、図4の○で示す、第1の識別器402、振り分け処理部404、閾値決定処理部406、2値化処理部407、第2の識別器409及び閾値判定処理部411が設けられている。
画像データ401は、ステップS303で画像読み込み部201によりRAM103に記憶された画像データである。
第1の識別器402は、画像データ401の各画像領域において第1の分類の顔パターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出手段を構成する。この第1の識別器402の詳細については、図7を参照して後述する。
第1の確度情報403は、第1の識別器402から出力される情報であって、複数の2次元配列の情報である。この第1の確度情報403は、例えば、RAM103に記憶される。また、第1の確度情報403におけるフォーマットに関しては、図5を用いて後で簡単に説明する。
振り分け処理部404は、第1の確度情報403を厳密にソートすると処理時間がかかるので、その確度をその値の範囲に応じたビンに振り分ける処理を行う。ここで、振り分け処理部404は、例えば、第1の識別器402より求めた確度を確度分布として第1の確度情報の集計結果情報405を生成する。即ち、振り分け処理部404は、確度分布生成手段を構成する。
第1の確度情報の集計結果情報405は、振り分け処理部404によって処理された結果を示す情報である。この第1の確度情報の集計結果情報405は、例えば、RAM103に記憶される。また、第1の確度情報の集計結果情報405におけるフォーマットに関しては、図6を参照して後述する。
閾値決定処理部(閾値決定手段)406は、第1の確度情報の集計結果情報405に基づいて、第1の確度情報403に適用するべき閾値を決定する。この閾値決定処理部406の処理の詳細については、図8を参照して後述する。
2値化処理部407は、閾値決定処理部406によって決定された閾値を第1の確度情報403に適用して、第1の確度情報403を2値化処理する。ここで、2値化処理部407は、確度抽出手段である第1の識別器402により求めた確度の中で相対的に上位の確度を有する画像領域、分類(本実施形態では、顔の傾きとサイズ)、或いは、画像領域と分類との組を1つ以上選択する上位選択手段を構成する。より具体的に、2値化処理部(上位選択手段)407は、閾値決定処理部406により決定された閾値以上の確度を有する領域または分類等を選択する。
第1の検出結果情報408は、2値化処理部407によって2値化処理された結果得られた情報である。この第1の検出結果情報408は、第2の識別器409で処理するべき候補を並べたものとなっている。具体的には、第1の検出結果情報408は、画像データ401中の各画像領域のうちのどの領域を、どのような回転角度と縮小率で処理するべきかという情報を示すものである。この第1の検出結果情報408は、例えば、RAM103に記憶される。また、第1の検出結果情報408におけるフォーマットに関しては、第1の確度情報403と同じであるが、2次元配列の要素は2値となっている。
第2の識別器409は、第1の検出結果情報408に基づいて、画像データ401に対して、顔検出処理を施すものである。
第2の確度情報410は、第2の識別器409によって処理された結果を示す情報である。この第2の確度情報410は、例えば、RAM103に記憶される。
閾値判定処理部411は、第2の確度情報410が多値の情報であるため、閾値を超える値がないか否かを走査し、判定処理を行う。
顔検出結果情報412は、閾値判定処理部411によって判定処理された結果を示す情報である。ここで、顔検出結果情報412は、閾値判定処理部411で閾値を超えた値があると判定された場合には、画像データ401に、顔が存在する(顔が含まれる)ことを示す情報となる。この顔検出結果情報412は、例えば、RAM103に記憶される。そして、この顔検出結果情報412が、図3のステップS304における顔検出処理に利用される。
ここで、第2の識別器409及び閾値判定処理部411は、上位選択手段である2値化処理部407により選択された画像領域、分類、或いは、画像領域と分類との組の組み合わせ等に応じて、画像データ401の顔の検出処理を行う検出手段を構成する。
図5は、図4に示す第1の確度情報403のフォーマットの一例を示す概念図である。この図5では、第1の識別器402が、0度、90度、180度及び270度の顔の傾きと1倍、2倍及び4倍の顔サイズに対応しているものとしている。
ここで、顔サイズが1倍とは、最小顔サイズのことであり、実際には顔幅が、例えば30ピクセルであることを指すものである。このとき、顔サイズが2倍とは、顔幅が60ピクセルであるという意味である。本明細書では、具体的な顔サイズについては、発明の本質とは関係がないので、サイズ比が分かりやすいように、顔サイズを倍率で表すことにする。
図5に示す画像データ401は、図4に示す画像データ401と同じものである。図5に示す各確度情報500〜503、510〜513、520〜523が、第1の確度情報403の内容を示したものである。
0度1倍の確度情報500は、顔の傾きが0度で、顔サイズが1倍である顔に関する確度情報であり、2次元配列の各要素に、画像データ401の対応する領域に傾きが0度でサイズが1倍の顔があることを示す確度の情報である。同様に、90度1倍の確度情報501は、傾きが90度でサイズが1倍の顔に関する確度情報である。また、180度1倍の確度情報502は、傾きが180度でサイズが1倍の顔に関する確度情報である。また、270度1倍の確度情報503は、傾きが270度でサイズが1倍の顔に関する確度情報である。
0度2倍の確度情報510は、傾きが0度でサイズが2倍の顔に関する確度情報である。同様に、90度2倍の確度情報511は、傾きが90度でサイズが2倍の顔に関する確度情報である。また、180度2倍の確度情報512は、傾きが180度でサイズが2倍の顔に関する確度情報である。また、270度2倍の確度情報513は、傾きが270度でサイズが2倍の顔に関する確度情報である。
0度4倍の確度情報520は、傾きが0度でサイズが4倍の顔に関する確度情報である。同様に、90度4倍の確度情報521は、傾きが90度でサイズが4倍の顔に関する確度情報である。また、180度4倍の確度情報522は、傾きが180度でサイズが4倍の顔に関する確度情報である。また、270度4倍の確度情報523は、傾きが270度でサイズが4倍の顔に関する確度情報である。
即ち、図4に示す第1の確度情報403は、顔の傾きとサイズを分類とすると、第1の分類の顔を含んでいる確度情報から第nの分類の顔を含んでいる確度情報の複数の確度情報を有している。ここで、第1の分類の顔を含んでいるものは第1の画像パターンであり、第nの分類の顔を含んでいるものは第nの画像パターンである。図5に示す例では、確度情報500〜503、510〜513、520〜523が示されているため、第1の分類の顔を含んでいる確度情報から第12の分類の顔を含んでいる確度情報を有していることになる。また、図5に示す例では、顔の傾きが、0度、90度、180度及び27度の4つの傾きの場合を示しているが、本実施形態では、第1の傾きから第nの傾き(nは2以上の自然数)の複数の傾きが設定されていれば良い。同様に、図5に示す例では、顔のサイズが、1倍、2倍及び4倍の3つのサイズの場合を示しているが、本実施形態では、第1のサイズから第nのサイズ(nは2以上の自然数)の複数のサイズが設定されていれば良い。
この図5では、サイズが2倍や4倍の顔に関する確度情報(510〜513、520〜523)の寸法を、サイズが1倍の顔に関する確度情報(500〜503)の寸法に対して、1/2倍や1/4倍にして図示している。これは、画像データ401を縮小することによって、サイズが2倍や4倍の顔を同じ識別器を使って識別しているためである。本実施形態では、縮小された画像データが入力されると、識別器はその分小さい確度情報を出力する。
図5に示す各確度情報500〜503、510〜513、520〜523は、それぞれ2次元配列の情報であり、図1のRAM103に展開される。それぞれの確度情報の2次元配列上の1点は、画像データ401上の領域に対応しており、その領域に、所定の傾き及び所定のサイズの顔がある確度を表している。
例えば、0度1倍の確度情報500上の1点(x,y)は、画像データ401上で、(x−w/2,y−h/2)と(x+w/2,y+h/2)を対角線とする長方形の領域内に、0度1倍の顔がある確度を表している。ここで、wは最小顔幅のことであり、hは最小顔高さのことである。
また、例えば、90度n倍の確度情報上の1点(x,y)は、画像データ401上で、(n(y−h/2),H−n(x+w/2))と(n(y+h/2,H−n(x−w/2))を対角線とする長方形の領域内に、90度n倍の顔がある確度を表している。ここで、Wは画像データ401の幅を示し、また、Hはその高さを示すものとする。同様に、180度n倍の確度情報上の1点(x,y)は、画像データ401上で、(W−n(x+w/2),H−n(y+h/2))と(W−n(x−w/2),H−n(y−h/2))を対角線とする長方形の領域内に、180度n倍の顔がある確度を表している。270度n倍の確度情報の場合も、上述した例に倣って同様に表される。
図4に示す第2の確度情報410についても、第1の確度情報403と同じフォーマットである。ただし、後述するように、第2の識別器409は、第1の識別器402よりも、その数を多くすることができる。この場合には、第2の確度情報410の2次元配列の個数は、第1の確度情報403の2次元配列の個数よりも多くなる。
図6は、図4に示す第1の確度情報の集計結果情報405のフォーマットの一例を示す概念図である。この図6に示す、第1の確度情報の集計結果情報405のフォーマットは、例えば、RAM103上に展開される。また、図6に示す例では、第1の確度情報403における確度の最大値が、1.0であるものとしている。また、図6に示す符号は、ビンの番号を示している。
ビン10には、第1の確度情報403における2次元配列の情報のうち、確度が0.9より大きく1.0以下の個数が収められる。ビン9には、第1の確度情報403における2次元配列の情報のうち、確度が0.8より大きく0.9以下の個数が収められる。ビン8には、第1の確度情報403における2次元配列の情報のうち、確度が0.7より大きく0.8以下の個数が収められる。ビン7には、第1の確度情報403における2次元配列の情報のうち、確度が0.6より大きく0.7以下の確度値の個数が収められる。ビン6には、第1の確度情報403における2次元配列の情報のうち、確度が0.5より大きく0.6以下の確度値の個数が収められる。ビン5以下についても同様である。
このように、振り分け処理部404は、第1の確度情報403における2次元配列の情報として、その確度の大きさに基づいて、各ビンに分類することにより、第1の確度情報403に格納されている2次元配列の情報に係る確度値に係る確度分布を生成する。ここで、振り分け処理部404は、例えば、確度分布としてヒストグラムを生成する。なお、当然のことながら、ここでの具体的な数字はあくまでも一例を示すために用意したものであって、ビンの数を含めたこれらの数字には特に必然性はない。
図7は、図4に示す第1の識別器402による、より詳細な処理手順の一例を示す模式図である。この第1の識別器402内には、図7の○で示す、肌色抽出処理部701、アフィン変換処理部703及び第1の顔検出器706が設けられている。
図7に示す画像データ401は、図4に示す画像データ401と同じものである。肌色抽出処理部701は、画像データ401に対して、肌色画素の抽出処理を行う。具体的に、肌色抽出処理部701は、画像データ401の肌色画素に対応する箇所には「1」、肌色でない画素に対応する箇所には「0」を書き込み、肌色マスク702を生成する。この肌色マスク702は、例えば、RAM103に記憶される。
アフィン変換処理部703は、画像データ401と肌色マスク702の回転・縮小を行うアフィン変換処理をするものである。即ち、アフィン変換処理部703は、当該第1の識別器402で第1の分類の画像パターンから第nの分類の画像パターンまでの各分類の画像パターンを含んでいる確度を求める場合には、画像データ401をn通りの方法で変換する。
このアフィン変換処理部703により画像データ401を回転・縮小をした結果は、アフィン変換後画像データ704として、例えば、RAM103に記憶される。また、アフィン変換処理部703により肌色マスク702を回転・縮小した結果は、アフィン変換後肌色マスク705として、例えば、RAM103に記憶される。
ここで、回転の角度によっては、配列が長方形である方が、計算上都合が良いため、アフィン変換後画像データ704とアフィン変換後肌色マスク705には、それぞれ、画像データ401と肌色マスク702には対応しない無効な画素が含まれることもある。このような無効な画素は、以降の処理では無視される。
第1の顔検出器706は、アフィン変換後肌色マスク705において「1」が書き込まれている位置に対応するアフィン変換後画像データ704上の位置に、顔が存在する確度を求めるものである。図7には図示していないが、アフィン変換処理部703と第1の顔検出器706の処理は、必要な回数だけループして実行される。
例えば、0度、90度、180度及び270度の顔の傾きと1倍、2倍及び4倍の顔サイズを検出する必要がある場合には、合わせて12回ループを実行する。その結果、第1の確度情報403としては、確度情報が12枚分用意される。ループの実行方法については、図10を用いて後述する。ここで、限定はしないが、第1の顔検出器706には、例えば、上記の特許文献2に記載の物体認識方法を適用することができる。また、第1の顔検出器706には、例えば、上記の特許文献3や上記の特許文献4に記載のニューラルネットワーク、或いは他のパターン認識方法なども適用することができる。
図8は、図4に示す閾値決定処理部406による、より詳細な処理手順の一例を示すフローチャートである。
まず、ステップS801において、閾値決定処理部406は、総和を表す変数である総和変数sを0に初期化する。
続いて、ステップS802において、閾値決定処理部406は、注目しているビンの番号を表す変数であるビン番号iを最大値の10に設定する。即ち、ここでは、図6に示すビン10が、注目しているビンの番号として設定される。
続いて、ステップS803において、閾値決定処理部406は、注目しているビン番号iのビンに入っている確度値の数を示す数値を、総和変数sに加算する。
続いて、ステップS804において、閾値決定処理部406は、これまでの総和変数sが、第1の確度情報403の全有効画素数の5%以上であるか否かを判断する。ここで、有効画素とは、アフィン変換後画像データ704の無効な画素に対応する画素以外の画素のことである。
ステップS804の判断の結果、これまでの総和変数sが、第1の確度情報403の全有効画素数の5%以上でない(即ち、5%未満である)場合には、ステップS805に進む。ステップS805に進むと、閾値決定処理部406は、ビン番号iを1つ減算して、注目しているビンを変更し、ステップS803に戻る。その後、ステップS804で、これまでの総和変数sが、第1の確度情報403の全有効画素数の5%以上であると判断されるまで、ステップS803〜ステップS805の処理をループして行う。
一方、ステップS804の判断の結果、これまでの総和変数sが、第1の確度情報403の全有効画素数の5%以上である場合には、ステップS806に進む。ステップS806に進むと、閾値決定処理部406は、閾値を確定(決定)する。具体的に、ステップS806では、閾値を(i−1)/10として決定する。
以上のステップS801〜ステップS806の処理を経ることにより、図6に示す第1の確度情報の集計結果情報405に基づく、閾値決定処理部406による閾値の決定処理がなされる。
なお、ステップS804における5%や、ステップS802における10などの数字は、その一例を示したものであり、実状に合わせて、適宜変更することが可能であることは言うまでもない。
図9は、図4に示す第2の識別器409による、より詳細な処理手順の一例を示す模式図である。この第2の識別器409内には、図9の○で示す、切り出しアフィン変換処理部901及び第2の顔検出器903が設けられている。
図9に示す画像データ401は、図4に示す画像データ401と同じものである。また、図9に示す第1の検出結果情報408は、図4に示す第1の検出結果情報408と同じものである。切り出しアフィン変換処理部901は、第1の検出結果情報408の内容に応じて、画像データ401中の対応する領域を切り出して回転・縮小を行うアフィン変換処理をするものである。この切り出しアフィン変換処理部901によるアフィン変換処理の結果は、切り出しアフィン変換後画像データ902として、例えば、RAM103に記憶される。
第2の顔検出器903は、切り出しアフィン変換後画像データ902の中に、顔が存在するかどうか検出し、顔が存在する確度を第2の確度情報410として、例えば、RAM103に記憶する。図9に示す第2の確度情報410は、図4に示す第2の確度情報410と同じものである。
第2の顔検出器903は、顔検出処理を行うものであれば、第1の顔検出器706と同じ構成であっても、異なる構成であっても良い。ただし、同じ場合でも、パラメータが異なることが望ましい。より具体的に説明すると、第1の顔検出器706の方が、第2の顔検出器903よりもロバスト性が高い方が処理速度の観点から効果的である。
例えば、第1の顔検出器706は、顔の傾きとして±45度の範囲を検出できるように設定し、第2の顔検出器903は、顔の傾きとして±15度の範囲を検出できるように設定する。この際、アフィン変換処理部703の処理と第1の顔検出器706による処理を含むループでは、0度、90度、180度及び270度の回転に対応させるようにする。
また、切り出しアフィン変換処理部901の処理では、0度、30度、60度、90度、120度、150度、180度、210度、240度、270度、300度及び330度の回転に対応させるようにする。このようにすることで、より精度の高い顔検出処理を実現できる。
ここで、縮小を考えない場合、第1の検出結果情報408において、例えば、90度の角度で顔の候補がある場合、切り出しアフィン変換処理部901の処理では、60度と90度と120度の3角度分が行われる。他の角度についても同様であり、また、縮小率についても同様の考え方を適用できる。
図10は、図3のステップS304における、より詳細な処理手順の一例を示すフローチャートである。この図10は、図4、図7及び図9の模式図に示された処理手順をフローチャートとして記述したものである。
まず、ステップS1001において、第1の識別器402の図7に示す肌色抽出処理部701は、画像データ401に対して、肌色画素の抽出処理を行う。そして、具体的に、肌色抽出処理部701は、上述したように、画像データ401の肌色画素に対応する箇所には「1」、肌色でない画素に対応する箇所には「0」を書き込み、肌色マスク702を生成する。そして、肌色抽出処理部701は、生成した肌色マスク702を、例えば、RAM103に記憶する。
続いて、ステップS1002において、第1の識別器402のアフィン変換処理部703は、画像データ401の回転・縮小をするアフィン変換処理を行って、当該変換処理の結果をアフィン変換後画像データ704として、例えば、RAM103に記憶する。
続いて、ステップS1003において、アフィン変換処理部703は、肌色マスク702の回転・縮小をするアフィン変換処理を行って、当該変換処理の結果をアフィン変換後肌色マスク705として、例えば、RAM103に記憶する。
続いて、ステップS1004において、第1の識別器402は、アフィン変換後肌色マスク705上の全ての候補点について、対応するアフィン変換後画像データ704上の各領域において顔が存在する確度を求めたか否かを判断する。
ステップS1004の判断の結果、アフィン変換後肌色マスク705上の全ての候補点については顔が存在する確度を求めていない場合には、ステップS1005に進む。ステップS1005に進むと、第1の識別器402の第1の顔検出器706は、アフィン変換後肌色マスク705上の未処理の候補点1点に対応するアフィン変換後画像データ704上の領域において顔が存在するかどうかを検出する第1の顔検出処理を行う。具体的に、第1の顔検出器706は、アフィン変換後画像データ704上の領域において顔が存在するかどうかを確度として求める。そして、第1の顔検出器706は、その求めた確度の結果を、第1の確度情報403の対応する箇所に記憶する。具体的に、本実施形態では、第1の確度情報403は、RAM103に記憶されるものとする。
ここで、例えば、ステップS1005の処理をニューラルネットワークなどで実現する場合には、ステップS1004とステップS1005のループは、ニューラルネットワークの実装と一体となって実現される。これは、ニューラルネットワークでは、位置が近い候補点同士の演算結果を共有することによって計算の効率を上げることができるからである。
一方、ステップS1004の判断の結果、アフィン変換後肌色マスク705上の全ての候補点について顔が存在する確度を求めている場合には、ステップS1006に進む。ステップS1006に進むと、第1の識別器402は、全ての回転角度と縮小率のパラメータを使用して、ステップS1002〜ステップS1005までの処理を実行したか否かを判断する。この判断の結果、全ての回転角度と縮小率のパラメータを使用した、ステップS1002〜ステップS1005までの処理を実行していない場合には、ステップS1002に戻る。
一方、ステップS1006の判断の結果、全ての回転角度と縮小率のパラメータを使用した、ステップS1002〜ステップS1005までの処理を実行した場合には、ステップS1007に進む。
ステップS1007に進むと、図4の振り分け処理部404は、次のステップS1008で閾値を決定するために、第1の確度情報403の内容を集計する。具体的に、振り分け処理部404は、図6を用いて上述したように、第1の確度情報403における各確度を、その値の範囲に応じて、図6に示すビンに振り分ける処理を行う。そして、振り分け処理部404は、振り分け処理によって得られた結果を第1の確度情報の集計結果情報405として、例えば、RAM103に記憶する。
続いて、ステップS1008において、閾値決定処理部406は、第1の確度情報の集計結果情報405に基づいて、第1の確度情報403に適用するべき閾値を決定する。この閾値は、第1の確度情報403を2値化処理する際に使用されるものであり、その具体的な決定方法については、図8のフローチャートにつき上述した方法による。
続いて、ステップS1009において、2値化処理部407は、ステップS1008で決定された閾値を用いて、第1の確度情報403を「0」と「1」の2値データに変換(分離)し、これを第1の検出結果情報408として、例えば、RAM103に記憶する。この2値化処理によって、画像データ401の中で最も顔らしい領域が、その顔に対応する回転角度とサイズの組と合わせて、複数選び出されたことになる。そして、この選出結果に基づいて、ステップS1010以降の処理が実行される。
続いて、ステップS1010において、第2の識別器409は、第1の検出結果情報408の全ての候補点について、ステップS1011〜ステップS1013までの処理を実行したか否かを判断する。
ステップS1010の判断の結果、第1の検出結果情報408の全ての候補点については、ステップS1011〜ステップS1013までの処理を実行していない場合には、ステップS1011に進む。
ステップS1011に進むと、第2の識別器409の図9に示す切り出しアフィン変換処理部901は、第1の検出結果情報408の内容に従って、画像データ401に対して、切り出しアフィン変換処理を行う。具体的に、切り出しアフィン変換処理部901は、画像データ401中の領域から、第1の検出結果情報408の候補領域に対応する回転角度と縮小率に応じて、画像データ401を切り出しながらアフィン変換処理を施す。そして、切り出しアフィン変換処理部901は、当該切り出しアフィン変換処理の結果を切り出しアフィン変換後画像データ902として、例えば、RAM103に記憶する。
続いて、ステップS1012において、第2の識別器409の図9に示す第2の顔検出器903は、切り出しアフィン変換後画像データ902の中に、顔が存在するかどうかを検出する第2の顔検出処理を行う。具体的に、第2の顔検出器903は、切り出しアフィン変換後画像データ902の中に顔が存在するかどうかを確度として求める。そして、第2の顔検出器903は、その求めた確度の結果を、第2の確度情報410の対応する箇所に記憶する。具体的に、本実施形態では、第2の確度情報410は、RAM103に記憶されるものとする。
続いて、ステップS1013において、第2の識別器409は、第1の検出結果情報408の候補点1点に関して、必要な全ての回転と縮小を行ったか否かを判断する。この判断の結果、第1の検出結果情報408の候補点1点に関して、必要な全ての回転と縮小を行っていない場合には、ステップS1011に戻り、再度、ステップS1011〜ステップS1013までのループを繰り返す。
一方、ステップS1013の判断の結果、第1の検出結果情報408の候補点1点に関して、必要な全ての回転と縮小を行っている場合には、ステップS1010に戻る。
また、ステップS1010の判断の結果、第1の検出結果情報408の全ての候補点についてステップS1011〜ステップS1013までの処理を実行した場合には、ステップS1014に進む。
ステップS1014に進むと、閾値判定処理部411は、第2の確度情報410の中で顔と思われる箇所を選び出し、これを顔検出結果情報412として、例えば、RAM103に記憶する。
以上のステップS1001〜ステップS1014の処理を経ることにより、図3のステップS304における顔検出処理が行われる。
これまでの説明のように、複数の検出器(識別器)を利用して第1の識別器402を実現する場合には、ループの回し方を工夫することが望ましい。例えば、第1の識別器402と第2の識別器409を同じループで回して、閾値決定処理部406をループ毎に別個に実行すると、第2の識別器409が不必要に実行される恐れがある。
例えば、顔検出処理において、画像データ401の中に存在している顔というのは、大体同じ傾きで存在していることが多い。もし、0度の傾きの顔が最も多ければ、180度の顔はほとんどないことが多い。それにもかかわらず、ループ毎に閾値決定処理部406を実行すると、180度の顔がないにもかかわらず閾値を出力値の上位約5%の値として決定してしまい、閾値が不必要に低めに設定されてしまう。この場合、180度の顔の存在が期待できない領域について、180度の顔に対応した第2の識別器409が実行されてしまうことになる。
このような点を考慮して、本実施形態では、第1の顔検出器706による第1の顔検出処理(S1005)を必要な回数だけループして全て実行してから、閾値決定処理部406による閾値の決定(S1008)を実行している。そして、その閾値を利用した第1の検出結果情報408に基づいて、第2の顔検出器903による第2の顔検出処理(S1012)を実行している。
以上説明したように、本実施形態によれば、第1の識別器402と第2の識別器409の間に、閾値の決定を行う閾値決定処理部406を入れることにより、閾値処理の閾値調整を自動化できる。そして、本実施形態では、固定の閾値を使うのではなく動的に上位の出力値(閾値)を選択することが重要である。また、ループの回し方の工夫によって適切な範囲での閾値処理が行われ、処理速度と識別精度を両立させることができる。
即ち、本実施形態では、第1の識別器402の全出力値から相対的に上位複数の値を取り出し、これらの出力値に対応する候補点について第2の識別器409による処理を実行している。また、本実施形態では、上位の複数の出力値を選択する際に、出力値のソートを実行すると処理負荷が重いので、まず出力値の分布を調べてからこの分布を参考にして閾値を決定することによってソート処理を避けている。
(第2の実施形態)
第2の実施形態では、本発明に係るパターン認識装置として、トーン信号検出装置を適用した形態であり、添付の図面を参照して以下に説明する。また、本実施形態では、入力情報として後述のPCM信号を適用し、認識するパターンとしてトーン信号を適用した例を示す。
第2の実施形態に係るパターン認識装置(トーン信号検出装置)は、公衆電話回線に接続するものであり、通話相手が電話機のボタンを押すと、それを検出できるように設計されている。本実施形態では、通話相手の電話機は、ITU−T勧告Q.24で規定されているトーン信号を送信することを前提としている。その具体例を、以下の表1に示す。
Figure 0004995024
ここで、表1には、低群の周波数領域と高群の周波数領域の2つの分類(第1の分類及び第2の分類)が示されている。表1に示すように、"1"のボタンが押されると、697Hzと1209Hzの信号が同時に送信される。また、他のボタンを押さないで、"2"のボタンが押されると、697Hzと1336Hzの信号が同時に送信される。他のボタンについても、表1に示されるとおりの信号が送信される。
図11は、本発明の第2の実施形態に係るパターン認識装置のハードウェア構成の一例を示すブロック図である。
図11に示すように、第2の実施形態のパターン認識装置1100は、CPU1101、プログラムメモリ1102、RAM1103、電話端子1104、A/D変換器1105、表示装置1106、及び、制御バス・データバス1110を有して構成されている。
CPU(中央演算装置)1101は、パターン認識装置1100における動作を統括的に制御するものであり、特に、本実施形態で説明するトーン信号検出方法をプログラムに従って実行する。
プログラムメモリ1102は、CPU1101により実行されるプログラムを記憶する。RAM1103は、CPU1101によるプログラムの実行時に、各種の情報や各種のデータを一時的に記憶するためのメモリである。
電話端子1104は、公衆電話回線に接続するためのインタフェースである。A/D変換器1105は、電話端子1104から入力されるアナログ信号をデジタルに変換する。
表示装置1106は、CPU1101からの指令により、パターン認識装置1100におけるトーン信号検出処理による検出結果を使用者に表示により提示する。
制御バス・データバス1110は、1101〜1106の各構成部とCPU1101とを接続しているバスである。
図12は、図11に示す表示装置1106の表示画面の一例を示す模式図である。
表示画面1201は、表示装置1106の画面全体を表している。ボタン1202は、通話相手の電話機のボタンを模式的に表したものである。この図12に示すボタン1202には、"0"から"9"までの数字のボタンと、"A"から"D"までのローマ字のボタンと、"*"のボタンと、"#"のボタンとが並べられて設けられている。なお、通常の電話機においては、"A"から"D"のボタンは、装備されていない。円1203は、通話相手がボタンを押したときに現れるものであり、押されたボタンを表す文字の周りに円として表示される。ここで、図12に示す例では、通話相手が、"1"の数字のボタンを押したことを表している。また、例えば、"#"のボタンが押された場合には、"#"の周りに円1203が表示され、"1"の数字の周りには表示されない。逆に、ボタンを押していない状態の時には、円1203は表示されない。
図13は、本発明の第2の実施形態に係るパターン認識装置の機能構成の一例を示すブロック図である。ここで、図13の○で示す、1301、1303、1305及び1307の各機能構成部は、CPU1101がプログラムメモリ1102に記憶されているプログラムを実行することにより実現される。
図13に示すA/D変換器1105は、図11に示すA/D変換器と同じものであり、CPU1101から見ると外部の入力部である。
離散フーリエ変換処理部1301は、まず、公衆電話回線から入力され、A/D変換器1105でデジタル形式に変換された信号を入力情報として取得する。具体的に、この際に取得される入力情報は、音声信号を一定時間間隔でサンプリングしたPCM信号である。離散フーリエ変換処理部1301は、A/D変換器1105により得られた過去Tミリ秒間のPCM信号をPミリ秒間隔で周波数領域の信号に変換して、これをフーリエ変換結果情報1302として、例えば、RAM1103に記憶する。このフーリエ変換結果情報1302におけるフォーマットに関しては、図14を用いて後述する。
上位周波数選択処理部1303は、フーリエ変換結果情報1302の中でエネルギーの最も高い周波数を複数選択する。上位周波数選択処理部1303の詳細な処理については、図15を用いて後述する。
上位周波数リスト1304は、上位周波数選択処理部1303によって選択された周波数の情報が並ぶものである。この上位周波数リスト1304は、例えば、RAM1103に記憶される。
比較演算処理部1305は、上位周波数リスト1304に並ぶ周波数を含むパターンについて、フーリエ変換結果情報1302の比較演算を行い、尤もらしいパターンの情報を検出結果情報1306として、例えば、RAM1103に記憶する。この比較演算処理部1305の詳細な処理については、図16を用いて後述する。
検出結果表示処理部1307は、検出結果情報1306に基づいて、検出した信号の内容を、例えば、図12に示すように表示装置1106に表示する。ここで、図13に示す表示装置1106は、図11に示す表示装置1106と同じものである。
図14は、図13に示すフーリエ変換結果情報1302のフォーマットの一例を示す模式図である。ここで、図14に示す表1401は、フーリエ変換結果情報1302に記憶される2次元配列の情報を表したものである。
図14に示すグラフ1402は、離散フーリエ変換処理部1301が生成するフーリエ変換結果情報1302をグラフとして図示したものである。この際、グラフ1402の曲線は、個々の周波数に対応するフーリエ係数の大きさを表している。第2の実施形態では、このフーリエ係数の大きさを、その周波数を含むトーン信号が受信された確度として利用する。
即ち、離散フーリエ変換処理部1301は、PCM信号を変換した周波数領域において各分類のトーン信号を含んでいる確度(フーリエ係数の大きさ)を求める確度抽出手段を構成する。また、離散フーリエ変換処理部1301は、図14に示すように、確度に係る確度分布を生成する確度分布生成手段を構成する。また、上位周波数選択処理部1303は、前記確度分布を用いて閾値を決定する閾値決定手段を構成すると共に、離散フーリエ変換処理部1301により求めた確度の中で相対的に上位の確度を有する周波数領域等を1つ以上選択する上位選択手段を構成する。また、比較演算処理部1305は、トーン信号の検出処理を行う検出手段を構成する。
フーリエ変換結果情報1302は、離散フーリエ変換の結果に係る情報であるので、その周波数の個数は有限である。図14に示す点線1403は、周波数と2次元配列の情報1401の各要素との関係を示すものである。具体的に、2次元配列の情報1401の横方向は周波数に対応しており、その縦方向はフーリエ変換を行った時刻に対応している。
例えば、図14に示す最大周波数のフーリエ係数の大きさは0.0であるので、この周波数に対応する2次元配列の情報1401の要素は0.0である。逆に、図14に示す最小周波数のフーリエ係数の大きさは0.92であり、この値が2次元配列の情報1401の対応する要素に格納される。
ここで、フーリエ変換結果情報1302が、図14に示すように、2次元配列の情報1401であるのは、過去のフーリエ変換の結果が履歴として残されているからである。具体的に、時刻tの行は、最新のフーリエ変換の結果を表しており、時刻t−Pの行は、その前のもの、時刻t−2Pの行は、さらにその前のものを表している。実際には、メモリ(例えば、RAM1103)の節約の観点から、一定時間過ぎた情報は、消滅するように処理する必要がある。
図15は、図13に示す上位周波数選択処理部1303による、より詳細な処理手順の一例を示すフローチャートである。この図15のフローチャートにおいて、図14に示す2次元配列の情報1401をIと表し、I[t](freq)を時刻tにおける周波数freqのフーリエ係数の大きさとする。この値は0.0以上である。また、図15のフローチャートにおいて、S[freq]と表されているのは、I[t](freq)−I[t−kP](freq)のことである。この際、kPは任意の時間である。ただし、例外的に、S[0]=−2.0とする。このS[0]の絶対値は、Iのどの要素よりも大きい値である。
まず、ステップS1501において、上位周波数選択処理部1303は、周波数を指し示す変数freq0とfreq1を0で初期化する。
続いて、ステップS1502において、上位周波数選択処理部1303は、2次元配列の情報Iを走査するための添え字freqを最大周波数に初期化する。
続いて、ステップS1503において、上位周波数選択処理部1303は、S[freq]とS[freq0]とを比較し、S[freq]がS[freq0]よりも大きいか否かを判断する。
ステップS1503の判断の結果、S[freq]がS[freq0]よりも大きくない場合(即ち、S[freq]がS[freq0]以下である場合)には、ステップS1504に進む。ステップS1504に進むと、上位周波数選択処理部1303は、S[freq]とS[freq1]とを比較し、S[freq]がS[freq1]よりも大きいか否かを判断する。
ステップS1504の判断の結果、S[freq]がS[freq1]よりも大きくない場合(即ち、S[freq]がS[freq1]以下である場合)には、ステップS1505に進む。ステップS1505に進むと、上位周波数選択処理部1303は、freqが最小周波数であるか否かを判断する。
ステップS1505の判断の結果、freqが最小周波数でない場合には、ステップS1506に進む。ステップS1506に進むと、上位周波数選択処理部1303は、添え字freqを次に大きい周波数を指すように変更する。その後、ステップS1503に戻る。
一方、ステップS1503の判断の結果、S[freq]がS[freq0]よりも大きい場合には、ステップS1507に進む。ステップS1507に進むと、上位周波数選択処理部1303は、S[freq0]とS[freq1]とを比較し、S[freq0]がS[freq1]よりも大きいか否かを判断する。
ステップS1507でS[freq0]がS[freq1]よりも大きいと判断された場合、或いは、ステップS1504でS[freq]がS[freq1]よりも大きいと判断された場合には、ステップS1508に進む。ステップS1508に進むと、上位周波数選択処理部1303は、freq1をfreqの値で置き換える。
一方、ステップS1507の判断の結果、S[freq0]がS[freq1]よりも大きくない場合(即ち、S[freq0]がS[freq1]以下である場合)には、ステップS1509に進む。ステップS1509に進むと、上位周波数選択処理部1303は、freq0をfreqの値で置き換える。
ステップS1508の処理が終了した場合、或いは、ステップS1509の処理が終了した場合には、ステップS1505に進み、上述したステップS1505の処理が行われる。
一方、ステップS1505の判断の結果、freqが最小周波数である場合には、ステップS1510に進む。ステップS1510に進むと、上位周波数選択処理部1303は、freq0とfreq1を上位周波数として選択し、これを図13に示す上位周波数リスト1304として、例えば、RAM1103に記憶する。
以上のステップS1501〜ステップS1510の処理を経ることによって、2次元配列の情報IよりkPミリ秒前からの出力の増大が最も大きい周波数が2つ選ばれる。
図16は、図13に示す比較演算処理部1305による、より詳細な処理手順の一例を示すフローチャートである。
まず、ステップS1601において、比較演算処理部1305は、配列P[f]を0で初期化する。即ち、全てのfについて、配列P[f]=0に初期化する。この配列P[f]の添え字は、上述した離散フーリエ変換における個々の周波数に対応する。
続いて、ステップS1602において、比較演算処理部1305は、図13の上位周波数選択処理部1303によって選択された周波数(本実施形態では、2つの周波数)のうちの1つを変数fに代入する。そして、ステップS1602〜ステップS1615の処理を、図13の上位周波数選択処理部1303によって選択された周波数の数だけループを繰り返す。
続いて、ステップS1603において、比較演算処理部1305は、S[f]と定数Cとを比較し、S[f]が定数Cよりも大きいか否かを判断する。
ステップS1603の判断の結果、S[f]が定数Cよりも大きい場合には、ステップS1604に進む。ステップS1604に進むと、比較演算処理部1305は、周波数fが高群であるか否かを判断する。
ステップS1604の判断の結果、周波数fが高群でない場合(即ち、周波数fが低群である場合)には、ステップS1605に進む。ステップS1605に進むと、比較演算処理部1305は、表1より(低群)周波数fに一致する行を探す。
続いて、ステップS1606〜ステップS1608までのループの中で、比較演算処理部1305は、全ての高群周波数gに対して、S[f]+S[g]を求める。
ステップS1604の判断の結果、周波数fが高群である場合には、ステップS1609に進む。ステップS1609に進むと、比較演算処理部1305は、表1より(高群)周波数fに一致する列を探す。
続いて、ステップS1610〜ステップS1612までのループの中で、比較演算処理部1305は、全ての低群周波数gに対して、S[f]+S[g]を求める。
ステップS1608の処理が終了した場合、或いは、ステップS1612の処理が終了した場合には、ステップS1613に進む。ステップS1613に進むと、比較演算処理部1305は、ステップS1606〜S1608或いはS1610〜S1612における全ての周波数gのうち、S[f]+S[g]が最大値となる組み合わせをP[f]として、例えば、RAM1103に記憶する。
一方、ステップS1603の判断の結果、S[f]が定数Cよりも大きくない場合(即ち、S[f]が定数C以下である場合)には、ステップS1614に進む。ステップS1614に進むと、比較演算処理部1305は、設定された周波数fを検出しなかったこととして0をP[f]として、例えば、RAM1103に記憶する。この場合は、送信側でボタンが押されなかった場合に対応する。
ステップS1602〜ステップS1615までのループが完了すると、ステップS1616に進む。ステップS1616に進むと、比較演算処理部1305は、P[f]として記憶され、今まで求めたS[f]+S[g]の最大値を与える組み合わせについてS[f]とS[g]が両方とも、定数Cよりも大きいか否かを判断する。即ち、このステップS1616では、S[f]とS[g]のうち、小さい方の値が、定数Cよりも大きいか否かが判断される。ここで、最大値を与える組み合わせは、P[f]を走査することで得られる。
ステップS1616の判断の結果、S[f]とS[g]が両方とも、定数Cよりも大きい場合には、ステップS1617に進む。ステップS1617に進むと、比較演算処理部1305は、S[f]+S[g]の最大値に対応するボタンに係る情報を、図13の検出結果情報1306として、例えば、RAM1103に記憶する。そして、この検出結果情報1306に基づいて、図13の検出結果表示処理部1307は、図12に示す円1203を表示装置1106に表示する。
一方、ステップS1616の判断の結果、S[f]とS[g]のうちの少なくともいずれか一方の値が定数Cよりも大きくない場合(即ち、S[f]とS[g]のうちの少なくともいずれか一方の値が定数C以下である場合)には、ステップS1618に進む。ステップS1618に進むと、比較演算処理部1305は、この場合はボタンが押されなかったことに相当するため、図13の検出結果情報1306として情報は記憶しない。なお、図16に示すフローチャートでは、ステップS1618の場合には、検出結果情報1306として情報は記憶しない形態であるが、例えば、図13の検出結果情報1306として、ボタンは押されなかったことを示す情報を記憶する形態であっても良い。
以上のステップS1601〜ステップS1618の処理を経ることにより、フーリエ変換結果情報1302の比較演算処理による結果を、検出結果情報1306として記憶することができる。
以上説明したように、本実施形態によれば、上位周波数選択処理部1303において、上位周波数の選択処理を行うので、高群周波数と低群周波数の全ての組み合わせについてボタンが押されたかどうかを判断する必要がない。そのため、トーン信号を負荷の軽い処理で検出することができる。
また、図13の上位周波数選択処理部1303において複数の周波数を選択することで、例えば外出中に携帯電話を用いて電話をかけてきた場合のように、雑音の多い環境においてもトーン信号を検出することができる。なお、本実施形態では、説明を分かりやすくするために、通話相手の電話機はITU−T勧告Q.24で規定されている数少ないトーン信号を送信することを前提としている。この場合、より多くの周波数の信号を送信する場合の方が、本実施形態の負荷軽減の効果が顕著となる。
前述した各実施形態に係るパターン認識装置を構成する図2、図4、図7、図9及び図13の各構成部は、図1のプログラムメモリ102又は図11のプログラムメモリ1102に記憶されたプログラムが動作することによって実現できる。また、各実施形態に係るパターン認識装置によるパターン認識方法を示す図3、図8、図10、図15及び図16の各ステップは、図1のプログラムメモリ102又は図11のプログラムメモリ1102に記憶されたプログラムが動作することによって実現できる。このプログラム及び当該プログラムを記録したコンピュータ読み取り可能な記憶媒体は本発明に含まれる。
具体的に、前記プログラムは、例えばCD−ROMのような記憶媒体に記録し、或いは各種伝送媒体を介し、コンピュータに提供される。前記プログラムを記録する記憶媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリカード等を用いることができる。他方、前記プログラムの伝送媒体としては、プログラム情報を搬送波として伝搬させて供給するためのコンピュータネットワーク(LAN、インターネットの等のWAN、無線通信ネットワーク等)システムにおける通信媒体を用いることができる。また、この際の通信媒体としては、光ファイバ等の有線回線や無線回線などが挙げられる。
また、本発明は、コンピュータが供給されたプログラムを実行することにより各実施形態に係るパターン認識装置の機能が実現される態様に限られない。そのプログラムがコンピュータにおいて稼働しているOS(オペレーティングシステム)或いは他のアプリケーションソフト等と共同して各実施形態に係るパターン認識装置の機能が実現される場合も、かかるプログラムは本発明に含まれる。また、供給されたプログラムの処理の全て、或いは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて各実施形態に係るパターン認識装置の機能が実現される場合も、かかるプログラムは本発明に含まれる。
また、前述した本実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
本発明の第1の実施形態に係るパターン認識装置のハードウェア構成の一例を示すブロック図である。 本発明の第1の実施形態に係るパターン認識装置の機能構成の一例を示すブロック図である。 本発明の第1の実施形態に係るパターン認識装置の処理手順の一例を示すフローチャートである。 図3のステップS304において顔検出処理を行う際の処理手順の一例を示す模式図である。 図4に示す第1の確度情報のフォーマットの一例を示す概念図である。 図4に示す第1の確度情報の集計結果情報のフォーマットの一例を示す概念図である。 図4に示す第1の識別器による、より詳細な処理手順の一例を示す模式図である。 図4に示す閾値決定処理部による、より詳細な処理手順の一例を示すフローチャートである。 図4に示す第2の識別器による、より詳細な処理手順の一例を示す模式図である。 図3のステップS304における、より詳細な処理手順の一例を示すフローチャートである。 本発明の第2の実施形態に係るパターン認識装置のハードウェア構成の一例を示すブロック図である。 図11に示す表示装置の表示画面の一例を示す模式図である。 本発明の第2の実施形態に係るパターン認識装置の機能構成の一例を示すブロック図である。 図13に示すフーリエ変換結果情報のフォーマットの一例を示す模式図である。 図13に示す上位周波数選択処理部による、より詳細な処理手順の一例を示すフローチャートである。 図13に示す比較演算処理部による、より詳細な処理手順の一例を示すフローチャートである。
符号の説明
100 パターン認識装置
101 CPU
102 プログラムメモリ
103 RAM
104 ハードディスク(画像データベース)
105 フラッシュメモリ
110 制御バス・データバス
201 画像読み込み部
202 顔検出部
203 画像書き込み部
401 画像データ
402 第1の識別器
403 第1の確度情報
404 振り分け処理部
405 第1の確度情報の集計結果情報
406 閾値決定処理部
407 2値化処理部
408 第1の検出結果情報
409 第2の識別器
410 第2の確度情報
411 顔検出結果情報

Claims (17)

  1. 複数の領域を有する入力情報のパターンを認識するパターン認識方法であって、
    前記入力情報の各領域において前記パターンを含んでいる確度を求める確度抽出ステップと、
    前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、
    前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域選択する上位選択ステップと、
    前記上位選択ステップにより選択された領域に対して、前記パターンの検出処理を行う検出ステップと
    を含むことを特徴とするパターン認識方法。
  2. 入力情報のパターンを認識するパターン認識方法であって、
    前記入力情報が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、
    前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、
    前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する分類選択する上位選択ステップと、
    前記上位選択ステップにより選択された分類に基づいて、前記入力情報のパターンの検出処理を行う検出ステップと
    を含むことを特徴とするパターン認識方法。
  3. 複数の領域を有する入力情報のパターンを識別するパターン認識方法であって、
    前記入力情報の各領域が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、
    前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、
    前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域と分類との組選択する上位選択ステップと、
    前記上位選択ステップにより選択された、領域と分類との組の組み合わせに応じて、前記入力情報のパターンの検出処理を行う検出ステップと
    を含むことを特徴とするパターン認識方法。
  4. 前記確度抽出ステップでは、前記入力情報をn通りの方法で変換することによって、前記確度を求めることを特徴とする請求項2又は3に記載のパターン認識方法。
  5. 前記入力情報は、画像データであり、
    前記確度抽出ステップでは、前記第1の分類のパターンを第1の画像パターンとし、前記第nの分類のパターンを第nの画像パターンとして、前記確度を求めることを特徴とする請求項2乃至4のいずれか1項に記載のパターン認識方法。
  6. 前記確度抽出ステップでは、前記第1の画像パターンを第1の傾きの画像パターンとし、前記第nの画像パターンを第nの傾きの画像パターンとして、前記確度を求めることを特徴とする請求項5に記載のパターン認識方法。
  7. 前記上位選択ステップでは、前記確度抽出ステップにより求めた確度のうちの有効な確度を用いて前記閾値以上の確度に基づく選択を行うことを特徴とする請求項1乃至のいずれか1項に記載のパターン認識方法。
  8. 複数の領域を有する入力情報のパターンを認識するパターン認識装置であって、
    前記入力情報の各領域において前記パターンを含んでいる確度を求める確度抽出手段と、
    前記確度抽出手段により求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定手段と、
    前記確度抽出手段により求めた確度において前記閾値以上の確度を有する領域選択する上位選択手段と、
    前記上位選択手段により選択された領域に対して、前記パターンの検出処理を行う検出手段と
    を含むことを特徴とするパターン認識装置。
  9. 入力情報のパターンを認識するパターン認識装置であって、
    前記入力情報が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出手段と、
    前記確度抽出手段により求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定手段と、
    前記確度抽出手段により求めた確度において前記閾値以上の確度を有する分類選択する上位選択手段と、
    前記上位選択手段により選択された分類に基づいて、前記入力情報のパターンの検出処理を行う検出手段と
    を含むことを特徴とするパターン認識装置。
  10. 複数の領域を有する入力情報のパターンを識別するパターン認識装置であって、
    前記入力情報の各領域が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出手段と、
    前記確度抽出手段により求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定手段と、
    前記確度抽出手段により求めた確度において前記閾値以上の確度を有する領域と分類との組選択する上位選択手段と、
    前記上位選択手段により選択された、領域と分類との組の組み合わせに応じて、前記入力情報のパターンの検出処理を行う検出手段と
    を含むことを特徴とするパターン認識装置。
  11. 前記確度抽出手段は、前記入力情報をn通りの方法で変換することによって、前記確度を求めることを特徴とする請求項又は10に記載のパターン認識装置。
  12. 前記入力情報は、画像データであり、
    前記確度抽出手段は、前記第1の分類のパターンを第1の画像パターンとし、前記第nの分類のパターンを第nの画像パターンとして、前記確度を求めることを特徴とする請求項乃至11のいずれか1項に記載のパターン認識装置。
  13. 前記確度抽出手段は、前記第1の画像パターンを第1の傾きの画像パターンとし、前記第nの画像パターンを第nの傾きの画像パターンとして、前記確度を求めることを特徴とする請求項12に記載のパターン認識装置。
  14. 前記上位選択手段は、前記確度抽出手段により求めた確度のうちの有効な確度を用いて前記閾値以上の確度に基づく選択を行うことを特徴とする請求項乃至13のいずれか1項に記載のパターン認識装置。
  15. 複数の領域を有する入力情報のパターンを認識するパターン認識方法をコンピュータに実行させるためのプログラムであって、
    前記入力情報の各領域において前記パターンを含んでいる確度を求める確度抽出ステップと、
    前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、
    前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域選択する上位選択ステップと、
    前記上位選択ステップにより選択された領域に対して、前記パターンの検出処理を行う検出ステップと
    をコンピュータに実行させるためのプログラム。
  16. 入力情報のパターンを認識するパターン認識方法をコンピュータに実行させるためのプログラムであって、
    前記入力情報が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、
    前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、
    前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する分類選択する上位選択ステップと、
    前記上位選択ステップにより選択された分類に基づいて、前記入力情報のパターンの検出処理を行う検出ステップと
    をコンピュータに実行させるためのプログラム。
  17. 複数の領域を有する入力情報のパターンを識別するパターン認識方法をコンピュータに実行させるためのプログラムであって、
    前記入力情報の各領域が、第1の分類のパターンから第n(nは2以上の自然数)の分類のパターンまでのそれぞれの分類のパターンを含んでいる確度を求める確度抽出ステップと、
    前記確度抽出ステップにより求めた確度に係る確度分布に基づいて当該確度の閾値を決定する閾値決定ステップと、
    前記確度抽出ステップにより求めた確度において前記閾値以上の確度を有する領域と分類との組選択する上位選択ステップと、
    前記上位選択ステップにより選択された、領域と分類との組の組み合わせに応じて、前記入力情報のパターンの検出処理を行う検出ステップと
    をコンピュータに実行させるためのプログラム。
JP2007259059A 2007-10-02 2007-10-02 パターン認識方法、パターン認識装置及びプログラム Expired - Fee Related JP4995024B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007259059A JP4995024B2 (ja) 2007-10-02 2007-10-02 パターン認識方法、パターン認識装置及びプログラム
US12/242,470 US8625858B2 (en) 2007-10-02 2008-09-30 Method, apparatus, and computer-readable storage medium for pattern recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007259059A JP4995024B2 (ja) 2007-10-02 2007-10-02 パターン認識方法、パターン認識装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2009087251A JP2009087251A (ja) 2009-04-23
JP4995024B2 true JP4995024B2 (ja) 2012-08-08

Family

ID=40508427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007259059A Expired - Fee Related JP4995024B2 (ja) 2007-10-02 2007-10-02 パターン認識方法、パターン認識装置及びプログラム

Country Status (2)

Country Link
US (1) US8625858B2 (ja)
JP (1) JP4995024B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8351699B2 (en) * 2008-12-18 2013-01-08 Accusoft Corporation Methods and apparatus for auto image binarization
RU2427911C1 (ru) * 2010-02-05 2011-08-27 Фирма "С1 Ко., Лтд." Способ обнаружения лиц на изображении с применением каскада классификаторов
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
CN102929884B (zh) 2011-08-10 2016-05-04 阿里巴巴集团控股有限公司 一种收缩虚拟磁盘镜像文件的方法及装置
JP5814700B2 (ja) * 2011-08-25 2015-11-17 キヤノン株式会社 画像処理システム及び画像処理方法
US9992021B1 (en) 2013-03-14 2018-06-05 GoTenna, Inc. System and method for private and point-to-point communication between computing devices
US10657424B2 (en) 2016-12-07 2020-05-19 Samsung Electronics Co., Ltd. Target detection method and apparatus
US11514530B2 (en) * 2020-05-14 2022-11-29 Ccc Information Services Inc. Image processing system using convolutional neural networks

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173510A (ja) * 1997-08-29 1999-03-16 Matsushita Electric Works Ltd 位置検出装置
US6940545B1 (en) * 2000-02-28 2005-09-06 Eastman Kodak Company Face detecting camera and method
US20060020597A1 (en) * 2003-11-26 2006-01-26 Yesvideo, Inc. Use of image similarity in summarizing a collection of visual images
JP4482796B2 (ja) * 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4619927B2 (ja) * 2005-11-01 2011-01-26 富士フイルム株式会社 顔検出方法および装置並びにプログラム
US20070288419A1 (en) * 2006-06-07 2007-12-13 Motorola, Inc. Method and apparatus for augmenting data and actions with semantic information to facilitate the autonomic operations of components and systems

Also Published As

Publication number Publication date
US8625858B2 (en) 2014-01-07
JP2009087251A (ja) 2009-04-23
US20090087040A1 (en) 2009-04-02

Similar Documents

Publication Publication Date Title
JP4995024B2 (ja) パターン認識方法、パターン認識装置及びプログラム
JP4029412B2 (ja) 指紋掌紋画像処理システムおよび指紋掌紋画像処理方法
JP5668932B2 (ja) 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体
JP4933186B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP5335536B2 (ja) 情報処理装置及び情報処理方法
CN100465985C (zh) 人眼探测方法及设备
JP5235691B2 (ja) 情報処理装置及び情報処理方法
WO2003077199A1 (fr) Dispositif de comparaison d'empreintes digitales, procede de comparaison d'empreintes digitales, et programme
JP2007065844A (ja) 顔検出方法および装置並びにプログラム
KR20170087817A (ko) 얼굴 검출 방법 및 장치
WO2014074959A1 (en) Real-time face detection using pixel pairs
JP2008102611A (ja) 画像処理装置
JP4498203B2 (ja) メータ認識システム、メータ認識方法、およびメータ認識プログラム
KR20130120175A (ko) 캐리커처 자동 생성 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN104023160A (zh) 上置型扫描仪装置和图像获取方法
US11348254B2 (en) Visual search method, computer device, and storage medium
JP2010271792A (ja) 画像処理装置及び画像処理方法
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
JP2858530B2 (ja) エッジ強調装置
CN111797921A (zh) 一种图像数据对比方法及装置
JP2859681B2 (ja) 指紋データの2値化方法
US11921816B2 (en) Information processing apparatus that specifies a subject and method, image capturing apparatus, and image capturing system
KR20120041900A (ko) 지문 인식 방법 및 지문 인식 장치
US20150049945A1 (en) Image processing apparatus and image processing method
JP2001331804A (ja) 画像領域検出装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120509

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4995024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees