JP2010092199A - 情報処理装置および方法、プログラム、並びに記録媒体 - Google Patents

情報処理装置および方法、プログラム、並びに記録媒体 Download PDF

Info

Publication number
JP2010092199A
JP2010092199A JP2008260331A JP2008260331A JP2010092199A JP 2010092199 A JP2010092199 A JP 2010092199A JP 2008260331 A JP2008260331 A JP 2008260331A JP 2008260331 A JP2008260331 A JP 2008260331A JP 2010092199 A JP2010092199 A JP 2010092199A
Authority
JP
Japan
Prior art keywords
face
image
scene
learning
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008260331A
Other languages
English (en)
Inventor
Kotaro Sabe
浩太郎 佐部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008260331A priority Critical patent/JP2010092199A/ja
Priority to US12/572,306 priority patent/US8582897B2/en
Priority to CN200910179416A priority patent/CN101714212A/zh
Publication of JP2010092199A publication Critical patent/JP2010092199A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Abstract

【課題】画像の意味的シーンを判別する。
【解決手段】入力された画像から、顔検出部102は顔の位置、大きさ、向きを検出し、パーツ検出部103は、顔の目や鼻といったパーツを検出し、属性検出部104は、性別やメガネをかけているといった属性を検出する。顔シーン特徴抽出部105は、顔の位置、向き、属性といった項目からなる特徴量を抽出する。シーン判別部106には、予め特徴量から算出された判別器が記憶されている。シーン判別部106は、判別器による判別を実行し、処理対象とされているシーンを特定する。本発明は、デジタルカメラなどに適用することができる。
【選択図】図11

Description

本発明は情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、画像をシーン毎に分類することをできるようにした情報処理装置および方法、プログラム、並びに記録媒体に関する。
近年、デジタルカメラなどが普及し、ユーザが画像を扱う機会が増えつつある。例えば、デジタルカメラなどで撮像された画像は、増加傾向にあるため、ユーザは、撮像した画像を何らかの条件のもと、分類し、管理できることを望んでいる。また、撮像される画像の大半には、人の顔が撮像されていることが多い。このようなことを考慮し、例えば、画像に人が写っているか否かで分類したり、さらに人が写っているときにはその人の顔を判別し分類したりすることが提案されている。そのようなことを実現するためには、人の顔や人の顔の向きなどを判別することが必要である。(例えば、特許文献1,2参照)
特開2005−284487号公報 特開2005−157679号公報
ところで、画像に写っているシーンをさらに判別するための研究もされている。そのような研究のうち、性能の高い手法の多くは、画像中に現れる局所的な特徴パターン、例えば色、エッジといったパターンの出現頻度が用いられる。その出現頻度をベクトル化し、そのベクトル化した特徴空間を用いる。その特徴空間において、与えられたシーンのラベルとの関係を統計学習し識別器を得て、それに基づいて判別を行う。
このような手法では、風景、町並み、人物、料理、など全体の見た目が大きく違うシーンを大別することは可能であるかもしれないが、シーンの意味的理解をしたうえでのシーンの判別、例えば、旅行というシーンである、集合写真というシーンであるといったシーンの判別は困難である。
また、撮影される画像の70%程度は人物写真であるという統計がある。よって、人物写真であるのと、人物写真でないのとを分類しただけでは、例えば画像検索などの用途のために分類としては、十分な機能を発揮していないことになる。よって、十分に機能させるためには、人物写真をさらに何らかの条件に基づいて分類する必要がある。
本発明は、このような状況に鑑みてなされたものであり、意味的理解をした画像のシーンを判別できるようにするものである。
本発明の一側面の情報処理装置は、画像から顔を検出する顔検出手段と、前記顔検出手段により検出された顔の属性を判別する判別手段と、前記顔検出手段により検出された顔と、前記判別手段により判別された属性から、前記画像の特徴量を生成する生成手段と、前記生成手段により生成された前記特徴量から、前記画像が所定のシーンに該当するか否かを判別するための情報を学習する学習手段とを備える。
前記顔検出手段は、前記画像内における顔の位置、顔の大きさ、顔の向き、顔の個数を少なくとも検出し、前記生成手段は、前記顔の位置、顔の大きさを、前記画像の大きさに依存しない値に変換して前記特徴量を生成するようにすることができる。
前記属性は、表情、性別、年齢、人種、目を閉じているか否か、メガネ装着、カメラ目線、照明の均一性のうちの少なくとも1つであるようにすることができる。
前記特徴量生成手段は、前記画像に写っているM個の顔毎に、N次元の情報を有し、総計で、M×N次元としたベクトルを前記特徴量とするようにすることができる。
前記学習手段は、ブースティングにより学習するようにすることができる。
前記学習手段により学習された情報に基づき、処理対象とされた画像のシーンを判別するようにすることができる。
本発明の一側面の情報処理方法は、画像から顔を検出し、検出された顔の属性を判別し、検出された顔と、判別された属性から、前記画像の特徴量を生成し、その生成された前記特徴量から、前記画像が所定のシーンに該当するか否かを判別するための情報を学習するステップを含む。
本発明の一側面のプログラムは、画像から顔を検出し、検出された顔の属性を判別し、検出された顔と、判別された属性から、前記画像の特徴量を生成し、その生成された前記特徴量から、前記画像が所定のシーンに該当するか否かを判別するための情報を学習するステップを含む処理を実行するコンピュータが読み取り可能なプログラム。
本発明の一側面の記録媒体は、前記プログラムを記録している。
本発明の一側面の情報処理装置および方法、並びにプログラムにおいは、画像から顔が検出され、その顔の属性が判別され、その検出された顔と判別された属性から、画像の特徴量が生成され、画像が所定のシーンに該当するか否かを判別するための情報が学習される。
本発明の一側面によれば、意味的理解をした画像のシーンを判別できるようにするものである。
以下に、本発明の実施の形態について図面を参照して説明する。
まず本発明の概要を説明する。本発明を適用することで、例えば、デジタルカメラで撮像された画像を、シーン毎に分類するための学習を行い、その学習結果を用いて、画像をシーン毎に分類することが可能となる。本発明は、例えば、デジタルカメラに適用され、撮像された画像をシーン毎に分類したり、その分類結果に応じた加工を画像に施したりすることが可能となる。また、パーソナルコンピュータなどに適用され、蓄積されている画像をシーン毎に分類し、管理したり、その分類結果に応じた加工を画像に施したりすることが可能となる。
本実施の形態においては、シーン毎に画像を分類するための学習を、アンサンブル学習(集団学習)を利用する。集団学習によって得られる学習機械は、多数の弱仮説と、これらを組み合わせる結合機(combiner)とからなる。入力によらず、固定した重みで弱仮説の出力を統合する結合機の一例としてブースティングがある。ブースティングにおいては、前に生成した弱仮説の学習結果を使用して、間違いが発生した学習サンプル(例題)の重みを増すように、学習サンプルが従う分布が加工され、この分布に基づき新たな弱仮説の学習が行われる。これにより不正解が多く対象物として判別が難しい学習サンプルの重みが相対的に上昇し、結果的に重みが大きい、即ち判別が難しい学習サンプルを正解させるような弱判別器が逐次選択される。この場合、学習における弱仮説の生成は逐次的に行われ、後から生成された弱仮説はその前に生成された弱仮説に依存することになる。
対象物を検出する際には、上述のようにして学習により逐次生成された多数の弱仮説の判別結果が使用される。例えばAdaBoost(アダブースト)の場合は、この学習により生成された弱仮説(以下、弱判別器という。)全ての判別結果(対象物であれば1、非対象物であれば−1)が結合機に供給され、結合機は、全判別結果に対して、対応する弱判別器毎に学習時に算出された信頼度を重み付け加算し、その重み付き多数決の結果を出力し、結合機の出力値を評価することで、入力された画像が対象物か否かを選択する。
弱判別器は、なんらかの特徴量を使用して、対象物かまたは非対象物であるかの判定を行うものである。本実施の形態の場合、後述するように、所定のシーンに該当する画像であるか否かの判定を行うものである。
図1に本発明を適用した学習装置の一実施の形態の構成を示す。図1に示した学習装置10は、画像入力部11、顔検出部12、パーツ検出部13、属性判別部14、顔シーン特徴抽出部15、および学習部16を含む構成とされる。
画像入力部11は、所定のシーンであるとしてラベリングされた画像(ポジティブ画像を記述する)と、所定のシーンには該当しないとラベリングされた画像(ネガティブ画像と記述する)を入力する。画像入力部11は、画像データを入力するインターフェースを含む構成とされる。
顔検出部12は、画像入力部11に入力された画像から、人の顔を検出する。パーツ検出部13は、顔検出部12により検出された顔から、目、鼻、口といった顔を構成するパーツを検出する。顔を検出し、さらにパーツを検出することで、顔の位置、画像内における顔の領域などを、より正確に検出することが可能となる。また、目の位置や鼻の位置などにより、その人が属している属性を判別することが可能である。そこで、属性判別部14は、パーツ検出部13により検出されたパーツ毎の位置関係などにより、その人の属性を判断する。属性としては、男、女、大人、子供、老人といった属性であり、詳細は後述する。
なお、ここでは、パーツ検出部13を設け、検出された顔から、パーツをさらに検出し、その検出されたパーツの情報も用いて、属性の判別を行う場合を例に挙げて説明するが、パーツ検出部13を設けない構成とすることも可能である。すなわち、パーツ検出部13を設けずに、顔検出部12により検出された顔から、属性判別部14が属性を判別するように構成することも可能である。
ここまでの処理により、画像内の顔や、その顔の向きが検出され、それらの情報から属性が判別されている。このような種々の情報を用いて、顔シーン特徴抽出部15は、画像から抽出された各種の特徴量を、顔シーン特徴量にまとめる。そのような顔シーン特徴量から、後述するような処理を行うことにより、学習部16は、画像をシーン毎に分類するための情報(判別器)を学習する。
次に、図2のフローチャートを参照し、図12に示した学習装置10における学習について説明する。
ステップS11において、学習装置10の画像入力部11は、画像を取得する。画像入力部11に供給される画像は、予めユーザによりラベリングされている。例えば、パーティのシーンを判別するための学習を行わせる場合には、ユーザによりパーティのシーンであると判断される画像に対して、パーティというラベルが付けられる。パーティであるというラベルが付けられた画像は、ポジティブ画像として扱われる。一方、パーティのシーンではないとユーザによりラベルが付けられた画像は、ネガティブ画像として扱われる。
1つの画像に対して、複数のラベルが付けらることもある。例えば、パーティというラベルと、そのパーティが家族の誕生日パーティであるような場合には家族といったラベルも付けられる場合もある。
シーンとして判別される(学習される)のは、換言すれば、ラベルとして付けられるのは、例えば、パーティ、パーティ(立食)、パーティ(親睦会)、パーティ(結婚式)、パーティ(屋外、バーベキュー、キャンプ)、運動会、スポーツ、スポーツ観戦、オフィス、旅行、子供、家族、カップル、肖像写真、集合写真などである。これらのシーンのうち、学習させたいシーンに対応する画像と、そうでない画像とが、ユーザにより分類される。
ステップS11において、ポジティブ画像またはネガティブ画像が画像入力部11により入力されると、その画像は、顔検出部12に供給される。ステップS12において、顔検出部12は、供給された画像から、顔を検出する。この時検出される顔の個数に制限はなく、複数の顔が検出されることがある。この顔検出部12により、例えば、図3に示すように、画像から顔が検出される。
図3に示した画像30には、3人が写っている。枠41に、人31の顔が検出され、枠42に、人32の顔が検出され、枠43に、人33の顔が検出されている。これらの検出された顔毎に、図4に示したようなテーブルが作成される。よって、図3に示した画像30が処理されるときには、図4に示したテーブル52が少なくとも3個作成される。ただし、後述するように、1画像から、5個のテーブルが作成されると設定されている場合には、5個のテーブルが作成される。そして、顔が3個までしか検出されなかった場合には、残りの2個のテーブル52は、値が空のテーブルとされる。
図4に示したテーブル51は、“顔の数”という項目が設けられている。単位は“個”であり、処理対象とされている画像から検出された顔の個数が書き込まれる。図4に示したテーブル52について説明する。図4に示したテーブル52には、“顔の位置”、“顔の大きさ”、“顔の向き”、“スコア”、“向きのクラス”といった項目が設けられている。“顔の位置”という項目には“Field”として“px”と“py”が設けられている。この“px”には、画像の例えば、左上の一端を基準としたときの、検出された顔の位置の開始位置のx座標の値が書き込まれる。同様に、“py”には、検出された顔の位置の開始位置のy座標の値が書き込まれる。
“顔の大きさ”という項目には“Field”として“sx”と“sy”が設けられている。この“sx”には、x軸方向の顔の大きさの値が書き込まれ、“sy”には、y軸方向の顔の大きさの値が入力される。“顔の位置”と“顔の大きさ”には、ピクセル単位の値が書き込まれる。
“顔の向き”という項目には“Field”として、“roll”、“pitch”、“yaw”が設けられている。“roll”、“pitch”、“yaw”により、検出された顔の上下左右方向の傾きが表される。 “roll”、“pitch”、“yaw”のそれぞれに値は、rad単位の値とされる。
“スコア”という項目には、検出された顔の位置、大きさ、向きに対する確からしさに関する値が書き込まれる。“向きのクラス”という項目には、顔の向きをクラスで分類するときに用いられる項目である。
このような項目を有するテーブル52が、処理対処とされている画像から検出された顔毎に作成される。上記したように、予め検出される顔の最大数が設定されている場合には、その個数だけテーブル52が作成される。
図2のフローチャートの説明に戻り、ステップS12において、顔検出部12により画像から顔が検出されると、ステップS13に処理が進められる。ステップS13において、パーツ検出部13は、顔検出部12により検出された顔から、パーツを検出する。顔検出部12により、画像から顔であると判断される領域が検出されている。パーツ検出部13は、その領域内を処理対象として、眉毛、目、鼻、口といった顔を構成するパーツを検索し、検出する。このパーツ検出部13により、例えば、図5に示すように、画像から各パーツが検出される。
図5に示した画像30は、図3と同じ画像であり、3人が写っている。枠41に、人31の顔が検出され、この枠41内から、眉毛、目、鼻、口が検出される。枠41内において、点で示した部分が検出されたパーツである。特徴点の集まりにより、各パーツが検出される。このような検出が、検出された顔毎に行われることで、パーツ毎に、図6に示すようなテーブルが作成される。
図6に示したテーブル71には、“パーツの数”という項目が設けられている。単位は“個”であり、処理対象とされている画像から検出されたパーツの個数が書き込まれる。図6に示したテーブル72について説明する。図6に示したテーブル72には、“パーツの種類”、“パーツの位置”、および“スコア”とった項目が設けられている。“パーツの種類”という項目の“Field”には、パーツの種類に割り振られている固有のIDが書き込まれる。“パーツの位置”という項目の“Field”には、“px”と“py”が設けられている。この“パーツの位置”の“px”と“py”には、テーブル52の“顔の位置”の“px”と“py”と同じく、ピクセル単位で、パーツの位置を規定するための値が書き込まれる。“スコア”という項目には、検出器のスコアが書き込まれる。
このような項目を有するテーブル72が、処理対象とされている顔から検出されたパーツ毎に作成される。よって、例えば、1つの顔から、眉毛、目、鼻、口といった4つのパーツが検出されるように設定されている場合、4つのテーブル72が作成される。
図2のフローチャートの説明に戻り、ステップS13において、パーツが検出されると、ステップS14に処理が進められる。ステップS14において、属性判別部14は、属性を判別する。
ここで判別される属性は、例えば、笑顔(Smile)、性別(Gender)、大人(Adult)、赤ちゃん(Baby)、老人(Elder)、黄色人種(Mongoloid)、白色人種(Caucasoid)、黒色人種(Nygroid)、目を閉じているか否か(Eye Close)、メガネ装着(Glasses)、カメラ目線(Eyes To Me)、照明の均一性(Uniform Light)などである。なおここでは、この12個の属性が判別され、12個の属性が用いられて処理が行われるとして説明を続けるが、これらの12個の属性のうち、少なくとも1つが用いられるようにしても良い。また、これらの12個以外の属性をさらに追加したり、また、これらの12個の属性以外の属性を用いることも可能である。
また、これらの12個の属性は、例えば笑顔といった情報は表情に関する情報であり、大人、赤ちゃん、老人といった情報は年齢に関する情報であり、黄色人種、白色人種、黒色人種といった情報は人種に関する情報である。よって、属性判別部14は、表情、性別、年連、人種、目を閉じているか否か、メガネ装着、カメラ目線、照明の均一性といった属性のうちの少なくとも1つの属性を判別する処理を実行する。
属性判別部14は、パーツ検出部13から供給されるパーツに関する情報を参照し、例えば、目と目の位置関係や、目と鼻の位置関係などから、上記した属性を判別する。属性が判別されることにより、図7に示すようなテーブルが作成される。
図7に示したテーブル91には、“属性の数”という項目が設けられている。単位は“個”であり、処理対象とされている画像から検出された、または検出される属性の個数が書き込まれる。図7に示したテーブル92には、“属性の種類”、“スコア”という項目が設けられている。“属性の種類”という項目には、属性固有のIDが書き込まれる。例えば上記した属性毎に、予めIDが割り振られており、テーブル92が作成されている時点で処理対象とされている属性に対応するIDが書き込まれる。よって、属性毎に、テーブル92が作成される。上記した属性の全てを判別するとした場合、12個の属性があるので、1つの顔から12個のテーブル92が作成される。“スコア”という項目には、判別器のスコアが書き込まれる。
このような項目を有するテーブル92が、処理対処とされている画像から検出された属性毎に作成される。
ここまでの処理、すなわち、画像から顔を検出し、パーツを検出し、属性を判別するといった各処理は、本出願人が、先に出願した特開2005−284487号公報や、特開2005−157679号公報に開示されている手法を適用することができる。
図2のフローチャートの説明に戻り、ステップS14において、属性判別部14により属性が判別されると、ステップS15に処理が進められる。ステップS15において、顔シーン特徴抽出部15により、特徴量が生成される。この生成される特徴量は、図8に示したような特徴量(テーブル)である。
図8に示したテーブル111は、属性判別部14までの処理で検出された顔の位置、顔の大きさ、顔の向き、および属性をまとめたものである。すなわち、図8に示したテーブル111は、“顔の位置”、“顔の大きさ”、“顔の向き”、そして“属性”という項目が設けられている。なお、後述するように、このテーブル111の情報が、ベクトルとして扱われることで特徴量とされる。このテーブル111は、1つの顔に対して1個作成される。
“顔の位置”という項目には、“npx”と“npy”という情報が書き込まれる。この“npx”と“npy”は、図4に示したテーブル52に書き込まれている“顔の位置”という項目の“px”と“py”という情報からそれぞれ生成される。“npx”と“npy”は、画像の解像度に因らず画像幅と高さを1としたときの画面上での顔の位置を表したときの情報である。例えば、画像の横幅が640ピクセルであり、顔の位置が、160ピクセルの位置にあった場合、“npx”の所に書き込まれる値は、0.25(=160/640)となる。
“顔の大きさ”という項目には、“nsx”と“nsy”という情報が書き込まれる。この“nsx”と“nsy”も、上記した“npx”と“npy”と同じく、画像の解像度に因らず画像幅と高さを1としたときの画面上での顔の大きさを表したときの情報である。
“属性”という項目には、“Smile”、“Gender”、“Adult”、“Baby”、“Elder”、“Mongoloid”、“Caucasoid”、“Nygroid”、“Eye Close”、“Glasses”、“Eyes To Me”、“Uniform Light”という情報が書き込まれる。この“属性”の項目には、それぞれの属性の確信度が書き込まれる。その値は、0.0から1.0までの範囲をとる。確信度の最小値が0で、最大値が1である。
例えば、“Smile”という笑顔の確信度が0.5であった場合、笑顔と非笑顔の中間の表情であると判別されたことを示す。また、“Gender”という性別に関する確信度は、0.0のときには女性、1.0のときは男性といったように割り当てられ、値が近い程、それぞれに対する確信度が高いことを示す。
このように、テーブル111は、“顔の位置”で“npx”と“npy”という2次元、“顔の大きさ”で“nsx”と“nsy”という2次元、“顔の向き”で“roll”、“pitch”、“yaw”という3次元、“属性”で“Smile”、“Gender”、“Adult”、“Baby”、“Elder”、“Mongoloid”、“Caucasoid”、“Nygroid”、“Eye Close”、“Glasses”、“Eyes To Me”、“Uniform Light”という12次元の計19次元で構成される。よって、このテーブル111に基づくベクトルは、19次元のベクトルとなる。
1画像からは複数の顔が検出されるので、複数のテーブル111が作成される。具体的には、1画像から5つの顔が処理対象として最大で検出されると設定されている場合、換言すれば、デフォルトで、5つのテーブル111を作成すると設定されている場合、5つのテーブル111が作成される。ここでは、5つのテーブルが作成されるとする。また、この作成される5つのテーブル111は、1画像内に写っている顔の大きい順であるとする。このような場合、1番目に大きい顔の特徴量(テーブル111―1)、2番目に大きい顔の特徴量(テーブル111―2)、3番目に大きい顔の特徴量(テーブル111―3)、4番目に大きい顔の特徴量(テーブル111―4)、5番目に大きい顔の特徴量(テーブル111―5)が作成される。
よって、このように、5つのテーブル111−1乃至111−5が作成される場合、19次元×5で、合計95次元のベクトルとなる。さらに、1画像に写っている顔の数を、ベクトルを構成する1次元として加えると、96次元となる。ここでは、96次元のベクトルとして説明を続ける。テーブル111を作成すると記述したが、実際の処理は、これらの96次元のベクトルを生成する処理が実行される。
また、ここでは、5つの顔毎に、テーブル111(特徴量)が作成され、それらの特徴量をまとめた特徴量を、最終的な特徴量として用いるとして説明するが、本発明は、5つの顔に限定されるわけではない。すなわち、本発明は、画像に写っているM個の顔毎にN次元を有し、総計でM×N次元のベクトルを特徴量とすることで処理を行い、そのようなM×N次元のベクトルを扱うときも適用できる。
このように、顔シーン特徴量は、顔検出部12、パーツ検出部13、属性判別部14から構成される顔認識モジュールから出力された顔情報の1つの顔に対して、図8に示したようなテーブル111の各項目の情報を並べてベクトル化したものを単一顔特徴量とする。そして、画像全体に対して、顔数と大きい顔から順番に各顔シーン特徴量を最大で5つまで並べたものを、画像全体に対する顔シーン特徴量とする。すなわち、96次元のベクトルとする。
単一顔特徴の顔位置は、画像の解像度に因らず画像幅と高さを1としたときの画像上での位置を表すようにしてある。また大きさも同様とする。このことにより、解像度に依存する顔の位置や大きさの違いを吸収し、さまざまな解像度の画像を均一的に扱うことが可能となる。
属性に関しては、笑顔、性別、大人、子供、赤ちゃん、老人、黄色人種、白色人種、黒色人種、メガネ装着、カメラ目線、照明の均一性の指標に対して、その度合いを与えている。これにより、単一顔特徴量は、19次元のベクトルとなり、それらが5つ組み合わさった顔シーン特徴量は96次元のベクトルとなる。なお、画像中の顔数が5つに満たない時には当該の単一顔特徴の次元には、不定のフラグが入るようにする。
このようにして顔シーン特徴中抽出部15により、96次元のベクトルで表される特徴量が生成される。図2のフローチャートの説明に戻り、ステップS15において、特徴量が生成されると、ステップS16に処理が進められる。ステップS16において、学習が行われる。
ステップS16において、学習部16は、顔シーン特徴抽出部15により抽出された特徴量を用いて、シーン判別に必要な学習を行う。ここでは、与えられた複数のカテゴリのラベル、例えば、パーティというシーンの画像であるか否かなどのラベルに対して、自身とそれ以外の2値判別問題にすることで学習を行うことにする。従って各ラベルに対して一つの判別器が学習される。
まず、ここまでの処理で、予め選別された学習サンプルに対して、上述のようなシーン毎にラベルが付けられ、ラベルが付けられたそれらの画像から前述の96次元の顔シーン特徴量が抽出され、各サンプルの特徴量とされる。この特徴量とラベルを用いて判別器の学習が行われる。
その学習の方法として、例えばブースティングを用いることができる。ステップS16において実行される学習に係わる処理の一例を、図9のフローチャートを参照し説明する。図9に示した学習に係わる処理は、AdaBoostの大まかな手順に基づいている。ブースティングは複数の弱仮説を求める事で、それらの多数決で最終的な判別結果を出す。
ステップS31において、各弱仮説の判別器が初期化される。学習サンプル数がN個ある場合、1つの判別器の重みは、
1(i)=1/N
と設定される。このように1つの判別器の重みが初期化されるので、判別器の重みの総和は1と設定されている。
ステップS32において、t=1,2,・・・Tに対して分布Dtに基づく弱仮説の学習が開始される。弱仮説の求め方として、スタンプクラシファイヤーを用いることができる。スタンプクラシファイヤーは、各サンプルの特徴量の次元の中から一つを抜き出して、所定の閾値の大小関係でそのサンプルの正負判定(ポジティブ-ネガティブ判定)を行う方式である。
これを特徴次元と閾値をパラメータとして、判別させた時の重み付き判別誤差を逐一求めて、もっともエラーの小さかった次元、閾値パラメータが取得される。なお選び出された特徴量が不定値だった場合(画像中の顔数が足りなかった場合)には、そのサンプルの判別は不能であるので判別間違いを起こしたものとみなして全体の誤差を計算する。
このような処理を実現するために、ステップS33において、重み付き誤り率が次式(1)に基づいて算出される。
Figure 2010092199
上記式(1)に示されるように、重み付き誤り率etは、学習サンプルのうち、弱判別器の判別結果が誤っているもの(ft(xi)≠yi)である学習サンプル(yi=1とラベリングされた学習サンプルであって、f(xi)=−1と判定された学習サンプル、およびyi=−1とラベリングされた学習サンプルであって、f(xi)=1と判定された学習サンプル)のデータ重みのみを加算したものとなる。データ重みDt,iが大きい(判別が難しい)学習サンプルの判別を間違えると重み付き誤り率etが大きくなる。この式(1)で算出される重み付き誤り率etを最小化するht:X→Yが取得される。
この処理により、K個の弱判別器のうちの、重み付き誤り率etの値が最小の弱判別器が選択される(生成される)。ステップS34において、多数決重みαtが算出される。この多数決重み(信頼度)αtは、式(2)に基づいて算出される。
Figure 2010092199
上記式(2)から明らかなように、重み付き誤り率etが小さいほど、その弱判別器の信頼度αtが大きくなる。
ステップS35において、学習サンプルのデータ重みDt,iが更新される。即ち、式(2)にて得られた信頼度αtを使用して、下記式(3)により学習サンプルのデータ重みDt,iが更新される。データ重みDt,iは、通常全部足し合わせると1によるように正規化する必要がある。そこでデータ重みDt,iは、式(3)に示されるように正規化される。
Figure 2010092199
ただし、Ztは、
Figure 2010092199
とするための規格化因子
Figure 2010092199
である。
ステップS36において、重み付き多数決H(x)が更新される。この処理は次式(6)に基づいて行われる。また、式(6)により、全ての仮説を信頼度で重み付け多数決を行った最終仮説が求められる。
Figure 2010092199
式(6)は、弱判別器の個数がt(=1,・・・,K)、各弱判別器に対応する多数決の重み(信頼度)がαt、各弱判別器の出力がft(x)と設定されたとき、AdaBoostにおける重み付き多数決の値H(t)である。また、式(6)は、sgn関数であり、sgn関数は、sgn(<数値>)という形をとり、数値の符号を調べるときに用いられる関数である。()内の数値が正のときの結果は「1」、負のときの結果は「−1」、0のときの結果は「0」となる関数である。
ステップS33乃至36の処理が繰り返されることで、エラーが十分に下がると定められた最大の弱仮説数に到達したら、学習が終了される。このようにして、最終仮説が求められることで、学習が行われる。
このような処理がポジティブ画像やネガティブ画像といった、学習サンプル画像毎に行われる。よって、サンプル数だけ、図2のフローチャートの処理および図9のフローチャートの処理が繰り返されることで、1つのシーンに対する学習が行われる。そして、全ての弱仮説に対して演算が終わったあとの統合判定値をこのラベルのスコアとする。全てのシーンラベルのスコアの中でもっとも高かったものもしくは、ある閾値を上回ったもの全てをその画像の出力ラベルとする。
なお、サンプルの特徴量である96次元以外に、第1の顔と第2の顔の特徴量の差分値、第1と第3の顔の特徴量の差分など、全ての顔ペアの差分値も特徴量に加えて、スタンプクラシファイヤーを用いるようにして良い。このようにすることによって、顔の大きさが同じくらいであることや、性別が異なることなど2つの顔の関係性を判別に加えることができる。
なお、上記した学習手法の他に、マルチクラス識別器による学習を適用しても良い。上記した例では、2値判別の判別器を複数学習することでマルチクラスの判別を行っているが、ブースティングを多クラス問題に拡張した、AdaBoost.M2, AdaBoost.MHなどが提案されており、それらを使うこともできる。また、多クラス問題を各弱仮説を求める際に毎回異なる2値クラスにランダムに分割することで2クラス問題を解きながら、各クラスに判別結果を保持することで多クラス拡張したECOCブースティングなどの手法も適用できる。
このようにして、画像からその画像が撮像されたシーンを特定するための情報(判別器)が生成される。シーン毎に判別器が生成されるため、複数のシーンに対する判別器を生成するために、上述した学習処理が、シーン毎に繰り返し行われる。ここで、上記したように、画像に写っている顔、その顔の向き、大きさ、属性といった種々の情報から生成された情報で、画像をシーン毎に分類できる理由について説明を加える。
図10A乃至Fは、想定されるさまざまシーンのうちの6シーンを示した図である。図10A乃至F内の四角は、検出された顔の位置、大きさを表している。また、その四角内の矢印は、顔の向きを示している。
図10Aは、恋人同士が撮影されているシーンの画像を示している。恋人同士が撮影された画像には、大人の男性と女性が写っており、その男女は、笑顔で写っている可能性が高い。さらに、互いに向き合っている可能性も高く、顔が比較的大きく写っている可能性も高い。このようなことを考慮すると、1画像内に、属性が“男性”と判別される顔と、“女性”と判別される顔が検出され、その顔が“笑顔”で、その“大きさ”は比較的大きく、その顔の向きが、互いに向き合っていると判別される場合は、恋人同士のシーンであると判定できる。
図10Bは、おじいちゃんと孫が撮影されているシーンの画像を示している。おじいちゃんと孫が撮影された画像には、老人と子供が写っており、その老人は男性であり、その子供は女の子もしくは男の子である場合が多い。また、例えば、おじいちゃんと孫が撮影されている画像は、おじいちゃんと孫が向き合っているが、おじいちゃんは笑顔なのに対して、孫は泣いているといった状況も考えられる。
このようなことから、1画像内から“男性”であり“老人”であるといった属性を有する顔と、“女性”であり“子供”であるという属性を有する顔が検出された場合、おじいちゃんと孫が撮影されているシーンであると判定できる。さらに、検出された顔の向きが互いに向き合っており、一方が笑顔で、他方が泣き顔であるという属性が検出された場合、あやしているシーンであるといった、さらに突っ込んだシーンの意味解析を行うことが可能である。
図10Cは、パーティ(親睦会)のシーンの画像を示している。パーティ(親睦会)のシーンの画像には、大人の男性と女性が複数写っている場合が多い。1画像内に、複数の顔が検出され、属性が“男性”であると判別された顔と“女性”であると判別された顔が検出された場合、パーティ(親睦会)のシーンの画像であると判定できる。
図10Dは、旅行のシーンの画像を示している。旅行のシーンの画像には、人と建物などのラウンドマークが一緒に写っていることが多い。よって、人の顔がメインとならず、例えば、画像の端の方で、小さく写っていることが多い。このようなことから、“小さな”
顔が検出され、その顔の“位置”が画像の端の方であり、“正面”を向いているといったことが判別された場合、旅行のシーンの画像であると判定できる。
図10Eは、集合写真のシーンの画像を示している。集合写真のシーンの画像には、多くの小さな顔が写っていることが多い。1画像内の顔の“個数”が多く、“大きさ”が小さく、それらの顔の“位置”的な関係が接近しているといったことが判別された場合、集合写真のシーンの画像であると判定できる。
図10Fは、赤ちゃんが撮影されたシーンの画像を示している。赤ちゃんが撮影されたシーンの画像は、赤ちゃんが中央に大きく写っていることが多い。よって、比較的“大きな”顔が検出され、“赤ちゃん”という属性が判別された場合、赤ちゃん(子供)が写っているシーンの画像であると判定できる。
このように、顔の大きさ、向き、顔の数、複数の属性といった情報を組み合わせることにより、シーンを判別することは可能である。よって、上記したように、96次元の特徴量を生成し、その特徴量から、アダブーストなどの手法で、シーンを特定する情報を生成する(判別器を生成する)ことができる。
次に、学習の結果得られた情報を用いて、画像をシーン毎に分類することについて説明する。
図11は、画像のシーンを判別する判定装置の構成を示す図である。図11に示した判別装置100は、画像入力部101、顔検出部102、パーツ検出部103、属性判別部104、顔シーン特徴抽出部105、およびシーン判別部106を含む構成とされる。
画像入力部101、顔検出部102、パーツ検出部103、属性判別部104、顔シーン特徴抽出部105は、それぞれ、図1に示した学習装置10の画像入力部11、顔検出部12、パーツ検出部13、属性判別部14、顔シーン特徴抽出部15と同様の機能を有する。よって、その詳細な説明は省略する。
画像入力部101、顔検出部102、パーツ検出部103、属性判別部104、顔シーン特徴抽出部105の各部の処理により、シーン判別の処理対象とされている画像から、96次元のベクトルで表される顔シーンの特徴量が抽出される。この特徴量を用いて、シーン判別部106は、処理対象とされている画像のシーンを判別する。
シーン判別器106には、学習装置10で学習された結果、すなわち、複数の判別器が記憶されている。各判別器は、学習の結果、式(6)で表される関数である。ここで、図12のフローチャートを参照し、判別装置100における処理について説明する。
ステップS51において、特徴量が算出される。この処理は、画像入力部101、顔検出部102、パーツ検出部103、属性判別部104、顔シーン特徴抽出部105の各部が処理を実行することで算出される。この算出までの処理は、既に説明したので、その説明は省略する。この処理で、96次元の顔シーン特徴量が算出される。
ステップS52において、判別器による演算が実行される。シーン判別器106は、顔シーン特徴抽出部105から抽出される特徴量を、各判別器に代入し、判別器毎に値を算出する。このような演算がシーン判別器106において実行されることで、各判別器から、算出結果が得られる。
ステップS53において、シーン判別器106は、各判別器からの算出結果のうち、所定の閾値を超えた判別器を特定する。この特定された判別器に割り振られているシーンが、処理対象とされている画像のシーンとされる。仮に、複数の判別器からの算出結果が、閾値を超えていた場合、その処理対象とされた画像は、複数のシーンに該当することを意味する。例えば、家族写真の場合、“家族”でとったシーン、家族で行った“旅行”のシーン、さらにその旅行先でとった“子供”のシーンなど、複数のシーンに該当することがあり、そのようなときには、複数のシーンに該当するといった判別結果が得られる。
このように、1つの画像に複数のシーンが該当する場合であっても、本発明を適用することで、的確にそれらのシーンを判別することが可能となる。
このように本発明によれば、顔画像認識を行ったあとに得られる幾つかの顔情報を使うことで、シーン全体の意味を理解した判別を行うことが可能となる。また、写真などの中で顔が含まれる画像は多く、本発明を適用することで、顔画像をさらに細分化されたカテゴリに分類できるようになり、その効果は顕著であると考えられる。
また、顔情報の意味を組み合わせることで、画素単位の処理ではできない、より高次のシーンの意味理解が可能となる。さらに、顔画像情報を使うことで、画像を画素単位で処理することなく、シーン判別を行うことができ、既存の局所特徴量を用いたシーン判別よりも高速にかつ、少ないメモリで演算することが可能となる。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図13は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータのハードウェアの構成の例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インターフェース205が接続されている。入出力インターフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インターフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インターフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
本発明を適用した学習装置の一実施の形態の構成を示す図である。 学習について説明するためのフローチャートである。 顔検出について説明する図である。 顔検出の結果、得られる情報について説明する図である。 パーツ検出について説明する図である。 パーツ検出の結果、得られる情報について説明する図である。 属性について説明する図である。 特徴量について説明する図である。 学習に係わる処理について説明するフローチャートである。 シーンについて説明する図である。 判別装置の一実施の形態の構成を示す図である。 判別処理について説明するためのフローチャートである。 記録媒体について説明するための図である。
符号の説明
10 学習装置, 11 画像入力部, 12 顔検出部, 13 パーツ検出部, 14 属性判別部, 15 顔シーン特徴抽出部, 16 学習部, 100 判別装置, 101 画像入力部, 102 顔検出部, 103 パーツ検出部, 104 属性判別部, 105 顔シーン特徴抽出部, 106 判別部

Claims (9)

  1. 画像から顔を検出する顔検出手段と、
    前記顔検出手段により検出された顔の属性を判別する判別手段と、
    前記顔検出手段により検出された顔と、前記判別手段により判別された属性から、前記画像の特徴量を生成する生成手段と、
    前記生成手段により生成された前記特徴量から、前記画像が所定のシーンに該当するか否かを判別するための情報を学習する学習手段と
    を備える情報処理装置。
  2. 前記顔検出手段は、前記画像内における顔の位置、顔の大きさ、顔の向き、顔の個数を少なくとも検出し、
    前記生成手段は、前記顔の位置、顔の大きさを、前記画像の大きさに依存しない値に変換して前記特徴量を生成する
    請求項1に記載の情報処理装置。
  3. 前記属性は、表情、性別、年齢、人種、目を閉じているか否か、メガネ装着、カメラ目線、照明の均一性のうちの少なくとも1つである
    請求項1に記載の情報処理装置。
  4. 前記特徴量生成手段は、前記画像に写っているM個の顔毎に、N次元の情報を有し、総計で、M×N次元としたベクトルを前記特徴量とする
    請求項1に記載の情報処理装置。
  5. 前記学習手段は、ブースティングにより学習する
    請求項1に記載の情報処理装置。
  6. 前記学習手段により学習された情報に基づき、処理対象とされた画像のシーンを判別する
    請求項1に記載の情報処理装置。
  7. 画像から顔を検出し、
    検出された顔の属性を判別し、
    検出された顔と、判別された属性から、前記画像の特徴量を生成し、
    その生成された前記特徴量から、前記画像が所定のシーンに該当するか否かを判別するための情報を学習する
    ステップを含む情報処理方法。
  8. 画像から顔を検出し、
    検出された顔の属性を判別し、
    検出された顔と、判別された属性から、前記画像の特徴量を生成し、
    その生成された前記特徴量から、前記画像が所定のシーンに該当するか否かを判別するための情報を学習する
    ステップを含む処理を実行するコンピュータが読み取り可能なプログラム。
  9. 請求項8に記載のプログラムを記録している
    記録媒体。
JP2008260331A 2008-10-07 2008-10-07 情報処理装置および方法、プログラム、並びに記録媒体 Withdrawn JP2010092199A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008260331A JP2010092199A (ja) 2008-10-07 2008-10-07 情報処理装置および方法、プログラム、並びに記録媒体
US12/572,306 US8582897B2 (en) 2008-10-07 2009-10-02 Information processing apparatus and method, program, and recording medium
CN200910179416A CN101714212A (zh) 2008-10-07 2009-10-09 信息处理设备和方法、程序以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008260331A JP2010092199A (ja) 2008-10-07 2008-10-07 情報処理装置および方法、プログラム、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2010092199A true JP2010092199A (ja) 2010-04-22

Family

ID=41568711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008260331A Withdrawn JP2010092199A (ja) 2008-10-07 2008-10-07 情報処理装置および方法、プログラム、並びに記録媒体

Country Status (3)

Country Link
US (1) US8582897B2 (ja)
JP (1) JP2010092199A (ja)
CN (1) CN101714212A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002047A1 (ja) * 2010-06-30 2012-01-05 Necソフト株式会社 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
JP2012230639A (ja) * 2011-04-27 2012-11-22 Canon Inc 認識装置、認識方法及びプログラム
WO2013118218A1 (ja) * 2012-02-09 2013-08-15 パナソニック株式会社 画像認識装置、画像認識方法、プログラムおよび集積回路
US8823863B2 (en) 2012-04-10 2014-09-02 Canon Kabushiki Kaisha Image capturing apparatus and control method therefor
WO2020065838A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム コンピュータシステム、物体状況判断方法及びプログラム
WO2020065839A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム 物体状況判断システム、物体状況判断方法、およびプログラム
US10937168B2 (en) 2015-11-02 2021-03-02 Cognex Corporation System and method for finding and classifying lines in an image with a vision system
US11854173B2 (en) 2015-11-02 2023-12-26 Cognex Corporation System and method for finding lines in an image with a vision system

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013046374A (ja) * 2011-08-26 2013-03-04 Sanyo Electric Co Ltd 画像処理装置
US9129152B2 (en) * 2013-11-14 2015-09-08 Adobe Systems Incorporated Exemplar-based feature weighting
CN104899544B (zh) * 2014-03-04 2019-04-12 佳能株式会社 图像处理装置和图像处理方法
JP6532398B2 (ja) * 2015-08-07 2019-06-19 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
US10511858B2 (en) 2016-07-13 2019-12-17 Ati Technologies Ulc Bit packing for delta color compression
US10417524B2 (en) * 2017-02-16 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Deep active learning method for civil infrastructure defect detection
CN109977826B (zh) * 2019-03-15 2021-11-02 百度在线网络技术(北京)有限公司 物体的类别识别方法和装置
US11048976B2 (en) * 2019-11-11 2021-06-29 Midea Group Co., Ltd. Method and system for controlling machines based on object recognition
CN111223164B (zh) * 2020-01-08 2023-10-24 杭州未名信科科技有限公司 人脸简笔画生成方法及装置
CN112702520B (zh) * 2020-12-24 2022-12-27 广州极飞科技股份有限公司 对象合照方法及装置、电子设备、计算机可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937745B2 (en) * 2001-12-31 2005-08-30 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose
US8330831B2 (en) * 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US7505621B1 (en) * 2003-10-24 2009-03-17 Videomining Corporation Demographic classification using image components
GB0326374D0 (en) * 2003-11-12 2003-12-17 British Telecomm Object detection in images
JP4517633B2 (ja) 2003-11-25 2010-08-04 ソニー株式会社 対象物検出装置及び方法
JP5025893B2 (ja) 2004-03-29 2012-09-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
JP4708948B2 (ja) * 2005-10-03 2011-06-22 富士フイルム株式会社 顔向き特定方法、顔判別方法および装置並びにプログラム
JP4445454B2 (ja) * 2005-10-20 2010-04-07 アイシン精機株式会社 顔中心位置検出装置、顔中心位置検出方法、及び、プログラム
US7519201B2 (en) * 2005-10-28 2009-04-14 Honda Motor Co., Ltd. Detecting humans via their pose
US8320679B2 (en) * 2007-04-23 2012-11-27 Siemens Corporate Research, Inc. Method for detecting objects using flexible edge arrangements
JP2008282267A (ja) * 2007-05-11 2008-11-20 Seiko Epson Corp シーン識別装置、及び、シーン識別方法
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
US8055081B2 (en) * 2008-04-14 2011-11-08 Eastman Kodak Company Image classification using capture-location-sequence information
GB2474787B (en) * 2008-08-21 2013-03-06 Hewlett Packard Development Co Automatic creation of a scalable relevance ordered representation of an image collection

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5594791B2 (ja) * 2010-06-30 2014-09-24 Necソリューションイノベータ株式会社 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
US8989456B2 (en) 2010-06-30 2015-03-24 Nec Solution Innovators, Ltd. Attribute determining method, attribute determining apparatus, program, recording medium, and attribute determining system
WO2012002047A1 (ja) * 2010-06-30 2012-01-05 Necソフト株式会社 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
JP2012230639A (ja) * 2011-04-27 2012-11-22 Canon Inc 認識装置、認識方法及びプログラム
WO2013118218A1 (ja) * 2012-02-09 2013-08-15 パナソニック株式会社 画像認識装置、画像認識方法、プログラムおよび集積回路
JPWO2013118218A1 (ja) * 2012-02-09 2015-05-11 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 画像認識装置、画像認識方法、プログラムおよび集積回路
US9082013B2 (en) 2012-02-09 2015-07-14 Panasonic Intellectual Property Corporation Of America Image recognition device, image recognition method, program, and integrated circuit
US8823863B2 (en) 2012-04-10 2014-09-02 Canon Kabushiki Kaisha Image capturing apparatus and control method therefor
US11699283B2 (en) 2015-11-02 2023-07-11 Cognex Corporation System and method for finding and classifying lines in an image with a vision system
US11854173B2 (en) 2015-11-02 2023-12-26 Cognex Corporation System and method for finding lines in an image with a vision system
US10937168B2 (en) 2015-11-02 2021-03-02 Cognex Corporation System and method for finding and classifying lines in an image with a vision system
WO2020065838A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム コンピュータシステム、物体状況判断方法及びプログラム
JPWO2020065838A1 (ja) * 2018-09-27 2021-08-30 株式会社オプティム コンピュータシステム、物体状況判断方法及びプログラム
US11210335B2 (en) 2018-09-27 2021-12-28 Optim Corporation System and method for judging situation of object
JPWO2020065839A1 (ja) * 2018-09-27 2021-08-30 株式会社オプティム 物体状況判断システム、物体状況判断方法、およびプログラム
WO2020065839A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム 物体状況判断システム、物体状況判断方法、およびプログラム

Also Published As

Publication number Publication date
CN101714212A (zh) 2010-05-26
US8582897B2 (en) 2013-11-12
US20100021066A1 (en) 2010-01-28

Similar Documents

Publication Publication Date Title
JP2010092199A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US10579860B2 (en) Learning model for salient facial region detection
Cinbis et al. Unsupervised metric learning for face identification in TV video
US8712157B2 (en) Image quality assessment
US10699102B2 (en) Image identification apparatus and image identification method
US8571332B2 (en) Methods, systems, and media for automatically classifying face images
JP6332937B2 (ja) 画像処理装置、画像処理方法及びプログラム
EP1886255B1 (en) Using photographer identity to classify images
Alletto et al. Understanding social relationships in egocentric vision
IL267115A (en) Method and system for frontal search
Mou et al. Group-level arousal and valence recognition in static images: Face, body and context
Siva et al. Weakly Supervised Action Detection.
TW201310357A (zh) 個人化節目選擇系統及方法
US20140270707A1 (en) Method and System for Detecting and Recognizing Social Interactions In a Video
JP2007272897A (ja) 文脈支援型人間識別のためのデジタル画像処理方法および装置
JP2012014376A (ja) 画像処理装置及び方法、並びにプログラム
Manyam et al. Two faces are better than one: Face recognition in group photographs
Hu et al. XFace: a face recognition system for android mobile phones
JP5339631B2 (ja) ディスプレイを有するデジタル写真表示装置、システム及びプログラム
JP2007048172A (ja) 情報分類装置
JP2007213528A (ja) 行動認識システム
KR101429882B1 (ko) 화상 처리장치, 화상 처리방법, 제어 프로그램 및 기록매체
Sagana et al. Object Recognition System for Visually Impaired People
Lakshmy et al. Image based group happiness intensity analysis
JP2012033054A (ja) 顔画像サンプル採取装置、顔画像サンプル採取方法、プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120110