JP2013003662A - 情報処理装置及び方法、並びにプログラム - Google Patents
情報処理装置及び方法、並びにプログラム Download PDFInfo
- Publication number
- JP2013003662A JP2013003662A JP2011131295A JP2011131295A JP2013003662A JP 2013003662 A JP2013003662 A JP 2013003662A JP 2011131295 A JP2011131295 A JP 2011131295A JP 2011131295 A JP2011131295 A JP 2011131295A JP 2013003662 A JP2013003662 A JP 2013003662A
- Authority
- JP
- Japan
- Prior art keywords
- determinator
- determination
- age
- stage
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】 データを複数範囲の何れかに分類する場合に、誤分類を抑制できる
【解決手段】 多段判定部は、複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定部を備え、各判定機は、判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、各判定機において判定される2つの範囲には、重複する部分が含まれている。本技術は、データを分類する情報処理装置に適用することができる。
【選択図】図2
【解決手段】 多段判定部は、複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定部を備え、各判定機は、判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、各判定機において判定される2つの範囲には、重複する部分が含まれている。本技術は、データを分類する情報処理装置に適用することができる。
【選択図】図2
Description
本技術は、情報処理装置及び方法、並びにプログラムに関し、特に、データを複数範囲の何れかに分類する場合に、誤分類を抑制できる、情報処理装置及び方法、並びにプログラムに関する。
従来から、データを分類する手法として、分類対象のデータを、予め区分された複数の範囲の何れかに分類する手法が知られている。このような分類手法を具体的に適用した例として、画像に含まれる人物の顔の特徴量に基づいて、当該人物の顔を、複数の年齢範囲(20代、30代、40代等)のうち何れかに分類する技術が特許文献1に開示されている。
しかしながら、特許文献1を含む従来の手法では、所定範囲の上限又は下限近辺に該当するデータが分類対象になっている場合、所定範囲の前後の別範囲に誤って分類される場合が多々ある。例えば、特許文献1を例にすれば、所定の年齢範囲の上限付近(例えば20代の上限である29才)の年齢の人物の顔が分類対象となっている場合、当該人物の顔が、所定の年齢範囲の1ランク上の年齢範囲(例えば30代)に誤って分類されることが多々ある。
本技術は、このような状況に鑑みてなされたものであり、データを複数範囲の何れかに分類する場合に、誤分類を抑制できるようにしたものである。
本技術の一側面の情報処理装置は、複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定部を備え、前記各判定機は、前記判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、前記各判定機において判定される2つの範囲には、重複する部分を含まれている。
前記2つの範囲の境目から一定範囲は不感帯範囲として予め設定されており、前記多段判定部は、所定の階層の判定機において前記判定対象が前記不感帯範囲に分類された場合、次の階層の判定機の判定を禁止して、前記所定の階層の判定機までの判定の結果に基づいて、最終の判定を行うことができる。
前記多段判定部は、前記判定対象を含む画像から、前記判定対象に関する特徴量を抽出する特徴量抽出部をさらに備え、前記各判定機は、前記特徴量抽出部により抽出された前記特徴量に基づいて、前記判定を行うことができる。
前記多段判定部は、動画像を構成する複数の単位画像の各々を処理対象として、処理対象毎に、前記特徴量抽出部が特徴量を抽出し、前記各判定機が前記判定を行い、前記多段判定部による前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備えることができる。
前記処理対象は複数であり、前記多段判定部は、複数の前記処理対象毎に前記処理対象に関する特徴量を抽出する特徴量抽出部さらに備え、前記多段判定部による複数の前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備えることができる。
前記結果統合部は、前記多段判定部による前記処理対象毎の前記判定の結果の各々により示される各々の範囲における信頼度の分布を設定し、前記処理対象毎の前記信頼度の分布を加算することにより、前記判定対象が所定の範囲に分類される確率分布を算出することができる。
前記判定対象は人物であり、年齢に関する前記複数の範囲が予め設定されており、前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、前記各判定機は、前記顔を有する人物の年齢の範囲をそれぞれ判定することによって、前記人物の年齢を前記複数の範囲のうちの1つに分類することができる。
前記判定対象は人物であり、人種に関する前記複数の範囲が予め設定されており、前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、前記各判定機は、前記顔を有する人物の人種の範囲をそれぞれ判定することによって、前記人物の人種を前記複数の範囲のうちの1つに分類することができる。
前記判定対象は人物であり、顔の表情に関する前記複数の範囲が予め設定されており、前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、前記各判定機は、前記顔を有する人物の顔の表情の範囲をそれぞれ判定することによって、前記人物の顔の表情を前記複数の範囲のうちの1つに分類することができる。
前記特徴量抽出部は、前記画像から、人物の服装に関する特徴量を抽出することができる。
本技術の一側面の情報処理方法及びプログラムは、上述した本技術の一側面の情報処理装置に対応する方法及びプログラムである。
本技術の一側面の情報処理装置及び方法並びにプログラムにおいては、複数の範囲のうちの少なくとも1つに判定対象を分類する判定が行われるために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機が備えられ、前記各判定機によって、前記判定対象が、2つの範囲のうちの何れか一方に分類する判定が行われ、前記各判定機において判定される2つの範囲には、重複する部分が含まれる。
以上のごとく、本技術によれば、データを複数範囲の何れかに分類する場合に、誤分類を抑制できる。
本技術の実施形態として、4つの実施形態(以下、それぞれ第1実施形態乃至第4実施形態と称する)について、以下の順序で説明する。
1.第1実施形態(木構造を構成する判定機による静止画像における年齢推定の例)
2.第2実施形態(木構造を構成するマージンをもった判定機による年齢推定の例)
3.第3実施形態(木構造を構成する途中終了をもった判定機による年齢推定の例)
4.第4実施形態(木構造を構成する判定機による推定結果を他の推定に用いる例)
1.第1実施形態(木構造を構成する判定機による静止画像における年齢推定の例)
2.第2実施形態(木構造を構成するマージンをもった判定機による年齢推定の例)
3.第3実施形態(木構造を構成する途中終了をもった判定機による年齢推定の例)
4.第4実施形態(木構造を構成する判定機による推定結果を他の推定に用いる例)
以下、図面を参照して、本技術の実施の形態について説明する。
<1.第1実施形態>
[年齢推定装置1の構成例]
図1は、年齢推定装置1の構成を示すブロック図である。
[年齢推定装置1の構成例]
図1は、年齢推定装置1の構成を示すブロック図である。
年齢推定装置1は、画像取得部11、顔検出部12、年齢推定部13、結果表示部14、及び学習部15から構成されている。
画像取得部11は、スチルカメラやWEBカメラ等の画像を取得可能な装置であり、被写体の顔画像Hを含む静止画像である画像Pを取得する。なお、画像取得部11は、予め記憶された写真データやビデオデータから被写体の顔画像Hを含む画像Pを取得してもよい。
顔検出部12は、画像取得部11により取得された画像Pの全領域を対象として、画像Pに含まれている顔画像Hを検出する。なお、顔画像Hの検出手法は、特に限定されず、例えば、画像取得部21により取得された画像Pから、目、鼻、口、耳といった顔を構成する部位の配色領域の配置を検出することで顔画像Hを検出する。
年齢推定部13は、顔検出部12により検出された顔画像Hから顔の特徴量を抽出して、当該顔の特徴量に基づいて、当該顔を有する人物の年齢の推定を行う。
結果表示部14は、年齢推定部13による年齢の推定結果を、ディスプレイ等に表示させる。なお、年齢推定部13による年齢の推定結果は、結果表示部14により表示される以外にも、図示せぬ記憶部に記憶させてもよい。
学習部15は、後述する年齢推定部13に含まれる各判定機に学習をさせ、各判定機が、顔の特徴量が予め設定された複数の年齢範囲のいずれに分類されるのかを判定可能にする。なお、学習部15の詳細については、図5を用いて後述する。
[年齢推定部13の構成例]
図2は、年齢推定部13の詳細な構成例を示す図である。
図2は、年齢推定部13の詳細な構成例を示す図である。
年齢推定部13は、顔特徴量抽出部31、多段判定部32、及び推定結果保持部33から構成される。
顔特徴量抽出部31は、顔検出部12により検出された顔画像Hから、顔の特徴量を抽出する。特徴量としては、物体の認識に利用できる特徴量であれば特に限定されず、例えば、輝度情報、エッジ情報、Haar特徴量等を採用することができる。
多段判定部32は、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、予め設定された複数の年齢範囲のいずれに分類されるのかを判定する。多段判定部32は、判定機32−1,32−21,32−22,32−31乃至32−33を含む。
判定機32−1を第1段のノードとすると、判定機32−1の1段下の第2段のノードとして、判定機32−21及び32−22が配置される。さらに、判定機32−21の1段下の第3段のノードとして、判定機32−31及び32−32が配置される。また、判定機32−22の1段下の第3段のノードとして、判定機32−33が配置される。このように、本実施形態では、判定機32−1,32−21,32−22,32−31乃至32−33といった3階層の木構造のノードによって、多段判定部32が構成されている。
なお、以下、判定機32−1,32−21,32−22,32−31乃至32−33を個々に区別する必要がない場合、すなわち、特に階層関係の違いに着目する必要がない場合、これらをまとめて判定機32と称する。
それぞれの判定機32は、2クラス判定問題を解く。すなわち、本実施形態では、それぞれの判定機32には、相互に異なる2つの年齢範囲が2クラスとして与えられている。そこで、それぞれの判定機32は、入力される顔の特徴量に基づいて、当該顔を有する人物の年齢が、2つの年齢範囲のうち何れに分類されるのか、すなわち、2クラスのうちの何れに分類されるのかを判定する。
具体的には、第1段の判定機32−1には、図2に「y:0−39歳,n:40歳−」と示されているように、「0乃至39歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲とが2クラスとして与えられている。そこで、第1段の判定機32−1は、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
ここで、図2においては、第1の年齢範囲に分類されることが「y」により示されており、第2の年齢範囲に分類されることが「n」により示されている。
第1段の判定機32−1において、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至39歳」という第1の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機32−21に供給される。これに対して、第1段の判定機32−1において、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40歳以上」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機32−22に供給される。
第2段の判定機32−21には、図2に「y:0−19歳,n:20−39歳」と示されているように、「0乃至19歳」という第1の年齢範囲と、「20乃至39歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第2段の判定機32−21は、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第2段の判定機32−21において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至19歳」という第1の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機32−31に供給される。これに対して、第2段の判定機32−21において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至39歳」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機32−32に供給される。
また、第2段の判定機32−22には、図2に「y:40−49歳,n:50歳−」と示されているように、「40乃至49歳」という第1の年齢範囲と、「50歳以上」という第2の年齢範囲とが2クラスとして与えられている。そこで、第2段の判定機32−22は、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第2段の判定機32−22において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40乃至49歳」という第1の年齢範囲に分類された場合、その分類結果である「40−49歳」が、推定結果保持部33に供給される。これに対して、第2段の判定機32−22において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「50歳以上」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機32−33に供給される。
第3段の判定機32−31には、図2に「y:0−9歳,n:10−19歳」と示されているように、「0乃至9歳」という第1の年齢範囲と、「10乃至19歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第3段の判定機32−31は、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第3段の判定機32−31において、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至9歳」という第1の年齢範囲に分類された場合、その分類結果である「0−9歳」が、推定結果保持部33に供給される。これに対して、第3段の判定機32−31において、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「10乃至19歳」という第2の年齢範囲に分類された場合、その分類結果である「10−19歳」が、推定結果保持部33に供給される。
また、第3段の判定機32−32には、図2に「y:20−29歳,n:30−39歳」と示されているように、「20乃至29歳」という第1の年齢範囲と、「30乃至39歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第3段の判定機32−32は、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第3段の判定機32−32において、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至29歳」という第1の年齢範囲に分類された場合、その分類結果である「20−29歳」が、推定結果保持部33に供給される。これに対して、第3段の判定機32−31において、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「30乃至39歳」という第2の年齢範囲に分類された場合、その分類結果である「30−39歳」が、推定結果保持部33に供給される。
また、第3段の判定機32−33には、図2に「y:50−59歳,n:60歳−」と示されているように、「50乃至59歳」という第1の年齢範囲と、「60歳以上」という第2の年齢範囲とが2クラスとして与えられている。そこで、第3段の判定機32−33は、第2段の判定機32−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第3段の判定機32−33において、第2段の判定機32−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「50乃至59歳」という第1の年齢範囲に分類された場合、その分類結果である「50−59歳」が、推定結果保持部33に供給される。これに対して、第3段の判定機32−33において、第2段の判定機32−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「60歳以上」という第2の年齢範囲に分類された場合、その分類結果である「60歳−」が、推定結果保持部33に供給される。
このように、多段判定部32の段数N(階層N)は、本実施形態では3である。
推定結果保持部33は、判定機32から出力された分類結果を、推定結果として保持する。判定機32から供給される分類結果としては、「0−9歳」,「10−19歳」,「20−29歳」,「30−39歳」,「40−49歳」,「50−59歳」,及び「60歳−」の7つの年齢範囲がある。推定結果保持部33は、供給された分類結果を年齢の推定結果として保持し、結果表示部14に供給する。
次に、年齢推定装置1が実行する処理(以下、年齢推定処理と称する)について説明する。
[年齢推定処理]
図3は、年齢推定処理の流れを説明するフローチャートである。
図3は、年齢推定処理の流れを説明するフローチャートである。
ステップS1において、画像取得部11は、被写体の顔画像Hを含む画像Pを取得する。
ステップS2において、顔検出部12は、画像取得部11により取得された被写体の顔画像Hを含む画像Pから、顔画像Hを検出する。
ステップS3において、年齢推定部13は、多段判定処理を実行する。なお、多段判定処理については図4を用いて後述する。
ステップS4において、結果表示部14は、年齢推定部13による年齢の推定結果を表示する。
これにより、年齢推定処理は終了する。
次にステップS3の多段判定処理について説明する。
[多段判定処理]
図4は、多段判定処理の流れを説明するフローチャートである。
図4は、多段判定処理の流れを説明するフローチャートである。
ステップS21において、顔特徴量抽出部31は、顔検出部12により検出された顔画像Hから、顔の特徴量を抽出する。
ステップS22において、多段判定部32は、処理対象の判定機32の段数iを1に設定する。すなわち、多段判定部32は、処理対象の判定機32を、第1段の判定機32−1とする。
ステップS23において、多段判定部32は、第i段の判定機32、すなわち第1段の判定機32−1の判定を実行する。具体的には、第1段の判定機32−1は、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至39歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲のうち何れに分類されるのかを判定する。
ステップS24において、多段判定部32は、処理対象の判定機32の段数iが多段判定部32の段数N(階層N)以上であるかを判定する。
この場合、i=1,N=3であることから、ステップS24においてNOであると判定されて、処理はステップS25に進む。
ステップS25において、多段判定部32は、iを1だけインクリメントする(i=2)。すると、処理はステップS23に戻され、それ以降の処理が繰り返される。すなわち、処理対象の判定機32の段数iがN(すなわち3)以上となるまでの間、ステップS23乃至S25の処理が繰り返される。
ステップS23において、多段判定部32は、第i段の判定機32、すなわち第2段の判定機32の判定を実行する。
具体的には、第1段の判定機32−1において、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至39歳」という第1の年齢範囲に分類された場合、多段判定部32は、第2段の判定機32−21の判定を実行する。すなわち、第2段の判定機32−21は、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至19歳」という第1の年齢範囲と、「20乃至39歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。
これに対して、第1段の判定機32−1において、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40歳以上」という第2の年齢範囲に分類された場合、多段判定部32は、第2段の判定機32−22の判定を実行する。すなわち、第2段の判定機32−22は、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40乃至49歳」という第1の年齢範囲と、「50歳以上」という第2の年齢範囲のうち何れに分類されるのかを判定する。
ステップS24において、多段判定部32は、処理対象の判定機32の段数iが多段判定部32の段数N(階層N)以上であるかを判定する。
この場合、i=2,N=3であることから、ステップS24においてNOであると判定されて、処理はステップS25に進む。
ステップS25において、多段判定部32は、iを1だけインクリメントする(i=3)と、処理はステップS23に戻される。
ステップS23において、多段判定部32は、第i段の判定機32、すなわち第3段の判定機32の判定を実行する。
具体的には、第2段の判定機32−21において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至19歳」という第1の年齢範囲に分類された場合、多段判定部32は、第3段の判定機32−31の判定を実行する。すなわち、第3段の判定機32−31は、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至9歳」という第1の年齢範囲と、「10乃至19歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。
これに対して、第2段の判定機32−21において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至39歳」という第2の年齢範囲に分類された場合、多段判定部32は、第3段の判定機32−32の判定を実行する。すなわち、第3段の判定機32−32は、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至29歳」という第1の年齢範囲と、「30乃至39歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。
また、第2段の判定機32−22において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40乃至49歳」という第1の年齢範囲に分類された場合、多段判定部32は、第3段の判定機32の判定を実行する。ただし、この場合には、実際に判定を実行する第3段の判定機32が存在しないため、前段の分類結果、つまり本例では第2段の判定機32−22の分類結果が、そのまま第3段の判定機32による分類結果とみなされる。
これに対して、第2段の判定機32−22において、第1段の判定機32−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「50歳以上」という第2の年齢範囲に分類された場合、多段判定部32は、第3段の判定機32−33の判定を実行する。すなわち、第3段の判定機32−33は、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「50乃至59歳」という第1の年齢範囲と、「60歳以上」という第2の年齢範囲のうち何れに分類されるのかを判定する。
ステップS24において、多段判定部32は、処理対象の判定機32の段数iが多段判定部32の段数N(階層N)以上であるかを判定する。
この場合、i=3,N=3であることから、ステップS24においてYESであると判定されて、処理はステップS26に進む。
ステップS26において、推定結果保持部33は、推定結果を保持する。すなわち、推定結果保持部33は、第3段の判定機32−31から出力された分類結果である「0−9歳」または「10−19歳」、第3段の判定機32−32から出力された分類結果である「20−29歳」または「30−39歳」、第2段の判定機32−22にから出力された分類結果である「40−49歳」、第3段の判定機32−33から出力された分類結果である「50−59歳」または「60−歳」のうちのいずれかの分類結果を、推定結果として保持する。
これにより、多段判定処理は終了する。
このように、多段判定部32に含まれる判定機32は、顔特徴量抽出部31により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定することができる。学習部15は、判定機32がこのような判定を可能とするために、各判定機32に対して予め学習をさせる。学習部15の処理について、図5を用いて説明する。
[学習部15の処理]
図5は、学習部15の処理ついて説明する図である。
図5は、学習部15の処理ついて説明する図である。
学習部15は、学習用画像記憶部51、顔特徴量抽出部52、及び学習用判定機53−1乃至53−3から構成される。なお、以下、学習用判定機53−1乃至53−3を個々に区別する必要がない場合、これらをまとめて学習用判定機53と称する。
学習用画像記憶部51は、各種各様の年齢の人物の学習用顔画像HS1乃至HSK(Kは画像の総数であって、図5の例では7以上の数)を、その年齢とともにそれぞれ記憶する。なお、学習用顔画像HS1乃至HSKを、個々に区別する必要がない場合、これらをまとめて学習用顔画像HSと称する。
顔特徴量抽出部52は、図2の顔特徴量抽出部31と基本的に同様の機能と構成を有している。すなわち、顔特徴量抽出部52は、学習用画像記憶部51に記憶されている学習用顔画像HS1乃至HSKの顔の特徴量を抽出する。
学習用判定機53は、所定の判定機32に、所定の2クラス判定問題を解くための、相互に異なる2つの年齢範囲に分類される学習用顔画像HSの特徴量を学習させる。2つの年齢範囲は、学習対象の判定機32の第1、第2の年齢範囲のそれぞれに対応する。図5の例では、学習用判定機53−1は判定機32−31を学習させ、学習用判定機53−2は判定機32−21を学習させ、学習用判定機53−3は判定機32−1を学習させる。
なお、学習用判定機の個数は、本例では3個とされているが、特に限定されない。すなわち、1つの学習用判定機で、別々の判定機32の学習処理を時間的に離間して個別に実行することができるため、学習用判定機の数は、学習対象の判定機32の総数とは独立して決定することが可能である。また、学習用判定機53による学習の手法は、特に限定されず、例えば、Support Vector MachineやAdaboostを用いた手法を採用することができる。
学習用判定機53−1は、判定機32−31に、「0乃至9歳」という第1の年齢範囲と、「10乃至19歳」という第2の年齢範囲の2クラス判定問題を解かせるための学習をさせる。具体的には、学習用判定機53−1は、判定機32−31に対して、学習用画像記憶部51に記憶された学習用顔画像HSのうち、「0乃至9歳」及び「10乃至19歳」に分類される学習用顔画像HSのみを用いて予め学習を行わせる。すなわち、学習用判定機53−1は、顔特徴量抽出部52により「0乃至9歳」の学習用顔画像HSの特徴量が抽出された場合には「positive」という結果(図2の「y」という結果に相当)を出力させ、顔特徴量抽出部52により「10乃至19歳」の学習用顔画像HSの特徴量が抽出された場合には「Negative」という結果(図2の「n」という結果に相当)を出力させるように、判定機32−31を学習させる。このようにして学習用判定機53−1による学習が終了した判定機32−31は、図2の多段判定部32に適用される。
学習用判定機53−2は、判定機32−21に、「0乃至19歳」という第1の年齢範囲と、「20乃至39歳」という第2の年齢範囲の2クラス判定問題を解かせるための学習をさせる。具体的には、学習用判定機53−2は、判定機32−21に対して、学習用画像記憶部51に記憶された学習用顔画像HSのうち、「0乃至19歳」及び「20乃至39歳」に分類される学習用顔画像HSのみを用いて予め学習を行わせる。すなわち、学習用判定機53−2は、顔特徴量抽出部52により「0乃至19歳」の学習用顔画像HSの特徴量が抽出された場合には「positive」という結果(図2の「y」という結果に相当)を出力させ、顔特徴量抽出部52により「210乃至39歳」の学習用顔画像HSの特徴量が抽出された場合には「Negative」という結果(図2の「n」という結果に相当)を出力させるように、判定機32−21を学習させる。このようにして学習用判定機53−2による学習が終了した判定機32−21は、図2の多段判定部32に適用される。
学習用判定機53−3は、判定機32−1に、「0乃至39歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲の2クラス判定問題を解かせるための学習をさせる。具体的には、学習用判定機53−3は、判定機32−1に対して、学習用画像記憶部51に記憶された学習用顔画像HSのうち、「0乃至39歳」及び「40歳以上」に分類される顔画像Hのみを用いて予め学習を行わせる。すなわち、学習用判定機53−3は、顔特徴量抽出部52により「0乃至39歳」の学習用顔画像HSの特徴量が抽出された場合には「positive」という結果(図2の「y」という結果に相当)を出力させ、顔特徴量抽出部52により「40−歳」の学習用顔画像HSの特徴量が抽出された場合には「Negative」という結果(図2の「n」という結果に相当を出力させるように、判定機32−1を学習させる。このようにして学習用判定機53−3による学習が終了した判定機32−1は、図2の多段判定部32に適用される。
このように、学習部15は、各判定機32に対して、当該判定機32が解くべき2クラス判定問題に用いられるデータ(この場合、2つの年齢範囲)のみを予め学習させればよいので、より少ないデータを用いた効率的な学習を行うことができる。例えば、学習用判定機53−2は、判定機32−21に対しては、「0乃至19歳」及び「20乃至39歳」の学習用顔画像HSの特徴量のみを学習させればよく、「40歳以上」の学習用顔画像HSの特徴量については学習に用いる必要はないので、少ないデータを用いて効率的に学習を行うことができる。
また、多段判定部32は木構造の各判定機32から構成されているため、各段の判定では、前段の判定結果により特定される1つの判定機32のみが判定を実行すればよいので、各判定機32の全ての判定を行う場合と比較して、処理速度を向上させることができる。
なお、学習用画像記憶部51は、人物の学習用顔画像を、その見た目年齢とともにそれぞれ記憶するようにしてもよい。この場合、それぞれの判定機32には、相互に異なる2つの見た目年齢範囲が2クラスとして与えられ、それぞれの判定機32は、入力される顔の特徴量に基づいて、当該顔を有する人物の見た目年齢が、2つの見た目年齢範囲のうち何れに分類されるのかを判定する。したがって、学習用判定機53は、所定の判定機32に、所定の2クラス判定問題を解くための、相互に異なる2つの見た目年齢範囲に分類される学習用顔画像の特徴量を学習させる。
<2.第2実施形態>
第1実施形態の各判定機32が解く2クラス判定問題に用いられる2つの年齢範囲は、自身または他の全ての判定機32において重複することはなかった。しかしながら、各判定機が解く2クラス判定問題に用いられる2つの年齢範囲が、自身または他の判定機において重複するようにすることもできる。すなわち、多段判定部に、マージン(すなわち、重複部分)をもった2つの年齢範囲が与えられた判定機を配置することもできる。これにより、マージンをもたない場合に所定の年齢範囲の上限又は下限近辺に該当する年齢を処理対象とした場合であっても、誤分類を抑制することができるようになる。
第1実施形態の各判定機32が解く2クラス判定問題に用いられる2つの年齢範囲は、自身または他の全ての判定機32において重複することはなかった。しかしながら、各判定機が解く2クラス判定問題に用いられる2つの年齢範囲が、自身または他の判定機において重複するようにすることもできる。すなわち、多段判定部に、マージン(すなわち、重複部分)をもった2つの年齢範囲が与えられた判定機を配置することもできる。これにより、マージンをもたない場合に所定の年齢範囲の上限又は下限近辺に該当する年齢を処理対象とした場合であっても、誤分類を抑制することができるようになる。
そこで、マージンをもった2つの年齢範囲が与えられた判定機を有する年齢推定装置を、第2実施形態として説明する。なお、第2実施形態の年齢推定装置の機能と構成は、図1の年齢推定装置1と基本的に同様の機能と構成を有している。したがって、以下では、図1の年齢推定装置1との一致点の説明は省略し、その差異点、すなわち図1の年齢推定装置1の年齢推定部13とは異なる年齢推定部71のみを説明する。
[年齢推定部71の構成例]
図6は、年齢推定部71の詳細な構成例を示す図である。
図6は、年齢推定部71の詳細な構成例を示す図である。
年齢推定部71は、顔特徴量抽出部91、多段判定部92、及び推定結果保持部93から構成される。
顔特徴量抽出部91は、図2の顔特徴量抽出部31と基本的に同様の機能と構成を有しており、その説明は繰り返しになるので省略する。
多段判定部92は、顔特徴量抽出部91により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、予め設定された複数の年齢範囲のいずれに分類されるのかを判定する。多段判定部92は、判定機92−1,92−21,92−22,92−31乃至92−34,92−41乃至92−44を含む。
判定機92−1を第1段のノードとすると、判定機92−1の1段下の第2段のノードとして、判定機92−21及び92−22が配置される。さらに、判定機92−21の1段下の第3段のノードとして、判定機92−31及び92−32が配置される。また、判定機92−22の1段下の第3段のノードとして、判定機92−33及び92−34が配置される。さらに、判定機92−31の1段下の第4段のノードとして、判定機92−41及び92−42が配置される。また、判定機92−32の1段下の第4段のノードとして、判定機92−43及び92−44が配置される。このように、本実施形態では、判定機92−1,92−21,92−22,92−31乃至92−34,92−41乃至92−44といった4階層の木構造のノードによって、多段判定部92が構成されている。
なお、以下、判定機92−1,92−21,92−22,92−31乃至92−34,92−41乃至92−44を個々に区別する必要がない場合、これらをまとめて判定機92と称する。
それぞれの判定機92は、2クラス判定問題を解く。すなわち、本実施形態では、それぞれの判定機92には、相互に異なるマージンをもった2つの年齢範囲が2クラスとして与えられている。そこで、それぞれの判定機92は、入力される顔の特徴量に基づいて、当該顔を有する人物の年齢が、2つの年齢範囲のうち何れに分類されるのかを判定する。
具体的には、第1段の判定機92−1には、図6に「y:0−49歳,n:40−歳」と示されているように、「0乃至49歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲とが2クラスとして与えられている。そこで、第1段の判定機92−1は、顔特徴量抽出部91により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。第1段の判定機92−1には、「40乃至49歳」の範囲のマージンをもった2つの年齢範囲が与えられている。
第1段の判定機92−1において、顔特徴量抽出部91により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至49歳」という第1の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機92−21に供給される。これに対して、第1段の判定機92−1において、顔特徴量抽出部91により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40歳以上」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機92−22に供給される。
第2段の判定機92−21には、図6に「y:0−29歳,n:20−49歳」と示されているように、「0乃至29歳」という第1の年齢範囲と、「20乃至49歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第2段の判定機92−21は、第1段の判定機92−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。第2段の判定機92−21には、「20乃至29歳」の範囲のマージンをもった2つの年齢範囲が与えられている。
第2段の判定機92−21において、第1段の判定機92−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至29歳」という第1の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機92−31に供給される。これに対して、第2段の判定機92−21において、第1段の判定機92−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至49歳」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機92−32に供給される。
また、第2段の判定機92−22には、図6に「y:40−59歳,n:50歳−」と示されているように、「40乃至59歳」という第1の年齢範囲と、「50歳以上」という第2の年齢範囲とが2クラスとして与えられている。そこで、第2段の判定機92−22は、第1段の判定機92−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。第2段の判定機92−22には、「50乃至59歳」の範囲のマージンをもった2つの年齢範囲が与えられている。
第2段の判定機92−22において、第1段の判定機92−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40乃至59歳」という第1の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機92−33に供給される。これに対して、第2段の判定機92−22において、第1段の判定機92−1により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「50歳以上」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機92−34に供給される。
第3段の判定機92−31には、図6に「y:0−19歳,n:10−29歳」と示されているように、「0乃至19歳」という第1の年齢範囲と、「10乃至29歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第3段の判定機92−31は、第2段の判定機92−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。第3段の判定機92−31は、「10歳乃至19歳」の範囲のマージンをもった2つの年齢範囲が与えられている。
第3段の判定機92−31において、第2段の判定機92−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至19歳」という第1の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第4段の判定機92−41に供給される。これに対して、第3段の判定機92−31において、第2段の判定機92−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「10乃至29歳」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第4段の判定機92−42に供給される。
また、第3段の判定機92−32には、図6に「y:20−39歳,n:30−49歳」と示されているように、「20乃至39歳」という第1の年齢範囲と、「30乃至49歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第3段の判定機92−32は、第2段の判定機92−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。第3段の判定機92−32は、「30乃至39歳」の範囲のマージンをもった2つの年齢範囲が与えられている。
第3段の判定機92−32において、第2段の判定機92−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至39歳」という第1の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第4段の判定機92−43に供給される。これに対して、第3段の判定機92−32において、第2段の判定機92−21により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「30乃至49歳」という第2の年齢範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第4段の判定機92−44に供給される。
第3段の判定機92−33には、図6に「y:40−49歳,n:50−59歳」と示されているように、「40乃至49歳」という第1の年齢範囲と、「50乃至59歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第3段の判定機92−33は、第2段の判定機92−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。第3段の判定機92−33は、「49歳乃至50歳」の範囲のマージンをもった2つの年齢範囲が与えられている。
第3段の判定機92−33において、第2段の判定機92−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40乃至49歳」という第1の年齢範囲に分類された場合、その分類結果である「40−49歳」が、推定結果保持部93に供給される。これに対して、第3段の判定機92−33において、第2段の判定機92−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「50乃至59歳」という第2の年齢範囲に分類された場合、その分類結果である「50−59歳」が、推定結果保持部93に供給される。
また、第3段の判定機92−34には、図6に「y:50−59歳,n:60歳−」と示されているように、「50乃至59歳」という第1の年齢範囲と、「60歳以上」という第2の年齢範囲とが2クラスとして与えられている。そこで、第3段の判定機92−34は、第2段の判定機92−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第3段の判定機92−34において、第2段の判定機92−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「50乃至59歳」という第1の年齢範囲に分類された場合、その分類結果である「50−59歳」が、推定結果保持部93に供給される。これに対して、第3段の判定機92−34において、第2段の判定機92−22により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「60歳以上」という第2の年齢範囲に分類された場合、その分類結果である「60歳−」が、推定結果保持部93に供給される。
第4段の判定機92−41には、図6に「y:0−9歳,n:10−19歳」と示されているように、「0乃至9歳」という第1の年齢範囲と、「10乃至19歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第4段の判定機92−41は、第3段の判定機92−31により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第4段の判定機92−41において、第3段の判定機92−31により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至9歳」という第1の年齢範囲に分類された場合、その分類結果である「0−9歳」が、推定結果保持部93に供給される。これに対して、第4段の判定機92−41において、第3段の判定機92−31により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「10乃至19歳」という第2の年齢範囲に分類された場合、その分類結果である「10−19歳」が、推定結果保持部93に供給される。
また、第4段の判定機92−42には、図6に「y:10−19歳,n:20−29歳」と示されているように、「10乃至19歳」という第1の年齢範囲と、「20乃至29歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第4段の判定機92−42は、第3段の判定機92−31により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第4段の判定機92−42において、第23段の判定機92−31により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「10乃至19歳」という第1の年齢範囲に分類された場合、その分類結果である「10−19歳」が、推定結果保持部93に供給される。これに対して、第4段の判定機92−42において、第2段の判定機92−31により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至29歳」という第2の年齢範囲に分類された場合、その分類結果である「20−29歳」が、推定結果保持部93に供給される。
第4段の判定機92−43には、図6に「y:20−29歳,n:30−39歳」と示されているように、「20乃至29歳」という第1の年齢範囲と、「30乃至39歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第4段の判定機92−43は、第3段の判定機92−32により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第4段の判定機92−43において、第3段の判定機92−32により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「20乃至29歳」という第1の年齢範囲に分類された場合、その分類結果である「20−29歳」が、推定結果保持部93に供給される。これに対して、第4段の判定機92−43において、第3段の判定機92−32により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「30乃至39歳」という第2の年齢範囲に分類された場合、その分類結果である「30−39歳」が、推定結果保持部93に供給される。
また、第4段の判定機92−44には、図6に「y:30−39歳,n:40−49歳」と示されているように、「30乃至39歳」という第1の年齢範囲と、「40乃至49歳」という第2の年齢範囲とが2クラスとして与えられている。そこで、第4段の判定機92−44は、第3段の判定機92−32により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定する。
第4段の判定機92−44において、第3段の判定機92−32により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「30乃至39歳」という第1の年齢範囲に分類された場合、その分類結果である「30−39歳」が、推定結果保持部93に供給される。これに対して、第4段の判定機92−44において、第3段の判定機92−32により入力された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40乃至49歳」という第2の年齢範囲に分類された場合、その分類結果である「40−49歳」が、推定結果保持部93に供給される。
このように、多段判定部92の段数N(階層N)は、本実施形態では4である。
推定結果保持部93は、判定機92から出力された分類結果を、推定結果として保持する。判定機92から供給される分類結果としては、「0−9歳」,「10−19歳」,「20−29歳」,「30−39歳」,「40−49歳」,「50−59歳」,及び「60−歳」の7つの年齢範囲がある。推定結果保持部93は、供給された分類結果を年齢の推定結果として保持し、結果表示部14に供給する。
年齢推定部71による多段判定処理は、図4と基本的に同様であり、その説明は繰り返しになるので省略する。
このように、マージンをもった2つの年齢範囲が与えられた判定機92が配置されることにより、マージンをもたない場合の所定の年齢範囲の上限又は下限近辺に該当するデータに対しても、誤分類を抑制することができるようになる。
例えば、「0乃至39歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲というマージンをもたない2クラス判定問題を解く判定機による判定においては、40歳の人の顔は、「0乃至39歳」と「40歳以上」のうちのどちらの年齢範囲に分類されるのかは曖昧である。したがって、誤った分類(すなわち、「0乃至39歳」の年齢範囲への分類)がなされた場合には、その下段の判定機には、誤った分類結果が入力される。従って、最終的に、正しい年齢の推定(判別)をすることが困難になる。
これに対して、「0乃至49歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲のように、「40歳乃至49歳」の範囲でマージンをもった2クラス判定問題を解く判定機92−1による判定においては、このような困難性は解消される。すなわち、判定機92−1においては、40歳の人の顔が、「0乃至49歳」という第1の年齢範囲と「40歳以上」という第2の年齢範囲のうちの何れに分類されても、それは何れも正しい分類である。従って、その後、判定機92−1よりも1段下の第2段の判定機92−21または92−22に対しては、正しい分類結果が入力されることになり、さらに所定の範囲でマージンを持った判定、すなわち正しい分類結果が得られる判定が行われる。
このように、何れの段の判定機でも、誤りのない前段の分類結果が入力されて、所定の範囲でマージンを持った判定、すなわち正しい分類結果が得られる判定が行われることになる。その結果、最下段の判定機92により出力される分類結果は、ほぼ誤りのない正しい推定年齢となる。以下、具体例を挙げて、詳細に説明する。
例えば、26歳の人の顔に対して多段判定処理が実行される場合について説明する。
はじめに、多段判定部92は、第1段の判定機92−1において、26歳の人の顔の特徴量に基づいて、当該顔を有する人物の年齢が、「0乃至49歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲のうち何れに分類されるのかを判定する。その結果、第1段の判定機92−1において、当該人物の年齢は「0乃至49歳」に分類されると判定される。
次に、多段判定部92は、第2段の判定機92−21において、当該人物の年齢が、「0乃至29歳」という第1の年齢範囲と、「20乃至49歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。その結果、第2段の判定機92−21において、当該人物の年齢は「0乃至29歳」に分類されると判定される場合も、「20乃至49歳」に分類されると判定される場合もあり得る。これは、26歳の人の顔の特徴量は、当然ながら、老け顔、幼顔といった個人差もあるし、同一人物であったとしても、照明等の撮影条件の違いや個人の健康状態の変化などによって異なってくるからである。
第2段の判定機92−21において、「0乃至29歳」に分類されると判定された場合、多段判定部92は、第3段の判定機92−31において、当該人物の年齢は「0乃至19歳」という第1の年齢範囲と、「10乃至29歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。その結果、第3段の判定機92−31において、当該人物の年齢は「10乃至29歳」に分類されると判定される。次に、多段判定部92は、第4段の判定機92−42において、当該人物の年齢は「10乃至19歳」という第1の年齢範囲と、「20歳乃至29歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。その結果、第4段の判定機92−42において、当該人物の年齢は「20乃至29歳」に分類されると判定される。これにより、推定結果保持部93には、第4段の判定機92−42により出力された「20歳乃至29歳」の分類結果が推定結果として保持される。
一方、第2段の判定機92−21において、「20乃至49歳」に分類されると判定された場合、多段判定部92は、第3段の判定機92−32において、当該人物の年齢は「20乃至39歳」という第1の年齢範囲と、「30乃至49歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。その結果、第3段の判定機92−32において、当該人物の年齢は「20乃至39歳」に分類されると判定される。次に、多段判定部92は、第4段の判定機92−43において、当該人物の年齢は「20乃至29歳」という第1の年齢範囲と、「30乃至39歳」という第2の年齢範囲のうち何れに分類されるのかを判定する。その結果、第4段の判定機92−43において、当該人物の年齢は「20乃至29歳」に分類されると判定される。これにより、推定結果保持部93には、第4段の判定機92−43により出力された「20乃至29歳」の分類結果が推定結果として保持される。
このように、第2段の判定機92−21において、26歳の人物の年齢が「0乃至29歳」に分類されると判定された場合であっても、「20乃至49歳」と判定された場合であっても、推定結果保持部93には、「20−29歳」という分類結果が推定結果として保持される。すなわち、所定の判定機92に誤りのない前段の分類結果が入力されて判定が行われることにより、最下段の判定機92から出力される推定結果はほぼ誤りのない正しい推定年齢となる。
次に、多段判定部92に含まれるマージンをもった2クラス判定問題を解く判定機92に対する学習部115の処理について説明する。
[学習部115の処理]
図7は、学習部115の処理について説明する図である。
図7は、学習部115の処理について説明する図である。
学習部115は、学習用画像記憶部121、顔特徴量抽出部122、及び学習用判定機123−1及び123−2から構成される。なお、以下、学習用判定機123−1及び123−12を個々に区別する必要がない場合、これらをまとめて学習用判定機123と称する。
学習用画像記憶部121及び顔特徴量抽出部122については、図5の学習用画像記憶部51及び顔特徴量抽出部52と基本的に同様の機能と構成を有しており、その説明は繰り返しになるので省略する。
学習用判定機123は、判定機92に、マージンをもった2クラス判定問題を解くための、相互に異なる2つの年齢範囲に分類される学習用顔画像HSの特徴量を学習させる。図7の例では、学習用判定機123−1は判定機92−21を学習させ、学習用判定機123−2は判定機92−1を学習させる。
学習用判定機123−1は、判定機92−21に「0乃至29歳」という第1の年齢範囲と、「20乃至49歳」という第2の年齢範囲のマージンをもった2クラス判定問題を解かせるための学習をさせる。具体的には、学習用判定機123−1は、判定機92−21に対して、学習用画像記憶部121に記憶された学習用顔画像HSのうち、「0乃至19歳」及び「30乃至49歳」に分類される学習用顔画像HSのみを用いて予め学習を行わせる。このとき、学習用判定機123−1は、判定機92−21の2クラス判定問題のマージンに該当する「20乃至29歳」の範囲内にある学習用顔画像HSの特徴量は、学習に用いない。
すなわち、学習用判定機123−1は、顔特徴量抽出部122により「0乃至19歳」の学習用顔画像HSの特徴量が抽出された場合には「positive」という結果(図6の「y」という結果に相当)を出力させ、顔特徴量抽出部122により「30乃至49歳」の学習用顔画像HSの特徴量が抽出された場合には「Negative」という結果(図6の「n」という結果に相当を出力させるように、判定機92−21を学習させる。
このようにすることで、例えば、「20乃至29歳」の範囲内の所定の年齢の人物は、判定機92−21において、顔の特徴量が、より「0乃至19歳」に近い場合には、当該人物の年齢は「0乃至19歳」に分類されるようになる。したがって、多段判定部92は、次に、第2段の判定機92−31による判定を実行することができる。これに対して、当該人物の顔の特徴量が、より「30乃至49歳」に近い場合には、当該人物の年齢は「30乃至49歳」に分類される。したがって、多段判定部92は、次に、第2段の判定機92−32による判定を実行することができる。
このようにして学習用判定機123−1による学習が終了した判定機92−21は、図6の多段判定部92に適用される。
また、学習用判定機123−2は、判定機92−1に「0乃至49歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲のマージンをもった2クラス判定問題を解かせるための学習をさせる。具体的には、学習用判定機123−2は、判定機92−1に対して、学習用画像記憶部121に記憶された学習用顔画像HSのうち、「0乃至39歳」及び「50歳以上」に分類される学習用顔画像HSのみを用いて予め学習を行わせる。このとき、学習用判定機123−2は、判定機92−1の2クラス判定問題のマージンに該当する「40乃至49歳」の範囲内にある学習用顔画像HSの特徴量は、学習に用いない。
すなわち、学習用判定機123−2は、顔特徴量抽出部122により「0乃至39歳」の顔画像Hの特徴量が抽出された場合には「positive」という結果(図6の「y」という結果に相当)を出力させ、顔特徴量抽出部122により「50歳以上」の学習用顔画像HSの特徴量が抽出された場合には「Negative」という結果(図6の「n」という結果に相当を出力させるように、判定機92−1を学習させる。
このようにすることで、例えば、「40乃至49歳」の範囲内の所定の年齢の人物は、判定機92−1において、顔の特徴量が、より「0乃至39歳」に近い場合には、当該人物の年齢は「0乃至39歳」に分類されるようになる。したがって、多段判定部92は、次に、第2段の判定機92−21による判定を実行することができる。これに対して、当該人物の顔の特徴量が、より「50歳以上」に近い場合には、当該人物の年齢は「50歳以上」に分類される。したがって、多段判定部92は、次に、第2段の判定機92−22による判定を実行することができる。
このように、学習部115は、各判定機92に対して、当該判定機92が解くべき2クラス判定問題に用いられるデータ(この場合、マージンをもった2つの年齢範囲)のみを予め学習させればよいので、より少ないデータを用いた効率的な学習を行うことができる。
また、多段判定部92は、木構造の各判定機92から構成されているため、各段の判定では、前段の判定結果により特定される1つの判定機92のみが判定を実行すればよいので、各判定機92の全ての判定を行う場合と比較して、処理速度を向上させることができる。
また、マージンをもった2つの年齢範囲が与えられた判定機92が配置されることにより、マージンをもたない場合の所定の年齢範囲の上限又は下限近辺に該当する年齢に対しても、誤分類を抑制することができるようになる。
<3.第3実施形態>
第1及び第2実施形態の判定機32及び判定機92による出力は、「y」または「n」により示される2つの年齢範囲、すなわち2値であった。しかしながら、各判定機による出力は、尤度のような数値とすることもできる。そして、所定の判定機において誤分類の恐れがあった年齢、例えば、2クラス判定問題において用いられた年齢範囲の上限又は下限近辺に該当する年齢に対しては、判定処理を途中終了させ、広い年齢範囲をもつ分類結果に分類されるようにする。
第1及び第2実施形態の判定機32及び判定機92による出力は、「y」または「n」により示される2つの年齢範囲、すなわち2値であった。しかしながら、各判定機による出力は、尤度のような数値とすることもできる。そして、所定の判定機において誤分類の恐れがあった年齢、例えば、2クラス判定問題において用いられた年齢範囲の上限又は下限近辺に該当する年齢に対しては、判定処理を途中終了させ、広い年齢範囲をもつ分類結果に分類されるようにする。
これにより、誤分類の恐れがある年齢に対しても、ほぼ誤りのない推定をすることができるようになる。そこで、出力が尤度のような数値である判定機を有する年齢推定装置を、第3実施形態として説明する。なお、第3実施形態の年齢推定装置の構成は、第2実施形態の年齢推定装置の基本的に同様の機能と構成を有している。したがって、以下では、第2実施形態の年齢推定装置との一致点の説明は省略し、その差異点、すなわち図6の多段判定部92及び推定結果保持部93とは異なる多段判定部132及び推定結果保持部133のみを説明する。
[多段判定部132及び推定結果保持部133の構成例]
図8は、多段判定部132及び推定結果保持部133の構成例を示す図である。
図8は、多段判定部132及び推定結果保持部133の構成例を示す図である。
なお、図8の多段判定部132においては、図6の多段判定部92の第2段の判定機92−22,第3段の判定機92−33及び92−34と同様の判定機として、第2段の判定機132−22,第3段の判定機132−33及び132−34のみが示されている。したがって、これらの判定機についての説明は、繰り返しになるので省略する。なお、第2段の判定機132−22,第3段の判定機132−33には、マージンをもった2つの年齢範囲が与えられている。以下、判定機132−22,132−33,132−34を個々に区別する必要がない場合、これらをまとめて判定機132と称する。
それぞれの判定機132は、入力された特徴量に基づいて、−100乃至100の範囲内の所定のスコアを判定して出力する。
ここで、判定機132からの出力スコア値が正の値(1乃至100)の場合には、2クラス判定問題では「y」により示されていた年齢範囲に分類され、出力スコア値が負の値(−1乃至−100)の場合には、2クラス判定問題では「n」により示されていた年齢範囲に分類されるとすると、次のような問題が生じる。すなわち、出力スコア値が正の境目付近のスコア、例えば+1の場合には、「y」により示される年齢範囲に分類されることになるが、「y」により示される年齢範囲が適切であるとは限らず、むしろ「n」により示される年齢範囲が適切な場合もある。同様に、出力スコア値が負の境目付近のスコア、例えば−1の場合には、「n」により示される年齢範囲に分類されることになるが、「n」により示される年齢範囲が適切であるとは限らず、むしろ「y」により示される年齢範囲が適切な場合もある。すなわち、出力スコア値が正と負の境目付近の範囲内に入る場合とは、「y」または「n」により示される年齢範囲のうちのどちらかに明確に分類できる場合ではなく、曖昧な場合である。
そこで、判定機132の出力スコア値が正と負の境目付近の範囲内に入る場合、例えば本実施形態では、出力スコア値が−10乃至10の範囲内に入る場合には、判定処理は途中終了とする。すなわち、2クラス判定問題における2つの年齢範囲の境目から一定範囲は不感帯範囲として予め設定して、判定機132の出力が当該不感帯範囲に分類された場合には、次の階層の判定機による判定処理は行われずに、途中終了とする。これにより、「y」または「n」により示される年齢範囲への誤分類を抑制することができる。
図8において、判定機132−22からの出力が「score≧10」で示されるように、出力スコア値が10以上である場合、多段判定部132は、次に判定機132−33による判定を実行する。一方、判定機132−22からの出力が「score≦−10」で示されるように、出力スコア値が−10以下である場合、多段判定部132は、次に判定機132−34による判定を実行する。そして、判定機132−22からの出力が「score<10&&−10<score」で示されるように、出力スコア値が10より小さく且つ−10より大きい場合には、分類結果として「40歳−」が出力され、推定結果保持部133に保持される。すなわち、この場合には、以降の判定処理が途中終了され、広い年齢範囲をもつ分類結果に分類される。
判定機132−33からの出力が「score≧10」で示されるように、出力スコア値が10以上である場合、分類結果として「40−49歳」が出力され、推定結果保持部133に保持される。一方、判定機132−33からの出力が「score≦−10」で示されるように、出力スコア値が−10以下である場合、分類結果として「50−59歳」が出力され、推定結果保持部133に保持される。そして、判定機132−33からの出力が「score<10&&−10<score」で示されるように、出力スコア値が、10より小さく且つ−10より大きい場合には、分類結果として「40−59歳」が出力され、推定結果保持部133に保持される。
また、判定機132−34からの出力が「score≧10」で示されるように、出力スコア値が10以上である場合、分類結果として「50−59歳」が出力され、推定結果保持部133に保持される。一方、判定機132−34からの出力が「score≦−10」で示されるように、出力スコア値が−10以下である場合、分類結果として「50歳−」が出力され、推定結果保持部133に保持される。そして、判定機132−34からの出力が「score<10&&−10<score」で示されるように、出力スコア値が、10より小さく且つ−10より大きい場合には、分類結果として「60歳−」が出力され、推定結果保持部133に保持される。
以下、具体例を挙げて、詳細に説明する。
例えば、多段判定部132は、判定機132−22において、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、「40乃至59歳」という第1の年齢範囲と、「50歳以上」という第2の年齢範囲のうち何れに分類されるのかを判定する。判定機132−22からの出力スコア値が70であった場合、当該顔を有する人物の年齢は「40乃至59歳」に分類されると判定される。したがって、多段判定部92は、次に判定機132−33による判定を実行する。
これに対して、判定機132−22からの出力スコア値が−30であった場合、当該顔を有する人物の年齢は「50歳以上」に分類されると判定される。したがって、多段判定部92は、次に判定機132−34による判定を実行する。
これに対して、判定機132−22からの出力スコア値が1であった場合、当該顔を有する人物の年齢は「40乃至59歳」という第1の年齢範囲と、「50歳以上」という第2の年齢範囲のうちのどちらにも分類されず、判定は途中終了する。すなわち、判定機132−22からは、分類結果として「40歳−」が出力され、推定結果保持部133に保持される。
このように、判定機132において、2クラス判定問題を解く場合に誤分類の恐れがあったデータに対しては、判定処理を途中終了させ、広い年齢範囲をもつ分類結果に分類する。これにより、例えば、年齢の推定が困難な顔に対しても、ほぼ誤りのない推定をすることができるようになる。
<4.第4実施形態>
第1乃至第3実施形態の年齢推定装置は、静止画像である画像Pに含まれる顔画像Hの年齢を推定し、その推定結果を表示することにより年齢推定処理を終了させた。しかしながら、年齢推定装置は、当該推定結果を他の推定に用いることもできる。具体的には、年齢推定装置は、当該推定結果を用いて、動画像に含まれる顔画像Hの年齢を推定することもできる。そこで、動画像に含まれる顔画像Hの年齢を推定する年齢推定装置を、第4実施形態として説明する。なお、第4実施形態では、動画像は複数のフレームから構成されているものとして、フレーム単位で判定等に伴う画像処理が実行される。ただし、画像処理の単位は、フレームである必要は特になく、フィールド等であってもよい。以下、このようなフレームやフィールドといった、動画像に対する画像処理の単位となる画像を、適宜単位画像と称する。
第1乃至第3実施形態の年齢推定装置は、静止画像である画像Pに含まれる顔画像Hの年齢を推定し、その推定結果を表示することにより年齢推定処理を終了させた。しかしながら、年齢推定装置は、当該推定結果を他の推定に用いることもできる。具体的には、年齢推定装置は、当該推定結果を用いて、動画像に含まれる顔画像Hの年齢を推定することもできる。そこで、動画像に含まれる顔画像Hの年齢を推定する年齢推定装置を、第4実施形態として説明する。なお、第4実施形態では、動画像は複数のフレームから構成されているものとして、フレーム単位で判定等に伴う画像処理が実行される。ただし、画像処理の単位は、フレームである必要は特になく、フィールド等であってもよい。以下、このようなフレームやフィールドといった、動画像に対する画像処理の単位となる画像を、適宜単位画像と称する。
[年齢推定装置151の構成例]
図9は、年齢推定装置151の構成を示すブロック図である。
図9は、年齢推定装置151の構成を示すブロック図である。
年齢推定装置151は、画像取得部161、顔検出部162、静止画像年齢推定部163、顔トラッキング部164、結果統合部165、結果表示部166、及び学習部167から構成されている。
画像取得部161は、動画像を取得可能な装置であり、被写体の顔画像Hを含む動画像を単位画像、すなわちフレーム毎に取得する。具体的には、画像取得部161は、顔画像H1乃至Hn(nは整数値)を含むフレームF1乃至Fnを取得する。
顔検出部162は、画像取得部161により取得されたフレームFk(kは1乃至nのうち、任意の整数値)の全領域を対象として、フレームFkに含まれている顔画像Hkを検出する。なお、フレームFkに複数の顔画像Hkが含まれている場合、顔検出部162は、すべての顔画像Hkを検出する。
静止画像年齢推定部163は、顔検出部162により検出されたフレームFk毎の顔画像Hkから顔の特徴量を抽出し、当該顔の特徴量に基づいて、当該顔を有する人物の年齢の推定を行う。なお、静止画像年齢推定部163は、顔検出部162がフレームFkにおいて複数の顔画像Hkを検出した場合、それぞれの顔画像Hkについて年齢の推定を行う。静止画像年齢推定部163は、図1の年齢推定部13と基本的に同様の機能と構成を有しており、その説明は繰り返しになるので省略する。なお、静止画像年齢推定部163に含まれる多段判定部が有する判定機は、マージンをもった2つの年齢範囲が与えられた判定機であってもよい。また、当該判定機は、2クラス判定問題を解く場合に誤分類の恐れがあるデータに対しては、判定処理を途中終了させてもよい。
顔トラッキング部164は、顔検出部162により検出された所定の顔画像Hkを、追跡対象とし、それ以降のフレームで当該所定の顔画像Hkを追跡していく。その結果、複数のフレーム間で追跡されていった所定の顔画像Hkは、同一人物の顔と認定される。
[顔のトラッキング]
図10は、トラッキングについて説明する図である。
図10は、トラッキングについて説明する図である。
図10に示されるように、フレームF1には、2人の人物の顔画像H11と顔画像H12、フレームF2には、顔画像H21と顔画像H22、フレームF3には、顔画像H31と顔画像H32が含まれている。
この場合、顔トラッキング部164のトラッキングにより、各フレーム間で追跡されたH11、H21、H31は、同一人物の顔画像Hであると認定される。同様に、顔トラッキング部164のトラッキングにより、各フレーム間で追跡されたH12、H22、H32は、同一人物の顔画像Hであると認定される。すなわち、顔トラッキング部164は、各フレーム間に含まれる同一人物の顔を特定することができる。なお、トラッキングの手法は、特に限定されず、例えば、オプティカルフローによる追跡のような一般的な手法を採用することができる。
図9の説明に戻り、結果統合部165は、顔トラッキング部164により同一人物であると特定された所定の人物について、静止画像年齢推定部163により推定されたフレームFk毎の年齢の推定結果を統合し、動画像における所定の人物の年齢の推定結果を出力する。すなわち、結果統合部165は、静止画像年齢推定部163による複数の推定結果を統合する。また、結果統合部165は、当該推定結果とともに、動画像における所定の人物について、推定年齢の確率分布を算出することができる。なお、結果統合部165による年齢の推定結果の統合については、図12を用いて後述する。
学習部167は、静止画像年齢推定部163に含まれる各判定機に学習をさせる。なお、学習部167は、図1の学習部15と基本的に同様の機能と構成を有しており、その説明は繰り返しになるので省略する。
結果表示部166は、結果統合部165による統合された年齢の推定結果を、ディスプレイ等に表示させる。
次に、年齢推定装置151が実行する処理(以下、年齢推定処理と称する)について説明する。
[年齢推定処理]
図11は、年齢推定処理の流れを説明するフローチャートである。
図11は、年齢推定処理の流れを説明するフローチャートである。
ステップS41において、画像取得部161は、被写体の顔画像Hkを含む処理対象フレームFkの画像を取得する。
ステップS42において、顔検出部162は、画像取得部161により取得された被写体の顔画像Hkを含む処理対象フレームFkから、顔画像Hkを検出する。
ステップS43において、静止画像年齢推定部163は、多段判定処理を実行する。なお、多段判定処理については、図4と基本的に同様であり、その説明は繰り返しになるので省略する。
ステップS44において、顔トラッキング部164は、顔のトラッキングを行う。すなわち、顔トラッキング部164は、顔検出部162により検出された顔画像Hkを対象として、各フレーム間に含まれる同一人物の顔を特定する。
ステップS45において、結果統合部165は、全フレームの処理が終了したかを判定する。
まだ全フレームの処理が終了していない場合、ステップS45においてNOであると判定されて、処理はステップS41に戻され、それ以降の処理が繰り返される。すなわち、全フレームの処理が終了するまでの間、ステップS41乃至S45の処理が繰り返される。
その後、全フレームの処理が終了すると、ステップS45においてYESであると判定されて、処理はステップS46に進む。
ステップS46において、結果統合部165は、推定結果を統合する。すなわち、結果統合部165は、顔トラッキング部164により特定された所定の人物について、静止画像年齢推定部163により推定されたフレームFk毎の年齢の推定結果を統合する。これにより、動画像における所定の人物の年齢の推定結果が算出される。また、結果統合部165は、当該人物の年齢が、予め設定された複数の年齢範囲のそれぞれに分類される確率を算出する。
ステップS47において、結果表示部166は、結果統合部165により統合された年齢の推定結果を表示する。
これにより、年齢推定処理は終了する。
次に、結果統合部165による年齢の推定結果の統合について説明する。
[推定結果の統合]
図12は、推定結果の統合について説明する図である。
図12は、推定結果の統合について説明する図である。
図12の上の図は、顔トラッキング部164により特定された所定の人物についての、静止画像年齢推定部163によるフレームFk毎の年齢の推定結果を示している。なお、以下では、フレームF1乃至F3までの結果を用いて説明する。
1フレーム目、すなわちフレームF1における所定の人物の年齢の推定結果は、「20−39歳」といったように20歳の年齢範囲の幅を持っているものとする。また、2フレーム目、すなわちフレームF2における所定の人物の年齢の推定結果は、「0−39歳」といったように40歳の年齢範囲の幅を持っているものとする。また、3フレーム目、すなわちフレームF3における所定の人物の年齢の推定結果は、「30−39歳」といったように10歳の年齢範囲の幅を持っているものとする。
結果統合部165は、静止画像年齢推定部163によるフレームF1乃至F3における年齢の推定結果のうち、年齢範囲の幅が広い場合は曖昧な推定結果であると見なして、信頼度を低く設定する。具体的には、年齢の推定結果の信頼度は、「信頼度=10/年齢範囲の幅」として算出される。
上述の式より、フレームF1における年齢の推定結果の信頼度は0.5であると算出される。また、フレームF2における年齢の推定結果の信頼度は0.25であると算出される。また、フレームF3における年齢の推定結果の信頼度は1.0であると算出される。
次に、このようにしてフレーム毎に算出された年齢の推定結果の信頼度が尤度として年齢毎に加算されることで、図12の下の図に示されるように年齢別の確率分布が構築される。
図12の下の図は、推定結果としての年齢の確率分布について説明する図である。図12の下の図において、縦軸は信頼度の尤度を示し、横軸は年齢を示している。
フレーム毎の年齢の推定結果はそれぞれ矩形で表され、その高さが推定結果の信頼度に応じて変化する。具体的には、フレームF1における推定結果である20乃至39歳を示す矩形の高さは、信頼度0.5に対応する高さを有している。フレームF2における推定結果である0乃至39歳を示す矩形の高さは、信頼度0.25に対応する高さを有している。フレームF3における推定結果である30乃至39歳を示す矩形の高さは、信頼度1.0に対応する高さを有している。
結果統合部165は、フレーム毎の推定結果の信頼度を矩形という一様分布の確率分布とみなし、これらをフレーム毎に加算することで、動画像における所定の人物について、推定年齢の確率分布を算出することができる。動画像における所定の人物の年齢が、所定の年齢範囲である確率は、フレーム毎の推定結果の信頼度を表す矩形を全て加算した面積に対する、所定の年齢範囲に存在する矩形の面積の割合により算出される。具体的には、動画像における所定の人物の年齢が、0乃至9歳である確率は8%であり、10乃至19歳である確率は8%であり、20乃至29歳である確率は25%であり、30乃至39歳である確率は58%であると算出される。
このように、結果統合部165は、動画像の各フレームに顔が含まれる人物について、フレーム毎の推定結果の信頼度を一様分布の確率分布と見なして、これらを加算して統合することで、当該人物の年齢の推定結果として、精度の高い確率分布を出力することができる。すなわち、フレームといった静止画における年齢の推定結果の信頼度を複数統合することによって、年齢の推定の精度を向上させることができる。
[その他の例]
上述の例では、多段判定部は、人物の年齢推定のために、その人物の顔の特徴量に基づいて、当該人物の年齢が、予め設定された複数の年齢範囲のいずれに分類されるのかを判定した。しかしながら、多段判定部による判定は、人物の年齢推定のために限定されず、それ以外の推定、例えば、人種や顔の表情の推定のためであってもよい。以下、図13を用いて人種の推定について、図14を用いて顔の表情の推定について、その順番に個別に説明する。
上述の例では、多段判定部は、人物の年齢推定のために、その人物の顔の特徴量に基づいて、当該人物の年齢が、予め設定された複数の年齢範囲のいずれに分類されるのかを判定した。しかしながら、多段判定部による判定は、人物の年齢推定のために限定されず、それ以外の推定、例えば、人種や顔の表情の推定のためであってもよい。以下、図13を用いて人種の推定について、図14を用いて顔の表情の推定について、その順番に個別に説明する。
[人種の推定]
図13は、人種を判定対象とする多段判定部201の構成例を示す図である。
図13は、人種を判定対象とする多段判定部201の構成例を示す図である。
多段判定部201は、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物が、予め設定された複数の人種のいずれに分類されるのかを判定する。
図13に示されるように、多段判定部201は、第1段の判定機201−1,第2段の201−21及び201−22,第3段の201−31及び201−32といった3階層の木構造のノードによって構成されている。なお、以下、これらの判定機を個々に区別する必要がない場合、判定機201と称する。
それぞれの判定機201は、2クラス判定問題を解く。すなわち、本実施形態では、それぞれの判定機201には、相互に異なる2つの人種、または2つの人種の範囲が2クラスとして与えられている。そこで、それぞれの判定機201は、入力される顔の特徴量に基づいて、当該顔を有する人物が、2つの人種、または2つの人種の範囲のうち何れに分類されるのかを判定する。
具体的には、第1段の判定機201−1には、「ヨーロッパ系〜アジア系」という第1の人種の範囲と、「アジア系〜アフリカ系」という第2の人種の範囲とが2クラスとして与えられている。そこで、第1段の判定機201−1は、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の人種の範囲のうち何れに分類されるのかを判定する。ここで、アジア系の人種は、ヨーロッパ系の人種とアフリカ系の人種の間の特徴量を有するものとして、第1段の判定機201−1には、「アジア系」のマージンをもった2つの人種、すなわちヨーロッパ系とアフリカ系の各人種の範囲が与えられている。これにより、第1段の判定機201−1は、より正しい分類結果が得られる判定を行うことができる。
第1段の判定機201−1において、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物が、「ヨーロッパ系〜アジア系」という第1の人種の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機201−21に供給される。これに対して、第1段の判定機201−1において、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物が、「アジア系〜アフリカ系」という第2の人種の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機201−22に供給される。
第2段の判定機201−21には、「北ヨーロッパ系〜ラテン系」という第1の人種の範囲と、「ラテン系〜アジア系」という第2の人種の範囲とが2クラスとして与えられている。そこで、第2段の判定機201−21は、第1段の判定機201−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の人種の範囲のうち何れに分類されるのかを判定する。ここで、ラテン系の人種は、北ヨーロッパ系の人種とアジア系の人種の間の特徴量を有するものとして、第2段の判定機201−21には、「ラテン系」のマージンをもった2つの人種、すなわち北ヨーロッパ系とアジア系の各人種の範囲が与えられている。これにより、第2段の判定機201−21は、より正しい分類結果が得られる判定を行うことができる。
第2段の判定機201−21において、第1段の判定機201−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「北ヨーロッパ系〜ラテン系」という第1の人種の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機201−31に供給される。これに対して、第2段の判定機201−21において、第1段の判定機201−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「ラテン系〜アジア系」という第2の人種の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機201−32に供給される。
また、第2段の判定機201−22には、「アジア系」という第1の人種と、「アフリカ系」という第2の人種とが2クラスとして与えられている。そこで、第2段の判定機201−22は、第1段の判定機201−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の人種のうち何れに分類されるのかを判定する。
第2段の判定機201−22において、第1段の判定機201−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「アジア系」という第1の人種に分類された場合、その分類結果である「アジア系」が、推定結果保持部202に供給される。これに対して、第2段の判定機201−22において、第1段の判定機201−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「アフリカ系」という第2の人種に分類された場合、その分類結果である「アフリカ系」が、推定結果保持部202に供給される。
第3段の判定機201−31には、「北ヨーロッパ系」という第1の人種と、「ラテン系」という第2の人種とが2クラスとして与えられている。そこで、第3段の判定機201−31は、第2段の判定機201−21により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の人種のうち何れに分類されるのかを判定する。
第3段の判定機201−31において、第2段の判定機201−21により入力された顔の特徴量に基づいて、当該顔を有する人物が、「北ヨーロッパ系」という第1の人種に分類された場合、その分類結果である「北ヨーロッパ系」が、推定結果保持部202に供給される。これに対して、第3段の判定機201−31において、第2段の判定機201−21により入力された顔の特徴量に基づいて、当該顔を有する人物が、「ラテン系」という第2の人種に分類された場合、その分類結果である「ラテン系」が、推定結果保持部202に供給される。
また、第3段の判定機201−32には、「ラテン系」という第1の人種と、「アジア系」という第2の人種とが2クラスとして与えられている。そこで、第3段の判定機201−32は、第2段の判定機201−21により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の人種のうち何れに分類されるのかを判定する。
第3段の判定機201−32において、第2段の判定機32−21により入力された顔の特徴量に基づいて、当該顔を有する人物が、「ラテン系」という第1の人種に分類された場合、その分類結果である「ラテン系」が、推定結果保持部202に供給される。これに対して、第3段の判定機201−32において、第2段の判定機201−21により入力された顔の特徴量に基づいて、当該顔を有する人物が、「アジア系」という第2の人種に分類された場合、その分類結果である「アジア系」が、推定結果保持部202に供給される。
なお、例えば、分類対象の人物が、複数の人種の混血である場合や、どの人種が居住すると明確に切り分けることができない地域(あいまいな地域)に住んでいる場合等には、判定処理を途中終了させて、広い人種の範囲をもつ分類結果に分類されるようにしてもよい。
[顔の表情の推定]
図14は、顔の表情を判定対象とする多段判定部221の構成例を示す図である。
図14は、顔の表情を判定対象とする多段判定部221の構成例を示す図である。
多段判定部221は、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物の顔の表情が、予め設定された複数の顔の表情のいずれに分類されるのかを判定する。
図14に示されるように、多段判定部221は、第1段の判定機221−1,第2段の221−21及び221−22,第3段の221−31及び221−32といった3階層の木構造のノードによって構成されている。なお、以下、これらの判定機を個々に区別する必要がない場合、判定機221と称する。
それぞれの判定機221は、2クラス判定問題を解く。すなわち、本実施形態では、それぞれの判定機221には、相互に異なる2つの顔の表情、または2つの顔の表情の範囲が2クラスとして与えられている。そこで、それぞれの判定機221は、入力される顔の特徴量に基づいて、当該顔を有する人物が、2つの顔の表情、または2つの顔の表情の範囲のうち何れに分類されるのかを判定する。
具体的には、第1段の判定機221−1には、「笑顔〜普通」という第1の顔の表情の範囲と、「普通〜怒り・悲しみ」という第2の顔の表情の範囲とが2クラスとして与えられている。そこで、第1段の判定機221−1は、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の顔の表情の範囲のうち何れに分類されるのかを判定する。ここで、普通の顔の表情は、笑顔の顔の表情と怒り及び悲しみの顔の表情の間の特徴量を有するものとして、第1段の判定機221−1には、「普通」のマージンをもった2つの顔の表情、すなわち笑顔と怒り及び悲しみの各表情の範囲が与えられている。これにより、第1段の判定機221−1は、より正しい分類結果が得られる判定を行うことができる。
第1段の判定機221−1において、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物が、「笑顔〜普通」という第1の顔の表情の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機221−21に供給される。これに対して、第1段の判定機221−1において、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物が、「普通〜怒り・悲しみ」という第2の顔の表情の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第2段の判定機221−22に供給される。
第2段の判定機221−21には、「笑顔」という第1の顔の表情と、「普通」という第2の顔の表情とが2クラスとして与えられている。そこで、第2段の判定機221−21は、第1段の判定機221−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の顔の表情のうち何れに分類されるのかを判定する。
第2段の判定機221−21において、第1段の判定機221−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「笑顔」という第1の顔の表情に分類された場合、その分類結果である「笑顔」が、推定結果保持部222に供給される。これに対して、第2段の判定機221−21において、第1段の判定機221−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「普通」という第2の顔の表情に分類された場合、その分類結果である「普通」が、推定結果保持部222に供給される。
また、第2段の判定機221−22には、「普通〜悲しみ」という第1の顔の表情の範囲と、「普通〜怒り」という第2の顔の表情の範囲とが2クラスとして与えられている。そこで、第2段の判定機221−22は、第1段の判定機221−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の顔の表情の範囲のうち何れに分類されるのかを判定する。
第2段の判定機221−22において、第1段の判定機221−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「普通〜悲しみ」という第1の顔の表情の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機221−31に供給される。これに対して、第2段の判定機221−22において、第1段の判定機221−1により入力された顔の特徴量に基づいて、当該顔を有する人物が、「普通〜怒り」という第2の顔の表情の範囲に分類された場合、その分類結果とともに、当該顔の特徴量が、第3段の判定機221−32に供給される。
第3段の判定機221−31には、「悲しみ」という第1の顔の表情と、「普通」という第2の顔の表情とが2クラスとして与えられている。そこで、第3段の判定機221−31は、第2段の判定機221−22により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の顔の表情のうち何れに分類されるのかを判定する。
第3段の判定機221−31において、第2段の判定機221−22により入力された顔の特徴量に基づいて、当該顔を有する人物が、「悲しみ」という第1の顔の表情に分類された場合、その分類結果である「悲しみ」が、推定結果保持部222に供給される。これに対して、第3段の判定機221−31において、第2段の判定機221−22により入力された顔の特徴量に基づいて、当該顔を有する人物が、「普通」という第2の顔の表情に分類された場合、その分類結果である「普通」が、推定結果保持部222に供給される。
また、第3段の判定機221−32には、「怒り」という第1の顔の表情と、「普通」という第2の顔の表情とが2クラスとして与えられている。そこで、第3段の判定機221−32は、第2段の判定機221−22により入力された顔の特徴量に基づいて、当該顔を有する人物が、第1,第2の顔の表情のうち何れに分類されるのかを判定する。
第3段の判定機221−32において、第2段の判定機221−22により入力された顔の特徴量に基づいて、当該顔を有する人物が、「怒り」という第1の顔の表情に分類された場合、その分類結果である「怒り」が、推定結果保持部222に供給される。これに対して、第3段の判定機221−32において、第2段の判定機221−22により入力された顔の特徴量に基づいて、当該顔を有する人物が、「普通」という第2の顔の表情に分類された場合、その分類結果である「普通」が、推定結果保持部222に供給される。
なお、例えば、判定機221−21において、処理対象の顔の表情が、「笑顔」と「普通」の表情のうち、何れにも分類することが困難である場合には、分類結果を「曖昧な表情」として判定処理を途中終了させるようにしてもよい。
[本のジャンルの分類]
また、多段判定部による処理対象は複数であってもよい。さらに、多段判定部による分類の判定対象や分類のカテゴリは、上述した例に特に限定されず、任意でよい。例えば、判定対象を本や音楽として、分類のカテゴリを、これらの分類対象のジャンルとしてもよい。このような具体例として、以下、図15を用いて、本のジャンルの分類について説明する。
また、多段判定部による処理対象は複数であってもよい。さらに、多段判定部による分類の判定対象や分類のカテゴリは、上述した例に特に限定されず、任意でよい。例えば、判定対象を本や音楽として、分類のカテゴリを、これらの分類対象のジャンルとしてもよい。このような具体例として、以下、図15を用いて、本のジャンルの分類について説明する。
図15は、分類の判定対象を本とし、分類のカテゴリを本のジャンルとする多段判定部241の構成例を示す図である。
多段判定部241は、図示せぬ特徴量抽出部により抽出された本の特徴量に基づいて、当該特徴量を有する本が、予め設定された複数の本のジャンルのいずれに分類されるのかを判定する。
図15に示されるように、多段判定部241は、第1段の判定機241−1,第2段の241−21及び241−22,第3段の241−31及び241−32といった3階層の木構造のノードによって構成されている。なお、以下、これらの判定機を個々に区別する必要がない場合、判定機241と称する。
それぞれの判定機241は、2クラス判定問題を解く。すなわち、本実施形態では、それぞれの判定機241には、相互に異なる2つの本のジャンル、または2つのジャンルの範囲が2クラスとして与えられている。そこで、それぞれの判定機241は、入力される本の特徴量に基づいて、当該本のジャンルが、2つの本のジャンル、または2つのジャンルの範囲のうち何れに分類されるのかを判定する。
具体的には、第1段の判定機241−1は、「ノンフィクション」という第1の本のジャンルと、「フィクション」という第2の本のジャンルとが2クラスとして与えられている。そこで、第1段の判定機241−1は、図示せぬ特徴量抽出部により抽出された本の特徴量に基づいて、当該本のジャンルが、第1,第2の本のジャンルのうち何れに分類されるのかを判定する。
第1段の判定機241−1において、図示せぬ特徴量抽出部により抽出された本の特徴量に基づいて、当該本が、「ノンフィクション」という第1の本のジャンルに分類された場合、その分類結果とともに、当該本の特徴量が、第2段の判定機241−21に供給される。これに対して、第1段の判定機241−1において、図示せぬ特徴量抽出部により抽出された本の特徴量に基づいて、当該本が、「フィクション」という第2の本のジャンルに分類された場合、その分類結果とともに、当該本の特徴量が、第2段の判定機241−22に供給される。
第2段の判定機241−21には、「現代」という第1の本のジャンルと、「歴史」という第2の本のジャンルとが2クラスとして与えられている。そこで、第2段の判定機241−21は、第1段の判定機241−1により入力された本の特徴量に基づいて、当該本が、第1,第2の本のジャンルのうち何れに分類されるのかを判定する。
第2段の判定機241−21において、第1段の判定機241−1により入力された本の特徴量に基づいて、当該本が、「現代」という第1の本のジャンルに分類された場合、その分類結果である「現代」が、推定結果保持部242に供給され、「現代ノンフィクション」という推定結果として保持される。これに対して、第2段の判定機241−21において、第1段の判定機241−1により入力された本の特徴量に基づいて、当該本が、「歴史」という第2の本のジャンルに分類された場合、その分類結果である「歴史」が、推定結果保持部242に供給され、「歴史ノンフィクション」という推定結果として保持される。
ここで、本の各ジャンルを対象年齢別に分類することが可能であり、このようにして分類された対象年齢は、本の各ジャンルの上の階層のジャンルの大ジャンルとみなすことも可能である。このため、第2段の判定機241−22には、「大人向け〜中学生向け」という第1の大ジャンルの範囲と、「中学生向け〜子供向け」という第2の大ジャンルとが2クラスとして与えられている。そこで、第2段の判定機241−22は、第1段の判定機241−1により入力された本の特徴量に基づいて、当該本が、第1,第2の大ジャンルの範囲のうち何れに分類されるのかを判定する。ここで、第2段の判定機241−22には、本の対象年齢として「中学生向け」のマージンをもった2つの本の大ジャンルの範囲が与えられている。すなわち、当該本の対象年齢として、2つの年代の間に入る年代を設けることができる。これにより、第2段の判定機241−22は、より正しい分類結果が得られる判定を行うことができる。
第2段の判定機241−22において、第1段の判定機241−1により入力された本の特徴量に基づいて、当該本が、「大人向け〜中学生向け」という第1の大ジャンルの範囲に分類された場合、その分類結果とともに、当該本の特徴量が、第3段の判定機241−31に供給される。これに対して、第2段の判定機241−22において、第1段の判定機241−1により入力された本の特徴量に基づいて、当該本が、「中学生向け〜子供向け」という第2の大ジャンルの範囲に分類された場合、その分類結果とともに、当該本の特徴量が、第3段の判定機241−32に供給される。
第3段の判定機241−31には、「純文学」という第1の本のジャンルと、「エンターテインメント」という第2の本のジャンルとが2クラスとして与えられている。そこで、第3段の判定機241−31は、第2段の判定機241−22により入力された本の特徴量に基づいて、当該本が、第1,第2の本のジャンルのうち何れに分類されるのかを判定する。
第3段の判定機241−31において、第2段の判定機241−22により入力された本の特徴量に基づいて、当該本が、「純文学」という第1の本のジャンルに分類された場合、その分類結果である「純文学」が、推定結果保持部242に供給される。これに対して、第3段の判定機241−31において、第2段の判定機241−22により入力された本の特徴量に基づいて、当該本が、「エンターテインメント」という第2の本のジャンルに分類された場合、その分類結果である「エンターテインメント」が、推定結果保持部242に供給される。
また、第3段の判定機241−32には、「児童文学」という第1の本のジャンルと、「絵本」という第2の本のジャンルとが2クラスとして与えられている。そこで、第3段の判定機241−32は、第2段の判定機241−22により入力された本の特徴量に基づいて、当該本が、第1,第2の本のジャンルの範囲のうち何れに分類されるのかを判定する。
第3段の判定機241−32において、第2段の判定機32−22により入力された本の特徴量に基づいて、当該本が、「児童文学」という第1の本のジャンルに分類された場合、その分類結果である「児童文学」が、推定結果保持部222に供給される。これに対して、第3段の判定機241−32において、第2段の判定機241−22により入力された本の特徴量に基づいて、当該本が、「絵本」という第2の本のジャンルに分類された場合、その分類結果である「絵本」が、推定結果保持部222に供給される。
なお、例えば、判定機241−31において、「純文学」と「エンターテインメント」の本のジャンルのうち、何れにも分類することが困難である場合には、判定処理を途中終了させるようにしてもよい。
このように、多段判定部による分類の判定の目的は、人物の年齢推定の目的に限定されず、その他の各種各様の目的に用いることが可能であり、特に、分類結果が曖昧になる可能性がある分類対象の判定の目的に用いる場合に、正しい分類結果が得られる。
[複数種類の判定機を含む多段判定部]
上述の例では、多段判定部は、例えば所定の人物の年齢を推定する場合には、年齢を判定する判定機のみが含まれた。しかしながら、所定の人物の年齢を推定する場合に、多段判定部に人種を判定する判定機を含めてもよい。すなわち、多段判定部には、異なる種類の判定対象をそれぞれ判定する各判定機が混在して含まれるようにしてもよい。
上述の例では、多段判定部は、例えば所定の人物の年齢を推定する場合には、年齢を判定する判定機のみが含まれた。しかしながら、所定の人物の年齢を推定する場合に、多段判定部に人種を判定する判定機を含めてもよい。すなわち、多段判定部には、異なる種類の判定対象をそれぞれ判定する各判定機が混在して含まれるようにしてもよい。
図16は、異なる種類の判定対象をそれぞれ判定する各判定機を混在して含む多段判定部261について説明する図である。
多段判定部261は、図示せぬ顔特徴量抽出部により抽出された顔の特徴量に基づいて、当該顔を有する人物の年齢が、予め設定された複数の年齢範囲のいずれに分類されるのかを判定する。
図16に示されるように、多段判定部261は、人種を判定する第1段の判定機261−1と、年齢を判定する第2段の判定機261−21,261−22、第3段の判定機261−31乃至261−34、第4段の261−41乃至261−46といった4階層の木構造のノードによって構成されている。なお、以下、これらの判定機を個々に区別する必要がない場合、判定機261と称する。
このように、多段判定部261は、所定の人物の年齢を推定する場合に、はじめに第1段の判定機261−1によって当該人物の人種を判定することにより、特徴量が同一でも人種によって異なる年齢が推定されてしまうような場合であっても、より正しい分類結果が得られる判定を行うことができるようになる。
この場合、アジア系の人種については、後段の年齢を判定する判定機261−21と261−22のうちの何れに分類されても、正しい年齢の推定ができるものとして、第1段の判定機261−1には、「アジア系」のマージンをもった2つの人種の範囲が与えられるようにしてもよい。
[推定結果の統合の他の例]
図12の例では、結果統合部165は、年齢の推定結果を統合する場合に、フレーム毎の一様分布の信頼度を加算した。しかしながら、結果統合部165によるフレーム毎の年齢の推定結果の統合の手法は、これに限定されず、例えば、ガウス分布を用いた手法を採用することもできる。
図12の例では、結果統合部165は、年齢の推定結果を統合する場合に、フレーム毎の一様分布の信頼度を加算した。しかしながら、結果統合部165によるフレーム毎の年齢の推定結果の統合の手法は、これに限定されず、例えば、ガウス分布を用いた手法を採用することもできる。
図17は、推定結果の統合の他の例について説明する図である。
図17の上の図は、所定の人物についての、静止画像年齢推定部163によるフレームFk毎の年齢の推定結果を示している。なお、以下では、フレームF1乃至F3までの推定結果を用いて説明する。
1フレーム目、すなわちフレームF1における所定の人物の年齢の推定結果は、「20−39歳」といったように20歳の年齢範囲の幅を持っているものとする。また、2フレーム目、すなわちフレームF2における所定の人物の年齢の推定結果は、「0−39歳」といったように40歳の年齢範囲の幅を持っているものとする。また、3フレーム目、すなわちフレームF3における所定の人物の年齢の推定結果は、「30−39歳」といったように10歳の年齢範囲の幅を持っているものとする。
結果統合部165は、各フレームFにおける年齢の推定結果としてガウス分布の信頼度を用いることができる。例えば、このガウス分布は、年齢範囲の幅の中央値を分布の平均とし、年齢範囲の幅に基づいて算出される値を標準偏差σとして与えられる。具体的には、図17の場合、例えば「標準偏差σ=年齢範囲の幅/4」として算出される。
上述の式より、フレームF1における標準偏差σは5であると算出される。また、フレームF2における標準偏差σは10であると算出される。また、フレームF3における標準偏差σは2.5であると算出される。
図17の2番目の図は、推定結果としての年齢のガウス分布について説明する図である。図17の2番目の図において、縦軸は尤度を表し、横軸は年齢を示している。
図17の2番目の図に示されるように、フレームF1のガウス分布は、年齢範囲の幅の中央値をほぼ30歳とする曲線で表わされる。また、フレームF2のガウス分布は、年齢範囲の幅の中央値をほぼ20歳とする曲線で表わされる。また、フレームF3の標準偏差σは、年齢範囲の幅の中央値をほぼ35歳とする曲線で表わされる。このように、年齢範囲の幅が広い、すなわち標準偏差σが大きいほど、より広い範囲のガウス分布が得られる。
フレームF1乃至F3までのガウス分布が各年齢においてすべて加算されると、図17の下の図に示されるような確率分布となる。これにより、動画像における所定の人物の推定年齢を、当該確率分布として求めることができる。すなわち、当該確率分布の曲線内の面積に対する、所定の年齢範囲内の面積の割合により算出される確率が、所定の人物の推定年齢の結果として得られることになる。具体的には、動画像における所定の人物の年齢が、0乃至9歳である確率は4%であり、10乃至19歳である確率は12%であり、20乃至29歳である確率は27%であり、30乃至39歳である確率は54%であり、40乃至49歳である確率は3%であると算出される。
ガウス分布を用いることにより、動画像における所定の人物の年齢が、予め設定された年齢範囲以外の範囲、例えば「32乃至37歳」に分類される確率を算出することができる。また、動画像における所定の人物の年齢が、例えば、「35歳±2歳」というような年齢範囲に分類される確率を算出することができる。
[推定結果の統合の他の例]
図12や図17の例では、結果統合部165には、フレーム毎の最終的な推定結果のみを統合することによって年齢の推定を行うといった手法が適用されていた。しかしながら、結果統合部165による年齢の推定結果の統合の手法は、これに限定されず、例えば、木構造を構成する判定機のうち、多段判定部が用いた各判定機の経路に基づいた推定結果を統合することもできる。
図12や図17の例では、結果統合部165には、フレーム毎の最終的な推定結果のみを統合することによって年齢の推定を行うといった手法が適用されていた。しかしながら、結果統合部165による年齢の推定結果の統合の手法は、これに限定されず、例えば、木構造を構成する判定機のうち、多段判定部が用いた各判定機の経路に基づいた推定結果を統合することもできる。
図18は、多段判定部281が用いた判定機の経路を示す図である。
多段判定部281は、第1段の判定機281−1、第2段の判定機281−21及び281−22,第3段の判定機281−31乃至281−34,及び第4段の判定機281−41乃至281−44といった4階層の木構造のノードによって構成されている。なお、以下、これらの判定機を個々に区別する必要がない場合、判定機281と称する。
多段判定部281は、動画における年齢の推定を行う場合、フレーム毎に、顔の特徴量に基づいて、当該顔を有する人物の年齢の推定を行う。多段判定部281は、1フレーム目、すなわちフレームF1における所定の人物の年齢の推定結果を出力するために、判定機281−1,281−21,281−32,及び281−43という経路をたどって、それぞれの判定機による判定を実行したとする。また、多段判定部281は、2フレーム目、すなわちフレームF2における所定の人物の年齢の推定結果を出力するために、判定機281−1,281−21,及び281−31という経路をたどって、それぞれの判定機による判定を実行したとする。なお、図18では、2フレーム目までの推定結果を用いて説明する。
この場合、例えば、判定機281−1における判定は、「0乃至49歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲とを加算した結果得られる、「0乃至70歳」の年齢範囲において実行されている。なお、ここでは、年齢の上限値を70歳とする。したがって、処理対象の所定の人物の年齢は、判定機281−1における判定の時点では、少なくとも当該2つの年齢範囲を加算した「0乃至70歳」の年齢範囲内に分類されているといえる。
また、例えば、判定機281−21における判定は、「0乃至29歳」という第1の年齢範囲と、「20乃至49歳」という第2の年齢範囲とを加算した結果得られる、「0乃至49歳」の年齢範囲において実行されている。したがって、処理対象の所定の人物の年齢は、判定機281−21における判定の時点では、少なくとも当該2つの年齢範囲を加算した「0乃至49歳」の年齢範囲内に分類されているといえる。同様に、処理対象の所定の人物の年齢は、判定機281−31における判定の時点では、「0乃至29歳」の年齢範囲内、判定機281−32における判定の時点では、「20乃至49歳」の年齢範囲内、判定機281−43における判定の時点では、「20乃至39歳」の年齢範囲内に分類されているといえる。
図19は、推定結果の統合の他の例について説明する図である。
図19の上の図に示されるように、フレームF1についての人物の年齢の推定が上述した経路をたどって実行された場合、各判定機281による判定の時点での年齢の推定結果は、「0乃至70」、「0乃至49歳」、「20乃至49歳」、「20−39歳」の順に、各年齢範囲に分類されていく。また、フレームF2についての人物の年齢の推定が上述した経路をたどって実行された場合、各判定機281による判定の時点での年齢の推定結果は、「0乃至70」、「0乃至49歳」、「0乃至29歳」の順に、各年齢範囲に分類されていく。
結果統合部165は、図12の場合と同様に、フレームFk毎に、多段判定部281がたどった各判定機281における推定結果の信頼度を、「信頼度=10/年齢範囲の幅」として算出する。
はじめに、フレームF1における、各判定機281による推定結果の信頼度を算出すると、判定機281−1における推定結果の年齢範囲の幅は71歳であることから、上述の式より信頼度は0.14であると算出される。また、判定機281−21における推定結果の年齢範囲の幅は50歳であることから、上述の式より信頼度は0.2であると算出される。また、判定機281−32における推定結果の年齢範囲の幅は30歳であることから、上述の式より信頼度は0.333であると算出される。また、判定機281−43における推定結果の年齢範囲の幅は20歳であることから、上述の式より信頼度は0.5であると算出される。
次に、フレームF2における、各判定機281による推定結果の信頼度を算出すると、判定機281−1における推定結果の年齢範囲の幅は71歳であることから、上述の式より信頼度は0.14であると算出される。また、判定機281−21における推定結果の年齢範囲の幅は50歳であることから、上述の式より信頼度は0.2であると算出される。また、判定機281−31における推定結果の年齢範囲の幅は30歳であることから、上述の式より信頼度は0.333であると算出される。なお、各判定機281による判定が実行される毎に、推定結果の信頼度は高くなっていくことが分かる。
このようにしてフレーム毎に算出された推定結果の信頼度が、図19の2番目の図と下の図に示されるように確率分布の尤度として利用されて加算される。
図19の2番目の図はフレームF1の推定結果の確率分布、図19の下の図はフレームF2の推定結果の確率分布を、それぞれ示している。図19の2番目の図と下の図において、縦軸は尤度を示し、横軸は年齢を示している。
結果統合部165は、このような図19の2番目の図と下の図に示すフレームF1及びF2の推定結果の確率分布等、動画像に含まれる全てのフレームの推定結果の確率分布を加算することで、当該動画像に顔が含まれる所定の人物についての推定年齢の確率分布を算出することができる。
このように、結果統合部165は、動画像の各フレームに顔が含まれる人物について、多段判定部が用いた各判定機の経路に基づいて推定結果の信頼度の分布をフレーム毎に求め、これらのフレーム毎の信頼度の分布を加算して統合する。これにより、結果統合部165は、当該人物の年齢の推定結果として、精度の高い確率分布を出力することができる。
[判定機の他の構成例]
上述の例では、多段判定部に含まれる判定機に与えられる2つの年齢範囲や、年齢範囲のマージンは、例えば、「0乃至19歳」や「20乃至49歳」等、10歳刻みの幅が与えられていた。しかしながら、各判定機に与えられる2つの年齢範囲、及び年齢範囲のマージンの幅は、これに限定されず、任意の幅の年齢範囲が与えられてもよい。また、推定結果保持部に保持される推定結果も、任意の幅の年齢範囲が与えられてもよい。
上述の例では、多段判定部に含まれる判定機に与えられる2つの年齢範囲や、年齢範囲のマージンは、例えば、「0乃至19歳」や「20乃至49歳」等、10歳刻みの幅が与えられていた。しかしながら、各判定機に与えられる2つの年齢範囲、及び年齢範囲のマージンの幅は、これに限定されず、任意の幅の年齢範囲が与えられてもよい。また、推定結果保持部に保持される推定結果も、任意の幅の年齢範囲が与えられてもよい。
図20は、多段判定部301の構成例を示す図である。
図20に示されるように、多段判定部301は、第1段の判定機301−1,第2段の判定機301−21及び301−22,第3段の判定機301−31及び301−32、第4段の判定機302−41といった4階層の木構造のノードによって構成されている。なお、以下、これらの判定機を個々に区別する必要がない場合、判定機301と称する。
それぞれの判定機301には、相互に異なる2つの年齢範囲が2クラスとして与えられている。
判定機301−1は、「0乃至29歳」という第1の年齢範囲と、「10歳以上」という第2の年齢範囲とが2クラスとして与えられている。すなわち、判定機301−1には、10歳刻みの幅の年齢範囲が与えられている。
これに対して、判定機301−21には、「0乃至15歳」という第1の年齢範囲と、「10乃至29歳」という第2の年齢範囲とが2クラスとして与えられている。すなわち、第1の年齢範囲には16歳の幅が与えられ、第2の年齢範囲には20歳の幅が与えられている。このように、判定機301に与えられる年齢範囲の幅は、10歳刻みの幅である必要はなく、任意の幅の年齢範囲でもよい。
また、判定機301−41には、「0乃至5歳」という第1の年齢範囲と、「3乃至10歳」という第2の年齢範囲とが2クラスとして与えられている。すなわち、判定機301−41には、「3乃至5歳」の範囲のマージン、すなわち2歳の幅のマージンをもった2つの年齢範囲が与えられている。このように、判定機301に与えられる年齢範囲のマージンの幅は、10歳刻みの幅である必要はなく、任意の幅の年齢範囲のマージンでもよい。
さらに、図20に示されるように、推定結果保持部302に保持される推定結果として、「0−5歳」、「3−19歳」が含まれるように、推定結果保持部302に保持される推定結果も、任意の幅の年齢範囲が与えられてもよい。
例えば、顔の特徴量が大きく変わる年齢(例えば、0乃至3歳)においては、小さな幅の年齢範囲を設定し、その他の年齢については大きな幅の年齢範囲を設定することにより、より細かい年齢範囲での年齢の推定が可能となる。
[多段判定部の他の構成例]
上述の例では、多段判定部に含まれる判定機は、1つの顔特徴量抽出部により抽出された顔の特徴量に基づいて判定を実行した。すなわち、多段判定部に含まれる判定機は、全て同一の特徴量に基づいて判定を実行した。しかしながら、判定機による判定対象の特徴量は、これに限定されず、例えば、個々の判定機で異なる特徴量が判定対象とされてもよい。
上述の例では、多段判定部に含まれる判定機は、1つの顔特徴量抽出部により抽出された顔の特徴量に基づいて判定を実行した。すなわち、多段判定部に含まれる判定機は、全て同一の特徴量に基づいて判定を実行した。しかしながら、判定機による判定対象の特徴量は、これに限定されず、例えば、個々の判定機で異なる特徴量が判定対象とされてもよい。
図21は、多段判定部321の構成例を示す図である。
図21に示されるように、多段判定部321は、第1段の複合判定機321−1,第2段の複合判定機321−21及び321−22,第3段の複合判定機321−31乃至321−33、といった3階層の木構造のノードによって構成されている。なお、以下、これらの複合判定機を個々に区別する必要がない場合、複合判定機321と称する。
複合判定機321−1は、顔特徴量抽出部341−1及び判定機351−1を含む。また、複合判定機321−21は、顔特徴量抽出部341−21及び判定機351−21を含む。複合判定機321−22は、顔特徴量抽出部341−22及び判定機321−22を含む。複合判定機321−31は、顔特徴量抽出部341−31及び判定機351−31を含む。複合判定機321−32は、顔特徴量抽出部341−32及び判定機351−32を含む。複合判定機321−33は、顔特徴量抽出部341−33及び判定機351−33を含む。なお、以下、これらの顔特徴量抽出部、判定機を個々に区別する必要がない場合、それぞれ顔特徴量抽出部341、判定機351と称する。
顔特徴量抽出部341は、同一の顔画像Hから、顔の特徴量を抽出する。このとき、それぞれの顔特徴量抽出部341により抽出される顔の特徴量は、異なるものであってもよい。例えば、複合判定機321−1に含まれる顔特徴量抽出部341−1は、顔の特徴量としてエッジ情報を抽出し、複合判定機321−31に含まれる顔特徴量抽出部341−31は、顔の特徴量として輝度情報を抽出してもよい。
この場合、「0乃至39歳」という第1の年齢範囲と、「40歳以上」という第2の年齢範囲が与えられている複合判定機321−1に含まれる判定機351−1は、顔特徴量抽出部341−1により抽出された顔のエッジ情報に基づいて判定を実行する。高齢者ほど顔のしわが多いと考えられるので、判定機351−1は、エッジ情報に基づいて、当該顔を有する人物の年齢が、第1,第2の年齢範囲のうち何れに分類されるのかを判定することが容易となる。
これに対して、「0乃至9歳」という第1の年齢範囲と、「10乃至19歳」という第2の年齢範囲が与えられている複合判定機321−31に含まれる判定機351−31においては、判定対象の2つの年齢範囲の何れに分類される人物も、顔のしわは少ないと考えられる。したがって、判定機351−31においては、顔の特徴量としてエッジ情報ではなく、その他の特徴量、例えば輝度情報に基づいて判定を実行する。
このように、判定機351に与えられた年齢範囲に応じて、顔特徴量抽出部341により抽出される特徴量を適切に変えることにより、より正しい分類結果が得られる判定が実行される。
[年齢推定装置の他の構成例]
上述の例では、顔検出部により検出された顔画像Hから顔の特徴量が抽出され、当該顔の特徴量に基づいて、当該顔を有する人物の年齢が推定された。しかしながら、年齢の推定に用いられる特徴量は、顔の特徴量のみに限定されず、その他の特徴量、例えば服装の特徴量が合わせて用いられてもよい。
上述の例では、顔検出部により検出された顔画像Hから顔の特徴量が抽出され、当該顔の特徴量に基づいて、当該顔を有する人物の年齢が推定された。しかしながら、年齢の推定に用いられる特徴量は、顔の特徴量のみに限定されず、その他の特徴量、例えば服装の特徴量が合わせて用いられてもよい。
図22は、年齢推定装置401の構成例を示すブロック図である。
年齢推定装置401は、画像取得部411、顔検出部412、顔特徴量抽出部413、服装検出部414、服装特徴量抽出部415、年齢推定部416、結果表示部417、及び学習部418から構成されている。
画像取得部411、顔検出部412、結果表示部417、及び学習部418は、それぞれ図1の画像取得部11、顔検出部12、結果表示部14、及び学習部15と基本的に同様の機能と構成を有している。また、顔特徴量抽出部413は、図2の顔特徴量抽出部31と基本的に同様の機能と構成を有している。したがって、その説明は繰り返しになるので省略する。
服装検出部414は、画像取得部411により取得された画像Pの全領域を対象として、画像Pに含まれている人物の服装の画像を検出する。
服装特徴量抽出部415は、服装検出部414により検出された服装の画像から、服装の特徴量を抽出する。
年齢推定部416は、顔特徴量抽出部413により抽出された顔の特徴量、及び服装特徴量抽出部415により抽出された服装の特徴量に基づいて、当該顔と服装を有する人物の年齢の推定を行う。
このように、年齢の推定に、顔の特徴量以外に他の特徴量が合わせて用いられることにより、より正しい分類結果が得られる判定が実行される。なお、他の特徴量としては、服装の特徴量の他に、例えば、身長や身長に対する頭の大きさの割合等を採用することができる。身長や身長に対する頭の大きさの割合等の特徴量が用いられることにより、特に子供の年齢の推定において、より正しい分類結果が得られる判定が実行される。
[推定結果の統合の他の例]
上述の例では、結果統合部は、静止画像年齢推定部により推定されたフレームFk毎の年齢の推定結果の年齢範囲の幅を用いて、推定結果の信頼度を算出した。しかしながら、推定結果の信頼度の算出手法は、これに限定されず、例えば、さらに顔のサイズや顔画像Hのボケ具合を用いて信頼度を算出してもよい。
上述の例では、結果統合部は、静止画像年齢推定部により推定されたフレームFk毎の年齢の推定結果の年齢範囲の幅を用いて、推定結果の信頼度を算出した。しかしながら、推定結果の信頼度の算出手法は、これに限定されず、例えば、さらに顔のサイズや顔画像Hのボケ具合を用いて信頼度を算出してもよい。
図23は、年齢推定装置431の構成を示すブロック図である。
年齢推定装置431は、画像取得部441、顔検出部442、静止画像年齢推定部443、顔トラッキング部444、結果統合部445、顔安定度検出部446、結果表示部447、及び学習部448から構成されている。
画像取得部441、顔検出部442、静止画像年齢推定部443、顔トラッキング部444、結果表示部447、及び学習部448は、それぞれ図9の画像取得部161、顔検出部162、静止画像年齢推定部163、顔トラッキング部164、結果統合部165、及び学習部167と基本的に同様の機能と構成を有している。したがって、その説明は繰り返しになるので省略する。
顔安定度検出部446は、顔検出部442により検出された顔画像Hから、顔のサイズとボケ具合を検出する。なお、顔のボケ具合の検出手法は、特に限定されず、例えば、顔安定度検出部446は、ラプラシアンの結果を用いることにより、顔のボケ具合を検出することができる。
結果統合部445は、顔トラッキング部444により特定された所定の人物についての、静止画像年齢推定部443により推定されたフレームFk毎の年齢の推定結果を統合し、動画像における所定の人物の年齢の推定結果を出力する。すなわち、結果統合部445は、静止画像年齢推定部443による複数の推定結果を統合する。また、結果統合部445は、当該推定結果とともに、動画像における所定の人物について、推定年齢の確率分布を算出することができる。
具体的には、結果統合部445は、静止画像年齢推定部443による推定結果の信頼度を、顔安定度検出部446による検出結果を用いて、「信頼度=10/年齢範囲の幅×顔のサイズ/ボケ具合」として算出する。
例えば、顔安定度検出部446によって検出された顔のサイズが大きいほど、静止画像年齢推定部443による推定結果の信頼度は高くなる。また、顔安定度検出部446によって検出された顔のボケ具合が大きいほど、静止画像年齢推定部443による推定結果の信頼度は低くなる。
このように、推定結果の信頼度の算出において、年齢の推定結果の年齢範囲の幅以外の情報を用いることにより、より正しい信頼度を算出することができる。
なお、上述の例では、結果統合部は、静止画像年齢推定部により推定されたフレームFk毎の年齢の推定結果を統合した。しかしながら、結果統合部が統合する対象はこれに限定されない。結果統合部は、多段判定部による、同一の判定対象を含む複数の処理対象に対するそれぞれへの判定の結果を統合してもよい。例えば、多段判定部による処理対象が複数の本や音楽であった場合には、これらの判定結果を統合してもよい。
以上、説明したように、多段判定部が木構造の判定機によって構成されることにより、容易な判定処理から難易度の高い判定処理に順次移っていくように、多段階で判定処理が行われるので、誤分類を抑制することができる。また、より細かい分類が必要となった場合、木構造の階層を増やせばいいので、拡張が容易である。
[本技術のプログラムへの適用]
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
この場合、上述した情報処理装置の少なくとも一部として、例えば、図24に示されるパーソナルコンピュータを採用してもよい。
図24において、CPU601は、ROM602に記録されているプログラムに従って各種の処理を実行する。または記憶部608からRAM603にロードされたプログラムに従って各種の処理を実行する。RAM603にはまた、CPU601が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU601、ROM602、及びRAM603は、バス604を介して相互に接続されている。このバス604にはまた、入出力インタフェース605も接続されている。
入出力インタフェース605には、キーボード、マウスなどよりなる入力部606、ディスプレイなどよりなる出力部607が接続されている。また、ハードディスクなどより構成される記憶部608、及び、モデム、ターミナルアダプタなどより構成される通信部609が接続されている。通信部609は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
入出力インタフェース605にはまた、必要に応じてドライブ610が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア611が適宜装着される。そして、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部608にインストールされる。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
このようなプログラムを含む記録媒体は、図24に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア(パッケージメディア)611により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM602や、記憶部608に含まれるハードディスクなどで構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
本技術は、データを分類する情報処理装置に適用することができる。
なお、本技術は、以下のような構成もとることができる。
(1)
複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定部を備え、
前記各判定機は、前記判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、前記各判定機において判定される2つの範囲には、重複する部分が含まれている
情報処理装置。
(2)
前記2つの範囲の境目から一定範囲は不感帯範囲として予め設定されており、
前記多段判定部は、所定の階層の判定機において前記判定対象が前記不感帯範囲に分類された場合、次の階層の判定機の判定を禁止して、前記所定の階層の判定機までの判定の結果に基づいて、最終の判定を行う
前記(1)に記載の情報処理装置。
(3)
前記多段判定部は、前記判定対象を含む画像から、前記判定対象に関する特徴量を抽出する特徴量抽出部をさらに備え、
前記各判定機は、前記特徴量抽出部により抽出された前記特徴量に基づいて、前記判定を行う
前記(1)または(2)に記載の情報処理装置。
(4)
前記多段判定部は、動画像を構成する複数の単位画像の各々を処理対象として、
処理対象毎に、前記特徴量抽出部が特徴量を抽出し、前記各判定機が前記判定を行い、
前記多段判定部による前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備える
前記(1)、(2)、または(3)に記載の情報処理装置。
(5)
前記処理対象は複数であり、
前記多段判定部は、複数の前記処理対象毎に前記処理対象に関する特徴量を抽出する特徴量抽出部さらに備え、
前記多段判定部による複数の前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備える
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記結果統合部は、前記多段判定部による前記処理対象毎の前記判定の結果の各々により示される各々の範囲における信頼度の分布を設定し、前記処理対象毎の前記信頼度の分布を加算することにより、前記判定対象が所定の範囲に分類される確率分布を算出する
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記判定対象は人物であり、年齢に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の年齢の範囲をそれぞれ判定することによって、前記人物の年齢を前記複数の範囲のうちの1つに分類する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記判定対象は人物であり、人種に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の人種の範囲をそれぞれ判定することによって、前記人物の人種を前記複数の範囲のうちの1つに分類する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記判定対象は人物であり、顔の表情に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の顔の表情の範囲をそれぞれ判定することによって、前記人物の顔の表情を前記複数の範囲のうちの1つに分類する
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記特徴量抽出部は、前記画像から、人物の服装に関する特徴量を抽出する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(1)
複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定部を備え、
前記各判定機は、前記判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、前記各判定機において判定される2つの範囲には、重複する部分が含まれている
情報処理装置。
(2)
前記2つの範囲の境目から一定範囲は不感帯範囲として予め設定されており、
前記多段判定部は、所定の階層の判定機において前記判定対象が前記不感帯範囲に分類された場合、次の階層の判定機の判定を禁止して、前記所定の階層の判定機までの判定の結果に基づいて、最終の判定を行う
前記(1)に記載の情報処理装置。
(3)
前記多段判定部は、前記判定対象を含む画像から、前記判定対象に関する特徴量を抽出する特徴量抽出部をさらに備え、
前記各判定機は、前記特徴量抽出部により抽出された前記特徴量に基づいて、前記判定を行う
前記(1)または(2)に記載の情報処理装置。
(4)
前記多段判定部は、動画像を構成する複数の単位画像の各々を処理対象として、
処理対象毎に、前記特徴量抽出部が特徴量を抽出し、前記各判定機が前記判定を行い、
前記多段判定部による前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備える
前記(1)、(2)、または(3)に記載の情報処理装置。
(5)
前記処理対象は複数であり、
前記多段判定部は、複数の前記処理対象毎に前記処理対象に関する特徴量を抽出する特徴量抽出部さらに備え、
前記多段判定部による複数の前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備える
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記結果統合部は、前記多段判定部による前記処理対象毎の前記判定の結果の各々により示される各々の範囲における信頼度の分布を設定し、前記処理対象毎の前記信頼度の分布を加算することにより、前記判定対象が所定の範囲に分類される確率分布を算出する
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記判定対象は人物であり、年齢に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の年齢の範囲をそれぞれ判定することによって、前記人物の年齢を前記複数の範囲のうちの1つに分類する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記判定対象は人物であり、人種に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の人種の範囲をそれぞれ判定することによって、前記人物の人種を前記複数の範囲のうちの1つに分類する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記判定対象は人物であり、顔の表情に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の顔の表情の範囲をそれぞれ判定することによって、前記人物の顔の表情を前記複数の範囲のうちの1つに分類する
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記特徴量抽出部は、前記画像から、人物の服装に関する特徴量を抽出する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
1 年齢推定装置, 11 画像取得部, 12 顔検出部, 13 年齢推定部, 14 結果表示部, 15 学習部, 31 顔特徴量抽出部, 32 多段判定部, 33 推定結果保持部, 51 学習用画像記憶部, 52 顔特徴量抽出部, 53 学習用判定機, 163 静止画像年齢推定部, 164 顔トラッキング部, 165 結果統合部, 414 服装検出部, 415 服装特徴量抽出部, 446 顔安定度検出部
Claims (12)
- 複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定部を備え、
前記各判定機は、前記判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、
前記各判定機において判定される2つの範囲には、重複する部分が含まれている
情報処理装置。 - 前記多段判定部は、前記判定対象を含む画像から、前記判定対象に関する特徴量を抽出する特徴量抽出部をさらに備え、
前記各判定機は、前記特徴量抽出部により抽出された前記特徴量に基づいて、前記判定を行う
請求項1に記載の情報処理装置。 - 前記2つの範囲の境目から一定範囲は不感帯範囲として予め設定されており、
前記多段判定部は、所定の階層の判定機において前記判定対象が前記不感帯範囲に分類された場合、次の階層の判定機の判定を禁止して、前記所定の階層の判定機までの判定の結果に基づいて、最終の判定を行う
請求項1に記載の情報処理装置。 - 前記多段判定部は、動画像を構成する複数の単位画像の各々を処理対象として、
処理対象毎に、前記特徴量抽出部が特徴量を抽出し、前記各判定機が前記判定を行い、
前記多段判定部による前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備える
請求項2に記載の情報処理装置。 - 前記処理対象は複数であり、
前記多段判定部は、複数の前記処理対象毎に前記処理対象に関する特徴量を抽出する特徴量抽出部さらに備え、
前記多段判定部による複数の前記処理対象毎の前記判定の結果を統合する結果統合部をさらに備える
請求項1に記載の情報処理装置。 - 前記結果統合部は、前記多段判定部による前記処理対象毎の前記判定の結果の各々により示される各々の範囲における信頼度の分布を設定し、前記処理対象毎の前記信頼度の分布を加算することにより、前記判定対象が所定の範囲に分類される確率分布を算出する
請求項4に記載の情報処理装置。 - 前記判定対象は人物であり、年齢に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の年齢の範囲をそれぞれ判定することによって、前記人物の年齢を前記複数の範囲のうちの1つに分類する
請求項3に記載の情報処理装置。 - 前記判定対象は人物であり、人種に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の人種の範囲をそれぞれ判定することによって、前記人物の人種を前記複数の範囲のうちの1つに分類する
請求項3に記載の情報処理装置。 - 前記判定対象は人物であり、顔の表情に関する前記複数の範囲が予め設定されており、
前記特徴量抽出部は、人物の顔を含む画像から、前記顔の特徴量を抽出し、
前記各判定機は、前記顔を有する人物の顔の表情の範囲をそれぞれ判定することによって、前記人物の顔の表情を前記複数の範囲のうちの1つに分類する
請求項3に記載の情報処理装置。 - 前記特徴量抽出部は、前記画像から、人物の服装に関する特徴量を抽出する
請求項3に記載の情報処理装置。 - 複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定ステップを含み、
前記各判定機は、前記判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、
前記各判定機において判定される2つの範囲には、重複する部分が含まれている
情報処理方法。 - 複数の範囲のうちの少なくとも1つに判定対象を分類する判定を行うために、N階層(Nは2以上の整数値)の木構造の各ノードとして機能する各判定機を有する多段判定ステップを含み、
前記各判定機は、前記判定対象を、2つの範囲のうちの何れか一方に分類する判定を行い、
前記各判定機において判定される2つの範囲には、重複する部分が含まれている
制御処理をコンピュータに実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011131295A JP2013003662A (ja) | 2011-06-13 | 2011-06-13 | 情報処理装置及び方法、並びにプログラム |
US13/488,683 US20120314957A1 (en) | 2011-06-13 | 2012-06-05 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011131295A JP2013003662A (ja) | 2011-06-13 | 2011-06-13 | 情報処理装置及び方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013003662A true JP2013003662A (ja) | 2013-01-07 |
Family
ID=47293262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011131295A Withdrawn JP2013003662A (ja) | 2011-06-13 | 2011-06-13 | 情報処理装置及び方法、並びにプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120314957A1 (ja) |
JP (1) | JP2013003662A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015099509A (ja) * | 2013-11-19 | 2015-05-28 | 東芝テック株式会社 | 年齢層判定装置および年齢層判定プログラム |
JP2016174330A (ja) * | 2015-03-18 | 2016-09-29 | カシオ計算機株式会社 | 情報処理装置、コンテンツ決定方法、及びプログラム |
JP2019016268A (ja) * | 2017-07-10 | 2019-01-31 | コニカミノルタ株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
WO2023032438A1 (ja) * | 2021-08-31 | 2023-03-09 | 富士フイルム株式会社 | 回帰推定装置および方法、プログラム並びに学習済みモデルの生成方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5956860B2 (ja) * | 2012-07-09 | 2016-07-27 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム |
JP6098133B2 (ja) * | 2012-11-21 | 2017-03-22 | カシオ計算機株式会社 | 顔構成部抽出装置、顔構成部抽出方法及びプログラム |
KR101571241B1 (ko) * | 2014-04-23 | 2015-11-23 | 한국 한의학 연구원 | 안면 표현형 결정 장치 및 방법 |
KR20170033549A (ko) * | 2015-09-17 | 2017-03-27 | 삼성전자주식회사 | 디스플레이 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체 |
CN107689039B (zh) * | 2016-08-05 | 2021-01-26 | 同方威视技术股份有限公司 | 估计图像模糊度的方法和装置 |
JP7046620B2 (ja) * | 2018-01-29 | 2022-04-04 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN109086680A (zh) * | 2018-07-10 | 2018-12-25 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质和电子设备 |
KR102537781B1 (ko) | 2018-11-13 | 2023-05-30 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
WO2024012686A1 (en) * | 2022-07-14 | 2024-01-18 | Huawei Technologies Co., Ltd. | Method and device for age estimation |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7319779B1 (en) * | 2003-12-08 | 2008-01-15 | Videomining Corporation | Classification of humans into multiple age categories from digital images |
-
2011
- 2011-06-13 JP JP2011131295A patent/JP2013003662A/ja not_active Withdrawn
-
2012
- 2012-06-05 US US13/488,683 patent/US20120314957A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015099509A (ja) * | 2013-11-19 | 2015-05-28 | 東芝テック株式会社 | 年齢層判定装置および年齢層判定プログラム |
JP2016174330A (ja) * | 2015-03-18 | 2016-09-29 | カシオ計算機株式会社 | 情報処理装置、コンテンツ決定方法、及びプログラム |
JP2019016268A (ja) * | 2017-07-10 | 2019-01-31 | コニカミノルタ株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
WO2023032438A1 (ja) * | 2021-08-31 | 2023-03-09 | 富士フイルム株式会社 | 回帰推定装置および方法、プログラム並びに学習済みモデルの生成方法 |
Also Published As
Publication number | Publication date |
---|---|
US20120314957A1 (en) | 2012-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013003662A (ja) | 情報処理装置及び方法、並びにプログラム | |
US11222196B2 (en) | Simultaneous recognition of facial attributes and identity in organizing photo albums | |
Zhu et al. | A study on apparent age estimation | |
US20100226584A1 (en) | Method of Grouping Images by Face | |
Sikka et al. | Weakly supervised pain localization using multiple instance learning | |
US10984252B2 (en) | Apparatus and method for analyzing people flows in image | |
CN108052862B (zh) | 年龄预估方法和装置 | |
US20210326638A1 (en) | Video panoptic segmentation | |
Bolanos et al. | Visual summary of egocentric photostreams by representative keyframes | |
JP2009086901A (ja) | 年齢推定システム及び年齢推定方法 | |
JP2013003631A (ja) | 情報処理装置、情報処理方法、情報処理システム、及びプログラム | |
CN111159423B (zh) | 一种实体关联方法、装置及计算机可读存储介质 | |
CN106127197A (zh) | 一种基于显著标签排序的图像显著性目标检测方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN111598004A (zh) | 一种渐进增强自学习的无监督跨领域行人再识别方法 | |
Mukherjee et al. | Recognizing interaction between human performers using'key pose doublet' | |
Gozali et al. | Hidden Markov Model for event photo stream segmentation | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
JP2021197129A (ja) | ディープラーニング及びplsiに基づく画像オブジェクトの意味関係を認識する方法 | |
CN115497124A (zh) | 身份识别方法和装置及存储介质 | |
Li et al. | Anchor-constrained viterbi for set-supervised action segmentation | |
Schulter et al. | Unsupervised Object Discovery and Segmentation in Videos. | |
CN113779283A (zh) | 一种深度监督与特征融合的细粒度跨媒体检索方法 | |
JP7419142B2 (ja) | 表示制御装置、表示制御方法及びプログラム | |
Ali et al. | Age estimation from facial images using biometric ratios and wrinkle analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140902 |