JP7436668B2 - 画像データ処理装置及びシステム - Google Patents

画像データ処理装置及びシステム Download PDF

Info

Publication number
JP7436668B2
JP7436668B2 JP2022533943A JP2022533943A JP7436668B2 JP 7436668 B2 JP7436668 B2 JP 7436668B2 JP 2022533943 A JP2022533943 A JP 2022533943A JP 2022533943 A JP2022533943 A JP 2022533943A JP 7436668 B2 JP7436668 B2 JP 7436668B2
Authority
JP
Japan
Prior art keywords
image data
face
discrimination
processing device
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022533943A
Other languages
English (en)
Other versions
JPWO2022004569A5 (ja
JPWO2022004569A1 (ja
Inventor
大輔 林
俊太 江郷
昌弘 寺田
研司 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2022004569A1 publication Critical patent/JPWO2022004569A1/ja
Publication of JPWO2022004569A5 publication Critical patent/JPWO2022004569A5/ja
Application granted granted Critical
Publication of JP7436668B2 publication Critical patent/JP7436668B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、画像データ処理装置及びシステムに係り、特に、複数の顔を含む画像の画像データを処理する画像データ処理装置及びシステムに関する。
特許文献1には、画像に含まれる人物の顔を検出し、かつ、検出した顔の表情等を判別して、各顔の人物の状態を推定する技術が記載されている。
特許文献2には、男性の顔を検出する識別器と女性の顔を検出する識別器の2つの識別器を使用することにより、顔の検出と同時に性別を判別する技術が記載されている。
特許文献3には、画像に対し動き解析を適用することにより、動きがある領域と動きがない領域とを分離し、分離した領域ごとに異なる条件で顔を検出する技術が記載されている。
特許文献4には、識別モデルを利用して特定のユーザの顔の表情を識別する技術に関して、識別対象であるユーザの顔の表情の表出傾向を判定し、その判定結果に基づいて、識別に利用する識別モデルを選択する技術が記載されている。
特開2019-219987号公報 特開2011-141799号公報 特開2018-142061号公報 特開2018-45350号公報
本開示の技術に係る1つの実施形態は、複数の顔を含む画像から効率よく顔を検出できる画像データ処理装置及びシステムを提供する。
(1)画像データを処理する画像データ処理装置であって、メモリと、プロセッサと、を備え、プロセッサは、第1判別モデルを用いて画像データが表す画像から人物の顔を検出し、かつ、検出した顔の属性を判別する第1判別処理と、画像データが表す画像内で顔が検出されたエリアを顔の属性の種類に応じてクラスタリングするクラスタリング処理と、クラスタリングされたエリアの顔の属性の種類の情報に基づいて、エリアに適用する第2判別モデルを選択する選択処理と、エリアに適用された第2判別モデルを用いてエリアの画像から人物の顔を検出し、かつ、検出した顔の属性を判別する第2判別処理と、を実行する、画像データ処理装置。
(2)第2判別モデルが、複数の顔の属性の種類別に用意され、クラスタリング処理では、第2判別モデルが用意された顔の属性の種類に応じてクラスタリングする、(1)の画像データ処理装置。
(3)第2判別モデルが、第1判別モデルで判別される顔の属性の種類に応じて用意される、(2)の画像データ処理装置。
(4)第2判別モデルは、対応する種類の属性の顔を第1判別モデルよりも高い精度で検出する、(2)又は(3)の画像データ処理装置。
(5)第2判別モデルは、対応する種類の属性の範囲内で更に詳細に種類を分類して顔の属性を判別する、(1)から(4)のいずれか一の画像データ処理装置。
(6)第2判別モデルは、対応する種類の属性の顔か否かを分類して顔の属性を判別する、(1)から(4)のいずれか一の画像データ処理装置。
(7)プロセッサは、第1判別処理、クラスタリング処理、選択処理、第2判別処理の順で各処理を1回ずつ実行する、(1)から(6)のいずれか一の画像データ処理装置。
(8)プロセッサは、第1判別処理、クラスタリング処理、選択処理、第2判別処理の順で各処理を1回ずつ実行した後、第2判別処理の結果に基づいて、クラスタリング処理と、選択処理と、第2判別処理と、を繰り返し実行する、(1)から(6)のいずれか一の画像データ処理装置。
(9)第1判別モデル及び第2判別モデルは、顔の属性として、少なくとも表情を判別する、(1)から(8)のいずれか一の画像データ処理装置。
(10)第1判別モデル及び/又は第2判別モデルは、顔の属性として、更に顔の向きを判別する、(9)の画像データ処理装置。
(11)プロセッサは、画像データが表す画像から人物が存在するエリアを処理対象エリアとして抽出する抽出処理を更に実行し、抽出された処理対象エリアに、クラスタリング処理と、選択処理と、第2判別処理と、を実行する、(1)から(10)のいずれか一の画像データ処理装置。
(12)抽出処理では、画像から通路を検出し、通路で区切られたエリアを処理対象エリアとして抽出する、(11)の画像データ処理装置。
(13)プロセッサは、画像データが表す画像内から検出した顔を、画像内での位置と属性とを関連付けて記録したマップデータを生成するマップデータ生成処理を更に実行する、(1)から(12)のいずれか一の画像データ処理装置。
(14)プロセッサは、マップデータに基づいてヒートマップを生成するヒートマップ生成処理と、を更に実行する、(13)の画像データ処理装置。
(15)プロセッサは、生成したヒートマップをディスプレイに表示させる表示制御処理を更に実行する、(14)の画像データ処理装置。
(16)プロセッサは、生成したヒートマップを外部に出力する出力制御処理を更に実行する、(14)又は(15)の画像データ処理装置。
(17)メモリには、第1判別モデルと、第2判別モデルと、が記憶される、(1)から(16)のいずれか一の画像データ処理装置。
(18)撮影装置と、撮影装置で撮影された画像データを入力して処理する(1)から(17)のいずれか一の画像データ処理装置と、を備えた画像データ処理システム。
画像データ処理装置のハードウェア構成の一例を示すブロック図 画像データ処理装置が有する主な機能のブロック図 第1判別部による顔の検出結果の一例を示す図 クラスタリング処理の概念図 エリアの抽出の概念図 第2判別部の機能ブロック図 第1検出部による顔の検出結果の一例を示す図 検出結果統合部よる検出結果の統合の一例を示す図 画像データ処理装置による顔の検出動作の処理手順を示すフローチャート 変形例による顔の検出動作の処理手順を示すフローチャート 第1判別モデルで判別する顔の属性と第2判別モデルの種類との関係の一例を示す図 第1判別モデルを用いて顔の検出結果の一例を示す図 クラスタリング処理の結果の一例を示す図 エリアの設定の他の一例を示す図 感情計測システムの概略構成を示す図 画像データ処理装置が実現する機能のブロック図 ヒートマップの一例を示す図 ヒートマップの他の一例を示す図 ヒートマップの他の一例を示す図 顔検出の処理の概念図 撮影される画像の一例を示す概念図 1つのブロックでのクラスタリングの一例を示す概念図 顔の検出動作の処理手順を示すフローチャート 処理対象エリアを自動抽出する機能を備えた画像データ処理装置の主な機能のブロック図 処理対象エリアの抽出の概念図
以下、添付図面に従って本発明の好ましい実施の形態について詳説する。
[第1の実施の形態]
コンサート、演劇、スポーツなどのイベントにおいて、イベント開催中の全時間を通じて来場者の感情を計測し、収集することで、開催したイベントに関するさまざまな情報の分析が可能になる。たとえば、コンサートなどでは、収集した情報から曲ごとの盛り上がり度合いなどを分析できる。また、会場内での位置の情報に関連付けて、各来場者の感情の情報を記録することにより、会場内での盛り上がり状態の分布なども分析できる。更には、盛り上がりの分布の情報から盛り上がりの中心を特定することにより、盛り上げ役となっている来場者の特定なども可能になる。
感情の計測は、会場内を撮影した画像に基づいて行われる。具体的には、会場内を撮影した画像から来場者の顔を検出し、その表情を判別することにより、各来場者の感情が特定される。
近年、カメラの性能の向上により、一度に数百人、数千人規模の来場者を高い解像度で撮影することが可能になっている。
一方、大量の顔を含んだ画像から各顔を検出して、その表情を判別するには、多くの計算リソースが必要になる。このため、十分な検出速度が出せないという問題がある。
本実施の形態では、大量の顔を含んだ画像であっても、効率よく顔を検出して表情を判別できる画像データ処理装置について説明する。表情は、顔の属性の一例である。
[装置構成]
図1は、画像データ処理装置のハードウェア構成の一例を示すブロック図である。
同図に示すように、画像データ処理装置10は、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、補助記憶装置14、操作部15、ディスプレイ16、入出力インターフェース(Interface,I/F)17及び通信インターフェース18等を備える。すなわち、画像データ処理装置10は、コンピュータで構成され、コンピュータが、所定のプログラムを実行することで画像データ処理装置10として機能する。画像データ処理装置10を構成するコンピュータには、たとえば、パーソナルコンピュータ等の汎用のコンピュータを使用できる。CPU11は、プロセッサの一例である。ROM13及び/又は補助記憶装置14には、CPU11が実行するプログラム及び各種データが記憶される。ROM13及び/又は補助記憶装置14は、メモリの一例である。補助記憶装置14には、HDD(Hard Disk Drive)、フラッシュメモリ(Flash Memory)、SSD(Solid State Disk)等が採用される。操作部15は、たとえば、キーボード、マウス、タッチパネル等で構成される。ディスプレイ16は、たとえば、液晶ディスプレイ(Liquid Crystal Display,LCD)、有機ELディスプレイ(Organic Light Emitting Diode display,OLED display)等で構成される。
図2は、画像データ処理装置が有する主な機能のブロック図である。
同図に示すように、画像データ処理装置10は、主として、画像データ取得部21、第1判別部22、クラスタリング部23、第2判別モデル選択部24、エリア抽出部25、第2判別部26及び検出結果出力部27の機能を有する。各部の機能は、プロセッサであるCPU11が、所定のプログラム(画像データ処理プログラム)を実行することにより実現される。
画像データ取得部21は、処理対象である画像データを取得する。画像データは、入出力インターフェース17又は通信インターフェース18を介して画像データ処理装置10に入力される。
第1判別部22は、画像データ取得部21で取得した画像データが表す画像から人物の顔を検出し、かつ、検出した人物の顔の表情を判別して出力する。したがって、第1判別部22に入力される画像データは、画像データ取得部21で取得された画像データである。顔は、画像内での位置が特定されて検出される。したがって、第1判別部22からは検出した顔の位置及び表情の情報が出力される。
画像内での顔の位置は、たとえば、バウンディングボックスで特定される。バウンディングボックスは、検出した顔を囲う矩形の枠である。バウンディングボックスの位置は、たとえば、バウンディングボックスの中心座標で特定される。
表情については、あらかじめ定められた複数種類の表情の中から1つが特定される。すなわち、第1判別部22は、あらかじめ定められた複数種類の表情の中で各人物の顔の表情を分類して出力する。本実施の形態では、「笑い」、「怒り」及び「無表情」の3種類の表情の中で各人物の顔の表情を分類して出力する。
第1判別部22は、学習済みモデルである第1判別モデルを使用して、画像から各人物の顔を検出し、かつ、検出した各人物の顔の表情を判別する処理(第1判別処理)を行う。第1判別モデルは、顔を含む画像を学習用データとして機械学習により生成される。第1判別モデルとしては、たとえば、R-CNN(Regions with Convolutional Neural Networks)、Fast R-CNN(Fast Regions with Convolutional Neural Networks)、Faster R-CNN(Faster Regions with Convolutional Neural Networks)、Mask R-CNN(Mask Regions with Convolutional Neural Networks)、SSD(Single Shot Multibox Detector)、YOLO(You Only Look Once)、YOLOv2(You Only Look Once version2)、YOLOv3(You Only Look Once version3)などの物体検出用のCNN(Convolutional Neural Network)を使用できる。第1判別モデルは、メモリとしてのROM13又は補助記憶装置14に格納される。
一般に学習済みモデルを使用した表情認識では、各表情の確からしさ(表情スコア)が認識結果として出力される。各表情の確からしさは、合計が1となるように出力される。したがって、確からしさが最も高い表情を特定することで、検出された顔の表情を特定できる。たとえば、判別する顔の表情が、「笑い」、「怒り」及び[無表情]の3種類の場合において、各表情の確からしさが、笑い:0.98、怒り:0.01、無表情:0.01の場合、当該顔の表情は「笑い」と特定される。
図3は、第1判別部による顔の検出結果の一例を示す図である。
同図に示す例では、画像Imから検出された顔をバウンディングボックスBBで囲って表している。したがって、バウンディングボックスBBで囲われていない顔は、第1判別部22で検出できなかった顔である。
なお、同図において、各バウンディングボックスBBに付されたラベルLは、検出した顔について判別した表情の種類を表している。
クラスタリング部23は、画像データが表す画像内で顔が検出されたエリアをクラスタリングする処理(クラスタリング処理)を行う。本実施の形態では、顔が検出されたエリアを第2判別部26で使用する第2判別モデルの種類に応じてクラスタリングする。たとえば、第2判別モデルが、第1判別部22で判別される顔の表情の種類別に用意されている場合、第1判別部22で判別される顔の表情の種類に応じてクラスタリングする。本実施の形態の画像データ処理装置10では、第1判別部22で判別される顔の表情の種類別に第2判別モデルが用意されているものとする。したがって、本実施の形態の画像データ処理装置10では、第1判別部22で判別される顔の表情の種類に応じてクラスタリングされる。上記のように、第1判別部22は、「笑い」、「怒り」及び「無表情」の3種類の表情を判別する。したがって、クラスタリング部23は、「笑い」、「怒り」及び「無表情」の3種類の表情ごとクラスタリングする。
図4は、クラスタリング処理の概念図である。
まず、画像から検出された顔を第2判別モデルの種類に応じてクラスタリングする。本実施の形態では、第2判別モデルが、第1判別部22で判別される顔の表情の種類別に用意されているので、第1判別部22で判別される顔の表情の種類に応じてクラスタリングされる。図4において、矩形の枠で囲われた顔が、第1判別部22で検出された顔を示している。また、各枠に付されたラベルは、分類されたクラスタの種類を表している。ラベルF1は、笑いの表情のクラスタに分類された顔に付されるラベルである。ラベルF2は、怒りの表情のクラスタに分類された顔に付されるラベルである。ラベルF3は、無表情のクラスタに分類された顔に付されるラベルである。
クラスタリングには、公知の手法が採用される。たとえば、k平均法(k-means clustering)などのクラスタリングアルゴリズムを使用して実施される。
クラスタリング後、クラスタごとのエリアを設定する。各エリアは、各クラスタに属する顔をすべて包含するエリアとして設定される。たとえば、各クラスタに属する顔をすべて包含する最小の矩形の枠を求めて設定する。この枠は、画像の横方向(図4においてx方向)、及び、縦方向(図4においてy方向)において、最も外側に位置する顔に外接する矩形の枠として求められる。求めた矩形の枠内のエリアが、各クラスタに属する顔のエリアとして設定される。図4において、符号Z1で示すエリアは、笑いの表情のエリアである。符号Z2で示すエリアは、怒りの表情のエリアである。符号Z3で示すエリアは、無表情のエリアである。
以上により、画像から顔が検出されたエリアが、第2判別モデルの種類に応じてクラスタリングされる。本実施の形態では、第2判別モデルが、第1判別部22で判別される顔の表情の種類別に用意されるので、第1判別部22で判別される顔の表情の種類に応じてクラスタリングされる。
第2判別モデル選択部24は、クラスタリングされた各エリアの顔の表情の種類の情報に基づいて、各エリアに適用する第2判別モデルを選択する処理(選択処理)を行う。クラスタリングされる顔の表情の種類は、第2判別モデルの種類と一致している。したがって、各エリアの顔の表情の種類に対応した第2判別モデルが選択される。したがって、たとえば、図4において、笑いの表情のエリアZ1には、笑いの表情の第2判別モデルが選択される。また、怒りの表情のエリアZ2には、怒りの表情の第2判別モデルが選択される。また、無表情のエリアZ3には、無表情の第2判別モデルが選択される。各エリアに対して選択した第2判別モデルの情報は、第2判別部26に加えられる。
エリア抽出部25は、画像データ取得部21で取得された画像データが表す画像からクラスタリングされた各エリアの画像を抽出する処理を行う。エリア抽出部25は、クラスタリング部23でクラスタリングされた各エリアの情報に基づいて、各エリアの画像を抽出する。図5は、エリアの抽出の概念図である。同図は、笑いの表情のエリアZ1を抽出した場合の一例を示している。同図に示すように、各エリアの画像は、他の領域をマスクした画像を生成し、各エリアの画像を抽出する。なお、図5において、斜線で示した領域がマスクされた領域である。笑いの表情のエリアZ1の画像Im1の場合、当該エリア以外の領域がマスクされる。エリア抽出部25は、クラスタリングされたエリアの数だけ画像を抽出する。抽出された各エリアの画像は、第2判別部26に加えられる。
第2判別部26は、クラスタリングされた各エリアの画像から人物の顔を検出し、かつ、検出した人物の顔の表情を判別して出力する処理(第2判別処理)を行う。したがって、第2判別部26には、エリア抽出部25で抽出された各エリアの画像が入力される。顔は、第1判別部22と同様に、画像内での位置を特定して検出する。したがって、第2判別部26からは、検出した顔の位置及び表情が出力される。
第2判別部26は、種類の異なる複数の第2判別モデルを使用して、画像から人物の顔を検出し、かつ、検出した各人物の顔の表情を判別する処理を行う。各第2判別モデルは、学習済みモデルであり、顔を含む画像を学習用データとして機械学習により生成される。各第2判別モデルには、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、SSD、YOLO、YOLOv2、YOLOv3などの物体検出用のCNNが使用される。
複数の第2判別モデルは、顔の表情の種類別に用意される。本実施の形態では、第1判別部22で判別される顔の表情の種類別に第2判別モデルが用意される。したがって、笑いの表情に対応した第2判別モデル(笑いの表情用の第2判別モデル)と、怒りの表情に対応した第2判別モデル(怒りの表情用の第2判別モデル)と、無表情に対応した第2判別モデル(無表情の第2判別モデル)と、が用意される。
各第2判別モデルは、それぞれ対応する種類の表情の顔を第1判別モデルよりも高い精度で検出できる判別モデルで構成される。すなわち、笑いの表情用の第2判別モデルは、入力画像から笑いの表情の顔を第1判別モデルよりも高い精度で検出する判別モデルで構成される。また、怒りの表情用の第2判別モデルは、入力画像から怒りの表情の顔を第1判別モデルよりも高い精度で検出する判別モデルで構成される。また、無表情用の第2判別モデルは、入力画像から無表情の顔を第1判別モデルよりも高い精度で検出する判別モデルで構成される。
対応する表情の顔を第1判別モデルよりも高い精度で検出できるように、各第2判別モデルは、ニューラルネットワークの構造が第1判別モデルよりも多層化される。具体的には、ニューラルネットワークを構成する隠れ層(中間層)の構造が、第1判別モデルよりも多層化される。このように、ニューラルネットワークの構造をより多層化(深いネットワーク構造)することで、第2判別モデルは、第1判別モデルよりも対応する種類の表情の顔をより高精度に検出することが可能になる。一方、第1判別モデルは、第2判別モデルよりも検出の処理速度を高速化できる。すなわち、本実施の形態の画像データ処理装置において、第1判別モデルと第2判別モデルは、次の関係にある。第1判別モデルは、検出精度は劣るが、検出の処理速度に優れた判別モデルで構成される。一方、第2判別モデルは、検出の処理速度は劣るが、検出精度に優れた判別モデルで構成される。この結果、第1判別モデルを用いた顔の検出では、画像から各表情の顔が自動的にランダムサンプリングされる。一方、第2判別モデルを用いた顔の検出では、画像から対応する表情の顔が高精度に検出される。
第2判別モデルは、対応する種類の表情か否かを分類して、検出した顔の表情を判別する。たとえば、笑いの表情用の第2判別モデルは、検出した顔の表情が笑いの表情か否か(笑いの表情か、笑い以外の表情か)を判別する。また、怒りの表情用の第2判別モデルは、検出した顔の表情が怒りの表情か否か(怒りの表情か、怒り以外の表情か)を判別する。また、無表情用の第2判別モデルは、検出した顔の表情が無表情か否か(無表情か、無表情以外の表情か)を判別する。
図6は、第2判別部の機能ブロック図である。
第2判別部26は、主として、第1検出部26a1、第2検出部26a2、第3検出部26a3及び検出結果統合部26b等の機能を有する。
第1検出部26a1は、笑いの表情用の第2判別モデルを使用して、入力された画像から人物の顔を検出し、かつ、検出した人物の顔の表情を判別して出力する処理を行う。したがって、第1検出部26a1には、笑いの表情のエリアの画像データ(笑いの表情のエリアの画像を抽出した画像データ)が入力される。上記のように、表情は、笑いの表情か否かが判別されて出力される。
図7は、第1検出部による顔の検出結果の一例を示す図である。
同図に示すように、笑いの表情のエリアZ1の画像から顔が検出され、かつ、その表情が判別される。第2判別モデルは、対応する表情の顔を第1判別モデルよりも高い精度で検出できることから、第1判別モデルでは検出できなかった顔(図3参照)の検出が可能になる。
第2検出部26a2は、怒りの表情用の第2判別モデルを使用して、入力された画像から人物の顔を検出し、かつ、検出した人物の顔の表情を判別して出力する処理を行う。したがって、第2検出部26a2には、怒りの表情のエリアの画像データ(怒りの表情のエリアの画像を抽出した画像データ)が入力される。上記のように、表情は、怒りの表情か否かが判別されて出力される。
第3検出部26a3は、無表情用の第2判別モデルを使用して、入力された画像から人物の顔を検出し、かつ、検出した人物の顔の表情を判別して出力する処理を行う。したがって、第3検出部26a3には、無表情のエリアの画像データ(無表情のエリアの画像を抽出した画像データ)が入力される。上記のように、表情は、無表情か否かが判別されて出力される。
検出結果統合部26bは、各検出部による検出結果を統合する処理を行う。図8は、検出結果統合部よる検出結果の統合の一例を示す図である。同図に示すように、第1検出部26a1~第3検出部26a3の各検出部で検出された顔の検出結果(顔の位置及び表情の情報)が統合されて、1枚の画像についての顔の検出結果が生成される。生成された顔の検出結果は、画像データ取得部21で取得された画像データが表す画像における顔の検出結果に相当する。
検出結果出力部27は、一連の処理で検出された顔の検出結果を出力する処理を行う。顔の検出結果は、検出された各顔の位置及び表情の情報が出力される。
検出結果出力部27から出力された顔の検出結果の情報は、画像データに関連付けられて、補助記憶装置14に記憶される。あるいは、入出力インターフェース17及び通信インターフェース18を介して外部に出力される。また、必要に応じて、ディスプレイ16に出力される。ディスプレイ16には、検出された顔がバウンディングボックスで囲われ、かつ、判別された表情のラベルが付された画像が表示される(図7参照)。
[検出動作]
図9は、画像データ処理装置による顔の検出動作の処理手順を示すフローチャートである。
まず、処理対象とする画像データが取得される(ステップS1/画像データ取得部21による画像データ取得処理)。画像データは、入出力インターフェース17又は通信インターフェース18を介して画像データ処理装置10に入力される。
次に、取得した画像データに対し、第1判別モデルを用いて顔を検出する処理が行われる(ステップS2/第1判別部22による第1判別処理)。顔は、画像データが表す画像全体から検出される。また、顔は、画像内での位置及び表情が特定されて検出される。この第1判別モデルを用いた顔の検出は、第2判別モデルを用いた顔の検出よりも粗い検出となる。言い換えると、第1判別モデルを用いた顔の検出では、画像から各表情の顔が自動的にランダムサンプリングされる。
次に、画像から顔が検出されたエリアがクラスタリングされる(ステップS3/クラスタリング部23によるクラスタリング処理)。クラスタリングは、第2判別モデルの種類に応じて行われる。本実施の形態では、第2判別処理が、第1判別モデルで判別される表情の種類別に用意される。したがって、第1判別モデルで判別される表情の種類に応じてクラスタリングされる。クラスタリングにより、各表情のエリアが設定される。本実施の形態では、笑いの表情のエリアと、怒りの表情のエリアと、無表情のエリアと、が設定される。
次に、クラスタリングされた各エリアに適用する第2判別モデルが選択される(ステップS4/第2判別モデル選択部24による選択処理)。この処理は、クラスタリングされた各エリアの顔の表情の種類の情報に基づいて行われる。すなわち、エリアごとに対応する表情の種類の第2判別モデルが選択される。したがって、笑いの表情のエリアには、笑いの表情用の第2判別モデルが選択され、怒りの表情のエリアには、怒りの表情用の第2判別モデルが選択され、無表情のエリアには、無表情用の第2判別モデルが選択される。
次に、各エリアに適用された第2判別モデルを用いて、各エリアの画像から顔を検出する処理が行われる(ステップS5/第2判別部26による第2判別処理)。したがって、笑いの表情のエリアは、笑いの表情用の第2判別モデルを用いて顔が検出され、怒りの表情のエリアは、怒りの表情用の第2判別モデルを用いて顔が検出され、無表情のエリアは、無表情用の第2判別モデルを用いて顔が検出される。各エリアにおいて、顔は、各エリアの画像内から検出される。また、顔は、画像内での位置及び表情が特定されて検出される。第2判別モデルは、対応する表情に関して、第1判別モデルよりも高い精度で顔を検出できる。したがって、ここでの顔の検出は、第1判別モデルを用いた顔の検出よりも精度の高い検出となる。各エリアの顔の検出結果は、統合されて第2判別部26から出力される。
第2判別部26から出力された顔の検出結果が、入力画像に対する顔の検出結果として、検出結果出力部27により出力される(ステップS6)。検出結果は、検出された各顔の位置及び表情の情報が出力される。
以上説明したように、本実施の形態の画像データ処理装置10では、まず、汎用の第1判別モデルを用いて画像全体から顔を粗く検出する。次いで、検出に成功した顔のエリアを第2判別モデルの種類に応じてクラスタリングする。次いで、クラスタリングされたエリアごとに専用の第2判別モデルを用いて高精度に顔を検出する。これにより、複数の顔を含む画像から効率よく顔を検出できる。
本実施の形態の画像データ処理装置10は、特に、芝居、コンサート及びスポーツ等のイベントにおいて、来場者の顔を検出するのに有効に作用する。すなわち、大量の人物からなる集団の顔を検出するのに有効に作用する。芝居、コンサート及びスポーツ等のイベントにおいて、各来場者は、各シーンにおいて、周囲の来場者と感情を共有しており、周囲の来場者と似た表情をしていると考えられる。したがって、表情の種類に応じてクラスタリングし、対応する種類の判別器(第2判別器)を選択して、顔を検出することにより、大量の顔を含む画像であっても精度よく顔を検出できる。このように、本実施の形態の画像データ処理装置10は、集団の感情の関連性を利用することで、大量の顔を含んだ画像から効率よく顔を検出できる。
[変形例]
[検出手順についての変形例]
上記実施の形態では、第1判別処理、クラスタリング処理、選択処理及び第2判別処理の各処理が、第1判別処理、クラスタリング処理、選択処理、第2判別処理の順で1回ずつ実行される構成である。この場合、クラスタリングは、第1判別部22による顔の検出結果にのみ基づいて行われる。
顔の検出は、第2判別部26でも行われる。したがって、第2判別部26による顔の検出結果を利用して、クラスタリング処理を行うこともできる。本例では、第2判別部26による顔の検出結果を利用して、再度、クラスタリング処理を実行し、第2判別モデルを用いた顔の検出処理を実行する。すなわち、第1判別処理、クラスタリング処理、選択処理、第2判別処理の順で各処理を1回ずつ実行した後、第2判別処理の結果に基づいて、クラスタリング処理、選択処理及び第2判別処理を再度実行する。本例では、クラスタリング処理、選択処理及び第2判別処理をあらかじめ定めた回数だけ繰り返し実行する。すなわち、あらかじめ定めた回数に達するまで繰り返し実行する。あらかじめ定めた回数は、所定の条件の一例である。
図10は、変形例による顔の検出動作の処理手順を示すフローチャートである。
まず、処理対象とする画像データが取得される(ステップS11/画像データ取得部21による画像データ取得処理)。
次に、カウント数nが1に設定される。すなわち、n=1とされる(ステップS12)。
次に、取得した画像データに対し、第1判別モデルを用いて顔を検出する処理が行われる(ステップS13/第1判別部22による第1判別処理)。
次に、画像から顔が検出されたエリアがクラスタリングされる(ステップS14/クラスタリング部23によるクラスタリング処理)。ここでのクラスタリングは、第1判別モデルを用いた顔の検出結果に基づいて行われる。
次に、クラスタリングされた各エリアに適用する第2判別モデルが選択される(ステップS15/第2判別モデル選択部24による選択処理)。
次に、各エリアに適用された第2判別モデルを用いて、各エリアの画像から顔を検出する処理が行われる(ステップS16/第2判別部26による第2判別処理)。
次に、カウント数nがカウントアップされる。すなわち、n=n+1とされる(ステップS17)。
次に、カウント数nが、閾値を超えたか否かが判定される(ステップS18)。閾値は、あらかじめ定めた繰り返しの回数である。
ステップS18において、カウント数nが閾値を超えたと判定されると、第2判別部26から出力された顔の検出結果が、入力画像に対する顔の検出結果として、検出結果出力部27により出力される(ステップS19)。
ステップS18において、カウント数nが閾値を超えていないと判定されると、ステップS14に戻り、クラスタリング処理が行われる。ここでのクラスタリングは、第2判別モデルを用いた顔の検出結果に基づいて行われる。したがって、より多くの顔が含まれている。クラスタリング処理後、そのクラスタリング処理の結果に基づいて、選択処理(ステップS15)、第2判別処理(ステップS16)が実施される。クラスタリング処理(ステップS14)、選択処理(ステップS15)及び第2判別処理(ステップS16)は、カウント数nが閾値を超えるまで繰り返し実行される。
このように、第2判別処理の結果を利用して、クラスタリング処理、選択処理及び第2判別処理を繰り返し実行することにより、より多くの顔を検出できる。すなわち、第2判別処理では、第1判別処理では検出できなかった顔の検出が可能になる。よって、その検出結果を用いて再度クラスタリング処理等を実行することにより、より多くの顔の検出が可能になる。
なお、本例では、クラスタリング処理、選択処理及び第2判別処理の各処理をあらかじめ定めた回数繰り返し実行する構成としているが、上記各処理の繰り返しを終了する条件は、これに限定されるものではない。たとえば、画像からあらかじめ定めた数の顔が検出されるまで繰り返し実行する構成とすることができる。また、あらかじめ定めた回数については、ユーザが任意に設定できる構成としてもよい。設定は、操作部15を介して行う。
[判別する顔の属性についての変形例]
上記実施の形態では、3種類の表情を判別する場合を例に説明したが、判別する表情の種類は、これに限定されるものではない。たとえば、「喜び」、「怒り」、「嫌悪」、「驚き」、「怖れ」、「悲しみ」及び「無感情」の7種類の感情に対応した表情を判別する構成とすることもできる。
また、上記実施の形態では、顔の属性として、表情を判別する構成としているが、顔の表情に代えて、又は、顔の表情に加えて、年齢、性別等の他の顔の属性を判別する構成とすることもできる。たとえば、顔の属性として、表情に加えて年齢及/又は性別を判別する構成とすることもできる。
更に、顔の属性として、顔の向きを判別する構成とすることもできる。この場合、顔の表情等に加えて、顔の向きを判別する構成とすることができる。
このように、判別する顔の属性については、複数種類を組み合わせて判別する構成とすることができる。
なお、第2判別モデルは、必ずしも第1判別モデルで判別されるすべての種類の属性に対応させて用意する必要はない。
図11は、第1判別モデルで判別する顔の属性と第2判別モデルの種類との関係の一例を示す図である。
同図は、第1判別モデルで顔の表情と向きを判別する場合の例を示している。この例では、顔の表情として、「笑い」、「怒り」及び「無表情」の3種類の表情を判別している。また、顔の向きとして、「正面」、「右横向き」及び「左横向き」の3方向の向きを判別している。したがって、この場合、第1判別モデルによって9種類の属性の顔が判別される。すなわち、正面を向いた笑いの表情の顔(正面×笑い)と、右横を向いた笑いの表情の顔(右横向き×笑い)と、左横を向いた笑いの表情の顔(左横向き×笑い)と、正面を向いた怒りの表情の顔(正面×怒り)と、右横を向いた怒りの表情の顔(右横向き×怒り)と、左横を向いた怒りの表情の顔(左横向き×怒り)と、正面を向いた無表情の顔(正面×無表情)と、右横を向いた無表情の顔(右横向き×無表情)と、左横を向いた無表情の顔(左横向き×無表情)と、が判別される。
第2判別モデルは、笑いの表情用の判別モデル、怒りの表情用の判別モデル、及び、無表情用の判別モデルが用意されている。第2判別モデルを構成する各表情の判別モデルは、対応する顔の表情に関して、第1判別モデルよりも高い精度で顔を検出する。したがって、対応する顔の表情に関して、複数の向きの顔を検出できる。
図12は、第1判別モデルを用いて顔の検出結果の一例を示す図である。
同図において、矩形の枠で囲われた顔が、画像Imから検出された顔である。各枠には、枠内の顔ついて判別した顔の属性を示すラベルを付している。ラベルは、9種類(顔の表情の種類×顔の向きの種類)である。各ラベルの内容は、次のとおりである。A1は、正面を向いた笑いの表情の顔に付されるラベルである(正面×笑い)。A2は、右横を向いた笑いの表情の顔に付されるラベルである(右横向き×笑い)。A3は、左横を向いた笑いの表情の顔に付されるラベルである(左横向き×笑い)。B1は、正面を向いた怒りの表情の顔に付されるラベルである(正面×怒り)。B2は、右横を向いた怒りの表情の顔に付されるラベルである(右横向き×怒り)。B3は、左横を向いた怒りの表情の顔に付されるラベルである(左横向き×怒り)。C1は、正面を向いた無表情の顔に付されるラベルである(正面×無表情)。C2は、右横を向いた無表情の顔に付されるラベルである(右横向き×無表情)。C3は、左横を向いた無表情の顔に付されるラベルである(左横向き×無表情)。
図13は、クラスタリング処理の結果の一例を示す図である。
クラスタリングは、第2判別モデルの種類に応じて行われる。したがって、この例では、顔の向きに関わらず、表情の種類に応じてクラスタリングされる。すなわち、笑いの表情のクラスタと、怒りの表情のクラスタと、無表情のクラスタとに分類され、各表情のエリアが設定される。図13において、符号Z1で示すエリアは、クラスタリングされた笑いの表情のエリアである。符号Z2で示すエリアは、クラスタリングされた怒りの表情のエリアである。符号Z3で示すエリアは、クラスタリングされた無表情のエリアである。
このように、第1判別モデルを用いて顔を検出する際に、判別できる顔の属性の種類を増やすことにより、複数の属性の顔の検出が可能になる。本例では、各表情について、複数の向きの顔の検出が可能になる。
[第2判別モデルによる顔の検出についての変形例]
上記実施の形態では、第2判別モデルにおいて、検出した顔の表情が対応する種類の表情か否かを判別する構成としている。第2判別モデルで判別する表情は、これに限定されるものではない。たとえば、対応する種類の属性の範囲内で更に詳細に種類を分類して顔の属性を判別する構成としてもよい。たとえば、顔の属性として、顔の表情を判別する場合において、対応する種類の表情を更に詳細に分類して判別する構成とすることができる。この場合、たとえば、笑いの表情に対応した第2判別モデルは、笑いの表情を「大笑い」、「中笑い」、「小笑い」等に分類して判別する。これにより、更に詳細な表情の検出が可能になる。
[クラスタリングについての変形例]
上記実施の形態では、各クラスタに属する顔を包含する矩形の枠を設定して、各クラスタのエリアを設定している。各クラスタのエリアを設定する方法は、これに限定されるものではない。
図14は、エリアの設定の他の一例を示す図である。
同図に示す例では、各クラスタに属する顔について、最も外側に位置する顔に外接する多角形の枠を設定し、その枠内のエリアを各クラスタのエリアとしている。なお、同図において、符号Z1で示すエリアは、笑いの表情のエリアである。符号Z2で示すエリアは、怒りの表情のエリアである。符号Z3で示すエリアは、無表情のエリアである。
この他、各クラスタに属する顔について、最も外側に位置する顔を直線で結んで多角形の枠を設定し、その枠内のエリアを各クラスタのエリアとすることもできる。
[処理対象の画像データについて]
処理対象とする画像データは、動画の画像データであってもよいし、静止画の画像データであってもよい。動画の画像データについては、フレーム単位で処理される。この場合、必ずしも全フレームを対象に処理する必要はない。あらかじめ定められたフレームの間隔で処理する構成とすることもできる。
[第2の実施の形態]
上記のように、コンサート、演劇、スポーツ等のイベントでは、来場者の感情を計測し、収集することにより、さまざまな情報の分析が可能になる。
本実施の形態では、コンサート、演劇、スポーツ等のイベントにおいて、来場者の感情を計測するシステム(感情計測システム)について説明する。
[システム構成]
図15は、感情計測システムの概略構成を示す図である。
本実施の形態の感情計測システム100は、ショーが行われるイベント会場で会場内の観客(来場者)の感情を計測し、収集するシステムとして構成される。観客の感情は、観客を撮影した画像に基づいて計測される。
同図に示すように、本実施の形態の感情計測システム100は、会場内の観客を撮影する撮影装置110と、撮影装置110で撮影された画像データを処理する画像データ処理装置120と、を備える。本実施の形態の感情計測システム100は、画像データ処理システムの一例である。
イベント会場101は、パフォーマー102がショーを披露するステージ103と、観客Pがショーを観覧する観覧エリアVと、を有する。観覧エリアVには、座席104が規則的に配置される。観客Pは、座席104に座ってショーを観覧する。各座席104の位置は固定である。
[撮影装置]
撮影装置110は、動画の撮影機能を備えたデジタルカメラで構成される。本実施の形態では、1台の撮影装置110によって、観覧エリアVの全体を撮影する。したがって、撮影装置110は、観覧エリアVの全体を撮影できるデジタルカメラで構成される。観覧エリアVの全体を撮影できるとは、観覧エリアVの全体を画角内に収めることができ、かつ、撮影された画像から観覧エリアVにいる各観客の顔の表情を判別できる画質(解像度)で撮影できることを意味する。撮影装置110は、一定位置(定点)から観覧エリアVを撮影する。
[画像データ処理装置]
画像データ処理装置120は、撮影装置110から出力される画像データを入力して処理することにより、会場内の各観客の感情を計測し、かつ、記録する。感情は、顔の表情から判別する。したがって、本実施の形態のシステムにおいて、顔の表情を判別することは、感情を判別することを意味する。本実施の形態では、「笑い」、「怒り」及び「無表情」の3種類の表情が判別される。この場合、「笑い」の表情は、喜び又は楽しみの感情に対応する。また、「怒り」の表情は怒りの感情に対応する。また、「無表情」は、特定の感情にない状態に対応する。検出した各顔の表情(感情)は、マップデータを生成して記録する。
また、画像データ処理装置120は、ユーザからの指示に応じて、各位置の観客の状態又は属性を表すヒートマップを生成する。生成されたヒートマップは、ユーザからの指示に応じて、ディスプレイに表示される。また、ユーザからの指示に応じて、外部機器に出力される。
画像データ処理装置120のハードウェア構成は、上述した第1の実施の形態の画像データ処理装置10と実質的に同じである。すなわち、CPU、ROM、RAM、補助記憶装置、操作部、ディスプレイ及び入出力インターフェース及び通信インターフェース等を備えたコンピュータで構成される(図1参照)。
撮影装置110で撮影された画像データは、入出力インターフェース又は通信インターフェースを介して、画像データ処理装置120に入力される。
図16は、画像データ処理装置が実現する機能のブロック図である。
同図に示すように、画像データ処理装置120は、主として、顔検出部130、マップデータ生成部140、ヒートマップ生成部150、表示制御部160及び出力制御部170等の機能を有する。各部の機能は、CPUが所定のプログラムを実行することにより実現される。CPUが実行するプログラムは、ROM又は補助記憶装置等に格納される。
顔検出部130は、処理対象の画像データが表す画像から顔を検出し、検出した顔の表情を判別して出力する。顔検出部130が有する機能は、上述した第1の実施の形態の画像データ処理装置10が有する機能と実質的に同じである。すなわち、顔検出部は、画像データ取得部、第1判別部、クラスタリング部、第2判別モデル選択部、エリア抽出部、第2判別部及び検出結果出力部の機能を有する。各部の機能は、上述した第1の実施の形態の画像データ処理装置10と同じである。従って、その詳細についての説明は省略する。
処理対象の画像データは、撮影装置110から出力される画像データである。撮影装置110から出力される画像データは、動画の画像データである。顔検出部130は、フレーム単位で画像データを処理し、画像から顔を検出する。顔は、画像内での位置が特定されて検出される。したがって、顔検出部130からは、検出された顔の位置及び表情の情報がフレーム単位で出力される。なお、検出は、必ずしもすべてのフレームで実施する必要はなく、あらかじめ定めたフレーム間隔で実施することもできる。
マップデータ生成部140は、マップデータを生成する処理(マップデータ生成処理)を行う。マップデータ生成部140は、顔検出部130で検出された各顔の位置及び表情の情報に基づいて、マップデータを生成する。マップデータは、顔検出部130で検出された各顔を、画像内での位置の情報と、判別された表情の情報とを関連付けて記録することにより生成される。マップデータは、顔の検出と同様にフレーム単位で生成される。生成されたマップデータは、生成元の画像データに関連付けられて、データベース(database)200に記録される。データベース200は、たとえば、補助記憶装置に格納される。
ヒートマップ生成部150は、ヒートマップを生成する処理(ヒートマップ生成処理)を行う。ヒートマップ生成部150は、マップデータに基づいて、各観客の状態又は属性を表すヒートマップを生成する。ヒートマップは、各位置の観客の状態又は属性を色又は色の濃淡で表現した画像である。本実施の形態では、各位置の観客の感情(表情)の状態を色又は色の濃淡で表現した画像がヒートマップとして作成される。
図17は、ヒートマップの一例を示す図である。
同図は、イベント会場の座席図を利用してヒートマップを生成している。座席図は、イベント会場における座席の配置を平面展開して示した図である。座席の位置は各観客の位置に対応する。座席図における各座席の位置は、マップデータ上での各観客の座標位置に一対一で対応させることができる。したがって、各座席の位置に、その座席に座る観客の感情(表情)に対応した色又は色の濃度のドットを表示することにより、各観客の感情(表情)の状態を表したヒートマップできる。図17に示す例では、「笑い」、「怒り」、「無表情」、「不定」の各表情に対し、個別に色(図面上では濃度)を割り当て、各座席の観客の感情(表情)の状態を表現している。なお、「不定」とは、特定の表情を判別できなかった観客、及び、顔を検出できなかった観客を表している。
ヒートマップ生成部150で生成されたヒートマップのデータは、生成元のデータに関連付けられて、データベース200に記録される。
表示制御部160は、操作部を介して入力されたユーザからの表示の指示に応じて、マップデータ生成部140で生成されたデータをディスプレイに表示させる処理(表示制御処理)を実行する。また、ヒートマップ生成部150で生成されたヒートマップをディスプレイに表示する。
出力制御部170は、操作部を介して入力されたユーザからの出力の指示に応じて、マップデータ生成部140で生成されたデータを外部機器に出力する処理(出力制御処理)を実行する。また、ヒートマップ生成部150で生成されたヒートマップのデータを外部機器に出力する処理(出力制御処理)を実行する。
[作用]
以上のように構成される本実施の形態の感情計測システムでは、次のように観客の感情が計測される。
まず、撮影装置110によって観覧エリアVが撮影される。撮影は、イベント開催中の全期間を通じて実施される。すなわち、動画として、イベントの開始から終了まで継続して撮影される。
撮影装置110で撮影された画像データは、画像データ処理装置120に取り込まれる。画像データの取り込みはリアルタイムに行ってもよいし、撮影が終了したものをまとめて取り込んでもよい。
画像データ処理装置120は、入力された画像データをフレーム単位で処理して、各フレームの画像から観客の顔を検出する。顔は、画像内での位置及び表情が特定されて検出される。顔の検出処理の内容については、上記第1の実施の形態の画像データ処理装置10での処理の内容と同じである。したがって、その詳細についての説明は省略する。
画像データ処理装置120は、顔の検出結果に基づき、フレーム単位でマップデータを生成し、生成したマップデータをデータベース200に記録する。
対象とするすべてのフレームを処理することにより、イベント開催中の全時間を通じた全観客の感情の計測が完了する。
画像データ処理装置120は、ユーザからの指示応じて、生成されたデータからヒートマップを生成する。また、画像データ処理装置120は、ユーザからの指示に応じて、生成されたヒートマップをディスプレイ16に表示する。また、画像データ処理装置120は、ユーザからの指示に応じて、生成されたヒートマップを外部機器に出力する。
以上説明したように、本実施の形態の感情計測システム100によれば、イベント開催中の全時間を通じて、全観客の感情を計測し、かつ、記録できる。
[変形例]
[撮影についての変形例]
上記実施の形態では、1台の撮影装置で全観覧エリアを撮影する構成としているが、複数台の撮影装置を使用し、対象とするエリアを分割して撮影することもできる。この場合、各撮影装置で撮影された画像を合成して1枚の画像を生成し、その1枚の画像から顔を検出する構成としてもよい。また、各撮影装置で撮影された画像から個別に顔を検出する構成としてもよい。各撮影装置で撮影された画像から個別に顔を検出する場合は、検出結果を統合ないし合成して、全体の処理結果を取得する。
[マップデータについての変形例]
マップデータは、画像内から検出された各顔を、画像内での位置の情報と、判別した属性の情報とを関連付けて記録することにより生成される。したがって、表情に代えて、又は、表情に加えて、年齢、性別等が判別される場合には、判別したこれらの情報等も関連付けて記録される。
[ヒートマップについての変形例]
ヒートマップについては、マップデータに記録された情報に基づいて、各種形態のものを生成できる。たとえば、マップデータに各観客の属性の情報として、表情の情報に加えて年齢の情報及び/又は性別の情報が記録されているとする。この場合、年齢及び/又は性別の情報を表示したヒートマップを生成することもできる。年齢のヒートマップは、たとえば、各観客の位置にドットを表示し、そのドットの色を年齢又は年代に応じた色で表示する。また、性別のヒートマップは、たとえば、各観客の位置にドットを表示し、そのドットの色を性別に応じた色で表示する。年齢及び性別のヒートマップは、たとえば、各観客の位置にドットを表示し、そのドットの色を年齢及び性別に応じた色で表示する。
また、ヒートマップは、マップデータに記録された情報をそのまま可視化したものを生成するのではなく、マップデータに記録された情報から推定した情報を可視化する構成とすることもできる。たとえば、マップデータに記録された各観客の表情の情報から各観客の盛り上がり状態を推定し、推定した盛り上がり状態のヒートマップを生成することもできる。この場合、推定処理等はCPUが実行する。盛り上がり状態は、たとえば、表情に応じた点数を付与して数値化する。
また、上記実施の形態では、イベント会場の座席図を利用してヒートマップを生成しているが、ヒートマップの形態は、これに限定されるもではない。図18は、ヒートマップの他の一例を示す図である。同図に示す例では、画像内で検出された顔の位置にドットを表示し、そのドットの色を感情に応じた色で表示してヒートマップを生成している。各ドットは、画像から検出された顔のサイズに応じたサイズで表示される。たとえば、バウンディングボックスに内接する円で表示される。図19は、ヒートマップの他の一例を示す図である。同図に示す例では、画像上にドットを表示して、ヒートマップを生成している。各ドットは、画像から検出された顔の位置に重ねて表示され、かつ、表情(感情)に応じた色で表示される。
[第3の実施の形態]
人の集団が形成されている場合、集団内は同じ感情を共有していることが多い。一方、複数の集団が形成されている場合、各集団での支配的な感情は集団ごとに異なる場合も多い。したがって、複数の集団が形成されている場合は、集団ごとにクラスタリングの処理を行うことで、より効率よく顔を検出できると考えられる。
本実施の形態では、複数の集団が形成されている場合において、集団ごとにクラスタリングの処理を実行して、顔を検出する場合について説明する。なお、画像データ処理装置の基本構成は、上述した第1の実施の形態の画像データ処理装置と同じである。したがって、ここでは、相違する処理機能についてのみ説明する。
図20は、顔検出の処理の概念図である。
同図は、イベント会場101の平面図を表している。同図に示すイベント会場101は、座席104が、通路105によって6つのブロック(第1ブロックBL1~第6ブロックBL6)に分割されている。この場合、各ブロック単位で個別にクラスタリングの処理が実行される。すなわち、第1ブロックBL1では、第1ブロックBL1内で検出された顔のエリアがクラスタリングされる。他のブロックも同様にブロック内で検出された顔のエリアがクラスタリングされる。各ブロックを構成するエリアは、処理対象エリアの一例である。
図21は、撮影される画像の一例を示す概念図である。
撮影装置が一定位置から会場内を撮影する場合、撮影される画像Im内で各ブロックBL1~BL6が占める領域は一意に定まる。したがって、画像Im内での各ブロックBL1~BL6の位置、大きさ及び形状を事前に求めることができる。
クラスタリング部は、事前に求めた各ブロックBL1~BL6のエリアの情報(位置、大きさ及び形状)に基づいて、ブロックごとにクラスタリングの処理を行う。
図22は、1つのブロックでのクラスタリングの一例を示す概念図である。同図は、第2ブロックBL2でのクラスタリングの一例を示している。
同図に示すように、ブロック内で検出された顔を対象にクラスタリングが行われる。なお、同図は、第1判別部において、「笑い」、「怒り」及び「無表情」の3つの表情を判別して顔を検出する場合の例を示している。また、同図は、第2判別モデルとして、「笑い」、「怒り」及び「無表情」の各表情に対応した判別モデルが用意されている場合の例を示している。この場合、「笑い」、「怒り」及び「無表情」の各表情に対応して3つのエリアにクラスタリングされる。図22において、符号Z1で示すエリアは、笑いの表情のエリアである。符号Z3で示すエリアは、無表情のエリアである。なお、図22に示す例では、「怒り」の表情が検出されなかったことから、笑いの表情のエリアと、無表情のエリアとにクラスタリングされている。
このように、集団を形成するブロック内でクラスタリングの処理を実行する。
図23は、顔の検出動作の処理手順を示すフローチャートである。
まず、処理対象とする画像データが取得される(ステップS21)。画像データは、入出力インターフェース17又は通信インターフェース18を介して画像データ処理装置10に入力される。
次に、取得した画像データに対し、第1判別モデルを用いて顔を検出する処理が行われる(ステップS22)。顔は、画像データが表す画像全体から検出される。
次に、各ブロックにおいて、ブロック内で顔が検出されたエリアがクラスタリングされる(ステップS23)。クラスタリングは、第2判別モデルの種類に応じて行われる。クラスタリングにより、ブロックごとに各表情のエリアが設定される。本実施の形態では、笑いの表情のエリア、怒りの表情のエリア、及び、無表情のエリアがブロックごとに設定される。
次に、各ブロックにおいて、クラスタリングされた各エリアに適用する第2判別モデルが選択される(ステップS24)。
次に、各ブロックにおいて、各エリアに適用された第2判別モデルを用いて、各エリアの画像から顔を検出する処理が行われる(ステップS25)。本処理によって、各ブロックの各エリアから顔が検出される。各ブロックにおいて各エリアから検出された顔の情報は、ブロックごとに統合される。これにより、ブロックごとに顔が検出される。ブロックごとに検出された顔の情報が、更に統合されることにより、画像全体の顔の検出結果として出力される(ステップS26)。
以上説明したように、本実施の形態の画像データ処理装置では、ブロックごとにクラスタリングの処理が行われる。すなわち、集団ごとにクラスタリングされる。これにより、集団の感情の関連性を利用して、より効率よく顔を検出できる。
[変形例]
[処理対象エリアの設定についての変形例1]
画像内での処理対象エリアについては、ユーザが手動で設定する構成とすることもできる。たとえば、撮影装置で撮影される画像に重ねて枠を表示し、その枠で画像内での処理対象エリアを設定する構成とすることができる。これにより、たとえば、スポーツイベントなどにおいて、同一画像内に応援チームが異なる観客の集団が含まれている場合に、適切に処理対象エリアを分けることができる。
[処理対象エリアの設定についての変形例2]
画像内で人が存在するエリアを自動的に抽出し、抽出したエリアを処理対象エリアに設定して、処理対象エリアごとにクラスタリングの処理を行う構成とすることもできる。たとえば、上記実施の形態の例では、各ブロックBL1~BL6のエリアを撮影画像から自動的に抽出し、処理する構成とすることができる。
図24は、処理対象エリアを自動抽出する機能を備えた画像データ処理装置の主な機能のブロック図である。
同図に示すように、画像データ処理装置10は、更に、処理対象エリア抽出部28の機能を有する。
処理対象エリア抽出部28は、画像データ取得部21で取得した画像データを処理し、画像データが表す画像から人物が存在するエリア(処理対象エリア)を自動抽出する処理(抽出処理)を実行する。
図25は、処理対象エリアの抽出の概念図である。
同図に示すように、処理対象エリア抽出部28は、画像から直線を構成する領域(同図において斜線で示す領域)を抽出し、その直線で区切られた領域を処理対象エリアとして抽出する。すなわち、直線を構成する領域は、通路105の領域であり、その通路105で区切られた領域を処理対象エリアとして抽出する。この処理は、公知の画像認識の技術を利用して実行できる。
クラスタリング部23は、画像内から抽出された処理対象エリアごとにクラスタリングの処理を実行する。
[その他の実施の形態]
画像データ処理装置において、各種処理を実行する処理部(processing unit)のハードウェア的な構造は、各種のプロセッサ(processor)で実現される。各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるCPU及び/又はGPU(Graphic Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device,PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。プログラムは、ソフトウェアと同義である。
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサで構成されてもよい。たとえば、1つの処理部は、複数のFPGA、或いは、CPUとFPGAの組み合わせによって構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどに用いられるコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System on Chip,SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
10 画像データ処理装置
11 CPU
12 RAM
13 ROM
14 補助記憶装置
15 操作部
16 ディスプレイ
17 入出力インターフェース
18 通信インターフェース
21 画像データ取得部
22 第1判別部
23 クラスタリング部
24 第2判別モデル選択部
25 エリア抽出部
26 第2判別部
26a1 第1検出部
26a2 第2検出部
26a3 第3検出部
26b 検出結果統合部
27 検出結果出力部
28 処理対象エリア抽出部
100 感情計測システム
101 イベント会場
102 パフォーマー
103 ステージ
104 座席
105 通路
110 撮影装置
120 画像データ処理装置
130 顔検出部
140 マップデータ生成部
150 ヒートマップ生成部
160 表示制御部
170 出力制御部
200 データベース
BB バウンディングボックス
Im 画像
Im1 抽出画像
L ラベル
P 観客
V 観覧エリア
BL1~BL6 ブロック
Z1 クラスタリングされた笑いの表情のエリア
Z2 クラスタリングされた怒りの表情のエリア
Z3 クラスタリングされた無表情のエリア
S1~S6 顔の検出動作の処理手順
S11~S19 顔の検出動作の処理手順
S21~S26 顔の検出動作の処理手順

Claims (18)

  1. 画像データを処理する画像データ処理装置であって、
    メモリと、
    プロセッサと、
    を備え、
    前記プロセッサは、
    第1判別モデルを用いて前記画像データが表す画像から人物の顔を検出し、かつ、検出した顔の属性を判別する第1判別処理と、
    前記画像データが表す画像内で顔が検出されたエリアを顔の属性の種類に応じてクラスタリングするクラスタリング処理と、
    クラスタリングされたエリアの顔の属性の種類の情報に基づいて、前記エリアに適用する第2判別モデルを選択する選択処理と、
    前記エリアに適用された前記第2判別モデルを用いて前記エリアの画像から人物の顔を検出し、かつ、検出した顔の属性を判別する第2判別処理と、
    を実行する、
    画像データ処理装置。
  2. 前記第2判別モデルが、複数の顔の属性の種類別に用意され、
    前記クラスタリング処理では、前記第2判別モデルが用意された顔の属性の種類に応じてクラスタリングする、
    請求項1に記載の画像データ処理装置。
  3. 前記第2判別モデルが、前記第1判別モデルで判別される顔の属性の種類に応じて用意される、
    請求項2に記載の画像データ処理装置。
  4. 前記第2判別モデルは、対応する種類の属性の顔を前記第1判別モデルよりも高い精度で検出する、
    請求項2又は3に記載の画像データ処理装置。
  5. 前記第2判別モデルは、対応する種類の属性の範囲内で更に詳細に種類を分類して顔の属性を判別する、
    請求項1から4のいずれか1項に記載の画像データ処理装置。
  6. 前記第2判別モデルは、対応する種類の属性の顔か否かを分類して顔の属性を判別する、
    請求項1から4のいずれか1項に記載の画像データ処理装置。
  7. 前記プロセッサは、前記第1判別処理、前記クラスタリング処理、前記選択処理、前記第2判別処理の順で処理を1回ずつ実行する、
    請求項1から6のいずれか1項に記載の画像データ処理装置。
  8. 前記プロセッサは、前記第1判別処理、前記クラスタリング処理、前記選択処理、前記第2判別処理の順で処理を1回ずつ実行した後、前記第2判別処理の結果に基づいて、前記クラスタリング処理と、前記選択処理と、前記第2判別処理と、を繰り返し実行する、
    請求項1から6のいずれか1項に記載の画像データ処理装置。
  9. 前記第1判別モデル及び前記第2判別モデルは、顔の属性として、少なくとも表情を判別する、
    請求項1から8のいずれか1項に記載の画像データ処理装置。
  10. 前記第1判別モデル及び/又は前記第2判別モデルは、顔の属性として、更に顔の向きを判別する、
    請求項9に記載の画像データ処理装置。
  11. 前記プロセッサは、
    前記画像データが表す画像から人物が存在するエリアを処理対象エリアとして抽出する抽出処理を更に実行し、
    抽出された前記処理対象エリアに、前記クラスタリング処理と、前記選択処理と、前記第2判別処理と、を実行する、
    請求項1から10のいずれか1項に記載の画像データ処理装置。
  12. 前記抽出処理では、前記画像から通路を検出し、通路で区切られたエリアを前記処理対象エリアとして抽出する、
    請求項11に記載の画像データ処理装置。
  13. 前記プロセッサは、
    前記画像データが表す画像内から検出した顔を、画像内での位置と属性とを関連付けて記録したマップデータを生成するマップデータ生成処理を更に実行する、
    請求項1から12のいずれか1項に記載の画像データ処理装置。
  14. 前記プロセッサは、
    前記マップデータに基づいてヒートマップを生成するヒートマップ生成処理と、
    を更に実行する、
    請求項13に記載の画像データ処理装置。
  15. 前記プロセッサは、生成した前記ヒートマップをディスプレイに表示させる表示制御処理を更に実行する、
    請求項14に記載の画像データ処理装置。
  16. 前記プロセッサは、生成した前記ヒートマップを外部に出力する出力制御処理を更に実行する、
    請求項14又は15に記載の画像データ処理装置。
  17. 前記メモリには、
    前記第1判別モデルと、
    前記第2判別モデルと、
    が記憶される、
    請求項1から16のいずれか1項に記載の画像データ処理装置。
  18. 撮影装置と、
    前記撮影装置で撮影された画像データを入力して処理する請求項1から17のいずれか1項に記載の画像データ処理装置と、
    を備えた画像データ処理システム。
JP2022533943A 2020-07-01 2021-06-25 画像データ処理装置及びシステム Active JP7436668B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020114005 2020-07-01
JP2020114005 2020-07-01
PCT/JP2021/024052 WO2022004569A1 (ja) 2020-07-01 2021-06-25 画像データ処理装置及びシステム

Publications (3)

Publication Number Publication Date
JPWO2022004569A1 JPWO2022004569A1 (ja) 2022-01-06
JPWO2022004569A5 JPWO2022004569A5 (ja) 2023-03-20
JP7436668B2 true JP7436668B2 (ja) 2024-02-21

Family

ID=79316027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022533943A Active JP7436668B2 (ja) 2020-07-01 2021-06-25 画像データ処理装置及びシステム

Country Status (4)

Country Link
US (1) US20230094896A1 (ja)
JP (1) JP7436668B2 (ja)
CN (1) CN115943424A (ja)
WO (1) WO2022004569A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100207874A1 (en) 2007-10-30 2010-08-19 Hewlett-Packard Development Company, L.P. Interactive Display System With Collaborative Gesture Detection
JP2013117933A (ja) 2011-12-05 2013-06-13 Canon Inc 画像処理装置、画像処理方法
JP2017188715A (ja) 2016-04-01 2017-10-12 富士通フロンテック株式会社 映像表示システム及び映像表示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100207874A1 (en) 2007-10-30 2010-08-19 Hewlett-Packard Development Company, L.P. Interactive Display System With Collaborative Gesture Detection
JP2013117933A (ja) 2011-12-05 2013-06-13 Canon Inc 画像処理装置、画像処理方法
JP2017188715A (ja) 2016-04-01 2017-10-12 富士通フロンテック株式会社 映像表示システム及び映像表示方法

Also Published As

Publication number Publication date
US20230094896A1 (en) 2023-03-30
CN115943424A (zh) 2023-04-07
JPWO2022004569A1 (ja) 2022-01-06
WO2022004569A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
Abd El Meguid et al. Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
US10679041B2 (en) Hybrid deep learning method for recognizing facial expressions
CN109508671A (zh) 一种基于弱监督学习的视频异常事件检测系统及其方法
KR101807979B1 (ko) 이미지 합성물 생성
CN114667540A (zh) 物品识别及追踪系统
Fan et al. Image visual realism: From human perception to machine computation
CN109887095A (zh) 一种情绪刺激虚拟现实场景自动生成系统及方法
Gupta et al. CrowdVAS-Net: A deep-CNN based framework to detect abnormal crowd-motion behavior in videos for predicting crowd disaster
US20210256707A1 (en) Learning to Segment via Cut-and-Paste
US11783192B2 (en) Hybrid deep learning method for recognizing facial expressions
CN111209897A (zh) 视频处理的方法、装置和存储介质
CN113159200B (zh) 对象分析方法、装置及存储介质
JP2007104091A (ja) 画像選出装置、プログラムおよび方法
Bushra et al. Crime investigation using DCGAN by Forensic Sketch-to-Face Transformation (STF)-A review
CN110543813B (zh) 一种基于场景的人脸画像、目光计数方法及系统
JP7436668B2 (ja) 画像データ処理装置及びシステム
US10198791B2 (en) Automatic correction of facial sentiment of portrait images
CN111062284A (zh) 一种交互式视频摘要模型的可视理解与诊断方法
Prajapati et al. Mri-gan: A generalized approach to detect deepfakes using perceptual image assessment
US20220189200A1 (en) Information processing system and information processing method
Kandemir et al. Beyond saliency: Assessing visual balance with high-level cues
Sahib et al. Deep fake Image Detection based on Modified minimized Xception Net and DenseNet
Montenegro et al. Space carving with a hand-held camera
Akhouri et al. Auto-Encoders for Crowd Density Estimation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240208

R150 Certificate of patent or registration of utility model

Ref document number: 7436668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150