JP7105380B2

JP7105380B2 - 情報処理システム及び方法

Info

Publication number: JP7105380B2
Application number: JP2021551172A
Authority: JP
Inventors: 大輔林; 研司牧野; 昌弘寺田; 俊太江郷
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2019-09-30
Filing date: 2020-09-25
Publication date: 2022-07-22
Anticipated expiration: 2040-09-25
Also published as: CN114450730A; US20220189200A1; JPWO2021065694A1; WO2021065694A1; US12087090B2

Description

本発明は、情報処理システム及び方法に関する。

特許文献１には、コンサート等の動画をリアルタイムで配信するサービスにおいて、動画を視聴しているユーザーの盛り上がり度をヒートマップにより可視化して、会場の演者等に提示する技術が記載されている。

特許文献２には、音声及び／又は映像として記録された会議データから会議の盛り上がり度を算出する技術が記載されている。

国際公開第２０１６／００９８６５号特開２０１６－１２２１６号公報

本開示の技術に係る１つの実施形態は、規定のエリア内の人物の状況を容易に把握できる情報処理システム及び方法を提供する。

（１）パフォーマーを撮影する第１撮影部と、規定のエリア内の人物を撮影する第２撮影部と、第１撮影部で撮影された画像に基づいて、シーンを認識する第１認識部と、第２撮影部で撮影された画像に基づいて、人物の表情を認識する第２認識部と、シーンの認識結果及び人物の表情の認識結果に基づいて、シーンに応じた人物の状況指数を算出する算出部と、人物の状況指数をエリア内での人物の位置に対応づけて表わしたヒートマップを作成するヒートマップ作成部と、ヒートマップを出力する出力部と、を備えた情報処理システム。

（２）パフォーマーが有する発信力に基づいて、クラスタ数を設定する設定部と、設定されたクラスタ数に応じて、ヒートマップをクラスタリングするクラスタリング部と、を更に備え、出力部は、クラスタリングされたヒートマップを出力する、（１）の情報処理システム。

（３）クラスタリング部は、状況指数が閾値以上の人物のデータを対象にヒートマップをクラスタリングする、（２）の情報処理システム。

（４）第１撮影部で撮影された画像に基づいて、パフォーマーが有する発信力を推定する推定部を更に備えた、（２）又は（３）の情報処理システム。

（５）発信力には、パフォーマーが有する技量及び余力の少なくとも一方が含まれる、（２）から（４）のいずれか一の情報処理システム。

（６）ヒートマップの画像を第２撮影部とは異なる視点の画像に変換する変換処理部を更に備えた、（１）から（５）のいずれか一の情報処理システム。

（７）ヒートマップの色又は濃淡を反転させる反転処理部を更に備えた、（１）から（６）のいずれか一の情報処理システム。

（８）出力部から出力されたヒートマップを表示する表示部を更に備えた、（１）から（７）のいずれか一の情報処理システム。

（９）出力部から出力されたヒートマップをエリアに投影する投影部を更に備えた、（１）から（７）のいずれか一の情報処理システム。

（１０）投影部は、プロジェクションマッピングによりヒートマップをエリアに投影する、（９）の情報処理システム。

（１１）パフォーマーを撮影するステップと、規定のエリア内の人物を撮影するステップと、パフォーマーを撮影した画像に基づいて、シーンを認識するステップと、エリア内の人物を撮影した画像に基づいて、人物の表情を認識するステップと、シーンの認識結果及び人物の表情の認識結果に基づいて、シーンに応じた人物の状況指数を算出するステップと、人物の状況指数をエリア内での人物の位置に対応づけて表わしたヒートマップを作成するステップと、ヒートマップを出力するステップと、を含む情報処理方法。

（１２）パフォーマーが有する発信力の情報に基づいて、クラスタ数を設定するステップと、設定されたクラスタ数に応じて、ヒートマップをクラスタリングするステップと、を更に含み、ヒートマップを出力するステップでは、クラスタリングされたヒートマップを出力する、（１１）の情報処理方法。

情報処理システムの概略構成を示す図情報処理装置のハードウェア構成の一例を示すブロック図情報処理装置が実現する機能のブロック図顔検出部による顔の検出の概念図表情認識部による顔の表情の認識の概念図表情認識の結果の一例を示す図盛り上がり度とヒートマップ上での表示との関係を示す図観客撮影装置によって撮影される画像の一例を示す図作成されるヒートマップの一例を示す図ヒートマップと観客との位置関係を示す図情報処理の手順を示すフローチャート情報処理装置が実現する機能のブロック図クラスタリング処理の概念図クラスタリング処理の概念図クラスタリング処理の概念図情報処理の手順を示すフローチャートクラスタリング処理によるヒートマップの変化の概念図情報処理装置が実現する機能のブロック図情報処理装置が実現する機能のブロック図情報処理装置が実現する機能のブロック図ヒートマップの画像の変換の一例を示す図情報処理装置が実現する機能のブロック図ヒートマップの画像の反転処理の一例を示す図情報処理システムの概略構成を示す図

以下、添付図面に従って本発明の好ましい実施の形態について詳説する。

［第１の実施の形態］
大人数の観客を相手にパフォーマンスを行うパフォーマーは、観客の状況を確認しながら、自身が行うパフォーマンスの内容をコントロールする。パフォーマーの観客の状況を把握する能力は、経験に拠るところが大きい。また、経験豊富なパフォーマーであっても、観客の数が増えすぎると、全体を的確に把握することが困難になる。本実施の形態では、観客の状況を容易に把握できる情報処理システム及び方法を提供する。

［システム構成］
図１は、本実施の形態の情報処理システムの概略構成を示す図である。

同図に示すように、本実施の形態の情報処理システム１０は、パフォーマー撮影装置１００、観客撮影装置２００、情報処理装置３００及び表示装置４００等を備えて構成される。

［パフォーマー撮影装置］
パフォーマー撮影装置１００は、パフォーマー１を撮影する。パフォーマー１とは、パフォーマンスをする人物である。なお、ここでのパフォーマンスには、歌唱、演技及び演奏等の芸術的な表現行為に限定されず、広く演説及び講演等の行為も含まれる。すなわち、観客に対して、何らかの表現行為を行うことを意味する。

パフォーマー撮影装置１００は、第１撮影部の一例である。パフォーマー撮影装置１００は、少なくとも１台のカメラで構成される。カメラは、いわゆるビデオカメラ（動画撮影機能（時系列の画像を撮像する機能）を備えたデジタルスチルカメラ等を含む）で構成され、あらかじめ定められたフレームレートでパフォーマーを連続的に撮影する。

パフォーマー撮影装置１００で撮影された画像は、シーンを認識するのに使用される。すなわち、パフォーマー１が行っているパフォーマンスが、どのようなものか、シーン認識するのに使用される。したがって、パフォーマー撮影装置１００は、その用途に適うように構成され、かつ、設置される。シーン認識をするのに必要な画像の要件は、パフォーマンスの内容、規模等に応じて異なる。したがって、パフォーマー撮影装置１００を構成するカメラは、パフォーマンスの内容、規模等に応じて適宜選択され、かつ、最適な位置に設置される。

［観客撮影装置］
観客撮影装置２００は、観客２を撮影する。観客撮影装置２００は、一定位置から観客２の存在する観客エリア３を撮影して、観客を撮影する。観客２は、パフォーマー１によるパフォーマンスを見物（観覧、視聴、聴講等）する人物である。観客２の存在する観客エリア３は、規定のエリアの一例である。観客２は、規定のエリア内の人物の一例である。

観客撮影装置２００は、第２撮影部の一例である。観客撮影装置２００は、少なくとも１台のカメラで構成される。観客エリア３を１台のカメラで撮影できない場合は、複数台のカメラによって、観客撮影装置２００が構成される。この場合、観客エリア３を複数のエリアに分割し、複数台のカメラで各エリアを分担して撮影する。なお、同一エリアを複数台のカメラで撮影する構成とすることもできる。たとえば、同一エリアの観客２を複数台のカメラによって異なる方向から撮影する構成とすることができる。カメラは、いわゆるビデオカメラで構成され、対象とするエリア内の観客２を連続的に撮影する。撮影は、パフォーマー撮影装置１００と同じフレームレートで行われ、かつ、同期して行われる。この場合の同期は、フレーム単位の完全同期を意味するものではない。

観客撮影装置２００で撮影された画像は、観客の表情を認識するのに使用される。したがって、観客撮影装置２００を構成するカメラは、撮影対象とするエリア内の観客２の顔を撮影できる位置に設置され、かつ、撮影した画像から観客の表情を認識できる性能をもって構成される。すなわち、撮影した画像から観客の表情を認識するのに必要かつ十分な解像性能が備えられる。

［情報処理装置］
情報処理装置３００は、パフォーマー撮影装置１００で撮影されたパフォーマーの画像及び観客撮影装置２００で撮影された観客の画像を入力し、観客２の盛り上がり状況を表わすヒートマップを作成して、表示装置４００に出力する。

図２は、情報処理装置のハードウェア構成の一例を示すブロック図である。

情報処理装置３００は、ＣＰＵ（Central Processing Unit）３０１、ＲＯＭ（Read Only Memory）３０２、ＲＡＭ（Random Access Memory）３０３、ＨＤＤ（Hard Disk Drive）３０４、操作部（たとえば、キーボード、マウス、タッチパネル等）３０５、表示部（たとえば、液晶ディスプレイ等）３０６、入力インターフェース（interface，I/F）３０７及び出力インターフェース３０８等を備えたコンピュータで構成される。パフォーマー撮影装置１００で撮影されたパフォーマーの画像データ及び観客撮影装置２００で撮影された観客の画像データは、入力インターフェース３０７を介して、情報処理装置３００に入力される。情報処理装置３００で作成されたヒートマップは、出力インターフェース３０８を介して、表示装置４００に出力される。

図３は、情報処理装置が実現する機能のブロック図である。

同図に示すように、情報処理装置３００は、第１画像入力部３１１、第２画像入力部３１２、シーン認識部３１３、顔検出部３１４、表情認識部３１５、盛り上がり度算出部３１６、ヒートマップ作成部３１７及びヒートマップ出力部３１８の機能を有する。各機能は、プロセッサであるＣＰＵが、所定のプログラムを実行することにより実現される。

第１画像入力部３１１は、パフォーマー撮影装置１００で撮影された画像の入力を受け付ける。パフォーマー撮影装置１００で撮影された画像は、パフォーマー１を撮影した画像である。パフォーマー撮影装置１００で撮影された画像は、入力インターフェース３０７を介して、情報処理装置３００に入力される。

第２画像入力部３１２は、観客撮影装置２００で撮影された画像の入力を受け付ける。観客撮影装置２００で撮影された画像は、観客エリア３を撮影した画像であり、観客２が撮影された画像である。観客撮影装置２００で撮影された画像は、入力インターフェース３０７を介して、情報処理装置３００に入力される。画像の入力は、第１画像入力部３１１と同期して行われる。

シーン認識部３１３は、第１認識部の一例である。シーン認識部３１３は、パフォーマー１を撮影した画像に基づいて、パフォーマー１が行っているパフォーマンスのシーンを認識する。シーン認識部３１３は、あらかじめ定められた類別の範囲内でシーンを認識する。たとえば、観客を笑わせるシーン、シリアスにさせるシーン、興奮させるシーン、そして、怒らせるシーン等、認識可能なシーンがあらかじめ定められ、その定められた範囲内でシーンを認識する。シーンの認識には、公知の技術を採用できる。たとえば、機械学習、深層学習等により生成した画像認識モデルを用いて、シーンを認識する手法を採用できる。シーンの認識は、あらかじめ定められた時間間隔で行われる。たとえば、入力される画像のフレームの時間間隔である。

顔検出部３１４は、観客２を撮影した画像から観客２の顔を検出する。図４は、顔検出部による顔の検出の概念図である。顔検出部３１４は、観客２を撮影した画像Ｉ２から個々の観客２の顔を検出し、かつ、検出した個々の顔の位置を特定する。顔の検出には、公知の技術を採用できる。顔の位置は、画像内での座標位置（ｘ、ｙ）で特定される。具体的には、検出した顔を囲う枠Ｆの場合は、中心の座標位置（ｘ_Ｆ、ｙ_Ｆ）で特定される。画像内での座標位置は、実際の観客の位置に対応する。顔の検出は、たとえば、画像の左上から右下に向かって順に走査することにより行われる。また、検出された顔は、検出順にナンバリングされる。顔の検出は、あらかじめ定められた時間間隔で行われる。たとえば、入力される画像のフレームの時間間隔である。

表情認識部３１５は、第２認識部の一例である。図５は、表情認識部による顔の表情の認識の概念図である。表情認識部３１５は、顔検出部３１４で検出した観客２の顔の画像ＩＦに基づいて、観客２の顔の表情を認識する。表情の認識とは、表情の種類を判別することをいう。表情の種類は、感情を示す語によって表される。したがって、表情の認識とは、表情の種類を、感情を示す語によって特定することをいう。表情の特定は、単一の感情を示す語による特定でもよいし、感情を示す語の組み合わせによる特定でもよい。感情を示す語を組み合わせる場合、各感情を示す語が重み付けされていてもよい。本実施形態では、顔の表情を「笑い」、「怒り」、「悲しみ」の３種類に分類する。表情認識結果としては、各表情それぞれの度合い（表情らしさともいう）を数値化したスコア（表情スコア）が出力される。表情スコアは、たとえば、最大値を１００として出力される。なお、表情スコアは、各表情のそれぞれの度合いの合計が、１００となるように出力してもよい。

表情の認識には、公知の技術を採用できる。たとえば、シーンの認識と同様に、機械学習、深層学習等により生成した画像認識モデルを用いて、表情を認識する手法を採用できる。

図６は、表情認識の結果の一例を示す図である。同図に示すように、表情認識部３１５で表情認識を行うことにより、観客ごとに表情スコアが求まる。なお、各観客の位置は、顔検出部３１４で画像内の座標位置によって特定される。

盛り上がり度算出部３１６は、シーン認識部３１３及び表情認識部３１５の認識結果に基づいて、シーンに応じた各観客の盛り上がり度を算出する。盛り上がり度算出部３１６は、算出部の一例である。盛り上がり度は、各観客の盛り上がりの度合（盛り上がりの程度）を数値で示すものである。盛り上がり度は、状況指数の一例である。盛り上がり度は、あらかじめ定められた演算式を用いて、表情スコアから算出する。演算式Ｆｎは、たとえば、笑いの表情スコアをＳ１、怒りの表情スコアをＳ２、悲しみの表情スコアをＳ３とした場合、Ｆｎ＝ａ×Ｓ１＋ｂ×Ｓ３＋ｃ×Ｓ４で定義される。ａ、ｂ、ｃは、シーンごとに定められる係数（重み）であり、ａは笑いの表情に対する係数、ｂは怒りの表情に対する係数、ｃは悲しみの表情に対する係数である。たとえば、あるシーンについて定められる笑い、怒り、悲しみの各係数ａ、ｂ、ｃが、ａ＝０．９、ｂ＝０．０５、ｃ＝０．０５であるとする。また、ある観客の表情スコアが、笑い：１００、怒り：２０、悲しみ：１０であるとする。この場合、当該シーンにおける、当該観客の盛り上がり度は、上記演算式を用いて、Ｆｎ＝０．９×Ｓ１＋０．０５×Ｓ３＋０．０５×Ｓ４＝０．９×１００＋０．０５×２０＋０．０５×１０＝９１．５となる。また、ある観客の表情スコアが、笑い：３０、怒り：２０、悲しみ：２０であるとする。この場合、当該シーンにおける、当該観客の盛り上がり度は、上記演算式を用いて、Ｆｎ＝０．９×３０＋０．０５×２０＋０．０５×２０＝２９となる。係数ａ、ｂ、ｃの情報は、シーンごとにＲＯＭ３０２、ＲＡＭ３０３又はＨＤＤ３０４に記憶される。

ヒートマップ作成部３１７は、盛り上がり度算出部３１６で算出された各観客の盛り上がり度の情報に基づいて、ヒートマップを作成する。ヒートマップは、各観客の盛り上がり度を各観客の位置に対応付けて表わすことにより作成される。盛り上がり度は、色又は濃淡で表わされる。

図７は、盛り上がり度とヒートマップ上での表示との関係を示す図である。同図は、盛り上がり度を濃淡で表現する場合の例を示している。算出可能な範囲内で、盛り上がり度が複数の区分に区分けされる。区分けされた区分ごとに表示する濃度が定められる。同図は、盛り上がり度が１から１００の数値で算出される場合の例を示しており、かつ、１０区分に分けて表示する場合の例を示している。また、盛り上がり度が高くなるに従って表示される濃度が高くなる場合の例を示している。

ここで、ヒートマップ作成部３１７で作成されるヒートマップの一例について説明する。ここでは、あるパフォーマーが、あるイベント会場で多数の観客を前にして、パフォーマンスを行っている場合を考える。たとえば、一人の歌手が、コンサート会場で歌を披露している場合である。

図８は、観客撮影装置によって撮影される画像の一例を示す図である。

同図において、符号２は観客、符号３は観客エリアである。観客２は、観客エリア３に備えられた観客席で、パフォーマーが行うパフォーマンスを観賞する。

図９は、作成されるヒートマップの一例を示す図である。また、図１０は、ヒートマップと観客との位置関係を示す図である。

同図に示すように、ヒートマップＨＭは、色又は特定の色の濃淡を用いて、各観客２の盛り上がり度を各観客２の位置に対応付けて表わすことにより作成される。各観客２の盛り上がり度をヒートマップＨＭで表わすことにより、会場全体の盛り上がり度を視覚的に表現できる。これにより、観客２の状態を容易に把握できる。

ヒートマップ出力部３１８は、出力部の一例である。ヒートマップ出力部３１８は、ヒートマップ作成部３１７で作成されたヒートマップＨＭを表示装置４００に出力する。

［表示装置］
表示装置４００は、表示部の一例である。表示装置４００は、情報処理装置３００から出力されるヒートマップを表示する。表示装置４００は、たとえば、液晶ディスプレイ（Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬディスプレイ（Organic ElectroLuminescence display, Organic Light Emitting Diode display）、電界放出ディスプレイ（Field Emission Display）、電子ペーパなどのフラットパネルディスプレイ、若しくは、プロジェクタとスクリーン（あるいはスクリーン同等物）で構成される。表示装置４００は、パフォーマー１が視認可能な位置に設置される。

［作用］
図１１は、本実施の形態の情報処理システムによる情報処理の手順（情報処理方法）を示すフローチャートである。

まず、パフォーマー撮影装置１００によってパフォーマー１が撮影される（ステップＳ１１）。これと平行して、観客撮影装置２００によって、観客エリア３が撮影され、観客エリア３内の観客２が撮影される（ステップＳ１３）。

次に、パフォーマー撮影装置１００によって撮影されたパフォーマー１の画像からパフォーマー１が行っているパフォーマンスのシーンが認識される（ステップＳ１２）。また、観客撮影装置２００によって撮影された観客エリア３の画像から各観客２の顔が検出され（ステップＳ１４）、検出された顔の表情が認識される（ステップＳ１５）。

次に、シーンの認識結果及び表情の認識結果に基づいて、シーンに応じた各観客２の盛り上がり度が算出される（ステップＳ１６）。すなわち、シーン及び表情に応じた変換式を用いて、各観客２の表情スコアが盛り上がり度に変換され、各観客２の盛り上がり度が求められる。

次に、求めた各観客２の盛り上がり度の情報に基づいて、ヒートマップが作成される（ステップＳ１７）。ヒートマップは、各観客２が有する盛り上がり度を各観客２の位置に対応付けて表わすことにより作成される（図９参照）。

次に、作成されたヒートマップが表示装置４００に出力され、画面上に表示される（ステップＳ１８）。パフォーマー１は、この表示装置４００に表示されたヒートマップを視認することにより、観客エリア３における観客の盛り上がり状況を把握できる。これにより、行うべきパフォーマンスの内容を容易に決定できる。すなわち、たとえば盛り上がりにムラがある場合は、会場全体でムラがなくなるようにパフォーマンスを行う。また、盛り上がりが低い場合は、盛り上げるようにパフォーマンス内容を変更する。このように、ヒートマップからパフォーマンスの内容を容易にコントロールすることが可能になる。

［第２の実施の形態］
本実施の形態の情報処理システムでは、クラスタリングしたヒートマップを出力する。クラスタリングしたヒートマップを出力する点以外は、上記第１の実施の形態の情報処理システムと同じである。したがって、以下においては、クラスタリングについてのみ説明する。

図１２は、本実施の形態の情報処理装置が実現する機能のブロック図である。

同図に示すように、本実施の形態の情報処理装置３００は、発信力推定部３２１、クラスタ数設定部３２２及びクラスタリング部３２３を更に備える。

発信力推定部３２１は、パフォーマー撮影装置１００（第１撮影部）で撮影されたパフォーマーの画像に基づいて、パフォーマーが有する発信力を推定する。本明細書において、「発信力」とは、盛り上げに関する能力を意味する。発信力は、パフォーマーが有する技量及び余力等で定義される。本実施の形態では、パフォーマーが有する余力で発信力を定義し、パフォーマーの画像から余力を推定して、発信力を推定する。余力は、パフォーマーの疲労度から推定する。具体的には、パフォーマーの表情を認識し、その表情から疲労度を判定し、余力を推定する。画像から表情を認識する技術、及び、表情から疲労度を判定する技術には、公知の技術を採用できる。たとえば、機械学習、深層学習等により生成した画像認識モデルを用いて、表情の認識及び疲労度の判定を行うことができる。疲労度は、たとえば、数値で表わされ、その疲労度を示す数値から余力（発信力）が求められる。たとえば、所定の変換式を用いて、疲労度が余力（発信力）に変換される。この場合、疲労度が高いほど余力が低い数値に変換され、疲労度が低いほど余力が高い数値に変換される。発信力の推定処理は、あらかじめ定められた時間間隔で行われてもよい。

クラスタ数設定部３２２は、発信力推定部３２１で推定された発信力の情報に基づいて、クラスタリングする際のクラスタ数を設定する。設定するクラスタ数と、発信力との関係は、たとえば、テーブル等の形式で規定され、ＲＯＭ３０２、ＲＡＭ３０３又はＨＤＤ３０４に記憶される。クラスタ数設定部３２２は、テーブル等を参照して、発信力推定部３２１で推定された発信力からクラスタ数を決定（設定）する。

クラスタ数は、発信力が高くなるほど、多くなるように設定される。すなわち、盛り上げに関する余力を示す発信力が高くなるほど、クラスタ数が多くなるように設定される。このことは、余力がある程、パフォーマンスをコントロールする力を有していることを意味する。すなわち、盛り上がりにバラツキがある状況であっても、均一化する力を有していることを意味する。また、盛り上がりにかける状況であっても、盛り上げる力を有していることを意味する。

クラスタリング部３２３は、クラスタ数設定部３２２で設定されたクラスタ数に応じて、ヒートマップをクラスタリングする。具体的には、設定されたクラスタ数でヒートマップのデータをクラスタリングし、クラスタごとに色又は濃淡を分けて表示したヒートマップ（クラスタリングヒートマップ）を作成する。ヒートマップのデータとは、各観客の盛り上がり度を各観客の位置に対応付けて表わしたデータである。クラスタリングには、公知の手法を採用できる。たとえば、ｋ－ｍｅａｎｓ法（ｋ平均法）に基づくクラスタリング処理を採用できる。

図１３から図１５は、クラスタリング処理の概念図である。

図１３は、ヒートマップのデータの一例を示す図である。同図において、各円は、エリア内の各観客の位置を表わしている。各観客の位置（円の位置）は、座標位置（ｘ、ｙ）で特定される。また、各円の中の数値は、各円の観客が有する盛り上がり度を示している。

まず、ヒートマップのデータから盛り上がり度が閾値未満の観客のデータを省く。盛り上がり度の閾値を１００とした場合、盛り上がり度が１００未満の観客のデータが省かれる。図１４では、省く観客のデータを白抜きの円で、その他の観客のデータを灰色に塗った円で示している。

次に、盛り上がり度が閾値以上の観客のデータを対象に、設定されたクラスタ数でヒートマップのデータをクラスタリングする（クラスタリング処理）。具体的には、（ｘ，ｙ）座標の距離をｋ－ｍｅａｎｓ法の距離としてクラスタリングする。この場合、（ｘ、ｙ）座標の距離は、｛（ｘ＿ｉ－ｘ）^２＋（ｙ＿ｉ－ｙ）^２｝^０．５で定義付けられる。

次に、それぞれのクラスタの盛り上がり度の平均を算出する。算出した盛り上がり度の平均値に応じて、クラスタごとに色又は濃淡を分けて表示する。これにより、図１５に示すように、クラスタリングされたヒートマップ（クラスタリングヒートマップ）が作成される。

クラスタリング処理には、次の手法を採用することもできる。ｋ－ｍｅａｎｓの距離を（ｘ，ｙ）座標と盛り上がり度の重み付け加算値で定義して、ｋ－ｍｅａｎｓ法でクラスタリングする。この場合、ｋ－ｍｅａｎｓの距離は、ｗ１×｛（ｘ＿ｉ－ｘ）^２＋（ｙ＿ｉ－ｙ）^２｝^０．５＋ｗ２×｜ｈ＿ｉ－ｈ｜で定義付けられる。

ヒートマップ出力部３１８は、クラスタリング部でクラスタリングされたヒートマップを表示装置４００に出力する。すなわち、クラスタごとに色又は濃淡を分けて表示したヒートマップ（クラスタリングヒートマップ）を表示装置４００に出力する。

図１６は、本実施の形態の情報処理システムによる情報処理の手順（情報処理方法）を示すフローチャートである。

まず、パフォーマー撮影装置１００によってパフォーマー１が撮影される（ステップＳ２１）。これと平行して、観客撮影装置２００によって、観客エリア３が撮影され、観客エリア３内の観客２が撮影される（ステップＳ２３）。

次に、パフォーマー撮影装置１００によって撮影されたパフォーマー１の画像からパフォーマー１が行っているパフォーマンスのシーンが認識される（ステップＳ２２）。また、観客撮影装置２００によって撮影された観客エリア３の画像から各観客２の顔が検出され（ステップＳ２４）、検出された顔の表情が認識される（ステップＳ２５）。更に、パフォーマー撮影装置１００によって撮影されたパフォーマー１の画像からパフォーマー１の発信力が推定され（ステップＳ２８）、推定された発信力に基づいて、クラスタ数が設定される（ステップＳ２９）。本実施の形態では、発信力として盛り上げに関する余力が推定され、推定された余力に基づいて、クラスタ数が設定される。

次に、シーンの認識結果及び表情の認識結果に基づいて、シーンに応じた各観客２の盛り上がり度が算出される（ステップＳ２６）。次に、算出された各観客２の盛り上がり度の情報に基づいて、ヒートマップが作成される（ステップＳ２７）。

次に、設定されたクラスタ数に従ってヒートマップがクラスタリングされる（ステップＳ３０）。これにより、クラスタごとに色又は濃淡を分けて表示したヒートマップ（クラスタリングヒートマップ）が作成される。

図１７は、クラスタリング処理によるヒートマップの変化の概念図である。同図は、クラスタ数を２とした場合の例を示している。（Ａ）は、クラスタリング前のヒートマップＨＭであり、（Ｂ）は、クラスタリング後のヒートマップ（クラスタリングヒートマップ）ＣＨＭである。同図に示すように、クラスタリング後は、色又は濃淡がクラスタごとに表示される。

作成されたクラスタリングヒートマップが表示装置４００に出力表示される（ステップＳ１８）。パフォーマー１は、この表示装置４００に表示されたクラスタリングヒートマップを視認することにより、観客エリア３における観客の盛り上がり状況を把握できる。クラスタリングヒートマップは、色又は濃淡がクラスタごとに表示されるため、観客の状況を直感的に把握できる。また、パフォーマー１が有する発信力（ここでは、盛り上げに関する余力）に応じてクラスタ数が設定されるため、パフォーマンス内容のコントロールも容易になる。すなわち、たとえば、余力がない場合は、少ないクラスタ数でクラスタリングされるため、行うべきパフォーマンスの内容を容易に決定できる。

なお、上記実施の形態では、パフォーマーが有する余力を発信力としているが、パフォーマーが有する技量を発信力として用いることもできる。また、余力と技量の双方を発信力として用いることもできる。

［第３の実施の形態］
本実施の形態の情報処理システムでは、ヒートマップをクラスタリングして出力する場合において、ユーザー（たとえば、パフォーマー）が設定した発信力に基づいてクラスタ数が設定される。ユーザーが設定した発信力に基づいてクラスタ数が設定される点以外は、上記第２の実施の形態の情報処理システムと同じである。したがって、以下においては、相違点についてのみ説明する。

図１８は、本実施の形態の情報処理装置が実現する機能のブロック図である。

同図に示すように、本実施の形態の情報処理装置３００には、発信力入力部３２４が備えられる。発信力入力部３２４は、発信力の入力を受け付ける。上記のように、発信力は、パフォーマーが有する技量及び余力等で定義される。発信力入力部３２４は、操作部３０５から発信力の入力を受け付ける。発信力は、たとえば、技量に関して、あらかじめ複数のレベルを規定し、その一つを選択して入力する。同様に、余力に関しても、あらかじめ複数のレベルを規定し、その一つを選択して入力する。発信力入力部３２４に入力された発信力の情報は、クラスタ数設定部３２２に加えられる。

クラスタ数設定部３２２は、入力された発信力の情報に基づいて、クラスタ数を設定する。発信力が、技量と余力の双方で定義される場合は、双方の情報に基づいて、クラスタ数が設定される。

クラスタリング部３２３は、クラスタ数設定部３２２で設定されたクラスタ数に応じて、ヒートマップをクラスタリング処理する。

本実施の形態の情報処理システムにおいても、パフォーマーの発信力に応じてヒートマップがクラスタリングされて提示されるため、行うべきパフォーマンスの内容を容易に決定できる。

［第４の実施の形態］
本実施の形態の情報処理システムでは、ヒートマップをクラスタリングして出力する場合において、ユーザー（たとえば、パフォーマー）が設定した発信力、及び、パフォーマーを撮影した画像から推定した発信力に基づいてクラスタ数が設定される。

図１９は、本実施の形態の情報処理装置が実現する機能のブロック図である。

同図に示すように、本実施の形態の情報処理装置３００には、発信力推定部３２１及び発信力入力部３２４が備えられる。

発信力推定部３２１は、パフォーマーを撮影した画像からパフォーマーが有する第１の発信力を推定する。本実施の形態では、パフォーマーが有する余力を第１の発信力として推定する。

発信力入力部３２４は、ユーザー（たとえば、パフォーマー）から第２の発信力の入力を受け付ける。本実施の形態では、パフォーマーが有する技量を第２の発信力とし、その入力を受け付ける。

発信力推定部３２１で推定された第１の発信力（余力）の情報、及び、発信力入力部３２４に入力された第２の発信力（技量）の情報は、クラスタ数設定部３２２に加えられる。

クラスタ数設定部３２２は、第１の発信力（余力）及び第２の発信力（技量）の情報に基づいて、クラスタ数を設定する。

なお、本実施の形態では、発信力推定部３２１で余力を推定し、発信力入力部３２４で技量を入力する構成としているが、発信力推定部３２１で技量を推定し、発信力入力部３２４で余力を入力する構成としてもよい。

［第５の実施の形態］
上記のように、ヒートマップは、各観客の盛り上がり度を各観客の位置に対応付けて表示することにより作成される。各観客の位置は、観客撮影装置２００によって撮影される画像から特定される。観客撮影装置２００によって撮影される画像の視点は、パフォーマーの視点と異なる。本実施の形態の情報処理システムでは、ヒートマップの画像を異なる視点の画像に変換して提示する。すなわち、パフォーマーの視点の画像（パフォーマーの視点に近い画像）に変換して提示する。

図２０は、本実施の形態の情報処理装置が実現する機能のブロック図である。

同図に示すように、本実施の形態の情報処理装置３００は、画像処理部３３１を更に備える。画像処理部３３１を備える点以外は、上記第１の実施の形態の情報処理装置と同じである。したがって、以下においては、画像処理部３３１に係わる事項についてのみ説明する。

画像処理部３３１は、変換処理部の一例である。画像処理部３３１は、ヒートマップ作成部３１７で作成されるヒートマップの画像を処理し、視点を変えたヒートマップを生成する。具体的には、ヒートマップ作成部３１７で作成されるヒートマップの画像に対して、射影変換処理を施し、パフォーマーの視点の画像に変換する。なお、パフォーマーの視点の画像に完全に一致させることは難しい。よって、ここではパフォーマーの視点に近い画像に変換する。具体的には、ステージ上の決められた位置に立った場合におけるパフォーマーの視点の画像に変換する。

図２１は、ヒートマップの画像の変換の一例を示す図である。同図（Ａ）は、変換処理前のヒートマップＨＭ０を表わし、同図（Ｂ）は、変換処理後のヒートマップＨＭ１を表わしている。

このように、パフォーマーの視点の画像に合わせてヒートマップを提示することにより、状況把握をより容易に行うことができる。

なお、表示の切り換えは、ユーザー（たとえば、パフォーマー）からの指示に応じて行う構成とすることができる。この場合、たとえば、操作部３０５の指示入力によって、表示の切り換えが行われる。

また、本処理は、クラスタリングしたヒートマップ（クラスタリングヒートマップ）に対しても行うことができる。

［第６の実施の形態］
本実施の形態の情報処理システムでは、ユーザー（たとえば、パフォーマー）からの指示に応じて、ヒートマップを反転させて提示する。すなわち、たとえば、ヒートマップが色で表示されている場合、色を反転させて提示する。また、たとえば、ヒートマップが、特定の色の濃淡で表示されている場合、その色の濃淡を反転させて提示する。

図２２は、本実施の形態の情報処理装置が実現する機能のブロック図である。

画像処理部３３１は、反転処理部の一例である。画像処理部３３１は、操作部３０５からの反転の指示の入力に応じて、ヒートマップの画像を処理し、色又は色の濃淡を反転させたヒートマップを生成する。

図２３は、ヒートマップの画像の反転処理の一例を示す図である。同図は、特定の色の濃淡によってヒートマップが作成される場合の例を示している。同図（Ａ）は、反転処理前のヒートマップＨＭ０を表わし、同図（Ｂ）は、反転処理後のヒートマップＨＭ２を表わしている。同図に示すように、反転処理によって、濃淡が反転して表示される。

このように、表示の切り換えを可能にすることにより、目的に応じて最適なヒートマップを提示できる。たとえば、盛り上がっていない観客を盛り上げる場合などには、通常の形態でヒートマップを表示させる。一方、盛り上がっている観客をより盛り上げる場合などには、反転させたヒートマップを表示させる。これにより、パフォーマンスの内容のコントロールをより容易に行うことが可能になる。

なお、本処理は、クラスタリングしたヒートマップ（クラスタリングヒートマップ）に対しても行うことができる。

［第７の実施の形態］
図２４は、本実施の形態の情報処理システムの概略構成を示す図である。

同図に示すように、本実施の形態の情報処理システム１０は、表示装置４００に代えて投影装置５００が備えられる。表示装置４００に代えて投影装置５００が備えられる点以外は、上記第１の実施の形態の情報処理システムと同じである。したがって、以下においては、投影装置５００に係わる構成についてのみ説明する。

投影装置５００は、投影部の一例である。投影装置５００は、少なくとも１台の投影機（プロジェクタ）で構成され、ヒートマップ出力部３１８から出力されるヒートマップ（クラスタリングヒートマップを含む）を観客２の観客エリア３に投影する。観客２の観客エリア３を１台の投影機で投影できない場合は、複数台の投影機を組み合わせて構成される。この場合、観客２の観客エリア３を複数のエリアに分割し、複数台の投影機で各エリアを分担して投影する。

本実施の形態の情報処理システムによれば、ヒートマップが観客２の観客エリア３に投影されるので、一見して観客の盛り上がり状態を把握できる。また、表示装置を確認する必要がないので、パフォーマーはパフォーマンスに集中できる。また、観客も自身の盛り上がり度を気付ける。

なお、通常、観客２の観客エリア３は平坦ではないので、投影には、プロジェクションマッピングの手法を採用することが好ましい。

［その他の実施の形態］
［シーン認識に関して］
上記実施の形態では、パフォーマーを撮影した画像に基づいて、パフォーマンスのシーンを認識する構成としているが、その他の情報を利用して、パフォーマンスのシーンを認識することもできる。たとえば、音声又は音声及び画像の情報を利用して、シーンを認識する構成とすることもできる。この場合、パフォーマンスに伴う音声を集音する集音部が更に備えられる。

［盛り上がり度に関して］
上記実施の形態では、観客の表情から盛り上がり度を算出する構成としているが、その他の情報も利用して、盛り上がり度を算出してもよい。たとえば、各観客が発する音声の情報、体の揺れの情報、体温の情報等を利用して、盛り上がり度を算出してもよい。この場合、各観客が発する音声を集音する集音部、各観客の体の揺れを検出するセンサ、各観客の体温を検出するセンサ等が備えられる。また、それらの情報を入力する入力部が備えられる。

［発信力の推定に関して］
上記実施の形態では、パフォーマーを撮影した画像に基づいて、パフォーマーが有する発信力を推定する構成としているが、その他の情報を利用して、発信力を推定することもできる。たとえば、パフォーマーが発する音声（声の大きさ、声質等）に基づいて、発信力を推定する構成とすることもできる。また、パフォーマーが発する音声と、パフォーマンスの画像の双方に基づいて、発信力を推定する構成とすることもできる。この場合、たとえば、パフォーマー撮影装置１００は、音声付きの動画を撮影する。

また、パフォーマー技量については、観客の状況から推定する構成とすることもできる。すなわち、技量によって観客の盛り上がり度も異なるので、観客の盛り上がり度からパフォーマーが有する技量を推定することができる。この場合、たとえば、盛り上がり度算出部３１６で算出される各観客の盛り上がり度の情報、又は、ヒートマップ作成部３１７で作成されるヒートマップに基づいて、パフォーマーの技量を推定する構成とすることができる。

また、一般に、盛り上げに関する能力は、パフォーマーの経験に因るところが大きい。したがって、パフォーマーの経験値（経験年数、イベント等の実施回数）を発信力に含めることもできる。

［ヒートマップの表示に関して］
パフォーマーの身に付けて使用される表示装置（いわゆるウェラブルデバイス）にヒートマップを表示する構成とすることもできる。たとえば、腕時計型、眼鏡型の表示装置にヒートマップを表示する構成とすることもできる。

また、ヒートマップは、観客にも提示する構成とすることができる。たとえば、観客が保有する携帯端末（たとえば、スマートフォン等）にヒートマップの情報を配信する構成とすることもできる。

［情報処理装置に関して］
情報処理装置の一部又は全部の機能は、各種のプロセッサ（processor）で実現できる。各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。プログラムは、ソフトウェアと同義である。

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサで構成されてもよい。たとえば、１つの処理部は、複数のＦＰＧＡ、或いは、ＣＰＵとＦＰＧＡの組み合わせによって構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

１パフォーマー
２観客
３観客エリア
１０情報処理システム
１００パフォーマー撮影装置
２００観客撮影装置
３００情報処理装置
３０１ＣＰＵ
３０２ＲＯＭ
３０３ＲＡＭ
３０４ＨＤＤ
３０５操作部
３０７入力インターフェース
３０８出力インターフェース
３１１第１画像入力部
３１２第２画像入力部
３１３シーン認識部
３１４顔検出部
３１５表情認識部
３１６盛り上がり度算出部
３１７ヒートマップ作成部
３１８ヒートマップ出力部
３２１発信力推定部
３２２クラスタ数設定部
３２３クラスタリング部
３２４発信力入力部
３３１画像処理部
４００表示装置
５００投影装置
Ｆ検出した顔を囲う枠
ＨＭヒートマップ
ＨＭ０ヒートマップ
ＨＭ１変換処理したヒートマップ
ＨＭ２反転処理したヒートマップ
Ｉ２観客を撮影した画像
ＩＦ観客の顔の画像
Ｓ１１～Ｓ１８情報処理システムによる情報処理の手順
Ｓ２１～Ｓ３１情報処理システムによる情報処理の手順

Claims

プロセッサと、
前記プロセッサに接続されたメモリと、
を備え、
前記プロセッサは、
パフォーマーを撮影した画像に基づいてシーンを認識する第１の認識を行い、
規定のエリア内の人物を撮影した画像に基づいて前記人物の表情を認識する第２の認識を行い、
前記シーンの認識結果及び前記人物の表情の認識結果に基づいて、前記シーンに応じた前記人物の状況指数を算出し、
前記人物の前記状況指数を前記エリア内での前記人物の位置に対応づけて表わしたヒートマップを作成し、
前記ヒートマップを出力する、
ように構成される、
情報処理システム。
前記プロセッサは、
前記パフォーマーが有する発信力に基づいて、クラスタ数を設定し、
設定されたクラスタ数に応じて、前記ヒートマップをクラスタリングし、
前記出力において、
クラスタリングされた前記ヒートマップを出力する、
ように更に構成される、
請求項１に記載の情報処理システム。
前記プロセッサは、
前記クラスタリングにおいて、
前記状況指数が閾値以上の前記人物のデータを対象に前記ヒートマップをクラスタリングする、
ように更に構成される、
請求項２に記載の情報処理システム。
前記プロセッサは、
前記パフォーマーを撮影した画像に基づいて、前記パフォーマーが有する前記発信力を推定する、
ように更に構成される、
請求項２又は３に記載の情報処理システム。
前記発信力には、前記パフォーマーが有する技量及び余力の少なくとも一方が含まれる、
請求項２から４のいずれか１項に記載の情報処理システム。
前記プロセッサは、
前記ヒートマップの画像を前記エリア内の前記人物を撮影した画像とは異なる視点の画像に変換する、
ように更に構成される、
請求項１から５のいずれか１項に記載の情報処理システム。
前記プロセッサは、
前記ヒートマップの色又は濃淡を反転させる、
ように更に構成される、
請求項１から６のいずれか１項に記載の情報処理システム。
前記プロセッサから出力された前記ヒートマップを表示するディスプレイを更に備えた、
請求項１から７のいずれか１項に記載の情報処理システム。
前記プロセッサから出力された前記ヒートマップを前記エリアに投影するプロジェクタを更に備えた、
請求項１から７のいずれか１項に記載の情報処理システム。
前記プロジェクタは、プロジェクションマッピングにより前記ヒートマップを前記エリアに投影する、
請求項９に記載の情報処理システム。
前記パフォーマーを撮影する第１カメラと、
前記エリア内の前記人物を撮影する第２カメラと、
を更に備えた、
請求項１から１０のいずれか１項に記載の情報処理システム。
パフォーマーを撮影し、
規定のエリア内の人物を撮影し、
前記パフォーマーを撮影した画像に基づいて、シーンを認識し、
前記エリア内の前記人物を撮影した画像に基づいて、前記人物の表情を認識し、
前記シーンの認識結果及び前記人物の表情の認識結果に基づいて、前記シーンに応じた前記人物の状況指数を算出し、
前記人物の前記状況指数を前記エリア内での前記人物の位置に対応づけて表わしたヒートマップを作成し、
前記ヒートマップを出力する、
情報処理方法。
前記パフォーマーが有する発信力の情報に基づいて、クラスタ数を設定し、
設定されたクラスタ数に応じて、前記ヒートマップをクラスタリングし、
前記ヒートマップの出力において、クラスタリングされた前記ヒートマップを出力する、
請求項１２に記載の情報処理方法。