JP7306152B2

JP7306152B2 - 感情推定装置、感情推定方法、プログラム、情報提示装置、情報提示方法及び感情推定システム

Info

Publication number: JP7306152B2
Application number: JP2019148936A
Authority: JP
Inventors: 伸一深澤
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2023-07-11
Anticipated expiration: 2039-08-14
Also published as: JP2021033359A

Description

本発明は、感情推定装置、感情推定方法、プログラム、情報提示装置、情報提示方法及び感情推定システムに関する。

特許文献１には、表情の時系列画像に基づき、計算機により表情の測定を行い表情の機械認識を行う表情認識装置が提案されている。

特開平３－２５２７７５号公報

前記特許文献１を含め、ある１台のカメラ（撮像装置）によって撮像されたヒトの顔画像から、その顔の表情種別や感情表出強度を推定する技術（以下「表情推定」技術）が既存に知られている。特に、近年では深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）の登場により、その推定（識別）精度が向上してきた。

一方で、実環境（ＩｎｔｈｅＷｉｌｄ環境）での画像認識技術においては、理想的な実験室統制環境と比較して、表情推定処理における外乱要因、たとえばカメラと被写体間の位置関係性に基づく見えの変化、照明変動、オクルージョン等により、表情推定の精度（を含む認識処理の性能）が下がってしまうという課題がある。

そこで本発明は、感情推定の精度を向上させることが可能な技術を提供することを目的とする。

上記問題を解決するために、本発明のある観点によれば、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、を備える、感情推定装置が提供される。

前記対応付け処理部は、前記複数の人物領域画像それぞれに写る前記人物の空間における位置情報に基づいて、前記複数の人物領域画像を対応付けてもよい。

前記対応付け処理部は、前記複数の人物領域画像それぞれの撮影時刻に基づいて、前記複数の人物領域画像を対応付けてもよい。

前記総合感情推定部は、前記評価値に基づいて複数の推定感情情報それぞれの重みを算出し、前記推定感情情報と前記重みとに基づいて、前記総合的な推定感情情報を生成してもよい。

前記総合感情推定部は、前記撮影条件の優先順位および前記評価値に基づいて、前記重みを算出してもよい。

前記総合感情推定部は、前記評価値間の正規化に基づいて前記重みを算出してもよい。

前記評価値算出部は、当該複数の推定感情情報それぞれの推定における尤度に基づいて前記評価値を設定してもよい。

前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物と前記人物領域画像を撮像するカメラとの角度または距離に基づいて、前記人物領域画像の撮影条件の評価値を設定してもよい。

前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物に対する光照射度合い、および、前記人物の撮像遮蔽度合いの少なくともいずれか一方に基づいて、前記人物領域画像の撮影条件の評価値を設定してもよい。

前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物領域画像の解像度および画像品質の少なくともいずれか一方に基づいて、前記人物領域画像の撮影条件の評価値を設定してもよい。

また、本発明の他の観点によれば、感情推定装置が、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付けることと、前記感情推定装置が、前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、前記感情推定装置が、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、を含む、感情推定方法が提供される。

また、本発明の他の観点によれば、コンピュータを、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、を備える感情推定装置として機能させるためのプログラムが提供される。

また、本発明の他の観点によれば、複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御する制御部を備える、情報提示装置が提供される。

前記制御部は、前記人物が写る人物領域画像が提示されるように制御するとともに、前記人物領域画像において前記人物が写る座標に応じた位置に前記総合的な推定感情情報が重畳されるように制御してもよい。

また、本発明の他の観点によれば、複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、情報提示装置が、前記総合的な推定感情情報が提示されるように制御することを含む、情報提示方法が提供される。

また、本発明の他の観点によれば、コンピュータを、複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御する制御部を備える、情報提示装置として機能させるためのプログラムが提供される。

また、本発明の他の観点によれば、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、を備える、感情推定装置と、前記総合的な推定感情情報が提示されるように制御する制御部を備える、情報提示装置と、を有する、感情推定システムが提供される。

また、本発明の他の観点によれば、感情推定装置が、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付けることと、前記感情推定装置が、前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、前記感情推定装置が、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、情報提示装置が、前記総合的な推定感情情報が提示されるように制御することと、含む、感情推定方法が提供される。

以上説明したように本発明によれば、感情推定の精度を向上させることが可能な技術が提供される。

本発明の実施形態に係る情報通信システムの概略的な構成の一例を示す説明図である。同実施形態に係る感情推定サーバ、カメラ、情報提示端末のハードウェア構成の一例を示すブロック図である。同実施形態に係るカメラの機能構成の一例を示すブロック図である。同実施形態に係る感情推定サーバの機能構成の一例を示すブロック図である。感情人物照合部によって紐づけ処理され記憶部に記憶される感情人物位置ＤＢのデータテーブルの一例を説明するための説明図である。同実施形態に係る情報提示端末の機能構成の一例を示すブロック図である。情報提示端末の提示部によって提示された表示画面の一例を説明するための説明図である。同実施形態に係る情報通信システムの動作フローの一例を示す説明図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

（０．概要）
前記特許文献１には、表情の時系列画像に基づき、計算機により表情の測定を行い表情の機械認識を行う表情認識装置が提案されている。

前記特許文献１を含め、ある１台のカメラ（撮像装置）によって撮像されたヒトの顔画像（または身体画像）から、その顔の表情（または行動しぐさ）の種別や感情表出強度を推定する技術（以下「表情推定」技術）が既存に知られている。特に、近年では深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）の登場により、その推定（識別）精度が向上してきた。

一方で、実環境（ＩｎｔｈｅＷｉｌｄ環境）での画像認識においては、理想的な実験室統制環境と比較して、表情推定処理における外乱要因、たとえばカメラと被写体間の位置関係性に基づく見えの変化、照明変動、オクルージョン等により、表情推定の精度が下がってしまうという課題がある。

さらに近年、遠隔環境において、離れた拠点に備えられた複数のカメラ映像を常時共有することにより、離れていてもあたかも一緒に働いているかのような協働環境を実現させるテレワークシステムが開発されている（非特許文献１：徳満昌之・野中雅人、超臨場感テレワークシステムの開発、ＯＫＩテクニカルレビュー、Ｖｏｌ．８４（１）、ｐｐ．３２－３５、２０１７）。遠隔環境では同室環境と比較して離れた相手の状況、たとえば「感情」が把握し難く感じられる問題があるが（非特許文献２：有本泰子ほか、オンラインコミュニケーションにおけるモダリティ統制下の情動理解、日本音響学会２０１４年秋季研究発表会講演論文集、ｐｐ．３８５－３８６、２０１４）、前記の「表情推定技術」を利用し、表情の推定情報を生成して遠隔地の相手に情報提示することで、その問題も軽減できると考えられる。

しかしながら、実環境のオフィスでは前記の照明変動や各種室内設備のカメラ内映り込みによるオクルージョンが高確率で発生し、推定感情情報の精度を低下させる。そこで、前記テレワークシステムが備える複数のカメラを利用することで、当該課題の解決を試みる。

本実施形態は、複数のカメラと、顔画像から表情推定処理を行うサーバと、を備えた「複数視点映像による顔表情推定システム」であって、前記サーバは、複数のカメラ画像間で推定対象の撮像データまたは抽出データの対応付けを行う「感情人物照合部」、複数のカメラそれぞれの撮影条件を比較し複数の推定感情情報それぞれの評価値を算出する「撮像条件比較部」、複数の推定感情情報それぞれの評価値から最終的な推定感情情報を算出する「総合感情推定部」を備える。複数視点のカメラによる多重の表情推定処理を実現できることにより、従来の単一のカメラ画像に基づく表情推定技術と比較して、高精度の表情推定を実現できる。

（１．第１の実施形態）
続いて、図１を参照して、本発明の実施形態に係る情報通信システム（感情推定システム）の概略的な構成を説明する。

図１は、本実施形態に係る情報通信システムの概略的な構成の一例を示す説明図である。図１を参照すると、本情報通信システムは、感情推定サーバ（感情推定装置）１００、複数のカメラ２００、情報提示端末（情報提示装置）３００及びＬＡＮ５０を含み、その一部（たとえば複数のカメラ２００）はオフィス４００内に存在しても構わない。また、オフィス４００内には本情報通信システムの一部の他に、一例としてユーザー９００、障害物５００及び照明６００が存在している。複数のカメラ２００の撮影範囲は互いに重複していても構わない。

図２は、本実施形態に係る感情推定サーバ１００、カメラ２００、情報提示端末３００（以下、感情推定サーバ１００、カメラ２００及び情報提示端末３００それぞれを区別せずに「本実施形態に係る装置」と言う場合がある。）のハードウェア構成の一例を示すブロック図である。なお、前記の各装置のすべてに下記のハードウェア構成のすべてが備えられている必要はなく（たとえば感情推定サーバ１００に直接的にセンサが備えられている必要はない）、後述する各装置の機能構成を実現できるハードウェアモジュールが適宜限定して備えられてもよい。

図２を参照すると、本実施形態に係る装置は、バス８０１、ＣＰＵ（Central Processing Unit）８０３、ＲＯＭ（Read Only Memory）８０５、ＲＡＭ（Random Access Memory）８０７、記憶装置８０９、通信インタフェース８１１、センサ８１３、入力装置８１５、表示装置８１７、スピーカ８１９を備える。ＣＰＵ８０３は、本実施形態に係る装置における様々な処理を実行する。また、ＲＯＭ８０５は、本実施形態に係る装置における処理をＣＰＵ８０３に実行させるためのプログラム及びデータを記憶する。また、ＲＡＭ８０７は、ＣＰＵ８０３の処理の実行時に、プログラム及びデータを一時的に記憶する。

バス８０１は、ＣＰＵ８０３、ＲＯＭ８０５及びＲＡＭ８０７を相互に接続する。バス８０１には、さらに、記憶装置８０９、通信インタフェース８１１、センサ８１３、入力装置８１５、表示装置８１７及びスピーカ８１９が接続される。バス８０１は、例えば、複数の種類のバスを含む。一例として、バス８０１は、ＣＰＵ８０３、ＲＯＭ８０５及びＲＡＭ８０７を接続する高速バスと、前記高速バスよりも低速の１つ以上の別のバスを含む。

記憶装置８０９は、本実施形態に係る装置内で一時的または恒久的に保存すべきデータを記憶する。記憶装置８０９は、例えば、ハードディスク（Hard Disk）等の磁気記憶装置であってもよく、または、ＥＥＰＲＯＭ（Electrically Erasable and Programmable Read
Only Memory）、フラッシュメモリ（flash memory）、ＭＲＡＭ（Magnetoresistive Random Access Memory）、ＦｅＲＡＭ（Ferroelectric Random Access Memory）及びＰＲＡＭ（Phase change Random Access Memory）等の不揮発性メモリ（nonvolatile memory）であってもよい。

通信インタフェース８１１は、本実施形態に係る装置が備える通信手段であり、ネットワークを介して（あるいは直接的に）外部装置と通信する。通信インタフェース８１１は、無線通信用のインタフェースであってもよく、この場合に、例えば、通信アンテナ、ＲＦ回路及びその他の通信処理用の回路を含んでもよい。また、通信インタフェース８１１は、有線通信用のインタフェースであってもよく、この場合に、例えば、ＬＡＮ端子、伝送回路及びその他の通信処理用の回路を含んでもよい。

センサ８１３は、たとえばカメラ、マイクロフォン、生体センサ、その他のセンサまたはそれらの複合である。カメラは、被写体を撮像するもので、例えば光学系、撮像素子及び画像処理回路を含む。マイクロフォンは、周囲の音を収音するもので、前記音を電気信号へ変換し前記電気信号をデジタルデータに変換する。

入力装置８１５は、タッチパネル、マウス、視線検出装置等である。表示装置８１７は、本実施形態に係る装置からの出力画像（すなわち表示画面）を表示するもので、例えば液晶、有機ＥＬ（Organic Light-Emitting Diode）、ＣＲＴ（Cathode Ray Tube）等を用いて実現され得る。スピーカ８１９は、音声を出力するもので、デジタルデータを電気信号に変換し前記電気信号を音声に変換する。

次に、図３を参照して、本実施形態に係る「カメラ２００」の機能構成の一例を説明する。カメラ２００は、実世界の計測データを生成する機能を有し、ユーザー９００を含むオフィス４００内の撮像画像（動画像であってもよく、画像には映像が含まれ得る）や、ユーザー９００の各種行動・生理反応等（表情、身振り、音声等を含む）を外的に計測して、取得したセンサデータを後述する感情推定サーバ１００へ送信する。

図３は、本実施形態に係るカメラ２００の機能構成の一例を示すブロック図である。図３を参照すると、カメラ２００は、通信部２１０、計測部２２０及び制御部２３０を備える。なお、図３には図示していないが、カメラ２００は、計測データを保存するための記憶部や、内部動作状況をユーザーに示すための表示部等をさらに備えていてもよい。

通信部２１０は、他の装置と通信する。たとえば、通信部２１０は、ＬＡＮ５０に直接的に接続され、感情推定サーバ１００と通信する。また、他のカメラ２００と通信してもよい。なお、通信部２１０は、通信インタフェース８１１により実装され得る。

計測部２２０は、実世界の計測データ（たとえばオフィス４００内の俯瞰的画角の撮映像）や、ユーザー９００の行動や生理反応を外的に計測してデータを取得する。前記行動や生体反応のデータは、たとえば、カメラにより計測されるオフィス４００内移動行動、顔表情や身体姿勢の状態内容を含む画像データ、マイクロフォンにより計測される音声データである。さらには、人体の撮像データにおける肌の色の微細な変化から推定する脈拍データ、眼の撮像データから推定する視線運動データや瞳孔径データ、前記カメラに赤外線サーモグラフィ機能が備えられていれば計測できる皮膚温分布データ等、ユーザーの自律神経系活動情報を反映する高次の生理指標データであってもよい。

前記推定の処理は、後述する制御部２３０によりカメラ２００内で行われてもよいし、カメラ２００から後述する感情推定サーバ１００へ生の測定データを送信し感情推定サーバ１００内で行われてもよい。なお、計測部２２０は、センサ８１３により実装され得る。

制御部２３０は、カメラ２００の様々な機能を提供する。制御部２３０は、前記計測データを、後述する計測対象のユーザー９００の位置情報のデータや、計測データを計測した時刻情報のデータと紐づけ、通信部２１０を介して感情推定サーバ１００へ送信してもよい。カメラ２００は、計測だけでなく、前処理、特徴抽出処理、推定を含む解析処理までを実施してもよく、その場合の各種演算処理を制御部２３０が行ってもよい。なお、制御部２３０は、ＣＰＵ８０３、ＲＯＭ８０５及びＲＡＭ８０７により実装され得る。

カメラ２００は、撮像範囲内に含まれるユーザー９００の位置を推定する機能を有していてもよい。たとえば、カメラ２００にレーザレンジファインダの機能も搭載されており、撮像範囲の３次元計測機能を有していてもよい。また、カメラ２００が汎用的な単眼カメラであっても、撮像対象人物の３次元実空間における存在位置を推定する方法は既存に複数あり、公知の方法である（たとえば、非特許文献３：大澤達哉ほか、映像モニタリングのための人物追跡技術、ＮＴＴ技術ジャーナル、１９（８）、ｐｐ．１７－２０、２００７）。

本発明の実施形態では、カメラ２００は、たとえばオフィス内の固定設置利用であってもよく、その場合、カメラの内部または外部パラメータの情報（カメラの３次元空間内位置、姿勢、撮像方向、画角、撮像範囲等の情報を含む）に係るデータは既知として、前記カメラパラメータのデータをカメラ２００や感情推定サーバ１００が予め記憶部に有しており、前記データを撮像対象人物の位置推定に利用してもよい（すなわち、前記データ及びカメラ２００からの取得データに基づいて撮像対象人物の位置が推定されてもよい）。

さらに、カメラ２００は、たとえば自動車に設置された車載カメラであってもよい。この場合も、カメラ２００は自動車周囲環境の撮像データや前記自動車の位置（ＧＰＳ（Global Positioning System）、デッドレコニング、高精度地図、ＳＬＡＭ（Simultaneous Localization And Mapping）等で算出されてもよい）や姿勢の情報をリアルタイムに取得し、前記カメラの外部パラメータの情報を生成してもよい。また、複数のカメラ２００は複数の自動車にそれぞれ設置されたカメラであって、前記複数のカメラ２００は複数の自動車間の車々間通信によってお互いの位置関係情報を生成してもよい。

次に、図４を参照して、本実施形態に係る「感情推定サーバ１００」の機能構成の一例を説明する。図４は、本実施形態に係る感情推定サーバ１００の機能構成の一例を示すブロック図である。図４を参照すると、感情推定サーバ１００は、通信部１１０、記憶部１２０及び制御部１３０を備える。

通信部１１０は、他の装置と通信する。たとえば、通信部１１０は、ＬＡＮ５０に直接的に接続され、カメラ２００や情報提示端末３００と通信する。なお、通信部１１０は、通信インタフェース８１１により実装され得る。

記憶部１２０は、感情推定サーバ１００の動作のためのプログラム及びデータを記憶する。記憶部１２０は、感情推定辞書ＤＢ１２１及び感情人物位置ＤＢ１２２を含む。
前記データには、センサデータ（本実施形態では、たとえばユーザー９００を含む画像のデータ）からユーザーの感情（感情には表情やしぐさの種別や強度も含まれ得る）を推定（識別）処理するための学習済の感情推定モデル（感情認識辞書）のデータが含まれる。前記感情推定モデルは、予め取得されたセンサデータ（たとえば多数の人物の顔表情を含む画像）と、前記センサデータ取得時の撮像対象人物の感情の正解情報のデータとを紐づけて学習処理し生成される。前記感情の正解情報は、学習処理フェーズにおいて前記人物から質問紙法等により計測されても構わない。また、感情推定モデルはユーザー９００の各個人毎、所定期間毎、ユーザー９００の行動種別毎等でデータを分類および分割しそれぞれ学習処理させることで生成され、条件に応じた複数の感情推定モデルが存在しても構わない。

なお、センサデータから人物の個人感情を推定する方法は公知（たとえば特開２０１２－５９１０７号公報）であるため、本稿ではこれ以上の説明は省略する。前記感情推定モデルは感情推定辞書ＤＢ１２１に記憶される。後述する感情人物位置ＤＢ１２２には、後述するユーザー９００の推定感情情報と前記ユーザー９００のオフィス４００内の位置情報が対応付けて記憶される。なお、記憶部１２０は、記憶装置８０９により実装され得る。

制御部１３０は、感情推定サーバ１００の様々な機能を提供する。制御部１３０は、顔検出部１３１、感情推定部１３３、感情人物照合部１３５、撮影条件比較部１３７及び総合感情推定部１３９を含む。なお、制御部１３０は、ＣＰＵ８０３、ＲＯＭ８０５及びＲＡＭ８０７により実装され得る。

顔検出部１３１は、各カメラ２００の撮像画像から、顔検出技術によりユーザー９００の顔画像の領域を特定し、切り出して（抽出して）記憶部１２０に記憶する。顔画像は、前記撮像画像のユーザー９００の顔が写る領域であり、人物の身体が写る領域の画像（人物領域画像）の一例に相当する。この時、後述する感情人物照合部１３５が、顔画像とそのユーザー９００の位置情報を対応付けて記憶部１２０の感情人物位置ＤＢ１２２に記憶させても構わない。なお、顔検出技術は公知の方法が既存に複数あるため説明を省略する（たとえば、非特許文献４：山下隆義ほか、顔の検出・表情の認識技術、映像情報メディア学会誌、６２（５）、ｐｐ．７０８－７１３、２００８）。

感情推定部１３３は、ユーザー９００からカメラ２００及び通信部１１０を介して取得した行動の画像データや生体反応の計測データ（センサデータ）に基づいて、ユーザー９００毎の個人感情の推定モデルデータおよびそれにより推定（識別）された推定感情情報を生成する。また、感情推定部１３３は、前記生成した推定モデルデータと推定感情情報を記憶部１２０に記憶させる機能を有する。また、前記推定感情情報の生成処理はカメラ２００で行われてもよく、感情推定サーバ１００はカメラ２００から前記画像データではなく推定感情情報を受信しても構わない。

ここで、個人感情とその推定方法について説明を補足する。個人感情は、一例として「人が心的過程の中で行うさまざまな情報処理のうちで、人、物、出来事、環境についてする評価的な反応」（Ｏｒｔｏｎｙｅｔａｌ．，１９８８；大平，２０１０）と定義される。感情の具体的な種類としては、心理学者ＰａｕｌＥｋｍａｎによる表情に対応する基本感情ベースの離散型モデル上での幸福、驚き、恐れ、怒り、嫌悪、悲しみや、心理学者ＪａｍｅｓＡ．Ｒｕｓｓｅｌｌによる快度及び覚醒度の感情次元ベースの連続型モデルにおける喜怒哀楽の象限などが知られている。他の連続型モデルとしては、Ｗａｔｓｏｎによるポジティブまたはネガティブ感情、Ｗｕｎｄｔによる３軸モデル（快度、興奮度、緊張度）、Ｐｌｕｔｃｈｉｋによる４軸のモデルなどもある。その他、応用的・複合的な感情としては、困惑度、関心度、メンタルストレス、集中度、疲労感、多忙度、創造性、リラックス／緊張度、モチベーション、共感度、信頼度などが挙げられる。さらに、業務活動において集団の雰囲気として体感されるイキイキ感なども高次な感情の一種といえる。本発明における感情の定義の有効範囲は、前述の基本感情よりも広く、ユーザーのあらゆる内部「状態」やユーザーの周囲環境や文脈等の影響も加味した「状況」も含むものである。一例として、ポジティブ感情やその度合いは、快度そのものや、快度と覚醒度を合わせたもの、基本感情における幸福の強度の大きさ、もしくは恐れ、怒り、嫌悪、悲しみ等の強度の小ささ等を指標としてあらわされてもよい。

ある人物がどのような感情とどの程度にあるかは、たとえば質問紙法を用いることで、前記人物の文字、文章、記号による言語的報告によって求めることができる。前記質問紙としては“ＡｆｆｅｃｔＧｒｉｄ”や“ＳＡＭｓｃａｌｅ”などがよく知られている。しかしながら、質問紙を用いた計測方法では回答作業が必要になるため、業務など何か別の作業を行っている日常生活においては計測それ自体が本来の目的作業に支障を及ぼしてしまう可能性がある。

そこで、本情報通信システムにおいて、感情推定部１３３は、前述のカメラ２００や情報提示端末３００により計測される行動や生体反応のデータに基づいて（質問紙法等で求めた）感情を機械的に推定処理する。前記推定処理を行うためには、予め学習処理によって生成された感情推定モデルのデータが必要となる。感情推定モデルは、たとえば、ある時点・状況における前記行動や生体反応のデータと前記質問紙の回答データからなる訓練データとを対応づけたデータの群から生成される。たとえば、オフィスに埋め込まれた無数のカメラやマイクロフォン、ウェアラブル活動量計から計測されたユーザーの顔表情、音声、心拍活動、皮膚電気活動等の行動・生体データと、前記ユーザーの主観的感情を質問紙回答した正解データとが対応づけられて訓練データとされる。前記行動・生体データは、センサからの計測値が変換された学習処理用の特徴量データであってもよい。

特徴量データは、顔の代表的特徴点の位置や各２点間を結ぶ直線の距離や成す角度であってもよい。あるいは、特徴量データは、音声の基本周波数、パワー、平均発話速度、一次ケプストラム係数の最高値と標準偏差であってもよい。あるいは、特徴量データは、心拍数や拍動間隔の平均値や標準偏差、心拍変動性であってもよい。あるいは、特徴量データは、皮膚コンダクタンス水準の平均値や標準偏差や増減低下率などであってもよい。これらの特徴量データはどのように使用されてもよく、ある時点における絶対値として使用されてもよいし、２時点間の相対的な変化率として使用されてもよい。

前記訓練データを用いた感情推定モデルの生成には、学習の手法として、たとえば既知のＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）や深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）法が用いられてもよいし、単純に回帰分析法が利用されてもよい。また、学習モデルはユーザー個人毎に生成されてもよいし、複数のユーザーの訓練データを用いて人間に共通的なモデルが生成されてもよい。感情推定部１３３は、得られた感情推定モデルのデータを用いることで、ある人物の行動・生体データから個人感情を推定できるようになる。

感情推定サーバ１００（たとえば、感情推定部１３３）は、上述の個人感情推定処理のための訓練データや感情の推定モデル自体を生成する機能を有していてもよい。さらに、訓練データのための前述の特徴量データの生成は、感情推定サーバ１００ではなくカメラ２００や情報提示端末３００の方で行い、カメラ２００や情報提示端末３００が、前記特徴量データを感情推定サーバ１００へ送信するようにしてもよい。本実施形態では特に、前述の特許文献１のように、人物（ユーザー９００）の顔画像を入力としその表情（Ｅｋｍａｎの６基本表情等）の識別結果の推定感情情報を出力とするような感情推定方法を主に想定している。

感情人物照合部１３５は、複数のカメラ２００から取得されたユーザー９００の複数視点からの顔画像同士を対応付ける処理を行う対応付け処理部として機能する。この時、あるユーザー９００個人を基準とした対応付けを行いたいため、たとえばオフィス４００内に２名のユーザー９００Ａとユーザー９００Ｂがいた場合には、前記ユーザー９００Ａとユーザー９００Ｂそれぞれの顔画像（抽出画像）を互いに対応付けないことが必要である（ユーザー９００Ａとユーザー９００Ｂの個人感情は互いに異なるため）。感情人物照合部１３５は、対応付けられた顔画像（抽出画像）同士の関係性の情報を記憶部１２０に記憶させてもよい。なお、顔画像同士の対応付けには、顔画像同士が直接的に対応付けられる場合だけではなく、複数の顔画像それぞれから得られる推定感情情報同士が直接対応付けられる場合も含められ得る。

オフィス４００にユーザーが９００Ａと９００Ｂの２名おり、両名を撮像範囲内に捉えるカメラが２００Ａと２００Ｂの２台あった場合、ユーザー９００Ａの顔画像はカメラ２００Ａと２００Ｂそれぞれで撮られた２視点分ある。このとき、たとえばカメラ２００Ａとカメラ２００Ｂとによって撮像されたユーザー９００Ａの顔画像をそれぞれ、顔画像９００Ａ－２００Ａ、顔画像９００Ａ－２００Ｂとする。同様に、ユーザー９００Ｂの顔画像としても、顔画像９００Ｂ－２００Ａ、顔画像９００Ｂ－２００Ｂの２視点分が得られる。この時、顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂを対応付け、顔画像９００Ｂ－２００Ａと顔画像９００Ｂ－２００Ｂを対応付けるのが正しい処理となる。それ以外の撮像・推定対象人物が異なる組み合わせ、たとえば顔画像９００Ａ－２００Ａと顔画像９００Ｂ－２００Ｂを対応付ける処理は、本実施形態においては誤りであり、これを避ける必要がある。

前記顔画像の正しい対応付けを行うため、感情人物照合部１３５はユーザー９００の位置情報を利用してもよい。すなわち、感情人物照合部１３５は、複数の顔画像それぞれに写るユーザーの空間における位置情報に基づいて、複数の顔画像を対応付けてもよい。たとえば、感情人物照合部１３５は、複数の顔画像それぞれに写るユーザーの位置同士が所定の範囲内に収まる場合に複数の顔画像を対応付けてもよい前述のように、オフィス４００内に設置された各カメラ２００は、撮像範囲内に含まれるユーザー９００の位置を推定する機能を有していてもよい。物理空間内のある３次元位置に複数の人物が重なって存在することはできないため、ある３次元位置に存在するユーザー９００は一意に定まる。感情人物照合部１３５は、ユーザー９００毎に顔画像と位置情報とを対応付けて感情人物位置ＤＢ１２２に記憶させてもよい。なお、前記位置情報は３次元以外、たとえば水平面等上の２次元位置の情報でも構わない。

たとえば、前述の顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂが位置情報Ａ（例：Ｘ＝０、Ｙ＝０、Ｚ＝０）に対応付けられており、顔画像９００Ｂ－２００Ａと顔画像９００Ｂ－２００Ｂが位置情報Ｂ（例：Ｘ＝２０００、Ｙ＝３０００、Ｚ＝０）に対応付けられていれば、感情人物照合部１３５は、それぞれ等しい位置情報に対応付けられた顔画像同士の対応付けを行ってもよい。すなわち、感情人物照合部１３５は、同一の位置情報Ａに対応付けられている顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂとを対応付け、同一の位置情報Ｂに対応付けられている顔画像９００Ｂ－２００Ａと顔画像９００Ｂ－２００Ｂとを対応付けてもよい。

なお、本実施形態では位置情報に基づく複数視点の画像や推定感情情報の対応付けを主に想定し説明したが、その他、感情人物照合部１３５は、公知の複数カメラ間人物対応付け技術（ＰｅｒｓｏｎＲｅ－ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）を用い、たとえば各人物の属性情報（人物の年齢、性別、服装など）や見た目のアピアランス情報（肌の色、服の色などといった人物の外観に関する情報）を利用した対応付け処理を行っても構わない。また、感情人物照合部１３５は、公知の顔認識技術を用い、個人同定情報を利用した対応付け処理を行っても構わない。

ここで、図５を参照して、前述した感情人物位置ＤＢ１２２について説明する。図５は、後述する感情人物照合部１３５によって紐づけ処理され記憶部１２０に記憶される感情人物位置ＤＢ１２２のデータテーブルの一例を説明するための説明図である。図５のデータテーブルには、データＩＤ、撮像カメラＩＤ、（ユーザー９００の）人物位置、（ユーザー９００の）人物ＩＤ、（ユーザー９００の）推定感情情報、その他の情報（たとえば、タイムスタンプ、評価値など）のデータが記憶されている。

データＩＤは、各データを一意に識別するための識別情報である。撮像カメラＩＤは、本実施形態に係る情報通信システムに含まれる複数のカメラ２００の各機体を一意に識別するための識別情報であり、どの撮影条件のカメラ２００から取得したセンサデータであるかの情報を得るために利用され得る。人物位置は、前記撮像カメラＩＤのカメラ２００から撮像されたユーザー９００のオフィス４００内の前記物理空間内のある３次元位置の情報を含む。人物ＩＤは、前記ユーザー９００を一意に識別するための識別情報を含み、特にオフィス４００内に複数のユーザー９００が存在した場合に必要な情報である。推定感情情報は、前述の感情推定部１３３により推定された前記ユーザー９００の推定感情情報である。

その他の情報は、たとえば、後述する撮影条件比較部１３７による撮影条件の評価値や、前記カメラ２００から取得したセンサデータの取得時刻（撮影時刻）を示すタイムスタンプデータを含む。上記では、ユーザー９００の位置情報を利用して顔画像同士の対応付けを行う例について説明したが、感情人物照合部１３５は、ユーザー９００の位置情報に加えて、あるいは、ユーザー９００の位置情報の代わりにタイムスタンプデータを利用してもよい。これによって、同一の人物が写る顔画像同士が正しく対応付けられる可能性が高まる。すなわち、感情人物照合部１３５は、複数の顔画像それぞれのタイムスタンプデータに基づいて、複数の顔画像を対応付けてもよい。たとえば、感情人物照合部１３５は、複数の顔画像それぞれのタイムスタンプデータ同士が所定の範囲内に収まる場合に複数の顔画像を対応付けてもよい。

なお、タイムスタンプデータは、それぞれの顔画像を撮影するカメラ２００によって付与されてよいが、複数のカメラ間において同じタイミングに付与されるタイムスタンプデータにずれが生じないよう、複数のカメラ間で同期をとる仕組みが設けられるのが望ましい。たとえば、複数のカメラそれぞれと通信可能なタイム管理サーバが存在する場合、タイム管理サーバによって複数のカメラそれぞれに対して同一時刻が通知されることによって同期がとられてもよい。タイム管理サーバの機能は、感情推定サーバ１００が有してもよいし、感情推定サーバ１００とは別のサーバが有してもよい。

図５では、たとえば、データＩＤが「０００１」のデータと、データＩＤが「０００２」のデータとは、撮像カメラＩＤが「Ｃ０１」のカメラ２００から同一時刻Ｔ１（同一タイムスタンプデータ）に生成されたデータで、しかし異なる２名のユーザー９００についてのデータであってもよい。

撮影条件比較部１３７は、感情人物照合部１３５によって対応付けられたユーザー９００の複数視点からの複数の顔画像に対して、それぞれの撮影条件の評価値を算出する評価値算出部として機能する。前記撮影条件の評価値としては、感情推定処理における外乱要因、たとえば人物の撮像方向や姿勢による見えの変化、照明変動、オクルージョン等の影響が小さく、それらによる推定精度の低下が小さい条件ほど高い（好ましい）値が付けられるものとする。

前記外乱要因と評価値設定の例として、顔方向の要因では、通常正面顔に近い撮影条件ほど顔の正規化処理と歪みの影響が少なくて済み、高い精度での表情推定処理が実現できる。したがって、撮影条件比較部１３７は、複数の顔画像それぞれに対応して、顔画像に写るユーザー９００と顔画像を撮像するカメラ２００との角度に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部１３７は、カメラ２００の撮影光軸と対象のユーザー９００の顔の真正面の軸の成す角度が小さいほど、撮影条件に対して高い評価値を付けてよい。

また、照明変動の要因では、顔の正面に対して一様に照明があたり顔領域内の照明による陰影差が小さいほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部１３７は、複数の顔画像それぞれに対応して、人物に対する光照射度合いに基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部１３７は、顔画像の解析によって得られた明度分布から顔領域内の陰影差を算出し、陰影差が小さいほど、撮影条件に対して高い評価値を付けてよい。

さらに、オクルージョンの要因では、顔画像上の遮蔽される領域面積（遮蔽面積）が小さいほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部１３７は、複数の顔画像それぞれに対応して、人物の遮蔽度合いに基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部１３７は、顔画像の解析によって得られた遮蔽面積が小さいほど、撮影条件に対して高い評価値を付けてよい。なお、遮蔽面積は、顔画像から抽出されたもののその抽出処理の尤度が所定値よりも低かった顔の特徴点、または、顔画像から抽出されなかった顔の特徴点に関する情報（たとえば、特徴点の数、特徴点の位置、特徴点の分布など）に基づいて算出されてよい。

その他、画像情報量の要因では、カメラ２００とユーザー９００の距離がより近いことにより、顔画像（顔領域）の画素数が多いほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部１３７は、複数の顔画像それぞれに対応して、顔画像に写るユーザー９００と顔画像を撮像するカメラ２００との距離に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部１３７は、カメラ２００と対象のユーザー９００との距離が小さいほど、撮影条件に対して高い評価値を付けてよい。

また、画像情報量の要因では、カメラ２００の撮像画素数が多いことにより、顔画像（顔領域）の画素数が多いほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部１３７は、複数の顔画像それぞれに対応して、顔画像の解像度に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部１３７は、顔画像の解像度が高いほど、撮影条件に対して高い評価値を付けてよい。

画像品質の要因では、画像データの（非可逆の）圧縮率が低く画像品質が高いほど画像ノイズが少なく高い精度での表情推定処理が実現できる。したがって、撮影条件比較部１３７は、複数の顔画像それぞれに対応して、顔画像の画像品質（たとえば圧縮処理に伴い発生する画像ノイズの強さ）に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部１３７は、顔画像の画像品質が高いほど、撮影条件に対して高い評価値を付けてよい。

前記の撮影条件の評価値に関する記載は例であり、それ以外にも表情推定処理の精度が高くなるように外乱要因の影響を大きく抑えられる撮影条件ほど高い評価値が付けられてよい（表情推定処理における外乱要因についての解説は、たとえば、非特許文献５：Wang, M. & Deng, W., Deep face recognition: A survey,
https://arxiv.org/abs/1804.06655）。

また、撮影条件比較部１３７は、前記外乱要因の影響の小ささではなく、より直接的に、感情推定部１３３がユーザー９００の顔画像から感情推定処理する際に求められる「尤度」の高さに応じて前記撮影条件の評価値を定めてもよい。すなわち、撮影条件比較部１３７は、複数の推定感情情報それぞれの推定における尤度に基づいて評価値を設定してもよい。より具体的に、撮影条件比較部１３７は、推定感情情報の推定における尤度が高いほど、撮影条件に対して高い評価値をつけてもよい。通常、外乱要因の影響が大きいほど尤度も小さくなる。なお、尤度とは、たとえば、算出された推定感情情報の尤もらしさを表す情報であり、または、算出された推定感情情報の蓋然性を０～１の間で数値化した確率であってもよい。

図１の例で説明すると、ユーザー９００に対し、顔の真正面に近い位置の撮影条件のカメラ２００Ａと比較して顔の斜め方向から撮影しているカメラ２００Ｂの顔画像の方が撮影条件の評価値は低くなる。また、カメラ２００Ｃはカメラ２００Ｂよりも、ユーザー９００の顔の真正面から離れた角度から撮影している上にユーザー９００の位置から遠く（距離が大きく）、加えて障害物５００がユーザー９００との間に存在しオクルージョンが発生している。そのため、カメラ２００Ｂよりカメラ２００Ｃの顔画像の方が撮影条件の評価値は低くなる。全体では、撮影条件の評価値の高さは、カメラ２００Ａ＞カメラ２００Ｂ＞カメラ２００Ｃ、の顔画像の順になるであろう。同様に、照明６００も評価値に影響を与える（陰影差が出ないように一様に照明が当たる方が、評価値が高い）。

総合感情推定部１３９は、感情人物照合部１３５によって対応付けられたあるユーザー９００の複数視点からの複数の顔画像それぞれから感情推定部１３３によって推定された推定感情情報と、撮影条件比較部１３７によって算出された評価値とに基づいて、あるユーザー９００の総合的な推定感情情報を算出する。

快－不快感情に関する感情推定を例として説明する。オフィス４００のカメラ２００Ａ、２００Ｂ、２００Ｃの撮像画像から、顔検出部１３１によって、ユーザー９００の顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂと顔画像９００Ａ－２００Ｃが抽出されると、感情人物照合部１３５によってこれらの顔画像が対応付けられる。撮影条件比較部１３７により、顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂと顔画像９００Ａ－２００Ｃの撮影条件に対して、３倍、２倍、１倍高い（好ましい）評価値が付けられたとする。また、感情推定部１３３によって、顔画像９００Ａ－２００Ａに対応する推定感情情報が快、９００Ａ－２００Ｂに対応する推定感情情報が不快、９００Ａ－２００Ｃに対応する推定感情情報が快（説明簡略化のため本例では感情の強度は考えない）であると推定されたとする。

かかる場合、
推定感情情報が「快」であるのは、
９００Ａ－２００Ａ：評価値「３倍」、９００Ａ－２００Ｃ：評価値「１倍」の場合であるため、推定感情情報「快」の合計評価値は、３倍＋１倍＝４倍と算出される。
推定感情情報が「不快」であるのは、
９００Ａ－２００Ｂ：評価値「２倍」の場合であるため、推定感情情報「不快」の合計評価値は、２倍である。

したがって、「快」の合計感情値：「不快」の合計評価値＝４：２であるため、「快」の合計評価値の方が高いため、総合感情推定部１３９は、ユーザー９００の総合的な推定感情情報を「快」と算出する。このように、総合感情推定部１３９は、推定感情情報の値ごとに、顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂと顔画像９００Ａ－２００Ｃそれぞれの撮影条件の評価値を合計して、合計評価値が最大となる推定感情情報を代表値として選択し、ユーザー９００の総合的な推定感情情報としてもよい。

なお、ここでは、合計評価値が最大となる推定感情情報を総合的なユーザー９００の総合的な推定感情情報とする場合を主に想定した。しかし、感情の強度を考える場合には、総合感情推定部１３９は、各推定感情情報の値に対して対応する評価値を乗じた値を、複数の推定感情情報について合計し、合計して得られた値を総合的なユーザー９００の総合的な推定感情情報として算出してもよい。かかる算出方法を上記の例に適用すると、ユーザー９００の総合的な推定感情情報は、下記の式（１）のように表現される。

総合的な推定感情情報＝３×（９００Ａ－２００Ａの推定感情情報）＋２×（９００Ａ－２００Ｂの推定感情情報）＋１×（９００Ａ－２００Ｃの推定感情情報）・・・（１）

さらに、撮影条件比較部１３７によって算出された評価値は、総合感情推定部１３９によってそのまま使われなくてもよい。たとえば、総合感情推定部１３９は、顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂと顔画像９００Ａ－２００Ｃそれぞれの撮影条件の評価値に基づいて、９００Ａ－２００Ａの推定感情情報と９００Ａ－２００Ｂの推定感情情報と９００Ａ－２００Ｃの推定感情情報それぞれの重みを算出してもよい。そして、総合感情推定部１３９は、これらの重みとこれらの推定感情情報とに基づいて、ユーザー９００の総合的な推定感情情報を算出してもよい。

一例として、総合感情推定部１３９は、評価値間の正規化に基づいて重みを算出してもよい。より具体的に、総合感情推定部１３９は、撮影条件比較部１３７によって算出された評価値を、顔画像９００Ａ－２００Ａと顔画像９００Ａ－２００Ｂと顔画像９００Ａ－２００Ｃとについての合計が１になるように調整することによって、重みを算出してもよい。そして、総合感情推定部１３９は、算出した重みを対応する推定感情情報の値に乗じてもよい。たとえば、式（１）に示された評価値である３倍、２倍、１倍は、３／６、２／６、１／６となり、式（１）は、下記の（２）のように置き換えられる。

総合的な推定感情情報＝（３／６）×（９００Ａ－２００Ａの推定感情情報）＋（２／６）×（９００Ａ－２００Ｂの推定感情情報）＋（１／６）×（９００Ａ－２００Ｃの推定感情情報）・・・（２）

また、前記した例では、１種類の撮影条件を主に考慮してユーザー９００の総合的な推定感情情報を算出する場合を説明した。しかし、複数種類の撮影条件を考慮してユーザー９００の総合的な推定感情情報を算出することも可能である。かかる場合であっても、同一の種類の撮影条件についての総合的な推定感情情報は、前記した例と同様に算出されればよい。異なる種類の撮影条件同士は、等価として扱われて重みが算出されてもよいし、撮影条件に優先順位が設けられていてもよく、優先順位に基づいて重みが算出されてもよい。

すなわち、総合感情推定部１３９は、撮影条件の優先順位および評価値に基づいて、重みを算出する。たとえば、総合感情推定部１３９は、異なる撮影条件の評価値同士が同じ値であっても、優先順位がより高い撮影条件の評価値の重みを大きく算出すればよい。たとえば、撮影条件の優先順位は、あらかじめ手動によって設定されてもよいし、たとえば重回帰分析における標準回帰係数や寄与率等の情報、ニューラルネットワークの学習によって得られた重み（Ｗｅｉｇｈｔ）の分布や特徴量選択等の情報に基づいて、システムによって自動的に設定されてもよい。

さらに、総合感情推定部１３９は、複数のカメラ２００からの入力データに対応する複数のパターン認識やニューラルネットワークからのアンサンブル学習や特徴量のｃｏｎｃａｔ処理を行うことにより、前記総合的な推定感情情報を算出してもよい。

次に、本実施形態に係る「情報提示端末３００」の機能構成の一例を説明する。情報提示端末３００は、ユーザー９１０（図１）からの入力に応じて他のユーザー９００へ通信要求処理を行ったり、該他のユーザー９００の総合的な推定感情情報を取得して該ユーザー９１０へ情報提示したりすることができる。

一例として、情報提示端末３００は汎用的なスマートフォンやタブレット端末であってもよい。また、図１では情報提示端末３００は１名のユーザー９１０に対応して１台存在するように図示されているが、複数のユーザー９１０に共用される共有型端末であってもよい。さらに別の一例として、情報提示端末３００は、映像通信機能付の現金自動預け払い機ＶＴＭ（Video Teller Machine）、駅自動券売機、ビジュアルコールセンターシステム等の表示部付の筐体装置などから送信される計測データに基づく顧客の感情推定情報をサポート担当者に提示する端末であってもよい。

図６は、本実施形態に係る情報提示端末３００の機能構成の一例を示すブロック図である。図６を参照すると、情報提示端末３００は、通信部３１０、記憶部３２０、制御部３３０、入力部３４０及び提示部３５０を備える。

通信部３１０は、他の装置と通信する。たとえば、通信部３１０は、ＬＡＮ５０に直接的に接続され、感情推定サーバ１００と通信する。なお、通信部３１０は、通信インタフェース８１１により実装され得る。

記憶部３２０は、情報提示端末３００の動作のためのプログラム及びデータを記憶する。なお、記憶部３２０は、記憶装置８０９により実装され得る。

制御部３３０は、情報提示端末３００の様々な機能を提供する。なお、制御部３３０は、ＣＰＵ８０３、ＲＯＭ８０５及びＲＡＭ８０７により実装され得る。

入力部３４０は、ユーザー９１０からの入力を受け付ける。そして、入力部３４０は、入力結果を制御部３３０へ提供する。前記ユーザー９１０からの入力とは、たとえば、他のユーザー９００を通信要求相手として指定するもので、該他のユーザー９００の識別情報を選択すること等によって実現される。なお、入力部３４０は、入力装置８１５により実装され得る。

提示部３５０は、制御部３３０による制御に従って、ユーザーによって知覚され得る情報の提示を行う。本発明の実施形態においては、提示部３５０がユーザーによって視覚的に知覚される表示画面を表示する場合を主に想定する。かかる場合、提示部３５０は、表示装置８２３により実現され得る。しかし、提示部３５０がユーザーの聴覚によって知覚される情報を提示する場合、提示部３５０は、スピーカにより実現されてもよい。あるいは、提示部３５０がユーザーの触覚や嗅覚によって知覚される情報を提示する場合、提示部３５０は、触覚または嗅覚提示装置により実現されてもよい。

たとえば、提示部３５０は、ユーザー９１０が入力部３４０から指定した他のユーザー９００に対応する総合的な推定感情情報を情報提示する。提示部３５０は、コミュニケーションメディアの一例としての拠点俯瞰動画像において他のユーザー９００の人物像が映っている領域の近傍の領域に該他のユーザー９００の総合的な推定感情情報を表示させてもよい。このとき、提示部３５０は、該他のユーザー９００の総合的な推定感情情報とともに、この総合的な推定感情情報の推定精度を提示してもよい。かかる推定精度は、前記した個々の推定感情情報に基づく総合的な推定感情情報の算出と同様な手法によって、個々の推定感情情報の推定精度に基づいて算出されてもよい。

また、前記総合的な推定感情情報と総合的な推定感情情報の推定精度は、たとえば感情推定サーバ１００の記憶部１２０や情報提示端末３００の記憶部３２０に蓄積保存されてもよい。その場合、制御部３３０は、該蓄積されたデータに基づいて、総合的な推定感情情報および総合的な推定感情情報の推定精度それぞれの履歴情報を、たとえば時系列グラフ等に加工して提示部３５０に画面表示してもよい。

図７は、情報提示端末３００の提示部３５０によって提示された表示画面の一例を説明するための説明図である。前記表示画面には、たとえばコミュニケーションメディアとしてカメラ２００により俯瞰的に撮像された動画像が表示されており、該動画像の中央付近の画面領域にはユーザー９００の人物像が映っている。さらに、制御部３３０は、動画像（人物領域画像）においてユーザー９００が写る座標に応じた位置に総合的な推定感情情報が重畳されるように制御する。より具体的に、前記ユーザー９００の人物像の近傍位置には前記ユーザー９００に紐づけられた総合的な推定感情情報、総合的な推定感情情報の推定精度、およびそれらの履歴情報が画面表示されている。

前記ユーザー９００の人物像と、ユーザー９００の総合的な推定感情情報、総合的な推定感情情報の推定精度およびそれらの履歴情報とが近傍位置に表示されることで、情報提示端末３００の提示部３５０を見るユーザーは、コミュニケーションメディアと推定された情報とを関連づけて認知しやすくなる。この近傍位置への表示機能は、特にひとつのコミュニケーションメディアに複数のユーザーの情報が含まれている場合等に有効である。コミュニケーションメディアとユーザー９００の総合的な推定感情情報、総合的な推定感情情報の推定精度とを併せてデータとして扱い、それらデータの情報が相互に関連し合って効果を発揮する点が本コミュニケーションシステムの特徴のひとつである。

ここで、近傍位置は特に限定されない。たとえば、近傍位置は、ユーザー９００の人物像の位置を基準として所定の距離以内の位置であってもよい。なお、図７に示した例では、ユーザー９００の総合的な推定感情情報、総合的な推定感情情報の推定精度およびそれらの履歴情報とユーザー９００の識別情報とを含んだ表示領域が吹き出し形状によって表示されている。これによって、各情報とユーザーとの関連が把握しやすくなる。しかし、表示領域の形状は吹き出し形状に限定されない。

なお、ここではコミュニケーションメディアがリアルタイムに伝送されたデータである場合を主に想定した。しかし、変形例として、前述のコミュニケーションメディアは必ずしもリアルタイム伝送されたデータではなくてもよく、たとえば「録画」や「録音」された過去のメディアデータであっても構わない。

前述のように、本発明の実施形態に係るコミュニケーションシステムは新しい電話システムであることも想定しており、一機能として遠隔地の協働メンバーの過去の様子を伺えてもよい。このとき、たとえばユーザー９００は、過去の録画人物映像データおよび該過去の録画人物映像データに紐づけられた該過去の総合的な推定感情情報、総合的な推定感情情報の推定精度を、情報提示端末３００を介して感情推定サーバ１００の記憶部１２０から取得できてもよい。

たとえばユーザー９１０が、情報提示端末３００を介して、現在から２時間前の時点のユーザー９００の録画人物映像データと総合的な推定感情情報、総合的な推定感情情報の推定精度とを関連づけて取得できてもよい。このような場合、２時間後のリアルタイムの時点では本コミュニケーションシステム内にユーザー９００がすでに不在になっている等の可能性もある。しかし、前記過去のメディアデータを取得する場合には必ずしも複数のユーザーがシステム内に同時に存在する必要はなく、１名のユーザーしか本コミュニケーションシステムを使用していない場合でもよい。

続いて、図８を参照して、本実施形態に係る情報処理動作の例を説明する。図８は、本実施形態に係る情報通信システムの動作フローの一例を示す説明図である。図８に示したように、ステップＳ１１０１で、感情推定サーバ１００の顔検出部１３１は、カメラ２００の撮像画像から、ユーザー９００の顔画像の領域を特定し、切り出して（抽出して）記憶部１２０に記憶する。ステップＳ１１０３で、感情推定サーバ１００の顔検出部１３１は、複数のカメラ２００の撮像画像から顔検出されたか否かを判定する。

ステップＳ１１０３の処理で複数のカメラ２００の撮像画像から顔検出された場合（Ｓ１１０３：ＹＥＳ）は、ステップＳ１１０５で、感情推定サーバ１００の感情人物照合部１３５は、前記複数のカメラ２００から取得されたユーザー９００の複数視点からの顔画像を対応付ける処理を行う。ステップＳ１１０７で、感情推定サーバ１００の撮影条件比較部１３７は、Ｓ１１０５で対応付けられたユーザー９００の複数視点からの複数の顔画像に対して、それぞれの撮影条件の評価値を算出する。

ステップＳ１１０９で、感情推定サーバ１００の総合感情推定部１３９は、感情人物照合部１３５で対応付けられたあるユーザー９００の複数視点からの複数の顔画像に基づく推定感情情報と、撮影条件比較部１３７により算出された評価値とに基づいて、あるユーザー９００の総合的な推定感情情報を算出する。このとき、推定感情情報の値ごとに評価値が合計され、合計評価値が最大となる推定感情情報がユーザー９００の総合的な推定感情情報として選択されてもよい。あるいは、評価値から重みが算出され、重みと推定感情情報とに基づいてユーザー９００の総合的な推定感情情報が算出されてもよい。

また、ステップＳ１１０３の処理で、複数のカメラ２００の撮像画像から顔検出されず単一のカメラ２００の撮像画像からのみ顔検出された場合（Ｓ１１０３：ＮＯ）は、ステップＳ１１１１で、総合感情推定部１３９はあるユーザー９００の単一視点からの顔画像と、その感情情報とから、あるユーザー９００の推定感情情報を算出する。このとき、総合感情推定部１３９は、感情推定部１３３によって推定された推定値をそのまま用いてもよいし、撮影条件比較部１３７により得られる撮影条件の評価値の情報に基づき感情推定部１３３の推定値に修正を加えてもよい（たとえば、外乱要因の大きさに応じて感情推定部１３３の推定値を変更や増減させてもよい）。

以上により、感情推定サーバ１００は、オフィス４００内の複数のカメラから得られるユーザー９００の撮像画像を基に、単一カメラの場合と比較して、各種外乱要因の影響を抑えたより高い推定精度の推定感情情報を得ることができる。

（２．まとめ）
以上のように、本発明の実施形態によれば、複数のカメラから得られる複数視点の画像に基づき総合的な感情推定処理を行うことで、従来の単一カメラによる感情推定処理と比較して高い精度の感情推定が実現される。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１００感情推定サーバ
１１０通信部
１２０記憶部
１２１感情推定辞書ＤＢ
１２２感情人物位置ＤＢ
１３０制御部
１３１顔検出部
１３３感情推定部
１３５感情人物照合部
１３７撮影条件比較部
１３９総合感情推定部
２００カメラ
２１０通信部
２２０計測部
２３０制御部
３００情報提示端末
３１０通信部
３２０記憶部
３３０制御部
３４０入力部
３５０提示部
５００障害物
６００照明

Claims

複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、
前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、
を備える、感情推定装置。
前記対応付け処理部は、前記複数の人物領域画像それぞれに写る前記人物の空間における位置情報に基づいて、前記複数の人物領域画像を対応付ける、
請求項１に記載の感情推定装置。
前記対応付け処理部は、前記複数の人物領域画像それぞれの撮影時刻に基づいて、前記複数の人物領域画像を対応付ける、
請求項１または２に記載の感情推定装置。
前記総合感情推定部は、前記評価値に基づいて複数の推定感情情報それぞれの重みを算出し、前記推定感情情報と前記重みとに基づいて、前記総合的な推定感情情報を生成する、
請求項１～３のいずれか一項に記載の感情推定装置。
前記総合感情推定部は、前記撮影条件の優先順位および前記評価値に基づいて、前記重みを算出する、
請求項４に記載の感情推定装置。
前記総合感情推定部は、前記評価値間の正規化に基づいて前記重みを算出する、
請求項４に記載の感情推定装置。
前記評価値算出部は、当該複数の推定感情情報それぞれの推定における尤度に基づいて前記評価値を設定する、
請求項１～６のいずれか一項に記載の感情推定装置。
前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物と前記人物領域画像を撮像するカメラとの角度または距離に基づいて、前記人物領域画像の撮影条件の評価値を設定する、
請求項１～７のいずれか一項に記載の感情推定装置。
前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物に対する光照射度合い、および、前記人物の撮像遮蔽度合いの少なくともいずれか一方に基づいて、前記人物領域画像の撮影条件の評価値を設定する、
請求項１～８のいずれか一項に記載の感情推定装置。
前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物領域画像の解像度および画像品質の少なくともいずれか一方に基づいて、前記人物領域画像の撮影条件の評価値を設定する、
請求項１～９のいずれか一項に記載の感情推定装置。
感情推定装置が、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付けることと、
前記感情推定装置が、前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、
前記感情推定装置が、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、
を含む、感情推定方法。
コンピュータを、
複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、
前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、
を備える感情推定装置として機能させるためのプログラム。
複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御する制御部を備える、
情報提示装置。
前記制御部は、
前記人物が写る人物領域画像が提示されるように制御するとともに、前記人物領域画像において前記人物が写る座標に応じた位置に前記総合的な推定感情情報が重畳されるように制御する、
請求項１３に記載の情報提示装置。
複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、情報提示装置が、前記総合的な推定感情情報が提示されるように制御することを含む、
情報提示方法。
コンピュータを、
複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御する制御部を備える、
情報提示装置として機能させるためのプログラム。
複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、
前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、
を備える、感情推定装置と、
前記総合的な推定感情情報が提示されるように制御する制御部を備える、
情報提示装置と、
を有する、感情推定システム。
感情推定装置が、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付けることと、
前記感情推定装置が、前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、
前記感情推定装置が、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、
情報提示装置が、前記総合的な推定感情情報が提示されるように制御することと、
含む、感情推定方法。