JP2018049479A

JP2018049479A - 情報処理装置、評価システムおよびプログラム

Info

Publication number: JP2018049479A
Application number: JP2016184833A
Authority: JP
Inventors: 耕輔丸山; Kosuke Maruyama; 伊藤　篤; Atsushi Ito; 篤伊藤; 鈴木　譲; Yuzuru Suzuki; 譲鈴木; 河野　功幸; Yoshiyuki Kono; 功幸河野
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2018-03-29

Abstract

【課題】撮影手段と対象（参加者）との位置関係の影響を受け難く、対象の負担が少ない状態で対象等の状態を判定する手法を実現する。【解決手段】領域識別部が、予め定められた特徴量に基づいて動画のフレームから特定の領域を識別し、関連領域特定部が、フレーム間の特徴量の変化に基づいて領域識別部に識別された領域のうち人体が映っている対象者領域２２１を特定する。そして、活性度評価部が、関連領域特定部により人体が映っている対象者領域２２１を特定された動画において、フレーム間における対象者領域２２１の特徴量の変化に基づき、動画に映った人物の活性度を評価する。【選択図】図６

Description

本発明は、情報処理装置、評価システムおよびプログラムに関する。

講義や集会等における各参加者の状態を、様々な手法を用いてデータとして取得し、分析することが行われている。例えば、参加者を撮影して得た画像から参加者の顔画像を抽出し、得られた顔画像を解析して参加者の状態を判定する従来技術がある。特許文献１には、授業等を受講する複数の受講者の受講風景を撮影して得た画像から、複数の受講者の顔画像を抽出する抽出手段と、抽出された顔画像に基づいて受講者の状態を判定する判定手段と、抽出手段が抽出した受講者の顔画像に判定手段が判定した状態を示す指標を付して一覧表示するための一覧画像を生成する画像生成手段とを備えた受講状態判別装置が開示されている。

また、参加者がセンサ等の電子機器を装着し、電子機器からの信号を解析することにより参加者の状態を判定する従来技術がある。特許文献２には、被検者に装着可能で被検者の身体の動く状態を検出可能な生体情報検出装置が開示されている。この装置は、被検者の身体の動く状態を検出する状態検出手段と、被検者のとるべき身体の状態に対応する状態検出手段の検出情報を基準検出情報として記憶する基準情報記憶手段と、基準情報記憶手段の記憶する基準情報を参照して、状態検出手段の検出情報から被検者のとるべき身体の状態と相違した状態かを判定する判定手段と、判定手段の判定結果を報知可能な報知手段とを備え、基準情報記憶手段の記憶する基準検出情報は、被検者のとるべき模範的な姿勢・動きをしたときの検出情報、及び誤りやすい姿勢・動きをしたときの検出情報に対応する情報を含む。

特開２００６−３３０４６４号公報特開２０１１−２４００４７号公報

しかし、顔認識のように身体の特定の部位のみにより参加者の状態を判定する場合、参加者と撮影手段との位置関係によっては目的の部位の適当な画像を得ることができず、精度の高い判定ができない場合がある。また、参加者に電子機器を装着させて情報を取得する手法は、電子機器を装着するという負担を参加者に強いることになる。

本発明は、撮影手段と対象（参加者）との位置関係の影響を受け難く、対象の負担が少ない状態で対象等の状態を判定する手法を実現することを目的とする。

本発明の請求項１に係る情報処理装置は、
動画から人体が映っている領域を特定する領域特定部と、
前記領域特定部により人体が映っている前記領域を特定された動画において、複数のフレームにおける当該領域の評価用の特徴量の変化に基づき、当該動画に映った人物の活性度を評価する活性度評価部と、
を備えることを特徴とする、情報処理装置である。
本発明の請求項２に係る情報処理装置は、
動画のフレームにおいて、予め定められた識別用の特徴量に基づき人体の部位が映っている可能性のある領域を識別する領域識別部をさらに備え、
前記領域特定部は、前記領域識別部により識別された各領域における領域特定用の特徴量の変化に基づき、人体が映っている前記領域を特定することを特徴とする、請求項１に記載の情報処理装置である。
本発明の請求項３に係る情報処理装置は、
前記領域特定部は、前記識別用の特徴量として動画のフレームにおける色彩の境界を用いて、当該フレームにおいて人体の部位が映っている可能性のある領域を識別し、
前記領域特定部は、前記領域特定用の特徴量として、前記領域識別部により識別された各領域における前記境界の変化量、領域内の色彩の変化量、領域の移動方向および移動量の少なくとも一つを用いて、当該領域識別部により識別された複数の領域のうち相互に関連する領域を、人体が映っている領域として特定することを特徴とする、請求項２に記載の情報処理装置である。
本発明の請求項４に係る情報処理装置は、
前記活性度評価部は、前記評価用の特徴量として、前記領域特定部により人体が映っている領域として特定された領域における前記境界の変化量、領域内の色彩の変化量、領域の移動方向および移動量の少なくとも一つを用いて、当該領域に対応する人物の活性度を評価することを特徴とする、請求項３に記載の情報処理装置である。
本発明の請求項５に係る情報処理装置は、
前記領域特定部は、前記領域識別部により識別された各領域における前記領域特定用の特徴量の変化に基づき、複数の人物により構成される集合に対応する領域をさらに特定し、
前記活性度評価部は、前記領域特定部により特定された前記集合の活性度の評価をさらに行うことを特徴とする、請求項４に記載の情報処理装置である。
本発明の請求項６に係る情報処理装置は、
前記活性度評価部は、前記領域特定部により特定された前記集合に対応する領域における前記評価用の特徴量の変化に基づき、当該集合の活性度を評価することを特徴とする請求項５に記載の情報処理装置である。
本発明の請求項７に係る情報処理装置は、
前記活性度評価部は、前記集合に属する前記人物の活性度を評価した評価結果に基づき、当該集合の活性度を評価することを特徴とする請求項５に記載の情報処理装置である。
本発明の請求項８に係る評価システムは、
動画を取得する取得手段と、
前記取得手段により取得された動画を解析して動画に映っている人物の活性度を評価する評価手段と、
前記評価手段による評価結果を出力する出力手段と、を備え、
前記評価手段は、
前記取得手段により取得された動画から人体が映っている領域を特定する領域特定部と、
前記領域特定部により人体が映っている前記領域を特定された動画において、複数のフレームにおける当該領域の評価用の特徴量の変化に基づき、当該動画に映った人物の活性度を評価する活性度評価部と、
を備えることを特徴とする、評価システムである。
本発明の請求項９に係る評価システムは、
前記評価手段の前記領域特定部は、特定した各領域における領域特定用の特徴量の変化に基づき、複数の人物により構成される集合に対応する領域をさらに特定し、
前記活性度評価部は前記領域特定部により特定された前記集合の活性度の評価をさらに行うことを特徴とする、請求項８に記載の評価システムである。
本発明の請求項１０に係るプログラムは、
コンピュータを、
動画から人体が映っている領域を特定する領域特定手段と、
前記領域特定手段により人体が映っている前記領域を特定された動画において、複数のフレームにおける当該領域の評価用の特徴量の変化に基づき、当該動画に映った人物の活性度を評価する活性度評価手段として機能させること、
を備えることを特徴とする、プログラムである。

請求項１の発明によれば、詳細な身体の部位を画像解析する構成と比較して、撮影手段と対象人物との位置関係の影響を受け難く、対象人物が電子機器を装着する構成と比較して、対象人物の負担が少ない状態で対象等の状態を判定することができる。
請求項２の発明によれば、詳細な身体の部位を個別に解析する構成と比較して、解像度の低い画像であっても、人体に対応する領域を特定することができる。
請求項３の発明によれば、色彩に基づく特徴量を用いることにより、詳細な身体の部位を個別に解析する構成と比較して、解像度の低い画像であっても、人体に対応する領域を特定することができる。
請求項４の発明によれば、色彩に基づく特徴量を用いることにより、詳細な身体の部位を個別に解析する構成と比較して、解像度の低い画像であっても、対象人物の評価を行うことができる。
請求項５の発明によれば、対象人物の評価のみを行う構成と比較して、複数の人物間の関係における活性度を評価することができる。
請求項６の発明によれば、集合を構成する領域自体の特徴量に基づいて評価することにより、集合に対して精度の高い評価を行うことができる。
請求項７の発明によれば、集合に属する人物の評価結果を用いて集合に対する評価を行うことにより、集合を評価するための処理の負荷を軽減することができる。
請求項８の発明によれば、取得手段により取得された動画に対する詳細な身体の部位の画像解析を行う構成と比較して、撮影手段と対象人物との位置関係の影響を受け難く、対象人物が電子機器を装着する構成と比較して、対象人物の負担が少ない状態で対象等の状態を判定することができる。
請求項９の発明によれば、対象人物の評価のみを行う構成と比較して、複数の人物間の関係における活性度を評価することができる。
請求項１０の発明によれば、詳細な身体の部位を画像解析する構成と比較して、本発明のプログラムを実行するコンピュータにおいて、撮影手段と対象人物との位置関係の影響を受け難く、対象人物が電子機器を装着する構成と比較して、対象人物の負担が少ない状態で対象等の状態を判定することができる。

本実施形態が適用される非言語情報評価システムの構成例を示す図である。情報処理装置のハードウェア構成例を示す図である。情報処理装置の機能構成を示す図である。端末装置のハードウェア構成例を示す図である。端末装置の機能構成を示す図である。フレーム間特徴量を用いて人体に関わる領域を特定する手法を説明する図であり、図６（Ａ）は、動画の１フレームにおいて、人物が横を向いて椅子に座っている様子を示す図、図６（Ｂ）は、動画の別の１フレームにおいて、同じ人物が前方へ乗り出した様子を示す図である。第１の適用場面でビデオカメラにより取得される評価対象者の画像の例を示す図である。第２の適用場面でビデオカメラにより取得される評価対象者の画像の例を示す図である。

＜本実施形態が適用される非言語情報評価システムの構成＞
図１は、本実施形態が適用される非言語情報評価システムの構成例を示す図である。図１に示すように、本実施形態による非言語情報評価システム１０は、動画取得装置としてのビデオカメラ１００と、動画解析装置としての情報処理装置２００と、情報処理装置２００による解析結果を出力する出力装置としての端末装置３００とを備える。ビデオカメラ１００と情報処理装置２００、情報処理装置２００と端末装置３００は、それぞれネットワーク２０を介して接続されている。

ネットワーク２０は、ビデオカメラ１００と情報処理装置２００および情報処理装置２００と端末装置３００の間で情報通信を行えるものであれば特に限定されず、例えばインターネットやＬＡＮ（Local Area Network）等としてよい。情報通信に用いられる通信回線は、有線であっても無線であっても良い。ビデオカメラ１００と情報処理装置２００とを接続するネットワーク２０と、情報処理装置２００と端末装置３００とを接続するネットワーク２０とは、共通のネットワークであってもよいし、異なるネットワークであってもよい。また、特に図示しないが、ネットワーク２０にはネットワークや通信回線を接続するためのゲートウェイやハブ等の中継装置が適宜設けられる。

本実施形態の非言語情報評価システム１０は、評価対象である人物または評価対象である複数人の集合を構成する人物の動画を解析して、その人物の動作や姿勢を非言語情報として抽出し、抽出された非言語情報に基づき評価対象を評価する。本実施形態の非言語情報評価システム１０は、例えば、授業、講演、催事、娯楽施設、その他の多くの人が集まる場所や場面において参加者の様子を評価したり、面接のような対象となる個人が固定される場面において個人の様子を評価したりするのに用いられる。評価対象、評価項目、評価内容などは、非言語情報評価システム１０の適用対象や適用場面等に応じて設定される。例えば、評価対象は、個々の人物とされる場合もあるし、複数の人物の集合（グループ、チーム等）とされる場合もある（以下、このような評価対象である人物または評価対象である集合を構成する人物を「評価対象者」と呼ぶ）。本実施形態では、評価対象者や評価対象者の集合の活性度を評価する。

図１に示すシステムにおいて、ビデオカメラ１００は、動画データの取得手段の一例であり、本実施形態による評価の適用対象等に応じて、教室、講演会場、催事場、娯楽施設などに設置され、評価対象者を撮影する。本実施形態では、ビデオカメラ１００により撮影された評価対象者の動画を解析し、動作や顔の表情といった非言語情報が抽出される。したがって、評価対象者の構成（個人か集合か等）、設置場所や撮影範囲の広さ等に応じて、評価対象者の動作や表情が識別できるように、ビデオカメラ１００の種類や設置台数が設定される。例えば広い場所で個人を撮影するには望遠カメラが用いられ、広い範囲に存在する複数の人物を撮影するには広角カメラが用いられる。また、評価対象者の身体の様々な部位を撮影するために、複数台のカメラを様々な向きで設置してもよい。また、高解像度のカメラを用いて広範囲を撮影することにより、複数人の画像を取得するとともに、得られた画像を拡大して個人の画像を解析対象とするようにしてもよい。また、本実施形態において、ビデオカメラ１００は、撮影した動画をデジタル・データとして、ネットワーク２０を介して情報処理装置２００へ送信する機能を備える。

情報処理装置２００は、評価手段の一例であり、ビデオカメラ１００により撮影された動画を解析して評価対象者に関する非言語情報を抽出し、評価するコンピュータ（サーバ）である。情報処理装置２００は、単体のコンピュータにより構成してもよいし、ネットワーク２０に接続された複数のコンピュータにより構成してもよい。後者の場合、後述する本実施形態の情報処理装置２００としての機能は、複数のコンピュータによる分散処理にて実現される。

図２は、情報処理装置２００のハードウェア構成例を示す図である。図２に示すように、情報処理装置２００は、制御手段および演算手段であるＣＰＵ（Central Processing Unit）２０１と、ＲＡＭ２０２およびＲＯＭ２０３と、外部記憶装置２０４と、ネットワーク・インターフェイス２０５とを備える。ＣＰＵ２０１は、ＲＯＭ２０３に格納されているプログラムを実行することにより、各種の制御および演算処理を行う。ＲＡＭ２０２は、ＣＰＵ２０１による制御や演算処理において作業メモリとして用いられる。ＲＯＭ２０３は、ＣＰＵ２０１が実行するプログラムや制御において用いられる各種のデータを格納している。外部記憶装置２０４は、例えば磁気ディスク装置や、データの読み書きが可能で不揮発性の半導体メモリで実現され、ＲＡＭ２０２に展開されてＣＰＵ２０１により実行されるプログラムや、ＣＰＵ２０１による演算処理の結果を格納する。ネットワーク・インターフェイス２０５は、ネットワーク２０に接続して、ビデオカメラ１００や端末装置３００との間でデータの送受信を行う。なお、図２に示す構成例は、情報処理装置２００をコンピュータで実現するハードウェア構成の一例に過ぎない。情報処理装置２００の具体的構成は、以下に説明する機能を実現し得るものであれば、図２に示す構成例に限定されない。

図３は、情報処理装置２００の機能構成を示す図である。図３に示すように、情報処理装置２００は、動画データ取得部２１０と、領域識別部２２０と、関連領域特定部２３０と、活性度評価部２４０と、出力部２５０とを備える。

動画データ取得部２１０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行し、ネットワーク・インターフェイス２０５を制御することにより実現される。動画データ取得部２１０は、ネットワーク２０を介してビデオカメラ１００から動画データを受信する。受信した動画データは、例えば図２に示すＲＡＭ２０２や外部記憶装置２０４に格納される。

領域識別部２２０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行することにより実現される。領域識別部２２０は、動画データ取得部２１０により取得された動画を解析し、評価対象者の部位が映っている可能性のある領域を識別する。具体的には、人体（全体）、人体の頭部、体部、腕部、手部、指、頭部の顔、目、口、鼻、耳、上半身、下半身などが映っている可能性のある領域、その他身体の各特徴点が映っている可能性のある領域等を識別する（以下、人体の全体や一部分を特に区別せず、部位、身体の部位などと呼ぶ）。

関連領域特定部２３０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行することにより実現される。関連領域特定部２３０は、領域識別部２２０により識別された各領域のうち、相互に関連する領域を特定する。具体的には、時間経過に伴う領域の位置や形の変化を調べ、同期していたり、連動していたりする領域どうしを関連する領域として特定する。この領域の特定に用いられる。

また、関連領域特定部２３０は、特定した相互に関連する領域を対比して分類し、統合して、人体に対応する領域の範囲を特定する。特定された範囲に含まれる領域群は、評価対象者ごとの人体に対応する領域となる。この特定も、相互に関連するとして特定された領域どうしの位置や形の変化に基づいて行う。さらに関連領域特定部２３０は、複数の評価対象者により構成される集合（以下、グループと呼ぶ）を評価対象とする場合、特定した人体に対応する領域どうしを対比して分類し、統合して、評価対象者のグループに対応する領域の範囲を特定する。特定された領域群は、同じグループに属す各評価対象者の人体に対応する領域の集まりとなる。

活性度評価部２４０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行することにより実現される。活性度評価部２４０は、関連領域特定部２３０により特定された領域の情報に基づき、評価対象者の活性度や、複数の評価対象者で構成されるグループの活性度を判定する。活性度は、各々の単位を構成する領域に関して、時間経過に伴う位置や形の変化の大きさに基づいて判定される。活性度の判定の詳細については後述する。

出力部２５０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行し、ネットワーク・インターフェイス２０５を制御することにより実現される。出力部２５０は、ネットワーク２０を介して、活性度評価部２４０による評価結果の情報を端末装置３００に送信する。

端末装置３００は、出力手段の一例であり、情報処理装置２００による評価結果を出力する情報端末（クライアント）である。端末装置３００としては、例えばパーソナルコンピュータ、タブレット端末、スマートフォン等の出力手段として画像表示手段を備えた装置が用いられる。

図４は、端末装置３００のハードウェア構成例を示す図である。図４に示すように、端末装置３００は、ＣＰＵ３０１と、ＲＡＭ３０２およびＲＯＭ３０３と、表示装置３０４と、入力装置３０５と、ネットワーク・インターフェイス３０６とを備える。ＣＰＵ３０１は、ＲＯＭ３０３に格納されているプログラムを実行することにより、各種の制御および演算処理を行う。ＲＡＭ３０２は、ＣＰＵ３０１による制御や演算処理において作業メモリとして用いられる。ＲＯＭ３０３は、ＣＰＵ３０１が実行するプログラムや制御において用いられる各種のデータを格納している。表示装置３０４は、例えば液晶ディスプレイにより構成され、ＣＰＵ３０１の制御により画像を表示する。入力装置３０５は、例えばキーボードやマウス、タッチセンサ等の入力デバイスで実現され、操作者の入力操作を受け付ける。一例として、端末装置３００がタブレット端末やスマートフォン等である場合は、液晶ディスプレイとタッチセンサとが組み合わされたタッチパネルが表示装置３０４および入力装置３０５として機能する。ネットワーク・インターフェイス３０６は、ネットワーク２０に接続して、ビデオカメラ１００や端末装置３００との間でデータの送受信を行う。なお、図４に示す構成例は、端末装置３００をコンピュータで実現するハードウェア構成の一例に過ぎない。端末装置３００の具体的構成は、以下に説明する機能を実現し得るものであれば、図４に示す構成例に限定されない。

図５は、端末装置３００の機能構成を示す図である。図５に示すように、本実施形態の端末装置３００は、評価結果取得部３１０と、表示画像生成部３２０と、表示制御部３３０と、操作受け付け部３４０とを備える。

評価結果取得部３１０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行し、ネットワーク・インターフェイス３０６を制御することにより実現される。評価結果取得部３１０は、ネットワーク２０を介して情報処理装置２００から評価結果のデータを受信する。受信した評価結果のデータは、例えば図４のＲＡＭ３０２に格納される。

表示画像生成部３２０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行することにより実現される。表示画像生成部３２０は、評価結果取得部３１０により取得された評価結果のデータに基づき、評価結果を示す出力画像を生成する。生成される出力画像の構成や表示態様は、評価項目や評価内容等に応じて設定し得る。出力画像の詳細については後述する。

表示制御部３３０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行することにより実現される。表示制御部３３０は、表示画像生成部３２０により生成された出力画像を、例えば図４に示すコンピュータにおける表示装置３０４に表示させる。また、表示制御部３３０は、表示装置３０４への表示に関する命令を受け付け、受け付けた命令に基づいて表示の切り替え等の制御を行う。

操作受け付け部３４０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行することにより実現される。操作受け付け部３４０は、操作者が入力装置３０５により行った入力操作を受け付ける。そして、操作受け付け部３４０により受け付けた操作にしたがって、表示制御部３３０が表示装置３０４への出力画像等の表示制御を行う。

＜領域識別部の処理＞
情報処理装置２００の領域識別部２２０による処理について説明する。領域識別部２２０は、ビデオカメラ１００により撮影された動画から、その動画に映っている人物の動作に係る部位に該当する領域を識別する。本実施形態では、動画のフレームにおける色彩に基づく量を識別用の特徴量として用いて領域を特定する。すなわち、色彩が大きく変化する箇所を境界とし、この色の境界（エッジ）により仕切られた近似する色彩の範囲を一つの領域（以下、色領域と呼ぶ）として特定する。色彩が異なるか近似するかの判断は、例えば、色彩を構成する赤（Ｒ）、緑（Ｇ）、青（Ｂ）の比率に基づいて行う。色彩が連続的に変化する部分（グラデーション）には境界は形成されない。また、一つの色領域が他のより大きな色領域に囲まれるような配置となっても良い。ただし、色領域は、予め定められた大きさを有するものとする。これにより、予め定められた大きさに満たない微小な領域は、色領域として判断されず、周囲のより大きな色領域に含まれることとなる。

＜関連領域特定部の処理＞
関連領域特定部２３０による処理について説明する。関連領域特定部２３０は、領域識別部２２０により識別された色領域に基づき、評価対象者の人体に対応する色領域群（以下、対象者領域と呼ぶ）を特定する。対象者領域は、相互に関連する色領域を統合して特定された領域である。複数の色領域が相互に関連するか否かの判断は、例えば、動画データの連続する２枚以上のフレームの差分から得られるフレーム間特徴量（領域特定用の特徴量）に基づいて行う。ここで、フレーム間特徴量としては、例えば、各フレームにおける対応するエッジの位置や形状の変化量、対応する色領域の色彩の変化量、対応する色領域の移動方向や移動量などが用いられる。なお、これらの色彩に基づく量の全てをフレーム間特徴量として用いるとは限らず、いずれか一つの量をフレーム間特徴量として用いてもよい。また、色領域の関連性を特定可能な量であれば、例示した以外の量をフレーム間特徴量として用いてもよい。関連領域特定部２３０は、予め設定された時間分のフレーム間特徴量を累積し、フレームごとのフレーム間特徴量の距離や類似度に基づいて、フレーム間特徴量を分類、統合する。これにより、動画において変化が同期していたり、連動していたりする色領域が特定され、特定された色領域群が、対象者領域として特定される。

図６は、フレーム間特徴量を用いて人体に関わる領域を特定する手法を説明する図である。図６（Ａ）は、動画の１フレームにおいて、人物が横を向いて椅子に座っている様子を示し、図６（Ｂ）は、動画の別の１フレームにおいて、同じ人物が前方へ乗り出した様子を示している。図６に示す例において、領域識別部２２０は、図６（Ａ）に映っている色の境界や変化量に基づき、近似する色が映っている範囲（色領域）を特定する。そして、領域識別部２２０は、図６（Ａ）のフレームと図６（Ｂ）のフレームとを対比し、対応する色の範囲（色領域）の移動方向および移動量に基づき、画像中の破線の枠で囲まれた領域２２１において、複数個の色の範囲が連動していることを認識する。そして、この領域２２１を人体の上半身が映っている領域として識別する。図６（Ａ）、（Ｂ）を参照すると、人体（上半身）を構成する色の範囲の動きに応じて、領域２２１の位置や大きさが変化している。同様にして、さらにフレーム間特徴量を用いた他のフレームとの対比を行うことにより、上半身に対応する色領域群で構成された領域２２１と、下半身の各部に対応する色領域群とが統合されて、対象者領域が特定される。

さらに、関連領域特定部２３０は、活性度評価部２４０により評価対象者が所属するグループの活性度を判定する場合、特定した対象者領域に基づき、評価対象者が属すグループに対応する対象者領域（以下、グループ領域と呼ぶ）を特定する。グループ領域は、相互に関連する対象者領域を統合して特定された領域である。複数の対象者領域色領域が相互に関連するか否かの判断は、上述した色領域の関連性と同様に、例えば、動画データの連続する２枚以上のフレームの差分から得られるフレーム間特徴量（評価用の特徴量）に基づいて行う。すなわち、予め設定された時間分のフレーム間特徴量を累積し、フレームごとのフレーム間特徴量の距離や類似度に基づいて、フレーム間特徴量を分類、統合する。これにより、動画において変化が同期していたり、連動していたりする対象者領域が特定され、特定された対象者領域群が、その対象者領域に対応する評価対象者が属するグループのグループ領域として特定される。

＜活性度評価部の処理＞
活性度評価部２４０による処理について説明する。活性度評価部２４０は、関連領域特定部２３０により特定された対象者領域の情報に基づき、評価対象者の活性度を評価する。具体的には、対象者領域を構成する各色領域の特徴量の時間経過に伴う変化が大きいほど、その対象者領域に対応する評価対象者の活性度が高いと評価する。特徴量の変化が大きいとは、例えば、時間経過に伴う変化量が大きいことや、変化速度が速いことなどである。

また、活性度評価部２４０は、関連領域特定部２３０により特定されたグループ領域の情報に基づき、複数の評価対象者によるグループの活性度を評価する。具体的には、グループ領域を構成する各対象者領域の特徴量の時間経過に伴う変化が大きいほど、そのグループ領域に対応するグループの活性度が高いと評価する。特徴量の変化が大きいとは、例えば、時間経過に伴う変化量が大きいことや、変化速度が速いことなどである。また、グループに属する評価対象者の活性度が高いとしても、各評価対象者が無秩序に動いている状態では、グループとして目的に適う活動をしているとは言い難い。そこで、グループの活性度を評価する場合は、グループに属する各評価対象者の対象者領域の関連性が高いか否かを重視するようにしても良い。

以上の例では、グループ領域自体の特徴量に基づいて、そのグループの活性度の評価を行った。これに対し、グループに属する各評価対象者に対して行われた活性度の評価結果に基づき、この評価対象者が属するグループの活性度を評価しても良い。この場合、例えば、グループに属する評価対象者の活性度の累積値や代表値（平均値や中央値など）を算出し、グループの活性度としてもよい。

＜評価結果の出力例＞
情報処理装置２００の活性度評価部２４０による評価結果は、出力部２５０により端末装置３００へ送信される。端末装置３００は、情報処理装置２００から取得した評価結果に基づいて表示画像生成部３２０（図５参照）により評価結果を示す画像を生成し、生成した画像を表示制御部３３０により表示装置３０４（図４参照）に表示する。

図７は、ビデオカメラ１００で評価対象者を撮影する様子を示す図である。図７に示す例では、評価対象者は、部屋に配置された数台のテーブルの各々に、数名ずつ着席している。各評価対象者は、テーブルごとにグループを構成するものとする。また、部屋には話者３０がおり、場をまとめている。図７に示す場面が講義の場面であれば、例えば、話者３０は講師である。また、集会や会合の場面であれば、例えば、話者３０は司会進行役である。また、図７に示す例では、部屋の一方（話者３０のいる方）から部屋を撮影するようにビデオカメラ１００が配置されている。

図８は、活性度の評価結果を示す画像の例を示す図である。図８に示す例では、図７に示したビデオカメラ１００で撮影した動画に基づき活性度を評価した結果が、端末装置３００の表示装置３０４に表示された様子が示されている。図８に示す例において、評価対象者は、同じテーブルに着席する評価対象者ごとに４つのグループ（グループＡ〜Ｄ）に分けられており、各グループは、表示装置３０４に表示された画面において太線を描画することにより、視認できるように表現されている。

図示の例において、評価対象者の活性度は、活性度の低い方から順に、値「１」から値「５」の５段階の数値で評価されるものとする。各評価対象者の活性度の評価値は、表示装置３０４に表示された画面において、各評価対象者の上に重ねて表示されている。また、各グループの活性度の評価値は、グループに属する評価対象者の評価値の合計値としており、グループ名に添えて表示されている。図示の例では、グループＡの活性度の評価値は「１８」、グループＢの活性度の評価値は「１５」、グループＣの活性度の評価値は「１４」、グループＤの活性度の評価値は「１５」となっている。

図示の例では、テーブルごとに正しく評価対象者のグループ分けが行われた様子が示されているが、対象者領域の関連性に基づいてグループ領域を特定する場合、実際のグループとは異なる誤ったグループ分けを行ってしまうこともあり得る。そのような場合、端末装置３００の操作者が、表示装置３０４の画面上に描画されているグループ分けの太線を修正し、正しいグループ分けを行うようにしてもよい。このような操作が行われた場合、端末装置３００から情報処理装置２００へ、修正されたグループ分けの情報が送られる。情報処理装置２００では、この修正情報を受信すると、関連領域特定部２３０が、取得した修正情報に基づいてグループ領域を特定し直す。そして、活性度評価部２４０が、修正されたグループ分けに基づいてグループの活性度を評価し、出力部２５０により端末装置３００へ送信する。

なお、上記の評価結果の表示は例示に過ぎず、評価結果の出力方式は、上記の例に限定されるものではない。端末装置３００における表示画面も図８に示すような画面に限定されるものではなく、グラフを用いた表現等、評価結果を表現可能な種々の表現方法を用いて表示してよい。

＜他の構成例等＞
以上、本実施形態による非言語情報評価システム１０について説明したが、本実施形態の具体的構成は上記のものに限定されない。例えば、上記の構成では、ビデオカメラ１００で取得した動画を情報処理装置２００が処理し、得られた評価結果を出力手段としての端末装置３００が表示出力するとした。これに対し、情報処理装置２００が出力手段を兼ねる構成としてもよい。すなわち、情報処理装置２００と端末装置３００とを分けず、例えば、情報処理装置２００自身が液晶ディスプレイ等の表示装置を備える構成とし、評価結果の表示出力を行うようにしてもよい。また、上記の実施形態では、ビデオカメラ１００で撮影することにより評価対象者の画像を取得したが、別途用意された画像データを情報処理装置２００が解析し、評価しても良い。例えば、別途撮影し、磁気ディスク装置等の記憶装置に蓄積された画像データを読み込んで評価しても良い。

１０…非言語情報評価システム、２０…ネットワーク、１００…ビデオカメラ、２００…情報処理装置、２０１…ＣＰＵ、２０２…ＲＡＭ、２０３…ＲＯＭ、２０４…外部記憶装置、２０５…ネットワーク・インターフェイス、２１０…動画データ取得部、２２０…領域識別部、２３０…関連領域特定部、２４０…活性度評価部、２５０…出力部、３００…端末装置、３０１…ＣＰＵ、３０２…ＲＡＭ、３０３…ＲＯＭ、３０４…表示装置、３０５…入力装置、３０６…ネットワーク・インターフェイス、３１０…評価結果取得部、３２０…表示画像生成部、３３０…表示制御部、３４０…操作受け付け部

Claims

動画から人体が映っている領域を特定する領域特定部と、
前記領域特定部により人体が映っている前記領域を特定された動画において、複数のフレームにおける当該領域の評価用の特徴量の変化に基づき、当該動画に映った人物の活性度を評価する活性度評価部と、
を備えることを特徴とする、情報処理装置。
動画のフレームにおいて、予め定められた識別用の特徴量に基づき人体の部位が映っている可能性のある領域を識別する領域識別部をさらに備え、
前記領域特定部は、前記領域識別部により識別された各領域における領域特定用の特徴量の変化に基づき、人体が映っている前記領域を特定することを特徴とする、請求項１に記載の情報処理装置。
前記領域特定部は、前記識別用の特徴量として動画のフレームにおける色彩の境界を用いて、当該フレームにおいて人体の部位が映っている可能性のある領域を識別し、
前記領域特定部は、前記領域特定用の特徴量として、前記領域識別部により識別された各領域における前記境界の変化量、領域内の色彩の変化量、領域の移動方向および移動量の少なくとも一つを用いて、当該領域識別部により識別された複数の領域のうち相互に関連する領域を、人体が映っている領域として特定することを特徴とする、請求項２に記載の情報処理装置。
前記活性度評価部は、前記評価用の特徴量として、前記領域特定部により人体が映っている領域として特定された領域における前記境界の変化量、領域内の色彩の変化量、領域の移動方向および移動量の少なくとも一つを用いて、当該領域に対応する人物の活性度を評価することを特徴とする、請求項３に記載の情報処理装置。
前記領域特定部は、前記領域識別部により識別された各領域における前記領域特定用の特徴量の変化に基づき、複数の人物により構成される集合に対応する領域をさらに特定し、
前記活性度評価部は、前記領域特定部により特定された前記集合の活性度の評価をさらに行うことを特徴とする、請求項４に記載の情報処理装置。
前記活性度評価部は、前記領域特定部により特定された前記集合に対応する領域における前記評価用の特徴量の変化に基づき、当該集合の活性度を評価することを特徴とする請求項５に記載の情報処理装置。
前記活性度評価部は、前記集合に属する前記人物の活性度を評価した評価結果に基づき、当該集合の活性度を評価することを特徴とする請求項５に記載の情報処理装置。
動画を取得する取得手段と、
前記取得手段により取得された動画を解析して動画に映っている人物の活性度を評価する評価手段と、
前記評価手段による評価結果を出力する出力手段と、を備え、
前記評価手段は、
前記取得手段により取得された動画から人体が映っている領域を特定する領域特定部と、
前記領域特定部により人体が映っている前記領域を特定された動画において、複数のフレームにおける当該領域の評価用の特徴量の変化に基づき、当該動画に映った人物の活性度を評価する活性度評価部と、
を備えることを特徴とする、評価システム。
前記評価手段の前記領域特定部は、特定した各領域における領域特定用の特徴量の変化に基づき、複数の人物により構成される集合に対応する領域をさらに特定し、
前記活性度評価部は前記領域特定部により特定された前記集合の活性度の評価をさらに行うことを特徴とする、請求項８に記載の評価システム。
コンピュータを、
動画から人体が映っている領域を特定する領域特定手段と、
前記領域特定手段により人体が映っている前記領域を特定された動画において、複数のフレームにおける当該領域の評価用の特徴量の変化に基づき、当該動画に映った人物の活性度を評価する活性度評価手段として機能させること、
を備えることを特徴とする、プログラム。