JP6859641B2

JP6859641B2 - 評価システム、情報処理装置およびプログラム

Info

Publication number: JP6859641B2
Application number: JP2016184837A
Authority: JP
Inventors: 伊藤　篤; 篤伊藤; 鈴木　譲; 譲鈴木; 河野　功幸; 功幸河野; 耕輔丸山
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2021-04-14
Anticipated expiration: 2036-09-21
Also published as: JP2018049482A

Description

本発明は、評価システム、情報処理装置およびプログラムに関する。

講義や集会等において参加者を撮影し、画像解析して分析、評価することが試みられている。特許文献１には、講義中における１以上の受講生の顔を撮影した動画像である受講生画像が格納される受講生画像格納部と、受講生画像から受講生の顔を認識して、認識した顔に対する分析を行う顔分析部と、顔分析部による分析結果に関連する情報を出力する出力部とを備えるようにしたことにより講義に関する分析を行う顔分析装置が開示されている。

特開２０１３−６１９０６号公報

講義や集会の参加者は、状況に応じて、顔の表情以外にも身振りや体の向きを変える等の様々な反応をして非言語情報を発する。そのため、顔の分析だけでなく、身体の動作を含めて参加者の発する非言語情報を捉えることにより、より精度の高い分析、評価を行うことができる。また、着目した身体の部位の動き自体を評価しようとすると、参加者が非言語情報として発したものでない意味のない動作までも含んで評価してしまうため、評価の精度が低下する可能性がある。

本発明は、参加者を撮影して得られた画像から非言語情報として定義された行動を抽出して分析することにより、精度の高い評価を実現することを目的とする。

本発明の請求項１に係る評価システムは、
参加者の動画を取得する第１取得手段と、
前記第１取得手段よりも高い倍率で参加者の動画を取得する第２取得手段と、
前記第１取得手段および前記第２取得手段により取得された動画データを解析して動画に映っている人物の行動を評価する行動評価手段と、
前記行動評価手段による評価結果を出力する出力手段と、を備え、
前記行動評価手段は、
前記第１取得手段または前記第２取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
前記動作検出部は、前記第１取得手段により取得された動画を用いて動作の検出を行い、当該第１取得手段により取得された動画が予め定められた切り替え条件を満たす場合に、前記第２取得手段により取得された動画を用いて動作の検出を行うことを特徴とする、評価システムである。
本発明の請求項２に係る評価システムは、
前記動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画を、前記第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項１に記載の評価システムである。
本発明の請求項３に係る評価システムは、
前記動作検出部が前記第１取得手段により取得された動画に基づいて検出した動作の時間経過に伴う変化が、予め定められた変化量よりも小さい場合に、処理対象の動画を、当該第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項２に記載の評価システムである。
本発明の請求項４に係る評価システムは、
前記行動抽出部により抽出された行動が、予め定められた条件を満たす場合に、処理対象の動画を、前記第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項２に記載の評価システムである。
本発明の請求項５に係る評価システムは、
前記第１取得手段により取得された動画に映っている人体の部位の画像が予め定められた大きさよりも小さい場合に、処理対象の動画を、前記第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項１に記載の評価システムである。
本発明の請求項６に係る情報処理装置は、
参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得部と、
前記動画データ取得部により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
前記動作検出部は、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、情報処理装置である。
本発明の請求項７に係る情報処理装置は、
前記動作検出部は、当該動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画データを、前記一の動画データから前記他の動画データに切り替えることを特徴とする、請求項６に記載の情報処理装置である。
本発明の請求項８に係るプログラムは、
コンピュータを、
参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得手段と、
前記動画データ取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出手段と、
前記動作検出手段により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出手段と、
前記行動抽出手段により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価手段として機能させ、
前記動作検出手段において、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、プログラムである。

請求項１の発明によれば、取得された動画に基づいて解析対象の動画の倍率を切り替えない構成と比較して、非言語情報に基づく精度の高い評価を行うことができる。
請求項２の発明によれば、動画に対する解析処理の結果に基づいて解析対象の動画の倍率を切り替えることにより、状況に応じて、より適した動画を用いて解析処理を行うことができる。
請求項３の発明によれば、動作検出部により検出された動作の時間経過に伴う変化が小さい場合に、解析対象の動画を切り替えることにより、より詳細な解析処理を行うことができる。
請求項４の発明によれば、行動抽出部により抽出された行動に応じて、解析対象の動画を切り替えることにより、より詳細な解析処理を行うことができる。
請求項５の発明によれば、動画から識別される人体の部位の画像が小さい場合に、解析対象の動画をより高い倍率の動画に切り替えることにより、より詳細な解析処理を行うことができる。
請求項６の発明によれば、取得された動画に基づいて解析対象の動画の倍率を切り替えない構成と比較して、非言語情報に基づく精度の高い評価を行うことができる。
請求項７の発明によれば、動画に対する解析処理の結果に基づいて解析対象の動画の倍率を切り替えることにより、状況に応じて、より適した動画を用いて解析処理を行うことができる。
請求項８の発明によれば、取得された動画に基づいて解析対象の動画の倍率を切り替えない構成と比較して、本発明のプログラムを実行するコンピュータにおいて、非言語情報に基づく精度の高い評価を行うことができる。

本実施形態が適用される非言語情報評価システムの構成例を示す図である。情報処理装置のハードウェア構成例を示す図である。情報処理装置の機能構成を示す図である。端末装置のハードウェア構成例を示す図である。端末装置の機能構成を示す図である。フレーム間特徴量を用いて人体に関わる領域を特定する手法を説明する図であり、図６（Ａ）は、動画の１フレームにおいて、人物が横を向いて椅子に座っている様子を示す図、図６（Ｂ）は、動画の別の１フレームにおいて、同じ人物が前方へ乗り出した様子を示す図である。第１の適用場面でビデオカメラにより取得される評価対象者の画像の例を示す図である。第２の適用場面でビデオカメラにより取得される評価対象者の画像の例を示す図である。ビデオカメラの配置の例を示す図である。評価結果の出力画像の例を示す図である。評価結果の出力画像の他の例を示す図である。

＜本実施形態が適用される非言語情報評価システムの構成＞
図１は、本実施形態が適用される非言語情報評価システムの構成例を示す図である。図１に示すように、本実施形態による非言語情報評価システム１０は、動画取得装置としてのビデオカメラ１００と、動画解析装置としての情報処理装置２００と、情報処理装置２００による解析結果を出力する出力装置としての端末装置３００とを備える。ビデオカメラ１００と情報処理装置２００、情報処理装置２００と端末装置３００は、それぞれネットワーク２０を介して接続されている。

ネットワーク２０は、ビデオカメラ１００と情報処理装置２００および情報処理装置２００と端末装置３００の間で情報通信を行えるものであれば特に限定されず、例えばインターネットやＬＡＮ（Local Area Network）等としてよい。情報通信に用いられる通信回線は、有線であっても無線であっても良い。ビデオカメラ１００と情報処理装置２００とを接続するネットワーク２０と、情報処理装置２００と端末装置３００とを接続するネットワーク２０とは、共通のネットワークであってもよいし、異なるネットワークであってもよい。また、特に図示しないが、ネットワーク２０にはネットワークや通信回線を接続するためのゲートウェイやハブ等の中継装置が適宜設けられる。

本実施形態の非言語情報評価システム１０は、評価対象である人物または評価対象を構成する人物の動画を解析して、その人物の動作や顔の表情といった非言語情報を抽出し、抽出された非言語情報に基づき評価対象を評価する。本実施形態の非言語情報評価システム１０は、例えば、授業、講演、催事、娯楽施設、その他の多くの人が集まる場所や場面において参加者の様子を評価したり、面接のような対象となる個人が固定される場面において個人の様子を評価したりする。評価対象、評価項目、評価内容などは、非言語情報評価システム１０の適用対象や適用場面等に応じて設定される。例えば、評価対象は、個々の人物とされる場合もあるし、複数の人物の集合（グループ、チーム等）とされる場合もある（以下、このような評価対象である人物または評価対象である集合を構成する人物を「評価対象者」と呼ぶ）。評価項目は、例えば評価対象である人物や人物の集合が何かに集中しているか、活発に活動しているか等が設定され、評価内容としては、例えばそのような評価項目に適合する程度（度合）等が判断される。これらの評価については、後で具体的な適用例を挙げて説明する。

図１に示すシステムにおいて、ビデオカメラ１００は、動画データの取得手段の一例であり、本実施形態による評価の適用対象等に応じて、教室、講演会場、催事場、娯楽施設などに設置され、評価対象者を撮影する。本実施形態では、ビデオカメラ１００により撮影された評価対象者の動画を解析し、動作や顔の表情といった非言語情報が抽出される。したがって、評価対象者の構成（個人か集合か等）、設置場所や撮影範囲の広さ等に応じて、評価対象者の動作や表情が識別できるように、ビデオカメラ１００の種類や設置台数が設定される。例えば広い場所で個人を撮影するには望遠カメラが用いられ、広い範囲に存在する複数の人物を撮影するには広角カメラが用いられる。また、評価対象者の身体の様々な部位を撮影するために、複数台のカメラを様々な向きで設置してもよい。また、高解像度のカメラを用いて広範囲を撮影することにより、複数人の画像を取得するとともに、得られた画像を拡大して個人の画像を解析対象とするようにしてもよい。また、本実施形態において、ビデオカメラ１００は、撮影した動画をデジタル・データとして、ネットワーク２０を介して情報処理装置２００へ送信する機能を備える。

本実施形態では、ビデオカメラ１００として、広域撮影用カメラ（広角カメラ）と拡大撮影用カメラ（望遠カメラ）とを用意する。広域撮影用カメラは、広い画角を有し、複数の評価対象者を一度に撮影するものである。広域撮影用カメラで撮影された動画からは、複数の評価対象者についての情報が得られる。拡大撮影用カメラは、広域撮影用カメラよりも高い拡大率（倍率）を有し、特定の評価対象者やその身体の一部を拡大して撮影するものである。拡大撮影用カメラの拡大率は可変としてもよい。拡大撮影用カメラで撮影された動画からは、顔の表情、視線、手の指の動き等の身体における微小な部位の動きの情報が得られる。

拡大撮影用カメラは、外部から動作制御可能な可動式の架台に設置される。そして、例えばオペレータが端末装置から架台の制御装置に制御信号を送ることにより、撮影方向（カメラの向き）を制御して、特定の評価対象者の特定の部位を撮影するように操作する。本実施形態では、初期的には広域撮影用カメラで撮影された動画を情報処理装置２００による解析の対象として用い、特定の切り替え条件を満足した場合に、拡大撮影用カメラで撮影された動画を情報処理装置２００の解析の対象とするように切り替え制御する。

情報処理装置２００は、行動評価手段の一例であり、ビデオカメラ１００により撮影された動画を解析して評価対象者に関する非言語情報を抽出し、評価するコンピュータ（サーバ）である。情報処理装置２００は、単体のコンピュータにより構成してもよいし、ネットワーク２０に接続された複数のコンピュータにより構成してもよい。後者の場合、後述する本実施形態の情報処理装置２００としての機能は、複数のコンピュータによる分散処理にて実現される。

図２は、情報処理装置２００のハードウェア構成例を示す図である。図２に示すように、情報処理装置２００は、制御手段および演算手段であるＣＰＵ（Central Processing Unit）２０１と、ＲＡＭ２０２およびＲＯＭ２０３と、外部記憶装置２０４と、ネットワーク・インターフェイス２０５とを備える。ＣＰＵ２０１は、ＲＯＭ２０３に格納されているプログラムを実行することにより、各種の制御および演算処理を行う。ＲＡＭ２０２は、ＣＰＵ２０１による制御や演算処理において作業メモリとして用いられる。ＲＯＭ２０３は、ＣＰＵ２０１が実行するプログラムや制御において用いられる各種のデータを格納している。外部記憶装置２０４は、例えば磁気ディスク装置や、データの読み書きが可能で不揮発性の半導体メモリで実現され、ＲＡＭ２０２に展開されてＣＰＵ２０１により実行されるプログラムや、ＣＰＵ２０１による演算処理の結果を格納する。ネットワーク・インターフェイス２０５は、ネットワーク２０に接続して、ビデオカメラ１００や端末装置３００との間でデータの送受信を行う。なお、図２に示す構成例は、情報処理装置２００をコンピュータで実現するハードウェア構成の一例に過ぎない。情報処理装置２００の具体的構成は、以下に説明する機能を実現し得るものであれば、図２に示す構成例に限定されない。

図３は、情報処理装置２００の機能構成を示す図である。図３に示すように、情報処理装置２００は、動画データ取得部２１０と、領域識別部２２０と、動作検出部２３０と、非言語情報抽出部２４０と、反応評価部２５０と、出力部２６０とを備える。

動画データ取得部２１０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行し、ネットワーク・インターフェイス２０５を制御することにより実現される。動画データ取得部２１０は、ネットワーク２０を介してビデオカメラ１００から動画データを受信する。受信した動画データは、例えば図２に示すＲＡＭ２０２や外部記憶装置２０４に格納される。

領域識別部２２０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行することにより実現される。領域識別部２２０は、動画データ取得部２１０により取得された動画を解析し、後段の非言語情報抽出部２４０により非言語情報として抽出される評価対象者の部位が映っている領域を識別する。具体的には、人体（全体）が映っている領域、人体の頭部、体部、腕部、手部、指などが映っている領域、頭部の顔、目、口、鼻、耳などが映っている領域、上半身、下半身が映っている領域、その他身体の各特徴点が映っている領域等を識別する（以下、人体の全体や一部分を特に区別せず、部位、身体の部位などと呼ぶ）。識別対象の部位としては、予め定められた部位を全て識別してもよいし、後段の非言語情報抽出部２４０による抽出や反応評価部２５０による評価の内容に基づき、これらの処理に用いられる部位のみを識別してもよい。

動作検出部２３０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行することにより実現される。動作検出部２３０は、領域識別部２２０の識別結果に基づき、各領域に映っている身体の部位を特定し、特定した部位ごとの動作を検出する。具体的には、頭の動き、顔の向き、顔の構成部位（目、口など）の動き、腕や脚の動き、身体の向き、身体の移動（歩きまわる等）等の動作を検出する。検出対象の動作としては、予め定められた部位についての予め定められた動作を全て対象として検出してもよいし、後段の非言語情報抽出部２４０による抽出や反応評価部２５０による評価の内容に基づき、これらの処理に用いられる部位の動作のみを検出してもよい。

非言語情報抽出部２４０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行することにより実現される。非言語情報抽出部２４０は、動作検出部２３０により検出された部位の動きに基づき、評価対象者の行動のうち、反応評価部２５０の評価項目ごとの評価に用いられるもの（非言語情報）を抽出する。言い換えれば、非言語情報抽出部２４０は、評価対象者の発する非言語情報として定義された行動を抽出する行動抽出部である。具体的には、例えば、うなずく動作、顔を特定の方向に向けたり顔の向きを変えたりする動作、表情の変化、口を動かして発言する動作、欠伸（あくび）をする動作、居眠りしているときの動き、目くばせをする動作、挙手、筆記動作、キーボードを打つ動作、振り向く動作、貧乏ゆすりなどを抽出する。

反応評価部２５０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行することにより実現される。反応評価部２５０は、非言語情報抽出部２４０により抽出された評価項目ごとの非言語情報の行動に対し、評価項目ごとに予め定められた評価基準に基づいて、評価対象者の反応を評価する。評価内容は、本実施形態の非言語情報評価システム１０が適用される場面（授業、講演、催事など）に応じて設定される。具体的には、例えば、集中度、活性度、進行の度合い、積極性、応答性などの評価を行う。

出力部２６０は、例えば図２に示すコンピュータにおいて、ＣＰＵ２０１がプログラムを実行し、ネットワーク・インターフェイス２０５を制御することにより実現される。出力部２６０は、ネットワーク２０を介して、反応評価部２５０による評価結果の情報を端末装置３００に送信する。

端末装置３００は、出力手段の一例であり、情報処理装置２００による評価結果を出力する情報端末（クライアント）である。端末装置３００としては、例えばパーソナルコンピュータ、タブレット端末、スマートフォン等の出力手段として画像表示手段を備えた装置が用いられる。

図４は、端末装置３００のハードウェア構成例を示す図である。図４に示すように、端末装置３００は、ＣＰＵ３０１と、ＲＡＭ３０２およびＲＯＭ３０３と、表示装置３０４と、入力装置３０５と、ネットワーク・インターフェイス３０６とを備える。ＣＰＵ３０１は、ＲＯＭ３０３に格納されているプログラムを実行することにより、各種の制御および演算処理を行う。ＲＡＭ３０２は、ＣＰＵ３０１による制御や演算処理において作業メモリとして用いられる。ＲＯＭ３０３は、ＣＰＵ３０１が実行するプログラムや制御において用いられる各種のデータを格納している。表示装置３０４は、例えば液晶ディスプレイにより構成され、ＣＰＵ３０１の制御により画像を表示する。入力装置３０５は、例えばキーボードやマウス、タッチセンサ等の入力デバイスで実現され、操作者の入力操作を受け付ける。一例として、端末装置３００がタブレット端末やスマートフォン等である場合は、液晶ディスプレイとタッチセンサとが組み合わされたタッチパネルが表示装置３０４および入力装置３０５として機能する。ネットワーク・インターフェイス３０６は、ネットワーク２０に接続して、ビデオカメラ１００や端末装置３００との間でデータの送受信を行う。なお、図４に示す構成例は、端末装置３００をコンピュータで実現するハードウェア構成の一例に過ぎない。端末装置３００の具体的構成は、以下に説明する機能を実現し得るものであれば、図４に示す構成例に限定されない。

図５は、端末装置３００の機能構成を示す図である。図５に示すように、本実施形態の端末装置３００は、評価結果取得部３１０と、表示画像生成部３２０と、表示制御部３３０と、操作受け付け部３４０とを備える。

評価結果取得部３１０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行し、ネットワーク・インターフェイス３０６を制御することにより実現される。評価結果取得部３１０は、ネットワーク２０を介して情報処理装置２００から評価結果のデータを受信する。受信した評価結果のデータは、例えば図４のＲＡＭ３０２に格納される。

表示画像生成部３２０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行することにより実現される。表示画像生成部３２０は、評価結果取得部３１０により取得された評価結果のデータに基づき、評価結果を示す出力画像を生成する。生成される出力画像の構成や表示態様は、評価項目や評価内容等に応じて設定し得る。出力画像の詳細については後述する。

表示制御部３３０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行することにより実現される。表示制御部３３０は、表示画像生成部３２０により生成された出力画像を、例えば図４に示すコンピュータにおける表示装置３０４に表示させる。また、表示制御部３３０は、表示装置３０４への表示に関する命令を受け付け、受け付けた命令に基づいて表示の切り替え等の制御を行う。

操作受け付け部３４０は、例えば図４に示すコンピュータにおいて、ＣＰＵ３０１がプログラムを実行することにより実現される。操作受け付け部３４０は、操作者が入力装置３０５により行った入力操作を受け付ける。そして、操作受け付け部３４０により受け付けた操作にしたがって、表示制御部３３０が表示装置３０４への出力画像等の表示制御を行う。

＜領域識別部の処理＞
情報処理装置２００の領域識別部２２０による処理について説明する。領域識別部２２０は、ビデオカメラ１００により撮影された動画から、その動画に映っている人物の動作に係る部位を識別する。この部位の識別には、既存の種々の画像解析技術を適用してよい。例えば、顔や笑顔の識別は、デジタルカメラ等で実現されている既存の識別手法を用いてよい。また、動画に映されている特定の形状の部分（領域）やそのような複数の部分の配置等に基づいて、身体の部位が映っている領域を特定し得る。さらに一例として、フレーム間特徴量に基づく識別を行ってもよい。具体的には、動画データの連続する２枚以上のフレームの差分に基づき、フレーム間特徴量を求める。ここで、フレーム間特徴量としては、例えば、色の境界（エッジ）、色の変化量、これらによって特定される領域の移動方向や移動量などが用いられる。予め設定された時間分のフレーム間特徴量を累積し、フレームごとのフレーム間特徴量の距離や類似度に基づいて、フレーム間特徴量を分類、統合する。これにより、動画において連携して変化する領域が特定され、身体の部位が映っている領域が識別される。

図６は、フレーム間特徴量を用いて人体に関わる領域を特定する手法を説明する図である。図６（Ａ）は、動画の１フレームにおいて、人物が横を向いて椅子に座っている様子を示し、図６（Ｂ）は、動画の別の１フレームにおいて、同じ人物が前方へ乗り出した様子を示している。図６に示す例において、領域識別部２２０は、図６（Ａ）に映っている色の境界や変化量に基づき、近似する色が映っている範囲を特定する。そして、領域識別部２２０は、図６（Ａ）のフレームと図６（Ｂ）のフレームとを対比し、対応する色の範囲の移動方向および移動量に基づき、画像中の破線の枠で囲まれた領域２２１において、複数個の色の範囲が連携して動いていることを認識し、この領域２２１を人体の上半身が映っている領域として識別する。図６（Ａ）、（Ｂ）を参照すると、人体（上半身）を構成する色の範囲の動きに応じて、領域２２１の位置や大きさが変化している。なお、ここでは図６（Ａ）、（Ｂ）の２つのフレームを対比したが、３つ以上のフレームを対比して色の範囲の変化等のフレーム間特徴量を累積した結果に基づいて人体が映っている領域を識別するようにしてもよい。

＜動作検出部の処理＞
動作検出部２３０による処理について説明する。動作検出部２３０は、領域識別部２２０により識別された身体の部位が映っている領域を解析して、具体的にどの部位が映っているかを特定し、特定した部位ごとの動きを検出する。この動きの検出には、既存の種々の画像解析技術を適用してよい。検出される動きは、特定された部位ごとに身体動作として起こり得る動きである。例えば、目を閉じたり口を開けたりする動き、視線の変化、顔の向きを上下や左右に変える動き、肘の曲げ伸ばしや腕を振る動き、手指の曲げ伸ばしや手を開いたり閉じたりする動き、腰の曲げ伸ばしや体を捻じる動き、膝の曲げ伸ばしや脚を振る動き、歩行等による身体の移動などが検出される。なお、これらの動きは例示に過ぎず、本実施形態の非言語情報評価システム１０で検出し得る動きは、上記に提示した動きに限定されない。本実施形態では、動作検出部２３０は、領域識別部２２０で領域として識別された全ての部位の動きを検出してもよいし、後段の非言語情報抽出部２４０で抽出される動作を特定するための動き等に限定して検出してもよい。例えば、非言語情報抽出部２４０でうなずく動作のみを抽出するのであれば、顔の向きを上下に変えるような頭の動きを検出すればよい。

＜非言語情報抽出部の処理＞
非言語情報抽出部２４０による処理について説明する。非言語情報抽出部２４０は、動作検出部２３０により検出された部位の動きに基づいて、評価対象者が意識的にまたは無意識的に行った意味のある行動を非言語情報として抽出する。例えば、顔の向きを上下に変える動きからうなずくという動作を抽出したり、口を動かす動きから発話や欠伸という動作を抽出したり、腕を上げる動きから挙手という動作を抽出したりする。非言語情報の抽出は、単に動作検出部２３０により検出された部位の動きのみに基づいて行われるのではなく、例えば、検出された動きの前後における該当部位の動き、周囲の部位や他の人物の動き、動きが検出された場面や文脈（背景）等の情報も参酌して行われる。具体例を挙げると、顔の向きを上下に連続的に変える動きが特定の時間内で行われたとき、この動きは、うなずきの動作として抽出される。一方、顔の向きが上を向き、ある程度の時間が経過した後に下方向へ動いてもとに戻ったとき、この動きは、思考するために上方を見上げた動作として抽出される。また、顔の向きが下を向き、ある程度の時間が経過したとき、この動作は、居眠りしていることを示す動作として抽出される。なお、これらの動作や参酌情報は例示に過ぎず、本実施形態の非言語情報評価システム１０で非言語情報として抽出し得る動作や参酌情報は、上記に提示した動作や情報に限定されない。

＜反応評価部の処理＞
反応評価部２５０による処理について説明する。反応評価部２５０は、非言語情報抽出部２４０により抽出された非言語情報に基づき、非言語情報評価システム１０が適用される場面に応じた評価対象者の反応を評価する。例えば、講義における受講者の反応を評価するのであれば、講義に対する集中の度合い等が評価項目となる。また、参加型の授業であれば、各生徒の集中の度合いや積極性、授業全体の活性度等が評価項目となる。また、単純に、非言語情報評価システム１０が適用される場面の目的に対して肯定的（ポジティブ）な反応か否定的（ネガティブ）な反応かを評価するようにしてもよい。評価結果は、評価項目や評価の目的等に応じて様々な形式で決定し得る。例えば、授業中に発言したか否かというような二値的な評価を行ってもよいし、集中度や積極性などの評価項目の達成度（評価の程度）を段階的に特定する多値的な評価を行ってもよい。また、反応評価部２５０は、講義や授業が行われる一定時間にわたって継続的に評価を行い、時間の経過に伴って変化する時系列の評価情報を生成してもよい。

多値的な評価を行う場合、反応評価部２５０において評価される評価項目に応じて、その評価に用いられる非言語情報として定義された（抽出される）行動（以下、反応行動）の種類および反応行動の出現態様が設定される。言い換えると、同じ反応行動であっても、その出現態様に応じて異なる評価となる。例えば、非言語情報として抽出される特定の反応行動が１回行われた場合と、複数回繰り返されたり、一定時間以上継続したりした場合とでは評価が異なる。

さらに、多値的な評価を行う場合、例えば、その評価項目における反応行動の種類、出現頻度、継続時間などに基づいて、評価の程度を特定してもよい。一例として、集中度を評価するための評価対象の反応行動として、うなずく動作と筆記する動作とが定義されている場合を考える。そして、うなずく動作は筆記する動作よりも高い集中度を表すものとする。この場合、反応行動の種類として、うなずく動作が出現したときは、筆記する動作が出現したときよりも集中度が高い（評価の程度が高い）と評価する。また、反応行動の出現頻度として、一定時間内にうなずく動作が多いほうが少ないよりも集中度が高い（評価の程度が高い）と評価する。また、一定時間内に筆記する動作の継続時間が長いほうが短いよりも集中度が高い（評価の程度が高い）と評価する。なお、これらの評価項目や評価方法は例示に過ぎず、本実施形態の非言語情報評価システム１０でとり得る評価項目や評価方法は、上記に提示した評価項目や評価方法に限定されない。

＜適用例＞
ここで、具体的な適用の場面を想定し、非言語情報の抽出と反応評価についてさらに説明する。第１の適用場面は、講義や講演会等のように、話者と受講者（聴取者）が明確に分かれており、ほぼ話者のみが話をする場面である。片方向（ここでは話者から受講者への方向）の情報伝達が大きい場面（ケース）といえる。そして、ここでは、受講者を評価対象者として評価を行うものとする。

図７は、第１の適用場面でビデオカメラ１００により取得される評価対象者の画像の例を示す図である。図７に示す例では、一方向に向かって縦横４列ずつに並んだ受講者を話者側から撮影した様子が示されている。したがって、各受講者は、原則としてビデオカメラ１００の方向を向いている。この例では、１６人の各受講者が評価対象者となる。

情報処理装置２００において、動画データ取得部２１０がビデオカメラ１００により取得された動画データを受信すると、領域識別部２２０が、取得した動画から各受講者（評価対象者）が映っている領域を識別する。ここでは、上半身の領域、顔領域、目領域、口領域、顔向き、頭部などの部位の領域が識別される。そして、動作検出部２３０が、領域識別部２２０により識別された領域に基づき、各受講者の部位ごとの動きを検出する。

次に、非言語情報抽出部２４０が、動作検出部２３０により検出された各受講者の部位ごとの動きに基づき、受講者ごとの特定の行動を、非言語情報を表す反応行動として抽出する。例えば、うなずく動作、欠伸、目を閉じる動作、うつむく動作、笑う動作などが反応行動として抽出される。

次に、反応評価部２５０が、非言語情報抽出部２４０により抽出された非言語情報としての反応行動を評価する。評価方法としては、例えば、特定の評価項目に関して、相反する評価となる第１分類に該当する行動と第２分類に該当する行動とを定義しておき、第１分類に該当する行動の出現に基づく評価と第２分類に該当する行動の出現に基づく評価とを統合して、この評価項目の評価結果とする。一例として、肯定的な反応行動と否定的な反応行動とを定義して評価する場合について説明する。例えば、上記のうなずく動作や笑う動作を肯定的な反応として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど高評価とする。一方、欠伸、目を閉じる動作、うつむく動作等を否定的な反応として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど低評価とする。

ここで、肯定的な反応行動として定義された動作は、その動作が出現すると必ず肯定的な反応として評価される。例えば、上記のようにうなずく動作が肯定的な反応行動と定義された場合、評価対象者がうなずく動作を行うと、必ず肯定的な反応として評価される。そして、うなずく動作の態様に応じて肯定的な評価の程度が変わる。例えば、何度も繰り返してうなずいたり、大きくゆっくりした動作でうなずいたりした場合は、肯定的な程度が高いと評価される。一方、小さな動作で軽くうなずいた場合は、肯定的な反応と評価するが、その程度は低いと評価される。反対に、否定的な反応行動として定義された動作は、その動作が出現すると必ず否定的な反応として評価される。例えば、上記のように目を閉じる動作が否定的な反応行動と定義された場合、評価対象者が目を閉じる動作を行うと、必ず否定的な反応として評価される。そして、目を閉じる動作の態様に応じて否定的な評価の程度が変わる。例えば、長時間にわたって目を閉じた状態が継続した場合は、否定的な程度が高いと評価する。一方、目を閉じた状態が短時間しか継続しない場合は、否定的な反応と評価するが、その程度は低いと評価する。なお、肯定的（高評価）か否定的（低評価）かという二元的な評価の他に、肯定的な反応行動も否定的な反応行動もあまり多くない場合の評価として、中間的という評価を加えてもよい。

上記の例の他、積極性を評価するための反応行動と消極性を評価するための反応行動とを定義し、該当する反応行動の出現頻度や出現時間に応じて積極的（高評価）か、消極的（低評価）か、中間的かといった評価を行ってもよい。また、意味のある動作と無意味な動作とを定義し、意味のある動作の出現頻度や出現時間、無意味な動作の出現頻度や出現時間に応じて高評価か、低評価か、中間的かといった評価を行ってもよい。

さらに、上記のような二元的な内容を基礎とする評価でなく、特定の特性が強いか否かを評価するようにしてもよい。例えば、理解度を評価するための反応行動を定義し、該当する反応行動がなければ理解度が０（ゼロ）であり、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど理解度が高いと評価する。同様に、活性度を評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど活性度が高いと評価する。また、ファッシリテート（facilitate）度を評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほどファッシリテート度が高いと評価する。また、集中度を評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど集中度が高いと評価する。また、落ち着きの度合いを評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど落ち着きの度合いが高いと評価する。なお、評価対象者に対して複数の評価項目による評価が行われる場合、一つの非言語情報としての行動が複数の評価項目における反応行動として定義されてよい。

次に上記の例とは別の適用場面について説明する。第２の適用場面は、打ち合わせ等のように、複数の参加者が互いに発言しあう場面である。双方向の情報伝達が行われる場面（ケース）といえる。そして、ここでは、各参加者を評価対象者として評価を行うものとする。

図８は、第２の適用場面でビデオカメラ１００により取得される評価対象者の画像の例を示す図である。図８に示す例では、５人の参加者が一つのテーブルを囲んで着席している場面を撮影した様子が示されている。したがって、各参加者は、ビデオカメラ１００の位置とは関係なく相互に向き合っている。この例では、５人の各参加者が評価対象者となる。

情報処理装置２００において、動画データ取得部２１０がビデオカメラ１００により取得された動画データを受信すると、領域識別部２２０が、取得した動画から各受講者（評価対象者）が映っている領域を識別する。ここでは、上半身の領域、顔領域、目領域、口領域、顔向き、頭部、体部、腕、手、脚などの部位の領域が識別される。そして、動作検出部２３０が、領域識別部２２０により識別された領域に基づき、各受講者の部位ごとの動きを検出する。

次に、非言語情報抽出部２４０が、動作検出部２３０により検出された各受講者の部位ごとの動きに基づき、受講者ごとの特定の行動を、非言語情報を表す反応行動として抽出する。例えば、うなずく動作、発言する動作、身振り、手振り、目くばせする動作、筆記動作、キーボードのキーを打つ動作、貧乏ゆすり、欠伸、目を閉じる動作などが反応行動として抽出される。また、口の開閉動作が一定の時間で行われた場合に発言の動作として検出してもよい。

次に、反応評価部２５０が、非言語情報抽出部２４０により抽出された非言語情報としての反応行動を評価する。一例として、参加者が積極的に参加していることを示す反応行動と消極的に参加していることを示す反応行動とを定義して評価する場合について説明する。例えば、上記のうなずく動作、発言する動作、身振り、手振り、目くばせする動作、筆記動作、キーボードのキーを打つ動作を、積極的に参加していることを示す反応行動として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど高評価とする。一方、欠伸、目を閉じる動作、貧乏ゆすりを、否定的に参加していることを示す反応行動として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど低評価とする。なお、上述した第１の適用場面での評価と同様に、積極的（高評価）か消極的（低評価）かという二元的な評価の他に中間的という評価を加えてもよい。

上記の例の他、肯定的な反応行動と否定的な反応行動とを定義し、該当する反応行動の出現頻度や出現時間に応じて肯定的（高評価）か、否定的（低評価）か、中間的かといった評価を行ってもよい。また、意味のある動作と無意味な動作とを定義し、意味のある動作の出現頻度や出現時間、無意味な動作の出現頻度や出現時間に応じて高評価か、低評価か、中間的かといった評価を行ってもよい。

さらに、上述した第１の適用場面での評価と同様に、特定の特性が強いか否かを評価するようにしてもよい。すなわち、理解度、活性度、ファッシリテート度、集中度、落ち着きの度合い等を評価するための反応行動をそれぞれ定義し、該当する反応行動がなければ評価対象の特性の度合いが０（ゼロ）であり、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど、評価対象の特性の度合いが高いと評価する。なお、評価対象者に対して複数の評価項目による評価が行われる場合、一つの非言語情報としての行動が複数の評価項目における反応行動として定義されてよい。

以上のように、本実施形態の非言語情報評価システム１０が適用される具体的な場面に応じて、評価項目、評価内容、評価項目ごとの評価に用いられる対象行動、各対象行動をどのように評価するか等の評価方法が個別に設定される。上記の例では、講義や授業（第１の適用場面）、打ち合わせ（第２の適用場面）における個々の参加者に対する評価方法について説明したが、参加者全体の評価に基づいて、講義や授業、打ち合わせ等の場面自体の集中度、活性度、積極性の度合いなどを評価してもよい。参加者全体の評価は、例えば、個々の参加者の評価値の累積値や代表値（平均値や中央値など）を用いて行ってもよい。場面自体の評価は、例えば、集中度の高い参加者の多い講義を高評価としたり、活性度の高い参加者の多い打ち合わせを高評価としたりする等、評価目的等に応じて様々に定義して行ってよい。

図９は、ビデオカメラ１００の配置の例を示す図である。図９に示す例では、参加者（評価対象者）は、部屋に配置された数台のテーブルの各々に、数名ずつ着席している。また、部屋には話者３０がおり、場をまとめている。図９に示す場面が講義の場面であれば、例えば、話者３０は講師である。また、集会や会合の場面であれば、例えば、話者３０は司会進行役である。

また、図９に示す例では、ビデオカメラ１００として、２台の広域撮影用カメラ１００ａ（第１取得手段）と、１台の拡大撮影用カメラ１００ｂ（第２取得手段）とが設けられている。２台の広域撮影用カメラ１００ａの一つは、部屋の一方（話者３０のいる方）から部屋を撮影するように配置されている。他の一つは、部屋の反対側から部屋を撮影するように配置されている。このように配置することで、一つの広域撮影用カメラ１００ａから見て参加者が他の参加者やテーブルの陰になっている場合でも、他の広域撮影用カメラ１００ａによってその参加者の画像が取得される。

拡大撮影用カメラ１００ｂは、拡大率が可変であり、撮影方向を変更可能な可動式の架台に設置されている。拡大率および撮影方向は、例えば、外部装置からの制御信号により制御される。また、人感センサ等を用い、部屋にいる参加者を順に捉えるように自動制御してもよい。図示の例では、１台の拡大撮影用カメラ１００ｂが示されているが、複数台の拡大撮影用カメラ１００ｂを設けてもよい。また、拡大撮影用カメラ１００ｂを移動可能な架台に設置して、異なる位置から参加者を撮影できるようにしてもよい。この場合、拡大撮影用カメラ１００ｂの移動は、例えば、外部からの制御信号により制御してもよいし、決まった軌道上を適当な時間をかけて自律的に移動する構成としてもよい。このような構成とすることで、特定の参加者やその部位が撮影できない状態になることを減少させることができる。

＜動画データの切り替え制御＞
本実施形態において、図９に示した構成によれば、広域撮影用カメラ１００ａおよび拡大撮影用カメラ１００ｂで撮影された動画は、それぞれ情報処理装置２００へ送られる。本実施形態では、初期的には、拡大撮影用カメラ１００ｂは動画を用いず、広域撮影用カメラ１００ａにより撮影された動画を用いて情報処理装置２００による処理が行われる。具体的には、例えば、情報処理装置２００において、動画データ取得部２１０が広域撮影用カメラ１００ａおよび拡大撮影用カメラ１００ｂからの動画データを取得すると、初期的には、取得した動画データのうちの広域撮影用カメラ１００ａにより撮影された動画データが、解析対象として動画データ取得部２１０から領域識別部２２０へ送られる。そして、後述するように、領域識別部２２０、動作検出部２３０または非言語情報抽出部２４０から切り替え指示が行われると、広域撮影用カメラ１００ａにより撮影された動画データに替えて、拡大撮影用カメラ１００ｂにより撮影された動画データが、解析対象として動画データ取得部２１０から領域識別部２２０へ送られる。このように、領域識別部２２０、動作検出部２３０および非言語情報抽出部２４０の処理結果に応じて解析対象の動画を切り替えることにより、非言語情報としての反応行動をより詳細に抽出することが可能となるため、反応評価部２５０による評価の精度の向上に寄与する。

ここで、上述したように、非言語情報として抽出される反応行動には、目くばせをする動作、筆記動作、笑顔等の表情、目を閉じる動作など、身体の比較的小さい部位により局所的に行われる動作に基づく行動がある。また、居眠り等のように時間的な動きの変化が小さいため、解析を行うために詳細な（高精細な）動画を要する場合がある。このような行動（動作）に関しては、広域撮影用カメラ１００ａで撮影された動画では、領域識別部２２０により識別される領域が小さいために動作検出部２３０による検出の精度が低下する可能性がある。そこで本実施形態では、このような場合に、解析対象の動画を、広域撮影用カメラ１００ａで撮影された動画から拡大撮影用カメラ１００ｂで撮影された動画に切り替える。

解析対象の動画を切り替える切り替え条件としては、例えば、上述したように、領域識別部２２０により識別された身体の部位を示す領域が小さいために動作検出部２３０が身体の部位を特定して動作を検出することが困難である場合、動作検出部２３０が検出した動作の時間経過に伴う変化（位置、形状、色彩等の変化）が予め定められた変化量よりも小さい場合等とすることが考えられる。この場合は、例えば動作検出部２３０が、領域識別部２２０の識別結果に基づき身体の部位を特定し動作を検出する際に、拡大撮影用カメラ１００ｂで撮影された動画を解析対象とするように、領域識別部２２０に対して切り替え指示を行う。

また、動作検出部２３０が指示を行うのではなく、領域識別部２２０において、識別した領域が、予め定められた大きさよりも小さい場合や、領域の認識率が予め定められた閾値以下である場合に、拡大撮影用カメラ１００ｂで撮影された動画を読み込んで解析を行うようにしてもよい。さらに、講義の場面における講師等、本実施形態の非言語情報評価システム１０が適用される場面における特別な人物の非言語情報を抽出する場合は、最初から拡大撮影用カメラ１００ｂで撮影された動画を用いて解析を行うようにしてもよい。また、特定の人物の反応行動として、通常は出現しないような特殊な行動が出現した場合等、予め定められた条件を満たす場合には、非言語情報抽出部２４０が、拡大撮影用カメラ１００ｂで撮影された動画を解析対象とするように、領域識別部２２０に対して切り替え指示を行うようにしてもよい。

上記の制御例では、広域撮影用カメラ１００ａで撮影された動画および拡大撮影用カメラ１００ｂで撮影された動画を両方とも情報処理装置２００に送り、情報処理装置２００において解析に用いる動画を切り替える構成とした。これに対し、初期的には、広域撮影用カメラ１００ａおよび拡大撮影用カメラ１００ｂのうち、広域撮影用カメラ１００ａのみが撮影した動画データを情報処理装置２００へ送り、情報処理装置２００からの制御に応じて拡大撮影用カメラ１００ｂが撮影した動画データを情報処理装置２００へ送るようにしてもよい。さらに、初期的には、広域撮影用カメラ１００ａのみが撮影を行い、情報処理装置２００からの制御に応じて拡大撮影用カメラ１００ｂが撮影を開始するように構成してもよい。これらの場合、例えば、上記の切り替え条件を満足し、領域識別部２２０、動作検出部２３０および非言語情報抽出部２４０のいずれかが切り替え指示を行うことにより、情報処理装置２００が拡大撮影用カメラ１００ｂへ制御命令を送る。

＜評価結果の出力例＞
端末装置３００による評価結果の出力例について説明する。情報処理装置２００において反応評価部２５０により行われた評価の結果は、出力部２６０により端末装置３００へ送られる。端末装置３００において、評価結果取得部３１０は、情報処理装置２００から送信された評価結果のデータを受け取る。表示画像生成部３２０は、取得した評価結果のデータに基づき、評価結果を視覚的に示す出力画像を生成する。表示制御部３３０は、生成された出力画像を表示装置３０４に表示させる。

図１０は、評価結果の出力画像の例を示す図である。図１０に示す例では、参加者Ａ、参加者Ｂ、参加者Ｃに関して、５０分の講義中での評価を時系列に表している。図１０を参照すると、例えば参加者Ａは、講義開始から１５分程は肯定的な反応行動があり、１５分から３５分頃まで肯定的な反応行動も否定的な反応行動もあまり行われない中間的な状態となり、その後、講義終了（５０分）まで再び肯定的な反応行動があったことが分かる。参加者Ｂは、講義開始から２０分頃まで肯定的な反応行動があり、２０分から３０分頃まで肯定的な反応行動も否定的な反応行動もあまり行われない中間的な状態となり、その後、３０分から４０分頃まで再び肯定的な反応行動が行われ、さらに４０分頃から講義終了（５０分）まで発言が行われたことが分かる。参加者Ｃは、講義開始から１０分頃まで肯定的な反応行動があり、１０分から３０分頃まで肯定的な反応行動も否定的な反応行動もあまり行われない中間的な状態となり、３０分から４０分頃まで否定的な反応行動が行われた後、４０分頃から講義終了（５０分）まで中間的な状態に戻ったことが分かる。

以上のように、各参加者の評価結果を時系列に並べると、各参加者に共通する特徴に基づき、時間経過に伴う講義全体の様子を類推し得る。図１０に示した例では、講義の開始直後は各参加者とも肯定的な反応行動を行っているが、開始から一定時間が経過すると次第に肯定的な反応行動が減っていく。これは、例えば、時間の経過と共に、参加者の集中力や注意力が落ちてきたことに起因すると類推される。そして、さらに時間が経過して講義の終了が近くなると、各参加者は再び肯定的な反応行動を行うようになる。これは、例えば、講義の終了が近いことで参加者が集中力や注意力を講義に向けるようになることに起因すると推察される。

図１１は、評価結果の出力画像の他の例を示す図である。図１１に示す例では、評価対象者である参加者Ａに関して、時間の経過に伴い、肯定的な反応行動と否定的な反応行動がどのように現れたかを示す。図１０の例では参加者の個々の反応行動に基づく評価結果を統合した参加者自身の評価結果を時系列情報として示したのに対し、図１１の例では個々の反応行為に対する評価を時系列情報として示している。図１１に示す表示画像の上段には肯定的な反応行動の強さが示され、下段には否定的な反応行動の強さが示されている。ここで、肯定的な反応行動の強さとは、反応行動である動作の態様によって特定される評価の程度を示す。例えば、うなずく動作について、何度も繰り返してうなずいたり、大きくゆっくりした動作でうなずいたりした場合に肯定的な程度が高いと評価する場合、図１１の上段では、肯定的な反応行動の強さが強い方（上方）にプロットされる（点が打たれる）。反対に、軽くうなずいた場合に肯定的な程度が低いと評価する場合、図１１の上段では、肯定的な反応行動の強さが弱い方（下方）にプロットされる。同様に、反応行動である動作の態様に応じて、否定的な程度が高いと評価する場合、図１１の下段では、否定的な反応行動の強さが強い方（上方）にプロットされ、否定的な程度が低いと評価する場合、図１１の下段では、否定的な反応行動の強さが弱い方（下方）にプロットされる。

図１１に示す例において、上段のグラフと下段のグラフとを対比すると、肯定的な反応行動の強さが強い時には、否定的な反応行動の強さも強くなっている（図のグラフが山形になっている個所）。すなわち、この時間帯において、評価対象者である参加者Ａは、強い肯定的な反応行動として抽出される動作と、強い否定的な反応行動として抽出される動作とを行っており、非常に活性化し、積極的に講義に参加していたことが推察される。

＜他の構成例等＞
以上、本実施形態による非言語情報評価システム１０について説明したが、本実施形態の具体的構成は上記のものに限定されない。例えば、上記の構成では、ビデオカメラ１００で取得した動画を情報処理装置２００が処理し、得られた評価結果を出力手段としての端末装置３００が表示出力するとした。これに対し、情報処理装置２００が出力手段を兼ねる構成としてもよい。すなわち、情報処理装置２００と端末装置３００とを分けず、例えば、情報処理装置２００自身が液晶ディスプレイ等の表示装置を備える構成とし、評価結果の表示出力を行うようにしてもよい。また、上記の実施形態では、ビデオカメラ１００で撮影することにより評価対象者の画像を取得したが、別途用意された画像データを情報処理装置２００が解析し、評価しても良い。例えば、別途撮影し、磁気ディスク装置等の記憶装置に蓄積された画像データを読み込んで評価しても良い。

１０…非言語情報評価システム、２０…ネットワーク、１００ａ…広域撮影用カメラ、１００ｂ…拡大撮影用カメラ、１００…ビデオカメラ、２００…情報処理装置、２０１…ＣＰＵ、２０２…ＲＡＭ、２０３…ＲＯＭ、２０４…外部記憶装置、２０５…ネットワーク・インターフェイス、２１０…動画データ取得部、２２０…領域識別部、２３０…動作検出部、２４０…非言語情報抽出部、２５０…反応評価部、２６０…出力部、３００…端末装置、３０１…ＣＰＵ、３０２…ＲＡＭ、３０３…ＲＯＭ、３０４…表示装置、３０５…入力装置、３０６…ネットワーク・インターフェイス、３１０…評価結果取得部、３２０…表示画像生成部、３３０…表示制御部、３４０…操作受け付け部

Claims

参加者の動画を取得する第１取得手段と、
前記第１取得手段よりも高い倍率で参加者の動画を取得する第２取得手段と、
前記第１取得手段および前記第２取得手段により取得された動画データを解析して動画に映っている人物の行動を評価する行動評価手段と、
前記行動評価手段による評価結果を出力する出力手段と、を備え、
前記行動評価手段は、
前記第１取得手段または前記第２取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
前記動作検出部は、前記第１取得手段により取得された動画を用いて動作の検出を行い、当該第１取得手段により取得された動画が予め定められた切り替え条件を満たす場合に、前記第２取得手段により取得された動画を用いて動作の検出を行うことを特徴とする、評価システム。
前記動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画を、前記第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項１に記載の評価システム。
前記動作検出部が前記第１取得手段により取得された動画に基づいて検出した動作の時間経過に伴う変化が、予め定められた変化量よりも小さい場合に、処理対象の動画を、当該第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項２に記載の評価システム。
前記行動抽出部により抽出された行動が、予め定められた条件を満たす場合に、処理対象の動画を、前記第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項２に記載の評価システム。
前記第１取得手段により取得された動画に映っている人体の部位の画像が予め定められた大きさよりも小さい場合に、処理対象の動画を、前記第１取得手段により取得された動画から前記第２取得手段により取得された動画に切り替えることを特徴とする、請求項１に記載の評価システム。
参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得部と、
前記動画データ取得部により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
前記動作検出部は、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、情報処理装置。
前記動作検出部は、当該動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画データを、前記一の動画データから前記他の動画データに切り替えることを特徴とする、請求項６に記載の情報処理装置。
コンピュータを、
参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得手段と、
前記動画データ取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出手段と、
前記動作検出手段により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出手段と、
前記行動抽出手段により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価手段として機能させ、
前記動作検出手段において、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、プログラム。