JP6859641B2 - 評価システム、情報処理装置およびプログラム - Google Patents

評価システム、情報処理装置およびプログラム Download PDF

Info

Publication number
JP6859641B2
JP6859641B2 JP2016184837A JP2016184837A JP6859641B2 JP 6859641 B2 JP6859641 B2 JP 6859641B2 JP 2016184837 A JP2016184837 A JP 2016184837A JP 2016184837 A JP2016184837 A JP 2016184837A JP 6859641 B2 JP6859641 B2 JP 6859641B2
Authority
JP
Japan
Prior art keywords
evaluation
moving image
behavior
motion
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016184837A
Other languages
English (en)
Other versions
JP2018049482A (ja
Inventor
伊藤 篤
篤 伊藤
鈴木 譲
譲 鈴木
河野 功幸
功幸 河野
耕輔 丸山
耕輔 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2016184837A priority Critical patent/JP6859641B2/ja
Publication of JP2018049482A publication Critical patent/JP2018049482A/ja
Application granted granted Critical
Publication of JP6859641B2 publication Critical patent/JP6859641B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、評価システム、情報処理装置およびプログラムに関する。
講義や集会等において参加者を撮影し、画像解析して分析、評価することが試みられている。特許文献1には、講義中における1以上の受講生の顔を撮影した動画像である受講生画像が格納される受講生画像格納部と、受講生画像から受講生の顔を認識して、認識した顔に対する分析を行う顔分析部と、顔分析部による分析結果に関連する情報を出力する出力部とを備えるようにしたことにより講義に関する分析を行う顔分析装置が開示されている。
特開2013−61906号公報
講義や集会の参加者は、状況に応じて、顔の表情以外にも身振りや体の向きを変える等の様々な反応をして非言語情報を発する。そのため、顔の分析だけでなく、身体の動作を含めて参加者の発する非言語情報を捉えることにより、より精度の高い分析、評価を行うことができる。また、着目した身体の部位の動き自体を評価しようとすると、参加者が非言語情報として発したものでない意味のない動作までも含んで評価してしまうため、評価の精度が低下する可能性がある。
本発明は、参加者を撮影して得られた画像から非言語情報として定義された行動を抽出して分析することにより、精度の高い評価を実現することを目的とする。
本発明の請求項1に係る評価システムは、
参加者の動画を取得する第1取得手段と、
前記第1取得手段よりも高い倍率で参加者の動画を取得する第2取得手段と、
前記第1取得手段および前記第2取得手段により取得された動画データを解析して動画に映っている人物の行動を評価する行動評価手段と、
前記行動評価手段による評価結果を出力する出力手段と、を備え、
前記行動評価手段は、
前記第1取得手段または前記第2取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
前記動作検出部は、前記第1取得手段により取得された動画を用いて動作の検出を行い、当該第1取得手段により取得された動画が予め定められた切り替え条件を満たす場合に、前記第2取得手段により取得された動画を用いて動作の検出を行うことを特徴とする、評価システムである。
本発明の請求項2に係る評価システムは、
前記動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画を、前記第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項1に記載の評価システムである。
本発明の請求項3に係る評価システムは、
前記動作検出部が前記第1取得手段により取得された動画に基づいて検出した動作の時間経過に伴う変化が、予め定められた変化量よりも小さい場合に、処理対象の動画を、当該第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項2に記載の評価システムである。
本発明の請求項4に係る評価システムは、
前記行動抽出部により抽出された行動が、予め定められた条件を満たす場合に、処理対象の動画を、前記第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項2に記載の評価システムである。
本発明の請求項5に係る評価システムは、
記第1取得手段により取得された動画に映っている人体の部位の画像が予め定められた大きさよりも小さい場合に、処理対象の動画を、前記第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項1に記載の評価システムである。
本発明の請求項6に係る情報処理装置は、
参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得部と、
前記動画データ取得部により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
前記動作検出部は、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、情報処理装置である。
本発明の請求項7に係る情報処理装置は、
前記動作検出部は、当該動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画データを、前記一の動画データから前記他の動画データに切り替えることを特徴とする、請求項6に記載の情報処理装置である。
本発明の請求項8に係るプログラムは、
コンピュータを、
参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得手段と、
前記動画データ取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出手段と、
前記動作検出手段により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出手段と、
前記行動抽出手段により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価手段として機能させ、
前記動作検出手段において、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、プログラムである。
請求項1の発明によれば、取得された動画に基づいて解析対象の動画の倍率を切り替えない構成と比較して、非言語情報に基づく精度の高い評価を行うことができる。
請求項2の発明によれば、動画に対する解析処理の結果に基づいて解析対象の動画の倍率を切り替えることにより、状況に応じて、より適した動画を用いて解析処理を行うことができる。
請求項3の発明によれば、動作検出部により検出された動作の時間経過に伴う変化が小さい場合に、解析対象の動画を切り替えることにより、より詳細な解析処理を行うことができる。
請求項4の発明によれば、行動抽出部により抽出された行動に応じて、解析対象の動画を切り替えることにより、より詳細な解析処理を行うことができる。
請求項5の発明によれば、動画から識別される人体の部位の画像が小さい場合に、解析対象の動画をより高い倍率の動画に切り替えることにより、より詳細な解析処理を行うことができる。
請求項6の発明によれば、取得された動画に基づいて解析対象の動画の倍率を切り替えない構成と比較して、非言語情報に基づく精度の高い評価を行うことができる。
請求項7の発明によれば、動画に対する解析処理の結果に基づいて解析対象の動画の倍率を切り替えることにより、状況に応じて、より適した動画を用いて解析処理を行うことができる。
請求項8の発明によれば、取得された動画に基づいて解析対象の動画の倍率を切り替えない構成と比較して、本発明のプログラムを実行するコンピュータにおいて、非言語情報に基づく精度の高い評価を行うことができる。
本実施形態が適用される非言語情報評価システムの構成例を示す図である。 情報処理装置のハードウェア構成例を示す図である。 情報処理装置の機能構成を示す図である。 端末装置のハードウェア構成例を示す図である。 端末装置の機能構成を示す図である。 フレーム間特徴量を用いて人体に関わる領域を特定する手法を説明する図であり、図6(A)は、動画の1フレームにおいて、人物が横を向いて椅子に座っている様子を示す図、図6(B)は、動画の別の1フレームにおいて、同じ人物が前方へ乗り出した様子を示す図である。 第1の適用場面でビデオカメラにより取得される評価対象者の画像の例を示す図である。 第2の適用場面でビデオカメラにより取得される評価対象者の画像の例を示す図である。 ビデオカメラの配置の例を示す図である。 評価結果の出力画像の例を示す図である。 評価結果の出力画像の他の例を示す図である。
<本実施形態が適用される非言語情報評価システムの構成>
図1は、本実施形態が適用される非言語情報評価システムの構成例を示す図である。図1に示すように、本実施形態による非言語情報評価システム10は、動画取得装置としてのビデオカメラ100と、動画解析装置としての情報処理装置200と、情報処理装置200による解析結果を出力する出力装置としての端末装置300とを備える。ビデオカメラ100と情報処理装置200、情報処理装置200と端末装置300は、それぞれネットワーク20を介して接続されている。
ネットワーク20は、ビデオカメラ100と情報処理装置200および情報処理装置200と端末装置300の間で情報通信を行えるものであれば特に限定されず、例えばインターネットやLAN(Local Area Network)等としてよい。情報通信に用いられる通信回線は、有線であっても無線であっても良い。ビデオカメラ100と情報処理装置200とを接続するネットワーク20と、情報処理装置200と端末装置300とを接続するネットワーク20とは、共通のネットワークであってもよいし、異なるネットワークであってもよい。また、特に図示しないが、ネットワーク20にはネットワークや通信回線を接続するためのゲートウェイやハブ等の中継装置が適宜設けられる。
本実施形態の非言語情報評価システム10は、評価対象である人物または評価対象を構成する人物の動画を解析して、その人物の動作や顔の表情といった非言語情報を抽出し、抽出された非言語情報に基づき評価対象を評価する。本実施形態の非言語情報評価システム10は、例えば、授業、講演、催事、娯楽施設、その他の多くの人が集まる場所や場面において参加者の様子を評価したり、面接のような対象となる個人が固定される場面において個人の様子を評価したりする。評価対象、評価項目、評価内容などは、非言語情報評価システム10の適用対象や適用場面等に応じて設定される。例えば、評価対象は、個々の人物とされる場合もあるし、複数の人物の集合(グループ、チーム等)とされる場合もある(以下、このような評価対象である人物または評価対象である集合を構成する人物を「評価対象者」と呼ぶ)。評価項目は、例えば評価対象である人物や人物の集合が何かに集中しているか、活発に活動しているか等が設定され、評価内容としては、例えばそのような評価項目に適合する程度(度合)等が判断される。これらの評価については、後で具体的な適用例を挙げて説明する。
図1に示すシステムにおいて、ビデオカメラ100は、動画データの取得手段の一例であり、本実施形態による評価の適用対象等に応じて、教室、講演会場、催事場、娯楽施設などに設置され、評価対象者を撮影する。本実施形態では、ビデオカメラ100により撮影された評価対象者の動画を解析し、動作や顔の表情といった非言語情報が抽出される。したがって、評価対象者の構成(個人か集合か等)、設置場所や撮影範囲の広さ等に応じて、評価対象者の動作や表情が識別できるように、ビデオカメラ100の種類や設置台数が設定される。例えば広い場所で個人を撮影するには望遠カメラが用いられ、広い範囲に存在する複数の人物を撮影するには広角カメラが用いられる。また、評価対象者の身体の様々な部位を撮影するために、複数台のカメラを様々な向きで設置してもよい。また、高解像度のカメラを用いて広範囲を撮影することにより、複数人の画像を取得するとともに、得られた画像を拡大して個人の画像を解析対象とするようにしてもよい。また、本実施形態において、ビデオカメラ100は、撮影した動画をデジタル・データとして、ネットワーク20を介して情報処理装置200へ送信する機能を備える。
本実施形態では、ビデオカメラ100として、広域撮影用カメラ(広角カメラ)と拡大撮影用カメラ(望遠カメラ)とを用意する。広域撮影用カメラは、広い画角を有し、複数の評価対象者を一度に撮影するものである。広域撮影用カメラで撮影された動画からは、複数の評価対象者についての情報が得られる。拡大撮影用カメラは、広域撮影用カメラよりも高い拡大率(倍率)を有し、特定の評価対象者やその身体の一部を拡大して撮影するものである。拡大撮影用カメラの拡大率は可変としてもよい。拡大撮影用カメラで撮影された動画からは、顔の表情、視線、手の指の動き等の身体における微小な部位の動きの情報が得られる。
拡大撮影用カメラは、外部から動作制御可能な可動式の架台に設置される。そして、例えばオペレータが端末装置から架台の制御装置に制御信号を送ることにより、撮影方向(カメラの向き)を制御して、特定の評価対象者の特定の部位を撮影するように操作する。本実施形態では、初期的には広域撮影用カメラで撮影された動画を情報処理装置200による解析の対象として用い、特定の切り替え条件を満足した場合に、拡大撮影用カメラで撮影された動画を情報処理装置200の解析の対象とするように切り替え制御する。
情報処理装置200は、行動評価手段の一例であり、ビデオカメラ100により撮影された動画を解析して評価対象者に関する非言語情報を抽出し、評価するコンピュータ(サーバ)である。情報処理装置200は、単体のコンピュータにより構成してもよいし、ネットワーク20に接続された複数のコンピュータにより構成してもよい。後者の場合、後述する本実施形態の情報処理装置200としての機能は、複数のコンピュータによる分散処理にて実現される。
図2は、情報処理装置200のハードウェア構成例を示す図である。図2に示すように、情報処理装置200は、制御手段および演算手段であるCPU(Central Processing Unit)201と、RAM202およびROM203と、外部記憶装置204と、ネットワーク・インターフェイス205とを備える。CPU201は、ROM203に格納されているプログラムを実行することにより、各種の制御および演算処理を行う。RAM202は、CPU201による制御や演算処理において作業メモリとして用いられる。ROM203は、CPU201が実行するプログラムや制御において用いられる各種のデータを格納している。外部記憶装置204は、例えば磁気ディスク装置や、データの読み書きが可能で不揮発性の半導体メモリで実現され、RAM202に展開されてCPU201により実行されるプログラムや、CPU201による演算処理の結果を格納する。ネットワーク・インターフェイス205は、ネットワーク20に接続して、ビデオカメラ100や端末装置300との間でデータの送受信を行う。なお、図2に示す構成例は、情報処理装置200をコンピュータで実現するハードウェア構成の一例に過ぎない。情報処理装置200の具体的構成は、以下に説明する機能を実現し得るものであれば、図2に示す構成例に限定されない。
図3は、情報処理装置200の機能構成を示す図である。図3に示すように、情報処理装置200は、動画データ取得部210と、領域識別部220と、動作検出部230と、非言語情報抽出部240と、反応評価部250と、出力部260とを備える。
動画データ取得部210は、例えば図2に示すコンピュータにおいて、CPU201がプログラムを実行し、ネットワーク・インターフェイス205を制御することにより実現される。動画データ取得部210は、ネットワーク20を介してビデオカメラ100から動画データを受信する。受信した動画データは、例えば図2に示すRAM202や外部記憶装置204に格納される。
領域識別部220は、例えば図2に示すコンピュータにおいて、CPU201がプログラムを実行することにより実現される。領域識別部220は、動画データ取得部210により取得された動画を解析し、後段の非言語情報抽出部240により非言語情報として抽出される評価対象者の部位が映っている領域を識別する。具体的には、人体(全体)が映っている領域、人体の頭部、体部、腕部、手部、指などが映っている領域、頭部の顔、目、口、鼻、耳などが映っている領域、上半身、下半身が映っている領域、その他身体の各特徴点が映っている領域等を識別する(以下、人体の全体や一部分を特に区別せず、部位、身体の部位などと呼ぶ)。識別対象の部位としては、予め定められた部位を全て識別してもよいし、後段の非言語情報抽出部240による抽出や反応評価部250による評価の内容に基づき、これらの処理に用いられる部位のみを識別してもよい。
動作検出部230は、例えば図2に示すコンピュータにおいて、CPU201がプログラムを実行することにより実現される。動作検出部230は、領域識別部220の識別結果に基づき、各領域に映っている身体の部位を特定し、特定した部位ごとの動作を検出する。具体的には、頭の動き、顔の向き、顔の構成部位(目、口など)の動き、腕や脚の動き、身体の向き、身体の移動(歩きまわる等)等の動作を検出する。検出対象の動作としては、予め定められた部位についての予め定められた動作を全て対象として検出してもよいし、後段の非言語情報抽出部240による抽出や反応評価部250による評価の内容に基づき、これらの処理に用いられる部位の動作のみを検出してもよい。
非言語情報抽出部240は、例えば図2に示すコンピュータにおいて、CPU201がプログラムを実行することにより実現される。非言語情報抽出部240は、動作検出部230により検出された部位の動きに基づき、評価対象者の行動のうち、反応評価部250の評価項目ごとの評価に用いられるもの(非言語情報)を抽出する。言い換えれば、非言語情報抽出部240は、評価対象者の発する非言語情報として定義された行動を抽出する行動抽出部である。具体的には、例えば、うなずく動作、顔を特定の方向に向けたり顔の向きを変えたりする動作、表情の変化、口を動かして発言する動作、欠伸(あくび)をする動作、居眠りしているときの動き、目くばせをする動作、挙手、筆記動作、キーボードを打つ動作、振り向く動作、貧乏ゆすりなどを抽出する。
反応評価部250は、例えば図2に示すコンピュータにおいて、CPU201がプログラムを実行することにより実現される。反応評価部250は、非言語情報抽出部240により抽出された評価項目ごとの非言語情報の行動に対し、評価項目ごとに予め定められた評価基準に基づいて、評価対象者の反応を評価する。評価内容は、本実施形態の非言語情報評価システム10が適用される場面(授業、講演、催事など)に応じて設定される。具体的には、例えば、集中度、活性度、進行の度合い、積極性、応答性などの評価を行う。
出力部260は、例えば図2に示すコンピュータにおいて、CPU201がプログラムを実行し、ネットワーク・インターフェイス205を制御することにより実現される。出力部260は、ネットワーク20を介して、反応評価部250による評価結果の情報を端末装置300に送信する。
端末装置300は、出力手段の一例であり、情報処理装置200による評価結果を出力する情報端末(クライアント)である。端末装置300としては、例えばパーソナルコンピュータ、タブレット端末、スマートフォン等の出力手段として画像表示手段を備えた装置が用いられる。
図4は、端末装置300のハードウェア構成例を示す図である。図4に示すように、端末装置300は、CPU301と、RAM302およびROM303と、表示装置304と、入力装置305と、ネットワーク・インターフェイス306とを備える。CPU301は、ROM303に格納されているプログラムを実行することにより、各種の制御および演算処理を行う。RAM302は、CPU301による制御や演算処理において作業メモリとして用いられる。ROM303は、CPU301が実行するプログラムや制御において用いられる各種のデータを格納している。表示装置304は、例えば液晶ディスプレイにより構成され、CPU301の制御により画像を表示する。入力装置305は、例えばキーボードやマウス、タッチセンサ等の入力デバイスで実現され、操作者の入力操作を受け付ける。一例として、端末装置300がタブレット端末やスマートフォン等である場合は、液晶ディスプレイとタッチセンサとが組み合わされたタッチパネルが表示装置304および入力装置305として機能する。ネットワーク・インターフェイス306は、ネットワーク20に接続して、ビデオカメラ100や端末装置300との間でデータの送受信を行う。なお、図4に示す構成例は、端末装置300をコンピュータで実現するハードウェア構成の一例に過ぎない。端末装置300の具体的構成は、以下に説明する機能を実現し得るものであれば、図4に示す構成例に限定されない。
図5は、端末装置300の機能構成を示す図である。図5に示すように、本実施形態の端末装置300は、評価結果取得部310と、表示画像生成部320と、表示制御部330と、操作受け付け部340とを備える。
評価結果取得部310は、例えば図4に示すコンピュータにおいて、CPU301がプログラムを実行し、ネットワーク・インターフェイス306を制御することにより実現される。評価結果取得部310は、ネットワーク20を介して情報処理装置200から評価結果のデータを受信する。受信した評価結果のデータは、例えば図4のRAM302に格納される。
表示画像生成部320は、例えば図4に示すコンピュータにおいて、CPU301がプログラムを実行することにより実現される。表示画像生成部320は、評価結果取得部310により取得された評価結果のデータに基づき、評価結果を示す出力画像を生成する。生成される出力画像の構成や表示態様は、評価項目や評価内容等に応じて設定し得る。出力画像の詳細については後述する。
表示制御部330は、例えば図4に示すコンピュータにおいて、CPU301がプログラムを実行することにより実現される。表示制御部330は、表示画像生成部320により生成された出力画像を、例えば図4に示すコンピュータにおける表示装置304に表示させる。また、表示制御部330は、表示装置304への表示に関する命令を受け付け、受け付けた命令に基づいて表示の切り替え等の制御を行う。
操作受け付け部340は、例えば図4に示すコンピュータにおいて、CPU301がプログラムを実行することにより実現される。操作受け付け部340は、操作者が入力装置305により行った入力操作を受け付ける。そして、操作受け付け部340により受け付けた操作にしたがって、表示制御部330が表示装置304への出力画像等の表示制御を行う。
<領域識別部の処理>
情報処理装置200の領域識別部220による処理について説明する。領域識別部220は、ビデオカメラ100により撮影された動画から、その動画に映っている人物の動作に係る部位を識別する。この部位の識別には、既存の種々の画像解析技術を適用してよい。例えば、顔や笑顔の識別は、デジタルカメラ等で実現されている既存の識別手法を用いてよい。また、動画に映されている特定の形状の部分(領域)やそのような複数の部分の配置等に基づいて、身体の部位が映っている領域を特定し得る。さらに一例として、フレーム間特徴量に基づく識別を行ってもよい。具体的には、動画データの連続する2枚以上のフレームの差分に基づき、フレーム間特徴量を求める。ここで、フレーム間特徴量としては、例えば、色の境界(エッジ)、色の変化量、これらによって特定される領域の移動方向や移動量などが用いられる。予め設定された時間分のフレーム間特徴量を累積し、フレームごとのフレーム間特徴量の距離や類似度に基づいて、フレーム間特徴量を分類、統合する。これにより、動画において連携して変化する領域が特定され、身体の部位が映っている領域が識別される。
図6は、フレーム間特徴量を用いて人体に関わる領域を特定する手法を説明する図である。図6(A)は、動画の1フレームにおいて、人物が横を向いて椅子に座っている様子を示し、図6(B)は、動画の別の1フレームにおいて、同じ人物が前方へ乗り出した様子を示している。図6に示す例において、領域識別部220は、図6(A)に映っている色の境界や変化量に基づき、近似する色が映っている範囲を特定する。そして、領域識別部220は、図6(A)のフレームと図6(B)のフレームとを対比し、対応する色の範囲の移動方向および移動量に基づき、画像中の破線の枠で囲まれた領域221において、複数個の色の範囲が連携して動いていることを認識し、この領域221を人体の上半身が映っている領域として識別する。図6(A)、(B)を参照すると、人体(上半身)を構成する色の範囲の動きに応じて、領域221の位置や大きさが変化している。なお、ここでは図6(A)、(B)の2つのフレームを対比したが、3つ以上のフレームを対比して色の範囲の変化等のフレーム間特徴量を累積した結果に基づいて人体が映っている領域を識別するようにしてもよい。
<動作検出部の処理>
動作検出部230による処理について説明する。動作検出部230は、領域識別部220により識別された身体の部位が映っている領域を解析して、具体的にどの部位が映っているかを特定し、特定した部位ごとの動きを検出する。この動きの検出には、既存の種々の画像解析技術を適用してよい。検出される動きは、特定された部位ごとに身体動作として起こり得る動きである。例えば、目を閉じたり口を開けたりする動き、視線の変化、顔の向きを上下や左右に変える動き、肘の曲げ伸ばしや腕を振る動き、手指の曲げ伸ばしや手を開いたり閉じたりする動き、腰の曲げ伸ばしや体を捻じる動き、膝の曲げ伸ばしや脚を振る動き、歩行等による身体の移動などが検出される。なお、これらの動きは例示に過ぎず、本実施形態の非言語情報評価システム10で検出し得る動きは、上記に提示した動きに限定されない。本実施形態では、動作検出部230は、領域識別部220で領域として識別された全ての部位の動きを検出してもよいし、後段の非言語情報抽出部240で抽出される動作を特定するための動き等に限定して検出してもよい。例えば、非言語情報抽出部240でうなずく動作のみを抽出するのであれば、顔の向きを上下に変えるような頭の動きを検出すればよい。
<非言語情報抽出部の処理>
非言語情報抽出部240による処理について説明する。非言語情報抽出部240は、動作検出部230により検出された部位の動きに基づいて、評価対象者が意識的にまたは無意識的に行った意味のある行動を非言語情報として抽出する。例えば、顔の向きを上下に変える動きからうなずくという動作を抽出したり、口を動かす動きから発話や欠伸という動作を抽出したり、腕を上げる動きから挙手という動作を抽出したりする。非言語情報の抽出は、単に動作検出部230により検出された部位の動きのみに基づいて行われるのではなく、例えば、検出された動きの前後における該当部位の動き、周囲の部位や他の人物の動き、動きが検出された場面や文脈(背景)等の情報も参酌して行われる。具体例を挙げると、顔の向きを上下に連続的に変える動きが特定の時間内で行われたとき、この動きは、うなずきの動作として抽出される。一方、顔の向きが上を向き、ある程度の時間が経過した後に下方向へ動いてもとに戻ったとき、この動きは、思考するために上方を見上げた動作として抽出される。また、顔の向きが下を向き、ある程度の時間が経過したとき、この動作は、居眠りしていることを示す動作として抽出される。なお、これらの動作や参酌情報は例示に過ぎず、本実施形態の非言語情報評価システム10で非言語情報として抽出し得る動作や参酌情報は、上記に提示した動作や情報に限定されない。
<反応評価部の処理>
反応評価部250による処理について説明する。反応評価部250は、非言語情報抽出部240により抽出された非言語情報に基づき、非言語情報評価システム10が適用される場面に応じた評価対象者の反応を評価する。例えば、講義における受講者の反応を評価するのであれば、講義に対する集中の度合い等が評価項目となる。また、参加型の授業であれば、各生徒の集中の度合いや積極性、授業全体の活性度等が評価項目となる。また、単純に、非言語情報評価システム10が適用される場面の目的に対して肯定的(ポジティブ)な反応か否定的(ネガティブ)な反応かを評価するようにしてもよい。評価結果は、評価項目や評価の目的等に応じて様々な形式で決定し得る。例えば、授業中に発言したか否かというような二値的な評価を行ってもよいし、集中度や積極性などの評価項目の達成度(評価の程度)を段階的に特定する多値的な評価を行ってもよい。また、反応評価部250は、講義や授業が行われる一定時間にわたって継続的に評価を行い、時間の経過に伴って変化する時系列の評価情報を生成してもよい。
多値的な評価を行う場合、反応評価部250において評価される評価項目に応じて、その評価に用いられる非言語情報として定義された(抽出される)行動(以下、反応行動)の種類および反応行動の出現態様が設定される。言い換えると、同じ反応行動であっても、その出現態様に応じて異なる評価となる。例えば、非言語情報として抽出される特定の反応行動が1回行われた場合と、複数回繰り返されたり、一定時間以上継続したりした場合とでは評価が異なる。
さらに、多値的な評価を行う場合、例えば、その評価項目における反応行動の種類、出現頻度、継続時間などに基づいて、評価の程度を特定してもよい。一例として、集中度を評価するための評価対象の反応行動として、うなずく動作と筆記する動作とが定義されている場合を考える。そして、うなずく動作は筆記する動作よりも高い集中度を表すものとする。この場合、反応行動の種類として、うなずく動作が出現したときは、筆記する動作が出現したときよりも集中度が高い(評価の程度が高い)と評価する。また、反応行動の出現頻度として、一定時間内にうなずく動作が多いほうが少ないよりも集中度が高い(評価の程度が高い)と評価する。また、一定時間内に筆記する動作の継続時間が長いほうが短いよりも集中度が高い(評価の程度が高い)と評価する。なお、これらの評価項目や評価方法は例示に過ぎず、本実施形態の非言語情報評価システム10でとり得る評価項目や評価方法は、上記に提示した評価項目や評価方法に限定されない。
<適用例>
ここで、具体的な適用の場面を想定し、非言語情報の抽出と反応評価についてさらに説明する。第1の適用場面は、講義や講演会等のように、話者と受講者(聴取者)が明確に分かれており、ほぼ話者のみが話をする場面である。片方向(ここでは話者から受講者への方向)の情報伝達が大きい場面(ケース)といえる。そして、ここでは、受講者を評価対象者として評価を行うものとする。
図7は、第1の適用場面でビデオカメラ100により取得される評価対象者の画像の例を示す図である。図7に示す例では、一方向に向かって縦横4列ずつに並んだ受講者を話者側から撮影した様子が示されている。したがって、各受講者は、原則としてビデオカメラ100の方向を向いている。この例では、16人の各受講者が評価対象者となる。
情報処理装置200において、動画データ取得部210がビデオカメラ100により取得された動画データを受信すると、領域識別部220が、取得した動画から各受講者(評価対象者)が映っている領域を識別する。ここでは、上半身の領域、顔領域、目領域、口領域、顔向き、頭部などの部位の領域が識別される。そして、動作検出部230が、領域識別部220により識別された領域に基づき、各受講者の部位ごとの動きを検出する。
次に、非言語情報抽出部240が、動作検出部230により検出された各受講者の部位ごとの動きに基づき、受講者ごとの特定の行動を、非言語情報を表す反応行動として抽出する。例えば、うなずく動作、欠伸、目を閉じる動作、うつむく動作、笑う動作などが反応行動として抽出される。
次に、反応評価部250が、非言語情報抽出部240により抽出された非言語情報としての反応行動を評価する。評価方法としては、例えば、特定の評価項目に関して、相反する評価となる第1分類に該当する行動と第2分類に該当する行動とを定義しておき、第1分類に該当する行動の出現に基づく評価と第2分類に該当する行動の出現に基づく評価とを統合して、この評価項目の評価結果とする。一例として、肯定的な反応行動と否定的な反応行動とを定義して評価する場合について説明する。例えば、上記のうなずく動作や笑う動作を肯定的な反応として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど高評価とする。一方、欠伸、目を閉じる動作、うつむく動作等を否定的な反応として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど低評価とする。
ここで、肯定的な反応行動として定義された動作は、その動作が出現すると必ず肯定的な反応として評価される。例えば、上記のようにうなずく動作が肯定的な反応行動と定義された場合、評価対象者がうなずく動作を行うと、必ず肯定的な反応として評価される。そして、うなずく動作の態様に応じて肯定的な評価の程度が変わる。例えば、何度も繰り返してうなずいたり、大きくゆっくりした動作でうなずいたりした場合は、肯定的な程度が高いと評価される。一方、小さな動作で軽くうなずいた場合は、肯定的な反応と評価するが、その程度は低いと評価される。反対に、否定的な反応行動として定義された動作は、その動作が出現すると必ず否定的な反応として評価される。例えば、上記のように目を閉じる動作が否定的な反応行動と定義された場合、評価対象者が目を閉じる動作を行うと、必ず否定的な反応として評価される。そして、目を閉じる動作の態様に応じて否定的な評価の程度が変わる。例えば、長時間にわたって目を閉じた状態が継続した場合は、否定的な程度が高いと評価する。一方、目を閉じた状態が短時間しか継続しない場合は、否定的な反応と評価するが、その程度は低いと評価する。なお、肯定的(高評価)か否定的(低評価)かという二元的な評価の他に、肯定的な反応行動も否定的な反応行動もあまり多くない場合の評価として、中間的という評価を加えてもよい。
上記の例の他、積極性を評価するための反応行動と消極性を評価するための反応行動とを定義し、該当する反応行動の出現頻度や出現時間に応じて積極的(高評価)か、消極的(低評価)か、中間的かといった評価を行ってもよい。また、意味のある動作と無意味な動作とを定義し、意味のある動作の出現頻度や出現時間、無意味な動作の出現頻度や出現時間に応じて高評価か、低評価か、中間的かといった評価を行ってもよい。
さらに、上記のような二元的な内容を基礎とする評価でなく、特定の特性が強いか否かを評価するようにしてもよい。例えば、理解度を評価するための反応行動を定義し、該当する反応行動がなければ理解度が0(ゼロ)であり、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど理解度が高いと評価する。同様に、活性度を評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど活性度が高いと評価する。また、ファッシリテート(facilitate)度を評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほどファッシリテート度が高いと評価する。また、集中度を評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど集中度が高いと評価する。また、落ち着きの度合いを評価するための反応行動を定義し、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど落ち着きの度合いが高いと評価する。なお、評価対象者に対して複数の評価項目による評価が行われる場合、一つの非言語情報としての行動が複数の評価項目における反応行動として定義されてよい。
次に上記の例とは別の適用場面について説明する。第2の適用場面は、打ち合わせ等のように、複数の参加者が互いに発言しあう場面である。双方向の情報伝達が行われる場面(ケース)といえる。そして、ここでは、各参加者を評価対象者として評価を行うものとする。
図8は、第2の適用場面でビデオカメラ100により取得される評価対象者の画像の例を示す図である。図8に示す例では、5人の参加者が一つのテーブルを囲んで着席している場面を撮影した様子が示されている。したがって、各参加者は、ビデオカメラ100の位置とは関係なく相互に向き合っている。この例では、5人の各参加者が評価対象者となる。
情報処理装置200において、動画データ取得部210がビデオカメラ100により取得された動画データを受信すると、領域識別部220が、取得した動画から各受講者(評価対象者)が映っている領域を識別する。ここでは、上半身の領域、顔領域、目領域、口領域、顔向き、頭部、体部、腕、手、脚などの部位の領域が識別される。そして、動作検出部230が、領域識別部220により識別された領域に基づき、各受講者の部位ごとの動きを検出する。
次に、非言語情報抽出部240が、動作検出部230により検出された各受講者の部位ごとの動きに基づき、受講者ごとの特定の行動を、非言語情報を表す反応行動として抽出する。例えば、うなずく動作、発言する動作、身振り、手振り、目くばせする動作、筆記動作、キーボードのキーを打つ動作、貧乏ゆすり、欠伸、目を閉じる動作などが反応行動として抽出される。また、口の開閉動作が一定の時間で行われた場合に発言の動作として検出してもよい。
次に、反応評価部250が、非言語情報抽出部240により抽出された非言語情報としての反応行動を評価する。一例として、参加者が積極的に参加していることを示す反応行動と消極的に参加していることを示す反応行動とを定義して評価する場合について説明する。例えば、上記のうなずく動作、発言する動作、身振り、手振り、目くばせする動作、筆記動作、キーボードのキーを打つ動作を、積極的に参加していることを示す反応行動として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど高評価とする。一方、欠伸、目を閉じる動作、貧乏ゆすりを、否定的に参加していることを示す反応行動として評価する。そして、それぞれの動作において出現頻度が大きかったり、出現時間が長かったりするほど低評価とする。なお、上述した第1の適用場面での評価と同様に、積極的(高評価)か消極的(低評価)かという二元的な評価の他に中間的という評価を加えてもよい。
上記の例の他、肯定的な反応行動と否定的な反応行動とを定義し、該当する反応行動の出現頻度や出現時間に応じて肯定的(高評価)か、否定的(低評価)か、中間的かといった評価を行ってもよい。また、意味のある動作と無意味な動作とを定義し、意味のある動作の出現頻度や出現時間、無意味な動作の出現頻度や出現時間に応じて高評価か、低評価か、中間的かといった評価を行ってもよい。
さらに、上述した第1の適用場面での評価と同様に、特定の特性が強いか否かを評価するようにしてもよい。すなわち、理解度、活性度、ファッシリテート度、集中度、落ち着きの度合い等を評価するための反応行動をそれぞれ定義し、該当する反応行動がなければ評価対象の特性の度合いが0(ゼロ)であり、該当する反応行動の出現頻度が大きかったり、出現時間が長かったりするほど、評価対象の特性の度合いが高いと評価する。なお、評価対象者に対して複数の評価項目による評価が行われる場合、一つの非言語情報としての行動が複数の評価項目における反応行動として定義されてよい。
以上のように、本実施形態の非言語情報評価システム10が適用される具体的な場面に応じて、評価項目、評価内容、評価項目ごとの評価に用いられる対象行動、各対象行動をどのように評価するか等の評価方法が個別に設定される。上記の例では、講義や授業(第1の適用場面)、打ち合わせ(第2の適用場面)における個々の参加者に対する評価方法について説明したが、参加者全体の評価に基づいて、講義や授業、打ち合わせ等の場面自体の集中度、活性度、積極性の度合いなどを評価してもよい。参加者全体の評価は、例えば、個々の参加者の評価値の累積値や代表値(平均値や中央値など)を用いて行ってもよい。場面自体の評価は、例えば、集中度の高い参加者の多い講義を高評価としたり、活性度の高い参加者の多い打ち合わせを高評価としたりする等、評価目的等に応じて様々に定義して行ってよい。
図9は、ビデオカメラ100の配置の例を示す図である。図9に示す例では、参加者(評価対象者)は、部屋に配置された数台のテーブルの各々に、数名ずつ着席している。また、部屋には話者30がおり、場をまとめている。図9に示す場面が講義の場面であれば、例えば、話者30は講師である。また、集会や会合の場面であれば、例えば、話者30は司会進行役である。
また、図9に示す例では、ビデオカメラ100として、2台の広域撮影用カメラ100a(第1取得手段)と、1台の拡大撮影用カメラ100b(第2取得手段)とが設けられている。2台の広域撮影用カメラ100aの一つは、部屋の一方(話者30のいる方)から部屋を撮影するように配置されている。他の一つは、部屋の反対側から部屋を撮影するように配置されている。このように配置することで、一つの広域撮影用カメラ100aから見て参加者が他の参加者やテーブルの陰になっている場合でも、他の広域撮影用カメラ100aによってその参加者の画像が取得される。
拡大撮影用カメラ100bは、拡大率が可変であり、撮影方向を変更可能な可動式の架台に設置されている。拡大率および撮影方向は、例えば、外部装置からの制御信号により制御される。また、人感センサ等を用い、部屋にいる参加者を順に捉えるように自動制御してもよい。図示の例では、1台の拡大撮影用カメラ100bが示されているが、複数台の拡大撮影用カメラ100bを設けてもよい。また、拡大撮影用カメラ100bを移動可能な架台に設置して、異なる位置から参加者を撮影できるようにしてもよい。この場合、拡大撮影用カメラ100bの移動は、例えば、外部からの制御信号により制御してもよいし、決まった軌道上を適当な時間をかけて自律的に移動する構成としてもよい。このような構成とすることで、特定の参加者やその部位が撮影できない状態になることを減少させることができる。
<動画データの切り替え制御>
本実施形態において、図9に示した構成によれば、広域撮影用カメラ100aおよび拡大撮影用カメラ100bで撮影された動画は、それぞれ情報処理装置200へ送られる。本実施形態では、初期的には、拡大撮影用カメラ100bは動画を用いず、広域撮影用カメラ100aにより撮影された動画を用いて情報処理装置200による処理が行われる。具体的には、例えば、情報処理装置200において、動画データ取得部210が広域撮影用カメラ100aおよび拡大撮影用カメラ100bからの動画データを取得すると、初期的には、取得した動画データのうちの広域撮影用カメラ100aにより撮影された動画データが、解析対象として動画データ取得部210から領域識別部220へ送られる。そして、後述するように、領域識別部220、動作検出部230または非言語情報抽出部240から切り替え指示が行われると、広域撮影用カメラ100aにより撮影された動画データに替えて、拡大撮影用カメラ100bにより撮影された動画データが、解析対象として動画データ取得部210から領域識別部220へ送られる。このように、領域識別部220、動作検出部230および非言語情報抽出部240の処理結果に応じて解析対象の動画を切り替えることにより、非言語情報としての反応行動をより詳細に抽出することが可能となるため、反応評価部250による評価の精度の向上に寄与する。
ここで、上述したように、非言語情報として抽出される反応行動には、目くばせをする動作、筆記動作、笑顔等の表情、目を閉じる動作など、身体の比較的小さい部位により局所的に行われる動作に基づく行動がある。また、居眠り等のように時間的な動きの変化が小さいため、解析を行うために詳細な(高精細な)動画を要する場合がある。このような行動(動作)に関しては、広域撮影用カメラ100aで撮影された動画では、領域識別部220により識別される領域が小さいために動作検出部230による検出の精度が低下する可能性がある。そこで本実施形態では、このような場合に、解析対象の動画を、広域撮影用カメラ100aで撮影された動画から拡大撮影用カメラ100bで撮影された動画に切り替える。
解析対象の動画を切り替える切り替え条件としては、例えば、上述したように、領域識別部220により識別された身体の部位を示す領域が小さいために動作検出部230が身体の部位を特定して動作を検出することが困難である場合、動作検出部230が検出した動作の時間経過に伴う変化(位置、形状、色彩等の変化)が予め定められた変化量よりも小さい場合等とすることが考えられる。この場合は、例えば動作検出部230が、領域識別部220の識別結果に基づき身体の部位を特定し動作を検出する際に、拡大撮影用カメラ100bで撮影された動画を解析対象とするように、領域識別部220に対して切り替え指示を行う。
また、動作検出部230が指示を行うのではなく、領域識別部220において、識別した領域が、予め定められた大きさよりも小さい場合や、領域の認識率が予め定められた閾値以下である場合に、拡大撮影用カメラ100bで撮影された動画を読み込んで解析を行うようにしてもよい。さらに、講義の場面における講師等、本実施形態の非言語情報評価システム10が適用される場面における特別な人物の非言語情報を抽出する場合は、最初から拡大撮影用カメラ100bで撮影された動画を用いて解析を行うようにしてもよい。また、特定の人物の反応行動として、通常は出現しないような特殊な行動が出現した場合等、予め定められた条件を満たす場合には、非言語情報抽出部240が、拡大撮影用カメラ100bで撮影された動画を解析対象とするように、領域識別部220に対して切り替え指示を行うようにしてもよい。
上記の制御例では、広域撮影用カメラ100aで撮影された動画および拡大撮影用カメラ100bで撮影された動画を両方とも情報処理装置200に送り、情報処理装置200において解析に用いる動画を切り替える構成とした。これに対し、初期的には、広域撮影用カメラ100aおよび拡大撮影用カメラ100bのうち、広域撮影用カメラ100aのみが撮影した動画データを情報処理装置200へ送り、情報処理装置200からの制御に応じて拡大撮影用カメラ100bが撮影した動画データを情報処理装置200へ送るようにしてもよい。さらに、初期的には、広域撮影用カメラ100aのみが撮影を行い、情報処理装置200からの制御に応じて拡大撮影用カメラ100bが撮影を開始するように構成してもよい。これらの場合、例えば、上記の切り替え条件を満足し、領域識別部220、動作検出部230および非言語情報抽出部240のいずれかが切り替え指示を行うことにより、情報処理装置200が拡大撮影用カメラ100bへ制御命令を送る。
<評価結果の出力例>
端末装置300による評価結果の出力例について説明する。情報処理装置200において反応評価部250により行われた評価の結果は、出力部260により端末装置300へ送られる。端末装置300において、評価結果取得部310は、情報処理装置200から送信された評価結果のデータを受け取る。表示画像生成部320は、取得した評価結果のデータに基づき、評価結果を視覚的に示す出力画像を生成する。表示制御部330は、生成された出力画像を表示装置304に表示させる。
図10は、評価結果の出力画像の例を示す図である。図10に示す例では、参加者A、参加者B、参加者Cに関して、50分の講義中での評価を時系列に表している。図10を参照すると、例えば参加者Aは、講義開始から15分程は肯定的な反応行動があり、15分から35分頃まで肯定的な反応行動も否定的な反応行動もあまり行われない中間的な状態となり、その後、講義終了(50分)まで再び肯定的な反応行動があったことが分かる。参加者Bは、講義開始から20分頃まで肯定的な反応行動があり、20分から30分頃まで肯定的な反応行動も否定的な反応行動もあまり行われない中間的な状態となり、その後、30分から40分頃まで再び肯定的な反応行動が行われ、さらに40分頃から講義終了(50分)まで発言が行われたことが分かる。参加者Cは、講義開始から10分頃まで肯定的な反応行動があり、10分から30分頃まで肯定的な反応行動も否定的な反応行動もあまり行われない中間的な状態となり、30分から40分頃まで否定的な反応行動が行われた後、40分頃から講義終了(50分)まで中間的な状態に戻ったことが分かる。
以上のように、各参加者の評価結果を時系列に並べると、各参加者に共通する特徴に基づき、時間経過に伴う講義全体の様子を類推し得る。図10に示した例では、講義の開始直後は各参加者とも肯定的な反応行動を行っているが、開始から一定時間が経過すると次第に肯定的な反応行動が減っていく。これは、例えば、時間の経過と共に、参加者の集中力や注意力が落ちてきたことに起因すると類推される。そして、さらに時間が経過して講義の終了が近くなると、各参加者は再び肯定的な反応行動を行うようになる。これは、例えば、講義の終了が近いことで参加者が集中力や注意力を講義に向けるようになることに起因すると推察される。
図11は、評価結果の出力画像の他の例を示す図である。図11に示す例では、評価対象者である参加者Aに関して、時間の経過に伴い、肯定的な反応行動と否定的な反応行動がどのように現れたかを示す。図10の例では参加者の個々の反応行動に基づく評価結果を統合した参加者自身の評価結果を時系列情報として示したのに対し、図11の例では個々の反応行為に対する評価を時系列情報として示している。図11に示す表示画像の上段には肯定的な反応行動の強さが示され、下段には否定的な反応行動の強さが示されている。ここで、肯定的な反応行動の強さとは、反応行動である動作の態様によって特定される評価の程度を示す。例えば、うなずく動作について、何度も繰り返してうなずいたり、大きくゆっくりした動作でうなずいたりした場合に肯定的な程度が高いと評価する場合、図11の上段では、肯定的な反応行動の強さが強い方(上方)にプロットされる(点が打たれる)。反対に、軽くうなずいた場合に肯定的な程度が低いと評価する場合、図11の上段では、肯定的な反応行動の強さが弱い方(下方)にプロットされる。同様に、反応行動である動作の態様に応じて、否定的な程度が高いと評価する場合、図11の下段では、否定的な反応行動の強さが強い方(上方)にプロットされ、否定的な程度が低いと評価する場合、図11の下段では、否定的な反応行動の強さが弱い方(下方)にプロットされる。
図11に示す例において、上段のグラフと下段のグラフとを対比すると、肯定的な反応行動の強さが強い時には、否定的な反応行動の強さも強くなっている(図のグラフが山形になっている個所)。すなわち、この時間帯において、評価対象者である参加者Aは、強い肯定的な反応行動として抽出される動作と、強い否定的な反応行動として抽出される動作とを行っており、非常に活性化し、積極的に講義に参加していたことが推察される。
<他の構成例等>
以上、本実施形態による非言語情報評価システム10について説明したが、本実施形態の具体的構成は上記のものに限定されない。例えば、上記の構成では、ビデオカメラ100で取得した動画を情報処理装置200が処理し、得られた評価結果を出力手段としての端末装置300が表示出力するとした。これに対し、情報処理装置200が出力手段を兼ねる構成としてもよい。すなわち、情報処理装置200と端末装置300とを分けず、例えば、情報処理装置200自身が液晶ディスプレイ等の表示装置を備える構成とし、評価結果の表示出力を行うようにしてもよい。また、上記の実施形態では、ビデオカメラ100で撮影することにより評価対象者の画像を取得したが、別途用意された画像データを情報処理装置200が解析し、評価しても良い。例えば、別途撮影し、磁気ディスク装置等の記憶装置に蓄積された画像データを読み込んで評価しても良い。
10…非言語情報評価システム、20…ネットワーク、100a…広域撮影用カメラ、100b…拡大撮影用カメラ、100…ビデオカメラ、200…情報処理装置、201…CPU、202…RAM、203…ROM、204…外部記憶装置、205…ネットワーク・インターフェイス、210…動画データ取得部、220…領域識別部、230…動作検出部、240…非言語情報抽出部、250…反応評価部、260…出力部、300…端末装置、301…CPU、302…RAM、303…ROM、304…表示装置、305…入力装置、306…ネットワーク・インターフェイス、310…評価結果取得部、320…表示画像生成部、330…表示制御部、340…操作受け付け部

Claims (8)

  1. 参加者の動画を取得する第1取得手段と、
    前記第1取得手段よりも高い倍率で参加者の動画を取得する第2取得手段と、
    前記第1取得手段および前記第2取得手段により取得された動画データを解析して動画に映っている人物の行動を評価する行動評価手段と、
    前記行動評価手段による評価結果を出力する出力手段と、を備え、
    前記行動評価手段は、
    前記第1取得手段または前記第2取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
    前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
    前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
    前記動作検出部は、前記第1取得手段により取得された動画を用いて動作の検出を行い、当該第1取得手段により取得された動画が予め定められた切り替え条件を満たす場合に、前記第2取得手段により取得された動画を用いて動作の検出を行うことを特徴とする、評価システム。
  2. 前記動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画を、前記第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項1に記載の評価システム。
  3. 前記動作検出部が前記第1取得手段により取得された動画に基づいて検出した動作の時間経過に伴う変化が、予め定められた変化量よりも小さい場合に、処理対象の動画を、当該第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項2に記載の評価システム。
  4. 前記行動抽出部により抽出された行動が、予め定められた条件を満たす場合に、処理対象の動画を、前記第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項2に記載の評価システム。
  5. 記第1取得手段により取得された動画に映っている人体の部位の画像が予め定められた大きさよりも小さい場合に、処理対象の動画を、前記第1取得手段により取得された動画から前記第2取得手段により取得された動画に切り替えることを特徴とする、請求項1に記載の評価システム。
  6. 参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得部と、
    前記動画データ取得部により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出部と、
    前記動作検出部により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出部と、
    前記行動抽出部により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価部と、を備え、
    前記動作検出部は、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、情報処理装置。
  7. 前記動作検出部は、当該動作検出部の処理結果および前記行動抽出部の処理結果のうち少なくとも一つの処理結果に基づいて、処理対象の動画データを、前記一の動画データから前記他の動画データに切り替えることを特徴とする、請求項6に記載の情報処理装置。
  8. コンピュータを、
    参加者が撮影された倍率の異なる複数の動画データを取得する動画データ取得手段と、
    前記動画データ取得手段により取得された動画に映っている人体の部位を特定し、特定された部位の動作を検出する動作検出手段と、
    前記動作検出手段により検出された人体の部位の動作に基づき、予め定められた評価項目における評価対象として定義された行動を抽出する行動抽出手段と、
    前記行動抽出手段により抽出された行動および前記評価項目ごとに予め定められた評価基準に基づき、当該評価項目ごとの評価を行う評価手段として機能させ、
    前記動作検出手段において、一の動画データを用いて動作の検出を行い、当該動画データが予め定められた切り替え条件を満たす場合に、当該一の動画データよりも高い倍率で撮影された他の動画データを用いて動作の検出を行うことを特徴とする、プログラム。
JP2016184837A 2016-09-21 2016-09-21 評価システム、情報処理装置およびプログラム Active JP6859641B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016184837A JP6859641B2 (ja) 2016-09-21 2016-09-21 評価システム、情報処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016184837A JP6859641B2 (ja) 2016-09-21 2016-09-21 評価システム、情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2018049482A JP2018049482A (ja) 2018-03-29
JP6859641B2 true JP6859641B2 (ja) 2021-04-14

Family

ID=61767678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016184837A Active JP6859641B2 (ja) 2016-09-21 2016-09-21 評価システム、情報処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6859641B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118512B (zh) * 2018-08-13 2022-03-08 中国矿业大学 一种基于机器视觉的课堂迟到早退检测方法
JP7442280B2 (ja) 2019-08-21 2024-03-04 興和株式会社 情報表示システム及び情報表示装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102344A (ja) * 2005-09-30 2007-04-19 Fujifilm Corp 自動評価装置、プログラムおよび方法

Also Published As

Publication number Publication date
JP2018049482A (ja) 2018-03-29

Similar Documents

Publication Publication Date Title
JP6859640B2 (ja) 情報処理装置、評価システムおよびプログラム
Gunes et al. A bimodal face and body gesture database for automatic analysis of human nonverbal affective behavior
Otsuka et al. A realtime multimodal system for analyzing group meetings by combining face pose tracking and speaker diarization
US10887548B2 (en) Scaling image of speaker's face based on distance of face and size of display
US9639770B2 (en) System and method for improving communication productivity
KR20170136538A (ko) 비디오 회의에서의 감정 인식
DE102018102194A1 (de) Elektronische Einrichtung, Informationsverarbeitungsverfahren und Programm
US20140145936A1 (en) Method and system for 3d gesture behavior recognition
JP4704174B2 (ja) 状態識別装置、プログラムおよび方法
JP7139680B2 (ja) 活性度評価プログラム、装置、及び方法
CN114779922A (zh) 教学设备的控制方法、控制设备、教学系统和存储介质
Tanveer et al. Do you see what I see? Designing a sensory substitution device to access non-verbal modes of communication
JP6819194B2 (ja) 情報処理システム、情報処理装置およびプログラム
JP6859641B2 (ja) 評価システム、情報処理装置およびプログラム
CN109986553B (zh) 一种主动交互的机器人、系统、方法及存储装置
JP6855737B2 (ja) 情報処理装置、評価システムおよびプログラム
US20220327732A1 (en) Information processing apparatus, information processing method, and program
Suryani et al. Multi-modal asian conversation mobile video dataset for recognition task
KR20180074124A (ko) 얼굴 인식을 통해 전자 장치를 제어하는 방법 및 이를 수행하는 전자 장치
JP2018049480A (ja) 情報処理装置、評価システムおよびプログラム
JP2018049173A (ja) 情報処理装置、評価システムおよびプログラム
JP2018049479A (ja) 情報処理装置、評価システムおよびプログラム
Komiya et al. Image-based attention level estimation of interaction scene by head pose and gaze information
Wyrembelski Detection of the Selected, Basic Emotion Based on Face Expression Using Kinect
KR102668933B1 (ko) 맞춤형 서비스 제공 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201020

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210309

R150 Certificate of patent or registration of utility model

Ref document number: 6859641

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350