JP7354813B2

JP7354813B2 - 検出方法、通知方法、検出プログラムおよび通知プログラム

Info

Publication number: JP7354813B2
Application number: JP2019220364A
Authority: JP
Inventors: 淳哉斎藤; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-10-03
Anticipated expiration: 2039-12-05
Also published as: JP2021089646A

Description

本発明の実施形態は、検出技術に関する。

近年、商談や会議などでは、Ｗｅｂ会議等を活用して遠隔で実施することがある。このように、商談や会議を遠隔で実施する場合、互いのディスプレイを介して資料等を共有して説明を進める事となるため、説明者は相手の顔に注意を払いにくく、相手の感情を検出しづらくなる。したがって、説明者においては、相手の感情を検出して提示する技術が重要なものとなる。相手の感情を検出する従来技術としては、カメラの画像をニューラルネットワークに入力して感情を検出する技術が知られている。

特開２０１８－５５４７０号公報

しかしながら、上記の従来技術では、相手の感情が不快（ネガティブ）である時間区間の検出精度が低いという問題がある。それに伴い、相手の感情が連続してネガティブであることを説明者が知ることが困難な場合がある。

１つの側面では、不快な感情を検出することを支援できる検出方法、通知方法、検出プログラムおよび通知プログラムを提供することを目的とする。

第１の案では、検出方法は、取得する処理と、推定する処理と、特定する処理と、判定する処理と、変更する処理とをコンピュータが実行する。取得する処理は、対象人物の撮影画像を順次取得する。推定する処理は、順次取得した対象人物の撮影画像それぞれの顔画像から撮影画像の撮影時における対象人物の感情を推定する。特定する処理は、推定した感情がネガティブの感情である第１の時間区間を特定する。判定する処理は、取得した対象人物の撮影画像それぞれに基づいて、第１の時間区間内において特定の動作をしているか否かを判定する。変更する処理は、第１の時間区間内において特定の動作をしていると判定された場合は、時間区間に対応する推定した感情をネガティブでない感情に変更する。

不快な感情の検出を支援できる。

図１は、実施形態の概要を説明する説明図である。図２は、第１の実施形態にかかる判定装置の機能構成例を示すブロック図である。図３は、第１の実施形態にかかる判定装置の動作例を示すフローチャートである。図４は、フラグの付与処理の一例を示すフローチャートである。図５Ａは、画面方向の変動判定処理を例示するフローチャートである。図５Ｂは、顔と画面との距離の算出を説明する説明図である。図６Ａは、横方向の変動判定処理を例示するフローチャートである。図６Ｂは、画面中心に対する顔の横方向距離の算出を説明する説明図である。図７は、第２の実施形態にかかるシステム構成例を示すブロック図である。図８は、第２の実施形態にかかるシステムの動作例を示すフローチャートである。図９は、感情記憶部の記憶例を説明する説明図である。図１０は、表示画面の一例を説明する説明図である。図１１は、第３の実施形態にかかるシステムの動作例を示すフローチャートである。図１２は、感情記憶部の記憶例を説明する説明図である。図１３は、表示画面の一例を説明する説明図である。図１４は、プログラムを実行するコンピュータの一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる検出方法、通知方法、検出プログラムおよび通知プログラムを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する検出方法、通知方法、検出プログラムおよび通知プログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、実施形態の概要を説明する説明図である。図１に示すように、本実施形態では、表示画面２に説明資料などを表示してＷｅｂ会議等を行う人を対象人物１とし、カメラ３で対象人物１を順次撮影した撮影画像により対象人物１の感情を検出するケースを例示して説明する。

例えば、対象人物１の表情では、同様な表情となる場合であっても、対象人物１の表情と感情とがリンクして感情がネガティブであるケースと、感情がネガティブでないケース（表情と感情とがリンクしないケース）がある。具体的には、小さい文字をみようと目を凝らしているときは、表情と感情とがリンクしないケースに当てはまり、感情がネガティブでなくともネガティブであると検出されることがある。このようなことから、対象人物１を順次撮影した撮影画像により対象人物１の感情を検出する場合には、対象人物１の不快（ネガティブ）な感情の検出において、検出精度が低くなることがある。

そこで、本実施形態では、対象人物１を順次撮影した撮影画像により感情がネガティブであるとした時間区間Ｔ１～Ｔ３において、対象人物１と表示画面２との距離が変化する、顔が横に動かないなどの目を凝らす身体動作Ｃ１が含まれる場合には、その時間区間はネガティブな感情でないものとする。これにより、目を凝らす身体動作Ｃ１が含まれる時間区間Ｔ１、Ｔ２については、対象人物１の表情からは感情がネガティブであると判定されたとしても、感情がネガティブでないものと検出することができる。したがって、本実施形態では、対象人物１の感情が連続して不快（ネガティブ）である時間区間の検出精度を高めることができる。

（第１の実施形態）
図２は、第１の実施形態にかかる判定装置の機能構成例を示すブロック図である。

図２に示すように、判定装置１０は、例えばカメラ３による対象人物１の撮影画像を受け付けて対象人物１の感情の判定結果を出力するＰＣ（Personal Computer）などの情報処理装置である。判定装置１０は、動画取得部１１、表情判定部１２、凝視動作判定部１３および判定結果決定部１４を有する。

動画取得部１１は、カメラ３が撮影した対象人物１の撮影画像（以後、カメラ画像とも呼ぶ）を順次取得する処理部である。対象人物１のカメラ画像は、例えば所定のフレームレート（例えば３０ｆｐｓ）で撮影した動画像である。動画取得部１１は、カメラ３より順次取得した対象人物１のカメラ画像（動画像）を表情判定部１２および凝視動作判定部１３へ出力する。

表情判定部１２は、順次取得した対象人物１のカメラ画像（動画像）それぞれについて、対象人物１の感情が不快（ネガティブ）に見える表情であるか否かを判定する処理部である。

具体的には、表情判定部１２は、対象人物１のカメラ画像それぞれ（動画像の各フレーム画像）をニューラルネットワークに入力して表情を検出する従来技術などにより、カメラ画像それぞれにおいて対象人物１が不快（ネガティブ）な感情を有する表情としているか否かを判定する。表情判定部１２は、対象人物１が不快（ネガティブ）な感情を有する表情である場合はＴＲＵＥ、対象人物１が不快（ネガティブ）な感情を有さない表情である場合はＦＡＬＳＥとして、対象人物１のカメラ画像それぞれの判定結果を判定結果決定部１４に出力する。

凝視動作判定部１３は、順次取得した対象人物１のカメラ画像それぞれ（動画像の各フレーム）について、対象人物１が目を凝らす身体動作Ｃ１をしているか否かを判定する処理部である。

具体的には、凝視動作判定部１３は、処理対象のカメラ画像と、時間的に前後するカメラ画像（前後のフレーム）との差分をもとに、対象人物１と表示画面２との距離が変化する、顔が横に動かない等の目を凝らす身体動作Ｃ１に対応する所定の動作をしているか否かを判定する。

より具体的には、凝視動作判定部１３は、対象人物１と表示画面２との距離が変化している、もしくは顔が横に動かないと判定したとき、対象人物１が目を凝らす身体動作Ｃ１をしているもの（ＴＲＵＥ）と判定する。なお、凝視動作判定部１３は、対象人物１と表示画面２との距離が変化している、もしくは顔が横に動かないと判定しなかったとき、対象人物１が目を凝らす身体動作Ｃ１をしていないもの（ＦＡＬＳＥ）と判定する。次いで、凝視動作判定部１３は、対象人物１のカメラ画像それぞれの判定結果を判定結果決定部１４に出力する。

判定結果決定部１４は、表情判定部１２および凝視動作判定部１３の判定結果をもとに、対象人物１のカメラ画像それぞれにおける対象人物１の感情の判定結果を決定し、決定した判定結果を対象人物１の感情の検出結果として出力する処理部である。

具体的には、判定結果決定部１４は、表情判定部１２の判定結果より、対象人物１の感情が不快（ネガティブ）に見える表情であると判定されたとき、対象人物１の感情はネガティブであると判定する。ただし、判定結果決定部１４は、凝視動作判定部１３の判定結果をもとに、目を凝らす身体動作Ｃ１が起きていると判定された時間区間を含む、連続してネガティブに見える表情と判定された時間区間については、対象人物１の感情はネガティブな感情ではないものとして判定を変更する。次いで、判定結果決定部１４は、対象人物１のカメラ画像それぞれに対応する、各時刻における対象人物１の感情の判定結果を、対象人物１の感情の検出結果として出力する。

図３は、第１の実施形態にかかる判定装置の動作例を示すフローチャートである。

図３に示すように、判定装置１０における処理が開始されると、動画取得部１１は、カメラ３より対象人物１を撮影した入力動画を取得し（Ｓ１）、入力動画のフレーム画像それぞれを表情判定部１２および凝視動作判定部１３へ出力する。

次いで、表情判定部１２は、入力動画における時間フレームごとに、フレーム画像より対象人物１の表情を判定し、ネガティブに見える表情であるか否かを示すフラグを付与する（Ｓ２）。具体的には、表情判定部１２は、時間フレームごとの判定結果を格納する判定結果テーブル１６に、対象人物１が不快（ネガティブ）な感情を有する表情である場合はＴＲＵＥを、対象人物１が不快（ネガティブ）な感情を有さない表情である場合はＦＡＬＳＥを格納する。

次いで、凝視動作判定部１３は、入力動画における時間フレームごとに、フレーム画像より対象人物１の動作を判定し、目を凝らす身体動作Ｃ１をしているか否かを示すフラグを付与する（Ｓ３）。具体的には、凝視動作判定部１３は、対象人物１が目を凝らす身体動作Ｃ１をしている場合はＴＲＵＥを、対象人物１が目を凝らす身体動作Ｃ１をしていない場合はＦＡＬＳＥを判定結果テーブル１６に格納する。

ここで、目を凝らす身体動作Ｃ１をしているか否かを示すフラグの付与処理（Ｓ３）の詳細を説明する。図４はフラグの付与処理の一例を示すフローチャートである。

図４に示すように、処理が開始されると、凝視動作判定部１３は、時間フレームごとのループ処理を実行する（Ｓ１０～Ｓ１５）。ここで、ループ処理において処理対象となる現フレームをｉとする。

各ループ処理において、凝視動作判定部１３は、現フレーム（ｉ）におけるカメラ画像を取得する（Ｓ１１）。次いで、凝視動作判定部１３は、対象人物１に相対する表示画面２への対象人物１の変動（画面方向の変動）を判定する判定処理（Ｓ１２）と、表示画面２と平行する方向（横方向）への対象人物１の変動を判定する判定処理（Ｓ１３）とを実行する。

画面方向の変動を判定する判定処理（Ｓ１２）では、凝視動作判定部１３は、フレーム画像ごとに、対象人物１の顔とカメラ３との距離を算出し、算出した距離の履歴を保存しておく。次いで、凝視動作判定部１３は、現フレーム（ｉ）の距離と、所定数（Ｎ）前のフレームの距離との割合が閾値以下／閾値以上であった場合に対象人物１の顔の位置が画面方向に変動していると判定する。

図５Ａは、画面方向の変動判定処理を例示するフローチャートである。図５Ｂは、顔と画面との距離の算出を説明する説明図である。

図５Ａに示すように、Ｓ１２において、凝視動作判定部１３は、フレーム画像から表示画面２と相対する相手（対象人物１）の顔（目）と、表示画面２との距離を算出する（Ｓ２０）。

例えば、カメラ３の位置と表示画面２の位置はほぼ同じであり、相手の目はカメラ３のほぼ正面にあるものと仮定する。このような仮定のもと、凝視動作判定部１３は、例えば顔認証ＡＰＩ（Application Programming Interface）の１つであるＯｐｅｎＦａｃｅでフレーム画像より検出した両目の二次元平面座標から次の式（１）より、現フレームにおける、画面と顔の距離ｄ_ｉを算出する。

図５Ｂに示すように、式（１）におけるＥは、対象人物１の両目の中心から一方の目までの距離である。また、Ｄは、視点Ｉからカメラ３の投影面Ｐまでの焦点距離である。また、ｘ_ｉ ^Ｒは、フレーム（ｉ）の右目のｘ座標であり、ｘ_ｉ ^Ｌは、フレーム（ｉ）の左目のｘ座標である。また、ｙ_ｉ ^Ｒは、フレーム（ｉ）の右目のｙ座標であり、ｙ_ｉ ^Ｌは、フレーム（ｉ）の左目のｙ座標である。

式（１）に示すように、凝視動作判定部１３は、フレーム画像にける対象人物１の両目の二次元平面座標より投影面Ｐにおける、両目の中心から一方の目までの距離ｒ_ｉを求めた上で、Ｅ、Ｄの値よりｄ_ｉの値を算出する。なお、Ｅ、Ｄは後の式（２）の算出時に消えるので、仮にＥ＝Ｄ＝１としてもよい。

次いで、凝視動作判定部１３は、相手（対象人物１）の顔と表示画面２の距離の時間変化をもとに、顔と表示画面２の距離が時間変動しているか否かを判定する（Ｓ２１）。

例えば、凝視動作判定部１３は、各フレームで算出した距離（ｄ_ｉ）の履歴を保存しておく。次いで、凝視動作判定部１３は、次の式（２）より、現フレームの距離（ｄ_ｉ）とＮフレーム前の距離（ｄ_ｉ－Ｎ）の割合を求める。

次いで、凝視動作判定部１３は、求めた距離の割合が閾値以下もしくは閾値以上であった場合、変動していると判定する。

図４に戻り、横方向の変動を判定する判定処理（Ｓ１３）では、凝視動作判定部１３は、フレーム画像ごとに、横方向について相手（対象人物１）の顔の中心と、カメラ３の中心との距離を算出し、算出した距離の履歴を保存しておく。次いで、凝視動作判定部１３は、現フレーム（ｉ）の距離と、所定数（Ｎ）前のフレームの距離との割合が閾値以下／閾値以上であった場合に対象人物１の顔の位置が横方向に変動していると判定する。

図６Ａは、横方向の変動判定処理を例示するフローチャートである。図６Ｂは、画面中心に対する顔の横方向距離の算出を説明する説明図である。

図６Ａに示すように、Ｓ１３において、凝視動作判定部１３は、フレーム画像から、表示画面２と平行する横方向について、相手（対象人物１）の顔の中心と画面中心の距離を算出する（Ｓ３０）。

例えば、カメラ３の位置と表示画面２の位置はほぼ同じであり、相手の顔と表示画面２との距離はほぼ変化しないものと仮定する。このような仮定のもと、凝視動作判定部１３は、例えば顔認証ＡＰＩの１つであるＯｐｅｎＦａｃｅでフレーム画像より検出した両目の二次元平面座標から次の式（３）より、現フレームにおける、画面の中心と両目の中心の距離ｗ_ｉを算出する。

図６Ｂに示すように、式（３）におけるＤは、視点Ｉからカメラ３の投影面Ｐまでの焦点距離である。また、ｘ_ｉ ^Ｒは、フレーム（ｉ）の右目のｘ座標であり、ｘ_ｉ ^Ｌは、フレーム（ｉ）の左目のｘ座標である。また、ｙ_ｉ ^Ｒは、フレーム（ｉ）の右目のｙ座標であり、ｙ_ｉ ^Ｌは、フレーム（ｉ）の左目のｙ座標である。また、ｘ_Ｃは、画面中心のｘ座標である。また、ｄは、視点Ｉから対象人物１の顔までの距離であり、一定と仮定する。

式（３）に示すように、凝視動作判定部１３は、フレーム画像にける対象人物１の両目の二次元平面座標などにより、投影面Ｐにおける、画面の中心から両目の中心までの距離ｖ_ｉを求めた上で、Ｄ、ｄの値よりｗ_ｉの値を算出する。なお、Ｄ、ｄは後の式（４）の算出時に消えるので、仮にＤ＝ｄ＝１としてもよい。

次いで、凝視動作判定部１３は、相手（対象人物１）の顔の中心と画面中心の距離の時間変化をもとに、顔の中心と画面中心の距離が時間変動しているか否かを判定する（Ｓ３１）。

例えば、凝視動作判定部１３は、各フレームで算出した距離（ｗ_ｉ）の履歴を保存しておく。次いで、凝視動作判定部１３は、次の式（４）より、現フレームの距離（ｗ_ｉ）とＮフレーム前の距離（ｗ_ｉ－Ｎ）の割合を求める。

図４に戻り、Ｓ１２、Ｓ１３に次いで、凝視動作判定部１３は、「顔の位置が画面方向に変動している」もしくは「顔の位置が横方向に変動していない」と判定されているとき、対象人物１は目を凝らす身体動作Ｃ１をしていることを示すフラグを付与する。

図３に戻り、Ｓ３に次いで、判定結果決定部１４は、Ｓ２において付与したネガティブに見える表情のフラグをもとに、ネガティブに見える表情であれば対象人物１はネガティブな感情であるとするフラグを（暫定的に）付与する（Ｓ４）。具体的には、判定結果決定部１４は、判定結果テーブル１６の各フレームにおいて、ネガティブに見える表情のフラグをネガティブな感情のフラグにコピーする。

次いで、判定結果決定部１４は、判定結果テーブル１６において、ネガティブに見える表情のフラグ（ＴＲＵＥ）が連続してつけられたフレーム群をまとめる（Ｓ５）。すなわち、判定結果決定部１４は、連続してネガティブに見える表情の時間区間を１つに纏める。

次いで、判定結果決定部１４は、判定結果テーブル１６においてまとめたフレーム群の中に、目を凝らす身体動作Ｃ１のフラグ（ＴＲＵＥ）が付与されたフレームが存在するか否かを判定する。次いで、判定結果決定部１４は、フレーム群内に目を凝らす身体動作Ｃ１のフラグが付与されたフレームがある場合、そのフレーム群内の全フレームのネガティブな感情のフラグ（ＴＲＵＥ）を削除する。具体的には、判定結果決定部１４は、ネガティブな感情のフラグ（ＴＲＵＥ）をネガティブな感情ではないことを示すフラグ（ＦＡＬＳＥ）に置き換える。

次いで、判定結果決定部１４は、フレームごとに判定したネガティブな感情のフラグ（ＴＲＵＥ／ＦＡＬＳＥ）を出力する（Ｓ７）。次いで、判定結果決定部１４は、処理終了の指示あり等の、所定の終了条件を満たすか否かを判定する（Ｓ８）。終了条件を満たさない場合（Ｓ８：Ｎｏ）、判定結果決定部１４は、Ｓ１へ処理を戻して処理を継続する。終了条件を満たす場合（Ｓ８：Ｙｅｓ）、判定結果決定部１４は、処理を終了する。

以上のように、判定装置１０では、動画取得部１１、表情判定部１２、凝視動作判定部１３および判定結果決定部１４を有する。動画取得部１１は、対象人物１のカメラ３による撮影画像を順次取得する。表情判定部１２は、順次取得した対象人物１の撮影画像それぞれの顔画像から撮影画像の撮影時における対象人物１の感情を推定する。凝視動作判定部１３は、取得した対象人物１の撮影画像それぞれから予め設定された動作（例えば目を凝らす動作）をしているか否かを判定する。判定結果決定部１４は、表情判定部１２が推定した感情から連続してネガティブの感情である時間区間を特定する。また、判定結果決定部１４は、連続してネガティブの感情であると判定された時間区間内において予め設定された動作（例えば目を凝らす動作）をしていると判定された場合は、その時間区間に対応する推定した感情をネガティブでない感情に変更する。

これにより、判定装置１０では、連続してネガティブの感情であると判定された時間区間内において、ネガティブな感情を抱いた時の表情と類似する所定の動作が含まれる場合、対象人物１の感情はネガティブでないものと検出できる。したがって、判定装置１０では、ネガティブな感情を抱いた時の表情と類似する動作が不快な感情と誤判定されることを抑止でき、不快な感情の検出が適切にできるように支援することができる。

次に、上記の判定装置１０を実際のＷｅｂ会議のシステムに組み入れた第２、第３の実施形態として、Ｗｅｂ会議終了後に、説明相手（対象人物１）がネガティブに感じた説明箇所（説明資料、説明者の音声）を説明者に対して可視化するケースを例示する。

（第２の実施形態）
図７は、第２の実施形態にかかるシステム構成例を示すブロック図である。図７に示すように、Ｗｅｂ会議のシステムでは、説明者４側の表示画面５と、対象人物１側の表示画面２との表示内容を共通のものとし、説明者４の操作によりＷｅｂ会議の説明資料を表示画面２、５に表示させることで、Ｗｅｂ会議が進行するものとする。また、Ｗｅｂ会議中において、説明者４と対象人物１とは、通信により音声の会話が可能となっている。

具体的には、Ｗｅｂ会議のシステムは、説明者４が利用する端末装置２０と、対象人物１が利用する端末装置３０と、端末装置２０、３０と通信可能に接続し、Ｗｅｂ会議を仲介するサーバ装置４０とを有する。なお、本実施形態ではサーバ装置４０を介してＷｅｂ会議を行う構成を例示するが、サーバ装置４０に関する機能を端末装置２０または端末装置３０に持たせることで、サーバ装置４０を不要とする構成としてもよい。

端末装置２０は、表示部２１、音声録音部２２、音声再生部２３、Ｗｅｂ会議操作取得部２４および説明資料取得部２５を有する。

表示部２１は、説明者４側の表示画面５への表示を行う処理部である。例えば、表示部２１は、サーバ装置４０より表示が指示されたＷｅｂ会議で用いる説明資料などを表示画面５に表示する。

音声録音部２２は、端末装置２０側における音声を取得（録音）する処理部である。例えば、音声録音部２２は、Ｗｅｂ会議中に説明者４が発する音声を取得し、取得した音声をサーバ装置４０へ通知する。

音声再生部２３は、端末装置２０側において音声再生を行う処理部である。例えば、音声再生部２３は、Ｗｅｂ会議中にサーバ装置４０から通知された音声（例えば対象人物１の音声）を再生する。

Ｗｅｂ会議操作取得部２４は、Ｗｅｂ会議において説明者４が端末装置２０に対して行う各種操作を取得する処理部である。例えば、Ｗｅｂ会議操作取得部２４は、Ｗｅｂ会議において説明者４が行った操作内容をサーバ装置４０へ通知する。

説明資料取得部２５は、Ｗｅｂ会議で表示画面２、５に表示するための説明資料を取得する処理部である。例えば、説明資料取得部２５は、Ｗｅｂ会議で用いるための説明資料のデータ（例えばプレゼンテーション資料、文書、画像等）を端末装置２０に接続された記憶媒体などから読み出して取得する。説明資料取得部２５は、取得した説明資料のデータをサーバ装置４０へ送信する。

端末装置３０は、表示部３１、音声録音部３２、音声再生部３３、Ｗｅｂ会議操作取得部３４および動画取得部１１を有する。

表示部３１は、対象人物１側の表示画面２への表示を行う処理部である。例えば、表示部３１は、サーバ装置４０より表示が指示されたＷｅｂ会議で用いる説明資料などを表示画面５に表示する。

音声録音部３２は、端末装置３０側における音声を取得（録音）する処理部である。例えば、音声録音部３２は、Ｗｅｂ会議中に対象人物１が発する音声を取得し、取得した音声をサーバ装置４０へ通知する。

音声再生部３３は、端末装置３０側において音声再生を行う処理部である。例えば、音声再生部３３は、Ｗｅｂ会議中にサーバ装置４０から通知された音声（例えば説明者４の音声）を再生する。

Ｗｅｂ会議操作取得部３４は、Ｗｅｂ会議において対象人物１が端末装置３０に対して行う各種操作を取得する処理部である。例えば、Ｗｅｂ会議操作取得部３４は、Ｗｅｂ会議において対象人物１が行った操作内容をサーバ装置４０へ通知する。

サーバ装置４０は、表情判定部１２、凝視動作判定部１３、判定結果決定部１４、Ｗｅｂ会議制御部４１、音声認識部４２、感情記憶部４３および感情提示部４４を有する。

Ｗｅｂ会議制御部４１は、Ｗｅｂ会議に関する各種動作を制御する処理部である。例えば、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議で用いる説明資料のデータを端末装置２０より受信し、受信した説明資料のデータを表示部２１、表示部３１に表示させる。このとき、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議操作取得部２４、３４による操作に応じて、説明資料のページ送り等を行う。また、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議中に端末装置２０より受信した音声を端末装置３０の音声再生部３３より出力させる。また、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議中に端末装置３０より受信した音声を端末装置２０の音声再生部２３より出力させる。

音声認識部４２は、音声録音部２２、３２が取得した音声の内容をテキスト（以後、音声テキストともよぶ）に変換する音声認識処理を行う処理部である。例えば、音声認識部４２は、音声録音部２２が取得した音声より音声認識処理を行うことで、説明者４が対象人物１に対して説明する際の音声内容を示す音声テキストを取得する。

感情記憶部４３は、Ｗｅｂ会議開始後の時刻ごとに、判定結果決定部１４が判定した対象人物１の感情（ネガティブであるか否か）を記憶する。具体的には、感情記憶部４３は、Ｗｅｂ会議開始後の時刻ごとに、対象人物１の感情とともに、取得した音声情報（例えば音声認識部４２が取得した音声テキスト）や、説明者４の説明内容（例えば説明資料の中で表示画面２、５に表示しているページや表示箇所など）を示す情報を対応付けて記憶する。

なお、音声情報については、本実施形態では音声認識部４２が取得した音声テキストとするが、音声テキストへの音声認識処理前の音声データであってもよく、特に音声テキストに限定しない。

感情提示部４４は、感情記憶部４３に記憶されたＷｅｂ会議開始後の時刻ごとの、対象人物１の感情（ネガティブであるか否か）をもとに、対象人物１の感情がネガティブであると判定された時間区間を特定し、特定した時間区間を示す情報を説明者４に提示する処理部である。

例えば、感情提示部４４は、感情記憶部４３を参照し、対象人物１の感情がネガティブであると判定された時間区間の開始時刻および終了時刻や、Ｗｅｂ会議開始から終了までの時間領域に占める時間区間の位置などを棒グラフなどで視覚化した情報を表示部２１より表示画面５に表示させる。

また、感情提示部４４は、感情記憶部４３に記憶されたＷｅｂ会議開始後の時刻ごとの、Ｗｅｂ会議における音声情報（例えば音声認識部４２が取得した音声テキスト）を参照し、対象人物１の感情がネガティブである時間区間に対応する音声情報を説明者４に提示する。例えば、感情提示部４４は、対象人物１の感情がネガティブである時間区間に対応する、説明者４の音声テキストを表示部２１より表示画面５に表示させる。また、感情提示部４４は、対象人物１の感情がネガティブである時間区間に対応する、説明者４の音声データを音声再生部２３より再生してもよい。

また、感情提示部４４は、感情記憶部４３に記憶されたＷｅｂ会議開始後の時刻ごとの、Ｗｅｂ会議における説明者４の説明内容（例えば説明資料の中で表示画面２、５に表示しているページや表示箇所など）を参照し、対象人物１の感情がネガティブである時間区間に対応する説明内容を説明者４に提示する。例えば、感情提示部４４は、対象人物１の感情がネガティブである時間区間に対応する、説明資料の中の表示ページや表示箇所を表示部２１より表示画面５に表示させる。

図８は、第２の実施形態にかかるシステムの動作例を示すフローチャートである。

図８に示すように、処理が開始されると、説明者４のＷｅｂ会議操作取得部２４によるＷｅｂ会議の開始の指示などにより、Ｗｅｂ会議制御部４１は、端末装置２０、３０によるＷｅｂ会議を開始する（Ｓ４０）。

次いで、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議で用いる説明資料のデータを端末装置２０より受信し、説明資料を表示部２１、表示部３１より説明者４側および説明相手（対象人物１）側の表示画面２、５に表示させる（Ｓ４１）。

次いで、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議操作取得部２４より説明者４の説明資料の操作を取得し、取得した操作に応じたページ送り等を実施する（Ｓ４２）。

次いで、説明者４が利用する端末装置２０の音声録音部２２は、説明者４の音声を取得し、取得した音声をサーバ装置４０へ送信する。音声認識部４２は、取得した説明者４の音声を音声テキストに変換する（Ｓ４３）。

また、対象人物１が利用する端末装置３０の動画取得部１１は、説明相手（対象人物１）の動画を取得し、取得した動画をサーバ装置４０の表情判定部１２および凝視動作判定部１３へ送信する。判定結果決定部１４は、前述したとおり、対象人物１の動画による表情判定部１２および凝視動作判定部１３の判定結果をもとに対象人物１の感情を判定する（Ｓ４４）。

次いで、感情記憶部４３は、取得した音声における説明者４の発話休止のタイミングごとに、音声認識部４２で変換した音声テキストと、判定結果決定部１４により判定された感情と、Ｗｅｂ会議中の時刻とを対応付けて記憶する（Ｓ４５）。

図９は、感情記憶部４３の記憶例を説明する説明図である。図９に示すように、感情記憶部４３は、Ｗｅｂ会議中の説明者４における発話休止のタイミングで区切った時刻ごとに、説明者４の音声テキストと、対象人物１の感情とを対応付けて記憶する。

Ｗｅｂ会議の後、感情提示部４４は、感情記憶部４３を参照し、説明相手（対象人物１）の感情がネガティブであると判定された時間区間を特定し、特定した時間区間を示す情報を説明者４側の表示画面５に表示させる（Ｓ４６）。具体的には、感情提示部４４は、対象人物１の感情がネガティブである時間区間について、時間区間の開始時刻および終了時刻や、Ｗｅｂ会議開始から終了までの時間領域に占める時間区間の位置などを棒グラフなどで視覚化した情報を表示部２１より表示画面５に表示させる。

次いで、感情提示部４４は、Ｗｅｂ会議操作取得部２４より説明者４の時間区間の選択操作を受け付け、選択された時間区間に対応する音声テキストを感情記憶部４３より読み出す。次いで、感情提示部４４は、読み出した音声テキストを説明者４側の表示画面５に表示させる（Ｓ４７）。

図１０は、表示画面の一例を説明する説明図である。図１０に示すように、感情提示部４４のＳ４６、Ｓ４７により、Ｗｅｂ会議中の対象人物１の感情を説明者４に対して可視化して提示する表示画面５０には、例えば、時間区間表示領域５１、カーソル５２および詳細情報表示領域５３が含まれる。

時間区間表示領域５１は、対象人物１の感情（ネガティブである／ネガティブでない）の推移を、対象人物１の感情がネガティブでない時間区間５１ａと、対象人物１の感情がネガティブである時間区間５１ｂとで区切って表示する。この時間区間表示領域５１により、説明者４は、Ｗｅｂ会議中のどの時間帯で対象人物１がネガティブな感情となっているかを容易に把握することができる。

カーソル５２は、Ｗｅｂ会議操作取得部２４を介して説明者４より操作される。詳細情報表示領域５３は、カーソル５２により選択された時間区間５１ａ、５１ｂに関する詳細情報を表示する。例えば、図示例では、対象人物１の感情がネガティブである時間区間５１ｂに対するカーソル５２の選択により、その時間区間５１ｂにおける音声テキストが詳細情報表示領域５３に表示されている。これにより、説明者４は、対象人物１の感情がネガティブである時間区間５１ｂにおいて、対象人物１に対して行った説明内容（音声テキスト）を容易に知ることができる。

（第３の実施形態）
第３の実施形態に用いられるシステム構成は第２の実施形態と同様であるため、システム構成に関する説明は省略する。図１１は、第３の実施形態にかかるシステムの動作例を示すフローチャートである。

図１１に示すように、処理が開始されると、説明者４のＷｅｂ会議操作取得部２４によるＷｅｂ会議の開始の指示などにより、Ｗｅｂ会議制御部４１は、端末装置２０、３０によるＷｅｂ会議を開始する（Ｓ５０）。

次いで、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議で用いる説明資料のデータを端末装置２０より受信し、説明資料を表示部２１、表示部３１より説明者４側および説明相手（対象人物１）側の表示画面２、５に表示させる（Ｓ５１）。

次いで、Ｗｅｂ会議制御部４１は、Ｗｅｂ会議操作取得部２４より説明者４の説明資料の操作を取得し、取得した操作に応じたページ送り等を実施する（Ｓ５２）。

次いで、対象人物１が利用する端末装置３０の動画取得部１１は、説明相手（対象人物１）の動画を取得し、取得した動画をサーバ装置４０の表情判定部１２および凝視動作判定部１３へ送信する。判定結果決定部１４は、前述したとおり、対象人物１の動画による表情判定部１２および凝視動作判定部１３の判定結果をもとに対象人物１の感情を判定する（Ｓ５３）。

次いで、感情記憶部４３は、説明資料のページ切り替えのタイミングごとに、説明資料の対象ページと、判定結果決定部１４により判定された感情と、Ｗｅｂ会議中の時刻とを対応付けて記憶する（Ｓ５４）。

図１２は、感情記憶部４３の記憶例を説明する説明図である。図１２に示すように、感情記憶部４３は、Ｗｅｂ会議中の説明者４による説明資料のページ切り替えタイミングで区切った時刻ごとに、説明資料の対象ページと、対象人物１の感情とを対応付けて記憶する。

Ｗｅｂ会議の後、感情提示部４４は、感情記憶部４３を参照し、説明相手（対象人物１）の感情がネガティブであると判定された時間区間を特定し、特定した時間区間を示す情報を説明者４側の表示画面５に表示させる（Ｓ５５）。具体的には、感情提示部４４は、対象人物１の感情がネガティブである時間区間について、時間区間の開始時刻および終了時刻や、Ｗｅｂ会議開始から終了までの時間領域に占める時間区間の位置などを棒グラフなどで視覚化した情報を表示部２１より表示画面５に表示させる。

次いで、感情提示部４４は、Ｗｅｂ会議操作取得部２４より説明者４の時間区間の選択操作を受け付け、選択された時間区間に対応する説明資料の対象ページを感情記憶部４３より読み出す。次いで、感情提示部４４は、読み出した説明資料の対象ページを説明者４側の表示画面５に表示させる（Ｓ５６）。

図１３は、表示画面の一例を説明する説明図である。図１３に示すように、詳細情報表示領域５３には、対象人物１の感情がネガティブである時間区間５１ｂに対するカーソル５２の選択により、その時間区間５１ｂにおける説明資料の対象ページの内容が表示される。これにより、説明者４は、対象人物１の感情がネガティブである時間区間５１ｂにおいて、対象人物１に対して行った説明内容（説明資料の対象ページ）を容易に知ることができる。

以上のように、対象人物１の感情を検出するシステム（例えばＷｅｂ会議システム）では、動画取得部１１、表情判定部１２、凝視動作判定部１３および判定結果決定部１４を有する。動画取得部１１は、対象人物１のカメラ３による撮影画像を順次取得する。表情判定部１２は、順次取得した対象人物１の撮影画像それぞれの顔画像から撮影画像の撮影時における対象人物１の感情を推定する。凝視動作判定部１３は、取得した対象人物１の撮影画像それぞれから予め設定された動作（例えば目を凝らす動作）をしているか否かを判定する。判定結果決定部１４は、表情判定部１２が推定した感情から連続してネガティブの感情である時間区間を特定する。また、判定結果決定部１４は、連続してネガティブの感情であると判定された時間区間内において予め設定された動作（例えば目を凝らす動作）をしていると判定された場合は、その時間区間に対応する推定した感情をネガティブでない感情に変更する。

これにより、対象人物１の感情を検出するシステムでは、連続してネガティブの感情であると判定された時間区間内において、ネガティブな感情を抱いた時の表情と類似する所定の動作が含まれる場合、対象人物１の感情はネガティブでないものと検出できる。したがって、対象人物１の感情を検出するシステムでは、ネガティブな感情を抱いた時の表情と類似する動作が不快な感情と誤判定されることを抑止でき、不快な感情の検出が適切にできるように支援することができる。

また、対象人物１の感情を検出するシステムでは、対象人物１とは異なる説明者４の対象人物１に対する説明内容を取得し、感情記憶部４３は、取得した対象人物１に対する説明内容と、推定した感情とを対応付けて記憶する。また、対象人物１の感情を検出するシステムにおいて、感情提示部４４は、感情記憶部４３が対応付けて記憶した情報に基づき、感情がネガティブである時間区間に対応する説明内容を抽出し、抽出した説明内容を説明者４の端末装置２０に通知する。

これにより、対象人物１の感情を検出するシステムでは、対象人物１の感情がネガティブである時間区間に対応する説明内容を、説明者４に対して分かりやすく提示することができる。

また、対象人物１の感情を検出するシステムでは、説明者４が対象人物１に対して説明する際の音声情報を説明者４が利用する端末装置２０から取得し、感情記憶部４３は、取得した対象人物１に対する音声情報と、推定した感情とを対応付けて記憶する。また、対象人物１の感情を検出するシステムにおいて、感情提示部４４は、感情記憶部４３が対応付けて記憶した情報に基づき、感情がネガティブである時間区間に対応する音声情報を抽出し、抽出した音声情報を説明者４の端末装置２０に通知する。

これにより、対象人物１の感情を検出するシステムでは、対象人物１の感情がネガティブである時間区間に対応する、対象人物１に対する音声情報を、説明者４に対して分かりやすく提示することができる。

また、対象人物１の感情を検出するシステムでは、音声情報の説明に関連する資料を対象人物１が利用する端末装置３０の表示画面２に表示させる。また、対象人物１の感情を検出するシステムでは、対象人物１が端末装置３０の表示画面２に表示された資料を見ていることに応じた動作をしているか否かを判定する。また、対象人物１の感情を検出するシステムでは、連続してネガティブの感情であると判定された時間区間内において資料を見ていることに応じた動作をしていると判定された場合は、その時間区間に対応する推定した感情をネガティブでない感情に変更する。

対象人物１の感情を検出するシステムでは、表示画面２に表示された資料を対象人物１が見ていることに応じた動作が、不快な感情と誤判定されることを抑止でき、不快な感情の検出が適切にできるように支援することができる。

また、判定対象の予め設定された動作は、対象人物１の目を凝らす動作である。したがって、連続してネガティブの感情であると判定された時間区間内においてネガティブな感情を抱いた時の表情と類似する目を凝らす動作が含まれる場合には、感情はネガティブでないものと検出できる。これにより、目を凝らす動作が不快な感情と誤判定されることを抑止できる。

また、対象人物１の感情を検出するシステムでは、対象人物１と相対する表示画面２に対して対象人物１が画面方向に移動していること、もしくは対象人物１が表示画面２と平行する方向に移動していることの少なくとも一方に基づき、目を凝らす動作をしているか否かを判定する。これにより、対象人物１と相対する表示画面２の表示内容（例えば説明資料）に対する、対象人物１の目を凝らす動作を適切に判別できる。

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、表情判定部１２と凝視動作判定部１３とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。

さらに、各装置で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の各実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の各実施形態と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図１４は、プログラムを実行するコンピュータの一例を示すブロック図である。

図１４に示すように、コンピュータ１００は、各種演算処理を実行するＣＰＵ１０１と、データ入力を受け付ける入力装置１０２と、モニタ１０３とを有する。また、コンピュータ１００は、記憶媒体からプログラム等を読み取る媒体読取装置１０４と、各種装置と接続するためのインタフェース装置１０５と、他の情報処理装置等と有線または無線により接続するための通信装置１０６とを有する。また、コンピュータ１００は、各種情報を一時記憶するＲＡＭ１０７と、ハードディスク装置１０８とを有する。また、各装置１０１～１０８は、バス１０９に接続される。

ハードディスク装置１０８には、図１に示した判定装置１０の各処理部（例えば動画取得部１１、表情判定部１２、凝視動作判定部１３および判定結果決定部１４）や図７に例示した端末装置２０、３０、サーバ装置４０の各処理部と同様の機能を有するプログラム１０８Ａが記憶される。また、ハードディスク装置１０８には、動画取得部１１、表情判定部１２、凝視動作判定部１３および判定結果決定部１４等を実現するための各種データが記憶される。入力装置１０２は、例えば、コンピュータ１００の利用者から操作情報等の各種情報の入力を受け付ける。モニタ１０３は、例えば、コンピュータ１００の利用者に対して表示画面等の各種画面を表示する。インタフェース装置１０５は、例えば印刷装置等が接続される。通信装置１０６は、図示しないネットワークと接続され、他の情報処理装置と各種情報をやりとりする。

ＣＰＵ１０１は、ハードディスク装置１０８に記憶されたプログラム１０８Ａを読み出して、ＲＡＭ１０７に展開して実行することで、各種の処理に関するプロセスを実行する。これらのプロセスは、図１に示した判定装置１０の各処理部や図７に例示したサーバ装置４０の各処理部として機能させることができる。

なお、上記のプログラム１０８Ａは、ハードディスク装置１０８に記憶されていなくてもよい。例えば、コンピュータ１００が読み取り可能な記憶媒体に記憶されたプログラム１０８Ａを、コンピュータ１００が読み出して実行するようにしてもよい。コンピュータ１００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にプログラム１０８Ａを記憶させておき、コンピュータ１００がこれらからプログラム１０８Ａを読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第１の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第１の時間区間において特定の動作をしているか否かを判定し、
前記第１の時間区間内において前記特定の動作をしていると判定された場合は、前記第１の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータが実行することを特徴とする検出方法。

（付記２）前記対象人物とは異なる第１の人物の前記対象人物に対する説明内容を取得し、
取得した前記対象人物に対する説明内容と、推定した前記感情とを対応付けて記憶し、
前記第１の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する説明内容を抽出し、
抽出した前記説明内容を前記第１の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする付記１に記載の検出方法。

（付記３）前記対象人物とは異なる第１の人物が前記対象人物に対して説明する際の音声情報を前記第１の人物が利用する第１の装置から取得し、
取得した前記対象人物に対する音声情報と、推定した前記感情とを対応付けて記憶し、
前記第１の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第１の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする付記１に記載の検出方法。

（付記４）前記音声情報の説明に関連する資料を前記対象人物が利用する第２の装置の表示画面に表示させる処理をさらに前記コンピュータが実行し、
前記判定する処理は、前記対象人物が前記第２の装置の表示画面に表示された資料を見ていることに応じた動作をしているか否かを判定する処理を含み、
前記変更する処理は、連続してネガティブの感情であると判定された時間区間内において前記資料を見ていることに応じた動作をしていると判定された場合は、当該時間区間に対応する推定した前記感情をネガティブでない感情に変更する処理を含む、
ことを特徴とする付記３に記載の検出方法。

（付記５）前記動作は、前記対象人物の目を凝らす動作である、
ことを特徴とする付記１乃至４のいずれか一に記載の検出方法。

（付記６）前記判定する処理は、前記対象人物と相対する表示画面に対して前記対象人物が画面方向に移動していること、もしくは前記対象人物が前記表示画面と平行する方向に移動していることの少なくとも一方に基づき、前記目を凝らす動作をしているか否かを判定する処理を含む、
ことを特徴とする付記５に記載の検出方法。

（付記７）第１の人物が第２の人物に対して説明する際の音声情報を、前記第１の人物が利用する第１の装置から取得し、
前記音声情報の説明に関連する資料を前記第２の人物が利用する第２の装置の表示画面に表示させるとともに、前記第２の装置が撮影した前記第２の人物の撮影画像を取得し、
取得した前記第２の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
前記第１の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第１の装置へ通知する、
処理をコンピュータが実行することを特徴とする通知方法。

（付記８）対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第１の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第１の時間区間内において特定の動作をしているか否かを判定し、
前記第１の時間区間内において前記特定の動作をしていると判定された場合は、前記第１の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータに実行させることを特徴とする検出プログラム。

（付記９）前記対象人物とは異なる第１の人物の前記対象人物に対する説明内容を取得し、
取得した前記対象人物に対する説明内容と、推定した前記感情とを対応付けて記憶し、
前記第１の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する説明内容を抽出し、
抽出した前記説明内容を前記第１の人物に通知する、
処理をさらに前記コンピュータに実行させることを特徴とする付記８に記載の検出プログラム。

（付記１０）前記対象人物とは異なる第１の人物が前記対象人物に対して説明する際の音声情報を前記第１の人物が利用する第１の装置から取得し、
取得した前記対象人物に対する音声情報と、推定した前記感情とを対応付けて記憶し、
前記第１の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第１の人物に通知する、
処理をさらに前記コンピュータに実行させることを特徴とする付記８に記載の検出プログラム。

（付記１１）前記音声情報の説明に関連する資料を前記対象人物が利用する第２の装置の表示画面に表示させる処理をさらに前記コンピュータが実行し、
前記判定する処理は、前記対象人物が前記第２の装置の表示画面に表示された資料を見ていることに応じた動作をしているか否かを判定する処理を含み、
前記変更する処理は、連続してネガティブの感情であると判定された時間区間内において前記資料を見ていることに応じた動作をしていると判定された場合は、当該時間区間に対応する推定した前記感情をネガティブでない感情に変更する処理を含む、
ことを特徴とする付記１０に記載の検出プログラム。

（付記１２）前記動作は、前記対象人物の目を凝らす動作である、
ことを特徴とする付記８乃至１１のいずれか一に記載の検出プログラム。

（付記１３）前記判定する処理は、前記対象人物と相対する表示画面に対して前記対象人物が画面方向に移動していること、もしくは前記対象人物が前記表示画面と平行する方向に移動していることの少なくとも一方に基づき、前記目を凝らす動作をしているか否かを判定する処理を含む、
ことを特徴とする付記１２に記載の検出プログラム。

（付記１４）第１の人物が第２の人物に対して説明する際の音声情報を、前記第１の人物が利用する第１の装置から取得し、
前記音声情報の説明に関連する資料を前記第２の人物が利用する第２の装置の表示画面に表示させるとともに、前記第２の装置が撮影した前記第２の人物の撮影画像を取得し、
取得した前記第２の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
前記第１の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第１の装置へ通知する、
処理をコンピュータに実行させることを特徴とする通知プログラム。

１…対象人物
２、５、５０…表示画面
３…カメラ
４…説明者
１０…判定装置
１１…動画取得部
１２…表情判定部
１３…凝視動作判定部
１４…判定結果決定部
１６…判定結果テーブル
２０、３０…端末装置
２１、３１…表示部
２２、３２…音声録音部
２３、３３…音声再生部
２４、３４…Ｗｅｂ会議操作取得部
２５…説明資料取得部
４０…サーバ装置
４１…Ｗｅｂ会議制御部
４２…音声認識部
４３…感情記憶部
４４…感情提示部
５１…時間区間表示領域
５１ａ、５１ｂ、Ｔ１～Ｔ３…時間区間
５２…カーソル
５３…詳細情報表示領域
１００…コンピュータ
１０１…ＣＰＵ
１０２…入力装置
１０３…モニタ
１０４…媒体読取装置
１０５…インタフェース装置
１０６…通信装置
１０７…ＲＡＭ
１０８…ハードディスク装置
１０８Ａ…プログラム
１０９…バス
Ｃ１…身体動作
Ｉ…視点
Ｐ…投影面

Claims

対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第１の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第１の時間区間において前記対象人物が目を凝らす動作をしているか否かを判定し、
前記第１の時間区間内において前記目を凝らす動作をしていると判定された場合は、前記第１の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータが実行することを特徴とする検出方法。
前記対象人物とは異なる第１の人物の前記対象人物に対する説明内容を取得し、
取得した前記対象人物に対する説明内容と、推定した前記感情とを対応付けて記憶し、
前記第１の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する説明内容を抽出し、
抽出した前記説明内容を前記第１の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする請求項１に記載の検出方法。
前記対象人物とは異なる第１の人物が前記対象人物に対して説明する際の音声情報を前記第１の人物が利用する第１の装置から取得し、
取得した前記対象人物に対する音声情報と、推定した前記感情とを対応付けて記憶し、
前記第１の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第１の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする請求項１に記載の検出方法。
前記音声情報の説明に関連する資料を前記対象人物が利用する第２の装置の表示画面に表示させる処理をさらに前記コンピュータが実行し、
前記判定する処理は、前記対象人物が前記第２の装置の表示画面に表示された資料を見ていることに応じた動作をしているか否かを判定する処理を含み、
前記変更する処理は、連続してネガティブの感情であると判定された時間区間内において前記資料を見ていることに応じた動作をしていると判定された場合は、当該時間区間に対応する推定した前記感情をネガティブでない感情に変更する処理を含む、
ことを特徴とする請求項３に記載の検出方法。
前記判定する処理は、前記対象人物と相対する表示画面に対して前記対象人物が画面方向に移動していること、もしくは前記対象人物が前記表示画面と平行する方向に移動していることの少なくとも一方に基づき、前記目を凝らす動作をしているか否かを判定する処理を含む、
ことを特徴とする請求項１に記載の検出方法。
第１の人物が第２の人物に対して説明する際の音声情報を、前記第１の人物が利用する第１の装置から取得し、
前記音声情報の説明に関連する資料を前記第２の人物が利用する第２の装置の表示画面に表示させるとともに、前記第２の装置が撮影した前記第２の人物の撮影画像を取得し、
取得した前記第２の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
取得した前記第２の人物の撮影画像それぞれに基づいて、前記時間区間において前記第２の人物が目を凝らす動作をしているか否かを判定し、
前記時間区間内において前記目を凝らす動作をしていると判定された場合は、前記時間区間に対応する推定した前記感情をネガティブでない感情に変更し、
前記第１の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第１の装置へ通知する、
処理をコンピュータが実行することを特徴とする通知方法。
対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第１の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第１の時間区間において前記対象人物が目を凝らす動作をしているか否かを判定し、
前記第１の時間区間内において前記目を凝らす動作をしていると判定された場合は、前記第１の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータに実行させることを特徴とする検出プログラム。
第１の人物が第２の人物に対して説明する際の音声情報を、前記第１の人物が利用する第１の装置から取得し、
前記音声情報の説明に関連する資料を前記第２の人物が利用する第２の装置の表示画面に表示させるとともに、前記第２の装置が撮影した前記第２の人物の撮影画像を取得し、
取得した前記第２の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
取得した前記第２の人物の撮影画像それぞれに基づいて、前記時間区間において前記第２の人物が目を凝らす動作をしているか否かを判定し、
前記時間区間内において前記目を凝らす動作をしていると判定された場合は、前記時間区間に対応する推定した前記感情をネガティブでない感情に変更し、
前記第１の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第１の装置へ通知する、
処理をコンピュータに実行させることを特徴とする通知プログラム。