JP6977463B2

JP6977463B2 - 通信装置、通信システムおよびプログラム

Info

Publication number: JP6977463B2
Application number: JP2017195602A
Authority: JP
Inventors: 彰一星; タプリヤローシャン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-10-06
Filing date: 2017-10-06
Publication date: 2021-12-08
Anticipated expiration: 2037-10-06
Also published as: US20190110022A1; JP2019071515A; US10798337B2

Description

本発明は、通信装置、通信システムおよびプログラムに関する。

特許文献１には、時間を共有しない人の間で情報交換を行う非同期遠隔会議・教育システムにおいて、映像情報、音声情報に加え、使用者の音声、表情・動作、生体情報のデータから抽出した心理状態のデータをいったん映像音響情報サーバに蓄積し、相手の都合が良いときにダウンロードしてもらい、ダウンロードされた情報は、音声情報はヘッドフォンにより、また映像情報および心理状態表示データは画像表示装置より得られるようにしたシステムが開示されている。

特許第４６０４１７３号公報

本発明は、ビデオ通話における通話相手である聞き手の心理状態が、発言者のどの発言または挙動により変化したかを把握することが可能な通信装置を提供することを目的とする。

請求項１に係る本発明は、発言者の装置から受信した音声または／および映像を再生する再生手段と、
前記再生手段により再生された発言者の音声または／および映像を視聴している聞き手の心理状態を表す特徴情報を検知する検知手段と、
前記検知手段により検知された特徴情報から当該聞き手の心理状態を推定する推定手段と、
前記推定手段により推定された聞き手の心理状態に変化が生じた場合に、その時点において再生中の音声または映像の内容から心理状態を変化させた要因を抽出する抽出手段と、
前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出された要因とを対応付けて前記発言者の装置に送信する送信手段と、
を備える通信装置である。

請求項２に係る本発明は、前記再生手段が少なくとも音声を再生している場合に、前記抽出手段が、再生中の音声の内容から聞き手の心理状態を変化させた要因をキーワードとして抽出し、前記送信手段が、前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出されたキーワードとを対応付けて前記発言者の装置に送信する請求項１記載の通信装置である。

請求項３に係る本発明は、前記再生手段が少なくとも映像を再生している場合に、前記抽出手段が、再生中の映像の内容から聞き手の心理状態を変化させた要因となった発言者の挙動をキーワードとして抽出し、前記送信手段は、前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出されたキーワードとを対応付けて前記発言者の装置に送信する請求項１または２記載の通信装置である。

請求項４に係る本発明は、発言者の装置との間における通信速度が予め定められた設定値以下である場合に、前記送信手段が前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出された要因とを対応付けて前記発言者の装置に送信する請求項１から３いずれかに記載の通信装置である。

請求項５に係る本発明は、前記送信手段が、前記推定手段により推定された聞き手の心理状態に変化が生じた際の時刻情報を前記要因とともに前記発言者の装置に送信する請求項１から４いずれかに記載の通信装置である。

請求項６に係る本発明は、前記送信手段が、前記推定手段により推定された聞き手の心理状態に変化が生じた際に再生されていた映像のフレーム情報を前記要因とともに前記発言者の装置に送信する請求項１から５いずれかに記載の通信装置である。

請求項７に係る本発明は、前記推定手段が、予め設定された時間間隔毎に聞き手の心理状態を推定し、前記抽出手段が、当該時間間隔毎における前記発言者の音声の内容を表すキーワードまたは映像の内容から前記発言者の挙動を表すキーワードを抽出し、前記送信手段が、前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出されたキーワードとを対応付けて前記発言者の装置に送信する請求項１から６いずれかに記載の通信装置である。

請求項８に係る本発明は、前記送信手段が、予め設定された時間間隔毎に推定された聞き手の心理状態に対し、当該聞き手の心理状態が推定された時点における時刻情報および／または前記再生手段により生成された映像のフレーム情報を対応付けて前記発言者の装置に送信する請求項７記載の通信装置である。

請求項９に係る本発明は、第１の利用者の音声または映像を取得する取得手段と、
取得した音声または映像を送信する第１の送信手段と、
受信したフィードバック情報を表示するとともに第２の利用者の音声または／および映像を第1の利用者に対して再生する第１の再生手段と、を備える第１の通信装置と、
前記第１の通信装置から受信した音声または／および映像を第２の利用者に対して再生する第２の再生手段と、
前記第２の再生手段により再生された第１の利用者の音声または／および映像を視聴している第２の利用者の心理状態を表す特徴情報を検知する検知手段と、
前記検知手段により検知された特徴情報から当該第２の利用者の心理状態を推定する推定手段と、
前記推定手段により推定された第２の利用者の心理状態に変化が生じた場合に、その時点において再生中の音声または／および映像の内容から心理状態を変化させた要因を抽出する抽出手段と、
前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出された要因とを対応付け、フィードバック情報として前記第１の通信装置に送信する第２の送信手段と、を備える第２の通信装置と、
を含む通信システムである。

請求項１０に係る本発明は、前記第１の通信装置と前記第２の通信装置との間における通信速度が予め定められた設定値以下である場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システムである。

請求項１１に係る本発明は、前記第１の再生手段によって再生される第２の利用者の映像が予め設定された解像度以下である場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システムである。

請求項１２に係る本発明は、前記第１の再生手段が、第２の利用者の音声のみを第１の利用者に対して再生する場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システムである。

請求項１３に係る本発明は、前記第１の再生手段が、第２の利用者の映像を第１の利用者に対して再生しない場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システムである。

請求項１４に係る本発明は、前記第１の再生手段が、前記第２の通信装置から受信した要因を、当該要因と対応付けられた心理状態に応じた色で表示する請求項９から１３いずれかに記載の通信システムである。

請求項１５に係る本発明は、前記第１の再生手段は、表示されている要因が、当該要因の表示開始後の時間の経過とともに小さくなるように表示する請求項１４に記載の通信システムである。

請求項１６に係る本発明は、発言者の装置との間において音声または／および映像の送受信を行う通信装置を構成するコンピュータに、
受信したフィードバック情報を表示するとともに、受信した音声または／および映像を再生する再生ステップと、
前記再生ステップにより再生された発言者の音声または／および映像を視聴している聞き手の心理状態を表す特徴情報を取得する取得ステップと、
前記取得ステップにより取得された特徴情報から当該聞き手の心理状態を推定する推定ステップと、
前記推定ステップにより推定された聞き手の心理状態に変化が生じた場合に、その時点において再生中の音声または映像の内容から心理状態を変化させた要因を抽出する抽出ステップと、
前記推定ステップにより推定された聞き手の心理状態と、前記抽出ステップにより抽出された要因とを対応付け、フィードバック情報として前記発言者の装置に送信する送信ステップと、
を実行させるプログラムである。

請求項１に係る本発明によれば、ビデオ通話における通話相手である聞き手の心理状態が、発言者のどの発言または挙動により変化したかを把握することが可能な通信装置を提供できる。

請求項２に係る本発明によれば、発言者の発言に含まれるどの言葉によって聞き手の心理状態がどのように変化したのかを発言者側の通信装置に通知することが可能となる。

請求項３に係る本発明によれば、発言者側から送信した映像に含まれる発言者側のどの挙動によって聞き手の心理状態がどのように変化したのかを発言者側の通信装置に通知することが可能となる。

請求項４に係る本発明によれば、発言者側の通信装置との間において通信速度を十分に維持できない場合に、ビデオ通話における聞き手の心理状態が、発言者のどの発言または挙動により変化したかを発言者側の通信装置に対して通知することが可能となる。

請求項５に係る本発明によれば、聞き手側の通信装置においていつの時点で再生された発言者の発言または挙動により聞き手の心理状態が変化したかを発言者側の通信装置に対して通知することが可能となる。

請求項６に係る本発明によれば、聞き手側の通信装置においていつの時点で再生された映像により聞き手の心理状態が変化したかを発言者側の通信装置に対して通知することが可能となる。

請求項７に係る本発明によれば、予め設定された時間間隔毎に、聞き手側の通信装置において再生された発言者の音声や映像の内容とそれに対する聞き手の心理状態を発言者側の通信装置に対して通知することが可能となる。

請求項８に係る本発明によれば、聞き手側の通信装置においてどの時点で再生された発言者の音声や映像に対する聞き手の心理状態であるかがわかるようになる。

請求項９に係る本発明によれば、ビデオ通話における通話相手である聞き手の心理状態が、発言者のどの発言または挙動により変化したかを把握することが可能な通信システムを提供することができる。

請求項１０に係る本発明によれば、第１の通信装置と第２の通信装置との間において通信速度を十分に維持できない場合に、ビデオ通話における聞き手の心理状態が、発言者のどの発言または挙動により変化したかを発言者側の通信装置に対して通知することが可能となる。

請求項１１に係る本発明によれば、第１の通信装置において第２の通信装置を使用する第２の利用者の反応を、映像を通して十分に視認できない場合でも、ビデオ通話における聞き手の心理状態が、発言者のどの発言または挙動により変化したかを発言者側の通信装置に対して通知することが可能となる。

請求項１２に係る本発明によれば、第１の通信装置において第２の通信装置を使用する第２の利用者の映像を視認することができない場合であっても、ビデオ通話における聞き手の心理状態が、発言者のどの発言または挙動により変化したかを発言者側の通信装置に対して通知することが可能となる。

請求項１３に係る本発明によれば、第１の通信装置において第２の通信装置を使用する第２の利用者の映像を視認することができない場合であっても、ビデオ通話における聞き手の心理状態が、発言者のどの発言または挙動により変化したかを発言者側の通信装置に対して通知することが可能となる。

請求項１４に係る本発明によれば、聞き手である第２の利用者の心理状態を、色分け表示しない場合に比較してより把握しやすい仕方で第１の利用者に通知することが可能となる。

請求項１５に係る本発明によれば、時間経過と無関係に要因を表示する場合に比較して、聞き手である第２の利用者の心理状態が、時間経過に伴って変化していることを把握しやすい仕方で第１の利用者に通知することが可能となる。

請求項１６に係る本発明によれば、ビデオ通話における通話相手である聞き手の心理状態が、発言者のどの発言または挙動により変化したかを発言者側の通信装置に通知することが可能なプログラムを提供することができる。

本発明の一実施形態におけるビデオ通話システム１０の一例を説明する全体概略図である。本発明の一実施形態における通話端末装置２０のハードウェア構成を示す図である。本発明の一実施形態における通話端末装置２０の機能ブロック図である。本発明の一実施形態において推定部２２２が利用者の心理状態を表す特徴情報から心理状態を特定する際に使用する感情マップの一例を示す図である。本発明の一実施形態において、ビデオ通話システム１０の第２の通話端末装置２０Ｂにおける処理の流れを示す図である。本発明の一実施形態において、第２の通話端末装置２０Ｂから第１の通話端末装置２０Ａに送信されるフィードバック情報の内容を示す説明図である。本発明の一実施形態において、第２の通話端末装置２０Ｂから受信したフィードバック情報を第１の通話端末装置２０Ａにおいて表示する際の処理の流れを示すフローチャートである。本発明の一実施形態において、フィードバック情報を表示する一例を示す図である。

本実施形態のビデオ通話システム１０について、図１を参照して説明する。なお、図１は、本実施形態のビデオ通話システム１０の一例を説明する全体概略図である。ビデオ通話システム１０は、第１の通話拠点１００Ａに存在する第１の利用者（発言者）Ａと第２の通話拠点１００Ｂに存在する第２の利用者（聞き手）Ｂとの間の通話を、第１の通話端末装置２０Ａ、第２の通話端末装置２０Ｂ、およびインターネットなどのネットワーク３０によって実現するものである。

第１の通話拠点１００Ａには、第１の通話端末装置２０Ａが設置され、ネットワーク３０に接続される。また、第１の通話拠点１００Ａには、第１のアクセスポイント５０Ａ、第１の熱カメラ６０Ａ、第１の深度カメラ７０Ａが設けられる。第１の熱カメラ６０Ａと第１の深度カメラ７０Ａは第１のアクセスポイント５０Ａを介して第１の通話端末装置２０Ａと接続される。さらに、第１の利用者Ａの腕には第１の生体センサ４０Ａが取り付けられ、第１のアクセスポイント５０Ａを介して第１の通話端末装置２０Ａと無線接続される。

同様に、第２の通話拠点１００Ｂには、第２の通話端末装置２０Ｂが設置され、ネットワーク３０に接続される。また、第２の通話拠点１００Ｂには、第２のアクセスポイント５０Ｂ、第２の熱カメラ６０Ｂ、第２の深度カメラ７０Ｂが設けられる。第２の熱カメラ６０Ｂと第２の深度カメラ７０Ｂは第２のアクセスポイント５０Ｂを介して第２の通話端末装置２０Ｂと接続される。さらに、第２の利用者Ｂの腕には第２の生体センサ４０Ｂが取り付けられ、第２のアクセスポイント５０Ｂを介して第２の通話端末装置２０Ｂと無線接続される。

なお、上述の第１の通話拠点１００Ａと第２の通話拠点１００Ｂの構成はほぼ同一であるので、以下の説明において、第１の通話端末装置２０Ａと第２の通話端末装置２０Ｂとの共通の構成や動作について説明するときには、単に通話端末装置２０と呼んで説明を行う。同様に、第１の生体センサ４０Ａと第２の生体センサ４０Ｂ、第１のアクセスポイント５０Ａと第２のアクセスポイント５０Ｂ、第１の熱カメラ６０Ａと第２の熱カメラ６０Ｂ、第１の深度カメラ７０Ａと第２の深度カメラ７０Ｂについてもそれぞれ同様に、単に生体センサ４０、アクセスポイント５０、熱カメラ６０、深度カメラ７０と呼んで説明を行うものとする。

次に、図２、３を参照して、通話端末装置２０の構成と機能について説明する。通話端末装置２０は、例えばノート型パーソナルコンピュータやスマートフォンといった端末装置である。なお、図２は、本実施形態における通話端末装置２０のハードウェア構成を示す図である。

図２に示すように、通話端末装置２０は、制御用マイクロプロセッサ２０１、メモリ２０２、記憶装置２０３、通信インタフェース２０４、ディスプレイ２０５、スピーカ２０６、カメラ２０７、マイクロフォン２０８を有し、それぞれ制御用バス２０９に接続される。

制御用マイクロプロセッサ２０１は、記憶装置２０３に記憶された制御プログラムに基づいて、通話端末装置２０の各部の動作を制御する。

メモリ２０２には、この通話端末装置２０のカメラ２０７によって撮影された画像や映像、マイクロフォン２０８によって検出された利用者の音声、この通話端末装置２０の後述する再生部によって再生された映像のキーフレーム情報、生成された音声から抽出されたキーワード、生体センサ４０や熱カメラ６０によって検出された利用者の生体情報、深度カメラ７０によって検出された利用者の外面情報などが一時的に記憶される。

記憶装置２０３は、ハードディスク（ＨＤＤ）やソリッド・ステート・ドライブ（ＳＤＤ）によって構成され、通話端末装置２０の各部を制御するための制御プログラムが格納される。

通信インタフェース２０４は、この通話端末装置２０がネットワークを介して通話相手側の通話端末装置２０（例えば、本装置が第１の通話端末装置２０Ａである場合には、第２の通話端末装置２０Ｂ）と通信を行うための通信制御を行う。さらに、通話端末装置２０がアクセスポイント５０を介して生体センサ４０、熱カメラ６０Ａ、深度カメラ７０Ａから必要な情報を取得する際の通信制御を行う。

ディスプレイ２０５は、液晶ディスプレイで構成され、後述する再生部によって通話相手側の通話端末装置２０から受信した画像が表示される。

スピーカ２０６は、通話相手側の通話端末装置２０から受信した音声を、後述する再生部による制御により出力する。

カメラ２０７は、利用者（本通話端末装置２０が第１の通話端末装置２０Ａの場合は第１の利用者Ａ）の画像を動画像として撮影し、後述する送信部によって通話相手側の通話端末装置２０に送信する。また、カメラ２０７は、利用者の表情、挙動を画像として撮影し、メモリ２０２に記憶させる。

マイクロフォン２０８は、利用者（本通話端末装置２０が第１の通話端末装置２０Ａの場合は第１の利用者Ａ）の音声を検出し、メモリ２０２に記憶するとともに後述する送信部によって通話相手側の通話端末装置２０に送信する。なお、メモリ２０２には、音声を直接録音するのではなく、音声内容を解釈した後の音声の内容、および音の高さや言葉の速さなどを記憶してもよい。

なお、上記の通話端末装置２０においては、カメラ２０７およびマイクロフォン２０８が通話端末装置２０に組み込まれて一体になった場合を説明したが、本発明はこの形態に限定されず、通話端末装置２０本体とカメラ２０７やマイクロフォン２０８が別体であり、カメラ２０７、マイクロフォン２０８が無線または有線によって通話端末装置２０本体と接続されるような構成であってもよい。

図３は、本実施形態における通話端末装置２０の機能ブロック図である。図３に示すように、通話端末装置２０は、記憶装置２０３に記憶された制御プログラムを制御用マイクロプロセッサ２０１において実行することにより、再生部２２１、推定部２２２、抽出部２２３、送信部２２４として機能する。

再生部２２１は、ビデオ通話における通話相手側の通話端末装置２０（本通話端末装置２０が第１の通話端末装置２０Ａの場合には、第２の利用者Ｂが使用する第２の通話端末装置２０Ｂ）から受信した音声または／映像を再生する制御を行い、ディスプレイ２０５に映像を表示したり、スピーカ２０６に音声を出力する。また、再生部２２１は、通話相手側の通信端末装置２０から受信した、後述するフィードバック情報をディスプレイ２０５に表示する制御を行う。

推定部２２２は、カメラ２０７、マイクロフォン２０８、生体センサ４０、熱カメラ６０、深度カメラ７０により検知された聞き手である利用者の心理状態を表す特徴情報から当該聞き手である利用者の心理状態を推定する。利用者の心理状態を表す特徴情報には、生体情報と外面情報が含まれる。生体情報は、生体センサ４０から送信されてきた利用者の皮膚電位、皮膚抵抗値、心拍数、体温、熱カメラ６０によって検知された利用者の顔または身体の熱分布、マイクロフォン２０８によって検出された利用者の音声の高さなどが含まれる。外面情報には、カメラ２０７で撮影した利用者の眉毛、頬、唇などの顔のランドマークの位置によって求められる顔の表情、深度カメラ７０によって取得された利用者の身体の動き（例えば「のけぞっている」、「前かがみ」、「手を挙げている」）などが含まれる。なお、推定部２２２は、予め設定された時間間隔毎に聞き手である利用者の心理状態を推定する。なお、推定部２２２による利用者の心理状態の推定方法の詳細については後述する。

抽出部２２３は、予め設定された時間間隔毎に、その時点において再生中の音声の内容から発言者である通話相手側の利用者（本通話端末装置２０が第１の通話端末装置２０Ａの場合には、第２の利用者Ｂ）の音声の内容を表すキーワードまたは映像の内容から発言者である通話相手側の利用者の挙動を表すキーワードを抽出する。抽出部２２３は、推定部２２２により推定された聞き手である利用者の心理状態に変化が生じた場合にも、その時点において再生中の音声または映像の内容から心理状態を変化させた要因を抽出し、メモリ２０２に記憶する。具体的には、再生部２２１が少なくとも音声を再生している場合に、抽出部２２３は、再生中の音声の内容から聞き手である利用者の心理状態を変化させた要因をキーワードとして抽出する。また、再生部２２１が少なくとも映像を再生している場合に、抽出部２２３は、再生中の映像の内容から聞き手である利用者の心理状態を変化させた要因となった発言者である通話相手の挙動をキーワードとして抽出する。

送信部２２４は、カメラ２０７によって撮影した利用者の映像およびマイクロフォン２０８によって検出した利用者の音声を、通話相手側の通話端末装置２０に送信する。また、送信部２２４は、推定部２２２により推定された聞き手である利用者の心理状態と、抽出部２２３により抽出された要因をキーワードとして対応付けてフィードバック情報として発言者である通話相手側の通話端末装置２０に送信する。送信部２２４は、予め設定された時間間隔毎に推定された聞き手である利用者の心理状態に対し、当該聞き手である利用者の心理状態が推定された時点における時刻情報および／または再生部２２１により生成された映像のキーフレーム情報を対応付けて発言者である通話相手の通話端末装置２０に送信してもよい。

上述のカメラ２０７、マイクロフォン２０８、およびこれから説明する生体センサ４０、熱カメラ６０、深度カメラ７０は、上述の再生部２２１により再生された発言者である通話相手の音声または／および映像を視聴している聞き手である利用者の心理状態を表す特徴情報を検知する。生体センサ４０は、利用者の手首或いは腕に装着されるリストバンド型のものを使用する。生体センサ４０は、利用者の身体の一部に接触させるものであれば、リストバンド型以外のものであってもよい。生体センサ４０は、利用者の皮膚電位、皮膚抵抗値、容積脈波（以下、説明を簡単にするため「心拍数」として説明する）、体温などの生体情報を検知する。生体情報は、単に検知を行った時点における各生体情報の値だけでなく、平常時に対する各生体情報の値の変化、また単位時間当たりの各生体情報の値の変化が含まれてもよい。生体センサ４０によって検知された生体情報は、アクセスポイント５０を介して通話端末装置２０に送信される。

熱カメラ６０は、利用者の顔または身体から放射される赤外線を検知することにより、利用者の顔または身体の熱分布を検出し、生体情報としてアクセスポイント５０を介して通話端末装置２０に送信する。

深度カメラ７０は、利用者の身体の動きを３次元で検出する。特に、深度カメラ７０は、利用者の身体の骨格の位置の変化に基づいて、例えば「のけぞっている」、「前かがみ」、「手を挙げている」といった身体の動きを捕捉し、外面情報としてアクセスポイント５０を介して通話端末装置２０に送信する。

図４を参照して、上述の推定部２２２が、カメラ２０７、マイクロフォン２０８、生体センサ４０、熱カメラ６０、深度カメラ７０から取得した利用者の心理状態を表す特徴情報から当該利用者の心理状態を推定する方法を説明する。なお、図４は、推定部２２２が利用者の心理状態を表す特徴情報から心理状態を特定する際に使用する感情マップの一例を示す図である。

図４に示される感情マップは、横軸を外面情報の特徴量Ｅで表し、縦軸を生体情報の特徴量Ｉで表している。そして、それぞれの特徴量が大きい場合を活性、小さい場合を被活性としている。そしてこの感情マップは、それぞれ横軸、縦軸における値に対応する各種感情（「幸せ」、「悲しい」といった感情）が割り当てられている。

外面情報には、上述したように、カメラ２０７で撮影した利用者の眉毛、頬、唇などの顔のランドマークの位置によって求められる顔の表情、深度カメラ７０によって取得された利用者の身体の動き（例えば「のけぞっている」、「前かがみ」、「手を挙げている」）などが含まれる。そして、これらの外面情報に応じて、特徴量が予め設定されている。

また、生体情報には生体センサ４０によって検知された利用者の皮膚電位、皮膚抵抗値、心拍数、体温、熱カメラ６０によって検知された利用者の顔または身体の熱分布、マイクロフォン２０８によって検出された利用者の音声の高さなどが含まれる。そして、これらの生体情報に応じた特徴量が予め設定されている。

このように外面情報の特徴量も生体情報の特徴量も複数の複数の要素から決まるため、感情マップは、実際には図４に示すように２次元の図では表すことはできないが、本実施形態においては、説明を簡単に行うため、簡易的に２次元の図で表現している。

図４の感情マップにおいて、例えば、第１の領域４０１は「幸せ」、第２の領域４０２は「普通」、第３の領域４０３は「興奮」とそれぞれ定義されている。ここで、外面情報の特徴量の値がＥ１、生体情報の特徴量の値Ｉ１が感情マップに投影されると、利用者の感情は第１の領域４０１内に含まれ、利用者の心理状態は「幸せ」であると推定される。

同様に、外面情報の特徴量の値Ｅ２、生体情報の特徴量の値Ｉ２が感情マップに投影された場合、利用者の心理状態は「普通」であることが推定され、外面情報の特徴量の値Ｅ３、生体情報の特徴量の値Ｉ３が感情マップに投影された場合には、利用者の心理状態は「興奮」であることが推定される。

推定部２２２は、カメラ２０７、マイクロフォン２０８、生体センサ４０、熱カメラ６０、深度カメラ７０から取得した利用者の心理状態を表す特徴情報に基づく、外面情報の特徴量Ｅと、生体情報の特徴量Ｉを感情マップ上に投影することによって、利用者の現在の心理状態を一意に特定する。

次に、図５を参照して、本実施形態のビデオ通話システム１０における処理の流れについて説明する。なお、図５は、本実施形態のビデオ通話システム１０の第２の通話端末装置２０Ｂにおける処理の流れを示す図である。ビデオ通話の処理の流れの概要を説明すると、まず、第１の利用者Ａは第１の通話端末装置２０Ａを使用して、第２の通話端末装置２０Ｂを使用する第２の利用者Ｂとビデオ通話を行う。ここで第１の利用者Ａは発言者であり、第２の利用者Ｂは聞き手である。聞き手である第２の利用者Ｂには、発言者である第１の利用者Ａの映像や音声に対する心理状態の変化が生じる。その場合、第１の利用者Ａの音声または映像の内容から第２の利用者Ｂの心理状態を変化させた要因をキーワードとして抽出して第１の通話端末装置２０Ａにフィードバックし、第１の利用者Ａが第２の利用者Ｂの反応を把握できるようにする。

なお、以下の説明においては、主に第２の通話端末装置２０Ｂにおける処理を説明している。ステップＳ５０１において、第２の通話端末装置２０Ｂは、第１の通話端末装置２０Ａとビデオ通話を行う。具体的には、第２の通話端末装置２０Ｂの再生部２２１は、第１の通話端末装置２０Ａから受信した映像を第２の通話端末装置２０Ｂのディスプレイ２０５に表示するとともに、同じく受信した音声をスピーカ２０６から出力し、第２の利用者Ｂが視聴できるようにする。例えば、時刻Ｔ１（13時00分01秒000）に、第１の利用者Ａが第１の通話端末装置２０Ａを介して第２の利用者Ｂに対して「品質向上」という言葉を発したとする。この音声は、第２の通話端末装置２０Ｂの再生部２２１によりスピーカ２０６から時刻Ｔ２（13時00分01秒500）に第２の利用者Ｂに対して「品質向上」という音声で再生される。

また、第２の通話端末装置２０Ｂの送信部２２４は、カメラ２０７Ｂによって撮影した利用者Ｂの映像、およびマイクロフォン２０８によって検出した利用者Ｂの音声を第１の通話端末装置２０Ａに送信する。

ステップＳ５０２において、カメラ２０７、第２の深度カメラ７０Ｂによって検知された利用者Ｂの外面情報の特徴量と、マイクロフォン２０８、第２の生体センサ４０Ｂ、第２の熱カメラ６０Ｂによって検知された利用者Ｂの生体情報の特徴量とを取得し、メモリ２０２に記憶する。また、カメラ２０７、マイクロフォン２０８、生体センサ４０、熱カメラ６０、深度カメラ７０によって時刻Ｔ２（13時00分01秒500）に検知された利用者Ｂの心理状態を表す特徴情報には、時刻情報Ｔ２が付与される。推定部２０２は、同一の時刻情報が付与された身体的特徴の情報から、外面情報の特徴量と、生体情報の特徴量を算出し、当該時刻情報（Ｔ２）を付与してメモリ２０２に記憶する。

ステップＳ５０３において、第２の通話端末装置２０Ｂの推定部２２２は、メモリ２０２に記憶された外面情報の特徴量と、生体情報の特徴量から、上述した感情マップを用いることによって利用者Ｂの時刻Ｔ２における心理状態を推定する。

ステップＳ５０４において、第２の通話端末装置２０Ｂの推定部２２２は、第２の利用者Ｂの心理状態に変化があったか否かを判断する。心理状態の変化がないと判断された場合はステップＳ５０５に進み、心理状態の変化があったと判断された場合はステップＳ５０６に進む。

ステップＳ５０５において、抽出部２２３は、送信部２２４が前回フィードバック情報を送信してから所定時間（例えば１秒）が経過したか否かを判定する。所定時間が経過していないと判定された場合は、ステップＳ５０１に戻り、ビデオ通話処理および第２の利用者Ｂの心理状態の推定処理を継続して行う。所定時間が経過したと判定された場合は、ステップＳ５０６に進む。

ステップＳ５０６において、第２の通話端末装置２０Ｂの抽出手段２２３は、推定部２２２によって推定された利用者Ｂの心理状態に対して、当該心理状態の時刻（時刻Ｔ２）に再生部２２１によって利用者Ａの音声が再生されていたか否かを判定する。利用者Ａの音声が再生されていた場合にはステップＳ５０７に進み、再生されていなかった場合にはステップＳ５０９に進む。

ステップＳ５０７において、抽出部２２３は、再生部２２２によって時刻Ｔ２に再生された音声をテキスト化し、当該テキストに含まれるキーワードを抽出し、メモリ２０２に記憶する。

ステップＳ５０８において、第２の通話端末装置２０Ｂの送信部２２４は、推定部２２２により推定された聞き手である利用者Ｂの心理状態に変化が生じた際の時刻情報（Ｔ２）、つまり当該心理状態を検出、および当該キーワードが再生された時刻の時刻情報を、推定部２２２により推定された第２の利用者Ｂの心理状態と、抽出部２２３によって抽出された、第２の利用者Ｂの心理状態を変化させた要因としてのキーワード（例えば「品質向上」）とともに第１の通話端末装置２０Ａに送信し、ステップＳ５１０に進む。

ステップＳ５０６において、第２の利用者Ｂが、推定部２２２によって推定された心理状態となった時刻（時刻Ｔ２）に再生部２２１によって利用者Ａの音声が再生されていなかった場合にはステップＳ５０９に進み、送信部は、推定部２２２によって推定された心理状態の情報と、第２の利用者Ｂが当該心理状態であった時刻情報（時刻Ｔ２）とを対応付けて第１の通話端末装置２０Ａに送信し、ステップＳ５１０に進む。

ステップＳ５１０において、再生部２２１は、第１の通話端末装置２０Ａとのビデオ通話を終了するか否かを判断する。ビデオ通話を終了しない場合、ステップＳ５０１に戻り、ビデオ通話を継続する。一方、第１の通話端末装置２０Ａから通話終了の信号を受信した場合、或いは第２の利用者Ｂによって通話終了の操作が行われた場合、通話を終了すると判断し、第１の通話端末装置２０Ａとの間の映像、音声の送受信を終了するとともに、生体センサ４０、熱カメラ６０、深度カメラ７０に対して通話終了を通知し、処理を終了する。

図６は、第２の通話端末装置２０Ｂから第１の通話端末装置２０Ａに送信されるフィードバック情報の内容を示す説明図である。フィードバック情報は、時刻情報、キーワード、キーフレーム情報、心理状態情報、ＩＤ情報を含む。例えば、第２の通話拠点１００Ｂにおいて、時刻「13:00:00:500」の時点に推定部２２２によって利用者Ｂの心理状態が「普通」であると推定された場合、第２の通話端末装置２０Ｂから第１の通話端末装置２０Ａに対するフィードバック情報として、時刻情報「13:00:00:500」、キーワード「」(この場合キーワードはなし)、キーフレーム情報「130000000」、心理状態情報「普通」、ＩＤ情報「h0001」が送信される。なお、キーフレーム情報は、時刻「13:00:00:500」の時点に第２の通話端末装置２０Ｂにおいて再生されたキーフレームを示しており、キーフレームの数字は、第１の通話端末装置２０Ａにおいて撮影された時刻に対応している。つまり、キーフレーム「130000000」は、第１の通話装置２０Ａにおいて時刻「13:00:00:000」に撮影されたことを示している。また、ＩＤ情報は、推定された心理状態であるのがどの利用者かを指し示す情報である。

さらに、第２の通話拠点１００Ｂにおいて、時刻「13:00:01:500」の時点に推定部２２２によって利用者Ｂの心理状態が「興奮」だったとする。また、このときに抽出部２２３によって抽出されたキーワードが「品質向上」であったとする。その場合、第２の通話端末装置２０Ｂから第１の通話端末装置２０Ａに対するフィードバック情報として、時刻情報「13:00:01:500」、キーワード「品質向上」、キーフレーム情報「130001000」、心理状態情報「興奮」、ＩＤ情報「h0001」が送信される。

次に、図７を参照して、第１の通話端末装置２０Ａにおいて、第２の通話端末装置２０Ｂから受信したフィードバック情報を表示する際の処理の流れについて説明する。なお、図７は、第２の通話端末装置２０Ｂから受信したフィードバック情報を第１の通話端末装置２０Ａにおいて表示する際の処理の流れを示すフローチャートである。

ステップＳ７０１において、第１の通話端末装置２０Ａは、第２の通話端末装置２０Ｂとビデオ通話を行う。ここで、第１の通話端末装置２０Ａを使用する第１の利用者Ａは発言者、第２の通話端末装置２０Ｂを使用する第２の利用者Ｂは聞き手である。具体的には、第１の通話端末装置２０Ａの送信部２２４は、カメラ２０７によって撮影した利用者Ａの映像、およびマイクロフォン２０８によって検出した利用者Ａの音声を送信部２２４が第２の通話端末装置２０Ｂに送信する。例えば、時刻Ｔ１（13時00分01秒000）に、第１の利用者Ａが第１の通話端末装置２０Ａを介して第２の利用者Ｂに対して「品質向上」という言葉を発したとする。この音声は、マイクロフォン２０８によって検出され、カメラ２０７によって撮影された第１の利用者Ａの映像とともに送信部２２４によって第２の通話端末装置に送信され、第２の通話端末装置２０Ｂの再生部２２１によりスピーカ２０６から時刻Ｔ２（13時00分01秒500）に第２の利用者Ｂに対して「品質向上」という音声として再生される。

さらに、第１の通話端末装置２０Ａの再生部２２１は、第２の通話端末装置２０Ｂから受信した映像を第１の通話端末装置２０Ａのディスプレイ２０５に表示するとともに、同じく受信した音声をスピーカ２０６から出力し、第１の利用者Ａが視聴できるようにする。

ステップＳ７０２において、第１の通話端末装置２０Ａは第２の通話端末装置２０Ｂから送信されてきたフィードバック情報を受信し、メモリ２０２に一時的に記憶する。

ステップＳ７０３において、第１の通話端末装置２０Ａの再生部２２１は、受信したフィードバック情報をディスプレイ２０５に表示する。具体的には、再生部２２１は、フィードバック情報に含まれるキーワードを、このキーワードと対応付けられた心理状態に応じた色で表示する。この一例が、図８に示されている。図８は、フィードバック情報を表示する一例を示す図である。図８において、例えば、「興奮」は青色、「普通」は茶色、「悲しみ」は赤、「幸せ」は緑色に対応付けられている。第１の端末装置２０Ａのディスプレイ２０５に、第２の通話端末装置２０Ｂから受信したキーワードである「品質向上」が青色で表示されている。したがって、発言者である第１の利用者Ａが発言した「品質向上」という言葉を聞き手である第２の利用者Ｂが聞いた際の第２の利用者Ｂの心理状態は「興奮」状態となったということが分かる。

同様に、図８においては、第１の端末装置２０Ａのディスプレイ２０５に、「緊急」というキーワードが赤色で表示されている。したがって、第１の利用者Ａが発言した「緊急」という言葉を聞いた際の第２の利用者Ｂの心理状態は「悲しみ」の状態であったことがわかる。

さらに、再生部２２１は、フィードバック情報に含まれるキーワードを、当該キーワードの表示開始後の時間の経過とともに小さくなるように表示する。例えば、図８においては、「品質向上」というキーワードは大きい字体で表示されているのに対し、「緊急」というキーワードは小さい字体で表示されている。これは、「品質向上」というキーワードは表示を開始したばかりであることを示しており、「緊急」というキーワードは表示開始から時間が経過していることを示している。

図７のステップＳ７０４において、再生部２２１は、第２の通話端末装置２０Ｂとのビデオ通話を終了するか否かを判断する。ビデオ通話を終了しない場合、ステップＳ７０１に戻り、ビデオ通話を継続する。一方、第２の通話端末装置２０Ｂから通話終了の信号を受信した場合、或いは第１の利用者Ａによって通話終了の操作が行われた場合、通話を終了すると判断し、第２の通話端末装置２０Ｂとの間の映像、音声の送受信を終了する。

なお、上述の例においては、第１の通話端末装置２０Ａを使用する第１の利用者Ａが発言者として発言し、第２の通話端末装置２０Ｂにおいてその発言を視聴する第２の利用者Ｂ（聞き手）の心理状態を推定し、推定された第２の利用者の心理状態と第１の利用者Ａの発言に含まれるキーワードとを対応付けて第１の通話端末装置２０Ａにフィードバック情報としてフィードバックし、第１の通話端末装置２０Ａに表示する例を説明したが、実際のビデオ通話においては、双方向に会話が行われ、利用者双方の心理状態がそれぞれ変化する。そこで、上述の図５のフローチャートで実行される処理と図７のフローチャートで実行される処理を、第１の通話端末装置２０Ａ、第２の通話端末装置２０Ｂの両方で実行し、第１の利用者Ａの発言に対する第２の利用者Ｂの心理状態についてのフィードバック情報を第１の通話端末装置２０Ａに送信して表示するだけでなく、第２の利用者Ｂの発言に対する第１の利用者Ａの心理状態についてのフィードバック情報を第２の通話端末装置２０Ｂに送信して表示するようにしてもよい。

なお、再生部２２１が少なくとも映像を再生している場合に、抽出部２２３が、再生中の映像の内容から聞き手の心理状態を変化させた要因となった発言者の挙動をキーワードとして抽出し、送信部２２４が、推定部２２２により推定された聞き手の心理状態と、抽出部２２３により抽出されたキーワードとを対応付けて発言者側の通話端末装置２０に送信するようにしてもよい。

例えば、第２の通話端末装置２０Ｂ側の聞き手が、第１の通話端末装置２０Ａ側の発言者の「首を振る」という挙動を見た際に、当該聞き手の心理状態が「悲しみ」の状態になったとする。その場合、聞き手側の第２の通話端末装置２０Ｂの抽出部２２３は、再生中の映像の内容から聞き手の心理状態を変化させた要因である発言者の挙動に基づいて「首を振る」というキーワードを抽出し、送信部２２４が、第１の聞き手の心理状態である「悲しみ」と「首を振る」というキーワードとを対応付けて発言者側の通話端末装置２０Ａに送信する。

さらに、通話端末装置２０間の通信速度が予め定められた設定値以下である場合に、送信部２２４は、推定部２２２により推定された聞き手の心理状態と、抽出部２２３により抽出された聞き手の心理状態を変化させた要因であるキーワード、または予め設定された時間間隔毎に抽出された発言者の音声の内容を表すキーワードまたは映像の内容から抽出された発言者の挙動を表すキーワードとを対応付けて発言者側の通話端末装置２０に送信するようにしてもよい。この場合、通話端末装置２０間において、最初は高画質でビデオ通話を行っていたものの、途中で通信速度が低下し、相手の顔の画像が不鮮明になったりした場合でも、自分の発言に対する相手の反応についてのフィードバック情報が発言者側の通話端末装置２０のディスプレイ２０５に表示される。

また、フィードバック情報を受ける側（つまり発言者側）の通話端末装置２０の再生部２２１によって再生される聞き手の映像が予め設定された解像度以下である場合に、聞き手側の通話端末装置２０の送信部２２４が推定部２２２により推定された聞き手の心理状態と、抽出部２２３により抽出されたキーワードとを対応付けて発言者側の通話端末装置２０に送信するようにしてもよい。この場合、相手の顔が不鮮明となって表情が読み取れない場合でも、自分の発言に対する相手の反応についてのフィードバック情報が発言者側の通話端末装置２０のディスプレイ２０５に表示される。

また、フィードバック情報を受け取る側（つまり発言者側）の通話端末装置２０の再生部２２１が、聞き手側の音声のみを発言者に対して再生する場合に、聞き手側の通話端末装置２０の送信部２２４が推定部２２２により推定された聞き手の心理状態と、抽出部２２３により抽出されたキーワードとを対応付けて発言者側の通話端末装置２０に送信するようにしてもよい。

また、フィードバック情報を受け取る側（つまり発言者側）の通話端末装置２０の再生部２２１が、聞き手側の映像を発言者に対して再生しない場合に、聞き手側の通話端末装置２０の送信部２２４が推定部２２２により推定された聞き手の心理状態と、抽出部２２３により抽出されたキーワードとを対応付けて発言者側の通話端末装置２０に送信するようにしてもよい。

１０ビデオ通話システム
２０、２０Ａ、２０Ｂ通話端末装置
３０ネットワーク
４０、４０Ａ、４０Ｂ生体センサ
５０、５０Ａ、５０Ｂアクセスポイント
６０、６０Ａ、６０Ｂ熱カメラ
７０、７０Ａ、７０Ｂ深度カメラ
１００Ａ、１００Ｂ通話拠点
２０１制御用マイクロプロセッサ
２０２メモリ
２０３記憶装置
２０４通信インタフェース
２０５ディスプレイ
２０６スピーカ
２０７カメラ
２０８マクロフォン
２０９制御用バス
２２１再生部
２２２推定部
２２３抽出部
２２４送信部

Claims

発言者の装置から受信した音声または／および映像を再生する再生手段と、
前記再生手段により再生された発言者の音声または／および映像を視聴している聞き手の心理状態を表す特徴情報を検知する検知手段と、
前記検知手段により検知された特徴情報から当該聞き手の心理状態を推定する推定手段と、
前記推定手段により推定された聞き手の心理状態に変化が生じた場合に、その時点において再生中の音声または映像の内容から心理状態を変化させた要因を抽出する抽出手段と、
前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出された要因とを対応付けて前記発言者の装置に送信する送信手段と、
を備える通信装置。
前記再生手段が少なくとも音声を再生している場合に、
前記抽出手段は、再生中の音声の内容から聞き手の心理状態を変化させた要因をキーワードとして抽出し、
前記送信手段は、前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出されたキーワードとを対応付けて前記発言者の装置に送信する請求項１記載の通信装置。
前記再生手段が少なくとも映像を再生している場合に、
前記抽出手段は、再生中の映像の内容から聞き手の心理状態を変化させた要因となった発言者の挙動をキーワードとして抽出し、
前記送信手段は、前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出されたキーワードとを対応付けて前記発言者の装置に送信する請求項１または２記載の通信装置。
発言者の装置との間における通信速度が予め定められた設定値以下である場合に、前記送信手段が前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出された要因とを対応付けて前記発言者の装置に送信する請求項１から３いずれかに記載の通信装置。
前記送信手段は、前記推定手段により推定された聞き手の心理状態に変化が生じた際の時刻情報を前記要因とともに前記発言者の装置に送信する請求項１から４いずれかに記載の通信装置。
前記送信手段は、前記推定手段により推定された聞き手の心理状態に変化が生じた際に再生されていた映像のフレーム情報を前記要因とともに前記発言者の装置に送信する請求項１から５いずれかに記載の通信装置。
前記推定手段は、予め設定された時間間隔毎に聞き手の心理状態を推定し、
前記抽出手段は、当該時間間隔毎における前記発言者の音声の内容を表すキーワードまたは映像の内容から前記発言者の挙動を表すキーワードを抽出し、
前記送信手段は、前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出されたキーワードとを対応付けて前記発言者の装置に送信する請求項１から６いずれかに記載の通信装置。
前記送信手段は、予め設定された時間間隔毎に推定された聞き手の心理状態に対し、当該聞き手の心理状態が推定された時点における時刻情報および／または前記再生手段により生成された映像のフレーム情報を対応付けて前記発言者の装置に送信する請求項７記載の通信装置。
第１の利用者の音声または映像を取得する取得手段と、
取得した音声または映像を送信する第１の送信手段と、
受信したフィードバック情報を表示するとともに第２の利用者の音声または／および映像を第1の利用者に対して再生する第１の再生手段と、を備える第１の通信装置と、
前記第１の通信装置から受信した音声または／および映像を第２の利用者に対して再生する第２の再生手段と、
前記第２の再生手段により再生された第１の利用者の音声または／および映像を視聴している第２の利用者の心理状態を表す特徴情報を検知する検知手段と、
前記検知手段により検知された特徴情報から当該第２の利用者の心理状態を推定する推定手段と、
前記推定手段により推定された第２の利用者の心理状態に変化が生じた場合に、その時点において再生中の音声または／および映像の内容から心理状態を変化させた要因を抽出する抽出手段と、
前記推定手段により推定された聞き手の心理状態と、前記抽出手段により抽出された要因とを対応付け、フィードバック情報として前記第１の通信装置に送信する第２の送信手段と、を備える第２の通信装置と、
を含む通信システム。
前記第１の通信装置と前記第２の通信装置との間における通信速度が予め定められた設定値以下である場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システム。
前記第１の再生手段によって再生される第２の利用者の映像が予め設定された解像度以下である場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システム。
前記第１の再生手段が、第２の利用者の音声のみを第１の利用者に対して再生する場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システム。
前記第１の再生手段が、第２の利用者の映像を第１の利用者に対して再生しない場合に、前記第２の送信手段が前記推定手段により推定された第２の利用者の心理状態と、前記抽出手段によって抽出された要因とを対応付けて前記第１の通信装置に送信する請求項９に記載の通信システム。
前記第１の再生手段が、前記第２の通信装置から受信した要因を、当該要因と対応付けられた心理状態に応じた色で表示する請求項９から１３いずれかに記載の通信システム。
前記第１の再生手段は、表示されている要因が、当該要因の表示開始後の時間の経過とともに小さくなるように表示する請求項１４に記載の通信システム。
発言者の装置との間において音声または／および映像の送受信を行う通信装置を構成するコンピュータに、
受信したフィードバック情報を表示するとともに、受信した音声または／および映像を再生する再生ステップと、
前記再生ステップにより再生された発言者の音声または／および映像を視聴している聞き手の心理状態を表す特徴情報を取得する取得ステップと、
前記取得ステップにより取得された特徴情報から当該聞き手の心理状態を推定する推定ステップと、
前記推定ステップにより推定された聞き手の心理状態に変化が生じた場合に、その時点において再生中の音声または映像の内容から心理状態を変化させた要因を抽出する抽出ステップと、
前記推定ステップにより推定された聞き手の心理状態と、前記抽出ステップにより抽出された要因とを対応付け、フィードバック情報として前記発言者の装置に送信する送信ステップと、
を実行させるプログラム。