以下、図面に基づいて、本発明の実施形態について詳細に説明する。
図1は、非言語情報解析装置の一実施形態を示している。図1に例示した非言語情報解析装置10は、センサ部11と、生成部12と、第1評価部13とを含んでいる。
センサ部11は、人物P1の表情もしくは身振りを含む非言語反応を観測する。生成部12は、センサ部11が取得した観測データから、人物P1が表出した少なくとも一つの非言語反応の強さを示す計測値を含む非言語情報を生成する。第1評価部13は、生成された非言語情報に含まれる、人物P1の感情表現を表す非言語反応の強さを示す計測値の時間的な変動の特徴に基づいて、感情表現が人物P1の感情の自然な表れである可能性の高さを示す情動度を評価する。
センサ部11は、人物P1の表情や身振りなどの視覚的な非言語反応の観測に用いるカメラや、音声や接触などの聴覚や触覚によって捉えられる非視覚的な非言語反応を観測する機能を有するセンサデバイスを含んでいてもよい。なお、図1では、センサ部11に含まれるカメラや他のセンサデバイスの図示は省略している。
生成部12は、例えば、人物P1をセンサ部11に含まれるカメラによって得られた画像データに対して顔認識処理などの画像処理を適用することにより、人物P1の顔や手を含む各部位の位置および顔に含まれる各特徴点の位置を示す位置情報を取得する。また、これらの位置情報に基づいて、生成部12は、人物P1の表情が笑顔である度合いを示す笑顔度や、手や首の動きの大きさおよび動きの頻度などを示す計測値を得ることができる。これらの計測値は、人物P1が表出した個々の非言語反応の強さを示す計測値である。
人物P1は、意識的な感情表現として、顔の表情や身振り、手のジェスチャーや、発話音声の抑揚など、様々な非言語反応を表出する。このような感情表現として表出された非言語反応が、人物P1の情動に由来している場合に、これらの非言語反応の強さは、人物P1の情動の変動を反映する。このため、生成部12によって生成される非言語情報に含まれる各計測値は、急激な増大や揺らぎを伴って、時間的に不規則に変動する場合が多い。
一方、人物P1が笑顔を装った場合などに、この人物P1の画像を解析して得られる笑顔度は、この人物P1が自然に笑顔になった場合に比べて、緩やかに、また、規則的に上昇する場合が多い。
図2は、非言語反応の強さを示す計測値の時間変動の例を示している。図2において、横軸は、時間tを示し、縦軸は、計測値の一例である笑顔度sを示す。
図2において、符号S1(t)で示したグラフは、自然な笑顔を形成している可能性の高い人物を撮影した画像に対して顔認識処理を行って得られた笑顔度の時間変化を示す。また、符号S2(t)で示したグラフは、作為的な笑顔を形成している可能性の高い人物を撮影した画像に対して顔認識処理を行って得られた笑顔度の時間変化を示す。
図2に例示したグラフS1(t)は、撮影された人物の笑顔度が複雑な曲線を描いて上昇していく様子を示している。このように、自然な笑顔を形成している可能性の高い人物を撮影した画像から得られた笑顔度は、時間とともに急激に上昇したり、一旦緩んだ後にまた上昇したりといった複雑な変化を示す場合が多い。これに対して、作為的な笑顔を形成している可能性の高い人物を撮影した画像から得られた笑顔度は、図2に例示したグラフS2(t)のように、単調に上昇した後、単調に下降する場合が多い。
このように、人物P1の表情や動作に表れた感情表現を表す少なくとも一つの非言語反応が情動に由来している場合と、人物P1の作為に由来している場合とでは、これらの非言語反応の強さを示す計測値の時間的な変動の特徴が異なっている。
したがって、第1評価部13は、例えば、非言語反応の強さを示す計測値が、時間的に不規則に変動する度合いの高さに基づいて、当該非言語反応で表される感情表現が人物P1の自然な感情表現である可能性の高さを評価することができる。第1評価部13は、例えば、笑顔度や手のジェスチャーの大きさや頻度などの計測値の時間的な変動が不規則である度合いに応じて、大きい値となるように情動度を求めることにより、人物P1の自然な感情表現である可能性の高さを反映することができる。
なお、人物P1が表出した感情表現に複数種類の非言語反応が含まれている場合に、第1評価部13は、例えば、個々の非言語反応についての評価結果の最大値を人物P1の情動度としてもよい。
このように、第1評価部13を含む本件開示の非言語情報解析装置10によれば、人物P1が表出した感情表現が、自然な感情表現である可能性の高さを示す情動度を評価することができる。そして、この情動度は、人物P1が情動に応じて豊かな表情を表出できるようなリラックスした状態である可能性の高さを示している。したがって、このようにして情動度を求めることにより、本件開示の非言語情報解析装置10によれば、人物P1によって表出されていない感情を推測する手がかりとなる情報を収集することができる。
また、本件開示の非言語情報解析装置は、例えば、人物を撮影した動画像に含まれる非言語情報に基づいて、動画像に捉えられた人物についての情動度を評価することができる。そして、この評価結果は、家庭用ビデオ撮影装置などによって撮影された動画像を含む動画像を編集するための動画編集処理装置などにおいて利用することができる。
例えば、本件開示の非言語情報解析装置により、動画像に含まれる複数のシーンごとに、被写体として含まれている人物についての情動度を評価し、得られた評価結果を含むタグ情報を各シーンに対応付けて動画像データに付加してもよい。このようなタグ情報を利用することにより、動画像編集装置において、例えば、被写体の人物の情動度が所定の値以上となっているシーンを切り出すなどの操作を容易に実現することができる。例えば、家庭用ビデオ撮影装置を用いて子どもを撮影した動画像から、被写体となった子どもが豊かな表情を見せているシーンの候補を自動的に抽出することにより、動画像編集処理に含まれるシーンの取捨選択作業を支援することができる。
本件開示の非言語情報解析装置10は、次に示すように、人物P1に刺激が与えられたときに、この刺激に応じて表出した感情表現が自然な感情表現である可能性の高さを評価する用途にも利用することができる。
図3は、非言語情報解析装置10の別実施形態を示している。なお、図3に示した構成要素のうち、図1に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図3に例示した刺激媒体2は、人物P1に視覚的な刺激あるいは非視覚的な刺激を与える物体でもよいし、また、人物P1が視聴可能な映像コンテンツなどでもよい。なお、刺激媒体2が映像コンテンツである場合に、非言語情報解析装置10は、この映像コンテンツの再生タイミングを受け取ることができ、この再生タイミングに基づいて、人物P1が刺激を受けたタイミングを正確に特定することができる。したがって、映像コンテンツなどが刺激媒体である場合に、非言語情報解析装置10は、後述するように、センサ部11による観測動作の開始や生成部12による非言語情報の生成動作を、この再生タイミングによって精密に制御することができる。一方、刺激媒体2が、物体などである場合は、例えば、物体が人物P1に提示されたタイミングなどに基づいて、刺激媒体2による刺激が人物P1に作用したタイミングを推定してもよい。また、刺激媒体2は、非言語情報解析装置10に含まれていてもよい。
図3に例示した非言語情報解析装置10は、図1に例示した各部に加えて、生成制御部14を含んでいる。この生成制御部14は、人物P1が刺激媒体2からの刺激を受けたタイミングで、生成部12に対して非言語情報を生成させる制御を行う。
これにより、生成部12は、刺激媒体2からの刺激によって人物P1に喚起された少なくとも一つの非言語反応の強さをそれぞれ示す計測値を含む非言語情報を生成することができる。
ここで、例えば、刺激媒体2の種類や性質および特徴の変化によって、人物P1が表出する感情表現は様々に変化する可能性がある。そして、様々な刺激媒体2に人物P1が接した際に生成部12が生成した非言語情報に基づいて、第1評価部13は、人物P1が表出した様々な感情表現について情動度をそれぞれ評価することができる。
したがって、図3に例示した非言語情報解析装置10によれば、多様な感情表現についての情動度を評価可能とすることにより、人物P1によって表出されていない感情を推測する手がかりとなる情報を更に多く収集することができる。
なお、映像コンテンツに付加されているタグ情報などを利用することにより、人物P1が映像コンテンツを視聴している際に受ける刺激の内容と、人物P1が表出した感情表現とを明確に対応付けることが可能である。また、刺激媒体2が人物P1に作用した作用タイミングが高い精度で特定できる場合には、感情表現を表す非言語反応の強さを示す計測値が大きく変動するタイミングと作用タイミングとの近さを情動度に反映してもよい。
また、人物P1とコミュニケーションを行う機能を有するコミュニケーションロボットを、刺激媒体2として利用することもできる。
図4は、非言語情報解析装置10の別実施形態を示している。なお、図4に示した構成要素のうち、図1に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図4に例示したクマ型コミュニケーションロボットR1は、コミュニケーションロボットの一例である。なお、以下の説明では、このクマ型コミュニケーションロボットR1を、クマ型ロボットR1と称する。
図4に例示した非言語情報解析装置10のセンサ部11は、このクマ型ロボットR1に搭載されている。また、センサ部11に含まれるカメラ111の光軸は、クマ型ロボットR1の視線方向に概ね一致している。例えば、カメラ111の受光部を、クマ型ロボットの鼻の部分に設けられた開口部に一致させるように、カメラ111を配置することにより、クマ型ロボットR1の視線方向とカメラ111の光軸方向をほぼ一致させることができる。
このようにカメラ111を配置することにより、人物P1の視線とクマ型ロボットR1の視線とが一致したアイコンタクト状態において、カメラ111から人物P1のゆがみの少ない画像を取得することが可能となる。
また、図4に例示した生成制御部14は、第1検出部141と期間設定部142とを含んでいる。この第1検出部141は、カメラ111で取得されたに基づいて、クマ型ロボットR1の視線と人物P1の視線とが一致したタイミングを検出する。例えば、第1検出部141は、カメラ111で取得された画像の中央に正面向きの人物が捉えられたときを、人物P1とクマ型ロボットR1との間でアイコンタクトが成立したタイミングとして検出してもよい。
また、期間設定部142は、第1検出部121で検出されたタイミングを含む所定の長さの期間を設定し、この期間において、生成部12に対して、人物P1が表出した少なくとも一つの非言語反応の強さを示す計測値を生成させる。期間設定部142は、例えば、上述したアイコンタクトのタイミングより1秒前から、アイコンタクトのタイミングから4秒が経過するまでの期間を、生成部12が非言語情報を生成する期間として設定してもよい。このようにして設定された期間は、人物P1とクマ型ロボットR1との間にアイコンタクトが維持されている期間に対応しているので、以下の説明では、この期間をアイコンタクト区間と称する。なお、期間設定部142が設定するアイコンタクト区間の長さおよびこのアイコンタクト区間の始点や終点は、アイコンタクトのタイミングがこのアイコンタクト区間内に含まれるように設定されればよく、上述した例に限定されることはない。
上述したようにして、第1検出部121が検出したタイミングは、人物P1がクマ型ロボットR1を認知したタイミングに相当する可能性が高い。したがって、期間設定部142が、生成部12に、上述したアイコンタクト区間について非言語情報を生成させることにより、人物P1がクマ型ロボットR1との相互作用を契機として表出した可能性の高い非言語反応についての非言語情報を収集することができる。しかも、上述したように、アイコンタクトが成立している状態においてカメラ111によって得られる画像はゆがみが少ないので、顔認識処理などの画像処理によって精度の高い計測値を得ることができる。つまり、図4に例示した生成制御部14によれば、生成部12に、精度の高い計測値を含む非言語情報を生成させることができる。
したがって、このようにして生成された非言語情報に基づいて、第1評価部13が、上述した評価処理を行うことにより、人物P1の情動度について高い精度の評価結果を得ることが可能である。
このようにして、本件開示の非言語情報解析装置10によれば、クマ型ロボットR1との相互作用を契機として表出された非言語反応に基づいて、人物P1の感情表現の自然さを示す情動度を得ることができる。このようにして得られた情動度は、人物P1が情動に従って表情を豊かに表現している度合いを示しているので、人物P1が表出していない感情を推測する手がかりとなりうる情報の一つである。
なお、クマ型ロボットR1に搭載されるセンサ部11は、カメラ111に加えて、非視覚的非言語反応を観測するためのセンサデバイスを含むことができる。
図5は、非言語情報解析装置10の別実施形態を示している。なお、図5に示した構成要素のうち、図4に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図5に例示したセンサ部11は、カメラ111に加えて、マイク112および接触センサ113を含んでいる。マイク112は、例えば、クマ型ロボットR1の耳の付近に配置されており、人物P1の音声を表す音声データを生成する。接触センサ113は、例えば、クマ型ロボットR1の手足の先端部分や背中および頭などに配置されており、人物P1がこれらの部分に接触した際の圧力の大きさを示す接触データを生成する。
また、図5に例示した生成部12は、センサデータ処理部121と、非言語情報蓄積部122と、読出処理部123とを含んでいる。このセンサデータ処理部121は、例えば、画像データ処理部124と、音声データ処理部125と、接触データ処理部126とを有する。
画像データ処理部124は、センサ部11のカメラ111から得られる画像データに対して、顔認識処理を含む画像処理を適用することにより、視覚的な非言語反応の強さを示す計測値を生成する。画像データ処理部124は、例えば、人物の顔の向きや首の傾きの角度、頷き動作の大きさおよび頻度などをそれぞれ示す計測値とともに、人物の表情が笑顔である可能性の高さを示す笑顔度を計測値の一つとして生成することが望ましい。また、画像データ処理部124は、顔認識処理で得られた特徴点の動きに基づいて、口の開閉動作の大きさや頻度を示す計測値を取得してもよい。更に、画像データ処理部124は、画像データに含まれる人物P1の手の動きを追跡することにより、人物P1の手の動きによって示されるジェスチャーの大きさや、その動きの速さなどを示す計測値を取得してもよい。また、画像データ処理部124は、顔認識処理で得られた顔の大きさや位置の変化に基づいて、クマ型ロボットR1から見た人物P1の相対位置および相対位置の変化を示す計測値を取得してもよい。
また、音声データ処理部125は、マイク112で得られた音声データに対して音声解析処理を適用することにより、例えば、人物P1の声の抑揚や声の大きさ、発話の頻度などを、非視覚的な非言語反応の強さを示す計測値として生成する。また、音声データ処理部125は、音声解析処理で得られた人物P1の声色に基づいて感情を推定する技術などを利用することによって得られるパラ言語情報を、音声として捉えられる非言語反応の強さを示す計測値の一つとして取得してもよい。
接触データ処理部126は、接触センサ113で得られた接触データに基づいて、人物P1がクマ型ロボットR1に触れることで示した非言語反応の強さを示す計測値を生成する。接触データ処理部126は、例えば、人物P1がクマ型ロボットR1の部位ごとに、当該部位に触れた回数や頻度およびそれぞれの接触の強さなどを示す計測値を生成してもよい。
図5に例示した非言語情報蓄積部122は、このようにしてセンサデータ処理部121に含まれる各部によって生成された非言語情報を、例えば、非言語情報の種類ごとに、各計測値の生成に用いた観測データがサンプリングされた時刻に対応して蓄積する。なお、センサデータ処理部121は、画像データ処理部124、音声データ処理部125および接触データ処理部126によって得られる各計測値を非言語情報蓄積部122に蓄積する前に、移動平均などを適用することによって計測値を平滑化してもよい。
図6は、非言語情報の例を示している。図6において、符号Tk−1、Tk,Tk+1は、それぞれサンプリング時刻を示す。また、各計測値を、計測値の種類を示す符号とサンプリング時刻を示す添え字との組み合わせで示す。
図6(A)は、顔認識によって得られた非言語情報の一例である。図6(A)に例示した非言語情報は、人物P1の顔に含まれる各特徴点の位置を示す特徴点情報F(k)および笑顔度rs(k)を含んでいる。
また、図6(B)は、手の動きを追跡する処理で得られた非言語情報の一例である。図6(B)に例示した非言語情報は、人物P1の手の位置を示す重心位置G(k)、手の動きの大きさを示す振幅A(k)および手の動きの速さを反映する周期ν(k)を含んでいる。
図5に示した生成制御部14は、顔認識処理によって得られた人物P1の顔の位置および向きを示す情報を、画像データ処理部124から受け取ることができる。そして、生成制御部14は、画像データ処理部124から受け取った情報に基づいて、アイコンタクトが成立したタイミングを検出してもよい。また、生成制御部14は、検出したアイコンタクトのタイミングに基づいて、生成部12に非言語情報を生成させるアイコンタクト区間を設定し、この期間の開始時刻および終了時刻を生成部12に通知してもよい。
図5に例示した読出処理部123は、生成制御部14から通知されたアイコンタクト区間の開始時刻および終了時刻に基づいて、このアイコンタクト区間に含まれるサンプリング時刻に対応して非言語情報蓄積部122に蓄積された非言語情報を読み出す。
このようにして読み出された非言語情報に含まれる各計測値について、第1評価部13が、それぞれ時間変動の特徴を調べる処理を行うことにより、様々な非言語反応の強さの時間変化に基づいて、人物P1の情動度を評価することができる。
また、クマ型ロボットR1のようなコミュニケーションロボットに搭載されているアクション機能を、非言語情報解析装置10が、人物P1が表出する非言語反応にかかる非言語情報を収集するために利用することも可能である。
図7は、非言語情報解析装置10の別実施形態を示している。なお、図7に示した構成要素のうち、図4に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図7に例示したクマ型ロボットR1は、刺激媒体2の一例であり、センサ部11に加えて、人物P1に様々な刺激を作用させるためのアクション部15を含んでいる。このアクション部15は、例えば、クマ型ロボットR1の首を左右に傾けたり、横に振ったりする動作や、クマ型ロボットR1の手足を動かす動作を実行するためのモータと、発話のためのスピーカなどを含んでもよい。なお、図5においては、モータおよびスピーカの図示は省略した。
図7に例示した生成制御部14は、アクション部15が何らかのアクションを実行した後の所定の長さの期間において、生成部12に、人物P1が表出した少なくとも一つの非言語反応の強さを示す計測値を生成させる。生成制御部14は、例えば、アクションを実行した旨の通知をアクション部15から受けたときから、アクション部15が実行したアクションの種類に対応する適切な遅延時間の経過後に、生成部12に非言語情報を生成させる制御をしてもよい。なお、各アクションの実行タイミングからの遅延時間は、例えば、生成制御部14内部に、各アクション種別に対応して予め記憶させておくことができる。
図8は、アクション種別ごとの遅延時間の例を示している。図8に例示した各遅延時間は、アクション部15が対応するアクションの実行を開始した時刻からの遅延時間を示している。
図8に例示したアクション種別「退屈そうな動作」や「あくび」、「くしゃみ」および「驚かせる動作」には、3000ミリ秒〜3500ミリ秒の長めの遅延時間が設定されている。これは、これらのアクション種別に含まれるアクションの実行には、クマ型ロボットR1の首の動きや姿勢の変更を伴うため、首の向きや姿勢などが標準的な状態に戻るまでの時間を考慮した遅延時間を設定しているためである。一方、図8に例示したアクション種別「挨拶」や「注意を引く動作」のように、人物P1の反応がアクションの開始直後に現れる可能性の高いアクションについては、0秒のような短い遅延時間を設定してもよい。また、両者の中間的な遅延時間を設定することもできる。例えば、図8に例示したアクション種別「怒った動作」や「嬉しそうな動作」のように、人物P1の反応が現れるタイミングの予想が難しいものについては、1000ミリ秒から1500ミリ秒の中間的な遅延時間を設定してもよい。なお、図8に例示したアクション種別は、アクション部15を有するクマ型ロボットR1を刺激媒体2として用いる場合に、人物P1に対して刺激として提示するアクションの一例であり、例示した種別以外のアクションを刺激として提示することもできる。また、これらのアクション種別に対応する遅延時間も、図8の例示に限定されることはない。
このような遅延時間に基づいて、生成制御部14が生成部12による非言語情報の生成を制御することにより、クマ型ロボットR1が行ったアクションを契機として人物P1が表出した非言語反応に対応する非言語情報を第1評価部13に入力することができる。
つまり、図7に例示した非言語情報解析装置10によれば、クマ型ロボットR1によるアクションが刺激として人物P1に作用したことを契機として人物P1が表出した非言語反応に基づいて、人物P1が表出した感情表現についての情動度を評価することができる。
クマ型ロボットR1は、愛らしい外見を持っているので、このクマ型ロボットR1が実行する愛嬌のあるアクションは、人物P1によって快い刺激として受け止められる可能性が高い。したがって、このような刺激によって喚起された人物P1の感情表現についての情動度を評価することにより、人物P1に心理的な負担をかけることなく、人物P1によって表出されていない感情の推測に利用可能な情報を得ることができる。
また、次に述べるように、アクションを契機として人物P1が表出した非言語反応に対応する非言語情報を生成させる制御に、上述したアイコンタクトの成立タイミングの検出を利用することもできる。
図9は、非言語情報解析装置10の別実施形態を示している。なお、図9に示した構成要素のうち、図5に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図9に例示したアクション部15は、スピーカ151と、n個のモータ152−1〜152−nと、アクション制御部153とを含んでいる。スピーカ151は、アクション制御部153から受け取った音声データに基づいて、音声を出力する。また、n個のモータ152−1〜152−nは、アクション制御部153からの指示に応じて、それぞれの配置に応じてクマ型ロボットR1の各部位を動作させる。アクション制御部153は、実行するアクションに応じて、スピーカ151および各モータ152−1〜152−nの動作を制御する。また、アクション制御部153は、アクションを実行する際に、当該アクションを特定する情報を非言語情報解析装置10の生成制御部14に通知する。
図9に例示した生成制御部14は、アクション制御部153からアクションを実行した旨が通知されたタイミングから、この通知で示されたアクション種別に対応する遅延時間が経過したときに、センサデータ処理部123に処理の開始を指示する。そして、このセンサデータ処理部121で得られる画像データ処理結果に基づいて、生成制御部14は、アイコンタクトが成立したタイミングを検出する。更に、生成制御部14は、検出したアイコンタクトのタイミングに基づいて、アイコンタクト区間を設定し、読出処理部123に対して、このアイコンタクト区間に対応して非言語情報蓄積部122に蓄積された非言語情報の読み出しを指示すればよい。
図9に例示した生成部12および生成制御部14によれば、クマ型ロボットR1のアクションによって喚起された人物P1による非言語反応に対応する非言語情報を生成する期間を、アイコンタクトのタイミングに基づいて設定することができる。
上述したように、アイコンタクトが成立した状態では、ゆがみの少ない画像に基づいて、人物P1が表出した視覚的な非言語反応の強さを示す計測値を高い精度で取得することができる。また、クマ型ロボットR1のアクションによって人物P1の非言語反応の表出が喚起された場合においても、クマ型ロボットR1と人物P1との間の相互作用が成立したタイミングとしては、アイコンタクトが成立したタイミングがより適切である。
したがって、図9に例示した生成部12および生成制御部14を有する非言語情報解析装置10によれば、クマ型ロボットR1のアクションによって喚起された人物P1の非言語反応の強さを高い精度で示す非言語情報を第1評価部13に入力することができる。したがって、図9に例示した非言語情報解析装置10によれば、クマ型ロボットR1が実行可能な多彩なアクションによって喚起された人物P1の非言語反応に基づいて、人物P1の情動度を高い精度で評価することができる。
次に、上述した第1評価部13により、人物P1が自然な笑顔を表出する状態である度合いを示す情動度を算出する手法について説明する。
図10は、非言語情報解析装置10の別実施形態を示している。なお、図10に示した構成要素のうち、図1に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図10に例示した第1評価部13は、速度算出部131と、積算部132とを含んでいる。速度算出部131は、生成部12によって生成された非言語情報に含まれる、人物P1の表情が笑顔である度合いを示す笑顔度が時間経過に応じて変化する速度を算出する。積算部132は、笑顔度が増大していく過程に対応して、速度算出部131で算出された速度の二乗和を求めることにより、人物P1の笑顔の自然さを示す情動度を求める。
図11は、情動度を算出する処理を説明する図である。図11において、横軸は時間tを示し、縦軸は、非言語反応の強さを示す計測値の一つである笑顔度sを示す。また、図11において、符号s(t)で示したグラフは、笑顔度sの時間変化を示す。
また、図11において、符号Tk−1は、k−1番目のサンプリング時刻を示し、符号Tkは、k番目のサンプリング時刻を示す。そして、サンプリング時刻Tkにおける笑顔度S(k)とサンプリング時刻Tk−1における笑顔度S(k−1)との差は、サンプリング時刻Tkにおける笑顔度s(t)の変化速度を示している。
つまり、図10に例示した速度算出部131は、各サンプリング時刻Tkに対応する笑顔度S(k)とその前のサンプリング時刻Tk−1に対応する笑顔度S(k−1)との差分を算出することにより、笑顔度の変化速度を算出することができる。
また、図11において、符号τ1および符号τ2で示した期間は、笑顔度s(t)が時間経過に応じて増大している期間を示す。この期間τ1および期間τ2は、図10に例示した速度算出部131で算出された変化速度が正の値である期間に相当する。
したがって、図10に例示した積算部132は、速度算出部131で算出された変化速度が正の値である期間について、この変化速度の二乗和を算出することにより、人物P1が表出した笑顔の自然さを反映する情動度を算出することができる。
図10に例示した速度算出部131および積算部132によって人物P1が表出した笑顔の自然さを反映する情動度CLを求める処理は、式(1)を計算することによって実現してもよい。
なお、笑顔の自然さを反映する情動度CLを求める処理において、各サンプリング時刻Tkに対応する笑顔度S(k)は、例えば、サンプリング間隔の2倍の期間についての移動平均を適用することによって平滑化した値を用いることが望ましい。
このように、図10に例示した第1評価部13によれば、笑顔度の時間変化の不規則性を情動度の大きさに反映することにより、人物P1が表出した笑顔が自然な表情である可能性の高さを示す情動度を求めることができる。このようにして得られた情動度は、人物P1が笑顔を表出する際に費やした運動エネルギーを反映しているので、人物P1が自然な情動に従って笑顔を表出している場合により高い値となる。なお、本出願人は、複数の人物を撮影した映像に基づいて、発明者の主観による判断と、図10に例示した第1評価部13によって得られた情動度に基づく判断とが一致するか否かを調べる実験を行っている。この実験の結果によれば、発明者の主観による判断で、自然な表情が表出されているとされた人物の映像については、図10に例示した第1評価部13によって、高い値を持つ情動度が高い確率で得られた。また、発明者の主観による判断で、表情が乏しいとされた人物の映像については、図10に例示した第1評価部13によって、低い値を持つ情動度が高い確率で得られた。
ここで、笑顔度は、非言語反応のひとつである「微笑する」表情の強さを示す計測値であり、そして、「笑顔」が人物P1の情動を反映している度合いが高ければ、人物P1は快い状態である可能性が高い。したがって、上述したようにして、笑顔度の時間変化に基づいて求めた情動度CLには、人物P1が快い状態である度合いを示す快情動が反映されている。この快情動は、人物P1によって表出されていない感情の一面を示す情報であるので、例えば、人物P1を見守るサービスなどの分野においては、非常に有用な情報である。
つまり、図10に例示した第1評価部13を有する非言語情報解析装置10は、人物P1の快情動を反映する情報度CLを高い精度で評価することができるので、人物P1によって表出されていない感情を推測のための情報を収集する上で非常に有用である。
また、次に述べるように、非言語情報を別の観点から評価することにより、人物P1によって表出されていない感情を推測する手がかりとなる別の情報を引き出すことも可能である。
図12は、非言語情報解析装置10の別実施形態を示している。なお、図12に示した構成要素のうち、図3に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図12に例示した非言語情報解析装置10は、図3に例示した第1評価部13に代えて、第2評価部16を含んでいる。この第2評価部16は、生成部12で生成された非言語情報に含まれる各計測値の変動の大きさと、この変動と刺激媒体2と人物P1との相互作用との関連の強さに基づいて、人物P1の刺激媒体2に対する関心の高さを示す同調度を評価する。第2評価部16は、例えば、各計測値について単位時間当たりの変化量の最大値をそれぞれ検出することにより、当該計測値で示される非言語反応が最も大きく変動したタイミングを特定する。さらに、第2評価部16は、検出した単位時間当たりの変化量の最大値と、当該計測値の平均値とを比較することにより、変化量の最大値の大きさを評価してもよい。そして、第2評価部16は、各非言語反応について特定したタイミングと、人物P1に刺激媒体2が作用したタイミングとの近さと、当該非言語反応について検出した最大の変化量に基づいて、個々の非言語反応と刺激媒体2との同調度を求めてもよい。また、第2評価部16は、各非言語反応について求めた同調度の中の最大値を、人物P1が刺激媒体2に対して示した関心の高さを示す同調度としてもよい。
図13は、同調度の評価を説明する図である。図13において、横軸は時間tを示し、縦軸は、それぞれ異なる非言語反応の強さを示す計測値ra,rbを示す。また、図13において、符号ra(t)で示したグラフは、計測値raの時間変化を示し、符号rb(t)で示したグラフは、計測値rbの時間変化を示す。
また、図13において、符号Tcは、刺激媒体2が人物P1に作用したタイミングを示す。なお、刺激媒体2が映像コンテンツである場合は、映像コンテンツの再生開始時刻を、人物P1に刺激媒体2が作用した作用タイミングTcとして用いることができる。
また、図12に例示した第2評価部16は、作用タイミングTcとの関連性の強さを、例えば、計測値ra(t),rb(t)の最大変化量を検出したタイミングが、作用タイミングTcを含む所定の長さの期間τsに含まれるか否かかに基づいて判定してもよい。
図13に例示した期間τsは、作用タイミングTcと人物P1が刺激媒体2による刺激を受けたタイミングとのズレを考慮して、作用タイミングTcを含むように設定した例である。上述したように、映像コンテンツを刺激媒体2として人物P1に作用させる場合には、再生開始時刻に対応する作用タイミングTcと人物P1が映像コンテンツによる刺激を受けるタイミングとが一致する。したがって、刺激媒体2が映像コンテンツである場合は、上述した期間τsの開始時刻を作用タイミングTcに一致させてもよい。
図13に例示した計測値rb(t)から単位時間当たりの変化量の最大値が検出されるタイミングは、上述した期間τに含まれており、また、検出された変化量の最大値も計測値rb(t)の変化量の平均値に比べて大きい。したがって、第1評価部16がこの計測値rb(t)で強さが示される非言語反応について、刺激媒体2の作用に対して求めた同調度は高い値を示す。
これに対して、図13に例示した計測値ra(t)は、なだらかな起伏を繰り返しており、上述した期間τの範囲内に目立ったピークはない。このような計測値ra(t)について、図12に例示した第2評価部16が、上述した期間τに含まれるタイミングにおいて最大の変化量を検出したとしても、その変化量は、計測値ra(t)の変化量の平均値と同程度である。したがって、第1評価部16がこの計測値ra(t)で強さが示される非言語反応について、刺激媒体2の作用に対して求めた同調度は低い値を示す。
このようにして、第2評価部16は、個々の非言語反応の強さを示す計測値の変動の大きさと刺激媒体2の作用タイミングとの関係に基づいて、各非言語反応についての同調度を求めることができる。
そして、第2評価部16は、このようにして得られた複数の非言語反応についての同調度の最大値を、人物P1の刺激媒体2に対する同調度とする。これにより、少なくとも一つの非言語反応について得られた高い値を持つ同調度を、人物P1の刺激媒体2に対する同調度に反映することができる。
このように、図12に例示した非言語情報解析装置10によれば、刺激媒体2の作用に応じて人物P1が表出した非言語反応に基づいて、人物P1の刺激媒体2に対する同調度を評価することができる。
このようにして評価される同調度は、人物P1の社会的な反応の活発さを示している点で、上述した情動度とは別の観点から人物P1によって表出されていない感情を推測する手がかりとして有用な情報である。したがって、図12に例示した第2評価部16を有する非言語情報解析装置10は、人物P1の社会的な反応の活発さを示す同調度を評価することができるので、人物P1によって表出されていない感情を推測するための情報を収集する上で非常に有用である。
また、人物P1とコミュニケーションを行う機能を有するコミュニケーションロボットを、刺激媒体2として利用することにより、明確な対象に対する社会的な反応の活発さを評価することもできる。
図14は、非言語情報解析装置10の別実施形態を示している。なお、図14に示した構成要素のうち、図12に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図14に例示した非言語情報解析装置10は、図4に例示した非言語情報解析装置10と同様に、カメラ111を含むセンサ部11を搭載したクマ型ロボットR1を、刺激媒体2として人物P1に作用させる。
図14に例示したカメラ111の光軸方向は、クマ型ロボットR1の視線Qの方向とほぼ一致しているので、人物P1の視線とクマ型ロボットR1の視線Qとが一致したときに、カメラ111によって人物P1を正面から捉えた画像データを得ることができる。
図14に例示した生成制御部14の第1検出部141は、図4を用いて説明したようにして、カメラ111で得られる画像データに基づいて、クマ型ロボットR1と人物P1とのアイコンタクトが成立したタイミングを検出する。そして、期間設定部142は、図4を用いて説明したようにして、アイコンタクトのタイミングを含むアイコンタクト区間において、生成部12に、センサ部11で得られる観測データから非言語情報を生成させる。
クマ型ロボットR1は愛らしい外見を持っているので、人物P1とクマ型ロボットR1とがアイコンタクト状態となったときに、人物P1が同調的な非言語反応を表出する可能性は高い。そして、上述した期間設定部142で設定されるアイコンタクト区間において、人物P1が表出する同調的な非言語反応は、クマ型ロボットR1との接触を契機として表出された非言語反応である可能性が高い。
したがって、図14に例示した生成制御部14による制御に従って生成部12が生成した非言語情報について、第2評価部16が、上述したようにして同調度を求めることにより、人物P1のクマ型ロボットR1に対する同調度を高い精度で取得することができる。
このように、図14に例示した非言語情報解析装置10によれば、社会的な反応を反映した同調度を高い精度で求めることができる。
なお、図14に例示したセンサ部11は、図5に例示したセンサ部11と同様に、カメラ111に加えてマイクや接触センサなどの他のセンサデバイスを含んでいる。したがって、図14に例示した第2評価部16は、これらのセンサデバイスによって得られる多様な観測データに基づいて、生成部12によって生成される非言語情報を、同調度の評価に用いることができる。
また、クマ型ロボットR1のようなコミュニケーションロボットに搭載されているアクション機能を、非言語情報解析装置10が、人物P1が表出する非言語反応にかかる非言語情報の収集するために利用することも可能である。
図15は、非言語情報解析装置10の別実施形態を示している。なお、図15に示した構成要素のうち、図14に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図15に例示したクマ型ロボットR1は、センサ部11に加えて、アクション部15を含んでいる。また、図15に例示した生成部12は、図9に例示した生成部12と同様に、センサデータ処理部121と、非言語情報蓄積部122と、読出処理部123とを含んでいる。
上述したアクション部15は、アクションを実行する際に、その旨を生成制御部14に通知する。この通知とセンサデータ処理部121で得られる情報とに基づいて、生成制御部14は、図9を用いて説明したようにして、読出処理部123に対して、非言語情報蓄積部122から読み出す非言語情報の範囲を指定する。
このようにして、生成制御部14は、クマ型ロボットR1によって任意のアクションが実行された後に、クマ型ロボットR1と人物P1とのアイコンタクトが成立する前後に人物P1が表出した非言語反応を示す非言語情報を生成部12に生成させることができる。
このようにして生成された非言語情報は、クマ型ロボットR1のアクションを契機として人物P1が表出した同調的な非言語反応に関する情報を多く含んでいる。そして、クマ型ロボットR1は、図8に例示したように、様々な種別のアクションを実行可能であり、また、種別の異なるアクションに応じて、人物P1は異なる種類の非言語反応を返す可能性がある。
したがって、図15に例示した第2評価部16は、アクションによって喚起された人物P1の非言語反応に対応して、上述したようにして生成された非言語情報の入力を受けることができる。そして、これらの非言語情報の入力に応じて、図13を用いて説明したような処理を行うことにより、第2評価部16は、例えば、実行されたアクションごとに、人物P1が表出した非言語反応で示される同調度を評価することができる。このようにして得られたアクションの種別ごとの同調度は、様々な場面における人物P1の社会的な反応の活発さを反映している。
つまり、図15に例示した非言語情報解析装置10によれば、多様な角度から、人物P1の社会的な反応度を示す同調度を求めることができる。
また、クマ型ロボットR1のアクションによって人物P1の非言語反応を引き出すことができれば、第2評価部16によって人物P1の同調度を評価する機会を増加させることができる。したがって、個々のアクションの実行に応じて得られた同調度の評価結果の精度が必ずしも高くなくても、多数回の評価を行うことにより、精度の向上を図ることができる。
次に、上述した第2評価部16により、人物P1がクマ型ロボットR1に対して同調的な反応を示している度合いを示す同調度を算出する手法について説明する。
図16は、非言語情報解析装置10の別実施形態を示している。なお、図16に示した構成要素のうち、図15に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図16に例示した第2評価部16は、第2検出部161と、集計部162と、補正部163と、推定部164と、割合算出部165と、乗算部166とを含んでいる。
図16に例示した第2検出部161は、生成部12によって生成された非言語情報に含まれる同調的な非言語反応の強さを示す計測値の単位時間当たりの最大変化幅をそれぞれ検出することにより、同調的な非言語反応それぞれの同調度を求める。
第2検出部161は、例えば、まず、生成部12で得られた非言語情報から、例えば、笑顔度、口の開閉動作の頻度、頷き動作の頻度、ジェスチャの頻度およびクマ型ロボットR1への接触頻度を示す計測値を更に生成する。そして、これらの計測値に基づいて、第2検出部161は、図13を用いて説明したようにして、同調的な種類の非言語反応それぞれの強さを示す計測値の最大の変化幅を、個々の非言語反応の同調度としてそれぞれ検出する。
例えば、n種類の同調的な非言語反応に含まれるj番目の非言語反応についての同調度SLjは、この非言語反応の強さをサンプリングして得られたk番目の計測値の移動平均bj(k)を用いて、式(2)のように表すことができる。なお、式(2)において、定数Nは、アイコンタクト区間τの開始から終了までのサンプル数である。また、式(2)に含まれる正規化パラメータpjは、n種類の同調的な非言語反応の強さを同一の尺度で比較するためのパラメータである。この正規化パラメータpjには、例えば、同調的な非言語反応についての計測値bjについて想定される最大値などに基づいて予め決定した値を設定することができる。
図16に例示した集計部162は、生成部12によって生成された非言語情報に基いて、個々の非言語反応の強さを示す計測値の最大値を非言語反応の種類ごとに集計することにより、これらの非言語反応の表出に人物P1が費やした活動量を示す活性度を求める。
図17は、活性度の算出処理を説明する図である。図17において、横軸は時間tを示し、縦軸は、各非言語反応の強さを示す計測値rを示す。また、図17において、符号τで示した期間は、図16に示した生成部12によって非言語情報が生成されるアイコンタクト区間を示す。また、図17において、符号r1(t),r2(t),r3(t)で示したグラフは、それぞれ計測値r1,r2,r3の時間変化の例を示す。
図16に例示した集計部162は、まず、アイコンタクト区間τの範囲において、各計測値r1(t),r2(t),r3(t)の最大値a1,a2,a3をそれぞれ検出する。次に、集計部162は、最大値a1,a2,a3に、それぞれの非言語反応についてあらかじめ設定した重みを乗じることにより、個々の非言語反応の活性度を求める。このとき、集計部162は、個々の非言語反応の活性度を、当該非言語反応について予め設定した最大値以下の値となるように抑制してもよい。このようにして得られた個々の非言語反応の活性度を集計することにより、集計部162は、人物P1が活動的である度合いを示す活性度を算出する。集計部162は、個々の非言語反応の活性度を集計することで得られた活性度の値を、予め設定した最大値以下となるように抑制してもよい。
例えば、m種類の非言語反応に含まれるi番目の非言語反応についての活性度ALiは、この非言語反応の強さをサンプリングして得られた計測値の最大値aiと、この非言語反応について設定した重みwiを用いて、式(3)のように表すことができる。なお、式(3)において、定数MaxALiは、i番目の非言語反応についての活性度ALiについて設定された最大値である。各非言語反応に対応する各定数MaxALiは、複数の非言語反応に対応する活性度を人物P1の活性度に反映するために、例えば、値0.4程度に設定することが望ましい。
ALi=max(wi・ai,MaxALi) ・・・(3)
また、上述したようにして算出した活性度ALiと活性度について予め設定された最大値MaxALを用いて、活性度ALは、式(4)のように表すことができる。なお、最大値MAxALは、例えば、値1に設定してもよい。
図16に例示した補正部163は、人物P1と刺激媒体2の一例であるクマ型ロボットR1との距離に基づいて、上述したようにして求めた活性度ALを補正することにより、人物P1がクマ型ロボットR1に向けた活動量を示す同調的な活性度ALsを求める。
補正部163は、例えば、集計部162によって得られた活性度ALに、人物P1とクマ型ロボットR1との距離dに応じた係数εを乗じた値を、クマ型ロボットR1に向けられている活動量を示す同調的な活性度ALsとしてもよい。
ここで、人物P1とクマ型ロボットR1との距離dが、両者が近接していると判断できる距離Dn以下である場合に、活性度ALで示される活動量が、クマ型ロボットR1に向けられている可能性は高い。逆に、距離dが両者が離れていると判断される距離Dd以上である場合に、活性度ALで示される活動量が、クマ型ロボットR1に向けられている可能性は低い。そこで、距離dが上述した距離Dn以下である場合に、活性度ALで示される活動量がクマ型ロボットR1に向けられている可能性を示す係数enとする。また、距離dが上述した距離Dd以上である場合に、活性度ALで示される活動量がクマ型ロボットR1に向けられている可能性を示す係数edとする。これらの係数en,edを用いると、上述した係数εおよびクマ型ロボットR1に向けられている活動量を示す同調的な活性度ALsは、それぞれ式(5)、式(6)のように表すことができる。なお、上述した距離Dnおよび距離Ddは、クマ型ロボットR1が人物P1に作用する環境などを考慮して決定することができる。例えば、クマ型ロボットR1が室内に配置されている場合には、1メートル程度の値を距離Dnに設定し、2メートル程度の距離を距離Ddに設定することが望ましい。
このように、補正部163は、集計部162で得られた活性度ALと式(6)を用いることにより、クマ型ロボットR1に向けられている活動量を示す同調的な活性度ALsを算出してもよい。
図16に例示した推定部164は、上述した同調的な活性度ALsと第2検出部で得られた同調的な非言語反応ごとの同調度SLjとに基づいて、人物P1が刺激媒体2に向けて表出した可能性の高い非言語反応の強さを推定する。なお、図16に例示したクマ型ロボットR1は、刺激媒体2の一例である。
推定部164は、例えば、同調的な非言語反応ごとの同調度SLjおよび上述した同調的な活性度ALsの中の最大値を、人物P1が表出した非言語反応のうちクマ型ロボットR1に向けられた非言語反応の強さの推定値SLpとしてもよい。なお、推定部164は、クマ型ロボットR1に向けられた非言語反応の強さの推定値SLpを、この推定値について予め設定した最大値MaxSL以下の値となるように抑制してもよい。
このような抑制を適用する場合に、推定部164によって求められるクマ型ロボットR1に向けられた非言語反応の強さの推定値SLpは、式(7)のように表される。
SLp=min(max(max(SL1,・・・,SLn),ALs)),MaxSL) ・・・(7)
図16に例示した割合算出部165は、例えば、アイコンタクト区間τのうち、人物P1がクマ型ロボットR1を見ている期間の割合を求めることにより、人物P1がクマ型ロボットR1に視線を向けていた確率Cpを求める。割合算出部165は、例えば、アイコンタクト区間τに含まれる画像データの枚数Mtに対して、人物P1の顔が正面向きで捉えられている画像データの枚数Mpが占める割合を、人物P1がクマ型ロボットR1に視線を向けていた確率Cpとしてもよい。
そして、図16に例示した乗算部166は、割合算出部165で算出された確率Cpを、推定部164で求められた推定値SLpに乗算することにより、人物P1がクマ型ロボットR1に対して示している同調度SLを求める。
したがって、この同調度SLは、例えば、上述した式(7)と確率Cpとを用いて、式(8)のように表される。
SL=min(max(max(SL1,・・・,SLn),ALs)),MaxSL)・Cp ・・・(8)
このように、図16に例示した第2評価部16によれば、同調的な非言語反応に限らず、人物P1が表出したあらゆる非言語反応がクマ型ロボットR1に対して向けられた可能性を考慮することにより、人物P1の同調度をより精密に評価することができる。
なお、本出願人は、複数の人物を撮影した映像に基づいて、発明者の主観による活性度および同調度の評価と、図16に例示した第2評価部16によって得られる活性度および同調度とが一致するか否かを調べる実験を行っている。この実験の結果によれば、発明者の主観による活性度および同調度の評価と、図16に例示した第2評価部16によって得られた活性度および同調度の評価結果との間には、高い相関関係が見られた。
また、上述したようにして人物P1が表出した非言語反応に基づいて算出した各種の指標値を、時系列に従って出力することにより、人物P1の様子を遠隔地に居住する家族が見守るサービスを支援することも可能である。
図18は、非言語情報解析装置の別実施形態を示している。なお、図18に示した構成要素のうち、図3又は図12に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図18に例示した非言語情報解析装置10は、センサ部11、生成部12、第1評価部13、生成制御部14および第2評価部16に加えて、評価情報蓄積部17と、出力部18とを含んでいる。評価情報蓄積部17は、第1評価部13によって得られた情動度を示す情報および第2評価部16によって得られた活性度および同調度を示す情報を、時系列に従って蓄積する。出力部18は、評価情報蓄積部17に蓄積された情報に基づいて、人物P1について得られた情動度と活性度および同調度とを対比させて出力する。この出力部18は、例えば、遠隔地に居住する家族のパーソナルコンピュータなどの情報機器に、人物P1について得られた情動度と活性度および同調度を時系列に従って提示する見守り画面を表示させてもよい。
図19は、見守り画面の一例を示している。図19において、符号Picは、人物P1を撮影して得られた画像の例である。また、符号Barは、図18に例示した第1評価部13および第2評価部16によって最近に得られた情動度、活性度および同調度の大きさを、それぞれ対応する棒グラフの長さで示している。
また、図19に例示した見守り画面は、日付に対応する帯状の領域に設けた時刻ごとの区画を含んでいる。そして、図18に例示した出力部18は、例えば、対応する時間帯において第1評価部13および第2評価部16で得られた情動度、活性度および同調度を集計することにより、図19において符号h1、h2、h3、h4、h5、h6、h7で示した棒グラフを表示させてもよい。
なお、図19に例示した棒グラフh1〜h7に含まれる各バーは、左から順に、インタラクション頻度、活性度および快適度を示している。出力部18は、例えば、各時間帯において第2評価部16で得られた同調度が所定の閾値以上の状態で刺激媒体2との間の相互作用があった回数を集計することにより、インタラクション頻度を求めてもよい。また、出力部18は、各時間帯に対応して蓄積された活性度および快情動を示す情動度について、あらかじめ設定した統計処理を行うことにより、個々の時間帯の活性度および快適度を求めてもよい。出力部18は、各時間帯に対応して蓄積された活性度のサンプルに対して、上述した統計処理として、最大値を取得する処理や平均値を取得する処理および上位x個の平均を取得する処理を実行することによって、当該時間帯の活性度を算出してもよい。同様に、出力部18は、各時間帯に対応して蓄積された快情動を示す情動度のサンプルに対して、上述した統計処理のいずれかを実行することによって、当該時間帯の快適度を算出してもよい。
なお、出力部18は、複数の日付に対応する帯状の領域を含む見守り画面を生成することもできる。また、出力部18は、図19に例示した棒グラフh1〜h7の代わりに、インタラクション頻度をバーの長さで示し、活性度および快適度を色調で表現するようにした見守り画面を生成してもよい。出力部18は、例えば、各時間帯に対応して蓄積された活性度の最大値を、インタラクション頻度を示すバーの表示色の明度あるいは彩度の高さで示す見守り画面を生成してもよい。また、出力部18は、例えば、各時間帯に対応して蓄積された快適度の最大値を、インタラクション頻度を示すバーの表示色の色相が基本の色相から隔たっている度合いで示す見守り画面を生成してもよい。
上述したように、第1評価部13で得られる情動度および第2評価部16で得られる同調度は、いずれも、人物P1によって表出されていない感情を推測する手がかりとなる情報である。また、同調度を算出する過程において、第2評価部16で求められる活性度もまた、人物P1によって表出されていない感情を推測する手がかりとなる情報である。
したがって、図19に例示したような見守り画面において、上述した複数の指標を対比して提示することにより、明確には表出されにくい見守り対象の人物P1の気分などを推測する手がかりを得ることができる。
例えば、本件開示の非言語情報解析装置10によって得られた活性度および快適度をラッセルの感情円環モデルなどの感情モデルに当てはめることにより、見守り対象の人物P1によって表出されていない感情を推測することも可能である。
また、クマ型ロボットR1を刺激媒体2として用いることにより、クマ型ロボットR1に搭載されているアクション機能を、非言語情報解析装置10が、人物P1が表出する非言語反応にかかる非言語情報の収集に利用することも可能である。
図20は、非言語情報解析装置10の別実施形態を示している。なお、図20に示した構成要素のうち、図18に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
クマ型ロボットR1を刺激媒体2として利用することによる利点は、以上に述べた非言語情報解析装置10の実施形態の説明において述べたとおりである。なお、本件開示の非言語情報解析装置10を、見守りサービスの支援に適用した場合には、クマ型ロボットR1のように、日常生活に溶け込む外見を持つ刺激媒体2を利用することにより、見守り対象の人物P1の負担を軽減することができる。また、クマ型ロボットR1の持つ愛らしい外見や愛嬌のあるしぐさにより、見守り対象の人物P1の同調性や自然な情動が引き出される可能性も高いので、クマ型ロボットR1を非言語情報解析装置10と組み合わせて利用することは有用である。
本件開示の非言語情報解析装置10は、例えば、パーソナルコンピュータなどのコンピュータ装置を用いて実現することができる。
図21は、非言語情報解析装置のハードウェア構成例を示している。
図21に例示したコンピュータ装置20は、プロセッサ21と、メモリ22と、ハードディスク装置23と、表示装置24と、入力装置25と、光学ドライブ装置26と、ロボットインタフェース28とを含んでいる。図21に例示したプロセッサ21と、メモリ22と、ハードディスク装置23と、表示装置24と、入力装置25と、光学ドライブ装置26と、ロボットインタフェース28とは、バスを介して互いに接続されている。図21に例示した光学ドライブ装置26は、光ディスクなどのリムーバブルディスク27を装着可能であり、装着したリムーバブルディスク27に記録された情報の読出および記録を行う。また、図21に例示した非言語情報解析装置10は、プロセッサ21と、メモリ22と、ハードディスク装置23と、表示装置24と、ロボットインタフェース28とを含んでいる。
図21に例示したコンピュータ装置20は、ロボットインタフェース28を介して、クマ型ロボットR1に接続されている。そして、プロセッサ21は、ロボットインタフェース28を介して、このクマ型ロボットR1に搭載されたセンサ部11およびアクション部15からの情報を受け取ることができる。
図21に例示した入力装置25は、例えば、キーボードやマウスなどである。非言語情報解析装置10の操作者は、入力装置25を操作することにより、非言語情報解析装置10に含まれる各部に対して、例えば、人物P1の見守りを開始させる旨の指示などを入力することができる。
メモリ22は、コンピュータ装置20のオペレーティングシステムとともに、プロセッサ21が上述した非言語情報解析処理を実行するためのアプリケーションプログラムを格納している。なお、上述した非言語情報解析処理を実行するためのアプリケーションプログラムは、例えば、光ディスクなどのリムーバブルディスク27に記録して頒布することができる。そして、このリムーバブルディスク27を光学ドライブ装置26に装着して読み込み処理を行うことにより、非言語情報解析処理を実行するためのアプリケーションプログラムを、メモリ22およびハードディスク装置23に格納させてもよい。また、インターネットなどのネットワークに接続する通信装置(図示せず)を介して、非言語情報解析処理を実行するためのアプリケーションプログラムをメモリ22およびハードディスク装置23に読み込ませることもできる。
また、プロセッサ21は、メモリ22に格納されたアプリケーションプログラムを実行することにより、図1に例示した生成部12、第1評価部13の機能を果たしてもよい。また、プロセッサ21は、メモリ22に格納されたアプリケーションプログラムを実行することにより、図3に例示した生成制御部14の機能を果たしてもよい。更に、プロセッサ21は、メモリ22に格納されたアプリケーションプログラムを実行することにより、図12に例示した第2評価部16および図18に例示した出力部18の機能を果たしてもよい。
図22は、非言語情報解析処理のフローチャートの一例を示している。図22に示したステップS301〜ステップS311の各処理は、上述した非言語情報解析処理のためのアプリケーションプログラムに含まれる処理の一例である。また、これらのステップS301〜ステップS311の各処理は、図21に例示したプロセッサ21によって実行される。
プロセッサ21は、ロボットインタフェース28を介して、クマ型ロボットR1に含まれるアクション部15からアクションを実行する旨の通知を受信したときに(ステップS301)、ステップS302以降の非言語反応の生成および解析処理を開始する。
プロセッサ21は、上述した通知で示されたアクション種別に対応する遅延時間が経過するまで待機する(ステップS302)。例えば、プロセッサ21は、各アクション種別に対応して図8に例示した遅延時間の経過を待機すればよい。
その後、プロセッサ21は、ロボットインタフェース28を介して、クマ型ロボットR1に含まれるセンサ部11に含まれるカメラなどの各センサデバイスからのセンサデータの受信を開始する(ステップS303)。
ついで、プロセッサ21は、受信したセンサデータから非言語反応の強さを示す計測値を生成する処理を実行する(ステップS304)。プロセッサ21は、ステップS304において、例えば、画像データに対する顔認識処理や音声データの解析処理を実行し、人物P1の顔の位置や大きさ、向きを示す計測値を生成する。また、プロセッサ21は、生成した計測値を、例えば、当該計測値に対応するセンサデータの取得時刻などに対応してハードディスク装置23に蓄積する。
次に、プロセッサ21は、ステップS304で得られた人物P1の顔の画像内における位置および顔の向きを示す計測値に基づいて、クマ型ロボットR1と人物P1との間のアイコンタクトが成立したか否かを判定する(ステップS305)。
例えば、人物P1の顔が画像の一方の端に近いことや、顔の向きが横向きであることが顔認識処理で得られた計測値によって示された場合に、プロセッサ21は、ステップS305の否定判定ルートに従って、ステップS304の処理に戻る。
一方、人物P1の顔が画像の中央に位置し、かつ、顔の向きが正面であることが顔認識処理で得られた計測値によって示された場合に、プロセッサ21は、ステップS305の肯定判定ルートに従って、ステップS306の処理に進む。
ステップS306において、プロセッサ21は、上述したアイコンタクト区間の終了まで、センサデータを受信する処理およびセンサデータから計測値を生成する処理および生成した計測値を蓄積する処理を実行する。プロセッサ21は、例えば、ステップS305の処理でアイコンタクトが成立したと判定した時刻から、予め設定した時間(例えば4秒)が経過するまでに受信したセンサデータから、非言語反応の強さを示す計測値を生成する処理を実行する。そして、プロセッサ21は、この間に生成された計測値を、例えば、当該計測値に対応するセンサデータの取得時刻などに対応してハードディスク装置23に蓄積する。
アイコンタクト区間の終了後に、プロセッサ21は、ハードディスク装置23にアイコンタクト区間に含まれる時刻に対応して蓄積された計測値を含む非言語情報を抽出する(ステップS307)。
次いで、プロセッサ21は、ステップS307の処理で抽出された非言語情報に含まれる人物P1の感情表現を表す非言語反応の強さを示す計測値の時間変化の特徴に基づいて、人物P1の情動度を算出する(ステップS308)。なお、人物P1の情動度を算出する手法は、図2および図11を用いて説明したとおりである。
また、プロセッサ21は、ステップS307の処理で抽出された少なくとも一つの非言語反応の強さを示す計測値の変動の大きさと、当該変動が出現したタイミングに基づいて、人物P1の同調度および活性度を算出する(ステップS309)。なお、人物P1の同調度を算出する手法は、図13を用いて説明したとおりである。また、人物P1の活性度を算出する手法は、図17を用いて説明したとおりである。更に、プロセッサ21は、ステップS309の処理において、図16を用いて説明したように、人物P1の活性度の影響を同調度に加味して算出する手法を用いてもよい。
次いで、プロセッサ21は、ステップS308,S309の処理で算出した情動度、活性度および同調度について、所定の統計処理を実行する(ステップS310)。プロセッサ21は、例えば、情動度、活性度および同調度それぞれについて、日付および時間帯ごとに集計し、また、平均値を算出するなどの処理を、所定の統計処理として実行することができる。
その後、プロセッサ21は、ステップS310の処理で得られた統計処理結果およびステップS309で算出した情動度、活性度および同調度をハードディスク装置23に保存し(ステップS311)、処理を終了する。
上述した処理を、クマ型ロボットR1がアクションを実行するごとに繰り返すことにより、人物P1が様々なタイミングで表出した非言語反応を示す非言語情報について解析を行った結果をハードディスク装置23に蓄積することができる。
また、このようにしてハードディスク装置23に蓄積された情報に基づいて、プロセッサ21は、図19に例示したような見守り画面を生成し、表示装置24を介して操作者に提示することも可能である。更に、コンピュータ装置20を通信装置(図示せず)を介してネットワークに接続することにより、このような見守り画面を、ネットワーク経由で、遠隔地の家族に対して提示することもできる。
このように、図21に例示した非言語情報解析装置10によれば、人物P1が表出した非言語反応を解析することで得られた情動度および同調度を含む人物P1によって表出されていない感情を推測するための情報を時系列的に蓄積することができる。
なお、人物P1が表出する非言語反応を検出する処理は、上述したようにクマ型ロボットR1のアクションの実行を契機とする場合に限られない。例えば、クマ型ロボットR1に含まれるカメラなどのセンサにより、クマ型ロボットR1が配置された部屋に人物P1が入室したことを感知し、これを非言語反応の検出動作の契機とすることも可能である。
また、非言語情報を収集する期間は、上述したアイコンタクト区間に限定されず、人物P1がクマ型ロボットR1に搭載されたセンサ部11で観測可能な非言語反応を表出する可能性のある期間に亘って継続することもできる。例えば、人物P1が入室してから退室するまでの期間に亘って、非言語反応の検出動作を継続することもできる。
以上の説明に関して、更に、以下の各項を開示する。
(付記1)
人物の表情もしくは身振りを含む非言語反応を観測するセンサ部と、
前記センサ部が取得した観測データから、前記人物が表出した少なくとも一つの非言語反応の強さをそれぞれ示す計測値を含む非言語情報を生成する生成部と、
前記生成部で生成された前記非言語情報に含まれる、前記人物の感情表現を表す非言語反応の強さを示す計測値の時間的な変動の特徴に基づいて、前記感情表現が前記人物の感情の自然な表れである可能性の高さを示す情動度を評価する第1評価部と
を備える非言語情報解析装置。
(付記2)
付記1に記載の非言語情報解析装置において、
刺激媒体から前記人物へ刺激を与えたタイミングで、前記生成部に対して非言語情報を生成させる制御を行う生成制御部と
を備えたことを特徴とする非言語情報解析装置。
(付記3)
人物の表情もしくは身振りを含む非言語反応を観測するセンサ部と、
前記センサ部が取得した観測データから、前記人物が表出した少なくとも一つの非言語反応の強さを示す計測値を含む非言語情報を生成する生成部と、
刺激媒体から前記人物へ刺激を与えたタイミングで、前記生成部に対して非言語情報を生成させる制御を行う生成制御部と、
前記生成部で生成された前記非言語情報に含まれる前記少なくとも一つの非言語反応の強さを示す計測値の変動の大きさと、前記変動が出現したタイミングと前記刺激媒体から前記人物が刺激を受けたタイミングとの関係とに基づいて、前記人物の前記刺激媒体に対する関心の高さを示す同調度を評価する第2評価部と
を備える非言語情報解析装置。
(付記4)
付記2又は付記3に記載の非言語情報解析装置において、
前記刺激媒体はロボットであり、
前記センサ部は、前記ロボットの視線方向に対応して光軸が設定されたカメラを有し、
前記生成制御部は、
前記カメラで取得された画像に基づいて、前記ロボットの視線と前記人物の視線とが一致したタイミングを検出する第1検出部と、
前記第1検出部で検出されたタイミングを含む所定の長さの期間を設定し、当該期間において、前記生成部に、前記人物が表出した少なくとも一つの非言語反応の強さを示す計測値を生成させる期間設定部とを有する
ことを特徴とする非言語情報解析装置。
(付記5)
付記2又は付記3に記載の非言語情報解析装置において、
前記刺激媒体はロボットであり、
前記ロボットは、前記刺激として、発話および身体動作の少なくとも一方を含むアクションを前記人物に対して行うアクション部を有し、
前記生成制御部は、
前記ロボットの前記アクション部が前記アクションを実行した後の所定の長さの期間において、前記生成部に、前記人物が表出した少なくとも一つの非言語反応の強さを示す計測値を生成させる
ことを特徴とする非言語情報解析装置。
(付記6)
付記1又は付記2に記載の非言語情報解析装置において、
前記第1評価部は、
前記生成部によって生成された非言語情報に含まれる、前記人物の表情が笑顔である度合いを示す笑顔度が時間経過に応じて変化する速度を算出する速度算出部と、
前記笑顔度が増大していく過程に対応して、前記速度算出部で算出された速度の二乗和を求めることにより、前記人物の笑顔の自然さを示す情動度を求める積算部とを有する
ことを特徴とする非言語情報解析装置。
(付記7)
付記3に記載の非言語情報解析装置において、
前記第2評価部は、
前記生成部によって生成された前記非言語情報に含まれる同調的な非言語反応の強さを示す計測値の単位時間当たりの最大変化幅をそれぞれ検出することにより、前記同調的な非言語反応それぞれの同調度を求める第2検出部と、
前記生成部によって生成された前記非言語情報に基いて、個々の非言語反応の強さを示す計測値の最大値を前記非言語反応の種類ごとに集計することにより、前記非言語反応の表出に前記人物が費やした活動量を示す活性度を求める集計部と、
前記人物と前記刺激媒体との距離に基づいて、前記活性度を補正することにより、前記人物が前記刺激媒体に向けた活動量を示す指標を求める補正部と、
前記人物が前記刺激媒体に向けた活動量を示す指標と前記第2検出部で検出された前記同調的な非言語反応それぞれの同調度とに基づいて、前記人物が前記刺激媒体に向けて表出した可能性の高い非言語反応の強さを推定する推定部と、
前記人物が前記刺激媒体に視線を向けていた可能性の高さと前記推定部によって推定された非言語反応の強さを乗算することにより、前記同調度を算出する乗算部とを有する
ことを特徴とする非言語情報解析装置。
(付記8)
付記3に記載の非言語情報解析装置において、
前記生成部で生成された前記非言語情報に含まれる、前記人物の感情表現を表す非言語反応の強さを示す計測値の時間的な変動の特徴に基づいて、前記感情表現が前記人物の感情の自然な表れである可能性の高さを示す情動度を評価する第1評価部と、
前記第1評価部によって得られた情動度と前記第2評価部によって得られた同調度とを含む情報を対比させて出力する出力部と
を備えたことを特徴とする非言語情報解析装置。
(付記9)
付記8に記載の非言語情報解析装置において、
前記刺激媒体はロボットであり、
前記センサ部は、前記ロボットの視線方向に対応して光軸が設定されたカメラを有し、
前記生成制御部は、
前記カメラで取得された画像に基づいて、前記ロボットの視線と前記人物の視線とが一致したタイミングを検出する第1検出部と、
前記第1検出部で検出されたタイミングを含む所定の長さの期間を設定し、当該期間において、前記生成部に、前記人物が表出した少なくとも一つの非言語反応の強さを示す計測値を生成させる期間設定部とを有し、
前記出力部は、前記第1検出部が検出したタイミングを示す情報とともに、前記情動度および前記同調度とを含む情報を対比させて出力する
ことを特徴とする非言語情報解析装置。
(付記10)
付記8に記載の非言語情報解析装置において、
前記刺激媒体はロボットであり、
前記ロボットは、前記刺激として、発話および身体動作の少なくとも一方を含むアクションを前記人物に対して行うアクション部を有し、
前記生成制御部は、
前記ロボットの前記アクション部が前記アクションを実行した後の所定の長さの期間において、前記生成部に、前記人物が表出した少なくとも一つの非言語反応の強さを示す計測値を生成させ、
前記出力部は、前記アクションが実行された時刻を示す情報とともに、前記第1評価部によって得られる評価結果をと前記第2評価部によって得られる評価結果とを含む情報を対比させて出力する
ことを特徴とする非言語情報解析装置。
(付記11)
コンピュータに、
人物の表情もしくは身振りを含む非言語反応を観測するセンサ部から取得した観測データから、前記人物が表出した少なくとも一つの非言語反応の強さを示す計測値を含む非言語情報を生成させ、
生成された前記非言語情報に含まれる、前記人物の感情表現を表す非言語反応の強さを示す計測値の時間的な変動の特徴に基づいて、前記感情表現が前記人物の感情の自然な表れである可能性の高さを示す情動度を評価させる
ことを特徴とする非言語情報解析プログラム。
(付記12)
コンピュータが、
人物の表情もしくは身振りを含む非言語反応を観測するセンサ部から取得した観測データから、前記人物が刺激媒体から刺激を受けた際に表出した少なくとも一つの非言語反応の強さを示す計測値を含む非言語情報を生成し、
生成された前記非言語情報に含まれる前記少なくとも一つの非言語反応の強さを示す計測値の変動の大きさと、前記変動が出現したタイミングと前記刺激媒体から前記人物が刺激を受けたタイミングとの関係とに基づいて、前記人物の前記刺激媒体に対する関心の高さを示す同調度を評価する
ことを特徴とする非言語情報解析プログラム。
(付記13)
人物の表情もしくは身振りを含む非言語反応を観測するセンサ部から取得した観測データから、前記人物が表出した少なくとも一つの非言語反応の強さを示す計測値を含む非言語情報を生成し、
生成された前記非言語情報に含まれる、前記人物の感情表現を表す非言語反応の強さを示す計測値の時間的な変動の特徴に基づいて、前記感情表現が前記人物の感情の自然な表れである可能性の高さを示す情動度を評価する
ことを特徴とする非言語情報解析方法。
(付記14)
人物の表情もしくは身振りを含む非言語反応を観測するセンサ部から取得した観測データから、前記人物が刺激媒体から刺激を受けた際に表出した少なくとも一つの非言語反応の強さを示す計測値を含む非言語情報を生成し、
生成された前記非言語情報に含まれる前記少なくとも一つの非言語反応の強さを示す計測値の変動の大きさと、前記変動が出現したタイミングと前記刺激媒体から前記人物が刺激を受けたタイミングとの関係とに基づいて、前記人物の前記刺激媒体に対する関心の高さを示す同調度を評価する
ことを特徴とする非言語情報解析方法。