JP7153256B2

JP7153256B2 - シナリオ制御装置、方法およびプログラム

Info

Publication number: JP7153256B2
Application number: JP2018218430A
Authority: JP
Inventors: 充裕後藤; 純史布引; 成宗松村; 昭博柏原
Original assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS; Nippon Telegraph and Telephone Corp
Current assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS; Nippon Telegraph and Telephone Corp
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2022-10-14
Anticipated expiration: 2038-11-21
Also published as: JP2020086774A

Description

本発明は、例えば、コンテンツの提示態様を記述したシナリオの制御に関する。

近年、デジタルサイネージとコミュニケーションロボットとを組み合わせたコンテンツ提示技法が知られている。例えば、ディスプレイに表示されたスライドなどの映像コンテンツに同期してロボットに説明文を発話させたりジェスチャを取らせたりすることで、例えば種々のインフォメーションサービスの省人化に寄与することができる。

かかるコンテンツ提示技法では、コンテンツの提示態様、一般的には、ディスプレイに表示されるスライド、そのスライドの表示中にロボットに発話させる台詞（発話内容）、およびロボットに取らせるジェスチャなどの非言語動作、を記述する提示シナリオ（以降、単にシナリオと称する）が事前に作成される。すなわち、スライド表示中に、ロボットはシナリオに記述された台詞を発話し、シナリオに記述された非言語動作を取ることになる。シナリオは、理想的には、聴衆にスライドの要点や詳細が伝わるように作成されるが、例えば年齢、性別、知識、嗜好、などの聴衆の属性は多様であるのであらゆる聴衆に対して効果的なコンテンツ提示を実現するシナリオを作成することは容易でない。

非特許文献１には、人の位置、距離により、インタラクティブに反応する広告コンテンツを表示するデジタルサイネージが提案されている。また、非特許文献２には、運転中のドライバの意識状態を検知し、その情報に基づいてドライバにわかりやすい警報を提示することが提案されている。

陳成ら，「人の状況にインタラクティブに反応するデジタルサイネージ」，２０１４年，情報処理学会第７６回全国大会山崎初夫ら，「ドライバ状態モニターの開発と運転支援システムの警報提示方法の検討」，ＩＥＥＪＴｒａｎｓ．ＩＡ，Ｖｏｌ．１２５，Ｎｏ．１１，２００５年

本発明は、多様な聴衆に対する効果的なコンテンツ提示を支援することを目的とする。

本発明の第１の態様に係るシナリオ制御装置は、コンテンツを視聴する聴衆の様子を表す情報を取得する取得部と、コンテンツを視聴する聴衆の様子を表す情報から聴衆の特徴量を抽出する抽出部と、聴衆の特徴量に基づいて、聴衆の視聴状態を第１の状態を含む複数の状態のいずれか１つとして設定し、推定された状態を現在状態とする推定部と、現在状態が第１の状態でない場合に、複数の状態のうち、遷移先状態の候補が複数ある場合には、提示シナリオの進捗状況に基づいて、現在状態よりも良好と定義される遷移先状態の１つを優先することを決定する決定部と、現在状態および遷移先状態の組み合わせに関連付けられている、コンテンツの提示シナリオに対する少なくとも１つの利用可能な修正内容のうちのいずれか１つを選択する選択部とを具備する。

すなわち、このシナリオ制御装置は、聴衆の画像に基づいて当該聴衆の視聴状態を推定し、推定した視聴状態を遷移させるべく、コンテンツの提示態様が記述されるシナリオに対する修正内容を選択する。従って、このシナリオ制御装置によれば、予め用意されたシナリオが適さない聴衆を相手にコンテンツを提示する場合であっても、当該聴衆に適するように修正内容を選択することができる。

第１の態様に係るシナリオ制御装置において、コンテンツを視聴する聴衆の様子を表す情報を取得する取得部と、コンテンツを視聴する聴衆の様子を表す情報から聴衆の特徴量を抽出する抽出部と、聴衆の特徴量に基づいて、聴衆の視聴状態を第１の状態を含む複数の状態のいずれか１つとして推定し、推定された状態を現在状態とする推定部と、現在状態が第１の状態でない場合に、複数の状態のうち現在状態とは異なるいずれか１つを遷移先状態と決定する決定部と、現在状態および遷移先状態の組み合わせに関連付けられている、コンテンツの提示シナリオに対する少なくとも１つの利用可能な修正内容のうちのいずれか１つを選択する選択部と、を具備し、聴衆の特徴量は、聴衆のコンテンツへの興味・関心度を示す第１の特徴量と、聴衆のコンテンツへの集中度を示す第２の特徴量とを含み、複数の状態は、第１の状態に加え、第２の状態、第３の状態および第４の状態を含み、推定部は、第１の特徴量が第１の閾値以上であって、第２の特徴量が第２の閾値以上である場合に、聴衆の視聴状態を第１の状態と推定し、推定部は、第１の特徴量が第１の閾値以上であって、第２の特徴量が第２の閾値未満である場合に、聴衆の視聴状態を第２の状態と推定し、推定部は、第１の特徴量が第１の閾値未満であって、第２の特徴量が第２の閾値以上である場合に、聴衆の視聴状態を第３の状態と推定し、推定部は、第１の特徴量が第１の閾値未満であって、第２の特徴量が第２の閾値未満である場合に、聴衆の視聴状態を第４の状態と推定してもよい。

このシナリオ制御装置（以降、本発明の第２の態様に係るシナリオ制御装置と称する）は、上記複数の状態を興味・関心度および集中度の２軸で分類するので、聴衆の視聴状態を改善するために向上させる必要のある状態要素を絞り込み、適切な修正内容を選択することができる。

第２の態様に係るシナリオ制御装置において、決定部は、現在状態が第４の状態であって、かつ提示シナリオの進捗状況が第３の閾値未満である場合に、第２の状態を遷移先状態と決定し、決定部は、現在状態が第４の状態であって、かつ提示シナリオの進捗状況が第３の閾値以上である場合に、第３の状態を遷移先状態と決定してもよい。

このシナリオ制御装置によれば、シナリオの進捗状況が第３の閾値に達するまでは聴衆の興味・関心を引き出すための状態遷移が優先され、シナリオの進捗状況がこの第３の閾値に達した後は聴衆の集中を引き出すための状態遷移が優先される。

第２の態様に係るシナリオ制御装置において、決定部は、現在状態が第４の状態であって、かつ提示シナリオの全長が第４の閾値未満である場合に、第２の状態を遷移先状態と決定してもよい。このシナリオ制御装置によれば、シナリオの全長が短い場合には、シナリオの進捗状況にかかわらず、聴衆の興味・関心を引き出すための状態遷移が優先される。

第１または第２の態様に係るシナリオ制御装置において、選択部は、現在状態および遷移先状態の組み合わせに関連付けられている少なくとも１つの利用可能な修正内容のうち、累積選択回数が最小である１つを選択してもよい。

このシナリオ制御装置によれば、様々な修正内容が満遍なく選択されるので、聴衆の反応の良いシナリオを探り当て、聴衆の視聴状態を良好と定義される状態へ遷移させることができる。また、これにより、シナリオは非画一的に修正されるので、コンテンツの提示態様に慣れることによるシナリオ修正の効力の低下を抑制することもできる。

第１または第２の態様に係るシナリオ制御装置は、選択された修正内容に基づいてコンテンツの提示シナリオを修正する修正部をさらに具備してもよい。このシナリオ制御装置によれば、予め用意されたシナリオが適さない聴衆を相手にコンテンツを提示する場合であっても、当該聴衆に適するようにシナリオを動的に修正することができる。

本発明の第３の態様に係るシナリオ制御装置は、コンピュータによって実行されるシナリオ制御方法であって、コンテンツを視聴する聴衆の様子を表す情報を取得することと、コンテンツを視聴する聴衆の様子を表す情報から聴衆の特徴量を抽出することと、聴衆の特徴量に基づいて、聴衆の視聴状態を第１の状態を含む複数の状態のいずれか１つとして推定し、推定された状態を現在状態とすることと、現在状態が第１の状態でない場合に、複数の状態のうち、遷移先状態の候補が複数ある場合には、提示シナリオの進捗状況に応じて、現在状態よりも良好と定義される遷移先状態の１つを優先することを決定することと、現在状態および遷移先状態の組み合わせに関連付けられている、コンテンツの提示シナリオに対する少なくとも１つの利用可能な修正内容のうちのいずれか１つを選択することとを具備する。

すなわち、このシナリオ制御方法は、聴衆の画像に基づいて当該聴衆の視聴状態を推定し、推定した視聴状態を遷移させるべく、コンテンツの提示態様が記述されるシナリオに対する修正内容を選択する。従って、このシナリオ制御方法によれば、予め用意されたシナリオが適さない聴衆を相手にコンテンツを提示する場合であっても、当該聴衆に適するように修正内容を選択することができる。

本発明の第４の態様に係るシナリオ制御プログラムは、コンピュータを第１または第２の態様に係るシナリオ制御装置として機能させるためのコンピュータ可読命令を具備する。このシナリオ制御プログラムによれば、第１または第２の態様に係るシナリオ制御装置をソフトウェアで実現できる。

本発明によれば、多様な聴衆に対する効果的なコンテンツ提示を支援できる。

実施形態に係るシナリオ制御装置を含むコンテンツ提示システムを例示するブロック図。図１のコンテンツ提示システムによるコンテンツ提示態様の説明図。図１のコンテンツ提示システムによるコンテンツ提示態様を記述するシナリオの説明図。図１の聴衆特徴抽出部によって行われる聴衆特徴抽出処理の説明図。図１の聴衆状態推定部によって推定される聴衆状態の説明図。現在状態が図５の状態４と推定された場合に決定される遷移先状態の候補の一例を示す図。現在状態が図５の状態４と推定された場合に決定される遷移先状態の候補の別の例を示す図。図１の状態遷移ルール記憶部に保存される状態遷移ルールテーブルを例示する図。図５の状態１以外の各状態を改善する状態遷移を実現するための修正内容を例示する図。図９に挙げられた修正内容の一例である「効果音の活用」の説明図。図９に挙げられた修正内容の一例である「同じ説明を繰り返す」の説明図。図９に挙げられた修正内容の一例である「ポインティング動作」の説明図。図９に挙げられた修正内容の一例である「視線制御による聴衆へのアイコンタクト動作」の説明図。図９に挙げられた修正内容の一例である「視線制御によるスライドへの注意誘導」の説明図。図１の修正内容ルール記憶部に保存される修正内容ルールテーブルを例示する図。図１の修正履歴記憶部に保存される修正履歴テーブルを例示する図。図１のシナリオ制御装置の動作を例示するフローチャート。図１７のステップＳ３１０の詳細を例示するフローチャート。図１７のステップＳ３２０の詳細を例示するフローチャート。プレゼンタの一変形例を示す図。プレゼンタの別の変形例を示す図。

以下、図面を参照しながら実施形態の説明を述べる。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。

（実施形態）
実施形態に係るシナリオ制御装置は、例えば、デジタルサイネージとコミュニケーションロボットとを組み合わせたコンテンツ提示システムなどに組み込むことができる。なお、後述するように、かかるコンテンツ提示システムは一例に過ぎない。例えば、デジタルサイネージは、必ずしも物理的なディスプレイによって実現されなくてもよく、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）／ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）／ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ)空間（以降、単に仮想空間と称する）に設けられた仮想的なディスプレイによって実現されてもよい。また、コミュニケーションロボットは、ポインティングデバイスや仮想空間に存在するバーチャルエージェントに置き換えられてもよい。

かかるコンテンツ提示システムは、図１に例示されるように、実施形態に係るシナリオ制御装置１００と、カメラ１０と、ディスプレイ２０と、ロボット３０と、提示制御装置２００とを含み得る。

ディスプレイ２０およびロボット３０は、コンテンツの提示を担当する。具体的には図２に例示されるように、ディスプレイ２０は映像コンテンツ、例えばスライドを表示し、ロボット３０は、発話、およびジェスチャなどの非言語動作を活用して、ディスプレイ２０に表示されている映像コンテンツを聴衆に対して説明する。

カメラ１０は、コンテンツ提示時の聴衆の様子、特に聴衆の顔領域付近を撮影するように設置される。なお、カメラ１０として、以降の説明においてロボット３０と別のハードウェア、例えばＷｅｂカメラが用意されることを前提とするが、ディスプレイ２０またはロボット３０に搭載されたカメラが利用されてもよい。また、一般的な画像データを取得する可視光カメラだけではなく、赤外線センサを組み合わせたデプスカメラを利用して、聴衆の顔領域の特徴量（目や鼻などの特徴点座標）や骨格データの特徴量（肩や首など各関節の座標）を求め、聴衆の顔の向きや着目点を取得しても良い。もしくは、視線計測カメラなどを用いて聴衆の視線方向を取得しても良い。要するに、画像データに限らずコンテンツ提示時の聴衆の様子を表す任意の情報が利用され得るが、以降の説明では画像データを利用することを前提とする。

提示制御装置２００は、シナリオに従って、ディスプレイ２０の表示内容と、ロボット３０の発話内容および非言語動作とを制御する。なお、図１は例示に過ぎず、これらの制御対象の一部または全部が、互いに別個の制御装置によって制御されてもよい。

シナリオは、図３に例示されるように、映像コンテンツの要素（プレゼンテーションではスライド、またはスライドに設定されたアニメーション（部品）であるが、例えば動画であればシーンなどであり得る）と、当該要素を説明するために提示される発話内容および非言語動作を記述する。すなわち、提示制御装置２００は、図３のシナリオに従って、例えばスライド１のアニメーション１－１をディスプレイ２０に表示させ、その間にロボットに発話内容１－１、例えば「今から，××をご説明します」、を発話させるとともに非言語動作１－１、例えばディスプレイ２０の一部または全体を指し示すポインティング動作、を取らせ、さらにその後に同スライド１の次のアニメーション１－２をディスプレイ２０に表示させ、その間にロボットに発話内容１－２を発話させるとともに非言語動作１－２を取らせることができる。さらに、提示制御装置２００は、図３のシナリオに従って、例えば、スライド２をディスプレイ２０に表示させ、その間にロボットに発話内容２を発話させるとともに、非言語動作２を取らせることができる。

シナリオ制御装置１００は、カメラ１０によって撮影された聴衆の画像に基づいて聴衆の視聴状態を推定し、推定した視聴状態をさらに良好と定義される状態に遷移させるべく、提示制御装置２００によって実行されるシナリオを動的に修正する。これにより、後述するように、ロボット３０の発話内容、非言語動作などのコンテンツの提示態様は、聴衆の反応に依存して適応的に変化することになる。故に、予め用意されたシナリオが適さない聴衆を相手にコンテンツを提示する場合であっても、このシナリオ制御装置１００は当該聴衆に適するようにシナリオを修正し、当該聴衆にコンテンツの要点・詳細を効果的に伝えることが可能となる。

次に、シナリオ制御装置１００のハードウェア構成例を説明する。なお、提示制御装置２００は、シナリオ制御装置１００と同様のハードウェア構成を採用し得る。

シナリオ制御装置１００は、例えばコンピュータであり得る。この場合に、シナリオ制御装置１００は、シナリオの動的修正などの情報処理を行うプロセッサ（例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、など）を含む。さらに、シナリオ制御装置１００は、かかる処理を実現するためにプロセッサによって実行されるプログラムおよび当該プロセッサによって使用されるデータなどを一時的に格納するメモリを含む。

シナリオ制御装置１００は、さらに、例えば提示制御装置２００などの外部装置に例えばネットワークを介して接続するための通信Ｉ／Ｆ（インタフェース）を利用可能である。通信Ｉ／Ｆは、シナリオ制御装置１００に内蔵されてもよいし、シナリオ制御装置１００に外付けされてもよい。

シナリオ制御装置１００は、さらに、データを蓄積するための補助記憶装置を利用可能である。補助記憶装置は、シナリオ制御装置１００に内蔵されてもよいし、シナリオ制御装置１００に外付けされてもよい。補助記憶装置は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリなどの不揮発性記憶媒体であることが好ましい。或いは、補助記憶装置は、シナリオ制御装置１００にネットワーク経由で接続されたファイルサーバであり得る。

シナリオ制御装置１００は、さらに、例えば画像データなどの外部入力データを受け付けるための入力Ｉ／Ｆを利用可能である。入力Ｉ／Ｆは、シナリオ制御装置１００に内蔵されてもよいし、シナリオ制御装置１００に外付けされてもよい。

シナリオ制御装置１００および提示制御装置２００は、図１に例示するように別個の装置であってもよいし、同一の装置であってもよい。シナリオ制御装置１００および提示制御装置２００が別個の装置である場合に、両者は必ずしも近接して配置する必要はない。例えば、シナリオ制御装置１００は、全国各地に配置された１または複数のクライアントとしての提示制御装置２００に例えばインターネットなどのネットワークを介して接続されたクラウドサーバであってもよい。すなわち、コンテンツ提示システムは、例えば、Ｒ－ｅｎｖ：連舞（登録商標）のようなクラウド対応型インタラクション制御技術により実現されてもよい。

次に、シナリオ制御装置１００の機能構成例を説明する。図１に例示されるように、シナリオ制御装置１００は、画像取得部１０１と、聴衆特徴抽出部１０２と、聴衆状態推定部１０３と、遷移先決定部１０４と、状態遷移ルール記憶部１０５と、修正内容選択部１０６と、修正内容ルール記憶部１０７と、修正履歴記憶部１０８と、シナリオ修正部１０９とを含む。

画像取得部１０１は、コンテンツを視聴する聴衆をカメラ１０によって撮影することで得られた画像（データ）を取得する。画像取得部１０１は、取得した画像を聴衆特徴抽出部１０２へ送る。なお、画像は、動画像であってもよいし、静止画像であってもよい。ただし、後述するように聴衆特徴抽出部１０２において特徴量を抽出するために時系列画像を必要とするので、後者の例では複数枚の静止画像が必要とされる。画像取得部１０１は、例えば前述の通信Ｉ／Ｆおよび／または入力Ｉ／Ｆに相当し得る。

聴衆特徴抽出部１０２は、画像取得部１０１から画像を受け取り、当該画像から聴衆の特徴量を抽出する。具体的には、聴衆特徴抽出部１０２は、画像から聴衆の顔領域の向き、大きさ、動きなどに基づいて、コンテンツに対する聴衆の興味・関心、集中度などを示す特徴量を抽出する。聴衆特徴抽出部１０２は、抽出した特徴量を聴衆状態推定部１０３へ送る。聴衆特徴抽出部１０２は、例えば前述のプロセッサに相当し得る。

例えば、聴衆特徴抽出部１０２は、以下に説明するように、聴衆のコンテンツへの興味・関心度を示す第１の特徴量および聴衆のコンテンツへの集中度を示す第２の特徴量を含む２次元の特徴量を抽出してもよい。なお、聴衆特徴抽出部１０２は、１次元または３次元以上の特徴量を抽出してもよい。

第１の特徴量は、顔領域が前向きである、例えば、ディスプレイ２０および／またはロボット３０へ顔を向けている聴衆の顔領域の大きさに基づいて算出され得る。顔領域が前向きである聴衆は、少なくとも画像が撮影された時点においてコンテンツに興味・関心を引かれていた可能性がある。そして、顔領域の大きさは、聴衆の本来の顔の大きさにも依存するが、聴衆からカメラ１０（これは、ディスプレイ２０およびロボット３０の近隣に配置されるとする）までの距離に大きく依存する。この距離は、聴衆がコンテンツに興味・関心を引かれ、当該コンテンツが視聴しやすくなるように近づくことで、小さくなる。また、聴衆からカメラ１０までの距離が同じであっても聴衆が増えれば、顔領域の大きさの総和は大きくなる。このように、顔領域が前向きである聴衆の顔領域の大きさは、聴衆のコンテンツへの興味・関心度を示し得る。

具体的には、聴衆特徴抽出部１０２は、画像に含まれる顔領域を検出する。なお、聴衆特徴抽出部１０２は、可能な限り多くの顔領域を検出してもよいが、検出数に上限が設けられてもよいし、または所定面積未満の顔領域を無視してもよい。それから、聴衆特徴抽出部１０２は、検出した顔領域のそれぞれの向きを計算する。ここで、第ｉ番目の顔領域の向きをθ_ｉとする。ｉは任意の整数である。

次に、聴衆特徴抽出部１０２は、計算した顔領域の向きを必要に応じて補正する。例えば図４に示すように、聴衆がその顔を向けることを望まれる点（以降、基準点と称する）と、カメラ１０の位置とが一致しないことがある。かかる場合には、聴衆特徴抽出部１０２は、カメラ位置と基準点との角度差θ_ｄを、それぞれの顔領域の向きから差し引くことで、補正後の向きを求めることができる。第ｉ番目の顔領域の補正後の向きをθ’_ｉとすると、θ’_ｉ＝θ_ｉ－θ_ｄである。なお、カメラ位置および基準点が同一である場合にはθ_ｄ＝０となる。

聴衆特徴抽出部１０２は、それぞれの顔領域の補正後の向きが所定の範囲内にあるか否かにより、当該顔領域が前向きであるか否かを判定する。例えば、聴衆特徴抽出部１０２は、φ_１≦θ’_ｉ≦φ_２を満足する場合には、第ｉ番目の顔領域は前向きであると判定する。ここで、φ_１およびφ_２は、想定されている聴衆の位置からディスプレイ２０およびロボット３０を視認できる顔の向きの境界に基づいて定められる閾値であり得、φ_１＜φ_２を満足する。なお、前向きの判定には、画像ベースで顔向きを取得するだけではなく、デプスカメラを用いて取得した骨格データから両肩関節の座標位置や背骨関節の向きから求めたり、視線計測カメラを用いて取得した聴衆の視線方向から求めたりしても良い。

聴衆特徴抽出部１０２は、前向きであると判定した顔領域の面積をそれぞれ算出し、算出した面積の最大値および総和を求める。さらに、聴衆特徴抽出部１０２は、この総和をこの最大値によって除算することで面積比を求める。そして、聴衆特徴抽出部１０２は、一定時間に亘って画像の取得およびこの面積比の算出を繰り返し、当該一定時間に亘る面積比の総和を第１の特徴量として算出し得る。なお、前述のように両肩関節の座標位置や背骨関節の向きや、聴衆の視線方向から前向きの判定を行う場合には、面積比に代えて人数が第１の特徴量として算出されてよい。ここで、人数比は、前向きと判定された聴衆の数を聴衆の総数で除算することで得られる。

第２の特徴量は、聴衆の顔領域の動作に基づいて算出され得る。例えば、ディスプレイ２０に表示された映像コンテンツを見つめている（顔領域のブレが少ない）聴衆や、頷いている聴衆は、コンテンツに集中していると予想される。他方、左右に首を振っている聴衆や、顔を過剰に大きく動かしている聴衆は、コンテンツよりも周囲が気になっているか、単に気が散っていると予想される。

具体的には、聴衆特徴抽出部１０２は、一定時間に亘る時系列画像からそれぞれの聴衆の顔領域を追跡する。そして、聴衆特徴抽出部１０２は、それぞれの聴衆の顔領域の動きに基づいて、当該聴衆の顔の動作を認識する。聴衆特徴抽出部１０２は、例えばジェスチャ認識器を利用して顔の動作を認識してもよい。このジェスチャ認識器は、例えば、大量の学習用の顔領域の動きデータおよびその動作ラベルを用いた教師付き学習により作成された学習モデルを含み得る。なお、画像ベースで顔領域の動作を取得するだけではなく、デプスカメラを用いて取得した骨格データの各座標から動作を認識しても良い。

顔の動作の認識結果である動作ラベルには、それぞれ事前に集中度が割り当てられている。例えば、「注視」、「頷き」などには高い集中度が割り当てられ、「左右の首振り」、「大きな動き」などには低い集中度が割り当てられ得る。ここで、集中度は、多値であってもよいが、「集中」および「発散」を意味する２値であってもよい。

聴衆特徴抽出部１０２は、全聴衆に亘る認識結果（動作ラベル）をヒストグラム化し、最頻値となる認識結果を求める。そして、聴衆特徴抽出部１０２は、この最頻値に割り当てられた集中度を第２の特徴量として抽出し得る。なお、複数の最頻値が存在する場合には、聴衆特徴抽出部１０２は、これら最頻値に割り当てられた集中度の最小値またはその他の統計量を第２の特徴量として抽出し得る。

或いは、聴衆特徴抽出部１０２は、各聴衆についての認識結果に割り当てられた集中度を当該聴衆の集中度として抽出し、この集中度の平均などの統計量を第２の特徴量としてもよい。

聴衆状態推定部１０３は、聴衆特徴抽出部１０２から聴衆の特徴量を受け取り、これに基づいて、聴衆の視聴状態を複数の状態のいずれか１つとして推定する。推定された視聴状態は、以降の説明において現在状態と称する。聴衆状態推定部１０３は、現在状態を示す値、例えば状態ＩＤを遷移先決定部１０４へ送る。聴衆状態推定部１０３は、例えば前述のプロセッサに相当し得る。

上記複数の状態は様々に定義可能であるが、前述の２次元の特徴量を前提とすると例えば図５に示す４つの状態が定義され得る。状態１は、聴衆のコンテンツに対する興味・関心および集中度が高い状態を指し、状態２は、聴衆のコンテンツに対する興味・関心は高いものの集中度が低い状態を指し、状態３は、聴衆のコンテンツに対する興味・関心が低いものの集中度が高い状態を指し、状態４は、聴衆のコンテンツに対する興味・関心および集中度が低い状態を指す。なお、図５の例では簡単化のために上記第１の特徴量および第２の特徴量がそれぞれ２つの範囲に区分されているが、一方または両方が３以上の範囲に区分されてもよい。

図５の例によれば、聴衆状態推定部１０３は、第１の特徴量および第２の特徴量がそれぞれ第１の閾値および第２の閾値以上である場合に、現在状態を状態１と推定し、第１の特徴量が第１の閾値以上であって第２の特徴量が第２の閾値未満である場合に、現在状態を状態２と推定し、第１の特徴量が第１の閾値未満であって第２の特徴量が第２の閾値以上である場合に、現在状態を状態３と推定し、第１の特徴量および第２の特徴量がそれぞれ第１の閾値および第２の閾値未満である場合に、現在状態を状態４と推定する。

図５の例では、状態１が最も良好と状態と定義され、状態４が最も良好でない状態と定義される。すなわち、現在状態が状態１と推定されれば、現在のシナリオによりコンテンツが聴衆に対して効果的に提示すされていると予想されるので、シナリオの修正は不要である。他方、現在状態が状態１以外と推定されれば、聴衆のコンテンツに対する興味・関心および／または集中度に改善の余地があるので、シナリオ制御装置１００は状態１を目指してシナリオを修正することになる。

遷移先決定部１０４は、聴衆状態推定部１０３から聴衆の視聴状態（現在状態）を示す値を受け取る。遷移先決定部１０４は、まず、現在状態が状態遷移をする必要ない状態、例えば図５の状態１であるか否かを判定する。現在状態が状態遷移をする必要のある状態である場合には、遷移先決定部１０４は、現在状態よりも良好と定義される１つを遷移先状態と決定する。遷移先決定部１０４は、現在状態および遷移先状態を示す値、例えば状態ＩＤを修正内容選択部１０６へ送る。遷移先決定部１０４は、例えば前述のプロセッサに相当し得る。

図５の例によれば、状態１が状態遷移をする必要ない状態であって、状態２～４が状態遷移をする必要のある状態である。現在状態が状態２または状態３である場合には、遷移先決定部１０４は、状態１を遷移先状態として決定すればよい。他方、現在状態が状態４である場合には、図６に例示される状態４→状態２、それから状態２→状態１という状態遷移と、図７に例示される状態４→状態３、それから状態３→状態１という状態遷移が選択可能である。どちらの状態遷移を優先するかは固定またはランダムであってもよいが、例えば以下に説明するように戦略的に決定されてよい。

例えば、映像コンテンツの一例であるプレゼンテーションの構成は様々であるが、ある種のプレゼンテーションでは、その前半である導入部では聴衆に興味・関心を引くためにインパクトのあるトピックや身近なトピックを含んだスライドが配置され、その後半である結論部ではそのプレゼンテーションによって聴衆に最終的に伝えたいメッセージなどを含んだスライドが配置される。故に、例えば前半部ではプレゼンテーションへの興味・関心を引くことを優先してシナリオを修正し、後半部ではプレゼンテーションに意識を集中させることを優先してシナリオを修正することで、ロボット３０にスライドの構成と調和した発話および／または非言語動作を取らせて聴衆の興味・関心・集中を巧みに引き出すことができる。

そこで、例えば、遷移先決定部１０４は、遷移先状態の候補が複数ある（図５の例によれば現在状態が状態４である）場合には、シナリオの進捗状況を参照し得る。ここで、進捗状況は、例えば、シナリオの実行位置をシナリオの全長で除算することで導出可能である。シナリオの実行位置は、映像コンテンツの再生中の要素の位置を表し、例えば、再生中のスライド番号、スライドに設定された再生中のアニメーションなどの要素の番号などの識別情報、映像コンテンツの再生中のシーンの番号などの識別情報、映像コンテンツの現在の再生時間、コンテンツの提示開始からの経過時間、などであってよく、提示制御装置２００（の実行位置通知部２０２）によって通知され得る。また、シナリオの全長は、例えば、総スライド数、映像コンテンツの総再生時間、コンテンツの提示開始から終了までの時間、などあってよい。遷移先決定部１０４は、シナリオの進捗状況が閾値（以降、便宜的に方針転換閾値とも称する）未満である場合に状態２を遷移先状態と決定し、シナリオの進捗状況が方針転換閾値以上である場合に状態３を遷移先状態と決定してもよい。方針転換閾値は、例えば１／２であって、状態遷移ルール記憶部１０５に保存される状態遷移ルールの少なくとも一部として記述され得る。

なお、シナリオの全長が短いと定義される範囲にある場合には、どちらの状態遷移を優先するかを固定しておいてもよい。例えば、聴衆の興味・関心を引き出す状態遷移を優先する場合には方針転換閾値を１とし、聴衆の集中を引き出す状態遷移を優先する場合には方針転換閾値を０とすればよい。仮に、あるシナリオ長閾値よりもシナリオの全長が短い場合に当該シナリオの全長が短いと判定する場合に、シナリオの進捗状況に関わらず聴衆の興味・関心を引き出す状態遷移を優先するとすれば、方針転換閾値は以下のように導出可能である。

上記数式において、Ｔｈ_Ｐは方針転換閾値、Ｌはシナリオの全長、ＴＨ_Ｌはシナリオ長閾値をそれぞれ表す。

状態遷移ルール記憶部１０５は、状態遷移ルールを、例えば図８に示される状態遷移ルールテーブルの形式で保存する。状態遷移ルール記憶部１０５に保存された状態遷移ルールは、遷移先決定部１０４によって必要に応じて読み出される。状態遷移ルール記憶部１０５は、例えば前述のメモリおよび／または補助記憶装置に相当し得る。

修正内容選択部１０６は、遷移先決定部１０４から現在状態および遷移先状態を示す値を受け取り、さらに提示制御装置２００（のシナリオ通知部２０３）から現在実行中のシナリオ、およびその後に実行されるシナリオを通知される。修正内容選択部１０６は、修正内容ルール記憶部１０７に保存された修正内容ルールを参照し、現在状態および遷移先状態の組み合わせに関連付けられる少なくとも１つのシナリオ修正内容を読み出す。ここで、修正内容ルールは、現在状態および遷移先状態の組み合わせに対して利用可能なシナリオ修正内容およびその修正ターゲットを記述する。読み出されたシナリオ修正内容は、適用されるシナリオ修正内容の候補に相当する。修正内容選択部１０６は、候補の中から１つを選択し、選択したシナリオ修正内容を示す値、修正の対象となるシナリオ位置を示す値、および当該シナリオ位置によって特定されるシナリオ（の一部分）をシナリオ修正部１０９へ送る。修正内容選択部１０６は、例えば前述のプロセッサに相当し得る。

ここで、現在状態および遷移先状態の組み合わせ、すなわち目標となる状態遷移毎に、当該状態遷移を実現するために効果的なアプローチ、すなわちシナリオ修正内容は異なり得る。図９に例示されるように、状態４から状態２への遷移には、「効果音／ＬＥＤの活用」、「同じ説明を繰り返す」、「手招き動作」などをロボット３０に行わせるようにシナリオを修正することが効果的であるかもしれないが、状態４から状態３への遷移には、「視線制御によるスライドへの注意誘導」、「ポインティング動作」などをロボット３０に行わせるようにシナリオを修正することが効果的であるかもしれない。また、聴衆の属性は多様であるので、このようなシナリオ修正内容の全てが目標となる状態遷移を実現するために常に効果的であるとは限らない。そこで、修正内容選択部１０６は、シナリオ修正内容を試行錯誤的に選択することで、聴衆の反応の良いシナリオを探り当て、聴衆の視聴状態を良好と定義される状態へ遷移させる。

図９における「効果音／ＬＥＤ（Ｌｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ）の活用」とは、例えば図１０に示されるように、対象となるシナリオ位置におけるロボット３０の発話時に効果音を出力／ＬＥＤを発光させることであり得る。これにより、聴衆の聴覚／視覚を刺激して、その注意を引きつける効果が期待できる。なお、ＬＥＤは、例えばロボット３０に搭載されていてもよい。

ここで、対象となるシナリオ位置とは、シナリオ修正が行われるシナリオ位置を意味しており、例えば映像コンテンツの要素のうちの提示中またはそれ以降（典型的には次）に提示される要素であり得る。具体的には、対象となるシナリオ位置は、再生中もしくはそれ以降のスライド、再生中のスライドに設定された再生中もしくはそれ以降のアニメーション、または、再生中もしくはそれ以降のシーン、などであり得る。また、対象となるシナリオ位置は、シナリオ修正内容に依存して定められ得る。例えば、再生中の映像コンテンツの要素を対象に非言語動作または発話内容を変更すると説明の途中にロボット３０の言動が変わることで聴衆に違和感を与えるおそれがあるので、非言語動作または発話内容を変更する修正内容が選択された場合には再生中の映像コンテンツの要素の次に再生される要素が対象となるシナリオ位置として定められ得る。他方、例えば後述する「同じ説明を繰り返す」が修正内容である場合には、対象となるシナリオ位置は、再生中の映像コンテンツの要素であってもよいし、それ以降の要素であってもよい。

図９における「同じ説明を繰り返す」とは、例えば図１１に示されるように、対象となるシナリオ位置におけるシナリオの内容を繰り返す、例えば複製して当該シナリオ位置の直前または直後に挿入することであり得る。なお、繰り返し部分のシナリオには、さらに「ちょっと分かりにくかった？」、「もう１度言いますね」などの発話内容が追加されてもよい。これにより、対象となるシナリオ位置においてコンテンツを強調して、聴衆の注意を引きつける効果が期待できる。

図９における「手招き動作」とは、ロボット３０に手招きをさせることであり得る。これにより、ディスプレイ２０前に既に居る聴衆の注意を引きつける効果に加えて新たな聴衆を周囲から呼び込む効果も期待できる。

図９における「図解動作」とは、例えばロボット３０の手および／または腕を動かして、映像コンテンツ中の注目すべき部分を囲わせたり、対比すべき部分に左右の手をそれぞれ添えさせたりすることであり得る。これにより、映像コンテンツの中で強調したい点を聴衆に明確に伝え、聴衆に重要点を意識付ける効果が期待できる。

図９における「ポインティング動作」とは、例えば図１２に示されるように、ロボット３０の手および／または腕を動かして、映像コンテンツ中の注目すべき部分に指または手を指させることであり得る。これにより、映像コンテンツの中で強調したい点を聴衆に明確に伝え、聴衆に重要点を意識付ける効果が期待できる。

図９における「パラ言語で重要点強調」とは、例えば対象となるシナリオ位置におけるロボット３０の発話内容そのものではなく発話時の音量を大きくしたり、ピッチを変更したり、イントネーションを付けたり、ポーズを長くしたりすることであり得る。これにより、対象となるシナリオ位置におけるロボット３０の発話内容が強調され、聴衆にロボット３０の発話内容に傾聴するよう促す効果が期待できる。

図９における「視線制御によるスライドへの注意誘導」とは、例えば図１４に示されるように、ロボット３０の頭部を動かしてディスプレイ２０に目を向けさせることであり得る。これにより、聴衆が同調してディスプレイ２０に注視する効果が期待できる。

図９における「視線制御による聴衆へのアイコンタクト動作」とは、例えば図１３に示されるように、ロボット３０の頭部を動かして聴衆に目を向けさせることであり得る。これにより、ロボット３０は聴衆に語りかけるように発話することになり、聴衆にロボット３０の発話内容に傾聴するよう促す効果が期待できる。

なお、図９のシナリオ修正内容は例示に過ぎず、ある状態遷移を実現するために利用可能であるとして図示されたシナリオ修正内容が、異なる状態遷移を実現するために利用可能とされてもよい。

修正内容選択部１０６は、効果的なシナリオ修正内容を選択するために、例えば修正履歴記憶部１０８に保存された修正履歴を参照してもよい。この修正履歴には、修正ルール毎に当該修正ルールに含まれるシナリオ修正内容の累積選択回数が記述される。なお、累積選択回数は、例えば提示されるコンテンツが変わる度、または同一のコンテンツであっても１回分の提示が終わる度にリセットされ得る。また、修正履歴には、累積回数以外に、修正時の付加情報を記録しても良い。例えば、修正を実施した時刻や修正前のシナリオ内容、修正を実施した前後の第１，第２の特徴量の統計化情報（例えば、修正前から修正後の各特徴量の変化率の平均値）などを記録しても良い。修正内容選択部１０６は、例えば累積選択回数が最小であるシナリオ修正内容を選択してもよい。また、修正内容選択部１０６は、前述した修正時の付加情報を用いて、同一の時刻、時間帯（午前午後など）、および／または曜日などにおける修正内容の選択や、修正前シナリオの内容を考慮して、同一の時刻、時間帯、および／または曜日などに同一の修正前シナリオに対して同一のシナリオ修正内容が繰り返し選択されないようにシナリオ修正内容の選択を行ってもよい。これらにより、様々なシナリオ修正内容が満遍なく選択されるので、聴衆の反応の良いシナリオを探り当て、聴衆の視聴状態を良好と定義される状態へ遷移させることができる。また、これらにより、シナリオは非画一的に修正されるので、聴衆がロボット３０の発話内容および／または非言語動作に慣れることによるシナリオ修正の効力の低下を抑制することもできる。

修正内容選択部１０６は、実行中のシナリオの内容に基づいて、シナリオ修正内容を選択してもよい。例えば、修正内容選択部１０６は、実行中のシナリオの内容の非言語動作と一致または類似する非言語動作を修正ターゲットとするシナリオ修正内容を選択しないようにしてもよい。かかるシナリオ修正内容を選択しないことで、ロボット３０の非言語動作が単調となるのを防ぐ効果が期待できる。また、修正対象のシナリオを分析して，発話内容に応じて適切な非言語動作に修正しても良い。

修正内容ルール記憶部１０７は、修正内容ルールを、例えば図１５に示される修正ルールテーブルの形式で保存する。図１５の修正内容ルールテーブルでは、それぞれの修正内容ルールを特定するためのＩＤと、当該修正内容ルールを利用可能な現在状態および遷移先状態の組み合わせと、当該修正内容ルールの詳細であるシナリオ修正内容およびその修正ターゲットとが関連付けられている。修正内容ルール記憶部１０７に保存された修正内容ルールは、修正内容選択部１０６によって必要に応じて読み出される。修正内容ルール記憶部１０７は、例えば前述のメモリおよび／または補助記憶装置に相当し得る。

修正履歴記憶部１０８は、修正履歴を、例えば図１６に示される修正履歴テーブルの形式で保存する。図１６の修正履歴テーブルでは、それぞれの修正内容ルール（のうちのシナリオ修正内容）を特定するためのＩＤと、当該シナリオ修正内容の累積選択回数とが関連付けられている。なお、図１６の修正履歴テーブルにおけるＩＤの項目は、図１５の修正内容ルールテーブルにおけるＩＤの項目と共通であり得る。修正履歴記憶部１０８に保存された修正履歴は、修正内容選択部１０６によって必要に応じて読み出される。また、修正履歴記憶部１０８に保存された修正履歴は、シナリオ修正部１０９によってシナリオ修正の度に更新（インクリメント）される。修正履歴記憶部１０８は、例えば前述のメモリおよび／または補助記憶装置に相当し得る。

シナリオ修正部１０９は、修正内容選択部１０６から当該修正内容選択部１０６によって選択されたシナリオ修正内容を示す値、例えばＩＤを受け取り、さらに修正の対象となるシナリオ位置を示す値、およびこのシナリオ位置によって特定されるシナリオ（修正前のシナリオと呼ぶこともできる）を受け取る。シナリオ修正部１０９は、これらシナリオ修正内容およびシナリオ位置に基づいて、この修正前のシナリオを修正する。シナリオ修正部１０９は、修正後のシナリオを例えば図示されない送信手段（例えば、通信Ｉ／Ｆなど）により提示制御装置２００へ送る。例えば、修正後のシナリオを提示制御装置２００のシナリオ実行部２０１へ送り修正後のシナリオにより提示制御装置２００を動作させても良いし、シナリオ記憶部２０５へ送り修正後のシナリオを記録した後に提示制御装置２００を動作させても良い。また、シナリオ修正部１０９は、修正履歴記憶部１０８に保存された修正履歴を更新する。より具体的には、シナリオ修正部１０９は、適用したシナリオ修正内容の累積選択回数をインクリメントさせる。シナリオ修正部１０９は、例えば前述のプロセッサに相当し得る。

具体的には、シナリオ修正部１０９は、シナリオ修正内容の修正ターゲットが発話内容である場合には、対象となるシナリオ位置に対応するシナリオに記述された発話内容に対してシナリオ修正内容の示す発話内容（付加的な台詞、または発話法（例えば、効果音の活用、パラ言語で重要点強調、など））を追加し得る。付加的な台詞は、修正前のシナリオの発話内容の前に、「分かりにくかった？」、「もう一度説明するね」といった発話を追加する。効果音の活用では、修正前のシナリオの発話内容の発話と同時に、「ジャーン」、「ピーン」、といった効果音を同時に再生する。パラ言語で重要点強調では、修正前のシナリオの発話内容を発話する時の音量を大きくしたり、発話前に一定時間の間を設けて発話を行ったりする。

また、シナリオ修正部１０９は、シナリオ修正内容の修正ターゲットが非言語動作である場合には、対象となるシナリオ位置に対応するシナリオに記述された非言語動作をシナリオ修正内容の示す非言語動作（例えば、手招き動作、図解動作、ポインティング動作、視線制御によるスライドへの注意誘導、視線制御による聴衆へのアイコンタクト動作、など）によって置換し、または対象となるシナリオ位置に対応するシナリオに記述された非言語動作にシナリオ修正内容の示す非言語動作を追加し得る。例えば、シナリオ修正内容が手招き動作などの聴衆の興味を引き付ける非言語動作の場合には、置換するのではなく、対象となるシナリオ位置に対応するシナリオに記述された非言語動作の前に追加しても良い。また、シナリオ修正部１０９は、シナリオ修正内容の修正ターゲットが全てである場合には、例えば同じ説明を繰り返すために、対象となるシナリオ位置に対応するシナリオを複製して当該シナリオ位置の直前または直後に挿入し得る。複製時には，シナリオ中の発話内容の前に、繰り返しを表す台詞として「もう一回繰り返すね。」、「ちょっと難しかったかな。」、などを追加するよう、シナリオ修正内容において、対象となるシナリオとシナリオ修正内容で定義した新たなシナリオとの関係（修正操作）、対象となるシナリオとは別にシナリオ修正内容で定義した新たなシナリオ（繰り返しを表す台詞や台詞に対応する非言語動作）を詳細に指定しても良い。

次に、提示制御装置２００の機能構成例を説明する。提示制御装置２００は、図１に例示されるように、シナリオ実行部２０１と、実行位置通知部２０２と、シナリオ通知部２０３と、提示制御部２０４と、シナリオ記憶部２０５とを含む。

シナリオ実行部２０１は、シナリオ記憶部２０５からシナリオを読み出し、当該シナリオの実行制御を行う。シナリオ実行部２０１は、シナリオに記述された映像コンテンツの要素（例えばスライド、またはスライドに設定されたアニメーション）と、当該要素の提示中のロボット３０の発話内容および非言語動作とを順次解釈し、ディスプレイ２０に表示させる映像データ、ロボット３０の発話内容データ（ＴＴＳ（Ｔｅｘｔ－ｔｏ－Ｓｐｅｅｃｈ）処理可能なテキストデータおよび発話法を示すデータ（オプション）であってもよいし、音声データそのものであってもよい）、ロボット３０の非言語動作を制御する動作制御データ、などを得て、これらを提示制御部２０４へ送る。また、シナリオ実行部２０１は、シナリオの実行位置を示す値を実行位置通知部２０２へ送る。さらに、シナリオ実行部２０１は、実行中のシナリオをシナリオ通知部２０３へ送る。シナリオ実行部２０１は、シナリオ記憶部２０５に保存されたシナリオがシナリオ制御装置１００（のシナリオ修正部１０９）によって修正された場合には、修正後のシナリオに従って動作する。シナリオ実行部２０１は、例えば前述のプロセッサに相当し得る。

実行位置通知部２０２は、シナリオ実行部２０１からシナリオの実行位置を示す値を受け取り、当該実行位置をシナリオ制御装置１００（の遷移先決定部１０４）に通知する。実行位置通知部２０２は、前述の通信Ｉ／Ｆに相当し得る。

シナリオ通知部２０３は、シナリオ実行部２０１から実行中のシナリオを受け取り、これをシナリオ制御装置１００（の修正内容選択部１０６）に通知する。シナリオ通知部２０３は、前述の通信Ｉ／Ｆに相当し得る。

提示制御部２０４は、シナリオ実行部２０１から、ディスプレイ２０の映像データ、ロボット３０の発話内容データ、ロボット３０の動作制御データ、などを受け取る。提示制御部２０４は、ディスプレイ２０に適時に映像データを与え、ロボット３０に適時に発話内容データおよび／または制御データを与える。提示制御部２０４は、例えば前述のプロセッサおよび通信Ｉ／Ｆに相当し得る。

シナリオ記憶部２０５は、シナリオを保存する。シナリオ記憶部２０５に保存されたシナリオは、シナリオ実行部２０１によって必要に応じて読み出される。シナリオ記憶部２０５は、例えば前述のメモリおよび／または補助記憶装置に相当し得る。

次に、図１７乃至図１９を用いて、シナリオ制御装置１００の動作例を説明する。なお、図１７に例示される動作は、コンテンツの提示中に繰り返し行われるが、例えば１スライド毎のように定期的に行われてもよいし、不定期に行われてもよい。

まず、画像取得部１０１は、カメラ１０から聴衆を撮影した画像データを取得する（ステップＳ３０１）。聴衆特徴抽出部１０２は、ステップＳ３０１において取得された画像データから聴衆の特徴量、例えば前述の第１の特徴量および第２の特徴量、を抽出する（ステップＳ３０２）。

聴衆状態推定部１０３は、ステップＳ３０２において抽出された特徴量に基づいて、聴衆の視聴状態を複数の状態、例えば前述の状態１～状態４、のいずれか１つとして推定する（ステップＳ３０３）。

遷移先決定部１０４は、ステップＳ３０３において推定された現在状態が状態遷移を必要とする状態、例えば前述の状態２または状態３、であるか否かを判定する（ステップＳ３０４）。ステップＳ３０４において現在状態が状態遷移を必要とする状態であると判定されれば処理はステップＳ３０５に進み、そうでなければ（例えば、現在状態＝状態１の場合）処理は終了する。

ステップＳ３０５において、遷移先決定部１０４は、遷移先状態の候補が１つであるか否かを判定する。例えば、現在状態が前述の状態２および状態３である場合に遷移先状態の候補は状態１のみである。他方、現在状態が前述の状態４である場合に遷移先状態の候補は状態２および状態３である。ステップＳ３０５において遷移先状態の候補が１つであると判定されれば処理はステップＳ３０７に進み、そうでなければ処理はステップＳ３０６へ進む。

ステップＳ３０６において、遷移先決定部１０４は、状態遷移ルール記憶部１０５に保存された状態遷移ルールと、実行位置通知部２０２によって通知されたシナリオの実行位置とを参照する。そして、処理はステップＳ３０７へ進む。

ステップＳ３０７において、遷移先決定部１０４は、遷移先状態を決定する。具体的には、ステップＳ３０６を経由していない場合には遷移先状態の候補は１つであるから、遷移先決定部１０４は当該候補を遷移先状態として決定する。他方、ステップＳ３０６を経由している場合には、遷移先決定部１０４は、ステップＳ３０６において参照した状態遷移ルールを同じくステップＳ３０６において参照したシナリオの実行位置に基づくシナリオ進行状況に適用することで、複数の候補のいずれか１つを遷移先状態として決定できる。例えば、遷移先決定部１０４は、シナリオ進行状況が前述の方針転換閾値未満である場合には状態２を遷移先状態として決定し、シナリオ進行状況が前述の方針転換閾値以上である場合には状態３を遷移先状態として決定し得る。

修正内容選択部１０６は、ステップＳ３０３において推定された現在状態と、ステップＳ３０７において決定された遷移先状態との組み合わせに関連付けられている、少なくとも１つのシナリオ修正内容のうちいずれか１つを選択する（ステップＳ３１０）。なお、ステップＳ３１０の詳細な具体例は図１８を用いて後述する。

シナリオ修正部１０９は、ステップＳ３１０において選択されたシナリオ修正内容、および修正内容選択部１０６によって決定された対象となるシナリオ位置によって特定される修正前のシナリオ、例えば次に表示されるスライドに対応する発話内容および／または非言語動作を修正し（ステップＳ３２０）、処理は終了する。なお、ステップＳ３２０の詳細な具体例は図１９を用いて後述する。

以下、図１８を用いて図１７のステップＳ３１０の詳細な具体例を説明する。図１８の処理はステップＳ３１１から開始する。
ステップＳ３１１において、修正内容選択部１０６は、修正内容ルール記憶部１０７に保存されている修正内容ルールを参照し、ステップＳ３０３において推定された現在状態と、ステップＳ３０７において決定された遷移先状態との組み合わせに関連付けられている、少なくとも１つのシナリオ修正内容を取得する。

修正内容選択部１０６は、ステップＳ３１１において取得されたシナリオ修正内容が１つであるか否かを判定する（ステップＳ３１２）。ステップＳ３１２においてシナリオ修正内容が１つであると判定されれば処理はステップＳ３１６へ進み、そうでなければ処理はステップＳ３１３へと進む。

ステップＳ３１３において、修正内容選択部１０６は、修正履歴記憶部１０８に保存されている修正履歴を参照し、ステップＳ３１１において取得されたシナリオ修正内容のそれぞれの累積選択回数を取得する。そして、修正内容選択部１０６は、ステップＳ３１３において取得された累積選択回数が最小でないシナリオ修正内容を破棄する（ステップＳ３１４）。

修正内容選択部１０６は、ステップＳ３１４を経て残存するシナリオ修正内容が１つであるか否かを判定する（ステップＳ３１５）。ステップＳ３１５において残存するシナリオ修正内容が１つであると判定されれば処理はステップＳ３１６へ進み、そうでなければ処理はステップＳ３１７へ進む。

ステップＳ３１６において、修正内容選択部１０６は、その時点で残存する唯一のシナリオ修正内容を選択し、処理は終了する。他方、ステップＳ３１７において、修正内容選択部１０６は、その時点で残存する複数のシナリオ修正内容の１つをランダムに選択し、処理は終了する。

以下、図１９を用いて図１７のステップＳ３２０の詳細な具体例を説明する。図１９の処理はステップＳ３２１から開始する。
ステップＳ３２１において、シナリオ修正部１０９は、ステップ３１０において選択されたシナリオ修正内容の修正ターゲットを取得する。シナリオ修正部１０９は、ステップＳ３２１において取得した修正ターゲットが、非言語動作、発話内容、および全てのいずれであるかを判定する。

ステップＳ３２１において修正ターゲットが非言語動作と判定されると処理はステップＳ３２３へ進む。ステップＳ３２３において、シナリオ修正部１０９は、修正前のシナリオのうち対象となる部分に記述された非言語動作を、ステップＳ３１０において選択されたシナリオ修正内容の示す非言語動作に置換し、または修正前のシナリオのうち対象となる部分に記述された非言語動作に、ステップＳ３１０において選択されたシナリオ修正内容の示す非言語動作を追加する。例えば、修正前のシナリオの対象となる部分に非言語動作として「ポインティング動作」が記述されていて、シナリオ修正内容の示す非言語動作が「視線制御による聴衆へのアイコンタクト動作」であったとすると、当該部分の実行時にロボット３０は元々予定されていた非言語動作であるポインティング動作を行わずに、アイコンタクト動作を行うことになる。なお、ステップＳ３２３において、修正前のシナリオのうち対象となる部分に記述された非言語動作が、ステップＳ３１０において選択されたシナリオ修正内容の示す非言語動作と一致または類似である場合には、この選択されたシナリオ修正内容を除外したうえで処理はステップＳ３１０に戻ってもよい。

ステップＳ３２１において修正ターゲットが発話内容と判定されると処理はステップＳ３２４へ進む。ステップＳ３２４において、シナリオ修正部１０９は、修正前のシナリオのうち対象となる部分に記述された発話内容に、ステップＳ３１０において選択されたシナリオ修正内容の示す発話内容、例えば発話法や付加的な台詞を追加する。例えば、修正前のシナリオの対象となる部分に発話内容として「今から，××をご説明します」が記述されていて、シナリオ修正内容の示す発話内容が「パラ言語（音量増）で重要点強調」であったとすると、当該部分の実行時にロボット３０は元々予定されていた発話内容である「今から，××をご説明します」を例えば通常よりも大きな音量で発話することになる。

ステップＳ３２１において修正ターゲットが全てと判定されると処理はステップＳ３２５へ進む。ステップＳ３２５において、シナリオ修正部１０９は、修正前のシナリオのうち対象となる部分を複製し、必要に応じてその一部を変更したうえで追加する。これにより、同じ説明を繰り返すことが可能となる。

ステップＳ３２６において、シナリオ修正部１０９は、ステップ３１０において選択されたシナリオ修正内容の累積選択回数をインクリメントするために修正履歴記憶部１０８に保存された修正履歴を更新し、処理は終了する。

以上説明したように、実施形態に係るシナリオ制御装置は、コンテンツを視聴する聴衆の画像に基づいて当該聴衆の視聴状態を推定し、推定した視聴状態をさらに良好と定義される状態に遷移させるべく、コンテンツの提示態様が記述されるシナリオを動的に修正する。すなわち、このシナリオ制御装置は、例えばコミュニケーションロボットなどのコンテンツのプレゼンタの発話内容、非言語動作などを、聴衆の反応に依存して適応的に変化させる。従って、このシナリオ制御装置によれば、予め用意されたシナリオが適さない聴衆を相手にコンテンツを提示する場合であっても、当該聴衆に適するようにシナリオを修正することができる。要するに、このシナリオ制御装置によれば、コンテンツの要点・詳細が聴衆の属性に関わらず効果的に伝わるように、コンテンツ提示を支援することが可能となる。

（変形例）
図１では、デジタルサイネージとコミュニケーションロボットとを組み合わせたコンテンツ提示システムが説明された。しかしながら、実施形態に係るシナリオ制御装置は、特定のコンテンツの提示技法に限定されることなく適用可能である。

例えば、コンテンツのプレゼンタは、ロボット３０のような現実空間に存在する物理的なロボットに限られない。プレゼンタは、図２０に例示されるように、ディスプレイ２０に映像コンテンツ２１に重畳して、または映像コンテンツ２１と分離して表示されるバーチャルエージェント３１であってもよい。この場合に、バーチャルエージェント３１の発話内容は、映像コンテンツとともに出力される音声または映像コンテンツとともに表示されるテキストとして実現され、バーチャルエージェント３１の非言語動作はジェスチャ映像として実現され得る。かかるコンテンツ提示技法は、例えばカーナビゲーションシステムなどに適用可能性がある。さらなる変形例として、映像コンテンツ２１およびバーチャルエージェント３１は、仮想空間に表示されてもよい。

或いは、プレゼンタは、図２１に例示されるポインティングデバイス３２であってもよい。図２１におけるポインティングデバイス３２は、例えば、レーザーポインタと当該レーザーポインタを把持してレーザの照射位置をディスプレイ２０の任意の箇所に移動させることのできるロボットアームとの組み合わせであるが、これとは異なるハードウェアによりプレゼンタとしてのポインティングデバイスが実現されてもよい。

また、プレゼンタは発話および非言語動作の一方が不可能であってもよい。例えば、プレゼンタは発話が可能であるものの非言語動作を取ることが不可能であってもよいし、逆にプレゼンタは非言語動作を取ることが可能であるものの発話が不可能であってもよい。さらに、プレゼンタは発話内容および非言語動作の両方が可能であるものの、一方のみが制御可能であってもよい。

上述の実施形態は、本発明の概念の理解を助けるための具体例を示しているに過ぎず、本発明の範囲を限定することを意図されていない。実施形態は、本発明の要旨を逸脱しない範囲で、様々な構成要素の付加、削除または転換をすることができる。

上述の実施形態では、いくつかの機能部を説明したが、これらは各機能部の実装の一例に過ぎない。例えば、１つの装置に実装されると説明された複数の機能部が複数の別々の装置に亘って実装されることもあり得るし、逆に複数の別々の装置に亘って実装されると説明された機能部が１つの装置に実装されることもあり得る。

上記各実施形態において説明された種々の機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。

上記各実施形態の処理の少なくとも一部は、例えば汎用のコンピュータに搭載されたプロセッサを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

１０・・・カメラ
２０・・・ディスプレイ
２１・・・映像コンテンツ
３０・・・ロボット
３１・・・バーチャルエージェント
３２・・・ポインティングデバイス
１００・・・シナリオ制御装置
１０１・・・画像取得部
１０２・・・聴衆特徴抽出部
１０３・・・聴衆状態推定部
１０４・・・遷移先決定部
１０５・・・状態遷移ルール記憶部
１０６・・・修正内容選択部
１０７・・・修正内容ルール記憶部
１０８・・・修正履歴記憶部
１０９・・・シナリオ修正部
２００・・・提示制御装置
２０１・・・シナリオ実行部
２０２・・・実行位置通知部
２０３・・・シナリオ通知部
２０４・・・提示制御部

Claims

コンテンツを視聴する聴衆の様子を表す情報を取得する取得部と、
前記コンテンツを視聴する聴衆の様子を表す情報から前記聴衆の特徴量を抽出する抽出部と、
前記聴衆の特徴量に基づいて、前記聴衆の視聴状態を第１の状態を含む複数の状態のいずれか１つとして設定し、推定された前記状態を現在状態とする推定部と、
前記現在状態が前記第１の状態でない場合に、前記複数の状態のうち、遷移先状態の候補が複数ある場合には、提示シナリオの進捗状況に基づいて、前記現在状態よりも良好と定義される前記遷移先状態の１つを優先することを決定する決定部と、
前記現在状態および前記遷移先状態の組み合わせに関連付けられている、前記コンテンツの前記提示シナリオに対する少なくとも１つの利用可能な修正内容のうちのいずれか１つを選択する選択部と、
を具備する、シナリオ制御装置。
コンテンツを視聴する聴衆の様子を表す情報を取得する取得部と、
前記コンテンツを視聴する聴衆の様子を表す情報から前記聴衆の特徴量を抽出する抽出部と、
前記聴衆の特徴量に基づいて、前記聴衆の視聴状態を第１の状態を含む複数の状態のいずれか１つとして推定し、推定された前記状態を現在状態とする推定部と、
前記現在状態が前記第１の状態でない場合に、前記複数の状態のうち前記現在状態とは異なるいずれか１つを遷移先状態と決定する決定部と、
前記現在状態および前記遷移先状態の組み合わせに関連付けられている、前記コンテンツの提示シナリオに対する少なくとも１つの利用可能な修正内容のうちのいずれか１つを選択する選択部と、
を具備し、
前記聴衆の特徴量は、前記聴衆の前記コンテンツへの興味・関心度を示す第１の特徴量と、前記聴衆の前記コンテンツへの集中度を示す第２の特徴量とを含み、
前記複数の状態は、前記第１の状態に加え、第２の状態、第３の状態および第４の状態を含み、
前記推定部は、前記第１の特徴量が第１の閾値以上であって、前記第２の特徴量が第２の閾値以上である場合に、前記聴衆の視聴状態を前記第１の状態と推定し、
前記推定部は、前記第１の特徴量が前記第１の閾値以上であって、前記第２の特徴量が前記第２の閾値未満である場合に、前記聴衆の視聴状態を前記第２の状態と推定し、
前記推定部は、前記第１の特徴量が前記第１の閾値未満であって、前記第２の特徴量が前記第２の閾値以上である場合に、前記聴衆の視聴状態を前記第３の状態と推定し、
前記推定部は、前記第１の特徴量が前記第１の閾値未満であって、前記第２の特徴量が前記第２の閾値未満である場合に、前記聴衆の視聴状態を前記第４の状態と推定する、
シナリオ制御装置。
前記決定部は、前記現在状態が前記第４の状態であって、かつ前記提示シナリオの進捗状況が第３の閾値未満である場合に、前記第２の状態を前記遷移先状態と決定し、
前記決定部は、前記現在状態が前記第４の状態であって、かつ前記提示シナリオの進捗状況が前記第３の閾値以上である場合に、前記第３の状態を前記遷移先状態と決定する、
請求項２に記載のシナリオ制御装置。
前記決定部は、前記現在状態が前記第４の状態であって、かつ前記提示シナリオの全長が第４の閾値未満である場合に、前記第２の状態を前記遷移先状態と決定する、請求項２に記載のシナリオ制御装置。
前記選択部は、前記現在状態および前記遷移先状態の組み合わせに関連付けられている前記少なくとも１つの利用可能な修正内容のうち、累積選択回数が最小である１つを選択する、請求項１乃至請求項４のいずれか１項に記載のシナリオ制御装置。
前記選択された修正内容に基づいて前記コンテンツの提示シナリオを修正する修正部をさらに具備する、請求項１乃至請求項５のいずれか１項に記載のシナリオ制御装置。
コンピュータによって実行されるシナリオ制御方法であって、
コンテンツを視聴する聴衆の様子を表す情報を取得することと、
前記コンテンツを視聴する聴衆の様子を表す情報から前記聴衆の特徴量を抽出することと、
前記聴衆の特徴量に基づいて、前記聴衆の視聴状態を第１の状態を含む複数の状態のいずれか１つとして推定し、推定された前記状態を現在状態とすることと、
前記現在状態が前記第１の状態でない場合に、前記複数の状態のうち、遷移先状態の候補が複数ある場合には、提示シナリオの進捗状況に応じて、前記現在状態よりも良好と定義される前記遷移先状態の１つを優先することを決定することと、
前記現在状態および前記遷移先状態の組み合わせに関連付けられている、前記コンテンツの前記提示シナリオに対する少なくとも１つの利用可能な修正内容のうちのいずれか１つを選択することと、
を具備する、シナリオ制御方法。
コンピュータを請求項１乃至請求項６のいずれか１項に記載のシナリオ制御装置として機能させるためのコンピュータ可読命令を具備するシナリオ制御プログラム。