JP2019144732A

JP2019144732A - 動作指示生成システム、方法およびプログラム

Info

Publication number: JP2019144732A
Application number: JP2018026928A
Authority: JP
Inventors: 充裕後藤; Mitsuhiro Goto; 成宗松村; Narimune Matsumura; 純史布引; Ayafumi Nunobiki; 山田　智広; Tomohiro Yamada; 智広山田; 昭博柏原; Akihiro Kashiwabara
Original assignee: Nippon Telegraph and Telephone Corp; University of Electro Communications NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Electro Communications NUC
Priority date: 2018-02-19
Filing date: 2018-02-19
Publication date: 2019-08-29
Anticipated expiration: 2038-02-19
Also published as: JP6886663B2

Abstract

【課題】プレゼンテーション提示の際に使用されるプレゼン装置に実行させる動作の指示情報を、音声コンテンツに係る音声データと画像コンテンツに係る画像データとに基づいて生成可能にする。【解決手段】データ取得部１１１の制御の下、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータ、画像データ、および音声データが取得される。データ変換部１１２、キーワードデータ処理部１１３、および動作指示生成部１１４の制御の下、上記ジェスチャデータに基づいて、プレゼン装置２の視線方向を制御するための第１の指示情報が生成され、上記画像データおよび音声データに基づいて、上記画像コンテンツの表示画面におけるプレゼン装置２の指示領域を制御するための第２の指示情報が生成される。【選択図】図２Ａ

Description

この発明は、プレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成システム、方法およびプログラムに関する。

近年、ロボットを用いてプレゼンテーション提示を実行するロボットサイネージシステムが知られており、当該ロボットサイネージシステムでは、ロボットによる発話や、ロボットとともに用いるディスプレイにより画像の表示をする。図８は、ロボットサイネージシステムによるプレゼンテーション提示の一例の概略図を示している。

図９に示すように、このようなロボットサイネージシステムでは一般的に、シナリオ作成者が、ロボットに発話させる「音声コンテンツ」と、ロボットの腕や首などの関節の動きを表現したり目や口などの動きをLEDで表現する「非言語動作」と、ディスプレイに表示する「画像コンテンツ」とを入力として、ロボット動作シナリオを事前に作成する。

ロボット動作シナリオ作成は、例えば、状態遷移図のノードとリンクへの各種ロボット状態の入力により行う。図１０は、このように入力されるロボット動作シナリオの一例を示す図である。

先ず、あるノード内での「音声コンテンツ」、「非言語動作」、および「画像コンテンツ」を入力する。その後、次のノードへの遷移条件として、ロボットの状態（発話完了や動作完了、指定時間経過等）や他デバイスの状態についての条件を指定して入力する。このようにノード内での「音声コンテンツ」、「非言語動作」、および「画像コンテンツ」の入力と遷移条件の入力とを順次繰り返して、動作シナリオを作成する。

ここで、例えば、ロボットによるジェスチャ等の動的コミュニケーションを実現するために、モーションキャプチャシステムを用いて人間のモーションデータを取得する技術が知られている（例えば、非特許文献１を参照）。

福岡佑太，瀧本浩志，木屋亮，岸雅基，星野孝総，高知工科大学，"モーションキャプチャシステムを用いたＫＨＲ−２ＨＶの動作制御実験，" 26th Fuzzy System Symposium (Hiroshima, September 13-15, 2010)

上述したように、ロボットサイネージシステムにおけるロボットの動作シナリオの作成処理では、「音声コンテンツ」と「画像コンテンツ」とに合わせて「非言語動作」を詳細に設定する必要があり、動作シナリオ作成者の作業負荷が高くなることが知られている。

この発明は上記事情に着目してなされたもので、その目的とするところは、プレゼンテーション提示の際に使用されるプレゼン装置に実行させる動作の指示情報を、音声コンテンツに係る音声データと画像コンテンツに係る画像データとに基づいて生成可能な動作指示生成システム、方法およびプログラムを提供することにある。

上記課題を解決するために、この発明の第１の態様は、画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成システムにあって、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得するジェスチャデータ取得部と、前記取得されたジェスチャデータから前記プレゼンタの顔向きに係る時系列データを取得し、当該顔向きに係る時系列データに基づいて、前記プレゼン装置の視線の方向を決定する視線方向決定部と、前記視線方向決定部によって決定された視線の方向に前記プレゼン装置の視線を向けさせるための第１の指示情報を生成する第１指示生成部と、前記画像コンテンツに係る画像データを取得する画像データ取得部と、前記音声コンテンツに係る音声データを取得する音声データ取得部と、前記画像コンテンツと前記音声コンテンツとの間でキーワードマッチング処理を実行して、当該画像コンテンツおよび音声コンテンツに共通して存在するキーワードを抽出するマッチング処理部と、前記画像コンテンツの表示画面において、前記抽出されたキーワードに対応する領域を、前記プレゼン装置が指し示すための第２の指示情報を生成する第２指示生成部とを備えるようにしたものである。

この発明の第２の態様は、前記動作指示生成システムが、前記取得されたジェスチャデータから前記プレゼンタの腕の角度の時系列データを取得し、当該腕の角度の時系列データに基づいて、前記プレゼン装置によるポインティング角度を決定するポインティング角度決定部と、前記ポインティング角度決定部によって決定されたポインティング角度の方向を前記プレゼン装置が指し示すための第３の指示情報を生成する第３指示生成部とをさらに備えるようにしたものである。

この発明の第３の態様は、前記動作指示生成システムが、前記音声コンテンツにおいて、前記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する接続詞抽出部と、前記抽出された接続詞に対応する前記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを前記プレゼン装置に実行させるための第４の指示情報を生成する第４指示生成部とをさらに備えるようにしたものである。

この発明の第１の態様によれば、画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に関して、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータ、上記画像コンテンツに係る画像データ、および上記音声コンテンツに係る音声データが取得され、取得されたこれらのデータに基づいて上記プレゼン装置が実行する動作の指示情報が生成される。具体的には、上記取得されたジェスチャデータに基づいて上記プレゼン装置の視線の方向が決定され、当該決定された視線の方向に上記プレゼン装置の視線を向けさせるための第１の指示情報が生成される。一方、上記取得された画像データと音声データとに基づいて上記画像コンテンツおよび音声コンテンツに共通して存在するキーワードが抽出され、上記画像コンテンツの表示画面において、上記抽出されたキーワードに対応する領域を、上記プレゼン装置が指し示すための第２の指示情報が生成される。

この発明の第２の態様によれば、上記取得されたジェスチャデータに基づいてプレゼン装置によるポインティング角度が決定され、当該決定されたポインティング角度の方向を上記プレゼン装置が指し示すための第３の指示情報が生成される。

この発明の第３の態様によれば、上記取得された音声データに基づいて、上記音声コンテンツにおいて、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞が抽出され、当該抽出された接続詞に対応する上記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを上記プレゼン装置に実行させるための第４の指示情報が生成される。

このように、この発明の第１の態様、第２の態様、および第３の態様では、プレゼン装置に実行させる動作の指示情報を、取得されたジェスチャデータや、画像コンテンツに係る画像データおよび音声コンテンツに係る音声データに基づいて自動生成できるので、従来技術のように動作シナリオ作成のために各ノード内での非言語動作の入力や次のノードへの遷移条件の入力等をユーザが実行する作業負荷が軽減される。

すなわち、この発明の各態様によれば、プレゼンテーション提示の際に使用されるプレゼン装置に実行させる動作の指示情報を、音声コンテンツに係る音声データと画像コンテンツに係る画像データとに基づいて生成可能な動作指示生成システム、方法およびプログラムを提供することができる。

この発明の第１の実施形態の俯瞰図。この発明の第１の実施形態に係る動作指示生成システムの機能構成を示すブロック図。この発明の第１の実施形態に係る動作指示生成システムの機能構成を示すブロック図。この発明の第１の実施形態に係る動作指示生成システムの機能構成を示すブロック図。図２Ａに示した制御ユニットによって実行される、視線方向決定処理に基づく第１指示情報生成処理の一例を示すフロー図。図２Ａに示した制御ユニットによって実行される、スライド重要点検出処理に基づく第２指示情報生成処理の一例を示すフロー図。図２Ａに示した制御ユニットによって実行される、ポインティング角度決定処理に基づく第３指示情報生成処理の一例を示すフロー図。図２Ａに示した制御ユニットによって実行される、接続詞抽出処理に基づく第４指示情報生成処理の一例を示すフロー図。プレゼンタによるプレゼンテーションの実演の際のディスプレイおよび聴衆の配置の一例を示す図。プレゼンタの顔向きの方向の定義の一例を示す図。プレゼンタの顔向きに係る時系列データの一例を示すグラフ。画像コンテンツおよび音声コンテンツにおけるキーワードマッチング処理の一例の概略図。キーワードマッチング処理によって抽出されたキーワードをプレゼン装置が指し示す一例を示す図。プレゼンタの腕の角度の値を取得するためのグラフの一例を示す図。音声コンテンツにおける接続詞抽出処理の一例の概略図。プレゼン装置によるプレゼンテーション提示の一例の概略図。プレゼン装置に付与する動作シナリオの一例の概略図。プレゼン装置の動作シナリオの一例を示す図。

以下、図面を参照してこの発明に係わる実施形態を説明する。
［第１の実施形態］
（構成）
図１は、この発明の第１の実施形態の俯瞰図である。
この発明の第１の実施形態は、例えば、ヒト型のロボットであるプレゼン装置２とディスプレイ３との組み合わせによりプレゼンテーション提示を実現するロボットサイネージシステムに関係しており、当該プレゼンテーション提示は、例えばディスプレイ３における画像コンテンツとプレゼン装置２の発話による音声コンテンツとにより実現される。

例えば、プレゼンテーション内容を聴衆へ効果的に伝達するためには、場面に応じて画像コンテンツと音声コンテンツとのいずれかに聴衆の集中を促すことが有用である。そのためには、プレゼンタの視線をディスプレイ３の方向と聴衆方向とのいずれかに向けることが考えられる。したがって、上記非言語動作として、プレゼン装置２にこのような動作を実現させるために、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータからプレゼン装置２の視線方向の決定をすることが考えられる。

また、プレゼンテーション内容を聴衆へ効果的に伝達するためには、画像コンテンツ中の重要点を指し示すことも有用である。したがって、上記非言語動作として、プレゼン装置２に画像コンテンツと音声コンテンツとから重要点を判断してこのような動作を実現させることも考えられる。

さらに、プレゼンテーション内容を聴衆へ効果的に伝達するためには、画像コンテンツの表示画面の遷移のタイミングで表示画面間の論理展開を聴衆に伝えることも有用である。したがって、上記非言語動作として、プレゼン装置２に画像コンテンツと音声コンテンツとに基づいてこのような動作を実現させることも考えられる。

この発明の第１の実施形態に係る動作指示生成システム１は、上述したようなプレゼンテーション内容を聴衆へ効果的に伝達するための非言語動作をプレゼン装置２に実行させるための指示情報を生成することが可能である。

図２Ａは、この発明の第１の実施形態に係る動作指示生成システムの機能構成を示すブロック図である。
動作指示生成システム１は、ハードウェアとして、制御ユニット１１と、記憶ユニット１２と、入出力インタフェースユニット１３とを備えている。

入出力インタフェースユニット１３は、例えばキーボードやマウス、Webカメラ、マイク等を含む入力部４によって入力されたジェスチャデータ、画像データ、または音声データを、制御ユニット１１に入力するとともに、制御ユニット１１から出力された動作シナリオを、プレゼン装置２に出力する。なお、ジェスチャデータは、例えば、プレゼンテーション実演動作中のプレゼンタの関節座標を時系列に記録したデータのような、プレゼンタによるプレゼンテーションの実演動作を示すデータである。このようなジェスチャデータは、例えば、Webカメラやビデオカメラもしくは赤外線デプスセンサを搭載したカメラによって撮影された画像データを、入力部４が備える装置によって変換することによって取得される。また、画像データは、例えば、プレゼンテーション提示を行う際に用いられる画像コンテンツのデータであり、スライドコンテンツおよび動画コンテンツや、それらを組み合わせたものであってもよい。また、音声データは、例えば、プレゼンテーション提示を行う際に用いられる音声コンテンツのデータである。例えば、音声データは、プレゼンテーション実演中のプレゼンタによる発話を入力部４が備えるマイクによって取り込むことによって取得される。あるいは、音声データは、オペレータによって入力されたテキストデータを、入力部４が備える装置によって音声データに変換することによって取得されるものであってもよい。

記憶ユニット１２は、記憶媒体として例えばＨＤＤ（Hard Disc Drive）またはＳＳＤ（Solid State Drive）等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したもので、本実施形態を実現するために、取得データ記憶部１２１と、変換データ記憶部１２２と、処理済キーワードデータ記憶部１２３と、動作ジェスチャ記憶部１２４とを備えている。

取得データ記憶部１２１は、入力部４によって入力されたジェスチャデータ、画像データ、および音声データを記憶させるために使用される。

変換データ記憶部１２２は、ジェスチャデータ、画像データ、および音声データがデータ変換部１１２の制御下で処理されたデータを記憶させるために使用される。

処理済キーワードデータ記憶部１２３は、画像キーワードのデータと音声キーワードのデータとがキーワードデータ処理部１１３の制御の下で処理されたデータを記憶させるために使用される。

動作ジェスチャ記憶部１２４は、接続詞キーワード毎に対応付けられたジェスチャを記憶している。当該接続詞キーワード毎に対応付けられたジェスチャは、例えばオペレータによって事前定義することが可能である。

制御ユニット１１は、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサと、プログラムメモリとを備え、本実施形態における処理機能を実行するために、データ取得部１１１と、データ変換部１１２と、キーワードデータ処理部１１３と、動作指示生成部１１４と、動作指示修正部１１５と、動作シナリオ生成部１１６とを備えている。これらの各部における処理機能はいずれも、プログラムメモリに格納されたプログラムを上記ハードウェアプロセッサに実行させることによって実現される。なお、これらの処理機能は、プログラムメモリに格納されたプログラムを用いて実現されるのではなく、ネットワークを通して提供されるプログラムを用いて実現されてもよい。

データ取得部１１１は、ジェスチャデータ取得部１１１１と、画像データ取得部１１１２と、音声データ取得部１１１３とを備えている。
ジェスチャデータ取得部１１１１は、入力部４から入出力インタフェースユニット１３を介して上記ジェスチャデータを取得する処理を実行する。
画像データ取得部１１１２は、入力部４から入出力インタフェースユニット１３を介して上記画像データを取得する処理を実行する。
音声データ取得部１１１３は、入力部４から入出力インタフェースユニット１３を介して上記音声データを取得する処理を実行する。

図２Ｂは、図２Ａに示した取得データ記憶部１２１、データ変換部１１２、および変換データ記憶部１２２の機能構成をより詳細に示したブロック図である。
上述したようにジェスチャデータ取得部１１１１によって取得されたジェスチャデータについての、データ変換部１１２および動作指示生成部１１４における処理について、図２Ｂを参照しながら説明する。

先ず、ジェスチャデータ取得部１１１１は、上述したように取得されたジェスチャデータを、取得データ記憶部１２１のジェスチャデータ記憶部１２１１に記憶させる処理を実行する。

データ変換部１１２は、視線方向決定部１１２１と、ポインティング角度決定部１１２２とを備えている。
視線方向決定部１１２１は、取得データ記憶部１２１のジェスチャデータ記憶部１２１１に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの顔向きに係る時系列データを取得する処理を実行する。当該プレゼンタの顔向きに係る時系列データの取得処理は、例えば、上記ジェスチャデータにおける、プレゼンテーション実演動作中の上記プレゼンタの顔に関連する関節座標の時系列データを利用して実現される。その後、視線方向決定部１１２１は、当該顔向きに係る時系列データに基づいて、プレゼン装置２の視線の方向を決定する処理を実行し、当該決定されたプレゼン装置２の視線の方向のデータを、変換データ記憶部１２２の視線方向記憶部１２２１に記憶させる処理を実行する。

ポインティング角度決定部１１２２は、取得データ記憶部１２１のジェスチャデータ記憶部１２１１に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの腕の角度の時系列データを取得する処理を実行する。当該プレゼンタの腕の角度の時系列データの取得処理は、例えば、上記ジェスチャデータにおける、プレゼンテーション実演動作中の上記プレゼンタの腕に関連する関節座標の時系列データを利用して実現される。その後、ポインティング角度決定部１１２２は、当該腕の角度の時系列データに基づいて、プレゼン装置２によるポインティング角度を決定し、当該決定されたポインティング角度のデータを、変換データ記憶部１２２のポインティング角度記憶部１２２２に記憶させる処理を実行する。

動作指示生成部１１４は、変換データ記憶部１２２の視線方向記憶部１２２１に記憶される、視線方向決定部１１２１の制御下で決定された上記プレゼン装置２の視線の方向のデータを読み出し、当該読み出されたデータが示す方向に、プレゼン装置２の視線を向けさせるための指示情報を生成する処理を実行する。

また、動作指示生成部１１４は、変換データ記憶部１２２のポインティング角度記憶部１２２２に記憶される、ポインティング角度決定部１１２２の制御下で決定された上記プレゼン装置２のポインティング角度のデータを読み出し、当該読み出されたデータが示すポインティング角度の方向をプレゼン装置２が指し示すための指示情報を生成する処理を実行する。

図２Ｃは、図２Ａに示した取得データ記憶部１２１、データ変換部１１２、変換データ記憶部１２２、キーワードデータ処理部１１３、および処理済キーワードデータ記憶部１２３の機能構成をより詳細に示したブロック図である。
上述したように画像データ取得部１１１２によって取得された画像データ、および音声データ取得部１１１３によって取得された音声データについての、データ変換部１１２、キーワードデータ処理部１１３、および動作指示生成部１１４における処理について、図２Ｃを参照しながら説明する。

先ず、画像データ取得部１１１２は、上述したように取得された画像データを、取得データ記憶部１２１の画像データ記憶部１２１２に記憶させる処理を実行する。一方、音声データ取得部１１１３は、上述したように取得された音声データを、取得データ記憶部１２１の音声データ記憶部１２１３に記憶させる処理を実行する。

データ変換部１１２は、画像キーワード取得部１１２３と、音声キーワード取得部１１２４とを備えている。
画像キーワード取得部１１２３は、取得データ記憶部１２１の画像データ記憶部１２１２に記憶される画像データを読み出し、当該読み出された画像データから画像キーワードを取得する処理を実行する。当該画像キーワードの取得処理は、例えば、画像データ中のテキストをＡＰＩベースで取得する。また、当該画像キーワードの取得処理は、画像データ中のテキストデータを画像キーワードとして認識する技術を用いて実行されるようにしてもよい。その後、画像キーワード取得部１１２３は、当該取得された画像キーワードのデータを、変換データ記憶部１２２の画像キーワード記憶部１２２３に記憶させる処理を実行する。

音声キーワード取得部１１２４は、取得データ記憶部１２１の音声データ記憶部１２１３に記憶される音声データを読み出し、当該読み出された音声データから音声キーワードを取得する処理を実行する。なお、当該音声キーワードの取得処理では、図２Ａに示した音声認識サーバ５を利用して音声キーワードの認識および取得をしてもよい。その後、音声キーワード取得部１１２４は、当該取得された音声キーワードのデータを、変換データ記憶部１２２の音声キーワード記憶部１２２４に記憶させる処理を実行する。

キーワードデータ処理部１１３は、マッチング処理部１１３１と、接続詞抽出部１１３２とを備えている。
マッチング処理部１１３１は、変換データ記憶部１２２の画像キーワード記憶部１２２３および音声キーワード記憶部１２２４に記憶される、画像キーワードのデータおよび音声キーワードのデータを読み出す処理を実行する。次に、マッチング処理部１１３１は、当該読み出された画像キーワードのデータが示す画像キーワードと、当該読み出された音声キーワードのデータが示す音声キーワードとの間で、キーワードマッチング処理を実行して、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードを抽出する処理を実行する。その後、マッチング処理部１１３１は、当該抽出された、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードのデータを、処理済キーワードデータ記憶部１２３の一致キーワード記憶部１２３１に記憶させる処理を実行する。

接続詞抽出部１１３２は、変換データ記憶部１２２の音声キーワード記憶部１２２４に記憶される音声キーワードのデータを読み出す処理を実行する。次に、接続詞抽出部１１３２は、当該読み出された音声キーワードのデータから、上記音声コンテンツにおいて、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する処理を実行する。その後、接続詞抽出部１１３２は、当該抽出された、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞のデータを、処理済キーワードデータ記憶部１２３の抽出接続詞記憶部１２３２に記憶させる処理を実行する。

動作指示生成部１１４は、処理済キーワードデータ記憶部１２３の一致キーワード記憶部１２３１に記憶される、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードのデータを読み出す処理を実行する。その後、動作指示生成部１１４は、上記画像コンテンツの表示画面において、当該読み出されたデータが示すキーワードに対応する領域を、プレゼン装置２が指し示すための指示情報を生成する処理を実行する。

また、動作指示生成部１１４は、処理済キーワードデータ記憶部１２３の抽出接続詞記憶部１２３２に記憶される、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞のデータを読み出す処理を実行する。その後、動作指示生成部１１４は、動作ジェスチャ記憶部１２４に記憶される、接続詞キーワード毎に事前定義されたジェスチャを参照して、当該読み出されたデータが示す接続詞に対応する上記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャをプレゼン装置２に実行させるための指示情報を生成する処理を実行する。

最後に、動作指示修正部１１５および動作シナリオ生成部１１６における処理について、図２Ａに戻り説明する。
動作指示修正部１１５は、上述したように動作指示生成部１１４によって生成された指示情報を修正する処理を実行する。

動作シナリオ生成部１１６は、動作指示生成部１１４によって生成され動作指示修正部１１５によって修正された１以上の指示情報に基づいて、プレゼン装置２が実行する動作のシナリオを生成し、当該生成された動作のシナリオを、入出力インタフェースユニット１３を介してプレゼン装置２に出力する処理を実行する。当該生成された動作のシナリオに基づいてプレゼン装置２が実行する動作は、ディスプレイ３における上記画像コンテンツの提示と連動することになる。

（動作）
次に、以上のように構成された動作指示生成システム１の動作を説明する。
図３Ａ，図３Ｂ，図３Ｃ，および図３Ｄは、図２Ａに示した制御ユニット１１によって実行される、プレゼン装置２に実行させる動作の指示情報の生成処理の一例を示すフロー図である。

以下では、これらのフロー図についてそれぞれ、図４Ａから図７を参照しながら説明する。

以下では、図３Ａから図３Ｄに示す各フローについて、図３Ａ，図３Ｂ，図３Ｃ，図３Ｄの順に処理が連続して実行されるものとして示して説明している。しかしながら、図３Ａから図３Ｄの各フローに示される処理が当該フロー内で示される順序で実行される限りは、図３Ａから図３Ｄの各フローの処理の順序を異なる順序であるいは並列して実行するようにしてもよい。なお、この場合でも、図３Ｃのフローに示される処理は、図３ＡのフローのステップＳ１１より後に実行し、図３Ｄのフローに示される処理は、図３ＢのフローのステップＳ２１およびステップＳ２４より後に実行する必要がある点に留意して頂きたい。

（１）視線方向決定処理に基づく第１指示情報生成処理
図３Ａは、視線方向決定処理に基づく第１指示情報生成処理の一例を示すフロー図である。
先ず、ステップＳ１１において、制御ユニット１１は、データ取得部１１１のジェスチャデータ取得部１１１１の制御の下、入力部４から、例えばプレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得し、当該取得されたジェスチャデータをジェスチャデータ記憶部１２１１に記憶させる。

次に、ステップＳ１２において、制御ユニット１１は、データ変換部１１２の視線方向決定部１１２１の制御の下、ジェスチャデータ記憶部１２１１に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの顔向きに係る時系列データを取得する。

図４Ａは、プレゼンタによるプレゼンテーションの実演の際のディスプレイ３および聴衆の配置の一例を示す図であり、図４Ｂは、プレゼンタの顔向きの方向の定義の一例を示す図である。
図４Ｂに示されているように、プレゼンタの顔向きの方向を表すために、例えば、プレゼンタの位置を中心として聴衆の配置位置の中央の方向からプレゼンタの顔が向いている方向への角度を用いる。なお、当該角度は、プレゼンタの顔が聴衆の配置位置の中央の方向からディスプレイ３に向かう方向を正の向きとしている。当該角度について、例えば、オペレータが事前に、プレゼンタの顔向きが聴衆方向である角度の範囲と、プレゼンタの顔向きがディスプレイ３方向である角度の範囲とを設定しておく。

ステップＳ１２の処理では、このように顔向きの方向を定義することによって、ジェスチャデータのような動作キャプチャデータからプレゼンタの顔向きに係る時系列データを取得することができ、当該時系列データでは、時間毎にプレゼンタの顔向きがディスプレイ３の方向と聴衆方向とのいずれを向いているかを判定することができる。

ステップＳ１３において、制御ユニット１１は、視線方向決定部１１２１の制御の下、当該顔向きに係る時系列データに基づいて、プレゼン装置２の視線の方向を決定し、当該決定されたプレゼン装置２の視線の方向のデータを視線方向記憶部１２２１に記憶させる。

図４Ｃは、プレゼンタの顔向きに係る時系列データの一例を示すグラフである。
図４Ｃに示されるグラフは、例えば、単位時間あたりに、プレゼンタの顔向きの方向を表すための角度をジェスチャデータから取得したものをプロットし、飛んでいる値を前後の値から補完したものである。

ステップＳ１３の処理では、例えば、このような時系列データにおいて時間毎にプレゼンタの顔向きがディスプレイ３の方向と聴衆方向とのいずれを向いているかを判定することができるので、時間毎に、プレゼンタの顔向きがディスプレイ３の方向と聴衆方向のいずれかを向いている場合にはその方向にプレゼン装置２の視線の方向を決定する。なお、プレゼン装置２の視線の方向の決定処理では、例えば、オペレータにより予め設定された時間間隔毎に、上記プレゼンタの顔向きの方向を表すための角度の平均値をとり、その平均値に基づいて、上述したように上記プレゼン装置２の視線の方向を決定するようにしてもよい。また、プレゼン装置２の視線の方向としては、上記プレゼンタの顔向きの方向を表すための角度の方向を用いてもよく、あるいは、ディスプレイ３および聴衆の各々について代表方向を定めて用いてもよい。

ステップＳ１４において、制御ユニット１１は、動作指示生成部１１４の制御の下、視線方向記憶部１２２１に記憶される、視線方向決定部１１２１の制御下で決定された上記プレゼン装置２の視線の方向のデータを読み出し、当該読み出されたデータが示す方向に、プレゼン装置２の視線を向けさせるための第１の指示情報を生成する。

（２）スライド重要点検出処理に基づく第２指示情報生成処理
図３Ｂは、スライド重要点検出処理に基づく第２指示情報生成処理の一例を示すフロー図である。
先ず、ステップＳ２１において、制御ユニット１１は、データ取得部１１１の画像データ取得部１１１２の制御の下、入力部４から、例えばプレゼンテーション提示を行う際に用いられる画像コンテンツに係る画像データを取得し、当該取得された画像データを画像データ記憶部１２１２に記憶させる。

次に、ステップＳ２２において、制御ユニット１１は、データ取得部１１１の音声データ取得部１１１３の制御の下、入力部４から、例えばプレゼンテーション提示を行う際に用いられる音声コンテンツに係る音声データを取得し、当該取得された音声データを音声データ記憶部１２１３に記憶させる。

ステップＳ２３において、制御ユニット１１は、データ変換部１１２の画像キーワード取得部１１２３の制御の下、画像データ記憶部１２１２に記憶される画像データを読み出し、当該読み出された画像データから画像キーワードを取得し、当該取得された画像キーワードのデータを画像キーワード記憶部１２２３に記憶させる。

なお、例えば画像コンテンツがスライドコンテンツの場合、当該画像キーワードの取得処理では、スライド単位でキーワードの取得処理を実行し、取得される各画像キーワードについて、当該画像キーワードが取得されるスライドを示す情報や当該スライドが表示される時間情報も取得し、当該取得されるスライドを示す情報や当該スライドが表示される時間情報を画像キーワードに対応付けて画像キーワード記憶部１２２３に記憶させてもよい。また、例えば画像コンテンツが動画コンテンツの場合は、当該画像キーワードの取得処理では、取得される各画像キーワードについて、表示画面において当該画像キーワードが表示されるタイミング情報も取得し、当該取得されるタイミング情報を画像キーワードに対応付けて画像キーワード記憶部１２２３に記憶させてもよい。さらに、当該画像キーワードの取得処理では、取得される各画像キーワードが表示画面上で出現する位置も取得し、当該位置の情報を画像キーワードに対応付けて画像キーワード記憶部１２２３に記憶させてもよい。

ステップＳ２４において、制御ユニット１１は、データ変換部１１２の音声キーワード取得部１１２４の制御の下、音声データ記憶部１２１３に記憶される音声データを読み出し、当該読み出された音声データから音声キーワードを取得し、当該取得された音声キーワードのデータを音声キーワード記憶部１２２４に記憶させる。なお、当該音声キーワードの取得処理では、例えば、音声認識サーバ５を利用して音声キーワードの認識および取得をする。なお、当該音声キーワードの取得処理では、取得される音声キーワードが音声コンテンツ中で発話されるタイミング情報も取得して、当該タイミング情報を音声キーワードに対応付けて音声キーワード記憶部１２２４に記憶させてもよい。

なお、ステップＳ２１、ステップＳ２２、ステップＳ２３、およびステップＳ２４の処理の順序については、ステップＳ２１の処理より後にステップＳ２３の処理が実行され、ステップＳ２２の処理より後にステップＳ２４の処理が実行される限りは任意の順序で実行可能である。

次に、ステップＳ２５において、制御ユニット１１は、キーワードデータ処理部１１３のマッチング処理部１１３１の制御の下、画像キーワード記憶部１２２３および音声キーワード記憶部１２２４に記憶される、画像キーワードのデータおよび音声キーワードのデータを読み出す。次に、制御ユニット１１は、マッチング処理部１１３１の制御の下、当該読み出された画像キーワードのデータが示す画像キーワードと、当該読み出された音声キーワードのデータが示す音声キーワードとの間で、キーワードマッチング処理を実行して、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードを抽出する。その後、制御ユニット１１は、マッチング処理部１１３１の制御の下、当該抽出されたキーワードのデータを一致キーワード記憶部１２３１に記憶させる。

図５Ａは、画像コンテンツおよび音声コンテンツにおけるキーワードマッチング処理の一例の概略図である。
図５Ａでは、ステップＳ２４の処理において取得される音声キーワードｏ１，ｏ２，ｏ３，ｏ４，およびｏ５と、ステップＳ２３の処理において取得される画像キーワードｓ１，ｓ２，ｓ３，ｓ４，およびｓ５とが図示されている。例えば、画像コンテンツおよび音声コンテンツに共通するキーワードとして、音声キーワードｏ１と画像キーワードｓ１、音声キーワードｏ２と画像キーワードｓ２、音声キーワードｏ３と画像キーワードｓ３、音声キーワードｏ４と画像キーワードｓ４、および、音声キーワードｏ５と画像キーワードｓ５の各組合せが存在しているとする。

ステップＳ２５の処理では、音声キーワードｏ１と画像キーワードｓ１、音声キーワードｏ２と画像キーワードｓ２、音声キーワードｏ３と画像キーワードｓ３、音声キーワードｏ４と画像キーワードｓ４、および、音声キーワードｏ５と画像キーワードｓ５の各組合せについて、画像コンテンツおよび音声コンテンツに共通するキーワードとして抽出される。

なお、当該画像コンテンツおよび音声コンテンツに共通するキーワードの抽出処理では、例えば、上述したように、音声キーワード記憶部１２２４において音声キーワードに対応付けて記憶されているタイミング情報を読み出し、さらに、画像キーワード記憶部１２２３において画像キーワードに対応付けられて記憶されている、画像コンテンツがスライドコンテンツの場合の、画像キーワードが表示されるスライドを示す情報および当該スライドが表示される時間情報、あるいは、画像コンテンツが動画コンテンツの場合の、画像キーワードが表示されるタイミング情報も読み出し、当該読み出されたタイミング情報および時間情報を利用してもよい。これにより、例えば、画像コンテンツおよび音声コンテンツに共通するキーワードであって、表示画面に表示されるタイミングと発話されるタイミングとが所定の時間以内のものを抽出したりすることもできる。

ステップＳ２６において、制御ユニット１１は、動作指示生成部１１４の制御の下、一致キーワード記憶部１２３１に記憶される、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードのデータを読み出す。その後、制御ユニット１１は、動作指示生成部１１４の制御の下、上記画像コンテンツの表示画面において、当該読み出されたデータが示すキーワードに対応する領域を、プレゼン装置２が指し示すための第２の指示情報を生成する。

図５Ｂは、キーワードマッチング処理によって抽出されたキーワードをプレゼン装置が指し示す一例を示す図である。
図５Ｂの例では、上記キーワードに対応する領域として、ディスプレイ３の表示画面の縦３方向の３つの領域を用いる場合を図示している。なお、当該キーワードに対応する領域は、例えば、画像キーワード記憶部１２２３において画像キーワードに対応付けられて記憶されている、当該画像キーワードが表示画面上で出現する位置の情報を用いて決定する。なお、当該キーワードに対応する領域は、例えば、プレゼン装置２の可動部２Ａの可動域に基づいて、縦横に任意の数で分割した領域を使用してもよい。

（３）ポインティング角度決定処理に基づく第３指示情報生成処理
図３Ｃは、ポインティング角度決定処理に基づく第３指示情報生成処理の一例を示すフロー図である。
以下で詳細に説明する第３指示情報生成処理は、例えば、図３Ｂに関連して説明した第２指示情報生成処理におけるキーワードマッチング処理ができなかった場合に利用してもよく、あるいは、図３Ｂに関連して説明した第２指示情報生成処理におけるキーワードマッチング処理で生成されたプレゼン装置２による指示動作以外にもプレゼン装置２による指示動作を生成したい場合に用いてもよい。

先ず、ステップＳ３１において、制御ユニット１１は、データ変換部１１２のポインティング角度決定部１１２２の制御の下、ジェスチャデータ記憶部１２１１に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの腕の角度の時系列データを取得する。

図６は、プレゼンタの腕の角度の値を取得するためのグラフの一例を示す図である。
図６のグラフでは、肩、肘、手首、および手の４点の関節座標がプロットされており、この４点の関節座標を用いて腕の角度の値を算出することができる。なお、ジェスチャデータにおいて肩、肘、手首、および手の関節座標を認識する際には、例えば、上記ジェスチャデータにおいて各関節座標に対応付けて記録されている、当該関節座標がどの関節の座標かを示すラベルを用いてもよい。

具体的には、最小二乗法に基づいて４点座標の単回帰直線ｆ（ｘ）＝ａｘ＋ｂを求め、回帰係数ａを利用して４点座標と地面との角度θを算出することができる。

角度θは以下の数式にしたがって算出する。

ステップＳ３１の処理では、このように角度θを算出することにより、ジェスチャデータのような動作キャプチャデータからプレゼンタの腕の角度の時系列データを取得することができる。

次に、ステップＳ３２において、制御ユニット１１は、ポインティング角度決定部１１２２の制御の下、上記腕の角度の時系列データに基づいて、プレゼン装置２によるポインティング角度を決定し、当該決定されたポインティング角度のデータをポインティング角度記憶部１２２２に記憶させる。

ステップＳ３２の処理では、例えば、プレゼン装置２によるポインティング角度として３つの角度を用いる。例えば、上記の角度θについて、６０°＜θ＜９０°の場合に、上記ポインティング角度を、ディスプレイ３の表示画面の縦３方向のうち上の方向を指し示すための角度に決定する。−３０°＜θ＜３０°の場合に、上記ポインティング角度を、ディスプレイ３の表示画面の縦３方向のうち中央の方向を指し示すための角度に決定する。最後に、−９０°＜θ＜−６０°の場合に、上記ポインティング角度を、ディスプレイ３の表示画面の縦３方向のうち下の方向を指し示すための角度に決定する。なお、当該角度θの範囲はオペレータが事前に設定可能である。

ステップＳ３３において、制御ユニット１１は、動作指示生成部１１４の制御の下、ポインティング角度記憶部１２２２に記憶される、ポインティング角度決定部１１２２の制御下で決定された上記プレゼン装置２のポインティング角度のデータを読み出し、当該読み出されたデータが示すポインティング角度の方向をプレゼン装置２が指し示すための第３の指示情報を生成する。

（４）接続詞抽出処理に基づく第４指示情報生成処理
図３Ｄは、接続詞抽出処理に基づく第４指示情報生成処理の一例を示すフロー図である。
先ず、ステップＳ４１において、制御ユニット１１は、キーワードデータ処理部１１３の接続詞抽出部１１３２の制御の下、音声キーワード記憶部１２２４に記憶される音声キーワードのデータを読み出し、当該読み出された音声キーワードのデータから、上記音声コンテンツにおいて、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する。その後、制御ユニット１１は、接続詞抽出部１１３２の制御の下、当該抽出された接続詞のデータを抽出接続詞記憶部１２３２に記憶させる。なお、当該接続詞抽出処理では、抽出される接続詞が音声コンテンツ中で発話されるタイミング情報を音声キーワード記憶部１２２４から取得して、当該タイミング情報を接続詞のデータに対応付けて抽出接続詞記憶部１２３２に記憶させてもよい。

図７は、音声コンテンツにおける接続詞抽出処理の一例の概略図である。
図７では、ステップＳ４１の処理において抽出される、画像コンテンツの表示画面の遷移のタイミングで発話される接続詞キーワードＯ１，Ｏ２，Ｏ３，Ｏ４，およびＯ５が図示されている。例えば、接続詞キーワードＯ１は画像コンテンツ遷移タイミングＴ１で発話され、接続詞キーワードＯ２は画像コンテンツ遷移タイミングＴ２で発話され、接続詞キーワードＯ３は画像コンテンツ遷移タイミングＴ３で発話され、接続詞キーワードＯ４は画像コンテンツ遷移タイミングＴ４で発話され、接続詞キーワードＯ５は画像コンテンツ遷移タイミングＴ５で発話される。

なお、ステップＳ４１の接続詞抽出処理では、例えば、音声キーワード記憶部１２２４から、音声キーワードのデータを当該音声キーワードに対応付けられているタイミング情報とともに読み出し、当該読み出されたキーワードから接続詞キーワードを選択する。さらに、例えば、画像データ記憶部１２１２から画像データを読み出し、当該読み出された画像データに基づいて、画像コンテンツの表示画面の遷移のタイミングを取得する。当該接続詞抽出処理では、上記選択された接続詞キーワードのうち、当該接続詞キーワードに対応付けられているタイミング情報が示すタイミングと、上記取得された画像コンテンツの表示画面の遷移のタイミングのうちのいずれかとの差が予め設定された値以下のものを抽出するようにしてもよい。

なお、画像コンテンツの表示画面の遷移における音声コンテンツの論理展開は、例えば、１．前のスライドの話題を継続して話す、２．前のスライドの話題を補強して説明する、３．前のスライドの話題を批判して説明する、の３パターンが考えられる。

したがって、上記の選択および抽出される接続詞としては、例えば、１．順接（だから）や転換（さて），例示（例えば）、２．補強（なぜなら）や換言（つまり）、３．逆接（しかし）や対比（または）、の３パターンに分類して選択および抽出の処理を実行するようにする。

ステップＳ４２において、制御ユニット１１は、動作指示生成部１１４の制御の下、抽出接続詞記憶部１２３２に記憶される接続詞のデータと当該接続詞に対応付けられたタイミングのデータとを読み出す。その後、制御ユニット１１は、動作指示生成部１１４の制御の下、動作ジェスチャ記憶部１２４に記憶される、接続詞キーワード毎に事前定義されたジェスチャを参照して、上記抽出された接続詞に対応するジェスチャを、当該接続詞に対応付けられたタイミングにおいてプレゼン装置２に実行させるための第４の指示情報を生成する。

なお、当該第４指示情報生成処理は、例えば、上述した論理展開のパターン毎のジェスチャを実行させるための指示情報を生成させるものであってもよい。

（効果）
ジェスチャデータ取得部１１１１の制御の下、入力部４から、例えばプレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータが取得される。また、画像データ取得部１１１２の制御の下、入力部４から、例えばプレゼンテーション提示を行う際に用いられる画像コンテンツに係る画像データが取得される。さらに、音声データ取得部１１１３の制御の下、入力部４から、例えばプレゼンテーション提示を行う際に用いられる音声コンテンツに係る音声データが取得される。

視線方向決定部１１２１および動作指示生成部１１４の制御の下、上記取得されたジェスチャデータにおける視線方向決定処理に基づいて、プレゼン装置２の視線の方向を制御するための第１の指示情報が生成される。また、データ変換部１１２、マッチング処理部１１３１、および動作指示生成部１１４の制御の下、上記取得された画像データおよび音声データにおけるスライド重要点検出処理に基づいて、上記画像コンテンツの表示画面におけるプレゼン装置２の指示領域を制御するための第２の指示情報が生成される。また、ポインティング角度決定部１１２２および動作指示生成部１１４の制御の下、上記取得されたジェスチャデータにおけるポインティング角度決定処理に基づいて、プレゼン装置２によるポインティング角度を制御するための第３の指示情報が生成される。さらに、データ変換部１１２、接続詞抽出部１１３２、および動作指示生成部１１４の制御の下、上記取得された音声データにおける接続詞抽出処理に基づいて、プレゼン装置２にジェスチャを実行させる第４の指示情報が生成される。

このように、プレゼン装置２に実行させる動作の指示情報を、取得されたジェスチャデータや、画像コンテンツに係る画像データおよび音声コンテンツに係る音声データに基づいて自動生成できるので、従来技術のように動作シナリオ作成のために各ノード内での非言語動作の入力や次のノードへの遷移条件の入力等をユーザが実行する作業負荷が軽減される。

［他の実施形態］
なお、この発明は上記第１の実施形態に限定されるものではない。例えば、上記第１の実施形態では、音声認識サーバについて、動作指示生成システムと分離している装置として図示したが、音声認識サーバは動作指示生成システムと一体となっている装置であってもよい。

また、上記第１の実施形態では、プレゼン装置はヒト型のロボットであり、例えば、画像コンテンツと音声コンテンツのいずれかに聴衆の集中を促す際に、当該プレゼン装置の視線を聴衆またはスライドの方に向けることができるもののように説明した。しかしながら、プレゼン装置はヒト型のロボットでなくてもよく、画像コンテンツと音声コンテンツのいずれかに聴衆の集中を促す際に、視線を用いる代わりに、他の何らかの方法で聴衆の注意を集めるような動作をするものであってもよい。

その他、動作指示生成システムの構成や、取得データ記憶部、変換データ記憶部、および処理済データ記憶部においてそれぞれ記憶されるデータの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

要するにこの発明は、上記第１の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第１の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第１の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１…動作指示生成システム、１１…制御ユニット、１１１…データ取得部、１１１１…ジェスチャデータ取得部、１１１２…画像データ取得部、１１１３…音声データ取得部、１１２…データ変換部、１１２１…視線方向決定部、１１２２…ポインティング角度決定部、１１２３…画像キーワード取得部、１１２４…音声キーワード取得部、１１３…キーワードデータ処理部、１１３１…マッチング処理部、１１３２…接続詞抽出部、１１４…動作指示生成部、１１５…動作指示修正部、１１６…動作シナリオ生成部、１２…記憶ユニット、１２１…取得データ記憶部、１２１１…ジェスチャデータ記憶部、１２１２…画像データ記憶部、１２１３…音声データ記憶部、１２２…変換データ記憶部、１２２１…視線方向記憶部、１２２２…ポインティング角度記憶部、１２２３…画像キーワード記憶部、１２２４…音声キーワード記憶部、１２３…処理済キーワードデータ記憶部、１２３１…一致キーワード記憶部、１２３２…抽出接続詞記憶部、１２４…動作ジェスチャ記憶部、１３…入出力インタフェースユニット、２…プレゼン装置、２Ａ…可動部、３…ディスプレイ、４…入力部、５…音声認識サーバ、ｏ１，ｏ２，ｏ３，ｏ４，ｏ５…音声キーワード、ｓ１，ｓ２，ｓ３，ｓ４，ｓ５…画像キーワード、Ｒ１，Ｒ２，Ｒ３…画像領域、Ｏ１，Ｏ２，Ｏ３，Ｏ４，Ｏ５…接続詞キーワード、Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５…画像コンテンツ遷移タイミング、Ｎ１，Ｎ２，Ｎ３…ノード

Claims

画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成システムであって、
プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得するジェスチャデータ取得部と、
前記取得されたジェスチャデータから前記プレゼンタの顔向きに係る時系列データを取得し、当該顔向きに係る時系列データに基づいて、前記プレゼン装置の視線の方向を決定する視線方向決定部と、
前記視線方向決定部によって決定された視線の方向に前記プレゼン装置の視線を向けさせるための第１の指示情報を生成する第１指示生成部と、
前記画像コンテンツに係る画像データを取得する画像データ取得部と、
前記音声コンテンツに係る音声データを取得する音声データ取得部と、
前記画像コンテンツと前記音声コンテンツとの間でキーワードマッチング処理を実行して、当該画像コンテンツおよび音声コンテンツに共通して存在するキーワードを抽出するマッチング処理部と、
前記画像コンテンツの表示画面において、前記抽出されたキーワードに対応する領域を、前記プレゼン装置が指し示すための第２の指示情報を生成する第２指示生成部と
を備える動作指示生成システム。
前記取得されたジェスチャデータから前記プレゼンタの腕の角度の時系列データを取得し、当該腕の角度の時系列データに基づいて、前記プレゼン装置によるポインティング角度を決定するポインティング角度決定部と、
前記ポインティング角度決定部によって決定されたポインティング角度の方向を前記プレゼン装置が指し示すための第３の指示情報を生成する第３指示生成部と
をさらに備える、請求項１に記載の動作指示生成システム。
前記音声コンテンツにおいて、前記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する接続詞抽出部と、
前記抽出された接続詞に対応する前記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを前記プレゼン装置に実行させるための第４の指示情報を生成する第４指示生成部と
をさらに備える、請求項１又は２に記載の動作指示生成システム。
ハードウェアプロセッサおよびメモリを備える装置が実行する、画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成方法であって、
プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得するジェスチャデータ取得過程と、
前記取得されたジェスチャデータから前記プレゼンタの顔向きに係る時系列データを取得し、当該顔向きに係る時系列データに基づいて、前記プレゼン装置の視線の方向を決定する視線方向決定過程と、
前記視線方向決定過程において決定された視線の方向に前記プレゼン装置の視線を向けさせるための第１の指示情報を生成する第１指示生成過程と、
前記画像コンテンツに係る画像データを取得する画像データ取得過程と、
前記音声コンテンツに係る音声データを取得する音声データ取得過程と、
前記画像コンテンツと前記音声コンテンツとの間でキーワードマッチング処理を実行して、当該画像コンテンツおよび音声コンテンツに共通して存在するキーワードを抽出するマッチング処理過程と、
前記画像コンテンツの表示画面において、前記抽出されたキーワードに対応する領域を、前記プレゼン装置が指し示すための第２の指示情報を生成する第２指示生成過程と
を備える動作指示生成方法。
前記取得されたジェスチャデータから前記プレゼンタの腕の角度の時系列データを取得し、当該腕の角度の時系列データに基づいて、前記プレゼン装置によるポインティング角度を決定するポインティング角度決定過程と、
前記ポインティング角度決定過程において決定されたポインティング角度の方向を前記プレゼン装置が指し示すための第３の指示情報を生成する第３指示生成過程と
をさらに備える、請求項４に記載の動作指示生成方法。
前記音声コンテンツにおいて、前記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する接続詞抽出過程と、
前記抽出された接続詞に対応する前記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを前記プレゼン装置に実行させるための第４の指示情報を生成する第４指示生成過程と
をさらに備える、請求項４又は５に記載の動作指示生成方法。
請求項１乃至３のいずれかに記載の動作指示生成システムが備える各部としてハードウェアプロセッサを機能させるプログラム。