JP2019144732A - 動作指示生成システム、方法およびプログラム - Google Patents

動作指示生成システム、方法およびプログラム Download PDF

Info

Publication number
JP2019144732A
JP2019144732A JP2018026928A JP2018026928A JP2019144732A JP 2019144732 A JP2019144732 A JP 2019144732A JP 2018026928 A JP2018026928 A JP 2018026928A JP 2018026928 A JP2018026928 A JP 2018026928A JP 2019144732 A JP2019144732 A JP 2019144732A
Authority
JP
Japan
Prior art keywords
data
keyword
image
unit
presentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018026928A
Other languages
English (en)
Other versions
JP6886663B2 (ja
Inventor
充裕 後藤
Mitsuhiro Goto
充裕 後藤
成宗 松村
Narimune Matsumura
成宗 松村
純史 布引
Ayafumi Nunobiki
純史 布引
山田 智広
Tomohiro Yamada
智広 山田
昭博 柏原
Akihiro Kashiwabara
昭博 柏原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Electro Communications NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Electro Communications NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Electro Communications NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018026928A priority Critical patent/JP6886663B2/ja
Publication of JP2019144732A publication Critical patent/JP2019144732A/ja
Application granted granted Critical
Publication of JP6886663B2 publication Critical patent/JP6886663B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Position Input By Displaying (AREA)

Abstract

【課題】プレゼンテーション提示の際に使用されるプレゼン装置に実行させる動作の指示情報を、音声コンテンツに係る音声データと画像コンテンツに係る画像データとに基づいて生成可能にする。【解決手段】データ取得部111の制御の下、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータ、画像データ、および音声データが取得される。データ変換部112、キーワードデータ処理部113、および動作指示生成部114の制御の下、上記ジェスチャデータに基づいて、プレゼン装置2の視線方向を制御するための第1の指示情報が生成され、上記画像データおよび音声データに基づいて、上記画像コンテンツの表示画面におけるプレゼン装置2の指示領域を制御するための第2の指示情報が生成される。【選択図】図2A

Description

この発明は、プレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成システム、方法およびプログラムに関する。
近年、ロボットを用いてプレゼンテーション提示を実行するロボットサイネージシステムが知られており、当該ロボットサイネージシステムでは、ロボットによる発話や、ロボットとともに用いるディスプレイにより画像の表示をする。図8は、ロボットサイネージシステムによるプレゼンテーション提示の一例の概略図を示している。
図9に示すように、このようなロボットサイネージシステムでは一般的に、シナリオ作成者が、ロボットに発話させる「音声コンテンツ」と、ロボットの腕や首などの関節の動きを表現したり目や口などの動きをLEDで表現する「非言語動作」と、ディスプレイに表示する「画像コンテンツ」とを入力として、ロボット動作シナリオを事前に作成する。
ロボット動作シナリオ作成は、例えば、状態遷移図のノードとリンクへの各種ロボット状態の入力により行う。図10は、このように入力されるロボット動作シナリオの一例を示す図である。
先ず、あるノード内での「音声コンテンツ」、「非言語動作」、および「画像コンテンツ」を入力する。その後、次のノードへの遷移条件として、ロボットの状態(発話完了や動作完了、指定時間経過等)や他デバイスの状態についての条件を指定して入力する。このようにノード内での「音声コンテンツ」、「非言語動作」、および「画像コンテンツ」の入力と遷移条件の入力とを順次繰り返して、動作シナリオを作成する。
ここで、例えば、ロボットによるジェスチャ等の動的コミュニケーションを実現するために、モーションキャプチャシステムを用いて人間のモーションデータを取得する技術が知られている(例えば、非特許文献1を参照)。
福岡佑太,瀧本浩志,木屋亮,岸雅基,星野孝総,高知工科大学,"モーションキャプチャシステムを用いたKHR−2HVの動作制御実験," 26th Fuzzy System Symposium (Hiroshima, September 13-15, 2010)
上述したように、ロボットサイネージシステムにおけるロボットの動作シナリオの作成処理では、「音声コンテンツ」と「画像コンテンツ」とに合わせて「非言語動作」を詳細に設定する必要があり、動作シナリオ作成者の作業負荷が高くなることが知られている。
この発明は上記事情に着目してなされたもので、その目的とするところは、プレゼンテーション提示の際に使用されるプレゼン装置に実行させる動作の指示情報を、音声コンテンツに係る音声データと画像コンテンツに係る画像データとに基づいて生成可能な動作指示生成システム、方法およびプログラムを提供することにある。
上記課題を解決するために、この発明の第1の態様は、画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成システムにあって、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得するジェスチャデータ取得部と、前記取得されたジェスチャデータから前記プレゼンタの顔向きに係る時系列データを取得し、当該顔向きに係る時系列データに基づいて、前記プレゼン装置の視線の方向を決定する視線方向決定部と、前記視線方向決定部によって決定された視線の方向に前記プレゼン装置の視線を向けさせるための第1の指示情報を生成する第1指示生成部と、前記画像コンテンツに係る画像データを取得する画像データ取得部と、前記音声コンテンツに係る音声データを取得する音声データ取得部と、前記画像コンテンツと前記音声コンテンツとの間でキーワードマッチング処理を実行して、当該画像コンテンツおよび音声コンテンツに共通して存在するキーワードを抽出するマッチング処理部と、前記画像コンテンツの表示画面において、前記抽出されたキーワードに対応する領域を、前記プレゼン装置が指し示すための第2の指示情報を生成する第2指示生成部とを備えるようにしたものである。
この発明の第2の態様は、前記動作指示生成システムが、前記取得されたジェスチャデータから前記プレゼンタの腕の角度の時系列データを取得し、当該腕の角度の時系列データに基づいて、前記プレゼン装置によるポインティング角度を決定するポインティング角度決定部と、前記ポインティング角度決定部によって決定されたポインティング角度の方向を前記プレゼン装置が指し示すための第3の指示情報を生成する第3指示生成部とをさらに備えるようにしたものである。
この発明の第3の態様は、前記動作指示生成システムが、前記音声コンテンツにおいて、前記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する接続詞抽出部と、前記抽出された接続詞に対応する前記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを前記プレゼン装置に実行させるための第4の指示情報を生成する第4指示生成部とをさらに備えるようにしたものである。
この発明の第1の態様によれば、画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に関して、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータ、上記画像コンテンツに係る画像データ、および上記音声コンテンツに係る音声データが取得され、取得されたこれらのデータに基づいて上記プレゼン装置が実行する動作の指示情報が生成される。具体的には、上記取得されたジェスチャデータに基づいて上記プレゼン装置の視線の方向が決定され、当該決定された視線の方向に上記プレゼン装置の視線を向けさせるための第1の指示情報が生成される。一方、上記取得された画像データと音声データとに基づいて上記画像コンテンツおよび音声コンテンツに共通して存在するキーワードが抽出され、上記画像コンテンツの表示画面において、上記抽出されたキーワードに対応する領域を、上記プレゼン装置が指し示すための第2の指示情報が生成される。
この発明の第2の態様によれば、上記取得されたジェスチャデータに基づいてプレゼン装置によるポインティング角度が決定され、当該決定されたポインティング角度の方向を上記プレゼン装置が指し示すための第3の指示情報が生成される。
この発明の第3の態様によれば、上記取得された音声データに基づいて、上記音声コンテンツにおいて、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞が抽出され、当該抽出された接続詞に対応する上記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを上記プレゼン装置に実行させるための第4の指示情報が生成される。
このように、この発明の第1の態様、第2の態様、および第3の態様では、プレゼン装置に実行させる動作の指示情報を、取得されたジェスチャデータや、画像コンテンツに係る画像データおよび音声コンテンツに係る音声データに基づいて自動生成できるので、従来技術のように動作シナリオ作成のために各ノード内での非言語動作の入力や次のノードへの遷移条件の入力等をユーザが実行する作業負荷が軽減される。
すなわち、この発明の各態様によれば、プレゼンテーション提示の際に使用されるプレゼン装置に実行させる動作の指示情報を、音声コンテンツに係る音声データと画像コンテンツに係る画像データとに基づいて生成可能な動作指示生成システム、方法およびプログラムを提供することができる。
この発明の第1の実施形態の俯瞰図。 この発明の第1の実施形態に係る動作指示生成システムの機能構成を示すブロック図。 この発明の第1の実施形態に係る動作指示生成システムの機能構成を示すブロック図。 この発明の第1の実施形態に係る動作指示生成システムの機能構成を示すブロック図。 図2Aに示した制御ユニットによって実行される、視線方向決定処理に基づく第1指示情報生成処理の一例を示すフロー図。 図2Aに示した制御ユニットによって実行される、スライド重要点検出処理に基づく第2指示情報生成処理の一例を示すフロー図。 図2Aに示した制御ユニットによって実行される、ポインティング角度決定処理に基づく第3指示情報生成処理の一例を示すフロー図。 図2Aに示した制御ユニットによって実行される、接続詞抽出処理に基づく第4指示情報生成処理の一例を示すフロー図。 プレゼンタによるプレゼンテーションの実演の際のディスプレイおよび聴衆の配置の一例を示す図。 プレゼンタの顔向きの方向の定義の一例を示す図。 プレゼンタの顔向きに係る時系列データの一例を示すグラフ。 画像コンテンツおよび音声コンテンツにおけるキーワードマッチング処理の一例の概略図。 キーワードマッチング処理によって抽出されたキーワードをプレゼン装置が指し示す一例を示す図。 プレゼンタの腕の角度の値を取得するためのグラフの一例を示す図。 音声コンテンツにおける接続詞抽出処理の一例の概略図。 プレゼン装置によるプレゼンテーション提示の一例の概略図。 プレゼン装置に付与する動作シナリオの一例の概略図。 プレゼン装置の動作シナリオの一例を示す図。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
(構成)
図1は、この発明の第1の実施形態の俯瞰図である。
この発明の第1の実施形態は、例えば、ヒト型のロボットであるプレゼン装置2とディスプレイ3との組み合わせによりプレゼンテーション提示を実現するロボットサイネージシステムに関係しており、当該プレゼンテーション提示は、例えばディスプレイ3における画像コンテンツとプレゼン装置2の発話による音声コンテンツとにより実現される。
例えば、プレゼンテーション内容を聴衆へ効果的に伝達するためには、場面に応じて画像コンテンツと音声コンテンツとのいずれかに聴衆の集中を促すことが有用である。そのためには、プレゼンタの視線をディスプレイ3の方向と聴衆方向とのいずれかに向けることが考えられる。したがって、上記非言語動作として、プレゼン装置2にこのような動作を実現させるために、プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータからプレゼン装置2の視線方向の決定をすることが考えられる。
また、プレゼンテーション内容を聴衆へ効果的に伝達するためには、画像コンテンツ中の重要点を指し示すことも有用である。したがって、上記非言語動作として、プレゼン装置2に画像コンテンツと音声コンテンツとから重要点を判断してこのような動作を実現させることも考えられる。
さらに、プレゼンテーション内容を聴衆へ効果的に伝達するためには、画像コンテンツの表示画面の遷移のタイミングで表示画面間の論理展開を聴衆に伝えることも有用である。したがって、上記非言語動作として、プレゼン装置2に画像コンテンツと音声コンテンツとに基づいてこのような動作を実現させることも考えられる。
この発明の第1の実施形態に係る動作指示生成システム1は、上述したようなプレゼンテーション内容を聴衆へ効果的に伝達するための非言語動作をプレゼン装置2に実行させるための指示情報を生成することが可能である。
図2Aは、この発明の第1の実施形態に係る動作指示生成システムの機能構成を示すブロック図である。
動作指示生成システム1は、ハードウェアとして、制御ユニット11と、記憶ユニット12と、入出力インタフェースユニット13とを備えている。
入出力インタフェースユニット13は、例えばキーボードやマウス、Webカメラ、マイク等を含む入力部4によって入力されたジェスチャデータ、画像データ、または音声データを、制御ユニット11に入力するとともに、制御ユニット11から出力された動作シナリオを、プレゼン装置2に出力する。なお、ジェスチャデータは、例えば、プレゼンテーション実演動作中のプレゼンタの関節座標を時系列に記録したデータのような、プレゼンタによるプレゼンテーションの実演動作を示すデータである。このようなジェスチャデータは、例えば、Webカメラやビデオカメラもしくは赤外線デプスセンサを搭載したカメラによって撮影された画像データを、入力部4が備える装置によって変換することによって取得される。また、画像データは、例えば、プレゼンテーション提示を行う際に用いられる画像コンテンツのデータであり、スライドコンテンツおよび動画コンテンツや、それらを組み合わせたものであってもよい。また、音声データは、例えば、プレゼンテーション提示を行う際に用いられる音声コンテンツのデータである。例えば、音声データは、プレゼンテーション実演中のプレゼンタによる発話を入力部4が備えるマイクによって取り込むことによって取得される。あるいは、音声データは、オペレータによって入力されたテキストデータを、入力部4が備える装置によって音声データに変換することによって取得されるものであってもよい。
記憶ユニット12は、記憶媒体として例えばHDD(Hard Disc Drive)またはSSD(Solid State Drive)等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したもので、本実施形態を実現するために、取得データ記憶部121と、変換データ記憶部122と、処理済キーワードデータ記憶部123と、動作ジェスチャ記憶部124とを備えている。
取得データ記憶部121は、入力部4によって入力されたジェスチャデータ、画像データ、および音声データを記憶させるために使用される。
変換データ記憶部122は、ジェスチャデータ、画像データ、および音声データがデータ変換部112の制御下で処理されたデータを記憶させるために使用される。
処理済キーワードデータ記憶部123は、画像キーワードのデータと音声キーワードのデータとがキーワードデータ処理部113の制御の下で処理されたデータを記憶させるために使用される。
動作ジェスチャ記憶部124は、接続詞キーワード毎に対応付けられたジェスチャを記憶している。当該接続詞キーワード毎に対応付けられたジェスチャは、例えばオペレータによって事前定義することが可能である。
制御ユニット11は、CPU(Central Processing Unit)等のハードウェアプロセッサと、プログラムメモリとを備え、本実施形態における処理機能を実行するために、データ取得部111と、データ変換部112と、キーワードデータ処理部113と、動作指示生成部114と、動作指示修正部115と、動作シナリオ生成部116とを備えている。これらの各部における処理機能はいずれも、プログラムメモリに格納されたプログラムを上記ハードウェアプロセッサに実行させることによって実現される。なお、これらの処理機能は、プログラムメモリに格納されたプログラムを用いて実現されるのではなく、ネットワークを通して提供されるプログラムを用いて実現されてもよい。
データ取得部111は、ジェスチャデータ取得部1111と、画像データ取得部1112と、音声データ取得部1113とを備えている。
ジェスチャデータ取得部1111は、入力部4から入出力インタフェースユニット13を介して上記ジェスチャデータを取得する処理を実行する。
画像データ取得部1112は、入力部4から入出力インタフェースユニット13を介して上記画像データを取得する処理を実行する。
音声データ取得部1113は、入力部4から入出力インタフェースユニット13を介して上記音声データを取得する処理を実行する。
図2Bは、図2Aに示した取得データ記憶部121、データ変換部112、および変換データ記憶部122の機能構成をより詳細に示したブロック図である。
上述したようにジェスチャデータ取得部1111によって取得されたジェスチャデータについての、データ変換部112および動作指示生成部114における処理について、図2Bを参照しながら説明する。
先ず、ジェスチャデータ取得部1111は、上述したように取得されたジェスチャデータを、取得データ記憶部121のジェスチャデータ記憶部1211に記憶させる処理を実行する。
データ変換部112は、視線方向決定部1121と、ポインティング角度決定部1122とを備えている。
視線方向決定部1121は、取得データ記憶部121のジェスチャデータ記憶部1211に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの顔向きに係る時系列データを取得する処理を実行する。当該プレゼンタの顔向きに係る時系列データの取得処理は、例えば、上記ジェスチャデータにおける、プレゼンテーション実演動作中の上記プレゼンタの顔に関連する関節座標の時系列データを利用して実現される。その後、視線方向決定部1121は、当該顔向きに係る時系列データに基づいて、プレゼン装置2の視線の方向を決定する処理を実行し、当該決定されたプレゼン装置2の視線の方向のデータを、変換データ記憶部122の視線方向記憶部1221に記憶させる処理を実行する。
ポインティング角度決定部1122は、取得データ記憶部121のジェスチャデータ記憶部1211に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの腕の角度の時系列データを取得する処理を実行する。当該プレゼンタの腕の角度の時系列データの取得処理は、例えば、上記ジェスチャデータにおける、プレゼンテーション実演動作中の上記プレゼンタの腕に関連する関節座標の時系列データを利用して実現される。その後、ポインティング角度決定部1122は、当該腕の角度の時系列データに基づいて、プレゼン装置2によるポインティング角度を決定し、当該決定されたポインティング角度のデータを、変換データ記憶部122のポインティング角度記憶部1222に記憶させる処理を実行する。
動作指示生成部114は、変換データ記憶部122の視線方向記憶部1221に記憶される、視線方向決定部1121の制御下で決定された上記プレゼン装置2の視線の方向のデータを読み出し、当該読み出されたデータが示す方向に、プレゼン装置2の視線を向けさせるための指示情報を生成する処理を実行する。
また、動作指示生成部114は、変換データ記憶部122のポインティング角度記憶部1222に記憶される、ポインティング角度決定部1122の制御下で決定された上記プレゼン装置2のポインティング角度のデータを読み出し、当該読み出されたデータが示すポインティング角度の方向をプレゼン装置2が指し示すための指示情報を生成する処理を実行する。
図2Cは、図2Aに示した取得データ記憶部121、データ変換部112、変換データ記憶部122、キーワードデータ処理部113、および処理済キーワードデータ記憶部123の機能構成をより詳細に示したブロック図である。
上述したように画像データ取得部1112によって取得された画像データ、および音声データ取得部1113によって取得された音声データについての、データ変換部112、キーワードデータ処理部113、および動作指示生成部114における処理について、図2Cを参照しながら説明する。
先ず、画像データ取得部1112は、上述したように取得された画像データを、取得データ記憶部121の画像データ記憶部1212に記憶させる処理を実行する。一方、音声データ取得部1113は、上述したように取得された音声データを、取得データ記憶部121の音声データ記憶部1213に記憶させる処理を実行する。
データ変換部112は、画像キーワード取得部1123と、音声キーワード取得部1124とを備えている。
画像キーワード取得部1123は、取得データ記憶部121の画像データ記憶部1212に記憶される画像データを読み出し、当該読み出された画像データから画像キーワードを取得する処理を実行する。当該画像キーワードの取得処理は、例えば、画像データ中のテキストをAPIベースで取得する。また、当該画像キーワードの取得処理は、画像データ中のテキストデータを画像キーワードとして認識する技術を用いて実行されるようにしてもよい。その後、画像キーワード取得部1123は、当該取得された画像キーワードのデータを、変換データ記憶部122の画像キーワード記憶部1223に記憶させる処理を実行する。
音声キーワード取得部1124は、取得データ記憶部121の音声データ記憶部1213に記憶される音声データを読み出し、当該読み出された音声データから音声キーワードを取得する処理を実行する。なお、当該音声キーワードの取得処理では、図2Aに示した音声認識サーバ5を利用して音声キーワードの認識および取得をしてもよい。その後、音声キーワード取得部1124は、当該取得された音声キーワードのデータを、変換データ記憶部122の音声キーワード記憶部1224に記憶させる処理を実行する。
キーワードデータ処理部113は、マッチング処理部1131と、接続詞抽出部1132とを備えている。
マッチング処理部1131は、変換データ記憶部122の画像キーワード記憶部1223および音声キーワード記憶部1224に記憶される、画像キーワードのデータおよび音声キーワードのデータを読み出す処理を実行する。次に、マッチング処理部1131は、当該読み出された画像キーワードのデータが示す画像キーワードと、当該読み出された音声キーワードのデータが示す音声キーワードとの間で、キーワードマッチング処理を実行して、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードを抽出する処理を実行する。その後、マッチング処理部1131は、当該抽出された、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードのデータを、処理済キーワードデータ記憶部123の一致キーワード記憶部1231に記憶させる処理を実行する。
接続詞抽出部1132は、変換データ記憶部122の音声キーワード記憶部1224に記憶される音声キーワードのデータを読み出す処理を実行する。次に、接続詞抽出部1132は、当該読み出された音声キーワードのデータから、上記音声コンテンツにおいて、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する処理を実行する。その後、接続詞抽出部1132は、当該抽出された、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞のデータを、処理済キーワードデータ記憶部123の抽出接続詞記憶部1232に記憶させる処理を実行する。
動作指示生成部114は、処理済キーワードデータ記憶部123の一致キーワード記憶部1231に記憶される、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードのデータを読み出す処理を実行する。その後、動作指示生成部114は、上記画像コンテンツの表示画面において、当該読み出されたデータが示すキーワードに対応する領域を、プレゼン装置2が指し示すための指示情報を生成する処理を実行する。
また、動作指示生成部114は、処理済キーワードデータ記憶部123の抽出接続詞記憶部1232に記憶される、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞のデータを読み出す処理を実行する。その後、動作指示生成部114は、動作ジェスチャ記憶部124に記憶される、接続詞キーワード毎に事前定義されたジェスチャを参照して、当該読み出されたデータが示す接続詞に対応する上記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャをプレゼン装置2に実行させるための指示情報を生成する処理を実行する。
最後に、動作指示修正部115および動作シナリオ生成部116における処理について、図2Aに戻り説明する。
動作指示修正部115は、上述したように動作指示生成部114によって生成された指示情報を修正する処理を実行する。
動作シナリオ生成部116は、動作指示生成部114によって生成され動作指示修正部115によって修正された1以上の指示情報に基づいて、プレゼン装置2が実行する動作のシナリオを生成し、当該生成された動作のシナリオを、入出力インタフェースユニット13を介してプレゼン装置2に出力する処理を実行する。当該生成された動作のシナリオに基づいてプレゼン装置2が実行する動作は、ディスプレイ3における上記画像コンテンツの提示と連動することになる。
(動作)
次に、以上のように構成された動作指示生成システム1の動作を説明する。
図3A,図3B,図3C,および図3Dは、図2Aに示した制御ユニット11によって実行される、プレゼン装置2に実行させる動作の指示情報の生成処理の一例を示すフロー図である。
以下では、これらのフロー図についてそれぞれ、図4Aから図7を参照しながら説明する。
以下では、図3Aから図3Dに示す各フローについて、図3A,図3B,図3C,図3Dの順に処理が連続して実行されるものとして示して説明している。しかしながら、図3Aから図3Dの各フローに示される処理が当該フロー内で示される順序で実行される限りは、図3Aから図3Dの各フローの処理の順序を異なる順序であるいは並列して実行するようにしてもよい。なお、この場合でも、図3Cのフローに示される処理は、図3AのフローのステップS11より後に実行し、図3Dのフローに示される処理は、図3BのフローのステップS21およびステップS24より後に実行する必要がある点に留意して頂きたい。
(1)視線方向決定処理に基づく第1指示情報生成処理
図3Aは、視線方向決定処理に基づく第1指示情報生成処理の一例を示すフロー図である。
先ず、ステップS11において、制御ユニット11は、データ取得部111のジェスチャデータ取得部1111の制御の下、入力部4から、例えばプレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得し、当該取得されたジェスチャデータをジェスチャデータ記憶部1211に記憶させる。
次に、ステップS12において、制御ユニット11は、データ変換部112の視線方向決定部1121の制御の下、ジェスチャデータ記憶部1211に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの顔向きに係る時系列データを取得する。
図4Aは、プレゼンタによるプレゼンテーションの実演の際のディスプレイ3および聴衆の配置の一例を示す図であり、図4Bは、プレゼンタの顔向きの方向の定義の一例を示す図である。
図4Bに示されているように、プレゼンタの顔向きの方向を表すために、例えば、プレゼンタの位置を中心として聴衆の配置位置の中央の方向からプレゼンタの顔が向いている方向への角度を用いる。なお、当該角度は、プレゼンタの顔が聴衆の配置位置の中央の方向からディスプレイ3に向かう方向を正の向きとしている。当該角度について、例えば、オペレータが事前に、プレゼンタの顔向きが聴衆方向である角度の範囲と、プレゼンタの顔向きがディスプレイ3方向である角度の範囲とを設定しておく。
ステップS12の処理では、このように顔向きの方向を定義することによって、ジェスチャデータのような動作キャプチャデータからプレゼンタの顔向きに係る時系列データを取得することができ、当該時系列データでは、時間毎にプレゼンタの顔向きがディスプレイ3の方向と聴衆方向とのいずれを向いているかを判定することができる。
ステップS13において、制御ユニット11は、視線方向決定部1121の制御の下、当該顔向きに係る時系列データに基づいて、プレゼン装置2の視線の方向を決定し、当該決定されたプレゼン装置2の視線の方向のデータを視線方向記憶部1221に記憶させる。
図4Cは、プレゼンタの顔向きに係る時系列データの一例を示すグラフである。
図4Cに示されるグラフは、例えば、単位時間あたりに、プレゼンタの顔向きの方向を表すための角度をジェスチャデータから取得したものをプロットし、飛んでいる値を前後の値から補完したものである。
ステップS13の処理では、例えば、このような時系列データにおいて時間毎にプレゼンタの顔向きがディスプレイ3の方向と聴衆方向とのいずれを向いているかを判定することができるので、時間毎に、プレゼンタの顔向きがディスプレイ3の方向と聴衆方向のいずれかを向いている場合にはその方向にプレゼン装置2の視線の方向を決定する。なお、プレゼン装置2の視線の方向の決定処理では、例えば、オペレータにより予め設定された時間間隔毎に、上記プレゼンタの顔向きの方向を表すための角度の平均値をとり、その平均値に基づいて、上述したように上記プレゼン装置2の視線の方向を決定するようにしてもよい。また、プレゼン装置2の視線の方向としては、上記プレゼンタの顔向きの方向を表すための角度の方向を用いてもよく、あるいは、ディスプレイ3および聴衆の各々について代表方向を定めて用いてもよい。
ステップS14において、制御ユニット11は、動作指示生成部114の制御の下、視線方向記憶部1221に記憶される、視線方向決定部1121の制御下で決定された上記プレゼン装置2の視線の方向のデータを読み出し、当該読み出されたデータが示す方向に、プレゼン装置2の視線を向けさせるための第1の指示情報を生成する。
(2)スライド重要点検出処理に基づく第2指示情報生成処理
図3Bは、スライド重要点検出処理に基づく第2指示情報生成処理の一例を示すフロー図である。
先ず、ステップS21において、制御ユニット11は、データ取得部111の画像データ取得部1112の制御の下、入力部4から、例えばプレゼンテーション提示を行う際に用いられる画像コンテンツに係る画像データを取得し、当該取得された画像データを画像データ記憶部1212に記憶させる。
次に、ステップS22において、制御ユニット11は、データ取得部111の音声データ取得部1113の制御の下、入力部4から、例えばプレゼンテーション提示を行う際に用いられる音声コンテンツに係る音声データを取得し、当該取得された音声データを音声データ記憶部1213に記憶させる。
ステップS23において、制御ユニット11は、データ変換部112の画像キーワード取得部1123の制御の下、画像データ記憶部1212に記憶される画像データを読み出し、当該読み出された画像データから画像キーワードを取得し、当該取得された画像キーワードのデータを画像キーワード記憶部1223に記憶させる。
なお、例えば画像コンテンツがスライドコンテンツの場合、当該画像キーワードの取得処理では、スライド単位でキーワードの取得処理を実行し、取得される各画像キーワードについて、当該画像キーワードが取得されるスライドを示す情報や当該スライドが表示される時間情報も取得し、当該取得されるスライドを示す情報や当該スライドが表示される時間情報を画像キーワードに対応付けて画像キーワード記憶部1223に記憶させてもよい。また、例えば画像コンテンツが動画コンテンツの場合は、当該画像キーワードの取得処理では、取得される各画像キーワードについて、表示画面において当該画像キーワードが表示されるタイミング情報も取得し、当該取得されるタイミング情報を画像キーワードに対応付けて画像キーワード記憶部1223に記憶させてもよい。さらに、当該画像キーワードの取得処理では、取得される各画像キーワードが表示画面上で出現する位置も取得し、当該位置の情報を画像キーワードに対応付けて画像キーワード記憶部1223に記憶させてもよい。
ステップS24において、制御ユニット11は、データ変換部112の音声キーワード取得部1124の制御の下、音声データ記憶部1213に記憶される音声データを読み出し、当該読み出された音声データから音声キーワードを取得し、当該取得された音声キーワードのデータを音声キーワード記憶部1224に記憶させる。なお、当該音声キーワードの取得処理では、例えば、音声認識サーバ5を利用して音声キーワードの認識および取得をする。なお、当該音声キーワードの取得処理では、取得される音声キーワードが音声コンテンツ中で発話されるタイミング情報も取得して、当該タイミング情報を音声キーワードに対応付けて音声キーワード記憶部1224に記憶させてもよい。
なお、ステップS21、ステップS22、ステップS23、およびステップS24の処理の順序については、ステップS21の処理より後にステップS23の処理が実行され、ステップS22の処理より後にステップS24の処理が実行される限りは任意の順序で実行可能である。
次に、ステップS25において、制御ユニット11は、キーワードデータ処理部113のマッチング処理部1131の制御の下、画像キーワード記憶部1223および音声キーワード記憶部1224に記憶される、画像キーワードのデータおよび音声キーワードのデータを読み出す。次に、制御ユニット11は、マッチング処理部1131の制御の下、当該読み出された画像キーワードのデータが示す画像キーワードと、当該読み出された音声キーワードのデータが示す音声キーワードとの間で、キーワードマッチング処理を実行して、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードを抽出する。その後、制御ユニット11は、マッチング処理部1131の制御の下、当該抽出されたキーワードのデータを一致キーワード記憶部1231に記憶させる。
図5Aは、画像コンテンツおよび音声コンテンツにおけるキーワードマッチング処理の一例の概略図である。
図5Aでは、ステップS24の処理において取得される音声キーワードo1,o2,o3,o4,およびo5と、ステップS23の処理において取得される画像キーワードs1,s2,s3,s4,およびs5とが図示されている。例えば、画像コンテンツおよび音声コンテンツに共通するキーワードとして、音声キーワードo1と画像キーワードs1、音声キーワードo2と画像キーワードs2、音声キーワードo3と画像キーワードs3、音声キーワードo4と画像キーワードs4、および、音声キーワードo5と画像キーワードs5の各組合せが存在しているとする。
ステップS25の処理では、音声キーワードo1と画像キーワードs1、音声キーワードo2と画像キーワードs2、音声キーワードo3と画像キーワードs3、音声キーワードo4と画像キーワードs4、および、音声キーワードo5と画像キーワードs5の各組合せについて、画像コンテンツおよび音声コンテンツに共通するキーワードとして抽出される。
なお、当該画像コンテンツおよび音声コンテンツに共通するキーワードの抽出処理では、例えば、上述したように、音声キーワード記憶部1224において音声キーワードに対応付けて記憶されているタイミング情報を読み出し、さらに、画像キーワード記憶部1223において画像キーワードに対応付けられて記憶されている、画像コンテンツがスライドコンテンツの場合の、画像キーワードが表示されるスライドを示す情報および当該スライドが表示される時間情報、あるいは、画像コンテンツが動画コンテンツの場合の、画像キーワードが表示されるタイミング情報も読み出し、当該読み出されたタイミング情報および時間情報を利用してもよい。これにより、例えば、画像コンテンツおよび音声コンテンツに共通するキーワードであって、表示画面に表示されるタイミングと発話されるタイミングとが所定の時間以内のものを抽出したりすることもできる。
ステップS26において、制御ユニット11は、動作指示生成部114の制御の下、一致キーワード記憶部1231に記憶される、上記画像コンテンツおよび上記音声コンテンツに共通して存在するキーワードのデータを読み出す。その後、制御ユニット11は、動作指示生成部114の制御の下、上記画像コンテンツの表示画面において、当該読み出されたデータが示すキーワードに対応する領域を、プレゼン装置2が指し示すための第2の指示情報を生成する。
図5Bは、キーワードマッチング処理によって抽出されたキーワードをプレゼン装置が指し示す一例を示す図である。
図5Bの例では、上記キーワードに対応する領域として、ディスプレイ3の表示画面の縦3方向の3つの領域を用いる場合を図示している。なお、当該キーワードに対応する領域は、例えば、画像キーワード記憶部1223において画像キーワードに対応付けられて記憶されている、当該画像キーワードが表示画面上で出現する位置の情報を用いて決定する。なお、当該キーワードに対応する領域は、例えば、プレゼン装置2の可動部2Aの可動域に基づいて、縦横に任意の数で分割した領域を使用してもよい。
(3)ポインティング角度決定処理に基づく第3指示情報生成処理
図3Cは、ポインティング角度決定処理に基づく第3指示情報生成処理の一例を示すフロー図である。
以下で詳細に説明する第3指示情報生成処理は、例えば、図3Bに関連して説明した第2指示情報生成処理におけるキーワードマッチング処理ができなかった場合に利用してもよく、あるいは、図3Bに関連して説明した第2指示情報生成処理におけるキーワードマッチング処理で生成されたプレゼン装置2による指示動作以外にもプレゼン装置2による指示動作を生成したい場合に用いてもよい。
先ず、ステップS31において、制御ユニット11は、データ変換部112のポインティング角度決定部1122の制御の下、ジェスチャデータ記憶部1211に記憶されるジェスチャデータを読み出し、当該読み出されたジェスチャデータから上記プレゼンタの腕の角度の時系列データを取得する。
図6は、プレゼンタの腕の角度の値を取得するためのグラフの一例を示す図である。
図6のグラフでは、肩、肘、手首、および手の4点の関節座標がプロットされており、この4点の関節座標を用いて腕の角度の値を算出することができる。なお、ジェスチャデータにおいて肩、肘、手首、および手の関節座標を認識する際には、例えば、上記ジェスチャデータにおいて各関節座標に対応付けて記録されている、当該関節座標がどの関節の座標かを示すラベルを用いてもよい。
具体的には、最小二乗法に基づいて4点座標の単回帰直線f(x)=ax+bを求め、回帰係数aを利用して4点座標と地面との角度θを算出することができる。
角度θは以下の数式にしたがって算出する。
ステップS31の処理では、このように角度θを算出することにより、ジェスチャデータのような動作キャプチャデータからプレゼンタの腕の角度の時系列データを取得することができる。
次に、ステップS32において、制御ユニット11は、ポインティング角度決定部1122の制御の下、上記腕の角度の時系列データに基づいて、プレゼン装置2によるポインティング角度を決定し、当該決定されたポインティング角度のデータをポインティング角度記憶部1222に記憶させる。
ステップS32の処理では、例えば、プレゼン装置2によるポインティング角度として3つの角度を用いる。例えば、上記の角度θについて、60°<θ<90°の場合に、上記ポインティング角度を、ディスプレイ3の表示画面の縦3方向のうち上の方向を指し示すための角度に決定する。−30°<θ<30°の場合に、上記ポインティング角度を、ディスプレイ3の表示画面の縦3方向のうち中央の方向を指し示すための角度に決定する。最後に、−90°<θ<−60°の場合に、上記ポインティング角度を、ディスプレイ3の表示画面の縦3方向のうち下の方向を指し示すための角度に決定する。なお、当該角度θの範囲はオペレータが事前に設定可能である。
ステップS33において、制御ユニット11は、動作指示生成部114の制御の下、ポインティング角度記憶部1222に記憶される、ポインティング角度決定部1122の制御下で決定された上記プレゼン装置2のポインティング角度のデータを読み出し、当該読み出されたデータが示すポインティング角度の方向をプレゼン装置2が指し示すための第3の指示情報を生成する。
(4)接続詞抽出処理に基づく第4指示情報生成処理
図3Dは、接続詞抽出処理に基づく第4指示情報生成処理の一例を示すフロー図である。
先ず、ステップS41において、制御ユニット11は、キーワードデータ処理部113の接続詞抽出部1132の制御の下、音声キーワード記憶部1224に記憶される音声キーワードのデータを読み出し、当該読み出された音声キーワードのデータから、上記音声コンテンツにおいて、上記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する。その後、制御ユニット11は、接続詞抽出部1132の制御の下、当該抽出された接続詞のデータを抽出接続詞記憶部1232に記憶させる。なお、当該接続詞抽出処理では、抽出される接続詞が音声コンテンツ中で発話されるタイミング情報を音声キーワード記憶部1224から取得して、当該タイミング情報を接続詞のデータに対応付けて抽出接続詞記憶部1232に記憶させてもよい。
図7は、音声コンテンツにおける接続詞抽出処理の一例の概略図である。
図7では、ステップS41の処理において抽出される、画像コンテンツの表示画面の遷移のタイミングで発話される接続詞キーワードO1,O2,O3,O4,およびO5が図示されている。例えば、接続詞キーワードO1は画像コンテンツ遷移タイミングT1で発話され、接続詞キーワードO2は画像コンテンツ遷移タイミングT2で発話され、接続詞キーワードO3は画像コンテンツ遷移タイミングT3で発話され、接続詞キーワードO4は画像コンテンツ遷移タイミングT4で発話され、接続詞キーワードO5は画像コンテンツ遷移タイミングT5で発話される。
なお、ステップS41の接続詞抽出処理では、例えば、音声キーワード記憶部1224から、音声キーワードのデータを当該音声キーワードに対応付けられているタイミング情報とともに読み出し、当該読み出されたキーワードから接続詞キーワードを選択する。さらに、例えば、画像データ記憶部1212から画像データを読み出し、当該読み出された画像データに基づいて、画像コンテンツの表示画面の遷移のタイミングを取得する。当該接続詞抽出処理では、上記選択された接続詞キーワードのうち、当該接続詞キーワードに対応付けられているタイミング情報が示すタイミングと、上記取得された画像コンテンツの表示画面の遷移のタイミングのうちのいずれかとの差が予め設定された値以下のものを抽出するようにしてもよい。
なお、画像コンテンツの表示画面の遷移における音声コンテンツの論理展開は、例えば、1.前のスライドの話題を継続して話す、2.前のスライドの話題を補強して説明する、3.前のスライドの話題を批判して説明する、の3パターンが考えられる。
したがって、上記の選択および抽出される接続詞としては、例えば、1.順接(だから)や転換(さて),例示(例えば)、2.補強(なぜなら)や換言(つまり)、3.逆接(しかし)や対比(または)、の3パターンに分類して選択および抽出の処理を実行するようにする。
ステップS42において、制御ユニット11は、動作指示生成部114の制御の下、抽出接続詞記憶部1232に記憶される接続詞のデータと当該接続詞に対応付けられたタイミングのデータとを読み出す。その後、制御ユニット11は、動作指示生成部114の制御の下、動作ジェスチャ記憶部124に記憶される、接続詞キーワード毎に事前定義されたジェスチャを参照して、上記抽出された接続詞に対応するジェスチャを、当該接続詞に対応付けられたタイミングにおいてプレゼン装置2に実行させるための第4の指示情報を生成する。
なお、当該第4指示情報生成処理は、例えば、上述した論理展開のパターン毎のジェスチャを実行させるための指示情報を生成させるものであってもよい。
(効果)
ジェスチャデータ取得部1111の制御の下、入力部4から、例えばプレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータが取得される。また、画像データ取得部1112の制御の下、入力部4から、例えばプレゼンテーション提示を行う際に用いられる画像コンテンツに係る画像データが取得される。さらに、音声データ取得部1113の制御の下、入力部4から、例えばプレゼンテーション提示を行う際に用いられる音声コンテンツに係る音声データが取得される。
視線方向決定部1121および動作指示生成部114の制御の下、上記取得されたジェスチャデータにおける視線方向決定処理に基づいて、プレゼン装置2の視線の方向を制御するための第1の指示情報が生成される。また、データ変換部112、マッチング処理部1131、および動作指示生成部114の制御の下、上記取得された画像データおよび音声データにおけるスライド重要点検出処理に基づいて、上記画像コンテンツの表示画面におけるプレゼン装置2の指示領域を制御するための第2の指示情報が生成される。また、ポインティング角度決定部1122および動作指示生成部114の制御の下、上記取得されたジェスチャデータにおけるポインティング角度決定処理に基づいて、プレゼン装置2によるポインティング角度を制御するための第3の指示情報が生成される。さらに、データ変換部112、接続詞抽出部1132、および動作指示生成部114の制御の下、上記取得された音声データにおける接続詞抽出処理に基づいて、プレゼン装置2にジェスチャを実行させる第4の指示情報が生成される。
このように、プレゼン装置2に実行させる動作の指示情報を、取得されたジェスチャデータや、画像コンテンツに係る画像データおよび音声コンテンツに係る音声データに基づいて自動生成できるので、従来技術のように動作シナリオ作成のために各ノード内での非言語動作の入力や次のノードへの遷移条件の入力等をユーザが実行する作業負荷が軽減される。
[他の実施形態]
なお、この発明は上記第1の実施形態に限定されるものではない。例えば、上記第1の実施形態では、音声認識サーバについて、動作指示生成システムと分離している装置として図示したが、音声認識サーバは動作指示生成システムと一体となっている装置であってもよい。
また、上記第1の実施形態では、プレゼン装置はヒト型のロボットであり、例えば、画像コンテンツと音声コンテンツのいずれかに聴衆の集中を促す際に、当該プレゼン装置の視線を聴衆またはスライドの方に向けることができるもののように説明した。しかしながら、プレゼン装置はヒト型のロボットでなくてもよく、画像コンテンツと音声コンテンツのいずれかに聴衆の集中を促す際に、視線を用いる代わりに、他の何らかの方法で聴衆の注意を集めるような動作をするものであってもよい。
その他、動作指示生成システムの構成や、取得データ記憶部、変換データ記憶部、および処理済データ記憶部においてそれぞれ記憶されるデータの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記第1の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第1の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第1の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…動作指示生成システム、11…制御ユニット、111…データ取得部、1111…ジェスチャデータ取得部、1112…画像データ取得部、1113…音声データ取得部、112…データ変換部、1121…視線方向決定部、1122…ポインティング角度決定部、1123…画像キーワード取得部、1124…音声キーワード取得部、113…キーワードデータ処理部、1131…マッチング処理部、1132…接続詞抽出部、114…動作指示生成部、115…動作指示修正部、116…動作シナリオ生成部、12…記憶ユニット、121…取得データ記憶部、1211…ジェスチャデータ記憶部、1212…画像データ記憶部、1213…音声データ記憶部、122…変換データ記憶部、1221…視線方向記憶部、1222…ポインティング角度記憶部、1223…画像キーワード記憶部、1224…音声キーワード記憶部、123…処理済キーワードデータ記憶部、1231…一致キーワード記憶部、1232…抽出接続詞記憶部、124…動作ジェスチャ記憶部、13…入出力インタフェースユニット、2…プレゼン装置、2A…可動部、3…ディスプレイ、4…入力部、5…音声認識サーバ、o1,o2,o3,o4,o5…音声キーワード、s1,s2,s3,s4,s5…画像キーワード、R1,R2,R3…画像領域、O1,O2,O3,O4,O5…接続詞キーワード、T1,T2,T3,T4,T5…画像コンテンツ遷移タイミング、N1,N2,N3…ノード

Claims (7)

  1. 画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成システムであって、
    プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得するジェスチャデータ取得部と、
    前記取得されたジェスチャデータから前記プレゼンタの顔向きに係る時系列データを取得し、当該顔向きに係る時系列データに基づいて、前記プレゼン装置の視線の方向を決定する視線方向決定部と、
    前記視線方向決定部によって決定された視線の方向に前記プレゼン装置の視線を向けさせるための第1の指示情報を生成する第1指示生成部と、
    前記画像コンテンツに係る画像データを取得する画像データ取得部と、
    前記音声コンテンツに係る音声データを取得する音声データ取得部と、
    前記画像コンテンツと前記音声コンテンツとの間でキーワードマッチング処理を実行して、当該画像コンテンツおよび音声コンテンツに共通して存在するキーワードを抽出するマッチング処理部と、
    前記画像コンテンツの表示画面において、前記抽出されたキーワードに対応する領域を、前記プレゼン装置が指し示すための第2の指示情報を生成する第2指示生成部と
    を備える動作指示生成システム。
  2. 前記取得されたジェスチャデータから前記プレゼンタの腕の角度の時系列データを取得し、当該腕の角度の時系列データに基づいて、前記プレゼン装置によるポインティング角度を決定するポインティング角度決定部と、
    前記ポインティング角度決定部によって決定されたポインティング角度の方向を前記プレゼン装置が指し示すための第3の指示情報を生成する第3指示生成部と
    をさらに備える、請求項1に記載の動作指示生成システム。
  3. 前記音声コンテンツにおいて、前記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する接続詞抽出部と、
    前記抽出された接続詞に対応する前記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを前記プレゼン装置に実行させるための第4の指示情報を生成する第4指示生成部と
    をさらに備える、請求項1又は2に記載の動作指示生成システム。
  4. ハードウェアプロセッサおよびメモリを備える装置が実行する、画像コンテンツおよび音声コンテンツを用いたプレゼンテーション提示の際に使用されるプレゼン装置に係る、当該プレゼン装置に実行させる動作の指示情報を生成する動作指示生成方法であって、
    プレゼンタによるプレゼンテーションの実演動作を示すジェスチャデータを取得するジェスチャデータ取得過程と、
    前記取得されたジェスチャデータから前記プレゼンタの顔向きに係る時系列データを取得し、当該顔向きに係る時系列データに基づいて、前記プレゼン装置の視線の方向を決定する視線方向決定過程と、
    前記視線方向決定過程において決定された視線の方向に前記プレゼン装置の視線を向けさせるための第1の指示情報を生成する第1指示生成過程と、
    前記画像コンテンツに係る画像データを取得する画像データ取得過程と、
    前記音声コンテンツに係る音声データを取得する音声データ取得過程と、
    前記画像コンテンツと前記音声コンテンツとの間でキーワードマッチング処理を実行して、当該画像コンテンツおよび音声コンテンツに共通して存在するキーワードを抽出するマッチング処理過程と、
    前記画像コンテンツの表示画面において、前記抽出されたキーワードに対応する領域を、前記プレゼン装置が指し示すための第2の指示情報を生成する第2指示生成過程と
    を備える動作指示生成方法。
  5. 前記取得されたジェスチャデータから前記プレゼンタの腕の角度の時系列データを取得し、当該腕の角度の時系列データに基づいて、前記プレゼン装置によるポインティング角度を決定するポインティング角度決定過程と、
    前記ポインティング角度決定過程において決定されたポインティング角度の方向を前記プレゼン装置が指し示すための第3の指示情報を生成する第3指示生成過程と
    をさらに備える、請求項4に記載の動作指示生成方法。
  6. 前記音声コンテンツにおいて、前記画像コンテンツの表示画面の遷移のタイミングで発話される接続詞を抽出する接続詞抽出過程と、
    前記抽出された接続詞に対応する前記画像コンテンツの表示画面の遷移のタイミングにおいて、当該接続詞に対応するジェスチャを前記プレゼン装置に実行させるための第4の指示情報を生成する第4指示生成過程と
    をさらに備える、請求項4又は5に記載の動作指示生成方法。
  7. 請求項1乃至3のいずれかに記載の動作指示生成システムが備える各部としてハードウェアプロセッサを機能させるプログラム。
JP2018026928A 2018-02-19 2018-02-19 動作指示生成システム、方法およびプログラム Active JP6886663B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018026928A JP6886663B2 (ja) 2018-02-19 2018-02-19 動作指示生成システム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018026928A JP6886663B2 (ja) 2018-02-19 2018-02-19 動作指示生成システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019144732A true JP2019144732A (ja) 2019-08-29
JP6886663B2 JP6886663B2 (ja) 2021-06-16

Family

ID=67771194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018026928A Active JP6886663B2 (ja) 2018-02-19 2018-02-19 動作指示生成システム、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6886663B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022224310A1 (ja) * 2021-04-19 2022-10-27 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339198A (ja) * 1995-06-12 1996-12-24 Nec Corp プレゼンテーション装置
JP2001014135A (ja) * 1999-06-29 2001-01-19 Seiko Epson Corp プレゼンテーションシステム、プレゼンテーション方法および情報記憶媒体
JP2005533398A (ja) * 2001-09-13 2005-11-04 ヒューレット・パッカード・カンパニー リアルタイムスライドプレゼンテーションのマルチメディアデータオブジェクト、ならびにマルチメディアデータオブジェクトを記録し閲覧するシステムおよび方法
JP2006142407A (ja) * 2004-11-17 2006-06-08 Sanyo Electric Co Ltd ロボット装置およびロボット装置システム
JP2007181888A (ja) * 2006-01-05 2007-07-19 Advanced Telecommunication Research Institute International コミュニケーションロボットシステム
US20080309671A1 (en) * 2007-06-18 2008-12-18 Brian Mark Shuster Avatar eye control in a multi-user animation environment
JP2015066632A (ja) * 2013-09-27 2015-04-13 本田技研工業株式会社 ロボット、ロボット制御方法、およびロボット制御プログラム
JP2016166952A (ja) * 2015-03-09 2016-09-15 株式会社国際電気通信基礎技術研究所 コミュニケーションシステム、確認行動決定装置、確認行動決定プログラムおよび確認行動決定方法
JP2017520782A (ja) * 2014-04-17 2017-07-27 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人間型ロボットとユーザーの間におけるマルチモード会話を実行する方法、前記方法を実装するコンピュータプログラムプロダクト及び人間型ロボット
JP2017144672A (ja) * 2016-02-19 2017-08-24 ブラザー工業株式会社 液体吐出装置、及び、配線部材

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339198A (ja) * 1995-06-12 1996-12-24 Nec Corp プレゼンテーション装置
JP2001014135A (ja) * 1999-06-29 2001-01-19 Seiko Epson Corp プレゼンテーションシステム、プレゼンテーション方法および情報記憶媒体
JP2005533398A (ja) * 2001-09-13 2005-11-04 ヒューレット・パッカード・カンパニー リアルタイムスライドプレゼンテーションのマルチメディアデータオブジェクト、ならびにマルチメディアデータオブジェクトを記録し閲覧するシステムおよび方法
JP2006142407A (ja) * 2004-11-17 2006-06-08 Sanyo Electric Co Ltd ロボット装置およびロボット装置システム
JP2007181888A (ja) * 2006-01-05 2007-07-19 Advanced Telecommunication Research Institute International コミュニケーションロボットシステム
US20080309671A1 (en) * 2007-06-18 2008-12-18 Brian Mark Shuster Avatar eye control in a multi-user animation environment
JP2015066632A (ja) * 2013-09-27 2015-04-13 本田技研工業株式会社 ロボット、ロボット制御方法、およびロボット制御プログラム
JP2017520782A (ja) * 2014-04-17 2017-07-27 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人間型ロボットとユーザーの間におけるマルチモード会話を実行する方法、前記方法を実装するコンピュータプログラムプロダクト及び人間型ロボット
JP2016166952A (ja) * 2015-03-09 2016-09-15 株式会社国際電気通信基礎技術研究所 コミュニケーションシステム、確認行動決定装置、確認行動決定プログラムおよび確認行動決定方法
JP2017144672A (ja) * 2016-02-19 2017-08-24 ブラザー工業株式会社 液体吐出装置、及び、配線部材

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
明石 貴文、田村 雄介、大隅 久: "ロボットの姿勢が人間の注意の領域に与える影響を考慮したロボットの姿勢と注意の誘導のモデル化", ロボティクス・メカトロニクス 講演会2015 講演論文集, JPN6020043890, 16 May 2015 (2015-05-16), JP, pages 557 - 560, ISSN: 0004388614 *
石野 達也、後藤 允裕、柏原 昭博: "代講を目的としたロボットによるプレゼンテーション", 第81回 先進的学習科学と工学研究会資料 (SIG−ALST−B508), JPN6020043889, 10 November 2017 (2017-11-10), JP, pages 26 - 29, ISSN: 0004388613 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022224310A1 (ja) * 2021-04-19 2022-10-27 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP6886663B2 (ja) 2021-06-16

Similar Documents

Publication Publication Date Title
US10664060B2 (en) Multimodal input-based interaction method and device
EP3341851B1 (en) Gesture based annotations
US11663784B2 (en) Content creation in augmented reality environment
US11163999B2 (en) Augmented reality-based capture, processing and transfer of occupational knowledge
CN104956292A (zh) 多个感知感测输入的交互
JPWO2016103988A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN103440033B (zh) 一种基于徒手和单目摄像头实现人机交互的方法和装置
JP7279646B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2019032719A (ja) 情報処理システム、情報処理方法及びプログラム
US10185399B2 (en) Image processing apparatus, non-transitory computer-readable recording medium, and image processing method
CN109116987B (zh) 一种基于Kinect手势控制的全息展示系统
JP6886663B2 (ja) 動作指示生成システム、方法およびプログラム
JP2015011404A (ja) 動作認識処理装置
JP6888854B1 (ja) 遠隔勤務支援システム及び遠隔勤務支援方法
CN106547339B (zh) 计算机设备的控制方法和装置
JP7009904B2 (ja) 端末装置、情報処理システム、情報処理方法及びプログラム
KR101515845B1 (ko) 동작 인식 방법 및 동작 인식 장치
US11042274B2 (en) Extracting demonstrations from in-situ video content
JP6378716B2 (ja) 姿勢制御システム及びプログラム
US10831360B2 (en) Telepresence framework for region of interest marking using headmount devices
KR20130081126A (ko) 손 제스처 인식 방법 및 그 장치
JP2018005510A (ja) 画像処理装置、画像処理方法およびプログラム
JP2020037155A (ja) 仕草制御装置及び仕草制御プログラム
KR101499044B1 (ko) 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법
JP2015109565A (ja) 会議端末装置、電子会議システム、及び、プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20180301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180301

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210506

R150 Certificate of patent or registration of utility model

Ref document number: 6886663

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250