JP7428134B2

JP7428134B2 - 情報処理装置及び情報処理装置、並びに情報処理システム

Info

Publication number: JP7428134B2
Application number: JP2020554788A
Authority: JP
Inventors: 義治出葉
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-10-29
Filing date: 2019-09-02
Publication date: 2024-02-06
Anticipated expiration: 2039-09-02
Also published as: US20220053241A1; EP3876547A1; JPWO2020090215A1; EP3876547A4; WO2020090215A1; KR102700436B1; US11985390B2; KR20210077683A

Description

本明細書で開示する技術は、放送型の動画コンテンツに関連するサービスを提供する情報処理装置及び情報処理装置、並びに情報処理システムに関する。

テレビ放送サービスが広範に普及して久しい。また最近では、ＩＰＴＶ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＴＶ）やＯＴＴ（Ｏｖｅｒ－Ｔｈｅ－Ｔｏｐ）といった、ネットワークを利用した放送型の動画配信サービスも浸透しつつある。

他方、口頭又はテキスト形式の自然言語入力を解釈してユーザの意図を推測して、ユーザとの対話などのアクションを実行するシステムの利用も広まりつつある。この種の対話機能を備えたシステムは、「エージェント」や「アシスタント」とも呼ばれるが、専用の電子機器や、テレビやスマートフォンなどの情報端末上で実行されるアプリケーションとして実現される。また、この種のシステムの対話機能は、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）機能や、インターネットなどを介して接続されるバックエンドの対話エンジンなどを利用して実現される。

例えば、テレビやセットトップボックスに接続して、メディア再生やその他の任意の機能を制御する仮想アシスタントについて提案がなされている（特許文献１を参照のこと）。

特表２０１７－５３０５６７号公報

本明細書で開示する技術の目的は、放送型の動画コンテンツに関連するサービスを提供する情報処理装置及び情報処理装置、並びに情報処理システムを提供することにある。

本明細書で開示する技術の第１の側面は、
放送型の動画コンテンツを受信する受信部と、
前記動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを第２の機器に通知する通知部と、
を具備する情報処理装置である。

第１の側面に係る情報処理装置は、例えば、放送波又はストリーム配信される前記動画コンテンツを受信するテレビ受信機であり、ＳｔｒｅａｍＥｖｅｎｔ又はＷｅｂＳｏｃｋｅｔなどにより、前記イベントのトリガーを受信する。

また、本明細書で開示する技術の第２の側面は、
放送型の動画コンテンツを受信する受信ステップと、
前記動画コンテンツを表示部に表示する表示ステップと、
前記動画コンテンツ中で発生するイベントに応じて、仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを第２の機器に通知する通知ステップと、
を有する情報処理方法である。

また、本明細書で開示する技術の第３の側面は、
放送型の動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータの通知を第１の機器から受け取る受信部と、
前記第１の機器から通知された前記データに基づいて前記情報を取得し、取得した前記情報に基づいて、前記仮想キャラクタの駆動を制御する制御部と、
を具備する情報処理装置である。

第３の側面に係る情報処理装置は、前記放送型の動画コンテンツを受信するテレビ受信機としての前記第１の機器から前記通知を受け取るが、２次元又は３次元表示可能な表示部に表示する前記仮想キャラクタの駆動を制御する。

また、本明細書で開示する技術の第４の側面は、
放送型の動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータの通知を第１の機器から受け取る受信ステップと、
前記第１の機器から通知された前記データに基づいて前記情報を取得する取得ステップと、
前記取得ステップで取得した前記情報に基づいて、仮想キャラクタの駆動を制御する制御ステップと、
を有する情報処理方法である。

また、本明細書で開示する技術の第５の側面は、
放送型の動画コンテンツを受信する第１の機器と、
仮想キャラクタの駆動を制御する第２の機器と、
を具備し、
前記第１の機器は、前記イベントのトリガーを受信したことに応答して、前記動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを前記第２の機器に通知し、
前記第２の機器は、前記第１の機器から通知された前記データに基づいて前記情報を取得して、前記仮想キャラクタの駆動を制御する、
情報処理システムである。

但し、ここで言う「システム」とは、複数の装置（又は特定の機能を実現する機能モジュール）が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。

本明細書で開示する技術によれば、放送型の動画コンテンツの内容に応じて仮想キャラクタを自動駆動させる情報処理装置及び情報処理装置、並びに情報処理システムを提供することができる。

なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、対話システム１００の構成例を模式的に示した図である。図２は、表示装置１１０の構成例を示した図である。図３は、対話装置１２０の構成例を模式的に示した図である。図４は、対話エンジンフロントエンド４１０と対話エンジンバックエンド４２０の機能的構成例を示した図である。図５は、対話システム１００における動作シーケンス例を示した図である。図６は、シーン記述データの一例を示した図である。図７は、シーン記述データの他の例を示した図である。図８は、表示装置１１０の基本的な動作例を示したフローチャートである。図９は、受信状態の対話装置１２０が実施する処理動作の手順を示したフローチャートである。図１０は、シーン追従会話モード下での対話装置１２０の処理動作を示したフローチャートである。図１１は、ＭＲデバイスによって室内に仮想キャラクタの映像が出現している複合現実空間を例示した図である。図１２は、放送番組本編を表示する主画面に設けられたサブ画面に仮想キャラクタが表示されている様子を示した図である。図１３は、ペット型ロボットが、ユーザと一緒に視聴している放送型データコンテンツの内容に応じて自律駆動している様子を示した図である。

以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

図１には、本明細書で開示する技術を適用した対話システム１００の構成例を模式的に示している。図示の対話システム１００は、表示装置１１０と、対話装置１２０で構成される。

表示装置１１０と対話装置１２０は、基本的には、同じユーザによって使用されるものとする。例えば、表示装置１１０と対話装置１２０は、リビングルームなどユーザと同じ空間に設置されている。表示装置１１０は、放送やストリーミング配信されたコンテンツを表示し、ユーザは、表示装置１１０が表示するコンテンツを視聴する。また、対話装置１２０は、ユーザと対話し、ユーザからの音声やジェスチャなどのコマンドを受け付けたり、ユーザに情報を提示したりする。

表示装置１１０は、例えばルータ経由でインターネットなどの外部ネットワークに相互接続されている。また、対話装置１２０は、室内に設置されたアクセスポイント経由でインターネットなどの外部ネットワークに相互接続されている。

また、表示装置１１０と対話装置１２０は、図示しない通信手段を介して接続されているものとする。通信手段は、有線又は無線のいずれであってもよい。例えば、イーサネット（登録商標）、Ｗｉ－Ｆｉ（登録商標）やＢｌｕｅｔｏｏｔｈ（登録商標）などの既存の通信規格に基づく通信を利用して表示装置１１０と対話装置１２０が接続してもよいし、独自接続であってもよい。また、赤外線通信やその他の簡素な通信手段を利用して、表示装置１１０から対話装置１２０への一方向通信のみであってもよい。

表示装置１１０は、放送型の動画コンテンツを表示する大画面を装備している。表示装置１１０は、例えば放送信号を選局受信するテレビ受信機により構成されるが、セットトップボックスに接続されたディスプレイであってもよい。放送信号は、地上波及び衛星波のいずれを問わない。また、表示装置１１０が利用する放送サービスはテレビ放送に限定されず、例えばＩＰＴＶやＯＴＴといったネットワークを利用した放送型の動画配信サービスも含めることができる。後者の場合、表示装置１１０は、ネットワークインターフェースカードを装備したディスプレイにより構成することができる。もちろん、これら以外のプッシュ型コンテンツ配信サービスにより提供される動画コンテンツを含めてもよい。

図２には、表示装置１１０の構成例を示している。表示装置１１０は、主制御部２０１と、バス２０２と、ストレージ部２０３と、通信インターフェース（ＩＦ）部２０４と、拡張インターフェース（ＩＦ）部２０５と、チューナ／復調部２０６と、デマルチプレクサ（ＤＥＭＵＸ）２０７と、映像デコーダ２０８と、音声デコーダ２０９と、文字スーパーデコーダ２１０と、字幕デコーダ２１１と、字幕合成部２１２と、データデコーダ２１３と、キャッシュ部２１４と、アプリケーション（ＡＰ）制御部２１５と、ブラウザ部２１６と、音源部２１７と、映像合成部２１８と、表示部２１９と、音声合成部２２０と、音声出力部２２１と、操作入力部２２２を備えている。

主制御部２０１は、例えばＣＰＵ（ＣｅｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）とＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）で構成され、所定の動作プログラムに従って表示装置１１０全体を制御する。ＲＯＭは、オペレーティングシステム（ＯＳ）などの基本動作プログラムやその他の動作プログラムが格納された不揮発性メモリである。ＲＯＭ内には、表示装置１１０の動作に必要な動作設定値が記憶されてもよい。ＲＡＭはＯＳやその他の動作プログラム実行時のワークエリアとなる。バス２０２は、主制御部２０１と表示装置１１０内の各部との間でデータ送受信を行うためのデータ通信路である。なお、本実施形態では、放送サービス（放送局又はストリーム配信サーバ）側から動画コンテンツ中のイベントに同期したトリガー配信が行われることを想定しているが（後述）、主制御部２０１は、トリガー配信をデコードした結果を、データデコーダ２１３（後述）から受け取ることができる。

ストレージ部２０３は、フラッシュＲＯＭやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）などの不揮発性の記憶デバイスで構成される。ストレージ部２０３は、表示装置１１０の動作プログラムや動作設定値、表示装置１１０を使用するユーザの個人情報などを記憶する。また、ストレージ部２０３は、インターネットを介してダウンロードした動作プログラムやその動作プログラムで作成した各種データなどを記憶する。また、ストレージ部２０３は、放送波やインターネットを通じて取得した動画、静止画、音声などのコンテンツも記憶可能である。

通信インターフェース部２０４は、ルータ（前述）などを介してインターネットと接続され、インターネット上の各サーバ装置やその他の通信機器とデータの送受信を行う。また、通信インターフェース部２０４は、通信回線を介して伝送される番組のデータストリームの取得も行うものとする。ルータとは、イーサネット（登録商標）などの有線接続、あるいはＷｉ－Ｆｉ（登録商標）などの無線接続のいずれであってもよい。また、通信インターフェース部２０４は、対話装置１２０との通信手段を含んでいてもよい。対話装置１２０との通信手段は、対話装置１２０への一方向通信のみであってもよい。

チューナ／復調部２０６は、アンテナ（図示しない）を介して地上波放送又は衛星放送などの放送波を受信し、主制御部２０１の制御に基づいてユーザの所望するサービス（放送局など）のチャンネルに同調（選局）する。また、チューナ／復調部２０６は、受信した放送信号を復調して放送データストリームを取得する。なお、複数画面同時表示や裏番組録画などを目的として、表示装置１１０が複数のチューナ／復調部を搭載する構成（すなわち多重チューナ）であってもよい。

デマルチプレクサ２０７は、入力した放送データストリーム中の制御信号に基づいてリアルタイム提示要素である映像データストリーム、音声データストリーム、文字スーパーデータストリーム、字幕データストリームを、それぞれ映像デコーダ２０８、音声デコーダ２０９、文字スーパーデコーダ２１０、字幕デコーダ２１１に分配する。デマルチプレクサ２０７に入力されるデータは、放送サービスや、ＩＰＴＶやＯＴＴなどの配信サービスによるデータを含む。前者は、チューナ／復調部２０６で選局受信及び復調された後にデマルチプレクサ２０７に入力され、後者は、通信インターフェース部２０４で受信された後にデマルチプレクサ２０７に入力される。

また、デマルチプレクサ２０７は、マルチメディアアプリケーションやその構成要素であるファイル系データを再生し、アプリケーション制御部２１５に出力し、又はキャッシュ部２１４で一時的に蓄積する。また、デマルチプレクサ２０７は、上記の映像、音声、及び字幕以外のデータの提示を行うプレーヤで利用するデータ若しくはアプリケーションに対するデータのストリーミングに用いるために、汎用データを抽出してデータデコーダ２１３に出力する。

映像デコーダ２０８は、デマルチプレクサ２０７から入力した映像データストリームを復号して映像情報を出力する。また、音声デコーダ２０９は、デマルチプレクサ２０７から入力した音声データストリームを復号して音声情報を出力する。また、複数種類の映像データストリーム及び音声データストリームを同時に復号処理するために、表示装置１１０は複数の映像デコーダ２０８及び音声デコーダ１４３を備えてもよい。

文字スーパーデコーダ２１０は、デマルチプレクサ２０７から入力した文字スーパーデータストリームを復号して文字スーパー情報を出力する。字幕デコーダ２１１は、デマルチプレクサ２０７から入力した字幕データストリームを復号して字幕情報を出力する。字幕合成部２１２は、文字スーパーデコーダ２１０から出力された文字スーパー情報と、字幕デコーダ２１１から出力された字幕情報は、字幕合成部２１２とを合成処理する。

データデコーダ２１３は、ＭＰＥＧ－２ＴＳストリームに映像及び音声とともに多重化されるデータストリームをデコードする。本実施形態では、データデコーダ２１３は、ＰＳＩ（ＰｒｏｇｒａｍＳｐｅｃｉｆｉｃＩｎｆｏｒｍａｔｉｏｎ）テーブルの１つであるＰＭＴ（ＰｒｏｇｒａｍＭａｐＴａｂｌｅ）の記述子領域に格納された汎用イベントメッセージをデコードした結果を、主制御部２０１に通知する。また、データデコーダ２１３は、ＷｅｂＳｏｃｋｅｔを利用して伝送されたデータをデコードして、主制御部２０１に通知する。具体的には、ＳｔｒｅａｍＥｖｅｎｔやＷｅｂＳｏｃｋｅｔなどを利用して、動画コンテンツ中のイベントに同期したトリガー配信が行われるが、データデコーダ２１３はトリガー配信をデコードした結果を、主制御部２０１に通知する。

アプリケーション制御部２１５は、放送データストリームに含まれる制御情報をデマルチプレクサ２０７から入力し、または、通信インターフェース部２０４を介してインターネット２００上のサーバ装置から取得して、これら制御情報を解釈する。

ブラウザ部２１６は、キャッシュ部２１４若しくは通信インターフェース部２０４を介してインターネット上のサーバ装置から取得したマルチメディアアプリケーションファイルやその構成要素であるファイル系データを、アプリケーション制御部２１５の指示に従って提示する。ここで言うマルチメディアアプリケーションファイルは、例えばＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書やＢＭＬ（ＢｒｏａｄｃａｓｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書などである。また、ブラウザ部２１６は、音源部２１７に働きかけることにより、アプリケーションの音声情報の再生も行うものとする。

映像合成部２１８は、映像デコーダ２０８から出力された映像情報と、字幕合成部２１２から出力された字幕情報と、ブラウザ部２１６から出力されたアプリケーション情報を入力し、適宜選択し又は重畳する処理を行う。映像合成部２１８はビデオＲＡＭ（図示を省略）を備え、このビデオＲＡＭに入力された映像情報に基づいて表示部２１９の表示駆動が実施される。また、映像合成部２１８は、主制御部２０１の制御に基づいて、必要に応じて、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）画面や、主制御部２０１が実行するアプリケーションによって生成されたグラフィックスなどの画面情報の重畳処理も行う。

表示部２１９は、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどからなる表示デバイスであり、映像合成部２１８で選択又は重畳処理を施された映像情報をユーザに提示する。

音声合成部２２０は、音声デコーダ２０９から出力された音声情報と、音源部２１７で再生されたアプリケーションの音声情報を入力して、適宜選択又は合成などの処理を行う。

音声出力部２２１は、１台又は複数台のスピーカで構成される。音声出力部２２１は、複数のスピーカを組み合わせたスピーカアレイ（多チャンネルスピーカ若しくは超多チャンネルスピーカ）や、パネルスピーカであってもよい。音声出力部２２１は、音声合成部２２０で処理された音声情報をユーザに提示する。

拡張インターフェース部２０５は、表示装置１１０の機能を拡張するためのインターフェース群であり、例えば、アナログ映像／音声インターフェースや、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）インターフェース、メモリインタフェースなどで構成される。拡張インターフェース部２０５は、ＤＶＩ（ＤｉｇｉｔａｌＶｉｓｕａｌＩｎｔｅｒｆａｃｅ）端子やＨＤＭＩ（登録商標）端子やＤｉｓｐｌａｙＰｏｒｔ（登録商標）端子などからなるデジタルインターフェースを含んでいてもよい。

操作入力部２２２は、ユーザが表示装置１１０に対する操作指示の入力を行う指示入力部である。操作入力部２２２は、例えば、リモコン（図示しない）から送信されるコマンドを受信するリモコン受信部とボタンスイッチを並べた操作キーで構成される。また、操作入力部２２２は、表示部２１９の画面に重畳されたタッチパネルを含んでもよい。また、操作入力部２２２は、拡張インターフェース部２０５に接続されたキーボードなどの外付け入力デバイスを含んでもよい。

表示装置１１０は、テレビ受信機の他、ブルーレイ（登録商標）ディスクレコーダやＨＤＤレコーダなどのディスクドライブレコーダ、ＳＴＢ（ＳｅｔＴｏｐＢｏｘ）、デジタル放送受信機能や放送通信連携機能を備えたパーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やタブレットなどの多機能情報端末、ナビゲーション装置、ゲーム機などであってもよい。

再び図１を参照しながら説明する。対話装置１２０は、口頭又はテキスト形式の自然言語入力を解釈してユーザの意図を推測してユーザとのインタラクションを実現するデバイスであり、いわゆる「エージェント」や「アシスタント」とも呼ばれる機能を装備している。

対話装置１２０は、基本的には、「エージェント」や「アシスタント」の振る舞いを表出する仮想キャラクタを表示するためのサブ画面を装備していることを想定している（図１には、対話装置１２０のサブ画面に仮想キャラクタの映像を表示している様子を示している）。対話装置１２０は、ユーザとの対話に応じて、この仮想キャラクタを自律駆動させる。サブ画面は、例えばライトフィールドディスプレイのような３Ｄ表示機能を有し又はリアルな映像表現が可能な画面で構成され、仮想キャラクタを３Ｄ表示できることが好ましい。なお、ライトフィールド（ＬｉｇｈｔＦｉｅｌｄ）は観察者の視野の範囲にあるすべての光を含む可視空間のことであり、ライトフィールドディスプレイは、理想的には、観察者の目に入るあらゆる光を再現する表示装置である。但し、対話装置１２０のサブ画面は、２Ｄ表示機能しか持たなくてもよい。

あるいは、対話装置１２０は、ヘッドマウントディスプレイのような、現実空間上に仮想キャラクタの映像を複合的に表示するＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）デバイスであってもよい。図１１には、ＭＲデバイスによって、室内に仮想キャラクタの映像が出現している複合現実空間を例示している。

あるいは、表示装置１１０として利用されるテレビ受信機で、ユーザと対話する仮想キャラクタを自律駆動するためのアプリケーションを起動して、表示部２１９の画面内に子画面を設けて、仮想キャラクタを表示するようにしてもよい。図１２には、放送番組本編を表示する主画面に設けられたサブ画面に仮想キャラクタが表示されている様子を示した図である。

あるいは、対話装置１２０は、仮想キャラクタを３Ｄ表示するサブ画面を装備したデバイスではなく、ペット型ロボットであってもよく、ロボットの関節動作によって「エージェント」や「アシスタント」としての振る舞いを表現するようにしてもよい。この場合、対話装置１２０は、ユーザとの対話に応じて、ロボットは関節などの可動部を自律駆動させる。図１３には、ペット型ロボットが、ユーザと一緒に視聴している放送型データコンテンツの内容に応じて自律駆動している様子を示している。

あるいは、ユーザが所持するスマートフォンやタブレットなどの情報端末で「エージェント」や「アシスタント」のアプリケーションを起動して、対話装置１２０として利用することも想定される。この場合、情報端末が持つ画面や、情報端末に外部接続されたディスプレイに、仮想キャラクタが表示される。また、表示装置１１０と同じ部屋内に設置された情報家電でアプリケーションを起動して、対話装置１２０として利用することも想定される。

要するに、対話装置１２０は、基本的には３Ｄ表示機能を装備したデバイスであるが、その他の形態のデバイスで置き換えることも可能である。対話装置１２０は、いずれの形態であれ、本実施形態では、表示装置１１０で表示する放送型の動画コンテンツを、ユーザと一緒になって視聴するものとする。

図３には、対話装置１２０の構成例を模式的に示している。但し、図３では、対話装置１２０として、音声エージェントのような専用デバイスを想定している。対話装置１２０は、処理部３０１と、通信部３０２と、表示部３０３と、音声入力部３０４と、音声出力部３０５と、センサ部３０６と、記録部３０７を備えている。

通信部３０２は、イーサネット（登録商標）などの有線通信又はＷｉ－Ｆｉ（登録商標）などの無線通信を利用して、アクセスポイント（図１を参照のこと）経由でインターネットなどの外部ネットワークに接続している。また、通信部３０２は、例えばＤＬＮＡ（登録商標）（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ）などの規格に則って、ホームネットワークを介して家庭内の各ＣＥ機器と相互接続していてもよいし、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイスとのインターフェース機能をさらに備えていてもよい。

表示部３０３は、本実施形態に係る対話システム１００において、表示装置１１０の主画面に対する「サブ画面」として機能して、エージェント」や「アシスタント」の振る舞いを表出する仮想キャラクタを表示することを想定している。表示部３０３は、より好ましくは、例えばライトフィールドディスプレイ（前述）のような３Ｄ表示機能を有し又はリアルな映像表現が可能な画面で構成され、仮想キャラクタを３Ｄ表示することができる。もちろん、表示部３０３は、２Ｄ表示機能しか持たなくてもよい。但し、表示部３０３を、対話装置１２０に外付け接続されたＭＲデバイスやその他のディスプレイで構成することもできる。

音声入力部３０４は、マイクなどの収音素子で構成され、対話装置１２０が設置された室内で発生する音声の入力に用いられる。室内で発生する音声として、テレビ番組の視聴者若しくは音声エージェントを利用するユーザによる発話を挙げることができる。音声入力部３０４は、複数のマイクを組み合わせたマイクロフォンアレイを備えていてもよい。

音声出力部３０５は、スピーカなどの音響発生素子で構成される。コーン型スピーカやフラットパネル型スピーカなどを音声出力部３０５に用いることができる。また、音声出力部３０５は、複数のスピーカを組み合わせたスピーカアレイ（多チャンネルスピーカ若しくは超多チャンネルスピーカ）を備えていてもよい。音響出力部３０５は、音声エージェント機能の合成音声の出力などに用いられる。

センサ部３０６は、例えば、対話装置１２０が設置されている室内の環境情報をセンシングする。センサ部３０６の構成、すなわちどのようなセンサ素子を含むかは任意である。例えば、センサ部３０６は、カメラや物体検出センサ、深度センサを含んでいてもよい。また、センサ部３０６は、照度センサや温度センサ、湿度センサなどの環境情報を検出する環境センサを備えていてもよい。また、センサ部３０６は、赤外線センサや人感センサを備えていてもよい。また、センサ部３０６は、ユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサを備えていてもよい。また、センサ部３０６は、ＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）などを備え、対話装置１２０本体の姿勢などを検出するようにしてもよい。

記録部３０７は、例えばＨＤＤやＳＳＤなどの大容量記録装置で構成され、各種データの記録に使用される。記録部３０７は、対話装置１２０内に配設される他、ＵＳＢなどのインターフェースを介して対話装置１２０に外付け接続される場合もある。

処理部３０１は、プロセッサ及びメモリを含み、メモリにロードしたプログラムを実行して、各種処理を実施して、対話装置１２０内の動作を統括的にコントロールする。処理部３０１内では、基本的には、ＯＳが提供する実行環境下で、さまざまなアプリケーションが実行される。例えばマルチプロセッサが利用可能な場合、あるいはＯＳによってマルチスレッド実行が可能な場合においては、並列実行可能な処理単位はすべてメモリに読み出され並列実行させることができる。

処理部３０１が実行するアプリケーションの中には、音声エージェントなどユーザとの対話機能を実現するための対話アプリケーションを挙げることができる。また、処理部３０１が複数の対話アプリケーションを並列実行することにより、対話装置１２０が複数のエージェントデバイスとして機能することも可能である。本実施形態では、対話アプリケーションは、仮想キャラクタを表示部３０３に提示することを想定している。

対話装置１２０は、ユーザとの充実した対話機能を実現するために、ＡＩ機能を搭載していてもよい。また、対話装置１２０は、図１などに示したようなスタンドアロンの装置としてではなく、対話エンジンのフロントエンドとして構成され、インターネット上のサーバやクラウドで構成される対話エンジンによるバックエンドの制御下で動作するようにしてもよい。

図４には、対話エンジンフロントエンド４１０と対話エンジンバックエンド４２０の機能的構成例を示している。

対話エンジンフロントエンド４１０は、ローカル側（すなわち、ユーザの近傍）に配置され、対話装置１２０が実行する対話アプリケーションであり、対話装置１２０が装備する音声入力部３０４及び音声出力部３０５などの各機能モジュールを活用することができる。

一方、クラウド側は、対話エンジンバックエンド４２０と、複数の外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…を含んでいる。対話エンジンバックエンド４２０並びに外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…はいずれも、ローカル側のユーザからの問い合わせに回答するエージェントサービスを提供する。但し、前者は対話エンジンフロントエンド４１０と直接連携するのに対し、後者は対話エンジンフロントエンド４１０とは直接には連携せず、対話エンジンフロントエンド４１０に対し対話エンジンバックエンド４２０の介在により間接的にエージェントサービスを提供することから「外部エージェントサービス」と呼んで、対話エンジンバックエンド４２０とは区別している。また、外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…の少なくとも一部（図４に示す例では、外部エージェントサービス４３０Ｃ）は、ローカル側に設置された外部エージェントデバイス４４０と直接連携している。

対話エンジンバックエンド４２０は、音声認識部４２１と、意味解析部４２２と、音声合成部４２３と、制御部４２４を備えている。

音声認識部４２１は、対話エンジンフロントエンド４１０側の音声入力部３０４で収音されたユーザの発話を音声認識して、テキスト情報に変換する。意味解析部３３２は、音声認識されたテキスト情報に基づいて、ユーザの発話データの意味解析を行う。また、音声合成部４２３は、ユーザに対する回答若しくはフィードバックとなるテキスト情報を音声データに変換する。音声データは、対話エンジンフロントエンド４１０に送られ、音声出力部３０５からユーザに対して音声出力される。なお、対話エンジンフロントエンド４１０は、音声出力以外に、表示部３０３の画面に表示する仮想キャラクタの動作や振舞いによって、ユーザにフィードバックを与えるようにしてもよい。

制御部４２４は、対話エンジンフロントエンド４１０のユーザと対話するための処理を実行する。例えば、制御部４２４は、ユーザが問い合わせた情報を検索したり、ユーザが要求したコンテンツを取得したり、商品の注文を行ったりする。ユーザからの問い合わせに対してより優れた回答を実現するために、制御部４２４は、学習機能やＡＩ機能を搭載していてもよい。制御部４２４は、表示部３０３の画面に表示する仮想キャラクタを生成するための処理の一部（又は全部）を実行するようにしてもよい。

また、制御部４２４は、ユーザとより優れた対話を実現するために、さらに外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…のリソースを活用することができる。制御部４２４は、利用可能なすべての外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…を呼び出してもよいし、いずれか一部の外部エージェントデバイスを選択して呼び出すようにしてもよい。

また、対話エンジンバックエンド４２０から外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…を呼び出す方法はいくつか考えられる。例えば、ユーザからの問い合わせを意味解析部４２２で意味解析して得たテキスト情報を、外部エージェントサービス４３０Ｂに送信してもよいし、そのテキスト情報を音声合成部４２３で音声合成した音声データを外部エージェントサービス４３０Ａに送信して、ユーザからの音声入力のような形態で問い合わせしてもよい。あるいは、対話エンジンバックエンド４２０が外部エージェントサービス４３０Ｃにリクエストする場合には、音声合成部４２３で音声合成した音声データを対話エンジンフロントエンド４１０に送信して、対話装置１２０の音声出力部３０５から、あたかもユーザが問い合わせるような音声を出力して、外部エージェントデバイス４４０を通じて問い合わせするようにすることもできる。

また、外部リソースである外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…からエージェントシステム１００に対して回答する方法もいくつか考えられる。例えば、外部エージェントサービス４３０Ｂは、テキスト情報などからなる（若しくは、音声合成前の）処理結果を対話エンジンバックエンド４２０に送る。また、外部エージェントサービス４３０Ａ及び４３０Ｃは、処理結果を音声合成した音声データを対話エンジンバックエンド４２０に送る。対話エンジンバックエンド４２０は、外部エージェントサービス４３０Ａ及び４３０Ｃから送られてきた音声データを音声認識部４２１により音声認識し、その音声認識結果を意味解析部４２２により意味解析する。

そして、制御部４２４は、各外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…からの回答を意味解析結果のレベルで集計して、ユーザに対する回答文を生成する。複数の回答を集計する方法は任意である。対話エンジンバックエンド４２０自身が得た回答と照らし合わせて特定の外部エージェントサービスからの回答を選択してもよいし、多数決など所定の選択基準に基づいて特定の外部エージェントサービスからの回答を選択してもよいし、複数の外部エージェントサービスからの回答を合成して１つの回答文を生成するようにしてもよい。いずれにせよ、音声合成部４２３は、制御部４２４で生成した回答文を音声データに変換して、対話エンジンフロントエンド４１０に送る。そして、対話エンジンフロントエンド４１０では、ユーザに対する回答の音声が、音声出力部３０５からユーザに対して音声出力される。

各外部エージェントサービス４３０Ａ、４３０Ｂ、４３０Ｃ、…の機能的構成はほぼ同様である。以下では、代表して、外部エージェントサービス４３０Ｃの機能的構成について説明する。

外部エージェントサービス４３０Ｃは、音声認識部４３１Ｃと、意味解析部４３２Ｃと、処理部４３３Ｃと、音声合成部４３４Ｃを備えている。

音声認識部４３１Ｃは、音声エージェントデバイス４４０の音声入力部４４１で収音された発話を音声認識して、テキスト情報に変換する。なお、音声入力部４４１で収音する音声は、ユーザの発話の他、対話エンジンフロントエンド４１０の音声出力部３０５から出力する音声である場合も想定される。

意味解析部４３２Ｃは、音声認識されたテキスト情報に基づいて、ユーザの発話データの意味解析を行う。処理部４３３Ｃは、ユーザからの問い合わせに回答するための処理を実行する。例えば、外部エージェントサービス４３０Ｃを指定する「起動ワード」がユーザから音声入力されたことが意味解析結果により分かると、処理部４３３Ｃは処理実行を開始する。

音声合成部４３４Ｃは、ユーザに対する回答となるテキスト情報を音声データに変換する。音声データは、音声エージェントデバイス４４０に送られ、音声出力部４４２からユーザに対して音声出力される。なお、音声合成部４３４Ｃで生成した音声データは、音声エージェントデバイス４４０に送信して音声出力される他、対話エンジンバックエンド４２０に送信され、音声認識部４２１に入力される場合も想定される。

Ｂ．仮想キャラクタの具体的動作
本実施形態に係る対話システム１００では、放送型の動画コンテンツを表示する表示装置１１０を主画面として位置付ける一方、対話装置１２０が装備する表示部３０３はサブ画面に位置付けられる。そして、対話装置１２０は、サブ画面としての表示部３０３上で仮想キャラクタを自律駆動させる。より具体的には、対話装置１２０は、ユーザとの対話機能を有するが、表示装置１１０の主画面に表示している放送型の動画コンテンツユーザと一緒になって視聴しているときに、その放送型の動画コンテンツの内容に応じて、サブ画面上の仮想キャラクタが自律駆動して自分の表情や仕草、振る舞い、動作を切り替えていく。

本実施形態に係る対話システム１００は、対話装置１２０が、ユーザとともに視聴している放送型の動画コンテンツの内容に応じて、サブ画面上の仮想キャラクタを自律駆動させる、という点に主な特徴がある。

また、本実施形態に係る対話システム１００は、仮想キャラクタの自律駆動を示唆するための情報が外部から対話装置１２０に提供される、という点に他の主な特徴がある。本明細書では、仮想キャラクタの自律駆動を示唆する情報のことを「シーン記述データ」と呼ぶ。例えば、放送局又はストリーム配信サーバなどのサービス側が、放送又は配信する動画コンテンツ向けのシーン記述データを作成又は編集して、所定のＷｅｂサイトにアップロードしておいてもよい。

例えば、表示装置１１０側で放送チャンネルを切り替える度に、新たに提供されるシーン記述データに基づいて、対話装置１２０は表示する仮想キャラクタを切り替える。具体的には、対話装置１２０は、放送局毎に、サービス側で用意された仮想キャラクタを切り替えるようにしてもよい。

また、放送チャンネルではなく、放送番組が切り替わる度に、新たに提供されるシーン記述データに基づいて、対話装置１２０は、番組専用の仮想キャラクタに切り替えるようにしてもよい。

また、対話装置１２０は、コンテンツの配信元を切り替えたり受信するストリーミングコンテンツを切り替えたりする度に、新たに提供されるシーン記述データに基づいて、配信サービス側で用意された仮想キャラクタを切り替えるようにしてもよい。また、対話装置１２０は、配信元ではなく、配信コンテンツ毎に、配信サービス側で用意された仮想キャラクタを切り替えるようにしてもよい。

また、対話装置１２０は、同じ放送番組内あるいは同じストリーミングコンテンツ内でも、動画コンテンツのシーンやコンテキストに応じて新たに提供されるシーン記述データに基づいて、仮想キャラクタを切り替えたり、仮想キャラクタが表出する動作をコントロールしたりするようにしてもよい。

例えば、ユーザがドラマ番組を視聴中にクライマックスシーンが到来すると、対話装置１２０は、新たに提供されるシーン記述データに基づいて、ユーザの感情を代弁し又はユーザに同調するような仮想キャラクタの動作を表出するようにしてもよい。

また、ユーザが野球やサッカーなどのスポーツ番組を視聴中に、自軍（ユーザが応援しているチーム）が得点したり逆に失点したりしたときに、対話装置１２０は、新たに提供されるシーン記述データに基づいて、ユーザの感情を代弁し又はユーザに同調するような仮想キャラクタの動作を表出するようにしてもよい。例えば、対話装置１２０は、自軍が優勢のときには、一緒に喜んだり、相槌を打ったりし、動画コンテンツの進行（ゲームの経過など）に追従して合いの手を入れたり、感情や表情を変えたりする。

また、ユーザがニュース番組を視聴中に、対話装置１２０は、コーナー毎に提供されるシーン記述データに基づいて、国内、国際、社会、経済、芸能、スポーツ、科学、地域などのうち、ユーザの関心があるジャンルを紹介するような仮想キャラクタの動作を表出するようにしてもよい。

また、対話装置１２０は、放送やストリーミングする番組本編ではなく、番組本編に挿入されるＣＭのタイミングで新たに提供されるシーン記述データに基づいて、仮想キャラクタが該当する商品を紹介する動作を表出するようにしてもよい。その際、対話装置１２０は、ユーザのプロファイルと商品とのマッチング処理などを行い、ユーザの商品に対する興味の度合いなどに応じて、仮想キャラクタによる商品のお薦めの仕方を変化させるようにしてもよい。

また、いずれの種類の動画コンテンツを視聴中であれ、基本的には、仮想キャラクタは、ユーザからの質問や雑談には応答するものとする。

上記のように、本実施形態に係る対話システム１００では、対話装置１２０は、逐次提供されるシーン記述データに基づいて、放送型の動画コンテンツ毎に仮想キャラクタを切り替えたり、動画コンテンツのシーン毎の仮想キャラクタの感情表現を変化させたりする。したがって、ユーザは、対話装置１２０と一緒に放送型の動画コンテンツを視聴することで、独りで視聴する場合よりもより多くコンテンツを楽しむことができる。

対話装置１２０は、スタンドアロンで仮想キャラクタの動作を制御してもよいが、図４に示したように、対話エンジンフロントエンド４１０と対話エンジンバックエンド４２０の協調動作によって仮想キャラクタの動作を制御するようにしてもよい。

また、対話装置１２０が、外部から提供されたシーン記述データに完全にしたがって仮想キャラクタを動作させるか、シーン記述データの記述内容をある程度参考にして仮想キャラクタを動作させるか、あるいは、シーン記述データの記述内容に拘束されずに完全に自律的に仮想キャラクタを動作させるかは、任意である。例えば、対話装置１２０がシーン記述データに従うべきかどうかをユーザが指定するようにしてもよい。

図５には、本実施形態に係る対話システム１００において、放送型の動画コンテンツの視聴中に対話装置１２０が感情表現を実施するための動作シーケンス例を示している。

放送局やストリーム配信サーバなどのサービス側は、放送型の動画コンテンツを送信期間中に、仮想キャラクタの感情表現などを実施するトリガーとなり得るイベントが動画コンテンツ内で発生したことを通知するトリガー配信を逐次実行する。

図５に示す動作シーケンス例では、放送局やストリーム配信サーバなどのサービス側は、放送型の動画コンテンツを配信している期間中に（ＳＥＱ５０１）に、動画コンテンツ内でイベントが発生する度に、その動画コンテンツを受信（選局受信）する表示装置１１０に対して、トリガー配信を逐次実施する（ＳＥＱ５１１、ＳＥＱ５１２、…）。

すなわち、放送局又はストリーム配信サーバなどのサービス側は、放送型の動画コンテンツ内でトリガーとなり得るイベントが発生したことに同期して、トリガー配信を実施する。ストリーミングサービスの場合、動画コンテンツ内でイベントが発生してからトリガー配信が表示装置１１０に届くまでにネットワーク遅延などの遅延時間が発生する可能性があるが、ここでは遅延時間は無視し得るものとする。

本実施形態では、サービス側は、放送サービスの標準規格やストリーム配信サービスの標準規格によって既に規定されている手段を使ってトリガー配信を実施することものとする。

例えば、放送サービスの場合、放送局側は、ＳｔｒｅａｍＥｖｅｎｔなどを利用して、放送番組を選局受信する表示装置１１０に対してトリガー配信を実施することができる。ＡＲＩＢ（ＡｓｓｏｃｉａｔｉｏｎｏｆＲａｄｉｏＩｎｄｕｓｔｒｉｅｓａｎｄＢｕｓｉｎｅｓｓ：電波産業会）では、映像及び音声のストリームやデータなどのコンテンツとともにＰＳＩテーブルを多重化したＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｓＧｒｏｕｐ）－２ＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）パケットを放送信号の送信形式として規定している。ＰＳＩテーブルの１つであるＰＭＴの記述子領域に汎用イベントメッセージを格納することで、ＳｔｒｅａｍＥｖｅｎｔを利用したトリガー配信を実施することができる。

また、コンテンツストリーミングサービスの場合、ストリーム配信サーバなどのサービス側は、ＷｅｂＳｏｃｋｅｔなどを利用して、コンテンツストリームを受信する表示装置１１０に対してトリガー配信を実施することができる。ＷｅｂＳｏｃｋｅｔは、サーバとクライアントが一度コネクションを行った後は、必要な通信をすべてそのコネクション上で専用のプロトコルを用いて行うことを規定した、ＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）上で動作するプロトコルである。ＷｅｂＳｏｃｋｅｔは、Ｗｅｂサーバとクライアント間で、ヘッダーによるオーバーヘッドが少なく、高効率な伝送を実現することができる。ＷｅｂＳｏｃｋｅｔは、ＲＦＣ（ＲｅｑｕｅｓｔｆｏｒＣｏｍｍｅｎｔｓ）６４５５，“ＴｈｅＷｅｂＳｏｃｋｅｔＰｒｏｔｏｃｏｌ”として規定されている。

いずれの放送規格又は通信規格に基づくにせよ、放送局又はストリーム配信サーバなどのサービス側は、トリガー配信（ＳＥＱ５１１、ＳＥＱ５１２、…）において、シーン記述データ（前述）の所在又は取得方法に関する情報を含んだトリガーデータを、表示装置１１０に送信する。シーン記述データの所在又は取得方法は、例えばＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｉｔｉｆｉｅｒ）又はＵＲＬ（ＵｎｏｆｏｒｍＲｅｓｏｕｃｅＬｏｃａｔｏｒ）の形式で記述することができる。

表示装置１１０は、例えばＳｔｒｅａｍＥｖｅｎｔ又はＷｅｂＳｏｃｋｅｔなどの形式でトリガーデータを受信すると、必要に応じて対話装置１２０が処理可能なデータ形式に適宜変換して、トリガーデータを対話装置１２０に転送する（ＳＥＱ５２１、ＳＥＱ５２２、…）。

トリガーデータは、シーン記述データ自体を含まず、シーン記述データの所在又は取得方法をＵＲＩ又はＵＲＬなどの形式で指定する、簡素で小容量のデータからなる。したがって、表示装置１１０と対話装置１２０間の一方向通信のみの簡素な通信手段（前述）を用いてトリガーデータを転送することが可能である。

対話装置１２０は、表示装置１１０からトリガーデータを受信すると（ＳＥＱ５２１、ＳＥＱ５２２、…）、トリガーデータ内でＵＲＩ又はＵＲＬなどの形式で指定された所在又は取得方法に従って、所定のＷｅｂサイトからシーン記述データを取得する（ＳＥＱ５３１、ＳＥＱ５３２、…）。

そして、対話装置１２０は、取得したシーン記述データに基づいて、サブ画面（表示部３０３）に表示する仮想キャラクタを自律駆動させる（ＳＥＱ５４１、ＳＥＱ５４２、…）。

なお、表示装置１１０がトリガーデータを対話装置１２０に転送する際に（ＳＥＱ５２１、ＳＥＱ５２２、…）、サブ画面で表示する仮想キャラクタのデータ（以下、「配信キャラクタ」ともいう）を併せて対話装置１２０に送信するようにしてもよい。仮想キャラクタのデータは、放送局やストリーム配信サーバが、動画コンテンツに付随して、マルチメディアコンテンツとして配信したものでもよいし、表示装置１１０にあらかじめ装備されているものでもよい。一方、対話装置１２０は、あらかじめ備えている仮想キャラクタ（以下、「マイキャラクタ」ともいう）も有している。対話装置１２０は、マイキャラクタと配信キャラクタのうちいずれか一方を選択して、サブ画面で自律駆動させるものとする。

例えば、ユーザが視聴しているドラマ番組の中でクライマックスシーンなどのイベントが発生すると、サービス側からトリガー配信が行われ、これに応答して、表示装置１１０から対話装置１２０へトリガーデータが転送される。そして、対話装置１２０は、新たに取得したシーン記述データに基づいて、ユーザの感情を代弁し又はユーザに同調するような仮想キャラクタの動作を表出することができる。

また、ユーザが野球やサッカーなどのスポーツ番組を視聴中に、得点若しくは失点、ファインプレーなどのイベントが発生すると、サービス側からトリガー配信が行われ、これに応答して、表示装置１１０から対話装置１２０へトリガーデータが転送される。そして、対話装置１２０は、新たに取得したシーン記述データに基づいて、自軍の得点やファインプレーを一緒に喜んだり相槌を打ったりし、自軍の失点やエラーを一緒に悲しんだり落胆したりするなど、ゲームの経過などに追従した仮想キャラクタの動作を表出することかできる。

また、ユーザがニュース番組を視聴中に、国内、国際、社会、経済、芸能、スポーツ、科学、地域などのコーナー毎にサービス側からトリガー配信が行われ、これに応答して、表示装置１１０から対話装置１２０へトリガーデータが転送される。そして、対話装置１２０は、逐次取得したシーン記述データに基づいて、ユーザの関心があるジャンルを紹介するような仮想キャラクタの動作を表出することができる。

また、放送やストリーミングの番組本編に挿入されるＣＭのタイミングでサービス側からトリガー配信が行われ、これに応答して、表示装置１１０から対話装置１２０へトリガーデータが転送される。そして、対話装置１２０は、ユーザのプロファイルと商品とのマッチング処理などを行い、ユーザの商品に対する興味の度合いなどに応じて、仮想キャラクタによる商品のお薦めの仕方を変化させるようにしてもよい。

また、いずれの種類のイベントに応答した動作を実行している最中であれ、仮想キャラクタは、ユーザからの質問や雑談には応答するものとする。

図６には、シーン記述データの一例を示している。同図では、サッカーのゴールシーンというイベントに関する、イベントの開始時間及び終了時間、イベントの種別（「サッカー」）、イベントの内容（「ゴールした」、「チーム名」、「得点状況」）などを含んでいる。なお、映像からシーンを表現する手法はさまざまであり、図６に示すようなシーン記述データを既存の手法に基づいて自動生成することができる。

図７には、シーン記述データの他の例を示している。同図では、ユーザの状況に応じた感情の表現の典型を記述している。具体的には、「サッカー」というイベント種別において、「ゴールした」というイベントが発生した際に、「喜ぶ」又は「悲しむ」のいずれかの感情を表現することを記述している。

なお、図６に示したような、シーンに関する具体的な情報を記述するデータと、図７に示したような、シーンに対応した感情表現を示唆するデータとを個別のシーン記述データファイルとして、トリガーデータでは、これらのような２つのデータファイルの組み合わせを、イベントに対応したシーン記述データとして指定するようにしてもよい。あるいは、図６に示したようなデータ部分と図７に示したようなデータ部分をともに含む１つのシーン記述データファイルとして構成するようにしてもよい。

また、シーン記述データで使用する文書構造若しくは文法は任意であり、図６及び図７は一例を示したものに過ぎない。

また、対話装置１２０は、仮想キャラクタを自律駆動させる際に、視聴中の動画コンテンツ内でイベントが発生する度に提供されるシーン記述データを利用するかしないか、あるいはどの程度利用するかは任意である。例えば、対話装置１２０は、ユーザの指示に従って、シーン記述データを利用するかしないか、あるいはどの程度利用するかを決定するようにしてもよい。また、シーン記述データの中で、そのシーン記述データの記述内容が必須又は任意のいずれであるかを指定するようにしてもよい。

図８には、表示装置１１０の基本的な動作例をフローチャートの形式で示している。

表示装置１１０は、主電源が投入されて、起動を開始すると、ペアとなっている対話装置１２０が起動しているかどうかをチェックする（ステップＳ８０１）。

そして、対話装置１２０がまだ起動していない場合には、表示装置１１０は、対話装置１２０に起動を指示して（ステップＳ８０２）、対話装置１２０が表示装置１１０からトリガーデータなどを受信可能な受信状態にして（ステップＳ８０３）、本処理を終了する。

なお、対話装置１２０ではなく、ＭＲデバイスやペット型ロボットを使ってユーザと対話するシステム構成の場合には、ステップＳ８０１では、ＭＲデバイスやペット型ロボットの起動状態のチェックを行い、ステップＳ８０２ではＭＲデバイスやペット型ロボットを起動させて、受信可能状態にする。また、表示装置１１０の画面に子画面を設けて仮想キャラクタを表示するシステム構成の場合には、仮想キャラクタの自動駆動用アプリケーションの起動状態のチェックを行い、ステップＳ８０２ではこのアプリケーションを受信可能状態にする。

図９には、受信状態の対話装置１２０が実施する処理動作の手順をフローチャートの形式で示している。

対話装置１２０は、表示装置１１０からトリガーデータが配信されているかどうかをチェックする（ステップＳ９０１）。

表示装置１１０からトリガーデータが配信されていないときには（ステップＳ９０１のＮｏ）、対話装置１２０は、自律会話モードに移行して（ステップＳ９０２）、表示装置１１０の画面で表示している放送型の動画コンテンツの内容（シーン）に依らず、仮想キャラクタを自律的にユーザと対話させながら、トリガーデータが配信されるまで待機する。

一方、表示装置１１０からトリガーデータが配信されているときには（ステップＳ９０１のＹｅｓ）、対話装置１２０は、配信キャラクタのデータも表示装置１１０から配信されているかどうかをさらにチェックする（ステップＳ９０３）。

表示装置１１０から配信キャラクタが配信されていない場合には（ステップＳ９０３のＮｏ）、対話装置１２０は、マイキャラクタを選択する（ステップＳ９０４）。

また、表示装置１１０から配信キャラクタが配信されている場合には（ステップＳ９０３のＹｅｓ）、対話装置１２０は、選択可能な（言い換えれば、対話装置１２０上で自律駆動させることが可能な）配信キャラクタの一覧からなるキャラクタ選択画面をユーザに提示する（ステップＳ９０５）。

そして、ユーザがキャラクタ一覧画面の中からいずれかの配信コンテンツを選択すると（ステップＳ９０６のＹｅｓ）、対話装置１２０は、ユーザが選択した配信キャラクタを表示部３０３に表示して自律駆動させることを選択する（ステップＳ９０７）。

また、ユーザがキャラクタ一覧画面の中からいずれの配信コンテンツも選択しなかった場合には（ステップＳ９０６のＮｏ）、対話装置１２０は、マイキャラクタを選択して（ステップＳ９０４）、マイキャラクタを表示部３０３に表示して自律駆動させるようにする。

そして、対話装置１２０は、上記のようにしてマイキャラクタ又は配信キャラクタのいずれかを選択すると、シーン追従会話モードに移行する（ステップＳ９０８）。このシーン追従会話モードでは、対話装置１２０は、トリガーデータで指定されている所在又は取得方法に従って取得したシーン記述データに基づいて、選択したマイキャラクタ又は配信キャラクタのいずれかを用いて、ユーザとの対話を行う。

その後、対話装置１２０は、表示装置１１０から次のトリガーデータが配信されるまでは、選択したマイキャラクタ又は配信キャラクタを使って、ユーザとの会話を行う。

図１０には、シーン追従会話モード下で対話装置１２０が実施する処理動作の手順をフローチャートの形式で示している。

対話装置１２０は、表示装置１１０からトリガーデータを受信すると（ステップＳ１００１のＹｅｓ）、トリガーデータで指定されている所在又は取得方法に従って、シーン記述データを取得する（ステップＳ１００２）。

次いで、対話装置１２０は、いずれかの感情データを選択することが可能かどうかをチェックする（ステップＳ１００３）。

感情データを選択できないときには（ステップＳ１００３のＮｏ）、対話装置１２０は、シーン記述データで指定された、お薦めの感情データに基づいた表現を行うように、仮想キャラクタを駆動させる（ステップＳ１００４）。

一方、感情データを選択可能である場合には（ステップＳ１００３のＹｅｓ）、対話装置１２０は、感情データのカテゴリに適合するユーザデータがあるかどうかをさらにチェックする（ステップＳ１００５）。

そして、感情データのカテゴリに適合するユーザデータがある場合には（ステップＳ１００５のＹｅｓ）、対話装置１２０は、ユーザデータに応じた感情表現を行うように、仮想キャラクタを駆動させる（ステップＳ１００６）。

また、感情データのカテゴリに適合するユーザデータがない場合には（ステップＳ１００５のＮｏ）、対話装置１２０は、中立的な感情表現を行うように、仮想キャラクタを駆動させる（ステップＳ１００７）。

以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書で開示する技術は、放送型の動画コンテンツを視聴するシステムに好適に適用することができる。本明細書では、主にＭＰＥＧ－２システムに適用した実施形態を中心に説明してきたが、本明細書で開示する技術の適用範囲はこれに限定されるものではない。例えば、ＭＰＥＧ－４やＭＰＥＧ－ＤＡＳＨ（ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ）など他の動画配信システムにも同様に本明細書で開示する技術を適用することができる。

要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）放送型の動画コンテンツを受信する受信部と、
前記動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを第２の機器に通知する通知部と、
を具備する情報処理装置。
（２）前記受信部は、放送波又はストリーム配信される前記動画コンテンツを受信する、
上記（１）に記載の情報処理装置。
（３）前記受信部が前記イベントのトリガーを受信したことに応答して、前記通知部が前記第２の機器に前記データを通知する、
上記（１）又は（２）のいずれかに記載の情報処理装置。
（４）前記受信部は、ＳｔｒｅａｍＥｖｅｎｔ又はＷｅｂＳｏｃｋｅｔにより、前記イベントのトリガーを受信する、
上記（３）に記載の情報処理装置。
（５）前記情報処理装置は、前記放送型の動画コンテンツを表示する表示部を備えたテレビ受信機である、
上記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）放送型の動画コンテンツを受信する受信ステップと、
前記動画コンテンツを表示部に表示する表示ステップと、
前記動画コンテンツ中で発生するイベントに応じて、仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを第２の機器に通知する通知ステップと、
を有する情報処理方法。
（７）放送型の動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータの通知を第１の機器から受け取る受信部と、
前記第１の機器から通知された前記データに基づいて前記情報を取得し、取得した前記情報に基づいて、前記仮想キャラクタの駆動を制御する制御部と、
を具備する情報処理装置。
（８）前記受信部は、前記放送型の動画コンテンツを受信するテレビ受信機としての前記第１の機器から前記通知を受け取る、
上記（７）に記載の情報処理装置。
（９）２次元又は３次元表示可能な表示部をさらに備え、
前記制御部は、前記表示部を用いて表示する前記仮想キャラクタの駆動を制御する、
上記（７）又は（８）のいずれかに記載の情報処理装置。
（１０）前記制御部は、ＭＲデバイスを用いて前記仮想キャラクタを表示する、
上記（７）又は（８）のいずれかに記載の情報処理装置。
（１１）前記制御部は、前記放送型の動画コンテンツを受信するテレビ受信機としての前記第１の機器の子画面で前記仮想キャラクタを表示する、
上記（７）又は（８）のいずれかに記載の情報処理装置。
（１２）前記制御部は、取得した前記情報に基づいて、ペット型ロボットの駆動を制御する、
上記（７）又は（８）のいずれかに記載の情報処理装置。
（１３）前記制御部は、前記動画コンテンツ中の前記イベントの位置情報、前記イベントの種別、前記イベントの内容を含んだ前記データを取得する、
上記（７）乃至（１２）のいずれかに記載の情報処理装置。
（１４）前記制御部は、前記イベントに対する前記仮想キャラクタの感情表現に関する情報を含んだ前記データを取得する、
上記（７）乃至（１３）のいずれかに記載の情報処理装置。
（１５）前記受信部は、前記第１の機器から前記仮想キャラクタのデータをさらに受信する、
上記（７）乃至（１４）のいずれかに記載の情報処理装置。
（１６）放送型の動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータの通知を第１の機器から受け取る受信ステップと、
前記第１の機器から通知された前記データに基づいて前記情報を取得する取得ステップと、
前記取得ステップで取得した前記情報に基づいて、仮想キャラクタの駆動を制御する制御ステップと、
を有する情報処理方法。
（１７）放送型の動画コンテンツを受信する第１の機器と、
仮想キャラクタの駆動を制御する第２の機器と、
を具備し、
前記第１の機器は、前記イベントのトリガーを受信したことに応答して、前記動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを前記第２の機器に通知し、
前記第２の機器は、前記第１の機器から通知された前記データに基づいて前記情報を取得して、前記仮想キャラクタの駆動を制御する、
情報処理システム。
（１８）放送型の動画コンテンツを受信する受信部、
前記動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを第２の機器に通知する通知部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
（１９）放送型の動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータの通知を第１の機器から受け取る受信部、
前記第１の機器から通知された前記データに基づいて前記情報を取得する制御部、
取得した前記情報に基づいて、前記仮想キャラクタの駆動を制御する制御部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。

１００…対話システム、１１０…表示装置、１２０…対話装置
２０１…制御部、２０２…バス、２０３…ストレージ部
２０４…通信インターフェース（ＩＦ）部
２０５…拡張インターフェース（ＩＦ）部
２０６…チューナ／復調部、２０７…デマルチプレクサ
２０８…映像デコーダ、２０９…音声デコーダ
２１０…文字スーパーデコーダ、２１１…字幕デコーダ
２１２…字幕合成部、２１３…データデコーダ、２１４…キャッシュ部
２１５…アプリケーション（ＡＰ）制御部、２１６…ブラウザ部
２１７…音源部、２１８…映像合成部、２１９…表示部
２２０…音声合成部、２２１…音声出力部、２２２…操作入力部
３０１…処理部、３０２…通信部、３０３…表示部
３０４…音声入力部、３０５…音声出力部
３０６…センサ部、３０７…記録部
４１０…対話エンジンフロントエンド
４２０…対話エンジンバックエンド、４２１…音声認識部
４２２…意味解析部、４２３…音声合成部、４２４…制御部
４３０…外部エージェントサービス、４３１…音声認識部
４３２…意味解析部、４３３…処理部、４３４…音声合成部
４４０…音声エージェントデバイス、４４１…音声入力部
４４２…音声出力部

Claims

放送型の動画コンテンツを受信する受信部と、
前記動画コンテンツを表示する表示部と、
前記動画コンテンツ中で発生するイベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを、仮想キャラクタを駆動する第２の機器に通知する通知部と、
を具備し、
前記動画コンテンツの送信元が前記動画コンテンツの送信中に送信した前記イベントのトリガーを受信したことに応答して、前記通知部が前記第２の機器に前記データを通知する、
情報処理装置。
前記受信部は、放送波又はストリーム配信される前記動画コンテンツを受信する、
請求項１に記載の情報処理装置。
前記受信部は、ＳｔｒｅａｍＥｖｅｎｔ又はＷｅｂＳｏｃｋｅｔにより、前記イベントのトリガーを受信する、
請求項１に記載の情報処理装置。
放送型の動画コンテンツを受信する受信ステップと、
前記動画コンテンツを表示部に表示する表示ステップと、
前記動画コンテンツ中で発生するイベントに応じて、仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを、仮想キャラクタを駆動する第２の機器に通知する通知ステップと、
を有し、
前記通知ステップでは、前記動画コンテンツの送信元が前記動画コンテンツの送信中に送信した前記イベントのトリガーを受信したことに応答して、前記第２の機器に前記データを通知する、
情報処理方法。
放送型の動画コンテンツを表示中の第１の機器が前記動画コンテンツの送信元からイベントのトリガーを受信したことに応答して通知した、仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを受信する受信部と、
前記第１の機器から通知された前記データに基づいて前記情報を取得し、取得した前記情報に基づいて、前記仮想キャラクタの駆動を制御する制御部と、
を具備する情報処理装置。
前記受信部は、前記放送型の動画コンテンツを受信するテレビ受信機としての前記第１の機器から前記通知を受け取る、
請求項５に記載の情報処理装置。
２次元又は３次元表示可能な表示部をさらに備え、
前記制御部は、前記表示部を用いて表示する前記仮想キャラクタの駆動を制御する、
請求項５に記載の情報処理装置。
前記制御部は、ＭＲデバイスを用いて前記仮想キャラクタを表示する、
請求項５に記載の情報処理装置。
前記制御部は、前記放送型の動画コンテンツを受信するテレビ受信機としての前記第１の機器の子画面で前記仮想キャラクタを表示する、
請求項５に記載の情報処理装置。
前記制御部は、取得した前記情報に基づいて、ペット型ロボットの駆動を制御する、
請求項５に記載の情報処理装置。
前記制御部は、前記動画コンテンツ中の前記イベントの位置情報、前記イベントの種別、前記イベントの内容を含んだ前記データを取得する、
請求項５に記載の情報処理装置。
前記制御部は、前記イベントに対する前記仮想キャラクタの感情表現に関する情報を含んだ前記データを取得する、
請求項５に記載の情報処理装置。
前記受信部は、前記第１の機器から前記仮想キャラクタのデータをさらに受信する、
請求項５に記載の情報処理装置。
放送型の動画コンテンツを表示中の第１の機器が前記動画コンテンツの送信元からイベントのトリガーを受信したことに応答して通知した、仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを受信する受信ステップと、
前記第１の機器から通知された前記データに基づいて前記情報を取得する取得ステップと、
前記取得ステップで取得した前記情報に基づいて、仮想キャラクタの駆動を制御する制御ステップと、
を有する情報処理方法。
放送型の動画コンテンツを受信して表示する第１の機器と、
仮想キャラクタの駆動を制御する第２の機器と、
を具備し、
前記第１の機器は、前記動画コンテンツの送信元が前記動画コンテンツの送信中に送信したイベントのトリガーを受信したことに応答して、前記イベントに応じた仮想キャラクタの動作を示唆する情報の所在又は取得方法を含むデータを前記第２の機器に通知し、
前記第２の機器は、前記第１の機器から通知された前記データに基づいて前記情報を取得して、前記仮想キャラクタの駆動を制御する、
情報処理システム。