JPWO2019188393A1

JPWO2019188393A1 - 情報処理装置、情報処理方法、送信装置、及び送信方法

Info

Publication number: JPWO2019188393A1
Application number: JP2020510644A
Authority: JP
Inventors: 卓己津留
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-29
Filing date: 2019-03-15
Publication date: 2021-04-15
Anticipated expiration: 2039-03-15
Also published as: US11930248B2; EP3780640A1; US20210006862A1; US11438650B2; EP3780640A4; JP7366003B2; US20220360849A1; KR102630037B1; CN111903138A; KR20200136382A; WO2019188393A1

Abstract

本技術は、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする情報処理装置、情報処理方法、送信装置、及び送信方法に関する。コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、当該コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、音声応答のタイミングを制御する制御部を備える情報処理装置が提供されることで、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようになる。本技術は、例えば、音声AIアシスタンスサービスと連携したシステムに適用することができる。

Description

本技術は、情報処理装置、情報処理方法、送信装置、及び送信方法に関し、特に、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにした情報処理装置、情報処理方法、送信装置、及び送信方法に関する。

放送コンテンツに連動して実行される放送アプリケーションが提案されている（例えば、特許文献１参照）。放送アプリケーションを利用することで、例えば、放送コンテンツに関連する情報の表示を行うことができる。

また、ユーザの発話内容を解析する音声認識に関する技術が提案されている（例えば、特許文献２参照）。例えば、この技術を、テレビ受像機や携帯端末装置に適用すると、ユーザが発した言葉を解析し、その発話に応じた処理を実行することが可能となる。

特開２０１３−１８７７８１号公報特開２０１４−１５３６６３号公報

近年、音声AIアシスタンスサービスが急速に普及しているが、テレビ受像機等の受信機で再生される放送コンテンツや放送アプリケーションに連携して、音声AIアシスタンスサービスを利用する際に、放送コンテンツ等のコンテンツを視聴する視聴者の発話に対する応答音声の出力が、当該コンテンツの音声と重なって、視聴者による視聴の妨げになる恐れがある。そのため、視聴者の発話の応答音声の出力に際し、視聴者による視聴の妨げにならないようにして、当該音声AIアシスタンスサービスの利便性を向上させるための技術が求められていた。

本技術はこのような状況に鑑みてなされたものであり、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにするものである。

本技術の第１の側面の情報処理装置は、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、前記音声応答のタイミングを制御する制御部を備える情報処理装置である。

本技術の第１の側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第１の側面の情報処理方法は、上述した本技術の第１の側面の情報処理装置に対応する情報処理方法である。

本技術の第１の側面の情報処理装置、及び情報処理方法においては、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、前記音声応答のタイミングが制御される。

本技術の第２の側面の送信装置は、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報を含むメタデータを生成する生成部と、生成した前記メタデータを送信する送信部とを備える送信装置である。

本技術の第２の側面の送信装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第２の側面の送信方法は、上述した本技術の第２の側面の送信装置に対応する送信方法である。

本技術の第２の側面の送信装置、及び、送信方法においては、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報を含むメタデータが生成され、生成された前記メタデータが送信される。

本技術の第１の側面、及び第２の側面によれば、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用したコンテンツ・音声AI連携システムの一実施の形態の構成の例を示すブロック図である。コンテンツに連携して利用される音声AIアシスタンスサービスの応答タイミングの例を示す図である。第１の実施の形態の構成の第１の例を示す図である。第１の実施の形態の各装置の詳細な構成の第１の例を示すブロック図である。音声アシスタンスサーバと処理サーバとの間の通信の例を示す図である。音声アシスタンスサーバと処理サーバとの間の通信の例を示す図である。音声ユーザインタフェース装置と音声アシスタンスサーバとの間の通信の例を示す図である。第１の実施の形態の各装置の処理の第１の例の流れを説明するフローチャートである。第１の実施の形態の構成の第２の例を示す図である。第１の実施の形態の各装置の詳細な構成の第２の例を示すブロック図である。放送配信システムと受信装置との間でやり取りされるメタデータの例を示す図である。 MPDの記述の例を示す図である。第１の実施の形態の各装置の処理の第２の例の流れを説明するフローチャートである。第２の実施の形態の構成の例を示す図である。第２の実施の形態の各装置の詳細な構成の例を示すブロック図である。第２の実施の形態の各装置の処理の流れを説明するフローチャートである。第３の実施の形態の各装置の詳細な構成の第１の例を示すブロック図である。第３の実施の形態の各装置の処理の第１の例の流れを説明するフローチャートである。第３の実施の形態の各装置の詳細な構成の第２の例を示すブロック図である。第３の実施の形態の各装置の処理の第２の例の流れを説明するフローチャートである。受信装置の他の構成の例を示すブロック図である。コンピュータの構成の例を示す図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．システムの構成
２．本技術の実施の形態
（１）第１の実施の形態：音声応答時間に基づいた音声応答のタイミング制御を行う構成
（２）第２の実施の形態：視聴者からの指示発話に基づいた音声応答のタイミング制御を行う構成
（３）第３の実施の形態：音声応答時間に基づいた音声応答のタイミング制御時に、視聴者からの指示発話に基づいた音声応答のタイミング制御を行う構成
３．変形例
４．コンピュータの構成

＜１．システムの構成＞

（コンテンツ・音声AI連携システムの構成）
図１は、本技術を適用したコンテンツ・音声AI連携システムの一実施の形態の構成の例を示すブロック図である。

コンテンツ・音声AI連携システム１は、コンテンツを配信するためのシステムであって、配信されたコンテンツと連携して音声AIアシスタンスサービスを利用することが可能である。

図１において、コンテンツ・音声AI連携システム１は、放送配信システム１０、受信装置２０、音声ユーザインタフェース装置３０、音声アシスタンスサーバ４０、及び処理サーバ５０を含んで構成される。

また、コンテンツ・音声AI連携システム１において、視聴者宅に設置される受信装置２０と音声ユーザインタフェース装置３０は、インターネット６０を介して、データセンタ等に設置される音声アシスタンスサーバ４０や処理サーバ５０などの各種のサーバと接続可能であって、各種のデータをやりとりすることができる。

放送配信システム１０は、１又は複数の放送サーバ等から構成される。放送配信システム１０は、配信対象のコンテンツに対して必要な処理を施し、その処理の結果得られる放送信号（放送波）を、送信所に設置された送信アンテナから送出する。

受信装置２０は、例えば、テレビ受像機やパーソナルコンピュータ等の固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータ等のモバイル受信機として構成される。受信装置２０は、放送配信システム１０から送信されてくる放送信号を受信して処理することで、配信対象のコンテンツ（例えば、放送番組やCMなど）を再生する。

音声ユーザインタフェース装置３０は、例えば、Bluetooth（登録商標）、無線LAN(Local Area Network)、若しくはセルラー方式の通信などの無線通信、又は有線通信を行うことが可能な音声処理装置（例えばスピーカ）であって、スマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、音声AIアシスタンスサービスのユーザインタフェースとして機能したり、あるいは、照明器具や空調設備などの機器に対する音声操作を行ったりすることができる。

音声ユーザインタフェース装置３０は、クラウド側の音声アシスタンスサーバ４０等のサーバと連携することで、エンドユーザ（コンテンツの視聴者）に対し、音声AIアシスタンスサービスを提供することができる。ここで、音声AIアシスタンスサービスとは、例えば、音声認識処理や自然言語解析処理等の処理を組み合わせて、エンドユーザの問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。

音声アシスタンスサーバ４０は、音声AIアシスタンスサービスを提供するための機能や各種のデータベースなどを有している。音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの要求（リクエスト）に応じて、音声AIアシスタンスサービスを提供するための処理を行い、その処理結果（レスポンス）を、インターネット６０を介して、音声ユーザインタフェース装置３０に返信する。

処理サーバ５０は、音声アシスタンスサーバ４０と連携して、音声AIアシスタンスサービスを提供するための処理を行い、その処理結果（レスポンス）を、インターネット６０又はネットワーク７０（例えば専用線等の通信回線）を介して、音声アシスタンスサーバ４０に送信する。なお、処理サーバ５０による処理結果は、音声アシスタンスサーバ４０だけでなく、インターネット６０を介して、受信装置２０又は音声ユーザインタフェース装置３０に送信されるようにしてもよい。

コンテンツ・音声AI連携システム１は、以上のように構成される。

ところで、視聴者が、放送番組やCM等のコンテンツを視聴中に、音声AIアシスタンスサービスを利用して当該コンテンツに関連したアプリケーションに対し、何らかの発話を行ったとき、その発話に対する応答の音声と、放送番組等のコンテンツの音声とが重なってしまい、コンテンツの視聴の妨げになってしまう。

例えば、図２においては、視聴者２が、ドラマ番組を視聴中に、あるシーンに出演している女優が誰かを知りたいとき、音声AIアシスタンスサービスを利用して、「この女優は誰？」である発話を行った場面を示している。

このとき、音声ユーザインタフェース装置３０は、視聴者２の発話をマイクロフォンにより収音し、その発話の音声データを、インターネット６０を介して音声アシスタンスサーバ４０に送信する。音声アシスタンスサーバ４０は、放送局ごとに設けられた処理サーバ５０と連携して処理を行うことで、発話に対する応答の音声データを生成し、インターネット６０を介して音声ユーザインタフェース装置３０に送信する。

ここで、音声ユーザインタフェース装置３０が、音声アシスタンスサーバ４０からの応答の音声データを受信してその音声データに応じた応答音声を出力するとき、そのタイミングによっては、視聴者２が受信装置２０により視聴中のドラマ番組での女優の会話のシーンとタイミングが重なって、女優の発話が聞き取れない可能性がある。

図２の例では、「この女優の名前はXXXXで、主な主演作品は、・・・」である応答音声が、「そうだ！今日はインド料理を食べに行こう！！」である女優の発話に重なっている。このように、音声応答のタイミングによっては、音声AIアシスタンスサービスが、視聴者２のドラマ番組の視聴の妨げになることがある。

そのため、放送番組等のコンテンツに連携して音声AIアシスタンスサービスを利用する際に、視聴者の発話に対する音声応答が、視聴者の所望のタイミングとなるようにして、当該音声AIアシスタンスサービスの利便性を向上させたいという要請がある。

そこで、本技術では、視聴者の発話に対する音声応答に適したタイミングを示す情報（以下、音声応答時間情報という）に基づき、音声応答のタイミングを制御することで、放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする。以下、本技術の実施の形態として、第１の実施の形態乃至第３の実施の形態を説明する。

＜２．本技術の実施の形態＞

（１）第１の実施の形態

まず、第１の実施の形態として、図３乃至図１３を参照しながら、通信経由又は放送経由で取得される音声応答時間情報に基づき、音声応答のタイミングを制御する構成を示す。

（構成の第１の例）
図３は、第１の実施の形態の構成の第１の例を示す図である。

図３においては、視聴者２により視聴されている放送番組の進行に合わせた処理の流れを、図３のＡ乃至Ｃによって、時系列で示している。

10時10分00秒に、視聴者２が、ドラマ番組を視聴中に、「この女優は誰？」である発話を行ったとき、ユーザインタフェース装置３０は、視聴者２の発話をマイクロフォンにより収音し、その発話の音声データを、質問リクエストとして、音声アシスタンスサーバ４０に送信する（図３のＡ）。

音声アシスタンスサーバ４０は、視聴中のドラマ番組を制作した放送局により提供される処理サーバ５０と連携して処理を行うことで、発話に対する応答の音声データを生成する。また、ここでは、応答の音声データとともに、その音声応答に適したタイミングを示す音声応答時間情報が、音声応答タイミングメタデータとして生成される。そして、音声応答タイミングメタデータ（音声応答時間情報）は、応答の音声データとともに、ユーザインタフェース装置３０に送信される（図３のＢ）。

10時10分02秒において、ユーザインタフェース装置３０は、音声アシスタンスサーバ４０から応答の音声データとともに音声応答タイミングメタデータを受信したが、音声応答時間情報の示す時間（時刻）が、10時10分10秒を示しているため、その時間（時刻）まで待機する（図３のＢ）。すなわち、視聴中のドラマ番組では、10時10分02秒頃に、会話のシーンとなるため、例えば、「そうだ！今日はインド料理を食べに行こう！！」である女優の発話などに重ならないように、音声応答を行うタイミングをずらしている。

そして、10時10分10秒になったとき、ユーザインタフェース装置３０は、音声応答時間情報の示す時間（時刻）となったので、待機中にバッファに保持していた応答の音声データに基づき、「この女優の名前はXXXXで、主な主演作品は、・・・」である応答音声を出力する（図３のＣ）。このとき、視聴中のドラマ番組では、会話のシーンではないため、視聴者２によるドラマ番組の視聴の妨げになる可能性は少ない。

このように、ユーザインタフェース装置３０では、通信経由で得られる音声応答タイミングメタデータ（音声応答時間情報）に基づき、音声応答に適したタイミング、すなわち、視聴している番組の展開から、会話の切れ目などの視聴の妨げにならない時間に、音声応答を行うことが可能となる。これにより、視聴者２は、番組視聴を邪魔されることなく、応答音声（知りたい情報）を聞くことが可能となる。

なお、図３においては、説明を分かりやすくするために、現実の時刻を用いた場合を例に説明したが、実際には、受信装置２０にて再生中のコンテンツのメディアタイムを用いて、音声応答のタイミングを制御することができる。

（各装置の詳細な構成の第１の例）
図４は、第１の実施の形態の各装置の詳細な構成の第１の例を示すブロック図である。

図４においては、放送局側（送信側）に設けられる放送配信システム１０と、ローカル側（受信側）に設けられる受信装置２０の構成の例を示している。また、図４においては、ローカル側に設けられる音声ユーザインタフェース装置３０と、クラウド側に設けられる音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

図４において、放送配信システム１０は、番組コンテンツ処理部１０１、放送付随アプリケーション生成部１０２、マルチプレクサ１０３、及び送出部１０４を含んで構成される。

番組コンテンツ処理部１０１は、そこに入力されるコンテンツに対して必要な処理（例えばAVエンコードなど）を施し、マルチプレクサ１０３に供給する。なお、コンテンツは、例えば放送番組やCM等であって、外部のサーバ、カメラ、又は記録媒体などから取得される。

放送付随アプリケーション生成部１０２は、放送付随アプリケーションを生成し、マルチプレクサ１０３に供給する。ここで、放送付随アプリケーションは、放送番組等のコンテンツに連動して実行されるアプリケーションである。

マルチプレクサ１０３は、番組コンテンツ処理部１０１から供給されるコンテンツと、放送付随アプリケーション生成部１０２から供給される放送付随アプリケーションを多重化し、その結果得られるストリームを、送出部１０４に供給する。

送出部１０４は、マルチプレクサ１０３から供給されるストリームに対して必要な処理（例えば誤り訂正符号化処理や変調処理など）を施し、その結果得られる放送信号（放送ストリーム）を、送信所に設置された送信用アンテナから送信する。

図４において、受信装置２０は、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、メディアタイム管理部２０８、及び通信部２０９を含んで構成される。

チューナ２０１は、視聴者宅等に設置された受信用アンテナを介して、放送配信システム１０から送信されてくる放送信号（放送ストリーム）を受信して必要な処理（例えば復調処理や誤り訂正復号化処理など）を施し、その結果得られるストリームを、デマルチプレクサ２０２に供給する。

デマルチプレクサ２０２は、チューナ２０１から供給されるストリームを、映像、音声、及び放送付随アプリケーションのストリームに分離する。デマルチプレクサ２０２は、映像及び音声のストリームを、AVデコーダ２０３に供給し、放送付随アプリケーションのストリームを、放送付随アプリケーション実行部２０４に供給する。

AVデコーダ２０３は、デマルチプレクサ２０２から供給される映像ストリームをデコードし、レンダラ２０５に供給する。また、AVデコーダ２０３は、デマルチプレクサ２０２から供給される音声ストリームをデコードし、レンダラ２０５に供給する。

レンダラ２０５は、AVデコーダ２０３から供給される映像データに対し、レンダリング処理を行い、その結果得られる映像を、LCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)等のディスプレイ２０６に表示する。

また、レンダラ２０５は、AVデコーダ２０３から供給される音声データに対し、レンダリング処理を行い、その結果得られる音声を、スピーカ２０７から出力する。これにより、受信装置２０では、放送番組等のコンテンツの映像が、ディスプレイ２０６に表示され、その映像に同期した音声が、スピーカ２０７から出力される。

放送付随アプリケーション実行部２０４は、例えば、HTML5やJavaScript（登録商標）等に対応したブラウザである。放送付随アプリケーション実行部２０４は、デマルチプレクサ２０２から供給されるアプリデータに基づき、放送付随アプリケーションを実行し、その映像データをレンダラ２０５に供給する。

レンダラ２０５は、放送付随アプリケーション実行部２０４から供給される映像データに対し、レンダリング処理を行い、その結果得られる映像を、ディスプレイ２０６に表示する。これにより、受信装置２０では、放送番組等のコンテンツに連動した放送付随アプリケーションの映像が、ディスプレイ２０６に表示される。

メディアタイム管理部２０８は、受信装置２０により再生中のコンテンツのメディアタイムを管理する。メディアタイム管理部２０８は、放送付随アプリケーション実行部２０４からの問い合わせに応じて、再生中のコンテンツの現在のメディアタイムを供給する。

通信部２０９は、例えば、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。通信部２０９は、所定の通信方式に従い、インターネット６０を介して、処理サーバ５０（の通信部５０１）との間で通信を行い、各種のデータをやり取りする。ここでは、例えば、ウェブソケット（WebSocket）等の通信が行われ、通信部２０９は、放送付随アプリケーション実行部２０４から供給される現在のメディアタイムを、処理サーバ５０（の通信部５０１）に送ることができる。

図４において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、通信部３０３、音声応答出力制御部３０４、タイマ３０５、バッファ３０６、及びセッティング管理部３０７を含んで構成される。

マイクロフォン３０１は、視聴者２の発話を収音し、その発話の音声データを、通信部３０３に供給する。

通信部３０３は、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。

通信部３０３は、マイクロフォン３０１から供給される発話の音声データを、インターネット６０を介して、音声アシスタンスサーバ４０に送信する。また、通信部３０３は、音声アシスタンスサーバ４０から送信されてくる応答の音声データ及び音声応答タイミングメタデータ（音声応答時間情報）を、インターネット６０を介して受信し、音声応答出力制御部３０４に供給する。なお、詳細は後述するが、応答の音声データ及び音声応答タイミングメタデータは、第２レスポンスメッセージに含めて送られる。

音声応答出力制御部３０４には、通信部３０３から応答の音声データ及び音声応答タイミングメタデータが供給される。音声応答出力制御部３０４は、通信経由で取得した音声応答タイミングメタデータに基づき、音声応答時間情報の示す時間に応じたタイミングで、応答の音声データを、スピーカ３０２に供給する。

ここでは、音声応答出力制御部３０４によって、音声応答時間情報の示す時間がタイマ３０５に渡されることで計時が行われ、音声応答に適したタイミングとなるまで、応答の音声データがバッファ３０６により一時的に保持される。そして、音声応答に適したタイミングとなったとき、音声応答出力制御部３０４は、バッファ３０６に一時的に保持された応答の音声データを読み出し、スピーカ３０２に供給する。

スピーカ３０２は、音声応答出力制御部３０４から供給される応答の音声データに応じた応答音声を出力する。

セッティング管理部３０７は、視聴者２からの設定入力に従い、各種の設定を行う。ここでは、例えば、応答音声の出力に際して、音声応答に適したタイミングまで待つかどうかのタイミング制御のオン／オフの設定などが行われる。なお、ここでの設定入力に際しては、ボタンやタッチパネル（不図示）によって視聴者２の操作入力を受け付けることは勿論、マイクロフォン３０１によって視聴者２の音声入力を受け付けるようにしてもよい。

図４において、音声アシスタンスサーバ４０は、通信部４０１、通信部４０２、音声解析部４０３、及びメッセージ生成部４０４を含んで構成される。

通信部４０１は、音声ユーザインタフェース装置３０から送信されてくる発話の音声データを、インターネット６０を介して受信し、音声解析部４０３に供給する。

音声解析部４０３は、通信部４０１から供給される発話の音声データを解析し、発話の音声データをテキストデータに変換する。音声解析部４０３は、発話の音声データの解析結果に応じたリクエストメッセージを、通信部４０２に供給する。

通信部４０２は、音声解析部４０３から供給されるリクエストメッセージを、ネットワーク７０を介して、処理サーバ５０に送信する。また、通信部４０２は、処理サーバ５０から送信されてくる第１レスポンスメッセージを、ネットワーク７０を介して受信し、メッセージ生成部４０４に供給する。

メッセージ生成部４０４は、通信部４０２から供給される第１レスポンスメッセージを変換して、音声ユーザインタフェース装置３０に応答するための第２レスポンスメッセージを生成し、通信部４０１に供給する。

なお、ここでは、説明の都合上、処理サーバ５０から送信されて音声アシスタンスサーバ４０により受信されるレスポンスメッセージと、音声アシスタンスサーバ４０から送信されて音声ユーザインタフェース装置３０により受信されるレスポンスメッセージとを区別するために、前者を第１レスポンスメッセージと称し、後者を第２レスポンスメッセージと称している。

メッセージ生成部４０４は、音声生成部４０４−１及びメタデータマージ部４０４−２から構成される。また、第１レスポンスメッセージは、音声応答データ及び音声応答タイミングメタデータ（音声応答時間情報）を含んでいる。

音声生成部４０４−１は、処理サーバ５０から送られる第１レスポンスメッセージに含まれる音声応答データを、応答の音声データに変換する。メタデータマージ部４０４−２は、処理サーバ５０から送られる第１レスポンスメッセージに含まれる音声応答タイミングメタデータ（音声応答時間情報）を、応答の音声データを含む第２レスポンスメッセージにマージする。

このように、メッセージ生成部４０４では、音声生成部４０４−１及びメタデータマージ部４０４−２によって、テキスト形式のデータ（音声応答データ、音声応答タイミングメタデータ）を含む第１レスポンスメッセージ（例えばHTTPレスポンス）が処理されることで、音声形式のデータ（応答の音声データ）とテキスト形式のデータ（音声応答タイミングメタデータ）を含む第２レスポンスメッセージ（例えばHTTPレスポンス）が生成される。なお、第１レスポンスメッセージと第２レスポンスメッセージの詳細については、図５乃至図７を参照して説明する。

通信部４０１は、メッセージ生成部４０４から供給される第２レスポンスメッセージを、インターネット６０を介して、音声ユーザインタフェース装置３０に送信する。

なお、通信部４０１と通信部４０２は、無線通信又は有線通信に対応した通信モジュールとして構成される。また、図４においては、説明の都合上、通信部４０１と通信部４０２を別の通信モジュールとして説明したが、それらが一体となって１つの通信モジュールとして構成されるようにしてもよい。

図４において、処理サーバ５０は、通信部５０１、処理部５０２、及び記録部５０３を含んで構成される。

通信部５０１は、音声アシスタンスサーバ４０から送信されてくるリクエストメッセージを、ネットワーク７０を介して受信し、処理部５０２に供給する。また、通信部５０１は、ウェブソケット等の通信により受信装置２０から送信されてくる現在のメディアタイムを受信し、処理部５０２に供給する。なお、通信部５０１は、無線通信又は有線通信に対応した通信モジュールとして構成される。

処理部５０２は、通信部５０１から供給されるリクエストメッセージに基づいて、記録部５０３に記録された音声応答データを抽出し、通信部５０１に供給する。この音声応答データは、視聴者２の発話に対する音声応答のデータとされる。

また、処理部５０２は、通信部５０１から供給される現在のメディアタイムに基づいて、記録部５０３に記録された音声応答タイミングメタデータ（番組全体のメタデータ）から、音声応答に適した時間を示す音声応答時間情報を抽出し、音声応答タイミングメタデータとして、通信部５０１に供給する。

記録部５０３は、半導体メモリや、HDD、光ディスク等の記録媒体であって、音声応答データや音声応答タイミングメタデータ等の各種のデータを記録することができる。なお、音声応答データや音声応答タイミングメタデータは、記録部５０３に記録されたものに限らず、例えば、外部のサーバから取得したり、あるいは、記録部５０３に記録されたデータや外部のサーバから取得したデータ等の各種のデータに基づき、処理部５０２により生成したりするようにしてもよい。

通信部５０１は、処理部５０２から供給される音声応答データ及び音声応答タイミングメタデータを、第１レスポンスメッセージとして、ネットワーク７０を介して音声アシスタンスサーバ４０に送信する。

なお、コンテンツ・音声AI連携システム１においては、スキルと呼ばれるプログラムが実行されることで、放送番組等のコンテンツと連携して音声AIアシスタンスサービスを利用することが可能となる。例えば、音声アシスタンスサーバ４０において、複数のスキルの中から、対象のスキルが特定され、特定された対象のスキルのエンドポイントURLによって、処理サーバ５０の処理部５０２と連携することで、視聴者の発話に対する音声応答を行うための処理が行われる。すなわち、処理部５０２は、対象のスキルの一部を構成しているとも言える。

ここで、スキルとは、どのような音声に反応するのか、どのような単語をパラメータにしてどの機能を実現するのか、その機能を実際に実行する処理サーバ（処理プログラム）は何か、といった情報を含み、これらの情報に基づき、音声ユーザインタフェース装置３０から送られる音声に対する対応処理を行うプログラム（コンピュータプログラム）である。

以上のようにコンテンツ・音声AI連携システム１は構成されるが、ここで、図５乃至図７を参照して、音声アシスタンスサーバ４０と処理サーバ５０との間で、通信経由でやり取りされる音声応答データと音声応答タイミングメタデータの詳細について説明する。

図５に示すように、処理サーバ５０において、記録部５０３には、通信経由で配信される音声応答タイミングメタデータが記録されるが、この音声応答タイミングメタデータは、放送経由で配信される放送番組ごとに、番組全体のメタデータとして提供される。図５の例では、次の４つの音声応答タイミングが例示されている。

１つ目の音声応答タイミング：2018-01-29 18:00:05 〜 2018-01-29 18:00:55
２つ目の音声応答タイミング：2018-01-29 18:01:05 〜 2018-01-29 18:01:55
３つ目の音声応答タイミング：2018-01-29 18:02:05 〜 2018-01-29 18:02:55
４つ目の音声応答タイミング：2018-01-29 18:03:05 〜 2018-01-29 18:03:55
・・・

処理部５０２は、受信装置２０と処理サーバ５０とのウェブソケット等の通信によって、現在のメディアタイムを取得しているため、このメディアタイムに基づき、番組全体のメタデータの中から、音声応答に適した１つの音声応答タイミングのみを抽出することができる。そして、処理部５０２は、抽出した１つの音声応答タイミング（音声応答時間情報）を、音声応答タイミングメタデータとして、HTTPレスポンス等の所定の形式のメッセージによって、音声アシスタンスサーバ４０に送信する。

ここでは、図６に示すように、番組全体のメタデータのうち、３つ目の音声応答タイミングを、音声応答に適した時間であるとして抽出したときに、第１レスポンスメッセージとしてHTTPレスポンスを利用する場合には、HTTPレスポンスのボディに、抽出した３つ目の音声応答タイミングのテキストデータを記述する。また、このHTTPレスポンスのボディには、音声応答データのテキストデータも記述することができる。

これらのテキストデータは、例えば、JSON(JavaScript（登録商標） Object Notation)形式のデータとして記述することができる。JSON形式のオブジェクトは、キーと値のペアをコロン（：）で対にして、これらの対を、コンマ（，）で区切ってゼロ個以上列挙し、全体を波括弧（｛｝）でくくることで表現される。

図６の例では、音声応答データ（"outputSpeech"）のオブジェクトに対し、"type"の値として、"PlainText"である形式が記述され、"text"の値として、"XXXX"であるテキストデータが記述されている。また、音声応答タイミング（"responseTiming"）のオブジェクトに対し、startの値として、"2018-01-29T18:02:05Z"である開始時刻が記述され、endの値として、"2018-01-29T18:02:55Z"である終了時刻が記述されている。

また、このHTTPレスポンスは、音声アシスタンスサーバ４０により受信され、処理されるが、例えば、第２レスポンスメッセージとしてHTTPレスポンスを利用する場合には、図７に示すような処理が行われる。

すなわち、音声アシスタンスサーバ４０は、処理サーバ５０から受信したHTTPレスポンスのボディに記述された音声応答データのテキストデータを、応答の音声データに変換するとともに、音声応答タイミングのテキストデータ（音声応答時間情報）をマージして、マルチパート形式のHTTPレスポンスを生成する。

このように、音声アシスタンスサーバ４０では、処理サーバ５０から受信した第１レスポンスメッセージ（HTTPレスポンス）が処理され、テキスト形式のデータ（音声応答データ、音声応答タイミングメタデータ（音声応答時間情報））が、音声形式のデータ（応答の音声データ）とテキスト形式のデータ（音声応答タイミングメタデータ（音声応答時間情報））に変換され、第２レスポンスメッセージ（マルチパート形式のHTTPレスポンス）として、音声ユーザインタフェース装置３０に送信される。

なお、通信経由で配信される音声応答タイミングメタデータとして提供される番組全体のメタデータであるが、ある番組の全部の時間帯を対象とした音声応答タイミングを用意することは勿論、一部の時間帯を対象とした音声応答タイミングを用意するようにしてもよい。また、本技術の実施の形態では、音声応答タイミングメタデータは、番組全体のメタデータを表す場合と、そこから抽出された音声応答時間情報を表す場合があるので、特に区別する必要がある場合には、明記するようにする。

（各装置の処理の第１の例の流れ）
次に、図８のフローチャートを参照して、第１の実施の形態の各装置の処理の第１の例の流れを説明する。

ここでは、事前の設定として、ステップＳ１０１の処理が実行される。すなわち、音声ユーザインタフェース装置３０において、セッティング管理部３０７が、視聴者２からの指示に従い、応答音声の出力の自動タイミング制御をオンに設定する。

この事前の設定が行われた後、放送配信システム１０は、放送ストリームを送信する（Ｓ１３１）。このとき、放送配信システム１０においては、放送付随アプリケーション生成部１０２によって、放送付随アプリケーションが生成され、マルチプレクサ１０３によって、生成された放送付随アプリケーションが、放送番組等のコンテンツを含むストリームに挿入されている。

この放送ストリームは、受信装置２０により受信され、放送番組等のコンテンツが再生されるとともに、ステップＳ１３２の処理が実行される。ステップＳ１３２において、放送付随アプリケーション実行部２０４は、デマルチプレクサ２０２により分離されたストリームから得られるアプリデータに基づき、放送付随アプリケーションを実行する。これにより、受信装置２０では、視聴者２により選局された放送番組が再生されるとともに、当該番組に連動した放送付随アプリケーションが実行される。

その後、放送番組を視聴中の視聴者２によって、質問発話がなされた場合、ステップＳ１０２以降の処理が実行される。

すなわち、音声ユーザインタフェース装置３０において、マイクロフォン３０１が、視聴者２による発話を収音し、その発話の音声データが、音声アシスタンスサーバ４０に送信される。そして、音声アシスタンスサーバ４０においては、音声ユーザインタフェース装置３０からの発話の音声データが解析され、その解析結果に応じたリクエストメッセージが、処理サーバ５０に送信される。

このリクエストメッセージは、ネットワーク７０を介して、処理サーバ５０により受信され、ステップＳ１０３，Ｓ１０４の処理が実行される。

ステップＳ１０３において、処理部５０２は、音声アシスタンスサーバ４０からのリクエストメッセージに基づいて、現在のメディアタイムを取得する。ここでは、処理サーバ５０（の通信部５０１）と、受信装置２０（の通信部２０９）とが、例えばウェブソケット等の通信方式に従い、通信を行うことで、処理部５０２は、放送付随アプリケーションを実行中の放送付随アプリケーション実行部２０４から、現在のメディアタイムを取得することができる。

ステップＳ１０４において、処理部５０２は、取得した現在のメディアタイムに基づいて、記録部５０３に記録された番組全体のメタデータから、音声応答に適した時間を示す音声応答時間情報を抽出し、リクエストメッセージに応じた音声応答データとともに、第１レスポンスメッセージとして音声アシスタンスサーバ４０に送信する。

ここで、音声応答に適した時間とは、例えば、視聴している番組の展開から、会話の切れ目などの視聴の妨げにならない時間のほか、例えば、応答音声の時間的な長さ（応答の長さ）などを考慮してもよい。すなわち、視聴の妨げにならない時間であっても、その時間内に応答音声の出力を完了できないのであれば、より長い他の時間を、音声応答に適した時間として抽出することができる。また、例えば、受信装置２０にて再生中のコンテンツの再生時間軸上で、最後のほうの時間帯が、音声応答に適した時間として抽出可能な場合であっても、視聴者の発話後、応答音声を出力するまでに時間を要するときには、より前のほうの時間帯が、音声応答に適した時間として抽出されるようにしてもよい。

音声アシスタンスサーバ４０では、処理サーバ５０からの第１レスポンスメッセージに基づき、音声応答データから応答の音声データを生成するとともに、音声応答時間情報がマージされ、第２レスポンスメッセージが生成される。この第２レスポンスメッセージは、インターネット６０を介して、音声ユーザインタフェース装置３０により受信され、ステップＳ１０５乃至Ｓ１０８の処理が実行される。

ステップＳ１０５において、音声応答出力制御部３０４は、音声アシスタンスサーバ４０からの第２レスポンスメッセージに基づいて、応答の音声データに音声応答時間情報が付加されているかどうかを確認（判定）する。ステップＳ１０５において、音声応答時間情報が付加されていると判定された場合（Ｓ１０５の「YES」）、処理は、ステップＳ１０６に進められる。

ステップＳ１０６において、音声応答出力制御部３０４は、セッティング管理部３０７に問い合わせることで、自動タイミング制御の設定がオンになっているかどうかを確認（判定）する。ステップＳ１０６において、例えば事前の設定の処理（Ｓ１０１）によって、自動タイミング制御の設定がオンになっていると判定された場合（Ｓ１０６の「YES」）、処理は、ステップＳ１０７に進められる。

ステップＳ１０７において、音声応答出力制御部３０４は、付加された音声応答時間情報に基づき、音声応答に適したタイミングとなるまで待機する。そして、音声応答に適したタイミングになったとき、音声応答出力制御部３０４は、応答の音声データをスピーカ３０２に供給することで、応答音声を出力する（Ｓ１０８）。

このようにして、音声ユーザインタフェース装置３０は、通信経由で取得される音声応答タイミングメタデータ（音声応答時間情報）に基づき、音声応答に適した時間、すなわち、視聴している番組の展開から、会話の切れ目などの視聴の妨げにならない時間に、音声応答を行うことが可能となる。これにより、視聴者２は、番組視聴を邪魔されることなく、応答音声（知りたい情報）を聞くことが可能となる。

なお、音声ユーザインタフェース装置３０においては、音声応答時間情報が付加されていないと判定された場合（Ｓ１０５の「NO」）、あるいは、自動タイミング制御設定がオフになっていると判定された場合（Ｓ１０６の「NO」）には、ステップＳ１０７の処理はスキップされ、ステップＳ１０８の処理が実行される。すなわち、この場合には、音声応答タイミングの待機は行われずに、直ちに応答音声が出力される。

以上、第１の実施の形態の各装置の処理の第１の例の流れとして、通信経由で取得される音声応答タイミングメタデータ（音声応答時間情報）に基づき、視聴者２の発話に対する音声応答のタイミングを制御する場合の処理の流れを説明した。

（構成の第２の例）
図９は、第１の実施の形態の構成の第２の例を示す図である。

図９においては、図３と同様に、視聴者２により視聴されている放送番組の進行に合わせた処理の流れを、図９のＡ乃至Ｃによって、時系列で示している。一方で、図９に示した処理では、図３に示した処理で、応答の音声データとともに、通信経由で送られていた音声応答タイミングメタデータを、放送経由で送るようにする。

受信装置２０は、放送配信システム１０から、放送番組等のコンテンツや放送付随アプリケーションとともに送られる音声応答タイミングメタデータ（番組全体のメタデータ）を取得して記録している。受信装置２０は、ユーザインタフェース装置３０からの問い合わせに応じて、記録している番組全体のメタデータから、音声応答に適した時間を示す音声応答時間情報を抽出し、音声応答タイミングメタデータとして通知することができる。

10時10分00秒に、視聴者２が、ドラマ番組を視聴中に、「この女優は誰？」である発話を行ったとき、ユーザインタフェース装置３０は、視聴者２の発話をマイクロフォンにより収音し、その発話の音声データを、音声アシスタンスサーバ４０に送信する（図９のＡ）。

10時10分02秒において、ユーザインタフェース装置３０は、音声アシスタンスサーバ４０から応答の音声データを受信したが、受信装置２０から取得した音声応答タイミングメタデータに基づき、音声応答時間情報の示す時間（時刻）が、10時10分10秒を示しているため、その時間（時刻）まで待機する（図９のＢ）。すなわち、視聴中のドラマ番組では、10時10分02秒頃に、会話のシーンとなるため、女優の発話などに重ならないように、音声応答を行うタイミングをずらしている。

そして、10時10分10秒になったとき、ユーザインタフェース装置３０は、音声応答時間情報の示す時間（時刻）となったので、待機中にバッファに保持していた応答の音声データに基づき、「この女優の名前はXXXXで、主な主演作品は、・・・」である応答音声を出力する（図９のＣ）。

このように、ユーザインタフェース装置３０では、放送経由で得られる音声応答タイミングメタデータ（音声応答時間情報）に基づき、音声応答に適したタイミング、すなわち、視聴している番組の展開から、会話の切れ目などの視聴の妨げにならない時間に、音声応答を行うことが可能となる。これにより、視聴者２は、番組視聴を邪魔されることなく、応答音声（知りたい情報）を聞くことが可能となる。

なお、図９においても、図３と同様に、現実の時刻を用いた場合を例に説明したが、実際には、受信装置２０にて再生中のコンテンツのメディアタイムを用いて、音声応答のタイミングを制御することができる。

（各装置の詳細な構成の第２の例）
図１０は、第１の実施の形態の各装置の詳細な構成の第２の例を示すブロック図である。

図１０においては、図４と同様に、放送局側（送信側）の放送配信システム１０とローカル側（受信側）の受信装置２０の構成の例と、ローカル側の音声ユーザインタフェース装置３０とクラウド側の音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

図１０において、放送配信システム１０は、番組コンテンツ処理部１０１、放送付随アプリケーション生成部１０２、マルチプレクサ１０３、送出部１０４、及びメタデータ生成部１０５を含んで構成される。すなわち、図１０に示した放送配信システム１０は、図４に示した構成と比べて、メタデータ生成部１０５が追加されている。

メタデータ生成部１０５は、音声応答タイミングメタデータを生成し、マルチプレクサ１０３に供給する。この音声応答タイミングメタデータは、放送配信される番組ごとの番組全体のメタデータであって、音声応答に適した時間を含む音声応答時間情報として抽出されるメタデータの候補を含んでいる。

マルチプレクサ１０３は、コンテンツ及び放送付随アプリケーションとともに、メタデータ生成部１０５から供給される音声応答タイミングメタデータを多重化し、その結果得られるストリームを、送出部１０４に供給する。

図１０において、受信装置２０は、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、メディアタイム管理部２０８、通信部２１０、音声応答タイミングメタデータ管理部２１１、及び記録部２１２を含んで構成される。すなわち、図１０に示した受信装置２０は、図４に示した構成と比べて、通信部２０９の代わりに、通信部２１０、音声応答タイミングメタデータ管理部２１１、及び記録部２１２が追加されている。

通信部２１０は、例えば、Bluetooth（登録商標）、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。通信部２１０は、所定の通信方式に従い、音声ユーザインタフェース装置３０（の通信部３０９）との間で通信を行い、各種のデータをやり取りする。

音声応答タイミングメタデータ管理部２１１は、デマルチプレクサ２０２により分離されたストリームから得られる音声応答タイミングメタデータ（番組全体のメタデータ）を取得し、記録部２１２に記録する。

また、音声応答タイミングメタデータ管理部２１１は、音声ユーザインタフェース装置３０（の音声応答出力制御部３０４）から、音声応答タイミングメタデータの取得リクエストを受け取った場合、メディアタイム管理部２０８に問い合わせを行うことで、現在のメディアタイムを取得する。音声応答タイミングメタデータ管理部２１１は、取得した現在のメディアタイムに基づいて、記録部２１２に記録された音声応答タイミングメタデータ（番組全体のメタデータ）から、音声応答に適した時間を示す音声応答時間情報を抽出し、音声応答タイミングメタデータとして、音声ユーザインタフェース装置３０に送信する。

記録部２１２は、半導体メモリや、HDD、光ディスク等の記録媒体であって、音声応答タイミングメタデータ等の各種のデータを記録することができる。

図１０において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、通信部３０３、音声応答出力制御部３０４、タイマ３０５、バッファ３０６、セッティング管理部３０７、音声解析部３０８、及び通信部３０９を含んで構成される。すなわち、図１０に示した音声ユーザインタフェース装置３０は、図４に示した構成と比べて、音声解析部３０８及び通信部３０９が追加されている。

音声解析部３０８は、マイクロフォン３０１から供給される発話の音声データを処理し、通信部３０３に供給する。また、音声解析部３０８は、発話の音声データの解析を行うとともに、セッティング管理部３０７と連携することで、発話の音声データの解析結果に基づいたタイミング制御対象発話の設定を行う。

通信部３０９は、例えば、Bluetooth（登録商標）などの無線通信、又は有線通信に対応した通信モジュールとして構成される。通信部３０９は、所定の通信方式に従い、受信装置２０（の通信部２１０）との間で通信を行い、各種のデータをやり取りする。なお、図１０においては、説明の都合上、通信部３０３と通信部３０９を別の通信モジュールとして説明したが、それらが一体となって１つの通信モジュールとして構成されるようにしてもよい。

音声応答出力制御部３０４には、通信部３０３から応答の音声データが供給され、通信部３０９から音声応答タイミングメタデータが供給される。音声応答出力制御部３０４は、放送経由で取得した音声応答タイミングメタデータに基づき、音声応答時間情報の示す時間に応じたタイミング（音声応答に適したタイミング）で、応答の音声データを、スピーカ３０２に供給する。

図１０において、音声アシスタンスサーバ４０は、通信部４０１、通信部４０２、音声解析部４０３、及び音声生成部４０４−１を含んで構成される。すなわち、図１０に示した音声アシスタンスサーバ４０は、図４に示した構成と比べて、音声応答タイミングメタデータが通信経由で配信されず、対応する処理を行う必要がないため、メッセージ生成部４０４のメタデータマージ部４０５−２が除かれている。

また、図１０において、処理サーバ５０は、通信部５０１、処理部５０２、及び記録部５０３を含んで構成される。すなわち、図１０に示した処理サーバ５０は、図４に示した構成と同様に構成されるが、音声応答タイミングメタデータを通信経由で配信しないため、記録部５０３には、音声応答タイミングメタデータが記録されておらず、音声応答データのみが記録されている。

以上のようにコンテンツ・音声AI連携システム１は構成されるが、ここで、図１１乃至図１２を参照して、放送配信システム１０と受信装置２０との間で、放送経由でやり取りされる音声応答タイミングメタデータの詳細について説明する。

図１１に示すように、放送配信システム１０において、メタデータ生成部１０５によって、放送経由で配信される音声応答タイミングメタデータが生成されるが、この音声応答タイミングメタデータは、放送経由で配信される番組（生放送は除く）ごとに、番組全体のメタデータとして生成される。

マルチプレクサ１０３では、コンテンツ及び放送付随アプリケーションが多重化されるストリームに対し、当該コンテンツに適合した形式に音声応答タイミングメタデータが変換されて挿入される。

ここで、例えば、コンテンツを、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)に準拠したストリームとして配信する場合、その映像や音声のファイルの制御情報であるMPD(Media Presentation Description)を利用して、音声応答タイミングメタデータを伝送することが可能となる。

図１２は、音声応答タイミングメタデータを、MPDに挿入した場合の例を示している。ここで、MPDは、Period要素と、AdaptationSet要素と、Representation要素とが階層構造をなして構成される。

Period要素は、放送番組等のコンテンツの構成を記述する単位となる。また、AdaptationSet要素とRepresentation要素は、コンテンツを構成する映像や音声、字幕等のコンポーネントのストリームごとに利用され、それぞれのストリームの属性を記述することができる。

また、Period要素内には、EventStream要素を記述することができる。また、EventStream要素には、その属性として、schemeIdUri属性とtimescale属性を記述することができる。

schemeIdUri属性には、スキームを識別するためのURI(Uniform Resource Identifier)を記述する。図１２のMPDの記述例では、音声応答タイミングメタデータを伝送するためのスキームを識別するURIとして、'urn:XXX'を定義し、schemeIdUri属性の属性値として記述している。また、timescale属性には、その属性値として、'1000'であるタイムスケールを記述している。

EventStream要素は、Event要素の上位要素となる。Event要素は、その属性として、プレゼンテーションタイム（開始時刻）が指定されるpresentationTime属性と、その開始時刻からの期間が指定されるduration属性を記述することができる。

図１２のMPDの記述例では、番組全体のメタデータを、該当するPeriod要素ごとに分けて、EventStream要素内のpresentationTime属性とduration属性の属性値として記述している。

具体的には、番組全体のメタデータに記述された１つ目と２つ目の音声応答タイミングを、１つ目のPeriod要素（start属性 = 'PT0S'）内に記述し、３つ目と４つ目の音声応答タイミングを、２つ目のPeriod要素（start属性 = 'PT2M0S'）内に記述している。

このように、MPDを利用して音声応答タイミングメタデータを伝送することで、受信装置２０では、放送ストリームに挿入されたMPDから、音声応答タイミングメタデータ（番組全体のメタデータ）を取得し、記録部２１２に記録しておくことができる。そして、受信装置２０では、音声ユーザインタフェース装置３０からの問い合わせに応じて、記録部２１２に記録している音声応答タイミングメタデータ（番組全体のメタデータ）から、音声応答に適した時間を示す音声応答時間情報を抽出し、音声応答タイミングメタデータとして通知することができる。

なお、放送経由で配信される音声応答タイミングメタデータとして提供される番組全体のメタデータであるが、ある番組の全部の時間帯を対象とした音声応答タイミングを用意することは勿論、一部の時間帯を対象とした音声応答タイミングを用意するようにしてもよい。

（各装置の処理の第２の例の流れ）
次に、図１３のフローチャートを参照して、第１の実施の形態の各装置の処理の第２の例の流れを説明する。

ここでは、事前の設定として、ステップＳ１５１の処理が実行される。すなわち、音声ユーザインタフェース装置３０において、セッティング管理部３０７が、視聴者２からの指示に従い、自動タイミング制御をオンに設定する。また、ここでは、タイミング制御対象のインボケーションネームや、音声応答タイミングメタデータの取得先（メタデータ取得通信先）が設定される。

なお、インボケーションネーム（Invocation Name）は、スキルを呼び出すための呼び出し名である。すなわち、エンドユーザ（コンテンツの視聴者）は、スキルを使用する際には、インボケーションネームを発する必要がある。ここでは、例えば、タイミング制御対象のインボケーションネームとして、"TV show"を設定するとともに、メタデータ取得通信先として、受信装置２０を設定することができる。

この事前の設定が行われた後、放送配信システム１０においては、ステップＳ１８１乃至Ｓ１８２の処理が実行される。

すなわち、メタデータ生成部１０５によって、音声応答タイミングメタデータ（番組全体のメタデータ）が生成され、マルチプレクサ１０３によって、生成された音声応答タイミングメタデータが、放送番組等のコンテンツを含むストリームに挿入される（Ｓ１８１）。また、送出部１０４によって、音声応答タイミングメタデータを挿入した放送ストリームが送信される（Ｓ１８２）。

この放送ストリームは、受信装置２０により受信され、放送番組等のコンテンツが再生されるとともに、ステップＳ１８３の処理が実行される。ステップＳ１８３において、音声応答タイミングメタデータ管理部２１１は、デマルチプレクサ２０２により分離されたストリームから得られる音声応答タイミングメタデータを取得する。この音声応答タイミングメタデータ（番組全体のメタデータ）は、記録部２１２に記録される。

その後、放送番組を視聴中の視聴者２によって、質問発話がなされた場合、ステップＳ１５２以降の処理が実行される。

すなわち、音声ユーザインタフェース装置３０において、マイクロフォン３０１が、視聴者２による発話を収音し、その発話の音声データが、音声アシスタンスサーバ４０に送信される（Ｓ１５２）。そして、音声アシスタンスサーバ４０においては、音声ユーザインタフェース装置３０からの発話の音声データが解析され、その解析結果に応じたリクエストメッセージが、処理サーバ５０に送信される。

このとき、音声ユーザインタフェース装置３０では、音声解析部３０８が、セッティング管理部３０７と連携することで、発話の音声データの解析結果に基づき、視聴者２の発話から、事前の設定の処理（Ｓ１５１）により設定された対象のインボケーションネームの抽出を行い、当該インボケーションネームが抽出された発話を、タイミング制御対象発話として設定する（Ｓ１５３）。

また、音声アシスタンスサーバ４０からのリクエストメッセージは、ネットワーク７０を介して、処理サーバ５０により受信され、ステップＳ１５４の処理が実行される。

ステップＳ１５４において、処理部５０２は、音声アシスタンスサーバ４０からのリクエストメッセージに基づいて、記録部５０３に記録された音声応答データを抽出し、音声アシスタンスサーバ４０に送信する。音声アシスタンスサーバ４０においては、音声生成部４０４−１によって、音声応答データに応じた応答の音声データが生成され、音声ユーザインタフェース装置３０に送信される。

この応答の音声データは、インターネット６０を介して音声ユーザインタフェース装置３０により受信され、ステップＳ１５５以降の処理が実行される。

ステップＳ１５５において、音声応答出力制御部３０４は、セッティング管理部３０７に問い合わせることで、受信した応答の音声データが、タイミング制御対象発話に対する応答かどうかを確認（判定）する。ステップＳ１５５において、ステップＳ１５３の処理で設定されたタイミング制御対象発話に対する応答であると判定された場合（Ｓ１５５の「YES」）、処理は、ステップＳ１５６に進められる。

ステップＳ１５６において、音声応答出力制御部３０４は、セッティング管理部３０７に問い合わせることで、自動タイミング制御の設定がオンになっているかどうかを確認（判定）する。ステップＳ１５６において、事前の設定の処理（Ｓ１５１）によって、自動タイミング制御の設定がオンになっていると判定された場合（Ｓ１５６の「YES」）、処理は、ステップＳ１５７に進められる。

ステップＳ１５７において、音声応答出力制御部３０４は、事前の設定の処理（Ｓ１５１）にてメタデータ取得通信先として設定された受信装置２０から、音声応答タイミングメタデータを受信することで、音声応答時間情報を取得する。

すなわち、ここでは、音声応答出力制御部３０４が、受信装置２０に対し、音声応答タイミングメタデータの取得リクエストを発行することで、受信装置２０では、ステップＳ１５８乃至Ｓ１５９の処理が実行される。

ステップＳ１５８において、音声応答タイミングメタデータ管理部２１１は、音声ユーザインタフェース装置３０からの取得リクエストに基づいて、メディアタイム管理部２０８に問い合わせを行うことで、現在のメディアタイムを取得する。

ステップＳ１５９において、音声応答タイミングメタデータ管理部２１１は、取得した現在のメディアタイムに基づいて、記録部２１２に記録された音声応答タイミングメタデータ（番組全体のメタデータ）から、音声応答に適した時間を示す音声応答時間情報を抽出し、音声応答タイミングメタデータとして、音声ユーザインタフェース装置３０に送信する。ここで、音声応答に適した時間とは、例えば、視聴している番組の展開から、会話の切れ目などの視聴の妨げにならない時間のほか、例えば、応答音声の時間的な長さ（応答の長さ）や、再生中のコンテンツの再生時間軸上の時間帯などを考慮するようにしてもよい。

この音声応答タイミングメタデータ（音声応答時間情報）は、音声ユーザインタフェース装置３０により受信され、ステップＳ１６０乃至Ｓ１６１の処理が実行される。

ステップＳ１６０において、音声応答出力制御部３０４は、取得した音声応答時間情報に基づき、音声応答に適したタイミングとなるまで待機する。そして、音声応答に適したタイミングになったとき、音声応答出力制御部３０４は、応答の音声データを、スピーカ３０２に供給することで、応答音声を出力する（Ｓ１６１）。

このようにして、音声ユーザインタフェース装置３０は、放送経由で取得される音声応答タイミングメタデータ（音声応答時間情報）に基づき、音声応答に適した時間、すなわち、視聴している番組の展開から、会話の切れ目などの視聴の妨げにならない時間に、音声応答を行うことが可能となる。これにより、視聴者２は、番組視聴を邪魔されることなく、応答音声（知りたい情報）を聞くことが可能となる。

なお、音声ユーザインタフェース装置３０においては、タイミング制御対象発話に対する応答ではないと判定された場合（Ｓ１５５の「NO」）、あるいは、自動タイミング制御設定がオフになっていると判定された場合（Ｓ１５６の「NO」）には、ステップＳ１５７乃至Ｓ１６０の処理はスキップされ、ステップＳ１６１の処理が実行される。すなわち、この場合には、音声応答タイミングの待機は行われずに、直ちに応答音声が出力される。

以上、第１の実施の形態の各装置の処理の第２の例の流れとして、放送経由で取得される音声応答タイミングメタデータ（音声応答時間情報）に基づき、視聴者２の発話に対する音声応答のタイミングを制御する場合の処理の流れを説明した。

以上のように、第１の実施の形態では、音声ユーザインタフェース装置３０の音声応答出力制御部３０４が、放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、音声応答のタイミングを制御する。この音声応答時間情報は、放送番組等のコンテンツの再生時間軸上における音声応答に適した時間を示す情報とすることができる。

ここで、音声応答時間情報（音声応答タイミングメタデータ）が、通信経由で取得される場合には、放送番組等のコンテンツは、受信装置２０（第１の装置）により再生され、音声応答時間情報は、処理サーバ５０（第２の装置）により通信経由で配信され、処理サーバ５０（第２の装置）では、コンテンツの再生時間軸上の全部又は一部の時間を対象とした音声応答時間情報を含む音声応答タイミングメタデータ（番組全体のメタデータ）から、受信装置２０（第１の装置）により再生中のコンテンツに対する音声応答に適した時間を示す音声応答時間情報が抽出されて配信される。そして、音声ユーザインタフェース装置３０では、音声応答出力制御部３０４によって、通信経由で配信された音声応答時間情報に基づき、音声応答のタイミングが制御される。

また、音声応答時間情報（音声応答タイミングメタデータ）が、放送経由で取得される場合には、放送番組等のコンテンツは、受信装置２０（第１の装置）により再生され、音声応答時間情報は、放送配信システム１０の放送サーバ（第２の装置）により放送経由で配信され、当該放送サーバ（第２の装置）では、コンテンツの再生時間軸上の全部又は一部の時間を対象とした音声応答時間情報を含む音声応答タイミングメタデータ（番組全体のメタデータ）が配信され、受信装置２０（第１の装置）では、放送経由で配信された音声応答タイミングメタデータ（番組全体のメタデータ）から、再生中のコンテンツに対する音声応答に適した時間を示す音声応答時間情報が抽出される。そして、音声ユーザインタフェース装置３０では、音声応答出力制御部３０４によって、受信装置２０（第１の装置）により抽出された音声応答時間情報に基づき、音声応答のタイミングが制御される。

このような機能を有する音声ユーザインタフェース装置３０は、音声応答出力制御部３０４を備える情報処理装置であるとも言える。

（２）第２の実施の形態

ところで、上述した第１の実施の形態では、システム側で、音声応答時間情報に基づき、視聴者の発話に対する音声応答のタイミングを制御する構成を示したが、視聴者２によっては、当該音声応答のタイミングが、所望のタイミングと異なることも想定される。

そこで、次に、第２の実施の形態として、図１４乃至図１６を参照しながら、視聴者２からの指示発話に基づき、音声応答のタイミングを制御する構成を示す。

（構成の例）
図１４は、第２の実施の形態の構成の例を示す図である。

図１４においては、視聴者２により視聴されている放送番組の進行に合わせた処理の流れを、図１４のＡ乃至Ｄによって、時系列で示している。

図１４のＡに示すように、視聴者２が、ドラマ番組を視聴中に、「この女優は誰？」である発話を行ったとき、ユーザインタフェース装置３０は、視聴者２の発話をマイクロフォンにより収音し、その発話の音声データを、音声アシスタンスサーバ４０に送信する。

その後、図１４のＢに示すように、音声アシスタンスサーバ４０は、視聴中のドラマ番組の放送局により提供される処理サーバ５０と連携して処理を行うことで、発話に対する応答の音声データを生成し、ユーザインタフェース装置３０に送信する。

そして、ユーザインタフェース装置３０は、音声アシスタンスサーバ４０からの応答の音声データに応じた応答音声を出力することになるが、当該応答音声の出力が、視聴中のドラマ番組の会話のシーンと重なっている。このとき、視聴者２が、「ちょっと待って！」などの停止指示（待機指示）を行った場合には、応答音声の出力を停止するとともに、待機状態であることを示すアイコン（以下、待機中アイコンともいう）を提示して、応答を待機するようにする。

すなわち、図１４のＣに示すように、ユーザインタフェース装置３０からの応答音声の出力は停止され、受信装置２０の画面には、ドラマ番組の映像に重畳して、待機中アイコン２５１が表示されている。

その後、視聴中のドラマ番組が進行して、例えばCMに移ったときなどに、視聴者２が、「もういいよ！」などの開始指示（待機解除指示）を行った場合には、停止していた応答音声の出力を開始（再開）するとともに、待機中アイコン２５１を消すようにする。

すなわち、図１４のＤに示すように、応答音声の出力が開始（再開）され、ユーザインタフェース装置３０は、音声アシスタンスサーバ４０からの応答の音声データに基づき、「この女優の名前はXXXXで、主な主演作品は、・・・」である応答音声を出力する。

このとき、受信装置２０では、例えばCMが再生されており、視聴者２のドラマ番組の視聴の妨げにならないタイミングで、音声応答が出力されている。つまり、この例において、視聴者２は、会話のシーンだけでなく、会話のないシーンでもドラマ番組に集中したかったため、CMになるまで、応答を待機させたことになる。

（各装置の詳細な構成の例）
図１５は、第２の実施の形態の各装置の詳細な構成の例を示すブロック図である。

図１５においては、図４及び図１０と同様に、送信側の放送配信システム１０と受信側の受信装置２０の構成の例と、ローカル側の音声ユーザインタフェース装置３０とクラウド側の音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

なお、図１５において、放送配信システム１０の構成は、図４に示した構成と同様であるため、ここでは、その説明は省略する。また、図１５において、音声アシスタンスサーバ４０及び処理サーバ５０の構成は、図１０に示した構成と同様であるため、ここでは、その説明は省略する。

図１５において、受信装置２０は、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、通信部２１０、及び音声応答待機通知部２１３を含んで構成される。すなわち、図１５に示した受信装置２０の構成は、図４に示した構成と比べて、メディアタイム管理部２０８及び通信部２０９の代わりに、音声応答待機通知部２１３及び通信部２１０が設けられている。

音声応答待機通知部２１３は、音声ユーザインタフェース装置３０（の音声応答出力制御部３０４）からの待機状態を示す通知を受け取った場合、レンダラ２０５に対し、待機中アイコンの表示を指示する。また、音声応答待機通知部２１３は、音声ユーザインタフェース装置（の音声応答出力制御部３０４）からの解除状態を示す通知を受け取った場合、レンダラ２０５に対し、待機中アイコンの削除を指示する。

図１５において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、通信部３０３、音声応答出力制御部３０４、バッファ３０６、音声解析部３０８、及び通信部３０９を含んで構成される。すなわち、図１５に示した音声ユーザインタフェース装置３０は、図４に示した構成と比べて、タイマ３０５及びセッティング管理部３０７が除かれた代わりに、音声解析部３０８及び通信部３０９が追加されている。

音声解析部３０８は、マイクロフォン３０１から供給される発話の音声データの解析を行い、その解析結果に基づき、応答音声の出力の停止指示（待機指示）、又は開始指示（待機解除指示）の発話がなされたかどうかを確認（判定）する。

音声解析部３０８は、応答音声の出力の停止指示又は開始指示の発話がなされていないと判定した場合、発話の音声データを、通信部３０３に供給する。これにより、発話の音声データは、インターネット６０を介して音声アシスタンスサーバ４０に送信される。また、音声解析部３０８は、応答音声の出力の停止指示又は開始指示の発話がなされたと判定した場合、その旨を、音声応答出力制御部３０４に通知する。

音声応答出力制御部３０４は、音声解析部３０８からの通知に基づいて、応答音声の出力の停止が指示された場合には、現在出力中の応答音声の出力が停止され、応答音声の出力の開始（再開）が指示された場合には、待機中（停止中）の応答音声の出力が開始（再開）されるようにする。また、音声応答出力制御部３０４は、音声解析部３０８からの通知に基づいて、受信装置２０（の音声応答待機通知部２１３）に対し、待機状態又は解除状態を示す通知がなされるようにする。

（各装置の処理の流れ）
次に、図１６のフローチャートを参照して、第２の実施の形態の各装置の処理の流れを説明する。

受信装置２０にて再生されている放送番組を視聴中の視聴者２によって、発話がなされた場合、音声ユーザインタフェース装置３０では、マイクロフォン３０１によって、その発話が収音される（Ｓ２０１）。また、音声解析部３０８によって、収音された発話の音声データが解析され、その解析結果に基づき、応答音声の出力の停止指示（待機指示）、又は開始指示（待機解除指示）の発話がなされたかどうかを確認（判定）する（Ｓ２０２）。

ここでは、ステップＳ２０２の判定処理の結果に従い、通常発話、停止発話、又は開始発話の３つの処理のうち、いずれかの処理が実行される。

第１に、ステップＳ２０２の判定処理で、例えば「この女優は誰？」である発話など、応答音声の出力の停止指示又は開始指示の発話ではなく、通常の発話がなされたと判定された場合、処理は、ステップＳ２０３に進められ、通常発話の処理が実行される。

この通常発話の処理では、音声ユーザインタフェース装置３０によって、発話の音声データが、音声アシスタンスサーバ４０に送信される（Ｓ２０３Ａ）。音声アシスタンスサーバ４０では、音声ユーザインタフェース装置３０からの発話の音声データが解析され、その解析結果に応じたリクエストメッセージが生成される。

このリクエストメッセージは、処理サーバ５０により受信され、ステップＳ２０３Ｂの処理が実行される。すなわち、処理部５０２は、リクエストメッセージに基づいて、音声応答データを抽出し、音声アシスタンスサーバ４０に送信する。音声アシスタンスサーバ４０では、音声応答データに基づき、応答の音声データが生成され、音声ユーザインタフェース装置３０に送信される。

音声ユーザインタフェース装置３０では、音声応答出力制御部３０４が、音声アシスタンスサーバ４０からの応答の音声データに応じた応答音声を、スピーカ３０２から出力する。これにより、視聴者２は、音声ユーザインタフェース装置３０から出力される応答音声を確認することができる。

第２に、ステップＳ２０２の判定処理で、例えば「ちょっと待って！」である発話など、応答音声の出力の停止指示の発話がなされたと判定された場合、処理は、ステップＳ２０４に進められ、停止発話の処理が実行される。

この停止発話の処理では、音声ユーザインタフェース装置３０によって、ステップＳ２０４Ａ乃至Ｓ２０４Ｃの処理が実行される。すなわち、音声解析部３０８は、音声応答出力制御部３０４に対し、応答音声の出力を停止するように通知（通達）する（Ｓ２０４Ａ）。

これにより、音声応答出力制御部３０４は、音声解析部３０８からの通知に従い、スピーカ３０２から現在出力中の応答音声を停止する（Ｓ２０４Ｂ）。このとき、音声応答出力制御部３０４は、応答の音声データをバッファ３０６に一時的に保持するようにする。

また、音声応答出力制御部３０４は、応答音声の出力が待機状態であることを、受信装置２０に通知する（Ｓ２０４Ｃ）。この待機状態を示す通知は、Bluetooth（登録商標）などの無線通信によって、受信装置２０により受信され、ステップＳ２０４Ｄの処理が実行される。

すなわち、音声応答待機通知部２１３は、音声ユーザインタフェース装置３０（の音声応答出力制御部３０４）からの待機状態を示す通知に基づいて、レンダラ２０５に対し、待機中アイコンの表示を指示する（Ｓ２０４Ｄ）。これにより、受信装置２０のディスプレイ２０６の画面には、待機中アイコン２５１が表示されるため、視聴者２は、自身の発話によって、応答音声が待機中であることを確認することができる。

第３に、ステップＳ２０２の判定処理で、例えば「もういいよ！」である発話など、応答音声の出力の開始指示の発話がなされたと判定された場合、処理は、ステップＳ２０５に進められ、開始発話の処理が実行される。

この開始発話の処理では、音声ユーザインタフェース装置３０によって、ステップＳ２０５Ａ乃至Ｓ２０５Ｃの処理が実行される。すなわち、音声解析部３０８は、音声応答出力制御部３０４に対し、応答音声の出力を開始するように通知する（Ｓ２０５Ａ）。

これにより、音声応答出力制御部３０４は、音声解析部３０８からの通知に従い、バッファ３０６に一時的に保持していた応答の音声データに応じた応答音声を、スピーカ３０２から出力して、待機中の応答音声の出力を再開する（Ｓ２０５Ｂ）。

また、音声応答出力制御部３０４は、待機中だった応答音声の出力が解除されたことを、受信装置２０に通知する（Ｓ２０５Ｃ）。この解除状態を示す通知は、受信装置２０により受信され、ステップＳ２０５Ｄの処理が実行される。

すなわち、音声応答待機通知部２１３は、音声ユーザインタフェース装置３０からの解除状態を示す通知に基づいて、レンダラ２０５に対し、待機中アイコンの削除を指示する（Ｓ２０５Ｄ）。これにより、受信装置２０のディスプレイ２０６の画面では、待機中アイコン２５１の表示が消される。

例えば、視聴者２は、ドラマ番組の視聴中に、応答音声をCMまで待機させていた場合に、応答音声の出力の開始指示の発話を行って、「この女優の名前はXXXXで、主な主演作品は、・・・」である応答音声を確認することができる。これにより、視聴者２は、自分の聞きたいタイミングで、応答音声（知りたい情報）を聞くことができる。

以上、第２の実施の形態の各装置の処理の流れとして、視聴者２からの指示発話に基づき、音声応答のタイミングを制御する場合の処理の流れを説明した。

なお、待機中アイコンは、応答音声の出力が待機中であることを示す情報の一例であって、当該待機中であることを通知することができる情報であれば、他の情報を用いることができる。また、例えば、受信装置２０や音声ユーザインタフェース装置３０において、待機情報として、ランプを点灯させるなどしてもよい。

（３）第３の実施の形態

ところで、第１の実施の形態では、システム側で、音声応答時間情報に基づき、視聴者の発話に対する音声応答のタイミングを制御しているため、視聴者２によっては、所望のタイミングで、音声応答を行いたい者も想定される。すなわち、第１の実施の形態に示した構成においても、第２の実施の形態に示した構成と同様に、視聴者２からの指示発話に基づき、音声応答のタイミングの制御が行われるようにしてもよい。

そこで、次に、第３の実施の形態として、図１７乃至図２０を参照しながら、通信経由又は放送経由で取得した音声応答タイミングメタデータ（音声応答時間情報）、及び視聴者２からの指示発話に基づき、音声応答のタイミングを制御する構成を示す。

（各装置の詳細な構成の第１の例）
図１７は、第３の実施の形態の各装置の詳細な構成の第１の例を示すブロック図である。

図１７においては、図４及び図１５と同様に、送信側の放送配信システム１０と受信側の受信装置２０の構成の例と、ローカル側の音声ユーザインタフェース装置３０とクラウド側の音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

なお、図１７において、放送配信システム１０、音声アシスタンスサーバ４０、及び処理サーバ５０の構成は、図４に示した構成と同様であるため、ここでは、その説明は省略する。

図１７において、受信装置２０は、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、メディアタイム管理部２０８、通信部２０９、通信部２１０、及び音声応答待機通知部２１３を含んで構成される。すなわち、図１７に示した受信装置２０の構成は、図４に示した構成と比べて、音声応答待機通知部２１３及び通信部２１０が追加されている。

音声応答待機通知部２１３は、音声ユーザインタフェース装置３０（の音声応答出力制御部３０４）からの待機状態を示す通知を受け取った場合には、レンダラ２０５に対し、待機中アイコンの表示を指示し、解除状態を示す通知を受け取った場合には、レンダラ２０５に対し、待機中アイコンの削除を指示する。

図１７において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、通信部３０３、音声応答出力制御部３０４、タイマ３０５、バッファ３０６、セッティング管理部３０７、音声解析部３０８、及び通信部３０９を含んで構成される。すなわち、図１７に示した音声ユーザインタフェース装置３０の構成は、図４に示した構成と比べて、音声解析部３０８及び通信部３０９が追加されている。

音声応答出力制御部３０４は、通信経由で取得された音声応答タイミングメタデータ（音声応答時間情報）に基づいて、音声応答タイミングまで待機するとき、受信装置２０（の音声応答待機通知部２１３）に対し、待機状態を示す通知がなされるようにする。また、音声応答出力制御部３０４は、音声解析部３０８からの通知に基づいて、応答音声の出力の開始（再開）が指示されたとき、待機中（停止中）の応答音声の出力が開始（再開）されるようにする。このとき、音声応答出力制御部３０４は、音声解析部３０８からの通知に基づいて、受信装置２０（の音声応答待機通知部２１３）に対し、解除状態を示す通知がなされるようにする。

（各装置の処理の第１の例の流れ）
次に、図１８のフローチャートを参照して、第３の実施の形態の各装置の処理の第１の例の流れを説明する。

受信装置２０にて再生されている放送番組を視聴中の視聴者２によって、質問発話がなされた場合、ステップＳ３０１乃至Ｓ３０３の処理が実行される。

ステップＳ３０１乃至Ｓ３０３においては、上述した図８のステップＳ１０２乃至Ｓ１０７と同様に、発話の音声データの解析結果に応じたリクエストメッセージが、処理サーバ５０に送信されることで、処理サーバ５０では、受信装置２０から取得した現在のメディアタイムに基づき、音声応答タイミングメタデータ（番組全体のメタデータ）から、音声応答に適した時間を示す音声応答時間情報が抽出され、リクエストメッセージに応じた音声応答データが送信される（Ｓ３０１，Ｓ３０２）。

そして、応答の音声データと音声応答タイミングメタデータ（音声応答時間情報）は、インターネット６０を介して、音声ユーザインタフェース装置３０により受信され、音声応答出力制御部３０４は、通信経由で取得された音声応答タイミングメタデータ（音声応答時間情報）に基づいて、音声応答タイミングまで待機する（Ｓ３０３）。

ステップＳ３０４において、音声応答出力制御部３０４は、応答音声の出力が待機状態であることを、受信装置２０に通知する。この待機状態を示す通知は、受信装置２０により受信され、ステップＳ３０５の処理が実行される。

すなわち、音声応答待機通知部２１３は、音声ユーザインタフェース装置３０（の音声応答出力制御部３０４）からの待機状態を示す通知に基づいて、レンダラ２０５に対し、待機中アイコンの表示を指示する（Ｓ３０５）。これにより、受信装置２０のディスプレイ２０６の画面には、待機中アイコン２５１が表示されるため、視聴者２は、応答音声が待機中であることを確認することができる。

ここでは、例えば、視聴者２が、待機中アイコン２５１を確認して、音声応答が待機中になっていることに気づいたときに、応答音声の出力の開始指示の発話（例えば「もういいよ！」など）がなされた場合を想定する（Ｓ３０６，Ｓ３０７）。

このとき、音声ユーザインタフェース装置３０では、音声解析部３０８によって、マイクロフォン３０１により収音された発話の音声データが解析され、ステップＳ３０８乃至Ｓ３１０の処理が実行される。すなわち、音声解析部３０８は、音声応答出力制御部３０４に対し、応答音声の出力を開始するように通知する（Ｓ３０８）。

これにより、音声応答出力制御部３０４は、音声解析部３０８からの通知に従い、バッファ３０６に一時的に保持していた応答の音声データに応じた応答音声を、スピーカ３０２から出力して、待機中の応答音声の出力を再開する（Ｓ３０９）。

また、音声応答出力制御部３０４は、待機中だった応答音声の出力が解除されたことを、受信装置２０に通知する（Ｓ３１０）。この解除状態を示す通知は、受信装置２０により受信され、ステップＳ３１１の処理が実行される。

すなわち、音声応答待機通知部２１３は、音声ユーザインタフェース装置３０からの解除状態を示す通知に基づいて、レンダラ２０５に対し、待機中アイコンの削除を指示して、ディスプレイ２０６の画面に表示中の待機中アイコン２５１が消されるようにする（Ｓ３１１）。

なお、この例では、待機中アイコン２５１に気づいた視聴者２が開始指示の発話を行った場合を想定したが、開始指示の発話を行わない場合には、例えば、その後、音声応答時間情報の示す時間になったときに、スピーカ３０２から応答音声が出力される。

以上、第３の実施の形態の各装置の処理の第１の例の流れとして、通信経由で取得した音声応答タイミングメタデータ（音声応答時間情報）、及び視聴者２からの指示発話に基づき、音声応答のタイミングを制御する場合の処理の流れを説明した。

（各装置の詳細な構成の第２の例）
図１９は、第３の実施の形態の各装置の詳細な構成の第２の例を示すブロック図である。

図１９においては、図１０及び図１５と同様に、送信側の放送配信システム１０と受信側の受信装置２０の構成の例と、ローカル側の音声ユーザインタフェース装置３０とクラウド側の音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

なお、図１９において、放送配信システム１０、音声アシスタンスサーバ４０、及び処理サーバ５０の構成は、図１０に示した構成と同様であるため、ここでは、その説明は省略する。

図１９において、受信装置２０は、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、メディアタイム管理部２０８、通信部２１０、音声応答タイミングメタデータ管理部２１１、記録部２１２、及び音声応答待機通知部２１３を含んで構成される。すなわち、図１９に示した受信装置２０の構成は、図１０に示した構成と比べて、音声応答待機通知部２１３が追加されている。

図１９において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、通信部３０３、音声応答出力制御部３０４、タイマ３０５、バッファ３０６、セッティング管理部３０７、音声解析部３０８、及び通信部３０９を含んで構成される。すなわち、図１９に示した音声ユーザインタフェース装置３０は、図１０に示した音声ユーザインタフェース装置３０と同様に構成されるが、音声応答出力制御部３０４及び音声解析部３０８による処理の内容が異なる。

音声応答出力制御部３０４は、放送経由で取得された音声応答タイミングメタデータ（音声応答時間情報）に基づいて、音声応答タイミングまで待機するとき、受信装置２０（の音声応答待機通知部２１３）に対し、待機状態を示す通知がなされるようにする。また、音声応答出力制御部３０４は、音声解析部３０８からの通知に基づいて、応答音声の出力の開始（再開）が指示されたとき、待機中（停止中）の応答音声の出力が開始（再開）されるようにする。このとき、音声応答出力制御部３０４は、音声解析部３０８からの通知に基づいて、受信装置２０（の音声応答待機通知部２１３）に対し、解除状態を示す通知がなされるようにする。

（各装置の処理の第２の例の流れ）
次に、図２０のフローチャートを参照して、第３の実施の形態の各装置の処理の第２の例の流れを説明する。

受信装置２０にて再生されている放送番組を視聴中の視聴者２によって、質問発話がなされた場合、ステップＳ３５１乃至Ｓ３５４の処理が実行される。

ステップＳ３５１乃至Ｓ３５４においては、上述した図１３のステップＳ１５２乃至Ｓ１６０と同様に、発話の音声データの解析結果に応じたリクエストメッセージが、処理サーバ５０に送信されることで、リクエストメッセージに応じた音声応答データが送信される（Ｓ３５１，Ｓ３５２）。

一方で、音声ユーザインタフェース装置３０では、受信した応答の音声データが、タイミング制御対象発話に対する応答となる場合には、受信装置２０から、音声応答タイミングメタデータ（音声応答時間情報）が取得される（Ｓ３５３）。これにより、音声応答出力制御部３０４は、放送経由で取得された音声応答タイミングメタデータ（音声応答時間情報）に基づいて、音声応答タイミングまで待機する（Ｓ３５４）。

ステップＳ３５５乃至Ｓ３５６においては、上述した図１８のステップＳ３０４乃至Ｓ３０５と同様に、音声応答出力制御部３０４によって、応答音声の出力が待機状態であることが通知され、この通知を受けた受信装置２０では、音声応答待機通知部２１３によって、待機中アイコンの表示が指示される。

また、ステップＳ３５７乃至Ｓ３６２においては、上述した図１８のステップＳ３０６乃至Ｓ３１１と同様に、視聴者２から応答音声の出力の開始指示の発話がなされた場合に、音声ユーザインタフェース装置３０では、待機中だった応答音声の出力が再開される。また、このとき、音声応答出力制御部３０４によって、応答音声の出力が解除状態であることが通知され、この通知を受けた受信装置２０では、音声応答待機通知部２１３によって、表示されている待機中アイコンの削除が指示される。

以上、第３の実施の形態の各装置の処理の第２の例の流れとして、放送経由で取得した音声応答タイミングメタデータ（音声応答時間情報）、及び視聴者２からの指示発話に基づき、音声応答のタイミングを制御する場合の処理の流れを説明した。

以上のように、第３の実施の形態では、音声ユーザインタフェース装置３０の音声応答出力制御部３０４が、放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報、及び当該視聴者の発話に基づいて、音声応答のタイミングを制御する。

また、音声ユーザインタフェース装置３０において、音声応答出力制御部３０４が、音声応答のタイミングとなるまで待機する際に、当該待機中であることを示す情報が提示されるようにすることができる。さらに、音声応答出力制御部３０４は、視聴者により音声応答の開始指示がなされた場合、待機中の音声応答を開始するようにすることができる。

また、音声応答出力制御部３０４は、音声応答のタイミングとなるまで待機する場合、待機状態を示す通知（第１のメッセージ）を、放送番組等のコンテンツを再生中である受信装置２０（第１の装置）に通知し、受信装置２０（第１の装置）では、待機状態を示す通知（第１のメッセージ）に基づいて、待機中アイコン２５１（アイコン）を表示するようにし、視聴者により音声応答の開始指示がなされた場合、解除状態を示す通知（第２のメッセージ）を、受信装置２０（第１の装置）に通知し、受信装置２０（第１の装置）では、解除状態を示す通知（第２のメッセージ）に基づいて、待機中アイコン２５１（アイコン）の表示を消すようにすることができる。

このように、第１の実施の形態で示した構成では、システム側で、音声応答のタイミングを自動制御するため、例えば、本編の会話とかぶってもいいから、応答音声を早く聞きたい視聴者にとっては、余計なお節介になる可能性がある。そこで、第３の実施の形態の構成では、音声ユーザインタフェース装置３０が、音声応答時間情報に基づき、応答音声の出力を待機している間でも、第２の実施の形態と同様に、受信装置２０に待機中アイコンを表示させる。応答音声を早く聞きたい視聴者は、待機中アイコンを確認して、応答音声の出力が待機中であることを認識したとき、「もういいよ！」などと応答音声出力の開始指示を発話することで、即座に、応答音声を聞くことが可能になる。なお、自動タイミング調整が、視聴者にとっても的確であるならば、第２の実施の形態の構成のような、余計なインタラクションが必要なくなるというメリットもある。

＜３．変形例＞

（他の構成の例）
上述した説明では、受信装置２０と音声ユーザインタフェース装置３０とが別の装置であると説明したが、例えば、図２１に示すように、それらの装置を一体化して１つの装置（情報処理装置）として構成されるようにしてもよい。

すなわち、図２１に示した受信装置２０は、音声AIアシスタンスサービスに対応したテレビ受像機やスマートフォン等の機器であって、チューナ２０１乃至メディアタイム管理部２０８、及び音声応答待機通知部２１３のほかに、音声ユーザインタフェース装置３０側のマイクロフォン３０１、通信部３０３、音声応答出力制御部３０４、タイマ３０５、バッファ３０６、セッティング管理部３０７、及び音声解析部３０８が設けられている。ただし、図２１において、スピーカ２０７は、音声ユーザインタフェース装置３０側のスピーカ３０２としても用いられる。また、通信部３０３は、受信装置２０側の通信部２０９としても用いられる。

図２１に示した受信装置２０においても、音声応答出力制御部３０４によって、音声応答時間情報に基づき、音声応答のタイミングが制御される。また、音声応答待機通知部２１３によって、待機中アイコンが提示される。

なお、図２１においては、受信装置２０が音声AIアシスタンスサービスに対応した場合の構成について説明したが、音声応答待機通知部２１３等の機能が、音声ユーザインタフェース装置３０側に設けられ、必要な情報は、受信装置２０側から取得するようにしてもよい。また、図２１においては、第３の実施の形態に対応した構成を示したが、第１の実施の形態及び第２の実施の形態においても同様に、受信装置２０と音声ユーザインタフェース装置３０とを一体化してもよい。

また、音声AIアシスタンスサービスを提供するための機能としては、ローカル側の機能（例えば、音声応答出力制御部３０４や音声解析部３０８の機能など）と、クラウド側の機能（例えば、音声解析部４０３や音声生成部４０４−１、メタデータマージ部４０４−２の機能など）があるが、それらの機能のすべてが、ローカル側の装置（端末）又はクラウド側の装置（サーバ）で実装されるようにしてもよし、あるいは、それらの機能の一部が、ローカル側の装置（端末）又はクラウド側の装置（サーバ）で実装されるようにしてもよい。

また、上述した図１のコンテンツ・音声AI連携システム１においては、視聴者宅で、１つの受信装置２０（例えばテレビ受像機）と、１つの音声ユーザインタフェース装置３０（スマートスピーカ）とが設置される場合を図示したが、例えば、視聴者宅ごとに、本技術を適用した受信装置２０と音声ユーザインタフェース装置３０をそれぞれ設置することができる。また、視聴者宅において、受信装置２０と音声ユーザインタフェース装置３０は、同一の部屋に設置されることが想定されるが、異なる部屋に設置してもよい。さらに、１つの受信装置２０に対し、複数の音声ユーザインタフェース装置３０を設けるようにしてもよいし、その逆に、１つの音声ユーザインタフェース装置３０に対し、複数の受信装置２０を設けるようにしてもよい。

さらに、上述した図１のコンテンツ・音声AI連携システム１においては、１つの音声アシスタンスサーバ４０と、１つの処理サーバ５０とが設置される場合を図示したが、これらのサーバは、例えば、機能や事業者（例えば放送事業者）ごとに、複数設けるようにしてもよい。一方で、音声アシスタンスサーバ４０と処理サーバ５０の機能の全部又は一部をまとめて、１又は複数のサーバにより提供されるようにしてもよい。

（放送方式の例）
放送配信システム１０から受信装置２０に送られる放送信号（デジタル放送信号）を伝送するための放送方式としては、例えば、米国等で採用されている方式であるATSC(Advanced Television Systems Committee)のほか、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などを適用することができる。また、その伝送路としては、地上波放送に限らず、例えば、放送衛星（BS：Broadcasting Satellite)や通信衛星（CS：Communications Satellite）等を利用した衛星放送や、ケーブルテレビ（CATV：Cable Television）等の有線放送などにも適用することができる。

また、上述した放送配信システム１０は、１又は複数の放送サーバ等から構成されるものであって、例えば、一般的なデジタル放送のシステムでは、マルチプレクサ１０３（マルチプレクササーバ）と、送出部１０４（送出サーバ）とは、異なる場所に設置されるものである。より具体的には、例えば、マルチプレクサ１０３は、放送局内に設置される一方で、送出部１０４は、送信所に設置される。さらに、番組コンテンツ処理部１０１（番組コンテンツサーバ）、放送付随アプリケーション生成部１０２（放送付随アプリケーションサーバ）、及びメタデータ生成部１０５（メタデータサーバ）は、マルチプレクサ１０３（マルチプレクササーバ）と同一の場所（例えば放送局内の場所）又は異なる場所（例えば放送局外の場所）に設置されるようにすることができる。

（コンテンツ・アプリケーションの例）
なお、上述した説明では、配信対象のコンテンツとして、番組やCMを例示したが、本技術が適用されるコンテンツには、動画や音楽のほか、例えば、電子書籍やゲーム、広告など、あらゆるコンテンツが含まれる。また、上述した説明では、コンテンツの配信経路として、放送配信システム１０による放送経由での配信を説明したが、OTT(Over The Top)サービス等を提供する通信配信システムによって、通信経由でストリーミング配信されるようにしてもよい。さらに、番組等のコンテンツを構成するコンポーネント（例えば、映像や音声、字幕など）の全部が、放送経由又は通信経由で配信されるようにしてもよいし、コンポーネントの一部が放送経由又は通信経由で配信される（残りの一部は通信経由又は放送経由で配信される）ようにしてもよい。

また、放送付随アプリケーションは、例えば、HTML5などのマークアップ言語やJavaScript（登録商標）等のスクリプト言語で開発されたアプリケーションとすることができるが、それに限らず、例えば、Java（登録商標）などのプログラミング言語で開発されたアプリケーションであってもよい。また、放送付随アプリケーションは、ブラウザ（放送付随アプリケーション実行部２０４）により実行されるアプリケーションに限らず、いわゆるネイティブアプリケーションとして、OS（Operating System）環境などで実行されるようにしてもよい。

さらに、上述した説明では、放送付随アプリケーションが、放送配信システム１０により放送経由で配信される場合を説明したが、それに限らず、例えば、放送付随アプリケーションを生成するアプリケーションサーバによって、通信経由で（インターネット６０を経由して）配信されるようにしてもよい。また、上述した説明では、放送付随アプリケーションは、放送経由で配信されるコンテンツに連動するとして説明したが、通信経由で配信されるコンテンツに連動して実行されるアプリケーションであってもよい。

（その他）
なお、本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述した「スキル」は、「アクション」や「アプリケーション」などと称される場合がある。また、上述した「AIアシスタンスサービス」は、「AIアシスタントサービス」などと称される場合がある。

＜４．コンピュータの構成＞

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図２２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成の例を示す図である。

コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

入力部１００６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本技術は、以下のような構成をとることができる。

（１）
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、前記音声応答のタイミングを制御する制御部を備える
情報処理装置。
（２）
前記音声応答時間情報は、前記コンテンツの再生時間軸上における前記音声応答に適した時間を示す情報である
前記（１）に記載の情報処理装置。
（３）
前記音声応答時間情報は、通信経由で取得される
前記（１）又は（２）に記載の情報処理装置。
（４）
前記コンテンツは、第１の装置により再生され、
前記音声応答時間情報は、第２の装置により通信経由で配信され、
前記第２の装置では、前記コンテンツの再生時間軸上の全部又は一部の時間を対象とした前記音声応答時間情報を含むメタデータから、前記第１の装置により再生中の前記コンテンツに対する前記音声応答に適した時間を示す前記音声応答時間情報が抽出されて配信され、
前記制御部は、通信経由で配信された前記音声応答時間情報に基づいて、前記音声応答のタイミングを制御する
前記（３）に記載の情報処理装置。
（５）
前記音声応答時間情報は、放送経由で取得される
前記（１）又は（２）に記載の情報処理装置。
（６）
前記コンテンツは、第１の装置により再生され、
前記音声応答時間情報は、第２の装置により放送経由で配信され、
前記第２の装置では、前記コンテンツの再生時間軸上の全部又は一部の時間を対象とした前記音声応答時間情報を含むメタデータが配信され、
前記第１の装置では、放送経由で配信された前記メタデータから、再生中の前記コンテンツに対する前記音声応答に適した時間を示す前記音声応答時間情報が抽出され、
前記制御部は、前記第１の装置により抽出された前記音声応答時間情報に基づいて、前記音声応答のタイミングを制御する
前記（５）に記載の情報処理装置。
（７）
前記制御部は、前記視聴者の発話に基づいて、前記音声応答のタイミングを制御する
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記制御部は、前記音声応答のタイミングとなるまで待機する際に、当該待機中であることを示す情報が提示されるようにする
前記（７）に記載の情報処理装置。
（９）
前記制御部は、前記視聴者により前記音声応答の開始指示がなされた場合、待機中の前記音声応答を開始するようにする
前記（７）に記載の情報処理装置。
（１０）
前記制御部は、前記音声応答のタイミングとなるまで待機する場合、待機中であることを示す第１のメッセージを、前記コンテンツを再生中である第１の装置に通知し、
前記第１の装置では、通知された前記第１のメッセージに基づいて、待機中であることを示すアイコンを表示するようにし
前記制御部は、前記視聴者により前記音声応答の開始指示がなされた場合、待機中の前記音声応答の待機が解除されたことを示す第２のメッセージを、前記第１の装置に通知し、
前記第１の装置では、通知された前記第２のメッセージに基づいて、待機中であることを示すアイコンの表示を消すようにする
前記（９）に記載の情報処理装置。
（１１）
前記音声応答時間情報は、前記音声応答に適した時間として、再生中の前記コンテンツの発話音声の出力のない時間を含む
前記（２）に記載の情報処理装置。
（１２）
前記コンテンツは、放送経由で配信される放送コンテンツであり、
前記音声応答は、前記放送コンテンツを視聴する視聴者の発話に対する応答である
前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
前記音声応答時間情報は、HTTPレスポンスを利用して、前記音声応答の音声データとともに、通信経由で配信される
前記（３）又は（４）に記載の情報処理装置。
（１４）
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記音声応答時間情報は、MPDを利用して、放送経由で配信される
前記（５）又は（６）に記載の情報処理装置。
（１５）
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置として構成される
前記（１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
放送経由で配信される前記コンテンツを受信して再生する受信装置として構成される
前記（１）乃至（１４）のいずれかに記載の情報処理装置。
（１７）
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、前記音声応答のタイミングを制御する
情報処理方法。
（１８）
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報を含むメタデータを生成する生成部と、
生成した前記メタデータを送信する送信部と
を備える送信装置。
（１９）
前記生成部は、前記コンテンツの再生時間軸上の全部又は一部の時間を対象とした前記音声応答時間情報を、前記音声AIアシスタンスサービスに用いられることを識別するための識別情報により識別可能に表現されたMPDを生成し、
前記送信部は、前記MPDとともに、前記コンテンツを、MPEG-DASHに準拠したストリームとして、放送経由で配信する
前記（１８）に記載の送信装置。
（２０）
送信装置の送信方法において、
前記送信装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報を含むメタデータを生成し、
生成した前記メタデータを送信する
送信方法。

１コンテンツ・音声AI連携システム，１０放送配信システム，２０受信装置，３０音声ユーザインタフェース装置，４０音声アシスタンスサーバ，５０処理サーバ，６０インターネット，７０ネットワーク，１０１番組コンテンツ処理部，１０２放送付随アプリケーション生成部，１０３マルチプレクサ，１０４送出部，１０５メタデータ生成部，２０１チューナ，２０２デマルチプレクサ，２０３ AVデコーダ，２０４放送付随アプリケーション実行部，２０５レンダラ，２０６ディスプレイ，２０７スピーカ，２０８メディアタイム管理部，２０９通信部，２１０通信部，２１１音声応答タイミングメタデータ管理部，２１２記録部，２１３音声応答待機通知部，３０１マイクロフォン，３０２スピーカ，３０３通信部，３０４音声応答出力制御部，３０５タイマ，３０６バッファ，３０７セッティング管理部，３０８音声解析部，３０９通信部，４０１通信部，４０２通信部，４０３音声解析部，４０４メッセージ生成部，４０４−１音声生成部，４０４−２メタデータマージ部，５０１通信部，５０２処理部，５０３記録部，１０００コンピュータ，１００１ CPU

Claims

コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、前記音声応答のタイミングを制御する制御部を備える
情報処理装置。
前記音声応答時間情報は、前記コンテンツの再生時間軸上における前記音声応答に適した時間を示す情報である
請求項１に記載の情報処理装置。
前記音声応答時間情報は、通信経由で取得される
請求項２に記載の情報処理装置。
前記コンテンツは、第１の装置により再生され、
前記音声応答時間情報は、第２の装置により通信経由で配信され、
前記第２の装置では、前記コンテンツの再生時間軸上の全部又は一部の時間を対象とした前記音声応答時間情報を含むメタデータから、前記第１の装置により再生中の前記コンテンツに対する前記音声応答に適した時間を示す前記音声応答時間情報が抽出されて配信され、
前記制御部は、通信経由で配信された前記音声応答時間情報に基づいて、前記音声応答のタイミングを制御する
請求項３に記載の情報処理装置。
前記音声応答時間情報は、放送経由で取得される
請求項２に記載の情報処理装置。
前記コンテンツは、第１の装置により再生され、
前記音声応答時間情報は、第２の装置により放送経由で配信され、
前記第２の装置では、前記コンテンツの再生時間軸上の全部又は一部の時間を対象とした前記音声応答時間情報を含むメタデータが配信され、
前記第１の装置では、放送経由で配信された前記メタデータから、再生中の前記コンテンツに対する前記音声応答に適した時間を示す前記音声応答時間情報が抽出され、
前記制御部は、前記第１の装置により抽出された前記音声応答時間情報に基づいて、前記音声応答のタイミングを制御する
請求項５に記載の情報処理装置。
前記制御部は、前記視聴者の発話に基づいて、前記音声応答のタイミングを制御する
請求項１に記載の情報処理装置。
前記制御部は、前記音声応答のタイミングとなるまで待機する際に、当該待機中であることを示す情報が提示されるようにする
請求項７に記載の情報処理装置。
前記制御部は、前記視聴者により前記音声応答の開始指示がなされた場合、待機中の前記音声応答を開始するようにする
請求項８に記載の情報処理装置。
前記制御部は、前記音声応答のタイミングとなるまで待機する場合、待機中であることを示す第１のメッセージを、前記コンテンツを再生中である第１の装置に通知し、
前記第１の装置では、通知された前記第１のメッセージに基づいて、待機中であることを示すアイコンを表示するようにし、
前記制御部は、前記視聴者により前記音声応答の開始指示がなされた場合、待機中の前記音声応答の待機が解除されたことを示す第２のメッセージを、前記第１の装置に通知し、
前記第１の装置では、通知された前記第２のメッセージに基づいて、待機中であることを示すアイコンの表示を消すようにする
請求項９に記載の情報処理装置。
前記音声応答時間情報は、前記音声応答に適した時間として、再生中の前記コンテンツの発話音声の出力のない時間を含む
請求項２に記載の情報処理装置。
前記コンテンツは、放送経由で配信される放送コンテンツであり、
前記音声応答は、前記放送コンテンツを視聴する視聴者の発話に対する応答である
請求項１に記載の情報処理装置。
前記音声応答時間情報は、HTTPレスポンスを利用して、前記音声応答の音声データとともに、通信経由で配信される
請求項４に記載の情報処理装置。
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記音声応答時間情報は、MPDを利用して、放送経由で配信される
請求項６に記載の情報処理装置。
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置として構成される
請求項１に記載の情報処理装置。
放送経由で配信される前記コンテンツを受信して再生する受信装置として構成される
請求項１に記載の情報処理装置。
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報に基づいて、前記音声応答のタイミングを制御する
情報処理方法。
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報を含むメタデータを生成する生成部と、
生成した前記メタデータを送信する送信部と
を備える送信装置。
前記生成部は、前記コンテンツの再生時間軸上の全部又は一部の時間を対象とした前記音声応答時間情報を、前記音声AIアシスタンスサービスに用いられることを識別するための識別情報により識別可能に表現されたMPDを生成し、
前記送信部は、前記MPDとともに、前記コンテンツを、MPEG-DASHに準拠したストリームとして、放送経由で配信する
請求項１８に記載の送信装置。
送信装置の送信方法において、
前記送信装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話に対する音声応答に適した時間を示す音声応答時間情報を含むメタデータを生成し、
生成した前記メタデータを送信する
送信方法。