JP7020799B2

JP7020799B2 - 情報処理装置、及び情報処理方法

Info

Publication number: JP7020799B2
Application number: JP2017097165A
Authority: JP
Inventors: 卓也五十嵐
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2022-02-16
Anticipated expiration: 2037-05-16
Also published as: WO2018211983A1; KR20200006905A; CN109478408B; EP3449481A1; KR102520019B1; US11227620B2; CN109478408A; US20200074994A1; JP2018195934A

Description

本技術は、情報処理装置、及び情報処理方法に関し、特に、コンテンツの再生時に音声対話を利用するに際して、音声対話の精度を向上させることができるようにした情報処理装置、及び情報処理方法に関する。

放送コンテンツに連動して実行される放送アプリケーションが提案されている（例えば、特許文献１参照）。放送アプリケーションを利用することで、例えば、放送コンテンツに関連する情報の表示を行うことができる。

また、ユーザの発話内容を解析する音声認識に関する技術が提案されている（例えば、特許文献２参照）。例えば、この技術を、テレビ受像機や携帯端末装置に適用すると、ユーザが発した言葉を解析し、その発話に応じた処理を実行することが可能となる。

特開２０１３－１８７７８１号公報特開２０１４－１５３６６３号公報

ところで、テレビ受像機では、付属のリモートコントローラを利用して操作を行うのが一般的であるが、コンテンツの再生時に、放送アプリケーションに関する操作を行う場合には、必ずしも適した操作手段であるとは言えず、音声対話を利用した操作手段が求められている。このような音声対話を利用する場合において、ユーザの発話の際には、コンテンツが再生されているため、当該コンテンツの音声がノイズとなって、音声対話の精度が低下する恐れがある。

本技術はこのような状況に鑑みてなされたものであり、コンテンツの再生時に音声対話を利用するに際して、音声対話の精度を向上させることができるようにするものである。

本技術の第１の側面の情報処理装置は、送信装置から送信される放送コンテンツを受信して再生する第１の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、前記第１の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報を受信する通信部と、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部とを備え、前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、前記ユーザ音声データは、前記第１の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、前記コンテンツ音声データは、サーバ側の第２の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される情報処理装置である。

本技術の第１の側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第１の側面の情報処理方法は、上述した本技術の第１の側面の情報処理装置に対応する情報処理方法である。

本技術の第１の側面の情報処理装置、及び情報処理方法においては、第１の受信装置から、インターネットを介して、再生対象の放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報が受信され、放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、ユーザとの音声対話に関する処理が行われる。また、ノイズ除去音声データが、ユーザ音声データと、再生情報に基づき取得される放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データとされ、ユーザ音声データが、第１の受信装置で再生される放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データとされ、コンテンツ音声データが、サーバ側の第２の受信装置で、再生情報に基づき再生される放送コンテンツであるサーバ側再生コンテンツの音声データとされる。さらに、ユーザ音声データが、インターネットを介して、クライアント側の機器から受信される。

本技術の第２の側面の情報処理装置は、送信装置から送信される放送コンテンツを受信して再生する第１の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信する通信部と、前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部とを備え、前記ユーザ音声データは、前記第１の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、前記コンテンツ音声データは、サーバ側の第２の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、前記再生情報は、前記インターネットを介して、前記第１の受信装置から受信される情報処理装置である。

本技術の第２の側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第２の側面の情報処理方法は、上述した本技術の第２の側面の情報処理装置に対応する情報処理方法である。

本技術の第２の側面の情報処理装置、及び情報処理方法においては、クライアント側の機器から、インターネットを介して、放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データが受信され、ユーザ音声データと、再生対象の放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報に基づき取得される放送コンテンツの音声データであるコンテンツ音声データとを分離することで、放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データが取得される。また、ユーザ音声データが、第１の受信装置で再生される放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データとされ、コンテンツ音声データが、サーバ側の第２の受信装置で、再生情報に基づき再生される放送コンテンツであるサーバ側再生コンテンツの音声データとされる。さらに、再生情報が、インターネットを介して、第１の受信装置から受信される。

本技術の第１の側面、及び第２の側面によれば、コンテンツの再生時に音声対話を利用するに際して、音声対話の精度を向上させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した音声対話システムの一実施の形態の構成例を示すブロック図である。送信装置の構成例を示すブロック図である。音声変換サーバ及び機能提供サーバの構成例を示すブロック図である。音声認識処理部の詳細な構成例を示すブロック図である。機能処理部の詳細な構成例を示すブロック図である。受信装置の構成例を示すブロック図である。音声処理装置の構成例を示すブロック図である。第１の実施の形態の概要を説明する図である。音声対話処理の流れを説明するフローチャートである。音声対話処理の流れを説明するフローチャートである。アプリケーション連携処理の流れを説明するフローチャートである。第２の実施の形態の概要を説明する図である。音声変換サーバで実行されるノイズ除去処理を説明する図である。コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明するフローチャートである。コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明するフローチャートである。コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．システムの構成
２．第１の実施の形態：アプリケーション連携による音声対話機能
３．第２の実施の形態：コンテンツ音声起因のノイズ除去機能
４．変形例
５．コンピュータの構成

＜１．システムの構成＞

（音声対話システムの構成例）
図１は、本技術を適用した音声対話システムの一実施の形態の構成例を示すブロック図である。

音声対話システム１は、コンテンツの視聴を行うユーザとの音声対話を実現するためのシステムである。図１において、音声対話システム１は、送信装置１０、音声変換サーバ２０、機能提供サーバ３０、受信装置５０、及び音声処理装置６０を含んで構成される。

なお、音声対話システム１において、音声変換サーバ２０、機能提供サーバ３０、受信装置５０、及び音声処理装置６０は、インターネット９０に接続可能であって、各種のデータをやりとりすることができる。

送信装置１０は、放送コンテンツや放送アプリケーションを処理し、放送波として、送信所に設置されたアンテナから送信する。なお、ここでの放送方式としては、例えば、次世代地上波放送規格の１つであるATSC(Advanced Television Systems Committee)3.0を用いることができる。

ここで、放送コンテンツは、例えばニュースやスポーツ、ドラマ、ショッピングチャネル等のテレビ番組である。また、放送アプリケーションは、HTML5(HyperText Markup Language 5)等のマークアップ言語や、JavaScript（登録商標）等のスクリプト言語で開発されたアプリケーションである。なお、ATSC3.0に対応した放送アプリケーションの詳細な内容については、下記の非特許文献１に開示されている。

非特許文献１：ATSC Candidate Standard ATSC 3.0 Interactive Content (A/344)

音声変換サーバ２０は、クラウドベースの音声認識サービスを提供するサーバである。音声変換サーバ２０は、インターネット９０に接続された機器から送信されてくる音声データを、テキストデータに変換し、機能提供サーバ３０に送信する。

機能提供サーバ３０は、音声変換サーバ２０から送信されてくるテキストデータに対する処理を行うことで、各種の機能（機能サービス）を提供するサーバである。機能提供サーバ３０は、テキストデータを処理することで得られる処理データを、インターネット９０を介して、受信装置５０又は音声処理装置６０に送信する。

機能提供サーバ３０により提供される機能サービスとしては、例えば、放送コンテンツを視聴するユーザとの音声対話機能が含まれる。この音声対話機能は、機能提供サーバ３０によりサーバアプリケーションが実行されることで実現される。なお、サーバアプリケーションは、機能サービスごとに開発される。また、音声変換サーバ２０と機能提供サーバ３０とは、データセンタに設置され、相互に接続可能である。

受信装置５０と音声処理装置６０とは、例えば、ユーザの自宅で、同一の又は異なる部屋に設置される。

受信装置５０は、例えば、テレビ受像機やセットトップボックス（STB：Set Top Box）、パーソナルコンピュータ、ゲーム機などの固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータなどのモバイル受信機として構成される。

受信装置５０は、送信所から送信されてくる放送波を受信して処理することで、放送コンテンツを再生し、その映像と音声を出力する。また、受信装置５０は、放送波を処理して得られる放送アプリケーションを実行することができる。さらに、受信装置５０は、インターネット９０を介して機能提供サーバ３０から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。

音声処理装置６０は、例えば、家庭内LAN(Local Area Network)等のネットワークに接続可能なスピーカであって、いわゆるスマートスピーカとも称される。この種のスピーカは、音楽の再生のほか、例えば、照明器具や空調設備などの機器に対する音声操作を行うことができる。なお、音声処理装置６０は、Bluetooth（登録商標）等の無線通信で各種の機器と接続されるようにしてもよい。

また、音声処理装置６０は、インターネット９０を介して音声変換サーバ２０や機能提供サーバ３０と連携することで、ユーザに対して、音声エージェントサービス（のユーザインターフェース）を提供することができる。

ここで、音声エージェントサービスとは、例えば、音声認識処理や自然言語処理等の処理を組み合わせて、話し言葉による問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。すなわち、音声処理装置６０は、クライアント側に設置され、音声エージェントサービスのユーザインターフェースとして機能する。また、音声変換サーバ２０や機能提供サーバ３０は、データセンタ等のサーバ側に設置され、音声対話機能を実現するための処理を行う。

音声処理装置６０は、ユーザから発せられた音声を収音し、その音声データを、インターネット９０を介して音声変換サーバ２０に送信する。また、音声処理装置６０は、インターネット９０を介して機能提供サーバ３０から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。

（送信装置の構成例）
図２は、図１の送信装置１０の構成例を示すブロック図である。

図２において、送信装置１０は、コンテンツ生成部１１１、エンコーダ１１２、アプリケーション生成部１１３、アプリケーション処理部１１４、マルチプレクサ１１５、及び送信部１１６から構成される。

コンテンツ生成部１１１は、放送コンテンツを生成し、エンコーダ１１２に供給する。なお、放送コンテンツは、外部のサーバ、カメラ、又は記録媒体などから取得されるようにしてもよい。

エンコーダ１１２は、コンテンツ生成部１１１から供給される放送コンテンツを構成する音声データや映像データを、所定の符号化方式に準拠して符号化し、マルチプレクサ１１５に供給する。

アプリケーション生成部１１３は、放送アプリケーションを生成し、アプリケーション処理部１１４に供給する。なお、放送アプリケーションは、外部のサーバ、又は記録媒体などから取得されるようにしてもよい。

アプリケーション処理部１１４は、アプリケーション生成部１１３から供給される放送アプリケーションのデータに対して必要な処理を施し、その結果得られるデータを、マルチプレクサ１１５に供給する。

マルチプレクサ１１５は、エンコーダ１１２からのデータと、アプリケーション処理部１１４からのデータとを多重化し、その結果得られるストリームを、送信部１１６に供給する。

送信部１１６は、マルチプレクサ１１５から供給されるストリームに対して必要な処理（例えば、誤り訂正符号化処理や変調処理など）を施し、その結果得られる信号を、放送波として、送信所に設置されたアンテナから送信する。

（サーバの構成例）
図３は、図１の音声変換サーバ２０及び機能提供サーバ３０の構成例を示すブロック図である。

図３において、音声変換サーバ２０は、音声認識処理部２１１、通信I/F２１２、及びデータベース２１３から構成される。

音声認識処理部２１１は、CPU(Central Processing Unit)やマイクロプロセッサ等の演算装置として構成される。また、通信I/F２１２は、通信インターフェース回路等から構成される。データベース２１３は、ハードディスク(HDD：Hard Disk Drive)や半導体メモリ等の大容量の記録装置として構成される。

音声認識処理部２１１は、データベース２１３を参照して、音声データをテキストデータに変換するための音声認識処理を行う。ここで、例えば、データベース２１３には、膨大な音声データベースが蓄積されており、音声認識処理部２１１は、所定の認識アルゴリズムを用いることで、そこに入力される音声データをテキストデータに変換することができる。

ここで、図４には、音声認識処理部２１１の詳細な構成例を示している。図４に示すように、音声認識処理部２１１は、音声データ取得部２３１、ノイズ除去部２３２、及び音声認識部２３３から構成される。

音声データ取得部２３１は、サーバ側で再生される放送コンテンツの音声データを取得し、ノイズ除去部２３２に供給する。

なお、以下の説明では、サーバ側で再生される放送コンテンツを、サーバ側再生コンテンツとも称し、クライアント側の受信装置５０で再生される放送コンテンツ（クライアント側再生コンテンツ）と区別する。このサーバ側再生コンテンツは、例えば、データセンタに設置される受信装置（後述する図１２の受信装置８０）により再生される。

また、サーバ側再生コンテンツの音声は、音声変換サーバ２０の内部又は外部に設けられたマイクロフォン２１４により収音され、その音声データが、音声データ取得部２３１により取得される。また、専用の収音装置を設置して、サーバ側再生コンテンツの音声を収音して、その音声データが、音声データ取得部２３１により取得されるようにしてもよい。

ノイズ除去部２３２は、音声データ取得部２３１から供給される放送コンテンツ（サーバ側コンテンツ）の音声データを用いて、通信I/F２１２から供給される音声データに対してノイズ除去処理を施すことで、音声処理装置６０からの音声データに含まれる、放送コンテンツ（クライアント側再生コンテンツ）の音声に起因するノイズが取り除かれるようにする。

なお、以下の説明では、サーバ側コンテンツの音声データを、コンテンツ音声データともいう。また、音声処理装置６０により収音された音に応じた音声データであって、インターネット９０を介して音声変換サーバ２０に送信される音声データを、ユーザ音声データという。すなわち、このユーザ音声データには、ユーザの発話の音声とともに、放送コンテンツ（クライアント側再生コンテンツ）の音声に起因するノイズが含まれている。

ノイズ除去部２３２によってノイズが除去された音声データは、音声認識部２３３に供給される。なお、以下の説明では、このノイズが除去された音声データを、ノイズ除去音声データと称する。

音声認識部２３３は、データベース２１３を参照して、音声認識処理を行い、ノイズ除去部２３２から供給されるノイズ除去音声データを、テキストデータに変換し、通信I/F２１２に供給する。

なお、データベース２１３には、音声認識処理を行うためのデータベースとして、音声やテキストのコーパスが含まれる。このようなコーパスとしては、例えば、音の波形データを集めた音響モデルや、単語とその並び方の情報を集めた言語モデルなどを含めることができる。音声認識部２３３では、入力される音声データに対して、音響モデルを用いた音響処理や、言語モデルを用いた言語処理を行うことによって、音声が認識される。このように、音声認識処理には、音響処理や言語処理等の処理が含まれる。

図３の説明に戻り、通信I/F２１２は、インターネット９０を介して、音声処理装置６０等の機器から送信されてくる音声データ（ユーザ音声データ）を受信し、音声認識処理部２１１（のノイズ除去部２３２）に供給する。また、通信I/F２１２は、音声認識処理部２１１（の音声認識部２３３）から供給されるテキストデータを、機能提供サーバ３０に送信する。

また、図３において、機能提供サーバ３０は、機能処理部３１１、通信I/F３１２、及びデータベース３１３から構成される。

機能処理部３１１は、CPUやマイクロプロセッサ等の演算装置として構成される。また、通信I/F３１２は、通信インターフェース回路等から構成される。データベース３１３は、ハードディスク（HDD）や半導体メモリ等の大容量の記録装置として構成される。

機能処理部３１１は、機能ごとに開発されるサーバアプリケーションを実行することで、各種の機能サービスを提供するための処理を行う。例えば、機能処理部３１１は、放送コンテンツを視聴するユーザとの音声対話を実現するための音声対話機能（以下、TV Show機能ともいう）を有する放送アプリケーションを実行することで、放送コンテンツを視聴するユーザとの音声対話に関する処理を行う。

ただし、ここでは、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが連携することで、再生対象となる放送コンテンツに関する再生情報が得られる。これにより、機能処理部３１１は、データベース３１３に含まれる対話情報のうち、再生情報により絞り込まれた対話情報に基づいて、音声変換サーバ２０からのテキストデータに応じたユーザの発話に対する応答をするための対話処理を行うことができる。

ここで、図５には、機能処理部３１１の詳細な構成例を示している。図５に示すように、機能処理部３１１は、発話理解部３３１、対話制御部３３２、及び発話生成部３３３を含んで構成される。

発話理解部３３１は、データベース３１３を参照して、音声変換サーバ２０からのテキストデータを解析して、文脈を踏まえてその話題やユーザの発話の意図を理解する処理（言語理解処理）を行う。

対話制御部３３２は、発話理解部３３１による処理結果や、データベース３１３を参照することで得られる、話題やユーザの発話の意図、過去の対話の履歴などに基づいて、どのような応答を行うべきかを決定する処理（対話制御処理）を行う。

発話生成部３３３は、対話制御部３３２による処理結果や、データベース３１３を参照することで得られる情報に基づいて、ユーザの意図に沿った発話（ユーザの発話に対する応答）を生成する処理（発話生成処理）を行う。

なお、データベース３１３には、対話機能を実現するための対話情報を得るためのデータベースとして、知識データベースや発話データベースのほか、発話履歴やユーザ情報等のデータベースを含めることができる。

図３の説明に戻り、通信I/F３１２は、音声変換サーバ２０から送信されてくるテキストデータを受信し、機能処理部３１１に供給する。また、通信I/F３１２は、インターネット９０を介して、受信装置５０から送信されてくる再生情報を受信し、機能処理部３１１に供給する。また、通信I/F３１２は、機能処理部３１１から供給される応答（ユーザの発話に対する応答）を、インターネット９０を介して、受信装置５０や音声処理装置６０等の機器に送信する。

（受信装置の構成例）
図６は、図１の受信装置５０の構成例を示すブロック図である。

図６において、受信装置５０は、処理部５１１、メモリ５１２、入力部５１３、チューナ５１４、デマルチプレクサ５１５、音声デコーダ５１６、音声出力部５１７、映像デコーダ５１８、映像出力部５１９、ブラウザ５２０、スピーカ５２１、表示部５２２、及び通信I/F５２３から構成される。

処理部５１１は、例えば、CPUやマイクロプロセッサ等から構成される。処理部５１１は、各種の演算処理や、各部の動作制御など、受信装置５０における中心的な処理装置として動作する。処理部５１１は、受信装置５０内の各部との間で、各種のデータをやりとりすることができる。

メモリ５１２は、NVRAM(Non-Volatile RAM)等の不揮発性メモリであって、処理部５１１からの制御に従い、各種のデータを記録する。入力部５１３は、例えば、物理的なボタン等であり、ユーザの操作に応じた操作信号を、処理部５１１に供給する。処理部５１１は、入力部５１３から供給される操作信号に基づいて、各部の動作を制御する。

チューナ５１４は、アンテナ５３１を介して、送信装置１０から送信されてくる放送波を受信して必要な処理（例えば、復調処理や誤り訂正復号化処理など）を施し、その結果得られるストリームを、デマルチプレクサ５１５に供給する。

デマルチプレクサ５１５は、チューナ５１４から供給されるストリームを、音声データと、ビデオデータ、放送アプリケーションのデータに分離する。デマルチプレクサ５１５は、音声データを音声デコーダ５１６に、映像データを映像デコーダ５１８に、放送アプリケーションのデータを、ブラウザ５２０に供給する。

音声デコーダ５１６は、デマルチプレクサ５１５から供給される音声データを、所定の復号方式に準拠して復号し、音声出力部５１７に供給する。音声出力部５１７は、音声デコーダ５１６から供給される音声データを、スピーカ５２１に供給する。これにより、スピーカ５２１からは、放送コンテンツの音声が出力される。

映像デコーダ５１８は、デマルチプレクサ５１５から供給される映像データを、所定の復号方式に準拠して復号し、映像出力部５１９に供給する。映像出力部５１９は、映像デコーダ５１８から供給される映像データを、表示部５２２に供給する。これにより、LCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)等のディスプレイとして構成される表示部５２２には、放送コンテンツの映像が表示される。

ブラウザ５２０は、例えば、HTML5やJavaScript（登録商標）に対応したブラウザである。ブラウザ５２０は、処理部５１１からの制御に従い、デマルチプレクサ５１５から供給される放送アプリケーションのデータを処理し、映像出力部５１９に供給する。映像出力部５１９は、ブラウザ５２０から供給されるデータに応じたアプリケーションが、映像デコーダ５１８から供給される映像データに応じた映像に重畳して表示されるようにする。

通信I/F５２３は、通信インターフェース回路等から構成される。通信I/F５２３は、処理部５１１からの制御に従い、インターネット９０に接続された各サーバ（例えば、図１の機能提供サーバ３０）にアクセスして、各種のデータをやり取りする。

（音声処理装置の構成例）
図７は、図１の音声処理装置６０の構成例を示すブロック図である。

図７において、音声処理装置６０は、音声処理部６１１、メモリ６１２、通信I/F６１３、マイクロフォン６１４、及びスピーカ６１５から構成される。

音声処理部６１１は、例えば、CPUやマイクロプロセッサ等から構成される。音声処理部６１１は、各種の演算処理や、各部の動作制御など、音声処理装置６０における中心的な処理装置として動作する。

メモリ６１２は、NVRAM等の不揮発性メモリであって、音声処理部６１１からの制御に従い、各種のデータを記録する。

通信I/F６１３は、通信インターフェース回路等から構成される。通信I/F６１３は、音声処理部６１１からの制御に従い、インターネット９０に接続された各サーバ（例えば、図１の音声変換サーバ２０や機能提供サーバ３０）にアクセスして、各種のデータをやり取りする。

マイクロフォン６１４は、外部からの音を、電気信号に変換する機器（収音器）である。マイクロフォン６１４は、変換で得られる音声信号を、音声処理部６１１に供給する。

音声処理部６１１は、マイクロフォン６１４から供給される音声信号を処理し、通信I/F６１３に供給する。また、音声処理部６１１は、通信I/F６１３から供給される音声信号を処理し、スピーカ６１５に供給する。

スピーカ６１５は、電気信号を物理振動に変えて音を出す機器である。スピーカ６１５は、音声処理部６１１から供給される音声信号に応じた音を出力する。

音声対話システム１は、以上のように構成される。

なお、図１の音声対話システム１においては、説明の都合上、１台の送信装置１０と、一組の音声変換サーバ２０と機能提供サーバ３０とが設けられた場合を図示しているが、送信装置１０や機能提供サーバ３０は、例えば、放送局等の事業者ごとに、複数台設けるようにしてもよい。

また、図１の音声対話システム１では、ユーザ宅で、１台の受信装置５０と、１台の音声処理装置６０がそれぞれ設けられた場合を図示しているが、例えば、複数のユーザ宅ごとに、受信装置５０と音声処理装置６０とを設けることができる。

＜２．第１の実施の形態＞

ところで、図１の音声対話システム１において、テレビ受像機等として構成される受信装置５０では、放送コンテンツとともに、放送アプリケーションを実行することが可能であるが、放送アプリケーションの操作を行う場合に、テレビ受像機等に付属しているリモートコントローラを使用すると、ユーザによっては、操作が難しいと感じるときがある。

そこで、本技術では、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとを連携させて、受信装置５０で実行される放送アプリケーションで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースを利用できるようにすることで、操作の利便性の向上が図られるようにする。

例えば、図８に示すように、テレビ受像機等として構成される受信装置５０で再生される放送コンテンツとして、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたいときに、その場で、"Who is the actress ？"と質問すれば、その女優の名前が回答として得られるようにする。

具体的には、受信装置５０で実行されている放送アプリケーションが、機能提供サーバ３０で実行されているサーバアプリケーションと連携することで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースが利用可能となる。そのため、ユーザによって発せられた"Who is the actress ？"である質問が、音声処理装置６０により受け付けられ、インターネット９０を介して、音声変換サーバ２０と機能提供サーバ３０に送られる。

音声変換サーバ２０と機能提供サーバ３０では、ユーザからの質問が処理され、当該質問に対する回答が生成される。この回答は、インターネット９０を介して、受信装置５０に送信され、放送アプリケーションによって、"This actress is xxxx"（"xxxx"は、女優の名前）である回答に対応した音声が、スピーカ５２１から出力される。これにより、ユーザは、ドラマを視聴中に質問を発話するだけで、その場で、そのドラマに出ている女優の名前を知ることができる。

なお、図８の例では、放送アプリケーションが、回答に対応した音声を出力する場合を示しているが、スピーカ５２１から出力される音声に限らず、受信装置５０において、放送アプリケーションによって、回答に対応したテキスト情報や画像情報などが、表示部５２２の画面に表示されるようにしてもよい。

また、図８の例では、受信装置５０に内蔵されたスピーカ５２１が、回答に対応した音声を出力しているが、音声処理装置６０に内蔵されたスピーカ６１５から、回答に対応した音声を出力するようにしてもよい。この場合には、音声変換サーバ２０と機能提供サーバ３０で処理された処理データが、インターネット９０を介して音声処理装置６０に送信されることになる。

ただし、ユーザ宅における、テレビ受像機等の受信装置５０の設置位置と、スマートスピーカとしての音声処理装置６０の設置位置に対する、放送コンテンツを視聴しているユーザの視聴位置を考慮した場合、通常、ユーザは、音声処理装置６０よりも、受信装置５０の近くにいる可能性が高いため、回答に対応した音声を出力するのを、受信装置５０のスピーカ５２１としたほうが適している場合が多いことが想定される。

また、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０を有効化（アクティベーション）するために、あらかじめ定められたキーワード（以下、アクティベーションキーワードという）を用いるのが、一般的である。ここでは、音声対話機能（TV Show機能）を利用するためのアクティベーションキーワードとして、"Service A"が設定されているため、ユーザからの、"Service A, ask TV Show Who is the actress ？"である質問に、"Service A"というアクティベーションキーワードと、TV Show機能への対話であることを特定する"ask TV Show"が含まれている。

（音声対話処理）
次に、図９及び図１０のフローチャートを参照して、図１の音声対話システム１により実行される音声対話処理の流れを説明する。

ただし、図９及び図１０において、ステップＳ１０１乃至Ｓ１０２の処理は、放送局又は送信所の施設内に設置される送信装置１０により実行され、ステップＳ１１１乃至Ｓ１１４の処理と、ステップＳ１２１乃至Ｓ１２２の処理は、データセンタ内に設置される機能提供サーバ３０と、音声変換サーバ２０によりそれぞれ実行される。

また、図９及び図１０において、ステップＳ１３１乃至Ｓ１３２の処理と、ステップＳ１４１乃至Ｓ１４３の処理は、ユーザ宅内に設置される音声処理装置６０と、受信装置５０によりそれぞれ実行される。

ステップＳ１０１において、コンテンツ生成部１１１は、放送コンテンツを生成する。また、ステップＳ１０１において、アプリケーション生成部１１３は、放送アプリケーションを生成する。

ステップＳ１０１の処理で生成された放送コンテンツ及び放送アプリケーションは、エンコードや誤り訂正符号化処理、変調処理等の所定の処理が施された後に、送信所に設置されたアンテナから、放送波（放送信号）として送信される（Ｓ１０２）。

送信所から送信された放送波（放送信号）は、受信装置５０に接続されたアンテナ５３１により受信され、ステップＳ１４１乃至Ｓ１４２の処理が実行される。

受信装置５０においては、チューナ５１４、音声デコーダ５１６や映像デコーダ５１８等によって、アンテナ５３１により受信された放送波に対し、復調処理や誤り訂正復号処理、デコード等の所定の処理が施されることで、放送コンテンツが再生される（Ｓ１４１）。ここでは、例えば、ユーザの選局操作に応じて、ドラマ等のテレビ番組が再生される。

また、受信装置５０においては、ブラウザ５２０によって、放送波から得られる放送アプリケーションが起動される（Ｓ１４２）。この放送アプリケーションは、放送コンテンツに連携して動作するものである。一方で、機能提供サーバ３０においては、機能処理部３１１によって、サーバアプリケーションが起動されている（Ｓ１１１）。

ここでは、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが、インターネット９０を介して連携され、放送アプリケーションで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースを利用することが可能となっている。なお、放送アプリケーションとサーバアプリケーションとの連携処理の詳細な内容は、図１１のフローチャートを参照して後述する。

その後、受信装置５０で再生している放送コンテンツを視聴中のユーザによって発話がなされた場合には、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０の音声処理部６１１によって、当該ユーザの発話が受け付けられる（Ｓ１３１）。

例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問（例えば「Who is the actress ？」である質問）がマイクロフォン６１４によって収音され、電気信号に変換され、音声処理部６１１に供給されることで、ユーザの質問が受け付けられる。

なお、上述したように、実際には、ユーザは、質問をするに際して、"TV Show"等のアクティベーションキーワードを発する必要があるが、ここでは、説明の簡略化のため、その説明は省略する。アクティベーションキーワードの詳細については、後述する。

このようにして受け付けられたユーザの発話の音声データは、音声処理装置６０の通信I/F６１３によって、インターネット９０を介して、音声変換サーバ２０に送信される（Ｓ１３２）。

音声処理装置６０から送信される音声データは、インターネット９０を介して音声変換サーバ２０により受信され、ステップＳ１２１乃至Ｓ１２２の処理が実行される。

ステップＳ１２１において、音声認識処理部２１１は、データベース２１３を参照して、音声認識処理を行い、音声処理装置６０からの音声データを、テキストデータに変換する。ステップＳ１２１の処理で変換されたテキストデータは、機能提供サーバ３０に送信される（Ｓ１２２）。音声変換サーバ２０からのテキストデータは、機能提供サーバ３０により受信され、ステップＳ１１２乃至Ｓ１１４の処理が実行される。

ステップＳ１１２において、機能処理部３１１は、再生情報を取得する。ここでは、放送アプリケーションとサーバアプリケーションとが連携済みであるため、サーバアプリケーションによって、放送アプリケーションからの再生情報を取得することができる。例えば、この再生情報としては、放送コンテンツの識別子や再生時間位置、音声又は字幕の言語など、ユーザが視聴中の放送コンテンツに関する情報が含まれる。

ステップＳ１１３において、機能処理部３１１は、データベース３１３に含まれる対話情報のうち、ステップＳ１１２の処理で取得された再生情報により絞り込まれた対話情報に基づいて、音声変換サーバ２０からのテキストデータに応じた応答（ユーザの発話に対する応答）をするための対話処理を行う。

例えば、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたくて、「Who is the actress ？」である質問をしたとき、その質問の音声が、音声処理装置６０により受け付けられ、インターネット９０を介して、音声変換サーバ２０に送信される。音声変換サーバ２０では、「Who is the actress ？」である音声データが、テキストデータに変換され、機能提供サーバ３０に送信される。

一方で、機能提供サーバ３０では、再生情報として、ユーザにより視聴されているドラマの識別子や再生時間位置、音声又は字幕の言語を示す情報が取得される。そして、機能提供サーバ３０（の機能処理部３１１）は、データベース３１３に蓄積されている膨大なデータベースを、再生情報により絞り込むことで、音声対話機能を実現するための対話情報の範囲を、ユーザが視聴しているドラマのある時間帯に限定することができる。

なお、ここで行われる対話処理としては、様々な手段を用いることができるが、例えば、次のような手段を用いることができる。

すなわち、機能処理部３１１においては、まず、発話理解部３３１によって、音声変換サーバ２０からのテキストデータが解析され、文脈を踏まえてその話題やユーザの発話の意図が理解される。次に、対話制御部３３２によって、発話理解部３３１により理解された話題やユーザの発話の意図、過去の対話の履歴などに基づき、どのような応答を行うべきかが決定される。最後に、発話生成部３３３によって、対話制御部３３２による決定結果に基づき、ユーザの意図に沿った発話（ユーザの発話に対する応答）が生成される。

その際に、発話理解部３３１乃至発話生成部３３３は、データベース３１３を参照して、処理を行うが、データベース３１３に含まれる対話情報が、再生情報により絞り込まれているため、限定された対話情報に基づき、対話処理を行うことが可能となる。

ここで、データベース３１３には、音声対話機能を実現するための対話情報を得るためのデータベースとして、知識データベースや発話データベースのほか、発話履歴やユーザ情報等のデータベースを含めることができる。なお、ここに例示した対話処理は、一例であって、公知の対話処理の技術を用いるようにしてもよい。

このようにして得られる応答（ユーザの発話に対する応答）は、機能提供サーバ３０の通信I/F３１２によって、インターネット９０を介して、受信装置５０に送信される（Ｓ１１４）。

機能提供サーバ３０から送信された応答は、インターネット９０を介して受信装置５０により受信され、ステップＳ１４３の処理が実行される。すなわち、受信装置５０（で実行される放送アプリケーション）は、機能提供サーバ３０からの応答（ユーザの発話に対する応答）に応じた音声を、スピーカ５２１から出力する（Ｓ１４３）。

例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問（例えば「Who is the actress ？」である質問）に対する応答として、"This actress is xxxx"（"xxxx"は、女優の名前）である回答に対応した音声が出力される。これにより、ドラマを視聴中のユーザは、そのドラマに出ている女優の名前を知ることができる。

なお、上述したように、受信装置５０では、表示部５２２の画面に、機能提供サーバ３０からの応答に応じた情報が表示されるようにしてもよい。また、機能提供サーバ３０からの応答に応じた音声は、音声処理装置６０のスピーカ６１５から出力されるようにしてもよい。

また、上述した説明では、図１０のステップＳ１１２の処理で、サーバアプリケーションと連携している放送アプリケーションが、放送コンテンツの識別子等の再生情報を通知するとして説明したが、再生情報は、受信装置５０のレジデントアプリケーションが通知してもよいし、あるいは、放送アプリケーションが受信装置５０により提供されるAPI(Application Programming Interface)を利用して通知するようにしてもよい。要は、サーバアプリケーションが、再生情報を取得できればよいのであって、その通知手段は、任意である。なお、レジデントアプリケーションは、受信装置５０にあらかじめ組み込まれたアプリケーションである。

以上、音声対話処理の流れについて説明した。

（アプリケーション連携処理）
次に、図１１のフローチャートを参照して、図９のステップＳ１１１，Ｓ１４２の処理に対応するアプリケーション連携処理について説明する。

ただし、図１１において、ステップＳ１６１乃至Ｓ１６５の処理は、データセンタ内に設置される機能提供サーバ３０により実行される。また、ステップＳ１７１乃至Ｓ１７６の処理は、ユーザ宅内に設置される受信装置５０又は音声処理装置６０により実行される。

機能提供サーバ３０においては、機能処理部３１１によって、音声エージェントサービスを利用するサーバアプリケーションとして、TV Show機能を有するサーバアプリケーションが登録される（Ｓ１６１）と、当該サーバアプリケーションが起動される（Ｓ１６２）。

一方で、受信装置５０においては、放送コンテンツが再生され（Ｓ１７１）、さらに、放送アプリケーションが起動されている（Ｓ１７２）。

このように、サーバ側の機能提供サーバ３０で、サーバアプリケーションが起動し、クライアント側の受信装置５０で、放送アプリケーションが起動している状況で、サーバアプリケーションが、PIN(Personal Identification Number)コードを生成し、インターネット９０を介して放送アプリケーションに送信する（Ｓ１６３）。このPINコード（のテキストデータ）は、受信装置５０により受信される。

受信装置５０においては、放送アプリケーションによって、サーバアプリケーションからのPINコードが、表示部５２２に表示される（Ｓ１７３）。このようにして、受信装置５０の画面に表示されたPINコードを確認したユーザは、PINコードを読み上げる。

ただし、ここでは、例えば、"Service A ask TV Show to activate PIN ****"（****：表示されたPINコード）のように、所定のキーワード（コマンドワード）とともに、PINコードを読み上げることで、音声エージェントサービス側で、ユーザにより読み上げられたPINコードを認識することが可能となる。

音声処理装置６０では、音声処理部６１１によって、ユーザにより読み上げられるPINコードが認識できたかどうかが判定される（Ｓ１７４）。ステップＳ１７４において、PINコードが認識できていないと判定された場合、ステップＳ１７４の判定処理が繰り返される。音声処理装置６０において、PINコードを認識できない場合には、ユーザによって、PINコードが再度読み上げられる。

そして、ステップＳ１７４において、PINコードが認識できたと判定された場合、処理は、ステップＳ１７５に進められる。ステップＳ１７５において、音声処理装置６０の通信I/F６１３は、ユーザにより読み上げられたPINコードの音声データを、インターネット９０を介して送信する。

なお、説明の簡略化のため、記載を省略しているが、音声処理装置６０からのPINコードの音声データは、音声変換サーバ２０に送信されることで、音声データからテキストデータに変換される。このようにして得られるPINコードのテキストデータが、機能提供サーバ３０により受信される。

機能提供サーバ３０においては、機能処理部３１１によって、放送アプリケーションに対して送信したPINコード（のテキストデータ）と、音声処理装置６０から送信されたPINコード（のテキストデータ）とを比較して照合することで、音声処理装置６０からのPINコードが正当であるかどうかを判定する（Ｓ１６４）。

ステップＳ１６５において、音声処理装置６０からのPINコードが正当であると判定された場合、処理は、ステップＳ１６５（Ｓ１７６）に進められる。ステップＳ１６５（Ｓ１７６）においては、クライアント側の受信装置５０で起動されている放送アプリケーションと、サーバ側の機能提供サーバ３０で起動されているサーバアプリケーションとの連携が開始される。

このように、不特定のユーザに対して配信される放送アプリケーションと、当該放送アプリケーションを利用する特定のユーザの属性とが関連付けられる。すなわち、サーバアプリケーションが、放送アプリケーションを実行する受信装置５０に、既知の識別情報（PINコード）を通知し、通知された識別情報（PINコード）を確認した特定のユーザによる発話を、音声ユーザエージェントサービスを利用して受け付けることで、当該特定のユーザの属性の関連付けが行われる。

このようにしてアプリケーションの連携が開始されると、上述した図９のステップＳ１１１，Ｓ１４２の処理以降の処理を実行することが可能となる。

なお、ステップＳ１６４において、音声処理装置６０からのPINコードが正当ではないと判定された場合、ステップＳ１６５（Ｓ１７６）の処理はスキップされ、放送アプリケーションは、サーバアプリケーションとは非連携とされる。

以上、アプリケーション連携処理の流れについて説明した。

なお、図１１の説明では、機能提供サーバ３０からのPINコードを、テレビ受像機等の受信装置５０に表示して、ユーザにより読み上げさせ、そのPINコードの音声データが、音声処理装置６０から送られるようにする処理シーケンスを例示したが、PINコードの通知手段としては、他の通知手段を用いるようにしてもよい。

例えば、上述した図１１に示した処理の流れとは逆に、機能提供サーバ３０からのPINコードの音声データ（又はテキストデータ）が、インターネット９０を介して音声処理装置６０に送られるようにして、音声処理装置６０によって、PINコードに応じた音声が出力されるようにする。そして、その音声に応じたPINコードを、ユーザが、受信装置５０で実行される放送アプリケーションに対して入力するようにしてもよい。この放送アプリケーションに入力されたPINコードは、インターネット９０を介して、サーバアプリケーションにより受信され、PINコードの照合処理（Ｓ１６４）に用いられる。

また、アプリケーション連携処理の際の処理シーケンスとしては、様々な処理シーケンスを用いることができる。例えば、機能提供サーバ３０からのPINコードが、ユーザの所持するスマートフォン等の携帯端末装置に表示されるようにしたり、あるいは、PINコードをユーザが読み上げるのではなく、スマートフォン等の携帯端末装置から入力して、テキストデータとして送られるようにしたりしてもよい。

なお、図１１に示したようなアプリケーション連携処理は、受信装置５０において放送アプリケーションが起動される度に行う必要はなく、例えば、次の処理を行うことで、図１１に示した処理を経ずにアプリケーションの連携を実現することができる。すなわち、図１１のステップＳ１６４の処理で、PINコードが正当であるとの確認が行われた際に、機能提供サーバ３０は、トークン情報を、ブラウザのCookieの仕組み等を利用して記録させておくことで、次回以降に、同一の放送アプリケーションが、機能提供サーバ３０と通信を行った場合には、記録しておいたトークン情報を利用することで、図１１に示した処理を経ずにアプリケーションの連携が実現される。

以上、第１の実施の形態について説明した。この第１の実施の形態では、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが、インターネット９０を介して連携され、受信装置５０で実行される放送アプリケーションで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースが利用可能とされる。

そして、機能提供サーバ３０では、放送コンテンツを視聴するユーザとの対話処理を行う際に、サーバアプリケーションと連携している放送アプリケーションから得られる再生情報を用いて、データベース３１３に蓄積されている膨大なデータベースを絞り込んでから、再生情報により絞り込まれた対話情報に基づき、対話処理が行われる。

例えば、機能提供サーバ３０において、データベース３１３に、知識データベースとして各放送局の全チャネル分のテレビ番組に関するデータが蓄積されているとき、単に、女優の名前だけで問い合わせを受けても、どのテレビ番組のどの時間帯に出演している女優なのかを特定することができず、適切な応答を行うことができない。

一方で、受信装置５０で実行される放送アプリケーションからの再生情報で、知識データベースのデータを絞り込んで、再生情報により絞り込まれた対話情報に基づき、対話処理を行うことができれば、どのテレビ番組のどの時間帯に出演している女優なのかを特定することができるため、単に、女優の名前だけで問い合わせを受けても、適切な応答を行うことができる。

このように、本技術によれば、コンテンツの再生時に、放送アプリケーションとサーバアプリケーションとが連携して、音声エージェントサービスのユーザインターフェースが利用可能となるため、音声対話を利用して、操作の利便性の向上を図ることができる。また、機能提供サーバ３０では、対話処理を行う際に、再生情報が用いられるため、放送コンテンツを視聴するユーザとの間で、適切な音声対話を行うことが可能となる。

＜３．第２の実施の形態＞

上述したように、図１の音声対話システム１においては、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０によって、ユーザの発話が受け付けられるが、音声処理装置６０のマイクロフォン６１４により収音される音声には、ユーザの発話の音声だけでなく、受信装置５０で再生される放送コンテンツの音声に起因するノイズが含まれることが想定される。

すなわち、図１の音声対話システム１では、受信装置５０で再生される放送コンテンツを視聴しているユーザが、当該放送コンテンツに関する内容を質問するなどの音声対話を行うことになるが、その音声対話の際には、受信装置５０から、再生中の放送コンテンツの音声が出力されている。そのため、音声処理装置６０のマイクロフォン６１４により収音される音声には、放送コンテンツの音声に起因するノイズが含まれてしまう。

このようなノイズが含まれると、音声処理装置６０からの音声データを処理する音声変換サーバ２０や機能提供サーバ３０では、ユーザが発話した音声ではなく、放送コンテンツの音声を誤認識してしまい、対話処理が誤動作する恐れがある。特に、受信装置５０で再生される放送コンテンツの音声は、人が発話する音声であることが多いため、誤認識の可能性がさらに高まってしまう。

そこで、本技術では、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとを連携させて、サーバ側で、音声処理装置６０からの音声データ（ユーザ音声データ）から、受信装置５０で再生される放送コンテンツの音声に起因するノイズを取り除いて、ユーザが発話した音声についてのみ対話処理に用いられるようにする。

ここで、図１２には、音声対話システム１において、テレビ受像機等として構成される受信装置５０で再生される放送コンテンツとして、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたいときに、その場で、"Who is the actress ？"と質問した場合における音声信号の波形を示している。

すなわち、ユーザによって、"Who is the actress ？"である質問がなされた場合、音声処理装置６０のマイクロフォン６１４により収音される音声には、ユーザが発した質問の音声だけでなく、受信装置５０のスピーカ５２１から出力されるドラマの音声も含まれるため、マイクロフォン６１４によって収音された音声の音声波形WF3は、ユーザの質問の音声波形WF1と、ドラマの音声の音声波形WF2とを足し合わせたものとなる。

このような音声波形WF3を有する音声データが、音声処理装置６０から音声変換サーバ２０に、インターネット９０を介して送られる。そして、音声変換サーバ２０では、音声認識処理が行われるが、音声処理装置６０からの音声データ（に応じた音声の音声波形WF3）には、ドラマの音声（の音声波形WF2）がノイズとして含まれるため、このノイズを取り除いてから音声認識処理が行われるようにする。

ここで、図１２の音声対話システム１においては、サーバ側に設けられた受信装置８０（例えばテレビ受像機）によって、受信装置５０と同一の放送コンテンツ（ドラマ）が再生されるようにして、そのドラマの音声（の音声波形WF4）の音声データが、音声変換サーバ２０により取得されるようにする。すなわち、サーバ側の受信装置８０で再生される放送コンテンツ（サーバ側再生コンテンツ）の音声の音声波形WF4は、クライアント側の受信装置５０で再生される放送コンテンツ（クライアント側再生コンテンツ）の音声の音声波形WF2と略同一形状とされる。

ただし、ここでは、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが連携することで、再生対象となる放送コンテンツに関する再生情報（例えばチャネル番号）が得られるようにする。これにより、サーバ側の受信装置８０では、チャネル番号等の再生情報に基づき、所定のチャネルを選局して、クライアント側の受信装置５０と同一の放送コンテンツ（ドラマ）を再生することができる。

そして、音声変換サーバ２０では、受信装置８０で再生される放送コンテンツの音声（の音声波形WF4）を用いて、音声処理装置６０からの音声データ（に応じた音声の音声波形WF3）を処理することで、音声処理装置６０からの音声データに含まれる、放送コンテンツの音声に起因するノイズが取り除かれるようにする。

このようなノイズ除去処理が行われることで、音声変換サーバ２０では、放送コンテンツ（クライアント側再生コンテンツ）の音声に起因するノイズが取り除かれた音声データ（に応じた音声の音声波形WF5）が得られる。

すなわち、音声変換サーバ２０では、音声処理装置６０からの音声データ（に応じた音声の音声波形WF3）が、ユーザの発話の音声データ（に応じた音声の音声波形WF5）と、放送コンテンツの音声（に応じた音声の音声波形WF4）とに分離されたことになる。ここで、ノイズ除去処理で得られる音声データ（ノイズ除去音声データ）に応じた音声の音声波形WF5は、受信装置５０で再生される放送コンテンツを視聴しているユーザによる質問の音声波形WF1と略同一形状とされる。

そして、音声変換サーバ２０は、ノイズ除去音声データを、テキストデータに変換し、機能提供サーバ３０に送信する。ここで、音声変換サーバ２０で行われる処理をまとめると、図１３に示すようになる。

すなわち、図１３に示すように、音声変換サーバ２０において、ノイズ除去部２３２には、クライアント側の音声処理装置６０からの音声データ（ユーザ音声データ）と、サーバ側の受信装置８０により再生された放送コンテンツの音声データ（コンテンツ音声データ）とが入力される。ただし、ユーザ音声データは、図１２に示した音声波形WF3からなる。また、コンテンツ音声データは、図１２に示した音声波形WF4からなる。

ノイズ除去部２３２は、コンテンツ音声データ（に応じた音声の音声波形WF4）を用いて、ユーザ音声データ（に応じた音声の音声波形WF3）に対するノイズ除去処理を行うことで、ユーザの発話の音声データ（に応じた音声の音声波形WF5）と、放送コンテンツの音声データ（に応じた音声の音声波形WF4）とに分離されるようにする。

これにより、ノイズ除去音声データとして、放送コンテンツの音声に起因するノイズが除去されたユーザの発話の音声データ（に応じた音声の音声波形WF5）が得られる。そして、音声認識部２３３では、データベース２１３に蓄積された情報を用いた音声認識処理が行われ、ノイズ除去部２３２からのノイズ除去音声データが、テキストデータに変換されることになる。

図１２の説明に戻り、機能提供サーバ３０は、音声変換サーバ２０からのテキストデータに対する処理（例えば音声対話処理）を行い、その結果得られる処理データを、インターネット９０を介して、受信装置５０に送信する。クライアント側の受信装置５０は、インターネット９０を介して機能提供サーバ３０から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。

ここでは、例えば、TV Show機能を有するサーバアプリケーションによって、音声対話処理が行われ、ユーザによって発せられた"Who is the actress ？"である質問に対する回答として、"This actress is xxxx"（"xxxx"は、女優の名前）である回答が得られ、その回答に対応した音声が、クライアント側の受信装置５０のスピーカ５２１から出力される。

これにより、ユーザは、ドラマを視聴中に質問を発話するだけで、その場で、そのドラマに出ている女優の名前を知ることができる。また、サーバ側の音声変換サーバ２０では、ユーザの発話に対する音声認識処理を行う際に、ドラマの再生時に流れている音声を取り除いて、ユーザが発した音声に対してのみ音声認識処理が行われるようにしているため、音声認識の精度、ひいては音声対話の精度を向上させることができる。そのため、ユーザが発した音声にのみ、音声対話システム１が反応し、ユーザの質問に対する回答が確実に得られることになる。

（コンテンツ音声起因のノイズを除去した音声対話処理）
次に、図１４乃至図１６のフローチャートを参照して、図１２の音声対話システム１により実行される、コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明する。

ただし、図１４乃至図１６において、ステップＳ２０１乃至Ｓ２０２の処理は、放送局又は送信所の施設内に設置される送信装置１０により実行され、ステップＳ２１１乃至２１２の処理は、データセンタ内に設置されるサーバ側の受信装置８０により実行される。なお、サーバ側の受信装置８０は、クライアント側の受信装置５０と同様に構成され、例えば、図６に示した構成を有している。

また、図１４乃至図１６において、ステップＳ２２１乃至Ｓ２２６の処理と、ステップＳ２３１乃至Ｓ２３４の処理は、データセンタ内に設置される機能提供サーバ３０と、音声変換サーバ２０によりそれぞれ実行される。また、ステップＳ２４１乃至Ｓ２４２の処理と、ステップＳ２５１乃至Ｓ２５３の処理は、ユーザ宅内に設置される音声処理装置６０と、クライアント側の受信装置５０によりそれぞれ実行される。

ステップＳ２０１乃至Ｓ２０２においては、図９のステップＳ１０１乃至Ｓ１０２と同様に、送信装置１０によって、放送コンテンツと放送アプリケーションが生成され、放送波として送信される。

ステップＳ２５１乃至Ｓ２５２においては、図９のステップＳ１４１乃至Ｓ１４２と同様に、受信装置５０によって、ユーザの選局操作に応じた放送コンテンツが再生され、当該放送コンテンツに連動した放送アプリケーションが起動される。一方で、ステップＳ２２１においては、図９のステップＳ１１１と同様に、機能提供サーバ３０によって、サーバアプリケーションが起動される。

ここでは、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが、インターネット９０を介して連携され、放送アプリケーションで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースを利用することが可能となっている。なお、放送アプリケーションとサーバアプリケーションとの連携処理の詳細な内容は、上述した図１１のフローチャートを参照して説明したため、ここでは、その説明は省略する。

ステップＳ２２２において、機能処理部３１１は、再生情報を取得する。ここでは、放送アプリケーションとサーバアプリケーションとが連携済みであるため、サーバアプリケーションによって、放送アプリケーションからの再生情報を取得することができる。例えば、この再生情報としては、ユーザが視聴中の放送コンテンツのチャネル番号（放送サービスを識別するチャネル番号）が含まれる。

このようにして得られる再生情報は、機能提供サーバ３０の通信I/F３１２によって、サーバ側の受信装置８０に送信される（Ｓ２２３）。そして、機能提供サーバ３０から送信される再生情報は、サーバ側の受信装置８０により受信され、ステップＳ２１１乃至Ｓ２１２の処理が実行される。

すなわち、サーバ側の受信装置８０においては、機能提供サーバ３０からの再生情報に基づき、選局処理が行われ（Ｓ２１１）、当該選局処理に応じた放送波が受信されて処理され、放送コンテンツが再生される（Ｓ２１２）。

ここでは、機能提供サーバ３０からの再生情報として、クライアント側の受信装置５０で再生されている放送コンテンツ（クライアント側再生コンテンツ）のチャネル番号が得られるため、サーバ側の受信装置８０では、このチャネル番号を用いた選局処理を行うことで、クライアント側の受信装置５０と同一の放送コンテンツ（サーバ側再生コンテンツ）を再生することができる。なお、ここでは、再生情報として、放送コンテンツの再生時間位置などの、その時点でユーザが視聴しているシーンを特定するための情報を含めることで、サーバ側再生コンテンツを、クライアント側再生コンテンツと、より正確に同期させることができる。

サーバ側の受信装置８０にて再生された放送コンテンツの音声は、音声変換サーバ２０のマイクロフォン２１４等によって収音される。そして、音声変換サーバ２０では、音声データ取得部２３１によって、放送コンテンツの音声データが取得される（Ｓ２３１）。なお、この放送コンテンツの音声データに応じた音声の音声波形は、図１２の音声波形WF4に相当している。

その後、クライアント側の受信装置５０で再生している放送コンテンツを視聴中のユーザによって発話がなされた場合には、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０によって、ステップＳ２４１乃至Ｓ２４２の処理が実行される。

ステップＳ２４１乃至Ｓ２４２においては、図９のステップＳ１３１乃至Ｓ１３２と同様に、音声処理装置６０によって、ユーザの発話が受け付けられ、その音声データが、インターネット９０を介して、音声変換サーバ２０に送信される。なお、この送信される音声データに応じた音声の音声波形は、図１２の音声波形WF3に相当している。

音声処理装置６０から送信される音声データは、インターネット９０を介して音声変換サーバ２０により受信され、ステップＳ２３２乃至Ｓ２３４の処理が実行される。

ステップＳ２３２において、ノイズ除去部２３２は、サーバ側の受信装置８０にて再生された放送コンテンツの音声データ（コンテンツ音声データ）を用いて、クライアント側の音声処理装置６０からの音声データ（ユーザ音声データ）に対するノイズ除去処理を行う。ここで、コンテンツ音声データは、サーバ側再生コンテンツの音声データである。また、ユーザ音声データには、ユーザの発話とともに、クライアント側再生コンテンツの音声に起因するノイズを含む音声データである。

すなわち、ここでは、ノイズ除去部２３２によって、ステップＳ２３１の処理で得られる放送コンテンツの音声データ（コンテンツ音声データ）に応じた音声（図１２の音声波形WF4）を用いて、音声処理装置６０からの音声データ（ユーザ音声データ）に応じた音声（図１２の音声波形WF3）が処理されることで、ユーザの発話の音声波形音声データ（図１２の音声波形WF5）と、放送コンテンツの音声波形データ（図１２の音声波形WF4）とに分離されるようにする。

なお、サーバ側再生コンテンツの音声の音声波形WF4（図１２）が、クライアント側再生コンテンツの音声の音声波形WF2（図１２）と略同一形状とされるため、サーバ側で得られるユーザの発話の音声波形WF5（図１２）が、クライアント側でのユーザの発話の音声波形WF1（図１２）と略同一形状とされるのは、先に述べた通りである。

また、ステップＳ２３２の処理で行われる音声分離処理としては、公知の音声分離の技術を用いることができるが、例えば、下記の非特許文献２に開示されているセミブラインド音声分離処理によって、ユーザの発話の音声と放送コンテンツの音声とを分離することができる。

非特許文献２：「独立成分分析を応用したロボット聴覚による残響下におけるバージイン発話認識」武田龍，中臺一博，高橋徹，駒谷和範，尾形哲也，奥乃博，京都大学大学院情報学研究科，株式会社ホンダ・リサーチ・インスティチュート・ジャパン

すなわち、非特許文献２には、セミブラインド音声分離処理として、人とロボットが対話する場合に、ロボットの発話に応じた音声Sr(ω, f)と、ユーザの発話に応じた音声Su(ω, f)とが混合してマイクロフォンにより収音されたとき、ロボットの発話に応じた音声Sr(ω, f)が、あらかじめ認識可能であることを利用して、ユーザの発話に応じた音声Su(ω, f)を分離する方式が開示されている。

そして、ステップＳ２３２の処理で行われる音声分離処理においても、非特許文献２におけるSr(ω, f)を、放送コンテンツの音声とみなせば、この方式を用いることで、ユーザの発話の音声Su(ω, f)を分離することが可能となる。

このようにして、ユーザ音声データに含まれる、放送コンテンツの音声に起因するノイズが取り除かれ、音声変換サーバ２０では、放送コンテンツの音声に起因するノイズが取り除かれた音声データ（ノイズ除去音声データ）が得られる。なお、このノイズ除去音声データに応じた音声の音声波形は、図１２の音声波形WF5に相当している。

ステップＳ２３３において、音声認識部２３３は、データベース２１３を参照して、音声認識処理を行い、ステップＳ２３２でノイズ除去処理が施された音声データを、テキストデータに変換する。なお、ここでの音声認識処理としては、例えば音響モデルや言語モデルを用いた音声認識処理など、公知の音声認識の技術を用いることができる。

ステップＳ２３３の処理で変換されたテキストデータは、機能提供サーバ３０に送信される（Ｓ２３４）。音声変換サーバ２０からのテキストデータは、機能提供サーバ３０により受信され、ステップＳ２２４乃至Ｓ２２６の処理が実行される。

ステップＳ２２４乃至Ｓ２２６においては、図１０のステップＳ１１２乃至Ｓ１１４と同様に、機能処理部３１１によって、データベースに含まれる対話情報のうち、ステップＳ２２４の処理で取得された再生情報（例えば放送コンテンツの識別子や再生時間位置、音声又は字幕の言語など）により絞り込まれた対話情報に基づいて、音声変換サーバ２０からのテキストデータに応じた応答（ユーザ発話に対する応答）をするための対話処理が行われる。

機能提供サーバ３０から送信された応答は、インターネット９０を介してクライアント側の受信装置５０により受信され、ステップＳ２５３の処理が実行される。すなわち、クライアント側の受信装置５０で実行される放送アプリケーションは、機能提供サーバ３０からの応答（ユーザの発話に対する応答）に応じた音声を、スピーカ５２１から出力する（Ｓ２５３）。

ここでは、例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問（例えば「Who is the actress ？」である質問）に対する応答として、"This actress is xxxx"（"xxxx"は、女優の名前）である回答に対応した音声が出力される。これにより、ドラマを視聴中のユーザは、そのドラマに出ている女優の名前を知ることができる。

以上、コンテンツ音声起因のノイズを除去した音声対話処理の流れについて説明した。

なお、上述した説明では、図１４のステップＳ２２２の処理で、サーバアプリケーションと連携している放送アプリケーションが、チャネル番号等の再生情報を通知するとして説明したが、再生情報は、受信装置５０のレジデントアプリケーションが通知してもよいし、あるいは、放送アプリケーションが受信装置５０により提供されるAPIを利用して通知するようにしてもよい。

また、上述した説明では、図１５のステップＳ２３３の音声認識処理の段階（前段）で、図１５のステップＳ２３２のノイズ除去処理が行われ、それにより得られるノイズ除去音声データを用いた音声認識処理が行われるとして説明したが、ノイズ除去処理が行われるタイミングは、音声認識処理の段階に限らず、例えば、音響処理、言語理解処理、又は対話制御処理などのいずれかの処理の段階において行われるようにしてもよい。

以上、第２の実施の形態について説明した。この第２の実施の形態では、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとを連携させて、サーバ側の音声変換サーバ２０で、音声処理装置６０からの音声データから、受信装置５０で再生される放送コンテンツの音声に起因するノイズを取り除いて、ユーザが発話した音声についてのみ対話処理に用いられるようにしている。

すなわち、図１２の音声対話システム１においては、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０によって、ユーザの発話が受け付けられるが、音声処理装置６０のマイクロフォン６１４により収音される音声には、ユーザの発話の音声だけでなく、受信装置５０で再生される放送コンテンツの音声に起因するノイズが含まれることが想定される。本技術では、ユーザが発した音声に対してのみ音声認識処理等の処理が行われるようにしているため、音声認識の精度、ひいては音声対話の精度を向上させることができる。

これによって、ユーザが発した音声にのみ、音声対話システム１が反応し、ユーザの質問に対する回答が確実に得られることになる。一方で、放送コンテンツの音声によって、音声対話システム１が誤って反応することを防止することができる。また、指向性マイクロフォン等によってノイズを分離する手段が知られているが、テレビ受像機とユーザとの位置関係によっては、ノイズを分離するのが困難な場合がある。一方で、図１２の音声対話システム１では、テレビ受像機（受信装置５０）とユーザとの位置関係に関係なく、確実にノイズを除去できるため、音声認識の精度を向上させることが可能となる。

なお、音声変換サーバ２０において、放送コンテンツの音声を分析した音声分析情報を、あらかじめ取得することができるのであれば、この音声分析情報を、受信装置８０で再生される放送コンテンツの音声データの代わりに用いるようにしてもよい。

＜４．変形例＞

（受信装置の他の構成）
上述した説明では、クライアント側の受信装置５０と音声処理装置６０とは、別々の機器として構成されるとして説明したが、受信装置５０と音声処理装置６０とが一体化された機器（同梱型デバイス）として構成されるようにしてもよい。例えば、音声処理装置６０を音声処理モジュールとして提供し、受信装置５０の機能に含めることで、同梱型デバイスとして構成することができる。

また、上述した説明では、クライアント側の受信装置５０は、テレビ受像機等の固定受信機、又はスマートフォン等のモバイル受信機であるとして説明したが、受信装置５０は、ヘッドマウントディスプレイ（HMD：Head Mounted Display）などのウェアラブルコンピュータであってもよい。さらに、受信装置５０は、例えば車載テレビなどの自動車に搭載される機器であってもよい。すなわち、クライアント側の受信装置５０は、コンテンツの再生や録画が可能な機器であれば、いずれの機器であってもよい。

（サーバの他の構成）
上述した説明では、音声変換サーバ２０と機能提供サーバ３０は、異なるサーバとして構成されるとして説明したが、それらのサーバが一体となって、双方のサーバの機能を有するようにしてもよい。

また、上述した説明では、音声変換サーバ２０によって、音声認識サービスが提供されるとして説明したが、その音声認識機能が、音声処理装置６０側で実行されるようにしてもよい。

すなわち、音声処理装置６０は、ユーザの発話に応じた音声データを、テキストデータに変換し、その結果得られるテキストデータを、インターネット９０を介して、機能提供サーバ３０に送信することができる。また、その変換の際に用いられるデータベース２１３は、インターネット９０上のサーバが提供してもよいし、あるいは音声処理装置６０が保持するようにしてもよい。

（放送方式の例）
上述した説明では、放送コンテンツの放送方式として、米国等で採用されている方式であるATSC（特に、ATSC3.0）を説明したが、本技術は、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などの方式に適用するようにしてもよい。

また、上述した説明では、UDP/IPパケットを利用するIP伝送方式が採用されるATSC3.0を例にして説明したが、本技術は、IP伝送方式に限らず、例えば、MPEG2-TS(Transport Stream)方式等の他の方式に適用するようにしてもよい。

さらに、放送コンテンツを伝送するための伝送路としては、地上波放送を説明したが、本技術は、地上波放送のほか、放送衛星（BS：Broadcasting Satellite)や通信衛星（CS：Communications Satellite）等を利用した衛星放送や、ケーブルテレビ（CATV）等の有線放送などの放送伝送路は勿論、IPTV(Internet Protocol TV)網やインターネットなどの通信伝送路を用いることができる。

なお、図１又は図１２の音声対話システム１においては、放送局の送信装置１０（図２）が単独で、ストリームの多重化処理を行うマルチプレクサ１１５と、変調処理等を行う送信部１１６を有する構成を例示したが、一般的なデジタル放送のシステムでは、マルチプレクサ１１５と送信部１１６とは、異なる場所に設置されるものである。例えば、マルチプレクサ１１５は、放送局内に設置される一方で、送信部１１６は、送信所に設置される。

（アプリケーションの例）
放送アプリケーションは、HTML5等のマークアップ言語や、JavaScript（登録商標）等のスクリプト言語で開発されたアプリケーションに限らず、例えば、Java（登録商標）等のプログラミング言語で開発されたアプリケーションであってもよい。また、放送アプリケーションは、表示されるものに限らず、バックグラウンドで、非表示で実行されるものであってもよい。

また、受信装置５０で実行されるアプリケーションは、ブラウザにより実行されるアプリケーションに限らず、いわゆるネイティブアプリケーションとして、OS（Operating System）環境（提示制御環境）などで実行されるようにしてもよい。さらに、受信装置５０で実行されるアプリケーションは、放送経由で取得されるものに限らず、インターネット９０上のサーバから、通信経由で取得されるようにしてもよい。

また、受信装置５０で再生されるコンテンツは、放送経由で配信される放送コンテンツに限らず、通信経由で配信される通信コンテンツであってもよい。この通信コンテンツには、例えば、VOD(Video On Demand)ストリーミング配信されるコンテンツや、ダウンロード可能なコンテンツなどが含まれる。図１２の音声対話システム１において、クライアント側の受信装置５０で、インターネット９０を介してストリーミング配信される通信コンテンツが受信されて再生される場合には、同一の通信コンテンツが、サーバ側の受信装置８０においても再生されるようにすればよい。

なお、音声変換サーバ２０において、通信コンテンツの音声を分析した音声分析情報を、あらかじめ取得することができるのであれば、この音声分析情報を、通信コンテンツの音声データの代わりに用いるようにしてもよい。また、放送コンテンツと通信コンテンツには、テレビ番組（例えばニュースやスポーツ、ドラマなど）や映画等のほか、動画や音楽、電子書籍、ゲーム、広告など、あらゆるコンテンツを含めることができる。

（その他）
本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述したアクティベーションキーワードは、コマンドワードなどと称される場合がある。

＜５．コンピュータの構成＞

上述した一連の処理（例えば、図９及び図１０に示した音声対話処理や、図１４乃至図１６に示したコンテンツ音声起因のノイズを除去した音声対話処理）は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図１７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

入力部１００６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本技術は、以下のような構成をとることができる。

（１）
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部を備え、
前記ノイズ除去音声データは、前記ユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで得られる
情報処理装置。
（２）
前記ノイズ除去音声データの処理結果は、音響処理、音声認識処理、言語理解処理、及び対話制御処理のうち、いずれかの処理の段階において、前記コンテンツを視聴するユーザの発話の音声波形データと、前記コンテンツの音声波形データとを分離することで得られる
前記（１）に記載の情報処理装置。
（３）
前記ユーザ音声データは、クライアント側の受信装置で再生されるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の受信装置で、前記クライアント側再生コンテンツの再生情報に基づき再生されるサーバ側再生コンテンツの音声データである
前記（２）に記載の情報処理装置。
（４）
前記再生情報は、前記コンテンツを提供するサービスを識別するための識別情報を含む
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
前記コンテンツは、放送波として伝送される放送コンテンツである
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記処理部は、データベースに含まれる音声対話機能を実現するための対話情報のうち、前記再生情報により絞り込まれた対話情報を参照して、前記ノイズ除去音声データの処理結果を処理することで、前記コンテンツを視聴するユーザとの音声対話に関する処理を行う
前記（２）に記載の情報処理装置。
（７）
前記処理部は、インターネットに接続されるサーバ側で実行される第１のアプリケーションを実行し、
前記第１のアプリケーションと、前記コンテンツを再生するクライアント側で実行される第２のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現する
前記（６）に記載の情報処理装置。
（８）
前記再生情報は、前記コンテンツを提供するサービスを識別するための第１の識別情報とともに、前記コンテンツを識別するための第２の識別情報、前記コンテンツにおける再生時間位置を示す位置情報、及び前記コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
前記（６）又は（７）に記載の情報処理装置。
（９）
前記コンテンツは、放送波として伝送される放送コンテンツであり、
前記第２のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
前記（６）乃至（８）のいずれかに記載の情報処理装置。
（１０）
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行うステップを含み、
前記ノイズ除去音声データは、前記ユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで得られる
情報処理方法。
（１１）
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部を備える
情報処理装置。
（１２）
前記ユーザ音声データは、クライアント側の受信装置で再生されるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の受信装置で、前記クライアント側再生コンテンツの再生情報に基づき再生されるサーバ側再生コンテンツの音声データである
前記（１１）に記載の情報処理装置。
（１３）
前記再生情報は、前記コンテンツを提供するサービスを識別するための識別情報を含む
前記（１１）又は（１２）に記載の情報処理装置。
（１４）
前記コンテンツは、放送波として伝送される放送コンテンツである
前記（１１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する
ステップを含む情報処理方法。

１音声対話システム，１０送信装置，２０音声変換サーバ，３０機能提供サーバ，５０受信装置，６０音声処理装置，８０受信装置，９０インターネット，１１１コンテンツ生成部，１１３アプリケーション生成部，１１６送信部，２１１音声認識処理部，２１３データベース，２１４マイクロフォン，２３１音声データ取得部，２３２ノイズ除去部，２３３音声認識部，３１１機能処理部，３１３データベース，３３１発話理解部，３３２対話制御部，３３３発話生成部，５１１処理部，５１２メモリ，５１４チューナ，５１５デマルチプレクサ，５１６音声デコーダ，５１７音声出力部，５１８映像デコーダ，５１９映像出力部，５２０ブラウザ，５２１スピーカ，５２２表示部，５２３通信I/F，１０００コンピュータ，１００１ CPU

Claims

送信装置から送信される放送コンテンツを受信して再生する第１の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、
前記第１の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報を受信する通信部と、
前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部と
を備え、
前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、
前記ユーザ音声データは、前記第１の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第２の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される
情報処理装置。
前記ノイズ除去音声データの処理結果は、音響処理、音声認識処理、言語理解処理、及び対話制御処理のうち、いずれかの処理の段階において、前記放送コンテンツを視聴するユーザの発話の音声波形データと、前記放送コンテンツの音声波形データとを分離することで得られる
請求項１に記載の情報処理装置。
前記第１の識別情報は、前記放送サービスを識別するチャネル番号である
請求項１に記載の情報処理装置。
前記処理部は、データベースに含まれる音声対話機能を実現するための対話情報のうち、前記再生情報により絞り込まれた対話情報を参照して、前記ノイズ除去音声データの処理結果を処理することで、前記放送コンテンツを視聴するユーザとの音声対話に関する処理を行う
請求項２に記載の情報処理装置。
前記処理部は、前記インターネットに接続されるサーバ側で実行されるアプリケーションである第１のアプリケーションを実行し、
前記第１のアプリケーションと、前記放送コンテンツを再生する前記第１の受信装置で実行されるアプリケーションである第２のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現する
請求項４に記載の情報処理装置。
前記第１の識別情報は、前記放送サービスを識別するチャネル番号であり、
前記再生情報は、前記第１の識別情報とともに、前記放送コンテンツを識別するための第２の識別情報、前記放送コンテンツにおける再生時間位置を示す位置情報、及び前記放送コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
請求項５に記載の情報処理装置。
前記第２のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
請求項６に記載の情報処理装置。
前記クライアント側の機器は、前記第１の受信装置と、ネットワークに接続可能なスピーカである音声処理装置から構成され、
前記ユーザ音声データは、前記音声処理装置から前記インターネットを介して送信される
請求項１に記載の情報処理装置。
前記クライアント側の機器は、前記第１の受信装置から構成され、
前記ユーザ音声データは、前記第１の受信装置から前記インターネットを介して送信される
請求項１に記載の情報処理装置。
送信装置から送信される放送コンテンツを受信して再生する第１の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置の情報処理方法において、
前記情報処理装置が、
前記第１の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報を受信するステップと、
前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行うステップと
を含み、
前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、
前記ユーザ音声データは、前記第１の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第２の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される
情報処理方法。
送信装置から送信される放送コンテンツを受信して再生する第１の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、
前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信する通信部と、
前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部と
を備え、
前記ユーザ音声データは、前記第１の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第２の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記再生情報は、前記インターネットを介して、前記第１の受信装置から受信される
情報処理装置。
前記第１の識別情報は、前記放送サービスを識別するチャネル番号である
請求項１１に記載の情報処理装置。
前記クライアント側の機器は、前記第１の受信装置と、ネットワークに接続可能なスピーカである音声処理装置から構成され、
前記ユーザ音声データは、前記音声処理装置から前記インターネットを介して送信される
請求項１１に記載の情報処理装置。
前記クライアント側の機器は、前記第１の受信装置から構成され、
前記ユーザ音声データは、前記第１の受信装置から前記インターネットを介して送信される
請求項１１に記載の情報処理装置。
送信装置から送信される放送コンテンツを受信して再生する第１の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置の情報処理方法において、
前記情報処理装置が、
前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信するステップと、
前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第１の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得するステップと
を含み、
前記ユーザ音声データは、前記第１の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第２の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記再生情報は、前記インターネットを介して、前記第１の受信装置から受信される
情報処理方法。