JP7020799B2 - 情報処理装置、及び情報処理方法 - Google Patents

情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
JP7020799B2
JP7020799B2 JP2017097165A JP2017097165A JP7020799B2 JP 7020799 B2 JP7020799 B2 JP 7020799B2 JP 2017097165 A JP2017097165 A JP 2017097165A JP 2017097165 A JP2017097165 A JP 2017097165A JP 7020799 B2 JP7020799 B2 JP 7020799B2
Authority
JP
Japan
Prior art keywords
voice
user
content
broadcast content
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017097165A
Other languages
English (en)
Other versions
JP2018195934A (ja
Inventor
卓也 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Priority to JP2017097165A priority Critical patent/JP7020799B2/ja
Priority to US16/300,293 priority patent/US11227620B2/en
Priority to PCT/JP2018/017484 priority patent/WO2018211983A1/en
Priority to KR1020187036351A priority patent/KR102520019B1/ko
Priority to EP18726536.8A priority patent/EP3449481A1/en
Priority to CN201880002787.1A priority patent/CN109478408B/zh
Publication of JP2018195934A publication Critical patent/JP2018195934A/ja
Application granted granted Critical
Publication of JP7020799B2 publication Critical patent/JP7020799B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本技術は、情報処理装置、及び情報処理方法に関し、特に、コンテンツの再生時に音声対話を利用するに際して、音声対話の精度を向上させることができるようにした情報処理装置、及び情報処理方法に関する。
放送コンテンツに連動して実行される放送アプリケーションが提案されている(例えば、特許文献1参照)。放送アプリケーションを利用することで、例えば、放送コンテンツに関連する情報の表示を行うことができる。
また、ユーザの発話内容を解析する音声認識に関する技術が提案されている(例えば、特許文献2参照)。例えば、この技術を、テレビ受像機や携帯端末装置に適用すると、ユーザが発した言葉を解析し、その発話に応じた処理を実行することが可能となる。
特開2013-187781号公報 特開2014-153663号公報
ところで、テレビ受像機では、付属のリモートコントローラを利用して操作を行うのが一般的であるが、コンテンツの再生時に、放送アプリケーションに関する操作を行う場合には、必ずしも適した操作手段であるとは言えず、音声対話を利用した操作手段が求められている。このような音声対話を利用する場合において、ユーザの発話の際には、コンテンツが再生されているため、当該コンテンツの音声がノイズとなって、音声対話の精度が低下する恐れがある。
本技術はこのような状況に鑑みてなされたものであり、コンテンツの再生時に音声対話を利用するに際して、音声対話の精度を向上させることができるようにするものである。
本技術の第1の側面の情報処理装置は、送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、前記第1の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報を受信する通信部と、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部を備え、前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される情報処理装置である。
本技術の第1の側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第1の側面の情報処理方法は、上述した本技術の第1の側面の情報処理装置に対応する情報処理方法である。
本技術の第1の側面の情報処理装置、及び情報処理方法においては、第1の受信装置から、インターネットを介して、再生対象の放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報が受信され、放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、ユーザとの音声対話に関する処理が行われる。また、ノイズ除去音声データが、ユーザ音声データと、再生情報に基づき取得される放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データとされ、ユーザ音声データが、第1の受信装置で再生される放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データとされ、コンテンツ音声データが、サーバ側の第2の受信装置で、再生情報に基づき再生される放送コンテンツであるサーバ側再生コンテンツの音声データとされる。さらに、ユーザ音声データが、インターネットを介して、クライアント側の機器から受信される。
本技術の第2の側面の情報処理装置は、送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信する通信部と、前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部を備え、前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、前記再生情報は、前記インターネットを介して、前記第1の受信装置から受信される情報処理装置である。
本技術の第2の側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第2の側面の情報処理方法は、上述した本技術の第2の側面の情報処理装置に対応する情報処理方法である。
本技術の第2の側面の情報処理装置、及び情報処理方法においては、クライアント側の機器から、インターネットを介して、放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データが受信され、ユーザ音声データと、再生対象の放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報に基づき取得される放送コンテンツの音声データであるコンテンツ音声データとを分離することで、放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データが取得される。また、ユーザ音声データが、第1の受信装置で再生される放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データとされ、コンテンツ音声データが、サーバ側の第2の受信装置で、再生情報に基づき再生される放送コンテンツであるサーバ側再生コンテンツの音声データとされる。さらに、再生情報が、インターネットを介して、第1の受信装置から受信される。
本技術の第1の側面、及び第2の側面によれば、コンテンツの再生時に音声対話を利用するに際して、音声対話の精度を向上させることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した音声対話システムの一実施の形態の構成例を示すブロック図である。 送信装置の構成例を示すブロック図である。 音声変換サーバ及び機能提供サーバの構成例を示すブロック図である。 音声認識処理部の詳細な構成例を示すブロック図である。 機能処理部の詳細な構成例を示すブロック図である。 受信装置の構成例を示すブロック図である。 音声処理装置の構成例を示すブロック図である。 第1の実施の形態の概要を説明する図である。 音声対話処理の流れを説明するフローチャートである。 音声対話処理の流れを説明するフローチャートである。 アプリケーション連携処理の流れを説明するフローチャートである。 第2の実施の形態の概要を説明する図である。 音声変換サーバで実行されるノイズ除去処理を説明する図である。 コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明するフローチャートである。 コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明するフローチャートである。 コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明するフローチャートである。 コンピュータの構成例を示すブロック図である。
以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.システムの構成
2.第1の実施の形態:アプリケーション連携による音声対話機能
3.第2の実施の形態:コンテンツ音声起因のノイズ除去機能
4.変形例
5.コンピュータの構成
<1.システムの構成>
(音声対話システムの構成例)
図1は、本技術を適用した音声対話システムの一実施の形態の構成例を示すブロック図である。
音声対話システム1は、コンテンツの視聴を行うユーザとの音声対話を実現するためのシステムである。図1において、音声対話システム1は、送信装置10、音声変換サーバ20、機能提供サーバ30、受信装置50、及び音声処理装置60を含んで構成される。
なお、音声対話システム1において、音声変換サーバ20、機能提供サーバ30、受信装置50、及び音声処理装置60は、インターネット90に接続可能であって、各種のデータをやりとりすることができる。
送信装置10は、放送コンテンツや放送アプリケーションを処理し、放送波として、送信所に設置されたアンテナから送信する。なお、ここでの放送方式としては、例えば、次世代地上波放送規格の1つであるATSC(Advanced Television Systems Committee)3.0を用いることができる。
ここで、放送コンテンツは、例えばニュースやスポーツ、ドラマ、ショッピングチャネル等のテレビ番組である。また、放送アプリケーションは、HTML5(HyperText Markup Language 5)等のマークアップ言語や、JavaScript(登録商標)等のスクリプト言語で開発されたアプリケーションである。なお、ATSC3.0に対応した放送アプリケーションの詳細な内容については、下記の非特許文献1に開示されている。
非特許文献1:ATSC Candidate Standard ATSC 3.0 Interactive Content (A/344)
音声変換サーバ20は、クラウドベースの音声認識サービスを提供するサーバである。音声変換サーバ20は、インターネット90に接続された機器から送信されてくる音声データを、テキストデータに変換し、機能提供サーバ30に送信する。
機能提供サーバ30は、音声変換サーバ20から送信されてくるテキストデータに対する処理を行うことで、各種の機能(機能サービス)を提供するサーバである。機能提供サーバ30は、テキストデータを処理することで得られる処理データを、インターネット90を介して、受信装置50又は音声処理装置60に送信する。
機能提供サーバ30により提供される機能サービスとしては、例えば、放送コンテンツを視聴するユーザとの音声対話機能が含まれる。この音声対話機能は、機能提供サーバ30によりサーバアプリケーションが実行されることで実現される。なお、サーバアプリケーションは、機能サービスごとに開発される。また、音声変換サーバ20と機能提供サーバ30とは、データセンタに設置され、相互に接続可能である。
受信装置50と音声処理装置60とは、例えば、ユーザの自宅で、同一の又は異なる部屋に設置される。
受信装置50は、例えば、テレビ受像機やセットトップボックス(STB:Set Top Box)、パーソナルコンピュータ、ゲーム機などの固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータなどのモバイル受信機として構成される。
受信装置50は、送信所から送信されてくる放送波を受信して処理することで、放送コンテンツを再生し、その映像と音声を出力する。また、受信装置50は、放送波を処理して得られる放送アプリケーションを実行することができる。さらに、受信装置50は、インターネット90を介して機能提供サーバ30から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。
音声処理装置60は、例えば、家庭内LAN(Local Area Network)等のネットワークに接続可能なスピーカであって、いわゆるスマートスピーカとも称される。この種のスピーカは、音楽の再生のほか、例えば、照明器具や空調設備などの機器に対する音声操作を行うことができる。なお、音声処理装置60は、Bluetooth(登録商標)等の無線通信で各種の機器と接続されるようにしてもよい。
また、音声処理装置60は、インターネット90を介して音声変換サーバ20や機能提供サーバ30と連携することで、ユーザに対して、音声エージェントサービス(のユーザインターフェース)を提供することができる。
ここで、音声エージェントサービスとは、例えば、音声認識処理や自然言語処理等の処理を組み合わせて、話し言葉による問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。すなわち、音声処理装置60は、クライアント側に設置され、音声エージェントサービスのユーザインターフェースとして機能する。また、音声変換サーバ20や機能提供サーバ30は、データセンタ等のサーバ側に設置され、音声対話機能を実現するための処理を行う。
音声処理装置60は、ユーザから発せられた音声を収音し、その音声データを、インターネット90を介して音声変換サーバ20に送信する。また、音声処理装置60は、インターネット90を介して機能提供サーバ30から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。
(送信装置の構成例)
図2は、図1の送信装置10の構成例を示すブロック図である。
図2において、送信装置10は、コンテンツ生成部111、エンコーダ112、アプリケーション生成部113、アプリケーション処理部114、マルチプレクサ115、及び送信部116から構成される。
コンテンツ生成部111は、放送コンテンツを生成し、エンコーダ112に供給する。なお、放送コンテンツは、外部のサーバ、カメラ、又は記録媒体などから取得されるようにしてもよい。
エンコーダ112は、コンテンツ生成部111から供給される放送コンテンツを構成する音声データや映像データを、所定の符号化方式に準拠して符号化し、マルチプレクサ115に供給する。
アプリケーション生成部113は、放送アプリケーションを生成し、アプリケーション処理部114に供給する。なお、放送アプリケーションは、外部のサーバ、又は記録媒体などから取得されるようにしてもよい。
アプリケーション処理部114は、アプリケーション生成部113から供給される放送アプリケーションのデータに対して必要な処理を施し、その結果得られるデータを、マルチプレクサ115に供給する。
マルチプレクサ115は、エンコーダ112からのデータと、アプリケーション処理部114からのデータとを多重化し、その結果得られるストリームを、送信部116に供給する。
送信部116は、マルチプレクサ115から供給されるストリームに対して必要な処理(例えば、誤り訂正符号化処理や変調処理など)を施し、その結果得られる信号を、放送波として、送信所に設置されたアンテナから送信する。
(サーバの構成例)
図3は、図1の音声変換サーバ20及び機能提供サーバ30の構成例を示すブロック図である。
図3において、音声変換サーバ20は、音声認識処理部211、通信I/F212、及びデータベース213から構成される。
音声認識処理部211は、CPU(Central Processing Unit)やマイクロプロセッサ等の演算装置として構成される。また、通信I/F212は、通信インターフェース回路等から構成される。データベース213は、ハードディスク(HDD:Hard Disk Drive)や半導体メモリ等の大容量の記録装置として構成される。
音声認識処理部211は、データベース213を参照して、音声データをテキストデータに変換するための音声認識処理を行う。ここで、例えば、データベース213には、膨大な音声データベースが蓄積されており、音声認識処理部211は、所定の認識アルゴリズムを用いることで、そこに入力される音声データをテキストデータに変換することができる。
ここで、図4には、音声認識処理部211の詳細な構成例を示している。図4に示すように、音声認識処理部211は、音声データ取得部231、ノイズ除去部232、及び音声認識部233から構成される。
音声データ取得部231は、サーバ側で再生される放送コンテンツの音声データを取得し、ノイズ除去部232に供給する。
なお、以下の説明では、サーバ側で再生される放送コンテンツを、サーバ側再生コンテンツとも称し、クライアント側の受信装置50で再生される放送コンテンツ(クライアント側再生コンテンツ)と区別する。このサーバ側再生コンテンツは、例えば、データセンタに設置される受信装置(後述する図12の受信装置80)により再生される。
また、サーバ側再生コンテンツの音声は、音声変換サーバ20の内部又は外部に設けられたマイクロフォン214により収音され、その音声データが、音声データ取得部231により取得される。また、専用の収音装置を設置して、サーバ側再生コンテンツの音声を収音して、その音声データが、音声データ取得部231により取得されるようにしてもよい。
ノイズ除去部232は、音声データ取得部231から供給される放送コンテンツ(サーバ側コンテンツ)の音声データを用いて、通信I/F212から供給される音声データに対してノイズ除去処理を施すことで、音声処理装置60からの音声データに含まれる、放送コンテンツ(クライアント側再生コンテンツ)の音声に起因するノイズが取り除かれるようにする。
なお、以下の説明では、サーバ側コンテンツの音声データを、コンテンツ音声データともいう。また、音声処理装置60により収音された音に応じた音声データであって、インターネット90を介して音声変換サーバ20に送信される音声データを、ユーザ音声データという。すなわち、このユーザ音声データには、ユーザの発話の音声とともに、放送コンテンツ(クライアント側再生コンテンツ)の音声に起因するノイズが含まれている。
ノイズ除去部232によってノイズが除去された音声データは、音声認識部233に供給される。なお、以下の説明では、このノイズが除去された音声データを、ノイズ除去音声データと称する。
音声認識部233は、データベース213を参照して、音声認識処理を行い、ノイズ除去部232から供給されるノイズ除去音声データを、テキストデータに変換し、通信I/F212に供給する。
なお、データベース213には、音声認識処理を行うためのデータベースとして、音声やテキストのコーパスが含まれる。このようなコーパスとしては、例えば、音の波形データを集めた音響モデルや、単語とその並び方の情報を集めた言語モデルなどを含めることができる。音声認識部233では、入力される音声データに対して、音響モデルを用いた音響処理や、言語モデルを用いた言語処理を行うことによって、音声が認識される。このように、音声認識処理には、音響処理や言語処理等の処理が含まれる。
図3の説明に戻り、通信I/F212は、インターネット90を介して、音声処理装置60等の機器から送信されてくる音声データ(ユーザ音声データ)を受信し、音声認識処理部211(のノイズ除去部232)に供給する。また、通信I/F212は、音声認識処理部211(の音声認識部233)から供給されるテキストデータを、機能提供サーバ30に送信する。
また、図3において、機能提供サーバ30は、機能処理部311、通信I/F312、及びデータベース313から構成される。
機能処理部311は、CPUやマイクロプロセッサ等の演算装置として構成される。また、通信I/F312は、通信インターフェース回路等から構成される。データベース313は、ハードディスク(HDD)や半導体メモリ等の大容量の記録装置として構成される。
機能処理部311は、機能ごとに開発されるサーバアプリケーションを実行することで、各種の機能サービスを提供するための処理を行う。例えば、機能処理部311は、放送コンテンツを視聴するユーザとの音声対話を実現するための音声対話機能(以下、TV Show機能ともいう)を有する放送アプリケーションを実行することで、放送コンテンツを視聴するユーザとの音声対話に関する処理を行う。
ただし、ここでは、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとが連携することで、再生対象となる放送コンテンツに関する再生情報が得られる。これにより、機能処理部311は、データベース313に含まれる対話情報のうち、再生情報により絞り込まれた対話情報に基づいて、音声変換サーバ20からのテキストデータに応じたユーザの発話に対する応答をするための対話処理を行うことができる。
ここで、図5には、機能処理部311の詳細な構成例を示している。図5に示すように、機能処理部311は、発話理解部331、対話制御部332、及び発話生成部333を含んで構成される。
発話理解部331は、データベース313を参照して、音声変換サーバ20からのテキストデータを解析して、文脈を踏まえてその話題やユーザの発話の意図を理解する処理(言語理解処理)を行う。
対話制御部332は、発話理解部331による処理結果や、データベース313を参照することで得られる、話題やユーザの発話の意図、過去の対話の履歴などに基づいて、どのような応答を行うべきかを決定する処理(対話制御処理)を行う。
発話生成部333は、対話制御部332による処理結果や、データベース313を参照することで得られる情報に基づいて、ユーザの意図に沿った発話(ユーザの発話に対する応答)を生成する処理(発話生成処理)を行う。
なお、データベース313には、対話機能を実現するための対話情報を得るためのデータベースとして、知識データベースや発話データベースのほか、発話履歴やユーザ情報等のデータベースを含めることができる。
図3の説明に戻り、通信I/F312は、音声変換サーバ20から送信されてくるテキストデータを受信し、機能処理部311に供給する。また、通信I/F312は、インターネット90を介して、受信装置50から送信されてくる再生情報を受信し、機能処理部311に供給する。また、通信I/F312は、機能処理部311から供給される応答(ユーザの発話に対する応答)を、インターネット90を介して、受信装置50や音声処理装置60等の機器に送信する。
(受信装置の構成例)
図6は、図1の受信装置50の構成例を示すブロック図である。
図6において、受信装置50は、処理部511、メモリ512、入力部513、チューナ514、デマルチプレクサ515、音声デコーダ516、音声出力部517、映像デコーダ518、映像出力部519、ブラウザ520、スピーカ521、表示部522、及び通信I/F523から構成される。
処理部511は、例えば、CPUやマイクロプロセッサ等から構成される。処理部511は、各種の演算処理や、各部の動作制御など、受信装置50における中心的な処理装置として動作する。処理部511は、受信装置50内の各部との間で、各種のデータをやりとりすることができる。
メモリ512は、NVRAM(Non-Volatile RAM)等の不揮発性メモリであって、処理部511からの制御に従い、各種のデータを記録する。入力部513は、例えば、物理的なボタン等であり、ユーザの操作に応じた操作信号を、処理部511に供給する。処理部511は、入力部513から供給される操作信号に基づいて、各部の動作を制御する。
チューナ514は、アンテナ531を介して、送信装置10から送信されてくる放送波を受信して必要な処理(例えば、復調処理や誤り訂正復号化処理など)を施し、その結果得られるストリームを、デマルチプレクサ515に供給する。
デマルチプレクサ515は、チューナ514から供給されるストリームを、音声データと、ビデオデータ、放送アプリケーションのデータに分離する。デマルチプレクサ515は、音声データを音声デコーダ516に、映像データを映像デコーダ518に、放送アプリケーションのデータを、ブラウザ520に供給する。
音声デコーダ516は、デマルチプレクサ515から供給される音声データを、所定の復号方式に準拠して復号し、音声出力部517に供給する。音声出力部517は、音声デコーダ516から供給される音声データを、スピーカ521に供給する。これにより、スピーカ521からは、放送コンテンツの音声が出力される。
映像デコーダ518は、デマルチプレクサ515から供給される映像データを、所定の復号方式に準拠して復号し、映像出力部519に供給する。映像出力部519は、映像デコーダ518から供給される映像データを、表示部522に供給する。これにより、LCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)等のディスプレイとして構成される表示部522には、放送コンテンツの映像が表示される。
ブラウザ520は、例えば、HTML5やJavaScript(登録商標)に対応したブラウザである。ブラウザ520は、処理部511からの制御に従い、デマルチプレクサ515から供給される放送アプリケーションのデータを処理し、映像出力部519に供給する。映像出力部519は、ブラウザ520から供給されるデータに応じたアプリケーションが、映像デコーダ518から供給される映像データに応じた映像に重畳して表示されるようにする。
通信I/F523は、通信インターフェース回路等から構成される。通信I/F523は、処理部511からの制御に従い、インターネット90に接続された各サーバ(例えば、図1の機能提供サーバ30)にアクセスして、各種のデータをやり取りする。
(音声処理装置の構成例)
図7は、図1の音声処理装置60の構成例を示すブロック図である。
図7において、音声処理装置60は、音声処理部611、メモリ612、通信I/F613、マイクロフォン614、及びスピーカ615から構成される。
音声処理部611は、例えば、CPUやマイクロプロセッサ等から構成される。音声処理部611は、各種の演算処理や、各部の動作制御など、音声処理装置60における中心的な処理装置として動作する。
メモリ612は、NVRAM等の不揮発性メモリであって、音声処理部611からの制御に従い、各種のデータを記録する。
通信I/F613は、通信インターフェース回路等から構成される。通信I/F613は、音声処理部611からの制御に従い、インターネット90に接続された各サーバ(例えば、図1の音声変換サーバ20や機能提供サーバ30)にアクセスして、各種のデータをやり取りする。
マイクロフォン614は、外部からの音を、電気信号に変換する機器(収音器)である。マイクロフォン614は、変換で得られる音声信号を、音声処理部611に供給する。
音声処理部611は、マイクロフォン614から供給される音声信号を処理し、通信I/F613に供給する。また、音声処理部611は、通信I/F613から供給される音声信号を処理し、スピーカ615に供給する。
スピーカ615は、電気信号を物理振動に変えて音を出す機器である。スピーカ615は、音声処理部611から供給される音声信号に応じた音を出力する。
音声対話システム1は、以上のように構成される。
なお、図1の音声対話システム1においては、説明の都合上、1台の送信装置10と、一組の音声変換サーバ20と機能提供サーバ30とが設けられた場合を図示しているが、送信装置10や機能提供サーバ30は、例えば、放送局等の事業者ごとに、複数台設けるようにしてもよい。
また、図1の音声対話システム1では、ユーザ宅で、1台の受信装置50と、1台の音声処理装置60がそれぞれ設けられた場合を図示しているが、例えば、複数のユーザ宅ごとに、受信装置50と音声処理装置60とを設けることができる。
<2.第1の実施の形態>
ところで、図1の音声対話システム1において、テレビ受像機等として構成される受信装置50では、放送コンテンツとともに、放送アプリケーションを実行することが可能であるが、放送アプリケーションの操作を行う場合に、テレビ受像機等に付属しているリモートコントローラを使用すると、ユーザによっては、操作が難しいと感じるときがある。
そこで、本技術では、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとを連携させて、受信装置50で実行される放送アプリケーションで、音声処理装置60により提供される音声エージェントサービスのユーザインターフェースを利用できるようにすることで、操作の利便性の向上が図られるようにする。
例えば、図8に示すように、テレビ受像機等として構成される受信装置50で再生される放送コンテンツとして、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたいときに、その場で、"Who is the actress ?"と質問すれば、その女優の名前が回答として得られるようにする。
具体的には、受信装置50で実行されている放送アプリケーションが、機能提供サーバ30で実行されているサーバアプリケーションと連携することで、音声処理装置60により提供される音声エージェントサービスのユーザインターフェースが利用可能となる。そのため、ユーザによって発せられた"Who is the actress ?"である質問が、音声処理装置60により受け付けられ、インターネット90を介して、音声変換サーバ20と機能提供サーバ30に送られる。
音声変換サーバ20と機能提供サーバ30では、ユーザからの質問が処理され、当該質問に対する回答が生成される。この回答は、インターネット90を介して、受信装置50に送信され、放送アプリケーションによって、"This actress is xxxx"("xxxx"は、女優の名前)である回答に対応した音声が、スピーカ521から出力される。これにより、ユーザは、ドラマを視聴中に質問を発話するだけで、その場で、そのドラマに出ている女優の名前を知ることができる。
なお、図8の例では、放送アプリケーションが、回答に対応した音声を出力する場合を示しているが、スピーカ521から出力される音声に限らず、受信装置50において、放送アプリケーションによって、回答に対応したテキスト情報や画像情報などが、表示部522の画面に表示されるようにしてもよい。
また、図8の例では、受信装置50に内蔵されたスピーカ521が、回答に対応した音声を出力しているが、音声処理装置60に内蔵されたスピーカ615から、回答に対応した音声を出力するようにしてもよい。この場合には、音声変換サーバ20と機能提供サーバ30で処理された処理データが、インターネット90を介して音声処理装置60に送信されることになる。
ただし、ユーザ宅における、テレビ受像機等の受信装置50の設置位置と、スマートスピーカとしての音声処理装置60の設置位置に対する、放送コンテンツを視聴しているユーザの視聴位置を考慮した場合、通常、ユーザは、音声処理装置60よりも、受信装置50の近くにいる可能性が高いため、回答に対応した音声を出力するのを、受信装置50のスピーカ521としたほうが適している場合が多いことが想定される。
また、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置60を有効化(アクティベーション)するために、あらかじめ定められたキーワード(以下、アクティベーションキーワードという)を用いるのが、一般的である。ここでは、音声対話機能(TV Show機能)を利用するためのアクティベーションキーワードとして、"Service A"が設定されているため、ユーザからの、"Service A, ask TV Show Who is the actress ?"である質問に、"Service A"というアクティベーションキーワードと、TV Show機能への対話であることを特定する"ask TV Show"が含まれている。
(音声対話処理)
次に、図9及び図10のフローチャートを参照して、図1の音声対話システム1により実行される音声対話処理の流れを説明する。
ただし、図9及び図10において、ステップS101乃至S102の処理は、放送局又は送信所の施設内に設置される送信装置10により実行され、ステップS111乃至S114の処理と、ステップS121乃至S122の処理は、データセンタ内に設置される機能提供サーバ30と、音声変換サーバ20によりそれぞれ実行される。
また、図9及び図10において、ステップS131乃至S132の処理と、ステップS141乃至S143の処理は、ユーザ宅内に設置される音声処理装置60と、受信装置50によりそれぞれ実行される。
ステップS101において、コンテンツ生成部111は、放送コンテンツを生成する。また、ステップS101において、アプリケーション生成部113は、放送アプリケーションを生成する。
ステップS101の処理で生成された放送コンテンツ及び放送アプリケーションは、エンコードや誤り訂正符号化処理、変調処理等の所定の処理が施された後に、送信所に設置されたアンテナから、放送波(放送信号)として送信される(S102)。
送信所から送信された放送波(放送信号)は、受信装置50に接続されたアンテナ531により受信され、ステップS141乃至S142の処理が実行される。
受信装置50においては、チューナ514、音声デコーダ516や映像デコーダ518等によって、アンテナ531により受信された放送波に対し、復調処理や誤り訂正復号処理、デコード等の所定の処理が施されることで、放送コンテンツが再生される(S141)。ここでは、例えば、ユーザの選局操作に応じて、ドラマ等のテレビ番組が再生される。
また、受信装置50においては、ブラウザ520によって、放送波から得られる放送アプリケーションが起動される(S142)。この放送アプリケーションは、放送コンテンツに連携して動作するものである。一方で、機能提供サーバ30においては、機能処理部311によって、サーバアプリケーションが起動されている(S111)。
ここでは、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとが、インターネット90を介して連携され、放送アプリケーションで、音声処理装置60により提供される音声エージェントサービスのユーザインターフェースを利用することが可能となっている。なお、放送アプリケーションとサーバアプリケーションとの連携処理の詳細な内容は、図11のフローチャートを参照して後述する。
その後、受信装置50で再生している放送コンテンツを視聴中のユーザによって発話がなされた場合には、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置60の音声処理部611によって、当該ユーザの発話が受け付けられる(S131)。
例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問(例えば「Who is the actress ?」である質問)がマイクロフォン614によって収音され、電気信号に変換され、音声処理部611に供給されることで、ユーザの質問が受け付けられる。
なお、上述したように、実際には、ユーザは、質問をするに際して、"TV Show"等のアクティベーションキーワードを発する必要があるが、ここでは、説明の簡略化のため、その説明は省略する。アクティベーションキーワードの詳細については、後述する。
このようにして受け付けられたユーザの発話の音声データは、音声処理装置60の通信I/F613によって、インターネット90を介して、音声変換サーバ20に送信される(S132)。
音声処理装置60から送信される音声データは、インターネット90を介して音声変換サーバ20により受信され、ステップS121乃至S122の処理が実行される。
ステップS121において、音声認識処理部211は、データベース213を参照して、音声認識処理を行い、音声処理装置60からの音声データを、テキストデータに変換する。ステップS121の処理で変換されたテキストデータは、機能提供サーバ30に送信される(S122)。音声変換サーバ20からのテキストデータは、機能提供サーバ30により受信され、ステップS112乃至S114の処理が実行される。
ステップS112において、機能処理部311は、再生情報を取得する。ここでは、放送アプリケーションとサーバアプリケーションとが連携済みであるため、サーバアプリケーションによって、放送アプリケーションからの再生情報を取得することができる。例えば、この再生情報としては、放送コンテンツの識別子や再生時間位置、音声又は字幕の言語など、ユーザが視聴中の放送コンテンツに関する情報が含まれる。
ステップS113において、機能処理部311は、データベース313に含まれる対話情報のうち、ステップS112の処理で取得された再生情報により絞り込まれた対話情報に基づいて、音声変換サーバ20からのテキストデータに応じた応答(ユーザの発話に対する応答)をするための対話処理を行う。
例えば、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたくて、「Who is the actress ?」である質問をしたとき、その質問の音声が、音声処理装置60により受け付けられ、インターネット90を介して、音声変換サーバ20に送信される。音声変換サーバ20では、「Who is the actress ?」である音声データが、テキストデータに変換され、機能提供サーバ30に送信される。
一方で、機能提供サーバ30では、再生情報として、ユーザにより視聴されているドラマの識別子や再生時間位置、音声又は字幕の言語を示す情報が取得される。そして、機能提供サーバ30(の機能処理部311)は、データベース313に蓄積されている膨大なデータベースを、再生情報により絞り込むことで、音声対話機能を実現するための対話情報の範囲を、ユーザが視聴しているドラマのある時間帯に限定することができる。
なお、ここで行われる対話処理としては、様々な手段を用いることができるが、例えば、次のような手段を用いることができる。
すなわち、機能処理部311においては、まず、発話理解部331によって、音声変換サーバ20からのテキストデータが解析され、文脈を踏まえてその話題やユーザの発話の意図が理解される。次に、対話制御部332によって、発話理解部331により理解された話題やユーザの発話の意図、過去の対話の履歴などに基づき、どのような応答を行うべきかが決定される。最後に、発話生成部333によって、対話制御部332による決定結果に基づき、ユーザの意図に沿った発話(ユーザの発話に対する応答)が生成される。
その際に、発話理解部331乃至発話生成部333は、データベース313を参照して、処理を行うが、データベース313に含まれる対話情報が、再生情報により絞り込まれているため、限定された対話情報に基づき、対話処理を行うことが可能となる。
ここで、データベース313には、音声対話機能を実現するための対話情報を得るためのデータベースとして、知識データベースや発話データベースのほか、発話履歴やユーザ情報等のデータベースを含めることができる。なお、ここに例示した対話処理は、一例であって、公知の対話処理の技術を用いるようにしてもよい。
このようにして得られる応答(ユーザの発話に対する応答)は、機能提供サーバ30の通信I/F312によって、インターネット90を介して、受信装置50に送信される(S114)。
機能提供サーバ30から送信された応答は、インターネット90を介して受信装置50により受信され、ステップS143の処理が実行される。すなわち、受信装置50(で実行される放送アプリケーション)は、機能提供サーバ30からの応答(ユーザの発話に対する応答)に応じた音声を、スピーカ521から出力する(S143)。
例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問(例えば「Who is the actress ?」である質問)に対する応答として、"This actress is xxxx"("xxxx"は、女優の名前)である回答に対応した音声が出力される。これにより、ドラマを視聴中のユーザは、そのドラマに出ている女優の名前を知ることができる。
なお、上述したように、受信装置50では、表示部522の画面に、機能提供サーバ30からの応答に応じた情報が表示されるようにしてもよい。また、機能提供サーバ30からの応答に応じた音声は、音声処理装置60のスピーカ615から出力されるようにしてもよい。
また、上述した説明では、図10のステップS112の処理で、サーバアプリケーションと連携している放送アプリケーションが、放送コンテンツの識別子等の再生情報を通知するとして説明したが、再生情報は、受信装置50のレジデントアプリケーションが通知してもよいし、あるいは、放送アプリケーションが受信装置50により提供されるAPI(Application Programming Interface)を利用して通知するようにしてもよい。要は、サーバアプリケーションが、再生情報を取得できればよいのであって、その通知手段は、任意である。なお、レジデントアプリケーションは、受信装置50にあらかじめ組み込まれたアプリケーションである。
以上、音声対話処理の流れについて説明した。
(アプリケーション連携処理)
次に、図11のフローチャートを参照して、図9のステップS111,S142の処理に対応するアプリケーション連携処理について説明する。
ただし、図11において、ステップS161乃至S165の処理は、データセンタ内に設置される機能提供サーバ30により実行される。また、ステップS171乃至S176の処理は、ユーザ宅内に設置される受信装置50又は音声処理装置60により実行される。
機能提供サーバ30においては、機能処理部311によって、音声エージェントサービスを利用するサーバアプリケーションとして、TV Show機能を有するサーバアプリケーションが登録される(S161)と、当該サーバアプリケーションが起動される(S162)。
一方で、受信装置50においては、放送コンテンツが再生され(S171)、さらに、放送アプリケーションが起動されている(S172)。
このように、サーバ側の機能提供サーバ30で、サーバアプリケーションが起動し、クライアント側の受信装置50で、放送アプリケーションが起動している状況で、サーバアプリケーションが、PIN(Personal Identification Number)コードを生成し、インターネット90を介して放送アプリケーションに送信する(S163)。このPINコード(のテキストデータ)は、受信装置50により受信される。
受信装置50においては、放送アプリケーションによって、サーバアプリケーションからのPINコードが、表示部522に表示される(S173)。このようにして、受信装置50の画面に表示されたPINコードを確認したユーザは、PINコードを読み上げる。
ただし、ここでは、例えば、"Service A ask TV Show to activate PIN ****"(****:表示されたPINコード)のように、所定のキーワード(コマンドワード)とともに、PINコードを読み上げることで、音声エージェントサービス側で、ユーザにより読み上げられたPINコードを認識することが可能となる。
音声処理装置60では、音声処理部611によって、ユーザにより読み上げられるPINコードが認識できたかどうかが判定される(S174)。ステップS174において、PINコードが認識できていないと判定された場合、ステップS174の判定処理が繰り返される。音声処理装置60において、PINコードを認識できない場合には、ユーザによって、PINコードが再度読み上げられる。
そして、ステップS174において、PINコードが認識できたと判定された場合、処理は、ステップS175に進められる。ステップS175において、音声処理装置60の通信I/F613は、ユーザにより読み上げられたPINコードの音声データを、インターネット90を介して送信する。
なお、説明の簡略化のため、記載を省略しているが、音声処理装置60からのPINコードの音声データは、音声変換サーバ20に送信されることで、音声データからテキストデータに変換される。このようにして得られるPINコードのテキストデータが、機能提供サーバ30により受信される。
機能提供サーバ30においては、機能処理部311によって、放送アプリケーションに対して送信したPINコード(のテキストデータ)と、音声処理装置60から送信されたPINコード(のテキストデータ)とを比較して照合することで、音声処理装置60からのPINコードが正当であるかどうかを判定する(S164)。
ステップS165において、音声処理装置60からのPINコードが正当であると判定された場合、処理は、ステップS165(S176)に進められる。ステップS165(S176)においては、クライアント側の受信装置50で起動されている放送アプリケーションと、サーバ側の機能提供サーバ30で起動されているサーバアプリケーションとの連携が開始される。
このように、不特定のユーザに対して配信される放送アプリケーションと、当該放送アプリケーションを利用する特定のユーザの属性とが関連付けられる。すなわち、サーバアプリケーションが、放送アプリケーションを実行する受信装置50に、既知の識別情報(PINコード)を通知し、通知された識別情報(PINコード)を確認した特定のユーザによる発話を、音声ユーザエージェントサービスを利用して受け付けることで、当該特定のユーザの属性の関連付けが行われる。
このようにしてアプリケーションの連携が開始されると、上述した図9のステップS111,S142の処理以降の処理を実行することが可能となる。
なお、ステップS164において、音声処理装置60からのPINコードが正当ではないと判定された場合、ステップS165(S176)の処理はスキップされ、放送アプリケーションは、サーバアプリケーションとは非連携とされる。
以上、アプリケーション連携処理の流れについて説明した。
なお、図11の説明では、機能提供サーバ30からのPINコードを、テレビ受像機等の受信装置50に表示して、ユーザにより読み上げさせ、そのPINコードの音声データが、音声処理装置60から送られるようにする処理シーケンスを例示したが、PINコードの通知手段としては、他の通知手段を用いるようにしてもよい。
例えば、上述した図11に示した処理の流れとは逆に、機能提供サーバ30からのPINコードの音声データ(又はテキストデータ)が、インターネット90を介して音声処理装置60に送られるようにして、音声処理装置60によって、PINコードに応じた音声が出力されるようにする。そして、その音声に応じたPINコードを、ユーザが、受信装置50で実行される放送アプリケーションに対して入力するようにしてもよい。この放送アプリケーションに入力されたPINコードは、インターネット90を介して、サーバアプリケーションにより受信され、PINコードの照合処理(S164)に用いられる。
また、アプリケーション連携処理の際の処理シーケンスとしては、様々な処理シーケンスを用いることができる。例えば、機能提供サーバ30からのPINコードが、ユーザの所持するスマートフォン等の携帯端末装置に表示されるようにしたり、あるいは、PINコードをユーザが読み上げるのではなく、スマートフォン等の携帯端末装置から入力して、テキストデータとして送られるようにしたりしてもよい。
なお、図11に示したようなアプリケーション連携処理は、受信装置50において放送アプリケーションが起動される度に行う必要はなく、例えば、次の処理を行うことで、図11に示した処理を経ずにアプリケーションの連携を実現することができる。すなわち、図11のステップS164の処理で、PINコードが正当であるとの確認が行われた際に、機能提供サーバ30は、トークン情報を、ブラウザのCookieの仕組み等を利用して記録させておくことで、次回以降に、同一の放送アプリケーションが、機能提供サーバ30と通信を行った場合には、記録しておいたトークン情報を利用することで、図11に示した処理を経ずにアプリケーションの連携が実現される。
以上、第1の実施の形態について説明した。この第1の実施の形態では、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとが、インターネット90を介して連携され、受信装置50で実行される放送アプリケーションで、音声処理装置60により提供される音声エージェントサービスのユーザインターフェースが利用可能とされる。
そして、機能提供サーバ30では、放送コンテンツを視聴するユーザとの対話処理を行う際に、サーバアプリケーションと連携している放送アプリケーションから得られる再生情報を用いて、データベース313に蓄積されている膨大なデータベースを絞り込んでから、再生情報により絞り込まれた対話情報に基づき、対話処理が行われる。
例えば、機能提供サーバ30において、データベース313に、知識データベースとして各放送局の全チャネル分のテレビ番組に関するデータが蓄積されているとき、単に、女優の名前だけで問い合わせを受けても、どのテレビ番組のどの時間帯に出演している女優なのかを特定することができず、適切な応答を行うことができない。
一方で、受信装置50で実行される放送アプリケーションからの再生情報で、知識データベースのデータを絞り込んで、再生情報により絞り込まれた対話情報に基づき、対話処理を行うことができれば、どのテレビ番組のどの時間帯に出演している女優なのかを特定することができるため、単に、女優の名前だけで問い合わせを受けても、適切な応答を行うことができる。
このように、本技術によれば、コンテンツの再生時に、放送アプリケーションとサーバアプリケーションとが連携して、音声エージェントサービスのユーザインターフェースが利用可能となるため、音声対話を利用して、操作の利便性の向上を図ることができる。また、機能提供サーバ30では、対話処理を行う際に、再生情報が用いられるため、放送コンテンツを視聴するユーザとの間で、適切な音声対話を行うことが可能となる。
<3.第2の実施の形態>
上述したように、図1の音声対話システム1においては、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置60によって、ユーザの発話が受け付けられるが、音声処理装置60のマイクロフォン614により収音される音声には、ユーザの発話の音声だけでなく、受信装置50で再生される放送コンテンツの音声に起因するノイズが含まれることが想定される。
すなわち、図1の音声対話システム1では、受信装置50で再生される放送コンテンツを視聴しているユーザが、当該放送コンテンツに関する内容を質問するなどの音声対話を行うことになるが、その音声対話の際には、受信装置50から、再生中の放送コンテンツの音声が出力されている。そのため、音声処理装置60のマイクロフォン614により収音される音声には、放送コンテンツの音声に起因するノイズが含まれてしまう。
このようなノイズが含まれると、音声処理装置60からの音声データを処理する音声変換サーバ20や機能提供サーバ30では、ユーザが発話した音声ではなく、放送コンテンツの音声を誤認識してしまい、対話処理が誤動作する恐れがある。特に、受信装置50で再生される放送コンテンツの音声は、人が発話する音声であることが多いため、誤認識の可能性がさらに高まってしまう。
そこで、本技術では、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとを連携させて、サーバ側で、音声処理装置60からの音声データ(ユーザ音声データ)から、受信装置50で再生される放送コンテンツの音声に起因するノイズを取り除いて、ユーザが発話した音声についてのみ対話処理に用いられるようにする。
ここで、図12には、音声対話システム1において、テレビ受像機等として構成される受信装置50で再生される放送コンテンツとして、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたいときに、その場で、"Who is the actress ?"と質問した場合における音声信号の波形を示している。
すなわち、ユーザによって、"Who is the actress ?"である質問がなされた場合、音声処理装置60のマイクロフォン614により収音される音声には、ユーザが発した質問の音声だけでなく、受信装置50のスピーカ521から出力されるドラマの音声も含まれるため、マイクロフォン614によって収音された音声の音声波形WF3は、ユーザの質問の音声波形WF1と、ドラマの音声の音声波形WF2とを足し合わせたものとなる。
このような音声波形WF3を有する音声データが、音声処理装置60から音声変換サーバ20に、インターネット90を介して送られる。そして、音声変換サーバ20では、音声認識処理が行われるが、音声処理装置60からの音声データ(に応じた音声の音声波形WF3)には、ドラマの音声(の音声波形WF2)がノイズとして含まれるため、このノイズを取り除いてから音声認識処理が行われるようにする。
ここで、図12の音声対話システム1においては、サーバ側に設けられた受信装置80(例えばテレビ受像機)によって、受信装置50と同一の放送コンテンツ(ドラマ)が再生されるようにして、そのドラマの音声(の音声波形WF4)の音声データが、音声変換サーバ20により取得されるようにする。すなわち、サーバ側の受信装置80で再生される放送コンテンツ(サーバ側再生コンテンツ)の音声の音声波形WF4は、クライアント側の受信装置50で再生される放送コンテンツ(クライアント側再生コンテンツ)の音声の音声波形WF2と略同一形状とされる。
ただし、ここでは、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとが連携することで、再生対象となる放送コンテンツに関する再生情報(例えばチャネル番号)が得られるようにする。これにより、サーバ側の受信装置80では、チャネル番号等の再生情報に基づき、所定のチャネルを選局して、クライアント側の受信装置50と同一の放送コンテンツ(ドラマ)を再生することができる。
そして、音声変換サーバ20では、受信装置80で再生される放送コンテンツの音声(の音声波形WF4)を用いて、音声処理装置60からの音声データ(に応じた音声の音声波形WF3)を処理することで、音声処理装置60からの音声データに含まれる、放送コンテンツの音声に起因するノイズが取り除かれるようにする。
このようなノイズ除去処理が行われることで、音声変換サーバ20では、放送コンテンツ(クライアント側再生コンテンツ)の音声に起因するノイズが取り除かれた音声データ(に応じた音声の音声波形WF5)が得られる。
すなわち、音声変換サーバ20では、音声処理装置60からの音声データ(に応じた音声の音声波形WF3)が、ユーザの発話の音声データ(に応じた音声の音声波形WF5)と、放送コンテンツの音声(に応じた音声の音声波形WF4)とに分離されたことになる。ここで、ノイズ除去処理で得られる音声データ(ノイズ除去音声データ)に応じた音声の音声波形WF5は、受信装置50で再生される放送コンテンツを視聴しているユーザによる質問の音声波形WF1と略同一形状とされる。
そして、音声変換サーバ20は、ノイズ除去音声データを、テキストデータに変換し、機能提供サーバ30に送信する。ここで、音声変換サーバ20で行われる処理をまとめると、図13に示すようになる。
すなわち、図13に示すように、音声変換サーバ20において、ノイズ除去部232には、クライアント側の音声処理装置60からの音声データ(ユーザ音声データ)と、サーバ側の受信装置80により再生された放送コンテンツの音声データ(コンテンツ音声データ)とが入力される。ただし、ユーザ音声データは、図12に示した音声波形WF3からなる。また、コンテンツ音声データは、図12に示した音声波形WF4からなる。
ノイズ除去部232は、コンテンツ音声データ(に応じた音声の音声波形WF4)を用いて、ユーザ音声データ(に応じた音声の音声波形WF3)に対するノイズ除去処理を行うことで、ユーザの発話の音声データ(に応じた音声の音声波形WF5)と、放送コンテンツの音声データ(に応じた音声の音声波形WF4)とに分離されるようにする。
これにより、ノイズ除去音声データとして、放送コンテンツの音声に起因するノイズが除去されたユーザの発話の音声データ(に応じた音声の音声波形WF5)が得られる。そして、音声認識部233では、データベース213に蓄積された情報を用いた音声認識処理が行われ、ノイズ除去部232からのノイズ除去音声データが、テキストデータに変換されることになる。
図12の説明に戻り、機能提供サーバ30は、音声変換サーバ20からのテキストデータに対する処理(例えば音声対話処理)を行い、その結果得られる処理データを、インターネット90を介して、受信装置50に送信する。クライアント側の受信装置50は、インターネット90を介して機能提供サーバ30から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。
ここでは、例えば、TV Show機能を有するサーバアプリケーションによって、音声対話処理が行われ、ユーザによって発せられた"Who is the actress ?"である質問に対する回答として、"This actress is xxxx"("xxxx"は、女優の名前)である回答が得られ、その回答に対応した音声が、クライアント側の受信装置50のスピーカ521から出力される。
これにより、ユーザは、ドラマを視聴中に質問を発話するだけで、その場で、そのドラマに出ている女優の名前を知ることができる。また、サーバ側の音声変換サーバ20では、ユーザの発話に対する音声認識処理を行う際に、ドラマの再生時に流れている音声を取り除いて、ユーザが発した音声に対してのみ音声認識処理が行われるようにしているため、音声認識の精度、ひいては音声対話の精度を向上させることができる。そのため、ユーザが発した音声にのみ、音声対話システム1が反応し、ユーザの質問に対する回答が確実に得られることになる。
(コンテンツ音声起因のノイズを除去した音声対話処理)
次に、図14乃至図16のフローチャートを参照して、図12の音声対話システム1により実行される、コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明する。
ただし、図14乃至図16において、ステップS201乃至S202の処理は、放送局又は送信所の施設内に設置される送信装置10により実行され、ステップS211乃至212の処理は、データセンタ内に設置されるサーバ側の受信装置80により実行される。なお、サーバ側の受信装置80は、クライアント側の受信装置50と同様に構成され、例えば、図6に示した構成を有している。
また、図14乃至図16において、ステップS221乃至S226の処理と、ステップS231乃至S234の処理は、データセンタ内に設置される機能提供サーバ30と、音声変換サーバ20によりそれぞれ実行される。また、ステップS241乃至S242の処理と、ステップS251乃至S253の処理は、ユーザ宅内に設置される音声処理装置60と、クライアント側の受信装置50によりそれぞれ実行される。
ステップS201乃至S202においては、図9のステップS101乃至S102と同様に、送信装置10によって、放送コンテンツと放送アプリケーションが生成され、放送波として送信される。
ステップS251乃至S252においては、図9のステップS141乃至S142と同様に、受信装置50によって、ユーザの選局操作に応じた放送コンテンツが再生され、当該放送コンテンツに連動した放送アプリケーションが起動される。一方で、ステップS221においては、図9のステップS111と同様に、機能提供サーバ30によって、サーバアプリケーションが起動される。
ここでは、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとが、インターネット90を介して連携され、放送アプリケーションで、音声処理装置60により提供される音声エージェントサービスのユーザインターフェースを利用することが可能となっている。なお、放送アプリケーションとサーバアプリケーションとの連携処理の詳細な内容は、上述した図11のフローチャートを参照して説明したため、ここでは、その説明は省略する。
ステップS222において、機能処理部311は、再生情報を取得する。ここでは、放送アプリケーションとサーバアプリケーションとが連携済みであるため、サーバアプリケーションによって、放送アプリケーションからの再生情報を取得することができる。例えば、この再生情報としては、ユーザが視聴中の放送コンテンツのチャネル番号(放送サービスを識別するチャネル番号)が含まれる。
このようにして得られる再生情報は、機能提供サーバ30の通信I/F312によって、サーバ側の受信装置80に送信される(S223)。そして、機能提供サーバ30から送信される再生情報は、サーバ側の受信装置80により受信され、ステップS211乃至S212の処理が実行される。
すなわち、サーバ側の受信装置80においては、機能提供サーバ30からの再生情報に基づき、選局処理が行われ(S211)、当該選局処理に応じた放送波が受信されて処理され、放送コンテンツが再生される(S212)。
ここでは、機能提供サーバ30からの再生情報として、クライアント側の受信装置50で再生されている放送コンテンツ(クライアント側再生コンテンツ)のチャネル番号が得られるため、サーバ側の受信装置80では、このチャネル番号を用いた選局処理を行うことで、クライアント側の受信装置50と同一の放送コンテンツ(サーバ側再生コンテンツ)を再生することができる。なお、ここでは、再生情報として、放送コンテンツの再生時間位置などの、その時点でユーザが視聴しているシーンを特定するための情報を含めることで、サーバ側再生コンテンツを、クライアント側再生コンテンツと、より正確に同期させることができる。
サーバ側の受信装置80にて再生された放送コンテンツの音声は、音声変換サーバ20のマイクロフォン214等によって収音される。そして、音声変換サーバ20では、音声データ取得部231によって、放送コンテンツの音声データが取得される(S231)。なお、この放送コンテンツの音声データに応じた音声の音声波形は、図12の音声波形WF4に相当している。
その後、クライアント側の受信装置50で再生している放送コンテンツを視聴中のユーザによって発話がなされた場合には、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置60によって、ステップS241乃至S242の処理が実行される。
ステップS241乃至S242においては、図9のステップS131乃至S132と同様に、音声処理装置60によって、ユーザの発話が受け付けられ、その音声データが、インターネット90を介して、音声変換サーバ20に送信される。なお、この送信される音声データに応じた音声の音声波形は、図12の音声波形WF3に相当している。
音声処理装置60から送信される音声データは、インターネット90を介して音声変換サーバ20により受信され、ステップS232乃至S234の処理が実行される。
ステップS232において、ノイズ除去部232は、サーバ側の受信装置80にて再生された放送コンテンツの音声データ(コンテンツ音声データ)を用いて、クライアント側の音声処理装置60からの音声データ(ユーザ音声データ)に対するノイズ除去処理を行う。ここで、コンテンツ音声データは、サーバ側再生コンテンツの音声データである。また、ユーザ音声データには、ユーザの発話とともに、クライアント側再生コンテンツの音声に起因するノイズを含む音声データである。
すなわち、ここでは、ノイズ除去部232によって、ステップS231の処理で得られる放送コンテンツの音声データ(コンテンツ音声データ)に応じた音声(図12の音声波形WF4)を用いて、音声処理装置60からの音声データ(ユーザ音声データ)に応じた音声(図12の音声波形WF3)が処理されることで、ユーザの発話の音声波形音声データ(図12の音声波形WF5)と、放送コンテンツの音声波形データ(図12の音声波形WF4)とに分離されるようにする。
なお、サーバ側再生コンテンツの音声の音声波形WF4(図12)が、クライアント側再生コンテンツの音声の音声波形WF2(図12)と略同一形状とされるため、サーバ側で得られるユーザの発話の音声波形WF5(図12)が、クライアント側でのユーザの発話の音声波形WF1(図12)と略同一形状とされるのは、先に述べた通りである。
また、ステップS232の処理で行われる音声分離処理としては、公知の音声分離の技術を用いることができるが、例えば、下記の非特許文献2に開示されているセミブラインド音声分離処理によって、ユーザの発話の音声と放送コンテンツの音声とを分離することができる。
非特許文献2:「独立成分分析を応用したロボット聴覚による残響下におけるバージイン発話認識」 武田龍,中臺一博,高橋徹,駒谷和範,尾形哲也,奥乃博,京都大学大学院情報学研究科,株式会社 ホンダ・リサーチ・インスティチュート・ジャパン
すなわち、非特許文献2には、セミブラインド音声分離処理として、人とロボットが対話する場合に、ロボットの発話に応じた音声Sr(ω, f)と、ユーザの発話に応じた音声Su(ω, f)とが混合してマイクロフォンにより収音されたとき、ロボットの発話に応じた音声Sr(ω, f)が、あらかじめ認識可能であることを利用して、ユーザの発話に応じた音声Su(ω, f)を分離する方式が開示されている。
そして、ステップS232の処理で行われる音声分離処理においても、非特許文献2におけるSr(ω, f)を、放送コンテンツの音声とみなせば、この方式を用いることで、ユーザの発話の音声Su(ω, f)を分離することが可能となる。
このようにして、ユーザ音声データに含まれる、放送コンテンツの音声に起因するノイズが取り除かれ、音声変換サーバ20では、放送コンテンツの音声に起因するノイズが取り除かれた音声データ(ノイズ除去音声データ)が得られる。なお、このノイズ除去音声データに応じた音声の音声波形は、図12の音声波形WF5に相当している。
ステップS233において、音声認識部233は、データベース213を参照して、音声認識処理を行い、ステップS232でノイズ除去処理が施された音声データを、テキストデータに変換する。なお、ここでの音声認識処理としては、例えば音響モデルや言語モデルを用いた音声認識処理など、公知の音声認識の技術を用いることができる。
ステップS233の処理で変換されたテキストデータは、機能提供サーバ30に送信される(S234)。音声変換サーバ20からのテキストデータは、機能提供サーバ30により受信され、ステップS224乃至S226の処理が実行される。
ステップS224乃至S226においては、図10のステップS112乃至S114と同様に、機能処理部311によって、データベースに含まれる対話情報のうち、ステップS224の処理で取得された再生情報(例えば放送コンテンツの識別子や再生時間位置、音声又は字幕の言語など)により絞り込まれた対話情報に基づいて、音声変換サーバ20からのテキストデータに応じた応答(ユーザ発話に対する応答)をするための対話処理が行われる。
機能提供サーバ30から送信された応答は、インターネット90を介してクライアント側の受信装置50により受信され、ステップS253の処理が実行される。すなわち、クライアント側の受信装置50で実行される放送アプリケーションは、機能提供サーバ30からの応答(ユーザの発話に対する応答)に応じた音声を、スピーカ521から出力する(S253)。
ここでは、例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問(例えば「Who is the actress ?」である質問)に対する応答として、"This actress is xxxx"("xxxx"は、女優の名前)である回答に対応した音声が出力される。これにより、ドラマを視聴中のユーザは、そのドラマに出ている女優の名前を知ることができる。
以上、コンテンツ音声起因のノイズを除去した音声対話処理の流れについて説明した。
なお、上述した説明では、図14のステップS222の処理で、サーバアプリケーションと連携している放送アプリケーションが、チャネル番号等の再生情報を通知するとして説明したが、再生情報は、受信装置50のレジデントアプリケーションが通知してもよいし、あるいは、放送アプリケーションが受信装置50により提供されるAPIを利用して通知するようにしてもよい。
また、上述した説明では、図15のステップS233の音声認識処理の段階(前段)で、図15のステップS232のノイズ除去処理が行われ、それにより得られるノイズ除去音声データを用いた音声認識処理が行われるとして説明したが、ノイズ除去処理が行われるタイミングは、音声認識処理の段階に限らず、例えば、音響処理、言語理解処理、又は対話制御処理などのいずれかの処理の段階において行われるようにしてもよい。
以上、第2の実施の形態について説明した。この第2の実施の形態では、クライアント側の受信装置50で実行される放送アプリケーションと、サーバ側の機能提供サーバ30で実行されるサーバアプリケーションとを連携させて、サーバ側の音声変換サーバ20で、音声処理装置60からの音声データから、受信装置50で再生される放送コンテンツの音声に起因するノイズを取り除いて、ユーザが発話した音声についてのみ対話処理に用いられるようにしている。
すなわち、図12の音声対話システム1においては、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置60によって、ユーザの発話が受け付けられるが、音声処理装置60のマイクロフォン614により収音される音声には、ユーザの発話の音声だけでなく、受信装置50で再生される放送コンテンツの音声に起因するノイズが含まれることが想定される。本技術では、ユーザが発した音声に対してのみ音声認識処理等の処理が行われるようにしているため、音声認識の精度、ひいては音声対話の精度を向上させることができる。
これによって、ユーザが発した音声にのみ、音声対話システム1が反応し、ユーザの質問に対する回答が確実に得られることになる。一方で、放送コンテンツの音声によって、音声対話システム1が誤って反応することを防止することができる。また、指向性マイクロフォン等によってノイズを分離する手段が知られているが、テレビ受像機とユーザとの位置関係によっては、ノイズを分離するのが困難な場合がある。一方で、図12の音声対話システム1では、テレビ受像機(受信装置50)とユーザとの位置関係に関係なく、確実にノイズを除去できるため、音声認識の精度を向上させることが可能となる。
なお、音声変換サーバ20において、放送コンテンツの音声を分析した音声分析情報を、あらかじめ取得することができるのであれば、この音声分析情報を、受信装置80で再生される放送コンテンツの音声データの代わりに用いるようにしてもよい。
<4.変形例>
(受信装置の他の構成)
上述した説明では、クライアント側の受信装置50と音声処理装置60とは、別々の機器として構成されるとして説明したが、受信装置50と音声処理装置60とが一体化された機器(同梱型デバイス)として構成されるようにしてもよい。例えば、音声処理装置60を音声処理モジュールとして提供し、受信装置50の機能に含めることで、同梱型デバイスとして構成することができる。
また、上述した説明では、クライアント側の受信装置50は、テレビ受像機等の固定受信機、又はスマートフォン等のモバイル受信機であるとして説明したが、受信装置50は、ヘッドマウントディスプレイ(HMD:Head Mounted Display)などのウェアラブルコンピュータであってもよい。さらに、受信装置50は、例えば車載テレビなどの自動車に搭載される機器であってもよい。すなわち、クライアント側の受信装置50は、コンテンツの再生や録画が可能な機器であれば、いずれの機器であってもよい。
(サーバの他の構成)
上述した説明では、音声変換サーバ20と機能提供サーバ30は、異なるサーバとして構成されるとして説明したが、それらのサーバが一体となって、双方のサーバの機能を有するようにしてもよい。
また、上述した説明では、音声変換サーバ20によって、音声認識サービスが提供されるとして説明したが、その音声認識機能が、音声処理装置60側で実行されるようにしてもよい。
すなわち、音声処理装置60は、ユーザの発話に応じた音声データを、テキストデータに変換し、その結果得られるテキストデータを、インターネット90を介して、機能提供サーバ30に送信することができる。また、その変換の際に用いられるデータベース213は、インターネット90上のサーバが提供してもよいし、あるいは音声処理装置60が保持するようにしてもよい。
(放送方式の例)
上述した説明では、放送コンテンツの放送方式として、米国等で採用されている方式であるATSC(特に、ATSC3.0)を説明したが、本技術は、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などの方式に適用するようにしてもよい。
また、上述した説明では、UDP/IPパケットを利用するIP伝送方式が採用されるATSC3.0を例にして説明したが、本技術は、IP伝送方式に限らず、例えば、MPEG2-TS(Transport Stream)方式等の他の方式に適用するようにしてもよい。
さらに、放送コンテンツを伝送するための伝送路としては、地上波放送を説明したが、本技術は、地上波放送のほか、放送衛星(BS:Broadcasting Satellite)や通信衛星(CS:Communications Satellite)等を利用した衛星放送や、ケーブルテレビ(CATV)等の有線放送などの放送伝送路は勿論、IPTV(Internet Protocol TV)網やインターネットなどの通信伝送路を用いることができる。
なお、図1又は図12の音声対話システム1においては、放送局の送信装置10(図2)が単独で、ストリームの多重化処理を行うマルチプレクサ115と、変調処理等を行う送信部116を有する構成を例示したが、一般的なデジタル放送のシステムでは、マルチプレクサ115と送信部116とは、異なる場所に設置されるものである。例えば、マルチプレクサ115は、放送局内に設置される一方で、送信部116は、送信所に設置される。
(アプリケーションの例)
放送アプリケーションは、HTML5等のマークアップ言語や、JavaScript(登録商標)等のスクリプト言語で開発されたアプリケーションに限らず、例えば、Java(登録商標)等のプログラミング言語で開発されたアプリケーションであってもよい。また、放送アプリケーションは、表示されるものに限らず、バックグラウンドで、非表示で実行されるものであってもよい。
また、受信装置50で実行されるアプリケーションは、ブラウザにより実行されるアプリケーションに限らず、いわゆるネイティブアプリケーションとして、OS(Operating System)環境(提示制御環境)などで実行されるようにしてもよい。さらに、受信装置50で実行されるアプリケーションは、放送経由で取得されるものに限らず、インターネット90上のサーバから、通信経由で取得されるようにしてもよい。
また、受信装置50で再生されるコンテンツは、放送経由で配信される放送コンテンツに限らず、通信経由で配信される通信コンテンツであってもよい。この通信コンテンツには、例えば、VOD(Video On Demand)ストリーミング配信されるコンテンツや、ダウンロード可能なコンテンツなどが含まれる。図12の音声対話システム1において、クライアント側の受信装置50で、インターネット90を介してストリーミング配信される通信コンテンツが受信されて再生される場合には、同一の通信コンテンツが、サーバ側の受信装置80においても再生されるようにすればよい。
なお、音声変換サーバ20において、通信コンテンツの音声を分析した音声分析情報を、あらかじめ取得することができるのであれば、この音声分析情報を、通信コンテンツの音声データの代わりに用いるようにしてもよい。また、放送コンテンツと通信コンテンツには、テレビ番組(例えばニュースやスポーツ、ドラマなど)や映画等のほか、動画や音楽、電子書籍、ゲーム、広告など、あらゆるコンテンツを含めることができる。
(その他)
本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述したアクティベーションキーワードは、コマンドワードなどと称される場合がある。
<5.コンピュータの構成>
上述した一連の処理(例えば、図9及び図10に示した音声対話処理や、図14乃至図16に示したコンテンツ音声起因のノイズを除去した音声対話処理)は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インターフェース1005が接続されている。入出力インターフェース1005には、入力部1006、出力部1007、記録部1008、通信部1009、及び、ドライブ1010が接続されている。
入力部1006は、キーボード、マウス、マイクロフォンなどよりなる。出力部1007は、ディスプレイ、スピーカなどよりなる。記録部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインターフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
以上のように構成されるコンピュータ1000では、CPU1001が、ROM1002や記録部1008に記録されているプログラムを、入出力インターフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
コンピュータ1000では、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インターフェース1005を介して、記録部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記録部1008にインストールすることができる。その他、プログラムは、ROM1002や記録部1008に、あらかじめインストールしておくことができる。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、本技術は、以下のような構成をとることができる。
(1)
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部を備え、
前記ノイズ除去音声データは、前記ユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで得られる
情報処理装置。
(2)
前記ノイズ除去音声データの処理結果は、音響処理、音声認識処理、言語理解処理、及び対話制御処理のうち、いずれかの処理の段階において、前記コンテンツを視聴するユーザの発話の音声波形データと、前記コンテンツの音声波形データとを分離することで得られる
前記(1)に記載の情報処理装置。
(3)
前記ユーザ音声データは、クライアント側の受信装置で再生されるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の受信装置で、前記クライアント側再生コンテンツの再生情報に基づき再生されるサーバ側再生コンテンツの音声データである
前記(2)に記載の情報処理装置。
(4)
前記再生情報は、前記コンテンツを提供するサービスを識別するための識別情報を含む
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記コンテンツは、放送波として伝送される放送コンテンツである
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記処理部は、データベースに含まれる音声対話機能を実現するための対話情報のうち、前記再生情報により絞り込まれた対話情報を参照して、前記ノイズ除去音声データの処理結果を処理することで、前記コンテンツを視聴するユーザとの音声対話に関する処理を行う
前記(2)に記載の情報処理装置。
(7)
前記処理部は、インターネットに接続されるサーバ側で実行される第1のアプリケーションを実行し、
前記第1のアプリケーションと、前記コンテンツを再生するクライアント側で実行される第2のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現する
前記(6)に記載の情報処理装置。
(8)
前記再生情報は、前記コンテンツを提供するサービスを識別するための第1の識別情報とともに、前記コンテンツを識別するための第2の識別情報、前記コンテンツにおける再生時間位置を示す位置情報、及び前記コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
前記(6)又は(7)に記載の情報処理装置。
(9)
前記コンテンツは、放送波として伝送される放送コンテンツであり、
前記第2のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
前記(6)乃至(8)のいずれかに記載の情報処理装置。
(10)
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行うステップを含み、
前記ノイズ除去音声データは、前記ユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで得られる
情報処理方法。
(11)
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部を備える
情報処理装置。
(12)
前記ユーザ音声データは、クライアント側の受信装置で再生されるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の受信装置で、前記クライアント側再生コンテンツの再生情報に基づき再生されるサーバ側再生コンテンツの音声データである
前記(11)に記載の情報処理装置。
(13)
前記再生情報は、前記コンテンツを提供するサービスを識別するための識別情報を含む
前記(11)又は(12)に記載の情報処理装置。
(14)
前記コンテンツは、放送波として伝送される放送コンテンツである
前記(11)乃至(13)のいずれかに記載の情報処理装置。
(15)
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する
ステップを含む情報処理方法。
1 音声対話システム, 10 送信装置, 20 音声変換サーバ, 30 機能提供サーバ, 50 受信装置, 60 音声処理装置, 80 受信装置, 90 インターネット, 111 コンテンツ生成部, 113 アプリケーション生成部, 116 送信部, 211 音声認識処理部, 213 データベース, 214 マイクロフォン, 231 音声データ取得部, 232 ノイズ除去部, 233 音声認識部, 311 機能処理部, 313 データベース, 331 発話理解部, 332 対話制御部, 333 発話生成部, 511 処理部, 512 メモリ, 514 チューナ, 515 デマルチプレクサ, 516 音声デコーダ, 517 音声出力部, 518 映像デコーダ, 519 映像出力部, 520 ブラウザ, 521 スピーカ, 522 表示部, 523 通信I/F, 1000 コンピュータ, 1001 CPU

Claims (15)

  1. 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、
    前記第1の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報を受信する通信部と、
    前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部
    を備え、
    前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、
    前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
    前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
    前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される
    情報処理装置。
  2. 前記ノイズ除去音声データの処理結果は、音響処理、音声認識処理、言語理解処理、及び対話制御処理のうち、いずれかの処理の段階において、前記放送コンテンツを視聴するユーザの発話の音声波形データと、前記放送コンテンツの音声波形データとを分離することで得られる
    請求項1に記載の情報処理装置。
  3. 前記第1の識別情報は、前記放送サービスを識別するチャネル番号である
    請求項1に記載の情報処理装置。
  4. 前記処理部は、データベースに含まれる音声対話機能を実現するための対話情報のうち、前記再生情報により絞り込まれた対話情報を参照して、前記ノイズ除去音声データの処理結果を処理することで、前記放送コンテンツを視聴するユーザとの音声対話に関する処理を行う
    請求項2に記載の情報処理装置。
  5. 前記処理部は、前記インターネットに接続されるサーバ側で実行されるアプリケーションである第1のアプリケーションを実行し、
    前記第1のアプリケーションと、前記放送コンテンツを再生する前記第1の受信装置で実行されるアプリケーションである第2のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現する
    請求項に記載の情報処理装置。
  6. 前記第1の識別情報は、前記放送サービスを識別するチャネル番号であり、
    前記再生情報は、前記第1の識別情報とともに、前記放送コンテンツを識別するための第2の識別情報、前記放送コンテンツにおける再生時間位置を示す位置情報、及び前記放送コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
    請求項に記載の情報処理装置。
  7. 前記第2のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
    請求項に記載の情報処理装置。
  8. 前記クライアント側の機器は、前記第1の受信装置と、ネットワークに接続可能なスピーカである音声処理装置から構成され、
    前記ユーザ音声データは、前記音声処理装置から前記インターネットを介して送信される
    請求項に記載の情報処理装置。
  9. 前記クライアント側の機器は、前記第1の受信装置から構成され、
    前記ユーザ音声データは、前記第1の受信装置から前記インターネットを介して送信される
    請求項に記載の情報処理装置。
  10. 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置の情報処理方法において、
    前記情報処理装置が、
    前記第1の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報を受信するステップと、
    前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行うステップ
    を含み、
    前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、
    前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
    前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
    前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される
    情報処理方法。
  11. 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、
    前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信する通信部と、
    前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部
    を備え
    前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
    前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
    前記再生情報は、前記インターネットを介して、前記第1の受信装置から受信される
    情報処理装置。
  12. 前記第1の識別情報は、前記放送サービスを識別するチャネル番号である
    請求項11に記載の情報処理装置。
  13. 前記クライアント側の機器は、前記第1の受信装置と、ネットワークに接続可能なスピーカである音声処理装置から構成され、
    前記ユーザ音声データは、前記音声処理装置から前記インターネットを介して送信される
    請求項11に記載の情報処理装置。
  14. 前記クライアント側の機器は、前記第1の受信装置から構成され、
    前記ユーザ音声データは、前記第1の受信装置から前記インターネットを介して送信される
    請求項11に記載の情報処理装置。
  15. 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置の情報処理方法において、
    前記情報処理装置が、
    前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信するステップと、
    前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得するステップ
    を含み、
    前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
    前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
    前記再生情報は、前記インターネットを介して、前記第1の受信装置から受信される
    情報処理方法。
JP2017097165A 2017-05-16 2017-05-16 情報処理装置、及び情報処理方法 Active JP7020799B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2017097165A JP7020799B2 (ja) 2017-05-16 2017-05-16 情報処理装置、及び情報処理方法
US16/300,293 US11227620B2 (en) 2017-05-16 2018-05-02 Information processing apparatus and information processing method
PCT/JP2018/017484 WO2018211983A1 (en) 2017-05-16 2018-05-02 Speech enhancement for speech recognition applications in broadcasting environments
KR1020187036351A KR102520019B1 (ko) 2017-05-16 2018-05-02 방송 환경들에서의 스피치 인식 애플리케이션들에 대한 스피치 강화
EP18726536.8A EP3449481A1 (en) 2017-05-16 2018-05-02 Speech enhancement for speech recognition applications in broadcasting environments
CN201880002787.1A CN109478408B (zh) 2017-05-16 2018-05-02 用于广播环境中的话语识别应用的话语增强

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017097165A JP7020799B2 (ja) 2017-05-16 2017-05-16 情報処理装置、及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2018195934A JP2018195934A (ja) 2018-12-06
JP7020799B2 true JP7020799B2 (ja) 2022-02-16

Family

ID=62223170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017097165A Active JP7020799B2 (ja) 2017-05-16 2017-05-16 情報処理装置、及び情報処理方法

Country Status (6)

Country Link
US (1) US11227620B2 (ja)
EP (1) EP3449481A1 (ja)
JP (1) JP7020799B2 (ja)
KR (1) KR102520019B1 (ja)
CN (1) CN109478408B (ja)
WO (1) WO2018211983A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7026449B2 (ja) 2017-04-21 2022-02-28 ソニーグループ株式会社 情報処理装置、受信装置、及び情報処理方法
KR20200074349A (ko) * 2018-12-14 2020-06-25 삼성전자주식회사 음성을 인식하기 위한 방법 및 장치
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
CN110109645A (zh) * 2019-04-30 2019-08-09 百度在线网络技术(北京)有限公司 一种交互式音乐试听方法、装置和终端
US11094319B2 (en) * 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US20210304259A1 (en) * 2020-03-31 2021-09-30 Salesforce.Com, Inc. Methods and systems for delivery of customized content via voice recognition
US20230050390A1 (en) * 2021-08-12 2023-02-16 Dish Network L.L.C. System and method for generating a video signal

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021495A (ja) 2012-07-12 2014-02-03 Samsung Electronics Co Ltd コンテンツ情報提供方法及びそれを適用した放送受信装置
JP2014132464A (ja) 2013-01-07 2014-07-17 Samsung Electronics Co Ltd 対話型インターフェース装置及びその制御方法
US20150179184A1 (en) 2013-12-20 2015-06-25 International Business Machines Corporation Compensating For Identifiable Background Content In A Speech Recognition Device
US20150382047A1 (en) 2014-06-30 2015-12-31 Apple Inc. Intelligent automated assistant for tv user interactions
US20160125892A1 (en) 2014-10-31 2016-05-05 At&T Intellectual Property I, L.P. Acoustic Enhancement
JP2016513816A (ja) 2013-03-06 2016-05-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated コンテンツベースのノイズ抑制
US20160240210A1 (en) 2012-07-22 2016-08-18 Xia Lou Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition
US20160343371A1 (en) 2012-09-10 2016-11-24 Google Inc. Answering questions using environmental context

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8208646B2 (en) * 2006-11-22 2012-06-26 Verizon Patent And Licensing Inc. Audio filtration for content processing systems and methods
KR101248971B1 (ko) * 2011-05-26 2013-04-09 주식회사 마이티웍스 방향성 마이크 어레이를 이용한 신호 분리시스템 및 그 제공방법
JP5903939B2 (ja) 2012-03-08 2016-04-13 ソニー株式会社 受信装置、受信方法、及びプログラム
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US10032475B2 (en) * 2015-12-28 2018-07-24 Koninklijke Kpn N.V. Enhancing an audio recording
US10318813B1 (en) * 2016-03-11 2019-06-11 Gracenote, Inc. Digital video fingerprinting using motion segmentation
WO2018118002A1 (en) * 2016-12-19 2018-06-28 Rovi Guides, Inc. Systems and methods for distinguishing valid voice commands from false voice commands in an interactive media guidance application
US10622003B2 (en) * 2018-07-12 2020-04-14 Intel IP Corporation Joint beamforming and echo cancellation for reduction of noise and non-linear echo

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021495A (ja) 2012-07-12 2014-02-03 Samsung Electronics Co Ltd コンテンツ情報提供方法及びそれを適用した放送受信装置
US20160240210A1 (en) 2012-07-22 2016-08-18 Xia Lou Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition
US20160343371A1 (en) 2012-09-10 2016-11-24 Google Inc. Answering questions using environmental context
JP2014132464A (ja) 2013-01-07 2014-07-17 Samsung Electronics Co Ltd 対話型インターフェース装置及びその制御方法
JP2016513816A (ja) 2013-03-06 2016-05-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated コンテンツベースのノイズ抑制
US20150179184A1 (en) 2013-12-20 2015-06-25 International Business Machines Corporation Compensating For Identifiable Background Content In A Speech Recognition Device
US20150382047A1 (en) 2014-06-30 2015-12-31 Apple Inc. Intelligent automated assistant for tv user interactions
US20160125892A1 (en) 2014-10-31 2016-05-05 At&T Intellectual Property I, L.P. Acoustic Enhancement

Also Published As

Publication number Publication date
WO2018211983A1 (en) 2018-11-22
KR20200006905A (ko) 2020-01-21
CN109478408B (zh) 2024-01-09
EP3449481A1 (en) 2019-03-06
KR102520019B1 (ko) 2023-04-11
US11227620B2 (en) 2022-01-18
CN109478408A (zh) 2019-03-15
US20200074994A1 (en) 2020-03-05
JP2018195934A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
JP7020799B2 (ja) 情報処理装置、及び情報処理方法
JP7477547B2 (ja) 受信装置、及び情報処理方法
US10971144B2 (en) Communicating context to a device using an imperceptible audio identifier
US11930248B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
JPWO2019054199A1 (ja) 情報処理装置、及び情報処理方法
WO2013141101A1 (ja) 端末装置、中継装置、情報処理方法、プログラム、およびコンテンツ識別システム
CN107925790B (zh) 接收设备、发送设备和数据处理方法
KR102307330B1 (ko) 수신 장치 및 수신 방법
KR20090073944A (ko) 방송 컨텐츠 출력장치와 방송 컨텐츠 관련 검색어(또는질문) 순위 정보 제공 방법 및 시스템과 이를 위한기록매체
US11551722B2 (en) Method and apparatus for interactive reassignment of character names in a video device
CN105791973A (zh) 一种基于声波水印的解析方法及装置
CN113228166B (zh) 指令控制装置、控制方法及非易失性存储介质
EP3780641B1 (en) Information processing device, information processing method, transmission device and transmission method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220203

R150 Certificate of patent or registration of utility model

Ref document number: 7020799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150