JP7020799B2 - 情報処理装置、及び情報処理方法 - Google Patents
情報処理装置、及び情報処理方法 Download PDFInfo
- Publication number
- JP7020799B2 JP7020799B2 JP2017097165A JP2017097165A JP7020799B2 JP 7020799 B2 JP7020799 B2 JP 7020799B2 JP 2017097165 A JP2017097165 A JP 2017097165A JP 2017097165 A JP2017097165 A JP 2017097165A JP 7020799 B2 JP7020799 B2 JP 7020799B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- content
- broadcast content
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 67
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000012545 processing Methods 0.000 claims description 297
- 230000006870 function Effects 0.000 claims description 125
- 238000000034 method Methods 0.000 claims description 93
- 230000008569 process Effects 0.000 claims description 75
- 238000004891 communication Methods 0.000 claims description 48
- 238000006243 chemical reaction Methods 0.000 description 60
- 230000005540 biological transmission Effects 0.000 description 31
- 238000005516 engineering process Methods 0.000 description 26
- 230000004044 response Effects 0.000 description 22
- 239000003795 chemical substances by application Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000004913 activation Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
2.第1の実施の形態:アプリケーション連携による音声対話機能
3.第2の実施の形態:コンテンツ音声起因のノイズ除去機能
4.変形例
5.コンピュータの構成
図1は、本技術を適用した音声対話システムの一実施の形態の構成例を示すブロック図である。
図2は、図1の送信装置10の構成例を示すブロック図である。
図3は、図1の音声変換サーバ20及び機能提供サーバ30の構成例を示すブロック図である。
図6は、図1の受信装置50の構成例を示すブロック図である。
図7は、図1の音声処理装置60の構成例を示すブロック図である。
次に、図9及び図10のフローチャートを参照して、図1の音声対話システム1により実行される音声対話処理の流れを説明する。
次に、図11のフローチャートを参照して、図9のステップS111,S142の処理に対応するアプリケーション連携処理について説明する。
次に、図14乃至図16のフローチャートを参照して、図12の音声対話システム1により実行される、コンテンツ音声起因のノイズを除去した音声対話処理の流れを説明する。
上述した説明では、クライアント側の受信装置50と音声処理装置60とは、別々の機器として構成されるとして説明したが、受信装置50と音声処理装置60とが一体化された機器(同梱型デバイス)として構成されるようにしてもよい。例えば、音声処理装置60を音声処理モジュールとして提供し、受信装置50の機能に含めることで、同梱型デバイスとして構成することができる。
上述した説明では、音声変換サーバ20と機能提供サーバ30は、異なるサーバとして構成されるとして説明したが、それらのサーバが一体となって、双方のサーバの機能を有するようにしてもよい。
上述した説明では、放送コンテンツの放送方式として、米国等で採用されている方式であるATSC(特に、ATSC3.0)を説明したが、本技術は、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などの方式に適用するようにしてもよい。
放送アプリケーションは、HTML5等のマークアップ言語や、JavaScript(登録商標)等のスクリプト言語で開発されたアプリケーションに限らず、例えば、Java(登録商標)等のプログラミング言語で開発されたアプリケーションであってもよい。また、放送アプリケーションは、表示されるものに限らず、バックグラウンドで、非表示で実行されるものであってもよい。
本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述したアクティベーションキーワードは、コマンドワードなどと称される場合がある。
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部を備え、
前記ノイズ除去音声データは、前記ユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで得られる
情報処理装置。
(2)
前記ノイズ除去音声データの処理結果は、音響処理、音声認識処理、言語理解処理、及び対話制御処理のうち、いずれかの処理の段階において、前記コンテンツを視聴するユーザの発話の音声波形データと、前記コンテンツの音声波形データとを分離することで得られる
前記(1)に記載の情報処理装置。
(3)
前記ユーザ音声データは、クライアント側の受信装置で再生されるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の受信装置で、前記クライアント側再生コンテンツの再生情報に基づき再生されるサーバ側再生コンテンツの音声データである
前記(2)に記載の情報処理装置。
(4)
前記再生情報は、前記コンテンツを提供するサービスを識別するための識別情報を含む
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記コンテンツは、放送波として伝送される放送コンテンツである
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記処理部は、データベースに含まれる音声対話機能を実現するための対話情報のうち、前記再生情報により絞り込まれた対話情報を参照して、前記ノイズ除去音声データの処理結果を処理することで、前記コンテンツを視聴するユーザとの音声対話に関する処理を行う
前記(2)に記載の情報処理装置。
(7)
前記処理部は、インターネットに接続されるサーバ側で実行される第1のアプリケーションを実行し、
前記第1のアプリケーションと、前記コンテンツを再生するクライアント側で実行される第2のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現する
前記(6)に記載の情報処理装置。
(8)
前記再生情報は、前記コンテンツを提供するサービスを識別するための第1の識別情報とともに、前記コンテンツを識別するための第2の識別情報、前記コンテンツにおける再生時間位置を示す位置情報、及び前記コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
前記(6)又は(7)に記載の情報処理装置。
(9)
前記コンテンツは、放送波として伝送される放送コンテンツであり、
前記第2のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
前記(6)乃至(8)のいずれかに記載の情報処理装置。
(10)
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行うステップを含み、
前記ノイズ除去音声データは、前記ユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで得られる
情報処理方法。
(11)
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部を備える
情報処理装置。
(12)
前記ユーザ音声データは、クライアント側の受信装置で再生されるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の受信装置で、前記クライアント側再生コンテンツの再生情報に基づき再生されるサーバ側再生コンテンツの音声データである
前記(11)に記載の情報処理装置。
(13)
前記再生情報は、前記コンテンツを提供するサービスを識別するための識別情報を含む
前記(11)又は(12)に記載の情報処理装置。
(14)
前記コンテンツは、放送波として伝送される放送コンテンツである
前記(11)乃至(13)のいずれかに記載の情報処理装置。
(15)
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツを視聴するユーザの発話の音声データであるユーザ音声データと、再生対象の前記コンテンツに関する再生情報に基づき取得される前記コンテンツの音声データであるコンテンツ音声データとを分離することで、前記コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する
ステップを含む情報処理方法。
Claims (15)
- 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、
前記第1の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報を受信する通信部と、
前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行う処理部と
を備え、
前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、
前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される
情報処理装置。 - 前記ノイズ除去音声データの処理結果は、音響処理、音声認識処理、言語理解処理、及び対話制御処理のうち、いずれかの処理の段階において、前記放送コンテンツを視聴するユーザの発話の音声波形データと、前記放送コンテンツの音声波形データとを分離することで得られる
請求項1に記載の情報処理装置。 - 前記第1の識別情報は、前記放送サービスを識別するチャネル番号である
請求項1に記載の情報処理装置。 - 前記処理部は、データベースに含まれる音声対話機能を実現するための対話情報のうち、前記再生情報により絞り込まれた対話情報を参照して、前記ノイズ除去音声データの処理結果を処理することで、前記放送コンテンツを視聴するユーザとの音声対話に関する処理を行う
請求項2に記載の情報処理装置。 - 前記処理部は、前記インターネットに接続されるサーバ側で実行されるアプリケーションである第1のアプリケーションを実行し、
前記第1のアプリケーションと、前記放送コンテンツを再生する前記第1の受信装置で実行されるアプリケーションである第2のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現する
請求項4に記載の情報処理装置。 - 前記第1の識別情報は、前記放送サービスを識別するチャネル番号であり、
前記再生情報は、前記第1の識別情報とともに、前記放送コンテンツを識別するための第2の識別情報、前記放送コンテンツにおける再生時間位置を示す位置情報、及び前記放送コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
請求項5に記載の情報処理装置。 - 前記第2のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
請求項6に記載の情報処理装置。 - 前記クライアント側の機器は、前記第1の受信装置と、ネットワークに接続可能なスピーカである音声処理装置から構成され、
前記ユーザ音声データは、前記音声処理装置から前記インターネットを介して送信される
請求項1に記載の情報処理装置。 - 前記クライアント側の機器は、前記第1の受信装置から構成され、
前記ユーザ音声データは、前記第1の受信装置から前記インターネットを介して送信される
請求項1に記載の情報処理装置。 - 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置の情報処理方法において、
前記情報処理装置が、
前記第1の受信装置から、前記インターネットを介して、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報を受信するステップと、
前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データに含まれる、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データの処理結果に基づいて、前記ユーザとの音声対話に関する処理を行うステップと
を含み、
前記ノイズ除去音声データは、前記ユーザ音声データと、前記再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで得られる音声データであり、
前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記ユーザ音声データは、前記インターネットを介して、前記クライアント側の機器から受信される
情報処理方法。 - 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置であって、
前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信する通信部と、
前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得する処理部と
を備え、
前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記再生情報は、前記インターネットを介して、前記第1の受信装置から受信される
情報処理装置。 - 前記第1の識別情報は、前記放送サービスを識別するチャネル番号である
請求項11に記載の情報処理装置。 - 前記クライアント側の機器は、前記第1の受信装置と、ネットワークに接続可能なスピーカである音声処理装置から構成され、
前記ユーザ音声データは、前記音声処理装置から前記インターネットを介して送信される
請求項11に記載の情報処理装置。 - 前記クライアント側の機器は、前記第1の受信装置から構成され、
前記ユーザ音声データは、前記第1の受信装置から前記インターネットを介して送信される
請求項11に記載の情報処理装置。 - 送信装置から送信される放送コンテンツを受信して再生する第1の受信装置を含むクライアント側の機器とインターネットを介して接続されるサーバとして構成される情報処理装置の情報処理方法において、
前記情報処理装置が、
前記クライアント側の機器から、前記インターネットを介して、前記放送コンテンツを視聴するユーザの発話の音声データであるユーザ音声データを受信するステップと、
前記ユーザ音声データと、再生対象の前記放送コンテンツを提供する放送サービスを識別するための第1の識別情報を含む再生情報に基づき取得される前記放送コンテンツの音声データであるコンテンツ音声データとを分離することで、前記放送コンテンツの音声に起因するノイズを取り除くことで得られる音声データであるノイズ除去音声データを取得するステップと
を含み、
前記ユーザ音声データは、前記第1の受信装置で再生される前記放送コンテンツであるクライアント側再生コンテンツを視聴するユーザの発話とともに、前記クライアント側再生コンテンツの音声に起因するノイズが含まれる音声データであり、
前記コンテンツ音声データは、サーバ側の第2の受信装置で、前記再生情報に基づき再生される前記放送コンテンツであるサーバ側再生コンテンツの音声データであり、
前記再生情報は、前記インターネットを介して、前記第1の受信装置から受信される
情報処理方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097165A JP7020799B2 (ja) | 2017-05-16 | 2017-05-16 | 情報処理装置、及び情報処理方法 |
US16/300,293 US11227620B2 (en) | 2017-05-16 | 2018-05-02 | Information processing apparatus and information processing method |
PCT/JP2018/017484 WO2018211983A1 (en) | 2017-05-16 | 2018-05-02 | Speech enhancement for speech recognition applications in broadcasting environments |
KR1020187036351A KR102520019B1 (ko) | 2017-05-16 | 2018-05-02 | 방송 환경들에서의 스피치 인식 애플리케이션들에 대한 스피치 강화 |
EP18726536.8A EP3449481A1 (en) | 2017-05-16 | 2018-05-02 | Speech enhancement for speech recognition applications in broadcasting environments |
CN201880002787.1A CN109478408B (zh) | 2017-05-16 | 2018-05-02 | 用于广播环境中的话语识别应用的话语增强 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097165A JP7020799B2 (ja) | 2017-05-16 | 2017-05-16 | 情報処理装置、及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018195934A JP2018195934A (ja) | 2018-12-06 |
JP7020799B2 true JP7020799B2 (ja) | 2022-02-16 |
Family
ID=62223170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017097165A Active JP7020799B2 (ja) | 2017-05-16 | 2017-05-16 | 情報処理装置、及び情報処理方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11227620B2 (ja) |
EP (1) | EP3449481A1 (ja) |
JP (1) | JP7020799B2 (ja) |
KR (1) | KR102520019B1 (ja) |
CN (1) | CN109478408B (ja) |
WO (1) | WO2018211983A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7026449B2 (ja) | 2017-04-21 | 2022-02-28 | ソニーグループ株式会社 | 情報処理装置、受信装置、及び情報処理方法 |
KR20200074349A (ko) * | 2018-12-14 | 2020-06-25 | 삼성전자주식회사 | 음성을 인식하기 위한 방법 및 장치 |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
CN110109645A (zh) * | 2019-04-30 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 一种交互式音乐试听方法、装置和终端 |
US11094319B2 (en) * | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
US20210304259A1 (en) * | 2020-03-31 | 2021-09-30 | Salesforce.Com, Inc. | Methods and systems for delivery of customized content via voice recognition |
US20230050390A1 (en) * | 2021-08-12 | 2023-02-16 | Dish Network L.L.C. | System and method for generating a video signal |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014021495A (ja) | 2012-07-12 | 2014-02-03 | Samsung Electronics Co Ltd | コンテンツ情報提供方法及びそれを適用した放送受信装置 |
JP2014132464A (ja) | 2013-01-07 | 2014-07-17 | Samsung Electronics Co Ltd | 対話型インターフェース装置及びその制御方法 |
US20150179184A1 (en) | 2013-12-20 | 2015-06-25 | International Business Machines Corporation | Compensating For Identifiable Background Content In A Speech Recognition Device |
US20150382047A1 (en) | 2014-06-30 | 2015-12-31 | Apple Inc. | Intelligent automated assistant for tv user interactions |
US20160125892A1 (en) | 2014-10-31 | 2016-05-05 | At&T Intellectual Property I, L.P. | Acoustic Enhancement |
JP2016513816A (ja) | 2013-03-06 | 2016-05-16 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | コンテンツベースのノイズ抑制 |
US20160240210A1 (en) | 2012-07-22 | 2016-08-18 | Xia Lou | Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition |
US20160343371A1 (en) | 2012-09-10 | 2016-11-24 | Google Inc. | Answering questions using environmental context |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8208646B2 (en) * | 2006-11-22 | 2012-06-26 | Verizon Patent And Licensing Inc. | Audio filtration for content processing systems and methods |
KR101248971B1 (ko) * | 2011-05-26 | 2013-04-09 | 주식회사 마이티웍스 | 방향성 마이크 어레이를 이용한 신호 분리시스템 및 그 제공방법 |
JP5903939B2 (ja) | 2012-03-08 | 2016-04-13 | ソニー株式会社 | 受信装置、受信方法、及びプログラム |
JP2014153663A (ja) | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US9947318B2 (en) * | 2014-10-03 | 2018-04-17 | 2236008 Ontario Inc. | System and method for processing an audio signal captured from a microphone |
US10032475B2 (en) * | 2015-12-28 | 2018-07-24 | Koninklijke Kpn N.V. | Enhancing an audio recording |
US10318813B1 (en) * | 2016-03-11 | 2019-06-11 | Gracenote, Inc. | Digital video fingerprinting using motion segmentation |
WO2018118002A1 (en) * | 2016-12-19 | 2018-06-28 | Rovi Guides, Inc. | Systems and methods for distinguishing valid voice commands from false voice commands in an interactive media guidance application |
US10622003B2 (en) * | 2018-07-12 | 2020-04-14 | Intel IP Corporation | Joint beamforming and echo cancellation for reduction of noise and non-linear echo |
-
2017
- 2017-05-16 JP JP2017097165A patent/JP7020799B2/ja active Active
-
2018
- 2018-05-02 CN CN201880002787.1A patent/CN109478408B/zh active Active
- 2018-05-02 US US16/300,293 patent/US11227620B2/en active Active
- 2018-05-02 EP EP18726536.8A patent/EP3449481A1/en active Pending
- 2018-05-02 WO PCT/JP2018/017484 patent/WO2018211983A1/en unknown
- 2018-05-02 KR KR1020187036351A patent/KR102520019B1/ko active IP Right Grant
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014021495A (ja) | 2012-07-12 | 2014-02-03 | Samsung Electronics Co Ltd | コンテンツ情報提供方法及びそれを適用した放送受信装置 |
US20160240210A1 (en) | 2012-07-22 | 2016-08-18 | Xia Lou | Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition |
US20160343371A1 (en) | 2012-09-10 | 2016-11-24 | Google Inc. | Answering questions using environmental context |
JP2014132464A (ja) | 2013-01-07 | 2014-07-17 | Samsung Electronics Co Ltd | 対話型インターフェース装置及びその制御方法 |
JP2016513816A (ja) | 2013-03-06 | 2016-05-16 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | コンテンツベースのノイズ抑制 |
US20150179184A1 (en) | 2013-12-20 | 2015-06-25 | International Business Machines Corporation | Compensating For Identifiable Background Content In A Speech Recognition Device |
US20150382047A1 (en) | 2014-06-30 | 2015-12-31 | Apple Inc. | Intelligent automated assistant for tv user interactions |
US20160125892A1 (en) | 2014-10-31 | 2016-05-05 | At&T Intellectual Property I, L.P. | Acoustic Enhancement |
Also Published As
Publication number | Publication date |
---|---|
WO2018211983A1 (en) | 2018-11-22 |
KR20200006905A (ko) | 2020-01-21 |
CN109478408B (zh) | 2024-01-09 |
EP3449481A1 (en) | 2019-03-06 |
KR102520019B1 (ko) | 2023-04-11 |
US11227620B2 (en) | 2022-01-18 |
CN109478408A (zh) | 2019-03-15 |
US20200074994A1 (en) | 2020-03-05 |
JP2018195934A (ja) | 2018-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7020799B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP7477547B2 (ja) | 受信装置、及び情報処理方法 | |
US10971144B2 (en) | Communicating context to a device using an imperceptible audio identifier | |
US11930248B2 (en) | Information processing apparatus, information processing method, transmission apparatus, and transmission method | |
JPWO2019054199A1 (ja) | 情報処理装置、及び情報処理方法 | |
WO2013141101A1 (ja) | 端末装置、中継装置、情報処理方法、プログラム、およびコンテンツ識別システム | |
CN107925790B (zh) | 接收设备、发送设备和数据处理方法 | |
KR102307330B1 (ko) | 수신 장치 및 수신 방법 | |
KR20090073944A (ko) | 방송 컨텐츠 출력장치와 방송 컨텐츠 관련 검색어(또는질문) 순위 정보 제공 방법 및 시스템과 이를 위한기록매체 | |
US11551722B2 (en) | Method and apparatus for interactive reassignment of character names in a video device | |
CN105791973A (zh) | 一种基于声波水印的解析方法及装置 | |
CN113228166B (zh) | 指令控制装置、控制方法及非易失性存储介质 | |
EP3780641B1 (en) | Information processing device, information processing method, transmission device and transmission method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7020799 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |