JP2011199698A

JP2011199698A - Ａｖ機器

Info

Publication number: JP2011199698A
Application number: JP2010065525A
Authority: JP
Inventors: Makoto Tanaka; 田中　　良
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-03-23
Filing date: 2010-03-23
Publication date: 2011-10-06

Abstract

【課題】ユーザの所望とする情報やこれに対する付加的情報を容易に出力できるＡＶ機器を実現する。
【解決手段】関連情報取得部１０には、外部ソース装置から外部ソース音信号Ｓｓ０，Ｓｓ１が入力される。関連情報取得部１０には、エコーキャンセル後収音信号Ｓｍｅ１〜Ｓｍｅ８が入力される。関連情報取得部１０は、エコーキャンセル後収音信号Ｓｍｅ１〜Ｓｍｅ８から話者音声信号Ｓｓｐを生成し、ユーザの発言に対応する発音信号Ｓｓｐａを生成する。関連情報取得部１０は、発音信号Ｓｓｐａに対応する発音区間外部ソース音信号Ｓｓａを生成し、これらを音声認識処理する。関連情報取得部１０は、音声認識結果を参照して、ユーザの発言、および、この発言と同じタイミングでの外部ソース音に基づく情報検索の語句を抽出し、関連情報を検索する。得られた関連情報は、表示装置３００に表示される。
【選択図】図１

Description

この発明は、外部ソースからの映像や音楽および音声を、表示器やスピーカから出力するＡＶ機器、特に、ユーザの発声音に応じた情報を出力するＡＶ機器に関する。

従来、各種のＡＶ機器が考案されている。このようなＡＶ機器には、ユーザからの情報に基づいて、表示動作や放音動作を行うものがある。例えば、特許文献１に記載の装置では、指示装置から入力されたり指示されたキーワードと、外部入力される映像信号や音声信号とを照合して、キーワードを含む映像や音声を出力する。

特開平１１−１６１６６１号公報

しかしながら、特許文献１に記載の装置では、ユーザが所望とする映像や音声を出力する際に、わざわざリモコン等の操作入力端末を用いて指示しなければならず、操作が煩わしい。

また、ユーザが所望とする情報を直接入力しなければならないため、常に的確なキーワードの入力を行う必要がある。このため、所望とする情報を出力するためのキーワードを的確に入力しなければならず、これも、ユーザにとって操作が煩わしくなる原因となる。

また、出力される映像や音声に対する付加的情報を出力することもできない。

したがって、本発明の目的は、ユーザにとって煩わしい操作を行うことなく、ユーザの所望とする情報やこれに対する付加的情報を容易に出力できるＡＶ機器を実現することにある。

この発明はＡＶ装置に関する。このＡＶ装置は、外部ソース音取得部、発声音取得部、関連情報取得部、および関連情報出力部を備える。外部ソース音取得部は、外部ソースの音信号を取得する。発声音取得部は、ユーザの発声音を収音して発声音信号を取得する。関連情報取得部は、外部ソースの音信号と発声音信号とを時間軸上で対応付けし、該対応付けられた発声音信号と外部ソースの音信号とに基づいて関連情報を取得する。関連情報出力部は関連情報を所定形式で出力する。

この構成では、ユーザの発声音と外部ソースからの音とが時間軸上で対応付けされる。外部ソース音に対するユーザの反応を対応付けできるので、これら対応付けられた音同士の関係から、関連情報を検索できる。例えば、ユーザが外部ソース音に対して疑問の言葉を発したとすれば、当該発した言葉とその時点の外部ソース音とが対応付けされ、疑問の答えを検索することができる。そして、検索結果（例えば答え）を出力することで、ほぼリアルタイムにユーザの発声音に基づく所望の情報等を提供できる。この際、ユーザはリモコン等の操作子を用いなくても良いので、煩わしい操作を必要としない。

また、この発明のＡＶ機器の関連情報取得部は、音声区間検出部、発声音認識部、外部ソース音情報取得部、および関連情報検索部を備える。音声区間検出部は発声音信号に基づいて音声区間を検出する。発声音認識部は音声区間の検出された発声音信号を音声認識する。外部ソース音情報取得部は、音声認識された発声音信号に対応付けられた外部ソース音情報を取得する。関連情報検索部は発声音の音声認識結果と取得した外部ソース音情報とに基づいて、外部ソース音情報に関連する関連情報を検索する。

この構成では、上述の関連情報の具体的取得方法を実現する構成を示している。これらの構成を備えることで、発声音からユーザの所望とする情報の存在する部分が効率的に抽出され、抽出された内容に応じて所望の情報を検索、取得できる。

また、この発明のＡＶ機器の外部ソース音情報取得部は、音声認識された発声音信号に対応付けられた外部ソースの音信号を音声認識することで、外部ソース音情報を取得する。

この構成では、具体的な外部ソース音情報の内容について示している。この構成とすれば、外部ソース音に関する情報がテキスト情報でなくても、上述の処理に対応させることができる。

また、この発明のＡＶ機器の発声音取得部は、収音信号を生成するマイクロホンと、放音される外部ソースの音信号に基づいてマイクロホンの収音信号から外部ソースの音信号をエコーキャンセル処理するエコーキャンセル部と、を備える。

この構成では、エコーキャンセルを行うことで、マイクロホンの収音信号に含まれる外部ソース音を抑圧でき、ユーザの発声音のみを効果的に取得できる。これにより、さらに確実に所望とする情報を取得することができる。

また、この発明のＡＶ機器では、マイクロホンは複数ある。関連情報取得部は、複数のマイクロホンの収音信号から話者検出を行う話者検出部を備え、検出された話者毎に関連情報の取得処理を実行する。

この構成では、話者検出を行うことができる。したがって、話者が複数人いる場合であっても、各話者からの発声音を個別に取得できる。これにより、複数人が同時に話しても、各話者の所望情報を個別に提供することができる。

また、この発明のＡＶ機器は、外部ソースの映像信号を取得する外部ソース映像取得部と、外部ソースの映像信号を出力する外部ソース映像表示部と、を備える。関連情報出力部は、関連情報を画像化し、該画像を外部ソースの映像信号に重畳する。

この構成では、得られた関連情報が画像化されて表示される。これにより、ユーザは、視覚的に所望情報を容易に得ることができる。

この発明によれば、ユーザにとって煩わしい操作を行うことなく、ユーザの所望とする情報やこれに対する付加的情報を容易に提供することができる。

第１の実施形態に係るＡＶ機器の構成を示すブロック図である。第１の実施形態の関連情報取得部１０の具体的構成を示すブロック図である。第１の実施形態の具体的な実施の状況を示す図である。第２の実施形態のＡＶ機器の関連情報取得部１０Ａの構成を示すブロック図である。第２の実施形態の具体的な実施の状況を示す図である。第３の実施形態のＡＶ機器の関連情報取得部１０Ｂの構成を示すブロック図である。

本発明の第１の実施形態に係るＡＶ機器について、図を参照して説明する。図１は本実施形態のＡＶ機器の全体構成を示すブロック図である。

ＡＶ機器１００は、関連情報取得部１０、出力音生成部２０、出力映像生成部３０、エコーキャンセル部４０を備える。ＡＶ装置１００は、外部ソース入力端子１０１および収音信号入力端子１０２、放音信号出力端子１０３、映像出力端子１０４を備える。

外部ソース入力端子１０１は、内部回路的には、関連情報取得部１０、出力音生成部２０、および出力映像生成部３０、に接続している。外部ソース入力端子には、放送信号受信装置２０１やメディア再生装置２０２等の外部ソース音の出力装置が接続されている。なお、本実施形態では、放送信号受信装置２０１とメディア再生装置２０２とが接続されている例を示す。

収音信号入力端子１０２は、内部回路的にはエコーキャンセル部４０に接続している。収音信号入力端子１０２には、複数のマイクロホンＭＣ１〜ＭＣ８が接続されている。なお、本実施形態では、マイクロホン数は８個であるが、当該マイクロホンの個数は適宜設定すればよい。

放音信号出力端子１０３は、内部回路的には出力音生成部２０に接続している。放音信号出力端子１０３には、スピーカＳＰが接続されている。なお、本実施形態では、スピーカ数は１個であるが、当該スピーカの個数も適宜設定すればよい。

映像出力端子１０４は、内部回路的には出力映像生成部３０に接続している。映像出力端子１０４には、液晶ディスプレイ等の表示装置３００が接続されている。

また、図１に示すように、関連情報取得部１０は、図示しないネットワーク端子を介して外部ネットワーク９００に接続している。なお、この外部ネットワーク９００への接続に関する構成は省略することもできる。

放送信号受信装置２０１からの映像信号Ｓｖ０は、外部ソース入力端子１０１を介して出力映像生成部３０へ入力される。メディア再生装置２０２からの映像信号Ｓｖ１も、外部ソース入力端子１０１を介して出力映像生成部３０へ入力される。

放送信号受信装置２０１からの外部ソース音信号Ｓｓ０は、外部ソース入力端子１０１を介して出力音生成部２０および関連情報取得部１０へ入力される。メディア再生装置２０２からの映像信号Ｓｖ１も、外部ソース入力端子１０１を介して出力音生成部２０および関連情報取得部１０へ入力される。

各マイクロホンＭＣ１〜ＭＣ８は所定の配置パターンで配置されている。各マイクロホンＭＣ１〜ＭＣ８で収音された収音信号Ｓｍ１〜Ｓｍ８は、収音信号入力端子１０２を介してエコーキャンセル部４０へ入力される。この収音信号には、ユーザからの発声音や外部環境ノイズ、さらにはスピーカの放音された音の回り込み音等が含まれている。

エコーキャンセル部４０は、マイクロホンＭＣ１〜ＭＣ８毎に対応するエコーキャンセラ４０１〜４０８を備える。各エコーキャンセラ４０１〜４０８には、出力音生成部２０から出力された最終的な放音信号が与えられている。エコーキャンセラ４０１〜４０８は、この放音信号に基づいて適応パラメータを設定し、入力される収音信号Ｓｍ１〜Ｓｍ８に対してエコーキャンセル処理を行う。これにより、エコーキャンセル部４０からは、エコーキャンセル後収音信号Ｓｍｅ１〜Ｓｍｅ８が出力され、関連情報取得部１０へ入力される。具体的に、例えば、エコーキャンセラ４０１は、マイクロホンＭＣ１からの収音信号Ｓｍ１に対してエコーキャンセル処理を行い、エコーキャンセル後収音信号Ｓｍｅ１を出力する。

関連情報取得部１０は、エコーキャンセル後収音信号Ｓｍｅ１〜Ｓｍｅ８と、外部ソース音信号Ｓｓ０、Ｓｓ１のいずれかを用いて関連情報映像信号Ｓｖｒや関連情報音声信号Ｓｓｒを出力する。図２は関連情報取得部１０の具体的構成を示すブロック図である。

関連情報取得部１０は、話者音声検出部１１、話者音声用音声区間抽出部１２、ソース音用音声区間抽出部１３、情報解析部１４、および関連情報生成部１５を備える。また、関連情報取得部１０は、音声認識サーバ９１および情報検索サーバ９２を備える。

話者音声検出部１１は、エコーキャンセル後収音信号Ｓｍｅ１〜Ｓｍｅ８に基づいて、話者音声の検出を行う。具体的には、例えば、話者音声検出部１１は、エコーキャンセル後収音信号Ｓｍｅ１〜Ｓｍｅ８を用いて、ＡＶ機器１００を基準にした所定範囲内の複数方向に強い収音感度を有する指向性の収音ビーム信号を形成する。話者音声検出部１１は、複数の収音ビーム信号の振幅が所定閾値以上である場合に当該収音ビーム信号を話者音声信号Ｓｓｐとして出力する。この際、話者音声検出部１１は、話者音声信号Ｓｓｐの強い収音感度を有する方位を話者方位ＰＳｐとして、話者音声信号Ｓｓｐとともに出力する。なお、所定閾値以上の収音ビーム信号が複数有れば、それぞれを個別の話者音声信号Ｓｓｐとして出力する。

話者音声用音声区間抽出部１２は、話者音声信号Ｓｓｐを時間軸上で所定期間毎に順次サンプリングする。サンプリングした期間の話者音声信号Ｓｓｐの振幅が所定閾値以上であれば、ユーザが発音しているものと判断する。話者音声用音声区間抽出部１２は、ユーザが発音していると判断した区間が連続すれば、これらを１個の発音区間として認識する。

話者音声用音声区間抽出部１２は、この発音区間として認識した区間の話者音声信号Ｓｓｐを切り出し、発音信号Ｓｓｐａとして、音声認識サーバ９１に出力する。この際、発音信号Ｓｓｐａには発音区間の情報が添付されている。

また、話者音声用音声区間検出部１２は、この発音区間の情報を、ソース音用音声区間検出部１３に与える。

なお、話者音声用音声区間抽出部１２は、話者方位Ｐｓｐ、発音信号Ｓｓｐａを識別可能な情報とともに、関連情報生成部１５へ出力する。

ソース音用音声区間抽出部１３は、話者音声用音声区間抽出部１２からの発音区間の情報に基づいて、該当する時間区間の外部ソース音信号Ｓｓ０や外部ソース音信号Ｓｓ１を切り出し、発音区間外部ソース音信号Ｓｓａを出力する。この際、発音区間外部ソース音信号Ｓｓａにも発音区間の情報が添付されている。

音声認識サーバ９１は、発音信号Ｓｓｐａの音声認識を行う。音声認識の方法は、既知のものを用いればよく、音声認識サーバ９１は、音ファイル形式の発音信号Ｓｓｐａからテキスト形式の発音データＷｓｐａを生成する。

音声認識サーバ９１は、発音区間外部ソース音信号Ｓｓａの音声認識も同様に行う。音声認識サーバ９１は、音ファイル形式の発音信号Ｓｓａからテキスト形式の外部ソース音データＷｓａを生成する。

情報解析部１４は、テキスト形式の発音データＷｓｐａおよび外部ソース音データＷｓａから情報検索用テキストデータＷｑを生成する。具体的には、情報解析部１４は、発音データＷｓｐａに対する各種の定型文を記憶している。情報解析部１４は、発音データＷｓｐａと各定型文との一致度を検出することで、最もらしい定型文を選択する。情報解析部１４は、選択した定型文に基づいて、発音区間の情報により関連付けられた外部ソース音データＷｓａから、検索に適する語句を抽出する。情報解析部１４は、この抽出した語句を情報検索用テキストデータＷｑとして出力する。情報検索用テキストデータＷｑは、情報検索サーバ９２へ出力される。

情報検索サーバ９２は、情報検索用テキストデータＷｑに基づいて、情報検索を行う。例えば、情報検索サーバ９２は、情報検索用テキストデータＷｑで表される語句の意味を検索する。また、情報検索サーバ９２は、情報検索用テキストデータＷｑで表される語句に関連する付加的な情報を検索する。情報検索サーバ９２は、検索結果を関連情報データＷａｎとして、関連情報生成部１５へ出力する。なお、この関連情報データＷａｎは、テキストデータであってもよく、その他の音楽ファイル形式のデータであってもよい。

関連情報生成部１５は、関連情報データＷａｎに基づいて関連情報画像データＳｖｒや関連情報音声データＳｓｒを生成する。関連情報生成部１５は、関連情報データＷａｎがテキストデータであれば、当該テキストデータに基づく関連情報画像データＳｖｒを生成する。生成された関連情報画像データＳｖｒは、出力映像生成部３０へ入力される。

また、関連情報生成部１５は、関連情報データＷａｎが音声ファイル形式のデータであれば、当該音声ファイル形式のデータに基づく関連情報音声データＳｓｒを生成する。生成された関連情報音声データＳｓｒは、出力音生成部２０へ入力される。

なお、ここでは、テキストデータの関連情報データＷａｎから関連情報画像データＳｖｒを生成し、音声ファイル形式のデータの関連情報データＷａｎから関連情報音声データＳｓｒを生成する例を示した。しかしながら、これらのファイル形式を変換する構成を備えることで、テキストデータの関連情報データＷａｎから関連情報音声データＳｓｒを生成し、音声ファイル形式のデータの関連情報データＷａｎからテキスト形式の関連情報画像データＳｖｒを生成してもよい。

出力音生成部２０は、放送信号受信装置２０１からの外部ソース音信号Ｓｓ０や、メディア再生装置２０２からの外部ソース音信号Ｓｓ１を、スピーカＳＰに与える。スピーカＳＰは、これらの外部ソース音信号Ｓｓ０や外部ソース音信号Ｓｓ１を放音する。また、出力音生成部２０は、関連情報音声データＳｓｒが入力されれば、関連情報音声データＳｓｒに基づく関連情報音声信号をスピーカＳＰに与える。この際、出力音生成部２０は、関連情報音声信号を外部ソース音信号Ｓｓ０や外部ソース音信号Ｓｓ１にミキシングしてスピーカに与えたり、スピーカが複数ある場合であれば、関連情報音声信号と外部ソース音信号Ｓｓ０や外部ソース音信号Ｓｓ１とを、別のスピーカに与える。

出力映像生成部３０は、放送信号受信装置２０１からの外部ソース映像信号Ｓｖ０やメディア再生装置２０２からの外部ソース映像信号Ｓｖ１を表示装置３００に与える。表示装置３００は、外部ソース映像信号Ｓｖ０や外部ソース映像信号Ｓｖ１に基づく映像を表示する。また、出力映像生成部３０は、関連情報画像データＳｖｒが入力されれば、関連情報映像データＳｖｒに基づく関連情報映像信号を表示装置３００に与える。この際、出力映像生成部３０は、関連情報画像信号を外部ソース映像信号Ｓｖ０や外部ソース映像信号Ｓｖ１に対してＯＳＤ表示させるように、表示装置３００を制御する。

このような構成とすることで、ユーザがテレビジョン放送の映像や各種メディアの再生映像を視聴しながら、当該映像に対して発言をすると、発言と視聴中の映像とに応じた関連情報を、得ることができる。

具体的な実施の状況を図３を用いて説明する。図３は本実施形態の具体的な実施の状況を示す図である。

図３に示すように、テレビジョン放送でニュースを視聴中に、ユーザが「何のニュース？」と発言すれば、当該発言が検出される。

次に、検出した「何のニュース？」の発言と略同時刻のテレビジョン放送の音声が抽出され、ニュースの内容に使用された語句が抽出される。

次に、抽出された語句に基づいて、当該語句の意味や、当該語句に関連する情報が検索され、関連情報として検出される。

次に、検出された関連情報（例えば語句の意味や説明）が、放送中のテレビジョン放送とともに、画面上に表示される。

このように、本実施形態の構成を用いることで、ユーザは、視聴中の映像に対する関連情報を容易に得ることができる。そして、本実施形態の構成を用いれば、従来のようにリモコン等の操作子を用いる必要が無く、意識しないユーザの発声音だけで、関連情報を得ることができ、煩雑な操作を全く必要としない。

なお、本実施形態ではエコーキャンセル処理を行った後の音声信号を用いたが、必要に応じてエコーキャンセル部を省略することもできる。ただし、エコーキャンセル処理を実行することで、より確実に、ユーザの発声音のみを関連情報取得部１０に与えることができる。これにより、さらに正確な関連情報を提供することができる。

また、上述の説明では、一人のユーザに対する関連情報の提供処理を例に示したが、複数人の場合にはそれぞれのユーザに対して関連情報を提供することができる。この際、話者方位が識別できているので、表示画面上の各ユーザに対応する領域毎に関連情報を表示することもできる。また、関連情報を音声形式で出力する場合であれば、複数のスピーカやアレイスピーカ等を用いて、ユーザ毎に放音指向性を向けて、関連情報を放音することもできる。

また、上述の説明では、関連情報のみを表示したり、放音する例を示したが、抽出した発声音や語句を、関連情報とともに表示、放音してもよい。これにより、リアルタイムに関連情報を提供できない場合、すなわち、関連情報の提供が遅延する場合であっても、関連情報がどのような発声音や語句を元に提供されたかを知ることができる。これにより、関連情報が遅延しても、ユーザは関連情報をより分かりやすく理解することができる。

次に、第２の実施形態に係るＡＶ機器について、図を参照して説明する。本実施形態のＡＶ機器は、第１の実施形態に示したＡＶ機器に対して関連情報取得部１０Ａの構成およびこれに関連する外部ソース入力端子の構成が異なるのみで、他の構成は同じである。したがって、異なる箇所のみを説明する。図４は本実施形態のＡＶ機器の関連情報取得部１０Ａの構成を示すブロック図である。

本実施形態のＡＶ機器では、外部ソース入力端子から、楽曲情報等の付加データＳＤ０，ＳＤ１を入力することができる構造を有する。これらの付加データＳＤ０，ＳＤ１は、関連情報取得部１０Ａの時刻位置対応情報抽出部１６へ入力される。

時刻位置対応情報抽出部１６には、上述の実施形態にも示した話者音声用音声区間抽出部１２から、発音区間の情報が与えられている。時刻位置対応情報抽出部１６は、当該発音区間の情報に基づいて、該当する時間区間に対応する付加データＳＤ０，ＳＤ１を抽出し、発音区間対応付加データＳＤａを出力する。この際、発音区間対応付加データＳＤａにも発音区間の情報が添付されている。

情報解析部１４Ａは、テキスト形式の発音データＷｓｐａおよび発音区間対応付加データＳＤａから情報検索用テキストデータＷｑを生成する。具体的には、情報解析部１４は、発音データＷｓｐａに対する各種の定型文が記憶している。情報解析部１４は、発音データＷｓｐａと各定型文との一致度を検出することで、最もらしい定型文を選択する。情報解析部１４は、選択した定型文に基づいて、発音区間対応付加データＳＤａから、検索に適する語句を抽出する。情報解析部１４は、この抽出した語句を情報検索用テキストデータＷｑとして出力する。

このように、外部ソース装置から音声信号ではない、テキスト形式の付加データが得られる場合であっても、上述の第１の実施形態と同様に、関連情報をユーザに提供することができる。また、このように付加データが得られる場合であれば、外部ソース音信号の音声認識を行わなくてもよく、処理負荷を軽減することができる。

具体的な実施の状況を図５を用いて説明する。図５は本実施形態の具体的な実施の状況を示す図である。

図５に示すように、外部ソース装置であるメディア再生装置２０２でＣＤやＤＶＤに記録された音楽を再生中に、ユーザが「誰の曲だっけ？」と発言すれば、当該発言が検出される。

次に、検出した「誰の曲だっけ？」の発言と略同時刻の楽曲情報が抽出され、アーティスト名や楽曲名等の語句が抽出される。

次に、抽出された語句に基づいて、当該語句に関連する情報が検索され、関連情報として検出される。例えば、アーティストの詳細情報、ライブ情報、楽曲の歌詞等が関連情報が検出される。この際、情報検索サーバ９２は、外部ネットワーク９００等により定期的に記憶情報が更新されることで、上述のライブ情報とし、近日中や近い将来のライブ情報も提供することができる。

次に、検出された関連情報が、放送中のテレビジョン放送とともに、画面上に表示される。

このような構成とすることで、単に音楽を聴くだけでなく、当該音楽に関連する情報を、ユーザへ容易に提供することができる。

次に、第３の実施形態に係るＡＶ機器について、図を参照して説明する。本実施形態のＡＶ機器は、第２の実施形態に示したＡＶ機器に対して関連情報取得部１０Ｂの構成が異なるのみで、他の構成は同じである。したがって、異なる箇所のみを説明する。図６は本実施形態のＡＶ機器の関連情報取得部１０Ｂの構成を示すブロック図である。

本実施形態のＡＶ機器の関連情報取得部１０Ｂは、第１の実施形態の関連情報取得部１０と第２の実施形態の関連情報取得部１０Ａとを組み合わせたような構成を備える。すなわち、外部ソース装置から付加データＳＤ０，ＳＤ１が得られれば、これらを用いて情報検索を行う。一方、外部ソース装置から付加データＳＤ０，ＳＤ１が得られなければ、外部ソース音信号Ｓｓ０や外部ソース音信号Ｓｓ１を音声認識して情報検索を行う。

関連情報取得部１０Ｂは、上述の各実施形態に示したソース音用音声区間抽出部１３および時刻位置対応情報抽出部１６をともに備えるとともに、付加データ検出部１７を備える。

付加データ検出部１７は、外部ソース装置からの入力信号に付加データＳＤ０，ＳＤ１が存在するかどうかを検出する。付加データ検出部１７は、付加データＳＤ０，ＳＤ１を検出すれば、これらを時刻位置対応情報抽出部１６に出力する。

付加データ検出部１７は、外部ソース音信号Ｓｓ０や外部ソース音信号Ｓｓ１をソース音用音声区間抽出部１３へ出力する。

情報解析部１４Ｂは、付加データＳＤ０，ＳＤ１に基づく発音区間対応付加データＳＤａが入力されれば、これらに基づいて情報検索の語句を抽出する。一方、情報解析部１４Ｂは、発音区間対応付加データＳＤａが入力されなければ、音声認識したテキスト形式の外部ソース音データＷｓａに基づいて情報検索の語句を抽出する。

このような構成であっても、上述の各実施形態と同様に、所望の関連情報を容易に提供することができる。

なお、本実施形態では、付加データＳＤ０，ＳＤ１が存在する場合には、これらに基づく発音区間対応付加データＳＤａのみを用いて情報検索の語句を抽出する例を示した。しかしながら、付加データＳＤ０，ＳＤ１に基づく発音区間対応付加データＳＤａと外部ソース音データＷｓａとを用いて情報検索の語句を抽出してもよい。

１００−ＡＶ機器、２０１−放送信号受信装置２０１、２０２−メディア再生装置、３００−表示装置、９００−外部ネットワーク、
１０１−外部ソース入力端子、１０２−収音信号入力端子、１０３−放音信号出力端子、１０４−映像出力端子、１０−関連情報取得部、２０−出力音生成部、３０−出力映像生成部、４０−エコーキャンセル部、４０１〜４０８−エコーキャンセラ、
１１−話者音声検出部、１２−話者音声用音声区間抽出部、１３−ソース音用音声信号抽出部、１４，１４Ａ−情報解析部、１５−関連情報生成部、１６−時刻位置対応情報抽出部、１７−付加データ検出部、９１−音声認識サーバ、９２−情報検索サーバ

Claims

外部ソースの音信号を取得する外部ソース音取得部と、
ユーザの発声音を収音して発声音信号を取得する発声音取得部と、
前記外部ソースの音信号と前記発声音信号とを時間軸上で対応付けし、該対応付けられた発声音信号と外部ソースの音信号とに基づいて、関連情報を取得する関連情報取得部と、
該関連情報を出力する関連情報出力部と、を備えるＡＶ機器。
請求項１に記載のＡＶ機器であって、
前記関連情報取得部は、
前記発声音信号に基づいて音声区間を検出する音声区間検出部と、
前記音声区間の検出された前記発声音信号を音声認識する発声音認識部と、
前記音声認識された発声音信号に対応付けられた外部ソース音情報を取得する外部ソース音情報取得部と、
前記発声音の音声認識結果と取得した外部ソース音情報とに基づいて、該外部ソース音情報に関連する前記関連情報を検索する関連情報検索部と、を備えるＡＶ機器。
請求項２に記載のＡＶ機器であって、
前記外部ソース音情報取得部は、
前記音声認識された発声音信号に対応付けられた外部ソースの音信号を音声認識することで、前記外部ソース音情報を取得する、ＡＶ機器。
請求項１乃至請求項３のいずれかに記載のＡＶ機器であって、
前記発声音取得部は、
収音信号を生成するマイクロホンと、
放音される外部ソースの音信号に基づいて、前記マイクロホンの収音信号から前記外部ソースの音信号をエコーキャンセル処理するエコーキャンセル部と、を備える、ＡＶ機器。
請求項４に記載のＡＶ機器であって、
前記マイクロホンは複数あり、
前記関連情報取得部は、
前記複数のマイクロホンの収音信号から話者検出を行う話者検出部を備え、
検出された話者毎に前記関連情報の取得処理を実行する、ＡＶ機器。
請求項１乃至請求項５に記載のＡＶ機器であって、
前記外部ソースの映像信号を取得する外部ソース映像取得部と、
前記外部ソースの映像信号を出力する外部ソース映像表示部と、を備え、
前記関連情報出力部は、
前記関連情報を画像化し、該画像を前記外部ソースの映像信号に重畳する、ＡＶ機器。