JP2023070705A

JP2023070705A - 音声出力装置、テレビ受信装置、制御方法及びプログラム

Info

Publication number: JP2023070705A
Application number: JP2021182966A
Authority: JP
Inventors: 光憲田中; Mitsunori Tanaka; 美由紀石田; Miyuki Ishida
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2023-05-22

Abstract

【課題】音声認識処理の精度と出力される音声の聞き取りやすさを両立する音声出力装置、テレビ受信装置、制御方法及びプログラム等の提供。
【解決手段】音声出力装置は、マイクと、第１スピーカー及び第２スピーカーと、マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号を取得する音声信号取得部と、音声信号に基づいて、第１スピーカー及び第２スピーカーから音声を出力する制御を行う制御部と、を含み、音声認識部による音声認識処理が行われる場合、制御部は、第１スピーカーからの音声の出力を停止する出力停止制御、または、音声の音量を所定の閾値以下に低減する音量低減制御を行い、第２スピーカーについては出力停止制御及び音量低減制御を行わない。
【選択図】図１

Description

本発明は、音声出力装置、テレビ受信装置、制御方法及びプログラム等に関する。

従来、音声認識を用いた操作が可能なテレビジョン装置等において、音声認識中にテレビ音声等の出力音声を低減する手法が知られている。例えば特許文献１には、ユーザーによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する手法が開示されている。また特許文献２には、音声認識が失敗した場合には、オーディオ音の音量を必要最小限に低下させ、ユーザーに操作音声を再び発するように促す手法が開示されている。

特開２０１２－１８１３７４号公報特開２０１４－７１１２４号公報

特許文献１や特許文献２の手法では、音声認識時にテレビ音声等の音量を低下させることで、音声認識処理の精度向上を図っている。しかし、音声認識時に出力音声等の音量が低下することによって、ユーザーが当該出力音声を聞き取りにくくなる点が考慮されていない。

本開示のいくつかの態様によれば、音声認識処理の精度と出力される音声の聞き取りやすさを両立する音声出力装置、テレビ受信装置、制御方法及びプログラム等を提供できる。

本開示の一態様は、マイクと、第１スピーカー及び第２スピーカーと、前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号を取得する音声信号取得部と、前記音声信号に基づいて、前記第１スピーカー及び前記第２スピーカーから音声を出力する制御を行う制御部と、を含み、前記音声認識部による前記音声認識処理が行われる場合、前記制御部は、前記第１スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わない音声出力装置に関係する。

本開示の他の態様は、マイクと、第１スピーカー及び第２スピーカーと、前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号を取得する音声信号取得部と、映像信号を取得する映像信号取得部と、前記音声信号に基づいて、前記第１スピーカー及び前記第２スピーカーから音声を出力する制御を行う制御部と、前記映像信号に基づいて画像を表示する表示部と、を含み、前記音声認識部による前記音声認識処理が行われる場合、前記制御部は、前記第１スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わないテレビ受信装置に関係する。

本開示のさらに他の態様は、マイクと、第１スピーカー及び第２スピーカーと、を有する音声出力装置の制御方法であって、前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う場合、前記第１スピーカーからの音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わない制御方法に関係する。

本開示のさらに他の態様は、マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号に基づいて、第１スピーカー及び第２スピーカーから音声を出力する制御を行う制御部として、コンピューターを機能させ、前記音声認識部による前記音声認識処理が行われる場合、前記制御部は、前記第１スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わないプログラムに関係する。

音声出力装置の構成例。テレビ受信装置の外観例。テレビ受信装置の構成例。音量に基づく制御を説明する図。音声出力装置における処理を説明するフローチャート。距離に基づく制御を説明する図。所定周波数成分に基づく制御を説明する図。第２スピーカーから出力される周波数成分を増やす制御を説明する図。出力設定ごとの出力内容の例。音声出力装置における処理を説明するフローチャート。出力設定ごとの出力内容の例。第１スピーカーが出力する音声の周波数特性の例。第２スピーカーが出力する音声の周波数特性の例。複数のマイクを有する音声出力装置の例。

以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

１．システム構成例
図１は、本実施形態の音声出力装置１００の構成例を示す図である。音声出力装置１００は、マイク１１０、スピーカー１２０、音声認識部１３０、音声信号取得部１４０、制御部１５０を含む。また本実施形態の音声出力装置１００は、スピーカー１２０として、複数のスピーカーを含む。図１では第１スピーカー１２１と第２スピーカー１２２を例示したが、スピーカー１２０の数は３以上であってもよい。また音声出力装置１００の構成は図１に限定されず、一部の構成を省略する、他の構成を追加する等の種々の変形実施が可能である。また構成の省略や追加等の変形実施が可能である点は、図２Ｂ等、これ以降の説明においても同様である。

マイク１１０は、音を電気信号に変換する機器である。以下、マイク１１０の出力である電気信号をマイク音声と表記する。ここでのマイク１１０は、コンデンサーの一方の金属板をダイヤフラムに置き換えたコンデンサー型のマイクロフォンであってもよいし、ムービングコイル型等のダイナミックマイクであってもよいし、他の形式のマイクロフォンであってもよい。

スピーカー１２０は、電気信号を音に変換する機器である。第１スピーカー１２１及び第２スピーカー１２２は、それぞれ音声出力装置１００の異なる位置に配置されるスピーカーである。例えば図３等を用いて後述するように、第１スピーカー１２１及び第２スピーカー１２２の一方は、音声出力装置１００の前方側に音声を出力するフロントスピーカー１２３であり、他方は音声出力装置１００の上部に配置され、主に上方に音声を出力するハイトスピーカー１２４であってもよい。ただし、第１スピーカー１２１及び第２スピーカー１２２の一方あるいは両方が、音声出力装置１００の側面に設けられるサイドスピーカーであってもよく、スピーカー１２０の具体的な配置、特性等については種々の変形実施が可能である。

音声認識部１３０は、マイク１１０を介して入力されたマイク音声に基づいて音声認識処理を行う。音声認識処理では、まずマイク音声から特徴量を抽出する音響分析が行われる。音響分析の結果に対して、音響モデルを用いて特徴の近い音素を特定する処理が行われる。さらに発音辞書や言語モデルを用いて、音素を単語、文章に変換することによって音声認識結果が取得される。なお本実施形態の音声認識処理は、以上の手法に限定されず、公知の手法を広く適用可能である。

音声信号取得部１４０は、音声信号を取得する。ここでの音声信号は、マイク音声とは異なる信号である。例えば、音声出力装置１００は、テレビジョン放送の放送波を取得可能な装置である。放送波は、映像信号と音声信号が多重化されたストリームデータである。ここでの映像信号は、ＭＰＥＧ－２（Moving Picture Experts Group）、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ、Ｈ．２６５／ＨＥＶＣ等の圧縮方式を用いて圧縮されたデータであってもよい。音声信号は、ＡＡＣ（Advanced Audio Coding）等の圧縮方式を用いて圧縮されたデータであってもよい。音声信号取得部１４０は、ストリームデータのうちの音声信号を取得する。例えば音声信号取得部１４０は、ストリームデータのデコード処理を行うデコーダーである。

なお、音声出力装置１００はテレビジョン放送の放送波を取得する装置に限定されず、ＢＤ（Blu-ray Disc：Blu-rayは登録商標）やＤＶＤ（Digital Versatile Disc）等の記録メディアから映像信号及び音声信号を含む映像コンテンツを読み出す再生装置であってもよい。また音声出力装置１００は、インターネット等のネットワークを介して映像コンテンツの視聴サービスを利用する装置であってもよい。この場合、音声信号取得部１４０は、映像コンテンツのうちの音声信号を取得する処理を行う。

また音声出力装置１００は、ラジオ放送波を受信する装置であって、音声信号取得部１４０は、当該ラジオ放送波に対応する音声信号を取得してもよい。また音声出力装置１００は、ＣＤ（Compact Disc）やインターネット等から音楽コンテンツを取得する装置であって、音声信号取得部１４０は、当該音楽コンテンツに対応する音声信号を取得してもよい。

制御部１５０は、音声出力装置１００の各部の制御を行う。本実施形態の制御部１５０は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子によって構成できる。１又は複数の回路装置は例えばＩＣ（Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）等である。１又は複数の回路素子は例えば抵抗、キャパシター等である。

また制御部１５０は、下記のプロセッサーによって実現されてもよい。本実施形態の音声出力装置１００は、情報を記憶するメモリーと、メモリーに記憶された情報に基づいて動作するプロセッサーと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサーは、ハードウェアを含む。プロセッサーは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサーを用いることが可能である。メモリーは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリーであってもよいし、レジスタであってもよいし、ＨＤＤ等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリーはコンピューターによって読み取り可能な命令を格納しており、当該命令をプロセッサーが実行することによって、制御部１５０の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサーのハードウェア回路に対して動作を指示する命令であってもよい。

本実施形態の音声出力装置１００は、映像コンテンツや音楽コンテンツ等を再生する機器であり、且つ、ユーザーの発話に基づく音声認識処理を実行する機器である。例えば音声出力装置１００は、対話型の音声操作に対応したスマートスピーカーであってもよいし、音声操作に対応したテレビ受信装置に含まれてもよい。

具体的には、音声信号取得部１４０が音声信号を取得した場合、制御部１５０は、当該音声信号に基づいて、第１スピーカー１２１及び第２スピーカー１２２から音声を出力する制御を行う。このようにすれば、映像コンテンツや音楽コンテンツ等をユーザーに提供することが可能になる。

例えば制御部１５０は、音声信号を第１音声信号と第２音声信号に分離し、第１音声信号を第１スピーカー１２１に出力し、第２音声信号を第２スピーカー１２２に出力する制御を行う。なお制御部１５０は音声信号に対する種々の処理を実行可能であり、例えばプロセッサーによる信号処理を行ってもよいし、フィルターを用いたフィルター処理やアンプを用いた増幅処理を実行させる制御を行ってもよい。なおここでのフィルター及びアンプはデジタル／アナログを問わない。

また本実施形態におけるマイク１１０は、音声出力装置１００のユーザーの発話に基づく音声を電気信号に変換し、変換結果をマイク音声として出力する。音声認識部１３０がマイク音声に対する音声認識処理を行うことによって、音声操作が可能になる。

例えばユーザーは予め決められたホットワードを発話し、音声認識部１３０が当該ホットワードを検出した場合に、対話型の音声操作が開始される。ここでの操作内容は、映像コンテンツや音楽コンテンツの選択、再生、停止、早送り等の操作であってもよいし、音声出力装置１００の設定変更等の操作であってもよいし、他の操作であってもよい。このようにすれば、音声出力装置１００の音声操作が可能になる。音声出力装置１００の本体に設けられる操作部やリモコン等を用いる必要がないため、ユーザーの利便性向上が可能になる。

ただし、スピーカー１２０からの音声出力と、音声認識部１３０による音声認識処理が同時に行われる場合、マイク１１０はスピーカー１２０が出力した音声も検出してしまう。よって音声認識部１３０は、マイク音声からスピーカー１２０の出力音声の成分を低減するエコーキャンセル処理を実行してもよい。ただしエコーキャンセル処理を行ったとしても、スピーカー１２０が出力する音声が音声認識処理に影響を及ぼす場合がある。結果として、マイク音声にユーザーの発話以外の音声が含まれることになり、音声認識処理の精度が低下する可能性がある。

よって音声認識部１３０による音声認識処理が行われる場合、制御部１５０は、第１スピーカー１２１からの音声の出力を停止する出力停止制御、または、第１スピーカー１２１から出力される音声の音量を所定の閾値以下に低減する音量低減制御を行い、且つ、第２スピーカー１２２については出力停止制御及び音量低減制御を行わない。

本実施形態の手法によれば、第１スピーカー１２１と第２スピーカー１２２を含む複数のスピーカー１２０を有する音声出力装置１００において、少なくとも１つのスピーカー１２０についてミュートまたは音量低減をしつつ、他の少なくとも１つのスピーカー１２０については音声認識処理を行わない場合と同様の出力が継続される。

結果として、音声認識処理と、スピーカー１２０による音声出力とを両立した制御が可能になる。具体的には、第１スピーカー１２１を対象として出力停止制御か音量低減制御が行われるため、第１スピーカー１２１が音声認識処理を行わない場合と同様の出力を継続する場合に比べて、マイク１１０に入るノイズを低減でき、音声認識処理の精度が向上する。一方で、第２スピーカー１２２については通常の音声出力が継続されるため、ユーザーにとって音声が聞き取りにくくなることを抑制できる。例えば特許文献１や特許文献２等の従来手法ではテレビの音量が下げられるため、テレビ音声の聞き取りが難しくなる可能性があるが、本実施形態では第２スピーカー１２２を用いることでテレビ音声の聞き取りやすさを維持（聞き取りやすさが損なわれることを抑制）することが可能である。

なお、本実施形態における音量低減制御とは、例えば可聴帯域の中の各周波数における音量の平均や合計が低下する制御であればよく、一部の周波数帯域において音量が増加することは妨げられない。例えば図１１Ａを用いて後述するように、低音域や高音域の音量が増加する制御であっても、中音域の音量を下げることで全体としての音量が下がる制御であれば、当該制御は本実施形態における音量低減制御に含まれる。

また本実施形態の手法は、上記の音声出力装置１００と同様の制御を行うテレビ受信装置２００に適用できる。図２Ａはテレビ受信装置２００の外観例を示す図であり、図２Ｂはテレビ受信装置２００の構成例を示す図である。

図２Ｂに示すように、テレビ受信装置２００は、マイク１１０、第１スピーカー１２１、第２スピーカー１２２、音声認識部１３０、音声信号取得部１４０、制御部１５０、映像信号取得部１６０、表示部１７０を含む。マイク１１０、第１スピーカー１２１、第２スピーカー１２２、音声認識部１３０、音声信号取得部１４０、制御部１５０については、それぞれ音声出力装置１００と同様であるため詳細な説明は省略する。

映像信号取得部１６０は、映像信号を取得する。ここでの映像信号は、テレビジョン放送の放送波に含まれる信号であってもよい。あるいはテレビ受信装置２００は、ＢＤ等の記録メディアやインターネット等のネットワークから映像コンテンツを取得する装置であってもよい。この場合、映像信号取得部１６０は、映像コンテンツのうちの映像信号を取得する処理を行う。映像信号取得部１６０は、例えば映像信号のデコード処理を行うデコーダーであってもよい。

表示部１７０は、映像信号取得部１６０が取得した映像信号に基づいて画像を表示する。例えば図２Ｂに示したように、制御部１５０は、映像信号に基づく画像を表示部１７０に表示する制御を行ってもよい。表示部１７０は、例えば液晶ディスプレイや有機ＥＬディスプレイ等、種々のディスプレイにより実現できる。

このようにすれば、映像信号と音声信号の両方をユーザーに提供する場合において、音声認識処理と、スピーカー１２０による音声出力とを両立した制御が可能になる。

また本実施形態の手法は、マイク１１０と、第１スピーカー１２１及び第２スピーカー１２２と、を有する音声出力装置１００の制御方法に適用できる。制御方法は、マイク１１０を介して入力されたマイク音声に基づいて音声認識処理を行う場合、第１スピーカー１２１からの音声の出力を停止する出力停止制御、または、第１スピーカー１２１から出力される音声の音量を所定の閾値以下に低減する音量低減制御を行い、第２スピーカー１２２については出力停止制御及び音量低減制御を行わない。

また、本実施形態の音声出力装置１００またはテレビ受信装置２００が行う処理の一部又は全部は、プログラムによって実現されてもよい。音声出力装置１００またはテレビ受信装置２００が行う処理とは、狭義には制御部１５０、音声認識部１３０が行う処理である。

本実施形態に係るプログラムは、例えばコンピューターによって読み取り可能な媒体である非一時的な情報記憶装置（情報記憶媒体）に格納できる。情報記憶装置は、例えば光ディスク、メモリーカード、ＨＤＤ、或いは半導体メモリーなどによって実現できる。半導体メモリーは例えばＲＯＭである。制御部１５０等は、情報記憶装置に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち情報記憶装置は、制御部１５０等としてコンピューターを機能させるためのプログラムを記憶する。コンピューターは、入力装置、処理部、記憶部、出力部を備える装置である。具体的には本実施形態に係るプログラムは、図４や図９等を用いて後述する各ステップを、コンピューターに実行させるためのプログラムである。

例えば本実施形態に係るプログラムは、マイク１１０を介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部１３０と、音声信号に基づいて第１スピーカー１２１及び第２スピーカー１２２から音声を出力する制御を行う制御部１５０として、コンピューターを機能させる。

以下、第１～第５実施形態及び変形例について詳細に説明する。なお、第１～第３実施形態では、第１スピーカー１２１と第２スピーカー１２２を設定する手法について説明する。また第４、及び第５実施形態では出力停止制御や音量低減制御に加えて実行される制御について説明する。

２．第１実施形態
図３は、本実施形態における音声出力装置１００の動作を説明する図である。また図３は、マイク１１０と複数のスピーカー１２０の概略的な位置関係を例示する図である。例えば図面の上下方向が音声出力装置１００の動作状態における鉛直方向を表し、図面の左右方向が水平方向を表す。なお図３は音声信号の取得、及びスピーカー１２０からの出力に関する構成を例示するものであり、音声認識部１３０等は省略されている。音声出力装置１００は、マイク１１０、フロントスピーカー１２３、ハイトスピーカー１２４、デコーダー１４１、プロセッサー１５１、スプリッター１５２、アンプ１５３、アンプ１５４を含む。デコーダー１４１が音声信号取得部１４０に対応する。プロセッサー１５１が制御部１５０に対応する。なお制御部１５０は、スプリッター１５２、アンプ１５３、アンプ１５４等を含んでもよい。

マイク１１０の設けられる位置は任意である。例えば図３では、マイク１１０は、相対的にハイトスピーカー１２４に近い本体上部側に設けられる。

図３では、複数のスピーカー１２０として、本体下部に設けられ正面側に音声を出力するフロントスピーカー１２３と、本体上部に設けられ上方側に音声を出力するハイトスピーカー１２４が設けられる例を図示している。ただし、スピーカー１２０の具体的な配置等は種々の変形実施が可能である。また図３では、フロントスピーカー１２３は、フロントスピーカー（Ｒ）１２３Ｒと、フロントスピーカー（Ｌ）１２３Ｌを含むステレオスピーカーである例を示している。同様に、ハイトスピーカー１２４は、ハイトスピーカー（Ｒ）１２４Ｒと、ハイトスピーカー（Ｌ）１２４Ｌを含むステレオスピーカーであってもよい。

本実施形態における第１スピーカー１２１や第２スピーカー１２２とは、左右のチャンネルに対応する２つの出力部を含むステレオスピーカーであってもよい。即ち、第１スピーカー１２１を対象とした出力停止制御や音量低減制御とは、左右のチャンネルに対応する２つの出力部に対して実行されてもよい。ただし、第１スピーカー１２１や第２スピーカー１２２は、モノラルスピーカーであってもよい。

テレビジョン放送の放送波等である放送データは、デコーダー１４１によりデコードされた後、音声信号としてプロセッサー１５１に入力される。プロセッサー１５１は音声信号をスプリッター１５２に出力し、スプリッター１５２は音声信号を分離してアンプ１５３とアンプ１５４に出力する。アンプ１５３は、音声信号の増幅処理を行い、増幅後の信号をフロントスピーカー１２３に出力する。アンプ１５４は、音声信号の増幅処理を行い、増幅後の信号をハイトスピーカー１２４に出力する。

例えばフロントスピーカー１２３とハイトスピーカー１２４の一方が出力停止制御や音量低減制御の対象である第１スピーカー１２１に対応し、他方が第２スピーカー１２２に対応する。

本実施形態の手法では、各スピーカー１２０の音量に基づいて、第１スピーカー１２１及び第２スピーカー１２２が設定される。具体的には、出力停止制御及び音量低減制御が行われない状態において、第１スピーカー１２１の音量を表す第１音量は、第２スピーカー１２２の音量を表す第２音量に比べて大きい。

このようにすれば、相対的に音量が大きいスピーカー１２０が第１スピーカー１２１に設定される。マイク１１０が検出するマイク音声には、音量が大きいスピーカー１２０から出力された音声の成分が多く含まれる蓋然性が高い。即ち、音量が大きいスピーカー１２０からの音声が、音声認識処理におけるノイズ要因となりやすい。その点、本実施形態の手法によれば、音量が大きいスピーカー１２０が出力停止制御または音量低減制御の対象となるため、音声認識処理の精度向上が可能である。また、第２スピーカー１２２は相対的に音量が小さいため、音声認識処理の際にミュートや音量低減をしなかったとしても、音声認識処理への影響を抑制できる。

ここで第１音量と第２音量とは種々の音量を用いることが可能であり、例えば以下の（１）～（３）のいずれが用いられてもよい。
（１）第１音量は、制御部１５０が第１スピーカー１２１に出力する音声信号の振幅に基づく音量であり、第２音量は、制御部１５０が第２スピーカーに出力する音声信号の振幅に基づく音量である
（２）第１音量は、第１スピーカー１２１が音声信号に基づいて出力する音量であり、第２音量は、第２スピーカー１２２が音声信号に基づいて出力する音量である
（３）第１音量は、第１スピーカー１２１が出力する音声をマイク１１０で受信する場合の受信音量であり、第２音量は、第２スピーカー１２２が出力する音声をマイク１１０で受信する場合の受信音量である

上記（１）における振幅は、図３におけるプロセッサー１５１の出力の振幅であってもよいし、アンプ１５３及びアンプ１５４の出力の振幅であってもよい。例えばこの場合の音量は、デジタルデータである信号値で表されてもよいし、アナログの電圧値等で表されてもよい。同じ信号が入力された場合であっても、スピーカー１２０の特性によって、実際に出力される音声は変化する。しかし、スピーカー１２０に入力される信号の振幅と、スピーカー１２０から出力される音声の大きさには相関があることから、制御部１５０が出力する音声信号の振幅を各スピーカー１２０の音量を表す情報として用いることが可能である。

上記（２）における音量は、例えば音声出力装置１００の出荷前に、各スピーカー１２０の近くに検査用マイクを配置し、当該検査用マイクを用いて検出された受信音量であってもよい。あるいは、音声出力装置１００に含まれる各スピーカー１２０の特性を表すパラメーターがあらかじめ取得されており、当該パラメーターに基づいて、上記（２）における音量が推定されてもよい。この場合の音量は、ｄＢ等の単位で表現される情報であってもよいし、電気信号に変換された後の信号値や電圧値等であってもよい。

上記（３）における音量は、例えば第１スピーカー１２１に検査用音声信号を出力した際にマイク１１０が出力するマイク音声の音量と、第２スピーカー１２２に同等の検査用音声信号を出力した際にマイク１１０が出力するマイク音声の音量であってもよい。この処理は、音声出力装置１００の出荷前に実行されてもよいし、出荷後にユーザーによる検査モードの実行指示に基づいて実行されてもよい。あるいは、各スピーカー１２０の位置姿勢や指向性、マイク１１０の位置姿勢や指向性に基づいて、マイク１１０での受信音量が推定されてもよい。この場合の音量は、ｄＢ等の単位で表現される情報であってもよいし、電気信号に変換された後の信号値や電圧値等であってもよい。

上記（１）を用いる場合、制御部１５０の出力から音量が決定できるため、第１スピーカー１２１及び第２スピーカー１２２の設定が容易である。上記（２）を用いる場合、スピーカー１２０の出力である音声が対象となるため、スピーカー１２０の特性を考慮することが可能になる。上記（３）を用いる場合、マイク１１０での受信音量が用いられるため、音声認識処理への影響度合いが大きいスピーカーを適切に第１スピーカー１２１に設定することが可能になる。

例えば図３に示したように、フロントスピーカー１２３の音量が相対的に大きく、ハイトスピーカー１２４の音量が相対的に小さいと判定されたとする。この場合、フロントスピーカー１２３が第１スピーカー１２１に対応し、ハイトスピーカー１２４が第２スピーカー１２２に対応する。

図４は、本実施形態における処理を説明するフローチャートである。まずステップＳ１０１において、制御部１５０は、音声認識部１３０でホットワードが検出されることを待機する。ホットワードは、上述したように音声操作のトリガーとして、あらかじめ定められたワードである。

ステップＳ１０２において、制御部１５０はホットワードが検出されたか否かを判定する。例えば、音声認識部１３０は音声認識処理の結果であるテキストを制御部１５０に出力し、制御部１５０がホットワードの有無を判定してもよい。あるいは、音声認識部１３０においてホットワードの有無まで判定し、制御部１５０は音声認識部１３０からホットワードが検出された旨の通知を受けたか否かを判定してもよい。ホットワードが検出されない場合（ステップＳ１０２でＮｏ）、ステップＳ１０１に戻り、ホットワードの検出待ちが継続される。なお、リモコン等のボタン押下が音声認識処理の開始トリガーとなってもよく、ホットワードの検出は必須ではない。

ホットワードが検出された場合、ステップＳ１０３において、制御部１５０は第１スピーカー１２１からの音声出力を停止する出力停止制御（ミュート）、または、第１スピーカー１２１から出力される音声の音量を所与の閾値にする音量低減制御を行う。即ち、本実施形態において出力停止制御または音量低減制御が実行される「音声認識処理が行われる場合」には、ホットワードを認識する処理は含まれなくてもよい。このようにすれば、音声認識処理の精度が必要な場面において、出力停止制御または音量低減制御を実行できる。

音量低減制御における閾値は、第１スピーカー１２１からの音声による音声認識処理への影響を抑制できる値であればよく、種々の設定が可能である。閾値は固定値であってもよいし、音量低減制御が行われない場合の音量の平均等に基づいて動的に決定される値であってもよい。

例えば、音声出力装置１００は、図３に示すようにプロセッサー１５１と、第１スピーカー１２１であるフロントスピーカー１２３の経路上に設けられるスイッチを含んでもよい。図３では、スプリッター１５２とアンプ１５３の間にスイッチが設けられる例を示したが、スイッチはアンプ１５３とフロントスピーカー１２３の間等、他の位置に設けられてもよい。制御部１５０は、ステップＳ１０３において当該スイッチをオフにすることによって出力停止制御を行ってもよい。

あるいは、制御部１５０は、ステップＳ１０３においてアンプ１５３の増幅率を下げることによって音量低減制御を行ってもよい。あるいは、出力停止制御や音量低減制御はプロセッサー１５１によって実行されてもよい。例えばプロセッサー１５１は、デジタル信号である音声信号に対する信号処理を行う機能を有する。プロセッサー１５１は、第１スピーカー１２１に出力される信号の振幅を０にすることで出力停止制御を行ってもよいし、当該振幅を下げることによって音量低減制御を行ってもよい。以上のように、本実施形態における出力停止制御や音量低減制御は種々の手法を用いて実現することが可能である。

またステップＳ１０３において、制御部１５０は第２スピーカー１２２に対応するハイトスピーカー１２４については、出力停止制御及び音量低減制御を行わない。そのため制御部１５０は、プロセッサー１５１からハイトスピーカー１２４までの経路を遮断するスイッチ制御、アンプ１５４の増幅率を下げる制御、プロセッサー１５１におけるハイトスピーカー１２４用の信号振幅を下げる信号処理等を実行する必要がない。ステップＳ１０３の処理によって、音声認識処理の精度を高くしつつ、スピーカー１２０から出力される音声が聞き取りにくくなることを抑制できる。

ステップＳ１０４において、制御部１５０は、ユーザーからの質問または指示を待ち受ける処理を行う。ステップＳ１０５において、質問または指示を表す音声入力を受け付ける。例えばステップＳ１０５において、音声認識部１３０が音声認識処理の結果であるテキストデータ等を制御部１５０に出力し、制御部１５０は当該テキストデータの解釈処理等を実行する。

ステップＳ１０６において、制御部１５０は、質問または指示に対する応答を行う。例えば、ユーザーの音声入力が特定の映像コンテンツの再生指示であった場合、制御部１５０は、当該映像コンテンツの再生を開始する制御を行う。他の操作指示であった場合も同様に、制御部１５０は指示に対応する制御を実行する。またユーザーの音声入力が何らかの質問であった場合、制御部１５０は当該質問の答えを出力する。例えばテレビ受信装置２００のように表示部１７０を含む機器である場合、制御部１５０は、質問の答えを含む画面を表示部１７０に表示してもよい。ここでの質問は、音声出力装置１００やテレビ受信装置２００の操作方法等に関する質問であってもよいし、天気、時間、特定の言葉の意味等、音声出力装置１００とは関連しない質問であってもよい。

ステップＳ１０７において、制御部１５０は、質問または指示を終了する終了条件が満たされたかを判定する。ここでの終了条件は、ユーザーの発話が所定時間検出されないことであってもよいし、質問等を終了する旨のワードが検出されたことであってもよいし、他の条件であってもよい。終了条件が満たされない場合、ステップＳ１０６に戻って応答が継続される。場合によっては、ステップＳ１０４に戻り、新たな質問等の受付が行われてもよい。

終了条件が満たされた場合、ステップＳ１０８において、制御部１５０は第１スピーカー１２１の音声出力を通常に戻す制御を行う。即ち、ステップＳ１０８以降は、再度ホットワードが検出されるまで、第１スピーカー１２１についても出力停止制御や音量低減制御が実行されない。

なお図４のステップＳ１０４－Ｓ１０７は音声認識処理を用いた制御の一例である。音声入力によって質問や操作を行う手法は種々知られており、本実施形態ではそれらを広く適用可能である。

３．第２実施形態
第１スピーカー１２１及び第２スピーカー１２２を設定する他の基準について説明する。本実施形態ではスピーカー１２０とマイク１１０の距離に基づいて第１スピーカー１２１及び第２スピーカー１２２が設定されてもよい。

本実施形態では、第１スピーカー１２１とマイク１１０との第１距離は、第２スピーカー１２２とマイク１１０との第２距離に比べて短い。即ち、相対的にマイク１１０に近いスピーカー１２０が第１スピーカー１２１に設定される。

例えばマイクとスピーカー間の距離を３１０ｍｍとしたときの音声認識処理の正解率が９２％であり、マイクとスピーカー間の距離を２３０ｍｍとしたときの音声認識処理の正解率が７５％という実験結果が得られている。なお、上記の実験は、ユーザーの発話による音量が６２－８３ｄＢ、スピーカー１２０から出力される音量が５９ｄＢ、テレビ受信装置２００のサイズが４５インチという条件で行われた。このように、スピーカー１２０とマイク１１０の距離が近いほど、当該スピーカー１２０から出力される音声がノイズとなり、音声認識処理の精度が低下する可能性がある。そのため、よりマイク１１０に近いスピーカー１２０を第１スピーカー１２１に設定することによって、音声認識処理の精度向上が可能になる。

図５は、本実施形態における処理を説明する図である。マイク１１０、フロントスピーカー１２３、ハイトスピーカー１２４、デコーダー１４１、プロセッサー１５１、スプリッター１５２、アンプ１５３、アンプ１５４については図３と同様である。図５に示すように、この例ではマイク１１０は本体上部に設けられるため、ハイトスピーカー１２４とマイク１１０の距離は、フロントスピーカー１２３とマイク１１０の距離に比べて短い。よってこの場合、ハイトスピーカー１２４が第１スピーカー１２１に対応し、フロントスピーカー１２３が第２スピーカー１２２に対応する。

本実施形態の処理の流れは図４を用いて上述した例と同様である。ただし、ステップＳ１０３において、出力停止制御または音量低減制御の対象となる第１スピーカー１２１が、距離に基づいて設定される点が異なる。図５の例では、ハイトスピーカー１２４が第１スピーカー１２１に対応するため、例えばステップＳ１０３において、プロセッサー１５１とハイトスピーカー１２４の経路上に設けられるスイッチをオフにする制御が実行される。ただし、出力停止制御や音量低減制御を実現するための具体的な手法は、第１実施形態と同様に種々の変形実施が可能である。

４．第３実施形態
第１スピーカー１２１及び第２スピーカー１２２を設定する他の基準について説明する。本実施形態では人が聞くことのできる可聴帯域のうちの一部の周波数帯域に基づいて、第１スピーカー１２１及び第２スピーカー１２２が設定されてもよい。

本実施形態では第１実施形態と同様に、出力停止制御及び音量低減制御が行われない状態において、第１スピーカー１２１の音量を表す第１音量は、第２スピーカー１２２の音量を表す第２音量に比べて大きくてもよい。ただし第１音量は、第１スピーカー１２１の第３周波数帯域における音量を表し、第２音量は、第２スピーカー１２２の第３周波数帯域における音量を表してもよい。

例えば、第３周波数帯域とは、可聴帯域を低音、中音、高音の３つの帯域に分割したときの中音に対応する周波数帯域であってもよい。例えば低音は２０Ｈｚ－２００Ｈｚに対応し、中音は２００－２ｋＨｚに対応し、高音は２ｋＨｚ－２０ｋＨｚに対応する。ただし、ここでの周波数帯域は一例であり、各音域が異なる周波数帯域に対応してもよい。

人の発話による音声の周波数帯域は１００Ｈｚ－１ｋＨｚ程度であり、主に中音に対応する。そのため、スピーカー１２０から出力された中音に対応する音声は、音声認識処理におけるノイズとなる蓋然性が高い。よって中音での音量が相対的に大きいスピーカー１２０を第１スピーカー１２１に設定することによって、音声認識処理の精度を向上させることが可能になる。なお第３周波数帯域は中音域に限定されず、人の発話に対応する周波数帯域であってもよいし、他の帯域であってもよい。また第３周波数帯域が低音や高音に対応する周波数帯域となることも妨げられない。

図６は、本実施形態における処理を説明する図である。マイク１１０、フロントスピーカー１２３、ハイトスピーカー１２４、デコーダー１４１、プロセッサー１５１、スプリッター１５２、アンプ１５３、アンプ１５４については図３と同様である。

図６に示したように、制御部１５０は、フロントスピーカー１２３とハイトスピーカー１２４とで出力する音声の周波数帯を分けてもよい。図６の例では、ハイトスピーカー１２４が低音に対応する２０－２００Ｈｚの音声を出力し、フロントスピーカー１２３が中音及び高音に対応する２００－２０ｋＨｚの音声を出力する。よってこの場合、中音域を出力するフロントスピーカー１２３が第１スピーカー１２１に対応し、ハイトスピーカー１２４が第２スピーカー１２２に対応する。

あるいは、本実施形態では、可聴帯域のうちの一部の周波数帯域と、他の周波数帯域との関係に基づいて、第１スピーカー１２１及び第２スピーカー１２２が設定されてもよい。

例えば、第４周波数帯域以外の帯域を含む音量に対する、第４周波数帯域における音量を音量比とする。ここでの第４周波数帯域は、第３周波数帯域と同じ帯域であってもよいし、異なる帯域であってもよい。第４周波数帯域は、例えば上記の中音であってもよいし、人の発話に対応する周波数帯域であってもよいし、他の帯域であってもよい。

第４周波数帯域における音量とは、第４周波数帯域に含まれる各周波数での音量の平均であってもよいし、合計（積分）であってもよい。音量は、信号値や電圧値等であってもよいし、ｄＢ等の単位で表現されてもよい。第４実施帯域以外の帯域を含む音量とは、第４周波数帯域以外の帯域に含まれる各周波数での音量の平均や合計であってもよいし、可聴帯域全体での音量の平均や合計であってもよい。

そして出力停止制御及び音量低減制御が行われない状態において、第１スピーカー１２１の音量比は、第２スピーカー１２２の音量比より大きい。即ち、相対的に音量比の大きいスピーカーが第１スピーカー１２１に設定されてもよい。

このようにすれば、第４周波数帯域の成分を多く出力するスピーカー１２０が第１スピーカー１２１に設定されやすくなる。そのため、例えば第４周波数帯域を中音とすれば、上述した例と同様の制御が可能になる。さらに、音量比を用いる場合には、第４周波数帯域以外の成分を多く出力するスピーカー１２０が、第１スピーカー１２１として選択されにくくなる。例えば、低音や高音の成分を多く出力するスピーカー１２０が出力停止制御や音量低減制御の対象となりにくくなる。結果として、音声認識処理への影響が小さい周波数帯域を多く含む音声信号の出力が継続されるため、音声認識処理の精度を上げつつ、ユーザーの聞き取りやすさが損なわれることを抑制できる。

本実施形態の処理の流れは図４を用いて上述した例と同様である。ただし、ステップＳ１０３において、出力停止制御または音量低減制御の対象となる第１スピーカー１２１が、第３周波数帯域の音量、または第４周波数帯域の音量比に基づいて設定される点が異なる。

５．第４実施形態
本実施形態では、音声認識処理の実行時に制御部１５０が実行する制御の他の例について説明する。なお、本実施形態における第１スピーカー１２１及び第２スピーカー１２２の設定基準は任意であり、第１－第３実施形態のいずれが用いられてもよい。

例えば図６を用いて上述したように、いずれかのスピーカー１２０が一部の音域用に用いられる場合がある。図６の例では、ハイトスピーカー１２４が低音域用として使用され、フロントスピーカー１２３が中音及び高音域用に使用される。また図１０の出力設定１として後述するように、フロントスピーカー１２３が全音域を出力し、ハイトスピーカー１２４が中音及び高音域用として使用される場合も考えられる。

このような場合、第１スピーカー１２１に対して出力停止制御を行うと、第２スピーカー１２２の出力を継続したとしても、一部の周波数帯域の音声が出力されない可能性がある。また第１スピーカー１２１に対して音量低減制御を行うと、第２スピーカー１２２の出力を継続したとしても、一部の周波数帯域の音量が極端に小さくなる可能性がある。この場合、周波数帯域ごとの音量のバランスが崩れるため、コンテンツの音声信号の聞こえ方が大きく変化してしまい、ユーザーに違和感を与える可能性がある。

よって制御部１５０は、音声認識処理が行われる場合、音声認識処理が行われない場合に第２スピーカー１２２が出力する音声には含まれない第１周波数帯域の成分を含む音声を、第２スピーカー１２２から出力する制御を行ってもよい。第１周波数帯域は低音域であってもよいし、中音域であってもよいし、高音域であってもよいし、これらのうちの２つの組み合わせであってもよい。また周波数帯域の分割は低音、中音、高音の３つに限定されず、第１周波数帯域は他の帯域を表してもよい。

このようにすれば、音声認識処理を行っている間、第２スピーカー１２２の出力する音声は、通常時に比べて周波数成分が増えた状態となる。第２スピーカー１２２の出力バランスがとれるため、第１スピーカー１２１に対する出力停止制御や音量低減制御を行ったとしても、ユーザーに違和感を与えることを抑制できる。

例えば第１周波数帯域は、音声認識処理が行われない場合に、第１スピーカー１２１が出力を担当する周波数帯域であってもよい。例えば音声認識部１３０による音声認識処理が行われていない場合、制御部１５０は、第１スピーカー１２１から第１音声を出力し、第２スピーカー１２２から第２音声を出力する制御を行うとする。そして音声認識部１３０による音声認識処理が行われる場合、制御部１５０は、第１スピーカー１２１に対して出力停止制御または音量低減制御を行い、第２スピーカー１２２から合成音声を出力する制御を行う。合成音声とは、第２音声に第１音声の少なくとも一部の成分が合成された音声を表す。換言すれば、制御部１５０は、本来であれば第１スピーカー１２１から出力する予定であった音声を、第２スピーカー１２２に振り替えて出力する制御を行ってもよい。

図７は、本実施形態における処理を説明する図である。マイク１１０、フロントスピーカー１２３、ハイトスピーカー１２４、デコーダー１４１、プロセッサー１５１、スプリッター１５２、アンプ１５３、アンプ１５４については図３と同様である。この例ではフロントスピーカー１２３が第１スピーカー１２１に対応し、ハイトスピーカー１２４が第２スピーカー１２２に対応する。

図７に示すように、スプリッター１５２は２つの音声信号を出力する機器であって、第１音声信号はスイッチによってアンプ１５３に出力されるか、アンプ１５４に出力されるかが切り替えられる。第２音声信号はアンプ１５４に出力される。

例えば音声認識処理が行われない場合には、スイッチはアンプ１５３に接続される。この場合、第１音声信号がアンプ１５３を介してフロントスピーカー１２３に出力されることで、フロントスピーカー１２３から第１音声が出力される。第２音声信号がアンプ１５４を介してハイトスピーカー１２４に出力されることで、ハイトスピーカー１２４から第２音声が出力される。

一方、音声認識処理が行われる場合、スイッチはアンプ１５４に接続される。この場合、プロセッサー１５１とフロントスピーカー１２３の経路が遮断されるため、フロントスピーカー１２３に対する出力停止制御が行われる。また第１音声信号と第２音声信号の両方がアンプ１５４を介してハイトスピーカー１２４に出力されることで、合成音声が出力される。

このようにすれば、第１スピーカー１２１に対する出力停止制御や音量低減制御によってミュートまたは低減されるはずであった成分の音声を、第２スピーカー１２２から出力することが可能になる。そのため、音声認識処理を行っている間も、ユーザーの聞き取りやすさを維持することが可能になる。また、音声認識処理を行っている間も第１音声に対応する音声が出力対象となるが、音声認識処理への影響が相対的に小さい第２スピーカー１２２に出力元のスピーカー１２０が変更されるため、音声認識処理の精度を向上させることも可能である。一例としては、音量が小さいスピーカー１２０、または、マイク１１０からの距離が遠いスピーカー１２０が第２スピーカー１２２となるため、第１スピーカー１２１から第１音声を出力する場合に比べて、音声認識処理の精度向上が可能である。

また図７では、スイッチを用いて第２スピーカー１２２から合成音声を出力する例を説明した。ただし合成音声を出力する手法はこれに限定されない。例えば、プロセッサー１５１において、信号処理を行うことによって、第１音声信号と第２音声信号の合成処理が行われてもよい。

図８は、プロセッサー１５１の出力内容を説明する図である。例えば出力設定１の場合、プロセッサー１５１は、フロントスピーカー１２３に対して中音及び高音に対応する音声信号を出力し、ハイトスピーカー１２４に対して低音に対応する音声信号を出力する。このようにすれば、図６の例と同様に、ハイトスピーカー１２４を低音用、フロントスピーカー１２３を中・高音用に使い分けることが可能になる。例えばデコーダー１４１は低・中・高音域が分離されていない音声信号を取得し、プロセッサー１５１が周波数解析処理等を行うことによって低音域の音声信号と、中・高音域の音声信号とに分離してもよい。

また出力設定２の場合、プロセッサー１５１は、フロントスピーカー１２３に対して出力を行わず、ハイトスピーカー１２４に対して低・中・高音に対応する音声信号を出力する。例えばデコーダー１４１が低・中・高音域が分離されていない音声信号を取得する場合、プロセッサー１５１は当該音声信号をそのままハイトスピーカー１２４に出力する制御を行ってもよい。

ただし、プロセッサー１５１は、周波数帯域ごとに分離された音声信号を取得し、出力設定及びスピーカー１２０に応じた帯域の信号を合成する処理を行ってもよい。あるいはプロセッサー１５１は、本来第１スピーカー１２１に出力する第１音声信号のすべてを第２音声信号に合成するのではなく、第１音声信号の一部の帯域を抽出し、抽出結果を第２音声信号に合成してもよい。その他、プロセッサー１５１において実行される信号処理の具体的な内容は種々の変形実施が可能である。

図９は本実施形態の処理を説明するフローチャートである。まずステップＳ２０１において制御部１５０は、音声出力を出力設定１に設定する。出力設定１は、音声認識処理を実行していない場合の設定であり、例えば図８の上段に示した通りである。

次にステップＳ２０２において、制御部１５０は、音声認識部１３０でのホットワードが検出されることを待機する。ステップＳ２０３において、制御部１５０はホットワードが検出されたか否かを判定する。

ホットワードが検出された場合、ステップＳ２０４において、制御部１５０は、音声出力を出力設定２に設定する。出力設定２は、音声認識処理を実行している場合の設定であり、例えば図８の下段に示した通りである。図８の例であれば、制御部１５０は第１スピーカー１２１であるフロントスピーカー１２３からの音声出力を停止する出力停止制御を行い、第２スピーカー１２２であるハイトスピーカー１２４から、低音に加えて、中・高音も含む音声を出力する制御を行う。

図９のステップＳ２０５－Ｓ２０８については、図４のステップＳ１０３－Ｓ１０７と同様であるため詳細な説明は省略する。質問または指示の終了条件が満たされた場合（ステップＳ２０８でＹｅｓ）、ステップＳ２０９において、制御部１５０は音声出力を出力設定１に戻す制御を行う。即ち、ステップＳ２０９以降は、再度ホットワードが検出されるまで、第１スピーカー１２１についても出力停止制御や音量低減制御が実行されない。

６．第５実施形態
本実施形態では、音声認識処理の実行時に制御部１５０が実行する制御の他の例について説明する。なお、本実施形態における第１スピーカー１２１及び第２スピーカー１２２の設定基準は任意であり、第１－第３実施形態のいずれが用いられてもよい。以下、フロントスピーカー１２３が第１スピーカー１２１に対応し、ハイトスピーカー１２４が第２スピーカー１２２に対応する例を説明する。

本実施形態の制御部１５０は、音声認識処理が行われる場合、音声認識処理が行われない場合に比べて、第２周波数帯域の成分が低減された音声を第１スピーカー１２１から出力する制御を行う。ここでの第２周波数帯域は、例えば中音域である。また第２周波数帯域は、人の発話に対応する周波数帯域であってもよいし、他の帯域であってもよい。

このようにすれば、第１スピーカー１２１から出力される音声のうち、第２周波数帯域の成分が音声認識処理に与える影響を抑制できる。例えば、第２周波数帯域として、人の発話に用いられる帯域やそれに近い帯域を設定することによって、音声認識処理の精度向上が可能になる。

この際、第１スピーカー１２１から出力される音声のうち、第２周波数帯域以外の帯域については低減されなくてもよい。即ち、音声認識処理への影響が相対的に低い帯域については、音声認識処理の実行時にも第１スピーカー１２１からの出力が維持されてもよい。このようにすれば、音声認識処理の精度を向上させつつ、ユーザーの聞き取りやすさを維持することが可能になる。また、本実施形態における音量低減制御とは、例えば可聴帯域全体における音量の平均や合計が低下する制御であればよく、第２周波数帯域以外の帯域において音量が増加する制御が実行されてもよい。

ただし、日常生活において、人が最も認識しやすい音域は中音であることが知られている。例えば第２周波数帯域として中音域やそれに対応する帯域の音量が低減された場合、ユーザーの聞き取りやすさに与える影響が大きい可能性がある。

よって制御部１５０は、音声認識処理が行われる場合、音声認識処理が行われない場合に比べて、第２周波数帯域の成分が増加した音声を第２スピーカー１２２が出力する制御を行ってもよい。このようにすれば、第２周波数帯域の成分が第２スピーカー１２２によって補われるため、音声認識処理の間もユーザーの聞き取りやすさを維持することが可能になる。

図１０は、プロセッサー１５１の出力内容を説明する図である。例えば出力設定１の場合、プロセッサー１５１は、フロントスピーカー１２３に対して低・中・高音のすべての帯域に対応する音声信号を出力し、ハイトスピーカー１２４に対して中音及び高音に対応する音声信号を出力する。

また出力設定２の場合、プロセッサー１５１は、フロントスピーカー１２３に対して、出力設定１に比べて中音の音量を下げた音声信号を出力し、ハイトスピーカー１２４に対して、出力設定１に比べて中音の音量を上げた音声信号を出力する。

例えばプロセッサー１５１は、音声信号に対してＦＦＴ（fast Fourier transform）等の周波数解析処理を行い、フロントスピーカー１２３用の音声信号については中音域に対応する信号値を小さくし、ハイトスピーカー１２４用の音声信号については中音域に対応する信号値を大きくする処理を行ってもよい。あるいはプロセッサー１５１は、バンドパスフィルター等のフィルター処理を行うことによって中音の音量を制御してもよい。例えばプロセッサー１５１は、フロントスピーカー１２３用の音声信号についてはバンドパスフィルターによって中音域の信号を抽出し、抽出した信号を元信号から減算してもよい。またプロセッサー１５１は、ハイトスピーカー１２４用の音声信号についてはバンドパスフィルターによって中音域の信号を抽出し、抽出した信号を元信号に加算してもよい。その他、プロセッサー１５１における処理については種々の変形実施が可能である。

図１１Ａは、出力設定１及び出力設定２のそれぞれにおいて、第１スピーカー１２１に対応するフロントスピーカー１２３が出力する音声の周波数特性の例である。図１１Ａに示すように、出力設定１では低音域から高音域まで広い帯域の音声がフロントスピーカー１２３から出力される。一方、出力設定２では、中音域の音量が低減される。また図１１Ａに示すように、低音域及び高音域の音量は増加してもよい。

図１１Ｂは、出力設定１及び出力設定２のそれぞれにおいて、第２スピーカー１２２に対応するハイトスピーカー１２４が出力する音声の周波数特性の例である。図１１Ｂに示すように、出力設定１では低音域の音量は十分小さく、中音域及び高音域に対応する音声がハイトスピーカー１２４から出力される。一方、出力設定２では、中音域の音量が増加した音声が出力される。また図１１Ｂに示すように、低音域及び高音域の一部の帯域における音量が増加してもよい。

本実施形態の処理の流れは、出力設定１及び出力設定２として図１０が用いられる点を除いて、図９を用いて上述した例と同様である。

７．変形例
以下、いくつかの変形例について説明する。

＜聞き取りやすさ重視＞
第１実施形態では、音声認識処理の精度向上を重視し、相対的に音量の大きいスピーカー１２０を第１スピーカー１２１に設定する制御を行う例を説明した。しかし、ユーザーの聞き取りやすさを重視する制御が行われてもよい。

例えば出力停止制御及び音量低減制御が行われない状態において、第２スピーカー１２２の音量を表す第２音量は、第１スピーカー１２１の音量を表す第１音量に比べて大きくてもよい。換言すれば、相対的に音量の小さいスピーカー１２０が第１スピーカー１２１に設定されてもよい。

このようにすれば、相対的に音量の大きいスピーカー１２０が第２スピーカー１２２に設定され、音声認識処理時にも出力が継続される。結果として、第１スピーカー１２１に対する出力停止制御または音量低減制御が行われることで音声認識処理の精度を向上させつつ、ユーザーがテレビ音声等を聞き取りにくくなることを抑制できる。即ち、本変形例と第１実施形態を比較した場合、どちらも音声認識処理の精度と聞き取りやすさの両立が可能であるが、第１実施形態はより音声認識処理の精度を重視した制御であり、本変形例はより聞き取りやすさを重視した制御である。

また聞き取りやすさを重視した変形実施が可能である点は、第２実施形態及び第３実施形態についても同様である。

例えば、第４周波数帯域以外の帯域を含む音量に対する、第４周波数帯域における音量を音量比としたとき、出力停止制御及び音量低減制御が行われない状態において、第２スピーカー１２２の音量比は、第１スピーカー１２１の音量比より大きくてもよい。このように、音量比が相対的に大きいスピーカー１２０を第２スピーカー１２２に設定することによって、ユーザーの聞き取りやすさを重視した制御が可能になる。

特に第４周波数帯域が中音域やそれに対応する帯域である場合、日常生活において、人が最も認識しやすい音域の成分が多いスピーカー１２０が第２スピーカー１２２に設定されるため、音声認識処理時にも聞き取りやすい音声を出力することが可能になる。

また第２スピーカー１２２とマイク１１０との第２距離は、第１スピーカー１２１とマイク１１０との第１距離に比べて短くてもよい。例えばマイク１１０は、音声出力装置１００の前面側等、ユーザーの音声を検出しやすい位置に配置される。そのため、マイク１１０に近いスピーカー１２０は、他のスピーカー１２０に比べて、ユーザーに音声を届けやすい位置に配置されている可能性がある。よってマイク１１０との距離が相対的に短いスピーカー１２０を第２スピーカー１２２に設定することによって、ユーザーの聞き取りやすさを重視した制御が可能になる。

＜複数のマイク＞
また音声出力装置１００に含まれるマイク１１０は１つに限定されない。図１２は、音声出力装置１００が、マイク１１０として第１マイク１１１と第２マイク１１２の２つを含む場合の例を説明する図である。フロントスピーカー１２３、ハイトスピーカー１２４、デコーダー１４１、プロセッサー１５１、スプリッター１５２、アンプ１５３、アンプ１５４については図３と同様である。

例えば第２実施形態では、マイク１１０との距離に基づいて、第１スピーカー１２１と第２スピーカー１２２が設定される。マイク１１０が複数存在する場合、第１スピーカー１２１とマイク１１０との第１距離は、例えば複数のマイク１１０のうち、最も第１スピーカー１２１に近いマイク１１０と第１スピーカー１２１との距離であってもよい。同様に、第２スピーカー１２２とマイク１１０との第２距離は、複数のマイク１１０のうち、最も第２スピーカー１２２に近いマイク１１０と第２スピーカー１２２との距離であってもよい。

図１２の例であれば、フロントスピーカー１２３とマイク１１０との距離は、フロントスピーカー１２３と第２マイク１１２の距離であるＸ２で表される。またハイトスピーカー１２４とマイク１１０との距離は、ハイトスピーカー１２４と第１マイク１１１の距離であるＸ１で表される。よりマイク１１０との距離が短いスピーカー１２０を第１スピーカー１２１に設定する例であれば、フロントスピーカー１２３が第１スピーカー１２１に設定され、ハイトスピーカー１２４が第２スピーカー１２２に設定される。

ただし、複数のマイク１１０との距離の和や平均等に基づいて各スピーカー１２０とマイク１１０の距離が定義されてもよい。また複数のマイク１１０の一部のみが音声認識処理に用いられる場合、音声認識処理に用いられるマイク１１０との距離に基づいて第１スピーカー１２１と第２スピーカー１２２が設定されてもよい。

また第１実施形態では、音量に基づいて第１スピーカー１２１と第２スピーカー１２２が設定され、当該音量はマイク１１０で受信する場合の受信音量であってもよい。マイク１１０が複数存在する場合、ここでの音量は複数のマイク１１０のそれぞれのマイク音声を合成した合成マイク音声の音量であってもよい。

図１２の例であれば、フロントスピーカー１２３の音量は、フロントスピーカー１２３からの音声を第１マイク１１１で受信したマイク音声と、第２マイク１１２で受信したマイク音声を合成した合成マイク音声の音量である。ハイトスピーカー１２４の音量は、ハイトスピーカー１２４からの音声を第１マイク１１１で受信したマイク音声と、第２マイク１１２で受信したマイク音声を合成した合成マイク音声の音量である。このようにすれば、マイク１１０が複数ある場合にも、マイク１１０での受信音量に基づいて第１スピーカー１２１及び第２スピーカー１２２を設定することが可能になる。

ただし、複数のマイク１１０の一部のみが音声認識処理に用いられる場合、音声認識処理に用いられるマイク１１０での受信音量に基づいて第１スピーカー１２１と第２スピーカー１２２が設定されてもよい。

また音声出力装置１００に含まれるマイク１１０は３個以上であってもよく、その場合も同様に第１スピーカー１２１及び第２スピーカー１２２を設定することが可能である。

なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また音声出力装置、テレビ受信装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。

１００…音声出力装置、１１０…マイク、１１１…第１マイク、１１２…第２マイク、１２０…スピーカー、１２１…第１スピーカー、１２２…第２スピーカー、１２３…フロントスピーカー、１２４…ハイトスピーカー、１３０…音声認識部、１４０…音声信号取得部、１４１…デコーダー、１５０…制御部、１５１…プロセッサー、１５２…スプリッター、１５３…アンプ、１５４…アンプ、１６０…映像信号取得部、１７０…表示部、２００…テレビ受信装置

Claims

マイクと、
第１スピーカー及び第２スピーカーと、
前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、
音声信号を取得する音声信号取得部と、
前記音声信号に基づいて、前記第１スピーカー及び前記第２スピーカーから音声を出力する制御を行う制御部と、
を含み、
前記音声認識部による前記音声認識処理が行われる場合、
前記制御部は、
前記第１スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わない音声出力装置。
請求項１において
前記制御部は、
前記音声認識処理が行われる場合、前記音声認識処理が行われない場合に前記第２スピーカーが出力する前記音声には含まれない第１周波数帯域の成分を含む前記音声を、前記第２スピーカーから出力する制御を行う音声出力装置。
請求項１において、
前記制御部は、
前記第１スピーカーに対して前記音量低減制御を行い、
前記音声認識処理が行われる場合、前記音声認識処理が行われない場合に比べて、第２周波数帯域の成分が低減された前記音声を前記第１スピーカーから出力する制御を行う音声出力装置。
請求項３において、
前記制御部は、
前記音声認識処理が行われる場合、前記音声認識処理が行われない場合に比べて、前記第２周波数帯域の成分が増加した前記音声を前記第２スピーカーから出力する制御を行う音声出力装置。
請求項２又は４において、
前記音声認識部による前記音声認識処理が行われない場合、
前記制御部は、
前記第１スピーカーから第１音声を出力し、前記第２スピーカーから第２音声を出力し、
前記音声認識部による前記音声認識処理が行われる場合、
前記制御部は、
前記第１スピーカーに対して前記出力停止制御または前記音量低減制御を行い、前記第２音声に前記第１音声の少なくとも一部の成分が合成された合成音声を前記第２スピーカーから出力する制御を行う音声出力装置。
請求項１乃至５の何れか一項において、
前記出力停止制御及び前記音量低減制御が行われない状態において、
前記第１スピーカーの音量を表す第１音量は、前記第２スピーカーの音量を表す第２音量に比べて大きい音声出力装置。
請求項１乃至５の何れか一項において、
前記出力停止制御及び前記音量低減制御が行われない状態において、
前記第２スピーカーの音量を表す第２音量は、前記第１スピーカーの音量を表す第１音量に比べて大きい音声出力装置。
請求項６または７において、
（１）前記第１音量は、前記制御部が前記第１スピーカーに出力する前記音声信号の振幅に基づく音量であり、前記第２音量は、前記制御部が前記第２スピーカーに出力する前記音声信号の振幅に基づく音量である、または
（２）前記第１音量は、前記第１スピーカーが前記音声信号に基づいて出力する音量であり、前記第２音量は、前記第２スピーカーが前記音声信号に基づいて出力する音量である、または、
（３）前記第１音量は、前記第１スピーカーが出力する前記音声を前記マイクで受信する場合の受信音量であり、前記第２音量は、前記第２スピーカーが出力する前記音声を前記マイクで受信する場合の受信音量である音声出力装置。
請求項６乃至８の何れか一項において、
前記第１音量は、前記第１スピーカーの第３周波数帯域における音量を表し、前記第２音量は、前記第２スピーカーの前記第３周波数帯域における音量を表す音声出力装置。
請求項１乃至５の何れか一項において、
第４周波数帯域以外の帯域を含む音量に対する、前記第４周波数帯域における音量を音量比としたとき、
前記出力停止制御及び前記音量低減制御が行われない状態において、
前記第１スピーカーの前記音量比は、前記第２スピーカーの前記音量比より大きい音声出力装置。
請求項１乃至５の何れか一項において、
第４周波数帯域以外の帯域を含む音量に対する、前記第４周波数帯域における音量を音量比としたとき、
前記出力停止制御及び前記音量低減制御が行われない状態において、
前記第２スピーカーの前記音量比は、前記第１スピーカーの前記音量比より大きい音声出力装置。
請求項１乃至５の何れか一項において、
前記第１スピーカーと前記マイクとの第１距離は、前記第２スピーカーと前記マイクとの第２距離に比べて短い音声出力装置。
請求項１乃至５の何れか一項において、
前記第２スピーカーと前記マイクとの第２距離は、前記第１スピーカーと前記マイクとの第１距離に比べて短い音声出力装置。
マイクと、
第１スピーカー及び第２スピーカーと、
前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、
音声信号を取得する音声信号取得部と、
映像信号を取得する映像信号取得部と、
前記音声信号に基づいて、前記第１スピーカー及び前記第２スピーカーから音声を出力する制御を行う制御部と、
前記映像信号に基づいて画像を表示する表示部と、
を含み、
前記音声認識部による前記音声認識処理が行われる場合、
前記制御部は、
前記第１スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わないテレビ受信装置。
マイクと、第１スピーカー及び第２スピーカーと、を有する音声出力装置の制御方法であって、
前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う場合、
前記第１スピーカーからの音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わない、
制御方法。
マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、
音声信号に基づいて、第１スピーカー及び第２スピーカーから音声を出力する制御を行う制御部として、
コンピューターを機能させ、
前記音声認識部による前記音声認識処理が行われる場合、
前記制御部は、
前記第１スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第１スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
前記第２スピーカーについては前記出力停止制御及び前記音量低減制御を行わないプログラム。