JP2023070705A - 音声出力装置、テレビ受信装置、制御方法及びプログラム - Google Patents

音声出力装置、テレビ受信装置、制御方法及びプログラム Download PDF

Info

Publication number
JP2023070705A
JP2023070705A JP2021182966A JP2021182966A JP2023070705A JP 2023070705 A JP2023070705 A JP 2023070705A JP 2021182966 A JP2021182966 A JP 2021182966A JP 2021182966 A JP2021182966 A JP 2021182966A JP 2023070705 A JP2023070705 A JP 2023070705A
Authority
JP
Japan
Prior art keywords
speaker
volume
output
control
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021182966A
Other languages
English (en)
Inventor
光憲 田中
Mitsunori Tanaka
美由紀 石田
Miyuki Ishida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2021182966A priority Critical patent/JP2023070705A/ja
Publication of JP2023070705A publication Critical patent/JP2023070705A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Figure 2023070705000001
【課題】音声認識処理の精度と出力される音声の聞き取りやすさを両立する音声出力装置、テレビ受信装置、制御方法及びプログラム等の提供。
【解決手段】音声出力装置は、マイクと、第1スピーカー及び第2スピーカーと、マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号を取得する音声信号取得部と、音声信号に基づいて、第1スピーカー及び第2スピーカーから音声を出力する制御を行う制御部と、を含み、音声認識部による音声認識処理が行われる場合、制御部は、第1スピーカーからの音声の出力を停止する出力停止制御、または、音声の音量を所定の閾値以下に低減する音量低減制御を行い、第2スピーカーについては出力停止制御及び音量低減制御を行わない。
【選択図】図1

Description

本発明は、音声出力装置、テレビ受信装置、制御方法及びプログラム等に関する。
従来、音声認識を用いた操作が可能なテレビジョン装置等において、音声認識中にテレビ音声等の出力音声を低減する手法が知られている。例えば特許文献1には、ユーザーによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する手法が開示されている。また特許文献2には、音声認識が失敗した場合には、オーディオ音の音量を必要最小限に低下させ、ユーザーに操作音声を再び発するように促す手法が開示されている。
特開2012-181374号公報 特開2014-71124号公報
特許文献1や特許文献2の手法では、音声認識時にテレビ音声等の音量を低下させることで、音声認識処理の精度向上を図っている。しかし、音声認識時に出力音声等の音量が低下することによって、ユーザーが当該出力音声を聞き取りにくくなる点が考慮されていない。
本開示のいくつかの態様によれば、音声認識処理の精度と出力される音声の聞き取りやすさを両立する音声出力装置、テレビ受信装置、制御方法及びプログラム等を提供できる。
本開示の一態様は、マイクと、第1スピーカー及び第2スピーカーと、前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号を取得する音声信号取得部と、前記音声信号に基づいて、前記第1スピーカー及び前記第2スピーカーから音声を出力する制御を行う制御部と、を含み、前記音声認識部による前記音声認識処理が行われる場合、前記制御部は、前記第1スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わない音声出力装置に関係する。
本開示の他の態様は、マイクと、第1スピーカー及び第2スピーカーと、前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号を取得する音声信号取得部と、映像信号を取得する映像信号取得部と、前記音声信号に基づいて、前記第1スピーカー及び前記第2スピーカーから音声を出力する制御を行う制御部と、前記映像信号に基づいて画像を表示する表示部と、を含み、前記音声認識部による前記音声認識処理が行われる場合、前記制御部は、前記第1スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わないテレビ受信装置に関係する。
本開示のさらに他の態様は、マイクと、第1スピーカー及び第2スピーカーと、を有する音声出力装置の制御方法であって、前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う場合、前記第1スピーカーからの音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わない制御方法に関係する。
本開示のさらに他の態様は、マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、音声信号に基づいて、第1スピーカー及び第2スピーカーから音声を出力する制御を行う制御部として、コンピューターを機能させ、前記音声認識部による前記音声認識処理が行われる場合、前記制御部は、前記第1スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わないプログラムに関係する。
音声出力装置の構成例。 テレビ受信装置の外観例。 テレビ受信装置の構成例。 音量に基づく制御を説明する図。 音声出力装置における処理を説明するフローチャート。 距離に基づく制御を説明する図。 所定周波数成分に基づく制御を説明する図。 第2スピーカーから出力される周波数成分を増やす制御を説明する図。 出力設定ごとの出力内容の例。 音声出力装置における処理を説明するフローチャート。 出力設定ごとの出力内容の例。 第1スピーカーが出力する音声の周波数特性の例。 第2スピーカーが出力する音声の周波数特性の例。 複数のマイクを有する音声出力装置の例。
以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
1.システム構成例
図1は、本実施形態の音声出力装置100の構成例を示す図である。音声出力装置100は、マイク110、スピーカー120、音声認識部130、音声信号取得部140、制御部150を含む。また本実施形態の音声出力装置100は、スピーカー120として、複数のスピーカーを含む。図1では第1スピーカー121と第2スピーカー122を例示したが、スピーカー120の数は3以上であってもよい。また音声出力装置100の構成は図1に限定されず、一部の構成を省略する、他の構成を追加する等の種々の変形実施が可能である。また構成の省略や追加等の変形実施が可能である点は、図2B等、これ以降の説明においても同様である。
マイク110は、音を電気信号に変換する機器である。以下、マイク110の出力である電気信号をマイク音声と表記する。ここでのマイク110は、コンデンサーの一方の金属板をダイヤフラムに置き換えたコンデンサー型のマイクロフォンであってもよいし、ムービングコイル型等のダイナミックマイクであってもよいし、他の形式のマイクロフォンであってもよい。
スピーカー120は、電気信号を音に変換する機器である。第1スピーカー121及び第2スピーカー122は、それぞれ音声出力装置100の異なる位置に配置されるスピーカーである。例えば図3等を用いて後述するように、第1スピーカー121及び第2スピーカー122の一方は、音声出力装置100の前方側に音声を出力するフロントスピーカー123であり、他方は音声出力装置100の上部に配置され、主に上方に音声を出力するハイトスピーカー124であってもよい。ただし、第1スピーカー121及び第2スピーカー122の一方あるいは両方が、音声出力装置100の側面に設けられるサイドスピーカーであってもよく、スピーカー120の具体的な配置、特性等については種々の変形実施が可能である。
音声認識部130は、マイク110を介して入力されたマイク音声に基づいて音声認識処理を行う。音声認識処理では、まずマイク音声から特徴量を抽出する音響分析が行われる。音響分析の結果に対して、音響モデルを用いて特徴の近い音素を特定する処理が行われる。さらに発音辞書や言語モデルを用いて、音素を単語、文章に変換することによって音声認識結果が取得される。なお本実施形態の音声認識処理は、以上の手法に限定されず、公知の手法を広く適用可能である。
音声信号取得部140は、音声信号を取得する。ここでの音声信号は、マイク音声とは異なる信号である。例えば、音声出力装置100は、テレビジョン放送の放送波を取得可能な装置である。放送波は、映像信号と音声信号が多重化されたストリームデータである。ここでの映像信号は、MPEG-2(Moving Picture Experts Group)、H.264/MPEG-4 AVC、H.265/HEVC等の圧縮方式を用いて圧縮されたデータであってもよい。音声信号は、AAC(Advanced Audio Coding)等の圧縮方式を用いて圧縮されたデータであってもよい。音声信号取得部140は、ストリームデータのうちの音声信号を取得する。例えば音声信号取得部140は、ストリームデータのデコード処理を行うデコーダーである。
なお、音声出力装置100はテレビジョン放送の放送波を取得する装置に限定されず、BD(Blu-ray Disc:Blu-rayは登録商標)やDVD(Digital Versatile Disc)等の記録メディアから映像信号及び音声信号を含む映像コンテンツを読み出す再生装置であってもよい。また音声出力装置100は、インターネット等のネットワークを介して映像コンテンツの視聴サービスを利用する装置であってもよい。この場合、音声信号取得部140は、映像コンテンツのうちの音声信号を取得する処理を行う。
また音声出力装置100は、ラジオ放送波を受信する装置であって、音声信号取得部140は、当該ラジオ放送波に対応する音声信号を取得してもよい。また音声出力装置100は、CD(Compact Disc)やインターネット等から音楽コンテンツを取得する装置であって、音声信号取得部140は、当該音楽コンテンツに対応する音声信号を取得してもよい。
制御部150は、音声出力装置100の各部の制御を行う。本実施形態の制御部150は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子によって構成できる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
また制御部150は、下記のプロセッサーによって実現されてもよい。本実施形態の音声出力装置100は、情報を記憶するメモリーと、メモリーに記憶された情報に基づいて動作するプロセッサーと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサーは、ハードウェアを含む。プロセッサーは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサーを用いることが可能である。メモリーは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリーであってもよいし、レジスタであってもよいし、HDD等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリーはコンピューターによって読み取り可能な命令を格納しており、当該命令をプロセッサーが実行することによって、制御部150の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサーのハードウェア回路に対して動作を指示する命令であってもよい。
本実施形態の音声出力装置100は、映像コンテンツや音楽コンテンツ等を再生する機器であり、且つ、ユーザーの発話に基づく音声認識処理を実行する機器である。例えば音声出力装置100は、対話型の音声操作に対応したスマートスピーカーであってもよいし、音声操作に対応したテレビ受信装置に含まれてもよい。
具体的には、音声信号取得部140が音声信号を取得した場合、制御部150は、当該音声信号に基づいて、第1スピーカー121及び第2スピーカー122から音声を出力する制御を行う。このようにすれば、映像コンテンツや音楽コンテンツ等をユーザーに提供することが可能になる。
例えば制御部150は、音声信号を第1音声信号と第2音声信号に分離し、第1音声信号を第1スピーカー121に出力し、第2音声信号を第2スピーカー122に出力する制御を行う。なお制御部150は音声信号に対する種々の処理を実行可能であり、例えばプロセッサーによる信号処理を行ってもよいし、フィルターを用いたフィルター処理やアンプを用いた増幅処理を実行させる制御を行ってもよい。なおここでのフィルター及びアンプはデジタル/アナログを問わない。
また本実施形態におけるマイク110は、音声出力装置100のユーザーの発話に基づく音声を電気信号に変換し、変換結果をマイク音声として出力する。音声認識部130がマイク音声に対する音声認識処理を行うことによって、音声操作が可能になる。
例えばユーザーは予め決められたホットワードを発話し、音声認識部130が当該ホットワードを検出した場合に、対話型の音声操作が開始される。ここでの操作内容は、映像コンテンツや音楽コンテンツの選択、再生、停止、早送り等の操作であってもよいし、音声出力装置100の設定変更等の操作であってもよいし、他の操作であってもよい。このようにすれば、音声出力装置100の音声操作が可能になる。音声出力装置100の本体に設けられる操作部やリモコン等を用いる必要がないため、ユーザーの利便性向上が可能になる。
ただし、スピーカー120からの音声出力と、音声認識部130による音声認識処理が同時に行われる場合、マイク110はスピーカー120が出力した音声も検出してしまう。よって音声認識部130は、マイク音声からスピーカー120の出力音声の成分を低減するエコーキャンセル処理を実行してもよい。ただしエコーキャンセル処理を行ったとしても、スピーカー120が出力する音声が音声認識処理に影響を及ぼす場合がある。結果として、マイク音声にユーザーの発話以外の音声が含まれることになり、音声認識処理の精度が低下する可能性がある。
よって音声認識部130による音声認識処理が行われる場合、制御部150は、第1スピーカー121からの音声の出力を停止する出力停止制御、または、第1スピーカー121から出力される音声の音量を所定の閾値以下に低減する音量低減制御を行い、且つ、第2スピーカー122については出力停止制御及び音量低減制御を行わない。
本実施形態の手法によれば、第1スピーカー121と第2スピーカー122を含む複数のスピーカー120を有する音声出力装置100において、少なくとも1つのスピーカー120についてミュートまたは音量低減をしつつ、他の少なくとも1つのスピーカー120については音声認識処理を行わない場合と同様の出力が継続される。
結果として、音声認識処理と、スピーカー120による音声出力とを両立した制御が可能になる。具体的には、第1スピーカー121を対象として出力停止制御か音量低減制御が行われるため、第1スピーカー121が音声認識処理を行わない場合と同様の出力を継続する場合に比べて、マイク110に入るノイズを低減でき、音声認識処理の精度が向上する。一方で、第2スピーカー122については通常の音声出力が継続されるため、ユーザーにとって音声が聞き取りにくくなることを抑制できる。例えば特許文献1や特許文献2等の従来手法ではテレビの音量が下げられるため、テレビ音声の聞き取りが難しくなる可能性があるが、本実施形態では第2スピーカー122を用いることでテレビ音声の聞き取りやすさを維持(聞き取りやすさが損なわれることを抑制)することが可能である。
なお、本実施形態における音量低減制御とは、例えば可聴帯域の中の各周波数における音量の平均や合計が低下する制御であればよく、一部の周波数帯域において音量が増加することは妨げられない。例えば図11Aを用いて後述するように、低音域や高音域の音量が増加する制御であっても、中音域の音量を下げることで全体としての音量が下がる制御であれば、当該制御は本実施形態における音量低減制御に含まれる。
また本実施形態の手法は、上記の音声出力装置100と同様の制御を行うテレビ受信装置200に適用できる。図2Aはテレビ受信装置200の外観例を示す図であり、図2Bはテレビ受信装置200の構成例を示す図である。
図2Bに示すように、テレビ受信装置200は、マイク110、第1スピーカー121、第2スピーカー122、音声認識部130、音声信号取得部140、制御部150、映像信号取得部160、表示部170を含む。マイク110、第1スピーカー121、第2スピーカー122、音声認識部130、音声信号取得部140、制御部150については、それぞれ音声出力装置100と同様であるため詳細な説明は省略する。
映像信号取得部160は、映像信号を取得する。ここでの映像信号は、テレビジョン放送の放送波に含まれる信号であってもよい。あるいはテレビ受信装置200は、BD等の記録メディアやインターネット等のネットワークから映像コンテンツを取得する装置であってもよい。この場合、映像信号取得部160は、映像コンテンツのうちの映像信号を取得する処理を行う。映像信号取得部160は、例えば映像信号のデコード処理を行うデコーダーであってもよい。
表示部170は、映像信号取得部160が取得した映像信号に基づいて画像を表示する。例えば図2Bに示したように、制御部150は、映像信号に基づく画像を表示部170に表示する制御を行ってもよい。表示部170は、例えば液晶ディスプレイや有機ELディスプレイ等、種々のディスプレイにより実現できる。
このようにすれば、映像信号と音声信号の両方をユーザーに提供する場合において、音声認識処理と、スピーカー120による音声出力とを両立した制御が可能になる。
また本実施形態の手法は、マイク110と、第1スピーカー121及び第2スピーカー122と、を有する音声出力装置100の制御方法に適用できる。制御方法は、マイク110を介して入力されたマイク音声に基づいて音声認識処理を行う場合、第1スピーカー121からの音声の出力を停止する出力停止制御、または、第1スピーカー121から出力される音声の音量を所定の閾値以下に低減する音量低減制御を行い、第2スピーカー122については出力停止制御及び音量低減制御を行わない。
また、本実施形態の音声出力装置100またはテレビ受信装置200が行う処理の一部又は全部は、プログラムによって実現されてもよい。音声出力装置100またはテレビ受信装置200が行う処理とは、狭義には制御部150、音声認識部130が行う処理である。
本実施形態に係るプログラムは、例えばコンピューターによって読み取り可能な媒体である非一時的な情報記憶装置(情報記憶媒体)に格納できる。情報記憶装置は、例えば光ディスク、メモリーカード、HDD、或いは半導体メモリーなどによって実現できる。半導体メモリーは例えばROMである。制御部150等は、情報記憶装置に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち情報記憶装置は、制御部150等としてコンピューターを機能させるためのプログラムを記憶する。コンピューターは、入力装置、処理部、記憶部、出力部を備える装置である。具体的には本実施形態に係るプログラムは、図4や図9等を用いて後述する各ステップを、コンピューターに実行させるためのプログラムである。
例えば本実施形態に係るプログラムは、マイク110を介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部130と、音声信号に基づいて第1スピーカー121及び第2スピーカー122から音声を出力する制御を行う制御部150として、コンピューターを機能させる。
以下、第1~第5実施形態及び変形例について詳細に説明する。なお、第1~第3実施形態では、第1スピーカー121と第2スピーカー122を設定する手法について説明する。また第4、及び第5実施形態では出力停止制御や音量低減制御に加えて実行される制御について説明する。
2.第1実施形態
図3は、本実施形態における音声出力装置100の動作を説明する図である。また図3は、マイク110と複数のスピーカー120の概略的な位置関係を例示する図である。例えば図面の上下方向が音声出力装置100の動作状態における鉛直方向を表し、図面の左右方向が水平方向を表す。なお図3は音声信号の取得、及びスピーカー120からの出力に関する構成を例示するものであり、音声認識部130等は省略されている。音声出力装置100は、マイク110、フロントスピーカー123、ハイトスピーカー124、デコーダー141、プロセッサー151、スプリッター152、アンプ153、アンプ154を含む。デコーダー141が音声信号取得部140に対応する。プロセッサー151が制御部150に対応する。なお制御部150は、スプリッター152、アンプ153、アンプ154等を含んでもよい。
マイク110の設けられる位置は任意である。例えば図3では、マイク110は、相対的にハイトスピーカー124に近い本体上部側に設けられる。
図3では、複数のスピーカー120として、本体下部に設けられ正面側に音声を出力するフロントスピーカー123と、本体上部に設けられ上方側に音声を出力するハイトスピーカー124が設けられる例を図示している。ただし、スピーカー120の具体的な配置等は種々の変形実施が可能である。また図3では、フロントスピーカー123は、フロントスピーカー(R)123Rと、フロントスピーカー(L)123Lを含むステレオスピーカーである例を示している。同様に、ハイトスピーカー124は、ハイトスピーカー(R)124Rと、ハイトスピーカー(L)124Lを含むステレオスピーカーであってもよい。
本実施形態における第1スピーカー121や第2スピーカー122とは、左右のチャンネルに対応する2つの出力部を含むステレオスピーカーであってもよい。即ち、第1スピーカー121を対象とした出力停止制御や音量低減制御とは、左右のチャンネルに対応する2つの出力部に対して実行されてもよい。ただし、第1スピーカー121や第2スピーカー122は、モノラルスピーカーであってもよい。
テレビジョン放送の放送波等である放送データは、デコーダー141によりデコードされた後、音声信号としてプロセッサー151に入力される。プロセッサー151は音声信号をスプリッター152に出力し、スプリッター152は音声信号を分離してアンプ153とアンプ154に出力する。アンプ153は、音声信号の増幅処理を行い、増幅後の信号をフロントスピーカー123に出力する。アンプ154は、音声信号の増幅処理を行い、増幅後の信号をハイトスピーカー124に出力する。
例えばフロントスピーカー123とハイトスピーカー124の一方が出力停止制御や音量低減制御の対象である第1スピーカー121に対応し、他方が第2スピーカー122に対応する。
本実施形態の手法では、各スピーカー120の音量に基づいて、第1スピーカー121及び第2スピーカー122が設定される。具体的には、出力停止制御及び音量低減制御が行われない状態において、第1スピーカー121の音量を表す第1音量は、第2スピーカー122の音量を表す第2音量に比べて大きい。
このようにすれば、相対的に音量が大きいスピーカー120が第1スピーカー121に設定される。マイク110が検出するマイク音声には、音量が大きいスピーカー120から出力された音声の成分が多く含まれる蓋然性が高い。即ち、音量が大きいスピーカー120からの音声が、音声認識処理におけるノイズ要因となりやすい。その点、本実施形態の手法によれば、音量が大きいスピーカー120が出力停止制御または音量低減制御の対象となるため、音声認識処理の精度向上が可能である。また、第2スピーカー122は相対的に音量が小さいため、音声認識処理の際にミュートや音量低減をしなかったとしても、音声認識処理への影響を抑制できる。
ここで第1音量と第2音量とは種々の音量を用いることが可能であり、例えば以下の(1)~(3)のいずれが用いられてもよい。
(1)第1音量は、制御部150が第1スピーカー121に出力する音声信号の振幅に基づく音量であり、第2音量は、制御部150が第2スピーカーに出力する音声信号の振幅に基づく音量である
(2)第1音量は、第1スピーカー121が音声信号に基づいて出力する音量であり、第2音量は、第2スピーカー122が音声信号に基づいて出力する音量である
(3)第1音量は、第1スピーカー121が出力する音声をマイク110で受信する場合の受信音量であり、第2音量は、第2スピーカー122が出力する音声をマイク110で受信する場合の受信音量である
上記(1)における振幅は、図3におけるプロセッサー151の出力の振幅であってもよいし、アンプ153及びアンプ154の出力の振幅であってもよい。例えばこの場合の音量は、デジタルデータである信号値で表されてもよいし、アナログの電圧値等で表されてもよい。同じ信号が入力された場合であっても、スピーカー120の特性によって、実際に出力される音声は変化する。しかし、スピーカー120に入力される信号の振幅と、スピーカー120から出力される音声の大きさには相関があることから、制御部150が出力する音声信号の振幅を各スピーカー120の音量を表す情報として用いることが可能である。
上記(2)における音量は、例えば音声出力装置100の出荷前に、各スピーカー120の近くに検査用マイクを配置し、当該検査用マイクを用いて検出された受信音量であってもよい。あるいは、音声出力装置100に含まれる各スピーカー120の特性を表すパラメーターがあらかじめ取得されており、当該パラメーターに基づいて、上記(2)における音量が推定されてもよい。この場合の音量は、dB等の単位で表現される情報であってもよいし、電気信号に変換された後の信号値や電圧値等であってもよい。
上記(3)における音量は、例えば第1スピーカー121に検査用音声信号を出力した際にマイク110が出力するマイク音声の音量と、第2スピーカー122に同等の検査用音声信号を出力した際にマイク110が出力するマイク音声の音量であってもよい。この処理は、音声出力装置100の出荷前に実行されてもよいし、出荷後にユーザーによる検査モードの実行指示に基づいて実行されてもよい。あるいは、各スピーカー120の位置姿勢や指向性、マイク110の位置姿勢や指向性に基づいて、マイク110での受信音量が推定されてもよい。この場合の音量は、dB等の単位で表現される情報であってもよいし、電気信号に変換された後の信号値や電圧値等であってもよい。
上記(1)を用いる場合、制御部150の出力から音量が決定できるため、第1スピーカー121及び第2スピーカー122の設定が容易である。上記(2)を用いる場合、スピーカー120の出力である音声が対象となるため、スピーカー120の特性を考慮することが可能になる。上記(3)を用いる場合、マイク110での受信音量が用いられるため、音声認識処理への影響度合いが大きいスピーカーを適切に第1スピーカー121に設定することが可能になる。
例えば図3に示したように、フロントスピーカー123の音量が相対的に大きく、ハイトスピーカー124の音量が相対的に小さいと判定されたとする。この場合、フロントスピーカー123が第1スピーカー121に対応し、ハイトスピーカー124が第2スピーカー122に対応する。
図4は、本実施形態における処理を説明するフローチャートである。まずステップS101において、制御部150は、音声認識部130でホットワードが検出されることを待機する。ホットワードは、上述したように音声操作のトリガーとして、あらかじめ定められたワードである。
ステップS102において、制御部150はホットワードが検出されたか否かを判定する。例えば、音声認識部130は音声認識処理の結果であるテキストを制御部150に出力し、制御部150がホットワードの有無を判定してもよい。あるいは、音声認識部130においてホットワードの有無まで判定し、制御部150は音声認識部130からホットワードが検出された旨の通知を受けたか否かを判定してもよい。ホットワードが検出されない場合(ステップS102でNo)、ステップS101に戻り、ホットワードの検出待ちが継続される。なお、リモコン等のボタン押下が音声認識処理の開始トリガーとなってもよく、ホットワードの検出は必須ではない。
ホットワードが検出された場合、ステップS103において、制御部150は第1スピーカー121からの音声出力を停止する出力停止制御(ミュート)、または、第1スピーカー121から出力される音声の音量を所与の閾値にする音量低減制御を行う。即ち、本実施形態において出力停止制御または音量低減制御が実行される「音声認識処理が行われる場合」には、ホットワードを認識する処理は含まれなくてもよい。このようにすれば、音声認識処理の精度が必要な場面において、出力停止制御または音量低減制御を実行できる。
音量低減制御における閾値は、第1スピーカー121からの音声による音声認識処理への影響を抑制できる値であればよく、種々の設定が可能である。閾値は固定値であってもよいし、音量低減制御が行われない場合の音量の平均等に基づいて動的に決定される値であってもよい。
例えば、音声出力装置100は、図3に示すようにプロセッサー151と、第1スピーカー121であるフロントスピーカー123の経路上に設けられるスイッチを含んでもよい。図3では、スプリッター152とアンプ153の間にスイッチが設けられる例を示したが、スイッチはアンプ153とフロントスピーカー123の間等、他の位置に設けられてもよい。制御部150は、ステップS103において当該スイッチをオフにすることによって出力停止制御を行ってもよい。
あるいは、制御部150は、ステップS103においてアンプ153の増幅率を下げることによって音量低減制御を行ってもよい。あるいは、出力停止制御や音量低減制御はプロセッサー151によって実行されてもよい。例えばプロセッサー151は、デジタル信号である音声信号に対する信号処理を行う機能を有する。プロセッサー151は、第1スピーカー121に出力される信号の振幅を0にすることで出力停止制御を行ってもよいし、当該振幅を下げることによって音量低減制御を行ってもよい。以上のように、本実施形態における出力停止制御や音量低減制御は種々の手法を用いて実現することが可能である。
またステップS103において、制御部150は第2スピーカー122に対応するハイトスピーカー124については、出力停止制御及び音量低減制御を行わない。そのため制御部150は、プロセッサー151からハイトスピーカー124までの経路を遮断するスイッチ制御、アンプ154の増幅率を下げる制御、プロセッサー151におけるハイトスピーカー124用の信号振幅を下げる信号処理等を実行する必要がない。ステップS103の処理によって、音声認識処理の精度を高くしつつ、スピーカー120から出力される音声が聞き取りにくくなることを抑制できる。
ステップS104において、制御部150は、ユーザーからの質問または指示を待ち受ける処理を行う。ステップS105において、質問または指示を表す音声入力を受け付ける。例えばステップS105において、音声認識部130が音声認識処理の結果であるテキストデータ等を制御部150に出力し、制御部150は当該テキストデータの解釈処理等を実行する。
ステップS106において、制御部150は、質問または指示に対する応答を行う。例えば、ユーザーの音声入力が特定の映像コンテンツの再生指示であった場合、制御部150は、当該映像コンテンツの再生を開始する制御を行う。他の操作指示であった場合も同様に、制御部150は指示に対応する制御を実行する。またユーザーの音声入力が何らかの質問であった場合、制御部150は当該質問の答えを出力する。例えばテレビ受信装置200のように表示部170を含む機器である場合、制御部150は、質問の答えを含む画面を表示部170に表示してもよい。ここでの質問は、音声出力装置100やテレビ受信装置200の操作方法等に関する質問であってもよいし、天気、時間、特定の言葉の意味等、音声出力装置100とは関連しない質問であってもよい。
ステップS107において、制御部150は、質問または指示を終了する終了条件が満たされたかを判定する。ここでの終了条件は、ユーザーの発話が所定時間検出されないことであってもよいし、質問等を終了する旨のワードが検出されたことであってもよいし、他の条件であってもよい。終了条件が満たされない場合、ステップS106に戻って応答が継続される。場合によっては、ステップS104に戻り、新たな質問等の受付が行われてもよい。
終了条件が満たされた場合、ステップS108において、制御部150は第1スピーカー121の音声出力を通常に戻す制御を行う。即ち、ステップS108以降は、再度ホットワードが検出されるまで、第1スピーカー121についても出力停止制御や音量低減制御が実行されない。
なお図4のステップS104-S107は音声認識処理を用いた制御の一例である。音声入力によって質問や操作を行う手法は種々知られており、本実施形態ではそれらを広く適用可能である。
3.第2実施形態
第1スピーカー121及び第2スピーカー122を設定する他の基準について説明する。本実施形態ではスピーカー120とマイク110の距離に基づいて第1スピーカー121及び第2スピーカー122が設定されてもよい。
本実施形態では、第1スピーカー121とマイク110との第1距離は、第2スピーカー122とマイク110との第2距離に比べて短い。即ち、相対的にマイク110に近いスピーカー120が第1スピーカー121に設定される。
例えばマイクとスピーカー間の距離を310mmとしたときの音声認識処理の正解率が92%であり、マイクとスピーカー間の距離を230mmとしたときの音声認識処理の正解率が75%という実験結果が得られている。なお、上記の実験は、ユーザーの発話による音量が62-83dB、スピーカー120から出力される音量が59dB、テレビ受信装置200のサイズが45インチという条件で行われた。このように、スピーカー120とマイク110の距離が近いほど、当該スピーカー120から出力される音声がノイズとなり、音声認識処理の精度が低下する可能性がある。そのため、よりマイク110に近いスピーカー120を第1スピーカー121に設定することによって、音声認識処理の精度向上が可能になる。
図5は、本実施形態における処理を説明する図である。マイク110、フロントスピーカー123、ハイトスピーカー124、デコーダー141、プロセッサー151、スプリッター152、アンプ153、アンプ154については図3と同様である。図5に示すように、この例ではマイク110は本体上部に設けられるため、ハイトスピーカー124とマイク110の距離は、フロントスピーカー123とマイク110の距離に比べて短い。よってこの場合、ハイトスピーカー124が第1スピーカー121に対応し、フロントスピーカー123が第2スピーカー122に対応する。
本実施形態の処理の流れは図4を用いて上述した例と同様である。ただし、ステップS103において、出力停止制御または音量低減制御の対象となる第1スピーカー121が、距離に基づいて設定される点が異なる。図5の例では、ハイトスピーカー124が第1スピーカー121に対応するため、例えばステップS103において、プロセッサー151とハイトスピーカー124の経路上に設けられるスイッチをオフにする制御が実行される。ただし、出力停止制御や音量低減制御を実現するための具体的な手法は、第1実施形態と同様に種々の変形実施が可能である。
4.第3実施形態
第1スピーカー121及び第2スピーカー122を設定する他の基準について説明する。本実施形態では人が聞くことのできる可聴帯域のうちの一部の周波数帯域に基づいて、第1スピーカー121及び第2スピーカー122が設定されてもよい。
本実施形態では第1実施形態と同様に、出力停止制御及び音量低減制御が行われない状態において、第1スピーカー121の音量を表す第1音量は、第2スピーカー122の音量を表す第2音量に比べて大きくてもよい。ただし第1音量は、第1スピーカー121の第3周波数帯域における音量を表し、第2音量は、第2スピーカー122の第3周波数帯域における音量を表してもよい。
例えば、第3周波数帯域とは、可聴帯域を低音、中音、高音の3つの帯域に分割したときの中音に対応する周波数帯域であってもよい。例えば低音は20Hz-200Hzに対応し、中音は200-2kHzに対応し、高音は2kHz-20kHzに対応する。ただし、ここでの周波数帯域は一例であり、各音域が異なる周波数帯域に対応してもよい。
人の発話による音声の周波数帯域は100Hz-1kHz程度であり、主に中音に対応する。そのため、スピーカー120から出力された中音に対応する音声は、音声認識処理におけるノイズとなる蓋然性が高い。よって中音での音量が相対的に大きいスピーカー120を第1スピーカー121に設定することによって、音声認識処理の精度を向上させることが可能になる。なお第3周波数帯域は中音域に限定されず、人の発話に対応する周波数帯域であってもよいし、他の帯域であってもよい。また第3周波数帯域が低音や高音に対応する周波数帯域となることも妨げられない。
図6は、本実施形態における処理を説明する図である。マイク110、フロントスピーカー123、ハイトスピーカー124、デコーダー141、プロセッサー151、スプリッター152、アンプ153、アンプ154については図3と同様である。
図6に示したように、制御部150は、フロントスピーカー123とハイトスピーカー124とで出力する音声の周波数帯を分けてもよい。図6の例では、ハイトスピーカー124が低音に対応する20-200Hzの音声を出力し、フロントスピーカー123が中音及び高音に対応する200-20kHzの音声を出力する。よってこの場合、中音域を出力するフロントスピーカー123が第1スピーカー121に対応し、ハイトスピーカー124が第2スピーカー122に対応する。
あるいは、本実施形態では、可聴帯域のうちの一部の周波数帯域と、他の周波数帯域との関係に基づいて、第1スピーカー121及び第2スピーカー122が設定されてもよい。
例えば、第4周波数帯域以外の帯域を含む音量に対する、第4周波数帯域における音量を音量比とする。ここでの第4周波数帯域は、第3周波数帯域と同じ帯域であってもよいし、異なる帯域であってもよい。第4周波数帯域は、例えば上記の中音であってもよいし、人の発話に対応する周波数帯域であってもよいし、他の帯域であってもよい。
第4周波数帯域における音量とは、第4周波数帯域に含まれる各周波数での音量の平均であってもよいし、合計(積分)であってもよい。音量は、信号値や電圧値等であってもよいし、dB等の単位で表現されてもよい。第4実施帯域以外の帯域を含む音量とは、第4周波数帯域以外の帯域に含まれる各周波数での音量の平均や合計であってもよいし、可聴帯域全体での音量の平均や合計であってもよい。
そして出力停止制御及び音量低減制御が行われない状態において、第1スピーカー121の音量比は、第2スピーカー122の音量比より大きい。即ち、相対的に音量比の大きいスピーカーが第1スピーカー121に設定されてもよい。
このようにすれば、第4周波数帯域の成分を多く出力するスピーカー120が第1スピーカー121に設定されやすくなる。そのため、例えば第4周波数帯域を中音とすれば、上述した例と同様の制御が可能になる。さらに、音量比を用いる場合には、第4周波数帯域以外の成分を多く出力するスピーカー120が、第1スピーカー121として選択されにくくなる。例えば、低音や高音の成分を多く出力するスピーカー120が出力停止制御や音量低減制御の対象となりにくくなる。結果として、音声認識処理への影響が小さい周波数帯域を多く含む音声信号の出力が継続されるため、音声認識処理の精度を上げつつ、ユーザーの聞き取りやすさが損なわれることを抑制できる。
本実施形態の処理の流れは図4を用いて上述した例と同様である。ただし、ステップS103において、出力停止制御または音量低減制御の対象となる第1スピーカー121が、第3周波数帯域の音量、または第4周波数帯域の音量比に基づいて設定される点が異なる。
5.第4実施形態
本実施形態では、音声認識処理の実行時に制御部150が実行する制御の他の例について説明する。なお、本実施形態における第1スピーカー121及び第2スピーカー122の設定基準は任意であり、第1-第3実施形態のいずれが用いられてもよい。
例えば図6を用いて上述したように、いずれかのスピーカー120が一部の音域用に用いられる場合がある。図6の例では、ハイトスピーカー124が低音域用として使用され、フロントスピーカー123が中音及び高音域用に使用される。また図10の出力設定1として後述するように、フロントスピーカー123が全音域を出力し、ハイトスピーカー124が中音及び高音域用として使用される場合も考えられる。
このような場合、第1スピーカー121に対して出力停止制御を行うと、第2スピーカー122の出力を継続したとしても、一部の周波数帯域の音声が出力されない可能性がある。また第1スピーカー121に対して音量低減制御を行うと、第2スピーカー122の出力を継続したとしても、一部の周波数帯域の音量が極端に小さくなる可能性がある。この場合、周波数帯域ごとの音量のバランスが崩れるため、コンテンツの音声信号の聞こえ方が大きく変化してしまい、ユーザーに違和感を与える可能性がある。
よって制御部150は、音声認識処理が行われる場合、音声認識処理が行われない場合に第2スピーカー122が出力する音声には含まれない第1周波数帯域の成分を含む音声を、第2スピーカー122から出力する制御を行ってもよい。第1周波数帯域は低音域であってもよいし、中音域であってもよいし、高音域であってもよいし、これらのうちの2つの組み合わせであってもよい。また周波数帯域の分割は低音、中音、高音の3つに限定されず、第1周波数帯域は他の帯域を表してもよい。
このようにすれば、音声認識処理を行っている間、第2スピーカー122の出力する音声は、通常時に比べて周波数成分が増えた状態となる。第2スピーカー122の出力バランスがとれるため、第1スピーカー121に対する出力停止制御や音量低減制御を行ったとしても、ユーザーに違和感を与えることを抑制できる。
例えば第1周波数帯域は、音声認識処理が行われない場合に、第1スピーカー121が出力を担当する周波数帯域であってもよい。例えば音声認識部130による音声認識処理が行われていない場合、制御部150は、第1スピーカー121から第1音声を出力し、第2スピーカー122から第2音声を出力する制御を行うとする。そして音声認識部130による音声認識処理が行われる場合、制御部150は、第1スピーカー121に対して出力停止制御または音量低減制御を行い、第2スピーカー122から合成音声を出力する制御を行う。合成音声とは、第2音声に第1音声の少なくとも一部の成分が合成された音声を表す。換言すれば、制御部150は、本来であれば第1スピーカー121から出力する予定であった音声を、第2スピーカー122に振り替えて出力する制御を行ってもよい。
図7は、本実施形態における処理を説明する図である。マイク110、フロントスピーカー123、ハイトスピーカー124、デコーダー141、プロセッサー151、スプリッター152、アンプ153、アンプ154については図3と同様である。この例ではフロントスピーカー123が第1スピーカー121に対応し、ハイトスピーカー124が第2スピーカー122に対応する。
図7に示すように、スプリッター152は2つの音声信号を出力する機器であって、第1音声信号はスイッチによってアンプ153に出力されるか、アンプ154に出力されるかが切り替えられる。第2音声信号はアンプ154に出力される。
例えば音声認識処理が行われない場合には、スイッチはアンプ153に接続される。この場合、第1音声信号がアンプ153を介してフロントスピーカー123に出力されることで、フロントスピーカー123から第1音声が出力される。第2音声信号がアンプ154を介してハイトスピーカー124に出力されることで、ハイトスピーカー124から第2音声が出力される。
一方、音声認識処理が行われる場合、スイッチはアンプ154に接続される。この場合、プロセッサー151とフロントスピーカー123の経路が遮断されるため、フロントスピーカー123に対する出力停止制御が行われる。また第1音声信号と第2音声信号の両方がアンプ154を介してハイトスピーカー124に出力されることで、合成音声が出力される。
このようにすれば、第1スピーカー121に対する出力停止制御や音量低減制御によってミュートまたは低減されるはずであった成分の音声を、第2スピーカー122から出力することが可能になる。そのため、音声認識処理を行っている間も、ユーザーの聞き取りやすさを維持することが可能になる。また、音声認識処理を行っている間も第1音声に対応する音声が出力対象となるが、音声認識処理への影響が相対的に小さい第2スピーカー122に出力元のスピーカー120が変更されるため、音声認識処理の精度を向上させることも可能である。一例としては、音量が小さいスピーカー120、または、マイク110からの距離が遠いスピーカー120が第2スピーカー122となるため、第1スピーカー121から第1音声を出力する場合に比べて、音声認識処理の精度向上が可能である。
また図7では、スイッチを用いて第2スピーカー122から合成音声を出力する例を説明した。ただし合成音声を出力する手法はこれに限定されない。例えば、プロセッサー151において、信号処理を行うことによって、第1音声信号と第2音声信号の合成処理が行われてもよい。
図8は、プロセッサー151の出力内容を説明する図である。例えば出力設定1の場合、プロセッサー151は、フロントスピーカー123に対して中音及び高音に対応する音声信号を出力し、ハイトスピーカー124に対して低音に対応する音声信号を出力する。このようにすれば、図6の例と同様に、ハイトスピーカー124を低音用、フロントスピーカー123を中・高音用に使い分けることが可能になる。例えばデコーダー141は低・中・高音域が分離されていない音声信号を取得し、プロセッサー151が周波数解析処理等を行うことによって低音域の音声信号と、中・高音域の音声信号とに分離してもよい。
また出力設定2の場合、プロセッサー151は、フロントスピーカー123に対して出力を行わず、ハイトスピーカー124に対して低・中・高音に対応する音声信号を出力する。例えばデコーダー141が低・中・高音域が分離されていない音声信号を取得する場合、プロセッサー151は当該音声信号をそのままハイトスピーカー124に出力する制御を行ってもよい。
ただし、プロセッサー151は、周波数帯域ごとに分離された音声信号を取得し、出力設定及びスピーカー120に応じた帯域の信号を合成する処理を行ってもよい。あるいはプロセッサー151は、本来第1スピーカー121に出力する第1音声信号のすべてを第2音声信号に合成するのではなく、第1音声信号の一部の帯域を抽出し、抽出結果を第2音声信号に合成してもよい。その他、プロセッサー151において実行される信号処理の具体的な内容は種々の変形実施が可能である。
図9は本実施形態の処理を説明するフローチャートである。まずステップS201において制御部150は、音声出力を出力設定1に設定する。出力設定1は、音声認識処理を実行していない場合の設定であり、例えば図8の上段に示した通りである。
次にステップS202において、制御部150は、音声認識部130でのホットワードが検出されることを待機する。ステップS203において、制御部150はホットワードが検出されたか否かを判定する。
ホットワードが検出された場合、ステップS204において、制御部150は、音声出力を出力設定2に設定する。出力設定2は、音声認識処理を実行している場合の設定であり、例えば図8の下段に示した通りである。図8の例であれば、制御部150は第1スピーカー121であるフロントスピーカー123からの音声出力を停止する出力停止制御を行い、第2スピーカー122であるハイトスピーカー124から、低音に加えて、中・高音も含む音声を出力する制御を行う。
図9のステップS205-S208については、図4のステップS103-S107と同様であるため詳細な説明は省略する。質問または指示の終了条件が満たされた場合(ステップS208でYes)、ステップS209において、制御部150は音声出力を出力設定1に戻す制御を行う。即ち、ステップS209以降は、再度ホットワードが検出されるまで、第1スピーカー121についても出力停止制御や音量低減制御が実行されない。
6.第5実施形態
本実施形態では、音声認識処理の実行時に制御部150が実行する制御の他の例について説明する。なお、本実施形態における第1スピーカー121及び第2スピーカー122の設定基準は任意であり、第1-第3実施形態のいずれが用いられてもよい。以下、フロントスピーカー123が第1スピーカー121に対応し、ハイトスピーカー124が第2スピーカー122に対応する例を説明する。
本実施形態の制御部150は、音声認識処理が行われる場合、音声認識処理が行われない場合に比べて、第2周波数帯域の成分が低減された音声を第1スピーカー121から出力する制御を行う。ここでの第2周波数帯域は、例えば中音域である。また第2周波数帯域は、人の発話に対応する周波数帯域であってもよいし、他の帯域であってもよい。
このようにすれば、第1スピーカー121から出力される音声のうち、第2周波数帯域の成分が音声認識処理に与える影響を抑制できる。例えば、第2周波数帯域として、人の発話に用いられる帯域やそれに近い帯域を設定することによって、音声認識処理の精度向上が可能になる。
この際、第1スピーカー121から出力される音声のうち、第2周波数帯域以外の帯域については低減されなくてもよい。即ち、音声認識処理への影響が相対的に低い帯域については、音声認識処理の実行時にも第1スピーカー121からの出力が維持されてもよい。このようにすれば、音声認識処理の精度を向上させつつ、ユーザーの聞き取りやすさを維持することが可能になる。また、本実施形態における音量低減制御とは、例えば可聴帯域全体における音量の平均や合計が低下する制御であればよく、第2周波数帯域以外の帯域において音量が増加する制御が実行されてもよい。
ただし、日常生活において、人が最も認識しやすい音域は中音であることが知られている。例えば第2周波数帯域として中音域やそれに対応する帯域の音量が低減された場合、ユーザーの聞き取りやすさに与える影響が大きい可能性がある。
よって制御部150は、音声認識処理が行われる場合、音声認識処理が行われない場合に比べて、第2周波数帯域の成分が増加した音声を第2スピーカー122が出力する制御を行ってもよい。このようにすれば、第2周波数帯域の成分が第2スピーカー122によって補われるため、音声認識処理の間もユーザーの聞き取りやすさを維持することが可能になる。
図10は、プロセッサー151の出力内容を説明する図である。例えば出力設定1の場合、プロセッサー151は、フロントスピーカー123に対して低・中・高音のすべての帯域に対応する音声信号を出力し、ハイトスピーカー124に対して中音及び高音に対応する音声信号を出力する。
また出力設定2の場合、プロセッサー151は、フロントスピーカー123に対して、出力設定1に比べて中音の音量を下げた音声信号を出力し、ハイトスピーカー124に対して、出力設定1に比べて中音の音量を上げた音声信号を出力する。
例えばプロセッサー151は、音声信号に対してFFT(fast Fourier transform)等の周波数解析処理を行い、フロントスピーカー123用の音声信号については中音域に対応する信号値を小さくし、ハイトスピーカー124用の音声信号については中音域に対応する信号値を大きくする処理を行ってもよい。あるいはプロセッサー151は、バンドパスフィルター等のフィルター処理を行うことによって中音の音量を制御してもよい。例えばプロセッサー151は、フロントスピーカー123用の音声信号についてはバンドパスフィルターによって中音域の信号を抽出し、抽出した信号を元信号から減算してもよい。またプロセッサー151は、ハイトスピーカー124用の音声信号についてはバンドパスフィルターによって中音域の信号を抽出し、抽出した信号を元信号に加算してもよい。その他、プロセッサー151における処理については種々の変形実施が可能である。
図11Aは、出力設定1及び出力設定2のそれぞれにおいて、第1スピーカー121に対応するフロントスピーカー123が出力する音声の周波数特性の例である。図11Aに示すように、出力設定1では低音域から高音域まで広い帯域の音声がフロントスピーカー123から出力される。一方、出力設定2では、中音域の音量が低減される。また図11Aに示すように、低音域及び高音域の音量は増加してもよい。
図11Bは、出力設定1及び出力設定2のそれぞれにおいて、第2スピーカー122に対応するハイトスピーカー124が出力する音声の周波数特性の例である。図11Bに示すように、出力設定1では低音域の音量は十分小さく、中音域及び高音域に対応する音声がハイトスピーカー124から出力される。一方、出力設定2では、中音域の音量が増加した音声が出力される。また図11Bに示すように、低音域及び高音域の一部の帯域における音量が増加してもよい。
本実施形態の処理の流れは、出力設定1及び出力設定2として図10が用いられる点を除いて、図9を用いて上述した例と同様である。
7.変形例
以下、いくつかの変形例について説明する。
<聞き取りやすさ重視>
第1実施形態では、音声認識処理の精度向上を重視し、相対的に音量の大きいスピーカー120を第1スピーカー121に設定する制御を行う例を説明した。しかし、ユーザーの聞き取りやすさを重視する制御が行われてもよい。
例えば出力停止制御及び音量低減制御が行われない状態において、第2スピーカー122の音量を表す第2音量は、第1スピーカー121の音量を表す第1音量に比べて大きくてもよい。換言すれば、相対的に音量の小さいスピーカー120が第1スピーカー121に設定されてもよい。
このようにすれば、相対的に音量の大きいスピーカー120が第2スピーカー122に設定され、音声認識処理時にも出力が継続される。結果として、第1スピーカー121に対する出力停止制御または音量低減制御が行われることで音声認識処理の精度を向上させつつ、ユーザーがテレビ音声等を聞き取りにくくなることを抑制できる。即ち、本変形例と第1実施形態を比較した場合、どちらも音声認識処理の精度と聞き取りやすさの両立が可能であるが、第1実施形態はより音声認識処理の精度を重視した制御であり、本変形例はより聞き取りやすさを重視した制御である。
また聞き取りやすさを重視した変形実施が可能である点は、第2実施形態及び第3実施形態についても同様である。
例えば、第4周波数帯域以外の帯域を含む音量に対する、第4周波数帯域における音量を音量比としたとき、出力停止制御及び音量低減制御が行われない状態において、第2スピーカー122の音量比は、第1スピーカー121の音量比より大きくてもよい。このように、音量比が相対的に大きいスピーカー120を第2スピーカー122に設定することによって、ユーザーの聞き取りやすさを重視した制御が可能になる。
特に第4周波数帯域が中音域やそれに対応する帯域である場合、日常生活において、人が最も認識しやすい音域の成分が多いスピーカー120が第2スピーカー122に設定されるため、音声認識処理時にも聞き取りやすい音声を出力することが可能になる。
また第2スピーカー122とマイク110との第2距離は、第1スピーカー121とマイク110との第1距離に比べて短くてもよい。例えばマイク110は、音声出力装置100の前面側等、ユーザーの音声を検出しやすい位置に配置される。そのため、マイク110に近いスピーカー120は、他のスピーカー120に比べて、ユーザーに音声を届けやすい位置に配置されている可能性がある。よってマイク110との距離が相対的に短いスピーカー120を第2スピーカー122に設定することによって、ユーザーの聞き取りやすさを重視した制御が可能になる。
<複数のマイク>
また音声出力装置100に含まれるマイク110は1つに限定されない。図12は、音声出力装置100が、マイク110として第1マイク111と第2マイク112の2つを含む場合の例を説明する図である。フロントスピーカー123、ハイトスピーカー124、デコーダー141、プロセッサー151、スプリッター152、アンプ153、アンプ154については図3と同様である。
例えば第2実施形態では、マイク110との距離に基づいて、第1スピーカー121と第2スピーカー122が設定される。マイク110が複数存在する場合、第1スピーカー121とマイク110との第1距離は、例えば複数のマイク110のうち、最も第1スピーカー121に近いマイク110と第1スピーカー121との距離であってもよい。同様に、第2スピーカー122とマイク110との第2距離は、複数のマイク110のうち、最も第2スピーカー122に近いマイク110と第2スピーカー122との距離であってもよい。
図12の例であれば、フロントスピーカー123とマイク110との距離は、フロントスピーカー123と第2マイク112の距離であるX2で表される。またハイトスピーカー124とマイク110との距離は、ハイトスピーカー124と第1マイク111の距離であるX1で表される。よりマイク110との距離が短いスピーカー120を第1スピーカー121に設定する例であれば、フロントスピーカー123が第1スピーカー121に設定され、ハイトスピーカー124が第2スピーカー122に設定される。
ただし、複数のマイク110との距離の和や平均等に基づいて各スピーカー120とマイク110の距離が定義されてもよい。また複数のマイク110の一部のみが音声認識処理に用いられる場合、音声認識処理に用いられるマイク110との距離に基づいて第1スピーカー121と第2スピーカー122が設定されてもよい。
また第1実施形態では、音量に基づいて第1スピーカー121と第2スピーカー122が設定され、当該音量はマイク110で受信する場合の受信音量であってもよい。マイク110が複数存在する場合、ここでの音量は複数のマイク110のそれぞれのマイク音声を合成した合成マイク音声の音量であってもよい。
図12の例であれば、フロントスピーカー123の音量は、フロントスピーカー123からの音声を第1マイク111で受信したマイク音声と、第2マイク112で受信したマイク音声を合成した合成マイク音声の音量である。ハイトスピーカー124の音量は、ハイトスピーカー124からの音声を第1マイク111で受信したマイク音声と、第2マイク112で受信したマイク音声を合成した合成マイク音声の音量である。このようにすれば、マイク110が複数ある場合にも、マイク110での受信音量に基づいて第1スピーカー121及び第2スピーカー122を設定することが可能になる。
ただし、複数のマイク110の一部のみが音声認識処理に用いられる場合、音声認識処理に用いられるマイク110での受信音量に基づいて第1スピーカー121と第2スピーカー122が設定されてもよい。
また音声出力装置100に含まれるマイク110は3個以上であってもよく、その場合も同様に第1スピーカー121及び第2スピーカー122を設定することが可能である。
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また音声出力装置、テレビ受信装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
100…音声出力装置、110…マイク、111…第1マイク、112…第2マイク、120…スピーカー、121…第1スピーカー、122…第2スピーカー、123…フロントスピーカー、124…ハイトスピーカー、130…音声認識部、140…音声信号取得部、141…デコーダー、150…制御部、151…プロセッサー、152…スプリッター、153…アンプ、154…アンプ、160…映像信号取得部、170…表示部、200…テレビ受信装置

Claims (16)

  1. マイクと、
    第1スピーカー及び第2スピーカーと、
    前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、
    音声信号を取得する音声信号取得部と、
    前記音声信号に基づいて、前記第1スピーカー及び前記第2スピーカーから音声を出力する制御を行う制御部と、
    を含み、
    前記音声認識部による前記音声認識処理が行われる場合、
    前記制御部は、
    前記第1スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
    前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わない音声出力装置。
  2. 請求項1において
    前記制御部は、
    前記音声認識処理が行われる場合、前記音声認識処理が行われない場合に前記第2スピーカーが出力する前記音声には含まれない第1周波数帯域の成分を含む前記音声を、前記第2スピーカーから出力する制御を行う音声出力装置。
  3. 請求項1において、
    前記制御部は、
    前記第1スピーカーに対して前記音量低減制御を行い、
    前記音声認識処理が行われる場合、前記音声認識処理が行われない場合に比べて、第2周波数帯域の成分が低減された前記音声を前記第1スピーカーから出力する制御を行う音声出力装置。
  4. 請求項3において、
    前記制御部は、
    前記音声認識処理が行われる場合、前記音声認識処理が行われない場合に比べて、前記第2周波数帯域の成分が増加した前記音声を前記第2スピーカーから出力する制御を行う音声出力装置。
  5. 請求項2又は4において、
    前記音声認識部による前記音声認識処理が行われない場合、
    前記制御部は、
    前記第1スピーカーから第1音声を出力し、前記第2スピーカーから第2音声を出力し、
    前記音声認識部による前記音声認識処理が行われる場合、
    前記制御部は、
    前記第1スピーカーに対して前記出力停止制御または前記音量低減制御を行い、前記第2音声に前記第1音声の少なくとも一部の成分が合成された合成音声を前記第2スピーカーから出力する制御を行う音声出力装置。
  6. 請求項1乃至5の何れか一項において、
    前記出力停止制御及び前記音量低減制御が行われない状態において、
    前記第1スピーカーの音量を表す第1音量は、前記第2スピーカーの音量を表す第2音量に比べて大きい音声出力装置。
  7. 請求項1乃至5の何れか一項において、
    前記出力停止制御及び前記音量低減制御が行われない状態において、
    前記第2スピーカーの音量を表す第2音量は、前記第1スピーカーの音量を表す第1音量に比べて大きい音声出力装置。
  8. 請求項6または7において、
    (1)前記第1音量は、前記制御部が前記第1スピーカーに出力する前記音声信号の振幅に基づく音量であり、前記第2音量は、前記制御部が前記第2スピーカーに出力する前記音声信号の振幅に基づく音量である、または
    (2)前記第1音量は、前記第1スピーカーが前記音声信号に基づいて出力する音量であり、前記第2音量は、前記第2スピーカーが前記音声信号に基づいて出力する音量である、または、
    (3)前記第1音量は、前記第1スピーカーが出力する前記音声を前記マイクで受信する場合の受信音量であり、前記第2音量は、前記第2スピーカーが出力する前記音声を前記マイクで受信する場合の受信音量である音声出力装置。
  9. 請求項6乃至8の何れか一項において、
    前記第1音量は、前記第1スピーカーの第3周波数帯域における音量を表し、前記第2音量は、前記第2スピーカーの前記第3周波数帯域における音量を表す音声出力装置。
  10. 請求項1乃至5の何れか一項において、
    第4周波数帯域以外の帯域を含む音量に対する、前記第4周波数帯域における音量を音量比としたとき、
    前記出力停止制御及び前記音量低減制御が行われない状態において、
    前記第1スピーカーの前記音量比は、前記第2スピーカーの前記音量比より大きい音声出力装置。
  11. 請求項1乃至5の何れか一項において、
    第4周波数帯域以外の帯域を含む音量に対する、前記第4周波数帯域における音量を音量比としたとき、
    前記出力停止制御及び前記音量低減制御が行われない状態において、
    前記第2スピーカーの前記音量比は、前記第1スピーカーの前記音量比より大きい音声出力装置。
  12. 請求項1乃至5の何れか一項において、
    前記第1スピーカーと前記マイクとの第1距離は、前記第2スピーカーと前記マイクとの第2距離に比べて短い音声出力装置。
  13. 請求項1乃至5の何れか一項において、
    前記第2スピーカーと前記マイクとの第2距離は、前記第1スピーカーと前記マイクとの第1距離に比べて短い音声出力装置。
  14. マイクと、
    第1スピーカー及び第2スピーカーと、
    前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、
    音声信号を取得する音声信号取得部と、
    映像信号を取得する映像信号取得部と、
    前記音声信号に基づいて、前記第1スピーカー及び前記第2スピーカーから音声を出力する制御を行う制御部と、
    前記映像信号に基づいて画像を表示する表示部と、
    を含み、
    前記音声認識部による前記音声認識処理が行われる場合、
    前記制御部は、
    前記第1スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
    前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わないテレビ受信装置。
  15. マイクと、第1スピーカー及び第2スピーカーと、を有する音声出力装置の制御方法であって、
    前記マイクを介して入力されたマイク音声に基づいて音声認識処理を行う場合、
    前記第1スピーカーからの音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
    前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わない、
    制御方法。
  16. マイクを介して入力されたマイク音声に基づいて音声認識処理を行う音声認識部と、
    音声信号に基づいて、第1スピーカー及び第2スピーカーから音声を出力する制御を行う制御部として、
    コンピューターを機能させ、
    前記音声認識部による前記音声認識処理が行われる場合、
    前記制御部は、
    前記第1スピーカーからの前記音声の出力を停止する出力停止制御、または、前記第1スピーカーから出力される前記音声の音量を所定の閾値以下に低減する音量低減制御を行い、
    前記第2スピーカーについては前記出力停止制御及び前記音量低減制御を行わないプログラム。
JP2021182966A 2021-11-10 2021-11-10 音声出力装置、テレビ受信装置、制御方法及びプログラム Pending JP2023070705A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021182966A JP2023070705A (ja) 2021-11-10 2021-11-10 音声出力装置、テレビ受信装置、制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021182966A JP2023070705A (ja) 2021-11-10 2021-11-10 音声出力装置、テレビ受信装置、制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023070705A true JP2023070705A (ja) 2023-05-22

Family

ID=86395234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021182966A Pending JP2023070705A (ja) 2021-11-10 2021-11-10 音声出力装置、テレビ受信装置、制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2023070705A (ja)

Similar Documents

Publication Publication Date Title
US9865279B2 (en) Method and electronic device
US7254243B2 (en) Processing of an audio signal for presentation in a high noise environment
JP5236006B2 (ja) 音声信号調整装置及び音声信号調整方法
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
CN106470379B (zh) 用于基于扬声器位置信息处理音频信号的方法和设备
JPH03236691A (ja) テレビジョン受信機用音声回路
JP5320303B2 (ja) 音響再生装置および映像音響再生システム
TW201012246A (en) A method and an apparatus for processing an audio signal
US20150049879A1 (en) Method of audio processing and audio-playing device
US11172294B2 (en) Audio device with speech-based audio signal processing
CN110996143B (zh) 数字电视信号处理方法、电视机、装置及存储介质
US9813039B2 (en) Multiband ducker
US12075234B2 (en) Control apparatus, signal processing method, and speaker apparatus
WO2019133942A1 (en) Voice-control soundbar loudspeaker system with dedicated dsp settings for voice assistant output signal and mode switching method
US20190362734A1 (en) Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof
JP2010212898A (ja) 音声信号処理装置及びテレビジョン受像機
CN112995854A (zh) 音频处理方法、装置及电子设备
JP2023070705A (ja) 音声出力装置、テレビ受信装置、制御方法及びプログラム
CN111133775B (zh) 音响信号处理装置以及音响信号处理方法
JP2009077378A (ja) 音声信号処理装置及び方法
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
US20120057714A1 (en) Automatic Tunable Earphone And Method For Tuning The Same
JP2010230972A (ja) 音信号処理装置、その方法、そのプログラム、および、再生装置
US9318126B2 (en) Voice clarification apparatus
JP2006042027A (ja) 音量制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240919